CN117634893A - 风险评估模型训练方法、风险预测方法 - Google Patents
风险评估模型训练方法、风险预测方法 Download PDFInfo
- Publication number
- CN117634893A CN117634893A CN202410097057.1A CN202410097057A CN117634893A CN 117634893 A CN117634893 A CN 117634893A CN 202410097057 A CN202410097057 A CN 202410097057A CN 117634893 A CN117634893 A CN 117634893A
- Authority
- CN
- China
- Prior art keywords
- risk
- data
- assessment model
- risk assessment
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012502 risk assessment Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012549 training Methods 0.000 title claims abstract description 78
- 238000012795 verification Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 15
- 238000012935 Averaging Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 30
- 230000008859 change Effects 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 6
- 238000012216 screening Methods 0.000 description 6
- 238000000546 chi-square test Methods 0.000 description 4
- 238000012886 linear function Methods 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009514 concussion Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Abstract
本说明书实施例公开了一种风险评估模型训练方法、风险预测方法。该训练方法包括:获取若干承租方的样本数据集,每个样本数据集包括多个表征承租方经营信息和风险信息的特征数据、风险概率真值;将每个样本数据集的多个特征数据输入风险评估模型进行局部训练,利用损失函数进行预测判断,训练获得每一个样本所对应风险评估模型的局部最优参数;利用代价函数对所有样本进行全局训练,当代价函数最小时,训练完毕,获得风险评估模型的全局最优参数并输出训练好的风险评估模型;风险评估模型的参数包括每个特征数据的权重。风险预测方法基于训练得到的风险评估模型预测风险概率。本说明书实施例能客观、高效、较为准确预测风险。
Description
技术领域
本说明书的一个或多个实施例涉及数据处理技术领域,特别的涉及风险评估模型的训练方法、风险预测方法。
背景技术
出租人根据承租方的请求,与第三方(供货商)订立供货合同,出租人根据供货合同出资向供货商购买承租方选定的设备。为了保障出租人的权益,对承租方的信用等级进行风险评估就显得尤为重要。
为了确保上述业务的有序进行、避免租后风险对出租方造成损失,出租方在租后阶段会定期对承租方的经营状况、还款行为等进行监控,以判定承租方是否存在信用风险。然而,此类租后风险判定方法实时性较弱,较难提前预知承租方信用风险。
发明专利申请CN202110110606.0 公开了基于区块链的租赁风险评估方法,该方法包括从区块链系统中获取目标承租方所承租的目标租赁设备的运行数据;基于运行数据,通过评估模型对目标承租方关于目标租赁设备的租赁业务进行风险评估。运行数据由设置于目标租赁设备中的物联网模块采集并上传至区块链系统。一方面,该发明对获取、采集租赁设备物联网采集数据的硬件和系统要求较高,且需要具备获取权限;另一方面,该发明风险评估基于的运行数据只能体现设备使用情况,无法完全体现承租方在日常事项中的风险事项。
发明专利申请CN202111150054.2公开了风险预测方法,该方法包括:获取项目中目标承租方的多项特征数据,所述特征数据用于表征所述目标承租方的经营状况及信用状况;将所述多项特征数据输入分析计算引擎,以得到不同类型的风险预测结果;其中,所述分析计算引擎包括一个或多个经过大数据训练的预测模型,每个预测模型对应输出一个分支预测结果;根据所述分支风险预测结果评估所述目标承租方的综合风险。该发明对于参与计算模型训练的企业各项经营状况及信用状况特征的重要性没有做区分,使用相关性较低的特征进行模型训练,将可能导致模型的过拟合、泛用性不足。并且该发明的预测模型为神经网络模型,无法明确输出结果与输入信息之间的关系,即无法将计算预测结果转化为具有业务含义的原因说明。
发明内容
本说明书一个或多个实施例描述了风险评估模型的训练方法、风险预测方法,能够解决上述一个或多个技术问题。
第一方面,本说明书实施例提供了一种风险评估模型训练方法,包括:
获取若干承租方的样本数据集,每个样本数据集包括多个表征承租方经营信息和风险信息的特征数据、风险概率真值;
将每个样本数据集的多个特征数据输入风险评估模型进行局部训练,利用损失函数对风险评估模型输出的风险概率预测值与风险概率真值进行预测判断,当预测结果满足收敛条件,获得每一个样本所对应风险评估模型的局部最优参数;
其中,所述风险评估模型为基于每个特征数据对风险影响不同而形成的概率模型,所述局部最优参数包括每个特征数据的权重;
利用代价函数对所有样本进行全局训练,当代价函数最小时,训练完毕,获得风险评估模型的全局最优参数并输出训练好的风险评估模型;
其中,所述代价函数为对所有样本的损失值求平均的函数,所述全局最优参数包括每个特征数据的权重。
在一些实施例中,所述获取若干承租方的样本数据集,包括:
采集若干承租方的历史数据,所述历史数据包括经营信息、风险信息、风险概率真值;
对历史数据进行特征数值化处理;
以每个承租方为单位,构建样本数据集,每个样本数据集中包括多个将特征数据化处理后的特征数据。
在一些实施例中,所述获取若干承租方的样本数据集,还包括:
利用特征选择函数,从特征数值化处理后的特征数据中选取关联特征数据;之后,构建样本数据集,每个样本数据集中包括多个选取的关联特征数据。
在一些实施例中,所述利用特征选择函数,从特征数值化处理后的特征数据中选取关联特征数据,包括:
计算每一个特征数据发生风险的期望预测值和未发生风险的期望预测值;
利用卡方校验公式,计算每一个特征数据的分值,所述分值为期望真值与期望预测值的相近度的评估值;
基于评估值大小,从多个特征数据中选取评估值较大的若干特征数据作为关联特征数据。
在一些实施例中,在所述将每个样本数据集的多个特征数据输入风险评估模型进行局部训练前,方法还包括:利用正态分布随机初始化风险评估模型中每个特征数据的权重。
在一些实施例中,在所述利用代价函数对所有样本进行全局训练中,每一个样本所对应风险评估模型的局部最优参数利用梯度公式进行更新。
在一些实施例中,在输出训练好的风险评估模型前,方法还包括:
将若干承租方的验证集中的特征数据分别输入具有全局最优参数的风险评估模型中,输出发生风险的验证概率;
基于发生风险的验证概率,获得未发生风险的验证概率;
利用召回率公式,计算预测和实际均发生风险的比率不低于目标阈值时,则输出训练好的风险评估模型;否则,调整验证集和样本数据集中的数据,重复前述训练过程,直到预测和实际均发生风险的比率不低于目标阈值时结束。
第二方面,本说明书实施例提供了一种风险预测方法,包括:
获取承租方的特征数据集,所述特征数据集包括多个表征承租方经营信息和风险信息的特征数据;
所述多个特征数据输入如上述一个或多个实施例所述的方法训练得到的风险评估模型,输出风险概率。
在一些实施例中,所述获取承租方的特征数据集,包括:
采集承租方的信息数据,所述信息数据包括经营信息、风险信息;
对信息数据进行特征数值化处理;
构建特征数据集,所述特征数据集包括多个经特征数值化处理后的特征数据。
在一些实施例中,所述信息数据为根据训练好的风险评估模型中所需特征数据采集的数据。
本说明书一些实施例提供的技术方案带来的有益效果至少包括:
在本说明书一个或多个实施例中,利用逻辑回归算法训练风险评估模型,计算各项特征数据对风险评估结果的影响权重,使得在利用训练好的模型进行风险预测时,能客观、全面评估风险,尤其是结合了不同因素对风险影响的不同程度进行了综合性的风险评估;还对评估的特征数据进行筛选,以获得对风险影响关联度高的特征数据,进一步提高风险评估的准确性。
附图说明
为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的一种风险预测方法的流程图;
图2为本说明书实施例提供的一种风险评估模型的训练方法的流程图;
图3为本说明书实施例提供的另一种风险评估模型的训练方法的流程图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述。
本说明书中的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
为了确保业务的有序进行、避免租后风险对出租方造成损失,为此亟需一种风险预测方法,能在承租方租后风险发生之前进行高效准确地风险预警。
请参阅图1,图1示出了本说明书实施例提供的一种风险预测方法。
如图1,该风险预测方法具体可以包括以下步骤:
步骤102,获取承租方的特征数据集,所述特征数据集包括多个表征承租方经营信息和风险信息的特征数据;
步骤104,所述多个特征数据输入风险评估模型,输出风险概率。
其中,所述风险评估模型为基于每个特征数据对风险影响不同而形成的概率模型,其包含每个特征数据的权重。
所述风险评估模型利用线性逻辑回归算法构建的模型。例如,公式如下:
其中,P(Y=1|x)代表风险事件发生的概率,w是权重值向量,代表每个特征数据x对最终概率的影响权重和影响正负,b是偏移值标量,代表所有特征x都为0时的初始值。
本说明书实施例的风险预测方法,主要适用于非零售场景下的承租方租后风险预测。具体地,本说明书实施例的风险预测方法利用风险评估模型,基于承租方的不同信息,能在租后风险发生前预测风险。该方法由设备终端或风险计算平台执行完成。
下面将结合具体的例子及实施例对图1中的每一个步骤分别进行说明。
在步骤102中,所述获取承租方的特征数据集包括:
步骤1021,采集承租方的信息数据,所述信息数据包括经营信息、风险信息;
步骤1023,对信息数据进行特征数值化处理;
步骤1025,构建特征数据集,所述特征数据集包括多个经特征数值化处理后的特征数据。
在步骤1021中,所述信息数据通过爬虫方式从网络中获得,或者可通过采购数据源获得。所述数据通过工商数据、司法数据、财报数据等公开来源信息,采集得到企业的经营信息和风险信息。所述公开来源信息包括但不限于:工商信息、工商信息变更记录、股东高管信息、对外投资信息、立案信息、开庭公告、法院公告等。
采集后的数据需要进行清洗与处理,如处理数据缺失,则需要补充或剔除。
在步骤1023中,由于有些特征数据为非数值,则需要进行特征数值化处理。例如,采用线性函数归一化的方式对信息数据进行特征化处理。如,当信息数据包括采集到某家企业过去12个月中有负面舆情10条,工商信息变更记录5条,行政处罚1条时,则将舆情信息作为一种特征数据x1,并数值化为x1=10,将工商信息变更记录作为一种特征数据x2,并数值化为x2=5,将行业信息作为一种特征数据x3,并数值化为x3=1;将行政处罚作为一种特征数据x4,并数值化为x4=1。
由于特征数据是多种类型的,为了使得特征数据在数值化后在坐标系中的位置相对集中,加快训练过程中梯度下降的速度。为此,对上述特征数据进行归一化处理,利用线性函数归一化公式实现,公式如下:
代表特征数据的原始值,/>代表特征数据集中的最小值,/>代表特征数据集中的最大值。假设,原始特征数据集为{10,5,0,1},那么线性归一化后,,同理可得/>。
经过该步骤处理后,所有输入特征都会被映射到[0,1]的区间内,以使得特征值在坐标系中的位置相对集中。
将处理后的特征数据输入步骤104中的风险评估模型中,以得到预测风险概率。
在实际采集过程中,信息数据来源多,获得的特征数据有很多,可以将所有特征数据均输入风险评估模型进行风险预测,相应地风险评估模型也需要基于这些特征数据预先训练好,才能确定每个特征数据在风险预测时所对应的权重。考虑模型训练效率以及风险预测准度,可选择性采集信息数据,为此,获得的特征数据的数量也会减少。优选地,删选后保留对风险评估影响最相关或相对相关的特征数据,基于此,所要采集的信息数据也是基于关联的特征数据为目标进行对应性采集,或者从众多采集数据中筛选出所需要的关联的信息数据。相应地,所述风险评估模型基于选出的关联的特征数据进行训练,使得该模型包括关联的特征数据及其权重。预测得到的概率具有一定解释性,能反馈哪些特征数据会对风险进行综合影响,这都取决于该模型构建时客观考虑了风险影响的关联性特征数据,以及特征数据对于风险影响的不同程度。
所述风险评估模型在投入前需要进行训练。本说明书实施例提出了两种风险评估模型的训练方法(如图2、图3)。前者是对特征数据不进行筛选,训练得到的风险评估模型考虑的特征数据种类较多,后者是对特征数据进行关联性筛选,训练得到的风险评估模型考虑的特征数据种类适量。后者模型训练处理数据量较少,处理效率更高,且在投入使用后预测更为准确,剔除了无关联或关联性极低的特征数据。
请参阅图2,图2示出了本说明书实施例提供的一种风险评估模型的训练方法的流程图。
如图2,该训练方法具体可以包括以下步骤:
步骤202,获取若干承租方的样本数据集,每个样本数据集包括多个表征承租方经营信息和风险信息的特征数据、风险概率真值;
步骤204,将每个样本数据集的多个特征数据输入风险评估模型进行局部训练,利用损失函数对风险评估模型输出的风险概率预测值与风险概率真值进行预测判断,当预测结果满足收敛条件,获得每一个样本所对应风险评估模型的局部最优参数;
其中,所述风险评估模型为基于每个特征数据对风险影响不同而形成的概率模型,所述局部最优参数包括每个特征数据的权重;
步骤206,利用代价函数对所有样本进行全局训练,当代价函数最小时,训练完毕,获得风险评估模型的全局最优参数并输出训练好的风险评估模型;
其中,所述代价函数为对所有样本的损失值求平均的函数,所述全局最优参数包括每个特征数据的权重。
本说明书实施例的训练方法可在设备终端或风险计算平台执行完成。该训练过程能利用局部训练和全局训练,获得使风险评估模型预测准确的参数。该参数确定了每个特征数据对于风险的影响程度。也就是说,利用该训练方法训练得到的模型能客观、全面、较为准确地预测风险。
下面将结合具体的例子及实施例对图2中的每一个步骤分别进行说明。
在步骤202中,样本数据集用于模型训练,即为训练集。在投入训练前,获得大量历史数据,根据7:3或8:2等比例随机从历史数据中获取部分数据作为训练集,剩下数据作为验证集。
所述获取若干承租方的样本数据集,包括:
步骤2021,采集若干承租方的历史数据,所述历史数据包括经营信息、风险信息、风险概率真值;
该历史数据以承租方为单位获取。所述历史数据通过爬虫方式从网络中获得,或者可通过采购数据源获得。所述数据通过工商数据、司法数据、财报数据等公开来源信息,采集得到企业的经营信息和风险信息。所述公开来源信息包括单不限于:工商信息、工商信息变更记录、股东高管信息、对外投资信息、立案信息、开庭公告、法院公告等。
采集后的数据需要进行清洗与处理,如处理数据缺失,则需要补充或剔除。
步骤2023,对历史数据进行特征数值化处理;
由于有些特征数据为非数值,则需要进行特征数值化处理。例如,采用线性函数归一化的方式对历史数据进行特征化处理。如,当历史数据包括采集到某家企业过去12个月中有负面舆情10条,工商信息变更记录5条,行政处罚1条时,则将舆情信息作为一种特征数据x1,并数值化为x1=10,将工商信息变更记录作为一种特征数据x2,并数值化为x2=5,将行业信息作为一种特征数据x3,并数值化为x3=1;将行政处罚作为一种特征数据x4,并数值化为x4=1。
由于特征数据是多种类型的,为了使得特征数据在数值化后在坐标系中的位置相对集中,加快训练过程中梯度下降的速度。为此,对上述特征数据进行归一化处理,利用线性函数归一化公式实现,公式如下:
代表特征数据的原始值,/>代表特征数据集中的最小值,/>代表特征数据集中的最大值。假设,原始特征数据集为{10,5,0,1},那么线性归一化后,,同理可得/>。
经过该步骤处理后,所有输入特征都会被映射到[0,1]的区间内,以使得特征值在坐标系中的位置相对集中。
步骤2025,以每个承租方为单位,构建样本数据集,每个样本数据集中包括多个将特征数据化处理后的特征数据。
以上述示例为例,基于上述4种特征数据构建特征数据集{x1,x2,x3,x4}。实际采集过程中,历史数据有大量的经营信息和风险信息,实际获得的特征数据不限于4个,可能几十个或者更多。在此样本数据集中还存储有风险概率真值,其根据因统计的特征数据发生风险的数量和未发生风险的数量,计算获得风险概率真值。该值用于后续预测判断。
在进行步骤204、步骤206前,需要对风险评估结果进行二元化定义,定义租后风险发生的情况为1,不发生的情况为0,最终以使得模型输出结果在[0,1]区间内,即租后风险发生的概率。
在步骤204中,所述风险评估模型利用线性逻辑回归算法构建的模型。例如,公式如下:
其中,P(Y=1|x)代表风险事件发生的概率,w是权重值向量,代表每个特征数据x对最终概率的影响权重和影响正负,b是偏移值标量,代表所有特征x都为0时的初始值。,当wTx趋于正无穷时,P趋近于1,即最终风险事件概率越大;当wTx趋于负无穷时,P趋近于0,最终风险事件概率越小。
在投入训练前,所述风险评估模型中的参数需要初始化。为此,在所述将每个样本数据集的多个特征数据输入风险评估模型进行局部训练前,本说明书实施例的训练方法还包括:利用正态分布随机初始化风险评估模型中每个特征数据的权重。此外,还包括初始化偏移值参数b,一般为0。w和b参数在之后的训练过程中会随着模型的计算不断调整。使用随机值初始化w可以避免模型陷入局部最优解。可以直接使用python的numpy库等工具生产一组指定均值、标准差、维度的符合正态分布的随机数,如numpy.random.normal(loc=0.0,scale=1.0,size=(20,)),就可以生成20个均值为0,标准差为1的符合正态分布的随机数,作为20个特征权重参数w的初始值。
对每个样本数据集配置一个损失函数,例如,可配置如下损失函数:
其中代表该组特征数据经过模型计算后的预测值,/>与y越接近,/>的结果越接近0。/>最小代表这一个样本的局部最优参数。每个样本数据集中的特征数据输入风险评估模型,输出每个样本数据的风险概率预测值。对每个样本数据的预测值和真实值进行损失评判。当结果接近0,则判定收敛。即可确定局部优化下的模型参数。
之后,步骤206对整个模型所有特征进行全局训练。所述代价函数(CostFunction)为对所有样本的损失值求平均的函数,如下述公式:
其中,N代表样本数量,即对所有样本的/>求平均值。使/>最小时的w和b,即为本次训练中的全局最优参数。通过这组w和b参数,对当前训练集中的x进行预测后,输出的预测值/>和已知的y值能够最大程度匹配。
在所述利用代价函数对所有样本进行全局训练中,每一个样本所对应风险评估模型的局部最优参数利用梯度公式进行更新。
模型训练中通过梯度下降寻找本次训练的全局最优参数,当使用随机初始化的参数进行一次的计算后,计算其梯度,即/>和/>,分别代表/>对w和b的偏导数。使用梯度下降公式更新参数w和b:
其中代表模型的学习率,是一个超参数,代表模型的学习率,控制每次w和b参数更新的步长大小。学习率过大会导致模型震荡降低精准度,太小则会导致模型梯度下降速度过慢。考虑到模型输入特征维度控制在一定数量下,例如20个,计算量大小可控,因此可以给定一个较小的固定值,如0.01。通过梯度下降,重复计算代价函数,更新w和b参数,最终实现代价函数的收敛,获取到代价函数值最小时候的w和b参数。即为本次训练中最优的w和b参数。
在输出训练好的风险评估模型前,步骤206还包括:
将若干承租方的验证集中的特征数据分别输入具有全局最优参数的风险评估模型中,输出发生风险的验证概率;
基于发生风险的验证概率,获得未发生风险的验证概率;
利用召回率公式,计算预测和实际均发生风险的比率不低于目标阈值时,则输出训练好的风险评估模型;否则,调整验证集和样本数据集中的数据,重复前述训练过程,直到预测和实际均发生风险的比率不低于目标阈值时结束。
此过程用于校验之前训练获得的模型是否预测准确,若模型验证的结果低于召回验证时的目标阈值时,则需要重新按照比例随机划分训练集和检验集。重新获得的训练集在执行前述训练流程,得到训练好的风险评估模型。之后再次利用此过程进行验证,直到验证符合要求,则输出训练完毕的模型。
下面以具体实例进行简单验证。
假定模型预测结果0.80(租后风险发生概率80%)即为准确预测,收集检验集的预测结果与实际情况数据罗列以下表格:
表格一 检验集的预测结果与实际情况的对照表
TP-True Positive:实际有风险,判断有风险(真阳);
FP-False Positive:实际无风险,判断有风险(假阳);
FN-False Negative:实际有风险,判断无风险(假阴);
TN- True Negative:实际无风险,判断无风险(真阴)。
在该应用场景中,主要关注指标是有风险的承租方是否能被准确的判断出来,因此引入召回率公式进行验证:
Recall的值范围为[0,1],越接近1代表判断准确率越高。在模型验证阶段设定Recall的目标阈值,例如0.9,即90%以上的风险承租方被预测出来才算模型训练通过,否则本次训练视为未达到预设效果。
请参阅图3,图3示出了本说明书实施例提供的另一种风险评估模型的训练方法的流程图。
如图3,该训练方法具体可以包括以下步骤:
步骤302,获取若干承租方的样本数据集,每个样本数据集包括多个表征承租方经营信息和风险信息的特征数据、风险概率真值;
其中,样本数据集中的特征数据为利用特征选择函数从原始特征数据中选择得到的关联特征数据;
该原始特征数据指的是未做筛选前的特征数据,即包含了关联特征数据,以及其他特征数据。其他特征数据为较关联特征数据而言,为关联性更弱或者没有关联性的特征数据。
步骤304,将每个样本数据集的多个特征数据输入风险评估模型进行局部训练,利用损失函数对风险评估模型输出的风险概率预测值与风险概率真值进行预测判断,当预测结果满足收敛条件,获得每一个样本所对应风险评估模型的局部最优参数;
其中,所述风险评估模型为基于每个特征数据对风险影响不同而形成的概率模型,所述局部最优参数包括每个特征数据的权重;
步骤306,利用代价函数对所有样本进行全局训练,当代价函数最小时,训练完毕,获得风险评估模型的全局最优参数并输出训练好的风险评估模型;
其中,所述代价函数为对所有样本的损失值求平均的函数,所述全局最优参数包括每个特征数据的权重。
图3所示实施例与图2所示实施例的区别主要在于特征数据是筛选出来的,为此,将对其进行详细说明,其他相同部分不再赘述。
所述获取若干承租方的样本数据集,包括:
步骤3021,采集若干承租方的历史数据,所述历史数据包括经营信息、风险信息、风险概率真值;
步骤3023,对历史数据进行特征数值化处理;
步骤3025,利用特征选择函数,从特征数值化处理后的特征数据中选取关联特征数据;
步骤3027,以每个承租方为单位,构建样本数据集,每个样本数据集中包括多个选取的关联特征数据。
其中,所述利用特征选择函数,从特征数值化处理后的特征数据中选取关联特征数据,包括:
步骤A,计算每一个特征数据发生风险的期望预测值和未发生风险的期望预测值;
每个特征数据在计算期望期间,存在多种分支情况。例如,工商信息变更记录,其存在不同变更情况,可将不同变更情况作为一种分支情况,为此,期望计算需要对分支情况进行独立计算,之后在进行步骤B中的评估值时,需要对“工商信息变更记录”这个特征数据基于所有分支情况进行一个综合评定。
步骤B,利用卡方校验公式,计算每一个特征数据的分值,所述分值为期望真值与期望预测值的相近度的评估值;
卡方校验公式如下:
其中代表自由度,O代表观察值(即期望真值),E代表期望值。该公式可用于对每一项观察值与期望值的偏离情况进行定量评估,得到自由度/>。/>越大代表观察值与期望值的偏差越大,说明该特征与输出特征之间的数值分布越不符合自然期望,两者之间存在某种影响关系的可能性越大,互相独立的可能性越小。
步骤C,基于评估值大小,从多个特征数据中选取评估值较大的若干特征数据作为关联特征数据。
可以以选取特征数据数量为条件,选取数值最大的前若干个特征数据为关联特征数据,也可以以评估值的数值范围为条件,选取评估值大于阈值的特征数据。在上述两种任一方式下,筛选得到评估值较大的若干特征数据。
接下来,将以具体实例说明如何对特征数据进行筛选。该过程,使用SelectKBest方法对输入特征进行统计、筛选,保留对最终输出特征影响较大的输入特征参与后续步骤训练,降低特征维度。进而达到加快模型训练速度、避免模型过拟合、提高泛用性的目的。
SelectKBest方法的作用是通过卡方检验来衡量两个离散变量是否独立。使用SelectKBest方法可以对每个输入与输出特征之间的相关性打出评分,评分越高代表输入特征与输出特征之间的影响关系越大。最终根据模型训练效率与准确度之间的综合考虑,选择若干个个评分最高的特征,参与后续逻辑回归模型的训练。
以工商信息变更记录数量这个数据特征为例,说明SelectKBest方法通过卡方检验进行评分的过程。假设采集到的工商信息变更记录数(经过预处理归一化后的值)与租后风险事件发生的数据情况如下:
表二 采集到的工商信息变更记录数与租后风险事件发生的数据的对照表
其中,每一行工商信息变更情况不同。对这一组特征数据构造期望值,即假设工商信息变更数与发生租后风险事件企业数是完全独立事件无影响关系的情况下,按照数学期,计算每一种工商信息变更数对应的发生租后风险事件企业数和未发生租后风险事件企业数,公式:期望=(行求和*列求和)/总计。
表三 基于表二计算得到的期望值和观察值的对照表
上述期望值计算过程中,利用四舍五入法确定期望值数值。上述观察值为实际风险或无风险发生数。
如果工商信息变更与租后风险是完全独立未产生影响的,那么观察值和期望值之间应该较为相近。如果两者相差较大,说明工商信息变更与租后风险并不独立,前者对后者存在影响关系。此时可以用SelectKBest方法,通过卡方检验对观察值和期望值直接的相近度进行定量评分。
将本例中工商信息变更相关的数据代入卡方检验公式,可以得到=2.33。同理将其他所有特征数据都代入SelectKBest方法,计算每个特征数据的 />,最终筛选出/>最大的若干个特征数据,这些特征数据即为产生最大影响的特征。筛选得到的特征数据输入后续模型进行训练。
上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的实施例仅仅是本说明书的优选实施例方式进行描述,并非对本说明书的范围进行限定,在不脱离本说明书的设计精神的前提下,本领域普通技术人员对本说明书的技术方案作出的各种变形及改进,均应落入本说明书的权利要求书确定的保护范围内。
Claims (10)
1.风险评估模型训练方法,其特征在于,包括:
获取若干承租方的样本数据集,每个样本数据集包括多个表征承租方经营信息和风险信息的特征数据、风险概率真值;
将每个样本数据集的多个特征数据输入风险评估模型进行局部训练,利用损失函数对风险评估模型输出的风险概率预测值与风险概率真值进行预测判断,当预测结果满足收敛条件,获得每一个样本所对应风险评估模型的局部最优参数;
其中,所述风险评估模型为基于每个特征数据对风险影响不同而形成的概率模型,所述局部最优参数包括每个特征数据的权重;
利用代价函数对所有样本进行全局训练,当代价函数最小时,训练完毕,获得风险评估模型的全局最优参数并输出训练好的风险评估模型;
其中,所述代价函数为对所有样本的损失值求平均的函数,所述全局最优参数包括每个特征数据的权重。
2.根据权利要求1所述的方法,其特征在于,所述获取若干承租方的样本数据集,包括:
采集若干承租方的历史数据,所述历史数据包括经营信息、风险信息、风险概率真值;
对历史数据进行特征数值化处理;
以每个承租方为单位,构建样本数据集,每个样本数据集中包括多个将特征数据化处理后的特征数据。
3.根据权利要求2所述的方法,其特征在于,所述获取若干承租方的样本数据集,还包括:
利用特征选择函数,从特征数值化处理后的特征数据中选取关联特征数据;之后,构建样本数据集,每个样本数据集中包括多个选取的关联特征数据。
4.根据权利要求3所述的方法,其特征在于,所述利用特征选择函数,从特征数值化处理后的特征数据中选取关联特征数据,包括:
计算每一个特征数据发生风险的期望预测值和未发生风险的期望预测值;
利用卡方校验公式,计算每一个特征数据的分值,所述分值为期望真值与期望预测值的相近度的评估值;
基于评估值大小,从多个特征数据中选取评估值较大的若干特征数据作为关联特征数据。
5.根据权利要求1所述的方法,其特征在于,在所述将每个样本数据集的多个特征数据输入风险评估模型进行局部训练前,还包括:利用正态分布随机初始化风险评估模型中每个特征数据的权重。
6.根据权利要求1所述的方法,其特征在于,在所述利用代价函数对所有样本进行全局训练中,每一个样本所对应风险评估模型的局部最优参数利用梯度公式进行更新。
7.根据权利要求1所述的方法,其特征在于,在输出训练好的风险评估模型前,还包括:
将若干承租方的验证集中的特征数据分别输入具有全局最优参数的风险评估模型中,输出发生风险的验证概率;
基于发生风险的验证概率,获得未发生风险的验证概率;
利用召回率公式,计算预测和实际均发生风险的比率不低于目标阈值时,则输出训练好的风险评估模型;否则,调整验证集和样本数据集中的数据,重复前述训练过程,直到预测和实际均发生风险的比率不低于目标阈值时结束。
8.风险预测方法,其特征在于,包括:
获取承租方的特征数据集,所述特征数据集包括多个表征承租方经营信息和风险信息的特征数据;
所述多个特征数据输入如权利要求1-7之一所述方法训练得到的风险评估模型,输出风险概率。
9.根据权利要求8所述的方法,其特征在于,所述获取承租方的特征数据集包括:
采集承租方的信息数据,所述信息数据包括经营信息、风险信息;
对信息数据进行特征数值化处理;
构建特征数据集,所述特征数据集包括多个经特征数值化处理后的特征数据。
10.根据权利要求9所述的方法,其特征在于,所述信息数据为根据训练好的风险评估模型中所需特征数据采集的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410097057.1A CN117634893A (zh) | 2024-01-24 | 2024-01-24 | 风险评估模型训练方法、风险预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410097057.1A CN117634893A (zh) | 2024-01-24 | 2024-01-24 | 风险评估模型训练方法、风险预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117634893A true CN117634893A (zh) | 2024-03-01 |
Family
ID=90016585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410097057.1A Pending CN117634893A (zh) | 2024-01-24 | 2024-01-24 | 风险评估模型训练方法、风险预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117634893A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111918A (zh) * | 2021-03-17 | 2021-07-13 | 重庆城市管理职业学院 | 基于异常样本检测和多维信息输出的脑卒中风险筛查方法 |
CN113255883A (zh) * | 2021-05-07 | 2021-08-13 | 青岛大学 | 一种基于幂律分布的权重初始化方法 |
CN113822488A (zh) * | 2021-09-29 | 2021-12-21 | 平安国际融资租赁有限公司 | 融资租赁的风险预测方法、装置、计算机设备及存储介质 |
CN114692714A (zh) * | 2020-12-31 | 2022-07-01 | 中核控制系统工程有限公司 | 一种基于深度信念网络和相关性模型的故障诊断融合方法 |
CN115953226A (zh) * | 2022-12-15 | 2023-04-11 | 上海一嗨信息技术服务有限公司 | 一种车辆租赁风险评估方法及系统 |
CN116935122A (zh) * | 2023-07-21 | 2023-10-24 | 北京工商大学 | 基于3D-WGMobileNet的图像分类方法及系统 |
-
2024
- 2024-01-24 CN CN202410097057.1A patent/CN117634893A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114692714A (zh) * | 2020-12-31 | 2022-07-01 | 中核控制系统工程有限公司 | 一种基于深度信念网络和相关性模型的故障诊断融合方法 |
CN113111918A (zh) * | 2021-03-17 | 2021-07-13 | 重庆城市管理职业学院 | 基于异常样本检测和多维信息输出的脑卒中风险筛查方法 |
CN113255883A (zh) * | 2021-05-07 | 2021-08-13 | 青岛大学 | 一种基于幂律分布的权重初始化方法 |
CN113822488A (zh) * | 2021-09-29 | 2021-12-21 | 平安国际融资租赁有限公司 | 融资租赁的风险预测方法、装置、计算机设备及存储介质 |
CN115953226A (zh) * | 2022-12-15 | 2023-04-11 | 上海一嗨信息技术服务有限公司 | 一种车辆租赁风险评估方法及系统 |
CN116935122A (zh) * | 2023-07-21 | 2023-10-24 | 北京工商大学 | 基于3D-WGMobileNet的图像分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109993652A (zh) | 一种借贷信用风险评估方法及装置 | |
Horák et al. | Comparison of exponential time series alignment and time series alignment using artificial neural networks by example of prediction of future development of stock prices of a specific company | |
JP2006216019A (ja) | バリュー・チェーンと企業価値分析装置及び方法 | |
CN111105092A (zh) | 面向医院医保限额分配的数据交互系统及方法 | |
CN113869768A (zh) | 产业链强弱度的评价方法、装置、设备及可读介质 | |
CN114202243A (zh) | 一种基于随机森林的工程项目管理风险预警方法及系统 | |
CN114386856A (zh) | 一种空壳企业识别方法、装置、设备及计算机存储介质 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
Korol | The implementation of fuzzy logic in forecasting financial ratios | |
CN112950347A (zh) | 资源数据处理的优化方法及装置、存储介质、终端 | |
CN116433081A (zh) | 企业科创潜力评估方法、系统及计算机可读存储介质 | |
Neskorodieva et al. | The methodical approach of bankruptcy probability estimation in an anti-crisis management system of enterprise | |
CN117634893A (zh) | 风险评估模型训练方法、风险预测方法 | |
KR20130083053A (ko) | 악성 해외건설 프로젝트 판별 시스템 | |
CN115689713A (zh) | 异常风险数据处理方法、装置、计算机设备和存储介质 | |
CN115375474A (zh) | 信息提示方法、装置及电子设备 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
Marevac et al. | Decision-making AI for customer worthiness and viability | |
JP7298286B2 (ja) | モデル提供プログラム、モデル提供方法及びモデル提供装置 | |
CN113449923A (zh) | 一种多模型标的物行情预测方法和装置 | |
CN113870020A (zh) | 一种逾期风险控制方法及装置 | |
Gusmão et al. | A Customer Journey Mapping Approach to Improve CPFL Energia Fraud Detection Predictive Models | |
CN113282886B (zh) | 基于逻辑回归的银行对公贷款违约判别方法 | |
CN116342300B (zh) | 一种保险理赔人员特征分析方法、装置和设备 | |
Shen et al. | Modelling the predictive performance of credit scoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |