CN110443304A

CN110443304A - 一种基于机器学习模型的企业风险评估方法

Info

Publication number: CN110443304A
Application number: CN201910722029.3A
Authority: CN
Inventors: 李振; 鲍东岳; 张刚; 尹正
Original assignee: MINSHENG SCIENCE AND TECHNOLOGY Co Ltd
Current assignee: MINSHENG SCIENCE AND TECHNOLOGY Co Ltd
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-11-12

Abstract

本发明涉及企业风险评估技术领域，提供了一种基于机器学习模型的企业风险评估方法，将企业特征数据拆分为训练集和验证集，确定3个用于企业风险评估的模型算法；模型训练：将训练集进行5折交叉验证，同时使用3个所述模型算法训练模型；5份测试子集每个模型的预测概率值均形成一个新的字段；将所有新的字段与原始部分字段放在一起，使用stacking模型通过5折交叉验证再次学习，得出测试子集的最终预测概率值；对验证集进行预测，得到验证集的预测概率值。本发明采用了级联的模型融合方式，发挥多机器学习模型的优势，分别用3模型进行训练，并调优；使用三层级联的架构以及stacking融合的方式将模型融合；方法简单易用，应用前景广阔。

Description

一种基于机器学习模型的企业风险评估方法

技术领域

本发明涉及企业风险评估技术领域，特别涉及一种基于机器学习模型的企业风险评估方法。

背景技术

目前市场上的企业风险评估产品较少，且基本是专家评分为主，即使有模型产品也多数基于逻辑回归的单模型的算法。逻辑回归做企业风险评估对数据要求很高，且经常达不到理想的精度。比如，逻辑回归不擅长处理含有大量的字符型特征的数据，不擅长处理数值型变量与目标变量之间不存在线性关系的特征，不擅长处理特征较多的模型，不擅长处理特征含有很多空值的情况等；其次逻辑回归容易欠拟合，精度不够；最后逻辑回归对自变量的多重共线性比较敏感，经常需要去除相关性较高的变量。此外，仅仅使用单模型来训练模型，可能会导致模型不稳定。

发明内容

本发明的目的之一就是克服现有技术的不足，提供了一种基于机器学习模型的企业风险评估方法，使用了级联的模型融合方式，发挥多机器学习模型的优势，对企业风险进行建模。

本发明采用的技术方案如下：

一种基于机器学习模型的企业风险评估方法，所述方法包括：

S1、将企业特征数据拆分为训练集和验证集，确定3个用于企业风险评估的模型算法；

S2、模型训练：将训练集进行5折交叉验证，其中4份作为训练子集，剩下1份作为测试子集(5份数据轮流作一次测试子集)；同时利用3个所述模型算法来训练模型，每个模型算法对应确定5个模型(对于一个模型算法，每一份测试子集都对应一个模型，5份测试子集共对应5个模型)，记录各模型的最优参数；5份测试子集每个模型的预测概率值均形成一个新的字段；将所有新的字段以及原始部分字段放在一起，形成新的特征训练数据；使用stacking模型通过5折交叉验证再次学习，记录stacking模型的最优参数；

S3、使用S2模型训练的逻辑对S1中的验证集进行预测，得到验证集的最终预测概率值；

S4、模型评价。

进一步的，预测概率值为0-1之间的一个数值，代表企业不违约的概率。如好企业预测概率值为1，坏企业的预测概率值为0，当企业预测概率值为0.9时，表示该企业不违约概率为90％，相应的，违约概率为10％。

进一步的，所述S4中，模型评价的评价指标为正确率、召回率、精确率和ks指标中的一种或几种。

进一步的，3个所述模型算法分别为GBDT、Xgboost、Lightgbm。

进一步的，对步骤S1中的企业特征数据进行特征处理，具体步骤为：

1)去除缺失率超过80％的特征；

2)缺失数据为字符型的填充“空值”，缺失数据为数值型的用均值填充；

3)连续性变量做归一化处理；

4)字符型数据做成one-hot处理。

进一步的，步骤S1中，训练集和验证集的比例为4:1。

进一步的，步骤S3中，使用S2模型训练的逻辑对S1中的验证集进行预测的步骤为：

对验证集，使用某个所述模型算法对应的5个模型分别进行预测，得到5个预测概率值，取5个预测概率值的平均值作为该模型算法的新预测概率值；

3个模型算法得到3个新预测概率值；3个新预测概率值与原始部分字段放在一起，形成新的特征数据；

将新的特征数据使用所述stacking模型5折交叉得出最终的验证集预测概率值。

本发明的有益效果为：采用了级联的模型融合方式，发挥多机器学习模型的优势，分别用3模型进行训练，并调优；使用三层级联的架构，以及stacking融合的方式将模型进行融合，对企业风险评估更客观、综合；方法简单易用，应用前景广阔。

附图说明

图1所示为本发明实施例中模型算法训练的逻辑示意图。

图2所示为实施例中使用stacking模型训练的逻辑示意图。

图3所示为实施例中验证集的预测逻辑示意图。

图4所示为本发明实施例一种基于机器学习模型的企业风险评估方法的总体流程图。

具体实施方式

下文将结合具体附图详细描述本发明具体实施例。应当注意的是，下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。

如图4所示，本发明实施例一种基于机器学习模型的企业风险评估方法，包括：

首先对数据进行特征处理：

1)去除缺失率超过80％的特征；

3)连续性变量做归一化处理；

4)字符型数据做成one-hot处理。

S1、将企业特征数据拆分为训练集和验证集，训练集和验证集的比例为4:1，确定3个用于企业风险评估的模型算法GBDT,Xgboost,Lightgbm。

S2、模型训练：将训练集进行5折交叉验证，其中4份作为训练子集，剩下1份作为测试子集；同时利用3个所述模型算法来训练模型，每个模型算法对应确定5个模型，记录各模型的最优参数；每个模型都保存成可调用的model文件；此段逻辑如图1所示。

5份测试子集每个模型的预测概率值均形成一个新的字段；将所有新的字段以及原始部分字段(训练集形成)放在一起，形成新的特征训练数据；使用stacking模型通过5折交叉验证再次学习，得出测试子集的最终预测概率值，记录stacking模型的最优参数。模型保存成可调用的model文件，逻辑结果如图2所示。

S3、使用S2模型训练的逻辑对S1中的验证集进行预测，得到验证集的最终预测概率值；预测逻辑如图3所示。

验证集预测的具体方法为：对验证集，使用某个所述模型算法对应的5个模型分别进行预测，得到5个预测概率值，取5个预测概率值的平均值作为该模型算法的新预测概率值；3个模型算法得到3个新预测概率值；3个新预测概率值与原始部分字段放在一起，形成新的特征数据；将新的特征数据使用所述stacking模型5折交叉得出最终的验证集预测概率值。

S4、模型评价，评价指标使用正确率、召回率、精确率与ks指标中的一种或几种。

在完成模型构建之后，必须对模型的效果进行评估，根据评估结果来继续调整模型的参数、特征或者算法，以达到满意的结果。

评价一个模型最简单也是最常用的指标是准确率，但是在没有任何前提下使用准确率作为评价指标，准确率往往不能反映一个模型性能的好坏，例如在不平衡的数据集上，正类样本占总数的95％，负类样本占总数的5％；那么有一个模型把所有样本全部判断为正类，该模型也能达到95％的准确率，但是这个模型没有任何的意义。

因此，对于一个模型，需要从不同的方面去判断它的性能。在对比不同模型的能力时，使用不同的性能度量往往会导致不同的评价结果。

混淆矩阵:

True Positive(真正，TP)：将正类预测为正类数；

True Negative(真负，TN)：将负类预测为负类数；

False Positive(假正，FP)：将负类预测为正类数误报(Type I error)；

False Negative(假负，FN)：将正类预测为负类数→漏报(Type II error)。

评价指标说明如下：

正确率(accuracy)指的预测概率值正确的比例。

错误率则与准确率相反，描述被分类器错分的比例，error rate＝

(FP+FN)/(TP+TN+FP+FN)，对某一个实例来说，分对与分错是互斥事件，

所以accuracy＝1-error rate。

召回率：召回率是覆盖面的度量，度量有多个正例被分为正例，recall＝TP/(TP+FN)

精确度(Precision)：表示被分为正例的示例中实际为正例的比例。

ks指标，用于评价模型区分好坏样本的能力，0-1之间，一般ks越大说明模型效果越好。

本发明使用了基于多种机器学习算法主要有GBDT，Xgboost，Lightgbm来进行交叉验证的多模型融合方法进行企业风险评估。这种组合模型很好的解决了逻辑回归与单模型的大部分缺点。例如：此组合模型的基模型都是提升树模型，一方面在处理数据上的容忍度较大，可以处理特征较多的数据，针对有较多的空数据也可以根据添加新字段(XX是否为空)来进行很好的处理；其次基模型都属于提升模型，基模型的精度都会比逻辑回归的精度要高；最后，使用了交叉验证与模型组合，大大挺高模型的稳定性。

本文虽然已经给出了本发明的几个实施例，但是本领域的技术人员应当理解，在不脱离本发明精神的情况下，可以对本文的实施例进行改变。上述实施例只是示例性的，不应以本文的实施例作为本发明权利范围的限定。

Claims

1.一种基于机器学习模型的企业风险评估方法，其特征在于，所述方法包括：

S2、模型训练：将训练集进行5折交叉验证，其中4份作为训练子集，剩下1份作为测试子集；同时利用3个所述模型算法来训练模型，每个模型算法对应确定5个模型，记录各模型的最优参数；5份测试子集每个模型的预测概率值均形成一个新的字段；将所有新的字段以及原始部分字段放在一起，形成新的特征训练数据；使用stacking模型通过5折交叉验证再次学习，记录stacking模型的最优参数；

S4、模型评价。

2.如权利要求1所述的基于机器学习模型的企业风险评估方法，其特征在于，所述S4中，模型评价的评价指标为正确率、召回率、精确率和ks指标中的一种或几种。

3.如权利要求1所述的基于机器学习模型的企业风险评估方法，其特征在于，3个所述模型算法分别为GBDT、Xgboost、Lightgbm。

4.如权利要求1所述的基于机器学习模型的企业风险评估方法，其特征在于，对步骤S1中的企业特征数据进行特征处理，具体步骤为：

1)去除缺失率超过80％的特征；

3)连续性变量做归一化处理；

4)字符型数据做成one-hot处理。

5.如权利要求1所述的基于机器学习模型的企业风险评估方法，其特征在于，步骤S1中，训练集和验证集的比例为4:1。

6.如权利要求1所述的基于机器学习模型的企业风险评估方法，其特征在于，步骤S3中，使用S2模型训练的逻辑对S1中的验证集进行预测的步骤为：