CN113222731A

CN113222731A - 一种基于机器学习的小样本信用评估方法、系统和介质

Info

Publication number: CN113222731A
Application number: CN202110451931.3A
Authority: CN
Inventors: 刘海滨; 李健
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-08-06

Abstract

本发明公开了一种基于机器学习的小样本信用评估方法、系统和介质。选取小样本数据训练生成对抗网络模型，待网络达到纳什均衡后，利用生成网络产生同分布的伪数据，然后伪数据与真实数据结合生成扩增样本，使用扩增样本训练机器学习模型用以信用评估。本发明解决了现阶段小样本数据建模遇到的问题，如数据获取困难、数据量少、样本分布不均匀、数据价格昂贵等，同时也解决了小样本数据所带来的信用评估模型性能不佳等问题。

Description

一种基于机器学习的小样本信用评估方法、系统和介质

技术领域

本发明属于机器学习领域，特别涉及一种基于机器学习的小样本信用评估方法、系统和介质。

技术背景

现有信用模型的构建，不仅需要足够多的特征变量，通常对于建模样本的容量也有一定的要求。小样本量无法满足现有评分卡、XGBoost等机器学习方法的要求，导致模型无法达到预期的准确率和良好区分风险的目的。同时，个人和企业也越来越重视对信息数据的保护，导致真实数据样本的获取变得更加困难。

现有的小样本学习方法，主要是基于特征变量的信息归纳和重复衍生，且主要应用在图像处理和分类上面，对于信用评估领域暂无涉及。

本发明主要是针对小样本数据，提出了一种基于机器学习的小样本的样本扩增和信用评估方法、系统和介质。该方法仅需要少量的数据即可，解决了数据获取困难、数据量少、数据昂贵等数据问题，以及数据量问题带来的信贷模型效果不佳等问题。通过与现有模型对比，该方法表现了较好的效果和性能。

发明内容

本发明用于解决因为数据获取困难、数据量少，而带来的信贷模型预测效果不佳的问题。针对现有技术中存在的上述问题，提出一种基于机器学习的小样本信用评估方法、系统和介质。选取小样本数据训练生成对抗网络模型，待达到纳什均衡后，利用生成网络产生同分布的伪数据，然后伪数据与真实数据结合生成扩增样本，使用扩增样本训练机器学习模型用以信用评估。

为了解决上述问题，本发明采用的技术方案为：

1、获取数据：例如小微企业的数据，包括特征变量P1和目标变量；

2、数据预处理：对特征变量P1进行数据清洗、变量初筛和变量标准化等；

3、数据扩增：使用预处理后的数据集训练生成对抗网络模型M1，使用达到均衡后的生成网络产生与数据集同分布的伪数据，伪数据与原数据集结合形成扩增样本；

4、模型训练：使用扩增样本训练机器学习模型M2，用于信用评估；

5、模型评估和预测：根据新的数据，计算其信用水平。

优选地，生成对抗网络模型M1与后续用于信用评估的机器学习模型M2可以分开使用，模型M1用以产生“伪数据”，模型M2用于信用评估和预测。将模型M1单独架构在内网中，这样便可仅导出少量部分真实用户数据和大量的“伪数据”，对数据保护起到非常好的作用。

优选地，在机器学习模型M2训练的过程中，模型M2除采用机器学习模型，例如决策树、支持向量机、GBDT、XGBoost等，还可以使用逻辑回归方法进行建模，进一步可将结果转化为更易于理解的评分卡。

优选地，本方法不仅可以应用于小微企业的信用评估，还可以应用于其他样本数据较难获取或者样本数据价格昂贵的评估模型，例如理财用户、信用卡用户评级等，更甚至于可应用于军工领域的效能评估，具有广泛的适用性。

此外，本发明还提供一种基于机器学习的小样本信用评估系统，包括计算机设备，该计算机设备被编程或配置以执行所述基于机器学习的小样本信用评估方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行所述基于机器学习的小样本信用评估方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行所述基于机器学习的小样本信用评估方法的计算机程序。

和现有技术相比，本发明具有下述优点：

1、本发明解决了现阶段小样本数据建模遇到的普遍问题，如数据获取困难、数据量少、样本分布不均匀、数据价格昂贵等，极大的保护了用户数据，避免了数据泄露风险，同时也解决了小样本数据所带来的信用评估模型性能不佳等问题。

2、本发明在数据预处理过程中进行变量初筛，旨在建模之前就剔除一些无关变量，可以避免由于无效变量或者变量之间的相关性减弱模型效果。过多的变量，反而有可能会导致模型过于复杂、不好解释，甚至导致模型效果减弱。

3、本发明通过机器学习的方法构建模型，极大降低了人工成本，提高了效率和收益。同时，较传统的模型评估效果更好，降低了信贷风险，减少了损失。

4、本发明不仅仅适用于小微企业的信用评估，对于其他数据量较少或是数据敏感领域的相关评估，亦能达到相同的效果，具有广泛的适用性。

附图说明

图1为本发明实施例中信用评估方法的总体流程图。

图2为本发明实施例中信用评估方法中数据预处理的子流程图。

图3为本发明实施例中信用评估方法中数据扩增的子流程图。

图4为本发明实施例中信用评估方法中模型训练和评估的子流程图。

具体实施方式

本发明实施例的总体实施步骤主要分为五步：

第一步：获取数据，即获取建模所需要的原始数据集T，包括特征变量P1和目标变量。特征变量是指可获取的小微企业的相关数据，如企业的基本情况、财务信息和企业的法人相关信息，以及宏观经济信息等特征维度，具体可选取的变量如下表1所示(表1仅列出部分变量，其他业内公开的可用数据也可纳入特征变量中)；目标变量是指企业的历史逾期情况，即该企业历史在信贷公司或银行的逾期情况，通常用0/1表示，逾期的定义需结合实际业务来设定阈值，超过阈值天数则标注为1(风险较高，信誉度较差，记为坏样本)，如当前最大逾期天数是否大于90天、历史最大逾期天数是否大于180天等。

表1

第二步：数据预处理，对原始特征变量P1进行数据清洗、变量初筛得到变量P2，变量P2标准化处理后得到变量P3。详细实施步骤如图2所示，包括：

Step1：数据探索，对数据集T的特征变量P1进行描述性统计。通过查看变量P1的统计指标，如最小值、最大值、均值、中位数等，对变量P1的分布有所了解。同时，可结合小微企业的逾期情况，判断变量P1的区分效果是否明显。

Step2：对变量P1进行数据清洗，包括对重复值、异常值和缺失值的检测和处理等。数据清洗目的在于删除重复、错误的数据，保证数据的准确性和一致性。对于缺失值，主要的处理方式有几种：直接使用含有缺失值的特征变量；将缺失值使用某一固定值进行替换，如均值、中位数、同类均值等；删除含有缺失值的特征变量(主要用于缺失率较高，而仅仅包含极少量有效值的情况)。本实施例中，剔除了缺失值高于80％的变量，对其他变量的缺失值用均值进行替换。

Step3：计算特征变量P1的IV值(Information Value，衡量变量的预测能力)、KS值(Kolmogorov-Smirnov，衡量数据对好坏样本的区分能力)。

Step4：设定一定的阈值，选取P1中合适的变量得到变量P2。变量初筛目的在于建模之前就剔除一些无关变量，筛选少而精的变量用于后续模型训练，可以避免由于无效变量或者变量之间的相关性减弱模型效果。本实施例中，选取IV大于0.01的变量进行后续步骤。

Step5：数据标准化。数据标准化目的在于消除变量间不同单位的影响，将其转化为无量纲的纯数据，便于对变量进行比较和加权。将上述步骤中选取的变量P2做标准化处理，将其统一转化到[-1，1]区间内，得到变量P3。转换函数如下：

其中，变量x为预处理后数据集T的某一特征维度，变量x的第i个取值为x_i，max(x)为变量x的最大值，min(x)为变量x的最小值。

第三步：数据扩增，使用预处理后的数据集训练生成对抗网络模型M1，使用达到均衡后的生成网络产生与数据集同分布的伪数据，伪数据与原数据集结合形成扩增样本。详细实施步骤如图3所示，包括：

Step1：划分训练集T1和测试集S2。按照一定的比例，将处理后的数据集划分为训练集T1和测试集S2，要求训练集T1、测试集S2中的好坏样本比尽量保持一致，训练集T1用于后续生成模型的训练，测试集S2用于模型的效果评估。

Step2：使用训练集T1训练生成对抗网络模型M1，直至网络达到纳什均衡，即生成对抗网络模型M1可以模拟数据集T的分布。传统的生成对抗网络主要用于图像的处理，因此模型主要使用卷积网络作为主干网络。本发明中的M1模型是对传统生成对抗网络模型的改造，使其可以处理离散维度的数据：将传统生成对抗网络中的生成网络改造为输入层与变量P3维度相同的深度网络模型，深度网络模型引入正则化方法(本发明使用dropout方法)，防止模型过拟合；判别网络也将接收真实样本输入的部分进行改造，使输入层网络节点数与P3维度相同。

Step3：利用训练好的生成模型M1产生同分布的伪数据R。

Step4：将伪数据R与训练集T1结合，形成新的训练集T2，即扩增样本。

第四步：使用扩增样本T2，采用机器学习方法训练深度模型M2，用于后续信用评估和预测。模型M2可采用决策树、支持向量机、GBDT、XGBoost等方法，本发明中使用XGBoost模型进行预测。详细实施步骤如图4所示，包括：

Step1：使用扩增后的数据集T2训练深度模型M2。

Step2：利用模型M2对测试集S2进行预测，得到预测结果MP2。

第五步：模型评估和预测。根据新的数据，利用模型M2计算其信用水平。

为了对本实施例基于机器学习的小样本信用评估方法进行验证，选取小微企业数据，进行数据扩增和模型训练，并与直接使用数据集T1训练的模型M3(M3模型方法与M2一致)进行效果对比。发现使用扩增样本训练的模型M2比直接使用原训练集训练的模型M3区分能力更好，准确率也更高。为了防止评估验证的偶然性，可使用交叉验证进行多组实验。

此外，本实施例还提供一种基于机器学习的小样本信用评估系统，包括计算机设备，该计算机设备被编程或配置以执行本实施例前述基于机器学习的小样本信用评估方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行本实施例前述基于机器学习的小样本信用评估方法的计算机程序。此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行本实施例前述基于机器学习的小样本信用评估方法的计算机程序。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于机器学习的小样本信用评估方法，其特征在于包括以下步骤：

1)获取数据：包括特征变量P1和目标变量；

2)数据预处理：对特征变量P1进行数据清洗、变量初筛得到变量P2，变量P2标准化处理后得到变量P3；其中，数据清洗用于删除重复、错误的数据，保证数据的准确性和一致性；变量初筛用于筛选少而精的变量用于后续模型训练；变量标准化用于消除变量间不同单位的影响；

3)数据扩增：使用预处理后的数据集训练生成对抗网络模型M1，使用达到均衡后的生成网络产生与数据集同分布的伪数据，伪数据与原数据集结合形成扩增样本；

4)模型训练：使用扩增样本训练机器学习模型M2，用于信用评估和预测；

5)模型评估和预测：根据新的数据，计算其信用水平。

2.根据权利要求1所述的一种基于机器学习的小样本信用评估方法，其特征在于，所述的特征变量指可获取的小微企业的相关数据，包括企业的基本情况、财务信息、企业的法人信息，以及宏观经济信息；

所述的目标变量指企业的历史逾期数据。

3.根据权利要求1所述的一种基于机器学习的小样本信用评估方法，其特征在于，步骤2)数据预处理具体包括以下步骤：

Step1：数据探索，对特征变量P1进行描述性统计；

Step2：对特征变量P1进行数据清洗，包括对重复值、异常值和缺失值的检测和处理；

Step3：计算特征变量P1的IV值、KS值；

Step4：设定阈值，选取变量P1中IV值大于阈值的特征变量组成变量P2；

Step5：数据标准化，将上述步骤中选取的变量P2做标准化处理，将其统一转化到[-1，1]区间内，得到变量P3。

4.根据权利要求1所述的一种基于机器学习的小样本信用评估方法，其特征在于，步骤3)数据扩增中的实施步骤包括：

Step1：划分训练集T1和测试集S2；

Step2：使用训练集T1训练生成对抗网络模型M1，直至网络达到纳什均衡；

Step3：利用训练好的模型M1产生同分布的伪数据R；

5.根据权利要求1所述的一种基于机器学习的小样本信用评估方法，其特征在于，生成对抗网络模型M1将传统生成对抗网络中的生成网络改造为输入层与变量P3维度相同的深度网络模型，深度网络模型引入正则化方法，防止模型过拟合；判别网络也将接收真实样本输入的部分进行改造，使输入层网络节点数与P3维度相同。

6.根据权利要求1所述的一种基于机器学习的小样本信用评估方法，其特征在于，步骤4)模型训练中的实施步骤包括：

Step1：使用扩增后的数据集T2训练机器学习模型M2；

Step2：利用模型M2对测试集S2进行预测，得到预测结果MP2。

7.根据权利要求1所述的一种基于机器学习的小样本信用评估方法，其特征在于，模型M2采用决策树、或者支持向量机、或者GBDT、或者XGBoost。

8.一种基于机器学习的小样本信用评估系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求1～7中任意一项所述基于机器学习的小样本信用评估方法的步骤，或该计算机设备的存储介质上存储有被编程或配置以执行权利要求1～7中任意一项所述基于机器学习的小样本信用评估方法的计算机程序。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～7中任意一项所述基于机器学习的小样本信用评估方法的计算机程序。