CN117591945A

CN117591945A - 一种基于动态支持向量机的企业信用评分样本标注方法

Info

Publication number: CN117591945A
Application number: CN202311413885.3A
Authority: CN
Inventors: 郭长营; 崔乐乐; 李仰允
Original assignee: Tianyuan Big Data Credit Management Co Ltd
Current assignee: Tianyuan Big Data Credit Management Co Ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-02-23

Abstract

本发明提供一种基于动态支持向量机的企业信用评分样本标注方法，属于金融样本标注领域，本发明利用使用企业信用的历史数据，采用动态的支持向量机分类模型，并采用基于交叉验证的网格搜索对模型参数进行训练，完成分类工作；后续对新获取的数据进行同样步骤的数据预处理，并作为样本对模型训练，更新相关模型系数，以适应数据的动态分布，以该模型对无标签样本进行标注。能够更加准确的标记出数据的标签。

Description

一种基于动态支持向量机的企业信用评分样本标注方法

技术领域

本发明涉及金融样本标注领域，尤其涉及一种基于动态支持向量机的企业信用评分样本标注方法。

背景技术

随着互联网的迅速发展,人们的日常工作与生活习惯发生了质的改变。互联网技术的发展和应用以迅雷不及掩耳之式渗透到各行各业,尤其是金融行业,传统金融行业正接受着大数据、互联网以及用户体验不平衡不对称的严峻考验。大数据风控技术已经成为业内人士最关注的一个大数据应用焦点。金融风控模型是互联网金融健康成长的必然趋势。当前我国互联网金融信用体系还不是很完善,征信系统和有关法律都含有一定的缺陷。

信用评分模型常用的方法是逻辑回归，逻辑回归的训练是需要有标签的数据；另外，在进行特征工程指标重要性分析时，也需要有标签的数据，比如相关性分析、xgboost指标重要性分析等；然而，很多情况下，不能以现有的指标为所有的训练数据标注合适的标签，这会使得逻辑回归建立信用评分模型的训练样本不足，或者无法训练。

逻辑回归(Logistic regression)是机器学习领域最为常见的模型方法之一，常常用于作为处理各种任务的基准模型(baseline)。当然各类任务往往最后所用模型的性能远超过逻辑回归方法，但是其模型结构的复杂度和训练时间也往往超过逻辑回归方法；因其可解释性高的优点，在风控建模方面有广泛的应用。

开发信用评分模型的首要目标就是知道来者是好人还是坏人，他未来会不会出现逾期、失联等。所以，如何定义一个借款人的好坏十分讲究，并不是一个人有过逾期欠款他就不是好人了，毕竟发生逾期的原因总是多方面的，有的仅仅是偶尔忘了，这部分总体还是好人，而有的是中途发生财务原因暂时无力偿还，还有的严重一点就是主观上存在坏的目的，借了钱就消失赖账，甚至是身份被骗子盗用。所以，建模过程中，为了训练出一个优质的模型，需要正确地定义好坏样本。

发明内容

为了解决以上技术问题，本发明提供了一种基于动态支持向量机的企业信用评分样本标注方法。

本发明的技术方案是：

一种基于动态支持向量机的企业信用评分样本标注方法，可以利用使用企业信用的历史数据，采用动态的支持向量机分类模型，并采用基于交叉验证的网格搜索对模型参数进行训练，完成分类工作。后续对新获取的数据进行同样步骤的数据预处理，并作为样本对模型训练，更新相关模型系数，以适应数据的动态分布，以该模型对无标签样本进行标注，解决信用评分模型建模样本标签不足的问题，同时，很大程度上节约了人力成本以及人工标注的时间。

本发明选用含有标签的企业信用数据进行训练，数据进行缺失值、同值分析，进行特征的第一次筛选，然后基于KS分箱的信息熵方法对特征进行细致的筛选，完成特征筛选步骤。对筛选完成的数据样本进行训练集和测试集的划分，以完成后续模型训练工作。提出一种动态的支持向量机分类模型，并采用基于交叉验证的网格搜索对模型参数进行训练，完成分类工作。后续对新获取的数据进行同样步骤的数据预处理，并作为样本对模型训练，更新相关模型系数，以适应数据的动态分布，为后续的企业进行标记。

进一步的，

基于历史数据从高维数据中获得用于构建企业信用评分模型的数据信息，相关数据源包括监管数据、征信数据等，通过对多源异构数据分析、融合、汇聚形成标准数据库，基于标准数据库筛选建立企业信用评分模型指标体系；通过数据清洗、无效值处理、同值统计、缺失值统计、缺失值填充等流程构建企业信用评分模型特征工程；根据部分意义明确的指标，确定部分样本的标签；基于有标签的样本，对动态支持向量机进行训练，获取初始的样本标记标签模型，对无标签的样本进行标记，并使用所有含有标签的数据进行后续信用评分模型的建设；随着有标签的数据量增加，对初始的样本标记标签模型进行动态训练，以用于无标签样本的标注。

具体如下

标准数据库建立步骤：多源数据包括部门数据、互联网数据、第三方数据共计三方数据源，三方数据源通过数据汇聚、融合比对等建立标准数据库；

企业信用评分模型指标体系的建立步骤：基于建立的多源数据标准库，建设用于企业信用评分的指标体系，构建指标的数据主要来源于工商、变更、行政处罚、失信、负债、税务等数据中；另外，投资、担保、分支、法人等关系数据也用于构建部分指标；

筛选好坏含义明确的指标，为部分样本标注标签；入模指标通过数据清洗、无效值处理、同值统计、缺失值统计、共线性分析等特征工程，并提出基于KS分箱的信息熵法进行特征选择，提出动态的支持向量机分类模型，并采用基于交叉验证的网格搜索对模型参数进行训练，得到初步的标注模型，后续对新获取的数据进行同样步骤的数据预处理，并作为样本对模型训练，更新相关模型系数，以适应数据的动态变化，为未标注的样本打标签，用于后续企业信用评分模型的训练。

企业信用评分模型建立步骤：上述步骤中指标进行了数据清洗、无效值处理、同值统计、缺失值统计等特征工程；以训练得到的标签标注模型对所有的样本标注标签，然后进行企业信用评分的常用步骤，包括相关性分析、共线性分析，去除指标之间相关性，共线性过高的指标；xgboost指标重要性分析，筛选出对模型其关键作用的指标；对指标进行分布检验并做转换；基于逻辑回归训练模型；评分卡转换。

所述标准数据库构建的步骤

多源异构数据的治理：多源数据来源于企业、部门、互联网等多方来源，包括结构化的数据以及半结构化数据，既包括存量数据也包括API接口提供的数据。半结构化的数据需要经过文本数据处理、数据提取、数据的结构化处理等形成结构化的入库数据，通过建立统一的数据标准规范对入库的多源数据进行规范化管理，互联网数据等可存储数据定期拉取，实时接口数据通过内存进行处理，结合批流处理模式对数据进行数据加工处理、数据标准化、轻特征挖掘等；

数据融合：三方多源数据通过横纵向数据融合，多源互补数据、冗余数据、重叠数据通过不同的融合策略最终融合汇聚到统一的数据库中，数据库存储多源数据融合之后的标准库数据、加工所得指标库、特征库等信息。

所述指标体系的两部分组成及构建的步骤：

企业信用评分的指标体系基于建立的多源数据标准库，从数据中建设用于企业信用评分指标体系。

本发明在构建分类器时，提出动态的支持向量机，可以利用历史数据进行初次模型的训练，然后随着时间的推移，可以利用后续更新数据对模型进行优化，提高模型的适应性与鲁棒性。

本发明在进行模型参数训练时，提出一种基于交叉验证的网格搜索方法，网格搜索可以有效覆盖最优参数的取值范围，而使用K折交叉验证可以减少网格搜索的时间成本消耗，以期最快的速度获得最优参数，能够有效提高分类精度，对企业标注具有促进作用。

本发明设计详细特征选择步骤，采用基于KS分箱的信息熵法，一方面能够减少离群点、空值等异常噪声的影响，另一方面，可以很好的测定每一特征对数据正常或者异常的贡献度，特征选择的关键影响到后续模型的准确度。

本发明的有益效果是

本发明提出了一种基于动态支持向量机的企业信用评分样本标注方法，基于用户汇聚的多源数据，通过数据之间融合比对，不同原始字段对齐，对多源异构数据分析融合等方法建立形成标准数据库；基于建立的标准数据库，从高维数据中获取有助于信用评分建模的信息；基于标准数据库筛选建立信用评分指标体系，通过数据清洗、无效值处理、同值统计、缺失值统计等流程初步筛选形成信用评分入模特征；以具有明确好坏含义的指标对部分样本进行标注；使用动态的支持向量机分类模型，并采用基于交叉验证的网格搜索对模型参数进行训练，得到初步的标注模型，后续对新获取的数据进行同样步骤的数据预处理，并作为样本对模型训练，更新相关模型系数，以适应数据的动态变化；用所有的样本进行信用评分模型的训练。与现有技术相比，具有如下的有益结果：

1、相较于传统的标签标注方法，本发明在构建信用评分模型的好坏标签时，首先基于具有明确好坏含义的指标为部分样本标注标签，然后基于动态支持向量机，为其他未标注样本打标签；该方法很大程度上节约了人力成本以及人工标注的时间。

2、本发明在构建分类器时，提出动态的支持向量机，可以利用历史数据进行初次模型的训练，然后随着时间的推移，可以利用后续更新数据对模型进行优化，提高模型的适应性与鲁棒性；

3、伴随海量数据的汇聚、科技的不断进步，监督学习已应用到许多领域，而且很多方面都会存在等，本发明提出的方法对各个场景均适用，从数据的角度，对特征重要性进行量化分析，应用前景极为广阔。

附图说明

图1是本发明的工作流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于动态支持向量机的企业信用评分样本标注方法，动态支持向量机是基于标准支持向量机的变形，能够根据数据样本的变动，量化出数据上的差距，并进行模型参数的调整，能够更加准确的标记出数据的标签。

实现步骤主要包括：基于用户汇聚的多源数据，通过数据之间融合比对，不同原始字段对齐，对多源异构数据分析融合等方法建立形成企业标准数据库；基于建立的标准数据库，从高维数据中获取有助于建设信用评分模型的数据信息；基于标准数据库筛选建立信用评分指标体系，通过数据清洗、无效值处理、同值统计、缺失值统计等流程完成指标数据的预处理工作；筛选含义明确的指标，为部分样本标注标签；提出基于KS分箱的信息熵法进行深度特征选择，使用动态的支持向量机分类模型，并采用基于交叉验证的网格搜索对模型参数进行训练，得到初步的标注模型，后续对新获取的数据进行同样步骤的数据预处理，并作为样本对模型训练，更新相关模型系数，以适应数据的动态分布；得到含有标签的样本数据用于后续企业信用评分模型训练。

1.多源异构数据分析融合建立标准数据库

用户的多源异构数据覆盖用户的部门数据，用户的互联网数据包括经营、投资、知识产权等数据，用户的第三方数据包括用户对外担保、用水用电、股权质押、土地抵押及转让、重要股东质押等信息。多源数据中既包括入库的存量数据，也包括API接口数据，既包括结构化的基本信息、变更、认定信息等数据，也包括半结构化的数据。

半结构化数据需要通过文本数据处理、数据提取、数据结构化方法等形成结构化的数据入库保存，入库的结构化数据需要经过数据对齐、融合比对等方法建立统一的标准数据表格，针对某一维度的信息建立覆盖多范围的标准数据表格，不同数据源之间数据进行融合比对，建立统一的标准数据集，主要包括数据源之间的融合，将具有互补关系的数据对齐融合，将具有冗余关系的数据进行去重处理，选取数据质量较好的数据。多维度数据经过融合比对后形成标准数据集，存储于标准数据库中。

2.构建用于信用评分的指标体系

基于建立的多源数据标准库，建设用于信用评分的指标体系，构建指标的数据主要来源于工商、变更、行政处罚、失信、负债、税务等数据中；另外，投资、担保、分支、法人等关系数据也用于构建部分指标。

3.指标数据的预处理

通过无效值处理、同值统计、缺失值统计等流程完成指标数据的预处理工作；无效值处理主要是去除电话编码，地址编码等信息；同值统计处理对只含同值的字段、同值率高于80％的字段进行去除；缺失值统计处理对全部缺失、字段缺失率高于80％的字段进行去除。

4.基于动态支持向量机的分类模型

指标通过数据清洗、无效值处理、同值统计、缺失值统计等特征工程后，筛选具有明确含义的指标(包括缺失值、同值统计分析去掉的指标)，对部分样本进行标注；使用动态的支持向量机分类模型，并采用基于交叉验证的网格搜索对模型参数进行训练，得到初步的标注模型，后续对新获取的数据进行同样步骤的数据预处理，并作为样本对模型训练，更新相关模型系数；信用评分模型训练、评分输出。

4.1特征工程

首先对入模指标中的无效值进行处理，对部分可量化指标进行数值量化；然后对入模指标进行缺失值统计，去除缺失值大于80％的训练指标；针对剩余指标进行同值率的统计，去除属性只有一个值的特征，去除属性同值率大于80％的指标。

4.2筛选具有明确含义的指标并标注部分样本

根据最近5年是否进入失信库、纳税人等级、是否欠税等具有明确好坏含义的指标标注部分样本。(一般该部分指标覆盖率极低，所以标注的样本并不够用于信用评分模型的训练)

4.3特征选择

对有标签的企业信用数据采用相关系数法，选取与目标变量相关性较高的特征；信息熵法，选取信息熵较小的特征。可以减少数据维度，减少计算复杂度和计算时间；提高模型精度，减少冗余信息，提高可解释性。

在本步骤中，先使用相关系数法对所有特征进行初步的筛选；然后本发明提出一种基于ks分箱的信息熵法，进行细致的筛选。具体过程如下：

将归一化的数据按照等宽的原则把各个特征的数据分成若干个区间。统计每个特征每个区间内正常、异常数据的数量，

Good_num(i)＝正常数据数量

Bad_num(i)＝异常数据数量

其中i为该特征的第i个划分区间。

计算每个区间内正常、异常数据的累积数量，

Good_cum(i)＝ΣGood_num(i)

Bad_cum(i)＝ΣBad_num(i)

计算每个区间内正常、异常数据的累积比例。

计算每个区间内异常数据与正常数据比的差值，并取绝对值。

Δ(i)＝|Bad_ratio(i)-Good_ratio(i)|

对差值进行求和，得到KS值。

依据此过程，对所有的特征进行KS值计算。以KS分箱的区间为基础，以区间的均值作为取值点x_i，并计算各个区间的取值占比P(x_i)，计算每个区间的信息熵

H(x_i)＝-P(x_i)log₂(P(x_i))

对应特征X的熵

计算各个特征的基于KS分箱的信息熵

H_ks(X)＝KS(X)*H(X)

将各信息熵进行排序，选择低于某一阈值的加权信息熵的特征入模。

4.4基于动态支持向量机的分类模型

支持向量机的优化问题如下：

s.t.y_i(w·xi+b)≥1-ξi，ξi≥0，i＝1，2，…，n

通过历史数据的训练得到w_old和b_old，对后续获得新数据{(x_i，y_i)}_new

据此更新模型参数，以适应新的数据分布。优化问题转化为

s.t.y_i(w·xi+b)≥1-αξi，ξi≥0，i＝1，2，…，n，w＝w_old+Δw，b＝b_old+Δb

其中，Δw和Δb是更新后的模型参数与旧模型参数的差异.

我们使用拉格朗日乘子法将优化问题转化为对偶形式：

其中，α_i是拉格朗日乘子。

然后，通过求解以下优化问题来更新模型参数：

更新后的模型参数为：

获得新的模型

f(x)＝sign(w_newx+b_new).

另外，在对参数C进行参数训练时，提出一种基于交叉验证的网格搜索，将所有的样本划分为k部分，对C取值从较大范围取k-1个值[C₁，C₂，...，C_k-1],每个参数取值对应一个训练样本，在第k部分样本上进行验证，取最好两参数的值C_p，C_q，取两者之间的k-1个值，对样本重新进行k折划分，再次训练取两个表现较好的参数，…，直到所有参数的验证值误差在某个阈值内时(一般取3％)，确定最终的参数C_z。。

4.5标注无标签样本

根据训练的标签标注模型对未标注的样本进行标注。

4.6信用评分模型训练

对所有的样本标注相应的标签，进行信用评分模型的训练。

(1)相关性分析、共线性分析，去除指标之间相关性，共线性过高的指标；

(2)xgboost指标重要性分析，筛选出对模型其关键作用的指标；

(3)对指标进行分布检验并做转换；

(4)基于逻辑回归训练模型；

(5)评分卡转换。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于动态支持向量机的企业信用评分样本标注方法，其特征在于，

利用使用企业信用的历史数据，采用动态的支持向量机分类模型，并采用基于交叉验证的网格搜索对模型参数进行训练，完成分类工作；后续对新获取的数据进行同样步骤的数据预处理，并作为样本对模型训练，更新相关模型系数，以适应数据的动态分布，以该模型对无标签样本进行标注。

2.根据权利要求1所述的方法，其特征在于，

选用含有标签的企业信用数据进行训练，数据进行缺失值、同值分析，进行特征的第一次筛选，然后基于KS分箱的信息熵方法对特征进行筛选，完成特征筛选步骤；

对筛选完成的数据样本进行训练集和测试集的划分，以完成后续模型训练工作。

3.根据权利要求2所述的方法，其特征在于，

基于历史数据从高维数据中获得用于构建企业信用评分模型的数据信息，通过对多源异构数据分析、融合、汇聚形成标准数据库，基于标准数据库筛选建立企业信用评分模型指标体系；

通过数据清洗、无效值处理、同值统计、缺失值统计、缺失值填充的流程构建企业信用评分模型特征工程；根据部分意义明确的指标，确定部分样本的标签；

基于有标签的样本，对动态支持向量机进行训练，获取初始的样本标记标签模型，对无标签的样本进行标记，并使用所有含有标签的数据进行后续信用评分模型的建设；随着有标签的数据量增加，对初始的样本标记标签模型进行动态训练，以用于无标签样本的标注。

4.根据权利要求3所述的方法，其特征在于，

标准数据库建立步骤：多源数据包括部门数据、互联网数据、第三方数据共计三方数据源，三方数据源通过数据汇聚、融合比对建立标准数据库。

5.根据权利要求4所述的方法，其特征在于，

企业信用评分模型指标体系基于建立的多源数据标准库，建设用于企业信用评分的指标体系；

筛选好坏含义明确的指标，为部分样本标注标签；入模指标通过数据清洗、无效值处理、同值统计、缺失值统计、共线性分析的特征工程。

6.根据权利要求5所述的方法，其特征在于，

企业信用评分模型：上述步骤中指标进行了数据清洗、无效值处理、同值统计、缺失值统计的特征工程；以训练得到的标签标注模型对所有的样本标注标签，然后进行企业信用评分的步骤，包括相关性分析、共线性分析，去除指标之间相关性，共线性过高的指标；xgboost指标重要性分析，筛选出对模型其关键作用的指标；对指标进行分布检验并做转换；基于逻辑回归训练模型；评分卡转换。

7.根据权利要求6所述的方法，其特征在于，

所述标准数据库构建的步骤：

多源异构数据的治理：多源数据包括结构化数据以及半结构化数据，既包括存量数据也包括API接口提供的数据；

半结构化的数据需要经过文本数据处理、数据提取、数据的结构化处理形成结构化的入库数据，通过建立统一的数据标准规范对入库的多源数据进行规范化管理，互联网数据可存储数据定期拉取，实时接口数据通过内存进行处理，结合批流处理模式对数据进行数据加工处理、数据标准化、轻特征挖掘；

数据融合：三方多源数据通过横纵向数据融合，多源互补数据、冗余数据、重叠数据通过不同的融合策略最终融合汇聚到统一的数据库中，数据库存储多源数据融合之后的标准库数据、加工所得指标库、特征库的信息。

8.根据权利要求7所述的方法，其特征在于，