CN114462516B

CN114462516B - 一种企业信用评分样本标注方法及装置

Info

Publication number: CN114462516B
Application number: CN202210069986.2A
Authority: CN
Inventors: 郭长营; 崔乐乐; 李仰允
Original assignee: Tianyuan Big Data Credit Management Co Ltd
Current assignee: Tianyuan Big Data Credit Management Co Ltd
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2024-04-16
Anticipated expiration: 2042-01-21
Also published as: CN114462516A

Abstract

本发明涉及金融信贷技术领域，具体提供了一种企业信用评分样本标注方法，具有以下步骤：S1、多源异构数据分析融合建立标准数据库；S2、构建进行信用评分的指标体系；S3、指标数据的预处理；S4、计算最优聚类中心。与现有技术相比，本发明在构建信用评分模型的好坏标签时，首先基于具有明确好坏含义的指标为部分样本标注标签，然后基于kmeans聚类的结果，为其他未标注样本打标签；该方法很大程度上节约了人力成本以及人工标注的时间。

Description

一种企业信用评分样本标注方法及装置

技术领域

本发明涉及金融信贷技术领域，具体提供一种企业信用评分样本标注方法及装置。

背景技术

随着互联网的迅速发展,人们的日常工作与生活习惯发生了质的改变。互联网技术的发展和应用以迅雷不及掩耳之式渗透到各行各业,尤其是金融行业,传统金融行业正接受着大数据、互联网以及用户体验不平衡不对称的严峻考验。

大数据风控技术已经成为业内人士最关注的一个大数据应用焦点。金融风控模型是互联网金融健康成长的必然趋势。当前我国互联网金融信用体系还不是很完善,征信系统和有关法律都含有一定的缺陷。

信用评分模型常用的方法是逻辑回归，逻辑回归(Logistic regression)是机器学习领域最为常见的模型方法之一，常常用于作为处理各种任务的基准模型(baseline)。当然各类任务往往最后所用模型的性能远超过逻辑回归方法，但是其模型结构的复杂度和训练时间也往往超过逻辑回归方法；因其可解释性高的优点，在风控建模方面有广泛的应用。

逻辑回归的训练是需要有标签的数据；另外，在进行特征工程指标重要性分析时，也需要有标签的数据，比如相关性分析、xgboost指标重要性分析等；然而，很多情况下，不能以现有的指标为所有的训练数据标注合适的标签，这会使得逻辑回归建立信用评分模型的训练样本不足，或者无法训练。

发明内容

本发明是针对上述现有技术的不足，提供一种实用性强的企业信用评分样本标注方法

本发明进一步的技术任务是提供一种设计合理，安全适用的企业信用评分样本标注装置。

本发明解决其技术问题所采用的技术方案是：

一种企业信用评分样本标注方法，具有以下步骤：

S1、多源异构数据分析融合建立标准数据库；

S2、构建进行信用评分的指标体系；

S3、指标数据的预处理；

S4、计算最优聚类中心。

进一步的，在步骤S1中，基于用户汇聚的多源数据，通过数据之间融合比对，不同原始字段对齐，对多源异构数据分析融合建立形成企业标准数据库。

进一步的，在步骤S2中，基于建立的企业标准数据库建设用于信用评分的指标体系，构建指标的数据来源官方数据、互联网数据、第三方数据、入库存量数据、API接口数据、结构化的基本信息和半结构化的数据。

进一步的，在步骤S3中，通过无效值处理、同值统计和缺失值统计完成指标数据的预处理工作；

所述无效值处理是去除无关信息；所述同值统计处理是对只含同值的字段、同值率高于80％的字段进行去除；缺失值统计处理对全部缺失、字段缺失率高于80％的字段进行去除。

进一步的，在步骤S4中，进一步的包括：

S401、对指标进行特征工程；

S402、筛选具有明确含义的指标并标注部分样本；

S403、kmeans聚类需求最优聚类中心；

S404、标注无标签样本；

S405、信用评分模型训练。

进一步的，在步骤S401中，首先对入模指标中的无效值进行处理，对部分可量化指标进行数值量化；然后对入模指标进行缺失值统计，去除缺失值大于80％的训练指标；针对剩余指标进行同值率的统计，去除属性只有一个值的特征，去除属性同值率大于80％的指标；

在步骤S402中，根据最近一段时间是否有明确好坏含义的指标标注部分样本。

进一步的，在步骤S403中，进一步的包括：

(1)初始化中心点

在无标签的样本中随机挑选两个样本作为初始的聚类中心；

(2)需求最优聚类中心

a.计算每个样本点与这个两个个簇中心的相似度大小，并将该样本点划分到与之相似度最大的簇中心所对应的簇中；

b.根据现有的簇中样本，重新计算每个簇的簇中心；

c.循环迭代步骤a和步骤b，直到目标函数收敛，即簇中心不再发生变化；

(3)计簇中心算过程

a.设X＝{X1,X2,…,X_n}为一个含有n个样本的数据集，其中第i个数据对象表示为X_i＝{x_i1,x_i2,…,x_im}，m为数据对象特征的数目，数据对象分配矩阵U是一个n*k的0-1矩阵(里面只有0和1),u_ip表示第i个样本被分到第p个簇中，Z＝Z1,Z2,…,Z_k为k个簇中心向量，其中Z_p＝{z_p1,z_p2,…,z_pm}为第p个簇中心，则Kmeans聚类算法的目标函数可以写为：

并且服从于约束条件：

(4)聚类完成后，对含有标签的样本进行验证验，如果测试结果误差在合理范围内，那么可用于后续标注，否则，重新选择初始簇中心，优化迭代聚类结果。

进一步的，在步骤S404中，若聚类结果符合要求后，那么通过聚类结果对未标注的样本进行标注；

在步骤S405中，对所有的样本标注相应的标签，进行信用评分模型的训练，

(1)相关性分析、共线性分析，去除指标之间相关性，共线性过高的指标；

(2)xgboost指标重要性分析，筛选出对模型起关键作用的指标；

(3)对指标进行分布检验并做转换；

(4)基于逻辑回归训练模型；

(5)评分卡转换。

一种企业信用评分样本标注装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行一种企业信用评分样本标注方法。

本发明的一种企业信用评分样本标注方法及装置和现有技术相比，具有以下突出的有益效果：

本发明在构建信用评分模型的好坏标签时，首先基于具有明确好坏含义的指标为部分样本标注标签，然后基于kmeans聚类的结果，为其他未标注样本打标签；该方法很大程度上节约了人力成本以及人工标注的时间。

利用了kmeans聚类方法为无监督模型的方法，以少部分的真实标签样本作为验证集，通过局部最优的聚类结果为其他未标注的样本打标签，相较于人工标注，该发明更加准确、客观。

伴随海量数据的汇聚、科技的不断进步，监督学习已应用到许多领域，而且很多方面都会存在等，本发明提出的方法对各个场景均适用，从数据的角度，对特征重要性进行量化分析，应用前景极为广阔。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1是一种企业信用评分样本标注方法的框架示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

下面给出一个最佳实施例：

如图1所示，本实施例中的一种企业信用评分样本标注方法，具有以下步骤：

S1、多源异构数据分析融合建立标准数据库：

用户的多源异构数据覆盖用户的政府数据包括工商、社保、公积金、行政处罚、企业认定等信息，用户的互联网数据包括司法、经营、投资、知识产权等数据，用户的第三方数据包括用户对外担保、用水用电、股权质押、土地抵押及转让、重要股东质押等信息。多源数据中既包括入库的存量数据，也包括API接口数据，既包括结构化的基本信息、变更、黑名单、认定信息等数据，也包括司法、裁判文书、法院公告等半结构化的数据。

半结构化数据需要通过文本数据处理、数据提取、数据结构化方法等形成结构化的数据入库保存，入库的结构化数据需要经过数据对齐、融合比对等方法建立统一的标准数据表格，针对某一维度的信息建立覆盖多范围的标准数据表格，不同数据源之间数据进行融合比对，建立统一的标准数据集，主要包括数据源之间的融合，将具有互补关系的数据对齐融合，将具有冗余关系的数据进行去重处理，选取数据质量较好的数据。多维度数据经过融合比对后形成标准数据集，存储于标准数据库中。

S2、构建进行信用评分的指标体系：

基于建立的多源数据标准库，建设用于信用评分的指标体系，构建指标的数据主要来源于工商、变更、行政处罚、失信、司法、负债、税务等数据中；另外，投资、担保、分支、法人等关系数据也用于构建部分指标。

S3、指标数据的预处理：

通过无效值处理、同值统计、缺失值统计等流程完成指标数据的预处理工作；无效值处理主要是去除电话编码，地址编码等信息；同值统计处理对只含同值的字段、同值率高于80％的字段进行去除；缺失值统计处理对全部缺失、字段缺失率高于80％的字段进行去除。

S4、计算最优聚类中心：

指标通过数据清洗、无效值处理、同值统计、缺失值统计等特征工程后，筛选具有明确含义的指标(包括缺失值、同值统计分析去掉的指标)，对部分样本进行标注；使用无标签的样本进行kmeans聚类运算循环迭代，以需求最优的聚类中心，直到达到相应的误差要求；以符合要求的聚类结果为所有的无标签的样本标注标签；对现有的所有样本进行相关性分析、共线性分析、xgboost特征重要性分析，进一步筛选指标；对入模的指标进行p值检验，PSI稳定性检验，最终确定入模指标；信用评分模型训练、评分输出。

进一步包括：

S401、对指标进行特征工程：

首先对入模指标中的无效值进行处理，对部分可量化指标进行数值量化；然后对入模指标进行缺失值统计，去除缺失值大于80％的训练指标；针对剩余指标进行同值率的统计，去除属性只有一个值的特征，去除属性同值率大于80％的指标。

S402、筛选具有明确含义的指标并标注部分样本：

根据最近5年是否进入失信库、纳税人等级、是否欠税等具有明确好坏含义的指标标注部分样本。(一般该部分指标覆盖率极低，所以标注的样本并不够用于信用评分模型的训练。)

S403、kmeans聚类需求最优聚类中心：

Kmeans聚类算法是聚类算法中最基础最常用的聚类算法，算法很简单，主要是将距离最近的点聚到一起，不断遍历点与簇中心的距离，并不断修正簇中心的位置与簇中的点集合，通过最近距离和遍历次数来控制输出最终的结果。初始的簇中心、遍历次数、最小距离会影响最终的结果。

(1)初始化中心点

在无标签的样本中随机挑选两个样本作为初始的聚类中心；

(2)需求最优聚类中心

b.根据现有的簇中样本，重新计算每个簇的簇中心；

c.循环迭代步骤a和步骤b，直到目标函数收敛，即簇中心不再发生变化.

(3)计簇中心算过程

a.设X＝{X1,X2,…,X_n}为一个含有n个样本的数据集，其中第i个数据对象表示为X_i＝{x_i1,x_i2,…,x_im}，m为数据对象特征的数目。数据对象分配矩阵U是一个n*k的0-1矩阵(里面只有0和1),u_ip表示第i个样本被分到第p个簇中。Z＝Z1,Z2,…,Z_k为k个簇中心向量，其中Z_p＝{z_p1,z_p2,…,z_pm}为第p个簇中心。则Kmeans聚类算法的目标函数可以写为：

并且服从于约束条件：

第一个式子看起来稍微有点复杂，但是其表示的意思就是累加各个样本点到其对应簇中心的距离和。由于一个数据集有多个簇，每个簇中有多个样本，每个样本又有多个维度，因此第一个式子中就存在了三个求和符号。

S404、标注无标签样本：

若聚类结果符合要求后，那么通过聚类结果对未标注的样本进行标注。

S405、信用评分模型训练：

对所有的样本标注相应的标签，进行信用评分模型的训练。

(2)xgboost指标重要性分析，筛选出对模型起关键作用的指标；

(3)对指标进行分布检验并做转换；

(4)基于逻辑回归训练模型；

(5)评分卡转换。

所述至少一个存储器，用于存储机器可读程序；

上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明的一种企业信用评分样本标注方法及装置权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种企业信用评分样本标注方法，其特征在于，具有以下步骤：

S1、多源异构数据分析融合建立标准数据库；

基于用户汇聚的多源数据，通过数据之间融合比对，不同原始字段对齐，对多源异构数据分析融合建立形成企业标准数据库；

S2、构建进行信用评分的指标体系；

基于建立的企业标准数据库建设用于信用评分的指标体系，构建指标的数据来源官方数据、互联网数据、第三方数据、入库存量数据、API接口数据、结构化的基本信息和半结构化的数据；

S3、指标数据的预处理；

通过无效值处理、同值统计和缺失值统计完成指标数据的预处理工作；

所述无效值处理是去除无关信息；所述同值统计处理是对只含同值的字段、同值率高于80％的字段进行去除；缺失值统计处理对全部缺失、字段缺失率高于80％的字段进行去除；

S4、计算最优聚类中心；

进一步的包括：

S401、对指标进行特征工程；

首先对入模指标中的无效值进行处理，对部分可量化指标进行数值量化；然后对入模指标进行缺失值统计，去除缺失值大于80％的训练指标；针对剩余指标进行同值率的统计，去除属性只有一个值的特征，去除属性同值率大于80％的指标；

S402、筛选具有明确含义的指标并标注部分样本；

根据最近一段时间是否有明确好坏含义的指标标注部分样本；

S403、kmeans聚类需求最优聚类中心；

进一步的包括：

(1)初始化中心点

在无标签的样本中随机挑选两个样本作为初始的聚类中心；

(2)需求最优聚类中心

b.根据现有的簇中样本，重新计算每个簇的簇中心；

(3)计簇中心算过程

并且服从于约束条件：

(4)聚类完成后，对含有标签的样本进行验证验，如果测试结果误差在合理范围内，那么可用于后续标注，否则，重新选择初始簇中心，优化迭代聚类结果；

S404、标注无标签样本；

若聚类结果符合要求后，那么通过聚类结果对未标注的样本进行标注；

S405、信用评分模型训练；

对所有的样本标注相应的标签，进行信用评分模型的训练，

(2)xgboost指标重要性分析，筛选出对模型起关键作用的指标；

(3)对指标进行分布检验并做转换；

(4)基于逻辑回归训练模型；

(5)评分卡转换。

2.一种企业信用评分样本标注装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1所述的方法。