CN113988644A

CN113988644A - 基于半监督学习实现企业评分和评级的系统、方法、装置、处理器及其计算机可读存储介质

Info

Publication number: CN113988644A
Application number: CN202111274356.0A
Authority: CN
Inventors: 俞枫; 王珣; 苑博; 孙中宇; 黄志昌
Original assignee: Guotai Junan Securities Co Ltd
Current assignee: Guotai Junan Securities Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-28

Abstract

本发明涉及一种基于半监督学习实现企业评分和评级的系统，其中，该系统包括系统包括数据采集处理模块，用于获取企业相关数据源；数据预处理模块，用于对采集到的各类数据进行数据清洗和字段处理；构造特征处理模块，用于根据不同数据之间的特征分类属性，计算各个数据的特征值；模型训练处理模块，用于分别使用训练模型对全部数据进行分类；以及评分评级计算模块，用于进行评分卡分数的计算，并根据多维度累加得到的总分数获取最终的评级等级。本发明还涉及一种相应的方法、装置、处理器及其计算机可读存储介质。采用了本发明的该系统、方法、装置、处理器及其计算机可读存储介质，充分利用多类别数据源的数据价值，提供一种客观统一的评价体系。

Description

基于半监督学习实现企业评分和评级的系统、方法、装置、处理器及其计算机可读存储介质

技术领域

本发明涉及大数据分析处理技术领域，尤其涉及企业评分等级处理技术领域，具体是指一种基于半监督学习实现企业评分和评级的系统、方法、装置、处理器及其计算机可读存储介质。

背景技术

目前现有的一些企业评分和评级方案大多是较依赖主观定性因素实现。但随着国内新兴行业的发展，传统的方案无法较客观的给这些企业评分，一是很多企业数据积累有限，二是依赖专家经验和行业研究，三是稳定性不高。不同的人对同一企业的评价不同，同一人在不同时间对同一企业的评价也可能不同，因此导致对于企业的评分和评级的决策上，存在个人判断的主观性，缺乏统一标准。

同时，由于没有较为全面的企业评分和评级的标签数据，所以通常使用人工智能模型来对企业进行评分和评级时，采用无监督的学习场景，得出的结果较发散，在具体业务场景使用时，也无法提供较为可靠的数据依据和支撑。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种更加灵活可靠的基于半监督学习实现企业评分和评级的系统、方法、装置、处理器及其计算机可读存储介质。

为了实现上述目的，本发明的基于半监督学习实现企业评分和评级的系统、方法、装置、处理器及其计算机可读存储介质如下：

该基于半监督学习实现企业评分和评级的系统，其主要特点是，所述的系统包括：

数据采集处理模块，用于获取企业内部数据源以及外部数据源，以实现对企业信用风险的对维度评估；

数据预处理模块，与所述的数据采集处理模块相连接，用于对采集到的各类数据进行数据清洗以及字段处理；

构造特征处理模块，与所述的数据预处理模块相连接，用于根据不同数据之间的特征分类属性，计算各个数据的特征值，并将各个特征值进行分箱处理，以进行重要特征的筛选；

模型训练处理模块，与所述的构造特征处理模块相连接，用于分别使用逻辑回归模型和随机森林模型对全部数据进行分类，并根据训练结果输出各个特征数据的权重比；以及

评分评级计算模块，与所述的模型训练处理模块相连接，用于根据不同数据源之间的类型，切分为不同维度，并对各个维度涉及到的所有数据源的模型训练输出结果，进行评分卡分数的计算，并根据多维度累加得到的总分数获取最终的评级等级。

该利用上述系统实现基于半监督学习进行企业评分和评级的方法，其主要特点是，所述的方法包括以下步骤：

(1)进行企业内部数据源以及外部数据源的数据采集；

(2)对采集的数据进行数据清洗以及字段处理；

(3)根据各个数据的不同的特征属性计算相应的特征值，以进行重要特征的筛选；

(4)对采集到的数据进行模型训练，获取相应特征数据的权重比和重要性；

(5)根据各个数据的类型进行不同维度的切分，并按照模型训练的结果进行评分卡分数的转化，以实现对企业评分和评级。

较佳地，所述的步骤(1)具体为：

获取包含工商信息类数据、经营状况类数据、裁判文书网数据、财务信息类数据、舆情信息类数据、企业评级数据、信用星级相关数据以及ESG外部数据源数据；其中，

所述的ESG外部数据源数据具体指包含环境、社会以及治理方面的数据。

较佳地，所述的步骤(2)具体包括以下步骤：

(2.1)对采集到的数据进行包括但不限于去除多余空格、无效字符的清洗处理；

(2.2)对采集到的数据的原始字段进行映射转换，以及对采集到的数据的字符类型进行转换；

(2.3)针对所有数据进行统一日期、金额和货币的格式处理。

较佳地，所述的步骤(3)具体包括以下步骤：

(3.1)对进行数据预处理后的数据按照基本特征、统计型特征以及时序型特征的属性进行分类；

(3.2)进入分箱初始化处理阶段，对分类处理后的各个特征按照离散型向连续型转换的处理规则进行属性值大小的排序；

(3.3)对每一组相邻的数据进行计算卡方值的处理；

(3.4)根据计算出的卡方值，将其中计算出的卡方值最小的一组数据进行临近组合，合并为一组；

(3.5)重复上述步骤(3.3)至(3.4)，直到所有卡方值都不低于设定阈值或者分组达到预期数量；

(3.6)根据计算出的每一个卡方值计算对应的证据权重WOE以及信息价值IV，以实现重要特征的筛选。

更佳地，所述的步骤(3.3)具体按照以下公式计算所述的卡方值：

其中，E_ij＝R_i×C_j/N，A_ij为i区间中j类样本个数，

为i区间中样本数，

为j类样本的个数，

为总样本个数。

更佳地，所述的步骤(3.6)具体按照以下公式计算所述的证据权重WOE以及信息价值IV：

其中，B为正样本总数，B_i为i区间对应的正样本数；G为负样本总数，G_i为i区间对应的负样本数；

较佳地，所述的步骤(4)具体包括以下步骤：

(4.1)将采集到的所有数据按照预设数量进行分组，选取其中一组作为测试集，其他组作为训练集进行分轮训练；

(4.2)分别使用逻辑回归模型和随机森林模型对训练后的数据进行分类，以输出各个特征数据的权重和重要性。

较佳地，所述的步骤(4.2)具体包括：

当特征向量维数高，且训练样本数大时，采用所述的逻辑回归模型即可输出相应特征的权重；

当需要输出特征的重要性时采用所述的逻辑回归模型即可训练完成。

较佳地，所述的步骤(5)具体包括以下步骤：

(5.1)根据各个数据的类型进行不同维度的切分，并根据模型训练的输出结果进行相应数据评分卡分数的计算，获取多维度的总分数；

(5.2)根据获取到的所有的总分数的区间分布情况，通过制定对应的评级等级的阈值，调整实际的分布情况来获得最终的评级等级；

(5.3)根据实际情况适当加入人工调整，以计算出所需的特征及其相应的权重值。

更佳地，所述的步骤(5.1)具体根据以下公式计算出所述的评分卡分数：

其中，P为模型输出的概率值结果，A为基础分参数，B为影响因子参数，W_i为每一个特征的权重，f_i为每一个特征的取值。

该用于实现基于半监督学习进行企业评分和评级的装置，其主要特点是，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述计算机可执行指令被所述处理器执行时，实现上述所述的基于半监督学习进行企业评分和评级的方法的各个步骤。

该基于半监督学习进行企业评分和评级的处理器，其主要特点是，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述所述的基于半监督学习进行企业评分和评级的方法的各个步骤。

该计算机可读存储介质，其主要特点是，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述所述的基于半监督学习进行企业评分和评级的方法的各个步骤。

采用了本发明的该基于半监督学习实现企业评分和评级的系统、方法、装置、处理器及其计算机可读存储介质，依赖于已有数据的标签情况，将无监督场景转化为半监督的学习场景，尽可能的对分类问题作正负样本的区分，以得到更好的机器学习效果。此外，设计方法更加灵活，可以根据模型得到的权重再进行人工调整，提供数据参考依据。从更多维度客观反映企业信用风险情况，并结合评分卡模型对企业进行多维度评价，得到企业的评分和评级。充分利用多类别数据源的数据价值，提供一种客观统一的评价体系。

附图说明

图1为本发明的该实现基于半监督学习进行企业评分和评级的方法的流程图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

在详细说明根据本发明的实施例前，应该注意到的是，在下文中，术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含，由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素，而且还包含没有明确列出的其他要素，或者为这种过程、方法、物品或者设备所固有的要素。

该基于半监督学习实现企业评分和评级的系统，其中，所述的系统包括：

请参阅图1所示，该利用上述系统实现基于半监督学习进行企业评分和评级的方法，其中，所述的方法包括以下步骤：

(1)进行企业内部数据源以及外部数据源的数据采集；

(2)对采集的数据进行数据清洗以及字段处理；

作为本发明的优选实施方式，所述的步骤(1)具体为：

作为本发明的优选实施方式，所述的步骤(2)具体包括以下步骤：

(2.3)针对所有数据进行统一日期、金额和货币的格式处理。

作为本发明的优选实施方式，所述的步骤(3)具体包括以下步骤：

(3.3)对每一组相邻的数据进行计算卡方值的处理；

作为本发明的优选实施方式，所述的步骤(3.3)具体按照以下公式计算所述的卡方值：

其中，E_ij＝R_i×C_j/N，A_ij为i区间中j类样本个数，

为i区间中样本数，

为j类样本的个数，

为总样本个数。

作为本发明的优选实施方式，所述的步骤(3.6)具体按照以下公式计算所述的证据权重WOE以及信息价值IV：

作为本发明的优选实施方式，所述的步骤(4)具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(4.2)具体包括：

作为本发明的优选实施方式，所述的步骤(5)具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(5.1)具体根据以下公式计算出所述的评分卡分数：

该用于实现基于半监督学习进行企业评分和评级的装置，其中，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

该基于半监督学习进行企业评分和评级的处理器，其中，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述所述的基于半监督学习进行企业评分和评级的方法的各个步骤。

该计算机可读存储介质，其中，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述所述的基于半监督学习进行企业评分和评级的方法的各个步骤。

下面将结合具体实施方式对本技术方案做进一步详细的说明，在本发明的一具体实施方式中：

步骤1：数据准备

充分利用企业的内部数据源和外部数据源，通过构建对企业的信用风险的多维度评估，赋予企业评分和评级。

本方法构建模型使用的工商信息类数据、经营状况类数据、裁判文书网数据、财务信息类数据、舆情信息类数据、企业评级数据、信用星级等相关数据表。并纳入涉及到ESG方面的相关数据。

其中，ESG具体为包含：Environment环境,Society社会和Governance治理的相关数据。外部数据源获取有关ESG方面的数据。

步骤2：数据预处理

主要包括数据清洗和字段处理。字段处理包括字段映射和数据类型变换等环节。

针对所有建模数据统一日期、金额、货币等格式，去除多余空格等无意义字符。

具体地，字段映射：对原始字段进行映射转换，包括根据工商信息表中的注册资本的币种转化为同一币种，比如将美元、港币等货币按当日汇率换算为人民币。数据类型变换：将字符型变量变换为数值型，比如将varchar类型变换为int或者double类型。

步骤3：构造特征工程

涉及三类特征，基本特征，统计型特征，时序型特征。为提升模型效果，对计算得到的特征值进行分箱。基于卡方分箱结果计算特征重要性，剔除重要性较低的特征，进行特征筛选。

其中，基本特征主要是指将数据表中的字段，直接作为特征；例如，注册资本。统计型特征主要是指，通过求和或占比等统计量的计算得到的结果作为特征，例如，应收账款之和。时序性特征主要是指，计算一段时间内的基本特征或统计型特征的统计量。例如，近1年内的应收账款之和。

步骤3.1：分箱初始化阶段。

离散型特征，将每个取值内负样本占比的数作为对应的数值，即完成了离散型特征向连续型特征的转换。比如，特征A为离散型特征，每个属性值取值为a1,a2,a3,a4；样本中a1涉及的负样本数和a1的总数的比例值为0.3，则将a1替换为0.3；同理完成a2、a3、a4的数值转换。然后将每个属性值单独作为一组。按照属性值大小进行排序。

步骤3.2：合并阶段。

(1)对每一对相邻的组计算卡方值。

针对二分类问题，对应的卡方计算公式为：

其中，E_ij＝R_i×C_j/N，A_ij为i区间中j类样本个数，

为i区间中样本数，

为j类样本的个数，

为总样本个数。

(2)根据计算的卡方值，将其中最小的一对临近组合，合并为一组。

(3)重复(1)、(2)，直到所有卡方值都不低于设定阈值或者分组达到预期数量。

步骤3.3：计算WOE(Weight of Evidence，证据权重)和IV(Information Value，信息价值)

对每一个特征的每一个分箱计算WOE值，使用WOE替代对应的原有的特征的数值，并计算IV值。根据IV值，作为特征重要性的依据。剔除重要性较低的特征。

步骤4：模型训练

将全部数据分为10组，每轮训练使用1组数据作为测试集，其余9组作为训练集。共进行10次训练过程。

分别使用逻辑回归模型和随机森林模型进行分类。当特征向量维数很高，训练样本数很大时，逻辑回归模型具有速度上的优势，适用于大规模分类问题，可以输出特征的权重。随机森林模型可以在训练时输出特征的重要性，即哪个特征对分类结果更有效果。

在实际应用当中，对每一类型的数据实现预先一个或多个划分规则。比如可以将经营状况类的数据作为一类放入同一个维度；也可以将涉及到环境、社会、治理的数据源，放入ESG维度组中。

训练模型的目的仅在于通过半监督二分类学习场景得到特征权重，提供部分参考，之后可以人工调整权重。

步骤5：计算评分和评级

步骤5.1构建评价总分

根据不同数据源的类型，切分为不同维度，比如可以将经营状况类的数据作为一类放入同一个维度，将涉及到ESG的数据源，作为一个维度。根据模型输出的结果，转化为评分卡的分数，因为评分卡模型具有较好的解释性，通过评分卡的形式可以更好的理解模型的评分逻辑。评分卡公式如下：

按照模型输出的结果，即P的值降序，选取最大P值和最小P值，并根据设定的分数区间的最大值和最小值，带入上述公式，求解出A和B的值。之后，可得到每一个P值对应的总分数。

步骤5.2评分评级映射

评级的类别可以根据实际情况进行设置，比如可以分为A，B，C，D，E五类。

通过所有样本数据的总分数的区间分布，通过制定对应的评级等级的阈值，调整分布来得到最后的评级等级。比如，设置总分为100分，大于80分的设定为A类，50分到80分的设定为B类。或者大于90分的设定为A类等，需要根据实际情况来设定。

其中，阈值的设定可根据实际需要并观察数据分布得到。比如，先根据分数降序，设置分数区间间隔，看落在每一个区间的数据量，得到近似正态分布的形状。不断调整分数区间间隔，得到不同的分布形状。

5.3专家规则调整

之后，可以根据实际情况，适当加入人工调整，调整计算所需的特征和权重。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的，程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一实施例”、“一些实施例”、“示例”、“具体示例”、或“实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。