CN112085585A

CN112085585A - 一种信用风险等级评估方法及系统

Info

Publication number: CN112085585A
Application number: CN202010767643.4A
Authority: CN
Inventors: 贺欧文; 卜志成
Original assignee: Beijing Shell Time Network Technology Co ltd
Current assignee: Beijing Shell Time Network Technology Co ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-12-15

Abstract

本发明实施例提供一种信用风险等级评估方法及系统，方法包括：基于一维聚类方法或核密度估计方法获取信用风险评估得到的连续评分数值的多个分割点；基于所述多个分割点，对所述连续评分数值进行段落划分，得到多个数值段落；将每一个数值段落映射为对应的信用风险评估等级。本发明实施例基于一维聚类方法或核密度估计方法得到划分待划分连续数值的分割点，使得划分的区间更为客观，对企业的信用风险等级评估更为客观准确。

Description

一种信用风险等级评估方法及系统

技术领域

本发明属于数据处理技术领域，尤其涉及一种信用风险等级评估方法及系统。

背景技术

在信用风险评估领域，信用风险评估模型输出的结果为连续值，比如，每一个企业的信用风险评分，或者每一个企业的违约概率，然而从连续值映射为具有解释含义的信用风险评级，需要对连续数值进行段落划分。

当前主流的划分方法为整数划分，例如(0,300]映射为D,(300,500]映射为C,(500,800]映射为B,(800,1000]映射为A，然后对各评级赋予相应的业务解释。

该种整数划分的方式为硬划分的一种，为基于主观经验划分的方法，对于样本密度稀疏程度不同的区间，整数划分的方式，会导致样本评级整体产生剧烈变化。

发明内容

为克服上述现有问题或者至少部分地解决上述问题，本发明实施例提供一种信用风险等级评估方法及系统。

根据本发明实施例的第一方面，提供一种信用风险等级评估方法，包括：

基于一维聚类方法或核密度估计方法获取信用风险评估得到的连续评分数值的多个分割点；

基于所述多个分割点，对所述连续评分数值进行段落划分，得到多个数值段落；

将每一个数值段落映射为对应的信用风险评估等级。

在上述技术方案的基础上，本发明实施例还可以作如下改进。

可选的，所述基于一维聚类方法获取信用风险评估得到的连续评分数值的多个分割点包括：

基于连续评分数值之间的距离，对所述连续评分数值进行一维聚类分析，得到聚类后的多个类别；

获取每一个类别的最大评分数值和最小评分数值；

基于每一个类别的最大评分数值和最小评分数值，获取所述连续评分数值的多个分割点。

可选的，所述基于每一个类别的最大评分数值和最小评分数值，获取所述连续评分数值的多个分割点包括：

按照每一个类别中连续评分数值的大小，从小到大对多个类别进行排序；

根据当前类别的最大评分数值和下一个类别的最小评分数值得到当前类别和下一个类别之间的分割点；

遍历所有类别，得到所述连续评分数值的多个分割点。

可选的，所述根据当前类别的最大评分数值和下一个类别的最小评分数值得到当前类别和下一个类别之间的分割点包括：

计算当前类别的最大评分数值和下一个类别的最小评分数值的中值，将所述中值作为当前类别和下一个类别之间的分割点。

可选的，

所述基于每一个类别的最大评分数值和最小评分数值，获取所述连续评分数值的多个分割点包括：

基于当前类别的最大评分数值和最小评分数值以及下一个类别的最大评分数值和最小评分数值，计算当前类别与下一个类别之间对应的比值；

根据当前类别的最大评分数值、下一个类别的最小评分数值和所述比值，计算当前类别与下一个类别之间的分割点；

遍历所有类别，获取所述连续评分数值的多个分割点。

可选的，所述根据当前类别的最大评分数值、下一个类别的最小评分数值和所述比值，计算当前类别与下一个类别之间的分割点包括：

break_1,2＝P_1,2/(P_1,2+1)*(x_2min-x_1max)+x_1max；

P_1,2＝(x_1max-x_1min)/(x_2max-x_2min)；

其中，break_1,2表示当前类别与下一个类别之间的分割点，P_1,2为当前类别与下一个类别之间对应的比值，x_1max为当前类别的最大评分数值，x_2min为下一个类别的最小评分数值。

可选的，所述基于核密度估计方法获取信用风险评估得到的连续评分数值的多个分割点包括：

采用高斯核函数核密度估计对所述连续评分数值进行模拟，得到所述连续评分数值对应的概率分布曲线；

获取所述概率分布曲线上的至少一个极小值点，将所述至少一个极小值点作为所述连续评分数值的多个分割点。

可选的，根据所述连续评分数值的样本数据分布和样本数据规模，选取相应的核密度估计带宽，其中，样本数据为每一个评分数值。

可选的，还包括：

当得到的所述连续评分数值的分割点的数量不满足预设要求或者得到的所述连续评分数值的分割点不满足实际业务要求时，调整核密度估计带宽；

采用调整带宽后的核密度算法对所述连续评分数值的概率分布曲线进行模拟，并得到所述连续评分数值的多个分割点；

反复循环调整核密度估计带宽，直到得到的所述连续评分数值的分割点的数量满足预设要求且得到的所述连续评分数值的分割点满足实际业务要求。

根据本发明实施例第二方面提供一种信用风险等级评估系统，包括：

获取模块，用于基于一维聚类方法或核密度估计方法获取信用风险评估得到的连续评分数值的多个分割点；

划分模块，用于基于所述多个分割点，对所述连续评分数值进行段落划分，得到多个数值段落；

映射模块，用于将每一个数值段落映射为对应的信用风险评估等级。

根据本发明实施例的第三个方面，还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的信用风险等级评估方法。

根据本发明实施例的第四个方面，还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的信用风险等级评估方法。

本发明实施例提供的信用风险等级评估方法及系统，基于一维聚类方法或核密度估计方法获取信待划分连续数值的多个分割点；基于多个分割点，对待划分连续数值进行区间划分，得到多个数值区间。本发明实施例基于一维聚类方法或核密度估计方法得到划分待划分连续数值的分割点，使得划分的区间更为客观，对企业的信用风险等级评估更为客观准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的信用风险等级评估方法整体流程示意图；

图2为本发明实施例提供的信用风险等级评估系统整体结构示意图；

图3为本发明实施例提供的电子设备整体结构示意图。

具体实施方式

参见图1，提供了一种信用风险等级评估方法，包括：

将每一个数值段落映射为对应的信用风险评估等级。

可以理解的是，本发明实施例提供了一种相对客观的信用风险评估，主要是采用客观的方法对信用风险评估得到的各个企业的连续评分数值进行划分，得到多个分割点。其中，由于信用风险评估得到的评分数值是一维数据，本发明实施例中，主要是基于一维聚类方法或核密度估计方法得到划分连续评分数值的分割点。根据多个分割点，将连续评分数值分割为多个数值段落，根据每一个数值段落得到每一个企业的信用风险评估等级。

基于一维聚类方法或核密度估计方法得到划分连续评分数值的分割点，对于样本密度稀疏长度不同的区间，能够较为客观地进行划分，最终得到的每一个企业的信用风险评估等级也较为客观。

需要说明的是，本发明实施例提出的连续数值划分的方法不仅仅用于企业的信用风险评估领域，只要是涉及到需要进行连续数值分割的领域，均可采用，比如，对学生的成绩进行等级划分，对学生的成绩分数进行划分，根据划分后的区间对应学生成绩等级，包括其它的一些应用场景，均可适应，在此不再一一举例。

作为一个可选的实施例，基于一维聚类方法获取信用风险评估得到的连续评分数值的多个分割点包括：

基于连续评分数值之间的距离，对所述连续评分数值进行聚类分析，得到聚类后的多个类别；

获取每一个类别的最大评分数值和最小评分数值；

可以理解的是，传统的比较常见的聚类算法的应用场景多为数据维度>＝2，但信用评级模型所输出的结果(企业违约概率或信用风险评分)为一维数据，如果使用常规的聚类算法进行聚类分析，则需要在聚类参数的选取上将维度降为1。同时，由于进行聚类分析的数据为一维数据，聚类结果自动为可比较的有序集合，无需人工进行解释和标记。

以KMeans聚类算法为例，要进行一维KMeans聚类，则需将聚类的维度参数设为1。本发明实施例基于连续评分数值之间的距离，对连续评分数值进行聚类分析，得到聚类后的多个类别，分别得到每一个类别的最大评分数值和最小评分数值，并根据每一个类别的最大评分数值和最小评分数值，得到连续评分数值的多个分割点。

作为一个可选的实施例，基于每一个类别的最大评分数值和最小评分数值，获取所述连续评分数值的多个分割点包括：

遍历所有类别，得到所述连续评分数值的多个分割点。

可以理解的是，比如，通过Kmeans聚类将连续评分数值聚类为3个类别，3个类别的最大评分数值和最小评分数值可参见表1：

表1

	类别1	类别2	类别3
				<u>最小值</u>	12.5	56.3	93.5
<u>最大值</u>	34.7	76.4	120.6

根据每一个类别的最大评分数值和最小评分数值，得到每两个类别之间的分割点。如表1所示，将3个类别按照其中评分数值的大小从小到大的顺序进行排列。根据相邻两个类别的每一个类别的最大评分数值和最小评分数值得到该两个相邻类别的分割点。其中，可采用中值法和比值法得到两个相邻类别的分割点。

作为一个可选的实施例，根据当前类别的最大评分数值和下一个类别的最小评分数值得到当前类别和下一个类别之间的分割点包括：

可以理解的是，根据相邻两个类别的每一个类别的最大评分数值和最小评分数值，采用中值法得到两个相邻类别之间的分割点，具体的，计算当前类别的最大评分数值和下一个类别的最小评分数值的中值，将中值作为当前类别和下一个类别之间的分割点。比如，计算表1中类别1和类别2之间的分割点时，取类别1的最大评分数值和类别2的最小评分数值的中间值作为类别1和类别2之间的分割点。

对于类别2和类别3，取类别2的最大评分数值和类别3的最小评分数值的中间值作为类别2和类别3之间的分割点，遍历所有两个相邻的类别，得到整个连续评分数值的多个分割点。

遍历所有类别，获取所述连续评分数值的多个分割点。

作为一个可选的实施例，所述根据当前类别的最大评分数值、下一个类别的最小评分数值和所述比值，计算当前类别与下一个类别之间的分割点包括：

break_1,2＝P_1,2/(P_1,2+1)*(x_2min-x_1max)+x_1max；

P_1,2＝(x_1max-x_1min)/(x_2max-x_2min)；

可以理解的是，根据相邻两个类别的每一个类别的最大评分数值和最小评分数值，采用比值法得到两个相邻类别之间的分割点，具体的，依然以表1为例，对于类别1和类别2，计算一比值P_1,2＝(34.7-12.5)/(76.4-56.3)，分割点break_1,2＝P_1,2/(P_1,2+1)*(56.3-34.7)+34.7，即可得到类别1和类别2之间的分割点。以同样的计算方法得到类别2和类别3之间的分割点，遍历所有两个相邻类别之间的分割点，得到整个连续评分数值的多个分割点。

作为一个可选的实施例，基于核密度估计方法获取信用风险评估得到的连续评分数值的多个分割点包括：

采用核密度估计对连续评分数值进行模拟，得到连续评分数值对应的概率分布曲线；

获取概率分布曲线上的至少一个极小值点，将所述至少一个极小值点作为所述连续评分数值的多个分割点。

可以理解的是，核密度估计是采用平滑的核函数来拟合已存在的数据点，从而对真实的概率分布曲线进行模拟。在估计出数据点真实的概率分布曲线之后，寻找曲线上的极小值点，将极小值点作为分割点，即可将密度较大的数据集中区间划分出来。

在本发明实施例中，采用核密度估计对各个企业的信用风险评估得到的连续评分数值进行模拟，得到连续评分数值对应的概率分布曲线。寻找概率分布曲线上的至少一个极小值点，将至少一个极小值点作为连续评分数值的多个分割点。本步骤将极小值点作为评估区间的划分点进行评估区间划分的优势是：避免将评估区间划在高密度区域，对评估区间进行客观合理的分割。

作为一个可选的实施例，根据连续评分数值的样本数据分布和样本数据规模，选取相应的核密度估计带宽，其中，样本数据为每一个评分数值。

可以理解的是，在采用核密度算法对连续评分数值进行模拟时，由于高斯核方便的数学性质，通常选择高斯核结合合适的带宽选择进行估计。比如，可根据连续评分数值的样本数据分布和样本数据规模，选取相应的核密度估计带宽来对连续评分数值进行模拟。

作为一个可选的实施例，还包括：

当得到的连续评分数值的分割点的数量不满足预设要求或者得到的所述连续评分数值的分割点不满足实际业务要求时，调整核密度估计带宽；

采用调整带宽后的核密度估计对连续评分数值的概率分布曲线进行模拟，并得到所述连续评分数值的多个分割点；

反复循环调整核密度带宽，直到得到的连续评分数值的分割点的数量满足预设要求且得到的连续评分数值的分割点满足实际业务要求。

可以理解的是，当通过核密度算法模拟连续评分数值的概率分布曲线得到的多个分割点的数量不满足要求，比如，得到的分割点的数量太少或者太多，或者连续评分数值的分割点不满足实际业务要求时，可以调整高核密度估计带宽。通过调整带宽后的核密度算法再次模拟连续评分数值的概率分布曲线，得到连续评分数值的多个分割点。通过不断调整核密度估计带宽，直到得到的连续评分数值的分割点的数量满足预设要求且得到的连续评分数值的分割点满足实际业务要求，得到最理想的分割点。

需要说明的是，本发明实施例提供的连续数值划分方法并不仅仅用于信用风险等级评估领域，只要是涉及对连续数值划分的需求，均可采用本发明实施例提供的数值划分方法来对连续数值进行区间划分。

比如，根据随时间不断监测的人体健康数据，例如，血压、心率、血糖等，通过这些监测数据可以判断人体的健康状态，实时监测的人体健康数据为连续数值，需要对其进行分割来评估人体健康等级。

对应的可提供一种人体健康等级评估方法，包括：

基于一维聚类方法或核密度估计方法获取连续健康数值的多个分割点；

基于所述多个分割点，对所述连续健康数值进行段落划分，得到多个数值段落；

将每一个数值段落映射为对应的人体健康等级。

其中，所述基于一维聚类方法获取连续健康数值的多个分割点包括：

基于连续健康数值之间的距离，对所述连续健康数值进行聚类分析，得到聚类后的多个类别；

获取每一个类别的最大数值和最小数值；

基于每一个类别的最大数值和最小数值，获取所述连续健康数值的多个分割点。

其中，所述基于每一个类别的最大数值和最小数值，获取所述连续健康数值的多个分割点包括：

按照每一个类别中连续数值的大小，从小到大对多个类别进行排序；

根据当前类别的最大数值和下一个类别的最小数值得到当前类别和下一个类别之间的分割点；

遍历所有类别，得到所述连续健康数值的多个分割点。

其中，所述根据当前类别的最大数值和下一个类别的最小数值得到当前类别和下一个类别之间的分割点包括：

计算当前类别的最大数值和下一个类别的最小数值的中值，将所述中值作为当前类别和下一个类别之间的分割点。

基于当前类别的最大数值和最小数值以及下一个类别的最大数值和最小数值，计算当前类别与下一个类别之间对应的比值；

根据当前类别的最大数值、下一个类别的最小数值和所述比值，计算当前类别与下一个类别之间的分割点；

遍历所有类别，获取所述连续健康数值的多个分割点。

其中，所述根据当前类别的最大数值、下一个类别的最小数值和所述比值，计算当前类别与下一个类别之间的分割点包括：

break_1,2＝P_1,2/(P_1,2+1)*(x_2min-x_1max)+x_1max；

P＝(x_1max-x_1min)/(x_2max-x_2min)；

其中，break_1,2表示当前类别与下一个类别之间的分割点，P为当前类别与下一个类别之间对应的比值，x_1max为当前类别的最大数值，x_2min为下一个类别的最小数值。

其中，所述基于核密度估计方法获取连续健康数值的多个分割点包括：

采用高斯核函数核密度估计对所述连续健康数值进行模拟，得到所述连续健康数值对应的概率分布曲线；

获取所述概率分布曲线上的至少一个极小值点，将所述至少一个极小值点作为所述连续健康数值的多个分割点。

其中，根据所述连续健康数值的样本数据分布和样本数据规模，选取相应的核密度估计带宽，其中，样本数据为每一个健康数值。

其中，还包括：

当得到的所述连续健康数值的分割点的数量不满足预设要求或者得到的所述连续健康数值的分割点不满足实际要求时，调整核密度估计带宽；

采用调整带宽后的核密度算法对所述连续健康数值的概率分布曲线进行模拟，并得到所述连续健康数值的多个分割点；

反复循环调整核密度估计带宽，直到得到的所述连续健康数值的分割点的数量满足预设要求且得到的所述连续健康数值的分割点满足实际要求。

参见图2，在本发明的另一个实施例中提供一种信用风险等级评估系统，该系统包括：

获取模块21，用于基于一维聚类方法或核密度估计方法获取信用风险评估得到的连续评分数值的多个分割点；

划分模块22，用于基于所述多个分割点，对所述连续评分数值进行段落划分，得到多个数值段落；

映射模块23，用于将每一个数值段落映射为对应的信用风险评估等级。

本发明实施例提供的信用风险等级评估系统与前述各实施例提供的信用风险等级评估方法相对应，信用风险等级评估系统的相关技术特征可参考前述各实施例提供的信用风险等级评估方法的相关技术特征，在此不再赘述。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行如下方法：基于一维聚类方法或核密度估计方法获取信用风险评估得到的连续评分数值的多个分割点；基于所述多个分割点，对所述连续评分数值进行段落划分，得到多个数值段落；将每一个数值段落映射为对应的信用风险评估等级。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的方法，例如包括：基于一维聚类方法或核密度估计方法获取信用风险评估得到的连续评分数值的多个分割点；基于所述多个分割点，对所述连续评分数值进行段落划分，得到多个数值段落；将每一个数值段落映射为对应的信用风险评估等级。

本发明实施例提供的一种信用风险等级评估方法及系统，基于一维聚类方法或核密度估计方法获取待划分连续数值的多个分割点；基于多个分割点，对待划分连续数值进行区间划分，得到多个数值区间。本发明实施例基于一维聚类方法或核密度估计方法得到划分待划分连续数值的分割点，使得划分的区间更为客观，对企业的信用风险等级评估更为客观准确；本步骤将极小值点作为评估区间的划分点进行评估区间划分的优势是：避免将评估区间划在高密度区域，对评估区间进行客观合理的分割。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种信用风险等级评估方法，其特征在于，包括：

将每一个数值段落映射为对应的信用风险评估等级。

2.根据权利要求1所述的信用风险等级评估方法，其特征在于，所述基于一维聚类方法获取信用风险评估得到的连续评分数值的多个分割点包括：

获取每一个类别的最大评分数值和最小评分数值；

3.根据权利要求2所述的信用风险等级评估方法，其特征在于，所述基于每一个类别的最大评分数值和最小评分数值，获取所述连续评分数值的多个分割点包括：

遍历所有类别，得到所述连续评分数值的多个分割点。

4.根据权利要求3所述的信用风险等级评估方法，其特征在于，所述根据当前类别的最大评分数值和下一个类别的最小评分数值得到当前类别和下一个类别之间的分割点包括：

5.根据权利要求2所述的信用风险等级评估方法，其特征在于，所述基于每一个类别的最大评分数值和最小评分数值，获取所述连续评分数值的多个分割点包括：

遍历所有类别，获取所述连续评分数值的多个分割点。

6.根据权利要求5所述的信用风险等级评估方法，其特征在于，所述根据当前类别的最大评分数值、下一个类别的最小评分数值和所述比值，计算当前类别与下一个类别之间的分割点包括：

break_1,2＝P_1,2/(P_1,2+1)*(x_2min-x_1max)+x_1max；

P_1,2＝(x_1max-x_1min)/(x_2max-x_2min)；

7.根据权利要求1所述的信用风险等级评估方法，其特征在于，所述基于核密度估计方法获取信用风险评估得到的连续评分数值的多个分割点包括：

8.根据权利要求7所述的信用风险等级评估方法，其特征在于，

根据所述连续评分数值的样本数据分布和样本数据规模，选取相应的核密度估计带宽，其中，样本数据为每一个评分数值。

9.根据权利要求8所述的信用风险等级评估方法，其特征在于，还包括：

10.一种信用风险等级评估系统，其特征在于，包括：