CN116342246B

CN116342246B - 违约风险评估方法、设备与存储介质

Info

Publication number: CN116342246B
Application number: CN202310200705.7A
Authority: CN
Inventors: 唐科伟; 陈声鸿
Original assignee: Zhejiang Fulin Technology Co ltd
Current assignee: Zhejiang Fulin Technology Co ltd
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2024-04-23
Anticipated expiration: 2043-03-06
Also published as: CN116342246A

Abstract

本发明提供一种违约风险评估方法、设备与存储介质，属于数据处理技术领域，具体包括：获取用户的非结构化数据中的时序数据，并对其进行重构得到重构时序数据，并基于其通过时序数据风险评估模型确定用户的时序违约评分，并当其不大于第一风险阈值或者用户的违约概率不大于第二概率阈值时，获取用户的非结构数据中的文本数据，并基于文本数据以及其权值进行重构得到重构文本数据，并采用基于文本数据风险评估模型确定用户的文本违约评分，并基于用户的文本违约评分、时序违约评分、违约概率，采用基于机器学习算法的评估模型，得到用户的违约风险得分，并基于违约风险得分确认用户的违约风险，从而进一步提升了判断的准确性。

Description

违约风险评估方法、设备与存储介质

技术领域

本发明属于数据处理技术领域，尤其涉及一种违约风险评估方法、设备与存储介质。

背景技术

为了实现对授信风险的准确评估，在授权发明专利授权公告号CN112804242B《一种基于深度学习的非结构化数据的违约概率预测方法》中通过集成和清洗信贷主体人包括文本数据和时序数据在内的非结构化数据；将非结构化数据变换为深度学习模型可识别的数据格式；基于深度学习模型框架，提取数据特征作为样本数据；针对提取出来的样本数据，利用复杂机器学习分类算法-集成树模型构建信用风险模型，输出违约概率预测，但是却存在以下技术问题：

1、未考虑对文本数据和时序数据进行重构，在进行违约风险评估时，文本数据反应的是用户的当前的实际情况，而时序数据则反应的是一段周期的用户的情况，与文本数据相比的话，其对于最后的违约概率的预测的可靠性和准确性明显更高，若不能对上述数据进行重构，则会导致最终的违约概率的预测的精度会受到一定程度的影响。

2、未考虑首先结合用户的违约情况首先对高违约风险的用户的筛选，对于历史中存在违约或者违约风险较大的用户，若均采用上述的违约风险评估模型，则有可能会导致整体的违约风险的评估效率会受到一定程度的影响。

3、未考虑对于文本数据和时序数据采用不同的信用风险评估模型，对于不同的神经网络模型，在处理文本数据或者时序数据时，其处理的可靠性和准确性也不相同，若采用相同的神经网络模型以及信用风险评估模型，则有可能导致最终的信用风险的评估结果的准确性也会受到一定程度的影响。

针对上述技术问题，本发明提供了一种违约风险评估方法、设备与存储介质。

发明内容

为实现本发明目的，本发明采用如下技术方案：

根据本发明的一个方面，提供了一种违约风险评估方法、设备与存储介质。

一种违约风险评估方法，具体包括：

S11获取用户的历史违约次数，并判断所述用户的历史违约次数是否大于第一阈值，若是，则确定所述客户的历史违约风险为高风险，若否，则进入步骤S12；

S12获取用户的历史违约数据，并基于所述历史违约数据判断所述用户的违约概率是否大于第一概率阈值，若是，则确定所述客户的历史违约风险为高风险，若否，则进入步骤S13；

S13获取所述用户的非结构化数据中的时序数据，并将所述时序数据以及所述时序数据的权值，对所述时序数据进行重构得到重构后的数据并将其作为重构时序数据，并基于所述重构时序数据，采用时序数据风险评估模型确定所述用户的时序违约评分，并判断是否所述用户的时序违约评分大于第一风险阈值且所述用户的违约概率大于第二概率阈值，若是，则确定所述客户的历史违约风险为高风险，若否，则进入步骤S14；

S14获取所述用户的非结构数据中的文本数据，并基于所述文本数据以及所述文本数据的权值进行重构得到重构文本数据，并采用基于文本数据风险评估模型确定所述用户的文本违约评分，并基于所述用户的文本违约评分、时序违约评分、违约概率，采用基于机器学习算法的评估模型，得到所述用户的违约风险得分，并基于所述用户的违约风险得分确认所述用户的违约风险。

通过结合用户的违约次数和违约数据实现对存在较大违约可能性的用户的筛选，从而实现了减少需要进行时序数据筛选以及违约风险得分的评估的用户的数量，进一步提升了评估的效率，同时也保证了系统运行的效率的提升。

通过结合时序数据的权值进行重构时序数据的生成以及用户的时序违约评分的构建，从而极大的提升了用户的时序违约评分的准确性，充分考虑到不同的时序数据对最终的时序违约评分的结果的影响，并且通过第一风险阈值的设置，实现了对高风险的客户的筛选，同时也避免了采用相同的数学模型导致的最终的评估结果不够准确的技术问题的出现。

通过结合文本违约评分、时序违约评分、违约概率，采用基于机器学习算法的评估模型，得到所述用户的违约风险得分，从而极大的提升了不同用户的违约风险得分的评估的全面性和准确性，同时也实现了从多角度以及多特征的角度对用户的违约风险的准确评估。

另一方面，本申请实施例中提供一种计算机设备，包括：通信连接的存储器和处理器，以及存储在所述存储器上并能够在所述处理器上运行的计算机程序，其特征在于：所述处理器运行所述计算机程序时执行上述的一种违约风险评估方法。

另一方面，本发明提供了一种计算机存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述的一种违约风险评估方法。

其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

通过参照附图详细描述其示例实施方式，本发明的上述和其它特征及优点将变得更加明显。

图1是根据实施例1的一种违约风险评估方法的具体步骤的流程图；

图2是根据实施例1的违约概率的评估的具体步骤的流程图；

图3是根据实施例1的用户的时序违约评分的评估的具体步骤的流程图；

图4是根据实施例1的用户的违约风险得分构建的具体步骤的流程图；

图5是根据实施例3的一种计算机存储介质的结构图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构，因而将省略它们的详细描述。

用语“一个”、“一”、“该”、“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。

申请人发现，在进行违约风险的实时评估，未考虑对文本数据和时序数据进行重构，若不能对上述数据进行重构，则会导致最终的违约概率的预测的精度会受到一定程度的影响；未考虑对于文本数据和时序数据采用不同的信用风险评估模型，对于不同的神经网络模型，在处理文本数据或者时序数据时，其处理的可靠性和准确性也不相同，若采用相同的神经网络模型以及信用风险评估模型，则有可能导致最终的信用风险的评估结果的准确性也会受到一定程度的影响。

实施例1

为解决上述问题，根据本发明的一个方面，如图1所示，提供了根据本发明的一个方面，提供了一种违约风险评估方法。

如图1所示，一种违约风险评估方法，具体包括：

在另外一种可能的实施例中，所述用户的历史违约次数根据所述用户在第一时间阈值内的违约次数进行确定，所述第一时间阈值不少于一年。

具体的，若用户的历史违约次数为10次，而第一阈值为8次，则确定所述用户的历史违约风险为高风险。

具体的举个例子，所述用户的历史违约数据包括所述用户的历史违约次数、历史违约金额、最长违约时间、用户的违约状态，所述用户的违约状态包括处于违约状态和处于非违约状态。

在另外一种可能的实施例中，如图2所示，所述违约概率的评估的具体步骤为：

S21获取所述用户的违约状态，并判断所述用户的违约状态是否为处于违约状态，若是，则确定所述用户的违约概率为1，若否，则进入步骤S22；

S22基于所述用户的历史违约次数、历史违约金额、最长违约时间构建输入集，并基于机器学习算法的预测模型，得到所述用户的基础违约概率，并判断所述基础违约概率是否大于第二概率阈值，若是，则确定所述用户的违约概率为1，若否，则进入步骤S23；

具体的举个例子，所述基于机器学习算法的预测模型采用基于ACO-BP神经网络算法的预测模型，其中所述预测模型的具体的构建步骤为：

1)令BP神经网络有M个待优化的权值和阈值，每个权值和阈值设为n个随机非零值，并组成集合I_pi。

2)初始时刻，m只蚂蚁中第k只蚂蚁从集合I_pi出发，根据状态转移概率从集合I_pi中挑选一个元素j；当从所有集合中挑选完元素后，构成BP神经网络的一组权值和阈值。

3)当m只蚂蚁全部完成循环，即可得到m组初始权值和阈值，构建BP神经网络并进行训练；记录网络训练时误差最小的一组权值和阈值，比较最小误差和期望误差大小，若大于期望误差，则执行步骤4)，否则执行步骤6)。

4)对集合I_pi中每个元素的信息素量进行调整，调整公式为：

式10中，Δτ_j ^k(I_Pi)为第k只蚂蚁在每次循环中留在集合I_pi元素j信息素量，公式为：

式中e_k为蚂蚁k挑选的权值和阈值训练BP神经网络得到的网络输出和期望输出间的误差。

5)重复步骤2)和3)直到所有蚂蚁收敛于同一条最优路径或者达到最大迭代次数。

6)利用蚁群算法筛选出的最优BP神经网络初始权值和阈值，进一步训练神经网络，满足训练条件后退出。

S23基于所述用户的最近一年的违约次数，对所述基础违约概率进行修正，得到所述用户的违约概率。

具体的举个例子，在传统蚁群算法的初始化阶段，人们通常是将所有路径上的信息素浓度都初始化为相同的常数值，这就造成了在初始阶段蚂蚁只能依靠启发式信息的指导进行搜索，进而导致大部分蚂蚁都倾向于选择最短的路径，造成了局部收敛过快，易陷入局部最优解的问题；因此，我们提出“差异初始化信息素浓度”，基本思想是将蚂蚁随机分布在各个城市，计算每只蚂蚁到达其余n-1个城市的距离，并按照由小到大的顺序排列，取前k个城市作为搜索范围，并且按照下式在相对较长路径上初始化较高浓度的信息素而在相对较短路径上初始化较低浓度的信息素的策略，这样在初始阶段既兼顾了信息素和启发式信息两种因素同时也可以提高蚂蚁搜索下一个城市的随机性；

其中，a是一个信息素基数，Δtij是根据路径长短额外添加的信息素浓度，Φ(i)是选取的k个搜索范围，dij是城市i到城市j的距离。

在实际的操作过程中，整个蚁群每一次迭代结束后，将所有蚂蚁遍历过的路径按照递增顺序排列，利用下列公式选取k个蚂蚁路径进行“内变异”(即在蚂蚁遍历的路径中通过城市之间的次序交换)；之所以这样是因为如果选用长度较长的路径进行变异操作，经过二次遍历得到新的路径长度优于本次迭代得到的最优路径的概率较低。假设发生变异点的城市位置是w_i，同时变异范围只能是其他n-1个城市位置，发生变异会产生两种情况：第一，如果本次遍历变异后产生的新位置w_j在该变异点之前出现过，那么交换两者的位置，并从w_j处开始二次遍历剩余城市；第二，如果变异点变异后产生的新位置w_j在该变异点之后，那么就从变异点开始二次遍历。

其中，d_max是城市i到城市j的最大值，d_min是城市i到城市j的最小值，m是选取变异个体数量，在这里是种群数量的一半，t为当前迭代次数，Tmax为最大迭代次数，rand()为取值范围在0到1之间的随机数。

具体的，所述第一概率阈值根据待评估的用户的数量、违约用户的违约概率情况进行确定，其中所述待评估的用户的数量越多，违约用户的违约概率的评估结果的平均值越大，则所述第一概率阈值越大。

具体的，所述用户的时序违约评分的评估的具体步骤为：

S31基于历史违约客户的时序数据的概率分布情况，确定所述时序数据与历史违约用户的相关度，并基于所述相关度进行所述时序数据的基础权值的确定，并基于所述时序数据的形成时间对所述基础权值进行修正得到所述时序数据的权值；

具体的举个例子，所述时序数据与违约用户的相关度采用基于主成分分析的方式进行确定。

具体的举个例子，当相关度为0.02时，而时序数据的形成时间分为超过1年以及不超过1年，对于超过1年的数据，其基本权值为0.1，对于未超过1年的数据，其基本权值为0.5，则两种情况下的权值分别为0.12和0.52。

S32基于所述时序数据的权值，对所述时序数据进行重构得到重构后的数据并将其作为重构时序数据；

S33基于所述重构时序数据，采用时序数据风险评估模型确定所述用户的时序违约评分。

具体的举个例子，所述时许风险评估模型采用基于PSO-LSTM算法的评估模型，其具体的构建步骤为：

(1)区别于传统LSTM方法中的第一步——将数据集分为训练集及测试集(预测集)，本发明方法将训练集分为LSTM训练集以及PSO寻优集。

(2)在数据集分配结束后，方法的第二步是初始化PSO算法，随机生成粒子种群，其中，粒子维数为二维，包括初始学习率和Dropout概率。

(3)在每一轮迭代中，以LSTM训练集为训练集，以PSO寻优集为测试集，模拟LSTM预测过程，并在迭代中选择使预测误差最小的解(粒子)。

(4)当到达结束条件时，输出种群历史最优解，并以该解为最佳初始学习率及Dropout概率进行下一步LSTM预测，并得到预测结果；

具体的举个例子，所述第二概率阈值小于第一概率阈值。

具体的，如图4所示，所述用户的违约风险得分构建的具体步骤为：

S41基于所述用户的文本违约评分和时序违约评分，采用基于层次分析法的数学模型，确定所述用户的违约风险评估得分，并判断所述用户的违约风险评估得分是否大于第一评估阈值，若是，则将所述用户的违约风险得分设置为1，若否，则进入步骤S42；

S42判断所述用户的违约风险评估得分是否大于第二评估阈值，若是，则进入步骤S43，若否，则进入步骤S44；

S43判断所述用户的违约概率是否大于第三概率阈值，若是，则将所述用户的违约风险得分设置为1，若否，则进入步骤S44；

S44基于所述用户的文本违约评分、时序违约评分、违约概率，采用基于机器学习算法的评估模型，得到所述用户的违约风险得分。

具体的，当所述用户的违约风险得分大于第二阈值时，则确定所述客户的历史违约风险为高风险，当所述用户的违约风险得分大于第三阈值且所述用户的违约概率大于第三概率阈值时，则确定所述用户的历史违约风险为高风险，当所述用户的违约风险得分不大于第二阈值，并且当所述用户的违约风险得分不大于第三阈值且违约概率不大于第三概率阈值时，则确定所述用户的历史违约风险为低风险。

实施例2

本申请实施例中提供一种计算机设备，包括：通信连接的存储器和处理器，以及存储在所述存储器上并能够在所述处理器上运行的计算机程序，其特征在于：所述处理器运行所述计算机程序时执行上述的一种违约风险评估方法。

具体的，本实施例还提供了一种计算机设备，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库；其中，该计算机设备的处理器用于提供计算和控制能力；该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述的一种违约风险评估方法。

实施例3

如图5所示，本发明提供了一种计算机存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述的一种违约风险评估方法。

具体的，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种违约风险评估方法，其特征在于，具体包括：

S11获取用户的历史违约次数，并判断所述用户的历史违约次数是否大于第一阈值，若是，则确定所述用户的历史违约风险为高风险，若否，则进入步骤S12;

S12获取用户的历史违约数据，并基于所述历史违约数据判断所述用户的违约概率是否大于第一概率阈值，若是，则确定所述用户的历史违约风险为高风险，若否，则进入步骤S13；

所述违约概率的评估的具体步骤为：

获取所述用户的违约状态，并判断所述用户的违约状态是否为处于违约状态，若是，则确定所述用户的违约概率为1，若否，则进入下一步骤；

基于所述用户的历史违约次数、历史违约金额、最长违约时间构建输入集，并基于机器学习算法的预测模型，得到所述用户的基础违约概率，并判断所述基础违约概率是否大于第二概率阈值，若是，则确定所述用户的违约概率为1，若否，则进入下一步骤；

基于所述用户的最近一年的违约次数，对所述基础违约概率进行修正，得到所述用户的违约概率；

S13获取所述用户的非结构化数据中的时序数据，并将所述时序数据以及所述时序数据的权值，对所述时序数据进行重构得到重构后的数据并将其作为重构时序数据，并基于所述重构时序数据，采用时序数据风险评估模型确定所述用户的时序违约评分，并判断是否所述用户的时序违约评分大于第一风险阈值且所述用户的违约概率大于第二概率阈值，若是，则确定所述用户的历史违约风险为高风险，若否，则进入步骤S14；

所述用户的时序违约评分的评估的具体步骤为：

基于历史违约客户的时序数据的概率分布情况，确定所述时序数据与历史违约用户的相关度，并基于所述相关度进行所述时序数据的基础权值的确定，并基于所述时序数据的形成时间对所述基础权值进行修正得到所述时序数据的权值；

基于所述时序数据的权值，对所述时序数据进行重构得到重构后的数据并将其作为重构时序数据；

基于所述重构时序数据，采用时序数据风险评估模型确定所述用户的时序违约评分；

S14获取所述用户的非结构数据中的文本数据，并基于所述文本数据以及所述文本数据的权值进行重构得到重构文本数据，并采用基于文本数据风险评估模型确定所述用户的文本违约评分，并基于所述用户的文本违约评分、时序违约评分、违约概率，采用基于机器学习算法的评估模型，得到所述用户的违约风险得分，并基于所述用户的违约风险得分确认所述用户的违约风险；

所述用户的违约风险得分构建的具体步骤为：

S41基于所述用户的文本违约评分和时序违约评分，采用基于层次分析法的数学模型，确定所述用户的违约风险评估得分，并判断所述用户的违约风险评估得分是否大于第一评估阈值，若是，则将所述用户的违约风险得分设置为1，若否，则进入步骤S42;

2.如权利要求1所述的违约风险评估方法，其特征在于，所述用户的历史违约次数根据所述用户在第一时间阈值内的违约次数进行确定，所述第一时间阈值不少于一年。

3.如权利要求1所述的违约风险评估方法，其特征在于，所述用户的历史违约数据包括所述用户的历史违约次数、历史违约金额、最长违约时间、用户的违约状态，所述用户的违约状态包括处于违约状态和处于非违约状态。

4.如权利要求1所述的违约风险评估方法，其特征在于，所述第一概率阈值根据待评估的用户的数量、违约用户的违约概率情况进行确定，其中所述待评估的用户的数量越多，违约用户的违约概率的评估结果的平均值越大，则所述第一概率阈值越大。

5.如权利要求1所述的违约风险评估方法，其特征在于，所述时序数据与违约用户的相关度采用基于主成分分析的方式进行确定。

6.如权利要求1所述的违约风险评估方法，其特征在于，当所述用户的违约风险得分大于第二阈值时，则确定所述用户的历史违约风险为高风险，当所述用户的违约风险得分大于第三阈值且所述用户的违约概率大于第三概率阈值时，则确定所述用户的历史违约风险为高风险，当所述用户的违约风险得分不大于第二阈值，并且当所述用户的违约风险得分不大于第三阈值且违约概率不大于第三概率阈值时，则确定所述用户的历史违约风险为低风险。

7.一种计算机设备，包括：通信连接的存储器和处理器，以及存储在所述存储器上并能够在所述处理器上运行的计算机程序，其特征在于：所述处理器运行所述计算机程序时执行权利要求1-6任一项所述的一种违约风险评估方法。

8.一种计算机存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-6任一项所述的一种违约风险评估方法。