CN117094817B

CN117094817B - 一种信用风险控制智能预测方法及系统

Info

Publication number: CN117094817B
Application number: CN202311360862.0A
Authority: CN
Inventors: 房永斌; 高云; 肖振峰; 姚磊
Original assignee: Guoren Property Insurance Co ltd
Current assignee: Guoren Property Insurance Co ltd
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2024-02-13
Anticipated expiration: 2043-10-20
Also published as: CN117094817A

Abstract

本发明为一种信用风险控制智能预测方法及系统，首先采集多个平台的用户数据；运用混合K‑Prototypes算对用户行为数据进行聚类，使用类别标签进行标识；构建目标用户的各类别社交关系知识图谱数据；从社交关系知识图谱中得到目标用户及与目标用户具有关联关系的其他用户；根据类别标签获得对应的风险控制智能预测模型；将目标用户的用户行为数据及目标用户具有关联关系的其他用户的用户行为数据输入对应的风险控制智能预测模型，得到各用户信用风险预测分值；根据预测分值加权计算得到当前类别标签下的目标用户信用风险预测分值；将风险预测分值输入混合神经网络模型，最终得到目标用户的信用风险预测值。

Description

一种信用风险控制智能预测方法及系统

技术领域

本发明属于涉及大数据领域，尤其是涉及一种信用风险控制智能预测方法及系统。

背景技术

通常在借贷交易的场景中，存在一些这样潜在的危险用户，其表现为：无法清楚地审视自身的经济情况，以及未来是否具有能力按时偿还贷款，这类危险用户在未来会存在一定的贷款违约几率。如果此时商业银行擅自地给这些用户提供贷款，到还款日期时某些潜在的危险用户会有逾期还款行为，甚至在今后会拖欠不还贷款，从而导致亏损。

为了避免个人信用风险对商业银行信贷业务发展造成不利影响，需要准确地识别潜在违约用户。对此，每家商业银行都有着一套针对于贷款用户的征信系统，目的是在对借款人进行放款之前，对借款人的基本属性信息进行分析，进而预测这个借款人是否会在未来有拖欠不还贷款的行为，最后决定是否对这个借款人放款。传统个人信用评估方法是针对借款用户基本属性进行定性的分析，根据一些金融知识以及常识来判断这个借款人是否会在未来有拖欠不还贷款的行为。这种方式不仅消耗时间较长，并且误判的概率也十分大。

发明内容

为了克服上述现有技术的不足，本公开提供了一种信用风险控制智能预测方法及系统，通过提取用户的多维度特征，分别通过不同的信贷违约风险预测模型进行预测，提高预测及控制的准确性，更好地规避个人信用贷款违约风险。

本公开所采用的技术方案是：

本发明实施例的第一方面提出一种信用风险控制智能预测方法，应用于大数据处理的混合储能电池状态监控系统，所述方法包括：

采集多个平台的用户数据，其中，所述用户数据包括多个维度的用户行为数据及用户属性数据；

运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类，得到多个类别数据，使用类别标签进行标识；

对于各类别标签及对应的各类别数据，构建目标用户的社交关系知识图谱数据；

根据目标用户标识及类别标签，从所述社交关系知识图谱中得到目标用户及与目标用户具有关联关系的其他用户；

根据所述类别标签获得对应的风险控制智能预测模型；

将所述目标用户的用户行为数据及所述目标用户具有关联关系的其他用户的用户行为数据输入对应的风险控制智能预测模型，得到当前类别标签下的各用户信用风险预测分值；

根据所述各用户信用风险预测分值加权计算得到当前类别标签下的目标用户信用风险预测分值；

将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型，得到目标用户的信用风险预测值。

可选的，在本发明实施例第一方面的第一种实现方式中，所述运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类，得到多个类别数据，包括：

将用户标识表示为数据集，数据集中每个数据记录有d个特征，即，（0 ≤ i ≤n），其中，p表示数值型特征的个数，n表示与目标用户具有关联关系的用户的个数；

设初始聚类个数为k，对应模的集合为，其中，，则样本数据集中的数据集/>与对应的模/>的距离为：

，

，其中，/>表示分类属性的权重，/>表示样本/>与模/>的字符串级别的差异度，/>表示样本/>与模/>的词袋级别的差异度，/>表示获取样本向量的最长公共子串；strlen()表示获取字符串的长度，/>表示样本/>与模/>的交集，/>表示样本/>与模/>的并集。

可选的，在本发明实施例第一方面的第一种实现方式中，所述对于各类别标签及对应的各类别数据，构建目标用户的社交关系知识图谱数据，包括：

根据目标用户属性得到各类别标签；

根据各类别标签，获得与目标用户具有社交关系的用户的行为数据，所述行为数据至少包括信贷数据和消费数据；

根据各类别数据，分别构建关于目标用户所述类别数据的社交关系知识图谱数据。

可选的，在本发明实施例第一方面的第一种实现方式中，所述根据所述类别标签获得对应的风险控制智能预测模型，具体包括：

预先构建模型数据库，用于存储类别标签与预测模型的映射关系，包括：

当类别标签为年龄时，预测模型为线性模型；

当类别标签为职业时，预测模型为决策树模型；

当类别标签为性别时，预测模型为支持向量机模型；

当类别标签为贷款数据时，预测模型为贝叶斯决策模型；

当类别标签为消费数据时，预测模型为神经网络模型；

根据所述类别标签从模型数据库进行查找，获得匹配的模型作为其风险控制智能预测模型。

可选的，在本发明实施例第一方面的第一种实现方式中，所述线性模型为基于Logistic线性回归的信贷违约风险预测模型；所述决策树模型为基于随机森林RF的信贷违约风险预测模型；所述支持向量机模型为基于支持向量回归的信贷违约风险预测模型；所述贝叶斯决策模型为基于EM算法的信贷违约风险预测模型；所述神经网络模型为基于为基于误差逆传播算法的神经网络模型。

可选的，在本发明实施例第一方面的第一种实现方式中，所述将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型，得到目标用户的信用风险预测值，包括：

构建初始混合神经网络模型；

选取完全样本数据对初始混合神经网络模型进行训练；

调整模型参数得到训练好的混合神经网络模型；

所述混合神经网络模型为基于集成学习的Boosting信贷违约风险预测模型，其目标函数为：

，其中，/>表示取值为k时对应的权重，K表示模型的个数，/>表示取值为k对应的信贷违约风险预测模型的取值。

本发明实施例的第二方面提供了一种信用风险控制智能预测系统，所述系统应用于所述系统应用于所述的信用风险控制智能预测方法，包括：

信息采集模块，用于采集多个平台的用户数据，其中，所述用户数据包括多个维度的用户行为数据及用户属性数据；

信息筛选模块，用于运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类，得到多个类别数据，使用类别标签进行标识；

社交关系知识图谱数据构建模块，对于对于各类别标签及对应的各类别数据，构建目标用户的社交关系知识图谱数据；

查找模块，用于目标用户标识及类别标签，从所述社交关系知识图谱中得到目标用户及与目标用户具有关联关系的其他用户；

模型筛选模块，用于根据所述类别标签获得对应的风险控制智能预测模型；

各用户信用风险预测模块，用于将所述目标用户的用户行为数据及所述目标用户具有关联关系的其他用户的用户行为数据输入对应的风险控制智能预测模型，得到当前类别标签下的各用户信用风险预测分值；

目标用户信用风险预测模块，用于根据所述各用户信用风险预测分值加权计算得到当前类别标签下的目标用户信用风险预测分值；

信用风险预测模块，用于将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型，得到目标用户的信用风险预测值。

本发明实施例的第三方面提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的信用风险控制智能预测方法。

本发明实施例的第四方面提供了一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行任意一项所述的信用风险控制智能预测方法。

本项发明的上述技术方案有益结果如下：

本发明实施例提供的技术方案中，利用目标用户自身及其关联方的数据，通过聚类、知识图谱的方式，构建多维度目标用户及与其相关用户的社交关系知识图谱，从而准确获得目标用户自身及其关联方的数据，同时，通过构建各类型下的风险控制智能预测模型，对不同类型的数据分别进行风险预测，最后再根据数据的权重占比得到目标用户的信用风险预测值，因此可以提高预测结果的准确性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本申请，并不构成对本公开的不当限定。

图1为基于信用风险控制智能预测方法的步骤流程图；

图2为基于信用风险控制智能预测系统的模块示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本公开使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

参阅图1，示出了本发明实施例一之基于大数据驱动智能理赔方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。需要说明是，本实施例以计算机设备为执行主体进行示例性描述。具体如下：

步骤S100，采集多个平台的用户数据，其中，所述用户数据包括多个维度的用户行为数据及用户属性数据。

示例性地，可以通过用户终端，如手机、电脑及服务器爬取用户数据，其中，用户数据包括用户属性数据，比如年龄、性别、职位等，还包括多个维度的用户行为数据，如是否有贷款、贷款的类型、网络消费数据、投资数据等。

步骤S102，运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类，得到多个类别数据，使用类别标签进行标识。

示例性地，所述运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类，得到多个类别数据，包括：

，

步骤S104，对于各类别标签及对应的各类别数据，构建目标用户的社交关系知识图谱数据。

示例性地，对于各类别标签及对应的各类别数据，构建目标用户的社交关系知识图谱数据，包括：

根据目标用户属性得到各类别标签；

步骤S106，根据目标用户标识及类别标签，从所述社交关系知识图谱中得到目标用户及与目标用户具有关联关系的其他用户。

示例性地，首先获取类别标签，以得到标签对应的社交关系知识图谱，接着，再获取目标用户标识，根据目标用户标识在所述社交关系知识图谱中找出目标用户具有关联关系的其他用户，进而可以根据其他用户标识获得其他用户对应的行为数据。

通过预先构造的社交关系知识图谱得到的其他用户对应的行为数据，可以从数量上很大程度的过滤了与目标用户无关的无用数据，在后续的信贷违约风险预测模型预测中，得到的预测结果更加准确。

步骤S108，根据所述类别标签获得对应的风险控制智能预测模型。

可选的，根据预先定义的多种风险类型，构建训练样本集，训练样本包括黑样本和白样本；基于所述特征库和训练样本集，分别针对每一种风险类型进行训练，得到对应的风险预测模型。基于类别标签构建多个预测模型，有助于提高最终获得的预测模型的预测结果准确度。

可选的，所述根据所述类别标签获得对应的风险控制智能预测模型，具体包括：

当类别标签为年龄时，预测模型为线性模型；

当类别标签为职业时，预测模型为决策树模型；

当类别标签为性别时，预测模型为支持向量机模型；

当类别标签为贷款数据时，预测模型为贝叶斯决策模型；

当类别标签为消费数据时，预测模型为神经网络模型；

所述线性模型为基于Logistic线性回归的信贷违约风险预测模型；

可选的，所述决策树模型为基于随机森林RF的信贷违约风险预测模型；所述支持向量机模型为基于支持向量回归的信贷违约风险预测模型；所述贝叶斯决策模型为基于EM算法的信贷违约风险预测模型；所述神经网络模型为基于为基于误差逆传播算法的神经网络模型。

步骤S110，将所述目标用户的用户行为数据及所述目标用户具有关联关系的其他用户的用户行为数据输入对应的风险控制智能预测模型，得到当前类别标签下的各用户信用风险预测分值。步骤S112，根据所述各用户信用风险预测分值加权计算得到当前类别标签下的目标用户信用风险预测分值。

可选的，根据预先定义的多种风险类型，构建训练样本集，训练样本包括黑样本和白样本；基于所述特征库和训练样本集，分别针对每一种风险类型进行训练，得到对应的风险预测模型。

可选的，将所述目标用户的用户行为数据及所述目标用户具有关联关系的其他用户的用户行为数据输入对应的风险控制智能预测模型，得到当前类别标签下的各用户信用风险预测分值。而该各用户信用风险预测分值是基于与目标用户具有关联关系的其他用户的用户信用风险预测分值，其聚类在同一个社交关系知识图谱中，在一定程度上可以用来评估目标用户的信用风险程度。

步骤S112，根据所述各用户信用风险预测分值加权计算得到当前类别标签下的目标用户信用风险预测分值。

可选的，类别标签为A的预测公式可以为：；

类别标签为B的预测公式可以为：。其中，/>、/>为类别标签为A、B的目标用户信用风险预测分值，/>、/>为对应的权重系数。

步骤S114，将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型，得到目标用户的信用风险预测值。

可选的，所述将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型，得到目标用户的信用风险预测值，包括：

构建初始混合神经网络模型；

选取完全样本数据对初始混合神经网络模型进行训练；

调整模型参数得到训练好的混合神经网络模型；

在一实施例中，提供一种信用风险控制智能预测系统，该系统与上述实施例中智能理赔方法一一对应。如图2所示，该信用风险控制智能预测系统包括信息采集模块11、信息筛选模块12、社交关系知识图谱数据构建模块13、查找模块14、模型筛选模块15、各用户信用风险预测模块16、目标用户信用风险预测模块17、信用风险预测模块18。各功能模块详细说明如下：

信息采集模块11，用于采集多个平台的用户数据，其中，所述用户数据包括多个维度的用户行为数据及用户属性数据；

信息筛选模块12，用于运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类，得到多个类别数据，使用类别标签进行标识；

社交关系知识图谱数据构建模块13，用于对于各类别标签及对应的各类别数据，构建目标用户的社交关系知识图谱数据；

查找模块14，用于根据目标用户标识及类别标签，从所述社交关系知识图谱中得到目标用户及与目标用户具有关联关系的其他用户；

模型筛选模块15，用于根据所述类别标签获得对应的风险控制智能预测模型；

各用户信用风险预测模块16，用于将所述目标用户的用户行为数据及所述目标用户具有关联关系的其他用户的用户行为数据输入对应的风险控制智能预测模型，得到当前类别标签下的各用户信用风险预测分值；

目标用户信用风险预测模块17，用于根据所述各用户信用风险预测分值加权计算得到当前类别标签下的目标用户信用风险预测分值；

信用风险预测模块18，用于将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型，得到目标用户的信用风险预测值。

在其中一个实施例中，信息聚类模块12的功能进一步包括，运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类，得到多个类别数据，包括：

，

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的信用风险控制智能预测方法。

本发明实施例还提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行所述的信用风险控制智能预测方法。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种信用风险控制智能预测方法，其特征在于，包括：

根据所述类别标签获得对应的风险控制智能预测模型；

2.根据权利要求1所述的一种信用风险控制智能预测方法，其特征在于，所述运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类，得到多个类别数据，包括：

将用户标识表示为数据集，数据集中每个数据记录有d个特征，即，0 ≤ i ≤n，其中，p表示数值型特征的个数，n表示与目标用户具有关联关系的用户的个数；

，

，其中，/>表示分类属性的权重，/>表示样本/>与模/>的字符串级别的差异度，/>表示样本/>与模/>的词袋级别的差异度，/>表示获取样本向量的最长公共子串；strlen()表示获取字符串的长度，/>表示样本/>与模的交集，/>表示样本/>与模/>的并集。

3.根据权利要求1所述的一种信用风险控制智能预测方法，其特征在于，所述对于各类别标签及对应的各类别数据，构建目标用户的社交关系知识图谱数据，包括：

根据目标用户属性得到各类别标签；

4.根据权利要求1所述的一种信用风险控制智能预测方法，其特征在于，所述根据所述类别标签获得对应的风险控制智能预测模型，具体包括：

当类别标签为年龄时，预测模型为线性模型；

当类别标签为职业时，预测模型为决策树模型；

当类别标签为性别时，预测模型为支持向量机模型；

当类别标签为贷款数据时，预测模型为贝叶斯决策模型；

当类别标签为消费数据时，预测模型为神经网络模型；

5.根据权利要求4所述的一种信用风险控制智能预测方法，其特征在于，

所述决策树模型为基于随机森林RF的信贷违约风险预测模型；

所述支持向量机模型为基于支持向量回归的信贷违约风险预测模型；

所述贝叶斯决策模型为基于EM算法的信贷违约风险预测模型；

所述神经网络模型为基于误差逆传播算法的神经网络模型。

6.根据权利要求1所述的一种信用风险控制智能预测方法，其特征在于，将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型，得到目标用户的信用风险预测值，包括：

构建初始混合神经网络模型；

选取完全样本数据对初始混合神经网络模型进行训练；

调整模型参数得到训练好的混合神经网络模型；

7.一种信用风险控制智能预测系统，所述系统应用于权利要求1所述的一种信用风险控制智能预测方法，其特征在于，包括：

社交关系知识图谱数据构建模块，用于对于各类别标签及对应的各类别数据，构建目标用户的社交关系知识图谱数据；

查找模块，用于根据目标用户标识及类别标签，从所述社交关系知识图谱中得到目标用户及与目标用户具有关联关系的其他用户；

8.根据权利要求7所述的一种信用风险控制智能预测系统，其特征在于，所述运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类，得到多个类别数据，包括：

，

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-6中任意一项所述的一种信用风险控制智能预测方法。

10.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-6中任意一项所述的一种信用风险控制智能预测方法。