CN117094817B - 一种信用风险控制智能预测方法及系统 - Google Patents
一种信用风险控制智能预测方法及系统 Download PDFInfo
- Publication number
- CN117094817B CN117094817B CN202311360862.0A CN202311360862A CN117094817B CN 117094817 B CN117094817 B CN 117094817B CN 202311360862 A CN202311360862 A CN 202311360862A CN 117094817 B CN117094817 B CN 117094817B
- Authority
- CN
- China
- Prior art keywords
- data
- user
- model
- target user
- credit risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012954 risk control Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000003062 neural network model Methods 0.000 claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 230000006399 behavior Effects 0.000 claims description 42
- 238000013058 risk prediction model Methods 0.000 claims description 22
- 238000012216 screening Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 8
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明为一种信用风险控制智能预测方法及系统,首先采集多个平台的用户数据;运用混合K‑Prototypes算对用户行为数据进行聚类,使用类别标签进行标识;构建目标用户的各类别社交关系知识图谱数据;从社交关系知识图谱中得到目标用户及与目标用户具有关联关系的其他用户;根据类别标签获得对应的风险控制智能预测模型;将目标用户的用户行为数据及目标用户具有关联关系的其他用户的用户行为数据输入对应的风险控制智能预测模型,得到各用户信用风险预测分值;根据预测分值加权计算得到当前类别标签下的目标用户信用风险预测分值;将风险预测分值输入混合神经网络模型,最终得到目标用户的信用风险预测值。
Description
技术领域
本发明属于涉及大数据领域,尤其是涉及一种信用风险控制智能预测方法及系统。
背景技术
通常在借贷交易的场景中,存在一些这样潜在的危险用户,其表现为:无法清楚地审视自身的经济情况,以及未来是否具有能力按时偿还贷款,这类危险用户在未来会存在一定的贷款违约几率。如果此时商业银行擅自地给这些用户提供贷款,到还款日期时某些潜在的危险用户会有逾期还款行为,甚至在今后会拖欠不还贷款,从而导致亏损。
为了避免个人信用风险对商业银行信贷业务发展造成不利影响,需要准确地识别潜在违约用户。对此,每家商业银行都有着一套针对于贷款用户的征信系统,目的是在对借款人进行放款之前,对借款人的基本属性信息进行分析,进而预测这个借款人是否会在未来有拖欠不还贷款的行为,最后决定是否对这个借款人放款。传统个人信用评估方法是针对借款用户基本属性进行定性的分析,根据一些金融知识以及常识来判断这个借款人是否会在未来有拖欠不还贷款的行为。这种方式不仅消耗时间较长,并且误判的概率也十分大。
发明内容
为了克服上述现有技术的不足,本公开提供了一种信用风险控制智能预测方法及系统,通过提取用户的多维度特征,分别通过不同的信贷违约风险预测模型进行预测,提高预测及控制的准确性,更好地规避个人信用贷款违约风险。
本公开所采用的技术方案是:
本发明实施例的第一方面提出一种信用风险控制智能预测方法,应用于大数据处理的混合储能电池状态监控系统,所述方法包括:
采集多个平台的用户数据,其中,所述用户数据包括多个维度的用户行为数据及用户属性数据;
运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类,得到多个类别数据,使用类别标签进行标识;
对于各类别标签及对应的各类别数据,构建目标用户的社交关系知识图谱数据;
根据目标用户标识及类别标签,从所述社交关系知识图谱中得到目标用户及与目标用户具有关联关系的其他用户;
根据所述类别标签获得对应的风险控制智能预测模型;
将所述目标用户的用户行为数据及所述目标用户具有关联关系的其他用户的用户行为数据输入对应的风险控制智能预测模型,得到当前类别标签下的各用户信用风险预测分值;
根据所述各用户信用风险预测分值加权计算得到当前类别标签下的目标用户信用风险预测分值;
将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型,得到目标用户的信用风险预测值。
可选的,在本发明实施例第一方面的第一种实现方式中,所述运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类,得到多个类别数据,包括:
将用户标识表示为数据集,数据集中每个数据记录有d个特征,即,(0 ≤ i ≤n),其中,p表示数值型特征的个数,n表示与目标用户具有关联关系的用户的个数;
设初始聚类个数为k,对应模的集合为,其中,,则样本数据集中的数据集/>与对应的模/>的距离为:
,
,
,其中,/>表示分类属性的权重,/>表示样本/>与模/>的字符串级别的差异度,/>表示样本/>与模/>的词袋级别的差异度,/>表示获取样本向量的最长公共子串;strlen()表示获取字符串的长度,/>表示样本/>与模/>的交集,/>表示样本/>与模/>的并集。
可选的,在本发明实施例第一方面的第一种实现方式中,所述对于各类别标签及对应的各类别数据,构建目标用户的社交关系知识图谱数据,包括:
根据目标用户属性得到各类别标签;
根据各类别标签,获得与目标用户具有社交关系的用户的行为数据,所述行为数据至少包括信贷数据和消费数据;
根据各类别数据,分别构建关于目标用户所述类别数据的社交关系知识图谱数据。
可选的,在本发明实施例第一方面的第一种实现方式中,所述根据所述类别标签获得对应的风险控制智能预测模型,具体包括:
预先构建模型数据库,用于存储类别标签与预测模型的映射关系,包括:
当类别标签为年龄时,预测模型为线性模型;
当类别标签为职业时,预测模型为决策树模型;
当类别标签为性别时,预测模型为支持向量机模型;
当类别标签为贷款数据时,预测模型为贝叶斯决策模型;
当类别标签为消费数据时,预测模型为神经网络模型;
根据所述类别标签从模型数据库进行查找,获得匹配的模型作为其风险控制智能预测模型。
可选的,在本发明实施例第一方面的第一种实现方式中,所述线性模型为基于Logistic线性回归的信贷违约风险预测模型;所述决策树模型为基于随机森林RF的信贷违约风险预测模型;所述支持向量机模型为基于支持向量回归的信贷违约风险预测模型;所述贝叶斯决策模型为基于EM算法的信贷违约风险预测模型;所述神经网络模型为基于为基于误差逆传播算法的神经网络模型。
可选的,在本发明实施例第一方面的第一种实现方式中,所述将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型,得到目标用户的信用风险预测值,包括:
构建初始混合神经网络模型;
选取完全样本数据对初始混合神经网络模型进行训练;
调整模型参数得到训练好的混合神经网络模型;
所述混合神经网络模型为基于集成学习的Boosting信贷违约风险预测模型,其目标函数为:
,其中,/>表示取值为k时对应的权重,K表示模型的个数,/>表示取值为k对应的信贷违约风险预测模型的取值。
本发明实施例的第二方面提供了一种信用风险控制智能预测系统,所述系统应用于所述系统应用于所述的信用风险控制智能预测方法,包括:
信息采集模块,用于采集多个平台的用户数据,其中,所述用户数据包括多个维度的用户行为数据及用户属性数据;
信息筛选模块,用于运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类,得到多个类别数据,使用类别标签进行标识;
社交关系知识图谱数据构建模块,对于对于各类别标签及对应的各类别数据,构建目标用户的社交关系知识图谱数据;
查找模块,用于目标用户标识及类别标签,从所述社交关系知识图谱中得到目标用户及与目标用户具有关联关系的其他用户;
模型筛选模块,用于根据所述类别标签获得对应的风险控制智能预测模型;
各用户信用风险预测模块,用于将所述目标用户的用户行为数据及所述目标用户具有关联关系的其他用户的用户行为数据输入对应的风险控制智能预测模型,得到当前类别标签下的各用户信用风险预测分值;
目标用户信用风险预测模块,用于根据所述各用户信用风险预测分值加权计算得到当前类别标签下的目标用户信用风险预测分值;
信用风险预测模块,用于将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型,得到目标用户的信用风险预测值。
本发明实施例的第三方面提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的信用风险控制智能预测方法。
本发明实施例的第四方面提供了一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行任意一项所述的信用风险控制智能预测方法。
本项发明的上述技术方案有益结果如下:
本发明实施例提供的技术方案中,利用目标用户自身及其关联方的数据,通过聚类、知识图谱的方式,构建多维度目标用户及与其相关用户的社交关系知识图谱,从而准确获得目标用户自身及其关联方的数据,同时,通过构建各类型下的风险控制智能预测模型,对不同类型的数据分别进行风险预测,最后再根据数据的权重占比得到目标用户的信用风险预测值,因此可以提高预测结果的准确性。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本申请,并不构成对本公开的不当限定。
图1为基于信用风险控制智能预测方法的步骤流程图;
图2为基于信用风险控制智能预测系统的模块示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。 除非另有指明,本公开使用的所有技术和科学术语具有与本公开所属技术领域 的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图 限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确 指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说 明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
参阅图1,示出了本发明实施例一之基于大数据驱动智能理赔方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。需要说明是,本实施例以计算机设备为执行主体进行示例性描述。具体如下:
步骤S100,采集多个平台的用户数据,其中,所述用户数据包括多个维度的用户行为数据及用户属性数据。
示例性地,可以通过用户终端,如手机、电脑及服务器爬取用户数据,其中,用户数据包括用户属性数据,比如年龄、性别、职位等,还包括多个维度的用户行为数据,如是否有贷款、贷款的类型、网络消费数据、投资数据等。
步骤S102,运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类,得到多个类别数据,使用类别标签进行标识。
示例性地,所述运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类,得到多个类别数据,包括:
将用户标识表示为数据集,数据集中每个数据记录有d个特征,即,(0 ≤ i ≤n),其中,p表示数值型特征的个数,n表示与目标用户具有关联关系的用户的个数;
设初始聚类个数为k,对应模的集合为,其中,,则样本数据集中的数据集/>与对应的模/>的距离为:
,
,
,其中,/>表示分类属性的权重,/>表示样本/>与模/>的字符串级别的差异度,/>表示样本/>与模/>的词袋级别的差异度,/>表示获取样本向量的最长公共子串;strlen()表示获取字符串的长度,/>表示样本/>与模/>的交集,/>表示样本/>与模/>的并集。
步骤S104,对于各类别标签及对应的各类别数据,构建目标用户的社交关系知识图谱数据。
示例性地,对于各类别标签及对应的各类别数据,构建目标用户的社交关系知识图谱数据,包括:
根据目标用户属性得到各类别标签;
根据各类别标签,获得与目标用户具有社交关系的用户的行为数据,所述行为数据至少包括信贷数据和消费数据;
根据各类别数据,分别构建关于目标用户所述类别数据的社交关系知识图谱数据。
步骤S106,根据目标用户标识及类别标签,从所述社交关系知识图谱中得到目标用户及与目标用户具有关联关系的其他用户。
示例性地,首先获取类别标签,以得到标签对应的社交关系知识图谱,接着,再获取目标用户标识,根据目标用户标识在所述社交关系知识图谱中找出目标用户具有关联关系的其他用户,进而可以根据其他用户标识获得其他用户对应的行为数据。
通过预先构造的社交关系知识图谱得到的其他用户对应的行为数据,可以从数量上很大程度的过滤了与目标用户无关的无用数据,在后续的信贷违约风险预测模型预测中,得到的预测结果更加准确。
步骤S108,根据所述类别标签获得对应的风险控制智能预测模型。
可选的,根据预先定义的多种风险类型,构建训练样本集,训练样本包括黑样本和白样本;基于所述特征库和训练样本集,分别针对每一种风险类型进行训练,得到对应的风险预测模型。基于类别标签构建多个预测模型,有助于提高最终获得的预测模型的预测结果准确度。
可选的,所述根据所述类别标签获得对应的风险控制智能预测模型,具体包括:
预先构建模型数据库,用于存储类别标签与预测模型的映射关系,包括:
当类别标签为年龄时,预测模型为线性模型;
当类别标签为职业时,预测模型为决策树模型;
当类别标签为性别时,预测模型为支持向量机模型;
当类别标签为贷款数据时,预测模型为贝叶斯决策模型;
当类别标签为消费数据时,预测模型为神经网络模型;
根据所述类别标签从模型数据库进行查找,获得匹配的模型作为其风险控制智能预测模型。
所述线性模型为基于Logistic线性回归的信贷违约风险预测模型;
可选的,所述决策树模型为基于随机森林RF的信贷违约风险预测模型;所述支持向量机模型为基于支持向量回归的信贷违约风险预测模型;所述贝叶斯决策模型为基于EM算法的信贷违约风险预测模型;所述神经网络模型为基于为基于误差逆传播算法的神经网络模型。
步骤S110,将所述目标用户的用户行为数据及所述目标用户具有关联关系的其他用户的用户行为数据输入对应的风险控制智能预测模型,得到当前类别标签下的各用户信用风险预测分值。步骤S112,根据所述各用户信用风险预测分值加权计算得到当前类别标签下的目标用户信用风险预测分值。
可选的,根据预先定义的多种风险类型,构建训练样本集,训练样本包括黑样本和白样本;基于所述特征库和训练样本集,分别针对每一种风险类型进行训练,得到对应的风险预测模型。
可选的,将所述目标用户的用户行为数据及所述目标用户具有关联关系的其他用户的用户行为数据输入对应的风险控制智能预测模型,得到当前类别标签下的各用户信用风险预测分值。而该各用户信用风险预测分值是基于与目标用户具有关联关系的其他用户的用户信用风险预测分值,其聚类在同一个社交关系知识图谱中,在一定程度上可以用来评估目标用户的信用风险程度。
步骤S112,根据所述各用户信用风险预测分值加权计算得到当前类别标签下的目标用户信用风险预测分值。
可选的,类别标签为A的预测公式可以为:;
类别标签为B的预测公式可以为:。其中,/>、/>为类别标签为A、B的目标用户信用风险预测分值,/>、/>为对应的权重系数。
步骤S114,将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型,得到目标用户的信用风险预测值。
可选的,所述将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型,得到目标用户的信用风险预测值,包括:
构建初始混合神经网络模型;
选取完全样本数据对初始混合神经网络模型进行训练;
调整模型参数得到训练好的混合神经网络模型;
所述混合神经网络模型为基于集成学习的Boosting信贷违约风险预测模型,其目标函数为:
,其中,/>表示取值为k时对应的权重,K表示模型的个数,/>表示取值为k对应的信贷违约风险预测模型的取值。
在一实施例中,提供一种信用风险控制智能预测系统,该系统与上述实施例中智能理赔方法一一对应。如图2所示,该信用风险控制智能预测系统包括信息采集模块11、信息筛选模块12、社交关系知识图谱数据构建模块13、查找模块14、模型筛选模块15、各用户信用风险预测模块16、目标用户信用风险预测模块17、信用风险预测模块18。各功能模块详细说明如下:
信息采集模块11,用于采集多个平台的用户数据,其中,所述用户数据包括多个维度的用户行为数据及用户属性数据;
信息筛选模块12,用于运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类,得到多个类别数据,使用类别标签进行标识;
社交关系知识图谱数据构建模块13,用于对于各类别标签及对应的各类别数据,构建目标用户的社交关系知识图谱数据;
查找模块14,用于根据目标用户标识及类别标签,从所述社交关系知识图谱中得到目标用户及与目标用户具有关联关系的其他用户;
模型筛选模块15,用于根据所述类别标签获得对应的风险控制智能预测模型;
各用户信用风险预测模块16,用于将所述目标用户的用户行为数据及所述目标用户具有关联关系的其他用户的用户行为数据输入对应的风险控制智能预测模型,得到当前类别标签下的各用户信用风险预测分值;
目标用户信用风险预测模块17,用于根据所述各用户信用风险预测分值加权计算得到当前类别标签下的目标用户信用风险预测分值;
信用风险预测模块18,用于将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型,得到目标用户的信用风险预测值。
在其中一个实施例中,信息聚类模块12的功能进一步包括,运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类,得到多个类别数据,包括:
将用户标识表示为数据集,数据集中每个数据记录有d个特征,即,(0 ≤ i ≤n),其中,p表示数值型特征的个数,n表示与目标用户具有关联关系的用户的个数;
设初始聚类个数为k,对应模的集合为,其中,,则样本数据集中的数据集/>与对应的模/>的距离为:
,
,
,其中,/>表示分类属性的权重,/>表示样本/>与模/>的字符串级别的差异度,/>表示样本/>与模/>的词袋级别的差异度,/>表示获取样本向量的最长公共子串;strlen()表示获取字符串的长度,/>表示样本/>与模/>的交集,/>表示样本/>与模/>的并集。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的信用风险控制智能预测方法。
本发明实施例还提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行所述的信用风险控制智能预测方法。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开 保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上, 本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开 的保护范围以内。
Claims (10)
1.一种信用风险控制智能预测方法,其特征在于,包括:
采集多个平台的用户数据,其中,所述用户数据包括多个维度的用户行为数据及用户属性数据;
运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类,得到多个类别数据,使用类别标签进行标识;
对于各类别标签及对应的各类别数据,构建目标用户的社交关系知识图谱数据;
根据目标用户标识及类别标签,从所述社交关系知识图谱中得到目标用户及与目标用户具有关联关系的其他用户;
根据所述类别标签获得对应的风险控制智能预测模型;
将所述目标用户的用户行为数据及所述目标用户具有关联关系的其他用户的用户行为数据输入对应的风险控制智能预测模型,得到当前类别标签下的各用户信用风险预测分值;
根据所述各用户信用风险预测分值加权计算得到当前类别标签下的目标用户信用风险预测分值;
将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型,得到目标用户的信用风险预测值。
2.根据权利要求1所述的一种信用风险控制智能预测方法,其特征在于,所述运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类,得到多个类别数据,包括:
将用户标识表示为数据集,数据集中每个数据记录有d个特征,即,0 ≤ i ≤n,其中,p表示数值型特征的个数,n表示与目标用户具有关联关系的用户的个数;
设初始聚类个数为k,对应模的集合为,其中,,则样本数据集中的数据集/>与对应的模/>的距离为:
,
,
,其中,/>表示分类属性的权重,/>表示样本/>与模/>的字符串级别的差异度,/>表示样本/>与模/>的词袋级别的差异度,/>表示获取样本向量的最长公共子串;strlen()表示获取字符串的长度,/>表示样本/>与模的交集,/>表示样本/>与模/>的并集。
3.根据权利要求1所述的一种信用风险控制智能预测方法,其特征在于,所述对于各类别标签及对应的各类别数据,构建目标用户的社交关系知识图谱数据,包括:
根据目标用户属性得到各类别标签;
根据各类别标签,获得与目标用户具有社交关系的用户的行为数据,所述行为数据至少包括信贷数据和消费数据;
根据各类别数据,分别构建关于目标用户所述类别数据的社交关系知识图谱数据。
4.根据权利要求1所述的一种信用风险控制智能预测方法,其特征在于,所述根据所述类别标签获得对应的风险控制智能预测模型,具体包括:
预先构建模型数据库,用于存储类别标签与预测模型的映射关系,包括:
当类别标签为年龄时,预测模型为线性模型;
当类别标签为职业时,预测模型为决策树模型;
当类别标签为性别时,预测模型为支持向量机模型;
当类别标签为贷款数据时,预测模型为贝叶斯决策模型;
当类别标签为消费数据时,预测模型为神经网络模型;
根据所述类别标签从模型数据库进行查找,获得匹配的模型作为其风险控制智能预测模型。
5.根据权利要求4所述的一种信用风险控制智能预测方法,其特征在于,
所述线性模型为基于Logistic线性回归的信贷违约风险预测模型;
所述决策树模型为基于随机森林RF的信贷违约风险预测模型;
所述支持向量机模型为基于支持向量回归的信贷违约风险预测模型;
所述贝叶斯决策模型为基于EM算法的信贷违约风险预测模型;
所述神经网络模型为基于误差逆传播算法的神经网络模型。
6.根据权利要求1所述的一种信用风险控制智能预测方法,其特征在于,将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型,得到目标用户的信用风险预测值,包括:
构建初始混合神经网络模型;
选取完全样本数据对初始混合神经网络模型进行训练;
调整模型参数得到训练好的混合神经网络模型;
所述混合神经网络模型为基于集成学习的Boosting信贷违约风险预测模型,其目标函数为:
,其中,/>表示取值为k时对应的权重,K表示模型的个数,/>表示取值为k对应的信贷违约风险预测模型的取值。
7.一种信用风险控制智能预测系统,所述系统应用于权利要求1所述的一种信用风险控制智能预测方法,其特征在于,包括:
信息采集模块,用于采集多个平台的用户数据,其中,所述用户数据包括多个维度的用户行为数据及用户属性数据;
信息筛选模块,用于运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类,得到多个类别数据,使用类别标签进行标识;
社交关系知识图谱数据构建模块,用于对于各类别标签及对应的各类别数据,构建目标用户的社交关系知识图谱数据;
查找模块,用于根据目标用户标识及类别标签,从所述社交关系知识图谱中得到目标用户及与目标用户具有关联关系的其他用户;
模型筛选模块,用于根据所述类别标签获得对应的风险控制智能预测模型;
各用户信用风险预测模块,用于将所述目标用户的用户行为数据及所述目标用户具有关联关系的其他用户的用户行为数据输入对应的风险控制智能预测模型,得到当前类别标签下的各用户信用风险预测分值;
目标用户信用风险预测模块,用于根据所述各用户信用风险预测分值加权计算得到当前类别标签下的目标用户信用风险预测分值;
信用风险预测模块,用于将各类别标签下的目标用户信用风险预测分值输入预先训练好的混合神经网络模型,得到目标用户的信用风险预测值。
8.根据权利要求7所述的一种信用风险控制智能预测系统,其特征在于,所述运用混合K-Prototypes算法根据用户属性数据对所述用户行为数据进行聚类,得到多个类别数据,包括:
将用户标识表示为数据集,数据集中每个数据记录有d个特征,即,0 ≤ i ≤n,其中,p表示数值型特征的个数,n表示与目标用户具有关联关系的用户的个数;
设初始聚类个数为k,对应模的集合为,其中,,则样本数据集中的数据集/>与对应的模/>的距离为:
,
,
,其中,/>表示分类属性的权重,/>表示样本/>与模/>的字符串级别的差异度,/>表示样本/>与模/>的词袋级别的差异度,/>表示获取样本向量的最长公共子串;strlen()表示获取字符串的长度,/>表示样本/>与模的交集,/>表示样本/>与模/>的并集。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6中任意一项所述的一种信用风险控制智能预测方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1-6中任意一项所述的一种信用风险控制智能预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311360862.0A CN117094817B (zh) | 2023-10-20 | 2023-10-20 | 一种信用风险控制智能预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311360862.0A CN117094817B (zh) | 2023-10-20 | 2023-10-20 | 一种信用风险控制智能预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117094817A CN117094817A (zh) | 2023-11-21 |
CN117094817B true CN117094817B (zh) | 2024-02-13 |
Family
ID=88770218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311360862.0A Active CN117094817B (zh) | 2023-10-20 | 2023-10-20 | 一种信用风险控制智能预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117094817B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109146661A (zh) * | 2018-07-04 | 2019-01-04 | 深圳市买买提信息科技有限公司 | 用户类型预测方法、装置、电子设备及存储介质 |
CN110110172A (zh) * | 2017-12-28 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 信息展示方法和装置 |
CN110163741A (zh) * | 2019-04-16 | 2019-08-23 | 深圳壹账通智能科技有限公司 | 基于信贷风控模型的信贷决策方法、装置、设备及介质 |
CN110689423A (zh) * | 2019-08-22 | 2020-01-14 | 平安科技(深圳)有限公司 | 一种信用评估的方法及装置 |
WO2021051592A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于人工智能处理数据的方法、装置及存储介质 |
CN113537796A (zh) * | 2021-07-22 | 2021-10-22 | 大路网络科技有限公司 | 一种企业风险评估方法、装置及设备 |
CN113657993A (zh) * | 2021-08-19 | 2021-11-16 | 中国平安财产保险股份有限公司 | 信用风险识别方法、装置、设备及存储介质 |
CN116485557A (zh) * | 2023-04-28 | 2023-07-25 | 无锡职业技术学院 | 一种基于知识图谱的信用风险融合预测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11436615B2 (en) * | 2020-08-28 | 2022-09-06 | Anchain.ai Inc. | System and method for blockchain transaction risk management using machine learning |
-
2023
- 2023-10-20 CN CN202311360862.0A patent/CN117094817B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110172A (zh) * | 2017-12-28 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 信息展示方法和装置 |
CN109146661A (zh) * | 2018-07-04 | 2019-01-04 | 深圳市买买提信息科技有限公司 | 用户类型预测方法、装置、电子设备及存储介质 |
CN110163741A (zh) * | 2019-04-16 | 2019-08-23 | 深圳壹账通智能科技有限公司 | 基于信贷风控模型的信贷决策方法、装置、设备及介质 |
CN110689423A (zh) * | 2019-08-22 | 2020-01-14 | 平安科技(深圳)有限公司 | 一种信用评估的方法及装置 |
WO2021051592A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于人工智能处理数据的方法、装置及存储介质 |
CN113537796A (zh) * | 2021-07-22 | 2021-10-22 | 大路网络科技有限公司 | 一种企业风险评估方法、装置及设备 |
CN113657993A (zh) * | 2021-08-19 | 2021-11-16 | 中国平安财产保险股份有限公司 | 信用风险识别方法、装置、设备及存储介质 |
CN116485557A (zh) * | 2023-04-28 | 2023-07-25 | 无锡职业技术学院 | 一种基于知识图谱的信用风险融合预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117094817A (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ala’raj et al. | Modelling customers credit card behaviour using bidirectional LSTM neural networks | |
US7930242B2 (en) | Methods and systems for multi-credit reporting agency data modeling | |
WO2018192348A1 (zh) | 数据处理方法、装置及服务器 | |
CN108550065B (zh) | 评论数据处理方法、装置及设备 | |
Ma et al. | A credit risk assessment model of borrowers in P2P lending based on BP neural network | |
CN104321794A (zh) | 一种使用多维评级来确定一实体的未来商业可行性的系统和方法 | |
CN112215702A (zh) | 信用风险的评估方法、移动终端及计算机存储介质 | |
CN112989621B (zh) | 一种模型性能评价方法、装置、设备及存储介质 | |
Fan et al. | Improved ML‐based technique for credit card scoring in Internet financial risk control | |
CN109726918A (zh) | 基于生成式对抗网络和半监督学习的个人信用确定方法 | |
CN114298176A (zh) | 一种欺诈用户检测方法、装置、介质及电子设备 | |
CN111639688B (zh) | 一种基于线性核svm的物联网智能模型的局部解释方法 | |
CN117575773A (zh) | 业务数据的确定方法、装置、计算机设备、存储介质 | |
CN114119191A (zh) | 风控方法、逾期预测方法、模型训练方法及相关设备 | |
CN117291707A (zh) | 贷款申请处理方法、装置、电子设备和存储介质 | |
CN117094817B (zh) | 一种信用风险控制智能预测方法及系统 | |
Zhou | Loan Default Prediction Based on Machine Learning Methods | |
CN115204457A (zh) | 一种基于图注意力网络贷款违约风险预测方法 | |
CN117474004B (zh) | 一种用户信用恢复评估方法、装置及存储介质 | |
CN114281994B (zh) | 一种基于三层加权模型的文本聚类集成方法及系统 | |
Wan et al. | Research on the Combination Model Based on DPMM and IForest | |
CN113989012A (zh) | 不良资产的借款对象人群分类方法及装置、介质、设备 | |
CN118094215A (zh) | 样本数据的平衡、模型训练、分类方法、装置与设备 | |
CN118096342A (zh) | 账户对象数据处理方法、装置、计算机设备、存储介质 | |
CN117196817A (zh) | 一种基于集成学习的互联网金融风控预测系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |