CN111104975B

CN111104975B - 一种基于广度学习的信用评估方法

Info

Publication number: CN111104975B
Application number: CN201911257587.3A
Authority: CN
Inventors: 张美跃; 范章华; 程少锋; 周业; 俞传情; 周定云
Original assignee: Hengruitong Fujian Information Technology Co ltd
Current assignee: Hengruitong Fujian Information Technology Co ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2023-04-07
Anticipated expiration: 2039-12-10
Also published as: CN111104975A

Abstract

本发明提供的一种基于广度学习的信用评估方法，通过获取N个源域的自然人的信用数据；对所述信用数据进行降维处理和特征提取，得到处理后的数据；构建初始模型，并根据所述处理后的数据对所述初始模型进行训练，得到训练好的信用评估模型，解决了现有评估模型评估数据单一，模型难以推广的问题。

Description

一种基于广度学习的信用评估方法

技术领域

本发明涉及计算机技术领域，特别涉及一种基于广度学习的信用评估方法。

背景技术

近年来，随着大数据和人工智能产业的快速发展，数据分析和机器学习已经应用到人们生活的方方面面，但是随之而来的是一些新的挑战。对于大数据分析，存在需求的数据量不足，但是低相关性或无相关性的数据溢出；多数模型只能满足单一类型的数据处理和分析，不能处理多源域数据纠缠的复杂情况。对于一般的机器学习，存在训练一次需要消耗大量的时间却只能应用于单一场景；数据过于单一导致过度拟合等相关的学习问题。

现有信用评估模型一般仅应用于银行的信用贷款，以评估个人财务状况为主。但对于现在的城市生活，自然人的信用已经不仅体现于财务方面，而是表现在许多生活行为上，如良好的交通状况，良好的公益慈善经历，都可以作为评估一个人的信用等级的指标。而目前的信用评估方法考虑比较单一，不能处理除财务数据外其他多元数据的情况，造成一定程度上的数据浪费。其次，应用于公司、银行、医院等不同场景的信用评估方法不通用，没有统一的评估体系，对于同一城市，有相同数据的情况也难以推广，不符合现实需求。

综上，现有的评估模型存在评估数据单一，模型难以推广的问题。

发明内容

(一)要解决的技术问题

为了解决现有技术的上述问题，本发明提供一种基于广度学习的信用评估方法，能够解决现有评估模型评估数据单一，模型难以推广的问题。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

一种基于广度学习的信用评估方法，包括步骤：

S1、获取N个源域的自然人的信用数据；

S2、对所述信用数据进行降维处理和特征提取，得到处理后的数据；

S3、构建初始模型，并根据所述处理后的数据对所述初始模型进行训练，得到训练好的信用评估模型。

(三)有益效果

本发明的有益效果在于：通过获取N个源域的自然人的信用数据；对所述信用数据进行降维处理和特征提取，得到处理后的数据；构建初始模型，并根据所述处理后的数据对所述初始模型进行训练，得到训练好的信用评估模型，解决了现有评估模型评估数据单一，模型难以推广的问题。

附图说明

图1为本发明实施例的基于广度学习的信用评估方法的流程图；

图2为本发明实施例的基于广度学习的信用评估方法的预处理示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

实施例一

请参照图1至2，一种基于广度学习的信用评估方法，包括步骤：

S1、获取N个源域的自然人的信用数据；

所述信用数据包括自然人的基本情况、社会情况、职业情况、金融财务情况、政治作风情况、违法情况和公益情况的数据。

步骤S2包括：

S21、对所述信用数据进行预处理，得到预处理后的信用数据；

所述预处理包括：

统一数据类型；

归一化处理；

缺失值处理。

S22、通过随机森林和预设的特征权重计算特征权重值，并建立特征重要性排序表，根据所述特征重要性排序表对所述预处理后的信用数据进行降维处理，得到处理后的数据。

步骤S22包括：

S221、根据所述预处理后的信用数据建立对应的相同的主键，并将N个源域的信用数据相关联；

S222、通过随机森林建立M颗决策树对所述预处理后的信用数据进行训练，将未参与决策树建立的数据对生成的决策树的性能计算错误率，记为OOB₁，未参与决策树建立的数据中加入噪声扰动，再次计算数据误差，记为OOB₂，并根据公式

计算特征重要性；

S223、对每一个特征设置可调整权重参数项，用于提高或降低特征变量在特征重要性排序表中的优先级，记为λ_i∈[0,1](i＝1,2,3…,N)，并根据W＝Iλ_i(i＝1,2,3…,N)计算权重值W，按照特征权重值的大小降序排列，得到特征重要性排序表。

S224、设置降维参数α∈(0,0.02]，并根据所述降维参数α将特征重要性排序表中无关变量剔除，完成数据降维处理，得到处理后的数据。

步骤S3包括：

S31、设置不同源域的输入权重参数，所述权重参数记为β_i∈[0,1](i＝1,2,3,…,N)；根据特征所属的源域，输入特征指标可计算为Q＝β_iW；

S32、根据评估需求将所述处理后的数据划分为训练数据集和评估数据集；

S33、构建三层的初始神经网络模型，其中，输入层结点数为k，输入向量d＝(d₁,d₂,d₃,…,d_a,…,d_k)^T对应计算的特征指标；隐藏层结点数为m，隐藏层向量为p＝(p₁,p₂,p₃,…,p_b,…,p_m)^T；输出层结点数为n，输出向量o＝(o₁,o₂,o₃,…,o_c,…,o_n)^T对应分类结果；期望输出向量为d＝(d₁,d₂,d₃,…,d_c,…,d_n)^T；输入层到隐藏层之间的权值矩阵表示为v＝(v₁,v₂,v₃,…,v_b,…,v_m)；隐藏层与输出层之间的权值矩阵表示为w＝(w₁,w₂,w₃,…,w_c,…,w_n)；基于非线性分类问题，激活函数选用sigmoid函数，定义为f(U)；

S34、对输出层和隐藏层分别计算输出，可得到

和

S35、计算误差E，可得到

S36、根据梯度下降算法，设置学习速率参数η，计算更新权重参数w_bc和v_ab，直至所述初始神经网络模型收敛于拟定值，得到训练好的信用评估模型。

还包括步骤：

根据所述训练好的信用评估模型对待评估的自然人进行信用评估，得到评估结果。

实施例二

本实施例和实施例一的区别在于，本实施例将结合具体的应用场景进一步说明本发明上述基于广度学习的信用评估方法是如何实现的：

A：基于广度学习获取N个源域的自然人的信用数据，所述信用数据包括自然人的基本情况、社会情况、职业情况、金融财务情况、政治作风情况、违法情况和公益情况的数据；

B：对所述信用数据进行预处理，得到预处理后的信用数据；

所述预处理包括：

统一数据类型，对N个源域的百分比型数据转化为浮点型数据，并且统一有效数字位数；

数据库中的存储信息转化为0，1表示。(比如是否有住房，有则是1，无则是0；)

归一化处理，将数据库中存储的有效信息通过归一化处理，映射到[0,1]并存储为指标数据；

非离散变量作映射处理。使用最大最小归一化处理：设X_ij为一条数据的一个特征值，maxX_ij为一组数据此特征的最大值，minX_ij为一组数据此特征的最小值。可根据

计算特征值，映射到[0,1]区间。

缺失值处理，使用数据处理工具统计各源域数据的特征值缺失率并设置阈值进行数据清洗。

对缺失严重的数据，进行数据缺失值填补，统计各特征变量的缺失率，设定阈值进行填充。

C：通过随机森林和预设的特征权重计算特征权重值，并建立特征重要性排序表，根据所述特征重要性排序表对所述预处理后的信用数据进行降维处理，得到处理后的数据。

C1、根据所述预处理后的信用数据建立对应的相同的主键，并将N个源域的信用数据相关联；

C2、通过随机森林建立M颗决策树对所述预处理后的信用数据进行训练，将未参与决策树建立的数据对生成的决策树的性能计算错误率，记为OOB₁，未参与决策树建立的数据中加入噪声扰动，再次计算数据误差，记为OOB₂，并根据公式

计算特征重要性；

C3、对每一个特征设置可调整权重参数项，用于人为提高或降低特征变量在特征重要性排序表中的优先级，记为λ_i∈[0,1](i＝1,2,3…,N)，并根据W＝Iλ_i(i＝1,2,3…,N)计算权重值W，按照特征权重值的大小降序排列，得到特征重要性排序表，在实际应用中，当认为某一特征值在某一场景中特别重要时，如在交通情况信息中，认为酒后驾驶比违章停车要严重，但在随机森林的特征重要性计算时，由于酒后驾驶的数据很少，导致计算得出其重要性较低，不符合实际需求。此时，设置酒后驾驶对应的λi值为0.9，而违章停车的λi值为0.3，可以解决上述问题。

C4、设置降维参数α∈(0,0.02]，并根据所述降维参数α将特征重要性排序表中无关变量剔除，表尾的占比为α的特征变量被认为几乎与分类结果无关，剔除无关特征变量，降低模型训练开销，完成数据降维处理，得到处理后的数据。

D、构建初始模型，并根据所述处理后的数据对所述初始模型进行训练，得到训练好的信用评估模型。

D1、设置不同源域的输入权重参数，所述权重参数记为β_i∈[0,1](i＝1,2,3,…,N)；根据特征所属的源域，输入特征指标可计算为Q＝β_iW；在实际应用中，如果应用于公司场景，那么来源于职业情况信息的β_i值可以设置为0.7，而其他源域的数据作为辅助，其β_i值可以设置较小一些，满足∑βi＝1；

将预处理和降维处理后的数据集根据大小和实际需求将指标数据中如70％的数据作为训练集，30％的数据作为测试集，即评估数据集。

D2、根据评估需求将所述处理后的数据划分为训练数据集和评估数据集；

D3、构建三层的初始神经网络模型，其中，输入层结点数为k，输入向量d＝(d₁,d₂,d₃,…,d_a,…,d_k)^T对应计算的特征指标；隐藏层结点数为m，隐藏层向量为p＝(p₁,p₂,p₃,…,p_b,…,p_m)^T；输出层结点数为n，输出向量o＝(o₁,o₂,o₃,…,o_c,…,o_n)^T对应分类结果：信用极好、信用良好、信用一般、信用较差和信用极差的信用评估等级；期望输出向量为d＝(d₁,d₂,d₃,…,d_c,…,d_n)^T；输入层到隐藏层之间的权值矩阵表示为v＝(v₁,v₂,v₃,…,v_b,…,v_m)；隐藏层与输出层之间的权值矩阵表示为w＝(w₁,w₂,w₃,…,w_c,…,w_n)；基于非线性分类问题，激活函数选用sigmoid函数，定义为f(U)；

D4、对输出层和隐藏层分别计算输出，可得到

和

D6、根据梯度下降算法，设置学习速率参数η，计算更新权重参数w_bc和v_ab，直至所述初始神经网络模型收敛于拟定值，得到训练好的信用评估模型。

D7、根据所述训练好的信用评估模型对待评估的自然人进行信用评估，得到评估结果。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。