CN111104975B - 一种基于广度学习的信用评估方法 - Google Patents

一种基于广度学习的信用评估方法 Download PDF

Info

Publication number
CN111104975B
CN111104975B CN201911257587.3A CN201911257587A CN111104975B CN 111104975 B CN111104975 B CN 111104975B CN 201911257587 A CN201911257587 A CN 201911257587A CN 111104975 B CN111104975 B CN 111104975B
Authority
CN
China
Prior art keywords
data
credit
calculating
weight
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911257587.3A
Other languages
English (en)
Other versions
CN111104975A (zh
Inventor
张美跃
范章华
程少锋
周业
俞传情
周定云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hengruitong Fujian Information Technology Co ltd
Original Assignee
Hengruitong Fujian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hengruitong Fujian Information Technology Co ltd filed Critical Hengruitong Fujian Information Technology Co ltd
Priority to CN201911257587.3A priority Critical patent/CN111104975B/zh
Publication of CN111104975A publication Critical patent/CN111104975A/zh
Application granted granted Critical
Publication of CN111104975B publication Critical patent/CN111104975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供的一种基于广度学习的信用评估方法,通过获取N个源域的自然人的信用数据;对所述信用数据进行降维处理和特征提取,得到处理后的数据;构建初始模型,并根据所述处理后的数据对所述初始模型进行训练,得到训练好的信用评估模型,解决了现有评估模型评估数据单一,模型难以推广的问题。

Description

一种基于广度学习的信用评估方法
技术领域
本发明涉及计算机技术领域,特别涉及一种基于广度学习的信用评估方法。
背景技术
近年来,随着大数据和人工智能产业的快速发展,数据分析和机器学习已经应用到人们生活的方方面面,但是随之而来的是一些新的挑战。对于大数据分析,存在需求的数据量不足,但是低相关性或无相关性的数据溢出;多数模型只能满足单一类型的数据处理和分析,不能处理多源域数据纠缠的复杂情况。对于一般的机器学习,存在训练一次需要消耗大量的时间却只能应用于单一场景;数据过于单一导致过度拟合等相关的学习问题。
现有信用评估模型一般仅应用于银行的信用贷款,以评估个人财务状况为主。但对于现在的城市生活,自然人的信用已经不仅体现于财务方面,而是表现在许多生活行为上,如良好的交通状况,良好的公益慈善经历,都可以作为评估一个人的信用等级的指标。而目前的信用评估方法考虑比较单一,不能处理除财务数据外其他多元数据的情况,造成一定程度上的数据浪费。其次,应用于公司、银行、医院等不同场景的信用评估方法不通用,没有统一的评估体系,对于同一城市,有相同数据的情况也难以推广,不符合现实需求。
综上,现有的评估模型存在评估数据单一,模型难以推广的问题。
发明内容
(一)要解决的技术问题
为了解决现有技术的上述问题,本发明提供一种基于广度学习的信用评估方法,能够解决现有评估模型评估数据单一,模型难以推广的问题。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
一种基于广度学习的信用评估方法,包括步骤:
S1、获取N个源域的自然人的信用数据;
S2、对所述信用数据进行降维处理和特征提取,得到处理后的数据;
S3、构建初始模型,并根据所述处理后的数据对所述初始模型进行训练,得到训练好的信用评估模型。
(三)有益效果
本发明的有益效果在于:通过获取N个源域的自然人的信用数据;对所述信用数据进行降维处理和特征提取,得到处理后的数据;构建初始模型,并根据所述处理后的数据对所述初始模型进行训练,得到训练好的信用评估模型,解决了现有评估模型评估数据单一,模型难以推广的问题。
附图说明
图1为本发明实施例的基于广度学习的信用评估方法的流程图;
图2为本发明实施例的基于广度学习的信用评估方法的预处理示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
实施例一
请参照图1至2,一种基于广度学习的信用评估方法,包括步骤:
S1、获取N个源域的自然人的信用数据;
所述信用数据包括自然人的基本情况、社会情况、职业情况、金融财务情况、政治作风情况、违法情况和公益情况的数据。
S2、对所述信用数据进行降维处理和特征提取,得到处理后的数据;
步骤S2包括:
S21、对所述信用数据进行预处理,得到预处理后的信用数据;
所述预处理包括:
统一数据类型;
归一化处理;
缺失值处理。
S22、通过随机森林和预设的特征权重计算特征权重值,并建立特征重要性排序表,根据所述特征重要性排序表对所述预处理后的信用数据进行降维处理,得到处理后的数据。
步骤S22包括:
S221、根据所述预处理后的信用数据建立对应的相同的主键,并将N个源域的信用数据相关联;
S222、通过随机森林建立M颗决策树对所述预处理后的信用数据进行训练,将未参与决策树建立的数据对生成的决策树的性能计算错误率,记为OOB1,未参与决策树建立的数据中加入噪声扰动,再次计算数据误差,记为OOB2,并根据公式
Figure GDA0003983767570000031
计算特征重要性;
S223、对每一个特征设置可调整权重参数项,用于提高或降低特征变量在特征重要性排序表中的优先级,记为λi∈[0,1](i=1,2,3…,N),并根据W=Iλi(i=1,2,3…,N)计算权重值W,按照特征权重值的大小降序排列,得到特征重要性排序表。
S224、设置降维参数α∈(0,0.02],并根据所述降维参数α将特征重要性排序表中无关变量剔除,完成数据降维处理,得到处理后的数据。
S3、构建初始模型,并根据所述处理后的数据对所述初始模型进行训练,得到训练好的信用评估模型。
步骤S3包括:
S31、设置不同源域的输入权重参数,所述权重参数记为βi∈[0,1](i=1,2,3,…,N);根据特征所属的源域,输入特征指标可计算为Q=βiW;
S32、根据评估需求将所述处理后的数据划分为训练数据集和评估数据集;
S33、构建三层的初始神经网络模型,其中,输入层结点数为k,输入向量d=(d1,d2,d3,…,da,…,dk)T对应计算的特征指标;隐藏层结点数为m,隐藏层向量为p=(p1,p2,p3,…,pb,…,pm)T;输出层结点数为n,输出向量o=(o1,o2,o3,…,oc,…,on)T对应分类结果;期望输出向量为d=(d1,d2,d3,…,dc,…,dn)T;输入层到隐藏层之间的权值矩阵表示为v=(v1,v2,v3,…,vb,…,vm);隐藏层与输出层之间的权值矩阵表示为w=(w1,w2,w3,…,wc,…,wn);基于非线性分类问题,激活函数选用sigmoid函数,定义为f(U);
S34、对输出层和隐藏层分别计算输出,可得到
Figure GDA0003983767570000041
Figure GDA0003983767570000042
S35、计算误差E,可得到
Figure GDA0003983767570000043
S36、根据梯度下降算法,设置学习速率参数η,计算更新权重参数wbc和vab,直至所述初始神经网络模型收敛于拟定值,得到训练好的信用评估模型。
还包括步骤:
根据所述训练好的信用评估模型对待评估的自然人进行信用评估,得到评估结果。
实施例二
本实施例和实施例一的区别在于,本实施例将结合具体的应用场景进一步说明本发明上述基于广度学习的信用评估方法是如何实现的:
A:基于广度学习获取N个源域的自然人的信用数据,所述信用数据包括自然人的基本情况、社会情况、职业情况、金融财务情况、政治作风情况、违法情况和公益情况的数据;
B:对所述信用数据进行预处理,得到预处理后的信用数据;
所述预处理包括:
统一数据类型,对N个源域的百分比型数据转化为浮点型数据,并且统一有效数字位数;
数据库中的存储信息转化为0,1表示。(比如是否有住房,有则是1,无则是0;)
归一化处理,将数据库中存储的有效信息通过归一化处理,映射到[0,1]并存储为指标数据;
非离散变量作映射处理。使用最大最小归一化处理:设Xij为一条数据的一个特征值,maxXij为一组数据此特征的最大值,minXij为一组数据此特征的最小值。可根据
Figure GDA0003983767570000051
计算特征值,映射到[0,1]区间。
缺失值处理,使用数据处理工具统计各源域数据的特征值缺失率并设置阈值进行数据清洗。
对缺失严重的数据,进行数据缺失值填补,统计各特征变量的缺失率,设定阈值进行填充。
C:通过随机森林和预设的特征权重计算特征权重值,并建立特征重要性排序表,根据所述特征重要性排序表对所述预处理后的信用数据进行降维处理,得到处理后的数据。
C1、根据所述预处理后的信用数据建立对应的相同的主键,并将N个源域的信用数据相关联;
C2、通过随机森林建立M颗决策树对所述预处理后的信用数据进行训练,将未参与决策树建立的数据对生成的决策树的性能计算错误率,记为OOB1,未参与决策树建立的数据中加入噪声扰动,再次计算数据误差,记为OOB2,并根据公式
Figure GDA0003983767570000052
计算特征重要性;
C3、对每一个特征设置可调整权重参数项,用于人为提高或降低特征变量在特征重要性排序表中的优先级,记为λi∈[0,1](i=1,2,3…,N),并根据W=Iλi(i=1,2,3…,N)计算权重值W,按照特征权重值的大小降序排列,得到特征重要性排序表,在实际应用中,当认为某一特征值在某一场景中特别重要时,如在交通情况信息中,认为酒后驾驶比违章停车要严重,但在随机森林的特征重要性计算时,由于酒后驾驶的数据很少,导致计算得出其重要性较低,不符合实际需求。此时,设置酒后驾驶对应的λi值为0.9,而违章停车的λi值为0.3,可以解决上述问题。
C4、设置降维参数α∈(0,0.02],并根据所述降维参数α将特征重要性排序表中无关变量剔除,表尾的占比为α的特征变量被认为几乎与分类结果无关,剔除无关特征变量,降低模型训练开销,完成数据降维处理,得到处理后的数据。
D、构建初始模型,并根据所述处理后的数据对所述初始模型进行训练,得到训练好的信用评估模型。
D1、设置不同源域的输入权重参数,所述权重参数记为βi∈[0,1](i=1,2,3,…,N);根据特征所属的源域,输入特征指标可计算为Q=βiW;在实际应用中,如果应用于公司场景,那么来源于职业情况信息的βi值可以设置为0.7,而其他源域的数据作为辅助,其βi值可以设置较小一些,满足∑βi=1;
将预处理和降维处理后的数据集根据大小和实际需求将指标数据中如70%的数据作为训练集,30%的数据作为测试集,即评估数据集。
D2、根据评估需求将所述处理后的数据划分为训练数据集和评估数据集;
D3、构建三层的初始神经网络模型,其中,输入层结点数为k,输入向量d=(d1,d2,d3,…,da,…,dk)T对应计算的特征指标;隐藏层结点数为m,隐藏层向量为p=(p1,p2,p3,…,pb,…,pm)T;输出层结点数为n,输出向量o=(o1,o2,o3,…,oc,…,on)T对应分类结果:信用极好、信用良好、信用一般、信用较差和信用极差的信用评估等级;期望输出向量为d=(d1,d2,d3,…,dc,…,dn)T;输入层到隐藏层之间的权值矩阵表示为v=(v1,v2,v3,…,vb,…,vm);隐藏层与输出层之间的权值矩阵表示为w=(w1,w2,w3,…,wc,…,wn);基于非线性分类问题,激活函数选用sigmoid函数,定义为f(U);
D4、对输出层和隐藏层分别计算输出,可得到
Figure GDA0003983767570000071
Figure GDA0003983767570000072
D6、根据梯度下降算法,设置学习速率参数η,计算更新权重参数wbc和vab,直至所述初始神经网络模型收敛于拟定值,得到训练好的信用评估模型。
D7、根据所述训练好的信用评估模型对待评估的自然人进行信用评估,得到评估结果。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (3)

1.一种基于广度学习的信用评估方法,其特征在于,包括步骤:
S1、获取N个源域的自然人的信用数据;
S2、对所述信用数据进行降维处理和特征提取,得到处理后的数据;
S3、构建初始模型,并根据所述处理后的数据对所述初始模型进行训练,得到训练好的信用评估模型;
还包括步骤:
根据所述训练好的信用评估模型对待评估的自然人进行信用评估,得到评估结果;
步骤S2包括:
S21、对所述信用数据进行预处理,得到预处理后的信用数据;
S22、通过随机森林和预设的特征权重计算特征权重值,并建立特征重要性排序表,根据所述特征重要性排序表对所述预处理后的信用数据进行降维处理,得到处理后的数据;
步骤S22包括:
S221、根据所述预处理后的信用数据建立对应的相同的主键,并将N个源域的信用数据相关联;
S222、通过随机森林建立M颗决策树对所述预处理后的信用数据进行训练,将未参与决策树建立的数据对生成的决策树的性能计算错误率,记为OOB1,未参与决策树建立的数据中加入噪声扰动,再次计算数据误差,记为OOB2,并根据公式
Figure FDA0003983767560000011
计算特征重要性;
S223、对每一个特征设置可调整权重参数项,用于提高或降低特征变量在特征重要性排序表中的优先级,记为λi∈[0,1](i=1,2,3…,N),并根据W=Iλi(i=1,2,3…,N)计算权重值W,按照特征权重值的大小降序排列,得到特征重要性排序表;
S224、设置降维参数α∈(0,0.02],并根据所述降维参数α将特征重要性排序表中无关变量剔除,完成数据降维处理,得到处理后的数据;
步骤S3包括:
S31、设置不同源域的输入权重参数,所述权重参数记为βi∈[0,1](i=1,2,3,…,N);根据特征所属的源域,输入特征指标可计算为Q=βiW;
S32、根据评估需求将所述处理后的数据划分为训练数据集和评估数据集;
S33、构建三层的初始神经网络模型,其中,输入层结点数为k,输入向量d=(d1,d2,d3,…,da,…,dk)T对应计算的特征指标;隐藏层结点数为m,隐藏层向量为p=(p1,p2,p3,…,pb,…,pm)T;输出层结点数为n,输出向量o=(o1,o2,o3,…,oc,…,on)T对应分类结果;期望输出向量为d=(d1,d2,d3,…,dc,…,dn)T;输入层到隐藏层之间的权值矩阵表示为v=(v1,v2,v3,…,vb,…,vm);隐藏层与输出层之间的权值矩阵表示为w=(w1,w2,w3,…,wc,…,wn);基于非线性分类问题,激活函数选用sigmoid函数,定义为f(U);
S34、对输出层和隐藏层分别计算输出,可得到
Figure FDA0003983767560000021
Figure FDA0003983767560000022
S35、计算误差E,可得到
Figure FDA0003983767560000023
S36、根据梯度下降算法,设置学习速率参数η,计算更新权重参数wbc和vab,直至所述初始神经网络模型收敛于拟定值,得到训练好的信用评估模型。
2.根据权利要求1所述的基于广度学习的信用评估方法,其特征在于,所述信用数据包括自然人的基本情况、社会情况、职业情况、金融财务情况、政治作风情况、违法情况和公益情况的数据。
3.根据权利要求1所述的基于广度学习的信用评估方法,其特征在于,所述预处理包括:
统一数据类型;
归一化处理;
缺失值处理。
CN201911257587.3A 2019-12-10 2019-12-10 一种基于广度学习的信用评估方法 Active CN111104975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911257587.3A CN111104975B (zh) 2019-12-10 2019-12-10 一种基于广度学习的信用评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911257587.3A CN111104975B (zh) 2019-12-10 2019-12-10 一种基于广度学习的信用评估方法

Publications (2)

Publication Number Publication Date
CN111104975A CN111104975A (zh) 2020-05-05
CN111104975B true CN111104975B (zh) 2023-04-07

Family

ID=70422541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911257587.3A Active CN111104975B (zh) 2019-12-10 2019-12-10 一种基于广度学习的信用评估方法

Country Status (1)

Country Link
CN (1) CN111104975B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111628501B (zh) * 2020-06-18 2023-04-18 国网山东省电力公司济南供电公司 一种交直流大电网暂态电压稳定评估方法及系统
CN112907035B (zh) * 2021-01-27 2022-08-05 厦门卫星定位应用股份有限公司 基于K-means的交通运输主体信用评级方法及装置
CN114580979B (zh) * 2022-05-07 2022-08-02 中国科学院地理科学与资源研究所 高温防灾指数检测方法、装置、设备、存储介质及产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2181216C1 (ru) * 2000-10-17 2002-04-10 Закрытое акционерное общество "Компания "Русский Стандарт" Способ принятия решений в сфере кредитования (скоринг) и система для его реализации
CN105719073A (zh) * 2016-01-18 2016-06-29 苏州汇誉通数据科技有限公司 一种企业信用评价系统及方法
CN109582974A (zh) * 2019-01-03 2019-04-05 合肥工业大学 一种基于深度学习的在校大学生信用评估方法及装置
CN110472817A (zh) * 2019-07-03 2019-11-19 西北大学 一种结合深度神经网络的XGBoost集成信用评价系统及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2181216C1 (ru) * 2000-10-17 2002-04-10 Закрытое акционерное общество "Компания "Русский Стандарт" Способ принятия решений в сфере кредитования (скоринг) и система для его реализации
CN105719073A (zh) * 2016-01-18 2016-06-29 苏州汇誉通数据科技有限公司 一种企业信用评价系统及方法
CN109582974A (zh) * 2019-01-03 2019-04-05 合肥工业大学 一种基于深度学习的在校大学生信用评估方法及装置
CN110472817A (zh) * 2019-07-03 2019-11-19 西北大学 一种结合深度神经网络的XGBoost集成信用评价系统及其方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于神经网络的企业信用评估模型;韩冰;《西部皮革》(第02期);全文 *

Also Published As

Publication number Publication date
CN111104975A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
Gordini A genetic algorithm approach for SMEs bankruptcy prediction: Empirical evidence from Italy
CN111104975B (zh) 一种基于广度学习的信用评估方法
CN112528163B (zh) 一种基于图卷积网络的社交平台用户职业预测方法
CN105931116A (zh) 基于深度学习机制的自动化信用评分系统及方法
CN112819604A (zh) 基于融合神经网络特征挖掘的个人信用评估方法与系统
CN109523021A (zh) 一种基于长短时记忆网络的动态网络结构预测方法
CN110276679A (zh) 一种面向深度学习的网络个人信贷欺诈行为检测方法
Glorfeld et al. An improved method for developing neural networks: The case of evaluating commercial loan creditworthiness
CN114741519A (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
CN108629675A (zh) 一种多决策树财务预警方法
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM
Zhang et al. Research on borrower's credit classification of P2P network loan based on LightGBM algorithm
Yangyudongnanxin Financial credit risk control strategy based on weighted random forest algorithm
Hung et al. Using a fuzzy group decision approach-knowledge management adoption
CN113204641B (zh) 一种基于用户特征的退火注意力谣言鉴别方法及装置
CN109165835A (zh) 传统村落乡村性的测算方法及装置
Mostafa et al. Determinants of energy consumption in Egypt" new approach"
Chen et al. Multi-factor stock selecting model based on residual net and LSTM deep learning algorithm
Zhang Research on credit risk forecast model based on data mining technology
Li et al. Research on P2P Credit Assessment Based on Random Forest―from the Perspective of Lender’s Profit
Wahlstrøm Explainable artificial intelligence (xAI) for interpreting machine learning methods and their individual predictions
Setnes et al. Fuzzy target selection in direct marketing
CN112000800A (zh) 基于汉字构词法的中文舆情监测方法
Gao et al. Credit default risk prediction based on deep learning
Li et al. A Loan risk assessment model with consumption features for online finance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant