CN109325844A - 多维数据下的网贷借款人信用评价方法 - Google Patents

多维数据下的网贷借款人信用评价方法 Download PDF

Info

Publication number
CN109325844A
CN109325844A CN201810704228.7A CN201810704228A CN109325844A CN 109325844 A CN109325844 A CN 109325844A CN 201810704228 A CN201810704228 A CN 201810704228A CN 109325844 A CN109325844 A CN 109325844A
Authority
CN
China
Prior art keywords
data
credit
sample
algorithm
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810704228.7A
Other languages
English (en)
Inventor
梁雪春
王名豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN201810704228.7A priority Critical patent/CN109325844A/zh
Publication of CN109325844A publication Critical patent/CN109325844A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的P2P借款人信用评价方法。本发明包括数据采集模块,数据处理模块,模型构建模块。在大数据时代,信用数据源不断扩大,主要包括以下四个方面:金融机构产生的信用数据,相关政府部门产生的信用数据,其它公共事业机构产生的信用数据,网络产生的互联网信用数据。数据模块主要分为两部分,将金融机构、相关政府部门、公共事业机构所产生的信用数据定性为结构化数据采集;互联网信用数据中的微信朋友圈和新浪微博等社交媒体数据作为非结构化数据采集。数据处理模块主要针对结构化数据,包括数据平衡化处理、特征选择。针对个人信用结构化数据存在不平衡现象,本发明使用CART‑SMOTE算法进行数据平衡化处理;大数据背景下个人信用评估数据特征繁杂,无关和冗余的变量会对模型预测的准确性造成不利的影响,本发明综合使用随机森林和梯度下降决策树进行评价特征的选择。结构化数据模型使用改进的lightGBM进行信用初步评级;对非结构化的社交文本数据进行特征抽取,使用深度学习进行信用评价及情感倾向分析。再将个人社交媒体文本数据中所展现的情感倾向反馈到P2P借款人的信用评估中,研究两者相关性。为最终的信用评价结构提供参考。

Description

多维数据下的网贷借款人信用评价方法
技术领域
本发明公开了一种P2P信用评估方法,涉及信息技术领域和信用服务技术领域。
背景技术
2015年,P2P网络借贷作为一种依托于互联网的新型金融模式,在国家“互联网+”与大数据服务实体经济的战略指导下,开始兴起并迅速发展壮大,截至2017年7月底,P2P网贷行业平台累计数量达到 5916家。然而,由于中国P2P网络借贷起步较晚,信用体系不完善,相关法律法规缺失,平台跑路和借款人不按时还款甚至携款潜逃等问题仍时有发生,暴露出了较为严重的资金安全问题。
国务院在《推进普惠金融发展规划》中指出“互联网金融对促进小微企业发展和扩大就业发挥了现有金融机构难以替代的积极作用,为大众创业、万众创新打开了大门”。但是,存在于P2P网贷中的问题已经不能忽视。本课题研究意义主要在于如何有效评价网贷借款人信用开展研究,并以此来促进互联网金融业的健康发展。
目前在我国信用评估体系还处于发展阶段,相比发达国家,仍面临着很多亟需解决的问题。主要存在以下问题:
1、非结构化信用信息挖掘和提炼:传统信用风险的量化管理是以财务数据、市场交易数据等定量信息为基础的,大数据时代海量的文本信息为分析个人信用的价值和违约倾向带来了新线索,如何提取非结构数据信息进行信用评估成为难点。
2、多维数据下的指标选择:目前公开常用的网贷信用借款人评估数据指标属性不统一,具有数据指标多、数据维数高、数据存在非线性和冗余性的特点,因此筛选出重要的特征指标显得尤为重要。
3、数据平衡化:信用评估数据中违约与不违约比例相差较大,如何做到数据平衡也是构建模型时的关键问题之一。
4、信用评估模型的建立,通过对前人信用评分模型研究成果的借鉴,构建一个适合我国网络贷款的信用评估模型。
本发明旨在对P2P网贷借款人信用信息进行量化分析,以此有效地规避网络信贷业务中的信用风险。帮助商业银行在办理个人消费信贷业务中规避信用风险,提高业务办理效率,以此促进我国个人信贷业务的发展和我国金融业的深化改革。
发明内容
本发明针对P2P信用评估体系中的不足,提供一种大数据背景下的P2P借款人的信用评估方法。在大数据的背景下,通过采集金融机构产生的信用数据,相关政府部门产生的信用数据,其它公共事业机构产生的信用数据,网络产生的互联网信用数据。以非结构化数据辅助结构化数据对P2P借款人进行信用评估。
为了解决上述技术问题,本发明提供了一种基于多维数据的P2P借款人信用评价方法,包括步骤:
S101:在大数据的背景下,提出了数据采集的方案。将信用数据分为金融机构产生的信用数据,相关政府部门产生的信用数据,其它公共事业机构产生的信用数据,网络产生的互联网信用数据。其中金融机构、相关政府部门、公共事业机构所产生的信用数据定性为结构化数据采集;互联网信用数据中的微信朋友圈和新浪微博等社交媒体数据作为非结构化数据采集。旨从非结构化数据中提取信息为P2P借款人的信用评价提供辅助性决策。
其中四方面数据具体内容如S1011、S1012、S1013和S1014。金融机构产生的信用数据,如客户在商业银行办理贷款、信用卡、担保等信贷业务时产生的个人信用信息;相关政府部门产生的信用数据,主要是各级政府部门在税务、工商、环保、质监等政务信用体系中所收集整理的数据,如社保、公积金、环保、欠税、民事裁决与执行等公共信息;其它公共事业机构产生的信用数据,以网络或电视运营商、自来水公司、电力公司、煤气公司等为代表的公共事业机构积累了大量的信用数据;网络产生的互联网信用数据,包括快速增长的电子商务、社交、休闲娱乐等互联网所形成的信用大数据,本发明主要利用个人在社交网络中所留文本数据。
S102:采集数据处理,结构化数据中数据处理包含缺失值异常值处理、特征选择、数据平衡化。非结构化数据处理包含相关性社交文本选择、特征抽取。
为了解决大数据背景下信用评估的结构化数据维度高,数据间存在冗余问题,提出随机森林(Random Forest,RF)与梯度提升决策树(Gradient Boosting DecisionTree,GBDT)进行特征选择。
S1021:随机森林特征选择:随机森林是一种基于统计学习理论的组合分类智能算法,其基本思想是集成多棵无依赖关系的决策树。各决策树进行并行拟合,再对待测数据进行投票分类,是一种典型bagging 集成算法。使用随机森林对各特征进行重要性度量,具体步骤如下:
1、用K组袋外数据(Out of bag,OOB)计算每棵决策树的误差值,记作Erroro1,Erroro2, Erroro3L Errorok;
2、保证其他特征不发生改变的情况下,对K组袋外数据第i组特征分布进行随机重排,再次计算每个决策树的误差值,记作:Errori1,Errori2,Errori3L Errorik;
3、根据式(1)获取各特征重要性:
4、基于重要性进行排序,对特征进行选择。
S1022:梯度提升决策树特征选择,对于GBDT指标的重要性取决于指标贡献度,一般指标贡献度由棵K树Gini不纯度的平均值衡量。特征i在节点s处的Gini不纯度如式(2)。
式(2)中,p(c|s)表示类别c在节点s处的相对概率。节点s分支后,Gini指数变化如式(3):
Hi=G(s)-G(m)-G(n) (3)
G(m)和G(n)表示在节点s分裂后左右分枝的Gini指数。则特征i在单棵树T下的贡献度由式(4) 计算所得。
L表示树T的叶子节点数量,则L-1为非叶子节点的数量,l(vn=i)用于筛选与特征i相关联的叶子节点。GBDT模型中特征i的全局贡献度可由M棵树的平均贡献求得,公式如(5)。根据特征贡献度进行排序。
根据S1021和S1022模型的排序进行求和平均,选择重要度排序靠前指标。旨在从bagging和boosting 两种算法集成思想综合考虑特征重要性。
S1023:针对P2P个人信用评估数据存在违约与不违约的比例不平衡问题,出决策树个SOMTE算法结合的CART-SOMTE算法进行数据平衡化。
SMOTE是一种基于重采样技术的新采样算法,通过增加少数类样本的数目来使数据集达到平衡,并且在一定程度上缓解了传统过抽样容易出现的过拟合问题。SMOTE算法原理:对一非平衡数据集T的每一个少数类样本X,寻找其k个最近邻样本,且这k个最近邻样本均属于少数类样本。设置少数类样本的采用倍率为n,从k个最近邻样本中随机选取n个样本。在这n个样本与少数类样本之间的直线内进行随机插值,插值公式如(6),得到n个插值样本Pi,这样对于每一个少数类样本均产生了n个合成样本。少数类样本就被扩充了n倍。SMOTE算法插值公式如下,插值过程如图2-1所示。
Pi=X+rand(0,1)*(yi-X),i=1,2,L,n (6)
式(6)中X是非平衡数据内的少数类样本,Pi是X与第yi个最近邻的矢量差,rand(0,1)是(0,1)之间的随机数。
不平衡数据过采样算法在采样过程中的局限性以及盲目性。SMOTE算法之前的采样方法为随机向上采样方法,这种方法能够平衡数据集,但因为随机采样严重缺乏原则,会导致采样效果不理想。本发明将引进决策树(CART)从两方面改进SMOTE算法。
1、SMOTE算法差值时对原始少数点的选择:将原始数据进行K轮抽取,抽取过程中保证属K 组样本的平衡性。用K组袋外数据计算每棵决策树的误差,筛选出少数样本中的易错点,作为后续生成的原始样本。
2、优化连接的少数样本的关联性:以上述少数样本中的易错点为圆心,指定欧式距离r内的少数样本做连接,插值生成少数样本。
上述改进方法,选择易错点作为SMOTE算法插值时的少数样本,一方面避免了选择的盲目性,另一方面,变相增加易错点的权重,有利于改进模型的正确率。同时选定固定距离内的少数样本点做连接,保证生成样本的关联性。
S104:针对如何提取非线性数据信息,构建深度学习模型对非结构化数据中的社交文本进行情感偏向分析,并将社交文本情感倾向与个人信用相关性进行分析。将社交文本数据情感分为快乐、安心、尊敬、赞扬、相信、喜爱、愤怒、悲伤、失望、愧疚、思念、慌张、恐惧、羞愧、烦闷、憎恶、贬责、妒忌、怀疑、惊奇20类。利用深度学习分析出借款人的社交文本情感占比,并与实际评价结果进行相关性分析,决定非结构化数据在个人信用评估中的决策权重。
为了在大数据的背景下,建立更加准确的P2P借款人信用评估模型。提出结构化数据和非结构化数据分化出来,使用非结构化数据为结构化数据提供辅助性决策进行P2P个人信用评价。
附图说明
图1是本发明总体流程图;
图2-1是SOMTE合成新样本过程;
图2-2是CART-SMOTE合成新样本过程;
图3-1是level(depth)-wise策略示意图
图3-2是Leaf-wise策略示意图
具体实施方式
结合图1,本发明基于多维数据的信息提取对P2P借款人信用进行评估,包括以下步骤:
A、数据采集,数据主要分为四部分:金融机构产生的信用数据,如客户在商业银行办理贷款、信用卡、担保等信贷业务时产生的个人信用信息;相关政府部门产生的信用数据,主要是各级政府部门在税务、工商、环保、质监等政务信用体系中所收集整理的数据,如社保、公积金、环保、欠税、民事裁决与执行等公共信息;其它公共事业机构产生的信用数据,以网络或电视运营商、自来水公司、电力公司、煤气公司等为代表的公共事业机构积累了大量的信用数据;网络产生的互联网信用数据,包括快速增长的电子商务、社交、休闲娱乐等互联网所形成的信用大数据,本发明主要利用个人在社交网络中所留文本数据。其中,其它公共事业机构产生的信用数据,网络产生的互联网信用数据。其中金融机构、相关政府部门、公共事业机构所产生的信用数据定性为结构化数据采集;互联网信用数据中的微信朋友圈和新浪微博等社交媒体数据作为非结构化数据采集。
B、基于结构化数据的信用评估,首先进行结构化数据的处理,由于涉及的机构较多,个人信用数据指标繁杂。为了降低个人信用数据冗余性,首先使用基于随机森林与梯度提升决策树组合的特征选取方法。随机森林对各特征进行重要性度量,具体步骤如下:
1、用K组袋外数据(Out of bag,OOB)计算每棵决策树的误差值,记作Erroro1,Erroro2,Erroro3L Errorok;
2、保证其他特征不发生改变的情况下,对K组袋外数据第i组特征分布进行随机重排,再次计算每个决策树的误差值,记作:Errori1,Errori2,Errori3L Errorik;
3、根据式(1)获取各特征重要性:
4、基于重要性进行排序,对特征进行选择。
梯度提升决策树特征选择,对于GBDT指标的重要性取决于指标贡献度,一般指标贡献度由棵K树 Gini不纯度的平均值衡量。特征i在节点s处的Gini不纯度如式(2)。
式(2)中,p(c|s)表示类别c在节点s处的相对概率。节点s分支后,Gini指数变化如式(3):
Hi=G(s)-G(m)-G(n) (3)
G(m)和G(n)表示在节点s分裂后左右分枝的Gini指数。则特征i在单棵树T下的贡献度由式(4) 计算所得。
L表示树T的叶子节点数量,则L-1为非叶子节点的数量,l(vn=i)用于筛选与特征i相关联的叶子节点。GBDT模型中特征i的全局贡献度可由M棵树的平均贡献求得,公式如(5)。根据特征贡献度进行排序。
根据S1021和S1022模型的排序进行求和平均,选择重要度排序靠前指标。旨在从bagging和boosting 两种算法集成思想综合考虑特征重要性。
针对P2P个人信用评估数据存在正负样本不平衡的现象,不平衡数据过采样算法在采样过程中的局限性以及盲目性。SMOTE算法之前的采样方法为随机向上采样方法,这种方法能够平衡数据集,但因为随机采样严重缺乏原则,会导致采样效果不理想。本发明将引进决策树(CART)从两方面改进SMOTE算法
1、SMOTE算法差值时对原始少数点的选择:将原始数据进行K轮抽取,抽取过程中保证属K 组样本的平衡性。用K组袋外数据计算每棵决策树的误差,筛选出少数样本中的易错点,作为后续生成的原始样本。
2、优化连接的少数样本的关联性:以上述少数样本中的易错点为圆心,指定欧式距离r内的少数样本做连接,插值生成少数样本。
上述改进方法,选择易错点作为SMOTE算法插值时的少数样本,一方面避免了选择的盲目性,另一方面,变相增加易错点的权重,有利于改进模型的正确率。同时选定固定距离内的少数样本点做连接,保证生成样本的关联性。
非结构化数据评估模型构建,本文使用LightGBM作为非结构化数据的算法模型,lightGBM模型提出两种加快训练的新方法:基于梯度的单边采样(GOSS)和互斥的特征捆绑(EFB)。
Gradient-based One-Side Sampling(GOSS),每一次迭代前,利用了样本梯度和误差的关系,对训练样本进行采样,对误差大(梯度绝对值大)的数据保留;对误差小的数据采样一个子集,但给这个子集的数据一个权重,让这个子集可以近似到误差小的数据的全集。这么采样出来的数据,既不损失误差大的样本,又在减少训练数据的同时不改变数据的分布,从而实现了在几乎不影响精度的情况下加速了训练。
Exclusive Feature Bundling(EFB),高位的数据通常是稀疏的,这种稀疏性启发我们设计一种无损地方法来减少特征的维度。特别的,稀疏特征空间中,许多特征是互斥的,例如他们从不同时为非零值。我们可以绑定互斥的特征为单一特征,从特征捆绑中构建了与单个特征相同的特征直方图这种方式的间直方图时间复杂度从O(#data*#feature)降到O(#data* #bundle),由于#bundle<<#feature,我们能够极大地加速GBDT的训练过程而且损失精度。
同时lightGBM模型提出准确率优化的方法,大部分决策树的学习算法通过level(depth)- wise策略生长树,如图3-1,Level-wise策略较为低效,不加区分的对待同一层的叶子,带来了很多没必要的开销,实际上很多叶子的分裂增益较低,没必要继续进行进行搜索和分裂。 Leaf-wise则是一种更为高效的策略:每次从当前所有叶子中,找到分裂增益最大的一个叶子,然后分裂,如此循环。因此同Level-wise相比,在分裂次数相同的情况下,Leaf-wise可以降低更多的误差,得到更好的精度。
为了模型在训练时拥有更好的性能,采用混沌粒子群优化算法(Chaos ParticleSwarm Optimization, CPSO)对lightGBM模型进行参数优化。粒子群算法(Particle SwarmOptimization,PSO)基本思想为在 D维空间中随机初期化一群规模为N的粒子,粒子通过重复迭代更新自身位置,并通过适应度函数评价粒子所在位置的优劣。迭代过程中粒子通过追寻两个“优值”点确定自身位置和更新速度,“优值”点分别为个体最优点和全局最优点。粒子i在d维空间中的位置和速度满足数学模型:
式(6)中,ω为惯性权重作用在于平衡局部和全局的搜索能力,c1和c2称为学习因子,一般取值c1=c2=2.0,r1和r2是在[0,1]区间的随机数,pBestid和gBestd为个体最优点和全局最优点;式(7)中,为粒子i在d维空间中第k次迭代中速度和位置。PSO算法在上述迭代公式中逐步向最优点逼近,具有实现简单、鲁棒性好等优点。但在迭代后期易出现过早收敛的现状导致陷入局部最优;迭代过程只考虑两个“优值”点,往往忽略了其他有利信息,导致算法失去多样性。
针对上述标准粒子群算法的缺点,采用混沌的优化方法对粒子群进行改进主要有以下两方面:
1、加入混沌变异系统,当多数点处于迭代停止状态,利用混沌系统遍历的特性,使得粒子跳出局部最优解。如式(8)是Logistic映射的混沌系统:
Xn+1=uXn(1-Xn) n=0,1,2L (8)
式(8)中u是控制参量,一般取u=4,系统完全处于混沌状态。赋予任何一个初值X0∈[0,1],Logistic 完全处于混沌状态,保证粒子分散的全局性和均匀性。
2、改进迭代进化方程,将适应值比较大的n个粒子加入考虑到进化方程中。将迭代公式(6)改为式(9)如下:
其中为每次迭代后适应值最大的n个粒子,在迭代过程中参考多个粒子位置,保证了粒子间的关联性,同时确保了信息的完整性,不易陷入局部最优。
本发明主要利用CPSO对lightGBM模型的最大直方图数,树的最大深度,学习率,叶节点数,叶节点最少样本数进行参数调优。将模型准确率设定为CPSO的适应度函数,寻得最优参数下的lightGBM模型,保证模型的准确率。
C、基于非结构化数据的信用评估,本发明中利用的非结构化数据为互联网信用数据中的微信朋友圈和新浪微博等社交媒体数据。首先进行相关性社交文本选择,其次在对文本数据进行特征抽取。最后构建深度学习模型对非结构化数据中的社交文本进行情感偏向分析,并将社交文本情感倾向与个人信用相关性进行分析。根据社交文本情感倾向与个人信用相关性,决定非结构化数据在个人信用评估中的决策权重,综合结构化数据模型和非结构化数据模型进行个人信用评估。

Claims (6)

1.一种P2P信用评估方法,其特征在于,所述方法包括:
S101:P2P借款人数据采集,数据包含四方数据。金融机构产生的信用数据,相关政府部门产生的信用数据,其它公共事业机构产生的信用数据,网络产生的互联网信用数据。其中金融机构、相关政府部门、公共事业机构所产生的信用数据定性为结构化数据采集;互联网信用数据中的微信朋友圈和新浪微博等社交媒体数据作为非结构化数据采集。
S102:采集数据处理,结构化数据中数据处理包含缺失值异常值处理、特征选择、数据平衡化。非结构化数据处理包含相关性社交文本选择、特征抽取。
S103:基于混沌粒子群算法对lightGBM的训练参数进行优化,并将改进的lightGBM模型用于结构化数据的个人信用初步评级。
S104构建深度学习模型对非结构化数据中的社交文本进行情感偏向分析,并将社交文本情感倾向与个人信用相关性进行分析。
S105根据社交文本情感倾向与个人信用相关性,决定非结构化数据在个人信用评估中的决策权重,综合结构化数据模型和非结构化数据模型进行个人信用评估。
2.根据权利要求1所述的四方数据,其特征在于:
信用数据的获取包括以下四个方面:
S1011:金融机构产生的信用数据,如客户在商业银行办理贷款、信用卡、担保等信贷业务时产生的个人信用信息;
S1012:相关政府部门产生的信用数据,主要是各级政府部门在税务、工商、环保、质监等政务信用体系中所收集整理的数据,如社保、公积金、环保、欠税、民事裁决与执行等公共信息;
S1013:其它公共事业机构产生的信用数据,以网络或电视运营商、自来水公司、电力公司、煤气公司等为代表的公共事业机构积累了大量的信用数据;
S1014:网络产生的互联网信用数据,包括快速增长的电子商务、社交、休闲娱乐等互联网所形成的信用大数据,本发明主要利用个人在社交网络中所留文本数据。
3.根据权利要求1所述的结构化数据特征选择,其特征在于:
由于大数据背景下,所采集数据指标过于繁杂,本发明使用随机森林(Random Forest,RF)与梯度提升决策树(Gradient Boosting Decision Tree,GBDT)进行特征选择。
S1021:随机森林特征选择:随机森林是一种基于统计学习理论的组合分类智能算法,其基本思想是集成多棵无依赖关系的决策树。各决策树进行并行拟合,再对待测数据进行投票分类,是一种典型bagging集成算法。使用随机森林对各特征进行重要性度量,具体步骤如下:
1)用K组袋外数据(Out of bag,OOB)计算每棵决策树的误差值,记作Erroro1,Erroro2,Erroro3L Errorok;
2)保证其他特征不发生改变的情况下,对K组袋外数据第i组特征分布进行随机重排,再次计算每个决策树的误差值,记作:Errori1,Errori2,Errori3L Errorik;
3)根据式(1)获取各特征重要性:
4)基于重要性进行排序,对特征进行选择。
S1022:梯度提升决策树特征选择:梯度提升决策树模型在1999年由Jerome Friedma提出,是决策树与Boosting方法相结合的应用,每一次迭代在之前模型残差减少的梯度方向建立一个新的决策树,从而使残差不断减少,最后所有树的结论累加起来作为最终分类器。对于GBDT指标的重要性取决于指标贡献度,一般指标贡献度由棵K树Gini不纯度的平均值衡量。特征i在节点s处的Gini不纯度如式(2)。
式(2)中,p(c|s)表示类别c在节点s处的相对概率。节点s分支后,Gini指数变化如式(3):
Hi=G(s)-G(m)-G(n) (3)
G(m)和G(n)表示在节点s分裂后左右分枝的Gini指数。则特征i在单棵树T下的贡献度由式(4)计算所得。
L表示树T的叶子节点数量,则L-1为非叶子节点的数量,l(vn=i)用于筛选与特征i相关联的叶子节点。GBDT模型中特征i的全局贡献度可由M棵树的平均贡献求得,公式如(5)。根据特征贡献度进行排序。
根据S1021和S1022模型的排序进行求和平均,选择重要度排序靠前指标。旨在从bagging和boosting两种算法集成思想综合考虑特征重要性。
4.根据权利要求1所述的S102数据平衡化,其特征在于:
S1023:本发明提出决策树个SOMTE算法结合的CART-SOMTE算法进行数据平衡化。
SMOTE是一种基于重采样技术的新采样算法,通过增加少数类样本的数目来使数据集达到平衡,并且在一定程度上缓解了传统过抽样容易出现的过拟合问题。SMOTE算法原理:对一非平衡数据集T的每一个少数类样本X,寻找其k个最近邻样本,且这k个最近邻样本均属于少数类样本。设置少数类样本的采用倍率为n,从k个最近邻样本中随机选取n个样本。在这n个样本与少数类样本之间的直线内进行随机插值,插值公式如(6),得到n个插值样本Pi,这样对于每一个少数类样本均产生了n个合成样本。少数类样本就被扩充了n倍。
SMOTE算法插值公式如下,插值过程如图所示。
Pi=X+rand(0,1)*(yi-X),i=1,2,L,n (6)
式(6)中X是非平衡数据内的少数类样本,Pi是X与第yi个最近邻的矢量差,rand(0,1)是(0,1)之间的随机数。
不平衡数据过采样算法在采样过程中的局限性以及盲目性。SMOTE算法之前的采样方法为随机向上采样方法,这种方法能够平衡数据集,但因为随机采样严重缺乏原则,会导
致采样效果不理想。本发明将引进决策树(CART)从两方面改进SMOTE算法
(1)SMOTE算法差值时对原始少数点的选择:将原始数据进行K轮抽取,抽取过程中保证属K组样本的平衡性。用K组袋外数据计算每棵决策树的误差,筛选出少数样本中的易错点,作为后续生成的原始样本。
(2)优化连接的少数样本的关联性:以上述少数样本中的易错点为圆心,指定欧式距离r内的少数样本做连接,插值生成少数样本。
上述改进方法,选择易错点作为SMOTE算法插值时的少数样本,一方面避免了选择的盲目性,另一方面,变相增加易错点的权重,有利于改进模型的正确率。同时选定固定距离内的少数样本点做连接,保证生成样本的关联性。
5.据权利要求1所述的混沌粒子群算法对lightGBM的训练参数进行优化,其特征在于:
粒子群算法(Particle Swarm Optimization,PSO)基本思想为在D维空间中随机初期化一群规模为N的粒子,粒子通过重复迭代更新自身位置,并通过适应度函数评价粒子所在位置的优劣。迭代过程中粒子通过追寻两个“优值”点确定自身位置和更新速度,“优值”点分别为个体最优点和全局最优点。粒子i在d维空间中的位置和速度满足数学模型:
式(7)中,ω为惯性权重作用在于平衡局部和全局的搜索能力,c1和c2称为学习因子,一般取值c1=c2=2.0,ri和r2是在[0,1]区间的随机数,pBestid和gBestd为个体最优点和全局最优点;式(8)中,为粒子i在d维空间中第k次迭代中速度和位置。PSO算法在上述迭代公式中逐步向最优点逼近,具有实现简单、鲁棒性好等优点。但在迭代后期易出现过早收敛的现状导致陷入局部最优;迭代过程只考虑两个“优值”点,往往忽略了其他有利信息,导致算法失去多样性。
S1031:针对上述标准粒子群算法的缺点,提出了一种混沌粒子群优化算法(ChaosParticle Swarm Optimization,CPSO)。采用混沌的优化方法对粒子群进行改进主要有以下两方面:
1)加入混沌变异系统,当多数点处于迭代停止状态,利用混沌系统遍历的特性,使得粒子跳出局部最优解。如式(8)是Logistic映射的混沌系统:
Xn+1=uXn(1-Xn) n=0,1,2L (9)
式(9)中u是控制参量,一般取u=4,系统完全处于混沌状态。赋予任何一个初值X0∈[0,1],Logistic完全处于混沌状态,保证粒子分散的全局性和均匀性。
2)改进迭代进化方程,将适应值比较大的n个粒子加入考虑到进化方程中。将迭代公式(7)改为式(10)如下:
其中为每次迭代后适应值最大的n个粒子,在迭代过程中参考多个粒子位置,保证了粒子间的关联性,同时确保了信息的完整性,不易陷入局部最优。
S1032本发明主要利用CPSO对lightGBM模型的最大直方图数,树的最大深度,学习率,叶节点数,叶节点最少样本数进行参数调优。将模型准确率设定为CPSO的适应度函数,寻得最优参数下的lightGBM模型,保证模型的准确率。
6.据权利要求1所述的非结构化数据中的社交文本进行情感偏向分析,其特征在于:
S1041:社交文本数据情感分为快乐、安心、尊敬、赞扬、相信、喜爱、愤怒、悲伤、失望、愧疚、思念、慌张、恐惧、羞愧、烦闷、憎恶、贬责、妒忌、怀疑、惊奇20类。利用深度学习分析出借款人的社交文本情感占比,并与实际评价结果进行相关性分析,决定非结构化数据在个人信用评估中的决策权重。
CN201810704228.7A 2018-06-25 2018-06-25 多维数据下的网贷借款人信用评价方法 Pending CN109325844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810704228.7A CN109325844A (zh) 2018-06-25 2018-06-25 多维数据下的网贷借款人信用评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810704228.7A CN109325844A (zh) 2018-06-25 2018-06-25 多维数据下的网贷借款人信用评价方法

Publications (1)

Publication Number Publication Date
CN109325844A true CN109325844A (zh) 2019-02-12

Family

ID=65263198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810704228.7A Pending CN109325844A (zh) 2018-06-25 2018-06-25 多维数据下的网贷借款人信用评价方法

Country Status (1)

Country Link
CN (1) CN109325844A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801162A (zh) * 2019-03-21 2019-05-24 浙江工商大学 一种社交媒体数据与多标准交叉认证融合的信用评级方法
CN110097459A (zh) * 2019-05-08 2019-08-06 重庆斐耐科技有限公司 一种基于大数据技术的金融风险评估方法及系统
CN110111192A (zh) * 2019-02-19 2019-08-09 西北大学 多过滤器结合nsd指标的信贷客户特征选择方法和系统
CN110135167A (zh) * 2019-05-14 2019-08-16 电子科技大学 一种随机森林的边缘计算终端安全等级评估方法
CN110246541A (zh) * 2019-03-08 2019-09-17 中山大学 一种基于LightGBM的circRNA鉴别方法
CN110737731A (zh) * 2019-10-25 2020-01-31 徐州工程学院 一种基于决策树的公积金用户数据细化分析系统及方法
CN110751192A (zh) * 2019-09-27 2020-02-04 南京大学 基于cart算法的随机森林的决策树推理系统及方法
CN111210337A (zh) * 2019-12-27 2020-05-29 安徽科讯金服科技有限公司 一种用于贷款的用户信用评估系统
CN111222709A (zh) * 2020-01-15 2020-06-02 杭州华网信息技术有限公司 一种国家电网树线放电预测方法
CN111582315A (zh) * 2020-04-09 2020-08-25 上海淇毓信息科技有限公司 样本数据处理方法、装置及电子设备
CN111755070A (zh) * 2019-03-29 2020-10-09 中山大学 一种基于级联判决系统的CircRNA功能预测方法
CN111861702A (zh) * 2020-07-09 2020-10-30 睿智合创(北京)科技有限公司 一种基于反欺诈变量与决策结果的案件定性方法及系统
CN111985560A (zh) * 2020-08-19 2020-11-24 中南大学 知识追踪模型的优化方法、系统及计算机存储介质
CN112307472A (zh) * 2020-11-03 2021-02-02 平安科技(深圳)有限公司 基于智能决策的异常用户识别方法、装置及计算机设备
CN113034262A (zh) * 2019-12-25 2021-06-25 陕西云基华海信息技术有限公司 一种基于大数据技术的个人信用评价动态集成算法
CN113052198A (zh) * 2019-12-28 2021-06-29 中移信息技术有限公司 一种数据处理方法、装置、设备及存储介质
CN113344692A (zh) * 2021-04-24 2021-09-03 大连理工大学 多信息源融合的网络借贷信用风险评估模型的建立方法
CN114170031A (zh) * 2021-12-10 2022-03-11 金科览智科技(北京)有限公司 一种保险投保单的风险评估方法以及系统
CN116702052A (zh) * 2023-08-02 2023-09-05 云南香农信息技术有限公司 一种社区社会信用体系信息处理系统及方法
CN117974221A (zh) * 2024-04-01 2024-05-03 国网江西省电力有限公司南昌供电分公司 基于人工智能的电动车充电站选址方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN106960387A (zh) * 2017-04-28 2017-07-18 浙江工商大学 个人信用风险评估方法及系统
CN107992982A (zh) * 2017-12-28 2018-05-04 上海氪信信息技术有限公司 一种基于深度学习的非结构化数据的违约概率预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN106960387A (zh) * 2017-04-28 2017-07-18 浙江工商大学 个人信用风险评估方法及系统
CN107992982A (zh) * 2017-12-28 2018-05-04 上海氪信信息技术有限公司 一种基于深度学习的非结构化数据的违约概率预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
枊向东等: "大数据背景下网络借贷的信用风险评估-以人人贷为例", 《统计与信息论坛》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111192A (zh) * 2019-02-19 2019-08-09 西北大学 多过滤器结合nsd指标的信贷客户特征选择方法和系统
CN110246541A (zh) * 2019-03-08 2019-09-17 中山大学 一种基于LightGBM的circRNA鉴别方法
CN109801162A (zh) * 2019-03-21 2019-05-24 浙江工商大学 一种社交媒体数据与多标准交叉认证融合的信用评级方法
CN111755070A (zh) * 2019-03-29 2020-10-09 中山大学 一种基于级联判决系统的CircRNA功能预测方法
CN110097459A (zh) * 2019-05-08 2019-08-06 重庆斐耐科技有限公司 一种基于大数据技术的金融风险评估方法及系统
CN110135167A (zh) * 2019-05-14 2019-08-16 电子科技大学 一种随机森林的边缘计算终端安全等级评估方法
CN110135167B (zh) * 2019-05-14 2020-11-20 电子科技大学 一种随机森林的边缘计算终端安全等级评估方法
CN110751192A (zh) * 2019-09-27 2020-02-04 南京大学 基于cart算法的随机森林的决策树推理系统及方法
CN110737731A (zh) * 2019-10-25 2020-01-31 徐州工程学院 一种基于决策树的公积金用户数据细化分析系统及方法
CN110737731B (zh) * 2019-10-25 2023-12-29 徐州工程学院 一种基于决策树的公积金用户数据细化分析系统及方法
CN113034262A (zh) * 2019-12-25 2021-06-25 陕西云基华海信息技术有限公司 一种基于大数据技术的个人信用评价动态集成算法
CN111210337A (zh) * 2019-12-27 2020-05-29 安徽科讯金服科技有限公司 一种用于贷款的用户信用评估系统
CN113052198A (zh) * 2019-12-28 2021-06-29 中移信息技术有限公司 一种数据处理方法、装置、设备及存储介质
CN111222709A (zh) * 2020-01-15 2020-06-02 杭州华网信息技术有限公司 一种国家电网树线放电预测方法
CN111222709B (zh) * 2020-01-15 2023-12-12 国网冀北电力有限公司超高压分公司 一种国家电网树线放电预测方法
CN111582315B (zh) * 2020-04-09 2023-11-14 上海淇毓信息科技有限公司 样本数据处理方法、装置及电子设备
CN111582315A (zh) * 2020-04-09 2020-08-25 上海淇毓信息科技有限公司 样本数据处理方法、装置及电子设备
CN111861702A (zh) * 2020-07-09 2020-10-30 睿智合创(北京)科技有限公司 一种基于反欺诈变量与决策结果的案件定性方法及系统
CN111985560A (zh) * 2020-08-19 2020-11-24 中南大学 知识追踪模型的优化方法、系统及计算机存储介质
CN112307472A (zh) * 2020-11-03 2021-02-02 平安科技(深圳)有限公司 基于智能决策的异常用户识别方法、装置及计算机设备
CN112307472B (zh) * 2020-11-03 2024-06-18 平安科技(深圳)有限公司 基于智能决策的异常用户识别方法、装置及计算机设备
CN113344692A (zh) * 2021-04-24 2021-09-03 大连理工大学 多信息源融合的网络借贷信用风险评估模型的建立方法
CN113344692B (zh) * 2021-04-24 2022-03-11 大连理工大学 多信息源融合的网络借贷信用风险评估模型的建立方法
CN114170031A (zh) * 2021-12-10 2022-03-11 金科览智科技(北京)有限公司 一种保险投保单的风险评估方法以及系统
CN116702052A (zh) * 2023-08-02 2023-09-05 云南香农信息技术有限公司 一种社区社会信用体系信息处理系统及方法
CN116702052B (zh) * 2023-08-02 2023-10-27 云南香农信息技术有限公司 一种社区社会信用体系信息处理系统及方法
CN117974221A (zh) * 2024-04-01 2024-05-03 国网江西省电力有限公司南昌供电分公司 基于人工智能的电动车充电站选址方法及系统

Similar Documents

Publication Publication Date Title
CN109325844A (zh) 多维数据下的网贷借款人信用评价方法
Li et al. Heterogeneous ensemble for default prediction of peer-to-peer lending in China
Kumar et al. Credit risk analysis in peer-to-peer lending system
CN107194803A (zh) 一种p2p网贷借款人信用风险评估的装置
CN108154430A (zh) 一种基于机器学习和大数据技术的信用评分构建方法
Li et al. Utilizing the lightgbm algorithm for operator user credit assessment research
CN109685653A (zh) 一种融合深度信念网络和孤立森林算法的信贷风险监测的方法
CN107833137A (zh) 基于多目标优化的量化交易策略生成方法及装置、设备和存储介质
CN111325619A (zh) 一种基于联合学习的信用卡欺诈检测模型更新方法及装置
CN107507038A (zh) 一种基于stacking和bagging算法的电费敏感用户分析方法
Chen et al. Loan default prediction using diversified sensitivity undersampling
CN109472453A (zh) 基于全局最优模糊核聚类模型的电力用户信用评价方法
CN117391247A (zh) 一种基于深度学习的企业风险等级预测方法及系统
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
Kinderis et al. Bitcoin currency fluctuation
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM
CN108304975A (zh) 一种数据预测系统及方法
Negi et al. Cryptocurrency Price Analysis using Deep Learning
Zhang et al. Research on borrower's credit classification of P2P network loan based on LightGBM algorithm
CN117172381A (zh) 基于大数据的风险预测方法
Liu et al. Credit evaluation with a data mining approach based on gradient boosting decision tree
Tian et al. Digital Universal Financial Credit Risk Analysis Using Particle Swarm Optimization Algorithm with Structure Decision Tree Learning‐Based Evaluation Model
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
CN109711848A (zh) 一种金融交易的匹配系统及其构建方法、匹配方法
Azeez Determination Efficient Classification Algorithm for Credit Card Owners: Comparative Study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190212

WD01 Invention patent application deemed withdrawn after publication