CN108876595A - 一种基于数据挖掘的p2p个人信用评估方法及装置 - Google Patents
一种基于数据挖掘的p2p个人信用评估方法及装置 Download PDFInfo
- Publication number
- CN108876595A CN108876595A CN201810583842.2A CN201810583842A CN108876595A CN 108876595 A CN108876595 A CN 108876595A CN 201810583842 A CN201810583842 A CN 201810583842A CN 108876595 A CN108876595 A CN 108876595A
- Authority
- CN
- China
- Prior art keywords
- data
- solution
- borrower
- credit
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000007418 data mining Methods 0.000 title claims abstract description 12
- 238000012706 support-vector machine Methods 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 21
- 230000010152 pollination Effects 0.000 claims abstract description 19
- 238000002922 simulated annealing Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 21
- 238000006467 substitution reaction Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 8
- 238000013210 evaluation model Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 230000005611 electricity Effects 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 14
- 239000000843 powder Substances 0.000 description 7
- 230000000717 retained effect Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000010129 solution processing Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于数据挖掘的P2P个人信用评估方法及装置,其中,所述方法包括:S101:采集借款人的数据,所述借款人的数据包含个人信用数据、社交网络数据以及电商网络数据;S102:对S101所述借款人的数据进行预处理;S103:基于模拟退火算法对花朵授粉算法进行改进,并在改进的基础上对支持向量机的参数进行优化;S104:将预处理后的个人信用数据输入优化后的数据训练模型,以得到所述借款人的基本评分;S105:利用统计或层次分析法对预处理后的社交网络数据和电商网络数据进行分析,以得到所述借款人的两个额外评分;S106:基于S104和S105得到的结果确定所述借款人的信用评分。本发明提供的技术方案,能够融合多方位数据进行信用评估,以提高信用评估的准确性。
Description
技术领域
本发明涉及数据挖掘处理技术领域,特别涉及一种基于数据挖掘的P2P个人信用评估方法及装置。
背景技术
随着互联网金融的迅速发展,关于借贷信用评估研究日渐成熟。传统的信用评价指标大多依赖于借款人的基本信息,即“硬信息”。在大数据时代,随着移动互联网、物联网、云计算等新一代信息技术的快速发展和应用领域的不断扩大,“一切数据皆信用”成为社会信用体系建设的新思路。大数据对于信用评估产生巨大影响,使得对借款人的评估不在单纯依靠个人的“硬信息”,数据获取渠道变得更加广泛,信用评价指标逐渐从单一到多元。
当前,由于P2P信用评价体系不完善,发展至今,我国P2P网贷行业出现了大规模平台跑路、倒闭潮的情况,使得网贷经营过程中存在着市场风险、操作风险、法律风险、信用风险等诸多风险,也为投资者带来了巨大的损失。而其中借款人信用风险是网贷面临的最主要风险,严重损害了借贷行业的健康有序发展。另一方面,在大数据环境下,互联网金融市场能够利用的数据类型得到进一步扩充,海量的非结构化数据如视频、音频、图片、日常生活的交易数据、社交网络信息等都可以采集并加以利用。一切数据皆可作为信用凭证。由此,利用平台的海量交易数据,全面地对网贷借款人评估信贷风险,为网络借贷平台信用大数据解决方案提供有力支撑,同时给平台的监管、投资者选择投标项目提供依据,具有重要的现实意义。因此亟需提出一种融合多方位数据进行信用评估的方法。
发明内容
本发明的目的在于提供一种基于数据挖掘的P2P个人信用评估方法,能够融合多方位数据进行信用评估,以提高信用评估的准确性。
为实现上述目的,本发明提供一种基于数据挖掘的P2P个人信用评估方法,所述方法包括:
S101:采集借款人的数据,所述借款人的数据包含个人信用数据、社交网络数据以及电商网络数据;
S102:对所述借款人的数据进行预处理,所述预处理包括缺失值处理以及平衡化处理;
S103:基于模拟退火算法对花朵授粉算法进行改进,并在改进的基础上对支持向量机的参数进行优化,以得到优化后的数据训练模型;
S104:将预处理后的个人信用数据输入所述优化后的数据训练模型,以得到所述借款人的基本评分;
S105:利用统计或层次分析法对预处理后的社交网络数据和电商网络数据进行分析,以得到所述借款人的两个额外评分;
S106:基于S104和S105所得到的结果,确定所述借款人的信用评分。
根据所述的方法,其特征在于,所述方法还包括:
对预处理后的借款人的数据进行分析,并基于分析结果构建所述借款人的信用指标以及对各个所述信用指标进行排序。
进一步地,S102所述平衡化处理包括:
S1021:从预设样本的样本子集中随机选取k个样本数据作为k个初始聚类中心,并根据所述k个初始聚类中心对所述样本子集中的样本数据进行聚类,得到k个簇;
S1022:计算所述预设样本中其余样本数据到每一个簇的中心点的欧氏距离,再将各个样本数据划分到距离自身最近的簇中;
S1023:重新计算各个簇的中心点;
S1024:若满足使下述目标函数最小或保持不变,则平衡化处理过程结束:
其中,J(X,C)表示所述目标函数,Si是第i个类别中样本数据的簇集合,ci是Si内所有样本xj的聚类中心点。
根据S1023,其特征在于,按照以下公式计算样本数据到簇的中心点之间的欧氏距离:
d(xj,ci)=||xj-ci||2
其中d(xj,ci)表示样本数据xj与中心点ci之间的欧氏距离,||*||2表示二范数运算。
进一步地,S103所述支持向量机的参数包括C,σ,ε,相应地,基于模拟退火算法对花朵授粉算法进行改进,并在改进的基础上对支持向量机的参数进行优化,具体步骤包括:
S1031:对所述个人信用数据进行相空间重构,生成学习样本数据;
S1032:确定C,σ,ε这三个参数的范围,并设定初始化花朵种群规模N、最大迭代次数itermax、转换概率p、初始温度T以及退温常数θ;
S1033:随机产生N个解,每个解对应一个三维向量(C,σ,ε),并找到当前最优解和最小误差fmin;
S1034:根据下述公式确定当前温度当前解的误差值:
式中,TFit(Sol(i))是误差值,Sol(i)是所述当前解,best是全局最优解,T是初始温度,f(*)表示支持向量机的传递函数;
S1035:采用轮盘赌的方式从所有当前解中确定全局最优的替代值best_plus;
S1036:当满足第一判定条件时,按照以下公式对解进行越界处理:
其中,表示指定常数,表示越界处理后的解,表示越界处理前的解,L是授粉强度,服从于:
S1037:当满足第二判定条件时,按照以下公式对解进行越界处理:
其中,δ是在[0,1]上服从均匀分布的随机数,是相同种类的不同花朵的花粉;
S1038:对S1036或者S1037中的新的解所对应的误差进行判断,若,则更新当前解,否则保留当前解;
S1039:如果新的解所对应的最小误差比全局最小误差还要小,则更新全局最优解和全局最小误差;
S1010:执行退温操作;
S1011:判断最小误差fmin是否达导预测精度,如果达到,则程序终止,并输出最优的一组解(C,σ,ε)以及全局最小误差fmin,否则转S1034继续处理;
S1012:利用最优解相对应的C,σ,ε值作为支持向量机的参数,对训练集重新训练,建立个人信用数据的信用评估模型。
为实现上述目的,本申请还提供一种基于数据挖掘的P2P个人信用评估装置,所述装置包括:
借款人数据采集单元,用于采集借款人的数据,所述借款人的数据包含个人信用数据、社交网络数据以及电商网络数据;
预处理单元,用于对所述借款人的数据进行预处理,所述预处理包括缺失值处理以及平衡化处理;
模型优化单元,用于基于模拟退火算法对花朵授粉算法进行改进,并在改进的基础上对支持向量机的参数进行优化,以得到优化后的数据训练模型;
基本评分确定单元,用于将预处理后的个人信用数据输入所述优化后的数据训练模型,以得到所述借款人的基本评分;
额外评分确定单元,用于利用统计或层次分析法对预处理后的社交网络数据和电商网络数据进行分析,以得到所述借款人的两个额外评分;
信用评分确定单元,用于基于所述基本评分以及所述两个额外评分,确定所述借款人的信用评分。
进一步地,所述装置还包括:
指标构建单元,用于对预处理后的借款人的数据进行分析,并基于分析结果构建所述借款人的信用指标以及对各个所述信用指标进行排序。
进一步地,所述预处理单元按照以下步骤进行平衡化处理:
步骤1:从预设样本的样本子集中随机选取k个样本数据作为k个初始聚类中心,并根据所述k个初始聚类中心对所述样本子集中的样本数据进行聚类,得到k个簇;
步骤2:计算所述预设样本中其余样本数据到每一个簇的中心点的欧氏距离,再将各个样本数据划分到距离自身最近的簇中;
步骤3:重新计算各个簇的中心点;
步骤4:若满足使下述目标函数最小或保持不变,则平衡化处理过程结束:
其中,J(X,C)表示所述目标函数,Si是第i个类别中样本数据的簇集合,ci是Si内所有样本xj的聚类中心点。
进一步地,所述预处理单元按照以下公式计算样本数据到簇的中心点之间的欧氏距离:
d(xj,ci)=||xj-ci||2
其中,d(xj,ci)表示样本数据xj与中心点ci之间的欧氏距离,||*||2表示二范数运算。
进一步地,所述支持向量机的参数包括C,σ,ε,相应地,所述模型优化单元按照以下步骤进行处理:
步骤1:对所述个人信用数据进行相空间重构,生成学习样本数据;
步骤2:确定C,σ,ε这三个参数的范围,并设定初始化花朵种群规模N、最大迭代次数itermax、转换概率p、初始温度T以及退温常数θ;
步骤3:随机产生N个解,每个解对应一个三维向量(C,σ,ε),并找到当前最优解和最小误差fmin;
步骤4:根据下述公式确定当前温度当前解的误差值:
式中,TFit(Sol(i))是误差值,Sol(i)是所述当前解,best是全局最优解,T是初始温度,f(*)表示支持向量机的传递函数;
步骤5:采用轮盘赌的方式从所有当前解中确定全局最优的替代值best_plus;
步骤6:当满足第一判定条件时,按照以下公式对解进行越界处理:
其中,表示指定常数,表示越界处理后的解,表示越界处理前的解,L是授粉强度,服从于:
步骤7:当满足第二判定条件时,按照以下公式对解进行越界处理:
其中,δ是在[0,1]上服从均匀分布的随机数,是相同种类的不同花朵的花粉;
步骤8:对步骤6或者步骤7中的新的解所对应的误差进行判断,若,则更新当前解,否则保留当前解;
步骤9:如果新的解所对应的最小误差比全局最小误差还要小,则更新全局最优解和全局最小误差;
步骤10:执行退温操作;
步骤11:判断最小误差fmin是否达导预测精度,如果达到,则程序终止,并输出最优的一组解(C,σ,ε)以及全局最小误差fmin,否则转步骤4继续处理;
步骤12:利用最优解相对应的C,σ,ε值作为支持向量机的参数,对训练集重新训练,建立个人信用数据的信用评估模型。
由上可见,本发明采用以上技术方案与现有技术相比,至少具有以下技术效果:
传统信用评价指标过于单一,本发明利用多方面数据对借款人的信用指标进行全面的构建,使得指标更具代表性。
在原本的基础上将日常生活中的社交数据和网购数据进行分析,从中提取出信用评价得分,再与传统得分相结合进行综合评价,使得总体信用评估相比传统评估手段更具全面性与精确性。
本发明在对数据进行平衡化处理时,通过聚类算法改进合成少数类过采样技术,从而确保在原先数据里的信息的基础上,又能将数据平衡化,更加合理的添加违约用户数量,增强数据可操作性。
本发明在个人信用数据上利用的改进的花授粉算法优化支持向量机SVM的模型,此方法将模拟退火算法与花授粉算法相结合,形成一种新的优化算法,该算法具有较强的全局搜索能力,且收敛速度较快,将此算法应用到SVM的参数寻优中,相比传统模型预测精度有所提高。
附图说明
图1是本发明的信用评估方法的总体结构框图;
图2是K-means算法改进SMOTE的方法进行数据平衡化处理的流程图;
图3是参数优化的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都应当属于本申请保护的范围。
本申请提供一种基于数据挖掘的P2P个人信用评估方法,所述方法包括:采集借款人的数据,所述借款人的数据包含个人信用数据、社交网络数据以及电商网络数据;对所述借款人的数据进行预处理,所述预处理包括缺失值处理以及平衡化处理;基于模拟退火算法对花朵授粉算法进行改进,并在改进的基础上对支持向量机的参数进行优化,以得到优化后的数据训练模型;将预处理后的个人信用数据输入所述优化后的数据训练模型,以得到所述借款人的基本评分;利用统计或层次分析法对预处理后的社交网络数据和电商网络数据进行分析,以得到所述借款人的两个额外评分;基于所述基本评分以及所述两个额外评分,确定所述借款人的信用评分。
在本实施方式中,所述方法还包括:对预处理后的借款人的数据进行分析,并基于分析结果构建所述借款人的信用指标以及对各个所述信用指标进行排序。
在本实施方式中,所述平衡化处理包括:
步骤1:从预设样本的样本子集中随机选取k个样本数据作为k个初始聚类中心,并根据所述k个初始聚类中心对所述样本子集中的样本数据进行聚类,得到k个簇;
步骤2:计算所述预设样本中其余样本数据到每一个簇的中心点的欧氏距离,再将各个样本数据划分到距离自身最近的簇中;
步骤3:重新计算各个簇的中心点;
步骤4:若满足使下述目标函数最小或保持不变,则平衡化处理过程结束:
其中,J(X,C)表示所述目标函数,Si是第i个类别中样本数据的簇集合,ci是Si内所有样本xj的聚类中心点。
在本实施方式中,按照以下公式计算样本数据到簇的中心点之间的欧氏距离:
d(xj,ci)=||xj-ci||2
其中,d(xj,ci)表示样本数据xj与中心点ci之间的欧氏距离,||*||2表示二范数运算。
在本实施方式中,所述支持向量机的参数包括C,σ,ε,相应地,基于模拟退火算法对花朵授粉算法进行改进,并在改进的基础上对支持向量机的参数进行优化包括:
步骤1:对所述个人信用数据进行相空间重构,生成学习样本数据;
步骤2:确定C,σ,ε这三个参数的范围,并设定初始化花朵种群规模N、最大迭代次数itermax、转换概率p、初始温度T以及退温常数θ;
步骤3:随机产生N个解,每个解对应一个三维向量(C,σ,ε),并找到当前最优解和最小误差fmin;
步骤4:根据下述公式确定当前温度当前解的误差值:
式中,TFit(Sol(i))是误差值,Sol(i)是所述当前解,best是全局最优解,T是初始温度,f(*)表示支持向量机的传递函数;
步骤5:采用轮盘赌的方式从所有当前解中确定全局最优的替代值best_plus;
步骤6:当满足第一判定条件时,按照以下公式对解进行越界处理:
其中,表示指定常数,表示越界处理后的解,表示越界处理前的解,L是授粉强度,服从于:
步骤7:当满足第二判定条件时,按照以下公式对解进行越界处理:
其中,δ是在[0,1]上服从均匀分布的随机数,是相同种类的不同花朵的花粉;
步骤8:对步骤6或者步骤7中的新的解所对应的误差进行判断,若,则更新当前解,否则保留当前解;
步骤9:如果新的解所对应的最小误差比全局最小误差还要小,则更新全局最优解和全局最小误差;
步骤10:执行退温操作;
步骤11:判断最小误差fmin是否达导预测精度,如果达到,则程序终止,并输出最优的一组解(C,σ,ε)以及全局最小误差fmin,否则转步骤4继续处理;
步骤12:利用最优解相对应的C,σ,ε值作为支持向量机的参数,对训练集重新训练,建立个人信用数据的信用评估模型。
具体地,在一个实际应用场景中,请参阅图1,本发明主要包含数据采集阶段、评价指标确定阶段、数据处理阶、分块评分阶段、综合评分阶段。简要步骤如下:
对各数据采集部分,其中数据包含个人信用数据、社交网络数据、电商网络数据。
大数据环境下P2P信用评价指标的构建;包括大数据环境下借款人信用行为信息分析。基于借款人信用行为信息的信用指标选择和构建。利用层次分析法(AnalyticHierarchy Process,AHP)对信用评价指标影响的重要性排序。
数据预处理部分,包括两个部分利用均值法对P2P借贷数据进行缺失值处理以及利用K-means算法改进SMOTE(Synthetic Minority Oversampling Technique,合成少数类过采样技术),对线性数据进行平衡化处理。
个人传统信用数据主要利用机器学习算法,本方法中提出一种优化的支持向量机(supported vector machine,SVM)算法,利用模拟退火算法对花朵授粉算法(FlowerPollination Algorithm,FPA)的性能进行提升(SFPA),并在此基础上对SVM的参数进行优化,使得支持向量机模型构建效率更快、精度更高、稳定性更好。使用数据训练模型,将个人信用数据输入模型得到用户基本评分。
而对于社交网络数据,电商网络数据则使用统计或层次分析法得出这两部分的信用评分。
再将三部分得分进行加权求和得到P2P综合信用得分。
首先通过网络爬虫以及机构合作的方式获得个人信用数据、社交网络数据、电商网络数据。在发明中使用的评价指标选取方法是成熟的AHP方法。保证步骤的可行性和可靠性。
在获得数据后需要对数据进行处理,包括缺失值处理、异常值处理以及利用K-means算法改进SMOTE,对线性数据进行平衡化处理。此块最突出的为数据的非平衡化处理,如图2显示,在此将方法具体说明:
步骤1:在较少的样本中随机选取k个样本数据,作为k个初始聚类中心,聚类中心集合为C={c1,c2,…,ck}T;ci的计算公式如下:
其中ci表示第i个簇的中心位置,i=1,2,…,k,ni是ci中样本数据的个数,xj代表属于ci所属簇内的样本数据。
步骤2:计算其余数据样本到每一个簇内中心ci的欧氏距离,再将各个数据样本划分到距离ci最小的簇中。d(xj,ci)表示样本数据xj与聚类中心ci之间的欧式距离,计算公式如下:
步骤3:根据步骤1的公式重新计算各个簇中k个聚类中心值;
步骤4:若满足使下述目标函数最小或保持不变,则迭代过程结束,K-Means聚类操作完成。最小化目标函数公式如下:
其中,Si是第i个类别中样本的簇集合,ci是Si内所有样本xj的聚类中心点。
将处理好的数据进行建模评估,本发明中在数据模型评估阶段提出了分类评价,传统个人数据采用了独特的SFPA优化支持向量机算法,如图3。社交网络数据和电商数据则使用统计、层次分析法进行评估。再加权求得综合得分。
请参阅图3,需具体说明的是SFPA优化支持向量机算法的具体实现过程:
步骤1:收集个人信用数据,对数据进行相空间重构,生成SVM学习样本数据。
步骤2:确定C,σ,ε这三个参数的范围,初始化花朵种群规模N,最大迭代次数itermax,转换概率p,初始温度T,退温常数θ。
步骤3:随机产生N个解,每个解对应一个三维向量(C,σ,ε),找到当前最优解和最小误差fmin。
步骤4:根据下述公式确定当前温度下各Sol(i)的误差值:
式中,Sol(i)是当前的一个解,best是全局最优解,T是初始温度。
步骤5:采用轮盘赌的方式从所有Sol(i)中确定全局最优的某个替代值best_plus。
步骤6:有条件(p>rand)来判断,是否按下述1)式对解进行更新,并对解进行越界处理。其中p是转换概率,rand是[0,1]上服从均匀分布的随机数。
式中,,M是自设常数,λ=1.5,г(λ)是标准的伽马函数。
步骤7:由条件(p<rand)来判断,是否按下述公式对解进行更新,并对解进行越界处理:
中,δ是在[0,1]上服从均匀分布的随机数,是相同种类的不同花朵的花粉。
步骤8:对步骤6或者步骤7中的新的解所对应的误差进行判断,若,则更新当前解,否则保留当前解。
步骤9:如果新解所对应的最小误差比全局最小误差还要小,则更新全局最优解和全局最小误差。
步骤10:退温操作。
步骤11:判断其测试值fmin是否达到短时交通流的预测精度,如果达到,则程序终止,并输出最优的一组解(C,σ,ε)以及全局最小误差fmin,否则转步骤4继续搜索。
步骤12:利用最优解相对应的C,σ,ε值作为SVM的相关参数对训练集重新训练,建立个人基本数据的信用评估模型。
本申请还提供一种基于数据挖掘的P2P个人信用评估装置,所述装置包括:
借款人数据采集单元,用于采集借款人的数据,所述借款人的数据包含个人信用数据、社交网络数据以及电商网络数据;
预处理单元,用于对所述借款人的数据进行预处理,所述预处理包括缺失值处理以及平衡化处理;
模型优化单元,用于基于模拟退火算法对花朵授粉算法进行改进,并在改进的基础上对支持向量机的参数进行优化,以得到优化后的数据训练模型;
基本评分确定单元,用于将预处理后的个人信用数据输入所述优化后的数据训练模型,以得到所述借款人的基本评分;
额外评分确定单元,用于利用统计或层次分析法对预处理后的社交网络数据和电商网络数据进行分析,以得到所述借款人的两个额外评分;
信用评分确定单元,用于基于所述基本评分以及所述两个额外评分,确定所述借款人的信用评分。
在本实施方式中,所述装置还包括:
指标构建单元,用于对预处理后的借款人的数据进行分析,并基于分析结果构建所述借款人的信用指标以及对各个所述信用指标进行排序。
在本实施方式中,所述预处理单元按照以下步骤进行平衡化处理:
步骤1:从预设样本的样本子集中随机选取k个样本数据作为k个初始聚类中心,并根据所述k个初始聚类中心对所述样本子集中的样本数据进行聚类,得到k个簇;
步骤2:计算所述预设样本中其余样本数据到每一个簇的中心点的欧氏距离,再将各个样本数据划分到距离自身最近的簇中;
步骤3:重新计算各个簇的中心点;
步骤4:若满足使下述目标函数最小或保持不变,则平衡化处理过程结束:
其中,J(X,C)表示所述目标函数,Si是第i个类别中样本数据的簇集合,ci是Si内所有样本xj的聚类中心点。
在本实施方式中,所述预处理单元按照以下公式计算样本数据到簇的中心点之间的欧氏距离:
d(xj,ci)=||xj-ci||2
其中,d(xj,ci)表示样本数据xj与中心点ci之间的欧氏距离,||*||2表示二范数运算。
在本实施方式中,所述支持向量机的参数包括C,σ,ε,相应地,所述模型优化单元按照以下步骤进行处理:
步骤1:对所述个人信用数据进行相空间重构,生成学习样本数据;
步骤2:确定C,σ,ε这三个参数的范围,并设定初始化花朵种群规模N、最大迭代次数itermax、转换概率p、初始温度T以及退温常数θ;
步骤3:随机产生N个解,每个解对应一个三维向量(C,σ,ε),并找到当前最优解和最小误差fmin;
步骤4:根据下述公式确定当前温度当前解的误差值:
式中,TFit(Sol(i))是误差值,Sol(i)是所述当前解,best是全局最优解,T是初始温度,f(*)表示支持向量机的传递函数;
步骤5:采用轮盘赌的方式从所有当前解中确定全局最优的替代值best_plus;
步骤6:当满足第一判定条件时,按照以下公式对解进行越界处理:
其中,表示指定常数,表示越界处理后的解,表示越界处理前的解,L是授粉强度,服从于:
步骤7:当满足第二判定条件时,按照以下公式对解进行越界处理:
其中,δ是在[0,1]上服从均匀分布的随机数,是相同种类的不同花朵的花粉;
步骤8:对步骤6或者步骤7中的新的解所对应的误差进行判断,若,则更新当前解,否则保留当前解;
步骤9:如果新的解所对应的最小误差比全局最小误差还要小,则更新全局最优解和全局最小误差;
步骤10:执行退温操作;
步骤11:判断最小误差fmin是否达导预测精度,如果达到,则程序终止,并输出最优的一组解(C,σ,ε)以及全局最小误差fmin,否则转步骤4继续处理;
步骤12:利用最优解相对应的C,σ,ε值作为支持向量机的参数,对训练集重新训练,建立个人信用数据的信用评估模型。
由上可见,本发明采用以上技术方案与现有技术相比,至少具有以下技术效果:
传统信用评价指标过于单一,本发明利用多方面数据对借款人的信用指标进行全面的构建,使得指标更具代表性。
在原本的基础上将日常生活中的社交数据和网购数据进行分析,从中提取出信用评价得分,再与传统得分相结合进行综合评价,使得总体信用评估相比传统评估手段更具全面性与精确性。
本发明在对数据进行平衡化处理时,通过聚类算法改进合成少数类过采样技术,从而确保在原先数据里的信息的基础上,又能将数据平衡化,更加合理的添加违约用户数量,增强数据可操作性。
本发明在个人信用数据上利用的改进的花授粉算法优化支持向量机SVM的模型,此方法将模拟退火算法与花授粉算法相结合,形成一种新的优化算法,该算法具有较强的全局搜索能力,且收敛速度较快,将此算法应用到SVM的参数寻优中,相比传统模型预测精度有所提高。
上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述,本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此,虽然已经具体讨论了一些另选的实施方式,但是其它实施方式将是显而易见的,或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化,以及落在上述申请的精神和范围内的其它实施方式。
本说明书中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。
虽然通过实施方式描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。
Claims (10)
1.一种基于数据挖掘的P2P个人信用评估方法,其特征在于,所述方法包括:
S101:采集借款人的数据,所述借款人的数据包含个人信用数据、社交网络数据以及电商网络数据;
S102:对所述借款人的数据进行预处理,所述预处理包括缺失值处理以及平衡化处理;
S103:基于模拟退火算法对花朵授粉算法进行改进,并在改进的基础上对支持向量机的参数进行优化,以得到优化后的数据训练模型;
S104:将预处理后的个人信用数据输入所述优化后的数据训练模型,以得到所述借款人的基本评分;
S105:利用统计或层次分析法对预处理后的社交网络数据和电商网络数据进行分析,以得到所述借款人的两个额外评分;
S106:基于S104和S105所得到的结果,确定所述借款人的信用评分。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对预处理后的借款人的数据进行分析,并基于分析结果构建所述借款人的信用指标以及对各个所述信用指标进行排序。
3.根据权利要求1所述的方法,其特征在于,S102所述平衡化处理包括:
S1021:从预设样本的样本子集中随机选取k个样本数据作为k个初始聚类中心,并根据所述k个初始聚类中心对所述样本子集中的样本数据进行聚类,得到k个簇;
S1022:计算所述预设样本中其余样本数据到每一个簇的中心点的欧氏距离,再将各个样本数据划分到距离自身最近的簇中;
S1023:重新计算各个簇的中心点;
S1024:若满足使下述目标函数最小或保持不变,则平衡化处理过程结束:
其中,J(X,C)表示所述目标函数,Si是第i个类别中样本数据的簇集合,ci是Si内所有样本xj的聚类中心点。
4.根据权利要求3所述的方法,其特征在于,按照以下公式计算样本数据到簇的中心点之间的欧氏距离:
d(xj,ci)=||xj-ci||2
其中d(xj,ci)表示样本数据xj与中心点ci之间的欧氏距离,||*||2表示二范数运算。
5.根据权利要求1所述的方法,其特征在于,S103所述支持向量机的参数包括C,σ,ε,相应地,基于模拟退火算法对花朵授粉算法进行改进,并在改进的基础上对支持向量机的参数进行优化,具体步骤包括:
S1031:对所述个人信用数据进行相空间重构,生成学习样本数据;
S1032:确定C,σ,ε这三个参数的范围,并设定初始化花朵种群规模N、最大迭代次数itermax、转换概率p、初始温度T以及退温常数θ;
S1033:随机产生N个解,每个解对应一个三维向量(C,σ,ε),并找到当前最优解和最小误差fmin;
S1034:根据下述公式确定当前温度当前解的误差值:
式中,TFit(Sol(i))是误差值,Sol(i)是所述当前解,best是全局最优解,T是初始温度,f(*)表示支持向量机的传递函数;
S1035:采用轮盘赌的方式从所有当前解中确定全局最优的替代值best_plus;
S1036:当满足第一判定条件时,按照以下公式对解进行越界处理:
其中,表示指定常数,表示越界处理后的解,表示越界处理前的解,L是授粉强度,服从于:
S1037:当满足第二判定条件时,按照以下公式对解进行越界处理:
其中,δ是在[0,1]上服从均匀分布的随机数,是相同种类的不同花朵的花粉;
S1038:对S1036或者S1037中的新的解所对应的误差进行判断,若则更新当前解,否则保留当前解;
S1039:如果新的解所对应的最小误差比全局最小误差还要小,则更新全局最优解和全局最小误差;
S1010:执行退温操作;
S1011:判断最小误差fmin是否达导预测精度,如果达到,则程序终止,并输出最优的一组解(C,σ,ε)以及全局最小误差fmin,否则转S1034继续处理;
S1012:利用最优解相对应的C,σ,ε值作为支持向量机的参数,对训练集重新训练,建立个人信用数据的信用评估模型。
6.一种基于数据挖掘的P2P个人信用评估装置,其特征在于,所述装置包括:
借款人数据采集单元,用于采集借款人的数据,所述借款人的数据包含个人信用数据、社交网络数据以及电商网络数据;
预处理单元,用于对所述借款人的数据进行预处理,所述预处理包括缺失值处理以及平衡化处理;
模型优化单元,用于基于模拟退火算法对花朵授粉算法进行改进,并在改进的基础上对支持向量机的参数进行优化,以得到优化后的数据训练模型;
基本评分确定单元,用于将预处理后的个人信用数据输入所述优化后的数据训练模型,以得到所述借款人的基本评分;
额外评分确定单元,用于利用统计或层次分析法对预处理后的社交网络数据和电商网络数据进行分析,以得到所述借款人的两个额外评分;
信用评分确定单元,用于基于所述基本评分以及所述两个额外评分,确定所述借款人的信用评分。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
指标构建单元,用于对预处理后的借款人的数据进行分析,并基于分析结果构建所述借款人的信用指标以及对各个所述信用指标进行排序。
8.根据权利要求6所述的装置,其特征在于,所述预处理单元按照以下步骤进行平衡化处理:
步骤1:从预设样本的样本子集中随机选取k个样本数据作为k个初始聚类中心,并根据所述k个初始聚类中心对所述样本子集中的样本数据进行聚类,得到k个簇;
步骤2:计算所述预设样本中其余样本数据到每一个簇的中心点的欧氏距离,再将各个样本数据划分到距离自身最近的簇中;
步骤3:重新计算各个簇的中心点;
步骤4:若满足使下述目标函数最小或保持不变,则平衡化处理过程结束:
其中,J(X,C)表示所述目标函数,Si是第i个类别中样本数据的簇集合,ci是Si内所有样本xj的聚类中心点。
9.根据权利要求8所述的装置,其特征在于,所述预处理单元按照以下公式计算样本数据到簇的中心点之间的欧氏距离:
d(xj,ci)=||xj-ci||2
其中,d(xj,ci)表示样本数据xj与中心点ci之间的欧氏距离,||*||2表示二范数运算。
10.根据权利要求6所述的装置,其特征在于,所述支持向量机的参数包括C,σ,ε,相应地,所述模型优化单元按照以下步骤进行处理:
步骤1:对所述个人信用数据进行相空间重构,生成学习样本数据;
步骤2:确定C,σ,ε这三个参数的范围,并设定初始化花朵种群规模N、最大迭代次数itermax、转换概率p、初始温度T以及退温常数θ;
步骤3:随机产生N个解,每个解对应一个三维向量(C,σ,ε),并找到当前最优解和最小误差fmin;
步骤4:根据下述公式确定当前温度当前解的误差值:
式中,TFit(Sol(i))是误差值,Sol(i)是所述当前解,best是全局最优解,T是初始温度,f(*)表示支持向量机的传递函数;
步骤5:采用轮盘赌的方式从所有当前解中确定全局最优的替代值best_plus;
步骤6:当满足第一判定条件时,按照以下公式对解进行越界处理:
其中,表示指定常数,表示越界处理后的解,表示越界处理前的解,L是授粉强度,服从于:
步骤7:当满足第二判定条件时,按照以下公式对解进行越界处理:
其中,δ是在[0,1]上服从均匀分布的随机数,是相同种类的不同花朵的花粉;
步骤8:对步骤6或者步骤7中的新的解所对应的误差进行判断,若则更新当前解,否则保留当前解;
步骤9:如果新的解所对应的最小误差比全局最小误差还要小,则更新全局最优解和全局最小误差;
步骤10:执行退温操作;
步骤11:判断最小误差fmin是否达到预测精度,如果达到,则程序终止,并输出最优的一组解(C,σ,ε)以及全局最小误差fmin,否则转步骤4继续处理;
步骤12:利用最优解相对应的C,σ,ε值作为支持向量机的参数,对训练集重新训练,建立个人信用数据的信用评估模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810583842.2A CN108876595A (zh) | 2018-06-05 | 2018-06-05 | 一种基于数据挖掘的p2p个人信用评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810583842.2A CN108876595A (zh) | 2018-06-05 | 2018-06-05 | 一种基于数据挖掘的p2p个人信用评估方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108876595A true CN108876595A (zh) | 2018-11-23 |
Family
ID=64338602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810583842.2A Pending CN108876595A (zh) | 2018-06-05 | 2018-06-05 | 一种基于数据挖掘的p2p个人信用评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108876595A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097459A (zh) * | 2019-05-08 | 2019-08-06 | 重庆斐耐科技有限公司 | 一种基于大数据技术的金融风险评估方法及系统 |
CN110309887A (zh) * | 2019-07-09 | 2019-10-08 | 哈尔滨理工大学 | 基于改进花朵授粉的模糊c-均值聚类异常检测方法 |
CN110362589A (zh) * | 2019-06-29 | 2019-10-22 | 北京淇瑀信息科技有限公司 | 基于系统定制化开关的资信查询方法、装置、电子设备 |
CN114119214A (zh) * | 2022-01-28 | 2022-03-01 | 中国测绘科学研究院 | 一种基于多方安全计算的信用评估计算方法 |
-
2018
- 2018-06-05 CN CN201810583842.2A patent/CN108876595A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097459A (zh) * | 2019-05-08 | 2019-08-06 | 重庆斐耐科技有限公司 | 一种基于大数据技术的金融风险评估方法及系统 |
CN110362589A (zh) * | 2019-06-29 | 2019-10-22 | 北京淇瑀信息科技有限公司 | 基于系统定制化开关的资信查询方法、装置、电子设备 |
CN110309887A (zh) * | 2019-07-09 | 2019-10-08 | 哈尔滨理工大学 | 基于改进花朵授粉的模糊c-均值聚类异常检测方法 |
CN114119214A (zh) * | 2022-01-28 | 2022-03-01 | 中国测绘科学研究院 | 一种基于多方安全计算的信用评估计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108876595A (zh) | 一种基于数据挖掘的p2p个人信用评估方法及装置 | |
CN108010514B (zh) | 一种基于深度神经网络的语音分类方法 | |
CN109325844A (zh) | 多维数据下的网贷借款人信用评价方法 | |
CN111080442A (zh) | 信用评分模型的构建方法、装置、设备及存储介质 | |
Liu et al. | Clustering methods of wind turbines and its application in short-term wind power forecasts | |
CN105224738B (zh) | Lssvm非高斯脉动风速预测方法 | |
Wang et al. | A hybrid backtracking search optimization algorithm with differential evolution | |
CN103325371A (zh) | 基于云的语音识别系统与方法 | |
CN110245310A (zh) | 一种对象的行为分析方法、装置及存储介质 | |
CN103077405A (zh) | 一种基于Fisher判别分析的贝叶斯分类方法 | |
CN110415261A (zh) | 一种分区域训练的表情动画转换方法及系统 | |
CN109190749A (zh) | 一种用于智能电表寿命的预测方法及装置 | |
CN102426598A (zh) | 一种用于网络内容安全管理的中文文本聚类的方法 | |
Liu et al. | Credit evaluation with a data mining approach based on gradient boosting decision tree | |
CN109783586A (zh) | 基于聚类重采样的水军评论检测系统及方法 | |
CN105975897A (zh) | 图片的人脸性别识别方法及系统 | |
CN115577259A (zh) | 高压直流输电系统故障选极方法、装置和计算机设备 | |
Ma | The Research of Stock Predictive Model based on the Combination of CART and DBSCAN | |
Feng et al. | Application of improved chaos theory genetic multi feature matching algorithm in patent retrieval | |
CN116502132A (zh) | 账号集合识别方法、装置、设备、介质和计算机程序产品 | |
Wang et al. | A hybrid simplex search and modified bare-bones particle swarm optimization | |
CN114494172A (zh) | 点云检测方法及装置、电子设备和计算机可读存储介质 | |
CN106650972A (zh) | 一种面向社交网络基于云模型的推荐系统评分预测方法 | |
CN106971011A (zh) | 一种基于云平台的大数据分析方法 | |
Li | Retracted: Stability analysis of distributed smart grid based on machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181123 |
|
WD01 | Invention patent application deemed withdrawn after publication |