CN108876595A

CN108876595A - 一种基于数据挖掘的p2p个人信用评估方法及装置

Info

Publication number: CN108876595A
Application number: CN201810583842.2A
Authority: CN
Inventors: 梁雪春; 陈舒期
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2018-11-23

Abstract

本发明提供一种基于数据挖掘的P2P个人信用评估方法及装置，其中，所述方法包括：S101：采集借款人的数据，所述借款人的数据包含个人信用数据、社交网络数据以及电商网络数据；S102：对S101所述借款人的数据进行预处理；S103：基于模拟退火算法对花朵授粉算法进行改进，并在改进的基础上对支持向量机的参数进行优化；S104：将预处理后的个人信用数据输入优化后的数据训练模型，以得到所述借款人的基本评分；S105：利用统计或层次分析法对预处理后的社交网络数据和电商网络数据进行分析，以得到所述借款人的两个额外评分；S106：基于S104和S105得到的结果确定所述借款人的信用评分。本发明提供的技术方案，能够融合多方位数据进行信用评估，以提高信用评估的准确性。

Description

一种基于数据挖掘的P2P个人信用评估方法及装置

技术领域

本发明涉及数据挖掘处理技术领域，特别涉及一种基于数据挖掘的P2P个人信用评估方法及装置。

背景技术

随着互联网金融的迅速发展，关于借贷信用评估研究日渐成熟。传统的信用评价指标大多依赖于借款人的基本信息，即“硬信息”。在大数据时代，随着移动互联网、物联网、云计算等新一代信息技术的快速发展和应用领域的不断扩大，“一切数据皆信用”成为社会信用体系建设的新思路。大数据对于信用评估产生巨大影响，使得对借款人的评估不在单纯依靠个人的“硬信息”，数据获取渠道变得更加广泛，信用评价指标逐渐从单一到多元。

当前，由于P2P信用评价体系不完善，发展至今，我国P2P网贷行业出现了大规模平台跑路、倒闭潮的情况，使得网贷经营过程中存在着市场风险、操作风险、法律风险、信用风险等诸多风险，也为投资者带来了巨大的损失。而其中借款人信用风险是网贷面临的最主要风险，严重损害了借贷行业的健康有序发展。另一方面，在大数据环境下，互联网金融市场能够利用的数据类型得到进一步扩充，海量的非结构化数据如视频、音频、图片、日常生活的交易数据、社交网络信息等都可以采集并加以利用。一切数据皆可作为信用凭证。由此，利用平台的海量交易数据，全面地对网贷借款人评估信贷风险，为网络借贷平台信用大数据解决方案提供有力支撑，同时给平台的监管、投资者选择投标项目提供依据，具有重要的现实意义。因此亟需提出一种融合多方位数据进行信用评估的方法。

发明内容

本发明的目的在于提供一种基于数据挖掘的P2P个人信用评估方法，能够融合多方位数据进行信用评估，以提高信用评估的准确性。

为实现上述目的，本发明提供一种基于数据挖掘的P2P个人信用评估方法，所述方法包括：

S101：采集借款人的数据，所述借款人的数据包含个人信用数据、社交网络数据以及电商网络数据；

S102：对所述借款人的数据进行预处理，所述预处理包括缺失值处理以及平衡化处理；

S103：基于模拟退火算法对花朵授粉算法进行改进，并在改进的基础上对支持向量机的参数进行优化，以得到优化后的数据训练模型；

S104：将预处理后的个人信用数据输入所述优化后的数据训练模型，以得到所述借款人的基本评分；

S105：利用统计或层次分析法对预处理后的社交网络数据和电商网络数据进行分析，以得到所述借款人的两个额外评分；

S106：基于S104和S105所得到的结果，确定所述借款人的信用评分。

根据所述的方法，其特征在于，所述方法还包括：

对预处理后的借款人的数据进行分析，并基于分析结果构建所述借款人的信用指标以及对各个所述信用指标进行排序。

进一步地，S102所述平衡化处理包括：

S1021：从预设样本的样本子集中随机选取k个样本数据作为k个初始聚类中心，并根据所述k个初始聚类中心对所述样本子集中的样本数据进行聚类，得到k个簇；

S1022：计算所述预设样本中其余样本数据到每一个簇的中心点的欧氏距离，再将各个样本数据划分到距离自身最近的簇中；

S1023：重新计算各个簇的中心点；

S1024：若满足使下述目标函数最小或保持不变，则平衡化处理过程结束：

其中，J(X，C)表示所述目标函数，S_i是第i个类别中样本数据的簇集合，c_i是S_i内所有样本x_j的聚类中心点。

根据S1023，其特征在于，按照以下公式计算样本数据到簇的中心点之间的欧氏距离：

d(x_j，c_i)＝||x_j-c_i||₂

其中d(x_j，c_i)表示样本数据x_j与中心点c_i之间的欧氏距离，||*||₂表示二范数运算。

进一步地，S103所述支持向量机的参数包括C，σ，ε，相应地，基于模拟退火算法对花朵授粉算法进行改进，并在改进的基础上对支持向量机的参数进行优化，具体步骤包括：

S1031：对所述个人信用数据进行相空间重构，生成学习样本数据；

S1032：确定C，σ，ε这三个参数的范围，并设定初始化花朵种群规模N、最大迭代次数iter_max、转换概率p、初始温度T以及退温常数θ；

S1033：随机产生N个解，每个解对应一个三维向量(C，σ，ε)，并找到当前最优解和最小误差f_min；

S1034：根据下述公式确定当前温度当前解的误差值：

式中，TFit(Sol(i))是误差值，Sol(i)是所述当前解，best是全局最优解，T是初始温度，f(*)表示支持向量机的传递函数；

S1035：采用轮盘赌的方式从所有当前解中确定全局最优的替代值best_plus；

S1036：当满足第一判定条件时，按照以下公式对解进行越界处理：

其中，表示指定常数，表示越界处理后的解，表示越界处理前的解，L是授粉强度，服从于：

S1037：当满足第二判定条件时，按照以下公式对解进行越界处理：

其中，δ是在[0，1]上服从均匀分布的随机数，是相同种类的不同花朵的花粉；

S1038：对S1036或者S1037中的新的解所对应的误差进行判断，若，则更新当前解，否则保留当前解；

S1039：如果新的解所对应的最小误差比全局最小误差还要小，则更新全局最优解和全局最小误差；

S1010：执行退温操作；

S1011：判断最小误差f_min是否达导预测精度，如果达到，则程序终止，并输出最优的一组解(C，σ，ε)以及全局最小误差f_min，否则转S1034继续处理；

S1012：利用最优解相对应的C，σ，ε值作为支持向量机的参数，对训练集重新训练，建立个人信用数据的信用评估模型。

为实现上述目的，本申请还提供一种基于数据挖掘的P2P个人信用评估装置，所述装置包括：

借款人数据采集单元，用于采集借款人的数据，所述借款人的数据包含个人信用数据、社交网络数据以及电商网络数据；

预处理单元，用于对所述借款人的数据进行预处理，所述预处理包括缺失值处理以及平衡化处理；

模型优化单元，用于基于模拟退火算法对花朵授粉算法进行改进，并在改进的基础上对支持向量机的参数进行优化，以得到优化后的数据训练模型；

基本评分确定单元，用于将预处理后的个人信用数据输入所述优化后的数据训练模型，以得到所述借款人的基本评分；

额外评分确定单元，用于利用统计或层次分析法对预处理后的社交网络数据和电商网络数据进行分析，以得到所述借款人的两个额外评分；

信用评分确定单元，用于基于所述基本评分以及所述两个额外评分，确定所述借款人的信用评分。

进一步地，所述装置还包括：

指标构建单元，用于对预处理后的借款人的数据进行分析，并基于分析结果构建所述借款人的信用指标以及对各个所述信用指标进行排序。

进一步地，所述预处理单元按照以下步骤进行平衡化处理：

步骤1：从预设样本的样本子集中随机选取k个样本数据作为k个初始聚类中心，并根据所述k个初始聚类中心对所述样本子集中的样本数据进行聚类，得到k个簇；

步骤2：计算所述预设样本中其余样本数据到每一个簇的中心点的欧氏距离，再将各个样本数据划分到距离自身最近的簇中；

步骤3：重新计算各个簇的中心点；

步骤4：若满足使下述目标函数最小或保持不变，则平衡化处理过程结束：

进一步地，所述预处理单元按照以下公式计算样本数据到簇的中心点之间的欧氏距离：

d(x_j，c_i)＝||x_j-c_i||₂

其中，d(x_j，c_i)表示样本数据x_j与中心点c_i之间的欧氏距离，||*||₂表示二范数运算。

进一步地，所述支持向量机的参数包括C，σ，ε，相应地，所述模型优化单元按照以下步骤进行处理：

步骤1：对所述个人信用数据进行相空间重构，生成学习样本数据；

步骤2：确定C，σ，ε这三个参数的范围，并设定初始化花朵种群规模N、最大迭代次数iter_max、转换概率p、初始温度T以及退温常数θ；

步骤3：随机产生N个解，每个解对应一个三维向量(C，σ，ε)，并找到当前最优解和最小误差f_min；

步骤4：根据下述公式确定当前温度当前解的误差值：

步骤5：采用轮盘赌的方式从所有当前解中确定全局最优的替代值best_plus；

步骤6：当满足第一判定条件时，按照以下公式对解进行越界处理：

步骤7：当满足第二判定条件时，按照以下公式对解进行越界处理：

步骤8：对步骤6或者步骤7中的新的解所对应的误差进行判断，若，则更新当前解，否则保留当前解；

步骤9：如果新的解所对应的最小误差比全局最小误差还要小，则更新全局最优解和全局最小误差；

步骤10：执行退温操作；

步骤11：判断最小误差f_min是否达导预测精度，如果达到，则程序终止，并输出最优的一组解(C，σ，ε)以及全局最小误差f_min，否则转步骤4继续处理；

步骤12：利用最优解相对应的C，σ，ε值作为支持向量机的参数，对训练集重新训练，建立个人信用数据的信用评估模型。

由上可见，本发明采用以上技术方案与现有技术相比，至少具有以下技术效果：

传统信用评价指标过于单一，本发明利用多方面数据对借款人的信用指标进行全面的构建，使得指标更具代表性。

在原本的基础上将日常生活中的社交数据和网购数据进行分析，从中提取出信用评价得分，再与传统得分相结合进行综合评价，使得总体信用评估相比传统评估手段更具全面性与精确性。

本发明在对数据进行平衡化处理时，通过聚类算法改进合成少数类过采样技术，从而确保在原先数据里的信息的基础上，又能将数据平衡化，更加合理的添加违约用户数量，增强数据可操作性。

本发明在个人信用数据上利用的改进的花授粉算法优化支持向量机SVM的模型，此方法将模拟退火算法与花授粉算法相结合，形成一种新的优化算法，该算法具有较强的全局搜索能力，且收敛速度较快，将此算法应用到SVM的参数寻优中，相比传统模型预测精度有所提高。

附图说明

图1是本发明的信用评估方法的总体结构框图；

图2是K-means算法改进SMOTE的方法进行数据平衡化处理的流程图；

图3是参数优化的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式，都应当属于本申请保护的范围。

本申请提供一种基于数据挖掘的P2P个人信用评估方法，所述方法包括：采集借款人的数据，所述借款人的数据包含个人信用数据、社交网络数据以及电商网络数据；对所述借款人的数据进行预处理，所述预处理包括缺失值处理以及平衡化处理；基于模拟退火算法对花朵授粉算法进行改进，并在改进的基础上对支持向量机的参数进行优化，以得到优化后的数据训练模型；将预处理后的个人信用数据输入所述优化后的数据训练模型，以得到所述借款人的基本评分；利用统计或层次分析法对预处理后的社交网络数据和电商网络数据进行分析，以得到所述借款人的两个额外评分；基于所述基本评分以及所述两个额外评分，确定所述借款人的信用评分。

在本实施方式中，所述方法还包括：对预处理后的借款人的数据进行分析，并基于分析结果构建所述借款人的信用指标以及对各个所述信用指标进行排序。

在本实施方式中，所述平衡化处理包括：

步骤3：重新计算各个簇的中心点；

在本实施方式中，按照以下公式计算样本数据到簇的中心点之间的欧氏距离：

d(x_j，c_i)＝||x_j-c_i||₂

在本实施方式中，所述支持向量机的参数包括C，σ，ε，相应地，基于模拟退火算法对花朵授粉算法进行改进，并在改进的基础上对支持向量机的参数进行优化包括：

步骤4：根据下述公式确定当前温度当前解的误差值：

步骤10：执行退温操作；

具体地，在一个实际应用场景中，请参阅图1，本发明主要包含数据采集阶段、评价指标确定阶段、数据处理阶、分块评分阶段、综合评分阶段。简要步骤如下：

对各数据采集部分，其中数据包含个人信用数据、社交网络数据、电商网络数据。

大数据环境下P2P信用评价指标的构建；包括大数据环境下借款人信用行为信息分析。基于借款人信用行为信息的信用指标选择和构建。利用层次分析法(AnalyticHierarchy Process，AHP)对信用评价指标影响的重要性排序。

数据预处理部分，包括两个部分利用均值法对P2P借贷数据进行缺失值处理以及利用K-means算法改进SMOTE(Synthetic Minority Oversampling Technique，合成少数类过采样技术)，对线性数据进行平衡化处理。

个人传统信用数据主要利用机器学习算法，本方法中提出一种优化的支持向量机(supported vector machine，SVM)算法，利用模拟退火算法对花朵授粉算法(FlowerPollination Algorithm，FPA)的性能进行提升(SFPA)，并在此基础上对SVM的参数进行优化，使得支持向量机模型构建效率更快、精度更高、稳定性更好。使用数据训练模型，将个人信用数据输入模型得到用户基本评分。

而对于社交网络数据，电商网络数据则使用统计或层次分析法得出这两部分的信用评分。

再将三部分得分进行加权求和得到P2P综合信用得分。

首先通过网络爬虫以及机构合作的方式获得个人信用数据、社交网络数据、电商网络数据。在发明中使用的评价指标选取方法是成熟的AHP方法。保证步骤的可行性和可靠性。

在获得数据后需要对数据进行处理，包括缺失值处理、异常值处理以及利用K-means算法改进SMOTE，对线性数据进行平衡化处理。此块最突出的为数据的非平衡化处理，如图2显示，在此将方法具体说明：

步骤1：在较少的样本中随机选取k个样本数据，作为k个初始聚类中心，聚类中心集合为C＝{c₁，c₂，…，c_k}^T；c_i的计算公式如下：

其中c_i表示第i个簇的中心位置，i＝1，2，…，k，n_i是c_i中样本数据的个数，x_j代表属于c_i所属簇内的样本数据。

步骤2：计算其余数据样本到每一个簇内中心c_i的欧氏距离，再将各个数据样本划分到距离c_i最小的簇中。d(x_j，c_i)表示样本数据x_j与聚类中心c_i之间的欧式距离，计算公式如下：

步骤3：根据步骤1的公式重新计算各个簇中k个聚类中心值；

步骤4：若满足使下述目标函数最小或保持不变，则迭代过程结束，K-Means聚类操作完成。最小化目标函数公式如下：

其中，S_i是第i个类别中样本的簇集合，c_i是S_i内所有样本x_j的聚类中心点。

将处理好的数据进行建模评估，本发明中在数据模型评估阶段提出了分类评价，传统个人数据采用了独特的SFPA优化支持向量机算法，如图3。社交网络数据和电商数据则使用统计、层次分析法进行评估。再加权求得综合得分。

请参阅图3，需具体说明的是SFPA优化支持向量机算法的具体实现过程：

步骤1：收集个人信用数据，对数据进行相空间重构，生成SVM学习样本数据。

步骤2：确定C，σ，ε这三个参数的范围，初始化花朵种群规模N，最大迭代次数iter_max，转换概率p，初始温度T，退温常数θ。

步骤3：随机产生N个解，每个解对应一个三维向量(C，σ，ε)，找到当前最优解和最小误差f_min。

步骤4：根据下述公式确定当前温度下各Sol(i)的误差值：

式中，Sol(i)是当前的一个解，best是全局最优解，T是初始温度。

步骤5：采用轮盘赌的方式从所有Sol(i)中确定全局最优的某个替代值best_plus。

步骤6：有条件(p＞rand)来判断，是否按下述1)式对解进行更新，并对解进行越界处理。其中p是转换概率，rand是[0，1]上服从均匀分布的随机数。

式中，，M是自设常数，λ＝1.5，г(λ)是标准的伽马函数。

步骤7：由条件(p＜rand)来判断，是否按下述公式对解进行更新，并对解进行越界处理：

中，δ是在[0，1]上服从均匀分布的随机数，是相同种类的不同花朵的花粉。

步骤8：对步骤6或者步骤7中的新的解所对应的误差进行判断，若，则更新当前解，否则保留当前解。

步骤9：如果新解所对应的最小误差比全局最小误差还要小，则更新全局最优解和全局最小误差。

步骤10：退温操作。

步骤11：判断其测试值f_min是否达到短时交通流的预测精度，如果达到，则程序终止，并输出最优的一组解(C，σ，ε)以及全局最小误差f_min，否则转步骤4继续搜索。

步骤12：利用最优解相对应的C，σ，ε值作为SVM的相关参数对训练集重新训练，建立个人基本数据的信用评估模型。

本申请还提供一种基于数据挖掘的P2P个人信用评估装置，所述装置包括：

在本实施方式中，所述装置还包括：

在本实施方式中，所述预处理单元按照以下步骤进行平衡化处理：

步骤3：重新计算各个簇的中心点；

在本实施方式中，所述预处理单元按照以下公式计算样本数据到簇的中心点之间的欧氏距离：

d(x_j，c_i)＝||x_j-c_i||₂

在本实施方式中，所述支持向量机的参数包括C，σ，ε，相应地，所述模型优化单元按照以下步骤进行处理：

步骤4：根据下述公式确定当前温度当前解的误差值：

步骤10：执行退温操作；

上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述，本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此，虽然已经具体讨论了一些另选的实施方式，但是其它实施方式将是显而易见的，或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化，以及落在上述申请的精神和范围内的其它实施方式。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种基于数据挖掘的P2P个人信用评估方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，S102所述平衡化处理包括：

S1023：重新计算各个簇的中心点；

4.根据权利要求3所述的方法，其特征在于，按照以下公式计算样本数据到簇的中心点之间的欧氏距离：

d(x_j，c_i)＝||x_j-c_i||₂

5.根据权利要求1所述的方法，其特征在于，S103所述支持向量机的参数包括C，σ，ε，相应地，基于模拟退火算法对花朵授粉算法进行改进，并在改进的基础上对支持向量机的参数进行优化，具体步骤包括：

S1034：根据下述公式确定当前温度当前解的误差值：

S1038：对S1036或者S1037中的新的解所对应的误差进行判断，若则更新当前解，否则保留当前解；

S1010：执行退温操作；

6.一种基于数据挖掘的P2P个人信用评估装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述预处理单元按照以下步骤进行平衡化处理：

步骤3：重新计算各个簇的中心点；

9.根据权利要求8所述的装置，其特征在于，所述预处理单元按照以下公式计算样本数据到簇的中心点之间的欧氏距离：

d(x_j，c_i)＝||x_j-c_i||₂

10.根据权利要求6所述的装置，其特征在于，所述支持向量机的参数包括C，σ，ε，相应地，所述模型优化单元按照以下步骤进行处理：

步骤4：根据下述公式确定当前温度当前解的误差值：

步骤8：对步骤6或者步骤7中的新的解所对应的误差进行判断，若则更新当前解，否则保留当前解；

步骤10：执行退温操作；

步骤11：判断最小误差f_min是否达到预测精度，如果达到，则程序终止，并输出最优的一组解(C，σ，ε)以及全局最小误差f_min，否则转步骤4继续处理；