CN108009911A

CN108009911A - 一种识别p2p网络借贷借款人违约风险的方法

Info

Publication number: CN108009911A
Application number: CN201711229175.XA
Authority: CN
Inventors: 陈群; 宗利永
Original assignee: Shanghai Publishing and Printing College
Current assignee: Shanghai Publishing and Printing College
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-05-08

Abstract

本发明提供一种识别P2P网络借贷借款人违约风险的方法，包括如下步骤：步骤一，采集P2P借款申请数据信息；步骤二，对数据进行了预处理，获得借款描述文本信息；步骤三，对借款描述文本信息进行特征提取；步骤四，使用支持向量机分类方法，结合借款人的客观基础信息特征，以及借款描述文本信息对P2P网络借贷的违约风险进行识别；步骤五，采用十折交叉验证进行SVM核函数参数优化。本发明的识别P2P网络借贷借款人违约风险的方法，违约识别准确率提高了10个百分比以上，最高达73.42％。

Description

一种识别P2P网络借贷借款人违约风险的方法

技术领域

本发明涉及一种识别P2P网络借贷借款人违约风险的方法，属于信息安全领域。

背景技术

伴随着在线虚拟社区的流行，信贷市场出现了一种新的借贷方式： P2P网络借贷(peer to peer lending)(Bachmann et al.,2011)。P2P 网络借贷模式兴起于欧美，是一种依托于网络形成的新型金融服务模式。不同于传统的金融模式，P2P摆脱了借贷媒介(Zhang&Liu,2012)，是一种个人对个人的直接的、无担保的小额借贷模式(Lin et al.,2013； Greiner and Wang,2010)。作为一种创新的金融模式，P2P网络借贷具有以下几个特点：(1)借贷双方交易便捷。借贷双方通过网络借贷平台能够以较低的门槛参与进来，便捷地实现借贷交易(Lin et al., 2013)。此外，低交易成本使小额借贷更可行(Chen&Han,2012)。(2) 投资者可分散投资。投资者在对借款人信誉进行评估的基础上决定向谁投资以及投资多少金额，投资时可将资金分散投于多个借款人，从而分散借贷风险。(3)信用甄别由投资者完成。传统金融机构对借款人的审核工作是由银行或具有专业性的金融专家完成(Iyer et al.,2016)，而 P2P网络借贷中对借款人的信誉的评估是由投资者完成，投资者依据借款人在网络贷平台上提供的申请信息对其进行信誉的评估。

最早的P2P借贷模式起源于英国的Zopa(成立于2005年3月)，之后这种借贷模式迅速在世界范围内推广开来(Kupp and Anderson, 2007)。当前，在2006年成立于美国的P2P网贷平台Prosper目前拥有超过98万会员，超过2亿的借贷金额，成为目前世界上最大的P2P借贷平台(Lin et al.,2013)。2008年的金融危机也为网络借贷的快速发展提供了契机。由于小微企业很难从银行通过信用审批获得贷款，于是P2P 网络借贷在一定程度上满足了无法从正规金融机构获得贷款的资金需求者的需要。目前P2P网络借贷已经在美国、意大利、日本、韩国、中国等地得到了迅速地推广。目前较著名的P2P网贷平台有英国的Zopa，美国的Prosper、Lending Club，德国的Auxmoney，日本的Aqush，韩国 Popfunding等等。2007年8月，我国第一个P2P网贷平台拍拍贷 (http://www.ppdai.com)在上海上线，之后国内P2P借贷平台开始大量涌现，银行、国资、上市公司、风投资本不断地涌入网贷行业，加速了我国P2P网贷行业的布局。据网贷之家最新统计数据，截至2016年 12月底，我国正常运营的借贷平台数量达到了2448家，我国年网贷行业成交量在2016年达到了20638.72亿元，相比2015年全年网贷成交量增长了110％。

作为一个创新的金融新兴领域，P2P网络借贷行业在积极服务企业、促进经济发展的同时，也面临着亟需解决的风险控制难题：互联网借贷市场用户违约行为风险事件频发。2015年2月，深圳最大的P2P网贷平台红岭创投被爆出现7000万坏账。2015年7月，具有国资背景的平台金宝曝光某借款企业高达500万的借款项目违约不还。2016年4月，红岭创投再次被爆有高额坏账和逾期，其中坏账5亿元，而逾期高达25亿元。屡见不鲜的用户违约行为给平台带来了系统性的坏帐风险，严重阻碍了我国互联网信贷行业的健康发展。如何准确识别网络借贷借款用户的违约行为成为我国P2P互联网借贷平台建设金融监管制度革新所面临的一个重要课题。2016年7月，工信部印发《促进中小企业发展规划(2016-2020年)》，其中提出“大力发展中小金融机构及普惠金融，推动互联网金融规范有序发展”。

然而，准确预测不同借款人的不同风险程度并非易事。这一方面是由于P2P网络借贷中存在着尤为严重的信息不对称问题(Lin et al., 2013；Lee and Lee,2012；Yum etal.,2012)，投资者相对于借款人而言处于弱势地位，因为借款人本人更清楚自己的还款能力和还款意愿 (Serrano-Cinca et al.,2015)。另一方面是因为网络借贷中对借款人信誉的评估是由不具备专业审核能力的投资者来完成的，这有别于传统金融机构，传统金融机构对借款人的审核工作是由银行或具有专业性的金融专家完成。在P2P网络借贷中，投资者主要依据借款人在借款列表中提供的信息来对借款人的信誉进行评估并做出投资决策(Duarte et al., 2012；Zhang et al.,2014)。Iyer指出P2P借贷中的投资者在进行借款人的筛选时通常没有足够的经验，也没有接受过判断信誉的正式培训 (Iyer et al.,2016)。

当前对P2P网络借贷借款人违约风险识别的方法主要是基于借款人的结构化客观数据(如借款要求、个人基础信息、借款历史记录等)来构建各种预测模型，如Logistic模型(Serrano-Cinca et al.,2015)、 Probit模型(Dorfleitner et al.,2016；何平平etal.,2016)、Cox 比例风险回归模型(Emekter et al.,2015)。这些对借款人违约风险的识别方法对网贷行业通过借款人的结构化信息来识别借款人的违约风险的方法为网贷行业的风险控制做出了有益的贡献。现有的P2P网络借贷借款人违约风险识别方法主要依据的是借款用户的客观基础数据，这与传统金融机构对借款人信誉的审核方法一致。然而，对于信息不对称问题尤为严重的互联网借贷行业，当前基于借款人客观基础数据的借款人违约风险识别方法很难起到较好的分析作用，因而普遍的违约识别准确率不高，约为60％。

发明内容

本发明的目的在于提一种识别P2P网络借贷借款人违约风险的方法，以提高违约识别的准确率。

本发明采用了如下技术方案：

一种识别P2P网络借贷借款人违约风险的方法，其特征在于，包括如下步骤：

步骤一，采集P2P借款申请数据信息；

步骤二，对数据进行了预处理，获得借款描述文本信息；

步骤三，对借款描述文本信息进行特征提取，提取的文本特征包括：语言特征、词汇特征、情感特征；

步骤四，使用支持向量机分类方法，结合借款人的客观基础信息特征，以及借款描述文本信息对P2P网络借贷的违约风险进行识别，包括步骤：首先，将数据集中的数据按借款人的还款行为分成两类：如期还款、违约，接着，构建SVM二分类器，调用支持向量机的训练函数对数据进行训练；

步骤五，采用十折交叉验证进行SVM核函数参数优化：将数据集随机分为10份，每次取9份作为训练集训练分类器，剩余的一份做验证测试准确率检验模型的分类精度，评估参数的性能，计算预测误差平方和，上述过程重复10次，最后把10次的预测误差平方和再做平均作为选择最优模型结构的依据。

本发明的识别P2P网络借贷借款人违约风险的方法，还具有这样的特征：其中，所述文本长度为：统计每一个借款申请中的借款描述的总字数，用以表征描述内容的信息丰富度，所述可读性为：本发明采用借款描述的平均句长来测量可读性，可读性变量的计算方法为：借款描述的总字数除以句末标点个数。

本发明的识别P2P网络借贷借款人违约风险的方法，还具有这样的特征：正负面情感：首先，使用广泛用于中文语料分析的软件对借款描述进行分词，接着，采用用于中文情感分析的Hownet词典，分别计算了借款描述中的正面情感词占比与负面情感词占比，语言强度：借鉴前人的文本分析方法，本发明使用借款描述中出现的全角或半角感叹号的总个数来度量语言强度。

本发明的识别P2P网络借贷借款人违约风险的方法，还具有这样的特征：其中，通过对违约借款申请中的借款描述高频词的统计来构建“违约文本特征词频”变量，过程如下：首先，将借款描述按借款人的还款行为分成两类，分别是如期还款和违约，其次，分别对两类文本进行分词，使用中文语料分析的软件对借款描述进行分词，再者，对最终出现违约的借款描述中的所有词汇采用列联表的方式进行词频统计，需要统计的词频包括以下四个数值，分别用A、B、C、D代表：①A：发生违约的借款描述中出现该词的借款申请数，②B：在如期还款的借款描述中出现该词的借款申请数，③C：在发生违约的借款描述中没有出现该词的借款申请数，④D：在如期还款的借款描述中没有出现该词的借款申请数，表1用“购房”一词举例说明了列联表在本发明中的应用，然后，采用Robertson提出的RSV方法计算每个词的RSV，提取发生违约的借款申请文本中的高频词构建违约文本特征词库，RSV的计算公式为：

公式1计算的在出现违约行为的借款申请文本中的每个词汇的RSV 值，其中，A、B、C、D的含义与上文一致，在表1中进行了举例说明，最后，统计借款描述中违约文本特征词出现的占比，作为“违约文本特征词频”变量。

本发明的识别P2P网络借贷借款人违约风险的方法，还具有这样的特征：步骤二中，还具有将将P2P借款申请数据信息分类为硬信息和软信息，软信息为借款人自披露的借款描述文本信息。

本发明的识别P2P网络借贷借款人违约风险的方法，还具有这样的特征：步骤二中，预处理除去了智能理财标、机构担保标，以及实地认证标这三种类型的标的样本。

本发明的识别P2P网络借贷借款人违约风险的方法，还具有这样的特征：步骤一中：采用网络爬虫工具采集P2P借款申请数据信息。

本发明的识别P2P网络借贷借款人违约风险的方法，还具有这样的特征，还包括：步骤六：模型准确率对比。

本发明的识别P2P网络借贷借款人违约风险的方法，还具有这样的特征：步骤二中，对数据进行预处理的方法为：①除去了不存在的借款编号，②除去了智能理财标、机构担保标，以及实地认证标这三种类型的标的样本，③删除了正在筹款中的借款申请，④删除了在关键变量上存在空缺值的数据,得到信用认证标数据，⑤删除了所有筹款失败的数据，经过上述数据处理，最终得到成功标数据。

发明的有益效果

本发明的识别P2P网络借贷借款人违约风险的方法，违约识别准确率提高了10个百分比以上，最高达73.42％。显然，本发明中基于文本挖掘的违约风险识别方法相对于现存的当前基于借款人客观基础数据的借款人违约风险识别算法有更高的识别准确率。

同时，算法寻优适应度曲线表明本发明提出的基于文本挖掘的违约风险识别方法可以提高整体适应度。

本发明为P2P网络借贷中借款人违约风险的识别提供了一种有效的新方法，该方法可为互联网借贷平台借款用户信用风险的预测与控制提供有力的支持，具有重要现实应用价值。

附图说明

图1是基于文本挖掘的P2P网络借贷借款人违约风险识别流程图。

图2是编号为9的实验组的算法寻优适应度的变化。

具体实施方式

以下结合附图来说明本发明的具体实施方式。

对于信息不对称问题尤为严重的互联网借贷行业，当前基于借款人客观基础数据的借款人违约风险识别方法很难起到较好的分析作用，本发明提出的基于文本挖掘的违约风险识别方法相对于现存的当前基于借款人客观基础数据进行的违约风险识别算法有更高的准确率。具体的借款人违约风险识别流程如图1所示。

步骤S1，使用网络爬虫工具采集了人人贷平台(http://renrendai.com) 2013.1～2015.1两年期间的所有借款申请数据，一共493,888条借款申请。本发明将爬取的借款列表信息分为硬信息与软信息两大类，这种分类广泛应用于P2P网络借贷领域。借款列表中有关借款人的硬信息包括四类：①借款信息，包括：借款利率、借款金额、借款期限。②个人基础信息，包括信用等级、性别、年龄、婚姻状况、学历等。③历史借款信息，包括：申请借款次数、成功借款次数、逾期次数、严重逾期次数。 ④13类认证材料，包括：信用认证、身份认证、学历认证、工作认证、职称认证、收入认证、房产认证、车产认证、婚姻认证、居住地认证、视频认证、手机认证、微博认证。借款列表中的软信息具体指借款人自披露的借款描述文本信息。

步骤S2，对数据进行预处理：①除去了不存在的借款编号，例如编号79574。②除去智能理财标、机构担保标，以及实地认证标这三种类型的标的样本。人人贷网站的标的类型分为四种：信用认证标、实地认证标、机构担保标、智能理财标。其中，实地认证标与机构担保标相对信用认证标增添了机构的认证审核，较之于信用认证标更有保障更安全。且实地认证标、机构担保标的借款描述是由机构代填，并非借款人本人填写。因此，本发明剔除了这两种类型的标的样本，此外，智能理财标是对平台理财产品的投资，而非对借款人的投资，因此也不适合于本发明的数据范畴。③删除了正在筹款中的借款申请，因为此类申请最后的筹款成功或者筹款失败的状态不明。④删除了在关键变量上存在空缺值的数据。得到信用认证标数据为368,583条。⑤删除了所有筹款失败的数据，经过上述数据处理，最终得到14819条成功标数据。

步骤S3，在对现有文本分析方法进行梳理的基础上，本发明从语言特征、词汇特征、情感特征三个维度对借款描述文本进行特征提取。提取的文本特征包括：“文本长度”、“可读性”、“正负面情感”、“语言强度”、 “违约文本特征词频”(smoke word)变量。

步骤S4，借助支持向量机(Support Vector Machine，SVM)分类方法，结合借款人的客观基础信息特征，以及在上一步中提取到的借款描述文本变量对P2P网络借贷的违约风险进行识别。首先，将数据集中的数据按借款人的还款行为分成两类：如期还款、违约。接着，构建SVM 二分类器，调用支持向量机的训练函数对数据进行训练。

步骤S5，采用十折交叉验证(10-fold cross-validation)进行SVM核函数参数优化，提高测试集合的预测准确性。将数据集随机分为10份，每次取9份作为训练集训练分类器，剩余的一份做验证测试准确率检验模型的分类精度，评估参数的性能，计算预测误差平方和，上述过程重复10次。最后把10次的预测误差平方和再做平均作为选择最优模型结构的依据。

借款描述文本信息特征构建

现有的文本分析方法对文本特征变量的提取主要包括以下几类：① 词汇特征。统计名词、命名实体等不同“Bag-of-Words”类的词频，②文本特征。统计总字数、平均句长、段落平均句子个数、单词平均长度等特征，③社交特征。统计发贴个数、评论个数、用户可信度、专业性、社会影响力等特征，④情感特征。统计词、句或整个文档的主观性、正面情感、负面情感，⑤特征词汇。提取在某一类文本中出现的高频词汇构建特征词库，进一步统计分类样本中出现该词库中词汇的词频⑥产品特征。通过人工贴标签的方式，为与产品相关的文本数据标注具体类型与水平值。

不同领域文本分析方法为本发明对P2P网络借贷中借款描述文本特征的构建提供了思路。考虑P2P实验数据的样本量、中文语料、借款描述语境等特点，本发明从语言特征、词汇特征、情感特征三个维度对借款描述文本进行了特征提取。本发明中提取的文本特征包括：“文本长度”、“可读性”、“正负面情感”、“语言强度”、“违约文本特征词频”变量。各文本特征变量的提取方法如下：

(1)文本长度：统计每一个借款申请中的借款描述的总字数，用以表征描述内容的信息丰富度。

(2)可读性：本发明采用借款描述的平均句长来测量可读性。可读性变量的计算方法为：借款描述的总字数除以句末标点个数。

(3)正负面情感：首先，使用广泛用于中文语料分析的Chinese version ofLinguistic Inquiry and Word Count(CLIWC)软件对借款描述进行分词。接着，采用广泛用于中文情感分析的Hownet词典分别计算了借款描述中的正面情感词占比(PositiveSentimen)与负面情感词占比 (PositiveSentiment)。

(4)语言强度：借鉴前人的文本分析方法，本发明使用借款描述中出现的全角或半角感叹号的总个数来度量语言强度。

(5)违约文本特征词频：通过对违约借款申请中的借款描述高频词的统计来构建“违约文本特征词频”变量。过程如下：首先，将借款描述按借款人的还款行为(如期还款/违约)分成两类。其次，分别对两类文本进行分词。本发明使用广泛用于中文语料分析的Chinese version of Linguistic Inquiry andWord Count(CLIWC)软件对借款描述进行分词。再者，对最终出现违约的借款描述中的所有词汇采用列联表的方式进行词频统计。需要统计的词频包括以下四个数值，分别用A、B、C、D代表： ①A：发生违约的借款描述中出现该词的借款申请数②B：在如期还款的借款描述中出现该词的借款申请数③C：在发生违约的借款描述中没有出现该词的借款申请数④D：在如期还款的借款描述中没有出现该词的借款申请数。表1用“购房”一词举例说明了列联表在本发明中的应用。然后，采用RSV(Robertson’s Selection Value)方法计算每个词的RSV，提取发生违约的借款申请文本中的高频词构建违约文本特征词库。RSV的计算公式为：

公式1计算的在出现违约行为的借款申请文本中的每个词汇的RSV 值，其中，A、B、C、D的含义与上文一致，在表1中进行了举例说明。最后，统计借款描述中违约文本特征词出现的占比，作为“违约文本特征词频”变量。

表1 列联表描述举例——以“购房”一词为例

说明：“购房”一词出现记为“1”，未出现标记为“0”。A代表在发生违约的借款描述中出现该词的借款申请数，B代表在如期还款的借款描述中出现该词的借款申请数，C代表在发生违约的借款描述中没有出现该词的借款申请数，D在如期还款的借款描述中没有出现该词的借款申请数，A+C代表发生违约行为的总借款申请数，B+D代表如期还款的总借款申请数。N＝A+B+C+D，代表总样本数量。

借款人违约风险识别模型

本发明借助支持向量机(Support Vector Machine，SVM)分类方法，在借款人的客观基础信息特征的基础上，新增了从语言特征、词汇特征、情感特征三个维度提取的借款描述文本特征(包括“文本长度”、“可读性”、“正负面情感”、“语言强度”、“违约文本特征词频”)对P2P借款人违约风险进行识别。将现有方法中采用结构化数据进行的违约风险识别结果，与新增借款描述文本信息变量后的识别结果进行比较，检验了本发明提出的基于文本挖掘的违约风险识别方法的有用性。本发明采用 SVM方法对P2P网络借贷中借款人违约风险的识别问题进行了分析。由于对P2P网络借贷中借款人违约风险的识别重点在于违约风险的提示，因此本发明在实验设计过程中尽可能地减少将风险个体识别为非风险个体的概率，故在建模中以违约风险识别的准确性作为对分类模型的主要评价指标，同时兼顾了对非违约个体的识别错误率。

SVM由Cortes&Vapnik在1995年提出。SVM主要思想是通过建立一个分类超平面作为决策曲面，最大化正例和反例之间的隔离边缘。 SVM可用于非线性回归分析，在处理非线性问题时，SVM把原问题空间中的训练样本变成特征空间中线性可分的训练样本。运用一个核函数 K来代替高维空间中的内积运算，将非线性问题转化为高维空间的线性运算问题。径向基核函数(Radial Basis Function简称RBF)在支撑向量机中应用最广，本发明采用基于径向基的核函数进行回归预测。在使用RBF 时需要调优的参数有两个：核函数参数γ和误差惩罚因子c，这两个参数的选择对SVM模型的精度有较大影响。核函数参数γ定义了单个样本对整个分类超平面的影响。当γ比较大时，单个样本对整个分类超平面的影响比较小，不容易被选择为支持向量，整个模型的支持向量也会少。反之，当γ比较小时，单个样本对整个分类超平面的影响比较大，更容易被选择为支持向量。误差惩罚因子c在优化函数里起到平衡SVM的复杂度和误分类率两者之间关系的作用。当c比较大时，会选择较多的样本来做支持向量，支持向量和超平面的模型会变得复杂，容易过拟合。而当c比较小时，最终的支持向量和超平面的模型也会简单。因此，需要找到最优化参数组(γ,c)使SVM具有最好的精度。

本发明采用十折交叉验证(10-fold cross-validation)进行SVM核函数参数优化。交叉验证法可以有效地避免过学习和欠学习状态的发生，计算精度较高。十折交叉验证获取参数过程如下：首先，将数据集随机分为10份。然后，每次取9份作为训练集训练分类器，剩余的一份做验证测试准确率检验模型的分类精度，评估参数的性能，计算预测误差平方和。接着，将上述过程重复10次。最后，把10次的预测误差平方和再做平均作为选择最优模型结构的依据。在上述十折交叉验证寻优完毕后，利用最佳参数对应的模型训练SVM用于借款人违约风险的识别性测试。

步骤S6，实验结果分析及对比

实验环境的软硬件条件如下：Windows7操作系统、4G运存、1.9GHz CPU、MATLAB2014a、LibSVM软件包。本发明分别采用借款人的客观基础信息特征，以及新增借款描述文本特征进行了违约风险识别。表2 中列出了十折交叉验证实验组按照最优参数配置最终得到的最佳参数，以及违约风险评估准确率。表2中的组(1)代表采用借款人的结构化数据进行的违约风险识别准确率结果，组(2)代表采用结合结构化数据与借款描述文本特征进行的违约风险识别准确率结果。

表2 SVM参数寻优十折交叉验证实验数据表

说明：采用十折交叉验证进行SVM核函数参数优化。γ代表核函数参数，c代表误差惩罚因子c。

从表2中组(1)的实验结果可知，基于借款人结构化数据进行的违约风险评估准确率最高可达到59.97％(编号为8的实验组)。然而，在增加借款描述文本特征之后，10折交叉验证实验组的违约风险评估准确率均提高至70％以上，最低为71.33％(编号为1的实验组)，最高达到 73.42％(编号为9的实验组)。

进一步用matlab跟踪编号为9的实验组的算法寻优适应度的变化，图2绘制了该实验组的算法寻优适应度曲线。图中横坐标代表循环次数，纵坐标代表了适应度算法值。图中实线代表基于结构化数据的算法适应度曲线，虚线代表新增借款描述文本特征之后的算法适应度曲线。

Claims

1.一种识别P2P网络借贷借款人违约风险的方法，其特征在于，包括如下步骤：

步骤一，采集P2P借款申请数据信息；

步骤二，对数据进行了预处理，获得借款描述文本信息；

步骤三，对借款描述文本信息进行特征提取，提取的文本特征包括：(1)文本长度，(2)可读性，(3)正负面情感，(4)语言强度，(5)违约文本特征词频变量，

2.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法，其特征在于：

其中，所述文本长度为：统计每一个借款申请中的借款描述的总字数，用以表征描述内容的信息丰富度，

所述可读性为：本发明采用借款描述的平均句长来测量可读性，可读性变量的计算方法为：借款描述的总字数除以句末标点个数。

3.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法，其特征在于：

正负面情感：首先，使用广泛用于中文语料分析的软件对借款描述进行分词，接着，采用用于中文情感分析的Hownet词典，分别计算了借款描述中的正面情感词占比与负面情感词占比，

语言强度：借鉴前人的文本分析方法，本发明使用借款描述中出现的全角或半角感叹号的总个数来度量语言强度。

4.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法，其特征在于：

其中，通过对违约借款申请中的借款描述高频词的统计来构建“违约文本特征词频”变量，过程如下：首先，将借款描述按借款人的还款行为分成两类，分别是如期还款和违约，其次，分别对两类文本进行分词，使用中文语料分析的软件对借款描述进行分词，再者，对最终出现违约的借款描述中的所有词汇采用列联表的方式进行词频统计，需要统计的词频包括以下四个数值，分别用A、B、C、D代表：①A：发生违约的借款描述中出现该词的借款申请数，②B：在如期还款的借款描述中出现该词的借款申请数，③C：在发生违约的借款描述中没有出现该词的借款申请数，④D：在如期还款的借款描述中没有出现该词的借款申请数，表1用“购房”一词举例说明了列联表在本发明中的应用，然后，采用Robertson提出的RSV方法计算每个词的RSV，提取发生违约的借款申请文本中的高频词构建违约文本特征词库，RSV的计算公式为：

<mrow> <mi>R</mi> <mi>S</mi> <mi>V</mi> <mo>=</mo> <mi>A</mi> <mi> </mi> <mi>log</mi> <mfrac> <mrow> <mi>A</mi> <mo>&times;</mo> <mi>D</mi> </mrow> <mrow> <mi>B</mi> <mo>&times;</mo> <mi>C</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

公式1计算的在出现违约行为的借款申请文本中的每个词汇的RSV值，其中，A、B、C、D的含义与上文一致，在表1中进行了举例说明，最后，统计借款描述中违约文本特征词出现的占比，作为“违约文本特征词频”变量。

5.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法，其特征在于：

步骤二中，还具有将P2P借款申请数据信息分类为硬信息和软信息的步骤，软信息为借款人自披露的借款描述文本信息。

6.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法，其特征在于：

步骤二中，预处理除去了智能理财标、机构担保标，以及实地认证标这三种类型的标的样本。

7.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法，其特征在于：

步骤一中：采用网络爬虫工具采集P2P借款申请数据信息。

8.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法，其特征在于，还包括：

步骤六：模型准确率对比。

9.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法，其特征在于：

步骤二中，对数据进行预处理的方法为：①除去了不存在的借款编号，②除去了智能理财标、机构担保标，以及实地认证标这三种类型的标的样本，③删除了正在筹款中的借款申请，④删除了在关键变量上存在空缺值的数据,得到信用认证标数据，⑤删除了所有筹款失败的数据，经过上述数据处理，最终得到成功标数据。