CN108009911A - 一种识别p2p网络借贷借款人违约风险的方法 - Google Patents
一种识别p2p网络借贷借款人违约风险的方法 Download PDFInfo
- Publication number
- CN108009911A CN108009911A CN201711229175.XA CN201711229175A CN108009911A CN 108009911 A CN108009911 A CN 108009911A CN 201711229175 A CN201711229175 A CN 201711229175A CN 108009911 A CN108009911 A CN 108009911A
- Authority
- CN
- China
- Prior art keywords
- borrower
- description
- word
- loan
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供一种识别P2P网络借贷借款人违约风险的方法,包括如下步骤:步骤一,采集P2P借款申请数据信息;步骤二,对数据进行了预处理,获得借款描述文本信息;步骤三,对借款描述文本信息进行特征提取;步骤四,使用支持向量机分类方法,结合借款人的客观基础信息特征,以及借款描述文本信息对P2P网络借贷的违约风险进行识别;步骤五,采用十折交叉验证进行SVM核函数参数优化。本发明的识别P2P网络借贷借款人违约风险的方法,违约识别准确率提高了10个百分比以上,最高达73.42%。
Description
技术领域
本发明涉及一种识别P2P网络借贷借款人违约风险的方法,属于信 息安全领域。
背景技术
伴随着在线虚拟社区的流行,信贷市场出现了一种新的借贷方式: P2P网络借贷(peer to peer lending)(Bachmann et al.,2011)。P2P 网络借贷模式兴起于欧美,是一种依托于网络形成的新型金融服务模式。 不同于传统的金融模式,P2P摆脱了借贷媒介(Zhang&Liu,2012),是 一种个人对个人的直接的、无担保的小额借贷模式(Lin et al.,2013; Greiner and Wang,2010)。作为一种创新的金融模式,P2P网络借贷 具有以下几个特点:(1)借贷双方交易便捷。借贷双方通过网络借贷平 台能够以较低的门槛参与进来,便捷地实现借贷交易(Lin et al., 2013)。此外,低交易成本使小额借贷更可行(Chen&Han,2012)。(2) 投资者可分散投资。投资者在对借款人信誉进行评估的基础上决定向谁 投资以及投资多少金额,投资时可将资金分散投于多个借款人,从而分 散借贷风险。(3)信用甄别由投资者完成。传统金融机构对借款人的审 核工作是由银行或具有专业性的金融专家完成(Iyer et al.,2016),而 P2P网络借贷中对借款人的信誉的评估是由投资者完成,投资者依据借 款人在网络贷平台上提供的申请信息对其进行信誉的评估。
最早的P2P借贷模式起源于英国的Zopa(成立于2005年3月),之 后这种借贷模式迅速在世界范围内推广开来(Kupp and Anderson, 2007)。当前,在2006年成立于美国的P2P网贷平台Prosper目前拥有 超过98万会员,超过2亿的借贷金额,成为目前世界上最大的P2P借贷 平台(Lin et al.,2013)。2008年的金融危机也为网络借贷的快速发展 提供了契机。由于小微企业很难从银行通过信用审批获得贷款,于是P2P 网络借贷在一定程度上满足了无法从正规金融机构获得贷款的资金需求 者的需要。目前P2P网络借贷已经在美国、意大利、日本、韩国、中国 等地得到了迅速地推广。目前较著名的P2P网贷平台有英国的Zopa,美 国的Prosper、Lending Club,德国的Auxmoney,日本的Aqush,韩国 Popfunding等等。2007年8月,我国第一个P2P网贷平台拍拍贷 (http://www.ppdai.com)在上海上线,之后国内P2P借贷平台开始大 量涌现,银行、国资、上市公司、风投资本不断地涌入网贷行业,加速 了我国P2P网贷行业的布局。据网贷之家最新统计数据,截至2016年 12月底,我国正常运营的借贷平台数量达到了2448家,我国年网贷行 业成交量在2016年达到了20638.72亿元,相比2015年全年网贷成交量 增长了110%。
作为一个创新的金融新兴领域,P2P网络借贷行业在积极服务企业、 促进经济发展的同时,也面临着亟需解决的风险控制难题:互联网借贷 市场用户违约行为风险事件频发。2015年2月,深圳最大的P2P网贷平台 红岭创投被爆出现7000万坏账。2015年7月,具有国资背景的平台金宝曝 光某借款企业高达500万的借款项目违约不还。2016年4月,红岭创投再 次被爆有高额坏账和逾期,其中坏账5亿元,而逾期高达25亿元。屡见不 鲜的用户违约行为给平台带来了系统性的坏帐风险,严重阻碍了我国互 联网信贷行业的健康发展。如何准确识别网络借贷借款用户的违约行为 成为我国P2P互联网借贷平台建设金融监管制度革新所面临的一个重要 课题。2016年7月,工信部印发《促进中小企业发展规划(2016-2020年)》, 其中提出“大力发展中小金融机构及普惠金融,推动互联网金融规范有 序发展”。
然而,准确预测不同借款人的不同风险程度并非易事。这一方面是 由于P2P网络借贷中存在着尤为严重的信息不对称问题(Lin et al., 2013;Lee and Lee,2012;Yum etal.,2012),投资者相对于借款人 而言处于弱势地位,因为借款人本人更清楚自己的还款能力和还款意愿 (Serrano-Cinca et al.,2015)。另一方面是因为网络借贷中对借款人信誉的评估是由不具备专业审核能力的投资者来完成的,这有别于传统 金融机构,传统金融机构对借款人的审核工作是由银行或具有专业性的 金融专家完成。在P2P网络借贷中,投资者主要依据借款人在借款列表中 提供的信息来对借款人的信誉进行评估并做出投资决策(Duarte et al., 2012;Zhang et al.,2014)。Iyer指出P2P借贷中的投资者在进行借款 人的筛选时通常没有足够的经验,也没有接受过判断信誉的正式培训 (Iyer et al.,2016)。
当前对P2P网络借贷借款人违约风险识别的方法主要是基于借款人 的结构化客观数据(如借款要求、个人基础信息、借款历史记录等)来 构建各种预测模型,如Logistic模型(Serrano-Cinca et al.,2015)、 Probit模型(Dorfleitner et al.,2016;何平平etal.,2016)、Cox 比例风险回归模型(Emekter et al.,2015)。这些对借款人违约风险的 识别方法对网贷行业通过借款人的结构化信息来识别借款人的违约风险 的方法为网贷行业的风险控制做出了有益的贡献。现有的P2P网络借贷借 款人违约风险识别方法主要依据的是借款用户的客观基础数据,这与传 统金融机构对借款人信誉的审核方法一致。然而,对于信息不对称问题 尤为严重的互联网借贷行业,当前基于借款人客观基础数据的借款人违 约风险识别方法很难起到较好的分析作用,因而普遍的违约识别准确率 不高,约为60%。
发明内容
本发明的目的在于提一种识别P2P网络借贷借款人违约风险的方 法,以提高违约识别的准确率。
本发明采用了如下技术方案:
一种识别P2P网络借贷借款人违约风险的方法,其特征在于,包括 如下步骤:
步骤一,采集P2P借款申请数据信息;
步骤二,对数据进行了预处理,获得借款描述文本信息;
步骤三,对借款描述文本信息进行特征提取,提取的文本特征包括: 语言特征、词汇特征、情感特征;
步骤四,使用支持向量机分类方法,结合借款人的客观基础信息特 征,以及借款描述文本信息对P2P网络借贷的违约风险进行识别,包括 步骤:首先,将数据集中的数据按借款人的还款行为分成两类:如期还 款、违约,接着,构建SVM二分类器,调用支持向量机的训练函数对 数据进行训练;
步骤五,采用十折交叉验证进行SVM核函数参数优化:将数据集 随机分为10份,每次取9份作为训练集训练分类器,剩余的一份做验证 测试准确率检验模型的分类精度,评估参数的性能,计算预测误差平方 和,上述过程重复10次,最后把10次的预测误差平方和再做平均作为 选择最优模型结构的依据。
本发明的识别P2P网络借贷借款人违约风险的方法,还具有这样的 特征:其中,所述文本长度为:统计每一个借款申请中的借款描述的总 字数,用以表征描述内容的信息丰富度,所述可读性为:本发明采用借 款描述的平均句长来测量可读性,可读性变量的计算方法为:借款描述 的总字数除以句末标点个数。
本发明的识别P2P网络借贷借款人违约风险的方法,还具有这样的 特征:正负面情感:首先,使用广泛用于中文语料分析的软件对借款描 述进行分词,接着,采用用于中文情感分析的Hownet词典,分别计算 了借款描述中的正面情感词占比与负面情感词占比,语言强度:借鉴前 人的文本分析方法,本发明使用借款描述中出现的全角或半角感叹号的总个数来度量语言强度。
本发明的识别P2P网络借贷借款人违约风险的方法,还具有这样的 特征:其中,通过对违约借款申请中的借款描述高频词的统计来构建“违 约文本特征词频”变量,过程如下:首先,将借款描述按借款人的还款 行为分成两类,分别是如期还款和违约,其次,分别对两类文本进行分 词,使用中文语料分析的软件对借款描述进行分词,再者,对最终出现违约的借款描述中的所有词汇采用列联表的方式进行词频统计,需要统 计的词频包括以下四个数值,分别用A、B、C、D代表:①A:发生违 约的借款描述中出现该词的借款申请数,②B:在如期还款的借款描 述中出现该词的借款申请数,③C:在发生违约的借款描述中没有出 现该词的借款申请数,④D:在如期还款的借款描述中没有出现该词 的借款申请数,表1用“购房”一词举例说明了列联表在本发明中的应 用,然后,采用Robertson提出的RSV方法计算每个词的RSV,提取发 生违约的借款申请文本中的高频词构建违约文本特征词库,RSV的计算 公式为:
公式1计算的在出现违约行为的借款申请文本中的每个词汇的RSV 值,其中,A、B、C、D的含义与上文一致,在表1中进行了举例说明, 最后,统计借款描述中违约文本特征词出现的占比,作为“违约文本特 征词频”变量。
本发明的识别P2P网络借贷借款人违约风险的方法,还具有这样的 特征:步骤二中,还具有将将P2P借款申请数据信息分类为硬信息和软 信息,软信息为借款人自披露的借款描述文本信息。
本发明的识别P2P网络借贷借款人违约风险的方法,还具有这样的 特征:步骤二中,预处理除去了智能理财标、机构担保标,以及实地认 证标这三种类型的标的样本。
本发明的识别P2P网络借贷借款人违约风险的方法,还具有这样的 特征:步骤一中:采用网络爬虫工具采集P2P借款申请数据信息。
本发明的识别P2P网络借贷借款人违约风险的方法,还具有这样的 特征,还包括:步骤六:模型准确率对比。
本发明的识别P2P网络借贷借款人违约风险的方法,还具有这样的 特征:步骤二中,对数据进行预处理的方法为:①除去了不存在的借款 编号,②除去了智能理财标、机构担保标,以及实地认证标这三种类型 的标的样本,③删除了正在筹款中的借款申请,④删除了在关键变量上 存在空缺值的数据,得到信用认证标数据,⑤删除了所有筹款失败的数据,经过上述数据处理,最终得到成功标数据。
发明的有益效果
本发明的识别P2P网络借贷借款人违约风险的方法,违约识别准确 率提高了10个百分比以上,最高达73.42%。显然,本发明中基于文本 挖掘的违约风险识别方法相对于现存的当前基于借款人客观基础数据的 借款人违约风险识别算法有更高的识别准确率。
同时,算法寻优适应度曲线表明本发明提出的基于文本挖掘的违约 风险识别方法可以提高整体适应度。
本发明为P2P网络借贷中借款人违约风险的识别提供了一种有效的 新方法,该方法可为互联网借贷平台借款用户信用风险的预测与控制提 供有力的支持,具有重要现实应用价值。
附图说明
图1是基于文本挖掘的P2P网络借贷借款人违约风险识别流程图。
图2是编号为9的实验组的算法寻优适应度的变化。
具体实施方式
以下结合附图来说明本发明的具体实施方式。
对于信息不对称问题尤为严重的互联网借贷行业,当前基于借款人 客观基础数据的借款人违约风险识别方法很难起到较好的分析作用,本 发明提出的基于文本挖掘的违约风险识别方法相对于现存的当前基于借 款人客观基础数据进行的违约风险识别算法有更高的准确率。具体的借 款人违约风险识别流程如图1所示。
步骤S1,使用网络爬虫工具采集了人人贷平台(http://renrendai.com) 2013.1~2015.1两年期间的所有借款申请数据,一共493,888条借款申 请。本发明将爬取的借款列表信息分为硬信息与软信息两大类,这种分 类广泛应用于P2P网络借贷领域。借款列表中有关借款人的硬信息包括 四类:①借款信息,包括:借款利率、借款金额、借款期限。②个人基 础信息,包括信用等级、性别、年龄、婚姻状况、学历等。③历史借款 信息,包括:申请借款次数、成功借款次数、逾期次数、严重逾期次数。 ④13类认证材料,包括:信用认证、身份认证、学历认证、工作认证、 职称认证、收入认证、房产认证、车产认证、婚姻认证、居住地认证、 视频认证、手机认证、微博认证。借款列表中的软信息具体指借款人自 披露的借款描述文本信息。
步骤S2,对数据进行预处理:①除去了不存在的借款编号,例如编 号79574。②除去智能理财标、机构担保标,以及实地认证标这三种类型 的标的样本。人人贷网站的标的类型分为四种:信用认证标、实地认证 标、机构担保标、智能理财标。其中,实地认证标与机构担保标相对信 用认证标增添了机构的认证审核,较之于信用认证标更有保障更安全。且实地认证标、机构担保标的借款描述是由机构代填,并非借款人本人 填写。因此,本发明剔除了这两种类型的标的样本,此外,智能理财标 是对平台理财产品的投资,而非对借款人的投资,因此也不适合于本发 明的数据范畴。③删除了正在筹款中的借款申请,因为此类申请最后的 筹款成功或者筹款失败的状态不明。④删除了在关键变量上存在空缺值 的数据。得到信用认证标数据为368,583条。⑤删除了所有筹款失败的数 据,经过上述数据处理,最终得到14819条成功标数据。
步骤S3,在对现有文本分析方法进行梳理的基础上,本发明从语言 特征、词汇特征、情感特征三个维度对借款描述文本进行特征提取。提 取的文本特征包括:“文本长度”、“可读性”、“正负面情感”、“语言强度”、 “违约文本特征词频”(smoke word)变量。
步骤S4,借助支持向量机(Support Vector Machine,SVM)分类方 法,结合借款人的客观基础信息特征,以及在上一步中提取到的借款描 述文本变量对P2P网络借贷的违约风险进行识别。首先,将数据集中的 数据按借款人的还款行为分成两类:如期还款、违约。接着,构建SVM 二分类器,调用支持向量机的训练函数对数据进行训练。
步骤S5,采用十折交叉验证(10-fold cross-validation)进行SVM核 函数参数优化,提高测试集合的预测准确性。将数据集随机分为10份, 每次取9份作为训练集训练分类器,剩余的一份做验证测试准确率检验模 型的分类精度,评估参数的性能,计算预测误差平方和,上述过程重复10次。最后把10次的预测误差平方和再做平均作为选择最优模型结构的 依据。
借款描述文本信息特征构建
现有的文本分析方法对文本特征变量的提取主要包括以下几类:① 词汇特征。统计名词、命名实体等不同“Bag-of-Words”类的词频,②文 本特征。统计总字数、平均句长、段落平均句子个数、单词平均长度等 特征,③社交特征。统计发贴个数、评论个数、用户可信度、专业性、 社会影响力等特征,④情感特征。统计词、句或整个文档的主观性、正 面情感、负面情感,⑤特征词汇。提取在某一类文本中出现的高频词汇 构建特征词库,进一步统计分类样本中出现该词库中词汇的词频⑥产品 特征。通过人工贴标签的方式,为与产品相关的文本数据标注具体类型 与水平值。
不同领域文本分析方法为本发明对P2P网络借贷中借款描述文本特 征的构建提供了思路。考虑P2P实验数据的样本量、中文语料、借款描 述语境等特点,本发明从语言特征、词汇特征、情感特征三个维度对借 款描述文本进行了特征提取。本发明中提取的文本特征包括:“文本长 度”、“可读性”、“正负面情感”、“语言强度”、“违约文本特征词频”变量。各文本特征变量的提取方法如下:
(1)文本长度:统计每一个借款申请中的借款描述的总字数,用以 表征描述内容的信息丰富度。
(2)可读性:本发明采用借款描述的平均句长来测量可读性。可读 性变量的计算方法为:借款描述的总字数除以句末标点个数。
(3)正负面情感:首先,使用广泛用于中文语料分析的Chinese version ofLinguistic Inquiry and Word Count(CLIWC)软件对借款描述进 行分词。接着,采用广泛用于中文情感分析的Hownet词典分别计算了 借款描述中的正面情感词占比(PositiveSentimen)与负面情感词占比 (PositiveSentiment)。
(4)语言强度:借鉴前人的文本分析方法,本发明使用借款描述中 出现的全角或半角感叹号的总个数来度量语言强度。
(5)违约文本特征词频:通过对违约借款申请中的借款描述高频词 的统计来构建“违约文本特征词频”变量。过程如下:首先,将借款描 述按借款人的还款行为(如期还款/违约)分成两类。其次,分别对两类 文本进行分词。本发明使用广泛用于中文语料分析的Chinese version of Linguistic Inquiry andWord Count(CLIWC)软件对借款描述进行分词。再 者,对最终出现违约的借款描述中的所有词汇采用列联表的方式进行词 频统计。需要统计的词频包括以下四个数值,分别用A、B、C、D代表: ①A:发生违约的借款描述中出现该词的借款申请数②B:在如期还款 的借款描述中出现该词的借款申请数③C:在发生违约的借款描述中 没有出现该词的借款申请数④D:在如期还款的借款描述中没有出现 该词的借款申请数。表1用“购房”一词举例说明了列联表在本发明中 的应用。然后,采用RSV(Robertson’s Selection Value)方法计算每个词 的RSV,提取发生违约的借款申请文本中的高频词构建违约文本特征词 库。RSV的计算公式为:
公式1计算的在出现违约行为的借款申请文本中的每个词汇的RSV 值,其中,A、B、C、D的含义与上文一致,在表1中进行了举例说明。 最后,统计借款描述中违约文本特征词出现的占比,作为“违约文本特 征词频”变量。
表1 列联表描述举例——以“购房”一词为例
说明:“购房”一词出现记为“1”,未出现标记为“0”。A代表在发生违约的借款描述中出 现该词的借款申请数,B代表在如期还款的借款描述中出现该词的借款申请数,C代表在发生违 约的借款描述中没有出现该词的借款申请数,D在如期还款的借款描述中没有出现该词的借款申 请数,A+C代表发生违约行为的总借款申请数,B+D代表如期还款的总借款申请数。N=A+B+C+D, 代表总样本数量。
借款人违约风险识别模型
本发明借助支持向量机(Support Vector Machine,SVM)分类方法, 在借款人的客观基础信息特征的基础上,新增了从语言特征、词汇特征、 情感特征三个维度提取的借款描述文本特征(包括“文本长度”、“可读 性”、“正负面情感”、“语言强度”、“违约文本特征词频”)对P2P借款 人违约风险进行识别。将现有方法中采用结构化数据进行的违约风险识别结果,与新增借款描述文本信息变量后的识别结果进行比较,检验了 本发明提出的基于文本挖掘的违约风险识别方法的有用性。本发明采用 SVM方法对P2P网络借贷中借款人违约风险的识别问题进行了分析。由 于对P2P网络借贷中借款人违约风险的识别重点在于违约风险的提示, 因此本发明在实验设计过程中尽可能地减少将风险个体识别为非风险个体的概率,故在建模中以违约风险识别的准确性作为对分类模型的主要 评价指标,同时兼顾了对非违约个体的识别错误率。
SVM由Cortes&Vapnik在1995年提出。SVM主要思想是通过建立 一个分类超平面作为决策曲面,最大化正例和反例之间的隔离边缘。 SVM可用于非线性回归分析,在处理非线性问题时,SVM把原问题空 间中的训练样本变成特征空间中线性可分的训练样本。运用一个核函数 K来代替高维空间中的内积运算,将非线性问题转化为高维空间的线性 运算问题。径向基核函数(Radial Basis Function简称RBF)在支撑向量机 中应用最广,本发明采用基于径向基的核函数进行回归预测。在使用RBF 时需要调优的参数有两个:核函数参数γ和误差惩罚因子c,这两个参数 的选择对SVM模型的精度有较大影响。核函数参数γ定义了单个样本对 整个分类超平面的影响。当γ比较大时,单个样本对整个分类超平面的 影响比较小,不容易被选择为支持向量,整个模型的支持向量也会少。 反之,当γ比较小时,单个样本对整个分类超平面的影响比较大,更容 易被选择为支持向量。误差惩罚因子c在优化函数里起到平衡SVM的复 杂度和误分类率两者之间关系的作用。当c比较大时,会选择较多的样 本来做支持向量,支持向量和超平面的模型会变得复杂,容易过拟合。 而当c比较小时,最终的支持向量和超平面的模型也会简单。因此,需 要找到最优化参数组(γ,c)使SVM具有最好的精度。
本发明采用十折交叉验证(10-fold cross-validation)进行SVM核函 数参数优化。交叉验证法可以有效地避免过学习和欠学习状态的发生, 计算精度较高。十折交叉验证获取参数过程如下:首先,将数据集随机 分为10份。然后,每次取9份作为训练集训练分类器,剩余的一份做验 证测试准确率检验模型的分类精度,评估参数的性能,计算预测误差平 方和。接着,将上述过程重复10次。最后,把10次的预测误差平方和 再做平均作为选择最优模型结构的依据。在上述十折交叉验证寻优完毕 后,利用最佳参数对应的模型训练SVM用于借款人违约风险的识别性 测试。
步骤S6,实验结果分析及对比
实验环境的软硬件条件如下:Windows7操作系统、4G运存、1.9GHz CPU、MATLAB2014a、LibSVM软件包。本发明分别采用借款人的客观 基础信息特征,以及新增借款描述文本特征进行了违约风险识别。表2 中列出了十折交叉验证实验组按照最优参数配置最终得到的最佳参数, 以及违约风险评估准确率。表2中的组(1)代表采用借款人的结构化数 据进行的违约风险识别准确率结果,组(2)代表采用结合结构化数据与 借款描述文本特征进行的违约风险识别准确率结果。
表2 SVM参数寻优十折交叉验证实验数据表
说明:采用十折交叉验证进行SVM核函数参数优化。γ代表核函数参数,c代表误差惩罚 因子c。
从表2中组(1)的实验结果可知,基于借款人结构化数据进行的违 约风险评估准确率最高可达到59.97%(编号为8的实验组)。然而,在 增加借款描述文本特征之后,10折交叉验证实验组的违约风险评估准确 率均提高至70%以上,最低为71.33%(编号为1的实验组),最高达到 73.42%(编号为9的实验组)。
进一步用matlab跟踪编号为9的实验组的算法寻优适应度的变化, 图2绘制了该实验组的算法寻优适应度曲线。图中横坐标代表循环次数, 纵坐标代表了适应度算法值。图中实线代表基于结构化数据的算法适应 度曲线,虚线代表新增借款描述文本特征之后的算法适应度曲线。
Claims (9)
1.一种识别P2P网络借贷借款人违约风险的方法,其特征在于,包括如下步骤:
步骤一,采集P2P借款申请数据信息;
步骤二,对数据进行了预处理,获得借款描述文本信息;
步骤三,对借款描述文本信息进行特征提取,提取的文本特征包括:(1)文本长度,(2)可读性,(3)正负面情感,(4)语言强度,(5)违约文本特征词频变量,
步骤四,使用支持向量机分类方法,结合借款人的客观基础信息特征,以及借款描述文本信息对P2P网络借贷的违约风险进行识别,包括步骤:首先,将数据集中的数据按借款人的还款行为分成两类:如期还款、违约,接着,构建SVM二分类器,调用支持向量机的训练函数对数据进行训练;
步骤五,采用十折交叉验证进行SVM核函数参数优化:将数据集随机分为10份,每次取9份作为训练集训练分类器,剩余的一份做验证测试准确率检验模型的分类精度,评估参数的性能,计算预测误差平方和,上述过程重复10次,最后把10次的预测误差平方和再做平均作为选择最优模型结构的依据。
2.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法,其特征在于:
其中,所述文本长度为:统计每一个借款申请中的借款描述的总字数,用以表征描述内容的信息丰富度,
所述可读性为:本发明采用借款描述的平均句长来测量可读性,可读性变量的计算方法为:借款描述的总字数除以句末标点个数。
3.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法,其特征在于:
正负面情感:首先,使用广泛用于中文语料分析的软件对借款描述进行分词,接着,采用用于中文情感分析的Hownet词典,分别计算了借款描述中的正面情感词占比与负面情感词占比,
语言强度:借鉴前人的文本分析方法,本发明使用借款描述中出现的全角或半角感叹号的总个数来度量语言强度。
4.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法,其特征在于:
其中,通过对违约借款申请中的借款描述高频词的统计来构建“违约文本特征词频”变量,过程如下:首先,将借款描述按借款人的还款行为分成两类,分别是如期还款和违约,其次,分别对两类文本进行分词,使用中文语料分析的软件对借款描述进行分词,再者,对最终出现违约的借款描述中的所有词汇采用列联表的方式进行词频统计,需要统计的词频包括以下四个数值,分别用A、B、C、D代表:①A:发生违约的借款描述中出现该词的借款申请数,②B:在如期还款的借款描述中出现该词的借款申请数,③C:在发生违约的借款描述中没有出现该词的借款申请数,④D:在如期还款的借款描述中没有出现该词的借款申请数,表1用“购房”一词举例说明了列联表在本发明中的应用,然后,采用Robertson提出的RSV方法计算每个词的RSV,提取发生违约的借款申请文本中的高频词构建违约文本特征词库,RSV的计算公式为:
<mrow>
<mi>R</mi>
<mi>S</mi>
<mi>V</mi>
<mo>=</mo>
<mi>A</mi>
<mi> </mi>
<mi>log</mi>
<mfrac>
<mrow>
<mi>A</mi>
<mo>&times;</mo>
<mi>D</mi>
</mrow>
<mrow>
<mi>B</mi>
<mo>&times;</mo>
<mi>C</mi>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
公式1计算的在出现违约行为的借款申请文本中的每个词汇的RSV值,其中,A、B、C、D的含义与上文一致,在表1中进行了举例说明,最后,统计借款描述中违约文本特征词出现的占比,作为“违约文本特征词频”变量。
5.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法,其特征在于:
步骤二中,还具有将P2P借款申请数据信息分类为硬信息和软信息的步骤,软信息为借款人自披露的借款描述文本信息。
6.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法,其特征在于:
步骤二中,预处理除去了智能理财标、机构担保标,以及实地认证标这三种类型的标的样本。
7.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法,其特征在于:
步骤一中:采用网络爬虫工具采集P2P借款申请数据信息。
8.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法,其特征在于,还包括:
步骤六:模型准确率对比。
9.如权利要求1所述的识别P2P网络借贷借款人违约风险的方法,其特征在于:
步骤二中,对数据进行预处理的方法为:①除去了不存在的借款编号,②除去了智能理财标、机构担保标,以及实地认证标这三种类型的标的样本,③删除了正在筹款中的借款申请,④删除了在关键变量上存在空缺值的数据,得到信用认证标数据,⑤删除了所有筹款失败的数据,经过上述数据处理,最终得到成功标数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711229175.XA CN108009911A (zh) | 2017-11-29 | 2017-11-29 | 一种识别p2p网络借贷借款人违约风险的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711229175.XA CN108009911A (zh) | 2017-11-29 | 2017-11-29 | 一种识别p2p网络借贷借款人违约风险的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108009911A true CN108009911A (zh) | 2018-05-08 |
Family
ID=62055011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711229175.XA Pending CN108009911A (zh) | 2017-11-29 | 2017-11-29 | 一种识别p2p网络借贷借款人违约风险的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108009911A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471934A (zh) * | 2018-10-09 | 2019-03-15 | 杭州安恒信息技术股份有限公司 | 基于互联网的金融风险线索发掘方法 |
CN110288459A (zh) * | 2019-04-24 | 2019-09-27 | 武汉众邦银行股份有限公司 | 贷款预测方法、装置、设备及存储介质 |
CN110415111A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达系统工程股份有限公司 | 基于用户数据与专家特征合并逻辑回归信贷审批的方法 |
CN111275541A (zh) * | 2020-01-14 | 2020-06-12 | 中信百信银行股份有限公司 | 基于多维度信息的借款人质量评价方法、系统、电子设备及计算机可读存储介质 |
CN111583012A (zh) * | 2020-03-23 | 2020-08-25 | 北京航空航天大学 | 融合文本信息的信用债发债主体违约风险评估方法 |
CN112053219A (zh) * | 2020-08-06 | 2020-12-08 | 百维金科(上海)信息科技有限公司 | 一种基于ocsvm的消费金融欺诈行为检测方法 |
CN112182020A (zh) * | 2020-09-25 | 2021-01-05 | 国家计算机网络与信息安全管理中心 | 金融行为识别与分类的方法、装置及计算机可读存储介质 |
CN113222743A (zh) * | 2021-06-07 | 2021-08-06 | 浙江财经大学 | 基于因子得分K-Means聚类的网贷借款者信用评级方法 |
CN113792935A (zh) * | 2021-09-27 | 2021-12-14 | 武汉众邦银行股份有限公司 | 小微企业信贷违约概率预测方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104616198A (zh) * | 2015-02-12 | 2015-05-13 | 哈尔滨工业大学 | 一种基于文本分析的p2p网络借贷风险预测系统 |
CN106611375A (zh) * | 2015-10-22 | 2017-05-03 | 北京大学 | 一种基于文本分析的信用风险评估方法及装置 |
CN106779755A (zh) * | 2016-12-31 | 2017-05-31 | 湖南文沥征信数据服务有限公司 | 一种网络电商借贷风险评估方法及模型 |
KR20170100114A (ko) * | 2016-02-25 | 2017-09-04 | 김해동 | 담보물 가치 상승에 따른 수익 배분 조건부 p2p 담보 대출 금융 기술 서비스 방법 및 그 장치 |
-
2017
- 2017-11-29 CN CN201711229175.XA patent/CN108009911A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104616198A (zh) * | 2015-02-12 | 2015-05-13 | 哈尔滨工业大学 | 一种基于文本分析的p2p网络借贷风险预测系统 |
CN106611375A (zh) * | 2015-10-22 | 2017-05-03 | 北京大学 | 一种基于文本分析的信用风险评估方法及装置 |
KR20170100114A (ko) * | 2016-02-25 | 2017-09-04 | 김해동 | 담보물 가치 상승에 따른 수익 배분 조건부 p2p 담보 대출 금융 기술 서비스 방법 및 그 장치 |
CN106779755A (zh) * | 2016-12-31 | 2017-05-31 | 湖南文沥征信数据服务有限公司 | 一种网络电商借贷风险评估方法及模型 |
Non-Patent Citations (3)
Title |
---|
JING-TI HAN: "The persuasion of borrowers" voluntary information in peer to peer lending: An empirical study based on elaboration likelihood model", 《COMPUTERS IN HUMAN BEHAVIOR》 * |
崔文倩: "P2P网络借贷平台研究", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 * |
郭永济: "P2P网络借贷的借款人信用评价研究", 《中国博士学位论文全文数据库 经济与管理科学辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471934A (zh) * | 2018-10-09 | 2019-03-15 | 杭州安恒信息技术股份有限公司 | 基于互联网的金融风险线索发掘方法 |
CN109471934B (zh) * | 2018-10-09 | 2021-08-17 | 杭州安恒信息技术股份有限公司 | 基于互联网的金融风险线索发掘方法 |
CN110288459A (zh) * | 2019-04-24 | 2019-09-27 | 武汉众邦银行股份有限公司 | 贷款预测方法、装置、设备及存储介质 |
CN110415111A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达系统工程股份有限公司 | 基于用户数据与专家特征合并逻辑回归信贷审批的方法 |
CN111275541A (zh) * | 2020-01-14 | 2020-06-12 | 中信百信银行股份有限公司 | 基于多维度信息的借款人质量评价方法、系统、电子设备及计算机可读存储介质 |
CN111583012A (zh) * | 2020-03-23 | 2020-08-25 | 北京航空航天大学 | 融合文本信息的信用债发债主体违约风险评估方法 |
CN112053219A (zh) * | 2020-08-06 | 2020-12-08 | 百维金科(上海)信息科技有限公司 | 一种基于ocsvm的消费金融欺诈行为检测方法 |
CN112182020A (zh) * | 2020-09-25 | 2021-01-05 | 国家计算机网络与信息安全管理中心 | 金融行为识别与分类的方法、装置及计算机可读存储介质 |
CN112182020B (zh) * | 2020-09-25 | 2023-04-18 | 国家计算机网络与信息安全管理中心 | 金融行为识别与分类的方法、装置及计算机可读存储介质 |
CN113222743A (zh) * | 2021-06-07 | 2021-08-06 | 浙江财经大学 | 基于因子得分K-Means聚类的网贷借款者信用评级方法 |
CN113792935A (zh) * | 2021-09-27 | 2021-12-14 | 武汉众邦银行股份有限公司 | 小微企业信贷违约概率预测方法、装置、设备及存储介质 |
CN113792935B (zh) * | 2021-09-27 | 2024-04-05 | 武汉众邦银行股份有限公司 | 小微企业信贷违约概率预测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108009911A (zh) | 一种识别p2p网络借贷借款人违约风险的方法 | |
Wang et al. | Mining semantic soft factors for credit risk evaluation in peer-to-peer lending | |
Ma et al. | Financial credit risk prediction in internet finance driven by machine learning | |
Li et al. | Media-aware quantitative trading based on public Web information | |
WO2017067153A1 (zh) | 基于文本分析的信用风险评估方法及装置、存储介质 | |
CN106779755A (zh) | 一种网络电商借贷风险评估方法及模型 | |
Chen | Classifying credit ratings for Asian banks using integrating feature selection and the CPDA-based rough sets approach | |
Liang et al. | Analyzing credit risk among Chinese P2P-lending businesses by integrating text-related soft information | |
CN108961032A (zh) | 借贷处理方法、装置以及服务器 | |
CN110415111A (zh) | 基于用户数据与专家特征合并逻辑回归信贷审批的方法 | |
CN108492001A (zh) | 一种用于担保贷款网络风险管理的方法 | |
Liu et al. | Technology and cryptocurrency valuation: Evidence from machine learning | |
CN110084609B (zh) | 一种基于表征学习的交易欺诈行为深度检测方法 | |
Moreno-Moreno et al. | Success factors in peer-to-business (P2B) crowdlending: A predictive approach | |
Meoli et al. | Machine-learning forecasting of successful ICOs | |
Lai et al. | Incorporating comment text into success prediction of crowdfunding campaigns | |
Tian et al. | Data-driven approaches in FinTech: a survey | |
Wang et al. | Transferable adversarial examples can efficiently fool topic models | |
Abualigah et al. | Fake news detection using recurrent neural network based on bidirectional LSTM and GloVe | |
Liu et al. | An innovative model fusion algorithm to improve the recall rate of peer-to-peer lending default customers | |
Sapkota et al. | Fear sells: determinants of fund-raising success in the cross-section of initial coin offerings | |
Si et al. | Can readability of loan description affect loan success rate and loan cost?: A textual analysis of P2P loan description | |
Wang et al. | Feature engineering for credit risk evaluation in online P2P lending | |
Zheng et al. | Imbalanced problem in initial coin offering fraud detection | |
Li et al. | Textual analysis and detection of financial fraud: Evidence from Chinese manufacturing firms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180508 |