CN104616198A - 一种基于文本分析的p2p网络借贷风险预测系统 - Google Patents

一种基于文本分析的p2p网络借贷风险预测系统 Download PDF

Info

Publication number
CN104616198A
CN104616198A CN201510076663.6A CN201510076663A CN104616198A CN 104616198 A CN104616198 A CN 104616198A CN 201510076663 A CN201510076663 A CN 201510076663A CN 104616198 A CN104616198 A CN 104616198A
Authority
CN
China
Prior art keywords
text
emotion
loaning bill
module
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510076663.6A
Other languages
English (en)
Other versions
CN104616198B (zh
Inventor
叶强
郭雷
张紫琼
张自立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Institute of artificial intelligence Co.,Ltd.
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201510076663.6A priority Critical patent/CN104616198B/zh
Publication of CN104616198A publication Critical patent/CN104616198A/zh
Application granted granted Critical
Publication of CN104616198B publication Critical patent/CN104616198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

一种基于文本分析的P2P网络借贷风险预测系统,涉及一种P2P网络借贷的风险预测系统。本发明包括:平台数据采集模块;文本特征提取模块;风险预测模型搭建、训练模块;风险预测模块。本发明风险预测系统的文本特征提取模块对平台数据采集模块中获取的“借款描述文本”进行词语切分并根据停用词列表去除没有实际含义的词语,同时负责提取借款描述文本包含的情感特征S,主题特征T和可读性特征R;然后搭建和训练风险预测模型;最后将新借款列表的情感特征S,主题特征T和可读性特征R和平台数据采集模块中的用户基本数据、用户信用数据、借款列表数据共同作为输入变量输入风险预测模型,最终得到风险预测结果。本发明适用于P2P网络借贷风险预测。

Description

一种基于文本分析的P2P网络借贷风险预测系统
技术领域
本发明涉及一种P2P网络借贷的风险预测系统。
背景技术
随着互联网技术在金融领域的深入应用,出现了一种通过网络实现个体和个体之间直接借贷的金融模式,称为P2P网络借贷(peer-to-peer lending)。P2P网络借贷运营商提供网络平台(如拍拍贷、人人贷等)撮合借方和贷方达成交易。借款人可在平台上填写个人信息,说明借款理由,生成借款列表并等待投资人进行投标选择。投资人则可根据借款人提供的借款相关信息决定是否进行投标。作为传统金融模式的补充,P2P网络借贷可以进一步满足长尾用户的投融资需求。
然而,由于国内征信系统不完善,现有的P2P网络借贷模式仍然面临着信息不对称问题。违约风险控制成为P2P网络借贷模式的重要议题。通常,借款人会在借款列表中提供一段借款理由描述文本来说明借款用途和还款能力。而现有的风险预测系统主要结合借款人还款记录,个人负债,信用历史,个人信息等多维度的数据来预测借款列表的逾期率,并未分析借款列表中的借款理由描述文本。所以现有的风险预测系统预测准确率不高,网络借贷平台还需要投入大量人工力量对借款列表进行审核。同时,投资人也需要投入大量的搜索成本去寻找符合自身风险偏好的借款列表。
发明内容
本发明为了解决现有的风险预测系统预测准确率不高的问题。
一种基于文本分析的P2P网络借贷风险预测系统,包括:
平台数据采集模块,用于自动采集P2P网络借贷平台中的用户数据和交易数据,包括用户基本数据,用户信用数据,借款列表数据,借款描述文本,借款偿还情况;
文本特征提取模块,用于获取的平台数据采集模块中“借款描述文本”并进行词语切分并根据停用词列表去除没有实际含义的词语,同时负责提取借款描述文本包含的语义特征,包括情感特征S,主题特征T和可读性特征R;
风险预测模型搭建、训练模块,用于搭建和训练风险预测模型;
风险预测模块,用于预测、输出新借款列表的风险情况。
本发明风险预测系统的文本特征提取模块将获取的平台数据采集模块中“借款描述文本”并进行词语切分并根据停用词列表去除没有实际含义的词语,同时负责提取借款描述文本包含的情感特征S,主题特征T和可读性特征R;然后将这些语义特征也作为输入变量输入风险预测模型,这样把借款描述文本的信息融入了系统,增加了系统的预测的准确性,相比现有的风险预测系统,预测的准确率提高了15%以上。
本发明的人工情感标注子模块进行人工标注的时候需要人工参与,剩下均有计算机完成,而且只要风险预测模型搭建训练完毕,新借款列表的风险预测均由风险预测模型完成,能够有效降低网络借贷平台对借款列表的审核时间,能够有效提高P2P网络借贷平台的整体运营效率。
附图说明
图1为本发明的预测系统各个模块的结构关系图;
图2为情感特征S提取、存储子模块的各个子模块与词语切分子模块及风险预测模型搭建子模块的结构关系图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,
平台数据采集模块,用于自动采集P2P网络借贷平台中的用户数据和交易数据,包括用户基本数据,用户信用数据,借款列表数据,借款描述文本,借款偿还情况;
文本特征提取模块,用于获取的平台数据采集模块中“借款描述文本”并进行词语切分并根据停用词列表去除没有实际含义的词语,同时负责提取借款描述文本包含的语义特征,包括情感特征S,主题特征T和可读性特征R;
风险预测模型搭建、训练模块,用于搭建和训练风险预测模型;
风险预测模块,用于预测、输出新借款列表的风险情况。
具体实施方式二:本实施方式
所述的文本特征提取模块,包括:
词语切分子模块,用于获取的平台数据采集模块中“借款描述文本”并进行词语切分并根据停用词列表去除没有实际含义的词语;
情感特征S提取、存储子模块,用于提取、存储借款描述文本情感特征S;
主题特征T提取、存储子模块,通过LDA主题生成模型计算出每个借款描述文本中的主题概率分布P(主题|文本),存储为借款描述文本的主题特征T;
可读性特征R提取、存储子模块,首先统计所有借款描述文本中每个词语出现的次数,然后统计出当前借款描述文本中所出现的词语,计算当前借款描述文本中每个词语在所有借款描述文本中出现的次数的总和,并以C=(出现的次数的总和/当前借款描述文本中所出现的词语个数)作为当前借款描述文本中所出现的词语的平均出现次数,存储为前借款描述文本的可读性特征R。
其它步骤与具体实施方式一相同。
具体实施方式三:本实施方式,结合图2说明本实施方式,
所述情感特征S提取子模块,包括
人工情感标注子模块,随机提取借款描述文本并输出显示,供用户进行人工情感标注:褒义、中性和贬义,分别以1,0和-1标记;并将已进行人工情感标注的借款描述文本分为情感标注训练集和情感标注测试集;
计算机情感分类子模块,提取人工情感标注子模块中的情感标注训练集数据,根据情感标注训练集的人工情感标注分别计算出1,0和-1(褒义、中性和贬义)三种情感类别中各词语集合出现的次数;以此为基础,计算出情感标注测试集中的每个借款描述文本在1,0和-1(褒义、中性和贬义)三种情感类别中的概率;将概率最大时所对应的类别作为情感标注测试集中借款描述文本对应的情感类别进行存储;
情感比对子模块,提取计算机情感分类子模块中存储的借款描述文本对应的情感类别,将其与人工情感标注进行比对,计算出两种标注方法的匹配度;若匹配度不能满足情感分类需求,则返回人工情感标注子模块进行调整优化,直到筛选出能够准确进行情感分类的提取借款描述文本情感特征的分类器;
计算机情感标注子模块,提取情感比对子模块中的提取借款描述文本情感特征的分类器对所有的借款描述文本进行标注1、0或-1,存储为借款描述文本情感特征S。
其它步骤与具体实施方式一至二相同。
具体实施方式四:本实施方式
所述的风险预测模型搭建、训练模块,包括:
风险预测模型搭建子模块,以平台数据采集模块中的户基本数据,用户信用数据,借款列表数据以及文本特征提取模块中的情感特征S,主题特征T和可读性特征R作为输入变量,以平台数据采集模块中的借款偿还情况为输出变量,搭建风险预测模型;
风险预测模型训练子模块,利用支持向量机对风险预测模型进行训练,采用M折交叉验证,反复优化运算,筛选出满足预测需求的风险预测模型。
其它步骤与具体实施方式一至三相同。
具体实施方式五:本实施方式
所述的风险预测模块,通过新借款列表数据提取子模块调用平台数据采集模块和文本特征提取模块,生成新借款列表的用户基本数据、用户信用数据、借款列表数据、情感特征S、主题特征T和可读性特征R,将新借款列表的用户基本数据、用户信用数据、借款列表数据、情感特征S、主题特征T和可读性特征R输入风险预测模型;最后通过风险预测模型输出新借款列表的风险。
其它步骤与具体实施方式一至四相同。

Claims (5)

1.一种基于文本分析的P2P网络借贷风险预测系统,其特征在于该系统包括:
平台数据采集模块,用于自动采集P2P网络借贷平台中的用户数据和交易数据,包括用户基本数据,用户信用数据,借款列表数据,借款描述文本,借款偿还情况;
文本特征提取模块,用于获取的平台数据采集模块中“借款描述文本”并进行词语切分并根据停用词列表去除没有实际含义的词语,同时负责提取借款描述文本包含的语义特征,包括情感特征S,主题特征T和可读性特征R;
风险预测模型搭建、训练模块,用于搭建和训练风险预测模型;
风险预测模块,用于预测、输出新借款列表的风险情况。
2.根据权利要求1所述的一种基于文本分析的P2P网络借贷风险预测系统,其特征在于,
所述的文本特征提取模块,包括:
词语切分子模块,用于获取的平台数据采集模块中“借款描述文本”并进行词语切分并根据停用词列表去除没有实际含义的词语;
情感特征S提取、存储子模块,用于提取、存储借款描述文本情感特征S;
主题特征T提取、存储子模块,通过LDA主题生成模型计算出每个借款描述文本中的主题概率分布P(主题|文本),存储为借款描述文本的主题特征T;
可读性特征R提取、存储子模块,首先统计所有借款描述文本中每个词语出现的次数,然后统计出当前借款描述文本中所出现的词语,计算当前借款描述文本中每个词语在所有借款描述文本中出现的次数的总和,并以C=(出现的次数的总和/当前借款描述文本中所出现的词语个数)作为当前借款描述文本中所出现的词语的平均出现次数,存储为前借款描述文本的可读性特征R。
3.根据权利要求2所述的一种基于文本分析的P2P网络借贷风险预测系统,其特征在于,
所述情感特征S提取子模块,包括
人工情感标注子模块,随机提取借款描述文本并输出显示,供用户进行人工情感标注:褒义、中性和贬义,分别以1,0和-1标记;并将已进行人工情感标注的借款描述文本分为情感标注训练集和情感标注测试集;
计算机情感分类子模块,提取人工情感标注子模块中的情感标注训练集数据,根据情感标注训练集的人工情感标注分别计算出1,0和-1三种情感类别中各词语集合出现的次数;以此为基础,计算出情感标注测试集中的每个借款描述文本在1,0和-1三种情感类别中的概率;将概率最大时所对应的类别作为情感标注测试集中借款描述文本对应的情感类别进行存储;
情感比对子模块,提取计算机情感分类子模块中存储的借款描述文本对应的情感类别,将其与人工情感标注进行比对,计算出两种标注方法的匹配度;若匹配度不能满足情感分类需求,则返回人工情感标注子模块进行调整优化,直到筛选出能够准确进行情感分类的提取借款描述文本情感特征的分类器;
计算机情感标注子模块,提取情感比对子模块中的提取借款描述文本情感特征的分类器对所有的借款描述文本进行标注1、0或-1,存储为借款描述文本情感特征S。
4.根据权利要求1、2或3所述的一种基于文本分析的P2P网络借贷风险预测系统,其特征在于,
所述的风险预测模型搭建、训练模块,包括:
风险预测模型搭建子模块,以平台数据采集模块中的户基本数据,用户信用数据,借款列表数据以及文本特征提取模块中的情感特征S,主题特征T和可读性特征R作为输入变量,以平台数据采集模块中的借款偿还情况为输出变量,搭建风险预测模型;
风险预测模型训练子模块,利用支持向量机对风险预测模型进行训练,采用M折交叉验证,反复优化运算,筛选出满足预测需求的风险预测模型。
5.根据权利要求4所述的一种基于文本分析的P2P网络借贷风险预测系统,其特征在于,
所述的风险预测模块,通过新借款列表数据提取子模块调用平台数据采集模块和文本特征提取模块,生成新借款列表的用户基本数据、用户信用数据、借款列表数据、情感特征S、主题特征T和可读性特征R,将新借款列表的用户基本数据、用户信用数据、借款列表数据、情感特征S、主题特征T和可读性特征R输入风险预测模型;最后通过风险预测模型输出新借款列表的风险。
CN201510076663.6A 2015-02-12 2015-02-12 一种基于文本分析的p2p网络借贷风险预测系统 Active CN104616198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510076663.6A CN104616198B (zh) 2015-02-12 2015-02-12 一种基于文本分析的p2p网络借贷风险预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510076663.6A CN104616198B (zh) 2015-02-12 2015-02-12 一种基于文本分析的p2p网络借贷风险预测系统

Publications (2)

Publication Number Publication Date
CN104616198A true CN104616198A (zh) 2015-05-13
CN104616198B CN104616198B (zh) 2018-01-26

Family

ID=53150631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510076663.6A Active CN104616198B (zh) 2015-02-12 2015-02-12 一种基于文本分析的p2p网络借贷风险预测系统

Country Status (1)

Country Link
CN (1) CN104616198B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512938A (zh) * 2016-02-03 2016-04-20 宜人恒业科技发展(北京)有限公司 一种基于用户长期使用行为的在线信用风险评估方法
CN106296195A (zh) * 2015-05-29 2017-01-04 阿里巴巴集团控股有限公司 一种风险识别方法及装置
WO2017067153A1 (zh) * 2015-10-22 2017-04-27 腾讯科技(深圳)有限公司 基于文本分析的信用风险评估方法及装置、存储介质
CN106934413A (zh) * 2015-12-31 2017-07-07 阿里巴巴集团控股有限公司 模型训练方法、装置及系统以及样本集优化方法、装置
CN106934480A (zh) * 2015-12-29 2017-07-07 平安科技(深圳)有限公司 投保等级分析方法、服务器及终端
CN107885754A (zh) * 2016-09-30 2018-04-06 阿里巴巴集团控股有限公司 基于lda模型从交易数据中提取信用变量的方法和装置
CN108009911A (zh) * 2017-11-29 2018-05-08 上海出版印刷高等专科学校 一种识别p2p网络借贷借款人违约风险的方法
CN108074071A (zh) * 2016-11-18 2018-05-25 腾讯科技(深圳)有限公司 一种项目数据处理方法及装置
CN108280766A (zh) * 2017-01-06 2018-07-13 阿里巴巴集团控股有限公司 交易行为风险识别方法及装置
CN108961032A (zh) * 2017-05-25 2018-12-07 腾讯科技(深圳)有限公司 借贷处理方法、装置以及服务器
CN109472277A (zh) * 2017-09-08 2019-03-15 上海对外经贸大学 借贷方分类的方法、装置以及存储介质
CN109784897A (zh) * 2018-12-28 2019-05-21 易票联支付有限公司 一种跨境结算系统及方法
CN112102076A (zh) * 2020-11-09 2020-12-18 成都数联铭品科技有限公司 一种平台综合风险预警系统
CN117788136A (zh) * 2023-11-24 2024-03-29 浙江孚临科技有限公司 一种基于区块链和舆情的金融风控系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819576A (zh) * 2012-07-23 2012-12-12 无锡雅座在线科技发展有限公司 一种基于微博的数据挖掘方法及系统
CN103345688A (zh) * 2013-07-05 2013-10-09 倪慎瑜 一种基于情绪和信用的双反馈信用评估系统和评估方法
CN103646343A (zh) * 2013-12-18 2014-03-19 世纪禾光科技发展(北京)有限责任公司 一种基于文本的商品分类处理方法及其系统
CN103886501A (zh) * 2014-04-08 2014-06-25 苏州大学 一种基于语义情感分析的贷后风险预警系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819576A (zh) * 2012-07-23 2012-12-12 无锡雅座在线科技发展有限公司 一种基于微博的数据挖掘方法及系统
CN103345688A (zh) * 2013-07-05 2013-10-09 倪慎瑜 一种基于情绪和信用的双反馈信用评估系统和评估方法
CN103646343A (zh) * 2013-12-18 2014-03-19 世纪禾光科技发展(北京)有限责任公司 一种基于文本的商品分类处理方法及其系统
CN103886501A (zh) * 2014-04-08 2014-06-25 苏州大学 一种基于语义情感分析的贷后风险预警系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
叶强: "面向互联网评论情感分析的中文主观性自动判别方法研究", 《信息系统学报》 *
张紫琼等: "互联网商品评论情感分析研究综述", 《管理科学学报》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296195A (zh) * 2015-05-29 2017-01-04 阿里巴巴集团控股有限公司 一种风险识别方法及装置
WO2017067153A1 (zh) * 2015-10-22 2017-04-27 腾讯科技(深圳)有限公司 基于文本分析的信用风险评估方法及装置、存储介质
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
US11164075B2 (en) 2015-10-22 2021-11-02 Tencent Technology (Shenzhen) Company Limited Evaluation method and apparatus based on text analysis, and storage medium
CN106934480A (zh) * 2015-12-29 2017-07-07 平安科技(深圳)有限公司 投保等级分析方法、服务器及终端
CN106934413B (zh) * 2015-12-31 2020-10-13 阿里巴巴集团控股有限公司 模型训练方法、装置及系统以及样本集优化方法、装置
CN106934413A (zh) * 2015-12-31 2017-07-07 阿里巴巴集团控股有限公司 模型训练方法、装置及系统以及样本集优化方法、装置
CN105512938A (zh) * 2016-02-03 2016-04-20 宜人恒业科技发展(北京)有限公司 一种基于用户长期使用行为的在线信用风险评估方法
CN107885754A (zh) * 2016-09-30 2018-04-06 阿里巴巴集团控股有限公司 基于lda模型从交易数据中提取信用变量的方法和装置
CN107885754B (zh) * 2016-09-30 2021-06-22 创新先进技术有限公司 基于lda模型从交易数据中提取信用变量的方法和装置
CN108074071A (zh) * 2016-11-18 2018-05-25 腾讯科技(深圳)有限公司 一种项目数据处理方法及装置
CN108074071B (zh) * 2016-11-18 2021-06-18 腾讯科技(深圳)有限公司 一种项目数据处理方法及装置
CN108280766A (zh) * 2017-01-06 2018-07-13 阿里巴巴集团控股有限公司 交易行为风险识别方法及装置
CN108961032A (zh) * 2017-05-25 2018-12-07 腾讯科技(深圳)有限公司 借贷处理方法、装置以及服务器
CN109472277A (zh) * 2017-09-08 2019-03-15 上海对外经贸大学 借贷方分类的方法、装置以及存储介质
CN108009911A (zh) * 2017-11-29 2018-05-08 上海出版印刷高等专科学校 一种识别p2p网络借贷借款人违约风险的方法
CN109784897A (zh) * 2018-12-28 2019-05-21 易票联支付有限公司 一种跨境结算系统及方法
CN112102076A (zh) * 2020-11-09 2020-12-18 成都数联铭品科技有限公司 一种平台综合风险预警系统
CN117788136A (zh) * 2023-11-24 2024-03-29 浙江孚临科技有限公司 一种基于区块链和舆情的金融风控系统

Also Published As

Publication number Publication date
CN104616198B (zh) 2018-01-26

Similar Documents

Publication Publication Date Title
CN104616198A (zh) 一种基于文本分析的p2p网络借贷风险预测系统
TWI712981B (zh) 風險辨識模型訓練方法、裝置及伺服器
CN104915879B (zh) 基于金融数据的社会关系挖掘的方法及装置
CN110458693A (zh) 一种企业贷款自动审批方法、装置、存储介质及电子设备
CN108665159A (zh) 一种风险评估方法、装置、终端设备及存储介质
CN106600369A (zh) 基于朴素贝叶斯分类的银行金融产品实时推荐系统和方法
CN108898476A (zh) 一种贷款客户信用评分方法和装置
CN107704512A (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN108961032A (zh) 借贷处理方法、装置以及服务器
CN112037038B (zh) 银行信贷风险预测方法及装置
CN108256098A (zh) 一种确定用户评论情感倾向的方法及装置
CN110472806A (zh) 金融信评系统与方法
CN110796539A (zh) 一种征信评估方法及装置
CN108648072A (zh) 基于用户信用动态评分的互联网金融放贷风险评估系统
CN110046345A (zh) 一种数据提取方法和装置
CN111062602A (zh) 企业信用风险评估的方法、装置及存储介质
CN110097460A (zh) 一种信用风险评估方法
CN113450158A (zh) 银行活动信息推送方法及装置
CN110738565A (zh) 基于数据集合的房产金融人工智能复合风控模型
CN109918639A (zh) 一种基于深度学习技术和规则库的银行授信文本解析方法
CN113421154B (zh) 基于控制图的信贷风险评估方法及系统
CN112037049B (zh) 银行卡收费方法及装置
CN111667307B (zh) 一种理财产品销量的预测方法及装置
CN108256667A (zh) 资产数据处理方法、装置、存储介质和计算机设备
CN113240513A (zh) 一种用户授信额度的确定方法和相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210407

Address after: Room 206-10, building 16, 1616 Chuangxin Road, Songbei District, Harbin City, Heilongjiang Province

Patentee after: Harbin jizuo technology partnership (L.P.)

Patentee after: Harbin Institute of Technology Asset Management Co.,Ltd.

Address before: 150001 No. 92 West straight street, Nangang District, Heilongjiang, Harbin

Patentee before: HARBIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210610

Address after: Room 206-12, building 16, 1616 Chuangxin Road, Songbei District, Harbin City, Heilongjiang Province

Patentee after: Harbin Institute of Technology Institute of artificial intelligence Co.,Ltd.

Address before: Room 206-10, building 16, 1616 Chuangxin Road, Songbei District, Harbin City, Heilongjiang Province

Patentee before: Harbin jizuo technology partnership (L.P.)

Patentee before: Harbin Institute of Technology Asset Management Co.,Ltd.