CN109191276B - 一种基于强化学习的p2p网络借贷机构风险评估方法 - Google Patents

一种基于强化学习的p2p网络借贷机构风险评估方法 Download PDF

Info

Publication number
CN109191276B
CN109191276B CN201810789859.3A CN201810789859A CN109191276B CN 109191276 B CN109191276 B CN 109191276B CN 201810789859 A CN201810789859 A CN 201810789859A CN 109191276 B CN109191276 B CN 109191276B
Authority
CN
China
Prior art keywords
reinforcement learning
model
sample
value
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810789859.3A
Other languages
English (en)
Other versions
CN109191276A (zh
Inventor
李蕾
吕月
赵天远
王涛
谢旸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201810789859.3A priority Critical patent/CN109191276B/zh
Publication of CN109191276A publication Critical patent/CN109191276A/zh
Application granted granted Critical
Publication of CN109191276B publication Critical patent/CN109191276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于强化学习的P2P网络借贷机构风险评估方法,属于网络大数据处理及电子信息技术领域。包括:首先,采集P2P网贷企业的公司简介文本信息,进行分词;然后,对所有文档的词,使用信息增益提取关键词;其次,使用Max‑min ACLA算法构造强化学习模型;在强化学习模型的训练过程中,采用动态改变权重的方法更新样本权重;最后,利用训练好的强化学习模型对待评估机构进行风险评估。本发明采用了强化学习模型来解决文本分类数据少且数据不平衡的问题,同时通过动态更新样本权重的方法加快模型训练的收敛速度,节省了大量时间,使其具有更强的实用性。本发明针对公司简介文本提取关键词特征,非常易于实现。

Description

一种基于强化学习的P2P网络借贷机构风险评估方法
技术领域
本发明涉及网络大数据处理及电子信息技术,具体涉及一种基于强化学习的P2P网络借贷机构风险评估方法。
背景技术
P2P(Peer-to-peer,个人对个人或是伙伴对伙伴)网络借贷是指通过在线服务向个人或企业贷款,它向借贷者直接匹配贷款人,通过网上交易,P2P网贷使得无需通过任何传统的金融中介机构的微型金融成为可能[1]。近年来,P2P网络借贷在全球尤其是中国发展迅速,其中,P2P网络借贷机构为借款人和贷款人提供交易平台[2]。自2008年第一个中国P2P平台—拍拍贷成立以来,越来越多的P2P网络借贷公司涌现出来。根据第三方网络借贷平台网贷之家(http://shuju.wdzj.com/industry-list.html,简称“HNL”)的统计,已经有超过4000家中国P2P网贷公司。但随着P2P借贷公司的快速发展,这些公司的风险也逐渐暴露出来。例如,宣称用户数超过2亿,营业额超过500亿的钱宝网在2017年8月坐实跑路。P2P网络借贷机构的风险通常会给投资人造成一些损失。因此,加强对这些机构的监督和实现风险的自动评估是很有必要的。
在网络大数据时代,由于数据量很大,并且非结构化的自然语言文本信息很多,传统的数据收集和分析方法用于监管和风险分析,不仅耗时费力,并且无法适应数据的增长速度。因此,探索使用机器学习[3]的方法完成基于非结构化自然语言文本信息的企业风险的自动评估具有重要的理论意义和应用价值。此外,P2P网络借贷是一种新型的金融业务模式,目前可用的数据较少,且各类数据不平衡,未来将继续增长和变化,传统的监督学习方法无法很好的适应。在机器学习、深度学习领域,与其它技术相比,强化学习具有对环境先验知识要求低、自学习能力强等特点,使其成为近几年十分热门的一个分支。尽管强化学习在很多领域应用中已经取得了突破性的进展,但在企业风险评估分析方面的应用却很少见到。
目前为止,关于P2P风险方面的研究主要集中在如何评估借款人的信用风险和违约风险[4],只有较少的研究涉及P2P中介机构风险[5]。而机器学习在金融风险评估方面的应用还处于初期阶段,Bao等[6]利用LDA主题模型在公司年度报告的文字风险披露中发现和量化风险类型;Yuan等[7]使用潜在语义模型预测众筹项目的筹资结果。
强化学习已经应用在很多领域,如机器人的智能学习[8]、自动化控制[9]、游戏比赛[10]等。而在金融领域,对强化学习的研究主要集中在股票市场,Deng等提出了一种深度强化学习框架来进行金融信号处理和在线交易。
通过以上研究发现,P2P网络借贷的问题主要是缺乏对平台风险的关注以及缺乏自动风险评估方法。传统评估方法多是基于各种数值型结构化数据进行的,就P2P网络借贷风险评估这个问题,通过调查发现,有一个重要的问题就是数据受限,全国只有这些数据,不同风险类别之间数据极不平衡,随着时间的推移,很多公司的风险状况会很快发生改变,甚至倒闭。这就要求评估方法不能太受数据影响,具有较好的泛化能力,但这些恰是传统基于机器学习的分类方法的弱点,传统方法更多依赖于数据量和特征抽取。
参考文献:
[1]Hongke Zhao,Yong Ge,Qi Liu,et al.P2P Lending Survey:Platforms,Recent Advances and Prospects[J].Acm Transactions on Intelligent Systems&Technology,2017,8(6):72.
[2]O Havrylchyk,M Verdier.The Financial Intermediation Role of theP2P Lending Platforms[J].Comparative Economic Studies,2018(3):1-16.
[3]Mitchell,T.M.:Machine Learning,1st edn.McGraw-Hill Inc.,New York(1997)
[4]Emekter R,Tu Y,Jirasakuldech B,et al.Evaluating credit risk andloan performance in online Peer-to-Peer(P2P)lending[J].Applied Economics,2015,47(1):54-70.
[5]Yan Y,Lv Z,Hu B.Building investor trust in the P2P lendingplatform with a focus on Chinese P2P lending platforms[J].Electronic CommerceResearch,2017(2):1-22.
[6]Bao Y,Datta A,Science M.Simultaneously Discovering and QuantifyingRisk Types from Textual Risk Disclosures[J].Management Science,2014,60(6):1371-1391.
[7]Yuan H,Lau R Y K,Xu W.The determinants of crowdfunding success:Asemantic text analytics approach[J].Decision Support Systems,2016,91:67-76.
[8]Cui Y,Matsubara T,Sugimoto K.Kernel dynamic policy programming:Applicable reinforcement learning to robot systems with high dimensionalstates.[J].Neural Networks the Official Journal of the International NeuralNetwork Society,2017,94:13.
[9]Kang D H,Bong J H,Park J,et al.Reinforcement Learning Strategy forAutomatic Control of Real-time Obstacle Avoidance based on Vehicle Dynamics[J].Journal of Korea Robotics Society,2017,12(3):297-305.
[10]Andrade G,Ramalho G,Santana H,et al.Extending ReinforcementLearning to Provide Dynamic Game Balancing[C]//The Workshop on IJCAI Workshopon Reasoning.2005:7-12.
发明内容
本发明针对目前P2P网络借贷风险评估存在的数据有限,需要一种泛化能力好的分类方法的问题,提供了一种基于强化学习的P2P网络借贷机构风险评估方法。本发明采用强化学习模型来评估P2P网络借贷风险,并针对强化学习模型的训练很耗时的问题,提出一种动态更新样本权重的方法,以加快模型训练过程使其更快地收敛。
本发明的一种基于强化学习的P2P网络借贷机构风险评估方法,包括如下步骤:
步骤1,采集P2P网贷企业的公司简介文本信息,进行分词;
步骤2,对所有文档的词,使用信息增益提取关键词,设选定m个关键词,为每篇文档构造一个m维的特征向量;特征向量中的每一维代表了所对应的关键词在文档中是否出现,若出现,则取值为1,否则取值为0;m为正整数;
步骤3,使用Max-min ACLA算法构造强化学习模型;
所述的强化学习模型中,将文档的特征向量作为输入向量,将P2P网贷企业的风险类别作为目标类别,为每个目标类别构建一个代理agent,每个agent接收三个桶作为状态向量,每个桶的大小与输入向量相同,第一个桶是输入向量的副本,第二个桶初始化为零向量,第三个桶初始化为输入向量;
步骤4,在强化学习模型的训练过程中,采用动态改变权重的方法更新样本权重;
所述的动态改变权重的方法是:当前迭代到设定次数时,计算当前模型的正确率acccur,与上次更新权重时的模型正确率accpre比较,若accpre-acccur>5%,则将样本权重重新被设置成相同的,否则,样本权重继续按照之前的策略更新;
步骤5,利用训练好的强化学习模型对待评估机构进行风险评估;提取待评估机构的公司简介文本信息,进行分词,为评估机构构造步骤2所述的m维的特征向量,将该特征向量输入训练好的强化学习模型,获得风险评估结果。
本发明的优点与积极效果在于:本发明提出了一种新颖的强化学习方法来自动地评估P2P网络借贷机构的风险,采用了强化学习模型来解决文本分类数据少且数据不平衡的问题,实验结果显示本发明方法较传统的机器学习方法相比有较好的效果,同时不需要进行欠采样等处理就可以解决数据不平衡的问题,评估结果比较准确,对投资者和监管者具有一定的参考价值。除此之外,本发明提出的动态更新样本权重的方法可以大大加快模型训练的收敛速度,节省了大量时间,使其具有更强的实用性。并且,本发明针对公司简介文本提取关键词特征,非常易于实现。
附图说明
图1是本发明的P2P网络借贷机构风险评估方法的实现框架示意图;
图2是本发明采用基础强化学习模型实验结果示意图;
图3是本发明在采用更新样本权重实验结果的示意图;
图4是本发明采用动态更新样本权重实验结果示意图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明采用的基于强化学习的P2P网络借贷机构风险评估方法,更加注重非结构化数据,目前只针对公司简介这样的文本内容进行了处理,希望从中挖掘更多的语义信息来进行风险评估。针对数据有限,不同风险类别之间数据极不平衡的问题,本发明找到了强化学习方法,实验发现该方法具有应对上述问题的潜力。对目前文献调研,当前强化学习在游戏、对话这种互动型任务中应用普遍,但在文本分类中的应用很少,主要原因在于对于任务的描述比较困难,状态、动作与环境这些基本元素的描述都是困难的。本发明找到了一种可用的方法,对在多次真实数据的实验的基础上,创新地提供了一种动态更新样本权重的方法,解决强化学习过程太慢的问题,实验证明,可以将强化学习时间缩短十倍,性能仍然能够保持较高的水平。
本发明提出的风险评估方法,整体实现框架如图1所示,根据网贷之家的统计,P2P网贷机构风险主要可分为四种:正常、跑路、提现困难和停业。风险评估的实质就是将P2P企业分到这四类中的一类。下面对实现的流程进行详细说明。
步骤一,数据收集及预处理。
原始数据是通过爬虫从网贷之家上爬取的,包含P2P网贷企业的众多文本及数值信息,本发明主要使用公司简介这一文本信息。首先,对公司简介使用结巴分词工具包进行分词处理,然后,进行去停用词、词频统计等预处理。
结巴分词工具包参见网页https://pypi.python.org/pypi/jieba/。
步骤二,特征提取。本发明方法主要使用的是关键词特征,使用信息增益来提取关键词。
首先,对所有文档的词,计算每个词的信息增益值,并根据信息增益值排序,选出值较高的一些关键词。预设一个变量m,m为正整数,选取所有文档组成的词中信息增益最大的前m个词作为关键词。然后,在选定m个关键词后,为每篇文档构造一个m维的特征向量。在本发明方法中,将m从10取到60来确定最优的取值,对于一篇文档的m维特征向量,每一维代表了这一维对应的关键词在这篇文档中是否出现,若出现,则这一维值为1,否则值为0。一个企业的公司简介文本信息为一篇文档,对应有一个m维特征向量。
步骤三,模型构建。本发明使用Max-min ACLA(actor-critic learningautomaton)算法来构造基础的强化学习模型,该算法是ACLA算法的一个延展,它结合了多层感知机(MLP)并且能够解决分类问题。
假设数据集D={(x1,y1),(x2,y2),…,(xn,yn)},包含n个样本,其中xi为第i个样本的特征向量,yi是它的目标类别,yi∈{0,1,…,N-1},N是类别总数,本发明N是4,分别代表四种P2P网贷机构风险。Max-min ACLA算法为每个目标类别构建一个代理agent,对于每个训练样本,与该训练样本类别相同的agent会选择动作来使它获得的奖励最大化,而具有其他类别的agent会选择动作来使它获得的奖励最小化。每个agent接收三个桶作为状态向量,每个桶的大小与输入向量xi相同。第一个桶是xi的副本,这样agent就可以知道原始输入;第二个桶初始化为零向量,这些零可以被agent设置成输入向量的副本;第三个桶初始化为输入向量并且可以被agent设置成0。该算法的马尔科夫决策过程(MDP)如下定义:
状态集S:通常是连续的,对于长度为m的输入向量xi,状态si∈S包含3m个元素。这些元素被分成三个桶,st表示单次迭代中t时刻的状态向量,对于输入向量xi,初始状态
Figure BDA0001734551070000051
Figure BDA0001734551070000052
其中三个桶的大小均为m。
动作集A:共有2m个动作,每个动作可设置其对应的桶元素的值,at表示t时刻选择的动作。
包含多个操作O(s,a)的转移函数集合T:下一时刻状态st+1=O(st,at),其中操作O按如下规则执行动作:如果动作满足0≤at<m,那么将第(m+at)个桶元素设置成输入向量的第at个元素的值;如果动作满足m≤at<2m,那么将第(m+at)个桶元素设置成0。
即时奖励R:它与状态向量中0的个数有关,t时刻的即时奖励
Figure BDA0001734551070000053
其中z表示状态向量中0的个数。
折扣因子γ。
单次迭代中,执行动作的次数h。
用来说明agent的代表类别与训练样本的类别是否相同的标记,该标记决定了agent应该最大化还是最小化它的即时奖励。
在训练过程中,agent与训练样本进行交互,每个agent执行h个动作,并且从观察到的状态转移和获得的即时奖励中学习。状态值函数(critic)和挑选动作的功能函数(actor)分别使用一个不同的MLP来表示。为了减少参数的数量,将两个MLP的隐含层节点个数和学习速率设成相同的,其中隐含层节点个数为11,学习速率为0.03。假设Vj(·)表示类别j的agent ACj的值函数,ACj在状态st执行完动作后,将收到(st,at,rt,st+1),使用TDerrorδt来更新值函数Vj(st):
δt=rt+γVj(st+1)-Vj(st)
Vj(st)=Vj(st)+αδt
其中,α是critic的学习速率,若样本类别y=j,则ACj选择动作的MLP的目标值为:
Figure BDA0001734551070000054
这样,ACj可以最大化即时奖励来学习更高的状态值函数。若样本类别y≠j,则ACj选择动作的MLP的目标值为:
Figure BDA0001734551070000055
这样,对于类别不相同的样本,ACj将会得到负的即时奖励,并且这些奖励将会TD(Temporal-difference)学习传递给初始状态的值函数。
在测试阶段,agent不需要选择动作。首先对所有类别j的ACj计算值函数Vj(s0),输入样本将会被预测为具有最大值函数的agent代表的类别yp
Figure BDA0001734551070000061
步骤四,模型改进。
实验结果显示由于多层感知机的引入,强化学习模型的训练过程比其他算法慢了很多。为了加速模型的训练,本发明借鉴了AdaBoost算法[参考文献11:
Figure BDA0001734551070000063
G,Onoda T,Müller K R.Soft Margins for AdaBoost[J].Machine Learning,2001,42(3):287-320.]中改变样本权重的方法,即在之前的学习中被错误分类的样本的权重会更大。在本发明方法中,所有样本权重初始化为相同的,然后每20000次迭代,更新一次样本权重。实验结果显示该方法可以加速模型的训练,但模型的正确率在到达峰值后会开始下降。因此,本发明改进了该方法,提出了一种动态改变权重的方法,即在更新权重之前,比较当前模型的正确率acccur和上次更新权重时模型的正确率accpre,若accpre-acccur>5%,则样本权重重新被设置成相同的,否则,样本权重继续按照之前的策略更新。
动态更新样本权重的算法伪代码如下:
Figure BDA0001734551070000062
上面动态更新样本权重的过程中,初始化样本的权重为相同的,均为1/n;当前迭代达到20000次时,计算当前模型的正确率acccur,与上次更新权重时的模型正确率accpre比较,若accpre-acccur>5%,则样本权重重新被设置成相同的,均为1/n。否则,样本权重继续按照之前的策略更新,计算当前模型的错误率errorrate,上面I(yi≠y(xi))表示模型的预测结果与真实结果不同的样本个数,设置
Figure BDA0001734551070000071
更新第i个样本的权重为
Figure BDA0001734551070000072
在更新完样本权重后,将accpre更新为当前模型的正确率acccur的值。
步骤五,风险评估。在构建强化学习模型后,使用提取的关键词特征来进行风险评估。
下面通过实验来验证本发明方法。
实验设计:本发明使用公司简介信息来进行P2P网贷企业风险评估。实验数据规模如表1所示,可以看出数据量较小且各类数据较不平衡。实验中将数据按照7∶3的比例分为训练集和测试集,每类数据大体上保持了在总体数据中所占的比例。在分类中,0代表正常,1代表停业,2代表提现困难,3代表跑路。
表1实验数据规模
类别 数量
正常(0) 1849
停业(1) 1263
提现困难(2) 595
跑路(3) 847
总体 4554
首先使用基础的强化学习模型和关键词特征来对P2P网贷机构进行分类,然后使用通过更改样本权重改进的强化学习模型重新进行实验。除此之外,实验中还使用了传统的有监督机器学习方法做相同的实验来进行对比,如支持向量机(SVM)、逻辑回归(LR)、MLP、朴素贝叶斯和决策树。
本发明使用的效果衡量指标定义如下:
Accuracy=(TP+TN)/(TP+FP+TN+FN)×100%
Precision=TP/(TP+FP)×100%
Recall=TP/(TP+FN)×100%
F1=(2×Precision×Recall)/(Precision+Recall)
其中,TP表示被正确分类的正例的数量,FP表示被错误分类的负例的数量,TN表示被正确分类的负例的数量,FN表示被错误分类的正例的数量。上面四个指标值越高代表效果越好。
上述效果衡量指标可参见参考文件12:[12]Deng Y,Bao F,Kong Y,et al.DeepDirect Reinforcement Learning for Financial Signal Representation andTrading.[J].IEEE Transactions on Neural Networks&Learning Systems,2016,28(3):653-664.
实验结果说明如下:
(1)使用基础的强化学习模型实验:不同关键词个数实验的训练集正确率结果如图2所示,其中横轴表示迭代次数,纵轴表示正确率,不同颜色的曲线表示不同的关键词个数。模型收敛后测试集的最优结果(关键词个数为40时取得最优解)如表2所示。
表2测试集最优结果
类别 Precision Recall F1-score 数量
0 0.8313 0.9319 0.8787 513
1 0.6640 0.6693 0.6667 400
2 0.7447 0.4046 0.5243 198
3 0.6582 0.6724 0.6652 256
avg 0.7451 0.7491 0.7395 1367
从表2可以看出,提现困难(2)一类的准确率比停业(1)和跑路(3)的准确率高,这说明本发明提出的强化学习模型较少受到数据不平衡的影响并且能够正确识别出数量较少一类的样本,而常见的有监督机器学习算法,如决策树、逻辑回归等,通常对数据不平衡较为敏感。然而,如图2所示,本模型需要训练几十万次才会收敛,使得模型的效率不高。因此,为了解决这个问题,利用本发明提出了更改样本权重的方法,并用改进的强化学习模型重新实验。图2~图4中,横坐标表示训练次数times,纵坐标表示模型正确率accuracy,图中的每条线型代表关键词个数m的取值,依次取值为10,20,30,40,50和60。
(2)更新样本权重的改进强化学习模型实验:首先,本发明尝试每20000次迭代更新一次样本权重,即增加被错误分类样本的权重,使其在下次迭代中被选中的概率增大。训练集的正确率如图3所示。
可以看出,在更新样本权重之后,收敛的速度比之前快了很多。但是最高正确率比之前稍低了一些并且随着迭代次数的不断增加正确率开始下降。出现这一现象的原因可能是在更新样本权重的过程中,某些样本的权重不断的增加,导致模型大多数情况下只训练这部分样本。为了避免这一问题,本发明尝试调整策略,来动态的更新样本权重并且重新进行实验。
动态更新样本权重的改进强化学习模型实验:不同于上个实验,本实验计算当前模型的正确率acccur并在更新样本权重之前将其记录下来,如果上次更新前的正确率accpre-acccur>5%,那么样本权重重新被设置成相等的,否则,样本权重按照之前的策略更新。训练集正确率如图4所示。
实验结果显示,正确率下降的现象得到了缓解并且正确率也比按照同一策略更新样本权重的实验高了一些。同时,模型的收敛速度比基础强化学习模型快了很多,同时也比按照同一策略更新样本权重的模型快。
(3)使用传统有监督机器学习方法的对比实验:除了上述本发明提出的三种模型,还使用几种传统的机器学习算法做了相同的实验。结果如表3所示,RL表示强化学习模型。本发明选择准确率作为主要的衡量标准,以更加有把握的找出有风险的机构并降低误判的风险。
表3不同模型的准确率
Figure BDA0001734551070000091
实验结果显示强化学习模型优于大多数传统机器学习模型。虽然动态更新样本权重的强化学习模型的准确率稍低于基础强化学习模型,但它节省了大量的时间,更加具有实用性。对于一般模型,准确率受到数据不平衡的影响,数据量大的类别准确率高,数据量小的类别准确率低。对于本发明数据量小的应用场景,本发明所提供的模型较少受到数据不平衡的影响,使得数据量小的类别准确率与数据量大的类别准确率相差不大,同时总体准确率达到平均以上的水平。
显然,所描述的实施例也仅仅是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (5)

1.一种基于强化学习的P2P网络借贷机构风险评估方法,其特征在于,包括如下步骤:
步骤1,采集P2P网贷企业的公司简介文本信息,进行分词;
步骤2,对所有文档的词,使用信息增益提取关键词,设选定m个关键词,为每篇文档构造一个m维的特征向量;特征向量中的每一维代表了所对应的关键词在文档中是否出现,若出现,则取值为1,否则取值为0;m为正整数;
步骤3,使用Max-min ACLA算法构造强化学习模型;ACLA代表actor-critic learningautomaton;Max-min代表最大最小原则;
所述的强化学习模型中,将文档的特征向量作为输入向量,将P2P网贷企业的风险类别作为目标类别,为每个目标类别构建一个代理agent,每个agent接收三个桶作为状态向量,每个桶的大小与输入向量相同,第一个桶是输入向量的副本,第二个桶初始化为零向量,第三个桶初始化为输入向量;
步骤4,在强化学习模型的训练过程中,采用动态改变权重的方法更新样本权重;
所述的动态改变权重的方法是:当前迭代到设定次数时,计算当前模型的正确率acccur,与上次更新权重时的模型正确率accpre比较,若accpre-acccur>5%,则将样本权重重新被设置成相同的,否则,样本权重继续按照之前的策略更新;
上面动态更新样本权重的过程中,初始化样本的权重为相同的,均为1/n;当前迭代达到20000次时,计算当前模型的正确率acccur,与上次更新权重时的模型正确率accpre比较,若accpre-acccur>5%,则样本权重重新被设置成相同的,均为1/n;否则,样本权重继续按照之前的策略更新,计算当前模型的错误率errorrate,设I(yi≠y(xi))表示模型的预测结果与真实结果不同的样本个数,设置
Figure FDA0003204512050000011
更新第i个样本的权重为
Figure FDA0003204512050000012
在更新完样本权重后,将accpre更新为当前模型的正确率acccur的值;
步骤5,利用训练好的强化学习模型对待评估机构进行风险评估;
提取待评估机构的公司简介文本信息,进行分词,为评估机构构造步骤2所述的m维的特征向量,将该特征向量输入训练好的强化学习模型,获得风险评估结果。
2.根据权利要求1所述的方法,其特征在于,所述的步骤2中,m的取值范围为10~60。
3.根据权利要求1所述的方法,其特征在于,所述的步骤3中,强化学习的马尔科夫决策过程中,包括:
状态集S,其中的st表示单次迭代中t时刻的状态向量,每个状态向量包含3m个元素,3m个元素被分成三个桶,三个桶的大小均为m,初始状态
Figure FDA0003204512050000013
xi代表文档的特征向量,i为输入向量编号;
动作集A,其中共有2m个动作,每个动作设置为所对应的桶元素的值,设at表示t时刻选择的动作;
转移函数集合T,包含多个操作O(s,a),下一时刻状态st+1=O(st,at),其中操作O按如下规则执行动作:如果动作满足0≤at<m,那么将第(m+at)个桶元素设置成输入向量的第at个元素的值;如果动作满足m≤at<2m,那么将第(m+at)个桶元素设置成0;
即时奖励R,它与状态向量中0的个数有关,t时刻的即时奖励
Figure FDA0003204512050000021
其中z表示状态向量中0的个数;
折扣因子γ;
单次迭代中,执行动作的次数h,
用来说明agent的代表类别与训练样本的类别是否相同的标记,该标记决定了agent最大化还是最小化它的即时奖励。
4.根据权利要求1所述的方法,其特征在于,所述的步骤4中,强化学习模型在训练过程中,agent与训练样本进行交互,每个agent执行h个动作,并且从观察到的状态转移和获得的即时奖励中学习;状态值函数和挑选动作的功能函数使用两个不同的多层感知机MLP来表示;为了减少参数的数量,将两个MLP的隐含层节点个数和学习速率设成相同的;设Vj(·)表示类别j的agent ACj的状态值函数,ACj在状态st执行完动作后,将收到(st,at,rt,st+1),使用TD error δt来更新值函数Vj(st):
δt=rt+γVj(st+1)-Vj(st)
Vj(st)=Vj(st)+αδt
其中,ACj表示类别j的代理agent;st表示t时刻的状态向量,st+1表示t+1时刻的状态向量,at表示t时刻选择的动作,rt表示t时刻的即时奖励;δt表示TD error;γ表示折扣因子;α是critic的学习速率,若样本类别y=j,则ACj选择动作的MLP的目标值G为:
Figure FDA0003204512050000022
若样本类别y≠j,则ACj选择动作的MLP的目标值G为:
Figure FDA0003204512050000023
在测试阶段,agent不需要选择动作,对所有类别j的ACj计算值函数Vj(s0),输入样本将被预测为具有最大值函数的agent代表的类别yp,yp=arg maxjVj(s0),arg maxjVj(s0)是求取值函数Vj(s0)最大值对应的类别j。
5.根据权利要求1所述的方法,其特征在于,所述的步骤4中,设置当前迭代到20000次时,动态更新样本权重。
CN201810789859.3A 2018-07-18 2018-07-18 一种基于强化学习的p2p网络借贷机构风险评估方法 Active CN109191276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810789859.3A CN109191276B (zh) 2018-07-18 2018-07-18 一种基于强化学习的p2p网络借贷机构风险评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810789859.3A CN109191276B (zh) 2018-07-18 2018-07-18 一种基于强化学习的p2p网络借贷机构风险评估方法

Publications (2)

Publication Number Publication Date
CN109191276A CN109191276A (zh) 2019-01-11
CN109191276B true CN109191276B (zh) 2021-10-29

Family

ID=64936224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810789859.3A Active CN109191276B (zh) 2018-07-18 2018-07-18 一种基于强化学习的p2p网络借贷机构风险评估方法

Country Status (1)

Country Link
CN (1) CN109191276B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008332B (zh) * 2019-02-13 2020-11-10 创新先进技术有限公司 通过强化学习提取主干词的方法及装置
CN110599033A (zh) * 2019-09-12 2019-12-20 辽宁工程技术大学 一种引入更新因子的采空区自燃危险动态预测方法
CN110766086B (zh) * 2019-10-28 2022-07-22 支付宝(杭州)信息技术有限公司 基于强化学习模型对多个分类模型进行融合的方法和装置
CN113298279A (zh) * 2020-02-21 2021-08-24 中国科学技术大学 一种阶段区分型众筹进度预测方法
CN116362418B (zh) * 2023-05-29 2023-08-22 天能电池集团股份有限公司 一种高端电池智能工厂应用级制造能力在线预测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798600A (zh) * 2017-12-05 2018-03-13 深圳信用宝金融服务有限公司 互联网金融小微贷款的信用风险识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10592675B2 (en) * 2016-08-22 2020-03-17 Jeff Dotson Methods and systems of assessing and managing information security risks in a computer system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798600A (zh) * 2017-12-05 2018-03-13 深圳信用宝金融服务有限公司 互联网金融小微贷款的信用风险识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Deep Direct Reinforcement Learning for Financial Signal Representation and Trading;Yue Deng等;《IEEE Transactions on Neural Networks and Learning Systems》;20160215;第28卷(第3期);第653-664页 *

Also Published As

Publication number Publication date
CN109191276A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN109191276B (zh) 一种基于强化学习的p2p网络借贷机构风险评估方法
Li et al. Risk prediction in financial management of listed companies based on optimized BP neural network under digital economy
Zhou et al. Default prediction in P2P lending from high-dimensional data based on machine learning
Fujo et al. Customer churn prediction in telecommunication industry using deep learning
Singh et al. Neural networks in data mining
US8676726B2 (en) Automatic variable creation for adaptive analytical models
WO2021164382A1 (zh) 针对用户分类模型进行特征处理的方法及装置
CN110599336B (zh) 一种金融产品购买预测方法及系统
EP4042255A1 (en) Weakly supervised multi-task learning for concept-based explainability
Purohit et al. Credit evaluation model of loan proposals for Indian Banks
Liu et al. Novel evolutionary multi-objective soft subspace clustering algorithm for credit risk assessment
CN109214444B (zh) 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
CN112016616A (zh) 一种高频金融时序序列多类别预测方法
Ramesh et al. Hybrid artificial neural networks using customer churn prediction
Bhattacharya et al. Credit risk evaluation: a comprehensive study
Owusu et al. A deep learning approach for loan default prediction using imbalanced dataset
Mohbey et al. Credit card fraud prediction using XGBoost: an ensemble learning approach
Li et al. An improved genetic-XGBoost classifier for customer consumption behavior prediction
Himani et al. A comparative study on machine learning based prediction of citations of articles
Zhang et al. Neural collaborative filtering recommendation algorithm based on popularity feature
CN114463014A (zh) 基于SVM-Xgboost的移动支付风险预警方法
Kong et al. The risk prediction of mobile user tricking account overdraft limit based on fusion model of logistic and GBDT
Sekhar et al. Training of artificial neural networks in data mining
Lv et al. A P2P Lending Agency Risk Evaluation Approach Based on RL
Xu et al. Novel Early-Warning Model for Customer Churn of Credit Card Based on GSAIBAS-CatBoost.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant