CN109191276B

CN109191276B - 一种基于强化学习的p2p网络借贷机构风险评估方法

Info

Publication number: CN109191276B
Application number: CN201810789859.3A
Authority: CN
Inventors: 李蕾; 吕月; 赵天远; 王涛; 谢旸
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2021-10-29
Anticipated expiration: 2038-07-18
Also published as: CN109191276A

Abstract

本发明提出一种基于强化学习的P2P网络借贷机构风险评估方法，属于网络大数据处理及电子信息技术领域。包括：首先，采集P2P网贷企业的公司简介文本信息，进行分词；然后，对所有文档的词，使用信息增益提取关键词；其次，使用Max‑min ACLA算法构造强化学习模型；在强化学习模型的训练过程中，采用动态改变权重的方法更新样本权重；最后，利用训练好的强化学习模型对待评估机构进行风险评估。本发明采用了强化学习模型来解决文本分类数据少且数据不平衡的问题，同时通过动态更新样本权重的方法加快模型训练的收敛速度，节省了大量时间，使其具有更强的实用性。本发明针对公司简介文本提取关键词特征，非常易于实现。

Description

一种基于强化学习的P2P网络借贷机构风险评估方法

技术领域

本发明涉及网络大数据处理及电子信息技术，具体涉及一种基于强化学习的P2P网络借贷机构风险评估方法。

背景技术

P2P(Peer-to-peer，个人对个人或是伙伴对伙伴)网络借贷是指通过在线服务向个人或企业贷款，它向借贷者直接匹配贷款人，通过网上交易，P2P网贷使得无需通过任何传统的金融中介机构的微型金融成为可能[1]。近年来，P2P网络借贷在全球尤其是中国发展迅速，其中，P2P网络借贷机构为借款人和贷款人提供交易平台[2]。自2008年第一个中国P2P平台—拍拍贷成立以来，越来越多的P2P网络借贷公司涌现出来。根据第三方网络借贷平台网贷之家(http：//shuju.wdzj.com/industry-list.html，简称“HNL”)的统计，已经有超过4000家中国P2P网贷公司。但随着P2P借贷公司的快速发展，这些公司的风险也逐渐暴露出来。例如，宣称用户数超过2亿，营业额超过500亿的钱宝网在2017年8月坐实跑路。P2P网络借贷机构的风险通常会给投资人造成一些损失。因此，加强对这些机构的监督和实现风险的自动评估是很有必要的。

在网络大数据时代，由于数据量很大，并且非结构化的自然语言文本信息很多，传统的数据收集和分析方法用于监管和风险分析，不仅耗时费力，并且无法适应数据的增长速度。因此，探索使用机器学习[3]的方法完成基于非结构化自然语言文本信息的企业风险的自动评估具有重要的理论意义和应用价值。此外，P2P网络借贷是一种新型的金融业务模式，目前可用的数据较少，且各类数据不平衡，未来将继续增长和变化，传统的监督学习方法无法很好的适应。在机器学习、深度学习领域，与其它技术相比，强化学习具有对环境先验知识要求低、自学习能力强等特点，使其成为近几年十分热门的一个分支。尽管强化学习在很多领域应用中已经取得了突破性的进展，但在企业风险评估分析方面的应用却很少见到。

目前为止，关于P2P风险方面的研究主要集中在如何评估借款人的信用风险和违约风险[4]，只有较少的研究涉及P2P中介机构风险[5]。而机器学习在金融风险评估方面的应用还处于初期阶段，Bao等[6]利用LDA主题模型在公司年度报告的文字风险披露中发现和量化风险类型；Yuan等[7]使用潜在语义模型预测众筹项目的筹资结果。

强化学习已经应用在很多领域，如机器人的智能学习[8]、自动化控制[9]、游戏比赛[10]等。而在金融领域，对强化学习的研究主要集中在股票市场，Deng等提出了一种深度强化学习框架来进行金融信号处理和在线交易。

通过以上研究发现，P2P网络借贷的问题主要是缺乏对平台风险的关注以及缺乏自动风险评估方法。传统评估方法多是基于各种数值型结构化数据进行的，就P2P网络借贷风险评估这个问题，通过调查发现，有一个重要的问题就是数据受限，全国只有这些数据，不同风险类别之间数据极不平衡，随着时间的推移，很多公司的风险状况会很快发生改变，甚至倒闭。这就要求评估方法不能太受数据影响，具有较好的泛化能力，但这些恰是传统基于机器学习的分类方法的弱点，传统方法更多依赖于数据量和特征抽取。

参考文献：

[1]Hongke Zhao,Yong Ge,Qi Liu,et al.P2P Lending Survey:Platforms,Recent Advances and Prospects[J].Acm Transactions on Intelligent Systems&Technology,2017,8(6):72.

[2]O Havrylchyk,M Verdier.The Financial Intermediation Role of theP2P Lending Platforms[J].Comparative Economic Studies,2018(3):1-16.

[3]Mitchell,T.M.:Machine Learning,1st edn.McGraw-Hill Inc.,New York(1997)

[4]Emekter R,Tu Y,Jirasakuldech B,et al.Evaluating credit risk andloan performance in online Peer-to-Peer(P2P)lending[J].Applied Economics,2015,47(1):54-70.

[5]Yan Y,Lv Z,Hu B.Building investor trust in the P2P lendingplatform with a focus on Chinese P2P lending platforms[J].Electronic CommerceResearch,2017(2):1-22.

[6]Bao Y,Datta A,Science M.Simultaneously Discovering and QuantifyingRisk Types from Textual Risk Disclosures[J].Management Science,2014,60(6):1371-1391.

[7]Yuan H,Lau R Y K,Xu W.The determinants of crowdfunding success:Asemantic text analytics approach[J].Decision Support Systems,2016,91:67-76.

[8]Cui Y,Matsubara T,Sugimoto K.Kernel dynamic policy programming:Applicable reinforcement learning to robot systems with high dimensionalstates.[J].Neural Networks the Official Journal of the International NeuralNetwork Society,2017,94:13.

[9]Kang D H,Bong J H,Park J,et al.Reinforcement Learning Strategy forAutomatic Control of Real-time Obstacle Avoidance based on Vehicle Dynamics[J].Journal of Korea Robotics Society,2017,12(3):297-305.

[10]Andrade G,Ramalho G,Santana H,et al.Extending ReinforcementLearning to Provide Dynamic Game Balancing[C]//The Workshop on IJCAI Workshopon Reasoning.2005:7-12.

发明内容

本发明针对目前P2P网络借贷风险评估存在的数据有限，需要一种泛化能力好的分类方法的问题，提供了一种基于强化学习的P2P网络借贷机构风险评估方法。本发明采用强化学习模型来评估P2P网络借贷风险，并针对强化学习模型的训练很耗时的问题，提出一种动态更新样本权重的方法，以加快模型训练过程使其更快地收敛。

本发明的一种基于强化学习的P2P网络借贷机构风险评估方法，包括如下步骤：

步骤1，采集P2P网贷企业的公司简介文本信息，进行分词；

步骤2，对所有文档的词，使用信息增益提取关键词，设选定m个关键词，为每篇文档构造一个m维的特征向量；特征向量中的每一维代表了所对应的关键词在文档中是否出现，若出现，则取值为1，否则取值为0；m为正整数；

步骤3，使用Max-min ACLA算法构造强化学习模型；

所述的强化学习模型中，将文档的特征向量作为输入向量，将P2P网贷企业的风险类别作为目标类别，为每个目标类别构建一个代理agent，每个agent接收三个桶作为状态向量，每个桶的大小与输入向量相同，第一个桶是输入向量的副本，第二个桶初始化为零向量，第三个桶初始化为输入向量；

步骤4，在强化学习模型的训练过程中，采用动态改变权重的方法更新样本权重；

所述的动态改变权重的方法是：当前迭代到设定次数时，计算当前模型的正确率acc_cur，与上次更新权重时的模型正确率acc_pre比较，若acc_pre-acc_cur>5％，则将样本权重重新被设置成相同的，否则，样本权重继续按照之前的策略更新；

步骤5，利用训练好的强化学习模型对待评估机构进行风险评估；提取待评估机构的公司简介文本信息，进行分词，为评估机构构造步骤2所述的m维的特征向量，将该特征向量输入训练好的强化学习模型，获得风险评估结果。

本发明的优点与积极效果在于：本发明提出了一种新颖的强化学习方法来自动地评估P2P网络借贷机构的风险，采用了强化学习模型来解决文本分类数据少且数据不平衡的问题，实验结果显示本发明方法较传统的机器学习方法相比有较好的效果，同时不需要进行欠采样等处理就可以解决数据不平衡的问题，评估结果比较准确，对投资者和监管者具有一定的参考价值。除此之外，本发明提出的动态更新样本权重的方法可以大大加快模型训练的收敛速度，节省了大量时间，使其具有更强的实用性。并且，本发明针对公司简介文本提取关键词特征，非常易于实现。

附图说明

图1是本发明的P2P网络借贷机构风险评估方法的实现框架示意图；

图2是本发明采用基础强化学习模型实验结果示意图；

图3是本发明在采用更新样本权重实验结果的示意图；

图4是本发明采用动态更新样本权重实验结果示意图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明采用的基于强化学习的P2P网络借贷机构风险评估方法，更加注重非结构化数据，目前只针对公司简介这样的文本内容进行了处理，希望从中挖掘更多的语义信息来进行风险评估。针对数据有限，不同风险类别之间数据极不平衡的问题，本发明找到了强化学习方法，实验发现该方法具有应对上述问题的潜力。对目前文献调研，当前强化学习在游戏、对话这种互动型任务中应用普遍，但在文本分类中的应用很少，主要原因在于对于任务的描述比较困难，状态、动作与环境这些基本元素的描述都是困难的。本发明找到了一种可用的方法，对在多次真实数据的实验的基础上，创新地提供了一种动态更新样本权重的方法，解决强化学习过程太慢的问题，实验证明，可以将强化学习时间缩短十倍，性能仍然能够保持较高的水平。

本发明提出的风险评估方法，整体实现框架如图1所示，根据网贷之家的统计，P2P网贷机构风险主要可分为四种：正常、跑路、提现困难和停业。风险评估的实质就是将P2P企业分到这四类中的一类。下面对实现的流程进行详细说明。

步骤一，数据收集及预处理。

原始数据是通过爬虫从网贷之家上爬取的，包含P2P网贷企业的众多文本及数值信息，本发明主要使用公司简介这一文本信息。首先，对公司简介使用结巴分词工具包进行分词处理，然后，进行去停用词、词频统计等预处理。

结巴分词工具包参见网页https://pypi.python.org/pypi/jieba/。

步骤二，特征提取。本发明方法主要使用的是关键词特征，使用信息增益来提取关键词。

首先，对所有文档的词，计算每个词的信息增益值，并根据信息增益值排序，选出值较高的一些关键词。预设一个变量m，m为正整数，选取所有文档组成的词中信息增益最大的前m个词作为关键词。然后，在选定m个关键词后，为每篇文档构造一个m维的特征向量。在本发明方法中，将m从10取到60来确定最优的取值，对于一篇文档的m维特征向量，每一维代表了这一维对应的关键词在这篇文档中是否出现，若出现，则这一维值为1，否则值为0。一个企业的公司简介文本信息为一篇文档，对应有一个m维特征向量。

步骤三，模型构建。本发明使用Max-min ACLA(actor-critic learningautomaton)算法来构造基础的强化学习模型，该算法是ACLA算法的一个延展，它结合了多层感知机(MLP)并且能够解决分类问题。

假设数据集D＝{(x¹,y¹),(x²,y²),…,(xⁿ,yⁿ)}，包含n个样本，其中xⁱ为第i个样本的特征向量，yⁱ是它的目标类别，yⁱ∈{0,1,…,N-1}，N是类别总数，本发明N是4，分别代表四种P2P网贷机构风险。Max-min ACLA算法为每个目标类别构建一个代理agent，对于每个训练样本，与该训练样本类别相同的agent会选择动作来使它获得的奖励最大化，而具有其他类别的agent会选择动作来使它获得的奖励最小化。每个agent接收三个桶作为状态向量，每个桶的大小与输入向量xⁱ相同。第一个桶是xⁱ的副本，这样agent就可以知道原始输入；第二个桶初始化为零向量，这些零可以被agent设置成输入向量的副本；第三个桶初始化为输入向量并且可以被agent设置成0。该算法的马尔科夫决策过程(MDP)如下定义：

状态集S：通常是连续的，对于长度为m的输入向量xⁱ，状态sⁱ∈S包含3m个元素。这些元素被分成三个桶，s_t表示单次迭代中t时刻的状态向量，对于输入向量xⁱ，初始状态

其中三个桶的大小均为m。

动作集A：共有2m个动作，每个动作可设置其对应的桶元素的值，a_t表示t时刻选择的动作。

包含多个操作O(s,a)的转移函数集合T：下一时刻状态s_t+1＝O(s_t,a_t)，其中操作O按如下规则执行动作：如果动作满足0≤a_t<m，那么将第(m+a_t)个桶元素设置成输入向量的第a_t个元素的值；如果动作满足m≤a_t<2m，那么将第(m+a_t)个桶元素设置成0。

即时奖励R：它与状态向量中0的个数有关，t时刻的即时奖励

其中z表示状态向量中0的个数。

折扣因子γ。

单次迭代中，执行动作的次数h。

用来说明agent的代表类别与训练样本的类别是否相同的标记，该标记决定了agent应该最大化还是最小化它的即时奖励。

在训练过程中，agent与训练样本进行交互，每个agent执行h个动作，并且从观察到的状态转移和获得的即时奖励中学习。状态值函数(critic)和挑选动作的功能函数(actor)分别使用一个不同的MLP来表示。为了减少参数的数量，将两个MLP的隐含层节点个数和学习速率设成相同的，其中隐含层节点个数为11，学习速率为0.03。假设V_j(·)表示类别j的agent AC_j的值函数，AC_j在状态s_t执行完动作后，将收到(s_t,a_t,r_t,s_t+1)，使用TDerrorδ_t来更新值函数V_j(s_t)：

δ_t＝r_t+γV_j(s_t+1)-V_j(s_t)

V_j(s_t)＝V_j(s_t)+αδ_t

其中，α是critic的学习速率，若样本类别y＝j，则AC_j选择动作的MLP的目标值为：

这样，AC_j可以最大化即时奖励来学习更高的状态值函数。若样本类别y≠j，则AC_j选择动作的MLP的目标值为：

这样，对于类别不相同的样本，AC_j将会得到负的即时奖励，并且这些奖励将会TD(Temporal-difference)学习传递给初始状态的值函数。

在测试阶段，agent不需要选择动作。首先对所有类别j的AC_j计算值函数V_j(s₀)，输入样本将会被预测为具有最大值函数的agent代表的类别y_p：

步骤四，模型改进。

实验结果显示由于多层感知机的引入，强化学习模型的训练过程比其他算法慢了很多。为了加速模型的训练，本发明借鉴了AdaBoost算法[参考文献11：

G,Onoda T,Müller K R.Soft Margins for AdaBoost[J].Machine Learning,2001,42(3):287-320.]中改变样本权重的方法，即在之前的学习中被错误分类的样本的权重会更大。在本发明方法中，所有样本权重初始化为相同的，然后每20000次迭代，更新一次样本权重。实验结果显示该方法可以加速模型的训练，但模型的正确率在到达峰值后会开始下降。因此，本发明改进了该方法，提出了一种动态改变权重的方法，即在更新权重之前，比较当前模型的正确率acc_cur和上次更新权重时模型的正确率acc_pre，若acc_pre-acc_cur>5％，则样本权重重新被设置成相同的，否则，样本权重继续按照之前的策略更新。

动态更新样本权重的算法伪代码如下：

上面动态更新样本权重的过程中，初始化样本的权重为相同的，均为1/n；当前迭代达到20000次时，计算当前模型的正确率acc_cur，与上次更新权重时的模型正确率acc_pre比较，若acc_pre-acc_cur＞5％，则样本权重重新被设置成相同的，均为1/n。否则，样本权重继续按照之前的策略更新，计算当前模型的错误率error_rate，上面I(yⁱ≠y(xⁱ))表示模型的预测结果与真实结果不同的样本个数，设置

更新第i个样本的权重为

在更新完样本权重后，将acc_pre更新为当前模型的正确率acc_cur的值。

步骤五，风险评估。在构建强化学习模型后，使用提取的关键词特征来进行风险评估。

下面通过实验来验证本发明方法。

实验设计：本发明使用公司简介信息来进行P2P网贷企业风险评估。实验数据规模如表1所示，可以看出数据量较小且各类数据较不平衡。实验中将数据按照7∶3的比例分为训练集和测试集，每类数据大体上保持了在总体数据中所占的比例。在分类中，0代表正常，1代表停业，2代表提现困难，3代表跑路。

表1实验数据规模

类别	数量
		正常(0)	1849
停业(1)	1263
		提现困难(2)	595
跑路(3)	847
		总体	4554

首先使用基础的强化学习模型和关键词特征来对P2P网贷机构进行分类，然后使用通过更改样本权重改进的强化学习模型重新进行实验。除此之外，实验中还使用了传统的有监督机器学习方法做相同的实验来进行对比，如支持向量机(SVM)、逻辑回归(LR)、MLP、朴素贝叶斯和决策树。

本发明使用的效果衡量指标定义如下：

Accuracy＝(TP+TN)/(TP+FP+TN+FN)×100％

Precision＝TP/(TP+FP)×100％

Recall＝TP/(TP+FN)×100％

F1＝(2×Precision×Recall)/(Precision+Recall)

其中，TP表示被正确分类的正例的数量，FP表示被错误分类的负例的数量，TN表示被正确分类的负例的数量，FN表示被错误分类的正例的数量。上面四个指标值越高代表效果越好。

上述效果衡量指标可参见参考文件12：[12]Deng Y，Bao F，Kong Y，et al.DeepDirect Reinforcement Learning for Financial Signal Representation andTrading.[J].IEEE Transactions on Neural Networks&Learning Systems,2016,28(3):653-664.

实验结果说明如下：

(1)使用基础的强化学习模型实验：不同关键词个数实验的训练集正确率结果如图2所示，其中横轴表示迭代次数，纵轴表示正确率，不同颜色的曲线表示不同的关键词个数。模型收敛后测试集的最优结果(关键词个数为40时取得最优解)如表2所示。

表2测试集最优结果

类别	Precision	Recall	F1-score	数量
					0	0.8313	0.9319	0.8787	513
1	0.6640	0.6693	0.6667	400
					2	0.7447	0.4046	0.5243	198
3	0.6582	0.6724	0.6652	256
					avg	0.7451	0.7491	0.7395	1367

从表2可以看出，提现困难(2)一类的准确率比停业(1)和跑路(3)的准确率高，这说明本发明提出的强化学习模型较少受到数据不平衡的影响并且能够正确识别出数量较少一类的样本，而常见的有监督机器学习算法，如决策树、逻辑回归等，通常对数据不平衡较为敏感。然而，如图2所示，本模型需要训练几十万次才会收敛，使得模型的效率不高。因此，为了解决这个问题，利用本发明提出了更改样本权重的方法，并用改进的强化学习模型重新实验。图2～图4中，横坐标表示训练次数times，纵坐标表示模型正确率accuracy，图中的每条线型代表关键词个数m的取值，依次取值为10，20，30，40，50和60。

(2)更新样本权重的改进强化学习模型实验：首先，本发明尝试每20000次迭代更新一次样本权重，即增加被错误分类样本的权重，使其在下次迭代中被选中的概率增大。训练集的正确率如图3所示。

可以看出，在更新样本权重之后，收敛的速度比之前快了很多。但是最高正确率比之前稍低了一些并且随着迭代次数的不断增加正确率开始下降。出现这一现象的原因可能是在更新样本权重的过程中，某些样本的权重不断的增加，导致模型大多数情况下只训练这部分样本。为了避免这一问题，本发明尝试调整策略，来动态的更新样本权重并且重新进行实验。

动态更新样本权重的改进强化学习模型实验：不同于上个实验，本实验计算当前模型的正确率acc_cur并在更新样本权重之前将其记录下来，如果上次更新前的正确率acc_pre-acc_cur>5％，那么样本权重重新被设置成相等的，否则，样本权重按照之前的策略更新。训练集正确率如图4所示。

实验结果显示，正确率下降的现象得到了缓解并且正确率也比按照同一策略更新样本权重的实验高了一些。同时，模型的收敛速度比基础强化学习模型快了很多，同时也比按照同一策略更新样本权重的模型快。

(3)使用传统有监督机器学习方法的对比实验：除了上述本发明提出的三种模型，还使用几种传统的机器学习算法做了相同的实验。结果如表3所示，RL表示强化学习模型。本发明选择准确率作为主要的衡量标准，以更加有把握的找出有风险的机构并降低误判的风险。

表3不同模型的准确率

实验结果显示强化学习模型优于大多数传统机器学习模型。虽然动态更新样本权重的强化学习模型的准确率稍低于基础强化学习模型，但它节省了大量的时间，更加具有实用性。对于一般模型，准确率受到数据不平衡的影响，数据量大的类别准确率高，数据量小的类别准确率低。对于本发明数据量小的应用场景，本发明所提供的模型较少受到数据不平衡的影响，使得数据量小的类别准确率与数据量大的类别准确率相差不大，同时总体准确率达到平均以上的水平。

显然，所描述的实施例也仅仅是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种基于强化学习的P2P网络借贷机构风险评估方法，其特征在于，包括如下步骤：

步骤1，采集P2P网贷企业的公司简介文本信息，进行分词；

步骤3，使用Max-min ACLA算法构造强化学习模型；ACLA代表actor-critic learningautomaton；Max-min代表最大最小原则；

所述的动态改变权重的方法是：当前迭代到设定次数时，计算当前模型的正确率acc_cur，与上次更新权重时的模型正确率acc_pre比较，若acc_pre-acc_cur＞5％，则将样本权重重新被设置成相同的，否则，样本权重继续按照之前的策略更新；

上面动态更新样本权重的过程中，初始化样本的权重为相同的，均为1/n；当前迭代达到20000次时，计算当前模型的正确率acc_cur，与上次更新权重时的模型正确率acc_pre比较，若acc_pre-acc_cur＞5％，则样本权重重新被设置成相同的，均为1/n；否则，样本权重继续按照之前的策略更新，计算当前模型的错误率error_rate，设I(yⁱ≠y(xⁱ))表示模型的预测结果与真实结果不同的样本个数，设置

更新第i个样本的权重为

在更新完样本权重后，将acc_pre更新为当前模型的正确率acc_cur的值；

步骤5，利用训练好的强化学习模型对待评估机构进行风险评估；

提取待评估机构的公司简介文本信息，进行分词，为评估机构构造步骤2所述的m维的特征向量，将该特征向量输入训练好的强化学习模型，获得风险评估结果。

2.根据权利要求1所述的方法，其特征在于，所述的步骤2中，m的取值范围为10～60。

3.根据权利要求1所述的方法，其特征在于，所述的步骤3中，强化学习的马尔科夫决策过程中，包括：

状态集S，其中的s_t表示单次迭代中t时刻的状态向量，每个状态向量包含3m个元素，3m个元素被分成三个桶，三个桶的大小均为m，初始状态

xⁱ代表文档的特征向量，i为输入向量编号；

动作集A，其中共有2m个动作，每个动作设置为所对应的桶元素的值，设a_t表示t时刻选择的动作；

转移函数集合T，包含多个操作O(s，a)，下一时刻状态s_t+1＝O(s_t，a_t)，其中操作O按如下规则执行动作：如果动作满足0≤a_t＜m，那么将第(m+a_t)个桶元素设置成输入向量的第a_t个元素的值；如果动作满足m≤a_t＜2m，那么将第(m+a_t)个桶元素设置成0；

即时奖励R，它与状态向量中0的个数有关，t时刻的即时奖励

其中z表示状态向量中0的个数；

折扣因子γ；

单次迭代中，执行动作的次数h，

用来说明agent的代表类别与训练样本的类别是否相同的标记，该标记决定了agent最大化还是最小化它的即时奖励。

4.根据权利要求1所述的方法，其特征在于，所述的步骤4中，强化学习模型在训练过程中，agent与训练样本进行交互，每个agent执行h个动作，并且从观察到的状态转移和获得的即时奖励中学习；状态值函数和挑选动作的功能函数使用两个不同的多层感知机MLP来表示；为了减少参数的数量，将两个MLP的隐含层节点个数和学习速率设成相同的；设V_j(·)表示类别j的agent AC_j的状态值函数，AC_j在状态s_t执行完动作后，将收到(s_t，a_t，r_t，s_t+1)，使用TD error δ_t来更新值函数V_j(s_t)：

δ_t＝r_t+γV_j(s_t+1)-V_j(s_t)

V_j(st)＝V_j(st)+αδ_t

其中，AC_j表示类别j的代理agent；s_t表示t时刻的状态向量，s_t+1表示t+1时刻的状态向量，a_t表示t时刻选择的动作，r_t表示t时刻的即时奖励；δ_t表示TD error；γ表示折扣因子；α是critic的学习速率，若样本类别y＝j，则AC_j选择动作的MLP的目标值G为：

若样本类别y≠j，则AC_j选择动作的MLP的目标值G为：

在测试阶段，agent不需要选择动作，对所有类别j的AC_j计算值函数V_j(s₀)，输入样本将被预测为具有最大值函数的agent代表的类别y_p，y_p＝arg max_jV_j(s0)，arg max_jV_j(s₀)是求取值函数V_j(s₀)最大值对应的类别j。

5.根据权利要求1所述的方法，其特征在于，所述的步骤4中，设置当前迭代到20000次时，动态更新样本权重。