CN110826725A

CN110826725A - 基于认知的智能体强化学习方法、装置、系统、计算机设备及存储介质

Info

Publication number: CN110826725A
Application number: CN201911083011.XA
Authority: CN
Inventors: 段炼; 徐鹏飞
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-02-21
Anticipated expiration: 2039-11-07
Also published as: CN110826725B

Abstract

本发明实施例提供了一种基于认知的智能体强化学习方法、装置、系统、计算机设备及计算机可读存储介质。属于机器学习技术领域，智能体通过获取外部环境反馈的当前状态；根据当前状态，通过动作预测器预测其它智能体在本回合中将会采取的预测动作；根据预测动作及当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在本回合中将采取的评估动作；发送评估动作至外部环境，以使外部环境根据评估动作和其它智能体的实际动作确定交互结果；接收外部环境返回的交互结果；根据交互结果，更新动作预测器和动作评估器以实现自身智能体强化学习，由于评估动作具有针对性，提高了应对的准确性。

Description

基于认知的智能体强化学习方法、装置、系统、计算机设备及存储介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于认知的智能体强化学习方法、装置、系统、计算机设备及计算机可读存储介质。

背景技术

强化学习(英文为Reinforcement Learning，简称RL)，又称增强学习，是机器学习的范式和方法之一，用于描述和解决智能体(英文为Agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。多智能体强化学习(英文为Multi-agentreinforcement learning，简称MARL)是将强化学习的思想和算法应用到多智能体系统中，以实现多个智能体之间的交互的机器学习技术，目前已广泛应用于机器人系统、人机对弈、自动驾驶、互联网广告和资源利用等领域。

现有的经典多智能体强化学习技术主要有Q-learning、最小最大Q-learning(英文为Minimax Q-learning)、纳什均衡Q-learning(英文为Nash Q-learning)和相关均衡Q-learning(英文为CE Q-learning)等几类。其中，Q-learning和最小最大Q-learning主要适用于完全竞争与完全合作等特定的多智能体交互环境中，Nash Q-learning和CE-Qlearning可用于混合型任务。但是这些强化学习算法需要事先选择所使用的均衡策略，无法根据对手进行动态策略调整从而做出符合目的的应对，导致强化学习中智能体应对的针对性较弱。

发明内容

本发明实施例提供了一种基于认知的智能体强化学习方法、装置、系统、计算机设备及计算机可读存储介质，能够解决传统技术中智能体应对针对性较低的问题。

第一方面，本发明实施例提供了一种基于认知的智能体强化学习方法，智能体所属的强化学习的应用环境中包括多个智能体，所述方法应用于每一个所述智能体中，所述方法包括：获取外部环境反馈的当前状态，所述外部环境指预设的根据输入数据获得输出结果的规则库；根据所述当前状态，通过动作预测器预测其它智能体在本回合中将会采取的预测动作，其中，所述动作预测器为第一预设模型；根据所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作，其中，所述动作评估器为第二预设模型；发送所述评估动作至外部环境，以使所述外部环境根据所述评估动作和所述其它智能体的实际动作确定交互结果，所述交互结果包括由所述当前状态转移至的交互后的状态；接收所述外部环境返回的交互结果，所述交互结果中包含交互后的状态及所述其它智能体的实际动作；根据交互结果，更新所述动作预测器和所述动作评估器以实现所述自身智能体强化学习。

第二方面，本发明实施例还提供了一种基于认知的智能体强化学习装置，包括：获取单元，用于获取外部环境反馈的当前状态，所述外部环境指预设的根据输入数据获得输出结果的规则库；预测单元，用于根据所述当前状态，通过动作预测器预测其它智能体在本回合中将会采取的预测动作，其中，所述动作预测器为第一预设模型；选择单元，用于根据所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作，其中，所述动作评估器为第二预设模型；发送单元，用于发送所述评估动作至外部环境，以使所述外部环境根据所述评估动作和所述其它智能体的实际动作确定交互结果，所述交互结果包括由所述当前状态转移至的交互后的状态；接收单元，用于接收所述外部环境返回的交互结果，所述交互结果中包含交互后的状态及所述其它智能体的实际动作；学习单元，用于根据交互结果，更新所述动作预测器和所述动作评估器以实现所述自身智能体强化学习。

第三方面，本发明实施例还提供一种基于认知的多智能体强化学习系统，所述系统包括多个智能体及外部环境，每个所述智能体执行基于认知的智能体强化学习方法的步骤。

第四方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现所述基于认知的智能体强化学习方法。

第五方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行所述基于认知的智能体强化学习方法。

本发明实施例提供了一种基于认知的智能体强化学习方法、装置、系统、计算机设备及计算机可读存储介质。本发明实施例实现基于认知的智能体强化学习时，由于智能体首先通过外部环境反馈的当前状态预测其它智能体所对应的预测动作，再根据其它智能体所可能采用的预测动作及当前状态，从候选动作中根据预设策略筛选出自身智能体采取应对的评估动作，能够根据自身智能体的目的筛选出符合自身智能体目的的评估动作，由于是根据对其它智能体动作进行预估及当前状态的基础上评估的动作，从而使评估动作具有针对性，使交互双方的动作在外部环境中进行博弈后的博弈结果倾向达成自身智能体的目的以使博弈结果的价值对自己最有利，提高了应对的准确性。同时，智能体接收所述外部环境返回的交互结果，所述交互结果中包含交互后的状态及所述其它智能体的实际动作，根据每种状态、其它智能体的实际动作及自身智能体所采取的评估动作，更新所述动作预测器和所述动作评估器，从而获知什么状态下，其它智能体会采取什么实际动作，结合自身智能体的目的，自身智能体应该采取什么评估动作才能给自身智能体带来最大的价值，以实现自身智能体强化学习，从而后续能够更准确的根据自身智能体的目的筛选出符合自身智能体目的的评估动作，能够逐渐的提高智能体应对交互的准确性。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于认知的智能体强化学习方法的一个流程示意图；

图2为本发明实施例提供的基于认知的智能体强化学习方法中的一个整体框架交互示意图；

图3为本发明实施例提供的基于认知的智能体强化学习方法中涉及的一个应用环境示意图；

图4为本发明实施例提供的基于认知的智能体强化学习方法中一个具体应用的效果对比示意图；

图5为本发明实施例提供的基于认知的智能体强化学习方法中另一个具体应用的效果对比示意图；

图6为本发明实施例提供的基于认知的智能体强化学习装置的示意性框图；以及

图7为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

在强化学习中，整个强化学习系统一般包括智能体(英文为Agent)、状态(英文为State)、奖赏(英文为Reward)、动作(英文为Action)和环境(英文为Environment)五部分组成。具体分别为：

(1)智能体(Agent)是整个强化学习系统核心，根据环境提供的Reward作为反馈，学习一系列的环境状态(State)到动作(Action)的映射，动作选择的原则是最大化未来累积的Reward的概率。选择的动作不仅影响当前时刻的Reward，还会影响下一时刻甚至未来的Reward，因此，Agent在学习过程中的基本规则是：如果某个动作(Action)带来了环境的正回报(Reward)，那么这一动作会被加强，反之则会逐渐削弱。

(2)状态(State)。状态指Agent所处的环境信息，包含了智能体用于进行Action选择的所有信息。

(3)奖赏(Reward)。环境提供给Agent的一个可量化的标量反馈信号，用于评价Agent在某一个时间步(Tme Step)所做Action的好坏。强化学习就是基于一种最大化累计奖赏假设：强化学习中，Agent进行一系列的动作选择的目标是最大化未来的累计奖赏(Maximization of future expected cumulative Reward)。Reward信号是一个标量，一般采用正数表示奖赏，负数表示惩罚。

(4)动作(Action)。Agent在交互过程中所采取的操作。

(5)环境(Environment)，又称为外部环境。环境会接收Agent执行的一系列的动作(Action)，并且对这一系列的动作的好坏进行评价，并转换成一种可量化的(标量信号)Reward反馈给Agent，而不会告诉Agent应该如何去学习动作。Agent只能靠自己的历史(History)经历去学习。同时，环境还像Agent提供它所处的状态(State)信息。

强化学习的主体是Agent和环境Environment。Agent为了适应环境，最大化未来累计奖赏，做出的一系列的动作，这个学习过程称为强化学习。

请参阅图1和图2，图1为本发明实施例提供的基于认知的智能体强化学习方法的一个示意性流程图，图2为本发明实施例提供的基于认知的智能体强化学习方法中的一个整体框架交互示意图。强化学习的智能体所属的应用环境中包括多个智能体，所述方法应用于每一个所述智能体中，如图1所示，该方法包括以下步骤S101-S106：

S101、获取外部环境反馈的当前状态，所述外部环境指预设的根据输入数据获得输出结果的规则库。

具体地，外部环境(Environment)是一个规则库，会将接收到的交互双方的动作转换成一种可量化的(标量信号)奖赏(Reward)反馈给智能体，所述奖赏包括交互后的当前状态，所述状态指智能体所处的环境信息，包含了智能体用于进行动作选择的所有信息。

S102、根据所述当前状态，通过动作预测器预测其它智能体在本回合中将会采取的预测动作，其中，所述动作预测器为第一预设模型。

具体地，在本发明实施例中，智能体包含一个认知单元，该认知单元用于建模他人的行为模式，产生关于对方下一步动作的预测，即动作预测器(英文即Action Predictor)，所述动作预测器为第一预设模型，包括Forward learning及Bayesian learning等学习模型。智能体根据所处的环境信息所对应的所述当前状态，通过动作预测器预测其它智能体在本回合博弈中下一步将会采取的预测动作，以对其它智能体下一步动作进行预估，可知，动作预测期对其它智能体的动作预估的越准确，自身智能体将会采取更加针对性的应对动作。

进一步地，所述获取外部环境反馈的当前状态的步骤之前，还包括：

初始化时，所述动作预测器随机预测所述其它智能体在本回合中将会采取的预测动作。

具体地，在服务启动时，基于认知的多智能体强化学习系统随机化初始值，智能体获取随机初始化的外部环境反馈的当前状态，通过动作预测器随机预测其它智能体在本回合中将会采取的预测动作，从而启动基于认知的智能体强化学习过程，后续在强化学习的过程中逐渐调整动作预测期和动作评估期，以提高智能体应对的准确性。

S103、根据所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作，其中，所述动作评估器为第二预设模型。

具体地，智能体还包含另一个认知单元，该认知单元用于根据当前状态和动作预测器(Action Predictor)产生的对其它智能体下一步动作做的预期所对应的预测动作，共同对候选动作的价值进行评估，即动作评估器(Action Evaluator)，其中，所述动作评估器为第二预设模型，例如Bellman方程(Rival-dependent Bellman Equation)来实现。智能体根据所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作，所述预设策略包括ε-greedy策略或者玻尔兹曼机策略等。

因此，在本发明实施例中，基于认知的多智能体强化学习方法中，智能体作为个体的决策包含两个认知单元，一个为动作预测器，另一个为动作评估器，通过动作预测器和动作评估器进行交互行动中的决策，以实现基于认知的智能体强化学习，能够使评估动作具有针对性，从而提高决策的针对性。

S104、发送所述评估动作至外部环境，以使所述外部环境根据所述评估动作和所述其它智能体的实际动作确定交互结果，所述交互结果包括由所述当前状态转移至的交互后的状态。

具体地，智能体将所述评估动作作为应对动作，发送所述评估动作至外部环境，其它智能体也将自身的实际应对动作发送至外部环境，外部环境接收每个智能体发送的实际动作，外部环境根据所述评估动作和其它智能体的实际动作确定交互结果，经过交互后，环境的状态由当前状态转移至交互后的状态，所述交互结果包括由所述当前状态转移至的交互后的状态。

S105、接收所述外部环境返回的交互结果，所述交互结果中包含交互后的状态及所述其它智能体的实际动作。

具体地，外部环境接收智能体执行的一系列的动作(Action)，并且对这一系列的动作的好坏进行评价，并转换成一种可量化的标量信号作为交互结果，并将交互结果以奖赏的形式反馈给智能体，同时，外部环境还向智能体提供该智能体所处的状态(State)信息。智能体接收所述外部环境返回的交互结果，所述交互结果中包含交互后的状态及所述其它智能体的实际动作。

S106、根据交互结果，更新所述动作预测器和所述动作评估器以实现所述自身智能体强化学习。

具体地，智能体接收到外部环境返回的交互结果后，根据交互结果，具体包括当前状态、交互结果对自己的利弊、其他智能体的实际动作、对其它智能体的预测动作及自身智能体的评估动作(即自身的实际动作)，通过动作间的比较、总结得失，并更新所述动作预测器和所述动作评估器，以实现所述自身智能体基于认知的强化学习。

进一步地，所述根据交互结果，更新所述动作预测器和所述动作评估器以实现所述自身智能体强化学习的步骤之后，还包括：

迭代上述过程，直至满足预设终止条件以完成强化学习。

其中，预设终止条件包括完成预设的迭代次数、候选动作表不再变动或者候选动作表的前表和后表变化幅度小于预设阈值，候选动作表的前表和后表变化幅度小于预设阈值，例如，候选动作表的前表和后表相减，小于预设阈值。

具体地，基于认知的智能体强化学习的过程，是一个将上述步骤S101-S106反复迭代的过程，直至满足预设终止条件，达到强化学习的目标，以完成强化学习，这是对智能体进行训练的过程。完成强化学习的智能体，后续能够提高智能体应对交互的准确性。

需要说明的是，若上述基于认知的智能体强化学习方法应用于机器人系统、人机对弈、自动驾驶、互联网广告和资源利用等具体的应用环境，迭代上述过程，但强化学习持续进行，每一次交互后的强化学习，都能提高后续智能体应对交互的准确性和效率。

本发明实施例具有以下好处：

(1)不存在均衡选择问题。本发明实施例不需要事先指定采用纳什均衡或是相关均衡，也不需要指定均衡的参数。

(2)可以跟据对手行为动态调整策略。因为本发明实施例基于对对手行为的学习，当对手改变策略或更换对手时，本发明中的智能体可以自动更新对对方的预测，从而实现动态更新。

请参阅图2，图2为本发明实施例提供的基于认知的智能体强化学习方法中的一个整体框架交互示意图。如图2所示，以双人交互为例，在双方不断交互的过程中，双方的动作进入外部环境(Environment)并共同决定了交互的结果。交互结果以奖赏(Reward)的形式反馈给个体，同时个体也可以观测到对方采取的实际动作(Real Action)。上述反馈信息被个体感知到，产生动作预测误差(Action Prediction Error，APE)信号和奖赏预测误差(Reward Prediction Error，RPE)信号，分别用于更新Action Predictor和ActionEvaluator，从而实现双脑强化学习。与传统的强化学习决策模型不同，该双脑强化学习模型的决策过程以个体对交互对象的预测和学习为基础，动作预测器利用交互过程中获取的动作预测误差信号不断学习，从而给出更准确的预测；而动作评估器在预测对方行动的基础上将有能力实现更具目的性的动作如惩罚或奖励，这些动作被对方的预测器感知和学习，可使对方形成关于自身行为模式的profile，即产生“理解”。这种双脑互相预测和理解机制更符合人类社会交互的心理过程，可以使智能体更有效地实现交互双方的合作行为。

本发明实施例实现基于认知的智能体强化学习时，由于智能体首先通过外部环境反馈的当前状态预测其它智能体所对应的预测动作，再根据其它智能体所可能采用的预测动作及当前状态，从候选动作中根据预设策略筛选出自身智能体采取应对的评估动作，能够根据自身智能体的目的筛选出符合自身智能体目的的评估动作，由于是根据对其它智能体动作进行预估及当前状态的基础上评估的动作，从而使评估动作具有针对性，使交互双方的动作在外部环境中进行博弈后的博弈结果倾向达成自身智能体的目的以使博弈结果的价值对自己最有利，提高了应对的准确性。同时，智能体接收所述外部环境返回的交互结果，所述交互结果中包含交互后的状态及所述其它智能体的实际动作，根据每种状态、其它智能体的实际动作及自身智能体所采取的评估动作，更新所述动作预测器和所述动作评估器，从而获知什么状态下，其它智能体会采取什么实际动作，结合自身智能体的目的，自身智能体应该采取什么评估动作才能给自身智能体带来最大的价值，以实现自身智能体强化学习，从而后续能够更准确的根据自身智能体的目的筛选出符合自身智能体目的的评估动作，能够逐渐的提高智能体应对交互的准确性。

在一个实施例中，所述候选动作表为状态动作价值表，所述状态动作价值表用于描述在预设状态下，选择每个动作的价值依赖于此时所述其它智能体的动作。

具体地，智能体通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作，所述候选动作表为状态动作价值表，所述状态动作价值表用于描述在预设状态下，选择每个动作的价值依赖于此时所述其它智能体的动作。状态动作价值表，也称为Q表、Q-Table或Q-Storage等)，从状态动作价值表中根据一定的策略(例如ε-greedy策略、玻尔兹曼机策略等)选择本回合自己的行动。注意，与其他single-agent或multi-agent强化学习算法不同，本发明中的Q表是对手行为依赖的，即Q-Storage中储存的状态动作值元素为Q^*(s,a₁|a₂)，也即在某一状态s下，智能体选择动作a₁的价值依赖于此时对手的动作a₂，使用这种对手行为依赖的状态动作价值表进行决策能够提高自身智能体决策的准确性。

在一个实施例中，所述根据交互结果，更新所述动作预测器和所述动作评估器的步骤包括：

根据所述其它智能体的所述预测动作及所述实际动作，产生动作误差信号，以根据所述动作误差信号通过预设学习方法更新所述动作预测器；

根据预测奖赏及实际奖赏，产生奖赏预测误差，以根据所述奖赏预测误差通过预设方式更新所述动作评估器，其中，所述奖赏指在所述预设状态下交互双方的动作所给予自身的可量化的标量反馈信号，所述预测奖赏指所述预测动作在所述当前状态下所对应的所述评估动作所对应的奖赏，所述实际奖赏指所述实际动作在所述当前状态下所对应的所述评估动作所对应的奖赏。

具体地，由于在本发明实施例中的智能体包括两个认知单元，其中一个为动作预测器，另一个为动作评估器。智能体接收到外部环境返回的交互结果中，由于所述交互结果中包含交互后的状态及所述其它智能体的实际动作，再结合根据所述当前状态，通过动作预测器预测其它智能体在本回合中将会采取的预测动作，及根据所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作，这些动作被智能体预测器感知和学习，可使自身智能体根据其它智能体的动作形成关于自身行为模式的profile，即产生“理解”，这种智能体之间彼此互相预测和理解机制更符合人类社会交互的心理过程，可以使智能体更有效地实现交互双方的合作行为，从而实现通过对交互对象的预测和学习为基础，动作预测器利用交互过程中获取的动作预测误差信号不断学习，从而给出更准确的预测，而动作评估器在预测对方行动的基础上将有能力实现更具目的性的动作，如惩罚或奖励，从而更准确的根据自身智能体的目的筛选出符合自身智能体目的的评估动作，能够逐渐的提高智能体应对交互的准确性。

在一个实施例中，所述基于认知的智能体强化学习方法，还包括步骤：

判断是否满足预设条件；

若满足所述预设条件，根据预设性格参数，以所述性格参数所对应的第二预设候选动作作为所述评估动作。

具体地，以预设顺序运行上述步骤，即智能体判断是否满足预设条件，若满足所述预设条件，根据预设性格参数，以所述性格参数所对应的第二预设候选动作作为所述评估动作，上述步骤可以在智能体通过动作评估器选择出评估动作的步骤之前，也可以在智能体通过动作评估器选择出评估动作的步骤之后进行。若上述步骤在智能体通过动作评估器选择出评估动作的步骤之前进行，智能体判断是否满足预设条件，若满足所述预设条件，根据预设性格参数，以所述性格参数所对应的第二预设候选动作作为所述评估动作，不再通过动作评估器选择出评估动作，若不满足预设条件，再采取通过动作评估器选择出的评估动作。若上述步骤在智能体通过动作评估器选择出评估动作的步骤之后进行，智能体通过动作评估器选择出评估动作，再判断是否满足预设条件，若满足所述预设条件，根据预设性格参数，以所述性格参数所对应的第二预设候选动作作为所述评估动作，以替代通过动作评估器筛选出的评估动作，若不满足所述预设条件，采取通过动作评估器选择出的评估动作。从而通过设定智能体性格参数，实现使智能体模拟人类的人格偏好等特征，实现类人行为模拟，提高决策的灵活性和应对的准确性。

进一步地，以预设顺序运行上述步骤，包括以上述步骤在智能体通过动作评估器选择出评估动作的步骤之前为例来描述，即所述根据所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作的步骤之前，还包括：

判断是否满足预设条件；

其中，性格参数是指以类似于人的性格作为智能体决策的影响因素，例如公平性、容忍度及报复性等人格偏好特征。

具体地，智能体可以设定智能体性格参数，例如公平性、容忍度等模拟人的性格的性格参数，智能体做决策进行应对的动作选择时，首先判断是否满足预设条件，若满足所述预设条件，根据预设性格参数，以所述性格参数所对应的第二预设候选动作作为所述评估动作。例如，请继续参阅图2，当智能体1(动作为a₁)预测对手行为对自己不利时，可以根据性格参数做出反应，例如可以设定智能体的报复属性k∈[0,1]，若上回合结果为对手背叛自己，则本回合强制选择背叛行为。算法的伪代码如下所示：

在上述伪代码所示的步骤2中，预先设置概率k，作为智能体的性格参数，用于描述智能体的性格特征，来模拟人类的人格偏好。例如根据智能体的性格特征，智能体设置惩罚的报复属性，k设置的越接近1，表示报复性越强，采取惩罚性动作的可能性越大。当智能体判断满足预设条件时，比如判断reward₂大于reward₁时，同时满足预设的概率k时，a₁采取“a₁＝defect”，使a₁采取惩罚的报复动作，对其它智能体所对应的对手或者合作者强制选择背叛行为，例如，人在报复情绪支配下，若报复性强的话，将报复作为唯一的目的，为了达到报复的目的，不管对手采取什么动作，自己只采取惩罚的动作以实现报复的目的，若判断不满足预设条件，智能体再根据所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作，在上述算法的伪代码中，使用ε-greedy策略筛选出评估动作。

本申请实施例，通过在使用动作评估器筛选出评估动作作为应对的目标动作之前，先判断是否满足包含性格参数的预设条件，若判断满足预设条件，直接以所述性格参数所对应的第二预设候选动作作为所述评估动作，实现直接决策，不再使用动作评估器根据所述预测动作及所述当前状态筛选目标动作，不但能够提高决策效率，而且能够实现使智能体模拟人类的人格偏好等特征，从而使智能体的决策在机器学习的过程中更接近于人的认知心理过程，实现类人行为模拟，提高了决策的灵活性和应对的准确性。

在一个实施例中，所述应用环境中包括两个以上的所述智能体；

所述根据所述当前状态，通过动作预测器预测其它智能体在本回合中将会采取的预测动作的步骤包括：

根据所述当前状态，通过动作预测器预测每个所述其它智能体各自在本回合中将会采取的预测动作；

所述根据所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作的步骤包括：

根据所有所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作；

所述发送所述评估动作至外部环境，以使所述外部环境根据所述评估动作和所述其它智能体的实际动作确定交互结果的步骤包括：

发送所述评估动作至外部环境，以使所述外部环境根据所述评估动作和所有所述其它智能体各自的实际动作确定交互结果；

其中，所述交互结果中包含交互后的状态及每个所述其它智能体各自的实际动作。

具体地，若两个智能体之间进行交互，例如图2中的智能体1和智能体2进行交互，智能体1根据所述当前状态，通过动作预测器预测智能体2在本回合中将会采取的预测动作(即Predicted Action 2)，根据所述预测动作(Predicted Action 2)及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作(即Action 1)，发送所述评估动作至外部环境，接收所述外部环境返回的交互结果，根据交互结果，更新所述动作预测器和所述动作评估器以实现所述自身智能体强化学习。请参阅图3，图3为本发明实施例提供的基于认知的智能体强化学习方法中涉及的一个应用环境示意图，交互对象1中包含的智能体1和交互对象2中包含的智能体B进行交互时，智能体A和智能体B各自实现基于认知的强化学习时，均为上述过程。

若智能体所属的应用环境中包括两个以上的所述智能体，例如，所述应用环境中包括三个及三个以上智能体，也即一个智能体需要同时和两个或者两个以上的智能体进行交互时，例如，请继续参阅图3，若交互对象1和交互对象3进行交互时，也即智能体A需要和智能体C及智能体D进行交互时，以图3中的智能体A为例，智能体A根据所述当前状态，通过动作预测器预测智能体C和智能体D各自在本回合中将会采取的预测动作(例如分别为Predicted Action C和Predicted Action D)，智能体A根据Predicted Action C、Predicted Action D及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作(Action A)，发送所述Action A至外部环境，所述外部环境根据Action A和智能体C和智能体D各自的实际动作确定交互结果，智能体A接收所述外部环境返回的交互结果，所述交互结果中包含交互后的状态及智能体C和智能体D各自的实际动作，智能体A根据交互后的状态及智能体C和智能体D各自的实际动作，结合Predicted Action C、Predicted Action D及Action A，更新智能体A自身所包含的所述动作预测器和所述动作评估器以实现所述自身智能体A强化学习，智能体C和智能体D也分别执行上述过程，以实现智能体A、智能体C和智能体D各自基于认知的强化学习。本申请实施例基于认知的多智能体强化学习，通过一个智能体和多个智能体交互学习，以实现基于认知的多智能体强化学习，能够使智能体更准确的模拟人类的复杂决策环境，提高智能体应对多智能体交互的准确性。

根据预设标识识别进行交互的智能体；

根据所述交互的智能体，获取所述交互的智能体所对应的外部环境反馈的当前状态。

具体地，若是交互对象1与交互对象2进行一对一关系的交互，由于交互目标明确，交互对象所对应的智能体直接获取外部环境反馈的当前状态，进行后续步骤即可，例如，请继续参阅图3，若交互对象1与交互对象2进行交互，也即智能体A与智能体B进行交互，智能体A直接获取交互对象1与交互对象2所属的外部环境反馈的当前状态即可，若交互对象1与交互对象3进行交互，也即智能体A与智能体C及智能体D进行交互，智能体A直接获取交互对象1与交互对象3所属的外部环境反馈的当前状态即可。在更复杂的应用环境中，请继续参阅图3，若交互对象1要分别处理与交互对2及交互对象3的交互过程，并且交互对象3中包含智能体C和智能体D。需要在交互对象1、交互对象2及交互对象3上分别预先设置预设标识，通过预设标识区分交互对象1、交互对象2及交互对象3，交互对象1所对应的智能体A，根据预设标识识别进行交互的智能体，根据所述交互的智能体，获取所述交互的智能体所对应的外部环境反馈的当前状态。例如，请继续参阅图3，若智能体A根据预设标识判断交互的对象是智能体B，获取智能体B所对应的外部环境反馈的当前状态，若智能体A根据预设标识判断交互的对象是智能体C及智能体D，获取智能体C及智能体D所对应的外部环境反馈的当前状态，实现根据交互对象的不同，进行动态策略调整，从而既能根据交互对象进行动态策略调整，也能根据每个交互对象中包含的每个智能体的动作的不同再进行动态策略调整，能够进一步提高智能体应对交互的准确性。

下面以一个具体实施例所对应的算法完整描述本发明的上述各个实施例的过程，请继续参阅图1和图2，包括以下步骤：

(1)预测。以交互中的智能体1号为例，其学习过程为：首先，根据上一次博弈的结果即当前状态s，智能体1首先通过预测给出对手(例如智能体2号)的下一步行动的估计

(2)决策。利用(1)得到的估计，智能体1从状态动作价值表(也称为Q表、Q-Table或Q-Storage等)中根据一定的策略(例如ε-greedy策略、玻尔兹曼机策略等)选择本回合自己的行动a₁。注意，与其他Single-agent或Multi-agent强化学习算法不同，本算法中的Q表是对手行为依赖的，即Q-Storage中储存的状态动作值元素为Q^*(s,a₁|a₂)，也即在某一状态s下，智能体1选择动作a₁的价值依赖于此时对手的动作a₂。使用这种对手行为依赖的状态动作价值表进行决策是本算法的关键之一，能够通过模拟人类决策，提高智能体应对交互的准确性。

(3)预测器学习。两个智能体的动作a₁和a₂分别产生后，当前状态转移至s’，并产生相应的回报R₁(a₁,a₂)和R₂(a₁,a₂)，此时，智能体1号将根据对手的动作a₂来学习对方的行为特点，更新自己的预测器。这里的学习可以采用包括Forward learning、Bayesianlearning在内的多种学习技术。例如以使用Forward learning算法更新预测器为例，即：

δ_APE＝1-p(s,a₂) 公式(1)

p(s,a₂)＝p(s,a₂)+ηδ_APE 公式(2)

其中，δ_APE表示在状态s下对手选择动作a₂的动作预测误差，p(s,a₂)表示对状态s下对手选择动作a₂的概率的估计，

表示状态s下对手选择动作a₂以外的其他动作的概率的估计，η为估计过程的学习率。

(4)状态动作价值学习。通过下述对手依赖的Bellman方程(Rival-dependentBellman Equation)来实现Q表的迭代过程。具体地，即：

Q^*(s,a₁|a₂)＝R₁(a₁,a₂)+γV^*(s') 公式(4)

或写作：

其中，Q^*(s,a₁|a₂)表示智能体1在状态s下，当预测对手行动为a₂时，自身选择行动a₁的价值。R₁(a₁,a₂)表示双方的动作(a₁,a₂)所给予智能体1的回报(reward)。V^*(s')表示在状态s经由动作(a₁,a₂)转移至下一个状态s'时，s'对智能体1的价值。表示智能体1在状态s'下，当预测对手行动为

时，自身选择行动a'₁的价值。γ为学习率参数。

为了进一步对本发明上述实施例的效果进行验证，以下通过两个应用示例进行效果验证：

(一)人类行为拟合结果。

首先通过人类的社会交互行为结果拟合本发明上述所描述实施例的基于认知的智能体强化学习方法所对应的算法模型，以验证本发明的基于认知的智能体强化学习方法所对应算法确能模拟人类智能的交互行为模式和效果。通过招募32组大学生受试者，获取了他们进行重复雪堆博弈实验的交互行为数据。该实验的博弈矩阵如表格1所示。

表格1

使用上述真人交互行为数据对算法进行了拟合，具体地，首先基于Softmax函数计算动作概率P(s，a₁)，以Player 1为例，即：

其中，参数τ(inverse softmax temperature)用来控制不同动作概率的分布。然后通过下山单纯形法(Nelder-Mead simplex algorithm)最小化每名受试者的全部trial的动作概率的负对数似然之和，即：

argmin-∑log(P(s,a)) 公式(8)

从而估计出模型参数，并通过随机化初始值多次拟合的方法避免局部最优解。不同模型间的比较通过赤池信息准则(AIC)和贝叶斯信息准则(BIC)进行。基于对数似然的AIC和BIC由下式给出

AIC＝-2logL+2Np 公式(9)

BIC＝-2logL+Np×log(Nt) 公式(10)

其中，logL表示对数似然，Np表示模型参数个数，Nt表示观测数量。

请参阅图4，图4为本发明实施例提供的基于认知的智能体强化学习方法中一个具体应用的效果对比示意图。如图4所示，结果表明，本发明实施例的基于认知的智能体强化学习方法所对应的算法具有良好的拟合优度，与传统的NASH-Q算法相比，其具有显著更小的赤池信息准则(AIC)指标(p＝4.27×10^-13，Wilcoxon符号秩检验)和贝叶斯信息准则(BIC)指标(p＝6.49×10^-11，Wilcoxon符号秩检验)，如图4所示，这表明本发明实施例的基于认知的智能体强化学习方法使智能体决策具有更加接近人类行为的特性。

(二)计算机博弈结果。

请参阅图5，图5为本发明实施例提供的基于认知的智能体强化学习方法中另一个具体应用的效果对比示意图。为了进一步验证本发明上述基于认知的智能体强化学习方法所对应算法的效果，利用两个计算机作为智能体，采用上述算法进行博弈，博弈内容同表格1所示雪堆博弈。如图5所示，运行结果显示算法可以收敛到0.5(T，R)+0.5(B，L)和0.5(B，R)+0.25(T，R)+0.25(B，L)两种相关均衡，即两个智能体可以通过该算法学会合作最优解，实现整个博弈的帕累托最优(Paleto Optimality)。

需要说明的是，上述各个实施例所述的基于认知的智能体强化学习方法，可以根据需要将不同实施例中包含的技术特征重新进行组合，以获取组合后的实施方案，但都在本发明要求的保护范围之内。

请参阅图6，图6为本发明实施例提供的基于认知的智能体强化学习装置的示意性框图。对应于上述基于认知的智能体强化学习方法，本发明实施例还提供一种基于认知的智能体强化学习装置。如图6所示，该基于认知的智能体强化学习装置包括用于执行上述基于认知的智能体强化学习方法的单元，该装置可以被配置于终端等计算机设备中。具体地，请参阅图6，该基于认知的智能体强化学习装置600包括获取单元601、预测单元602、第一选择单元603、发送单元604、接收单元605及学习单元606。

其中，获取单元601，用于获取外部环境反馈的当前状态，所述外部环境指预设的根据输入数据获得输出结果的规则库；预测单元602，用于根据所述当前状态，通过动作预测器预测其它智能体在本回合中将会采取的预测动作，其中，所述动作预测器为第一预设模型；第一选择单元603，用于根据所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作，其中，所述动作评估器为第二预设模型；发送单元604，用于发送所述评估动作至外部环境，以使所述外部环境根据所述评估动作和所述其它智能体的实际动作确定交互结果，所述交互结果包括由所述当前状态转移至的交互后的状态；接收单元605，用于接收所述外部环境返回的交互结果，所述交互结果中包含交互后的状态及所述其它智能体的实际动作；学习单元606，用于根据交互结果，更新所述动作预测器和所述动作评估器以实现所述自身智能体强化学习。

在一个实施例中，所述学习单元606包括：

第一更新子单元，用于根据所述其它智能体的所述预测动作及所述实际动作，产生动作误差信号，以根据所述动作误差信号通过预设学习方法更新所述动作预测器；第二更新子单元，用于根据预测奖赏及实际奖赏，产生奖赏预测误差，以根据所述奖赏预测误差通过预设方式更新所述动作评估器，其中，所述奖赏指在所述预设状态下交互双方的动作所给予自身的可量化的标量反馈信号，所述预测奖赏指所述预测动作在所述当前状态下所对应的所述评估动作所对应的奖赏，所述实际奖赏指所述实际动作在所述当前状态下所对应的所述评估动作所对应的奖赏。

在一个实施例中，所述基于认知的智能体强化学习装置600还包括：

判断单元，用于判断是否满足预设条件；

第二选择单元，用于若满足所述预设条件，根据预设性格参数，以所述性格参数所对应的第二预设候选动作作为所述评估动作。

所述预测单元602，用于根据所述当前状态，通过动作预测器预测每个所述其它智能体各自在本回合中将会采取的预测动作；

所述第一选择单元603，用于根据所有所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作；

所述发送单元604，用于发送所述评估动作至外部环境，以使所述外部环境根据所述评估动作和所有所述其它智能体各自的实际动作确定交互结果；

初始化单元，用于初始化时，所述动作预测器随机预测所述其它智能体在本回合中将会采取的预测动作。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述基于认知的智能体强化学习装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

同时，上述基于认知的智能体强化学习装置中各个单元的划分和连接方式仅用于举例说明，在其他实施例中，可将基于认知的智能体强化学习装置按照需要划分为不同的单元，也可将基于认知的智能体强化学习装置中各单元采取不同的连接顺序和方式，以完成上述基于认知的智能体强化学习装置的全部或部分功能。

本申请实施例还提供一种基于认知的多智能体强化学习系统，其中，所述系统包括多个智能体及外部环境，每个所述智能体执行上述实施例中所描述的基于认知的智能体强化学习方法的步骤。

上述基于认知的智能体强化学习装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7是本发明实施例提供的一种计算机设备的示意性框图。该计算机设备700可以是台式机电脑或者服务器等计算机设备，也可以是其他设备中的组件或者部件。

参阅图7，该计算机设备700包括通过系统总线701连接的处理器702、存储器和网络接口705，其中，存储器可以包括非易失性存储介质703和内存储器704。

该非易失性存储介质703可存储操作系统7031和计算机程序7032。该计算机程序7032被执行时，可使得处理器702执行一种上述基于认知的智能体强化学习方法。

该处理器702用于提供计算和控制能力，以支撑整个计算机设备700的运行。

该内存储器704为非易失性存储介质703中的计算机程序7032的运行提供环境，该计算机程序7032被处理器702执行时，可使得处理器702执行一种上述基于认知的智能体强化学习方法。

该网络接口705用于与其它设备进行网络通信。本领域技术人员可以理解，图7中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备700的限定，具体的计算机设备700可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图7所示实施例一致，在此不再赘述。

其中，所述处理器702用于运行存储在存储器中的计算机程序7032，以实现如下步骤：获取外部环境反馈的当前状态，所述外部环境指预设的根据输入数据获得输出结果的规则库；根据所述当前状态，通过动作预测器预测其它智能体在本回合中将会采取的预测动作，其中，所述动作预测器为第一预设模型；根据所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作，其中，所述动作评估器为第二预设模型；发送所述评估动作至外部环境，以使所述外部环境根据所述评估动作和所述其它智能体的实际动作确定交互结果，所述交互结果包括由所述当前状态转移至的交互后的状态；接收所述外部环境返回的交互结果，所述交互结果中包含交互后的状态及所述其它智能体的实际动作；根据交互结果，更新所述动作预测器和所述动作评估器以实现所述自身智能体强化学习。

在一实施例中，所述处理器702在实现通过动作评估器对候选动作表中包含的第一预设候选动作进行评估的步骤时，所述候选动作表为状态动作价值表，所述状态动作价值表用于描述在预设状态下，选择每个动作的价值依赖于此时所述其它智能体的动作。

在一实施例中，所述处理器702在实现所述根据交互结果，更新所述动作预测器和所述动作评估器的步骤时，具体实现以下步骤：

在一实施例中，所述处理器702在实现所述根据所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作的步骤之前，还实现以下步骤：

判断是否满足预设条件；

在一实施例中，所述处理器702在实现所述根据所述当前状态，通过动作预测器预测其它智能体在本回合中将会采取的预测动作的步骤时，具体实现以下步骤：

所述处理器702在实现所述根据所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作的步骤时，具体实现以下步骤：

所述处理器702在实现所述发送所述评估动作至外部环境，以使所述外部环境根据所述评估动作和所述其它智能体的实际动作确定交互结果的步骤时，具体实现以下步骤：

所述处理器702在实现接收所述外部环境返回的交互结果的步骤时，所述交互结果中包含交互后的状态及每个所述其它智能体各自的实际动作。

在一实施例中，所述处理器702在实现所述获取外部环境反馈的当前状态的步骤之前，还实现以下步骤：

应当理解，在本发明实施例中，处理器702可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器702还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来完成，该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时使处理器执行如下步骤：

一种计算机程序产品，当其在计算机上运行时，使得计算机执行以上各实施例中所描述的基于认知的智能体强化学习方法的步骤。

所述计算机可读存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储计算机程序的实体存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于认知的智能体强化学习方法，其特征在于，智能体所属的强化学习的应用环境中包括多个智能体，所述方法应用于每一个所述智能体中，所述方法包括：

获取外部环境反馈的当前状态，所述外部环境指预设的根据输入数据获得输出结果的规则库；

根据所述当前状态，通过动作预测器预测其它智能体在本回合中将会采取的预测动作，其中，所述动作预测器为第一预设模型；

根据所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作，其中，所述动作评估器为第二预设模型；

发送所述评估动作至外部环境，以使所述外部环境根据所述评估动作和所述其它智能体的实际动作确定交互结果，所述交互结果包括由所述当前状态转移至的交互后的状态；

接收所述外部环境返回的交互结果，所述交互结果中包含交互后的状态及所述其它智能体的实际动作；

根据交互结果，更新所述动作预测器和所述动作评估器以实现所述自身智能体强化学习。

2.根据权利要求1所述基于认知的智能体强化学习方法，其特征在于，所述候选动作表为状态动作价值表，所述状态动作价值表用于描述在预设状态下，选择每个动作的价值依赖于此时所述其它智能体的动作。

3.根据权利要求1或者2所述基于认知的智能体强化学习方法，其特征在于，所述根据交互结果，更新所述动作预测器和所述动作评估器的步骤包括：

4.根据权利要求1所述基于认知的智能体强化学习方法，其特征在于，所述根据所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作的步骤之前，还包括：

判断是否满足预设条件；

5.根据权利要求1所述基于认知的智能体强化学习方法，其特征在于，所述应用环境中包括两个以上的所述智能体；

6.根据权利要求1所述基于认知的智能体强化学习方法，其特征在于，所述获取外部环境反馈的当前状态的步骤之前，还包括：

7.一种基于认知的智能体强化学习装置，其特征在于，包括：

获取单元，用于获取外部环境反馈的当前状态，所述外部环境指预设的根据输入数据获得输出结果的规则库；

预测单元，用于根据所述当前状态，通过动作预测器预测其它智能体在本回合中将会采取的预测动作，其中，所述动作预测器为第一预设模型；

选择单元，用于根据所述预测动作及所述当前状态，通过动作评估器对候选动作表中包含的第一预设候选动作进行评估，并结合预设策略选择出自身智能体在所述本回合中将采取的评估动作，其中，动作评估器为第二预设模型；

发送单元，用于发送所述评估动作至外部环境，以使所述外部环境根据所述评估动作和所述其它智能体的实际动作确定交互结果，所述交互结果包括由所述当前状态转移至的交互后的状态；

接收单元，用于接收所述外部环境返回的交互结果，所述交互结果中包含交互后的状态及所述其它智能体的实际动作；

学习单元，用于根据交互结果，更新所述动作预测器和所述动作评估器以实现所述自身智能体强化学习。

8.一种基于认知的多智能体强化学习系统，其特征在于，所述系统包括多个智能体及外部环境，每个所述智能体执行如权利要求1-6任一项所述基于认知的智能体强化学习方法的步骤。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器以及与所述存储器相连的处理器；所述存储器用于存储计算机程序；所述处理器用于运行所述存储器中存储的计算机程序，以执行如权利要求1-6任一项所述基于认知的智能体强化学习方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行如权利要求1-6中任一项所述基于认知的智能体强化学习方法的步骤。