CN114004149A

CN114004149A - 一种智能体的训练方法、装置、计算机设备及存储介质

Info

Publication number: CN114004149A
Application number: CN202111275610.9A
Authority: CN
Inventors: 牛雅哲; 刘宇; 王晓刚
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-02-01

Abstract

本公开提供了一种智能体的训练方法、装置、计算机设备及存储介质，包括：获取基于额外奖励函数构建的额外奖励模型以及待训练的智能体；获取所述智能体与环境的交互数据；将所述交互数据输入至所述额外奖励模型中，确定额外奖励；基于所述额外奖励，以及所述环境产生的环境奖励，对所述待训练的智能体进行训练。

Description

一种智能体的训练方法、装置、计算机设备及存储介质

技术领域

本公开涉及强化学习技术领域，具体而言，涉及一种智能体的训练方法、装置、计算机设备及存储介质。

背景技术

随着强化学习的发展与普及，越来越多的领域开始应用强化学习算法去解决实际问题。相关技术中为提高智能体的训练精度，通过增加额外奖励，来辅助智能体训练。

然后由于相关领域中的额外奖励算法是基于各智能体的应用环境设计的，当某一环境需要增加额外奖励算法时，无法判断哪个额外奖励算法适配自己的环境。

发明内容

本公开实施例至少提供一种智能体的训练方法、装置、计算机设备及存储介质。

第一方面，本公开实施例提供了一种智能体的训练方法，包括：

获取基于额外奖励函数构建的额外奖励模型以及待训练的智能体；

获取所述智能体与环境的交互数据；

将所述交互数据输入至所述额外奖励模型中，确定额外奖励；

基于所述额外奖励，以及所述环境产生的环境奖励，对所述待训练的智能体进行训练。

本公开提供的方法，可以基于额外奖励函数构建额外奖励模型，这样可以通过预训练额外奖励模型的方法，调整额外奖励函数，或者，在训练智能体的过程中，同时训练额外奖励模型和智能体，由此适配于当前环境的额外奖励函数是训练出来的，因此可以避免固有的额外奖励函数的选择问题，进而快速的为当前环境选择适配的额外奖励函数。

一种可能的实施方式中，所述额外奖励模型为待训练的模型；所述额外奖励函数基于所述环境构建得到。

由于额外奖励函数是基于环境构建得到的，或者说初始的额外奖励函数就是所述环境的奖励函数，因此所述额外奖励函数可以适配当前的环境。

一种可能的实施方式中，所述方法还包括：

基于所述额外奖励，以及所述环境产生的环境奖励，对所述额外奖励函数进行调整，以对待训练的额外奖励模型进行训练。

通过这种方法，可以在训练智能体的过程中，同步训练额外奖励模型，所述额外奖励模型可以用于辅助所述智能体训练，由此可以加快所述智能体的训练速度以及提高智能体的训练精度。

一种可能的实施方式中，所述额外奖励模型为训练好的模型；

所述方法还包括：

读取专家数据；所述专家数据为历史交互数据；

基于所述专家数据对初始模型进行训练，得到所述额外奖励模型。

一种可能的实施方式中，所述基于所述额外奖励，以及所述环境产生的环境奖励，对所述待训练的智能体进行训练，包括：

基于所述额外奖励，以及所述环境产生的环境奖励，确定融合奖励；

基于所述融合奖励对所述待训练的智能体进行训练。

一种可能的实施方式中，在获取所述智能体与环境的交互数据之后，所述方法还包括：

将所述交互数据缓存至缓存队列中；

在完成一次对所述智能体的训练之后，将所述缓存队列中的交互数据进行清空。

通过对所述交互数据进行清空之后，可以在对智能体进行下一次训练时，再缓存下一次训练过程中产生的交互数据，由此可以避免存储空间浪费。

一种可能的实施方式中，所述基于所述额外奖励，以及所述环境产生的环境奖励，确定融合奖励，包括：

确定所述额外奖励和所述环境奖励分别对应的权重系数；

将所述额外奖励和所述环境奖励按照所述权重系数进行加权求和，得到所述融合奖励。

一种可能的实施方式中，所述方法还包括：

获取智能决策场景下的当前状态信息和当前奖励信息；

基于上述实施方式任一所述的智能体的训练方法训练得到的智能体、和所述当前状态信息和所述当前奖励信息，确定下一时刻的目标动作，并控制所述智能体对应的目标对象做出所述目标动作。

第二方面，本公开实施例还提供一种智能体的训练装置，包括：

第一获取模块，用于获取基于额外奖励函数构建的额外奖励模型以及待训练的智能体；

第二获取模块，用于获取所述智能体与环境的交互数据；

输入模块，用于将所述交互数据输入至所述额外奖励模型中，确定额外奖励；

训练模块，用于基于所述额外奖励，以及所述环境产生的环境奖励，对所述待训练的智能体进行训练。

一种可能的实施方式中，所述训练模块还用于：

基于所述额外奖励，以及所述环境产生的环境奖励，对所述额外奖励函数进行调整，以对待训练的额外奖励模型进行训练，所述待训练的额外奖励模型用于辅助所述智能体训练。

所述第一获取模块，还用于：

读取专家数据；所述专家数据为历史交互数据；

一种可能的实施方式中，所述训练模块，在基于所述额外奖励，以及所述环境产生的环境奖励，对所述待训练的智能体进行训练时，用于：

基于所述融合奖励对所述待训练的智能体进行训练。

一种可能的实施方式中，所述第二获取模块，在获取所述智能体与环境的交互数据之后，还用于：

将所述交互数据缓存至缓存队列中；

一种可能的实施方式中，所述训练模块，在基于所述额外奖励，以及所述环境产生的环境奖励，确定融合奖励时，用于：

确定所述额外奖励和所述环境奖励分别对应的权重系数；

一种可能的实施方式中，所述装置还包括，应用模块，用于：

获取智能决策场景下的当前状态信息和当前奖励信息；

基于以上任一实施方式所述的智能体的训练方法训练得到的智能体、和所述当前状态信息和所述当前奖励信息，确定下一时刻的目标动作，并控制所述智能体对应的目标对象做出所述目标动作。

第三方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种智能体的训练方法的流程图；

图2示出了本公开实施例所提供的对待训练智能体的训练方式的流程图；

图3示出了本公开实施例所提供的预先训练额外奖励模型的方法的流程图；

图4示出了本公开实施例所提供的一种智能体的训练装置的架构示意图；

图5示出了本公开实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，在强化学习领域的现有技术中的额外奖励算法是基于各智能体的应用环境设计的，当某一环境需要增加额外奖励算法时，无法判断哪个额外奖励算法适配自己的环境，并且编写时需要依托于框架编写非常多的额外模块，算法开发代价过高。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种智能体的训练方法进行详细介绍，本公开实施例所提供的智能体的训练方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备；在一些可能的实现方式中，该智能体的训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面对本公开实施例提供的智能体的训练方法加以说明。

参见图1所示，为本公开实施例提供的智能体的训练方法的流程图，所述方法包括步骤101～步骤104，其中：

步骤101、获取基于额外奖励函数构建的额外奖励模型以及待训练的智能体。

步骤102、获取所述智能体与环境的交互数据。

步骤103、将所述交互数据输入至所述额外奖励模型中，确定额外奖励。

步骤104、基于所述额外奖励，以及所述环境产生的环境奖励，对所述待训练的智能体进行训练。

下面对于步骤101～步骤104进行详细介绍。

针对步骤101、获取基于额外奖励函数构建的额外奖励模型以及待训练的智能体。

所述待训练的智能体的训练方式为强化学习，强化学习是指智能体以“试错”的方式进行训练，简单来说就是智能体通过与环境交互的获得的环境奖励，多次改变动作进行新尝试，最终适应环境并做出最佳结果。

一般来说，在强化学习领域，与环境交互的数据包含四大部分，状态S(state)，动作A(action)，动作后产生的状态S’和奖励R(reward)，对待训练智能体的训练方式如图2所示，现有环境拥有一个状态s，当智能体随机选择一个动作用于环境后，环境会变化为状态S’，随之会产生一个奖励R，智能体根据奖励R对于动作A进行调整。

具体的，所述环境可以为任意需要交互的环境，所述环境奖励为环境产生的奖励。在智能体做出动作之后，所在的环境会随之反馈正或者负的环境奖励。例如，对弈环境下，智能体在每走一步后对于当期局面产生的效果以及最终胜负结果，为当前环境下的环境奖励。

在一种可能的实施方式中，额外奖励模型可以使用预先已经训练好的额外奖励模型。神经网络的训练过程，即为神经网络的调参过程；同理，在基于所述额外奖励函数构建额外奖励模型之后，所述额外奖励模型的训练过程也为调参的过程，即调整所述额外奖励函数的参数，得到一个适配当前环境的额外奖励函数。

在一种可能的实施方式中，所述额外奖励模型可以在离线状态下进行训练。

对于预先训练额外奖励模型的方法，在一种可能的实施方式中，如图3，包括步骤301～步骤302，其中：

步骤301、读取专家数据。

步骤302、基于所述专家数据对初始模型进行训练，得到所述额外奖励模型。

对于待训练的额外奖励模型，训练它所使用的专家数据可以有很多套，其中，所述专家数据为历史交互数据，所述历史交互数据中可以包含如上所述的状态S(state)，动作A(action)，动作后产生的状态S’和奖励R(reward)。

所述历史交互数据为之前发生相同场景下，对做出的动作和得到的结果进行计算，整合出的数据。一种可能的实施方式中，历史交互数据获取的是根据人类活动所整合计算成的数据。具体的，人类在相同环境下，从事相同的活动，所做出的不同动作和得到的不同结果，将人类的在这一完整的活动过程整理成的数据。例如，同样在对弈环境下，采集两个下棋的人所走的所有步骤，下棋人的思路和最终对弈结果。

在一种可能的实施方式中，在读取专家数据之后，可以将读取的专家数据存在缓存区(buffer)中，用于对于初始模型进行训练。此处所述初始模型为未经过训练的，仅包含额外奖励函数的模型，在初始模型训练完成之后，可以得到所述额外奖励模型，在对于此处初始模型进行训练过程中该缓存区内数据可以不清空。

这里需要说明的是，所述额外奖励函数是基于所述环境构建得到的，或者说初始的额外奖励函数即为所述环境的奖励函数。

这样，由于额外奖励函数是基于环境构建得到的，或者说初始的额外奖励函数就是所述环境的奖励函数，因此所述额外奖励函数可以适配当前的环境。

在一种可能的实施方式中，在对所述额外奖励模型进行离线训练时，可以基于训练目标的不同采用不同的监督数据。

示例性的，若所述训练目标为胜负预测，则可以在获取专家数据之后，基于专家数据对应的胜负结果为监督数据，通过专家数据对所述额外奖励模型进行训练。

在对于已经训练好的额外奖励模型，在训练完成后可以直接进行应用，在训练智能体的过程中可以仅调整智能体，而不调整额外奖励模型。

具体的，调整额外奖励模型的过程，可以理解为调整智能体在做出动作之后，应该给予何种奖励。示例性的，如果在射击的环境下，在一种可能的实施方式中，额外奖励以智能体每一次射击相对于靶心的位置作为评价标准。该环境中，预期的最佳结果为智能体射中靶心，则靶心位置的额外奖励可以为最大值，其余部分以靶心为圆心，额外奖励的奖励值逐渐递减。当智能体的射击超出预设的位置，额外奖励记为“0”

在另外一种可能的实施方式中，所述额外奖励模型可以为待训练的模型，这样，额外奖励模型就无需单独的训练，可以在智能体的训练过程中，跟随智能体训练。

针对步骤102、获取所述智能体与环境的交互数据。

所述交互数据为智能体在交互过程中所产生的全部数据，数据内容可以包括环境当前的状态信息、智能体对环境产生的动作信息，在动作产生之后通过环境反馈的环境奖励信息以及基于环境奖励信息做出的下一动作信息。

在一种可能的实施方式中，额外奖励模型在获取所述智能体与环境的交互数据之后，可以将交互数据缓存至缓存队列中，此处的交互数据被复制之后发送至额外奖励模型，由额外奖励模型基于交互数据计算额外奖励。

其中，所述缓存队列存在于缓存区(即buffer)，额外奖励函数可以从缓存区内对交互数据进行调用。在完成一次对所述智能体的训练之后，所述缓存队列中的交互数据可以被进行清空。这样解决了智能体与环境的多次交互后，数据占用缓存区过多的情况。

针对步骤103、将所述交互数据输入至所述额外奖励模型中，确定额外奖励。

将交互数据输入到额外奖励模型后，额外奖励模型可以输出额外奖励。

在一种可能的实施方式中，当所述额外奖励模型的训练方式为在线训练时，即额外奖励模型跟随智能体一起训练，则可以基于以上所述额外奖励，以及所述环境产生的环境奖励，可以对所述额外奖励函数进行调整，以对待训练的额外奖励模型进行训练，所述待训练的额外奖励模型可以用于辅助所述智能体训练。

示例性的，在对弈的环境下，通过额外奖励函数可以计算智能体每行进一步对结果产生的影响。通过额外奖励函数计算的额外奖励以及环境本身计算的环境奖励，可以调整智能体的下一步动作。

额外奖励模型在每次调整后，因为需要多次缓存大量智能体与环境的交互数据，为避免磁盘大量的占用，需要对于实时收集到的交互数据进行清空操作，缓解存储压力。当智能体训练完成之后，对于额外奖励函数也可以进行清空，不再启用。

针对步骤104、基于所述额外奖励，以及所述环境产生的环境奖励，对所述待训练的智能体进行训练。

在一种可能的实施方式中，在基于所述额外奖励，以及所述环境产生的环境奖励，对所述待训练的智能体进行训练时，可以基于所述额外奖励，以及所述环境产生的环境奖励，确定融合奖励；然后基于所述融合奖励对所述待训练的智能体进行训练。

对于融合奖励的计算方法，示例性的，可以确定所述额外奖励和所述环境奖励分别对应的权重系数；将所述额外奖励和所述环境奖励按照所述权重系数进行加权求和，得到所述融合奖励。

实际应用中，本方案可以应用于智能决策场景，在智能决策场景下，可以获取当前状态信息和当前奖励信息，然后基于上述实施例所述的智能体的训练方法训练得到的智能体，和所述当前状态信息和所述当前奖励信息，确定下一时刻的目标动作，并控制所述智能体对应的目标对象做出所述目标动作。

需要说明的是，本公开实施例所述的步骤102～步骤104均可以在预先封装的模型训练框架中完成，基于该模型训练框架，可以输入指定的额外奖励函数，以及待训练的智能体和环境信息，通过封装的所述模型训练框架，可以自动完成对智能体的训练过程。

所述预先封装的模型训练框架封装有多个模块，每个模块可以理解为执行该模型所对应的功能的代码；由此，可以实现功能代码的复用，减少代码开发量。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与智能体的训练方法对应的智能体的训练装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述智能体的训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图4所示，为本公开实施例提供的一种智能体的训练装置的架构示意图，所述装置包括：第一获取模块401、第二获取模块402、输入模块403、训练模块404以及应用模块405；其中，

第一获取模块401，用于获取基于额外奖励函数构建的额外奖励模型以及待训练的智能体；

第二获取模块402，用于获取所述智能体与环境的交互数据；

输入模块403，用于将所述交互数据输入至所述额外奖励模型中，确定额外奖励；

训练模块404，用于基于所述额外奖励，以及所述环境产生的环境奖励，对所述待训练的智能体进行训练。

一种可能的实施方式中，所述训练模块404还用于：

所述第一获取模块401，还用于：

读取专家数据；所述专家数据为历史交互数据；

一种可能的实施方式中，所述训练模块404，在基于所述额外奖励，以及所述环境产生的环境奖励，对所述待训练的智能体进行训练时，用于：

基于所述融合奖励对所述待训练的智能体进行训练。

一种可能的实施方式中，所述第二获取模块402，在获取所述智能体与环境的交互数据之后，还用于：

将所述交互数据缓存至缓存队列中；

一种可能的实施方式中，所述训练模块404，在基于所述额外奖励，以及所述环境产生的环境奖励，确定融合奖励时，用于：

确定所述额外奖励和所述环境奖励分别对应的权重系数；

一种可能的实施方式中，所述装置还包括，应用模块405，用于：

获取智能决策场景下的当前状态信息和当前奖励信息；

基于同一技术构思，本公开实施例还提供了一种计算机设备。参照图5所示，为本公开实施例提供的计算机设备500的结构示意图，包括处理器501、存储器502、和总线503。其中，存储器502用于存储执行指令，包括内存5021和外部存储器5022；这里的内存5021也称内存储器，用于暂时存放处理器501中的运算数据，以及与硬盘等外部存储器5022交换的数据，处理器501通过内存5021与外部存储器5022进行数据交换，当计算机设备500运行时，处理器501与存储器502之间通过总线503通信，使得处理器501在执行以下指令：

获取所述智能体与环境的交互数据；

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的智能体的训练方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的智能体的训练方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种智能体的训练方法，其特征在于，包括：

获取所述智能体与环境的交互数据；

2.根据权利要求1所述的方法，其特征在于，所述额外奖励模型为待训练的模型；所述额外奖励函数基于所述环境构建得到。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述额外奖励模型为训练好的模型；

所述方法还包括：

读取专家数据；所述专家数据为历史交互数据；

5.根据权利要求1～4任一所述的方法，其特征在于，所述基于所述额外奖励，以及所述环境产生的环境奖励，对所述待训练的智能体进行训练，包括：

基于所述融合奖励对所述待训练的智能体进行训练。

6.根据权利要求1～5任一所述的方法，其特征在于，在获取所述智能体与环境的交互数据之后，所述方法还包括：

将所述交互数据缓存至缓存队列中；

7.根据权利要求5所述的方法，其特征在于，所述基于所述额外奖励，以及所述环境产生的环境奖励，确定融合奖励，包括：

确定所述额外奖励和所述环境奖励分别对应的权重系数；

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取智能决策场景下的当前状态信息和当前奖励信息；

基于权利要求1～7任一所述的智能体的训练方法训练得到的智能体、和所述当前状态信息和所述当前奖励信息，确定下一时刻的目标动作，并控制所述智能体对应的目标对象做出所述目标动作。

9.一种智能体的训练装置，其特征在于，包括：

第二获取模块，用于获取所述智能体与环境的交互数据；

10.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至8任一项所述的智能体的训练方法的步骤。

11.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8任一项所述的智能体的训练方法的步骤。