CN111443806B

CN111443806B - 交互任务的控制方法、装置、电子设备及存储介质

Info

Publication number: CN111443806B
Application number: CN202010225186.6A
Authority: CN
Inventors: 李晓倩; 邱福浩; 韩国安; 付强; 王亮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2023-08-11
Anticipated expiration: 2040-03-26
Also published as: CN111443806A

Abstract

本申请涉及人工智能技术领域，提供了一种交互任务的控制方法、装置、电子设备及存储介质，该方法包括：获取交互任务中的交互状态；将所述交互状态输入机器学习模型获取目标对象在所述交互任务中的控制策略；其中，所述机器学习模型由包括内部收益模型的机器训练网络训练而得，所述内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值；所述内部收益值表征所述机器学习模型在所述交互状态下的收敛程度；基于所述控制策略控制所述目标对象进行交互操作。本申请在机器学习模型的训练过程中采用内部收益模型计算表征模型训练收敛程度的内部收益值，可有效避免对模型训练过度，提高模型训练效率。

Description

交互任务的控制方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体而言，本申请涉及一种交互任务的控制方法、装置、电子设备及存储介质。

背景技术

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。机器学习(Machine Learning,ML)是人工智能技术中一门多领域交叉学科，其专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

在机器学习中可采用强化学习的方法训练AI模型，使得AI模型模拟人类的操作方式与人类进行交互。在强化学习过程中，其涉及到一个探索与利用的均衡问题，探索可以帮助模型充分了解运行环境，利用可以帮助模型选择当前最优的策略执行；但是如果探索过多模型难以收敛，利用过多模型容易陷入最优解，导致模型能力较低。

现有技术中，解决平衡探索和利用的均衡问题时，一般采用探索策略中的贪心策略(ε-greedy策略)，但是该策略虽然可以在前期使模型能探索到过多的状态，避免模型陷入局部最优解，但是后期过多的探索导致模型收敛速度较慢，且对所有非最优行为采用相同的概率去探索，没有采取针对性探索，导致模型浪费大量的时间在无意义的探索行为上，其探索效率低下，将导致模型能力较低，在执行任务时无法输出最优的策略。

发明内容

本申请提供了一种交互任务的控制方法、装置、电子设备及存储介质，可以解决上述至少一种技术问题。所述技术方案如下：

第一方面，提供了一种交互任务的控制方法，包括：获取交互任务中的交互状态；将所述交互状态输入机器学习模型获取目标对象在所述交互任务中的控制策略；其中，所述机器学习模型由包括内部收益模型的机器训练网络训练而得，所述内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值；所述内部收益值表征所述机器学习模型在所述交互状态下的收敛程度；基于所述控制策略控制所述目标对象进行交互操作。

结合第一方面，在第一方面的第一种实施方式中，所述机器训练网络包括自对弈模型以及由内部收益模型和外部收益模型构成的收益模型，其中，所述外部收益模型对用于训练的交互数据进行计算得到外部收益值，所述外部收益值为控制目标对象进行交互操作所得收益；所述机器学习模型的训练步骤包括：将所述自对弈模型自对弈时生成的交互数据输入所述收益模型，获得训练数据；所述自对弈模型自对弈为采用机器学习模型控制目标对象以及与目标对象交互的交互对象进行交互；基于所述训练数据训练所述机器学习模型。

结合第一方面的第一种实施方式，在第一方面的第二种实施方式中，所述基于所述训练数据训练所述机器学习模型，包括：将所述训练数据输入所述机器学习模型，获得更新后的机器学习模型；将所述更新后的机器学习模型反馈至所述自对弈模型，迭代所述训练数据，以迭代更新所述机器学习模型。

结合第一方面的第一种实施方式，在第一方面的第三种实施方式中，所述将所述自对弈模型自对弈时生成的交互数据输入所述收益模型，获得训练数据，包括：将所述自对弈模型自对弈生成的交互数据进行特征抽取，获得目标状态特征；其中，所述目标状态特征包括以单元方式表达的目标对象与交互对象的属性特征；将所述目标状态特征输入所述收益模型，获得训练数据。

结合第一方面的第二种实施方式，在第一方面的第四种实施方式中，所述将所述自对弈模型自对弈时生成的交互数据输入所述收益模型，获得训练数据，包括：将更新前和更新后的机器学习模型以预设比例加载至所述自对弈模型，获得所述自对弈模型自对弈时生成的交互数据；将所述交互数据输入所述收益模型，获得训练数据和更新后的内部收益模型。

结合第一方面的第四种实施方式，在第一方面的第五种实施方式中，所述将所述交互数据输入所述收益模型，获得训练数据和更新后的内部收益模型，包括：将所述交互数据输入所述内部收益模型获得内部收益值；将所述交互数据输入所述外部收益模型获得外部收益值；基于所述交互数据、内部收益值和外部收益值生成训练数据，并基于所述内部收益值更新所述内部收益模型。

结合第一方面的第五种实施方式，在第一方面的第六种实施方式中，所述内部收益模型包括用于确定所述交互数据相应交互状态的目标收益模型和用于拟合所述目标收益模型的预测收益模型，所述将所述交互数据输入所述内部收益模型获得内部收益值，包括：将所述交互数据输入所述目标收益模型，获得第一收益值；将所述交互数据输入所述预测收益模型，获得第二收益值；计算所述第一收益值与第二收益值差值的绝对值，并以内部收益值进行表示；所述基于所述内部收益值更新所述内部收益模型包括：基于所述内部收益值更新所述预测收益模型。

结合第一方面的第四种实施方式，在第一方面的第七种实施方式中，所述自对弈模型包括控制所述交互对象的第一机器学习模型和控制所述目标对象的第二机器学习模型；所述将更新前和更新后的机器学习模型以预设比例加载至所述自对弈模型，包括：将迭代更新预设次数后的机器学习模型加载至所述第一机器学习模型的模型池中；将每次迭代更新前和更新后的机器学习模型以预设比例加载至所述第二机器学习模型的模型池中。

第二方面，提供了一种交互任务的控制装置，包括：状态获取模块，用于获取交互任务中的交互状态；策略获取模块，用于将所述交互状态输入机器学习模型获取目标对象在所述交互任务中的控制策略；其中，所述机器学习模型由包括内部收益模型的机器训练网络训练而得，所述内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值；所述内部收益值表征所述机器学习模型在所述交互状态下的收敛程度；控制模块，用于基于所述控制策略控制所述目标对象进行交互操作。

结合第二方面，在第二方面的第一种实施方式中，所述机器训练网络包括自对弈模型以及由内部收益模型和外部收益模型构成的收益模型，其中，所述外部收益模型对用于训练的交互数据进行计算得到外部收益值，所述外部收益值为控制目标对象进行交互操作所得收益；所述机器训练网络包括：数据传输模块，用于将所述自对弈模型自对弈时生成的交互数据输入所述收益模型，获得训练数据；所述自对弈模型自对弈为采用机器学习模型控制目标对象以及与目标对象交互的交互对象进行交互；模型训练模块，用于基于所述训练数据训练所述机器学习模型。

结合第二方面的第一种实施方式，在第二方面的第二种实施方式中，所述模型训练模块，包括：数据传输单元，用于将所述训练数据输入所述机器学习模型，获得更新后的机器学习模型；数据反馈单元，用于将所述更新后的机器学习模型反馈至所述自对弈模型，迭代所述训练数据，以迭代更新所述机器学习模型。

结合第二方面的第一种实施方式，在第二方面的第三种实施方式中，所述数据传输模块，包括：特征收取单元，用于将所述自对弈模型自对弈生成的交互数据进行特征抽取，获得目标状态特征；其中，所述目标状态特征包括以单元方式表达的目标对象与交互对象的属性特征；特征传输单元，用于将所述目标状态特征输入所述收益模型，获得训练数据。

结合第二方面的第二种实施方式，在第二方面的第四种实施方式中，所述数据传输模块，包括：加载单元，用于将更新前和更新后的机器学习模型以预设比例加载至所述自对弈模型，获得所述自对弈模型自对弈时生成的交互数据；数据输入单元，用于将所述交互数据输入所述收益模型，获得训练数据和更新后的内部收益模型。

结合第二方面的第四种实施方式，在第二方面的第五种实施方式中，所述数据输入单元，包括：内部输入子单元，用于将所述交互数据输入所述内部收益模型获得内部收益值；外部输入子单元，用于将所述交互数据输入所述外部收益模型获得外部收益值；生成子单元，用于基于所述交互数据、内部收益值和外部收益值生成训练数据，并基于所述内部收益值更新所述内部收益模型。

结合第二方面的第五种实施方式，在第二方面的第六种实施方式中，所述内部收益模型包括用于确定所述交互数据相应交互状态的目标收益模型和用于拟合所述目标收益模型的预测收益模型，所述内部输入子单元用于：将所述交互数据输入所述目标收益模型，获得第一收益值；将所述交互数据输入所述预测收益模型，获得第二收益值；计算所述第一收益值与第二收益值差值的绝对值，并以内部收益值进行表示；所述生成子单元用于基于所述内部收益值更新所述预测收益模型。

结合第二方面的第四种实施方式，在第二方面的第七种实施方式中，所述自对弈模型包括控制所述交互对象的第一机器学习模型和控制所述目标对象的第二机器学习模型；所述加载单元，包括：第一加载子单元，用于将迭代更新预设次数后的机器学习模型加载至所述第一机器学习模型的模型池中；第二加载子单元，用于将每次迭代更新前和更新后的机器学习模型以预设比例加载至所述第二机器学习模型的模型池中。

第三方面，提供了一种电子设备，其包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行第一方面及第一方面任一种实施方式所述的交互任务的控制方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现第一方面及第一方面任一实施方式所述的交互任务的控制方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种交互任务的控制方法、装置、电子设备及存储介质，与现有技术相比，本申请采用的机器学习模型在训练过程中，通过内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值；其中，内部收益模型确定的交互状态为机器学习模型当前探索的交互状态，该内部收益值表征机器学习模型在当前探索的交互状态下的收敛程度；本申请的实施避免了机器学习模型对某一交互状态进行过多的探索而无法探索其他交互状态，提高了机器学习模型探索的效率，和加快了机器学习模型收敛的速度。在执行交互任务时，采用训练至收敛的机器学习模型基于交互状态获得控制策略的最优解，以通过该控制策略控制目标对象进行交互操作。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种交互任务的控制方法的流程示意图；

图2为本申请实施例提供的一种交互任务的控制方法的流程示意图；

图3为本申请实施例提供的一种交互任务的控制方法的流程示意图；

图4为本申请实施例提供的一种交互任务的控制方法的流程示意图；

图5为本申请实施例提供的一种交互任务的控制方法的流程示意图；

图6为本申请实施例提供的一种交互任务的控制方法的流程示意图；

图7为本申请实施例提供的一种交互任务的控制方法的流程示意图；

图8为本申请实施例提供的一种交互任务的控制方法的流程示意图；

图9为本申请实施例提供的一种交互任务的控制方法中机器学习模型在训练过程中内部收益值的计算流程；

图10为本申请实施例提供的一种交互任务的控制方法中对机器学习模型进行训练的机器训练网络的结构框图；

图11为本申请实施例提供的一种交互任务的控制装置的结构示意图；

图12为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍和解释：

交互任务：随着技术的发展，在多种终端上存在着许多关于交互任务的应用程序，终端用户在执行交互任务时，通过虚拟对象进行互动。执行交互任务的对象可以是终端用户与终端用户，或终端用户与机器(称为人机交互)；本申请实施例主要针对人机交互的交互任务，通过机器学习模型控制的虚拟对象(目标对象)与终端用户控制的虚拟对象(交互对象)进行交互，该交互任务可以一对一进行，也可以多对多进行。

机器学习模型：本申请实施例中，机器学习模型基于增强学习的方法训练而得，可以是RL(Reinforcement learning)模型，具体通过训练网络进行训练。通过向机器学习模型输入交互任务当前的交互状态可获得控制目标对象进行交互操作的控制策略。

控制策略：控制策略用于机器控制目标对象与终端用户控制的交互对象进行交互，该控制策略随着交互任务的进行实时更新。

目标状态特征：对交互任务中的交互数据进行特征收取而得，具体为在训练过程中，对采用自对弈执行交互任务时产生的交互数据进行特征抽取而得。目标状态特征包括基于当前的交互状态抽取的属性特征和行为特征；其中，属性特征包括交互任务中虚拟对象及设定对象的特征，其中，设定对象如用于虚拟对象在交互任务中执行交互操作增加收益的对象；行为特征包括虚拟对象和/或设定对象在交互任务中的行为特征，如虚拟对象死亡待复活的状态特征、虚拟对象在交互环境中所处位置的位置特征、设定对象被攻击的攻击特征等。该目标状态特征可以在交互任务的图像集合和后台数据中抽取，其具有时效性。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

在本申请实施例的交互任务的方法中，如图1所示，包括：

步骤S101：获取交互任务中的交互状态；

步骤S102：将所述交互状态输入机器学习模型获取目标对象在所述交互任务中的控制策略；其中，所述机器学习模型由包括内部收益模型的机器训练网络训练而得，所述内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值；所述内部收益值表征所述机器学习模型在所述交互状态下的收敛程度；

步骤S103：基于所述控制策略控制所述目标对象进行交互操作。

具体地，以下将本申请实施例的方法以执行主体为服务器进行说明，但其并不作为对本申请方案的限制。

其中，在步骤S101获取交互任务中的交互状态中，交互状态具有时效性，如交互任务开始后进行到第5秒时，对应第5秒的图像集合进行抽取获得交互状态。在一实施例中，获取交互任务中的交互状态是一个自交互任务开始至交互任务结束的持续步骤。其中，交互状态可通过深度学习模型获取，将交互任务所产生的图像集合或数据输入深度学习模型，由深度学习模型进行抽取。进一步地，基于交互任务中的图像集合获得的交互状态中，图像集合为包括至少一帧当前时刻对应的交互环境中的图像，通过该图像集合经深度学习模型可检测出当前的交互状态，如终端用户控制的虚拟对象所处位置，存活状态等。

其中，在步骤S102将所述交互状态输入机器学习模型获取目标对象在所述交互任务中的控制策略；其中，所述机器学习模型由包括内部收益模型的机器训练网络训练而得，所述内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值；所述内部收益值表征所述机器学习模型在所述交互状态下的收敛程度中，控制策略与交互状态一样具有时效性，机器学习模型根据获取的交互状态制定控制策略，在一种多对多的交互任务中，机器学习模型同时制定输出分别用于控制各个目标对象的控制策略。在本申请实施例中，应用于交互任务的控制方法中的机器学习模型已训练至收敛状态，该机器学习模型具体由机器训练网络训练而得。机器训练网络的结构中包括用于计算相应交互状态以及内部收益值的内部收益模型。在交互环境中，所执行的部分交互操作部分可获收益reward，执行可获收益交互操作所得收益对应于外部收益值，在训练过程中，外部收益值可促进机器学习模型对有收益的行为进行有效的探索。进一步地，本申请实施例中，内部收益模型基于用于训练的交互数据计算相应的交互状态与内部收益值，具体地，用于训练的交互数据为自对弈执行交互任务时形成的数据；内部收益值与交互状态的新颖程度关联；如，当前的交互状态A在机器学习模型训练的过程中是第一次出现，则特征A的新颖程度最高；交互状态B在机器学习模型训练的过程中是第十次出现，则特征B的新颖程度较特征A的新颖程度低；其中，当交互状态的新颖程度越高，内部收益模型计算所得的内部收益值越高；机器学习模型在不断地迭代训练过程中，其探索而得的交互状态相应的新颖程度将逐渐下降，内部收益模型计算所得的内部收益值也将逐渐变小。因此，内部收益模型将逐渐趋于收敛，机器学习模型在探索和利用两者的权衡中，更趋于利用，其将加快机器学习模型的收敛速度，有效地提高了模型的探索效率。在一实施例中，采用深度增强学习(PPO：ProximalPolicy Optimization)方法、A3C/DDPG等方法对机器学习模型进行训练。

其中，在步骤S103基于所述控制策略控制所述目标对象进行交互操作中，当机器学习模型根据获取的交互状态输出控制策略时，将根据该控制策略控制目标对象进行交互操作。具体地，步骤S103为自交互任务开始至交互任务结束过程中的一种持续性步骤，基于不断更新的交互状态，输出相应的控制策略控制目标对象进行交互操作。

在一实施例中，所述机器训练网络包括自对弈模型以及由内部收益模型和外部收益模型构成的收益模型，其中，所述外部收益模型对用于训练的交互数据进行计算得到外部收益值，所述外部收益值为控制目标对象进行交互操作所得收益；如图2所示，所述机器学习模型的训练步骤包括：

步骤S201：将所述自对弈模型自对弈时生成的交互数据输入所述收益模型，获得训练数据；所述自对弈模型自对弈为采用机器学习模型控制目标对象以及与目标对象交互的交互对象进行交互；

步骤S202：基于所述训练数据训练所述机器学习模型。

其中，步骤S201将所述自对弈模型自对弈时生成的交互数据输入所述收益模型，获得训练数据中，自对弈模型为机器训练网络中用于模拟交互环境实施交互任务的模型，所模拟的交互环境为自对弈环境，当自对弈模型自对弈时将产生交互数据，交互数据为执行交互任务中产生的数据。将该交互数据输入收益模型，包括输入内部收益模型和外部收益模型。在步骤S201中最终获得训练数据，该训练数据包括交互数据和收益模型根据交互数据输出的结果数据。进一步地，自对弈模型在进行自对弈时，通过机器学习模型获得控制目标对象与交互对象的控制策略，进而控制目标对象与交互对象进行交互操作；在交互任务中，目标对象与交互对象属于敌对关系。

其中，步骤S202基于所述训练数据训练所述机器学习模型中，采用步骤S201获得的训练数据作为机器学习模型的输入数据，以在不断地训练过程中使得机器学习模型趋于收敛。

在一实施例中，如图3所示，步骤S202基于所述训练数据训练所述机器学习模型，包括：

步骤S301：将所述训练数据输入所述机器学习模型，获得更新后的机器学习模型；

步骤S302：将所述更新后的机器学习模型反馈至所述自对弈模型，迭代所述训练数据，以迭代更新所述机器学习模型。

在本申请实施例中，机器学习模型的训练是一个循环迭代的过程，机器学习模型根据训练数据进行训练，每一次机器学习模型的执行过程都是一次训练过程，每一次训练均获得更新后的机器学习模型和更新后的参数(构建模型的参数)；在实现循环迭代的过程中，将更新后的机器学习模型反馈至自对弈模型，以使自对弈模型根据更新后的机器学习模型继续进行自对弈的交互任务，从而迭代训练数据；经步骤S201不断得出迭代的训练数据后，机器学习模型也相应地迭代更新。

在一实施例中，请参照图4，步骤S201将所述自对弈模型自对弈时生成的交互数据输入所述收益模型，获得训练数据，包括：

S401将所述自对弈模型自对弈生成的交互数据进行特征抽取，获得目标状态特征；其中，所述目标状态特征包括以单元方式表达的目标对象与交互对象的属性特征；

S402将所述目标状态特征输入所述收益模型，获得训练数据。

其中，步骤S401将所述自对弈模型自对弈生成的交互数据进行特征抽取，获得目标状态特征中，可通过深度学习模型根据自对弈模型自对弈的交互任务中的交互数据中抽取目标状态特征。具体地，目标状态特征包括属性特征、行为特征、表征全局信息的全局特征(global特征)和表征局部信息的局部特征等，其可采用单元(unit)+网格(imglike)的特征组织方式表示；可采用单元方式表达属性特征和/或行为特征，以网格方式表达交互环境中局部信息的局部特征。其中，属性特征指代交互环境中各对象(虚拟对象、设定对象)的状态数据；行为特征指代交互环境中被控制的虚拟对象的状态数据；全局特征指代交互环境中的交互状态数据；局部特征指代交互环境中被控制的虚拟对象、障碍物、设定对象等处于当前位置下可操作交互范围的状态数据。

在上述实施例中，以单元方式表达虚拟对象的属性特征，其将使得机器学习模型在执行过程中共享相同单元之间的参数，减少了机器学习模型的参数量，提高了机器学习模型输出控制策略的速度。进一步地，交互任务中各虚拟对象与设定对象均可采用单元方式表达各自的属性特征。相应地，机器学习模型在训练过程中同样以单元方式表达虚拟对象与设定对象的属性特征，各相同的单元间共享参数，减少了模型的参数量，有利于提高模型的训练效率。

相应于上述实施例，在一种多对多的交互任务中，机器学习模型的网络结构采用多主体(multi agent)的结构，其可使得机器学习模型在学习每个需要控制的目标对象的参数时同时学习到其他目标对象的参数，也即每个虚拟对象间可共享参数。该多主体结构的实施有利于降低模型所需参数量，并同时间输出各个目标对象的控制策略，减少机器学习模型输出控制策略的耗时，提高进行交互操作的效率。进一步地，在机器学习模型的训练过程中，由于采用多主体结构，每个虚拟对象共享参数，其使得机器学习模型可同时间输出对所有目标对象的控制策略，有效减少了训练过程中，进行自对弈时机器学习模型输出预测的控制策略的耗时，提高自对弈过程和整个训练过程的效率。具体地，为了实现各个虚拟对象间的信息交流，在对各个虚拟对象的特征进行编码后引入编码通信。

在步骤S402将所述目标状态特征输入所述收益模型，获得训练数据中，训练网络中为减少参数量，提高训练的效率，输入收益模型的数据同样可采用目标状态特征，也便于减少收益模型的计算量。进一步地，本申请实施例获得的训练数据包括目标状态特征与收益模型的输出结果。

在一实施例中，如图5所示，步骤S301将所述自对弈模型自对弈时生成的交互数据输入所述收益模型，获得训练数据，包括：

步骤S501：将更新前和更新后的机器学习模型以预设比例加载至所述自对弈模型，获得所述自对弈模型自对弈时生成的交互数据；

步骤S502：将所述交互数据输入所述收益模型，获得训练数据和更新后的内部收益模型。

其中，在步骤S501将更新前和更新后的机器学习模型以预设比例加载至所述自对弈模型，获得所述自对弈模型自对弈时生成的交互数据中，机器训练网络存储有更新前和更新后的机器学习模型，具体地，其将存储每一次更新后的机器学习模型。机器训练网络将根据预设比例抽取更新前和更新后的机器学习模型加载至自对弈模型，获得自对弈模型进行自对弈时生成的交互数据。

其中，在步骤S502将所述交互数据输入所述收益模型，获得训练数据和更新后的内部收益模型中，机器训练网络将交互数据输入收益模型后，将获得包括交互数据、内部收益值和外部收益值的训练数据，同时，内部收益模型将根据输入的交互数据更新，也即在机器学习模型的训练过程中内部收益模型同在训练过程。

在一实施例中，如图6所示，步骤S502将所述交互数据输入所述收益模型，获得训练数据和更新后的内部收益模型，包括：

步骤S601：将所述交互数据输入所述内部收益模型获得内部收益值；

步骤S602：将所述交互数据输入所述外部收益模型获得外部收益值；

步骤S603：基于所述交互数据、内部收益值和外部收益值生成训练数据，并基于所述内部收益值更新所述内部收益模型。

其中，训练数据包括由内部收益模型计算而得的内部收益值、由外部收益模型计算而得的外部收益值、和交互数据；其中，当交互数据包括相应的交互状态以及虚拟对象进行交互操作的动作时，训练数据具体表现为<交互状态、动作、外部收益值、内部收益值>对。随着模型的训练，机器学习逐渐趋向收敛，其中内部收益模型也趋向收敛，当训练进行到后期时，内部收益值趋向于0，此时将剩余包括外部收益值和交互数据的训练数据对机器学习模型进行训练。具体地，收益模型采用GEA(generalized advantage estimator)方法对收益advantage进行计算。

在一实施例中，所述内部收益模型包括用于确定所述交互数据相应交互状态的目标收益模型和用于拟合所述目标收益模型的预测收益模型，如图7所示，步骤S601将所述交互数据输入所述内部收益模型获得内部收益值，包括：

步骤S701：将所述交互数据输入所述目标收益模型，获得第一收益值；

步骤S702：将所述交互数据输入所述预测收益模型，获得第二收益值；

步骤S703：计算所述第一收益值与第二收益值差值的绝对值，并以内部收益值进行表示。

步骤S603基于所述内部收益值更新所述内部收益模型，包括：基于所述内部收益值更新所述预测收益模型。

其中，目标收益模型采用设定参数，以交互任务中当前时刻的交互数据为输入，通过网络后输出目标收益模型的模型结果(交互数据相应的目标交互状态、第一收益值)；预测收益模型用于拟合目标收益模型的输出，在初始化时采用随机参数，以交互任务中当前时刻的交互数据为输入，通过网络后输出预测收益模型的模型结果(预测交互数据相应的预测交互状态、第二收益值)。内部收益模型采用预测误差的数据表示内部收益值，当机器学习模型探索的交互状态越多时(不同的交互状态)，预测收益模型对目标收益模型的拟合约好，预测误差的数据越小，即内部收益值越小。即在本申请实施例中，如图9所示，内部收益值其中f为预测收益模型所得的第二收益值,/>为目标收益模型所得的第一收益值。其中，第一收益值与第二收益值可通过设定标签表示。具体地，目标收益模型和预测收益模型均采用和策略网络相似的网络结构，进一步地，为减少模型训练耗时，可缩减交互任务中交互环境的参数。其中，第一收益值和第二收益值差值的绝对值为内部收益值，当所述内部收益值趋向于预设数值时，所述机器学习模型将趋于采用外部收益值进行训练；在一实施例中，预设数值为0。具体地，目标收益模型为设定模型，预测收益模型用于拟合目标收益模型，在对机器学习模型训练的过程中，预测收益模型也同步进行迭代更新。

在机器学习模型的训练过程中，将自对弈产生的交互数据作为收益模型的输入，其中目标收益模型对交互数据进行计算得出交互数据相应的目标交互状态，目标交互状态可理解为正样本数据；预测收益模型对交互数据进行计算得出对预测交互状态；将预测收益模型拟合目标收益模型可计算得出预测交互状态与目标交互状态之间的误差(第一收益值与第二收益值差值的绝对值，即内部收益值)。训练后期，预测收益模型所得预测交互状态趋于与目标收益模型所得目标交互状态相同；即，机器学习模型在对交互状态不断的探索过程中，当探索而得的交互状态越新颖时，内部收益值越大；当探索而得的交互状态新颖程度下降时，内部收益值也逐渐变小。通过内部收益值表征机器学习模型在某一交互状态下的收敛程度，如，当机器学习模型对探索而得的交互状态A已训练至收敛时，则在下次再探索得到交互状态A时，不再利用交互状态A对机器学习模型进行训练，促使机器学习模型探索更多其他的交互状态，有利于平衡探索和利用，提高机器学习模型的探索效率，加快机器学习模型的收敛速度。

在一实施例中，所述自对弈模型包括控制所述交互对象的第一机器学习模型和控制所述目标对象的第二机器学习模型；如图8所示，步骤S501将更新前和更新后的机器学习模型以预设比例加载至所述自对弈模型，包括：

步骤S801：将迭代更新预设次数后的机器学习模型加载至所述第一机器学习模型的模型池中；

步骤S802：将每次迭代更新前和更新后的机器学习模型以预设比例加载至所述第二机器学习模型的模型池中。

其中，自对弈模型中包括用于模拟终端用户控制交互对象的第一机器学习模型，以及用于模拟机器控制目标对象的第二机器学习模型，其具体为机器与机器交互的对战过程。在本申请中，模拟机器控制目标对象的第二机器学习模型伴随着机器学习模型的更新而更新，其具体为将每次迭代更新前和更新后的机器学习模型以预设比例加载至所述第二机器学习模型的模型池中(如加载80％更新后的机器学习模型，20％更新前的机器学习模型)；模拟终端用户控制交互对象的第一机器学习模型也伴随着机器学习模型的更新而更新，避免在训练后期第一机器学习模型能力较弱使得无法继续进行自对弈对战，也有利于提高机器学习模型训练所得的能力，其具体为将迭代更新预设次数后的机器学习模型加载至所述第一机器学习模型的模型池中。

在本申请实施例中，机器学习模型的训练过程还包括能力评估阶段，对迭代更新的机器学习模型进行评估，当模型达到一定的能力或训练时长达预设时长后停止对模型的训练；否则继续进行迭代训练。

在一实施例中，如图10所示，提供一种机器训练网络的结构，以进一步叙述本申请实施例中机器学习模型的训练过程。具体地，机器训练网络10包括三个主要模块：自对弈模块11、收益模块12、和模型训练模块13。其中，自对弈模块11包括特征抽取模型111和自对弈模型112；收益模块12包括外部收益模型121和内部收益模型122；内部收益模型122包括目标收益模型1221和预测收益模型1222；模型训练模块13包括机器学习模型131。

在训练过程中，自对弈模块11通过特征抽取模型111抽取自对弈模型112在模拟自对弈的交互任务中的交互数据；其中特征抽取模型111可采用深度学习模型搭建，对目标状态特征进行抽取。自对弈模块11将交互数据传输至收益模块12，通过外部收益模型121和内部收益模型122计算得到外部收益值和内部收益值；进而自对弈模块11基于交互数据、内部收益值和外部收益值生成训练数据传输至模型训练模块13，通过机器学习模型131学习训练数据，并获得更新后的机器学习模型131并将其反馈至自对弈模块11中，以循环迭代训练数据和机器学习模型131。其中，内部收益值由内部收益模型122中的预测收益模型1222拟合目标收益模型1221的输出而得，拟合过程中更新预测收益模型1222。

在一实施例中，提供一种应用本申请交互任务的控制方法的应用实施例。在一种多人在线战术竞技游戏(MOBA:Multiplayer Online Battle Arena)中，终端用户可以选择进行人机交互的竞技模式，其可以是一对一，也可以是多对多，通过终端用户控制虚拟对象(交互对象)和机器控制虚拟对象(目标对象)进行交互，在一场交互任务中，双方可获得各自的收益(外部收益值)，并通过该收益增强自身控制虚拟对象的技能，以其中一方取得胜利或投降而结束交互任务。本申请实施例以5V5的人机交互的竞技模式为例进行说明。当终端用户选择5V5的人机交互模式时，将形成由5个终端用户各自控制1个交互对象(共5个交互对象)，和由机器控制5个目标对象的交互环境。在开始交互任务后，终端用户和机器将可控制虚拟对象执行攻击、游走等交互操作，完成设定的可获收益交互操作可获取一定的收益，如由终端用户控制的交互对象将机器控制的目标对象击杀后，该终端用户控制的虚拟对象将获得一定的收益(外部收益值)；由终端用户控制的交互对象击杀交互环境中非控制的设定对象时，所有交互对象均将获得一定的收益(外部收益值)；在交互任务结束后，取胜方与落败方将各自获得一定比例的收益(外部收益值)，该收益可用于提升虚拟对象在后续交互任务中的技能水平。在人机交互的过程中，机器将实时获取交互任务中的交互状态输入机器学习模型，以获取与当前交互任务的交互状态相应的控制策略，并根据该控制策略控制目标对象进行交互操作。

在一实施例，如图11所示，提供了一种交互任务的控制装置01，包括：

状态获取模块011，用于获取交互任务中的交互状态；

策略获取模块012，用于将所述交互状态输入机器学习模型获取目标对象在所述交互任务中的控制策略；其中，所述机器学习模型由包括内部收益模型的机器训练网络训练而得，所述内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值；所述内部收益值表征所述机器学习模型在所述交互状态下的收敛程度；

控制模块013，用于基于所述控制策略控制所述目标对象进行交互操作。

在一实施例中，所述机器训练网络包括自对弈模型以及由内部收益模型和外部收益模型构成的收益模型，其中，所述外部收益模型对用于训练的交互数据进行计算得到外部收益值，所述外部收益值为控制目标对象进行交互操作所得收益；所述机器训练网络包括：

数据传输模块，用于将所述自对弈模型自对弈时生成的交互数据输入所述收益模型，获得训练数据；所述自对弈模型自对弈为采用机器学习模型控制目标对象以及与目标对象交互的交互对象进行交互；

模型训练模块，用于基于所述训练数据训练所述机器学习模型。

在一实施例中，所述模型训练模块，包括：

数据传输单元，用于将所述训练数据输入所述机器学习模型，获得更新后的机器学习模型；

数据反馈单元，用于将所述更新后的机器学习模型反馈至所述自对弈模型，迭代所述训练数据，以迭代更新所述机器学习模型。

在一实施例中，所述数据传输模块，包括：

特征收取单元，用于将所述自对弈模型自对弈生成的交互数据进行特征抽取，获得目标状态特征；其中，所述目标状态特征包括以单元方式表达的目标对象与交互对象的属性特征；

特征传输单元，用于将所述目标状态特征输入所述收益模型，获得训练数据。

在一实施例中，所述数据传输模块，包括：

加载单元，用于将更新前和更新后的机器学习模型以预设比例加载至所述自对弈模型，获得所述自对弈模型自对弈时生成的交互数据；

数据输入单元，用于将所述交互数据输入所述收益模型，获得训练数据和更新后的内部收益模型。

在一实施例中，所述数据输入单元，包括：

内部输入子单元，用于将所述交互数据输入所述内部收益模型获得内部收益值；

外部输入子单元，用于将所述交互数据输入所述外部收益模型获得外部收益值；

生成子单元，用于基于所述交互数据、内部收益值和外部收益值生成训练数据，并基于所述内部收益值更新所述内部收益模型。

在一实施例中，所述内部收益模型包括用于确定所述交互数据相应交互状态的目标收益模型和用于拟合所述目标收益模型的预测收益模型，所述内部输入子单元用于：

将所述交互数据输入所述目标收益模型，获得第一收益值；

将所述交互数据输入所述预测收益模型，获得第二收益值；

计算所述第一收益值与第二收益值差值的绝对值，并以内部收益值进行表示；

所述生成子单元用于基于所述内部收益值更新所述预测收益模型。

在一实施例中，所述自对弈模型包括控制所述交互对象的第一机器学习模型和控制所述目标对象的第二机器学习模型；所述加载单元，包括：

第一加载子单元，用于将迭代更新预设次数后的机器学习模型加载至所述第一机器学习模型的模型池中；

第二加载子单元，用于将每次迭代更新前和更新后的机器学习模型以预设比例加载至所述第二机器学习模型的模型池中。

本申请实施例的交互任务的控制装置可执行本申请的实施例所提供的一种交互任务的控制方法，其实现原理相类似，本申请各实施例中的交互任务的控制装置中的各模块所执行的动作是与本申请各实施例中的交互任务的控制方法中的步骤相对应的，对于交互任务的控制装置的各模块的详细功能描述具体可以参见前文中所示的对应的交互任务的控制方法中的描述，此处不再赘述。

基于与本申请的实施例中所示的方法相同的原理，本申请的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机操作指令；处理器，用于通过调用计算机操作指令执行实施例所示的交互任务的控制方法。与现有技术相比，本申请采用的机器学习模型在训练过程中，通过内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值，其中，内部收益模型确定的交互状态为机器学习模型当前探索的交互状态，该内部收益值表征机器学习模型在当前探索的交互状态下的收敛程度；本申请的实施避免了机器学习模型对某一交互状态进行过多的探索而无法探索其他交互状态，提高了机器学习模型探索的效率，和加快了机器学习模型收敛的速度。在执行交互任务时，采用训练至收敛的机器学习模型基于交互状态获得控制策略的最优解，以通过该控制策略控制目标对象进行交互操作。

在一个可选实施例中提供了一种电子设备，如图12所示，图12所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图12示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请采用的机器学习模型在训练过程中，通过内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值，其中，内部收益模型确定的交互状态为机器学习模型当前探索的交互状态，该内部收益值表征机器学习模型在当前探索的交互状态下的收敛程度；本申请的实施避免了机器学习模型对某一交互状态进行过多的探索而无法探索其他交互状态，提高了机器学习模型探索的效率，和加快了机器学习模型收敛的速度。在执行交互任务时，采用训练至收敛的机器学习模型基于交互状态获得控制策略的最优解，以通过该控制策略控制目标对象进行交互操作。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，状态获取模块还可以被描述为“用于获取交互任务中的交互状态的模块”。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种交互任务的控制方法，其特征在于，包括：

获取交互任务中的交互状态；

将所述交互状态输入机器学习模型获取目标对象在所述交互任务中的控制策略；

基于所述控制策略控制所述目标对象进行交互操作；

其中，所述机器学习模型由机器训练网络训练而得，所述机器训练网络包括自对弈模型以及由内部收益模型和外部收益模型构成的收益模型，所述内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值；所述内部收益值表征所述机器学习模型在所述交互状态下的收敛程度；所述外部收益模型对用于训练的交互数据进行计算得到外部收益值，所述外部收益值为控制目标对象进行交互操作所得收益；所述机器学习模型的训练步骤包括：

将所述自对弈模型自对弈时生成的交互数据输入所述收益模型，获得训练数据；所述自对弈模型自对弈为采用机器学习模型控制目标对象以及与目标对象交互的交互对象进行交互；

基于所述训练数据训练所述机器学习模型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述训练数据训练所述机器学习模型，包括：

将所述训练数据输入所述机器学习模型，获得更新后的机器学习模型；

将所述更新后的机器学习模型反馈至所述自对弈模型，迭代所述训练数据，以迭代更新所述机器学习模型。

3.根据权利要求1所述的方法，其特征在于，所述将所述自对弈模型自对弈时生成的交互数据输入所述收益模型，获得训练数据，包括：

将所述自对弈模型自对弈生成的交互数据进行特征抽取，获得目标状态特征；其中，所述目标状态特征包括以单元方式表达的目标对象与交互对象的属性特征；

将所述目标状态特征输入所述收益模型，获得训练数据。

4.根据权利要求2所述的方法，其特征在于，所述将所述自对弈模型自对弈时生成的交互数据输入所述收益模型，获得训练数据，包括：

将更新前和更新后的机器学习模型以预设比例加载至所述自对弈模型，获得所述自对弈模型自对弈时生成的交互数据；

将所述交互数据输入所述收益模型，获得训练数据和更新后的内部收益模型。

5.根据权利要求4所述的方法，其特征在于，所述将所述交互数据输入所述收益模型，获得训练数据和更新后的内部收益模型，包括：

将所述交互数据输入所述内部收益模型获得内部收益值；

将所述交互数据输入所述外部收益模型获得外部收益值；

基于所述交互数据、内部收益值和外部收益值生成训练数据，并基于所述内部收益值更新所述内部收益模型。

6.根据权利要求5所述的方法，其特征在于，所述内部收益模型包括用于确定所述交互数据相应交互状态的目标收益模型和用于拟合所述目标收益模型的预测收益模型，所述将所述交互数据输入所述内部收益模型获得内部收益值，包括：

将所述交互数据输入所述目标收益模型，获得第一收益值；

将所述交互数据输入所述预测收益模型，获得第二收益值；

所述基于所述内部收益值更新所述内部收益模型包括：基于所述内部收益值更新所述预测收益模型。

7.根据权利要求4所述的方法，其特征在于，所述自对弈模型包括控制所述交互对象的第一机器学习模型和控制所述目标对象的第二机器学习模型；所述将更新前和更新后的机器学习模型以预设比例加载至所述自对弈模型，包括：

将迭代更新预设次数后的机器学习模型加载至所述第一机器学习模型的模型池中；

将每次迭代更新前和更新后的机器学习模型以预设比例加载至所述第二机器学习模型的模型池中。

8.一种交互任务的控制装置，其特征在于，包括：

状态获取模块，用于获取交互任务中的交互状态；

策略获取模块，用于将所述交互状态输入机器学习模型获取目标对象在所述交互任务中的控制策略；

控制模块，用于基于所述控制策略控制所述目标对象进行交互操作

其中，所述机器学习模型由机器训练网络训练而得，所述机器训练网络包括自对弈模型以及由内部收益模型和外部收益模型构成的收益模型，所述内部收益模型对用于训练的交互数据进行计算得到相应的交互状态和内部收益值；所述内部收益值表征所述机器学习模型在所述交互状态下的收敛程度；所述外部收益模型对用于训练的交互数据进行计算得到外部收益值，所述外部收益值为控制目标对象进行交互操作所得收益；所述装置中还包括用于训练机器学习模型的下述模块：

模型训练模块，基于所述训练数据训练所述机器学习模型。

9.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1～7任一项所述的交互任务的控制方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1～7任一项所述的交互任务的控制方法。