CN111589166A

CN111589166A - 交互式任务控制、智能决策模型训练方法、设备和介质

Info

Publication number: CN111589166A
Application number: CN202010415409.5A
Authority: CN
Inventors: 季兴; 纪晓龙; 朱晓龙; 汤善敏; 周正; 李宏亮; 张正生; 刘永升
Original assignee: Shenzhen Haipu Parameter Technology Co ltd
Current assignee: Shenzhen Haipu Parameter Technology Co ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-08-28

Abstract

本申请公开了一种交互式任务控制、智能决策模型训练方法、设备和介质，交互式任务的运行过程包括为多个子任务的执行过程，子任务能够由用户的操作控制执行或者由虚拟对象的操作控制执行；方法包括：获取团队中多个虚拟对象各自的观察变量；对团队中多个虚拟对象的观察变量进行融合处理，得到团队的全局变量数据；基于智能决策模型，根据全局变量数据确定团队中多个虚拟对象各自的动作指令；根据动作指令控制执行虚拟对象对应的子任务。使得团队中每个虚拟对象的观察变量的时间点都是一致的，做动作的时间点也是一致的，减少了团队中不同虚拟对象之间的动作延迟，防止延迟和动作不同步导致的有效配合降低等问题。

Description

交互式任务控制、智能决策模型训练方法、设备和介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种交互式任务控制、智能决策模型训练方法、设备和介质。

背景技术

随着现代经济繁荣发展，电子游戏的不断进步和提升，现在已经成为人们主要的休闲娱乐方式之一。游戏中非玩家角色的行为决策是影响游戏质量和用户体验的重要因素。传统游戏人工智能的实现是通过行为树(behavior tree)来实现，根据智能体处在不同的环境和状态采取不同的策略。

基于行为树的方法是根据人类对特定游戏的理解，将智能体的决策逻辑以行为树的形式进行建模，行为树中的每个节点逻辑判断都有人类手工设定，例如智能体的位置到达哪里就进行防御或者攻击，确定好整个行为树的逻辑判断之后，智能体就会按照行为树的逻辑来执行动作。然而随着游戏状态增加，环境因素越来越复杂，通过传统的行为树方式显得复杂和效率低下。近年来，随着深度学习(deep learning)的快速发展，基于深度学习的游戏AI建模方法将数据作为驱动力，从数据中学习观察变量和动作之间的映射关系，将简单的行为树逻辑转换为复杂的函数映射，随之也取得更加好的效果。

基于深度学习的建模方法中，多智能体的建模尤为复杂。多智能体的建模会将每个智能体的观察变量进行分别建模，得到每个智能体所对应的动作，然后发送给游戏内核。这样的处理方式会带来以下问题：由于每个智能体的动作进行独立的处理，不同的智能体所做的动作容易存在不同步，可能会产生信息不同步导致的失误。

发明内容

本申请实施例提供一种交互式任务控制方法、智能决策模型训练方法、设备和存储介质，能够减少团队中不同虚拟对象动作之间的不同步。

第一方面，本申请提供了一种交互式任务控制方法，所述交互式任务的运行过程包括为多个子任务的执行过程，所述子任务能够由用户的操作控制执行或者由虚拟对象的操作控制执行；所述方法包括：

获取团队中多个虚拟对象各自的观察变量；

对所述团队中多个虚拟对象的观察变量进行融合处理，得到所述团队的全局变量数据；

基于智能决策模型，根据所述全局变量数据确定所述团队中多个虚拟对象各自的动作指令；

根据所述动作指令控制执行所述虚拟对象对应的子任务。

第二方面，本申请提供了一种智能决策模型的训练方法，所述智能决策模型用于交互式任务的控制，所述交互式任务的运行过程包括为多个子任务的执行过程，所述子任务能够由用户的操作控制执行或者由虚拟对象的操作控制执行；所述方法包括：

获取团队中多个虚拟对象各自的观察变量；

对多个所述观察变量进行融合处理，得到所述团队的全局变量数据；

基于待训练的智能决策模型，根据所述全局变量数据确定所述团队中多个虚拟对象各自的动作指令；

获取各所述虚拟对象根据对应的动作指令执行动作的回报数据；

根据所述回报数据对所述待训练的智能决策模型训练。

第三方面，本申请提供了一种计算机设备，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现前述的交互式任务控制方法。

第四方面，本申请提供了一种计算机设备，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现前述的智能决策模型训练方法。

第五方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，若所述计算机程序被处理器执行，实现上述的交互式任务控制方法。

第六方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，若所述计算机程序被处理器执行，实现上述的智能决策模型训练方法。

本申请公开了一种交互式任务控制方法、智能决策模型训练方法、设备和存储介质，通过将团队中多个虚拟对象的观察变量进行融合处理得到团队的全局变量数据，然后将基于智能决策模型根据全局变量数据确定团队中多个虚拟对象各自的动作指令，使得每次控制虚拟对象的子任务的执行都是以团队为单位的，团队中每个虚拟对象的观察变量的时间点都是一致的，做动作的时间点也是一致的，减少了团队中不同虚拟对象之间的动作延迟，防止延迟和动作不同步导致的有效配合降低等问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例的交互式任务控制方法的流程示意图；

图2为交互式任务控制方法的应用场景示意图；

图3是目前多智能体的处理流程示意图；

图4是本申请一实施例的AI服务器控制交互式任务执行的示意图；

图5为本申请另一实施例的智能决策模型的训练方法的流程示意图；

图6为本申请一实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请的实施例提供了一种交互式任务控制方法、智能决策模型训练方法、设备和存储介质。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请的实施例提供的一种交互式任务控制方法的流程示意图。

图2为一个实施例中交互式任务控制方法的应用场景示意图。参照图2，该交互式任务控制方法应用于交互式任务的控制系统。该交互式任务的控制系统包括终端110、第一服务器120和第二服务器130。终端110、第一服务器120和第二服务器130之间通过网络连接，如图2所示。用户可以通过终端110进行交互式任务。交互式任务的运行过程包括为多个子任务的执行过程，具体的，多个子任务在第一服务器120上执行，例如由游戏内核执行；所述子任务能够由用户在终端110上的操作控制执行或者由虚拟对象的操作控制执行。

示例性的，终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。第一服务器120可以是用于运行交互式任务的服务器，如游戏服务器，可以用独立的服务器或者是多个服务器组成的服务器集群来实现。第二服务器130可以是向第一服务器提供角色竞逐策略的AI(Artificial Intelligence，人工智能)服务器，可以用独立的服务器或者是多个服务器组成的服务器集群来实现。此外，第一服务器120和第二服务器130可以是独立的两个服务器，也可以是属于同一个服务器中的两个服务模块。

示例性的，游戏参与玩家通过终端110参与游戏时，由于游戏存在多种模式，包括人机对战模式、快速匹配模式和真人对战模式等，因此游戏参与玩家可以选择不同的游戏模式参与游戏，当游戏参与玩家选择游戏模式之后，终端110生成选择的游戏模式对应的游戏控制指令，并将该游戏控制指令发送至第一服务器120，以供第一服务器120调用对应的游戏数据。具体的，在人机对战模式一个或多个游戏参与玩家为一个团队，一个或多个虚拟对象为另一个团队，游戏参与玩家的团队和虚拟对象的团队之间进行对战，例如虚拟对象可以由第二服务器13基于智能决策模型生成控制指令进行控制。具体的，在快速匹配模式等模式下，虚拟对象可以作为游戏填充的智能体，减少用户等待时间。此外，虚拟对象通常具有较高的智能水平；也可以作为PVE竞技玩法，挑战高水平AI。其中PVE的全称是PlayerVS Environment，也即玩家vs环境，又被称作PVC(Player Vs Computer)，在网络游戏中，主要指挑战强大的BOSS等活动。虚拟对象的存在可以扩展游戏玩法，对提升游戏可玩性都有更加积极的意义。

示例性的，第一服务器120将交互式任务的任务状态发送给第二服务器130，第二服务器130根据交互式任务的任务状态确定虚拟对象在交互式任务中的操作策略，根据该操作策略控制虚拟对象控制执行所述虚拟对象对应的子任务，例如实现人机游戏。

虚拟对象也可以称为智能体。在游戏人工智能中，通常根据智能体数量的不同将游戏分为：单智能体游戏和多智能体游戏。单智能体的游戏包括：愤怒的小鸟、flappy bird等；多智能体的游戏包括：围棋、德州扑克、王者荣耀、、DOTA等。多智能体的游戏相对来说比单智能体的建模要复杂的多，在多智能体的游戏中例如：王者荣耀、DOTA等存在团队(team)的概念，不同的团队之间存在竞争，同一团队中不同的智能体之间存在合作，然而队伍数量多于2个的相对较少，也相对更加复杂，因此基于团队的多智能体建模方法是一个非常复杂的任务。

请结合图3，本申请的发明人发现，目前的多智能体的处理流程一般包含以下步骤：AI模型(Artificial Intelligence，人工智能)从游戏内核中获取单个智能体的观察变量(obs_ervation)，如obs_3；AI模型根据该单个智能体的观察变量obs_3，产生单个智能体的动作act3；将该智能体的动作act3发送给游戏内核，以更新游戏内核的环境变量。如此循环，就可以不断地推进任务状态的进行，直到结束。

本申请的发明人发现，目前的多智能体的处理流程存在以下问题：1)每个智能体只能获取到对应的观察变量，所做的决策也只能根据对应的观察变量，这对于团队的游戏来说，缺少了团队游戏中沟通和合作的部分；2)每个智能体都是基于相同的AI模型，都是相同的角色定位，按照相同的逻辑产生相应的动作，缺少差异性和团队角色定位；3)由于每个智能体进行单独的处理，不同的智能体之间获取的观察变量可能存在不同步，所做的动作也可能存在不同步，对于团队配合的游戏，可能会产生信息不同步导致的失误，影响用户体验。

本实施例主要以该方法应用于上述图2中的第二服务器130(后续实施例中称为AI服务器)来举例说明。

如图1所示，交互式任务控制方法包括以下步骤S110至步骤S140。

步骤S110、获取团队中多个虚拟对象各自的观察变量。

以人机对战游戏模式为例，例如在mVm对战模式下，第一方团队有m个人类玩家，另一方团队有m个虚拟对象，m为大于1的整数。则AI服务器可以获取m个虚拟对象各自的观察变量，如图4所示，AI服务器从游戏内核获取m个观察变量obs_1、obs_2、obs_3、…、obs_m。

在一些实施方式中，虚拟对象的观察变量可以包括所述虚拟对象的个人属性、同屏物体和/或地图数据等信息，所述个人属性可以包括血量、弹药数、击杀数和视角等，所述同屏物体可以包括同屏视野内敌人位置等，所述地图数据可以包括地图描述文件、队友位置坐标和自己位置坐标等。示例性的，血量表示虚拟对象当前的血量百分比，弹药数表示虚拟对象当前剩余的弹药数量，击杀数表示虚拟对象当前的杀敌数量，视角表示虚拟对象当前的朝向。示例性的，地图描述文件用于描述全局地图的可行区域和障碍物，即地图坐标系中每一点是否可达；队友位置坐标表示队友在全局地图中的位置，自己位置坐标表示自己在全局地图中的位置。

示例性的，可以根据预设规则一次性从游戏内核获取团队中多个虚拟对象各自的观察变量，例如每隔预设时长获取一次，或者可以根据从游戏内核获取的游戏进程信息从游戏内核获取团队中多个虚拟对象各自的观察变量。可以理解的，每一次获取到的不同虚拟对象的观察变量对应的时刻是相同的，因此AI服务器可以根据同步的信息作出决策，决策可以更准确。

步骤S120、对所述团队中多个虚拟对象的观察变量进行融合处理，得到所述团队的全局变量数据。

通过将团队中多个虚拟对象的观察变量进行融合处理，得到适合智能决策模型输入的全局变量数据，以使智能决策模型可以输入同时获取的一个团队的观察变量，根据同步的信息作出决策。

在一些实施方式中，步骤S120对所述团队中多个虚拟对象的观察变量进行融合处理，得到所述团队的全局变量数据，包括：对所述团队中多个虚拟对象的观察变量各自进行映射处理，得到所述多个虚拟对象各自的特征向量，其中，所述映射处理包括卷积处理、池化处理、全连接处理中的至少一项；将所述多个虚拟对象的特征向量进行融合，得到所述团队的全局变量数据。

示例性的，对观察变量obs_1进行映射处理，得到特征向量feature_1；对观察变量obs_2进行映射处理，得到特征向量feature_2；对观察变量obs_m进行映射处理，得到特征向量feature_m。

示例性的，如图4所示，基于特征提取模型从所述观察变量，如feature_1提取出对应的特征向量，特征提取模型可以包括深度神经网络(Deep Neural Network，DNN)。示例性的，用基于深度学习的方法将每个虚拟对象的观察变量进行映射，例如先将观察变量输入特征提取模型，由特征提取模型对观察变量进行卷积(convolution)，池化(pooling)，全连接(fully-connected)等操作，之后特征提取模型输出虚拟对象对应的特征向量，如feature_1。示例性的，特征向量是一维的向量，其长度可以根据观察变量中包含信息的多少确定或根据AI服务器的决策精度确定。通过将观察变量进行映射处理得到特征向量，便于将特征向量融合得到所述团队的全局变量数据。

在一些实施方式中，所述将所述多个虚拟对象的特征向量进行融合，得到所述团队的全局变量数据，包括：将所述多个虚拟对象依次作为目标虚拟对象，以及将所述目标虚拟对象的特征向量和所述团队中其余虚拟对象的特征向量拼接，得到所述目标虚拟对象的目标变量数据；将所述多个虚拟对象的目标变量数据融合，得到所述团队的全局变量数据。

示例性的，先将第一个虚拟对象作为目标虚拟对象，将其特征向量feature_1和其余虚拟对象的特征向量feature_2、feature_3、…、feature_m拼接，得到第一个虚拟对象的目标变量数据；将第m个虚拟对象作为目标虚拟对象，将其特征向量feature_m和其余虚拟对象的特征向量feature_1、feature_2、…、feature_m-1拼接，得到第m个虚拟对象的目标变量数据。

示例性的，可以将m个虚拟对象的目标变量数据再次拼接，得到团队的全局变量数据。

在另一些实施方式中，步骤S120对所述团队中多个虚拟对象的观察变量进行融合处理，得到所述团队的全局变量数据，包括：对所述团队中多个虚拟对象的观察变量进行拼接处理，得到全局观察变量；对全局观察变量进行映射处理，得到所述团队的全局变量数据。

示例性的，将所述多个虚拟对象依次作为目标虚拟对象，以及将所述目标虚拟对象的观察变量和所述团队中其余虚拟对象的观察变量，得到所述目标虚拟对象对应的目标观察变量；将所述多个虚拟对象对应的目标观察变量拼接，得到所述团队的全局观察变量。

例如，先将第一个虚拟对象作为目标虚拟对象，将其观察变量obs_1和其余虚拟对象的观察变量obs_2、obs_3、…、obs_m拼接，得到第一个虚拟对象的目标观察变量；将第m个虚拟对象作为目标虚拟对象，将其观察变量obs_m和其余虚拟对象的观察变量obs_1、obs_2、…、obs_m-1拼接，得到第m个虚拟对象的目标观察变量。

示例性的，可以将m个虚拟对象的目标观察变量再次拼接，得到团队的全局观察变量。通过对全局观察变量进行映射处理，例如由特征提取模型对全局观察变量进行卷积(convolution)，池化(pooling)，全连接(fully-connected)等操作，由特征提取模型输出所述团队的全局变量数据。

示例性的，团队的全局观察变量包括m个虚拟对象的m个独立的目标观察变量，可以理解的，可以不将多个虚拟对象的目标观察变量拼接。例如，可以从全局观察变量中每次提取一个虚拟对象的目标观察变量输入特征提取模型，由特征提取模型对目标观察变量进行卷积(convolution)，池化(pooling)，全连接(fully-connected)等操作，特征提取模型每次输出一个虚拟对象的目标变量数据。

在一些实施方式中，可以将m个虚拟对象的目标变量数据再次拼接，得到团队的全局变量数据。例如，团队的全局变量数据可以表示如表1。

表1为团队的全局变量数据的示意。

如表1所示，全局变量数据可以是多维的变量，可以一次性输入智能决策模型，由智能决策模型一次性输出m个虚拟对象的动作指令。

在另一些实施方式中，全局变量数据包括m个独立的虚拟对象的目标变量数据，可以理解的，可以不将多个虚拟对象的目标变量数据拼接。

可以理解的，所述将所述多个虚拟对象的特征向量进行融合，得到所述团队的全局变量数据，包括将多个虚拟对象的特征向量分别存储，得到全局变量数据，或者将多个虚拟对象的目标变量数据拼接，得到团队的全局变量数据。

步骤S130、基于智能决策模型，根据所述全局变量数据确定所述团队中多个虚拟对象各自的动作指令。

示例性的，将多个虚拟对象的目标变量数据拼接得到的全局变量数据是多维的变量，可以一次性输入智能决策模型，由智能决策模型一次性输出m个虚拟对象的动作指令。利用批处理的方式处理一个团队的观察变量，得到整个团队的动作指令，可以提高处理的效率，节省了计算资源和成本，提高并发的效率，减少延迟。

示例性的，如图4所示，全局变量数据包括m个独立的虚拟对象的目标变量数据时，可以从全局变量数据中每次提取一个虚拟对象的目标变量数据输入智能决策模型，由智能决策模型每次输出一个虚拟对象的动作指令，循环多次得到所述多个虚拟对象的动作指令。通过采用异步循环的方式，根据融合了队友观察信息的目标变量数据确定各虚拟对象的动作指令，可以降低智能决策模型的复杂度和对AI服务器算力的要求。

示例性的，所述基于智能决策模型，根据所述全局变量数据确定所述团队中多个虚拟对象各自的动作指令，包括：基于智能决策模型，对所述全局变量数据进行全连接处理和softmax归一化处理，得到所述团队中各所述虚拟对象对应于多个预设动作的概率；根据各所述虚拟对象对应于多个预设动作的概率，确定各所述虚拟对象对应的动作指令。示例性的，某虚拟对象对应于跳跃动作的概率该与其他预设动作的概率，则确定该虚拟对象对应的动作指令为跳跃。

具体的，基于智能决策模型确定的所述团队中多个虚拟对象各自的动作指令可以相同也可以不相同。

示例性的，智能决策模型可以包括深度神经网络(Deep Neural Network，DNN)。示例性的，用基于深度学习的方法根据全局变量数据确定各所述虚拟对象对应的动作指令。

在实际游戏过程中，智能决策模型在当前游戏环境下做出对于每一个子任务的动作决策，即虚拟对象对应的动作指令，具体的，该动作可以是有实际的动作内容，例如跳跃、左右移动、举手拦阻等，也可以是无实际的动作。

示例性的，将全局变量数据输入所述智能决策模型，智能决策模型对所述全局变量数据进行全连接处理和softmax归一化处理，得到决策的虚拟对象对应的动作指令。动作指令可以包括所述虚拟对象的移动、攻击、视角调整、切换武器和跳跃数据等信息。例如，动作指令可以包括虚拟对象的视角的移动角度、是否攻击、是否切换武器、是否跳跃等。

步骤S140、根据所述动作指令控制执行所述虚拟对象对应的子任务。

在一些实施方式中，如图4所示，AI服务器将所述团队中多个虚拟对象各自的动作指令发送给游戏内核，由游戏内核根据动作指令执行所述多个虚拟对象各自对应的子任务，从而可以得到相应的游戏结果，更新团队中多个虚拟对象各自的观察变量。从而可以循环执行前述步骤S110至步骤S140，以推进交互式任务，如游戏的进程。

具体的，智能决策模型可以一次性输出多个虚拟对象的动作指令给游戏内核；或者智能决策模型每次处理一个虚拟对象的目标变量数据输出一个虚拟对象的动作指令，循环多次得到所述多个虚拟对象的动作指令，然后一次性将所述多个虚拟对象的动作指令输出给游戏内核。

通过将团队中多个虚拟对象的观察变量进行融合处理得到所述团队的全局变量数据，然后将基于智能决策模型根据所述全局变量数据确定所述团队中多个虚拟对象各自的动作指令，使得每次控制虚拟对象的子任务的执行都是以团队为单位的，团队中每个虚拟对象的观察变量的时间点都是一致的，做动作的时间点也是一致的，减少了团队中不同虚拟对象之间的动作延迟，防止延迟和动作不同步导致的有效配合降低等问题。

进一步的，通过将虚拟对象队友的信息融合到目标虚拟对象自己的观察信息当中去，形成新的特征，即目标变量数据，因此在智能决策模型确定虚拟对象的动作指令时可以实现与虚拟对象队友之间的沟通和合作，对于团队的游戏增加了团队游戏中沟通和合作的部分，可以提高游戏的真实性，提升用户体验。

在一些实施方式中，所述对所述团队中多个虚拟对象的观察变量进行融合处理，包括：根据所述多个虚拟对象各自的角色定义，按照预设顺序对所述团队中多个虚拟对象的观察变量进行融合处理。

通过定义每个虚拟对象的角色定位，比如攻击型、防守型、辅助型等，让一个团队中不同虚拟对象之间存在角色定位的差异，担任不同的分工和职责，在团队配合中发挥每个虚拟对象独特的功能性，实现虚拟对象控制的差异性，可以提升用户体验，增强团队配合。

示例性的，不同角色定义的虚拟对象的观察变量包含的信息种类可以相同也可以不相同。

示例性的，若m个虚拟对象中有一个虚拟对象的角色定义为攻击型角色，则将该虚拟对象作为第一个虚拟对象，如另一个虚拟对象的角色定义为防守型角色，则将该虚拟对象作为第而个虚拟对象。第一个虚拟对象的观察变量obs_1可以包含攻击需要的观察信息，第二个虚拟对象的观察变量obs_2可以包含防守需要的观察信息。

具体的，对团队中不同排序位置的虚拟对象的角色定义可以通过智能决策模型在训练过程中对不同位置的观察变量产生差异地学习实现，训练得到的智能决策模型根据全局变量数据确定的多个虚拟对象各自的动作指令能够体现出团队中不同虚拟对象的角色分工的配合。

请结合本申请前述实施例参阅图5，图5是本申请的实施例提供的一种智能决策模型的训练方法的流程示意图。该训练方法可以应用在终端或服务器中，用于训练得到前述实施例中的智能决策模型。所述智能决策模型能够用于交互式任务的控制，所述交互式任务的运行过程包括为多个子任务的执行过程，所述子任务能够由用户的操作控制执行或者由虚拟对象的操作控制执行。具体的，所述智能决策模型根据团队的全局变量数据确定所述团队中多个虚拟对象各自的动作指令。

其中，终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备；服务器可以为独立的服务器，也可以为服务器集群。但为了便于理解，以下实施例将以应用于服务器的训练方法进行详细介绍。

如图5所示，该智能决策模型的训练方法，具体包括步骤S210至步骤S250，以下将结合图5进行详细介绍。

步骤S210、获取团队中多个虚拟对象各自的观察变量。

在一些实施方式中，可以在人机对战模式时获取虚拟对象的团队中各虚拟对象操作控制执行子任务时产生的观察变量；或者可以在对战双方均为虚拟对象时，获取一个团队中各虚拟对象操作控制执行子任务时产生的观察变量。

步骤S220、对多个所述观察变量进行融合处理，得到所述团队的全局变量数据。

在一些实施方式中，所述对所述团队中多个虚拟对象的观察变量进行融合处理，得到所述团队的全局变量数据，包括：对所述团队中多个虚拟对象的观察变量各自进行映射处理，得到所述多个虚拟对象各自的特征向量，其中，所述映射处理包括卷积处理、池化处理、全连接处理中的至少一项；将所述多个虚拟对象的特征向量进行融合，得到所述团队的全局变量数据。

在另一些实施方式中，所述对所述团队中多个虚拟对象的观察变量进行融合处理，得到所述团队的全局变量数据，包括：对所述团队中多个虚拟对象的观察变量进行拼接处理，得到全局观察变量；对全局观察变量进行映射处理，得到所述团队的全局变量数据。

示例性的，将所述多个虚拟对象依次作为目标虚拟对象，以及将所述目标虚拟对象的观察变量和所述团队中其余虚拟对象的观察变量，得到所述目标虚拟对象对应的目标观察变量；将所述多个虚拟对象对应的目标观察变量拼接，得到所述团队的全局观察变量。示例性的，可以通过对全局观察变量进行映射处理，例如由特征提取模型对全局观察变量进行卷积(convolution)，池化(pooling)，全连接(fully-connected)等操作，由特征提取模型输出所述团队的全局变量数据。

步骤S230、基于待训练的智能决策模型，根据所述全局变量数据确定所述团队中多个虚拟对象各自的动作指令。

在一些实施方式中，待训练的智能决策模型为初始化的深度学习模型，例如为神经网络模型，或者为进行强化学习的智能决策模型。

示例性的，可以将多个虚拟对象的目标变量数据拼接得到的全局变量数据是多维的变量，可以一次性输入待训练的智能决策模型，由待训练的智能决策模型一次性输出m个虚拟对象的动作指令。

示例性的，可以从全局变量数据中每次提取一个虚拟对象的目标变量数据输入待训练的智能决策模型，由待训练的智能决策模型每次输出一个虚拟对象的动作指令，循环多次得到所述多个虚拟对象的动作指令。通过采用异步循环的方式，根据融合了队友观察信息的目标变量数据确定各虚拟对象的动作指令，可以降低智能决策模型的复杂度和对AI服务器算力的要求。

步骤S240、获取各所述虚拟对象根据对应的动作指令执行动作的回报数据。

示例性的，根据所述动作指令控制执行所述虚拟对象对应的子任务，例如将团队中多个虚拟对象各自的动作指令发送给游戏内核，由游戏内核根据动作指令执行所述多个虚拟对象各自对应的子任务，从而可以得到相应的游戏结果，更新团队中多个虚拟对象各自的观察变量。

示例性的，获取各所述虚拟对象根据对应的动作指令执行动作后更新的观察变量，根据所述更新的观察变量确定所述回报数据。例如，根据执行动作前的观察变量和执行动作后更新的观察变量确定所述回报数据，例如根据执行动作前的观察变量和执行动作后更新的观察变量的差值确定所述回报数据。

示例性的，回报数据可以包括虚拟对象的弹药消耗数量、血量损失、与目的地之间距离的变化量中的至少一项。回报数据可以包括虚拟对象根据对应的动作指令执行动作后的收益或损失，回报数据可以评价智能决策模型确定的动作指令的优劣，根据该回报数据可以对待训练的智能决策模型进行训练，以提高智能决策模型确定的动作指令执行后的收益。

步骤S250、根据所述回报数据对所述待训练的智能决策模型训练。

在一些实施方式中，可以根据实际需要选择合适的深度强化学习算法，包括深度Q网络(Deep Q Network，DQN)算法、深度确定性策略梯度(Deep DeterministicPolicyGradient，DDPG)算法和异步优势演员-评论家(Asynchronous AdvantageActor-Critic，A3C)算法等，本申请实施例在此不再进行赘述。

示例性的，根据所述回报数据对所述待训练的智能决策模型训练，直至达到训练目标。

示例性的，当训练次数达到预设次数或者训练时间达到预设时长，则确定达到训练目标。

示例性的，若多次训练时获取的回报数据达到稳定状态，则确定达到训练目标。

示例性的，可以根据所述多个虚拟对象各自的回报数据确定所述团队执行完一轮动作指令后的损益值，根据该损益值反向调整智能决策模型的模型参数，实现对智能决策模型的训练。

在一些可行的实施例中，所述对多个所述观察变量进行融合处理进行融合处理，包括：根据所述多个虚拟对象各自的角色定义，按照预设顺序对所述团队中多个虚拟对象的观察变量进行融合处理。

示例性的，不同角色对象的回报数据的确定方法不同。例如在确定攻击型角色的回报数据时，输出的伤害具有较高的比重，血量损失具有较低的比重；而在确定防守型角色的回报数据时，输出的伤害具有较低的比重，血量损失具有较高的比重。因此可以在对智能决策模型进行训练时，可以使得智能决策模型学习到不同角色的决策规律，训练得到的智能决策模型确定的多个虚拟对象各自的动作指令能够体现出团队中不同虚拟对象的角色分工的配合。

通过将团队中多个虚拟对象的观察变量进行融合处理得到所述团队的全局变量数据，然后基于待训练的智能决策模型根据所述全局变量数据确定所述团队中多个虚拟对象各自的动作指令，并获取各所述虚拟对象根据对应的动作指令执行动作的回报数据，以根据所述回报数据对所述待训练的智能决策模型训练。输入待训练的智能决策模型的虚拟对象的观察变量的时间点都是一致的，训练后的智能决策模型可以更准确的根据多个虚拟对象的同步的观察变量决策团队中多个虚拟对象的动作指令，确定的动作的时间点也是一致的，可以减少团队中不同虚拟对象之间的动作延迟，防止延迟和动作不同步导致的有效配合降低等问题。

本申请的方法可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

示例性的，上述的方法可以实现为一种计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6，图6是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备可以是服务器或终端。

参阅图6，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种交互式任务控制方法的步骤和/或任意一种智能决策模型的训练方法的步骤。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种交互式任务控制方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，该计算机设备的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法，如：

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任意一种交互式任务控制方法的步骤和/或任意一种智能决策模型的训练方法的步骤。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种交互式任务控制方法，其特征在于，所述交互式任务的运行过程包括为多个子任务的执行过程，所述子任务能够由用户的操作控制执行或者由虚拟对象的操作控制执行；所述方法包括：

获取团队中多个虚拟对象各自的观察变量；

根据所述动作指令控制执行所述虚拟对象对应的子任务。

2.如权利要求1所述的方法，其特征在于：所述对所述团队中多个虚拟对象的观察变量进行融合处理，得到所述团队的全局变量数据，包括：

对所述团队中多个虚拟对象的观察变量各自进行映射处理，得到所述多个虚拟对象各自的特征向量，其中，所述映射处理包括卷积处理、池化处理、全连接处理中的至少一项；

将所述多个虚拟对象的特征向量进行融合，得到所述团队的全局变量数据。

3.如权利要求2所述的方法，其特征在于：所述将所述多个虚拟对象的特征向量进行融合，得到所述团队的全局变量数据，包括：

将所述多个虚拟对象依次作为目标虚拟对象，以及将所述目标虚拟对象的特征向量和所述团队中其余虚拟对象的特征向量拼接，得到所述目标虚拟对象的目标变量数据；

将所述多个虚拟对象的目标变量数据融合，得到所述团队的全局变量数据。

4.如权利要求1-3中任一项所述的方法，其特征在于：所述基于智能决策模型，根据所述全局变量数据确定所述团队中多个虚拟对象各自的动作指令，包括：

基于智能决策模型，对所述全局变量数据进行全连接处理和softmax归一化处理，得到所述团队中各所述虚拟对象对应于多个预设动作的概率；

根据各所述虚拟对象对应于多个预设动作的概率，确定各所述虚拟对象对应的动作指令。

5.如权利要求1-3中任一项所述的方法，其特征在于：所述对所述团队中多个虚拟对象的观察变量进行融合处理，包括：

根据所述多个虚拟对象各自的角色定义，按照预设顺序对所述团队中多个虚拟对象的观察变量进行融合处理。

6.一种智能决策模型的训练方法，其特征在于，所述智能决策模型用于交互式任务的控制，所述交互式任务的运行过程包括为多个子任务的执行过程，所述子任务能够由用户的操作控制执行或者由虚拟对象的操作控制执行；所述方法包括：

获取团队中多个虚拟对象各自的观察变量；

根据所述回报数据对所述待训练的智能决策模型训练。

7.如权利要求6所述的方法，其特征在于：所述对多个所述观察变量进行融合处理进行融合处理，包括：

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1-5中任一项所述的交互式任务控制方法。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求6-7中任一项所述的智能决策模型训练方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：若所述计算机程序被处理器执行，实现：

如权利要求1-5中任一项所述的交互式任务控制方法；和/或

如权利要求6-7中任一项所述的智能决策模型训练方法。