CN112044076B

CN112044076B - 一种对象控制方法、装置及计算机可读存储介质

Info

Publication number: CN112044076B
Application number: CN202010886303.3A
Authority: CN
Inventors: 常天元
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2022-07-29
Anticipated expiration: 2040-08-28
Also published as: CN112044076A

Abstract

本申请实施例公开了一种对象控制方法、装置及计算机可读存储介质，通过获取每一职业类型的对象在单一对象下进行训练后的第一动作网络模型；根据对战组队中的组队对象信息确定对应的第二动作网络模型，并将每一组队对象信息的职业类型关联的第一动作网络模型的网络参数共享至对应的第二动作网络模型；根据每一组队对象信息的第一状态信息和第二动作网络模型，输出对应的第一动作信息；将不同组队对象信息的第一状态信息和对应的第一动作信息一并输入第二判别网络模型，生成每一组队对象信息的价值期望；根据价值期望进行模型更新，得到第二目标动作网络模型；基于第二目标动作网络模型对每一组队对象信息进行控制。以此，提升了对象控制效率。

Description

一种对象控制方法、装置及计算机可读存储介质

技术领域

本申请涉及通信技术领域，具体涉及一种对象控制方法、装置及计算机可读存储介质。

背景技术

随着互联网技术的飞速发展，智能终端处理器的处理能力越来越强，衍生出很多游戏应用，例如回合制游戏应用，该回合制游戏即属于同一方的多个对象通过轮流发动技能，且战斗双方采用轮流攻击的对战方式。直至其中一方的所有战斗对象均战亡。

现有技术中，回合制游戏关卡模式中的非玩家角色(Non-Player Character，NPC)大部分仍为建立决策树的方式来发动攻击，即决策树算法通过对相关特征的选取建立树结构，每个父节点下的子节点表示该节点所有的出招策略。

在对现有技术的研究和实践过程中，本申请的发明人发现，现有技术中，对于决策树的方式而言，NPC的出招方式往往比较单一，且没有协作配合，与真实玩家的出招方式差异较大，对象控制的效果较差。

发明内容

本申请实施例提供一种对象控制方法、装置及计算机可读存储介质，可以提升对象控制的效率。

为解决上述技术问题，本申请实施例提供以下技术方案：

一种对象控制方法，包括：

获取每一职业类型的对象在单一对象下进行训练后的第一动作网络模型；

根据对战组队中的组队对象信息确定对应的第二动作网络模型，并将每一组队对象信息的职业类型关联的第一动作网络模型的网络参数共享至对应的第二动作网络模型，所述第二动作网络模型的输出与所述第一动作网络模型的输出层不同；

将每一组队对象信息的第一状态信息输入至对应的网络参数共享后的第二动作网络模型，输出对应的第一动作信息，其中，每一第二动作网络模型关联对应的第二判别网络模型；

将不同组队对象信息的第一状态信息和对应的第一动作信息一并输入第二判别网络模型，生成每一组队对象信息的价值期望；

根据每一组队对象信息的价值期望对相应的网络参数共享后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型；

基于所述第二目标动作网络模型对每一组队对象信息进行控制。

一种对象控制装置，包括：

获取单元，用于获取每一职业类型的对象在单一对象下进行训练后的第一动作网络模型；

共享单元，用于根据对战组队中的组队对象信息确定对应的第二动作网络模型，并将每一组队对象信息的职业类型关联的第一动作网络模型的网络参数共享至对应的第二动作网络模型，所述第二动作网络模型的输出与所述第一动作网络模型的输出层不同；

输出单元，用于将每一组队对象信息的第一状态信息输入至对应的网络参数共享后的第二动作网络模型，输出对应的第一动作信息，其中，每一第二动作网络模型关联对应的第二判别网络模型；

生成单元，用于将不同组队对象信息的第一状态信息和对应的第一动作信息一并输入第二判别网络模型，生成每一组队对象信息的价值期望；

更新单元，用于根据每一组队对象信息的价值期望对相应的网络参数共享后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型；

控制单元，用于基于所述第二目标动作网络模型对每一组队对象信息进行控制。

在一些实施方式中，该输出单元，包括：

第一输入子单元，用于将每一组队对象信息的第一状态信息输入对应的网络参数共享后的第二动作网络模型的全连接层，获取第一状态特征向量；

第二输入子单元，用于将第一状态特征向量输入对应的网络参数共享后的第二动作网络模型的动作输出层，得到预设数量的第一动作输出向量；

第三输入子单元，用于将预设数量的第一动作输出向量输入对应的网络参数共享后的第二动作网络模型的操作输出层，得到每一组队对象信息对应的第一策略信息；

确定子单元，用于根据每一组队对象信息对应的第一策略信息中概率值最大的目标元素确定每一组队对象信息对应的第一动作信息。

在一些实施方式中，该第二输入子单元，用于：

将所述第一状态特征向量输入对应的网络参数共享后的第二动作网络模型的动作输出层，获取预设数量的第一动作特征向量；

根据预设数量的第一动作特征向量和预设数量的操作掩模向量，获取预设数量的第一动作输出向量，其中，所述第一动作特征向量和所述操作掩模向量具有一一对应的关系，所述操作掩模向量为根据当前对战回合下可用技能生成的。

在一些实施方式中，该生成单元，用于：

对每一组队对象信息的第一状态信息和其他组队对象的第一状态信息进行拼接处理，得到每一组队对象信息的全局状态信息；

将每一组队对象信息的第一动作信息和其他组队对象的第一动作信息进行拼接处理，得到每一组件对象信息的全局动作信息；

将每一组队对象信息的全局状态信息和全局动作信息一并输入对应的第二判别网络模型，获取每一组队对象信息的价值期望。

在一些实施方式中，所述装置还包括目标更新单元，用于：

获取每一组队对象信息对应的第二状态信息，所述第二状态信息属于下一轮的对战回合对应的状态信息；

将所述第二状态信息输入至第二目标动作网络模型，得到每一组队对象信息的第二动作信息；

获取每一组队对象信息下一轮的对战回合对应的目标奖励值；

根据每一组队对象信息的目标奖励值、第二状态信息和第二动作信息，通过损失函数对第二判别网络模型的模型参数进行更新，得到更新后的第二判别网络模型；

通过更新后的第二判别网络模型对第二目标动作网络模型的网络参数进行更新。

在一些实施例中，所述目标更新单元，还用于：

获取每一组队对象信息下一轮的对战回合对应的第一奖励值，其中，所述第一奖励值用于表示对战组队的虚拟余量损失与目标对战组队的虚拟余量损失之间的关系；

获取每一组队对象信息下一轮的对战回合对应的第二奖励值，其中，所述第二奖励值用于表示对战组队的虚拟成员数量损失与目标对战组队的虚拟成员数量损失之间的关系；

获取每一组队对象信息下一轮的对战回合对应的第三奖励值，其中，所述第三奖励值用于表示对战组队的第一状态数量损失；

获取每一组队对象信息下一轮的对战回合对应的第四奖励值，其中，所述第四奖励值用于表示对战组队的第二状态数量损失；

获取每一组队对象信息下一轮的对战回合对应的第五奖励值，其中，所述第五奖励值用于表示所述对战组队与所述目标对战组队之间的对战结果；

获取每一组队对象信息下一轮的对战回合对应的第六奖励值，其中，所述第六奖励值用于表示对战回合次数信息与总对战回合次数信息之间的关系；

根据所述下一轮的对战回合所对应的第一奖励值、第二奖励值、第三奖励值以及第四奖励值、第五奖励值和第六奖励值，确定所述下一轮的对战回合对应的目标奖励值；

在一些实施例中，所述更新单元，用于：

获取每一组队对象信息的第一策略信息，其中，所述第一策略信息为每一组队对象信息对应的后网络参数共享的第二动作网络模型基于所述第一状态信息输出的信息；

根据每一组队对象信息的价值期望和对应的第一策略信息，对相应的网络参数共享后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型。

本申请实施例通过获取每一职业类型的对象在单一对象下进行训练后的第一动作网络模型；根据对战组队中的组队对象信息确定对应的第二动作网络模型，并将每一组队对象信息的职业类型关联的第一动作网络模型的网络参数共享至对应的第二动作网络模型；根据每一组队对象信息的第一状态信息和第二动作网络模型，输出对应的第一动作信息；将不同组队对象信息的第一状态信息和对应的第一动作信息一并输入第二判别网络模型，生成每一组队对象信息的价值期望；根据价值期望进行模型更新，得到第二目标动作网络模型；基于第二目标动作网络模型对每一组队对象信息进行控制。以此，提升了对象控制效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的对象控制系统的场景示意图。

图2是本申请实施例提供的对象控制方法的流程示意图。

图3为本申请实施例提供的对象控制方法的另一流程示意图。

图4为本申请实施例提供的对象控制方法的场景示意图。

图5为本申请实施例提供的单NPC训练的网络架构示意图。

图6为本申请实施例提供的多NPC训练的网络架构示意图。

图7为本申请实施例提供的对象控制方法的另一场景示意图。

图8为本申请实施例提供的对象控制方法的另一场景示意图。

图9是本申请实施例提供的对象控制装置的结构示意图。

图10是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种对象控制方法、装置、及计算机可读存储介质。

请参阅图1，图1为本申请实施例所提供的对象控制系统的场景示意图，包括：终端A、和服务器(该对象控制系统还可以包括除终端A之外的其他终端，终端具体个数在此处不作限定)，终端A与服务器之间可以通过通信网络连接，该通信网络，可以包括无线网络以及有线网络，其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。网络中包括路由器、网关等等网络实体，图中并未示意出。终端A可以通过通信网络与服务器进行信息交互，比如终端A可以将回合制对象游戏中的游戏对象的状态信息发送至服务器。

该对象控制系统可以包括对象控制装置，该对象控制装置具体可以集成在服务器中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。如图1所示，该服务器将获取每一职业类型的对象在单一对象下进行训练后的第一动作网络模型；根据对战组队中的组队对象信息确定对应的第二动作网络模型，并将每一组队对象信息的职业类型关联的第一动作网络模型的网络参数共享至对应的第二动作网络模型，该第二动作网络模型的输出与该第一动作网络模型的输出层不同；将每一组队对象信息的第一状态信息输入至对应的网络参数共享后的第二动作网络模型，输出对应的第一动作信息，其中，每一第二动作网络模型关联对应的第二判别网络模型；将不同组队对象信息的第一状态信息和对应的第一动作信息一并输入第二判别网络模型，生成每一组队对象信息的价值期望；根据每一组队对象信息的价值期望对相应的网络参数共享后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型；基于该第二目标动作网络模型对每一组队对象信息进行控制，以此，服务器接收终端A发送的状态信息，将状态信息输入第二目标动作网络模型，得到游戏对象的控制参数反馈回终端。

该对象控制系统中终端A可以安装各种用户需要的应用，比如即时通讯应用、回合制游戏应用等，终端A可以基于回合制游戏应用将游戏对象的状态信息发送至服务器中进行游戏对象控制。

需要说明的是，图1所示的对象控制系统的场景示意图仅仅是一个示例，本申请实施例描述的对象控制系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着对象控制系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

在本实施例中，将从对象控制装置的角度进行描述，该对象控制装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的计算机设备中，计算机设备可以是服务器或者终端，在本实施例中以计算机设备是服务器为例进行说明。

请参阅图2，图2是本申请实施例提供的对象控制方法的流程示意图。该对象控制方法包括：

在步骤101中，获取每一职业类型的对象在单一对象下进行训练后的第一动作网络模型。

可以理解的是，本申请提供的对象控制方法可以应用于回合制游戏应用，该回合制游戏应用的类型包含但不仅限于回合制大型多人在线角色扮演游戏(MassiveMultiplayer OnlineRole-Playing Game，MMORPG)、多人在线战术竞技游戏(MultiplayerOnline BattleArena，MOBA)以及即时战略游戏(Real-Time Strategy Game，RTS)。以应用于MMORPG为例，在MMORPG中真实玩家可以扮演虚拟角色，并控制虚拟角色与NPC对战，真实玩家控制的虚拟角色与NPC的数量均可以为一个或多个，NPC可以理解为是人工智能(ArtificialIntelligence，AI)机器人，通过机器学习的方法为每个NPC训练一个对应的动作(actor)网络模型。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的机器学习等技术，具体通过如下实施例进行说明：

其中，回合制游戏应用中，主要是多个玩家与多个NPC进行对战，例如，3V3或者5V5对战，即NPC数量可以为任意数量，由于回合制游戏应用中包括多种职业类型，例如11种职业类型，分别为力量型职业、速度型职业、治愈型职业、换装型职业、声波型职业、药剂型职业等等。

本申请实施例可以分别为每一职业类型的NPC在单一对手对象通过DDPG(DeepDeterministic Policy Gradient，深度确定性策略梯度)训练的多个第一动作网络模型，该DDPG为基于actor-critic网络框架形成的，其借鉴了DQN的经验池和双网络actor-critic结构，该动作网络模型主要为多层感知网络结构。

以此，依次将每一职业类型的对象的相应的状态信息输入至第一动作网络模型，输出相应动作信息，即出招技能，该状态信息可以为在对战中的对象的37维度的特征向量。例如由15维的角色的基本属性(初始血量，物攻，法功，初始魔法，治疗，物防，法防，速度，封命，封抗，怒气，暴击伤害，破甲，全伤害加成，全伤害减成)、2维的对战回合角色的血量和魔量、11维的角色的职业、1维的当前对战的轮数和8维的当前可用技能组成。

将状态信息和动作信息合并之后输入相应的第一判别网络模型，该第一判别网络模型可以预测出该动作信息的价值期望，来评估当前的动作的好坏，从而帮助第一动作网络模型决策哪些出招技能在训练过程中应该被强化，即可以通过该价值期望对第一动作网络模型的网络参数进行更新，得到每一职业类型的对象在单一对象下进行训练后的第一动作网络模型，得到每一职业通用的AI出招策略模型。

在步骤102中，根据对战组队中的组队对象信息确定对应的第二动作网络模型，并将每一组队对象信息的职业类型关联的第一动作网络模型的网络参数共享至对应的第二动作网络模型。

其中，由于在实际回合制游戏对战中不同NPC的出招和攻击目标对象的选取往往需要协同和配合才能达到更好的团队协作效果，因此，需要针对多NPC协作学习。

在本申请实施例中，可以通过多个智能体(multi-agent)强化学习的方式为对战中的每个NPC训练一个第二动作网络模型，每个NPC分别通过自身对应的第二动作网络模型预测出招技能和攻击对象，从而提升NPC与真实玩家的对战水平，本申请可以基于多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient，MADDPG)算法进行多智能体协作学习的任务学习，该MADDPG算法在DDPG算法的基础上延伸而来。

该对战组队中可以包括多个组队对象信息，该组队对象信息可以为NPC，例如该对战组队中可以包含3个或者5个组队对象信息，可以为每一组队对象信息确定相应的第二动作网络模型，为了提升训练的效率，保证第二动作网络模型可以加载第一动作网络模型的网络参数进行初始化，可以设定该第一动作网络模型和第二动作网络模型的输入结构相同，而为了区分两者的区别，还可以设定该第二动作网络模型的输出与该第一动作网络模型的输出层的维度不同。

进一步的，根据每一组队对象信息的职业类型关联的第一动作网络模型的网络参数共享至该相应的第二动作网络模型进行初始化，使得可以第二动作网络模型可以保留不同职业出招的合理性。

在一些实施方式中，该根据对战组队中的组队对象信息确定对应的第二动作网络模型，并将每一组队对象信息的职业类型关联的第一动作网络模型的网络参数共享至对应的第二动作网络模型的步骤，可以包括：

(1)根据对战组队中的组队对象信息的数量确定对应数量的第二动作网络模型；

(2)基于每一组队对象信息的职业类型获取对应训练后的第一动作网络模型的网络参数，并将该网络参数共享至每一组队对象信息对应的第二动作网络模型中。

其中，获取对战组队中的组队对象信息的数量，例如3个组队对象信息，以此，根据该组队对象信息的数量确定对应数量的第二动作网络模型，每一组队对象信息对应一个第二动作网络模型。

进一步的，根据每一组队对象信息的职业类型获取对应训练后的第一动作网络模型的网络参数，并将该网络参数共享至组队对象信息对应的第二动作网络模型中进行初始化。

在一些实施方式中，该将该网络参数共享至每一组队对象信息对应的第二动作网络模型中的步骤，可以包括：

(1.1)将该网络参数按照职业类型加载至每一组队对象信息对应的第二动作网络模型中，该第一动作网络模型和第二动作网络模型的输入结构相同。

其中，可以设定第一动作网络模型和第二动作网络模型，使得第一动作网络模型和第二动作网络模型可以共享除输出层以外的网络参数，以此，可以将网络参数按照职业类型加载至每一组队对象信息对应的第二动作网络模型中。

在步骤103中，将每一组队对象信息的第一状态信息输入至对应的网络参数共享后的第二动作网络模型，输出对应的第一动作信息。

其中，将每一组队对象信息的第一状态信息输入至对应的网络参数共享后的第二动作网络模型，由此，通过多层感知网络结构输出每一组队对象信息的第一动作信息，该第一动作信息可以为指示每一组队对象信息攻击对象和出招技能。

在一些实施方式中，该将每一组队对象信息的第一状态信息输入至对应的网络参数共享后的第二动作网络模型，输出对应的第一动作信息的步骤，可以包括：

(1)将每一组队对象信息的第一状态信息输入对应的网络参数共享后的第二动作网络模型的全连接层，获取第一状态特征向量；

(2)将第一状态特征向量输入对应的网络参数共享后的第二动作网络模型的动作输出层，得到预设数量的第一动作输出向量；

(3)将预设数量的第一动作输出向量输入对应的网络参数共享后的第二动作网络模型的操作输出层，得到每一组队对象信息对应的第一策略信息；

(4)根据每一组队对象信息对应的第一策略信息中概率值最大的目标元素确定每一组队对象信息对应的第一动作信息。

需要说明的是，全连接(full connection，FC)层可以包括三个维度的FC层，分别为1024维度的FC层、512维度的FC层和256的FC层，可以理解的是，在实际应用中，还可以设置其他数量和维度的FC层，此处仅为一个示意。

其中，将每一组队对象信息的第一状态信息输入对应的网络参数共享后的第二动作网络模型的全连接层，获取第一状态特征向量，将该第一状态特征向量输入对应网络参数共享后的第二动作网络模型的动作输出层，得到预设数量的第一动作输出向量，即得到每一组队对象信息针对每一对手对象(例如真实玩家控制的虚拟角色)的第一动作输出向量，再将全部对手对象的第一动作输出向量进行连接，该全部对手对象的数量即为预设数量，例如对手对象的数量为5个，该预设数量即为5个。

进一步的，将预设数量的第一动作输出向量输入对应的网络参数共享后的第二动作网络模型的操作输出层，得到每一组队对象信息对应的第一策略信息，其中，假设每一动作输出向量具有8个元素，那么第一策略信息包括40个元素，输出的40个元素就是组队对象信息在当前对战回合下出招技能和攻击对象的概率值，根据每一组队对象信息对应的第一策略信息中概率最大的目标元素确定每一组队对象对应的第一动作信息。

在步骤104中，将不同组队对象信息的第一状态信息和对应的第一动作信息一并输入第二判别网络模型，生成每一组队对象信息的价值期望。

其中，每一第二动作网络模型均一一关联对应的第二判别网络模型，可以将不同组队对象信息的第一状态信息和对应的第一动作信息一并输入每一第二判别网络模型，即每一第二判别网络模型可以根据全部组队对象信息的全状态信息和所有的第一动作信息输出相应的价值期望，该价值期望表示将来期望得到的奖励，根据价值期望来评估当前动作信息的好坏，从而逆向帮助第二动作网络模型决策哪些出招在训练过程中应该被强化来更新第二判别网络模型的策略。

在步骤105中，根据每一组队对象信息的价值期望对相应的网络参数共享后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型。

其中，由第二判别网络模型输出的价值期望对第二动作网络模型进行更新，经过多次迭代后，即可得到每一组队对象信息对应的第二目标动作网络模型，由于每个第二判别网络模型不仅可以接收与之对应的第二动作网络模型观测的第一状态信息和第一动作信息，同时还会获取其他组队对象信息的第二目标动作网络模型输出的第一状态信息和第一动作信息，以此，使得每一个第二判别网络模型可以参考全局状态信息和全局动作信息，进而通过每一个具有全局视角的第二判别网络模型指导对应的第二动作网络模型的优化策略，使得更新后的第二目标动作网络模型可以达到全局协同的效果，实现中心化训练。

在步骤106中，基于第二目标动作网络模型对每一组队对象信息进行控制。

其中，在后续实际的对战的过程中，每一组队对象信息通过第二目标动作网络模型来进行技能发起和攻击对象选取，实现NPC的智能控制，实现每一组队对象信息可以在可以兼顾不同职业出招的合理性的同时学习到阵容组合间出招协作的策略。由于训练结束后的第二目标动作网络模型不需要第二判别网络模型来指导，因此，每一个第二目标动作网络模型在预测的过程中，仅根据自身观察的状态信息进行预测，实现去中心化的执行效果。

由上述可知，本申请实施例通过获取每一职业类型的对象在单一对象下进行训练后的第一动作网络模型；根据对战组队中的组队对象信息确定对应的第二动作网络模型，并将每一组队对象信息的职业类型关联的第一动作网络模型的网络参数共享至对应的第二动作网络模型；根据每一组队对象信息的第一状态信息和第二动作网络模型，输出对应的第一动作信息；将不同组队对象信息的第一状态信息和对应的第一动作信息一并输入第二判别网络模型，生成每一组队对象信息的价值期望；根据价值期望进行模型更新，得到第二目标动作网络模型；基于第二目标动作网络模型对每一组队对象信息进行控制。以此，提升了对象控制效率。

结合上述实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该对象控制装置具体集成在服务器中为例进行说明。

请一并参阅图3至图8，图3为本申请实施例提供的对象控制方法的另一流程示意图，图4为本申请实施例提供的对象控制方法的场景示意图。图5为本申请实施例提供的单NPC训练的网络架构示意图。图6为本申请实施例提供的多NPC训练的网络架构示意图。图7为本申请实施例提供的对象控制方法的另一场景示意图。图8为本申请实施例提供的对象控制方法的另一场景示意图。

该方法流程可以包括：

在步骤201中，服务器获取每一职业类型的对象在单一对象下进行训练后的第一动作网络模型。

其中，请一并参阅图5，第一动作网络模型集成在DDPG算法中，该DDPG算法包括第一动作网络模型和第二判别网络模型，该第一动作网络模型用于根据当前输入的状态信息，输出相应的动作信息。该第一判别网络模型用于负责计算对应的价值期望，进而根据价值期望对第一动作网络模型的网络参数进行更新。

在相关技术中，随机策略，是相同的策略和同一状态下，采用的动作是指基于一个概率分布，输出的动作是不确定的，因此在面对高维动作空间的算法效率非常低。而本申请的DDPG为一种确定性策略梯度single-agent的方法，在同一策略和状态下，采用的动作是唯一确定的，可以有效的解决输出动作维度过大的低效问题。

假设在本申请中具有11个不同职业的NPC角色，为了得到每一职业通用的AI模型，本申请实施例可以11个不同职业的NPC角色在单一对手对象下进行训练后得到的11个第一动作网络模型，代表了每一11个职业通用的AI模型。

在步骤202中，服务器根据对战组队中的组队对象信息的数量确定对应数量的第二动作网络模型，基于每一组队对象信息的职业类型获取对应训练后的第一动作网络模型的网络参数。

其中，请一并参阅图4，回合制游戏中对战的方式主要是多个玩家与NPC进行对战，例如，以5V5的对战环境为例，即玩家1、玩家2、玩家3、玩家4和玩家5均为真实的玩家控制的虚拟角色，NPC1、NPC2、NPC3、NPC4和NPC5均为AI机器人，与第一动作网络模型的训练场景不同的是，对战组队中的组队对象信息包含多个，不同NPC的出招和攻击目标的选取往往需要协同和配合才能达到更好的团队协作效果。

请一并参阅图5，第二动作网络模型集成在多智能体深度确定性策略梯度(MultiAgent Deep Deterministic Policy Gradient，MADDPG)算法中，该MADDPG算法由N个第二动作网络模型和相应关联的第二判别网络模型组成，该第二动作网络模型的数量由对战组队中的组队对象信息的数量相同，该组队对象信息为NPC，即每一个NPC对应一个第二动作网络模型。

进一步的，为了保留不同职业的NPC出招的合理性，可以基于每一组队对象信息的职业类型获取对应训练后的第一动作网络模型的网络参数。

在步骤203中，服务器将网络参数按照职业类型加载至每一组队对象信息对应的第二动作网络模型中。

其中，可以设定该第二动作网络模型的输入结构和该第一动作网络模型的相同，使得服务器可以将第一动作网络模型的网络参数按照职业类型加载至每一NPC对应的第二动作网络模型中。

在步骤204中，服务器将每一组队对象信息的第一状态信息输入对应的网络参数共享后的第二动作网络模型的全连接层，获取第一状态特征向量，将第一状态特征向量输入对应的网络参数共享后的第二动作网络模型的动作输出层，获取预设数量的第一动作特征向量。

其中，该状态信息可以为在对战中的对象的37维度的特征向量。例如由15维的角色的基本属性(初始血量，物攻，法功，初始魔法，治疗，物防，法防，速度，封命，封抗，怒气，暴击伤害，破甲，全伤害加成，全伤害减成)、2维的对战回合角色的血量和魔量、11维的角色的职业、1维的当前对战的轮数和8维的当前可用技能组成。

进一步的，请一并参阅图7所示，可以看出的将状态信息输入第一动作网络模型1中时，该第一动作网络模型1输出由8维的第一动作特征向量，将该8维的第一动作特征向量与8维的掩模向量对应的元素进行点乘后得到最终为8维的技能输出，输出为第一动作网络模型1预测的对应职业的NPC角色对于每一技能在当前回合的概率值，概率值最高的元素即为第一动作网络模型1预测的对应职业的NPC角色输出的技能。

而对于第二动作网络模型2来说，全连接层与第一动作网络模型1相同，首先将第一状态信息输入至第二动作网络模型2中的全连接层，输出相应的第一状态特征向量，和第一动作网络模型1的输出不同的是，对于第二动作网络模型2来说，NPC对象会有N个对手，此时，将第一状态向量输入至第二动作网络模型2的动作输出层，会输出N个第一动作特征向量，即得到NPC对象针对N个对手的第一动作特征向量。

在步骤205中，服务器根据预设数量的第一动作特征向量和预设数量的操作掩模向量，获取预设数量的第一动作输出向量，将预设数量的第一动作输出向量输入对应的网络参数共享后的第二动作网络模型的操作输出层，得到每一组队对象信息对应的第一策略信息,根据每一组队对象信息对应的第一策略信息中概率值最大的目标元素确定每一组队对象信息对应的第一动作信息。

其中，在回合制游戏中，NPC有的技能在某一回合释放以后会有不同的效果，例如，NPC进入休息状态下回合不能释放技能，或者当血量低于某些状态时无法使用某些特定的技能等等情况。

以此，在本申请实施例中，该掩模向量由8个数值为0或者1组成，0或者1的取值由每回合的NPC的技能可使用情况决定，例如以力量职业的NPC为例，该NPC的技能列表为(“烈阳冲击”,“腥风三连斩”,"生命感知","血之掠夺","暗影潜伏","奥义·地裂陨星")，一共包括6个主动技能，根据当前回合的状态，生成相应的掩模向量为[1,1,1,0,1,1,0,0]，该掩模向量第4个位置的取值为0代表该NPC在当前回合第4个技能“血之掠夺”处于冷却状态，第7个和第8个位置的位置填充为0是由于该角色只有6个主动技能可以释放，其余为1的取值代表当前回合下的技能均可使用。

进一步的，将N个第一动作特征向量和N个掩模向量进行元素点乘，得到N个第一动作输出向量，将N个第一动作输出向量输入对应的网络参数共享后的第二网络模型的操作输出层，得到每一组队对象信息对应的第一策略信息，该第一策略信息包括8N个元素，根据每一组队对象对应的第一策略信息中概率值最大的目标元素确定每一组队对象信息对应的第一动作信息，该第一动作信息即为攻击对象和攻击技能，具体的，可以通过对第一策略信息中概率值最大的目标元素的索引除以8进行向下取整，获取攻击对象的索引，对第一策略信息中概率值最大的目标元素的索引对8进行取余，获取攻击技能的索引。

在步骤206中，服务器对每一组队对象信息的第一状态信息和其他组队对象的第一状态信息进行拼接处理，得到每一组队对象信息的全局状态信息。

其中，请继续参阅图6所示，为了实现中心化训练，每一第二判别网络模型不仅需要接收关联的网络参数共享后的第二动作网络模型的第一状态信息和第一动作信息，还需要参考其他网络参数共享后的第二动作网络模型的第一状态信息和第一动作信息，以此，服务器可以将每一组队对象信息的第一状态信息和其他组队对象的第一状态信息进行频接处理，得到全局状态信息S_all＝(S₁,S₂,...,S_n)。

在步骤207中，服务器将每一组队对象信息的第一动作信息和其他组队对象的第一动作信息进行拼接处理，得到每一组件对象信息的全局动作信息，服务器将每一组队对象信息的全局状态信息和全局动作信息一并输入对应的第二判别网络模型，获取每一组队对象信息的价值期望。

其中，服务器还可以将每一组队对象信息的第一动作信息和其他组队对象的第一动作信息进行拼接处理，得到全局动作信息A_all＝(a₁,a₂,...,a_n)，将该每一组件对象信息的全局动作信息和全局动作信息一并输入对应的第二判别网络模型，可以得到每一组队对象信息的价值期望。

为了便于理解，请一并参阅图8，全局状态信息S_all和全局动作信息A_all作为第二判别网络模型中FC层的输入，其中，全局状态信息S_all的维度表示为36N+1，原全局状态信息S_all的维度为37N，本申请实施例可以剔除掉重复冗余特征，即当前对战的轮数，所以最后的全局状态信息S_all为36N+1，该全局动作信息为8N²，该第二判别网络模型的整体结构主要包括3个维度分别为1024、512和256的FC层，可以理解的是，在实际应用中，还可以设置其他数量和维度的FC层。

以此，第二判别网络模型的输出为当前观测状态下该NPC技能选取的价值期望Q(Sall，Aall)(即未来期望得到的奖励值)，该第二判别网络模型通过价值期望的大小来评估当前第一动作信息的好坏，从而指导第二动作网络模型去优化不同游戏状体下的出招策略。

在步骤208中，服务器根据每一组队对象信息的价值期望对相应的网络参数共享后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型。

其中，通过该第二判别网络模型输出第一动作信息相应的价值期望，基于价值期望的大小可以评估当前动作信息的好坏，从而指导网络参数共享后的第二动作网络模型优化不同状态信息下动作策略，不断对网络参数进行更新，得到第二目标动作网络模型。

在一些实施方式中，该根据每一组队对象信息的价值期望对相应的网络参数共享后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型的步骤，可以包括：

(1)获取每一组队对象信息的第一策略信息，其中，所述第一策略信息为每一组队对象信息对应的后网络参数共享的第二动作网络模型基于所述第一状态信息输出的信息；

(2)根据每一组队对象信息的价值期望和对应的第一策略信息，对相应的网络参数共享后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型。

其中，为了获取更准确的价值期望，进而更好的指导第二动作网络模型进行更新，第二判别网络模型也需要实时进行更新，具体的，该第二状态信息属于下一轮对战回合对应的状态信息，即通过第一状态信息和第一动作信息对NPC进行执行之后的状态信息，请一并参照具体算法，该采用θ＝{θ1，...，θN}参数化策略π＝{π1，...，πN}，N表示第N个NPC，每个NPC的agent(i)策略信息的期望收益梯度计算公式表示为：

其中，

表示判别网络模型输出的价值期望，ai～πi表示ai服从πi的分布，E表示期望，

表示梯度算子，logπi表示第i个策略信息，ai表示第i个动作信息，Si表示第i个状态信息，X表示全局状态信息，a1，...，aN表示全局动作信息，ai|Si表示Si输出ai的概率，通过上述期望收益梯度计算公式根据价值期望和对应的第一策略信息，对相应的网络参数共享后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型。

在实际的应用中，可以将状态转移样本集存储在缓冲区内，例如：

(x，x′，a₁，…，a_N，r₁，…，r_N)

其中，该x表示当前对战回合的下的全局状态信息，x’表示下一轮对战回合对应的全局状态信息，a1，...，aN表示当前对战回合的下的全局动作信息，r1，...rN表示当前对战回合的下的全局奖励值。

在步骤209中，服务器获取每一组队对象信息对应的第二状态信息，将第二状态信息输入至第二目标动作网络模型，得到每一组队对象信息的第二动作信息，获取每一组队对象信息下一轮的对战回合对应的目标奖励值。

其中，第二判别网络模型可以通过优化以下的损失函数来进行网络参数更新：

其中，L(θi)表示损失函数，θi表示判别网络模型的模型参数，

表示当前对战回合下的的价值期望，

表示下一轮对战回合对应的价值期望，

表示下一轮对战回合的全局动作信息。y表示真实值，γ表示折扣因子，通常可以设置为0.95，

表示目标奖励值。

在步骤210中，服务器根据每一组队对象信息的目标奖励值、第二状态信息和第二动作信息，通过损失函数对第二判别网络模型的模型参数进行更新，得到更新后的第二判别网络模型，通过更新后的第二判别网络模型对第二目标动作网络模型的网络参数进行更新。

其中，通过上述公式，能够不断地利用当前对战回合下的第二对战网络模型，对下一个交互回合下的第二判别网络模型进行训练，达到对该第二判别网络模型迭代训练的目的，从而能够不断优化第二判别网络模型，再利用优化的第二判别网络模型继续优化第二动作网络模型，不断提升第二目标动作网络模型预测的准确度。

在一些实施方式中，该目标奖励值的获取方式，可以包括：

(1)获取每一组队对象信息下一轮的对战回合对应的第一奖励值，其中，该第一奖励值用于表示对战组队的虚拟余量损失与目标对战组队的虚拟余量损失之间的关系；

(2)获取每一组队对象信息下一轮的对战回合对应的第二奖励值，其中，该第二奖励值用于表示对战组队的虚拟成员数量损失与目标对战组队的虚拟成员数量损失之间的关系；

(3)获取每一组队对象信息下一轮的对战回合对应的第三奖励值，其中，该第三奖励值用于表示对战组队的第一状态数量损失；

(4)获取每一组队对象信息下一轮的对战回合对应的第四奖励值，其中，该第四奖励值用于表示对战组队的第二状态数量损失；

(5)获取每一组队对象信息下一轮的对战回合对应的第五奖励值，其中，该第五奖励值用于表示该对战组队与该目标对战组队之间的对战结果；

(6)获取每一组队对象信息下一轮的对战回合对应的第六奖励值，其中，该第六奖励值用于表示对战回合次数信息与总对战回合次数信息之间的关系；

(7)根据该下一轮的对战回合所对应的第一奖励值、第二奖励值、第三奖励值以及第四奖励值、第五奖励值和第六奖励值，确定该下一轮的对战回合对应的目标奖励值。

其中，目标奖励值(reward)函数的输出结果，该奖励函数在强化学习中起着非常重要的作用，一个学习良好的动作网络模型与奖励函数的多样性和合理性有着密切的关系。在回合制对战游戏中，对战的最终目的都是将所有的对手击败。如果目标奖励值仅仅只是针对最终对战结果的奖励，那会导致目标奖励值变得非常稀疏，导致模型学习速度很慢。奖励函数设计的稠密会给与模型快速的正向反馈或者反向反馈，帮助模型更快更好的学习。

以此，本申请时实施例可以包含六个部分，下面以NPC在当前回合的交战情况为例进行说明：

奖励函数可以包括第一奖励值，其中，第一奖励值可以称为自奖励值(self-)reward)，用于表示对战组队(我方)的余量损失与目标对战组队(对手方)的虚拟余量损失之间的关系，具体表示每个对战回合中NPC血量损失或提升比，第一奖励值的计算方式如下：

其中，rself_t表示第一奖励值，即表示第t轮战斗回合对手N个角色血量的损失比与我方N个角色血量损失比的差，通过第一奖励值能够体现每个战斗回合我方血量损失较低的情况下造成对方血量较大的损失。

表示第(t-1)轮战斗回合下对手的血量损失，

表示对手的血量损失最大值，

表示第t轮战斗回合下对手的血量损失，

表示第(t-1)轮战斗回合下我方的血量损失，

表示我方的血量损失最大值，

表示第t轮战斗回合下我方的血量损失。

奖励函数还可以包括第二奖励值，其中，第二奖励值可以称为角色阵亡奖励值(character-death-reward)，用于表示对战组队的对象损失与目标对战组队中的对象损失之间的关系，具体表示对战回合中有角色阵亡的情况下，如果是对战组队(我方)角色阵亡，则给予一定的即时惩罚，如果是目标对战组队(对手方)角色阵亡，则给予一定的即时奖励。当第二奖励值为正数时，表示第t轮战斗回合中有对手方角色阵亡给予即时奖励，当第二奖励值为负数时，表示第t轮战斗回合中有我方角色阵亡给予即时惩罚，具体可以把双方阵亡数加在一起，如果值大于0那个就给与奖励，反之给予惩罚。

奖励函数还可以包括第三奖励值，其中，第三奖励值可以称为本方角色产生正向收益buff(状态)标记状态信息奖励值，由于本方的对战组队中的NPC的攻击可以随着标记状态不同产生不同的加成或者削弱，进而对对战的胜负走势产生巨大的影响，因此，在每个对战回合如果产生对于本方正向收益的buff标记状态会给予一定的奖励，如果是负向收益的buff标记会给予一定的惩罚。例如，以本方阵容包含力量职业类型的NPC和药剂职业类型的NPC为例，本方力量职业类型的NPC采用物理攻击的技能去攻击对方之前，本方药级职业可以使用技能(“强化药剂”)这个主动技能作用到本方力量职业类型的NPC上，使得本方力量职业类型的NPC可以在本回合提升物理攻击力，此时本方力量职业类型的NPC在攻击对方时，会产生更大的伤害效果，此为本方角色产生正向收益buff标记，第二奖励值的计算方式如下：

其中，r_{positive_buff_t}表示第三奖励值，为第t轮战斗回合本方N个角色产生的正向收益buff标记状态的数量的reward，

为上一轮正向收益buff的数量，

为第当前轮正向收益buff的数量。

奖励函数还可以包括第四奖励值，其中，第四奖励值可以称为本方角色产生负向收益buff(状态)标记状态信息奖励值，第四奖励值的计算方式如下：

其中，r_{negative_buff_t}表示第四奖励值，为第t轮战斗回合本方N个角色产生的负向收益buff标记状态的数量的reward，

为上一轮负向收益buff的数量，

为第当前轮负向收益buff的数量。

奖励函数还可以包括第五奖励值，其中，第五奖励值可以称为战斗奖励值(battle-reward)，第五奖励值用于表示对战组队与目标对战组队之间的交互结果，具体表示最终对战结果如果是对战组队(我方)胜利则给予奖励，如果对战组队(我方)失败则给予惩罚。当第五奖励值为正数时，表示本次对战我方取得胜利时给予即时奖励，当第五奖励值为负数时，表示本次对战我方被打败时给予即时惩罚。

奖励函数还可以包括第六奖励值，其中，第六奖励值可以称为轮罚奖励(roundpenalty-reward)，第六奖励值用于表示回合次数信息与总回合次数信息之间的关系，具体表示当一局对战中对战回合数越多给予越大的惩罚，需要尽量在短的对战回合内就可以结束战斗，第四奖励值的计算方式如下：

其中，r_{round_penalty_t}表示第t个交互回合的第六奖励值，battle_round表示回合次数信息，即本次对战的回合数，max_round表示总回合次数信息，即对战回合数的上限。

结合奖励函数可以计算得到目标奖励值，计算方式如下：

r_t＝ω₁×r_{self_t}+ω₂×r_{c_death_t}+ω₃×r_{positive_buff_t}+ω₄×r_{negative_buff_t}+ω₅×r_{battle_t}+ω₆×r_{round_penalty_t}

其中，rt表示第t个交互回合的目标奖励值，ω1表示第一权重系数，ω2表示第二权重系数，ω3表示第三权重系数，ω4表示第四权重系数，ω5表示第五权重系数，ω6表示第六权重系数，r_{self_t}表示第t个交互回合的第一奖励值，r_{c_death_t}表示第t个交互回合的第二奖励值，r_{positive_buff_t}表示第t个交互回合的第三奖励值，r_{negative_buff_t}表示第t个交互回合的第四奖励值，r_{battle_t}表示第t个交互回合的第五奖励值，r_{round_penalty_t}表示第t个交互回合的第六奖励值。

可以理解的，t可以为任意轮次下的交战回合。

本申请实施例中，提供了一种获取任意交战回合所对应的目标奖励值的方法，通过上述方式，有针对性地设计了奖励函数，该奖励函数综合了回合制游戏应用的场景特点，不仅针对最终的对战结果设置奖励值，还考虑到对战过程中双方的交互情况设置奖励值，从而有利于提升模型训练的效率和精度。

在一些实施方式中，第一动作网络模型对应的第一判别网络模型的奖励函数可以只使用第二判别网络模型的第一奖励值、第五奖励值和第六奖励值进行第一判别网络模型的目标奖励值计算。

在步骤211中，服务器基于第二目标动作网络模型对每一组队对象信息进行控制，训练出预设数量的不同的对战组队的第二目标动作网络模型，通过每一对战组队的第二目标动作网络模型控制对应的组队对象信息与决策树模型控制的组队对象信息进行对战，根据对战结果将预设数量的不同对战组队进行难易度分类。

其中，服务器基于训练好的目标动作网络模型对第一组队对象信息进行智能控制，实现NPC的智能控制，实现每一组队对象信息可以在可以兼顾不同职业出招的合理性的同时学习到阵容组合间出招协作的策略。

进一步的，服务器可以训练出多组不同阵容的对战组队的第二目标动作网络模型，每一对战组队的可以包含多个不同职业属性的NPC，为了能够合理、高效地评估多组不同阵容地对战组队的阵容强度，可以通过每一对战组队的第二目标动作网络控制对应的组队对象信息与简单的决策树模型控制的组队对象信息进行对战n*k局，假定第i组阵容组合赢得局数为win_num_i，则第i组阵容组合的胜率

最终得到每一阵容的对战组队的胜率[C₁，C₂，...，C_n]，c_i的值越大代表第i个阵容组合的对战组队强度越强，通过这种两两对战的方法，可以高效、合理地将n组不同阵容组合间的阵容强度划分开，从而将n组不同阵容组合的模型按照阵容强度依此分配到n个关卡中作为NPC角色来代替之前关卡模式中采用的行为树，提升用户玩家通关的准确性。

为便于更好的实施本申请实施例提供的对象控制方法，本申请实施例还提供一种基于上述对象控制方法的装置。其中名词的含义与上述对象控制方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图9，图9为本申请实施例提供的对象控制装置的结构示意图，其中该对象控制装置可以包括获取单元301、共享单元302、输出单元303、生成单元304、更新单元305及控制单元306等。

获取单元301，用于获取每一职业类型的对象在单一对象下进行训练后的第一动作网络模型。

共享单元302，用于根据对战组队中的组队对象信息确定对应的第二动作网络模型，并将每一组队对象信息的职业类型关联的第一动作网络模型的网络参数共享至对应的第二动作网络模型，该第二动作网络模型的输出与该第一动作网络模型的输出层不同。

在一些实施方式中，该共享单元，包括：

确定子单元，用于根据对战组队中的组队对象信息的数量确定对应数量的第二动作网络模型；

共享子单元，用于基于每一组队对象信息的职业类型获取对应训练后的第一动作网络模型的网络参数，并将该网络参数共享至每一组队对象信息对应的第二动作网络模型中。

在一些实施方式中，该共享子单元，用于：基于每一组队对象信息的职业类型获取对应训练后的第一动作网络模型的网络参数；将该网络参数按照职业类型加载至每一组队对象信息对应的第二动作网络模型中，该第一动作网络模型和第二动作网络模型的输入结构相同。

输出单元303，用于将每一组队对象信息的第一状态信息输入至对应的网络参数共享后的第二动作网络模型，输出对应的第一动作信息，其中，每一第二动作网络模型关联对应的第二判别网络模型。

在一些实施方式中，该输出单元303，包括：

在一些实施方式中，该第二输入子单元，用于：将该第一状态特征向量输入对应的网络参数共享后的第二动作网络模型的动作输出层，获取预设数量的第一动作特征向量；根据预设数量的第一动作特征向量和预设数量的操作掩模向量，获取预设数量的第一动作输出向量，其中，该第一动作特征向量和该操作掩模向量具有一一对应的关系，该操作掩模向量为根据当前对战回合下可用技能生成的。

生成单元304，用于将不同组队对象信息的第一状态信息和对应的第一动作信息一并输入第二判别网络模型，生成每一组队对象信息的价值期望。

在一些实施方式中，该生成单元304，用于：对每一组队对象信息的第一状态信息和其他组队对象的第一状态信息进行拼接处理，得到每一组队对象信息的全局状态信息；将每一组队对象信息的第一动作信息和其他组队对象的第一动作信息进行拼接处理，得到每一组件对象信息的全局动作信息；将每一组队对象信息的全局状态信息和全局动作信息一并输入对应的第二判别网络模型，获取每一组队对象信息的价值期望。

更新单元305，用于根据每一组队对象信息的价值期望对相应的网络参数共享后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型。

在一些实施例中，该更新单元305，用于：获取每一组队对象信息的第一策略信息，其中，该第一策略信息为每一组队对象信息对应的后网络参数共享的第二动作网络模型基于该第一状态信息输出的信息；根据每一组队对象信息的价值期望和对应的第一策略信息，对相应的网络参数共享后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型。

在一些实施方式中，该装置还包括目标更新单元，用于：获取每一组队对象信息对应的第二状态信息，该第二状态信息属于下一轮的对战回合对应的状态信息；将该第二状态信息输入至第二目标动作网络模型，得到每一组队对象信息的第二动作信息；获取每一组队对象信息下一轮的对战回合对应的目标奖励值；根据每一组队对象信息的目标奖励值、第二状态信息和第二动作信息，通过损失函数对第二判别网络模型的模型参数进行更新，得到更新后的第二判别网络模型；通过更新后的第二判别网络模型对第二目标动作网络模型的网络参数进行更新。

在一些实施例中，该目标更新单元，还用于：获取每一组队对象信息对应的第二状态信息，该第二状态信息属于下一轮的对战回合对应的状态信息；将该第二状态信息输入至第二目标动作网络模型，得到每一组队对象信息的第二动作信息；获取每一组队对象信息下一轮的对战回合对应的第一奖励值，其中，该第一奖励值用于表示对战组队的虚拟余量损失与目标对战组队的虚拟余量损失之间的关系；获取每一组队对象信息下一轮的对战回合对应的第二奖励值，其中，该第二奖励值用于表示对战组队的虚拟成员数量损失与目标对战组队的虚拟成员数量损失之间的关系；获取每一组队对象信息下一轮的对战回合对应的第三奖励值，其中，该第三奖励值用于表示对战组队的第一状态数量损失；获取每一组队对象信息下一轮的对战回合对应的第四奖励值，其中，该第四奖励值用于表示对战组队的第二状态数量损失；获取每一组队对象信息下一轮的对战回合对应的第五奖励值，其中，该第五奖励值用于表示该对战组队与该目标对战组队之间的对战结果；获取每一组队对象信息下一轮的对战回合对应的第六奖励值，其中，该第六奖励值用于表示对战回合次数信息与总对战回合次数信息之间的关系；根据该下一轮的对战回合所对应的第一奖励值、第二奖励值、第三奖励值以及第四奖励值、第五奖励值和第六奖励值，确定该下一轮的对战回合对应的目标奖励值；根据每一组队对象信息的目标奖励值、第二状态信息和第二动作信息，通过损失函数对第二判别网络模型的模型参数进行更新，得到更新后的第二判别网络模型；通过更新后的第二判别网络模型对第二目标动作网络模型的网络参数进行更新。

控制单元306，用于基于该第二目标动作网络模型对每一组队对象信息进行控制。

在一些实施方式中，该装置还包括分类单元，用于：训练出预设数量的不同的对战组队的第二目标动作网络模型；通过每一对战组队的第二目标动作网络模型控制对应的组队对象信息与决策树模型控制的组队对象信息进行对战；根据对战结果将预设数量的不同对战组队进行难易度分类。

以上各个单元的具体实施可参见前面的实施例，在此不再赘述。

由上述可知，本申请实施例通过获取单元301获取每一职业类型的对象在单一对象下进行训练后的第一动作网络模型；共享单元302根据对战组队中的组队对象信息确定对应的第二动作网络模型，并将每一组队对象信息的职业类型关联的第一动作网络模型的网络参数共享至对应的第二动作网络模型；输出单元303根据每一组队对象信息的第一状态信息和第二动作网络模型，输出对应的第一动作信息；生成单元304将不同组队对象信息的第一状态信息和对应的第一动作信息一并输入第二判别网络模型，生成每一组队对象信息的价值期望；更新单元305根据价值期望进行模型更新，得到第二目标动作网络模型；控制单元306基于第二目标动作网络模型对每一组队对象信息进行控制。以此，提升了对象控制效率。

本申请实施例还提供一种计算机设备，如图10所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图10中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；可选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，可选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现前述实施例提供的各种方法步骤，如下：

获取每一职业类型的对象在单一对象下进行训练后的第一动作网络模型；根据对战组队中的组队对象信息确定对应的第二动作网络模型，并将每一组队对象信息的职业类型关联的第一动作网络模型的网络参数共享至对应的第二动作网络模型，该第二动作网络模型的输出与该第一动作网络模型的输出层不同；将每一组队对象信息的第一状态信息输入至对应的网络参数共享后的第二动作网络模型，输出对应的第一动作信息，其中，每一第二动作网络模型关联对应的第二判别网络模型；将不同组队对象信息的第一状态信息和对应的第一动作信息一并输入第二判别网络模型，生成每一组队对象信息的价值期望；根据每一组队对象信息的价值期望对相应的网络参数共享后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型；基于该第二目标动作网络模型对每一组队对象信息进行控制。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对对象控制方法的详细描述，此处不再赘述。

由上述可知，本申请实施例的计算机设备可以通过获取每一职业类型的对象在单一对象下进行训练后的第一动作网络模型；根据对战组队中的组队对象信息确定对应的第二动作网络模型，并将每一组队对象信息的职业类型关联的第一动作网络模型的网络参数共享至对应的第二动作网络模型；根据每一组队对象信息的第一状态信息和第二动作网络模型，输出对应的第一动作信息；将不同组队对象信息的第一状态信息和对应的第一动作信息一并输入第二判别网络模型，生成每一组队对象信息的价值期望；根据价值期望进行模型更新，得到第二目标动作网络模型；基于第二目标动作网络模型对每一组队对象信息进行控制。以此，提升了对象控制效率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种对象控制方法中的步骤。例如，该指令可以执行如下步骤：

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，ReadOnly Memory)、随机存取记忆体(RAM，RandomAccessMemory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种对象控制方法中的步骤，因此，可以实现本申请实施例所提供的任一种对象控制方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种对象控制方法、装置、计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种对象控制方法，其特征在于，包括：

获取每一职业类型的对象在单一对象下进行训练后的第一动作网络模型，所述训练后的第一动作网络模型为对应职业类型的出招策略模型；

根据对战组队中的组队对象信息的数量确定对应数量的第二动作网络模型；基于每一组队对象信息的职业类型获取对应训练后的第一动作网络模型的网络参数，并将所述网络参数按照职业类型加载至每一组队对象信息对应的第二动作网络模型中，所述第一动作网络模型和所述第二动作网络模型的输入结构相同，所述第二动作网络模型的输出与所述第一动作网络模型的输出层不同；

将每一组队对象信息的第一状态信息输入至对应的网络参数加载后的第二动作网络模型，输出对应的第一动作信息，其中，每一第二动作网络模型关联对应的第二判别网络模型；

根据每一组队对象信息的价值期望对相应的网络参数加载后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型；

2.根据权利要求1所述的对象控制方法，其特征在于，所述基于所述第二目标动作网络模型对每一组队对象信息进行控制的步骤之后，还包括：

训练出预设数量的不同的对战组队的第二目标动作网络模型；

通过每一对战组队的第二目标动作网络模型控制对应的组队对象信息与决策树模型控制的组队对象信息进行对战；

根据对战结果将预设数量的不同对战组队进行难易度分类。

3.根据权利要求1所述的对象控制方法，其特征在于，所述将每一组队对象信息的第一状态信息输入至对应的网络参数加载后的第二动作网络模型，输出对应的第一动作信息的步骤，包括：

将每一组队对象信息的第一状态信息输入对应的网络参数加载后的第二动作网络模型的全连接层，获取第一状态特征向量；

将第一状态特征向量输入对应的网络参数加载后的第二动作网络模型的动作输出层，得到预设数量的第一动作输出向量；

将预设数量的第一动作输出向量输入对应的网络参数加载后的第二动作网络模型的操作输出层，得到每一组队对象信息对应的第一策略信息；

根据每一组队对象信息对应的第一策略信息中概率值最大的目标元素确定每一组队对象信息对应的第一动作信息。

4.根据权利要求3所述的对象控制方法，其特征在于，所述将第一状态特征向量输入对应的网络参数加载后的第二动作网络模型的动作输出层，得到预设数量的第一动作输出向量的步骤，包括：

将所述第一状态特征向量输入对应的网络参数加载后的第二动作网络模型的动作输出层，获取预设数量的第一动作特征向量；

5.根据权利要求1所述的对象控制方法，其特征在于，所述将不同组队对象信息的第一状态信息和对应的第一动作信息一并输入第二判别网络模型，生成每一组队对象信息的价值期望的步骤，包括：

6.根据权利要求1所述的对象控制方法，其特征在于，所述根据每一组队对象信息的价值期望对相应的网络参数加载后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型的步骤之后，还包括：

7.根据权利要求6所述的对象控制方法，其特征在于，所述获取每一组队对象信息下一轮的对战回合对应的目标奖励值的步骤，包括：

根据所述下一轮的对战回合所对应的第一奖励值、第二奖励值、第三奖励值以及第四奖励值、第五奖励值和第六奖励值，确定所述下一轮的对战回合对应的目标奖励值。

8.根据权利要求1所述的对象控制方法，其特征在于，所述根据每一组队对象信息的价值期望对相应的网络参数加载后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型的步骤，包括：

获取每一组队对象信息的第一策略信息，其中，所述第一策略信息为每一组队对象信息对应的后网络参数加载的第二动作网络模型基于所述第一状态信息输出的信息；

根据每一组队对象信息的价值期望和对应的第一策略信息，对相应的网络参数加载后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型。

9.一种对象控制装置，其特征在于，包括：

获取单元，用于获取每一职业类型的对象在单一对象下进行训练后的第一动作网络模型，所述训练后的第一动作网络模型为对应职业类型的出招策略模型；

共享单元，包括确定子单元和共享子单元；确定子单元，用于根据对战组队中的组队对象信息的数量确定对应数量的第二动作网络模型；共享子单元，用于基于每一组队对象信息的职业类型获取对应训练后的第一动作网络模型的网络参数，并将所述网络参数按照职业类型加载至每一组队对象信息对应的第二动作网络模型中，所述第一动作网络模型和所述第二动作网络模型的输入结构相同，所述第二动作网络模型的输出与所述第一动作网络模型的输出层不同；

输出单元，用于将每一组队对象信息的第一状态信息输入至对应的网络参数加载后的第二动作网络模型，输出对应的第一动作信息，其中，每一第二动作网络模型关联对应的第二判别网络模型；

更新单元，用于根据每一组队对象信息的价值期望对相应的网络参数加载后的第二动作网络模型的网络参数进行更新，得到第二目标动作网络模型；

10.根据权利要求9所述的对象控制装置，其特征在于，所述装置，还包括分类单元，用于：

根据对战结果将预设数量的不同对战组队进行难易度分类。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至8任一项所述的对象控制方法中的步骤。