CN115337645A

CN115337645A - 虚拟机器人动作确定方法、装置、设备及存储介质

Info

Publication number: CN115337645A
Application number: CN202211046661.9A
Authority: CN
Inventors: 王立子; 关凯; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-11-15

Abstract

本申请提供了一种虚拟机器人动作确定方法、装置、设备及存储介质，其中，该方法包括：获取待控制虚拟机器人在游戏中的可执行行为和当前时刻的游戏状态信息，根据可执行行为对应的多个动作目标，确定多个候选动作，其中，候选动作用于表示将可执行行为作用于动作目标所形成的游戏动作，不同的候选动作对应不同的动作目标，根据当前时刻的游戏状态信息，从多个候选动作中确定待控制虚拟机器人在下一时刻的待执行动作。在本申请中，通过待控制虚拟机器人的可执行行为确定多个候选动作，并从多个候选动作中确定待执行动作，压缩了动作空间，降低了虚拟机器人的计算资源消耗。

Description

虚拟机器人动作确定方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种虚拟机器人动作确定方法、装置、设备及存储介质。

背景技术

作为近年最受欢迎的游戏品类之一，多人在线战斗竞技游戏(MultiplayerOnline Battle Arena，MOBA)以其丰富的角色种类、复杂的技能与配合机制，在给玩家带来持久的乐趣的同时，也成为了人工智能(Artificial Intelligence，AI)的一大挑战，其中，这些MOBA游戏中一些使用了深度强化学习(Deep Reinforcement Learning，DRL)技术。

现有技术中，通常将游戏状态特征输入到强化神经网络模型中，由强化神经网络模型输出游戏角色需要采取的动作，其中，强化学习让游戏角色主动地与环境交互，目标是使获得的奖励最大化，在与环境交互的过程中通过奖励信号学习到哪些行为是更好的。

然而，该方案采用多头动作输出，即输出动作由多个维度组成，高维的动作构成巨大的动作空间，强化学习难度大，计算资源消耗大。

发明内容

有鉴于此，本申请实施例提供了一种虚拟机器人动作确定方法、装置、设备及存储介质，以解决现有技术中高维动作空间带来的学习难度大，计算资源消耗大的问题。

第一方面，本申请实施例提供了一种虚拟机器人动作确定方法，包括：

获取待控制虚拟机器人在游戏中的可执行行为和当前时刻的游戏状态信息；

根据所述可执行行为对应的多个动作目标，确定多个候选动作，其中，所述候选动作用于表示将所述可执行行为作用于所述动作目标所形成的游戏动作，不同的候选动作对应不同的动作目标；

根据所述当前时刻的游戏状态信息，从所述多个候选动作中确定所述待控制虚拟机器人在下一时刻的待执行动作。

第二方面，本申请实施例还提供了一种虚拟机器人动作确定装置，包括：

获取模块，用于获取待控制虚拟机器人在游戏中的可执行行为和当前时刻的游戏状态信息；

确定模块，用于根据所述可执行行为对应的多个动作目标，确定多个候选动作，其中，所述候选动作用于表示将所述可执行行为作用于所述动作目标所形成的游戏动作，不同的候选动作对应不同的动作目标；

所述确定模块，还用于根据所述当前时刻的游戏状态信息，从所述多个候选动作中确定所述待控制虚拟机器人在下一时刻的待执行动作。

第三方面，本申请实施例还提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行第一方面任一项所述的虚拟机器人动作确定方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行第一方面任一项所述的虚拟机器人动作确定方法。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的虚拟机器人动作确定方法的流程示意图一；

图2为本申请实施例提供的候选动作的生成过程的示意图；

图3为本申请实施例提供的虚拟机器人动作确定方法的流程示意图二；

图4为本申请实施例提供的强化神经网络模型的示意图；

图5为本申请实施例提供的虚拟机器人动作确定方法的流程示意图三；

图6为本申请实施例提供的虚拟机器人动作确定方法的流程示意图四；

图7为本申请实施例提供的虚拟机器人动作确定装置的结构示意图；

图8为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请其中一种实施例中的虚拟机器人动作确定方法可以运行于本地终端设备或者是服务器。当虚拟机器人动作确定方法运行于服务器时，该方法则可以基于云交互系统来实现与执行，其中，云交互系统包括服务器和客户端设备。

在一可选的实施方式中，云交互系统下可以运行各种云应用，例如：云游戏。以云游戏为例，云游戏是指以云计算为基础的游戏方式。在云游戏的运行模式下，游戏程序的运行主体和游戏画面呈现主体是分离的，虚拟机器人动作确定方法的储存与运行是在云游戏服务器上完成的，客户端设备的作用用于数据的接收、发送以及游戏画面的呈现，举例而言，客户端设备可以是靠近用户侧的具有数据传输功能的显示设备，如，移动终端、电视机、计算机、掌上电脑等；但是进行信息处理的为云端的云游戏服务器。在进行游戏时，玩家操作客户端设备向云游戏服务器发送操作指令，云游戏服务器根据操作指令运行游戏，将游戏画面等数据进行编码压缩，通过网络返回客户端设备，最后，通过客户端设备进行解码并输出游戏画面。

在一可选的实施方式中，以游戏为例，本地终端设备存储有游戏程序并用于呈现游戏画面。本地终端设备用于通过图形用户界面与玩家进行交互，即，常规的通过电子设备下载安装游戏程序并运行。该本地终端设备将图形用户界面提供给玩家的方式可以包括多种，例如，可以渲染显示在终端的显示屏上，或者，通过全息投影提供给玩家。举例而言，本地终端设备可以包括显示屏和处理器，该显示屏用于呈现图形用户界面，该图形用户界面包括游戏画面，该处理器用于运行该游戏、生成图形用户界面以及控制图形用户界面在显示屏上的显示。

以一个典型的多人在线战斗竞技游戏(Multiplayer Online Battle Arena，MOBA)为例，其需要完成的行为包括：移动、攻击、传送(回城)、释放技能、使用道具，不同行为有着不同的使用方法，例如移动需要指定方向，攻击需要指定对象，一些技能需要指定方向另一些技能需要指定位置等等。将位置、方向、对象等全部作为每个动作的所需参数，则需要多个参数量来描述任一动作，动作空间具有多个维度。而实际绝大多数行为只需要以上参数中的一种，其他参数并不影响其表现，然而由于位置、方向、对象存在性质与形式上的明显差异，现有的强化神经网络模型无法用一个维度来兼顾不同种类的参数，因此采用多个维度来依次输出每种参数，最终组成一个高维度动作。

而由强化神经网络模型输出游戏角色需要采集的高维动作，但存在高维动作的相关性问题，策略变化存在滞后性，例如，某一场景下随着模型学习，选择的技能从伤害逐渐变为治疗，然而此时选择的对象依旧为敌方，即会阻碍技能变化的进行，针对该问题，提供了一种自回归方法，即下一个维度的动作输出由前几个维度的动作输出决定，这种方法能够保证技能维度与其他维度的相关性，例如，技能对象是敌方还是友方取决于之前选择动作是治疗还是伤害，其中，每个维度对应一个强化神经网络模型。

然而，高维的动作构成巨大的动作空间，强化学习难度大，训练速度慢，并且游戏角色可能只是根据部分维度的输出执行动作，因此高维动作空间存在大量冗余，并且由于输出的高维动作存在冗余，所以独立地对高维动作进行合法性检查不切实际，例如，由于技能的距离限制，技能可用不代表技能当前对某个目标可用，此外，虽然自回归能够有效传递靠前输出头的信息，但自回归会带来更高的计算代价。

基于上述问题，本申请提供了一种虚拟机器人动作确定方法，根据可执行行为对应的多个动作目标，确定多个候选动作，再从多个候选动作中确定待控制虚拟机器人在下一时刻的待执行动作，从而将高维动作空间进行压缩，提升了训练速度，降低了学习难度，并且可以结合相应规则对各动作进行合法性检查，将无关的冗余参数剔除，保持良好准确度与足够的自由度，此外，将行为和对应的动作目标共同作为一种动作特征，提高了更丰富信息使模型学习同一种动作目标的行为之间的共同之处，无需采用自回归方式，从而降低了计算资源消耗。

下面结合几个具体实施例对本申请提供的虚拟机器人动作确定方法进行说明。

图1为本申请实施例提供的虚拟机器人动作确定方法的流程示意图一，本实施例的执行主体为电子设备。如图1所示，该方法包括：

S101、获取待控制虚拟机器人在游戏中的可执行行为和当前时刻的游戏状态信息。

其中，待控制虚拟机器人可以为游戏中的虚拟人物、虚拟动物等用于陪玩或者托管的虚拟机器人，本实施例对此不做特别限定。该游戏例如可以为多人在线战斗竞技游戏(Multiplayer Online Battle Arena，MOBA)游戏。

待控制虚拟机器人在游戏中的可执行行为的数量包括但不限于一个，其中，可执行行为例如可以为：攻击行为、移动行为等，可执行行为具有的行为属性信息包括：距离、范围等，对于攻击行为而言，行为属性信息可以包括攻击范围，对于移动行为而言，行为属性信息可以包括移动距离。

当前时刻的游戏状态信息用于指示当前时刻的游戏状态，该游戏状态信息可以包括：游戏场景状态信息和虚拟角色状态信息，虚拟角色状态信息包括：待控制虚拟机器人的状态信息和除待控制虚拟机器人外的其它虚拟角色的状态信息。其中，游戏场景状态信息包括：游戏进度、游戏比分等，待控制虚拟机器人的状态信息包括：待控制虚拟机器人的技能信息、血量信息、阵营信息等，其它虚拟角色的状态信息包括：其它虚拟角色的技能信息、血量信息、阵营信息等。

S102、根据可执行行为对应的动作目标，确定多个候选动作。

在该步骤中，可执行行为可以对应有多个动作目标，动作目标可以为可执行行为作用的目标，候选动作用于表示可执行行为作用于动作目标所形成的游戏动作，不同的候选动作对应不同的动作目标，每个候选动作对应一个动作目标。

动作目标包括：待控制虚拟机器人、游戏中除待控制虚拟机器人外的虚拟角色、虚拟模型、技能释放方向、技能释放位置中的至少一种。

动作目标为待控制虚拟机器人，说明可执行行为作用于待控制虚拟机器人(自己)，则候选动作可以为对自己执行辅助技能或者施加虚拟道具，以完成加血、加魔法值等功能；动作目标为游戏中除待控制虚拟机器人外的虚拟角色，说明可执行行为作用于除待控制虚拟机器人外的虚拟角色，则候选动作可以为对除待控制虚拟机器人外的虚拟角色执行攻击技能或者施加道具，以完成对敌方施行虚拟攻击或者为队友施行辅助加血等功能；动作目标为技能释放方向，说明可执行行为作用于方向，则候选动作可以为对某个方向执行攻击；动作目标为技能释放位置，说明执行行为作用于场景位置，则候选动作可以为朝某个场景位置执行技能。

其中，除待控制虚拟机器人外的虚拟角色可以包括：敌方英雄、敌方小兵、队友英雄等，虚拟模型可以是敌方建筑、敌方物资等，技能释放方向可以包括：方向A、方向B、方向C、方向D、方向E，技能释放位置可以是虚拟场景中的指定坐标位置，在可选的实施例中，技能释放位置是在当前技能所允许最大释放范围内根据玩家操作确定的坐标位置。

在该种划分中，连续的角度值可以被离散为有限数量的方向，指向性行为可以被根据指向动作目标的类进行了划分。需要说明的是，可执行行为的数量包括但不限于一个，同一种可执行行为可以同时具有多个动作目标，例如，闪烁技能既可以以某方向为动作目标，也可以以敌方英雄为动作目标(即向敌方英雄进行闪烁)。

例如，若可执行行为为攻击行为，则可以将攻击行为划分为攻击敌方小兵、攻击敌方英雄、攻击敌方建筑这三个候选动作，若可执行行为为移动行为，则可以将移动行为划分为向方向A移动、向方向B移动、向方向C移动这三个候选动作。

图2为本申请实施例提供的候选动作的生成过程的示意图，如图2所示，原始行为为可执行行为，根据原始行为对应的多个动作目标，确定三个候选动作，分别是动作1、动作2、动作3，各对应一个元组，即【行为，目标A】、【行为，目标B】、【行为，目标C】，每个【行为，目标】。各元组中的行为为原始行为，分别表示将原始行为作用于方向A所形成的候选动作、将原始行为作用于方向B所形成的候选动作、将原始行为作用于方向C所形成的候选动作。

通过上述行为划分，按照动作目标可得到多个【行为，目标】元组，一个【行为，目标】元组作为待控制虚拟机器人在动作空间中的一个可选动作，最终动作空间由元组组成，其中，元组的数量约为可执行行为数量的3倍。

S103、根据当前时刻的游戏状态信息，从多个候选动作中确定待控制虚拟机器人在下一时刻的待执行动作。

其中，下一时刻可以为当前时刻的下一时刻，根据当前时刻的游戏状态信息，可以从多个候选动作中确定与该游戏状态信息匹配的待控制虚拟机器人在下一时刻的待执行动作，也即，待执行动作是基于当前时刻的游戏状态信息，从多个候选动作中筛选出来的，例如，当前时刻的游戏状态信息指示待控制虚拟机器人正在对敌方小兵实施攻击动作，而敌方英雄正在获取待控制虚拟机器人所属阵营的游戏资源，则待控制虚拟机器人在下一时刻的待执行动作可以为移动至敌方英雄以阻止敌方英雄获取该游戏资源。

在一可选的实施方式中，步骤S103，根据当前时刻的游戏状态信息，从多个候选动作中确定待控制虚拟机器人在下一时刻的待执行动作，包括：根据当前时刻的游戏状态信息，对待控制虚拟机器人进行行为预测，得到待控制虚拟机器人在下一时刻针对多个候选动作的执行概率；根据多个候选动作的执行概率，从多个候选动作中确定待执行动作。

其中，根据当前时刻的游戏状态信息，可以对待控制虚拟机器人进行行为预测，得到待控制虚拟机器人在下一时刻针对多个候选动作的执行概率，然后基于多个候选动作的执行概率，从多个候选动作中确定执行概率满足预设条件的候选动作为待执行动作，其中，预设条件例如可以为执行概率最大。

在一些实施例中，可以采用预先训练得到的强化神经网络模型，对当前时刻的游戏状态信息进行处理，得到多个候选动作的执行概率，其中，该强化神经网络模型具有单头输出和单头输入，输入为当前时刻的游戏状态信息，输出为多个候选动作的执行概率，和现有技术中多头输出高维动作相比，降低了动作空间维度，提高了训练速度，降低了学习难度。

在本实施例的虚拟机器人动作确定方法中，获取待控制虚拟机器人在游戏中的可执行行为和当前时刻的游戏状态信息，根据可执行行为对应的多个动作目标，确定多个候选动作，其中，候选动作用于表示将可执行行为作用于动作目标所形成的游戏动作，不同的候选动作对应不同的动作目标，根据当前时刻的游戏状态信息，从多个候选动作中确定待控制虚拟机器人在下一时刻的待执行动作。通过待控制虚拟机器人的可执行行为确定多个候选动作，并从多个候选动作中确定待执行动作，压缩了动作空间，降低了虚拟机器人的计算资源消耗。

图3为本申请实施例提供的虚拟机器人动作确定方法的流程示意图二，如图3所示，根据当前时刻的游戏状态信息，从多个动作中确定待控制虚拟机器人在下一时刻的待执行动作，包括：

S201、对多个候选动作进行合法性检测，得到多个候选动作的检测结果。

S202、根据多个候选动作的检测结果，对多个候选动作进行过滤，得到过滤后的动作。

S203、根据当前时刻的游戏状态信息，从过滤后的动作中确定待执行动作。

在从多个候选动作中确定待执行动作之前，还可以对多个候选动作进行合法性检测，得到多个候选动作的检测结果，检测结果包括合法性动作或非法性动作，然后根据多个候选动作的检测结果，将多个候选动作中的非法性动作进行过滤，得到过滤后的动作，即过滤后的动作为合法性动作。

然后根据当前时刻的游戏状态信息，从过滤后的动作中确定待执行动作，也就是说，基于当前时刻的游戏状态信息，可以从合法性动作中确定待执行动作，以保证待执行动作为合法性动作且与当前时刻的游戏状态信息相关。

在一可选的实施方式中，根据当前时刻的游戏状态信息，从过滤后的动作中确定待控制虚拟机器人在下一时刻的待执行动作，包括：根据当前时刻的游戏状态信息，对待控制虚拟机器人进行行为预测，得到待控制虚拟机器人在下一时刻针对过滤后的动作的执行概率；根据过滤后的动作的执行概率，从过滤后的动作中确定待执行动作。

在该步骤中，可以根据当前时刻的游戏状态信息，对待控制机器人进行行为预测，得到待控制虚拟机器人在下一时刻针对过滤后的动作的执行概率，然后基于过滤后的动作的执行概率，从过滤后的动作中确定待执行动作，其中可以采用预先训练得到的强化神经网络模型，对当前时刻的游戏状态信息进行处理，得到过滤后的动作的执行概率，并从过滤后的动作中确定执行概率满足预设条件的动作为待执行动作，其中，预设条件例如可以为执行概率最大。

图4为本申请实施例提供的强化神经网络模型的示意图，如图4所示多个候选动作均由对应的【行为，目标】元组表示，多个候选动作的元组构成动作特征，将当前时刻的游戏状态信息输入到预先训练的强化神经网络模型中，采用强化神经网络模型的输出特征与该动作特征进行点积(dot)，得到多个候选动作的执行概率，然后经过动作合法性检测单元，得到每个候选动作的概率权重，基于概率权重和对应的执行概率，得到每个候选动作调整后的执行概率。其中，合法性动作的概率权重可以为1，非法性动作的概率权重可以为0，以将与无关的冗余参数得以剔除。

在该示例中，可以使用嵌入算法或独热编码(one-hot)对元组中的行为(SkillEmbedding)和动作目标(Target embedding)进行编码，其中，动作目标相同的不同动作，其对应的Target embedding是相同的。

在本实施例的虚拟机器人动作确定方法中，对多个候选动作进行合法性检测，得到多个候选动作的检测结果，根据多个候选动作的检测结果，对多个候选动作进行过滤，得到过滤后的动作，根据当前时刻的游戏状态信息，从过滤后的动作中确定待执行动作。高维的动作空间难以统计与可视化分析，降低动作空间维度后，能够对多个候选动作的执行概率进行直接统计，并通过多个候选动作进行合法性检测，能够减少无效动作占比，进一步提高了模型学习速度。

图5为本申请实施例提供的虚拟机器人动作确定方法的流程示意图三，如图5所示，对多个候选动作进行合法性检测，得到多个候选动作的检测结果，包括：

S301、判断各候选动作对应的可执行行为在当前时刻是否可用。

判断各候选动作对应的可执行行为在当前时刻是否可用，若候选动作对应的可执行行为在当前时刻可用，则执行步骤S302，若候选动作对应的可执行行为在当前时刻不可用，则执行步骤S305。

需要说明的是，可执行行为为待控制虚拟机器人在游戏中可执行的行为，在不同时刻，可执行行为可能可用，可执行行为也可能不可用，具体可以根据待控制虚拟机器人的属性信息和可执行行为的属性信息决定。若当前时刻待控制虚拟机器人的属性信息满足该可执行行为的属性信息，则确定该可执行行为可用；若当前时刻待控制虚拟机器人的属性信息不满足该可执行行为的属性信息，则确定该可执行行为不可用。

例如，可执行行为的属性信息为：魔法值100，当前时刻待控制虚拟机器人的属性信息为：魔法值50，由于当前时刻待控制虚拟机器人的魔法值未达到该可执行行为所需的魔法值，则说明在当前时刻该可执行行为不可用，若待控制虚拟机器人的属性信息为：魔法值100，则说明在当前时刻该可执行行为可用。

S302、若候选动作对应的可执行行为可用，则判断候选动作对应的可执行行为在当前时刻是否可作用于候选动作的动作目标。

若候选动作对应的可执行行为可用，则判断候选动作对应的可执行行为在当前时刻是否可作用于该候选动作的动作目标，若候选动作对应的可执行行为在当前时刻可作用于该候选动作的动作目标，则执行步骤S303，若候选动作对应的可执行行为在当前时刻不可作用于该候选动作的动作目标，则执行步骤S304。

在一些实施例中，判断候选动作对应的可执行行为在当前时刻是否可作用于候选动作的动作目标，包括：判断在当前时刻是否可生成候选动作的行为参数；若可生成候选动作的行为参数，且当前时刻候选动作的动作目标为可作用目标，则确定候选动作对应的可执行行为在当前时刻可作用于候选动作的动作目标；若不可生成候选动作的行为参数，或者若可生成候选动作的行为参数，且当前时刻候选动作的动作目标不是可作用目标，则确定候选动作对应的可执行行为在当前时刻不可作用于候选动作的动作目标。

其中，候选动作的行为参数可以为执行候选动作时的执行参数，例如，候选动作为对某个角度执行攻击，则对应的行为参数为角度值；又例如，候选动作为对某个坐标执行攻击，则对应的行为参数为坐标值，又例如，候选动作为对某个敌方英雄执行攻击，则对应的行为参数为敌方英雄的身份标识。

判断在当前时刻是否生成候选动作的行为参数可以包括：判断当前时刻候选动作的攻击范围内是否存在候选动作的动作目标，若存在，则可生成候选动作的行为参数，若不存在，则不可生成候选动作的行为参数。以候选动作为对某个敌方英雄执行攻击为例，若当前时刻无任何敌方英雄位于该候选动作的攻击范围内，则确定无法生成该候选动作的行为参数。

若可生成候选动作的行为参数，且当前时刻候选动作的动作目标为可作用目标，则确定候选动作对应的可执行行为在当前时刻可作用于候选动作的动作目标，其中，可作用目标可以为行为可作用的目标，例如，向游戏场景中的45°方向进行移动，动作目标为45°方向，由于游戏场景中的45°方向为不可通行的障碍物，说明该动作目标不是可作用目标。

若不可生成候选动作的行为参数，则确定候选动作对应的可执行行为在当前时刻不可作用于候选动作的动作目标；或者若可生成候选动作的行为参数，且当前时刻候选动作的动作目标不是可作用目标，则确定候选动作对应的可执行行为在当前时刻不可作用于候选动作的动作目标。

S303、若候选动作对应的可执行行为在当前时刻可作用于候选动作的动作目标，则确定候选动作的检测结果为合法性动作。

若候选动作对应的可执行行为在当前时刻可作用于候选动作的动作目标，则确定候选动作的检测结果为合法性动作，即合法性动作同时满足可执行行为可用，且可执行行为可作用于动作目标。

S304、若候选动作对应的可执行行为在当前时刻不可作用于候选动作的动作目标，则确定候选动作的检测结果为非法性动作。

若候选动作对应的可执行行为在当前时刻不可作用于候选动作的动作目标，则确定候选动作的检测结果为非法性动作，即在可执行行为可用的情况下，可执行行为不可作用于动作目标，则候选动作为非法性动作。

S305、若候选动作对应的可执行行为不可用，则确定候选动作的检测结果为非法性动作。

若候选动作对应的可执行行为不可用，则无法判断可执行行为是否可作用于动作目标，直接确定候选动作的检测结果为非法性动作。

以少量的判断所有动作的合法性，和现有技术相比，无需遍历整个高维动作空间，例如，游戏角色拥有N个行为，将每个行为拆分为c*N个动作，每种动作生成1个参数，需要进行的操作为：1次行为拆分，c次行为参数生成，c次合法性判断，总计N+2*c*N次操作即可对所有动作进行合法性检查，而现有技术需要对高维动作空间进行遍历搜索，效率低下。

并且，将合法性动作提供给强化神经网络模型，能保证模型只在合法行为中进行选取，显著提高了模型输出的有效率，而现有技术，只有在模型输出行为参数之后，才能进行合法性判断，所以输出较多冗余行为，具有一定的滞后性，除此之外，合法性判断能够给模型提供一些额外信息，模型能够从一些动作是否合法来获取有价值的状态信息，例如，攻击敌方英雄这一动作合法，代表有敌方英雄存在于动作的攻击范围内。

图6为本申请实施例提供的虚拟机器人动作确定方法的流程示意图四，如图6所示，该方法还包括：

S401、获取待执行动作的行为参数。

S402、根据行为参数，控制虚拟机器人执行待执行动作。

其中，待执行动作的行为参数为执行候选动作时的执行参数，例如，候选动作为对某个角度执行攻击，则对应的行为参数为角度值；又例如，候选动作为对某个坐标执行攻击，则对应的行为参数为坐标值，又例如，候选动作为对某个敌方英雄执行攻击，则对应的行为参数为敌方英雄的身份标识。

确定出虚拟机器人下一时刻的待执行动作后，获取待执行动作的行为参数，然后根据该行为参数，控制虚拟机器人执行待执行动作。

在一可选的实施方式中，获取待执行动作的行为参数，包括：

判断待执行动作的行为参数的类别和待执行动作的动作目标的类别是否一致；若一致，则根据待执行动作的动作目标，确定待执行动作的行为参数。

其中，行为参数的类别用于表征行为参数的参数类型，例如可以为角度、位置坐标、身份标识。

动作目标的类别用于表征动作目标的类型，例如可以为角度、位置坐标、身份标识。

若待执行动作的行为参数的类别和待执行动作的动作目标的类别一致，则可以根据待执行动作的动作目标，确定待执行动作的行为参数，例如，动作目标为0°，动作目标的类别为角度，方向A对应的行为参数类别为角度，所以该行为参数类别与动作目标的类别一致，则确定待执行动作的行为参数为动作目标的参数，即0°。

在一些实施例中，若待执行动作的行为参数的类别和待执行动作的动作目标的类别不一致，则判断待执行动作的动作目标是否为待控制虚拟机器人；若待执行动作的动作目标为待控制虚拟机器人，则确定待执行动作的行为参数为预设空参数；若待执行动作的动作目标不是待控制虚拟机器人，则根据待执行动作的动作目标和待控制虚拟机器人在当前时刻的相对位置关系，确定待执行动作的行为参数。

若待执行动作的行为参数的类别和待执行动作的动作目标的类别不一致，则判断待执行动作的动作目标是否为待控制虚拟机器人，其中，该动作目标的类别可以为身份标识，则根据该身份标识可以判断其是否为待控制机器人，若待执行动作的动作目标为待控制虚拟机器人，则确定待执行动作的行为参数为预设空参数，也即，若待执行动作是向着自己执行的，则行为参数为空参数。

若待执行动作的动作目标不是待控制虚拟机器人，则根据待执行动作的动作目标和待控制虚拟机器人在当前时刻的相对位置关系，确定待执行动作的行为参数，例如，动作目标为敌方英雄，行为参数为敌方英雄相对于待控制虚拟机器人的角度，则根据当前时刻待执行动作的动作目标(如敌方英雄)与待控制虚拟机器人的相对位置关系，可以确定敌方英雄相对于待控制机器人的角度。

图7为本申请实施例提供的虚拟机器人动作确定装置的结构示意图，该装置可以集成在电子设备中。如图7所示，该装置包括：

获取模块501，用于获取待控制虚拟机器人在游戏中的可执行行为和当前时刻的游戏状态信息；

确定模块502，用于根据可执行行为对应的多个动作目标，确定多个候选动作，其中，候选动作用于表示将可执行行为作用于动作目标所形成的游戏动作，不同的候选动作对应不同的动作目标；

确定模块502，还用于根据当前时刻的游戏状态信息，从多个候选动作中确定待控制虚拟机器人在下一时刻的待执行动作。

在一可选的实施方式中，确定模块502，具体用于：

根据当前时刻的游戏状态信息，对待控制虚拟机器人进行行为预测，得到待控制虚拟机器人在下一时刻针对多个候选动作的执行概率；

根据多个动作的执行概率，从多个候选动作中确定待执行动作。

在一可选的实施方式中，确定模块502，具体用于：

对多个候选动作进行合法性检测，得到多个候选动作的检测结果；

根据多个候选动作的检测结果，对多个候选动作进行过滤，得到过滤后的动作；

根据当前时刻的游戏状态信息，从过滤后的动作中确定待执行动作。

在一可选的实施方式中，确定模块502，具体用于：

根据当前时刻的游戏状态信息，对待控制虚拟机器人进行行为预测，得到待控制虚拟机器人在下一时刻针对过滤后的动作的执行概率；

根据过滤后的动作的执行概率，从过滤后的动作中确定待执行动作。

在一可选的实施方式中，确定模块502，具体用于：

判断各候选动作对应的可执行行为在当前时刻是否可用；

若候选动作对应的可执行行为在当前时刻可用，则判断候选动作对应的可执行行为在当前时刻是否可作用于候选动作的动作目标；

若候选动作对应的可执行行为在当前时刻可作用于候选动作的动作目标，则确定候选动作的检测结果为合法性动作。

在一可选的实施方式中，确定模块502，具体用于：

若候选动作对应的可执行行为在当前时刻不可作用于候选动作的动作目标，则确定候选动作的检测结果为非法性动作。

在一可选的实施方式中，确定模块502，具体用于：

若候选动作对应的可执行行为在当前时刻不可用，则确定候选动作的检测结果为非法性动作。

在一可选的实施方式中，确定模块502，具体用于：

判断在当前时刻是否可生成候选动作的行为参数；

若可生成候选动作的行为参数，且当前时刻候选动作的动作目标为可作用目标，则确定候选动作对应的可执行行为在当前时刻可作用于候选动作的动作目标；

若不可生成候选动作的行为参数，或者若可生成候选动作的行为参数，且当前时刻候选动作的动作目标不是可作用目标，则确定候选动作对应的可执行行为在当前时刻不可作用于候选动作的动作目标。

在一可选的实施方式中，获取模块501，还用于：

获取待执行动作的行为参数；

控制模块503，还用于根据行为参数，控制虚拟机器人执行待执行动作。

在一可选的实施方式中，获取模块501，具体用于：

判断待执行动作的行为参数的类别和待执行动作的动作目标的类别是否一致；

若一致，则根据待执行动作的动作目标，确定待执行动作的行为参数。

在一可选的实施方式中，获取模块501，具体用于：

若不一致，则判断待执行动作的动作目标是否为待控制虚拟机器人；

若待执行动作的动作目标为待控制虚拟机器人，则确定待执行动作的行为参数为预设空参数；

若待执行动作的动作目标不是待控制虚拟机器人，则根据待执行动作的动作目标和待控制虚拟机器人在当前时刻的相对位置关系，确定待执行动作的行为参数。

在一可选的实施方式中，动作目标包括：待控制虚拟机器人、游戏中除待控制虚拟机器人外的虚拟角色、虚拟模型、技能释放方向、技能释放位置中的至少一种。

在本实施例的游戏角色动作装置中，获取模块，用于获取待控制虚拟机器人在游戏中的可执行行为和当前时刻的游戏状态信息，确定模块，用于根据可执行行为对应的多个动作目标，确定多个候选动作，其中，候选动作用于表示将可执行行为作用于动作目标所形成的游戏动作，不同的候选动作对应不同的动作目标，确定模块，还用于根据当前时刻的游戏状态信息，从多个候选动作中确定待控制虚拟机器人在下一时刻的待执行动作。通过待控制虚拟机器人的可执行行为确定多个候选动作，并从多个候选动作中确定待执行动作，压缩了动作空间，降低了虚拟机器人的计算资源消耗。

图8为本申请实施例提供的电子设备的结构示意图，如图8所示，该设备包括：处理器601、存储器602和总线603，存储器602存储有处理器601可执行的机器可读指令，当电子设备运行时，处理器601与存储器602之间通过总线603通信，处理器601执行机器可读指令，以执行以下步骤：

根据可执行行为对应的多个动作目标，确定多个候选动作，其中，候选动作用于表示将可执行行为作用于动作目标所形成的游戏动作，不同的候选动作对应不同的动作目标；

根据当前时刻的游戏状态信息，从多个候选动作中确定待控制虚拟机器人在下一时刻的待执行动作。

在一可选的实施方式中，处理器601在执行根据当前时刻的游戏状态信息，从多个候选动作中确定待控制虚拟机器人在下一时刻的待执行动作时，具体用于：

在一可选的实施方式中，处理器601在执行根据当前时刻的游戏状态信息，从过滤后的动作中确定待控制虚拟机器人在下一时刻的待执行动作时，具体用于：

在一可选的实施方式中，处理器601在执行对多个候选动作进行合法性检测，得到多个候选动作的检测结果时，具体用于：

判断各候选动作对应的可执行行为在当前时刻是否可用；

在一可选的实施方式中，处理器601在执行判断候选动作对应的可执行行为在当前时刻是否可作用于候选动作的动作目标时，具体用于：

判断在当前时刻是否可生成候选动作的行为参数；

在一可选的实施方式中，处理器601还用于：

获取待执行动作的行为参数；

根据行为参数，控制虚拟机器人执行待执行动作。

在一可选的实施方式中，处理器601在执行获取待执行动作的行为参数时，具体用于：

通过上述方式，获取待控制虚拟机器人在游戏中的可执行行为和当前时刻的游戏状态信息，根据可执行行为对应的多个动作目标，确定多个候选动作，其中，候选动作用于表示将可执行行为作用于动作目标所形成的游戏动作，不同的候选动作对应不同的动作目标，根据当前时刻的游戏状态信息，从多个候选动作中确定待控制虚拟机器人在下一时刻的待执行动作。在本申请中，通过待控制虚拟机器人的可执行行为确定多个候选动作，并从多个候选动作中确定待执行动作，压缩了动作空间，降低了虚拟机器人的计算资源消耗。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行，处理器执行以下步骤：

在一可选的实施方式中，处理器在执行根据当前时刻的游戏状态信息，从多个候选动作中确定待控制虚拟机器人在下一时刻的待执行动作时，具体用于：

在一可选的实施方式中，处理器在执行根据当前时刻的游戏状态信息，从多个动作中确定待控制虚拟机器人在下一时刻的待执行动作时，具体用于：

在一可选的实施方式中，处理器在执行根据当前时刻的游戏状态信息，从过滤后的动作中确定待控制虚拟机器人在下一时刻的待执行动作时，具体用于：

在一可选的实施方式中，处理器在执行对多个候选动作进行合法性检测，得到多个候选动作的检测结果时，具体用于：

判断各候选动作对应的可执行行为在当前时刻是否可用；

在一可选的实施方式中，处理器在执行判断候选动作对应的可执行行为在当前时刻是否可作用于候选动作的动作目标时，具体用于：

判断在当前时刻是否可生成候选动作的行为参数；

在一可选的实施方式中，处理器还用于：

获取待执行动作的行为参数；

根据行为参数，控制虚拟机器人执行待执行动作。

在一可选的实施方式中，处理器在执行获取待执行动作的行为参数时，具体用于：

在本申请实施例中，该计算机程序被处理器运行时还可以执行其它机器可读指令，以执行如实施例中其它所述的方法，关于具体执行的方法步骤和原理参见实施例的说明，在此不再详细赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种虚拟机器人动作确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述当前时刻的游戏状态信息，从所述多个候选动作中确定所述待控制虚拟机器人在下一时刻的待执行动作，包括：

根据所述当前时刻的游戏状态信息，对所述待控制虚拟机器人进行行为预测，得到所述待控制虚拟机器人在所述下一时刻针对所述多个候选动作的执行概率；

根据所述多个动作的执行概率，从所述多个候选动作中确定所述待执行动作。

3.根据权利要求1所述的方法，其特征在于，所述根据所述当前时刻的游戏状态信息，从所述多个候选动作中确定所述待控制虚拟机器人在下一时刻的待执行动作，包括：

对所述多个候选动作进行合法性检测，得到所述多个候选动作的检测结果；

根据所述多个候选动作的检测结果，对所述多个候选动作进行过滤，得到过滤后的动作；

根据所述当前时刻的游戏状态信息，从所述过滤后的动作中确定所述待执行动作。

4.根据权利要求3所述的方法，其特征在于，所述根据所述当前时刻的游戏状态信息，从所述过滤后的动作中确定所述待执行动作，包括：

根据所述当前时刻的游戏状态信息，对所述待控制虚拟机器人进行行为预测，得到所述待控制虚拟机器人在所述下一时刻针对所述过滤后的动作的执行概率；

根据所述过滤后的动作的执行概率，从所述过滤后的动作中确定所述待执行动作。

5.根据权利要求3所述的方法，其特征在于，所述对所述多个候选动作进行合法性检测，得到所述多个候选动作的检测结果，包括：

判断各候选动作对应的可执行行为在所述当前时刻是否可用；

若所述候选动作对应的可执行行为在所述当前时刻可用，则判断所述候选动作对应的可执行行为在所述当前时刻是否可作用于所述候选动作的动作目标；

若所述候选动作对应的可执行行为在所述当前时刻可作用于所述候选动作的动作目标，则确定所述候选动作的检测结果为合法性动作。

6.根据权利要求5所述的方法，其特征在于，所述对所述多个候选动作进行合法性检测，得到所述多个候选动作的检测结果，还包括：

若所述候选动作对应的可执行行为在所述当前时刻不可作用于所述候选动作的动作目标，则确定所述候选动作的检测结果为非法性动作。

7.根据权利要求5所述的方法，其特征在于，所述对所述多个候选动作进行合法性检测，得到所述多个候选动作的检测结果，还包括：

若所述候选动作对应的可执行行为在所述当前时刻不可用，则确定所述候选动作的检测结果为非法性动作。

8.根据权利要求5所述的方法，其特征在于，所述判断所述候选动作对应的可执行行为在所述当前时刻是否可作用于所述候选动作的动作目标，包括：

判断在所述当前时刻是否可生成所述候选动作的行为参数；

若可生成所述候选动作的行为参数，且所述当前时刻所述候选动作的动作目标为可作用目标，则确定所述候选动作对应的可执行行为在所述当前时刻可作用于所述候选动作的动作目标；

若不可生成所述候选动作的行为参数，或者若可生成所述候选动作的行为参数，且所述当前时刻所述候选动作的动作目标不是所述可作用目标，则确定所述候选动作对应的可执行行为在所述当前时刻不可作用于所述候选动作的动作目标。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述待执行动作的行为参数；

根据所述行为参数，控制所述虚拟机器人执行所述待执行动作。

10.根据权利要求9所述的方法，其特征在于，所述获取所述待执行动作的行为参数，包括：

判断所述待执行动作的行为参数的类别和所述待执行动作的动作目标的类别是否一致；

若一致，则根据所述待执行动作的动作目标，确定所述待执行动作的行为参数。

11.根据权利要求10所述的方法，其特征在于，所述获取所述待执行动作的行为参数，还包括：

若不一致，则判断所述待执行动作的动作目标是否为所述待控制虚拟机器人；

若所述待执行动作的动作目标为所述待控制虚拟机器人，则确定所述待执行动作的行为参数为预设空参数；

若所述待执行动作的动作目标不是所述待控制虚拟机器人，则根据所述待执行动作的动作目标和所述待控制虚拟机器人在所述当前时刻的相对位置关系，确定所述待执行动作的行为参数。

12.根据权利要求1-11任一项所述的方法，其特征在于，所述动作目标包括：所述待控制虚拟机器人、所述游戏中除所述待控制虚拟机器人外的虚拟角色、虚拟模型、技能释放方向、技能释放位置中的至少一种。

13.一种虚拟机器人动作确定装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行权利要求1至12任一项所述的虚拟机器人动作确定方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行权利要求1至12任一项所述的虚拟机器人动作确定方法。