CN111111203B

CN111111203B - 一种机器人的训练方法及装置、技能释放方法及装置

Info

Publication number: CN111111203B
Application number: CN202010048760.5A
Authority: CN
Inventors: 雷子涵; 吕唐杰; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2023-09-26
Anticipated expiration: 2040-01-16
Also published as: CN111111203A

Abstract

本申请提供了一种机器人的训练方法及装置、技能释放方法及装置，所述训练方法包括：获取多个游戏技能的技能效果的属性特征；根据所述属性特征，将所述多个游戏技能进行聚类，得到多个技能类别；根据所述技能类别对应的关键属性特征，从所述技能类别中选取目标游戏技能；将所述目标游戏技能的至少一个技能效果作为对应的技能类别的技能效果，训练游戏中的机器人。本申请减少了训练过程中计算量，缩短了训练时间，提高了训练效率；并且，提高了机器人的对战交互效率。

Description

一种机器人的训练方法及装置、技能释放方法及装置

技术领域

本申请涉及机器学习技术领域，具体而言，涉及一种机器人的训练方法及装置、技能释放方法及装置。

背景技术

在一些游戏中，比如，大型多人在线角色扮演游戏(Massive Multiplayer OnlineRole-Playing Game，MMORPG)中，用户在进行游戏任务时，通常需要控制目标游戏角色与机器人进行对抗，以完成游戏任务。因此，需要预先训练游戏中的机器人。

目前，基于游戏技能作为样本对游戏中机器人的深度强化学习(DeepReinforcement Learning，DRL)训练非常困难。在对抗过程中，游戏角色在一个战斗场景中只能携带特定技能进行使用，以降低游戏的操作难度。其中，游戏中通常包括多个不同的战斗场景和多个不同的游戏角色；其中，同一游戏角色在不同的战斗场景中携带技能是不同的，不同游戏角色在同一战斗场景中携带的技能也是不同的。这样，一个游戏角色在一种战斗场景下就对应多种技能组合情况，并且，每种技能组合情况都需要进行上万次的训练；而针对多个游戏角色和多个战斗场景，又成倍的增加了训练过程的计算量，这就使得整个训练过程耗时极长，训练效率低。

发明内容

有鉴于此，本申请的目的在于提供一种机器人的训练方法、装置、机器人、电子设备及存储介质，通过对游戏技能进行聚类后得到的技能类别作为训练样本对机器人进行训练，减少了训练过程中计算量，缩短了训练时间，提高了训练效率。

第一方面，本申请实施例提供了一种机器人的训练方法，所述训练方法包括：

获取多个游戏技能的技能效果的属性特征；

根据所述属性特征，将所述多个游戏技能进行聚类，得到多个技能类别；

根据所述技能类别对应的关键属性特征，从所述技能类别包括的游戏技能中选取目标游戏技能；

将所述目标游戏技能的至少一个技能效果作为对应的技能类别的技能效果，训练游戏中的机器人。

在一种可能的实施方式中，所述关键属性特征包括所述技能类别中的游戏技能对应的属性特征中的至少一个。

在一种可能的实施方式中，所述根据所述属性特征，将所述多个游戏技能进行聚类，得到多个技能类别，包括：

根据多个游戏技能的技能效果的属性特征，确定不同游戏技能之间的相似度；

根据不同游戏技能之间的相似度，将所述多个游戏技能进行聚类。

在一种可能的实施方式中，所述根据所述技能类别对应的关键属性特征，从所述技能类别包括的游戏技能中选取目标游戏技能，包括：

获取所述技能类别中的游戏技能分别在所述关键属性特征下的特征值；

从所述技能类别包括的游戏技能中，选取对应的在所述关键属性特征下的特征值最大的游戏技能作为所述目标游戏技能。

在一种可能的实施方式中，所述获取所述技能类别中的游戏技能分别在所述关键属性特征下的特征值，包括：

根据所述技能类别中的游戏技能对应的状态标识和冷却时间，从所述技能类别包括的游戏技能中选取候选游戏技能；

获取所述候选游戏能分别在所述关键属性特征下的特征值，作为所述技能类别中的游戏技能分别在所述关键属性特征下的特征值。

在一种可能的实施方式中，所述将所述目标游戏技能的至少一个技能效果作为对应的技能类别的技能效果，训练游戏中的机器人，包括：

获取训练样本集合，所述训练样本集合中包括多个对战状态下的对战状态特征以及在每个对战状态下使用的技能类别；

将每个对战状态下的对战状态特征作为机器人的输入特征，将在每个对战状态下使用的技能类别作为机器人的输出特征，基于机器人在每个对战状态下使用的技能类别对应的技能效果，生成目标分值，并基于所述目标分值调整机器人的参数；

当所述目标分值满足预设条件时，得到训练好的包括特定参数的机器人。

在一种可能的实施方式中，所述属性特征包括以下特征中的至少一种：

伤害特征、眩晕特征、强化特征、削弱特征。

第二方面，本申请实施例还提供了一种技能释放方法，应用于机器人，所述机器人是基于第一方面任一项所述的机器人的训练方法得到的，所述方法包括：

获取当前对战状态下的对战状态特征；

基于所述对战状态特征，确定对应于当前对战状态的目标技能类别；

根据所述目标技能类别对应的关键属性特征，从所述目标技能类别包括的游戏技能中选取目标游戏技能；

释放所述目标游戏技能。

第三方面，本申请实施例还提供了一种机器人的训练方法，所述训练方法包括：

获取多个游戏技能的技能效果的属性特征；

将所述技能类别下的每个游戏技能的至少一个技能效果作为所述技能类别的技能效果，训练游戏中的机器人。

在一种可能的实施方式中，所述将所述技能类别下的每个游戏技能的至少一个技能效果作为所述技能类别的技能效果，训练游戏中的机器人，包括：

获取训练样本集合，所述训练样本集合中包括多个对战状态下的对战状态特征、在每个对战状态下使用的技能类别、以及在每个使用的技能类别下选择的游戏技能的属性特征；

将每个对战状态下的对战状态特征作为机器人的第一输入特征和第二输入特征，将在每个对战状态下使用的技能类别作为机器人的第一输出特征，将在每个使用的技能类别下选择的游戏技能的属性特征作为机器人的第二输出特征，基于机器人在每个对战状态下使用的技能类别对应的技能效果，生成目标分值，并基于所述目标分值调整机器人的第一参数和第二参数；其中，针对每个使用的技能类别，将该技能类别下选择的游戏技能的至少一个技能效果作为该技能类别的技能效果；

当所述目标分值满足预设条件时，得到训练好的包括特定第一参数和特定第二参数的机器人。

第四方面，本申请实施例还提供了一种技能释放方法，应用于机器人，所述机器人是基于第三方面任一项所述的机器人的训练方法得到的，所述方法包括：

获取当前对战状态下的对战状态特征；

基于所述对战状态特征，确定对应于当前对战状态的目标技能类别和所述目标技能类别中的目标游戏技能；

释放所述目标游戏技能。

第五方面，本申请实施例还提供了一种机器人的训练装置，所述训练装置包括：

获取模块，用于获取多个游戏技能的技能效果的属性特征；

聚类模块，用于根据所述属性特征，将所述多个游戏技能进行聚类，得到多个技能类别；

选取模块，用于根据所述技能类别对应的关键属性特征，从所述技能类别包括的游戏技能中选取目标游戏技能；

训练模块，用于将所述目标游戏技能的至少一个技能效果作为对应的技能类别的技能效果，训练游戏中的机器人。

第六方面，本申请实施例还提供了一种技能释放装置，所述装置包括：

获取模块，用于获取当前对战状态下的对战状态特征；

确定模块，用于基于所述对战状态特征，确定对应于当前对战状态的目标技能类别；

选取模块，用于根据所述目标技能类别对应的关键属性特征，从所述目标技能类别包括的游戏技能中选取目标游戏技能；

释放模块，用于释放所述目标游戏技能。

第七方面，本申请实施例还提供了一种机器人的训练装置，所述训练装置包括：

获取模块，用于获取多个游戏技能的技能效果的属性特征；

训练模块，用于将所述技能类别下的每个游戏技能的至少一个技能效果作为所述技能类别的技能效果，训练游戏中的机器人。

第八方面，本申请实施例还提供了一种技能释放装置，所述装置包括：

获取模块，用于获取当前对战状态下的对战状态特征；

确定模块，用于基于所述对战状态特征，确定对应于当前对战状态的目标技能类别和所述目标技能类别中的目标游戏技能；

释放模块，用于释放所述目标游戏技能。

第九方面，本申请实施例还提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如第一方面任一项所述的机器人的训练方法的步骤。

第十方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面任一项所述的机器人的训练方法的步骤。

第十一方面，本申请实施例还提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如第三方面任一项所述的机器人的训练方法的步骤。

第十二方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第三方面任一项所述的机器人的训练方法的步骤。

本申请实施例提供的一种机器人的训练方法及装置、技能释放方法及装置，通过提取每个游戏技能的至少一个技能效果分别对应的属性特征，将多个游戏技能进行聚类，得到多个技能类别，实现了对基于游戏技能的训练样本进行降维，得到了基于技能类别的训练样本，而基于该训练样本在对机器人的训练过程中，根据每个技能类别对应的关键属性特征，确定每个技能类别中的目标游戏技能；将目标游戏技能的至少一个技能效果作为对应的技能类别的技能效果，这样，可以快速确定降维后的每一个技能类别对应的技能效果，进而通过基于技能类别作为训练样本对机器人进行训练，减少了训练过程中计算量，缩短了训练时间，提高了训练效率，同时，还提高了机器人的对战交互效率。

本申请实施例提供的另一种机器人的训练方法及装置、技能释放方法及装置，通过提取每个游戏技能的至少一个技能效果分别对应的属性特征，将多个游戏技能进行聚类，得到多个技能类别，将每个技能类别下的每个游戏技能的至少一个技能效果作为该技能类别的技能效果，训练游戏中的机器人，实现了对基于游戏技能的训练样本进行降维，得到了基于技能类别的训练样本，而基于降维后的训练样本对机器人进行训练，能够提高机器人的训练效率，还能够提高机器人的对战交互效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1a示出了本申请实施例提供的一种机器人的训练方法的流程图；

图1b示出了本申请实施例提供的一种游戏技能的示意图；

图1c示出了本申请实施例提供的另一种游戏技能的示意图；

图2示出了本申请实施例提供的另一种机器人的训练方法的流程图；

图3示出了本申请实施例提供的另一种机器人的训练方法的流程图；

图4示出了本申请实施例提供的另一种机器人的训练方法的流程图；

图5示出了本申请实施例提供的一种技能释放方法的流程图；

图6示出了本申请实施例提供的另一种机器人的训练方法的流程图；

图7示出了本申请实施例提供的另一种机器人的训练方法的流程图；

图8示出了本申请实施例提供的另一种技能释放方法的流程图；

图9示出了本申请实施例提供的一种机器人的训练装置的结构示意图；

图10示出了本申请实施例提供的一种技能释放装置的结构示意图；

图11示出了本申请实施例提供的另一种机器人的训练装置的结构示意图；

图12示出了本申请实施例提供的另一种技能释放装置的结构示意图；

图13示出了本申请实施例提供的一种电子设备的结构示意图；

图14示出了本申请实施例提供的另一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

在游戏中机器人的训练过程中，基于游戏技能作为训练样本，使得对游戏中机器人的深度强化学习(Deep Reinforcement Learning，DRL)训练非常困难，整个训练过程耗时极长，训练效率低。基于此，本申请实施例提供了一种机器人的训练方法、装置、机器人、电子设备及存储介质，通过对游戏技能进行聚类后得到的技能类别作为训练样本对机器人进行训练，极大了减少了训练过程中计算量，缩短了训练时间，提高了训练效率。

为便于对本实施例进行理解，下面结合游戏领域，对本申请实施例提供的一种机器人的训练方法、装置、机器人、电子设备及存储介质进行详细介绍。本申请实施例可以应用于大型多人在线角色扮演游戏(Massive Multiplayer Online Role-Playing Game，MMORPG)中，也可以应用于MOBA(多人在线战术竞技游戏，Multiplayer Online BattleArena)，还可以应用于射击类游戏。本申请实施例不限定具体游戏类型。

本申请实施例中提供的机器人的训练方法可以应用于服务器，也可以应用于终端设备，该终端设备包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机等，下面以上述训练方法应用于服务器为例进行说明。

如图1a所示，为本申请第一实施例提供的一种机器人的训练方法，所述训练方法包括：

S101、获取多个游戏技能的技能效果的属性特征。

其中，每个游戏技能对应有至少一个技能效果，每个技能效果对应有相应的属性特征。在一种实施方式中，获取多个游戏技能中每个游戏技能的至少一个技能效果分别对应的属性特征。

本申请实施例中，首先获取游戏中的多个游戏技能，并确定每个游戏技能对应的不同属性的技能效果；其中，技能效果的不同属性可以包括：伤害(比如物理伤害、火伤害、法术伤害)，眩晕、强化、削弱等。

针对每一个游戏技能，提取该游戏技能的不同属性的技能效果分别对应的属性特征，属性特征可以包括：伤害(比如物理伤害、火伤害、法术伤害)特征，眩晕特征、强化特征、削弱特征等。其中，多个游戏技能对应的特征维度是相同的(也即向量长度是相同的)，对于每一个游戏技能，提取该游戏技能的各个属性的技能效果的特征值，并将特征值写入对应的特征维度上，当该游戏技能不具有某些属性的技能效果时，在该属性的技能效果对应的特征维度上补0，以补齐向量长度。如图1b和图1c所示，“流火·炎”这一游戏技能对应的物理伤害的特征值为1560，持续火焰伤害的特征值为312；七杀·旋”这一游戏技能对应的物理伤害的特征值为166，而在没有持续火焰伤害，相应的，该游戏技能在持续火焰伤害这一特征维度的特征值为0。

S102、根据所述属性特征，将所述多个游戏技能进行聚类，得到多个技能类别。

本申请实施例中，根据多个游戏技能中每个游戏技能下的至少一个所述属性特征，将多个游戏技能进行聚类，得到多个技能类别。

在一种可选的实施方式中，在获取了多个游戏技能中每个游戏技能分别对应的至少一个属性特征后，将这多个游戏技能分别对应的至少一个属性特征输入到预设的聚类模型(比如K-means聚类模型)中，通过聚类模型对多个游戏技能进行聚类，得到多个技能类别；其中，每一个技能类别中包括一个或多个游戏技能。

比如，聚类模型输出三个技能类别，分别为技能类别1、技能类别2和技能类别3。其中，技能类别1中包括游戏技能1、游戏技能2、游戏技能3；技能类别2中包括游戏技能4、游戏技能5、游戏技能6；技能类别3中包括游戏技能7、游戏技能8。

在本申请实施例中，可以采用聚类模型的聚类方式，也可以采用人工聚类的方式。比如，当游戏技能个数较少时，采用人工聚类的方式；当游戏技能个数较多时，采用聚类模型的方式。

S103、根据所述技能类别对应的关键属性特征，从所述技能类别包括的游戏技能中选取目标游戏技能。

本申请实施例中，每个技能类别对应有关键属性特征，该关键属性特征包括所述技能类别中的多个游戏技能对应的属性特征中的至少一个。在一种实施方式中，该关键属性特征包括所述技能类别中的多个游戏技能对应的共有属性特征中的至少一个；这里，所述技能类别中的多个游戏技能中的每个游戏技能均对应该共有属性特征。

可选的，从所述技能类别中选取目标游戏技能包括：获取所述技能类别中的游戏技能分别在所述关键属性特征下的特征值；从所述技能类别包括的游戏技能中，选取对应的在所述关键属性特征下的特征值最大的游戏技能作为所述目标游戏技能。

比如，技能类别1对应的一个关键属性特征，该关键属性特征为物理伤害特征。对应于该物理伤害特征，游戏技能1、游戏技能2、游戏技能3分别对应的特征值为：166、1590、452；其中，游戏技能2的特征值最大，因此，选取游戏技能2作为技能类别1的目标游戏技能。

S104、将所述目标游戏技能的至少一个技能效果作为对应的技能类别的技能效果，训练游戏中的机器人。

本申请实施例中，使用一个神经网络对机器人进行训练，通过该神经网络训练机器人基于输入的对战状态特征，输出决策的技能类别。针对决策的该技能类别，在确定了该技能类别对应的目标游戏技能后，将该目标游戏技能的技能效果作为该技能类别的技能效果。

通过这种方式，可以快速确定降维后的每一个技能类别对应的技能效果，进而基于技能类别作为训练样本对机器人进行训练，极大了减少了训练过程中计算量，缩短了训练时间，提高了训练效率；同时，还提高了机器人的对战交互效率。

进一步的，如图2所示，在本申请实施例中，通过聚类模型对多个游戏技能进行聚类，以获得多个技能类别。这里，聚类模型根据所述属性特征，将所述多个游戏技能进行聚类，得到多个技能类别，具体包括：

S201、根据多个游戏技能的技能效果的属性特征，确定不同游戏技能之间的相似度。

S202、根据不同游戏技能之间的相似度，将所述多个游戏技能进行聚类。

结合步骤201和步骤202，根据多个游戏技能中每个游戏技能下的至少一个属性特征，确定不同游戏技能之间的相似度。本申请实施例中，将每个游戏技能下的至少一个属性特征输入到聚类模型中，聚类模型基于每组游戏技能下的至少一个属性特征(即高维向量)，计算该组游戏技能之间的欧式距离，进而得到多组游戏技能分别对应的欧式距离，然后基于多组游戏技能分别对应的欧式距离，确定不同游戏技能之间的相似度，并将相似度较高(比如相似度大于设定阈值)的游戏技能聚为一类，进而得到多个技能类别。

在游戏中，每一战斗场景中具有特定的可用游戏技能，且不同的战斗场景中可用的游戏技能不同；每个游戏技能对应有冷却时间，每个游戏技能在未处于冷却状态(即冷却时间为0)时可用。基于此，如图3所示，本申请实施例中，获取所述技能类别中的游戏技能分别在所述关键属性特征下的特征值，包括：

S301、根据所述技能类别中的游戏技能对应的状态标识和冷却时间，从所述技能类别包括的游戏技能中选取候选游戏技能。

通常情况下，一个技能类别中包括多个游戏技能。本申请实施例中，针对每一个技能类别，根据该技能类别下的多个游戏技能中每个所述游戏技能对应的状态标识和冷却时间，从所述技能类别包括的多个游戏技能中选取候选游戏技能。

本申请实施例中，针对每个战斗场景，该战斗场景中可用的游戏技能对应有一状态标识，该状态标识用于指示该游戏技能在该战斗场景中可用。每一个游戏技能还对应有一冷却时间，该冷却时间用于指示该游戏技能是否为可用状态；其中，该游戏技能的冷却时间为0，该游戏技能可用。

在一种实施方式中，在每一个对战场景下，针对每一个技能类别下的多个游戏技能，选取该对战场景下具有状态标识且未处于冷却状态(即冷却时间为0)的游戏技能，作为候选游戏技能。

比如，在一个对战场景下，技能类别1中包括游戏技能1(具有状态标识a)、游戏技能2(具有状态标识a)、游戏技能3且这三个游戏技能的冷却时间均为0，此时，选取游戏技能1和游戏技能2作为该技能类别1对应的候选游戏技能。

S302、获取所述候选游戏能分别在所述关键属性特征下的特征值，作为所述技能类别中的游戏技能分别在所述关键属性特征下的特征值。

针对每一个技能类别，获取该技能类别中的候选游戏能分别在该技能类别对应的关键属性特征下的特征值，作为所述技能类别中的游戏技能分别在所述关键属性特征下的特征值，以便基于所述技能类别中的游戏技能分别在所述关键属性特征下的特征值，选取对应的在关键属性特征下的特征值最大的候选游戏技能作为目标游戏技能。

比如，在一个对战场景下，技能类别1的候选游戏技能为：游戏技能1和游戏技能2。游戏技能1、游戏技能2在关键属性特征下分别对应的特征值为：166、1590；其中，游戏技能2的特征值最大，因此，选取游戏技能2作为技能类别1的目标游戏技能。

下面对本申请实施例中基于技能类别的训练样本对游戏中的机器人进行训练的方式进行具体说明。如图4所示，所述将所述目标游戏技能的至少一个技能效果作为对应的技能类别的技能效果，训练游戏中的机器人，包括：

S401、获取训练样本集合，所述训练样本集合中包括多个对战状态下的对战状态特征以及在每个对战状态下使用的技能类别。

这里，每个技能类别对应有唯一的类别编号，通过类别编号标识相应的技能类别。相应的，训练样本集合中包括在每个对战状态下使用的技能类别的类别编号。

S402、将每个对战状态下的对战状态特征作为机器人的输入特征，将在每个对战状态下使用的技能类别作为机器人的输出特征，基于机器人在每个对战状态下使用的技能类别对应的技能效果，生成目标分值，并基于所述目标分值调整机器人的参数。

这里，将在每个对战状态下使用的技能类别的类别编号作为机器人的输出特征。

S403、当所述目标分值满足预设条件时，得到训练好的包括特定参数的机器人。

结合步骤S401至步骤403，在一个战斗场景中对机器人进行训练的过程包括，获取该战斗场景中一个对战状态下的对战状态特征，将该对战状态特征输入到机器人中，机器人基于初始的目标参数选择对应于当前对战状态的技能类别(比如技能类别1)；在选择了该技能类别后，机器人基于该技能类别对应的关键属性特征，从该技能类别中选取对应关键属性特征的目标游戏技能，并将该目标游戏技能的至少一个技能效果作为该技能类别的技能效果(即确定选择目标游戏技能进行释放)，并基于释放该目标游戏技能后的对战状态特征，生成机器人选择该技能类别对应的第一目标分值，并基于该第一目标分值更新机器人的目标参数。

在该战斗场景中，获取下一个对战状态下的对战状态特征，将该对战状态特征输入到机器人中，机器人基于上一次更新后的目标参数选择对应于当前对战状态的技能类别(比如技能类别2)，在选择了该技能类别后，机器人基于该技能类别对应的关键属性特征，从该技能类别中选取对应关键属性特征的目标游戏技能，并将该目标游戏技能的至少一个技能效果作为该技能类别的技能效果(即确定选择目标游戏技能进行释放)，并基于释放该目标游戏技能后的对战状态特征，生成机器人选择该技能类别的第二目标分值，并基于该第二目标分值更新机器人的目标参数；循环在该战斗场景中，获取下一个对战状态下的对战状态特征的过程，直至得到对应于该对战场景的一组目标分值(包括该对战场景中每个对战状态下的目标分值，即包括第一目标分值、第二目标分值)符合预设条件(比如该组目标分值的总和大于预设阈值)，得到训练好的包括特定目标参数的机器人。

本申请实施例提供的一种机器人的训练方法，通过提取每个游戏技能的至少一个技能效果分别对应的属性特征，将多个游戏技能进行聚类，得到多个技能类别，实现了对基于游戏技能的训练样本进行降维，得到了基于技能类别的训练样本，而基于该训练样本在对机器人的训练过程中，根据每个技能类别对应的关键属性特征，确定每个技能类别中的目标游戏技能；将目标游戏技能的至少一个技能效果作为对应的技能类别的技能效果，这样，可以快速确定降维后的每一个技能类别对应的技能效果，进而通过基于技能类别作为训练样本对机器人进行训练，减少了训练过程中计算量，缩短了训练时间，提高了训练效率，同时，还提高了机器人的对战交互效率。

如图5所示，对应于第一实施例提供的机器人的训练方法，本申请第二实施例还提供了一种技能释放方法，应用于机器人，所述机器人是基于第一实施例提供的机器人的训练方法得到的，所述方法包括：

S501、获取当前对战状态下的对战状态特征。

S502、基于所述对战状态特征，确定对应于当前对战状态的目标技能类别。

S503、根据所述目标技能类别对应的关键属性特征，从所述目标技能类别包括的游戏技能中选取目标游戏技能。

S504、释放所述目标游戏技能。

结合步骤501至步骤504，将当前对战状态下的对战状态特征输入到机器人中，机器人基于对战状态特征，选择对应于当前对战状态的目标技能类别，并从该目标技能类别中选择对应于该目标技能类别的关键属性特征的目标游戏技能，并释放该目标游戏技能。

本申请实施例中，机器人选取目标游戏技能的方式如下：获取该目标技能类别中的游戏技能分别在关键属性特征下的特征值，并选取对应的在关键属性特征下的特征值最大的游戏技能作为目标游戏技能。

比如，机器人从技能类别1、技能类别2、技能类别3中选择技能类别1，技能类别1对应的关键属性特征为物理伤害特征，对应于该物理伤害特征，技能类别1中包括的游戏技能1、游戏技能2、游戏技能3分别对应的特征值为：166、1590、452，相应的，游戏技能2的特征值最大，选择游戏技能2为目标游戏技能。

如图6所示，为本申请第三实施例提供的一种机器人的训练方法，所述训练方法包括：

S601、获取多个游戏技能的技能效果的属性特征。

其中，该步骤与步骤101相同，这里，不再进行详细说明。

S602、根据所述属性特征，将所述多个游戏技能进行聚类，得到多个技能类别。

其中，该步骤与步骤102相同，这里，不再进行详细说明描述。

S603、将所述技能类别下的每个游戏技能的至少一个技能效果作为所述技能类别的技能效果，训练游戏中的机器人。

本申请实施例中，针对每个技能类别，将该技能类别下的每个游戏技能的至少一个技能效果作为该技能类别的技能效果，训练游戏中的机器人。

其中，使用两个神经网络并行对机器人进行训练。其中，通过第一神经网络训练机器人基于输入的对战状态特征，输出决策的技能类别；通过第二神经网络(该第二神经网络为第一神经网络的子神经网络)训练机器人基于输入的对战状态特征，输出决策的技能类别中的目标游戏技能。

本申请实施例提供的该种机器人的训练方法，基于降维后的技能类别作为训练样本对机器人进行训练，能够使用两个神经网络并行对机器人进行训练，提高了训练效率，还提高了机器人的对战交互效率。

下面对基于第一神经网络和第二神经网络对机器人的训练过程进行详细说明。在本申请实施例提供的机器人的训练方法中，如图7所示，所述将所述技能类别下的每个游戏技能的至少一个技能效果作为所述技能类别的技能效果，训练游戏中的机器人，包括：

S701、获取训练样本集合，所述训练样本集合中包括多个对战状态下的对战状态特征、在每个对战状态下使用的技能类别、以及在每个使用的技能类别下选择的游戏技能的属性特征。

S702、将每个对战状态下的对战状态特征作为机器人的第一输入特征和第二输入特征，将在每个对战状态下使用的技能类别作为机器人的第一输出特征，将在每个使用的技能类别下选择的游戏技能的属性特征作为机器人的第二输出特征，基于机器人在每个对战状态下使用的技能类别对应的技能效果，生成目标分值，并基于所述目标分值调整机器人的第一参数和第二参数；其中，针对每个使用的技能类别，将该技能类别下选择的游戏技能的至少一个技能效果作为该技能类别的技能效果。

这里，将在每个对战状态下使用的技能类别的类别编号作为机器人的第一输出特征。

S703、当所述目标分值满足预设条件时，得到训练好的包括特定第一参数和特定第二参数的机器人。

结合步骤S701至步骤703，在一个战斗场景中对机器人进行训练的过程包括，获取一个对战状态下的对战状态特征，将该对战状态特征输入到机器人的第一神经网络中和第二神经网络中，第一神经网络基于初始的第一参数选择对应于当前对战状态的技能类别；第二神经网络基于初始的第二参数从第一神经网络选择的技能类别包括的多个游戏技能中，选择目标游戏技能；第一神经网络将该目标游戏技能的至少一个技能效果作为选择的技能类别的技能效果(即选择目标游戏技能进行释放)，并基于释放该目标游戏技能后的对战状态特征，生成机器人选择该技能类别以及该技能类别中的目标游戏技能对应的第一目标分值，并基于该目标分值更新第一神经网络中的第一参数和第二神经网络中的第二参数。

同理，在该战斗场景中，获取下一个对战状态下的对战状态特征，将该对战状态特征将该对战状态特征输入到机器人的第一神经网络中和第二神经网络中，第一神经网络基于更新后的第一参数选择对应于当前对战状态的技能类别；第二神经网络基于更新后的第二参数从第一神经网络选择的技能类别包括的多个游戏技能中，选择目标游戏技能；第一神经网络将该目标游戏技能的至少一个技能效果作为选择的技能类别的技能效果(即选择目标游戏技能进行释放)，并基于释放该目标游戏技能后的对战状态特征，生成机器人选择该技能类别以及该技能类别中的目标游戏技能对应的第二目标分值，并基于该第二目标分值再次更新第一神经网络中的第一参数和第二神经网络中的第二参数；循环在该战斗场景中，获取下一个对战状态下的对战状态特征的过程，直至得到对应于该对战场景的一组目标分值(包括该对战场景中每个对战状态下的目标分值，即包括第一目标分值、第二目标分值)符合预设条件(比如该组目标分值的总和大于预设阈值)，得到训练好的包括特定第一参数和特定第二参数的机器人。

本申请实施例提供的该种机器人的训练方法，基于降维后的技能类别的训练样本对机器人进行训练，能够使用两个神经网络并行对机器人进行训练，提高了训练效率，还提高了机器人的对战交互效率。

如图8所示，本申请第四实施例还提供了一种技能释放方法，应用于机器人，所述机器人是基于第三实施例提供的机器人的训练方法得到的，所述方法包括：

S801、获取当前对战状态下的对战状态特征。

S802、基于所述对战状态特征，确定对应于当前对战状态的目标技能类别和所述目标技能类别中的目标游戏技能。

S803、释放所述目标游戏技能。

结合步骤801至步骤803，将当前对战状态下的对战状态特征分别输入到机器人的第一神经网络和第二神经网络中，机器人的第一神经网络基于对战状态特征，选择对应于当前对战状态的目标技能类别，机器人的第二神经网络基于对战状态特征，从该目标技能类别中选择目标游戏技能，并释放该目标游戏技能。

基于同一发明构思，本申请第五实施例中还提供了与第一实施例提供的机器人的训练方法对应的机器人的训练方法装置，由于本申请第五实施例中的装置解决问题的原理与本申请第一实施例提供的机器人的训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图9所示，为本申请第五实施例提供的一种机器人的训练装置的示意图，所述训练装置包括：

获取模块901，用于获取多个游戏技能的技能效果的属性特征；

聚类模块902，用于根据所述属性特征，将所述多个游戏技能进行聚类，得到多个技能类别；

选取模块903，用于根据所述技能类别对应的关键属性特征，从所述技能类别包括的游戏技能中选取目标游戏技能；

训练模块904，用于将所述目标游戏技能的至少一个技能效果作为对应的技能类别的技能效果，训练游戏中的机器人。

在一种可能的实施方式中，聚类模块902根据所述属性特征，将所述多个游戏技能进行聚类，得到多个技能类别时，包括：

在一种可能的实施方式中，选取模块903根据所述技能类别对应的关键属性特征，从所述技能类别包括的游戏技能中选取目标游戏技能，包括：

在一种可能的实施方式中，选取模块903获取所述技能类别中的游戏技能分别在所述关键属性特征下的特征值时，包括：

在一种可能的实施方式中，所述训练模块904在将所述目标游戏技能的至少一个技能效果作为对应的技能类别的技能效果，训练游戏中的机器人时，包括：

伤害特征、眩晕特征、强化特征、削弱特征。

本申请实施例提供的一种机器人的训练装置，通过提取每个游戏技能的至少一个技能效果分别对应的属性特征，将多个游戏技能进行聚类，得到多个技能类别，实现了对基于游戏技能的训练样本进行降维，得到了基于技能类别的训练样本，而基于该训练样本在对机器人的训练过程中，根据每个技能类别对应的关键属性特征，确定每个技能类别中的目标游戏技能；将目标游戏技能的至少一个技能效果作为对应的技能类别的技能效果，这样，可以快速确定降维后的每一个技能类别对应的技能效果，进而通过基于技能类别作为训练样本对机器人进行训练，减少了训练过程中计算量，缩短了训练时间，提高了训练效率，同时，还提高了机器人的对战交互效率。

基于同一发明构思，本申请第六实施例中还提供了与第二实施例提供的技能释放方法对应的技能释放装置，由于本申请第六实施例中的装置解决问题的原理与本申请第二实施例提供的技能释放方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

相对于第五实施例，参照图10所示，本申请第六实施例还提供了一种技能释放装置，所述装置包括：

获取模块1001，用于获取当前对战状态下的对战状态特征；

确定模块1002，用于基于所述对战状态特征，确定对应于当前对战状态的目标技能类别；

选取模块1003，用于根据所述目标技能类别对应的关键属性特征，从所述目标技能类别包括的游戏技能中选取目标游戏技能；

释放模块1004，用于释放所述目标游戏技能。

基于同一发明构思，本申请七实施例中还提供了与第三实施例提供的机器人的训练方法对应的机器人的训练方法装置，由于本申请第七实施例中的装置解决问题的原理与本申请第三实施例上述机器人的训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图11所示，为本申请第七实施例提供的一种机器人的训练装置，所述训练装置包括：

获取模块1101，用于获取多个游戏技能的技能效果的属性特征；

聚类模块1102，用于根据所述属性特征，将所述多个游戏技能进行聚类，得到多个技能类别；

训练模块1103，用于将所述技能类别下的每个游戏技能的至少一个技能效果作为所述技能类别的技能效果，训练游戏中的机器人。

在一种可能的实施方式中，训练模块1103将所述技能类别下的每个游戏技能的至少一个技能效果作为所述技能类别的技能效果，训练游戏中的机器人时，包括：

本申请实施例提供的该种机器人的训练装置，通过对基于游戏技能的训练样本进行降维，得到了基于技能类别的训练样本，而基于降维后的训练样本对机器人进行训练，能够提高机器人的训练效率，还能够提高机器人的对战交互效率。

基于同一发明构思，本申请第八实施例中还提供了与第四实施例提供的技能释放方法对应的技能释放装置，由于本申请第八实施例中的装置解决问题的原理与本申请第四实施例提供的技能释放方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

相对于第七实施例，参照图12所示，本申请第八实施例还提供了一种技能释放装置，所述装置包括：

获取模块1201，用于获取当前对战状态下的对战状态特征；

确定模块1202，用于基于所述对战状态特征，确定对应于当前对战状态的目标技能类别和所述目标技能类别中的目标游戏技能；

释放模块1203，用于释放所述目标游戏技能。

如图13所示，本申请第九实施例提供的一种电子设备1300，包括：处理器1301、存储器1302和总线，所述存储器1302存储有所述处理器1301可执行的机器可读指令，当电子设备运行时，所述处理器1301与所述存储器1302之间通过总线通信，所述处理器1301执行所述机器可读指令，以执行如第一实施例中机器人的训练方法的步骤。

具体地，上述存储器1302和处理器1301能够为通用的存储器和处理器，这里不做具体限定，当处理器1301运行存储器1302存储的计算机程序时，能够执行第一实施例中机器人的训练方法。

对应于第一实施例中的机器人的训练方法，本申请第十实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行第一实施例中机器人的训练方法的步骤。

如图14所示，本申请第十一实施例提供的一种电子设备1400，包括：处理器1401、存储器1402和总线，所述存储器1402存储有所述处理器1401可执行的机器可读指令，当电子设备运行时，所述处理器1401与所述存储器1402之间通过总线通信，所述处理器1401执行所述机器可读指令，以执行如第三实施例中机器人的训练方法的步骤。

具体地，上述存储器1402和处理器1401能够为通用的存储器和处理器，这里不做具体限定，当处理器1401运行存储器1402存储的计算机程序时，能够执行第三实施例中机器人的训练方法。

对应于第三实施例中的机器人的训练方法，本申请第十二实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行第三实施例中机器人的训练方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种机器人的训练方法，其特征在于，所述训练方法包括：

获取多个游戏技能的技能效果的属性特征；

获取所述技能类别中的游戏技能分别在关键属性特征下的特征值；从所述技能类别包括的游戏技能中，选取对应的在所述关键属性特征下的特征值最大的游戏技能作为目标游戏技能；所述关键属性特征包括所述技能类别中的多个游戏技能对应的共有属性特征中的至少一个；

2.根据权利要求1所述的机器人的训练方法，其特征在于，所述根据所述属性特征，将所述多个游戏技能进行聚类，得到多个技能类别，包括：

3.根据权利要求1所述的机器人的训练方法，其特征在于，所述获取所述技能类别中的游戏技能分别在所述关键属性特征下的特征值，包括：

4.根据权利要求1所述的机器人的训练方法，其特征在于，所述将所述目标游戏技能的至少一个技能效果作为对应的技能类别的技能效果，训练游戏中的机器人，包括：

5.根据权利要求1所述的机器人的训练方法，其特征在于，所述属性特征包括以下特征中的至少一种：

伤害特征、眩晕特征、强化特征、削弱特征。

6.一种技能释放方法，其特征在于，应用于机器人，所述机器人是基于权利要求1-5任一项所述的机器人的训练方法得到的，所述方法包括：

获取当前对战状态下的对战状态特征；

释放所述目标游戏技能。

7.一种机器人的训练方法，其特征在于，所述训练方法包括：

获取多个游戏技能的技能效果的属性特征；

将所述技能类别下的每个游戏技能的至少一个技能效果作为所述技能类别的技能效果，训练游戏中的机器人；

所述将所述技能类别下的每个游戏技能的至少一个技能效果作为所述技能类别的技能效果，训练游戏中的机器人，包括：

将每个对战状态下的对战状态特征作为机器人的第一输入特征和第二输入特征，将在每个对战状态下使用的技能类别作为机器人的第一输出特征，将在每个使用的技能类别下选择的游戏技能的属性特征作为机器人的第二输出特征，基于机器人在每个对战状态下使用的技能类别对应的技能效果，生成目标分值，并基于所述目标分值调整机器人的第一参数和第二参数；其中，针对每个使用的技能类别，将该技能类别下选择的游戏技能的至少一个技能效果作为该技能类别的技能效果；所述第一参数为所述机器人中的第一神经网络中的参数，所述第一神经网络基于第一参数选择对应于当前对战状态的技能类别；所述第二参数为所述机器人中的第二神经网络中的参数，所述第二神经网络基于第二参数从所述第一神经网络选择出的技能类别包括的多个游戏技能中选择目标游戏技能；

8.一种技能释放方法，其特征在于，应用于机器人，所述机器人是基于权利要求7所述的机器人的训练方法得到的，所述方法包括：

获取当前对战状态下的对战状态特征；

释放所述目标游戏技能。

9.一种机器人的训练方法装置，其特征在于，

获取模块，用于获取多个游戏技能的技能效果的属性特征；

选取模块，用于获取所述技能类别中的游戏技能分别在关键属性特征下的特征值；从所述技能类别包括的游戏技能中，选取对应的在所述关键属性特征下的特征值最大的游戏技能作为目标游戏技能；所述关键属性特征包括所述技能类别中的多个游戏技能对应的共有属性特征中的至少一个；

10.一种技能释放装置，用于执行如权利要求6所述的技能释放方法，其特征在于，所述装置包括：

获取模块，用于获取当前对战状态下的对战状态特征；

释放模块，用于释放所述目标游戏技能。

11.一种机器人的训练装置，其特征在于，所述训练装置包括：

获取模块，用于获取多个游戏技能的技能效果的属性特征；

训练模块，用于将所述技能类别下的每个游戏技能的至少一个技能效果作为所述技能类别的技能效果，训练游戏中的机器人；

训练模块将所述技能类别下的每个游戏技能的至少一个技能效果作为所述技能类别的技能效果，训练游戏中的机器人时，包括：

12.一种技能释放装置，用于执行如权利要求8所述的技能释放方法，其特征在于，所述装置包括：

获取模块，用于获取当前对战状态下的对战状态特征；

释放模块，用于释放所述目标游戏技能。

13.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至5任一项所述的机器人的训练方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至5任一项所述的机器人的训练方法的步骤。

15.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求7所述的机器人的训练方法的步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求7所述的机器人的训练方法的步骤。