CN111330279B

CN111330279B - 一种游戏ai的策略决策模型训练方法和装置

Info

Publication number: CN111330279B
Application number: CN202010114213.2A
Authority: CN
Inventors: 黄叶; 吕唐杰; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2023-04-07
Anticipated expiration: 2040-02-24
Also published as: CN111330279A

Abstract

本申请实施例提供一种游戏AI的策略决策模型训练方法和装置，该方法包括：获取角色状态通用模型，角色状态通用模型的状态构成参数包括训练角色信息和对战角色信息，对战角色信息包括对战角色的职业；根据状态构成参数获取当前训练角色对应的对战信息，其中，对战信息包括当前训练角色的信息和与当前训练角色对战的当前对战角色的信息，当前对战角色的信息包括当前对战角色的职业；将当前训练角色对应的对战信息输入到策略决策模型中，得到当前训练角色与当前对战角色对战时的策略；基于对战信息和策略训练策略决策模型以作为当前训练角色的职业对应的策略决策模型。通过上述技术方案，本申请实施例能够通过对手的职业来生成不同的策略。

Description

一种游戏AI的策略决策模型训练方法和装置

技术领域

本申请涉及信息处理技术领域，具体而言，涉及一种游戏AI的策略决策模型训练方法和装置。

背景技术

目前，很多MMORPG(Multiplayer Online Role-PlayingGame，大型多人在线角色扮演游戏)游戏都提供了托管的功能，在托管模式下，玩家的角色可由电脑进行控制。例如，PVP(Player Versus Player，玩家对战玩家)场景中的玩家托管等。

其中，针对不同职业间对战时的玩家托管主要是通过人工编写的决策树来实现的。例如，对于不同职业间对战时的玩家托管，可为每种职业设计一种该职业针对对手职业的决策树。

在实现本发明的过程中，发明人发现现有技术至少存在如下问题：由于决策树是人工设计的，从而导致现有技术至少存在着表现单一的问题。例如，在玩家托管的场景下，某职业在对战不同职业时，采用的对战策略是一样的。

发明内容

本申请实施例的目的在于提供一种游戏AI的策略决策模型训练方法和装置，以解决现有技术中存在着的人工设计的决策树导致的对战时表现比较单一的问题的问题。

第一方面，本申请实施例提供了一种游戏AI的策略决策模型训练方法，该策略决策模型训练方法包括：获取角色状态通用模型，角色状态通用模型的状态构成参数包括训练角色信息和对战角色信息，对战角色信息包括对战角色的职业；根据状态构成参数获取当前训练角色对应的对战信息，其中，对战信息包括当前训练角色的信息和当前对战角色的信息，当前对战角色是与当前训练角色对战的对战角色，当前对战角色的信息包括当前对战角色的职业；将当前训练角色对应的对战信息输入到策略决策模型中，得到当前训练角色与当前对战角色对战时的策略；基于对战信息和策略训练策略决策模型以作为当前训练角色的职业对应的策略决策模型。

因此，本申请实施例通过上述技术方案，从而每个职业只需要训练一个策略决策模型即可，从而相比于现有技术，本申请实施例能够减少模型的设计耗时和训练耗时，以及由于减少了每个职业对应的模型的数量，进而还能够降低模型部署时的内存消耗。

在一个可能的实施例中，对战信息包括一个对战回合时间中的n个对战子信息，策略包括一个对战回合时间中的与n个对战子信息一一对应的n个子策略，n为正整数。

因此，本申请实施例通过在一个对战回合中对当前训练角色对应的深度学习模型进行不断地更新，从而能够优化深度学习模型的性能。

在一个可能的实施例中，一个对战回合时间包括：从对战开始至持续预设时长的时间，或者从对战开始至当前训练角色和当前对战角色中任意一方死亡的时间。

因此，本申请实施例可通过定义一个回合的结束，从而可通过预设场数的回合来快速地实现策略决策模型的更新，从而减少了训练耗时或者更新耗时。

在一个可能的实施例中，当前训练角色的信息包括以下信息中的至少一个信息：当前训练角色携带的技能、当前训练角色携带的技能中每个技能的冷却时间、当前训练角色的剩余血量、当前训练角色的位置和当前对战角色对当前训练角色施加的状态。

因此，本申请实施例中的当前训练角色的信息携带有多个信息，从而使得策略决策模型可参照的信息比较多，从而能够得到更加精准的策略。

在一个可能的实施例中，当前训练角色携带的技能是按照当前训练角色的所有技能中每个技能的权重，从当前训练角色的所有技能中随机抽取得到的。

因此，本申请实施例通过按照每个技能的权重来随机抽取技能，从而通过该方式更新得到的策略决策模型能够应对用户携带不同的技能的情况。

在一个可能的实施例中，每个技能的权重是根据统计线上玩家对战不同职业时的历史对战数据得到的。

因此，本申请实施例通过历史对战数据来生成当前训练角色携带的技能，从而相比于现有的固定技能的训练方式，通过该方式更新后的策略决策模型不仅能够应对用户携带的不同的技能的情况，还能够学会所有技能的连招配合等。

在一个可能的实施例中，当前对战角色的信息包括当前对战角色的状态；当前对战角色的状态包括以下信息中的至少一个信息：当前对战角色的位置、当前对战角色的剩余血量和当前训练角色对当前对战角色施加的状态。

因此，本申请实施例能够通过当前训练角色的对战信息中的对战角色的信息来在对战时区分对手的职业，从而策略决策模型能够通过对手的职业来生成不同的策略。

第二方面，本申请实施例提供了一种更新策略决策模型的装置，该装置包括：获取模块，用于获取角色状态通用模型，角色状态通用模型的状态构成参数包括训练角色信息和对战角色信息，对战角色信息包括对战角色的职业；获取模块，还用于根据状态构成参数获取当前训练角色对应的对战信息，其中，对战信息包括当前训练角色的信息和当前对战角色的信息，当前对战角色是与当前训练角色对战的对战角色，当前对战角色的信息包括当前对战角色的职业；输入模块，用于将当前训练角色对应的对战信息输入到策略决策模型中，得到当前训练角色与当前对战角色对战时的策略；训练模块，用于基于对战信息和策略训练策略决策模型以作为当前训练角色的职业对应的策略决策模型。

第三方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。

第四方面，本申请实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。

第五方面，本申请提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。

为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种玩家角色和游戏场景进行交互的过程的流程图；

图2示出了本申请实施例提供的一种游戏AI的策略决策模型训练方法的流程图；

图3示出了本申请实施例提供的一种角色状态通用模型的示意图；

图4示出了本申请实施例提供的一种游戏AI的策略决策模型训练方法的具体流程图；

图5示出了本申请实施例提供的一种游戏AI的策略决策模型训练装置的结构框图；

图6是本申请实施例提供的一种电子设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在MMORPG游戏中存在众多需要人工设计的角色行为控制场景，例如，PVE(PlayerVersus Environment，玩家对战环境)场景下的自动打怪、PVP场景中的玩家托管等，之前往往使用复杂的条件判定和决策树来实现，但是，该决策树的实现方式至少存在着流程复杂、表现死板等问题。

例如，对于不同职业间对战时的玩家托管，可为每种职业设计一种该职业针对对手职业的决策树，但是，由于决策树完全是由人工设计的，从而这就导致在面临复杂场景时存在着缺乏自动决策能力、在对战不同职业时表现相同和容易被玩家发现漏洞等问题。

随后，通过DRL(Deep Reinforcement Learning，深度强化学习)结合深度神经网络的强大拟合能力和有效的强化学习算法来实现玩家托管，该类型的模型通过训练可达到甚至超过玩家的水平。在MMORPG游戏的玩家托管的场景中使用深度强化学习进行self-play(自我对局)训练，从而在尽量减少人工干预的情况下，让模型在自学习中进行充分训练，最终能够在不依赖人工设计的情况下进行更优的决策。

其中，针对不同职业间对战时的玩家托管目前是通过为每种职业建立一种该职业针对对手职业的强化学习模型，以及该模式是对玩家携带的固定技能进行训练。但是，该方式至少存在着如下问题：

随着职业数量的增加，则m个职业需要训练

个模型，且每个模型都需要重新设计和建模，且同一职业的模型也需要大量的重复训练，从而该方式存在着耗时长的问题，m为正整数；

虽然固定技能的训练需要的训练时间相对较短，但是，由于各个玩家携带的技能具有多样性，从而有可能出现玩家携带的技能组合是模型没有训练过的，从而该方式存在着无法处理实际游戏场景中的多种技能配置组合的问题；

由于存在

个模型，在进行游戏后端部署时，需要对每个模型进行分别处理，流程复杂，从而该方式也存在着模型的部署比较消耗内存的问题。

基于此，本申请实施例巧妙地提出了一种游戏AI的策略决策模型训练方案，通过获取角色状态通用模型，角色状态通用模型的状态构成参数包括训练角色信息和对战角色信息，对战角色信息包括对战角色的职业，以及根据状态构成参数获取当前训练角色对应的对战信息，其中，对战信息包括当前训练角色的信息和当前对战角色的信息，当前对战角色是与当前训练角色对战的对战角色，当前对战角色的信息包括当前对战角色的职业，以及将当前训练角色对应的对战信息输入到策略决策模型中，得到当前训练角色与当前对战角色对战时的策略，最后基于对战信息和策略训练策略决策模型以作为当前训练角色的职业对应的策略决策模型。

从而，本申请实施例通过上述技术方案，从而每个职业只需要训练一个策略决策模型即可，从而相比于现有技术，本申请实施例能够减少模型的设计耗时和训练耗时，以及由于减少了每个职业对应的模型的数量，进而还能够降低模型部署时的内存消耗。

此外，本申请实施例还能够通过当前训练角色的对战信息中的对战角色的信息来在对战时区分对手的职业，从而策略决策模型能够通过对手的职业来生成不同的策略。

请参见图1，图1示出了本申请实施例提供的一种玩家角色和游戏场景进行交互的过程的流程图。如图1所示的过程包括：

在每次回合开始前，通过下文中图3所示的角色状态通用模型，从游戏环境中获取当前训练角色对应的第一次的对战信息，以及还可将当前训练角色对应的第一次的对战信息输入到当前训练角色的职业对应的策略决策模型中，得到当前训练角色与对战角色对战时的第一次的策略。以及，还可通过奖赏函数对第一次的策略进行计算，得到第一次的策略的奖赏值。

随后，再次通过下文中图3所示的角色状态通用模型，从游戏环境中获取当前训练角色对应的第二次的对战信息，以及还将当前训练角色对应的第二次的对战信息和第一次的策略的奖赏值输入到当前训练角色的职业对应的策略决策模型中，得到当前训练角色与对战角色对战时的第二次的策略。以及，还可通过奖赏函数对第二次的策略进行计算，得到第二次的策略的奖赏值。

随后，通过重复上述第二次的相关过程，直至到达预设时间点(或者当前训练角色和对战角色中任意一方死亡)，则该回合结束，对该当前训练角色的职业对应的策略决策模型进行了训练。以及在预设次数的回合后，该策略决策的训练结束。

应理解，预设次数的具体数值可根据实际需求来进行设置，本申请实施例并不局限于此。

例如，预测次数的具体数值可以是500场，也可以是1000场，也可以是2000场等。

此外，本申请实施例中的不同的职业对应不同的策略决策模型，相同职业对应同一策略决策模型。

需要说明的是，虽然图1以强化学习的训练过程来进行描述的，但本领域的技术人员应当理解，其还可采用其它的训练过程来实现，只要保证能够实现对决策策略模型的训练即可，本申请实施例并不局限于此。

例如，将当前训练角色对应的对战信息输入到策略决策模型中，得到当前训练角色与当前对战角色对战时的策略；基于对战信息和策略训练策略决策模型以作为当前训练角色的职业对应的策略决策模型。

应理解，当前对战角色还可称为与当前训练角色对战的对战角色。

还应理解，当前对战角色的选取可根据实际需求来进行设置。

例如，每个当前的训练角色所对战的训练角色可以是从历史模型中选择出来的。其中，历史模型可以是现有技术中的模型，也可以是本申请中的历史决策策略模型。

请参见图2，图2示出了本申请实施例提供的一种游戏AI的策略决策模型训练方法的流程图，应理解，图2所示的方法可以由游戏AI的策略决策模型训练装置执行，该装置可以与下文中的图5所示的装置对应，该装置可以是能够执行该方法的各种设备，例如，如个人计算机、服务器或网络设备等，本申请实施例并不限于此。如图2所示的方法包括：

步骤S210，获取角色状态通用模型，角色状态通用模型的状态构成参数包括训练角色信息和对战角色信息，对战角色信息包括对战角色的职业。

应理解，训练角色信息包括以下信息中的至少一个信息：训练角色携带的技能、训练角色携带的技能中每个技能的冷却时间、训练角色的剩余血量、训练角色的位置和与训练角色对战的对战角色对训练角色施加的状态。

其中，与训练角色对战的对战角色对训练角色施加的状态包括：对战角色已经对训练角色施加的状态(例如，当前训练角色已经处于减速等减益状态下)，以及对战角色可能对训练角色施加的状态(例如，对战角色可能会对当前训练角色施加冰冻等减益状态)，本申请实施例并不局限于此。

还应理解，虽然前文中对训练角色信息所包含的信息进行了举例，本领域的技术人员应当理解，训练角色信息除了上述信息之外，还可包括其他的信息，只要保证包含的信息属于训练角色的相关信息即可，本申请实施例并不局限于此。

例如，训练角色信息除了上述各个信息之外，还可包括训练角色的训练时间、训练角色的剩余魔法值和训练角色的等级等信息。

再例如，在训练角色具有能够施加增益状态的队友的情况下，该训练角色的信息还可以包括队友可能对训练角色施加的增益状态(例如，加血等增益状态)等。

还应理解，对战角色可以为模型控制的角色，也可以为玩家角色，本申请实施例并不局限于此。

还应理解，对战角色的个数可以是一个，也可以是多个，本申请实施例并不局限于此。

对应地，当前对战角色的信息所包含的信息和对战角色所包含的信息是类似的，后续不再对当前对战角色的信息所包含的信息进行描述，具体可参见上面的描述。

还应理解，对战角色信息所包含的信息可根据实际需求来进行设置，本申请实施例并不局限于此。

例如，与训练角色对战的对战角色信息包括对战角色的状态和对战角色的职业(或者职业标识)等。

此外，对战角色的状态包括以下信息中的至少一个信息：对战角色的位置、对战角色的剩余血量和当前训练角色对对战角色施加的状态。

其中，当前训练角色对对战角色施加的状态包括：当前训练角色已经对对战角色施加的状态(例如，对战角色已经处于冰冻等减益状态下)，以及当前训练角色可能对对战角色施加的状态(例如，当前训练角色可能会对对战角色施加减速等减益状态)。

还应理解，虽然前文中对对战角色的状态所包含的信息进行了举例，但本领域的技术人员应当理解，对战角色的状态除了上述信息之外，还可包括其他的信息，只要保证包含的信息属于对战角色的相关信息即可，本申请实施例并不局限于此。

例如，对战角色信息除了上述各个信息之外，还可包括对战角色的剩余魔法值、对战角色的等级等。

对应地，当前对战角色的信息所包含的信息和对战角色信息所包含的信息是类似的，后续不再对当前对战角色的信息所包含的信息进行描述，具体可参见上面的描述。

为了便于理解角色状态通用模型，下面通过具体的实施例来进行描述。

具体地，请参见图3，图3示出了本申请实施例提供的一种角色状态通用模型的示意图。该角色状态通用模型的状态构成参数包括训练角色信息、与训练角色对战的对战角色的状态和对战角色的职业。

其中，训练角色信息表示对训练角色的特有状态进行建模，与训练角色对战的对战角色的状态表示对对战角色的公共状态进行建模，对战角色的职业表示对对战角色的职业标识。此外这里的建模指的是对从游戏中获取的大量信息进行强化学习状态建模，包括数据归一化、数据的数学表达形式等。

应理解，该角色状态通用模型可以为数学模型，本申请实施例并不局限于此。

还应理解，该角色状态通用模型中的各个信息的获取是通过采集训练角色和对战角色对战的游戏环境数据，并对游戏环境数据进行处理得到的，且对战信息中的各个信息的获取方式可根据实际需求来进行设置，本申请实施例并不局限于此。

例如，由于从游戏环境中直接采集的训练角色的位置无法直接输入到策略决策模型中，从而需通过角色状态通用模型对训练角色的位置进行预处理之后才能输入。其中，该预处理的过程可包括坐标数据的转换。

再例如，通过角色状态通用模型来将采集到的训练角色的剩余血量归类到训练角色的信息的类别中。

步骤S220，根据状态构成参数获取当前训练角色对应的对战信息。其中，对战信息包括当前训练角色的信息和当前对战角色的信息，当前对战角色是与当前训练角色对战的对战角色，当前对战角色的信息包括当前对战角色的职业。

应理解，当前对战角色可以是预先设置的角色，也可以是按照随机选取规则来选取的角色，本申请实施例并不局限于此。

具体地，可通过角色状态通用模型的状态构成参数来获取当前训练角色对应的对战信息。

此外，在MMORPG游戏中，每个职业对应的角色可以学习大量的技能，但是，在实际战斗中玩家可能只能携带特定数量的技能。因此，在当前训练角色和当前对战角色对战之前，可先确定当前训练角色携带的技能。

可选地，当前训练角色携带的技能可以是从当前训练角色的所有技能种随机抽取得到的。

应理解，每次随机选取的技能的数量可以是相同的，也可以是不同的，本申请实施例并不局限于此。

可选地，当前训练角色携带的技能也可以是按照预设的规则选取的。

应理解，预设的规则可以根据实际需求来进行设置，本申请实施例并不局限于此。

例如，通过预设的规则选取当前训练角色携带的技能的过程包括：根据统计线上玩家对战不同职业时的历史对战数据得到的当前职业的角色的所有技能中每个技能的权重，以及按照当前训练角色的所有技能中每个技能的权重，从当前训练角色的所有技能中随机抽取当前训练角色携带的技能。从而，本申请实施例由于使用了通过预设规则随机抽取的技能进行训练，使得训练后的策略决策模型能够学会所有技能的使用和连招配合，进而使得该策略决策模型能够应对玩家的不同技能的携带情况。

应理解，由于玩家角色受到等级的限制，即不同等级的角色可学习的技能的数量是不同的，从而历史对战数据中统计的技能可能包括当前训练角色无法学习的技能，因此，当前训练角色携带的技能是从当前训练角色目前已学习的所有技能中按照权重来选取的。

具体地，在当前训练角色的职业为第一职业且当前对战角色的职业为第二职业的情况下，可获取包含有预定场数的第一职业的角色和第二职业的角色的对战的历史数据(其包括每个角色携带的技能的名称和个数等)，通过统计历史数据中第一职业在对战第二职业时，玩家携带的各个技能的数量。

随后，根据各个技能的数量来计算各个技能所占的比例，从而可按照各个技能的比例大小来为各个技能设置权重。

最后，当前训练角色可根据当前训练角色已学习的所有技能中各个技能的权重，来从当前训练角色已学习的所有技能中抽取预设数量的技能，从而该策略决策模型能够应对玩家的不同的技能携带情况，以及还能够输出合理策略。

应理解，除了当前训练角色携带的技能可以变化之外，每回合中当前训练角色携带的技能的个数也可以变化，本申请实施例并不局限于此。

还应理解，预设场数的具体场数和/或者预设数量的具体个数均可根据实际需求来进行设置，本申请实施例并不局限于此。

对应地，虽然上文对当前训练角色携带的技能的相关情况进行了描述，但当前对战角色也可以按照上述的方法来对当前对战角色携带的技能进行设置，具体可参见上文中当前训练角色携带的技能的相关描述，本申请实施例并不局限于此。

此外，在对策略决策模型进行训练的过程中，当前对战角色的职业也可随机生成，从而使得当前训练角色的职业对应的策略决策模型能够“见识”不同的职业，以及增加策略决策模型的见识程度。

此外，在当前训练角色的职业对战不同的职业时，由于不同的职业之间的对战具有可借鉴性(例如，对战不同的近战职业时，法师均可通过风筝的方式来进行对战等)，且当前训练角色的职业对应的策略决策模型可对战所有的职业，从而当前训练角色的职业对应的策略决策模型在具有应对某一职业的经验的情况下，也可快速实现对该职业的类似职业的训练，进而可快速地完成训练，进而减少了训练的耗时。

以及，在游戏增加新职业的情况下，其可通过对当前训练角色的职业对应的策略决策模型进行对新职业的训练即可，也无需再重新设计新的神经网络模型。

另外，需要说明的是，策略决策模型可以是初始策略决策模型，也可以是被训练过的策略决策模型(例如，可通过强化学习的方法来对被训练过的策略决策模型进行训练等)，本申请实施例并不局限于此。

步骤S230，将当前训练角色对应的对战信息输入到策略决策模型中，得到当前训练角色与当前对战角色对战时的策略。

应理解，不同的职业可对应不同的策略决策模型，相同职业对应同一策略决策模型。

应理解，在通过强化学习进行训练的情况下，策略还可称为动作，本申请实施例并不局限于此。

还应理解，策略所包含的信息可根据实际需求来进行设置，本申请实施例并不局限于此。

例如，策略可包括当前训练角色的移动方向、当前训练角色的移动距离、或者当前训练角色释放那个技能等。

为了便于理解步骤S230，下面通过具体的实施例来进行描述。

具体地，由于当前训练角色对应的对战信息中携带有当前对战角色的职业的标识，从而在将当前训练角色对应的对战信息输入到当前训练角色的职业对应的策略决策模型的情况下，策略决策模型可根据对战信息确定当前对战角色的职业，从而策略决策模型可根据当前对战角色的职业来获得当前训练角色与当前对战角色对战时的策略，从而使得策略决策模型能够在面对不同职业的对战角色时能够采用与当前对战角色的职业对应的策略，进而降低了训练难度。

此外，在通过强化学习进行训练的情况下，将当前训练角色对应的对战信息输入到当前训练角色的职业对应的策略决策模型中，得到当前训练角色与当前对战角色对战时的策略，还包括：

由于当前训练角色上一次的策略输出之后，当前训练角色所处的游戏环境发生了变化，从而通过角色状态通用模型来获取游戏环境变化后所对应的当前训练角色对应的当前对战信息，以及获取当前游戏角色上一次的策略的奖赏值。以及，将当前训练角色对应的当前对战信息和当前游戏角色上一次的策略的奖赏值输入到当前训练角色的职业对应的策略决策模型中，得到当前训练角色与当前对战角色对战时的当前策略，从而通过循环这个过程来实现对策略决策模型的更新。

应理解，策略决策模型的训练可以为对策略决策模型的更新过程(例如，对训练过的策略决策模型的训练过程可以看作策略决策模型的更新过程等)，本申请实施例并不局限于此。

步骤S240，基于对战信息和策略训练策略决策模型以作为当前训练角色的职业对应的策略决策模型。

具体地，在获取到对战信息和策略的情况下，策略决策模型可通过对战信息和策略来实现策略决策模型的网络参数的更新，从而实现了对策略决策模型的更新。

应理解，网络参数可以是策略决策模型中输入层的节点数，也可以是策略决策模型中隐藏层的节点数，也可以是策略决策模型中输出层的节点数，也可以是隐藏层的节点到输出层的节点的权重值等。也就是说，网络参数的具体参数可根据实际需求来进行设置，本申请实施例并不局限于此。

还应理解，对战信息包括一个对战回合时间中的n个对战子信息，策略包括一个对战回合时间中的与n个对战子信息一一对应的n个子策略，n为正整数。

其中，由于当前训练角色输出一个策略后，游戏环境会随之发生变化，从而在一个对战回合中，当前训练角色输出n个子策略的情况下，需要采集一个对战回合中的n个对战子信息和n个子策略。也就是说，可通过上述数据来不断地对策略决策模型进行更新。

还应理解，一个对战回合时间包括：从对战开始至持续预设时长的时间，或者从对战开始至当前训练角色和当前对战角色中任意一方死亡的时间。

也就是说，在当前训练角色和当前对战角色中任何一方都没有死亡的情况下，一个对战回合的结束时间是到达预设时长，其中，预设时长所对应的时间段可根据实际需求来进行设置。

或者说，在没有到达预设时长的情况下，一个对战回合的结束时间是指当前训练角色和当前对战角色中的任意一方死亡的时间。

需要说明的是，为了防止出现局部最优解(即当前训练角色的职业对应的策略决策模型只会打当前对战角色对应的模型控制的对战角色，当更换控制对战角色模型之后，该策略决策模型的性能并不好)的情况，因此，可将当前对战角色对应的模型在到达预设时间点之后更换为相同职业的其他模型，从而使得当前训练角色的策略决策模型能够“遇到”更多的情况，进而还能够提高策略决策模型的性能。

还需要说明的是，在对战角色是模型控制的角色以及在对战角色的职业是多个职业的情况下，可通过记载不同职业对应的模型来操作不同职业的对战角色，从而在随机生成的当前对战角色后，通过选择与当前对战角色对应的模型来与当前训练角色进行交互。

因此，本申请实施例通过对每个职业只需要训练一个策略决策模型即可，从而相比于现有技术，本申请实施例能够减少模型的设计耗时和训练耗时，以及由于减少了每个职业对应的模型的数量，进而还能够降低模型部署时的内存消耗。

此外，本申请实施例还能够通过当前训练角色的对战信息中的当前对战角色的信息来在对战时区分对手的职业，从而策略决策模型能够通过对手的职业来生成不同的策略。

为了便于理解本申请实施例，下面通过具体的实施例来进行描述。

请参见图4，图4示出了本申请实施例提供的一种游戏AI的策略决策模型训练方法的具体流程图。如图4所示的方法示出了每回合的更新策略决策模型的具体过程，具体地：

步骤S410，随机生成训练角色的职业和对战角色的职业。

步骤S420，随机生成训练角色携带的技能，以及随机生成对战角色携带的技能。

步骤S430，加载与当前训练角色对应的策略决策模型和对战角色对应的模型，从而通过加载后的模型来进行self-play训练。

应理解，对战角色对应的模型可以是现有的模型，也可以是本申请实施例中的策略决策模型，本申请实施例并不局限于此。

还应理解，由于当前训练角色的职业和对战角色的职业是随机生成的，从而可在确定当前训练角色的职业和对战角色的职业之后，再从多个模型中选取与当前训练角色的职业对应的策略决策模型和与对战角色的职业对应的模型，并将选取后的模型进行加载，随后通过这两个模型进行对战，即实现了对当前训练角色对应的策略决策模型和/或对战角色对应的策略决策模型的更新。

应理解，上述游戏AI的策略决策模型训练方法仅是示例性的，本领域技术人员根据上述的方法可以进行各种变形，修改或变形之后的内容也在本申请保护范围内。

例如，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

请参见图5，图5示出了本申请实施例提供的一种游戏AI的策略决策模型训练装置500的结构框图，应理解，该装置500与上述方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置500具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置500包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置500的操作系统(operating system，OS)中的软件功能模块。具体地，该装置500包括：

获取模块510，用于获取角色状态通用模型，角色状态通用模型的状态构成参数包括训练角色信息和对战角色信息，对战角色信息包括对战角色的职业；获取模块510，还用于根据状态构成参数获取当前训练角色对应的对战信息，其中，对战信息包括当前训练角色的信息和当前对战角色的信息，当前对战角色是与当前训练角色对战的对战角色，当前对战角色的信息包括当前对战角色的职业；输入模块520，用于将当前训练角色对应的对战信息输入到策略决策模型中，得到当前训练角色与当前对战角色对战时的策略；训练模块530，用于基于对战信息和策略训练策略决策模型以作为当前训练角色的职业对应的策略决策模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

本申请实施例还提供一种电子设备，请参见图6，图6是本申请实施例提供的一种电子设备600的结构框图。电子设备600可以包括处理器610、通信接口620、存储器630和至少一个通信总线640。其中，通信总线640用于实现这些组件直接的连接通信。其中，本申请实施例中的通信接口620用于与其他设备进行信令或数据的通信。处理器610可以是一种集成电路芯片，具有信号的处理能力。上述的处理器610可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器610也可以是任何常规的处理器等。

存储器630可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。存储器630中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器610执行时，电子设备600可以执行上述方法实施例中的各个步骤。

电子设备600还可以包括存储控制器、输入输出单元、音频单元、显示单元。

所述存储器630、存储控制器、处理器610、外设接口、输入输出单元、音频单元、显示单元各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通信总线640实现电性连接。所述处理器610用于执行存储器630中存储的可执行模块。并且，电子设备600用于执行下述方法：获取角色状态通用模型，所述角色状态通用模型的状态构成参数包括训练角色信息和对战角色信息，所述对战角色信息包括对战角色的职业；根据所述状态构成参数获取当前训练角色对应的对战信息，其中，所述对战信息包括所述当前训练角色的信息和当前对战角色的信息，所述当前对战角色是与所述当前训练角色对战的对战角色，所述当前对战角色的信息包括所述当前对战角色的职业；将所述当前训练角色对应的对战信息输入到策略决策模型中，得到所述当前训练角色与所述当前对战角色对战时的策略；基于所述对战信息和所述策略训练所述策略决策模型以作为当前训练角色的职业对应的策略决策模型。

输入输出单元用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元可以是，但不限于，鼠标和键盘等。

音频单元向用户提供音频接口，其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。

显示单元在所述电子设备与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中，所述显示单元可以是液晶显示器或触控显示器。若为触控显示器，其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作，并将该感应到的触控操作交由处理器进行计算和处理。

可以理解，图6所示的结构仅为示意，所述电子设备600还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。

本申请还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行方法实施例所述的方法。

本申请还提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行方法实施例所述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种游戏AI的策略决策模型训练方法，其特征在于，包括：

获取角色状态通用模型，所述角色状态通用模型的状态构成参数包括训练角色信息和对战角色信息，所述对战角色信息包括对战角色的职业；

根据所述状态构成参数获取当前训练角色对应的对战信息，其中，所述对战信息包括所述当前训练角色的信息和当前对战角色的信息，所述当前对战角色是与所述当前训练角色对战的对战角色，所述当前对战角色的信息包括所述当前对战角色的职业；

将所述当前训练角色对应的对战信息输入到策略决策模型中，得到所述当前训练角色与所述当前对战角色对战时的策略；

基于所述对战信息和所述策略训练所述策略决策模型以作为当前训练角色的职业对应的策略决策模型。

2.根据权利要求1所述的策略决策模型训练方法，其特征在于，所述对战信息包括一个对战回合时间中的n个对战子信息，所述策略包括所述一个对战回合时间中的与所述n个对战子信息一一对应的n个子策略，n为正整数。

3.根据权利要求2所述的策略决策模型训练方法，其特征在于，所述一个对战回合时间包括：从对战开始至持续预设时长的时间，或者从对战开始至所述当前训练角色和所述当前对战角色中任意一方死亡的时间。

4.根据权利要求1所述的策略决策模型训练方法，其特征在于，所述当前训练角色的信息包括以下信息中的至少一个信息：所述当前训练角色携带的技能、所述当前训练角色携带的技能中每个技能的冷却时间、所述当前训练角色的剩余血量、所述当前训练角色的位置和所述当前对战角色对所述当前训练角色施加的状态。

5.根据权利要求4所述的策略决策模型训练方法，其特征在于，所述当前训练角色携带的技能是按照所述当前训练角色的所有技能中每个技能的权重，从所述当前训练角色的所有技能中随机抽取得到的。

6.根据权利要求5所述的策略决策模型训练方法，其特征在于，所述每个技能的权重是根据统计线上玩家对战不同职业时的历史对战数据得到的。

7.根据权利要求1所述的策略决策模型训练方法，其特征在于，所述当前对战角色的信息包括所述当前对战角色的状态；所述当前对战角色的状态包括以下信息中的至少一个信息：所述当前对战角色的位置、所述当前对战角色的剩余血量和所述当前训练角色对所述当前对战角色施加的状态。

8.一种游戏AI的策略决策模型训练装置，其特征在于，包括：

获取模块，用于获取角色状态通用模型，所述角色状态通用模型的状态构成参数包括训练角色信息和对战角色信息，所述对战角色信息包括对战角色的职业；

所述获取模块，还用于根据所述状态构成参数获取当前训练角色对应的对战信息，其中，所述对战信息包括所述当前训练角色的信息和当前对战角色的信息，所述当前对战角色是与所述当前训练角色对战的对战角色，所述当前对战角色的信息包括所述当前对战角色的职业；

输入模块，用于将所述当前训练角色对应的对战信息输入到策略决策模型中，得到所述当前训练角色与所述当前对战角色对战时的策略；

训练模块，用于基于所述对战信息和所述策略训练所述策略决策模型以作为当前训练角色的职业对应的策略决策模型。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-7任一所述的游戏AI的策略决策模型训练方法。

10.一种电子设备，其特征在于，所述电子设备包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1-7任一所述的游戏AI的策略决策模型训练方法。