CN109621431B

CN109621431B - 一种游戏动作的处理方法和装置

Info

Publication number: CN109621431B
Application number: CN201811460098.3A
Authority: CN
Inventors: 陈赢峰; 林磊; 范长杰
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2022-06-14
Anticipated expiration: 2038-11-30
Also published as: CN109621431A

Abstract

本发明实施例提供了一种游戏动作的处理方法和装置，所述方法包括：获取非玩家角色的当前游戏状态和动作空间；将所述当前游戏状态输入到预先训练的强化学习网络模型中得到强化策略，所述强化策略中包括各个所述游戏动作的第一选择概率；将所述动作空间输入到预先训练的辅助规则网络模型中得到辅助策略，所述辅助策略包括各个所述游戏动作的第二选择概率；根据所述强化策略和所述辅助策略确定目标策略，所述目标策略中包括各个所述游戏动作基于所述第一选择概率和所述第二选择概率生成的目标概率；根据各个所述游戏动作的目标概率从所述动作空间中筛选出目标游戏动作，控制非玩家角色执行所述目标游戏动作。本发明实施例能够提高玩家游戏体验。

Description

一种游戏动作的处理方法和装置

技术领域

本发明涉及数据处理技术领域，特别是涉及一种游戏动作的处理方法和一种游戏动作的处理装置。

背景技术

强化学习(reinforcement learning)，又称再励学习、评价学习，是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。通过强化学习训练的策略网络(Policy Network)，所谓的策略网络，即建立一个神经网络模型，它可以通过观察环境状态，直接预测出目前最应该执行的策略(policy)，执行这个策略可以获得现在的和未来最大的预期回报值(reward)。

强化学习在游戏中有着广泛的应用场景，通过强化学习训练出来的策略网络在游戏中拥有比产品人工编写的策略更高的智能，可以应对更复杂的游戏环境。例如使用强化学习生成的策略网络来控制游戏玩跳一跳，下围棋，玩王者荣耀等。目前，已经有不少游戏开始使用深度强化学习的技术来编写游戏中的人工智能(Artificial Intelligence，AI)。使用的技术包括强化学习、监督学习、模仿学习等。深度强化学习结合了强化学习和深度神经网络各自的优势，能够通过在游戏环境中不断的模拟获取经验样本，从而学会合理的决策网络。这种方式生成人工智能的质量好，灵活性强，并且比人工编写的方式效率更高。然而，单纯依靠强化学习并不能学习到游戏中的游戏规则，那么会导致决策失误。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种游戏动作的处理方法和相应的一种游戏动作的处理装置。

为了解决上述问题，本发明实施例公开了一种游戏动作的处理方法，所述方法包括：

获取非玩家角色的当前游戏状态和动作空间；所述动作空间包括至少一个游戏动作；

将所述当前游戏状态输入到预先训练的强化学习网络模型中得到强化策略，所述强化策略中包括各个所述游戏动作的第一选择概率；

将所述动作空间输入到预先训练的辅助规则网络模型中得到辅助策略，所述辅助策略包括各个所述游戏动作的第二选择概率；

根据所述强化策略和所述辅助策略确定目标策略，所述目标策略中包括各个所述游戏动作基于所述第一选择概率和所述第二选择概率生成的目标概率；

根据各个所述游戏动作的目标概率从所述动作空间中筛选出目标游戏动作，控制所述非玩家角色执行所述目标游戏动作。

优选地，所述强化学习网络模型通过如下方式进行训练：

获取第一样本数据；所述第一样本数据包括游戏状态、游戏动作、预期回报值和下一游戏状态；

采用所述第一样本数据训练所述强化学习网络模型。

优选地，所述辅助规则网络模型通过如下方式进行训练：

获取第二样本数据；所述第二样本数据包括游戏状态、游戏动作和动作执行结果；

采用所述第二样本数据训练所述辅助规则网络模型。

优选地，所述动作执行结果是控制所述非玩家角色执行所述目标游戏动作后得到的执行结果。

优选地，所述根据所述强化策略和所述辅助策略确定目标策略，包括：

针对同一游戏动作，将所述强化策略中对应的第一选择概率和所述辅助策略中对应的第二选择概率相乘，得到目标概率；

组合所述游戏动作和对应的目标概率作为目标策略。

本发明实施例还公开了一种游戏动作的处理装置，所述装置包括：

游戏数据获取模块，用于获取非玩家角色的当前游戏状态和动作空间；所述动作空间包括至少一个游戏动作；

强化策略得到模块，用于将所述当前游戏状态输入到预先训练的强化学习网络模型中得到强化策略，所述强化策略中包括各个所述游戏动作的第一选择概率；

辅助策略得到模块，用于将所述动作空间输入到预先训练的辅助规则网络模型中得到辅助策略，所述辅助策略包括各个所述游戏动作的第二选择概率；

目标概率生成模块，用于根据所述强化策略和所述辅助策略确定目标策略，所述目标策略中包括各个所述游戏动作基于所述第一选择概率和所述第二选择概率生成的目标概率；

目标游戏动作执行模块，用于根据各个所述游戏动作的目标概率从所述动作空间中筛选出目标游戏动作，控制所述非玩家角色执行所述目标游戏动作。

优选地，所述装置还包括：

第一样本数据获取模块，用于获取第一样本数据；所述样第一本数据包括游戏状态、游戏动作、预期回报值和下一游戏状态；

强化训练模块，用于采用所述第一样本数据训练所述强化学习网络模型。

优选地，所述装置还包括：

第二样本数据获取模块，用于获取第二样本数据；所述第二样本数据包括游戏状态、游戏动作和动作执行结果；

辅助训练模块，用于采用所述第二样本数据训练所述辅助规则网络模型。

优选地，所述目标概率生成模块，包括：

目标概率计算子模块，用于针对同一游戏动作，将所述强化策略中对应的第一选择概率和所述辅助策略中对应的第二选择概率相乘，得到目标概率；

目标策略得到子模块，用于组合所述游戏动作和对应的目标概率作为目标策略。

本发明实施例还公开了一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的方法。

本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述的方法。

本发明实施例包括以下优点：

本发明实施例在处理游戏环境中非玩家角色的游戏动作时，涉及到强化学习网络模型和辅助规则网络模型，首先获取非玩家角色的当前游戏状态和动作空间，并将当前游戏状态输入到强化学习网络模型中得到强化策略，以及，将动作空间输入到辅助规则网络模型中得到辅助策略，然后基于游戏动作在强化策略中第一选择概率和辅助策略中的第二选择概率确定该游戏动作的目标概率，并基于目标概率从动作空间中筛选出目标游戏动作并控制非玩家角色执行，本发明实施例强化学习网络模型中确定出预期回报值高的游戏动作，然后再通过辅助规则网络模型，可以确定在游戏环境中无法执行的游戏动作，基于此合理决策，能够确定出预期回报值高且能够成功执行的游戏动作，提高玩家游戏体验。

附图说明

图1是本发明的一种游戏动作的处理方法实施例的步骤流程图；

图2是本发明的一种MDP中各个元素之间的关系示意图；

图3是本发明的一种强化学习网络模型和辅助学习网络模型的示意图；

图4是本发明的一种游戏动作的处理装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

强化学习本质上是在选择执行当前游戏状态下预期回报值最高的游戏动作，但是通常却无法很好的从样本数据中学习到当前游戏状态下某个游戏动作是否允许被执行以及类似的规则信息。其主要原因是因为某些游戏动作在很少的某些游戏状态(s0)下能够取得很高的预期回报值，在大多其他状态(s1)下不会取得很高的预期回报值，由于神经网络具有一定的抽象和泛化能力，因此无法严格的区分出s0和s1两个游戏状态之间的差异，因而造成在某些属于s1的状态下去尝试执行该游戏动作。更本质的原因是因为在强化学习中引入Q值函数来衡量当前游戏状态的预期回报值，具体来说，动作值函数(或称Q值函数)有两个输入：「状态」和「动作」，它将返回在该游戏状态下执行该游戏动作的预期回报值。Q(s，a)代表的是游戏状态s和游戏动作a，Q值函数表示的是在当前游戏状态s下执行动作a之后预期能得到的奖励期望，也就预期回报值。Q值函数Q(s，a)的函数很强的非线性，神经网络很难严格拟合出该Q值函数，也就很难得到一个准确的预期回报值，从而无法决策出一个在当前游戏状态下合理的游戏动作。

为解决上述问题，本发明实施例提供了以下一种方法，在强化学习网络模型的基础上，引入一个辅助规则网络模型，该网络能够学会规则禁止行为，输出一个辅助策略(mask向量)对强化学习网络模型输出的游戏动作进行特定的屏蔽。在模型训练的过程中，两个模型能够同时更新，训练结束后即可以部署实施。下面对于本发明实施例进行详细介绍。

参照图1，示出了本发明的一种游戏动作的处理方法实施例的步骤流程图，可以应用于手机、计算机、游戏机和平板电脑等电子设备或任意的终端或服务端、甚至是第三方系统，在电子设备的处理器上执行游戏应用会生成至少一个非玩家角色(NPC，Non-playercharacter)，即游戏中不受玩家操纵的游戏角色。

由于非玩家角色不受到玩家操作，因此需要通过人工智能方式使其执行相应的游戏动作，本发明实施例对非玩家角色，提出了一种游戏动作的处理方法，使得非玩家角色能够根据当前游戏状态选择预期回报值高的游戏动作。所述游戏动作的处理方法具体可以包括如下步骤：

步骤101，获取非玩家角色的当前游戏状态和动作空间；所述动作空间包括至少一个游戏动作。

在具体实现中，首先获取非玩家角色当前游戏状态和动作空间。动作空间是指的非玩家角色所有能用的游戏动作结合，例如对于篮球游戏来说，其进攻动作空间为{前，后，左，右，投篮，突破}，动作空间大小为6，当前游戏状态则可以通过游戏接口从游戏中获取。

步骤102，将所述当前游戏状态输入到预先训练的强化学习网络模型中得到强化策略，所述强化策略中包括各个所述游戏动作的第一选择概率。

在本发明实施例中，预先训练有强化学习网络模型，通过将当前游戏状态输入到强化学习网络模型，可以得到强化策略，该强化策略包括动作空间中各个游戏动作对应的第一选择概率。概率越高，说明执行该游戏动作的预期回报值越高。

在本发明的一种优选实施例中，所述强化学习网络模型可以通过如下方式进行训练：

采用所述第一样本数据训练所述强化学习网络模型。

在实际中，对于强化学习网络模型的训练可以有不同的算法，因为本发明实施例的算法直接作用于游戏动作选取，因此对于不同的算法都可以适用。

步骤103，将所述动作空间输入到预先训练的辅助规则网络模型中得到辅助策略，所述辅助策略包括各个所述游戏动作的第二选择概率。

本发明实施例在训练强化学习网络模型的同时，还训练有辅助规则网络模型，该模型能够学会规则禁止行为，通过将动作空间输入到辅助规则网络模型中，可以得到辅助策略，该辅助策略中包括动作空间中各个游戏动作对应的第二选择概率，用于表示该游戏动作能够释放成功的概率。这个概率能够对动作空间中一些特定游戏动作进行屏蔽，比如一些在某些游戏状态下无法执行的游戏动作。概率越低，说明该游戏动作执行成功概率较低，认为该游戏动作不能释放，反之，概率越高，说明该游戏动作执行成功概率较高，认为该游戏动作能够释放。

在本发明的一种优选实施例中，所述辅助规则网络模型可以通过如下方式进行训练：

采用所述第二样本数据训练所述辅助规则网络模型。

在本发明实施例中，辅助规则网络模型可以选用多层感知器(MLP，MultilayerPerceptron)，也可以根据实际需要选用其他类型的网络模型，本发明实施例不做限制。

其中，动作执行结果是控制所述非玩家角色执行所述目标游戏动作后得到的执行结果。在本发明实施例中，由于辅助规则网络模型的输入的动作执行结果来自于在游戏环境中执行目标动作的执行结果，而目标动作是强化学习网络模型输出的游戏动作，因此本发明实施例中的辅助规则网络模型和强化学习网络模型所使用的样本数据存在较强相关性，使得基于这些样本数据训练后的辅助规则网络模型，能够在强化学习网络模型输出各个游戏动作的第一执行概率后，进一步提供各个游戏动作的第二执行概率作为参考，从而提升强化学习网络模型的预测准确率。

步骤104，根据所述强化策略和所述辅助策略确定目标策略，所述目标策略中包括各个所述游戏动作基于所述第一选择概率和所述第二选择概率生成的目标概率。

在通过强化学习网络模型中得到强化策略，以及，通过辅助规则网络模型中得到辅助策略后，就可以基于这两个策略中游戏动作对应的第一选择概率和第二选择概率生成一个目标概率，该目标概率表示为该游戏动作在当前游戏状态下执行成功的概率。

在本发明的一种优选实施例中，所述步骤104可以包括如下子步骤：

组合所述游戏动作和对应的目标概率作为目标策略。

针对各个游戏动作，获取其在强化策略和辅助策略中的选择概率，并将这两个概率相乘即可得到该游戏动作的目标概率。目标概率和游戏动作的结合即为目标策略。

步骤105，根据各个所述游戏动作的目标概率从所述动作空间中筛选出目标游戏动作，控制所述非玩家角色执行所述目标游戏动作。

在得到游戏空间中各个游戏动作的目标概率后，就可以基于目标概率从游戏空间中选择某一游戏动作作为目标游戏动作，并控制非玩家角色到游戏环境去执行。

本发明实施例在处理游戏环境中非玩家角色的游戏动作时，涉及到强化学习网络模型和辅助规则网络模型，首先获取非玩家角色的当前游戏状态和动作空间，并将当前游戏状态输入到强化学习网络模型中得到强化策略，以及，将动作空间输入到辅助规则网络模型中得到辅助策略，然后基于游戏动作在强化策略中第一选择概率和辅助策略中的第二选择概率确定该游戏动作的目标概率，并基于目标概率从动作空间中筛选出目标游戏动作并控制非玩家角色执行。

本发明实施例强化学习网络模型中确定出预期回报值高的游戏动作，然后再通过辅助规则网络模型，可以确定在游戏环境中无法执行的游戏动作，基于此合理决策，能够筛选出预期回报值高且能够成功执行的游戏动作，提高玩家游戏体验。

本发明实施例通过强化学习网络模型来确定当前游戏状态下预期回报值最高的游戏动作。优选地，在训练强化学习网络模型的过程中，同时训练有一个辅助规则网络模型，该辅助规则网络模型能够学会规则禁止行为，通过输出一个目标策略对强化学习网络模型的输出的游戏动作进行特定的屏蔽。在训练的过程中，两个模型能够同时更新，训练结束后既可以部署实施。为了使本领域技术人员更好地理解本发明实施例，下面采用具体的实例对于进行说明。

本发明实施例的强化学习网络模型基于MDP(Finite Markov DecisionProcesses，马可夫决策过程)模型。一个马尔可夫决策过程由一个四元组构成M＝(S，A，Psa，R)，四元组中各个参数分别是：

S：表示状态集合(states)，状态集合中包括多个状态s，s∈S，si表示第i步的状态。

A：表示动作集合(actions)，动作集合中包括多个动作a，a∈A，ai表示第i步的游戏动作。

Psa：表示状态转移概率，Psa表示在当前s∈S状态下，经过a∈A作用后，会转移到其他状态的概率分布情况，比如在游戏状态s下执行动作a，转移到s’的概率可以表示为P(s’|s，a)。

R：S*A＝R，R是回报函数(reward function)，r为基于回报函数得到的预期回报值，有些回报函数可以简化为R：S→R，如果有一组(s，a)转移到下一状态s’，那么回报函数可即为r(s’|s，a)，如果(s，a)对应的状态s’是唯一的，那么回报函数也可以记为r(s，a)

MDP的动态过程如下：某个agent(智能体)或者AI的初始状态为s0，然后从A中挑选一个游戏动作a0执行，执行后，agent按Psa概率随机转移到了下一个s1状态，s1∈Ps0a0。然后再执行一个游戏动作a1，就转移到了s2，接下来再执行a2…，可以参照图2表示状态转移的过程。

具体到本发明实施例中，s’代表的是下一游戏状态，在当前游戏状态s下，需要决策某一个游戏动作a，然后执行该游戏动作，执行完该游戏动作后转移到下一游戏状态s’，同时游戏环境反馈预期回报值reward，因此每和环境交互一次都可以得到一个训练样本<s，a，s’，r>。例如在篮球1V1游戏中，假设当前游戏状态包括玩家当前的坐标位置(1.0，1.0)，防守球员(非玩家角色)的坐标位置(2.0，2.0)，则S＝(1.0，1.0，2.0，2.0)在游戏状态下，防守球员位置较远，可以执行游戏动作a前进，执行结束之后，玩家当前的位置发生了变化，则下一游戏状态变为S’＝(0.8，1.0，2.0，2.0)。

本发明实施例的辅助规则网络模型的训练过程是一个监督学习的训练过程，强化学习网络模型产生了一个游戏动作a返回到游戏环境执行，游戏环境能够给出该游戏动作执行的结果L。其中，L＝0时代表的是该游戏动作释放失败，L＝1时代表的是该游戏动作释放成功，所以游戏动作在实际环境执行完之后能够得到一个样本数据<s，a，L>，代表的是在当前游戏状态s下，在游戏环境中释放动作a是否成功。收集完成这些样本数据之后，就可以利用监督学习来训练辅助规则网络模型，期望该网络能够成功的预测在某一个游戏状态s下，游戏动作a是否能够释放成功。比如，对于篮球游戏来说，假设球员的动作空间为3，A＝(上篮，三分，突破)，并且目前要控制的球员在三分线内，则对应输出的结果mask＝(0.99，0.01，0.99)。

由于游戏规则的限制，有些游戏动作在某些游戏状态下是无法实现的，比如在篮球游戏中，在三分线内无法执行投三分球的游戏动作。规则辅助网络的目的就是能够学会由于游戏规则导致在某些游戏状态下的一些动作无法执行的情形。

因此，本发明实施例同时还训练了辅助规则网络模型。辅助规则网络模型可以保证强化学习网络模型不论在什么游戏状态下都不会选择当前游戏状态下无法执行的游戏动作，使得网络输出能够融合游戏的规则。

本发明实施例的辅助规则网络模型可以用来辅助判断当前游戏状态s下，动作空间内每个游戏动作能执行的概率，比如在上述例子中，因为球员目前在三分线内，所以不能投三分，可以上篮或者突破，所以训练好的辅助规则网络模型，输出的mask向量就可能是(0.99，0.01，0.99)，表示中间的数值所对应的游戏动作目前判断不可用(可用的概率很低为0.01)，另外两个数值所对应的游戏动作目前判断为可用(可用的概率值很高0.99)，不能实现的游戏动作就被屏蔽了，这样，即使在强化学习网络模型中该游戏动作得到一个数值很高的概率，通过结果辅助规则网络模型输出的mask向量，能够屏蔽掉不能实现的游戏动作。

参照图3，所示为本发明实施例的一种强化学习网络模型和辅助学习网络模型的示意图，游戏环境负责训练时的提供交互环境，从游戏环境中取得当前游戏状态表示向量s，状态表示向量s发送到强化学习网络模型，强化学习网络输出强化策略，决定在当前游戏状态s下选取哪个游戏动作执行，然后选取的游戏动作a返回到环境执行，动作执行之后环境返回一个在状态s下执行动作a的收益r(s，a)给强化学习网络模型，同时返回给辅助规则网络模型该游戏动作的执行结果(是否执行成功)L(s，a)。

对于强化学习网络模型，其输出当前动作空间中每个游戏动作是最优动作的概率，对于辅助规则网络模型则输出当前动作空间中每个游戏动作能够执行的概率，在选取游戏动作a之前，需要结合强化学习网络模型和辅助规则网络模型的输出，通常将两个模型输出的概率向量相乘，然后再选取某一游戏动作到游戏环境去执行。随着训练的次数的增加，辅助网络对于游戏动作可用的概率预测准确率会越来越高。

辅助规则网络模型输出的mask向量是和动作空间维度相等，其中的每一维代表的是其对应的动作能够释放成功的概率，图3中黑色圆圈表示一个游戏动作在当前状态s下，预测该游戏动作的释放成功概率较低，认为该动作不能释放，空心圆圈则表示一个游戏动作在当前状态s下，预测该游戏动作的释放成功概率较低高，可以理解成该游戏动作是通过或者屏蔽。

强化学习网络模型输出的是策略，即π(s)，代表的是在游戏状态s下，该策略选取每个游戏动作的概率，该概率采用灰色圆圈表示，每次最终决策只选取动作空间的一个动作执行，在图3中，强化学习网络模型输出的每个游戏动作的概率会和辅助规则网络模型输出的mask向量做一个点乘向量得到一个最后的目标概率，然后再基于各个游戏动作的目标概率，从中选择出一个游戏动作返回游戏环境执行。

假设现在训练一个战斗AI P1，其和P2对战。P1的动作空间为{a1，a2，a3，a4}四个动作分别对应四个技能，通常设置状态包括(P1的坐标，P2的坐标，P1技能1的cd时间，P1技能2的cd时间，P1技能3的cd时间，P1技能4的cd时间，P1的血量，P2的血量)。

首先是通过游戏接口从游戏逻辑中获取当前游戏状态s，获取之后发送到强化学习网络模块，强化学习网络模块根据当前游戏状态s来选择使用哪个技能，是{a1，a2，a3，a4}中的一个，假设是游戏动作a2；技能选取之后返回给游戏环境，游戏环境会让P1来执行游戏动作a2，游戏动作a2在游戏执行结束之后，可以知道该技能是否执行成功，并且标记为L(s，a2)，假设当前游戏动作a2正处于cd时间中，则该技将会释放失败，L(s，a2)＝0，然后得到<s，a2，L(s，a2)>样本数据并将会发送给辅助规则网络模型，同时游戏执行完游戏动作a2之后，场面发生变化，游戏又会重新调用状态获取函数获取新的游戏状态s’发送给强化学习网络模块，强化学习网络模块获得样本数据<s，a2，r，s’>。通过这种方式可以得到两个模型的样本数据，随后可以基于这些样本数据进行模型训练。

本发明实施例通过辅助规则网络模型融合了游戏规则，能够基于强化学习网络模型正确进行决策。如果使用传统的深度强化学习方式，在返回不符合游戏规则的游戏行为时给予负预期回报值，其游戏行为符合规则的概率只有大约60％-80％。而通过本发明实施例，即使不使用负预期回报值来控制，选取非玩家角色的游戏行为符合游戏规则的概率也大于99％。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种游戏动作的处理装置实施例的结构框图，所述装置具体可以包括如下模块：

游戏数据获取模块201，用于非玩家角色的当前游戏状态和动作空间；所述动作空间包括至少一个游戏动作；

强化策略得到模块202，用于将所述当前游戏状态输入到预先训练的强化学习网络模型中得到强化策略，所述强化策略中包括各个所述游戏动作的第一选择概率；

辅助策略得到模块203，用于将所述动作空间输入到预先训练的辅助规则网络模型中得到辅助策略，所述辅助策略包括各个所述游戏动作的第二选择概率；

目标概率生成模块204，用于根据所述强化策略和所述辅助策略确定目标策略，所述目标策略中包括各个所述游戏动作基于所述第一选择概率和所述第二选择概率生成的目标概率；

目标游戏动作执行模块205，用于根据各个所述游戏动作的目标概率从所述动作空间中筛选出目标游戏动作，控制所述非玩家角色执行所述目标游戏动作。

在本发明的一种优选实施例中，所述装置还可以包括：

在本发明的一种优选实施例中，所述动作执行结果是控制所述非玩家角色执行所述目标游戏动作后得到的执行结果。

在本发明的一种优选实施例中，所述目标概率生成模块204，可以包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种游戏动作的处理系统，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行上述的一种游戏动作的处理方法。

本发明实施例还提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行上述的一种游戏动作的处理方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种游戏动作的处理方法和一种游戏动作的处理装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种游戏动作的处理方法，其特征在于，所述方法包括：

根据所述强化策略和所述辅助策略确定目标策略，所述目标策略中包括各个所述游戏动作基于所述第一选择概率和所述第二选择概率生成的目标概率；所述强化学习网络模型用于确定预期回报值高的游戏动作，所述辅助规则网络模型用于确定在游戏环境中无法执行的游戏动作；

2.根据权利要求1所述的方法，其特征在于，所述强化学习网络模型通过如下方式进行训练：

采用所述第一样本数据训练所述强化学习网络模型。

3.根据权利要求1或2所述的方法，其特征在于，所述辅助规则网络模型通过如下方式进行训练：

采用所述第二样本数据训练所述辅助规则网络模型。

4.根据权利要求3所述的方法，其特征在于，所述动作执行结果是控制所述非玩家角色执行所述目标游戏动作后得到的执行结果。

5.根据权利要求1所述的方法，其特征在于，所述根据所述强化策略和所述辅助策略确定目标策略，包括：

组合所述游戏动作和对应的目标概率作为目标策略。

6.一种游戏动作的处理装置，其特征在于，所述装置包括：

目标概率生成模块，用于根据所述强化策略和所述辅助策略确定目标策略，所述目标策略中包括各个所述游戏动作基于所述第一选择概率和所述第二选择概率生成的目标概率；所述强化学习网络模型用于确定预期回报值高的游戏动作，所述辅助规则网络模型用于确定在游戏环境中无法执行的游戏动作；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述动作执行结果是控制所述非玩家角色执行所述目标游戏动作后得到的执行结果。

10.根据权利要求6所述的装置，其特征在于，所述目标概率生成模块，包括：

11.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。