CN116570929A

CN116570929A - 游戏智能体确定、游戏运行方法、装置、介质和电子设备

Info

Publication number: CN116570929A
Application number: CN202310401187.5A
Authority: CN
Inventors: 杨冠
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-08-11

Abstract

本公开提供了一种游戏智能体确定方法、游戏运行方法、装置、存储介质和电子设备，涉及人工智能技术领域。该游戏智能体确定方法包括：基于训练样本中的完美特征与非完美特征对初始游戏智能体中的估值网络模型进行训练，基于非完美特征对初始游戏智能体中的决策网络模型进行训练；基于训练后的模型参数对初始游戏智能体进行模型参数更新后得到预处理游戏智能体；将预处理游戏智能体作为初始游戏智能体继续对估值网络模型与决策网络模型进行训练，将达到预设训练目标当前预处理游戏智能体确定为目标游戏智能体，解决了目前非完美信息游戏智能体的整体训练效率较低的技术问题，达到了提高目前非完美信息游戏智能体的整体训练效率的技术效果。

Description

游戏智能体确定、游戏运行方法、装置、介质和电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及一种游戏智能体确定方法、游戏运行方法、装置、存储介质和电子设备。

背景技术

游戏机器人一直是游戏设计中的重要组成部分，AI(Artificial Intelligence，人工智能)技术已经被越来越广泛地运用在构建游戏机器人中。然而游戏中存在相当一部分的非完美信息游戏，如斗地主、麻将等，尽管此类游戏非常流行但是由于其自身的非完美信息特点导致该类游戏的高水平机器人一直难于构建。目前的游戏智能体(强化学习术语，指代能够根据给定任务和环境做出决策的模型)都是基于非完美信息进行训练的，主要通过树搜索或者规则的方式来缓解非完美信息带来的潜在搜索空间巨大的问题。

但是由于该类游戏本身具有较强的策略性以及较高的复杂度，单纯的采用规则只能在一定程度上去减小搜索空间。人为考虑到所有的牌局情况并给出对应规则难度巨大，需要巨大的算力去枚举牌局的所有潜在出牌可能性，从而导致目前非完美信息游戏智能体的整体训练效率较低。

发明内容

本公开提供了一种游戏智能体确定方法、游戏运行方法、装置、存储介质和电子设备，进而提高目前非完美信息游戏智能体的整体训练效率。

第一方面，本公开一个实施例提供了一种游戏智能体确定方法，包括：

基于训练样本中的完美特征与非完美特征对初始游戏智能体中的估值网络模型进行训练，以及基于非完美特征对初始游戏智能体中的决策网络模型进行训练；其中，完美特征是指虚拟游戏中当前账号针对所有事件已知，所有已知事件对应的事件信息；非完美特征是指虚拟游戏中当前账号针对所有事件非完全已知，非完全已知事件对应的事件信息；

基于训练后的估值网络模型与决策网络模型的模型参数对初始游戏智能体进行模型参数更新，得到更新后的预处理游戏智能体；

将预处理游戏智能体作为初始游戏智能体继续对估值网络模型与决策网络模型进行训练，直至当前预处理游戏智能体达到预设训练目标，则将当前预处理游戏智能体确定为目标游戏智能体。

第二方面，本公开一个实施例提供了一种游戏运行方法，包括：

获取当前账号在虚拟游戏场景中的输入特征；

调用目标游戏智能体中的决策网络模型确定输入特征对应的各游戏动作的动作概率；其中，目标游戏智能体是根据如上任一项的游戏智能体确定方法确定得到的；

将各动作概率中最大值的游戏动作确定为当前账号所要执行的目标游戏动作。

第三方面，本公开一个实施例提供了一种游戏智能体确定装置，该装置包括：

第一训练模块，用于基于训练样本中的完美特征与非完美特征对初始游戏智能体中的估值网络模型进行训练，以及基于非完美特征对初始游戏智能体中的决策网络模型进行训练；其中，完美特征是指虚拟游戏中当前账号针对所有事件已知，所有已知事件对应的事件信息；非完美特征是指虚拟游戏中当前账号针对所有事件非完全已知，非完全已知事件对应的事件信息；

更新模块，用于基于训练后的估值网络模型与决策网络模型的模型参数对初始游戏智能体进行模型参数更新，得到更新后的预处理游戏智能体；

第二训练模块，用于将预处理游戏智能体作为初始游戏智能体继续对估值网络模型与决策网络模型进行训练，直至当前预处理游戏智能体达到预设训练目标，则将当前预处理游戏智能体确定为目标游戏智能体。

第四方面，本公开一个实施例提供了一种游戏运行装置，包括：

获取模块，用于获取当前账号在虚拟游戏场景中的输入特征；

第一确定模块，用于调用目标游戏智能体中的决策网络模型确定输入特征对应的各游戏动作的动作概率；其中，目标游戏智能体是根据如上任一项的游戏智能体确定方法确定得到的；

第二确定模块，用于将各动作概率中最大值的游戏动作确定为当前账号所要执行的目标游戏动作。

第五方面，本公开一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上的方法。

第六方面，本公开一个实施例提供了一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行如上的方法。

本公开的技术方案具有以下有益效果：

上述游戏智能体确定方法，基于完美特征(即非完美信息)与非完美特征(即完美信息)一起对初始游戏智能体中的估值网络模型进行训练，通过引入完美信息来提高估值网络模型输出的动作概率的准确性；采用非完美特征对初始游戏智能体中的决策网络模型进行训练，可以避免游戏作弊的问题，但是同时可以间接的通过估值网络模型输出的高准确率的动作概率来提高决策网络模型的准确率，使得训练得到的目标游戏智能体的准确性更高，可靠性更高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施方式，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本示例性实施方式中一种游戏智能体确定方法的流程图；

图2示出本示例性实施方式中一种游戏智能体确定方法的流程图；

图3示出本示例性实施方式中一种游戏智能体确定方法中编码示意图；

图4示出本示例性实施方式中一种游戏智能体确定方法中估值网络模型的结构示意图；

图5示出本示例性实施方式中一种游戏智能体确定方法中决策网络模型的结构示意图；

图6示出本示例性实施方式中一种游戏智能体确定方法的流程图；

图7示出本示例性实施方式中一种游戏智能体确定方法中对初始游戏智能体的训练过程示意图；

图8示出本示例性实施方式中一种游戏智能体确定方法的流程图；

图9示出本示例性实施方式中一种游戏智能体确定方法的流程图；

图10示出本示例性实施方式中一种游戏智能体确定方法的流程图；

图11示出本示例性实施方式中一种游戏智能体确定方法的流程图；

图12示出本示例性实施方式中一种游戏智能体确定装置结构示意图；

图13示出本示例性实施方式中一种游戏运行装置结构示意图；

图14示出本示例性实施方式中一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例性实施方式。然而，示例性实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例性实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

相关技术中，游戏机器人一直是游戏设计中的重要组成部分，AI技术已经被越来越广泛地运用在构建游戏机器人中。然而游戏中存在相当一部分的非完美信息游戏，如斗地主、麻将等，尽管此类游戏非常流行但是由于其自身的非完美信息特点导致该类游戏的高水平机器人一直难于构建。目前的智能体都是基于非完美信息进行训练的，主要通过树搜索或者规则的方式来缓解非完美信息带来的潜在搜索空间巨大的问题。但是由于该类游戏本身具有较强的策略性以及较高的复杂度，单纯的采用规则只能在一定程度上去减小搜索空间。人为考虑到所有的牌局情况并给出对应规则难度巨大，需要巨大的算力去枚举牌局的所有潜在出牌可能性，从而导致目前非完美信息游戏的整体训练效率较低。

针对上述技术问题，本公开实施例提供了一种游戏智能体确定方法，用以来提高非完美信息游戏的训练效率。以下对本公开实施例提供的游戏智能体确定方法的应用环境作简单介绍：

本公开实施例提供的游戏智能体确定方法应用于终端设备，该终端设备可以为服务器，也可以为用户终端，例如笔记本电脑、手机、平板电脑等其他可穿戴电子设备。下面以上述终端设备为执行主体，将该游戏智能体确定方法应用于该终端设备来构建一种可以根据当前游戏状态确定游戏行为的游戏智能体为例进行举例说明。请参见图1，本公开实施例提供的游戏智能体确定方法包括如下步骤101-步骤103：

步骤101、基于训练样本中的完美特征与非完美特征对初始游戏智能体中的估值网络模型进行训练，以及基于非完美特征对初始游戏智能体中的决策网络模型进行训练。

首先需要解释的是，完美信息为博弈论中的术语，是指在博弈中每个玩家依次执行操作，每个玩家或者玩家对应的游戏账号在做出任何决定时都已经知道之前发生的所有事件，包括“初始化事件”(如扑克游戏中每个玩家的初始手牌)等，当前的所有事件信息即为完美信息；对应的，非完美信息也属于博弈论术语，是指在博弈中每个玩家或者玩家对应的游戏账号做出决定时不能获知或仅能获知部分之前发生的事件(如扑克游戏中对对手隐藏当前手牌即为不完美游戏的示例)，当前玩家或玩家对应的游戏账号所能获知的事件信息即为非完美信息。对应的，在本公开实施例中，该完美特征是指虚拟游戏中当前账号针对所有事件已知，所有已知事件对应的事件信息；该非完美特征是指虚拟游戏中当前账号针对所有事件非完全已知，非完全已知事件对应的事件信息。

初始游戏智能体可以为完美游戏智能体，也可以为非完美游戏智能体，本公开不作具体限定，本公开实施例以非完美游戏智能体为例进行举例说明。需要解释的是，该初始智能体是指可以在虚拟游戏环境中根据预先设定的游戏规则为玩家或者NPC(non-playercharacter，非玩家角色)作出决策的模型，即根据当前游戏状态确定游戏策略以及执行对应游戏动作。该初始游戏智能体的网络模型结构至少包括估值网络模型与决策网络模型，其中，估值网络模型用于根据输入的样本特征确定对应的游戏动作，以及各游戏动作的动作概率，决策网络模型用于基于估值网络模型输出的动作概率确定目标游戏动作。在对估值网络模型进行训练时基于完美特征与非完美特征一起进行训练，即通过完美特征引入完美信息，进而提高估值网络模型输出的动作概率的准确性；但是对于决策网络模型进行训练时只采用非完美特征，即采用非完美信息进行训练，进而避免游戏作弊的问题，但是同时可以间接的通过估值网络模型输出的高准确率的动作概率来提高决策网络模型的准确率。

步骤102、基于训练后的估值网络模型与决策网络模型的模型参数对初始游戏智能体进行模型参数更新，得到更新后的预处理游戏智能体。

模型参数即为模型需要学习的参数，例如权重、偏置、奖励系数等，本公开实施例不作任何限定，可根据实际情况具体配置。

步骤103、将预处理游戏智能体作为初始游戏智能体继续对估值网络模型与决策网络模型进行训练，直至当前预处理游戏智能体达到预设训练目标，则将当前预处理游戏智能体确定为目标游戏智能体。

即在训练过程中基于每次训练结果对初始游戏智能体或者说当前预处理游戏智能体的模型参数进行不断更新，然后基于更新后的预处理游戏智能体继续训练，并每次记录训练次数，以及训练结果等。本公开实施例中的预设训练目标可以为预设训练次数，也可以为目标游戏智能体的预测准确率或者收敛函数的收敛阈值等，在此不作任何限定，可根据实际情况具体选择或者设定。

本公开实施例中决策网络模型的训练更新过程可以采用如下公式(1)进行表征：

公式(1)为对决策网络模型进行梯度求解的函数表达式，通过估值网络模型引入完美特征D(h)，估值网络模型的输入更为准确，输出也更为准确，基于该估值网络模型/>的训练结果/>对决策网络模型/>进行训练更新，进一步指导决策网络模型的梯度更新方向，使得得到的决策网络模型/>的输出结果更为准确。

本公开实施例提供的游戏智能体确定方法，基于完美特征(即非完美信息)与非完美特征(即完美信息)一起对初始游戏智能体中的估值网络模型进行训练，通过引入完美信息来提高估值网络模型输出的动作概率的准确性；采用非完美特征对初始游戏智能体中的决策网络模型进行训练，可以避免游戏作弊的问题，但是同时可以间接的通过估值网络模型输出的高准确率的动作概率来提高决策网络模型的准确率，使得训练得到的目标游戏智能体的准确性更高，可靠性更高。

请参见图2，在本公开一个可选实施例中，上述在步骤101、在基于训练样本中的完美特征与非完美特征对初始游戏智能体中的估值网络模型进行训练之前，该智能体确定方法还包括如下步骤201-步骤202：

步骤201、确定当前游戏在游戏过程中的各种游戏状态特征。

游戏状态特征是指当前游戏中各种具有标识性或者对于游戏结果具有直接影响的游戏状态，例如针对“斗地主”棋牌游戏，该游戏状态特征分别为牌型“单张”、“对子”、“三张”、“炸弹”“王炸”、“顺子”、“连对”和“飞机”等。

步骤202、将各种游戏状态特征按照预设格式编码为对应的特征编码，得到包含各种特征编码的训练样本。

在得到不同游戏状态特征后，为了方便后续行处理，终端设备将不同的游戏状态特征按照预设格式编码对应的特征数值。例如请参见图3，以上述示例“斗地主”棋牌游戏为例，将“斗地主”游戏中的所有牌型特征构建为12×15的矩阵，其中前4行为每张卡牌(CardIn Hand)对应的张数与编码；5-8行为单张(Solo)、对子(Pair)、三张(Trio)和炸弹(Bomb)的对应位置与编码；第9行为当前牌型是否包含王炸(Rocket)；第10-12行为牌型顺子(Chain of Solo)、连对(Chain of Pair)和飞机(Chain of Trio)的对应位置与编码。当然上述示例仅为“斗地主”棋牌游戏在某一游戏进程中的部分牌型特征(即游戏状态特征)以及对应的编码(即特征编码)，并非“斗地主”棋牌游戏的所有牌型特征。终端设备在对当前游戏的所有游戏状态特征进行编码处理后，即可得到编码后的特征编码，所有的特征编码即构成了对初始游戏智能体进行训练的样本。需要解释的是，该训练样本中包含了上述的完美特征以及非完美特征。

本公开实施例在对初始游戏智能体进行训练之前，先确定当前游戏在游戏过程中的各种游戏状态特征，然后将各种游戏状态特征按照预设格式编码为对应的特征编码，得到包含各种特征编码的训练样本，通过该预设格式的特征编码进行训练效率更高，可以进一步提高本公开实施例游戏智能体确定方法确定目标游戏智能体的效率。

如上实施例，初始游戏智能体中包括估值网络模型和决策网络模型。图4为一示例性的估值网络模型的结构示意图，该估值网络模型包括LSTM(Long Short-Term Memory，长短期记忆)网络模型和MLP(Multilayer Perceptron，多层感知机)网络模型。在训练过程中，LSTM网络模型分别对包含历史游戏状态特征的各种游戏状态特征(Game State)等按照完美特征与非完美特征分别进行编码(Encode)形成包含各种特征编码的训练样本，LSTM网络模型再对完美特征(Perfect Feature)与非完美特征(Imerfect Feature)进行特征拼接后送入6层的MLP网络模型，MLP网络模型对各游戏动作进行估值，即确定各游戏动作的动作概率(Value)并输出。

图5为一示例性的决策网络模型的结构示意图，该决策网络模型包括LSTM网络模型和MLP网络模型，在训练过程中，LSTM网络模型分别对各种游戏状态特征等进行编码后，与当前游戏中进行编码后的可执行动作(Available Actions Feature)进行拼接后送入6层的MLP网络模型，MLP网络模型对各游戏动作进行估值，即确定各游戏动作的动作概率(Legal Action Probablity)并输出。

请参见图6，在本公开一个可选实施例中，以上述初始游戏智能体的结构为例进行训练，上述步骤101、基于训练样本中的完美特征与非完美特征对初始游戏智能体中的估值网络模型进行训练，以及基于非完美特征对初始游戏智能体中的决策网络模型进行训练，包括如下步骤601-步骤602：

步骤601、调用采样模块确定训练样本中各样本特征对应的游戏动作。

请一并参见图7，在训练过程中包含采样模块(Rollout Worker)与学习模块(Learner)两个训练模块，采用模块用于对训练样本中的各样本特征以及当前游戏环境中的环境状态等信息进行采集。学习模块用于具体的训练，并在训练过程中与采样模块进行交互，例如将每次训练完成后的模型参数反馈至采样模块，以供采样模块对初始游戏智能体不断进行更新，以及对当前的游戏环境等进行更新。

样本特征对应的游戏动作是指在训练样本中，根据当前输入的训练样本以及学习模块在上一次训练结束后反馈的训练结果参数，模型参数等预测得到的在所有可执行游戏动作中确定的若干个游戏动作，同时还可以输出各游戏动作的动作概率。

步骤602、调用学习模块，基于完美特征与非完美特征，以及当前游戏的状态评分对初始游戏智能体中的估值网络模型进行训练；基于非完美特征与对应的游戏动作，以及游戏动作对应的权重系数对初始游戏智能体中的决策网络模型进行训练。

游戏状态用于表征当前游戏的游戏进程，以及该游戏进程的影响因素，例如游戏进程、在当局游戏中历次各玩家的出牌信息等，对应的状态评分是指训练过程中评价器对当前游戏状态的评分分值，评价体系可以根据实际情况具体设定，本公开实施例不作具体限定。该权重系数是指决策网络模型中各动作的执行概率，即每次训练结束后的一个数值，换一种方式可以理解为当前游戏动作在游戏动作中的占比。例如同时输出3个游戏动作，对应的权重系数分别为0.8，0.1，0.1。

本公开实施例将对初始游戏智能体的训练划分为采样模块和学习模块，基于采样模块确定训练样本中各样本特征对应的游戏动作，然后通过学习模块进行训练，不同模块执行对应的服务，可以提高智能体的训练效率。

请继续参见图7，在本公开一个可选实施例中，上述采样模块至少包括：游戏环境构建子模块(RLCard Env)与模型服务子模块(Param Server)。其中，游戏环境构建子模块用于构建当前游戏的游戏环境，例如各玩家手里棋牌的出牌情况，以及当前智能体所在账号的棋牌状态。游戏环境构建子模块输入训练样本后传输给模型服务子模块，模型服务子模块执行模型的推理，即确定训练样本在当前游戏环境下或者不同游戏环境下的动作概率，并将对应的游戏动作以及对应的动作概率反馈给该游戏环境构建子模块。

对应的，请参见图8，上述步骤601、调用采样模块确定训练样本中各样本特征对应的游戏动作，包括如下步骤801-步骤802：

步骤801、调用采样模块中的游戏环境构建子模块从训练样本中调取各样本特征，并构建当前游戏的游戏环境。

在初次训练时，或者说在游戏开局时，游戏环境构建模块基于游戏的初始游戏状态或者说开局状态确定输出当前游戏的游戏状态并反馈至模型服务子模块；在第二次训练以及以后的训练过程中，游戏环境构建子模块将训练样本中的各样本特征作为输入得到的当前游戏的游戏环境，并结合模型服务子模块反馈的游戏状态对当前的游戏环境进行不断更新。

步骤802、调用采样模块中的模型服务子模块，基于游戏环境、决策网络模型在上次训练中输出的预测游戏动作，以及各预测游戏动作的权重系数确定各样本特征对应的目标游戏动作。

需要解释的是，该预测游戏动作并非一个具体的游戏动作，而是指在当前游戏环境或游戏状态下所有可执行动作，该权重系数即为各个可执行动作的奖励系数，例如上述实施例中的3个游戏动作，对应的权重系数分别为0.8，0.1，0.1，其中权重系数最高的0.8对应的动作1即为本次训练的目标游戏动作。

本公开实施例中的采样模块包括游戏环境构建子模块与模型服务子模块，在实际训练过程中调用游戏环境构建子模块从训练样本中各调取各样本特征并构建当前游戏的游戏环境，调用模型服务子模块，基于游戏环境、以及决策网络模型在上次训练中输出的预测游戏动作，以及各预测游戏动作的权重系数确定各样本特征对应的目标游戏动作，不同子模块分别承担不同的服务，训练效率更高也更为可靠，可以进一步提高本公开实施例游戏智能体确定的效率与可靠性。同时，通过这种方式得到的。

请参见图9，在本公开一个可选实施例中，上述步骤802、调用学习模块，基于完美特征与非完美特征，以及当前游戏的状态评分对初始游戏智能体中的估值网络模型进行训练；基于非完美特征与对应的游戏动作，以及游戏动作对应的权重系数对初始游戏智能体中的决策网络模型进行训练，包括如下步骤901-步骤903：

步骤901、调用学习模块中的缓存子模块对游戏动作进行存储。

步骤902、调用学习模块中的图形处理器从缓存子模块中读取当前游戏的状态评分。

步骤903、基于完美特征与非完美特征，以及当前游戏的状态评分对初始游戏智能体中的估值网络模型进行训练；基于非完美特征与对应的游戏动作，以及游戏动作对应的权重系数对初始游戏智能体中的决策网络模型进行训练。

学习模块主要包括缓存子模块(例如缓存队列等)和图形处理器(GraphicsProcessing Unit，简称GPU)，缓存子模块用于储存采样模块发送的动作数据，图形处理器负责模型的训练。每次图形处理器会从缓存子模块中提取数据，完成训练后更新当前的初始游戏智能体或者预处理游戏智能体的模型参数，并发送给采样模块的模型服务子模块，模型服务子模块收到最新的模型参数后会更新自身模型并用于后续的推理。

本公开实施例中的学习模块包括缓存子模块和图形处理器，缓存子模块对游戏动作进行存储，学习模块中的图形处理器从缓存子模块中读取游戏状态，并分别对估值网络模型与决策网络模型进行训练，通过不同模块分别执行不同的服务，相互独立协作，训练效率更高也更为可靠，可以进一步提高本公开实施例游戏智能体确定的效率与可靠性。

在本公开一个可选实施例中，上述初始游戏智能体为棋牌对弈智能体。

对应的非完美特征与完美特征均为牌型特征以及对应的数值特征；

非完美特征的牌型特征包括：当前玩家手牌(Current Player’s Hand)，所有还未打出的牌(Unplayed Cards)，当前玩家打出的牌(Current Player’sPlayed Cards)，上家打出的牌(Previous Player’s Played Cards)，下家打出的牌(Next Player’s PlayedCards)，地主底牌(3Additional Bottom Cards)，整局牌局过去15次的出牌(Last15Moves)，上家最近一次出牌(Previous Player’sLast Move)，下家最近一次出牌(NextPlayer’s Last Move)等；非完美特征的数值特征主要包括：打出当前手牌需要的最小步数(Minimum Play-out Steps of Hand Cards)，当前手牌的张数(Number of Cards InCurrent Player’s Hand)，上家手牌张数(Number of Cards In Previous Player’sHand)，下家手牌张数(Number of Cards In Next Player’s Hand)，当前游戏倍数(Numberof Bombs)，当前玩家是否先手(Flag of Game Control By Current Player)等。

完美特征同样包含牌型特征和数值特征两部分，完美特征的牌型特征包括：上家的当前手牌(Previous Player’s Hand Cards)，下家的当前手牌(Next Player’s HandCards)等；完美特征的数值特征包括：出完上家当前手牌所需的最小步数(Minimum Play-out Steps of Previous Player’s Hand Cards)和出完下家当前手牌所需的最小步数(Minimum Play-out Steps of Next Player’s Hand Cards)等。

棋牌对弈类游戏一般属于非完美信息游戏，也就是玩家无法知晓或只能知晓部分已发生事件，本公开实施例中的初始游戏智能体为棋牌对弈智能体，也就是对棋牌对弈智能体进行训练，通过这种方式得到的目标棋牌对弈智能体可以避免直接采用完美特征训练而导致游戏作弊的问题，但是同时可以间接的通过估值网络模型输出的高准确率的动作概率来提高决策网络模型的准确率，使得训练得到的目标棋牌对弈智能体的准确性更高，可靠性更高。

请参见图10，本公开另一个实施例提供了一种游戏运行方法，包括如下步骤1001-步骤1003：

步骤1001、获取当前账号在虚拟游戏场景中的输入特征。

当前账号可以为NPC账号，也可以为当前游戏中任意一个玩家所对应的虚拟角色。虚拟游戏场景即为上述目标游戏智能体所应用的游戏环境，该虚拟游戏场景例如包括但不限于：玩家角色、玩家数量、游戏规则、游戏展示效果、各玩家的游戏动作数据等。该输入特征即为各玩家以及NPC等在每次对局中的游戏动作，该游戏动作包括但不限于：虚拟技能、出牌类型与出牌的数值特征等。该输入特征可特指某一虚拟角色或NPC的当前所有的游戏动作，也可以为所有虚拟角色以及NPC的当前所有的游戏动作，本公开实施例不作任何限定，可根据实际情况具体设定。

步骤1002、调用目标游戏智能体中的决策网络模型确定输入特征对应的各游戏动作的动作概率。

其中，目标游戏智能体是根据如上任一项的游戏智能体确定方法确定得到的，该游戏智能体确定得到的目标游戏智能体的有益效果已经在上述实施例中详细阐述，在此不再赘述。

步骤1003、将各动作概率中最大值的游戏动作确定为当前账号所要执行的目标游戏动作。

在每次训练结束后各游戏动作均具有对应的动作概率，终端设备即直接将其中动作概率最高的游戏动作确定为目标游戏动作。

本公开实施例通过估值网络模型间接引入了完美特征进行训练的决策网络模型来确定当前游戏的目标游戏动作，得到的目标游戏智能体智能水平与可靠性更高，可以大大提高基于该目标游戏智能体运行的游戏的智能水平与可靠性。

在本公开一个可选实施例中，上述步骤1002、调用目标游戏智能体中的决策网络模型确定输入特征对应的各游戏动作的动作概率，包括如下步骤A：

步骤A、调用目标游戏智能体中的决策网络模型，基于历史游戏动作、输入特征，以及在虚拟游戏场景中的当前游戏状态确定预设的各可执行游戏动作分别对应的动作概率。

可执行游戏动作可以根据实际游戏类型或游戏规则任何设定，即在当前游戏规则以及当前游戏状态下所有可执行的游戏动作。当前游戏状态即为在当前游戏进程下所有已执行游戏动作以及剩余可执行游戏动作，例如针对上述“斗地主”游戏，该当前游戏状态即为所有玩家已出牌型和数量、剩余的牌型和数量，以及“斗地主”游戏的出牌规则和上一玩家出牌的牌型和数量等。该历史游戏动作可以为当前账号的历史游戏动作，也可以为当前账号上一玩家的在上次所执行的历史游戏动作，本公开实施例不作具体限定。

本公开实施例调用目标游戏智能体中的决策网络模型，基于历史游戏动作、输入特征，以及在虚拟游戏场景中的当前游戏状态确定预设的各可执行游戏动作分别对应的动作概率，得到的各游戏动作的动作概率准确性更高，最终确定的游戏结果也更为可靠。

请参见图11，在本公开一个可选实施例中，上述步骤A、调用目标游戏智能体中的决策网络模型，基于历史游戏动作、输入特征，以及在虚拟游戏场景中的当前游戏状态确定预设的各可执行游戏动作分别对应的动作概率，包括如下步骤1101-步骤1102：

步骤1101、调用决策网络模型中的长短期记忆网络子模块对历史游戏动作与输入特征进行编码处理，得到预处理游戏动作。

与训练过程中的上述步骤202对应，本公开实施例在进行动作概率确定之前对历史游戏动作进行编码，以方便终端设备后续处理，提高数据处理效率。具体的编码方式可以采用上述步骤202中相同的方式，在此不作赘述。

步骤1102、调用决策网络模型中的感知机网络子模块，对预处理游戏动作、在虚拟游戏场景中的当前游戏状态确定预设的各可执行游戏动作分别对应的动作概率。

本公开实施例先对历史游戏动作与输入特征进行编码处理，然后再调用决策网络模型中的感知机网络子模块，对预处理游戏动作、在虚拟游戏场景中的当前游戏状态确定预设的各可执行游戏动作分别对应的动作概率，动作概率确定效率更高，可以进一步提高本公开实施例游戏运行的效率。

请参见图12，为了实现上述游戏智能体确定方法，本公开的一个实施例中提供一种游戏智能体确定装置1200。图12示出了游戏智能体确定装置1200的示意性架构图，该游戏智能体确定装置1200包括：第一训练模块1210、更新模块1220和第二训练模块1230，其中：

该第一训练模块1210，用于基于训练样本中的完美特征与非完美特征对初始游戏智能体中的估值网络模型进行训练，以及基于非完美特征对初始游戏智能体中的决策网络模型进行训练；其中，完美特征是指虚拟游戏中当前账号针对所有事件已知，所有已知事件对应的事件信息；非完美特征是指虚拟游戏中当前账号针对所有事件非完全已知，非完全已知事件对应的事件信息；

该更新模块1220，用于基于训练后的估值网络模型与决策网络模型的模型参数对初始游戏智能体进行模型参数更新，得到更新后的预处理游戏智能体；

该第二训练模块1230，用于将预处理游戏智能体作为初始游戏智能体继续对估值网络模型与决策网络模型进行训练，直至当前预处理游戏智能体达到预设训练目标，则将当前预处理游戏智能体确定为目标游戏智能体。

在本公开一个可选实施例中，该第一训练模块1210还用于，确定当前游戏在游戏过程中的各种游戏状态特征；将各游戏状态特征按照预设格式编码为对应的特征编码，得到包含各特征编码的训练样本。

在本公开一个可选实施例中，该第二训练模块1230具体用于，调用采样模块确定训练样本中各样本特征对应的游戏动作；调用学习模块，基于完美特征与非完美特征，以及当前游戏的状态评分对初始游戏智能体中的估值网络模型进行训练，基于非完美特征与对应的游戏动作，以及游戏动作对应的权重系数对初始游戏智能体中的决策网络模型进行训练。

在本公开一个可选实施例中，采样模块至少包括：游戏环境构建子模块与模型服务子模块，该第二训练模块1230具体用于，调用采样模块中的游戏环境构建子模块从训练样本中调取各样本特征，并构建当前游戏的游戏环境；调用采样模块中的模型服务子模块，基于游戏环境、决策网络模型在上次训练中输出的预测游戏动作，以及各预测游戏动作的权重系数确定各样本特征对应的目标游戏动作。

在本公开一个可选实施例中，该第二训练模块1230具体用于，调用学习模块中的缓存子模块对游戏动作进行存储；调用学习模块中的图形处理器从缓存子模块中读取当前游戏的状态评分；基于完美特征与非完美特征，以及当前游戏的状态评分对初始游戏智能体中的估值网络模型进行训练；基于非完美特征与对应的游戏动作，以及游戏动作对应的权重系数对初始游戏智能体中的决策网络模型进行训练。

在本公开一个可选实施例中，初始游戏智能体为棋牌对弈智能体。

请参见图13，为了实现上述游戏运行方法，本公开的一个实施例中提供一种游戏运行装置1300。图13示出了游戏运行装置1300的示意性架构图，该游戏运行装置1300包括：获取模块1310、第一确定模块1320和第二确定模块1330，其中：

该获取模块1310，用于获取当前账号在虚拟游戏场景中的输入特征；

该第一确定模块1320，用于调用目标游戏智能体中的决策网络模型确定输入特征对应的各游戏动作的动作概率；其中，目标游戏智能体是根据如上任一项的游戏智能体确定方法确定得到的。

该第二确定模块1330，用于将各动作概率中最大值的游戏动作确定为当前账号所要执行的目标游戏动作。

在本公开一个可选实施例中，该第一确定模块1320具体用于，调用目标游戏智能体中的决策网络模型，基于历史游戏动作、输入特征，以及在虚拟游戏场景中的当前游戏状态确定预设的各可执行游戏动作分别对应的动作概率。

在本公开一个可选实施例中，该第一确定模块1320具体用于，调用决策网络模型中的长短期记忆网络子模块对历史游戏动作与输入特征进行编码处理，得到预处理游戏动作；调用决策网络模型中的感知机网络子模块，对预处理游戏动作、在虚拟游戏场景中的当前游戏状态确定预设的各可执行游戏动作分别对应的动作概率。

本公开的示例性实施方式还提供了一种计算机可读存储介质，可以实现为一种程序产品的形式，其包括程序代码，当程序产品在电子设备上运行时，程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。在一种实施方式中，该程序产品可以实现为便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。在本公开实施例中，计算机可读存储介质中存储的程序代码被执行时可以实现如上游戏智能体确定方法和游戏运行方法中的任一步骤。

请参见图14，本公开的示例性实施方式还提供了一种电子设备1400，可以是信息平台的后台服务器。下面参考图14对该电子设备1400进行说明。应当理解，图14显示的电子设备1400仅仅是一个示例，不应对本公开实施方式的功能和使用范围带来任何限制。

如图14所示，电子设备1400以通用计算设备的形式表现。电子设备1400的组件可以包括但不限于：至少一个处理单元1410、至少一个存储单元1420、连接不同系统组件(包括存储单元1420和处理单元1410)的总线1430。

其中，存储单元存储有程序代码，程序代码可以被处理单元1410执行，使得处理单元1410执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元1410可以执行如图1所示的方法步骤等。

存储单元1420可以包括易失性存储单元，例如随机存取存储单元(RAM)1421和/或高速缓存存储单元1422，还可以进一步包括只读存储单元(ROM)1423。

存储单元1420还可以包括具有一组(至少一个)程序模块1425的程序/实用工具1424，这样的程序模块1425包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1430可以包括数据总线、地址总线和控制总线。

电子设备1400也可以与一个或多个外部设备2000(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口1440进行。电子设备1400还可以通过网络适配器1450与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1450通过总线1430与电子设备1400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在本公开实施例中，电子设备中存储的程序代码被执行时可以实现如上游戏智能体确定方法和游戏运行方法中的任一步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims

1.一种游戏智能体确定方法，其特征在于，包括：

基于训练样本中的完美特征与非完美特征对初始游戏智能体中的估值网络模型进行训练，以及基于所述非完美特征对所述初始游戏智能体中的决策网络模型进行训练；其中，所述完美特征是指虚拟游戏中当前账号针对所有事件已知，所有已知事件对应的事件信息；所述非完美特征是指所述虚拟游戏中当前账号针对所有事件非完全已知，非完全已知事件对应的事件信息；

基于训练后的所述估值网络模型与所述决策网络模型的模型参数对所述初始游戏智能体进行模型参数更新，得到更新后的预处理游戏智能体；

将所述预处理游戏智能体作为所述初始游戏智能体继续对所述估值网络模型与所述决策网络模型进行训练，直至当前预处理游戏智能体达到预设训练目标，则将所述当前预处理游戏智能体确定为目标游戏智能体。

2.根据权利要求1所述的游戏智能体确定方法，其特征在于，在所述基于训练样本中的完美特征与非完美特征对初始游戏智能体中的估值网络模型进行训练之前，所述方法还包括：

确定当前游戏在游戏过程中的各种游戏状态特征；

将各所述游戏状态特征按照预设格式编码为对应的特征编码，得到包含各所述特征编码的所述训练样本。

3.根据权利要求1所述的游戏智能体确定方法，其特征在于，所述基于训练样本中的完美特征与非完美特征对初始游戏智能体中的估值网络模型进行训练，以及基于所述非完美特征对所述初始游戏智能体中的决策网络模型进行训练，包括：

调用采样模块确定所述训练样本中各样本特征对应的游戏动作；

调用学习模块，基于所述完美特征与所述非完美特征，以及当前游戏的状态评分对所述初始游戏智能体中的所述估值网络模型进行训练，基于所述非完美特征与对应的所述游戏动作，以及所述游戏动作对应的权重系数对所述初始游戏智能体中的所述决策网络模型进行训练。

4.根据权利要求3所述的游戏智能体确定方法，其特征在于，所述采样模块至少包括：游戏环境构建子模块与模型服务子模块；对应的，所述调用采样模块确定所述训练样本中各样本特征对应的游戏动作，包括：

调用所述采样模块中的所述游戏环境构建子模块从所述训练样本中调取各所述样本特征，并构建当前游戏的游戏环境；

调用所述采样模块中的模型服务子模块，基于所述游戏环境、所述决策网络模型在上次训练中输出的预测游戏动作，以及各所述预测游戏动作的权重系数确定所述各样本特征对应的目标游戏动作。

5.根据权利要求3所述的游戏智能体确定方法，其特征在于，所述调用学习模块，基于所述完美特征与所述非完美特征，以及当前游戏的状态评分对所述初始游戏智能体中的所述估值网络模型进行训练；基于所述非完美特征与对应的所述游戏动作，以及所述游戏动作对应的权重系数对所述初始游戏智能体中的所述决策网络模型进行训练，包括：

调用所述学习模块中的缓存子模块对所述游戏动作进行存储；

调用所述学习模块中的图形处理器从所述缓存子模块中读取所述当前游戏的所述状态评分；

基于所述完美特征与所述非完美特征，以及所述当前游戏的所述状态评分对所述初始游戏智能体中的所述估值网络模型进行训练；基于所述非完美特征与对应的所述游戏动作，以及所述游戏动作对应的权重系数对所述初始游戏智能体中的所述决策网络模型进行训练。

6.根据权利要求1-5任一项所述的游戏智能体确定方法，其特征在于，所述初始游戏智能体为棋牌对弈智能体。

7.一种游戏运行方法，其特征在于，包括：

获取当前账号在虚拟游戏场景中的输入特征；

调用目标游戏智能体中的决策网络模型确定所述输入特征对应的各游戏动作的动作概率；其中，所述目标游戏智能体是根据权利要求1-6任一项所述的游戏智能体确定方法确定得到的；

将各所述动作概率中最大值的所述游戏动作确定为所述当前账号所要执行的目标游戏动作。

8.根据权利要求7所述的游戏运行方法，其特征在于，所述调用目标游戏智能体中的决策网络模型确定所述输入特征对应的各游戏动作的动作概率，包括：

调用所述目标游戏智能体中的所述决策网络模型，基于历史游戏动作、所述输入特征，以及在所述虚拟游戏场景中的当前游戏状态确定预设的各可执行游戏动作分别对应的所述动作概率。

9.根据权利要求8所述的游戏运行方法，其特征在于，所述调用所述目标游戏智能体中的所述决策网络模型，基于历史游戏动作、所述输入特征，以及在所述虚拟游戏场景中的当前游戏状态确定预设的各可执行游戏动作分别对应的所述动作概率，包括：

调用所述决策网络模型中的长短期记忆网络子模块对所述历史游戏动作与所述输入特征进行编码处理，得到预处理游戏动作；

调用所述决策网络模型中的感知机网络子模块，对所述预处理游戏动作、在所述虚拟游戏场景中的所述当前游戏状态确定预设的各所述可执行游戏动作分别对应的所述动作概率。

10.一种游戏智能体确定装置，其特征在于，所述装置包括：

第一训练模块，用于基于训练样本中的完美特征与非完美特征对初始游戏智能体中的估值网络模型进行训练，以及基于所述非完美特征对所述初始游戏智能体中的决策网络模型进行训练；其中，所述完美特征是指虚拟游戏中当前账号针对所有事件已知，所有已知事件对应的事件信息；所述非完美特征是指所述虚拟游戏中当前账号针对所有事件非完全已知，非完全已知事件对应的事件信息；

更新模块，用于基于训练后的所述估值网络模型与所述决策网络模型的模型参数对所述初始游戏智能体进行模型参数更新，得到更新后的预处理游戏智能体；

第二训练模块，用于将所述预处理游戏智能体作为所述初始游戏智能体继续对所述估值网络模型与所述决策网络模型进行训练，直至当前预处理游戏智能体达到预设训练目标，则将所述当前预处理游戏智能体确定为目标游戏智能体。

11.一种游戏运行装置，其特征在于，包括：

第一确定模块，用于调用目标游戏智能体中的决策网络模型确定所述输入特征对应的各游戏动作的动作概率；其中，所述目标游戏智能体是根据权利要求1-6任一项所述的游戏智能体确定方法确定得到的；

第二确定模块，用于将各所述动作概率中最大值的所述游戏动作确定为所述当前账号所要执行的目标游戏动作。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的方法。

13.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至9任一项所述的方法。