CN109621422A

CN109621422A - 电子棋牌决策模型训练方法及装置、策略生成方法及装置

Info

Publication number: CN109621422A
Application number: CN201811418440.3A
Authority: CN
Inventors: 林群芬; 陈添财; 郑规
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2019-04-16
Anticipated expiration: 2038-11-26
Also published as: CN109621422B

Abstract

本发明涉及一种电子棋牌决策模型训练方法及装置、策略生成方法及装置，属于计算机及通信技术领域。所述电子棋牌决策模型训练方法包括：根据电子棋牌游戏参与者的样本牌面信息构建第一特征信息；根据与所述样本牌面信息对应的样本局面信息构建第二特征信息；对所述第一特征信息和所述第二特征信息进行拼接，生成第三特征信息；通过所述第三特征信息以及所述样本牌面信息对应的样本出牌策略对电子棋牌决策模型进行训练。本发明可以提高电子棋牌决策模型的工业可用性以及通用性。

Description

电子棋牌决策模型训练方法及装置、策略生成方法及装置

技术领域

本发明涉及计算机及通信技术领域，具体而言，涉及一种电子棋牌决策模型训练方法、电子棋牌决策模型训练装置、电子棋牌策略生成方法、电子棋牌策略生成装置、电子设备以及计算机可读存储介质。

背景技术

电子游戏指以电子元器件组装成的设备(或称为游戏终端)为运行平台的游戏。随着计算机以及图形图像技术的发展，电子游戏已经成为当今人们一种流行的休闲娱乐方式。

电子棋牌游戏是电子游戏的一个重要分支。在电子棋牌游戏的许多场景下，需要由运行在服务端或本地客户端的电子棋牌决策模型辅助提供出牌策略；例如，在电子棋牌游戏的“托管”模式或者在人机对战模式下，均需要由电子棋牌决策模型辅助提供出牌策略。

然而现有技术中，部分电子棋牌决策模型存在工业可用性不佳或者通用性不足的问题。

发明内容

本发明的目的在于提供一种电子棋牌决策模型训练方法、电子棋牌决策模型训练装置、电子设备以及计算机可读存储介质，进而至少在一定程度上提高电子棋牌决策模型的工业可用性以及通用性。

根据本发明的第一方面，提供一种电子棋牌决策模型训练方法，包括：根据电子棋牌游戏参与者的样本牌面信息构建第一特征信息；根据与所述样本牌面信息对应的样本局面信息构建第二特征信息；对所述第一特征信息和所述第二特征信息进行拼接，生成第三特征信息；通过所述第三特征信息以及所述样本牌面信息对应的样本出牌策略对电子棋牌决策模型进行训练。

在本发明的一种示例性实施例中，所述电子棋牌决策模型为卷积神经网络模型。

在本发明的一种示例性实施例中，根据电子棋牌游戏参与者的样本牌面信息构建第一特征信息，包括：将所述样本牌面信息转换为多维数据结构；通过卷积核对转换后的所述样本牌面信息进行卷积运算；对所述卷积运算的结果进行池化处理，得到所述第一特征信息。

在本发明的一种示例性实施例中，将所述样本牌面信息转换为多维数据结构，包括：将所述样本牌面信息转换为一个或多个矩阵数据结构。

在本发明的一种示例性实施例中，根据样本局面信息构建第二特征信息，包括：将所述样本局面信息转换为一位有效编码而得到所述第二特征信息。

在本发明的一种示例性实施例中，对所述第一特征信息和所述第二特征信息进行拼接，包括：将多维的所述第一特征信息摊平为行向量；将摊平后的所述第一特征信息与一位有效编码形式的所述第二特征信息进行拼接，得到所述第三特征信息。

在本发明的一种示例性实施例中，对电子棋牌决策模型进行训练，包括：通过所述电子棋牌决策模型的全连接层基于所述第三特征信息输出初始出牌策略；基于所述初始出牌策略与所述样本出牌策略以及损失函数计算损失值，并根据所述损失值更新所述电子棋牌决策模型的参数。

在本发明的一种示例性实施例中，通过所述第三特征信息以及所述样本牌面信息对应的样本出牌策略对电子棋牌决策模型进行训练，包括：将所述第三特征信息以及所述样本牌面信息对应的样本出牌策略作为消息加入预设消息队列；从所述预设消息队列中获取所述第三特征信息以及所述样本牌面信息对应的样本出牌策略对电子棋牌决策模型进行训练。

在本发明的一种示例性实施例中，所述训练方法还包括：对所述电子棋牌决策模型进行强化学习训练。

在本发明的一种示例性实施例中，对所述电子棋牌决策模型进行强化学习训练，包括：通过当前电子棋牌决策模型以及多个历史电子棋牌决策模型分别提供出牌策略进行模拟对战；基于所述模拟对战的结果，对所述当前电子棋牌决策模型的出牌策略赋予奖励值；基于所述奖励值以及损失函数计算损失值，并根据所述损失值更新所述电子棋牌决策模型的参数。

在本发明的一种示例性实施例中，所述训练方法还包括：通过对所述电子棋牌决策模型进行训练得到多个不同的候选电子棋牌决策模型；对所述候选电子棋牌决策模型进行分级，以获取多级目标电子棋牌决策模型。

在本发明的一种示例性实施例中，通过对所述电子棋牌决策模型进行训练得到多个不同的候选电子棋牌决策模型，包括以下一种或多种：

通过提供不同的所述第三特征信息以及所述样本牌面信息训练得到多个不同的候选电子棋牌决策模型；或者

通过提供不同的初始电子棋牌决策模型进行训练得到多个不同的候选电子棋牌决策模型；或者

基于不同的训练参数对所述电子棋牌决策模型进行训练得到多个不同的候选电子棋牌决策模型。

在本发明的一种示例性实施例中，对所述候选电子棋牌决策模型进行分级包括：从所述候选电子棋牌决策模型中确定多个对战候选电子棋牌决策模型；获取各所述对战候选电子棋牌决策模型的当前胜负概率分布；获取对战候选电子棋牌决策模型的模拟对战结果，并根据对战结果更新各所述候选电子棋牌决策模型的当前胜负概率分布。

根据本发明的第二方面，提供一种电子棋牌策略生成方法，包括：根据电子棋牌游戏参与者的当前牌面信息构建第一特征信息；根据所述参与者的当前局面信息构建第二特征信息；对所述第一特征信息和所述第二特征信息进行拼接，生成第三特征信息；将所述第三特征信息输入至电子棋牌决策模型以生成所述参与者的当前出牌策略。

根据本发明的第三方面，提供一种电子棋牌决策模型训练装置，包括：第一特征构建模块，用于根据电子棋牌游戏参与者的样本牌面信息构建第一特征信息；第二特征构建模块，用于根据与所述样本牌面信息对应的样本局面信息构建第二特征信息；特征拼接模块，用于对所述第一特征信息和所述第二特征信息进行拼接，生成第三特征信息；模型训练模块，用于通过所述第三特征信息以及所述样本牌面信息对应的样本出牌策略对电子棋牌决策模型进行训练。

在本发明的一种示例性实施例中，所述第一特征构建模块包括：数据转换单元，用于将所述样本牌面信息转换为多维数据结构；卷积运算单元，用于通过卷积核对转换后的所述样本牌面信息进行卷积运算；池化处理单元，用于对所述卷积运算的结果进行池化处理，得到所述第一特征信息。

在本发明的一种示例性实施例中，所述数据转换单元通过如下方法将所述样本牌面信息转换为多维数据结构：将所述样本牌面信息转换为一个或多个矩阵数据结构。

在本发明的一种示例性实施例中，所述第一特征构建模块根据如下方法构建第二特征信息：将所述样本局面信息转换为一位有效编码而得到所述第二特征信息。

在本发明的一种示例性实施例中，所述特征拼接模块通过如下方法对所述第一特征信息和所述第二特征信息进行拼接：将多维的所述第一特征信息摊平为行向量；将摊平后的所述第一特征信息与一位有效编码形式的所述第二特征信息进行拼接，得到所述第三特征信息。

在本发明的一种示例性实施例中，所述模型训练模块通过如下方法对电子棋牌决策模型进行训练：通过所述电子棋牌决策模型的全连接层基于所述第三特征信息输出初始出牌策略；基于所述初始出牌策略与所述样本出牌策略以及损失函数计算损失值，并根据所述损失值更新所述电子棋牌决策模型的参数。

在本发明的一种示例性实施例中，所述电子棋牌决策模型训练装置还包括：消息处理模块，用于将所述第三特征信息以及所述样本牌面信息对应的样本出牌策略作为消息加入预设消息队列以及从所述预设消息队列中获取所述第三特征信息以及所述样本牌面信息对应的样本出牌策略对电子棋牌决策模型进行训练。

在本发明的一种示例性实施例中，所述电子棋牌决策模型训练装置还包括：强化学习模块，用于对所述电子棋牌决策模型进行强化学习训练。

在本发明的一种示例性实施例中，所述强化学习模块通过如下方法对所述电子棋牌决策模型进行强化学习训练：通过当前电子棋牌决策模型以及多个历史电子棋牌决策模型分别提供出牌策略进行模拟对战；基于所述模拟对战的结果，对所述当前电子棋牌决策模型的出牌策略赋予奖励值；基于所述奖励值以及损失函数计算损失值，并根据所述损失值更新所述电子棋牌决策模型的参数。

在本发明的一种示例性实施例中，所述电子棋牌决策模型训练装置还包括：模型劣化模块，用于通过对所述电子棋牌决策模型进行训练得到多个不同的候选电子棋牌决策模型；模型分级模块，用于对所述候选电子棋牌决策模型进行分级，以获取多级目标电子棋牌决策模型。

在本发明的一种示例性实施例中，所述模型劣化模块通过如下一种或多种方法得到多个不同的候选电子棋牌决策模型：

在本发明的一种示例性实施例中，所述模型分级模块通过如下方法对所述候选电子棋牌决策模型进行分级：从所述候选电子棋牌决策模型中确定多个对战候选电子棋牌决策模型；获取各所述对战候选电子棋牌决策模型的当前胜负概率分布；获取对战候选电子棋牌决策模型的模拟对战结果，并根据对战结果更新各所述候选电子棋牌决策模型的当前胜负概率分布。

根据本发明的第四方面，提供一种电子棋牌策略生成装置，包括：第一特征构建模块，用于根据电子棋牌游戏参与者的当前牌面信息构建第一特征信息；第二特征构建模块，用于根据所述参与者的当前局面信息构建第二特征信息；特征拼接模块，用于对所述第一特征信息和所述第二特征信息进行拼接，生成第三特征信息；策略生成模块，用于将所述第三特征信息输入至电子棋牌决策模型以生成所述参与者的当前出牌策略。

根据本发明的第五方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本发明的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本发明示例性实施例可以具有以下有益效果：

本发明一种示例性实施例的电子棋牌决策模型训练方法中，基于电子棋牌游戏的样本牌面信息以及对应的样本局面信息构建特征信息，并根据特征信息以及对应的样本出牌策略对电子棋牌决策模型进行训练，从而得到目标电子棋牌决策模型。相比于现有技术中基于行为树的电子棋牌决策模型而言，一方面，由于本发明中的方法基本不依赖于具体的电子棋牌游戏规则特征，因此可以适用于不同规则的电子棋牌游戏，具有高可移植性；另一方面，由于本发明中的方法可以通过提供大量训练样本等方式提升电子棋牌决策模型的智能水平，因此相比于按照固定规则确定出牌策略的行为树模型而言，最终的智能水平更高。相比于现有技术中基于博弈论理论的树搜索电子棋牌决策模型而言，本发明中的方法训练得到的模型在使用时无需进行大量的模拟运算，因此所需的计算资源更少，进而具有更高的工业可用性；同时提供出牌策略的耗时也会更短，从而可以进一步提升用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本发明实施例的一种电子棋牌决策模型训练方法及装置的示例性系统架构的示意图；

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了本发明的一实施例的电子棋牌决策模型训练方法的流程图；

图4示意性示出了本发明的一实施例中获取第一特征信息的步骤的流程图；

图5示意性示出了本发明的一实施例中斗地主游戏的一种手牌示意图；

图6示意性示出了本发明的一实施例中麻将游戏的一种手牌示意图；

图7示意性示出了本发明的一实施例的卷积神经网络的框架图；

图8示意性示出了本发明的一实施例中卷积过程示意图；

图9示意性示出了本发明的一实施例中池化过程示意图；

图10示意性示出了本发明的一实施例中训练结果曲线；

图11示意性示出了本发明的一实施例中强化学习步骤的流程图；

图12示意性示出了本发明的一实施例中生成多级目标模型步骤的流程图；

图13示意性示出了本发明的一实施例中对候选模型分级步骤的流程图；

图14示意性示出了本发明的一实施例的电子棋牌策略生成方法的流程图；

图15示意性示了本发明的一实施例的电子棋牌决策模型训练方法以及电子棋牌策略生成方法的整体流程图；

图16示意性示了本发明的一实施例的一个可视化页面；

图17示意性示了本发明的一实施例的一个可视化页面；

图18示意性示出了本发明的一个实施例的电子棋牌决策模型训练装置的框图；

图19示意性示出了本发明的一个实施例的电子棋牌策略生成装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本发明的各方面变得模糊。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本发明实施例的一种电子棋牌决策模型训练方法及装置、电子棋牌策略生成方法及装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和后台服务器105。网络104用以在终端设备101、102、103和后台服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和后台服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和后台服务器。比如后台服务器105可以是多个后台服务器组成的后台服务器集群等。

本发明实施例所提供的电子棋牌决策模型训练方法以及电子棋牌策略生成方法一般由后台服务器105执行，相应地，电子棋牌决策模型训练装置一般设置于后台服务器105中。但本领域技术人员容易理解的是，本发明实施例所提供的电子棋牌决策模型训练方法也可以由终端设备101、102、103执行，相应的，电子棋牌决策模型训练装置也可以设置于终端设备101、102、103中，本示例性实施例中对此不做特殊限定。

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的方法和装置中限定的各种功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图3以及图14所示的各个步骤等。

以下对本发明实施例的技术方案的实现细节进行详细阐述：

本示例实施方式中所述电子棋牌游戏可以为模拟纸牌游戏，也可以为模拟麻将游戏等其他棋牌类游戏；例如，所述电子棋牌游戏可以具体为斗地主游戏、升级游戏、拱猪游戏、地方麻将游戏等，本示例性实施例中对此不做特殊限定。在电子棋牌游戏中，通常会有两个或更多的参与者，也即玩家；以经典的斗地主游戏为例，通过包括两个“农民”角色参与者以及一个“地主”角色参与者，各参与者可以基于当前的牌面信息以及局面信息确定不同的出牌策略进行游戏。

本示例实施方式首先提供了一种可以在上述电子棋牌游戏中使用的电子棋牌决策模型训练方法。该电子棋牌决策模型训练方法可以应用于上述后台服务器105，也可以应用于上述终端设备101、102、103中的一个或多个，本示例性实施例中对此不做特殊限定。

参考图3所示，该电子棋牌决策模型训练方法可以包括步骤S310至步骤S340，详细介绍如下：

在步骤S310中，根据电子棋牌游戏参与者的样本牌面信息构建第一特征信息。

本发明中，电子棋牌决策模型主要用于根据电子棋牌游戏的参与者的当前状态信息，确定合适的出牌策略。因此，电子棋牌决策模型的框架为多分类模型框架，其中，模型的输入为参与者的当前状态信息，输出为确定的出牌策略。相应的，在对该电子棋牌决策模型进行训练时，模型的输入为参与者的样本状态信息，输出为初始出牌策略，通过样本状态信息对应的样本出牌策略与初始出牌策略之间的比较，不断调整电子棋牌决策模型的参数，实现对电子棋牌决策模型的优化。

本示例实施方式中，将以所述电子棋牌决策模型为CNN(Convolutional NeuralNetworks)模型，也即卷积神经网络模型为例进行说明。卷积神经网络模型的基本组件包括卷积层、线性整流层、池化层以及全连接层；其中卷积层、线性整流层、池化层可组成一个卷积块，而多个卷积块连接多个全连接层则形成卷积神经网络结构。但在本发明的其他示例性实施例中，所述电子棋牌决策模型也可以为如RNN(Recurrent Neural Network，循环神经网络)模型、DNN(Deep Neural Network)模型、随机森林模型、SVM(Support VectorMachine，支持向量机)模型等其他多分类模型框架，且本示例性实施例中并不以此为限。

其中，电子棋牌游戏的参与者的当前状态信息可以包括参与者当前所获取的全部信息，例如包括自己手上的牌，其它玩家手上牌的张数，各个玩家的历史出牌等。本示例实施方式中将电子棋牌游戏中状态信息分为了牌面信息以及局面信息两大类。其中，电子棋牌游戏参与者的牌面信息可以包括与参与者的手牌具体相关的信息，例如玩家手牌花色以及大小信息、底牌信息等。进而，本示例实施方式中可以将获取的样本数据分为样本牌面信息、与样本牌面信息对应的样本局面信息、与样本牌面信息和样本局面信息对应的样本出牌策略。样本数据可以为真人类玩家的游戏日志数据，也可以是根据预设规则生成的数据，本示例性实施例中对此不做特殊限定。

本示例实施方式中，第一特征信息即根据电子棋牌游戏参与者的样本牌面信息构建的特征信息。如图4所示，本示例实施方式中，根据电子棋牌游戏参与者的样本牌面信息构建第一特征信息的过程可以包括步骤S410～步骤S430。

在步骤S410中，考虑到特征表示的通用性，本示例实施方式中可以将所述样本牌面信息转换为多维数据结构。本发明中，多维数据结构是相对于如行向量等一维数据结构而言，具有更多维度的数据结构，例如，可以为矩阵数据结构。因此，本示例实施方式中，可以将所述样本牌面信息转换为一个或多个矩阵数据结构。

举例而言，本示例实施方式中可以通过K个M行N列的二维矩阵数据结构表示牌面特征信息；其中列方向可以表示按牌力大小排序的所有基础牌，M行则可以表示对应的手牌张数，K可以表示其它影响牌大小的因素，例如花色等。当然，在本发明的其他示例性实施例中，根据实际需要，所述多维数据结构也可以为三维矩阵数据结构等其他形式，这同样属于本发明的保护范围。

以经典的斗地主游戏为例，可以使用1个5行15列的二维矩阵数据结构表示牌面信息。如图5所示，当前参与者手牌包括“3 4 5 6 7 8 8 9 9 10 10J J Q K K K K2BlackJoker”，则对应的二维矩阵数据结构可以如下表1所示：

表1

	3	4	5	6	7	8	9	10	J	Q	K	A	2	B	R
																0	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1
1	1	1	1	1	1	1	1	1	1	1	1	0	1	1	0
																2	0	0	0	1	0	1	1	1	1	1	1	0	0	0	0
3	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0
																4	0	0	0	0	0	0	0	0	0	0	1	0	0	0	0

其中，首行的3～R表示牌力大小为从3到RedJoker依次增加；首列的0～4表示手牌中各牌力的牌的数量；例如，10:1,1,1,0,0表示大小为10的牌共有3张，K:1,1,1,1,1表示大小为K的牌共有5张，R:1,0,0,0,0表示大小为RedJoker的牌共有0张。通过表1中的二维矩阵数据结构可以保留原有的各个基础牌之间的关系；例如，横向的顺子的连续关系和列向的点数的序列关系都被保留了下来。

但如果以麻将游戏为例，仅通过手牌点数和手牌张数是无法清楚表示牌面信息的；一般而言，还需要有门牌信息，如万、条、筒等。同时，由于三门牌之间都是独立成牌的，因此可以使用3个5行9列的二维矩阵数据结构表示牌面信息。如图6所示，当前参与者手牌包括“一万一万三万四万四万七万八万九万四条五条五条八条七筒”，则对应的二维矩阵数据结构可以如下表2～4所示：

表2

万	1	2	3	4	5	6	7	8	9
										0	1	1	1	1	1	1	1	1	1
1	1	0	1	1	0	0	1	1	1
										2	1	0	0	0	0	0	0	0	0
3	0	0	0	0	0	0	0	0	0
										4	0	0	0	0	0	0	0	0	0

表3

条	1	2	3	4	5	6	7	8	9
										0	1	1	1	1	1	1	1	1	1
1	0	0	0	1	0	0	0	1	0
										2	0	0	0	0	1	0	0	0	0
3	0	0	0	0	0	0	0	0	0
										4	0	0	0	0	0	0	0	0	0

表4

筒	1	2	3	4	5	6	7	8	9
										0	1	1	1	1	1	1	1	1	1
1	0	0	0	0	0	0	1	0	0
										2	0	0	0	0	0	0	0	0	0
3	0	0	0	0	0	0	0	0	0
										4	0	0	0	0	0	0	0	0	0

其中，手牌点数以及数量的标记方式与上述斗地主游戏类似，因此不再重复赘述。

如上所述，本示例实施方式中的特征表示具有较强的通用性，因此不但适用于上述斗地主游戏，也同样适用于上述麻将游戏；类似的，还可以适应于如升级、跑得快、双扣等其他规则的电子棋牌游戏。

在步骤S420中，通过卷积核对转换后的所述样本牌面信息进行卷积运算，以及，在步骤S430中，对所述卷积运算的结果进行池化处理，得到所述第一特征信息。步骤S420以及步骤S430具体说明如下：

为了便于后续训练使用，本示例实施方式中，在将样本牌面信息转换为上述的多维数据结构后，可以输入至上述CNN模型进行处理，得到所述第一特征信息。举例而言，本示例实施方式中CNN模型的网络框架可以如图7所示；该网络框架包括多个卷积块(如卷积块A以及卷积块B)，每个卷积块均包括卷积层以及池化层。将上述多维数据结构输入至一个卷积块后，该卷积块中卷积层通过2个卷积核(如5*5.bn以及3*3.bn)对所述多维数据结构进行卷积运算，从而实现一次局部特征的提取，具体卷积过程可以如图8所示。该卷积块中池化层通过对所述卷积运算的结果进行池化处理，从而实现对上述局部特征的下采样，减少特征的数据量；本示例实施方式中，池化处理的方式可以是最大池化、均值池化、高斯池化或者可训练池化等；以最大池化为例，具体池化过程可以如图9所示。该卷积块的处理结果可以输入至后一个卷积块，进行类似的处理。本示例实施方式中，每经过一次卷积运算，所述多维数据结构的数量翻倍，每经过一次池化处理，多维数据结构的行数和列数都降为原来的一半。经过各卷积块的处理之后，则可以得到所述第一特征信息。

在步骤S320中，根据与所述样本牌面信息对应的样本局面信息构建第二特征信息。

本示例实施方式中，第二特征信息即根据与所述样本牌面信息对应的样本局面信息构建的特征信息。所述样本局面信息可以包括与样本牌面具体信息无关的信息，如当前参与者的角色信息、当前轮次信息、其他参与者剩余手牌数量等。由于这些信息一般是类别信息或者数量信息，因此，本示例实施方式中可以将所述样本局面信息转换为一位有效编码(One-Hot)形式的向量进行表示，从而得到所述第二特征信息；One-Hot形式的向量在同一时间只有一个激活点，即为非常稀疏的特征向量。

举例而言，在经典的斗地主游戏中，总共有地主、农民一以及农民二三类角色，参与者可以扮演其中的一个角色。因此，可以使用向量(1,0,0)、(0,1,0)、(0,0,1)分别表示地主、农民一以及农民二这三类角色。对于当前轮次信息、其他参与者剩余手牌数量等其他样本局面信息，也同样可以使用One-Hot形式的向量进行表示。

当然，在本发明的其他示例性实施例中，也可以通过如Word2Vec等其他方法根据与所述样本牌面信息对应的样本局面信息构建第二特征信息，本示例性实施例中对此不做特殊限定。

在步骤S330中，对所述第一特征信息和所述第二特征信息进行拼接，生成第三特征信息。

本示例实施方式中，第三特征信息即第一特征信息和所述第二特征信息进行拼接后得到的特征信息。如上所述，本示例实施方式中所述第一特征信息为多维矩阵数据结构，第二特征信息为行向量，因此，继续参考图7所示，本示例实施方式中可以首先将多维的所述第一特征信息摊平为行向量；然后将摊平后的所述第一特征信息与一位有效编码形式的所述第二特征信息进行拼接，得到所述第三特征信息。

举例而言，第一特征信息如果为，第二特征信息如果为(0,0,1)，则可以将第一特征信息摊平为行向量(0,1,1,0,1,0)；相应的，对摊平后的所述第一特征信息与一位有效编码形式的所述第二特征信息进行拼接，可以得到第三特征信息(0,1,1,0,1,0,0,0,1)。

此外，在本发明的其他示例性实施例中，可能第一特征信息与第二特征信息不在同一量级区间，如果直接拼接会导致量级小的特征向量无意义，也即拼接后的向量只由量级大的特征向量所决定。因此，还可以通过对第一特征信息与第二特征信息进行归一化处理，使得上述两个特征信息在同一量级区间。

在步骤S340中，通过所述第三特征信息以及所述样本牌面信息对应的样本出牌策略对电子棋牌决策模型进行训练。

本示例实施方式中，出牌策略是指一次合理的出牌，即当前手牌中所有的合法出牌牌型的任何一个都可以构成一个出牌策略；以经典斗地主为例，如果前一参与者出牌3，则当前参与者打出4～RedJoker单张牌或“炸弹”、或者选择“不出牌”，这些均为出牌策略，即可能存在27种合适的出牌策略。

由于电子棋牌游戏中的出牌牌型通常是有限的，同时，各个出牌动作是离散的，因此可以将出牌动作理解为多分类中的一个类别；基于此，本示例实施方式中可以用One-Hot向量表示一种具体的出牌动作，即可以使用One-Hot向量来表示出牌策略。当然，在本发明的其他示例性实施例中，也可以通过其他方式表示出牌策略；例如，还可以使用多标签的形式表示出牌策略，即将所有基础牌型(分别对应1个标签)作为类别集合，将一个出牌策略对应的出牌动作看成是一个类别或多个类别的组合。

在不同的电子棋牌游戏中，可以根据实际需求选择使用One-Hot向量或者多标签的形式对出牌策略进行表示。例如，在经典的斗地主游戏中，一般可以使用One-Hot向量表示出牌策略，而对于带翅膀的牌型(即xxaaabbbyy形式的牌型)对应的出牌策略，则可以使用多标签的形式表示。

继续参考图7所示，本示例实施方式中，在得到第三特征信息之后，通过所述电子棋牌决策模型的全连接层(即softmax层)运算处理，则可以基于所述第三特征信息输出合适的初始出牌策略。例如，第三特征信息为包括K个元素的行向量x，则输出的对应的初始出牌策略S可以如下：

在电子棋牌决策模型输出初始出牌策略之后，则可以基于所述初始出牌策略与所述样本出牌策略以及损失函数计算损失值，并根据所述损失值更新所述电子棋牌决策模型的参数。此外，根据不同的出牌策略表示方式，本示例实施方式中可以适应性的采用不同的损失函数。举例而言：

当样本出牌策略用One-Hot向量表示时，本示例实施方式中可以采用损失函数Cross Entropy交叉熵表示损失值。例如，根据计算损失值；其中，y_i是所述初始出牌策略，y′_i则是所述样本出牌策略。

当样本出牌策略用多标签的形式表示时，本示例实施方式中可以采用损失函数Squaring Loss表示损失值。例如，根据计算损失值；其中，y_i是所述初始出牌策略，y′_i则是所述样本出牌策略。

当然，在本发明的其他示例性实施例中，也可以采用如Hinge Loss、ContrastiveLoss等其他损失函数计算损失值，且本示例性实施例中并不以此为限。此外，还可以增加如L2loss等正则化损失项，从而将所述电子棋牌决策模型的参数值控制在合理范围内，本示例性实施例中对此不做特殊限定。

在计算得到损失值之后，则可以利用模型优化器根据损失值对所述电子棋牌决策模型的参数进行优化，实现对于电子棋牌决策模型的训练。本示例实施方式中可以采用能够自动调整学习率的模型优化器AdamOptimizer；也可以采用如AdadeltaOptimizer、AdagradOptimizer或者GradientDescentOptimizer等其他类型的模型优化器。

此外，本领域技术人员还可以采用其他技术手段对训练过程进行优化；例如，可以采用如Batch Normalization等批标准化方法加快训练的收敛速度；可以加入Dropout层或者采用数据集扩增等方法防止训练的过拟合等。这些同样属于本发明的保护范围。

下面将结合实际训练过程，对本示例实施方式中的方法进行更详细说明。以经典的斗地主游戏为例，发明人采用了近200万局，6000万手的玩家日志作为样本数据，对电子棋牌决策模型进行训练；其中，电子棋牌决策模型采用的模型框架为卷积神经网络模型。

对于每一条上述样本数据，可以分为样本牌面信息、与样本牌面信息对应的样本局面信息、与样本牌面信息和样本局面信息对应的样本出牌策略。基于上述步骤S310～步骤S330，在对这些信息进行数据结构的转换之后，可以通过卷积神经网络模型中的卷积块利用这条样本数据中的样本牌面信息构建第一特征信息、利用这条样本数据中的局面信息构建第二特征信息，并对第一特征信息和第二特征信息进行拼接，生成第三特征信息。

在获取第三特征信息之后，可以将所述第三特征信息以及所述样本牌面信息对应的样本出牌策略作为消息加入预设消息队列，进而构建消息消费者-消息生产者框架来为电子棋牌决策模型不间断的输入各批次的训练数据。因此，可以通过多个进程不间断的生产包括第三特征信息以及对应的样本出牌策略的消息，并将消息存储在上述预设消息队列中。电子棋牌决策模型可以从上述预设预设消息队列中获取所述第三特征信息以及对应的样本出牌策略对电子棋牌决策模型进行训练。这样则可以解决训练数据的生成速度与电子棋牌决策模型的读取速度严重不匹配的问题。上述预设消息队列可以是先进先出队列、优先级队列等，具体可以为ActiveMQ、RabbitMQ、ZeroMQ或者Kafka等，本示例性实施例中对此不做特殊限定。

此外，由于在斗地主游戏中，带翅膀的牌型(如xxaaabbbyy或者xaaabbby形式的牌型)的预测与普通牌型的预测存在一定的差别；因此，本示例实施方式中，可以设计包括两个层次的电子棋牌决策模型。例如，通过第一层次模型(下称主牌模型)对普通牌型进行预测，同时预测是否需要出带翅膀的牌型；在预测需要出带翅膀的牌型时，首先预测其中的主牌(如aaabbb)，然后调用第二层次模型(下称翅膀模型)预测为主牌添加的翅膀牌(如xxyy或xy)。

基于上述电子棋牌决策模型以及样本数据，在经过了三轮的数据迭代以及24小时的训练过程后，获得的训练结果如图10所示。其中，图10左侧表示主牌模型的预测精确度，右图表示翅膀模型的预测精确度。可以看到，翅膀模型在迭代40000次时，模型精确度就基本稳定在92％；即在仅使用了少量样本数据的情况下即可基本掌握人类玩家出翅膀牌的规律。而主牌模型在迭代120000次左右时，模型精确度收敛到80％。在多达五百多维的多分类任务中，模型预测精确度达到了4/5，因此可以看出模型的拟合能力也很强。同时，通过人工验证，通过本示例实施方式中的方法训练得到的电子棋牌决策模型提供的出牌策略也基本上符合人类的出牌规律。

进一步的，在上述示例性实施例中，使用的监督式学习方法。由于监督式学习方法是基于人类玩家日志进行学习，因此，学习的是人类玩家的出牌策略。在训练日志是各等级的玩家的混合日志的情况下，电子棋牌决策模型学习到的智能水平一般只能达到平均人类玩家水平。为了进一步提升电子棋牌决策模型的智能水平，本示例实施方式中还可以使用不依赖于人类玩家日志的强化学习方法来对上述示例性实施例中得到的电子棋牌决策模型进行强化学习训练。参考图11所示，本示例实施方式中，对所述电子棋牌决策模型进行强化学习训练可以包括步骤S1110～步骤S1130。其中：

在步骤S1110中，通过当前电子棋牌决策模型以及多个历史电子棋牌决策模型分别提供出牌策略进行模拟对战。

本示例实施方式中，将当前电子棋牌决策模型作为电子棋牌游戏的一个参与者，表示游戏中任一角色。同时，为了防止模型训练的过拟合，本示例实施方式中还建立了历史电子棋牌决策模型池，并从历史电子棋牌决策模型池中随机选择一个或多个历史电子棋牌决策模型作为电子棋牌游戏的其他参与者，表示游戏中的其他角色。这样，则可以通过当前电子棋牌决策模型以及各所述历史电子棋牌决策模型分别提供出牌策略进行模拟对战。此外，为了增加数据的丰富度，本示例实施方式中在每开始一局新的模拟对战时，可以重新进行每个参与者的模型分配。

在步骤S1120中，基于所述模拟对战的结果，对所述当前电子棋牌决策模型的出牌策略赋予奖励值。

本示例实施方式中，可以使用强化学习中的策略梯度算法对所述当前电子棋牌决策模型进行进一步的强化训练。策略梯度算法的核心是在优化模型时，使获得奖励值更多的出牌策略的概率更高。例如，本示例实施方式中可以对于取得模拟对战胜利的出牌策略赋予+1的奖励值，对于在模拟对战中失败的出牌策略赋予-1的奖励值。此外，由于电子棋牌类游戏经常涉及到了玩家合作的情况；因此，本示例实施方式中的奖励机制中，可以在与当前电子棋牌决策模型的配合的电子棋牌决策模型(队友)的出牌策略取得胜利时，认为当前电子棋牌决策模型的出牌策略也取得了胜利。如果最后当前电子棋牌决策模型所在团队取得胜利时，则认为当前电子棋牌决策模型的每一步的出牌策略都取得了胜利。

在步骤S1130中，基于所述奖励值以及损失函数计算损失值，并根据所述损失值更新所述电子棋牌决策模型的参数。

本示例实施方式中，可以在此前监督式学习过程中的损失函数的损失项的左侧乘以该动作的奖励值，即基于奖励值对损失函数计算的损失值进行加权，得到新的损失值，再根据所述新的损失值更新所述电子棋牌决策模型的参数。

此外，为了得到更丰富的盘面信息，增加数据的丰富度；在本发明的其他示例性实施例中，还可以在模拟对战过程中的某一步进行一次或多次随机出牌。由于随机出牌后，出牌策略不再是单纯的采用当前电子棋牌决策模型的出牌策略，因此，需要将随机出牌的出牌策略输入至当前电子棋牌决策模型，并对更新后的当前电子棋牌决策模型进行出牌策略的奖励。

发明人同样基于经典的斗地主游戏，对本示例实施方式中的强化学习后的电子棋牌决策模型进行了验证。具体而言，在验证过程中，开启10个模拟对战进程来产生训练数据，总共训练时长为24h；训练完成后，将获得的最新电子棋牌决策模型与强化前的电子棋牌决策模型进行对战，胜率比为54％：46％。可以从对战结果中看出，本示例实施方式中通过强化学习方法可以极大的提升电子棋牌决策模型的智能水平。

进一步的，在很多场景下，需要提供不同智能水平的电子棋牌决策模型。例如，为了适配于电子棋牌游戏中不同水平的玩家群，需要根据玩家群的水平分别提供不同智能水平的电子棋牌决策模型。针对该需求，参考图12所示，本示例实施方式中，所述电子棋牌决策模型训练方法还可以包括步骤S1210以及步骤S1220。其中：

在步骤S1210中，通过对所述电子棋牌决策模型进行训练得到多个不同的候选电子棋牌决策模型；

本示例实施方式中，可以在上述示例性实施例中强化学习后的电子棋牌决策模型的基础上，通过不同的训练方式来获取不同的更低水平的候选电子棋牌决策模型。这些不同的训练方式的例如可以包括：通过提供不同的样本数据，也即通过提供不同的所述第三特征信息以及所述样本牌面信息训练得到多个不同的候选电子棋牌决策模型；例如将不同胜率的玩家的游戏日志进行区分，分开作为训练数据进行模型的训练。又或者，通过提供不同的初始电子棋牌决策模型进行训练得到多个不同的候选电子棋牌决策模型；例如增加或者减少卷积神经网络的层数(如去掉或增加部分池化层、去掉或增加部分卷积层等)，又例如减少特征信息(如去掉局面信息中的历史出牌信息、轮次信息、其他玩家的手牌张数信息等)。再或者，基于不同的训练参数对所述电子棋牌决策模型进行训练得到多个不同的候选电子棋牌决策模型，例如控制训练时长(将训练时长从原来的24小时减少为12小时或者调整学习率等)等。

以上述的斗地主游戏为例，本示例实施方式中在得到强化学习后的电子棋牌决策模型之后，继续通过不同的训练方式来获取了8个更低水平的候选电子棋牌决策模型；模型的具体信息如表5所示。

表5

在步骤S1220中，对所述候选电子棋牌决策模型进行分级，以获取多级目标电子棋牌决策模型。

本示例实施方式中，可以通过多种方式对所述候选电子棋牌决策模型进行分级，例如，通过人工评估的方式或者机器评分的方式等。以机器评分为例，参考图13所示，本示例实施方式中，对所述候选电子棋牌决策模型进行分级可以包括步骤S1310～步骤S1330。其中：

在步骤S1310中，确定多个对战候选电子棋牌决策模型；

本示例实施方式中，可以将上述9个候选电子棋牌决策模型A-I放入模型池中，每次随机从模型池中挑选三个模型作为对战候选电子棋牌决策模型，并随机分配角色进行模拟对战。在本发明的其他示例性实施例中，也可以根据各候选电子棋牌决策模型的当前胜负概率分布确定适合对战的模型作为对战候选电子棋牌决策模型，本示例性实施例中对此不做特殊限定。

在步骤S1320中，获取各所述对战候选电子棋牌决策模型的当前胜负概率分布。

本示例实施方式中，可以假设每一个候选电子棋牌决策模型的对战水平不是固定的，其能力水平的表现符合正态分布或高斯分布。在初次模拟对战之前，可以为各候选电子棋牌决策模型分配一个初始胜负概率分布；此后，则可以根据各候选电子棋牌决策模型在模拟对战中的表现对胜负概率分布进行更新，例如更新均值与方差等。

在步骤S1330中，获取对战候选电子棋牌决策模型的模拟对战结果，并根据对战结果更新各所述候选电子棋牌决策模型的当前胜负概率分布。

本示例实施方式中，以对战候选电子棋牌决策模型为模型A和模型B为例，假设通过贝叶斯网络或者其他方式根据当前胜负概率分布判断模型A取胜的可能性更高，则在获取模型A和模型B实际对战的结果后，如果实际也是模型A获胜，则略微提升提升模型A的当前胜负概率分布或者保持不变，同时略微降低模型B的胜负概率分布或者保持不变；如果实际是模型B获胜，则说明现有胜负概率不能很好的体现模型A和模型B的水平，所以需要大幅降低模型A的胜负概率分布，并且大幅提高模型B的胜负概率分布。

通过多次的迭代更新之后，则可以获取对于各候选电子棋牌决策模型较为客观的分级，进而可以获取多级目标电子棋牌决策模型。此外，在本发明的其他示例性实施例中，对电子棋牌决策模型的评分也可以通过如Trueskill、elo等算法实现，本示例性实施例中对此不做特殊限定。

以上述表5中的9个候选电子棋牌决策模型为例，在进行3000局的模拟对战以及TrueSkill评分的更新后，得到各个候选电子棋牌决策模型的水平以及等级如表6所示。从表6中可以看出，其中的部分候选电子棋牌决策模型的智能水平差异并不明显，如模型D和模型E；因此，本示例实施方式中，最终选取了候选电子棋牌决策模型A、C、E、G、I构成多级目标电子棋牌决策模型。

表6

进一步的，本示例实施方式中，还提供了一种基于上述训练方法得到的电子棋牌决策模型的电子棋牌策略生成方法。参考图14所示，该生成方法可以包括步骤S1410至步骤S1420。其中：

在步骤S1410中，根据电子棋牌游戏参与者的当前牌面信息构建第一特征信息。在步骤S1420中，根据所述参与者的当前局面信息构建第二特征信息。在步骤S1430中，对所述第一特征信息和所述第二特征信息进行拼接，生成第三特征信息。在步骤S1440中，将所述第三特征信息输入至电子棋牌决策模型以生成所述参与者的当前出牌策略。由于生成电子棋牌策略的方法与上述步骤S310～步骤S340中生成所述初始出牌策略的过程类似，因此此处不再重复赘述。

图15展示了本示例实施方式中电子棋牌决策模型训练方法以及电子棋牌策略生成方法的整体流程图。其中：在获得玩家原始日志后，对玩家原始日志进行预处理，并提取出上述第三特征信息转化为中间表示，以用于电子棋牌决策模型、价值模型以及用于具体游戏中特有阶段的其它模块等。在使用监督式学习方法对电子棋牌决策模型进行训练之后，可以使用强化学习框架实现进化。在获取多个上述候选电子棋牌决策模型之后，可以根据TrueSkill系统进行分级，获取多级目标电子棋牌决策模型。最后将多级目标电子棋牌决策模型输入到AI驱动框架中，进而可用于在可视化系统AIBoard上进行页面展示，也可直接用于生产环境中做决策服务，例如生成电子棋牌游戏参与者的当前出牌策略等。

上述可视化系统AIBoard的主页面如图16所示，显示了各款具体电子棋牌游戏的入口，可以看到，基于本发明实现了各个电子棋牌游戏的决策模型，从实践上证明了本发明的有效性。图17展示了基本本发明中方法实现的经典斗地主游戏的决策模型出牌可视化界面；在界面的上方提供了AI机器人的选项卡，可以查看不同等级决策模型的出牌情况，页面左侧展示了对战过程中的出牌情况，右上侧展示了各个玩家的历史出牌信息，右下侧则是展示了决策模型对当前正要出牌的玩家的出牌动作的概率预测。

现有技术中的电子棋牌决策模型主要分为两类，一类是基于行为树的电子棋牌决策模型，一类是基于博弈论理论的树搜索电子棋牌决策模型。其中，基于行为树的电子棋牌决策模型是工业界的主流做法；但该方案存在两个主要待改进之处，一是需要为每一个特定的电子棋牌游戏单独编写特定的行为树，这样则需要开发者对电子棋牌游戏本身有深刻的理解；同时由于游戏规则的不同，很难将编写好的行为树模型快速移植到另一款游戏中，可移植性差。二是该类电子棋牌决策模型一般过于简单，智能水平相对低下，可能会影响用户体验。基于博弈论理论的树搜索电子棋牌决策模型是学术界目前的主要研究方向，但由于算法实现过程需要进行大量的模拟运行，需要大量的机器设备等计算资源的支撑；同时，在线上应用时，预测耗时也非常长，无法实现工业界的大规模应用。

本示例性实施例中训练得到的电子棋牌决策模型，相比于现有技术中基于行为树的电子棋牌决策模型而言，一方面，由于本发明中的方法基本不依赖于具体的电子棋牌游戏规则特征，因此可以适用于不同规则的电子棋牌游戏，具有高可移植性；例如基本可以适用于所有的牌类游戏：如斗地主、四人斗地主、跑得快、双升、麻将等。另一方面，由于本发明中的方法可以通过提供大量训练样本等方式提升电子棋牌决策模型的智能水平，因此相比于按照固定规则确定出牌策略的行为树模型而言，最终的智能水平更高。相比于现有技术中基于博弈论理论的树搜索电子棋牌决策模型而言，本发明中的方法训练得到的模型在使用时无需进行大量的模拟运算，因此所需的计算资源更少，进而具有更高的工业可用性，同时可实现快速开发，快速应用；同时提供出牌策略的耗时也会更短，从而可以进一步提升用户体验。

此外，基于本示例实施方式中提供的多级目标电子棋牌决策模型，可以适配于电子棋牌游戏中的不同水平的玩家群，即可以为不同水平的玩家配置相应水平的托管机器人，进而可以提升玩家的用户体验。

应当注意，尽管在附图中以特定顺序描述了本发明中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中，还提供了一种电子棋牌决策模型训练装置。该电子棋牌决策模型训练装置可以应用于一后台服务器或终端设备。参考图18所示，该电子棋牌决策模型训练装置1800可以包括第一特征构建模块1810、第二特征构建模块1820、特征拼接模块1830以及模型训练模块1840。其中：

第一特征构建模块1810，用于根据电子棋牌游戏参与者的样本牌面信息构建第一特征信息；第二特征构建模块1820，用于根据与所述样本牌面信息对应的样本局面信息构建第二特征信息；特征拼接模块1830，用于对所述第一特征信息和所述第二特征信息进行拼接，生成第三特征信息；模型训练模块1840，用于通过所述第三特征信息以及所述样本牌面信息对应的样本出牌策略对电子棋牌决策模型进行训练。

在本发明的一种示例性实施例中，所述第一特征构建模块1810包括：数据转换单元，用于将所述样本牌面信息转换为多维数据结构；卷积运算单元，用于通过卷积核对转换后的所述样本牌面信息进行卷积运算；池化处理单元，用于对所述卷积运算的结果进行池化处理，得到所述第一特征信息。

在本发明的一种示例性实施例中，所述第一特征构建模块1810根据如下方法构建第二特征信息：将所述样本局面信息转换为一位有效编码而得到所述第二特征信息。

在本发明的一种示例性实施例中，所述特征拼接模块1830通过如下方法对所述第一特征信息和所述第二特征信息进行拼接：将多维的所述第一特征信息摊平为行向量；将摊平后的所述第一特征信息与一位有效编码形式的所述第二特征信息进行拼接，得到所述第三特征信息。

在本发明的一种示例性实施例中，所述模型训练模块1840通过如下方法对电子棋牌决策模型进行训练：通过所述电子棋牌决策模型的全连接层基于所述第三特征信息输出初始出牌策略；基于所述初始出牌策略与所述样本出牌策略以及损失函数计算损失值，并根据所述损失值更新所述电子棋牌决策模型的参数。

进一步的，本示例实施方式中，还提供了一种电子棋牌策略生成装置。该电子棋牌决策模型训练装置可以应用于一后台服务器或终端设备。参考图19所示，该电子棋牌决策模型训练装置1900可以包括第一特征构建模块1910、第二特征构建模块1920、特征拼接模块1930以及策略生成模块1940。其中：

第一特征构建模块1910，用于根据电子棋牌游戏参与者的当前牌面信息构建第一特征信息；第二特征构建模块1920，用于根据所述参与者的当前局面信息构建第二特征信息；特征拼接模块1930，用于对所述第一特征信息和所述第二特征信息进行拼接，生成第三特征信息；策略生成模块，用于将所述第三特征信息输入至电子棋牌决策模型以生成所述参与者的当前出牌策略。

上述电子棋牌决策模型训练装置中各模块的具体细节已经在对应的电子棋牌决策模型训练方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种电子棋牌决策模型训练方法，其特征在于，包括：

根据电子棋牌游戏参与者的样本牌面信息构建第一特征信息；

根据与所述样本牌面信息对应的样本局面信息构建第二特征信息；

对所述第一特征信息和所述第二特征信息进行拼接，生成第三特征信息；

通过所述第三特征信息以及所述样本牌面信息对应的样本出牌策略对电子棋牌决策模型进行训练。

2.根据权利要求1所述的电子棋牌决策模型训练方法，其特征在于，所述电子棋牌决策模型为卷积神经网络模型。

3.根据权利要求2所述的电子棋牌决策模型训练方法，其特征在于，根据电子棋牌游戏参与者的样本牌面信息构建第一特征信息，包括：

将所述样本牌面信息转换为多维数据结构；

通过卷积核对转换后的所述样本牌面信息进行卷积运算；

对所述卷积运算的结果进行池化处理，得到所述第一特征信息。

4.根据权利要求3所述的电子棋牌决策模型训练方法，其特征在于，将所述样本牌面信息转换为多维数据结构，包括：

将所述样本牌面信息转换为一个或多个矩阵数据结构。

5.根据权利要求3或4所述的电子棋牌决策模型训练方法，其特征在于，根据样本局面信息构建第二特征信息，包括：

将所述样本局面信息转换为一位有效编码而得到所述第二特征信息。

6.根据权利要求5所述的电子棋牌决策模型训练方法，其特征在于，对所述第一特征信息和所述第二特征信息进行拼接，包括：

将多维的所述第一特征信息摊平为行向量；

将摊平后的所述第一特征信息与一位有效编码形式的所述第二特征信息进行拼接，得到所述第三特征信息。

7.根据权利要求1所述的电子棋牌决策模型训练方法，其特征在于，通过所述第三特征信息以及所述样本牌面信息对应的样本出牌策略对电子棋牌决策模型进行训练，包括：

将所述第三特征信息以及所述样本牌面信息对应的样本出牌策略作为消息加入预设消息队列；

从所述预设消息队列中获取所述第三特征信息以及所述样本牌面信息对应的样本出牌策略对电子棋牌决策模型进行训练。

8.根据权利要求1所述的电子棋牌决策模型训练方法，其特征在于，所述训练方法还包括：

对所述电子棋牌决策模型进行强化学习训练。

9.根据权利要求8所述的电子棋牌决策模型训练方法，其特征在于，对所述电子棋牌决策模型进行强化学习训练，包括：

通过当前电子棋牌决策模型以及多个历史电子棋牌决策模型分别提供出牌策略进行模拟对战；

基于所述模拟对战的结果，对所述当前电子棋牌决策模型的出牌策略赋予奖励值；

基于所述奖励值以及损失函数计算损失值，并根据所述损失值更新所述电子棋牌决策模型的参数。

10.根据权利要求1～4或6～9任一项所述的电子棋牌决策模型训练方法，其特征在于，所述训练方法还包括：

通过对所述电子棋牌决策模型进行训练得到多个不同的候选电子棋牌决策模型；

对所述候选电子棋牌决策模型进行分级，以获取多级目标电子棋牌决策模型。

11.根据权利要求10所述的电子棋牌决策模型训练方法，其特征在于，通过对所述电子棋牌决策模型进行训练得到多个不同的候选电子棋牌决策模型，包括以下一种或多种：

12.根据权利要求10所述的电子棋牌决策模型训练方法，其特征在于，对所述候选电子棋牌决策模型进行分级包括：

从所述候选电子棋牌决策模型中确定多个对战候选电子棋牌决策模型；

获取各所述对战候选电子棋牌决策模型的当前胜负概率分布；

获取对战候选电子棋牌决策模型的模拟对战结果，并根据对战结果更新各所述候选电子棋牌决策模型的当前胜负概率分布。

13.一种电子棋牌策略生成方法，其特征在于，包括：

根据电子棋牌游戏参与者的当前牌面信息构建第一特征信息；

根据所述参与者的当前局面信息构建第二特征信息；

将所述第三特征信息输入至电子棋牌决策模型以生成所述参与者的当前出牌策略。

14.一种电子棋牌决策模型训练装置，其特征在于，包括：

第一特征构建模块，用于根据电子棋牌游戏参与者的样本牌面信息构建第一特征信息；

第二特征构建模块，用于根据与所述样本牌面信息对应的样本局面信息构建第二特征信息；

特征拼接模块，用于对所述第一特征信息和所述第二特征信息进行拼接，生成第三特征信息；

模型训练模块，用于通过所述第三特征信息以及所述样本牌面信息对应的样本出牌策略对电子棋牌决策模型进行训练。

15.一种电子棋牌策略生成装置，其特征在于，包括：

第一特征构建模块，用于根据电子棋牌游戏参与者的当前牌面信息构建第一特征信息；

第二特征构建模块，用于根据所述参与者的当前局面信息构建第二特征信息；

策略生成模块，用于将所述第三特征信息输入至电子棋牌决策模型以生成所述参与者的当前出牌策略。