CN109508789A

CN109508789A - 预测手牌的方法、存储介质、处理器以及设备

Info

Publication number: CN109508789A
Application number: CN201810555772.XA
Authority: CN
Inventors: 李淑琴; 丁濛; 李赛赛; 陈子鹏; 孟坤; 李玉璋; 郑蓝舟
Original assignee: Micro Intelligence (beijing) Science And Technology Co Ltd; Beijing Information Science and Technology University
Current assignee: Micro Intelligence (beijing) Science And Technology Co Ltd; Beijing Information Science and Technology University
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2019-03-22
Anticipated expiration: 2038-06-01
Also published as: CN109508789B

Abstract

本发明公开了一种预测手牌的方法、存储介质、处理器以及设备。其中，该方法包括：获取牌局信息，其中牌局信息包括当前牌局的预定数量的回合时，作为牌类游戏中的一方玩家能够获知的与手牌相关的信息；以及基于机器学习训练的多个预测模型，根据牌局信息，预测一方玩家之外的其他玩家的手牌，其中多个预测模型分别与各个同一牌型对应，用于分别预测各个同一牌型手牌的分布信息，其中分布信息表示同一牌型的手牌在所述一方玩家之外的其他玩家中的分布。本发明解决了由于牌类游戏的操作空间太大，造成传统搜索算法较难实现对各玩家手牌进行预测的技术问题。

Description

预测手牌的方法、存储介质、处理器以及设备

技术领域

本发明涉及棋牌游戏的数据挖掘领域，具体而言，涉及一种预测手牌的方法、存储介质、处理器以及设备。

背景技术

计算机博弈是人工智能的重要发展方向之一。传统的计算机博弈问题主要由博弈树搜索算法解决，并主要应用于完全信息博弈。由于完全信息博弈可以很容易地被划分为子博弈，进而可以通过独立解决子博弈产生的碎片战略，达到组合出整个博弈最优策略的目的。而非完全信息博弈的状态信息隐藏在一个或多个玩家身上，需要更复杂的推理。因此对于非完全信息博弈，如牌类游戏二打一、德州扑克和军棋等，其庞大的博弈树导致传统的搜索算法无法很好地应用于该领域。

针对上述由于牌类游戏的操作空间太大，造成传统搜索算法较难实现对各玩家手牌进行预测的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种预测手牌的方法、存储介质、处理器以及设备，以至少解决由于牌类游戏的操作空间太大，造成传统搜索算法较难实现对各玩家手牌进行预测的技术问题。

根据本发明实施例的一个方面，提供了一种牌类游戏的预测手牌的方法，包括：获取牌局信息，其中牌局信息包括当前牌局的预定数量的回合时，作为牌类游戏中的一方玩家能够获知的与手牌相关的信息；以及基于机器学习训练的多个预测模型，根据牌局信息，预测一方玩家之外的其他玩家的手牌，其中多个预测模型分别与各个同一牌型对应，用于分别预测各个同一牌型手牌的分布信息，其中分布信息表示同一牌型的手牌在一方玩家之外的其他玩家中的分布。

根据本发明实施例的另一方面，还提供了一种存储介质，包括存储的程序，其中，在程序运行时控制处理器执行上面任意一项所述的方法。

根据本公开的另一个方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行以上任意一项所述的方法。

根据本实施例的另一个方面，提供了一种预测手牌的设备。预测手牌的设备包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取牌局信息，其中牌局信息包括当前牌局的预定数量的回合时，作为牌类游戏中的一方玩家能够获知的与手牌相关的信息；以及基于机器学习训练的多个预测模型，根据牌局信息，预测一方玩家之外的其他玩家的手牌，其中多个预测模型分别与各个同一牌型对应，用于分别预测各个同一牌型手牌的分布信息，其中分布信息表示同一牌型的手牌在一方玩家之外的其他玩家中的分布。

在本发明实施例中，利用多个基于机器学习训练的分类器，通过对规约化后的牌局信息进行分类，达到了预测玩家手牌的目的，从而实现了已知一方玩家的手牌和预定数量回合内各玩家的出牌信息即可预测出其他玩家手牌的技术效果，进而解决了由于牌类游戏的操作空间太大，造成传统搜索算法较难实现对各玩家手牌进行预测的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本公开实施例所述的一种用于实现牌类游戏的预测手牌的方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本公开实施例的第一个方面的预测手牌的方法的流程图；

图3是根据本公开实施例的第一个方面的牌局信息的输入格式；

图4是根据本公开实施例的第一个方面的每个通道中每个维度牌型的意义；

图5是根据本公开实施例的第一个方面的总牌的表示方法；

图6是根据本公开实施例的第一个方面的分类器的示意图；

图7是根据本公开实施例的第一个方面的预测手牌的操作流程图；

图8是根据本公开实施例的第一个方面的预测手牌的方案的示意图；

图9(a)是根据本公开实施例的第一个方面的模型训练过程与预测正确率的关系图；

图9(b)是根据本公开实施例的第一个方面的模型训练过程与目标函数损失值的关系图；

图10是根据本公开实施例的第一个方面的模型测试过程与正确率的关系图；

图11是根据本公开实施例的第一个方面的模型对各个牌型预测的正确率；以及

图12是根据本公开实施例的第四个方面的预测手牌的设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

本公开所述的“手牌”，是指在牌类游戏中完成发牌后，分发给各方的牌。例如在牌类游戏二打一中，完成发牌后，三方的手牌分别为17张。

本公开所述的“同一牌型”，是指在牌类游戏中，不考虑花色，不考虑大小王，其牌面显示的数值相等的一组牌型。

本公开所述的“癞子局”，是牌类游戏二打一中的一种游戏形式，整体与正常局相似，但另外有一张“癞子牌”，其可以与除大小王外的其他牌组合到一起，得到更加灵活的出牌组合，另，“癞子牌”单独打出时，则只能做为原本的牌张使用。

实施例

根据本公开实施例，还提供了一种牌类游戏的预测手牌的方法实施例。需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机(移动终端)可执行指令的计算机系统(移动终端系统)中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现信息处理方法的终端设备10(例如，计算机终端或移动设备等)的硬件结构框图。如图1所示，终端设备10可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，终端设备10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到终端设备10中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本公开实施例中的信息处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端设备10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与终端设备10的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的终端设备 10可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述终端设备 10中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的牌类游戏的预测手牌的方法。

参考图2所示，本公开的实施例提供了一种牌类游戏的预测手牌的方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。参考图2所示，该针对牌类游戏的预测手牌的方法包括：

S202：获取牌局信息，其中牌局信息包括当前牌局的预定数量的回合时，作为牌类游戏中的一方玩家能够获知的与手牌相关的信息；以及

S204：基于机器学习训练的多个预测模型，根据牌局信息，预测一方玩家之外的其他玩家的手牌，其中

多个预测模型分别与各个同一牌型对应，用于分别预测各个同一牌型手牌的分布信息，其中分布信息表示同一牌型的手牌在一方玩家之外的其他玩家中的分布。

从而，在本实施例所述的预测手牌的方法在已知预定数量回合内，游戏中一方玩家的手牌信息的前提下，利用基于机器学习训练的模型，对规约化和清理后的牌局信息进行分类，从而预测出其他玩家的手牌组合。其中，一般的牌类游戏都包含多种同一牌型，因此本实施例所述的方法建立了多个利用基于机器学习训练的模型，分别用于估计上述多种同一牌型在玩家间的分布，从而通过多个模型预测结果的叠加，得到除已知手牌信息的玩家以外的其他玩家的手牌，进而解决了由于牌类游戏的操作空间太大，造成传统搜索算法较难实现对各玩家手牌进行预测的技术问题。

可选地，获取牌局信息的操作，包括：获取牌类游戏的在线记录文件；以及从所述在线记录文件中获取符合预定标准的正常牌局信息。

从而，为了提高牌局信息的原始数据的质量，减少噪音数据量，提高模型效果，需要对原始数据进行更细致地分析。具体地，以牌类游戏二打一为例进行说明：

首先需剔除“癞子局”数据。游戏的在线记录文件中，包括正常局与“癞子局”比赛记录，而对于正常局的猜牌模型，需剔除“癞子局”的数据。

剔除回合数低于预定标准的数据。在经过上一步清洗后的游戏数据中，随机选取了24万局数据。通过对每局所花的回合数进行统计，发现回合数大部分集中于6到12回合中。牌类游戏二打一中以角色1(地主)先出牌为游戏的开始，以角色1(地主)、角色2(逆时针第一个农民玩家)、角色3(逆时针第二个农民玩家)的顺序依次出完牌为一回合。若回合数在6步左右游戏就结束，通常某一方的手牌比较大，并且此玩家会连续出牌而致使其他方基本无法出牌，对此类牌局进行猜牌的意义不大，于是将原始数据中6步以内就结束的牌局剔除掉，最终得到500万游戏数据。

从而，由于数据质量直接影响预测模型可能达到的性能瓶颈，并且快节奏结束的牌类游戏对模型没有帮助，而其外部主要体现在玩家拥有过好的牌型组合，因此为得到符合研究标准的高质量数据可将此类型数据剔除掉。

进一步地，牌局信息包括：牌类游戏中牌的总数量、一方玩家的初始手牌、预定数量的回合内除一方玩家之外的其他玩家的手牌总和、预定数量的回合内各方玩家的总出牌以及预定数量的回合内每一回合中各方玩家的出牌。

需要说明的是，“牌类游戏中牌的总数量”为牌类游戏本身所有牌的总数量，在数据表示上直接使用数字表示当前牌型的数量。此外，牌类游戏开局时，“除一方玩家之外的其他玩家的手牌总和”即为牌类游戏中牌的总数量减去一方玩家的初始手牌数量。开局后对其他玩家的手牌进行预测，其手牌数量范围不可超过“除一方玩家之外的其他玩家的手牌总和”。

并且，“回合”指的是牌类游戏以某一方玩家的出牌为对抗过程的开始，以逆时针顺序依次询问其他玩家需进行的操作。以牌类游戏二打一为例：以角色1(地主)、角色2(逆时针第一个农民玩家)和角色3(逆时针第二个农民玩家)的一次操作作为一个回合数据，操作分为出牌与过牌两种操作。另外，“预定数量的回合内各方玩家的总出牌”和“预定数量的回合内每一回合中各方玩家的出牌”意为将预定数量的回合内各方玩家出牌历史情况分别表示出来。

此外，牌类游戏中牌的总数量、一方玩家的初始手牌和预定数量的回合内每一回合中各方玩家的出牌为已知信息，其余两种牌局信息，即：预定数量的回合内除一方玩家之外的其他玩家的手牌总和与预定数量的回合内各方玩家的总出牌，可以通过已知信息计算得到。同时预定数量的回合数为预先确定值，预定数量的回合数越少，本实施例所述的方法猜牌效率越高，即：开局后经历较少数量的回合数就可以提供玩家手牌的预测。

从而，通过上述操作确定了需要输入模型的牌局信息的数据类型。

进一步地，预测手牌的方法还包括：对牌局信息进行规约化，用于使所述牌局信息的输入格式符合预测模型的格式要求。

进一步地，规约化的操作包括：将牌局信息划分为多个通道，其中多个通道分别与牌类游戏的各个玩家对应，其中通道的数据为二维数组，并且二维数组的各行数据分别对应于以下信息：牌类游戏中牌的总数量、一方玩家的初始手牌、预定数量的回合内所述一方玩家之外的其他玩家的手牌总和、预定数量的回合内各方玩家的总出牌以及预定数量的回合内每一回合中通道对应玩家的出牌。

参考图3所示，以一局牌类游戏二打一为例(包含地主、农民1和农民2共三个玩家)，说明上述牌类信息规约化的操作。首先，需说明下述操作的前提为：本局游戏中，已知角色1(地主)的初始手牌，并只考虑前五个回合中各玩家的出牌情况。为了将游戏中的牌局信息转化为适合于预测模型的数据格式，设置了3个通道表示游戏中的3个玩家。每个通道抽取单一玩家全部出牌特征，以角色1为例，角色1所在的通道包括如下牌局信息：牌的总数量、角色1的初始手牌、角色2(逆时针第一个农民玩家)和角色3(逆时针第二个农民玩家)的初始手牌总和、前五个回合内角色1的总出牌和每一回合中角色1的出牌等。由于在此只考虑前五回合的情况，所以“每一回合中该玩家的出牌”包含五个出牌特征，即：每一回合的各玩家出牌信息为一个出牌特征，因此每个通道的牌局信息一共 9个特征。若考虑多回合出牌数据，可在此表示形式上进行累加。此外，图3中每个通道的列数为15个。

图4示出了每个通道中每个维度牌型的意义。在此不考虑花色，只关注各种牌型拥有的数量，其中“T”代表“10”号手牌，“X”代表“小王”，“D”代表“大王”。参考图3和图4所示，通道中每一列数据对应于一类牌型，以角色1通道为例，[1，1]为该通道的第1行第1列的数据，该数据代表了：本局游戏总牌中“A”的数量。

进一步以总牌为例说明牌局信息的表示方法。图5示出了总牌的表示方法。包含各种同一牌型的总牌为“AAAA2222333344445555666677778 8889999TTTTJJJJQQQQKKKKXD”，直接使用数字表示当前牌型数量，则为“444444444444411”，即为图5所示的形式。

具体到每个回合内出牌的表示方法，则如图5所示，例如：某个牌局中第一回合角色1出牌为“4445”，则在角色1通道内的第六行上表示成“000310000000000”。

以一局游戏为例，详细说明规约化操作的具体实施流程。表1示出了某一局牌局信息。参考表1所示，三个角色的初始手牌分别为：

角色1(地主)：2张“A”、1张“2”、1张“3”、2张“4”、2张“5”、 2张“6”、1张“7”、2张“9”、1张“T”、2张“J”、2张“Q”、1张“K”以及1张小王；

角色2：1张“A”、2张“2”、1张“3”、2张“4”、2张“5”、1张“6”、3张“7”、4张“8”以及1张“Q”；

角色3：1张“A”、1张“2”、2张“3”、1张“6”、2张“9”、3张“T”、2张“J”、1张“Q”、3张“K”以及1张大王。

表1某一局牌局信息

从而，角色1通道的牌局信息如表2所示：

表2角色1通道的牌局信息

进一步地，对于角色2和角色3对应通道的信息分别如表3和表4所示：

表3角色2通道的牌局信息

表4角色3通道的牌局信息

从而，通过上述的三个通道可以充分地描述三个玩家的已知手牌信息，原始数据被规约到了[9×15×3]矩阵中，其中包含大量游戏信息，然后通过预测模型对上述三个通道进行处理，可以将预测模型的优势更好地发挥出来。

进一步地，预测模型为基于卷积神经网络的分类器，用于基于多个通道的数据预测各个同一牌型手牌的分布信息。卷积神经网络是一种深度前馈人工神经网络，根据发明人的实践，发现采用卷积神经网络的结构来对手牌组合进行分类具有非常优异的表现。

进一步地，分类器包括：多个卷积层311至315，其中每个卷积层包括多个卷积核，并且卷积核用于对牌局信息进行卷积操作；以及全连接层 320，用于对经过多个卷积层处理的第一输出结果进行分类操作。

进一步地，全连接层包括第一全连接层321、第二全连接层322和第三全连接层323。

图6示出了本实施例所使用的分类器的示意图。参考图6所示，本实施例所使用的分类器包括：多个卷积层311至315、第一全连接层321、第二全连接层322、批规范化层331和第三全连接层323。

例如：多个卷积层是5个卷积层311至315，其中，第一个卷积层311 包含32个9*5卷积核C1至C32，需要说明的是“9”对应于预订数量的回合数的牌局信息的种类，其目的是考虑所有牌局信息的一种集合影响，如预定数量的回合数为5，则该9*5卷积核的意义就是将所有相同位置上的5回合数据卷积加权到一起。“5”代表卷积核中横向卷积长度，以牌类游戏二打一为例考虑牌类游戏二打一中一般出牌牌数小于等于5张的占大多数，三带(三带一与三带对子)和五连顺都将包括在内。此外，其他卷积层C312至C315都是[5×5]的卷积核，并且卷积核数量依次为64、128、 192和192。卷积层C312至C315在高纬度上对输入数据进行抽象化处理，提取特征。并且，卷积层C311至315在每次卷积操作后，通过在输出矩阵周围补0使层间传递的矩阵尺寸保持不变。

进一步地，分类器还包括：多个第一激活函数，并且每个卷积层连接一个第一激活函数，其中第一激活函数用于提升每个卷积层的收敛速度；批规范化层，与第二全连接层322和第三全连接层323连接，批规范化层用于对第二全连接层322输出的第二输出结果进行规范化操作；以及第二激活函数，与第三全连接层323连接，第二激活函数用于将第三全连接层 323输出的第三输出结果进行归一化。

从而，为防止模型过拟合，卷积层之后连接3个全连接层。在第二个全连接层322后加入一层批规范化层331，即：BN层(Batch Normalization)，第一全连接层321和第二全连接层322设有256个节点，第三全连接层323 有15个节点。

需要说明的是，卷积层每层卷积操作后的第一激活函数选用非线性激活函数RELU(The Rectified Linear Unit)函数。卷积层的输出经过RELU 激活函数的调整可以极大地加快收敛速度，其表达式为：

f(x)＝max(0,x) (1)

其中，f(x)为RELU函数的输出；x为每个卷积层的输出。

并且，第三全连接层323加权输出的结果经过第二激活函数，即： softmax激活函数，将输出结果归一化到相加值为1的约束上，用于输出预测牌型的数量的概率。

进一步地，利用多个预测模型，预测一方玩家之外的其他玩家的手牌的操作，包括：

S402：利用单个预测模型中的多个卷积层对牌局信息提取特征，得到第一输出结果；

S404：利用第一全连接层、第二全连接层、批规范化层和第三全连接层对第一输出结果进行分类操作，得到第三输出结果；

S406：利用第二激活函数对第三输出结果进行归一化处理，得到第四输出结果，其中第四输出结果为一维向量，并且一维向量的元素表示可能作为同一牌型手牌分布信息的各个候选分布信息的分值；以及

S408：提取第四输出结果中分值最高的元素所对应的候选分布信息作为与同一牌型手牌对应的分布信息。

图7是利用多个预测模型，预测手牌的操作流程图。参考图7，可知利用多个预测模型得到需预测的玩家手牌的具体流程。

需说明的是，基于卷积神经网络的分类器模型的输出设计为1维向量，即第四输出结果为1维向量，其中向量中每个数值表示单牌型手牌在需预测的玩家间分配产生的可能分布数量。对于扑克类游戏，“A23456789TJQK”共13类单牌型手牌，上述13类单牌型手牌使用相同的分配形式，并且在此不考虑大小王数量，不考虑花色。例如，对牌面显示为“A”的单牌型手牌进行分布预测，该牌型在两玩家共有15种组合。如表5所示。

表5单牌型手牌“A”的分布数量预测

上述单牌型手牌需预测的玩家间分配产生的可能分布数量，以某一单牌型手牌在“角色2(农民一)、角色3(农民二)”间可能产生的分布来表述，为一个长度为15的一维向量：[00,01,02,03,04,10,11,12,13,20,21,22,30,31,40]。则第四输出结果的长度与上面所述的一维向量长度一致，并且第四输出结果中每个元素的序号与上面所述的一维向量中分布数量预测的序号一一对应。即，卷积神经网络的分类器模型的第四输出结果为以下形式的一维向量：

{Pc0,Pc1,Pc2,Pc3,Pc4,Pc5,Pc6,Pc7,Pc8,Pc9,Pc10,Pc11,Pc12,Pc13,Pc14}

其中Pc0至Pc14分别表示输入的牌型组合属于15个分布数量中的各个分布数量的概率。

进一步地，预测手牌的方法还包括对分类器进行参数调整，用于调整预测模型的预测结果达到最优效果，其中最优效果为预先设定的分类器的训练终止条件。

从而，当分类器拟合到一定程度时，即达到最优效果后可停止分类器的训练，此时的输出结果已大致符合预定目标，若继续训练，所花时间与收益比例将失衡。

进一步地，预测模型的参数包括：卷积核数量，用于调整分类器提取特征的数量；卷积核权重，用于调整提取特征的重要性；卷积层数量，用于调整第一输出结果的深度；优化器设置，用于设置分类器的梯度更新的规则和缺点；学习率设置，用于为分类器寻找全局最优解；目标函数设定，用于估计分类器的预测结果与真实结果的差异。

需要说明的是，卷积核数量体现了卷积层提取的特征数量，而权重值决定了上述特征的重要性，其初始化方法同样影响模型性能。另外，卷积层数量决定了特征表示的维度，卷积层越多特征表示越抽象化，卷积层越少特征表示越接近于原始数据，设计合理的卷积层有利于增加抽象化的向量的价值，并且卷积层包括卷积层个数、卷积核个数、权重初始化方法、优化器设置等，对上述参数的不同设定会在一定程度上影响模型的收敛过程。优化器决定了卷积神经网络调整方式，每个设置会有梯度更新规则和缺点，将影响模型收敛情况。学习率用于为分类器寻找全局最优解，学习率决定目标调整速度，学习率高有可能产生高误差，学习率低会影响收敛速度。目标函数(也称为：损失函数)用来估量模型的预测值与真实值的不一致程度，对模型调整方向做合理的约束设定，目标函数越小，预测模型的鲁棒性就越好。

另外，模型训练时使用的批尺寸(Batchsize)大小为100，学习率为 0.001，优化器使用Adam算法(一种改进的随机梯度下降优化算法)，目标函数为真实数据与预测结果的交叉熵，其表达式为：

其中，y为预测模型的输出，a为标签值。

从而，卷积神经网络通过训练过程中随时调整上述各参数大小以达到最优效果。

参考图8详细说明生成预测手牌的整个流程：

将牌局信息的原始数据按照上面所述的方法进行处理，包括：清理原始数据和将原始数据规约化，从而得到适合卷积神经网络要求格式的输入信息。

然后，参考上面所述的方法，利用输入信息构建并训练分类器。例如，如上所述，获取牌局信息；采用模型对样本进行分类处理；计算模型对样本进行分类处理的输出结果与期望结果之间的误差；以及使用RELU激活函数逐层调整模型中的卷积核的连接权重。

之后，利用训练后的分类器，对输入的牌局信息进行分类，并根据需要预测的单牌型手牌在玩家间的数量分布，输出每种数量的代表值，并提取代表值最大的一项所对应的数量分布为该类单牌型在玩家间的预测。以扑克游戏为例，共有13种单牌型，因此建立13个分类器，每个分类器输出一种单牌型在玩家间的数量分布的预测，最后将13个结果叠加在一起就得到了需预测玩家的手牌组合。

根据上述预测手牌的整体流程，选取了10000局牌局，并只输入前五局的牌局信息，针对预测模型对“8”号牌的手牌预测结果进行评估。表6 展示了不同情况下针对单牌型“8”模型预测的正确率，其中“未出现牌的数量”是指除去所有玩家已经打出的“8”号牌，剩余的“8”号牌数量；“出现局数”与“未出现牌的数量”一一对应，“出现局数”用于表示10000局测试局中，“未出现牌的数量”为同一数值的牌局的总数量；“正确率”是指在“出现局数”的范围内，与当前牌局真实结果一致的预测结果占“出现局数”的百分比。比如：当前“8”号牌在前五个回合出现数量为4时，则模型的正确率为51.64％，这表示当前工况下，模型的预测水平较低，预测难度处于高难度水平。

表6针对单牌型“8”模型预测的正确率

此外，图9(a)和(b)分别示出了根据本公开所述的模型训练过程目标函数与正确率、训练损失值的关系图。参考图9(b)所示，模型的损失函数值随试验的进程而逐渐变少，说明模型输出的预测值逐渐接近真实值；同时对比图9(a)可见，随着损失值的减少，相应的模型正确率逐渐提高。

图10是根据本公开实施例所述的模型测试过程正确率变化图。针对测试数据的泛化能力，测试数据并不在训练网络时使用，因此本公开所述的模型对测试数据的预测只能根据卷积神经网络的特征提取，此特征或称作经验值。参考图8所示，随着训练的推进，模型对测试数据的泛化能力逐渐提高，说明模型在牌类游戏的手牌预测领域有比较好的效果。

图11示出了模型对各个牌型预测的正确率。参考图11所示，模型对所有牌型的数量进行预测，获得模型对不同牌型的预测能力分布。不同的牌型对于玩家来说被打出的概率是不一样的，进而所得到的信息量是不同的，对猜牌结果有一定的影响。比如“4”号与“6”号牌通常组合到一个顺子当中，但当这个顺子不成立，它们成为单独的牌时，“4”拥有更高的打出概率，因此模型对于“4”号牌的预测正确率更高一些。

从而，通过对模型预测效果的评估说明了本公开实施例所述的预测手牌的方法对牌类游戏的手牌预测领域能获得较好的预测结果。

根据本实施例的第二个方面，参考图1所示，提供了一种存储介质104。存储介质104包括存储的程序，其中，在所述程序运行时由处理器102执行上面任意一项所述的方法。

根据本实施例的第三个方面，参考图1所示，提供了一种处理器102。处理器102用于运行存储介质104所存储的程序。

根据本实施例的第四个方面，提供了一种牌类游戏的预测手牌的设备 300。参考图12所示，预测手牌的设备300包括：处理器302；以及存储器304，与处理器302连接，用于为处理器302提供处理以下处理步骤的指令：获取牌局信息，其中牌局信息包括当前牌局的预定数量的回合时，作为牌类游戏中的一方玩家能够获知的与手牌相关的信息；以及基于机器学习训练的多个预测模型，根据牌局信息，预测一方玩家之外的其他玩家的手牌，其中多个预测模型分别与各个同一牌型对应，用于分别预测各个同一牌型手牌的分布信息，其中分布信息表示同一牌型的手牌在一方玩家之外的其他玩家中的分布。

可选地，存储器304还提供处理以下处理步骤的指令：获取所述牌类游戏的在线记录文件；剔除所述在线记录文件中计算复杂程度高于预定标准的牌局信息；以及剔除所述在线记录文件中回合数少于预定数量的牌局信息。

可选地，牌局信息包括：牌类游戏中牌的总数量、一方玩家的初始手牌、预定数量的回合内一方玩家之外的其他玩家的手牌总和、预定数量的回合内各方玩家的总出牌以及预定数量的回合内每一回合中各方玩家的出牌。

可选地，存储器304还提供处理以下处理步骤的指令：对牌局信息进行规约化，用于使牌局信息的输入格式符合预测模型的格式要求。

可选地，规约化操作为：将牌局信息划分为多个通道，其中多个通道分别与牌类游戏的各个玩家对应，其中通道的数据为二维数组，并且二维数组的各行数据分别对应于以下信息：牌类游戏中牌的总数量、一方玩家的初始手牌、预定数量的回合内一方玩家之外的其他玩家的手牌总和、预定数量的回合内各方玩家的总出牌以及预定数量的回合内每一回合中通道对应玩家的出牌。

可选地，预测模型为基于卷积神经网络的分类器，用于基于多个通道的数据预测各个同一牌型手牌的分布信息。

可选地，分类器包括：多个卷积层，其中每个卷积层包括多个卷积核，并且卷积核用于对牌局信息进行卷积操作；以及全连接层，用于对经过多个卷积层处理的第一输出结果进行分类操作。

可选地，全连接层包括：第一全连接层、第二全连接层和第三全连接层。

可选地，分类器还包括：多个第一激活函数，并且每个卷积层连接一个第一激活函数，其中第一激活函数用于提升所述每个卷积层的收敛速度；批规范化层，与第二全连接层和第三全连接层连接，所述批规范化层用于对所述第二全连接层输出的第二输出结果进行规范化操作；以及第二激活函数，与第三全连接层连接，第二激活函数用于将第三全连接层输出的第三输出结果进行归一化。

可选地，存储器304还提供处理以下处理步骤的指令：

利用单个预测模型中的所述多个卷积层对牌局信息提取特征，得到所述第一输出结果；

利用第一全连接层、第二全连接层、批规范化层和第三全连接层对第一输出结果进行分类操作，得到第三输出结果；

利用第二激活函数对第三输出结果进行归一化处理，得到第四输出结果，其中第四输出结果为一维向量，并且一维向量的元素表示可能作为同一牌型手牌分布信息的各个候选分布信息的分值；以及

提取第四输出结果中分值最高的元素所对应的候选分布信息作为与同一牌型手牌对应的分布信息。

可选地，存储器304还提供处理以下处理步骤的指令：对分类器进行参数调整，用于调整预测模型的预测结果达到最优效果，其中最优效果为预先设定的分类器的训练终止条件。

可选地，需要调整的分类器参数包括：卷积核数量，用于调整分类器提取特征的数量；卷积核权重，用于调整提取特征的重要性；卷积层数量，用于调整第一输出结果的深度；优化器设置，用于设置分类器的梯度更新的规则和缺点；学习率设置，用于为分类器寻找全局最优解；目标函数设定，用于估计分类器的预测结果与真实结果的差异。

从而，通过本实施例的技术方案，利用多个基于机器学习训练的分类器，通过对规约化后的牌局信息进行分类，达到了预测玩家手牌的目的，从而实现了已知一方玩家的手牌和预定数量回合内各玩家的出牌信息即可预测出其他玩家手牌的技术效果，进而解决了由于牌类游戏的操作空间太大，造成传统搜索算法较难实现对各玩家手牌进行预测的技术问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本公开所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开各个实施例所述的方法。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

在本公开的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM， Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本公开的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本公开原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本公开的保护范围。

Claims

1.一种牌类游戏的预测手牌的方法，其特征在于，包括：

获取牌局信息，其中所述牌局信息包括当前牌局的预定数量的回合时，作为牌类游戏中的一方玩家能够获知的与手牌相关的信息；

以及

基于机器学习训练的多个预测模型，根据所述牌局信息，预测所述一方玩家之外的其他玩家的手牌，其中

所述多个预测模型分别与各个同一牌型对应，用于分别预测各个同一牌型手牌的分布信息，其中所述分布信息表示同一牌型的手牌在所述一方玩家之外的其他玩家中的分布。

2.根据权利要求1所述的方法，其特征在于，获取牌局信息的操作，包括：

获取所述牌类游戏的在线记录文件；以及

从所述在线记录文件中获取符合预定标准的正常牌局信息。

3.根据权利要求2所述的方法，其特征在于，所述牌局信息包括：所述牌类游戏中牌的总数量、所述一方玩家的初始手牌、所述预定数量的回合内所述一方玩家之外的其他玩家的手牌总和、所述预定数量的回合内各方玩家的总出牌以及所述预定数量的回合内每一回合中各方玩家的出牌。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：对所述牌局信息进行规约化，用于使所述牌局信息的输入格式符合所述预测模型的格式要求。

5.根据权利要求4所述的方法，其特征在于，所述规约化的操作包括：

将所述牌局信息划分为多个通道，其中所述多个通道分别与所述牌类游戏的各个玩家对应，其中

所述通道的数据为二维数组，并且所述二维数组的各行数据分别对应于以下信息：

所述牌类游戏中牌的总数量、所述一方玩家的初始手牌、所述预定数量的回合内所述一方玩家之外的其他玩家的手牌总和、所述预定数量的回合内各方玩家的总出牌以及所述预定数量的回合内每一回合中所述通道对应玩家的出牌。

6.根据权利要求5所述的方法，其特征在于，所述预测模型为基于卷积神经网络的分类器，用于基于所述多个通道的数据预测各个同一牌型手牌的分布信息。

7.根据权利要求6所述的方法，其特征在于，所述分类器包括：

多个卷积层，其中每个卷积层包括多个卷积核，并且所述卷积核用于对所述牌局信息进行卷积操作；以及

全连接层，用于对经过所述多个卷积层处理的第一输出结果进行分类操作。

8.根据权利要求7所述的方法，其特征在于，所述全连接层包括第一全连接层、第二全连接层和第三全连接层。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的方法。

10.一种牌类游戏的预测手牌的设备，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理一下处理步骤的指令：

获取牌局信息，其中所述牌局信息包括当前牌局的预定数量的回合时，作为牌类游戏中的一方玩家能够获知的与手牌相关的信息；以及

所述多个预测模型分别与各个同一牌型对应，用于分别预测各个同一牌型手牌的分布信息，其中所述分布信息表示同一牌型手牌在所述一方玩家之外的其他玩家中的分布。