CN107812377A

CN107812377A - 一种用于大菠萝扑克首轮摆法的卷积神经网络结构模型

Info

Publication number: CN107812377A
Application number: CN201711204890.8A
Authority: CN
Inventors: 陈怀臻; 韦佳; 张加佳
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2018-03-20

Abstract

本发明公开了一种用于大菠萝扑克首轮摆法的卷积神经网络结构模型，所述卷积神经网络结构模型由输入层、隐藏层和输出层三部分组成，首先将手牌信息和牌桌信息经过数据预处理后输入卷积神经网络结构模型的输入层，经隐藏层处理后由输出层输出结果，输出结果根据数据预处理的处理规则，反向处理后输出大菠萝扑克首轮5张牌的摆放位置。本卷积神经网络结构模型对59万条训练用例的匹配度达到了98％，对12万条测试用例的匹配度达到了92％，可为研究机器博弈技术的研究者及科研机构提供一条可行的研究方向以及一个具体的成功样本。

Description

一种用于大菠萝扑克首轮摆法的卷积神经网络结构模型

技术领域

本发明涉及人工智能与机器博弈技术领域，具体涉及一种用于大菠萝扑克首轮摆法的卷积神经网络结构模型以及其与大菠萝扑克的连接方法。

背景技术

当AlphaGo与Master在围棋圈大杀四方时，Libratus以绝对优势在“一对一无限注德州扑克”中战胜了人类职业玩家。纵观历史，在完全信息博弈领域里，人工智能已建树颇丰，如国际象棋的“深蓝”，围棋的“AlphaGo”等，但对于非完备信息博弈，人工智能一直处于低谷状态。而Libratus的出现无疑给人工智能界打了一针强心剂，证明AI在非完备信息博弈中还是有机会甚至能超过人类的。非完备信息博弈的应用很多，因为现实世界的情形大多类似于此，包括商业谈判，信息安全等。而对于人工智能界来说，通用人工智能(AGI)是他们一直以来的追求，其不像Libratus或者AlphaGo那样只能专注于扑克或围棋领域，通用人工智能可以解决任意一个问题。想要实现AGI就得让AI学会解决不确定性问题，而这即是非完备信息博弈。

对于目前非完备信息博弈方面的研究，国内外以德州扑克为主要热点，并不断在此领域得到突破，而作为德州扑克的一个分支——大菠萝扑克，其目前的受众范围颇广，国内外玩家很多，但关于该领域的研究少之甚少，故本次发明将重点放于此，旨在探索深度学习对于该领域是否具有可行性，而卷积神经网络实验的结果则证明深度网络确实能解决大菠萝扑克的博弈问题。

发明内容

本发明的目的是针对现有技术的不足，以及目前深度学习的研究现状和大菠萝扑克的打牌特点，提供了一种用于大菠萝扑克首轮摆法的卷积神经网络结构模型，针对性地构造一种输入结构和一种输出结构来连接卷积神经网络与扑克，以实现搭建网络学习扑克策略的目的。可为研究机器博弈技术的研究者及科研机构提供一条可行的研究方向以及一个具体的成功样本。

本发明的目的可以通过如下技术方案实现：

一种用于大菠萝扑克首轮摆法的卷积神经网络结构模型，所述卷积神经网络结构模型由输入层、隐藏层和输出层三部分组成，首先将手牌信息和牌桌信息经过数据预处理后输入卷积神经网络结构模型的输入层，经隐藏层处理后由输出层输出结果，输出结果根据数据预处理的处理规则，反向处理后输出大菠萝扑克首轮5张牌的摆放位置。

进一步地，所述数据预处理的具体过程为：将摆放好的大菠萝扑克的摆牌位置用数字代替，头道设为2，中道设为1，尾道设为0，将摆牌位置以数字表示出来后用三进制进行编码，如果5张牌都摆在尾道，则输出为00000，对应三进制编码0，即位置编码值最小的摆法，同样，其位置编码值最大的摆法为22211，对应三进制编码238，但由于大菠萝扑克的摆牌位置总共有232种摆法，使用三进制编码的最大值为238，因此需要将三进制编码中不会出现的7种摆法排除后并将后位前移，例如有个摆法的三进制编码值为81，其经过处理后变成80；所述不会出现的7种摆法为：22202、对应三进制编码236；22122、对应三进制编码233；22022、对应三进制编码224；21222、对应三进制编码215；20222、对应三进制编码188；12222、对应三进制编码161；02222、对应三进制编码80；最终生成范围为0-231的232种摆法。

进一步地，所述输入层为7个17×17的0-1矩阵，第1个矩阵存储第一张手牌的信息，第2个矩阵存储第二张手牌的信息，第3个矩阵存储第三张手牌的信息，第4个矩阵存储第四张手牌的信息，第5个矩阵存储第五张手牌的信息，第6个矩阵存储第一张手牌至第五张手牌全部信息的总和，第7个矩阵存储牌桌上敌人已亮牌的信息。

进一步地，所述隐藏层的具体结构从左至右依次为：第一层卷积层，卷积核大小为3×3，卷积核个数为32个，步数为1，激励函数为ReLU函数；第二层卷积层，卷积核大小为3×3，卷积核个数为32个，步数为1，激励函数为ReLU函数；第三层最大池化层，池化范围为2×2，即对第二层卷积层中对应的2×2范围内的4个值取最大值进入本层，步数为2；第四层卷积层，卷积核大小为3×3，卷积核个数为64个，步数为1，激励函数为ReLU函数；第五层卷积层，卷积核大小为3×3，卷积核个数为64个，步数为1，激励函数为ReLU函数；第六层最大池化层，池化范围为2×2，即对第五层卷积层中对应的2×2范围内的4个值取最大值进入本层，步数为2；第七层dropout层，拥有1024个节点，丢弃概率为50％，激励函数为ReLU函数；所述卷积层的卷积公式如下：

其中，表示第a层中(i,j)点的值，表示第a-1层中(i,j)点的值，w_l,m表示卷积核上的第(l,m)点的参数，b表示卷积核的偏置，f表示激励函数，其为ReLU函数，公式如下：

f(x)＝max(0,x)。

进一步地，所述输出层有232个节点，一一对应大菠萝扑克首轮5张牌的232种不同摆法，其激励函数为softmax函数，函数表示如下：

其中，C表示输出层的节点总数，在本卷积神经网络结构模型中为232，y_p表示第p个节点的输出值，x_p表示第p个节点的输入值。

本发明与现有技术相比，具有如下优点和有益效果：

本发明的用于大菠萝扑克首轮摆法的卷积神经网络结构模型，针对性地构造了一种输入结构和一种输出结构来连接卷积神经网络与扑克，以实现搭建网络学习扑克策略的目的，针对大菠萝扑克博弈的研究不仅弥补了该领域研究上的空白，而且给非完备信息博弈领域带来新的元素，为机器博弈领域提供了新的研究对象。

附图说明

图1为本发明实施例中用于大菠萝扑克首轮摆法的卷积神经网络模型的结构图。

图2为本发明实施例的卷积神经网络结构模型的训练数据格式示例图。

图3为本发明实施例中大菠萝扑克首轮5张牌的最小数值表示摆法。

图4为本发明实施例中大菠萝扑克首轮5张牌的最大数值表示摆法。

图5为本发明实施例数据预处理中将三进制编码中不会出现的7种摆法排除后并将后位前移的编码函数示意图。

图6为本发明实施例中方块2的原始表示示意图。

图7为本发明实施例中方块2的实际表示示意图。

图8为本发明实施例中将输出层的输出结果数据进行反向处理的解码函数示意图。

图9为本发明实施例卷积神经网络结构模型训练过程的训练集和验证集准确度上升曲线及损失函数loss值下降曲线图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

本实施例的应用对象为大菠萝扑克，该游戏为一种摆牌类游戏，总共有52张牌(除去大小王)，总共五轮发牌，首轮每位玩家各发五张牌，从庄家的下位开始逐一亮牌，亮牌后其摆牌位置不能修改。本实施例只针对首轮五张牌的情况，其余四轮目前皆采用蒙特卡洛树搜索算法，这里不再赘述。

针对大菠萝扑克的首轮摆法，本实施例提供了一种用于大菠萝扑克首轮摆法的卷积神经网络结构模型，所述卷积神经网络结构模型的结构图如图1所示，由输入层、隐藏层和输出层三部分组成，首先将手牌信息和牌桌信息经过数据预处理后输入卷积神经网络结构模型的输入层，经隐藏层处理后由输出层输出结果，输出结果根据数据预处理的处理规则，反向处理后输出大菠萝扑克首轮5张牌的摆放位置。

所述卷积神经网络结构模型的训练数据格式如图2所示，前52个数字代表着牌局信息，最后一个数字代表着摆法的编码结果，对于前52个数字，1代表着玩家手牌，0代表着未知牌，-1代表着对手已知牌。其中，所述数据预处理的具体过程为：将摆放好的大菠萝扑克的摆牌位置用数字代替，头道设为2，中道设为1，尾道设为0，将摆牌位置以数字表示出来后用三进制进行编码，如图3所示，如果5张牌都摆在尾道，则输出为00000，对应三进制编码0，即位置编码值最小的摆法，同样，其位置编码值最大的摆法为22211，对应三进制编码238，如图4所示，但由于大菠萝扑克的摆牌位置总共有232种摆法，使用三进制编码的最大值为238，因此需要将三进制编码中不会出现的7种摆法排除后并将后位前移，编码函数如图5所示，例如有个摆法的三进制编码值为81，其经过处理后变成80；所述不会出现的7种摆法为：22202、对应三进制编码236；22122、对应三进制编码233；22022、对应三进制编码224；21222、对应三进制编码215；20222、对应三进制编码188；12222、对应三进制编码161；02222、对应三进制编码80；最终生成范围为0-231的232种摆法。

首先，本实施例定义了5个4×13的矩阵分别存放5张手牌的信息，存放规则为已知牌的位置置1其余牌的位置置0，使用该原始表示方法的方块2如图6所示，而后为了便于后面的卷积池化作用以及根据实际情况分析将4×13矩阵扩充成17×17的大小，使用该表示方法的方块2如图7所示，其次，为了进一步加固5张手牌之间的联系，故增设了一个17×17矩阵，用于存放第一张手牌至第五张手牌全部信息的总和，最后，由于对手已经亮牌的信息对自己的选择有很大影响，所以又增设了一个17×17的矩阵专门存储对手已亮牌信息，其表示方式与之前的矩阵一样。

最终，所述输入层为7个17×17的0-1矩阵，第1个矩阵存储第一张手牌的信息，只有一个1；第2个矩阵存储第二张手牌的信息，只有一个1；第3个矩阵存储第三张手牌的信息，只有一个1；第4个矩阵存储第四张手牌的信息，只有一个1；第5个矩阵存储第五张手牌的信息，只有一个1；第6个矩阵存储第一张手牌至第五张手牌全部信息的总和，有五个1；第7个矩阵存储牌桌上敌人已亮牌的信息，1的个数可能为0、5、10。

所述隐藏层的具体结构按图1标号所示从左至右依次为：

①第一层卷积层，卷积核大小为3×3，卷积核个数为32个，步数为1，激励函数为ReLU函数；

②第二层卷积层，卷积核大小为3×3，卷积核个数为32个，步数为1，激励函数为ReLU函数；

③第三层最大池化层，池化范围为2×2，即对第二层卷积层中对应的2×2范围内的4个值取最大值进入本层，步数为2；

④第四层卷积层，卷积核大小为3×3，卷积核个数为64个，步数为1，激励函数为ReLU函数；

⑤第五层卷积层，卷积核大小为3×3，卷积核个数为64个，步数为1，激励函数为ReLU函数；

⑥第六层最大池化层，池化范围为2×2，即对第五层卷积层中对应的2×2范围内的4个值取最大值进入本层，步数为2；

⑦全连接层，激励函数为ReLU函数；

⑧全连接层，激励函数为softmax函数；

⑨第七层dropout层，拥有1024个节点，丢弃概率为50％，激励函数为ReLU函数；

其中所述卷积层的卷积公式如下：

f(x)＝max(0,x)。

卷积神经网络结构模型定好之后，对于卷积参数初始化均服从均值为0，标准方差为0.1的正态分布，同时还去除了大于2倍标准方差之外的随机数据。而对于偏置值皆初始化为0.1。另外，该卷积神经网络结构模型的学习率统一为0.0001。

对于输出层输出的结果，其范围为0-231，为之前数据预处理后的结果，所以想要得到摆法输出就得反向处理该数据，反向处理数据的解码函数如图8所示，将输出结果进行处理得到范围为0-238的数据，再进行三进制解码以得到输出摆法。比如输出层输出结果为80，先进行处理变成81，再进行三进制解码成10000，而后将5张牌按一定顺序从小到大排好序，首张牌置于中道，后4张牌置于尾道，这即是最后的输出摆法。

在本实施例中总共使用了72万条数据，其中训练样本为60万条数据(并从中抽取了10000条数据作为验证集)，测试样本为12万条数据。而本实施例在训练样本中的准确度达到98％(除去10000条数据作为验证集不参与训练)，在测试样本中则达到了92％。如图9为该实验过程中卷积神经网络结构模型训练过程的训练集和验证集准确度上升曲线及损失函数loss值下降曲线图，其中为了统一坐标轴y轴区间，loss值做了除4的处理，x轴的epoch则代表着将60万条数据(不包括10000条验证集数据)全部训练一次，如果为10次epoch，则代表将60万条数据全部训练了10轮。

另外，本实施例中存在很多可以改动的地方，下面列举一些常见的改动形式：

1)在输入层与输出层的结构保持不变的情况下，更改卷积层的卷积核大小，比如从原来的3×3变成2×2；

2)在输入层与输出层的结构保持不变的情况下，改变卷积层层数，比如从原来的4层变成6层；

3)在输入层与输出层的结构保持不变的情况下，改变池化层的层数，比如从原来的2层变到1层；

4)在输入层与输出层的结构保持不变的情况下，更改池化层的位置，比如从原来的置于两层卷积层后方改成置于四层卷积层后方；

5)在模型结构保持不变的情况下，更改卷积层的激励函数，比如从原来的ReLU函数改成tanh函数；

6)在模型结构保持不变的情况下，更改学习率，比如从原来的0.0001改成0.001。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种用于大菠萝扑克首轮摆法的卷积神经网络结构模型，其特征在于：所述卷积神经网络结构模型由输入层、隐藏层和输出层三部分组成，首先将手牌信息和牌桌信息经过数据预处理后输入卷积神经网络结构模型的输入层，经隐藏层处理后由输出层输出结果，输出结果根据数据预处理的处理规则，反向处理后输出大菠萝扑克首轮5张牌的摆放位置。

2.根据权利要求1所述的一种用于大菠萝扑克首轮摆法的卷积神经网络结构模型，其特征在于，所述数据预处理的具体过程为：将摆放好的大菠萝扑克的摆牌位置用数字代替，头道设为2，中道设为1，尾道设为0，将摆牌位置以数字表示出来后用三进制进行编码，并将三进制编码中不会出现的7种摆法排除后并将后位前移，所述不会出现的7种摆法为：22202、对应三进制编码236；22122、对应三进制编码233；22022、对应三进制编码224；21222、对应三进制编码215；20222、对应三进制编码188；12222、对应三进制编码161；02222、对应三进制编码80；最终生成范围为0-231的232种摆法。

3.根据权利要求1所述的一种用于大菠萝扑克首轮摆法的卷积神经网络结构模型，其特征在于：所述输入层为7个17×17的0-1矩阵，第1个矩阵存储第一张手牌的信息，第2个矩阵存储第二张手牌的信息，第3个矩阵存储第三张手牌的信息，第4个矩阵存储第四张手牌的信息，第5个矩阵存储第五张手牌的信息，第6个矩阵存储第一张手牌至第五张手牌全部信息的总和，第7个矩阵存储牌桌上敌人已亮牌的信息。

4.根据权利要求1所述的一种用于大菠萝扑克首轮摆法的卷积神经网络结构模型，其特征在于，所述隐藏层的具体结构从左至右依次为：第一层卷积层，卷积核大小为3×3，卷积核个数为32个，步数为1，激励函数为ReLU函数；第二层卷积层，卷积核大小为3×3，卷积核个数为32个，步数为1，激励函数为ReLU函数；第三层最大池化层，池化范围为2×2，即对第二层卷积层中对应的2×2范围内的4个值取最大值进入本层，步数为2；第四层卷积层，卷积核大小为3×3，卷积核个数为64个，步数为1，激励函数为ReLU函数；第五层卷积层，卷积核大小为3×3，卷积核个数为64个，步数为1，激励函数为ReLU函数；第六层最大池化层，池化范围为2×2，即对第五层卷积层中对应的2×2范围内的4个值取最大值进入本层，步数为2；第七层dropout层，拥有1024个节点，丢弃概率为50％，激励函数为ReLU函数；所述卷积层的卷积公式如下：

<mrow> <msubsup> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mi>a</mi> </msubsup> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>2</mn> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>2</mn> </munderover> <msub> <mi>w</mi> <mrow> <mi>l</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <msubsup> <mi>x</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>l</mi> <mo>,</mo> <mi>j</mi> <mo>+</mo> <mi>m</mi> </mrow> <mrow> <mi>a</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> </mrow>

其中，表示第a层中(i,j)点的值，表示第a-1层中(i,j)点的值，w_l，m表示卷积核上的第(l,m)点的参数，b表示卷积核的偏置，f表示激励函数，其为ReLU函数，公式如下：

f(x)＝max(0,x)。

5.根据权利要求1所述的一种用于大菠萝扑克首轮摆法的卷积神经网络结构模型，其特征在于：所述输出层有232个节点，一一对应大菠萝扑克首轮5张牌的232种不同摆法，其激励函数为softmax函数，函数表示如下：

<mrow> <msub> <mi>y</mi> <mi>p</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>q</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>C</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>q</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>