CN115115995A

CN115115995A - 一种基于自学习模型的麻将博弈决策方法

Info

Publication number: CN115115995A
Application number: CN202211036626.9A
Authority: CN
Inventors: 苟先太; 魏峰; 顾凡; 苟瀚文; 程丽红; 曾开心; 蒋晓凤
Original assignee: Sichuan Tianqi Intelligent Technology Co ltd; Southwest Jiaotong University
Current assignee: Sichuan Tianqi Intelligent Technology Co ltd; Southwest Jiaotong University
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2022-09-27

Abstract

本发明公开了一种基于自学习模型的麻将博弈决策方法，包括以下步骤：S1、采集麻将视频数据，并对其进行预处理获得编码矩阵；S2、根据编码矩阵生成多维矩阵，构建自学习模型；S3、基于自学习模型与神经网络，构建初始博弈树；S4、基于设置目标函数和奖赏函数对初始博弈树的输出结果进行评价，得到最终的博弈决策分析结果。本发明利用深度学习在图像等特征上面强大的特征抽象能力和强化学习基于目标函数和奖赏函数做决策的能力，对于现实情景中非常复杂的博弈问题也能通过近似求解的方式来进行解决。

Description

一种基于自学习模型的麻将博弈决策方法

技术领域

本发明属于人工智能领域，具体涉及一种基于自学习模型的麻将博弈决策方法。

背景技术

麻将博弈作为非完美信息博弈的代表之一，已经有许多技术方案来设计AI模拟人类在博弈中做出决策。目前，先有的技术主要有两大类。

（1）第一类基于博弈树搜索与知识推理。麻将经过相应的抽象之后，展开成一颗博弈树来表示，博弈树包含了所有参与者在博弈过程中遇到的博弈状态以及相应的决策动作，从根节点开始，经过不同参与者做出决策动作以及状态发生转移后，博弈树就会产生新的分支，而叶子节点就代表最终的结果。

（2）第二类基于深度强化学习的博弈方法。利用深度学习在图像等特征上面强大的特征抽象能力和强化学习基于状态和回报做决策的能力，对于现实情景中非常复杂的博弈问题也能通过近似求解的方式来进行解决。

方法（1）中，如果在决策中，考虑所有四个玩家的动作，整个游戏树将变得非常大。另外，随着游戏树搜索层数的加深，算法要考虑的状态节点也在不断地增加，导致，搜索算法的计算时间就会呈指数级增长，从而无法在有限的时间内给出决策动作。

方法（2）中，目前，在麻将中，运用此技术较好的是微软的“Suphx”系统，在模型的训练学习阶段，将一些本来对玩家隐藏的信息暴露出来，从而使得训练朝着更加接近实际最优的方向优化。但是，该系统也有不足的地方。一方面，“Suphx”在强化学习中，所用到的策略梯度算法，对步长十分敏感，但是又难以选择合适的步长，在训练过程中新旧策略的变化差异过大则不利于学习；另一方面，在回报函数的设计上，并不能针对“血战麻将”这一麻将博弈进行适配和优化。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于自学习模型的麻将博弈决策方法解决了现实情景的麻将博弈过程中智能AI筛选出最优策略比较困难且过程复杂的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于自学习模型的麻将博弈决策方法，包括以下步骤：

S1、采集麻将视频数据，并对其进行预处理获得编码矩阵；

S2、根据编码矩阵生成多维矩阵，构建自学习模型；

S3、基于自学习模型与神经网络，构建初始博弈树；

S4、基于设置目标函数和奖赏函数对初始博弈树的输出结果进行评价，得到最终的博弈决策分析结果。

进一步地：所述S1包括以下分步骤：

S11、通过摄像头采集麻将视频数据，并用帧过滤方法提取麻将视频数据中每一帧图像，并对每一帧图像进行预处理；

S12、基于预处理后的每一帧图像中麻将的张数以及牌型，通过one-hot的编码方式生成编码矩阵。

进一步地：所述S11中，预处理的方法具体为：

对每一帧图像依次进行灰度化、几何变化和图像增强处理；

所述S12中，生成编码矩阵的方法具体为：

构建4*27的矩阵，其中矩阵的行表示每种麻将牌的数量，矩阵的列表示每种麻将牌的类型，根据预处理后的每一帧图像中麻将的张数以及牌型将矩阵中的对应位置记录为1，其余位置设置为0，得到编码矩阵。

上述进一步方案的有益效果为：编码矩阵可以反映当前对局的信息，便于后续的神经网络分析出决策结果。

进一步地：所述S2具体为：

根据编码矩阵获取对局中麻将的所有信息，包括玩家的手牌信息、其他玩家的出牌信息以及场面上已经打出的牌的信息，得到多维矩阵，进而根据多维矩阵构建自学习模型；

其中，所述多维矩阵包括自身的手牌特征、上家的弃牌特征、下家的弃牌特征、对家的弃牌特征、出牌顺序特征、对局中碰牌特征、对局中杠牌特征、胡牌顺序特征、其他玩家胡牌信息特征、其他玩家的胡牌分数特征和总的弃牌信息特征。

进一步地：所述S2中，自学习模型包括选牌子模型、碰牌子模型、杠牌子模型和胡牌子模型；

其中，所述选牌子模型包括麻将特殊规则特征、玩家自身的手牌特征、上家的弃牌特征、下家的弃牌特征、对家的弃牌特征和总的弃牌信息特征；

所述碰牌子模型和杠牌子模型均包括玩家自身的手牌特征、总的弃牌信息特征、出牌顺序特征和其他玩家胡牌信息特征；

所述胡牌子模型包括玩家自身的手牌特征、总的弃牌信息特征、对局中碰牌特征、对局中杠牌特征、其他玩家的胡牌分数特征和胡牌顺序特征。

进一步地：所述S3中，初始博弈树的决策方法包括玩家摸牌决策方法和其他玩家出牌决策方法；

所述玩家摸牌决策方法包括以下步骤：

SA1、通过玩家摸牌判断是否能自摸；

若是，则将胡牌子模型输入神经网络，判断是否决定胡牌，若是，则对局结束；若否，则进入SA2；

若否，则进入SA2；

SA2、根据玩家当前的牌判断是否能自杠；

若是，则将杠牌子模型输入神经网络，判断是否选择杠牌，若是，则判断杠牌是否点炮，若点炮，则对局结束；若否，则进入SA3；

若否，则进入SA3；

SA3、将选牌子模型输入神经网络选择一张手牌打出，判断打出的牌是否点炮；若是，则对局结束；若否，则轮到其他玩家出牌或者流局；

所述其他玩家出牌决策方法包括以下步骤：

SB1、根据其他玩家打了一张牌，判断能否胡牌；

若是，则将胡牌子模型输入神经网络，判断是否选择胡牌，若是，则对局结束，若否，则进入SB2；

若否，则进入SB2；

SB2、根据玩家当前的牌判断是否能自杠；

若是，则将杠牌子模型输入神经网络，判断是否杠牌，若是，则进入杠牌动作，若否，则进入SB3；

若否，则进入SB3；

SB3、根据玩家当前的牌判断是否能碰；

若是，则将碰牌子模型输入神经网络，判断是否选择碰牌，若是，则进入碰牌动作；若否，则进入过牌动作；

若否，则进入过牌动作。

进一步地：所述步骤S4具体为：根据初始博弈树的决策结果，通过目标函数和奖赏函数分别计算所述决策结果的目标函数值和奖赏函数值，根据目标函数值和奖赏函数值进行决策结果评价，当目标函数值和奖赏函数值均达到设定的阈值时，则将初始博弈树的决策结果作为最终的博弈决策分析结果。

进一步地：所述S4中，所述目标函数

的表达式具体为：

式中，

为状态S _t下采取动作a _t的回报，

为更新前后的概率密度比，

为状态S _t下采取动作a _t的期望值，

为与环境做互动更新的参数。

进一步地：所述S4中，所述奖赏函数的表达式具体为：

式中，

、

和

均为的加权系数，I _shoot为在一局中的点炮参数，当I _shoot=1时，代表已点炮，当I _shoot=0时代表未点炮；I _drew为在一局中的被自摸参数，当I _drew=1时，代表已被自摸，当I _drew=0时代表未被自摸；I _unready为在一局中的听牌参数，当I _unready=1时，代表未听牌，当I _unready=0时代表已听牌；R为奖励值，

为自身胡牌与另外两家之中最大胡牌的相对分数，

为自身胡牌的分数，

和

分别为另外两家的胡牌分数。

本发明的有益效果为：

（1）本发明利用深度学习在图像等特征上面强大的特征抽象能力和强化学习基于目标函数和奖赏函数做决策的能力，对于现实情景中非常复杂的博弈问题也能通过近似求解的方式来进行解决，大大降低了解决过程的复杂性。

（2）本发明基于神经网络的结果预测和目标分类技术准确获得经独热编码处理后的编码信息的分类结果，解决了新旧策略的变化差异过大和智能AI筛选出最优策略比较困难问题。

（3）本发明在目标函数和奖赏函数的设计上，针对性更强，针对“血战麻将”这一麻将博弈进行适配和优化。

附图说明

图1为本发明的流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1：

如图1所示，在本发明的一个实施例中，一种基于自学习模型的麻将博弈决策方法，包括以下步骤：

S1、采集麻将视频数据，并对其进行预处理获得编码矩阵；

S2、根据编码矩阵生成多维矩阵，构建自学习模型；

S3、基于自学习模型与神经网络，构建初始博弈树；

所述S1包括以下分步骤：

利用单目RGB摄像头采集手牌中的麻将视频数据，并用帧过滤方法提取视频中的每一帧的手牌麻将图片，对获取的手牌麻将信息进行预处理，通过灰度化、几何变化和图像增强三个步骤消除图像中与麻将信息无关的信息，增强手牌麻将信息的可检测性和最大限度地简化数据，便于精准识别到每一张麻将的具体信息（如：花色、张数）。

所述S11中，预处理的方法具体为：

对每一帧图像依次进行灰度化、几何变化和图像增强处理；

所述S12中，生成编码矩阵的方法具体为：

在本实施例中，对麻将的图像信息做一个编码处理，将其转化成计算机可以更好识别的编码矩阵，便于后续的模型搭建与训练，基于四川麻将的特点，一共108张牌，分别为筒条万三色牌，编号分别为1-9，除了常见的麻将规则，在四川麻将中，还有一些特殊规则：定缺和换三张。定缺，是指每个玩家在开局的时候必须选择三色牌之一的牌是无效牌，不能用作胡组合的麻将类型；换三张，是指每位玩家获得初始手牌后，需要拿出三张牌与一名玩家交换，交换方式可以是顺时针交换、逆时针交换和相对交换。

所述S2具体为：

所述S2中，自学习模型包括选牌子模型、碰牌子模型、杠牌子模型和胡牌子模型；

在本实施例中，通过4*27的编码矩阵反映麻将信息，矩阵的行代表对应牌的张数，矩阵的列代表不同种类的牌，矩阵的值只有0、1两种状态码，其中1代表识别到其具体麻将牌，0则相反。初始的矩阵状态值全置为0，当识别到某一具体的麻将牌时，将其对应的位置状态置为1，如果某一具体的麻将牌被识别到的次数为两次及以上，则将同一列、下一行的状态置为1，每个玩家的手牌（算上摸得一张牌）有14张，则有14次状态码得变化。通过这种方式，我们就将麻将的图像信息转化成了可以便于电脑分析的数字信息。

所述S3中，初始博弈树的决策方法包括玩家摸牌决策方法和其他玩家出牌决策方法；

所述玩家摸牌决策方法包括以下步骤：

SA1、通过玩家摸牌判断是否能自摸；

若否，则进入SA2；

SA2、根据玩家当前的牌判断是否能自杠；

若否，则进入SA3；

所述其他玩家出牌决策方法包括以下步骤：

SB1、根据其他玩家打了一张牌，判断能否胡牌；

若否，则进入SB2；

SB2、根据玩家当前的牌判断是否能自杠；

若否，则进入SB3；

SB3、根据玩家当前的牌判断是否能碰；

若否，则进入过牌动作。

胡、碰、杠以及胡牌动作是需要AI自主根据当前情况和环境做决策的地方。实际上，麻将的动作可视为一个多分类过程，根据每种分类的概率来判断出当前环境的最优决策。

所述步骤S4具体为：根据初始博弈树的决策结果，通过目标函数和奖赏函数分别计算所述决策结果的目标函数值和奖赏函数值，根据目标函数值和奖赏函数值进行决策结果评价，当目标函数值和奖赏函数值均达到设定的阈值时，则将初始博弈树的决策结果作为最终的博弈决策分析结果。

所述S4中，所述目标函数

的表达式具体为：

式中，

为状态S _t下采取动作a _t的回报，

为更新前后的概率密度比，

为状态S _t下采取动作a _t的期望值，

为与环境做互动更新的参数。

在本实施例中，还可以在目标函数

中减去约束值

得到带正则化项的目标函数

；

通过约束值衡量更新后参数

和更前参数

的差距，这里的差距指的是actor行为上的差距而不是参数上的差距，

为设置的学习率，设定两个阈值

和

。经过一次参数更新后，查看KL的值，当

大于

时，则说明新后参数

和更前参数

的差距相差太大，需要加大

，加大惩罚力度。当

小于

时，则减小

，减小惩罚。

所述S4中，所述奖赏函数的表达式具体为：

式中，

、

和

为自身胡牌与另外两家之中最大胡牌的相对分数，

为自身胡牌的分数，

和

分别为另外两家的胡牌分数。

在本实施例中，为了给强化学习训练提供有效的信号，需要把最终的胜利归因于每一局自己获得的分数和其他玩家获得的分数。为此，通过引入了一个针对四川血战麻将的奖赏函数，在一局麻将中，以自身胡牌的相对分数作为正奖赏，即鼓励胡牌的行为，以点炮、被自摸、未听牌等负面事件为负奖赏，整个过程可以理解为在每个时刻与环境交互得到一个高维度的观察，并利用深度学习方法来感知观察，以得到具体的状态特征表示；基于设计的目标函数评判动作价值，并通过改进的策略将当前状态映射为相应的动作，环境对此动作做出反应，并得到下一个观察，通过不断循环以上过程，最终实现目标的最优策略。

本发明的有益效果为：本发明利用深度学习在图像等特征上面强大的特征抽象能力和强化学习基于目标函数和奖赏函数做决策的能力，对于现实情景中非常复杂的博弈问题也能通过近似求解的方式来进行解决，大大降低了解决过程的复杂性。

本发明基于神经网络的结果预测和目标分类技术准确获得经独热编码处理后的编码信息的分类结果，解决了新旧策略的变化差异过大和智能AI筛选出最优策略比较困难问题。

本发明在目标函数和奖赏函数的设计上，针对性更强，针对“血战麻将”这一麻将博弈进行适配和优化。

在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims

1.一种基于自学习模型的麻将博弈决策方法，其特征在于，包括以下步骤：

S1、采集麻将视频数据，并对其进行预处理获得编码矩阵；

S2、根据编码矩阵生成多维矩阵，构建自学习模型；

S3、基于自学习模型与神经网络，构建初始博弈树；

2.根据权利要求1所述的基于自学习模型的麻将博弈决策方法，其特征在于，所述S1包括以下分步骤：

3.根据权利要求2所述的基于自学习模型的麻将博弈决策方法，其特征在于，所述S11中，预处理的方法具体为：

对每一帧图像依次进行灰度化、几何变化和图像增强处理；

所述S12中，生成编码矩阵的方法具体为：

4.根据权利要求2所述的基于自学习模型的麻将博弈决策方法，其特征在于，所述S2具体为：

5.根据权利要求4所述的基于自学习模型的麻将博弈决策方法，其特征在于，所述S2中，自学习模型包括选牌子模型、碰牌子模型、杠牌子模型和胡牌子模型；

6.根据权利要求5所述的基于自学习模型的麻将博弈决策方法，其特征在于，所述S3中，初始博弈树的决策方法包括玩家摸牌决策方法和其他玩家出牌决策方法；

所述玩家摸牌决策方法包括以下步骤：

SA1、通过玩家摸牌判断是否能自摸；

若否，则进入SA2；

SA2、根据玩家当前的牌判断是否能自杠；

若否，则进入SA3；

所述其他玩家出牌决策方法包括以下步骤：

SB1、根据其他玩家打了一张牌，判断能否胡牌；

若否，则进入SB2；

SB2、根据玩家当前的牌判断是否能自杠；

若否，则进入SB3；

SB3、根据玩家当前的牌判断是否能碰；

若否，则进入过牌动作。

7.根据权利要求6所述的基于自学习模型的麻将博弈决策方法，其特征在于，所述步骤S4具体为：根据初始博弈树的决策结果，通过目标函数和奖赏函数分别计算所述决策结果的目标函数值和奖赏函数值，根据目标函数值和奖赏函数值进行决策结果评价，当目标函数值和奖赏函数值均达到设定的阈值时，则将初始博弈树的决策结果作为最终的博弈决策分析结果。

8.根据权利要求7所述的基于自学习模型的麻将博弈决策方法，其特征在于，所述S4中，所述目标函数