CN115115995A - 一种基于自学习模型的麻将博弈决策方法 - Google Patents

一种基于自学习模型的麻将博弈决策方法 Download PDF

Info

Publication number
CN115115995A
CN115115995A CN202211036626.9A CN202211036626A CN115115995A CN 115115995 A CN115115995 A CN 115115995A CN 202211036626 A CN202211036626 A CN 202211036626A CN 115115995 A CN115115995 A CN 115115995A
Authority
CN
China
Prior art keywords
card
mahjong
game
self
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211036626.9A
Other languages
English (en)
Inventor
苟先太
魏峰
顾凡
苟瀚文
程丽红
曾开心
蒋晓凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Tianqi Intelligent Technology Co ltd
Southwest Jiaotong University
Original Assignee
Sichuan Tianqi Intelligent Technology Co ltd
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Tianqi Intelligent Technology Co ltd, Southwest Jiaotong University filed Critical Sichuan Tianqi Intelligent Technology Co ltd
Priority to CN202211036626.9A priority Critical patent/CN115115995A/zh
Publication of CN115115995A publication Critical patent/CN115115995A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F9/00Games not otherwise provided for
    • A63F9/20Dominoes or like games; Mah-Jongg games
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F9/00Games not otherwise provided for
    • A63F9/20Dominoes or like games; Mah-Jongg games
    • A63F2009/205Mah-jongg games

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Robotics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自学习模型的麻将博弈决策方法,包括以下步骤:S1、采集麻将视频数据,并对其进行预处理获得编码矩阵;S2、根据编码矩阵生成多维矩阵,构建自学习模型;S3、基于自学习模型与神经网络,构建初始博弈树;S4、基于设置目标函数和奖赏函数对初始博弈树的输出结果进行评价,得到最终的博弈决策分析结果。本发明利用深度学习在图像等特征上面强大的特征抽象能力和强化学习基于目标函数和奖赏函数做决策的能力,对于现实情景中非常复杂的博弈问题也能通过近似求解的方式来进行解决。

Description

一种基于自学习模型的麻将博弈决策方法
技术领域
本发明属于人工智能领域,具体涉及一种基于自学习模型的麻将博弈决策方法。
背景技术
麻将博弈作为非完美信息博弈的代表之一,已经有许多技术方案来设计AI模拟人类在博弈中做出决策。目前,先有的技术主要有两大类。
(1)第一类基于博弈树搜索与知识推理。麻将经过相应的抽象之后,展开成一颗博弈树来表示,博弈树包含了所有参与者在博弈过程中遇到的博弈状态以及相应的决策动作,从根节点开始,经过不同参与者做出决策动作以及状态发生转移后,博弈树就会产生新的分支,而叶子节点就代表最终的结果。
(2)第二类基于深度强化学习的博弈方法。利用深度学习在图像等特征上面强大的特征抽象能力和强化学习基于状态和回报做决策的能力,对于现实情景中非常复杂的博弈问题也能通过近似求解的方式来进行解决。
方法(1)中,如果在决策中,考虑所有四个玩家的动作,整个游戏树将变得非常大。另外,随着游戏树搜索层数的加深,算法要考虑的状态节点也在不断地增加,导致,搜索算法的计算时间就会呈指数级增长,从而无法在有限的时间内给出决策动作。
方法(2)中,目前,在麻将中,运用此技术较好的是微软的“Suphx”系统,在模型的训练学习阶段,将一些本来对玩家隐藏的信息暴露出来,从而使得训练朝着更加接近实际最优的方向优化。但是,该系统也有不足的地方。一方面,“Suphx”在强化学习中,所用到的策略梯度算法,对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的变化差异过大则不利于学习;另一方面,在回报函数的设计上,并不能针对“血战麻将”这一麻将博弈进行适配和优化。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于自学习模型的麻将博弈决策方法解决了现实情景的麻将博弈过程中智能AI筛选出最优策略比较困难且过程复杂的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于自学习模型的麻将博弈决策方法,包括以下步骤:
S1、采集麻将视频数据,并对其进行预处理获得编码矩阵;
S2、根据编码矩阵生成多维矩阵,构建自学习模型;
S3、基于自学习模型与神经网络,构建初始博弈树;
S4、基于设置目标函数和奖赏函数对初始博弈树的输出结果进行评价,得到最终的博弈决策分析结果。
进一步地:所述S1包括以下分步骤:
S11、通过摄像头采集麻将视频数据,并用帧过滤方法提取麻将视频数据中每一帧图像,并对每一帧图像进行预处理;
S12、基于预处理后的每一帧图像中麻将的张数以及牌型,通过one-hot的编码方式生成编码矩阵。
进一步地:所述S11中,预处理的方法具体为:
对每一帧图像依次进行灰度化、几何变化和图像增强处理;
所述S12中,生成编码矩阵的方法具体为:
构建4*27的矩阵,其中矩阵的行表示每种麻将牌的数量,矩阵的列表示每种麻将牌的类型,根据预处理后的每一帧图像中麻将的张数以及牌型将矩阵中的对应位置记录为1,其余位置设置为0,得到编码矩阵。
上述进一步方案的有益效果为:编码矩阵可以反映当前对局的信息,便于后续的神经网络分析出决策结果。
进一步地:所述S2具体为:
根据编码矩阵获取对局中麻将的所有信息,包括玩家的手牌信息、其他玩家的出牌信息以及场面上已经打出的牌的信息,得到多维矩阵,进而根据多维矩阵构建自学习模型;
其中,所述多维矩阵包括自身的手牌特征、上家的弃牌特征、下家的弃牌特征、对家的弃牌特征、出牌顺序特征、对局中碰牌特征、对局中杠牌特征、胡牌顺序特征、其他玩家胡牌信息特征、其他玩家的胡牌分数特征和总的弃牌信息特征。
进一步地:所述S2中,自学习模型包括选牌子模型、碰牌子模型、杠牌子模型和胡牌子模型;
其中,所述选牌子模型包括麻将特殊规则特征、玩家自身的手牌特征、上家的弃牌特征、下家的弃牌特征、对家的弃牌特征和总的弃牌信息特征;
所述碰牌子模型和杠牌子模型均包括玩家自身的手牌特征、总的弃牌信息特征、出牌顺序特征和其他玩家胡牌信息特征;
所述胡牌子模型包括玩家自身的手牌特征、总的弃牌信息特征、对局中碰牌特征、对局中杠牌特征、其他玩家的胡牌分数特征和胡牌顺序特征。
进一步地:所述S3中,初始博弈树的决策方法包括玩家摸牌决策方法和其他玩家出牌决策方法;
所述玩家摸牌决策方法包括以下步骤:
SA1、通过玩家摸牌判断是否能自摸;
若是,则将胡牌子模型输入神经网络,判断是否决定胡牌,若是,则对局结束;若否,则进入SA2;
若否,则进入SA2;
SA2、根据玩家当前的牌判断是否能自杠;
若是,则将杠牌子模型输入神经网络,判断是否选择杠牌,若是,则判断杠牌是否点炮,若点炮,则对局结束;若否,则进入SA3;
若否,则进入SA3;
SA3、将选牌子模型输入神经网络选择一张手牌打出,判断打出的牌是否点炮;若是,则对局结束;若否,则轮到其他玩家出牌或者流局;
所述其他玩家出牌决策方法包括以下步骤:
SB1、根据其他玩家打了一张牌,判断能否胡牌;
若是,则将胡牌子模型输入神经网络,判断是否选择胡牌,若是,则对局结束,若否,则进入SB2;
若否,则进入SB2;
SB2、根据玩家当前的牌判断是否能自杠;
若是,则将杠牌子模型输入神经网络,判断是否杠牌,若是,则进入杠牌动作,若否,则进入SB3;
若否,则进入SB3;
SB3、根据玩家当前的牌判断是否能碰;
若是,则将碰牌子模型输入神经网络,判断是否选择碰牌,若是,则进入碰牌动作;若否,则进入过牌动作;
若否,则进入过牌动作。
进一步地:所述步骤S4具体为:根据初始博弈树的决策结果,通过目标函数和奖赏函数分别计算所述决策结果的目标函数值和奖赏函数值,根据目标函数值和奖赏函数值进行决策结果评价,当目标函数值和奖赏函数值均达到设定的阈值时,则将初始博弈树的决策结果作为最终的博弈决策分析结果。
进一步地:所述S4中,所述目标函数
Figure 100002_DEST_PATH_IMAGE001
的表达式具体为:
Figure 100002_DEST_PATH_IMAGE002
式中,
Figure 100002_DEST_PATH_IMAGE003
为状态S t 下采取动作a t 的回报,
Figure 100002_DEST_PATH_IMAGE004
为更新前后的概率密度比,
Figure 100002_DEST_PATH_IMAGE005
为状态S t 下采取动作a t 的期望值,
Figure 100002_DEST_PATH_IMAGE006
为与环境做互动更新的参数。
进一步地:所述S4中,所述奖赏函数的表达式具体为:
Figure 100002_DEST_PATH_IMAGE007
式中,
Figure 100002_DEST_PATH_IMAGE008
Figure 100002_DEST_PATH_IMAGE009
Figure 100002_DEST_PATH_IMAGE010
均为的加权系数,I shoot 为在一局中的点炮参数,当I shoot =1时,代表已点炮,当I shoot =0时代表未点炮;I drew 为在一局中的被自摸参数,当I drew =1时,代表已被自摸,当I drew =0时代表未被自摸;I unready 为在一局中的听牌参数,当I unready =1时,代表未听牌,当I unready =0时代表已听牌;R为奖励值,
Figure 100002_DEST_PATH_IMAGE011
为自身胡牌与另外两家之中最大胡牌的相对分数,
Figure 100002_DEST_PATH_IMAGE012
为自身胡牌的分数,
Figure 100002_DEST_PATH_IMAGE013
Figure 100002_DEST_PATH_IMAGE014
分别为另外两家的胡牌分数。
本发明的有益效果为:
(1)本发明利用深度学习在图像等特征上面强大的特征抽象能力和强化学习基于目标函数和奖赏函数做决策的能力,对于现实情景中非常复杂的博弈问题也能通过近似求解的方式来进行解决,大大降低了解决过程的复杂性。
(2)本发明基于神经网络的结果预测和目标分类技术准确获得经独热编码处理后的编码信息的分类结果,解决了新旧策略的变化差异过大和智能AI筛选出最优策略比较困难问题。
(3)本发明在目标函数和奖赏函数的设计上,针对性更强,针对“血战麻将”这一麻将博弈进行适配和优化。
附图说明
图1为本发明的流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1:
如图1所示,在本发明的一个实施例中,一种基于自学习模型的麻将博弈决策方法,包括以下步骤:
S1、采集麻将视频数据,并对其进行预处理获得编码矩阵;
S2、根据编码矩阵生成多维矩阵,构建自学习模型;
S3、基于自学习模型与神经网络,构建初始博弈树;
S4、基于设置目标函数和奖赏函数对初始博弈树的输出结果进行评价,得到最终的博弈决策分析结果。
所述S1包括以下分步骤:
S11、通过摄像头采集麻将视频数据,并用帧过滤方法提取麻将视频数据中每一帧图像,并对每一帧图像进行预处理;
S12、基于预处理后的每一帧图像中麻将的张数以及牌型,通过one-hot的编码方式生成编码矩阵。
利用单目RGB摄像头采集手牌中的麻将视频数据,并用帧过滤方法提取视频中的每一帧的手牌麻将图片,对获取的手牌麻将信息进行预处理,通过灰度化、几何变化和图像增强三个步骤消除图像中与麻将信息无关的信息,增强手牌麻将信息的可检测性和最大限度地简化数据,便于精准识别到每一张麻将的具体信息(如:花色、张数)。
所述S11中,预处理的方法具体为:
对每一帧图像依次进行灰度化、几何变化和图像增强处理;
所述S12中,生成编码矩阵的方法具体为:
构建4*27的矩阵,其中矩阵的行表示每种麻将牌的数量,矩阵的列表示每种麻将牌的类型,根据预处理后的每一帧图像中麻将的张数以及牌型将矩阵中的对应位置记录为1,其余位置设置为0,得到编码矩阵。
在本实施例中,对麻将的图像信息做一个编码处理,将其转化成计算机可以更好识别的编码矩阵,便于后续的模型搭建与训练,基于四川麻将的特点,一共108张牌,分别为筒条万三色牌,编号分别为1-9,除了常见的麻将规则,在四川麻将中,还有一些特殊规则:定缺和换三张。定缺,是指每个玩家在开局的时候必须选择三色牌之一的牌是无效牌,不能用作胡组合的麻将类型;换三张,是指每位玩家获得初始手牌后,需要拿出三张牌与一名玩家交换,交换方式可以是顺时针交换、逆时针交换和相对交换。
所述S2具体为:
根据编码矩阵获取对局中麻将的所有信息,包括玩家的手牌信息、其他玩家的出牌信息以及场面上已经打出的牌的信息,得到多维矩阵,进而根据多维矩阵构建自学习模型;
其中,所述多维矩阵包括自身的手牌特征、上家的弃牌特征、下家的弃牌特征、对家的弃牌特征、出牌顺序特征、对局中碰牌特征、对局中杠牌特征、胡牌顺序特征、其他玩家胡牌信息特征、其他玩家的胡牌分数特征和总的弃牌信息特征。
所述S2中,自学习模型包括选牌子模型、碰牌子模型、杠牌子模型和胡牌子模型;
其中,所述选牌子模型包括麻将特殊规则特征、玩家自身的手牌特征、上家的弃牌特征、下家的弃牌特征、对家的弃牌特征和总的弃牌信息特征;
所述碰牌子模型和杠牌子模型均包括玩家自身的手牌特征、总的弃牌信息特征、出牌顺序特征和其他玩家胡牌信息特征;
所述胡牌子模型包括玩家自身的手牌特征、总的弃牌信息特征、对局中碰牌特征、对局中杠牌特征、其他玩家的胡牌分数特征和胡牌顺序特征。
在本实施例中,通过4*27的编码矩阵反映麻将信息,矩阵的行代表对应牌的张数,矩阵的列代表不同种类的牌,矩阵的值只有0、1两种状态码,其中1代表识别到其具体麻将牌,0则相反。初始的矩阵状态值全置为0,当识别到某一具体的麻将牌时,将其对应的位置状态置为1,如果某一具体的麻将牌被识别到的次数为两次及以上,则将同一列、下一行的状态置为1,每个玩家的手牌(算上摸得一张牌)有14张,则有14次状态码得变化。通过这种方式,我们就将麻将的图像信息转化成了可以便于电脑分析的数字信息。
所述S3中,初始博弈树的决策方法包括玩家摸牌决策方法和其他玩家出牌决策方法;
所述玩家摸牌决策方法包括以下步骤:
SA1、通过玩家摸牌判断是否能自摸;
若是,则将胡牌子模型输入神经网络,判断是否决定胡牌,若是,则对局结束;若否,则进入SA2;
若否,则进入SA2;
SA2、根据玩家当前的牌判断是否能自杠;
若是,则将杠牌子模型输入神经网络,判断是否选择杠牌,若是,则判断杠牌是否点炮,若点炮,则对局结束;若否,则进入SA3;
若否,则进入SA3;
SA3、将选牌子模型输入神经网络选择一张手牌打出,判断打出的牌是否点炮;若是,则对局结束;若否,则轮到其他玩家出牌或者流局;
所述其他玩家出牌决策方法包括以下步骤:
SB1、根据其他玩家打了一张牌,判断能否胡牌;
若是,则将胡牌子模型输入神经网络,判断是否选择胡牌,若是,则对局结束,若否,则进入SB2;
若否,则进入SB2;
SB2、根据玩家当前的牌判断是否能自杠;
若是,则将杠牌子模型输入神经网络,判断是否杠牌,若是,则进入杠牌动作,若否,则进入SB3;
若否,则进入SB3;
SB3、根据玩家当前的牌判断是否能碰;
若是,则将碰牌子模型输入神经网络,判断是否选择碰牌,若是,则进入碰牌动作;若否,则进入过牌动作;
若否,则进入过牌动作。
胡、碰、杠以及胡牌动作是需要AI自主根据当前情况和环境做决策的地方。实际上,麻将的动作可视为一个多分类过程,根据每种分类的概率来判断出当前环境的最优决策。
所述步骤S4具体为:根据初始博弈树的决策结果,通过目标函数和奖赏函数分别计算所述决策结果的目标函数值和奖赏函数值,根据目标函数值和奖赏函数值进行决策结果评价,当目标函数值和奖赏函数值均达到设定的阈值时,则将初始博弈树的决策结果作为最终的博弈决策分析结果。
所述S4中,所述目标函数
Figure DEST_PATH_IMAGE015
的表达式具体为:
Figure DEST_PATH_IMAGE016
式中,
Figure DEST_PATH_IMAGE017
为状态S t 下采取动作a t 的回报,
Figure DEST_PATH_IMAGE018
为更新前后的概率密度比,
Figure DEST_PATH_IMAGE019
为状态S t 下采取动作a t 的期望值,
Figure DEST_PATH_IMAGE020
为与环境做互动更新的参数。
在本实施例中,还可以在目标函数
Figure DEST_PATH_IMAGE021
中减去约束值
Figure DEST_PATH_IMAGE022
得到带正则化项的目标函数
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
通过约束值衡量更新后参数
Figure DEST_PATH_IMAGE025
和更前参数
Figure DEST_PATH_IMAGE026
的差距,这里的差距指的是actor行为上的差距而不是参数上的差距,
Figure 980084DEST_PATH_IMAGE027
为设置的学习率,设定两个阈值
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
。经过一次参数更新后,查看KL的值,当
Figure DEST_PATH_IMAGE030
大于
Figure DEST_PATH_IMAGE031
时,则说明新后参数
Figure 21858DEST_PATH_IMAGE025
和更前参数
Figure 598333DEST_PATH_IMAGE026
的差距相差太大,需要加大
Figure DEST_PATH_IMAGE032
,加大惩罚力度。当
Figure DEST_PATH_IMAGE033
小于
Figure DEST_PATH_IMAGE034
时,则减小
Figure 321438DEST_PATH_IMAGE032
,减小惩罚。
所述S4中,所述奖赏函数的表达式具体为:
Figure DEST_PATH_IMAGE035
式中,
Figure 198127DEST_PATH_IMAGE008
Figure 817327DEST_PATH_IMAGE009
Figure 638957DEST_PATH_IMAGE010
均为的加权系数,I shoot 为在一局中的点炮参数,当I shoot =1时,代表已点炮,当I shoot =0时代表未点炮;I drew 为在一局中的被自摸参数,当I drew =1时,代表已被自摸,当I drew =0时代表未被自摸;I unready 为在一局中的听牌参数,当I unready =1时,代表未听牌,当I unready =0时代表已听牌;R为奖励值,
Figure 369015DEST_PATH_IMAGE011
为自身胡牌与另外两家之中最大胡牌的相对分数,
Figure 772315DEST_PATH_IMAGE012
为自身胡牌的分数,
Figure 296837DEST_PATH_IMAGE013
Figure 847904DEST_PATH_IMAGE014
分别为另外两家的胡牌分数。
在本实施例中,为了给强化学习训练提供有效的信号,需要把最终的胜利归因于每一局自己获得的分数和其他玩家获得的分数。为此,通过引入了一个针对四川血战麻将的奖赏函数,在一局麻将中,以自身胡牌的相对分数作为正奖赏,即鼓励胡牌的行为,以点炮、被自摸、未听牌等负面事件为负奖赏,整个过程可以理解为在每个时刻与环境交互得到一个高维度的观察,并利用深度学习方法来感知观察,以得到具体的状态特征表示;基于设计的目标函数评判动作价值,并通过改进的策略将当前状态映射为相应的动作,环境对此动作做出反应,并得到下一个观察,通过不断循环以上过程,最终实现目标的最优策略。
本发明的有益效果为:本发明利用深度学习在图像等特征上面强大的特征抽象能力和强化学习基于目标函数和奖赏函数做决策的能力,对于现实情景中非常复杂的博弈问题也能通过近似求解的方式来进行解决,大大降低了解决过程的复杂性。
本发明基于神经网络的结果预测和目标分类技术准确获得经独热编码处理后的编码信息的分类结果,解决了新旧策略的变化差异过大和智能AI筛选出最优策略比较困难问题。
本发明在目标函数和奖赏函数的设计上,针对性更强,针对“血战麻将”这一麻将博弈进行适配和优化。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims (9)

1.一种基于自学习模型的麻将博弈决策方法,其特征在于,包括以下步骤:
S1、采集麻将视频数据,并对其进行预处理获得编码矩阵;
S2、根据编码矩阵生成多维矩阵,构建自学习模型;
S3、基于自学习模型与神经网络,构建初始博弈树;
S4、基于设置目标函数和奖赏函数对初始博弈树的输出结果进行评价,得到最终的博弈决策分析结果。
2.根据权利要求1所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S1包括以下分步骤:
S11、通过摄像头采集麻将视频数据,并用帧过滤方法提取麻将视频数据中每一帧图像,并对每一帧图像进行预处理;
S12、基于预处理后的每一帧图像中麻将的张数以及牌型,通过one-hot的编码方式生成编码矩阵。
3.根据权利要求2所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S11中,预处理的方法具体为:
对每一帧图像依次进行灰度化、几何变化和图像增强处理;
所述S12中,生成编码矩阵的方法具体为:
构建4*27的矩阵,其中矩阵的行表示每种麻将牌的数量,矩阵的列表示每种麻将牌的类型,根据预处理后的每一帧图像中麻将的张数以及牌型将矩阵中的对应位置记录为1,其余位置设置为0,得到编码矩阵。
4.根据权利要求2所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S2具体为:
根据编码矩阵获取对局中麻将的所有信息,包括玩家的手牌信息、其他玩家的出牌信息以及场面上已经打出的牌的信息,得到多维矩阵,进而根据多维矩阵构建自学习模型;
其中,所述多维矩阵包括自身的手牌特征、上家的弃牌特征、下家的弃牌特征、对家的弃牌特征、出牌顺序特征、对局中碰牌特征、对局中杠牌特征、胡牌顺序特征、其他玩家胡牌信息特征、其他玩家的胡牌分数特征和总的弃牌信息特征。
5.根据权利要求4所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S2中,自学习模型包括选牌子模型、碰牌子模型、杠牌子模型和胡牌子模型;
其中,所述选牌子模型包括麻将特殊规则特征、玩家自身的手牌特征、上家的弃牌特征、下家的弃牌特征、对家的弃牌特征和总的弃牌信息特征;
所述碰牌子模型和杠牌子模型均包括玩家自身的手牌特征、总的弃牌信息特征、出牌顺序特征和其他玩家胡牌信息特征;
所述胡牌子模型包括玩家自身的手牌特征、总的弃牌信息特征、对局中碰牌特征、对局中杠牌特征、其他玩家的胡牌分数特征和胡牌顺序特征。
6.根据权利要求5所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S3中,初始博弈树的决策方法包括玩家摸牌决策方法和其他玩家出牌决策方法;
所述玩家摸牌决策方法包括以下步骤:
SA1、通过玩家摸牌判断是否能自摸;
若是,则将胡牌子模型输入神经网络,判断是否决定胡牌,若是,则对局结束;若否,则进入SA2;
若否,则进入SA2;
SA2、根据玩家当前的牌判断是否能自杠;
若是,则将杠牌子模型输入神经网络,判断是否选择杠牌,若是,则判断杠牌是否点炮,若点炮,则对局结束;若否,则进入SA3;
若否,则进入SA3;
SA3、将选牌子模型输入神经网络选择一张手牌打出,判断打出的牌是否点炮;若是,则对局结束;若否,则轮到其他玩家出牌或者流局;
所述其他玩家出牌决策方法包括以下步骤:
SB1、根据其他玩家打了一张牌,判断能否胡牌;
若是,则将胡牌子模型输入神经网络,判断是否选择胡牌,若是,则对局结束,若否,则进入SB2;
若否,则进入SB2;
SB2、根据玩家当前的牌判断是否能自杠;
若是,则将杠牌子模型输入神经网络,判断是否杠牌,若是,则进入杠牌动作,若否,则进入SB3;
若否,则进入SB3;
SB3、根据玩家当前的牌判断是否能碰;
若是,则将碰牌子模型输入神经网络,判断是否选择碰牌,若是,则进入碰牌动作;若否,则进入过牌动作;
若否,则进入过牌动作。
7.根据权利要求6所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述步骤S4具体为:根据初始博弈树的决策结果,通过目标函数和奖赏函数分别计算所述决策结果的目标函数值和奖赏函数值,根据目标函数值和奖赏函数值进行决策结果评价,当目标函数值和奖赏函数值均达到设定的阈值时,则将初始博弈树的决策结果作为最终的博弈决策分析结果。
8.根据权利要求7所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S4中,所述目标函数
Figure DEST_PATH_IMAGE001
的表达式具体为:
Figure DEST_PATH_IMAGE002
式中,
Figure DEST_PATH_IMAGE003
为状态S t 下采取动作a t 的回报,
Figure DEST_PATH_IMAGE004
为更新前后的概率密度比,
Figure DEST_PATH_IMAGE005
为状态S t 下采取动作a t 的期望值,
Figure DEST_PATH_IMAGE006
为与环境做互动更新的参数。
9.根据权利要求8所述的基于自学习模型的麻将博弈决策方法,其特征在于,所述S4中,所述奖赏函数的表达式具体为:
Figure DEST_PATH_IMAGE007
式中,
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
均为的加权系数,I shoot 为在一局中的点炮参数,当I shoot =1时,代表已点炮,当I shoot =0时代表未点炮;I drew 为在一局中的被自摸参数,当I drew =1时,代表已被自摸,当I drew =0时代表未被自摸;I unready 为在一局中的听牌参数,当I unready =1时,代表未听牌,当I unready =0时代表已听牌;R为奖励值,
Figure DEST_PATH_IMAGE011
为自身胡牌与另外两家之中最大胡牌的相对分数,
Figure DEST_PATH_IMAGE012
为自身胡牌的分数,
Figure DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE014
分别为另外两家的胡牌分数。
CN202211036626.9A 2022-08-29 2022-08-29 一种基于自学习模型的麻将博弈决策方法 Pending CN115115995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211036626.9A CN115115995A (zh) 2022-08-29 2022-08-29 一种基于自学习模型的麻将博弈决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211036626.9A CN115115995A (zh) 2022-08-29 2022-08-29 一种基于自学习模型的麻将博弈决策方法

Publications (1)

Publication Number Publication Date
CN115115995A true CN115115995A (zh) 2022-09-27

Family

ID=83335636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211036626.9A Pending CN115115995A (zh) 2022-08-29 2022-08-29 一种基于自学习模型的麻将博弈决策方法

Country Status (1)

Country Link
CN (1) CN115115995A (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100320690A1 (en) * 2009-06-17 2010-12-23 Pollack Jordan B Backgammon-based table game or electronic game
US20110309579A1 (en) * 2010-06-16 2011-12-22 Gregory Sholes Method for playing a poker game featuring dealer play and no folding of cards by the players
CN106469317A (zh) * 2016-09-20 2017-03-01 哈尔滨工业大学深圳研究生院 一种基于非完备信息博弈中进行对手建模的方法
CN107038477A (zh) * 2016-08-10 2017-08-11 哈尔滨工业大学深圳研究生院 一种非完备信息下的神经网络与q学习结合的估值方法
CN109621422A (zh) * 2018-11-26 2019-04-16 腾讯科技(深圳)有限公司 电子棋牌决策模型训练方法及装置、策略生成方法及装置
CN110227263A (zh) * 2019-06-11 2019-09-13 汕头大学 一种智能化斗地主自动博弈方法及系统
US20190392258A1 (en) * 2018-11-28 2019-12-26 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating information
CN111265878A (zh) * 2020-01-14 2020-06-12 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN111325345A (zh) * 2020-03-04 2020-06-23 西南交通大学 一种基于知识表示与推理的麻将牌局智能决策方法
CN112446424A (zh) * 2020-11-16 2021-03-05 桂林力港网络科技股份有限公司 一种字牌游戏数据处理方法、系统及存储介质
CN112685921A (zh) * 2021-03-12 2021-04-20 中至江西智能技术有限公司 一种高效精确搜索的麻将智能决策方法、系统及设备
CN112843725A (zh) * 2021-03-15 2021-05-28 网易(杭州)网络有限公司 智能体处理方法及装置
CN114004359A (zh) * 2021-12-30 2022-02-01 中至江西智能技术有限公司 一种麻将对手定口预测方法、装置、存储介质及设备
CN114146401A (zh) * 2021-12-30 2022-03-08 中至江西智能技术有限公司 一种麻将智能决策方法、装置、存储介质及设备
CN114676757A (zh) * 2022-03-09 2022-06-28 清华大学 一种多人非完备信息博弈游戏策略生成方法和装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100320690A1 (en) * 2009-06-17 2010-12-23 Pollack Jordan B Backgammon-based table game or electronic game
US20110309579A1 (en) * 2010-06-16 2011-12-22 Gregory Sholes Method for playing a poker game featuring dealer play and no folding of cards by the players
CN107038477A (zh) * 2016-08-10 2017-08-11 哈尔滨工业大学深圳研究生院 一种非完备信息下的神经网络与q学习结合的估值方法
CN106469317A (zh) * 2016-09-20 2017-03-01 哈尔滨工业大学深圳研究生院 一种基于非完备信息博弈中进行对手建模的方法
CN109621422A (zh) * 2018-11-26 2019-04-16 腾讯科技(深圳)有限公司 电子棋牌决策模型训练方法及装置、策略生成方法及装置
US20190392258A1 (en) * 2018-11-28 2019-12-26 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating information
CN110227263A (zh) * 2019-06-11 2019-09-13 汕头大学 一种智能化斗地主自动博弈方法及系统
CN111265878A (zh) * 2020-01-14 2020-06-12 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN111325345A (zh) * 2020-03-04 2020-06-23 西南交通大学 一种基于知识表示与推理的麻将牌局智能决策方法
CN112446424A (zh) * 2020-11-16 2021-03-05 桂林力港网络科技股份有限公司 一种字牌游戏数据处理方法、系统及存储介质
CN112685921A (zh) * 2021-03-12 2021-04-20 中至江西智能技术有限公司 一种高效精确搜索的麻将智能决策方法、系统及设备
CN112843725A (zh) * 2021-03-15 2021-05-28 网易(杭州)网络有限公司 智能体处理方法及装置
CN114004359A (zh) * 2021-12-30 2022-02-01 中至江西智能技术有限公司 一种麻将对手定口预测方法、装置、存储介质及设备
CN114146401A (zh) * 2021-12-30 2022-03-08 中至江西智能技术有限公司 一种麻将智能决策方法、装置、存储介质及设备
CN114676757A (zh) * 2022-03-09 2022-06-28 清华大学 一种多人非完备信息博弈游戏策略生成方法和装置

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
JINQIU LI等: "Speedup Training Artificial Intelligence for Mahjong via Reward Variance Reduction", 《2022 IEEE CONFERENCE ON GAMES》 *
JUNJIE LI等: "Suphx: Mastering Mahjong with Deep Reinforcement Learning", 《ARXIV:2003.13590V2》 *
XIANGYU ZHAO等: "Building a 3-Player Mahjong AI using Deep Reinforcement Learning", 《ARXIV:2202.12847V1》 *
唐杰等: "面向智能博弈游戏的卷积神经网络估值方法", 《计算机应用与软件》 *
孙一铃: "基于Expectimax搜索的非完备信息博弈算法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李堃: "残差网络和半定蒙特卡洛树搜索算法结合的多人非完备信息博弈研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
沈恒恒: "基于UCT算法和深度强化学习的非完备博弈策略研究与应用", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *
王亚杰等: "结合先验知识与蒙特卡罗模拟的麻将博弈研究", 《智能系统学报》 *
闫天伟: "基于深度学习的不完全信息博弈决策的研究与应用", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *
陈驰: "基于强化学习的桥牌叫牌策略研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
雷捷维: "基于强化学习与博弈树搜索的非完备信息博弈算法的研究与应用", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Similar Documents

Publication Publication Date Title
Tesauro et al. A parallel network that learns to play backgammon
JP7399277B2 (ja) 情報処理方法、装置、コンピュータプログラム及び電子装置
JP5879899B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN106651915B (zh) 基于卷积神经网络的多尺度表达的目标跟踪方法
Kunanusont et al. General video game ai: Learning from screen capture
CN106909938A (zh) 基于深度学习网络的视角无关性行为识别方法
Martínez et al. Extending neuro-evolutionary preference learning through player modeling
CN113947022B (zh) 一种基于模型的近端策略优化方法
CN111841018A (zh) 模型训练方法、模型使用方法、计算机设备及存储介质
CN115033878A (zh) 快速自博弈强化学习方法、装置、计算机设备和存储介质
Yang et al. Adaptive inner-reward shaping in sparse reward games
Panchal et al. Chess moves prediction using deep learning neural networks
McGarry et al. Models of sports contests
CN115944921B (zh) 游戏数据处理方法、装置、设备及介质
CN115115995A (zh) 一种基于自学习模型的麻将博弈决策方法
Li et al. Research on fight the landlords’ single card guessing based on deep learning
CN115271072A (zh) 一种基于软启动的非完美信息博弈智能策略求解方法
Guo Deep learning and reward design for reinforcement learning
Ghasemi et al. Detecting Human Behavioral Pattern in Rock, Paper, Scissors Game Using Artificial Intelligence
Huang et al. Efficient Imitation Learning for Game AI
Zaman et al. TD methods applied to mixture of experts for learning 9/spl times/9 Go evaluation function
Donnelly et al. Evolving Go playing strategy in neural networks
Zhang Convolutional and recurrent neural network for gomoku
Cai et al. Rgb video based tennis action recognition using a deep historical long short-term memory
CN117883788B (zh) 智能体训练方法、游戏对战方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination