CN115107041A

CN115107041A - 一种基于视听协同的麻将机器人系统及其使用方法

Info

Publication number: CN115107041A
Application number: CN202211036628.8A
Authority: CN
Inventors: 苟先太; 顾凡; 魏峰; 曾开心; 蒋晓凤; 程丽红; 苟瀚文
Original assignee: Sichuan Tianqi Intelligent Technology Co ltd; Southwest Jiaotong University
Current assignee: Sichuan Tianqi Intelligent Technology Co ltd; Southwest Jiaotong University
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2022-09-27

Abstract

本发明公开了一种基于视听协同的麻将机器人系统及其使用方法，使用一台RGB相机采集RGB图片，一个麦克风采集语音信息，并采用视听信息结合的方式，代替人眼和人耳进行牌局场景的感知和数据采集。使用所属玩家判断模块、记牌器模块、打牌决策模块、图片预处理模块等模块紧密结合的方式，代替人脑做数据处理，总体而言，具有智能程度高、硬件成本低、占用空间小、感知无遗漏的优点。

Description

一种基于视听协同的麻将机器人系统及其使用方法

技术领域

本发明属于人工智能与机器人技术领域，具体涉及一种基于视听协同的麻将机器人系统及其使用方法。

背景技术

随着中国制造业的快速发展，“工业4.0”和“中国制造2025”等概念深入人心，制造业向智能自动化发展已是必然趋势。作为工业、农业、国防和科学技术现代化的重要条件和显著标志的自动化技术也要向智能自动化方向发展。但是目前智能自动化没有形成完整成熟的系统，仍处于研究阶段，公司和高校都迫切需要可以进行实验学习和验证的智能自动化系统作为研究对象。

目前在计算机智能对弈领域中，常见的是国际象棋智能机器人、围棋智能机器人等，麻将领域的决策网络很少，而且需要真人进行场景认知识别以及实际操作，没有完整复现真实场景下的对弈，真正使用感知系统和机械臂完全代替人类打麻将的研究还未有人做过。

其次，目前的麻将花色分类算法采用模板匹配法，其分类准确度常受限于复杂的环境，抗扰动性差。

另外，现有的复杂环境下的小物体位姿估计算法通常需要使用点云网络模型，点云网络模型具有复杂且计算臃肿的特点，不利于实际使用。

因此，一种基于视听协同的、高智能的、实时反应的、识别准确度高及牌局感知的智能打麻将机器人系统的研究具有重要意义。

发明内容

针对现有技术中的上述不足，本发明提供的基于视听协同的麻将机器人系统及其工作方法解决了上述背景技术中的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于视听协同的麻将机器人系统，包括：

模型训练模块，用于搭建并训练麻将机器人系统工作过程中所涉及的所有人工智能模型；

信息存储模块，用于进行各个模块之间的各类型数据的存储和分发；

视听感知模块，用于调用视觉和听觉模型，输出麻将牌信息；

所属玩家判断模块，用于识别麻将牌所属玩家信息；

记牌器模块，用于存储麻将对弈过程中的麻将牌决策信息；

打牌决策模块，用于执行打牌决策，确定待抓取麻将牌；

图片预处理模块，用于处理待抓取麻将牌像素信息；

位姿估计模块，用于确定待抓取麻将牌的位姿数据；

坐标转换模块，用于确定待抓取麻将牌的位置数据，为机械臂抓取麻将牌提供位置参考；

以及机械臂抓取模块，用于将麻将牌抓取到指定位置。

进一步地，所述人工智能模型包括麻将牌花色分类模型、麻将牌3D特征点估计模型、视听模型、打牌决策模型以及碰杠胡决策模型；

其中，麻将牌花色分类模型用于识别麻将牌的花色，其部署于视听感知模块；麻将牌3D特征点估计模型用于确定麻将牌的位姿信息，其部署于位姿估计模块；视听模型用于识别玩家的出牌决策信息，其部署于视听感知模块；打牌决策模型用于确定麻将机器人系统的麻将出牌决策，其部署于打牌决策模块；碰杠胡决策模型用于确定麻将机器人的碰牌、杠牌或胡牌决策，其部署于打牌决策模块。

所述信息存储模块存储的各类型数据包括记牌数据、决策参考数据以及位姿数据；其中，记牌数据包括时间信息、出牌、碰牌、杠牌、胡牌以及所属玩家信息，决策参考数据包括场牌信息和己方手牌信息，位姿数据包括机械臂坐标系中的麻将牌位姿信息和相机坐标系中的麻将牌位姿信息；

所述视听感知模块输出的麻将牌信息包括麻将牌类型、麻将牌花色以及实时出牌、碰杠胡牌信息。

一种麻将机器人系统工作方法，包括以下步骤：

S1、预先训练麻将牌花色分类模型及麻将牌3D特征点估计模型；

S2、牌局开始，采集当前牌面图片，并通过麻将牌花色分类模型确定图片中所有麻将牌的花色种类；

S3、对当前牌面图片进行麻将牌类型区域划分；

其中，划分结果包括已方手牌、上家手牌、下家手牌、对家手牌、已方场牌、上家场牌、下家场牌、对家场牌和牌池；

S4、实时采集牌局当前麻将决策信息；

其中，麻将决策信息包括出牌、碰牌、杠牌和胡牌信息；

S5、在获取麻将决策信息过程中，根据麻将牌花色分类模型及麻将决策信息所属类型区域，确定其所属玩家；

S6、通过记牌器模块记录当前麻将牌决策信息、所属玩家及时间信息；

S7、根据记牌器模块当前记录的信息、己方手牌以及场牌信息，执行训练好的出牌决策模型和碰杠胡决策模型，判断是否胡牌；

若是，则进入步骤S13；

若否，则进入步骤S8；

S8、选择抓取麻将牌，并确定待抓取麻将牌的花色及位置；

S9、确定待抓取麻将牌的图片；

S10、基于带抓取麻将牌的图片，调用麻将牌3D特征点估计模型确定待抓取麻将牌在相机坐标系下的位姿数据；

S11、对待抓取麻将牌的位姿数据进行坐标系转换，确定机械臂坐标下的待抓取麻将牌的位置数据；

S12、根据待抓取麻将牌的位置数据，控制机械臂抓取模块抓取麻将牌至指定位置，返回步骤S4；

S13、结束本局麻将对弈。

进一步地，所述步骤S1中的麻将牌花色分类模型为基于YOLOv5目标检测网络模型的改进模型；

其中，麻将牌花色分类模型中Head网络中的边界框损失函数为CIOU_Loss损失函数，其表达式为：

式中，

为衡量预测边框与真实边框的重叠程度的值，

为正的权重参数，

为衡量边界框长宽比一致性的参数，

为预测边框的中心坐标值，

为真实边框的中心坐标值，

为预测边框与真实边框的最小重叠框的对角线长度值，

用来计算两中心坐标值的欧氏空间距离；

麻将牌花色分类模型Head网络中的加权NMS标准为DIOU_nms标准，其选择最优预测框的公式为：

式中，

是分类置信度，

为非极大值抑制的阈值，

为具有最高分类置信度的边框，

为包含所有待检测边框的列表中的第

个边框，

用来计算边框

和边框

对中心点距离的惩罚项。

进一步地，所述步骤S1中的3D特征点估计模型包括依次连接的特征提取层、金字塔池化网络和多阶卷积块；其中，金字塔池化网络和多阶卷积块中的卷积为深度可分离卷积；

所述特征提取层采用Res2Net特征估计网络的前三层作为3D特征点估计模型的前馈网络提取图片的多尺度特征，每部分特征的输出

为：

式中，

为1*1卷积输出后的第i个通道的特征图，

为3*3卷积操作，s为对1*1卷积输出后的特征图按通道数均为特征图数量；

所述金字塔池网络包括依次连接的全局池、2×2金字塔池、3×3金字塔池和6×6金字塔池；

所述多阶卷积块提取特征提取层提取的多尺度特征的关键点和麻将块中实际9个3D特征点之间的方向向量场。

进一步地，所述步骤S4具体为：

S41、采集牌局过程中的语音信息，并确定其中文词语对应的拼音字符串a[]；

S42、构建打麻将全过程的中文拼音库数组库集B={

[]},

[]为字符串元素，i为字符串元素序号；

S43、使用拼音字符串相似度匹配算法对拼音字符串对应数组a[]与中文拼音库数组集合中的

[]进行相似度匹配，确定最佳匹配结果字符串

[]及其对应的词语信息message，进而确定当前麻将决策信息。

进一步地，所述步骤S43中，相似度匹配过程的计算公式为：

式中，

为a[]中字符a[n]的相似距离，前置条件为a[x]== b[y]、a[n]== b[m]，且满足条件

>

&&

>

，

为数组索引值，

函数的值从0取到对应数组索引的最大值

；

a[x]为待匹配字符数组a[]中索引为x的单个字符,x从0取到数组a[]索引最大值

；

b[y]为被匹配字符数组b[]中索引为y的单个字符，y从0取到数组b[]索引最大值

，且需满足上述前置条件a[x]== b[y]；

a[n]为待匹配字符数组a[]中索引为n的单个字符,n从0取到数组a[]索引最大值

，且需满足上述前置条件

>

；

b[m]为被匹配字符数组b[]中索引为m的单个字符，m从0取到数组b[]索引最大值

，且需满足上述前置条件a[n]== b[m]和

>

；

等价于a[x]，

等价于a[n]，

等价于b[y]，

等价于b[m]，是其对应的公式版写法；

为a[n] 字符的相似度得分，

系数；

为a[]中字符在

[]下的相似度总得分，

为a[]中

的值不为无穷小的字符个数。

进一步地，所述步骤S5具体为：

S51、确定获取词语信息的时间信息t _m，及上一次获取词语信息的时间信息t _m-1；

S52、从信息存储模块中获取t _m和t _m-1对应的图片

和

；

S53、调用麻将牌花色分类模型对图片

和

进行处理，确定新增麻将牌的花色和位置；

S54、根据新增麻将牌所属类型区域，确定当前麻将决策信息所属玩家；

式中，M为新增麻将牌。

进一步地，所述步骤S11具体为：

基于待抓取麻将牌在相机坐标系下的位姿数据，通过手眼协调标定方法，将待抓取麻将牌在相机坐标系下的位姿数据转换为机械臂坐标系下的位姿数据，作为待抓取麻将牌的位置数据，控制机械臂抓取模块抓取麻将牌至指定位置，并返回步骤S4；

其中，当相机安装在牌桌45°方位时，相机坐标系相对于机械臂坐标系的齐次变换矩阵为：

。

本发明的有益效果为：

（1）本发明的系统使用一台RGB相机采集RGB图片，一个麦克风采集语音信息，并采用视听信息结合的方式，代替人眼和人耳进行牌局场景的感知和数据采集。使用所属玩家判断模块、记牌器模块、打牌决策模块、图片预处理模块等模块紧密结合的方式，代替人脑做数据处理，总体而言，具有智能程度高、硬件成本低、占用空间小、感知无遗漏的优点。

（2）本发明针对待识别的牌桌图片中麻将牌具有小而多和区分度低的特点，改进现有YOLOv5模型的边界框损失函数和加权NMS标准，使其在复杂环境下的麻将牌花色分类中提高准确度。

（3）本发明使用了改进的麻将牌3D特征点估计模型，避免使用复杂且计算臃肿的点云网络模型，仅需使用普通相机获取RGB图像作为网络的输入，不需要额外的深度信息作为网络的输入，就能输出指定麻将牌的位姿信息，降低了硬件成本的同时也能获得较好的麻将牌位姿识别精度。

（4）本发明创新性地构建了打麻将全过程的中文拼音库数组集合，提出一种拼音字符串相似度匹配算法，完成拼音字符串的中文词语匹配，相对于传统的拼音中文匹配算法，具有处理小词语时速度快的特点。

附图说明

图1为本发明提供的麻将机器人工作方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1：

本发明实施例提供了一种基于视听协同的麻将机器人系统，包括：

所属玩家判断模块，用于识别麻将牌所属玩家信息；

记牌器模块，用于存储麻将对弈过程中的麻将牌决策信息；

打牌决策模块，用于执行打牌决策，确定待抓取麻将牌；

图片预处理模块，用于处理待抓取麻将牌像素信息；

位姿估计模块，用于确定待抓取麻将牌的位姿数据；

以及机械臂抓取模块，用于将麻将牌抓取到指定位置。

本发明实施例中的人工智能模型包括麻将牌花色分类模型、麻将牌3D特征点估计模型、视听模型、打牌决策模型以及碰杠胡决策模型；

基于上述麻将机器人系统结构，其运行过程为：

首先，牌局开始，信息存储模块开始存储和分发数据；然后，每隔200ms执行视听感知模块、所属玩家判断模块和记牌器模块；接着判断是否补牌，是，则确定待抓取麻将牌信息（补牌），调用图片预处理模块，否，则调用打牌决策模块，判断是否胡牌，否，则确定待抓取麻将牌信息（包括待出牌、待碰牌和待杠牌），调用图片预处理模块，是，则结束本局；到达图片预处理模块后，依次调用位姿估计模块、坐标转换模块和机械臂抓取模块，抓牌完成后整理手牌和场牌信息，进入循环，判断是否补牌，直到结束本局。

实施例2：

本发明实施例提供了实施例1中的麻将机器人系统的工作方法，如图1所示，包括以下步骤：

S3、对当前牌面图片进行麻将牌类型区域划分；

S4、实时采集牌局当前麻将决策信息；

其中，麻将决策信息包括出牌、碰牌、杠牌和胡牌信息；

若是，则进入步骤S13；

若否，则进入步骤S8；

S8、选择抓取麻将牌，并确定待抓取麻将牌的花色及位置；

S9、确定待抓取麻将牌的图片；

S13、结束本局麻将对弈。

本发明实施例的步骤S1中的麻将牌花色分类模型为基于YOLOv5目标检测网络模型的改进模型；

式中，

为衡量预测边框与真实边框的重叠程度的值，

为正的权重参数，

为衡量边界框长宽比一致性的参数，

为预测边框的中心坐标值，

为真实边框的中心坐标值，

为预测边框与真实边框的最小重叠框的对角线长度值，

用来计算两中心坐标值的欧氏空间距离；

式中，

是分类置信度，

为非极大值抑制的阈值，

为具有最高分类置信度的边框，

为包含所有待检测边框的列表中的第

个边框，

用来计算边框

和边框

对中心点距离的惩罚项。

在本实施例中，训练上述麻将牌花色分类模型的方法具体为：

A1、样本图片的采集和扩充：使用在四个方位下的麻将桌斜上方45°固定的RGB相机采集打麻将全过程中的500张1920x1080的牌桌图片，之后基于实际牌桌环境的多样性，采用在一定范围内调整图片的亮度、色度、饱和度、对比度的方法扩充样本集，同时对扩充后样本集随机增加高斯噪声，然后人为选择和剔除不合理的样本图片，最终得到2000张可用的样本图片。

A2、对样本图片进行花色分类和标注：使用标注软件LabelMe对2000张样本图片进行麻将牌的位置框选和花色标注，麻将牌的花色有28种，分别是一筒、二筒、三筒、四筒、五筒、六筒、七筒、八筒、九筒、一条、二条、三条、四条、五条、六条、七条、八条、九条、一万、二万、三万、四万、五万、六万、七万、八万、九万和盖牌，得到2000个json格式的标签文件以待训练。

A3、搭建YOLOv5目标检测网络模型并优化其结构：经典的YOLOv5目标检测网络模型由输入端、Backone网络、Neck网络和Head网络四部分组成。针对待识别的牌桌图片中麻将牌具有小而多和区分度低的特点，修改Head网络中的边界框损失函数为CIOU_Loss，以解决原有的GIOU_Loss函数的预测框重合问题；其次，修改Head网络中的加权NMS标准为DIOU_nms标准，用于更好的选择最优预测框。

A4、训练麻将牌花色分类模型：输入步骤S11和步骤S12中得到的2000张样本图片和json格式的标签文件，设置初始化参数，训练周期train steps＝20000，批次大小batchsize＝8，学习率learning rate＝0.0015，训练优化后的YOLOv5目标检测网络，最终得到麻将牌花色分类模型。

在本发明实施例的步骤S1中，3D特征点估计模型旨在找出2D图片中麻将牌像素与其3D特征点的映射关系，其包括依次连接的特征提取层、金字塔池化网络和多阶卷积块；其中，金字塔池化网络和多阶卷积块中的卷积为深度可分离卷积；

本实施例中的特征提取层采用Res2Net特征估计网络的前三层作为3D特征点估计模型的前馈网络提取图片的多尺度特征，Res2Net在更细粒度的层次上提高了多尺度表示能力。为了实现这个目标，Res2Net主要将n个通道中的3×3滤波器替换为一组更小的滤波器组，实现了对分片进行多尺度处理，有利于全局信息和局部信息的提取，每部分特征的输出

为：

式中，

为1*1卷积输出后的第i个通道的特征图，

为3*3卷积操作，s为对1*1卷积输出后的特征图按通道数均为特征图数量。

本实施例中的金字塔池网络包括依次连接的全局池、2×2金字塔池、3×3金字塔池和6×6金字塔池；其中，全局池用于生成单个bin输出，2×2金字塔池、3×3金字塔池和6×6金字塔池可以输出不同大小的特征图，表示不同尺度下的信息，不同层次的特征融合为最终的金字塔池全局特征，在整体上达到结合上下文信息、减少信息丢失的目的。

本实施例中的多阶卷积块提取特征提取层提取的多尺度特征的关键点和麻将块中实际9个3D特征点之间的方向向量场。由于所有阶段都是卷积的，当数据通过网络时，会形成一个越来越大的有效接受场，这一特性使网络能够在早期阶段解决由于接受域较小而导致的歧义，并在后期结合越来越多的上下文，起到提高输出3D特征点精准率的作用。

在本实施例中因为在金字塔池化模块和多阶卷积块中使用了比较多的卷积核，为了减少模型的参数量，降低运算成本，引入了深度可分离卷积核，其作用是将传统的卷积操作拆分为改变大小和通道数两步走。

在本实施例中，训练上述麻将牌3D特征点估计模型的方法具体为：

B1、样本图片的采集和扩充以及特征点数据的生成：为方便得到麻将牌在相机坐标系下的9个质心或顶点数据，使用模拟软件UE4生成960x540大小模拟图片，麻将牌被随机放置，记录其在当前相机坐标系下的的9个质心或顶点数据，并进行模拟拍摄；并且基于实际牌桌环境的多样性，在麻将牌周围添加叠加的纹理、灯光和手部等干扰物；然后人为选择和剔除不合理的样本图片，最终得到500组可用的样本图片和其对应的9个质心或顶点数据即位姿信息。

B2、搭建及改进基于Res2Net特征估计网络和金字塔池化网络的麻将牌3D特征点估计模型，旨在找出2D图片中麻将牌像素与其3D特征点的映射关系，在基本不增加原有模型计算量的情况下，通过改进网络结构，增强对小目标或是遮挡目标的检测性能，提高对2D图片中的麻将牌的3D特征点估计准确率。

B3、训练麻将牌3D特征点估计模型：输入步骤S15中得到的500组可用的样本图片和其对应的9个3D特征点，和模拟软件UE4中模拟相机的内参，设置初始化参数，训练周期train steps＝30000，批次大小batch size＝16，学习率learning rate＝0.001，训练S16中搭建的改进型麻将牌3D特征点估计模型，最终得到麻将牌3D特征点估计模型。

在本发明实施例的步骤S3中，在对麻将牌类型区域划分过程中，对固定RGB相机采集到的牌桌45°方位的1920*1080图片，根据分布区域顶点集的实际坐标，使用opencv-mask函数裁剪出图片的不规则区域，划分出牌桌中的麻将牌类型共九种：己方手牌、上家手牌、下家手牌、对家手牌、己方场牌、上家场牌、下家场牌、对家场牌和牌池。

根据实际45°方位的相机图片中的麻将牌，得出九种麻将牌类型在1920*1080图片中的分布区域顶点坐标表如下：

表1：分布区域顶点坐标

在本发明实施例的步骤S4中，使用开源中文语音识别模型ASRT，实时处理相机同位置下采集到的语音信息，结合相机采集图片，确定出当前麻将决策信息，因此，本实施例的步骤S4具体为：

S42、构建打麻将全过程的中文拼音库数组库集B={

[]},

[]为字符串元素，i为字符串元素序号；

[]进行相似度匹配，确定最佳匹配结果字符串

在本实施例的步骤S42中，构建的中文拼音库数组库集B={

[]}为：

B={

[],

[],...,

[],

[]}，包括“peng”、“gang”、“hu”、“yitong”、“ertong”、“santong”、“sitong”、“wutong”、“liutong”、“qitong”、“batong”、“jiutong”、“yitiao”、“ertiao”、“santiao”、“sitiao”、“wutiao”、“liutiao”、“qitiao”、“batiao”、“jiutiao”、“yiwan”、“erwan”、“sanwan”、“siwan”、“wuwan”、“liuwan”、“qiwan”、“bawan”、“jiuwan”，库中每个元素与其中文词语信息一一对应。

本实施例的步骤S43中，相似度匹配过程的计算公式为：

式中，

>

&&

>

，

为数组索引值，

函数的值从0取到对应数组索引的最大值

；

；

，且需满足上述前置条件a[x]== b[y]；

，且需满足上述前置条件

>

；

，且需满足上述前置条件a[n]== b[m]和

>

；

等价于a[x]，

等价于a[n]，

等价于b[y]，

等价于b[m]，是其对应的公式版写法；

为a[n] 字符的相似度得分，

系数；

为a[]中字符在

[]下的相似度总得分，

为a[]中

的值不为无穷小的字符个数。

本发明实施例的步骤S5具体为：

S52、从信息存储模块中获取t _m和t _m-1对应的图片

和

；

S53、调用麻将牌花色分类模型对图片

和

进行处理，确定新增麻将牌的花色和位置；

具体地，利用麻将牌花色分类模型对图片进行处理，将输出的两张不同时刻的花色分类结构图片做对比，进而确定出新增麻将牌及其位置；

式中，M为新增麻将牌。

本发明实施例中步骤S6中，将当前麻将牌决策信息、所属玩家及时间信息作为结构体元素一并存入记牌器模块中，结构体示例如下：

、

本发明实施例的步骤S11具体为：

在本发明实施例的步骤S11具体为：首先对其进行运动学求解得到UR5机械臂目标姿态所对应的各关节角度，然后根据约束条件进行路径规划得到一条较优的路径，驱动UR5机械臂沿着规划的路径运动，最后驱动二指机械爪对待抓取麻将牌执行抓取和放置操作。

在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims

1.一种基于视听协同的麻将机器人系统，其特征在于，包括：

所属玩家判断模块，用于识别麻将牌所属玩家信息；

记牌器模块，用于存储麻将对弈过程中的麻将牌决策信息；

打牌决策模块，用于执行打牌决策，确定待抓取麻将牌；

图片预处理模块，用于处理待抓取麻将牌像素信息；

位姿估计模块，用于确定待抓取麻将牌的位姿数据；

以及机械臂抓取模块，用于将麻将牌抓取到指定位置。

2.根据权利要求1所述的基于视听协同的麻将机器人系统，其特征在于，所述人工智能模型包括麻将牌花色分类模型、麻将牌3D特征点估计模型、视听模型、打牌决策模型以及碰杠胡决策模型；

其中，麻将牌花色分类模型用于识别麻将牌的花色，其部署于视听感知模块；麻将牌3D特征点估计模型用于确定麻将牌的位姿信息，其部署于位姿估计模块；视听模型用于识别玩家的出牌决策信息，其部署于视听感知模块；打牌决策模型用于确定麻将机器人系统的麻将出牌决策，其部署于打牌决策模块；碰杠胡决策模型用于确定麻将机器人的碰牌、杠牌或胡牌决策，其部署于打牌决策模块；

3.一种基于权利要求1~2任一权利要求所述的基于视听协同的麻将机器人系统的麻将机器人系统工作方法，其特征在于，包括以下步骤：

S3、对当前牌面图片进行麻将牌类型区域划分；

S4、实时采集牌局当前麻将决策信息；

其中，麻将决策信息包括出牌、碰牌、杠牌和胡牌信息；

若是，则进入步骤S13；

若否，则进入步骤S8；

S8、选择抓取麻将牌，并确定待抓取麻将牌的花色及位置；

S9、确定待抓取麻将牌的图片；

S13、结束本局麻将对弈。

4.根据权利要求3所述的麻将机器人系统工作方法，其特征在于，所述步骤S1中的麻将牌花色分类模型为基于YOLOv5目标检测网络模型的改进模型；