CN112685921A

CN112685921A - 一种高效精确搜索的麻将智能决策方法、系统及设备

Info

Publication number: CN112685921A
Application number: CN202110270535.0A
Authority: CN
Inventors: 王嘉旸; 任航; 李一华; 杨蕾; 黄伟; 熊唤亮; 王命延
Original assignee: Zhongzhi Jiangxi Intelligent Technology Co ltd
Current assignee: Zhongzhi Jiangxi Intelligent Technology Co ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-04-20
Anticipated expiration: 2041-03-12
Also published as: CN112685921B

Abstract

本发明提供一种高效精确搜索的麻将智能决策方法、系统及设备，该方法包括：基于预设组合牌对手牌进行拆分和组合，并得出手牌拆分组合集；基于该拆分组合集，构建了搜索树来探索手牌达到胡牌模式的多条路径；计算每条胡牌路径的胡牌概率、危险概率和获胜得分，并据此计算得到每条胡牌路径的路径期望值；根据路径期望值最大的胡牌路径进行出牌决策和吃碰杠动作决策。本发明通过手牌拆分组合作为扩展策略来探索搜索胡牌路径，极大降低了计算资源和时间的消耗。同时，本发明采用胡牌概率、危险概率和获胜得分来进行全面评估，使决策具备胡牌速度快、得分高和点炮率低的优点。

Description

一种高效精确搜索的麻将智能决策方法、系统及设备

技术领域

本发明涉及麻将智能决策领域，特别涉及一种高效精确搜索的麻将智能决策方法、系统及设备。

背景技术

麻将博弈属于非完备信息博弈，由于其具有巨大的隐藏信息(对手手牌和牌墙的牌等)，导致了对当前局面判断不够准确而影响自身决策，传统方法难以直接应用到麻将博弈决策中来。

目前，麻将博弈中使用的技术主要分为2种：（1）基于机器学习的方法，首先搜集大量高等水平人类玩家的比赛数据，设计并提取相应的特征，然后构建合适的模型进行训练，最后得到决策模型，例如日本东京大学爆打系统，使用大量数据训练线性神经网络，其决策能力能达到中高等玩家水平；（2）基于知识的方法，将人类玩家的博弈知识总结成规则，再结合评估或搜索的方法计算出最佳决策。

然而，对于使用机器学习方法的麻将智能决策，其主要依赖于大量高水平麻将博弈数据的获取、特征工程和模型的设计，但是大量高质量的麻将博弈数据比较缺乏，并且难以定义，另外麻将博弈中存在大量的隐藏信息，需要设计相应的特征来处理，这对于特征工程与模型设计要求极高。此外，使用机器学习的模型难以调试，需要大量的计算时间与硬件资源，以及目前机器学习方法无法解释其决策结论。而对于基于知识与规则方法的麻将智能决策，其主要是开发者通过学习人类玩家高手的博弈技巧，从中总结并提取相应的策略来制定决策。开发者需要对相应领域有较强的认知，能结合相应的领域知识开发出一套用于处理博弈的算法，专业性要求高，同样需要消耗大量的计算时间和计算资源。

发明内容

基于此，本发明的目的是提供一种高效精确搜索的麻将智能决策方法、系统及设备，以解决现有麻将智能决策方法需要消耗大量的计算时间和计算资源的技术问题。

根据本发明实施例的一种高效精确搜索的麻将智能决策方法，所述方法包括：

按麻将规则中的预设组合牌对手牌进行拆分和组合，并得出目标手牌组合，所述目标手牌组合包括搭子牌组集合和剩余未组合牌集合；

以所述搭子牌组集合需求的有效牌扩展摸牌结点、并以所述剩余未组合牌扩展出牌节点，探索构建多条胡牌路径；

计算每条所述胡牌路径的胡牌概率、危险概率和获胜得分，并根据每条所述胡牌路径的胡牌概率、所述危险概率和所述获胜得分，计算得到每条所述胡牌路径的路径期望值；

根据路径期望值最大的胡牌路径进行出牌决策和吃碰杠动作决策。

另外，根据本发明上述实施例的一种高效精确搜索的麻将智能决策方法，还可以具有如下附加的技术特征：

进一步地，所述按麻将规则中的预设组合牌对手牌进行拆分和组合，并得出目标手牌组合的步骤包括：

按所述预设组合牌对手牌进行拆分和组合，得到多种手牌组合；

计算每种所述手牌组合的向听数；

选取向听数小于阈值的手牌组合作为所述目标手牌组合。

进一步地，在所述按麻将规则中的预设组合牌对手牌进行拆分和组合，并得出目标手牌组合的步骤之后，还包括：

移除或合并同等牌力的手牌组合。

进一步地，所述胡牌路径的胡牌概率的计算公式为：

式中，P _winning表示所述胡牌概率，

表示所述胡牌路径中第i个所述有效牌的获取概率，n表示所述胡牌路径中所述有效牌的总数；

其中，

T2表示所述搭子牌组集合，AA表示对子，AB表示连续搭子，AC表示间隔搭子，R _z表示所述有效牌作为对手玩家z有效牌的概率，通过出牌危险度概率表获取得到，其中z∈{1,2,3}，代表己方后以逆时针方向的其他玩家；p _self-mo为所述有效牌的自摸概率，通过自摸概率表获取得到，所述自摸概率表和所述出牌危险度概率表由预设防守模型输出得到，bias表示偏差。

进一步地，所述胡牌路径的危险概率的计算公式为：

式中，D _risk表示所述胡牌路径的危险概率，

表示所述胡牌路径上的第i次出牌的风险值，n表示所述胡牌路径的所有出牌总数；

其中，

其中，P _WN1_i表示第i轮向听数为1的概率，R _z ^AA表示对手玩家z的手牌中有能够碰所述有效牌的对子的概率，通过所述出牌危险度概率表获取得到。

进一步地，所述路径期望值的计算公式为：

式中，E _path所述路径期望值，P _winning表示所述胡牌概率，T _score表示所述获胜得分，D _risk表示所述危险概率。

另外，本发明还提出一种麻将智能决策系统，所述系统包括：

手牌拆分模块，用于按麻将规则中的预设组合牌对手牌进行拆分和组合，并得出目标手牌组合，所述目标手牌组合包括搭子牌组集合和剩余未组合牌集合；

路径探索模块，用于以所述搭子牌组集合需求的有效牌扩展摸牌结点、并以所述剩余未组合牌扩展出牌节点，探索构建多条胡牌路径；

参数计算模块，用于计算每条所述胡牌路径的胡牌概率、危险概率和获胜得分，并根据每条所述胡牌路径的胡牌概率、所述危险概率和所述获胜得分，计算得到每条所述胡牌路径的路径期望值；

智能决策模块，用于根据路径期望值最大的胡牌路径进行出牌决策和吃碰杠动作决策。

另外，根据本发明上述实施例的一种麻将智能决策系统，还可以具有如下附加的技术特征：

进一步地，还包括：

防守模型模块，用于采用知识和蒙特卡洛模拟方法对其他玩家手牌信息和牌墙信息进行预测，并将预测结果转化和生成为自摸概率表和出牌危险度概率表；

所述胡牌路径的胡牌概率的计算公式为：

式中，P _winning表示所述胡牌概率，

其中，

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的高效精确搜索的麻将智能决策方法。

本发明还提出一种麻将智能决策设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的高效精确搜索的麻将智能决策方法。

与现有技术相比：通过手牌拆分组合作为扩展策略来探索搜索胡牌路径，使搜索具备了精确导向，降低了计算资源和时间的消耗。此外本方案提出的高效精确搜索的麻将智能决策方法是结合了启发式的规则和搜索树来实现的，探索胡牌路径时更加全面和精确，同时，采用胡牌概率、危险概率和获胜得分来对胡牌路径进行全面评估，使最终的决策具备了胡牌速度快、得分高和点炮率低的优点。

附图说明

图1为本发明第一实施例中的高效精确搜索的麻将智能决策方法的流程图；

图2为本发明实施例提供的构建胡牌搜索树的示意图；

图3为本发明第二实施例中的高效精确搜索的麻将智能决策方法的流程图；

图4为本发明第三实施例中的麻将智能决策系统的结构示意图；

图5为本发明第四实施例中的麻将智能决策设备的结构示意图。

以下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例一

请参阅图1，所示为本发明第一实施例中的高效精确搜索的麻将智能决策方法，应用于麻将智能决策设备，该麻将智能决策设备可以由软件和/或硬件来实现所述方法，所述方法具体包括步骤S01至步骤S04。

步骤S01，按麻将规则中的预设组合牌对手牌进行拆分组合，并得出目标手牌组合，所述目标手牌组合包括搭子牌组集合和剩余未组合牌。

具体地，预设组合牌可以为但不限于顺子、刻子、对子、连续搭和间隔搭等，以平胡为例，平胡的胡牌组成单位是：顺子（3张同花色依次递增的牌）、刻子（3张完全相同的牌，杠也视为一种刻子）和将牌（2张完全相同的牌，也称为对子）。另外，搭子定义为差一张有效牌可以组成顺子或刻子的组合。手牌拆分即将手牌拆分为所有可能的上述组合情况。并计算每种拆分组合的向听数和剩余未组合牌，其输出格式为：

组合1：[[[刻子集合1],[顺子集合1],[搭子集合1],[向听数1],[剩余未组合牌1]]，

组合2：[[刻子集合2],[顺子集合2],[搭子集合2],[向听数2],[剩余未组合牌2]]，

…

组合n：[[刻子集合n],[顺子集合n],[搭子集合n],[向听数n],[剩余未组合牌n]]]。

此外，在输出拆分组合信息之后，还可以对拆分组合信息进行整合，选取最优拆分，即选择向听数不大于一定阈值的组合作为目标手牌组合。同时，为方便后续的评估计算，还可以移除或合并同等牌力的组合，例如679w拆分为67，9w与6，79w等情况。

步骤S02，以所述搭子牌组集合需求的有效牌扩展摸牌结点、并以所述剩余未组合牌扩展出牌节点，探索构建多条胡牌路径。

具体地，本实施例结合了启发式规则和搜索树的方法来探索构建胡牌路径，即在初始手牌的基础上，确定最终能够获胜（胡牌）的获胜手牌，再以获胜手牌为目标构建搜索树，其中搜索树通过出牌结点和摸牌结点模拟出牌和摸牌的过程来探索胡牌路径，其中出牌结点使用了目标手牌组合中的剩余未组合牌，摸牌结点使用了目标手牌组合中的搭子需要的有效牌。

在以摸牌节点和出牌节点来构建搜索树时，若采用盲目搜索的扩展策略，将会模拟打出所有的手牌和获取所有可能的摸牌，例如当向听数为N时，以14张手牌为例，其可扩展的节点数高达14^N* 34^N，导致了无法在有限资源下完成搜索。而采用本方案的策略来进行节点扩展时，通过组合集中搭子的有效牌来扩展摸牌节点、未组合的孤张牌的来扩展出牌节点，将大大降低搜索的范围，以上述为例，其可扩展的节点至多为N^2N，通常N<6。同时，由于拆分组合的生成方法都是以胡牌模式中的必须包含的刻子、顺子等组合牌来进行拆分的，以该方法来扩展结点时，避免了搜索摸到无用的孤张牌和打出有用的组合牌的情况，极大提高剪枝效率。如图2所示，展示了以手牌为23445w达到胡牌模式的部分搜索路径，图中左边是展示了节点的扩展范围为打出手牌中所有的牌和摸到所有可能存在的牌的搜索情况（盲目搜索），其搜索空间非常巨大，图中右边展示了本发明中扩展策略下的搜索情况，该方法在保证搜索完整性的前提下，具有极高的剪枝效率，有效降低了搜索范围。

步骤S03，计算每条所述胡牌路径的胡牌概率、危险概率和获胜得分，并根据每条所述胡牌路径的胡牌概率、所述危险概率和所述获胜得分，计算得到每条所述胡牌路径的路径期望值。

在具体实施时，在步骤S03之前，还可以采用知识和蒙特卡洛模拟方法构建防守模型，以对其他玩家手牌信息和牌墙信息进行预测，并将预测结果转化和生成为自摸概率表和出牌危险度概率表。具体来说，在麻将的博弈过程中，玩家会通过保留搭子（2张相同的牌、相邻或间隔一张的序数牌）和面子（刻子与顺子的合称）等组合牌来尽量减少向听数，所以我们可以通过推测每轮的向听数来进一步推测玩家手牌中搭子和面子的数量。并且随着博弈进程的发展，玩家执行的动作越来越多，例如出牌和吃、碰、杠等动作，因此暴露的信息也越来越多，隐藏信息的空间也相对缩减，所以通过结合知识和蒙特卡洛方法来模拟对手的手牌，进而推测出对手的有效牌分布和牌墙剩余牌的分布，最后转化为每张牌的自摸概率表和出牌危险度表，下面将具体介绍防守模型的构建方法。

麻将作为一个4人竞技博弈，每位玩家对我们的影响都不同，例如在吃牌只能通过上家的弃牌来实现，因此上家的出牌对我们至关重要，同理，我们也要尽量减少打出下家需要的牌。在本模块中，本文方法对每位玩家都建立了模型，使用P来表示玩家集合，P={0,1,2,3}，其中0表示我方，1、2、3分别表示我方的下家，对家和上家。在每次模拟中，对每位玩家z∈{1,2,3}，以概率α（α设定为此轮中该向听数分布的占比，可以从该种类麻将的向听数在该轮数中的分布统计结果中计算得到）随机选择向听数WN，然后根据模拟的向听数WN随机选择出面子和搭子的数量组合（N ₃, N ₂），面子和搭子与向听数的计算关系如公式（1）所示：

式中，N _max表示最大向听数，N ₃表示手牌达到获胜模式时具有的最大面子数，在具有14张初始手牌麻将中，有N _max =14，N ₃ =4。N _T3，N _T2分别表示当前手牌中面子和搭子的数量。

接下来，基于选定的面子与搭子数量(N _{T3 ,} N _T2)，分配具体的组合牌。为更加符合真实环境中的分布情况，本文计算了每种组合牌的分配度P，公式（2）~（5）分别给出了刻子AAA、顺子ABC，对子AA和连续搭/间隔搭AB/AC的分配度计算方法：

式中，（N _i ，N _j ，N _k）分别表示面子中每张牌的数量，（N _i ，N _j）分别表示搭子中每种牌的数量，bias表示偏差，本发明将结合麻将博弈的经验和知识来具体调整，例如：

1）对于公式（2），当包含该牌的顺子可能数量为0时，如果该牌未出现的张数不小于3，该牌极有可能已经形成刻子，并存在于其他玩家手牌中，因此需要增加其分配度。例如2w的未出现的数量不小于3，对（2w,2w,2w）进行分配度计算时，如果3w已经全部出现，因此其他玩家手牌中不可能还存在（1w,2w,3w）或（2w,3w,4w）的顺子，2w形成刻子的概率相对变高。

2）由于弃牌一般是该玩家不需要的牌，在后续对局过程中，几乎不会再次成为该玩家的有效牌，因此，在对公式（4）和（5）中AA或AB/AC的分配度计算时，不再分配有效牌为该弃牌的搭子，本文对此情况下的搭子的分配度设定为0。

3）根据一般统计规律和经验，玩家一般会保留联系性较强的中心牌，例如牌值为3到7的牌，而打出边张1、2、8、9与字牌，因此，如果边张的剩余张数较多时，其成为刻子的概率相对较高，因此，在对边张的AAA进行分配度计算时，可以适当增加bias的值，而对中心张的ABC进行分配度计算时，可以适当增加bias的值，等等。其中，所述联系性指该牌能与其他牌组成搭子或面子的能力，例如与3w具有联系的牌为1w、2w、3w、4w和5w，该牌的联系性较高，而字牌的联系性牌只有该牌本身，因此联系性较低。

在为所有对手分配完具体的搭子和面子后，本文将未分配的牌设定为牌墙的牌，即我们有可能会摸到的牌，并将其转化为每张牌的自摸概率表T _self-mo，自摸概率的计算方法如公式（6）所示：

其中，N _i表示第i张牌在牌墙中的数量，W表示牌墙。对于每位对手z∈{1,2,3},我们将根据已分配的搭子来计算其有效牌的分布，并转化为出牌危险度概率表RT，其中包含了由对子（AA）计算的RT ^AA表与由连续搭/间隔搭（AB/AC）计算的RT ^AB/AC表。

在建立防守模型之后，通过模型输出的自摸概率表T _self-mo和出牌危险度概率表RT即可计算出搜索书中每条胡牌路径的胡牌概率和危险概率，其中所述胡牌路径的胡牌概率的计算公式为：

式中，P _winning表示所述胡牌概率，

表示所述胡牌路径中第i个所述有效牌的获取概率，n表示所述胡牌路径中所述有效牌的总数；其中有

T2表示所述搭子牌组集合，AA表示对子，AB表示连续搭子，AC表示间隔搭子，R _z表示所述有效牌作为对手玩家z有效牌的概率，通过出牌危险度概率表RT获取得到，其中z∈{1,2,3}，代表己方后以逆时针方向的其他玩家；p _self-mo为所述有效牌的自摸概率，通过自摸概率表T _self-mo获取得到，所述自摸概率表和所述出牌危险度概率表由预设防守模型输出得到。

所述胡牌路径的危险概率的计算公式为：

式中，D _risk表示所述胡牌路径的危险概率，

表示所述胡牌路径上的第i次出牌的风险值，n表示所述胡牌路径的所有出牌总数。其中，

其中，P _WN1_i表示第i轮向听数为1的概率，R _z ^AA表示对手玩家z的手牌中有能够碰所述有效牌的对子的概率，通过所述出牌危险度概率表RT获取得到。

此外，对于获胜得分，在手牌达到获胜模式后，获胜模式中可能还存在一些特定的得分组合，这些得分组合被称为番型。在国标竞技麻将中，番型按番数分为1、2、4、6、8、12、16、24、32、64和88番共81种，因此，麻将一局的输赢差别可能会很大。在搜索过程中，如果过分追求快速获胜，可能会错过一些大番牌型，例如手牌为123w、456w和679w的牌型时，搭子67w的有效牌为5w和8w，而搭子79w的有效牌只有8w，如果只考虑获胜概率作为评估值，会保留67w而打出9w，这样会错过组成123456789w分数为16番的清龙番型，因此本发明增加了番型检测模块来完善最终的期望值评估。

番型检测主要与2个要素有关，一是组合的表现形式，例如在大三元番型中，必须包含中、发、白3个刻子，碰碰胡番型中，所有面子必须为刻子等，二是组合的花色信息，例如清一色番型，所有手牌必须是同一种花色，且不能包含字牌等。受这些信息启发，本文在树搜索的结点存储了刻子、顺子和将牌的相关信息，这些组合信息不仅包含了上述的所有检测要素，而且还包含了手牌的合理组成形式，直接使用这些组合信息进行番型检测时，能极大减少计算量。此外，某些大番组合中可能会包含一些小番，例如大三元包含了三元牌，根据麻将计分规则，这样的情况只计最大番，因此需要在番型检测的最后进行过滤处理。

进一步地，在计算出每条胡牌路径的胡牌概率、危险概率和获胜得分之后，就可以根据每条胡牌路径的胡牌概率、危险概率和获胜得分，计算得到每条胡牌路径的路径期望值，具体地，所述路径期望值的计算公式为：

步骤S04，根据路径期望值最大的胡牌路径进行出牌决策和吃碰杠动作决策。

麻将中的决策分为2类：出牌决策与吃、碰、杠动作决策。当进行出牌决策时，结合局势分析模块，判断此时是否需要弃胡，如果不需要，则采用搜索树来探索获胜路径，由公式（11）生成每条路径的评估值E _path，相应的，路径上所有出牌的期望值都设置为路径的评估值，而出牌的总期望值由所有包含该出牌的路径评估值累加得到，其计算方法如公式（12）所示：

式中，

表示第i张出牌的期望值，

表示包含该第i张出牌的所有路径中的第j条路径的期望值。相应的，模型的最佳出牌决策为期望值最大的牌。当手牌的牌力过低时，例如手牌的向听数过高以至于难以在有限回合内获胜，或手牌的有效牌难以获取等，此时我们会采取弃胡策略，选择RT中风险值最低的牌打出。

对于吃、碰动作决策，我们每次执行该类动作时，会将弃牌加入到手牌，生成一个面子并移出手牌，然后再打出一张牌，其本质仍然是获取一张有用牌然后打出一张无用牌，因此，我们对比执行动作前后的手牌的最佳出牌的评估值，首先对未采取动作的手牌H，使用上述出牌决策评估方法，计算最佳出牌的评估值E _tile，然后将弃牌加入到手牌H中，生成操作后的手牌H ^-，计算所有可执行的动作，将生成的面子移出手牌，计算最佳出牌评估值

，如果

，则选择该动作并执行，否则放弃。对于杠动作决策，在不减少当前手牌期望值时，都选择执行。

综上，本发明上述实施例当中的高效精确搜索的智能高效精确搜索的麻将智能决策方法具有如下有益效果：

1）、本方案的框架具备一定的通用性，适用于大多数麻将种类的博弈决策。世界各地的麻将种类玩法繁多，其基本规则也不尽相同。本方案的基本框架是基于麻将胡牌牌型来研发的，对于具备不同麻将牌型的玩法，使用牌型选择调用相应的牌型决策类即可。因此，本方案提出的框架可以快速扩展到其他麻将玩法中，极大地降低了开发成本，具有一定的通用性。

2）、本方案提出的高效精确搜索的麻将智能决策方法具备胡牌速度快、得分高和低点炮率的优点。相比一般的决策方法，本方案提出的高效精确搜索的麻将智能决策方法是结合了启发式的规则和搜索树来实现的，探索胡牌路径时更加全面和精确，同时，搜索树的评估模块使用了胡牌概率估计、得分检测和防守模型3个模块分别来计算路径的胡牌概率、得分和出牌危险率，全面的评估值使最终的决策具备了胡牌速度快、得分高和点炮率低的优点。而目前的一些决策方法只是采用了胡牌概率作为最终的评估指标，其决策效果过于片面，容易错过打出高分牌型，或出牌具有较高的点炮风险等。

3）、本方案提出的决策框架具有计算资源少、高度轻量性和易移植的优点。与传统的全扩展的搜索树方法相比，本方案使用了1中的手牌拆分组合作为扩展策略来探索搜索树，使搜索具备了精确导向，具有极高的剪枝效率，有效降低了搜索范围，降低了计算资源的消耗。同时，本方案程序的实现不依赖于计算环境，可以适用于各种平台，具备高度的轻量性和易移植的优点。

实施例二

请参阅图3，所示为本发明第二实施例中的高效精确搜索的麻将智能决策方法，应用于麻将智能决策设备，该麻将智能决策设备可以由软件和/或硬件来实现所述方法，所述方法具体包括步骤S11- S17：

步骤S11，按麻将规则中的预设组合牌对手牌进行拆分组合，得到多种手牌组合。

步骤S12，移除同等牌力的手牌组合。

步骤S13，计算移除之后剩下的每种所述手牌组合的向听数。

步骤S14，选取向听数小于阈值的手牌组合作为目标手牌组合，所述目标手牌组合包括搭子牌组集合和剩余未组合牌。

步骤S15，以所述搭子牌组集合需求的有效牌扩展摸牌结点、并以所述剩余未组合牌扩展出牌节点，探索构建多条胡牌路径。

步骤S16，计算每条所述胡牌路径的胡牌概率、危险概率和获胜得分，并根据每条所述胡牌路径的胡牌概率、所述危险概率和所述获胜得分，计算得到每条所述胡牌路径的路径期望值。

在具体实施时，在搜索树每次进行出牌结点扩展时，都会先检测该结点的手牌是否已经达到获胜模式。对于已经达到获胜模式的路径则停止下一步的扩展，并对本条路径进行评估，本文设定了获胜概率来评估本条路径达到获胜模式的难易度，由路径中所有有效牌获取概率累乘得到，其形式化过程如公式（13）所示：

式中，P _winning表示所述胡牌概率，

表示所述胡牌路径中第i个所述有效牌的获取概率，n表示所述胡牌路径中所述有效牌的总数。

在麻将博弈中，有效牌的获取概率由其剩余数量和获取途径决定。具体的，剩余数量表示该张有效牌尚未出现的张数，而获取途径与搭子类别和具体情景有关，例如对子的有效牌可以通过碰和摸动作获取，碰可以碰3家，因此获取途径为4，而在间隔搭和连续搭中，有效牌的获取途径为摸和吃，而吃动作只能吃上家，因此获取途径为2，但在听牌阶段时，所有有效牌都可以通过自摸和点炮胡获取，此时获取途径都为4。但是以上分析都只是发生在理想情景下，例如尚未出现的有效牌可能同时出现在对手的手牌中，或同时被其他玩家所需要，导致我们对剩余有效牌的获取概率计算不够准确，此外还受到某些麻将规则的影响，例如在江西上饶麻将中，杠牌有奖励分，因此可以适当增加碰牌权重，通过再次补杠来获取更多的赢分。在防守模型中，本文已经通过建立了对手模型生成了每张牌的自摸概率表T _self-mo和其他玩家有效牌概率表RT，所以最终的有效牌获取概率的权重计算方法如公式（14）所示：

式中，P _taking表示该有效牌的获取概率, R₁,R₂,R₃分别表示玩家1，玩家2与玩家3将该牌作为有效牌的概率，可以通过RT表计算得到，计算方法为R=R ^AA+R ^AB/AC；P _self-mo为该张牌的自摸概率，可以通过T _self-mo表得到。

此外，应当说明的是，在麻将博弈中，可能存在打出的牌被其他玩家吃、碰加速对手获胜进程的间接风险与点炮输掉对局的直接风险。具体地，受到麻将规则和博弈时段的影响，出牌对每位对手的风险并不一样，例如在博弈中期，主要是避免被对手吃碰，其中防被吃只需要针对于下家，而到了博弈后期，此时需要重点避免点炮而输掉对局。借助于防守模型中生成的每位玩家有效牌概率表RT，本文对每张出牌的风险值计算方法如公式（15）所示：

式中，对于每位玩家z∈{1,2,3}，R _z表示该牌作为玩家z有效牌的概率，并且有R _z = R _z ^AA + R _z ^AB/AC，R _z ^AA与R _z ^AB/AC可以通过RT表得到，P _WN1_i表示第i轮向听数为1的概率，由该种类麻将玩法的向听数与轮数关系的统计结果中此轮1向听的占比计算得到。

当搜索树在完成搜索目标后，整条路径的危险度由路径上所有出牌的危险度累乘得到，其计算方法如公式（16）所示：

式中，D _risk表示所述胡牌路径的危险概率，

表示所述胡牌路径上的第i次出牌的风险值，n表示所述胡牌路径的所有出牌总数。

最后，在树搜索算法中，对已经达到获胜模式的路径进行总体评估，该评估值结合了获胜概率，出牌危险度和分数，计算方法如公式（17）所示：

步骤S17，根据路径期望值最大的胡牌路径进行出牌决策和吃碰杠动作决策。

实施例三

本发明另一方面还提供一种麻将智能决策系统，请查阅图4，所示为本发明第三实施例中的麻将智能决策系统，应用于麻将智能决策设备，所述系统包括：

手牌拆分模块11，用于按麻将规则中的预设组合牌对手牌进行拆分和组合，并得出目标手牌组合，所述目标手牌组合包括搭子牌组集合和剩余未组合牌集合；

路径探索模块12，用于以所述搭子牌组集合需求的有效牌扩展摸牌结点、并以所述剩余未组合牌扩展出牌节点，探索构建多条胡牌路径；

参数计算模块13，用于计算每条所述胡牌路径的胡牌概率、危险概率和获胜得分，并根据每条所述胡牌路径的胡牌概率、所述危险概率和所述获胜得分，计算得到每条所述胡牌路径的路径期望值；

智能决策模块14，用于根据路径期望值最大的胡牌路径进行出牌决策和吃碰杠动作决策。

进一步地，在一些可选实施例当中，所述手牌拆分模块11包括：

手牌拆分单元，用于按所述预设组合牌对手牌进行拆分和组合，得到多种手牌组合；

向听数计算单元，用于计算每种所述手牌组合的向听数；

组合确定单元，用于选取向听数小于阈值的手牌组合作为所述目标手牌组合。

进一步地，在一些可选实施例当中，所述手牌拆分模块还包括：

组合筛选单元，用于移除或合并同等牌力的手牌组合。

进一步地，在一些可选实施例当中，所述麻将智能决策系统还包括：

所述胡牌路径的胡牌概率的计算公式为：

式中，P _winning表示所述胡牌概率，

其中，

T2表示所述搭子牌组集合，AA表示对子，AB表示连续搭子，AC表示间隔搭子，R _z表示所述有效牌作为对手玩家z有效牌的概率，通过出牌危险度概率表获取得到，其中z∈{1,2,3}，代表己方后以逆时针方向的其他玩家；p _self-mo为所述有效牌的自摸概率，通过自摸概率表获取得到，所述自摸概率表和所述出牌危险度概率表由预设防守模型输出得到。

进一步地，在一些可选实施例当中，所述胡牌路径的危险概率的计算公式为：

式中，D _risk表示所述胡牌路径的危险概率，

其中，

进一步地，在一些可选实施例当中，所述路径期望值的计算公式为：

需要说明的是，上述各模块、单元被执行时所实现的功能或操作步骤与上述方法实施例大体相同，在此不再赘述。

综上，本发明上述实施例当中的麻将智能决策系统，通过手牌拆分组合作为扩展策略来探索搜索胡牌路径，使搜索具备了精确导向，降低了计算资源和时间的消耗。此外本方案提出的高效精确搜索的麻将智能决策方法是结合了启发式的规则和搜索树来实现的，探索胡牌路径时更加全面和精确，同时，采用胡牌概率、危险概率和获胜得分来对胡牌路径进行全面评估，使最终的决策具备了胡牌速度快、得分高和低点炮率的优点。

实施例四

本发明另一方面还提出一种麻将智能决策设备，请参阅图5，所示为本发明第四实施例当中的麻将智能决策设备，包括处理器10、存储器20以及存储在存储器上并可在处理器上运行的计算机程序30，所述处理器10执行所述计算机程序30时实现如上述的高效精确搜索的麻将智能决策方法。

其中，所述麻将智能决策设备可以为但不限于麻将机、电脑、手机等能够进行虚拟麻将游戏的计算机设备。处理器10在一些实施例中可以是一中央处理器（CentralProcessing Unit, CPU）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器20中存储的程序代码或处理数据，例如执行麻将决策程序等。

其中，存储器20至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器20在一些实施例中可以是麻将智能决策设备的内部存储单元，例如该麻将智能决策设备的硬盘。存储器20在另一些实施例中也可以是麻将智能决策设备的外部存储装置，例如麻将智能决策设备上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，存储器20还可以既包括麻将智能决策设备的内部存储单元也包括外部存储装置。存储器20不仅可以用于存储安装于麻将智能决策设备的应用软件及各类数据，例如麻将决策程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

可选地，该麻将智能决策设备还可以包括用户接口、网络接口、通信总线等，用户接口可以包括显示器（Display）、输入单元比如键盘（Keyboard），可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在麻将智能决策设备中处理的信息以及用于显示可视化的用户界面。网络接口可选的可以包括标准的有线接口、无线接口（如WI-FI接口），通常用于在该装置与其他电子装置之间建立通信连接。通信总线用于实现这些组件之间的连接通信。

需要指出的是，图5示出的结构并不构成对麻将智能决策设备的限定，在其它实施例当中，该麻将智能决策设备可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

综上，本发明当中的麻将智能决策设备，通过手牌拆分组合作为扩展策略来探索搜索胡牌路径，使搜索具备了精确导向，降低了计算资源和时间的消耗。此外本方案提出的高效精确搜索的麻将智能决策方法是结合了启发式的规则和搜索树来实现的，探索胡牌路径时更加全面和精确，同时，采用胡牌概率、危险概率和获胜得分来对胡牌路径进行全面评估，使最终的决策具备了胡牌速度快、得分高和低点炮率的优点。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的高效精确搜索的麻将智能决策方法。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或装置（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或装置取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或装置而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或装置或结合这些指令执行系统、装置或装置而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。