CN105426969A - 一种非完备信息的博弈策略生成方法 - Google Patents

一种非完备信息的博弈策略生成方法 Download PDF

Info

Publication number
CN105426969A
CN105426969A CN201510491027.XA CN201510491027A CN105426969A CN 105426969 A CN105426969 A CN 105426969A CN 201510491027 A CN201510491027 A CN 201510491027A CN 105426969 A CN105426969 A CN 105426969A
Authority
CN
China
Prior art keywords
opponent
information
behavior
game
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510491027.XA
Other languages
English (en)
Inventor
李翔
吴朝晖
姜晓红
包友军
陈英芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201510491027.XA priority Critical patent/CN105426969A/zh
Publication of CN105426969A publication Critical patent/CN105426969A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种非完备信息博弈下的策略生成方法,包括以下具体步骤:对手行为建模步骤,即在博弈进行之前,根据该博弈的特定规则,对对手的每一种行为进行建模;行为收集与信息预测步骤,在博弈过程中,记录对手每一次行动的信息,并通过模型将这些信息转化为对手信息的概率分布;根据预测进行胜率计算步骤,根据得到的概率分布,通过蒙特卡洛方法进行模拟得到自己的胜率;最后根据胜率计算每个行动的期望受益,并选择期望受益最高的行动作为最终决策。本发明为非完备信息博弈提供了全新的思路,具有逻辑清晰、实现简单、对手信息和胜率计算准确的优点,可以提高具体情境下的决策能力,最大化决策利益,从而提高工业生产效率。

Description

一种非完备信息的博弈策略生成方法
技术领域
本发明涉及一种完备信息博弈下的策略生成方法,特别涉及具有完美回忆特征的非完备信息博弈的策略生成方法。
背景技术
博弈大致可以分为两种:完备信息下的博弈和非完备信息下的博弈。前者指双方都可以完全获得当前的信息,例如在围棋、象棋和五子棋的对弈过程中,双方对棋盘上的所有棋子分布、对手的动作都可以完全地获得;后者指双方无法获得全盘的信息,例如在大量扑克游戏中(德州扑克、桥牌等),任何玩家都无法在游戏过程中直接观看其它玩家的手牌。博弈问题的求解是人工智能领域的重要问题。
在完备信息的博弈中,极大极小值算法获得了巨大成功。该算法以当前状态作为根节点构造博弈树,并从当前状态出发,遍历往后若干(k)步内的所有情况。假设对手也是以最优的策略进行博弈,则算法可以得出一条从当前节点(根节点)出发到k步之后的一条路径。算法将这条路径的第一步选作最优策略进行博弈。该算法的最主要局限在于时间复杂度为O(xk),是一个指数形式。其中x是每一个状态下,可能的决策数量,k为算法往后推测算的步数。为了降低时间复杂度以及实际等待时间,出现了α-β剪枝、搜索顺序优化、直接进行状态查找匹配、利用对手思考时间计算等优化方法。这些方法有效地提高了算法的运行效率,尤其在一些特殊情况下,例如:1)设计了开局库的象棋博弈程序,可以在开局若干步内直接检索事先存储的开局库并给出最优策略(比如是象棋大师实战的,或者是程序长时间计算得出的着法);2)经过了搜索顺序优化和α-β剪枝优化的象棋算法,在对方将军时优先搜索应将的着法(应将的着法一般不多),则可以显著加快得到最优解的速度。
在非完备信息的博弈中,由于无法得知全部的信息,也无法推测我们在进行一步行动之后,对手会以怎样的动作和我们进行对抗。这使得原有的优化算法难以直接应用在非完备信息的博弈中。因此出现了利用机器学习技术学习职业选手的对局的方法。该方法的缺点在于数据量的需求过大。部分博弈游戏的特殊性,并没有过多的文本化的记录信息,甚至不存在职业选手。另一种方法是进行纳什均衡点的搜索。影响该方法普遍使用的最大障碍在于理论非常艰深,实现过于复杂。
发明内容
本发明针对非完备信息的博弈中所存在的对手信息无法确定、决策期望值无法计算的问题,提供了一种根据对手行动推测对手信息,从而计算最终决策期望值的方法,并作出最终决策的方法。
为实现上述目的,本发明可采取下述技术方案:
一种非完备信息博弈的策略生成方法,所述非完备信息的博弈特指具有以下特征的博弈:博弈过程中,对手的行为对自己而言可见;博弈过程中,对手的行为对自己而言可以完美回忆;对手的行为依赖其信息,即对手的行为可以体现对手的信息;包括以下步骤:
步骤一,对手行为建模:在博弈进行之前,根据该博弈的特定规则,对对手的每一种行为建立模型,所述模型用于将对手的行为与对手信息的概率分布进行映射;
步骤二,行为收集与信息预测:在博弈过程中,记录对手每一次行为的信息,并将这些信息与步骤一中的模型进行匹配和映射,得到对手信息的概率分布;
步骤三,胜率计算:根据步骤二中映射得到的概率分布,通过蒙特卡洛方法进行模拟得到自身的胜率;
步骤四,得到行动:根据步骤三中得到的胜率,通过计算期望值得到相应的行动。
进一步的,所述步骤一中的模型以对手的行为作为输入,以对手信息的概率分布作为输出;
具体的,假设对手的信息有k种可能性,记为{a1,a2,…,ak},对于每一种可能性ai,i=1,2,…,k,首先根据对手行为与ai的匹配程度得到一个匹配值mi,然后计算每一种可能性的概率值pi
pi=mi/(m1+m1+…+mn)
从而得到所有可能性的概率分布,也就是一个k维向量{p1,p2,…,pk},其中pi是对手的信息取ai的概率。如果对手的行为已经不止一次(即博弈进行了多个阶段),则对手的信息实际上是一个列表,包括了以往的历史行为。这个时候,我们需要将对手信息ai多次地与对手不同阶段的行为进行匹配,然后将多个匹配值的乘积作为上式中的mi的值。
进一步的,如果一次博弈包括多次对手行为,则所述步骤二中对手信息包括本次博弈中对手的所有历史行为;所述的所有历史行为组成一个列表,所述列表通过步骤一中的模型映射成一个k维概率分布。该k维概率分布不仅反映了对手本次的行为,也反映了对手的历史行为,从而使概率分布可以更加准确。
进一步的,所述步骤三中,通过蒙特卡洛方法随机选择对手的一个信息,假设为ai,ai服从步骤二中产生的概率分布;以ai作为对手信息(相当于我们已经知道了本来只有对手可见的信息),并判断博弈的胜负;将蒙特卡洛方法循环若干次,即多次选取ai,多次比较判断博弈胜负,从而得到博弈的胜率pwin
pwin=countwin/countlose
其中,countwin是获胜的次数;countlose是失败的次数。
使用蒙特卡洛方法随机选择对手信息的时候,对于任何两个信息a1和a2,由于是按照对应的概率分布进行选取(以概率p1选a1,概率p2选a2),如果产生的概率分布中p2>p1,则我们选取a2的可能也会大于a1
进一步的,所述步骤四中,将步骤三中得到的胜率作为基础进行决策;在非完备信息博弈中,因为无法得知对手的信息,也就无从知道博弈的最终胜负。但本发明的方法通过合理的预测,在得到对手信息的概率分布的前提下,预测比赛的胜率(方便起见,假设该博弈没有平局)。
具体的,假设胜率为pwin,在当前状态下有m种行动可供选择:{action1,action2,…actionn},对于行动actioni,如果博弈胜利的收益为payoffi,win,失败的收益为payoffi,lose,则选择收益期望值最高的行动作为最终决策actionresult,即:
Actionresult=actionr,使且x∈[0,n],有Ex≤Er
其中,Ex、Er分别是决策actionx和actionr的收益期望;对于任何决策actioni的收益期望Ei,用如下方法计算:
Ei=pwin×payoffi,win+(1-pwin)×payoffi,lose
本发明的非完备信息的博弈策略生成方法,逻辑清晰、实现简单、对手信息和胜率计算准确,实战效果显著。在非完备信息的博弈中,可以准确的推测对手的信息,从而计算自己在选择不同策略时的期望,进而帮助自己进行博弈。本发明为非完备信息博弈提供了全新的思路。无论是在人-机博弈,还是机-机博弈中,均能有效地解决非完备信息博弈中的瓶颈问题:对不可见信息的评估。甚至在对手有意进行欺骗(即对手所选择的行动完全不体现其信息)的情况下,只要本方法与对手博弈足够长的时间,便可以对其行为进行建模。之后如果对手再次采取类似的欺骗手段,本发明仍然可以有效地进行判断。由于现实生活中的大量情况可以抽象成非完全信息博弈(比如工程招投标过程、股市等大量经济活动),因此该方法在现实活动及工业生产中具有重要的指导意义,可以提高具体情境下的决策能力,最大化决策利益,提高工业生产效率。
附图说明
图1为本发明的非完备信息博弈的策略生成方法的流程示意图。
具体实施方式
本发明提供了一种非完备信息的博弈策略生成方法,包括以下具体步骤:
对手行为建模步骤:在博弈进行之前,根据该博弈的特定规则,对对手的每一种行为进行建模。该模型可以将对手的行为与对手的信息(仅对手可见)的概率分布进行映射。
行为收集与信息预测:在博弈过程中,记录对手每一次行动的信息,并将这些信息与模型进行匹配和映射,得到对手的信息的概率分布;
根据预测进行胜率计算:根据上一步中映射得到的概率分布,通过蒙特卡洛方法进行模拟得到自己的胜率。
根据胜率得到行动:根据上一步中得到的胜率,通过计算期望值得到相应的行动。
于本发明的一个实施例中,对手行为建模步骤中的模型以对手的行为作为输入,以对手信息的概率分布作为输出。例如对手的信息有k中可能性,记为{a1,a2,…,ak}。对手信息的概率分布指的是k维向量{p1,p2,…,pk},其中pi是对手的信息取ai的概率。
于本发明的一个实施例中,如果一次博弈包括多次对手行为,则行为收集与信息预测步骤中的对手信息包括本次博弈中对手的所有历史行为。这些历史行为组成一个列表。该列表通过行为建模步骤中的模型映射成一个k维概率分布。该k维概率分布不仅反映了对手本次的行为,也反映了对手的历史行为,
从而使概率分布可以更加准确。
于本发明的一个实施例中,在胜率计算时,通过蒙特卡洛方法随机选择对手的一个信息,假设为ai。ai服从步骤(200)中产生的概率分布。以ai作为对手信息(相当于我们已经知道了本来只有对手可见的信息),并判断博弈的胜负。我们将蒙特卡洛方法循环若干次,即多次选取ai,多次比较判断博弈胜负,便可以得到本次博弈的胜率。
pwin=countwin/countlose
其中,countwin是获胜的次数;countlose是失败的次数。
在使用蒙特卡洛方法随机选择对手信息的时候,对于任何两个信息a1和a2,由于是按照对应的概率分布进行选取(以概率p1选a1;概率p2选a2),如果产生的概率分布中a2>a1,则我们选取a1的可能也会大于a1
于本发明的一个实施例中,所述的行动生成步骤,是将上一步得到的胜率作为基础进行决策。在非完备信息博弈中,因为无法得知对手的信息,也就无从知道博弈的最终胜负。但本方法通过合理的预测,在得到对手信息的概率分布的前提下,预测比赛的胜率(方便起见,假设该博弈没有平局)。假设胜率为pwin。我们在当前状态下有m种行动可供选择:{action1,action2,…actionn}。对于行动actioni,如果博弈胜利的收益为payoffi,win;失败的收益为payoffi,lose。则我们将选择收益期望值最高的行动作为最终决策actionresult,即:
Actionresult=actionr,使且x∈[0,n],有Ex≤Er
其中,Ex、Er分别是决策actionx和actionr的收益期望。对于任何决策actioni的期望收益,用如下方法计算:Ei=pwin×payoffi,win+(1-pwin)×payoffi,lose
下面以德州扑克作为一个非完备信息博弈的实例,对本发明作进一步的详细描述。
实施例1
我们基于以下假设:对手采取更激进的行为(例如加注和再加注)的时候,更有可能拥有好牌(也就是胜率高的牌);相反,对手行为保守时(例如过牌),牌力较差的可能性则更大。
如图1所示,首先对对手行为进行建模。我们将对手的行为简化为三种:弃牌/过牌、跟注、加注;将对手的手牌通过平均胜率予以表征。在本例中,对手的手牌就是我们无法得知的信息。我们通过对手的行为来推测对手手牌的概率分布。
1)首先,我们遍历对手所有手牌的可能性。对于任何一种情况(记为ai),我们先计算该手牌与对手行为的匹配程度(匹配值mi)。具体计算方法如下:
对手的每一种行为(弃牌/过牌、跟注、加注)有一个“完美匹配区间”S和一个“基准线”L。如果ai的胜率落在区间S内,则匹配值为最高值100。如果概率不在区间S内且大于L,则匹配值mi=(1-L)/(ai–L);若概率不在区间内且小于L,则匹配值mi=L/(L–ai)。
2)接下来,我们计算每一种手牌的概率:
pi=mi/(m1+m1+…+mn)
例如,当前处于翻牌后下注状态。我们已知对手在翻牌前跟注,在翻牌后则进行了过牌(假设我们后行动,可以观察本轮对手的行动)。翻牌的公共牌为我们的手牌为德州扑克中,所有的牌为52张。除去现有的5张,对手的手牌为剩余的47张牌中的2张,一共有C2(47)=1081种可能。我们对这1081中手牌进行遍历,分别计算其平均胜率。例如对手的手牌为与公共牌组成了一个底对。假如场面上的总玩家数为2。该玩家在不考虑其他因素的情况下,手持在翻牌前的胜率为57.664%,翻牌后的胜率为70.815%。该玩家在翻牌前的操作是跟注。在模型中,跟注的完美匹配区间为[0.5,0.7],基准线是0.5。因此胜率57.664%属于该区间,所以匹配值为100。翻牌后对手选择过牌,过牌的完美匹配区间为[0,0.5],基准线是0.4。胜率70.815%不属于该区间且大于基准线,所以匹配值为(1-0.4)/(0.70815–0.4)=1.95。我们将两次的匹配值的乘积100*1.95=195作为手牌的匹配值。
以此类推,我们对1081种手牌的匹配值一一进行计算并求和,再将每一种手牌的匹配值除以该求和的值作为该手牌的概率值{p1,p2,…,p1081}。
在当前情况下,出现了三张公共牌,由于我们的手牌已知,对手的手牌概率分布{p1,p2,…,p1081}也已知。我们使用蒙特卡洛方法,按照这个概率分布选取对手的手牌,再随机生成后续的两张公共牌(转牌与河牌),以此得出自身与对手的胜负关系。重复10000次,得到胜率pwin
pwin=countwin/countlose
其中,countwin是获胜的次数;countlose是失败的次数。
假设在当前情况下,我们可能的行为选择有:弃牌、跟注、加注三种。在不考虑后续加注的得失的情况下,如果我们弃牌,收益必然为0;如果我们跟注(所需筹码为betcall)且获胜则收益为底池pot,如果失败则收益为-betcall。如果我们加注(betraise)且获胜则收益为底池pot(这里还需考虑对手是否跟注,情况更为复杂,我们将其简化),如果失败则收益为-betraise。所以三种可选行为的期望值分别为
Efold=0
Ecall=pwin*pot-(1-pwin)*betcall
Eraise=pwin*pot-(1-pwin)*betraise
我们选择收益期望最高的行为作为最终决策。

Claims (5)

1.一种非完备信息博弈的策略生成方法,所述非完备信息的博弈特指具有以下特征的博弈,博弈过程中,对手的行为对自己而言可见;博弈过程中,对手的行为对自己而言可以完美回忆;对手的行为依赖其信息,即对手的行为可以体现对手的信息;
其特征在于,包括以下步骤:
步骤一,对手行为建模:在博弈进行之前,根据该博弈的特定规则,对对手的每一种行为建立模型,所述模型用于将对手的行为与对手信息的概率分布进行映射;
步骤二,行为收集与信息预测:在博弈过程中,记录对手每一次行为的信息,并将这些信息与步骤一中的模型进行匹配和映射,得到对手信息的概率分布;
步骤三,胜率计算:根据步骤二中映射得到的概率分布,通过蒙特卡洛方法进行模拟得到自身的胜率;
步骤四,得到行动:根据步骤三中得到的胜率,通过计算期望值得到相应的行动。
2.根据权利要求1所述的非完备信息博弈的策略生成方法,其特征在于,所述步骤一中的模型以对手的行为作为输入,以对手信息的概率分布作为输出;
具体的,假设对手的信息有k种可能性,记为{a1,a2,…,ak},对于每一种可能性ai,i=1,2,…,k,首先根据对手行为与ai的匹配程度得到一个匹配值mi,然后计算每一种可能性的概率值pi
pi=mi/(m1+m1+…+mn)公式一
从而得到所有可能性的概率分布,也就是一个k维向量{p1,p2,…,pk},其中pi是对手的信息取ai的概率。
3.根据权利要求2所述的非完备信息博弈的策略生成方法,其特征在于,当博弈进行了多个阶段,对手的行为不止一次时,对手的信息为包括了以往的历史行为的一个列表,此时,将对手信息ai多次地与对手不同阶段的行为进行匹配,然后将多个匹配值的乘积作为公式一中的mi的值。
4.根据权利要求3所述的非完备信息的博弈策略生成方法,其特征在于,所述步骤三中,通过蒙特卡洛方法随机选择对手的一个信息,假设为ai,其中ai服从步骤二中产生的概率分布;以ai作为对手信息,并判断博弈的胜负;将蒙特卡洛方法循环若干次,即多次选取对手的信息,多次比较判断博弈胜负,从而得到博弈的胜率pwin
pwin=countwin/countlose
其中,countwin是获胜的次数;countlose是失败的次数。
5.根据权利要求4所述的非完备信息博弈策略的生成方法,其特征在于,所述步骤四中,将步骤三中得到的胜率作为基础进行决策;
具体的,假设胜率为pwin,在当前状态下有m种行动可供选择:
{action1,action2,…actionn},对于行动actioni,如果博弈胜利的收益为payoffi,win,失败的收益为payoffi,lose,则选择收益期望值最高的行动作为最终决策actionresult,即:
Actionresult=actionr,使且x∈[0,n],有Ex≤Er
其中,Ex、Er分别是决策actionx和actionr的收益期望;对于任何决策actioni的收益期望Ei,用如下方法计算:
Ei=pwin×payoffi,win+(1-pwin)×payoffi,lose
CN201510491027.XA 2015-08-11 2015-08-11 一种非完备信息的博弈策略生成方法 Pending CN105426969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510491027.XA CN105426969A (zh) 2015-08-11 2015-08-11 一种非完备信息的博弈策略生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510491027.XA CN105426969A (zh) 2015-08-11 2015-08-11 一种非完备信息的博弈策略生成方法

Publications (1)

Publication Number Publication Date
CN105426969A true CN105426969A (zh) 2016-03-23

Family

ID=55505164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510491027.XA Pending CN105426969A (zh) 2015-08-11 2015-08-11 一种非完备信息的博弈策略生成方法

Country Status (1)

Country Link
CN (1) CN105426969A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677923A (zh) * 2016-03-24 2016-06-15 安徽大学 爱恩斯坦棋基于攻防兼备估值函数的博弈搜索方法
CN106469317A (zh) * 2016-09-20 2017-03-01 哈尔滨工业大学深圳研究生院 一种基于非完备信息博弈中进行对手建模的方法
CN107894923A (zh) * 2017-11-11 2018-04-10 北京信息科技大学 一种通用的计算机博弈问题策略搜索引擎类库
CN107909889A (zh) * 2017-11-23 2018-04-13 陕西科技大学 一种基于视觉引导的五子棋人机对弈实验教学系统
CN108446801A (zh) * 2018-03-22 2018-08-24 成都大象分形智能科技有限公司 一种多人信息非对称博弈游戏决策生成系统
CN109562298A (zh) * 2016-06-30 2019-04-02 索尼互动娱乐股份有限公司 自动人工智能(ai)个人助理法
CN109598342A (zh) * 2018-11-23 2019-04-09 中国运载火箭技术研究院 一种决策网络模型自博弈训练方法及系统
CN110457534A (zh) * 2019-07-30 2019-11-15 深圳市腾讯网域计算机网络有限公司 一种基于人工智能的数据处理方法、装置、终端及介质
CN111494959A (zh) * 2020-04-22 2020-08-07 腾讯科技(深圳)有限公司 游戏操控方法、装置、电子设备及计算机可读存储介质
CN111667075A (zh) * 2020-06-12 2020-09-15 杭州浮云网络科技有限公司 一种业务执行方法、装置及其相关设备
CN112685921A (zh) * 2021-03-12 2021-04-20 中至江西智能技术有限公司 一种高效精确搜索的麻将智能决策方法、系统及设备
CN114089627A (zh) * 2021-10-08 2022-02-25 北京师范大学 基于双深度q网络学习的非完全信息博弈策略优化方法
CN114146401A (zh) * 2021-12-30 2022-03-08 中至江西智能技术有限公司 一种麻将智能决策方法、装置、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101808020A (zh) * 2010-04-19 2010-08-18 吉林大学 基于不完全信息动态博弈的入侵响应决策方法
CN103279800A (zh) * 2013-01-10 2013-09-04 吉林大学 基于博弈论的大规模人群疏散最优逃生路线生成方法
CN103559363A (zh) * 2013-11-15 2014-02-05 南京大学 一种不完美信息扩展式博弈中计算最佳反应策略的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101808020A (zh) * 2010-04-19 2010-08-18 吉林大学 基于不完全信息动态博弈的入侵响应决策方法
CN103279800A (zh) * 2013-01-10 2013-09-04 吉林大学 基于博弈论的大规模人群疏散最优逃生路线生成方法
CN103559363A (zh) * 2013-11-15 2014-02-05 南京大学 一种不完美信息扩展式博弈中计算最佳反应策略的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LUÍS FILIPE TEÓFILO ETAL.: "Adapting strategies to opponent models in incomplete information games: a reinforcement learning approach for poker", 《PROCEEDINGS OF AUTONOMOUS AND INTELLIGENT SYSTEMS》 *
RUBIN J ETAL.: "Successful performance via decision generalisation in no limit Texas Hold’em", 《PROCEEDINGS OF 19TH INTERNATIONAL CONFERENCE ON CASE-BASED REASONING RESEARCH AND DEVELOPMENT》 *
曹一鸣: "基于蒙特卡罗树搜索的计算机扑克程序", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
马骁 等: "一类非完备信息博弈的信息模型", 《计算机研究与发展》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677923A (zh) * 2016-03-24 2016-06-15 安徽大学 爱恩斯坦棋基于攻防兼备估值函数的博弈搜索方法
CN109562298A (zh) * 2016-06-30 2019-04-02 索尼互动娱乐股份有限公司 自动人工智能(ai)个人助理法
CN109562298B (zh) * 2016-06-30 2022-06-28 索尼互动娱乐股份有限公司 自动人工智能(ai)个人助理法
CN106469317A (zh) * 2016-09-20 2017-03-01 哈尔滨工业大学深圳研究生院 一种基于非完备信息博弈中进行对手建模的方法
CN107894923B (zh) * 2017-11-11 2021-06-08 北京信息科技大学 一种通用的计算机博弈问题策略搜索引擎类库
CN107894923A (zh) * 2017-11-11 2018-04-10 北京信息科技大学 一种通用的计算机博弈问题策略搜索引擎类库
CN107909889A (zh) * 2017-11-23 2018-04-13 陕西科技大学 一种基于视觉引导的五子棋人机对弈实验教学系统
CN108446801A (zh) * 2018-03-22 2018-08-24 成都大象分形智能科技有限公司 一种多人信息非对称博弈游戏决策生成系统
CN109598342A (zh) * 2018-11-23 2019-04-09 中国运载火箭技术研究院 一种决策网络模型自博弈训练方法及系统
CN110457534A (zh) * 2019-07-30 2019-11-15 深圳市腾讯网域计算机网络有限公司 一种基于人工智能的数据处理方法、装置、终端及介质
CN111494959A (zh) * 2020-04-22 2020-08-07 腾讯科技(深圳)有限公司 游戏操控方法、装置、电子设备及计算机可读存储介质
CN111494959B (zh) * 2020-04-22 2021-11-09 腾讯科技(深圳)有限公司 游戏操控方法、装置、电子设备及计算机可读存储介质
CN111667075A (zh) * 2020-06-12 2020-09-15 杭州浮云网络科技有限公司 一种业务执行方法、装置及其相关设备
CN112685921A (zh) * 2021-03-12 2021-04-20 中至江西智能技术有限公司 一种高效精确搜索的麻将智能决策方法、系统及设备
CN112685921B (zh) * 2021-03-12 2021-06-15 中至江西智能技术有限公司 一种高效精确搜索的麻将智能决策方法、系统及设备
CN114089627A (zh) * 2021-10-08 2022-02-25 北京师范大学 基于双深度q网络学习的非完全信息博弈策略优化方法
CN114089627B (zh) * 2021-10-08 2023-09-15 北京师范大学 基于双深度q网络学习的非完全信息博弈策略优化方法
CN114146401A (zh) * 2021-12-30 2022-03-08 中至江西智能技术有限公司 一种麻将智能决策方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
CN105426969A (zh) 一种非完备信息的博弈策略生成方法
CN107970608B (zh) 关卡游戏的设置方法和装置、存储介质、电子装置
Fu AlphaGo and Monte Carlo tree search: the simulation optimization perspective
Whitehouse et al. Determinization and information set monte carlo tree search for the card game dou di zhu
US20190184286A1 (en) Method and device for generating character behaviors in game and storage medium
Świechowski et al. Self-adaptation of playing strategies in general game playing
CN109091868B (zh) 对战行为确定的方法、装置、计算机设备及存储介质
Teytaud et al. Creating an upper-confidence-tree program for Havannah
CN106055339A (zh) 二打一游戏中确定计算机玩家出牌策略的方法
Suznjevic et al. Application context based algorithm for player skill evaluation in MOBA games
Tong et al. A Monte-Carlo approach for ghost avoidance in the Ms. Pac-Man game
Fu Markov decision processes, AlphaGo, and Monte Carlo tree search: Back to the future
Liu et al. Lazy agents: a new perspective on solving sparse reward problem in multi-agent reinforcement learning
CN112870722B (zh) 对战格斗类ai游戏模型的生成方法、装置、设备及介质
Perez-Liebana et al. Analysis of statistical forward planning methods in Pommerman
Dobre et al. Online learning and mining human play in complex games
CN113230650A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN108304929A (zh) 一种点格棋最佳招法的确定方法及系统
Takada et al. Reinforcement learning for creating evaluation function using convolutional neural network in hex
Goldsmith et al. Competition adds complexity
Chou et al. Strategic choices: Small budgets and simple regret
Fangasadha et al. Literature Review of OpenAI Five’s Mechanisms in Dota 2’s Bot Player
Couëtoux et al. Monte carlo tree search in go
Felix et al. An experimental approach to online opponent modeling in Texas Hold’em Poker
JP7519199B2 (ja) 電子ゲーム情報処理装置及び電子ゲーム情報処理プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160323