CN113377779A - 一种围棋上的搜索博弈树的策略改进方法 - Google Patents

一种围棋上的搜索博弈树的策略改进方法 Download PDF

Info

Publication number
CN113377779A
CN113377779A CN202110760145.1A CN202110760145A CN113377779A CN 113377779 A CN113377779 A CN 113377779A CN 202110760145 A CN202110760145 A CN 202110760145A CN 113377779 A CN113377779 A CN 113377779A
Authority
CN
China
Prior art keywords
node
strategy
simulation
child
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110760145.1A
Other languages
English (en)
Other versions
CN113377779B (zh
Inventor
宁义明
杨木润
赵闯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Yaze Network Technology Co ltd
Original Assignee
Shenyang Yaze Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Yaze Network Technology Co ltd filed Critical Shenyang Yaze Network Technology Co ltd
Priority to CN202110760145.1A priority Critical patent/CN113377779B/zh
Publication of CN113377779A publication Critical patent/CN113377779A/zh
Application granted granted Critical
Publication of CN113377779B publication Critical patent/CN113377779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种围棋上的搜索博弈树的策略改进方法,以当前状态为根节点建立搜索树;选择根节点的一个孩子节点进行模拟,如有孩子节点还没有被模拟过,则从根节点的孩子节点里面随机选择一个孩子进行模拟;如所有孩子节点都被模拟过至少一次,则选择UCB分树最高的孩子节点;从选中的孩子节点开始模拟一直到叶子节点结束;模拟策略结合均匀采样和极小极大策略;将模拟最后的结果反向传播到根节点,路径上所有叶子的动作价值函数Q值和N值被更新;重复上述步骤多次,最后选择UCB中利用项分数最高的节点。本发明将改进算法应用在围棋的搜索策略中,通过了GNUGo,CGOS的评测,最后的实验结果表明该算法能提高围棋中博弈搜索的精准度。

Description

一种围棋上的搜索博弈树的策略改进方法
技术领域
本发明涉及一种围棋上的搜索博弈树的策略改进,具体为一种在围棋上的搜索博弈树的策略改进方法。
背景技术
蒙特卡罗方法在数值算法中有着悠久的历史,在各种人工智能游戏算法中也取得了显著的成功,尤其是在不完全信息的游戏中,如拼字游戏和桥牌游戏。然而,它真正在计算机上的成功,是通过蒙特卡罗方法在树的建立过程中的递归应用,这是MCTS的主要研究内容。围棋是人类玩家远远领先于电脑玩家的少数经典游戏之一,MCTS在缩小这一差距方面发挥了巨大的作用,现在它在小型棋盘上与最优秀的人类棋手竞争,尽管MCT在标准的19×19棋盘上远远低于他们的水平。围棋对计算机来说是一个很难玩的游戏:它有一个很高的分枝因子,一个很深的树,而且对于非终端板位置,它缺乏任何已知的可靠的启发式值函数。
蒙特卡罗树搜索(MCTS)是近年来提出的一种将树搜索的精度与随机抽样的一般性相结合的搜索方法。由于在计算机围棋这一难题上取得了惊人的成功,它引起了人们相当大的兴趣,但也被证明在其他领域也有益处。在过去的几年里,MCTS在许多特定游戏、一般游戏和复杂的现实世界规划、优化和控制问题上也取得了巨大的成功,并有望成为人工智能研究人员工具箱的重要组成部分。它可以为一个agent提供一些决策能力,而只需要很少的领域特定知识,它的选择性抽样方法可以为其他算法的混合和潜在改进提供一些见解。在接下来的十年里,人们期望看到MCTS成为越来越多研究者的焦点,并将其作为解决各种领域中大量问题的一部分而被采用。
极小极大搜索法MiniMax试图最小化对手在每个状态下的最大回报,是两人组合游戏的传统搜索方法。搜索通常会过早停止,并使用一个值函数来估计博弈结果,而α-β启发式搜索通常用于修剪树。尽管极小极大搜索法和其它一些减枝算法可以有效改进搜索效率,但是这些方法在像围棋这样有比较深的搜索树上来说还是不够的,搜索时间没有降低到令人满意的结果。
发明内容
针对现有技术存在的上述不足,本申请提供一种可以让算法更快收敛到真实的Q值、增加博弈胜率的在围棋上的搜索博弈树的策略改进方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明提供一种围棋上的搜索博弈树的策略改进方法,包括以下步骤:
1)以当前状态为根节点建立搜索树,树建立完成,其它所有节点隐式给出;
2)选择根节点的一个孩子节点进行模拟,如果有孩子节点还没有被模拟过,那么从根节点的孩子节点里面随机选择一个孩子进行模拟;如果所有孩子节点都被模拟过至少一次,那么选择UCB分树最高的孩子节点;
3)从选中的孩子节点开始模拟一直到叶子节点结束;模拟策略结合均匀采样和极小极大策略;
4)将模拟最后的结果反向传播到根节点,路径上所有叶子的动作价值函数Q值和N值被更新;
5)重复步骤1)~4)多次,最后选择的结果为UCB中利用项分数最高的节点。
步骤2)中选择UCB分数最高的孩子节点是计算UCB并返回的孩子伪代码,具体如下:
Figure BDA0003149300000000021
第一项
Figure BDA0003149300000000022
称为利用项,和过去的模拟情况有关,Q值取模拟结果为胜减模拟结果为负的差值;第二项
Figure BDA0003149300000000023
称为探索项,和每个节点模拟的次数有关,博弈时动作被选中的次数越少,对应节点探索项的分数就越高;c为常数项;
上述公式平衡利用项和探索项之间的关系,即使最开始奖励值比较低的节点在足够的时间之后也可能被选中。
更新路径上节点的Q值和N值时使用虚拟的win值初始化Q,每个节点从较高的Q值,经模拟完成后下降,偏向于选择其它节点进行模拟,增加探索的几率,最终收敛到真实的Q值。具体过程如图1所示。
初始Q值可根据先验知识人工设置。
步骤3)中,每次搜索会涉及到多次的模拟过程,当模拟次数足够多时,选择次优节点的概率收敛到0;将极小极大策略结合在一起,在己方行动时采用均匀采样,而在对方行动时采用极小极大算法有效避免陷阱状态。
本发明具有以下有益效果及优点:
1.本发明提供一种围棋上的搜索博弈树的策略改进方法,用于蒙特卡罗树搜索算法(MCTS)中,对DefaultPolicy进行改进,把均匀采样和极大极小算法结合在一起,避免了蒙特卡罗搜索落入陷阱状态;该方法虽然牺牲了一定的搜索时间,但是也增加了博弈的胜率,相比于普通的蒙特卡罗树搜索算法更有优势。
2.本发明方法改进了以往的从零开始的Q值初始化的策略,将使用更高的初始Q值来增加探索的可能性,可以让算法更快收敛到真实的Q值,增加博弈的胜率;改进算法应用在围棋的搜索策略中,通过了GNUGo,CGOS的评测,最后的实验结果表明该算法能提高围棋中博弈搜索的精准度。
附图说明
图1为本发明方法中UCT算法执行过程图示;
图2为本发明方法中RAVE算法执行过程图示;
图3为本发明方法中RAVE算法执行结果图示;
图4为本发明方法中的MiniMax图示;
图5为本发明方法中解决陷阱状态图示;
图6为本发明方法中将UCT和MiniMax结合在一起后的算法过程图示。
具体实施方式
本发明提供一种在围棋上的搜索博弈树的策略改进方法,包括以下步骤:
1)以当前状态为根节点建立搜索树,树建立完成,其它所有节点隐式给出;
2)选择根节点的一个孩子节点进行模拟,如果有孩子节点还没有被模拟过,那么从根节点的孩子节点里面随机选择一个孩子进行模拟;如果所有孩子节点都被模拟过至少一次,那么选择UCB分树最高的孩子节点;
3)从选中的孩子节点开始模拟一直到叶子节点结束;模拟策略结合均匀采样和极小极大策略;
4)将模拟最后的结果反向传播到根节点,路径上所有叶子的Q值和N值被更新;
5)重复步骤1)-4)多次,最后选择的结果为UCB中利用项分数最高的节点。
步骤2)中选择UCB分数最高的孩子节点是计算UCB并返回的孩子:
Figure BDA0003149300000000031
第一项
Figure BDA0003149300000000032
称为利用项,和过去的模拟情况有关,Q值取模拟结果为胜减模拟结果为负的差值,N为总的模拟次数;第二项
Figure BDA0003149300000000033
称为探索项,和每个节点模拟的次数有关,博弈时动作被选中的次数越少,对应节点探索项的分数就越高;c为常数项;
上述公式平衡利用项和探索项之间的关系,即使最开始奖励值比较低的节点在足够的时间之后也可能被选中。
对于第二项的常数c,很多时候是人工调整的。Kocsis和Szepesvari证明取c=1/√2可以满足Hoeffding不等式(如果第一项奖励的范围在[0,1])。但是在其它领域中c可以是不同的值,在游戏Go和Hex中,使用了一些启发式信息,故c取0--即没有探索项。对于蒙特卡罗树搜索最后的返回结果是第一项值最大的节点,也就是计算c取0的最大UCB。
更新路径上节点的Q值和N值时使用虚拟的win值初始化Q,每个节点从较高的Q值,经模拟完成后下降,偏向于选择其它节点进行模拟,增加探索的几率,最终收敛到真实的Q值。
在传统的MCTS算法中,Q和N初始化为0。然而有证据表明对搜索树用一些先验知识进行warm-up可以增强模拟的强度。本发明采用的方法是使用虚拟的win值初始化Q,在一开始每个节点都会有从较高的Q值,当叶子节点模拟完成后,因为一开始的Q值较高,所以在经模拟完成后Q值会下降,从而会偏向于选择其它节点进行模拟。这样可以某些节点增加探索的几率,并且该算法最终可以收敛到真实的Q值。此外,除了人工设置初始的Q值,可以利用一些先验知识设置Q值,比如说利用之前的搜索结果。
步骤3)中,每次搜索会涉及到多次的模拟过程。在Kocsis和Szepesvari的算法中采用的是均匀分布,可以证明,当模拟次数足够多时,选择次优节点的概率收敛到0;但是这种策略容易陷入陷阱状态(陷阱状态是一种这样的状态:从这个状态出发,在行动少量的步数之后会很快输掉游戏),因此本发明将对此改进。改进的方法是将极小极大策略结合在一起:在己方行动时采用均匀采样,而在对方行动时采用极小极大算法有效避免陷阱状态。极小极大算法描述如下:
301)首先计算出当前节点K步之后的叶子节点的分数,叶子节点的分数由一些已知的启发式信息计算得到;
302)反向更新父节点的分数直到根节点。更新规则如下:如果当前层是min层,则父节点取值为所有子节点中分数最小的,如果当前层是max层,则父节点取值为所有子节点中分数最大的。
在实际计算中可以使用一些减枝算法来提高效率,如α-β减枝。结合MiniMax算法可以有效避免陷阱状态。
在实施本发明方法之前采用马尔科夫决策过程作为分析问题的框架,运筹学和马尔可夫决策过程研究中探讨了效用由决策序列定义的问题。
马尔可夫决策过程模型完全可观测环境中的决策问题包含三个部分:
·S:一组状态,s0为初始状态;
·A:一组动作;
·T(s,a,s0):一个用来决定在状态s0下采取动作a,状态s0变为s的概率模型。
整体决策被建模为(状态,动作)对的序列,其中每个下一个状态s0由一个概率分布决定,该概率分布取决于当前状态s和所选择的动作a。策略是从状态到动作的映射,指定将从S中的每个状态中选择哪个操作。目标是找到产生最高预期回报的策略π。
在整个蒙特卡罗搜索过程,影响结果准确性的是DefaultPolicy,本发明将采用MiniMax算法来改进该策略;影响搜索速度的主要是UCB(Upper confidence bound),本发明采用RAVE(Rash Average Value Evaluate)算法来加快收敛速度。具体实现过程及原理如下:
1)动作价值函数Q的估计。算法是一种基于值的强化学习算法,只关注初始状态和后续状态树。动作价值函数Q(s,a)可以由表
Figure BDA00031493000000000510
表示,它包括了所有(状态,动作)对的子集。这可以看作是一个以开始状态s0为根节点的搜索树。通过蒙特卡罗模拟,对树中的每个状态和动作估计出一个不同的值,公式如下:
Figure BDA0003149300000000051
Qπ(s,a)=Eπ[Rt|st=s,at=a]
其中rk是采取行动后获得的奖励。
2)模拟选择策略。UCT使用的准则是平衡利用项
Figure BDA0003149300000000052
和探索项
Figure BDA0003149300000000053
它基于多臂老虎机的UCB算法。如果当前状态s的所有动作都在树中表示出来,即对任意a,都有对应的
Figure BDA0003149300000000054
之后UCT选择策略在所有动作中选择置信上限最高的一个,公式如下:
Figure BDA0003149300000000055
Figure BDA0003149300000000056
其中,n(s,a)是从状态s选择动作a的次数,n(s)是访问一个状态的总数量,它们的关系为n(s)=Σn(s,a)。如果当前状态s有某个动作未在树中表示出来,即存在一个a,
Figure BDA0003149300000000057
那么将会使用均匀随机策略选择一个动作,即
Figure BDA0003149300000000058
在进行多次拓展后,序列表示成s1,a1,s2,a2,st,at,所有的(s,a)都被加入到了搜索树中,并会更新Q值。
n(st,at)←n(st,at)+1
Figure BDA0003149300000000059
在某些情况下,只添加第一个访问的状态-动作会更加高效。UCT策略可以被考虑分为两个阶段,在每一轮模拟前,UCT策略会选择根据搜索树包含的信息来选择动作,但是一旦离开了搜索树,它将失去先验知识,并且会随机选择动作执行。因此考虑当(st、at)不在搜索树中时,会执行手工设计的策略。
3)快速值估计。UCT算法对于给定的状态s(s∈T)必须采样每一个动作才能得到一个较低偏差的Q值。并且,为了减小估计值的方差,每个动作必须被采样多次。当决策空间很大时,这种策略会使得学习非常缓慢。为了解决这个问题,本实施例采用快速值估计策略RAVE,它将对状态s的一个动作a给出很快的一个估计值,并且将它融合进UCT中。RAVE算法的执行过程如图2所示。正常情况下,蒙特卡罗方法通过平均直接选择的动作下的所有采样的返回值来估计Q值,而本发明对某个action的估值取决于s子树下所有的a。计算公式如下:
Figure BDA0003149300000000061
Figure BDA0003149300000000068
m是选择子树下的孩子的次数,st1,at1代表s子树下的状态,动作;对于快速估值法来说,可以很快学习到低方差的Q值,但这会引入一些偏差,偏差依赖于当前的状态和采取的动作。因此,本发明一开始会用快速估值法,但最终收敛到UCT算法。为了达到这个效果,需要引入一个线性衰减因子β。计算公式如下:
Figure BDA0003149300000000062
Figure BDA0003149300000000063
Figure BDA0003149300000000064
Figure BDA0003149300000000065
其中,m(s)=Σm(s,a)。当一些模拟开始的时候,β≈1,随着进行越来越多次的模拟,β≈0。k控制蒙特卡罗模拟得到的Q值和RAVE得到的A值等权重的模拟次数。当k=N(s),两者等权重。RAVE执行结果如图3所示。
Figure BDA0003149300000000066
Figure BDA0003149300000000067
k=N(s)
实验结果如下表:
Simulations Wins.v GnuGO CGOS rating
3000 69% 1960
10000 82% 2110
70000 92% 2320
4)结合MiniMax的模拟。在模拟的第二阶段,通常采用的策略是均匀采样,本发明提出结合均匀采样和MiniMax采样会有更好的效果。MiniMax的算法过程如图4所示。如图5所示,根节点s有两个动作可以选择,记左孩子的动作为a1,右孩子的动作为a2。在UCT算法下,可以估计得到UCT(s,a1)≈4/6,UCT(s,a2)≈1/2,最后选择较大的a1,然而在对手完美决策下,执行动作a1将必输。因此,本发明提出结合Minmax算法避免此类问题。改进后的模拟过程如图6所示。实验结果如下表所示:
Algorithm Simulations Wins.v GnuGO
UCT 2000 80%
UCT with MiniMax 2000 85%
实验结果表明,将MiniMax算法融入到UCT算法中的确可以增加胜率。因此确信这种算法可以有效避免陷阱状态。
本发明方法也可以应用在各种组合游戏中(本发明以围棋这个具有较高难度的游戏为背景展开实验)。该策略用于蒙特卡罗树搜索算法(MCTS)中,使用TreePolicy选择子节点拓展,如果根节点未被完全拓展,那么选择一个新的子节点进行拓展,否则利用UCT(Upper Confidence Bound Apply to Tree)算法返回一个子节点;被选择的子节点使用DefaultPolicy进行一次模拟,在Kocsis和Szepesvari提出的算法中,准则采用均匀采样,整个模拟过程从该节点开始到叶子节点结束;模拟结束之后的结果从子节点反向传播到根节点;之后的行动策略选择UCT算法中Q值最大的子节点,不考虑探索项。
本发明对DefaultPolicy进行改进,把均匀采样和极大极小算法结合在一起,目的是为了避免蒙特卡罗搜索会落入陷阱状态。该方法牺牲了一定的搜索时间,但是也增加了博弈的胜率,相比于普通的蒙特卡罗树搜索算法有优势。另外,本发明改进了以往的从0开始计算Q值的策略,增加了探索的可能性。本发明将改进算法应用在围棋的搜索策略中,通过了GNUGo,CGOS的评测,最后的实验结果表明该算法能提高围棋中博弈搜索的精准度。

Claims (5)

1.一种围棋上的搜索博弈树的策略改进方法,其特征在于包括以下步骤:
1)以当前状态为根节点建立搜索树,树建立完成,其它所有节点隐式给出;
2)选择根节点的一个孩子节点进行模拟,如果有孩子节点还没有被模拟过,那么从根节点的孩子节点里面随机选择一个孩子进行模拟;如果所有孩子节点都被模拟过至少一次,那么选择UCB分树最高的孩子节点;
3)从选中的孩子节点开始模拟一直到叶子节点结束;模拟策略结合均匀采样和极小极大策略;
4)将模拟最后的结果反向传播到根节点,路径上所有叶子的动作价值函数Q值和N值被更新;
5)重复步骤1)-4)多次,最后选择的结果为UCB中利用项分数最高的节点。
2.根据权利要求1所述的围棋上的搜索博弈树的策略改进方法,其特征在于步骤2)中选择UCB分数最高的孩子节点是计算UCB并返回的孩子伪代码,具体如下:
Figure FDA0003149299990000011
第一项
Figure FDA0003149299990000012
称为利用项,和过去的模拟情况有关,Q值取模拟结果为胜减模拟结果为负的差值;第二项
Figure FDA0003149299990000013
称为探索项,和每个节点模拟的次数有关,博弈时动作被选中的次数越少,对应节点探索项的分数就越高;c为常数项;
上述公式平衡利用项和探索项之间的关系,即使最开始奖励值比较低的节点在足够的时间之后也可能被选中。
3.根据权利要求2所述的围棋上的搜索博弈树的策略改进方法,其特征在于:更新路径上节点的Q值和N值时使用虚拟的win值初始化Q,每个节点从较高的Q值,经模拟完成后下降,偏向于选择其它节点进行模拟,增加探索的几率,最终收敛到真实的Q值。
4.根据权利要求3所述的围棋上的搜索博弈树的策略改进方法,其特征在于:初始Q值可根据先验知识人工设置。
5.根据权利要求1所述的围棋上的搜索博弈树的策略改进方法,其特征在于:步骤3)中,每次搜索会涉及到多次模拟过程,当模拟次数足够多时,选择次优节点的概率收敛到0;将极小极大策略结合在一起,在己方行动时采用均匀采样,而在对方行动时采用极小极大算法有效避免陷阱状态。
CN202110760145.1A 2021-07-06 2021-07-06 一种围棋上的搜索博弈树的策略改进方法 Active CN113377779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110760145.1A CN113377779B (zh) 2021-07-06 2021-07-06 一种围棋上的搜索博弈树的策略改进方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110760145.1A CN113377779B (zh) 2021-07-06 2021-07-06 一种围棋上的搜索博弈树的策略改进方法

Publications (2)

Publication Number Publication Date
CN113377779A true CN113377779A (zh) 2021-09-10
CN113377779B CN113377779B (zh) 2023-10-20

Family

ID=77581091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110760145.1A Active CN113377779B (zh) 2021-07-06 2021-07-06 一种围棋上的搜索博弈树的策略改进方法

Country Status (1)

Country Link
CN (1) CN113377779B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946604A (zh) * 2021-10-26 2022-01-18 网易有道信息技术(江苏)有限公司 分阶段围棋教学方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107050839A (zh) * 2017-04-14 2017-08-18 安徽大学 基于uct算法的亚马逊棋机器博弈系统
CN108052785A (zh) * 2018-02-01 2018-05-18 北京理工大学 一种不围棋最佳落子点的确定方法及确定系统
WO2020040763A1 (en) * 2018-08-23 2020-02-27 Siemens Aktiengesellschaft Real-time production scheduling with deep reinforcement learning and monte carlo tree search
KR20200108728A (ko) * 2019-03-11 2020-09-21 성균관대학교산학협력단 몬테카를로 트리 검색 기반의 속성 선택 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107050839A (zh) * 2017-04-14 2017-08-18 安徽大学 基于uct算法的亚马逊棋机器博弈系统
CN108052785A (zh) * 2018-02-01 2018-05-18 北京理工大学 一种不围棋最佳落子点的确定方法及确定系统
WO2020040763A1 (en) * 2018-08-23 2020-02-27 Siemens Aktiengesellschaft Real-time production scheduling with deep reinforcement learning and monte carlo tree search
KR20200108728A (ko) * 2019-03-11 2020-09-21 성균관대학교산학협력단 몬테카를로 트리 검색 기반의 속성 선택 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
季辉;丁泽军;: "双人博弈问题中的蒙特卡洛树搜索算法的改进", 计算机科学, no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946604A (zh) * 2021-10-26 2022-01-18 网易有道信息技术(江苏)有限公司 分阶段围棋教学方法、装置、电子设备及存储介质
CN113946604B (zh) * 2021-10-26 2023-01-20 网易有道信息技术(江苏)有限公司 分阶段围棋教学方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113377779B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
Soemers et al. Enhancements for real-time Monte-Carlo tree search in general video game playing
WO2021159779A1 (zh) 信息处理方法、装置、计算机可读存储介质及电子设备
Nielsen et al. Towards generating arcade game rules with VGDL
Mahlmann et al. Modelling and evaluation of complex scenarios with the strategy game description language
Zhang et al. AlphaZero
CN111729300A (zh) 基于蒙特卡洛树搜索和卷积神经网络斗地主策略研究方法
Wang et al. Monte carlo q-learning for general game playing
WO2023138156A1 (zh) 决策模型的训练方法、装置、设备、存储介质及程序产品
Tang et al. A review of computational intelligence for StarCraft AI
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
CN113377099A (zh) 一种基于深度强化学习的机器人追逃博弈方法
CN113377779A (zh) 一种围棋上的搜索博弈树的策略改进方法
Yang et al. Guiding Monte Carlo tree search by scripts in real-time strategy games
Dockhorn et al. Game state and action abstracting monte carlo tree search for general strategy game-playing
Xu et al. Elastic monte carlo tree search with state abstraction for strategy game playing
CN111882072A (zh) 一种与规则对弈的智能模型自动化课程训练方法
Jiang Analysis of artificial intelligence applied in video games
KR20050096791A (ko) 인공지능 학습을 통한 게이머의 게임 스타일 이식시스템및 그 이식방법
Ou et al. Monte Carlo Tree Search: A Survey of Theories and Applications
Chia et al. Designing card game strategies with genetic programming and monte-carlo tree search: A case study of hearthstone
Langenhoven et al. Swarm tetris: Applying particle swarm optimization to tetris
Roelofs Pitfalls and solutions when using monte carlo tree search for strategy and tactical games
Gonzalez-Castro et al. Opponent models comparison for 2 players in GVGAI competitions
Li et al. Amazon Chess Based on UCT-PVS Hybrid Algorithm
CRIPPA et al. Monte carlo tree search for Sokoban

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Strategy Improvement Method for Search Game Tree in Go

Granted publication date: 20231020

Pledgee: China Construction Bank Shenyang Hunnan sub branch

Pledgor: SHENYANG YAYI NETWORK TECHNOLOGY CO.,LTD.

Registration number: Y2024210000102

PE01 Entry into force of the registration of the contract for pledge of patent right