CN113377779A

CN113377779A - 一种围棋上的搜索博弈树的策略改进方法

Info

Publication number: CN113377779A
Application number: CN202110760145.1A
Authority: CN
Inventors: 宁义明; 杨木润; 赵闯
Original assignee: Shenyang Yaze Network Technology Co ltd
Current assignee: Shenyang Yaze Network Technology Co ltd
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-09-10
Anticipated expiration: 2041-07-06
Also published as: CN113377779B

Abstract

本发明涉及一种围棋上的搜索博弈树的策略改进方法，以当前状态为根节点建立搜索树；选择根节点的一个孩子节点进行模拟，如有孩子节点还没有被模拟过，则从根节点的孩子节点里面随机选择一个孩子进行模拟；如所有孩子节点都被模拟过至少一次，则选择UCB分树最高的孩子节点；从选中的孩子节点开始模拟一直到叶子节点结束；模拟策略结合均匀采样和极小极大策略；将模拟最后的结果反向传播到根节点，路径上所有叶子的动作价值函数Q值和N值被更新；重复上述步骤多次，最后选择UCB中利用项分数最高的节点。本发明将改进算法应用在围棋的搜索策略中，通过了GNUGo，CGOS的评测，最后的实验结果表明该算法能提高围棋中博弈搜索的精准度。

Description

一种围棋上的搜索博弈树的策略改进方法

技术领域

本发明涉及一种围棋上的搜索博弈树的策略改进，具体为一种在围棋上的搜索博弈树的策略改进方法。

背景技术

蒙特卡罗方法在数值算法中有着悠久的历史，在各种人工智能游戏算法中也取得了显著的成功，尤其是在不完全信息的游戏中，如拼字游戏和桥牌游戏。然而，它真正在计算机上的成功，是通过蒙特卡罗方法在树的建立过程中的递归应用，这是MCTS的主要研究内容。围棋是人类玩家远远领先于电脑玩家的少数经典游戏之一，MCTS在缩小这一差距方面发挥了巨大的作用，现在它在小型棋盘上与最优秀的人类棋手竞争，尽管MCT在标准的19×19棋盘上远远低于他们的水平。围棋对计算机来说是一个很难玩的游戏：它有一个很高的分枝因子，一个很深的树，而且对于非终端板位置，它缺乏任何已知的可靠的启发式值函数。

蒙特卡罗树搜索(MCTS)是近年来提出的一种将树搜索的精度与随机抽样的一般性相结合的搜索方法。由于在计算机围棋这一难题上取得了惊人的成功，它引起了人们相当大的兴趣，但也被证明在其他领域也有益处。在过去的几年里，MCTS在许多特定游戏、一般游戏和复杂的现实世界规划、优化和控制问题上也取得了巨大的成功，并有望成为人工智能研究人员工具箱的重要组成部分。它可以为一个agent提供一些决策能力，而只需要很少的领域特定知识，它的选择性抽样方法可以为其他算法的混合和潜在改进提供一些见解。在接下来的十年里，人们期望看到MCTS成为越来越多研究者的焦点，并将其作为解决各种领域中大量问题的一部分而被采用。

极小极大搜索法MiniMax试图最小化对手在每个状态下的最大回报，是两人组合游戏的传统搜索方法。搜索通常会过早停止，并使用一个值函数来估计博弈结果，而α-β启发式搜索通常用于修剪树。尽管极小极大搜索法和其它一些减枝算法可以有效改进搜索效率，但是这些方法在像围棋这样有比较深的搜索树上来说还是不够的，搜索时间没有降低到令人满意的结果。

发明内容

针对现有技术存在的上述不足，本申请提供一种可以让算法更快收敛到真实的Q值、增加博弈胜率的在围棋上的搜索博弈树的策略改进方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明提供一种围棋上的搜索博弈树的策略改进方法，包括以下步骤：

1)以当前状态为根节点建立搜索树，树建立完成，其它所有节点隐式给出；

2)选择根节点的一个孩子节点进行模拟，如果有孩子节点还没有被模拟过，那么从根节点的孩子节点里面随机选择一个孩子进行模拟；如果所有孩子节点都被模拟过至少一次，那么选择UCB分树最高的孩子节点；

3)从选中的孩子节点开始模拟一直到叶子节点结束；模拟策略结合均匀采样和极小极大策略；

4)将模拟最后的结果反向传播到根节点，路径上所有叶子的动作价值函数Q值和N值被更新；

5)重复步骤1)～4)多次，最后选择的结果为UCB中利用项分数最高的节点。

步骤2)中选择UCB分数最高的孩子节点是计算UCB并返回的孩子伪代码，具体如下：

第一项

称为利用项，和过去的模拟情况有关，Q值取模拟结果为胜减模拟结果为负的差值；第二项

称为探索项，和每个节点模拟的次数有关，博弈时动作被选中的次数越少，对应节点探索项的分数就越高；c为常数项；

上述公式平衡利用项和探索项之间的关系，即使最开始奖励值比较低的节点在足够的时间之后也可能被选中。

更新路径上节点的Q值和N值时使用虚拟的win值初始化Q，每个节点从较高的Q值，经模拟完成后下降，偏向于选择其它节点进行模拟，增加探索的几率，最终收敛到真实的Q值。具体过程如图1所示。

初始Q值可根据先验知识人工设置。

步骤3)中，每次搜索会涉及到多次的模拟过程，当模拟次数足够多时，选择次优节点的概率收敛到0；将极小极大策略结合在一起，在己方行动时采用均匀采样，而在对方行动时采用极小极大算法有效避免陷阱状态。

本发明具有以下有益效果及优点：

1.本发明提供一种围棋上的搜索博弈树的策略改进方法，用于蒙特卡罗树搜索算法(MCTS)中，对DefaultPolicy进行改进，把均匀采样和极大极小算法结合在一起，避免了蒙特卡罗搜索落入陷阱状态；该方法虽然牺牲了一定的搜索时间，但是也增加了博弈的胜率，相比于普通的蒙特卡罗树搜索算法更有优势。

2.本发明方法改进了以往的从零开始的Q值初始化的策略，将使用更高的初始Q值来增加探索的可能性，可以让算法更快收敛到真实的Q值，增加博弈的胜率；改进算法应用在围棋的搜索策略中，通过了GNUGo，CGOS的评测，最后的实验结果表明该算法能提高围棋中博弈搜索的精准度。

附图说明

图1为本发明方法中UCT算法执行过程图示；

图2为本发明方法中RAVE算法执行过程图示；

图3为本发明方法中RAVE算法执行结果图示；

图4为本发明方法中的MiniMax图示；

图5为本发明方法中解决陷阱状态图示；

图6为本发明方法中将UCT和MiniMax结合在一起后的算法过程图示。

具体实施方式

本发明提供一种在围棋上的搜索博弈树的策略改进方法，包括以下步骤：

4)将模拟最后的结果反向传播到根节点，路径上所有叶子的Q值和N值被更新；

5)重复步骤1)-4)多次，最后选择的结果为UCB中利用项分数最高的节点。

步骤2)中选择UCB分数最高的孩子节点是计算UCB并返回的孩子：

第一项

称为利用项，和过去的模拟情况有关，Q值取模拟结果为胜减模拟结果为负的差值，N为总的模拟次数；第二项

对于第二项的常数c，很多时候是人工调整的。Kocsis和Szepesvari证明取c＝1/√2可以满足Hoeffding不等式(如果第一项奖励的范围在[0,1])。但是在其它领域中c可以是不同的值，在游戏Go和Hex中，使用了一些启发式信息，故c取0--即没有探索项。对于蒙特卡罗树搜索最后的返回结果是第一项值最大的节点，也就是计算c取0的最大UCB。

更新路径上节点的Q值和N值时使用虚拟的win值初始化Q，每个节点从较高的Q值，经模拟完成后下降，偏向于选择其它节点进行模拟，增加探索的几率，最终收敛到真实的Q值。

在传统的MCTS算法中，Q和N初始化为0。然而有证据表明对搜索树用一些先验知识进行warm-up可以增强模拟的强度。本发明采用的方法是使用虚拟的win值初始化Q，在一开始每个节点都会有从较高的Q值，当叶子节点模拟完成后，因为一开始的Q值较高，所以在经模拟完成后Q值会下降，从而会偏向于选择其它节点进行模拟。这样可以某些节点增加探索的几率，并且该算法最终可以收敛到真实的Q值。此外，除了人工设置初始的Q值，可以利用一些先验知识设置Q值，比如说利用之前的搜索结果。

步骤3)中，每次搜索会涉及到多次的模拟过程。在Kocsis和Szepesvari的算法中采用的是均匀分布，可以证明，当模拟次数足够多时，选择次优节点的概率收敛到0；但是这种策略容易陷入陷阱状态(陷阱状态是一种这样的状态：从这个状态出发，在行动少量的步数之后会很快输掉游戏)，因此本发明将对此改进。改进的方法是将极小极大策略结合在一起：在己方行动时采用均匀采样，而在对方行动时采用极小极大算法有效避免陷阱状态。极小极大算法描述如下：

301)首先计算出当前节点K步之后的叶子节点的分数，叶子节点的分数由一些已知的启发式信息计算得到；

302)反向更新父节点的分数直到根节点。更新规则如下：如果当前层是min层，则父节点取值为所有子节点中分数最小的，如果当前层是max层，则父节点取值为所有子节点中分数最大的。

在实际计算中可以使用一些减枝算法来提高效率，如α-β减枝。结合MiniMax算法可以有效避免陷阱状态。

在实施本发明方法之前采用马尔科夫决策过程作为分析问题的框架，运筹学和马尔可夫决策过程研究中探讨了效用由决策序列定义的问题。

马尔可夫决策过程模型完全可观测环境中的决策问题包含三个部分：

·S：一组状态，s0为初始状态；

·A：一组动作；

·T(s，a，s0)：一个用来决定在状态s0下采取动作a，状态s0变为s的概率模型。

整体决策被建模为(状态，动作)对的序列，其中每个下一个状态s0由一个概率分布决定，该概率分布取决于当前状态s和所选择的动作a。策略是从状态到动作的映射，指定将从S中的每个状态中选择哪个操作。目标是找到产生最高预期回报的策略π。

在整个蒙特卡罗搜索过程，影响结果准确性的是DefaultPolicy，本发明将采用MiniMax算法来改进该策略；影响搜索速度的主要是UCB(Upper confidence bound)，本发明采用RAVE(Rash Average Value Evaluate)算法来加快收敛速度。具体实现过程及原理如下：

1)动作价值函数Q的估计。算法是一种基于值的强化学习算法，只关注初始状态和后续状态树。动作价值函数Q(s,a)可以由表

表示，它包括了所有(状态，动作)对的子集。这可以看作是一个以开始状态s0为根节点的搜索树。通过蒙特卡罗模拟，对树中的每个状态和动作估计出一个不同的值，公式如下：

Q^π(s，a)＝E_π[R_t|s_t＝s，a_t＝a]

其中r_k是采取行动后获得的奖励。

2)模拟选择策略。UCT使用的准则是平衡利用项

和探索项

它基于多臂老虎机的UCB算法。如果当前状态s的所有动作都在树中表示出来，即对任意a，都有对应的

之后UCT选择策略在所有动作中选择置信上限最高的一个，公式如下：

其中，n(s，a)是从状态s选择动作a的次数，n(s)是访问一个状态的总数量，它们的关系为n(s)＝Σn(s，a)。如果当前状态s有某个动作未在树中表示出来，即存在一个a，

那么将会使用均匀随机策略选择一个动作，即

在进行多次拓展后，序列表示成s1，a1，s2，a2，st，at，所有的(s，a)都被加入到了搜索树中，并会更新Q值。

n(s_t，a_t)←n(s_t，a_t)+1

在某些情况下，只添加第一个访问的状态-动作会更加高效。UCT策略可以被考虑分为两个阶段，在每一轮模拟前，UCT策略会选择根据搜索树包含的信息来选择动作，但是一旦离开了搜索树，它将失去先验知识，并且会随机选择动作执行。因此考虑当(s_t、a_t)不在搜索树中时，会执行手工设计的策略。

3)快速值估计。UCT算法对于给定的状态s(s∈T)必须采样每一个动作才能得到一个较低偏差的Q值。并且，为了减小估计值的方差，每个动作必须被采样多次。当决策空间很大时，这种策略会使得学习非常缓慢。为了解决这个问题，本实施例采用快速值估计策略RAVE，它将对状态s的一个动作a给出很快的一个估计值，并且将它融合进UCT中。RAVE算法的执行过程如图2所示。正常情况下，蒙特卡罗方法通过平均直接选择的动作下的所有采样的返回值来估计Q值，而本发明对某个action的估值取决于s子树下所有的a。计算公式如下：

m是选择子树下的孩子的次数，s_t1，a_t1代表s子树下的状态，动作；对于快速估值法来说，可以很快学习到低方差的Q值，但这会引入一些偏差，偏差依赖于当前的状态和采取的动作。因此，本发明一开始会用快速估值法，但最终收敛到UCT算法。为了达到这个效果，需要引入一个线性衰减因子β。计算公式如下：

其中，m(s)＝Σm(s，a)。当一些模拟开始的时候，β≈1，随着进行越来越多次的模拟，β≈0。k控制蒙特卡罗模拟得到的Q值和RAVE得到的A值等权重的模拟次数。当k＝N(s)，两者等权重。RAVE执行结果如图3所示。

k＝N(s)

实验结果如下表：

Simulations	Wins.v GnuGO	CGOS rating
			3000	69％	1960
10000	82％	2110
			70000	92％	2320

4)结合MiniMax的模拟。在模拟的第二阶段，通常采用的策略是均匀采样，本发明提出结合均匀采样和MiniMax采样会有更好的效果。MiniMax的算法过程如图4所示。如图5所示，根节点s有两个动作可以选择，记左孩子的动作为a1，右孩子的动作为a2。在UCT算法下，可以估计得到UCT(s，a1)≈4/6，UCT(s，a2)≈1/2，最后选择较大的a1，然而在对手完美决策下，执行动作a1将必输。因此，本发明提出结合Minmax算法避免此类问题。改进后的模拟过程如图6所示。实验结果如下表所示：

Algorithm	Simulations	Wins.v GnuGO
			UCT	2000	80％
UCT with MiniMax	2000	85％

实验结果表明，将MiniMax算法融入到UCT算法中的确可以增加胜率。因此确信这种算法可以有效避免陷阱状态。

本发明方法也可以应用在各种组合游戏中(本发明以围棋这个具有较高难度的游戏为背景展开实验)。该策略用于蒙特卡罗树搜索算法(MCTS)中，使用TreePolicy选择子节点拓展，如果根节点未被完全拓展，那么选择一个新的子节点进行拓展，否则利用UCT(Upper Confidence Bound Apply to Tree)算法返回一个子节点；被选择的子节点使用DefaultPolicy进行一次模拟，在Kocsis和Szepesvari提出的算法中，准则采用均匀采样，整个模拟过程从该节点开始到叶子节点结束；模拟结束之后的结果从子节点反向传播到根节点；之后的行动策略选择UCT算法中Q值最大的子节点，不考虑探索项。

本发明对DefaultPolicy进行改进，把均匀采样和极大极小算法结合在一起，目的是为了避免蒙特卡罗搜索会落入陷阱状态。该方法牺牲了一定的搜索时间，但是也增加了博弈的胜率，相比于普通的蒙特卡罗树搜索算法有优势。另外，本发明改进了以往的从0开始计算Q值的策略，增加了探索的可能性。本发明将改进算法应用在围棋的搜索策略中，通过了GNUGo，CGOS的评测，最后的实验结果表明该算法能提高围棋中博弈搜索的精准度。

Claims

1.一种围棋上的搜索博弈树的策略改进方法，其特征在于包括以下步骤：

2.根据权利要求1所述的围棋上的搜索博弈树的策略改进方法，其特征在于步骤2)中选择UCB分数最高的孩子节点是计算UCB并返回的孩子伪代码，具体如下：

第一项

3.根据权利要求2所述的围棋上的搜索博弈树的策略改进方法，其特征在于：更新路径上节点的Q值和N值时使用虚拟的win值初始化Q，每个节点从较高的Q值，经模拟完成后下降，偏向于选择其它节点进行模拟，增加探索的几率，最终收敛到真实的Q值。

4.根据权利要求3所述的围棋上的搜索博弈树的策略改进方法，其特征在于：初始Q值可根据先验知识人工设置。

5.根据权利要求1所述的围棋上的搜索博弈树的策略改进方法，其特征在于：步骤3)中，每次搜索会涉及到多次模拟过程，当模拟次数足够多时，选择次优节点的概率收敛到0；将极小极大策略结合在一起，在己方行动时采用均匀采样，而在对方行动时采用极小极大算法有效避免陷阱状态。