CN109002893A

CN109002893A - 一种序贯同步时序蒙特卡洛搜索算法

Info

Publication number: CN109002893A
Application number: CN201810784095.9A
Authority: CN
Inventors: 王骄; 代欣颖
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2018-12-14

Abstract

本发明公开了一种序贯同步时序蒙特卡洛搜索算法，所述搜索算法适用于一种搜索系统，所述搜索系统包括搜索服务器、搜索入口及搜索装置所述搜索算法包括以下步骤：设计一种博弈树结构，更改标准蒙特卡洛博弈树节点存储信息和连接边的意义，将标准蒙特卡洛博弈树上含有博弈各方信息的多层节点压缩到同一层；以及在新的博弈树中每一层的节点按固定的时间周期进行划分。通过本搜索算法在问题模型方面，实现了对序贯同步决策问题的良好建模；在搜索过程方面，使搜索更加贴近序贯同步决策博弈问题的同步特点。

Description

一种序贯同步时序蒙特卡洛搜索算法

技术领域

本发明涉及机器博弈搜索领域，尤其涉及一种蒙特卡洛树搜索的算法。

背景技术

蒙特卡洛方法，也称统计模拟方法、随机抽样技术，是基于“随机数”、以概率统计理论为基础的一种非常重要已经被广泛应用的数值计算方法。二十世纪七十年代，蒙特卡洛方法的理论研究达到顶峰，从最开始的核研究到目前，美国的理论和实践发展均领先于其他国家，处于世界较高水平，伴随着信息技术的发展，其他国家也先后开始了蒙特卡洛的研究程序。近些年，国内外众多单位和高校大量使用蒙特卡洛程序，开启蒙特卡洛方法研究，大力推动了国内蒙特卡洛方法和软件的发展，在处理各大学科的实际问题研究中，获得了巨大的成效和理论知识。

蒙特卡洛树搜索的算法框架可以在没有任何关于博弈游戏除基本规则外的知识的情况下进行有效工作，意味着一个简单的蒙特卡洛树搜索实现可以重用在很多的博弈游戏中，只需要进行微小的调整。另外，蒙特卡洛树搜索执行一种非对称的树的适应搜索空间拓扑结构的增长，这个算法会更频繁地访问更加有趣的节点，并聚焦其搜索时间在更加相关的树的部分，这使得蒙特卡洛树搜索更加适合那些有着更大的分支因子的博弈。但很多模拟问题属于静态博弈问题，即博弈双方同时决策，而一般的蒙特卡洛方法是基于博弈双方交替决策来进行搜索的，所以需要在标准蒙特卡洛树搜索的基础上做一些必要的改进，来适应双方同时决策的模拟问题。

发明内容

针对现有技术存在的不足，本发明要解决的技术问题是提供一种序贯同步时序蒙特卡洛搜索算法，通过更改标准蒙特卡洛博弈树的结构，加入时间轴进行时序控制，解决时间驱动和序贯同步两个难题，实现了对序贯同步决策问题的良好建模；并且在搜索过程方面，通过多种计算纳什均衡的方法，通过主要改进蒙特卡洛树搜索算法流程中选择步骤，使搜索更加贴近序贯同步决策博弈问题的同步特点。

本发明的技术方案是这样实现的：

一种序贯同步时序蒙特卡洛搜索算法，所述搜索算法适用于一种搜索系统，该搜索系统包括搜索服务器、搜索入口及搜索装置，所述搜索算法包括以下步骤：

步骤1-1：设计一种博弈树结构，更改标准蒙特卡洛博弈树节点存储信息和连接边的意义，将标准蒙特卡洛博弈树上含有博弈各方信息的多层节点压缩到同一层，令{S₁,S₂,S₃,S₄,...}表示每次树搜索后的节点，{a₁,a₂,b₁,b₂}表示双方动作组合，使新的博弈树在每一次树搜索时都会得到每个动作执行后的转移节点，节点信息由原来存储的单方信息变为各方信息，节点间的每条连接边表示博弈各方合法动作组合，形式如：

步骤1-2：在新的博弈树中每一层的节点按固定的时间周期进行划分，对于执行时间不同的动作，会出现跨时间周期进行树搜索的情况，其执行完的状态和其他动作执行完的状态处于不同时间周期内，即在不同层内，形式如：

其中动作b₂执行后的状态S_b2在其出现的周期内进行收益的计算。

进一步的，上述步骤1-2中所述树搜索加入有时序控制部分，该部分包括以下步骤：

步骤2-1：在博弈树中加入时间轴，将时间轴按固定的时间周期T进行划分，保证博弈各方的状态都严格落在相应的固定时间周期节点上，博弈各方严格按照固定的时间节点做出决策；

步骤2-2：当某一动作需要执行多个时间周期，在其执行过程中的每个时间节点上设置虚拟节点，形成完整的序贯同步时序蒙特卡洛博弈树。

进一步的，所述搜索算法的搜索过程至少包括选择、扩展、模拟、更新四个阶段。

更进一步的，选择阶段序贯同步博弈问题在每个时间点上具有同步特性，博弈树中根据各方所选动作的组合来选择子节点，有以下三种选择方法：

A引入策略网络PolicyNet，利用网络的学习能力在线学习决策动作分布，计算节点下子节点的状态的悔恨值regret，通过判断regret的大小对博弈方的选择进行指导；

B针对中小规模(动作集合大小<＝4)的问题，在线或离线计算不同状态的均衡解，将得到的均衡解存入表中，在选择时供博弈树查询，选择出最有利的子节点；

C将A、B两种方法结合在一起，在搜索的开始时利用策略网络指导动作的选择，在博弈树已经被搜索超过一半时，再通过在线方式计算接下来状态的均衡解，利用均衡解的值对子节点的选择进行指导。

更进一步的，所述选择阶段节点中的信息包括己方平均悔恨值，己方动作组合，对方平均悔恨值，对方动作组合以及该节点的访问次数，还包括己方收益表和对方收益表，在收益表中，每一个元素对应博弈某一方的一个动作组合，令S∈{1,2,3,...}表示每次迭代，h表示每次迭代中的某一个节点状态，T为时间周期，令(a,b)为其动作组合，P^S(h,T)表示博弈各方当前时间周期所用的混合策略，此混合策略由进行初始化，博弈各方都为混合策略P^S(h,T)维持一个累计的悔恨值r_h[(a，b)]，其初始化为0，在每次迭代中，需要根据当前累计的收益来生成新的混合策略，定义累计收益为x⁺＝max(x，0)，公式如下：

更进一步的，扩展阶段根据博弈各方不同的动作组合进行展开，其中，每条边代表的是博弈各方的动作组合，在扩展的同时不断选择更加适合的动作组合，舍弃无用的动作组合，即在扩展的过程中同时对博弈树进行剪枝处理。

更进一步的，对于不同的动作组合可以设定动作组合的选择规则，利用选择算法计算出对博弈各方最有利的动作组合进行扩展，在扩展过程中要考虑到时序问题，针对执行时间不同的动作要按照其执行周期进行跨周期扩展。

更进一步的，模拟阶段将模拟过程设置在一定的扩展范围内，根据不同情况下动作组合的大小，设l_min为模拟过程中需要执行的最少层数，l_max为模拟过程中需要执行的最大层数，在模拟过程中得到收益所需要计算的步骤不小于l_min次，若当模拟到第l_max次时还没有结束过程也没有得到收益，即强制停止模拟过程并舍弃此动作组合得到的节点。

更进一步的，对于需要执行多个时间周期的动作，在每次模拟时都要计算博弈各方自身的regret，再利用计算得到博弈各方的自身regret来进行反向更新。

更进一步的，更新阶段需要所述博弈各方自身的regret来更新收益表，以己方收益更新为例，假设动作组合(a₁,b₁)为选择策略时所选动作组合，收益r₁为模拟结束后的己方收益，定义更新公式如下：

本发明的有益效果：

1、在问题模型方面，通过更改标准蒙特卡洛博弈树的结构，加入时间轴进行时序控制，实现了对序贯同步决策问题的良好建模；

2、在搜索过程方面，通过多种计算纳什均衡的方法，主要改进蒙特卡洛树搜索算法流程中选择步骤，使搜索更加贴近序贯同步决策博弈问题的同步特点。

附图说明

图1为序贯同步时序蒙特卡洛搜索模型技术路线图；

图2为博弈树变化示意图；

图3为序贯同步时序蒙特卡洛博弈树；

图4为序贯同步时序蒙特卡洛算法示意图；

图5为选择过程示意图；

图6为扩展过程示意图；

图7为模拟过程示意图；

图8为更新过程示意图；

图9为序贯同步时序蒙特卡洛搜索模型与NOKDPS 1vs1示意图；

图10为序贯同步时序蒙特卡洛搜索模型与NOKDPS 2vs2示意图；

图11为序贯同步时序蒙特卡洛搜索模型与UCT 1vs1示意图；

图12为序贯同步时序蒙特卡洛搜索模型与UCT 2vs2示意图。

具体实施方式

下面结合附图和具体实施例对本发明技术方案做进一步详述：

如图1、2、3、4所示，一种序贯同步时序蒙特卡洛搜索算法，所述搜索算法适用于一种搜索系统，该搜索系统包括搜索服务器、搜索入口及搜索装置，所述搜索算法包括以下步骤：

进一步的，本实施例上述步骤1-2中所述树搜索加入有时序控制部分，该部分包括以下步骤：

如图5所示，进一步的，本实施例中所述搜索算法的搜索过程至少包括选择、扩展、模拟、更新四个阶段。

更进一步的，本实施例中选择阶段序贯同步博弈问题在每个时间点上具有同步特性，博弈树中根据各方所选动作的组合来选择子节点，有以下三种选择方法：

更进一步的，本实施例中选择阶段的计算过程如下：

节点中的信息除了包括己方平均悔恨值，己方动作组合，对方平均悔恨值，对方动作组合以及该节点的访问次数，还包括己方收益表和对方收益表，在收益表中，每一个元素对应博弈某一方的一个动作组合，令S∈{1,2,3,...}表示每次迭代，h表示每次迭代中的某一个节点状态，T为时间周期，令(a,b)为其动作组合，P^S(h,T)表示博弈各方当前时间周期所用的混合策略，此混合策略由进行初始化，博弈各方都为混合策略P^S(h,T)维持一个累计的悔恨值r_h[(a，b)]，其初始化为0，在每次迭代中，需要根据当前累计的收益来生成新的混合策略，定义累计收益为x⁺＝max(x，0)，公式如下：

如图6所示，进一步的，本实施例中扩展阶段根据博弈各方不同的动作组合进行展开，其中，每条边代表的是博弈各方的动作组合，在扩展的同时不断选择更加适合的动作组合，舍弃无用的动作组合，即在扩展的过程中同时对博弈树进行剪枝处理。更进一步的，对于不同的动作组合可以设定动作组合的选择规则，利用选择算法计算出对博弈各方最有利的动作组合进行扩展，在扩展过程中要考虑到时序问题，针对执行时间不同的动作要按照其执行周期进行跨周期扩展。

如图7所示，进一步的，本实施例中模拟阶段将模拟过程设置在一定的扩展范围内，根据不同情况下动作组合的大小，设l_min为模拟过程中需要执行的最少层数，l_max为模拟过程中需要执行的最大层数，在模拟过程中得到收益所需要计算的步骤不小于l_min次，若当模拟到第l_max次时还没有结束过程也没有得到收益，即强制停止模拟过程并舍弃此动作组合得到的节点。更进一步的，对于需要执行多个时间周期的动作，在每次模拟时都要计算博弈各方自身的regret，再利用计算得到博弈各方的自身regret来进行反向更新。

如图8所示，进一步的，本实施例中更新阶段需要所述博弈各方自身的regret来更新收益表，以己方收益更新为例，假设动作组合(a₁,b₁)为选择策略时所选动作组合，收益r₁为模拟结束后的己方收益，定义

更新公式如下：

更进一步的，更新阶段博弈树的更新过程对应于上述选择阶段的选择过程，其更新的信息即是所述选择过程的依据。

如图9、10、11、12所示，为了验证序贯同步蒙特卡洛搜索框架的有效性，在星际争霸的实验平台上进行了4项实验，在每项实验中，双方对战100局，求最终胜率。

具体实验过程、结果及分析如下：

星际争霸1实验中策略参数配置表

1.序贯同步时序蒙特卡洛搜索模型对战脚本策略NOKDPS

(1)1vs1实验

实验结果分析：实验情况如图9所示，实验结果如表2所示，100轮对战后，序贯同步时序蒙特卡洛搜索模型的胜率为81.5％，证明此种策略强于脚本策略。

(2)2vs2实验

实验结果分析：实验情况如图10所示，实验结果如表3所示，100轮对战后，序贯同步时序蒙特卡洛搜索模型的胜率为96％，证明此种策略强于脚本策略，且在2vs2游戏中的胜率高于在1vs1游戏中的胜率，说明此策略在多单位协同行动时效果更优。

2.序贯同步时序蒙特卡洛搜索模型对战UCT

(1)1vs1实验

实验结果分析：实验情况如图11所示，实验结果如表4所示，100轮对战后，序贯同步时序蒙特卡洛搜索模型的胜率为81％，证明此种策略强于UCT。

(2)2vs2实验

实验结果分析：实验情况如图12所示，实验结果如表5所示，100轮对战后，序贯同步时序蒙特卡洛搜索模型的胜率为90.5％，证明此种策略强于UCT，且在2vs2游戏中的胜率高于在1vs1游戏中的胜率，说明此策略在多单位协同行动时相对于UCT的优势更加明显。

星际争霸1实验结果：

(注：以下表格中，ST表示对局序号，EVAL表示胜利方状态估值，RND表示在本局对战中双方行动的数量，UnitType表示作战单位类别，PlayerID表示胜利方ID，CurrentHP表示胜利方残留作战单位的血量。)

序贯同步时序蒙特卡洛搜索模型与NOKDPS 1vs1对战结果

表3序贯同步时序蒙特卡洛搜索模型与NOKDPS 2vs2对战结果

表4序贯同步时序蒙特卡洛搜索模型与UCT 1vs1对战结果

表5序贯同步时序蒙特卡洛搜索模型与UCT 2vs2对战结果

以上所述仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种序贯同步时序蒙特卡洛搜索算法，所述搜索算法适用于一种搜索系统，该搜索系统包括搜索服务器、搜索入口及搜索装置，其特征在于，所述搜索算法包括以下步骤：

步骤1-1：设计一种博弈树结构，更改标准蒙特卡洛博弈树节点存储信息和连接边的意义，将标准蒙特卡洛博弈树上含有博弈各方信息的多层节点压缩到同一层，令{S₁,S₂,S₃,S₄,...}表示每次树搜索后的节点，{a₁,a₂,b₁,b₂}表示双方动作组合，使新的博弈树在每一次树搜索时都会得到每个动作执行后的转移节点，节点信息由原来存储的单方信息变为各方信息，节点间的每条连接边表示博弈各方合法动作组合，形式如：S₁→S₂∈{S_a1,S_a2,S_b1,S_b2}；

2.根据权利要求1所述的搜索算法，其特征在于：步骤1-2中所述树搜索加入有时序控制部分，该部分包括以下步骤：

3.根据权利要求1或2所述的搜索算法，其特征在于：所述搜索算法的搜索过程至少包括选择、扩展、模拟、更新四个阶段。

4.根据权利要求3所述的搜索算法，其特征在于：

选择阶段序贯同步博弈问题在每个时间点上具有同步特性，博弈树中根据各方所选动作的组合来选择子节点，有以下三种选择方法：

5.根据权利要求4所述的搜索算法，其特征在于，所述选择阶段节点中的信息包括己方平均悔恨值，己方动作组合，对方平均悔恨值，对方动作组合以及该节点的访问次数，还包括己方收益表和对方收益表，在收益表中，每一个元素对应博弈某一方的一个动作组合；令S∈{1,2,3,...}表示每次迭代，h表示每次迭代中的某一个节点状态，T为时间周期，令(a,b)为其动作组合，P^S(h,T)表示博弈各方当前时间周期所用的混合策略，此混合策略由进行初始化，博弈各方都为混合策略P^S(h,T)维持一个累计的悔恨值r_h[(a，b)]，其初始化为0，在每次迭代中，需要根据当前累计的收益来生成新的混合策略，定义累计收益为x⁺＝max(x，0)，公式如下：

6.根据权利要求3所述的搜索算法，其特征在于：扩展阶段根据博弈各方不同的动作组合进行展开，其中，每条边代表的是博弈各方的动作组合，在扩展的同时不断选择更加适合的动作组合，舍弃无用的动作组合，即在扩展的过程中同时对博弈树进行剪枝处理。

7.根据权利要求6所述的搜索算法，其特征在于：对于不同的动作组合可以设定动作组合的选择规则，利用选择算法计算出对博弈各方最有利的动作组合进行扩展，在扩展过程中要考虑到时序问题，针对执行时间不同的动作要按照其执行周期进行跨周期扩展。

8.根据权利要求3所述的搜索算法，其特征在于：模拟阶段将模拟过程设置在一定的扩展范围内，根据不同情况下动作组合的大小，设l_min为模拟过程中需要执行的最少层数，l_max为模拟过程中需要执行的最大层数，在模拟过程中得到收益所需要计算的步骤不小于l_min次，若当模拟到第l_max次时还没有结束过程也没有得到收益，即强制停止模拟过程并舍弃此动作组合得到的节点。

9.根据权利要求8所述的搜索算法，其特征在于：对于需要执行多个时间周期的动作，在每次模拟时都要计算博弈各方自身的regret，再利用计算得到博弈各方的自身regret来进行反向更新。

10.根据权利要求3所述的搜索算法，其特征在于：更新阶段根据所述博弈各方自身的regret来更新收益表，以己方收益更新为例，假设动作组合(a₁,b₁)为选择策略时所选动作组合，收益r₁为模拟结束后的己方收益，定义

则更新公式如下：