CN110083748A

CN110083748A - 一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法

Info

Publication number: CN110083748A
Application number: CN201910360537.1A
Authority: CN
Inventors: 陈志�; 董阳; 岳文静; 汪皓平; 狄小娟; 袁广进
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-08-02

Abstract

本发明公开了一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法，包括：输入一个状态、行为和环境的即时反馈值集合，即S、A和R的搜索集；从自适应动态规划训练的神经网络中获得五个候选移动位置及其获胜概率w₁；将五个候选移动位置及其当前环境情况视为蒙特卡罗树搜索的根节点，根据蒙特卡罗树搜索方法分别获得5个获胜概率w₂；结合五个ADP获胜概率w₁及其相应的MCTS获胜概率w₂，预测最终获胜概率，进而选择具有最大值的动作位置。本发明结合了浅层神经网络和蒙特卡罗模拟，使用ADP训练神经网络对抗自身，在训练后，神经网络可以获得任何可能情况的获胜概率，从而使游戏的最终预测结果更准确。

Description

一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法

技术领域

本发明涉及一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法，属于机器博弈、计算机搜索技术领域。

背景技术

人工智能的发展十分的迅速，科技发达的今天，我们的生活离不开人工智能的东西，计算机博弈为人工智能的一个分支，很多实际问题可以在博弈的研究中得到解决，并且使计算机智力更加靠近人类的智慧。现在，许多国家把人工智能作为重点项目列为各国的高科技发展计划，投入庞大的人力和资金。博弈的过程相当于对弈或者说是斗智的过程这是自然界中的一个普遍的特征，它不仅仅存在于下棋当中而且存在于政治、经济、军事或者说生物竞争当中。近年来，网络下棋游戏层出不穷，从此棋类玩法不在限制于实物，而五子棋的电子游戏也越来越多，也就是现在新出的名词“计算机博弈”。

自适应动态规划(ADP)是最优控制领域新兴起的一种近似最优方法，是当前国际最优化领域的研究热点。在人工智能领域，强化学习、人工神经网络、模糊系统、演化计算等方法的发展和丰富，提出了很多求解非线性系统优化问题的解决思路和具体技术方法。而ADP以传统的最优控制为理论基础，融合人工智能的先进方法，提出了解决大规模复杂非线性系统优化控制问题的解决方法。

随着人工智能技术的快速发展，蒙特卡洛树搜索作为一种人工智能问题中做出最优决策的方法受到越来越多的关注。蒙特卡洛树搜索是在完美信息博弈场景中进行决策的一种通用技术，除游戏之外，它还在很多现实世界的应用中有着广阔前景。鉴于此，本发明提出一种博弈搜索方法，该方法结合了蒙特卡罗树搜索与自适应动态规划，解决了原始蒙特卡罗树搜索不准确的问题。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法，通过结合浅层神经网络和蒙特卡罗模拟，选择具有最大值的动作位置，以有效消除神经网络评估函数的“短视”缺陷。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法，包括以下步骤：

步骤1)输入一个状态、行为和状态的即时反馈值集合，即X、U和R的搜索集；

步骤2)从自适应动态规划训练的神经网络中获得五个候选移动位置及其获胜概率w₁；

步骤3)将五个候选移动位置及其当前环境情况视为蒙特卡罗树搜索的根节点，根据蒙特卡罗树搜索方法分别获得5个获胜概率w₂；

步骤4)结合从自适应动态规划训练的神经网络中获得的五个获胜概率w₁及其相应的蒙特卡洛树搜索的获胜概率w₂，预测最终获胜概率，进而选择具有最大值的动作位置。

进一步的，所述步骤2的具体步骤如下：

步骤2.1)当前状态x(t)被反馈到动作选择，动作选择产生控制动作u(t)，在动作u(t)情况下，选择下一步过渡状态x(t+1)送到效用函数r，产生一个反馈值r(x(t+1))，评估网络通过反馈值r(x(t+1))来估计成本函数V，其中x(t)∈X，u(t)∈U，r(x(t+1))∈R，t表示数据的节点；

步骤2.2)反馈值r(x(t+1))、评估函数v(t)和评估函数v(t+1)用于更新评估网络的权重使成本函数V满足Bellman方程；

步骤2.3)自适应动态规划训练的神经网络的最终输出v(t)是候选移动位置的获胜概率，关系如下：

其中，w_ji(t)是第j个输入节点和第i个隐藏节点之间的权重，x_j(t)是输入层的第j个输入，n是输入节点的总数，h_i(t)是第i个隐藏节点的输入，g_i(t)是第i个隐藏节点的输出，w_i(t)是隐藏节点和输出节点之间的权重，m是隐藏节点的总数，p(t)是输出节点之间的输入。

进一步的，所述步骤3的具体步骤如下：

步骤3.1)从根节点，也就是做决策的局面C出发向下选择一个需要被拓展的节点T：局面C是第一个被检查的节点，如果被检查的节点存在一个没有被评估过的走法y，那么被检查的节点在执行y后得到的新局面就是我们所需要展开的T；如果被检查的局面所有可行的走法已经都被评估过，那么利用UCB公式，即得到一个拥有最大UCB值的节点T，其中为观测到的第c个模拟的平均反馈值，k_c为访问节点c的次数，k是到目前为止总的搜索次数；

步骤3.2)扩展过程：如果T节点不是终止节点，选中一个或者多个子节点展开加入博弈树；

步骤3.3)模拟估值：从新加入博弈树的节点开始通过蒙特卡罗方法随机生成博弈双方的合理动作，直到搜索结束，得到一个确定的结果；

步骤3.4)反向传播：将模拟估值得到的结果从叶节点开始层层回溯给自己的父节点，根据结果调整这些父节点的估值；

步骤3.5)在规定的时间或者搜索次数内重复以上过程，最后根据节点的估值判断搜索的结果，从而得到蒙特卡洛搜索的获胜概率w₂。

进一步的，所述步骤4的具体步骤如下：

步骤4.1)结合从自适应动态规划训练的神经网络中获得的五个获胜概率集合及其相应的蒙特卡洛树搜索的获胜概率，对于每个w₁、w₂，得到预测的最终获胜概率w_p＝θw₁+(1-θ)w₂，式中w_p是预测的最终获胜概率，w₁是ADP的获胜概率，w₂是MCTS的获胜概率，θ是[0,1]之间的实常数，由此可知，当θ＝0时，获胜预测仅取决于MCTS；相反，θ＝1时，意味着预测仅取决于ADP；

步骤4.2)从w_p集合中选择最大值，即选择具有最大值的动作位置。

有益效果：本发明提供的一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法，相对于现有技术，具有以下优点：本发明结合了浅层神经网络和蒙特卡罗模拟，使用ADP训练神经网络对抗自身，在训练后，神经网络可以获得任何可能情况的获胜概率，从而使游戏的最终预测结果更准确。具体来说：

1、本发明使用ADP训练神经网络，获得候选移动使MCTS的搜索空间变得比以前更小，从而比仅有MCTS的方法节省了很多时间；

2、本发明通过自适应动态编程的思想，通过将其与三层完全连接的神经网络配对以提高适应性和自我教学行为，提高博弈性能，突破了搜索深度的瓶颈，不仅确保了搜索的准确性，还减少了搜索的宽度。

附图说明

图1为本发明一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法系统流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示为一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法，包括以下步骤：

所述步骤2的具体步骤如下：

所述步骤3的具体步骤如下：

步骤3.2)扩展过程：如果T节点不是终止节点，选中一个或者多个子节点展开加入博弈树，同时选中其中一个成为父节点；

所述步骤4的具体步骤如下：

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法，其特征在于，包括以下步骤：

步骤1)输入一个状态、行为和状态的即时反馈值集合，即搜索集X、U和R；

2.根据权利要求1所述的一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法，其特征在于，所述步骤2的具体步骤如下：

3.根据权利要求2所述的一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法，其特征在于，所述步骤3的具体步骤如下：

4.根据权利要求3所述的一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法，其特征在于，所述步骤4的具体步骤如下：

步骤4.1)结合从自适应动态规划训练的神经网络中获得的五个获胜概率集合及其相应的蒙特卡洛树搜索的获胜概率，对于每个w₁、w₂，得到预测的最终获胜概率w_p＝θw₁+(1-θ)w₂，式中w_p是预测的最终获胜概率，w₁是ADP的获胜概率，w₂是MCTS的获胜概率，θ是[0,1]之间的实常数；