CN110083748A - 一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法 - Google Patents
一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法 Download PDFInfo
- Publication number
- CN110083748A CN110083748A CN201910360537.1A CN201910360537A CN110083748A CN 110083748 A CN110083748 A CN 110083748A CN 201910360537 A CN201910360537 A CN 201910360537A CN 110083748 A CN110083748 A CN 110083748A
- Authority
- CN
- China
- Prior art keywords
- node
- winning probability
- search
- monte carlo
- dynamic programming
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,包括:输入一个状态、行为和环境的即时反馈值集合,即S、A和R的搜索集;从自适应动态规划训练的神经网络中获得五个候选移动位置及其获胜概率w1;将五个候选移动位置及其当前环境情况视为蒙特卡罗树搜索的根节点,根据蒙特卡罗树搜索方法分别获得5个获胜概率w2;结合五个ADP获胜概率w1及其相应的MCTS获胜概率w2,预测最终获胜概率,进而选择具有最大值的动作位置。本发明结合了浅层神经网络和蒙特卡罗模拟,使用ADP训练神经网络对抗自身,在训练后,神经网络可以获得任何可能情况的获胜概率,从而使游戏的最终预测结果更准确。
Description
技术领域
本发明涉及一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,属于机器博弈、计算机搜索技术领域。
背景技术
人工智能的发展十分的迅速,科技发达的今天,我们的生活离不开人工智能的东西,计算机博弈为人工智能的一个分支,很多实际问题可以在博弈的研究中得到解决,并且使计算机智力更加靠近人类的智慧。现在,许多国家把人工智能作为重点项目列为各国的高科技发展计划,投入庞大的人力和资金。博弈的过程相当于对弈或者说是斗智的过程这是自然界中的一个普遍的特征,它不仅仅存在于下棋当中而且存在于政治、经济、军事或者说生物竞争当中。近年来,网络下棋游戏层出不穷,从此棋类玩法不在限制于实物,而五子棋的电子游戏也越来越多,也就是现在新出的名词“计算机博弈”。
自适应动态规划(ADP)是最优控制领域新兴起的一种近似最优方法,是当前国际最优化领域的研究热点。在人工智能领域,强化学习、人工神经网络、模糊系统、演化计算等方法的发展和丰富,提出了很多求解非线性系统优化问题的解决思路和具体技术方法。而ADP以传统的最优控制为理论基础,融合人工智能的先进方法,提出了解决大规模复杂非线性系统优化控制问题的解决方法。
随着人工智能技术的快速发展,蒙特卡洛树搜索作为一种人工智能问题中做出最优决策的方法受到越来越多的关注。蒙特卡洛树搜索是在完美信息博弈场景中进行决策的一种通用技术,除游戏之外,它还在很多现实世界的应用中有着广阔前景。鉴于此,本发明提出一种博弈搜索方法,该方法结合了蒙特卡罗树搜索与自适应动态规划,解决了原始蒙特卡罗树搜索不准确的问题。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,通过结合浅层神经网络和蒙特卡罗模拟,选择具有最大值的动作位置,以有效消除神经网络评估函数的“短视”缺陷。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,包括以下步骤:
步骤1)输入一个状态、行为和状态的即时反馈值集合,即X、U和R的搜索集;
步骤2)从自适应动态规划训练的神经网络中获得五个候选移动位置及其获胜概率w1;
步骤3)将五个候选移动位置及其当前环境情况视为蒙特卡罗树搜索的根节点,根据蒙特卡罗树搜索方法分别获得5个获胜概率w2;
步骤4)结合从自适应动态规划训练的神经网络中获得的五个获胜概率w1及其相应的蒙特卡洛树搜索的获胜概率w2,预测最终获胜概率,进而选择具有最大值的动作位置。
进一步的,所述步骤2的具体步骤如下:
步骤2.1)当前状态x(t)被反馈到动作选择,动作选择产生控制动作u(t),在动作u(t)情况下,选择下一步过渡状态x(t+1)送到效用函数r,产生一个反馈值r(x(t+1)),评估网络通过反馈值r(x(t+1))来估计成本函数V,其中x(t)∈X,u(t)∈U,r(x(t+1))∈R,t表示数据的节点;
步骤2.2)反馈值r(x(t+1))、评估函数v(t)和评估函数v(t+1)用于更新评估网络的权重使成本函数V满足Bellman方程;
步骤2.3)自适应动态规划训练的神经网络的最终输出v(t)是候选移动位置的获胜概率,关系如下:
其中,wji(t)是第j个输入节点和第i个隐藏节点之间的权重,xj(t)是输入层的第j个输入,n是输入节点的总数,hi(t)是第i个隐藏节点的输入,gi(t)是第i个隐藏节点的输出,wi(t)是隐藏节点和输出节点之间的权重,m是隐藏节点的总数,p(t)是输出节点之间的输入。
进一步的,所述步骤3的具体步骤如下:
步骤3.1)从根节点,也就是做决策的局面C出发向下选择一个需要被拓展的节点T:局面C是第一个被检查的节点,如果被检查的节点存在一个没有被评估过的走法y,那么被检查的节点在执行y后得到的新局面就是我们所需要展开的T;如果被检查的局面所有可行的走法已经都被评估过,那么利用UCB公式,即得到一个拥有最大UCB值的节点T,其中为观测到的第c个模拟的平均反馈值,kc为访问节点c的次数,k是到目前为止总的搜索次数;
步骤3.2)扩展过程:如果T节点不是终止节点,选中一个或者多个子节点展开加入博弈树;
步骤3.3)模拟估值:从新加入博弈树的节点开始通过蒙特卡罗方法随机生成博弈双方的合理动作,直到搜索结束,得到一个确定的结果;
步骤3.4)反向传播:将模拟估值得到的结果从叶节点开始层层回溯给自己的父节点,根据结果调整这些父节点的估值;
步骤3.5)在规定的时间或者搜索次数内重复以上过程,最后根据节点的估值判断搜索的结果,从而得到蒙特卡洛搜索的获胜概率w2。
进一步的,所述步骤4的具体步骤如下:
步骤4.1)结合从自适应动态规划训练的神经网络中获得的五个获胜概率集合及其相应的蒙特卡洛树搜索的获胜概率,对于每个w1、w2,得到预测的最终获胜概率wp=θw1+(1-θ)w2,式中wp是预测的最终获胜概率,w1是ADP的获胜概率,w2是MCTS的获胜概率,θ是[0,1]之间的实常数,由此可知,当θ=0时,获胜预测仅取决于MCTS;相反,θ=1时,意味着预测仅取决于ADP;
步骤4.2)从wp集合中选择最大值,即选择具有最大值的动作位置。
有益效果:本发明提供的一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,相对于现有技术,具有以下优点:本发明结合了浅层神经网络和蒙特卡罗模拟,使用ADP训练神经网络对抗自身,在训练后,神经网络可以获得任何可能情况的获胜概率,从而使游戏的最终预测结果更准确。具体来说:
1、本发明使用ADP训练神经网络,获得候选移动使MCTS的搜索空间变得比以前更小,从而比仅有MCTS的方法节省了很多时间;
2、本发明通过自适应动态编程的思想,通过将其与三层完全连接的神经网络配对以提高适应性和自我教学行为,提高博弈性能,突破了搜索深度的瓶颈,不仅确保了搜索的准确性,还减少了搜索的宽度。
附图说明
图1为本发明一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法系统流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示为一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,包括以下步骤:
步骤1)输入一个状态、行为和状态的即时反馈值集合,即X、U和R的搜索集;
步骤2)从自适应动态规划训练的神经网络中获得五个候选移动位置及其获胜概率w1;
步骤3)将五个候选移动位置及其当前环境情况视为蒙特卡罗树搜索的根节点,根据蒙特卡罗树搜索方法分别获得5个获胜概率w2;
步骤4)结合从自适应动态规划训练的神经网络中获得的五个获胜概率w1及其相应的蒙特卡洛树搜索的获胜概率w2,预测最终获胜概率,进而选择具有最大值的动作位置。
所述步骤2的具体步骤如下:
步骤2.1)当前状态x(t)被反馈到动作选择,动作选择产生控制动作u(t),在动作u(t)情况下,选择下一步过渡状态x(t+1)送到效用函数r,产生一个反馈值r(x(t+1)),评估网络通过反馈值r(x(t+1))来估计成本函数V,其中x(t)∈X,u(t)∈U,r(x(t+1))∈R,t表示数据的节点;
步骤2.2)反馈值r(x(t+1))、评估函数v(t)和评估函数v(t+1)用于更新评估网络的权重使成本函数V满足Bellman方程;
步骤2.3)自适应动态规划训练的神经网络的最终输出v(t)是候选移动位置的获胜概率,关系如下:
其中,wji(t)是第j个输入节点和第i个隐藏节点之间的权重,xj(t)是输入层的第j个输入,n是输入节点的总数,hi(t)是第i个隐藏节点的输入,gi(t)是第i个隐藏节点的输出,wi(t)是隐藏节点和输出节点之间的权重,m是隐藏节点的总数,p(t)是输出节点之间的输入。
所述步骤3的具体步骤如下:
步骤3.1)从根节点,也就是做决策的局面C出发向下选择一个需要被拓展的节点T:局面C是第一个被检查的节点,如果被检查的节点存在一个没有被评估过的走法y,那么被检查的节点在执行y后得到的新局面就是我们所需要展开的T;如果被检查的局面所有可行的走法已经都被评估过,那么利用UCB公式,即得到一个拥有最大UCB值的节点T,其中为观测到的第c个模拟的平均反馈值,kc为访问节点c的次数,k是到目前为止总的搜索次数;
步骤3.2)扩展过程:如果T节点不是终止节点,选中一个或者多个子节点展开加入博弈树,同时选中其中一个成为父节点;
步骤3.3)模拟估值:从新加入博弈树的节点开始通过蒙特卡罗方法随机生成博弈双方的合理动作,直到搜索结束,得到一个确定的结果;
步骤3.4)反向传播:将模拟估值得到的结果从叶节点开始层层回溯给自己的父节点,根据结果调整这些父节点的估值;
步骤3.5)在规定的时间或者搜索次数内重复以上过程,最后根据节点的估值判断搜索的结果,从而得到蒙特卡洛搜索的获胜概率w2。
所述步骤4的具体步骤如下:
步骤4.1)结合从自适应动态规划训练的神经网络中获得的五个获胜概率集合及其相应的蒙特卡洛树搜索的获胜概率,对于每个w1、w2,得到预测的最终获胜概率wp=θw1+(1-θ)w2,式中wp是预测的最终获胜概率,w1是ADP的获胜概率,w2是MCTS的获胜概率,θ是[0,1]之间的实常数,由此可知,当θ=0时,获胜预测仅取决于MCTS;相反,θ=1时,意味着预测仅取决于ADP;
步骤4.2)从wp集合中选择最大值,即选择具有最大值的动作位置。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,其特征在于,包括以下步骤:
步骤1)输入一个状态、行为和状态的即时反馈值集合,即搜索集X、U和R;
步骤2)从自适应动态规划训练的神经网络中获得五个候选移动位置及其获胜概率w1;
步骤3)将五个候选移动位置及其当前环境情况视为蒙特卡罗树搜索的根节点,根据蒙特卡罗树搜索方法分别获得5个获胜概率w2;
步骤4)结合从自适应动态规划训练的神经网络中获得的五个获胜概率w1及其相应的蒙特卡洛树搜索的获胜概率w2,预测最终获胜概率,进而选择具有最大值的动作位置。
2.根据权利要求1所述的一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,其特征在于,所述步骤2的具体步骤如下:
步骤2.1)当前状态x(t)被反馈到动作选择,动作选择产生控制动作u(t),在动作u(t)情况下,选择下一步过渡状态x(t+1)送到效用函数r,产生一个反馈值r(x(t+1)),评估网络通过反馈值r(x(t+1))来估计成本函数V,其中x(t)∈X,u(t)∈U,r(x(t+1))∈R,t表示数据的节点;
步骤2.2)反馈值r(x(t+1))、评估函数v(t)和评估函数v(t+1)用于更新评估网络的权重使成本函数V满足Bellman方程;
步骤2.3)自适应动态规划训练的神经网络的最终输出v(t)是候选移动位置的获胜概率,关系如下:
其中,wji(t)是第j个输入节点和第i个隐藏节点之间的权重,xj(t)是输入层的第j个输入,n是输入节点的总数,hi(t)是第i个隐藏节点的输入,gi(t)是第i个隐藏节点的输出,wi(t)是隐藏节点和输出节点之间的权重,m是隐藏节点的总数,p(t)是输出节点之间的输入。
3.根据权利要求2所述的一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,其特征在于,所述步骤3的具体步骤如下:
步骤3.1)从根节点,也就是做决策的局面C出发向下选择一个需要被拓展的节点T:局面C是第一个被检查的节点,如果被检查的节点存在一个没有被评估过的走法y,那么被检查的节点在执行y后得到的新局面就是我们所需要展开的T;如果被检查的局面所有可行的走法已经都被评估过,那么利用UCB公式,即得到一个拥有最大UCB值的节点T,其中为观测到的第c个模拟的平均反馈值,kc为访问节点c的次数,k是到目前为止总的搜索次数;
步骤3.2)扩展过程:如果T节点不是终止节点,选中一个或者多个子节点展开加入博弈树;
步骤3.3)模拟估值:从新加入博弈树的节点开始通过蒙特卡罗方法随机生成博弈双方的合理动作,直到搜索结束,得到一个确定的结果;
步骤3.4)反向传播:将模拟估值得到的结果从叶节点开始层层回溯给自己的父节点,根据结果调整这些父节点的估值;
步骤3.5)在规定的时间或者搜索次数内重复以上过程,最后根据节点的估值判断搜索的结果,从而得到蒙特卡洛搜索的获胜概率w2。
4.根据权利要求3所述的一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,其特征在于,所述步骤4的具体步骤如下:
步骤4.1)结合从自适应动态规划训练的神经网络中获得的五个获胜概率集合及其相应的蒙特卡洛树搜索的获胜概率,对于每个w1、w2,得到预测的最终获胜概率wp=θw1+(1-θ)w2,式中wp是预测的最终获胜概率,w1是ADP的获胜概率,w2是MCTS的获胜概率,θ是[0,1]之间的实常数;
步骤4.2)从wp集合中选择最大值,即选择具有最大值的动作位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910360537.1A CN110083748A (zh) | 2019-04-30 | 2019-04-30 | 一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910360537.1A CN110083748A (zh) | 2019-04-30 | 2019-04-30 | 一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110083748A true CN110083748A (zh) | 2019-08-02 |
Family
ID=67418106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910360537.1A Withdrawn CN110083748A (zh) | 2019-04-30 | 2019-04-30 | 一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110083748A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110772794A (zh) * | 2019-10-12 | 2020-02-11 | 广州多益网络股份有限公司 | 智能游戏处理方法、装置、设备及存储介质 |
CN111667043A (zh) * | 2020-05-20 | 2020-09-15 | 季华实验室 | 一种棋类游戏对弈方法、系统、终端以及存储介质 |
CN112755538A (zh) * | 2021-04-07 | 2021-05-07 | 中国科学院自动化研究所 | 通用的多智能体博弈算法 |
CN113318451A (zh) * | 2021-05-28 | 2021-08-31 | 南京邮电大学 | 一种基于机器学习的棋类自学习方法及装置 |
CN113599798A (zh) * | 2021-08-25 | 2021-11-05 | 上海交通大学 | 基于深度强化学习方法的中国象棋博弈学习方法及系统 |
CN116050689A (zh) * | 2023-01-18 | 2023-05-02 | 中南大学 | 一种广域空间铁路线路智能搜索方法、系统、终端及介质 |
-
2019
- 2019-04-30 CN CN201910360537.1A patent/CN110083748A/zh not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110772794A (zh) * | 2019-10-12 | 2020-02-11 | 广州多益网络股份有限公司 | 智能游戏处理方法、装置、设备及存储介质 |
CN111667043A (zh) * | 2020-05-20 | 2020-09-15 | 季华实验室 | 一种棋类游戏对弈方法、系统、终端以及存储介质 |
CN111667043B (zh) * | 2020-05-20 | 2023-09-19 | 季华实验室 | 一种棋类游戏对弈方法、系统、终端以及存储介质 |
CN112755538A (zh) * | 2021-04-07 | 2021-05-07 | 中国科学院自动化研究所 | 通用的多智能体博弈算法 |
CN112755538B (zh) * | 2021-04-07 | 2021-08-31 | 中国科学院自动化研究所 | 一种基于多智能体的实时战略游戏对局方法 |
CN113318451A (zh) * | 2021-05-28 | 2021-08-31 | 南京邮电大学 | 一种基于机器学习的棋类自学习方法及装置 |
CN113599798A (zh) * | 2021-08-25 | 2021-11-05 | 上海交通大学 | 基于深度强化学习方法的中国象棋博弈学习方法及系统 |
CN116050689A (zh) * | 2023-01-18 | 2023-05-02 | 中南大学 | 一种广域空间铁路线路智能搜索方法、系统、终端及介质 |
CN116050689B (zh) * | 2023-01-18 | 2023-11-17 | 中南大学 | 一种广域空间铁路线路智能搜索方法、系统、终端及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083748A (zh) | 一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法 | |
Bodha et al. | A player unknown's battlegrounds ranking based optimization technique for power system optimization problem | |
Zhu et al. | Online minimax Q network learning for two-player zero-sum Markov games | |
Wunder et al. | Using iterated reasoning to predict opponent strategies. | |
CN105869053A (zh) | 基于两阶段memetic的社交网络影响最大化方法 | |
CN110851566A (zh) | 一种改进的可微分网络结构搜索的方法 | |
Moradi et al. | Automatic skill acquisition in reinforcement learning using graph centrality measures | |
CN110059747A (zh) | 一种网络流量分类方法 | |
CN112528591A (zh) | 一种基于联合蒙特卡洛树搜索的pcb板自动布线方法 | |
CN113722980A (zh) | 海洋浪高预测方法、系统、计算机设备、存储介质、终端 | |
CN111292197A (zh) | 基于卷积神经网络和自编码器的社区发现方法 | |
CN112232844A (zh) | 基于时序差分算法的区块链币矿池多矿工合作演化方法 | |
Tong et al. | Enhancing rolling horizon evolution with policy and value networks | |
Chen et al. | Learning implicit information in Bayesian games with knowledge transfer | |
Li et al. | Two-level Q-learning: learning from conflict demonstrations | |
Liu et al. | Towards understanding chinese checkers with heuristics, monte carlo tree search, and deep reinforcement learning | |
Meng et al. | Design of amazon chess game system based on reinforcement learning | |
Zhong et al. | An incremental identification method for fraud phone calls based on broad learning system | |
Wang et al. | Dynamics prediction of large-scale social network based on cooperative behavior | |
CN113076123A (zh) | 一种用于目标跟踪的自适应模板更新系统及方法 | |
Wang et al. | Modified snowdrift games for multi-robot water polo matches | |
Xu et al. | Lineup mining and balance analysis of auto battler | |
CN118277751A (zh) | 一种基于联赛机制的多评测模型的评测方法及系统 | |
Chen et al. | Research on turn-based war chess game based on reinforcement learning | |
Long et al. | Basketball players’ behavior prediction method based on video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190802 |