CN110083748A - 一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法 - Google Patents

一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法 Download PDF

Info

Publication number
CN110083748A
CN110083748A CN201910360537.1A CN201910360537A CN110083748A CN 110083748 A CN110083748 A CN 110083748A CN 201910360537 A CN201910360537 A CN 201910360537A CN 110083748 A CN110083748 A CN 110083748A
Authority
CN
China
Prior art keywords
node
winning probability
search
monte carlo
dynamic programming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910360537.1A
Other languages
English (en)
Inventor
陈志�
董阳
岳文静
汪皓平
狄小娟
袁广进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910360537.1A priority Critical patent/CN110083748A/zh
Publication of CN110083748A publication Critical patent/CN110083748A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,包括:输入一个状态、行为和环境的即时反馈值集合,即S、A和R的搜索集;从自适应动态规划训练的神经网络中获得五个候选移动位置及其获胜概率w1;将五个候选移动位置及其当前环境情况视为蒙特卡罗树搜索的根节点,根据蒙特卡罗树搜索方法分别获得5个获胜概率w2;结合五个ADP获胜概率w1及其相应的MCTS获胜概率w2,预测最终获胜概率,进而选择具有最大值的动作位置。本发明结合了浅层神经网络和蒙特卡罗模拟,使用ADP训练神经网络对抗自身,在训练后,神经网络可以获得任何可能情况的获胜概率,从而使游戏的最终预测结果更准确。

Description

一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法
技术领域
本发明涉及一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,属于机器博弈、计算机搜索技术领域。
背景技术
人工智能的发展十分的迅速,科技发达的今天,我们的生活离不开人工智能的东西,计算机博弈为人工智能的一个分支,很多实际问题可以在博弈的研究中得到解决,并且使计算机智力更加靠近人类的智慧。现在,许多国家把人工智能作为重点项目列为各国的高科技发展计划,投入庞大的人力和资金。博弈的过程相当于对弈或者说是斗智的过程这是自然界中的一个普遍的特征,它不仅仅存在于下棋当中而且存在于政治、经济、军事或者说生物竞争当中。近年来,网络下棋游戏层出不穷,从此棋类玩法不在限制于实物,而五子棋的电子游戏也越来越多,也就是现在新出的名词“计算机博弈”。
自适应动态规划(ADP)是最优控制领域新兴起的一种近似最优方法,是当前国际最优化领域的研究热点。在人工智能领域,强化学习、人工神经网络、模糊系统、演化计算等方法的发展和丰富,提出了很多求解非线性系统优化问题的解决思路和具体技术方法。而ADP以传统的最优控制为理论基础,融合人工智能的先进方法,提出了解决大规模复杂非线性系统优化控制问题的解决方法。
随着人工智能技术的快速发展,蒙特卡洛树搜索作为一种人工智能问题中做出最优决策的方法受到越来越多的关注。蒙特卡洛树搜索是在完美信息博弈场景中进行决策的一种通用技术,除游戏之外,它还在很多现实世界的应用中有着广阔前景。鉴于此,本发明提出一种博弈搜索方法,该方法结合了蒙特卡罗树搜索与自适应动态规划,解决了原始蒙特卡罗树搜索不准确的问题。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,通过结合浅层神经网络和蒙特卡罗模拟,选择具有最大值的动作位置,以有效消除神经网络评估函数的“短视”缺陷。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,包括以下步骤:
步骤1)输入一个状态、行为和状态的即时反馈值集合,即X、U和R的搜索集;
步骤2)从自适应动态规划训练的神经网络中获得五个候选移动位置及其获胜概率w1
步骤3)将五个候选移动位置及其当前环境情况视为蒙特卡罗树搜索的根节点,根据蒙特卡罗树搜索方法分别获得5个获胜概率w2
步骤4)结合从自适应动态规划训练的神经网络中获得的五个获胜概率w1及其相应的蒙特卡洛树搜索的获胜概率w2,预测最终获胜概率,进而选择具有最大值的动作位置。
进一步的,所述步骤2的具体步骤如下:
步骤2.1)当前状态x(t)被反馈到动作选择,动作选择产生控制动作u(t),在动作u(t)情况下,选择下一步过渡状态x(t+1)送到效用函数r,产生一个反馈值r(x(t+1)),评估网络通过反馈值r(x(t+1))来估计成本函数V,其中x(t)∈X,u(t)∈U,r(x(t+1))∈R,t表示数据的节点;
步骤2.2)反馈值r(x(t+1))、评估函数v(t)和评估函数v(t+1)用于更新评估网络的权重使成本函数V满足Bellman方程;
步骤2.3)自适应动态规划训练的神经网络的最终输出v(t)是候选移动位置的获胜概率,关系如下:
其中,wji(t)是第j个输入节点和第i个隐藏节点之间的权重,xj(t)是输入层的第j个输入,n是输入节点的总数,hi(t)是第i个隐藏节点的输入,gi(t)是第i个隐藏节点的输出,wi(t)是隐藏节点和输出节点之间的权重,m是隐藏节点的总数,p(t)是输出节点之间的输入。
进一步的,所述步骤3的具体步骤如下:
步骤3.1)从根节点,也就是做决策的局面C出发向下选择一个需要被拓展的节点T:局面C是第一个被检查的节点,如果被检查的节点存在一个没有被评估过的走法y,那么被检查的节点在执行y后得到的新局面就是我们所需要展开的T;如果被检查的局面所有可行的走法已经都被评估过,那么利用UCB公式,即得到一个拥有最大UCB值的节点T,其中为观测到的第c个模拟的平均反馈值,kc为访问节点c的次数,k是到目前为止总的搜索次数;
步骤3.2)扩展过程:如果T节点不是终止节点,选中一个或者多个子节点展开加入博弈树;
步骤3.3)模拟估值:从新加入博弈树的节点开始通过蒙特卡罗方法随机生成博弈双方的合理动作,直到搜索结束,得到一个确定的结果;
步骤3.4)反向传播:将模拟估值得到的结果从叶节点开始层层回溯给自己的父节点,根据结果调整这些父节点的估值;
步骤3.5)在规定的时间或者搜索次数内重复以上过程,最后根据节点的估值判断搜索的结果,从而得到蒙特卡洛搜索的获胜概率w2
进一步的,所述步骤4的具体步骤如下:
步骤4.1)结合从自适应动态规划训练的神经网络中获得的五个获胜概率集合及其相应的蒙特卡洛树搜索的获胜概率,对于每个w1、w2,得到预测的最终获胜概率wp=θw1+(1-θ)w2,式中wp是预测的最终获胜概率,w1是ADP的获胜概率,w2是MCTS的获胜概率,θ是[0,1]之间的实常数,由此可知,当θ=0时,获胜预测仅取决于MCTS;相反,θ=1时,意味着预测仅取决于ADP;
步骤4.2)从wp集合中选择最大值,即选择具有最大值的动作位置。
有益效果:本发明提供的一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,相对于现有技术,具有以下优点:本发明结合了浅层神经网络和蒙特卡罗模拟,使用ADP训练神经网络对抗自身,在训练后,神经网络可以获得任何可能情况的获胜概率,从而使游戏的最终预测结果更准确。具体来说:
1、本发明使用ADP训练神经网络,获得候选移动使MCTS的搜索空间变得比以前更小,从而比仅有MCTS的方法节省了很多时间;
2、本发明通过自适应动态编程的思想,通过将其与三层完全连接的神经网络配对以提高适应性和自我教学行为,提高博弈性能,突破了搜索深度的瓶颈,不仅确保了搜索的准确性,还减少了搜索的宽度。
附图说明
图1为本发明一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法系统流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示为一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,包括以下步骤:
步骤1)输入一个状态、行为和状态的即时反馈值集合,即X、U和R的搜索集;
步骤2)从自适应动态规划训练的神经网络中获得五个候选移动位置及其获胜概率w1
步骤3)将五个候选移动位置及其当前环境情况视为蒙特卡罗树搜索的根节点,根据蒙特卡罗树搜索方法分别获得5个获胜概率w2
步骤4)结合从自适应动态规划训练的神经网络中获得的五个获胜概率w1及其相应的蒙特卡洛树搜索的获胜概率w2,预测最终获胜概率,进而选择具有最大值的动作位置。
所述步骤2的具体步骤如下:
步骤2.1)当前状态x(t)被反馈到动作选择,动作选择产生控制动作u(t),在动作u(t)情况下,选择下一步过渡状态x(t+1)送到效用函数r,产生一个反馈值r(x(t+1)),评估网络通过反馈值r(x(t+1))来估计成本函数V,其中x(t)∈X,u(t)∈U,r(x(t+1))∈R,t表示数据的节点;
步骤2.2)反馈值r(x(t+1))、评估函数v(t)和评估函数v(t+1)用于更新评估网络的权重使成本函数V满足Bellman方程;
步骤2.3)自适应动态规划训练的神经网络的最终输出v(t)是候选移动位置的获胜概率,关系如下:
其中,wji(t)是第j个输入节点和第i个隐藏节点之间的权重,xj(t)是输入层的第j个输入,n是输入节点的总数,hi(t)是第i个隐藏节点的输入,gi(t)是第i个隐藏节点的输出,wi(t)是隐藏节点和输出节点之间的权重,m是隐藏节点的总数,p(t)是输出节点之间的输入。
所述步骤3的具体步骤如下:
步骤3.1)从根节点,也就是做决策的局面C出发向下选择一个需要被拓展的节点T:局面C是第一个被检查的节点,如果被检查的节点存在一个没有被评估过的走法y,那么被检查的节点在执行y后得到的新局面就是我们所需要展开的T;如果被检查的局面所有可行的走法已经都被评估过,那么利用UCB公式,即得到一个拥有最大UCB值的节点T,其中为观测到的第c个模拟的平均反馈值,kc为访问节点c的次数,k是到目前为止总的搜索次数;
步骤3.2)扩展过程:如果T节点不是终止节点,选中一个或者多个子节点展开加入博弈树,同时选中其中一个成为父节点;
步骤3.3)模拟估值:从新加入博弈树的节点开始通过蒙特卡罗方法随机生成博弈双方的合理动作,直到搜索结束,得到一个确定的结果;
步骤3.4)反向传播:将模拟估值得到的结果从叶节点开始层层回溯给自己的父节点,根据结果调整这些父节点的估值;
步骤3.5)在规定的时间或者搜索次数内重复以上过程,最后根据节点的估值判断搜索的结果,从而得到蒙特卡洛搜索的获胜概率w2
所述步骤4的具体步骤如下:
步骤4.1)结合从自适应动态规划训练的神经网络中获得的五个获胜概率集合及其相应的蒙特卡洛树搜索的获胜概率,对于每个w1、w2,得到预测的最终获胜概率wp=θw1+(1-θ)w2,式中wp是预测的最终获胜概率,w1是ADP的获胜概率,w2是MCTS的获胜概率,θ是[0,1]之间的实常数,由此可知,当θ=0时,获胜预测仅取决于MCTS;相反,θ=1时,意味着预测仅取决于ADP;
步骤4.2)从wp集合中选择最大值,即选择具有最大值的动作位置。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,其特征在于,包括以下步骤:
步骤1)输入一个状态、行为和状态的即时反馈值集合,即搜索集X、U和R;
步骤2)从自适应动态规划训练的神经网络中获得五个候选移动位置及其获胜概率w1
步骤3)将五个候选移动位置及其当前环境情况视为蒙特卡罗树搜索的根节点,根据蒙特卡罗树搜索方法分别获得5个获胜概率w2
步骤4)结合从自适应动态规划训练的神经网络中获得的五个获胜概率w1及其相应的蒙特卡洛树搜索的获胜概率w2,预测最终获胜概率,进而选择具有最大值的动作位置。
2.根据权利要求1所述的一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,其特征在于,所述步骤2的具体步骤如下:
步骤2.1)当前状态x(t)被反馈到动作选择,动作选择产生控制动作u(t),在动作u(t)情况下,选择下一步过渡状态x(t+1)送到效用函数r,产生一个反馈值r(x(t+1)),评估网络通过反馈值r(x(t+1))来估计成本函数V,其中x(t)∈X,u(t)∈U,r(x(t+1))∈R,t表示数据的节点;
步骤2.2)反馈值r(x(t+1))、评估函数v(t)和评估函数v(t+1)用于更新评估网络的权重使成本函数V满足Bellman方程;
步骤2.3)自适应动态规划训练的神经网络的最终输出v(t)是候选移动位置的获胜概率,关系如下:
其中,wji(t)是第j个输入节点和第i个隐藏节点之间的权重,xj(t)是输入层的第j个输入,n是输入节点的总数,hi(t)是第i个隐藏节点的输入,gi(t)是第i个隐藏节点的输出,wi(t)是隐藏节点和输出节点之间的权重,m是隐藏节点的总数,p(t)是输出节点之间的输入。
3.根据权利要求2所述的一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,其特征在于,所述步骤3的具体步骤如下:
步骤3.1)从根节点,也就是做决策的局面C出发向下选择一个需要被拓展的节点T:局面C是第一个被检查的节点,如果被检查的节点存在一个没有被评估过的走法y,那么被检查的节点在执行y后得到的新局面就是我们所需要展开的T;如果被检查的局面所有可行的走法已经都被评估过,那么利用UCB公式,即得到一个拥有最大UCB值的节点T,其中为观测到的第c个模拟的平均反馈值,kc为访问节点c的次数,k是到目前为止总的搜索次数;
步骤3.2)扩展过程:如果T节点不是终止节点,选中一个或者多个子节点展开加入博弈树;
步骤3.3)模拟估值:从新加入博弈树的节点开始通过蒙特卡罗方法随机生成博弈双方的合理动作,直到搜索结束,得到一个确定的结果;
步骤3.4)反向传播:将模拟估值得到的结果从叶节点开始层层回溯给自己的父节点,根据结果调整这些父节点的估值;
步骤3.5)在规定的时间或者搜索次数内重复以上过程,最后根据节点的估值判断搜索的结果,从而得到蒙特卡洛搜索的获胜概率w2
4.根据权利要求3所述的一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法,其特征在于,所述步骤4的具体步骤如下:
步骤4.1)结合从自适应动态规划训练的神经网络中获得的五个获胜概率集合及其相应的蒙特卡洛树搜索的获胜概率,对于每个w1、w2,得到预测的最终获胜概率wp=θw1+(1-θ)w2,式中wp是预测的最终获胜概率,w1是ADP的获胜概率,w2是MCTS的获胜概率,θ是[0,1]之间的实常数;
步骤4.2)从wp集合中选择最大值,即选择具有最大值的动作位置。
CN201910360537.1A 2019-04-30 2019-04-30 一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法 Withdrawn CN110083748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910360537.1A CN110083748A (zh) 2019-04-30 2019-04-30 一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910360537.1A CN110083748A (zh) 2019-04-30 2019-04-30 一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法

Publications (1)

Publication Number Publication Date
CN110083748A true CN110083748A (zh) 2019-08-02

Family

ID=67418106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910360537.1A Withdrawn CN110083748A (zh) 2019-04-30 2019-04-30 一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法

Country Status (1)

Country Link
CN (1) CN110083748A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110772794A (zh) * 2019-10-12 2020-02-11 广州多益网络股份有限公司 智能游戏处理方法、装置、设备及存储介质
CN111667043A (zh) * 2020-05-20 2020-09-15 季华实验室 一种棋类游戏对弈方法、系统、终端以及存储介质
CN112755538A (zh) * 2021-04-07 2021-05-07 中国科学院自动化研究所 通用的多智能体博弈算法
CN113318451A (zh) * 2021-05-28 2021-08-31 南京邮电大学 一种基于机器学习的棋类自学习方法及装置
CN113599798A (zh) * 2021-08-25 2021-11-05 上海交通大学 基于深度强化学习方法的中国象棋博弈学习方法及系统
CN116050689A (zh) * 2023-01-18 2023-05-02 中南大学 一种广域空间铁路线路智能搜索方法、系统、终端及介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110772794A (zh) * 2019-10-12 2020-02-11 广州多益网络股份有限公司 智能游戏处理方法、装置、设备及存储介质
CN111667043A (zh) * 2020-05-20 2020-09-15 季华实验室 一种棋类游戏对弈方法、系统、终端以及存储介质
CN111667043B (zh) * 2020-05-20 2023-09-19 季华实验室 一种棋类游戏对弈方法、系统、终端以及存储介质
CN112755538A (zh) * 2021-04-07 2021-05-07 中国科学院自动化研究所 通用的多智能体博弈算法
CN112755538B (zh) * 2021-04-07 2021-08-31 中国科学院自动化研究所 一种基于多智能体的实时战略游戏对局方法
CN113318451A (zh) * 2021-05-28 2021-08-31 南京邮电大学 一种基于机器学习的棋类自学习方法及装置
CN113599798A (zh) * 2021-08-25 2021-11-05 上海交通大学 基于深度强化学习方法的中国象棋博弈学习方法及系统
CN116050689A (zh) * 2023-01-18 2023-05-02 中南大学 一种广域空间铁路线路智能搜索方法、系统、终端及介质
CN116050689B (zh) * 2023-01-18 2023-11-17 中南大学 一种广域空间铁路线路智能搜索方法、系统、终端及介质

Similar Documents

Publication Publication Date Title
CN110083748A (zh) 一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法
Bodha et al. A player unknown's battlegrounds ranking based optimization technique for power system optimization problem
Zhu et al. Online minimax Q network learning for two-player zero-sum Markov games
Wunder et al. Using iterated reasoning to predict opponent strategies.
CN105869053A (zh) 基于两阶段memetic的社交网络影响最大化方法
CN110851566A (zh) 一种改进的可微分网络结构搜索的方法
Moradi et al. Automatic skill acquisition in reinforcement learning using graph centrality measures
CN110059747A (zh) 一种网络流量分类方法
CN112528591A (zh) 一种基于联合蒙特卡洛树搜索的pcb板自动布线方法
CN113722980A (zh) 海洋浪高预测方法、系统、计算机设备、存储介质、终端
CN111292197A (zh) 基于卷积神经网络和自编码器的社区发现方法
CN112232844A (zh) 基于时序差分算法的区块链币矿池多矿工合作演化方法
Tong et al. Enhancing rolling horizon evolution with policy and value networks
Chen et al. Learning implicit information in Bayesian games with knowledge transfer
Li et al. Two-level Q-learning: learning from conflict demonstrations
Liu et al. Towards understanding chinese checkers with heuristics, monte carlo tree search, and deep reinforcement learning
Meng et al. Design of amazon chess game system based on reinforcement learning
Zhong et al. An incremental identification method for fraud phone calls based on broad learning system
Wang et al. Dynamics prediction of large-scale social network based on cooperative behavior
CN113076123A (zh) 一种用于目标跟踪的自适应模板更新系统及方法
Wang et al. Modified snowdrift games for multi-robot water polo matches
Xu et al. Lineup mining and balance analysis of auto battler
CN118277751A (zh) 一种基于联赛机制的多评测模型的评测方法及系统
Chen et al. Research on turn-based war chess game based on reinforcement learning
Long et al. Basketball players’ behavior prediction method based on video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190802