CN116306947A - 一种基于蒙特卡洛树探索的多智能体决策方法 - Google Patents
一种基于蒙特卡洛树探索的多智能体决策方法 Download PDFInfo
- Publication number
- CN116306947A CN116306947A CN202310090294.0A CN202310090294A CN116306947A CN 116306947 A CN116306947 A CN 116306947A CN 202310090294 A CN202310090294 A CN 202310090294A CN 116306947 A CN116306947 A CN 116306947A
- Authority
- CN
- China
- Prior art keywords
- monte carlo
- tree
- agent
- exploration
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013138 pruning Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 41
- 230000009916 joint effect Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 7
- 238000010845 search algorithm Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于蒙特卡洛树探索的多智能体决策方法,属于任务规划技术领域,包括1:基于分布式部分观测马尔可夫决策过程对多智能体决策任务进行建模;2:基于模型初始化蒙特卡洛树;3:在预设的时间内采用上限置信区间算法进行树内探索,采用随机策略对树外进行探索,拓展蒙特卡洛树节点,并根据产生的奖励更新蒙特卡洛树节点价值;4:根据已经构建的蒙特卡洛树进行多智能体决策,并对蒙特卡洛树进行剪枝,更新根节点的信念值,重复S3‑S4,直至任务完成。本发明中,采用在线探索方法,可以在有限的时间内取得Dec‑POMDP模型的近似解;对不同的智能体分别建立独立的蒙特卡洛树,降低了探索空间,加大了探索深度,提供了更好的求解质量。
Description
技术领域
本发明属于任务规划技术领域,尤其涉及一种基于蒙特卡洛树探索的多智能体决策方法。
背景技术
随着科技与工业的发展,机器人在人类的生产与生活中扮演着愈发重要的职责。人工智能的一个重要目标就是建立起拥有自主决策与行为能力的智能体。目前已有多种服务型机器人应用于实际生活中,如扫地机器人等。尽管单个智能体可以满足很多场景需求,但是仍有大量任务需要多个智能体协作完成,如机器人足球比赛、机器人分拣快递等。这些任务需要多智能体分别协调各自的行动,以达成特定目标。同时,在任务执行过程中,由于传感器性能导致的感知不确定性和由于控制的不稳定导致行动结果的不确定性都是一些重要的特征。
分布式部分观测马尔可夫决策过程(Dec-POMDP)是用来描述不确定环境下多智能体序列决策任务的常用模型。Dec-POMDP为多智能体决策方法提供了很好的数学框架。然而,每个智能体需要依据自己的局部信息生成全局最优的策略,同时还要考虑其他智能体可能的行动,导致联合策略的空间随着智能体数量呈指数级增长,求解Dec-POMDP是非常困难的。同时,由于Dec-POMDP模型的部分观测性,智能体无法直接获得环境的状态,只能通过观测间接维持对环境的信念。而由于信念空间的高纬特性,导致Dec-POMDP难以精确求解。目前求解方法主要分为自底向上的动态规划算法和自顶向下的启发式搜索算法。动态规划方法从最后一步决策开始,为每一个智能体循环构建策略树,直到当前决策步;启发式搜索算法从当前决策步开始构建策略树,直到最后决策步。
现有的算法存在求解决策深度有限,求解时间较长等问题。无论是动态规划还是启发式搜索,联合策略的备份或启发式函数的求解都耗费了大量的内存,使得算法很难应用到性能与内存受限的智能机器人。
发明内容
本发明的目的在于提供一种基于蒙特卡洛树探索的多智能体决策方法,其特征在于,包括如下步骤:
S1:基于分布式部分观测马尔可夫决策过程对决策任务进行建模;
S2:基于模型初始化蒙特卡洛树;
S3:在预设的时间内采用上限置信区间算法进行树内探索,采用随机策略对树外进行探索,拓展蒙特卡洛树节点,并根据产生的奖励更新蒙特卡洛树节点价值;
S4:根据已经构建的蒙特卡洛树进行多智能体决策,并对蒙特卡洛树进行剪枝,更新根节点的信念值,重复S3-S4,直至任务完成。
进一步地,S1中,将多智能体决策方法建模为Dec-POMDP模型,模型定义为一个元祖<I,S,A,T,Z,O,R>其中,I={1,…,n}为有限智能体的结合;n为智能体的数量;S={s1,…,sn}为智能体有限状态的集合;Z={z1,…,zn}为智能体有限观测的集合;A={a1,…,an}为智能体的联合动作;T为状态转移函数,表示智能体集群在当前状态下执行联合动作达到下一个状态的概率;O为观测函数,表示智能体集群在当前状态下执行联合动作获得某一观测的概率;R为奖励函数,表示智能体集群在当前状态下执行联合动作获得的奖励。
进一步地,S2中,据Dec-POMDP模型,对每一个智能体建立独立的蒙特卡洛树,生成根节点,其中,Ht={A0,Z1,…,At-1,Zt}为智能体集群所经历的历史动作-观测序列;代表智能体i所经历的历史动作-观测序列;/>代表节点,j表示节点的序号;Q代表节点的价值,初始值为0;树内分为观测节点与动作节点。
进一步地,述S3中,在有限的时间内于每个智能体的树内同步进行采样,并完成探索,具体为:基于根节点的信念,采样得到每个智能体的状态,从根节点开始按照Dec-POMDP模型执行可行的动作,采样得到环境反馈的观测与下一步的状态,树内探索按照上限置信度算法平衡探索与贪婪策略,公式表示为:
进一步地,S3中,当树内节点被探索完成,达到叶节点时,即在树外节点进行探索,树外探索采用随机策略的方式,随机执行可选择的动作,快速评估可能产生的奖励,具体为:根据选择的动作,以及获得的观测,在叶节点下新建子节点,节点的价值由随机动作探索而来,计算公式表示为:
其中,T为决策深度;r表示折扣因子,为0-1的常数,t为当前探索深度,RT为多智能体执行联合动作在环境中获得的奖励。
进一步地,S3中,根据产生的奖励更新蒙特卡洛树节点价值具体为:将集体奖励共同赋予执行过程中的所有智能体,当建立新的节点时,根据新节点的价值,反向传播,自下而上地更新所有节点的价值,公式表示为:
进一步地,S4中,设定探索时间或探索次数的上限值K,K的表达式为:
K=m|A||Z|T2
其中,|A|为联合动作数量;|Z|为联合观测数量;T代表决策步长;m为常数。
进一步地,S4中,在更新所有节点的价值后,需对探索时间或探索次数进行判定,判定是否达到上限,若是,则进行下一步;若没有达到上限,则重复S3,直至探索时间或探索次数达到上限为止。
进一步地,下一步具体为:在已生成的蒙特卡洛树的根节点处,根据不同动作的价值,采用贪心算法选择采取的动作,并控制多智能体在环境中交互,获得环境中的观测,然后根据采取的动作与取得的观测,对蒙特卡洛树进行剪枝。
进一步地,当剪枝完成后,判断任务是否完成,若任务完成,则结束多智能体决策;若任务未完成,则更新节点的信念值,重复S3-S4,直至任务完成。
与现有技术相比,本发明的有益效果主要体现在:
1、本发明采用在线探索方法,可以在有限的时间内取得Dec-POMDP模型的近似解。
2、本发明对不同的智能体分别建立独立的蒙特卡洛树,在保持模型不变的情况下,降低了探索空间,加大了探索深度,更好地保证求解质量。
附图说明
图1为本发明实施例的基于蒙特卡洛树探索的多智能体决策方法的流程图;
图2为多智能体的蒙特卡洛树示意图;
图3为蒙特卡洛树剪枝示意图。
具体实施方式
下面将结合示意图对本发明一种基于蒙特卡洛树探索的多智能体决策方法进行更详细的描述,其中表示了本发明的优选实施例,应该理解本领域技术人员可以修改在此描述的本发明,而仍然实现本发明的有利效果,因此,下列描述应当被理解为对于本领域技术人员的广泛知道,而并不作为对本发明的限制。
一种基于蒙特卡洛树探索的多智能体决策方法。通过蒙特卡洛树搜索在线求解复杂的多智能体决策任务,图1为本发明实施例的基于蒙特卡洛树探索的多智能体决策方法的流程图。
将多智能体决策方法建模为Dec-POMDP模型,该模型可定义为一个元组<I,S,A,T,Z,O,R>其中,I={1,…,n}是有限智能体的集合,n代表智能体的数量;S={s1,…,sn}代表智能体有限状态的集合,Z={z1,…,zn}代表智能体有限观测的集合,A={a1,…,an}代表智能体的联合动作,T代表状态转移函数,表示智能体集群在当前状态下执行联合动作达到下一个状态的概率。O代表观测函数,表示智能体集群在当前状态下执行联合动作获得某一观测的概率。R代表奖励函数,表示智能体集群在当前状态下执行联合动作获得的奖励。
对每一个智能体建立独立的蒙特卡洛树Treei,每一个树初始化生成根节点。Ht={A0,Z1,…,At-1,Zt}代表智能体集群所经历的历史动作-观测序列的集合,代表单一智能体i所经历的历史动作-观测序列的集合,/>代表Treei上位于探索深度t的节点,j表示节点的序号。Q代表节点的价值,图2所示节点中的数字即为节点的价值,初始值为0。树内分为观测节点与动作节点。
在有限的时间内在每个智能体的树内同步进行采样。基于根节点的信念,采样得到每个智能体的状态,从根节点开始按照Dec-POMDP模型执行可行的动作,采样得到环境反馈的观测与下一步的状态。树内探索按照上限置信度算法平衡探索与贪婪策略,公式如下:
当树内节点被探索完成,达到叶节点时,在树外节点进行探索。树外探索采用随机策略的方式,随机执行可选择的动作,快速评估可能产生的奖励。根据选择的动作,以及获得的观测,在叶节点下新建子节点,节点的价值由随机动作探索而来,计算公式如下:
其中,T代表决策深度,r代表折扣因子,为0-1的常数,t代表当前探索深度,RT指多智能体执行联合动作在环境中获得的奖励。将集体奖励共同赋予执行过程中的所有智能体。当建立新的节点时,根据新节点的价值,反向传播,自下而上地更新所有节点的价值。公式如下:
当达到探索时长限制或者采样次数达到限定值K时,停止采样。K可表示为:
K=m|A||Z|T2
其中,|A|代表联合动作数量,|Z|代表联合观测数量,T代表决策步长,m为常数。在已生成的蒙特卡洛树的根节点处,根据不同动作的价值,采用贪心算法选择采取的动作。控制多智能体在环境中交互,获得环境中的观测。如图3所示,根据采取的动作与取得的观测,对蒙特卡洛树进行剪枝,将选择的动作与观测节点作为新的根节点并更新信念。回到步骤2进行下一步决策,直至决策任务完成。
上述仅为本发明的优选实施例而已,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。
Claims (10)
1.一种基于蒙特卡洛树探索的多智能体决策方法,其特征在于,包括如下步骤:
S1:基于分布式部分观测马尔可夫决策过程对决策任务进行建模;
S2:基于模型初始化蒙特卡洛树;
S3:在预设的时间内采用上限置信区间算法进行树内探索,采用随机策略对树外进行探索,拓展蒙特卡洛树节点,并根据产生的奖励更新蒙特卡洛树节点价值;
S4:根据已经构建的蒙特卡洛树进行多智能体决策,并对蒙特卡洛树进行剪枝,更新根节点的信念值,重复S3-S4,直至任务完成。
2.根据权利要求1所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,所述S1中,将多智能体决策任务建模为Dec-POMDP模型,所述模型定义为一个元祖<I,S,A,T,Z,O,R>其中,I={1,…,n}为有限智能体的结合;n为智能体的数量;S={s1,…,sn}为智能体有限状态的集合;Z={z1,…,zn}为智能体有限观测的集合;A={a1,…,an}为智能体的联合动作;T为状态转移函数,表示智能体集群在当前状态下执行联合动作达到下一个状态的概率;O为观测函数,表示智能体集群在当前状态下执行联合动作获得某一观测的概率;R为奖励函数,表示智能体集群在当前状态下执行联合动作获得的奖励。
7.根据权利要求1所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,所述S4中,设定探索时间或探索次数的上限值K,K的表达式为:
K=m|A||Z|T2
其中,|A|为联合动作数量;|Z|为联合观测数量;T代表决策步长;m为常数。
8.根据权利要求7所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,所述S4中,在更新所有节点的价值后,需对探索时间或探索次数进行判定,判定是否达到上限,若是,则进行下一步;若没有达到上限,则重复S3,直至探索时间或探索次数达到上限为止。
9.根据权利要求8所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,所述下一步具体为:在已生成的蒙特卡洛树的根节点处,根据不同动作的价值,采用贪心算法选择采取的动作,并控制多智能体在环境中交互,获得环境中的观测,然后根据采取的动作与取得的观测,对蒙特卡洛树进行剪枝。
10.根据权利要求9所述的基于蒙特卡洛树探索的多智能体决策方法,其特征在于,当剪枝完成后,判断任务是否完成,若任务完成,则结束多智能体决策;若任务未完成,则更新节点的信念值,重复S3-S4,直至任务完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310090294.0A CN116306947A (zh) | 2023-02-09 | 2023-02-09 | 一种基于蒙特卡洛树探索的多智能体决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310090294.0A CN116306947A (zh) | 2023-02-09 | 2023-02-09 | 一种基于蒙特卡洛树探索的多智能体决策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116306947A true CN116306947A (zh) | 2023-06-23 |
Family
ID=86826562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310090294.0A Pending CN116306947A (zh) | 2023-02-09 | 2023-02-09 | 一种基于蒙特卡洛树探索的多智能体决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116306947A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116526477A (zh) * | 2023-06-30 | 2023-08-01 | 南方电网数字电网研究院有限公司 | 电网重构策略的确定方法、装置、计算机设备和存储介质 |
-
2023
- 2023-02-09 CN CN202310090294.0A patent/CN116306947A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116526477A (zh) * | 2023-06-30 | 2023-08-01 | 南方电网数字电网研究院有限公司 | 电网重构策略的确定方法、装置、计算机设备和存储介质 |
CN116526477B (zh) * | 2023-06-30 | 2024-03-26 | 南方电网数字电网研究院有限公司 | 电网重构策略的确定方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
Vecerik et al. | Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards | |
Jeerige et al. | Comparison of deep reinforcement learning approaches for intelligent game playing | |
CN113919485B (zh) | 基于动态层级通信网络的多智能体强化学习方法及系统 | |
CN112264999B (zh) | 用于智能体连续空间行动规划的方法、装置及存储介质 | |
CN110014428A (zh) | 一种基于强化学习的时序逻辑任务规划方法 | |
CN113379027A (zh) | 一种生成对抗交互模仿学习方法、系统、存储介质及应用 | |
CN116306947A (zh) | 一种基于蒙特卡洛树探索的多智能体决策方法 | |
CN115022231B (zh) | 一种基于深度强化学习的最优路径规划的方法和系统 | |
Thabet et al. | Sample-efficient deep reinforcement learning with imaginary rollouts for human-robot interaction | |
Niu et al. | Lightzero: A unified benchmark for monte carlo tree search in general sequential decision scenarios | |
CN115964898A (zh) | 面向兵力博弈对抗的bc-qmix离在线多智能体行为决策建模方法 | |
Hafez et al. | Efficient intrinsically motivated robotic grasping with learning-adaptive imagination in latent space | |
JP2021192141A (ja) | 学習装置、学習方法、および学習プログラム | |
Subramanian et al. | Multi-agent advisor Q-learning | |
Atashbar et al. | AI and macroeconomic modeling: Deep reinforcement learning in an RBC model | |
Tong et al. | Enhancing rolling horizon evolution with policy and value networks | |
CN116451557A (zh) | 用于控制机器狗行进的智能体强化学习方法与装置 | |
CN112884129B (zh) | 一种基于示教数据的多步规则提取方法、设备及存储介质 | |
Tang et al. | Reinforcement learning for robots path planning with rule-based shallow-trial | |
CN114879486A (zh) | 一种基于强化学习和进化算法的机器人优化控制方法 | |
CN113569466A (zh) | 一种基于值函数的参数化深度强化学习算法 | |
Wu et al. | Model-based Bayesian Reinforcement Learning in Factored Markov Decision Process. | |
CN116718198B (zh) | 基于时序知识图谱的无人机集群的路径规划方法及系统 | |
Järvinen | Reinforcement learning: learning from experience |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 200092 Siping Road 1239, Shanghai, Yangpu District Applicant after: TONGJI University Address before: 200092 Siping Road 1239, Shanghai, Hongkou District Applicant before: TONGJI University |