CN116306947A

CN116306947A - 一种基于蒙特卡洛树探索的多智能体决策方法

Info

Publication number: CN116306947A
Application number: CN202310090294.0A
Authority: CN
Inventors: 尤鸣宇; 付豪; 周洪钧; 何斌
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-06-23

Abstract

本发明提供一种基于蒙特卡洛树探索的多智能体决策方法，属于任务规划技术领域，包括1：基于分布式部分观测马尔可夫决策过程对多智能体决策任务进行建模；2：基于模型初始化蒙特卡洛树；3：在预设的时间内采用上限置信区间算法进行树内探索，采用随机策略对树外进行探索，拓展蒙特卡洛树节点，并根据产生的奖励更新蒙特卡洛树节点价值；4：根据已经构建的蒙特卡洛树进行多智能体决策，并对蒙特卡洛树进行剪枝，更新根节点的信念值，重复S3‑S4，直至任务完成。本发明中，采用在线探索方法，可以在有限的时间内取得Dec‑POMDP模型的近似解；对不同的智能体分别建立独立的蒙特卡洛树，降低了探索空间，加大了探索深度，提供了更好的求解质量。

Description

一种基于蒙特卡洛树探索的多智能体决策方法

技术领域

本发明属于任务规划技术领域，尤其涉及一种基于蒙特卡洛树探索的多智能体决策方法。

背景技术

随着科技与工业的发展，机器人在人类的生产与生活中扮演着愈发重要的职责。人工智能的一个重要目标就是建立起拥有自主决策与行为能力的智能体。目前已有多种服务型机器人应用于实际生活中，如扫地机器人等。尽管单个智能体可以满足很多场景需求，但是仍有大量任务需要多个智能体协作完成，如机器人足球比赛、机器人分拣快递等。这些任务需要多智能体分别协调各自的行动，以达成特定目标。同时，在任务执行过程中，由于传感器性能导致的感知不确定性和由于控制的不稳定导致行动结果的不确定性都是一些重要的特征。

分布式部分观测马尔可夫决策过程(Dec-POMDP)是用来描述不确定环境下多智能体序列决策任务的常用模型。Dec-POMDP为多智能体决策方法提供了很好的数学框架。然而，每个智能体需要依据自己的局部信息生成全局最优的策略，同时还要考虑其他智能体可能的行动，导致联合策略的空间随着智能体数量呈指数级增长，求解Dec-POMDP是非常困难的。同时，由于Dec-POMDP模型的部分观测性，智能体无法直接获得环境的状态，只能通过观测间接维持对环境的信念。而由于信念空间的高纬特性，导致Dec-POMDP难以精确求解。目前求解方法主要分为自底向上的动态规划算法和自顶向下的启发式搜索算法。动态规划方法从最后一步决策开始，为每一个智能体循环构建策略树，直到当前决策步；启发式搜索算法从当前决策步开始构建策略树，直到最后决策步。

现有的算法存在求解决策深度有限，求解时间较长等问题。无论是动态规划还是启发式搜索，联合策略的备份或启发式函数的求解都耗费了大量的内存，使得算法很难应用到性能与内存受限的智能机器人。

发明内容

本发明的目的在于提供一种基于蒙特卡洛树探索的多智能体决策方法，其特征在于，包括如下步骤：

S1：基于分布式部分观测马尔可夫决策过程对决策任务进行建模；

S2：基于模型初始化蒙特卡洛树；

S3：在预设的时间内采用上限置信区间算法进行树内探索，采用随机策略对树外进行探索，拓展蒙特卡洛树节点，并根据产生的奖励更新蒙特卡洛树节点价值；

S4：根据已经构建的蒙特卡洛树进行多智能体决策，并对蒙特卡洛树进行剪枝，更新根节点的信念值，重复S3-S4，直至任务完成。

进一步地，S1中，将多智能体决策方法建模为Dec-POMDP模型，模型定义为一个元祖<I，S，A，T，Z，O，R>其中，I＝{1,…,n}为有限智能体的结合；n为智能体的数量；S＝{s₁,…,s_n}为智能体有限状态的集合；Z＝{z₁,…,z_n}为智能体有限观测的集合；A＝{a₁,…,a_n}为智能体的联合动作；T为状态转移函数，表示智能体集群在当前状态下执行联合动作达到下一个状态的概率；O为观测函数，表示智能体集群在当前状态下执行联合动作获得某一观测的概率；R为奖励函数，表示智能体集群在当前状态下执行联合动作获得的奖励。

进一步地，S2中，据Dec-POMDP模型，对每一个智能体建立独立的蒙特卡洛树，生成根节点，其中，H_t＝{A₀,Z₁,…,A_t-1,Z_t}为智能体集群所经历的历史动作－观测序列；

代表智能体i所经历的历史动作－观测序列；/>

代表节点，j表示节点的序号；Q代表节点的价值，初始值为0；树内分为观测节点与动作节点。

进一步地，述S3中，在有限的时间内于每个智能体的树内同步进行采样，并完成探索，具体为：基于根节点的信念，采样得到每个智能体的状态，从根节点开始按照Dec-POMDP模型执行可行的动作，采样得到环境反馈的观测与下一步的状态，树内探索按照上限置信度算法平衡探索与贪婪策略，公式表示为：

其中，

表示在节点/>

处访问动作a的次数；/>

表示访问节点

的次数；c为常数，用于平衡探索和贪婪策略，利用更新后的Q^*执行贪婪策略，在树内选择动作。

进一步地，S3中，当树内节点被探索完成，达到叶节点时，即在树外节点进行探索，树外探索采用随机策略的方式，随机执行可选择的动作，快速评估可能产生的奖励，具体为：根据选择的动作，以及获得的观测，在叶节点下新建子节点，节点的价值由随机动作探索而来，计算公式表示为：

其中，T为决策深度；r表示折扣因子，为0-1的常数，t为当前探索深度，R_T为多智能体执行联合动作在环境中获得的奖励。

进一步地，S3中，根据产生的奖励更新蒙特卡洛树节点价值具体为：将集体奖励共同赋予执行过程中的所有智能体，当建立新的节点时，根据新节点的价值，反向传播，自下而上地更新所有节点的价值，公式表示为：

进一步地，S4中，设定探索时间或探索次数的上限值K，K的表达式为：

K＝m|A||Z|T²

其中，|A|为联合动作数量；|Z|为联合观测数量；T代表决策步长；m为常数。

进一步地，S4中，在更新所有节点的价值后，需对探索时间或探索次数进行判定，判定是否达到上限，若是，则进行下一步；若没有达到上限，则重复S3，直至探索时间或探索次数达到上限为止。

进一步地，下一步具体为：在已生成的蒙特卡洛树的根节点处，根据不同动作的价值，采用贪心算法选择采取的动作，并控制多智能体在环境中交互，获得环境中的观测，然后根据采取的动作与取得的观测，对蒙特卡洛树进行剪枝。

进一步地，当剪枝完成后，判断任务是否完成，若任务完成，则结束多智能体决策；若任务未完成，则更新节点的信念值，重复S3-S4，直至任务完成。

与现有技术相比，本发明的有益效果主要体现在：

1、本发明采用在线探索方法，可以在有限的时间内取得Dec-POMDP模型的近似解。

2、本发明对不同的智能体分别建立独立的蒙特卡洛树，在保持模型不变的情况下，降低了探索空间，加大了探索深度，更好地保证求解质量。

附图说明

图1为本发明实施例的基于蒙特卡洛树探索的多智能体决策方法的流程图；

图2为多智能体的蒙特卡洛树示意图；

图3为蒙特卡洛树剪枝示意图。

具体实施方式

下面将结合示意图对本发明一种基于蒙特卡洛树探索的多智能体决策方法进行更详细的描述，其中表示了本发明的优选实施例，应该理解本领域技术人员可以修改在此描述的本发明，而仍然实现本发明的有利效果，因此，下列描述应当被理解为对于本领域技术人员的广泛知道，而并不作为对本发明的限制。

一种基于蒙特卡洛树探索的多智能体决策方法。通过蒙特卡洛树搜索在线求解复杂的多智能体决策任务，图1为本发明实施例的基于蒙特卡洛树探索的多智能体决策方法的流程图。

将多智能体决策方法建模为Dec-POMDP模型，该模型可定义为一个元组<I,S,A,T,Z,O,R>其中，I＝{1,…,n}是有限智能体的集合，n代表智能体的数量；S＝{s₁,…,s_n}代表智能体有限状态的集合，Z＝{z₁,…,z_n}代表智能体有限观测的集合，A＝{a₁,…,a_n}代表智能体的联合动作，T代表状态转移函数，表示智能体集群在当前状态下执行联合动作达到下一个状态的概率。O代表观测函数，表示智能体集群在当前状态下执行联合动作获得某一观测的概率。R代表奖励函数，表示智能体集群在当前状态下执行联合动作获得的奖励。

对每一个智能体建立独立的蒙特卡洛树Tree_i，每一个树初始化生成根节点。H_t＝{A₀,Z₁,…,A_t-1,Z_t}代表智能体集群所经历的历史动作－观测序列的集合，

代表单一智能体i所经历的历史动作－观测序列的集合，/>

代表Tree_i上位于探索深度t的节点，j表示节点的序号。Q代表节点的价值，图2所示节点中的数字即为节点的价值，初始值为0。树内分为观测节点与动作节点。

在有限的时间内在每个智能体的树内同步进行采样。基于根节点的信念，采样得到每个智能体的状态，从根节点开始按照Dec-POMDP模型执行可行的动作，采样得到环境反馈的观测与下一步的状态。树内探索按照上限置信度算法平衡探索与贪婪策略，公式如下：

其中，

代表在节点/>

处访问动作a的次数，/>

代表访问节点

的次数，c为常数，设置为0.5，用于平衡探索与贪婪策略。利用更新后的Q^*执行贪婪策略，在树内选择动作。

当树内节点被探索完成，达到叶节点时，在树外节点进行探索。树外探索采用随机策略的方式，随机执行可选择的动作，快速评估可能产生的奖励。根据选择的动作，以及获得的观测，在叶节点下新建子节点，节点的价值由随机动作探索而来，计算公式如下：

其中，T代表决策深度，r代表折扣因子，为0-1的常数，t代表当前探索深度，R_T指多智能体执行联合动作在环境中获得的奖励。将集体奖励共同赋予执行过程中的所有智能体。当建立新的节点时，根据新节点的价值，反向传播，自下而上地更新所有节点的价值。公式如下：

当达到探索时长限制或者采样次数达到限定值K时，停止采样。K可表示为：

K＝m|A||Z|T²

其中，|A|代表联合动作数量，|Z|代表联合观测数量，T代表决策步长，m为常数。在已生成的蒙特卡洛树的根节点处，根据不同动作的价值，采用贪心算法选择采取的动作。控制多智能体在环境中交互，获得环境中的观测。如图3所示，根据采取的动作与取得的观测，对蒙特卡洛树进行剪枝，将选择的动作与观测节点作为新的根节点并更新信念。回到步骤2进行下一步决策，直至决策任务完成。

上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。

Claims

1.一种基于蒙特卡洛树探索的多智能体决策方法，其特征在于，包括如下步骤：

S2：基于模型初始化蒙特卡洛树；

2.根据权利要求1所述的基于蒙特卡洛树探索的多智能体决策方法，其特征在于，所述S1中，将多智能体决策任务建模为Dec-POMDP模型，所述模型定义为一个元祖<I,S,A,T,Z,O,R>其中，I＝{1,…,n}为有限智能体的结合；n为智能体的数量；S＝{s₁,…,s_n}为智能体有限状态的集合；Z＝{z₁,…,z_n}为智能体有限观测的集合；A＝{a₁,…,a_n}为智能体的联合动作；T为状态转移函数，表示智能体集群在当前状态下执行联合动作达到下一个状态的概率；O为观测函数，表示智能体集群在当前状态下执行联合动作获得某一观测的概率；R为奖励函数，表示智能体集群在当前状态下执行联合动作获得的奖励。

3.根据权利要求2所述的基于蒙特卡洛树探索的多智能体决策方法，其特征在于，所述S2中，根据Dec-POMDP模型，对每一个智能体建立独立的蒙特卡洛树，生成根节点，其中，H_t＝{A₀,Z₁,…,A_t-1,Z_t}为智能体集群所经历的历史动作－观测序列；

代表智能体i所经历的历史动作－观测序列；/>

4.根据权利要求1所述的基于蒙特卡洛树探索的多智能体决策方法，其特征在于，所述S3中，在有限的时间内于每个智能体的树内同步进行采样，并完成探索，具体为：基于根节点的信念，采样得到每个智能体的状态，从根节点开始按照Dec-POMDP模型执行可行的动作，采样得到环境反馈的观测与下一步的状态，树内探索按照上限置信度算法平衡探索与贪婪策略，公式表示为：

其中，

表示在节点/>

处访问动作a的次数；/>

表示访问节点/>

5.根据权利要求4所述的基于蒙特卡洛树探索的多智能体决策方法，其特征在于，所述S3中，当树内节点被探索完成，达到叶节点时，即在树外节点进行探索，树外探索采用随机策略的方式，随机执行可选择的动作，快速评估可能产生的奖励，具体为：根据选择的动作，以及获得的观测，在叶节点下新建子节点，节点的价值由随机动作探索而来，计算公式表示为：

其中，T为决策深度；r表示折扣因子，为0-1的常数；t为当前探索深度；R_T为多智能体执行联合动作在环境中获得的奖励。

6.根据权利要求5所述的基于蒙特卡洛树探索的多智能体决策方法，其特征在于，所述S3中，根据产生的奖励更新蒙特卡洛树节点价值具体为：将集体奖励共同赋予执行过程中的所有智能体，当建立新的节点时，根据新节点的价值，反向传播，自下而上地更新所有节点的价值，公式表示为：

7.根据权利要求1所述的基于蒙特卡洛树探索的多智能体决策方法，其特征在于，所述S4中，设定探索时间或探索次数的上限值K，K的表达式为：

K＝m|A||Z|T²

8.根据权利要求7所述的基于蒙特卡洛树探索的多智能体决策方法，其特征在于，所述S4中，在更新所有节点的价值后，需对探索时间或探索次数进行判定，判定是否达到上限，若是，则进行下一步；若没有达到上限，则重复S3，直至探索时间或探索次数达到上限为止。

9.根据权利要求8所述的基于蒙特卡洛树探索的多智能体决策方法，其特征在于，所述下一步具体为：在已生成的蒙特卡洛树的根节点处，根据不同动作的价值，采用贪心算法选择采取的动作，并控制多智能体在环境中交互，获得环境中的观测，然后根据采取的动作与取得的观测，对蒙特卡洛树进行剪枝。

10.根据权利要求9所述的基于蒙特卡洛树探索的多智能体决策方法，其特征在于，当剪枝完成后，判断任务是否完成，若任务完成，则结束多智能体决策；若任务未完成，则更新节点的信念值，重复S3-S4，直至任务完成。