CN112827174A

CN112827174A - 一种分布式多机器人目标搜索方法

Info

Publication number: CN112827174A
Application number: CN202110158566.7A
Authority: CN
Inventors: 刘华平; 马成宇; 葛泉波
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-25
Anticipated expiration: 2041-02-05
Also published as: CN112827174B

Abstract

本发明属于人工智能技术领域，尤其涉及一种分布式多机器人目标搜索方法。本发明公开了一种知识驱动的基于分布式蒙特卡洛树搜索算法的机器人群体目标搜索方法，包括：根据专家知识将搜索目标之间的关联性带入算法，实时更新区域追踪奖励与探索奖励，基于分布式蒙特卡洛树搜索算法确定机器人协同搜索过程中的动作序列，改进的上限置信区间同时利帕雷托最优策略实现多目标优化，利用梯度下降法优化机器人动作序列概率分布，与其他机器人通信，更新机器人动作序列概率分布。解决了机器人群体在未知、动态环境下的群体协同目标搜索问题。

Description

一种分布式多机器人目标搜索方法

技术领域

本发明属于人工智能技术领域，尤其涉及一种分布式多机器人目标搜索方法。

背景技术

现阶段多智能体的环境感知技术主要是被动地完成环境探测、目标识别与跟踪、实时定位与地图构建等，所涉及的智能体数目也大多为单个。此外，机器人群体的研究领域大多集中在机器人的群体集中式编队、机器人之间的通信机制、机器人之间的任务资源分配等方面，在机器人群体的协同目标搜索方面很少有研究，而移动目标搜索更是稀少。随着深度学习算法的飞速发展，热门的深度学习主要关注于文本、图像、视频等数据的处理，但是这一过程耗时长、数据收集成本高无法应用于实际的多机器人系统以及实时区域态势感知当中。在复杂大规模动态环境中，机器人需要与环境交互的信息量较多，不能很好地通过深度学习方法来进行主动目标感知。

现有的机器人目标搜索研究成果大部分集中于已知的静态环境，大多借助环境离散化，采用传统搜索算法，得到起点和终点之间的路径，比如：A*算法，蚁群算法，遗传算法，粒子群算法等。这些算法搜索速度慢，计算量大，在多约束条件下很难找到机器人群体的最优轨迹，且上述算法研究多集中于单个机器人应用，很少涉及群体机器人的协同搜索和感知。而且当区域环境未知且发生变化的时候，上述算法无法适应环境变化，必须重新计算，在区域态势感知、移动目标搜索方面有很大的局限性。

蒙特卡洛树搜索算法是一种利用蒙特卡洛方法作为评估的博弈树搜索算法，不需要引入过多的领域知识的同时，具有非常大的可扩展性，其采用的上限置信区间策略可以极大提升计算机博弈引擎水平，目前该算法多用于如围棋一类的博弈类游戏的开发，少数研究将蒙特卡洛算法应用于单个机器人在线规划，在机器人群体的目标搜索领域很少有研究成果。

发明内容

本发明的目的是提出一种分布式多机器人目标搜索方法，以克服现有技术中的不足，针对大规模且未知的非结构化复杂环境，引入专家知识，实时更新区域奖励值，并且利用蒙特卡洛树搜索算法解决多约束下群体机器人区域性系统快速轨迹规划和移动目标搜索。

本发明提出的分布式多机器人目标搜索方法，该方法根据已知目标，带入搜索目标之间的关联性，实时更新区域追踪奖励与探索奖励，基于分布式蒙特卡洛树搜索确定机器人协同搜索过程中的动作序列，对上限置信区间进行改进，同时利用利帕雷托最优策略实现多目标优化，采用梯度下降法优化机器人动作序列概率分布，与其他机器人通信，更新机器人动作序列概率分布，完成分布式多机器人的目标搜索。

本发明提出的一种分布式多机器人目标搜索方法，其优点是：

1、本发明的分布式多机器人目标搜索方法，是一种群体协同主动感知方法，其中引入专家知识或已知目标，在搜索到敌方目标的时候根据专家知识推测其他目标可能出现的区域并且更新奖励。

2、本发明方法中设置独特的奖励机制，在机器人搜索到目标后同时生成追踪奖励地图和探索奖励地图。使得奖励地图能够随时间实时变化，从而使得机器人群体能够适应环境变化继续作出优化决策，并且在追踪和探索中保持平衡，不需要重新开始计算。

3、本发明方法，能够首先由多机器人分布式同时群体协同搜索，在预算时间足够的情况下，能够演进学习，随着迭代次数增多搜索效果逐渐提高。本发明方法解决了机器人群体在未知、动态环境下的群体协同目标搜索问题。

附图说明

图1是本发明提出的一种分布式多机器人目标搜索方法的流程框图。

图2是本发明方法的一个实施例中涉及的蒙特卡洛搜索树的示意图。

具体实施方式

本发明提出的分布式多机器人目标搜索方法，根据已知目标，带入搜索目标之间的关联性，实时更新区域追踪奖励与探索奖励，基于分布式蒙特卡洛树搜索确定机器人协同搜索过程中的动作序列，对上限置信区间进行改进，同时利用利帕雷托最优策略实现多目标优化，采用梯度下降法优化机器人动作序列概率分布，与其他机器人通信，更新机器人动作序列概率分布，完成分布式多机器人的目标搜索。

本发明的分布式多机器人目标搜索方法的一个实施例中，其流程框图如图1所示，包括以下步骤：

(1)设定分布式多机器人中有R台机器人，机器人群{1，2，…,R}，每台机器人独立规划自己的计划动作序列x^r＝(x₁ ^r,x₂ ^r,...)，其中，x表示所有机器人的计划动作序列，将计划动作序列集合记为x:＝{x¹,x²,...,x^R}，用x^(r)表示除了机器人r之外的所有其它机器人的计划动作序列集合，则x^(r):＝x\x^r，其中“\”表示去除；每台机器人有一个可能动作序列集合χ^r，χ表示所有机器人的可能动作序列集合，χ^(r)表示χ^(r):＝χ\χ^r；

设定各机器人的监视半径，当目标出现在机器人监视半径内时，视为搜索到目标。每台机器人都搭载有必要光学传感器来搜索区域内的目标。

将每台机器人的行动用可能动作序列集合χ^r上的概率分布形式q^r _n表示，q^r _n(x^r)表示机器人r选择计划动作序列x^r的概率，为了保证计算的效率以及通信的可行性，本方法限制了q^r _n的范围，通过动态选择子集

作为q^r _n的范围。

(2)设定一个蒙特卡洛树搜索奖励地图的更新方法，具体包括如下步骤：

(2-1)将待搜索目标的出现区域网格化，每个网格设置不同奖励值，形成追踪奖励地图

和探索奖励地图

在追踪奖励地图

中，当机器人搜索到目标时，在该目标位置设置奖励值，并且该奖励值随着时间在相邻网格中传递；在探索奖励地图

中，当机器人搜索到目标后，根据搜索到的目标与其他未知目标之间的空间位置关系，推测其他目标可能出现的区域，并且在该其他目标可能出现的区域网格内更新探索奖励地图；

(2-2)设置一个待优化的蒙特卡洛树搜索全局目标函数g(x)，该全局目标函数g(x)为一个由步骤(1)中的所有机器人动作序列集合x构成的函数，g(x)＝(g₁(x),g₂(x))，即所有机器人动作序列所经过的追踪奖励地图

和探索奖励地图

的奖励值总和相量：

其中，pose为机器人在步骤(2-1)中的追踪奖励地图

和探索奖励地图

中的位置坐标，位置由机器人自带的定位系确定。

(2-3)定义局部目标函数f^r为机器人r在全局目标函数g(x)计算中执行动作序列x^r和不执行任何动作之间的奖励差值，即：

是空集，本发明通过优化每个机器人的局部目标函数f^r来优化全局目标函数g(x)；其中，∪为并集运算；

(3)设定分布式多机器人中的每个机器人的初始位置，每个机器人的动作有三种选择，分别为以-45°、0°、45°为转向角向前前进一格，各机器人基于蒙特卡洛树搜索方法以并行的方式得到计划动作序列x^r，使得机器人根据计划动作序列x^r移动时，全局目标函数g(x)最大；分布式多机器人中的所有机器人同时独立进行如下具体步骤：

(3-1)每个机器人以初始位置作为根节点，由于机器人有三个动作，所以每个节点可以扩展出最多三个子节点。在蒙特卡洛树搜索方法中，从蒙特卡洛树的根节点开始搜索，根据帕雷托最优原则，每次选择子节点中上限区间分数相量帕雷托最优的节点作为下一个访问节点，向搜索树下方搜索，直到访问到一个存在未扩展子节点的节点，每个节点表示机器人所在的地图坐标，链接节点的箭头表示机器人做出的动作，第t次迭代时，子节点j的上限区间向量计算公式如下：

其中：

上述公式是一种折扣上限区间公式，其中，

是折扣经验奖励值，

是折扣探索奖励值，γ∈(1/2,1)是折扣因子，γ越小代表越近的模拟奖励权重越大，C_p是探索常数，C_p>0，i是当前节点的父节点，t_i是节点i_d的访问次数，t_j是子节点j的访问次数，F_t为第t次迭代时收集到的模拟奖励值，

表示在第t次迭代选择节点j时返回值1，第t次迭代不选择节点j时返回0，t_j(γ)是折扣后的子节点j被访问次数：

t_i(γ)是折扣后的i节点的被访问次数为：

(3-2)利用(3-1)中上限区间公式选择子节点，在搜索树中向下访问直到拥有未扩展子节点的节点，在该节点处随机扩展一个子节点j,如图2所示的子节点j；

(3-3)设置机器人模拟随机移动上限值N_r，从步骤(3-2)扩展的子节点j开始，根据随机策略，机器人模拟随机移动N_r次，机器人经过所有网格的奖励值累加，得到第t次迭代的模拟奖励值F_t；

(3-4)采用反向传播方式，将第t次迭代的模拟奖励值F_t依次加到模拟节点相应的父节点上，直至到达搜索树的根节点，使迭代次数t＝t+1；

(3-5)设置迭代次数上限值N_d，重复步骤(3-1)-步骤(3-4)，直至迭代次数到达上限值N_d，形成一个用于分布式机器人搜索的蒙特卡洛搜索树；

(4)从步骤(3-5)的蒙特卡洛搜索树选取奖励值最高的N条通路作为机器人可能动作序列集合

设定可能动作序列集合

中的各动作序列概率分布q_n ^r为均匀分布；

(5)分布式多机器人中的所有机器人向其他机器人发送本机器人的可能动作序列集合

以及概率分布q_n ^r，并接收其他机器人发送的可能动作序列

以及概率分布q_n ^(r)后，对本机器人的可能动作序列集合概率分布q_n ^r进行优化，具体操作如下：

对于

中所有动作序列x^r进行如下操作：

(5-1)计算步骤(2-3)中的奖励差值f^r的期望值：

其中，Π为连乘运算符；

(5-2)采用梯度下降法，利用下式优化可能动作序列集合

的概率分布q_n ^r：

其中，参数α为梯度下降固定步长，参数α取值范围为(0,0.1),本发明中取值为0.01，β为常数，β的取值范围为(0,1)，H(q_n ^r)为概率分布q_n ^r的熵；

(6)从步骤(5)的

中选取概率最高的动作序列作为机器人r的计划动作序列，并执行动作，若在动作过程中发现搜索目标，则更新步骤(2)中的追踪奖励地图

和探索奖励地图

若在动作过程中未发现搜索目标，则维持原来的奖励地图不变；

(7)根据分布式机器人目标搜索的要求时间，设置机器人动作次数上限N_t，重复上述步骤(3)～步骤(6)，直至机器人动作次数达到上限N_t，完成分布式机器人目标搜索的任务。

Claims

1.一种分布式多机器人目标搜索方法，其特征在于，该方法根据已知目标，带入搜索目标之间的关联性，实时更新区域追踪奖励与探索奖励，基于分布式蒙特卡洛树搜索确定机器人协同搜索过程中的动作序列，对上限置信区间进行改进，同时利用利帕雷托最优策略实现多目标优化，采用梯度下降法优化机器人动作序列概率分布，与其他机器人通信，更新机器人动作序列概率分布，完成分布式多机器人的目标搜索。

2.一种如权利要求1所述的分布式多机器人目标搜索方法，其特征在于包括以下步骤：

将每台机器人的行动用可能动作序列集合χ^r上的概率分布形式q^r _n表示，q^r _n(x^r)表示机器人r选择计划动作序列x^r的概率，通过动态选择子集

作为q^r _n的范围；

和探索奖励地图

在追踪奖励地图

和探索奖励地图

的奖励值总和相量：

其中，pose为机器人在步骤(2-1)中的追踪奖励地图

和探索奖励地图

中的位置坐标，位置由机器人自带的定位系确定。

其中，

是空集，∪为并集运算；

(3-1)每个机器人以初始位置作为根节点，从蒙特卡洛树的根节点开始搜索，根据帕雷托最优原则，每次选择子节点中上限区间分数相量帕雷托最优的节点作为下一个访问节点，向搜索树下方搜索，直到访问到一个存在未扩展子节点的节点，每个节点表示机器人所在的地图坐标，链接节点的箭头表示机器人做出的动作，第t次迭代时，子节点j的上限区间向量计算公式如下：