CN115494844A

CN115494844A - 一种多机器人搜索方法及系统

Info

Publication number: CN115494844A
Application number: CN202211175076.9A
Authority: CN
Inventors: 郭宏亮; 陈启明; 盛文达; 郑鑫
Original assignee: Chengdu Puwei Technology Co ltd
Current assignee: Chengdu Puwei Technology Co ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2022-12-20
Anticipated expiration: 2042-09-26
Also published as: CN115494844B

Abstract

本发明公开了一种多机器人搜索方法及系统，应用于控制端，所述多机器人搜索方法包括：S1：获取交互环境内所有机器人在当前运行策略下的当前运行结果；S2：判断所述当前运行结果中是否包括搜索目标，若是，训练次数加1并进入步骤S4；否则，进入步骤S3；S3：根据所有机器人的历史运行结果对所有机器人的运行策略进行更新并将更新后的运行策略作为所述当前运行策略后返回步骤S1；S4：判断当前训练次数是否达到预设次数/判断当前训练结果是否满足目标结果，若是，进入步骤S5；否则，返回步骤S1；S5：控制所有机器人根据各自当前运行策略执行搜索。本发明能够解决现有技术中目标搜索计算复杂，目标单一且效率低的问题。

Description

一种多机器人搜索方法及系统

技术领域

本发明涉及目标搜索技术领域，具体涉及一种多机器人搜索方法及系统。

背景技术

在过去的几十年里，多机器人搜索非对抗性的移动目标一直是一个热门的研究课题，获得了学术届和工业界的许多关注。一方面，多机器人搜索问题可以被认为是许多实际应用的潜在解决方案。例如，在危险环境中的搜索和救援，森林火灾检测。另一方面，多机器人搜索也是许多基础研究的测试平台，如博弈论、多智能体强化学习和多机器人合作问题。因此多机器人搜索问题是个多学科交叉的复杂问题，其解决方案也多种多样。

传统的多机器人搜索一般关注其最终捕获目标的平均时间，经典的解决方法一般都是基于规划的，其做法是将搜索问题转换为数学规划问题，但是其随着环境的增大以及机器人数量的增加，其计算量呈指数级增长，十分消耗计算资源，并且很难满足一些具有实时响应的需求的现实任务。除了数学规划法外，多智能体强化学习也是近几年十分热门的方法，但是其本身具有训练时间才，训练不稳定的属性，导致在大规模场景下难以训练，并且，大部分的强化学习方法都依赖于机器人之间的信息交互，然而在实际应用中，存在着许多无法通信交互的场景，这些方法就无法很好地解决这个问题。除了以上问题外，现有的方法都关注于得到最短的平均搜索时间，无法关注一些可靠性条件，如最大化在规定时间内的成功捕捉目标的概率。

发明内容

本发明的目的在于提供一种多机器人搜索方法及系统，以解决现有技术中目标搜索计算复杂，目标单一且效率低的问题。

本发明解决上述技术问题的技术方案如下：

本发明提供一种多机器人搜索方法，应用于控制端，所述多机器人搜索方法包括：

S1：获取交互环境内所有机器人在当前运行策略下的当前运行结果；

S2：判断所述当前运行结果中是否包括搜索目标，若是，训练次数加1并进入步骤S4；否则，进入步骤S3；

S3：根据所有机器人的历史运行结果对所有机器人的运行策略进行更新并将更新后的运行策略作为所述当前运行策略后返回步骤S1；

S4：判断当前训练次数是否达到预设次数/判断当前训练结果是否满足目标结果，若是，进入步骤S5；否则，返回步骤S1；

S5：控制所有机器人根据各自当前运行策略执行搜索。

可选择地，所述步骤S3中，利用集中训练式的值分布贝尔曼算子对所有机器人的运行策略进行更新。

可选择地，所述步骤S3包括：

S31：获取目标机器人目标时刻的行为和目标时刻之前的历史观测值；

S32：根据所述目标机器人目标时刻的行为和目标时刻之前的历史观测值，得到目标机器人的集中训练式的值分布贝尔曼算子；

S33：利用具有记忆效果的神经网络对所述目标机器人的集中训练式的值分布贝尔曼算子进行求解，得到所述目标机器人下一时刻的概率密度函数值；

S34：重复步骤S31-S33，直到得到所有机器人下一时刻的概率密度函数值；

S35：根据所有机器人下一时刻的概率密度函数和对所有机器人下一时刻的概率密度函数值进行分解，得到分解结果；

S36：利用所述分解结果对各所述机器人的捕获时间进行更新，得到更新后的捕获时间；

S37：根据所述更新后的时间和各所述机器人的分布，得到各所述机器人更新后的运行策略。

可选择地，所述步骤S32中，所述目标机器人的集中训练式的值分布贝尔曼算子

为：

其中，

表示目标机器人t时刻的概率密度函数，a_t表示目标机器人t时刻的行为，:＝表示等价于，o_≤t表示目标机器人t时刻之前的历史联合观测值，r_t表示t时刻交互环境给的反馈，

表示目标机器人t+1时刻的概率密度函数，o_≤t+1表示目标机器人t+1时刻之前的历史联合观测值，a_t+1表示目标机器人t+1时刻的行为。

可选择地，在所述步骤S1之前，所述多机器人搜索方法还包括：

接收云端下发的初始运行策略；

根据初始运行策略控制交互环境内所有机器人执行运行指令；或者

接收云端下发的搜索目标请求；

根据所述搜索目标请求生成初始运行策略；

根据初始运行策略控制交互环境内所有机器人执行运行指令。

本发明还提供一种多机器人搜索方法，应用于云端，所述多机器人搜索方法包括：

接收用户下发的搜索目标请求；

根据所述搜索目标请求生成初始运行策略；

将初始运行策略群发至所述交换环境内所有机器人；或者

接收用户下发的搜索目标请求；

将所述搜索目标请求群发至所述交互环境内所有机器人。

本发明还提供一种多机器人搜索方法，应用于执行端，所述多机器人搜索方法包括：

根据当前运行策略下的控制指令，执行运行/搜索，生成当前运行结果/搜索结果；

将所述当前运行结果传输至控制端。

本发明还提供一种基于上述的多机器人搜索方法的多机器人搜索系统，所述多机器人搜索系统包括控制端，所述控制端包括：

获取模块，所述获取模块用于获取交互环境内所有机器人在当前运行策略下的当前运行结果；

第一判断模块，所述第一判断模块用于判断所述当前运行结果中是否包括搜索目标；

更新模块，所述第一更新模块用于根据所有机器人的历史运行结果对所有机器人的运行策略进行更新；

第二判断模块，所述第二判断模块用于判断当前训练次数是否达到预设次数/判断当前训练结果是否满足目标结果；和

控制模块，所述控制模块用于控制所有机器人根据各自当前运行策略执行运行命令/搜索；

第一接收模块，所述第一接收模块用于接收云端下发的初始运行策略或接收云端下发的搜索目标请求；和/或

第一运行策略生成模块，所述第一运行策略生成模块用于根据所述搜索目标请求生成初始运行策略。

可选择地，所述多机器人搜索系统还包括云端，所述云端包括：

第二接收模块，所述第二接收模块用于接收用户下发的搜索目标请求；

群发模块，所述群发模块用于将初始运行策略/搜索目标请求群发至所述交换环境内所有机器人；和/或

第二运行策略生成模块，所述第二运行策略生成模块用于根据所述搜索目标请求生成初始运行策略。

可选择地，所述多机器人搜索系统还包括执行端，所述执行端包括：

执行模块，所述执行模块用于根据当前运行策略下的控制指令，执行运行/搜索，生成当前运行结果/搜索结果；

传输模块，所述传输模块用于将所述当前运行结果传输至控制端。

本发明具有以下有益效果：

1、本发明不需要机器人之间的通信，因而能够在执行搜索过程中更加高效；

2、本发明不仅能够解决传统的最小化平均捕获时间的问题，还可以解决多种不同的可靠性搜捕问题。

附图说明

图1为本发明多机器人搜索方法的流程图。

图2为本发明多机器人搜索方法的框架图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明提供一种多机器人搜索方法，应用于控制端，参考图1所示，所述多机器人搜索方法包括：

可选择地，所述步骤S3包括：

具体地，本发明构建集中训练式的值分布贝尔曼算子对所有机器人的运行策略进行更新。使用o_t表示所有机器人的联合观测值且

类似得，使用

表示所有机器人的历史联合观测值。本发明所述目标机器人i的集中训练式的值分布贝尔曼算子

为：

其中，

表示目标机器人i在t时刻的概率密度函数，

表示目标机器人i在t时刻的行为，:＝表示等价于，

表示目标机器人i在t时刻之前的历史联合观测值，r_t表示t时刻交互环境给的反馈，

表示目标机器人i在t+1时刻的概率密度函数，

表示目标机器人i在t+1时刻之前的历史联合观测值，

表示目标机器人i在t+1时刻的行为。

这样，可以通过不断地更新来获得最终捕获时间的概率密度函数。但是，该式的更新会随着t的增加以及机器人数量的增加变得十分复杂和难以求解，因此本发明应用一种具有记忆效果的神经网络(GRU)对其进行求解，即

其中

是一个固定长度的向量用来表示其历史观测信息的特征，从而减少计算。采取对每个机器人的分布进行加权相加得到最终捕获时间的分布，如下式：

其中，

是由一个混合神经网络产生的权重参数。经过以上的分解后，得到最终的集中训练式的值分布贝尔曼算子，如下式：

得到最终捕获时间的概率密度函数，然后需要对其进行分解，对每个机器人的捕获时间分布进行更新，然后再根据每个机器人各自的分布进行决策，其方法框架如图2所示。

即单个机器人通过拟合网络根据历史观测值得到自身的捕获时间概率密度函数，如果是部署环节，则直接产生决策，如果处于训练阶段，则在产生决策行为后将反馈r以及自身分布和观测值输入至混合网络进行混合得到最终捕获时间的分布，通过前文的的贝尔曼算子进行更新，然后分解更新所有的机器人拟合网络。因为该方法得到了每个机器人的捕获时间分布，所以不仅能完成最小化平均捕获时间这种传统的目标，也能实现对额外的目标的优化，如：最大化规定时间内的捕获概率，最小化捕获时间的均值与标准差的线性组合等。

S5：控制所有机器人根据各自当前运行策略执行搜索。

接收云端下发的初始运行策略；

接收云端下发的搜索目标请求；

根据所述搜索目标请求生成初始运行策略；

接收用户下发的搜索目标请求；

根据所述搜索目标请求生成初始运行策略；

将初始运行策略群发至所述交换环境内所有机器人；或者

接收用户下发的搜索目标请求；

将所述搜索目标请求群发至所述交互环境内所有机器人。

将所述当前运行结果传输至控制端。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多机器人搜索方法，其特征在于，应用于控制端，所述多机器人搜索方法包括：

S5：控制所有机器人根据各自当前运行策略执行搜索。

2.根据权利要求1所述的多机器人搜索方法，其特征在于，所述步骤S3中，利用集中训练式的值分布贝尔曼算子对所有机器人的运行策略进行更新。

3.根据权利要求2所述的多机器人搜索方法，其特征在于，所述步骤S3包括：

4.根据权利要求3所述的多机器人搜索方法，其特征在于，所述步骤S32中，所述目标机器人的集中训练式的值分布贝尔曼算子

为：

其中，

5.根据权利要求1-4中任意一项所述的多机器人搜索方法，其特征在于，在所述步骤S1之前，所述多机器人搜索方法还包括：

接收云端下发的初始运行策略；

接收云端下发的搜索目标请求；

根据所述搜索目标请求生成初始运行策略；

6.一种多机器人搜索方法，其特征在于，应用于云端，所述多机器人搜索方法包括：

接收用户下发的搜索目标请求；

根据所述搜索目标请求生成初始运行策略；

将初始运行策略群发至所述交换环境内所有机器人；或者

接收用户下发的搜索目标请求；

将所述搜索目标请求群发至所述交互环境内所有机器人。

7.一种多机器人搜索方法，其特征在于，应用于执行端，所述多机器人搜索方法包括：

将所述当前运行结果传输至控制端。

8.一种基于权利要求1-7中任意一项所述的多机器人搜索方法的多机器人搜索系统，其特征在于，所述多机器人搜索系统包括控制端，所述控制端包括：

9.根据权利要求8所述的多机器人搜索系统，其特征在于，所述多机器人搜索系统还包括云端，所述云端包括：

10.根据权利要求8所述的多机器人搜索系统，其特征在于，所述多机器人搜索系统还包括执行端，所述执行端包括：