CN114353805B

CN114353805B - 基于人工辅助的机器人集群导航方法、装置和设备

Info

Publication number: CN114353805B
Application number: CN202210037136.4A
Authority: CN
Inventors: 周鑫; 王涛; 彭娟; 黄美根; 王彦锋; 李小波; 井田; 陈伟; 万丽佳; 夏亚妮
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-10-21
Anticipated expiration: 2042-01-13
Also published as: CN114353805A

Abstract

本申请涉及一种基于人工辅助的机器人集群导航方法、装置和设备。所述方法包括：构建人工辅助下的机器人集群导航问题框架，然后根据机器人集群导航问题框架的系统状态评估函数，构建决策指标，根据决策指标，设置求解系统状态评估函数的求解规则，根据求解规则求解系统状态评估函数，得到每个Agent的导航方案，根据每个Agent的导航方案，得到机器人集群的导航路径。采用本方法，可以实现快速求解人工辅助情况下机器人集群的导航规划问题。

Description

基于人工辅助的机器人集群导航方法、装置和设备

技术领域

本申请涉及人工辅助条件下机器人导航技术领域，特别是涉及一种基于人工辅助的机器人集群导航方法、装置和设备。

背景技术

“人-集群”交互(Human-swarm interaction，HSI)系统是一种由前端机器人(如机器人、无人车等)集群和后端人组成的智能组织。该智能组织结合了人与机器的优势，具有功能多样化、整体生存率高和复杂处理能力等特征，能够与人工智能、大数据、自动化控制、系统工程、计算机等技术领域有效结合，具有很高的应用效益和广泛的应用前景。

在诸多应用中，准确的态势信息是任务成功执行的前提，而机器人集群信息收集(Swarm Information Gathering，SIG)作为其中的关键环节，是获取态势信息行之有效的手段，贯穿任务执行的全过程，具有重要的社会意义。集群信息收集是指在目标地域空间内执行侦察任务，不间断地提供环境态势信息，或对目标进行发现、识别与跟踪，为指挥中心提供增强型态势感知信息，提高预警和行动能力。

假设具有高度自主性的机器人集群，如无人车集群和机器人集群，收集目标区信息以求寻找到高效益目标，如搜索山上的失踪人员、森林中的潜在着火点等。由于先期情报不准确，因而高效益目标在被发现出来之前无法确定的，执行行动的机器人集群需要耗费燃料且亦有可能损坏。因此，需要机器人集群通过搜索判断不同区域的效益，以便为下一步行动提供支撑。值得说明的是，在很多情况下人工干预的机器人集群规划是十分必要的。这是因为人能够获取额外的信息以弥补机器人集群的不足，换句话说人可以减少机器人集群搜索过程的不确定因素。但是人的精力和能力是有限的，难以实时操控每个机器人，因而无法同时为所有机器人分析和处理数据。

然而，目前并未出现针对该类问题进行处理的技术方案。

发明内容

基于此，有必要针对上述技术问题，提供一种基于人工辅助的机器人集群导航方法、装置和设备。

一种基于人工辅助的机器人集群导航方法，所述方法包括：

构建人工辅助下的机器人集群导航问题框架；在所述机器人集群导航问题框架下，将目标导航区域划分多个子区域，每个子区域设置区域价值，所述区域价值在所述子区域未探测时为未知状态，每个子区域的区域价值相互独立，并且每个子区域的区域价值均服从概率分布，其中，每个机器人为一个Agent，Agent探测子区域后获取所述区域价值，每个Agent的导航空间为已探索子区域和未探索子区域，探测子区域的价值为区域价值与Agent执行探测代价的差值；所述探测代价包括低空侦察所采集到的探测代价以及人工辅助时接收到的接收探测代价；

确定所述机器人集群导航问题框架的统计分量以及系统状态评估函数；所述统计分量包括：未探索区域信息和已探索区域的效益集合；所述系统状态评估函数为当前的统计分量下执行最优导航策略的期望回报值；

根据所述系统状态评估函数，构建机器人针对所述统计分量的子系统状态评估函数；所述子系统状态评估函数包括：低空侦察系统状态评估函数和人工辅助系统状态评估函数；所述低空侦察系统状态评估函数对应侦察行动，所述人工辅助系统状态评估函数对应询问行动；

根据所述低空侦察系统状态评估函数和人工辅助系统状态评估函数，分别构建所述侦察行动和所述询问行动对应的决策指标，根据所述决策指标，分别得到每个子区域进行侦察行动和询问行动对应的探测代价；

根据所述决策指标，设置求解所述系统状态评估函数的求解规则，所述求解规则包括：判断规则和停止规则；所述判断规则为Agent探索区域价值未知的子区域，选择一个决策指标最大的未探测子区域，并选择决策指标对应的行动；所述停止规则指的是如果当前最大探测子区域的价值大于所有探测未知子区域的决策指标时，则停止搜索并选择具有最大采样价值的子区域作为最终导航方案；

根据所述求解规则求解所述系统状态评估函数，得到每个Agent的导航方案，根据每个Agent的导航方案，得到机器人集群的导航路径。

在其中一个实施例中，还包括：确定所述机器人集群导航问题框架的统计分量为未探索区域信息和已探索区域的效益集合；

确定所述机器人集群导航问题框架的系统状态评估函数为：

其中，

表示未探索区域信息，U表示已探索区域的效益集合，m表示第m个Agent，M表示Agent的总数，

表示第m个Agent的期望回报值。

在其中一个实施例中，还包括：根据所述系统状态评估函数，构建机器人针对所述统计分量的子系统状态评估函数为：

其中，

表示第m个Agent执行侦察行动a′时的低空侦察系统状态评估函数，

表示第m个Agent执行询问行动a″时的人工辅助系统状态评估函数，d表示子区域，

表示集合U^m中的最大效益，p表示人工响应并成功分析出子区域的区域价值的概率，u_d表示子区域d的区域价值，c′_d,c″_d分别表示对于子区域d，Agent执行侦察行动a′和询问行动a″所耗费的探测代价，β′,β″表示侦察行动a′和询问行动a″的时延对区域价值的影响，F_d(u_d)表示子区域d及其区域价值u_d服从的概率分布，其中

I^m＝∩_k∈MI^k，U^m＝∪_k∈MU^k。

在其中一个实施例中，还包括：根据所述低空侦察系统状态评估函数和人工辅助系统状态评估函数，分别构建所述侦察行动和所述询问行动对应的决策指标为：

其中，v′_d和v″_d分别为所述侦察行动和所述询问行动对应的决策指标。

在其中一个实施例中，还包括：初始化未探索区域信息和已探索区域信息、决策指标、每个子区域的区域代价、最优探测方案以及最优价值；

计算每个子区域采取侦察行动和询问行动对应的判定指标，得到判定指标集合V＝(V₁,V₂,…,V_|M|)；其中V_m表示第m个Agent所有行动的指标集合；

遍历所有Agent m∈M，每个Agent遍历其目标导航区域D^m，并且继承先执行行动的Agent的所有信息，从中选择价值

最大的方案

确定判定指标集合V^m中数值最大的决策指标v^*，以及对应的子区域d^*、行动a^*和代价c^*，若已知最大价值

大于最大决策指标v^*，则停止搜索，将子区域d^*、行动a^*作为Agent的导航方案，若已知最大价值

不大于最大决策指标v^*，则根据预先构建的仿真程序模拟Agent的区域探索过程，以此得到Agent的导航方案；所述仿真程序是根据所述概率分布构建的。

在其中一个实施例中，还包括：在其他Agent的已探索区域信息I^m和已探索区域效益集合U^m中删除该方案，并返回最大价值

最终子区域

和累积搜索代价c。

一种基于人工辅助的机器人集群导航装置，所述装置包括：

框架搭建模块，用于构建人工辅助下的机器人集群导航问题框架；在所述机器人集群导航问题框架下，将目标导航区域划分多个子区域，每个子区域设置区域价值，所述区域价值在所述子区域未探测时为未知状态，每个子区域的区域价值相互独立，并且每个子区域的区域价值均服从概率分布，其中，每个机器人为一个Agent，Agent探测子区域后获取所述区域价值，每个Agent的导航空间为已探索子区域和未探索子区域，探测子区域的价值为区域价值与Agent执行探测代价的差值；所述探测代价包括低空侦察所采集到的探测代价以及人工辅助时接收到的接收探测代价；

规划模块，用于确定所述机器人集群导航问题框架的统计分量以及系统状态评估函数；所述统计分量包括：未探索区域信息和已探索区域的效益集合；所述系统状态评估函数为当前的统计分量下执行最优导航策略的期望回报值；根据所述系统状态评估函数，构建机器人针对所述统计分量的子系统状态评估函数；所述子系统状态评估函数包括：低空侦察系统状态评估函数和人工辅助系统状态评估函数；所述低空侦察系统状态评估函数对应侦察行动，所述人工辅助系统状态评估函数对应询问行动；

决策指标确定模块，用于根据所述低空侦察系统状态评估函数和人工辅助系统状态评估函数，分别构建所述侦察行动和所述询问行动对应的决策指标，根据所述决策指标，分别得到每个子区域进行侦察行动和询问行动对应的探测代价；根据所述决策指标，设置求解所述系统状态评估函数的求解规则，所述求解规则包括：判断规则和停止规则；所述判断规则为Agent探索区域价值未知的子区域，选择一个决策指标最大的未探测子区域，并选择决策指标对应的行动；所述停止规则指的是如果当前最大探测子区域的价值大于所有探测未知子区域的决策指标时，则停止搜索并选择具有最大采样价值的子区域作为最终导航方案；

导航模块，用于根据所述求解规则求解所述系统状态评估函数，得到每个Agent的导航方案，根据每个Agent的导航方案，得到机器人集群的导航路径。

在其中一个实施例中，所述规划模块还用于确定所述机器人集群导航问题框架的统计分量为未探索区域信息和已探索区域的效益集合；

确定所述机器人集群导航问题框架的系统状态评估函数为：

其中，

表示第m个Agent的期望回报值。

在其中一个实施例中，所述决策指标确定模块还用于根据所述系统状态评估函数，构建机器人针对所述统计分量的子系统状态评估函数为：

其中，

I^m＝∩_k∈MI^k，U^m＝∪_k∈MU^k。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现步骤如下：

上述基于人工辅助的机器人集群导航方法、装置和设备，针对存在人工辅助的机器人集群导航情景，构建了机器人集群导航问题框架，该问题框架假定机器人集群具有高度自主性，在目标效益具有不确定性和独立性前提下，以尽可能低的代价寻找到若干最有效益的目标，从而给计算出导航方案以正确的指示。然后提出一种求解规则，采用顺序分配的方式依次为每个机器人赋予行动方案，其特色之处在于将复杂的求解问题简化为指标判断问题，降低了计算复杂度。

附图说明

图1为一个实施例中基于人工辅助的机器人集群导航方法的流程示意图；

图2为一个实施例中基于人工辅助的机器人集群导航装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于人工辅助的机器人集群导航方法，包括以下步骤：

步骤102，构建人工辅助下的机器人集群导航问题框架。

在所述机器人集群导航问题框架下，将目标导航区域划分多个子区域，每个子区域设置区域价值，区域价值在子区域未探测时为未知状态，每个子区域的区域价值相互独立，并且每个子区域的区域价值均服从概率分布，其中，每个机器人为一个Agent，Agent探测子区域后获取区域价值，每个Agent的导航空间为已探索子区域和未探索子区域，探测子区域的价值为区域价值与Agent执行探测代价的差值；探测代价包括低空侦察所采集到的探测代价以及人工辅助时接收到的接收探测代价。

首先把目标环境划分为若干子区域，每片子区域面积大小以及范围可变。机器人集群需要在区域中寻找高价值目标，如果包含的高价值目标越多，则这片区域效益也就越高，其中高价值目标由人的兴趣和意图决定的。忽略机器人集群具体的探索过程，而直接用效益表示探索结果。本申请中，价值被定义为区域价值的综合度量。机器人集群的目标是以尽可能小的代价寻找到效益量尽可能大的若干区域。考虑到先验态势信息的不准确性，每片区域的效益事先是不确定的。假设不同区域的效益是相互独立的。对于子区域d∈D，其效益u_d服从某种概率分布F_d(u_d)，其中D表示所有区域，或称为方案空间。机器人集群可以采用低空侦察或者高空侦察的方式获取信息，其中低空侦察能够获取区域的确切效益，而需要通过咨询人高空侦察数据才可能获得目标确切效益。

不同行动耗费的代价是不一致的，比如低空侦察就存在损坏的风险。在申请中，代价被定义为机器人集群探索某个区域时所耗费的成本。派遣机器人集群前往目标地点探索是需要花费代价的，记为c∈R⁺。假设采用不同行动探索不同区域的代价是已知的且相互独立的。那么机器人集群在考虑进一步探索时，需要权衡效益与成本的关系。这种关系最终体现为回报值，回报值被定义为效益与成本之差。回报值可以认为是净收益，在中机器人集群的目标是使得回报值最大化。

每个方案的状态分为未知、分析和已知三类。未知状态是指该区域还未被机器人集群探测过，确切效益尚不可知；分析状态是指该区域的确切效益正在分析中，机器人请求人类分析该区域实际效益；已知状态是指该区域被机器人集群探测过，已经获取了确切效益。此外，机器人集群可以采用多种手段对同一区域进行探测。从侦察距离角度看主要包括如下三种手段：①机器人前往区域k实地探测，记为a′_d；②机器人对区域d低空抵近侦察，采用多个视角和多种传感器收集和处理数据，记为a″_d；③机器人集群对区域d进行高空侦察，并请求人类进行大数据分析，记为a″′_d；所有行动集合记为A＝{a′_d,a″_d|d∈D}。

在中，人工辅助下的机器人集群搜索被形式化建模为一类多Agent动态规划问题，其中机器人被抽象为Agent，每个区域被称为一个方案。所有方案的集合记为d∈D，将其分为两个互斥集合：一个为不断增加的已探索方案集合

另一个是不断减少的未探索方案集合

每个Agent都有探索方案空间，D＝∪_m∈MD^m；第m个Agent的方案空间D^m由已探索方案集合I^m和未探索方案集合

组成，即

步骤104，确定机器人集群导航问题框架的统计分量以及系统状态评估函数。

统计分量包括：未探索区域信息和已探索区域的效益集合；系统状态评估函数为当前的统计分量下执行最优导航策略的期望回报值。

步骤106，根据系统状态评估函数，构建机器人针对所述统计分量的子系统状态评估函数。

子系统状态评估函数包括：低空侦察系统状态评估函数和人工辅助系统状态评估函数；低空侦察系统状态评估函数对应侦察行动，人工辅助系统状态评估函数对应询问行动。

步骤108，根据低空侦察系统状态评估函数和人工辅助系统状态评估函数，分别构建侦察行动和询问行动对应的决策指标，根据决策指标，分别得到每个子区域进行侦察行动和询问行动对应的探测代价。

步骤110，根据决策指标，设置求解系统状态评估函数的求解规则。

求解规则包括：判断规则和停止规则；判断规则为Agent探索区域价值未知的子区域，选择一个决策指标最大的未探测子区域，并选择决策指标对应的行动；停止规则指的是如果当前最大探测子区域的价值大于所有探测未知子区域的决策指标时，则停止搜索并选择具有最大采样价值的子区域作为最终导航方案。

步骤112，根据求解规则求解系统状态评估函数，得到每个Agent的导航方案，根据每个Agent的导航方案，得到机器人集群的导航路径。

上述基于人工辅助的机器人集群导航，针对存在人工辅助的机器人集群导航情景，构建了机器人集群导航问题框架，该问题框架假定机器人集群具有高度自主性，在目标效益具有不确定性和独立性前提下，以尽可能低的代价寻找到若干最有效益的目标，从而给计算出导航方案以正确的指示。然后提出一种求解规则，采用顺序分配的方式依次为每个机器人赋予行动方案，其特色之处在于将复杂的求解问题简化为指标判断问题，降低了计算复杂度。

在其中一个实施例中，确定机器人集群导航问题框架的统计分量为未探索区域信息和已探索区域的效益集合；确定机器人集群导航问题框架的系统状态评估函数为：

其中，

表示第m个Agent的期望回报值。

具体的，求解问题的充分统计量记为

称为系统状态。系统状态分为两部分：未探索方案信息

表示第m个未探索方案集合；和已探索方案的效益集合U＝{U¹,U²,...,U^|M|}，

表示第m个Agent中已探索方案的确切效益集合。在每个Agent侦察完某个区域时，再判断是继续探索还是停止探索。每次决策时，可以从集合

中选择一个未探索方案进行探索，此时可以采用上述三种方式进行探索；或者该Agent停止探索并从集合I^m中选择效益最大的方案，即

假设整个集群一共选取|M|个方案，每个Agent只能够选择一个效益最高的方案。

那么，将Agent系统多动态规划问题即转化为系统状态评估函数。系统状态评估函数为当已知效益集合为I且未探索方案集合为

时，执行最优策略能够获得的期望回报值，记为

在其中一个实施例中，根据系统状态评估函数，构建机器人针对统计分量的子系统状态评估函数为：

其中，

I^m＝∩_k∈MI^k,U^m＝∪_k∈MU^k。

通过上述定义，人工辅助下的无人集群搜索问题被建模为一种动态规划问题。通过公式可以得知，该问题特点是递归的；问题求解过程相当于每个Agent的方案路径扩展过程，且方案路径是可变的。

在其中一个实施例中，根据低空侦察系统状态评估函数和人工辅助系统状态评估函数，分别构建侦察行动和询问行动对应的决策指标为：

其中，v′_d和v″_d分别为侦察行动和询问行动对应的决策指标。

进一步，通过解算上述公式可以得到：

根据系统状态

和指标集合

可以设计一种简单但最优的搜索规则，分为判断规则和选择规则。判断规则是指，如果Agent要进一步探索效果未知方案，则要选择一个决策指标最大的未知方案，同时选择对应的行动；停止规则是指，如果当前最大采样效益大于所有未知方案的决策指标时，则停止搜索并选择具有最大采用效益的方案作为最终方案。通过该规则，系统状态函数计算问题简化为指标判断问题，且每个指标的计算都是独立的，不受其他方案效益概率分布的影响。

在其中一个实施例中，初始化未探索区域信息和已探索区域信息、决策指标、每个子区域的区域代价、最优探测方案以及最优价值；计算每个子区域采取侦察行动和询问行动对应的判定指标，得到判定指标集合V＝(V₁,V₂,…,V_|M|)；其中V_m表示第m个Agent所有行动的指标集合；遍历所有Agent m∈M，每个Agent遍历其目标导航区域D^m，并且继承先执行行动的Agent的所有信息，从中选择价值

最大的方案

大于最大决策指标v^*，则停止搜索，将子区域d^*、行动a^*作为Agent的导航方案，在其他Agent的已探索区域信息I^m和已探索区域效益集合U^m中删除该方案，并返回最大价值

最终子区域

和累积搜索代价c，若已知最大价值

不大于最大决策指标v^*，则根据预先构建的仿真程序模拟Agent的区域探索过程，以此得到Agent的导航方案；所述仿真程序是根据所述概率分布构建的，根据咨询是否成功b∈{True,False}以及采样效益u来更新集合I^m、

V^m和累积搜索代价c。仿真程序如下表：

性能分析

JIBDP算法(基于判定指标的动态规划算法)能够提供最优搜索策略，且计算复杂度为多项式时间。本质上，提出的问题是潘多拉问题的扩展。潘多拉问题主要面向经济领域，通过对若干备选项目进行评估，得到最优探索路径并选择最有价值的项目。每个项目的回报值服从某种概率分布，在开发之前不清楚其实际数值。潘多拉问题最终只选择一个方案，而提出的问题需要选择若干个方案。

假定每种方案的效益是相互独立的，因此全局状态评估函数等于各个Agent局部状态评估函数之和，故而可以采用顺次分配的思路依次计算每个Agent的局部状态评估函数。值得说明的是，每个Agent在执行算法之前获知已执行算法的所有Agent的信息，并在执行算法之后把其本轮探索的信息传递给后续Agent。那么每个Agent动态规划问题的求解过程就等价于同潘多拉问题的求解过程。具体而言，问题框架中的方案类似于潘多拉问题的项目，每个已探索方案d具有效益u^d，根据行动a′,a″可以将未探索方案d分为两个独立的方案d′,d″，每个方案代价为别为c′_d,c″_d/p，回报值概率分布为F_d(u_d)。一旦得到方案d的采样回报值，则将两个方案d′,d″移入已探索集合I。此外，采用基于指标的搜索策略，即如果要继续探索，则选择具有最高指标的架构；如果停止搜索，则选择具有最大已知采样值的架构。证明了这类策略能够有效解决潘多拉问题，并得到最优期望回报值。因此，提出的搜索算法能够得到最高期望回报值。

对于计算复杂度，JIBDP算法的计算复杂度取决于排序算法的计算复杂度。算法的执行过程是基于方案指标值大小而执行的，这个顺序的在整个探索过程中是不会发生改变的。换句话说，该算法的计算复杂度等于排序算法的计算复杂度。现有排序算法，如堆排序、冒泡排序，基本都是多项式时间的复杂度。鉴于此，JIBDP算法是一种多项式时间最优算法。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种基于人工辅助的机器人集群导航装置，包括：框架搭建模块202、规划模块204、决策指标确定模块206和导航模块208，其中：

框架搭建模块202，用于构建人工辅助下的机器人集群导航问题框架；在所述机器人集群导航问题框架下，将目标导航区域划分多个子区域，每个子区域设置区域价值，所述区域价值在所述子区域未探测时为未知状态，每个子区域的区域价值相互独立，并且每个子区域的区域价值均服从概率分布，其中，每个机器人为一个Agent，Agent探测子区域后获取所述区域价值，每个Agent的导航空间为已探索子区域和未探索子区域，探测子区域的价值为区域价值与Agent执行探测代价的差值；所述探测代价包括低空侦察所采集到的探测代价以及人工辅助时接收到的接收探测代价；

规划模块204，用于确定所述机器人集群导航问题框架的统计分量以及系统状态评估函数；所述统计分量包括：未探索区域信息和已探索区域的效益集合；所述系统状态评估函数为当前的统计分量下执行最优导航策略的期望回报值；根据所述系统状态评估函数，构建机器人针对所述统计分量的子系统状态评估函数；所述子系统状态评估函数包括：低空侦察系统状态评估函数和人工辅助系统状态评估函数；所述低空侦察系统状态评估函数对应侦察行动，所述人工辅助系统状态评估函数对应询问行动；

决策指标确定模块206，用于根据所述低空侦察系统状态评估函数和人工辅助系统状态评估函数，分别构建所述侦察行动和所述询问行动对应的决策指标，根据所述决策指标，分别得到每个子区域进行侦察行动和询问行动对应的探测代价；根据所述决策指标，设置求解所述系统状态评估函数的求解规则，所述求解规则包括：判断规则和停止规则；所述判断规则为Agent探索区域价值未知的子区域，选择一个决策指标最大的未探测子区域，并选择决策指标对应的行动；所述停止规则指的是如果当前最大探测子区域的价值大于所有探测未知子区域的决策指标时，则停止搜索并选择具有最大采样价值的子区域作为最终导航方案；

导航模块208，用于根据所述求解规则求解所述系统状态评估函数，得到每个Agent的导航方案，根据每个Agent的导航方案，得到机器人集群的导航路径。

在其中一个实施例中，所述规划模块204还用于确定所述机器人集群导航问题框架的统计分量为未探索区域信息和已探索区域的效益集合；

确定所述机器人集群导航问题框架的系统状态评估函数为：

其中，

表示第m个Agent的期望回报值。

在其中一个实施例中，所述决策指标206确定模块还用于根据所述系统状态评估函数，构建机器人针对所述统计分量的子系统状态评估函数为：

其中，

I^m＝∩_k∈MI^k,U^m＝∪_k∈MU^k。

在其中一个实施例中，还包括：状态评估模块，用于定义机器人选择低空侦察时的系统状态评估函数的期望状态评估值为：

其中，

的概率为

的概率为

定义机器人选择人机交互时的系统状态评估函数的期望状态评估值为：

其中，

的概率为

的概率为

关于基于人工辅助的机器人集群导航装置的具体限定可以参见上文中对于基于人工辅助的机器人集群导航方法的限定，在此不再赘述。上述基于人工辅助的机器人集群导航装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人机交互的机器人集群导航方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于人工辅助的机器人集群导航方法，其特征在于，所述方法包括：

根据所述求解规则求解所述系统状态评估函数，得到每个Agent的导航方案，根据每个Agent的导航方案，得到机器人集群的导航路径；其中，初始化未探索区域信息和已探索区域信息、决策指标、每个子区域的区域代价、最优探测方案以及最优价值；计算每个子区域采取侦察行动和询问行动对应的判定指标，得到判定指标集合V＝(V₁,V₂,…,V_|M|)；其中V_m表示第m个Agent所有行动的指标集合；遍历所有Agent m∈M，每个Agent遍历其目标导航区域D^m，并且继承先执行行动的Agent的所有信息，从中选择价值

最大的方案

最终子区域

和累积搜索代价c，若已知最大价值

2.根据权利要求1所述的方法，其特征在于，确定所述机器人集群导航问题框架的统计分量以及系统状态评估函数，包括：

确定所述机器人集群导航问题框架的统计分量为未探索区域信息和已探索区域的效益集合；

确定所述机器人集群导航问题框架的系统状态评估函数为：

其中，

表示第m个Agent的期望回报值。

3.根据权利要求2所述的方法，其特征在于，根据所述系统状态评估函数，构建机器人针对所述统计分量的子系统状态评估函数，包括：

根据所述系统状态评估函数，构建机器人针对所述统计分量的子系统状态评估函数为：

where

其中，

I^m＝∩_k∈MI^k,U^m＝∪_k∈MU^k。

4.根据权利要求3所述的方法，其特征在于，根据所述低空侦察系统状态评估函数和人工辅助系统状态评估函数，分别构建所述侦察行动和所述询问行动对应的决策指标，包括：

根据所述低空侦察系统状态评估函数和人工辅助系统状态评估函数，分别构建所述侦察行动和所述询问行动对应的决策指标为：

5.根据权利要求1所述的方法，其特征在于，在将子区域d^*、行动a^*作为Agent的导航方案之后，所述方法还包括：

在其他Agent的已探索区域信息I^m和已探索区域效益集合U^m中删除该方案，并返回最大价值

最终子区域

和累积搜索代价c。

6.一种基于人工辅助的机器人集群导航装置，其特征在于，所述装置包括：

导航模块，用于根据所述求解规则求解所述系统状态评估函数，得到每个Agent的导航方案，根据每个Agent的导航方案，得到机器人集群的导航路径；其中，初始化未探索区域信息和已探索区域信息、决策指标、每个子区域的区域代价、最优探测方案以及最优价值；计算每个子区域采取侦察行动和询问行动对应的判定指标，得到判定指标集合V＝(V₁,V₂,…,V_|M|)；其中V_m表示第m个Agent所有行动的指标集合；遍历所有Agent m∈M，每个Agent遍历其目标导航区域D^m，并且继承先执行行动的Agent的所有信息，从中选择价值