CN110221290A

CN110221290A - 基于蚁群算法优化的无人机目标搜索构建方法

Info

Publication number: CN110221290A
Application number: CN201910504078.XA
Authority: CN
Inventors: 常双双; 岳文静; 陈志�; 薛伟东; 苏东煜
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-09-10
Anticipated expiration: 2039-06-12
Also published as: CN110221290B

Abstract

本发明公开了一种基于蚁群算法优化的无人机目标搜索构建方法，首先在无人机信息识别系统中导入关于“人”的归一化转动惯性特征序列，然后使无人机集群依照路径到达坐标节点并向各方向发散，无人机同步的不断采集图像判断是否提取到目标特征序列；在锁定目标后，无人机接着使用贪婪转发策略将位置信息反馈给主无人机，循环往复直到当前节点范围已被完全搜索；最后无人机判断所在节点是否为最终节点，如果所在节点不是最终节点，则进入下一节点搜寻，如果所在节点是最终节点，则返回地面指挥中心任务结束。本发明能够较好的解决重大灾情中对尚有生命体征个体搜寻的效率及精度问题。

Description

基于蚁群算法优化的无人机目标搜索构建方法

技术领域

本发明涉及一种基于蚁群算法优化的无人机目标搜索构建方法，属于强化学习、算法应用、无人机集群自组织网络技术等交叉技术领域。

背景技术

近年来，新兴的无人机集群自组织网络技术发展迅速，其智能集群的功能广泛应用于日常生活、军事、医疗、救援等各个方面。强化学习结合多种应用算法对于集群中单个智能体工作效率的提升是如今网络路由协议领域中的一个重要研究课题，具有重大的理论意义和实际应用价值。

目前传统的救援方法基本是根据经验和常识确定某些伤员人数可能较多的地点，之后或用人力，或用大型机械进行挖、刨。这样不仅搜寻效率低，还可能在实施救援的过程中对伤员产生误伤。而无人机灵活便捷，能够快速反应。体积小，重量轻，一旦出现应急险情，可以第一时间随作业人员一同到达作业现场。部分无人机从开箱调试到安全起飞全过程不到一分钟，在分秒必争的救灾现场，快速反应无疑是救援工作成功与否的关键。其次，无人机机动性强，视野广阔。可远观、可近察，可快速搜索整个灾区，也可仔细搜寻特定区域。最后，无人机机载设备的多样性，极大地满足了其在抢险救灾中的应用需求。

最近几年，随着对强化学习的越来越深入的研究，越来越多的研究者开始将强化学习结合一些基础算法应用到的提升单个智能体工作效率的任务中，不论是Model-based：先理解真实世界是怎样的,并建立一个模型来模拟现实世界的反馈，Policy based：通过感官分析所处的环境,还是Value based：输出的是所有动作的价值,根据最高价值来选动作等，这些结合了基本算法且与外界环境交互进行选择得到的最优策略的过程，都对我们智能体及集群的工作效率有着极大地促进。

基于上述研究成果，本发明提出一种基于蚁群算法优化的无人机目标搜索模型构建方法，旨在使模型在训练过程中能更进一步提升无人机目标搜索救援任务的工作效率。

发明内容

发明的目的是提供一种基于蚁群算法优化的无人机目标搜索构建方法，以解决现有灾后人员搜寻的时间效率和可靠性问题。

为实现上述目的，本发明采用的技术方案为：

一种基于蚁群算法优化的无人机目标搜索构建方法，包括以下步骤：

步骤1，在无人机信息识别系统中输入“人”的归一化转动惯性(NMI)特征序列，包括：肢体轮廓、眼、耳、口、鼻，以此作为无人机作业时所采集图像的转动惯性(NMI)特征对比依据；同时在地面指挥中心计算机设备中输入搜索地区的所有可能坐标，执行蚁群算法，所述蚁群算法是指：模拟蚂蚁寻找食物的过程，它能够求出从原点出发，经过若干个给定的需求点，最终返回原点的最短路径，其结果作为该构建方法所使用的遍历路径节点；

步骤2，无人机集群携带雷达生命探测仪到达步骤1得到的节点，并向各方向发散；

步骤3，在节点区域，无人机所携带的雷达生命探测仪与外界环境进行交互，雷达生命探测仪收到环境中当前生命体征信号强度s，以此作为其输入信号i，雷达生命探测仪选择产生动作a输出以影响外界环境信号强度，此状态转换效果通过强化信号t传递给雷达生命探测仪；如此循环正反馈，雷达生命探测仪选择最优动作序列搜寻生命体；

步骤4，无人机判断采集所得图像的转动惯性(NMI)特征值与无人机信息识别系统中输入“人”的归一化转动惯性(NMI)特征是否一致，通过雷达生命探测仪判断是否通过强化学习不断感应到更强的环境信号；若是，进入步骤5；若否，判断当前节点坐标区域是否已完全搜寻，若是，进入步骤6，若否，返回步骤3继续搜索；

步骤5，通过子无人机搜寻到目标，构造位置信息的数据分组，根据贪婪转发策略，向主无人机反馈信息，若中间某节点不能贪婪转发，排除自身和上一跳节点，找到1或2个距离主无人机次近的邻居节点进行转发，直到转发至主无人机所在的节点；所述贪婪转发策略是指一种无状态路由协议，指节点转发数据包需要选择下一跳节点时，在路由表中选择距离目的节点最近的邻节点最为局部最优选择，此邻节点成为转发数据包的下一跳节点；

步骤6，节点区域进行完全搜索后，判断该节点是否为遍历路径上的最后一个节点目标，若否，返回步骤3继续搜索；若是，无人机集群返回地面指挥中心任务结束。

所述步骤1的具体步骤为：

步骤1-1，输入一个关于“人”的数字图像F(x，y)，x＝0，1，...，M-1；y＝0，1，…，N-1，数字图像信息是一个长为M，宽为N的矩阵，x，y表示在矩阵的x行y列，数字图像的F(x，y)为图像的灰度值，其中包括肢体轮廓、眼、耳、口、鼻的灰度信息，处理得到二值图像f(i，j)，i＝0，1，...，M-1；j＝0，1，...，N-1.i，j表示在矩阵的i行j列，二值图像指图像上每一个像素点只有两种可能的取值状态；

步骤1-2，计算出二值图像的质量m(f(i，j))，

步骤1-3，计算出二值图像的重心，记为其中，分别表示位置图像重心的横坐标和纵坐标，的计算如下所示：

步骤1-4，计算出“人”的转动惯性(NMI)特征值，记为：

将上述计算结果记录在无人机系统中作为伤员搜寻时特征向量的识别依据；

步骤1-5，蚂蚁选择路径的概率如下，t时刻，处于城市i1的蚂蚁k1选择移动到城市j1概率表示为：

式中，τ_i1j1是城市i1到城市j1的路径上的信息素量，μ_i1j1为地点i1到地点j1的启发信息，d_i1j1是地点i1与地点j1之间的距离；α和β是用来调整τ_i1j1和μ_i1j1对决策影响程度的参数，allowed_k1＝{0，1，...，n-1}表示蚂蚁k下一步允许选择的地点，为了满足蚂蚁必须经过所有n1个不同的地点这个约束条件，为每只蚂蚁都设计了一个表，记录蚂蚁已经经过的地点，不允许蚂蚁在经过这些地点，每次循环之后，此表被用来计算蚂蚁所经过的路径长度；

步骤1-6，经过n2个时刻，蚂蚁完成一次循环，各路经上信息素量根据下式调整，信息素更新包括全局更新和局部更新，全局更新指信息素挥发由下式的前半部分构成，以及局部更新由式子的后半部分构成，如下：

τ_i1j1(t+1)＝ρ×τ_i1j1(t)+Δτ_i1j1(t，t+1)

其中，Δτ_i1j1(t，t+1)表示蚂蚁经过从城市i1到城市j1的路径时释放的信息素，表示第k只蚂蚁在时刻(t，t+1)留在路径(i1，j1)上的信息素量，ρ为信息素轨迹的衰减系数，ρ＜1；

步骤1-7，当m1个蚂蚁都完成循环时，比较这m1个蚂蚁所走过的路径长度，找出最短的那个蚂蚁i2，蚂蚁i2所走过的路径就是无人机所要求遍历的最短路径。

所述步骤2中，保证雷达生命探测仪的工作精度作业于地空距50m以下的范围。

所述步骤3的具体步骤为：

步骤3-1，无人机在节点区域散开后，探测仪工作收到输入i，为环境中当前生命体征信号强度s在某种程度上的表示，计算得到状态—动作折扣奖赏值Q(s，a)，其定义形式如下：

Q(s，a)←r+γmaxQ_a′(s′，a′)

式中，r为无人机在生命体征信号强度为s下进行飞行方向动作变化a后得到的奖励值；γ是Q学习的折扣因子；s′是进行飞行方向动作变化后所检测到的环境中新的生命体征信号强度；a′是无人机在新信号强度下可选择的动作；maxQ_a′(s′a′)是状态s′下，所有动作变化中能够产生的最大Q值；

步骤3-2，搜索过程中，无人机Q值不断进行更新，更新规则如下：

Q(s，a)＝Q(s，a)+ξ[r+γmax_a′Q(s′，a′)-Q(s，a)]

式中，γ是Q学习的折扣因子0≤γ≤1；ξ为学习速率；Q(s，a)是当前生命体征信号强度s下飞行动作a的Q值，Q(s′，a′)为下一状态外界信号强度s′下飞行动作a″的折扣奖赏值；

步骤3-3，无人机在强化学习中存在多种飞行方向的行为选择策略可选择，更大的Q值有更高概率被选择而较小的Q值同样会有概率选上，使用boltzmann方法将概率和Q的相对值结合考虑从而确定飞行动作被选择的概率，如下：

式中，T为温度系数，调节该系数可实现对飞行方向动作改变的选择概率的调节，P_a表示飞行方向动作a被选择的概率，Q(s，a)表示当前生命体征信号强度s下飞行动作a的状态对，max_bQ(s，b)表示当前生命体征信号强度s下所有飞行动作能够产生的最大Q值。

所述步骤4的具体步骤为：

步骤4-1，无人机在节点区域进行强化学习，同时判断雷达生命探测仪是否搜寻到强生命体征信号；

步骤4-2，同时在搜索时判断是否识别到与“人”转动惯性(NMI)特征向量比值超过0.8的特征目标，对搜索过程中采集到的图像F(x，y)，x＝0，1，...，M-1；y＝0，1，…，N-1，变量Δt属于(0，255)，，按照以下方法进行逐层二值化，得到一个二值图像序列则有：

步骤4-3，计算出无人机所采集到的每一张二值视野图像转动惯性(NMI)不变性特征值，记为NMI(l)则有：

无人机就得到了幅图像的一个转动惯性(NMI)不变特征序列

步骤4-4，无人机输入的目标图像转动惯性(NMI)不变特征序列为w1，待比对的视野图像转动惯性(NMI)不变特征序列为w2，和分别为其序列均值，w1＝{x1_i|i＝0，1，2...k2-1}，w2＝{x2_i|i＝0，1，2...k2-1}，(其中)则两者的相关度如下所示：

步骤4-5，相关度的取值在[-1，1]之间，如果相关度超过某一阈值，则表示图像被检索到，即伤员被找到。

所述步骤5的具体步骤为：

步骤5-1，子无人机在节点区域搜索到存在生命体征的伤员，构造位置信息的数据分组通过集群的自组织网络反馈给主无人机；

子无人机所在的节点需要转发目的节点为主无人机所在节点的数据包，子无人机有一以其自身节点为圆心的虚线圆圈表示其自身的通信范围，子无人机选择范围内距离目的节点最近的一个节点，所寻得的这个中间节点即为所传递信息下一跳路由的局部最优选择；

步骤5-2，多跳过程重复上述步骤5-1，数据包不断转发直到到达主无人机目的节点，主无人机将信息传送给地面指挥中心。

有益效果：本发明采用以上技术方案和现有技术相比，具有以下技术效果：

(1)本发明提出一种基于蚁群算法优化的无人机群搜索目标的方法。基于此算法能够使得灾后人员搜寻的时间缩小以及搜索的可靠度提高。

(2)本发明结合的蚁群算法能够在宏观上为无人机集群提供最短的搜寻路线，与普通的贪婪算法相比节约了耗能过多和搜寻时间过长的问题；

(3)本发明在具体的搜寻某栋建筑物时，将强化学习运用到了多无人机上，多无人机携带雷达探测仪用于震区生命探测，其具有穿透力强、作用距离精确、抗干扰能力强、多目标探测能力强、探测灵敏度高等优点，探测距离可达30～50m，穿透实体砖墙厚度可达2m以上，可隔着几间房探测到人，并具有人体自动识别功能。这使得多无人机在搜索时表现出一定的智能，提高搜索效率。同时，由于是多无人机，所以将多个无人机获得的信息进行综合对比，增加了可靠程度；

(4)本发明的无人机之间的通信采用了周边转发算法，这是一种在贪婪转发算法上提出的改进，避免了在无人机之间通信时可能会进入信息不能传递到目标无人机的状态。

附图说明

图1是基于蚁群算法优化的无人机目标搜索方法构建流程；

图2是无人机根据贪婪转发策略反馈信息的流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

如图1所述，本发明的一种基于蚁群算法优化的无人机目标搜索构建方法，包括以下步骤：

步骤1，在无人机信息识别系统中输入“人”的归一化转动惯性(NMI)特征序列，包括：肢体轮廓、眼、耳、口、鼻，以此作为无人机作业时所采集图像的转动惯性(NMI)特征对比依据；同时在地面指挥中心计算机设备中输入搜索地区的所有可能坐标，执行蚁群算法，所述蚁群算法是指：模拟蚂蚁寻找食物的过程，它能够求出从原点出发，经过若干个给定的需求点，最终返回原点的最短路径，其结果作为该构建方法所使用的遍历路径节点；具体步骤为：

步骤1-2，计算出二值图像的质量m(f(i，j))，

步骤1-4，计算出“人”的转动惯性(NMI)特征值，记为：

τ_i1j1(t+1)＝ρ×τ_i1j1(t)+Δτ_i1j1(t，t+1)

步骤2，无人机集群携带雷达生命探测仪到达步骤1得到的节点，并向各方向发散；其中，保证雷达生命探测仪的工作精度作业于地空距50m以下的范围。

步骤3，在节点区域，无人机所携带的雷达生命探测仪与外界环境进行交互，雷达生命探测仪收到环境中当前生命体征信号强度s，以此作为其输入信号i，雷达生命探测仪选择产生动作a输出以影响外界环境信号强度，此状态转换效果通过强化信号t传递给雷达生命探测仪；如此循环正反馈，雷达生命探测仪选择最优动作序列搜寻生命体；具体步骤为：

步骤3-1，无人机在节点区域散开后，探测仪工作收到输入i，为环境中当前生命体征信号强度s在某种程度上的表示，计算得到状态-动作折扣奖赏值Q(s，a)，其定义形式如下：

Q(s，a)←r+γmaxQ_a′(s′，a′)

Q(s，a)＝Q(s，a)+ξ[r+γmax_a′Q(s′，a′)-Q(s，a)]

步骤4，无人机判断采集所得图像的转动惯性(NMI)特征值与无人机信息识别系统中输入“人”的归一化转动惯性(NMI)特征是否一致，通过雷达生命探测仪判断是否通过强化学习不断感应到更强的环境信号；若是，进入步骤5；若否，判断当前节点坐标区域是否已完全搜寻，若是，进入步骤6，若否，返回步骤3继续搜索；具体步骤为：

无人机就得到了幅图像的一个转动惯性(NMI)不变特征序列

步骤5，通过子无人机搜寻到目标，构造位置信息的数据分组，根据贪婪转发策略，向主无人机反馈信息，若中间某节点不能贪婪转发，排除自身和上一跳节点，找到1或2个距离主无人机次近的邻居节点进行转发，直到转发至主无人机所在的节点；所述贪婪转发策略是指一种无状态路由协议，指节点转发数据包需要选择下一跳节点时，在路由表中选择距离目的节点最近的邻节点最为局部最优选择，此邻节点成为转发数据包的下一跳节点；具体步骤为：

下面结合具体实施例对本发明做进一步说明。

实施例

在无人机信息识别系统中输入“人”的归一化转动惯性(NMI)特征序列，包括：肢体轮廓、眼、耳、口、鼻等，以此作为无人机作业时所采集图像的NMI特征对比依据。同时在地面指挥中心计算机设备中输入搜索地区的所有可能坐标(如学校为搜索区域，教学楼、图书馆、宿舍等为可能坐标)，执行蚁群算法，所述蚁群算法指：模拟蚂蚁寻找食物的过程，它能够求出从原点出发，经过若干个给定的需求点，最终返回原点的最短路径。其结果作为构建该模型所使用的遍历路径节点。紧接着，无人机集群携带雷达生命探测仪到达节点并按一定角度向各方向发散。

在节点区域，无人机所携带的生命探测仪与外界环境进行交互。探测仪收到环境中当前生命体征信号强度s，以此作为其收到的输入i，探测仪选择产生动作a输出以影响外界环境信号强度，此状态转换效果通过强化信号t传递给探测仪。如此循环正反馈，无人机生命探测仪选择最优动作序列搜寻生命体。

无人机判断采集所得图像的NMI特征值与初始输入目标特征值是否一致，判断探测仪是否感应到最强信号。；若否，判断当前节点坐标区域是否已完全搜寻，若是，进入下一节点搜寻；若否，继续强化学习搜索。当子无人机搜寻到目标，构造数据分组，根据贪婪转发策略，向主无人机反馈信息，如某节点不能贪婪转发，排除自身和上一跳节点，找到1或2个距离主无人机次近的邻居节点进行转发，直到转发至主无人机所在节点。所述贪婪转发策略是指一种无状态路由协议，指节点转发数据包需要选择下一跳节点时，在路由表中选择距离目的节点最近的邻节点最为局部最优选择，此邻节点成为转发数据包的下一跳节点。

最终，当节点区域进行完全搜索后判断该节点是否为遍历路径上的最后一个节点目标，若否，继续强化学习搜索；若是，无人机集群返回地面指挥中心任务结束。

图2是无人机根据贪婪转发策略反馈信息的流程图。子无人机m在节点区域搜索到存在生命体征的伤员，构造数据分组反馈给主无人机。反馈过程如图中红色箭头路径；图中子无人机所在的节点需要转发目的节点为主无人机所在节点a的数据包，节点m为圆心的虚线圆圈表示节点m的通信范围，子无人机m选择范围内距离节点a最近的一个节点，即中间节点k作为下一跳路由的局部最优选择。

若为多跳过程，则重复上述步骤，数据包不断转发直到到达主无人机目的节点，主无人机将信息传送给地面指挥中心。

Claims

1.一种基于蚁群算法优化的无人机目标搜索构建方法，其特征在于：包括以下步骤：

步骤1，在无人机信息识别系统中输入“人”的归一化转动惯性特征序列，包括：肢体轮廓、眼、耳、口、鼻，以此作为无人机作业时所采集图像的转动惯性特征对比依据；同时在地面指挥中心计算机设备中输入搜索地区的所有可能坐标，执行蚁群算法，所述蚁群算法是指：模拟蚂蚁寻找食物的过程，它能够求出从原点出发，经过若干个给定的需求点，最终返回原点的最短路径，其结果作为该构建方法所使用的遍历路径节点；

步骤4，无人机判断采集所得图像的转动惯性特征值与无人机信息识别系统中输入“人”的归一化转动惯性特征是否一致，通过雷达生命探测仪判断是否通过强化学习不断感应到更强的环境信号；若是，进入步骤5；若否，判断当前节点坐标区域是否已完全搜寻，若是，进入步骤6，若否，返回步骤3继续搜索；

2.根据权利要求1所述的基于蚁群算法优化的无人机目标搜索构建方法，其特征在于：所述步骤1的具体步骤为：

步骤1-2，计算出二值图像的质量m(f(i，j))，

步骤1-4，计算出“人”的转动惯性特征值，记为：

τ_i1j1(t+1)＝ρ×τ_i1j1(t)+Δτ_i1j1(t，t+1)

3.根据权利要求1所述的基于蚁群算法优化的无人机目标搜索构建方法，其特征在于：所述步骤2中，保证雷达生命探测仪的工作精度作业于地空距50m以下的范围。

4.根据权利要求1所述的基于蚁群算法优化的无人机目标搜索构建方法，其特征在于：所述步骤3的具体步骤为：

Q(s，a)←r+γmaxQ_a′(s′，a′)

Q(s，a)＝Q(s，a)+ξ[r+γmax_a′Q(s′，a′)-Q(s，a)]

5.根据权利要求1所述的基于蚁群算法优化的无人机目标搜索构建方法，其特征在于：所述步骤4的具体步骤为：

步骤4-2，同时在搜索时判断是否识别到与“人”转动惯性特征向量比值超过0.8的特征目标，对搜索过程中采集到的图像F(x，y)，x＝0，1，...，M-1；y＝0，1，…，N-1，变量Δt属于(0，255)，，按照以下方法进行逐层二值化，得到一个二值图像序列则有：

步骤4-3，计算出无人机所采集到的每一张二值视野图像转动惯性不变性特征值，记为NMI(l)则有：

无人机就得到了幅图像的一个转动惯性不变特征序列

步骤4-4，无人机输入的目标图像转动惯性不变特征序列为w1，待比对的视野图像转动惯性不变特征序列为w2，和分别为其序列均值，w1＝{x1_i|i＝0，1，2...k2-1}，w2＝{x2_i|i＝0，1，2...k2-1}，(其中)则两者的相关度如下所示：

6.根据权利要求1所述的基于蚁群算法优化的无人机目标搜索构建方法，其特征在于：所述步骤5的具体步骤为：