CN114337875B

CN114337875B - 面向多辐射源追踪的无人机群飞行轨迹优化方法

Info

Publication number: CN114337875B
Application number: CN202111676592.5A
Authority: CN
Inventors: 丁国如; 谷江春; 王海超; 徐以涛
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2024-04-02
Anticipated expiration: 2041-12-31
Also published as: CN114337875A

Abstract

一种面向多辐射源追踪的无人机群飞行轨迹优化方法，包括建立模块、估计模块、匹配模块、定位模块以及追踪模块。建立模块用于建立多约束条件下无人机群轨迹优化问题；估计模块采用深度神经网络得到接收信号强度和距离之间的映射关系；匹配模块采用交互式矩阵生成方法得到无人机与辐射源匹配方案；定位模块采用多球交会定位方法得到辐射源的参考位置；追踪模块采用深度强化学习方法设计无人机群的飞行轨迹优化算法。相对于传统方法，所提方法在平均追踪时间、任务完成率以及收敛速度等指标方面都具有明显的优势。

Description

面向多辐射源追踪的无人机群飞行轨迹优化方法

技术领域

本发明涉及辐射源定位与追踪技术领域，具体涉及一种面向多辐射源追踪的无人机群飞行轨迹优化方法。

背景技术

近年来，无人机具有高机动性、按需部署和低成本等先天性的优势，作为移动传感器被广泛应用于定位和追踪系统。此外，相对于单个无人机，无人机群在多任务以及复杂任务场景下具有独特的优势，然而，无人机群也面临着通信交互、任务分配以及轨迹设计等多重挑战。

无人机之间的通信交互以及任务分配是实现无人机群追踪的一项关键技术，是群体智能领域中的重要研究方向之一。在执行任务之前，根据不同的任务需求，如航迹长度最短，飞行时间最短以及能耗最低等，不同无人机选择的任务也会有所不同。无人机如何将局部的环境感知共享并进行最优的任务分配值得深入研究。

动态未知环境下无人机群的轨迹优化是一个重大挑战。由于辐射源不断地向环境中辐射电磁信号，因此，无人机可根据接收到的信号强度对辐射源进行追踪，这不仅仅容易实现追踪的目的，而且可以有效地避免自身位置的暴露，可以应用于对有害的辐射源进行数据采集或目标侦察等一些实际的场景。现有研究主要集中于无人机群二维轨迹的优化设计,而三维轨迹的设计与优化更加实际却更具有挑战性，比如说信道环境的复杂性以及动作和状态空间的庞大性。另外，现有研究已经尝试应用强化学习方法于辐射源追踪场景，但是对于无人机群追踪多辐射源目标场景，如何设计有效的算法提升强化学习的收敛速度是一个亟需研究的问题。

现有的轨迹优化算法很多，包括经典的粒子群算法、模拟退火算法、遗传算法以及蚁群算法等，但是上述算法随机性较强，并且在动态未知、大规模、广域环境条件下无法高效求解。

发明内容

为解决上述问题，本发明提供了一种面向多辐射源追踪的无人机群飞行轨迹优化方法，相比于传统算法，所提方法在平均追踪时间、任务完成率以及收敛速度等指标方面都具有明显的优势。

为了克服现有技术中的不足，本发明提供了一种面向多辐射源追踪的无人机群飞行轨迹优化方法的解决方案，具体如下：

一种面向多辐射源追踪的无人机群飞行轨迹优化方法，包括如下步骤：

步骤1：提出一个多约束条件下的无人机群飞行轨迹优化问题，构建多约束条件下的无人机群轨迹优化模型；

步骤2：采用深度神经网络来估计信道模型,得到接收信号强度和距离之间的映射关系；

步骤3：采用交互式方法生成接收信号强度矩阵,计算出相应的距离矩阵并得到无人机与辐射源匹配方案；

步骤4：采用多球交会定位方法,结合接收信号强度和距离之间的映射关系计算出辐射源的参考位置；

步骤5：将原始优化问题转换为马尔科夫决策过程,并将辐射源的位置信息引入强化学习中,设计高效的无人机群飞行轨迹优化算法。

进一步地，所述步骤1中的提出一个多约束条件下的无人机群飞行轨迹优化问题，构建多约束条件下的无人机群轨迹优化模型，该内容包括：

考虑多架巡逻无人机协同对多个辐射源目标进行追踪，其中，辐射源的位置是未知且动态变化的。考虑无人机具有辐射源个体识别能力，比如识别辐射源的类别以及辐射源的发射功率等。在此基础上，无人机之间通过交互进行任务分配，即一个无人机只选择一个的辐射源进行跟随；随后，无人机通过接收到的信号强度对辐射源进行搜索，当接收到的信号强度值达到设定的阈值时，即完成了追踪任务。

考虑有K个辐射源，在t时刻，0≤t≤T，第k个辐射源的位置可以表示为考虑有N(N≥K)个无人机，第n个无人机的位置可以表示为/>在进行追踪任务之前，无人机按照预定的轨迹在空中进行巡查，第n个无人机的初始位置可以表示为采用时间离散法，将时间段T离散为M个等长的时隙δ_t，T＝Mδ_t，时隙δ_t需要足够小以保证在一个时隙内无人机的位置可以近似看作不变。设置集合因此，在第m个时隙，第k个辐射源的位置可以表示为/>无人机n的位置可以表示为一般来说，考虑对指定的区域进行搜索，即一个三维立方体空间R_LU＝[x_L,x_U]×[y_L,y_U]×[z_L,z_U]，其中L和U分别表示三维空间的最低界限和最高界限。因此，无人机的位置需要满足/>综上，可以建立以下优化问题一：

式中，优化目标为所有无人机追踪时间最小化。优化变量一为无人机与辐射源的匹配系数a_n,k，即一个无人机只对一个辐射源进行追踪；优化变量二为无人机的飞行速度矢量包含飞行的方向和飞行的步长。约束条件C1给出了第n架无人机的飞行时间表达式，如果在第I时刻，无人机首次接收到的信号强度大于等于某一设定的阈值γ，则表示无人机任务完成，计时结束；如果在第I时刻，无人机首次接收到的信号强度小于设定的阈值γ，则继续追踪，直到首次接收到的信号强度大于或等于设定的阈值；约束条件C2表示匹配系数的取值范围为0或者1；约束条件C3表示一个无人机至多与一个辐射源进行匹配，即存在K个匹配对；约束条件C4表示无人机的飞行范围；约束条件C5表示无人机的能量有限，其中E_n,total表示第n架无人机飞行消耗的总能量，是一个与速度和步长成正相关的函数，E_max表示每架无人机携带的最大能耗；约束条件C6和C7表示无人机应该满足速度约束，其中V_max为无人机的最大飞行速度。

进一步地，所述步骤2中的采用深度神经网络来估计信道模型，得到接收信号强度和距离之间的映射关系包括如下内容：

考虑通过辐射源识别技术可以识别出辐射源的类型、调制方式以及发射功率等。因此，首先构建虚拟环境来模拟真实环境中的无人机与辐射源，然后虚拟辐射源在虚拟环境中发射信号并随机运动，虚拟无人机在虚拟环境中飞行并同时记录辐射源位置、无人机位置以及无人机处接收到的信号强度大小，因此，可以记录大量的接收信号强度-距离模拟数据对。另外，由于接收信号强度与距离之间的关系是非线性的，为了较好地拟合接收信号强度-距离曲线，此处采取深度神经网络进行训练和估计。所采用的神经网络结构包含输入层，隐藏层和输出层，其中隐藏层包含两个具有50个神经元的Dense层以及两个Dropout层。Dense层采用经典的Relu激活函数，具体表达式如下：

进一步地，所述步骤3中的采用交互式方法生成接收信号强度矩阵，计算出相应的距离矩阵并得到无人机与辐射源匹配方案，具体包括：

在进行追踪之前，一个无人机需要选择一个辐射源进行追踪。如果无人机的数量等于辐射源的数量，即N＝K，则每架无人机刚好匹配一个辐射源；如果无人机的数量大于辐射源的数量，即N＞K，则有(N-K)架无人机不需要参与追踪任务。直观地，无人机作为单独的智能体，可以采取自主决策的方式进行辐射源的匹配，单个无人机首先根据感知到的辐射源信号强度进行排序，每架无人机都倾向于选择接收信号强度最大对应的辐射源。然而，可能出现两架无人机同时都选择了一个辐射源，导致无人机之间发生了冲突。为了避免上述情况，无人机可以采取交互式的方法将接收信号强度序列与邻居无人机进行共享，经过一定的交互后，每个无人机都会得到一个接收信号强度矩阵，此时再结合接收信号强度和距离的映射关系，计算出距离矩阵，并依据此选择无人机与辐射源匹配对，完成匹配任务。根据距离矩阵选择无人机与辐射源匹配对的规则如下:首先，选择出矩阵每一行中的最小值，然后观察最小值中是否有在同一列的值，若否，则按照取出最大值的结果进行匹配；若是，同列中较小者进行匹配，较大者选择剩下的辐射源匹配(N＝K)或者不选择(N＞K)。

进一步地，所述步骤4中的采用多球交会定位方法，结合接收信号强度和距离之间的映射关系计算出辐射源的参考位置，包括：

首先，根据步骤2得到的接收信号强度-距离的映射关系来估计无人机与辐射源之间的距离；随后通过三球交会方法对辐射源进行定位。注意到，由于步骤2中深度神经模型估计的精度问题以及真实环境中非视距链路的影响，此处只是粗略地给出一个辐射源的参考坐标。尽管如此，此参考坐标依然给后面的追踪提供了先验信息，并对加速了网络的训练过程。此处，多个无人机并不需要一直对辐射源定位，只需要在追踪任务开始之前协同定位即可。无人机间可以通过通信将所在位置信息和接收到的信号强度共享，实现一架无人机获取其匹配辐射源的参考位置信息。为了求解辐射源的位置，可以建立以下三元二次方程组：

上述方法也可以扩展到N个无人机的场景，即可建立以下方程组，

式中，(x,y,z)为所求辐射源的参考位置坐标。

进一步地，所述步骤5中的将原始优化问题转换为马尔科夫决策过程，并将辐射源的位置信息引入强化学习中，设计高效的无人机群飞行轨迹优化算法，包括如下步骤：

5.1初始化最大回合数目M_epi，每回合最大步数M_step，探索率ε₀，衰减率α₁，出界惩罚p_out，位置重复惩罚p_again，任务完成门限γ，容量为C的回放记忆序列D。

5.2根据公式(4)，获取辐射源参考坐标，并计算无人机与参考坐标距离,对网络进行初始训练，更新网络参数θ^-←θ以及ε←ε₀。

5.3重复(步骤5.3到步骤5.6)。

a)初始化一个容量为M₁的滑动窗序列W，设置时间步数m←0。

b)重复(步骤c)到步骤k))。

c)根据ε-greedy从动作空间中选择动作/>其中

d)执行动作根据约束C6得到智能体的下一个状态s_m+1，并计算出实时奖励R_m。

e)将(s_m,v_m,R_m,s_m+1)保存在滑动窗序列W中。

f)如果m≥M₁，计算M₁步累计奖励并且将储存在回放记忆池D中。

g)从回放记忆池D中随机采样

h)令式中/>

i)在上关于网络参数θ执行梯度下降。

j)更新m←m+1，ε←εα₁。

k)直到m＝M_step。

5.4m_epi←m_epi+1。

5.5每N_epi个回合之后更新一次目标网络的参数θ^-←θ。

5.6直到m_epi＝M_epi。

本发明的有益效果为：

通过设计估计-匹配-定位-追踪框架，实现无人机群快速追踪多辐射源，具体而言，本发明的有益效果包括：

1、本发明可较好地解决面向多辐射位置动态未知场景下的无人机群飞行轨迹优化问题；

2、通过引入深度强化学习方法，使得无人机在未知环境中有效的进行了探索，并将所获知识进行高效的利用，实现了多辐射源的追踪目的，所提算法在平均追踪时间、任务完成率以及收敛速度等指标方面都具有明显的优势。

附图说明

图1为本发明的面向多辐射源追踪的无人机群飞行轨迹优化方法的流程图。

图2为本发明的实施例中的系统场景示意图。

图3为本发明的实施例中的平均追踪时间图。

图4为本发明的实施例中的任务完成率图。

图5为本发明的实施例中的无人机群飞行轨迹图。

具体实施方式

下面将结合附图和实施例对本发明做进一步地说明。

面向多辐射源追踪的无人机群飞行轨迹优化方法，包括如下步骤：

式中，优化目标为所有无人机追踪时间最小化。优化变量一为无人机与辐射源的匹配系数a_n,k，即一个无人机只对一个辐射源进行追踪；优化变量二为无人机的飞行速度矢量包含飞行的方向和飞行的步长。约束条件C1给出了第n架无人机的飞行时间表达式，如果在第I时刻，无人机首次接收到的信号强度大于等于某一设定的阈值γ，则表示无人机任务完成，计时结束；约束条件C2表示匹配系数的取值范围为0或者1；约束条件C3表示一个无人机至多与一个辐射源进行匹配，即存在K个匹配对；约束条件C4表示无人机的飞行范围；约束条件C5表示无人机的能量有限，其中E_n,total表示第n架无人机飞行消耗的总能量，是一个与速度和步长成正相关的函数，E_max表示每架无人机携带的最大能耗；约束条件C6和C7表示无人机应该满足速度约束，其中V_max为无人机的最大飞行速度。

式中，(x,y,z)为所求辐射源的参考位置坐标。

5.3重复(步骤5.3到步骤5.6)。

a)初始化一个容量为M₁的滑动窗序列W，设置时间步数m←0。

b)重复(步骤c)到步骤k))。

c)根据ε-greedy从动作空间中选择动作/>其中

e)将(s_m,v_m,R_m,s_m+1)保存在滑动窗序列W中。

g)从回放记忆池D中随机采样

h)令式中/>

i)在上关于网络参数θ执行梯度下降。

j)更新m←m+1，ε←εα₁。

k)直到m＝M_step。

5.4m_epi←m_epi+1。

5.5每N_epi个回合之后更新一次目标网络的参数θ^-←θ。

5.6直到m_epi＝M_epi。

而本发明的一个具体实施例如下描述，系统仿真采用python软件。下述实施例考察本发明所设计的面向多辐射源追踪的无人机群飞行轨迹优化方法的有效性。

本实施例中，如图2所示，首先，考虑3架无人机追踪3个移动辐射源的场景，飞行区域空间大小为300×200×100m³。无人机的初始位置随机给定，分别为以及/>辐射源以一定的路线做往返运动，辐射源1的起始点和终点分别为(20,50,50)和(25,50,50)，辐射源2的起始点和终点分别为(160,40,10)和(165,40,10)，辐射源3的起始点和终点分别为(250,80,22)和(255,80,22)。

辐射源的发射功率相同且都为p_k(m)＝30dbm。信道相关参数设置如下:a＝10，b＝0.6，f＝200MHz，c＝3.0×10⁸m/s，η_LoS＝0.1以及η_NLoS＝21。深度网络相关参数设置如下：每个无人机使用相同的神经网格结构，具体而言，单个网络是由5个隐层组成的全连通前馈神经网络，前4个隐层分别包含512、256、128、128个神经元，最后一个层叫做竞争层，包含K+1个神经元，其中一个神经元用于价值函数，另外K个神经元用于优势函数。仿真环境设置如下:Python 3.7.6,TensorFlow 1.4和Keras。

图3给出了五种算法的平均飞行时间对比。此平均飞行时间是采用了训练中最后200回合的飞行时间的平均值。可以看出，对于所有的无人机，所提算法D³QN-PT的平均飞行时间都是最短的，算法D³QN、DDQN、DQN的性能平均飞行时间依次增加，Random算法的平均飞行时间最长，这也从飞行时间指标层面验证了所提算法的高效性。

图4给出了五种算法的任务完成率对比。此任务完成率分析了训练中最后200回合的任务完成情况。可以观察到，所提算法D³QN-PT的任务完成率都是最高的，并且接近于1。D³QN算法性能次之，并且不够稳定，DDQN和DQN的性能低于D³QN，同样不够稳定，另外，Random算法的任务完成率最低。

图5分别给出了所提算法D³QN-PT在一定迭代次数后每个无人机的三维轨迹图以及二维平面轨迹图。图5(a)为三维轨迹图，图5(b)为二维平面轨迹图，可以看出，每个无人机都选择了距离较近的辐射源进行追踪，并且为了尽快完成任务，都尽可能选择一条距离较短的路径去追踪辐射源，当接收信号强度达到任务完成门限后，无人机到达路径的终点.

以上以用实施例说明的方式对本发明作了描述，本领域的技术人员应当理解，本公开不限于以上描述的实施例，在不偏离本发明的范围的情况下，可以做出各种变化、改变和替换。

Claims

1.一种面向多辐射源追踪的无人机群飞行轨迹优化方法，其特征在于，包括如下步骤：

步骤1：提出一个多约束条件下的无人机群飞行轨迹优化问题，构建多约束条件下的无人机群轨迹优化模型；包括：

建立多架巡逻无人机协同对多个辐射源目标进行追踪，其中，辐射源的位置是未知且动态变化的；考虑无人机具有辐射源个体识别能力，用于识别辐射源的类别以及辐射源的发射功率；在此基础上，无人机之间通过交互进行任务分配，即一个无人机只选择一个的辐射源进行跟随；随后，无人机通过接收到的信号强度对辐射源进行搜索，当接收到的信号强度值达到设定的阈值时，即完成了追踪任务；

具体内容包括：

假设有K个辐射源，在t时刻，0≤t≤T，第k个辐射源的位置表示为假设有N个无人机，N≥K，第n个无人机的位置表示为/>

在进行追踪任务之前，无人机按照预定的轨迹在空中进行巡查，第n个无人机的初始位置表示为采用时间离散法，将时间段T离散为M个等长的时隙δ_t，T＝Mδ_t，时隙δ_t需要满足在一个时隙内无人机的位置近似看作不变；

设置集合在第m个时隙，第k个辐射源的位置表示为/>无人机n的位置表示为对指定的区域进行搜索，即一个三维立方体空间R_LU＝[x_L,x_U]×[y_L,y_U]×[z_L,z_U]，其中L和U分别表示三维空间的最低界限和最高界限；无人机的位置需要满足/>

建立以下优化问题一：

式中，优化目标为所有无人机追踪时间最小化；优化变量一为无人机与辐射源的匹配系数a_n,k，即一个无人机只对一个辐射源进行追踪；优化变量二为无人机的飞行速度矢量包含飞行的方向和飞行的步长；约束条件C1给出了第n架无人机的飞行时间表达式，如果在第I时刻，无人机首次接收到的信号强度大于等于设定的阈值γ，则表示无人机任务完成，计时结束；如果在第I时刻，无人机首次接收到的信号强度小于设定的阈值γ，则继续追踪，直到首次接收到的信号强度大于或等于设定的阈值；约束条件C2表示匹配系数的取值范围为0或者1；约束条件C3表示一个无人机至多与一个辐射源进行匹配，即存在K个匹配对；约束条件C4表示无人机的飞行范围；约束条件C5表示无人机的能量有限，其中E_n,total表示第n架无人机飞行消耗的总能量，是一个与速度和步长成正相关的函数，E_max表示每架无人机携带的最大能耗；约束条件C6和C7表示无人机应该满足速度约束，其中V_max为无人机的最大飞行速度；

步骤5：将原始优化问题转换为马尔科夫决策过程,并将辐射源的位置信息引入强化学习中,设计高效的无人机群飞行轨迹优化算法；

包括如下步骤：

5.1初始化最大回合数目M_epi，每回合最大步数M_step，探索率ε₀，衰减率α₁，出界惩罚p_out，位置重复惩罚p_again，任务完成门限容量为C的回放记忆序列D；

5.2根据公式(4)，获取辐射源参考坐标，并计算无人机与参考坐标距离,对网络进行初始训练，更新网络参数θ^-←θ以及ε←ε₀；

5.3重复步骤5.3到步骤5.6；

a)初始化一个容量为M₁的滑动窗序列W，设置时间步数m←0；

b)重复步骤c到步骤k；

c)根据ε-greedy从动作空间中选择动作/>其中

类总和；

d)执行动作根据约束C6得到智能体的下一个状态s_m+1，并计算出实时奖励R_m；

e)将(s_m,v_m,R_m,s_m+1)保存在滑动窗序列W中；

f)如果m≥M₁，计算M₁步累计奖励并且将储存在回放记忆池D中；

g)从回放记忆池D中随机采样

h)令式中/>

i)在上关于网络参数θ执行梯度下降；

j)更新m←m+1，ε←εα₁；

k)直到m＝M_step；

5.4m_epi←m_epi+1；

5.5每N_epi个回合之后更新一次目标网络的参数θ^-←θ；

5.6直到m_epi＝M_epi。

2.根据权利要求1所述的面向多辐射源追踪的无人机群飞行轨迹优化方法，其特征在于，所述步骤2中的采用深度神经网络来估计信道模型，得到接收信号强度和距离之间的映射关系，包括如下内容：

首先构建虚拟环境来模拟真实环境中的无人机与辐射源，然后虚拟辐射源在虚拟环境中发射信号并随机运动，虚拟无人机在虚拟环境中飞行并同时记录辐射源位置、无人机位置以及无人机处接收到的信号强度大小，因此，记录大量的接收信号强度-距离模拟数据对；

采取深度神经网络进行训练和估计；采用的神经网络结构包含输入层，隐藏层和输出层，其中隐藏层包含两个具有50个神经元的Dense层以及两个Dropout层；

Dense层采用经典的Relu激活函数，具体表达式如式(2)。

3.根据权利要求2所述的面向多辐射源追踪的无人机群飞行轨迹优化方法，其特征在于，所述步骤3中的采用交互式方法生成接收信号强度矩阵，计算出相应的距离矩阵并得到无人机与辐射源匹配方案，具体包括：

在进行追踪之前，一个无人机需要选择一个辐射源进行追踪，如果无人机的数量等于辐射源的数量，即N＝K，则每架无人机刚好匹配一个辐射源；如果无人机的数量大于辐射源的数量，即N＞K，则有(N-K)架无人机不需要参与追踪任务；

无人机作为单独的智能体，能够采取自主决策的方式进行辐射源的匹配，单个无人机首先根据感知到的辐射源信号强度进行排序，每架无人机都倾向于选择接收信号强度最大对应的辐射源；为了避免两架无人机同时都选择了一个辐射源，导致无人机之间发生了冲突；无人机采取交互式的方法将接收信号强度序列与邻居无人机进行共享，经过一定的交互后，每个无人机都会得到一个接收信号强度矩阵；

再结合接收信号强度和距离的映射关系，计算出距离矩阵，并依据此选择无人机与辐射源匹配对，完成匹配任务；

根据距离矩阵选择无人机与辐射源匹配对的规则如下:首先，选择出矩阵每一行中的最小值，然后观察最小值中是否有在同一列的值，若否，则按照取出最大值的结果进行匹配；若是，同列中最小值进行匹配，同时还需要考虑以下两种情况：如果N＝K，则同列中最小值进行匹配，最大值选择剩下的辐射源匹配，如果N＞K，则不选择。

4.根据权利要求3所述的面向多辐射源追踪的无人机群飞行轨迹优化方法，其特征在于，所述步骤4中的采用多球交会定位方法，结合接收信号强度和距离之间的映射关系计算出辐射源的参考位置，包括：

首先，根据步骤2得到的接收信号强度-距离的映射关系来估计无人机与辐射源之间的距离；随后通过三球交会方法对辐射源进行定位；为了求解辐射源的位置，建立以下三元二次方程组：

上述方法也能够扩展到N个无人机的场景，从而建立以下方程组，

式中，(x,y,z)为所求辐射源的参考位置坐标。