CN114337875B - 面向多辐射源追踪的无人机群飞行轨迹优化方法 - Google Patents
面向多辐射源追踪的无人机群飞行轨迹优化方法 Download PDFInfo
- Publication number
- CN114337875B CN114337875B CN202111676592.5A CN202111676592A CN114337875B CN 114337875 B CN114337875 B CN 114337875B CN 202111676592 A CN202111676592 A CN 202111676592A CN 114337875 B CN114337875 B CN 114337875B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- radiation source
- tracking
- received signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000005457 optimization Methods 0.000 title claims abstract description 45
- 230000005855 radiation Effects 0.000 claims abstract description 138
- 239000011159 matrix material Substances 0.000 claims abstract description 25
- 238000013507 mapping Methods 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 230000002452 interceptive effect Effects 0.000 claims abstract description 10
- 230000002787 reinforcement Effects 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 238000005265 energy consumption Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 7
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
一种面向多辐射源追踪的无人机群飞行轨迹优化方法,包括建立模块、估计模块、匹配模块、定位模块以及追踪模块。建立模块用于建立多约束条件下无人机群轨迹优化问题;估计模块采用深度神经网络得到接收信号强度和距离之间的映射关系;匹配模块采用交互式矩阵生成方法得到无人机与辐射源匹配方案;定位模块采用多球交会定位方法得到辐射源的参考位置;追踪模块采用深度强化学习方法设计无人机群的飞行轨迹优化算法。相对于传统方法,所提方法在平均追踪时间、任务完成率以及收敛速度等指标方面都具有明显的优势。
Description
技术领域
本发明涉及辐射源定位与追踪技术领域,具体涉及一种面向多辐射源追踪的无人机群飞行轨迹优化方法。
背景技术
近年来,无人机具有高机动性、按需部署和低成本等先天性的优势,作为移动传感器被广泛应用于定位和追踪系统。此外,相对于单个无人机,无人机群在多任务以及复杂任务场景下具有独特的优势,然而,无人机群也面临着通信交互、任务分配以及轨迹设计等多重挑战。
无人机之间的通信交互以及任务分配是实现无人机群追踪的一项关键技术,是群体智能领域中的重要研究方向之一。在执行任务之前,根据不同的任务需求,如航迹长度最短,飞行时间最短以及能耗最低等,不同无人机选择的任务也会有所不同。无人机如何将局部的环境感知共享并进行最优的任务分配值得深入研究。
动态未知环境下无人机群的轨迹优化是一个重大挑战。由于辐射源不断地向环境中辐射电磁信号,因此,无人机可根据接收到的信号强度对辐射源进行追踪,这不仅仅容易实现追踪的目的,而且可以有效地避免自身位置的暴露,可以应用于对有害的辐射源进行数据采集或目标侦察等一些实际的场景。现有研究主要集中于无人机群二维轨迹的优化设计,而三维轨迹的设计与优化更加实际却更具有挑战性,比如说信道环境的复杂性以及动作和状态空间的庞大性。另外,现有研究已经尝试应用强化学习方法于辐射源追踪场景,但是对于无人机群追踪多辐射源目标场景,如何设计有效的算法提升强化学习的收敛速度是一个亟需研究的问题。
现有的轨迹优化算法很多,包括经典的粒子群算法、模拟退火算法、遗传算法以及蚁群算法等,但是上述算法随机性较强,并且在动态未知、大规模、广域环境条件下无法高效求解。
发明内容
为解决上述问题,本发明提供了一种面向多辐射源追踪的无人机群飞行轨迹优化方法,相比于传统算法,所提方法在平均追踪时间、任务完成率以及收敛速度等指标方面都具有明显的优势。
为了克服现有技术中的不足,本发明提供了一种面向多辐射源追踪的无人机群飞行轨迹优化方法的解决方案,具体如下:
一种面向多辐射源追踪的无人机群飞行轨迹优化方法,包括如下步骤:
步骤1:提出一个多约束条件下的无人机群飞行轨迹优化问题,构建多约束条件下的无人机群轨迹优化模型;
步骤2:采用深度神经网络来估计信道模型,得到接收信号强度和距离之间的映射关系;
步骤3:采用交互式方法生成接收信号强度矩阵,计算出相应的距离矩阵并得到无人机与辐射源匹配方案;
步骤4:采用多球交会定位方法,结合接收信号强度和距离之间的映射关系计算出辐射源的参考位置;
步骤5:将原始优化问题转换为马尔科夫决策过程,并将辐射源的位置信息引入强化学习中,设计高效的无人机群飞行轨迹优化算法。
进一步地,所述步骤1中的提出一个多约束条件下的无人机群飞行轨迹优化问题,构建多约束条件下的无人机群轨迹优化模型,该内容包括:
考虑多架巡逻无人机协同对多个辐射源目标进行追踪,其中,辐射源的位置是未知且动态变化的。考虑无人机具有辐射源个体识别能力,比如识别辐射源的类别以及辐射源的发射功率等。在此基础上,无人机之间通过交互进行任务分配,即一个无人机只选择一个的辐射源进行跟随;随后,无人机通过接收到的信号强度对辐射源进行搜索,当接收到的信号强度值达到设定的阈值时,即完成了追踪任务。
考虑有K个辐射源,在t时刻,0≤t≤T,第k个辐射源的位置可以表示为考虑有N(N≥K)个无人机,第n个无人机的位置可以表示为/>在进行追踪任务之前,无人机按照预定的轨迹在空中进行巡查,第n个无人机的初始位置可以表示为采用时间离散法,将时间段T离散为M个等长的时隙δt,T=Mδt,时隙δt需要足够小以保证在一个时隙内无人机的位置可以近似看作不变。设置集合 因此,在第m个时隙,第k个辐射源的位置可以表示为/>无人机n的位置可以表示为一般来说,考虑对指定的区域进行搜索,即一个三维立方体空间RLU=[xL,xU]×[yL,yU]×[zL,zU],其中L和U分别表示三维空间的最低界限和最高界限。因此,无人机的位置需要满足/>综上,可以建立以下优化问题一:
式中,优化目标为所有无人机追踪时间最小化。优化变量一为无人机与辐射源的匹配系数an,k,即一个无人机只对一个辐射源进行追踪;优化变量二为无人机的飞行速度矢量包含飞行的方向和飞行的步长。约束条件C1给出了第n架无人机的飞行时间表达式,如果在第I时刻,无人机首次接收到的信号强度大于等于某一设定的阈值γ,则表示无人机任务完成,计时结束;如果在第I时刻,无人机首次接收到的信号强度小于设定的阈值γ,则继续追踪,直到首次接收到的信号强度大于或等于设定的阈值;约束条件C2表示匹配系数的取值范围为0或者1;约束条件C3表示一个无人机至多与一个辐射源进行匹配,即存在K个匹配对;约束条件C4表示无人机的飞行范围;约束条件C5表示无人机的能量有限,其中En,total表示第n架无人机飞行消耗的总能量,是一个与速度和步长成正相关的函数,Emax表示每架无人机携带的最大能耗;约束条件C6和C7表示无人机应该满足速度约束,其中Vmax为无人机的最大飞行速度。
进一步地,所述步骤2中的采用深度神经网络来估计信道模型,得到接收信号强度和距离之间的映射关系包括如下内容:
考虑通过辐射源识别技术可以识别出辐射源的类型、调制方式以及发射功率等。因此,首先构建虚拟环境来模拟真实环境中的无人机与辐射源,然后虚拟辐射源在虚拟环境中发射信号并随机运动,虚拟无人机在虚拟环境中飞行并同时记录辐射源位置、无人机位置以及无人机处接收到的信号强度大小,因此,可以记录大量的接收信号强度-距离模拟数据对。另外,由于接收信号强度与距离之间的关系是非线性的,为了较好地拟合接收信号强度-距离曲线,此处采取深度神经网络进行训练和估计。所采用的神经网络结构包含输入层,隐藏层和输出层,其中隐藏层包含两个具有50个神经元的Dense层以及两个Dropout层。Dense层采用经典的Relu激活函数,具体表达式如下:
进一步地,所述步骤3中的采用交互式方法生成接收信号强度矩阵,计算出相应的距离矩阵并得到无人机与辐射源匹配方案,具体包括:
在进行追踪之前,一个无人机需要选择一个辐射源进行追踪。如果无人机的数量等于辐射源的数量,即N=K,则每架无人机刚好匹配一个辐射源;如果无人机的数量大于辐射源的数量,即N>K,则有(N-K)架无人机不需要参与追踪任务。直观地,无人机作为单独的智能体,可以采取自主决策的方式进行辐射源的匹配,单个无人机首先根据感知到的辐射源信号强度进行排序,每架无人机都倾向于选择接收信号强度最大对应的辐射源。然而,可能出现两架无人机同时都选择了一个辐射源,导致无人机之间发生了冲突。为了避免上述情况,无人机可以采取交互式的方法将接收信号强度序列与邻居无人机进行共享,经过一定的交互后,每个无人机都会得到一个接收信号强度矩阵,此时再结合接收信号强度和距离的映射关系,计算出距离矩阵,并依据此选择无人机与辐射源匹配对,完成匹配任务。根据距离矩阵选择无人机与辐射源匹配对的规则如下:首先,选择出矩阵每一行中的最小值,然后观察最小值中是否有在同一列的值,若否,则按照取出最大值的结果进行匹配;若是,同列中较小者进行匹配,较大者选择剩下的辐射源匹配(N=K)或者不选择(N>K)。
进一步地,所述步骤4中的采用多球交会定位方法,结合接收信号强度和距离之间的映射关系计算出辐射源的参考位置,包括:
首先,根据步骤2得到的接收信号强度-距离的映射关系来估计无人机与辐射源之间的距离;随后通过三球交会方法对辐射源进行定位。注意到,由于步骤2中深度神经模型估计的精度问题以及真实环境中非视距链路的影响,此处只是粗略地给出一个辐射源的参考坐标。尽管如此,此参考坐标依然给后面的追踪提供了先验信息,并对加速了网络的训练过程。此处,多个无人机并不需要一直对辐射源定位,只需要在追踪任务开始之前协同定位即可。无人机间可以通过通信将所在位置信息和接收到的信号强度共享,实现一架无人机获取其匹配辐射源的参考位置信息。为了求解辐射源的位置,可以建立以下三元二次方程组:
上述方法也可以扩展到N个无人机的场景,即可建立以下方程组,
式中,(x,y,z)为所求辐射源的参考位置坐标。
进一步地,所述步骤5中的将原始优化问题转换为马尔科夫决策过程,并将辐射源的位置信息引入强化学习中,设计高效的无人机群飞行轨迹优化算法,包括如下步骤:
5.1初始化最大回合数目Mepi,每回合最大步数Mstep,探索率ε0,衰减率α1,出界惩罚pout,位置重复惩罚pagain,任务完成门限γ,容量为C的回放记忆序列D。
5.2根据公式(4),获取辐射源参考坐标,并计算无人机与参考坐标距离,对网络进行初始训练,更新网络参数θ-←θ以及ε←ε0。
5.3重复(步骤5.3到步骤5.6)。
a)初始化一个容量为M1的滑动窗序列W,设置时间步数m←0。
b)重复(步骤c)到步骤k))。
c)根据ε-greedy从动作空间中选择动作/>其中
d)执行动作根据约束C6得到智能体的下一个状态sm+1,并计算出实时奖励Rm。
e)将(sm,vm,Rm,sm+1)保存在滑动窗序列W中。
f)如果m≥M1,计算M1步累计奖励并且将储存在回放记忆池D中。
g)从回放记忆池D中随机采样
h)令式中/>
i)在上关于网络参数θ执行梯度下降。
j)更新m←m+1,ε←εα1。
k)直到m=Mstep。
5.4mepi←mepi+1。
5.5每Nepi个回合之后更新一次目标网络的参数θ-←θ。
5.6直到mepi=Mepi。
本发明的有益效果为:
通过设计估计-匹配-定位-追踪框架,实现无人机群快速追踪多辐射源,具体而言,本发明的有益效果包括:
1、本发明可较好地解决面向多辐射位置动态未知场景下的无人机群飞行轨迹优化问题;
2、通过引入深度强化学习方法,使得无人机在未知环境中有效的进行了探索,并将所获知识进行高效的利用,实现了多辐射源的追踪目的,所提算法在平均追踪时间、任务完成率以及收敛速度等指标方面都具有明显的优势。
附图说明
图1为本发明的面向多辐射源追踪的无人机群飞行轨迹优化方法的流程图。
图2为本发明的实施例中的系统场景示意图。
图3为本发明的实施例中的平均追踪时间图。
图4为本发明的实施例中的任务完成率图。
图5为本发明的实施例中的无人机群飞行轨迹图。
具体实施方式
下面将结合附图和实施例对本发明做进一步地说明。
面向多辐射源追踪的无人机群飞行轨迹优化方法,包括如下步骤:
步骤1:提出一个多约束条件下的无人机群飞行轨迹优化问题,构建多约束条件下的无人机群轨迹优化模型;
步骤2:采用深度神经网络来估计信道模型,得到接收信号强度和距离之间的映射关系;
步骤3:采用交互式方法生成接收信号强度矩阵,计算出相应的距离矩阵并得到无人机与辐射源匹配方案;
步骤4:采用多球交会定位方法,结合接收信号强度和距离之间的映射关系计算出辐射源的参考位置;
步骤5:将原始优化问题转换为马尔科夫决策过程,并将辐射源的位置信息引入强化学习中,设计高效的无人机群飞行轨迹优化算法。
进一步地,所述步骤1中的提出一个多约束条件下的无人机群飞行轨迹优化问题,构建多约束条件下的无人机群轨迹优化模型,该内容包括:
考虑多架巡逻无人机协同对多个辐射源目标进行追踪,其中,辐射源的位置是未知且动态变化的。考虑无人机具有辐射源个体识别能力,比如识别辐射源的类别以及辐射源的发射功率等。在此基础上,无人机之间通过交互进行任务分配,即一个无人机只选择一个的辐射源进行跟随;随后,无人机通过接收到的信号强度对辐射源进行搜索,当接收到的信号强度值达到设定的阈值时,即完成了追踪任务。
考虑有K个辐射源,在t时刻,0≤t≤T,第k个辐射源的位置可以表示为考虑有N(N≥K)个无人机,第n个无人机的位置可以表示为/>在进行追踪任务之前,无人机按照预定的轨迹在空中进行巡查,第n个无人机的初始位置可以表示为采用时间离散法,将时间段T离散为M个等长的时隙δt,T=Mδt,时隙δt需要足够小以保证在一个时隙内无人机的位置可以近似看作不变。设置集合 因此,在第m个时隙,第k个辐射源的位置可以表示为/>无人机n的位置可以表示为一般来说,考虑对指定的区域进行搜索,即一个三维立方体空间RLU=[xL,xU]×[yL,yU]×[zL,zU],其中L和U分别表示三维空间的最低界限和最高界限。因此,无人机的位置需要满足/>综上,可以建立以下优化问题一:
式中,优化目标为所有无人机追踪时间最小化。优化变量一为无人机与辐射源的匹配系数an,k,即一个无人机只对一个辐射源进行追踪;优化变量二为无人机的飞行速度矢量包含飞行的方向和飞行的步长。约束条件C1给出了第n架无人机的飞行时间表达式,如果在第I时刻,无人机首次接收到的信号强度大于等于某一设定的阈值γ,则表示无人机任务完成,计时结束;约束条件C2表示匹配系数的取值范围为0或者1;约束条件C3表示一个无人机至多与一个辐射源进行匹配,即存在K个匹配对;约束条件C4表示无人机的飞行范围;约束条件C5表示无人机的能量有限,其中En,total表示第n架无人机飞行消耗的总能量,是一个与速度和步长成正相关的函数,Emax表示每架无人机携带的最大能耗;约束条件C6和C7表示无人机应该满足速度约束,其中Vmax为无人机的最大飞行速度。
进一步地,所述步骤2中的采用深度神经网络来估计信道模型,得到接收信号强度和距离之间的映射关系包括如下内容:
考虑通过辐射源识别技术可以识别出辐射源的类型、调制方式以及发射功率等。因此,首先构建虚拟环境来模拟真实环境中的无人机与辐射源,然后虚拟辐射源在虚拟环境中发射信号并随机运动,虚拟无人机在虚拟环境中飞行并同时记录辐射源位置、无人机位置以及无人机处接收到的信号强度大小,因此,可以记录大量的接收信号强度-距离模拟数据对。另外,由于接收信号强度与距离之间的关系是非线性的,为了较好地拟合接收信号强度-距离曲线,此处采取深度神经网络进行训练和估计。所采用的神经网络结构包含输入层,隐藏层和输出层,其中隐藏层包含两个具有50个神经元的Dense层以及两个Dropout层。Dense层采用经典的Relu激活函数,具体表达式如下:
进一步地,所述步骤3中的采用交互式方法生成接收信号强度矩阵,计算出相应的距离矩阵并得到无人机与辐射源匹配方案,具体包括:
在进行追踪之前,一个无人机需要选择一个辐射源进行追踪。如果无人机的数量等于辐射源的数量,即N=K,则每架无人机刚好匹配一个辐射源;如果无人机的数量大于辐射源的数量,即N>K,则有(N-K)架无人机不需要参与追踪任务。直观地,无人机作为单独的智能体,可以采取自主决策的方式进行辐射源的匹配,单个无人机首先根据感知到的辐射源信号强度进行排序,每架无人机都倾向于选择接收信号强度最大对应的辐射源。然而,可能出现两架无人机同时都选择了一个辐射源,导致无人机之间发生了冲突。为了避免上述情况,无人机可以采取交互式的方法将接收信号强度序列与邻居无人机进行共享,经过一定的交互后,每个无人机都会得到一个接收信号强度矩阵,此时再结合接收信号强度和距离的映射关系,计算出距离矩阵,并依据此选择无人机与辐射源匹配对,完成匹配任务。根据距离矩阵选择无人机与辐射源匹配对的规则如下:首先,选择出矩阵每一行中的最小值,然后观察最小值中是否有在同一列的值,若否,则按照取出最大值的结果进行匹配;若是,同列中较小者进行匹配,较大者选择剩下的辐射源匹配(N=K)或者不选择(N>K)。
进一步地,所述步骤4中的采用多球交会定位方法,结合接收信号强度和距离之间的映射关系计算出辐射源的参考位置,包括:
首先,根据步骤2得到的接收信号强度-距离的映射关系来估计无人机与辐射源之间的距离;随后通过三球交会方法对辐射源进行定位。注意到,由于步骤2中深度神经模型估计的精度问题以及真实环境中非视距链路的影响,此处只是粗略地给出一个辐射源的参考坐标。尽管如此,此参考坐标依然给后面的追踪提供了先验信息,并对加速了网络的训练过程。此处,多个无人机并不需要一直对辐射源定位,只需要在追踪任务开始之前协同定位即可。无人机间可以通过通信将所在位置信息和接收到的信号强度共享,实现一架无人机获取其匹配辐射源的参考位置信息。为了求解辐射源的位置,可以建立以下三元二次方程组:
上述方法也可以扩展到N个无人机的场景,即可建立以下方程组,
式中,(x,y,z)为所求辐射源的参考位置坐标。
进一步地,所述步骤5中的将原始优化问题转换为马尔科夫决策过程,并将辐射源的位置信息引入强化学习中,设计高效的无人机群飞行轨迹优化算法,包括如下步骤:
5.1初始化最大回合数目Mepi,每回合最大步数Mstep,探索率ε0,衰减率α1,出界惩罚pout,位置重复惩罚pagain,任务完成门限γ,容量为C的回放记忆序列D。
5.2根据公式(4),获取辐射源参考坐标,并计算无人机与参考坐标距离,对网络进行初始训练,更新网络参数θ-←θ以及ε←ε0。
5.3重复(步骤5.3到步骤5.6)。
a)初始化一个容量为M1的滑动窗序列W,设置时间步数m←0。
b)重复(步骤c)到步骤k))。
c)根据ε-greedy从动作空间中选择动作/>其中
d)执行动作根据约束C6得到智能体的下一个状态sm+1,并计算出实时奖励Rm。
e)将(sm,vm,Rm,sm+1)保存在滑动窗序列W中。
f)如果m≥M1,计算M1步累计奖励并且将储存在回放记忆池D中。
g)从回放记忆池D中随机采样
h)令式中/>
i)在上关于网络参数θ执行梯度下降。
j)更新m←m+1,ε←εα1。
k)直到m=Mstep。
5.4mepi←mepi+1。
5.5每Nepi个回合之后更新一次目标网络的参数θ-←θ。
5.6直到mepi=Mepi。
而本发明的一个具体实施例如下描述,系统仿真采用python软件。下述实施例考察本发明所设计的面向多辐射源追踪的无人机群飞行轨迹优化方法的有效性。
本实施例中,如图2所示,首先,考虑3架无人机追踪3个移动辐射源的场景,飞行区域空间大小为300×200×100m3。无人机的初始位置随机给定,分别为以及/>辐射源以一定的路线做往返运动,辐射源1的起始点和终点分别为(20,50,50)和(25,50,50),辐射源2的起始点和终点分别为(160,40,10)和(165,40,10),辐射源3的起始点和终点分别为(250,80,22)和(255,80,22)。
辐射源的发射功率相同且都为pk(m)=30dbm。信道相关参数设置如下:a=10,b=0.6,f=200MHz,c=3.0×108m/s,ηLoS=0.1以及ηNLoS=21。深度网络相关参数设置如下:每个无人机使用相同的神经网格结构,具体而言,单个网络是由5个隐层组成的全连通前馈神经网络,前4个隐层分别包含512、256、128、128个神经元,最后一个层叫做竞争层,包含K+1个神经元,其中一个神经元用于价值函数,另外K个神经元用于优势函数。仿真环境设置如下:Python 3.7.6,TensorFlow 1.4和Keras。
图3给出了五种算法的平均飞行时间对比。此平均飞行时间是采用了训练中最后200回合的飞行时间的平均值。可以看出,对于所有的无人机,所提算法D3QN-PT的平均飞行时间都是最短的,算法D3QN、DDQN、DQN的性能平均飞行时间依次增加,Random算法的平均飞行时间最长,这也从飞行时间指标层面验证了所提算法的高效性。
图4给出了五种算法的任务完成率对比。此任务完成率分析了训练中最后200回合的任务完成情况。可以观察到,所提算法D3QN-PT的任务完成率都是最高的,并且接近于1。D3QN算法性能次之,并且不够稳定,DDQN和DQN的性能低于D3QN,同样不够稳定,另外,Random算法的任务完成率最低。
图5分别给出了所提算法D3QN-PT在一定迭代次数后每个无人机的三维轨迹图以及二维平面轨迹图。图5(a)为三维轨迹图,图5(b)为二维平面轨迹图,可以看出,每个无人机都选择了距离较近的辐射源进行追踪,并且为了尽快完成任务,都尽可能选择一条距离较短的路径去追踪辐射源,当接收信号强度达到任务完成门限后,无人机到达路径的终点.
以上以用实施例说明的方式对本发明作了描述,本领域的技术人员应当理解,本公开不限于以上描述的实施例,在不偏离本发明的范围的情况下,可以做出各种变化、改变和替换。
Claims (4)
1.一种面向多辐射源追踪的无人机群飞行轨迹优化方法,其特征在于,包括如下步骤:
步骤1:提出一个多约束条件下的无人机群飞行轨迹优化问题,构建多约束条件下的无人机群轨迹优化模型;包括:
建立多架巡逻无人机协同对多个辐射源目标进行追踪,其中,辐射源的位置是未知且动态变化的;考虑无人机具有辐射源个体识别能力,用于识别辐射源的类别以及辐射源的发射功率;在此基础上,无人机之间通过交互进行任务分配,即一个无人机只选择一个的辐射源进行跟随;随后,无人机通过接收到的信号强度对辐射源进行搜索,当接收到的信号强度值达到设定的阈值时,即完成了追踪任务;
具体内容包括:
假设有K个辐射源,在t时刻,0≤t≤T,第k个辐射源的位置表示为假设有N个无人机,N≥K,第n个无人机的位置表示为/>
在进行追踪任务之前,无人机按照预定的轨迹在空中进行巡查,第n个无人机的初始位置表示为采用时间离散法,将时间段T离散为M个等长的时隙δt,T=Mδt,时隙δt需要满足在一个时隙内无人机的位置近似看作不变;
设置集合在第m个时隙,第k个辐射源的位置表示为/>无人机n的位置表示为对指定的区域进行搜索,即一个三维立方体空间RLU=[xL,xU]×[yL,yU]×[zL,zU],其中L和U分别表示三维空间的最低界限和最高界限;无人机的位置需要满足/>
建立以下优化问题一:
式中,优化目标为所有无人机追踪时间最小化;优化变量一为无人机与辐射源的匹配系数an,k,即一个无人机只对一个辐射源进行追踪;优化变量二为无人机的飞行速度矢量包含飞行的方向和飞行的步长;约束条件C1给出了第n架无人机的飞行时间表达式,如果在第I时刻,无人机首次接收到的信号强度大于等于设定的阈值γ,则表示无人机任务完成,计时结束;如果在第I时刻,无人机首次接收到的信号强度小于设定的阈值γ,则继续追踪,直到首次接收到的信号强度大于或等于设定的阈值;约束条件C2表示匹配系数的取值范围为0或者1;约束条件C3表示一个无人机至多与一个辐射源进行匹配,即存在K个匹配对;约束条件C4表示无人机的飞行范围;约束条件C5表示无人机的能量有限,其中En,total表示第n架无人机飞行消耗的总能量,是一个与速度和步长成正相关的函数,Emax表示每架无人机携带的最大能耗;约束条件C6和C7表示无人机应该满足速度约束,其中Vmax为无人机的最大飞行速度;
步骤2:采用深度神经网络来估计信道模型,得到接收信号强度和距离之间的映射关系;
步骤3:采用交互式方法生成接收信号强度矩阵,计算出相应的距离矩阵并得到无人机与辐射源匹配方案;
步骤4:采用多球交会定位方法,结合接收信号强度和距离之间的映射关系计算出辐射源的参考位置;
步骤5:将原始优化问题转换为马尔科夫决策过程,并将辐射源的位置信息引入强化学习中,设计高效的无人机群飞行轨迹优化算法;
包括如下步骤:
5.1初始化最大回合数目Mepi,每回合最大步数Mstep,探索率ε0,衰减率α1,出界惩罚pout,位置重复惩罚pagain,任务完成门限容量为C的回放记忆序列D;
5.2根据公式(4),获取辐射源参考坐标,并计算无人机与参考坐标距离,对网络进行初始训练,更新网络参数θ-←θ以及ε←ε0;
5.3重复步骤5.3到步骤5.6;
a)初始化一个容量为M1的滑动窗序列W,设置时间步数m←0;
b)重复步骤c到步骤k;
c)根据ε-greedy从动作空间中选择动作/>其中
类总和;
d)执行动作根据约束C6得到智能体的下一个状态sm+1,并计算出实时奖励Rm;
e)将(sm,vm,Rm,sm+1)保存在滑动窗序列W中;
f)如果m≥M1,计算M1步累计奖励并且将储存在回放记忆池D中;
g)从回放记忆池D中随机采样
h)令式中/>
i)在上关于网络参数θ执行梯度下降;
j)更新m←m+1,ε←εα1;
k)直到m=Mstep;
5.4mepi←mepi+1;
5.5每Nepi个回合之后更新一次目标网络的参数θ-←θ;
5.6直到mepi=Mepi。
2.根据权利要求1所述的面向多辐射源追踪的无人机群飞行轨迹优化方法,其特征在于,所述步骤2中的采用深度神经网络来估计信道模型,得到接收信号强度和距离之间的映射关系,包括如下内容:
首先构建虚拟环境来模拟真实环境中的无人机与辐射源,然后虚拟辐射源在虚拟环境中发射信号并随机运动,虚拟无人机在虚拟环境中飞行并同时记录辐射源位置、无人机位置以及无人机处接收到的信号强度大小,因此,记录大量的接收信号强度-距离模拟数据对;
采取深度神经网络进行训练和估计;采用的神经网络结构包含输入层,隐藏层和输出层,其中隐藏层包含两个具有50个神经元的Dense层以及两个Dropout层;
Dense层采用经典的Relu激活函数,具体表达式如式(2)。
3.根据权利要求2所述的面向多辐射源追踪的无人机群飞行轨迹优化方法,其特征在于,所述步骤3中的采用交互式方法生成接收信号强度矩阵,计算出相应的距离矩阵并得到无人机与辐射源匹配方案,具体包括:
在进行追踪之前,一个无人机需要选择一个辐射源进行追踪,如果无人机的数量等于辐射源的数量,即N=K,则每架无人机刚好匹配一个辐射源;如果无人机的数量大于辐射源的数量,即N>K,则有(N-K)架无人机不需要参与追踪任务;
无人机作为单独的智能体,能够采取自主决策的方式进行辐射源的匹配,单个无人机首先根据感知到的辐射源信号强度进行排序,每架无人机都倾向于选择接收信号强度最大对应的辐射源;为了避免两架无人机同时都选择了一个辐射源,导致无人机之间发生了冲突;无人机采取交互式的方法将接收信号强度序列与邻居无人机进行共享,经过一定的交互后,每个无人机都会得到一个接收信号强度矩阵;
再结合接收信号强度和距离的映射关系,计算出距离矩阵,并依据此选择无人机与辐射源匹配对,完成匹配任务;
根据距离矩阵选择无人机与辐射源匹配对的规则如下:首先,选择出矩阵每一行中的最小值,然后观察最小值中是否有在同一列的值,若否,则按照取出最大值的结果进行匹配;若是,同列中最小值进行匹配,同时还需要考虑以下两种情况:如果N=K,则同列中最小值进行匹配,最大值选择剩下的辐射源匹配,如果N>K,则不选择。
4.根据权利要求3所述的面向多辐射源追踪的无人机群飞行轨迹优化方法,其特征在于,所述步骤4中的采用多球交会定位方法,结合接收信号强度和距离之间的映射关系计算出辐射源的参考位置,包括:
首先,根据步骤2得到的接收信号强度-距离的映射关系来估计无人机与辐射源之间的距离;随后通过三球交会方法对辐射源进行定位;为了求解辐射源的位置,建立以下三元二次方程组:
上述方法也能够扩展到N个无人机的场景,从而建立以下方程组,
式中,(x,y,z)为所求辐射源的参考位置坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111676592.5A CN114337875B (zh) | 2021-12-31 | 2021-12-31 | 面向多辐射源追踪的无人机群飞行轨迹优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111676592.5A CN114337875B (zh) | 2021-12-31 | 2021-12-31 | 面向多辐射源追踪的无人机群飞行轨迹优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114337875A CN114337875A (zh) | 2022-04-12 |
CN114337875B true CN114337875B (zh) | 2024-04-02 |
Family
ID=81022704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111676592.5A Active CN114337875B (zh) | 2021-12-31 | 2021-12-31 | 面向多辐射源追踪的无人机群飞行轨迹优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114337875B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116106824B (zh) * | 2023-01-06 | 2023-11-03 | 南京航空航天大学 | 一种基于认知学习的无人机多阶段信号源定位方法和系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110244002A (zh) * | 2019-06-11 | 2019-09-17 | 徐州工业职业技术学院 | 一种基于无人机系统的大气污染源追踪方法 |
CN110632941A (zh) * | 2019-09-25 | 2019-12-31 | 北京理工大学 | 一种复杂环境下无人机目标跟踪的轨迹生成方法 |
CN111404849A (zh) * | 2020-03-20 | 2020-07-10 | 北京航空航天大学 | 一种基于深度学习的ofdm信道估计与信号检测方法 |
CN113064117A (zh) * | 2021-03-12 | 2021-07-02 | 武汉大学 | 一种基于深度学习的辐射源定位方法及装置 |
CN113342059A (zh) * | 2021-05-31 | 2021-09-03 | 西安电子科技大学 | 基于位置和速度误差的多无人机跟踪移动辐射源方法 |
CN113411881A (zh) * | 2021-05-28 | 2021-09-17 | 海南大学 | Rss无人机集群分布式定位方法 |
CN113554680A (zh) * | 2021-07-21 | 2021-10-26 | 清华大学 | 目标跟踪方法、装置、无人机和存储介质 |
CN113552898A (zh) * | 2021-07-08 | 2021-10-26 | 同济大学 | 一种非确定干扰环境下的无人机鲁棒轨迹规划方法 |
CN113821035A (zh) * | 2021-09-22 | 2021-12-21 | 北京邮电大学 | 无人船轨迹追踪控制方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11429118B2 (en) * | 2018-07-18 | 2022-08-30 | The Trustees Of The University Of Pennsylvania | Control of multi-drone fleets with temporal logic objectives |
US11703853B2 (en) * | 2019-12-03 | 2023-07-18 | University-Industry Cooperation Group Of Kyung Hee University | Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same |
-
2021
- 2021-12-31 CN CN202111676592.5A patent/CN114337875B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110244002A (zh) * | 2019-06-11 | 2019-09-17 | 徐州工业职业技术学院 | 一种基于无人机系统的大气污染源追踪方法 |
CN110632941A (zh) * | 2019-09-25 | 2019-12-31 | 北京理工大学 | 一种复杂环境下无人机目标跟踪的轨迹生成方法 |
CN111404849A (zh) * | 2020-03-20 | 2020-07-10 | 北京航空航天大学 | 一种基于深度学习的ofdm信道估计与信号检测方法 |
CN113064117A (zh) * | 2021-03-12 | 2021-07-02 | 武汉大学 | 一种基于深度学习的辐射源定位方法及装置 |
CN113411881A (zh) * | 2021-05-28 | 2021-09-17 | 海南大学 | Rss无人机集群分布式定位方法 |
CN113342059A (zh) * | 2021-05-31 | 2021-09-03 | 西安电子科技大学 | 基于位置和速度误差的多无人机跟踪移动辐射源方法 |
CN113552898A (zh) * | 2021-07-08 | 2021-10-26 | 同济大学 | 一种非确定干扰环境下的无人机鲁棒轨迹规划方法 |
CN113554680A (zh) * | 2021-07-21 | 2021-10-26 | 清华大学 | 目标跟踪方法、装置、无人机和存储介质 |
CN113821035A (zh) * | 2021-09-22 | 2021-12-21 | 北京邮电大学 | 无人船轨迹追踪控制方法和装置 |
Non-Patent Citations (1)
Title |
---|
UAV-Enabled Mobile Radiation Source Tracking with Deep Reinforcement Learning;Jiangchun Gu;《2020 International Conference on Wireless Communications and Signal Processing (WCSP)》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114337875A (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113110592B (zh) | 一种无人机避障与路径规划方法 | |
US11794898B2 (en) | Air combat maneuvering method based on parallel self-play | |
CN113162679A (zh) | 基于ddpg算法的irs辅助无人机通信联合优化方法 | |
CN113433967B (zh) | 一种可充电无人机路径规划方法及系统 | |
CN114690799A (zh) | 基于信息年龄的空天地一体化无人机物联网数据采集方法 | |
CN111176334A (zh) | 一种多无人机协同目标搜索方法 | |
CN111240353A (zh) | 基于遗传模糊树的无人机协同空战决策方法 | |
CN114422056A (zh) | 基于智能反射面的空地非正交多址接入上行传输方法 | |
CN113159432A (zh) | 一种基于深度强化学习的多智能体路径规划方法 | |
CN109460065B (zh) | 基于势函数的无人机集群队形特征辨识方法及系统 | |
CN114740846A (zh) | 面向拓扑-栅格-度量混合地图的分层路径规划方法 | |
CN113382060B (zh) | 一种物联网数据收集中的无人机轨迹优化方法及系统 | |
CN115435787B (zh) | 一种基于改进蝴蝶算法的无人机三维路径规划方法及系统 | |
CN114337875B (zh) | 面向多辐射源追踪的无人机群飞行轨迹优化方法 | |
CN109885082B (zh) | 一种基于任务驱动下的无人机航迹规划的方法 | |
CN113283169B (zh) | 一种基于多头注意力异步强化学习的三维群体探索方法 | |
CN113625767A (zh) | 一种基于优选信息素灰狼算法的固定翼无人机集群协同路径规划方法 | |
CN114371634B (zh) | 一种基于多级事后经验回放的无人机作战模拟仿真方法 | |
CN116432514A (zh) | 无人机攻防博弈的拦截意图识别策略仿真系统及方法 | |
CN115421517A (zh) | 一种基于路径规划的无人机控制方法及系统 | |
Zhang et al. | Improving autonomous behavior strategy learning in an unmanned swarm system through knowledge enhancement | |
CN115097861A (zh) | 一种基于cel-maddpg的多无人机围捕策略方法 | |
CN118249883A (zh) | 一种基于多智能体的空中安全数据采集方法 | |
Yang et al. | Learning graph-enhanced commander-executor for multi-agent navigation | |
CN113741186A (zh) | 一种基于近端策略优化的双机空战决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |