CN114281101A - 一种基于强化学习的无人机与云台干扰源联合搜索方法 - Google Patents
一种基于强化学习的无人机与云台干扰源联合搜索方法 Download PDFInfo
- Publication number
- CN114281101A CN114281101A CN202111474028.5A CN202111474028A CN114281101A CN 114281101 A CN114281101 A CN 114281101A CN 202111474028 A CN202111474028 A CN 202111474028A CN 114281101 A CN114281101 A CN 114281101A
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- unmanned aerial
- time slot
- received signal
- signal strength
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 50
- 238000004364 calculation method Methods 0.000 claims description 35
- 230000009471 action Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Landscapes
- Variable-Direction Aerials And Aerial Arrays (AREA)
Abstract
本发明公开了一种基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,所述联合搜索方法控制装有云台的无人机处于固定的高度,并控制云台控制旋转和扫描以使方向性天线对无线电信号进行接收,再利用强化学习的算法对方向性天线接收的无线电信号进行处理,计算无人机的飞行方向,对干扰源进行搜索定位。本发明解决现有的无人机配置固定方向性天线进行搜索面临的精度不足、搜索效率较低的问题,同时可以实现更远距离、更低初始信噪比的干扰源搜索,更具实用价值。
Description
技术领域
本发明涉及无线电监测技术领域,具体而言涉及一种基于强化学习的无人机与云台干扰源联合搜索方法。
背景技术
。此外,随着现代战争的发展,突破敌方恶意干扰、夺得制电磁权俨然成为决定战况的最关键因素之一。因此,对干扰源搜索定位的需求日益迫切。然而传统的地面搜索面临多径效应和阴影衰落和复杂地面环境的影响。而基于无人机的空中搜索可有效减少多径效应和复杂地面环境的影响。然而针对诸如十分常见且危害极大的非法电台等短波乃至甚高频频段的干扰源,其相应较大尺寸的阵列测向天线难以安装到无人机上,而使用无人机搭载可旋转方向性天线进行搜索的方法可以解决此问题。然而现有的无人机搭载方向性天线进行干扰源搜索的方法是将方向性天线固定在无人机上,通过无人机悬停时机身旋转进行无线电信号的测量,此方法没有考虑无人机与干扰源之间垂直角度变化的影响,因此误差较大。
近年兴起的强化学习技术提供了一种通用方法来解决复杂的不确定性决策问题。Q学习算法是一种无模型的强化学习算法,被广泛地应用于无线点信号搜索定位中。然而引入云台后,面临无人机和云台两个智能体同时决策、并且互相耦合的问题,因此需要对互相耦合的智能体决策过程进行建模求解。。
发明内容
本发明针对现有技术中的不足,提供一种基于强化学习的无人机与云台干扰源联合搜索方法,通过无人机进行空中搜索大大减小多径效应、阴影衰落和复杂地面环境的影响;通过云台控制方向性天线进行扫描测量信号避免了复杂阵列天线的使用;通过互相耦合的Q学习的算法实现无人机云台协同规划,实现对干扰源的快速准确搜索。
为实现上述目的,本发明采用以下技术方案:
一种基于强化学习的无人机与云台干扰源联合搜索方法,所述联合搜索方法控制装有云台的无人机处于固定的高度,并控制云台控制旋转和扫描以使方向性天线对无线电信号进行接收,再利用强化学习的算法对方向性天线接收的无线电信号进行处理,计算无人机的飞行方向,对干扰源进行搜索定位;
所述联合搜索方法包括以下步骤:
S1,将搜索任务的时间平均划分为多个长度相同的时隙,将每个时隙t划分为两个阶段:云台阶段和无人机阶段;
S2,在时隙t的云台阶段,通过云台控制方向性天线,根据ε贪心策略执行动作,选择n 个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈,测得m个等间隔的水平角度上的接收信号强度值,存入接收信号强度向量中;
S3,在t时隙的无人机阶段中,根据接收信号强度向量计算得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报,并分别计算上一时隙无人机和当前时隙云台的状态-动作值函数,作为Q值;其中,当前时隙无人机的状态为由接收信号强度向量估算出的干扰源方向;下一时隙云台的状态为估算出的方向上的接收信号强度值的量化;上一时隙无人机的立即回报为m个水平角度上接收信号强度的最大值;当前时隙云台的立即回报为m个水平角度上接收信号强度的和;
S4,无人机根据ε贪心策略执行动作,决策出其中一个水平角度作为飞行方向θt,向该飞行方向飞行一个固定的步长到达新的位置;同时决策出下一时隙云台的垂直角度;
S5,在下一时隙重复上述步骤S2至步骤S4,直至无人机飞行到干扰源上方。
进一步地,步骤S2中,通过云台控制方向性天线,选择n个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈,测得m个等间隔的水平角度上的接收信号强度值,存入接收信号强度向量中的过程包括以下步骤:
S21,以无人机初始位置对应地面的点为原点,构建直角坐标系;
S23,选择旋转到n个等间距量化的垂直角度集合{Φ1,Φ2,...,Φn}中的某个垂直角度,并水平旋转一圈,测得m个等间隔的水平角度{Θ1,Θ2,...,Θm}上的接收信号强度值。
进一步地,步骤S23中,通过云台转向测得t时刻的接收信号强度向量,即RSS向量Vrt,其满足下述计算公式:
Vrt=Mrt(kt,:)
其中,Pij=Pr(θt-Θj,φt-Φi);i=1,2,...,n;j=1,2,...,m;(θt,φt)为t时刻干扰源相对于无人机的角度;
式中,PT为干扰源发射功率,N为噪声的幅度,其为服从均值为0方差为σ2的高斯分布的随机变量;L为自由空间路径损耗;Gr(θt-Θj,φt-Φi)为接收天线增益值:
式中,F(θt-Θj,φt-Φi)为天线方向性函数值,η为天线效率。
进一步地,步骤S3中,计算得到当前时隙无人机的状态的过程包括以下步骤:
根据已知的天线方向图函数计算m个水平角度{Θ1,Θ2,...,Θm}分别对应的基准向量;将与接收信号强度向量的差的2范数值最小的基准向量对应的方向作为估算出的干扰源方向。
进一步地,步骤S4中,无人机根据ε贪心策略执行动作,决策出其中一个水平角度作为飞行方向θt,向该飞行方向飞行一个固定的步长到达新的位置,同时决策出下一时隙云台的垂直角度的过程包括以下步骤:
S41,将无人机的飞行方向的决策建模为一个马尔可夫决策过程,即无人机MDP:
t时隙无人机的状态SU,t满足下述计算公式:
其中Vij=[f(Θ1,0),f(Θ2,0),…,f(Θm,0)]j,j=1,2,…,m为m个基准向量,[·]j运算表示对向量进行j位的圆周移位;t时隙无人机的动作AU,t定义为选择一个水平的角度θt∈{Θ1,Θ2,...,Θm},并飞行一个固定的步长;回报函数为无人机MDP 的目标函数满足下述计算公式:其中策略πU为无人机状态空间到动作空间的映射,γ1为折扣因子;
S42,将云台垂直方向旋转的决策建模为一个马尔可夫决策过程,即云台MDP:
其中,表示t-1时刻的RSS向量Vrt-1中以为索引的RSS值;[·]运算表示取最接近的整数;t时隙云台的动作AP,t定义为选择一个垂直的角度并测得RSS向量Vrt;云台的回报函数满足下述计算公式:云台MDP的目标函数满足下述计算公式:其中策略πP为云台的状态空间到动作空间的映射,γ2为折扣因子;
S43,修正无人机MDP,使云台MDP和无人机MDP构成一组互相耦合的马尔可夫决策过程:
将t时隙无人机的状态SU,t的计算公式改写为满足下述计算公式:
无人机MDP回报函数改写为RU,t=max Vrt+1(:)。
进一步地,步骤S3中,无人机根据ε贪心策略执行动作的过程包括以下步骤:
在任一时隙,无人机以概率ε根据Q表选取当前无人机状态下,Q值最大的动作作为本时隙无人机飞行的方向;在任一时隙,无人机以概率1-ε选择接收信号强度最值对应的角度为本时隙无人机飞行的方向。
本发明的有益效果是:
本发明提供了一种基于强化学习的无人机与云台干扰源联合搜索方法,包括装有云台的无人机在固定的高度上飞行,固定在云台上并由其控制扫描的方向天线进行无线电信号的接收;通过所述互相耦合的Q学习算法同时进行云台垂直旋转角度和无人机水平飞行角度的决策,从而实现无人机与云台联合搜索干扰源。通过该方法,实现无人机与云台对干扰源的协同定位,解决现有的无人机配置固定方向性天线进行搜索面临的精度不足、搜索效率较低的问题,同时可以实现更远距离、更低初始信噪比的干扰源搜索,更具实用价值。
附图说明
图1是本发明实施例的基于强化学习的无人机与云台干扰源联合搜索方法流程图。
图2是本发明实施例的以无人机初始位置为原点建立的三维直角坐标系示意图。
图3是本发明实施例的水平方向和垂直方向上等间距量化的角度示意图。
图4是本发明实施例的任务的时隙和阶段的划分示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
实施例1:
图1是本发明实施例的基于强化学习的无人机与云台干扰源联合搜索方法流程图。参见图1,该联合搜索方法控制装有云台的无人机处于固定的高度,并控制云台控制旋转和扫描以使方向性天线对无线电信号进行接收,再利用强化学习的算法对方向性天线接收的无线电信号进行处理,计算无人机的飞行方向,对干扰源进行搜索定位。
该联合搜索方法包括以下步骤:
S1,将搜索任务的时间平均划分为多个长度相同的时隙,将每个时隙t划分为两个阶段:云台阶段和无人机阶段。
S2,在时隙t的云台阶段,通过云台控制方向性天线,根据ε贪心策略执行动作,选择n 个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈,测得m个等间隔的水平角度上的接收信号强度值,存入接收信号强度向量中。
S3,在t时隙的无人机阶段中,根据接收信号强度向量计算得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报,并分别计算上一时隙无人机和当前时隙云台的状态-动作值函数,作为Q值;其中,当前时隙无人机的状态为由接收信号强度向量估算出的干扰源方向;下一时隙云台的状态为估算出的方向上的接收信号强度值的量化;上一时隙无人机的立即回报为m个水平角度上接收信号强度的最大值;当前时隙云台的立即回报为m个水平角度上接收信号强度的和。
S4,无人机根据ε贪心策略执行动作,决策出其中一个水平角度作为飞行方向θt,向该飞行方向飞行一个固定的步长到达新的位置;同时决策出下一时隙云台的垂直角度。
S5,在下一时隙重复上述步骤S2至步骤S4,直至无人机飞行到干扰源上方。
具体地,本发明将通过以下实施例来进行阐述,实施例的系统背景建模如下:建立如图 2所示的坐标系,其中无人机初始位置对应地面的点为原点。无人机搭载有固定在云台上的方向性天线云台可以将天线在水平方向θ∈[0,2π]、垂直方向构成的半球形上旋转。将水平角度等间距量化为m个角度{Θ1,Θ2,...,Θm},将垂直角度等间距量化为n个角度{Φ1,Φ2,...,Φn}。如图3所示。
其中,F(θ,φ)为天线方向性函数,η为天线效率。
将搜索任务的时间平均划分为多个长度相同的时隙,每个时隙分为两个阶段。即第t个时隙可以分为云台阶段和无人机阶段,如图4所示。在t时隙的云台阶段中,云台进行扫描和信号测量。具体地,通过云台转向测得t时刻的接收信号强度矩阵,即RSS矩阵,其满足下述计算公式:
其中Pij=Pr(θt-Θj,φt-Φi);i=1,2,...,n;j=1,2,...,m;(θt,φt)为t时刻干扰源相对于无人机的角度。在t时隙的无人机阶段中,无人机根据云台阶段中测量的RSS矩阵Mrt决策出飞行方向θt(θt∈{Θ1,Θ2,...,Θm}),并向该方向飞行一个步长的距离到达新的位置,进入t+1 时隙。t时隙无人机的坐标为(xt,yt,zt),由于无人机在固定的高度z飞行,则对于无人机路径规划的问题可以只考虑X、Y两个坐标,则t+1时隙无人机新的位置的X、Y坐标满足下述计算公式:
xt+1=xt+wsinθt,yt+1=yt+wcosθt。
其中w为飞行步长。经过多个时隙的重复上述过程直到无人机到达干扰源上空。
由于每个时隙测量得到RSS矩阵所需要的时间较长。这里对上述问题进行简化,云台每个时隙只测量RSS矩阵某一行的值,即t时刻云台旋转到垂直角度处(对应{Φ1,Φ2,...,Φn} 中下标为kt的角度),水平方向上旋转到等角度处测量得到接收信号强度向量,即RSS向量,其满足下述计算公式:
其中Vij=[f(Θ1,0),f(Θ2,0),…,f(Θm,0)]j,j=1,2,…,m为m个基准向量([·]j运算表示对向量进行j位的圆周移位)。t时隙无人机的动作AU,t定义为选择一个水平的角度θt∈{Θ1,Θ2,...,Θm},并飞行一个固定的步长。回报函数为则无人机MDP 的目标函数满足下述计算公式:
其中策略πU为无人机状态空间到动作空间的映射,γ1为折扣因子。
实际上由于t时刻未知,因此我们将云台垂直方向旋转的决策也建模为一个马尔可夫决策过程,即云台MDP。t时隙云台的动作AP,t定义为选择一个垂直的角度并测得RSS向量Vrt。则t时隙云台的状态SP,t定义满足下述计算公式:
其中,表示t-1时刻的RSS向量Vrt-1中以为索引的RSS值;[·]运算表示取最接近的整数(即对该RSS值进行量化)。t时隙云台的动作AP,t定义为选择一个垂直的角度并测得RSS向量Vrt。云台的回报函数满足下述计算公式:
则云台MDP的目标函数满足下述计算公式:
其中策略πP为云台的状态空间到动作空间的映射,γ2为折扣因子。
则此时t时隙无人机的状态SU,t的计算公式改写为满足下述计算公式:
无人机MDP回报函数改写为为RU,t=max Vrt+1(:)。
因此云台MDP和无人机MDP构成了一组互相耦合的马尔可夫决策过程。
实施例2:
结合图1,本发明提供了一种基于强化学习的无人机与云台联合搜索干扰源的算法,该算法使用互相耦合的Q学习求解,包括下述步骤:
步骤1:云台控制方向性天线,根据ε贪心策略执行动作,即旋转到n个等间距量化的垂直角度集合{Φ1,Φ2,...,Φn}中的某个垂直角度,并水平旋转一圈,测得m个等间隔的水平角度{Θ1,Θ2,...,Θm}上的接收信号强度值,存入接收信号强度向量中。
步骤2:根据接收信号强度向量计算得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报,并分别计算上一时隙无人机和当前时隙云台的状态-动作值函数,即Q值。
步骤3:无人机根据ε贪心策略执行动作,即选择向某个水平角度飞行一个固定的步长到达新的位置。
步骤4:在下一时隙重复上述步骤1-步骤3直至无人机飞行到干扰源上方。
首先执行步骤1。
在任一时隙,云台以概率ε根据Q表选取当前云台状态下,Q值最大的动作作为本时隙动作。
在任一时隙,云台以概率1-ε选随机选取动作。
即t时隙,云台的动作AP,t的计算满足下述计算公式:
至此,云台完成动作执行,得到该时隙的接收信号强度向量Vrt后,执行步骤2。当前时隙无人机的状态定义为由接收信号强度向量估算出的干扰源方向,包含:
根据已知的天线方向图函数计算m个水平角度{Θ1,Θ2,...,Θm}分别对应的基准向量。
进一步,与接收信号强度向量的差的2范数值最小的基准向量对应的方向即为估算出的干扰源方向。
即当前时隙无人机的状态SU,t的计算满足下述计算公式:
其中Vij=[f(Θ1,0),f(Θ2,0),…,f(Θm,0)]j,j=1,2,…,m为m个基准向量([·]j运算表示对向量进行j位的圆周移位)。
上一时隙无人机的立即回报定义为m个水平角度上接收信号强度的最大值,当前时隙云台的立即回报定义为m个水平角度上接收信号强度的和。即上一时隙无人机的立即回报和当前时隙云台的立即回报分别满足下述计算公式:
RU,t-1=max Vrt(:)
上一时隙无人机的状态-动作值函数更新满足下述计算公式:
QU(SU,t-1,AU,t-1)←QU(SU,t-1,AU,t-1)+α1[RU,t-1+γ1max(QU(SU,t,:))-QU(SU,t-1,AU,t-1)]
其中α1为学习率,γ1为折扣因子。
当前时隙无人机的状态-动作值函数更新满足下述计算公式:
QP(SP,t,AP,t)←QP(SP,t,AP,t)+α2[RP,t+γ2max(QP(SP,t+1,:))-QP(SP,t,AP,t)]
其中α2为学习率,γ2为折扣因子。
至此,得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报,并分别计算完上一时隙无人机和当前时隙云台的状态-动作值函数之后,执行步骤3。
在任一时隙,无人机以概率ε根据Q表选取当前无人机状态下,Q值最大的动作作为本时隙无人机飞行的方向。
在任一时隙,无人机以概率1-ε选择接收信号强度最值对应的角度为本时隙无人机飞行的方向。
即t时隙,无人机的动作AU,t的计算满足下述计算公式:
至此,无人机执行动作AU,t后到达新的位置。
本实施例中,无人机及云台不断重复上述流程,以实现对干扰源的快速准确搜索。
本发明所提出的种基于强化学习的无人机与云台联合搜索干扰源的技术与算法,与现有技术与算法相比,本发明实现无人机与云台对干扰源的协同定位,解决现有的无人机配置固定方向性天线进行搜索面临的精度不足、搜索效率较低的问题,同时可以实现更远距离、更低初始信噪比的干扰源搜索。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (6)
1.一种基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,所述联合搜索方法控制装有云台的无人机处于固定的高度,并控制云台控制旋转和扫描以使方向性天线对无线电信号进行接收,再利用强化学习的算法对方向性天线接收的无线电信号进行处理,计算无人机的飞行方向,对干扰源进行搜索定位;
所述联合搜索方法包括以下步骤:
S1,将搜索任务的时间平均划分为多个长度相同的时隙,将每个时隙t划分为两个阶段:云台阶段和无人机阶段;
S2,在时隙t的云台阶段,通过云台控制方向性天线,根据ε贪心策略执行动作,选择n个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈,测得m个等间隔的水平角度上的接收信号强度值,存入接收信号强度向量中;
S3,根据接收信号强度向量计算得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报,并分别计算上一时隙无人机和当前时隙云台的状态-动作值函数,作为Q值;其中,当前时隙无人机的状态为由接收信号强度向量估算出的干扰源方向;下一时隙云台的状态为估算出的方向上的接收信号强度值的量化;上一时隙无人机的立即回报为m个水平角度上接收信号强度的最大值;当前时隙云台的立即回报为m个水平角度上接收信号强度的和;
S4,在t时隙的无人机阶段中,无人机根据ε贪心策略执行动作,决策出其中一个水平角度作为飞行方向θt,向该飞行方向飞行一个固定的步长到达新的位置;同时决策出下一时隙云台的垂直角度;
S5,在下一时隙重复上述步骤S2至步骤S4,直至无人机飞行到干扰源上方。
2.根据权利要求1所述的基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,步骤S2中,通过云台控制方向性天线,选择n个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈,测得m个等间隔的水平角度上的接收信号强度值,存入接收信号强度向量中的过程包括以下步骤:
S21,以无人机初始位置对应地面的点为原点,构建直角坐标系;
S23,选择旋转到n个等间距量化的垂直角度集合{Φ1,Φ2,...,Φn}中的某个垂直角度,并水平旋转一圈,测得m个等间隔的水平角度{Θ1,Θ2,...,Θm}上的接收信号强度值。
3.根据权利要求2所述的基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,步骤S23中,通过云台转向测得t时刻的接收信号强度向量,即RSS向量Vrt,其满足下述计算公式:
Vrt=Mrt(kt,:)
其中,Pij=Pr(θt-Θj,φt-Φi);i=1,2,...,n;j=1,2,...,m;(θt,φt)为t时刻干扰源相对于无人机的角度;
式中,PT为干扰源发射功率,N为噪声的幅度,其为服从均值为0方差为σ2的高斯分布的随机变量;L为自由空间路径损耗;Gr(θt-Θj,φt-Φi)为接收天线增益值:
式中,F(θt-Θj,φt-Φi)为天线方向性函数值,η为天线效率。
4.根据权利要求1所述的基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,步骤S3中,计算得到当前时隙无人机的状态的过程包括以下步骤:
根据已知的天线方向图函数计算m个水平角度{Θ1,Θ2,...,Θm}分别对应的基准向量;将与接收信号强度向量的差的2范数值最小的基准向量对应的方向作为估算出的干扰源方向。
5.根据权利要求1所述的基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,步骤S4中,无人机根据ε贪心策略执行动作,决策出其中一个水平角度作为飞行方向θt,向该飞行方向飞行一个固定的步长到达新的位置,同时决策出下一时隙云台的垂直角度的过程包括以下步骤:
S41,将无人机的飞行方向的决策建模为一个马尔可夫决策过程,即无人机MDP:
t时隙无人机的状态SU,t满足下述计算公式:
其中Vij=[f(Θ1,0),f(Θ2,0),…,f(Θm,0)]j,j=1,2,…,m为m个基准向量,[·]j运算表示对向量进行j位的圆周移位;t时隙无人机的动作AU,t定义为选择一个水平的角度θt∈{Θ1,Θ2,...,Θm},并飞行一个固定的步长;回报函数为无人机MDP的目标函数满足下述计算公式:其中策略πU为无人机状态空间到动作空间的映射,γ1为折扣因子;
S42,将云台垂直方向旋转的决策建模为一个马尔可夫决策过程,即云台MDP:
t时隙云台的动作AP,t定义为选择一个垂直的角度Φkt∈{Φ1,Φ2,...,Φn}并测得RSS向量Vrt,t时隙云台的状态SP,t定义满足下述计算公式:
其中,表示t-1时刻的RSS向量Vrt-1中以为索引的RSS值;[·]运算表示取最接近的整数;t时隙云台的动作AP,t定义为选择一个垂直的角度Φkt∈{Φ1,Φ2,...,Φn}并测得RSS向量Vrt;云台的回报函数满足下述计算公式:云台MDP的目标函数满足下述计算公式:其中策略πP为云台的状态空间到动作空间的映射,γ2为折扣因子;
S43,修正无人机MDP,使云台MDP和无人机MDP构成一组互相耦合的马尔可夫决策过程:
将t时隙无人机的状态SU,t的计算公式改写为满足下述计算公式:
无人机MDP回报函数改写为RU,t=maxVrt+1(:)。
6.根据权利要求1所述的基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,步骤S3中,无人机根据ε贪心策略执行动作的过程包括以下步骤:
在任一时隙,无人机以概率ε根据Q表选取当前无人机状态下,Q值最大的动作作为本时隙无人机飞行的方向;在任一时隙,无人机以概率1-ε选择接收信号强度最值对应的角度为本时隙无人机飞行的方向。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111474028.5A CN114281101B (zh) | 2021-12-03 | 2021-12-03 | 一种基于强化学习的无人机与云台干扰源联合搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111474028.5A CN114281101B (zh) | 2021-12-03 | 2021-12-03 | 一种基于强化学习的无人机与云台干扰源联合搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114281101A true CN114281101A (zh) | 2022-04-05 |
CN114281101B CN114281101B (zh) | 2023-11-03 |
Family
ID=80870902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111474028.5A Active CN114281101B (zh) | 2021-12-03 | 2021-12-03 | 一种基于强化学习的无人机与云台干扰源联合搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114281101B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115480271A (zh) * | 2022-09-13 | 2022-12-16 | 北京邮电大学 | Gps干扰源定位方法、装置、电子设备和可读存储介质 |
CN117130383A (zh) * | 2023-09-14 | 2023-11-28 | 之江实验室 | 无人机视觉跟踪方法、系统、无人机及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106301623A (zh) * | 2016-09-09 | 2017-01-04 | 成都定为电子技术有限公司 | 一种频谱监测无人机的干扰源探测识别方法及其装置 |
CN108897007A (zh) * | 2018-04-02 | 2018-11-27 | 上海扩博智能技术有限公司 | 基于无人机的干扰源定位系统及方法 |
CN110596734A (zh) * | 2019-09-17 | 2019-12-20 | 南京航空航天大学 | 一种基于多模态q学习的无人机定位干扰源系统及方法 |
CN113671994A (zh) * | 2021-09-01 | 2021-11-19 | 重庆大学 | 基于强化学习的多无人机与多无人船巡检控制系统 |
-
2021
- 2021-12-03 CN CN202111474028.5A patent/CN114281101B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106301623A (zh) * | 2016-09-09 | 2017-01-04 | 成都定为电子技术有限公司 | 一种频谱监测无人机的干扰源探测识别方法及其装置 |
CN108897007A (zh) * | 2018-04-02 | 2018-11-27 | 上海扩博智能技术有限公司 | 基于无人机的干扰源定位系统及方法 |
CN110596734A (zh) * | 2019-09-17 | 2019-12-20 | 南京航空航天大学 | 一种基于多模态q学习的无人机定位干扰源系统及方法 |
CN113671994A (zh) * | 2021-09-01 | 2021-11-19 | 重庆大学 | 基于强化学习的多无人机与多无人船巡检控制系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115480271A (zh) * | 2022-09-13 | 2022-12-16 | 北京邮电大学 | Gps干扰源定位方法、装置、电子设备和可读存储介质 |
CN115480271B (zh) * | 2022-09-13 | 2024-10-01 | 北京邮电大学 | Gps干扰源定位方法、装置、电子设备和可读存储介质 |
CN117130383A (zh) * | 2023-09-14 | 2023-11-28 | 之江实验室 | 无人机视觉跟踪方法、系统、无人机及可读存储介质 |
CN117130383B (zh) * | 2023-09-14 | 2024-03-29 | 之江实验室 | 无人机视觉跟踪方法、系统、无人机及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114281101B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114281101A (zh) | 一种基于强化学习的无人机与云台干扰源联合搜索方法 | |
US10205502B2 (en) | Aircraft-antenna controlling device, aircraft, aircraft-antenna selecting program, and aircraft-antenna controlling method | |
CN105319449A (zh) | 基于无人机的天线近场测量方法 | |
US6771608B2 (en) | Link tracking with a phased array antenna in a TDMA network | |
Niculescu et al. | Energy-efficient, precise uwb-based 3-d localization of sensor nodes with a nano-uav | |
CN114581480B (zh) | 多无人机协同目标状态估计控制方法及其应用 | |
CN109405830A (zh) | 基于线路坐标序列的无人机自动巡检方法 | |
CN106772466B (zh) | 一种基于形状特征搜索的近地卫星目标自动捕获算法 | |
CN112881979A (zh) | 一种基于ekf滤波的初始状态自适应融合定位方法 | |
CN109738864B (zh) | 一种基于多无人机的定位方法及系统 | |
CN111273312A (zh) | 一种智能车辆定位与回环检测方法 | |
Zhou et al. | RSSI-based mobile robot navigation in grid-pattern wireless sensor network | |
TWI718450B (zh) | 使用飛行載具之無線電訊號源的無線電波分布之量測與對應之無線電特徵之估算之方法及系統 | |
CN106546976B (zh) | 一种基于长周期非均匀采样目标跟踪处理方法及装置 | |
CN112013832B (zh) | Victs天线自适应对星跟踪方法 | |
WO2019071507A1 (zh) | 天线选择方法和电子设备 | |
CN110849355A (zh) | 一种地磁多参量多目标快速收敛的仿生导航方法 | |
CN115421517A (zh) | 一种基于路径规划的无人机控制方法及系统 | |
CN111431644A (zh) | 面向频谱认知的无人机路径自主规划装置及方法 | |
CN117249829A (zh) | 一种测向交叉定位体制下的无人机平台的航迹规划方法 | |
CN109884582B (zh) | 利用一维测向快速确定目标三维坐标的方法 | |
CN113721188B (zh) | 拒止环境下的多无人机自身定位与目标定位方法 | |
Jiang et al. | Trajectory Planning for UAV-based Data Collection to Enhance Permittivity Calibration in Ray-tracing | |
CN112346485A (zh) | 一种光电跟踪控制方法、系统、电子设备及存储介质 | |
JP6192915B2 (ja) | ゲイン設定方法、ゲイン設定プログラム、及びゲイン設定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |