CN114281101A - 一种基于强化学习的无人机与云台干扰源联合搜索方法 - Google Patents

一种基于强化学习的无人机与云台干扰源联合搜索方法 Download PDF

Info

Publication number
CN114281101A
CN114281101A CN202111474028.5A CN202111474028A CN114281101A CN 114281101 A CN114281101 A CN 114281101A CN 202111474028 A CN202111474028 A CN 202111474028A CN 114281101 A CN114281101 A CN 114281101A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
time slot
received signal
signal strength
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111474028.5A
Other languages
English (en)
Other versions
CN114281101B (zh
Inventor
黄洋
王凌宇
周涛
朱秋明
吴启晖
崔皓禹
毛开
姜俊凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202111474028.5A priority Critical patent/CN114281101B/zh
Publication of CN114281101A publication Critical patent/CN114281101A/zh
Application granted granted Critical
Publication of CN114281101B publication Critical patent/CN114281101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Variable-Direction Aerials And Aerial Arrays (AREA)

Abstract

本发明公开了一种基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,所述联合搜索方法控制装有云台的无人机处于固定的高度,并控制云台控制旋转和扫描以使方向性天线对无线电信号进行接收,再利用强化学习的算法对方向性天线接收的无线电信号进行处理,计算无人机的飞行方向,对干扰源进行搜索定位。本发明解决现有的无人机配置固定方向性天线进行搜索面临的精度不足、搜索效率较低的问题,同时可以实现更远距离、更低初始信噪比的干扰源搜索,更具实用价值。

Description

一种基于强化学习的无人机与云台干扰源联合搜索方法
技术领域
本发明涉及无线电监测技术领域,具体而言涉及一种基于强化学习的无人机与云台干扰源联合搜索方法。
背景技术
。此外,随着现代战争的发展,突破敌方恶意干扰、夺得制电磁权俨然成为决定战况的最关键因素之一。因此,对干扰源搜索定位的需求日益迫切。然而传统的地面搜索面临多径效应和阴影衰落和复杂地面环境的影响。而基于无人机的空中搜索可有效减少多径效应和复杂地面环境的影响。然而针对诸如十分常见且危害极大的非法电台等短波乃至甚高频频段的干扰源,其相应较大尺寸的阵列测向天线难以安装到无人机上,而使用无人机搭载可旋转方向性天线进行搜索的方法可以解决此问题。然而现有的无人机搭载方向性天线进行干扰源搜索的方法是将方向性天线固定在无人机上,通过无人机悬停时机身旋转进行无线电信号的测量,此方法没有考虑无人机与干扰源之间垂直角度变化的影响,因此误差较大。
近年兴起的强化学习技术提供了一种通用方法来解决复杂的不确定性决策问题。Q学习算法是一种无模型的强化学习算法,被广泛地应用于无线点信号搜索定位中。然而引入云台后,面临无人机和云台两个智能体同时决策、并且互相耦合的问题,因此需要对互相耦合的智能体决策过程进行建模求解。。
发明内容
本发明针对现有技术中的不足,提供一种基于强化学习的无人机与云台干扰源联合搜索方法,通过无人机进行空中搜索大大减小多径效应、阴影衰落和复杂地面环境的影响;通过云台控制方向性天线进行扫描测量信号避免了复杂阵列天线的使用;通过互相耦合的Q学习的算法实现无人机云台协同规划,实现对干扰源的快速准确搜索。
为实现上述目的,本发明采用以下技术方案:
一种基于强化学习的无人机与云台干扰源联合搜索方法,所述联合搜索方法控制装有云台的无人机处于固定的高度,并控制云台控制旋转和扫描以使方向性天线对无线电信号进行接收,再利用强化学习的算法对方向性天线接收的无线电信号进行处理,计算无人机的飞行方向,对干扰源进行搜索定位;
所述联合搜索方法包括以下步骤:
S1,将搜索任务的时间平均划分为多个长度相同的时隙,将每个时隙t划分为两个阶段:云台阶段和无人机阶段;
S2,在时隙t的云台阶段,通过云台控制方向性天线,根据ε贪心策略执行动作,选择n 个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈,测得m个等间隔的水平角度上的接收信号强度值,存入接收信号强度向量中;
S3,在t时隙的无人机阶段中,根据接收信号强度向量计算得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报,并分别计算上一时隙无人机和当前时隙云台的状态-动作值函数,作为Q值;其中,当前时隙无人机的状态为由接收信号强度向量估算出的干扰源方向;下一时隙云台的状态为估算出的方向上的接收信号强度值的量化;上一时隙无人机的立即回报为m个水平角度上接收信号强度的最大值;当前时隙云台的立即回报为m个水平角度上接收信号强度的和;
S4,无人机根据ε贪心策略执行动作,决策出其中一个水平角度作为飞行方向θt,向该飞行方向飞行一个固定的步长到达新的位置;同时决策出下一时隙云台的垂直角度;
S5,在下一时隙重复上述步骤S2至步骤S4,直至无人机飞行到干扰源上方。
进一步地,步骤S2中,通过云台控制方向性天线,选择n个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈,测得m个等间隔的水平角度上的接收信号强度值,存入接收信号强度向量中的过程包括以下步骤:
S21,以无人机初始位置对应地面的点为原点,构建直角坐标系;
S22,设天线允许在水平方向θ∈[0,2π]、垂直方向
Figure RE-GDA0003508982690000021
构成的半球形上旋转;将水平角度等间距量化为m个角度{Θ12,...,Θm},将垂直角度等间距量化为n个角度{Φ12,...,Φn};
S23,选择旋转到n个等间距量化的垂直角度集合{Φ12,...,Φn}中的某个垂直角度,并水平旋转一圈,测得m个等间隔的水平角度{Θ12,...,Θm}上的接收信号强度值。
进一步地,步骤S23中,通过云台转向测得t时刻的接收信号强度向量,即RSS向量Vrt,其满足下述计算公式:
Vrt=Mrt(kt,:)
其中kt为t时刻云台旋转到的垂直角度
Figure RE-GDA0003508982690000022
的索引,
Figure RE-GDA0003508982690000023
Mrt为方向性天线在所有角度上可以采集到的接收信号强度值组成的接收信号强度矩阵,即RSS矩阵,其满足下述计算公式:
Figure RE-GDA0003508982690000031
其中,Pij=Prtjti);i=1,2,...,n;j=1,2,...,m;(θtt)为t时刻干扰源相对于无人机的角度;
Figure RE-GDA0003508982690000032
式中,PT为干扰源发射功率,N为噪声的幅度,其为服从均值为0方差为σ2的高斯分布的随机变量;L为自由空间路径损耗;Grtjti)为接收天线增益值:
Figure RE-GDA0003508982690000033
式中,F(θtjti)为天线方向性函数值,η为天线效率。
进一步地,步骤S3中,计算得到当前时隙无人机的状态的过程包括以下步骤:
根据已知的天线方向图函数计算m个水平角度{Θ12,...,Θm}分别对应的基准向量;将与接收信号强度向量的差的2范数值最小的基准向量对应的方向作为估算出的干扰源方向。
进一步地,步骤S4中,无人机根据ε贪心策略执行动作,决策出其中一个水平角度作为飞行方向θt,向该飞行方向飞行一个固定的步长到达新的位置,同时决策出下一时隙云台的垂直角度的过程包括以下步骤:
S41,将无人机的飞行方向的决策建模为一个马尔可夫决策过程,即无人机MDP:
设t时刻使得
Figure RE-GDA0003508982690000034
最小的
Figure RE-GDA0003508982690000035
已知,即
Figure RE-GDA0003508982690000036
t时刻的RSS向量为
Figure RE-GDA0003508982690000037
t时隙无人机的状态SU,t满足下述计算公式:
Figure RE-GDA0003508982690000038
Figure RE-GDA0003508982690000039
其中Vij=[f(Θ1,0),f(Θ2,0),…,f(Θm,0)]j,j=1,2,…,m为m个基准向量,[·]j运算表示对向量进行j位的圆周移位;t时隙无人机的动作AU,t定义为选择一个水平的角度θt∈{Θ12,...,Θm},并飞行一个固定的步长;回报函数为
Figure RE-GDA0003508982690000041
无人机MDP 的目标函数满足下述计算公式:
Figure RE-GDA0003508982690000042
其中策略πU为无人机状态空间到动作空间的映射,γ1为折扣因子;
S42,将云台垂直方向旋转的决策建模为一个马尔可夫决策过程,即云台MDP:
t时隙云台的动作AP,t定义为选择一个垂直的角度
Figure RE-GDA00035089826900000410
并测得RSS向量Vrt, t时隙云台的状态SP,t定义满足下述计算公式:
Figure RE-GDA0003508982690000043
其中,
Figure RE-GDA0003508982690000044
表示t-1时刻的RSS向量Vrt-1中以
Figure RE-GDA0003508982690000045
为索引的RSS值;[·]运算表示取最接近的整数;t时隙云台的动作AP,t定义为选择一个垂直的角度
Figure RE-GDA00035089826900000411
并测得RSS向量Vrt;云台的回报函数满足下述计算公式:
Figure RE-GDA0003508982690000046
云台MDP的目标函数满足下述计算公式:
Figure RE-GDA0003508982690000047
其中策略πP为云台的状态空间到动作空间的映射,γ2为折扣因子;
S43,修正无人机MDP,使云台MDP和无人机MDP构成一组互相耦合的马尔可夫决策过程:
将t时隙无人机的状态SU,t的计算公式改写为满足下述计算公式:
Figure RE-GDA0003508982690000048
Figure RE-GDA0003508982690000049
无人机MDP回报函数改写为RU,t=max Vrt+1(:)。
进一步地,步骤S3中,无人机根据ε贪心策略执行动作的过程包括以下步骤:
在任一时隙,无人机以概率ε根据Q表选取当前无人机状态下,Q值最大的动作作为本时隙无人机飞行的方向;在任一时隙,无人机以概率1-ε选择接收信号强度最值对应的角度为本时隙无人机飞行的方向。
本发明的有益效果是:
本发明提供了一种基于强化学习的无人机与云台干扰源联合搜索方法,包括装有云台的无人机在固定的高度上飞行,固定在云台上并由其控制扫描的方向天线进行无线电信号的接收;通过所述互相耦合的Q学习算法同时进行云台垂直旋转角度和无人机水平飞行角度的决策,从而实现无人机与云台联合搜索干扰源。通过该方法,实现无人机与云台对干扰源的协同定位,解决现有的无人机配置固定方向性天线进行搜索面临的精度不足、搜索效率较低的问题,同时可以实现更远距离、更低初始信噪比的干扰源搜索,更具实用价值。
附图说明
图1是本发明实施例的基于强化学习的无人机与云台干扰源联合搜索方法流程图。
图2是本发明实施例的以无人机初始位置为原点建立的三维直角坐标系示意图。
图3是本发明实施例的水平方向和垂直方向上等间距量化的角度示意图。
图4是本发明实施例的任务的时隙和阶段的划分示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
实施例1:
图1是本发明实施例的基于强化学习的无人机与云台干扰源联合搜索方法流程图。参见图1,该联合搜索方法控制装有云台的无人机处于固定的高度,并控制云台控制旋转和扫描以使方向性天线对无线电信号进行接收,再利用强化学习的算法对方向性天线接收的无线电信号进行处理,计算无人机的飞行方向,对干扰源进行搜索定位。
该联合搜索方法包括以下步骤:
S1,将搜索任务的时间平均划分为多个长度相同的时隙,将每个时隙t划分为两个阶段:云台阶段和无人机阶段。
S2,在时隙t的云台阶段,通过云台控制方向性天线,根据ε贪心策略执行动作,选择n 个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈,测得m个等间隔的水平角度上的接收信号强度值,存入接收信号强度向量中。
S3,在t时隙的无人机阶段中,根据接收信号强度向量计算得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报,并分别计算上一时隙无人机和当前时隙云台的状态-动作值函数,作为Q值;其中,当前时隙无人机的状态为由接收信号强度向量估算出的干扰源方向;下一时隙云台的状态为估算出的方向上的接收信号强度值的量化;上一时隙无人机的立即回报为m个水平角度上接收信号强度的最大值;当前时隙云台的立即回报为m个水平角度上接收信号强度的和。
S4,无人机根据ε贪心策略执行动作,决策出其中一个水平角度作为飞行方向θt,向该飞行方向飞行一个固定的步长到达新的位置;同时决策出下一时隙云台的垂直角度。
S5,在下一时隙重复上述步骤S2至步骤S4,直至无人机飞行到干扰源上方。
具体地,本发明将通过以下实施例来进行阐述,实施例的系统背景建模如下:建立如图 2所示的坐标系,其中无人机初始位置对应地面的点为原点。无人机搭载有固定在云台上的方向性天线云台可以将天线在水平方向θ∈[0,2π]、垂直方向
Figure RE-GDA0003508982690000051
构成的半球形上旋转。将水平角度等间距量化为m个角度{Θ12,...,Θm},将垂直角度等间距量化为n个角度{Φ12,...,Φn}。如图3所示。
瞬时接收信号强度为
Figure RE-GDA0003508982690000061
其中,PT为干扰源发射功率,N为噪声的幅度,其为服从均值为0方差为σ2的高斯分布的随机变量。L为自由空间路径损耗。Gr(θ,φ)为接收天线增益,其计算方式为:
Figure RE-GDA0003508982690000062
其中,F(θ,φ)为天线方向性函数,η为天线效率。
将搜索任务的时间平均划分为多个长度相同的时隙,每个时隙分为两个阶段。即第t个时隙可以分为云台阶段和无人机阶段,如图4所示。在t时隙的云台阶段中,云台进行扫描和信号测量。具体地,通过云台转向测得t时刻的接收信号强度矩阵,即RSS矩阵,其满足下述计算公式:
Figure RE-GDA0003508982690000063
其中Pij=Prtjti);i=1,2,...,n;j=1,2,...,m;(θtt)为t时刻干扰源相对于无人机的角度。在t时隙的无人机阶段中,无人机根据云台阶段中测量的RSS矩阵Mrt决策出飞行方向θtt∈{Θ12,...,Θm}),并向该方向飞行一个步长的距离到达新的位置,进入t+1 时隙。t时隙无人机的坐标为(xt,yt,zt),由于无人机在固定的高度z飞行,则对于无人机路径规划的问题可以只考虑X、Y两个坐标,则t+1时隙无人机新的位置的X、Y坐标满足下述计算公式:
xt+1=xt+wsinθt,yt+1=yt+wcosθt
其中w为飞行步长。经过多个时隙的重复上述过程直到无人机到达干扰源上空。
由于每个时隙测量得到RSS矩阵所需要的时间较长。这里对上述问题进行简化,云台每个时隙只测量RSS矩阵某一行的值,即t时刻云台旋转到垂直角度
Figure RE-GDA0003508982690000064
处(对应{Φ12,...,Φn} 中下标为kt的角度),水平方向上旋转到
Figure RE-GDA0003508982690000065
等角度处测量得到接收信号强度向量,即RSS向量,其满足下述计算公式:
Figure RE-GDA0003508982690000071
假设t时刻使得
Figure RE-GDA0003508982690000072
最小的
Figure RE-GDA0003508982690000073
已知,即
Figure RE-GDA0003508982690000074
此时t时刻的RSS 向量
Figure RE-GDA0003508982690000075
为了获得最短航迹,我们建立无人机的飞行方向的决策建模为一个马尔可夫决策过程,即无人机MDP。t时隙无人机的状态SU,t满足下述计算公式:
Figure RE-GDA0003508982690000076
Figure RE-GDA0003508982690000077
其中Vij=[f(Θ1,0),f(Θ2,0),…,f(Θm,0)]j,j=1,2,…,m为m个基准向量([·]j运算表示对向量进行j位的圆周移位)。t时隙无人机的动作AU,t定义为选择一个水平的角度θt∈{Θ12,...,Θm},并飞行一个固定的步长。回报函数为
Figure RE-GDA0003508982690000078
则无人机MDP 的目标函数满足下述计算公式:
Figure RE-GDA0003508982690000079
其中策略πU为无人机状态空间到动作空间的映射,γ1为折扣因子。
实际上由于t时刻
Figure RE-GDA00035089826900000710
未知,因此我们将云台垂直方向旋转的决策也建模为一个马尔可夫决策过程,即云台MDP。t时隙云台的动作AP,t定义为选择一个垂直的角度
Figure RE-GDA00035089826900000711
并测得RSS向量Vrt。则t时隙云台的状态SP,t定义满足下述计算公式:
Figure RE-GDA00035089826900000712
其中,
Figure RE-GDA00035089826900000713
表示t-1时刻的RSS向量Vrt-1中以
Figure RE-GDA00035089826900000714
为索引的RSS值;[·]运算表示取最接近的整数(即对该RSS值进行量化)。t时隙云台的动作AP,t定义为选择一个垂直的角度
Figure RE-GDA00035089826900000715
并测得RSS向量Vrt。云台的回报函数满足下述计算公式:
Figure RE-GDA00035089826900000716
则云台MDP的目标函数满足下述计算公式:
Figure RE-GDA00035089826900000717
其中策略πP为云台的状态空间到动作空间的映射,γ2为折扣因子。
则此时t时隙无人机的状态SU,t的计算公式改写为满足下述计算公式:
Figure RE-GDA0003508982690000081
Figure RE-GDA0003508982690000082
无人机MDP回报函数改写为为RU,t=max Vrt+1(:)。
因此云台MDP和无人机MDP构成了一组互相耦合的马尔可夫决策过程。
实施例2:
结合图1,本发明提供了一种基于强化学习的无人机与云台联合搜索干扰源的算法,该算法使用互相耦合的Q学习求解,包括下述步骤:
步骤1:云台控制方向性天线,根据ε贪心策略执行动作,即旋转到n个等间距量化的垂直角度集合{Φ12,...,Φn}中的某个垂直角度,并水平旋转一圈,测得m个等间隔的水平角度{Θ12,...,Θm}上的接收信号强度值,存入接收信号强度向量中。
步骤2:根据接收信号强度向量计算得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报,并分别计算上一时隙无人机和当前时隙云台的状态-动作值函数,即Q值。
步骤3:无人机根据ε贪心策略执行动作,即选择向某个水平角度飞行一个固定的步长到达新的位置。
步骤4:在下一时隙重复上述步骤1-步骤3直至无人机飞行到干扰源上方。
首先执行步骤1。
在任一时隙,云台以概率ε根据Q表选取当前云台状态下,Q值最大的动作作为本时隙动作。
在任一时隙,云台以概率1-ε选随机选取动作。
即t时隙,云台的动作AP,t的计算满足下述计算公式:
Figure RE-GDA0003508982690000083
至此,云台完成动作执行,得到该时隙的接收信号强度向量Vrt后,执行步骤2。当前时隙无人机的状态定义为由接收信号强度向量估算出的干扰源方向,包含:
根据已知的天线方向图函数计算m个水平角度{Θ12,...,Θm}分别对应的基准向量。
进一步,与接收信号强度向量的差的2范数值最小的基准向量对应的方向即为估算出的干扰源方向。
即当前时隙无人机的状态SU,t的计算满足下述计算公式:
Figure RE-GDA0003508982690000091
Figure RE-GDA0003508982690000092
其中Vij=[f(Θ1,0),f(Θ2,0),…,f(Θm,0)]j,j=1,2,…,m为m个基准向量([·]j运算表示对向量进行j位的圆周移位)。
下一时隙云台的状态定义为
Figure RE-GDA0003508982690000093
方向上的接收信号强度值的量化。具体地,下一时隙云台的状态SP,t+1的计算满足下述计算公式:
Figure RE-GDA0003508982690000094
上一时隙无人机的立即回报定义为m个水平角度上接收信号强度的最大值,当前时隙云台的立即回报定义为m个水平角度上接收信号强度的和。即上一时隙无人机的立即回报和当前时隙云台的立即回报分别满足下述计算公式:
RU,t-1=max Vrt(:)
Figure RE-GDA0003508982690000095
上一时隙无人机的状态-动作值函数更新满足下述计算公式:
QU(SU,t-1,AU,t-1)←QU(SU,t-1,AU,t-1)+α1[RU,t-11max(QU(SU,t,:))-QU(SU,t-1,AU,t-1)]
其中α1为学习率,γ1为折扣因子。
当前时隙无人机的状态-动作值函数更新满足下述计算公式:
QP(SP,t,AP,t)←QP(SP,t,AP,t)+α2[RP,t2max(QP(SP,t+1,:))-QP(SP,t,AP,t)]
其中α2为学习率,γ2为折扣因子。
至此,得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报,并分别计算完上一时隙无人机和当前时隙云台的状态-动作值函数之后,执行步骤3。
在任一时隙,无人机以概率ε根据Q表选取当前无人机状态下,Q值最大的动作作为本时隙无人机飞行的方向。
在任一时隙,无人机以概率1-ε选择接收信号强度最值对应的角度为本时隙无人机飞行的方向。
即t时隙,无人机的动作AU,t的计算满足下述计算公式:
Figure RE-GDA0003508982690000096
至此,无人机执行动作AU,t后到达新的位置。
本实施例中,无人机及云台不断重复上述流程,以实现对干扰源的快速准确搜索。
本发明所提出的种基于强化学习的无人机与云台联合搜索干扰源的技术与算法,与现有技术与算法相比,本发明实现无人机与云台对干扰源的协同定位,解决现有的无人机配置固定方向性天线进行搜索面临的精度不足、搜索效率较低的问题,同时可以实现更远距离、更低初始信噪比的干扰源搜索。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (6)

1.一种基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,所述联合搜索方法控制装有云台的无人机处于固定的高度,并控制云台控制旋转和扫描以使方向性天线对无线电信号进行接收,再利用强化学习的算法对方向性天线接收的无线电信号进行处理,计算无人机的飞行方向,对干扰源进行搜索定位;
所述联合搜索方法包括以下步骤:
S1,将搜索任务的时间平均划分为多个长度相同的时隙,将每个时隙t划分为两个阶段:云台阶段和无人机阶段;
S2,在时隙t的云台阶段,通过云台控制方向性天线,根据ε贪心策略执行动作,选择n个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈,测得m个等间隔的水平角度上的接收信号强度值,存入接收信号强度向量中;
S3,根据接收信号强度向量计算得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报,并分别计算上一时隙无人机和当前时隙云台的状态-动作值函数,作为Q值;其中,当前时隙无人机的状态为由接收信号强度向量估算出的干扰源方向;下一时隙云台的状态为估算出的方向上的接收信号强度值的量化;上一时隙无人机的立即回报为m个水平角度上接收信号强度的最大值;当前时隙云台的立即回报为m个水平角度上接收信号强度的和;
S4,在t时隙的无人机阶段中,无人机根据ε贪心策略执行动作,决策出其中一个水平角度作为飞行方向θt,向该飞行方向飞行一个固定的步长到达新的位置;同时决策出下一时隙云台的垂直角度;
S5,在下一时隙重复上述步骤S2至步骤S4,直至无人机飞行到干扰源上方。
2.根据权利要求1所述的基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,步骤S2中,通过云台控制方向性天线,选择n个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈,测得m个等间隔的水平角度上的接收信号强度值,存入接收信号强度向量中的过程包括以下步骤:
S21,以无人机初始位置对应地面的点为原点,构建直角坐标系;
S22,设天线允许在水平方向θ∈[0,2π]、垂直方向
Figure FDA0003390148720000011
构成的半球形上旋转;将水平角度等间距量化为m个角度{Θ12,...,Θm},将垂直角度等间距量化为n个角度{Φ12,...,Φn};
S23,选择旋转到n个等间距量化的垂直角度集合{Φ12,...,Φn}中的某个垂直角度,并水平旋转一圈,测得m个等间隔的水平角度{Θ12,...,Θm}上的接收信号强度值。
3.根据权利要求2所述的基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,步骤S23中,通过云台转向测得t时刻的接收信号强度向量,即RSS向量Vrt,其满足下述计算公式:
Vrt=Mrt(kt,:)
其中kt为t时刻云台旋转到的垂直角度
Figure FDA0003390148720000021
的索引,
Figure FDA0003390148720000022
Mrt为方向性天线在所有角度上可以采集到的接收信号强度值组成的接收信号强度矩阵,即RSS矩阵,其满足下述计算公式:
Figure FDA0003390148720000023
其中,Pij=Prtjti);i=1,2,...,n;j=1,2,...,m;(θtt)为t时刻干扰源相对于无人机的角度;
Figure FDA0003390148720000024
式中,PT为干扰源发射功率,N为噪声的幅度,其为服从均值为0方差为σ2的高斯分布的随机变量;L为自由空间路径损耗;Grtjti)为接收天线增益值:
Figure FDA0003390148720000025
式中,F(θtjti)为天线方向性函数值,η为天线效率。
4.根据权利要求1所述的基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,步骤S3中,计算得到当前时隙无人机的状态的过程包括以下步骤:
根据已知的天线方向图函数计算m个水平角度{Θ12,...,Θm}分别对应的基准向量;将与接收信号强度向量的差的2范数值最小的基准向量对应的方向作为估算出的干扰源方向。
5.根据权利要求1所述的基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,步骤S4中,无人机根据ε贪心策略执行动作,决策出其中一个水平角度作为飞行方向θt,向该飞行方向飞行一个固定的步长到达新的位置,同时决策出下一时隙云台的垂直角度的过程包括以下步骤:
S41,将无人机的飞行方向的决策建模为一个马尔可夫决策过程,即无人机MDP:
设t时刻使得
Figure FDA0003390148720000026
最小的
Figure FDA0003390148720000027
已知,即
Figure FDA0003390148720000028
t时刻的RSS向量为
Figure FDA0003390148720000031
t时隙无人机的状态SU,t满足下述计算公式:
Figure FDA0003390148720000032
Figure FDA0003390148720000033
其中Vij=[f(Θ1,0),f(Θ2,0),…,f(Θm,0)]j,j=1,2,…,m为m个基准向量,[·]j运算表示对向量进行j位的圆周移位;t时隙无人机的动作AU,t定义为选择一个水平的角度θt∈{Θ12,...,Θm},并飞行一个固定的步长;回报函数为
Figure FDA0003390148720000034
无人机MDP的目标函数满足下述计算公式:
Figure FDA0003390148720000035
其中策略πU为无人机状态空间到动作空间的映射,γ1为折扣因子;
S42,将云台垂直方向旋转的决策建模为一个马尔可夫决策过程,即云台MDP:
t时隙云台的动作AP,t定义为选择一个垂直的角度Φkt∈{Φ12,...,Φn}并测得RSS向量Vrt,t时隙云台的状态SP,t定义满足下述计算公式:
Figure FDA0003390148720000036
其中,
Figure FDA0003390148720000037
表示t-1时刻的RSS向量Vrt-1中以
Figure FDA0003390148720000038
为索引的RSS值;[·]运算表示取最接近的整数;t时隙云台的动作AP,t定义为选择一个垂直的角度Φkt∈{Φ12,...,Φn}并测得RSS向量Vrt;云台的回报函数满足下述计算公式:
Figure FDA0003390148720000039
云台MDP的目标函数满足下述计算公式:
Figure FDA00033901487200000310
其中策略πP为云台的状态空间到动作空间的映射,γ2为折扣因子;
S43,修正无人机MDP,使云台MDP和无人机MDP构成一组互相耦合的马尔可夫决策过程:
将t时隙无人机的状态SU,t的计算公式改写为满足下述计算公式:
Figure FDA00033901487200000311
Figure FDA00033901487200000312
无人机MDP回报函数改写为RU,t=maxVrt+1(:)。
6.根据权利要求1所述的基于强化学习的无人机与云台干扰源联合搜索方法,其特征在于,步骤S3中,无人机根据ε贪心策略执行动作的过程包括以下步骤:
在任一时隙,无人机以概率ε根据Q表选取当前无人机状态下,Q值最大的动作作为本时隙无人机飞行的方向;在任一时隙,无人机以概率1-ε选择接收信号强度最值对应的角度为本时隙无人机飞行的方向。
CN202111474028.5A 2021-12-03 2021-12-03 一种基于强化学习的无人机与云台干扰源联合搜索方法 Active CN114281101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111474028.5A CN114281101B (zh) 2021-12-03 2021-12-03 一种基于强化学习的无人机与云台干扰源联合搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111474028.5A CN114281101B (zh) 2021-12-03 2021-12-03 一种基于强化学习的无人机与云台干扰源联合搜索方法

Publications (2)

Publication Number Publication Date
CN114281101A true CN114281101A (zh) 2022-04-05
CN114281101B CN114281101B (zh) 2023-11-03

Family

ID=80870902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111474028.5A Active CN114281101B (zh) 2021-12-03 2021-12-03 一种基于强化学习的无人机与云台干扰源联合搜索方法

Country Status (1)

Country Link
CN (1) CN114281101B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115480271A (zh) * 2022-09-13 2022-12-16 北京邮电大学 Gps干扰源定位方法、装置、电子设备和可读存储介质
CN117130383A (zh) * 2023-09-14 2023-11-28 之江实验室 无人机视觉跟踪方法、系统、无人机及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106301623A (zh) * 2016-09-09 2017-01-04 成都定为电子技术有限公司 一种频谱监测无人机的干扰源探测识别方法及其装置
CN108897007A (zh) * 2018-04-02 2018-11-27 上海扩博智能技术有限公司 基于无人机的干扰源定位系统及方法
CN110596734A (zh) * 2019-09-17 2019-12-20 南京航空航天大学 一种基于多模态q学习的无人机定位干扰源系统及方法
CN113671994A (zh) * 2021-09-01 2021-11-19 重庆大学 基于强化学习的多无人机与多无人船巡检控制系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106301623A (zh) * 2016-09-09 2017-01-04 成都定为电子技术有限公司 一种频谱监测无人机的干扰源探测识别方法及其装置
CN108897007A (zh) * 2018-04-02 2018-11-27 上海扩博智能技术有限公司 基于无人机的干扰源定位系统及方法
CN110596734A (zh) * 2019-09-17 2019-12-20 南京航空航天大学 一种基于多模态q学习的无人机定位干扰源系统及方法
CN113671994A (zh) * 2021-09-01 2021-11-19 重庆大学 基于强化学习的多无人机与多无人船巡检控制系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115480271A (zh) * 2022-09-13 2022-12-16 北京邮电大学 Gps干扰源定位方法、装置、电子设备和可读存储介质
CN115480271B (zh) * 2022-09-13 2024-10-01 北京邮电大学 Gps干扰源定位方法、装置、电子设备和可读存储介质
CN117130383A (zh) * 2023-09-14 2023-11-28 之江实验室 无人机视觉跟踪方法、系统、无人机及可读存储介质
CN117130383B (zh) * 2023-09-14 2024-03-29 之江实验室 无人机视觉跟踪方法、系统、无人机及可读存储介质

Also Published As

Publication number Publication date
CN114281101B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN114281101A (zh) 一种基于强化学习的无人机与云台干扰源联合搜索方法
US10205502B2 (en) Aircraft-antenna controlling device, aircraft, aircraft-antenna selecting program, and aircraft-antenna controlling method
CN105319449A (zh) 基于无人机的天线近场测量方法
US6771608B2 (en) Link tracking with a phased array antenna in a TDMA network
Niculescu et al. Energy-efficient, precise uwb-based 3-d localization of sensor nodes with a nano-uav
CN114581480B (zh) 多无人机协同目标状态估计控制方法及其应用
CN109405830A (zh) 基于线路坐标序列的无人机自动巡检方法
CN106772466B (zh) 一种基于形状特征搜索的近地卫星目标自动捕获算法
CN112881979A (zh) 一种基于ekf滤波的初始状态自适应融合定位方法
CN109738864B (zh) 一种基于多无人机的定位方法及系统
CN111273312A (zh) 一种智能车辆定位与回环检测方法
Zhou et al. RSSI-based mobile robot navigation in grid-pattern wireless sensor network
TWI718450B (zh) 使用飛行載具之無線電訊號源的無線電波分布之量測與對應之無線電特徵之估算之方法及系統
CN106546976B (zh) 一种基于长周期非均匀采样目标跟踪处理方法及装置
CN112013832B (zh) Victs天线自适应对星跟踪方法
WO2019071507A1 (zh) 天线选择方法和电子设备
CN110849355A (zh) 一种地磁多参量多目标快速收敛的仿生导航方法
CN115421517A (zh) 一种基于路径规划的无人机控制方法及系统
CN111431644A (zh) 面向频谱认知的无人机路径自主规划装置及方法
CN117249829A (zh) 一种测向交叉定位体制下的无人机平台的航迹规划方法
CN109884582B (zh) 利用一维测向快速确定目标三维坐标的方法
CN113721188B (zh) 拒止环境下的多无人机自身定位与目标定位方法
Jiang et al. Trajectory Planning for UAV-based Data Collection to Enhance Permittivity Calibration in Ray-tracing
CN112346485A (zh) 一种光电跟踪控制方法、系统、电子设备及存储介质
JP6192915B2 (ja) ゲイン設定方法、ゲイン設定プログラム、及びゲイン設定装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant