CN108387866B - 一种基于强化学习的无人机查找非法广播电台方法 - Google Patents

一种基于强化学习的无人机查找非法广播电台方法 Download PDF

Info

Publication number
CN108387866B
CN108387866B CN201810039178.5A CN201810039178A CN108387866B CN 108387866 B CN108387866 B CN 108387866B CN 201810039178 A CN201810039178 A CN 201810039178A CN 108387866 B CN108387866 B CN 108387866B
Authority
CN
China
Prior art keywords
unmanned aerial
value
aerial vehicle
action
signal strength
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810039178.5A
Other languages
English (en)
Other versions
CN108387866A (zh
Inventor
吴启晖
吴盛君
史清江
陈佳馨
袁志钢
张小飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201810039178.5A priority Critical patent/CN108387866B/zh
Publication of CN108387866A publication Critical patent/CN108387866A/zh
Application granted granted Critical
Publication of CN108387866B publication Critical patent/CN108387866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/02Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using radio waves

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Position Fixing By Use Of Radio Waves (AREA)

Abstract

本发明提供了一种基于强化学习的无人机查找非法广播电台方法,所述基于强化学习的无人机查找非法广播电台方法将Q‑Learning算法与方向性天线相结合,并包括如下步骤:一、控制配置有方向性天线的无人机处于设定高度,且所述无人机通过所述方向性天线接收周围的无线电信号;二、利用Q‑Learning算法对所述方向性天线所获取的每个方向上的接收信号强度值进行处理,并基于每个方向上的接收信号强度平均值确定无人机的移动方向,进而实现对非法广播电台的定位操作。本发明的有益效果是:所示基于强化学习的无人机查找非法广播电台方法能够快速规划较短路径,在短时间内实现对非法广播电台较为准确的定位,为地面监测设备(监测车、手持检测仪等)提供导向服务。

Description

一种基于强化学习的无人机查找非法广播电台方法
技术领域
本发明属于无线电监测技术领域,具体地涉及一种基于强化学习的无人机查找非法广播电台方法。
背景技术
近年来,非法广播电台屡禁不止,不仅非法占用了非授权频段,而且传播不良信息,给人民的人身财产安全和国家的长治久安带来严重威胁。目前发现的非法广播电台频率多在87MHz~108MHz频段,属于超短波频段。超短波信号主要依靠空间直射波传播,反射能力强,绕射能力差,容易被遮挡,产生反射和折射。现有的非法广播电台查找方法受地面条件的限制,无法快速地规划路径,在短时间内对非法广播电台实现较为准确的定位。
近年来,无人机因为其在通信及导航上的应用而受到了广泛的关注。以无人机为载体,采用Q-Learning算法实现导航,虽然操作简单,但随着噪声强度的增大,其规划的路径远远偏离最优路径,容易造成资源的浪费。因此,该方法还需要进一步改进。
发明内容
本发明的目的在于针对现有技术的缺陷或问题,提供一种基于强化学习的无人机查找非法广播电台方法。
本发明的技术方案如下:一种基于强化学习的无人机查找非法广播电台方法将Q-Learning算法与方向性天线相结合,并包括如下步骤:一、控制配置有方向性天线的无人机处于设定高度,且所述无人机通过所述方向性天线接收周围的无线电信号;二、利用Q-Learning算法对所述方向性天线所获取的每个方向上的接收信号强度值进行处理,并基于每个方向上的接收信号强度平均值确定无人机的移动方向,进而实现对非法广播电台的定位操作。
优选地,在步骤二中具体包括如下步骤:2.1、初始化Q-Learning算法的值函数Q(s,a),设置学习因子α∈[0,1],折扣因子γ∈[0,1],其中,s为与所有方向上的接收信号强度平均值的最大值对应的状态值,a为对应角域上均匀分布的若干个方向的动作集合,学习因子α用来控制学习速率,折扣因子γ决定未来回报所占比重;2.2、在无人机的当前动作下,利用方向性天线获取每个方向上的接收信号强度值,并基于每一所述接收信号强度平均值得到对应方向上的回报及其所处状态;2.3、所述Q-Learning算法主要根据所述值函数Q和当前所处状态选择所述无人机的下一个动作,并判断无人机的当前位置是否满足算法的终止条件,如果是,则返回非法广播电台的位置估计,并结束非法广播电台定位过程;如果否,则返回步骤2.2。
优选地,在步骤2.2中包括如下步骤:获取每个方向上的多个接收信号强度值,并对多个所述接收信号强度值进行平均得到每一方向上的接收信号强度平均值;根据每一所述接收信号强度平均值得到对应方向上当前的状态值s∈{1,2,…,10}和即时回报值r(s,a),其中,r(s,a)为最新两个接收信号强度平均值之间的差值。
优选地,在步骤2.3中包括如下步骤:观察当前状态值s,采用∈-greedy策略来选择无人机的动作a,这个策略通常会根据Q值的最大值来选择执行的动作即找到使Q值最大的动作a*:
Figure BDA0001548970420000021
其中,a∈{1,2,…,36}为对应角域上均匀分布的36个方向的动作集合,将当前状态值s对应的Q值记为:Q(s,:);无人机执行动作a,并获得下一个状态值s′,且获得下一个状态值s′对应的Q值;Q(s′,:);利用更新规则式更新Q值:Q(s,:)←Q(s,:)+α[r(s,:)+γQ(s′,:)-Q(s,:)] (2);将下个状态值s′更新为无人机的当前状态值s,并判断无人机的当前位置是否满足算法的终止条件,如果是,则返回非法广播电台的位置估计,并结束非法广播电台的定位过程;如果否,则返回步骤2.2。
本发明提供的技术方案具有如下有益效果:
所述基于强化学习的无人机查找非法广播电台方法中,立足于非法广播电台的恒定发射功率未知的情况下,将Q-Learning算法与方向性天线相结合,改进后的Q-Learning算法使得选择使无人机移向目标的动作的可能性显著增加;
而且,由于方向性天线的加入,不同方向上的RSS值各不相同,最大RSS值对应的方向在一定程度上更靠近目标;
此外,所述基于强化学习的无人机查找非法广播电台方法能够快速规划较短路径,在短时间内实现对非法广播电台较为准确的定位,为地面监测设备(监测车、手持检测仪等)提供导向服务。
附图说明
图1是无人机与定位目标的三维位置示意图;
图2是无人机的36个动作,对应角域上均匀分布的36个方向;
图3,4,5是分别对应天线A,B,C方向特性的方向图;
图6是当噪声分量的标准差σ为1时采用一般Q-Learning算法无人机所规划的路径图;
图7是当噪声分量的标准差σ为1时采用与方向性天线结合的Q-Learning算法无人机所规划的路径图;
图8是随着噪声分量标准差增加,两种算法的定位精度的对比图;
图9是随着噪声分量标准差增加,两种算法下无人机所规划的路径长度的对比示意图;
图10是随着噪声分量标准差增加,与方向性天线结合的Q-Learning算法选取不同动作集时定位精度的对比图;
图11是随着噪声分量标准差增加,与方向性天线结合的Q-Learning算法选取不同动作集时无人机所规划的路径长度的对比示意图;
图12是随着噪声分量标准差增加,与方向性天线结合的Q-Learning算法配备三种不同方向特性的天线时定位精度的对比图;
图13是随着噪声分量标准差增加,与方向性天线结合的Q-Learning算法配备三种不同方向特性的天线时无人机所规划的路径长度的对比示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
除非上下文另有特定清楚的描述,本发明中的元件和组件,数量既可以单个的形式存在,也可以多个的形式存在,本发明并不对此进行限定。本发明中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。可以理解,本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。
一种基于强化学习的无人机查找非法广播电台方法,包括以下步骤:
一、控制配置有方向性天线的无人机处于设定高度,且所述无人机通过所述方向性天线接收周围的无线电信号。
具体地,如图1所示,在无人机与定位目标的三维位置示意图中,(x,y,z)为非法广播电台的坐标,(xi,yi,zi)为无人机的坐标,并随着无人机的移动而发生改变。无人机与非法广播电台之间的距离为di
Figure BDA0001548970420000041
传播模型采用对数路径损耗模型:
Pri[dB]=P0[dB]-10βlog10(di/d0)+ni (4)
其中,Pri[dB]为接收信号强度(RSS,Received Signal Strength),单位为dB,d0为近地参考距离,P0为距离d0处的接收信号强度,单位也为dB,β为路径损耗系数,反映传播环境对无线电信号衰减的影响,ni为噪声对接收信号强度的影响,是一个均值为0,方差为σ2的正态变量。RSS测量值即为Pri
二、利用Q-Learning算法对所述方向性天线所获取的每个方向上的接收信号强度值进行处理,并基于每个方向上的接收信号强度平均值确定无人机的移动方向,进而实现对非法广播电台的定位操作。
由于非法广播电台的恒定发射功率是未知的,而Q-Learning是一种改进后的强化学习技术,可以在没有RSS观测模型或环境的先验信息的情况下进行操作,因此用Q-Learning算法来解决非法广播电台的定位问题是比较适宜的。
Q-Learning被Watkins(1989)归为增量动态规划,它以步进式来决定最优策略。它在所有状态尝试所有动作,迭代建立每个状态动作对的值函数,通过试错法学习,依据长期折扣回报判断,从而知道最优动作。
原本Q-Learning策略的优劣取决于长期执行这一策略的累积奖赏。但是,Q-Learning算法与方向性天线结合后,在同一位置对应多个方向上的回报,回报值越大,就说明在一定程度上这个方向是个好选择,能够更快找到目标。
也就是说,与方向性天线结合后,Q-Learning策略的优劣取决于各个方向上的长期累积奖赏,学习的目的是为了找到能使长期累积奖赏最大化的策略,这样,最优的策略就由多个较优的动作组成,使路线尽可能缩短。与方向性天线相结合的Q-Learning算法每步使用的更新规则为:
Q(s,:)←Q(s,:)+α[r(s,:)+γQ(s',:)-Q(s,:)] (2)
r(s,a)=Pr(n+1)-Pr(n) (5)
其中,Pr(n+1)和Pr(n)分别是n+1和n时段RSS的平均值。
假设无人机飞行在固定高度,因此只考虑无人机的二维运动。
如图2所示,角域上均匀分布的36个方向对应无人机的36个动作,即a∈{1,2,…,36}。如表1所示,无人机所测得的RSS平均值对应10个状态值,即s∈{1,2,…,10}。
表1与信源RSS对应的无人机的状态
State RSS[dB]
s=1 P<sub>r</sub>>-20
s=2 -30≤P<sub>r</sub>≤-20
s=3 -40≤P<sub>r</sub>≤-30
s=4 -50≤P<sub>r</sub>≤-40
s=5 -60≤P<sub>r</sub>≤-50
s=6 -70≤P<sub>r</sub>≤-60
s=7 -80≤P<sub>r</sub>≤-70
s=8 -90≤P<sub>r</sub>≤-80
s=9 -100≤P<sub>r</sub>≤-90
s=10 P<sub>r</sub><-100
因此,每个状态动作对所对应的Q值被存储在一个10×36的矩阵中。在算法的开始这个矩阵会被初始化为零矩阵,然后随着新动作的执行,更新值会陆续填充进来。
图3为某方向性天线的方向图。由于添加了方向性天线,在不同方向测得的RSS值是不相等的。换句话说,与其它方向相比,测得最大RSS值的方向在一定程度上更为接近目标即非法广播电台,而不同方向上的回报值被设为最新两个RSS平均值的差值如式5所示,因此与方向性天线结合的Q-Learning算法能够增加选择使无人机移向目标的动作的可能性。
另外,由于受到噪声的影响,无人机可能偶尔会选择错误的动作。除此之外,在强化学习中保持探索与利用的平衡是非常重要的。一方面,单纯的利用容易使系统快速到达局部最优策略。另一方面,过度的探索会降低Q-Learning算法的性能,即使它可以加快学习过程,避免局部最优策略。因此,本发明中,采用∈-greedy动作选择策略,引入概率∈∈[0,1]生成随机行为促进进一步探索来保持这种平衡。对于利用,会根据Q值的最大值来选择执行的动作即找到使Q值最大的动作a*:
Figure BDA0001548970420000051
而对于探索,则以一种小概率来选择执行的动作从而达到探索未知动作产生效果的目的。
具体地,在步骤二中具体包括如下步骤:
2.1、初始化Q-Learning算法的值函数Q(s,a),设置学习因子α∈[0,1],折扣因子γ∈[0,1],其中,s为与所有方向上的接收信号强度平均值的最大值对应的状态值,a为对应角域上均匀分布的若干个方向的动作集合,学习因子用来α控制学习速率,折扣因子γ决定未来回报所占比重;
2.2、在无人机的当前动作下,利用方向性天线获取每个方向上的接收信号强度值,并基于每一所述接收信号强度平均值得到对应方向上的回报及其所处状态;
2.3、所述Q-Learning算法主要根据值函数Q和当前所处状态选择所述无人机的下一个动作,并判断无人机的当前位置是否满足算法的终止条件,如果是,则返回非法广播电台的位置估计,并结束非法广播电台定位过程;如果否,则返回步骤2.2。
需要说明的是,在步骤2.2中包括如下步骤:
获取每个方向上的多个接收信号强度值,并对多个所述接收信号强度值进行平均得到每一方向上的接收信号强度平均值;
根据每一所述接收信号强度平均值得到对应方向上当前的状态值s∈{1,2,…,10}和即时回报值r(s,a),其中,r(s,a)为最新两个接收信号强度平均值之间的差值。
在步骤2.3中包括如下步骤:
观察当前状态值s,采用∈-greedy策略来选择无人机的动作a,这个策略通常会根据Q值的最大值来选择执行的动作即找到使Q值最大的动作a*
Figure BDA0001548970420000061
只在设定的小概率∈下会随机选择动作;其中,a∈{1,2,…,36}为对应角域上均匀分布的36个方向的动作集合,将当前状态值s对应的Q值记为:Q(s,:);
无人机执行动作a,并获得下一个状态值s′,且获得下一个状态值s′对应的Q值记为:Q(s′,:);
利用更新规则式更新Q值:
Q(s,:)←Q(s,:)+α[r(s,:)+γQ(s′,:)-Q(s,:)] (2),
将下个状态值s′更新为无人机的当前状态值s,并判断无人机的当前位置是否满足算法的终止条件,如果是,则返回非法广播电台的位置估计,并结束非法广播电台的定位过程;如果否,则返回步骤2.2。
以下结合具体的实例对所示基于强化学习的无人机查找非法广播电台方法作进一步地描述。使用的实验参数如下:
非法广播电台的三维坐标在图6,7,8,9,10,11中为(200,200,50),在图12,13中为(20000,20000,50),无人机的初始位置为(0,0,250),学习因子α取1,折扣因子γ取0.1,∈取0.1。
当非法广播电台的三维坐标为(200,200,50)时,步长在状态值为1时取10米,其它情况取30米;当非法广播电台的三维坐标为(20000,20000,50)时,步长在状态值为1时取10米,其它情况取100米。并且在图6,7,8,9,10,11中天线的方向特性如图5所示。
图6是当噪声分量的标准差σ为1时采用一般Q-Learning算法无人机所规划的路径,可以看出虽然最终查找到了非法广播电台,但是其规划的路径是比较长的,结果并不理想。
图7是当噪声分量的标准差σ为1时采用与方向性天线结合的Q-Learning算法无人机所规划的路径,可以看出其所规划的路径比图6中的要短很多,结果还是比较令人期待的。
图8是一般Q-Learning算法和与方向性天线结合的Q-Learning算法在查找非法广播电台时定位精度的对比,其中σ为噪声分量的标准差,可以看出随着σ的增大,两种算法的定位误差都比较平稳,在一个较小的范围内波动,与方向性天线结合的Q-Learning算法的定位误差明显小于一般Q-Learning算法。
图9是一般Q-Learning算法和与方向性天线结合的Q-Learning算法在查找非法广播电台时无人机所飞过的路径长度随噪声分量标准差变化的对比。可以看出,随着σ的增大,两种算法下无人机所飞过的路径长度也随之增加,但采用一般Q-Learning算法所规划的路径长度比采用与方向性天线结合的Q-Learning算法所规划的要高出许多,同时采用与方向性天线结合的Q-Learning算法规划的路径长度和最短距离非常接近。其中,最短距离为无人机初始位置与非法广播电台所在位置之间的直线距离。
图10是与方向性天线结合的Q-Learning算法选取不同动作集时定位精度随噪声分量标准差变化的对比,可以看出随着σ的增大,不同动作集下定位精度波动不大,并且都在可接受范围之内。
图11是与方向性天线结合的Q-Learning算法选取不同动作集时无人机所飞过的路径长度随噪声分量标准差变化的对比,可以发现,动作集的数量越多,无人机所飞过的路径长度越短。
图12是与方向性天线结合的Q-Learning算法配备三种不同方向特性的天线时定位精度随着噪声分量标准差变化的对比,其中天线A的方向图如图3所示,天线B的方向图如图4所示,天线C的方向图如图5所示,可以看出随着σ的增大,定位精度都很稳定。
图13是与方向性天线结合的Q-Learning算法配备三种不同方向特性的天线时无人机所飞过的路径长度随着噪声分量标准差变化的对比。可以看出,随着σ的增大,方向特性越尖锐,无人机所飞过的路径长度越短。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (4)

1.一种基于强化学习的无人机查找非法广播电台方法,其特征在于:将Q-Leaming算法与方向性天线相结合,并包括如下步骤:
一、控制配置有方向性天线的无人机处于设定高度,且所述无人机通过所述方向性天线接收周围的无线电信号;
二、利用Q-Learning算法对所述方向性天线所获取的每个方向上的接收信号强度值,并对多个所述接收信号强度值进行平均得到每一方向上的接收信号强度平均值;基于每个方向上的接收信号强度平均值得到对应方向上的回报及其所处状态;根据值函数Q和当前所处状态选择所述无人机的下一个动作;
具体地,观察当前状态值s,采用ε-greedy策略来选择无人机的动作,即以1-ε的概率随机选择动作,参数ε在0到1之间,以ε的概率根据Q值的最大值来选择执行的动作,即找到使Q值最大的动作a*,无人机执行动作a*;确定无人机的移动方向,进而实现对非法广播电台的定位操作。
2.根据权利要求1所述的一种基于强化学习的无人机查找非法广播电台方法,其特征在于,在步骤二中具体包括如下步骤:
2.1、初始化Q-Leaming算法的值函数Q(s,a),设置学习因子α∈[0,1],折扣因子γ∈[0,1],其中,s为与所有方向上的接收信号强度平均值的最大值对应的状态值,a为对应角域上均匀分布的若干个方向的动作集合,学习因子α用来控制学习速率,折扣因子γ决定未来回报所占比重;
2.2、在无人机的当前动作下,利用方向性天线获取每个方向上的接收信号强度值,并基于每一所述接收信号强度平均值得到对应方向上的回报及其所处状态;
2.3、所述Q-Leaming算法主要根据所述值函数Q和当前所处状态选择所述无人机的下一个动作,并判断无人机的当前位置是否满足算法的终止条件,如果是,则返回非法广播电台的位置估计,并结束非法广播电台定位过程;如果否,则返回步骤2.2。
3.根据权利要求2所述的一种基于强化学习的无人机查找非法广播电台方法,其特征在于,在步骤2.2中包括如下步骤:
根据每一所述接收信号强度平均值得到对应方向上当前的状态值s∈{1,2,...,10}和即时回报值r(s,a),其中,r(s,a)为最新两个接收信号强度平均值之间的差值。
4.根据权利要求2所述的一种基于强化学习的无人机查找非法广播电台方法,其特征在于,在步骤2.3中包括如下步骤:
找到使Q值最大的动作a*如下式:
Figure FDA0003066236220000021
其中,a∈{1,2,...,36}为对应角域上均匀分布的36个方向的动作集合,将当前状态值s对应的Q值记为Q(s,:),其中冒号“:”代表整行;
无人机执行动作a*,并获得下一个状态值s′,且获得下一个状态值s′对应的Q值Q(s′,:);
利用更新规则式更新Q值:
Q(s,:)←Q(s,:)+α[r(s,:)+γQ(s′,:)-Q(s,:)] (2),
其中r(s,:)代表a∈{1,2,…,36}中36个动作对应方向上的即时回报值,即整行的即时回报值;
将下个状态值s′更新为无人机的当前状态值s,并判断无人机的当前位置是否满足算法的终止条件,如果是,则返回非法广播电台的位置估计,并结束非法广播电台的定位过程;如果否,则返回步骤2.2。
CN201810039178.5A 2018-01-16 2018-01-16 一种基于强化学习的无人机查找非法广播电台方法 Active CN108387866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810039178.5A CN108387866B (zh) 2018-01-16 2018-01-16 一种基于强化学习的无人机查找非法广播电台方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810039178.5A CN108387866B (zh) 2018-01-16 2018-01-16 一种基于强化学习的无人机查找非法广播电台方法

Publications (2)

Publication Number Publication Date
CN108387866A CN108387866A (zh) 2018-08-10
CN108387866B true CN108387866B (zh) 2021-08-31

Family

ID=63076777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810039178.5A Active CN108387866B (zh) 2018-01-16 2018-01-16 一种基于强化学习的无人机查找非法广播电台方法

Country Status (1)

Country Link
CN (1) CN108387866B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109932677B (zh) * 2019-04-08 2021-03-23 南京航空航天大学 基于无人机和云gis系统的黑广播定位方法
CN110596734B (zh) * 2019-09-17 2020-12-01 南京航空航天大学 一种基于多模态q学习的无人机定位干扰源系统及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102868972A (zh) * 2012-09-05 2013-01-09 河海大学常州校区 基于改进q学习算法的物联网错误传感器节点定位方法
CN103499974A (zh) * 2013-09-27 2014-01-08 中国人民解放军空军工程大学 一种双机协同被动雷达探测路径规划方法
CN104571113A (zh) * 2015-01-20 2015-04-29 博康智能网络科技股份有限公司 移动机器人的路径规划方法
CN104680264A (zh) * 2015-03-27 2015-06-03 青岛大学 一种基于多智能体强化学习的运输车路径优化方法
CN105539428A (zh) * 2015-11-30 2016-05-04 奇瑞汽车股份有限公司 侧方位停车的方法和装置
CN106483852A (zh) * 2016-12-30 2017-03-08 北京天恒长鹰科技股份有限公司 一种基于Q‑Learning算法和神经网络的平流层飞艇控制方法
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN107065890A (zh) * 2017-06-02 2017-08-18 北京航空航天大学 一种无人车智能避障方法及系统
CN107300388A (zh) * 2017-06-04 2017-10-27 东南大学 基于Q‑learning算法和回声状态网络的骑行旅游路线规划方法
CN107562052A (zh) * 2017-08-30 2018-01-09 唐开强 一种基于深度强化学习的六足机器人步态规划方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103327556B (zh) * 2013-07-04 2016-05-11 中国人民解放军理工大学通信工程学院 异构无线网络中优化用户QoE的动态网络选择方法
CN104994569B (zh) * 2015-06-25 2019-12-17 厦门大学 基于多用户强化学习的认知无线网络抗敌意干扰方法
CN105828287B (zh) * 2016-03-11 2019-03-29 南京航空航天大学 一种基于强化学习的无线传感器网络协同跟踪方法
WO2017196883A1 (en) * 2016-05-10 2017-11-16 Estimote Polska Sp. Z O.O. System and method for beacon fleet management
CN106908774B (zh) * 2017-01-06 2020-01-10 南京航空航天大学 基于多尺度核稀疏保持投影的一维距离像识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102868972A (zh) * 2012-09-05 2013-01-09 河海大学常州校区 基于改进q学习算法的物联网错误传感器节点定位方法
CN103499974A (zh) * 2013-09-27 2014-01-08 中国人民解放军空军工程大学 一种双机协同被动雷达探测路径规划方法
CN104571113A (zh) * 2015-01-20 2015-04-29 博康智能网络科技股份有限公司 移动机器人的路径规划方法
CN104680264A (zh) * 2015-03-27 2015-06-03 青岛大学 一种基于多智能体强化学习的运输车路径优化方法
CN105539428A (zh) * 2015-11-30 2016-05-04 奇瑞汽车股份有限公司 侧方位停车的方法和装置
CN106483852A (zh) * 2016-12-30 2017-03-08 北京天恒长鹰科技股份有限公司 一种基于Q‑Learning算法和神经网络的平流层飞艇控制方法
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN107065890A (zh) * 2017-06-02 2017-08-18 北京航空航天大学 一种无人车智能避障方法及系统
CN107300388A (zh) * 2017-06-04 2017-10-27 东南大学 基于Q‑learning算法和回声状态网络的骑行旅游路线规划方法
CN107562052A (zh) * 2017-08-30 2018-01-09 唐开强 一种基于深度强化学习的六足机器人步态规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Q-Learning Approach to Automated Unmanned Air Vehicle Demining";Silvia Ferrari etc.;《Proc.of SPIE》;20121231;1-12 *
"星地融合网络中基于Q学习的切换算法研究";熊丹妮等;《通信学报》;20150930;第36卷(第9期);1-7 *

Also Published As

Publication number Publication date
CN108387866A (zh) 2018-08-10

Similar Documents

Publication Publication Date Title
Sato et al. On the performance of neural network residual kriging in radio environment mapping
US20190068264A1 (en) Method and device for performing beam forming
CN108387866B (zh) 一种基于强化学习的无人机查找非法广播电台方法
CN105491637A (zh) 基于固定步长的移动中继最佳中继位置搜寻方法及系统
CN111294129B (zh) 信号无线电波分布测量与无线电特征估算的方法及系统
CN114024586B (zh) 用于非线性轨迹的智能波束预测方法、装置、设备及介质
CN104507160B (zh) 无线网络定位方法、接入点及定位服务器
JP2017152812A (ja) 基地局制御装置、基地局制御方法及び基地局制御システム
CN111446999A (zh) 基于多臂强盗的位置辅助波束对准方法及其系统
CN114223270B (zh) 天线信号处理模型的训练方法、装置、天线及存储介质
CN112312460B (zh) 测量上报的方法与装置
Peng et al. Angle of arrival estimation in dynamic indoor THz channels with Bayesian filter and reinforcement learning
KR102052519B1 (ko) 저전력 블루투스 기반의 실내 측위 방법 및 장치
CN115133977B (zh) 基于信息年龄最小化的无人机通信感知一体化系统位置优化方法
CN110890932B (zh) 5g毫米波信道信息确定的方法、相关装置及存储介质
CN109669165B (zh) 基于射频隐身的多基雷达发射机与波形联合选择优化方法
WO2019239818A1 (ja) 干渉源探索方法及び干渉源探索装置
Ezzati et al. Optimised sensor network for transmitter localisation and radio environment mapping
Shivaldova et al. Signal-to-noise ratio modeling for vehicle-to-infrastructure communications
Suzuki et al. Power estimation by power contour to monitor sharable frequency with mobile phone sensors
Lou et al. Efficient DRL-based HD map Dissemination in V2I Communications
EP3726739B1 (en) Memory-assisted radio frequency beam training for mimo channels
Akande et al. Implementation of Particle Swarm Optimization Technique for Enhanced Outdoor Network Coverage in Long Term Evolution Network in Port Harcourt, Nigeria
CN106027177A (zh) 一种多仰角天线隔离度测试方法
CN114785438B (zh) 战术通信环境下车对车信道模型构建方法及系统实现方案

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant