CN108387866B

CN108387866B - 一种基于强化学习的无人机查找非法广播电台方法

Info

Publication number: CN108387866B
Application number: CN201810039178.5A
Authority: CN
Inventors: 吴启晖; 吴盛君; 史清江; 陈佳馨; 袁志钢; 张小飞
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2021-08-31
Anticipated expiration: 2038-01-16
Also published as: CN108387866A

Abstract

本发明提供了一种基于强化学习的无人机查找非法广播电台方法，所述基于强化学习的无人机查找非法广播电台方法将Q‑Learning算法与方向性天线相结合，并包括如下步骤：一、控制配置有方向性天线的无人机处于设定高度，且所述无人机通过所述方向性天线接收周围的无线电信号；二、利用Q‑Learning算法对所述方向性天线所获取的每个方向上的接收信号强度值进行处理，并基于每个方向上的接收信号强度平均值确定无人机的移动方向，进而实现对非法广播电台的定位操作。本发明的有益效果是：所示基于强化学习的无人机查找非法广播电台方法能够快速规划较短路径，在短时间内实现对非法广播电台较为准确的定位，为地面监测设备(监测车、手持检测仪等)提供导向服务。

Description

一种基于强化学习的无人机查找非法广播电台方法

技术领域

本发明属于无线电监测技术领域，具体地涉及一种基于强化学习的无人机查找非法广播电台方法。

背景技术

近年来，非法广播电台屡禁不止，不仅非法占用了非授权频段，而且传播不良信息，给人民的人身财产安全和国家的长治久安带来严重威胁。目前发现的非法广播电台频率多在87MHz～108MHz频段，属于超短波频段。超短波信号主要依靠空间直射波传播，反射能力强，绕射能力差，容易被遮挡，产生反射和折射。现有的非法广播电台查找方法受地面条件的限制，无法快速地规划路径，在短时间内对非法广播电台实现较为准确的定位。

近年来，无人机因为其在通信及导航上的应用而受到了广泛的关注。以无人机为载体，采用Q-Learning算法实现导航，虽然操作简单，但随着噪声强度的增大，其规划的路径远远偏离最优路径，容易造成资源的浪费。因此，该方法还需要进一步改进。

发明内容

本发明的目的在于针对现有技术的缺陷或问题，提供一种基于强化学习的无人机查找非法广播电台方法。

本发明的技术方案如下：一种基于强化学习的无人机查找非法广播电台方法将Q-Learning算法与方向性天线相结合，并包括如下步骤：一、控制配置有方向性天线的无人机处于设定高度，且所述无人机通过所述方向性天线接收周围的无线电信号；二、利用Q-Learning算法对所述方向性天线所获取的每个方向上的接收信号强度值进行处理，并基于每个方向上的接收信号强度平均值确定无人机的移动方向，进而实现对非法广播电台的定位操作。

优选地，在步骤二中具体包括如下步骤：2.1、初始化Q-Learning算法的值函数Q(s，a)，设置学习因子α∈[0，1]，折扣因子γ∈[0，1]，其中，s为与所有方向上的接收信号强度平均值的最大值对应的状态值，a为对应角域上均匀分布的若干个方向的动作集合，学习因子α用来控制学习速率，折扣因子γ决定未来回报所占比重；2.2、在无人机的当前动作下，利用方向性天线获取每个方向上的接收信号强度值，并基于每一所述接收信号强度平均值得到对应方向上的回报及其所处状态；2.3、所述Q-Learning算法主要根据所述值函数Q和当前所处状态选择所述无人机的下一个动作，并判断无人机的当前位置是否满足算法的终止条件，如果是，则返回非法广播电台的位置估计，并结束非法广播电台定位过程；如果否，则返回步骤2.2。

优选地，在步骤2.2中包括如下步骤：获取每个方向上的多个接收信号强度值，并对多个所述接收信号强度值进行平均得到每一方向上的接收信号强度平均值；根据每一所述接收信号强度平均值得到对应方向上当前的状态值s∈{1，2，…，10}和即时回报值r(s，a)，其中，r(s，a)为最新两个接收信号强度平均值之间的差值。

优选地，在步骤2.3中包括如下步骤：观察当前状态值s，采用∈-greedy策略来选择无人机的动作a，这个策略通常会根据Q值的最大值来选择执行的动作即找到使Q值最大的动作a*：

其中，a∈{1，2，…，36}为对应角域上均匀分布的36个方向的动作集合，将当前状态值s对应的Q值记为：Q(s，：)；无人机执行动作a，并获得下一个状态值s′，且获得下一个状态值s′对应的Q值；Q(s′，：)；利用更新规则式更新Q值：Q(s，：)←Q(s，：)+α[r(s，：)+γQ(s′，：)-Q(s，：)] (2)；将下个状态值s′更新为无人机的当前状态值s，并判断无人机的当前位置是否满足算法的终止条件，如果是，则返回非法广播电台的位置估计，并结束非法广播电台的定位过程；如果否，则返回步骤2.2。

本发明提供的技术方案具有如下有益效果：

所述基于强化学习的无人机查找非法广播电台方法中，立足于非法广播电台的恒定发射功率未知的情况下，将Q-Learning算法与方向性天线相结合，改进后的Q-Learning算法使得选择使无人机移向目标的动作的可能性显著增加；

而且，由于方向性天线的加入，不同方向上的RSS值各不相同，最大RSS值对应的方向在一定程度上更靠近目标；

此外，所述基于强化学习的无人机查找非法广播电台方法能够快速规划较短路径，在短时间内实现对非法广播电台较为准确的定位，为地面监测设备(监测车、手持检测仪等)提供导向服务。

附图说明

图1是无人机与定位目标的三维位置示意图；

图2是无人机的36个动作，对应角域上均匀分布的36个方向；

图3,4,5是分别对应天线A,B,C方向特性的方向图；

图6是当噪声分量的标准差σ为1时采用一般Q-Learning算法无人机所规划的路径图；

图7是当噪声分量的标准差σ为1时采用与方向性天线结合的Q-Learning算法无人机所规划的路径图；

图8是随着噪声分量标准差增加，两种算法的定位精度的对比图；

图9是随着噪声分量标准差增加，两种算法下无人机所规划的路径长度的对比示意图；

图10是随着噪声分量标准差增加，与方向性天线结合的Q-Learning算法选取不同动作集时定位精度的对比图；

图11是随着噪声分量标准差增加，与方向性天线结合的Q-Learning算法选取不同动作集时无人机所规划的路径长度的对比示意图；

图12是随着噪声分量标准差增加，与方向性天线结合的Q-Learning算法配备三种不同方向特性的天线时定位精度的对比图；

图13是随着噪声分量标准差增加，与方向性天线结合的Q-Learning算法配备三种不同方向特性的天线时无人机所规划的路径长度的对比示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非上下文另有特定清楚的描述，本发明中的元件和组件，数量既可以单个的形式存在，也可以多个的形式存在，本发明并不对此进行限定。本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。可以理解，本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。

一种基于强化学习的无人机查找非法广播电台方法，包括以下步骤：

一、控制配置有方向性天线的无人机处于设定高度，且所述无人机通过所述方向性天线接收周围的无线电信号。

具体地，如图1所示，在无人机与定位目标的三维位置示意图中，(x，y，z)为非法广播电台的坐标，(x_i，y_i，z_i)为无人机的坐标，并随着无人机的移动而发生改变。无人机与非法广播电台之间的距离为d_i。

传播模型采用对数路径损耗模型:

P_ri[dB]＝P₀[dB]-10βlog10(d_i/d0)+n_i (4)

其中，P_ri[dB]为接收信号强度(RSS,Received Signal Strength)，单位为dB，d₀为近地参考距离，P₀为距离d₀处的接收信号强度，单位也为dB,β为路径损耗系数，反映传播环境对无线电信号衰减的影响，n_i为噪声对接收信号强度的影响，是一个均值为0，方差为σ²的正态变量。RSS测量值即为P_ri。

二、利用Q-Learning算法对所述方向性天线所获取的每个方向上的接收信号强度值进行处理，并基于每个方向上的接收信号强度平均值确定无人机的移动方向，进而实现对非法广播电台的定位操作。

由于非法广播电台的恒定发射功率是未知的，而Q-Learning是一种改进后的强化学习技术，可以在没有RSS观测模型或环境的先验信息的情况下进行操作，因此用Q-Learning算法来解决非法广播电台的定位问题是比较适宜的。

Q-Learning被Watkins(1989)归为增量动态规划，它以步进式来决定最优策略。它在所有状态尝试所有动作，迭代建立每个状态动作对的值函数，通过试错法学习，依据长期折扣回报判断，从而知道最优动作。

原本Q-Learning策略的优劣取决于长期执行这一策略的累积奖赏。但是，Q-Learning算法与方向性天线结合后，在同一位置对应多个方向上的回报，回报值越大，就说明在一定程度上这个方向是个好选择，能够更快找到目标。

也就是说，与方向性天线结合后，Q-Learning策略的优劣取决于各个方向上的长期累积奖赏，学习的目的是为了找到能使长期累积奖赏最大化的策略，这样，最优的策略就由多个较优的动作组成，使路线尽可能缩短。与方向性天线相结合的Q-Learning算法每步使用的更新规则为：

Q(s，：)←Q(s，：)+α[r(s，：)+γQ(s＇，：)-Q(s，：)] (2)

r(s，a)＝Pr(n+1)-Pr(n) （5）

其中，Pr(n+1)和Pr(n)分别是n+1和n时段RSS的平均值。

假设无人机飞行在固定高度，因此只考虑无人机的二维运动。

如图2所示，角域上均匀分布的36个方向对应无人机的36个动作，即a∈{1，2，…，36}。如表1所示，无人机所测得的RSS平均值对应10个状态值，即s∈{1，2，…，10}。

表1与信源RSS对应的无人机的状态

State	RSS[dB]
		s＝1	P<sub>r</sub>＞-20
s＝2	-30≤P<sub>r</sub>≤-20
		s＝3	-40≤P<sub>r</sub>≤-30
s＝4	-50≤P<sub>r</sub>≤-40
		s＝5	-60≤P<sub>r</sub>≤-50
s＝6	-70≤P<sub>r</sub>≤-60
		s＝7	-80≤P<sub>r</sub>≤-70
s＝8	-90≤P<sub>r</sub>≤-80
		s＝9	-100≤P<sub>r</sub>≤-90
s＝10	P<sub>r</sub>＜-100

因此，每个状态动作对所对应的Q值被存储在一个10×36的矩阵中。在算法的开始这个矩阵会被初始化为零矩阵，然后随着新动作的执行，更新值会陆续填充进来。

图3为某方向性天线的方向图。由于添加了方向性天线，在不同方向测得的RSS值是不相等的。换句话说，与其它方向相比，测得最大RSS值的方向在一定程度上更为接近目标即非法广播电台，而不同方向上的回报值被设为最新两个RSS平均值的差值如式5所示，因此与方向性天线结合的Q-Learning算法能够增加选择使无人机移向目标的动作的可能性。

另外，由于受到噪声的影响，无人机可能偶尔会选择错误的动作。除此之外，在强化学习中保持探索与利用的平衡是非常重要的。一方面，单纯的利用容易使系统快速到达局部最优策略。另一方面，过度的探索会降低Q-Learning算法的性能，即使它可以加快学习过程，避免局部最优策略。因此，本发明中，采用∈-greedy动作选择策略，引入概率∈∈[0，1]生成随机行为促进进一步探索来保持这种平衡。对于利用，会根据Q值的最大值来选择执行的动作即找到使Q值最大的动作a*：

而对于探索，则以一种小概率来选择执行的动作从而达到探索未知动作产生效果的目的。

具体地，在步骤二中具体包括如下步骤：

2.1、初始化Q-Learning算法的值函数Q(s，a)，设置学习因子α∈[0，1]，折扣因子γ∈[0，1]，其中，s为与所有方向上的接收信号强度平均值的最大值对应的状态值，a为对应角域上均匀分布的若干个方向的动作集合，学习因子用来α控制学习速率，折扣因子γ决定未来回报所占比重；

2.2、在无人机的当前动作下，利用方向性天线获取每个方向上的接收信号强度值，并基于每一所述接收信号强度平均值得到对应方向上的回报及其所处状态；

2.3、所述Q-Learning算法主要根据值函数Q和当前所处状态选择所述无人机的下一个动作，并判断无人机的当前位置是否满足算法的终止条件，如果是，则返回非法广播电台的位置估计，并结束非法广播电台定位过程；如果否，则返回步骤2.2。

需要说明的是，在步骤2.2中包括如下步骤：

获取每个方向上的多个接收信号强度值，并对多个所述接收信号强度值进行平均得到每一方向上的接收信号强度平均值；

根据每一所述接收信号强度平均值得到对应方向上当前的状态值s∈{1，2，…，10}和即时回报值r(s，a)，其中，r(s，a)为最新两个接收信号强度平均值之间的差值。

在步骤2.3中包括如下步骤：

观察当前状态值s，采用∈-greedy策略来选择无人机的动作a，这个策略通常会根据Q值的最大值来选择执行的动作即找到使Q值最大的动作a^*：

只在设定的小概率∈下会随机选择动作；其中，a∈{1，2，…，36}为对应角域上均匀分布的36个方向的动作集合，将当前状态值s对应的Q值记为：Q(s，：)；

无人机执行动作a，并获得下一个状态值s′，且获得下一个状态值s′对应的Q值记为：Q(s′，：)；

利用更新规则式更新Q值：

Q(s，：)←Q(s，：)+α[r(s，：)+γQ(s′，：)-Q(s，：)] (2)，

将下个状态值s′更新为无人机的当前状态值s，并判断无人机的当前位置是否满足算法的终止条件，如果是，则返回非法广播电台的位置估计，并结束非法广播电台的定位过程；如果否，则返回步骤2.2。

以下结合具体的实例对所示基于强化学习的无人机查找非法广播电台方法作进一步地描述。使用的实验参数如下：

非法广播电台的三维坐标在图6，7，8，9，10，11中为(200,200,50)，在图12，13中为(20000,20000,50)，无人机的初始位置为(0,0,250)，学习因子α取1，折扣因子γ取0.1，∈取0.1。

当非法广播电台的三维坐标为(200,200,50)时，步长在状态值为1时取10米，其它情况取30米；当非法广播电台的三维坐标为(20000,20000,50)时，步长在状态值为1时取10米，其它情况取100米。并且在图6，7，8，9，10，11中天线的方向特性如图5所示。

图6是当噪声分量的标准差σ为1时采用一般Q-Learning算法无人机所规划的路径，可以看出虽然最终查找到了非法广播电台，但是其规划的路径是比较长的，结果并不理想。

图7是当噪声分量的标准差σ为1时采用与方向性天线结合的Q-Learning算法无人机所规划的路径，可以看出其所规划的路径比图6中的要短很多，结果还是比较令人期待的。

图8是一般Q-Learning算法和与方向性天线结合的Q-Learning算法在查找非法广播电台时定位精度的对比，其中σ为噪声分量的标准差，可以看出随着σ的增大，两种算法的定位误差都比较平稳，在一个较小的范围内波动，与方向性天线结合的Q-Learning算法的定位误差明显小于一般Q-Learning算法。

图9是一般Q-Learning算法和与方向性天线结合的Q-Learning算法在查找非法广播电台时无人机所飞过的路径长度随噪声分量标准差变化的对比。可以看出，随着σ的增大，两种算法下无人机所飞过的路径长度也随之增加，但采用一般Q-Learning算法所规划的路径长度比采用与方向性天线结合的Q-Learning算法所规划的要高出许多，同时采用与方向性天线结合的Q-Learning算法规划的路径长度和最短距离非常接近。其中，最短距离为无人机初始位置与非法广播电台所在位置之间的直线距离。

图10是与方向性天线结合的Q-Learning算法选取不同动作集时定位精度随噪声分量标准差变化的对比，可以看出随着σ的增大，不同动作集下定位精度波动不大，并且都在可接受范围之内。

图11是与方向性天线结合的Q-Learning算法选取不同动作集时无人机所飞过的路径长度随噪声分量标准差变化的对比，可以发现，动作集的数量越多，无人机所飞过的路径长度越短。

图12是与方向性天线结合的Q-Learning算法配备三种不同方向特性的天线时定位精度随着噪声分量标准差变化的对比，其中天线A的方向图如图3所示，天线B的方向图如图4所示，天线C的方向图如图5所示，可以看出随着σ的增大，定位精度都很稳定。

图13是与方向性天线结合的Q-Learning算法配备三种不同方向特性的天线时无人机所飞过的路径长度随着噪声分量标准差变化的对比。可以看出，随着σ的增大，方向特性越尖锐，无人机所飞过的路径长度越短。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于强化学习的无人机查找非法广播电台方法，其特征在于：将Q-Leaming算法与方向性天线相结合，并包括如下步骤：

一、控制配置有方向性天线的无人机处于设定高度，且所述无人机通过所述方向性天线接收周围的无线电信号；

二、利用Q-Learning算法对所述方向性天线所获取的每个方向上的接收信号强度值，并对多个所述接收信号强度值进行平均得到每一方向上的接收信号强度平均值；基于每个方向上的接收信号强度平均值得到对应方向上的回报及其所处状态；根据值函数Q和当前所处状态选择所述无人机的下一个动作；

具体地，观察当前状态值s，采用ε-greedy策略来选择无人机的动作，即以1-ε的概率随机选择动作，参数ε在0到1之间，以ε的概率根据Q值的最大值来选择执行的动作，即找到使Q值最大的动作a*，无人机执行动作a*；确定无人机的移动方向，进而实现对非法广播电台的定位操作。

2.根据权利要求1所述的一种基于强化学习的无人机查找非法广播电台方法，其特征在于，在步骤二中具体包括如下步骤：

2.1、初始化Q-Leaming算法的值函数Q(s，a)，设置学习因子α∈[0，1]，折扣因子γ∈[0，1]，其中，s为与所有方向上的接收信号强度平均值的最大值对应的状态值，a为对应角域上均匀分布的若干个方向的动作集合，学习因子α用来控制学习速率，折扣因子γ决定未来回报所占比重；

2.3、所述Q-Leaming算法主要根据所述值函数Q和当前所处状态选择所述无人机的下一个动作，并判断无人机的当前位置是否满足算法的终止条件，如果是，则返回非法广播电台的位置估计，并结束非法广播电台定位过程；如果否，则返回步骤2.2。

3.根据权利要求2所述的一种基于强化学习的无人机查找非法广播电台方法，其特征在于，在步骤2.2中包括如下步骤：

根据每一所述接收信号强度平均值得到对应方向上当前的状态值s∈{1，2，...，10}和即时回报值r(s，a)，其中，r(s，a)为最新两个接收信号强度平均值之间的差值。

4.根据权利要求2所述的一种基于强化学习的无人机查找非法广播电台方法，其特征在于，在步骤2.3中包括如下步骤：

找到使Q值最大的动作a*如下式：

其中，a∈{1，2，...，36}为对应角域上均匀分布的36个方向的动作集合，将当前状态值s对应的Q值记为Q(s，：)，其中冒号“：”代表整行；

无人机执行动作a*，并获得下一个状态值s′，且获得下一个状态值s′对应的Q值Q(s′，：)；

利用更新规则式更新Q值：

Q(s，：)←Q(s，：)+α[r(s，：)+γQ(s′，：)-Q(s，：)] (2)，

其中r(s，：)代表a∈{1，2，…，36}中36个动作对应方向上的即时回报值，即整行的即时回报值；