CN114281101A

CN114281101A - 一种基于强化学习的无人机与云台干扰源联合搜索方法

Info

Publication number: CN114281101A
Application number: CN202111474028.5A
Authority: CN
Inventors: 黄洋; 王凌宇; 周涛; 朱秋明; 吴启晖; 崔皓禹; 毛开; 姜俊凯
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-04-05
Anticipated expiration: 2041-12-03
Also published as: CN114281101B

Abstract

本发明公开了一种基于强化学习的无人机与云台干扰源联合搜索方法，其特征在于，所述联合搜索方法控制装有云台的无人机处于固定的高度，并控制云台控制旋转和扫描以使方向性天线对无线电信号进行接收，再利用强化学习的算法对方向性天线接收的无线电信号进行处理，计算无人机的飞行方向，对干扰源进行搜索定位。本发明解决现有的无人机配置固定方向性天线进行搜索面临的精度不足、搜索效率较低的问题，同时可以实现更远距离、更低初始信噪比的干扰源搜索，更具实用价值。

Description

一种基于强化学习的无人机与云台干扰源联合搜索方法

技术领域

本发明涉及无线电监测技术领域，具体而言涉及一种基于强化学习的无人机与云台干扰源联合搜索方法。

背景技术

。此外，随着现代战争的发展，突破敌方恶意干扰、夺得制电磁权俨然成为决定战况的最关键因素之一。因此，对干扰源搜索定位的需求日益迫切。然而传统的地面搜索面临多径效应和阴影衰落和复杂地面环境的影响。而基于无人机的空中搜索可有效减少多径效应和复杂地面环境的影响。然而针对诸如十分常见且危害极大的非法电台等短波乃至甚高频频段的干扰源，其相应较大尺寸的阵列测向天线难以安装到无人机上，而使用无人机搭载可旋转方向性天线进行搜索的方法可以解决此问题。然而现有的无人机搭载方向性天线进行干扰源搜索的方法是将方向性天线固定在无人机上，通过无人机悬停时机身旋转进行无线电信号的测量，此方法没有考虑无人机与干扰源之间垂直角度变化的影响，因此误差较大。

近年兴起的强化学习技术提供了一种通用方法来解决复杂的不确定性决策问题。Q学习算法是一种无模型的强化学习算法，被广泛地应用于无线点信号搜索定位中。然而引入云台后，面临无人机和云台两个智能体同时决策、并且互相耦合的问题，因此需要对互相耦合的智能体决策过程进行建模求解。。

发明内容

本发明针对现有技术中的不足，提供一种基于强化学习的无人机与云台干扰源联合搜索方法，通过无人机进行空中搜索大大减小多径效应、阴影衰落和复杂地面环境的影响；通过云台控制方向性天线进行扫描测量信号避免了复杂阵列天线的使用；通过互相耦合的Q学习的算法实现无人机云台协同规划，实现对干扰源的快速准确搜索。

为实现上述目的，本发明采用以下技术方案：

一种基于强化学习的无人机与云台干扰源联合搜索方法，所述联合搜索方法控制装有云台的无人机处于固定的高度，并控制云台控制旋转和扫描以使方向性天线对无线电信号进行接收，再利用强化学习的算法对方向性天线接收的无线电信号进行处理，计算无人机的飞行方向，对干扰源进行搜索定位；

所述联合搜索方法包括以下步骤：

S1，将搜索任务的时间平均划分为多个长度相同的时隙，将每个时隙t划分为两个阶段：云台阶段和无人机阶段；

S2，在时隙t的云台阶段，通过云台控制方向性天线，根据ε贪心策略执行动作，选择n 个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈，测得m个等间隔的水平角度上的接收信号强度值，存入接收信号强度向量中；

S3，在t时隙的无人机阶段中，根据接收信号强度向量计算得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报，并分别计算上一时隙无人机和当前时隙云台的状态-动作值函数，作为Q值；其中，当前时隙无人机的状态为由接收信号强度向量估算出的干扰源方向；下一时隙云台的状态为估算出的方向上的接收信号强度值的量化；上一时隙无人机的立即回报为m个水平角度上接收信号强度的最大值；当前时隙云台的立即回报为m个水平角度上接收信号强度的和；

S4，无人机根据ε贪心策略执行动作，决策出其中一个水平角度作为飞行方向θ_t，向该飞行方向飞行一个固定的步长到达新的位置；同时决策出下一时隙云台的垂直角度；

S5，在下一时隙重复上述步骤S2至步骤S4，直至无人机飞行到干扰源上方。

进一步地，步骤S2中，通过云台控制方向性天线，选择n个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈，测得m个等间隔的水平角度上的接收信号强度值，存入接收信号强度向量中的过程包括以下步骤：

S21，以无人机初始位置对应地面的点为原点，构建直角坐标系；

S22，设天线允许在水平方向θ∈[0,2π]、垂直方向

构成的半球形上旋转；将水平角度等间距量化为m个角度{Θ₁,Θ₂,...,Θ_m}，将垂直角度等间距量化为n个角度{Φ₁,Φ₂,...,Φ_n}；

S23，选择旋转到n个等间距量化的垂直角度集合{Φ₁,Φ₂,...,Φ_n}中的某个垂直角度，并水平旋转一圈，测得m个等间隔的水平角度{Θ₁,Θ₂,...,Θ_m}上的接收信号强度值。

进一步地，步骤S23中，通过云台转向测得t时刻的接收信号强度向量，即RSS向量Vr_t，其满足下述计算公式：

Vr_t＝Mr_t(k_t,:)

其中k_t为t时刻云台旋转到的垂直角度

的索引，

Mr_t为方向性天线在所有角度上可以采集到的接收信号强度值组成的接收信号强度矩阵，即RSS矩阵，其满足下述计算公式：

其中，P_ij＝P_r(θ_t-Θ_j,φ_t-Φ_i)；i＝1,2,...,n；j＝1,2,...,m；(θ_t,φ_t)为t时刻干扰源相对于无人机的角度；

式中，P_T为干扰源发射功率，N为噪声的幅度，其为服从均值为0方差为σ²的高斯分布的随机变量；L为自由空间路径损耗；G_r(θ_t-Θ_j,φ_t-Φ_i)为接收天线增益值：

式中，F(θ_t-Θ_j,φ_t-Φ_i)为天线方向性函数值，η为天线效率。

进一步地，步骤S3中，计算得到当前时隙无人机的状态的过程包括以下步骤：

根据已知的天线方向图函数计算m个水平角度{Θ₁,Θ₂,...,Θ_m}分别对应的基准向量；将与接收信号强度向量的差的2范数值最小的基准向量对应的方向作为估算出的干扰源方向。

进一步地，步骤S4中，无人机根据ε贪心策略执行动作，决策出其中一个水平角度作为飞行方向θ_t，向该飞行方向飞行一个固定的步长到达新的位置，同时决策出下一时隙云台的垂直角度的过程包括以下步骤：

S41，将无人机的飞行方向的决策建模为一个马尔可夫决策过程，即无人机MDP：

设t时刻使得

最小的

已知，即

t时刻的RSS向量为

t时隙无人机的状态S_U,t满足下述计算公式：

其中Vi_j＝[f(Θ₁,0),f(Θ₂,0),…,f(Θ_m,0)]_j，j＝1,2,…,m为m个基准向量，[·]_j运算表示对向量进行j位的圆周移位；t时隙无人机的动作A_U,t定义为选择一个水平的角度θ_t∈{Θ₁,Θ₂,...,Θ_m}，并飞行一个固定的步长；回报函数为

无人机MDP 的目标函数满足下述计算公式：

其中策略π_U为无人机状态空间到动作空间的映射，γ₁为折扣因子；

S42，将云台垂直方向旋转的决策建模为一个马尔可夫决策过程，即云台MDP：

t时隙云台的动作A_P，t定义为选择一个垂直的角度

并测得RSS向量Vr_t， t时隙云台的状态S_P,t定义满足下述计算公式：

其中，

表示t-1时刻的RSS向量Vr_t-1中以

为索引的RSS值；[·]运算表示取最接近的整数；t时隙云台的动作A_P,t定义为选择一个垂直的角度

并测得RSS向量Vr_t；云台的回报函数满足下述计算公式：

云台MDP的目标函数满足下述计算公式：

其中策略π_P为云台的状态空间到动作空间的映射，γ₂为折扣因子；

S43，修正无人机MDP，使云台MDP和无人机MDP构成一组互相耦合的马尔可夫决策过程：

将t时隙无人机的状态S_U,t的计算公式改写为满足下述计算公式：

无人机MDP回报函数改写为R_U,t＝max Vr_t+1(:)。

进一步地，步骤S3中，无人机根据ε贪心策略执行动作的过程包括以下步骤：

在任一时隙，无人机以概率ε根据Q表选取当前无人机状态下，Q值最大的动作作为本时隙无人机飞行的方向；在任一时隙，无人机以概率1-ε选择接收信号强度最值对应的角度为本时隙无人机飞行的方向。

本发明的有益效果是：

本发明提供了一种基于强化学习的无人机与云台干扰源联合搜索方法，包括装有云台的无人机在固定的高度上飞行，固定在云台上并由其控制扫描的方向天线进行无线电信号的接收；通过所述互相耦合的Q学习算法同时进行云台垂直旋转角度和无人机水平飞行角度的决策，从而实现无人机与云台联合搜索干扰源。通过该方法，实现无人机与云台对干扰源的协同定位，解决现有的无人机配置固定方向性天线进行搜索面临的精度不足、搜索效率较低的问题，同时可以实现更远距离、更低初始信噪比的干扰源搜索，更具实用价值。

附图说明

图1是本发明实施例的基于强化学习的无人机与云台干扰源联合搜索方法流程图。

图2是本发明实施例的以无人机初始位置为原点建立的三维直角坐标系示意图。

图3是本发明实施例的水平方向和垂直方向上等间距量化的角度示意图。

图4是本发明实施例的任务的时隙和阶段的划分示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

实施例1：

图1是本发明实施例的基于强化学习的无人机与云台干扰源联合搜索方法流程图。参见图1，该联合搜索方法控制装有云台的无人机处于固定的高度，并控制云台控制旋转和扫描以使方向性天线对无线电信号进行接收，再利用强化学习的算法对方向性天线接收的无线电信号进行处理，计算无人机的飞行方向，对干扰源进行搜索定位。

该联合搜索方法包括以下步骤：

S1，将搜索任务的时间平均划分为多个长度相同的时隙，将每个时隙t划分为两个阶段：云台阶段和无人机阶段。

S2，在时隙t的云台阶段，通过云台控制方向性天线，根据ε贪心策略执行动作，选择n 个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈，测得m个等间隔的水平角度上的接收信号强度值，存入接收信号强度向量中。

S3，在t时隙的无人机阶段中，根据接收信号强度向量计算得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报，并分别计算上一时隙无人机和当前时隙云台的状态-动作值函数，作为Q值；其中，当前时隙无人机的状态为由接收信号强度向量估算出的干扰源方向；下一时隙云台的状态为估算出的方向上的接收信号强度值的量化；上一时隙无人机的立即回报为m个水平角度上接收信号强度的最大值；当前时隙云台的立即回报为m个水平角度上接收信号强度的和。

S4，无人机根据ε贪心策略执行动作，决策出其中一个水平角度作为飞行方向θ_t，向该飞行方向飞行一个固定的步长到达新的位置；同时决策出下一时隙云台的垂直角度。

具体地，本发明将通过以下实施例来进行阐述，实施例的系统背景建模如下：建立如图 2所示的坐标系，其中无人机初始位置对应地面的点为原点。无人机搭载有固定在云台上的方向性天线云台可以将天线在水平方向θ∈[0,2π]、垂直方向

构成的半球形上旋转。将水平角度等间距量化为m个角度{Θ₁,Θ₂,...,Θ_m}，将垂直角度等间距量化为n个角度{Φ₁,Φ₂,...,Φ_n}。如图3所示。

瞬时接收信号强度为

其中，P_T为干扰源发射功率，N为噪声的幅度，其为服从均值为0方差为σ²的高斯分布的随机变量。L为自由空间路径损耗。G_r(θ,φ)为接收天线增益，其计算方式为：

其中，F(θ,φ)为天线方向性函数，η为天线效率。

将搜索任务的时间平均划分为多个长度相同的时隙，每个时隙分为两个阶段。即第t个时隙可以分为云台阶段和无人机阶段，如图4所示。在t时隙的云台阶段中，云台进行扫描和信号测量。具体地，通过云台转向测得t时刻的接收信号强度矩阵，即RSS矩阵，其满足下述计算公式：

其中P_ij＝P_r(θ_t-Θ_j,φ_t-Φ_i)；i＝1,2,...,n；j＝1,2,...,m；(θ_t,φ_t)为t时刻干扰源相对于无人机的角度。在t时隙的无人机阶段中，无人机根据云台阶段中测量的RSS矩阵Mr_t决策出飞行方向θ_t(θ_t∈{Θ₁,Θ₂,...,Θ_m})，并向该方向飞行一个步长的距离到达新的位置，进入t+1 时隙。t时隙无人机的坐标为(x_t,y_t,z_t)，由于无人机在固定的高度z飞行，则对于无人机路径规划的问题可以只考虑X、Y两个坐标，则t+1时隙无人机新的位置的X、Y坐标满足下述计算公式：

x_t+1＝x_t+wsinθ_t，y_t+1＝y_t+wcosθ_t。

其中w为飞行步长。经过多个时隙的重复上述过程直到无人机到达干扰源上空。

由于每个时隙测量得到RSS矩阵所需要的时间较长。这里对上述问题进行简化，云台每个时隙只测量RSS矩阵某一行的值，即t时刻云台旋转到垂直角度

处(对应{Φ₁,Φ₂,...,Φ_n} 中下标为k_t的角度)，水平方向上旋转到

等角度处测量得到接收信号强度向量，即RSS向量，其满足下述计算公式：

假设t时刻使得

最小的

已知，即

此时t时刻的RSS 向量

为了获得最短航迹，我们建立无人机的飞行方向的决策建模为一个马尔可夫决策过程，即无人机MDP。t时隙无人机的状态S_U,t满足下述计算公式：

其中Vi_j＝[f(Θ₁,0),f(Θ₂,0),…,f(Θ_m,0)]_j，j＝1,2,…,m为m个基准向量([·]_j运算表示对向量进行j位的圆周移位)。t时隙无人机的动作A_U,t定义为选择一个水平的角度θ_t∈{Θ₁,Θ₂,...,Θ_m}，并飞行一个固定的步长。回报函数为

则无人机MDP 的目标函数满足下述计算公式：

其中策略π_U为无人机状态空间到动作空间的映射，γ₁为折扣因子。

实际上由于t时刻

未知，因此我们将云台垂直方向旋转的决策也建模为一个马尔可夫决策过程，即云台MDP。t时隙云台的动作A_P,t定义为选择一个垂直的角度

并测得RSS向量Vr_t。则t时隙云台的状态S_P,t定义满足下述计算公式：

其中，

表示t-1时刻的RSS向量Vr_t-1中以

为索引的RSS值；[·]运算表示取最接近的整数(即对该RSS值进行量化)。t时隙云台的动作A_P,t定义为选择一个垂直的角度

并测得RSS向量Vr_t。云台的回报函数满足下述计算公式：

则云台MDP的目标函数满足下述计算公式：

其中策略π_P为云台的状态空间到动作空间的映射，γ₂为折扣因子。

则此时t时隙无人机的状态S_U,t的计算公式改写为满足下述计算公式：

无人机MDP回报函数改写为为R_U,t＝max Vr_t+1(:)。

因此云台MDP和无人机MDP构成了一组互相耦合的马尔可夫决策过程。

实施例2：

结合图1，本发明提供了一种基于强化学习的无人机与云台联合搜索干扰源的算法，该算法使用互相耦合的Q学习求解，包括下述步骤：

步骤1：云台控制方向性天线，根据ε贪心策略执行动作，即旋转到n个等间距量化的垂直角度集合{Φ₁,Φ₂,...,Φ_n}中的某个垂直角度，并水平旋转一圈，测得m个等间隔的水平角度{Θ₁,Θ₂,...,Θ_m}上的接收信号强度值，存入接收信号强度向量中。

步骤2：根据接收信号强度向量计算得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报，并分别计算上一时隙无人机和当前时隙云台的状态-动作值函数，即Q值。

步骤3：无人机根据ε贪心策略执行动作，即选择向某个水平角度飞行一个固定的步长到达新的位置。

步骤4：在下一时隙重复上述步骤1-步骤3直至无人机飞行到干扰源上方。

首先执行步骤1。

在任一时隙，云台以概率ε根据Q表选取当前云台状态下，Q值最大的动作作为本时隙动作。

在任一时隙，云台以概率1-ε选随机选取动作。

即t时隙，云台的动作A_P,t的计算满足下述计算公式：

至此，云台完成动作执行，得到该时隙的接收信号强度向量Vr_t后，执行步骤2。当前时隙无人机的状态定义为由接收信号强度向量估算出的干扰源方向，包含：

根据已知的天线方向图函数计算m个水平角度{Θ₁,Θ₂,...,Θ_m}分别对应的基准向量。

进一步，与接收信号强度向量的差的2范数值最小的基准向量对应的方向即为估算出的干扰源方向。

即当前时隙无人机的状态S_U,t的计算满足下述计算公式：

其中Vi_j＝[f(Θ₁,0),f(Θ₂,0),…,f(Θ_m,0)]_j，j＝1,2,…,m为m个基准向量([·]_j运算表示对向量进行j位的圆周移位)。

下一时隙云台的状态定义为

方向上的接收信号强度值的量化。具体地，下一时隙云台的状态S_P,t+1的计算满足下述计算公式：

上一时隙无人机的立即回报定义为m个水平角度上接收信号强度的最大值，当前时隙云台的立即回报定义为m个水平角度上接收信号强度的和。即上一时隙无人机的立即回报和当前时隙云台的立即回报分别满足下述计算公式：

R_U,t-1＝max Vr_t(:)

上一时隙无人机的状态-动作值函数更新满足下述计算公式：

Q_U(S_U,t-1,A_U,t-1)←Q_U(S_U,t-1,A_U,t-1)+α₁[R_U,t-1+γ₁max(Q_U(S_U,t,:))-Q_U(S_U,t-1,A_U,t-1)]

其中α₁为学习率，γ₁为折扣因子。

当前时隙无人机的状态-动作值函数更新满足下述计算公式：

Q_P(S_P,t,A_P,t)←Q_P(S_P,t,A_P,t)+α₂[R_P,t+γ₂max(Q_P(S_P,t+1,:))-Q_P(S_P,t,A_P,t)]

其中α₂为学习率，γ₂为折扣因子。

至此，得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报，并分别计算完上一时隙无人机和当前时隙云台的状态-动作值函数之后，执行步骤3。

在任一时隙，无人机以概率ε根据Q表选取当前无人机状态下，Q值最大的动作作为本时隙无人机飞行的方向。

在任一时隙，无人机以概率1-ε选择接收信号强度最值对应的角度为本时隙无人机飞行的方向。

即t时隙，无人机的动作A_U,t的计算满足下述计算公式：

至此，无人机执行动作A_U,t后到达新的位置。

本实施例中，无人机及云台不断重复上述流程，以实现对干扰源的快速准确搜索。

本发明所提出的种基于强化学习的无人机与云台联合搜索干扰源的技术与算法，与现有技术与算法相比，本发明实现无人机与云台对干扰源的协同定位，解决现有的无人机配置固定方向性天线进行搜索面临的精度不足、搜索效率较低的问题，同时可以实现更远距离、更低初始信噪比的干扰源搜索。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于强化学习的无人机与云台干扰源联合搜索方法，其特征在于，所述联合搜索方法控制装有云台的无人机处于固定的高度，并控制云台控制旋转和扫描以使方向性天线对无线电信号进行接收，再利用强化学习的算法对方向性天线接收的无线电信号进行处理，计算无人机的飞行方向，对干扰源进行搜索定位；

所述联合搜索方法包括以下步骤：

S2，在时隙t的云台阶段，通过云台控制方向性天线，根据ε贪心策略执行动作，选择n个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈，测得m个等间隔的水平角度上的接收信号强度值，存入接收信号强度向量中；

S3，根据接收信号强度向量计算得到当前时隙无人机的状态、下一时隙云台的状态、上一时隙无人机的立即回报以及当前时隙云台的立即回报，并分别计算上一时隙无人机和当前时隙云台的状态-动作值函数，作为Q值；其中，当前时隙无人机的状态为由接收信号强度向量估算出的干扰源方向；下一时隙云台的状态为估算出的方向上的接收信号强度值的量化；上一时隙无人机的立即回报为m个水平角度上接收信号强度的最大值；当前时隙云台的立即回报为m个水平角度上接收信号强度的和；

S4，在t时隙的无人机阶段中，无人机根据ε贪心策略执行动作，决策出其中一个水平角度作为飞行方向θ_t，向该飞行方向飞行一个固定的步长到达新的位置；同时决策出下一时隙云台的垂直角度；

2.根据权利要求1所述的基于强化学习的无人机与云台干扰源联合搜索方法，其特征在于，步骤S2中，通过云台控制方向性天线，选择n个等间距量化的垂直角度集合中的某个垂直角度并水平旋转一圈，测得m个等间隔的水平角度上的接收信号强度值，存入接收信号强度向量中的过程包括以下步骤：

S22，设天线允许在水平方向θ∈[0,2π]、垂直方向