CN103499974A

CN103499974A - 一种双机协同被动雷达探测路径规划方法

Info

Publication number: CN103499974A
Application number: CN201310454979.5A
Authority: CN
Inventors: 方洋旺; 高翔; 伍友利; 张磊; 刁兴华; 毛东辉
Original assignee: Air Force Engineering University of PLA
Current assignee: Air Force Engineering University of PLA
Priority date: 2013-09-27
Filing date: 2013-09-27
Publication date: 2014-01-08
Anticipated expiration: 2033-09-27
Also published as: CN103499974B

Abstract

本发明公开了一种双机协同被动雷达探测路径规划方法，在分析目标主动雷达辐射区域的基础上建立了双机协同被动探测的任务模型。运用模糊理论对问题状态空间进行了泛化，针对不同的探测阶段给出了目标转移函数的不同形式，通过合理定义动作空间和奖励函数将问题描述为Markov决策过程，并给出了双机协同被动雷达探测的模糊Q学习路径规划方法。解决了现有基于模型的路径规划方法无法应对环境改变的问题，适合于非机动和机动辐射源的定位。

Description

一种双机协同被动雷达探测路径规划方法

技术领域

本发明属于信息技术领域，涉及一种双机协同被动雷达探测路径规划方法。

背景技术

隐身目标的出现使得目前广泛使用的主动雷达传感器的探测距离和探测精度大幅下降，依靠主动雷达获取目标信息的精确制导武器在应对隐身目标时也显得无能为力。主动雷达失效使得人们把目光重新投向传统的被动雷达传感器，研究通过获取目标主动雷达辐射的信号对其进行定位已成为目前反隐身领域的研究热点。

采用运动可控平台对辐射源进行定位是被动探测体制经常采用方法，由于单个平台只能报告其接收到信号的到达方位和到达时间，所以通常采用多平台协同的方式利用三角定位法对目标进行定位。实现被动探测的一个基本前提是必须使载机传感器位于目标的辐射范围内，但这就造成一个问题，即有可能使载机暴露在目标的攻击范围内，遭到目标机载武器的攻击。如何在保证载机安全的情况下实现对目标的定位是实现被动探测必须解决的问题。此外，双机组成的被动探测系统还受到通信距离、目标辐射控制等因素的限制和影响，所以，寻找合适的策略以规划载机的飞行路径对实现双机协同被动目标探测十分重要。

目前，用于飞行路径规划的方法主要是基于模型的优化方法，该方法通过建立载机、传感器、目标等的数学模型，定义相关的优化指标，采用最优化理论和算法对载机的飞行路径进行规划。基于模型的飞行路径规划优化方法存在一个问题，那就是其效果在很大程度上依赖于所建立模型的精确程度。一旦模型建立，载机的飞行路径规划策略基本固定不变，这在外界环境基本保持不变时可以获得令人满意的规划效果，但是当外界环境变化明显、事先建立的模型无法准确描述实际情况时，效果不佳。

发明内容

为了克服现有技术中的缺陷，本发明提供一种双机协同被动雷达探测路径规划方法，用以解决主动雷达辐射源的定位问题，通过引入多智能体理论中的强化学习方法，结合被动雷达探测的特点，通过合理的状态空间描述及动作空间定义将问题近似成离散的马尔科夫决策过程（MDP），并利用模糊Q学习算法对飞行策略进行在线寻优，只要值函数的估计保证渐近无偏，则Q学习算法能够收敛到一个准最优策略。

其技术方案如下：

一种双机协同被动雷达探测路径规划方法，包括以下步骤：

步骤1）建立双机协同被动雷达探测任务模型及约束条件；

步骤2）建立双机协同被动雷达探测的Markov决策过程模型；

步骤3）双机协同被动雷达探测路径的模糊Q学习规划步骤；

进一步优选，所述步骤1）具体包括以下两个步骤：

（1）目标辐射区域划分

考虑二维平面内情形，假设主动雷达安装在目标的头部，则以目标为中心可以将目标的周围区域划分为四个部分：主动雷达动态照射区、主动雷达主瓣照射区、武器威胁区与被动雷达失效区，它们之间存在相互重叠的区域，主动雷达动态照射区：该区域大小是由目标主动雷达的最大动态视场角

和雷达波的最大传播距离D_d决定，装备被动雷达的载机只有进入该区域，才有可能发现目标，主动雷达主瓣照射区：该区域大小由主瓣宽度

和D_d决定，通常以一定的周期T_m进行扫描，该区域内雷达波信号最强，为被动雷达的最佳接收区域，执行被动雷达探测任务的载机在进入动态照射区后，应控制自身进入该区域，武器威胁区：该区域由目标机载武器的最大离轴发射角

和射程D_w（D_w＜D_d）决定，为简化问题，假设

执行被动探测任务的载机应避免进入该区域，以保证自身的安全，被动雷达失效区：通常情况下，该区域内由于没有可用的雷达辐射信号，所以被动雷达在该区域内将失效；

（2）任务模型及约束条件建立

假设执行被动探测任务的载机天线指向与其航向相同，被动雷达的最大搜索方位角为最大探测距离为D_p。首先给出以下定义：

目标视线（F_iF_T）：执行被动探测任务的载机F_i（i＝1,2）与目标F_T的连线，其长度为R_i；

目标方位角（q_i）：任务机航向与目标视线F_iF_T的夹角；

目标进入角（θ_i）：目标航向与目标视线F_iF_T的夹角；

目标天线角（φ_i）：目标天线指向与目标视线F_iF_T的夹角；

任务机方位角（β_i）：任务机航向与参考方向的夹角；

目标方位角与进入角的正方向规定为：任务机飞行员沿着飞机速度方向看去，以目标视线F_iF_T为起始基准，速度方向若右偏为正，左偏为负，则0≤|q_i|≤180°，0≤|θ_i|≤180°；

任务机在探测过程中的任务分为两个阶段来实施：一是搜索阶段，主要解决如何发现目标的问题；二是定位阶段，该阶段主要解决如何提高探测精度的问题。对于搜索阶段，应满足

对于定位阶段，任务机进入目标主动雷达主瓣照射区接收信号应满足的条件为

为降低测向误差对定位精度的影响应满足的条件为

{\overset{\cdot}{R}}_{i} < 0, when R_{i} &GreaterEqual; D_{w} - - - (3)

\frac{y_{2} - y_{1}}{x_{2} - x_{1}} &NotEqual; \frac{y_{T} - y_{1}}{x_{T} - x_{1}} &NotEqual; \frac{y_{T} - y_{2}}{x_{T} - x_{2}} - - - (4)

式中(x₁,y₁)、(x₂,y₂)、(x_T,y_T)分别记为

x_T表示任务机1、任务机2及目标的位置状态；

应满足一个约束条件为任务机之间的距离应不超过载机间数据通信的最大距离D_c，且不能小于载机间安全距离D_f，即

D_f≤|F₁F₂|≤D_c （5）。

进一步优选，所述步骤2）具体包括以下四个步骤：

（1）状态空间的划分与模糊泛化

双机协同被动雷达探测问题的状态空间包括任务机的状态空间

与目标的状态空间x_T两部分，通过

和x_T计算出目标的相对态势关系(R_i,θ_i,q_i,φ_i)，记为x_i，将原状态空间按任务机与目标相对态势划分统一的状态空间S：

其中s₁、s₂、s₃、s₄、s₅为状态空间S中的状态元素。

进一步采用隶属度函数表示原状态空间到新状态空间的映射，则状态分量R_i、θ_i、q_i、φ_i的隶属度函数分别为

\{\begin{matrix} ξ_{1,1} (R_{i}) = \max (0, \frac{R_{w} - R_{i}}{R_{w}}) \\ ξ_{1,2} (R_{i}) = \max (0, \min (\frac{R_{i}}{R_{w}}, \frac{R_{d} - R_{i}}{R_{d} - R_{w}})) \\ ξ_{1,3} (R_{i}) = \max (0, \min (\frac{R_{i} - R_{w}}{R_{d} - R_{w}}, \frac{R_{\infty} - R_{i}}{R_{\infty} - R_{d}})) \\ ξ_{1,4} (R_{i}) = \max (0, \frac{R_{i} - R_{d}}{R_{\infty} - R_{d}}) \end{matrix} - - - (7)

其中ξ_p,q为原状态分量p隶属于新状态q的隶属度值，R_∞为一大正数；

得到各状态分量的隶属度函数后，通过乘积推理就能得到状态变量x_i的4维隶属度函数

μ_n(x_i)＝ξ(R_i)·ξ(θ_i)·ξ(|q_i|)·ξ(|φ_i|) （11）

（2）动作空间定义

假设任务机速度大小不变为V，只进行航向控制，则任务机F_i的运动模型为

\{\begin{matrix} x_{i} [k + 1] = x_{i} [k] + V \cos (β_{i} [k]) T \\ y_{i} [k + 1] = y_{i} [k] + V \sin (β_{i} [k]) T \end{matrix} - - - (12)

其中(x_i[k],y_i[k])为任务机F_i在k时刻的位置，任务机航向的控制方程为

β_i[k+1]＝β_i[k]+Δβ_i （13）

其中

Δ β_{i} &Element; U_{i} = {u_{1}^{i}, . . ., u_{M}^{i} | | u_{m}^{i} | \leq Δ β_{\max}, m = 1, . . ., M},

U_i为任务机F_i的动作空间，

为动作。规定逆时针方向旋转为正，则当Δβ_i为正时表示任务机逆时针旋转，为负时则为顺时针旋转，为0时表示其保持原来航向，Δβ_max为任务机的最大旋转角度，它受自身可用过载的限制；

（3）转移函数定义

对于任务机i与目标组成的系统在状态s_j时采用动作

和u转移到状态s_j′的转移函数可以定义为

p_{i} (s_{j^{'}} | s_{j}, u_{m}^{i}, u) = P (s^{(k + 1)} = s_{j^{'}} | s^{(k)} = s_{j}, u_{i}^{(k)} = u_{m}^{i}, u_{T}^{(k)} = u) - - - (14)

其中s_j,s_j′∈S，

u为目标动作。

假设任务机的状态转移与目标是独立的，

可以进一步表示为

p_{i} (s_{j^{'}} | s_{j}, u_{m}^{i}, u) = p_{i} (s_{j^{'}} | s_{j}, u_{m}^{i}) p_{i} (s_{j^{'}} | s_{j}, u) - - - (15)

式（15）中

为已知量，p_i(s_j′|s_j,u)的值与目标的策略有关，根据不同的任务阶段进行定义。当处于搜索阶段时，定义为

p_{i} (s_{j^{'}} | s_{j}, u) = {&Integral;}_{- \infty}^{s_{T}^{'}} \frac{1}{\sqrt{2 π} σ_{C}} \exp [- \frac{{(s_{T}^{'} - \overset{&OverBar;}{C})}^{2}}{2 σ_{C}^{2}}] d s_{T}^{'} - - - (16)

其中s′_T为目标下一时刻的状态，它服从以

为中心、σ_C为强度的正态分布，强度σ_C通常根据搜索区域的大小选取，区域越大，该值越大。当处于定位阶段时，定义为

p_{i} (s_{j^{'}} | s_{j}, u) = {&Integral;}_{- \infty}^{s_{T}^{'}} \frac{1}{\sqrt{2 π} σ_{T}} \exp [- \frac{{(s_{T}^{'} - s_{T})}^{2}}{2 σ_{T}^{2}}] d s_{T}^{'} - - - (17)

其中s_T为目标当前时刻的状态，目标下一时刻的状态服从当前状态s_T为中心，σ_T为强度的正态分布，强度σ_T通常根据目标的速度大小选取，目标速度越大，该值越大，

（4）奖惩函数定义

系统的奖励函数采用下列确定形式

ρ_{i} (s, u_{m}^{i}, u_{T}, s^{'}) = \{\begin{matrix} - 1 & s^{'} = s_{1} \\ - 5 & s^{'} = s_{5} \\ 1 & s^{'} = s_{2} or s_{3} \\ 5 & s^{'} = s_{4} \end{matrix} - - - (18) .

进一步优选，所述步骤3）具体包括以下六个步骤：

（1）初始化：分别对状态

和x_T、迭代参数Ω_[n,m]、折扣因子γ进行初始化；

（2）从离散动作集中分别为双机选取k时刻的动作

（3）将

带入双机状态方程计算双机状态，并判断双机状态是否满足约束条件式（3-5），若满足，则进行下一步，若不满足，则转步骤（2）；

（4）执行动作

分别记录双机下一时刻状态和即时奖励值

（5）利用式

Ω_{k + 1, [n, m]}^{i} ρ^{i} (x_{n}^{i}, u_{m}^{i}) + γ \max_{u_{m^{''}}^{i} &Element; U_{i}} Σ_{n^{'} = 1}^{N} ψ_{n^{'}} (x_{n^{'}}^{i}) Ω_{k, [n^{'}, m^{'}]}^{i}

更新双机的值函数；

（6）判断||Ω_k+1-Ω_k||≤ζ，若满足，则停止迭代输出规划策略，若不满足，则转步骤（2）。

本发明的有益效果：

本发明通过抽象出相对态势表示任务机和目标组成系统的状态，在合理定义模糊隶属度函数的情况下实现了状态空间的高度泛化；通过定义状态空间、动作空间、转移函数及奖励函数将问题描述成一个马尔科夫决策过程，并给出双机协同被动探测路径模糊Q学习规划算法实时更新双机路径规划策略，可以有效提高双机应对环境变化的能力。

附图说明

图1是目标辐射区域划分示意；

图2是双机协同被动探测态势；

图3是目标无机动时的双机协同被动探测规划路径，图3a是目标无机动时双机飞行路径，图3b是双机飞行路径的局部放大；

图4是目标无机动时的目标定位精度变化曲线及双机奖惩值变化曲线，图4a是目标无机动时的定位精度值，图4b是目标无机动时的双机奖惩值；

图5是目标机动时的双机协同被动探测规划路径，图5a是目标机动时双机飞行路径，图5b是双机飞行路径的局部放大；

图6是目标机动时的目标定位精度变化曲线及双机奖惩值变化曲线，图6a是目标机动时的定位精度值；图6b是目标机动时的双机奖惩值。

具体实施方式

下面结合附图和具体实施方式对本发明的技术方案作进一步详细地说明。

设双机与目标的飞行区域为欧式空间中的矩形区域，坐标范围0≤X≤200km，-10km≤Y≤10km。

步骤1建立双机协同被动雷达探测任务模型及约束条件：

设任务机被动雷达的有效探测距离D_p＝200km，最大搜索方位角为

目标主动雷达的最大作用距离为D_d＝100km，最大动态视场角

主瓣宽度扫描周期T_m＝5s。目标武器的射程D_w＝60km，最大离轴发射角

利用以上参数根据式（1-5）可以建立双机协同被动雷达探测任务模型及约束条件。

步骤2建立双机协同被动雷达探测的MDP模型：

任务机与目标速度大小均为200ms，任务机与目标的初始态势按照（X坐标，Y坐标，航向）格式设为两组，分别为（i）：F₁（0,-2.5km,0）、F₂（0,2.5km,0）、F_T（150km,0,180°）；（ii）：F₁（0,-2.5km,0）、F₂（0,2.5km,0）、F_T（150km,6km,180°）。组（i）和组（ii）分别为用以测试所提方法在应对非机动目标和机动目标时的路径规划能力。利用以上参数，根据式（6-10）可以完成状态空间的划分与模糊泛化，其中对于组（ii）目标机动情形，设目标的机动过载为4g（g＝9.8m²/s为重力加速度）。

定义任务机F₁、F₂具有相同的离散化动作空间，共包含5个动作，为U₁＝U₂＝{-3°,-1.5°,0,1.5°,3°}。

设

为目标的初始坐标，σ_C取10⁴，σ_T取200，根据式（15-17）完成转移函数的定义。

奖惩函数按照式（18）定义。

步骤3双机协同被动雷达探测路径的模糊Q学习规划步骤：

分别针对组（i）和组（ii）按照步骤（1-6）进行计算机仿真，得到的结果如附图3-附图6所示。为了清晰显示定位精度变化附图3和图5中给出了任务机1与任务机2间距误差为50m，测角误差为0.2865°时计算得到的双机在初始位置时的目标定位几何精度因子（GDOP）分布。等高线上的数值为定位的几何精度，其值越大表明对该等高线上的目标定位精度越低。

图3b为图3a的放大，可以看出，按照所提方法，双机对无机动目标的被动定位可以分搜索、跟踪定位及逃离三个阶段。在搜索阶段，双机在每一时刻的运动方向相反，即双机分别对不同的区域进行搜索，这样提高了发现目标的概率。跟踪定位阶段的仿真曲线表明双机能够稳定地跟踪目标主动雷达的主瓣照射区，实现对目标的有效定位，图4的GDOP变化曲线的实线部分（虚线为按照仿真中双机和目标位置计算出的GDOP值，实际过程中由于无法获得目标辐射信号而无法计算，故用虚线表示）表明按照规划路径，双机对目标的定位误差持续下降，最终保持在3.03左右直至进入目标武器威胁区后受到惩罚而逃离。图4的双机的奖励函数变化曲线也反映了该过程，即搜索阶段由于无目标信号奖励一直为负，而后从进入目标主动雷达动态照射区到主瓣照射区奖励逐渐增加，当进入目标威胁区后再次下降，它表明文中定义的奖励函数能够有效反映双机被动雷达的探测任务。

从图5可以看出存在目标机动时的双机路径规划要比目标无机动时复杂，整个过程大致可以分为搜索、跟踪定位、再搜索、再跟踪定位及逃离五个阶段。当目标机动时，双机组成的被动探测系统能够适应目标的变化，经过在搜索后仍然能够实现对目标的有效跟踪定位。图6的GDOP变化曲线反映出定位精度在经过变化后最终下降到9.66左右。图6的双机奖励函数变化曲线表明文中定义的奖励函数对跟踪机动目标同样具有适用性。

综上所述，所提双机协同被动探测路径规划方法能够实现对目标的有效跟踪定位，当目标机动时，算法能够保证任务机对环境改变的良好适应性。

以上所述，仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。