CN116482673B

CN116482673B - 基于强化学习的分布式雷达检测跟踪一体化波形实现方法

Info

Publication number: CN116482673B
Application number: CN202310474370.8A
Authority: CN
Inventors: 梁菁; 朱培坤; 万昊; 司旭; 李思维
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2024-01-05
Anticipated expiration: 2043-04-27
Also published as: CN116482673A

Abstract

本发明公开了一种基于强化学习的分布式雷达检测跟踪一体化波形实现方法，属于智能化雷达波形设计技术领域。本发明包括：雷达波形库的建立，主要有雷达发射波形和波形参数等；各分布式雷达传感器分别收到目标的回波，各雷达传感器独立检测与关联滤波；各个分布式雷达传感器得到目标的状态向量后，应用序贯滤波算法得到目标的状态和误差协方差的融合估计；基于强化学习构建雷达发射波形决策方法，强化学习结合序贯滤波的融合估计，通过强化学习的试错交互学习过程，挑选出下一时刻最优的发射波形和参数照射目标。本发明克服传统雷达无法有效地针对复杂多目标环境的应用，实现了雷达的自我学习，在一定程度上提高了雷达对目标的跟踪性能。

Description

基于强化学习的分布式雷达检测跟踪一体化波形实现方法

技术领域

本发明属于智能化雷达波形设计技术领域，具体涉及一种基于强化学习的分布式雷达检测跟踪一体化波形实现方法

背景技术

经典的雷达波形设计理论主要有信噪比最大化匹配准则、奈曼-皮尔逊最优检测和基于互信息熵的波形设计方法等。传统的雷达波形设计是建立在单雷达单目标的基础上，并且其天线形式、发射波形、接收处理方式以及杂波模型相对固定，这极大地限制了波形设计在复杂多目标场景中的应用。

为了实现对不同种类、未知数量目标和杂波环境信息的实时探测，学者们提出了跟踪目标与环境变化自适应选择雷达发射波形这一思路，基于知识辅助(Knowledge-Based,KB)的自适应雷达为代表性研究。2002年美国DAPRA[“The MIT Lincoln LaboratoryKASSPER algorithm testbed and baseline algorithm suite,”(Sensor Array andMultichannel Signal Processing Workshop Proceedings,2002,2002,pp.38-42,doi:10.1109/SAM.2002.1190995.)]率先开展了“知识辅助传感器信号处理与专家推理”(KASSPER)项目，以提升地面动目标检测和合成孔径雷达(Synthetic Aperture Radar,SAR)的实时认知能力。同期，加拿大McMaster大学Haykin[“Cognitive radar:a way ofthe future,”(IEEE Signal Processing Magazine,vol.23,no.1,pp.30-40,Jan.2006,doi:10.1109/MSP.2006.1593335.)]首次提出了认知雷达(Cognitive Radar,CR)的概念，发射机利用接收机反馈的环境信息、现有知识和准则，自适应设计发射波形。此后，认知雷达研究掀起热潮。美国学者Guerci[“Cognitive radar:A knowledge-aided fullyadaptive approach,”(2010 IEEE Radar Conference,2010,pp.1365-1370,doi:10.1109/RADAR.2010.5494403.)]首先提出了认知全自适应雷达的理论框架，并结合知识辅助和自适应发射对该框架进行了改进，Metron公司和Bell[“Cognitive Radar Framework forTarget Detection and Tracking,”(IEEE Journal of Selected Topics in SignalProcessing,vol.9,no.8,pp.1427-1439,Dec.2015,doi:10.1109/JSTSP.2015.2465304.)]等人提出了适用于目标探测和跟踪场景的通用认知雷达系统模型，美国俄亥俄州立大学Smith[“Experiments with cognitive radar,”(2015 IEEE 6th InternationalWorkshop on Computation-al Advances in Multi-Sensor Adaptive Processing(CAMSAP),2015,pp.293-296,doi:10.1109/CA-MSAP.2015.7383794.)]等人开发了认知雷达实验平台。这些工作在认知雷达设计理论方法具有开创性和启发性，而实测验证与原型样机尚在研发中。

由于分布式雷达能够提供大空间分集和宽角度观测来提高目标位置分辨率和检测性能，因此，智能化的思想也应用在了分布式雷达体制中。如：2022年电子科技大学的梁菁团队[“Intelligent waveform optimization for target tracking in radar sensornetworks,”(10th International Conference on Communications,Signal Processing,and Systems(CSPS),Changbaishan,China,2021:165–172.)]针对雷达目标跟踪提出了一种基于强化学习的认知雷达波形挑选方法，相对于固定参数方法，极大地提高了机动目标的跟踪精度，2022年美国空军研究实验室Shikhaliev[“Distributed ParametricDetection in the Presence of Subspace Interference,”2022 IEEE RadarConference(RadarConf22),New York City,NY,USA,2022,pp.1-6,doi:10.1109/RadarConf2248738.2022.9764279.]等人设计了一种参数自适应检测器应对分布式雷达系统中受杂波影响的目标检测。然而，这些研究多针对分布式雷达，分别从提高目标检测或目标跟踪性能的角度开展波形设计研究，较少将目标检测、跟踪、特征提取考虑成紧耦合问题，未能从一体化的设计角度探索分布式雷达波形设计问题。

发明内容

本发明提供了一种基于强化学习的分布式雷达检测跟踪一体化波形实现方法，以克服传统雷达无法有效地针对复杂多目标环境的应用，提高雷达对目标的跟踪性能。

本发明采用的技术方案为：

基于强化学习的分布式雷达检测跟踪一体化波形实现方法，该方法包括：

步骤S1，建立雷达波形库，该雷达波形库包括雷达发射波形和波形参数等；

步骤S2，各分布式雷达传感器分别接收目标回波，各分布式雷达传感器分别对目标回波进行独立检测与关联滤波处理；

其中，独立检测与关联滤波处理具体包括：更新雷达传感器不同分辨单元的检测门限、计算检测概率和虚警概率和联合概率，采用联合概率数据互联算法得到目标状态向量；

步骤S3，基于得到的目标状态向量，应用序贯滤波算法进行目标状态和目标误差协方差的融合估计，得到序贯滤波的融合估计结果；

步骤S4，基于序贯滤波的融合估计结果，通过强化学习的试错交互学习过程挑选出下一时刻最优的发射波形和参数以照射目标。从而雷达-目标-雷达的闭环认知控制。

进一步的，步骤S4中，采用的强化学习算法为Q-Learning算法(Q算法)；

通过Q-Learning算法挑选出下一时刻最优的发射波形和参数具体包括：

步骤S401，基于k时刻目标q的序贯滤波的序贯滤波的融合估计结果中的联合误差协方差计算雷达跟踪状态的熵态：/>其中，ES_q,k表示k时刻跟踪目标q的熵，N表示分布式雷达传感器数量；

步骤S402，比较k-1时刻和k时刻的熵来奖励k时刻发出的波形参数计算k时刻跟踪目标q的实时奖励：r_q,k＝log(1+|ES_q,k-1-ES_q,k|)sign(ES_q,k-1-ES_q,k)；

其中，sign(·)表示signum函数，r_q,k表示k时刻跟踪目标q的实时奖励，表示k时刻第i个分布式雷达传感器的雷达波形参数矢量，i＝1,2,…,N，

基于所有目标的实时奖励迭代计算第k+1时刻的Q值并记录在Q表中：

其中，s表示代理状态，a表示代理行为，α表示学习率，折扣因子γ∈[0,1]，Q_k(s,a)表示k时刻的Q值，Q_k(s′,a′)表示下一个状态的Q值，即α′表示代理的行为空间A中的下一个代理行为，s′表示代理的状态空间S中的下一个代理状态；

步骤S403，根据目标运动模型和序贯滤波的融合估计结果中的估计状态更新k+1时刻的联合误差协方差计算下一时刻的雷达跟踪状态的熵态ES_q,k+1；

计算下一时刻的跟踪目标q的实时奖励：r_q,k+1＝log(1+|ES_q,k-ES_q,k+1|)sign(ES_q,k-ES_q,k+1)，并基于r_q,k+1继续迭代计算下一时刻的Q值并记录在Q表中；

重复迭代计算下一时刻的Q值，直到Q表收敛；

步骤S404，从Q表中选择最大Q值作为最优波形选择策略π^*(s)，并根据π^*(s)所对应的波形参数得到最优发射波形与波形参数。

进一步的，雷达波形参数矢量其中，/>和/>分别表示为第i部雷达发射波形的相位函数，脉冲持续时间和调频斜率。

本发明提供的技术方案至少带来如下有益效果：

本发明避免了传统雷达发射波形、接收处理方式以及杂波模型相对固定，不能有效应对外界复杂杂波环境下的机动目标跟踪，实现了雷达的自我学习，发射针对特定场景下的雷达波形，在一定程度上提高了雷达对目标的跟踪性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种基于强化学习的分布式雷达检测跟踪一体化波形实现方法的处理流程图；

图2是本发明实施例提供的一种基于强化学习的分布式雷达检测跟踪一体化波形实现方法的应用示意图；其中，P_D/P_FA/P_AP分别表示检测概率、虚警概率和联合概率。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为了克服传统雷达无法有效地针对复杂多目标环境的应用，本发明实施例提供了一种基于强化学习的分布式雷达检测跟踪一体化波形实现方法，以提升雷达对目标的跟踪性能。

作为一种可能的实现方式，本发明实施例提供的基于强化学习的分布式雷达检测跟踪一体化波形实现方法如图1所示，包括以下步骤：

步骤S1，建立雷达波形库，该雷达波形库包括雷达发射波形和波形参数；

步骤S2，各分布式雷达传感器分别接收目标回波，分别对各分布式雷达传感器接收的目标回波进行独立检测与关联滤波处理；

步骤S3，基于步骤S2得到的目标状态向量，

各个分布式雷达传感器采用序贯滤波算法对步骤S2得到的目标状态向量进行处理，

可得到目标状态和目标误差协方差的融合估计；

步骤S4，基于强化学习构建雷达发射波形决策：强化学习结合序贯滤波的融合估计，通过强化学习的试错交互学习过程，挑选出下一时刻最优的发射波形和参数照射目标，实现雷达-目标-雷达的闭环认知控制。

本发明中，考虑传统雷达的检测波门内各分辨单元的检测门限恒定，首先根据目标雷达回波建立联合检测跟踪的关联滤波方法，通过回波的先验信息自适应检测波门内各分辨单元的检测门限，实现最优的检测跟踪关联滤波，得到更精准的目标状态信息。考虑分布式雷达各雷达独立对目标进行联合检测跟踪关联滤波，结合序贯滤波对各个目标状态向量进行融合，得到融合的目标状态信息。此外，分布式雷达主要分为收发共置分布式雷达与收发分置分布式雷达，相对于收发共置分布式雷达，收发分置雷达将发射和接收设备放置于不同的位置，具有较高的反隐身和探测性能，在目标检测和跟踪方面具有很大的潜力。不论是收发分置还是收发共置雷达都较传统单雷达有更高的空间增益。强化学习作为一种探索和利用之间这种权衡的无监督机器学习方法，可智能的利用已有的经验来获取收益，同时进行探索，使得未来可以获得更好的动作选择空间。因此将强化学习与序贯滤波相结合，基于强化学习的试错学习机制，挑选出下一时刻各雷达的最优发射波形和波形参数，实现雷达-目标-雷达的闭环智能控制。

下面以基于强化学习的分布式雷达目标联合检测跟踪系统的波形设计为例，对本发明实施例提供的基于强化学习的分布式雷达检测跟踪一体化波形实现方法的技术方案做更进一步的详细描述。

如图2所述，本发明实施例的波形实现方法涉及波形参数库的建立、联合检测跟踪关联滤波、序贯滤波和强化学习联合波形参数寻优。其主要思想是在多雷达传感器联合概率数据互联的基础上结合目标反馈信息，实时更新目标和发射波形的参数，达到检测、跟踪的最优平衡。相较单雷达传感器的波形设计，分布式波形设计是基于各雷达传感器的状态与性能，按照系统的约束与需求协同优化各雷达的波形与参数。下面针对收发共置和收发分置两种情况开展分布式雷达一体化波形设计的介绍。

(1)针对收发共置的分布式雷达一体化波形设计：

收发共置分布式雷达目标量测模型可以建模为分布在不同地点的N个单站雷达，采用相互正交的发射信号，不同单站雷达接收机通过匹配滤波可获取对应自身发射信号的回波。

假设目标的离散时间状态特征模型为：

x_q,k+1＝F_q,kx_q,k+w_q,k (1)

其中，F_q,k表示目标q的状态转移矩阵和特征转移矩阵，其中的[x_q,k,y_q,k,z_q,k]，分别表示目标的位置、速度和加速度。

在k时刻第i部雷达第q个目标相关波门内过门限的有效量测为：

其中，观测个数为m_i,q,k个，第i个雷达接收第q个目标的第j个有效量测为：

其中，h_i,q,k(·)表示量测函数，v_i,q,k为第i个雷达接收目标q的量测在k时刻的误差。

将目标量测的预测分布反馈到雷达发射机中，本具体实施方式以目标假量测在跟踪门内服从均匀分布，正确量测服从正态分布为例，在k时刻第i部雷达计算目标q的量测和预测分布/>分别为：

更新两种假设下的目标观测信号幅度的概率密度函数模型：

其中，表示雷达i跟踪目标q在k时刻第l个分辨单元的回波幅度，ρ_i,q,k表示雷达i跟踪目标q在k时刻接收目标回波的平均信噪比，/>表示以a为均值，B为协方差矩阵的正态分布在x点处的概率值，/>表示雷达i跟踪目标q在k时刻第l个分辨单元的量测值，/>表示雷达i跟踪目标q的量测误差，S_i,q,k表示雷达i跟踪目标q在k时刻的新息协方差。

引入可调参数η，可以化简判决门限为：

由上式可以发现，当越靠近/>值越大，检测门限T_i,q,k越小，检测门限随着各个分辨单元的位置实现了自适应。

可以计算出每部雷达的平均检测概率和平均虚警概率分别为：

其中，n_z表示量测值的维数。

以广义调频波为例可以构建雷达波形参数矢量为则分布式雷达网络的波形库可以定义为/>其中/>和/>分别表示为第i部雷达发射波形的相位函数，脉冲持续时间和调频斜率。以量测值为径向距离r、径向速度/>和径向角β为例，高斯线性调频信号为发射波形的情况下，其量测噪声协方差矩阵/>可以为：

公式(8)中，在不影响理解的情况下省略了矩阵中各波形参数的上下标。

由于各雷达在同一时刻的量测噪声之间互不相关，所以在融合中心可以按照雷达传感器的序号1→N依次对融合中心目标q的运动状态估计值进行序贯更新，雷达1＜i≤N的量测对于融合中心状态估计值更新为：

其中，为量测函数h_i,q,k(·)的雅各比矩阵，/>为雷达1→i跟踪目标q的联合误差协方差矩阵。

融合中心最终的状态估计为：

其中，表示目标状态的融合估计结果，P_q,k|k表示跟踪目标q的联合误差协方差矩阵。

进一步，根据估计状态和目标运动模型更新k+1时刻的误差协方差：

以Q学习(Q-Learning,QL)为代表的强化学习是一种无模型、单步更新的强化学习方法，考虑基于QL方法的波形参数挑选策略来自适应雷达工作环境。在QL中，状态动作对(s,a)的值被定义为期望的累积折扣奖励，Q值可以根据下式更新获得：

其中，s∈S表示agent状态，a∈A表示agent行为，S和A分别表示agent的状态空间和行为空间，α为学习率，γ∈[0,1]是折扣因子，r_q,k是k时刻目标q的实时奖励。

经过足够次数迭代使Q表(用于记录每次迭代计算得到的Q值)收敛，选择最大Q值的行为作为最佳发射波形策略π^*(s)：

波形挑选过程：

首先，基于k时刻目标q序贯滤波的结果计算雷达跟踪状态的熵态，即成本函数：

其中，ES_q,k表示k时刻跟踪目标q的熵。

然后，通过比较k-1时刻的熵和k时刻的熵来奖励k时刻发出的波形参数设计的实时奖励函数如下：

r_q,k＝log(1+|ES_q,k-1-ES_q,k|)sign(ES_q,k-1-ES_q,k) (15)

其中，sign(·)是signum函数。当k时刻的熵小于k-1时刻时，波形导致不确定性减小，得到积极奖励，否则，给予负惩罚。因此，可通过公式(15)计算实时奖励r_q,k并根据公式(12)更新Q表。

接下来，根据公式(11)单步预测并结合公式(14)和公式(15)计算预测奖励r_q,k+1，并根据公式(12)再次更新Q表，重复此步骤，直到Q表收敛。其中，Q表收敛的现象是最近两次迭代的Q值非常接近，或者完全一样，即最近两次迭代的Q值的偏差不超过一个指定的阈值。

最后，选择最大Q值行为作为最优波形选择策略π^*(s)，并根据最优波形选择策略得到最优发射波形与波形参数

(2)针对收发分置的一体化分布式雷达波形设计：

收发分置分布式雷达与收发共置分布式雷达的主要区别是目标量测函数不同。以量测为传输时延和多普勒频移为例，即：h_q,l,m(x_q,k)＝[τ_q,l.m,v_q,l,m]^T，如果目标位置为(x_q,k,y_q,k,z_q,k)，分布式雷达发射单元分布在m＝1,2,...,N_T，接收单元分布在l＝1,2,...,N_R那么对于第l个接收单元收到由第m个发射单元发射信号的情况，输出时延τ_q,l,m与多普勒频移v_q,l,m分别为

其中，f_m为第m个发射单元的发射波形频率，

因此，可以将前述收发共置的分布式雷达波形设计方法拓展到收发分置联合检测跟踪的分布式雷达波形设计，非多径与多径情况与收发共置类似。具体实施方式是，首先，构建雷达波形参数库；然后，根据收发分置分布式雷达的布局建立雷达目标量测模型；其次，设计带反馈信息的联合检测跟踪算法；最后，根据序贯滤波并结合QL学习方法得到最优分布式雷达的发射波形。

本发明实施例提供的基于强化学习的分布式雷达检测跟踪一体化波形实现方法，其具体包括了目标的联合检测跟踪、序贯滤波融合各分布式传感器的滤波结果、强化学习的交互试错机制挑选出各分布式雷达最优的发射波形和波形参数，形成一个闭环认知机制。本发明避免了传统雷达发射波形、接收处理方式以及杂波模型相对固定，不能有效应对外界复杂杂波环境下的机动目标跟踪，实现了雷达的自我学习，发射针对特定场景下的雷达波形，在一定程度上提高了雷达对目标的跟踪性能，为智能化雷达的设计提供了范例。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.基于强化学习的分布式雷达检测跟踪一体化波形实现方法，其特征在于，包括下列步骤：

步骤S4，基于序贯滤波的融合估计结果，通过强化学习的试错交互学习过程挑选出下一时刻最优的发射波形和参数以照射目标。

2.如权利要求1所述的方法，其特征在于，步骤S4中，采用的强化学习算法为Q-Learning算法；

其中，s表示代理状态，a表示代理行为，α表示学习率，折扣因子γ∈[0,1]，Q_k(s,a)表示k时刻的Q值，Q_k(s′,a′)表示下一个状态的Q值；

重复迭代计算下一时刻的Q值，直到Q表收敛；

3.如权利要求2所述的方法，其特征在于，雷达波形参数矢量其中，和/>分别表示为第i个分布式雷达传感器的发射波形的相位函数，脉冲持续时间和调频斜率。