CN113238219B

CN113238219B - 一种适用于rsn在目标跟踪任务中的波形优化方法

Info

Publication number: CN113238219B
Application number: CN202110543132.9A
Authority: CN
Inventors: 梁菁; 罗子涵; 沈晓峰; 徐泽楷; 黄霞飞; 敬芳菲
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2023-05-09
Anticipated expiration: 2041-05-18
Also published as: CN113238219A

Abstract

本发明涉及波形优化技术领域，具体是一种适用于RSN在目标跟踪任务中的波形优化方法，用于解决现有技术中RSN中雷达进行独立优化导致的跟踪性能不佳，以及RSN硬件计算负荷较大，不利于系统长期运行的问题。本发明的波形优化方案用融合取代扩维，当RSN中的各个雷达完成了对目标状态的估计之后，将估计信息送往融合中心，融合中心将所有的目标状态估计误差协方差矩阵进行融合，得到维度不变的全局目标状态估计误差协方差矩阵，结合前后两个时刻RSN波形产生的熵态，最后对状态价值函数进行更新，产生相应的波形选择策略，指导雷达发射机发射下一轮的波形参数，从而提高了RSN中雷达的跟踪性能和降低了RSN硬件的计算负荷，更有利于系统的长期运行。

Description

一种适用于RSN在目标跟踪任务中的波形优化方法

技术领域

本发明涉及波形优化技术领域，更具体的是涉及一种适用于RSN在目标跟踪任务中的波形优化方法。

背景技术

雷达传感器网络(radar sensor network,RSN)是由多个可通过无线信道进行通信的雷达传感器节点组成的无线传感网络，主要应用于目标探测和目标跟踪，RSN通过发射不同类型的电磁波，利用信号处理技术分析目标回波以获取目标相关的信息，RSN具有灵活度高、覆盖面积广、系统容错性强的特点，被广泛应用于军事领域和民用领域，也是当前国内外科研机构的研究热点。

目标跟踪是指RSN对来自目标的回波信息进行处理，保持对机动目标当前时刻运动状态参数的估计，滤波算法是目标跟踪的核心技术手段，常见的滤波算法大多是基于贝叶斯框架的卡尔曼滤波器及其改进算法，可以概括为以下两个步骤：先根据现有状态和经验模型预测目标下一步的状态，然后利用RSN的实际量测值进行校正，得到目标状态参数的最优。

信息融合是指集成来自多个不同传感器的感知信息，从而产生更全面、更精确、更可靠的目标状态信息，信息融合的常用方法基本上可以概括为随机和人工智能两大类，随机类算法有卡尔曼滤波法、多贝叶斯估计法、证据推理等；人工智能类算法有模糊逻辑理论、神经网络、专家系统等，信息融合主要应用于包括军事目标的检测、定位、跟踪和识别，在民事应用领域也取得了较快的发展，主要应用领域包括图像融合、遥感和工业智能机器人等。

波形优化算法是指雷达根据环境的变化自适应地优化发射波形参数，从而达到与环境的最佳匹配，实现最大化目标信息获取，波形优化算法的关键是设计合理的准则函数及其相应的求解方案，波形优化算法主要应用于面向目标检测和目标跟踪的雷达系统，基于最大互信息熵准则或最小化均方误差准则，根据环境变化有针对性地对发射波形参数的优化。

强化学习是机器学习的一个重要分支，用于描述和解决智能体在与环境交互过程中通过学习策略以达成长期回报最大化或实现特定目标的问题，强化学习的关键要素为：策略、奖励、值函数和环境模型，强化学习能够针对具体问题得到一个最优的策略，使得按照该策略选择的行为序列能够获得最大的奖励，强化学习主要应用于通信系统、机器人、智能交通、自动驾驶、游戏和工业等领域。

传统雷达的工作模式是通过发射一种或者某几种固定的波形来照射目标，然后通过雷达接受机的自适应信号处理技术来最大化目标信息，随着目标机动性的不断提高，传统的雷达工作模式已经很难在复杂多变的战场环境下完成目标探测、跟踪等任务，得益于数字任意信号发射器的发展，实时发射波形优化设计得以实现，如何利用雷达接收机获取到的目标信息按照特定的准则指导雷达发射机波形的发射，形成雷达与环境(目标)的闭环智能交互结构是下一代智能化雷达的研究重点。

在目标跟踪任务中，现有的波形优化技术方法大多是针对单雷达系统，即雷达接收机中的贝叶斯滤波器根据获取到的目标量测信息完成目标状态估计更新之后，基于最大互信息熵准则或者最小化均方误差准则，设计关于当前时刻发射波形参数的奖励函数以评估其对目标跟踪的性能，最后利用动态规划方法，在与目标的交互过程中不断优化波形参数的选择策略以适应当前的机动目标，提高系统的跟踪性能。

对于现有的RSN波形优化的技术方案，主要分为两类：第一类是采用分布式融合的结构，将RSN中的每台雷达按照单雷达系统的方案独立地进行波形优化，形成局部航迹送往融合中心，最后由融合中心对局部航迹进行融合处理得到全局航迹，这一类技术方法的缺点在于RSN中每台雷达的波形优化都是针对局部航迹进行的，只关注自身获取到的目标信息最大化，而不是从系统的角度与其他雷达进行联合优化，最大化整个系统获取到的目标信息；第二类是采用集中式融合的结构，将RSN中所有雷达获取到的目标量测信息送往融合中心，融合中心按照并行滤波的形式对量测信息进行扩维(以向量的形式进行维度扩充)，相应的目标状态估计误差状态估计误差的维度也会增大，然后再按照单雷达系统的波形优化流程对RSN中所有的雷达发射波形进行联合优化，虽然这类方案能够对RSN中所有雷达波形进行联合优化，但是当RSN中雷达数量增加时，融合中心对量测信息扩充的维度也会随之增加，单个雷达的不精确测量很容易影响扩充后的目标状态估计状态估计误差，导致系统的稳定性降低，且贝叶斯滤波器对目标状态的估计以及波形奖励函数的计算量显著增加，尤其是对高维矩阵的求逆，导致雷达硬件的计算负荷大幅增加。

综上，针对上述两类目标跟踪任务中的RSN波形优化技术方案，第一类计算负荷小，但是由于RNS中的雷达波形优化是针对局部航迹独立进行的，所以从RSN系统的角度来看，融合后得到的全局航迹精度欠佳；第二类RSN系统跟踪性能较好，但是随着RSN中雷达数量的不断增加，量测相关的向量和矩阵维度也将随之增大，导致RSN硬件计算负荷较大，不利于系统的长期运行。为了解决上述问题，我们特别提出了一种适用于RSN在目标跟踪任务中的波形优化方法。

发明内容

基于以上问题，本发明提供了一种适用于RSN在目标跟踪任务中的波形优化方法，用于解决现有技术中RSN中雷达进行独立优化导致的跟踪性能不佳，以及随着RSN中雷达数量的不断增加，RSN硬件计算负荷较大，不利于系统的长期运行的问题。本发明中通过RSN中所有雷达为整体对波形进行联合优化，从而提高了RSN中雷达的跟踪性能，通过RSN中雷达波形进行联合优化，用信息融合的手段代替了传统的扩维方法，从而降低了RSN硬件的计算负荷，更有利于系统的长期运行。

本发明为了实现上述目的具体采用以下技术方案：

一种适用于RSN在目标跟踪任务中的波形优化方法，包括以下步骤：

步骤1：将N台雷达部署在待探测空间，执行对单个目标的跟踪任务，雷达发射机发射任意数字信号对目标进行照射，发射信号经过待测目标反射后由雷达接收机接收，经过匹配滤波器后获得k时刻关于目标运动状态的量测信息；

步骤1中所述量测信息包括目标与雷达的径向距离r，目标朝向雷达的径向速度v；

步骤1中选择给雷达发射机配备高斯包络线性调频信号，高斯包络线性调频信号的具体表达形式如下：

其中，Re{}表示求信号的实部，E_T表示信号的能量，f_c为信号的载频，π表示圆周率，

表示以e为底的指数函数，t表示时刻，

表示高斯包络线性调频信号的复包络，其计算公式如下：

其中，j表示虚部，λ表示脉冲持续时间，b表示调频斜率。

步骤2：第n个雷达通过接收机中的贝叶斯滤波器对目标运动状态x＝[x,y,z,v_x,v_y,v_z]^T进行估计，得到相应的估计值

和状态估计误差协方差矩阵

其中，x为目标在笛卡尔坐标系下x轴的位置坐标，y为目标在笛卡尔坐标系下y轴的位置坐标，z为目标在笛卡尔坐标系下z轴的位置坐标，v_x为目标在笛卡尔坐标系下x轴向的速度，v_y为目标在笛卡尔坐标系下y轴向的速度，v_z为目标在笛卡尔坐标系下z轴向的速度，T表示转置操作，[x,y,z,v_x,v_y,v_z]表示由x,y,z,v_x,v_y,v_z组成的行向量，[x,y,z,v_x,v_y,v_z]^T表示行向量的转置，即表示由x,y,z,v_x,v_y,v_z组成的列向量；

步骤3：雷达将各自对目标的状态估计信息反馈到融合中心，融合中心接收到所有雷达的目标状态估计值

和状态估计误差协方差矩阵

后，依据序贯滤波，对所有的状态估计误差协方差矩阵

进行融合，得到一个考虑了所有雷达的全局状态估计误差协方差矩阵

的维度与

的维度一致，其中，

表示第n个雷达的状态估计误差协方差矩阵；

步骤3中对所有状态估计误差协方差矩阵

进行融合的递推公式如下：

其中，

表示第n+1个雷达在第k时刻的量测向量；

表示第n+1个雷达的量测方程

在第k时刻的Jacobi矩阵；

表示前n个雷达对目标状态的融合估计，是一个向量；

表示第n+1个雷达在第k时刻的量测状态估计误差，由k时刻的发射波形参数

所决定；

表示

矩阵的转置，

表示

矩阵的逆；上标1～n表示的是将前n个雷达的递推之后的结果，对于一开始的第一个雷达；

表示前n+1个雷达状态误差协方差矩阵融合的结果；

表示

的逆；

第n+1个雷达的量测方程在第k时刻的Jacobi矩阵的计算公式如下：

其中，

表示求导，

表示第n+1个雷达在第k时刻的量测方程，x表示目标运动状态，|表示完成求导操作后；

对于最优雷达接收机，可等效为通过高斯线性调频信号的模糊函数计算得到的克拉美罗下界，克拉美罗下界的计算公式如下：

其中，

表示k时刻第n+1台雷达接收信号的信噪比；

表示第n+1个雷达在第k时刻的量测协方差矩阵，由k时刻的发射波形参数

所决定；c表示光速；

表示第n+1个雷达在第k时刻发射的高斯包络线性调频信号的脉冲持续时间；

表示第n+

1个雷达在第k时刻发射的高斯包络线性调频信号的调频斜率；

表示第n+1个雷达在第k时刻发射波形的两个优化参数，由

和

组成。

步骤4：融合中心将k时刻融合的最后结果反馈给各个雷达中的滤波器评估器，用于指导k+1时刻的发射机波形的优化；

步骤5：雷达中的滤波器评估器根据

对当前时刻RSN所有雷达发射的波形参数

进行评估，评估的定量指标是基于最大互信息熵准则产生的，称为熵态，即熵态

其中，

表示第k个时刻1号雷达发射的波形参数，以向量的形式表示；

表示第k个时刻，N号雷达发射的波形参数，以向量的形式表示，det()表示计算行列式。

步骤6：将熵态G_k存入雷达中的短时记忆单元的同时，反馈给雷达发射机；

步骤7：雷达发射机接收k时刻从雷达接收机反馈过来的熵态G_k，同时取出存放在短时记忆单元中k-1时刻的熵态G_k-1，根据G_k相对于G_k-1的变化设计了一个即时奖励函数r_k，若G_k小于G_k-1时，则给与一个正向奖励，反之，则给予一个负向奖励；

步骤7中即时奖励函数为：r_k＝log(1+|G_k-1-G_k|)sign(G_k-1-G_k)；

其中，log表示以e为底的对数函数；sign(G_k-1-G_k)表示数学符号函数，G_k-1-G_k大于0，输出1，G_k-1-G_k小于0，输出-1，G_k-1-G_k等于0，输出0；|G_k-1-G_k|表示G_k-1与G_k差值的绝对值；

步骤7中假设目标状态s只在一种状态中进行切换，结果上等效于把目标状态s忽略，状态价值函数按如下形式更新q_χ(a_k)←q_χ(a_k)+β[r_k+γmaxq_χ(a')-q_χ(a_k)]；

其中，β为[0,1]之间的学习系数，r_k表示即时奖励函数，γ表示[0,1]之间的折扣因子；a表示波形参数集合A中的任意一个，最后选中的波形参数为a'；maxq_χ(a')表示从状态价值函数q_χ(a)中选择k+1时刻的发射波形行为a'所能带来的最大长期期望奖励，←表示赋值。

步骤8：根据即时奖励更新状态价值函数q_χ(s,a)，RSN发射波形参数a＝[θ¹,θ¹,...,θ^N]，再按照波形选择策略χ在以后的时刻进行发射波形参数的选择，所能够得到的长期期望奖励，其中，s表示机动目标的运动状态；

步骤8中状态价值函数的计算公式为：q_χ(s,a)＝E_χ{V_k|S_k＝s,A_k＝a}，表示为k时刻目标从状态s开始，RSN发射波形参数a所能得到的长期期望奖励；

其中，S_k表示k时刻目标的状态集合，A_k表示k时刻RSN波形参数的集合，

表示长期奖励，γ表示[0,1]之间的折扣因子，R_k表示k时刻的期望奖励。

步骤9：根据更新后的状态价值函数q_χ(s,a)更新波形的选择策略π，表示当目标处于状态s时，更新后的策略χ会从波形库中选择长期期望奖励最大的波形参数作为下一个时刻发射机所发射的波形；

步骤9中选择策略χ定义为：

表示从波形参数集合A中找一个波形参数a使得状态价值函数q_χ(s,a)的取值最大。

本发明的有益效果如下：

(1)本发明中通过RSN中所有雷达为整体对波形进行联合优化，避免了RSN中雷达进行独立优化导致的跟踪性能不佳的问题，提高了RSN中雷达的跟踪性能。

(2)本发明中通过RSN中雷达波形进行联合优化，用信息融合的手段代替了传统的扩维方法，避免了目标状态估计和波形奖励函数计算中相关向量和矩阵维度过高而导致硬件负荷增大的问题，从而能有效延长RSN的生命周期。

(3)本发明中将雷达波形优化与强化学习相结合，对于没有显示最优解的波形优化问题，转化为动态规划问题，利用强化学习从雷达与目标的不断交互过程中完成状态价值函数的更新迭代，收敛至最优的雷达波形选择策略，从而提高了系统对目标跟踪的精度。

附图说明

图1为本发明的流程图；

图2为本发明RSN对目标跟踪的仿真场景示意图；

图3为本发明三种不同方案对目标位置估计的性能比较示意图；

图4为本发明三种不同方案对目标速度估计的性能比较示意图；

图5为本发明三种不同方案熵态的比较示意图；

具体实施方式

为了本技术领域的人员更好的理解本发明，下面结合附图和以下实施例对本发明作进一步详细描述。

实施例：

如图1-5所述，其中，图2中，x-axis y-axis z-axis分别表示x、y、z坐标，L表示两个雷达之间的距离，H表示雷达距离地面的高度，R表示目标与雷达之间的径向距离；一种适用于RSN在目标跟踪任务中的波形优化方法，包括以下步骤：

其中，所述量测信息包括目标与雷达的径向距离r，目标朝向雷达的径向速度v；

选择给雷达发射机配备高斯包络线性调频信号，高斯包络线性调频信号的具体表达形式如下：

表示以e为底的指数函数，t表示时刻，

表示高斯包络线性调频信号的复包络，其计算公式如下：

其中，j表示虚部，λ表示脉冲持续时间，b表示调频斜率。

和状态估计误差协方差矩阵

由于容积卡尔曼滤波器(Cubature Kalman Filter,CKF)能够很好的处理状态转移矩阵和量测矩阵为非线性的情况，且容积规则的点和权重可以脱机计算并且预先存储以加快计算速度，所以目标状态的估计采用CKF来实现；

其中，x为目标在笛卡尔坐标系下x轴的位置坐标，y为目标在笛卡尔坐标系下y轴的位置坐标，z为目标在笛卡尔坐标系下z轴的位置坐标，v_x为目标在笛卡尔坐标系下x轴向的速度，v_y为目标在笛卡尔坐标系下y轴向的速度，v_z为目标在笛卡尔坐标系下z轴向的速度，T表示转置操作，[x,y,z,v_x,v_y,v_z]表示由x,y,z,v_x,v_y,v_z组成的行向量；[x,y,z,v_x,v_y,v_z]^T表示行向量的转置，即表示由x,y,z,v_x,v_y,v_z组成的列向量；

和状态估计误差协方差矩阵

后，依据序贯滤波，对所有的状态估计误差协方差矩阵

的维度与

的维度一致，从全局航迹的角度来优化雷达波形的同时并不会带来高维矩阵求逆困难所引起的计算负荷过大的问题；其中，

表示第n个雷达的状态估计误差协方差矩阵；所谓序贯滤波是现有技术，是一种将高维数据量测更新降低为多个低维数据量测更新的方法，能够有效降低矩阵的求逆计算。

步骤3中对所有状态估计误差协方差矩阵

进行融合的递推公式如下：

其中，

表示第n+1个雷达在第k时刻的量测向量；

表示第n+1个雷达的量测方程

在第k时刻的Jacobi矩阵；

表示前n个雷达对目标状态的融合估计，是一个向量；

所决定；

表示

矩阵的转置，

表示

表示前n+1个雷达状态误差协方差矩阵融合的结果；

表示

的逆；这样融合得到的全局状态误差协方差矩阵就把RSN中所有雷达的波形参数

都被考虑了进去；

其中，

表示求导，

其中，

表示k时刻第n+1台雷达接收信号的信噪比；

所决定；c表示光速；

表示第n+1个雷达在第k时刻发射的高斯包络线性调频信号的调频斜率；

表示第n+1个雷达在第k时刻发射波形的两个优化参数，由

和

组成。

步骤5：雷达中的滤波器评估器根据

对当前时刻RSN所有雷达发射的波形参数

G_k的大小反映了目标对于整个RSN不确定性大小，G_k越小，目标对于RSN的不确定性就越小，滤波器对目标的估计精度就越高；

其中，

步骤7：雷达发射机接收k时刻从雷达接收机反馈过来的熵态G_k，同时取出存放在短时记忆单元中k-1时刻的熵态G_k-1，熵态G_k反应的是目标相对于RSN的不确定性大小，G_k越小，目标相对于RSN的不确定性就越小，RSN对目标的状态估计误差就越小，根据G_k相对于G_k-1的变化设计了一个即时奖励函数r_k，若G_k小于G_k-1时，说明k时刻发射的波形参数能够减少目标的不确定性，也就是说能够提高RSN对目标的估计精度，则给与一个正向奖励，反之，则给予一个负向奖励；若r_k为正，则为正向奖励，奖励的大小为r_k的数值，若r_k为负，则为负向奖励，奖励的大小为r_k的相反数。

步骤7中即时奖励函数为：r_k＝log(1+|G_k-1-G_k|)sign(G_k-1-G_k)；

其中，β为[0,1]之间的学习系数，r_k表示即时奖励函数，γ表示[0,1]之间的折扣因子；a表示波形参数集合A中的任意一个，最后选中的波形参数为a'；maxq_χ(a')表示从状态价值函数q_χ(a)中选择k+1时刻的发射波形行为a'所能带来的最大长期期望奖励，←表示赋值，←表示赋值(先用原先q_χ(a_k)的值计算完右边，在对q_χ(a_k)进行赋值)。

步骤8：根据即时奖励更新状态价值函数q_χ(s,a)，q_χ(s,a)可以理解为在状态s下，RSN发射波形参数a＝[θ¹,θ¹,...,θ^N]，再按照波形选择策略χ在以后的时刻进行发射波形参数的选择，所能够得到的长期期望奖励，其中，s表示机动目标的运动状态；由于此处目标真实状态无法获取，所以采用了一种无状态的状态价值函数，为动态规划问题的一种特殊形式，仍然具有收敛性，即假设目标状态s只在一种状态中进行切换，结果上等效于把状态s忽略，故可按照如下形式对状态价值函数进行更新；

q_χ(s,a)＝E_χ{V_k|S_k＝s,A_k＝a}，表示为k时刻目标从状态s开始，RSN发射波形参数a所能得到的长期期望奖励；

步骤9中选择策略χ定义为：

如图3-5所示，通过上述方法，通过固定波形优化、本申请的波形优化方法和独立玻形优化三种不同的优选方法，从目标位置估计的性能、目标速度估计的性能和方案熵态三个比较不难知道，本申请的波形优化方案的是用融合取代扩维，从全局角度优化RSN中所有雷达波形的同时，避免了量测相关的向量和矩阵维度的增加，减轻了RSN硬件对高维矩阵的运算压力，当RSN中的各个雷达完成了对目标状态的估计之后，将估计信息送往融合中心，其中估计信息包括目标状态估计向量和目标状态估计误差协方差矩阵，融合中心将所有的目标状态估计误差协方差矩阵按照序贯滤波的思想进行融合，得到维度不变的且考虑了所有雷达的全局目标状态估计误差协方差矩阵，用于评估当前时刻RSN发射的所有波形在目标跟踪任务中的性能，评估的结果为一个定量指标-熵态，结合前后两个时刻RSN波形产生的熵态，设计了一个即时奖励函数来描述当前时刻波形相较于上一个时刻发射波形的性能，最后根据强化学习中的Q-learning方法对状态价值函数进行更新，产生相应的波形选择策略，指导雷达发射机发射下一轮的波形参数，从而提高了RSN中雷达的跟踪性能和降低了RSN硬件的计算负荷，更有利于系统的长期运行。

如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准。