CN112991384B

CN112991384B - 基于ddpg的发射资源智能认知管理方法

Info

Publication number: CN112991384B
Application number: CN202110111918.3A
Authority: CN
Inventors: 纠博; 刘宏伟; 袁格升; 时玉春
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2023-04-18
Anticipated expiration: 2041-01-27
Also published as: CN112991384A

Abstract

本发明公开了一种基于DDPG的发射资源智能认知管理方法，包括：构建并训练LSTM预测网络；利用深度强化学习智能体感知环境，以获取目标状态的观测值；将目标状态的观测值输入已训练的LSTM预测网络，得到目标的先验信息表示；将目标的先验信息表示输入Actor‑Critic网络，得到动作向量；根据动作向量生成发射波束并分配功率，以实现发射资源的智能管理。本发明提供的基于DDPG的发射资源智能认知管理方法，简化了优化过程，提高了跟踪精度；且未限制发射波束与目标个数的数量关系，使得资源分配更合理，资源的利用效率更高，应用范围更广泛。

Description

基于DDPG的发射资源智能认知管理方法

技术领域

本发明属于目标跟踪技术领域，具体涉及一种基于DDPG的发射资源智能认知管理方法。

背景技术

目标跟踪技术一直以来是雷达探测研究领域中的热点之一，其在军事侦察、精确制导、火力打击、战场评估以及安防监控等诸多方面均有广泛的应用前景。其中，多机动目标跟踪的主要任务是在有限的雷达资源条件下，对每一个机动目标分配足够的能量达到预期的跟踪精度。在实际应用中，雷达的发射资源，包括所能生成的最大波束个数、以及发射的总功率是有限的。随着应用雷达应用场景的复杂化，对于多机动目标跟踪场景下的资源的合理分配，对跟踪精度有着重大的影响。

目前，常用的多机动目标跟踪场景下的资源分配方法主要有两类，一类是基于模型驱动的方法，其主要是应用优化技术，在满足跟踪误差的要求下，最小化发射总功率；或等效地，在满足发射总功率的要求下，最小化跟踪误差。例如M.L.Hernandez等人在文献“PCRLB for tracking in cluttered environments:measurement sequenceconditioning approach[J],IEEE Trans.Aerosp.Electron.Syst.,vol.42,no.2,pp.680–704,Apr.2006.”中提出了通过在满足发射总功率的要求下，最小化目标状态估计误差的贝叶斯克拉美罗界(Bayesian Cramér-Rao Lower Bound，BCRLB)，以最优分配发射功率资源。

另一类是基于数据驱动的方法，其主要应用深度学习技术，利用神经网络来预测目标的状态并分配资源。例如专利文献“基于深度确定性策略梯度DDPG的多机动目标跟踪方法”(专利申请号201911215137.8，申请公开号111027677A)中使用长短期记忆网络(Longshort-term memory,LSTM)从海量的训练数据中学习得到预测模型，用于求得目标状态先验信息的费歇尔信息矩阵(Fisher information matrix,FIM)。在每一个跟踪区间中，LSTM网络的输出被输入至一个深度强化学习的框架中，该框架基于学习到的最优策略来分配发射功率资源。

然而，上述基于模型驱动的方法需要假定目标的运动模型，以计算得到BCRLB。并且，在同时分配波束与发射功率资源的应用下，优化问题往往为复杂的非线性混合整数优化问题，难以求解，这在一定程度上影响了跟踪精度。此外，由于实际应用中，发射波束个数和目标个数的数量关系不确定，而上述基于数据驱动的方法由于设定了发射波束个数与目标数相等，使得资源分配存在不合理的情况，降低了资源利用率，从而限制了其应用范围。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于DDPG的发射资源智能认知管理方法。本发明要解决的技术问题通过以下技术方案实现：

一种基于DDPG的发射资源智能认知管理方法，包括：

构建并训练LSTM预测网络；

利用深度强化学习智能体感知环境，以获取目标状态的观测值；

将所述目标状态的观测值输入已训练的LSTM预测网络，得到目标的先验信息表示；

将所述目标的先验信息表示输入Actor-Critic网络，得到动作向量；

根据所述动作向量生成发射波束并分配功率，以实现发射资源的智能管理。

在本发明的一个实施例中，所述构建并训练LSTM预测网络，包括：

构建LSTM预测网络，并生成训练数据集；

构建所述LSTM预测网络的代价函数；

根据所述训练数据集和所述代价函数训练所述LSTM预测网络。

在本发明的一个实施例中，所述LSTM预测网络包括两层结构，其中，每层结构均包括64个神经元。

在本发明的一个实施例中，所述LSTM网络的代价函数为：

其中，

θ^R为LSTM预测网络的参数，

为第k时刻第q个目标的状态，

分别为其在x轴方向的坐标和速度，

分别为其在y轴方向的坐标和速度，

分别为其RCS的实部和虚部，(·)^T为矩阵的转置运算，(·)^-1为矩阵的求逆运算，

为第k-1时刻对第k时刻目标状态的一步预测，且第k-1时刻对第k时刻目标状态的一步预测服从6维的高斯分布，

为一步预测的协方差矩阵。

在本发明的一个实施例中，所述深度强化学习智能体为雷达。

在本发明的一个实施例中，所述目标状态的观测值采用向量表示；其中，第k时刻第q个目标的状态观测值

包括当前目标的距离、角度、多普勒频率以及雷达截面积RCS。

在本发明的一个实施例中，所述目标的先验信息表示包括目标状态分量的方差和不同分量的相关系数。

在本发明的一个实施例中，将所述目标的先验信息表示输入Actor-Critic网络，得到动作向量，包括：

建立DDPG的Actor-Critic网络；

设置所述Actor-Critic网络的动作和回报；

将所述目标的先验信息表示输入到所述Actor-Critic网络，并采用DDPG算法进行训练，输出动作向量。

在本发明的一个实施例中，所述Actor-Critic网络包括Actor网络和Critic网络，所述Actor网络包括三个子网络Actor1、Actor2、Actor3，其中，所述Actor1子网络用于输出发射波束的个数，所述Actor2子网络用于输出每个波束的指向；所述Actor3子网络用于输出每个波束的发射功率。

在本发明的一个实施例中，所述设置所述Actor-Critic网络的动作和回报，包括：

设置第k时刻的动作为：

a_k＝[δ_k,X_k,P_k]；

其中，δ_k为波束的个数，X_k控制每个波束的指向，P_k＝[P_1,k,...,P_q,k,...,P_Q,k]控制每个波束分配的功率，Q为目标的个数；

设置第k时刻的回报为：

r_k＝-F(P_k,z_k)；

其中，z_k＝[z_1,k,...,z_q,k,...,z_Q,k]为波束选择向量，可由δ_k和X_k确定得到，且

其中，max(·)为取最大值操作，

为开平方根操作，Tr(·)为矩阵的求迹运算，

为第k时刻第q个目标的先验信息FIM矩阵，(·)^-1为矩阵求逆运算，

为目标状态观测值

相对于一步预测

的雅克比矩阵，(·)^T为矩阵转置运算，

为观测误差的协方差矩阵。

本发明的有益效果：

1、本发明提供的基于DDPG的发射资源智能认知管理方法，使用深度强化学习技术，将同时分配波束与发射功率资源的问题转化成经典的马尔科夫决策问题，简化了优化过程，提高了跟踪精度；且未限制发射波束与目标个数的数量关系，使得该方法在实际应用时，资源分配更合理，资源的利用效率更高，应用范围更广泛；

2、本发明通过将DDPG中Actor-Critic网络中的Actor网络结构改进为三个子网络构成，分别用于输出发射波束的个数、每个波束的指向以及每个波束的发射功率，并将这三个子网络的输出合并成Actor网络输出的动作，可用于实时分配波束与发射功率资源，进一步提升了目标跟踪的精度；

3、本发明使用长短时记忆LSTM网络，从海量数据中学习目标的运动特征，得到目标状态的预测网络模型，其中，LSTM可以很好地解决假定目标运动模型带来的模型失配问题，使得本发明在多机动目标跟踪时有更优的跟踪精度。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于DDPG的发射资源智能认知管理方法示意图；

图2是本发明实施例提供的另一种基于DDPG的发射资源智能认知管理方法的流程示意图；

图3是本发明实施例提供的Actor-Critic网络结构框图；

图4是采用本发明基于DDPG的发射资源智能认知管理方法本发明的方法验证实验中8个目标运动的真实轨迹图；

图5是采用本发明的方法和现有基于模型优化的方法时最差目标的均方根误差RMSE和贝叶斯克拉美罗下界BCRLB随帧数的变化示意图；

图6是采用本发明的方法时8个目标的均方根误差RMSE随帧数的变化曲线图；

图7是采用现有基于模型优化的方法时8个目标的均方根误差RMSE随帧数的变化曲线图；

图8是采用本发明的方法时8个目标的资源分配随帧数的变化图像；

图9是采用现有基于模型优化的方法时8个目标的资源分配随帧数的变化图像。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

实施例一

请参见图1，图1是本发明实施例提供的一种基于DDPG的发射资源智能认知管理方法示意图，包括以下步骤：

S1：构建并训练LSTM预测网络，具体包括：

11)构建LSTM预测网络，并生成训练数据集。

本实施例通过从海量数据中学习目标的运动特征，以得到目标状态的LSTM预测网络模型，该网络包括两层结构，其中，每层结构均包括64个神经元。

然后，生成训练数据集。目标的运动轨迹由匀速直线运动、匀速左转弯、匀速右转弯三种运动模型组成。在本实施例中，LSTM预测网络的训练数据为对机动目标状态的观测值，标签为目标的真实状态。

12)构建LSTM预测网络的代价函数。

具体地，LSTM网络的代价函数为：

其中，

θ^R为LSTM预测网络的参数，

为第k时刻第q个目标的状态，

分别为其在x轴方向的坐标和速度，

分别为其在y轴方向的坐标和速度，

为一步预测的协方差矩阵。

13)根据训练数据集和代价函数训练LSTM预测网络。

训练时使用Adam优化器，并应用Dropout来防止过拟合，具体步骤如下：

(1)初始化LSTM网络的权值和偏置参数；

(2)将训练集输入到LSTM网络的输入层，将输入层的权值和偏置计算结果作为隐含层的输入数据；

(3)利用遗忘门函数和输入门函数，隐含层计算输入数据在当前时刻的历史记忆信息；利用输出门函数，隐含层计算输出层的输入数据；

(4)将输出层的权值和偏置计算结果作为目标一步状态的预测值；

(5)利用预测值和标签值计算网络的损失函数值，用批量梯度下降法，循环执行步骤(1)到步骤(4)更新LSTM网络的权值和偏置参数500000次，得到训练好的长短期记忆网络LSTM。

本发明使用长短时记忆LSTM网络，从海量数据中学习目标的运动特征，得到目标状态的预测网络模型，其中，LSTM可以很好地解决假定目标运动模型带来的模型失配问题，使得本发明在多机动目标跟踪时有更优的跟踪精度。

S2：利用深度强化学习智能体感知环境，以获取目标状态的观测值。

请参见图2，图2是本发明实施例提供的另一种基于DDPG的发射资源智能认知管理方法的流程示意图，其中，深度强化学习智能体为雷达。

具体的，雷达实时的对周围环境进行感知，得到环境中各个目标状态的观测值，并采用向量

表示第k时刻第q个目标的状态观测值，其包括当前目标的距离、角度、多普勒频率以及雷达截面积RCS。

S3：将目标状态的观测值输入已训练的LSTM预测网络，得到目标的先验信息表示。

在本实施例中，将步骤S2得到的目标状态的观测值输入步骤S1中已经训练好的LSTM预测网络中，输出目标的先验信息表示。

具体地，本实施例采用向量

表示第k时刻第q个目标状态的先验信息表示，其包括第k-1时刻对第k时刻、第q个目标状态的一步预测

均值及预测协方差矩阵

中的核心参数，包括目标状态分量的方差和不同分量的相关系数。

S4：将所述目标的先验信息表示输入Actor-Critic网络，得到动作向量，具体包括：

41)建立DDPG(Depth deterministic policy gradient，深度确定性策略梯度)的Actor-Critic网络。

请参见图3，图3是本发明实施例提供的Actor-Critic网络结构框图，其包括Actor网络和Critic网络，其中，Actor网络包括三个子网络Actor1、Actor2、Actor3，Actor1子网络用于输出发射波束的个数，Actor2子网络用于输出每个波束的指向；Actor3子网络用于输出每个波束的发射功率。最终三个子网络的输出合并为Actor网络输出的动作向量。

具体地，Actor网络首先由Base作为隐藏层，Base由两层组成，每一层都由一个有256个神经元的Dense层与ReLU激活函数组成。Actor1、Actor2、Actor3子网络都由一个Dense层与Softmax输出层组成，其中Actor1的输入为Base的输出，Actor2的输入为Base和Actor1的输出，Actor3的输入为Base、Actor1和Actor2的输出。三个子网络Actor1、Actor2、Actor3的输出合并为网络Actor的输出。Critic网络为全连接神经网络，包含两个隐藏层，每个隐藏层由256个神经单元构成，激活函数为ReLU函数，输出层只有一个线性神经元。

42)设置Actor-Critic网络的动作和回报。

具体地，本实施例设置第k时刻的动作为：

a_k＝[δ_k,X_k,P_k]；

设置第k时刻的回报为：

r_k＝-F(P_k,z_k)；

其中，max(·)为取最大值操作，

为开平方根操作，Tr(·)为矩阵的求迹运算，

为目标状态观测值

相对于一步预测

的雅克比矩阵，(·)^T为矩阵转置运算，

为观测误差的协方差矩阵。

43)将目标的先验信息表示输入到Actor-Critic网络，并采用DDPG算法进行训练，输出动作向量。

具体地，第k时刻的动作向量包括波束选择向量z_k＝[z_1,k,...,z_q,k,...,z_Q,k]和功率分配向量P_k＝[P_1,k,...,P_q,k,...,P_Q,k]，其中z_q,k为取值为“0”或“1”的二进制形式：z_q,k＝1表示第q个目标有波束照射，z_q,k＝0表示第q个目标没有波束照射；P_q,k表示为第q个目标分配的功率，且z_q,k＝0时P_q,k＝0。

因为深度强化学习网络无法输出二进制形式的z_k，所以在训练时z_k被分为两部分。其中一部分是标量δ_k，表示z_k中“1”的个数，即物理意义上表示波束的个数。另一部分是向量X_k，其元素个数为δ_k个，每个元素代表“1”在z_k中的位置，即向量X_k给出了下一次照射时被照射到目标的索引值。

最终输出的动作向量。为a_k＝[δ_k,X_k,P_k]。

本发明通过将DDPG中Actor-Critic网络中的Actor网络结构改进为三个子网络构成，分别用于输出发射波束的个数、每个波束的指向以及每个波束的发射功率，并将这三个子网络的输出合并成Actor网络输出的动作，可用于实时分配波束与发射功率资源，从而提升了目标跟踪的精度。

S5：根据动作向量生成发射波束并分配功率，以实现发射资源的智能管理。

具体地，由动作向量的δ_k和X_k，恢复得到波束选择向量z_k＝[z_1,k,...,z_q,k,...,z_Q,k]，由波束选择向量即可确定生成δ_k个发射波束，并根据X_k中的索引值，确定Q个目标中被照射到的δ_k个目标。由功率分配向量P_k＝[P_1,k,...,P_q,k,...,P_Q,k]，即可确定每个被照射目标所分配的功率。综上，即可将有限的波束资源和发射功率资源智能地分配到被跟踪的机动目标上，实现发射资源的智能管理。

本发明提供的基于DDPG的发射资源智能认知管理方法，使用深度强化学习技术，将同时分配波束与发射功率资源的问题转化成经典的马尔科夫决策问题，简化了优化过程，提高了跟踪精度；且未限制发射波束与目标个数的数量关系，使得该方法在实际应用时，资源分配更合理，资源的利用效率更高，应用范围更广泛。

实施例二

为了进一步说明本发明的有益效果，下面结合仿真实验进行详细的对比说明。

1.仿真实验条件：

本发明仿真实验的硬件测试平台是：处理器为Intel(R)Core(TM)i7-8700，主频为3.2GHz，内存16GB；软件平台为：MATLAB R2020b，64位操作系统。

2.仿真内容及仿真结果分析：

仿真内容：

本次仿真实验是采用本发明提供的基于DDPG的方法和现有技术提供的基于模型的优化方法对多机动目标进行跟踪实验。

其中，基于模型的优化方法采用M.L.Hernandez，A.Farina和B.Ristic发表在IEEETransactions on Aerospace and Electronic Systems期刊的《PCRLB for tracking incluttered environments:measurement sequence conditioning approach》中所提出的最小化最差目标跟踪误差的BCRLB为代价函数优化资源分配模型的方法。

本发明仿真实验的雷达和目标都在直角坐标系下，雷达位于[0km,0km]，信号的有效带宽为2MHz，信号时宽为1ms，雷达载频为1GHz。在本发明的仿真实验中，对目标连续观测了50次，相邻两次观测间隔为2s。发射功率的上界和下界分别设置为

和

目标在x轴与y轴上初始的位置与速度在[50km,150km]与[-300m/s,300m/s]的范围内随机生成，转弯频率在[0.001Hz,0.008Hz]的范围内随机生成。本发明仿真实验中使用的目标数为8个，初始位置与速度都为(100km,100km)和(200m/s,200m/s)，目标的转弯频率为0.0035Hz。目标的运动轨迹由匀速直线运动、匀速左转弯、匀速右转弯三种运动模型组成，LSTM预测网络的训练数据为对机动目标状态的观测值，标签为目标的真实状态。LSTM网络被训练200000个回合，Actor-Critic网络被训练500000个回合。

仿真结果及分析：

请参见图4，图4是采用本发明基于DDPG的发射资源智能认知管理方法本发明的方法验证实验中8个目标运动的真实轨迹图；

其中，图4中的曲线表示这8个目标运动的真实轨迹，x轴表示目标在直角平面的x方向的坐标，单位为米(m)，y轴表示目标在直角平面的y方向的坐标，单位为米(m)。以虚线“---”和“○”表示的曲线为第1个目标的运动轨迹，以虚线“---”和“×”表示的曲线为第2个目标的运动轨迹，以点线“…”和“□”表示的曲线为第3个目标的运动轨迹，以点线“…”和“◇”表示的曲线为第4个目标的运动轨迹，以实线“—”和“▽”表示的曲线为第5个目标的运动轨迹，以虚线“---”和“☆”表示的曲线为第6个目标的运动轨迹，以实线“—”和“☆”表示的曲线为第7个目标的运动轨迹，以实线“—”和

表示的曲线为第8个目标的运动轨迹。其中目标1和目标4做右转弯运动，目标2、目标5和目标8做左转弯运动，目标3、目标6和目标7做匀速直线运动。

为了验证本发明的仿真实验效果，本发明的仿真实验进行了20次蒙特卡洛实验，利用下述均方根误差RMSE计算公式，分别计算8个机动目标的20次蒙特卡洛实验的均方根误差RMSE，比较本发明所提的基于深度确定性策略梯度DDPG的发射资源智能认知管理方法和现有技术基于优化的多目标跟踪方法对多机动目标跟踪的跟踪精度。

其中，RMSE_k为k时刻的均方根误差，

为开平方根操作，N_MC为蒙特卡洛实验总次数，j为第j次蒙特卡洛实验，

为多机动目标中的第q个目标在k时刻的真实值，

为第j次蒙特卡洛实验中第q个目标在k时刻的预测值，||·||₂为取2-范数操作。

请参见图5，图5是采用本发明的方法和现有基于模型优化的方法时最差目标的均方根误差RMSE和贝叶斯克拉美罗下界BCRLB随帧数的变化示意图，其中，以虚线“---”和“◇”表示的曲线为本发明方法最差目标的RMSE，以虚线“---”和“○”表示的曲线为基于优化的方法最差目标的RMSE，以实线“—”和“□”表示的曲线为本发明方法最差目标的BCRLB，以实线“—”和“☆”表示的曲线为基于优化的方法最差目标的BCRLB。由图5可以看出，随着观测个数的增加，最差目标的RMSE逐渐接近最差目标的BCRLB。从第20帧开始，本发明方法的性能优于基于优化方法性能大约10％。这个性能的提升归因于使用了LSTM预测网络，可以得到更准确的目标先验信息。

请参见图6和图7，图6是采用本发明的方法时8个目标的均方根误差RMSE随帧数的变化曲线图，图7是采用现有基于模型优化的方法时8个目标的均方根误差RMSE随帧数的变化曲线图，其中，以虚线“---”和“○”表示的曲线为第1个目标的RMSE随帧数变化曲线，以虚线“---”和“×”表示的曲线为第2个目标的RMSE随帧数变化曲线，以点线“…”和“□”表示的曲线为第3个目标的RMSE随帧数变化曲线，以点线“…”和“◇”表示的曲线为第4个目标的RMSE随帧数变化曲线，以实线“—”和“▽”表示的曲线为第5个目标的RMSE随帧数变化曲线，以虚线“---”和“☆”表示的曲线为第6个目标的RMSE随帧数变化曲线，以实线“—”和“☆”表示的曲线为第7个目标的RMSE随帧数变化曲线，以实线“—”和

表示的曲线为第8个目标的RMSE随帧数变化曲线。对比发现，图6中本发明方法相对于图7中基于优化的方法，可让不同目标RMSE随帧数变化曲线更加靠近，这表明本发明方法提出的功率分配方案对功率的利用效率更高。

请参见图8和图9，图8是采用本发明的方法时8个目标的资源分配随帧数的变化图像，图9是采用现有基于模型优化的方法时8个目标的资源分配随帧数的变化图像，其中，纵轴8个目标的索引分别表示这8个目标。从图8和图9，可以看出，因为目标4、目标5、目标6和目标7在远离雷达，所以更多的波束和功率资源更多地被分配在这4个目标中，以取得更优的跟踪性能。实际上，波束与功率资源不仅取决于目标的径向距离，同时与取决于目标的径向速度，尤其是目标离得足够近时。如图8，对比接近雷达的目标1、目标2、目标3和目标8，可见更多的功率被分配到目标1，因为目标1有更大的径向速度，可能导致更大的BCRLB。而在图8中，从第20帧开始，更多的功率与波束资源倾向于被分配到更远的目标，如目标1和目标2。

综上，与现有的基于模型优化的方法相比，本发明的方法能提升雷达发射资源的利用效率。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于DDPG的发射资源智能认知管理方法，其特征在于，包括：

构建并训练LSTM预测网络；

将所述目标的先验信息表示输入Actor-Critic网络，得到动作向量，具体包括：

将所述目标的先验信息表示输入Actor-Critic网络，得到动作向量，包括：

建立DDPG的Actor-Critic网络；

设置所述Actor-Critic网络的动作和回报：

设置第k时刻的动作为：

a_k＝[δ_k,X_k,P_k]；

设置第k时刻的回报为：

r_k＝-F(P_k,z_k)；

其中，z_k＝[z_1,k,...,z_q,k,...,z_Q,k]为波束选择向量，由δ_k和X_k确定得到，且

其中，max(·)为取最大值操作，

为开平方根操作，Tr(·)为矩阵的求迹运算，

为目标状态观测值

相对于一步预测

的雅克比矩阵，(·)^T为矩阵转置运算，

为观测误差的协方差矩阵；

将所述目标的先验信息表示输入到所述Actor-Critic网络，并采用DDPG算法进行训练，输出动作向量；

2.根据权利要求1所述的基于DDPG的发射资源智能认知管理方法，其特征在于，所述构建并训练LSTM预测网络，包括：

构建LSTM预测网络，并生成训练数据集；

构建所述LSTM预测网络的代价函数；

根据所述训练数据集和所述代价函数训练所述LSTM预测网络。

3.根据权利要求1或2所述的基于DDPG的发射资源智能认知管理方法，其特征在于，所述LSTM预测网络包括两层结构，其中，每层结构均包括64个神经元。

4.根据权利要求2所述的基于DDPG的发射资源智能认知管理方法，其特征在于，所述LSTM网络的代价函数为：

其中，

θ^R为LSTM预测网络的参数，

为第k时刻第q个目标的状态，

分别为其在x轴方向的坐标和速度，

分别为其在y轴方向的坐标和速度，

为一步预测的协方差矩阵。

5.根据权利要求1所述的基于DDPG的发射资源智能认知管理方法，其特征在于，所述深度强化学习智能体为雷达。

6.根据权利要求1所述的基于DDPG的发射资源智能认知管理方法，其特征在于，所述目标状态的观测值采用向量表示；其中，第k时刻第q个目标的状态观测值

7.根据权利要求1所述的基于DDPG的发射资源智能认知管理方法，其特征在于，所述目标的先验信息表示包括目标状态分量的方差和不同分量的相关系数。

8.根据权利要求1所述的基于DDPG的发射资源智能认知管理方法，其特征在于，所述Actor-Critic网络包括Actor网络和Critic网络，所述Actor网络包括三个子网络Actor1、Actor2、Actor3，其中，所述Actor1子网络用于输出发射波束的个数，所述Actor2子网络用于输出每个波束的指向；所述Actor3子网络用于输出每个波束的发射功率。