CN112162243B

CN112162243B - 基于ddpg模型的mimo雷达正交波形的生成方法

Info

Publication number: CN112162243B
Application number: CN202010889705.9A
Authority: CN
Inventors: 陶海红; 时亮; 曾操; 廖桂生; 何学辉; 郭晶晶; 王海锐; 柳浩�
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2024-04-30
Anticipated expiration: 2040-08-28
Also published as: CN112162243A

Abstract

本发明实施例提供的一种基于DDPG模型的MIMO雷达正交波形的生成方法，包括：针对MIMO雷达系统中天线的发射波，确定正交波形的评价准则函数；获取MIMO雷达系统的正交波形的任一相位编码序列；计算相位编码序列的评价准则函数值以及波形协方差；将相位编码序列、波形协方差以及评价准则函数值输入预设的DDPG模型，将正交波形的评价准则函数作为DDPG模型的奖励函数，获得使奖励函数值最大的DDPG模型生成的相位编码序列；根据正交波形的相位编码序列，确定正交波形，针对任意码长、任意阵元数的MIMO雷达系统，可以有效实现离线学习、在线实时产生正交相位编码序列。

Description

基于DDPG模型的MIMO雷达正交波形的生成方法

技术领域

本发明属于雷达技术领域，具体涉及一种基于DDPG模型的MIMO雷达正交波形的生成方法。

背景技术

MIMO(multiple-in multipleout，多进多出)雷达作为一种新体制的雷达形式在近年来受到越来越多的关注。通过MIMO雷达波形设计、波束形成等获得波形分集增益或空间分集增益，在雷达参数估计等方面具有十分明显的优势，尤其是优化MIMO雷达发射波形可以提高雷达对目标的检测能力、提供更高的参数估计能力等。MIMO雷达主要分为两大类：集中式MIMO雷达与分布式MIMO雷达，其中集中式MIMO雷达中发射与接收天线以较小的间距分布，而分布式MIMO雷达的发射或接收的阵列天线之间间距较大。

针对MIMO雷达进行正交或部分相关的发射波形优化设计提高目标参数估计能力，无论是在军事领域还是在民用领域都具有十分重要的意义。

近年来，MIMO雷达系统的正交发射波形设计的研究受到了越来越多的关注，对其研究主要集中在具有较好的时间、多普勒转移容忍性和空间相关性的正交波形设计方面。一些学者针对具有较好的时间相关性的正交波形设计，其中主要内容为研究具有最小自相关旁瓣和互相关能量的正交波形序列设计，即最小化积分旁瓣电平(ISL)，同时为了降低计算复杂度和计算速度，利用多种快速优化计算方法进行MIMO雷达正交波形优化设计；一些学者还提出具有较好的多普勒转移容忍性的正交波形设计与具有较好的空间相关性的正交波形设计。

但是，上述设计产生的MIMO雷达系统的正交发射波形，发射阵元之间可能相互关联，导致正交波形发射波形的阵元数以及单个脉冲采样点数有限，因此灵活度不高。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了基于DDPG模型的MIMO雷达正交波形的生成方法。本发明要解决的技术问题通过以下技术方案实现：

本发明实施例提供的一种基于DDPG模型的MIMO雷达正交波形的生成方法，包括：

针对MIMO雷达系统中天线的发射波，确定正交波形的评价准则函数；

获取所述MIMO雷达系统的正交波形的任一相位编码序列；

计算所述相位编码序列的评价准则函数值以及波形协方差；

将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型，将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数，获得使所述奖励函数值最大的所述DDPG模型生成的相位编码序列；

根据所述正交波形的相位编码序列，确定所述正交波形；

其中，所述奖励函数值表示所述DDPG模型生成的正交波形的互相关和自相关旁瓣积分值。

可选的，所述基于MIMO雷达系统中天线的发射波，确定正交波形的评价准则函数包括：

针对MIMO雷达系统中不同天线的发射波，确定互相关函数；

针对所述MIMO雷达系统中同一天线的发射波，确定自相关函数；

基于所述自相关函数以及互相关函数，确定正交波形的评价准则函数。

可选的，所述基于所述自相关函数以及互相关函数，确定正交波形的评价准则函数包括：

将所述互相关函数以及所述自相关函数进行数学计算，获得正交波形的评价准则函数；

其中，评价准则函数为：表示两个不同天线发射波的互相关函数，r_mm(n)表示相同天线发射波的自相关函数，M_t表示发射阵元个数，N表示每个发射阵元发射相位编码脉冲信号的采样点数，n表示采样点序号，m表示天线，m下标用于区分不同天线。

可选的，预设的DDPG模型训练过程包括：

步骤a，获取多个相位编码序列；

步骤b，针对每个相位编码序列，计算该相位编码序列的波形协方差以及所述评价准则函数值；

步骤c，针对一个相位编码序列，将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型，将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数，以使所述DDPG模型在自身的动作空间内选择一个动作作为输出；

步骤d，计算所选择的动作的奖励函数值；

步骤e，将上一次输出动作的奖励函数值与本次选择的动作的奖励函数值进行比较，确定奖励函数值的增长方向；

步骤f，按照所述奖励函数值的增长方向，调整所述DDPG模型的权重并将所述动作作为新的编码相位序列，重复执行步骤b至步骤f，直至所述奖励函数值不再变化，获得预设的DDPG模型。

可选的，所述预设的DDPG模型通过如下步骤构建：

构建Q值网络，所述Q值网络由输入层、四个全连接层、加法层以及输出层构成，所述输入层包括：波形协方差矩阵输入层以及相位编码序列输入层，所述波形协方差矩阵输入层与第一个全连接层相连，所述相位编码序列输入层与第二个全连接层相连，所述第一个全连接层与所述第二个全连接层同时与所述加法层相连，所述加法层与第三个全连接层相连，所述第三个全连接层与第四个全连接层相连，所述第四个全连接层与所述输出层相连；

构建策略网络，所述策略网络由输入层、四个全连接层以及输出层，所述策略网络的多个全连接层依次相连，第一个全连接层与输入层相连，第四个全连接层与输出层相连；

将所述Q值网络的输出层与策略网络中每个全连接层相连，获得预设的DDPG模型。

可选的，所述将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型，将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数，获得使所述奖励函数值最大的所述DDPG模型生成的正交波形包括：

将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型，将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数，以使所述DDPG模型在自身的动作空间内选择一个使所述正交波形的评价准则函数值最大的动作输出，所述动作空间由多个相位编码序列构成。

可选的，所述将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型，将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数，以使所述DDPG模型在自身的动作空间内选择一个使所述奖励函数值最大的动作输出的步骤包括：

步骤a，将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型，将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数，以使所述DDPG模型在自身的动作空间内选择一个动作作为待输出动作；

步骤b，当该待输出动作的评价准则函数值不是所述动作空间内动作的评价准则函数值的最大值，则将所述待输出动作作为输入的相位编码序列，重复执行步骤a；

步骤c，当该待输出动作的评价准则函数值是所述动作空间内动作的评价准则函数值最大的时，输出所述待输出动作。

本发明实施例提供的一种基于DDPG模型的MIMO雷达正交波形的生成方法，通过针对MIMO雷达系统中天线的发射波，确定正交波形的评价准则函数；获取MIMO雷达系统的正交波形的任一相位编码序列；计算相位编码序列的评价准则函数值以及波形协方差；将相位编码序列、波形协方差以及评价准则函数值输入预设的DDPG模型，将正交波形的评价准则函数作为DDPG模型的奖励函数，获得使奖励函数值最大的DDPG模型生成的相位编码序列；根据正交波形的相位编码序列，确定正交波形，针对任意码长、任意阵元数的MIMO雷达系统，可以有效实现离线学习、在线实时产生正交相位编码序列。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1为本发明实施例提供的一种基于DDPG模型的MIMO雷达正交波形的生成方法的流程示意图；

图2为本发明实施例提供的一种Q值网络的结构连接示意图；

图3为本发明实施例提供的一种策略网络的结构连接示意图；

图4为DDPG模型训练时，DDPG模型学习示意图；

图5为本发明实施例提供的在仿真实验过程中的奖励、平均奖励曲线；

图6为本发明实施例提供的机器训练前产生的正交波形的自相关与互相关示意图。

图7为本发明实施例提供的机器训练后产生的正交波形的自相关与互相关示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

实施例一

如图1所示，本发明实施例提供的一种基于DDPG模型的MIMO雷达正交波形的生成方法，包括：

S11，针对MIMO雷达系统中天线的发射波，确定正交波形的评价准则函数；

S12，获取所述MIMO雷达系统的正交波形的任一相位编码序列；

其中，S12步骤获取的相位编码序列是现有技术中的相位编码序列。

S13，计算所述相位编码序列的评价准则函数值以及波形协方差；

S14，将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型，将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数，获得使所述奖励函数值最大的所述DDPG模型生成的相位编码序列；

S15，根据所述正交波形的相位编码序列，确定所述正交波形。

可以理解，可以使用现有技术根据正交波形的相位编码序列，确定正交波形。

本发明实施例提供的一种基于DDPG模型的MIMO雷达正交波形的生成方法，通过针对MIMO雷达系统中天线的发射波，确定正交波形的评价准则函数；获取MIMO雷达系统的正交波形的任一相位编码序列；计算相位编码序列的评价准则函数值以及波形协方差；将相位编码序列、波形协方差以及评价准则函数值输入预设的DDPG模型，将正交波形的评价准则函数作为DDPG模型的奖励函数，获得使奖励函数值最大的DDPG模型生成的相位编码序列；根据正交波形的相位编码序列，确定正交波形，针对任意码长、任意阵元数的MIMO雷达系统，可以有效实现离线学习、在线实时产生正交相位编码序列，且灵活度较高。

实施例二

作为本发明实施例提供的一种可选的实施方式，上述S11的步骤包括：

步骤一：针对MIMO雷达系统中不同天线的发射波，确定互相关函数；

步骤二：针对所述MIMO雷达系统中同一天线的发射波，确定自相关函数；

其中，MIMO雷达系统中由M_t个发射阵元，每个发射阵元发射相位编码脉冲信号，该相位编码脉冲信号的采样点数为N，则MIMO雷达正交波形的相位编码序列为

天线m₁上的发射波形和天线m₂上的发射波形/>之间的互相关为当m₁＝m₂时，/>表示波形/>的自相关。

步骤三：基于所述自相关函数以及互相关函数，确定正交波形的评价准则函数。

实施例三

作为本发明实施例提供的一种可选的实施方式，所述基于所述自相关函数以及互相关函数，确定正交波形的评价准则函数包括：

可以理解，MIMO雷达波形须满足较低的互相关和自相关旁瓣，数学上可表示为如下准则：

因此将该准则作为DDPG的评价准则函数。

实施例四

作为本发明实施例提供的一种可选的实施方式，上述S14的步骤包括：

步骤a，获取多个相位编码序列；

步骤d，计算所选择的动作的奖励函数值；

步骤f，按照所述奖励函数值的增长方向，调整所述DDPG模型的权重并将所述动作作为新的编码相位序列，重复执行步骤b至步骤f，直至所述奖励函数值不再变化，获得使所述奖励函数值最大的所述DDPG模型生成的相位编码序列。

可以理解，DDPG模型由Q值网络以及策略网络构成，Q值网络将状态x(即波形协方差矩阵)与动作a(即相位编码波形序列)作为输入，通过多层全连接深度神经网络计算得到Q值，策略网络将状态x(即波形协方差矩阵)作为输入，通过多层全连接深度神经网络计算得到下一个动作a'(即相位编码波形序列)。波形协方差矩阵x经过由4个全连接层构成的策略网络后得到新的一组相位编码波形序列。

可以理解，在训练过程中，需要首先设置训练参数，包括Q值网络与策略网络的学习率、梯度阈值，随机初始化正交相位编码波形序列。

实施例五

作为本发明实施例提供的一种可选的实施方式，所述预设的DDPG模型通过如下步骤构建：

步骤一：构建Q值网络，所述Q值网络由输入层、四个全连接层、加法层以及输出层构成，所述输入层包括：波形协方差矩阵输入层以及相位编码序列输入层，所述波形协方差矩阵输入层与第一个全连接层相连，所述相位编码序列输入层与第二个全连接层相连，所述第一个全连接层与所述第二个全连接层同时与所述加法层相连，所述加法层与第三个全连接层相连，所述第三个全连接层与第四个全连接层相连，所述第四个全连接层与所述输出层相连；

其中，Q网络与策略网络是内部连接的，Q网络主要是用来控制策略网络选择动作的。

如图2所示，Q值网络由波形协方差矩阵x经过两个全连接层后与相位编码波形序列a经过一个全连接层之后的结果相加再次经过两个全连接层得到，在图2中，全连接层具有的附加层，Relu激活函数在两个全连接层之间，tanh激活函数在最后一个全连接层后。

步骤二：构建策略网络；

如图3所示，所述策略网络由输入层、四个全连接层以及输出层，所述策略网络的多个全连接层依次相连，第一个全连接层与输入层相连，第四个全连接层与输出层相连；波形协方差矩阵x经过由4个全连接层构成的策略网络后得到新的一组相位编码波形序列，在图3中，tanh激活函数位于全连接层之间。

步骤三：将所述Q值网络的输出层与策略网络中每个全连接层相连，获得预设的DDPG模型。

实施例六

作为本发明实施例提供的一种可选的实施方式，步骤S14的步骤包括：

实施例七

作为本发明实施例提供的一种可选的实施方式，所述将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型，将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数，以使所述DDPG模型在自身的动作空间内选择一个使所述奖励函数值最大的动作输出的步骤包括：

如图4所示，对于DDGP模型，动作空间A由任意相位编码序列构成，DDPG模型输出的动作从动作空间做出选择，则对于任意动作a∈A，将其表示为如下的矩阵形式：

其中：第m个天线上的发射波形为：

s_m＝[s_m(1),s_m(2),…,s_m(N)]^T

DDGP模型的状态空间X由正交波形序列不同时间间隔的波形协方差矩阵构成，则任意状态x∈X可以表示为：

其中

DDGP模型中的环境会根据潜在的奖励函数R，即最大化/最小化一个与MIMO雷达正交波形序列互相关和自相关旁瓣积分相关的函数，反馈给DDGP模型一个奖励值r，该奖励函数R可以根据具体情况自由选择。

假设一个矩阵左乘以转移矩阵J_n，结果矩阵的所有列向右移动n列，移走n列补成零，转移矩阵定义为：

利用转移矩阵得到：R_n＝(S^HJ_nS)^T，n＝0,…,N-1

则正交波形的互相关与自相关旁瓣表示为，即奖励函数变形为：

如果n＝0，σ_n＝1；否则σ_n＝0，正交波形的互相关与自相关旁瓣积分表示为：

在本发明实施例中，奖赏函数定义可以为：

下面对本发明的实施例进行仿真试验，仿真过程如下：

(一)仿真实验数据设置

本实验考虑发射阵列采用ULA布置，阵元间距为半个波长，发射阵列数目为M_t＝3，采样数目为N＝40。

策略网络训练过程中的学习率为10^-4，梯度阈值为1；Q值网络训练过程中的学习率为10^-5，梯度阈值为1。策略网络与Q值网络训练过程中参数更新引入的噪声协方差为10^-2。

如图5所示，本实施例中最大训练次数为5000次，训练停止策略为平均“奖赏”(奖励函数值)达到15，平均“奖赏”(奖励函数值)计算的窗长度为10。

(二)仿真实验内容及结果分析

采用最小化所有波形自相关的旁瓣积分，同时最小化不同波形间的互相关旁瓣积分获得MIMO雷达正交波形。

图6所示为本发明实施例提供的机器训练前产生的正交波形的自相关与互相关示意图。图7为本发明实施例提供的机器训练后产生的正交波形的自相关与互相关示意图。由图6以及图7中可知，基于DDPG深度强化学习网络在经过有效的训练后，可以在较快的时间内产生所需的MIMO雷达正交波形。

从仿真实验可知，本发明实施例相比于现有技术具有以下优点：

第一，由于本发明通过DDPG深度强化学习实现MIMO雷达正交波形设计，因此可以实现离线学习、在线产生波形，训练学习后的深度强化学习网络可以快速产生所需要的MIMO雷达正交波形。

第二，由于本发明与发射阵元个数、单个脉冲采样点数之间不具备紧耦合关系，因此可以产生任意发射阵元个数、任意采样点数的MIMO雷达正交发射波形，在波形产生方面具有足够的灵活性。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

本领域技术人员应明白，本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式，这里将它们都统称为“模块”或“系统”。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中，与其它硬件一起提供或作为硬件的一部分，也可以采用其他分布形式，如通过Internet或其它有线或无线电信系统。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于DDPG模型的MIMO雷达正交波形的生成方法，其特征在于，包括：

获取所述MIMO雷达系统的正交波形的任一相位编码序列；

计算所述相位编码序列的评价准则函数值以及波形协方差；

根据所述正交波形的相位编码序列，确定所述正交波形；

其中，所述奖励函数值表示所述DDPG模型生成的正交波形的互相关和自相关旁瓣积分值；

将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型，将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数，获得使所述奖励函数值最大的所述DDPG模型生成的相位编码序列包括：

步骤a，获取多个相位编码序列；

步骤d，计算所选择的动作的奖励函数值；

步骤f，按照所述奖励函数值的增长方向，调整所述DDPG模型的权重并将所述动作作为新的编码相位序列，重复执行步骤b至步骤f，直至所述奖励函数值不再变化，获得使所述奖励函数值最大的所述DDPG模型生成的相位编码序列；

所述预设的DDPG模型通过如下步骤构建：

构建值网络，所述Q值网络由输入层、四个全连接层、加法层以及输出层构成，所述输入层包括：波形协方差矩阵输入层以及相位编码序列输入层，所述波形协方差矩阵输入层与第一个全连接层相连，所述相位编码序列输入层与第二个全连接层相连，所述第一个全连接层与所述第二个全连接层同时与所述加法层相连，所述加法层与第三个全连接层相连，所述第三个全连接层与第四个全连接层相连，所述第四个全连接层与所述输出层相连；

2.根据权利要求 1所述的生成方法，其特征在于，所述针对MIMO雷达系统中天线的发射波，确定正交波形的评价准则函数包括：

针对MIMO雷达系统中不同天线的发射波，确定互相关函数；

3.根据权利要求2所述的生成方法，其特征在于，所述基于所述自相关函数以及互相关函数，确定正交波形的评价准则函数包括：

其中，评价准则函数为：，表示两个不同天线发射波的互相关函数，/>表示相同天线发射波的自相关函数，/>表示发射阵元个数，/>表示每个发射阵元发射相位编码脉冲信号的采样点数，n表示采样点序号，m表示天线，m下标用于区分不同天线。

4.根据权利要求1所述的生成方法，其特征在于，所述将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型，将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数，获得使所述奖励函数值最大的所述DDPG模型生成的相位编码序列包括：

5.根据权利要求4所述的生成方法，其特征在于，所述将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型，将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数，以使所述DDPG模型在自身的动作空间内选择一个使所述正交波形的评价准则函数值最大的动作输出的步骤包括：