CN112162243B - 基于ddpg模型的mimo雷达正交波形的生成方法 - Google Patents
基于ddpg模型的mimo雷达正交波形的生成方法 Download PDFInfo
- Publication number
- CN112162243B CN112162243B CN202010889705.9A CN202010889705A CN112162243B CN 112162243 B CN112162243 B CN 112162243B CN 202010889705 A CN202010889705 A CN 202010889705A CN 112162243 B CN112162243 B CN 112162243B
- Authority
- CN
- China
- Prior art keywords
- evaluation criterion
- waveform
- function
- coding sequence
- ddpg model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000011156 evaluation Methods 0.000 claims abstract description 89
- 108091026890 Coding region Proteins 0.000 claims abstract description 64
- 230000009471 action Effects 0.000 claims description 72
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000005311 autocorrelation function Methods 0.000 claims description 15
- 238000005314 correlation function Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 11
- 238000000819 phase cycle Methods 0.000 claims description 3
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000010276 construction Methods 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 108
- 238000012549 training Methods 0.000 description 15
- 238000013461 design Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012772 sequence design Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/02—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
- G01S7/28—Details of pulse systems
- G01S7/282—Transmitters
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/006—Theoretical aspects
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/02—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
- G01S7/42—Diversity systems specially adapted for radar
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Radio Transmission System (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
本发明实施例提供的一种基于DDPG模型的MIMO雷达正交波形的生成方法,包括:针对MIMO雷达系统中天线的发射波,确定正交波形的评价准则函数;获取MIMO雷达系统的正交波形的任一相位编码序列;计算相位编码序列的评价准则函数值以及波形协方差;将相位编码序列、波形协方差以及评价准则函数值输入预设的DDPG模型,将正交波形的评价准则函数作为DDPG模型的奖励函数,获得使奖励函数值最大的DDPG模型生成的相位编码序列;根据正交波形的相位编码序列,确定正交波形,针对任意码长、任意阵元数的MIMO雷达系统,可以有效实现离线学习、在线实时产生正交相位编码序列。
Description
技术领域
本发明属于雷达技术领域,具体涉及一种基于DDPG模型的MIMO雷达正交波形的生成方法。
背景技术
MIMO(multiple-in multipleout,多进多出)雷达作为一种新体制的雷达形式在近年来受到越来越多的关注。通过MIMO雷达波形设计、波束形成等获得波形分集增益或空间分集增益,在雷达参数估计等方面具有十分明显的优势,尤其是优化MIMO雷达发射波形可以提高雷达对目标的检测能力、提供更高的参数估计能力等。MIMO雷达主要分为两大类:集中式MIMO雷达与分布式MIMO雷达,其中集中式MIMO雷达中发射与接收天线以较小的间距分布,而分布式MIMO雷达的发射或接收的阵列天线之间间距较大。
针对MIMO雷达进行正交或部分相关的发射波形优化设计提高目标参数估计能力,无论是在军事领域还是在民用领域都具有十分重要的意义。
近年来,MIMO雷达系统的正交发射波形设计的研究受到了越来越多的关注,对其研究主要集中在具有较好的时间、多普勒转移容忍性和空间相关性的正交波形设计方面。一些学者针对具有较好的时间相关性的正交波形设计,其中主要内容为研究具有最小自相关旁瓣和互相关能量的正交波形序列设计,即最小化积分旁瓣电平(ISL),同时为了降低计算复杂度和计算速度,利用多种快速优化计算方法进行MIMO雷达正交波形优化设计;一些学者还提出具有较好的多普勒转移容忍性的正交波形设计与具有较好的空间相关性的正交波形设计。
但是,上述设计产生的MIMO雷达系统的正交发射波形,发射阵元之间可能相互关联,导致正交波形发射波形的阵元数以及单个脉冲采样点数有限,因此灵活度不高。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了基于DDPG模型的MIMO雷达正交波形的生成方法。本发明要解决的技术问题通过以下技术方案实现:
本发明实施例提供的一种基于DDPG模型的MIMO雷达正交波形的生成方法,包括:
针对MIMO雷达系统中天线的发射波,确定正交波形的评价准则函数;
获取所述MIMO雷达系统的正交波形的任一相位编码序列;
计算所述相位编码序列的评价准则函数值以及波形协方差;
将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,获得使所述奖励函数值最大的所述DDPG模型生成的相位编码序列;
根据所述正交波形的相位编码序列,确定所述正交波形;
其中,所述奖励函数值表示所述DDPG模型生成的正交波形的互相关和自相关旁瓣积分值。
可选的,所述基于MIMO雷达系统中天线的发射波,确定正交波形的评价准则函数包括:
针对MIMO雷达系统中不同天线的发射波,确定互相关函数;
针对所述MIMO雷达系统中同一天线的发射波,确定自相关函数;
基于所述自相关函数以及互相关函数,确定正交波形的评价准则函数。
可选的,所述基于所述自相关函数以及互相关函数,确定正交波形的评价准则函数包括:
将所述互相关函数以及所述自相关函数进行数学计算,获得正交波形的评价准则函数;
其中,评价准则函数为: 表示两个不同天线发射波的互相关函数,rmm(n)表示相同天线发射波的自相关函数,Mt表示发射阵元个数,N表示每个发射阵元发射相位编码脉冲信号的采样点数,n表示采样点序号,m表示天线,m下标用于区分不同天线。
可选的,预设的DDPG模型训练过程包括:
步骤a,获取多个相位编码序列;
步骤b,针对每个相位编码序列,计算该相位编码序列的波形协方差以及所述评价准则函数值;
步骤c,针对一个相位编码序列,将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,以使所述DDPG模型在自身的动作空间内选择一个动作作为输出;
步骤d,计算所选择的动作的奖励函数值;
步骤e,将上一次输出动作的奖励函数值与本次选择的动作的奖励函数值进行比较,确定奖励函数值的增长方向;
步骤f,按照所述奖励函数值的增长方向,调整所述DDPG模型的权重并将所述动作作为新的编码相位序列,重复执行步骤b至步骤f,直至所述奖励函数值不再变化,获得预设的DDPG模型。
可选的,所述预设的DDPG模型通过如下步骤构建:
构建Q值网络,所述Q值网络由输入层、四个全连接层、加法层以及输出层构成,所述输入层包括:波形协方差矩阵输入层以及相位编码序列输入层,所述波形协方差矩阵输入层与第一个全连接层相连,所述相位编码序列输入层与第二个全连接层相连,所述第一个全连接层与所述第二个全连接层同时与所述加法层相连,所述加法层与第三个全连接层相连,所述第三个全连接层与第四个全连接层相连,所述第四个全连接层与所述输出层相连;
构建策略网络,所述策略网络由输入层、四个全连接层以及输出层,所述策略网络的多个全连接层依次相连,第一个全连接层与输入层相连,第四个全连接层与输出层相连;
将所述Q值网络的输出层与策略网络中每个全连接层相连,获得预设的DDPG模型。
可选的,所述将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,获得使所述奖励函数值最大的所述DDPG模型生成的正交波形包括:
将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,以使所述DDPG模型在自身的动作空间内选择一个使所述正交波形的评价准则函数值最大的动作输出,所述动作空间由多个相位编码序列构成。
可选的,所述将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,以使所述DDPG模型在自身的动作空间内选择一个使所述奖励函数值最大的动作输出的步骤包括:
步骤a,将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,以使所述DDPG模型在自身的动作空间内选择一个动作作为待输出动作;
步骤b,当该待输出动作的评价准则函数值不是所述动作空间内动作的评价准则函数值的最大值,则将所述待输出动作作为输入的相位编码序列,重复执行步骤a;
步骤c,当该待输出动作的评价准则函数值是所述动作空间内动作的评价准则函数值最大的时,输出所述待输出动作。
本发明实施例提供的一种基于DDPG模型的MIMO雷达正交波形的生成方法,通过针对MIMO雷达系统中天线的发射波,确定正交波形的评价准则函数;获取MIMO雷达系统的正交波形的任一相位编码序列;计算相位编码序列的评价准则函数值以及波形协方差;将相位编码序列、波形协方差以及评价准则函数值输入预设的DDPG模型,将正交波形的评价准则函数作为DDPG模型的奖励函数,获得使奖励函数值最大的DDPG模型生成的相位编码序列;根据正交波形的相位编码序列,确定正交波形,针对任意码长、任意阵元数的MIMO雷达系统,可以有效实现离线学习、在线实时产生正交相位编码序列。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1为本发明实施例提供的一种基于DDPG模型的MIMO雷达正交波形的生成方法的流程示意图;
图2为本发明实施例提供的一种Q值网络的结构连接示意图;
图3为本发明实施例提供的一种策略网络的结构连接示意图;
图4为DDPG模型训练时,DDPG模型学习示意图;
图5为本发明实施例提供的在仿真实验过程中的奖励、平均奖励曲线;
图6为本发明实施例提供的机器训练前产生的正交波形的自相关与互相关示意图。
图7为本发明实施例提供的机器训练后产生的正交波形的自相关与互相关示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例一
如图1所示,本发明实施例提供的一种基于DDPG模型的MIMO雷达正交波形的生成方法,包括:
S11,针对MIMO雷达系统中天线的发射波,确定正交波形的评价准则函数;
S12,获取所述MIMO雷达系统的正交波形的任一相位编码序列;
其中,S12步骤获取的相位编码序列是现有技术中的相位编码序列。
S13,计算所述相位编码序列的评价准则函数值以及波形协方差;
S14,将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,获得使所述奖励函数值最大的所述DDPG模型生成的相位编码序列;
S15,根据所述正交波形的相位编码序列,确定所述正交波形。
可以理解,可以使用现有技术根据正交波形的相位编码序列,确定正交波形。
其中,所述奖励函数值表示所述DDPG模型生成的正交波形的互相关和自相关旁瓣积分值。
本发明实施例提供的一种基于DDPG模型的MIMO雷达正交波形的生成方法,通过针对MIMO雷达系统中天线的发射波,确定正交波形的评价准则函数;获取MIMO雷达系统的正交波形的任一相位编码序列;计算相位编码序列的评价准则函数值以及波形协方差;将相位编码序列、波形协方差以及评价准则函数值输入预设的DDPG模型,将正交波形的评价准则函数作为DDPG模型的奖励函数,获得使奖励函数值最大的DDPG模型生成的相位编码序列;根据正交波形的相位编码序列,确定正交波形,针对任意码长、任意阵元数的MIMO雷达系统,可以有效实现离线学习、在线实时产生正交相位编码序列,且灵活度较高。
实施例二
作为本发明实施例提供的一种可选的实施方式,上述S11的步骤包括:
步骤一:针对MIMO雷达系统中不同天线的发射波,确定互相关函数;
步骤二:针对所述MIMO雷达系统中同一天线的发射波,确定自相关函数;
其中,MIMO雷达系统中由Mt个发射阵元,每个发射阵元发射相位编码脉冲信号,该相位编码脉冲信号的采样点数为N,则MIMO雷达正交波形的相位编码序列为
天线m1上的发射波形和天线m2上的发射波形/>之间的互相关为当m1=m2时,/>表示波形/>的自相关。
步骤三:基于所述自相关函数以及互相关函数,确定正交波形的评价准则函数。
实施例三
作为本发明实施例提供的一种可选的实施方式,所述基于所述自相关函数以及互相关函数,确定正交波形的评价准则函数包括:
将所述互相关函数以及所述自相关函数进行数学计算,获得正交波形的评价准则函数;
其中,评价准则函数为: 表示两个不同天线发射波的互相关函数,rmm(n)表示相同天线发射波的自相关函数,Mt表示发射阵元个数,N表示每个发射阵元发射相位编码脉冲信号的采样点数,n表示采样点序号,m表示天线,m下标用于区分不同天线。
可以理解,MIMO雷达波形须满足较低的互相关和自相关旁瓣,数学上可表示为如下准则:
因此将该准则作为DDPG的评价准则函数。
实施例四
作为本发明实施例提供的一种可选的实施方式,上述S14的步骤包括:
步骤a,获取多个相位编码序列;
步骤b,针对每个相位编码序列,计算该相位编码序列的波形协方差以及所述评价准则函数值;
步骤c,针对一个相位编码序列,将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,以使所述DDPG模型在自身的动作空间内选择一个动作作为输出;
步骤d,计算所选择的动作的奖励函数值;
步骤e,将上一次输出动作的奖励函数值与本次选择的动作的奖励函数值进行比较,确定奖励函数值的增长方向;
步骤f,按照所述奖励函数值的增长方向,调整所述DDPG模型的权重并将所述动作作为新的编码相位序列,重复执行步骤b至步骤f,直至所述奖励函数值不再变化,获得使所述奖励函数值最大的所述DDPG模型生成的相位编码序列。
可以理解,DDPG模型由Q值网络以及策略网络构成,Q值网络将状态x(即波形协方差矩阵)与动作a(即相位编码波形序列)作为输入,通过多层全连接深度神经网络计算得到Q值,策略网络将状态x(即波形协方差矩阵)作为输入,通过多层全连接深度神经网络计算得到下一个动作a'(即相位编码波形序列)。波形协方差矩阵x经过由4个全连接层构成的策略网络后得到新的一组相位编码波形序列。
可以理解,在训练过程中,需要首先设置训练参数,包括Q值网络与策略网络的学习率、梯度阈值,随机初始化正交相位编码波形序列。
实施例五
作为本发明实施例提供的一种可选的实施方式,所述预设的DDPG模型通过如下步骤构建:
步骤一:构建Q值网络,所述Q值网络由输入层、四个全连接层、加法层以及输出层构成,所述输入层包括:波形协方差矩阵输入层以及相位编码序列输入层,所述波形协方差矩阵输入层与第一个全连接层相连,所述相位编码序列输入层与第二个全连接层相连,所述第一个全连接层与所述第二个全连接层同时与所述加法层相连,所述加法层与第三个全连接层相连,所述第三个全连接层与第四个全连接层相连,所述第四个全连接层与所述输出层相连;
其中,Q网络与策略网络是内部连接的,Q网络主要是用来控制策略网络选择动作的。
如图2所示,Q值网络由波形协方差矩阵x经过两个全连接层后与相位编码波形序列a经过一个全连接层之后的结果相加再次经过两个全连接层得到,在图2中,全连接层具有的附加层,Relu激活函数在两个全连接层之间,tanh激活函数在最后一个全连接层后。
步骤二:构建策略网络;
如图3所示,所述策略网络由输入层、四个全连接层以及输出层,所述策略网络的多个全连接层依次相连,第一个全连接层与输入层相连,第四个全连接层与输出层相连;波形协方差矩阵x经过由4个全连接层构成的策略网络后得到新的一组相位编码波形序列,在图3中,tanh激活函数位于全连接层之间。
步骤三:将所述Q值网络的输出层与策略网络中每个全连接层相连,获得预设的DDPG模型。
实施例六
作为本发明实施例提供的一种可选的实施方式,步骤S14的步骤包括:
将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,以使所述DDPG模型在自身的动作空间内选择一个使所述正交波形的评价准则函数值最大的动作输出,所述动作空间由多个相位编码序列构成。
实施例七
作为本发明实施例提供的一种可选的实施方式,所述将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,以使所述DDPG模型在自身的动作空间内选择一个使所述奖励函数值最大的动作输出的步骤包括:
步骤a,将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,以使所述DDPG模型在自身的动作空间内选择一个动作作为待输出动作;
步骤b,当该待输出动作的评价准则函数值不是所述动作空间内动作的评价准则函数值的最大值,则将所述待输出动作作为输入的相位编码序列,重复执行步骤a;
步骤c,当该待输出动作的评价准则函数值是所述动作空间内动作的评价准则函数值最大的时,输出所述待输出动作。
如图4所示,对于DDGP模型,动作空间A由任意相位编码序列构成,DDPG模型输出的动作从动作空间做出选择,则对于任意动作a∈A,将其表示为如下的矩阵形式:
其中:第m个天线上的发射波形为:
sm=[sm(1),sm(2),…,sm(N)]T
DDGP模型的状态空间X由正交波形序列不同时间间隔的波形协方差矩阵构成,则任意状态x∈X可以表示为:
其中
DDGP模型中的环境会根据潜在的奖励函数R,即最大化/最小化一个与MIMO雷达正交波形序列互相关和自相关旁瓣积分相关的函数,反馈给DDGP模型一个奖励值r,该奖励函数R可以根据具体情况自由选择。
假设一个矩阵左乘以转移矩阵Jn,结果矩阵的所有列向右移动n列,移走n列补成零,转移矩阵定义为:
利用转移矩阵得到:Rn=(SHJnS)T,n=0,…,N-1
则正交波形的互相关与自相关旁瓣表示为,即奖励函数变形为:
如果n=0,σn=1;否则σn=0,正交波形的互相关与自相关旁瓣积分表示为:
在本发明实施例中,奖赏函数定义可以为:
下面对本发明的实施例进行仿真试验,仿真过程如下:
(一)仿真实验数据设置
本实验考虑发射阵列采用ULA布置,阵元间距为半个波长,发射阵列数目为Mt=3,采样数目为N=40。
策略网络训练过程中的学习率为10-4,梯度阈值为1;Q值网络训练过程中的学习率为10-5,梯度阈值为1。策略网络与Q值网络训练过程中参数更新引入的噪声协方差为10-2。
如图5所示,本实施例中最大训练次数为5000次,训练停止策略为平均“奖赏”(奖励函数值)达到15,平均“奖赏”(奖励函数值)计算的窗长度为10。
(二)仿真实验内容及结果分析
采用最小化所有波形自相关的旁瓣积分,同时最小化不同波形间的互相关旁瓣积分获得MIMO雷达正交波形。
图6所示为本发明实施例提供的机器训练前产生的正交波形的自相关与互相关示意图。图7为本发明实施例提供的机器训练后产生的正交波形的自相关与互相关示意图。由图6以及图7中可知,基于DDPG深度强化学习网络在经过有效的训练后,可以在较快的时间内产生所需的MIMO雷达正交波形。
从仿真实验可知,本发明实施例相比于现有技术具有以下优点:
第一,由于本发明通过DDPG深度强化学习实现MIMO雷达正交波形设计,因此可以实现离线学习、在线产生波形,训练学习后的深度强化学习网络可以快速产生所需要的MIMO雷达正交波形。
第二,由于本发明与发射阵元个数、单个脉冲采样点数之间不具备紧耦合关系,因此可以产生任意发射阵元个数、任意采样点数的MIMO雷达正交发射波形,在波形产生方面具有足够的灵活性。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
本领域技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式,这里将它们都统称为“模块”或“系统”。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中,与其它硬件一起提供或作为硬件的一部分,也可以采用其他分布形式,如通过Internet或其它有线或无线电信系统。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (5)
1.一种基于DDPG模型的MIMO雷达正交波形的生成方法,其特征在于,包括:
针对MIMO雷达系统中天线的发射波,确定正交波形的评价准则函数;
获取所述MIMO雷达系统的正交波形的任一相位编码序列;
计算所述相位编码序列的评价准则函数值以及波形协方差;
将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,获得使所述奖励函数值最大的所述DDPG模型生成的相位编码序列;
根据所述正交波形的相位编码序列,确定所述正交波形;
其中,所述奖励函数值表示所述DDPG模型生成的正交波形的互相关和自相关旁瓣积分值;
将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,获得使所述奖励函数值最大的所述DDPG模型生成的相位编码序列包括:
步骤a,获取多个相位编码序列;
步骤b,针对每个相位编码序列,计算该相位编码序列的波形协方差以及所述评价准则函数值;
步骤c,针对一个相位编码序列,将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,以使所述DDPG模型在自身的动作空间内选择一个动作作为输出;
步骤d,计算所选择的动作的奖励函数值;
步骤e,将上一次输出动作的奖励函数值与本次选择的动作的奖励函数值进行比较,确定奖励函数值的增长方向;
步骤f,按照所述奖励函数值的增长方向,调整所述DDPG模型的权重并将所述动作作为新的编码相位序列,重复执行步骤b至步骤f,直至所述奖励函数值不再变化,获得使所述奖励函数值最大的所述DDPG模型生成的相位编码序列;
所述预设的DDPG模型通过如下步骤构建:
构建值网络,所述Q值网络由输入层、四个全连接层、加法层以及输出层构成,所述输入层包括:波形协方差矩阵输入层以及相位编码序列输入层,所述波形协方差矩阵输入层与第一个全连接层相连,所述相位编码序列输入层与第二个全连接层相连,所述第一个全连接层与所述第二个全连接层同时与所述加法层相连,所述加法层与第三个全连接层相连,所述第三个全连接层与第四个全连接层相连,所述第四个全连接层与所述输出层相连;
构建策略网络,所述策略网络由输入层、四个全连接层以及输出层,所述策略网络的多个全连接层依次相连,第一个全连接层与输入层相连,第四个全连接层与输出层相连;
将所述Q值网络的输出层与策略网络中每个全连接层相连,获得预设的DDPG模型。
2.根据权利要求 1所述的生成方法,其特征在于,所述针对MIMO雷达系统中天线的发射波,确定正交波形的评价准则函数包括:
针对MIMO雷达系统中不同天线的发射波,确定互相关函数;
针对所述MIMO雷达系统中同一天线的发射波,确定自相关函数;
基于所述自相关函数以及互相关函数,确定正交波形的评价准则函数。
3.根据权利要求2所述的生成方法,其特征在于,所述基于所述自相关函数以及互相关函数,确定正交波形的评价准则函数包括:
将所述互相关函数以及所述自相关函数进行数学计算,获得正交波形的评价准则函数;
其中,评价准则函数为:,表示两个不同天线发射波的互相关函数,/>表示相同天线发射波的自相关函数,/>表示发射阵元个数,/>表示每个发射阵元发射相位编码脉冲信号的采样点数,n表示采样点序号,m表示天线,m下标用于区分不同天线。
4.根据权利要求1所述的生成方法,其特征在于,所述将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,获得使所述奖励函数值最大的所述DDPG模型生成的相位编码序列包括:
将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,以使所述DDPG模型在自身的动作空间内选择一个使所述正交波形的评价准则函数值最大的动作输出,所述动作空间由多个相位编码序列构成。
5.根据权利要求4所述的生成方法,其特征在于,所述将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,以使所述DDPG模型在自身的动作空间内选择一个使所述正交波形的评价准则函数值最大的动作输出的步骤包括:
步骤a,将所述相位编码序列、所述波形协方差以及所述评价准则函数值输入预设的DDPG模型,将所述正交波形的评价准则函数作为所述DDPG模型的奖励函数,以使所述DDPG模型在自身的动作空间内选择一个动作作为待输出动作;
步骤b,当该待输出动作的评价准则函数值不是所述动作空间内动作的评价准则函数值的最大值,则将所述待输出动作作为输入的相位编码序列,重复执行步骤a;
步骤c,当该待输出动作的评价准则函数值是所述动作空间内动作的评价准则函数值最大的时,输出所述待输出动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010889705.9A CN112162243B (zh) | 2020-08-28 | 2020-08-28 | 基于ddpg模型的mimo雷达正交波形的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010889705.9A CN112162243B (zh) | 2020-08-28 | 2020-08-28 | 基于ddpg模型的mimo雷达正交波形的生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112162243A CN112162243A (zh) | 2021-01-01 |
CN112162243B true CN112162243B (zh) | 2024-04-30 |
Family
ID=73859351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010889705.9A Active CN112162243B (zh) | 2020-08-28 | 2020-08-28 | 基于ddpg模型的mimo雷达正交波形的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112162243B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113406579B (zh) * | 2021-06-07 | 2022-09-27 | 哈尔滨工程大学 | 一种基于深度强化学习的伪装干扰波形生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103197284A (zh) * | 2013-03-21 | 2013-07-10 | 北京理工大学 | 自相关、正交和多普勒容限约束下的雷达波形设计方法 |
CN104898093A (zh) * | 2015-05-29 | 2015-09-09 | 西安电子科技大学 | 基于gs算法的mimo雷达正交相位编码信号设计方法 |
EP3339880A1 (en) * | 2016-12-22 | 2018-06-27 | Airbus Defence and Space GmbH | Adaptive radar system |
CN109061578A (zh) * | 2018-07-12 | 2018-12-21 | 西安电子科技大学 | 基于mimo雷达的凹口方向图波形综合设计方法 |
CN111060902A (zh) * | 2019-12-30 | 2020-04-24 | 电子科技大学 | 一种基于深度学习的mimo雷达波形设计方法 |
-
2020
- 2020-08-28 CN CN202010889705.9A patent/CN112162243B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103197284A (zh) * | 2013-03-21 | 2013-07-10 | 北京理工大学 | 自相关、正交和多普勒容限约束下的雷达波形设计方法 |
CN104898093A (zh) * | 2015-05-29 | 2015-09-09 | 西安电子科技大学 | 基于gs算法的mimo雷达正交相位编码信号设计方法 |
EP3339880A1 (en) * | 2016-12-22 | 2018-06-27 | Airbus Defence and Space GmbH | Adaptive radar system |
CN109061578A (zh) * | 2018-07-12 | 2018-12-21 | 西安电子科技大学 | 基于mimo雷达的凹口方向图波形综合设计方法 |
CN111060902A (zh) * | 2019-12-30 | 2020-04-24 | 电子科技大学 | 一种基于深度学习的mimo雷达波形设计方法 |
Non-Patent Citations (1)
Title |
---|
MIMO雷达正交连续相位编码波形研究;张田仓;;现代导航;20160815(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112162243A (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ahmed et al. | A reinforcement learning based approach for multitarget detection in massive MIMO radar | |
CN105929371B (zh) | 一种基于协方差矩阵估计的机载雷达杂波抑制方法 | |
CN101887117B (zh) | 基于三迭代的机载mimo雷达空时降维自适应处理方法 | |
CN111693983B (zh) | 互补波形构建方法及模块、认知雷达系统及波形发射方法 | |
CN103675799B (zh) | 一种相控阵声纳系统换能器稀疏面阵优化方法 | |
CN114152916A (zh) | 一种基于先导信息的mimo雷达波形正交方法 | |
CN113341383B (zh) | 基于dqn算法的雷达抗干扰智能决策方法 | |
CN104597434B (zh) | 改进包络移位补偿和分数阶傅里叶变换的多帧相参tbd方法 | |
CN111693975A (zh) | 一种基于深度神经网络的mimo雷达稀疏阵列设计方法 | |
CN111060902B (zh) | 一种基于深度学习的mimo雷达波形设计方法 | |
CN111665474B (zh) | 一种可变分段lfm波形生成及优化方法 | |
CN111856410B (zh) | 恒模约束下机载mimo雷达的稳健发射接收联合优化方法 | |
CN112162243B (zh) | 基于ddpg模型的mimo雷达正交波形的生成方法 | |
CN108594194A (zh) | 基于四线性分解的双基地mimo雷达角度估算方法 | |
CN103116154A (zh) | 基于杂波环境下的发射与接收联合优化自适应滤波方法 | |
CN113376607A (zh) | 机载分布式雷达小样本空时自适应处理方法 | |
CN111736133B (zh) | 基于改进ga-sqp的mimo雷达正交波形设计方法 | |
CN107167782B (zh) | 基于信杂噪比最大的雷达三维异构阵稀疏重构方法 | |
CN113406586B (zh) | 基于约束张量分解的mimo雷达二维波达方向估计方法 | |
CN113960584A (zh) | 一种基于可行点追踪的机载mimo雷达收发联合设计方法 | |
Chen et al. | Joint angle and range estimation for frequency diverse array using multi-layer perceptron neural network | |
CN114966586B (zh) | 双时移stca-mimo雷达无模糊参数估计方法及其装置、电子设备 | |
CN114994626B (zh) | 非线性时移stca-mimo雷达无模糊参数估计方法及其装置 | |
CN114666219B (zh) | 非理想检测下多雷达网络功率与带宽联合优化分配方法及系统 | |
CN117741582B (zh) | 一种基于多维域编码的阵列雷达抗主瓣干扰方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |