CN113158886B - 一种基于深度强化学习的波形捷变雷达辐射源识别方法 - Google Patents

一种基于深度强化学习的波形捷变雷达辐射源识别方法 Download PDF

Info

Publication number
CN113158886B
CN113158886B CN202110420220.XA CN202110420220A CN113158886B CN 113158886 B CN113158886 B CN 113158886B CN 202110420220 A CN202110420220 A CN 202110420220A CN 113158886 B CN113158886 B CN 113158886B
Authority
CN
China
Prior art keywords
radiation source
pulse
waveform
state
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110420220.XA
Other languages
English (en)
Other versions
CN113158886A (zh
Inventor
冯蕴天
王国良
陈翔
许雄
韩慧
邰宁
吴若无
冯润明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
UNIT 63892 OF PLA
Original Assignee
UNIT 63892 OF PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by UNIT 63892 OF PLA filed Critical UNIT 63892 OF PLA
Priority to CN202110420220.XA priority Critical patent/CN113158886B/zh
Publication of CN113158886A publication Critical patent/CN113158886A/zh
Application granted granted Critical
Publication of CN113158886B publication Critical patent/CN113158886B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于深度强化学习的波形捷变雷达辐射源识别方法,其包括以下步骤:S1、构建辐射源识别任务中的深度强化学习框架;S2、分别使用卷积神经网络CNN和双向长短时记忆网络Bi‑LSTM对雷达辐射源进行建模,计算出初始状态和转移状态;S3、设计强化学习中的惩罚函数并增大对第一步决策错误的惩罚;S4、使用Q‑Learning算法学习出针对不同波形类别的辐射源所采用的建模识别策略。本发明采用两步决策法对波形捷变雷达辐射源进行识别,针对不同的波形类别设计不同的策略,相比于现有技术中的其他网络模型识别准确率提高了1.35%。

Description

一种基于深度强化学习的波形捷变雷达辐射源识别方法
技术领域
本发明涉及雷达信号处理技术领域,尤其是涉及一种基于深度强化学习的波形捷变雷达辐射源识别方法。
背景技术
雷达辐射源识别(radar emitter recognition,RER)是雷达对抗侦察中的关键环节,它是在分选的基础上提取雷达辐射源信号中的特征参数和工作参数,在这些参数的基础上可获取该目标辐射源的体制、用途、型号、载体平台等信息,进而能够对战场态势、威胁等级、活动规律和战术意图等进行推理,为己方决策提供重要情报支持。
波形捷变雷达辐射源指其信号参数发生迅速变化的雷达辐射源,该参数主要指载频、脉宽、脉冲重复间隔,故捷变频信号、变脉宽信号、重频变换信号等多种复杂信号均属于此范畴。雷达辐射源按照波形变化模式,大致将所有的雷达辐射源分为4个波形类别,其中第1类和第2类为常规的雷达辐射源,第3类和第4类为波形捷变的雷达辐射源,上述4个波形类别具体描述如下:第1类具体是指信号特征参数固定不变的雷达辐射源;第2类具体是指使用固定脉冲集的雷达辐射源,但其脉冲出现的顺序会发生变化;第3类具体是指脉间波形捷变的雷达辐射源,具有短期的捷变特性,其信号特征参数会随着每个脉冲而变化,参数取值将在相同的范围内变化或大部分重叠,但不同辐射源的参数变化模式显著不同;第4类具体是指组间波形捷变的雷达辐射源,具有长期的捷变特性,其使用相同的信号特征参数传输一组脉冲,然后再以不同的参数传输下一组脉冲,参数取值的范围将存在较低的重叠。
在上述数据集中,4种不同波形类别的辐射源数量极不平衡,参数变化范围很大,因此对于波形捷变雷达辐射源识别任务而言,这确实是一个相当不平衡的数据集。
发明内容
为解决上述问题,本发明的目的是提供一种基于深度强化学习的波形捷变雷达辐射源识别方法,其分为两步:(1)、对波形捷变雷达辐射源进行初步判断,对其波形变化类别进行分类;(2)、将该波形捷变雷达辐射源决策分类为具体的辐射源类别。
为实现上述发明目的,本发明采用如下技术方案:
一种基于深度强化学习的波形捷变雷达辐射源识别方法,其包括以下步骤:
S1、构建辐射源识别任务中的深度强化学习框架,具体操作方法为:
步骤1.1、将雷达辐射源发射的一个脉冲组作为整个框架的输入;
步骤1.2、分别采用两种不同的深度学习模型对雷达辐射源进行深层特征提取与表示,形成了初始状态s0和转移状态s1、s2、s3、s4,其中,初始状态中包含了辐射源的波形变化模式特征,转移状态中包含了辐射源的具体类别特征,终止状态为se,得到状态集合S,S={s0,s1,s2,s3,s4,se};
步骤1.3、设置可以执行的动作为a1、a2、a3、a4、a5、a6、…、ap+4,其中,a1、a2、a3、a4为针对辐射源波形变化模式的分类操作,a5、a6、…、ap+4为针对辐射源具体类别的分类操作,p为辐射源具体类别的总个数,得到动作集合A,A={a1,a2,a3,a4,a5,a6,...,ap+4};
步骤1.4、通过在状态集合S上执行动作集合A,实现与雷达辐射源信号的不断交互,最终完成波形捷变雷达辐射源的识别;
S2、分别使用卷积神经网络CNN和双向长短时记忆网络Bi-LSTM对雷达辐射源进行建模,计算出初始状态和转移状态;
S3、设计强化学习中的惩罚函数并增大对第一步决策错误的惩罚;
S4、使用Q-Leaming算法学习出针对不同波形类别的辐射源所采用的建模识别策略,具体操作方法为:
步骤4.1、利用一个神经网络模型来近似强化学习中的状态-动作值函数Q(s,a),使Q(s,a)=MLP(φ(x;θ),a;η),φ(x;θ)表示经由上述深度学习模型提取出的状态向量,x表示输入的辐射源分布式特征,η表示该神经网络模型的参数;
步骤4.2、用估计的值函数Qη(s,a)代替真实的值函数Qπ(s,a),并使用最小二乘误差来度量Qη(s,a)的近似程度
Eη=E[(Qπ(s,a)-Qη(s,a))2];
步骤4.3、在每一轮epoch时,参数都会更新,以降低当前状态-动作对的预测值Qη(s,a)与期望值Qπ(s,a)之间的差异,执行以下随机梯度下降步骤
Figure GDA0004068772550000031
Figure GDA0004068772550000032
参数的更新规则为
Figure GDA0004068772550000033
其中,α是更新步长,r代表奖赏函数;(s′,a′)是下一时刻的动作-状态对;
步骤4.4、在学习得到Q函数的值后,选择具有最高Qη(s,a″)值的动作,最大化期望的未来奖赏;
π(s)=arg maxa″Qη(s,a″)
步骤4.5、从一个随机的Q函数的值开始,通过执行步骤S3中的决策并获得奖赏来不断更新Q值,最终得到控制策略π。
进一步地,上述的步骤S2,具体操作方法为:
步骤2.1、针对辐射源发射的一个脉冲组,将其中每个脉冲的脉间离散特征转换为连续特征,得到预处理后的分布式特征x=[x1,x2,...,xm],其中,m为一个脉冲组中包含脉冲的总个数,并作为卷积神经网络CNN和双向长短时记忆网络Bi-LSTM的输入,即采用稀疏分布式的方法把脉冲描述字序列PDWSeq=[P1,P2,...,Pi,...,Pm]中的每个元素Pi转换为xi=(Hpai,Hrfi,Hpwi,Hprii,Hdoai),其中Pi指第i个脉冲的脉冲描述字特征,Hpai、Hrfi、Hpwi、Hprii和Hdoai为五个高维实数向量,分别指脉冲幅度、脉冲载频、脉冲宽度、脉冲重复间隔和脉冲到达角的分布式表示结果,维度均设定为100;
步骤2.2、使用卷积神经网络CNN的滤波器fs提取输入中的重要结构特征,得到的局部特征向量为Cs=[c1,c2,...,ci,...,cn-s+1],其中,
Figure GDA0004068772550000041
n为输入到该卷积层的特征向量的维度,s为滤波器fs的宽度,g为非线性函数,b为偏置项;该卷积层得到的特征向量Cs是对输入辐射源的脉冲组的一种全局性抽象表示;
步骤2.3、使用卷积神经网络CNN的池化函数确定卷积层中最相关的特征,即使用最大池化方法计算出最大池化得分
Figure GDA0004068772550000042
产生一个最大池化得分向量
Figure GDA0004068772550000043
对最大池化得分向量P进行一次非线性变换,得到s0,s0即为卷积神经网络CNN最终生成的深层模式特征,作为整个深度强化学习框架的初始状态;
步骤2.4、分布式特征x=[x1,x2,...,xm]被送入一系列正向的LSTM单元和反向的LSTM单元,在整个输入脉冲组对每个脉冲进行建模,对于当前脉冲的分布式特征xt,正向地和反向地分别表示为两个单独的隐层向量ht和h′t
步骤2.5、将上述两个隐层向量ht和h′t相加,即得到最后的输出
Ht=ht+h′t
输出向量Ht为使用双向长短时记忆网络Bi-LSTM为每个脉冲抽取出的深层特征,其中包含了整个输入脉冲组的信息,所有的输出向量都经由一个Softmax层进行非线性变换,得到脉冲信号数据的序列差别特征,即一个固定维数大小的时序特征向量s1、s2、s3或s4,作为整个深度强化学习框架的转移状态;
步骤2.6、以辐射源信号数据作为训练样本,并将其波形类别作为数据标签,对卷积神经网络CNN模型的参数进行预训练;然后,分别以4种不同波形类别的辐射源作为训练样本,并将不同波形类别下辐射源的具体类别作为数据标签,对4种不同的双向长短时记忆网络Bi-LSTM模型的参数进行预训练。
更进一步地,上述的步骤2.6中,在参数预训练的过程中,将卷积神经网络CNN模型提取出的深层特征向量s0=CNN(x;θ0),双向长短时记忆网络Bi-LSTM模型提取出的4种不同深层特征向量s1=Bi(x;θ1)、s2=Bi(x;θ2)、s3=Bi(x;θ3)和s4=Bi(x;θ4)都传递给一个标准的全连接神经网络,并使用一个Softmax层以产生条件概率分布P(y|x),表示在已知输入的辐射源分布式特征x的条件下,属于类别标签y的条件概率,为辐射源指派一个条件概率最高的类别标签。
更进一步地,上述的步骤2.6中,每个辐射源定义一个标记向量t,如果辐射源属于第i种类别,标记向量t中第i位元素ti为1,其他元素都是0,并使用梯度下降算法优化输出结果向量y与标记向量t之间的交叉熵误差;对于每一个辐射源训练样本,定义目标函数
Figure GDA0004068772550000051
其中,θ包含上述的θ0、θ1、θ2、θ3和θ4,表示需要预训练的模型未知参数;参数预训练过程是采用梯度下降算法来最小化目标函数,并使用AdaDelta更新法则。
进一步地,上述的步骤S3,具体操作方法为:
步骤3.1、在与环境交互的过程中产生了状态转移(s0,a1,r1,s1)、(s0,a2,r2,s2)、(s0,a3,r3,s3)、(s0,a4,r4,s4)、(s1,a5,r5,se)、(s2,a6,r6,se)、…、(sp,ap+4,rp+4,se);
(s0,a1,r1,s1)表示在初始状态s0上执行动作a1,转移到了转移状态s1,并且从环境中获得了奖赏r1;进行状态转移(s0,a1,r1,s1)后,若该辐射源的波形变化模式确实为第1类,即动作a1的判定正确,则令r1=10;若上述判定错误,则令r1=-10,对动作a1决策的错误进行惩罚;(s0,a2,r2,s2)、(s0,a3,r3,s3)和(s0,a4,r4,s4)的惩罚项设置与上述(s0,a1,r1,s1)的设置相同;
(s1,a5,r5,se)表示在转移状态s1上执行动作a5,转移到了终止状态se,并且从环境中获得了奖赏r5;进行状态转移(s1,a5,r5,se)后,若该辐射源所属的具体类别与动作a5的判定相符,则令r5=5;若不相符,则令r5=-5;状态转移(s2,a6,r6,se)、…、(sp,ap+4,rp+4,se)的惩罚项设置与上述(s1,a5,r5,se)的设置相同。
由于采用如上所述的技术方案,本发明具有如下优越性:
该基于深度强化学习的波形捷变雷达辐射源识别方法,其采用两步决策法对波形捷变雷达辐射源进行识别,针对不同的波形类别设计不同的策略;通过采用深度强化学习方法智能地对波形捷变雷达辐射源识别任务进行建模,能够对每一步决策的结果加以奖赏或惩罚,若第一步决策造成错误,加大惩罚力度,以此来应对不同波形类别之间数量不平衡的问题;相比于现有技术中的其他网络模型识别准确率提高了1.35%。
附图说明
图1是本发明基于深度强化学习的波形捷变雷达辐射源识别方法的流程图;
图2是本发明中的深度强化学习框架图;
图3是本发明中的卷积神经网络CNN结构图;
图4是本发明中使用双向长短时记忆网络Bi-LSTM提取长距离脉冲信号特征的示意图;
图5是本发明中迭代次数对平均奖赏的影响的实验结果图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步详细说明。
如图1所示,本发明的基于深度强化学习的波形捷变雷达辐射源识别方法,其包括以下步骤:
S1、构建辐射源识别任务中的深度强化学习框架,具体操作方法为:
步骤1.1、将雷达辐射源发射的一个脉冲组作为整个框架的输入;
步骤1.2、分别采用两种不同的深度学习模型对雷达辐射源进行深层特征提取与表示,形成了初始状态s0和转移状态s1、s2、s3、s4,其中初始状态中包含了辐射源的波形变化模式特征,转移状态中包含了辐射源的具体类别特征,终止状态为se,得到状态集合S,S={s0,s1,s2,s3,s4,se};
步骤1.3、设置可以执行的动作为a1、a2、a3、a4、a5、a6、…、ap+4,其中,a1、a2、a3、a4为针对辐射源波形变化模式的分类操作,a5、a6、…、ap+4为针对辐射源具体类别的分类操作,p为辐射源具体类别的总个数,得到动作集合A,A={a1,a2,a3,a4,a5,a6,...,ap+4};
步骤1.4、通过在状态集合S上执行动作集合A,实现与雷达辐射源信号的不断交互,最终完成波形捷变雷达辐射源的识别;
将具体交互过程定义如下:在s0上执行动作a1、a2、a3和a4,a1表示将该辐射源的波形变化模式判定为第1类,执行a1后,到达转移状态s1;a2表示将该辐射源的波形变化模式判定为第2类,执行a2后,到达转移状态s2;a3表示将该辐射源的波形变化模式判定为第3类,执行a3后,到达转移状态s3;a4表示将该辐射源的波形变化模式判定为第4类,执行a4后,到达转移状态s4。在s1、s2、s3和s4上执行动作a5,a6……,分别表示将该辐射源判定为某一具体的辐射源类别,执行这些动作后都到达终止状态se
S2、分别使用卷积神经网络CNN和双向长短时记忆网络Bi-LSTM对雷达辐射源进行建模,计算出初始状态和转移状态;
具体操作方法为:
步骤2.1、针对辐射源发射的一个脉冲组,将其中每个脉冲的脉间离散特征转换为连续特征,得到预处理后的分布式特征x=[x1,x2,...,xm],其中,m为一个脉冲组中包含脉冲的总个数,并作为卷积神经网络CNN和双向长短时记忆网络Bi-LSTM的输入,即采用稀疏分布式的方法把脉冲描述字序列PDWSeq=[P1,P2,...,Pi,...,Pm]中的每个元素Pi转换为xi=(Hpai,Hrfi,Hpwi,Hprii,Hdoai),其中Pi指第i个脉冲的脉冲描述字特征,Hpai、Hrfi、Hpwi、Hprii和Hdoai为五个高维实数向量,分别指脉冲幅度、脉冲载频、脉冲宽度、脉冲重复间隔和脉冲到达角的分布式表示结果,维度均设定为100;
步骤2.2、使用卷积神经网络CNN的滤波器fs提取输入中的重要结构特征,得到的局部特征向量为Cs=[c1,c2,...,ci,...,cn-s+1],其中,
Figure GDA0004068772550000081
n为输入到该卷积层的特征向量的维度,s为滤波器fs的宽度,g为非线性函数,b为偏置项;该卷积层得到的特征向量Cs是对输入辐射源的脉冲组的一种全局性抽象表示;
步骤2.3、使用卷积神经网络CNN的池化函数确定卷积层中最相关的特征,即使用最大池化方法计算出最大池化得分
Figure GDA0004068772550000082
产生一个最大池化得分向量
Figure GDA0004068772550000083
对最大池化得分向量P进行一次非线性变换,得到s0,s0即为卷积神经网络CNN最终生成的深层模式特征,作为整个深度强化学习框架的初始状态;
步骤2.4、分布式特征x=[x1,x2,...,xm]被送入一系列正向的LSTM单元和反向的LSTM单元,在整个输入脉冲组范围对每个脉冲进行建模,对于当前脉冲的分布式特征xt,正向地和反向地分别表示为两个单独的隐层向量ht和h′t
正向LSTM单元的计算公式为
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc)
ct=itgt+ftct-1
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ot tanh(ct)
其中,ht-1为相邻时刻的反馈特征,ct-1为记忆细胞中的存储值,W为权重矩阵,b为偏置向量,σ为逻辑斯特函数,下标表示参数所对应的不同对象;反向LSTM单元的计算公式与上述公式类似;
步骤2.5、将上述两个隐层向量ht和h′t相加,即得到最后的输出
Ht=ht+h′t
输出向量Ht为使用双向长短时记忆网络Bi-LSTM为每个脉冲抽取出的深层特征,其中包含了整个输入脉冲组的信息,所有的输出向量都经由一个Softmax层进行非线性变换,即得到脉冲信号数据的序列差别特征,即一个固定维数大小的时序特征向量s1、s2、s3或s4,作为整个深度强化学习框架的转移状态;
步骤2.6、以辐射源信号数据作为训练样本,并将其波形类别作为数据标签,对卷积神经网络CNN模型的参数进行预训练;然后,分别以4种不同波形类别的辐射源作为训练样本,并将不同波形类别下辐射源的具体类别作为数据标签,对4种不同的双向长短时记忆网络Bi-LSTM模型的参数进行预训练;
在参数预训练的过程中,将卷积神经网络CNN模型提取出的深层特征向量s0=CNN(x;θ0),双向长短时记忆网络Bi-LSTM模型提取出的4种不同深层特征向量s1=Bi(x;θ1)、s2=Bi(x;θ2)、s3=Bi(x;θ3)和s4=Bi(x;θ4)都传递给一个标准的全连接神经网络,并使用一个Softmax层以产生条件概率分布P(y|x),表示在已知输入的辐射源分布式特征x的条件下,属于类别标签y的条件概率,为辐射源指派一个条件概率最高的类别标签;
每个辐射源定义一个标记向量t,如果辐射源属于第i种类别,标记向量t中第i位元素ti为1,其他元素都是0,并使用梯度下降算法优化输出结果向量y与标记向量t之间的交叉熵误差;对于每一个辐射源训练样本,定义目标函数
Figure GDA0004068772550000091
其中,θ包含上述的θ0、θ1、θ2、θ3和θ4,表示需要预训练的模型未知参数;参数预训练过程是采用梯度下降算法来最小化目标函数,并使用AdaDelta更新法则;
S3、设计强化学习中的惩罚函数并增大对第一步决策错误的惩罚,应对不同波形类别之间数量不平衡的问题;
具体操作方法为:
步骤3.1、在与环境交互的过程中产生了状态转移(s0,a1,r1,s1)、(s0,a2,r2,s2)、(s0,a3,r3,s3)、(s0,a4,r4,s4)、(s1,a5,r5,se)、(s2,a6,r6,se)、…、(sp,ap+4,rp+4,se);
(s0,a1,r1,s1)表示在初始状态s0上执行动作a1,转移到了转移状态s1,并且从环境中获得了奖赏r1;进行状态转移(s0,a1,r1,s1)后,若该辐射源的波形变化模式确实为第1类,即动作a1的判定正确,则令r1=10;若上述判定错误,则令r1=-10,对动作a1决策的错误进行惩罚;(s0,a2,r2,s2)、(s0,a3,r3,s3)和(s0,a4,r4,s4)的惩罚项设置与上述(s0,a1,r1,s1)的设置相同;
(s1,a5,r5,se)表示在转移状态s1上执行动作a5,转移到了终止状态se,并且从环境中获得了奖赏r5;进行状态转移(s1,a5,r5,se)后,若该辐射源所属的具体类别与动作a5的判定相符,则令r5=5;若不相符,则令r5=-5;状态转移(s2,a6,r6,se)、…、(sp,ap+4,rp+4,se)的惩罚项设置与上述(s1,a5,r5,se)的设置相同;
S4、使用Q-Learning算法学习出针对不同波形类别的辐射源所采用的建模识别策略;
具体操作方法为:
步骤4.1、利用一个神经网络模型来近似强化学习中的状态-动作值函数Q(s,a),使Q(s,a)=MLP(φ(x;θ),a;η),φ(x;θ)表示经由上述深度学习模型提取出的状态向量,x表示输入的辐射源分布式特征,η表示该神经网络模型的参数;
步骤4.2、用估计的值函数Qη(s,a)代替真实的值函数Qπ(s,a),并使用最小二乘误差来度量Qη(s,a)的近似程度
Eη=E[(Qπ(s,a)-Qη(s,a))2];
步骤4.3、在每一轮epoch时,参数都会更新,以降低当前状态-动作对的预测值Qη(s,a)与期望值Qπ(s,a)之间的差异,执行以下随机梯度下降步骤
Figure GDA0004068772550000111
Figure GDA0004068772550000112
参数的更新规则为
Figure GDA0004068772550000113
其中,α是更新步长,r代表奖赏函数;(s′,a′)是下一时刻的动作-状态对;
步骤4.4、在学习得到Q函数的值后,选择具有最高Qη(s,a″)值的动作,最大化期望的未来奖赏;
π(s)=argmaxa″Qη(s,a″)
步骤4.5、从一个随机的Q函数的值开始,通过执行步骤S3中的决策并获得奖赏来不断更新Q值,最终可得到控制策略π。
本发明基于深度强化学习的波形捷变雷达辐射源识别方法,其在Ubuntu操作系统下,搭建了Python3.6.5+Pytorch1.5.1+Cuda10.1的深度强化学习开发环境,具体实现了CNN和Bi-LSTM模型,以及值函数近似的Q-Learning算法。
同时,为了验证本发明基于深度强化学习的波形捷变雷达辐射源识别方法的性能,仿真生成了波形捷变雷达辐射源数据集,15000个雷达辐射源模式,每个模式就是一个脉冲组,即15000个脉冲组,通常40个~200个脉冲即可代表辐射源的一种模式。脉冲组由每个脉冲的常规特征组成,而波形捷变雷达辐射源脉冲信号的常规特征参数可能会发生迅速变化。
波形捷变雷达辐射源数据库按照7∶1∶2的比例分为训练集、验证集和测试集,其中,训练集中包含10500个脉冲组,主要用于模型的训练,验证集中包含1500个脉冲组,主要用于模型的修正与调优,测试集中包含3000个脉冲组,主要用于模型性能的评估。
表1波形捷变雷达辐射源仿真参数设置
Figure GDA0004068772550000121
波形捷变雷达辐射源数据集的仿真参数设置如表1所示,所包含的15000个脉冲组按照其波形变化模式主要分为4个类别,其中第1类和第2类为常规的雷达辐射源,第3类和第4类为波形捷变的雷达辐射源。
通过使用10-折交叉验证确定了CNN和Bi-LSTM模型中的超参数。输入层中需将辐射源每个脉冲离散的常规特征参数转换为连续特征向量,其维数大小设置为50,且取值范围为-0.25~0.25。隐藏节点的维度大小都设为100,在隐藏节点上进行dropout操作,dropout率为0.5。在网络中使用ReLU函数进行非线性变换。在每一次迭代中,将整个数据库分为多批,每次只能同时处理一个批,每个批都包含了若干个脉冲组,批的大小设置为30。
所有脉冲组按波形变化模式分为4个类,使用本发明中的CNN模型对所有脉冲组的波形类别进行分类,以此来预训练CNN模型;使用批量梯度下降算法(BGD)对CNN中的参数进行训练。除此之外,实验对不同CNN模型结构对波形类别进行分类的性能进行了验证,主要包括滤波器的策略和卷积层的大小。
实验在训练集上训练模型,并在验证集上计算得到模型的性能,结果如表2所示。当使用multi-filter策略2、3、4且卷积层中使用200组滤波器时,能够获得最好的识别准确率,能够达到92.86%。实验结果说明了相比于single-filter策略,multi-filter策略更易于得到丰富的波形结构特征;若卷积层过大,网络将会更复杂,易产生过拟合,若卷积层过小,过少的滤波器将不足以学习到合适的特征。因此,后续实验中将采用复合滤波器策略2、3、4,并使用200组滤波器构建卷积层。
表2不同CNN模型结构的实验结果
Figure GDA0004068772550000131
将4种不同波形类别的脉冲组分离开,使用本发明的Bi-LSTM模型单独对这些辐射源的具体类别进行分类,以此来预训练Bi-LSTM模型。除此之外,实验对在4种波形类别下不同LSTM模型结构对辐射源具体类别进行分类的性能进行了验证,主要包括传统单向的LSTM和双向的Bi-LSTM。实验在训练集上训练模型,并在验证集上计算得到模型的性能,结果如表3所示。相比于单向的LSTM,在4种波形类别下双向的Bi-LSTM都能够获得更好的识别准确率,平均可达到87.24%。实验结果说明了双向的模型确实能够更全面地提取出辐射源的序列差别特征。因此,后续实验中将使用Bi-LSTM进行辐射源识别。
表3不同LSTM模型结构的实验结果
Figure GDA0004068772550000141
直接使用RMSprop梯度下降法对整个深度强化学习框架进行训练,其学习率为0.0005,折扣率λ为0.95。图5展示了实验的迭代次数对平均奖赏的影响。
在训练的开始阶段,所获得的奖赏是为负的,由于所执行的动作在开始阶段是近乎随机的,但随着迭代次数的增加,所获得的奖赏开始逐渐增多并趋于稳定,即逐渐学习到了如何执行本发明所定义的两步决策法(即波形捷变雷达辐射源识别任务)以产生积极的奖励。在经过迭代225个Iterations以后,所获得的奖赏就基本上稳定下来,达到4左右。
实验直接使用CNN、Bi-LSTM和CNN+Bi-LSTM模型进行波形捷变雷达辐射源识别,其中,CNN+Bi-LSTM模型表示直接将CNN模型和Bi-LSTM模型直接进行组合,并将其结果与本发明的深度强化学习的结果相对比,在测试集上的实验结果如表4所示。结果表明,CNN+Bi-LSTM进行波形捷变雷达辐射源识别的平均识别准确率比CNN和Bi-LSTM的性能都要高,能够达到84.65%,本发明的深度强化学习的平均识别准确率要优于简单将两种模型直接组合的CNN+Bi-LSTM方法,提高了1.35%。若在深度强化学习框架训练的过程中,同时对已预训练好的深度学习模型中的参数进行调整,能够进一步提高波形捷变雷达辐射源识别任务的平均识别准确率,能够达到86.92%,该方法记为“深度强化学习+”。
表4不同模型进行波形捷变雷达辐射源识别任务的实验结果
Figure GDA0004068772550000151
CNN、Bi-LSTM、CNN+Bi-LSTM和深度强化学习方法的训练时间都在可接受的范围内,但是“深度强化学习+”的整个网络训练时间也会大大增加,不适用于对时间比较敏感的波形捷变雷达辐射源识别任务。
综上所述,从识别准确率和训练时间等指标来看,本发明基于深度强化学习的波形捷变雷达辐射源识别方法为较佳解决方案。
以上所述仅为本发明的较佳实施例,而非对本发明的限制,在不脱离本发明的精神和范围的情况下,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明的专利保护范围之内。

Claims (5)

1.一种基于深度强化学习的波形捷变雷达辐射源识别方法,其特征是:其包括以下步骤:
S1、构建辐射源识别任务中的深度强化学习框架,具体操作方法为:
步骤1.1、将雷达辐射源发射的一个脉冲组作为整个框架的输入;
步骤1.2、分别采用两种不同的深度学习模型对雷达辐射源进行深层特征提取与表示,形成了初始状态s0和转移状态s1、s2、s3、s4,其中,初始状态中包含了辐射源的波形变化模式特征,转移状态中包含了辐射源的具体类别特征,终止状态为se,得到状态集合S,S={s0,s1,s2,s3,s4,se};
步骤1.3、设置可以执行的动作为a1、a2、a3、a4、a5、a6、…、ap+4,其中,a1、a2、a3、a4为针对辐射源波形变化模式的分类操作,a5、a6、…、ap+4为针对辐射源具体类别的分类操作,p为辐射源具体类别的总个数,得到动作集合A,A={a1,a2,a3,a4,a5,a6,…,ap+4};
步骤1.4、通过在状态集合S上执行动作集合A,实现与雷达辐射源信号的不断交互,最终完成波形捷变雷达辐射源的识别;
S2、分别使用卷积神经网络CNN和双向长短时记忆网络Bi-LSTM对雷达辐射源进行建模,计算出初始状态和转移状态;
S3、设计强化学习中的惩罚函数并增大对第一步决策错误的惩罚;
S4、使用Q-Learning算法学习出针对不同波形类别的辐射源所采用的建模识别策略,具体操作方法为:
步骤4.1、利用一个神经网络模型来近似强化学习中的状态-动作值函数Q(s,a),使Q(s,a)=MLP(φ(x;θ),a;η),φ(x;θ)表示经由上述深度学习模型提取出的状态向量,x表示输入的辐射源分布式特征,η表示该神经网络模型的参数;
步骤4.2、用估计的值函数Qη(s,a)代替真实的值函数Qπ(s,a),并使用最小二乘误差来度量Qη(s,a)的近似程度
Eη=E[(Qπ(s,a)-Qη(s,a))2];
步骤4.3、在每一轮epoch时,参数都会更新,以降低当前状态-动作对的预测值Qη(s,a)与期望值Qπ(s,a)之间的差异,执行以下随机梯度下降步骤
Figure FDA0004068772530000021
Figure FDA0004068772530000022
参数的更新规则为
Figure FDA0004068772530000023
其中,α是更新步长,r代表奖赏函数;(s′,a′)是下一时刻的动作-状态对;
步骤4.4、在学习得到Q函数的值后,选择具有最高Qη(s,a″)值的动作,最大化期望的未来奖赏;
π(s)=argmaxa″Qη(s,a″)
步骤4.5、从一个随机的Q函数的值开始,通过执行步骤S3中的决策并获得奖赏来不断更新Q值,最终得到控制策略π。
2.根据权利要求1所述的基于深度强化学习的波形捷变雷达辐射源识别方法,其特征是:其步骤S2,具体操作方法为:
步骤2.1、针对辐射源发射的一个脉冲组,将其中每个脉冲的脉间离散特征转换为连续特征,得到预处理后的分布式特征x=[x1,x2,…,xm],其中,m为一个脉冲组中包含脉冲的总个数,并作为卷积神经网络CNN和双向长短时记忆网络Bi-LSTM的输入,即采用稀疏分布式的方法把脉冲描述字序列PDWSeq=[P1,P2,…,Pi,…,Pm]中的每个元素Pi转换为xi=(Hpai,Hrfi,Hpwi,Hprii,Hdoai),其中Pi指第i个脉冲的脉冲描述字特征,Hpai、Hrfi、Hpwi、Hprii和Hdoai为五个高维实数向量,分别指脉冲幅度、脉冲载频、脉冲宽度、脉冲重复间隔和脉冲到达角的分布式表示结果,维度均设定为100;
步骤2.2、使用卷积神经网络CNN的滤波器fs提取输入中的重要结构特征,得到的局部特征向量为Cs=[c1,c2,…,ci,…,cn-s+1],其中,
Figure FDA0004068772530000031
n为输入到该卷积层的特征向量的维度,s为滤波器fs的宽度,g为非线性函数,b为偏置项;该卷积层得到的特征向量Cs是对输入辐射源的脉冲组的一种全局性抽象表示;
步骤2.3、使用卷积神经网络CNN的池化函数确定卷积层中最相关的特征,即使用最大池化方法计算出最大池化得分
Figure FDA0004068772530000032
产生一个最大池化得分向量
Figure FDA0004068772530000033
对最大池化得分向量P进行一次非线性变换,得到s0,s0即为卷积神经网络CNN最终生成的深层模式特征,作为整个深度强化学习框架的初始状态;
步骤2.4、分布式特征x=[x1,x2,…,xm]被送入一系列正向的LSTM单元和反向的LSTM单元,在整个输入脉冲组对每个脉冲进行建模,对于当前脉冲的分布式特征xt,正向地和反向地分别表示为两个单独的隐层向量ht和ht′;
步骤2.5、将上述两个隐层向量ht和ht′相加,即得到最后的输出
Ht=ht+ht
输出向量Ht为使用双向长短时记忆网络Bi-LSTM为每个脉冲抽取出的深层特征,其中包含了整个输入脉冲组的信息,所有的输出向量都经由一个Softmax层进行非线性变换,得到脉冲信号数据的序列差别特征,即一个固定维数大小的时序特征向量s1、s2、s3或s4,作为整个深度强化学习框架的转移状态;
步骤2.6、以辐射源信号数据作为训练样本,并将其波形类别作为数据标签,对卷积神经网络CNN模型的参数进行预训练;然后,分别以4种不同波形类别的辐射源作为训练样本,并将不同波形类别下辐射源的具体类别作为数据标签,对4种不同的双向长短时记忆网络Bi-LSTM模型的参数进行预训练。
3.根据权利要求2所述的基于深度强化学习的波形捷变雷达辐射源识别方法,其特征是:其步骤2.6中,在参数预训练的过程中,将卷积神经网络CNN模型提取出的深层特征向量s0=CNN(x;θ0),双向长短时记忆网络Bi-LSTM模型提取出的4种不同深层特征向量s1=Bi(x;θ1)、s2=Bi(x;θ2)、s3=Bi(x;θ3)和s4=Bi(x;θ4)都传递给一个标准的全连接神经网络,并使用一个Softmax层以产生条件概率分布P(y|x),表示在已知输入的辐射源分布式特征x的条件下,属于类别标签y的条件概率,为辐射源指派一个条件概率最高的类别标签。
4.根据权利要求3所述的基于深度强化学习的波形捷变雷达辐射源识别方法,其特征是:其步骤2.6中,每个辐射源定义一个标记向量t,如果辐射源属于第i种类别,标记向量t中第i位元素ti为1,其他元素都是0,并使用梯度下降算法优化输出结果向量y与标记向量t之间的交叉熵误差;对于每一个辐射源训练样本,定义目标函数
Figure FDA0004068772530000041
其中,θ包含上述的θ0、θ1、θ2、θ3和θ4,表示需要预训练的模型未知参数;参数预训练过程是采用梯度下降算法来最小化目标函数,并使用AdaDelta更新法则。
5.根据权利要求1所述的基于深度强化学习的波形捷变雷达辐射源识别方法,其特征是:其步骤S3,具体操作方法为:
步骤3.1、在与环境交互的过程中产生了状态转移(s0,a1,r1,s1)、(s0,a2,r2,s2)、(s0,a3,r3,s3)、(s0,a4,r4,s4)、(s1,a5,r5,se)、(s2,a6,r6,se)、…、(sp,ap+4,rp+4,se);
(s0,a1,r1,s1)表示在初始状态s0上执行动作a1,转移到了转移状态s1,并且从环境中获得了奖赏r1;进行状态转移(s0,a1,r1,s1)后,若该辐射源的波形变化模式确实为第1类,即动作a1的判定正确,则令r1=10;若上述判定错误,则令r1=-10,对动作a1决策的错误进行惩罚;(s0,a2,r2,s2)、(s0,a3,r3,s3)和(s0,a4,r4,s4)的惩罚项设置与上述(s0,a1,r1,s1)的设置相同;
(s1,a5,r5,se)表示在转移状态s1上执行动作a5,转移到了终止状态se,并且从环境中获得了奖赏r5;进行状态转移(s1,a5,r5,se)后,若该辐射源所属的具体类别与动作a5的判定相符,则令r5=5;若不相符,则令r5=-5;状态转移(s2,a6,r6,se)、…、(sp,ap+4,rp+4,se)的惩罚项设置与上述(s1,a5,r5,se)的设置相同。
CN202110420220.XA 2021-04-19 2021-04-19 一种基于深度强化学习的波形捷变雷达辐射源识别方法 Active CN113158886B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110420220.XA CN113158886B (zh) 2021-04-19 2021-04-19 一种基于深度强化学习的波形捷变雷达辐射源识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110420220.XA CN113158886B (zh) 2021-04-19 2021-04-19 一种基于深度强化学习的波形捷变雷达辐射源识别方法

Publications (2)

Publication Number Publication Date
CN113158886A CN113158886A (zh) 2021-07-23
CN113158886B true CN113158886B (zh) 2023-04-18

Family

ID=76868977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110420220.XA Active CN113158886B (zh) 2021-04-19 2021-04-19 一种基于深度强化学习的波形捷变雷达辐射源识别方法

Country Status (1)

Country Link
CN (1) CN113158886B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113721613B (zh) * 2021-08-23 2023-05-23 南京航空航天大学 一种基于深度强化学习的机器人自主寻源方法及装置
CN116243252B (zh) * 2023-03-14 2023-09-19 电子科技大学 一种基于lstm的多功能雷达工作模式预测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301381A (zh) * 2017-06-01 2017-10-27 西安电子科技大学昆山创新研究院 基于深度学习和多任务学习策略的雷达辐射源识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645835B2 (en) * 2017-08-30 2023-05-09 Board Of Regents, The University Of Texas System Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications
CN108090412A (zh) * 2017-11-17 2018-05-29 西北工业大学 一种基于深度学习的雷达辐射源类别识别方法
CN109886098A (zh) * 2019-01-11 2019-06-14 中国船舶重工集团公司第七二四研究所 一种跨分选间隔的aesa雷达捷变频模式挖掘方法
CN110109059B (zh) * 2019-03-27 2023-04-07 西安电子科技大学 一种基于深度学习网络的雷达辐射源信号识别方法
CN112115768A (zh) * 2020-08-03 2020-12-22 中国人民解放军63892部队 一种面向复杂电磁环境的雷达辐射源识别方法
CN112115924A (zh) * 2020-09-27 2020-12-22 西安电子科技大学 基于一维cnn和lstm的雷达辐射源识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301381A (zh) * 2017-06-01 2017-10-27 西安电子科技大学昆山创新研究院 基于深度学习和多任务学习策略的雷达辐射源识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄智 ; 王俊杰 ; 石国良 ; .基于时频分析和CNN的雷达辐射源识别算法.舰船电子工程.2020,(01),第29-33页. *

Also Published As

Publication number Publication date
CN113158886A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
US10832123B2 (en) Compression of deep neural networks with proper use of mask
CN113158886B (zh) 一种基于深度强化学习的波形捷变雷达辐射源识别方法
CN108346293B (zh) 一种实时交通流短时预测方法
CN111199127B (zh) 基于深度强化学习的雷达干扰决策方法
CN105701507A (zh) 基于动态随机池化卷积神经网络的图像分类方法
CN112949383B (zh) 一种基于HyDeep-Att网络的波形捷变雷达辐射源识别方法
CN106021990A (zh) 一种将生物基因以特定的性状进行分类与自我识别的方法
Ye et al. Cascaded GMDH-wavelet-neuro-fuzzy network
CN111523728B (zh) 一种四阶段混合短时风向预测方法
Zhang et al. VGM-RNN: HRRP sequence extrapolation and recognition based on a novel optimized RNN
CN114186672A (zh) 一种用于脉冲神经网络的高效高精度训练算法
CN108596078A (zh) 一种基于深度神经网络的海洋噪声信号识别方法
CN114912666A (zh) 一种基于ceemdan算法和注意力机制的短时客流量预测方法
CN112766603A (zh) 一种交通流量预测方法、系统、计算机设备及存储介质
Musakulova et al. Synthesis of the backpropagation error algorithm for a multilayer neural network with nonlinear synaptic inputs
Harikrishnan et al. Handwritten digit recognition with feed-forward multi-layer perceptron and convolutional neural network architectures
CN112651499A (zh) 一种基于蚁群优化算法和层间信息的结构化模型剪枝方法
CN112862094A (zh) 一种基于元学习的快速适应drbm方法
Taymouri et al. Encoder-decoder generative adversarial nets for suffix generation and remaining time prediction of business process models
CN107229944B (zh) 基于认知信息粒子的半监督主动识别方法
Wu et al. Echo state network prediction based on backtracking search optimization algorithm
Yamada et al. Weight Features for Predicting Future Model Performance of Deep Neural Networks.
CN115713144A (zh) 基于组合cgru模型的短期风速多步预测方法
Rahman et al. Implementation of artificial neural network on regression analysis
CN114220164A (zh) 一种基于变分模态分解和支持向量机的手势识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant