CN111199127B - 基于深度强化学习的雷达干扰决策方法 - Google Patents

基于深度强化学习的雷达干扰决策方法 Download PDF

Info

Publication number
CN111199127B
CN111199127B CN202010029684.3A CN202010029684A CN111199127B CN 111199127 B CN111199127 B CN 111199127B CN 202010029684 A CN202010029684 A CN 202010029684A CN 111199127 B CN111199127 B CN 111199127B
Authority
CN
China
Prior art keywords
interference
radar
mode
working mode
working
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010029684.3A
Other languages
English (en)
Other versions
CN111199127A (zh
Inventor
饶鲜
李永锋
董春曦
董阳阳
刘明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010029684.3A priority Critical patent/CN111199127B/zh
Publication of CN111199127A publication Critical patent/CN111199127A/zh
Application granted granted Critical
Publication of CN111199127B publication Critical patent/CN111199127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/02Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
    • G01S7/38Jamming means, e.g. producing false echoes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

本发明公开了基于深度强化学习的雷达干扰决策方法,主要解决现有技术中决策仅依赖干扰方做决策导致决策结果片面,及工作模式识别慢导致决策效率低的问题。其实现方案为:1)根据工作模式的特征信号生成训练集训练雷达工作模式识别器;2)根据工作模式的最小威胁值构造判决器;3)构建雷达方的工作模式转移矩阵;4)构建干扰方的干扰收益矩阵;5)构建包括雷达工作模式识别器、判决器、雷达方和干扰方的干扰决策系统;7)随机采样仿真信号,输入干扰决策系统进行选取干扰策略的工作,直到满足决策输出条件,输出决策结果。本发明提高了决策的效率和决策结果的可信度,可用于当干扰方侦察到雷达的特征信号时,保证干扰方做出最优的干扰策略。

Description

基于深度强化学习的雷达干扰决策方法
技术领域
本发明属于电子对抗技术领域,尤其涉及一种雷达干扰决策方法,可用于当干扰方侦察到雷达的特征信号时,保证干扰方做出最优的干扰策略。
背景技术
雷达对抗作为电子对抗领域中重要的一部分,是现代信息化战争的重要环节。雷达干扰决策作为雷达干扰的核心环节,是指在已有雷达先验知识库的基础上,通过对比匹配或相应算法选择适用于雷达不同工作模式的干扰样式的过程。
XingQiang等人在其发表的论文“Intelligent Countermeasure Design ofRadar Working-modes Unknown”中提出了基于Q-learning的智能干扰决策算法。该方法的具体步骤是:第一步,初始化Q(SRt,aj)状态动作值函数、学习率α、折扣因子γ;第二步,侦查当前环境,识别雷达的当前工作模式;第三步,选择一种干扰样式aj并根据ε贪心策略执行;第四步,继续侦查雷达工作模式,判断新的工作状态SRt+1,计算回报价值rRt;第五步,根据式子
Figure BDA0002363847530000011
更新动作值函数Q(SRt,aj),并且如果是新的状态,添加至相应的状态序列中;第六步,SRt更新为SRt+1,循环执行第二、三、四、五步直到所有工作模式都建立;第七步,根据最小威胁等级的工作模式,输出最后的干扰策略。该方法相对以往的方法,加入了强化学习的思想,通过Q-learning的方法,根据状态的更新与回报值的大小,做出的决策更为合理,但是这种方法仍然存在的不足之处是,没有考虑到决策是一个博弈的动态过程,因此得到决策结果过于片面,不是最优的决策结果。
哈尔滨工程大学在其申请的专利“一种基于马尔可夫过程决策的认知干扰方法”(专利申请号:201810511830.9,申请公布号:CN108710110A)提出了一种基于马尔可夫过程决策的认知干扰方法。该方法的具体步骤是:第一步,雷达工作在任意一种模式,干扰机每隔周期Ti将雷达信号进行采集并传输到信号处理模块,信号处理模块对此信号进行识别并在其方案池中寻找最优的干扰对其进行干扰;第二步,雷达以周期Tr检测到干扰信号,改变雷达工作模式,使得干扰机对雷达的干扰程度降到最低;第三步,干扰机检测到雷达工作模式改变之后重新对雷达进行采集并识别,寻找最优的干扰方案;第四步,重复步骤一、步骤二及步骤三,直到雷达的所有工作模式均已知,建立雷达工作状态转移马尔可夫链;第五步,利用马尔可夫蒙特卡洛方法MCMC计算转移概率,当已知雷达在前一个的工作模式时,对雷达受到干扰时的下一个工作模式进行预测,实现干扰收益最大化。该方法由于是通过计算转移概率来作为选择策略的因素,没有给出对干扰的评估,因此不能对决策结果进行最优判定。
发明内容
本发明的目的在于针对上述现有的雷达干扰决策存在的不足,提出一种基于深度强化学习的雷达干扰决策方法,以得到最优的决策结果。
为达到上述目的,本发明的技术方案包括如下步骤:
1、一种基于深度强化学习的雷达干扰决策方法,其特征在于,包括如下:
(1)在已知雷达工作模式对应的特征信号范围内生成对应工作模式的训练数据集,并用对应工作模式的训练数据集训练雷达工作模式识别器D;
(2)根据雷达不同工作模式威胁程度的大小,给不同的工作模式标记一个威胁值,不同模式的威胁值用G表示:
G=[grd1,…,grdi,…,grdm]
其中,grdi表示第i种工作模式的威胁值,i=[1,…,m],m表示雷达工作模式的总数量;
(3)根据雷达不同工作模式的威胁值构造判决器W;
(4)根据雷达受到不同形式的干扰手段,构建雷达方R的工作模式转移矩阵Z:
Figure BDA0002363847530000021
其中,pij表示当雷达受到i种干扰时转移到工作模式j的概率,i=[1,…,n],n表示干扰方式的总数量,j=[1,…,m],m表示雷达工模模式的总数量;
(5)根据不同干扰方式对达到的干扰效果,构建干扰方J的干扰收益转移矩阵Y:
Figure BDA0002363847530000031
其中,rij表示针对第i种工作模式采用第j种干扰方式获得的收益,i=[1,…,m],m表示雷达工作模式的总数量,j=[1,…,n],n表示干扰方式的总数量;
(6)搭建包含雷达工作模式识别器D、干扰方J、雷达方R以及判决器W的干扰决策系统;
(7)通过Matlab软件仿真雷达不同工作模式对应的特征信号序列,随机采样一段特征信号,作为干扰决策系统的输入;
(8)通过雷达工作模式识别器D感知当前环境的特征信号,识别其工作模式,并将识别的工作模式输入给判决器W;
(9)根据输入给判决器W工作模式的威胁值,判断干扰过程是否结束:
若输入给判决器W的工作模式威胁值最小时,则干扰过程结束;
否则,将输入给判决器的工作模式输入给干扰方,干扰方J根据输入的工作模式选择对应的干扰方式,并记录下所选的干扰方式,执行(10);
(10)雷达方R根据所受到的干扰调整雷达自身的工作模式并发出新工作模式对应的特征信号数据;
(11)重复(8)-(10),直到输入到判决器W的工作模式的威胁值最小,干扰决策系统输出干扰策略,整个干扰过程结束。
本发明与现有技术相比具有以下优点:
第一,本发明构建了包括雷达方R与干扰方J的干扰决策系统,并通过雷达方R与干扰方J分别决策来模拟雷达方与对抗方博弈的动态过程,避免了现有技术仅依赖干扰方所决策的片面性,提高了决策结果的可信度。
第二,本发明采用深度强化学习理论对干扰决策系统建模,由于该干扰决策系统具备良好的环境感知能力和决策能力,解决了现有技术中决策系统实时识别工作模式能力弱的问题,减少了做决策所需的时间,提高了决策的效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将发明或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明的实现流程图。
图2为本发明中构建的干扰决策系统框图。
具体实施方式
下面将结合附图对本发明的施实例做进一步的描述。
参照图1,本发明的具体实施步骤如下:
步骤1,构建雷达不同工作模式的特征信号矩阵F。
用来表征工作模式的雷达信号特征包括信号的载频、脉宽、脉冲重复周期、脉冲重复频率、到达时间及数据率,选取其中具有代表性的特征:信号载频RF、信号脉宽PW、信号脉冲重复频率PRI和信号的数据率DR来构建工作模式的特征信号矩阵F:
Figure BDA0002363847530000041
其中,[RFimin,RFimax]表示第i种工作模式的信号载频范围,[PWimin,PWimax]表示第i种工作模式的信号脉宽范围,[PRFimin,PRFimax]表示第i种工作模式的信号脉冲重复频率范围,[DRi]表示第i种工作模式的信号数据率,i=[1,…,m],m表示工作模式的总数。
步骤2,在已知雷达工作模式对应的特征信号范围内生成对应工作模式的训练数据集S。
为了使训练的模型稳定和可靠,用于训练模型的训练数据集里需要包括所有工作模式的特征信号数据,根据雷达不同工作模式的特征信号矩阵F,用Matlab随机产生在信号特征范围内的数量相等的特征信号,作为训练数据集S,表示为:
S=[s1,…,sj,…sm],
其中,sj表示第第j种工作模式的训练数据集,j=[1,…,m],m表示工作模式的总数目,
Figure BDA0002363847530000051
式中,[RFi,PWi,PRFi,DRi]表示生成第j种工作模式训练数据集里的第i组信号特征数据,i=[1,…,N],N表示每种工作模式的训练数据集中的特征信号的总数目。
步骤3,用对应工作模式的训练数据集S训练雷达工作模式识别器D。
3.1)构建雷达工作模式识别器D:
(3.1.1)选用非线性支持向量机SVM构建雷达工作模式识别器,将样本点的松弛变量设置为0.001,将SVM模型中的软间隔惩罚参数设置为0.005,使用高斯径向基函数将原始特征映射到新的特征空间;
(3.1.2)针对雷达不同工作模式的不同信号特征,选取与其他工作模式区别明显的一种工作模式,并通过非线性支持向量机SVM寻找区分该模式与其他模式的超平面;
3.2)训练雷达工作模式识别器D:
(3.2.1)设置非线性支持向量机SVM的迭代上限次数为500次;
(3.2.2)将生成的工作模式训练数据集S输入到(3.1)中构建好的工作模式识别器,首次训练时,为特征空间中的每个样本点随机赋一个大于0的值作为该样本点的拉格朗日乘子,判断此时特征空间的样本是否都满足卡罗需-库恩-塔克KKT条件,如果不满足,通过序列最小最优SMO算法求解新的拉格朗日乘子进行迭代训练;
(3.2.3)当迭代次数达到500次或者特征空间的样本都满足卡罗需-库恩-塔克KKT条件时,结束训练,得到训练好的单一模式识别模型。
步骤4,设置不同工作模式的威胁值序列G,构造判决器W。
4.1)根据雷达不同工作模式的威胁程度,给不同的工作模式标记一个威胁值,作为不同工作模式的威胁值序列G,表示为:
G=[grd1,…,grdi,…,grdm],
其中,grdi表示第i种工作模式的威胁值,i=[1,…,m],m表示雷达工作模式的总数量。
4.2)选取威胁值序列G里最小的威胁值作为决策树的节点,用该决策树作为判决器W。
步骤5,根据雷达受到不同形式的干扰手段,构建雷达方R的工作模式转移矩阵Z。
5.1)分析干扰方式实施干扰的效果与雷达不同工作模式作用的区别;
5.2)根据实施干扰的效果,选择出雷达收到特定干扰后能转移的工作模式类别;
5.3)雷达方R计算当雷达受到第i种干扰时转移到第j种工作模式的概率pij
Figure BDA0002363847530000061
其中,grdj表示转移到的第j种工作模式的威胁值,grdt表示当前工作模式的威胁值,grdl表示雷达方R收到特定干扰后能转移的工作模式,l=1,…,k,k是雷达方R收到特定干扰后能转移的工作模式的总数目,k≤m,m表示雷达工模模式的总数量;
5.4)针对任意一种干扰方式,用5.3)的计算方法计算雷达方R针对该干扰方式调整到下一工作模式的概率,得到雷达方R的工作模式转移矩阵Z:
Figure BDA0002363847530000062
其中,pij表示当雷达受到i种干扰时转移到工作模式j的概率,i=[1,…,n],n表示干扰方式的总数量,j=[1,…,m],m表示雷达工模模式的总数量。
步骤6,根据不同干扰方式实施干扰后达到的干扰效果,构建干扰方J的干扰收益转移矩阵Y。
6.1)根据工作模式威胁值G和工作模式转移矩阵Z,计算得到干扰方实施不同干扰方式得到的干扰收益,计算公式如下:
Figure BDA0002363847530000063
其中,rij表示干扰方J针对第i种工作模式实施第j种干扰获得的收益,pjq表示雷达方R受到第j种干扰转移到第q种工作模式的概率,grdq和grdi分别表示第q种工作模式和第i种工作模式的威胁值,i=[1,…,m],m表示的是干扰方针对的工作模式的总数量,q=[1,…,I],I表示雷达方受到第j种干扰后可以转移的工作模式的总数量,j=[1,…,n],n是干扰方式的总数量;
6.2)利用与6.1)中相同的方法,计算干扰方J针对每种工作模式实施不同干扰获得的干扰收益,得到干扰方J针对不同的工作模式实施干扰获得的干扰收益Y:
Figure BDA0002363847530000071
其中,rij表示干扰方J针对第i种工作模式采用第j种干扰方式获得的收益,
i=[1,…,m],m表示雷达工作模式的总数量,j=[1,…,n],n表示干扰方式的总数量。
步骤7,构建干扰决策系统。
参照图2,干扰决策系统包含雷达工作模式识别器D、干扰方J、雷达方R以及判决器W,其构建原理如下:
根据雷达工作模式识别器D用于发挥感知的作用,将其作为系统的前端,
根据干扰方J用于发挥决策的作用,将其作为系统的功能模块,
根据雷达方R用于发挥模拟环境的作用,将其作为系统的环境模块,
根据判决器W用于发挥开关的作用,将其作为系统的控制模块,
用雷达工作模式识别器D识别的工作模式作为判决器W的输入,用判决器W判断工作模式的威胁值的结果作为系统的控制信号,用干扰方J的输出作为影响雷达方R的输入,用雷达方R的输出作为工作模式识别器D的输入,完成干扰决策系统的搭建。
步骤8,通过雷达工作模式识别器D感知当前环境的特征信号,识别其工作模式,并将识别的工作模式输入给判决器W。
步骤9,根据输入给判决器W工作模式的威胁值,判断干扰过程是否结束:
若输入给判决器W的工作模式威胁值最小时,则干扰过程结束;
否则,将输入给判决器的工作模式输入给干扰方,执行步骤10。
步骤10,干扰方J根据输入的工作模式选择对应的干扰方式。
10.1)干扰方J从干扰收益矩阵Y中确认干扰方针对第i工作模式,实施干扰后获得收益序列表示为:Yi=[ri1,…,rij,…,rin],rij表示针对第i种工作模式采用第j种干扰方式获得的收益,j=[1,…,n],n是干扰方式的总数;
10.2)干扰方J选取干扰收益序列Yi中最大收益值对应的干扰样式作为待实施的干扰方式,并记录下所选的干扰方式,执行步骤11。
步骤11,雷达方R根据所受到的干扰调整雷达自身的工作模式,并发出新工作模式对应的特征信号数据。
11.1)若雷达方受到干扰前是第i种工作模式,受到第j干扰方式,根据工作模式转移矩阵Z和工作模式威胁值G,计算得到雷达调整工作模式获得的收益,计算公式如下:
fjq=pjq(grdq-grdi),
其中,fjq表示雷达方受到第j种干扰方式调整到第q种工作模式的收益,pjq表示雷达方受到第j干扰方式调整到第q种工作模式的概率,grdq和grdi分别表示第q种工作模式和第i种工作模式的威胁值,i=[1,…,m],m表示的是干扰方针对的工作模式的总数量,q=[1,…,I],I表示雷达方受到第j种干扰后可以转移的工作模式的总数量,j=[1,…,n],n是干扰方式的总数量;
10.2)按照与10.1)相同的计算方法,计算雷达方受到第j种干扰转移到下一种工作模式的收益,得到雷达方的收益序列Fj
Fj=[fj1,…,fjq,…,fjI],
其中,fjq表示雷达方受到第j种干扰方式调整到第q种工作模式的收益,q=[1,…,I],I表示雷达方受到第j种干扰后可以转移的工作模式的总数量;
10.3)雷达方R选取收益序列Fj中最大收益值所对应的工作模式作为下一次的工作模式。
步骤11,重复步骤8-步骤10,直到输入到判决器W的工作模式的威胁值最小,将干扰方J记录的干扰方式输出,作为干扰策略,整个干扰过程结束。
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (9)

1.一种基于深度强化学习的雷达干扰决策方法,其特征在于,包括如下:
(1)在已知雷达工作模式对应的特征信号范围内生成对应工作模式的训练数据集,并用对应工作模式的训练数据集训练雷达工作模式识别器D;
(2)根据雷达不同工作模式威胁程度的大小,给不同的工作模式标记一个威胁值,不同模式的威胁值用G表示:
G=[grd1,…,grdi,…,grdm]
其中,grdi表示第i中工作模式的威胁值,i=[1,…,m],m表示雷达工作模式的总数量;
(3)根据雷达不同工作模式的威胁值构造判决器W;
(4)根据雷达受到不同形式的干扰手段,构建雷达方R的工作模式转移矩阵Z:
Figure FDA0002363847520000011
其中,pij表示当雷达受到i种干扰时转移到工作模式j的概率,i=[1,…,n],n表示干扰方式的总数量,j=[1,…,m],m表示雷达工模模式的总数量;
(5)根据不同干扰方式对达到的干扰效果,构建干扰方J的干扰收益转移矩阵Y:
Figure FDA0002363847520000012
其中,rij表示针对第i种工作模式采用第j种干扰方式获得的收益,i=[1,…,m],m表示雷达工作模式的总数量,j=[1,…,n],n表示干扰方式的总数量;
(6)搭建包含雷达工作模式识别器D、干扰方J、雷达方R以及判决器W的干扰决策系统;
(7)通过Matlab软件仿真雷达不同工作模式对应的特征信号序列,随机采样一段特征信号,作为干扰决策系统的输入;
(8)通过雷达工作模式识别器D感知当前环境的特征信号,识别其工作模式,并将识别的工作模式输入给判决器W;
(9)根据输入给判决器W工作模式的威胁值,判断干扰过程是否结束:
若输入给判决器W的工作模式威胁值最小时,则干扰过程结束;
否则,将输入给判决器的工作模式输入给干扰方,干扰方J根据输入的工作模式选择对应的干扰方式,并记录下所选的干扰方式,执行(10)
(10)雷达方R根据所受到的干扰调整雷达自身的工作模式并发出新工作模式对应的特征信号数据;
(11)重复(8)-(10),直到输入到判决器W的工作模式的威胁值最小,干扰决策系统输出干扰策略,整个干扰过程结束。
2.根据权利要求1所述的方法,其特征在于:(1)中的雷达工作模式对应特征信号范围,用矩阵F表示如下:
Figure FDA0002363847520000021
其中RF表示信号载频,PW表示信号脉宽,PRF表示脉冲重复频率,DR表示数据率,[RFimin,RFimax]表示第i种工作模式的载频范围,[PWimin,PWimax]表示第i种工作模式的脉宽范围,[PRFimin,PRFimax]表示第i种工作模式的脉冲重复频率范围,[DRi]表示第i种工作模式的数据率,i=[1,…,m],m表示工作模式的总数。
3.根据权利要求1所述的方法,其特征在于:(1)中的用对应工作模式的训练数据集训练雷达工作模式识别器D,实现如下:
1a)选用非线性支持向量机SVM构建雷达工作模式识别器,选取不同模式里差别较大的特征信号作为识别不同模式的超平面;
1b)设置非线性支持向量机SVM的迭代次数为500次,将对应工作模式的训练数据集输入至设置好的SVM中,通过序列最小最优SMO算法进行迭代,当迭代次数达到500或者每个样本之间满足卡罗需-库恩-塔克KKT条件时,结束训练,得到训练好的单一模式识别模型。
4.根据权利要求1所述的方法,其特征在于:(3)中的根据雷达不同工作模式的威胁值构造判决器W,选用最小的威胁值作为决策树的节点,用该决策树作为判别器W。
5.根据权利要求1所述的方法,其特征在于:(4)中的根据雷达受到不同形式的干扰手段,构建雷达方的工作模式转移矩阵Z,实现如下:
4a)分析干扰方式实施干扰的效果与雷达不同工作模式作用的区别;
4b)根据实施干扰的效果,选择出雷达收到特定干扰后能转移的工作模式类;
4c)雷达方R计算当雷达受到第i种干扰时转移到第j种工作模式的概率pij
Figure FDA0002363847520000031
其中,grdj表示转移到的第j种工作模式的威胁值,grdt表示当前工作模式的威胁值,grdl表示雷达方R收到特定干扰后能转移的工作模式,l=1,…,k,k是雷达方R收到特定干扰后能转移的工作模式的总数目,k≤m,m表示雷达工模模式的总数量;
4d)针对任意一种干扰方式,用4c)的计算方法计算雷达方R针对该干扰方式调整到下一工作模式的概率,得到雷达方R的工作模式转移矩阵Z。
6.根据权利要求1所述的方法,其特征在于:(5)中的根据不同干扰方式对雷达不同的工作方式干扰的效果,构建干扰方的干扰收益转移矩阵Y,是根据工作模式威胁值G和工作模式转移矩阵Z计算得到,计算公式如下:
Figure FDA0002363847520000032
其中,rij表示的是干扰方针对第i种工作模式实施第j种干扰获得的收益,pjq表示雷达方受到第j种干扰转移到第q种工作模式的概率,grdq和grdi分别表示第q种工作模式和第i种工作模式的威胁值,i=[1,…,m],m是工作模式的总数量,q=[1,…,I],I表示雷达方受到第j种干扰后可以转移的工作模式的总数量,j=[1,…,n],n是干扰方式的总数量。
7.根据权利要求1所述的方法,其特征在于:(6)中的搭建包含雷达工作模式识别器D、干扰方J、雷达方R以及判决器W的干扰决策系统,通过深度强化学习算法搭建该干扰决策系统,具体搭建过程如下:
6a)根据雷达工作模式识别器D用于发挥感知的作用,将其作为系统的前端,根据干扰方J用于发挥决策的作用,将其作为系统的功能模块,根据雷达方R用于发挥模拟环境的作用,将其作为系统的环境模块,根据判决器W用于发挥开关的作用,将其作为系统的控制模块;
6b)用雷达工作模式识别器D识别的工作模式作为判决器W的输入,用判决器W判断工作模式的威胁值的结果作为系统的控制信号,用干扰方J的输出作为影响雷达方R的输入,用雷达方R的输出作为工作模式识别器D的输入,完成干扰决策系统的搭建。
8.根据权利要求1所述的方法,其特征在于:(9)中的干扰方J根据输入的工作模式选择对应的干扰方式,是根据干扰收益矩阵Y通过ε-贪婪策略来选取合适的干扰方式,其实现如下:
9a)从干扰收益矩阵Y中确认干扰方针对第i工作模式,实施干扰后获得收益序列表示为:Yi=[ri1,…,rij,…,rin],rij表示针对第i种工作模式采用第j种干扰方式获得的收益,j=[1,…,n],n是干扰方式的总数;
9b)选取干扰后获得收益序列Yi中最大的值对应的干扰样式作为干扰方所选取的干扰方式。
9.根据权利要求1所述的方法,其特征在于:(10)中雷达方R根据所受到的干扰调整雷达自身的工作模式,是根据工作模式转移矩阵Z通过ε-贪婪策略来调整自身的工作模式,其实现如下:
10a)假设当前是第i种工作模式,受到第j干扰方式,根据工作模式转移矩阵Z和工作模式威胁值G,计算得到雷达调整工作模式获得的收益,计算公式如下:
fjq=pjq(grdq-grdi)
其中,fjq表示雷达方受到第j种干扰方式调整到第q种工作模式的收益,pjq表示雷达方受到第j干扰方式调整到第q种工作模式的概率,grdq和grdi分别表示第q种工作模式和第i种工作模式的威胁值,i=[1,…,m],m表示的是干扰方针对的工作模式的总数量,q=[1,…,I],I表示雷达方受到第j种干扰后可以转移的工作模式的总数量,j=[1,…,n],n是干扰方式的总数量;
10b)根据雷达可转换的多种状态,得到雷达方的收益序列Fj
Fj=[fj1,…,fjq,…,fjm]
其中,fjq表示雷达方受到第j种干扰方式调整到第q种工作模式的收益,q=[1,…,m],m是雷达工作模式的总数量;
10c)选取雷达方得到的收益序列Fj中最大的值所对应的工作模式作为雷达方下一次的工作模式。
CN202010029684.3A 2020-01-13 2020-01-13 基于深度强化学习的雷达干扰决策方法 Active CN111199127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010029684.3A CN111199127B (zh) 2020-01-13 2020-01-13 基于深度强化学习的雷达干扰决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010029684.3A CN111199127B (zh) 2020-01-13 2020-01-13 基于深度强化学习的雷达干扰决策方法

Publications (2)

Publication Number Publication Date
CN111199127A CN111199127A (zh) 2020-05-26
CN111199127B true CN111199127B (zh) 2022-09-06

Family

ID=70747250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010029684.3A Active CN111199127B (zh) 2020-01-13 2020-01-13 基于深度强化学习的雷达干扰决策方法

Country Status (1)

Country Link
CN (1) CN111199127B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111812599B (zh) * 2020-06-23 2023-11-07 南京航空航天大学 博弈条件下基于低截获性能的组网雷达最优波形设计方法
CN113093124B (zh) * 2021-04-07 2022-09-02 哈尔滨工程大学 一种基于dqn算法的雷达干扰资源实时分配方法
CN113406579B (zh) * 2021-06-07 2022-09-27 哈尔滨工程大学 一种基于深度强化学习的伪装干扰波形生成方法
CN113376592B (zh) * 2021-06-07 2022-12-13 哈尔滨工程大学 一种基于联合学习的假目标信号生成方法
CN113505686B (zh) * 2021-07-07 2021-12-31 中国人民解放军空军预警学院 一种无人机目标威胁评估方法及装置
CN113419225B (zh) * 2021-08-19 2023-02-28 北京九天利建信息技术股份有限公司 一种雷达干扰效果在线评估方法
CN114444398B (zh) * 2022-02-08 2022-11-01 扬州宇安电子科技有限公司 一种基于灰狼算法的组网雷达协同干扰资源分配方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710110A (zh) * 2018-04-11 2018-10-26 哈尔滨工程大学 一种基于马尔可夫过程决策的认知干扰方法
CN109444831A (zh) * 2018-09-06 2019-03-08 中国人民解放军战略支援部队航天工程大学 一种基于迁移学习的雷达干扰决策方法
CN109828245A (zh) * 2019-03-21 2019-05-31 西安电子科技大学 雷达干扰策略的确定方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710110A (zh) * 2018-04-11 2018-10-26 哈尔滨工程大学 一种基于马尔可夫过程决策的认知干扰方法
CN109444831A (zh) * 2018-09-06 2019-03-08 中国人民解放军战略支援部队航天工程大学 一种基于迁移学习的雷达干扰决策方法
CN109828245A (zh) * 2019-03-21 2019-05-31 西安电子科技大学 雷达干扰策略的确定方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于博弈论的雷达抗干扰决策分析;于小宁等;《机械与电子》;20171224(第12期);全文 *

Also Published As

Publication number Publication date
CN111199127A (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
CN111199127B (zh) 基于深度强化学习的雷达干扰决策方法
CN108509935B (zh) 一种基于随机森林算法的雷达工作模式识别方法
CN112308008B (zh) 基于迁移学习的工作模式开集的雷达辐射源个体识别方法
CN111444790B (zh) 一种对多功能雷达工作模式序列的脉冲级智能识别方法
CN111126471A (zh) 微地震事件检测方法及系统
CN110133714A (zh) 一种基于深度学习的微震信号分类辨识方法
CN112949383B (zh) 一种基于HyDeep-Att网络的波形捷变雷达辐射源识别方法
CN113205140B (zh) 基于生成式对抗网络的半监督式特定辐射源个体识别方法
CN113315593A (zh) 一种基于flom协方差矩阵和lstm神经网络的频谱感知算法
CN112560596A (zh) 一种雷达干扰类别识别方法及系统
CN112881987A (zh) 一种基于lstm模型的机载相控阵雷达行为预测方法
CN113158886B (zh) 一种基于深度强化学习的波形捷变雷达辐射源识别方法
CN108631817B (zh) 一种基于时频分析和径向神经网络进行跳频信号频段预测的方法
CN102867104A (zh) 一种电子设备的电磁环境影响因素的定量分析装置及方法
CN114492583B (zh) 一种基于lstm的雷达搜索模式识别方法
CN103795436B (zh) 基于量子Hopfield神经网络和量子鱼群算法的鲁棒多用户检测方法
CN116431988A (zh) 基于活动模式-马尔科夫链的居民出行活动时间序列生成方法
CN112564834B (zh) 一种面向无线通信系统的智能认知与干扰方法及系统
Jin et al. Radar emitter identification based on EPSD-DFN
CN114912482A (zh) 辐射源的识别方法及装置
CN114298093A (zh) Iff信号智能分类识别方法
CN113269217A (zh) 基于Fisher准则的雷达目标分类方法
CN114545343B (zh) 基于量子认知的雷达干扰决策方法
CN115062790A (zh) 基于隐马尔可夫模型的q学习干扰决策方法
CN114545343A (zh) 基于量子认知的雷达干扰决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant