CN113378466A - 一种基于dqn的雷达对抗智能决策方法 - Google Patents

一种基于dqn的雷达对抗智能决策方法 Download PDF

Info

Publication number
CN113378466A
CN113378466A CN202110654705.5A CN202110654705A CN113378466A CN 113378466 A CN113378466 A CN 113378466A CN 202110654705 A CN202110654705 A CN 202110654705A CN 113378466 A CN113378466 A CN 113378466A
Authority
CN
China
Prior art keywords
radar
state
interference
dqn
countermeasure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110654705.5A
Other languages
English (en)
Inventor
汪鹏
彭晓燕
田勇
侯鑫玥
于俊鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110654705.5A priority Critical patent/CN113378466A/zh
Publication of CN113378466A publication Critical patent/CN113378466A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于DQN的雷达对抗智能决策方法。为了适应日益复杂多变的电磁环境和满足多种任务的执行要求,现代雷达应提升自身的智能化水平,能够在动态对抗中具备自主学习的能力,使得雷达的对抗系统从传统的固定抗干扰策略向动态地自主实施高效的抗干扰策略进行转变。本发明采用深度神经网络拟合动作价值函数,进而选取相应的动作,获得最优对抗策略,提高了雷达在多重信号并存的场景下目标跟踪的性能,增强了雷达面向此类问题时具有较强的自主性和适应性。

Description

一种基于DQN的雷达对抗智能决策方法
技术领域
本发明涉及雷达电子对抗和人工智能的交叉技术领域,具体涉及一种基于DQN的雷达对抗智能决策方法。
背景技术
日益复杂的电磁环境使得雷达智能化水平的提升迫在眉睫,只有这样才能满足雷达在进行准确检测、紧密跟踪、密切监视等任务时的需求。在实际工作时,雷达所探测的目标及所处的环境是实时变化的。其中,雷达对电磁频谱的控制和使用是非常关键的,这是因为拥挤的电磁频谱伴随着复杂的干扰,会降低雷达的性能。在电子对抗中,传统雷达的决策往往依赖于专家经验,没有充分利用战场动态和静态环境信息,干扰和对抗往往比较单一,决策效率较低。
将认知对抗技术应用在雷达上,使得雷达系统具有学习行为能力,而强化学习是一种能够提高学习行为能力的方法。强化学习方法是从动物学习理论演化而来,不依赖先验知识,在雷达跟踪过程中不断与环境进行交获取知识,通过“试错”机制在线学习,并自主做出行动决策。智能体通过折扣因子,最佳地匹配状态和动作,获得的反馈奖励用于强化该行为,从而得到全局最优策略。
发明内容
为了解决现有技术的不足,本发明的目的在于提供一种基于深度Q学习网络(DQN)的雷达对抗智能决策方法。
为了实现上述目的,本发明采用的技术方案如下所述:
一种基于DQN的雷达对抗智能决策方法,包括如下步骤:
S1:构建雷达对抗场景:设干扰源和雷达是均用点代替,将频带分段,干扰频段一次可以被占据一个或多个频段,并且干扰源相对于雷达的位置不影响雷达受到的干扰,雷达状态由位置状态X和速度状态V组成,目标的干扰状态为Θ,雷达可采取的动作状态为A;
S2:设置干扰源移动轨迹;
S3:将雷达与环境交互的过程建模为马尔科夫决策过程(MDP);
S4:雷达当前状态为s,与环境进行交互后,为了转向下一个状态s′以及状态转移之间获取的奖励,则通过训练好的DQN获得对应当前状态的Q(s,a)值函数并储存起来用于更新经验池,即智能体利用DQN给出了最优策略,然后执行对应的动作a,更新雷达的状态,然后重复上述过程,直到雷达达到最终状态。
本发明的有益效果是:
本发明提供一种基于DQN的雷达对抗智能决策方法,利用深度神经网络拟合动作价值函数,进而选取相应的动作,获得最优对抗策略,提高雷达目标检测性能;当训练次数或者遇到未训练过的状态时,基于DQN的雷达在电子对抗中依旧表现出色,且不需要策略迭所需的大矩阵,可以处理更复杂、更大的状态空间,能够在较短时间内收敛到最佳策略;将DQN应用于在雷达电子对抗中,弥补了现有方法的不足,使得雷达更加智能、高效地实施抗干扰决策。
附图说明
图1为干扰源轨迹和位置状态图;
图2为DQN方法流程图。
具体实施方式
下面结合附图说明本发明的具体实施方式:
S1:构建雷达对抗场景:设干扰源和雷达是均用点代替,将频带分段,干扰频段一次可以被占据一个或多个频段,并且干扰源相对于雷达的位置不影响雷达受到的干扰,雷达状态由位置状态X和速度状态V组成,分别为:X=[p1,p2,…,pρ]T,V=[v1,v2,…,vv]T,其中ρ是位置数,v是速度数,T表示转置运算,pi=[px,py,pz],其中px、py和pz是三个方向的位置分量,vi=[vx,vy,vz],其中vx、vy和vz是三个方向的速度分量,雷达位于原点(0,0,0);
干扰状态Θ=[θ12,…,θM]T,其中M是干扰状态数量,给定N个频段,且M=2N,θi=[θ12,…,θN],θi∈{0,1}表示第i个频带有无干扰的情况,0代表不存在干扰,1代表存在干扰;
雷达可采取的动作状态Α=[a1,a2,…,aK]T,其中K表示动作的数量,ai=[a1,a2,…,aN],ai∈{0,1}表示雷达所采取的动作情况,即选择对应频段发射波形,这里只允许雷达使用连续的频段,故有效的动作数量K=N(N+1)/2。
S2:设置目标移动轨迹,如图1所示,图中的圆圈表示位置状态(单元格),线条表示目标轨迹。
S3:将雷达与环境交互的过程建模为马尔科夫决策过程(MDP),MDP由六元组<S,A,P,R,γ,π*>表示,其中S是模型中所有状态的集合,A是所有雷达能够采用的动作的集合,P是转移概率函数,指当执行动作a(a∈A)时,状态s(s∈S)转移到状态s′(s′∈S)的概率,即:
P(s,a,s′)=P(St+1=s′|St=s,At=a)
R是奖赏函数,指当执行动作a(a∈A)后,状态s(s∈S)转移到状态s′(s′∈S)时所积累的平均奖励,即:
R(s,a,s′)=E(Rt+1|St+1=s′,St=s,At=a)
γ是用于计算整个过程累积奖励的折扣因子,取值范围是[0,1],当γ接近于0时,智能体倾向于立即获得奖励,而未来的奖励可能会大幅减少,当γ接近于1时,智能体更喜欢获得未来的奖励,π*是智能体获得最大回报时的策略,即最优策略。
S4:如图2所示,雷达当前状态为s,与环境进行交互后,为了转向下一个状态s′以及状态转移之间获取的奖励,则通过训练好的DQN获得对应当前状态的Q(s,a)值函数并储存起来用于更新经验池,即智能体利用DQN给出了最优策略,然后执行对应的动作a,更新雷达的状态,然后重复上述过程,直到雷达达到最终状态。
进一步地,步骤S4中所述的Q(s,a)值函数如下式:
Figure BDA0003112167770000031
其中,参数Q(s,a)是针对特定状态s产生的状态行为价值,α是学习率,决定收敛快慢,Qnet是通过主网络预测得到的Q值,Qt是通过目标网络得到Q值。
进一步地,步骤S4中DQN采用两个结构相同、参数不同、相互独立的神经网络。NET1为主网络,通过与环境进行交互,选择相应动作,并优化模型参数;NET2为目标网络,用于计算目标Q值,优化主Q网络;为了降低两个网络之间的相关性,主网络每得到一组Q值便进行网络训练,实时更新主网络的模型参数,目标网络每隔若干时间步才接收到网络参数,属于延时更新。

Claims (2)

1.一种基于DQN的雷达对抗智能决策方法,其特征在于,包括以下步骤:
S1、构建雷达对抗场景:
建立三维直角坐标系,将干扰源和雷达表示为坐标系中的点,将频带分段,干扰频段一次被占据一个或多个频段,并且干扰源相对于雷达的位置不影响雷达受到的干扰,雷达状态由位置状态X和速度状态V组成,分别为:X=[p1,p2,…,pρ]T,V=[v1,v2,…,vv]T,其中ρ是位置数,v是速度数,T表示转置运算,pi=[px,py,pz],其中px、py和pz是坐标系中三个方向的位置分量,vi=[vx,vy,vz],其中vx、vy和vz是坐标系中三个方向的速度分量,雷达位于原点(0,0,0);
定义干扰状态Θ=[θ12,…,θM]T,其中M是干扰状态数量,给定N个频段,且M=2N,θi=[θ12,…,θN],θi∈{0,1}表示第i个频带有无干扰的情况,0代表不存在干扰,1代表存在干扰;
定义雷达可采取的动作状态Α=[a1,a2,…,aK]T,其中K表示动作的数量,ai=[a1,a2,…,aN],ai∈{0,1}表示雷达所采取的动作情况,即选择对应频段发射波形,只允许雷达使用连续的频段,即有效的动作数量K=N(N+1)/2;
S2、设置干扰源移动轨迹;
S3、智能决策雷达与环境交互的过程:
将雷达与环境交互的过程建模为马尔科夫决策过程(MDP),MDP由六元组<S,A,P,R,γ,π*>表示,其中S是模型中所有状态的集合,A是所有雷达能够采用的动作的集合,P是转移概率函数,指当执行动作a(a∈A)时,状态s(s∈S)转移到状态s′(s′∈S)的概率,即:
P(s,a,s′)=P(St+1=s′|St=s,At=a)
R是奖赏函数,指当执行动作a(a∈A)后,状态s(s∈S)转移到状态s′(s′∈S)时所积累的平均奖励,即:
R(s,a,s′)=E(Rt+1|St+1=s′,St=s,At=a)
γ是用于计算整个过程累积奖励的折扣因子,取值范围是[0,1],当γ接近于0时,智能体倾向于立即获得奖励,而未来的奖励会大幅减少,当γ接近于1时,智能体倾向于获得未来的奖励,π*是智能体获得最大回报时的策略,即最优策略;
S4、智能决策:
设雷达当前状态为s,与环境进行交互后,为了转向下一个状态s′以及状态转移之间获取的奖励R,通过训练好的DQN获得对应当前状态的Q(s,a)值函数并储存起来用于更新经验池,即智能体利用DQN给出了最优策略,然后执行对应的动作a,更新雷达的状态至s′,直到雷达达到最终状态;
所述DQN包括两个结构相同、参数不同、相互独立的神经网络,分别定义为NET1和NET2,其中NET1为主网络,通过与环境进行交互,选择相应动作,并优化模型参数,NET2为目标网络,用于计算目标Q值,优化主网络,主网络每得到一组Q值便进行网络训练,实时更新主网络的模型参数,目标网络每隔预设的时间步才接收到网络参数,属于延时更新。
2.根据权力要求1所述基于DQN的雷达对抗智能决策方法,其特征在于,所述Q(s,a)值函数如下式:
Figure FDA0003112167760000021
其中参数Q(s,a)是针对状态s产生的状态行为价值,α是学习率,决定收敛快慢,Qnet是通过主网络预测得到的Q值,Qt是通过目标网络得到Q值。
CN202110654705.5A 2021-06-11 2021-06-11 一种基于dqn的雷达对抗智能决策方法 Pending CN113378466A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110654705.5A CN113378466A (zh) 2021-06-11 2021-06-11 一种基于dqn的雷达对抗智能决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110654705.5A CN113378466A (zh) 2021-06-11 2021-06-11 一种基于dqn的雷达对抗智能决策方法

Publications (1)

Publication Number Publication Date
CN113378466A true CN113378466A (zh) 2021-09-10

Family

ID=77574046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110654705.5A Pending CN113378466A (zh) 2021-06-11 2021-06-11 一种基于dqn的雷达对抗智能决策方法

Country Status (1)

Country Link
CN (1) CN113378466A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114509732A (zh) * 2022-02-21 2022-05-17 四川大学 一种频率捷变雷达的深度强化学习抗干扰方法
CN115712099A (zh) * 2023-01-10 2023-02-24 北京东远润兴科技有限公司 雷达干扰对抗测试方法、装置、设备及储存介质
CN117675054A (zh) * 2024-02-02 2024-03-08 中国电子科技集团公司第十研究所 一种多域联合的抗干扰智能决策方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3339880A1 (en) * 2016-12-22 2018-06-27 Airbus Defence and Space GmbH Adaptive radar system
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN112904290A (zh) * 2021-01-26 2021-06-04 西安电子科技大学 一种雷达智能认知抗干扰策略的生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3339880A1 (en) * 2016-12-22 2018-06-27 Airbus Defence and Space GmbH Adaptive radar system
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN112904290A (zh) * 2021-01-26 2021-06-04 西安电子科技大学 一种雷达智能认知抗干扰策略的生成方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ERSIN SELVI 等: "On the use of Markov Decision Processes in cognitive radar:An application to target tracking", 《 2018 IEEE RADAR CONFERENCE (RADARCONF18)》 *
MARK KOZY 等: "Applying Deep-Q Networks to Target Tracking to Improve Cognitive Radar", 《2019 IEEE RADAR CONFERENCE (RADARCONF)》 *
吴夏铭 等: "基于动作空间噪声的深度Q网络学习", 《长春理工大学学报(自然科学版)》 *
李云杰 等: "基于Q-学习算法的认知雷达对抗过程设计", 《北京理工大学学报》 *
邢强 等: "基于Q-学习的智能雷达对抗", 《系统工程与电子技术》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114509732A (zh) * 2022-02-21 2022-05-17 四川大学 一种频率捷变雷达的深度强化学习抗干扰方法
CN114509732B (zh) * 2022-02-21 2023-05-09 四川大学 一种频率捷变雷达的深度强化学习抗干扰方法
CN115712099A (zh) * 2023-01-10 2023-02-24 北京东远润兴科技有限公司 雷达干扰对抗测试方法、装置、设备及储存介质
CN117675054A (zh) * 2024-02-02 2024-03-08 中国电子科技集团公司第十研究所 一种多域联合的抗干扰智能决策方法及系统
CN117675054B (zh) * 2024-02-02 2024-04-23 中国电子科技集团公司第十研究所 一种多域联合的抗干扰智能决策方法及系统

Similar Documents

Publication Publication Date Title
CN113378466A (zh) 一种基于dqn的雷达对抗智能决策方法
Jiang et al. Path planning for intelligent robots based on deep Q-learning with experience replay and heuristic knowledge
CN111563188B (zh) 一种移动多智能体协同目标搜索方法
CN102819264B (zh) 移动机器人路径规划q学习初始化方法
WO2021208771A1 (zh) 强化学习的方法和装置
CN110991972B (zh) 一种基于多智能体强化学习的货物运输系统
CN112799386B (zh) 基于人工势场与强化学习的机器人路径规划方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN110033081A (zh) 一种确定学习率的方法和装置
CN106022471A (zh) 基于粒子群优化算法的小波神经网络模型船舶横摇实时预测方法
CN115993831B (zh) 基于深度强化学习的机器人无目标网络的路径规划方法
CN109799829B (zh) 一种基于自组织映射的机器人群体协同主动感知方法
CN113268081A (zh) 一种基于强化学习的小型无人机防控指挥决策方法及系统
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
Cao et al. Dynamic task assignment for multi-AUV cooperative hunting
CN113110101A (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
CN116757249A (zh) 一种基于分布式强化学习的无人机集群策略意图识别方法
CN116340737A (zh) 基于多智能体强化学习的异构集群零通信目标分配方法
CN116227622A (zh) 基于深度强化学习的多智能体地标覆盖方法及系统
Tian et al. A deep q-network based intelligent decision-making approach for cognitive radar
CN115202357A (zh) 一种基于脉冲神经网络的自主建图方法
CN114757092A (zh) 基于队友感知的多智能体协作通信策略的训练系统和方法
Yu et al. A novel automated guided vehicle (AGV) remote path planning based on RLACA algorithm in 5G environment
CN111314015A (zh) 一种基于强化学习的脉冲干扰决策方法
CN116882607B (zh) 一种基于路径规划任务的关键节点识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210910