CN113378466A

CN113378466A - 一种基于dqn的雷达对抗智能决策方法

Info

Publication number: CN113378466A
Application number: CN202110654705.5A
Authority: CN
Inventors: 汪鹏; 彭晓燕; 田勇; 侯鑫玥; 于俊鹏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-10

Abstract

本发明公开了一种基于DQN的雷达对抗智能决策方法。为了适应日益复杂多变的电磁环境和满足多种任务的执行要求，现代雷达应提升自身的智能化水平，能够在动态对抗中具备自主学习的能力，使得雷达的对抗系统从传统的固定抗干扰策略向动态地自主实施高效的抗干扰策略进行转变。本发明采用深度神经网络拟合动作价值函数，进而选取相应的动作，获得最优对抗策略，提高了雷达在多重信号并存的场景下目标跟踪的性能，增强了雷达面向此类问题时具有较强的自主性和适应性。

Description

一种基于DQN的雷达对抗智能决策方法

技术领域

本发明涉及雷达电子对抗和人工智能的交叉技术领域，具体涉及一种基于DQN的雷达对抗智能决策方法。

背景技术

日益复杂的电磁环境使得雷达智能化水平的提升迫在眉睫，只有这样才能满足雷达在进行准确检测、紧密跟踪、密切监视等任务时的需求。在实际工作时，雷达所探测的目标及所处的环境是实时变化的。其中，雷达对电磁频谱的控制和使用是非常关键的，这是因为拥挤的电磁频谱伴随着复杂的干扰，会降低雷达的性能。在电子对抗中，传统雷达的决策往往依赖于专家经验，没有充分利用战场动态和静态环境信息，干扰和对抗往往比较单一，决策效率较低。

将认知对抗技术应用在雷达上，使得雷达系统具有学习行为能力，而强化学习是一种能够提高学习行为能力的方法。强化学习方法是从动物学习理论演化而来，不依赖先验知识，在雷达跟踪过程中不断与环境进行交获取知识，通过“试错”机制在线学习，并自主做出行动决策。智能体通过折扣因子，最佳地匹配状态和动作，获得的反馈奖励用于强化该行为，从而得到全局最优策略。

发明内容

为了解决现有技术的不足，本发明的目的在于提供一种基于深度Q学习网络(DQN)的雷达对抗智能决策方法。

为了实现上述目的，本发明采用的技术方案如下所述：

一种基于DQN的雷达对抗智能决策方法，包括如下步骤：

S1：构建雷达对抗场景：设干扰源和雷达是均用点代替，将频带分段，干扰频段一次可以被占据一个或多个频段，并且干扰源相对于雷达的位置不影响雷达受到的干扰，雷达状态由位置状态X和速度状态V组成，目标的干扰状态为Θ，雷达可采取的动作状态为A；

S2：设置干扰源移动轨迹；

S3：将雷达与环境交互的过程建模为马尔科夫决策过程(MDP)；

S4：雷达当前状态为s，与环境进行交互后，为了转向下一个状态s′以及状态转移之间获取的奖励，则通过训练好的DQN获得对应当前状态的Q(s,a)值函数并储存起来用于更新经验池，即智能体利用DQN给出了最优策略，然后执行对应的动作a，更新雷达的状态，然后重复上述过程，直到雷达达到最终状态。

本发明的有益效果是：

本发明提供一种基于DQN的雷达对抗智能决策方法，利用深度神经网络拟合动作价值函数，进而选取相应的动作，获得最优对抗策略，提高雷达目标检测性能；当训练次数或者遇到未训练过的状态时，基于DQN的雷达在电子对抗中依旧表现出色，且不需要策略迭所需的大矩阵，可以处理更复杂、更大的状态空间，能够在较短时间内收敛到最佳策略；将DQN应用于在雷达电子对抗中，弥补了现有方法的不足，使得雷达更加智能、高效地实施抗干扰决策。

附图说明

图1为干扰源轨迹和位置状态图；

图2为DQN方法流程图。

具体实施方式

下面结合附图说明本发明的具体实施方式：

S1：构建雷达对抗场景：设干扰源和雷达是均用点代替，将频带分段，干扰频段一次可以被占据一个或多个频段，并且干扰源相对于雷达的位置不影响雷达受到的干扰，雷达状态由位置状态X和速度状态V组成，分别为：X＝[p₁,p₂,…,p_ρ]^T，V＝[v₁,v₂,…,v_v]^T，其中ρ是位置数，v是速度数，T表示转置运算，p_i＝[p_x,p_y,p_z]，其中p_x、p_y和p_z是三个方向的位置分量，v_i＝[v_x,v_y,v_z]，其中v_x、v_y和v_z是三个方向的速度分量，雷达位于原点(0,0,0)；

干扰状态Θ＝[θ₁,θ₂,…,θ_M]^T，其中M是干扰状态数量，给定N个频段，且M＝2^N，θ_i＝[θ₁,θ₂,…,θ_N]，θ_i∈{0,1}表示第i个频带有无干扰的情况，0代表不存在干扰，1代表存在干扰；

雷达可采取的动作状态Α＝[a₁,a₂,…,a_K]^T，其中K表示动作的数量，a_i＝[a₁,a₂,…,a_N]，a_i∈{0,1}表示雷达所采取的动作情况，即选择对应频段发射波形，这里只允许雷达使用连续的频段，故有效的动作数量K＝N(N+1)/2。

S2：设置目标移动轨迹，如图1所示，图中的圆圈表示位置状态(单元格)，线条表示目标轨迹。

S3：将雷达与环境交互的过程建模为马尔科夫决策过程(MDP)，MDP由六元组<S,A,P,R,γ,π^*>表示，其中S是模型中所有状态的集合，A是所有雷达能够采用的动作的集合，P是转移概率函数，指当执行动作a(a∈A)时，状态s(s∈S)转移到状态s′(s′∈S)的概率，即：

P(s,a,s′)＝P(S_t+1＝s′|S_t＝s,A_t＝a)

R是奖赏函数，指当执行动作a(a∈A)后，状态s(s∈S)转移到状态s′(s′∈S)时所积累的平均奖励，即：

R(s,a,s′)＝E(R_t+1|S_t+1＝s′,S_t＝s,A_t＝a)

γ是用于计算整个过程累积奖励的折扣因子，取值范围是[0,1]，当γ接近于0时，智能体倾向于立即获得奖励，而未来的奖励可能会大幅减少，当γ接近于1时，智能体更喜欢获得未来的奖励，π^*是智能体获得最大回报时的策略，即最优策略。

S4：如图2所示，雷达当前状态为s，与环境进行交互后，为了转向下一个状态s′以及状态转移之间获取的奖励，则通过训练好的DQN获得对应当前状态的Q(s,a)值函数并储存起来用于更新经验池，即智能体利用DQN给出了最优策略，然后执行对应的动作a，更新雷达的状态，然后重复上述过程，直到雷达达到最终状态。

进一步地，步骤S4中所述的Q(s,a)值函数如下式：

其中，参数Q(s,a)是针对特定状态s产生的状态行为价值，α是学习率，决定收敛快慢，Q_net是通过主网络预测得到的Q值，Q_t是通过目标网络得到Q值。

进一步地，步骤S4中DQN采用两个结构相同、参数不同、相互独立的神经网络。NET1为主网络，通过与环境进行交互，选择相应动作，并优化模型参数；NET2为目标网络，用于计算目标Q值，优化主Q网络；为了降低两个网络之间的相关性，主网络每得到一组Q值便进行网络训练，实时更新主网络的模型参数，目标网络每隔若干时间步才接收到网络参数，属于延时更新。

Claims

1.一种基于DQN的雷达对抗智能决策方法，其特征在于，包括以下步骤：

S1、构建雷达对抗场景：

建立三维直角坐标系，将干扰源和雷达表示为坐标系中的点，将频带分段，干扰频段一次被占据一个或多个频段，并且干扰源相对于雷达的位置不影响雷达受到的干扰，雷达状态由位置状态X和速度状态V组成，分别为：X＝[p₁,p₂,…,p_ρ]^T，V＝[v₁,v₂,…,v_v]^T，其中ρ是位置数，v是速度数，T表示转置运算，p_i＝[p_x,p_y,p_z]，其中p_x、p_y和p_z是坐标系中三个方向的位置分量，v_i＝[v_x,v_y,v_z]，其中v_x、v_y和v_z是坐标系中三个方向的速度分量，雷达位于原点(0,0,0)；

定义干扰状态Θ＝[θ₁,θ₂,…,θ_M]^T，其中M是干扰状态数量，给定N个频段，且M＝2^N，θ_i＝[θ₁,θ₂,…,θ_N]，θ_i∈{0,1}表示第i个频带有无干扰的情况，0代表不存在干扰，1代表存在干扰；

定义雷达可采取的动作状态Α＝[a₁,a₂,…,a_K]^T，其中K表示动作的数量，a_i＝[a₁,a₂,…,a_N]，a_i∈{0,1}表示雷达所采取的动作情况，即选择对应频段发射波形，只允许雷达使用连续的频段，即有效的动作数量K＝N(N+1)/2；

S2、设置干扰源移动轨迹；

S3、智能决策雷达与环境交互的过程：

将雷达与环境交互的过程建模为马尔科夫决策过程(MDP)，MDP由六元组<S,A,P,R,γ,π^*>表示，其中S是模型中所有状态的集合，A是所有雷达能够采用的动作的集合，P是转移概率函数，指当执行动作a(a∈A)时，状态s(s∈S)转移到状态s′(s′∈S)的概率，即：

P(s,a,s′)＝P(S_t+1＝s′|S_t＝s,A_t＝a)

R(s,a,s′)＝E(R_t+1|S_t+1＝s′,S_t＝s,A_t＝a)

γ是用于计算整个过程累积奖励的折扣因子，取值范围是[0,1]，当γ接近于0时，智能体倾向于立即获得奖励，而未来的奖励会大幅减少，当γ接近于1时，智能体倾向于获得未来的奖励，π^*是智能体获得最大回报时的策略，即最优策略；

S4、智能决策：

设雷达当前状态为s，与环境进行交互后，为了转向下一个状态s′以及状态转移之间获取的奖励R，通过训练好的DQN获得对应当前状态的Q(s,a)值函数并储存起来用于更新经验池，即智能体利用DQN给出了最优策略，然后执行对应的动作a，更新雷达的状态至s′，直到雷达达到最终状态；

所述DQN包括两个结构相同、参数不同、相互独立的神经网络，分别定义为NET1和NET2，其中NET1为主网络，通过与环境进行交互，选择相应动作，并优化模型参数，NET2为目标网络，用于计算目标Q值，优化主网络，主网络每得到一组Q值便进行网络训练，实时更新主网络的模型参数，目标网络每隔预设的时间步才接收到网络参数，属于延时更新。

2.根据权力要求1所述基于DQN的雷达对抗智能决策方法，其特征在于，所述Q(s,a)值函数如下式：

其中参数Q(s,a)是针对状态s产生的状态行为价值，α是学习率，决定收敛快慢，Q_net是通过主网络预测得到的Q值，Q_t是通过目标网络得到Q值。