CN116338598B

CN116338598B - 一种基于回溯dqn的雷达抗干扰智能决策方法

Info

Publication number: CN116338598B
Application number: CN202310627693.6A
Authority: CN
Inventors: 兰岚; 朱圣棋; 张翔; 李西敏; 全英汇; 许京伟; 廖桂生; 黄磊
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-08-29
Anticipated expiration: 2043-05-31
Also published as: CN116338598A

Abstract

本发明涉及一种基于回溯DQN的雷达抗干扰智能决策方法，包括：根据接收的回波信号的干扰类型，确定对应的干扰状态；根据干扰状态，利用训练完成的DQN算法神经网络，遍历抗干扰方法库中的抗干扰方法，实现雷达抗干扰智能决策；其中，利用基于回溯更新Q值的方法对DQN算法神经网络进行训练，得到训练完成的DQN算法神经网络。本发明方法结合雷达抗干扰技术与强化学习中的DQN算法，提出了一种回溯DQN算法，该算法在目标网络的更新公式中加入了回溯更新Q值，该回溯更新Q值的引入能降低优数据变化的影响，提高雷达智能决策系统的稳健性，增强雷达的抗干扰能力。

Description

一种基于回溯DQN的雷达抗干扰智能决策方法

技术领域

本发明属于雷达技术领域，具体涉及一种基于回溯DQN的雷达抗干扰智能决策方法。

背景技术

随着干扰技术的不断发展升级，干扰机的干扰能力越发强大，使得雷达面临的干扰类型不断增多，如间歇采样转发干扰，频谱弥散干扰等新型干扰会严重降低雷达的性能，影响雷达的目标搜索，跟踪能力。此外，雷达面临的干扰场景也越发复杂，雷达不仅会接收到单一干扰，还会接收到由多种干扰糅合而成的复合干扰，这些都给雷达的生存能力带来极大挑战，而传统由人工设计编排的雷达抗干扰策略则难以应对多变的干扰环境。

国内的汪浩学者在“强化学习算法在雷达智能抗干扰中的应用”一文中提出了一种基于Q学习算法的智能化抗干扰方法，其将Q学习算法应用到雷达智能化抗干扰体系中，实现了由雷达智能决策替代人工设计编排抗干扰策略的目标。

由于雷达的接收信号都是动态变化的，因此即使是同一种抗干扰方法，其带来的评估反馈也是动态变化的，这种浮动的反馈信息将会影响算法的收敛性，影响抗干扰策略的调整升级。而且，对于Q学习算法来说，必须构建一个大小与“状态-行为”对数量相对应的Q表格。当“状态-行为”对的数量太多时，Q学习将会占据较多的存储空间，在实际中会对雷达性能产生严重影响。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于回溯DQN的雷达抗干扰智能决策方法。本发明要解决的技术问题通过以下技术方案实现：

本发明提供了一种基于回溯DQN的雷达抗干扰智能决策方法，包括：

根据接收的回波信号的干扰类型，确定对应的干扰状态；

根据所述干扰状态，利用训练完成的DQN算法神经网络，遍历抗干扰方法库中的抗干扰方法，实现雷达抗干扰智能决策；

其中，利用基于回溯更新Q值的方法对所述DQN算法神经网络进行训练，得到训练完成的DQN算法神经网络。

在本发明的一个实施例中，在根据接收的回波信号的干扰类型，确定对应的干扰状态之前，所述基于回溯DQN的雷达抗干扰智能决策方法还包括：

对雷达面临的干扰类型进行排列组合，得到多种对干扰类型组合，对每一种干扰类型组合设置对应的干扰状态，建立干扰类型状态表；

对所述抗干扰方法库中的每一种抗干扰方法设置对应的标记值，建立抗干扰方法标记列表。

在本发明的一个实施例中，根据接收的回波信号的干扰类型，确定对应的干扰状态，包括：

利用干扰识别算法识别所述回波信号的干扰类型；

根据所述干扰类型状态表确定所述回波信号的干扰类型对应的干扰状态。

在本发明的一个实施例中，利用基于回溯更新Q值的方法对所述DQN算法神经网络进行训练，得到训练完成的DQN算法神经网络，包括：

步骤1：构建DQN算法神经网络并进行初始化，所述DQN算法神经网络包括结构相同的主网络和目标网络，其中，所述DQN算法神经网络的输入为干扰状态和抗干扰方法的标记值，输出作为Q值；

步骤2：获取训练回波数据，确定所述训练回波数据的干扰类型以及对应的干扰状态，所述训练回波数据作为当前的训练回波数据，所述训练回波数据包括多种干扰类型；

步骤3：根据当前的训练回波数据，利用贪婪算法从所述抗干扰方法库中选择一个抗干扰方法；

步骤4：按照先空域后时频域的处理顺序，使用选择的抗干扰方法对当前的训练回波数据进行干扰抑制处理并对处理结果进行评估，获取干扰抑制处理后的训练回波数据的干扰状态以及该抗干扰方法的评估结果；

步骤5：将当前的训练回波数据的干扰状态、选择的抗干扰方法、该抗干扰方法的评估结果以及干扰抑制处理后的训练回波数据的干扰状态，组合成一条经验并存入经验池中；

步骤6：将干扰抑制处理后的训练回波数据作为当前的训练回波数据，重复步骤3-步骤5直至对所述训练回波数据中的所有干扰类型进行干扰抑制处理之后，完成一轮训练，对本轮训练中的关键经验进行回溯，根据关键经验的抗干扰方法的评估结果计算回溯更新Q值，对本轮训练存储的经验进行改写；

步骤7：一轮训练完成后，重复步骤2-步骤6利用所述训练回波数据进行下一轮训练；

步骤8：当经验池存满时，进入所述DQN算法神经网络的更新阶段，在所述DQN算法神经网络的更新阶段，重复步骤2-步骤7，同时在按照步骤5将生成的经验存入经验池中之后，从所述经验池之中抽取预设数量的经验，以对DQN算法神经网络的网络参数进行更新，直至达到预设的训练轮次，得到训练完成的DQN算法神经网络；其中，按照先进先出的原则，将新生成的经验覆盖所述经验池中的旧经验。

在本发明的一个实施例中，所述步骤3包括：

步骤3.1：设置贪婪系数，其中，/>；

步骤3.2：以的概率从所述抗干扰方法库中随机选择一个抗干扰方法，以/>的概率根据所述DQN算法神经网络的主网络的输出结果选择一个抗干扰方法；

其中，根据所述DQN算法神经网络的主网络的输出结果选择一个抗干扰方法，包括：

将当前的训练回波数据的干扰状态和所述抗干扰方法库中抗干扰方法的标记值依次输入至所述主网络中，确定所述主网络输出的最大Q值，将最大Q值对应的抗干扰方法作为选择结果。

在本发明的一个实施例中，所述步骤4包括：

步骤4.1：判断选择的抗干扰方法是否作为当前的训练回波数据的首次干扰抑制处理的抗干扰方法，判断选择的抗干扰方法是否为空域抗干扰方法；

步骤4.2：若当前的训练回波数据的首次干扰抑制处理的抗干扰方法不是空域抗干扰方法，则不进行干扰抑制处理，并将不高于-50dB的评价指标值作为该抗干扰方法的评估结果；

步骤4.3：若当前的训练回波数据的首次干扰抑制处理的抗干扰方法是空域抗干扰方法，则利用选择的抗干扰方法对当前的训练回波数据进行干扰抑制处理，并根据空域抗干扰评价指标计算得到评价指标值作为该抗干扰方法的评估结果；

步骤4.4：若当前的训练回波数据的非首次干扰抑制处理的抗干扰方法是空域抗干扰方法，则不进行干扰抑制处理，并将不高于-50dB的评价指标值作为该抗干扰方法的评估结果；

步骤4.5：若当前的训练回波数据的非首次干扰抑制处理的抗干扰方法不是空域抗干扰方法，则利用选择的抗干扰方法对当前的训练回波数据进行干扰抑制处理，并根据时频域抗干扰评价指标计算得到评价指标值作为该抗干扰方法的评估结果；

步骤4.6：当选择的抗干扰方法与当前的训练回波数据中的一种干扰类型相对应，那么，使用选择的抗干扰方法对当前的训练回波数据进行干扰抑制处理后，认为该干扰类型已被抑制，对应的干扰抑制处理后的训练回波数据的干扰状态发生转变，否则干扰抑制处理后的训练回波数据的干扰状态不变。

在本发明的一个实施例中，所述空域抗干扰评价指标为：

；

式中，表示空域抗干扰评价指标，/>表示目标信号协方差矩阵，/>表示干扰及噪声协方差矩阵，/>表示空域权矢量，/>表示转置；

所述时频域抗干扰评价指标为：

；

式中，表示时频域抗干扰评价指标，/>表示脉冲压缩后目标位置处的信号幅度，/>表示干扰及噪声的幅度均值。

在本发明的一个实施例中，在所述步骤6中，对本轮训练中的关键经验进行回溯，根据关键经验对应的抗干扰方法的评估结果计算回溯更新Q值并对本轮存储的经验进行改写，包括：

步骤Ⅰ：相比于当前的训练回波数据的干扰状态，干扰抑制处理后的训练回波数据的干扰状态发生转变，则认为该条经验为关键经验，回溯确定对本轮训练中所有的关键经验；

步骤Ⅱ：根据下式计算得到回溯更新Q值：

；

其中，表示回溯更新Q值，/>表示回溯权值，/>表示回溯更新矢量，/>表示转置；

步骤Ⅲ：对本轮训练存储的经验中添加回溯更新Q值得到改写后的经验，其中，关键经验的回溯更新Q值为根据步骤Ⅱ计算得到的回溯更新Q值，非关键经验的回溯更新Q值为零。

在本发明的一个实施例中，在所述步骤8中，从所述经验池之中抽取预设数量的经验，以对DQN算法神经网络的网络参数进行更新，包括：

步骤①：从所述经验池之中抽取预设数量的经验，将抽取的经验中的当前的训练回波数据的干扰状态、选择的抗干扰方法的标记值输入至所述DQN算法神经网络的主网络中，得到主网络对应的输出Q值；

步骤②：将抽取的经验中的干扰抑制处理后的训练回波数据的干扰状态输入至所述DQN算法神经网络的目标网络中，同时目标网络以干扰抑制处理后的训练回波数据的干扰状态为前提，遍历所述抗干扰方法库中的抗干扰方法，对于每一个经验中的干扰抑制处理后的训练回波数据的干扰状态，选取目标网络输出的最大Q值；

步骤③：根据构建的损失函数，利用梯度下降法对所述主网络的网络参数进行更新，根据设置的更新频次，将所述主网络的网络参数与所述目标网络的网络参数进行同步；其中，所述损失函数为：

；

式中，表示期望，/>表示经验中的抗干扰方法的评估结果，/>表示折扣系数，表示选取的目标网络输出的最大Q值，/>表示经验中的干扰抑制处理后的训练回波数据的干扰状态，/>表示抗干扰方法库中的抗干扰方法，/>表示当前目标网络的网络参数，/>表示抽取的经验中的关键经验的回溯更新Q值的平均值，/>表示经验中的当前的训练回波数据的干扰状态，/>表示经验中的选择的抗干扰方法，表示主网络对应的输出Q值，/>表示当前主网络的网络参数。

在本发明的一个实施例中，根据所述干扰状态，利用训练完成的DQN算法神经网络，遍历抗干扰方法库中的抗干扰方法，实现雷达抗干扰智能决策，包括：

步骤一：将当前的回波信号的干扰状态输入至训练完成的DQN算法神经网络的主网络中；

步骤二：主网络以当前的回波信号的干扰状态为前提，遍历所述抗干扰方法库中的抗干扰方法，选取主网络输出的最大Q值对应的抗干扰方法；

步骤三：利用选取的抗干扰方法对所述回波信号进行干扰抑制处理，获取干扰抑制处理的回波信号的干扰状态，重复步骤一至步骤三直至所述回波信号的中的所有干扰类型被抑制，实现雷达抗干扰智能决策。

与现有技术相比，本发明的有益效果在于：

1. 本发明的基于回溯DQN的雷达抗干扰智能决策方法，将DQN学习算法运用至雷达抗干扰领域时，在DQN学习算法中提出了计算回溯更新Q值这一步骤，即回溯DQN算法，该算法减小了浮动的评估反馈对算法收敛性的影响，提高了雷达系统的稳健性。

2. 本发明的基于回溯DQN的雷达抗干扰智能决策方法，将回溯DQN算法引入雷达抗干扰技术中。对比使用Q学习算法的智能决策方法，以神经网络替代了Q学习算法中的Q表格，本发明借助于神经网络强大的表征能力，可以有效的降低对存储空间的需求，此外，由于不需要对Q表格进行搜索，还可提高雷达的决策速度，增强雷达系统的实时处理能力。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1是本发明实施例提供的一种基于回溯DQN的雷达抗干扰智能决策方法的示意图；

图2是本发明实施例提供的一种DQN算法神经网络的训练流程图；

图3是本发明实施例提供的多种抗干扰策略流程的理想性能仿真对比图；

图4是本发明的方法在对应图3中第一步处理时的Q值仿真结果图；

图5是本发明的方法在对应图3中第二步处理时的Q值仿真结果图；

图6是本发明的方法在对应图3中第三步处理时的Q值仿真结果图。

具体实施方式

为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及具体实施方式，对依据本发明提出的一种基于回溯DQN的雷达抗干扰智能决策方法进行详细说明。

有关本发明的前述及其他技术内容、特点及功效，在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明，可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解，然而所附附图仅是提供参考与说明之用，并非用来对本发明的技术方案加以限制。

实施例一

请参见图1，图1是本发明实施例提供的一种基于回溯DQN的雷达抗干扰智能决策方法的示意图，如图1所示，本实施例的基于回溯DQN的雷达抗干扰智能决策方法，包括：

S1：根据接收的回波信号的干扰类型，确定对应的干扰状态；

S2：根据干扰状态，利用训练完成的DQN算法神经网络，遍历抗干扰方法库中的抗干扰方法，实现雷达抗干扰智能决策；其中，利用基于回溯更新Q值的方法对DQN算法神经网络进行训练，得到训练完成的DQN算法神经网络。

在一个可选地实施例中，在S1之前还包括：

S0：建立干扰类型状态表和抗干扰方法标记列表。

可选地，对雷达面临的干扰类型进行排列组合，得到多种对干扰类型组合，对每一种干扰类型组合设置对应的干扰状态，建立干扰类型状态表。对抗干扰方法库中的每一种抗干扰方法设置对应的标记值，建立抗干扰方法标记列表。

示例性地，假设雷达面临的干扰类型有l种，对其进行排列组合得到的干扰类型组合数量为。例如可以采用不同的编号表示每一种干扰类型组合设置对应的干扰状态，

在本实施例中，抗干扰方法库中包括现有的抗干扰方法，示例性地，可以通过不同的编号表示抗干扰方法对应的标记值。

在一个可选地实施例中，S1包括：

S11：利用干扰识别算法识别回波信号的干扰类型；

S12：根据干扰类型状态表确定回波信号的干扰类型对应的干扰状态。

请结合参见图2所示的DQN算法神经网络的训练流程图，对DQN算法神经网络的训练过程进行说明。

在本实施例中，DQN算法神经网络的训练过程可分为观察阶段和更新阶段两个阶段，在经验池存满之前处于观察阶段，DQN算法神经网络的网络参数不更新，在经验池存满之后进入更新阶段，DQN算法神经网络的网络参数进行更新。

在一个可选地实施例中，利用基于回溯更新Q值的方法对DQN算法神经网络进行训练，得到训练完成的DQN算法神经网络，包括：

步骤1：构建DQN算法神经网络并进行初始化，DQN算法神经网络包括结构相同的主网络和目标网络，其中，DQN算法神经网络的输入为干扰状态和抗干扰方法的标记值，输出作为Q值；

在本实施例中，主网络和目标网络均构建为BP神经网络，包含1层输入层，2层隐含层和1层输出层。

步骤2：获取训练回波数据，确定训练回波数据的干扰类型以及对应的干扰状态，将该训练回波数据作为当前的训练回波数据，训练回波数据包括多种干扰类型；

可选地，该训练回波数据可以是雷达接收的回波数据，可以是利用干扰发射机生成回波数据。

步骤3：根据当前的训练回波数据，利用贪婪算法从抗干扰方法库中选择一个抗干扰方法；

在一个可选地实施例中，步骤3包括：

步骤3.1：设置贪婪系数，其中，/>；

步骤3.2：以的概率从抗干扰方法库中随机选择一个抗干扰方法，以/>的概率根据DQN算法神经网络的主网络的输出结果选择一个抗干扰方法；

其中，根据DQN算法神经网络的主网络的输出结果选择一个抗干扰方法，包括：

将当前的训练回波数据的干扰状态和抗干扰方法库中抗干扰方法的标记值依次输入至主网络中，确定主网络输出的最大Q值，将最大Q值对应的抗干扰方法作为选择结果。

在本实施例中，假设训练回波数据的初始干扰类型为，若使用了干扰类型/>对应的抗干扰方法对其进行干扰抑制处理，则不论该干扰类型是否已被抑制，均认为该干扰类型已消除，干扰抑制处理后训练回波数据的干扰状态将转变为，同时其对应的状态也会发生改变。

在一个可选地实施例中，步骤4包括：

在本实施例中，当首次干扰抑制处理的抗干扰方法是空域抗干扰方法时，使用空域抗干扰方法得到的空域权矢量，然后按照下式对当前的训练回波数据进行干扰抑制处理，得到干扰抑制处理后的训练回波数据：

（1）；

其中，表示当前的训练回波数据，/>，/>为接收快拍数；/>和/>均为/>的列向量，/>表示接收阵元数。

在本实施例中，空域抗干扰评价指标为：

（2）；

式中，表示空域抗干扰评价指标，/>表示目标信号协方差矩阵，/>表示干扰及噪声协方差矩阵，/>表示空域权矢量，/>表示转置。

在本实施例中，若训练回波数据之前已经使用过空域抗干扰方法进行处理，此时选择的抗干扰方法为时频域抗干扰方法，则令上一次干扰抑制处理后的结果为，得到此次的时频域抗干扰方法处理后的数据为：

（3）；

其中，代表使用时频域抗干扰方法对当前的训练回波数据进行处理。

在本实施例中，时频域抗干扰评价指标为：

（4）；

在本实施例中，步骤4.2-步骤4.5为并列的步骤没有实际的顺序要求。

在本实施例中，利用表示当前的训练回波数据的干扰状态，/>表示选择的抗干扰方法，/>表示选择的抗干扰方法的评估结果，/>表示干扰抑制处理后的训练回波数据的干扰状态，那么，组合成的经验表示为/>。

步骤6：将干扰抑制处理后的训练回波数据作为当前的训练回波数据，重复步骤3-步骤5直至对训练回波数据中的所有干扰类型进行干扰抑制处理之后，完成一轮训练，对本轮训练中的关键经验进行回溯，根据关键经验的抗干扰方法的评估结果计算回溯更新Q值，对本轮训练存储的经验进行改写；

在一个可选地实施例中，对本轮训练中的关键经验进行回溯，根据关键经验对应的抗干扰方法的评估结果计算回溯更新Q值并对本轮存储的经验进行改写，包括以下步骤：

也就是，对本轮训练中存储的所有经验，若在执行抗干扰方法之后，回波数据的干扰状态/>与执行抗干扰方法/>之前的干扰状态/>不一致，则认为该条经验为关键经验。

示例性地，本轮训练中回溯得到的关键经验表示为：

（5）；

式中，表示本轮训练中关键经验的数量。

步骤Ⅱ：根据下式计算得到回溯更新Q值：

（6）；

在本实施例中，将本轮训练中所有关键经验中的抗干扰方法的评估结果取出组成回溯更新矢量，即为，回溯权值/>根据经验设置。

在本实施例中，关键经验改写后可表示为：

（7）；

非关键经验改写后可表示为：

（8）；

也就是，在一轮训练中，所有关键经验的回溯更新Q值相同，均为，所有关键经验的回溯更新Q值相同，均为0。

步骤7：一轮训练完成后，重复步骤2-步骤6利用训练回波数据进行下一轮训练；

步骤8：当经验池存满时，进入DQN算法神经网络的更新阶段，在DQN算法神经网络的更新阶段，重复步骤2-步骤7，同时在按照步骤5将生成的经验存入经验池中之后，从经验池之中抽取预设数量的经验，以对DQN算法神经网络的网络参数进行更新，直至达到预设的训练轮次，得到训练完成的DQN算法神经网络；其中，按照先进先出的原则，将新生成的经验覆盖经验池中的旧经验。

在一个可选地实施例中，从经验池之中抽取预设数量的经验，以对DQN算法神经网络的网络参数进行更新，包括：

步骤①：从经验池之中抽取预设数量的经验，将抽取的经验中的当前的训练回波数据的干扰状态、选择的抗干扰方法的标记值输入至DQN算法神经网络的主网络中，得到主网络对应的输出Q值；

步骤②：将抽取的经验中的干扰抑制处理后的训练回波数据的干扰状态输入至DQN算法神经网络的目标网络中，同时目标网络以干扰抑制处理后的训练回波数据的干扰状态为前提，遍历抗干扰方法库中的抗干扰方法，对于每一个经验中的干扰抑制处理后的训练回波数据的干扰状态，选取目标网络输出的最大Q值；

步骤③：根据构建的损失函数，利用梯度下降法对主网络的网络参数进行更新，根据设置的更新频次，将主网络的网络参数与目标网络的网络参数进行同步；其中，损失函数为：

（9）；

在本实施例中，主网络的网络参数的具体更新过程表示为：

（10）；

式中，表示更新后的主网络的网络参数，/>表示步长。

需要说明的是，目标网络的网络参数并不直接更新，而是在主网络每更新设定的次数后进行一次参数同步。

进一步地，S2包括以下步骤：

步骤二：主网络以当前的回波信号的干扰状态为前提，遍历抗干扰方法库中的抗干扰方法，选取主网络输出的最大Q值对应的抗干扰方法；

步骤三：利用选取的抗干扰方法对回波信号进行干扰抑制处理，获取干扰抑制处理的回波信号的干扰状态，重复步骤一至步骤三直至回波信号的中的所有干扰类型被抑制，实现雷达抗干扰智能决策。

需要说明的是，上述训练过程为初步的离线训练，可以得到一个初步训练完成的DQN算法神经网络。由于DQN属于强化学习的算法，在使用初步训练完成的DQN算法神经网络在实际应用中进行雷达抗干扰智能决策时，该DQN算法神经网络仍然配合实时收到的回波数据，进行实时学习更新DQN算法神经网络的网络参数。

本实施例的基于回溯DQN的雷达抗干扰智能决策方法，将强化学习与雷达抗干扰进行了有机结合，使雷达具备智能化抗干扰的能力，相比于传统雷达依赖于专家经验对抗干扰流程进行人工编排，本发明方法使得雷达在面对较复杂的干扰场景时能自适应的改变抗干扰策略，提高了系统稳健性。将DQN学习算法运用至雷达抗干扰领域时，在DQN学习算法中，基于单轮的训练经验，提出了计算回溯更新Q值这一步骤，减小了数据误差对算法收敛性的影响，提高了算法的稳健性，能帮助雷达快速的找到合适的抗干扰方法。

实施例二

本实施例通过仿真实验对实施例一的基于回溯DQN的雷达抗干扰智能决策方法的效果进行说明。

1. 仿真参数设置：

表1给出了具体的智能决策雷达系统的仿真参数，目标信号与干扰信号的参数在表2中给出，表3给出了此次仿真所使用的空域、时域和频域的抗干扰方法。

表 1智能决策雷达系统的仿真参数

表2 目标信号与干扰信号的参数

表3 抗干扰方法

2. 仿真内容与结果分析：

仿真1，在上述表1，表2和表3的仿真参数下，不同抗干扰策略流程的性能仿真结果(先空域后时频域)如图3所示。图中，线条的名称解释了抗干扰方法组合的顺序，如WCP+SVR+FSR，代表处理数据时，第一步使用空域的WCP方法，第二步使用时域的SVR方法，第三步使用FSR方法。该仿真中，对于不同的方法组合，各执行100次蒙特卡罗运行。可以看出，从第一步处理到第二步处理流程中，ESC+SVR+EFD方法组合的干扰抑制比最高，也就是说，当雷达接收到表2中所列的干扰时，为获得最好的干扰抑制效果，雷达第一步应执行ESC方法，第二步执行SVR方法，第三步执行EFD方法。以此作为参照，本发明所提方法的理想收敛结果应该是：第一步时，ESC方法的Q值最大，第二步时，SVR方法的Q值最大，第三步，EFD方法的Q值最大。

仿真2，在上述表1，表2和表3的仿真参数下，采用本发明方法进行了仿真训练，训练总轮次为1000轮，仿真结果如图4，图5和图6所示。其中，图4为第一步处理时各方法Q值，图5为第二步处理时各方法Q值，图6为第三步处理时各方法Q值。可以看出，第一步处理时方法ESC的收敛Q值最大，第二步处理时SVR方法的收敛Q值最大，第三步处理时EFD方法的收敛Q值最大。此结果与仿真1结果吻合。通过这三步，雷达将会得到一个较好的干扰抑制效果，即完成了最优抗干扰策略的选择。此外，可见图中训练Q值在第120轮之前并未改变，这是因为前120轮雷达系统正处于观察期，此时不更新网络。各方法的Q值在第200轮训练的时候就已基本稳定，此后只有小幅度的波动，说明本发明具有一定的稳健性，具备工程价值。

应当说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于回溯DQN的雷达抗干扰智能决策方法，其特征在于，包括：

根据接收的回波信号的干扰类型，确定对应的干扰状态；

其中，利用基于回溯更新Q值的方法对所述DQN算法神经网络进行训练，得到训练完成的DQN算法神经网络；其中，

利用基于回溯更新Q值的方法对所述DQN算法神经网络进行训练，得到训练完成的DQN算法神经网络，包括：

在所述步骤6中，对本轮训练中的关键经验进行回溯，根据关键经验对应的抗干扰方法的评估结果计算回溯更新Q值并对本轮存储的经验进行改写，包括：

步骤Ⅱ：根据下式计算得到回溯更新Q值：

其中，Q_b表示回溯更新Q值，w_hs表示回溯权值，r表示回溯更新矢量，H表示转置；将本轮训练中所有关键经验中的抗干扰方法的评估结果取出组成回溯更新矢量；

步骤Ⅲ：对本轮训练存储的经验中添加回溯更新Q值，得到改写后的经验，其中，关键经验的回溯更新Q值为根据步骤Ⅱ计算得到的回溯更新Q值Q_b，非关键经验的回溯更新Q值为零；

2.根据权利要求1所述的基于回溯DQN的雷达抗干扰智能决策方法，其特征在于，在根据接收的回波信号的干扰类型，确定对应的干扰状态之前，所述基于回溯DQN的雷达抗干扰智能决策方法还包括：

3.根据权利要求2所述的基于回溯DQN的雷达抗干扰智能决策方法，其特征在于，根据接收的回波信号的干扰类型，确定对应的干扰状态，包括：

利用干扰识别算法识别所述回波信号的干扰类型；

4.根据权利要求1所述的基于回溯DQN的雷达抗干扰智能决策方法，其特征在于，所述步骤3包括：

步骤3.1：设置贪婪系数ε，其中，0<ε<1；

步骤3.2：以ε的概率从所述抗干扰方法库中随机选择一个抗干扰方法，以1-ε的概率根据所述DQN算法神经网络的主网络的输出结果选择一个抗干扰方法；

5.根据权利要求1所述的基于回溯DQN的雷达抗干扰智能决策方法，其特征在于，所述步骤4包括：

6.根据权利要求5所述的基于回溯DQN的雷达抗干扰智能决策方法，其特征在于，

所述空域抗干扰评价指标为：

式中，χ₁表示空域抗干扰评价指标，R_s表示目标信号协方差矩阵，R_in表示干扰及噪声协方差矩阵，w表示空域权矢量，H表示转置；

所述时频域抗干扰评价指标为：

式中，χ₂表示时频域抗干扰评价指标，表示脉冲压缩后目标位置处的信号幅度，/>表示干扰及噪声的幅度均值。

7.根据权利要求1所述的基于回溯DQN的雷达抗干扰智能决策方法，其特征在于，在所述步骤8中，从所述经验池之中抽取预设数量的经验，以对DQN算法神经网络的网络参数进行更新，包括：

式中，E[]表示期望，r_t表示经验中的抗干扰方法的评估结果，γ表示折扣系数，表示选取的目标网络输出的最大Q值，s_t+1表示经验中的干扰抑制处理后的训练回波数据的干扰状态，a表示抗干扰方法库中的抗干扰方法，θ_t表示当前目标网络的网络参数，/>表示抽取的经验中的关键经验的回溯更新Q值的平均值，s_t表示经验中的当前的训练回波数据的干扰状态，a_t表示经验中的选择的抗干扰方法，Q(s_t,a_t|θ_m)表示主网络对应的输出Q值，θ_m表示当前主网络的网络参数。

8.根据权利要求1所述的基于回溯DQN的雷达抗干扰智能决策方法，其特征在于，根据所述干扰状态，利用训练完成的DQN算法神经网络，遍历抗干扰方法库中的抗干扰方法，实现雷达抗干扰智能决策，包括：