CN113420495A

CN113420495A - 主动诱骗式智能抗干扰方法

Info

Publication number: CN113420495A
Application number: CN202110596444.6A
Authority: CN
Inventors: 马松; 黎伟; 魏迪; 王军; 李黎; 陈霄楠; 黄巍
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-21
Anticipated expiration: 2041-05-31
Also published as: CN113420495B

Abstract

本发明公开的一种主动诱骗式智能抗干扰方法，具有较低的训练复杂度和较高的资源利用率。本发明通过下述技术方实现：首先根据黑箱环境模块接收的通信波形和当前全频带感知信号强度以及下一次感知一起构造环境状态，基于观察智能干扰源的干扰行为构造样本标签模块，生成对抗样本信号的训练数据集和诱骗决策深度神经网络，以最小化干扰源的干扰期望回报值和干扰效果为目标，将诱惑样本攻击过程建模为一个关于干扰时机和干扰样本值两个变量；对更新干扰行为的观察进行迭代训练参数，计算攻击时机变量和攻击样本变量，进行干扰行为决策和攻击网络训练；引入迷惑样本，诱骗智能干扰源做出错误的干扰决策，输出对应行为的Q值和对抗样本信号。

Description

主动诱骗式智能抗干扰方法

技术领域

本发明属于无线通信领域，具体是一种可应用于通信抗干扰的基于迷惑样本攻击的主动诱骗智能抗干扰方法。

背景技术

伴随着互联网的高速发展和迅速普及，网络系统的复杂度、规模和速度与日俱增，其开放性和安全漏洞带来的风险也无时不在。欺骗技术和诱骗算法的相关研究已经受到足够的重视。但传统的诱骗技术存在欺骗质量较差、人工干预过多。欺骗信号相对于压制干扰信号来说更具威胁，因为其在使受欺骗目标产生错误定位的同时不会引起被欺骗目标的察觉，且信号播发功率远低于压制干扰，易于实现，设备成本低。通常，欺骗式干扰方法被分为“产生式”和“转发式”两种。产生式欺骗干扰是根据侦察得到的扩频伪随机码结构，产生与其相关性最大的伪随机码，然后调制与导航电文格式完全相同的假导航电文，修改了某些星历、时钟等数据，使接收方上当，但需要知道真实卫星信号的扩频码型以及当时卫星电文数据，对加密的军码干扰很难实现。现有网络诱骗技术需要过多人工参与且无法保障诱骗效率和准确度。近年来，随着以深度强化学习为代表的人工智能技术的发展和演进，人工智能技术在智能通信干扰与智能通信抗干扰两方面都得到了应用。在通信干扰方面，通过深度强化学习等智能算法的引入，智能干扰源能够以“试错”的方式，通过环境交互来学习通信抗干扰的策略信息，从而持续实现对通信系统的有效干扰，破坏其关键能力。由于以深度强化学习为代表的人工智能技术在智能干扰决策的应用，传统基于扩跳频的抗干扰方法很容易被智能干扰源学习并形成针对性干扰。现有基于人工智能的抗干扰方法需要更高的智能程度才能实现对智能干扰源的暴力碾压，存在高的运算复杂度和低资源利用率等缺陷。在通信抗干扰方面，人工智能与认知域抗干扰技术相结合，提出智能化的认知抗干扰技术，赋予通信系统智能感知周围电磁环境、智能决策和自主抗干扰波形生成的能力；但是它只能检测到信号的有无，不能检测出信号的类型。

在通信干扰对抗领域，由于以深度强化学习为代表的人工智能技术在智能干扰决策的应用，传统基于扩跳频的抗干扰方法很容易被智能干扰源学习并形成针对性干扰。现有基于人工智能的抗干扰方法需要更高的智能程度才能实现对智能干扰源的暴力碾压，存在高的运算复杂度和低资源利用率等缺陷。针对智能干扰，已有研究基于更高智能的抗干扰算法，结合高维度的抗干扰策略进行联合决策能够实现对智能干扰的暴力碾压，保证通信系统的关键能力。然而，此类方法存在诸多缺陷。首先，在无法获取智能干扰源具体参数时，无法评估对方智能程度，无法保证己方算法具有更高的智能程度。其次，采用更高智能程度的抗干扰算法训练复杂度高，运算资源开销大，存在抗干扰决策滞后等问题。除此之外，为了保证能够实现对智能干扰算法的暴力碾压，决策往往需要对多域抗干扰资源进行联合决策，资源参数调整范围大，资源利用率低下。针对这些问题，现有技术提出了一个面具有容侵特性的主动诱骗算法，分为服务移植和诱骗机制2个阶段，服务移植主要完成可疑信息重定向和可信信息访问恢复，实现目标系统的安全隔离；诱骗子网主要实现攻击信息的主动诱骗、特征分析和自律联想学习。借用生命智能中的自律神经系统的原理，将入侵者引入一个可以控制的范围内，为正常连接时，服务移植模块实时完成重定向操作的逆过程，用这种技术能够有效地弥补现有网络安全机采制的不足。但传统的诱骗技术存在欺骗质量较差、人工干预过多等问题。

在认知抗干扰通信系统中,智能决策是其核心,根据干扰环境,对系统的干扰抑制方式、频谱资源分配、调制编码方式和功率调整信息进行最优决策。现有的抗干扰通信系统的智能决策多采用遗传算法、人工蜂群算法等,面对日益复杂的电磁环境,通常这些算法不具有对新干扰的泛化能力。

发明内容

为改进以上缺陷，本发明提出一种具有较小的智能约束、较低的训练复杂度和较高的资源利用率的主动诱骗式智能抗干扰方法。

本发明的上述目的通过以下技术方案实现：一种主动诱骗式智能抗干扰方法，包括以下步骤：首先根据黑箱环境模块接收的通信波形和当前全频带感知信号强度以及下一次感知一起构造环境状态，分析智能干扰源，基于观察智能干扰源的干扰行为构造“样本标签模块”，生成对抗样本信号的训练数据集和诱骗决策“深度神经网络”，基于深度神经网络，以最小化干扰源的干扰期望回报值和干扰效果为目标，以最小化攻击次数和攻击信号强度为约束，将诱惑样本攻击过程建模为一个关于干扰时机b_t和干扰样本值δ_t两个变量；根据深度强化学习原理对智能干扰源的各个算法模块定义干扰行为、环境状态、回报函数、干扰决策策略，将智能干扰源的回报函数R设计为最小化合法通信链路的效用函数，干扰行为设为频率选择与功率调整；构造包含输入层、多层隐藏层和输出层的智能干扰源决策神经网络；智能干扰源决策神经网络通过全频谱感知获取环境知识，全频带上感知的信号强度，对环境的感知获取环境状态和干扰行为，估计深度训练神经网络主动诱骗迷惑样本，对更新干扰行为的观察进行迭代训练参数，计算攻击时机变量b_t和攻击样本变量δ_t，通过智能干扰源模块设计干扰行为A＝{f_jam,P_jam}，进行干扰行为决策和攻击网络训练，并根据深度神经网络计算的攻击时机和攻击样本值两个变量，通过变量求解，在频率上释放相应干扰功率的电磁信号，对合法链路进行干扰；深度神经网络基于策略值学习的机制和对应行为的概率分布，引入迷惑样本，诱骗智能干扰源做出错误的干扰决策，输出对应行为的Q值和对抗样本信号，实现通信系统的智能抗干扰，其中，f_jam表示所选干扰频率，P_jam表示对所选频率上施加的干扰功率，。

本发明相比于现有技术具有如下有益效果：

本发明首先分析了智能干扰源基于“观察-判断-决策-行动”的干扰信号决策机制，从干扰策略决策本身的弱点出发，以最小化干扰源的干扰期望回报值(干扰效果)为目标，以最小化攻击次数和攻击信号强度为约束，构建一个关于干扰时机b_t和干扰样本值δ_t两变量的优化问题。在此基础上，合理构造包含输入层、隐藏层和输出层的深度神经网络实现对智能干扰策略的逼近。该神经网络通过对干扰行为的观察进行迭代训练参数更新，并根据此深度神经网络计算优化问题中的攻击时机和攻击样本值两个变量。通过变量求解，基于迷惑样本，完成对智能干扰源的迷惑样本攻击，从而实现抗干扰通信。

本发明从智能干扰策略本身的弱点出发，以最小化智能干扰源的干扰回报为目标，将诱惑样本攻击过程建模为包含攻击时机和攻击样本值两变量。在此基础上，合理构造包含输入层、隐藏层和输出层的深度神经网络实现对智能干扰策略的逼近。通过神经网络对干扰行为的观察进行迭代训练参数更新，并根据此深度神经网络计算优化问题中的攻击时机和攻击样本值两个变量。通过变量求解实现在合适的时机引入迷惑样本破坏智能干扰算法的学习能力，诱骗智能干扰源做出错误决策，实现通信系统的智能抗干扰。

本发明针对智能干扰策略，从智能干扰策略本身的弱点出发，以最小化智能干扰源的干扰回报为目标，将诱惑样本攻击过程建模为包含攻击时机和攻击样本值两变量的优化问题。在此基础上，合理构造包含输入层、隐藏层和输出层的深度神经网络实现对智能干扰策略的逼近。该神经网络通过对干扰行为的观察进行迭代训练参数更新，并根据此深度神经网络计算优化问题中的攻击时机和攻击样本值两个变量。通过变量求解实现在合适的时机引入迷惑样本破坏智能干扰算法的学习能力，诱骗智能干扰源做出错误决策，实现通信系统的智能抗干扰。通过引入迷惑样本，破坏智能干扰算法学习能力，诱骗智能干扰源做出错误的干扰决策，这种主动诱骗式智能抗干扰，克服了已有基于更高智能程度压制的抗干扰算法的缺陷，能够有效应对智能干扰的影响，同时具有较小的智能要求、较低的训练复杂度和较高的资源利用率。

附图说明

图1是本发明的主动诱骗式抗干扰流程图；

图2是智能干扰源决策神经网络结构，其中：

图2(a)是基于高智能压制DQN的智能抗干扰策略神经网络结构；

图2(b)是基于DQN的智能抗干扰源神经网络结构；

图2(c)是基于迷惑样本的主动干扰对抗神经网络结构；

图3是各种对抗干扰模式下链路归一化效用(回报)函数；

图4中所示为各种智能抗干扰模式下的归一化能效。

为使本发明的步骤更加详细清楚，以下结合附图和实施案例对本发明进一步详细说明。

具体实施方式

参阅图1。根据本发明，首先根据黑箱环境模块接收的通信波形和当前全频带感知信号强度以及下一次感知一起构造环境状态，分析智能干扰源，基于观察智能干扰源的干扰行为构造“样本标签模块”，生成对抗样本信号的训练数据集和诱骗决策“深度神经网络”，基于深度神经网络，以最小化干扰源的干扰期望回报值和干扰效果为目标，以最小化攻击次数和攻击信号强度为约束，将诱惑样本攻击过程建模为一个关于干扰时机b_t和干扰样本值δ_t两个变量；根据深度强化学习原理对智能干扰源的各个算法模块定义干扰行为、环境状态、回报函数、干扰决策策略，将智能干扰源的回报函数R设计为最小化合法通信链路的效用函数，干扰行为设为频率选择与功率调整；构造包含输入层、多层隐藏层和输出层的智能干扰源决策神经网络；智能干扰源决策神经网络通过全频谱感知获取环境知识，全频带上感知的信号强度，对环境的感知获取环境状态和干扰行为，估计深度训练神经网络主动诱骗迷惑样本，对更新干扰行为的观察进行迭代训练参数，计算攻击时机变量b_t和攻击样本变量δ_t，通过智能干扰源模块设计干扰行为A＝{f_jam,P_jam}，进行干扰行为决策和攻击网络训练，并根据深度神经网络计算的攻击时机和攻击样本值两个变量，通过变量求解，在频率上释放相应干扰功率的电磁信号，对合法链路进行干扰；深度神经网络基于策略值学习的机制和对应行为的概率分布，引入迷惑样本，诱骗智能干扰源做出错误的干扰决策，输出对应行为的Q值和对抗样本信号，实现通信系统的智能抗干扰，其中，f_jam表示所选干扰频率，P_jam表示对所选频率上施加的干扰功率。

在可选的实施例中，深度神经网络建立M个隐藏层，按顺序建立输入层与隐藏层的联结，建立隐藏层与输出层的联结，为每个隐藏层的每个节点选择激活函数，求解每个联结的权重和每个节点自带的bias值，输入层、隐藏层和输出层用于实现对智能干扰源干扰策略的逼近，对于基于策略学习的智能干扰源的深度神经网络，对所构造输出的深度神经网络参数θ和当前状态S_t输出所有行为A_t的分布概率表示为：π(S_t,A_t|θ)，将基于值学习的深度神经网络，以Q(·)值定义当前行为与状态的匹配度表示为Q(S_t,A_t)。

参阅图2。智能干扰源决策神经网络包括：图2(a)所示基于高智能压制的深度强化学习神经网络(DQN)，图2(b)所示的基于DQN的智能抗干扰源神经网络，图2(c)所示的基于迷惑样本的主动干扰对抗神经网络；DQN通过神经网络近似求得值函数，输入一个环境状态state,s，输出值函数Q(s,a)，通过神经网络得到值函数，步骤是环境先给出一个对于环境的观察obs，主动诱骗智能抗干扰智能体根据神经网络求得关于这个obs的所有值函数Q(s,a)，再根据策略选择对应的抗干扰行为action并做出决策，环境接收到此action 后给出一个奖励Rew及下一个obs，根据Rew去更新值函数网络的参数，接着进入下一个 step。如此循环下去，直到训练出一个好的值函数网络。

环境指的是智能体执行动作时所处的场景，而智能体则表示强化学习算法。环境首先向智能体发送一个状态(S)，然后智能体基于其知识采取动作(A)来响应该状态，根据当前状态决定下一步动作的策略，当前状态s的期望长期返回值，之后，环境发送下一个状态，并把奖励(R)返回给智能体，智能体用环境所返回的奖励来更新其知识，对上一个动作进行评估，这个循环一直持续，直到环境发送终止状态来结束这个事件。

图2(b)所示智能抗干扰源神经网络和主动干扰对抗神经网络包括：顺次串联的输入层73神经元、第一隐藏层256神经元、第二隐藏层128神经元、第三隐藏层64神经元和输出层37神经元。智能干扰源决策深度神经网络采用如图2(a)深度强化学习神经网络(DQN) 和图2(b)所示智能抗干扰源神经网络的两种结构，智能干扰源决策深度神经网络采用深度强化学习神经网络(DQN)和智能抗干扰源神经网络的两种结构，采用智能干扰源决策的输入，为智能干扰源感知合法通信链路的信号和环境中各种噪声的无线环境，通过决策深度神经网络训练最小化合法链路的可达速率或信干噪比实现。

同时为了对感知数据进行增强，智能干扰源模块将当前干扰行为A、回报函数R、当前智能干扰源所感知的全频带功率P_se，P_se＝{P₁,…,P_n,…P_N}和下一次感知全频带感知信号强度

一起构造环境状态

采用深度Q学习机制实现智能干扰，在合适的频率上释放相应干扰功率的电磁信号对合法链路进行干扰，采用深度Q学习机制的智能干扰源，通过“观察-判断-决策-行动”的决策机制对合法链路进行智能干扰，其中，f_jam表示所选干扰频率，P_jam表示对所选频率上施加的干扰功率，P_m表示子频带上的功率，N表示子信道数目。

诱骗决策深度神经网络模块相连的通信波形模块根据通信频率f选择和所选频率上的发射功率P决定当前生成通信波形A_com，A_com＝f_jam,P}。

智能干扰源决策神经网络为对比性能，通过合法通信链路分别采用深度Q学习机制和主动诱骗式智能抗干方法实现抗干扰决策，其中，采用深度Q学习机制的抗干扰策略采用深度强化学习神经网络(DQN)和智能抗干扰源神经网络两种不同的决策神经网络结构，如图 2(c)所示主动干扰对抗神经网络采用本主动诱骗式智能抗干扰方法，诱骗决策深度神经网络对基础通信波形中引入诱骗信号，从训练数据集中抽样样本和最小化损失函数实现训练。

与通信波形和标签模块相连的黑箱环境模块将合法通信链路视作未知动态的电磁环境，将包含有智能干扰的电磁环境看作由智能干扰源、合法通信链路、噪声因素构成的黑箱环境，并将初始通信波形通过该黑箱环境后，把所感知的通信信号作为标签构造训练样本集。

与黑箱环境相连的并标签模块从自身波形、噪声和智能干扰源的干扰信号，通过黑箱环境当前发射通信波形后的观测值，将发射波形和标签构成一组经验标签，随着通信过程的累积把所有的波形-标签组存在训练数据集中。

与黑箱环境和诱骗决策深度神经网络模块相连的训练数据集模块在训练样本集中完成抽样，抽样结果用于最小化损失函数，从而训练诱骗决策神经网络。

与诱骗决策深度神经网络模块相连的训练损失函L(·)数模块采用主动诱骗式智能抗干扰方法将损失函数定义为L^(t)(·)＝-u^(t)(·)，把智能干扰源的回报函数设计为最小化合法通信链路的效用函数。把合法通信链路抗干扰效用回报函数构R造为最大化链路信干燥比 (SINR)，同时降低扩跳频代价和发射功率的抗干扰策略的代价，根据智能干扰源最小化合法通信的可达速率或信干噪比为目标，反向构造损失函数L(·)。

与诱骗决策深度神经网络模块相连的对抗样本信号模块在合法链路对抗样本信号中引入诱骗信号后的通信信号波形，包括频谱选择和对应频率上的发射功率两个维度，即 A_com＝{f_jam,P}，针对新的通信波形，通过训练后的诱骗决策神经网络生成对抗样本信号，并将该新的通信波形用于下一轮的通信传输中，从而实现主动诱骗式智能抗干扰通信。

智能干扰源决策的输入为智能干扰源感知的无线环境，主要包括合法通信链路的信号和环境中各种噪声。

根据本发明实施例，本发明设计的主动诱骗式智能抗干扰方法通过定义的效用函数表示与合法链路SINR、跳频代价和功率代价有关的效用函数u^(t)(·)，具体表达为：

当

是指示函数，当括号内表示为真是函数值为1，否则为0；

其中，

是当前干扰信道索引，σ²表示高斯白噪声功率，J表示干扰信道总数，j表示干扰信道索引，f表示合法通信链路索引，P_j是干扰功率，h表示信道系数，C_P和C_n分别表示功率和跳频代价。

本发明所设计的主动诱骗式智能抗干扰方法通过构造神经网络对干扰策略的逼近，根据对环境的感知获取环境状态和干扰行为的估计训练神经网络。

根据本发明实施例，本发明将主动诱骗式智能抗干扰过程建模为攻击时机b_t和攻击样本值δ_t两变量的优化问题，其中变量b_t取值为0或1的二值变量，

其中，函数

是度量S_t与S_t+δ_t的距离函数，δ_t是构造的当前环境状态；可以采用欧式距离表示；δ_t表示引入的迷惑样本值，τ是错误的行为类别,f_t(·)是依赖于深度神经网络的判决函数，

是环境状态的可行域。

本发明设计的主动诱骗式智能抗干扰方法将其过程建模为攻击时机b_t和攻击样本值δ_t两变量的优化问题，其中变量b_t取值为0或1的二值变量，在计算攻击时机时b_t，首先计算一个攻击概率c(s_t)，并依次概率获得干扰时机b_t＝1或b_t＝0，对于基于策略学习条件下 c(s_t)的计算法方式为

对于值学习条件下计算攻击概率为：

其中，S_t是定义的环境状态，A_t是定义的抗干扰策略，Q(S_t,A_t)定义的诱骗决策深度神经网络在输入为S_t和A_t下的输出，T为单回合训练训练次数。

本发明设计的主动诱骗式智能抗干扰方法中的智能干扰源全频带上感知全频带功率 P＝{P₁,…,P_n,…P_N}的信号强度，在一次迭代交互中通过智能干扰节点首先感知环境状态S，根据当前环境状态S_t和当前策略进行干扰行为

选择，然后计算当前回报

和状态转移 S_t+1，在一次迭代之后，当前环境状态、选择的行为、立即回报和转移环境状态被存储为历史经验，同时根据历史进行抽样用作智能干扰决策神经网络训练，具体训练方法以最大化折扣累积回报为目标，采用时间差分方法进行训练，根据折扣因子γ计算其累积折扣回报 V(s_t)：

V(S_t)＝R_t+γR_t+1+γ²+R_t+2 (5)

本发明所设计的主动诱骗式智能抗干扰方法以最小化智能干扰源的折扣累积回报 V(s_t)，以攻击时机b_t和攻击样本值δ_t为变量建立优化问题，如下：

根据问题描述，b_t变量决定何时攻击，变量δ_t决定如何攻击，进而基于迷惑样本实现对强化学习的攻击核心问题在于求解变量b_t和变量δ_t，

其中，

表示期望累积折扣回报；b_t表示值为1或0的二元变量，当t时刻引入迷惑样本时值为1，否则值为0；δ_t表示引入的迷惑样本值；Γ表示攻击次数上限。

本发明所设计的主动诱骗式智能抗干扰方法对于攻击时机的求取时b_t，定义当前攻击概率为c(S_t)。对于基于值学习和基于策略学习的两种机制，根据构造的深度神经网络， c(S_t)计算方法分别为

在得到具体值之后，依概率c(S_t)将攻击时机变量b_t判决为1，否则判决为0。

对于攻击样本值δ_t的求取建模为以下优化问题，

其中，

是距离判别函数，可以取L₁或范数L₂，L_∞；f_t(·)是依赖于深度神经网络的判决函数；τ是错误的行为类别,

是其他约束，取决于具体应用的定义。因此，将深度神经网络统一命名为J(S_t,A_t|θ_t)，并将其赋值给f_t(·)：J(S_t,A_t|θ_t)→f_t(·)，考虑

为L₂范数，基于FGSM 算法，以上优化问题的最优解表示为迷惑样本值：

因此，本发明所设计的主动诱骗式智能抗干扰方法根据以上，b_t，δ_t的求取方法，将白盒攻击方法总结如下：

初始化：根据本攻击智能节点行为选择策略构造J(θ_t,S_t,A_t)，且J(θ_t,s_t,a_t)→f_t(·)；构造行为空间

状态空间S；初始化攻击次数Γ，初始化b_t和δ_t。当累积攻击次数满足∑b_t≤Γ执行：根据被攻击行为选择策略更新J(·|θ_t)；将J(θ_t,S_t,A_t)带入计算攻击概率公式(4)或累积折扣回报计算公式V(S_t)＝R_t+γR_t+1+γ²+R_t+2(5)计算c(S_t)；依概率c(s_t)对b_t赋值1→b_t，否则 0→b_t；当b_t＝1时，按照公式(7)计算δ_t，并对S_t赋值S_t←S_t+δ_t，否则S_t保持不变；返回S_t；迭代停止，当采用白盒攻击时，深度神经网络与智能干扰源所使用的行为决策神经网络有完全相同的网络结构和参数，J(θ_t,S_t,A_t)与智能干扰源神经网络结构和参数一致，具有最好的性能；当采用黑盒攻击时，表1中的J(θ_t,S_t,A_t)通过合理构造，并通过观察环境和智能干扰源的行为进行网络训练。

对于黑盒攻击，基于黑盒攻击的迷惑样本智能干扰对抗算法设计如下：

初始化：构造神经网络J(·|θ_t)并进行随机初始化，并J(θ_t,S_t,A_t)→f_t(·)；构造行为空间

状态空间

初始化攻击次数Γ，初始化b_t和δ_t，当累积攻击次数满足∑b_t≤Γ执行后面的内容：根据观测状态、行为序列{S₁,…,S_t}{A₁,…,A_t}训练J(·|θ_t)；将J(·|θ_t)带入公式(9)或公式 (10)计算c(S_t)；依概率c(s_t)对b_t赋值1→b_t，否则0→b_t；当b_t＝1时，按照公式(12)计算δ_t，对S_t赋值S_t←S_t+δ_t，否则S_t保持不变，返回S_t，停止。

本发明通过具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的设备；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种主动诱骗式智能抗干扰方法，包括以下步骤：首先根据黑箱环境模块接收的通信波形和当前全频带感知信号强度以及下一次感知一起构造环境状态，分析智能干扰源，基于观察智能干扰源的干扰行为构造“样本标签模块”，生成对抗样本信号的训练数据集和诱骗决策“深度神经网络”，基于深度神经网络，以最小化干扰源的干扰期望回报值和干扰效果为目标，以最小化攻击次数和攻击信号强度为约束，将诱惑样本攻击过程建模为一个关于干扰时机b_t和干扰样本值δ_t两个变量；根据深度强化学习原理对智能干扰源的各个算法模块定义干扰行为、环境状态、回报函数、干扰决策策略，将智能干扰源的回报函数R设计为最小化合法通信链路的效用函数，干扰行为设为频率选择与功率调整；构造包含输入层、多层隐藏层和输出层的智能干扰源决策神经网络；智能干扰源决策神经网络通过全频谱感知获取环境知识，全频带上感知的信号强度，对环境的感知获取环境状态和干扰行为，估计深度训练神经网络主动诱骗迷惑样本，对更新干扰行为的观察进行迭代训练参数，计算攻击时机变量b_t和攻击样本变量δ_t，通过智能干扰源模块设计干扰行为A＝{f_jam,P_jam}，进行干扰行为决策和攻击网络训练，并根据深度神经网络计算的攻击时机和攻击样本值两个变量，通过变量求解，在频率上释放相应干扰功率的电磁信号，对合法链路进行干扰；深度神经网络基于策略值学习的机制和对应行为的概率分布，引入迷惑样本，诱骗智能干扰源做出错误的干扰决策，输出对应行为的Q值和对抗样本信号，实现通信系统的智能抗，其中，f_jam表示所选干扰频率，P_jam表示对所选频率上施加的干扰功率。

2.如权利要求1所述的主动诱骗式智能抗干扰方法，其特征在于：深度神经网络建立M个隐藏层，按顺序建立输入层与隐藏层的联结，建立隐藏层与输出层的联结，为每个隐藏层的每个节点选择激活函数，求解每个联结的权重和每个节点自带的bias值，输入层、隐藏层和输出层用于实现对智能干扰源干扰策略的逼近，对于基于策略学习的智能干扰源的深度神经网络，对所构造输出的深度神经网络参数θ和当前状态S_t输出所有行为A_t的分布概率表示为：π(S_t,A_t|θ)，将基于值学习的深度神经网络，以Q(·)值定义当前行为与状态的匹配度表示为Q(S_t,A_t)。

3.如权利要求1所述的主动诱骗式智能抗干扰方法，其特征在于：智能干扰源决策神经网络包括：基于高智能压制的深度强化学习神经网络(DQN)、DQN的智能抗干扰源神经网络和基于迷惑样本的主动干扰对抗神经网络；DQN通过神经网络近似求得值函数，输入一个状态state,s，输出值函数Q(s,a)，通过神经网络得到值函数，环境先给出一个观测值(obs)，智能体根据神经网络求得关于这个obs的所有值函数Q(s,a)，再根据策略选择行为action并做出决策，环境接收到此action后给出一个奖励Rew及下一个obs，根据Rew去更新值函数网络的参数，接着进入下一个学习步骤step,如此循环下去，直到训练出一个好的值函数网络。

4.如权利要求3所述的主动诱骗式智能抗干扰方法，其特征在于：环境首先向智能体发送一个状态(S)，然后智能体基于其知识采取动作(A)来响应该状态，根据当前状态决定下一步动作的策略，当前状态S的期望长期返回值，之后，环境发送下一个状态，并把奖励(R)返回给智能体，智能体用环境所返回的奖励来更新其知识，对上一个动作进行评估，这个循环一直持续，直到环境发送终止状态来结束这个事件。

5.如权利要求3所述的主动诱骗式智能抗干扰方法，其特征在于：智能抗干扰源神经网络和主动干扰对抗神经网络包括：顺次串联的输入层73神经元、第一隐藏层256神经元、第二隐藏层128神经元、第三隐藏层64神经元和输出层37神经元；智能干扰源决策深度神经网络采用深度强化学习神经网络(DQN)和智能抗干扰源神经网络的两种结构，采用智能干扰源决策的输入，为智能干扰源感知合法通信链路的信号和环境中各种噪声的无线环境，通过决策深度神经网络训练最小化合法链路的可达速率或信干噪比实现。

6.如权利要求1所述的主动诱骗式智能抗干扰方法，其特征在于智能干扰源模块将当前干扰行为A、回报函数R、当前智能干扰源所感知的全频带功率P_se，P_se＝{P₁,…,P_n,…P_N}和下一次感知全频带感知信号强度

一起构造环境状态

采用深度Q学习机制实现智能干扰，在合适的频率上释放相应干扰功率的电磁信号对合法链路进行干扰，采用深度Q学习机制的智能干扰源，通过“观察-判断-决策-行动”的决策机制对合法链路进行智能干扰，其中，

表示从环境感知的下一阶段的全频带功率。

7.如权利要求1所述的主动诱骗式智能抗干扰方法，其特征在于：黑箱环境模块是对未知动态电磁环境的模拟，本发明中将合法通信链路视作未知动态的电磁环境，将包含有智能干扰的电磁环境看作由智能干扰源、合法通信链路、噪声因素构成的黑箱环境，并将初始通信波形通过该黑箱环境后，把所感知的通信信号作为标签构造训练样本集；与黑箱模块相连的标签模块从自身波形、噪声和智能干扰源的干扰信号，通过黑箱环境当前发射通信波形后的观测值，将发射波形和标签构成一组经验标签，随着通信过程的累积把所有的波形-标签组存在训练数据集中；与黑箱环境模块和诱骗决策深度神经网络模块相连的训练数据集模块在训练样本集中完成抽样，抽样结果用于最小化损失函数，从而训练诱骗决策神经网络。

8.如权利要求7所述的主动诱骗式智能抗干扰方法，其特征在于与诱骗决策深度神经网络模块相连的训练损失函L(·)数模块采用主动诱骗式智能抗干扰方法将损失函数定义为L^(t)(·)＝-u^(t)(·)，把智能干扰源的回报函数设计为最小化合法通信链路的效用函数,把合法通信链路抗干扰效用回报函数构R造为最大化链路信干燥比(SINR)，同时降低扩跳频代价和发射功率的抗干扰策略的代价，根据智能干扰源最小化合法通信的可达速率或信干噪比为目标，反向构造损失函数L(·)；与诱骗决策深度神经网络模块相连的对抗样本信号模块在合法链路对抗样本信号中引入诱骗信号后的通信信号波形，包括频谱选择和对应频率上的发射功率两个维度，即A_com＝{f_jam,P}，针对新的通信波形，通过训练后的诱骗决策神经网络生成对抗样本信号，并将该新的通信波形用于下一轮的通信传输中，从而实现主动诱骗式智能抗干扰通信。

9.如权利要求1所述的主动诱骗式智能抗干扰方法，其特征在于：智能干扰源在全频带上感知全频带功率P＝{P₁,…,P_n,…P_N}的信号强度，在一次迭代交互中通过智能干扰节点首先感知环境状态S，根据当前环境状态S_t和当前策略进行干扰行为选择，然后计算当前回报和状态转移S_t+1，在一次迭代之后，当前环境状态、选择的行为、立即回报和转移环境状态被存储为历史经验，同时根据历史进行抽样用作智能干扰决策神经网络训练，以最大化折扣累积回报为目标，采用时间差分方法进行训练，根据折扣因子γ计算其累积折扣回报：

V(S_t)＝R_t+γR_t+1+γ²+R_t+2。

10.如权利要求1所述的主动诱骗式智能抗干扰方法，其特征在于：根据本攻击智能节点行为选择策略构造J(θ_t,S_t,A_t)，且J(θ_t,s_t,a_t)→f_t(·)；构造行为空间

状态空间S；初始化攻击次数Γ，初始化b_t和δ_t。当累积攻击次数满足∑b_t≤Γ执行：根据被攻击行为选择策略更新J(·|θ_t)；将J(θ_t,S_t,A_t)带入计算攻击概率公式或累积折扣回报计算公式V(S_t)＝R_t+γR_t+1+γ²+R_t+2计算c(S_t)；依概率c(s_t)对b_t赋值1→b_t，否则0→b_t；当b_t＝1时，按照公式(7)计算δ_t，并对S_t赋值S_t←S_t+δ_t，否则S_t保持不变；返回S_t；迭代停止，当采用白盒攻击时，深度神经网络与智能干扰源所使用的行为决策神经网络有完全相同的网络结构和参数，J(θ_t,S_t,A_t)与智能干扰源神经网络结构和参数一致，具有最好的性能；当采用黑盒攻击时，表1中的J(θ_t,S_t,A_t)通过合理构造，并通过观察环境和智能干扰源的行为进行网络训练。