CN113420495A - 主动诱骗式智能抗干扰方法 - Google Patents

主动诱骗式智能抗干扰方法 Download PDF

Info

Publication number
CN113420495A
CN113420495A CN202110596444.6A CN202110596444A CN113420495A CN 113420495 A CN113420495 A CN 113420495A CN 202110596444 A CN202110596444 A CN 202110596444A CN 113420495 A CN113420495 A CN 113420495A
Authority
CN
China
Prior art keywords
interference
intelligent
neural network
decision
attack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110596444.6A
Other languages
English (en)
Other versions
CN113420495B (zh
Inventor
马松
黎伟
魏迪
王军
李黎
陈霄楠
黄巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Electronic Technology Institute No 10 Institute of Cetc
Original Assignee
Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Electronic Technology Institute No 10 Institute of Cetc filed Critical Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority to CN202110596444.6A priority Critical patent/CN113420495B/zh
Publication of CN113420495A publication Critical patent/CN113420495A/zh
Application granted granted Critical
Publication of CN113420495B publication Critical patent/CN113420495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Noise Elimination (AREA)

Abstract

本发明公开的一种主动诱骗式智能抗干扰方法,具有较低的训练复杂度和较高的资源利用率。本发明通过下述技术方实现:首先根据黑箱环境模块接收的通信波形和当前全频带感知信号强度以及下一次感知一起构造环境状态,基于观察智能干扰源的干扰行为构造样本标签模块,生成对抗样本信号的训练数据集和诱骗决策深度神经网络,以最小化干扰源的干扰期望回报值和干扰效果为目标,将诱惑样本攻击过程建模为一个关于干扰时机和干扰样本值两个变量;对更新干扰行为的观察进行迭代训练参数,计算攻击时机变量和攻击样本变量,进行干扰行为决策和攻击网络训练;引入迷惑样本,诱骗智能干扰源做出错误的干扰决策,输出对应行为的Q值和对抗样本信号。

Description

主动诱骗式智能抗干扰方法
技术领域
本发明属于无线通信领域,具体是一种可应用于通信抗干扰的基于迷惑样本攻击的主动诱骗智能抗干扰方法。
背景技术
伴随着互联网的高速发展和迅速普及,网络系统的复杂度、规模和速度与日俱增,其开放性和安全漏洞带来的风险也无时不在。欺骗技术和诱骗算法的相关研究已经受到足够的重视。但传统的诱骗技术存在欺骗质量较差、人工干预过多。欺骗信号相对于压制干扰信号来说更具威胁,因为其在使受欺骗目标产生错误定位的同时不会引起被欺骗目标的察觉,且信号播发功率远低于压制干扰,易于实现,设备成本低。通常,欺骗式干扰方法被分为“产生式”和“转发式”两种。产生式欺骗干扰是根据侦察得到的扩频伪随机码结构,产生与其相关性最大的伪随机码,然后调制与导航电文格式完全相同的假导航电文,修改了某些星历、时钟等数据,使接收方上当,但需要知道真实卫星信号的扩频码型以及当时卫星电文数据,对加密的军码干扰很难实现。现有网络诱骗技术需要过多人工参与且无法保障诱骗效率和准确度。近年来,随着以深度强化学习为代表的人工智能技术的发展和演进,人工智能技术在智能通信干扰与智能通信抗干扰两方面都得到了应用。在通信干扰方面,通过深度强化学习等智能算法的引入,智能干扰源能够以“试错”的方式,通过环境交互来学习通信抗干扰的策略信息,从而持续实现对通信系统的有效干扰,破坏其关键能力。由于以深度强化学习为代表的人工智能技术在智能干扰决策的应用,传统基于扩跳频的抗干扰方法很容易被智能干扰源学习并形成针对性干扰。现有基于人工智能的抗干扰方法需要更高的智能程度才能实现对智能干扰源的暴力碾压,存在高的运算复杂度和低资源利用率等缺陷。在通信抗干扰方面,人工智能与认知域抗干扰技术相结合,提出智能化的认知抗干扰技术,赋予通信系统智能感知周围电磁环境、智能决策和自主抗干扰波形生成的能力;但是它只能检测到信号的有无,不能检测出信号的类型。
在通信干扰对抗领域,由于以深度强化学习为代表的人工智能技术在智能干扰决策的应用,传统基于扩跳频的抗干扰方法很容易被智能干扰源学习并形成针对性干扰。现有基于人工智能的抗干扰方法需要更高的智能程度才能实现对智能干扰源的暴力碾压,存在高的运算复杂度和低资源利用率等缺陷。针对智能干扰,已有研究基于更高智能的抗干扰算法,结合高维度的抗干扰策略进行联合决策能够实现对智能干扰的暴力碾压,保证通信系统的关键能力。然而,此类方法存在诸多缺陷。首先,在无法获取智能干扰源具体参数时,无法评估对方智能程度,无法保证己方算法具有更高的智能程度。其次,采用更高智能程度的抗干扰算法训练复杂度高,运算资源开销大,存在抗干扰决策滞后等问题。除此之外,为了保证能够实现对智能干扰算法的暴力碾压,决策往往需要对多域抗干扰资源进行联合决策,资源参数调整范围大,资源利用率低下。针对这些问题,现有技术提出了一个面具有容侵特性的主动诱骗算法,分为服务移植和诱骗机制2个阶段,服务移植主要完成可疑信息重定向和可信信息访问恢复,实现目标系统的安全隔离;诱骗子网主要实现攻击信息的主动诱骗、特征分析和自律联想学习。借用生命智能中的自律神经系统的原理,将入侵者引入一个可以控制的范围内,为正常连接时,服务移植模块实时完成重定向操作的逆过程,用这种技术能够有效地弥补现有网络安全机采制的不足。但传统的诱骗技术存在欺骗质量较差、人工干预过多等问题。
在认知抗干扰通信系统中,智能决策是其核心,根据干扰环境,对系统的干扰抑制方式、频谱资源分配、调制编码方式和功率调整信息进行最优决策。现有的抗干扰通信系统的智能决策多采用遗传算法、人工蜂群算法等,面对日益复杂的电磁环境,通常这些算法不具有对新干扰的泛化能力。
发明内容
为改进以上缺陷,本发明提出一种具有较小的智能约束、较低的训练复杂度和较高的资源利用率的主动诱骗式智能抗干扰方法。
本发明的上述目的通过以下技术方案实现:一种主动诱骗式智能抗干扰方法,包括以下步骤:首先根据黑箱环境模块接收的通信波形和当前全频带感知信号强度以及下一次感知一起构造环境状态,分析智能干扰源,基于观察智能干扰源的干扰行为构造“样本标签模块”,生成对抗样本信号的训练数据集和诱骗决策“深度神经网络”,基于深度神经网络,以最小化干扰源的干扰期望回报值和干扰效果为目标,以最小化攻击次数和攻击信号强度为约束,将诱惑样本攻击过程建模为一个关于干扰时机bt和干扰样本值δt两个变量;根据深度强化学习原理对智能干扰源的各个算法模块定义干扰行为、环境状态、回报函数、干扰决策策略,将智能干扰源的回报函数R设计为最小化合法通信链路的效用函数,干扰行为设为频率选择与功率调整;构造包含输入层、多层隐藏层和输出层的智能干扰源决策神经网络;智能干扰源决策神经网络通过全频谱感知获取环境知识,全频带上感知的信号强度,对环境的感知获取环境状态和干扰行为,估计深度训练神经网络主动诱骗迷惑样本,对更新干扰行为的观察进行迭代训练参数,计算攻击时机变量bt和攻击样本变量δt,通过智能干扰源模块设计干扰行为A={fjam,Pjam},进行干扰行为决策和攻击网络训练,并根据深度神经网络计算的攻击时机和攻击样本值两个变量,通过变量求解,在频率上释放相应干扰功率的电磁信号,对合法链路进行干扰;深度神经网络基于策略值学习的机制和对应行为的概率分布,引入迷惑样本,诱骗智能干扰源做出错误的干扰决策,输出对应行为的Q值和对抗样本信号,实现通信系统的智能抗干扰,其中,fjam表示所选干扰频率,Pjam表示对所选频率上施加的干扰功率,。
本发明相比于现有技术具有如下有益效果:
本发明首先分析了智能干扰源基于“观察-判断-决策-行动”的干扰信号决策机制,从干扰策略决策本身的弱点出发,以最小化干扰源的干扰期望回报值(干扰效果)为目标,以最小化攻击次数和攻击信号强度为约束,构建一个关于干扰时机bt和干扰样本值δt两变量的优化问题。在此基础上,合理构造包含输入层、隐藏层和输出层的深度神经网络实现对智能干扰策略的逼近。该神经网络通过对干扰行为的观察进行迭代训练参数更新,并根据此深度神经网络计算优化问题中的攻击时机和攻击样本值两个变量。通过变量求解,基于迷惑样本,完成对智能干扰源的迷惑样本攻击,从而实现抗干扰通信。
本发明从智能干扰策略本身的弱点出发,以最小化智能干扰源的干扰回报为目标,将诱惑样本攻击过程建模为包含攻击时机和攻击样本值两变量。在此基础上,合理构造包含输入层、隐藏层和输出层的深度神经网络实现对智能干扰策略的逼近。通过神经网络对干扰行为的观察进行迭代训练参数更新,并根据此深度神经网络计算优化问题中的攻击时机和攻击样本值两个变量。通过变量求解实现在合适的时机引入迷惑样本破坏智能干扰算法的学习能力,诱骗智能干扰源做出错误决策,实现通信系统的智能抗干扰。
本发明针对智能干扰策略,从智能干扰策略本身的弱点出发,以最小化智能干扰源的干扰回报为目标,将诱惑样本攻击过程建模为包含攻击时机和攻击样本值两变量的优化问题。在此基础上,合理构造包含输入层、隐藏层和输出层的深度神经网络实现对智能干扰策略的逼近。该神经网络通过对干扰行为的观察进行迭代训练参数更新,并根据此深度神经网络计算优化问题中的攻击时机和攻击样本值两个变量。通过变量求解实现在合适的时机引入迷惑样本破坏智能干扰算法的学习能力,诱骗智能干扰源做出错误决策,实现通信系统的智能抗干扰。通过引入迷惑样本,破坏智能干扰算法学习能力,诱骗智能干扰源做出错误的干扰决策,这种主动诱骗式智能抗干扰,克服了已有基于更高智能程度压制的抗干扰算法的缺陷,能够有效应对智能干扰的影响,同时具有较小的智能要求、较低的训练复杂度和较高的资源利用率。
附图说明
图1是本发明的主动诱骗式抗干扰流程图;
图2是智能干扰源决策神经网络结构,其中:
图2(a)是基于高智能压制DQN的智能抗干扰策略神经网络结构;
图2(b)是基于DQN的智能抗干扰源神经网络结构;
图2(c)是基于迷惑样本的主动干扰对抗神经网络结构;
图3是各种对抗干扰模式下链路归一化效用(回报)函数;
图4中所示为各种智能抗干扰模式下的归一化能效。
为使本发明的步骤更加详细清楚,以下结合附图和实施案例对本发明进一步详细说明。
具体实施方式
参阅图1。根据本发明,首先根据黑箱环境模块接收的通信波形和当前全频带感知信号强度以及下一次感知一起构造环境状态,分析智能干扰源,基于观察智能干扰源的干扰行为构造“样本标签模块”,生成对抗样本信号的训练数据集和诱骗决策“深度神经网络”,基于深度神经网络,以最小化干扰源的干扰期望回报值和干扰效果为目标,以最小化攻击次数和攻击信号强度为约束,将诱惑样本攻击过程建模为一个关于干扰时机bt和干扰样本值δt两个变量;根据深度强化学习原理对智能干扰源的各个算法模块定义干扰行为、环境状态、回报函数、干扰决策策略,将智能干扰源的回报函数R设计为最小化合法通信链路的效用函数,干扰行为设为频率选择与功率调整;构造包含输入层、多层隐藏层和输出层的智能干扰源决策神经网络;智能干扰源决策神经网络通过全频谱感知获取环境知识,全频带上感知的信号强度,对环境的感知获取环境状态和干扰行为,估计深度训练神经网络主动诱骗迷惑样本,对更新干扰行为的观察进行迭代训练参数,计算攻击时机变量bt和攻击样本变量δt,通过智能干扰源模块设计干扰行为A={fjam,Pjam},进行干扰行为决策和攻击网络训练,并根据深度神经网络计算的攻击时机和攻击样本值两个变量,通过变量求解,在频率上释放相应干扰功率的电磁信号,对合法链路进行干扰;深度神经网络基于策略值学习的机制和对应行为的概率分布,引入迷惑样本,诱骗智能干扰源做出错误的干扰决策,输出对应行为的Q值和对抗样本信号,实现通信系统的智能抗干扰,其中,fjam表示所选干扰频率,Pjam表示对所选频率上施加的干扰功率。
在可选的实施例中,深度神经网络建立M个隐藏层,按顺序建立输入层与隐藏层的联结,建立隐藏层与输出层的联结,为每个隐藏层的每个节点选择激活函数,求解每个联结的权重和每个节点自带的bias值,输入层、隐藏层和输出层用于实现对智能干扰源干扰策略的逼近,对于基于策略学习的智能干扰源的深度神经网络,对所构造输出的深度神经网络参数θ和当前状态St输出所有行为At的分布概率表示为:π(St,At|θ),将基于值学习的深度神经网络,以Q(·)值定义当前行为与状态的匹配度表示为Q(St,At)。
参阅图2。智能干扰源决策神经网络包括:图2(a)所示基于高智能压制的深度强化学习神经网络(DQN),图2(b)所示的基于DQN的智能抗干扰源神经网络,图2(c)所示的基于迷惑样本的主动干扰对抗神经网络;DQN通过神经网络近似求得值函数,输入一个环境状态state,s,输出值函数Q(s,a),通过神经网络得到值函数,步骤是环境先给出一个对于环境的观察obs,主动诱骗智能抗干扰智能体根据神经网络求得关于这个obs的所有值函数Q(s,a),再根据策略选择对应的抗干扰行为action并做出决策,环境接收到此action 后给出一个奖励Rew及下一个obs,根据Rew去更新值函数网络的参数,接着进入下一个 step。如此循环下去,直到训练出一个好的值函数网络。
环境指的是智能体执行动作时所处的场景,而智能体则表示强化学习算法。环境首先向智能体发送一个状态(S),然后智能体基于其知识采取动作(A)来响应该状态,根据当前状态决定下一步动作的策略,当前状态s的期望长期返回值,之后,环境发送下一个状态,并把奖励(R)返回给智能体,智能体用环境所返回的奖励来更新其知识,对上一个动作进行评估,这个循环一直持续,直到环境发送终止状态来结束这个事件。
图2(b)所示智能抗干扰源神经网络和主动干扰对抗神经网络包括:顺次串联的输入层73神经元、第一隐藏层256神经元、第二隐藏层128神经元、第三隐藏层64神经元和输出层37神经元。智能干扰源决策深度神经网络采用如图2(a)深度强化学习神经网络(DQN) 和图2(b)所示智能抗干扰源神经网络的两种结构,智能干扰源决策深度神经网络采用深度强化学习神经网络(DQN)和智能抗干扰源神经网络的两种结构,采用智能干扰源决策的输入,为智能干扰源感知合法通信链路的信号和环境中各种噪声的无线环境,通过决策深度神经网络训练最小化合法链路的可达速率或信干噪比实现。
同时为了对感知数据进行增强,智能干扰源模块将当前干扰行为A、回报函数R、当前智能干扰源所感知的全频带功率Pse,Pse={P1,…,Pn,…PN}和下一次感知全频带感知信号强度
Figure RE-GDA0003183111970000051
一起构造环境状态
Figure RE-GDA0003183111970000052
采用深度Q学习机制实现智能干扰,在合适的频率上释放相应干扰功率的电磁信号对合法链路进行干扰,采用深度Q学习机制的智能干扰源,通过“观察-判断-决策-行动”的决策机制对合法链路进行智能干扰,其中,fjam表示所选干扰频率,Pjam表示对所选频率上施加的干扰功率,Pm表示子频带上的功率,N表示子信道数目。
诱骗决策深度神经网络模块相连的通信波形模块根据通信频率f选择和所选频率上的发射功率P决定当前生成通信波形Acom,Acom=fjam,P}。
智能干扰源决策神经网络为对比性能,通过合法通信链路分别采用深度Q学习机制和主动诱骗式智能抗干方法实现抗干扰决策,其中,采用深度Q学习机制的抗干扰策略采用深度强化学习神经网络(DQN)和智能抗干扰源神经网络两种不同的决策神经网络结构,如图 2(c)所示主动干扰对抗神经网络采用本主动诱骗式智能抗干扰方法,诱骗决策深度神经网络对基础通信波形中引入诱骗信号,从训练数据集中抽样样本和最小化损失函数实现训练。
与通信波形和标签模块相连的黑箱环境模块将合法通信链路视作未知动态的电磁环境,将包含有智能干扰的电磁环境看作由智能干扰源、合法通信链路、噪声因素构成的黑箱环境,并将初始通信波形通过该黑箱环境后,把所感知的通信信号作为标签构造训练样本集。
与黑箱环境相连的并标签模块从自身波形、噪声和智能干扰源的干扰信号,通过黑箱环境当前发射通信波形后的观测值,将发射波形和标签构成一组经验标签,随着通信过程的累积把所有的波形-标签组存在训练数据集中。
与黑箱环境和诱骗决策深度神经网络模块相连的训练数据集模块在训练样本集中完成抽样,抽样结果用于最小化损失函数,从而训练诱骗决策神经网络。
与诱骗决策深度神经网络模块相连的训练损失函L(·)数模块采用主动诱骗式智能抗干扰方法将损失函数定义为L(t)(·)=-u(t)(·),把智能干扰源的回报函数设计为最小化合法通信链路的效用函数。把合法通信链路抗干扰效用回报函数构R造为最大化链路信干燥比 (SINR),同时降低扩跳频代价和发射功率的抗干扰策略的代价,根据智能干扰源最小化合法通信的可达速率或信干噪比为目标,反向构造损失函数L(·)。
与诱骗决策深度神经网络模块相连的对抗样本信号模块在合法链路对抗样本信号中引入诱骗信号后的通信信号波形,包括频谱选择和对应频率上的发射功率两个维度,即 Acom={fjam,P},针对新的通信波形,通过训练后的诱骗决策神经网络生成对抗样本信号,并将该新的通信波形用于下一轮的通信传输中,从而实现主动诱骗式智能抗干扰通信。
智能干扰源决策的输入为智能干扰源感知的无线环境,主要包括合法通信链路的信号和环境中各种噪声。
根据本发明实施例,本发明设计的主动诱骗式智能抗干扰方法通过定义的效用函数表示与合法链路SINR、跳频代价和功率代价有关的效用函数u(t)(·),具体表达为:
Figure RE-GDA0003183111970000071
Figure RE-GDA0003183111970000072
是指示函数,当括号内表示为真是函数值为1,否则为0;
其中,
Figure RE-GDA0003183111970000073
是当前干扰信道索引,σ2表示高斯白噪声功率,J表示干扰信道总数,j表示干扰信道索引,f表示合法通信链路索引,Pj是干扰功率,h表示信道系数,CP和Cn分别表示功率和跳频代价。
本发明所设计的主动诱骗式智能抗干扰方法通过构造神经网络对干扰策略的逼近,根据对环境的感知获取环境状态和干扰行为的估计训练神经网络。
根据本发明实施例,本发明将主动诱骗式智能抗干扰过程建模为攻击时机bt和攻击样本值δt两变量的优化问题,其中变量bt取值为0或1的二值变量,
Figure RE-GDA0003183111970000074
其中,函数
Figure RE-GDA0003183111970000075
是度量St与Stt的距离函数,δt是构造的当前环境状态;可以采用欧式距离表示;δt表示引入的迷惑样本值,τ是错误的行为类别,ft(·)是依赖于深度神经网络的判决函数,
Figure RE-GDA0003183111970000076
是环境状态的可行域。
本发明设计的主动诱骗式智能抗干扰方法将其过程建模为攻击时机bt和攻击样本值δt两变量的优化问题,其中变量bt取值为0或1的二值变量,在计算攻击时机时bt,首先计算一个攻击概率c(st),并依次概率获得干扰时机bt=1或bt=0,对于基于策略学习条件下 c(st)的计算法方式为
Figure RE-GDA0003183111970000077
对于值学习条件下计算攻击概率为:
Figure RE-GDA0003183111970000078
其中,St是定义的环境状态,At是定义的抗干扰策略,Q(St,At)定义的诱骗决策深度神经网络在输入为St和At下的输出,T为单回合训练训练次数。
本发明设计的主动诱骗式智能抗干扰方法中的智能干扰源全频带上感知全频带功率 P={P1,…,Pn,…PN}的信号强度,在一次迭代交互中通过智能干扰节点首先感知环境状态S,根据当前环境状态St和当前策略进行干扰行为
Figure RE-GDA0003183111970000079
选择,然后计算当前回报
Figure RE-GDA00031831119700000710
和状态转移 St+1,在一次迭代之后,当前环境状态、选择的行为、立即回报和转移环境状态被存储为历史经验,同时根据历史进行抽样用作智能干扰决策神经网络训练,具体训练方法以最大化折扣累积回报为目标,采用时间差分方法进行训练,根据折扣因子γ计算其累积折扣回报 V(st):
V(St)=Rt+γRt+12+Rt+2 (5)
本发明所设计的主动诱骗式智能抗干扰方法以最小化智能干扰源的折扣累积回报 V(st),以攻击时机bt和攻击样本值δt为变量建立优化问题,如下:
Figure RE-GDA0003183111970000081
根据问题描述,bt变量决定何时攻击,变量δt决定如何攻击,进而基于迷惑样本实现对强化学习的攻击核心问题在于求解变量bt和变量δt
其中,
Figure RE-GDA0003183111970000082
表示期望累积折扣回报;bt表示值为1或0的二元变量,当t时刻引入迷惑样本时值为1,否则值为0;δt表示引入的迷惑样本值;Γ表示攻击次数上限。
本发明所设计的主动诱骗式智能抗干扰方法对于攻击时机的求取时bt,定义当前攻击概率为c(St)。对于基于值学习和基于策略学习的两种机制,根据构造的深度神经网络, c(St)计算方法分别为
Figure RE-GDA0003183111970000083
Figure RE-GDA0003183111970000084
在得到具体值之后,依概率c(St)将攻击时机变量bt判决为1,否则判决为0。
对于攻击样本值δt的求取建模为以下优化问题,
Figure RE-GDA0003183111970000085
其中,
Figure RE-GDA0003183111970000086
是距离判别函数,可以取L1或范数L2,L;ft(·)是依赖于深度神经网络的判决函数;τ是错误的行为类别,
Figure RE-GDA0003183111970000088
是其他约束,取决于具体应用的定义。因此,将深度神经网络统一命名为J(St,Att),并将其赋值给ft(·):J(St,Att)→ft(·),考虑
Figure RE-GDA0003183111970000087
为L2范数,基于FGSM 算法,以上优化问题的最优解表示为迷惑样本值:
Figure RE-GDA0003183111970000091
因此,本发明所设计的主动诱骗式智能抗干扰方法根据以上,bt,δt的求取方法,将白盒攻击方法总结如下:
初始化:根据本攻击智能节点行为选择策略构造J(θt,St,At),且J(θt,st,at)→ft(·);构造行为空间
Figure RE-GDA0003183111970000092
状态空间S;初始化攻击次数Γ,初始化bt和δt。当累积攻击次数满足∑bt≤Γ执行:根据被攻击行为选择策略更新J(·|θt);将J(θt,St,At)带入计算攻击概率公式(4)或累积折扣回报计算公式V(St)=Rt+γRt+12+Rt+2(5)计算c(St);依概率c(st)对bt赋值1→bt,否则 0→bt;当bt=1时,按照公式(7)计算δt,并对St赋值St←Stt,否则St保持不变;返回St;迭代停止,当采用白盒攻击时,深度神经网络与智能干扰源所使用的行为决策神经网络有完全相同的网络结构和参数,J(θt,St,At)与智能干扰源神经网络结构和参数一致,具有最好的性能;当采用黑盒攻击时,表1中的J(θt,St,At)通过合理构造,并通过观察环境和智能干扰源的行为进行网络训练。
对于黑盒攻击,基于黑盒攻击的迷惑样本智能干扰对抗算法设计如下:
初始化:构造神经网络J(·|θt)并进行随机初始化,并J(θt,St,At)→ft(·);构造行为空间
Figure RE-GDA0003183111970000093
状态空间
Figure RE-GDA0003183111970000094
初始化攻击次数Γ,初始化bt和δt,当累积攻击次数满足∑bt≤Γ执行后面的内容:根据观测状态、行为序列{S1,…,St}{A1,…,At}训练J(·|θt);将J(·|θt)带入公式(9)或公式 (10)计算c(St);依概率c(st)对bt赋值1→bt,否则0→bt;当bt=1时,按照公式(12)计算δt,对St赋值St←Stt,否则St保持不变,返回St,停止。
本发明通过具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的设备;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种主动诱骗式智能抗干扰方法,包括以下步骤:首先根据黑箱环境模块接收的通信波形和当前全频带感知信号强度以及下一次感知一起构造环境状态,分析智能干扰源,基于观察智能干扰源的干扰行为构造“样本标签模块”,生成对抗样本信号的训练数据集和诱骗决策“深度神经网络”,基于深度神经网络,以最小化干扰源的干扰期望回报值和干扰效果为目标,以最小化攻击次数和攻击信号强度为约束,将诱惑样本攻击过程建模为一个关于干扰时机bt和干扰样本值δt两个变量;根据深度强化学习原理对智能干扰源的各个算法模块定义干扰行为、环境状态、回报函数、干扰决策策略,将智能干扰源的回报函数R设计为最小化合法通信链路的效用函数,干扰行为设为频率选择与功率调整;构造包含输入层、多层隐藏层和输出层的智能干扰源决策神经网络;智能干扰源决策神经网络通过全频谱感知获取环境知识,全频带上感知的信号强度,对环境的感知获取环境状态和干扰行为,估计深度训练神经网络主动诱骗迷惑样本,对更新干扰行为的观察进行迭代训练参数,计算攻击时机变量bt和攻击样本变量δt,通过智能干扰源模块设计干扰行为A={fjam,Pjam},进行干扰行为决策和攻击网络训练,并根据深度神经网络计算的攻击时机和攻击样本值两个变量,通过变量求解,在频率上释放相应干扰功率的电磁信号,对合法链路进行干扰;深度神经网络基于策略值学习的机制和对应行为的概率分布,引入迷惑样本,诱骗智能干扰源做出错误的干扰决策,输出对应行为的Q值和对抗样本信号,实现通信系统的智能抗,其中,fjam表示所选干扰频率,Pjam表示对所选频率上施加的干扰功率。
2.如权利要求1所述的主动诱骗式智能抗干扰方法,其特征在于:深度神经网络建立M个隐藏层,按顺序建立输入层与隐藏层的联结,建立隐藏层与输出层的联结,为每个隐藏层的每个节点选择激活函数,求解每个联结的权重和每个节点自带的bias值,输入层、隐藏层和输出层用于实现对智能干扰源干扰策略的逼近,对于基于策略学习的智能干扰源的深度神经网络,对所构造输出的深度神经网络参数θ和当前状态St输出所有行为At的分布概率表示为:π(St,At|θ),将基于值学习的深度神经网络,以Q(·)值定义当前行为与状态的匹配度表示为Q(St,At)。
3.如权利要求1所述的主动诱骗式智能抗干扰方法,其特征在于:智能干扰源决策神经网络包括:基于高智能压制的深度强化学习神经网络(DQN)、DQN的智能抗干扰源神经网络和基于迷惑样本的主动干扰对抗神经网络;DQN通过神经网络近似求得值函数,输入一个状态state,s,输出值函数Q(s,a),通过神经网络得到值函数,环境先给出一个观测值(obs),智能体根据神经网络求得关于这个obs的所有值函数Q(s,a),再根据策略选择行为action并做出决策,环境接收到此action后给出一个奖励Rew及下一个obs,根据Rew去更新值函数网络的参数,接着进入下一个学习步骤step,如此循环下去,直到训练出一个好的值函数网络。
4.如权利要求3所述的主动诱骗式智能抗干扰方法,其特征在于:环境首先向智能体发送一个状态(S),然后智能体基于其知识采取动作(A)来响应该状态,根据当前状态决定下一步动作的策略,当前状态S的期望长期返回值,之后,环境发送下一个状态,并把奖励(R)返回给智能体,智能体用环境所返回的奖励来更新其知识,对上一个动作进行评估,这个循环一直持续,直到环境发送终止状态来结束这个事件。
5.如权利要求3所述的主动诱骗式智能抗干扰方法,其特征在于:智能抗干扰源神经网络和主动干扰对抗神经网络包括:顺次串联的输入层73神经元、第一隐藏层256神经元、第二隐藏层128神经元、第三隐藏层64神经元和输出层37神经元;智能干扰源决策深度神经网络采用深度强化学习神经网络(DQN)和智能抗干扰源神经网络的两种结构,采用智能干扰源决策的输入,为智能干扰源感知合法通信链路的信号和环境中各种噪声的无线环境,通过决策深度神经网络训练最小化合法链路的可达速率或信干噪比实现。
6.如权利要求1所述的主动诱骗式智能抗干扰方法,其特征在于智能干扰源模块将当前干扰行为A、回报函数R、当前智能干扰源所感知的全频带功率Pse,Pse={P1,…,Pn,…PN}和下一次感知全频带感知信号强度
Figure RE-FDA0003183111960000021
一起构造环境状态
Figure RE-FDA0003183111960000022
采用深度Q学习机制实现智能干扰,在合适的频率上释放相应干扰功率的电磁信号对合法链路进行干扰,采用深度Q学习机制的智能干扰源,通过“观察-判断-决策-行动”的决策机制对合法链路进行智能干扰,其中,
Figure RE-FDA0003183111960000023
表示从环境感知的下一阶段的全频带功率。
7.如权利要求1所述的主动诱骗式智能抗干扰方法,其特征在于:黑箱环境模块是对未知动态电磁环境的模拟,本发明中将合法通信链路视作未知动态的电磁环境,将包含有智能干扰的电磁环境看作由智能干扰源、合法通信链路、噪声因素构成的黑箱环境,并将初始通信波形通过该黑箱环境后,把所感知的通信信号作为标签构造训练样本集;与黑箱模块相连的标签模块从自身波形、噪声和智能干扰源的干扰信号,通过黑箱环境当前发射通信波形后的观测值,将发射波形和标签构成一组经验标签,随着通信过程的累积把所有的波形-标签组存在训练数据集中;与黑箱环境模块和诱骗决策深度神经网络模块相连的训练数据集模块在训练样本集中完成抽样,抽样结果用于最小化损失函数,从而训练诱骗决策神经网络。
8.如权利要求7所述的主动诱骗式智能抗干扰方法,其特征在于与诱骗决策深度神经网络模块相连的训练损失函L(·)数模块采用主动诱骗式智能抗干扰方法将损失函数定义为L(t)(·)=-u(t)(·),把智能干扰源的回报函数设计为最小化合法通信链路的效用函数,把合法通信链路抗干扰效用回报函数构R造为最大化链路信干燥比(SINR),同时降低扩跳频代价和发射功率的抗干扰策略的代价,根据智能干扰源最小化合法通信的可达速率或信干噪比为目标,反向构造损失函数L(·);与诱骗决策深度神经网络模块相连的对抗样本信号模块在合法链路对抗样本信号中引入诱骗信号后的通信信号波形,包括频谱选择和对应频率上的发射功率两个维度,即Acom={fjam,P},针对新的通信波形,通过训练后的诱骗决策神经网络生成对抗样本信号,并将该新的通信波形用于下一轮的通信传输中,从而实现主动诱骗式智能抗干扰通信。
9.如权利要求1所述的主动诱骗式智能抗干扰方法,其特征在于:智能干扰源在全频带上感知全频带功率P={P1,…,Pn,…PN}的信号强度,在一次迭代交互中通过智能干扰节点首先感知环境状态S,根据当前环境状态St和当前策略进行干扰行为选择,然后计算当前回报和状态转移St+1,在一次迭代之后,当前环境状态、选择的行为、立即回报和转移环境状态被存储为历史经验,同时根据历史进行抽样用作智能干扰决策神经网络训练,以最大化折扣累积回报为目标,采用时间差分方法进行训练,根据折扣因子γ计算其累积折扣回报:
V(St)=Rt+γRt+12+Rt+2
10.如权利要求1所述的主动诱骗式智能抗干扰方法,其特征在于:根据本攻击智能节点行为选择策略构造J(θt,St,At),且J(θt,st,at)→ft(·);构造行为空间
Figure RE-FDA0003183111960000031
状态空间S;初始化攻击次数Γ,初始化bt和δt。当累积攻击次数满足∑bt≤Γ执行:根据被攻击行为选择策略更新J(·|θt);将J(θt,St,At)带入计算攻击概率公式或累积折扣回报计算公式V(St)=Rt+γRt+12+Rt+2计算c(St);依概率c(st)对bt赋值1→bt,否则0→bt;当bt=1时,按照公式(7)计算δt,并对St赋值St←Stt,否则St保持不变;返回St;迭代停止,当采用白盒攻击时,深度神经网络与智能干扰源所使用的行为决策神经网络有完全相同的网络结构和参数,J(θt,St,At)与智能干扰源神经网络结构和参数一致,具有最好的性能;当采用黑盒攻击时,表1中的J(θt,St,At)通过合理构造,并通过观察环境和智能干扰源的行为进行网络训练。
CN202110596444.6A 2021-05-31 2021-05-31 主动诱骗式智能抗干扰方法 Active CN113420495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110596444.6A CN113420495B (zh) 2021-05-31 2021-05-31 主动诱骗式智能抗干扰方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110596444.6A CN113420495B (zh) 2021-05-31 2021-05-31 主动诱骗式智能抗干扰方法

Publications (2)

Publication Number Publication Date
CN113420495A true CN113420495A (zh) 2021-09-21
CN113420495B CN113420495B (zh) 2023-02-03

Family

ID=77713221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110596444.6A Active CN113420495B (zh) 2021-05-31 2021-05-31 主动诱骗式智能抗干扰方法

Country Status (1)

Country Link
CN (1) CN113420495B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115085856A (zh) * 2022-05-16 2022-09-20 中国人民解放军国防科技大学 一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统
CN116821699A (zh) * 2023-08-31 2023-09-29 山东海量信息技术研究院 一种感知模型训练方法、装置及电子设备和存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6826607B1 (en) * 1999-10-06 2004-11-30 Sensoria Corporation Apparatus for internetworked hybrid wireless integrated network sensors (WINS)
CN103618583A (zh) * 2013-12-02 2014-03-05 江苏科技大学 水声扩频通信对抗方法
CN107750441A (zh) * 2015-01-26 2018-03-02 卢森堡商创研腾智权信托有限公司 安全动态通讯网络及协定
CN107991656A (zh) * 2017-12-29 2018-05-04 中国电子科技集团公司第二十七研究所 一种主被动一体化抗干扰雷达装置
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN109274456A (zh) * 2018-09-10 2019-01-25 电子科技大学 一种基于强化学习的不完全信息智能抗干扰方法
CN109541556A (zh) * 2018-12-21 2019-03-29 中国航天科工集团八五研究所 一种对线性调频信号移频干扰的识别方法
CN110225525A (zh) * 2019-06-06 2019-09-10 广东工业大学 一种基于认知无线电网络的频谱共享方法、装置及设备
CN111726217A (zh) * 2020-06-29 2020-09-29 中南大学 基于深度强化学习的宽带无线通信自主选频方法及系统
CN112069504A (zh) * 2020-08-31 2020-12-11 浙江工业大学 面向深度强化学习对抗攻击的模型增强防御方法
CN112074782A (zh) * 2018-01-14 2020-12-11 光场实验室公司 用于渲染来自3d环境的数据的系统和方法
CN112380767A (zh) * 2020-11-11 2021-02-19 山东大学 基于改进型生成对抗网络的设备故障诊断方法及系统
CN112799023A (zh) * 2020-12-25 2021-05-14 中国人民解放军63892部队 一种快速转发的多假目标干扰方法
CN112820167A (zh) * 2021-03-01 2021-05-18 中国人民解放军海军大连舰艇学院 一种导航对抗训练仿真平台

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6826607B1 (en) * 1999-10-06 2004-11-30 Sensoria Corporation Apparatus for internetworked hybrid wireless integrated network sensors (WINS)
CN103618583A (zh) * 2013-12-02 2014-03-05 江苏科技大学 水声扩频通信对抗方法
CN107750441A (zh) * 2015-01-26 2018-03-02 卢森堡商创研腾智权信托有限公司 安全动态通讯网络及协定
CN107991656A (zh) * 2017-12-29 2018-05-04 中国电子科技集团公司第二十七研究所 一种主被动一体化抗干扰雷达装置
CN112074782A (zh) * 2018-01-14 2020-12-11 光场实验室公司 用于渲染来自3d环境的数据的系统和方法
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN109274456A (zh) * 2018-09-10 2019-01-25 电子科技大学 一种基于强化学习的不完全信息智能抗干扰方法
CN109541556A (zh) * 2018-12-21 2019-03-29 中国航天科工集团八五研究所 一种对线性调频信号移频干扰的识别方法
CN110225525A (zh) * 2019-06-06 2019-09-10 广东工业大学 一种基于认知无线电网络的频谱共享方法、装置及设备
CN111726217A (zh) * 2020-06-29 2020-09-29 中南大学 基于深度强化学习的宽带无线通信自主选频方法及系统
CN112069504A (zh) * 2020-08-31 2020-12-11 浙江工业大学 面向深度强化学习对抗攻击的模型增强防御方法
CN112380767A (zh) * 2020-11-11 2021-02-19 山东大学 基于改进型生成对抗网络的设备故障诊断方法及系统
CN112799023A (zh) * 2020-12-25 2021-05-14 中国人民解放军63892部队 一种快速转发的多假目标干扰方法
CN112820167A (zh) * 2021-03-01 2021-05-18 中国人民解放军海军大连舰艇学院 一种导航对抗训练仿真平台

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
崔宏 等: "GPS诱骗式干扰案例分析", 《中国无线电》 *
景志刚: "基于网络的入侵检测系统的研究和实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
王军 等: "基于运动干扰机的合成孔径雷达二维移频压制干扰", 《电讯技术》 *
程渤 等: "基于主动诱骗的电力网络安全提升策略设计与实现", 《电力系统自动化》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115085856A (zh) * 2022-05-16 2022-09-20 中国人民解放军国防科技大学 一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统
CN115085856B (zh) * 2022-05-16 2024-06-04 中国人民解放军国防科技大学 一种基于背靠背协作学习的分布式诱骗抗干扰方法和系统
CN116821699A (zh) * 2023-08-31 2023-09-29 山东海量信息技术研究院 一种感知模型训练方法、装置及电子设备和存储介质
CN116821699B (zh) * 2023-08-31 2024-01-19 山东海量信息技术研究院 一种感知模型训练方法、装置及电子设备和存储介质

Also Published As

Publication number Publication date
CN113420495B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
Liu et al. Anti-jamming communications using spectrum waterfall: A deep reinforcement learning approach
Luo et al. When attackers meet AI: Learning-empowered attacks in cooperative spectrum sensing
Tyugu Artificial intelligence in cyber defense
CN113420495B (zh) 主动诱骗式智能抗干扰方法
CN113406579B (zh) 一种基于深度强化学习的伪装干扰波形生成方法
Shi et al. Active deep learning attacks under strict rate limitations for online API calls
Liu et al. Intelligent jamming defense using DNN Stackelberg game in sensor edge cloud
Salmi et al. Performance evaluation of deep learning techniques for DoS attacks detection in wireless sensor network
CN115343680A (zh) 基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法
Onasami et al. Underwater acoustic communication channel modeling using reservoir computing
CN113973362A (zh) 强化学习非零和非合作多智能体安全通信功率控制方法
Ibrahim et al. Anti-jamming game to combat intelligent jamming for cognitive radio networks
CN115236607A (zh) 一种基于双层q学习的雷达抗干扰策略优化方法
CN114509732B (zh) 一种频率捷变雷达的深度强化学习抗干扰方法
Zheng et al. Primary user adversarial attacks on deep learning-based spectrum sensing and the defense method
Şeker Use of Artificial Intelligence Techniques/Applications in Cyber Defense
CN116866048A (zh) 抗干扰零和马尔可夫博弈模型及最大最小深度q学习方法
Strumberger et al. Bare bones fireworks algorithm for the rfid network planning problem
CN115508790A (zh) 基于回溯q学习的雷达抗干扰智能决策方法
CN113485313A (zh) 自动驾驶车辆的抗干扰方法和装置
Yang et al. A simple high-performance generation method for spoofing jamming signals
Gao et al. Evolutionary Neural Network based on Quantum Elephant Herding Algorithm for Modulation Recognition in Impulse Noise
Ramesh Babu et al. Optimal DBN‐based distributed attack detection model for Internet of Things
CN114545343B (zh) 基于量子认知的雷达干扰决策方法
Phillips et al. Autonomous and Security-Aware Dynamic Vehicular Platoon Formation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant