CN108777872A - 一种深度q神经网络抗干扰模型及智能抗干扰算法 - Google Patents

一种深度q神经网络抗干扰模型及智能抗干扰算法 Download PDF

Info

Publication number
CN108777872A
CN108777872A CN201810494872.6A CN201810494872A CN108777872A CN 108777872 A CN108777872 A CN 108777872A CN 201810494872 A CN201810494872 A CN 201810494872A CN 108777872 A CN108777872 A CN 108777872A
Authority
CN
China
Prior art keywords
interference
user
indicate
strategy
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810494872.6A
Other languages
English (en)
Other versions
CN108777872B (zh
Inventor
王金龙
徐煜华
刘鑫
徐逸凡
李洋洋
赵磊
冯智斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN201810494872.6A priority Critical patent/CN108777872B/zh
Publication of CN108777872A publication Critical patent/CN108777872A/zh
Application granted granted Critical
Publication of CN108777872B publication Critical patent/CN108777872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/04Error control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Noise Elimination (AREA)

Abstract

本发明公开了一种深度Q神经网络抗干扰模型及智能抗干扰算法。模型为:一组发射端和接收端对为一个用户,一个用户进行通信,一个或多个干扰机对用户通信进行干扰,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征。算法为:首先,通过深度Q神经网络得到拟合对应的Q值表;其次,用户依概率选择一个策略,根据该策略的回报值和下一步环境状态进行训练,并更新网络权重和选频策略;当达到最大循环次数时,算法结束。本发明模型完备,物理意义清晰,设计算法合理有效,能够很好地刻画基于深度强化学习算法的抗干扰场景。

Description

一种深度Q神经网络抗干扰模型及智能抗干扰算法
技术领域
本发明属于无线通信技术领域,特别是一种深度Q神经网络抗干扰模型及智能抗干扰算法。
背景技术
由于无线通信环境的开放性,无线通信系统极易遭受恶意干扰的攻击。此外,由于人工智能技术的飞速发展,使得干扰智能化水平不断提高,未来的通信干扰将呈现“波形灵巧”、“决策智能”等典型特点,使得传统抗干扰技术(如跳频和扩频)的抗干扰能力明显下降,甚至完全丧失,给无线通信系统或网络的稳定和安全带来极大的挑战。因而,迫切需要研究更加高效的抗干扰方法。针对新型的干扰环境特性,引入人工智能技术将是一种可选的方案。用户采用各种智能学习的方法,对干扰波形样式、信号构成和决策规律等进行有效的分析,并以此为基础智能地选取对抗决策,将有效地提升其抗干扰能力。
考虑到干扰环境的动态特性,强化学习成为研究智能抗干扰问题最优决策的一种热门工具(参考文献:C.J.C.H.Watkins,et al.,“Q-learning,”Mach.Learn.,,vol.8,pp.279-292,1992)。然而,它无法拓展到状态决策空间庞大的应用环境。
发明内容
本发明的目的在于提供一种深度Q神经网络抗干扰模型及智能抗干扰算法,很好地刻画基于深度强化学习算法的抗干扰场景。
实现本发明目的的技术解决方案为:一种深度Q神经网络抗干扰模型,对该模型做如下刻画:一组发射端和接收端对为一个用户,一个用户进行通信,一个或多个干扰机对用户通信实施干扰;在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,并采用深度Q神经网络对Q函数进行拟合,作为该模型的决策依据。
进一步地,用户接收端的信干噪比SINR表示为:
公式中(1)中,ft表示用户在代理指导下所选频率,t表示当前时刻;表示用户的功率,U(f)和bu分别表示用户的功率谱密度和基带信号带宽,gu表示用户发送端到接收端的信道增益,gj表示干扰到用户接收端的信道增益,ft j表示干扰选择的干扰频率,表示干扰的功率谱密度函数,n(f)表示噪声的功率谱密度函数;
此外,用βth表示成功传输所需要的SINR门限,定义归一化门限如公式(2)所示:
在接收终端部署了一个代理,该接收终端的功率谱密度函数如式(3)所示:
其中,j=1,…,J表示干扰;
模型中的离散频谱采样值定义为:
其中,Δf表示频谱分辨率;i表示采样数,S(f+fL)为式(3)所述功率谱密度函数、f表示采样频率、fL为所选频率的下界;
代理通过频谱向量st={st,1,st,2,...,st,N}决定传输频率,并通过可靠链路通知发送端;st,N为t时刻所决定的第N段传输频率。
进一步地,所述的在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,具体如下:
在动态未知的通信环境中,模型中的抗干扰问题建模为马尔科夫决策过程,该环境存在的复杂干扰模式与历史信息有关,因此环境状态定义为St={st,st-1,...,st-T+1},其中,T表示回溯的历史状态数目,St表示一个T×N的二维矩阵,由St矩阵构建出频谱瀑布图。
进一步地,所述的环境状态中,S∈{S1,S2,...}表示当前的传播环境状态,a∈{f1,f2,...,fK}是用户的频率选择策略,P(S′|S,a)表示用户的频率选择策略a由状态S变为状态S′的转移概率;
对于立即回报r定义为:
其中,λ表示因状态改变带来的代价,at表示t时刻的信道选择动作。
一种基于深度Q神经网络抗干扰模型的智能抗干扰算法,包括以下步骤:
步骤1,初始化:给定ε=1,随机权重θ,感知初始环境S1,通过深度Q神经网络得到拟合对应的Q值表;
步骤2,用户依概率ε随机选择一个策略,或者,用户依概率1-ε选择Q值最大的策略,即at=argamaxQ(St,a;θ);
步骤3,计算选择该策略的回报值,观察选择该策略后下一时刻的状态变化;
步骤4,根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(St,a,r,st+1)储存到D中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,接着计算梯度并更新权值,然后进入步骤5;
步骤5,更新下一次选择策略的概率ε=max(0.1,ε-Δε),其中Δε为更新步长,并返回步骤2;
循环步骤2~5,直至达到最大迭代次数,算法结束。
进一步地,步骤1中所述的通过深度Q神经网络得到拟合对应的Q值表,具体如下:
首先对使用的深度卷积神经网络进行预处理,预处理过程为:
其中,nth表示噪声门限;si,t表示t时刻第i次训练接收到的信号大小,为预处理后信号大小;
经过预处理后,状态中包含零向量;然后使用深度卷积神经网络CNN对Q函数进行拟合;对于当前的传播环境状态S和用户的频率选择策略a而言,拟合Q函数表示如下:
其中,S′表示在状态S采用策略a所产生的下一个状态,γ表示折扣因子。
进一步地,步骤4所述的根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(St,a,r,st+1)储存到D中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,具体如下:
采用经验回放机制,用et=(St,at,rt,St+1)表示t时刻的代理经验,并将其存贮在矩阵Dt=(e1,...,et)中;当经验池足够大时,从均匀分布e~U(D)中随机选取参量构建目标值其中r表示即时回报,γ表示折扣因子。
进一步地,步骤4中所述的计算梯度并更新权值,具体如下:
Q学习在第i次迭代使用如式(8)所示损失函数:
Lii)=Ee~U(D)[(yi-Q(S,a;θi))2] (8)
其中,θi表示Q学习在i次迭代的参数,表示在参数θi-1下依贪婪策略计算的目标值;
依据梯度下降法,对损失函数求微分,求得损失函数的梯度,如式(9)所示:
其中,Lii)表示损失函数,表示求梯度运算。
本发明与现有技术相比,其显著优点在于:(1)对传统卷积神经网络进行预处理,在不影响性能的情况下,降低计算复杂度;(2)模型完备,物理意义清晰,提出的基于深度强化学习的智能抗干扰算法,实现对提出模型的有效求解,求出用户的抗干扰功率控制策略;(3)能够有效地应对动态及智能干扰,并很好地刻画基于深度强化学习算法的抗干扰场景。
附图说明
图1是本发明深度Q神经网络抗干扰模型的系统模型图。
图2是本发明中抗干扰Q神经网络模型的结构示意图。
图3是本发明中Q神经网络抗干扰更新过程图。
图4是本发明实施例1中对抗固定干扰模式的频谱瀑布图。
图5是本发明中实施1中对抗固定模式干扰的输出信息量的图。
图6是本发明实施例2中对抗动态及智能干扰模式的频谱瀑布图。
具体实施方式
本发明所提出的深度Q神经网络抗干扰模型及智能抗干扰算法,旨在提供方案以解决智能抗干扰问题。本发明基于深度学习算法,将接收端的频谱瀑布图作为学习的输入状态,采用深度Q神经网络对状态的Q值函数进行拟合,并将其作为决策依据;接着,通过相应的决策算法,更新用户的频率选择策略。
图1是抗干扰系统模型图。该模型中,一组发射端和接收端对为一个用户,一个用户进行通信,控制系统可以帮助用户进行选频,系统中存在一个或多个干扰机对用户通信实施干扰。
图2是抗干扰Q神经网络模型。抗干扰Q神经网络采用卷积神经网络框架,输入为频谱瀑布图,经过两层卷积加两层全连接操作得到了当前状态对应的Q值表,然后通过相应的决策算法即可得出当前状态下最优的抗干扰决策。而深度神经网络参数的更新,则通过实时记录当前输入状态、所选决策说明经过抗干扰学习、立即回报和下一步环境状态进行训练予以实现。
对该模型做如下刻画:一组发射端和接收端对为一个用户,一个用户进行通信,一个或多个干扰机对用户通信实施干扰;在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,并采用深度Q神经网络对Q函数进行拟合,作为该模型的决策依据。
图3是抗干扰Q神经网络更新过程,该更新过程采用经验回放的思想,当代理的训练经验足够大时,从经验矩阵中随机抽取目标值;并通过梯度下降法对系统参量进行更新。
本发明基于传统Q学习,结合智能抗干扰问题,考虑干扰智能性强、干扰决策估计困难、学习决策空间庞大等因素,采用深度神经网络对Q值函数进行拟合,并对神经网络状态更新,通过相应决策算法,得出最优抗干扰决策。
进一步地,所述深度Q神经网抗干扰络模型,其用户接收端的信干噪比SINR表示为:
公式中(1)中,ft表示用户在代理指导下所选频率,t表示当前时刻;表示用户的功率,U(f)和bu分别表示用户的功率谱密度和基带信号带宽,gu表示用户发送端到接收端的信道增益,gj表示干扰到用户接收端的信道增益,ft j表示干扰选择的干扰频率,表示干扰的功率谱密度函数,n(f)表示噪声的功率谱密度函数。
此外,用βth表示成功传输所需要的SINR门限,定义归一化门限如公式(2)所示:
在接收终端部署了一个代理,该接收终端的功率谱密度函数如式(3)所示:
其中,j=1,…,J表示干扰;
模型中的离散频谱采样值定义为:
其中,Δf表示频谱分辨率;i表示采样数,S(f+fL)为式(3)所述功率谱密度函数、f表示采样频率、fL为所选频率的下界;
代理通过频谱向量st={st,1,st,2,...,st,N}决定传输频率,并通过可靠链路通知发送端;st,N为t时刻所决定的第N段传输频率。
进一步地,所述的深度Q神经网络抗干扰模型,其通信环境是动态未知的,该模型中的抗干扰问题可建模为马尔科夫决策过程(Markov decision process)。该环境存在的复杂干扰模式与历史信息有关,因此环境状态定义为St={st,st-1,...,st-T+1},其中,T表示回溯的历史状态数目,St表示一个T×N的二维矩阵,由St矩阵构建出频谱瀑布图。
进一步地,在所述的深度Q神经网络抗干扰模型中,S∈{S1,S2,...}表示当前的传播环境状态,a∈{f1,f2,...,fK}是用户的频率选择策略,P(S′|S,a)表示用户的频率选择策略a,由状态S变为状态S′的转移概率。对于立即回报r的定义如下:
其中,λ表示因状态改变带来的代价,at表示t时刻的信道选择动作。
本发明基于深度Q神经网络抗干扰模型的智能抗干扰算法,包括以下步骤:
步骤1,初始化:给定ε=1,随机权重θ,感知初始环境S1,通过深度Q神经网络得到拟合对应的Q值表;
步骤2,用户依概率ε随机选择一个策略,或者,用户依概率1-ε选择Q值最大的策略,即
步骤3,计算选择该策略的回报值,观察选择该策略后下一时刻的状态变化;
步骤4,根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(St,a,r,st+1)储存到D中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,接着计算梯度并更新权值,然后进入步骤5;
步骤5,更新下一次选择策略的概率ε=max(0.1,ε-Δε),其中Δε为更新步长,并返回步骤2;
循环步骤2~5,直至达到最大迭代次数,算法结束。
进一步地,步骤1中所述的通过深度Q神经网络得到拟合对应的Q值表,具体如下:
首先对使用的深度卷积神经网络进行预处理,预处理过程为:
其中,nth表示噪声门限;si,t表示t时刻第i次训练接收到的信号大小,为预处理后信号大小;
经过预处理后,状态中包含零向量;然后使用深度卷积神经网络CNN对Q函数进行拟合;对于当前的传播环境状态S和用户的频率选择策略a而言,拟合Q函数表示如下:
其中,S′表示在状态S采用策略a所产生的下一个状态,γ表示折扣因子。
进一步地,步骤4所述的根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(St,a,r,st+1)储存到D中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,具体如下:
采用经验回放机制,用et=(St,at,rt,St+1)表示t时刻的代理经验,并将其存贮在矩阵Dt=(e1,...,et)中;当经验池足够大时,从均匀分布e~U(D)中随机选取参量构建目标值其中r表示即时回报,γ表示折扣因子。
进一步地,步骤4中所述的计算梯度并更新权值,具体如下:
Q学习在第i次迭代使用如式(8)所示损失函数:
Lii)=Ee~U(D)[(yi-Q(S,a;θi))2] (8)
其中,θi表示Q学习在i次迭代的参数,表示在参数θi-1下依贪婪策略计算的目标值;
依据梯度下降法,对损失函数求微分,求得损失函数的梯度,如式(9)所示:
其中,Lii)表示损失函数,表示求梯度运算。
由于计算目标值和更新网络权值在不同阶段,因此实现算法过程中只需要一层预处理卷积神经网络。
实施例1
本发明的第一个实施例具体描述如下,系统仿真采用python语言,基于caffe深度学习框架,参数设定不影响一般性。该实施例验证所提模型与方法的有效性,图4验证对抗固定干扰模式的有效性。参数设置为,干扰和用户的频带为20MHz,频谱感知的频率分辨率为100kHz,用户每1ms进行一次全频段感知,并将感知到的频谱数据保持200ms,因此,St矩阵大小为200×200,用户信号带宽为4MHz,用户中心频率每10ms改变2MHz,所以K=9。用户和干扰的信号波形均为升余弦波,滚降系数为α=0.5。干扰功率为30dBm,用户的信号功率为0dBm。解调门限βth为10dB,换频切换代价λ为0.2。在实施例1中,我们考虑2种固定干扰模式:1、扫频干扰,扫频速度为1GHz/s;2、梳状干扰,3个固定干扰频率,分别为2MHz,10MHz,18MHz。
图4是本发明实施例1中对抗固定干扰模式的频谱瀑布图,从图中可以看出,扫频干扰由于线性的频率变化呈现对角线,而梳状干扰表现为许多垂直的条纹,用户的信号为矩形的方块,用户信号和干扰信号没有重叠,说明经过抗干扰学习后,用户基本避开了固定模式的干扰。
图5是本发明中实施1中对抗固定模式干扰的输出信息量的图,其中输出的信息量已经进行归一化,从图中可以看出,随着迭代次数的增加,设备的学习情况变得更好,避开固定模式的干扰,最终达到稳定信息输出。
实施例2
本发明的第二个实施例具体描述如下,系统仿真采用python语言,基于caffe深度学习框架,参数设定不影响一般性。该实施例验证所提模型与方法的有效性,图4验证对抗固定干扰模式的有效性,图5验证对抗动态干扰和智能干扰的效性。参数设置为,干扰和用户的频带为20MHz,频谱感知的频率分辨率为100kHz,用户每1ms进行一次全频段感知,并将感知到的频谱数据保持200ms,因此,St矩阵大小为200×200,用户信号带宽为4MHz,用户中心频率每10ms改变2MHz,所以K=9。用户和干扰的信号波形均为升余弦波,滚降系数为α=0.5。干扰功率为30dBm,用户的信号功率为0dBm。解调门限βth为10dB,换频切换代价λ为0.2。在实施例2中,我们考虑动态干扰模式和智能干扰模式:1、动态干扰,每100ms在扫频干扰和梳状干扰间随机切换;2、智能梳状干扰,通过计算用户在过去100ms内的选频概率选择梳状干扰频率。
图6是本发明实施例2中对抗动态及智能干扰模式的频谱瀑布图,图中红色三角形表示干扰模式的变换时刻,黑色方块表示用户信号被干扰的位置(时间、频点)。从图中可以看出,在动态干扰和智能干扰条件下,虽未预先对干扰的动态性和智能性建模,抗干扰学习依旧能够保证用户有效地避开大部分干扰。
综上所述,本发明提出的深度Q神经网络抗干扰模型,充分考虑了抗干扰问题中干扰智能性强、干扰决策估计困难、学习决策空间庞大的问题,比传统模型更有实际意义;提出的基于深度Q神经网络抗干扰模型的智能抗干扰算法,能够实现对提出模型的有效求解,求出用户的抗干扰功率控制策略,有效地应对动态及智能干扰。

Claims (8)

1.一种深度Q神经网络抗干扰模型,其特征在于,对该模型做如下刻画:一组发射端和接收端对为一个用户,一个用户进行通信,一个或多个干扰机对用户通信实施干扰;在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,并采用深度Q神经网络对Q函数进行拟合,作为该模型的决策依据。
2.根据权利要求1所述的深度Q神经网络抗干扰模型,其特征在于,用户接收端的信干噪比SINR表示为:
公式中(1)中,ft表示用户在代理指导下所选频率,t表示当前时刻;表示用户的功率,U(f)和bu分别表示用户的功率谱密度和基带信号带宽,gu表示用户发送端到接收端的信道增益,gj表示干扰到用户接收端的信道增益,ft j表示干扰选择的干扰频率,表示干扰的功率谱密度函数,n(f)表示噪声的功率谱密度函数;
此外,用βth表示成功传输所需要的SINR门限,定义归一化门限如公式(2)所示:
在接收终端部署了一个代理,该接收终端的功率谱密度函数如式(3)所示:
其中,j=1,…,J表示干扰;
模型中的离散频谱采样值定义为:
其中,Δf表示频谱分辨率;i表示采样数,S(f+fL)为式(3)所述功率谱密度函数、f表示采样频率、fL为所选频率的下界;
代理通过频谱向量st={st,1,st,2,...,st,N}决定传输频率,并通过可靠链路通知发送端;st,N为t时刻所决定的第N段传输频率。
3.根据权利要求1所述的深度Q神经网络抗干扰模型,其特征在于,所述的在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,具体如下:
在动态未知的通信环境中,模型中的抗干扰问题建模为马尔科夫决策过程,该环境存在的复杂干扰模式与历史信息有关,因此环境状态定义为St={st,st-1,...,st-T+1},其中,T表示回溯的历史状态数目,St表示一个T×N的二维矩阵,由St矩阵构建出频谱瀑布图。
4.根据权利要求3所述的深度Q神经网络抗干扰模型,其特征在于,所述的环境状态中,S∈{S1,S2,...}表示当前的传播环境状态,a∈{f1,f2,...,fK}是用户的频率选择策略,P(S′|S,a)表示用户的频率选择策略a由状态S变为状态S′的转移概率;
对于立即回报r定义为:
其中,λ表示因状态改变带来的代价,at表示t时刻的信道选择动作。
5.一种基于深度Q神经网络抗干扰模型的智能抗干扰算法,其特征在于,包括以下步骤:
步骤1,初始化:给定ε=1,随机权重θ,感知初始环境S1,通过深度Q神经网络得到拟合对应的Q值表;
步骤2,用户依概率ε随机选择一个策略,或者,用户依概率1-ε选择Q值最大的策略,即
步骤3,计算选择该策略的回报值,观察选择该策略后下一时刻的状态变化;
步骤4,根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(St,a,r,st+1)储存到D中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,接着计算梯度并更新权值,然后进入步骤5;
步骤5,更新下一次选择策略的概率ε=max(0.1,ε-Δε),其中Δε为更新步长,并返回步骤2;
循环步骤2~5,直至达到最大迭代次数,算法结束。
6.根据权利要求5所述的基于深度Q神经网络抗干扰模型的智能抗干扰算法,其特征在于,步骤1中所述的通过深度Q神经网络得到拟合对应的Q值表,具体如下:
首先对使用的深度卷积神经网络进行预处理,预处理过程为:
其中,nth表示噪声门限;si,t表示t时刻第i次训练接收到的信号大小,为预处理后信号大小;
经过预处理后,状态中包含零向量;然后使用深度卷积神经网络CNN对Q函数进行拟合;对于当前的传播环境状态S和用户的频率选择策略a而言,拟合Q函数表示如下:
其中,S′表示在状态S采用策略a所产生的下一个状态,γ表示折扣因子。
7.根据权利要求5所述的基于深度Q神经网络抗干扰模型的智能抗干扰算法,其特征在于,步骤4所述的根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(St,a,r,st+1)储存到D中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,具体如下:
采用经验回放机制,用et=(St,at,rt,St+1)表示t时刻的代理经验,并将其存贮在矩阵Dt=(e1,...,et)中;当经验池足够大时,从均匀分布e~U(D)中随机选取参量构建目标值其中r表示即时回报,γ表示折扣因子。
8.根据权利要求5所述的基于深度Q神经网络抗干扰模型的智能抗干扰算法,其特征在于,步骤4中所述的计算梯度并更新权值,具体如下:
Q学习在第i次迭代使用如式(8)所示损失函数:
Lii)=Ee~U(D)[(yi-Q(S,a;θi))2] (8)
其中,θi表示Q学习在i次迭代的参数,表示在参数θi-1下依贪婪策略计算的目标值;
依据梯度下降法,对损失函数求微分,求得损失函数的梯度,如式(9)所示:
其中,Lii)表示损失函数,表示求梯度运算。
CN201810494872.6A 2018-05-22 2018-05-22 一种基于深度q神经网络抗干扰模型的智能抗干扰方法及智能抗干扰系统 Active CN108777872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810494872.6A CN108777872B (zh) 2018-05-22 2018-05-22 一种基于深度q神经网络抗干扰模型的智能抗干扰方法及智能抗干扰系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810494872.6A CN108777872B (zh) 2018-05-22 2018-05-22 一种基于深度q神经网络抗干扰模型的智能抗干扰方法及智能抗干扰系统

Publications (2)

Publication Number Publication Date
CN108777872A true CN108777872A (zh) 2018-11-09
CN108777872B CN108777872B (zh) 2020-01-24

Family

ID=64027438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810494872.6A Active CN108777872B (zh) 2018-05-22 2018-05-22 一种基于深度q神经网络抗干扰模型的智能抗干扰方法及智能抗干扰系统

Country Status (1)

Country Link
CN (1) CN108777872B (zh)

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109586820A (zh) * 2018-12-28 2019-04-05 中国人民解放军陆军工程大学 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法
CN109639377A (zh) * 2018-12-13 2019-04-16 西安电子科技大学 基于深度强化学习的频谱资源管理方法
CN110176944A (zh) * 2019-04-25 2019-08-27 中国科学院上海微系统与信息技术研究所 一种基于深度学习的智能抗干扰装置及方法
CN110190918A (zh) * 2019-04-25 2019-08-30 广西大学 基于深度q学习的认知无线传感器网络频谱接入方法
CN110195660A (zh) * 2019-06-19 2019-09-03 南京航空航天大学 基于深度q学习的航空发动机控制装置
CN110244658A (zh) * 2019-06-04 2019-09-17 浙江工业大学 一种基于改进bp神经网络提高裁床插补位置精度的方法
CN110302539A (zh) * 2019-08-05 2019-10-08 苏州大学 一种游戏策略计算方法、装置、系统及可读存储介质
CN110515045A (zh) * 2019-08-30 2019-11-29 河海大学 一种基于q-学习的雷达抗干扰方法及系统
CN110968866A (zh) * 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法
CN110996343A (zh) * 2019-12-18 2020-04-10 中国人民解放军陆军工程大学 基于深度卷积神经网络的干扰识别模型及智能识别算法
CN110995382A (zh) * 2019-11-29 2020-04-10 中国科学院微电子研究所 基于元学习的避扰通信模型及其训练方法
CN111144362A (zh) * 2019-12-31 2020-05-12 上海数深智能科技有限公司 一种旋转设备振动故障特征库定期优化算法
CN111225380A (zh) * 2020-01-13 2020-06-02 东方红卫星移动通信有限公司 一种空天地海一体化多用户协作学习动态接入方法
CN111273668A (zh) * 2020-02-18 2020-06-12 福州大学 针对结构化道路的无人驾驶汽车运动轨迹规划系统及方法
CN111431645A (zh) * 2020-03-30 2020-07-17 中国人民解放军国防科技大学 一种基于小样本训练神经网络的频谱感知方法
CN111562740A (zh) * 2020-05-06 2020-08-21 清华大学 基于利用梯度的多目标强化学习算法的自动控制方法
CN111726217A (zh) * 2020-06-29 2020-09-29 中南大学 基于深度强化学习的宽带无线通信自主选频方法及系统
CN111835453A (zh) * 2020-07-01 2020-10-27 中国人民解放军空军工程大学 一种通信对抗过程建模方法
CN111901862A (zh) * 2020-07-07 2020-11-06 西安交通大学 一种基于深度q网络的用户分簇与功率分配方法、设备和介质
CN111917508A (zh) * 2020-08-10 2020-11-10 中国人民解放军陆军工程大学 基于多天线抗干扰通信模型及动态空间谱抗干扰方法
CN111917509A (zh) * 2020-08-10 2020-11-10 中国人民解放军陆军工程大学 基于信道-带宽联合决策的多域智能通信模型及通信方法
CN111934786A (zh) * 2020-07-30 2020-11-13 桂林理工大学 一种基于深度强化学习的信号隐蔽抗干扰方法和装置
CN112101556A (zh) * 2020-08-25 2020-12-18 清华大学 识别与去除环境观测量中冗余信息的方法及装置
WO2021036414A1 (zh) * 2019-08-29 2021-03-04 浙江大学 一种低轨移动卫星星座下星地下行链路同频干扰预测方法
CN112543038A (zh) * 2020-11-02 2021-03-23 杭州电子科技大学 基于haql-pso的跳频系统智能抗干扰决策方法
CN112671486A (zh) * 2020-12-28 2021-04-16 电子科技大学 一种基于神经网络的联合频谱感知方法及系统
CN112904290A (zh) * 2021-01-26 2021-06-04 西安电子科技大学 一种雷达智能认知抗干扰策略的生成方法
CN113038567A (zh) * 2021-01-20 2021-06-25 中国人民解放军陆军工程大学 多中继通信中的抗干扰模型及抗干扰方法
CN113093124A (zh) * 2021-04-07 2021-07-09 哈尔滨工程大学 一种基于dqn算法的雷达干扰资源实时分配方法
CN113378466A (zh) * 2021-06-11 2021-09-10 电子科技大学 一种基于dqn的雷达对抗智能决策方法
CN113411099A (zh) * 2021-05-28 2021-09-17 杭州电子科技大学 一种基于pper-dqn的双变跳频图案智能决策方法
CN113420495A (zh) * 2021-05-31 2021-09-21 西南电子技术研究所(中国电子科技集团公司第十研究所) 主动诱骗式智能抗干扰方法
CN113625233A (zh) * 2021-08-16 2021-11-09 哈尔滨工业大学 基于强化学习的雷达抗干扰智能决策方法
CN113810986A (zh) * 2020-06-12 2021-12-17 深圳市万普拉斯科技有限公司 发射功率动态调节方法、装置、终端和存储介质
CN113824469A (zh) * 2021-08-05 2021-12-21 杭州电子科技大学 基于mfdrl-ctde的跳频组网智能抗干扰决策方法
CN113890564A (zh) * 2021-08-24 2022-01-04 浙江大学 基于联邦学习的无人机专用自组网跳频抗干扰方法及装置
CN113938897A (zh) * 2021-09-30 2022-01-14 中国人民解放军陆军工程大学 一种主用户友好的抗干扰动态频谱接入方法
CN114358064A (zh) * 2021-12-23 2022-04-15 中国人民解放军海军工程大学 一种基于深度支持向量数据描述的干扰检测装置及方法
CN114509732A (zh) * 2022-02-21 2022-05-17 四川大学 一种频率捷变雷达的深度强化学习抗干扰方法
CN114598375A (zh) * 2022-02-07 2022-06-07 中国空间技术研究院 一种支持干扰源接入的非信号级卫星抗干扰仿真系统
CN114978388A (zh) * 2022-05-18 2022-08-30 大连大学 一种无人机时频域联合认知抗干扰智能决策方法
CN115276858A (zh) * 2022-07-11 2022-11-01 中国人民解放军国防科技大学 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统
CN115407654A (zh) * 2022-08-25 2022-11-29 南京航空航天大学 一种q学习的固定翼无人机h无穷抗干扰控制方法
WO2022267360A1 (zh) * 2021-06-21 2022-12-29 中兴通讯股份有限公司 干扰处理方法、装置和计算机可读存储介质
CN116846509A (zh) * 2023-06-07 2023-10-03 哈尔滨工程大学 一种基于隐式对手建模的强化学习抗干扰通信方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705557A (zh) * 2017-09-04 2018-02-16 清华大学 基于深度增强网络的路网信号控制方法及装置
CN108021028A (zh) * 2017-12-22 2018-05-11 重庆邮电大学 一种基于相关冗余变换与增强学习的多维度协同控制方法
CN108038545A (zh) * 2017-12-06 2018-05-15 湖北工业大学 基于Actor-Critic神经网络连续控制的快速学习算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705557A (zh) * 2017-09-04 2018-02-16 清华大学 基于深度增强网络的路网信号控制方法及装置
CN108038545A (zh) * 2017-12-06 2018-05-15 湖北工业大学 基于Actor-Critic神经网络连续控制的快速学习算法
CN108021028A (zh) * 2017-12-22 2018-05-11 重庆邮电大学 一种基于相关冗余变换与增强学习的多维度协同控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUOAN HAN,ET AL.: "Two-dimensional anti-jamming communication based on deep reinforcement learning", 《IEEE XPLORE DIGITAL LIBRARY》 *
江虹,等: "基于强化学习的频谱决策与传输算法", 《系统仿真学报》 *
王瑶: "认知无线电_频谱感知平台搭建以及感知算法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639377A (zh) * 2018-12-13 2019-04-16 西安电子科技大学 基于深度强化学习的频谱资源管理方法
CN109586820A (zh) * 2018-12-28 2019-04-05 中国人民解放军陆军工程大学 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法
CN110190918B (zh) * 2019-04-25 2021-04-30 广西大学 基于深度q学习的认知无线传感器网络频谱接入方法
CN110176944A (zh) * 2019-04-25 2019-08-27 中国科学院上海微系统与信息技术研究所 一种基于深度学习的智能抗干扰装置及方法
CN110190918A (zh) * 2019-04-25 2019-08-30 广西大学 基于深度q学习的认知无线传感器网络频谱接入方法
CN110244658A (zh) * 2019-06-04 2019-09-17 浙江工业大学 一种基于改进bp神经网络提高裁床插补位置精度的方法
CN110244658B (zh) * 2019-06-04 2020-11-24 浙江工业大学 一种基于改进bp神经网络提高裁床插补位置精度的方法
CN110195660A (zh) * 2019-06-19 2019-09-03 南京航空航天大学 基于深度q学习的航空发动机控制装置
CN110195660B (zh) * 2019-06-19 2020-04-21 南京航空航天大学 基于深度q学习的航空发动机控制装置
CN110302539A (zh) * 2019-08-05 2019-10-08 苏州大学 一种游戏策略计算方法、装置、系统及可读存储介质
WO2021036414A1 (zh) * 2019-08-29 2021-03-04 浙江大学 一种低轨移动卫星星座下星地下行链路同频干扰预测方法
CN110515045A (zh) * 2019-08-30 2019-11-29 河海大学 一种基于q-学习的雷达抗干扰方法及系统
CN110515045B (zh) * 2019-08-30 2023-07-28 河海大学 一种基于q-学习的雷达抗干扰方法及系统
CN110968866A (zh) * 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法
CN110995382A (zh) * 2019-11-29 2020-04-10 中国科学院微电子研究所 基于元学习的避扰通信模型及其训练方法
CN110996343A (zh) * 2019-12-18 2020-04-10 中国人民解放军陆军工程大学 基于深度卷积神经网络的干扰识别模型及智能识别算法
CN111144362A (zh) * 2019-12-31 2020-05-12 上海数深智能科技有限公司 一种旋转设备振动故障特征库定期优化算法
CN111225380A (zh) * 2020-01-13 2020-06-02 东方红卫星移动通信有限公司 一种空天地海一体化多用户协作学习动态接入方法
CN111273668B (zh) * 2020-02-18 2021-09-03 福州大学 针对结构化道路的无人驾驶汽车运动轨迹规划系统及方法
CN111273668A (zh) * 2020-02-18 2020-06-12 福州大学 针对结构化道路的无人驾驶汽车运动轨迹规划系统及方法
CN111431645B (zh) * 2020-03-30 2022-02-08 中国人民解放军国防科技大学 一种基于小样本训练神经网络的频谱感知方法
CN111431645A (zh) * 2020-03-30 2020-07-17 中国人民解放军国防科技大学 一种基于小样本训练神经网络的频谱感知方法
CN111562740A (zh) * 2020-05-06 2020-08-21 清华大学 基于利用梯度的多目标强化学习算法的自动控制方法
CN111562740B (zh) * 2020-05-06 2021-04-23 清华大学 基于利用梯度的多目标强化学习算法的自动控制方法
CN113810986A (zh) * 2020-06-12 2021-12-17 深圳市万普拉斯科技有限公司 发射功率动态调节方法、装置、终端和存储介质
CN111726217A (zh) * 2020-06-29 2020-09-29 中南大学 基于深度强化学习的宽带无线通信自主选频方法及系统
CN111726217B (zh) * 2020-06-29 2021-07-20 中南大学 基于深度强化学习的宽带无线通信自主选频方法及系统
CN111835453A (zh) * 2020-07-01 2020-10-27 中国人民解放军空军工程大学 一种通信对抗过程建模方法
CN111901862B (zh) * 2020-07-07 2021-08-13 西安交通大学 一种基于深度q网络的用户分簇与功率分配方法、设备和介质
CN111901862A (zh) * 2020-07-07 2020-11-06 西安交通大学 一种基于深度q网络的用户分簇与功率分配方法、设备和介质
CN111934786A (zh) * 2020-07-30 2020-11-13 桂林理工大学 一种基于深度强化学习的信号隐蔽抗干扰方法和装置
CN111934786B (zh) * 2020-07-30 2021-12-24 桂林理工大学 一种基于深度强化学习的信号隐蔽抗干扰方法和装置
CN111917508B (zh) * 2020-08-10 2023-05-16 中国人民解放军陆军工程大学 基于多天线抗干扰通信模型的系统及动态空间谱抗干扰方法
CN111917509A (zh) * 2020-08-10 2020-11-10 中国人民解放军陆军工程大学 基于信道-带宽联合决策的多域智能通信模型及通信方法
CN111917508A (zh) * 2020-08-10 2020-11-10 中国人民解放军陆军工程大学 基于多天线抗干扰通信模型及动态空间谱抗干扰方法
CN112101556A (zh) * 2020-08-25 2020-12-18 清华大学 识别与去除环境观测量中冗余信息的方法及装置
CN112101556B (zh) * 2020-08-25 2021-08-10 清华大学 识别与去除环境观测量中冗余信息的方法及装置
CN112543038A (zh) * 2020-11-02 2021-03-23 杭州电子科技大学 基于haql-pso的跳频系统智能抗干扰决策方法
CN112671486A (zh) * 2020-12-28 2021-04-16 电子科技大学 一种基于神经网络的联合频谱感知方法及系统
CN113038567A (zh) * 2021-01-20 2021-06-25 中国人民解放军陆军工程大学 多中继通信中的抗干扰模型及抗干扰方法
CN112904290B (zh) * 2021-01-26 2023-12-26 西安电子科技大学 一种雷达智能认知抗干扰策略的生成方法
CN112904290A (zh) * 2021-01-26 2021-06-04 西安电子科技大学 一种雷达智能认知抗干扰策略的生成方法
CN113093124A (zh) * 2021-04-07 2021-07-09 哈尔滨工程大学 一种基于dqn算法的雷达干扰资源实时分配方法
CN113411099A (zh) * 2021-05-28 2021-09-17 杭州电子科技大学 一种基于pper-dqn的双变跳频图案智能决策方法
CN113420495B (zh) * 2021-05-31 2023-02-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 主动诱骗式智能抗干扰方法
CN113420495A (zh) * 2021-05-31 2021-09-21 西南电子技术研究所(中国电子科技集团公司第十研究所) 主动诱骗式智能抗干扰方法
CN113378466A (zh) * 2021-06-11 2021-09-10 电子科技大学 一种基于dqn的雷达对抗智能决策方法
WO2022267360A1 (zh) * 2021-06-21 2022-12-29 中兴通讯股份有限公司 干扰处理方法、装置和计算机可读存储介质
CN113824469A (zh) * 2021-08-05 2021-12-21 杭州电子科技大学 基于mfdrl-ctde的跳频组网智能抗干扰决策方法
CN113625233B (zh) * 2021-08-16 2024-02-06 哈尔滨工业大学 基于强化学习的雷达抗干扰智能决策方法
CN113625233A (zh) * 2021-08-16 2021-11-09 哈尔滨工业大学 基于强化学习的雷达抗干扰智能决策方法
CN113890564A (zh) * 2021-08-24 2022-01-04 浙江大学 基于联邦学习的无人机专用自组网跳频抗干扰方法及装置
CN113938897B (zh) * 2021-09-30 2023-09-19 中国人民解放军陆军工程大学 一种主用户友好的抗干扰动态频谱接入方法
CN113938897A (zh) * 2021-09-30 2022-01-14 中国人民解放军陆军工程大学 一种主用户友好的抗干扰动态频谱接入方法
CN114358064A (zh) * 2021-12-23 2022-04-15 中国人民解放军海军工程大学 一种基于深度支持向量数据描述的干扰检测装置及方法
CN114358064B (zh) * 2021-12-23 2022-06-21 中国人民解放军海军工程大学 一种基于深度支持向量数据描述的干扰检测装置及方法
CN114598375A (zh) * 2022-02-07 2022-06-07 中国空间技术研究院 一种支持干扰源接入的非信号级卫星抗干扰仿真系统
CN114598375B (zh) * 2022-02-07 2024-05-14 中国空间技术研究院 一种支持干扰源接入的非信号级卫星抗干扰仿真系统
CN114509732B (zh) * 2022-02-21 2023-05-09 四川大学 一种频率捷变雷达的深度强化学习抗干扰方法
CN114509732A (zh) * 2022-02-21 2022-05-17 四川大学 一种频率捷变雷达的深度强化学习抗干扰方法
CN114978388A (zh) * 2022-05-18 2022-08-30 大连大学 一种无人机时频域联合认知抗干扰智能决策方法
CN114978388B (zh) * 2022-05-18 2023-11-07 大连大学 一种无人机时频域联合认知抗干扰智能决策方法
CN115276858A (zh) * 2022-07-11 2022-11-01 中国人民解放军国防科技大学 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统
CN115276858B (zh) * 2022-07-11 2024-01-23 中国人民解放军国防科技大学 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统
CN115407654A (zh) * 2022-08-25 2022-11-29 南京航空航天大学 一种q学习的固定翼无人机h无穷抗干扰控制方法
CN116846509A (zh) * 2023-06-07 2023-10-03 哈尔滨工程大学 一种基于隐式对手建模的强化学习抗干扰通信方法

Also Published As

Publication number Publication date
CN108777872B (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN108777872A (zh) 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN111970072B (zh) 基于深度强化学习的宽带抗干扰系统及抗干扰方法
CN110996343B (zh) 基于深度卷积神经网络的干扰识别模型的智能识别系统及识别方法
Haykin Cognitive radar: a way of the future
CN113255936B (zh) 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置
CN109274456B (zh) 一种基于强化学习的不完全信息智能抗干扰方法
CN113406579B (zh) 一种基于深度强化学习的伪装干扰波形生成方法
CN113382381B (zh) 一种基于贝叶斯q学习的无人机集群网络智能跳频方法
Li et al. Deep transfer learning for WiFi localization
CN111917508A (zh) 基于多天线抗干扰通信模型及动态空间谱抗干扰方法
CN114509732B (zh) 一种频率捷变雷达的深度强化学习抗干扰方法
CN115236607B (zh) 一种基于双层q学习的雷达抗干扰策略优化方法
CN114978388B (zh) 一种无人机时频域联合认知抗干扰智能决策方法
CN111786738B (zh) 基于长短期记忆的抗干扰学习的网络结构及学习方法
CN115103446A (zh) 一种基于深度强化学习的多用户通信抗干扰智能决策方法
Cai et al. Jamming pattern recognition using spectrum waterfall: A deep learning method
CN113420495B (zh) 主动诱骗式智能抗干扰方法
Li et al. Intelligent dynamic spectrum anti-jamming communications: A deep reinforcement learning perspective
Li et al. Counterfactual regret minimization for anti-jamming game of frequency agile radar
Li et al. Know Thy Enemy: An Opponent Modeling-Based Anti-Intelligent Jamming Strategy Beyond Equilibrium Solutions
CN116866048A (zh) 抗干扰零和马尔可夫博弈模型及最大最小深度q学习方法
CN116866895A (zh) 一种基于神经虚拟自博弈的智能对抗方法
CN117498981A (zh) 一种基于深度强化学习的信道与功率联合干扰决策方法
CN116896422A (zh) 一种基于干扰意识学习的抗智能干扰信道决策方法
Zhang et al. An Anti-jamming Intelligent Decision-Making Method for Multi-user Communication Based on Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant