CN111786738B - 基于长短期记忆的抗干扰学习的网络结构及学习方法 - Google Patents

基于长短期记忆的抗干扰学习的网络结构及学习方法 Download PDF

Info

Publication number
CN111786738B
CN111786738B CN202010621554.9A CN202010621554A CN111786738B CN 111786738 B CN111786738 B CN 111786738B CN 202010621554 A CN202010621554 A CN 202010621554A CN 111786738 B CN111786738 B CN 111786738B
Authority
CN
China
Prior art keywords
interference
long
frequency
term memory
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010621554.9A
Other languages
English (en)
Other versions
CN111786738A (zh
Inventor
徐煜华
李洋洋
汪西明
李文
刘松仪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN202010621554.9A priority Critical patent/CN111786738B/zh
Publication of CN111786738A publication Critical patent/CN111786738A/zh
Application granted granted Critical
Publication of CN111786738B publication Critical patent/CN111786738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/345Interference values
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • H04B17/3913Predictive models, e.g. based on neural network models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/541Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)

Abstract

一种基于长短期记忆的抗干扰学习的网络结构及学习方法,感知设备将采集的频谱环境构建为频谱瀑布图,并把得到的频谱瀑布图、发信机发射信号的频点和接收机发送反馈信号作为基于长短期记忆的卷积神经网络的输入,把抗干扰频率选择作为输出,传送给发信机,发信机根据选择的抗干扰频率发送信号。算法通过梯度下降法,依据反馈信号更新卷积神经网络的参数,从而增加成功选择出抗干扰频点的概率。循环迭代,直至达到在取得较好的效果或达到设定的迭代次数。本发明通过选择出躲避干扰信号的频率,提高了用户的在干扰环境下的吞吐量。

Description

基于长短期记忆的抗干扰学习的网络结构及学习方法
技术领域
本发明涉及无线通信技术领域,具体涉及一种基于长短期记忆的抗干扰学习的网络结构及学习方法。
背景技术
在通信领域中,信号是表示消息的物理量,如电信号可以通过幅度、频率、相位的变化来表示不同的消息。干扰是指对有用信号的接收造成损伤。如何提高通信的可靠性是通信领域中的一个重要问题,由于无线信道的开放性,通信信号极易受到外来信号干扰,针对这个问题,有人提出了基于深度强化学习的抗干扰算法,就如参考文献:Liu X,Xu Y,JiaL,et al.Anti-jamming communications using spectrum waterfall:A deepreinforcement learning approach[J].IEEE Communications Letters,2018,22(5):998-1001.,其通过选频来避免干扰信号,来提高用频设备的抗干扰能力。
目前关于抗干扰选频中,有相关研究,如参考文献:Kong L,Xu Y,Zhang Y,etal.A reinforcement learning approach for dynamic spectrum anti-jamming infading environment[C]2018 IEEE 18th International Conference on CommunicationTechnology(ICCT).IEEE,2018:51-58.中将抗干扰选频和衰弱信道结合起来,不仅对干扰信号进行预测,更把衰弱信道构建为Markov模型,预测信道的情况的同时结合干扰信号的情况进行抗干扰选频,进一步提升通信的可靠性。如图1所示,在无线通信网络中,用户包括发信机和接收机,接收机收到发信机发送信号时,向发信机通过控制信道回复反馈信号。现有的大部分智能抗干扰算法假设这种反馈信号是通过稳定的控制信道传输,不受干扰的。而在实际的干扰环境中,不仅用户传输信号受到干扰,回传反馈信号也受干扰,因此导致现有的智能抗干扰算法抗干扰效果较差。
发明内容
为解决上述问题,本发明提供了一种基于长短期记忆的抗干扰学习的网络结构及学习方法,能通过选择通信频率优化了抗干扰的效果,有效避免了现有技术中不仅用户传输信号受到干扰、回传反馈信号也受干扰、导致现有的智能抗干扰算法抗干扰效果较差的缺陷。
为了克服现有技术中的不足,本发明提供了一种基于长短期记忆的抗干扰学习的网络结构及学习方法的解决方案,具体如下:
一种基于长短期记忆的抗干扰学习的网络结构,该网络结构包括:
(1)卷积层;
(2)池化层;
(3)长短期记忆层;
(4)全连接层;
所述池化层、卷积层、长短期记忆层以及全连接层依次顺序通信连接。
所述基于长短期记忆的抗干扰学习的网络结构的损失函数,包括以下几个部分:
先定义每个动作对应回馈的目标值η如公式(3)所示:
Figure BDA0002565335920000021
其中,λ是折扣因子,Q(S',a';θi-1)为神经网络拟合的网络函数,S'为S的下一时刻的值;例如在t时刻S为St那么S'=St+1
Figure BDA0002565335920000031
为频率决策,其中a'定义为a的下一个时刻的干扰决策,在t时刻,网络动作的生成为如公式(4)所示:
Figure BDA0002565335920000032
θi-1为在i-1次迭代中的网络参数。r为奖励值定义式为:
Figure BDA0002565335920000033
其中c一般取大于零的值,c>0,d一般取小于零或者等于0的值,d≤0;把损失函数L定义为如公式(6)所示:
L=[Q(S,a;θi)-ηi]2 (6)
使用梯度下降算法优化网络参数θ,使得L的值最小。其更新过程为如公式(7)所示:
θi+1=θi+α▽θL(θi) (7)
其中α是学习率;i代表迭代次数,L为定义的损失函数,其中L(θi)代表受到网络参数θ影响的所示函数,▽θ代表对θ偏导,θi表示第i次迭代下的网络参数θ。
经设经验回放库为D,该库满足先进先出原则,D的最大记忆容量为m,在算法的第k轮,D={ek,ek-1,...,ek-m+1},其中存储单元ek=(Sk,ak,k,Sk+1);其中Sk代表在第k轮感知的频谱瀑布图,ak代表在第k轮做出抗干扰频率决策,ηk为在第k轮的目标值,Sk+1为第k+1轮感知到的下频谱瀑布图,在训练时,放入多个训练的存储单元ek,加速算法收敛。
所述基于长短期记忆的抗干扰学习的网络结构的抗干扰学习算法,其算法流程具体包括:
(1)初始化网络参数;
(2)感知频谱瀑布图S,根据公式(4)选出动作,并根据反馈信号和公式(3)计算得出动作反馈的目标值,并根据公式(6)计算损失函数,并由梯度下降法更新网络参数;
(3)达到运行次数,终止算法。
所述基于长短期记忆的抗干扰学习方法,包括:将感知设备将采集的频谱环境构建为频谱瀑布图,并把得到的频谱瀑布图、作为发射机的发信机发射信号的频点和接收机发送反馈信号作为基于长短期记忆的卷积神经网络的输入,把抗干扰频率选择作为输出,传送给发信机,发信机根据选择的抗干扰频率发送信号。
所述基于长短期记忆的抗干扰学习方法,具体包括如下步骤:
步骤1,感知设备将采集的频谱环境构建为频谱瀑布图;
步骤2,初始化基于长短期记忆的卷积神经网络;
步骤3,将构建的频谱瀑布图,发信机发射信号的频点和接收机发送的反馈信号作为基于长短期记忆的卷积神经网络的输入,通过梯度下降法更新基于长短期记忆的卷积神经网络参数,基于长短期记忆的卷积神经网络输出抗干扰频点,作为发射机下次通信的频点决策;
步骤4,循环步骤3,直到可以躲避干扰信号或者达到设定的迭代次数。
所述步骤1中的抗干扰频率决策过程建模为马尔科夫过程。在此问题中的马尔科夫过程由四元组
Figure BDA0002565335920000051
所描述,其中
Figure BDA0002565335920000052
为状态矩阵即为感知得到的频谱瀑布图集,
Figure BDA0002565335920000053
为动作集,即抗干扰频率选择集,
Figure BDA0002565335920000054
为转移概率矩阵,即转态跳转概率集。
Figure BDA0002565335920000055
为奖励值集,即为所取得的反馈集。
所述步骤3中的选择的频谱瀑布图定义为:St(f)为t时刻观测到的频谱状况,其如公式(1)所示:
Figure BDA0002565335920000056
其中,U(f)为发信机发射信号的功率谱密度,Jt(f)为所有干扰在t时刻的发功率的功率谱密度,
Figure BDA0002565335920000057
为第j个干扰在t时刻的发射功率的功率谱密度,ft j表示第j个干扰在t时刻的频率,ft表示所有干扰在t时刻的平均频率,f表示所有干扰在整个干扰时段的平均频率,gs表示从发信机到接收机的信道增益,gj表示第j个干扰机到接收机的信道增益,n(f)为噪声的功率谱密度,频谱的离散采样值st,i为公式(2)所示:
Figure BDA0002565335920000058
其中,Δf为频谱的分辨率;i为采样点的序号,时间t时刻频谱的向量表示为st={st,1,st,2...st,i...st,N},N为采样点数;定义T为历史状态的回溯值,代表从时间t-T到时间t的向量st的集合,也就是频谱瀑布图,那么t时刻,频谱瀑布图St可状态为St{st,st-1,...,st-T+1},St为T×N的矩阵,
Figure BDA0002565335920000059
本发明的有益效果为:
(1)在抗干扰环境中,感知设备将采集的频谱环境构建为频谱瀑布图,并把得到的频谱瀑布图、发信机发射信号的频点和接收机发送反馈信号作为基于长短期记忆的卷积神经网络的输入,把抗干扰频率选择作为输出,传送给发信机,发信机根据选择的抗干扰频率发送信号,因此在反馈信号被干扰时也能取得较好的效果;
(2)通过梯度下降法,依据反馈信号更新卷积神经网络的参数,从而增加成功选择出抗干扰频点的概率,通过选择出躲避干扰信号的频率,提高了用户的在干扰环境下的吞吐量。
附图说明
图1是本发明部分的干扰场景示意图。
图2是本发明的网络结构示意图。
图3是本发明的算法流程示意图。
图4是本发明在以0.8概率收到反馈信号时在不同干扰模式下的频谱瀑布图。
图5是本发明实施例中方法在不同概率接收到反馈信号的不同干扰模式下平均吞吐量对比图,其中图5(a)表示梳状干扰下吞吐量对比图;图5(b)表示扫频干扰下吞吐量对比图;图5(c)表示动态梳状干扰下吞吐量对比图;图5(d)表示动态干扰下吞吐量对比图。
具体实施方式
本发明基于长短期记忆的抗干扰学习方法,用户分为发信机和接收机,接收机收到发信机发送信号时,向发信机通过控制信道回复反馈信号。在干扰环境中,如图1所示,不仅用户传输信号受到干扰,回传反馈信号也受干扰。本发明的算法针对反馈信号也被干扰的情况,比一般智能算法在干扰环境下能取得更好的抗干扰效果。
下面将结合附图和实施例对本发明做进一步地说明。
基于长短期记忆的抗干扰学习的网络结构,其网络结构如图2所示,该网络结构包括:
(1)卷积层;
(2)池化层;
(3)长短期记忆层;
(4)全连接层;
所述池化层、卷积层、长短期记忆层以及全连接层依次顺序通信连接。
所述基于长短期记忆的抗干扰学习的网络结构的损失函数,包括以下几个部分:
先定义每个动作对应回馈的目标值η如公式(3)所示:
Figure BDA0002565335920000071
其中,λ是折扣因子,Q(S',a';θi-1)为神经网络拟合的网络函数,S'为S的下一时刻的值;例如在t时刻S为St那么S'=St+1
Figure BDA0002565335920000072
为频率决策,其中a'定义为a的下一个时刻的干扰决策,在t时刻,网络动作的生成为如公式(4)所示:
Figure BDA0002565335920000073
θi-1为在i-1次迭代中的网络参数。r为奖励值定义式为:
Figure BDA0002565335920000074
其中c一般取大于零的值,c>0,d一般取小于零或者等于0的值,d≤0;把损失函数L定义为如公式(6)所示:
L=[Q(S,a;θi)-ηi]2 (6)
使用梯度下降算法优化网络参数θ,使得L的值最小。其更新过程为如公式(7)所示:
θi+1=θi+α▽θL(θi) (7)
其中α是学习率;i代表迭代次数,L为定义的损失函数,其中L(θi)代表受到网络参数θ影响的所示函数,▽θ代表对θ偏导,θi表示第i次迭代下的网络参数θ。
经设经验回放库为D,该库满足先进先出原则,D的最大记忆容量为m,在算法的第k轮,D={ek,ek-1,...,ek-m+1},其中存储单元ek=(Sk,akk,Sk+1);其中Sk代表在第k轮感知的频谱瀑布图,ak代表在第k轮做出抗干扰频率决策,ηk为在第k轮的目标值,Sk+1为第k+1轮感知到的下频谱瀑布图,在训练时,放入多个训练的存储单元ek,加速算法收敛。
所述基于长短期记忆的抗干扰学习的网络结构的抗干扰学习算法,其算法流程具体包括:
(1)初始化网络参数;
(2)感知频谱瀑布图S,根据公式(4)选出动作,并根据反馈信号和公式(3)计算得出动作反馈的目标值,并根据公式(6)计算损失函数,并由梯度下降法更新网络参数;
(3)达到运行次数,终止算法。
本发明与现有技术相比,其显著优点在于:在抗干扰环境中,在反馈信号被干扰时也能取得较好的效果。
所述基于长短期记忆的抗干扰学习方法,包括:将感知设备将采集的频谱环境构建为频谱瀑布图,并把得到的频谱瀑布图、作为发射机的发信机发射信号的频点和接收机发送反馈信号作为基于长短期记忆的卷积神经网络的输入,把抗干扰频率选择作为输出,传送给发信机,发信机根据选择的抗干扰频率发送信号。算法通过梯度下降法,依据反馈信号更新卷积神经网络的参数,从而增加成功选择出抗干扰频点的概率。循环迭代,直至达到在取得较好的效果或达到设定的迭代次数。本发明通过选择出躲避干扰信号的频率,提高了用户的在干扰环境下的吞吐量。
所述基于长短期记忆的抗干扰学习方法,具体包括如下步骤:
步骤1,感知设备将采集的频谱环境构建为频谱瀑布图;
步骤2,初始化基于长短期记忆的卷积神经网络;初始化能够是把卷积神经网络清零。
步骤3,将构建的频谱瀑布图,发信机发射信号的频点和接收机发送的反馈信号作为基于长短期记忆的卷积神经网络的输入,通过梯度下降法更新基于长短期记忆的卷积神经网络参数,基于长短期记忆的卷积神经网络输出抗干扰频点,作为发射机下次通信的频点决策;
步骤4,循环步骤3,直到可以躲避干扰信号或者达到设定的迭代次数。
本发明的具体实施细节如下:
所述步骤1中的抗干扰频率决策过程建模为马尔科夫过程。在此问题中的马尔科夫过程由四元组
Figure BDA0002565335920000101
所描述,其中
Figure BDA0002565335920000102
为状态矩阵即为感知得到的频谱瀑布图集,
Figure BDA0002565335920000103
为动作集,即抗干扰频率选择集,
Figure BDA0002565335920000104
为转移概率矩阵,即转态跳转概率集。
Figure BDA0002565335920000105
为奖励值集,即为所取得的反馈集。
所述步骤3中的选择的频谱瀑布图定义为:St(f)为t时刻观测到的频谱状况,其如公式(1)所示:
Figure BDA0002565335920000106
其中,,U(f)为发信机发射信号的功率谱密度,Jt(f)为所有干扰在t时刻的发功率的功率谱密度,
Figure BDA0002565335920000107
为第j个干扰在t时刻的发射功率的功率谱密度,ft j表示第j个干扰在t时刻的频率,ft表示所有干扰在t时刻的平均频率,f表示所有干扰在整个干扰时段的平均频率,gs表示从发信机到接收机的信道增益,gj表示第j个干扰机到接收机的信道增益,n(f)为噪声的功率谱密度,频谱的离散采样值st,i为公式(2)所示:
Figure BDA0002565335920000108
其中,Δf为频谱的分辨率;i为采样点的序号,时间t时刻频谱的向量表示为st={st,1,st,2...st,i...st,N},N为采样点数;定义T为历史状态的回溯值,代表从时间t-T到时间t的向量st的集合,也就是频谱瀑布图,那么t时刻,频谱瀑布图St可状态为St={st,st-1,...,st-T+1},St为T×N的矩阵,
Figure BDA0002565335920000109
下面用实施例1对本发明做进一步说明:
本发明的一个具体实施例1如下描述:系统仿真采用TensorFlow神经网络框架,参数设定不影响一般性;在仿真中,频谱范围10MHz,用户带宽为2MHz,用户可选频段数量为5。用户的发送功率为0dbm,干扰的功率为30dbm,干扰带宽为2MHz。智能体每1ms执行全频带检测,Δf=50kHz。学习率α=0.2,干扰和传输信号是升余弦滚降波形,其滚降系数β=0.4。频谱瀑布图S包含200ms内的频谱信息,S的大小是200×200像素的图像,多种干扰模式被考虑在内,其分别是:
梳状干扰:干扰频点在频谱范围内的1MHz,5MHz,9Mhz的干扰。
扫频干扰:扫频干扰是以带宽为2MHz以速度1GHz扫过10Mhz的干扰信号。
动态梳状干扰:动态梳状干扰是以频点1MHz,5MHz,9MHz,与3MHz,7MHz,以50ms周期交替变换的干扰模式。
动态干扰:混合干扰是梳状干扰(1MHz,5MHz,9MHz)与扫频干扰以周期50ms交替变换的干扰。干扰模式如图4所示。
本发明面向需求的部分重叠信道聚合博弈模型的算法,具体过程如下:
(1)初始化网络参数;
(2)感知频谱瀑布图S,根据公式(4)选出动作,并根据反馈信号和公式(3)计算得出动作反馈的目标值,并根据公式(6)计算损失函数,并由梯度下降法更新网络参数。
(3)达到运行次数,或者其他条件,终止算法。流程如图3所示。
图4是本发明中基于长短期记忆的抗干扰学习算法在以0.8概率收到反馈信号时在不同干扰模式下的频谱瀑布图。图5为是本发明实施例中方法在不同概率接收到反馈信号的不同干扰模式下平均吞吐量对比图,对比算法为参考文献中深度强化学习抗干扰算法,即为参考文献:Liu X,Xu Y,Jia L,et al.Anti-jamming communications usingspectrum waterfall:A deep reinforcement learning approach[J].IEEECommunications Letters,2018,22(5):998-1001.所提到的抗干扰算法,可以看出所提算法在不同干扰场景下能够取得更好的吞吐量性能。
综上,本发明提出基于长短期记忆的抗干扰学习算法,充分地考虑到了信道聚合对部分重叠信道的干扰建模影响,测试了所提干扰模式在不同概率p下接收到反馈信号下的归一化吞吐量。比较结果如图5所示,其中横坐标轴表示成功接收到反馈信号的概率p,纵轴表示归一化的吞吐量。从中可以看出,所提出的基于长短期记忆的抗干扰学习算法优于一般抗干扰算法,归一化吞吐量增加约5%至30%。
以上以用实施例说明的方式对本发明作了描述,本领域的技术人员应当理解,本公开不限于以上描述的实施例,在不偏离本发明的范围的情况下,可以做出各种变化、改变和替换。

Claims (6)

1.一种基于长短期记忆的抗干扰学习的网络结构,其特征在于,该网络结构包括:
(1)卷积层;
(2)池化层;
(3)长短期记忆层;
(4)全连接层;
所述池化层、卷积层、长短期记忆层以及全连接层依次顺序通信连接;
所述基于长短期记忆的抗干扰学习的决策,其中网络结构的损失函数,包括以下几个部分:
先定义每个动作对应回馈的目标值η如公式(3)所示:
Figure FDA0003602787780000011
其中,λ是折扣因子,Q(S',a';θi-1)为神经网络拟合的网络函数,S'为S的下一时刻的值;
Figure FDA0003602787780000012
为频率决策,其中a'定义为a的下一个时刻的干扰决策,在t时刻,网络动作的生成如公式(4)所示:
Figure FDA0003602787780000013
θi-1为在i-1次迭代中的网络参数;r为奖励值定义式为:
Figure FDA0003602787780000014
其中c一般取大于零的值,c>0,d一般取小于零或者等于0的值,d≤0;把损失函数L定义为如公式(6)所示:
L=[Q(S,a;θi)-ηi]2 (6)
使用梯度下降算法优化网络参数θ,使得L的值最小;其更新过程为如公式(7)所示:
θi+1=θi+α▽θL(θi) (7)
其中α是学习率;i为正整数且代表迭代次数,L为定义的损失函数,其中L(θi)代表受到网络参数θ影响的所示函数,▽θ代表对θ偏导,θi表示第i次迭代下的网络参数θ。
2.根据权利要求1所述的基于长短期记忆的抗干扰学习的网络结构,其特征在于,经设经验回放库为D,该库满足先进先出原则,D的最大记忆容量为m,在算法的第k轮,D={ek,ek-1,...,ek-m+1},其中存储单元ek=(Sk,akk,Sk+1);其中Sk代表在第k轮感知的频谱瀑布图,ak代表在第k轮做出抗干扰频率决策,ηk为在第k轮的目标值,Sk+1为第k+1轮感知到的下频谱瀑布图,在训练时,放入多个训练的存储单元ek,加速算法收敛。
3.根据权利要求1所述的基于长短期记忆的抗干扰学习的网络结构,其特征在于,所述基于长短期记忆的抗干扰学习的网络结构的抗干扰学习算法,其算法流程具体包括:
(1)初始化网络参数;
(2)感知频谱瀑布图S,根据公式(4)选出动作,并根据反馈信号和公式(3)计算得出动作反馈的目标值,并根据公式(6)计算损失函数,并由梯度下降法更新网络参数;
(3)达到运行次数,终止算法。
4.根据权利要求1-3任一项所述的基于长短期记忆的抗干扰学习的网络结构的抗干扰学习方法,其特征在于,包括:将感知设备将采集的频谱环境构建为频谱瀑布图,并把得到的频谱瀑布图、作为发射机的发信机发射信号的频点和接收机发送反馈信号作为基于长短期记忆的卷积神经网络的输入,把抗干扰频率选择作为输出,传送给发信机,发信机根据选择的抗干扰频率发送信号;
选择的频谱瀑布图定义为:St(f)为t时刻观测到的频谱状况,其如公式(1)所示:
Figure FDA0003602787780000031
其中,U(f)为发信机发射信号的功率谱密度,Jt(f)为所有干扰在t时刻的发功率的功率谱密度,
Figure FDA0003602787780000032
为第j个干扰在t时刻的发射功率的功率谱密度,ft j表示第j个干扰在t时刻的频率,ft表示所有干扰在t时刻的平均频率,f表示所有干扰在整个干扰时段的平均频率,gs表示从发信机到接收机的信道增益,gj表示第j个干扰机到接收机的信道增益,n(f)为噪声的功率谱密度,频谱的离散采样值st,i为公式(2)所示:
Figure FDA0003602787780000033
其中,Δf为频谱的分辨率;i为采样点的序号,时间t时刻频谱的向量表示为st={st,1,st,2...st,i...st,N},N为采样点数;定义T为历史状态的回溯值,代表从时间t-T到时间t的向量st的集合,也就是频谱瀑布图,那么t时刻,频谱瀑布图St可状态为St={st,st-1,...,st-T+1},St为T×N的矩阵,
Figure FDA0003602787780000034
5.根据权利要求4所述的基于长短期记忆的抗干扰学习方法,其特征在于,所述基于长短期记忆的抗干扰学习方法,具体包括如下步骤:
步骤1,感知设备将采集的频谱环境构建为频谱瀑布图;
步骤2,初始化基于长短期记忆的卷积神经网络;
步骤3,将构建的频谱瀑布图,发信机发射信号的频点和接收机发送的反馈信号作为基于长短期记忆的卷积神经网络的输入,通过梯度下降法更新基于长短期记忆的卷积神经网络参数,基于长短期记忆的卷积神经网络输出抗干扰频点,作为发射机下次通信的频点决策;
步骤4,循环步骤3,直到可以躲避干扰信号或者达到设定的迭代次数。
6.根据权利要求5所述的基于长短期记忆的抗干扰学习方法,其特征在于,所述步骤3中的抗干扰频率决策过程建模为马尔科夫过程;在此问题中的马尔科夫过程由四元组
Figure FDA0003602787780000041
所描述,其中
Figure FDA0003602787780000042
为状态矩阵即为感知得到的频谱瀑布图集,
Figure FDA0003602787780000043
为动作集,即抗干扰频率选择集,
Figure FDA0003602787780000044
为转移概率矩阵,即转态跳转概率集;
Figure FDA0003602787780000045
为奖励值集,即为所取得的反馈集。
CN202010621554.9A 2020-07-01 2020-07-01 基于长短期记忆的抗干扰学习的网络结构及学习方法 Active CN111786738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010621554.9A CN111786738B (zh) 2020-07-01 2020-07-01 基于长短期记忆的抗干扰学习的网络结构及学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010621554.9A CN111786738B (zh) 2020-07-01 2020-07-01 基于长短期记忆的抗干扰学习的网络结构及学习方法

Publications (2)

Publication Number Publication Date
CN111786738A CN111786738A (zh) 2020-10-16
CN111786738B true CN111786738B (zh) 2022-06-03

Family

ID=72760055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010621554.9A Active CN111786738B (zh) 2020-07-01 2020-07-01 基于长短期记忆的抗干扰学习的网络结构及学习方法

Country Status (1)

Country Link
CN (1) CN111786738B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114884593A (zh) * 2022-03-04 2022-08-09 中国科学院微电子研究所 一种星型拓扑网络抗干扰媒体接入方法、装置和电子设备
CN114567398B (zh) * 2022-04-11 2024-04-23 浙江工业大学 一种基于卷积长短时记忆神经网络的频谱感知方法
CN115276858B (zh) * 2022-07-11 2024-01-23 中国人民解放军国防科技大学 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480726A (zh) * 2017-08-25 2017-12-15 电子科技大学 一种基于全卷积和长短期记忆单元的场景语义分割方法
CN108960303A (zh) * 2018-06-20 2018-12-07 哈尔滨工业大学 一种基于lstm的无人机飞行数据异常检测方法
CN109194423A (zh) * 2018-08-13 2019-01-11 中国人民解放军陆军工程大学 基于优化的长短期记忆模型的单频点频谱预测方法
US10217346B1 (en) * 2017-11-07 2019-02-26 Amazon Technologies, Inc. Presence detection with neural networks
CN110738090A (zh) * 2018-07-19 2020-01-31 塔塔咨询服务公司 使用神经网络进行端到端手写文本识别的系统和方法
CN110996343A (zh) * 2019-12-18 2020-04-10 中国人民解放军陆军工程大学 基于深度卷积神经网络的干扰识别模型及智能识别算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110769436A (zh) * 2018-07-26 2020-02-07 深圳市白麓嵩天科技有限责任公司 一种基于突变搜索人工蜂群算法的无线通信抗干扰决策方法
US20200153535A1 (en) * 2018-11-09 2020-05-14 Bluecom Systems and Consulting LLC Reinforcement learning based cognitive anti-jamming communications system and method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480726A (zh) * 2017-08-25 2017-12-15 电子科技大学 一种基于全卷积和长短期记忆单元的场景语义分割方法
US10217346B1 (en) * 2017-11-07 2019-02-26 Amazon Technologies, Inc. Presence detection with neural networks
CN108960303A (zh) * 2018-06-20 2018-12-07 哈尔滨工业大学 一种基于lstm的无人机飞行数据异常检测方法
CN110738090A (zh) * 2018-07-19 2020-01-31 塔塔咨询服务公司 使用神经网络进行端到端手写文本识别的系统和方法
CN109194423A (zh) * 2018-08-13 2019-01-11 中国人民解放军陆军工程大学 基于优化的长短期记忆模型的单频点频谱预测方法
CN110996343A (zh) * 2019-12-18 2020-04-10 中国人民解放军陆军工程大学 基于深度卷积神经网络的干扰识别模型及智能识别算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Reinforcement Learning Based Multi User Anti-Jamming Strategy;Yue Bi等;《ICC 2019 - 2019 IEEE International Conference on Communications (ICC)》;20190715;全文 *
基于LSTM循环神经网络的大地电磁工频干扰压制;许滔滔 等;《地球物理学进展》;20191231;全文 *

Also Published As

Publication number Publication date
CN111786738A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN108777872B (zh) 一种基于深度q神经网络抗干扰模型的智能抗干扰方法及智能抗干扰系统
CN111786738B (zh) 基于长短期记忆的抗干扰学习的网络结构及学习方法
CN111970072B (zh) 基于深度强化学习的宽带抗干扰系统及抗干扰方法
CN110996343B (zh) 基于深度卷积神经网络的干扰识别模型的智能识别系统及识别方法
CN110380802A (zh) 基于软件无线电平台的单用户动态频谱抗干扰系统及方法
Ak et al. Avoiding jammers: A reinforcement learning approach
Li et al. Dynamic spectrum anti-jamming in broadband communications: A hierarchical deep reinforcement learning approach
CN115103446A (zh) 一种基于深度强化学习的多用户通信抗干扰智能决策方法
CN104780008A (zh) 一种基于自适应压缩感知的宽带频谱感知方法
CN114509732B (zh) 一种频率捷变雷达的深度强化学习抗干扰方法
CN115454141A (zh) 一种基于部分可观测信息的无人机集群多智能体多域抗干扰方法
CN111510255A (zh) 基于宽带频谱数据的跳频信号盲检测及参数估计方法
CN113341383A (zh) 基于dqn算法的雷达抗干扰智能决策方法
CN115343680A (zh) 基于深度强化学习的联合跳频和脉宽分配的雷达抗干扰决策方法
CN110011742A (zh) 基于最大互相关熵准则鲁棒稀疏的宽带频谱感知算法
Croce et al. Learning from errors: Detecting cross-technology interference in wifi networks
CN114513278A (zh) 基于电磁频谱特征认知的智能干扰方法、装置及系统
CN112881985A (zh) 一种对相位编码脉冲压缩雷达的自适应干扰方法
CN114885425A (zh) 基于usrp平台的强化学习跳频通信抗干实现方法
CN116866048A (zh) 抗干扰零和马尔可夫博弈模型及最大最小深度q学习方法
CN109548032B (zh) 一种面向密集网络全频段检测的分布式协作频谱认知方法
CN107040269A (zh) 基于方差中值滤波的极/超低频信道大气噪声抑制方法
CN115276858B (zh) 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统
CN114298166A (zh) 一种基于无线通信网络的频谱可用性预测方法和系统
Thornton et al. Waveform selection for radar tracking in target channels with memory via universal learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant