CN111970072A - 基于深度强化学习的宽带抗干扰系统及抗干扰方法 - Google Patents

基于深度强化学习的宽带抗干扰系统及抗干扰方法 Download PDF

Info

Publication number
CN111970072A
CN111970072A CN202010621567.6A CN202010621567A CN111970072A CN 111970072 A CN111970072 A CN 111970072A CN 202010621567 A CN202010621567 A CN 202010621567A CN 111970072 A CN111970072 A CN 111970072A
Authority
CN
China
Prior art keywords
frequency
user
interference
network
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010621567.6A
Other languages
English (en)
Other versions
CN111970072B (zh
Inventor
徐煜华
李洋洋
徐以涛
刘鑫
汪西明
李文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN202010621567.6A priority Critical patent/CN111970072B/zh
Publication of CN111970072A publication Critical patent/CN111970072A/zh
Application granted granted Critical
Publication of CN111970072B publication Critical patent/CN111970072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/345Interference values
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/318Received signal strength
    • H04B17/327Received signal code power [RSCP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/336Signal-to-interference ratio [SIR] or carrier-to-interference ratio [CIR]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于深度强化学习的宽带抗干扰系统及抗干扰方法,其考虑一组发射机和接收机对为一个通信用户,当用户进行通信时,多个干扰机对用户进行恶意干扰,用户利用频谱感知信息智能地从宽频段选择通信频率,上述用户决策过程建模为一个马尔可夫决策过程,优化用户频率决策来最大化用户吞吐量。算法为:设计了分层深度强化学习算法,然后根据频段决策控制二维窗,选取对应频段的频谱瀑布图,设计频率选择网络学习得到最优的频率决策。本发明模型完备,设计算法合理有效,相比于传统深度强化学习抗干扰算法,在保证优越的抗干扰效果同时,有效地减少了迭代时间和计算复杂度。

Description

基于深度强化学习的宽带抗干扰系统及抗干扰方法
技术领域
本发明涉及无线通信技术领域,具体涉及一种基于深度强化学习 的宽带抗干扰系统及抗干扰方法,尤其涉及一种宽带抗干扰模型及基 于分层深度强化学习抗干扰算法。
背景技术
在通信领域中,信号是表示消息的物理量,如电信号可以通过幅 度、频率、相位的变化来表示不同的消息。干扰是指对有用信号的接 收造成损伤。随着无线通信技术的迅速发展,干扰尤其是智能干扰正 给我国的信息及其相关领域的安全带来巨大威胁。在军事通信领域, 随着人工智能和通信对抗技术的深度融合,具备感知、学习和决策能 力的智能干扰设备,将成为我军在通信对抗中所面临的强劲对手。在 民用通信领域,无线通信的安全性和可靠性也面临这前所未有的严峻 挑战。近年来干扰设备的智能性不断提升,传统抗干扰技术将难以达 到理想对抗效果,为保证无线通信的安全性和可靠性,开展新型抗干 扰技术研究意义重大。针对新型的干扰环境特性,人工智能技术将是 一种有效的方案。用户采用各种智能学习的方法,对干扰规律等进行 有效的分析和学习,并以此为基础智能地选取对抗决策,将有效地提 升其抗干扰能力。
而深度强化学习在抗干扰领域已有初步研究成果,实现了深度强 化学习和抗干扰问题的简单融合,但是目前大部分基于深度强化学习 的抗干扰研究考虑的决策量较少,只适合于窄带信道选择,无法应用 于宽带信道选择中。
发明内容
为解决上述问题,本发明提供了一种基于深度强化学习的宽带抗 干扰系统及抗干扰方法,能很好地刻画基于深度强化学习算法的宽带 抗干扰场景,有效避免了现有技术中大部分基于深度强化学习的抗干 扰研究考虑的决策量较少、只适合于窄带信道选择、无法应用于宽带 信道选择中的缺陷。
为了克服现有技术中的不足,本发明提供了一种基于深度强化学 习的宽带抗干扰系统及抗干扰方法的解决方案,具体如下:
一种基于深度强化学习的宽带抗干扰系统,包括宽带抗干扰模型,
所述宽带抗干扰模型包括作为发射端的一发射机和与之通信的 作为接收端的一接收机构成的一组发射端和接收端对,该组发射端和 接收端对为一个用户,当用户的发射端和接收端进行宽带通信时,多 个干扰机对用户进行恶意干扰,包括有分层深度强化学习网络模型的 智能体通过用户利用频谱感知信息智能地从宽频段中决策选择通信 频率。
所述决策过程建模为一个马尔可夫决策过程,以此优化用户频率 来决策出最大化的用户宽带通信的吞吐量。
所述用户的接收机的信干噪比SINR表示为如公式(1)所示的 β(ft):
Figure BDA0002565336670000021
其中,ft表示用户所选的通信频率,t表示当前时刻;pu表示用 户的发射机的发射功率,gu表示用户的发射机到用户的接收机的功率 信道增益,bu表示用户的发射机通信带宽,n(f)表示噪声的功率谱密 度函数,J表示进行干扰的干扰机的数量,
Figure RE-GDA0002714568850000031
表示第i个干扰机在当 前时刻到用户的接收机的功率信道增益,Ji表示第i个干扰机的功率 谱密度函数,ft i表示第i个干扰机在当前时刻选择的信道,i为正整数。
用βth表示用户的接收机成功接收所需要的信干噪比门限,定义 归一化门限μ(ft)如公式(2)所示:
Figure BDA0002565336670000031
用户的接收机处的功率谱密度函数St(f)如公式(3)所示:
Figure BDA0002565336670000032
其中U(f)表示用户的发射机的功率谱密度;
所述宽带抗干扰模型中的离散频谱采样值si,t定义为如公式(4) 所示:
Figure BDA0002565336670000033
其中,Δf表示频谱分辨率;i为正整数且表示采样数,S(f+fL)为 公式(3)所述功率谱密度函数、f表示采样频率、fL为所选频率的下界; 用户的发射机侧的智能体感知当前时刻的频谱向量st={s1,t,s2,t,...,sN,t} 并选择下一时刻的通信频率ft,其中
Figure BDA0002565336670000034
F表示用户可选频段范 围。
所述建模为一个马尔可夫决策过程的环境状态St定义为 St={st,st-1,...,st-T+1},其中,T表示回溯的历史状态数目,St表示一个 T×N的二维矩阵,由矩阵St构建出时刻t的频谱瀑布图;状态转移概 率P表示为P:(S,f)→S′,其中S′表示在状态S下选择频率f后的下一 状态;用户的回报值函数F定义为
Figure BDA0002565336670000041
用户决策的目标为 最大化长期累积回报值,该最大化长期累积回报值表示为如公式(5) 所示:
Figure BDA0002565336670000042
一种基于深度强化学习的宽带抗干扰系统的抗干扰方法,包括以 下步骤:
步骤1,设计带宽选择网络和频率选择网络,并初始化带宽选择 网络的网络参数θb和频率选择网络的网络参数θf,带宽选择网络的样 本重放单元Db和频率选择网络的样本重放单元Df以及折扣因子γ;
步骤2,首先基于全频段感知的频谱瀑布图信息,对其进行池化 处理,得到频段的信号强度分布,根据ε-贪婪策略选择频段策略ab
步骤3,根据频段选择策略选取对应的部分频谱瀑布,利用ε- 贪婪策略选择频率策略af
步骤4,用户分别计算频段选择策略和频率选择策略带来的回报, 并观察执行策略后的下一状态变化;
步骤5,针对频段选择网络,根据频段策略的回报值和下一时刻 环境状态行样本训练,并将训练经验eb储存到Db中,判断Db中样本是 否大于设定的门限m,如果是,随机选择m个样本计算损失函数Lb, 接着计算梯度并更新权值θb,否则进入步骤6;
步骤6,针对频率选择网络,根据频率策略的回报值和下一时刻 环境状态行样本训练,并将训练经验ef储存到Df中,判断Df中样本 是否大于设定的门限m,如果是,随机选择m个样本计算损失函数Lf, 接着计算梯度并更新权值θf,否则进入步骤7,其中,m是正整数;
步骤7,循环执行步骤2~步骤6,直至达到最大迭代次数,就让 基于深度强化学习的宽带抗干扰系统的抗干扰方法结束。
所述步骤1中的设计带宽选择网络和频率选择网络,具体如表1 所示:
表1
Figure BDA0002565336670000051
Figure BDA0002565336670000061
所述步骤2中的基于全频段感知的频谱瀑布图信息,对其进行池 化处理,得到频段的信号强度分布,根据ε-贪婪策略选择频段策略ab, 其具体包括如下方式:
感知获得的当前频谱瀑布图St送入所设计的频段选择网络,首先 经过一个池化处理,将当前频谱瀑布图St中的宽带频谱信息进行降采 样,获得压缩后的频谱瀑布图C;然后使用深度卷积神经网络CNN 对Q函数进行拟合Qb(C,ab),以设定的概率ε选择使得当前Q值最大 的动作
Figure BDA0002565336670000062
否则随机选择一个动作ab
所述步骤3中的根据频段选择策略选取对应的部分频谱瀑布,利 用ε-贪婪策略选择频率策略af,其包括如下方式:
提取出步骤2中选择的频段策略ab的范围Sd,将该范围Sd对应 的频谱瀑布图送入到频率选择网络中对Q函数进行拟合Qf(C,af),然 后以概率ε选择使得当前Q值最大的动作
Figure BDA0002565336670000063
否则随 机选择一个动作af;最后用户发射频点所在位置f为公式(6)所示:
f=B(ab-1)+af (6)
其中B表示子频段范围。
所述步骤4中用户分别计算频段选择策略和频率选择策略带来 的回报,并观察执行策略后的下一状态变化,具体如下:
用户在选择频段策略ab和频率策略af后,执行上述动作后获得对 应的回报值;频段选择和频率选择的回报值函数F(ft)是相同的,该 回报值函数F(ft)表示为如公式(7)所示:
Figure BDA0002565336670000071
其中,α为折扣因子,ft和ft-1分别表示当前时刻和上一时刻频率 选择,u(ft)的定义在公式(2)中,当用户改变选择的频率时,额外 的频率切换开销使得用户回报值变小,在获得回报值之后,感知当前 环境的频谱状态,基于深度强化学习的宽带抗干扰系统的状态就进入 下一状态St+1
进一步地,所述步骤5中的针对频段选择网络,根据频段策略的 回报值和下一时刻环境状态行样本训练,并将训练经验eb储存到Db中, 判断Db中样本是否大于门限m,如果是,随机选择m个样本计算损失 函数Lb,接着计算梯度并更新权值θb,否则进入步骤6,其包括如下 方式:
采用经验回放机制,用eb=(C,ab,F(f),C′)表示用户的决策样本, 将其存放在经验重放单元Db中;当样本经验池足够大时,从中随机选 取若干样本计算损失函数
Figure BDA0002565336670000072
其定义为公式(8)所示:
Figure BDA0002565336670000073
其中,
Figure BDA0002565336670000074
表示第i次迭代的网络参数,网络目标值
Figure BDA0002565336670000075
Figure BDA0002565336670000076
i为正整数,然后依据梯度下降法,对损失 函数求微分,求得损失函数的梯度,从而更新频段选择网络的参数θb
进一步地,所述步骤6中的针对频率选择网络,根据频率策略的 回报值和下一时刻环境状态行样本训练,并将训练经验ef储存到Df中, 判断Df中样本是否大于门限m,如果是,随机选择m个样本计算损失 函数Lf,接着计算梯度并更新权值θf,否则进入步骤7,其包括如下 方式:
采用经验回放机制,用ef=(Sd,af,F(f),Sd′)表示用户的决策样本, 将其存放在经验重放单元Df中;当样本经验池足够大时,从中随机 选取若干样本计算损失函数Lf,定义为:
Figure BDA0002565336670000081
其中,
Figure BDA0002565336670000082
表示第i次迭代的网络参数,网络目标值
Figure BDA0002565336670000083
Figure BDA0002565336670000084
然后依据梯度下降法,对损失函数求微分, 求得损失函数的梯度,从而更新频段选择网络的参数θb
本发明的有益效果为:
(1)利用分层神经网络结构和池化处理,在不影响性能的情况 下,降低了计算复杂度,加速了算法收敛时间;
(2)模型完备,物理意义清晰,提出的基于分层深度强化学习 的宽带抗干扰算法,实现对提出模型的有效求解,求出用户的抗干扰 宽带信道接入策略;
(3)所提算法具有强化学习能力,能够有效地应对各种干扰, 为解决宽带抗干信道选择问题提供了很好的思路。
附图说明
图1是本发明宽带抗干扰模型的模型图。
图2是本发明所提分层深度强化学习网络结构的示意图。
图3是本发明实施例1中对抗多种干扰模式的频谱瀑布图。
图4是本发明实施例1中对抗宽带多种干扰模式的吞吐量变化图。
具体实施方式
本发明所提出的基于分层深度强化学习的宽带抗干扰算法,旨在 提供方案以解决高频率决策维度的抗干扰问题。本发明基于分层深度 强化学习算法,构建带宽选择网络和频率选择网络,将接收端的频谱 瀑布池化处理后作为带宽选择网络的输入状态,然后将选出子频段的 瀑布图作为频率选择网络的输入状态,分别设计神经网络结构对状态 的Q值函数进行拟合,并将其作为决策依据;接着,通过决策带来 的回报值,计算输出的误差函数,反向传递更新网络参数,从而影响 用户的频率选择策略。
下面将结合附图和实施例对本发明做进一步地说明。
基于深度强化学习的宽带抗干扰系统,包括宽带抗干扰模型,如 图1所示,图1是宽带抗干扰模型的示意图。该模型中,作为发射端 的一发射机和与之通信的作为接收端的一接收机构成一组发射端和 接收端对,该组发射端和接收端对为一个用户,一个用户的发射端和 接收端进行通信,作为智能模块的智能体可以帮助用户进行选频,而 基于深度强化学习的宽带抗干扰系统中存在一个或多个干扰机对用 户通信实施干扰。所述智能体与用户的发射端和接收端保持通信连接。
而所述智能体包括分层深度强化学习网络模型,如图2所示,图 2是分层深度强化学习网络模型的示意图。该网络模型包括两个网络, 该两个网络分别为频带选择神经网络和频率选择神经网络,首先通过 频谱感知获得当前频谱瀑布图,然后当前频谱瀑布图经过一次池化处 理,得到压缩后的频谱瀑布图,将其作为频带选择网络的输入,然后 根据相应的决策算法获得当前状态下的频带选择策略;根据频带选择 策略和当前频谱瀑布图,选择出子频带瀑布图作为频率选择网络的输 入,然后通过相应的决策算法即可得到当前状态下的最优频率策略。 作为两个深度神经网络的频带选择神经网络和频率选择神经网络的参数的更新,是通过实时记录输入状态、所选决策、立即回报和下一 步环境状态进行训练予以实现。
对该所述宽带抗干扰模型做如下刻画:其包括作为发射端的一发 射机和与之通信的作为接收端的一接收机构成的一组发射端和接收 端对,该组发射端和接收端对为一个用户,当用户的发射端和接收端 进行宽带通信时,多个干扰机对用户进行恶意干扰,包括有分层深度 强化学习网络模型的智能体通过用户利用频谱感知信息智能地从宽 频段中决策选择通信频率。
所述决策过程建模为一个马尔可夫决策过程,以此优化用户频率 来决策出最大化的用户宽带通信的吞吐量。所述智能体与用户的发射 端和接收端保持通信连接。所述分层深度强化学习网络模型包括两个 网络,该两个网络分别为频带选择神经网络和频率选择神经网络。
本发明基于传统深度强化学习算法,结合智能抗干扰问题,主要 考虑干扰学习决策空间庞大、干扰模式复杂等因素,采用分层选择的 思想,利用两个神经网络对其对应Q值函数进行拟合,并对神经网 络状态更新,通过相应决策算法,得出最优抗干扰频率决策。
进一步地,所述用户的接收机的信干噪比SINR表示为如公式(1) 所示的β(ft):
Figure BDA0002565336670000111
其中,ft表示用户所选的通信频率,t表示当前时刻;pu表示用 户的发射机的发射功率,gu表示用户的发射机到用户的接收机的功率 信道增益,bu表示用户的发射机通信带宽,n(f)表示噪声的功率谱密 度函数,J表示进行干扰的干扰机的数量,
Figure RE-GDA0002714568850000112
表示第i个干扰机在当 前时刻到用户的接收机的功率信道增益,Ji表示第i个干扰机的功率 谱密度函数,ft i表示第i个干扰机在当前时刻选择的信道,i为正整数。
此外,用βth表示用户的接收机成功接收所需要的信干噪比门限, 定义归一化门限μ(ft)如公式(2)所示:
Figure BDA0002565336670000112
用户的接收机处的功率谱密度函数St(f)如公式(3)所示:
Figure BDA0002565336670000113
其中U(f)表示用户的发射机的功率谱密度;
所述宽带抗干扰模型中的离散频谱采样值si,t定义为如公式(4) 所示:
Figure BDA0002565336670000114
其中,Δf表示频谱分辨率;i为正整数且表示采样数,S(f+fL)为 公式(3)所述功率谱密度函数、f表示采样频率、fL为所选频率的下界; 用户的发射机侧的智能体感知当前时刻的频谱向量st={s1,t,s2,t,...,sN,t} 并选择下一时刻的通信频率ft,其中
Figure BDA0002565336670000121
F表示用户可选频段范 围。
进一步地,所述建模为一个马尔可夫决策过程的环境存在的复杂 干扰模式与历史信息有关,因此所述建模为一个马尔可夫决策过程的 环境状态St定义为St={st,st-1,...,st-T+1},其中,T表示回溯的历史状态数 目,St表示一个T×N的二维矩阵,由矩阵St构建出时刻t的频谱瀑布 图;状态转移概率P表示为P:(S,f)→S′,其中S′表示在状态S下选择 频率f后的下一状态;用户的回报值函数F定义为
Figure BDA0002565336670000122
用户 决策的目标为最大化长期累积回报值,该最大化长期累积回报值表示 为如公式(5)所示:
Figure BDA0002565336670000123
一种基于深度强化学习的宽带抗干扰系统的抗干扰方法,包括以 下步骤:
步骤1,设计带宽选择网络和频率选择网络,并初始化带宽选择 网络的网络参数θb和频率选择网络的网络参数θf,带宽选择网络的样 本重放单元Db和频率选择网络的样本重放单元Df以及折扣因子γ;可 以把带宽选择网络的网络参数θb和频率选择网络的网络参数θf,带宽 选择网络的样本重放单元Db和频率选择网络的样本重放单元Df以及 折扣因子γ初始化为空值。
步骤2,首先基于全频段感知的频谱瀑布图信息,对其进行池化 处理,得到频段的信号强度分布,根据ε-贪婪策略选择频段策略ab
步骤3,根据频段选择策略选取对应的部分频谱瀑布,利用ε- 贪婪策略选择频率策略af
步骤4,用户分别计算频段选择策略和频率选择策略带来的回报, 并观察执行策略后的下一状态变化;
步骤5,针对频段选择网络,根据频段策略的回报值和下一时刻 环境状态行样本训练,并将训练经验eb储存到Db中,判断Db中样本是 否大于设定的门限m,如果是,随机选择m个样本计算损失函数Lb, 接着计算梯度并更新权值θb,否则进入步骤6;
步骤6,针对频率选择网络,根据频率策略的回报值和下一时刻 环境状态行样本训练,并将训练经验ef储存到Df中,判断Df中样本 是否大于设定的门限m,如果是,随机选择m个样本计算损失函数Lf, 接着计算梯度并更新权值θf,否则进入步骤7,其中,m是正整数;
步骤7,循环执行步骤2~步骤6,直至达到最大迭代次数,就让 基于深度强化学习的宽带抗干扰系统的抗干扰方法结束。
进一步地,所述步骤1中的设计带宽选择网络和频率选择网络, 具体如表1所示:
表1
Figure BDA0002565336670000131
Figure BDA0002565336670000141
进一步地,所述步骤2中的基于全频段感知的频谱瀑布图信息, 对其进行池化处理,得到频段的信号强度分布,根据ε-贪婪策略选择 频段策略ab,其具体包括如下方式:
感知获得的当前频谱瀑布图St送入所设计的频段选择网络,首先 经过一个池化处理,将当前频谱瀑布图St中的宽带频谱信息进行降采 样,获得压缩后的频谱瀑布图C;然后使用深度卷积神经网络CNN 对Q函数进行拟合Qb(C,ab),以设定的概率ε选择使得当前Q值最大 的动作
Figure BDA0002565336670000142
否则随机选择一个动作ab
所述步骤3中的根据频段选择策略选取对应的部分频谱瀑布,利 用ε-贪婪策略选择频率策略af,其包括如下方式:
提取出步骤2中选择的频段策略ab的范围Sd,将该范围Sd对应 的频谱瀑布图送入到频率选择网络中对Q函数进行拟合Qf(C,af),然 后以概率ε选择使得当前Q值最大的动作
Figure BDA0002565336670000151
其中a 表示用户决策,否则随机选择一个动作af;最后用户发射频点所在位 置f为公式(6)所示:
f=B(ab-1)+af (15)
其中B表示子频段范围。
进一步地,所述步骤4中用户分别计算频段选择策略和频率选择 策略带来的回报,并观察执行策略后的下一状态变化,具体如下:
用户在选择频段策略ab和频率策略af后,执行上述动作后获得对 应的回报值;频段选择和频率选择的回报值函数F(ft)是相同的,该 回报值函数F(ft)表示为如公式(7)所示:
Figure BDA0002565336670000152
其中,α为折扣因子,ft和ft-1分别表示当前时刻和上一时刻频率 选择,u(ft)的定义在公式(2)中,当用户改变选择的频率时,额外 的频率切换开销使得用户回报值变小,在获得回报值之后,感知当前 环境的频谱状态,基于深度强化学习的宽带抗干扰系统的状态就进入 下一状态St+1
进一步地,所述步骤5中的针对频段选择网络,根据频段策略的 回报值和下一时刻环境状态行样本训练,并将训练经验eb储存到Db中, 判断Db中样本是否大于门限m,如果是,随机选择m个样本计算损失 函数Lb,接着计算梯度并更新权值θb,否则进入步骤6,其包括如下 方式:
采用经验回放机制,用eb=(C,ab,F(f),C′)表示用户的决策样本, 将其存放在经验重放单元Db中;当样本经验池足够大时,从中随机选 取若干样本计算损失函数
Figure BDA0002565336670000161
其定义为公式(8)所示:
Figure BDA0002565336670000162
其中,
Figure BDA0002565336670000163
表示第i次迭代的网络参数,网络目标值
Figure BDA0002565336670000164
Figure BDA0002565336670000165
i为正整数,然后依据梯度下降法,对损失 函数求微分,求得损失函数的梯度,从而更新频段选择网络的参数θb
进一步地,所述步骤6中的针对频率选择网络,根据频率策略的 回报值和下一时刻环境状态行样本训练,并将训练经验ef储存到Df中, 判断Df中样本是否大于门限m,如果是,随机选择m个样本计算损失 函数Lf,接着计算梯度并更新权值θf,否则进入步骤7,其包括如下 方式:
采用经验回放机制,用ef=(Sd,af,F(f),Sd′)表示用户的决策样本, 其中Sd表示是频段选择后提取的频谱瀑布图,af表示用户频点f选择 策略,将其存放在经验重放单元Df中;当样本经验池足够大时,从 中随机选取若干样本计算损失函数Lf,定义为:
Figure BDA0002565336670000166
其中,
Figure BDA0002565336670000167
表示第i次迭代的网络参数,网络目标值
Figure BDA0002565336670000168
Figure BDA0002565336670000169
然后依据梯度下降法,对损失函数求微分, 求得损失函数的梯度,从而更新频段选择网络的参数θb
下面根据实施例来对本发明作进一步说明:
本发明的实施例具体描述如下,系统仿真采用C++语言,基于Caffe 深度学习框架,参数的设定不影响一般性。图3验证在宽带和多种干 扰存在下抗干扰的有效性。参数设置为,可选频谱频率范围为 100-200MHz,用户的传输带宽为1MHz,用户的传输功率为0dBm。接收端解调的信噪比门限为0dB,用户的基带脉冲信号采用升余弦滚 降,系数为0.4,频谱感知的频率分辨率为1kHz,每1ms进行一次频段 感知,并将感知到的频谱数据保持200ms,因此St的大小为1000*200。 如图3所示,考虑多个干扰模式分布在不同的频段范围内。不同的干 扰模式来自不同的干扰机,且每个干扰机的发送功率不同,具体如下:
1)全频段干扰:干扰功率为70dBm,干扰机随机时间干扰全频段;
2)扫频干扰:干扰功率为80dBm,扫频速度为0.5GHz/s;
3)随机干扰:干扰功率为90dBm,干扰随机频点,干扰带宽为 5MHz;
4)梳状干扰:干扰功率为90dBm,干扰机每隔1MHz释放干扰, 每100ms切换一次中心频率;
5)追随干扰:干扰功率为90dBm,干扰的中心频率与用户上次传 输频率一致,干扰带宽为5MHz。如果用户选择频率不在追随干扰频 带范围内,其选择随机频率干扰。
图3是本发明实施例对抗多种干扰模式的频谱瀑布图,从图中可 以看出,全频段干扰在100-120MHz,扫频干扰在120-140MHz,随机 干扰在140-160MHz,梳状干扰在160-180MHz,追随干扰在 180-200MHz。
图4是本发明中实施例所提分层深度强化学习算法和传统深度 强化学习算法对抗宽带多干扰模式的网络吞吐量变化图,从图中可以 看出,随着迭代次数的增加,网络的吞吐量不断提高,有效地避开了 干扰,最终达到吞吐量的稳定值。同时,在保证抗干扰性能前提下, 所提分层深度强化学习算法较已有算法收敛次数少了大约3000次,同 时减少大约97%的计算量。
综上所述,本发明提出的分层深度强化学习抗干扰模型,充分考 虑了抗干扰问题中干扰模式复杂、干扰决策估计困难、学习决策空间 庞大的问题,比传统模型更有实际意义;提出的基于分层深度强化学 习宽带抗干扰算法,能够实现对提出模型的有效求解,求出用户最优 的抗干扰频率策略,有效地应对干扰模式复杂和决策空间庞大问题。 以上以用实施例说明的方式对本发明作了描述,本领域的技术人员应 当理解,本公开不限于以上描述的实施例,在不偏离本发明的范围的 情况下,可以做出各种变化、改变和替换。

Claims (10)

1.一种基于深度强化学习的宽带抗干扰系统,其特征在于,包括宽带抗干扰模型,
所述宽带抗干扰模型包括作为发射端的一发射机和与之通信的作为接收端的一接收机构成的一组发射端和接收端对,该组发射端和接收端对为一个用户,当用户的发射端和接收端进行宽带通信时,多个干扰机对用户进行恶意干扰,包括有分层深度强化学习网络模型的智能体通过用户利用频谱感知信息智能地从宽频段中决策选择通信频率。
2.根据权利要求1所述的基于深度强化学习的宽带抗干扰系统,其特征在于,所述决策过程建模为一个马尔可夫决策过程,以此优化用户频率来决策出最大化的用户宽带通信的吞吐量。
3.根据权利要求1所述的基于深度强化学习的宽带抗干扰系统,其特征在于,所述用户的接收机的信干噪比SINR表示为如公式(1)所示的β(ft):
Figure FDA0002565336660000011
中,ft表示用户所选的通信频率,t表示当前时刻;pu表示用户的发射机的发射功率,gu表示用户的发射机到用户的接收机的功率信道增益,bu表示用户的发射机通信带宽,n(f)表示噪声的功率谱密度函数,J表示进行干扰的干扰机的数量,
Figure FDA0002565336660000012
表示第i个干扰机在当前时刻到用户的接收机的功率信道增益,Ji表示第i个干扰机的功率谱密度函数,ft i表示第i个干扰机在当前时刻选择的信道,i为正整数。
4.根据权利要求1所述的基于深度强化学习的宽带抗干扰系统,其特征在于,用βth表示用户的接收机成功接收所需要的信干噪比门限,定义归一化门限μ(ft)如公式(2)所示:
Figure FDA0002565336660000021
用户的接收机处的功率谱密度函数St(f)如公式(3)所示:
Figure FDA0002565336660000022
其中U(f)表示用户的发射机的功率谱密度;
所述宽带抗干扰模型中的离散频谱采样值si,t定义为如公式(4)所示:
Figure FDA0002565336660000023
其中,Δf表示频谱分辨率;i为正整数且表示采样数,S(f+fL)为公式(3)所述功率谱密度函数、f表示采样频率、fL为所选频率的下界;用户的发射机侧的智能体感知当前时刻的频谱向量st={s1,t,s2,t,...,sN,t}并选择下一时刻的通信频率ft,其中
Figure FDA0002565336660000024
F表示用户可选频段范围。
5.根据权利要求2所述的基于深度强化学习的宽带抗干扰系统,其特征在于,所述建模为一个马尔可夫决策过程的环境状态St定义为St={st,st-1,...,st-T+1},其中,T表示回溯的历史状态数目,St表示一个T×N的二维矩阵,由矩阵St构建出时刻t的频谱瀑布图;状态转移概率P表示为P:(S,f)→S′,其中S′表示在状态S下选择频率f后的下一状态;用户的回报值函数F定义为F:
Figure FDA0002565336660000025
用户决策的目标为最大化长期累积回报值,该最大化长期累积回报值表示为如公式(5)所示:
Figure FDA0002565336660000031
6.一种基于深度强化学习的宽带抗干扰系统的抗干扰方法,其特征在于,包括以下步骤:
步骤1,设计带宽选择网络和频率选择网络,并初始化带宽选择网络的网络参数θb和频率选择网络的网络参数θf,带宽选择网络的样本重放单元Db和频率选择网络的样本重放单元Df以及折扣因子γ;
步骤2,首先基于全频段感知的频谱瀑布图信息,对其进行池化处理,得到频段的信号强度分布,根据ε-贪婪策略选择频段策略ab
步骤3,根据频段选择策略选取对应的部分频谱瀑布,利用ε-贪婪策略选择频率策略af
步骤4,用户分别计算频段选择策略和频率选择策略带来的回报,并观察执行策略后的下一状态变化;
步骤5,针对频段选择网络,根据频段策略的回报值和下一时刻环境状态行样本训练,并将训练经验eb储存到Db中,判断Db中样本是否大于设定的门限m,如果是,随机选择m个样本计算损失函数Lb,接着计算梯度并更新权值θb,否则进入步骤6;
步骤6,针对频率选择网络,根据频率策略的回报值和下一时刻环境状态行样本训练,并将训练经验ef储存到Df中,判断Df中样本是否大于设定的门限m,如果是,随机选择m个样本计算损失函数Lf,接着计算梯度并更新权值θf,否则进入步骤7,其中,m是正整数;
步骤7,循环执行步骤2~步骤6,直至达到最大迭代次数,就让基于深度强化学习的宽带抗干扰系统的抗干扰方法结束。
7.根据权利要求6所述的基于深度强化学习的宽带抗干扰系统的抗干扰方法,其特征在于,所述步骤1中的设计带宽选择网络和频率选择网络,具体如表1所示:
表1
Figure FDA0002565336660000041
8.根据权利要求6所述的基于深度强化学习的宽带抗干扰系统的抗干扰方法,其特征在于,所述步骤2中的基于全频段感知的频谱瀑布图信息,对其进行池化处理,得到频段的信号强度分布,根据ε-贪婪策略选择频段策略ab,其具体包括如下方式:
感知获得的当前频谱瀑布图St送入所设计的频段选择网络,首先经过一个池化处理,将当前频谱瀑布图St中的宽带频谱信息进行降采样,获得压缩后的频谱瀑布图C;然后使用深度卷积神经网络CNN对Q函数进行拟合Qb(C,ab),以设定的概率ε选择使得当前Q值最大的动作
Figure FDA0002565336660000051
否则随机选择一个动作ab
9.根据权利要求6所述的基于深度强化学习的宽带抗干扰系统的抗干扰方法,其特征在于,所述步骤3中的根据频段选择策略选取对应的部分频谱瀑布,利用ε-贪婪策略选择频率策略af,其包括如下方式:
提取出步骤2中选择的频段策略ab的范围Sd,将该范围Sd对应的频谱瀑布图送入到频率选择网络中对Q函数进行拟合Qf(C,af),然后以概率ε选择使得当前Q值最大的动作
Figure FDA0002565336660000052
否则随机选择一个动作af;最后用户发射频点所在位置f为公式(6)所示:
f=B(ab-1)+af (6)
其中B表示子频段范围。
10.根据权利要求6所述的基于深度强化学习的宽带抗干扰系统的抗干扰方法,其特征在于,所述步骤4中用户分别计算频段选择策略和频率选择策略带来的回报,并观察执行策略后的下一状态变化,具体如下:
用户在选择频段策略ab和频率策略af后,执行上述动作后获得对应的回报值;频段选择和频率选择的回报值函数F(ft)是相同的,该回报值函数F(ft)表示为如公式(7)所示:
Figure FDA0002565336660000061
其中,α为折扣因子,ft和ft-1分别表示当前时刻和上一时刻频率选择,u(ft)的定义在公式(2)中,当用户改变选择的频率时,额外的频率切换开销使得用户回报值变小,在获得回报值之后,感知当前环境的频谱状态,基于深度强化学习的宽带抗干扰系统的状态就进入下一状态St+1
所述步骤5中的针对频段选择网络,根据频段策略的回报值和下一时刻环境状态行样本训练,并将训练经验eb储存到Db中,判断Db中样本是否大于门限m,如果是,随机选择m个样本计算损失函数Lb,接着计算梯度并更新权值θb,否则进入步骤6,其包括如下方式:
采用经验回放机制,用eb=(C,ab,F(f),C′)表示用户的决策样本,将其存放在经验重放单元Db中;当样本经验池足够大时,从中随机选取若干样本计算损失函数
Figure FDA0002565336660000062
其定义为公式(8)所示:
Figure FDA0002565336660000063
其中,
Figure FDA0002565336660000064
表示第i次迭代的网络参数,网络目标值
Figure FDA0002565336660000065
Figure FDA0002565336660000066
i为正整数,然后依据梯度下降法,对损失函数求微分,求得损失函数的梯度,从而更新频段选择网络的参数θb
所述步骤6中的针对频率选择网络,根据频率策略的回报值和下一时刻环境状态行样本训练,并将训练经验ef储存到Df中,判断Df中样本是否大于门限m,如果是,随机选择m个样本计算损失函数Lf,接着计算梯度并更新权值θf,否则进入步骤7,其包括如下方式:
采用经验回放机制,用ef=(Sd,af,F(f),Sd′)表示用户的决策样本,将其存放在经验重放单元Df中;当样本经验池足够大时,从中随机选取若干样本计算损失函数Lf,定义为:
Figure FDA0002565336660000071
其中,
Figure FDA0002565336660000072
表示第i次迭代的网络参数,网络目标值
Figure FDA0002565336660000073
Figure FDA0002565336660000074
然后依据梯度下降法,对损失函数求微分,求得损失函数的梯度,从而更新频段选择网络的参数θb
CN202010621567.6A 2020-07-01 2020-07-01 基于深度强化学习的宽带抗干扰系统及抗干扰方法 Active CN111970072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010621567.6A CN111970072B (zh) 2020-07-01 2020-07-01 基于深度强化学习的宽带抗干扰系统及抗干扰方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010621567.6A CN111970072B (zh) 2020-07-01 2020-07-01 基于深度强化学习的宽带抗干扰系统及抗干扰方法

Publications (2)

Publication Number Publication Date
CN111970072A true CN111970072A (zh) 2020-11-20
CN111970072B CN111970072B (zh) 2023-05-26

Family

ID=73360893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010621567.6A Active CN111970072B (zh) 2020-07-01 2020-07-01 基于深度强化学习的宽带抗干扰系统及抗干扰方法

Country Status (1)

Country Link
CN (1) CN111970072B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112512062A (zh) * 2020-11-25 2021-03-16 中国工程物理研究院电子工程研究所 一种智能决策模型及一种通信系统智能抗干扰方法
CN112616158A (zh) * 2020-12-14 2021-04-06 中国人民解放军空军工程大学 一种认知通信干扰决策方法
CN112672426A (zh) * 2021-03-17 2021-04-16 南京航空航天大学 一种基于在线学习的抗干扰频点分配方法
CN112752311A (zh) * 2020-12-18 2021-05-04 南京航空航天大学 一种联合网络链路级的智能动态频谱抗干扰系统及方法
CN112867087A (zh) * 2021-01-20 2021-05-28 中国人民解放军陆军工程大学 一种基于多用户随机森林强化学习的抗干扰方法
CN113093124A (zh) * 2021-04-07 2021-07-09 哈尔滨工程大学 一种基于dqn算法的雷达干扰资源实时分配方法
CN113395129A (zh) * 2021-05-19 2021-09-14 桂林理工大学 一种诱骗辅助式隐蔽抗干扰方法、装置及存储介质
CN113453239A (zh) * 2021-06-17 2021-09-28 西安电子科技大学 信道资源分配方法及系统、存储介质、电子设备
CN113890564A (zh) * 2021-08-24 2022-01-04 浙江大学 基于联邦学习的无人机专用自组网跳频抗干扰方法及装置
CN113938897A (zh) * 2021-09-30 2022-01-14 中国人民解放军陆军工程大学 一种主用户友好的抗干扰动态频谱接入方法
CN114509732A (zh) * 2022-02-21 2022-05-17 四川大学 一种频率捷变雷达的深度强化学习抗干扰方法
CN114826453A (zh) * 2022-04-13 2022-07-29 中国人民解放军军事科学院国防科技创新研究院 一种非连续大带宽转发器频谱监测方法
CN114978388A (zh) * 2022-05-18 2022-08-30 大连大学 一种无人机时频域联合认知抗干扰智能决策方法
CN115276858A (zh) * 2022-07-11 2022-11-01 中国人民解放军国防科技大学 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060114925A1 (en) * 2004-12-01 2006-06-01 At&T Corp. Interference control in a broadband powerline communication system
CN104104459A (zh) * 2014-08-07 2014-10-15 中国电子科技集团公司第五十四研究所 基于多窗谱估计的宽频段频谱感知方法
CN109309539A (zh) * 2018-09-26 2019-02-05 中国人民解放军陆军工程大学 一种基于深度强化学习的信息聚合短波选频方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060114925A1 (en) * 2004-12-01 2006-06-01 At&T Corp. Interference control in a broadband powerline communication system
CN104104459A (zh) * 2014-08-07 2014-10-15 中国电子科技集团公司第五十四研究所 基于多窗谱估计的宽频段频谱感知方法
CN109309539A (zh) * 2018-09-26 2019-02-05 中国人民解放军陆军工程大学 一种基于深度强化学习的信息聚合短波选频方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Y. LI等: "Power and Frequency Selection Optimization in Anti-Jamming Communication: A Deep Reinforcement Learning Approach", 《2019 IEEE 5TH INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS (ICCC)》 *
范文翰等: "基于Q-Learning的机会频谱接入算法", 《电子技术与软件工程》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112512062B (zh) * 2020-11-25 2022-09-06 中国工程物理研究院电子工程研究所 一种通信系统智能抗干扰方法
CN112512062A (zh) * 2020-11-25 2021-03-16 中国工程物理研究院电子工程研究所 一种智能决策模型及一种通信系统智能抗干扰方法
CN112616158A (zh) * 2020-12-14 2021-04-06 中国人民解放军空军工程大学 一种认知通信干扰决策方法
CN112616158B (zh) * 2020-12-14 2023-09-05 中国人民解放军空军工程大学 一种认知通信干扰决策方法
CN112752311A (zh) * 2020-12-18 2021-05-04 南京航空航天大学 一种联合网络链路级的智能动态频谱抗干扰系统及方法
US11777636B2 (en) 2020-12-18 2023-10-03 Nanjing University Of Aeronautics And Astronautics Joint link-level and network-level intelligent system and method for dynamic spectrum anti-jamming
CN112867087A (zh) * 2021-01-20 2021-05-28 中国人民解放军陆军工程大学 一种基于多用户随机森林强化学习的抗干扰方法
CN112867087B (zh) * 2021-01-20 2023-08-04 中国人民解放军陆军工程大学 一种基于多用户随机森林强化学习的抗干扰方法
CN112672426A (zh) * 2021-03-17 2021-04-16 南京航空航天大学 一种基于在线学习的抗干扰频点分配方法
CN113093124A (zh) * 2021-04-07 2021-07-09 哈尔滨工程大学 一种基于dqn算法的雷达干扰资源实时分配方法
CN113395129A (zh) * 2021-05-19 2021-09-14 桂林理工大学 一种诱骗辅助式隐蔽抗干扰方法、装置及存储介质
CN113395129B (zh) * 2021-05-19 2023-03-14 桂林理工大学 一种诱骗辅助式隐蔽抗干扰方法、装置及存储介质
CN113453239A (zh) * 2021-06-17 2021-09-28 西安电子科技大学 信道资源分配方法及系统、存储介质、电子设备
CN113890564A (zh) * 2021-08-24 2022-01-04 浙江大学 基于联邦学习的无人机专用自组网跳频抗干扰方法及装置
CN113938897B (zh) * 2021-09-30 2023-09-19 中国人民解放军陆军工程大学 一种主用户友好的抗干扰动态频谱接入方法
CN113938897A (zh) * 2021-09-30 2022-01-14 中国人民解放军陆军工程大学 一种主用户友好的抗干扰动态频谱接入方法
CN114509732B (zh) * 2022-02-21 2023-05-09 四川大学 一种频率捷变雷达的深度强化学习抗干扰方法
CN114509732A (zh) * 2022-02-21 2022-05-17 四川大学 一种频率捷变雷达的深度强化学习抗干扰方法
CN114826453A (zh) * 2022-04-13 2022-07-29 中国人民解放军军事科学院国防科技创新研究院 一种非连续大带宽转发器频谱监测方法
CN114826453B (zh) * 2022-04-13 2023-01-17 中国人民解放军军事科学院国防科技创新研究院 一种非连续大带宽转发器频谱监测方法
CN114978388A (zh) * 2022-05-18 2022-08-30 大连大学 一种无人机时频域联合认知抗干扰智能决策方法
CN114978388B (zh) * 2022-05-18 2023-11-07 大连大学 一种无人机时频域联合认知抗干扰智能决策方法
CN115276858A (zh) * 2022-07-11 2022-11-01 中国人民解放军国防科技大学 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统
CN115276858B (zh) * 2022-07-11 2024-01-23 中国人民解放军国防科技大学 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统

Also Published As

Publication number Publication date
CN111970072B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN111970072B (zh) 基于深度强化学习的宽带抗干扰系统及抗干扰方法
CN108777872B (zh) 一种基于深度q神经网络抗干扰模型的智能抗干扰方法及智能抗干扰系统
Wang et al. Dynamic spectrum anti-jamming communications: Challenges and opportunities
CN109302262B (zh) 一种基于深度确定梯度强化学习的通信抗干扰方法
CN110996343B (zh) 基于深度卷积神经网络的干扰识别模型的智能识别系统及识别方法
CN109274456B (zh) 一种基于强化学习的不完全信息智能抗干扰方法
CN113162679A (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN111917509B (zh) 基于信道-带宽联合决策的多域智能通信系统及通信方法
Xu et al. An intelligent anti-jamming scheme for cognitive radio based on deep reinforcement learning
CN113382381B (zh) 一种基于贝叶斯q学习的无人机集群网络智能跳频方法
CN108712748A (zh) 一种基于强化学习的认知无线电抗干扰智能决策的方法
CN111786738B (zh) 基于长短期记忆的抗干扰学习的网络结构及学习方法
CN113406579A (zh) 一种基于深度强化学习的伪装干扰波形生成方法
CN113973362B (zh) 强化学习非零和非合作多智能体安全通信功率控制方法
Ji et al. Reconfigurable intelligent surface enhanced device-to-device communications
CN115567148A (zh) 一种基于合作q学习的智能干扰方法
CN115103446A (zh) 一种基于深度强化学习的多用户通信抗干扰智能决策方法
CN116866048A (zh) 抗干扰零和马尔可夫博弈模型及最大最小深度q学习方法
CN115276858B (zh) 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统
CN107017923A (zh) 一种基于无线输能的非正交多址接入通信系统
CN114509732B (zh) 一种频率捷变雷达的深度强化学习抗干扰方法
CN114727318A (zh) 一种基于maddpg的多ris通信网络速率提升方法
Li et al. Know Thy Enemy: An Opponent Modeling-Based Anti-Intelligent Jamming Strategy Beyond Equilibrium Solutions
CN113420495A (zh) 主动诱骗式智能抗干扰方法
CN117498981A (zh) 一种基于深度强化学习的信道与功率联合干扰决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant