CN111970072A - 基于深度强化学习的宽带抗干扰系统及抗干扰方法 - Google Patents
基于深度强化学习的宽带抗干扰系统及抗干扰方法 Download PDFInfo
- Publication number
- CN111970072A CN111970072A CN202010621567.6A CN202010621567A CN111970072A CN 111970072 A CN111970072 A CN 111970072A CN 202010621567 A CN202010621567 A CN 202010621567A CN 111970072 A CN111970072 A CN 111970072A
- Authority
- CN
- China
- Prior art keywords
- frequency
- user
- interference
- network
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000001228 spectrum Methods 0.000 claims abstract description 55
- 238000004891 communication Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 58
- 238000012549 training Methods 0.000 claims description 22
- 230000003595 spectral effect Effects 0.000 claims description 21
- 230000007613 environmental effect Effects 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 9
- 239000003795 chemical substances by application Substances 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 20
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/309—Measuring or estimating channel quality parameters
- H04B17/345—Interference values
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/309—Measuring or estimating channel quality parameters
- H04B17/318—Received signal strength
- H04B17/327—Received signal code power [RSCP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/309—Measuring or estimating channel quality parameters
- H04B17/336—Signal-to-interference ratio [SIR] or carrier-to-interference ratio [CIR]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/391—Modelling the propagation channel
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Electromagnetism (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
一种基于深度强化学习的宽带抗干扰系统及抗干扰方法,其考虑一组发射机和接收机对为一个通信用户,当用户进行通信时,多个干扰机对用户进行恶意干扰,用户利用频谱感知信息智能地从宽频段选择通信频率,上述用户决策过程建模为一个马尔可夫决策过程,优化用户频率决策来最大化用户吞吐量。算法为:设计了分层深度强化学习算法,然后根据频段决策控制二维窗,选取对应频段的频谱瀑布图,设计频率选择网络学习得到最优的频率决策。本发明模型完备,设计算法合理有效,相比于传统深度强化学习抗干扰算法,在保证优越的抗干扰效果同时,有效地减少了迭代时间和计算复杂度。
Description
技术领域
本发明涉及无线通信技术领域,具体涉及一种基于深度强化学习 的宽带抗干扰系统及抗干扰方法,尤其涉及一种宽带抗干扰模型及基 于分层深度强化学习抗干扰算法。
背景技术
在通信领域中,信号是表示消息的物理量,如电信号可以通过幅 度、频率、相位的变化来表示不同的消息。干扰是指对有用信号的接 收造成损伤。随着无线通信技术的迅速发展,干扰尤其是智能干扰正 给我国的信息及其相关领域的安全带来巨大威胁。在军事通信领域, 随着人工智能和通信对抗技术的深度融合,具备感知、学习和决策能 力的智能干扰设备,将成为我军在通信对抗中所面临的强劲对手。在 民用通信领域,无线通信的安全性和可靠性也面临这前所未有的严峻 挑战。近年来干扰设备的智能性不断提升,传统抗干扰技术将难以达 到理想对抗效果,为保证无线通信的安全性和可靠性,开展新型抗干 扰技术研究意义重大。针对新型的干扰环境特性,人工智能技术将是 一种有效的方案。用户采用各种智能学习的方法,对干扰规律等进行 有效的分析和学习,并以此为基础智能地选取对抗决策,将有效地提 升其抗干扰能力。
而深度强化学习在抗干扰领域已有初步研究成果,实现了深度强 化学习和抗干扰问题的简单融合,但是目前大部分基于深度强化学习 的抗干扰研究考虑的决策量较少,只适合于窄带信道选择,无法应用 于宽带信道选择中。
发明内容
为解决上述问题,本发明提供了一种基于深度强化学习的宽带抗 干扰系统及抗干扰方法,能很好地刻画基于深度强化学习算法的宽带 抗干扰场景,有效避免了现有技术中大部分基于深度强化学习的抗干 扰研究考虑的决策量较少、只适合于窄带信道选择、无法应用于宽带 信道选择中的缺陷。
为了克服现有技术中的不足,本发明提供了一种基于深度强化学 习的宽带抗干扰系统及抗干扰方法的解决方案,具体如下:
一种基于深度强化学习的宽带抗干扰系统,包括宽带抗干扰模型,
所述宽带抗干扰模型包括作为发射端的一发射机和与之通信的 作为接收端的一接收机构成的一组发射端和接收端对,该组发射端和 接收端对为一个用户,当用户的发射端和接收端进行宽带通信时,多 个干扰机对用户进行恶意干扰,包括有分层深度强化学习网络模型的 智能体通过用户利用频谱感知信息智能地从宽频段中决策选择通信 频率。
所述决策过程建模为一个马尔可夫决策过程,以此优化用户频率 来决策出最大化的用户宽带通信的吞吐量。
所述用户的接收机的信干噪比SINR表示为如公式(1)所示的 β(ft):
其中,ft表示用户所选的通信频率,t表示当前时刻;pu表示用 户的发射机的发射功率,gu表示用户的发射机到用户的接收机的功率 信道增益,bu表示用户的发射机通信带宽,n(f)表示噪声的功率谱密 度函数,J表示进行干扰的干扰机的数量,表示第i个干扰机在当 前时刻到用户的接收机的功率信道增益,Ji表示第i个干扰机的功率 谱密度函数,ft i表示第i个干扰机在当前时刻选择的信道,i为正整数。
用βth表示用户的接收机成功接收所需要的信干噪比门限,定义 归一化门限μ(ft)如公式(2)所示:
用户的接收机处的功率谱密度函数St(f)如公式(3)所示:
其中U(f)表示用户的发射机的功率谱密度;
所述宽带抗干扰模型中的离散频谱采样值si,t定义为如公式(4) 所示:
其中,Δf表示频谱分辨率;i为正整数且表示采样数,S(f+fL)为 公式(3)所述功率谱密度函数、f表示采样频率、fL为所选频率的下界; 用户的发射机侧的智能体感知当前时刻的频谱向量st={s1,t,s2,t,...,sN,t} 并选择下一时刻的通信频率ft,其中F表示用户可选频段范 围。
所述建模为一个马尔可夫决策过程的环境状态St定义为 St={st,st-1,...,st-T+1},其中,T表示回溯的历史状态数目,St表示一个 T×N的二维矩阵,由矩阵St构建出时刻t的频谱瀑布图;状态转移概 率P表示为P:(S,f)→S′,其中S′表示在状态S下选择频率f后的下一 状态;用户的回报值函数F定义为用户决策的目标为 最大化长期累积回报值,该最大化长期累积回报值表示为如公式(5) 所示:
一种基于深度强化学习的宽带抗干扰系统的抗干扰方法,包括以 下步骤:
步骤1,设计带宽选择网络和频率选择网络,并初始化带宽选择 网络的网络参数θb和频率选择网络的网络参数θf,带宽选择网络的样 本重放单元Db和频率选择网络的样本重放单元Df以及折扣因子γ;
步骤2,首先基于全频段感知的频谱瀑布图信息,对其进行池化 处理,得到频段的信号强度分布,根据ε-贪婪策略选择频段策略ab;
步骤3,根据频段选择策略选取对应的部分频谱瀑布,利用ε- 贪婪策略选择频率策略af;
步骤4,用户分别计算频段选择策略和频率选择策略带来的回报, 并观察执行策略后的下一状态变化;
步骤5,针对频段选择网络,根据频段策略的回报值和下一时刻 环境状态行样本训练,并将训练经验eb储存到Db中,判断Db中样本是 否大于设定的门限m,如果是,随机选择m个样本计算损失函数Lb, 接着计算梯度并更新权值θb,否则进入步骤6;
步骤6,针对频率选择网络,根据频率策略的回报值和下一时刻 环境状态行样本训练,并将训练经验ef储存到Df中,判断Df中样本 是否大于设定的门限m,如果是,随机选择m个样本计算损失函数Lf, 接着计算梯度并更新权值θf,否则进入步骤7,其中,m是正整数;
步骤7,循环执行步骤2~步骤6,直至达到最大迭代次数,就让 基于深度强化学习的宽带抗干扰系统的抗干扰方法结束。
所述步骤1中的设计带宽选择网络和频率选择网络,具体如表1 所示:
表1
所述步骤2中的基于全频段感知的频谱瀑布图信息,对其进行池 化处理,得到频段的信号强度分布,根据ε-贪婪策略选择频段策略ab, 其具体包括如下方式:
感知获得的当前频谱瀑布图St送入所设计的频段选择网络,首先 经过一个池化处理,将当前频谱瀑布图St中的宽带频谱信息进行降采 样,获得压缩后的频谱瀑布图C;然后使用深度卷积神经网络CNN 对Q函数进行拟合Qb(C,ab),以设定的概率ε选择使得当前Q值最大 的动作否则随机选择一个动作ab。
所述步骤3中的根据频段选择策略选取对应的部分频谱瀑布,利 用ε-贪婪策略选择频率策略af,其包括如下方式:
提取出步骤2中选择的频段策略ab的范围Sd,将该范围Sd对应 的频谱瀑布图送入到频率选择网络中对Q函数进行拟合Qf(C,af),然 后以概率ε选择使得当前Q值最大的动作否则随 机选择一个动作af;最后用户发射频点所在位置f为公式(6)所示:
f=B(ab-1)+af (6)
其中B表示子频段范围。
所述步骤4中用户分别计算频段选择策略和频率选择策略带来 的回报,并观察执行策略后的下一状态变化,具体如下:
用户在选择频段策略ab和频率策略af后,执行上述动作后获得对 应的回报值;频段选择和频率选择的回报值函数F(ft)是相同的,该 回报值函数F(ft)表示为如公式(7)所示:
其中,α为折扣因子,ft和ft-1分别表示当前时刻和上一时刻频率 选择,u(ft)的定义在公式(2)中,当用户改变选择的频率时,额外 的频率切换开销使得用户回报值变小,在获得回报值之后,感知当前 环境的频谱状态,基于深度强化学习的宽带抗干扰系统的状态就进入 下一状态St+1。
进一步地,所述步骤5中的针对频段选择网络,根据频段策略的 回报值和下一时刻环境状态行样本训练,并将训练经验eb储存到Db中, 判断Db中样本是否大于门限m,如果是,随机选择m个样本计算损失 函数Lb,接着计算梯度并更新权值θb,否则进入步骤6,其包括如下 方式:
进一步地,所述步骤6中的针对频率选择网络,根据频率策略的 回报值和下一时刻环境状态行样本训练,并将训练经验ef储存到Df中, 判断Df中样本是否大于门限m,如果是,随机选择m个样本计算损失 函数Lf,接着计算梯度并更新权值θf,否则进入步骤7,其包括如下 方式:
采用经验回放机制,用ef=(Sd,af,F(f),Sd′)表示用户的决策样本, 将其存放在经验重放单元Df中;当样本经验池足够大时,从中随机 选取若干样本计算损失函数Lf,定义为:
本发明的有益效果为:
(1)利用分层神经网络结构和池化处理,在不影响性能的情况 下,降低了计算复杂度,加速了算法收敛时间;
(2)模型完备,物理意义清晰,提出的基于分层深度强化学习 的宽带抗干扰算法,实现对提出模型的有效求解,求出用户的抗干扰 宽带信道接入策略;
(3)所提算法具有强化学习能力,能够有效地应对各种干扰, 为解决宽带抗干信道选择问题提供了很好的思路。
附图说明
图1是本发明宽带抗干扰模型的模型图。
图2是本发明所提分层深度强化学习网络结构的示意图。
图3是本发明实施例1中对抗多种干扰模式的频谱瀑布图。
图4是本发明实施例1中对抗宽带多种干扰模式的吞吐量变化图。
具体实施方式
本发明所提出的基于分层深度强化学习的宽带抗干扰算法,旨在 提供方案以解决高频率决策维度的抗干扰问题。本发明基于分层深度 强化学习算法,构建带宽选择网络和频率选择网络,将接收端的频谱 瀑布池化处理后作为带宽选择网络的输入状态,然后将选出子频段的 瀑布图作为频率选择网络的输入状态,分别设计神经网络结构对状态 的Q值函数进行拟合,并将其作为决策依据;接着,通过决策带来 的回报值,计算输出的误差函数,反向传递更新网络参数,从而影响 用户的频率选择策略。
下面将结合附图和实施例对本发明做进一步地说明。
基于深度强化学习的宽带抗干扰系统,包括宽带抗干扰模型,如 图1所示,图1是宽带抗干扰模型的示意图。该模型中,作为发射端 的一发射机和与之通信的作为接收端的一接收机构成一组发射端和 接收端对,该组发射端和接收端对为一个用户,一个用户的发射端和 接收端进行通信,作为智能模块的智能体可以帮助用户进行选频,而 基于深度强化学习的宽带抗干扰系统中存在一个或多个干扰机对用 户通信实施干扰。所述智能体与用户的发射端和接收端保持通信连接。
而所述智能体包括分层深度强化学习网络模型,如图2所示,图 2是分层深度强化学习网络模型的示意图。该网络模型包括两个网络, 该两个网络分别为频带选择神经网络和频率选择神经网络,首先通过 频谱感知获得当前频谱瀑布图,然后当前频谱瀑布图经过一次池化处 理,得到压缩后的频谱瀑布图,将其作为频带选择网络的输入,然后 根据相应的决策算法获得当前状态下的频带选择策略;根据频带选择 策略和当前频谱瀑布图,选择出子频带瀑布图作为频率选择网络的输 入,然后通过相应的决策算法即可得到当前状态下的最优频率策略。 作为两个深度神经网络的频带选择神经网络和频率选择神经网络的参数的更新,是通过实时记录输入状态、所选决策、立即回报和下一 步环境状态进行训练予以实现。
对该所述宽带抗干扰模型做如下刻画:其包括作为发射端的一发 射机和与之通信的作为接收端的一接收机构成的一组发射端和接收 端对,该组发射端和接收端对为一个用户,当用户的发射端和接收端 进行宽带通信时,多个干扰机对用户进行恶意干扰,包括有分层深度 强化学习网络模型的智能体通过用户利用频谱感知信息智能地从宽 频段中决策选择通信频率。
所述决策过程建模为一个马尔可夫决策过程,以此优化用户频率 来决策出最大化的用户宽带通信的吞吐量。所述智能体与用户的发射 端和接收端保持通信连接。所述分层深度强化学习网络模型包括两个 网络,该两个网络分别为频带选择神经网络和频率选择神经网络。
本发明基于传统深度强化学习算法,结合智能抗干扰问题,主要 考虑干扰学习决策空间庞大、干扰模式复杂等因素,采用分层选择的 思想,利用两个神经网络对其对应Q值函数进行拟合,并对神经网 络状态更新,通过相应决策算法,得出最优抗干扰频率决策。
进一步地,所述用户的接收机的信干噪比SINR表示为如公式(1) 所示的β(ft):
其中,ft表示用户所选的通信频率,t表示当前时刻;pu表示用 户的发射机的发射功率,gu表示用户的发射机到用户的接收机的功率 信道增益,bu表示用户的发射机通信带宽,n(f)表示噪声的功率谱密 度函数,J表示进行干扰的干扰机的数量,表示第i个干扰机在当 前时刻到用户的接收机的功率信道增益,Ji表示第i个干扰机的功率 谱密度函数,ft i表示第i个干扰机在当前时刻选择的信道,i为正整数。
此外,用βth表示用户的接收机成功接收所需要的信干噪比门限, 定义归一化门限μ(ft)如公式(2)所示:
用户的接收机处的功率谱密度函数St(f)如公式(3)所示:
其中U(f)表示用户的发射机的功率谱密度;
所述宽带抗干扰模型中的离散频谱采样值si,t定义为如公式(4) 所示:
其中,Δf表示频谱分辨率;i为正整数且表示采样数,S(f+fL)为 公式(3)所述功率谱密度函数、f表示采样频率、fL为所选频率的下界; 用户的发射机侧的智能体感知当前时刻的频谱向量st={s1,t,s2,t,...,sN,t} 并选择下一时刻的通信频率ft,其中F表示用户可选频段范 围。
进一步地,所述建模为一个马尔可夫决策过程的环境存在的复杂 干扰模式与历史信息有关,因此所述建模为一个马尔可夫决策过程的 环境状态St定义为St={st,st-1,...,st-T+1},其中,T表示回溯的历史状态数 目,St表示一个T×N的二维矩阵,由矩阵St构建出时刻t的频谱瀑布 图;状态转移概率P表示为P:(S,f)→S′,其中S′表示在状态S下选择 频率f后的下一状态;用户的回报值函数F定义为用户 决策的目标为最大化长期累积回报值,该最大化长期累积回报值表示 为如公式(5)所示:
一种基于深度强化学习的宽带抗干扰系统的抗干扰方法,包括以 下步骤:
步骤1,设计带宽选择网络和频率选择网络,并初始化带宽选择 网络的网络参数θb和频率选择网络的网络参数θf,带宽选择网络的样 本重放单元Db和频率选择网络的样本重放单元Df以及折扣因子γ;可 以把带宽选择网络的网络参数θb和频率选择网络的网络参数θf,带宽 选择网络的样本重放单元Db和频率选择网络的样本重放单元Df以及 折扣因子γ初始化为空值。
步骤2,首先基于全频段感知的频谱瀑布图信息,对其进行池化 处理,得到频段的信号强度分布,根据ε-贪婪策略选择频段策略ab;
步骤3,根据频段选择策略选取对应的部分频谱瀑布,利用ε- 贪婪策略选择频率策略af;
步骤4,用户分别计算频段选择策略和频率选择策略带来的回报, 并观察执行策略后的下一状态变化;
步骤5,针对频段选择网络,根据频段策略的回报值和下一时刻 环境状态行样本训练,并将训练经验eb储存到Db中,判断Db中样本是 否大于设定的门限m,如果是,随机选择m个样本计算损失函数Lb, 接着计算梯度并更新权值θb,否则进入步骤6;
步骤6,针对频率选择网络,根据频率策略的回报值和下一时刻 环境状态行样本训练,并将训练经验ef储存到Df中,判断Df中样本 是否大于设定的门限m,如果是,随机选择m个样本计算损失函数Lf, 接着计算梯度并更新权值θf,否则进入步骤7,其中,m是正整数;
步骤7,循环执行步骤2~步骤6,直至达到最大迭代次数,就让 基于深度强化学习的宽带抗干扰系统的抗干扰方法结束。
进一步地,所述步骤1中的设计带宽选择网络和频率选择网络, 具体如表1所示:
表1
进一步地,所述步骤2中的基于全频段感知的频谱瀑布图信息, 对其进行池化处理,得到频段的信号强度分布,根据ε-贪婪策略选择 频段策略ab,其具体包括如下方式:
感知获得的当前频谱瀑布图St送入所设计的频段选择网络,首先 经过一个池化处理,将当前频谱瀑布图St中的宽带频谱信息进行降采 样,获得压缩后的频谱瀑布图C;然后使用深度卷积神经网络CNN 对Q函数进行拟合Qb(C,ab),以设定的概率ε选择使得当前Q值最大 的动作否则随机选择一个动作ab。
所述步骤3中的根据频段选择策略选取对应的部分频谱瀑布,利 用ε-贪婪策略选择频率策略af,其包括如下方式:
提取出步骤2中选择的频段策略ab的范围Sd,将该范围Sd对应 的频谱瀑布图送入到频率选择网络中对Q函数进行拟合Qf(C,af),然 后以概率ε选择使得当前Q值最大的动作其中a 表示用户决策,否则随机选择一个动作af;最后用户发射频点所在位 置f为公式(6)所示:
f=B(ab-1)+af (15)
其中B表示子频段范围。
进一步地,所述步骤4中用户分别计算频段选择策略和频率选择 策略带来的回报,并观察执行策略后的下一状态变化,具体如下:
用户在选择频段策略ab和频率策略af后,执行上述动作后获得对 应的回报值;频段选择和频率选择的回报值函数F(ft)是相同的,该 回报值函数F(ft)表示为如公式(7)所示:
其中,α为折扣因子,ft和ft-1分别表示当前时刻和上一时刻频率 选择,u(ft)的定义在公式(2)中,当用户改变选择的频率时,额外 的频率切换开销使得用户回报值变小,在获得回报值之后,感知当前 环境的频谱状态,基于深度强化学习的宽带抗干扰系统的状态就进入 下一状态St+1。
进一步地,所述步骤5中的针对频段选择网络,根据频段策略的 回报值和下一时刻环境状态行样本训练,并将训练经验eb储存到Db中, 判断Db中样本是否大于门限m,如果是,随机选择m个样本计算损失 函数Lb,接着计算梯度并更新权值θb,否则进入步骤6,其包括如下 方式:
进一步地,所述步骤6中的针对频率选择网络,根据频率策略的 回报值和下一时刻环境状态行样本训练,并将训练经验ef储存到Df中, 判断Df中样本是否大于门限m,如果是,随机选择m个样本计算损失 函数Lf,接着计算梯度并更新权值θf,否则进入步骤7,其包括如下 方式:
采用经验回放机制,用ef=(Sd,af,F(f),Sd′)表示用户的决策样本, 其中Sd表示是频段选择后提取的频谱瀑布图,af表示用户频点f选择 策略,将其存放在经验重放单元Df中;当样本经验池足够大时,从 中随机选取若干样本计算损失函数Lf,定义为:
下面根据实施例来对本发明作进一步说明:
本发明的实施例具体描述如下,系统仿真采用C++语言,基于Caffe 深度学习框架,参数的设定不影响一般性。图3验证在宽带和多种干 扰存在下抗干扰的有效性。参数设置为,可选频谱频率范围为 100-200MHz,用户的传输带宽为1MHz,用户的传输功率为0dBm。接收端解调的信噪比门限为0dB,用户的基带脉冲信号采用升余弦滚 降,系数为0.4,频谱感知的频率分辨率为1kHz,每1ms进行一次频段 感知,并将感知到的频谱数据保持200ms,因此St的大小为1000*200。 如图3所示,考虑多个干扰模式分布在不同的频段范围内。不同的干 扰模式来自不同的干扰机,且每个干扰机的发送功率不同,具体如下:
1)全频段干扰:干扰功率为70dBm,干扰机随机时间干扰全频段;
2)扫频干扰:干扰功率为80dBm,扫频速度为0.5GHz/s;
3)随机干扰:干扰功率为90dBm,干扰随机频点,干扰带宽为 5MHz;
4)梳状干扰:干扰功率为90dBm,干扰机每隔1MHz释放干扰, 每100ms切换一次中心频率;
5)追随干扰:干扰功率为90dBm,干扰的中心频率与用户上次传 输频率一致,干扰带宽为5MHz。如果用户选择频率不在追随干扰频 带范围内,其选择随机频率干扰。
图3是本发明实施例对抗多种干扰模式的频谱瀑布图,从图中可 以看出,全频段干扰在100-120MHz,扫频干扰在120-140MHz,随机 干扰在140-160MHz,梳状干扰在160-180MHz,追随干扰在 180-200MHz。
图4是本发明中实施例所提分层深度强化学习算法和传统深度 强化学习算法对抗宽带多干扰模式的网络吞吐量变化图,从图中可以 看出,随着迭代次数的增加,网络的吞吐量不断提高,有效地避开了 干扰,最终达到吞吐量的稳定值。同时,在保证抗干扰性能前提下, 所提分层深度强化学习算法较已有算法收敛次数少了大约3000次,同 时减少大约97%的计算量。
综上所述,本发明提出的分层深度强化学习抗干扰模型,充分考 虑了抗干扰问题中干扰模式复杂、干扰决策估计困难、学习决策空间 庞大的问题,比传统模型更有实际意义;提出的基于分层深度强化学 习宽带抗干扰算法,能够实现对提出模型的有效求解,求出用户最优 的抗干扰频率策略,有效地应对干扰模式复杂和决策空间庞大问题。 以上以用实施例说明的方式对本发明作了描述,本领域的技术人员应 当理解,本公开不限于以上描述的实施例,在不偏离本发明的范围的 情况下,可以做出各种变化、改变和替换。
Claims (10)
1.一种基于深度强化学习的宽带抗干扰系统,其特征在于,包括宽带抗干扰模型,
所述宽带抗干扰模型包括作为发射端的一发射机和与之通信的作为接收端的一接收机构成的一组发射端和接收端对,该组发射端和接收端对为一个用户,当用户的发射端和接收端进行宽带通信时,多个干扰机对用户进行恶意干扰,包括有分层深度强化学习网络模型的智能体通过用户利用频谱感知信息智能地从宽频段中决策选择通信频率。
2.根据权利要求1所述的基于深度强化学习的宽带抗干扰系统,其特征在于,所述决策过程建模为一个马尔可夫决策过程,以此优化用户频率来决策出最大化的用户宽带通信的吞吐量。
4.根据权利要求1所述的基于深度强化学习的宽带抗干扰系统,其特征在于,用βth表示用户的接收机成功接收所需要的信干噪比门限,定义归一化门限μ(ft)如公式(2)所示:
用户的接收机处的功率谱密度函数St(f)如公式(3)所示:
其中U(f)表示用户的发射机的功率谱密度;
所述宽带抗干扰模型中的离散频谱采样值si,t定义为如公式(4)所示:
6.一种基于深度强化学习的宽带抗干扰系统的抗干扰方法,其特征在于,包括以下步骤:
步骤1,设计带宽选择网络和频率选择网络,并初始化带宽选择网络的网络参数θb和频率选择网络的网络参数θf,带宽选择网络的样本重放单元Db和频率选择网络的样本重放单元Df以及折扣因子γ;
步骤2,首先基于全频段感知的频谱瀑布图信息,对其进行池化处理,得到频段的信号强度分布,根据ε-贪婪策略选择频段策略ab;
步骤3,根据频段选择策略选取对应的部分频谱瀑布,利用ε-贪婪策略选择频率策略af;
步骤4,用户分别计算频段选择策略和频率选择策略带来的回报,并观察执行策略后的下一状态变化;
步骤5,针对频段选择网络,根据频段策略的回报值和下一时刻环境状态行样本训练,并将训练经验eb储存到Db中,判断Db中样本是否大于设定的门限m,如果是,随机选择m个样本计算损失函数Lb,接着计算梯度并更新权值θb,否则进入步骤6;
步骤6,针对频率选择网络,根据频率策略的回报值和下一时刻环境状态行样本训练,并将训练经验ef储存到Df中,判断Df中样本是否大于设定的门限m,如果是,随机选择m个样本计算损失函数Lf,接着计算梯度并更新权值θf,否则进入步骤7,其中,m是正整数;
步骤7,循环执行步骤2~步骤6,直至达到最大迭代次数,就让基于深度强化学习的宽带抗干扰系统的抗干扰方法结束。
10.根据权利要求6所述的基于深度强化学习的宽带抗干扰系统的抗干扰方法,其特征在于,所述步骤4中用户分别计算频段选择策略和频率选择策略带来的回报,并观察执行策略后的下一状态变化,具体如下:
用户在选择频段策略ab和频率策略af后,执行上述动作后获得对应的回报值;频段选择和频率选择的回报值函数F(ft)是相同的,该回报值函数F(ft)表示为如公式(7)所示:
其中,α为折扣因子,ft和ft-1分别表示当前时刻和上一时刻频率选择,u(ft)的定义在公式(2)中,当用户改变选择的频率时,额外的频率切换开销使得用户回报值变小,在获得回报值之后,感知当前环境的频谱状态,基于深度强化学习的宽带抗干扰系统的状态就进入下一状态St+1;
所述步骤5中的针对频段选择网络,根据频段策略的回报值和下一时刻环境状态行样本训练,并将训练经验eb储存到Db中,判断Db中样本是否大于门限m,如果是,随机选择m个样本计算损失函数Lb,接着计算梯度并更新权值θb,否则进入步骤6,其包括如下方式:
所述步骤6中的针对频率选择网络,根据频率策略的回报值和下一时刻环境状态行样本训练,并将训练经验ef储存到Df中,判断Df中样本是否大于门限m,如果是,随机选择m个样本计算损失函数Lf,接着计算梯度并更新权值θf,否则进入步骤7,其包括如下方式:
采用经验回放机制,用ef=(Sd,af,F(f),Sd′)表示用户的决策样本,将其存放在经验重放单元Df中;当样本经验池足够大时,从中随机选取若干样本计算损失函数Lf,定义为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010621567.6A CN111970072B (zh) | 2020-07-01 | 2020-07-01 | 基于深度强化学习的宽带抗干扰系统及抗干扰方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010621567.6A CN111970072B (zh) | 2020-07-01 | 2020-07-01 | 基于深度强化学习的宽带抗干扰系统及抗干扰方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111970072A true CN111970072A (zh) | 2020-11-20 |
CN111970072B CN111970072B (zh) | 2023-05-26 |
Family
ID=73360893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010621567.6A Active CN111970072B (zh) | 2020-07-01 | 2020-07-01 | 基于深度强化学习的宽带抗干扰系统及抗干扰方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111970072B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112512062A (zh) * | 2020-11-25 | 2021-03-16 | 中国工程物理研究院电子工程研究所 | 一种智能决策模型及一种通信系统智能抗干扰方法 |
CN112616158A (zh) * | 2020-12-14 | 2021-04-06 | 中国人民解放军空军工程大学 | 一种认知通信干扰决策方法 |
CN112672426A (zh) * | 2021-03-17 | 2021-04-16 | 南京航空航天大学 | 一种基于在线学习的抗干扰频点分配方法 |
CN112752311A (zh) * | 2020-12-18 | 2021-05-04 | 南京航空航天大学 | 一种联合网络链路级的智能动态频谱抗干扰系统及方法 |
CN112867087A (zh) * | 2021-01-20 | 2021-05-28 | 中国人民解放军陆军工程大学 | 一种基于多用户随机森林强化学习的抗干扰方法 |
CN113093124A (zh) * | 2021-04-07 | 2021-07-09 | 哈尔滨工程大学 | 一种基于dqn算法的雷达干扰资源实时分配方法 |
CN113395129A (zh) * | 2021-05-19 | 2021-09-14 | 桂林理工大学 | 一种诱骗辅助式隐蔽抗干扰方法、装置及存储介质 |
CN113453239A (zh) * | 2021-06-17 | 2021-09-28 | 西安电子科技大学 | 信道资源分配方法及系统、存储介质、电子设备 |
CN113890564A (zh) * | 2021-08-24 | 2022-01-04 | 浙江大学 | 基于联邦学习的无人机专用自组网跳频抗干扰方法及装置 |
CN113938897A (zh) * | 2021-09-30 | 2022-01-14 | 中国人民解放军陆军工程大学 | 一种主用户友好的抗干扰动态频谱接入方法 |
CN114509732A (zh) * | 2022-02-21 | 2022-05-17 | 四川大学 | 一种频率捷变雷达的深度强化学习抗干扰方法 |
CN114826453A (zh) * | 2022-04-13 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种非连续大带宽转发器频谱监测方法 |
CN114978388A (zh) * | 2022-05-18 | 2022-08-30 | 大连大学 | 一种无人机时频域联合认知抗干扰智能决策方法 |
CN115276858A (zh) * | 2022-07-11 | 2022-11-01 | 中国人民解放军国防科技大学 | 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060114925A1 (en) * | 2004-12-01 | 2006-06-01 | At&T Corp. | Interference control in a broadband powerline communication system |
CN104104459A (zh) * | 2014-08-07 | 2014-10-15 | 中国电子科技集团公司第五十四研究所 | 基于多窗谱估计的宽频段频谱感知方法 |
CN109309539A (zh) * | 2018-09-26 | 2019-02-05 | 中国人民解放军陆军工程大学 | 一种基于深度强化学习的信息聚合短波选频方法 |
-
2020
- 2020-07-01 CN CN202010621567.6A patent/CN111970072B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060114925A1 (en) * | 2004-12-01 | 2006-06-01 | At&T Corp. | Interference control in a broadband powerline communication system |
CN104104459A (zh) * | 2014-08-07 | 2014-10-15 | 中国电子科技集团公司第五十四研究所 | 基于多窗谱估计的宽频段频谱感知方法 |
CN109309539A (zh) * | 2018-09-26 | 2019-02-05 | 中国人民解放军陆军工程大学 | 一种基于深度强化学习的信息聚合短波选频方法 |
Non-Patent Citations (2)
Title |
---|
Y. LI等: "Power and Frequency Selection Optimization in Anti-Jamming Communication: A Deep Reinforcement Learning Approach", 《2019 IEEE 5TH INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS (ICCC)》 * |
范文翰等: "基于Q-Learning的机会频谱接入算法", 《电子技术与软件工程》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112512062B (zh) * | 2020-11-25 | 2022-09-06 | 中国工程物理研究院电子工程研究所 | 一种通信系统智能抗干扰方法 |
CN112512062A (zh) * | 2020-11-25 | 2021-03-16 | 中国工程物理研究院电子工程研究所 | 一种智能决策模型及一种通信系统智能抗干扰方法 |
CN112616158A (zh) * | 2020-12-14 | 2021-04-06 | 中国人民解放军空军工程大学 | 一种认知通信干扰决策方法 |
CN112616158B (zh) * | 2020-12-14 | 2023-09-05 | 中国人民解放军空军工程大学 | 一种认知通信干扰决策方法 |
CN112752311A (zh) * | 2020-12-18 | 2021-05-04 | 南京航空航天大学 | 一种联合网络链路级的智能动态频谱抗干扰系统及方法 |
US11777636B2 (en) | 2020-12-18 | 2023-10-03 | Nanjing University Of Aeronautics And Astronautics | Joint link-level and network-level intelligent system and method for dynamic spectrum anti-jamming |
CN112867087A (zh) * | 2021-01-20 | 2021-05-28 | 中国人民解放军陆军工程大学 | 一种基于多用户随机森林强化学习的抗干扰方法 |
CN112867087B (zh) * | 2021-01-20 | 2023-08-04 | 中国人民解放军陆军工程大学 | 一种基于多用户随机森林强化学习的抗干扰方法 |
CN112672426A (zh) * | 2021-03-17 | 2021-04-16 | 南京航空航天大学 | 一种基于在线学习的抗干扰频点分配方法 |
CN113093124A (zh) * | 2021-04-07 | 2021-07-09 | 哈尔滨工程大学 | 一种基于dqn算法的雷达干扰资源实时分配方法 |
CN113395129A (zh) * | 2021-05-19 | 2021-09-14 | 桂林理工大学 | 一种诱骗辅助式隐蔽抗干扰方法、装置及存储介质 |
CN113395129B (zh) * | 2021-05-19 | 2023-03-14 | 桂林理工大学 | 一种诱骗辅助式隐蔽抗干扰方法、装置及存储介质 |
CN113453239A (zh) * | 2021-06-17 | 2021-09-28 | 西安电子科技大学 | 信道资源分配方法及系统、存储介质、电子设备 |
CN113890564A (zh) * | 2021-08-24 | 2022-01-04 | 浙江大学 | 基于联邦学习的无人机专用自组网跳频抗干扰方法及装置 |
CN113938897B (zh) * | 2021-09-30 | 2023-09-19 | 中国人民解放军陆军工程大学 | 一种主用户友好的抗干扰动态频谱接入方法 |
CN113938897A (zh) * | 2021-09-30 | 2022-01-14 | 中国人民解放军陆军工程大学 | 一种主用户友好的抗干扰动态频谱接入方法 |
CN114509732B (zh) * | 2022-02-21 | 2023-05-09 | 四川大学 | 一种频率捷变雷达的深度强化学习抗干扰方法 |
CN114509732A (zh) * | 2022-02-21 | 2022-05-17 | 四川大学 | 一种频率捷变雷达的深度强化学习抗干扰方法 |
CN114826453A (zh) * | 2022-04-13 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种非连续大带宽转发器频谱监测方法 |
CN114826453B (zh) * | 2022-04-13 | 2023-01-17 | 中国人民解放军军事科学院国防科技创新研究院 | 一种非连续大带宽转发器频谱监测方法 |
CN114978388A (zh) * | 2022-05-18 | 2022-08-30 | 大连大学 | 一种无人机时频域联合认知抗干扰智能决策方法 |
CN114978388B (zh) * | 2022-05-18 | 2023-11-07 | 大连大学 | 一种无人机时频域联合认知抗干扰智能决策方法 |
CN115276858A (zh) * | 2022-07-11 | 2022-11-01 | 中国人民解放军国防科技大学 | 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统 |
CN115276858B (zh) * | 2022-07-11 | 2024-01-23 | 中国人民解放军国防科技大学 | 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111970072B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111970072B (zh) | 基于深度强化学习的宽带抗干扰系统及抗干扰方法 | |
CN108777872B (zh) | 一种基于深度q神经网络抗干扰模型的智能抗干扰方法及智能抗干扰系统 | |
Wang et al. | Dynamic spectrum anti-jamming communications: Challenges and opportunities | |
CN109302262B (zh) | 一种基于深度确定梯度强化学习的通信抗干扰方法 | |
CN110996343B (zh) | 基于深度卷积神经网络的干扰识别模型的智能识别系统及识别方法 | |
CN109274456B (zh) | 一种基于强化学习的不完全信息智能抗干扰方法 | |
CN113162679A (zh) | 基于ddpg算法的irs辅助无人机通信联合优化方法 | |
CN111917509B (zh) | 基于信道-带宽联合决策的多域智能通信系统及通信方法 | |
Xu et al. | An intelligent anti-jamming scheme for cognitive radio based on deep reinforcement learning | |
CN113382381B (zh) | 一种基于贝叶斯q学习的无人机集群网络智能跳频方法 | |
CN108712748A (zh) | 一种基于强化学习的认知无线电抗干扰智能决策的方法 | |
CN111786738B (zh) | 基于长短期记忆的抗干扰学习的网络结构及学习方法 | |
CN113406579A (zh) | 一种基于深度强化学习的伪装干扰波形生成方法 | |
CN113973362B (zh) | 强化学习非零和非合作多智能体安全通信功率控制方法 | |
Ji et al. | Reconfigurable intelligent surface enhanced device-to-device communications | |
CN115567148A (zh) | 一种基于合作q学习的智能干扰方法 | |
CN115103446A (zh) | 一种基于深度强化学习的多用户通信抗干扰智能决策方法 | |
CN116866048A (zh) | 抗干扰零和马尔可夫博弈模型及最大最小深度q学习方法 | |
CN115276858B (zh) | 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统 | |
CN107017923A (zh) | 一种基于无线输能的非正交多址接入通信系统 | |
CN114509732B (zh) | 一种频率捷变雷达的深度强化学习抗干扰方法 | |
CN114727318A (zh) | 一种基于maddpg的多ris通信网络速率提升方法 | |
Li et al. | Know Thy Enemy: An Opponent Modeling-Based Anti-Intelligent Jamming Strategy Beyond Equilibrium Solutions | |
CN113420495A (zh) | 主动诱骗式智能抗干扰方法 | |
CN117498981A (zh) | 一种基于深度强化学习的信道与功率联合干扰决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |