CN109274456A - 一种基于强化学习的不完全信息智能抗干扰方法 - Google Patents

一种基于强化学习的不完全信息智能抗干扰方法 Download PDF

Info

Publication number
CN109274456A
CN109274456A CN201811051896.0A CN201811051896A CN109274456A CN 109274456 A CN109274456 A CN 109274456A CN 201811051896 A CN201811051896 A CN 201811051896A CN 109274456 A CN109274456 A CN 109274456A
Authority
CN
China
Prior art keywords
interference
strategy
experience
neural networks
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811051896.0A
Other languages
English (en)
Other versions
CN109274456B (zh
Inventor
黎伟
王军
李黎
党泽
王杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201811051896.0A priority Critical patent/CN109274456B/zh
Publication of CN109274456A publication Critical patent/CN109274456A/zh
Application granted granted Critical
Publication of CN109274456B publication Critical patent/CN109274456B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/345Interference values
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/43Jamming having variable characteristics characterized by the control of the jamming power, signal-to-noise ratio or geographic coverage area

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于无线通信技术领域,涉及一种基于强化学习的不完全信息智能抗干扰方法。本发明首先根据干扰源数量和无线信道模型构造干扰环境模型;根据合法用户通信质量指标构造效用函数,并把该效用函数作为学习中的回报;将不同时隙采样的频谱信息构建成频谱时隙矩阵,用该矩阵描述干扰环境状态。环境状态通过由卷积层、激活函数、池化等组成的卷积神经网络输出对应状态的抗干扰策略。合法用户通过对不同子信道上发射功率的调整和信道选择实现智能抗干扰策略调整。卷积神经网络输出的抗干扰策略通过环境反馈计算回报值。回报值、环境状态和当前抗干扰策略构成经验组,存储在经验池中。抽取经验池中的经验组完成对卷积神经网络的训练和参数跟新。

Description

一种基于强化学习的不完全信息智能抗干扰方法
技术领域
本发明属于无线通信技术领域,涉及一种基于强化学习的不完全信息智能抗干扰方法。
背景技术
随着无线通信技术的发展,无线通信系统面临的电磁环境日益复杂恶劣,既可能会遭受来自己方通信的非故意干扰,也可能会受到敌方故意释放的干扰信号影响。为了保证干扰环境下的正常通信,针对通信对抗中出现的多种干扰手段,相应的抗干扰方法也应运而生。传统的抗干扰手段均针对干扰源的静态干扰方式,采取固定抗干扰策略。然而,随着干扰手段的智能化,干扰源可以根据合法用户通信状态的改变动态调整干扰策略,从而使得传统抗干扰方法无法保证合法用户在此动态干扰环境下的正常通信。因此有必要针对干扰源的动态干扰策略采取相应的智能抗干扰策略,保证合法用户在动态干扰环境下的正常通信。
目前,针对干扰源的动态干扰手段主要采用基于博弈理论的方式进行抗干扰策略动态调整。该方法构造与合法用户通信质量相关的效用函数,在每一次博弈中,把接收到的干扰策略作为约束条件,通过最大化效用函数实现抗干扰策略调整。通过多次博弈达到博弈均衡,得到在动态干扰策略下的最优通信策略。具体可参考:Luliang Jia,etc.,“AHierarchical Learning Solution for Anti-Jamming Stackelberg Game withDiscrete Power Strategies”,IEEE Wireless Communications Letters,vol.6,no.6,December 2017;Beibei Wang,etc.,“An Anti-Jamming Stochastic Game for CognitiveRadio Networks”,IEEE Journal on Selected Areas in Communications,vol.29,no.4,Apr.2011。该方法需要合法用户完全已知或者能够完美估计出干扰源的干扰策略。然而,现实中干扰源的干扰手段很难获取或者进行完美估计。因此基于已知干扰策略的完全信息博弈抗干扰方法很难实际应用。
发明内容
针对上述技术问题,本发明提出了一种基于强化学习的不完全信息智能抗干扰决策,用于针对动态的干扰策略进行干扰抑制,保证合法用户的正常通信。
本发明根据干扰对抗中合法用户和干扰者策略的动态性,在博弈理论基础上通过强化学算法实现合法用户在不完全估计干扰源干扰方法的情况下做出通信策略动态调整。本发明首先根据干扰源数量和无线信道模型构造干扰环境;根据合法用户通信质量指标构造效用函数,并把该效用函数作为学习中的回报;将不同时隙采样的频谱信息构建成频谱时隙矩阵,用该矩阵描述干扰环境状态。环境状态通过由卷积层、激活函数、池化等组成的卷积神经网络输出对应状态的抗干扰策略。合法用户通过对不同子信道上发射功率的调整和信道选择实现智能抗干扰策略调整。卷积神经网络输出的抗干扰策略通过环境反馈计算回报值。回报值、环境状态和当前抗干扰策略构成经验组,存储在经验池中。最后抽取经验池中的经验组完成对卷积神经网络的训练和参数更新。该学习机制一直持续,直到学习结果收敛于博弈均衡条件。
利用本发明所提出抗干扰策略进行合法用户智能抗干扰方案实现包括以下步骤:
S1,智能抗干扰方案各个算法模块定义:干扰环境定义、干扰环境状态定义、回报函数定义、抗干扰策略定义、经验存储池定义。
S2,将环境状态信息,即频谱时序矩阵通过卷积神经网络得到抗干扰策略,该策略作用于干扰环境,观测抗干扰策略在当前干扰环境下的回报值。
S3,将当前抗干扰策略、干扰环境状态和抗干扰策略下的回报值构成经验组存储到经验池。
S4,从经验池中抽样经验组对卷积神经网络进行训练和参数跟新。
S5,判断学习机制是否满足停止条件,若满足则停止学习得到最后抗干扰策略;否则回到S2继续学习。
进一步的,上述步骤S1包括以下步骤:
S1.1,干扰环境定义:根据干扰者数量、干扰方式和无线信道模型定义干扰环境。
S1.2,干扰环境状态定义:将不同时隙测得的频谱信息构成频谱时隙矩阵,频谱时隙矩阵大小由观测频谱范围和观测时隙长度决定。
S1.3,回报函数定义:根据合法用户的通信质量指标构造反馈回报函数。
S1.4,抗干扰策略定义:将不同子信道上的发射功率组合定义为抗干扰策略集。
S1.5,经验存储池定义:预设一个固定大小的经验存储池,用于存储由当前抗干扰策略、环境状态和环境回报组成的经验组。
进一步的,上述步骤S2包括以下步骤:
S2.1,环境状态矩阵通过构造的卷积神经网络。其中,卷积神经网络包括多个卷积层、多个池化层和多个全连接层,最后输出与各抗干扰策略对应的状态行为值。
S2.2,根据卷积神经网络输出的状态行为值向量采用∈-greedy算法进行策略行为选择。并将所选择的策略行为作用于步骤S1.2中定义的环境,计算S1.3中定义的回报函数值。
进一步的,上述步骤S3包括以下步骤:
S3.1,将步骤S2.2中的策略行为作用于S1.2中定义的环境计算下一步转移后的环境状态。
S3.2,定义一个容量为M的经验池,并将S2.1中的当前环境状态、S2.2中选择的策略行为、S2.2中得到的回报函数值和S3.1得到的下一步环境状态构成经验组存储在经验池中。
进一步的,上述步骤S4包括以下步骤:
S4.1,从S3.2中经验池中随机抽取一定数量的经验组用于卷积神经网络参数的训练和更新。
S4.2,卷积神经网络参数的训练通过S4.1中抽取的经验组中的当前状态和下一步状态通过卷积神经网络得到对应的状态行为值,并构建对应的损失函数,通过最小化损失函数进行网络参数的更新。
本发明的有益效果为:
本发明基于强化学习机制完成通信对抗中的博弈过程,克服了传统基于博弈理论的通信对抗中需要完全博弈信息的缺点,省略通信对抗过程中的理想化假设,使得本发明中的抗干扰策略更加贴近实际应用。
附图说明
图1为本发明设计的基于强化学习的不完全信息干扰抑制算法处理框架;
图2为本发明设计的卷积神经网络结构;
图3为本发明设计的算法与完全信息博弈算法、随机抗干扰策略选择方法对比。
具体实施方式
为使本发明的步骤更加详细清楚,以下结合附图和实施案例对本发明进一步详细说明。
实施例一
图1是本发明算法具体实施方法,下面结合图1详细说明各个步骤及其原理。
本发明提出的基于强化学习的不完全信息抗干扰方法算法实现框架如图1(左)所示。步骤S1中S1.1中完成干扰和无线环境建模。场景中多个干扰源对合法通信链路进行干扰,干扰方式可包括但不局限于:单音干扰、多音干扰、线性扫频干扰、部分频带干扰和噪声跳频干扰五种干扰。干扰源可以通过调整干扰参数或者切换干扰方式实现对合法用户的干扰动态调整。五种干扰方式具体数学模型如下:
(1)单音干扰
单音干扰信号的复基带表达式为:
其中,A为单音干扰信号幅度,fJ为单音干扰信号频率,为单音干扰初始相位。
(2)多音干扰
多音干扰信号的复基带表达式为:
其中,Am为多音干扰中的第m个单音干扰幅度,fm为第m个单音干扰的频率,为第m个单音干扰的初始相位。
(3)线性扫频干扰
线性扫频干扰信号的复基带表达式为:
其中,A是幅度,f0是初始频率,k是调频系数,是初始相位,T是信号时长。
(4)部分频带干扰
部分频带噪声干扰在部分频带内表现为高斯白噪声,其复基带的表达式:
其中,Un(t)为服从均值为零,方差为的基带噪声,fJ为信号的中心频率,为[0,2π]内均匀分布且相互独立的相位。
(5)噪声调频干扰
噪声调频信号的复基带可以如下表示:
其中,A为噪声调频信号的幅度,f0为噪声调频信号的载波频率,kfm为调频指数,ξ(t)为零均值、方差为一定值的窄带嘎斯白噪声。其中是一个维纳过程,属于一个的高斯分布。调频指数kfm和方差共同决定了噪声调频的有效带宽。
干扰源根据最大干扰效果动态选择干扰方式和相应的参数。
合法用户的抗干扰决策过程如图1(右)所示。合法用户抗干扰策略通过环境中无线频谱信息采样,计算回报函数值R,计算环境状态矩阵S;根据回报函数、环境状态和当前抗干扰策略构建历史经验;神经网络根据当前环境状态矩阵进行下一步抗干扰行为选择,并将该抗干扰策略作用于环境,同时根据历史经验进行参数的更新;整个算法迭代进行直到算法收敛。具体的,该算法的具体实施步骤如下:
本发明中步骤S1.2、S1.3和S1.4分别完成环境状态设计、回报函数的设计和抗干扰策略的设计。在多子信道情况下,合法链路接收端在子信道上接收的信号可表示为:
其中m∈{1,…,N}是信道索引号,N是信道个数;xt是有用发射信号,xj是干扰信号,是子信道上高斯白噪声;j∈{1,…,J}是干扰源索引号,J是干扰源个数;t是时序索引号;表示合法通信用户间的信道,表示干扰源到合法用户接收机的干扰信道。因此,合法用户接收端可获得的信干噪比和可达速率可表示为:
其中是子信道上的等效信道增益,是对应噪声功率。接收端在时刻t的可达速率可表示为N个子信道上的速率总和:
抗干扰决策之前,首先通过对无线环境的采样得到每个子信道上对应的功率,所有子信道的功率构成功率向量P=[pt,1,pt,2,…,pt,N],其中N对应子信道数目。状态矩阵S由多个历史功率向量构成St=[Pt-1 Pt-2 … Pt-τ]T,其中τ是观测时间窗。同时考虑到抗干扰策略在发射功率方面的限制,本发明中设计的回报函数考虑了所采用的抗干扰策略同时在信干噪比上的增益和功率开销,具体表达式如下:
其中是干扰源在信道上的干扰功率;函数表示当fj=m时,输出1,否则输出0;是发射功率开销。
由于受到干扰源的影响,在某些子信道上的干扰强度较大,可以通过调整相应信道上的发射功率,保证在可控功率范围内最大化链路通信质量。因此本发明中在每个子信道上的抗干扰策略为在该子信道上的发射功率。本发明中将子信道上的发射功率按照最大发射功率离散化为L个等级。因此对于子信道m,其抗干扰策略集表示为其中m∈{1,…,N},l∈{1,…,L}。
发明步骤S1中S1.5步骤中定义了经验组和经验池,通过对历史经验的存储和抽样提供后续步骤中的神经网络的训练和参数更新。根据图1的算法结构描述,发明中定义了容量大小为Me的经验池,可存储Me条历史经验。通过步骤S1中S1.2-S1.5得到的当前环境状态S,回报函数值R,当前抗干扰策略a(t)和转移环境状态S-构建经验组{S,R,a(t),S_}。该经验组被逐条存入经验池中,当经验池中存储的经验组条数达到容量上限,存储时间最长的经验组被新进的经验组覆盖。
在发明步骤S2步骤S2.1中,由步骤S1.2中得到的频谱时隙矩阵作为环境状态矩阵通过卷积神经网络net_target,参考图1(右)对应的net_target神经网络,输出与抗干扰策略集对应的Q(·|θt)值向量,其中θt是当前卷积神经网络参数。卷积神经网络结构如图2所示,具体网络细节参考实施例二。在发明步骤S2步骤S2.2中,将步骤S2.1中输出的Q(·|θt)值向量通过∈-greedy算法进行策略选择,得到该子信道上当前步骤下的最佳发射功率其中∈-greedy算法进行策略选择计算方式如下:
步骤S3中步骤S3.1中将S2.2中得到的策略作为当前信道m上的发射功率,下一次计算环境状态时根据新的发射功率和干扰模型进行计算。步骤S3中步骤S3.2中,按照S1.5中定义的经验存储池的容量和结构,将S2.1中的当前环境状态、S2.2中选择的策略行为、S2.2中得到的回报函数值和S3.1得到的下一步环境状态构成经验组{S,A,R,S_}存储在该经验池中。当存储的经验组达到经验组的容量上限时,最新的得到的经验组存储在最旧经验组存储的存储单元中,覆盖该最旧经验组。
在步骤S4中步骤S4.1中,根据预设定的batch_size大小从步骤S3中的经验存储池中抽取对应个数的经验组完成神经网络net_eval,对应图1(右)中net_eval部分,的网络参数训练。Net_eval网络的训练通过最小化其损失函数Loss_function实现,其中Loss_function的定义如下:
yt=Rt+γQt-1(St+1,Qt-1(Stt-1)|θt-1) (12)
其中,表示求期望操作,Q(St,a(t)|θt)表示依赖于当前神经网络参数θt的状态行为值函数,γ表示长期回报折扣因子。因此每次学习训练后,net_eval的参数被更新为θt。当训练步数达到更新步数I时,将net_eval中的网络参数复制到net_target神经网络中完成net_target网络参数的更新。
在步骤S5中,随着训练的持续进行,回报函数R逐渐收敛到其最优值。本发明中计ζ步R的均值变化情况,当该均值变化足够小时认为训练收敛,停止该算法,并把最终输出的策略当做抗干扰的的最终策略。收敛的判定方式如下:
其中υ是判定收敛的终止条件,设置为一个非常小的正值。
实施例二
本发明所提出的用于抗干扰决策的卷积神经网络结构如图2所示:根据频谱采样信号构造128×128的频谱时隙状态矩阵作为卷积神经网络的输入;然后经过三个卷积层、两个池化层和两个全连接层输出Q(·|θt)值向量,Q(·|θt)用于后续∈-greedy算法进行抗干扰决策和net_eval网络的训练。具体的,卷积神经网络中所的卷积层、池化层和运算如下:
假设卷积运算的输入数据为I,相应的卷积核K与输入数据的维度相同。以三维输入数据为例(当输入数据为二维时,可将第三维看成1)。卷积操作要求卷积核K第三维与输入数据I第三维相同,用w1,w2,w3表示各三个维度,经过卷积操作后,输出为:
在卷积神经网络池化操作通常包括最大化池化、均值池化,其计算方法如下:
均值池化:
最大值池化:
本发明中采用了最大值池化。
具体的,本实施例中,每一层结构如图2所示,每层结构具体描述如下:
卷积神经网络第一层为输入层,其输入尺寸由子信道个数和观测时隙长度决定。在网络模型中可用频谱划分为128个子信道,观测时隙为长度为128,因此输入状态矩阵维度为128×128。
卷积神经网络第二层有卷积、Relu激活函数和池化操作组成。具体的,来自输入层的状态矩阵首先经过卷积核尺寸为3×3的卷积操作,其中卷积核个数为20,卷积步长为1,采用ReLu作为激活函数。经过该操作后的输出结果维度为126×126×20。其中Relu激活函数操作为:
y=max{0,x} (17)
再将该输出进行最大池化操作,池化尺寸为2×2。经过第一层的卷积池化操作后输出维度为63×63×20。
来自第二层的卷积池化操作后的输出通过卷积网络第三层,卷积操作得到31×31×30的输出。其中卷积核尺维度为3×3,卷积核个数为30,激活函数采用Relu函数,卷积步长为2。
卷积网络第四层将第三层的输出作为输入进行卷积操作,采用的卷积核尺寸为4×4,卷积核个数为30,卷积步长为2,并对w1,w2两个维度进行补零操作,补零个数为1。经过该层卷积操作后输出维度为15×15×30。并将改成卷积操作后的输出进行最大池化操作,池化尺寸为3×3,经过池化后输出维度为5×5×30。
卷积网络第五层为全连接层,在该层中构建1024个神经元,激活函数采用Relu函数。来自卷积神经网络第四层维度为5×5×30的输出被重组为维度为1×750的向量,经过该全连接层处理后输出维度1×360的向量。
卷积网络第六层为全连接层,在该层中构建128个神经元,激活函数采用Relu函数。来自卷积神经网络第五层的输出经过该全连接层处理后输出与抗干扰策略集维度对应的Q(·|θt)值向量,输出维度为1×128。该向量在后续处理中分别经过epsilon-greedy算法进行抗干扰策略选择和对net_eval网络进行网络参数训练。
进一步地,图3展示了本发明中基于强化学习的非完全信息算法性能。在图3中对比了基于完全信息博弈的抗干扰策略和随机扰干扰策略选择方法。从图中可以看出,本发明中所提出的算法回报函数最后收敛至与基于完全信息博弈的方法回报函数值,有较好的收敛效果。但是本算法博弈双方不需要完美知道对方的博弈策略,克服了博弈理论用于抗干扰策略选择时的完美假设,本发明的方法更为实用。

Claims (3)

1.一种基于强化学习的不完全信息智能抗干扰方法,该方法用于在博弈理论基础上实现合法用户在不完全估计干扰源干扰方法的情况下做出通信策略动态调整,其特征在于,包括以下步骤:
S1、初始化定义,包括:
干扰环境:根据干扰者数量、干扰方式和无线信道模型定义干扰环境;
干扰环境状态:将不同时隙测得的频谱信息构成频谱时隙矩阵,频谱时隙矩阵大小由观测频谱范围和观测时隙长度决定;
回报函数:根据合法用户的通信质量指标构造反馈回报函数;
抗干扰策略:将不同子信道上的发射功率组合定义为抗干扰策略集;
S2、将干扰环境状态,即频谱时序矩阵通过卷积神经网络得到抗干扰策略,并将该策略作用于干扰环境,根据回报函数观测当前抗干扰策略下在干扰环境的回报值;
S3、将当前抗干扰策略、干扰环境状态和抗干扰策略下的回报值构成经验组存储到经验池;
S4、从经验池中抽样经验组对卷积神经网络进行训练和参数更新;
S5、判断学习机制是否满足预设的停止条件,若满足,则停止学习得到最后抗干扰策略;否则回到S2继续学习。
2.根据权利要求1所述的一种基于强化学习的不完全信息智能抗干扰方法,其特征在于,步骤S1中所述的回报函数为:
其中,m∈{1,…,N}是信道索引号,N是信道个数,是干扰源在信道上的干扰功率,j∈{1,…,J}是干扰源索引号,J是干扰源个数;t是时序索引号;表示合法通信用户间的信道,为子信道发射功率,函数表示当fj=m时,输出1,否则输出0;是发射功率开销。
3.根据权利要求2所述的一种基于强化学习的不完全信息智能抗干扰方法,其特征在于,所述步骤S4的具体方法为:
卷积神经网络参数的训练,通过抽取的经验组中的当前状态和下一步状态通过卷积神经网络得到对应的状态行为值,并构建对应的损失函数,通过最小化损失函数进行网络参数的更新。
CN201811051896.0A 2018-09-10 2018-09-10 一种基于强化学习的不完全信息智能抗干扰方法 Expired - Fee Related CN109274456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811051896.0A CN109274456B (zh) 2018-09-10 2018-09-10 一种基于强化学习的不完全信息智能抗干扰方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811051896.0A CN109274456B (zh) 2018-09-10 2018-09-10 一种基于强化学习的不完全信息智能抗干扰方法

Publications (2)

Publication Number Publication Date
CN109274456A true CN109274456A (zh) 2019-01-25
CN109274456B CN109274456B (zh) 2020-05-01

Family

ID=65187703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811051896.0A Expired - Fee Related CN109274456B (zh) 2018-09-10 2018-09-10 一种基于强化学习的不完全信息智能抗干扰方法

Country Status (1)

Country Link
CN (1) CN109274456B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109861720A (zh) * 2019-03-15 2019-06-07 中国科学院上海高等研究院 基于强化学习的wsn抗干扰方法、装置、设备和介质
CN110176944A (zh) * 2019-04-25 2019-08-27 中国科学院上海微系统与信息技术研究所 一种基于深度学习的智能抗干扰装置及方法
CN112888071A (zh) * 2021-01-22 2021-06-01 中国人民解放军国防科技大学 基于快速强化学习的干扰规避方法、装置、设备及介质
CN112904290A (zh) * 2021-01-26 2021-06-04 西安电子科技大学 一种雷达智能认知抗干扰策略的生成方法
CN113420495A (zh) * 2021-05-31 2021-09-21 西南电子技术研究所(中国电子科技集团公司第十研究所) 主动诱骗式智能抗干扰方法
CN113507342A (zh) * 2021-08-13 2021-10-15 华侨大学 一种基于深度强化学习的无人机中继抗干扰方法
WO2022105780A1 (zh) * 2020-11-23 2022-05-27 中兴通讯股份有限公司 推荐方法、装置、电子设备、存储介质
WO2022127528A1 (zh) * 2020-12-18 2022-06-23 南京航空航天大学 一种联合网络链路级的智能动态频谱抗干扰系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104581738A (zh) * 2015-01-30 2015-04-29 厦门大学 基于q学习的认知无线电抗敌意干扰方法
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN106961684A (zh) * 2017-03-24 2017-07-18 厦门大学 基于深度强化学习的认知无线电空频二维抗敌意干扰方法
US20180124713A1 (en) * 2016-10-27 2018-05-03 Yuan Ze University Intelligent deployment cascade control device based on an fdd-ofdma indoor small cell in multi-user and interference environments
CN108012248A (zh) * 2017-12-07 2018-05-08 宁德师范学院 基于功率控制的车联网抗干扰的方法及电子设备
CN108235423A (zh) * 2017-12-29 2018-06-29 中山大学 基于q学习的无线通信防窃听干扰功率控制算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104581738A (zh) * 2015-01-30 2015-04-29 厦门大学 基于q学习的认知无线电抗敌意干扰方法
US20180124713A1 (en) * 2016-10-27 2018-05-03 Yuan Ze University Intelligent deployment cascade control device based on an fdd-ofdma indoor small cell in multi-user and interference environments
CN106961684A (zh) * 2017-03-24 2017-07-18 厦门大学 基于深度强化学习的认知无线电空频二维抗敌意干扰方法
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN108012248A (zh) * 2017-12-07 2018-05-08 宁德师范学院 基于功率控制的车联网抗干扰的方法及电子设备
CN108235423A (zh) * 2017-12-29 2018-06-29 中山大学 基于q学习的无线通信防窃听干扰功率控制算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周恒杰等: "基于不完全信息动态博弈的多信道无线网络抗干扰传输", 《电信科学》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109861720A (zh) * 2019-03-15 2019-06-07 中国科学院上海高等研究院 基于强化学习的wsn抗干扰方法、装置、设备和介质
CN109861720B (zh) * 2019-03-15 2021-07-30 中国科学院上海高等研究院 基于强化学习的wsn抗干扰方法、装置、设备和介质
CN110176944A (zh) * 2019-04-25 2019-08-27 中国科学院上海微系统与信息技术研究所 一种基于深度学习的智能抗干扰装置及方法
WO2022105780A1 (zh) * 2020-11-23 2022-05-27 中兴通讯股份有限公司 推荐方法、装置、电子设备、存储介质
US11777636B2 (en) 2020-12-18 2023-10-03 Nanjing University Of Aeronautics And Astronautics Joint link-level and network-level intelligent system and method for dynamic spectrum anti-jamming
WO2022127528A1 (zh) * 2020-12-18 2022-06-23 南京航空航天大学 一种联合网络链路级的智能动态频谱抗干扰系统及方法
CN112888071A (zh) * 2021-01-22 2021-06-01 中国人民解放军国防科技大学 基于快速强化学习的干扰规避方法、装置、设备及介质
CN112888071B (zh) * 2021-01-22 2022-05-17 中国人民解放军国防科技大学 基于快速强化学习的干扰规避方法、装置、设备及介质
CN112904290A (zh) * 2021-01-26 2021-06-04 西安电子科技大学 一种雷达智能认知抗干扰策略的生成方法
CN112904290B (zh) * 2021-01-26 2023-12-26 西安电子科技大学 一种雷达智能认知抗干扰策略的生成方法
CN113420495B (zh) * 2021-05-31 2023-02-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 主动诱骗式智能抗干扰方法
CN113420495A (zh) * 2021-05-31 2021-09-21 西南电子技术研究所(中国电子科技集团公司第十研究所) 主动诱骗式智能抗干扰方法
CN113507342A (zh) * 2021-08-13 2021-10-15 华侨大学 一种基于深度强化学习的无人机中继抗干扰方法
CN113507342B (zh) * 2021-08-13 2023-06-02 华侨大学 一种基于深度强化学习的无人机中继抗干扰方法

Also Published As

Publication number Publication date
CN109274456B (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
CN109274456A (zh) 一种基于强化学习的不完全信息智能抗干扰方法
CN109302262A (zh) 一种基于深度确定梯度强化学习的通信抗干扰方法
CN111970072B (zh) 基于深度强化学习的宽带抗干扰系统及抗干扰方法
Jiang et al. Deep learning for fading channel prediction
CN108777872B (zh) 一种基于深度q神经网络抗干扰模型的智能抗干扰方法及智能抗干扰系统
Jiang et al. Recurrent neural networks with long short-term memory for fading channel prediction
Rieser et al. Cognitive radio testbed: further details and testing of a distributed genetic algorithm based cognitive engine for programmable radios
CN105120468B (zh) 一种基于演化博弈论的动态无线网络选择方法
Koda et al. Differentially private aircomp federated learning with power adaptation harnessing receiver noise
Jiang et al. A deep learning method to predict fading channel in multi-antenna systems
CN111726217A (zh) 基于深度强化学习的宽带无线通信自主选频方法及系统
CN109743210A (zh) 基于深度强化学习的无人机网络多用户接入控制方法
CN107094060A (zh) 基于非合作博弈的分布式超密集异构网络干扰协调方法
CN108712748A (zh) 一种基于强化学习的认知无线电抗干扰智能决策的方法
Nikoloska et al. Fast power control adaptation via meta-learning for random edge graph neural networks
Çavdar PSO tuned ANFIS equalizer based on fuzzy C-means clustering algorithm
CN110011742A (zh) 基于最大互相关熵准则鲁棒稀疏的宽带频谱感知算法
CN113795049A (zh) 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法
CN115567148A (zh) 一种基于合作q学习的智能干扰方法
Nikoloska et al. Modular meta-learning for power control via random edge graph neural networks
Zhou et al. Deep deterministic policy gradient with prioritized sampling for power control
CN115103446A (zh) 一种基于深度强化学习的多用户通信抗干扰智能决策方法
Ding et al. Online regularization of complex-valued neural networks for structure optimization in wireless-communication channel prediction
Latifa et al. No-regret learning for simultaneous power control and channel allocation in cognitive radio networks
CN116866048A (zh) 抗干扰零和马尔可夫博弈模型及最大最小深度q学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200501

Termination date: 20200910