CN115276858A - 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统 - Google Patents
基于认知抗干扰模型的动态频谱多域抗干扰方法及系统 Download PDFInfo
- Publication number
- CN115276858A CN115276858A CN202210808720.5A CN202210808720A CN115276858A CN 115276858 A CN115276858 A CN 115276858A CN 202210808720 A CN202210808720 A CN 202210808720A CN 115276858 A CN115276858 A CN 115276858A
- Authority
- CN
- China
- Prior art keywords
- interference
- cognitive
- signal
- experience
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001149 cognitive effect Effects 0.000 title claims abstract description 120
- 238000001228 spectrum Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004891 communication Methods 0.000 claims abstract description 45
- 230000006870 function Effects 0.000 claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 claims abstract description 34
- 230000007774 longterm Effects 0.000 claims abstract description 7
- 230000003595 spectral effect Effects 0.000 claims description 22
- 239000000523 sample Substances 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 15
- 230000007704 transition Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 9
- 238000010183 spectrum analysis Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 230000036039 immunity Effects 0.000 claims 3
- 230000000116 mitigating effect Effects 0.000 claims 1
- 230000002787 reinforcement Effects 0.000 abstract description 17
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000004088 simulation Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000019771 cognition Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/382—Monitoring; Testing of propagation channels for resource allocation, admission control or handover
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/391—Modelling the propagation channel
- H04B17/3912—Simulation models, e.g. distribution of spectral power density or received signal strength indicator [RSSI] for a given geographic region
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Physics & Mathematics (AREA)
- Electromagnetism (AREA)
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于认知模型的动态频谱多域抗干扰方法,包括:认知服务器感知获得表征当前频谱状态的时频二维图;利用深度神经网络提取时频二维图中的特征,通过深度强化学习算法更新神经网络参数、拟合得到对应的策略价值函数并估计每个策略的长期累积奖励值;根据估计的长期累积奖励值,认知服务器决策使长期累积奖励值最大的通信策略,根据该决策的奖励值更新神经网络参数,直至达到最大循环次数时结束。该方法采用认知服务器辅助设备通信的框架,将频率与功率多域联合决策。利用深度神经网络的函数拟合能力对巨大状态空间进行特征提取和泛化,通过强化学习在动态未知的环境中获取最优抗干扰策略,有效提升了对抗恶意和无意干扰的能力。
Description
技术领域
本发明涉及无线通信抗干扰技术领域,更具体地,涉及一种基于认知抗干扰模型的动态频谱多域抗干扰方法及系统。
背景技术
由于无线信道的开放性,我国的信息安全面临严重的安全威胁,其中无线电干扰被视为最直接有效的无线攻击方式之一。然而传统的通信抗干扰方法大多采用“预先设定、被动响应”的体制,且通常从单一资源域(如单一频率或者单一功率域)设计抗干扰方法,难以应用于具备认知能力的复杂干扰场景以及复杂网络中。因此,迫切需要研究对抗复杂恶劣频谱环境的智能多域通信抗干扰方法。
人工智能中深度强化学习方法(参考文献:Mnih V,Kavukcuoglu K,Silver D,etal.Human-level control through deep reinforcement learning[J].Nature,2015,518(7540):529.)可以在动态未知、状态空间巨大的环境中挖掘环境状态的特征规律,获取接近最优的决策策略。通过深度强化学习方法,在恶意干扰以及其他通信用户用频规律先验信息未知的前提下,学习其信号在频谱上的跳变模式,将是一种可行的方案。然而,由于干扰能力的提升,对于具备认知和跟踪能力的干扰将导致深度强化学习算法难以学习其干扰规律,导致算法无法收敛。
发明内容
针对以上提到的现有技术中面临的技术问题,本发明创新性地提出了一种针对认知有意干扰和无意干扰同时存在的基于认知通信抗干扰模型的系统及动态频谱多域抗干扰方法。采用认知服务器辅助设备通信的框架,将频率与功率多域联合决策。利用深度神经网络强大的函数拟合能力对巨大状态空间进行特征提取和泛化,通过强化学习在动态未知的环境中获取最优抗干扰策略,从而可有效提升对抗恶意干扰和无意干扰的能力。
为实现上述目的,按照本发明的第一个方面,提供了一种基于认知抗干扰模型的动态频谱多域抗干扰方法,包括步骤:
以随机赋值的权重构建深度Q神经网络,生成容量为预设容量值的经验池并通过随机探索填满;
依据概率0≤ε≤1随机选择第一策略,或者,依据概率1-ε贪婪选择第二策略;
感知当前频谱,执行第一策略或第二策略来接收信号,获得奖励值;
更新频谱状态,将在一次决策时隙中的一个四元组经验存入经验池;
从经验池中随机批量采样,通过损失函数的梯度方程更新深度Q神经网络的权重。
进一步地,所述贪婪选择第二策略为贪婪选择为的第二策略,具体的,深度Q神经网络用于拟合Q值函数,该函数的输入为当前获取的频谱环境状态,输出为在当前状态下对每个策略未来长期累积奖励值的估计量,即Q值,拟合的Q值函数的表达式为:
进一步地,所述将在一次决策时隙中的一个四元组经验存入经验池具体为:
在一次决策时隙中的一个四元组经验包括当前的频谱环境状态st、当前的策略at、当前的奖励值rt和下一时刻的频谱环境状态st+1,将t时刻获得的四元组(st,at,rt,st+1)定义为一个经验;在每个决策时隙中将所获得的一个四元组经验存储到经验池中,若经验池存储的经验数量已经达到所述预设容量值,则将存储时间超过所述预设容量值的旧的经验删除而存储入新的经验。
进一步地,所述从经验池中随机批量采样,通过损失函数的梯度方程更新深度Q神经网络的权重具体包括:
训练时,采用经验值回放机制,随机选取一定数量的经验组成一组训练数据;第k次迭代时,训练深度Q神经网络的损失函数的表达式为:
通过认知服务器与频谱环境重复的交互过程积累经验e,并通过最小化损失函数更新权重θ、训练深度Q神经网络,损失函数的梯度方程为:
按照本发明的第二个方面,还提供了一种基于认知抗干扰模型的动态频谱多域抗干扰系统,该系统包括认知网络系统,所述认知网络系统包括:
认知服务器,用于向多个终端设备提供以时隙的方式认知频谱环境和数据收发的服务;
终端设备,用于接受所述认知服务器的服务,向认知服务器上传和下载数据;
干扰机,用于对认知网络系统的通信造成有意干扰;
主用户机,用于与认知网络系统共享频谱资源,并对认知网络系统的通信造成无意干扰。
进一步地,终端设备n上传相应数据至所述认知服务器时在信道k的信干噪比βn,k的公式为:
其中,hn,k为终端设备n到认知服务器的信道系数,In,k为终端设备n选择信道k时受到其他终端设备和主用户机的无意干扰,Jn,k为终端设备n受到的有意干扰功率,σ为加性高斯白噪声的功率,pn为终端设备n的功率;
通信速率Cn,k的公式为:
其中,βth为认知服务器成功解调信号门限,b为信道带宽;
所有信号同时存在时,在认知服务器接收端的功率谱密度方程S(f)的公式为:
其中,Ua(f)为主用户机信号的功率谱密度方程,ha,n、fa分别为主用户机信号的信道系数和中心频率,为除去终端设备n的终端设备集合,fm为终端设备m选择的信道,hj,n为干扰信道系数,Uj(f)为干扰的功率谱密度方程,n(f)为噪声的功率谱密度方程;
进一步地,有意干扰的信号的中心频率和带宽与认知网络系统的通信信号的中心频率和带宽保持相同,有意干扰用于尽可能使终端设备接收到的信干噪比低于解调信号门限。
进一步地,主用户机的信号模型是将主用户机的频谱接入模型建模为马尔可夫状态转移模型,令t时隙主用户机信号的状态为其中,为状态集,为认知网络系统与主用户机共享的信道集;表示主用户机静默,表示主用户机正在使用相应的信道;主用户机信号的状态转移用状态转移概率矩阵来建模,该矩阵的行与列分别表示状态,对应的元素表示转移概率。
进一步地,认知服务器以时隙的方式认知频谱环境具体为:
每一个时隙均包括感知主用户机信号、发送探针信号、感知干扰机信号和学习决策四个阶段;
感知主用户机信号阶段,认知服务器通过感知获取主用户机信号所在信道;
感知干扰机信号阶段,发送探针信号后,认知服务器马上切换到侦听状态,获得干扰机信号的信息,即干扰机信号在信道集上的功率;
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明提出的基于认知通信抗干扰模型的抗干扰系统充分考虑了认知无线网络中的认知跟踪有意干扰、主用户机无意干扰、网络工作时隙结构以及无线频谱环境的复杂性等问题,系统的模型构建更加完备,比传统的通信抗干扰模型更有实际意义。本发明提出的基于深度强化学习的动态频谱多域抗干扰方法,能够实现对系统中提出的模型的有效求解,求出认知无线网络的功率-频率联合用频策略,可有效地应对复杂的干扰环境,从而克服了传统通信抗干扰难以应对认知跟踪有意干扰和主用户机无意干扰同时存在复杂恶劣频谱环境的不足。
(2)传统深度Q学习的损失函数具有明显的周期性波动,这是因为传统深度Q学习每隔一段迭代次数才更新一次。而本发明所提出的深度强化学习算法采用了更加平滑的mellowmax算子,每次迭代都对神经网络进行更新,使得对神经网络地更新更加精确和迅速。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的认知服务器辅助的通信抗干扰系统的结构示意图;
图2为本发明实施例提供的基于深度强化学习的动态频谱多域抗干扰算法的模型框架示意图;
图3为本发明实施例提供的基于深度强化学习的动态频谱多域抗干扰通信时隙结构示意图;
图4为本发明实施例提供的一种基于认知抗干扰模型的动态频谱多域抗干扰方法的流程示意图;
图5为本发明具体实施例1提供的对比所提算法和传统深度Q学习算法的神经网络训练损失函数随着迭代次数变化的仿真图;
图6为本发明具体实施例2提供的神经网络输出的平均Q值随着迭代次数变化的仿真图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本申请的说明书、权利要求书或上述附图中的术语“第一”、“第二”或“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”或“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备并没有限定于已列出的步骤或单元,而是可选地还可以包括没有列出的步骤或单元,或可选地还可以包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
本发明所提出的一种基于认知通信抗干扰模型的抗干扰系统以及一种基于深度强化学习的动态频谱多域抗干扰方法,旨在提供方案以解决认知有意(恶意)干扰和无意干扰同时存在的认知通信抗干扰问题。提出的基于深度强化学习的动态频谱多域抗干扰方法,将认知服务器感知得到的时频二维图作为算法的输入,采用深度神经网络提取复杂频谱的特征和规律,获取恶意(有意)干扰和无意干扰信号的用频规律;接着,通过相应的决策算法,更新认知无线网络的用频策略。
本发明的目的在于提供一种基于认知通信抗干扰模型的抗干扰系统和一种基于深度强化学习的动态频谱多域抗干扰方法,该抗干扰模型能够很好地刻画面向认知有意干扰和无意干扰的认知通信抗干扰场景。实现本发明目的的技术解决方案具体如下所述。
如图1所示,在一个实施例中,一种基于认知通信抗干扰模型的抗干扰系统,对该通信抗干扰模型做如下刻画:在一个认知无线网络系统中,一个认知服务器向多个终端设备提供以时隙的方式认知频谱环境和数据收发的服务,终端设备接受所述认知服务器的服务并可通过无线通信的方式向认知服务器上传以及下载数据。一个恶意干扰机通过发送无线电干扰攻击认知无线网络系统的通信。考虑该认知无线网络系统接入一个主用户机(主用户机用于与认知网络系统共享频谱资源)的授权频段,当该主用户机通信时会对网络系统造成无意干扰。假设该认知无线网络系统与主用户机共享的信道集为信道具有相同的带宽b。终端设备的可用发送功率水平集为信道的频率为[fk-b,fk+b],其中fk为中心频率。功率满足其中U(f)为功率谱密度(Power Spectral Density,PSD)方程。在多终端设备与干扰存在的场景中,终端设备n需要选择一个空闲信道和功率以提高通信效率。以向上传相关数据至认知服务器为例,终端设备n在信道k的信干噪比(SINR,即Signal to Interference plus Noise Ratio,指的是系统中信号与干扰和噪声之和的比)如下式所示:
其中,hn,k为终端设备n到认知服务器的信道系数,In,k为终端设备n选择信道k受到其他终端设备和主用户机的同频无意干扰,Jn,k为终端设备n受到的恶意干扰功率,σ为加性高斯白噪声的功率,pn为终端设备n的功率。
通信速率Cn,k如下式所示:
其中,βth为认知服务器成功解调信号门限,b为信道带宽。
为了便于后续的频谱分析与决策,考虑所有信号同时存在,在认知服务器接收端的PSD方程S(f)如下式所示:
其中,Ua(f)为主用户机信号的PSD方程,ha,n、fa分别为主用户机信号的信道系数和中心频率,为除去终端设备n的终端设备集合(表示从集合中去除集合),fm为终端设备m选择的信道,hj,n为干扰信道系数,Uj(f)为干扰的功率谱密度方程,n(f)为噪声的功率谱密度方程。
干扰的模式是在主用户机或者网络设备开始传输后跟踪信号,且有意干扰信号的中心频率和带宽与认知无线通信网络系统的通信信号的中心频率和带宽保持相同,以此来提高隐蔽性与成功率。对于多信道场景,令干扰分配到信道k上的功率为pj,k,假设干扰通过感知获取信道k的通信功率为干扰的目的是尽可能使终端设备接收到的SINR低于解调门限。对于多信道场景,有意干扰可以通过将功率分配到多个信道上来攻击多个终端设备的上传过程。
主用户机信号模型是将主用户机的频谱接入模型建模为马尔可夫状态转移模型。令t时隙主用户机信号的状态为其中为状态集。表示主用户机静默,表示主用户机正在使用相应的信道。主用户机信号的状态转移可以用状态转移概率矩阵来建模,该矩阵的行与列分别表示状态,对应的元素表示转移概率。
有意干扰以及主用户机无意干扰同时存在的动态未知且具有对抗性的频谱环境导致通信设备获取通信策略将面临能量受限、用频行为难协调等挑战,为此,如图3所示,进行了认知服务器“感知-试探-感知-学习”的环境认知、策略学习时隙一体化的设计,具体设计如下:
认知服务器以时隙的方式认知频谱环境,1个时隙分为4个阶段:感知主用户机信号阶段、发送探针信号阶段、感知干扰机信号阶段和学习决策阶段。感知主用户机信号阶段,认知服务器通过感知获取主用户机信号所在信道;发送探针信号阶段,为获得干扰信息,认知服务器在感知完主用户机信号后发送探针信号,用来引诱干扰攻击,为了不对主用户机造成干扰,认知服务器选择子信道集以及功率ps发送短包探针信号,其中且感知干扰机信号阶段,发送探针信号后,认知服务器马上切换到侦听状态,获得干扰机信号的信息,即干扰机在信道集上的功率;学习决策阶段,根据频谱环境反馈的效果学习干扰规律以及主用户机信号的出现规律,决策下一时刻的子信道集和功率ps。
由于跟踪式认知干扰的跟随性,认知服务器与干扰之间的对抗交互具有先行和跟随的特点。对于认知服务器,为了辅助设备不被干扰,认知服务器通过学习干扰规律以及主用户信号的出现规律,输出决策定义认知服务器的效能us为:
如图4所示,在一个实施例中,一种基于深度强化学习的动态频谱多域抗干扰方法主要包括以下5个步骤:
如图2所示,该构建的深度Q神经网络采用卷积神经网络框架,输入为时频二维图,通过池化层和两层卷积层降低输入数据的维度、提取频谱环境中的特征,两层全连接层用来逼近策略价值函数,然后通过随机贪婪算法决策有效的通信策略。
其中,步骤2中的贪婪选择策略具体如下:深度Q神经网络是用来拟合策略价值函数即Q值函数的,该函数的输入为当前获取的频谱环境状态,输出为在当前状态下对每个策略未来长期累积奖励值的估计量,即Q值,拟合的Q函数表示如下:
步骤4中的将经验(st,at,rt,st+1)存入经验池中具体如下:一个经验定义为在一次决策时隙中的一个四元组,包括当前的频谱环境状态st、当前的策略at、当前的奖励值rt和下一时刻的频谱环境状态st+1,即将t时刻获得的四元组(st,at,rt,st+1)定义为一个经验;在每个时隙将所获得的一个四元组经验存储到经验池中,若经验池存储的经验数量已经达到容量值M,则将存储时间超过M的经验删除而存储入新的经验。
步骤5中的从经验池中随机批量采样(sj,aj,rj,sj+1),计算并更新权重φt具体如下:训练时,采用经验值回放机制,随机选取一定数量的经验组成一组训练数据;第k次迭代时,训练深度Q神经网络的损失函数表示如下:
通过认知服务器与频谱环境重复的交互过程积累经验e,并通过最小化损失函数更新权重θ、训练深度Q神经网络。损失函数的梯度可以表示为:
具体实施例1
在该具体实施例1中,系统仿真采用Python语言,基于TensorFlow的深度学习框架,参数设定不影响一般性。该实施例验证所提模型与算法的有效性,参数设置为:网络在14MHz频段内进行通信,认知服务器每1ms进行精度为Δf=70kHz的全频段感知,认知服务器保留历史时长为Φ=200ms内的频谱数据,因此每时刻时频二维图的维度为200×200。假设14MHz的频段内被等分为7条信道(信道1到7),每条信道的带宽约为2MHz。令干扰信号的最大功率为15dBm,IoT的功率集为认知服务器端通信的解调门限为βth=5dB,噪声水平为﹣90dBm/Hz。
图5是本发明具体实施例1中对比所提算法和传统深度Q学习算法的神经网络训练损失函数随着迭代次数变化的仿真图,其中上面波动大的是传统深度Q学习算法,较为平滑的为本发明所提算法。从图中可以看出,传统深度Q学习算法的损失函数具有明显的周期性波动,这是因为传统深度Q学习每隔一段迭代次数才更新一次。而本发明所提的深度强化学习算法采用了更加平滑的mellowmax算子,每次迭代都会进行神经网络的更新,使得神经网络的更新更加精确和迅速(图5中所示的损失函数的均值更小)。
具体实施例2
具体实施例2与具体实施例1的参数设置相同,区别仅在于研究所侧重的参数。在该具体实施例2中,系统仿真依然采用Python语言,基于TensorFlow的深度学习框架,参数设定不影响一般性。该实施例验证所提模型与算法的有效性,参数设置为:网络在14MHz频段内进行通信,认知服务器每1ms进行精度为Δf=70kHz的全频段感知,认知服务器保留历史时长为Φ=200ms内的频谱数据,因此每时刻时频二维图的维度为200×200。假设14MHz的频段内被等分为7条信道(信道1到7),每条信道的带宽约为2MHz。令干扰信号的最大功率为15dBm,IoT的功率集为认知服务器端通信的解调门限为βth=5dB,噪声水平为﹣90dBm/Hz。
图6是本发明具体实施例2中随着迭代次数的增加,认知服务器和认知干扰机效用的变化趋势,干扰效用定义为认知无线网络通信的信干噪比的负值减去其功率损耗。在所提算法的探索和训练阶段,认知服务器逐渐积累了具有高奖励值的经验,随着神经网络的更新训练,其拟合的决策策略函数与最优策略函数越来越接近,其效用呈上升趋势。但干扰机的效用显著降低,这是因为干扰机在跟踪干扰认知无线网络的通信时仅考虑当前效用,而本发明所提算法具有长期优化能力,在逐渐学习到干扰的用频规律后,能够生成有效对抗干扰的策略。
综上所述,本发明提出的基于认知通信抗干扰模型的抗干扰系统充分考虑了认知无线网络中的认知跟踪干扰、主用户机信号的存在,以及无线频谱环境的复杂性等问题,该抗干扰系统采用的模型比传统的通信抗干扰模型更有实际意义;提出的基于深度强化学习的动态频谱多域抗干扰方法,能够实现对提出的模型的有效求解,求出认知无线通信网络系统的功率-频率联合用频策略,可更有效地应对复杂的干扰环境。
需要说明的是,附图中的流程图或框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。还要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别的,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。
Claims (10)
1.一种基于认知抗干扰模型的动态频谱多域抗干扰方法,其特征在于,包括步骤:
以随机赋值的权重构建深度Q神经网络,生成容量为预设容量值的经验池并通过随机探索填满;
依据概率0≤ε≤1随机选择第一策略,或者,依据概率1-ε贪婪选择第二策略;
感知当前频谱,执行第一策略或第二策略来接收信号,获得奖励值;
更新频谱状态,将在一次决策时隙中的一个四元组经验存入经验池;
从经验池中随机批量采样,通过损失函数的梯度方程更新深度Q神经网络的权重。
3.如权利要求1所述的抗干扰方法,其特征在于,所述将在一次决策时隙中的一个四元组经验存入经验池具体为:
在一次决策时隙中的一个四元组经验包括当前的频谱环境状态st、当前的策略at、当前的奖励值rt和下一时刻的频谱环境状态st+1,将t时刻获得的四元组(st,at,rt,st+1)定义为一个经验;在每个决策时隙中将所获得的一个四元组经验存储到经验池中,若经验池存储的经验数量已经达到所述预设容量值,则将存储时间超过所述预设容量值的旧的经验删除而存储入新的经验。
5.一种基于认知抗干扰模型的动态频谱多域抗干扰系统,其特征在于,包括认知网络系统,所述认知网络系统包括:
认知服务器,用于向多个终端设备提供以时隙的方式认知频谱环境和数据收发的服务;
终端设备,用于接受所述认知服务器的服务,向认知服务器上传和下载数据;
干扰机,用于对认知网络系统的通信造成有意干扰;
主用户机,用于与认知网络系统共享频谱资源,并对认知网络系统的通信造成无意干扰。
6.如权利要求5所述的抗干扰系统,其特征在于,终端设备n上传相应数据至所述认知服务器时在信道k的信干噪比βn,k的公式为:
其中,hn,k为终端设备n到认知服务器的信道系数,In,k为终端设备n选择信道k时受到其他终端设备和主用户机的无意干扰,Jn,k为终端设备n受到的有意干扰功率,σ为加性高斯白噪声的功率,pn为终端设备n的功率;
通信速率Cn,k的公式为:
其中,βth为认知服务器成功解调信号门限,b为信道带宽;
所有信号同时存在时,在认知服务器接收端的功率谱密度方程S(f)的公式为:
其中,Ua(f)为主用户机信号的功率谱密度方程,ha,n、fa分别为主用户机信号的信道系数和中心频率,为除去终端设备n的终端设备集合,fm为终端设备m选择的信道,hj,n为干扰信道系数,Uj(f)为干扰的功率谱密度方程,n(f)为噪声的功率谱密度方程;
7.如权利要求6所述的抗干扰系统,其特征在于,有意干扰的信号的中心频率和带宽与认知网络系统的通信信号的中心频率和带宽保持相同,有意干扰用于尽可能使终端设备接收到的信干噪比低于解调信号门限。
9.如权利要求8所述的抗干扰系统,其特征在于,认知服务器以时隙的方式认知频谱环境具体为:
每一个时隙均包括感知主用户机信号、发送探针信号、感知干扰机信号和学习决策四个阶段;
感知主用户机信号阶段,认知服务器通过感知获取主用户机信号所在信道;
感知干扰机信号阶段,发送探针信号后,认知服务器马上切换到侦听状态,获得干扰机信号的信息,即干扰机信号在信道集上的功率;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210808720.5A CN115276858B (zh) | 2022-07-11 | 2022-07-11 | 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210808720.5A CN115276858B (zh) | 2022-07-11 | 2022-07-11 | 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115276858A true CN115276858A (zh) | 2022-11-01 |
CN115276858B CN115276858B (zh) | 2024-01-23 |
Family
ID=83765078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210808720.5A Active CN115276858B (zh) | 2022-07-11 | 2022-07-11 | 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115276858B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117675054A (zh) * | 2024-02-02 | 2024-03-08 | 中国电子科技集团公司第十研究所 | 一种多域联合的抗干扰智能决策方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103441779A (zh) * | 2013-09-22 | 2013-12-11 | 郭建新 | 一种基于认知无线电的跳频通信抗干扰方法 |
CN106961684A (zh) * | 2017-03-24 | 2017-07-18 | 厦门大学 | 基于深度强化学习的认知无线电空频二维抗敌意干扰方法 |
CN108777872A (zh) * | 2018-05-22 | 2018-11-09 | 中国人民解放军陆军工程大学 | 一种深度q神经网络抗干扰模型及智能抗干扰算法 |
CN109586820A (zh) * | 2018-12-28 | 2019-04-05 | 中国人民解放军陆军工程大学 | 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法 |
CN110891276A (zh) * | 2019-10-30 | 2020-03-17 | 中国人民解放军陆军工程大学 | 多用户抗干扰信道接入系统及动态频谱协同抗干扰方法 |
CN111786738A (zh) * | 2020-07-01 | 2020-10-16 | 中国人民解放军陆军工程大学 | 基于长短期记忆的抗干扰学习的网络结构及学习方法 |
CN111970072A (zh) * | 2020-07-01 | 2020-11-20 | 中国人民解放军陆军工程大学 | 基于深度强化学习的宽带抗干扰系统及抗干扰方法 |
CN112383922A (zh) * | 2019-07-07 | 2021-02-19 | 东北大学秦皇岛分校 | 一种基于优先经验重放的深度强化学习频谱共享方法 |
CN113938897A (zh) * | 2021-09-30 | 2022-01-14 | 中国人民解放军陆军工程大学 | 一种主用户友好的抗干扰动态频谱接入方法 |
CN114157345A (zh) * | 2022-02-08 | 2022-03-08 | 南京信息工程大学 | 一种基于数据辅助的无人机集群协同空域抗干扰方法 |
US20220209885A1 (en) * | 2020-12-24 | 2022-06-30 | Viettel Group | Method and apparatus for adaptive anti-jamming communications based on deep double-q reinforcement learning |
-
2022
- 2022-07-11 CN CN202210808720.5A patent/CN115276858B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103441779A (zh) * | 2013-09-22 | 2013-12-11 | 郭建新 | 一种基于认知无线电的跳频通信抗干扰方法 |
CN106961684A (zh) * | 2017-03-24 | 2017-07-18 | 厦门大学 | 基于深度强化学习的认知无线电空频二维抗敌意干扰方法 |
CN108777872A (zh) * | 2018-05-22 | 2018-11-09 | 中国人民解放军陆军工程大学 | 一种深度q神经网络抗干扰模型及智能抗干扰算法 |
CN109586820A (zh) * | 2018-12-28 | 2019-04-05 | 中国人民解放军陆军工程大学 | 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法 |
CN112383922A (zh) * | 2019-07-07 | 2021-02-19 | 东北大学秦皇岛分校 | 一种基于优先经验重放的深度强化学习频谱共享方法 |
CN110891276A (zh) * | 2019-10-30 | 2020-03-17 | 中国人民解放军陆军工程大学 | 多用户抗干扰信道接入系统及动态频谱协同抗干扰方法 |
CN111786738A (zh) * | 2020-07-01 | 2020-10-16 | 中国人民解放军陆军工程大学 | 基于长短期记忆的抗干扰学习的网络结构及学习方法 |
CN111970072A (zh) * | 2020-07-01 | 2020-11-20 | 中国人民解放军陆军工程大学 | 基于深度强化学习的宽带抗干扰系统及抗干扰方法 |
US20220209885A1 (en) * | 2020-12-24 | 2022-06-30 | Viettel Group | Method and apparatus for adaptive anti-jamming communications based on deep double-q reinforcement learning |
CN113938897A (zh) * | 2021-09-30 | 2022-01-14 | 中国人民解放军陆军工程大学 | 一种主用户友好的抗干扰动态频谱接入方法 |
CN114157345A (zh) * | 2022-02-08 | 2022-03-08 | 南京信息工程大学 | 一种基于数据辅助的无人机集群协同空域抗干扰方法 |
Non-Patent Citations (2)
Title |
---|
XIMING WANG等: ""Decentralized Reinforcement Learning Based Anti-Jamming Communication for Self-Organizing Networks"", 《2021 IEEE WIRELESS COMMUNICATIONS AND NETWORKING CONFERENCE (WCNC)》, pages 1 - 6 * |
XIMING WANG等: ""Mean Field Reinforcement Learning Based Anti-Jamming Communications for Ultra-Dense Internet of Things in 6G"", 《2020 INTERNATIONAL CONFERENCE ON WIRELESS COMMUNICATIONS AND SIGNAL PROCESSING (WCSP)》, pages 1 - 6 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117675054A (zh) * | 2024-02-02 | 2024-03-08 | 中国电子科技集团公司第十研究所 | 一种多域联合的抗干扰智能决策方法及系统 |
CN117675054B (zh) * | 2024-02-02 | 2024-04-23 | 中国电子科技集团公司第十研究所 | 一种多域联合的抗干扰智能决策方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115276858B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109302262B (zh) | 一种基于深度确定梯度强化学习的通信抗干扰方法 | |
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
CN109639377B (zh) | 基于深度强化学习的频谱资源管理方法 | |
CN111970072B (zh) | 基于深度强化学习的宽带抗干扰系统及抗干扰方法 | |
CN111726217B (zh) | 基于深度强化学习的宽带无线通信自主选频方法及系统 | |
CN111628855B (zh) | 基于深度强化学习的工业5g动态多优先级多接入方法 | |
US20210326695A1 (en) | Method and apparatus employing distributed sensing and deep learning for dynamic spectrum access and spectrum sharing | |
CN113316154B (zh) | 一种授权和免授权d2d通信资源联合智能分配方法 | |
CN110167176B (zh) | 一种基于分布式机器学习的无线网络资源分配方法 | |
CN111917509A (zh) | 基于信道-带宽联合决策的多域智能通信模型及通信方法 | |
CN112188503B (zh) | 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法 | |
CN113423110B (zh) | 基于深度强化学习的多用户多信道动态频谱接入方法 | |
CN116456493A (zh) | 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质 | |
CN112672426B (zh) | 一种基于在线学习的抗干扰频点分配方法 | |
CN112153744B (zh) | 一种icv网络中物理层安全资源分配方法 | |
CN109309539A (zh) | 一种基于深度强化学习的信息聚合短波选频方法 | |
CN115276858A (zh) | 基于认知抗干扰模型的动态频谱多域抗干扰方法及系统 | |
CN114126021A (zh) | 一种基于深度强化学习的绿色认知无线电的功率分配方法 | |
CN115811788B (zh) | 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法 | |
CN116567843A (zh) | 一种无线资源分配优化装置及方法 | |
CN116866048A (zh) | 抗干扰零和马尔可夫博弈模型及最大最小深度q学习方法 | |
Tan et al. | A hybrid architecture of cognitive decision engine based on particle swarm optimization algorithms and case database | |
CN113890653B (zh) | 面向多用户利益的多智能体强化学习功率分配方法 | |
Song et al. | Adaptive generalized proportional fair scheduling with deep reinforcement learning | |
KR102234049B1 (ko) | 강화 학습 기반 적응형 변복조를 위한 수신기, 시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |