CN107332855B - 基于增强学习算法的主用户仿真攻击检测方法 - Google Patents
基于增强学习算法的主用户仿真攻击检测方法 Download PDFInfo
- Publication number
- CN107332855B CN107332855B CN201710596776.8A CN201710596776A CN107332855B CN 107332855 B CN107332855 B CN 107332855B CN 201710596776 A CN201710596776 A CN 201710596776A CN 107332855 B CN107332855 B CN 107332855B
- Authority
- CN
- China
- Prior art keywords
- spectrum
- value
- channel
- detection
- learning algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 56
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 23
- 238000004088 simulation Methods 0.000 title claims abstract description 14
- 230000002787 reinforcement Effects 0.000 title claims description 5
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000009471 action Effects 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 6
- 238000001228 spectrum Methods 0.000 claims description 70
- 230000001149 cognitive effect Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims 1
- 230000008859 change Effects 0.000 abstract description 9
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/02—Resource partitioning among network components, e.g. reuse partitioning
- H04W16/10—Dynamic resource partitioning
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及基于增强学习算法的主用户仿真攻击检测方法。现有方法中当CRN的信道环境发生变化时,检测性能会明显下降。本发明方法以Q‑Learning算法在线学习不同信道环境下的判决检测门限值,即采用信道多径时延差作为状态参数,以判决门限作为动作策略,并将长时检测收益作为系统的回报函数,根据管理机构在每个周期的反馈奖罚值,通过Q‑Learning算法实时调整判决门限。本发明以Q‑Learning算法动态调整判决门限,无需PU特征参数作为先验信息,能有效提升信道环境变化情况下的检测性能,且无需改变已有SU的硬件配置。
Description
技术领域
本发明专利属于认知无线电安全技术领域,涉及一种在信道环境变化情况下,基于增强学习算法的主用户仿真攻击检测方法。
背景技术
认知无线电网络(Cognitive Radio Network,CRN)通过动态频谱接入机制,可以有效利用空闲频谱资源,提高资源利用率。动态频谱接入要求从用户(Secondary User,SU)在不干扰某频段内授权用户即主用户(Primary User,PU)正常工作的条件下,通过频谱感知技术获取空闲频谱信息并伺机接入。但是,动态频谱接入机制为CRN引入了特有的安全问题,主用户仿真攻击(Primary User Emulation Attack,PUEA)是其中一类典型攻击。在PUEA中,恶意用户(Malicious User,MU)通过模仿PU的信号特征,使SU误认为当前频段正在被使用,从而达到独占空闲频谱资源或不让其他SU接入空闲频谱的目的。
目前已有的PUEA检测方法主要有发射机地理位置检测法、发射机指纹特征检测法与信道特征检测法。基于发射机地理位置的检测法可以通过距离比值检测法、距离差值检测法、接收信号强度检测法等方法检测发射源的地理位置,从而判断是否存在攻击,这种方法容易受到地理环境的影响。基于发射机指纹特征的检测法利用发射机指纹特征难以被模仿的特点设计实现,指纹特征包括相位噪声、发射机频偏、周期平稳特征值等,这种方法容易引入高估计噪声,检测性能偏低。基于信道特征的检测法利用发射机与接收机间的信道特征设计实现,常用的信道特征包括接收信号的能量、接收信号能量的方差与信道冲激响应的幅度,这类方法适用于信道环境稳定场景下。
上述基于信道特征的PUEA检测方法是通过构建二元假设检验,预设判决门限值,比较从感知信号中提取的信号特征值与已知PU特征值,从而判断PUEA是否存在。但是,当信道环境发生变化时,预设门限的基于信号特征的PUEA检测方法无法获得良好的检测性能。因此,我们需要寻找一种新的PUEA检测方法,实现在信道环境变化场景下也能保证性能。
发明内容
本发明针对现有技术的不足,提供一种基于增强学习算法的主用户仿真攻击检测方法。
本发明方法对信道环境变化情况下的CRN,建立一种系统模型,实现基于Q-Learning算法的PUEA检测方法;所述Q-Learning算法为增强学习算法。
本发明所述方法在信道环境发生变化的情况下,SU估计接收信号所经历信道的多径传播时延差作为特征参数,通过Q-Learning算法动态设定判决门限,同时根据环境反馈更新PU的特征参数,以此提升检测性能。本发明无需PU特征参数与给定门限值,通过在线学习实时调整不同信道环境下的判决门限,且所检测特征无法被MU模仿,检测概率高,在信道环境变化的CRN中有良好的应用前景。
为了实现上述目的,本发明所采用的技术方案的具体步骤为:
步骤1.认知无线电网络的PU以概率p使用授权频谱资源;当PU不工作时,MU以概率q模仿PU信号特征并对SU发起攻击,其中q≤1-p;当感知为无空闲频谱时,SU为防止频谱被MU恶意占用进行主用户仿真攻击检测,首先构建二元假设检验为:
所述的PU为主用户、SU为从用户、MU为恶意用户,H0和H1分别表示SU判断接收信号来自于PU和MU;
其中τPU为接收信号来自于PU时的信道多径时延差,λk为判决门限值;当判断接收信号来自于PU时,SU选择放弃接入频谱并继续进行频谱感知;当判决接收信号来自于MU时,SU选择接入频谱并发起攻击警报;信道多径时延差估计采用成熟的现有技术,如专利号为201510900340.4、发明名称为“基于信道多径时延差的主用户仿真攻击检测方法”中采用的信道多径时延估计方法;SU在每个时隙结束时收到认知无线电管理结构对频谱决策行为反馈的奖罚值,其中正确使用空闲频谱的收益为G,对主用户网络造成的干扰代价为C。
步骤2.建立回报函数,确定主用户仿真攻击检测中判决门限策略的优化目标;以SU获得的收益值作为检测的回报函数,计算公式为:
uk(λk)=(1-p-q)G+qPD,k(λk)G-pPFP,k(λk)C;
其中PD,k(λk)表示第k个时隙进行主用户仿真攻击检测的检测概率,PFP,k(λk)表示第k个时隙进行主用户仿真攻击检测的虚警概率;SU在信道环境变化时通过调整判决门限,使回报函数uk(λk)最大化。
步骤3.SU通过Q-Learning算法进行在线学习,动态调整不同信道环境下的检测判决门限值;状态集S用信道多径时延差的估计值表示,量化为sk∈{l·Ts|0≤l≤L},l为整数;其中Ts为SU的采样时间间隔,L为l的取值上限,由认知无线电网络中信道多径时延差最大值τmax决定,即L=τmax/Ts;动作集A用判决门限值表示,量化为λk∈{l·Ts/2|0≤l≤2L};建立行动值函数Q(sk,λk),通过奖罚反馈值rk进行迭代计算,行动空间为:
步骤3中所述的在线学习算法的具体过程如下:
步骤3-1.初始化PU信号的信道多径时延差预设值,随机选取τPU∈{l·Ts|0<l≤L};
步骤3-2.初始化SU的接收机参数,包括采样时间间隔Ts与接收机信噪比SNR;
步骤3-3.初始化学习速率α、折扣因子β、贪婪策略因子ε;初始化Q(sk,λk)=0,奖罚反馈值r0=0;随机选取状态初始值s0∈{l·Ts|0≤l≤L},动作初始值λ0∈{l·Ts/2|0≤l≤2L};
步骤3-5.更新行动值函数:
rk-1表示在第(k-1)个时隙结束时收到认知无线电管理结构对频谱决策行为反馈的奖罚值;
步骤3-9.如果SU停止频谱感知,则算法结束;如果SU仍处于频谱感知状态,则重复上述步骤3-4至步骤3-8的过程。
本发明是基于信道多径时延差的主用户仿真攻击检测方法,与现有的检测方法相比,有益效果体现在:
1、现有的PUEA检测方法大都基于信道环境稳定的情况下设计,当CRN内信道环境变化时,现有检测方法的检测性能下降。本发明基于Q-Learning算法动态调整不同信道环境下的判决门限,并根据环境反馈更新PU特征参数,可以在信道环境变化的CRN中正常工作。
2、本发明用于信道环境变化场景下的CRN,认知无线电用户具有频谱感知功能与重配置能力,可以动态改变发射参数,在不同频谱决策行为下会收到管理机构的奖罚反馈,故满足Q-Learning算法中参与者所需的条件,无需改变已有硬件配置。
3、本发明以信道多径时延差作为检测的特征参数,该特征参数属于信道的固有参数,且随着发射机和接收机的地理位置变化而变化,故MU无法通过重配置能力进行模仿,检测概率高。
附图说明
图1为本发明的CRN网络模型。
图2为基于Q-Learning的主用户仿真攻击检测方法。
具体实施方式
以下结合附图并举实施例对本发明做进一步详细说明。
本实例工作在信道环境变化的CRN,如图1所示,该环境满足以下条件:
(1)在每个时隙,为保证无通信冲突,该CRN区域内至多只有一个用户发射信号并占用频谱;
(2)在第k个时隙,PU的工作概率为p;当PU不工作时,MU以概率q发起攻击,其中q≤1-p;
(3)SU接收来自PU和MU的信号考虑信道多径衰落的影响;
(4)在每个时隙,SU使用空闲频谱的收益为G,对主用户网络造成干扰的代价为C。
如图2,本实例具体通过以下步骤实现:
步骤1、在第k个时隙,PU的工作概率p为0.5;当PU不工作时,MU发起攻击的概率q为0.9;SU先进行频谱感知检测频谱是否被使用,如果无空闲频谱,SU为防止频谱被MU恶意占用进行PUEA检测,首先构建二元假设检验如下:
其中τPU为PU信号的信道多径时延差,λk为判决门限值。当判断接收信号来自于PU时,SU选择放弃接入频谱并继续进行频谱感知;当判决接收信号来自于MU时,SU选择接入频谱并发起攻击警报。SU在每个时隙收到认知无线电管理结构反馈的奖罚值;
步骤2:建立回报函数,确定PUEA检测中判决门限策略的优化目标;以SU获得的收益值作为检测的回报函数,计算公式为:
uk(λk)=(1-p-q)G+qPD,k(λk)G-pPFP,k(λk)C;
其中PD,k(λk)表示第k个时隙进行PUEA检测的检测概率,PFP,k(λk)表示第k个时隙进行PUEA检测的虚警概率。SU在信道环境变化时通过调整判决门限,使回报函数uk(λk)最大化;其中G=1,C=-1;
步骤3:SU通过Q-Learning算法进行在线学习,动态调整不同信道环境下的检测判决门限值;状态集S用信道多径时延差的估计值表示,量化为sk∈{l·Ts|0≤l≤L},其中Ts为SU的采样时间间隔,L为l的取值上限,l为整数,取L=25,Ts=0.04μs;动作集A用判决门限值表示,量化为λk∈{l·Ts/2|0≤l≤2L};建立行动值函数Q(sk,λk),通过奖罚反馈值rk进行迭代计算。具体过程如下:
第(1)步、初始化PU信号的信道多径时延差预设值,随机选取τPU=0.5μs;确定L=25;
第(2)步、初始化SU的接收机参数,包括采样时间间隔Ts=0.04μs与接收机信噪比SNR=1dB;
第(3)步、初始化学习速率α=0.5,折扣因子β=0.1,贪婪策略因子ε=0.1;初始化Q(sk,λk)=0,奖罚反馈值r0=0;随机选取状态初始值s0=0,动作初始值λ0=Ts;
第(5)步、更新行动值函数:
第(9)步、如果SU停止频谱感知,则算法结束;如果SU仍处于频谱感知状态,则重复上述第(4)步至第(8)步的过程。
Claims (1)
1.基于增强学习算法的主用户仿真攻击检测方法,其特征在于该方法以增强学习算法在线学习不同信道环境下的判决检测门限值,即采用信道多径时延差作为状态参数,以判决门限作为动作策略,并将长时检测收益作为系统的回报函数,根据管理机构在每个周期的反馈奖罚值,通过增强学习算法实时调整判决门限;该方法的具体步骤是:
步骤1.认知无线电网络的PU以概率p使用授权频谱资源;当PU不工作时,MU以概率q模仿PU信号特征并对SU发起攻击,其中q≤1-p;当感知为无空闲频谱时,SU为防止频谱被MU恶意占用进行主用户仿真攻击检测,首先构建二元假设检验为:
所述的PU为主用户、SU为从用户、MU为恶意用户,H0、H1分别表示SU判断接收信号来自于PU和MU;
其中τPU为接收信号来自于PU时的信道多径时延差,λk为判决门限值;当判断接收信号来自于PU时,SU选择放弃接入频谱并继续进行频谱感知;当判决接收信号来自于MU时,SU选择接入频谱并发起攻击警报;SU在每个时隙结束时收到认知无线电管理结构对频谱决策行为反馈的奖罚值,其中正确使用空闲频谱的收益为G,对主用户网络造成的干扰代价为C;
步骤2.建立回报函数,确定主用户仿真攻击检测中判决门限策略的优化目标;以SU获得的收益值作为检测的回报函数,计算公式为:
uk(λk)=(1-p-q)G+qPD,k(λk)G-pPFP,k(λk)C;
其中PD,k(λk)表示第k个时隙进行主用户仿真攻击检测的检测概率,PFP,k(λk)表示第k个时隙进行主用户仿真攻击检测的虚警概率;SU在信道环境变化时通过调整判决门限,使回报函数uk(λk)最大化;
步骤3.SU通过增强学习算法进行在线学习,动态调整不同信道环境下的检测判决门限值;状态集S用信道多径时延差的估计值表示,量化为sk∈{l·Ts|0≤l≤L},l为整数;其中Ts为SU的采样时间间隔,L为l的取值上限,由认知无线电网络中信道多径时延差最大值τmax决定,即L=τmax/Ts;动作集A用判决门限值表示,量化为λk∈{l·Ts/2|0≤l≤2L};建立行动值函数Q(sk,λk),通过奖罚反馈值rk进行迭代计算,行动空间为:
具体过程如下:
步骤3-1.初始化PU信号的信道多径时延差预设值,随机选取τPU∈{l·Ts|0<l≤L};
步骤3-2.初始化SU的接收机参数,包括采样时间间隔Ts与接收机信噪比SNR;
步骤3-3.初始化学习速率α、折扣因子β、贪婪策略因子ε;初始化Q(sk,λk)=0,奖罚反馈值r0=0;随机选取状态初始值s0∈{l·Ts|0≤l≤L},动作初始值λ0∈{l·Ts/2|0≤l≤2L};
步骤3-5.更新行动值函数:
rk-1表示在第(k-1)个时隙结束时收到认知无线电管理结构对频谱决策行为反馈的奖罚值;
步骤3-9.如果SU停止频谱感知,则算法结束;如果SU仍处于频谱感知状态,则重复上述步骤3-4至步骤3-8的过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710596776.8A CN107332855B (zh) | 2017-07-20 | 2017-07-20 | 基于增强学习算法的主用户仿真攻击检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710596776.8A CN107332855B (zh) | 2017-07-20 | 2017-07-20 | 基于增强学习算法的主用户仿真攻击检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107332855A CN107332855A (zh) | 2017-11-07 |
CN107332855B true CN107332855B (zh) | 2020-04-28 |
Family
ID=60227810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710596776.8A Active CN107332855B (zh) | 2017-07-20 | 2017-07-20 | 基于增强学习算法的主用户仿真攻击检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107332855B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108601026B (zh) * | 2018-04-02 | 2020-04-10 | 浙江大学 | 基于随机抽样一致性的感知数据错误化攻击检测方法 |
CN109951451A (zh) * | 2019-02-21 | 2019-06-28 | 北京工业大学 | 雾计算中一种基于强化学习的伪装攻击检测方法 |
CN109787996B (zh) * | 2019-02-21 | 2021-11-12 | 北京工业大学 | 雾计算中一种基于dql算法的伪装攻击检测方法 |
CN110401675B (zh) * | 2019-08-20 | 2020-07-03 | 绍兴文理学院 | 一种传感云环境下不确定性DDoS攻击防御方法 |
CN115632742A (zh) * | 2022-08-31 | 2023-01-20 | 深圳市中易腾达科技股份有限公司 | 信号处理方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105554739A (zh) * | 2015-12-08 | 2016-05-04 | 浙江大学 | 基于信道多径时延差的主用户仿真攻击检测方法 |
CN106162620A (zh) * | 2016-08-12 | 2016-11-23 | 浙江大学 | 一种基于信道多普勒效应的主用户仿真攻击检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8843127B2 (en) * | 2011-06-27 | 2014-09-23 | Nokia Corporation | Method and apparatus for providing optimized privacy in cognitive radio information sharing |
-
2017
- 2017-07-20 CN CN201710596776.8A patent/CN107332855B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105554739A (zh) * | 2015-12-08 | 2016-05-04 | 浙江大学 | 基于信道多径时延差的主用户仿真攻击检测方法 |
CN106162620A (zh) * | 2016-08-12 | 2016-11-23 | 浙江大学 | 一种基于信道多普勒效应的主用户仿真攻击检测方法 |
Non-Patent Citations (2)
Title |
---|
A primary user emulation attack detection scheme in cognitive radio network with mobile secondary user;Yongchengli;《2016 2nd IEEE International Conference on Computer and Communications (ICCC)》;20170511;全文 * |
认知无线电网络中移动场景下主用户仿真攻击及其防御策略研究;鲍飞静;《中国优秀硕士学位论文全文库信息科技辑》;20130331;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107332855A (zh) | 2017-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107332855B (zh) | 基于增强学习算法的主用户仿真攻击检测方法 | |
Liu et al. | A two dimensional quantization algorithm for CIR-based physical layer authentication | |
CN103117820B (zh) | 基于可信度的加权协作频谱检测方法 | |
CN108712748A (zh) | 一种基于强化学习的认知无线电抗干扰智能决策的方法 | |
CN106713190B (zh) | 基于随机矩阵理论和特征阈值估计的mimo发射天线数目盲估计算法 | |
Bkassiny et al. | Blind cyclostationary feature detection based spectrum sensing for autonomous self-learning cognitive radios | |
CN105025583A (zh) | 基于能量与协方差检测的分步频谱感知方法 | |
CN105554739B (zh) | 基于信道多径时延差的主用户仿真攻击检测方法 | |
Nadeem et al. | Non-cooperative spectrum sensing in context of primary user detection: A review | |
CN102291713B (zh) | 一种缓减主用户仿真攻击影响的方法 | |
Kalambe et al. | Performance evolution of energy detection spectrum sensing technique used in cognitive radio | |
CN103780323B (zh) | 一种基于信号聚合特性的认知无线电宽带频谱感知方法 | |
CN109639374B (zh) | 一种基于强化学习算法的认知抗干扰通信方法 | |
CN107454598B (zh) | 一种基于i/q不平衡的主用户仿真攻击检测方法 | |
Hekkala et al. | Cooperative spectrum sensing study using welch periodogram | |
Xue et al. | Cognitive‐Based High Robustness Frequency Hopping Strategy for UAV Swarms in Complex Electromagnetic Environment | |
CN113784353A (zh) | 用于状态更新系统的方法、装置及存储介质 | |
CN106162620B (zh) | 一种基于信道多普勒效应的主用户仿真攻击检测方法 | |
Kumar et al. | Comprehensive analysis of cyclo-stationary feature detection technique for efficient spectrum usage: Future research and recent advantages | |
Mariani | Spectrum sensing algorithms for cognitive radio applications | |
Miah et al. | An eigenvalue and superposition approach based cooperative spectrum sensing in cognitive radio networks | |
CN105392203A (zh) | 一种基于节点过滤的协作频谱感知方法 | |
Yang et al. | Full-duplex spectrum sensing scheme based on phase difference | |
CN104901755A (zh) | 一种基于ofdm的认知无线电协作频谱感知方法 | |
CN111313990A (zh) | 基于信号实时似然比的频谱感知方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |