CN107332855B

CN107332855B - 基于增强学习算法的主用户仿真攻击检测方法

Info

Publication number: CN107332855B
Application number: CN201710596776.8A
Authority: CN
Inventors: 陈惠芳; 谢磊; 马向荣
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2020-04-28
Anticipated expiration: 2037-07-20
Also published as: CN107332855A

Abstract

本发明涉及基于增强学习算法的主用户仿真攻击检测方法。现有方法中当CRN的信道环境发生变化时，检测性能会明显下降。本发明方法以Q‑Learning算法在线学习不同信道环境下的判决检测门限值，即采用信道多径时延差作为状态参数，以判决门限作为动作策略，并将长时检测收益作为系统的回报函数，根据管理机构在每个周期的反馈奖罚值，通过Q‑Learning算法实时调整判决门限。本发明以Q‑Learning算法动态调整判决门限，无需PU特征参数作为先验信息，能有效提升信道环境变化情况下的检测性能，且无需改变已有SU的硬件配置。

Description

基于增强学习算法的主用户仿真攻击检测方法

技术领域

本发明专利属于认知无线电安全技术领域，涉及一种在信道环境变化情况下，基于增强学习算法的主用户仿真攻击检测方法。

背景技术

认知无线电网络(Cognitive Radio Network，CRN)通过动态频谱接入机制，可以有效利用空闲频谱资源，提高资源利用率。动态频谱接入要求从用户(Secondary User，SU)在不干扰某频段内授权用户即主用户(Primary User，PU)正常工作的条件下，通过频谱感知技术获取空闲频谱信息并伺机接入。但是，动态频谱接入机制为CRN引入了特有的安全问题，主用户仿真攻击(Primary User Emulation Attack，PUEA)是其中一类典型攻击。在PUEA中，恶意用户(Malicious User,MU)通过模仿PU的信号特征，使SU误认为当前频段正在被使用，从而达到独占空闲频谱资源或不让其他SU接入空闲频谱的目的。

目前已有的PUEA检测方法主要有发射机地理位置检测法、发射机指纹特征检测法与信道特征检测法。基于发射机地理位置的检测法可以通过距离比值检测法、距离差值检测法、接收信号强度检测法等方法检测发射源的地理位置，从而判断是否存在攻击，这种方法容易受到地理环境的影响。基于发射机指纹特征的检测法利用发射机指纹特征难以被模仿的特点设计实现，指纹特征包括相位噪声、发射机频偏、周期平稳特征值等，这种方法容易引入高估计噪声，检测性能偏低。基于信道特征的检测法利用发射机与接收机间的信道特征设计实现，常用的信道特征包括接收信号的能量、接收信号能量的方差与信道冲激响应的幅度，这类方法适用于信道环境稳定场景下。

上述基于信道特征的PUEA检测方法是通过构建二元假设检验，预设判决门限值，比较从感知信号中提取的信号特征值与已知PU特征值，从而判断PUEA是否存在。但是，当信道环境发生变化时，预设门限的基于信号特征的PUEA检测方法无法获得良好的检测性能。因此，我们需要寻找一种新的PUEA检测方法，实现在信道环境变化场景下也能保证性能。

发明内容

本发明针对现有技术的不足，提供一种基于增强学习算法的主用户仿真攻击检测方法。

本发明方法对信道环境变化情况下的CRN，建立一种系统模型，实现基于Q-Learning算法的PUEA检测方法；所述Q-Learning算法为增强学习算法。

本发明所述方法在信道环境发生变化的情况下，SU估计接收信号所经历信道的多径传播时延差作为特征参数，通过Q-Learning算法动态设定判决门限，同时根据环境反馈更新PU的特征参数，以此提升检测性能。本发明无需PU特征参数与给定门限值，通过在线学习实时调整不同信道环境下的判决门限，且所检测特征无法被MU模仿，检测概率高，在信道环境变化的CRN中有良好的应用前景。

为了实现上述目的，本发明所采用的技术方案的具体步骤为：

步骤1.认知无线电网络的PU以概率p使用授权频谱资源；当PU不工作时，MU以概率q模仿PU信号特征并对SU发起攻击，其中q≤1-p；当感知为无空闲频谱时，SU为防止频谱被MU恶意占用进行主用户仿真攻击检测，首先构建二元假设检验为：

所述的PU为主用户、SU为从用户、MU为恶意用户，H₀和H₁分别表示SU判断接收信号来自于PU和MU；

然后通过信道估计得到第k个时隙的信道多径时延差

根据以下准则做出判决：

其中τ_PU为接收信号来自于PU时的信道多径时延差，λ_k为判决门限值；当判断接收信号来自于PU时，SU选择放弃接入频谱并继续进行频谱感知；当判决接收信号来自于MU时，SU选择接入频谱并发起攻击警报；信道多径时延差估计采用成熟的现有技术，如专利号为201510900340.4、发明名称为“基于信道多径时延差的主用户仿真攻击检测方法”中采用的信道多径时延估计方法；SU在每个时隙结束时收到认知无线电管理结构对频谱决策行为反馈的奖罚值，其中正确使用空闲频谱的收益为G，对主用户网络造成的干扰代价为C。

步骤2.建立回报函数，确定主用户仿真攻击检测中判决门限策略的优化目标；以SU获得的收益值作为检测的回报函数，计算公式为：

u_k(λ_k)＝(1-p-q)G+qP_D,k(λ_k)G-pP_FP,k(λ_k)C；

其中P_D,k(λ_k)表示第k个时隙进行主用户仿真攻击检测的检测概率，P_FP,k(λ_k)表示第k个时隙进行主用户仿真攻击检测的虚警概率；SU在信道环境变化时通过调整判决门限，使回报函数u_k(λ_k)最大化。

步骤3.SU通过Q-Learning算法进行在线学习，动态调整不同信道环境下的检测判决门限值；状态集S用信道多径时延差的估计值表示，量化为s_k∈{l·T_s|_0≤l≤L}，l为整数；其中T_s为SU的采样时间间隔，L为l的取值上限，由认知无线电网络中信道多径时延差最大值τ_max决定，即L＝τ_max/T_s；动作集A用判决门限值表示，量化为λ_k∈{l·T_s/2|_0≤l≤2L}；建立行动值函数Q(s_k,λ_k)，通过奖罚反馈值r_k进行迭代计算，行动空间为：

步骤3中所述的在线学习算法的具体过程如下：

步骤3-1.初始化PU信号的信道多径时延差预设值，随机选取τ_PU∈{l·T_s|_0＜l≤L}；

步骤3-2.初始化SU的接收机参数，包括采样时间间隔T_s与接收机信噪比SNR；

步骤3-3.初始化学习速率α、折扣因子β、贪婪策略因子ε；初始化Q(s_k,λ_k)＝0，奖罚反馈值r₀＝0；随机选取状态初始值s₀∈{l·T_s|_0≤l≤L}，动作初始值λ₀∈{l·T_s/2|_0≤l≤2L}；

步骤3-4.在第k个时隙，SU通过频谱感知观测频谱状态，如果空闲频谱存在，则s_k＝0，s_k表示在第k个时隙基于接收信号估计的信道多径时延差；否则估计接收信号的信道多径时延差为

令

步骤3-5.更新行动值函数：

r_k-1表示在第(k-1)个时隙结束时收到认知无线电管理结构对频谱决策行为反馈的奖罚值；

步骤3-6.如果s_k＝0，SU选择接入频谱，并更新λ_k←λ_k-1；否则SU以(1-ε)的概率选取判决门限

以ε的概率随机选取动作集中的判决门限λ_k∈A；

步骤3-7.如果

SU判断当前频谱内工作用户为PU，选择不接入频谱并继续观测；否则SU判断当前频谱内工作用户为MU，选择发起攻击警报并接入频谱；

步骤3-8.SU获得认知无线电管理机构对频谱决策行为反馈的奖罚值r_k，如果得到惩罚则证明当前工作用户为PU，更新

步骤3-9.如果SU停止频谱感知，则算法结束；如果SU仍处于频谱感知状态，则重复上述步骤3-4至步骤3-8的过程。

本发明是基于信道多径时延差的主用户仿真攻击检测方法，与现有的检测方法相比，有益效果体现在：

1、现有的PUEA检测方法大都基于信道环境稳定的情况下设计，当CRN内信道环境变化时，现有检测方法的检测性能下降。本发明基于Q-Learning算法动态调整不同信道环境下的判决门限，并根据环境反馈更新PU特征参数，可以在信道环境变化的CRN中正常工作。

2、本发明用于信道环境变化场景下的CRN，认知无线电用户具有频谱感知功能与重配置能力，可以动态改变发射参数，在不同频谱决策行为下会收到管理机构的奖罚反馈，故满足Q-Learning算法中参与者所需的条件，无需改变已有硬件配置。

3、本发明以信道多径时延差作为检测的特征参数，该特征参数属于信道的固有参数，且随着发射机和接收机的地理位置变化而变化，故MU无法通过重配置能力进行模仿，检测概率高。

附图说明

图1为本发明的CRN网络模型。

图2为基于Q-Learning的主用户仿真攻击检测方法。

具体实施方式

以下结合附图并举实施例对本发明做进一步详细说明。

本实例工作在信道环境变化的CRN，如图1所示，该环境满足以下条件：

(1)在每个时隙，为保证无通信冲突，该CRN区域内至多只有一个用户发射信号并占用频谱；

(2)在第k个时隙，PU的工作概率为p；当PU不工作时，MU以概率q发起攻击，其中q≤1-p；

(3)SU接收来自PU和MU的信号考虑信道多径衰落的影响；

(4)在每个时隙，SU使用空闲频谱的收益为G，对主用户网络造成干扰的代价为C。

如图2，本实例具体通过以下步骤实现：

步骤1、在第k个时隙，PU的工作概率p为0.5；当PU不工作时，MU发起攻击的概率q为0.9；SU先进行频谱感知检测频谱是否被使用，如果无空闲频谱，SU为防止频谱被MU恶意占用进行PUEA检测，首先构建二元假设检验如下：

然后通过信道估计得到第k个时隙的信道多径时延差

根据以下准则做出判决：

其中τ_PU为PU信号的信道多径时延差，λ_k为判决门限值。当判断接收信号来自于PU时，SU选择放弃接入频谱并继续进行频谱感知；当判决接收信号来自于MU时，SU选择接入频谱并发起攻击警报。SU在每个时隙收到认知无线电管理结构反馈的奖罚值；

步骤2：建立回报函数，确定PUEA检测中判决门限策略的优化目标；以SU获得的收益值作为检测的回报函数，计算公式为：

u_k(λ_k)＝(1-p-q)G+qP_D,k(λ_k)G-pP_FP,k(λ_k)C；

其中P_D,k(λ_k)表示第k个时隙进行PUEA检测的检测概率，P_FP,k(λ_k)表示第k个时隙进行PUEA检测的虚警概率。SU在信道环境变化时通过调整判决门限，使回报函数u_k(λ_k)最大化；其中G＝1,C＝-1；

步骤3：SU通过Q-Learning算法进行在线学习，动态调整不同信道环境下的检测判决门限值；状态集S用信道多径时延差的估计值表示，量化为s_k∈{l·T_s|_0≤l≤L}，其中T_s为SU的采样时间间隔，L为l的取值上限，l为整数，取L＝25,T_s＝0.04μs；动作集A用判决门限值表示，量化为λ_k∈{l·T_s/2|_0≤l≤2L}；建立行动值函数Q(s_k,λ_k)，通过奖罚反馈值r_k进行迭代计算。具体过程如下：

第(1)步、初始化PU信号的信道多径时延差预设值，随机选取τ_PU＝0.5μs；确定L＝25；

第(2)步、初始化SU的接收机参数，包括采样时间间隔T_s＝0.04μs与接收机信噪比SNR＝1dB；

第(3)步、初始化学习速率α＝0.5，折扣因子β＝0.1，贪婪策略因子ε＝0.1；初始化Q(s_k,λ_k)＝0，奖罚反馈值r₀＝0；随机选取状态初始值s₀＝0，动作初始值λ₀＝T_s；

第(4)步、在第k个时隙，SU通过频谱感知观测频谱状态，如果空闲频谱存在则s_k＝0；否则估计接收信号的信道多径时延差为

令

第(5)步、更新行动值函数：

第(6)步、如果s_k＝0，SU选择接入频谱，并更新λ_k←λ_k-1；否则SU以0.9的概率选取判决门限

以0.1的概率随机选取动作集中的判决门限λ_k∈A；

第(7)步、如果

第(8)步、SU获得认知无线电管理机构对频谱决策的奖罚反馈值r_k，如果得到惩罚则证明当前工作用户为PU，更新

第(9)步、如果SU停止频谱感知，则算法结束；如果SU仍处于频谱感知状态，则重复上述第(4)步至第(8)步的过程。

Claims

1.基于增强学习算法的主用户仿真攻击检测方法，其特征在于该方法以增强学习算法在线学习不同信道环境下的判决检测门限值，即采用信道多径时延差作为状态参数，以判决门限作为动作策略，并将长时检测收益作为系统的回报函数，根据管理机构在每个周期的反馈奖罚值，通过增强学习算法实时调整判决门限；该方法的具体步骤是：

所述的PU为主用户、SU为从用户、MU为恶意用户，H₀、H₁分别表示SU判断接收信号来自于PU和MU；

然后通过信道估计得到第k个时隙的信道多径时延差

根据以下准则做出判决：

其中τ_PU为接收信号来自于PU时的信道多径时延差，λ_k为判决门限值；当判断接收信号来自于PU时，SU选择放弃接入频谱并继续进行频谱感知；当判决接收信号来自于MU时，SU选择接入频谱并发起攻击警报；SU在每个时隙结束时收到认知无线电管理结构对频谱决策行为反馈的奖罚值，其中正确使用空闲频谱的收益为G，对主用户网络造成的干扰代价为C；

u_k(λ_k)＝(1-p-q)G+qP_D,k(λ_k)G-pP_FP,k(λ_k)C；

其中P_D,k(λ_k)表示第k个时隙进行主用户仿真攻击检测的检测概率，P_FP,k(λ_k)表示第k个时隙进行主用户仿真攻击检测的虚警概率；SU在信道环境变化时通过调整判决门限，使回报函数u_k(λ_k)最大化；

步骤3.SU通过增强学习算法进行在线学习，动态调整不同信道环境下的检测判决门限值；状态集S用信道多径时延差的估计值表示，量化为s_k∈{l·T_s|_0≤l≤L}，l为整数；其中T_s为SU的采样时间间隔，L为l的取值上限，由认知无线电网络中信道多径时延差最大值τ_max决定，即L＝τ_max/T_s；动作集A用判决门限值表示，量化为λ_k∈{l·T_s/2|_0≤l≤2L}；建立行动值函数Q(s_k,λ_k)，通过奖罚反馈值r_k进行迭代计算，行动空间为：

具体过程如下：

令

步骤3-5.更新行动值函数：

以ε的概率随机选取动作集中的判决门限λ_k∈A；

步骤3-7.如果