CN104581738A

CN104581738A - 基于q学习的认知无线电抗敌意干扰方法

Info

Publication number: CN104581738A
Application number: CN201510047094.2A
Authority: CN
Inventors: 肖亮; 陈桂权; 周长华; 李燕
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2015-01-30
Filing date: 2015-01-30
Publication date: 2015-04-29

Abstract

基于Q学习的认知无线电抗敌意干扰方法，涉及认知无线电。1)认知源节点初始化学习因子γ和折扣因子β，设置Q值表、V值表值为0；2)认知源节点感知k时刻的状态s，并根据Q值表，选择最优行为a；3)认知源节点观察k+1时刻的状态s'，并计算本次信息传输的即时回报u_s；4)更新Q学习算法的Q值表、V值表；5)认知源节点重复步骤2)～4)，直到找到最优策略。于Q学习实现功率控制，认知源节点和智能干扰机通过不断学习环境，实时调整自身的发射功率，随着迭代学习的延续，最终使得自身的收益最大化。

Description

基于Q学习的认知无线电抗敌意干扰方法

技术领域

本发明涉及认知无线电，尤其是涉及一种基于Q学习的认知无线电抗敌意干扰方法。

背景技术

认知无线电技术的提出是用于解决当前静态频谱分配方案中频率资源利用率不高的问题。由于无线信道的广播特性，使得认知无线电无线网络容易受到敌意干扰攻击。干扰机通过连续或是间断地向无线信道发射干扰信号，以此阻碍认知用户接入到信道或者破坏节点间的信息传输。

扩频通信是传统的抗敌意干扰技术，主要的扩频方式有跳频(Frequency Hopping，FH)、直接序列扩频(Direct Sequence Spread Spectrum,DSSS)和线性调频扩频(Chirp SpreadSpectrum,CSS)[R.A.Poisel.Modern Communications Jamming Principles and Techniques.Artech House Publishers,2006.]。[Liu Y,Ning P,Dai H,et al.Randomized differential DSSS:Jamming-resistant wireless broadcast communication[C].Proceedings of IEEE INFOCOM,SanDiego,CA,United states,2010.]提出随机微分直接扩频机制，而这类扩频不适合预于智能的干扰机。[Wang B,Wu Y,Liu K J R,et al.An anti-jamming stochastic game for cognitive radionetworks[J].Selected Areas in Communications,IEEE Journal on,2011,29(4):877-889.]在无线认知网络提出了随机博弈的抗干扰框架。

通过学习干扰机的发射功率，进而调整源节点的发射功率，以此抵抗敌意干扰攻击是一种新的抗干扰技术，常用算法有分布式的功率控制算法、最优功率控制、机会主义功率控制策略、启发式算法及一些基于博弈的功率控制算法。[Tang N,Mao S,Kompella S.Power Controlin Full Duplex Underlay Cognitive Radio Networks:A Control Theoretic Approach[C]//MilitaryCommunications Conference(MILCOM),2014IEEE.IEEE,2014:949-954.]提出了一种整合比例微分差分proportional-integral-derivative，PID)控制器和功率约束机制的分布式功率控制算法，[S.M.Sanchez,R.D.Souza,E.M.G.Fernandez,and V.A.Reguera,“Impact of PowerAllocation and Antenna Directivity in the Capacity of a Multiuser Cognitive Ad Hoc Network,”Radioengineering,vol.21,pp.1110-1116,Dec.2012]提出利用位置感知认知节点的最优功率控制，[Chen Y,Yu G,Zhang Z,et al.On cognitive radio networks with opportunistic power controlstrategies in fading channels[J].Wireless Communications,IEEE Transactions on,2008,7(7):2752-2761.]提出了一种机会主义(opportunistic)功率控制策略，次级用户调整策略使数据速率最大化。[Y.Zhang and C.Leung,“Resource allocation in an OFDM-based cognitive radiosystem,”IEEE Trans.Commun.,vol.57,no.7,pp.1928-1931,July 2009.]阐述了一种启发式算法实现次优的解决方案，以此达到最优的功率分配。[D.Yang,G.Xue,J.Zhang,A.Richa,and X.Fang,“Coping with a smart jammer in wireless networks:A stackelberg game approach,”IEEETrans.Wireless Commun.,vol.12,no.8,pp.4038–4047,2013]提出了在智能干扰机存在下利用斯塔科尔伯格博弈模型研究功率控制问题，这类智能干扰机能够学习发射机的传输策略然后作出相应的干扰决定，而这种方法在合作的无线网络是无效的。

发明内容

本发明的目的是为了解决针对认知无线电网络中的敌意干扰攻击，使得认知用户无法接入到空闲信道或者认知用户间的信息传输被破坏等问题，提供一种基于Q学习的认知无线电抗敌意干扰方法。

本发明包括以下步骤：

1)认知源节点初始化学习因子γ和折扣因子β，设置Q值表、V值表值为0；

2)认知源节点感知k时刻的状态s，并根据Q值表，选择最优行为a；

3)认知源节点观察k+1时刻的状态s'，并计算本次信息传输的即时回报u_s；

4)更新Q学习算法的Q值表、V值表；

5)认知源节点重复步骤2)～4)，直到找到最优策略。

在步骤1)中，所述Q值表是一个二维矩阵Q(S,A)，其中S是一个非空集合，表示系统的所有可能状态，A表示所有可能行为的集合；所述V值表是一个一维向量，表示在每个状态s∈S下的最大Q值，即

在步骤2)中，所述状态s包括授权用户接入状态δ和干扰机发射功率a_j，即源节点的状态s＝(δ,a_j)，当授权用户接入到目标信道时，δ＝0，否则δ＝1；干扰机发射功率a_j∈A_j，其中A_j表示干扰机的行为集；所述最优行为表示的是在当前状态s下，使得值函数Q(s,a)最大的行为a，即

在步骤4)中，所述Q学习算法的Q值表、V值表的更新算法表示如下：

Q(S_s ^k,A_s ^k)＝(1-γ)Q(S_s ^k,A_s ^k)+γ(u_s+βV(S_s ^k+1))

V ({S_{s}}^{k}) = \max_{A_{s} &Element; A} Q ({S_{s}}^{k}, A_{s})

在步骤5)中，所述最优策略指的是每个状态下，使得累计回报函数最大化。

与现有技术相比，本发明提供了一种基于Q学习的认知无线电抗敌意干扰方法：认知源节点通过观察信道获取授权用户接入情况、干扰机发射功率等状态信息，并根据Q值表选择在当前状态下使得源节点累计回报最大的行为。接收节点将对应的信号干扰噪声比在信息传输结束后反馈给认知源节点，使其更新当前的Q值表，并对下一次发送策略做出不同的调整。该方法充分利用了强化学习机制，使认知源节点的发射功率随干扰机发射功率的变化而主动自适应地变化，从而有效地抵抗敌意干扰攻击。

与现有的抗干扰方法不同，本发明基于Q学习实现功率控制，从而达到抗干扰的目的。本发明中认知源节点和智能干扰机通过不断学习环境，实时调整自身的发射功率，随着迭代学习的延续，最终使得自身的收益最大化。

具体实施方式

以下实施例将对本发明作进一步的说明。

本发明实施例包括以下步骤：

1)认知源节点初始化学习因子γ、折扣因子β、最大时隙m，初始化Q值表和V值表的值为0；

2)判断当前时隙k是否为1；

3)当k＝1时，认知源节点首先检测授权用户的接入状态δ_k，当授权用户在当前时刻接入到目标信道时，认知源节点选择发射功率0；否则，随机选择发射功率a；

4)当k>1时，认知源节点观察当前状态并根据Q值表，选择在状态下使得Q值最大的行为a_k；

5)认知源节点观察下一个时刻状态s_s ^k+1；

6)认知源节点计算本次传输收益

7)认知源节点更新Q值表和V值表：

Q ({S_{s}}^{k}, {A_{s}}^{k}) = (1 - γ) Q ({S_{s}}^{k}, {A_{s}}^{k}) + γ (u_{s} + βV ({S_{s}}^{k + 1})), V ({S_{s}}^{k}) = \max_{A_{s}} Q ({S_{s}}^{k}, A_{s});

9)当前时隙k＝k+1；

10)判断当前时隙k是否已是Q学习的最大时隙m，若是，则结束学习；否则重复2)～10)。

Claims

1.基于Q学习的认知无线电抗敌意干扰方法，其特征在于包括以下步骤：

4)更新Q学习算法的Q值表、V值表；

5)认知源节点重复步骤2)～4)，直到找到最优策略。

2.如权利要求1所述基于Q学习的认知无线电抗敌意干扰方法，其特征在于在步骤1)中，所述Q值表是一个二维矩阵Q(S,A)，其中S是一个非空集合，表示系统的所有可能状态，A表示所有可能行为的集合。

3.如权利要求1所述基于Q学习的认知无线电抗敌意干扰方法，其特征在于在步骤1)中，所述V值表是一个一维向量，表示在每个状态s∈S下的最大Q值，即

4.如权利要求1所述基于Q学习的认知无线电抗敌意干扰方法，其特征在于在步骤2)中，所述状态s包括授权用户接入状态δ和干扰机发射功率a_j，即源节点的状态s＝(δ,a_j)，当授权用户接入到目标信道时，δ＝0，否则δ＝1；干扰机发射功率a_j∈A_j，其中A_j表示干扰机的行为集。

5.如权利要求1所述基于Q学习的认知无线电抗敌意干扰方法，其特征在于在步骤2)中，所述最优行为表示的是在当前状态s下，使得值函数Q(s,a)最大的行为a，即

a = \arg \max_{a^{'} &Element; A} Q (s, a^{'}) .

6.如权利要求1所述基于Q学习的认知无线电抗敌意干扰方法，其特征在于在步骤4)中，所述Q学习算法的Q值表、V值表的更新算法表示如下：

Q ({S_{s}}^{k}, {A_{s}}^{k}) = (1 - γ) Q ({S_{s}}^{k}, {A_{s}}^{k}) + γ (u_{s} + βV ({S_{s}}^{k + 1}))

V ({S_{s}}^{k}) = \max_{A_{s} &Element; A} Q ({S_{s}}^{k}, A_{s}) .

7.如权利要求1所述基于Q学习的认知无线电抗敌意干扰方法，其特征在于在步骤5)中，所述最优策略指的是每个状态下，使得累计回报函数最大化。