CN104994569B - 基于多用户强化学习的认知无线网络抗敌意干扰方法 - Google Patents

基于多用户强化学习的认知无线网络抗敌意干扰方法 Download PDF

Info

Publication number
CN104994569B
CN104994569B CN201510355173.XA CN201510355173A CN104994569B CN 104994569 B CN104994569 B CN 104994569B CN 201510355173 A CN201510355173 A CN 201510355173A CN 104994569 B CN104994569 B CN 104994569B
Authority
CN
China
Prior art keywords
cognitive
state
source node
strategy
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510355173.XA
Other languages
English (en)
Other versions
CN104994569A (zh
Inventor
肖亮
周长华
陈桂权
刘金亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201510355173.XA priority Critical patent/CN104994569B/zh
Publication of CN104994569A publication Critical patent/CN104994569A/zh
Application granted granted Critical
Publication of CN104994569B publication Critical patent/CN104994569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/243TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

基于多用户强化学习的认知无线网络抗敌意干扰方法,涉及无线网络安全。认知源节点通过观察主用户工作状态、自适应干扰机发射功率等状态信息,采用多用户强化学习策略自动选择发射功率。多个认知源节点同时学习,每次发送数据包结束,依据获得的即时回报及下一时刻状态,更新状态、行为和映射关系,并根据反馈信息更换多用户强化学习算法的学习速率,从而提高接收端的信干比,最终获取最优的发射功率。而各个认知源节点间能够帮助转发数据包或者自己发射数据。该方法利用多用户强化学习的机制,通过尝试比较的方法,提高了智能型敌意干扰机的场景下,认知无线网络的通信效率。

Description

基于多用户强化学习的认知无线网络抗敌意干扰方法
技术领域
本发明涉及无线网络安全,尤其是涉及一种基于多用户强化学习的认知无线网络抗敌意干扰方法。
背景技术
由于频谱资源的短缺和利用率等问题制约着无线通信的发展,而认知无线电(Cognitive Radio,CR)技术的提出能够有效提高频谱的利用率。无线信道的广播特性,对于认知无线电网络而言极易遭受到敌意干扰的攻击,使得无线网络的安全问题亟待解决。
干扰机的攻击模式是以间断或持续地向无线信道发射干扰信号的方式去阻挠认知用户接入到通信信道或者破坏节点间信息的正常传输。扩频通信作为传统的抗干扰技术,能够有效的抵御干扰,而跳频、直接序列扩频和线性调频扩频为扩频的主要三种方式[Viterbi A J.Spread spectrum communications:myths and realities[J].Communications Magazine,IEEE,2002,40(5):34-41.]。这些扩频技术需要收发端建立一个共享的密钥,一定程度上限制了通信的扩展性。而[Strass-er M,Capkun S,CagaljM.Jamming-resistant key establishment using uncoordinated frequency hopping[C]//Security and Privacy,2008.SP 2008.IEEE Symposium on.IEEE,2008:64-78.]提出的非协调跳频技术即便在干扰机存在的情况下无需建立共享密钥也能正常的实现抗干扰。
此外,通过让用户使用相应算法学习干扰机的发射功率的行为,也能实现抗干扰的性能。例如,通过学习干扰机的发射功率的行为,获取干扰机的干扰行径,从而调整认知源节点自身的发射功率,达到抵抗敌意干扰机的攻击的性能。分布式控制控制、最优控制策略和基于博弈论模型的功率控制算法等都是比较常见的算法。[S.Buzzi andD.Saturnino,“A Game-Theoretic Approach to Energy-Efficient Power Control andReceiver Design in Cognitive CDMA Wireless Networks,”IEEE J.Sel.Topics SignalProcess.,vol.5,no.1,pp.137–150,2011]提出一种针对多用户认知无线电网络上行能量效率最大化的基于非合作的博弈的分布式功率控制算法,[Y.Song and J.Xie,“OptimalPower Control for Concurrent Transmissions of Location-Aware Mobile CognitiveRadio Ad Hoc Networks,”in GLOBECOM,no.July,2009,pp.1–6.]提出了一种最大化并发传输区域的最优功率控制算法,[Lopez R B,Sanchez S M,Fernandez E M G,etal.Genetic algorithm aided transmit power control in cognitive radio networks[C]//Cognitive Radio Oriented Wireless Net-works and Communications(CROWNCOM),20149th International Conference on.IEEE,2014:61-66]提出使用一种遗传算法(genetic algorithm,GA)来解决认知无线电网络的传输功率控制(TCP)问题,[D.Yang,J.Zhang,X.Fang,A.Richa,and G.Xue,“Optimal transmission power controlin the presence of a smart jammer,”in Proc.IEEE Global Commun.Conf.(Gl-obecom),pp.5506–5511,2012]针对能够学习发射机行为并作出相应干扰调整的智能干扰机,提出了一种利用博弈论的方法研究该情况下的功率控制问题。
对于自适应干扰机而言,只有在发射机成功的发射合法信息的传输功率足以被接收节点成功接收时,自适应干扰机才发起攻击,可称之为此时的合法信息传输功率为干扰门限值HJ,故加大了认知用户抗干扰的的难度。
发明内容
本发明的目的是着眼于解决认知无线电网络中的抗敌意干扰,保证认知用户能够在成功的接入空闲信道或者认知用户间能够确保正常通信,提供一种基于多用户强化学习的认知无线网络抗敌意干扰方法。
本发明包括以下步骤:
1)初始化认知源节点s学习因子αs、折扣因子γs、步长n、学习速率(δl和δw)和当前发射策略πs(ts,us),初始化Qs值表、Vs值表和状态t出现的次数C(ts)值为0;
2)认知源节点s感知步长n=1时的状态t,根据混合发射策略从状态t选择动作进行适当的探索;
3)步长n←n+1,计算认知源节点即时回报函数和观察下一个状态更新值表和值表;
4)更新估计平均发射策略
5)更新当前发射策略使其不断地接近Q学习的最优策略,即限制到一个合法且可最大化预期Q值之和的概率分布;
6)根据环境的变化认知源节点重复步骤2)~5),直到认知源节点学习的行为基本变化不大即为最优发射策略。
步骤1)中,所述Qs值表为二维矩阵Qs(Ts,As),其中Ts是一个非空集合,表示系统认知源节点的所有可能状态,As为所有认知源节点可能行为集合;学习因子αs、折扣因子γs和学习速率(δl和δw)取值范围为[0,1];
通过比较当前发射策略πs的预期Q值是否大于当前平均发射策略的预期Q值估计认知源节点的“输赢”,学习速率δlw,若大于,则表示“赢”,agent选择学习速率δw慢慢更新策略;反之,则表示“输”,以学习速率δl更快地自适应学习,最终保证快速且稳定地采取最优发射功率行为;
当前发射策略赋值为1/|As|,而1/|As|表示认知源节点每个动作出现的平均概率,|As|表示的是行为集的长度,下标s表示认知源节点,而下标j表示干扰节点。
步骤2)中,所述状态t由两部分组成,分别为主用户接入状态σ和干扰机发射功率uj,即认知源节点的状态可表示为t=(σ,uj),当主用户占用了目标信道时,σ=0,否则σ=1;干扰机发射功率aj∈Aj,自适应干扰机门限值为HJ,即合法信息的传输功率足以被接收节点成功接收时,自适应干扰机才发起攻击;所述混合发射策略是在初始状态t认知源节点通过ε贪婪策略选择发射功率
步骤3)中,所述即时回报函数表示认知源节点在状态ts n下的最优发射功率,发射功率as为As的一个动作V值表和Q值表更新算法表示如下:
步骤4)中,所述平均发射策略的更新算法表示如下:
C(s)每次更新前需要根据出现对应状态的个数自加1,即C(ts)←C(ts)+1,
步骤5)中,更新当前发射策略遵循发射策略πs:ts→Ps(As),即表示状态空间到行为(发射功率)概率分布的映射,此概率分布可最大化预期Q值之和,当前发射策略表示认知源节点在步长为n且状态为t下选择发射功率u的概率,认知源节点在状态t下选择最大化Q值的发射功率行为的概率逐渐增大,而选择其他发射行为的概率逐渐减小,其更新算法如下:
步骤6)中,所述最优发射策略可理解为认知源节点学习的行为(发射功率)基本变化不大。
与现有抗干扰方法不同,本发明基于多用户强化学习实现功率控制并且达到抗干扰的性能。该方法首先让认知源节点在起始时刻对自适应干扰机的攻击策略不具备完善的先验知识的情况下,不断的通过WoLF-PHC算法学习不同状态下选择不同动作(发射功率)的真实回报,实时的调整自身的发射功率,最终获得一个最优的行动策略,使得网络以最少的资源损耗达到最佳的抗干扰性能。
与现有的方法(指背景技术部分叙述的方法)不同,本发明提出了一种基于多用户强化学习算法的应用于认知无线网络抗敌意干扰方法,认知源节点通过观察主用户工作状态、自适应干扰机发射功率等状态信息,采用多用户强化学习策略自动选择发射功率。多个认知源节点同时学习,每次发送数据包结束,依据获得的即时回报及下一时刻状态,更新状态、行为和映射关系,并根据反馈信息更换多用户强化学习算法的学习速率,从而提高接收端的信干比,最终获取最优的发射功率。而各个认知源节点间能够帮助转发数据包或者自己发射数据。该方法利用多用户强化学习的机制,通过尝试比较的方法,提高了智能型敌意干扰机的场景下,认知无线网络的通信效率。
具体实施方式
以下实施例将对本发明作进一步说明。
本发明实施例包括以下步骤:
1)认知源节点初始化学习因子αs、折扣因子γs、步长n、学习速率(δl和δw)、当前发射策略πs(ts,us)=1/|As|、Qs值表、Vs值表和状态t出现的次数C(ts)值为0;
2)认知源节点感知步长n=1时的状态t,根据混合发射策略从状态t选择动作进行适当的探索;
3)认知源节点首先每次都需要检测主用户的接入状态σ,当主用户在当前时刻接入到目标信道时,认知源节点选择发射功率0;否则,状态t根据混合发射策略πs(ts,us)从状态ts选择动作发送功率的概率us
4)步长n←n+1,计算认知源节点即时回报函数和观察下一个状态更新值表和值表,公式如下:
5)认知源节点计算本次传输收益其中hs>0为衰落信道增益,Cs>0为功率损耗因子,N为信道的背景噪声。每个时刻认知源节点及自适应干扰机的发射功率分别表示为Ps和Pj
6)对C(ts)进行更新,即根据出现对应状态的个数自加1,即C(ts)←C(ts)+1;
7)更新估计平均发射策略公式如下:
8)确定认知源节点学习速率δ,在认知源节点为“赢”时,agent选择学习速率δ=δw,反之,“输”则为δ=δl,δlw,即赢否则就要学得更快的策略,而“输赢”的判断条件如下:
9)更新认知源节点当前发射策略πs(t,a)使其不断地接近Q学习的最优策略,即限制到一个合法且可最大化预期Q值之和的概率分布,认知源节点在状态t下选择最大化Q值的发射功率行为的概率逐渐增大,而选择其他发射行为的概率逐渐减小,πs(t,a)的更新算法如下:
10)根据环境的变化认知源节点重复步骤2)~9),直到认知源节点学习的行为基本变化不大即为最优策略。
本发明提出了一种基于多用户强化学习算法的应用于认知无线网络抗敌意干扰方法,认知源节点通过观察主用户工作状态、自适应干扰机发射功率等状态信息,采用多用户强化学习策略自动选择发射功率。多个认知源节点同时学习,每次发送数据包结束,依据获得的即时回报及下一时刻状态,更新状态、行为和映射关系,并根据反馈信息更换多用户强化学习算法的学习速率,从而提高接收端的信干比,最终获取最优的发射功率。各个认知源节点间能够帮助转发数据包或者自己发射数据。该方法利用多用户强化学习的机制,通过尝试比较的方法,提高了智能型敌意干扰机的场景下,认知无线网络的通信效率。

Claims (1)

1.基于多用户强化学习的认知无线网络抗敌意干扰方法,其特征在于包括以下步骤:
1)初始化认知源节点s学习因子αs、折扣因子γs、步长n、学习速率δl和δw、当前发射策略πs(ts,us),初始化Qs值表、Vs值表和状态t出现的次数C(ts)值为0;
所述Qs值表为二维矩阵Qs(Ts,As),其中Ts是一个非空集合,表示系统认知源节点的所有可能状态,As为所有认知源节点可能行为集合;学习因子αs、折扣因子γs、学习速率δl和δw取值范围为[0,1];
通过比较当前发射策略πs的预期Q值是否大于当前平均发射策略的预期Q值估计认知源节点的“输赢”,在认知源节点为“赢”时,选择学习速率δ=δw,反之,在认知源节点为“输”时,选择学习速率δ=δl
当前发射策略赋值为1/|As|,而1/|As|表示认知源节点每个动作出现的平均概率,|As|表示的是行为集的长度,下标s表示认知源节点;
2)认知源节点s感知步长n=1时的状态t,根据当前发射策略πs(ts,us)从状态t选择发射功率进行适当的探索;
所述状态t由两部分组成,分别为主用户接入状态σ和干扰机发射功率uj,即认知源节点的状态表示为t=(σ,uj),其中下标j表示干扰节点,当主用户占用目标信道时,σ=0,否则σ=1;干扰机发射功率uj∈Aj,其中Aj表示干扰节点所有可能行为集合,自适应干扰机门限值为Hj,即合法信息的传输功率足以被接收节点成功接收时,自适应干扰机才发起攻击;所述当前发射策略是在初始状态t认知源节点通过ε贪婪策略选择发射功率
3)步长n=n+1,计算认知源节点发射功率和观察下一个状态更新值表和值表;
所述发射功率表示认知源节点在状态ts n下的最优发射功率,发射功率us为As的一个动作,V值表和Q值表更新算法表示如下:
4)更新估计平均发射策略
所述平均发射策略的更新算法表示如下:
C(ts)每次更新前需要根据出现对应状态的个数自加1,即C(ts)=C(ts)+1,
其中,u's是步长n-1所选择的发射功率;
5)更新当前发射策略使其不断地接近Q学习的最优策略,即限制到一个合法且可最大化预期Q值之和的概率分布;
更新当前发射策略遵循发射策略πs:ts→Ps(As)认知,即表示状态空间到发射功率概率分布的映射,此概率分布最大化预期Q值之和,当前发射策略表示认知源节点在步长为n且状态为t下选择发射功率u的概率,认知源节点在状态t下选择最大化Q值的发射功率行为的概率逐渐增大,而选择其他发射行为的概率逐渐减小,其更新算法如下:
其中,a'表示发射功率;
6)根据环境的变化认知源节点重复步骤2)~5),直到认知源节点学习的行为为最优发射策略。
CN201510355173.XA 2015-06-25 2015-06-25 基于多用户强化学习的认知无线网络抗敌意干扰方法 Active CN104994569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510355173.XA CN104994569B (zh) 2015-06-25 2015-06-25 基于多用户强化学习的认知无线网络抗敌意干扰方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510355173.XA CN104994569B (zh) 2015-06-25 2015-06-25 基于多用户强化学习的认知无线网络抗敌意干扰方法

Publications (2)

Publication Number Publication Date
CN104994569A CN104994569A (zh) 2015-10-21
CN104994569B true CN104994569B (zh) 2019-12-17

Family

ID=54306300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510355173.XA Active CN104994569B (zh) 2015-06-25 2015-06-25 基于多用户强化学习的认知无线网络抗敌意干扰方法

Country Status (1)

Country Link
CN (1) CN104994569B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106961684A (zh) * 2017-03-24 2017-07-18 厦门大学 基于深度强化学习的认知无线电空频二维抗敌意干扰方法
CN108012248A (zh) * 2017-12-07 2018-05-08 宁德师范学院 基于功率控制的车联网抗干扰的方法及电子设备
CN108235423B (zh) * 2017-12-29 2021-01-22 中山大学 基于q学习的无线通信防窃听干扰功率控制方法
CN108235424B (zh) * 2017-12-29 2021-01-22 中山大学 一种基于q学习的可穿戴设备发射功率控制方法
CN108387866B (zh) * 2018-01-16 2021-08-31 南京航空航天大学 一种基于强化学习的无人机查找非法广播电台方法
CN109302262B (zh) * 2018-09-27 2020-07-10 电子科技大学 一种基于深度确定梯度强化学习的通信抗干扰方法
CN109639760B (zh) * 2018-11-02 2019-09-03 西北工业大学 一种基于深度强化学习的d2d网络中的缓存策略方法
CN109375514B (zh) * 2018-11-30 2021-11-05 沈阳航空航天大学 一种存在假数据注入攻击时的最优跟踪控制器设计方法
CN109951451A (zh) * 2019-02-21 2019-06-28 北京工业大学 雾计算中一种基于强化学习的伪装攻击检测方法
CN110061982B (zh) * 2019-04-02 2021-06-29 广州大学 一种基于强化学习的对抗智能攻击安全传输方法
CN110166428B (zh) * 2019-04-12 2021-05-07 中国人民解放军战略支援部队信息工程大学 基于强化学习和攻防博弈的智能防御决策方法及装置
CN112888071B (zh) * 2021-01-22 2022-05-17 中国人民解放军国防科技大学 基于快速强化学习的干扰规避方法、装置、设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8041380B2 (en) * 2007-04-26 2011-10-18 Lingna Holdings Pte., Llc Power control in cognitive radio systems based on spectrum sensing side information
CN102685754B (zh) * 2012-05-24 2015-07-08 上海交通大学 基于合作频谱感知的频谱接纳控制方法
CN104158604B (zh) * 2014-07-25 2016-05-04 南京邮电大学 一种基于平均共识的分布式协作频谱感知方法
CN104202102B (zh) * 2014-09-10 2016-06-08 西安电子科技大学 一种考虑恶意节点的认知无线电网络合作频谱感知方法
CN104581738A (zh) * 2015-01-30 2015-04-29 厦门大学 基于q学习的认知无线电抗敌意干扰方法
CN106788818B (zh) * 2016-12-26 2020-05-08 重庆邮电大学 基于认知功能和传感器节点分离的crsn频谱感知方法

Also Published As

Publication number Publication date
CN104994569A (zh) 2015-10-21

Similar Documents

Publication Publication Date Title
CN104994569B (zh) 基于多用户强化学习的认知无线网络抗敌意干扰方法
Van Huynh et al. “jam me if you can:” defeating jammer with deep dueling neural network architecture and ambient backscattering augmented communications
Li et al. Enhanced secure transmission against intelligent attacks
CN112566127B (zh) 一种基于无人机辅助认知无线网络中物理层安全传输方法
CN104581738A (zh) 基于q学习的认知无线电抗敌意干扰方法
CN113225794B (zh) 一种基于深度强化学习的全双工认知通信功率控制方法
Lo et al. Multiagent jamming-resilient control channel game for cognitive radio ad hoc networks
CN112423234B (zh) 基于强化学习的无人机辅助物联网抗敌意干扰方法和系统
CN108834108B (zh) 对抗半双工主动窃听的基于虚拟决策的d2d协同中继选择方法
Ibrahim et al. Anti-jamming game to combat intelligent jamming for cognitive radio networks
Slimeni et al. Cognitive radio jamming mitigation using markov decision process and reinforcement learning
CN105636188B (zh) 认知解码转发中继系统的功率分配方法
CN114615672B (zh) 一种基于统计信息的协作物理层安全增强方法
Li et al. Reinforcement learning-based intelligent reflecting surface assisted communications against smart attackers
Thien et al. A transfer games actor–critic learning framework for anti-jamming in multi-channel cognitive radio networks
CN113271119B (zh) 基于传输调度的抗干扰协作式跳频方法
Li et al. Drone-aided network coding for secure wireless communications: A reinforcement learning approach
CN113038567B (zh) 多中继通信中的抗干扰系统的抗干扰方法
Li et al. A novel primary-secondary user power control game for cognitive radios with linear receivers
CN111726192B (zh) 基于对数线性算法的通信对抗中用频决策优化方法
Luo et al. Uav intelligent approach jamming wireless communication system
CN110677181B (zh) 一种基于能量收集的物理层安全传输方法及系统
CN112867087B (zh) 一种基于多用户随机森林强化学习的抗干扰方法
CN106792899B (zh) 基于次用户选择的认知无线网络物理层安全传输方法
Xu et al. Context-aware coordinated anti-jamming communications: A multi-pattern stochastic learning approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20151021

Assignee: XIAMEN FOUR-FAITH COMMUNICATION TECHNOLOGY Co.,Ltd.

Assignor: XIAMEN University

Contract record no.: X2023350000112

Denomination of invention: A Cognitive Wireless Network Anti Hostile Interference Method Based on Multi user Reinforcement Learning

Granted publication date: 20191217

License type: Common License

Record date: 20230323

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20151021

Assignee: XIAMEN XINGZHONG WULIAN TECHNOLOGY Co.,Ltd.

Assignor: XIAMEN University

Contract record no.: X2023350000205

Denomination of invention: A Cognitive Wireless Network Anti Hostile Interference Method Based on Multi user Reinforcement Learning

Granted publication date: 20191217

License type: Common License

Record date: 20230417

EE01 Entry into force of recordation of patent licensing contract