CN113973362A - 强化学习非零和非合作多智能体安全通信功率控制方法 - Google Patents

强化学习非零和非合作多智能体安全通信功率控制方法 Download PDF

Info

Publication number
CN113973362A
CN113973362A CN202111170428.7A CN202111170428A CN113973362A CN 113973362 A CN113973362 A CN 113973362A CN 202111170428 A CN202111170428 A CN 202111170428A CN 113973362 A CN113973362 A CN 113973362A
Authority
CN
China
Prior art keywords
interference
base station
jammer
game
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111170428.7A
Other languages
English (en)
Other versions
CN113973362B (zh
Inventor
汪清
赵琛宇
李淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202111170428.7A priority Critical patent/CN113973362B/zh
Publication of CN113973362A publication Critical patent/CN113973362A/zh
Application granted granted Critical
Publication of CN113973362B publication Critical patent/CN113973362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/243TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/26TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service]
    • H04W52/267TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service] taking into account the information rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及多智能体强化学习领域,为在博弈均衡状态分析的基础上,针对博弈双方动态交互的特点,对双方策略优化方法进行改进,本发明,强化学习非零和非合作多智能体安全通信功率控制方法;步骤如下:建立无线网络干扰‑抗干扰通信博弈框架;训练阶段动态博弈的功率控制,方法如下:在强化学习的训练阶段,采用合作式的训练方式;在强化学习的感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的信号与干扰加噪声比SINR来估计干扰机干扰功率,执行下一次动作选择;对抗双方在训练阶段反复进行该过程,直到所有智能体收益基本保持均衡为止,达到收敛。本发明主要应用于雷达、干扰机设计制造场合。

Description

强化学习非零和非合作多智能体安全通信功率控制方法
技术领域
本方法涉及多智能体强化学习领域,特别是安全通信中针对智能干扰方的博弈对抗。具体涉及强化学习非零和非合作多智能体安全通信功率控制方法。
背景技术
无线网络由于介质的开放性和共享性存在被窃听的风险,再加上发射功率的有限性,易受到干扰攻击[1]。干扰机通过发送干扰信号可以破坏无线网络的传输安全性,从而在能量约束下对通信网络造成尽可能大的损害。
随着各种智能无线设备的日益普及,干扰攻击的发展趋势更加多样化、智能化。智能干扰机可根据通信系统正在进行的传输状态、传输历史和无线电信道状态灵活地选择其攻击方法、攻击类型和攻击强度[2]。根据马尔可夫决策过程可以研究被干扰方和智能干扰机之间的长期交互作用[3],并对用户决策进行建模。当智能干扰机具有学习防御者策略的能力时,它可以根据传输策略的规律自适应地选择最佳干扰策略。
智能干扰机的不断升级给无线网络的安全性带来了更为严峻的挑战。面对新的挑战,有必要在干扰-抗干扰对抗逐渐智能化的情况下不断提高对抗双方的策略优化能力[4-8]。近来,强化学习(RL)在决策问题上的广泛成功应用吸引了很多研究人员将强化学习用在干扰-抗干扰无线通信中。在基站发射机与智能干扰机之间动态对抗交互的功率控制过程中,利用强化学习算法可以得到优化的功率控制策略[9-12]。以毫米波(mmWave)大规模多输入多输出(MIMO)系统为例,将信号与干扰加噪声比(SINR)作为攻防双方的效用的主要衡量标准,使用快速策略梯度的算法可以实现双方的最优功率控制[12]
智能干扰机和智能抗干扰机始终以相互矛盾的方式进行攻击和防御。实际上,所有进化方之间都存在基本的权衡。面对可能涉及到智能体间合作与竞争的的关系,可以引入博弈的概念来研究网络攻防过程的机制[13-19]。Yanda Li等人围绕用户与智能干扰机之间关于其各自的发射功率选择的交互过程提出了一种在智能攻击下的安全MIMO传输博弈[17],并且推导了在不同信道模型和传输成本下的静态MIMO博弈的纳什均衡(NE),其中干扰机和被干扰基站均存在潜在能量限制。为了更加贴合实际对抗环境,提出了应对多个智能攻击者的随机博弈框架,其中每个智能攻击者具备多种攻击模式[19]。此外,影响智能攻击者攻击率的因素也在分析物理层随机安全博弈的均衡基础上得到了研究。
目前通信系统干扰-抗干扰博弈对抗在不断发展中,但研究仍然有一定局限性。提出的抗干扰方法一般建立在对手缺乏闭环反馈能力的基础上,对智能干扰机如何获取理想、实际的防御方的信息的论述比较缺乏。在实际对抗条件下,一方面,己方不能直接获得敌方策略的摸底情况;另一方面,在施加干扰后,干扰机很难得知具体的干扰效果。由于通过训练让攻防双方足够智能化的前提条件是互相有直接或间接的有效信息,所以,构建探测对方意图的渠道对实现智能化博弈至关重要。本发明提出一种基于聚类的窃听信息分析方法。这种方法可以估计非合作情况下被干扰方发射机的动作,并将该估计值用作己方策略优化的基础。此外,本发明在博弈的基本框架下应用创新的合作训练和非合作测试来探索优化的稳定状态,这对于提高双方的学习效率和能力是极其有利的。
发明内容
为克服现有技术的不足,本发明旨在提出一种利用强化学习来提升通信安全博弈智能性与有效性的算法。本方法基于非零和非合作博弈,在博弈均衡状态分析的基础上,针对博弈双方动态交互的特点,对双方策略优化方法进行改进。为此,本发明采取的技术方案是,强化学习非零和非合作多智能体安全通信功率控制方法;步骤如下:
(1)建立无线网络干扰-抗干扰通信博弈框架
在功率博弈中,基站通过选择适当的发射功率来确保安全通信速率,而干扰机在成本控制下通过选择干扰强度来在最大化干扰效果;
(2)训练阶段动态博弈的功率控制,方法如下:
在强化学习的训练阶段,采用合作式的训练方式,基站发射机基于用户反馈的平均信噪比评估干扰机采取的干扰强度,而干扰机则可以直接获得被干扰方的动作信息;
在强化学习的感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的信号与干扰加噪声比SINR来估计干扰机干扰功率,双方获得感知信息后,更新各自的状态信息,计算效用并更新品质系数Q函数,执行下一次动作选择;
对抗双方在训练阶段反复进行该过程,直到所有智能体收益基本保持均衡为止,达到收敛。
具体步骤如下:
(1)建立无线网络干扰-抗干扰通信博弈框架
基站采用混合预编码架构,发射机天线数量为NB,发送K×1传输信号矢量sB,其发射功率由PB表示,
Figure BDA0003292927990000021
发射机发射成本用CB表示,当K个用户接收到信号时,用户估计信道质量和SINR,并将其进行反馈;
用户k和基站有
Figure BDA0003292927990000022
条路径,用户k和基站的路径
Figure BDA0003292927990000023
的复增益、方位角和仰角分别表示为
Figure BDA0003292927990000024
令aB(φ,θ)表示阵列导向矢量,用户k和基站之间的信道矢量,即
Figure BDA0003292927990000025
写为:
Figure BDA0003292927990000026
用户和基站之间的信道矩阵可以表示为:
Figure BDA0003292927990000027
干扰机与基站具有相同的预编码架构,有NJ个干扰天线,以与基站相同的频率发送用zJ表示的干扰信号,在时隙n,智能干扰机根据正在进行的传输状态和信道状态选择干扰功率,记为PJ (n)≥0,以降低通信系统的SINR,智能干扰机的干扰成本用CJ表示,用户k和智能干扰机之间有
Figure BDA0003292927990000028
条路径,路径的复增益、方位角和仰角可以表示为
Figure BDA0003292927990000029
因此,用户k与智能干扰机之间的信道矢量由下式给出:
Figure BDA0003292927990000031
K个用户与智能干扰机之间的信道矩阵表示为:
Figure BDA0003292927990000032
(2)训练阶段动态博弈的功率控制,方法如下:
由基站和干扰机组成的多智能体,其强化学习过程为随机博弈过程,将每一个状态的阶段博弈的策略组合起来成为一个智能体在动态环境中的策略,并不断与环境和其他智能体交互来更新每一个状态的阶段博弈中的Q值函数;
基于强化学习的动态博弈需要以下几个要素:代理、各博弈方的策略集、及博弈方的收益,博弈包含有限个数的代理,在这项工作中设置代理q∈{B,J},其中B代表基站发射机,J代表智能干扰机,每个参与博弈的代理都有自己的策略集合,在每次博弈中,所有参与代理根据获得的信息,在相应的策略下从各自的动作集合中选取使自己收益最大化的动作来作为当前时刻要采取的行动,代理的收益函数表示其在策略组合下所能获得的收益值,每个代理的收益不仅与自己选择的策略有关,还取决于其他参与者采取的行动,在多智能体系统中多个智能体是同时学习的,当对方策略改变时,每个智能体自身的最优策略也可能会变化;
在训练阶段,基站收集K个用户的先前SINR,表示为
Figure BDA0003292927990000033
并根据信道质量和K用户的SINR估计先前的干扰功率,即
Figure BDA0003292927990000034
基站将时隙n-1处的干扰功率和所有用户的SINR设置为发射机当前系统状态,即
Figure BDA0003292927990000035
同理,由于在训练阶段互相信息是对称的,所以干扰机的系统状态表示为
Figure BDA0003292927990000036
Figure BDA0003292927990000037
然后,基站基于
Figure BDA0003292927990000038
选择发送功率
Figure BDA0003292927990000039
以在状态
Figure BDA00032929279900000310
发送信号,基站在从用户接收反馈信息时,更新新的系统状态,即
Figure BDA00032929279900000311
干扰机则根据
Figure BDA00032929279900000312
选择干扰功率PJ (n)并发送干扰信号;
由于发射机与智能干扰机之间目标不同,彼此之间又相互耦合影响,因此奖励设计的优劣直接影响学习到的策略的好坏;
发射机的收益函数为:
Figure BDA00032929279900000313
干扰机的收益函数为:
Figure BDA00032929279900000314
抗干扰功率控制博弈策略每次通过以下方式更新Q函数:
Figure BDA00032929279900000315
Figure BDA0003292927990000041
其中
Figure BDA0003292927990000042
表示状态
Figure BDA0003292927990000043
上可行动作的最大Q函数,α∈(0,1)是强化学习算法的学习因子,而δ∈(0,1)是表示基站贪婪算法的参数,贪婪策略是基站在学习过程中在开发和探索之间进行权衡的一种方法,基站的发射功率由下式给出:
Figure BDA0003292927990000044
其中,|Ω|是发射机动作的总数;
而干扰功率控制博弈策略则通过以下方式更新Q函数:
Figure BDA0003292927990000045
Figure BDA0003292927990000046
干扰机的干扰功率由下式给出:
Figure BDA0003292927990000047
智能体每进行一步,都要进行感知-决策-执行决策,由于在训练阶段采用的是合作式的训练方式,在感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的SINR来估计干扰机干扰功率;双方获得感知信息后,更新各自的状态信息,计算效用并更新Q函数,执行下一次动作选择;对抗双方在训练阶段反复进行感知-决策-执行决策过程,直到所有智能体收益基本保持均衡为止,达到收敛。
基于强化学习经验的实况模拟测试步骤如下:
在强化学习的实际应用测试阶段,在得到训练好的智能基站和智能干扰机后,模拟真实的对抗环境;
在实际测试阶段,干扰机不具备直接获得被干扰方信息的能力,为实现闭环的“感知-决策-执行”中的“认知”,智能干扰机增加了窃听模块来获得粗略的基站发射信号强度信息;智能干扰机通过K-Means聚类算法或者SOM聚类算法来对窃听到的基站发射机信号强度进行聚类,并使用经过训练的聚类中心点作为判断发射功率等级的阈值,通过使用相应的阈值,可以对窃听到的接收信号强度进行功率等级评估,并将该结果作为干扰机对被干扰方动作的评估结果。
本发明的特点及有益效果是:
(1)由于在多智能体强化学习中,智能体间的相互作用会影响学习效果,所以本发明在强化学习基础上引入了在多智能体非零和非合作博弈的架构,实现自适应的闭环策略优化,使双方在交互对抗中互相学习并提升自己,探索性能的提升空间与均衡状态,双向增强了博弈方的智能性和适应性,更符合实际应用需求。
(2)通过合作式的训练来让基站(BS)和干扰机相互学习对方的功率分配策略,探索对抗双方优化的稳定状态,并将训练经验应用在模拟实际对抗的交互中。这种方法对于提升攻防双方智能性十分有益。从训练效果图可以看出,基于合作的训练与基于非合作的训练相比,收敛更快且更加稳定。
(3)在传统的通信安全干扰-抗干扰博弈中,干扰机的信息获取渠道及处理方式研究较缺乏,因此提出的抗干扰方法也一般建立在缺乏智能性与优化能力的对手基础上。为了更接近实际对抗环境,本发明建立了干扰方的有效信息获取渠道并构建了干扰效果评估模型,使干扰机也能学习对方的策略,并将之作为干扰决策的依据,弥补了传统方法对干扰机信息获取论证方面的缺乏。
(4)在测试阶段模拟了真实的对抗环境并测试了不同条件下的系统性能。实验结果表明,当干扰机采用更加精确的聚类方法时系统实际测试性能更接近训练结果,所提出的方法可以显着提高双方的学习效率和能力。
附图说明:
图1系统模型。
图2智能体间动态交互示意图。
图3使用或不使用智能优化策略时的攻击者和防御者的实际对抗测试。
图4合作-非合作训练效果对比。
图5干扰机窃听模块分别使用K均值(K-Means)聚类算法和自组织特征映射神经网络(SOM)聚类算法时的系统性能比较。
图6为所提出的基于强化学习的干扰-抗干扰动态博弈中双方策略优化的网络整体结构图。
具体实施方式
本发明在博弈论的理论基础上,提出一种基于强化学习的干扰-抗干扰机功率控制训练和测试方案,包括下列步骤:
(3)建立无线网络干扰-抗干扰通信博弈框架
如图1所示,考虑针对K个用户的MIMO系统。基站发射机将信息发送给用户,而干扰则通过发送干扰信号对正在进行的通信进行干扰来降低信息速率。在本发明中,我们将重点讨论干扰机与通信系统之间的功率博弈。在功率博弈中,基站通过选择适当的发射功率来确保安全通信速率,而干扰机在成本控制下通过选择干扰强度来在最大化干扰效果。干扰成本和抗干扰成本是博弈双方的重要约束。此外,博弈中的干扰方和抗干扰方都需要通过一定的信息反馈来获取有益于其正确决策的有效信息。
基站采用混合预编码架构,发射机天线数量为NB,发送K×1传输信号矢量sB,其发射功率由PB表示,
Figure BDA0003292927990000061
发射机发射成本用CB表示。当K个用户接收到信号时,用户估计信道质量和SINR,并将其进行反馈。
用户k和基站有
Figure BDA0003292927990000062
条路径,用户k和基站的路径
Figure BDA0003292927990000063
的复增益、方位角和仰角分别表示为
Figure BDA0003292927990000064
令aB(φ,θ)表示阵列导向矢量。用户k和基站之间的信道矢量,即
Figure BDA0003292927990000065
可以写为:
Figure BDA0003292927990000066
用户和基站之间的信道矩阵可以表示为:
Figure BDA0003292927990000067
设定智能干扰机与基站具有相同的预编码架构,有NJ个干扰天线,以与基站相同的频率发送干扰信号(用zJ表示),以干扰通信。在时隙n,智能干扰机根据正在进行的传输状态和信道状态选择干扰功率,记为PJ (n)≥0,以降低通信系统的SINR。智能干扰机的干扰成本用CJ表示。用户k和智能干扰机之间有
Figure BDA0003292927990000068
条路径。路径的复增益、方位角和仰角可以表示为
Figure BDA0003292927990000069
因此,用户k与智能干扰机之间的信道矢量由下式给出:
Figure BDA00032929279900000610
K个用户与智能干扰机之间的信道矩阵表示为:
Figure BDA00032929279900000611
(4)训练阶段动态博弈的功率控制,方法如下:
在强化学习的训练阶段,采用合作式的训练方式。基站发射机基于用户反馈的平均信噪比评估干扰机采取的干扰强度,而干扰机则可以直接获得被干扰方的动作信息。基于合作式的训练方式,双方均可以直接获得认知信息来完成闭环的智能决策。
多智能体强化学习可看成随机博弈,将每一个状态的阶段博弈的策略组合起来成为一个智能体在动态环境中的策略,并不断与环境和其他智能体交互来更新每一个状态的阶段博弈中的Q值函数,如图2所示。
在整个交互过程中,所有智能体在每一离散时刻都是同时做出决策的。同时,由于每个智能体在决策时都仅考虑最大化自己的收益,而不关心是否损害了对方的收益,且所有个体的收益之和不为零,因此该博弈是一个非零和非合作博弈。
基于强化学习的动态博弈需要以下几个要素:代理、各博弈方的策略集、及博弈方的收益。博弈包含有限个数的代理,在这项工作中设置代理q∈{B,J},其中B代表基站发射机,J代表智能干扰机。每个参与博弈的代理都有自己的策略集合,在每次博弈中,所有参与代理根据获得的信息,在相应的策略下从各自的动作集合中选取使自己收益最大化的动作来作为当前时刻要采取的行动。代理的收益函数表示其在策略组合下所能获得的收益值。每个代理的收益不仅与自己选择的策略有关,还取决于其他参与者采取的行动。在多智能体系统中多个智能体是同时学习的,当对方策略改变时,每个智能体自身的最优策略也可能会变化,这将对算法的收敛性带来影响。
具体地说,在训练阶段,基站收集K个用户的先前SINR,表示为
Figure BDA0003292927990000071
并根据信道质量和K用户的SINR估计先前的干扰功率,即
Figure BDA0003292927990000072
基站将时隙n-1处的干扰功率和所有用户的SINR设置为发射机当前系统状态,即
Figure BDA0003292927990000073
同理,由于在训练阶段互相信息是对称的,所以干扰机的系统状态可以表示为
Figure BDA0003292927990000074
然后,基站基于
Figure BDA0003292927990000075
选择发送功率
Figure BDA0003292927990000076
以在状态
Figure BDA0003292927990000077
发送信号。基站在从用户接收反馈信息时,更新新的系统状态,即
Figure BDA0003292927990000078
干扰机则根据
Figure BDA0003292927990000079
选择干扰功率PJ (n)并发送干扰信号。
由于发射机与智能干扰机之间目标不同,彼此之间又相互耦合影响,因此奖励设计的优劣直接影响学习到的策略的好坏。
发射机的收益函数为:
Figure BDA00032929279900000710
干扰机的收益函数为:
Figure BDA00032929279900000711
抗干扰功率控制博弈策略每次通过以下方式更新Q函数:
Figure BDA00032929279900000712
Figure BDA00032929279900000713
其中
Figure BDA00032929279900000714
表示状态
Figure BDA00032929279900000715
上可行动作的最大Q函数,α∈(0,1)是强化学习算法的学习因子,而δ∈(0,1)是表示基站贪婪算法的参数。贪婪策略是基站在学习过程中在开发和探索之间进行权衡的一种方法。基站的发射功率由下式给出:
Figure BDA00032929279900000716
其中,|Ω|是发射机动作的总数。
而干扰功率控制博弈策略则通过以下方式更新Q函数:
Figure BDA0003292927990000081
Figure BDA0003292927990000082
干扰机的干扰功率由下式给出:
Figure BDA0003292927990000083
智能体每进行一步,都要进行感知-决策-执行决策,如图6上半部分训练阶段算法结构图所示。由于在训练阶段采用的是合作式的训练方式,在感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的SINR来估计干扰机干扰功率。双方获得感知信息后,更新各自的状态信息,计算效用并更新Q函数,执行下一次动作选择。对抗双方在训练阶段反复进行该过程,直到所有智能体收益基本保持均衡为止,达到收敛。
算法1中总结了基于强化学习的干扰-抗干扰功率控制博弈策略学习优化过程。
(5)基于强化学习经验的实况模拟测试方案如下:
在强化学习的实际应用测试阶段,在得到训练好的智能基站和智能干扰机后,模拟真实的对抗环境。
在实际测试阶段,干扰机不具备直接获得被干扰方信息的能力。为实现闭环的“感知-决策-执行”中的“认知”,智能干扰机增加了窃听模块来获得粗略的基站发射信号强度信息。智能干扰机通过K-Means聚类算法或者SOM聚类算法来对窃听到的基站发射机信号强度进行聚类,并使用经过训练的聚类中心点作为判断发射功率等级的阈值。通过使用相应的阈值,可以对窃听到的接收信号强度进行功率等级评估,并将该结果作为干扰机对被干扰方动作的评估结果。
如图6下半部分测试阶段算法结构图所示,在感知阶段,智能干扰机通过窃听获得被干扰方动作信息,而被干扰方则通过用户反馈的SINR来估计干扰方的动作信息。双方获得感知信息后,更新各自的状态信息,然后根据加载的训练经验进行决策,执行下一时刻的动作。
算法2中总结了测试阶段基于强化学习的功率控制过程。
Figure BDA0003292927990000084
Figure BDA0003292927990000091
Figure BDA0003292927990000092
下面将结合附图对实施方式进一步的详细描述:
(1)算法参数设置:
本发明的仿真中,通过将发射天线数分别设置为NB=48、96、256来评估基于强化学习的建议解决方案的性能。在所考虑的系统中,基站的RF链的数量设置为16以服务于相应数量的用户,并从10个级别中选择发射功率。成本参数CB和CJ设置为CB=1.5和CJ=5,以平衡效用和成本。学习参数选择为α=0.5,δ=0.5。
(2)模型训练:本发明采用强化学习优化方法,进行协同训练。攻防双方信息透明,不断学习对手策略并提升自己。系统性能随着训练的进行而逐渐提高,并在2×104个时隙后达到收敛。
(3)系统测试:本发明在测试阶段模仿实际对抗环境,对抗双方通过己方闭环系统以及训练阶段的经验来获取信息、分析信息并优化策略。
(a)窃听模块:分别使用K-Means聚类和SOM网络对窃听到的基站发射信号的强度进行等级评估。实验所得加入干扰机窃听功能后,干扰机对发射机方的信息获取更加准确,与训练阶段双方信息透明的状况更为接近,系统测试性能更接近训练阶段的结果。
(b)性能测试:在测试阶段,分别测试通信系统性能和干扰机效用指标。
(c)基线对比实验:基站恒定发射功率系统以及随机干扰被分别用作基准,分别进行以下对比实验测试双方智能性:基站使用恒定发射功率-随机干扰、基站使用优化后的发射功率-随机干扰、基站使用优化后的发射功率-智能干扰。
(d)合作-非合作训练对比实验:非合作训练与合作训练相比,攻防双方在训练中持有的信息大大减少。分别进行合作-非合作训练对比实验以检验合作式训练的有效性。
(4)评价指标:本发明实验采用总数据速率和基站发射机(干扰机)效用衡量算法效果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
参考文献:
[1]M.Li,I.Koutsopoulos,and R.Poovendran,“Optimal jamming attacks andnetwork defense policies in wireless sensor networks,”in IEEEINFOCOM 2007-26th IEEE International Conference on Computer Communications,2007,pp.1307–1315.
[2]Y.-C.Tung,S.Han,D.Chen,and K.G.Shin,“Vulnerability and protectionof channel state information in multiuser mimo networks,”in Proceedings ofthe 2014 ACM SIGSAC Conference on Computer and Communications Security,2014,pp.775–786.
[3]L.Xiao,J.Liu,Q.Li,N.B.Mandayam,and H.V.Poor,“User-centric view ofjamming games in cognitive radio networks,”IEEE Transactions on InformationForensics and Security,vol.10,no.12,pp.2578–2590,2015.
[4]H.Wang,L.Zhang,T.Li,and J.Tugnait,“Spectrally efficient jammingmitigation based on code-controlled frequency hopping,”IEEE Transactions onWireless Communications,vol.10,no.3,pp.728–732,2011.
[5]K.Park and J.Seo,“Single-antenna-based gps anti-jamming methodexploiting polarization diversity,”2020.
[6]A.Richa,C.Scheideler,S.Schmid,and J.Zhang,“Antijam:Efficientmedium access despite adaptive and reactive jamming,”2011.
[7]R.Talwar,N.Amala,G.Medina,A.S.Jida,and M.E.Eltayeb,“Exploitingmulti-path for safeguarding mmwave communications against randomly locatedeavesdroppers,”2020.
[8]M.Hannon,Shaung Feng,Hyuck Kwon,and Khanh Pham,“Jammingstatistics-dependent frequency hopping,”in MILCOM 2016-2016IEEE MilitaryCommunications Conference,2016,pp.138–143.
[9]M.L.Littman,“Markov games as a framework for multi-agentreinforcement learning,”in Machine learning proceedings 1994.Elsevier,1994,pp.157–163.
[10]X.He,H.Dai,P.Ning,and R.Dutta,“A stochastic multi-channelspectrum access game with incomplete information,”in 2015IEEE InternationalConference on Communications(ICC).IEEE,2015,pp.4799–4804.
[11]A.Garnaev,M.Baykal-Gursoy,and H.V.Poor,“A game theoretic analysisof secret and reliable communication with active and passive adversarialmodes,”IEEE Transactions on Wireless Communications,vol.15,no.3,pp.2155–2163,2015.
[12]Z.Xiao,B.Gao,S.Liu,and L.Xiao,“Learning based power control formmwave massive mimo against jamming,”in 2018 IEEE Global CommunicationsConference(GLOBECOM).IEEE,2018,pp.1–6.
[13]Y.Arjoune and S.Faruque,“Smart jamming attacks in 5g new radio:Areview,”2020.
[14]Q.Wang,T.Nguyen,K.Pham,and H.Kwon,“Mitigating jamming attack:Agame-theoretic perspective,”IEEE Transactions on Vehicular Technology,vol.67,no.7,pp.6063–6074,2018.
[15]L.Jia,Y.Xu,Y.Sun,S.Feng,and A.Anpalagan,“Stackelberg gameapproaches for anti-jamming defence in wireless networks,”IEEE WirelessCommunications,vol.25,no.6,pp.120–128,2018.
[16]J.Zheng,Y.Cai,Y.Xu,and A.Anpalagan,“Distributed channel selectionfor interference mitigation in dynamic environment:A game theoreticstochastic learning solution,”Vehicular Technology IEEE Transactions on,vol.63,no.9,pp.4757–4762,2014.
[17]D.Yang,G.Xue,J.Zhang,A.Richa,and X.Fang,“Coping with asmartjammer in wireless networks:A stackelberg game approach,”IEEE Transactions onWireless Communications,vol.12,no.8,pp.4038–4047,2013.
[18]Y.Li,L.Xiao,H.Dai,and H.V.Poor,“Game theoretic study ofprotecting mimo transmissions against smart attacks,”in 2017 IEEEInternational Conference on Communications(ICC).IEEE,2017,pp.1–6.
[19]Y.Xu,J.Xia,H.Wu,and L.Fan,“Q-learning based physical-layersecuregame against multiagent attacks,”IEEE Access,vol.7,pp.49 212–49 222,2019。

Claims (3)

1.一种强化学习非零和非合作多智能体安全通信功率控制方法,其特征是,步骤如下:
(1)建立无线网络干扰-抗干扰通信博弈框架
在功率博弈中,基站通过选择适当的发射功率来确保安全通信速率,而干扰机在成本控制下通过选择干扰强度来在最大化干扰效果;
(2)训练阶段动态博弈的功率控制,方法如下:
在强化学习的训练阶段,采用合作式的训练方式,基站发射机基于用户反馈的平均信噪比评估干扰机采取的干扰强度,而干扰机则可以直接获得被干扰方的动作信息;
在强化学习的感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的信号与干扰加噪声比SINR来估计干扰机干扰功率,双方获得感知信息后,更新各自的状态信息,计算效用并更新品质系数Q函数,执行下一次动作选择;
对抗双方在训练阶段反复进行该过程,直到所有智能体收益基本保持均衡为止,达到收敛。
2.如权利要求1所述的强化学习非零和非合作多智能体安全通信功率控制方法,其特征是,具体步骤如下:
(1)建立无线网络干扰-抗干扰通信博弈框架
基站采用混合预编码架构,发射机天线数量为NB,发送K×1传输信号矢量sB,其发射功率由PB表示,
Figure FDA0003292927980000011
发射机发射成本用CB表示,当K个用户接收到信号时,用户估计信道质量和SINR,并将其进行反馈;
用户k和基站有
Figure FDA0003292927980000012
条路径,用户k和基站的路径
Figure FDA0003292927980000013
的复增益、方位角和仰角分别表示为
Figure FDA0003292927980000014
令aB(φ,θ)表示阵列导向矢量,用户k和基站之间的信道矢量,即
Figure FDA0003292927980000015
写为:
Figure FDA0003292927980000016
用户和基站之间的信道矩阵可以表示为:
Figure FDA0003292927980000017
干扰机与基站具有相同的预编码架构,有NJ个干扰天线,以与基站相同的频率发送用zJ表示的干扰信号,在时隙n,智能干扰机根据正在进行的传输状态和信道状态选择干扰功率,记为
Figure FDA0003292927980000018
以降低通信系统的SINR,智能干扰机的干扰成本用CJ表示,用户k和智能干扰机之间有
Figure FDA0003292927980000019
条路径,路径的复增益、方位角和仰角可以表示为
Figure FDA00032929279800000110
因此,用户k与智能干扰机之间的信道矢量由下式给出:
Figure FDA00032929279800000111
K个用户与智能干扰机之间的信道矩阵表示为:
Figure FDA00032929279800000112
(2)训练阶段动态博弈的功率控制,方法如下:
由基站和干扰机组成的多智能体,其强化学习过程为随机博弈过程,将每一个状态的阶段博弈的策略组合起来成为一个智能体在动态环境中的策略,并不断与环境和其他智能体交互来更新每一个状态的阶段博弈中的Q值函数;
基于强化学习的动态博弈需要以下几个要素:代理、各博弈方的策略集、及博弈方的收益,博弈包含有限个数的代理,在这项工作中设置代理q∈{B,J},其中B代表基站发射机,J代表智能干扰机,每个参与博弈的代理都有自己的策略集合,在每次博弈中,所有参与代理根据获得的信息,在相应的策略下从各自的动作集合中选取使自己收益最大化的动作来作为当前时刻要采取的行动,代理的收益函数表示其在策略组合下所能获得的收益值,每个代理的收益不仅与自己选择的策略有关,还取决于其他参与者采取的行动,在多智能体系统中多个智能体是同时学习的,当对方策略改变时,每个智能体自身的最优策略也可能会变化;
在训练阶段,基站收集K个用户的先前SINR,表示为
Figure FDA0003292927980000021
并根据信道质量和K用户的SINR估计先前的干扰功率,即
Figure FDA0003292927980000022
基站将时隙n-1处的干扰功率和所有用户的SINR设置为发射机当前系统状态,即
Figure FDA0003292927980000023
同理,由于在训练阶段互相信息是对称的,所以干扰机的系统状态表示为
Figure FDA0003292927980000024
然后,基站基于
Figure FDA0003292927980000025
选择发送功率
Figure FDA0003292927980000026
以在状态
Figure FDA0003292927980000027
发送信号,基站在从用户接收反馈信息时,更新新的系统状态,即
Figure FDA0003292927980000028
干扰机则根据
Figure FDA0003292927980000029
选择干扰功率
Figure FDA00032929279800000210
并发送干扰信号;
由于发射机与智能干扰机之间目标不同,彼此之间又相互耦合影响,因此奖励设计的优劣直接影响学习到的策略的好坏;
发射机的收益函数为:
Figure FDA00032929279800000211
干扰机的收益函数为:
Figure FDA00032929279800000212
抗干扰功率控制博弈策略每次通过以下方式更新Q函数:
Figure FDA00032929279800000213
Figure FDA00032929279800000214
其中
Figure FDA00032929279800000215
表示状态
Figure FDA00032929279800000216
上可行动作的最大Q函数,α∈(0,1)是强化学习算法的学习因子,而δ∈(0,1)是表示基站贪婪算法的参数,贪婪策略是基站在学习过程中在开发和探索之间进行权衡的一种方法,基站的发射功率由下式给出:
Figure FDA0003292927980000031
其中,|Ω|是发射机动作的总数;
而干扰功率控制博弈策略则通过以下方式更新Q函数:
Figure FDA0003292927980000032
Figure FDA0003292927980000033
干扰机的干扰功率由下式给出:
Figure FDA0003292927980000034
智能体每进行一步,都要进行感知-决策-执行决策,由于在训练阶段采用的是合作式的训练方式,在感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的SINR来估计干扰机干扰功率;双方获得感知信息后,更新各自的状态信息,计算效用并更新Q函数,执行下一次动作选择;对抗双方在训练阶段反复进行感知-决策-执行决策过程,直到所有智能体收益基本保持均衡为止,达到收敛。
3.如权利要求1所述的强化学习非零和非合作多智能体安全通信功率控制方法,其特征是,基于强化学习经验的实况模拟测试步骤如下:
在强化学习的实际应用测试阶段,在得到训练好的智能基站和智能干扰机后,模拟真实的对抗环境;
在实际测试阶段,干扰机不具备直接获得被干扰方信息的能力,为实现闭环的“感知-决策-执行”中的“认知”,智能干扰机增加了窃听模块来获得粗略的基站发射信号强度信息;智能干扰机通过K-Means聚类算法或者SOM聚类算法来对窃听到的基站发射机信号强度进行聚类,并使用经过训练的聚类中心点作为判断发射功率等级的阈值,通过使用相应的阈值,可以对窃听到的接收信号强度进行功率等级评估,并将该结果作为干扰机对被干扰方动作的评估结果。
CN202111170428.7A 2021-10-08 2021-10-08 强化学习非零和非合作多智能体安全通信功率控制方法 Active CN113973362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111170428.7A CN113973362B (zh) 2021-10-08 2021-10-08 强化学习非零和非合作多智能体安全通信功率控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111170428.7A CN113973362B (zh) 2021-10-08 2021-10-08 强化学习非零和非合作多智能体安全通信功率控制方法

Publications (2)

Publication Number Publication Date
CN113973362A true CN113973362A (zh) 2022-01-25
CN113973362B CN113973362B (zh) 2024-03-22

Family

ID=79587118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111170428.7A Active CN113973362B (zh) 2021-10-08 2021-10-08 强化学习非零和非合作多智能体安全通信功率控制方法

Country Status (1)

Country Link
CN (1) CN113973362B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115022952A (zh) * 2022-08-09 2022-09-06 中国人民解放军国防科技大学 一种对抗条件下的卫星通信功率资源分配方法
CN115113146A (zh) * 2022-05-24 2022-09-27 西安电子科技大学 一种基于深度q网络的雷达干扰机博弈策略获取方法
CN115333956A (zh) * 2022-10-17 2022-11-11 南京信息工程大学 一种多联盟非合作博弈的多智能体状态控制方法
CN115347927A (zh) * 2022-08-15 2022-11-15 东南大学 一种智能超表面辅助ofdm系统1比特相移配置方法
CN115379545A (zh) * 2022-09-22 2022-11-22 北京工业大学 一种工业动态复杂环境中无线通信发射功率匹配系统及方法
CN117614501A (zh) * 2023-11-27 2024-02-27 中国人民解放军陆军工程大学 一种基于深度强化学习的认知通扰一体化波束形成方法
CN118243132A (zh) * 2024-05-28 2024-06-25 山东理工大学 基于Astar算法与非零和博弈的动态路径规划方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101031129A (zh) * 2006-03-01 2007-09-05 中兴通讯股份有限公司 一种抑制无线系统间干扰的装置和方法
CN106487417A (zh) * 2016-10-20 2017-03-08 成都米风通信技术有限公司 基于WiFi 芯片的电视白频谱抗干扰系统及方法
CN108901065A (zh) * 2018-07-27 2018-11-27 湖北民族学院 一种利益分配关系建模的能效最优报偿及功率分配方法
US20200153535A1 (en) * 2018-11-09 2020-05-14 Bluecom Systems and Consulting LLC Reinforcement learning based cognitive anti-jamming communications system and method
CN112423234A (zh) * 2020-11-20 2021-02-26 华侨大学 基于强化学习的无人机辅助物联网抗敌意干扰方法和系统
WO2021136070A1 (zh) * 2019-12-30 2021-07-08 三维通信股份有限公司 无线携能物理层安全传输的资源分配方法、装置及计算机
CN113382381A (zh) * 2021-05-30 2021-09-10 南京理工大学 一种基于贝叶斯q学习的无人机集群网络智能跳频方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101031129A (zh) * 2006-03-01 2007-09-05 中兴通讯股份有限公司 一种抑制无线系统间干扰的装置和方法
CN106487417A (zh) * 2016-10-20 2017-03-08 成都米风通信技术有限公司 基于WiFi 芯片的电视白频谱抗干扰系统及方法
CN108901065A (zh) * 2018-07-27 2018-11-27 湖北民族学院 一种利益分配关系建模的能效最优报偿及功率分配方法
US20200153535A1 (en) * 2018-11-09 2020-05-14 Bluecom Systems and Consulting LLC Reinforcement learning based cognitive anti-jamming communications system and method
WO2021136070A1 (zh) * 2019-12-30 2021-07-08 三维通信股份有限公司 无线携能物理层安全传输的资源分配方法、装置及计算机
CN112423234A (zh) * 2020-11-20 2021-02-26 华侨大学 基于强化学习的无人机辅助物联网抗敌意干扰方法和系统
CN113382381A (zh) * 2021-05-30 2021-09-10 南京理工大学 一种基于贝叶斯q学习的无人机集群网络智能跳频方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘伟;汪清;: "分布式MIMO系统的复合信道容量分析", 计算机工程与应用, no. 02 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115113146A (zh) * 2022-05-24 2022-09-27 西安电子科技大学 一种基于深度q网络的雷达干扰机博弈策略获取方法
CN115022952A (zh) * 2022-08-09 2022-09-06 中国人民解放军国防科技大学 一种对抗条件下的卫星通信功率资源分配方法
CN115347927A (zh) * 2022-08-15 2022-11-15 东南大学 一种智能超表面辅助ofdm系统1比特相移配置方法
CN115379545A (zh) * 2022-09-22 2022-11-22 北京工业大学 一种工业动态复杂环境中无线通信发射功率匹配系统及方法
CN115333956A (zh) * 2022-10-17 2022-11-11 南京信息工程大学 一种多联盟非合作博弈的多智能体状态控制方法
CN117614501A (zh) * 2023-11-27 2024-02-27 中国人民解放军陆军工程大学 一种基于深度强化学习的认知通扰一体化波束形成方法
CN118243132A (zh) * 2024-05-28 2024-06-25 山东理工大学 基于Astar算法与非零和博弈的动态路径规划方法

Also Published As

Publication number Publication date
CN113973362B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN113973362B (zh) 强化学习非零和非合作多智能体安全通信功率控制方法
Wang et al. Dynamic spectrum anti-jamming communications: Challenges and opportunities
CN111970072B (zh) 基于深度强化学习的宽带抗干扰系统及抗干扰方法
Shen et al. Beam-domain anti-jamming transmission for downlink massive MIMO systems: A Stackelberg game perspective
Liu et al. Intelligent reflecting surface meets mobile edge computing: Enhancing wireless communications for computation offloading
Chen et al. DQN-based power control for IoT transmission against jamming
Sagduyu et al. MAC games for distributed wireless network security with incomplete information of selfish and malicious user types
Zhao et al. Reinforcement learning based a non-zero-sum game for secure transmission against smart jamming
Ibrahim et al. Anti-jamming game to combat intelligent jamming for cognitive radio networks
CN115567148A (zh) 一种基于合作q学习的智能干扰方法
Yang et al. Intelligent reflecting surface assisted anti-jamming communications based on reinforcement learning
Li et al. Reinforcement learning-based intelligent reflecting surface assisted communications against smart attackers
Khanafer et al. Adaptive resource allocation in jamming teams using game theory
Li et al. Know Thy Enemy: An Opponent Modeling-Based Anti-Intelligent Jamming Strategy Beyond Equilibrium Solutions
Zheng et al. Covert federated learning via intelligent reflecting surfaces
CN113420495A (zh) 主动诱骗式智能抗干扰方法
Choi et al. Uplink energy efficiency of cell-free massive MIMO with transmit power control in measured propagation channels
Wang et al. Opponent’s dynamic prediction model-based power control scheme in secure transmission and smart jamming game
Wu et al. Game-theoretic and Learning-aided Physical Layer Security for Multiple Intelligent Eavesdroppers
Wang et al. A multi-agent reinforcement learning-based collaborative jamming system: Algorithm design and software-defined radio implementation
Rawat Deep transfer learning for physical layer security in wireless communication systems
Pramitarini et al. Exploiting TAS schemes to enhance the PHY-security in cooperative NOMA networks: A deep learning approach
Zhou et al. “One Plus One is Greater Than Two”: Defeating Intelligent Dynamic Jamming with Collaborative Multi-agent Reinforcement Learning
Ke et al. An intelligent anti-interference communication method based on game learning
Wu et al. Anti-jamming and anti-eavesdropping in A2G communication system with jittering UAV

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant