CN113973362A - 强化学习非零和非合作多智能体安全通信功率控制方法 - Google Patents
强化学习非零和非合作多智能体安全通信功率控制方法 Download PDFInfo
- Publication number
- CN113973362A CN113973362A CN202111170428.7A CN202111170428A CN113973362A CN 113973362 A CN113973362 A CN 113973362A CN 202111170428 A CN202111170428 A CN 202111170428A CN 113973362 A CN113973362 A CN 113973362A
- Authority
- CN
- China
- Prior art keywords
- interference
- base station
- jammer
- game
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004891 communication Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 57
- 230000002787 reinforcement Effects 0.000 claims abstract description 39
- 230000009471 action Effects 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 18
- 230000008901 benefit Effects 0.000 claims abstract description 7
- 238000013461 design Methods 0.000 claims abstract description 4
- 239000003795 chemical substances by application Substances 0.000 claims description 76
- 230000006870 function Effects 0.000 claims description 27
- 230000005540 biological transmission Effects 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 21
- 230000000694 effects Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000011161 development Methods 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000019771 cognition Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 10
- 238000004458 analytical method Methods 0.000 abstract description 3
- 230000008846 dynamic interplay Effects 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 abstract 1
- 230000003993 interaction Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 208000001613 Gambling Diseases 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005381 potential energy Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
- H04W52/243—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/26—TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service]
- H04W52/267—TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service] taking into account the information rate
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Networks & Wireless Communication (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及多智能体强化学习领域,为在博弈均衡状态分析的基础上,针对博弈双方动态交互的特点,对双方策略优化方法进行改进,本发明,强化学习非零和非合作多智能体安全通信功率控制方法;步骤如下:建立无线网络干扰‑抗干扰通信博弈框架;训练阶段动态博弈的功率控制,方法如下:在强化学习的训练阶段,采用合作式的训练方式;在强化学习的感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的信号与干扰加噪声比SINR来估计干扰机干扰功率,执行下一次动作选择;对抗双方在训练阶段反复进行该过程,直到所有智能体收益基本保持均衡为止,达到收敛。本发明主要应用于雷达、干扰机设计制造场合。
Description
技术领域
本方法涉及多智能体强化学习领域,特别是安全通信中针对智能干扰方的博弈对抗。具体涉及强化学习非零和非合作多智能体安全通信功率控制方法。
背景技术
无线网络由于介质的开放性和共享性存在被窃听的风险,再加上发射功率的有限性,易受到干扰攻击[1]。干扰机通过发送干扰信号可以破坏无线网络的传输安全性,从而在能量约束下对通信网络造成尽可能大的损害。
随着各种智能无线设备的日益普及,干扰攻击的发展趋势更加多样化、智能化。智能干扰机可根据通信系统正在进行的传输状态、传输历史和无线电信道状态灵活地选择其攻击方法、攻击类型和攻击强度[2]。根据马尔可夫决策过程可以研究被干扰方和智能干扰机之间的长期交互作用[3],并对用户决策进行建模。当智能干扰机具有学习防御者策略的能力时,它可以根据传输策略的规律自适应地选择最佳干扰策略。
智能干扰机的不断升级给无线网络的安全性带来了更为严峻的挑战。面对新的挑战,有必要在干扰-抗干扰对抗逐渐智能化的情况下不断提高对抗双方的策略优化能力[4-8]。近来,强化学习(RL)在决策问题上的广泛成功应用吸引了很多研究人员将强化学习用在干扰-抗干扰无线通信中。在基站发射机与智能干扰机之间动态对抗交互的功率控制过程中,利用强化学习算法可以得到优化的功率控制策略[9-12]。以毫米波(mmWave)大规模多输入多输出(MIMO)系统为例,将信号与干扰加噪声比(SINR)作为攻防双方的效用的主要衡量标准,使用快速策略梯度的算法可以实现双方的最优功率控制[12]。
智能干扰机和智能抗干扰机始终以相互矛盾的方式进行攻击和防御。实际上,所有进化方之间都存在基本的权衡。面对可能涉及到智能体间合作与竞争的的关系,可以引入博弈的概念来研究网络攻防过程的机制[13-19]。Yanda Li等人围绕用户与智能干扰机之间关于其各自的发射功率选择的交互过程提出了一种在智能攻击下的安全MIMO传输博弈[17],并且推导了在不同信道模型和传输成本下的静态MIMO博弈的纳什均衡(NE),其中干扰机和被干扰基站均存在潜在能量限制。为了更加贴合实际对抗环境,提出了应对多个智能攻击者的随机博弈框架,其中每个智能攻击者具备多种攻击模式[19]。此外,影响智能攻击者攻击率的因素也在分析物理层随机安全博弈的均衡基础上得到了研究。
目前通信系统干扰-抗干扰博弈对抗在不断发展中,但研究仍然有一定局限性。提出的抗干扰方法一般建立在对手缺乏闭环反馈能力的基础上,对智能干扰机如何获取理想、实际的防御方的信息的论述比较缺乏。在实际对抗条件下,一方面,己方不能直接获得敌方策略的摸底情况;另一方面,在施加干扰后,干扰机很难得知具体的干扰效果。由于通过训练让攻防双方足够智能化的前提条件是互相有直接或间接的有效信息,所以,构建探测对方意图的渠道对实现智能化博弈至关重要。本发明提出一种基于聚类的窃听信息分析方法。这种方法可以估计非合作情况下被干扰方发射机的动作,并将该估计值用作己方策略优化的基础。此外,本发明在博弈的基本框架下应用创新的合作训练和非合作测试来探索优化的稳定状态,这对于提高双方的学习效率和能力是极其有利的。
发明内容
为克服现有技术的不足,本发明旨在提出一种利用强化学习来提升通信安全博弈智能性与有效性的算法。本方法基于非零和非合作博弈,在博弈均衡状态分析的基础上,针对博弈双方动态交互的特点,对双方策略优化方法进行改进。为此,本发明采取的技术方案是,强化学习非零和非合作多智能体安全通信功率控制方法;步骤如下:
(1)建立无线网络干扰-抗干扰通信博弈框架
在功率博弈中,基站通过选择适当的发射功率来确保安全通信速率,而干扰机在成本控制下通过选择干扰强度来在最大化干扰效果;
(2)训练阶段动态博弈的功率控制,方法如下:
在强化学习的训练阶段,采用合作式的训练方式,基站发射机基于用户反馈的平均信噪比评估干扰机采取的干扰强度,而干扰机则可以直接获得被干扰方的动作信息;
在强化学习的感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的信号与干扰加噪声比SINR来估计干扰机干扰功率,双方获得感知信息后,更新各自的状态信息,计算效用并更新品质系数Q函数,执行下一次动作选择;
对抗双方在训练阶段反复进行该过程,直到所有智能体收益基本保持均衡为止,达到收敛。
具体步骤如下:
(1)建立无线网络干扰-抗干扰通信博弈框架
用户和基站之间的信道矩阵可以表示为:
干扰机与基站具有相同的预编码架构,有NJ个干扰天线,以与基站相同的频率发送用zJ表示的干扰信号,在时隙n,智能干扰机根据正在进行的传输状态和信道状态选择干扰功率,记为PJ (n)≥0,以降低通信系统的SINR,智能干扰机的干扰成本用CJ表示,用户k和智能干扰机之间有条路径,路径的复增益、方位角和仰角可以表示为因此,用户k与智能干扰机之间的信道矢量由下式给出:
K个用户与智能干扰机之间的信道矩阵表示为:
(2)训练阶段动态博弈的功率控制,方法如下:
由基站和干扰机组成的多智能体,其强化学习过程为随机博弈过程,将每一个状态的阶段博弈的策略组合起来成为一个智能体在动态环境中的策略,并不断与环境和其他智能体交互来更新每一个状态的阶段博弈中的Q值函数;
基于强化学习的动态博弈需要以下几个要素:代理、各博弈方的策略集、及博弈方的收益,博弈包含有限个数的代理,在这项工作中设置代理q∈{B,J},其中B代表基站发射机,J代表智能干扰机,每个参与博弈的代理都有自己的策略集合,在每次博弈中,所有参与代理根据获得的信息,在相应的策略下从各自的动作集合中选取使自己收益最大化的动作来作为当前时刻要采取的行动,代理的收益函数表示其在策略组合下所能获得的收益值,每个代理的收益不仅与自己选择的策略有关,还取决于其他参与者采取的行动,在多智能体系统中多个智能体是同时学习的,当对方策略改变时,每个智能体自身的最优策略也可能会变化;
由于发射机与智能干扰机之间目标不同,彼此之间又相互耦合影响,因此奖励设计的优劣直接影响学习到的策略的好坏;
发射机的收益函数为:
干扰机的收益函数为:
抗干扰功率控制博弈策略每次通过以下方式更新Q函数:
其中表示状态上可行动作的最大Q函数,α∈(0,1)是强化学习算法的学习因子,而δ∈(0,1)是表示基站贪婪算法的参数,贪婪策略是基站在学习过程中在开发和探索之间进行权衡的一种方法,基站的发射功率由下式给出:
其中,|Ω|是发射机动作的总数;
而干扰功率控制博弈策略则通过以下方式更新Q函数:
干扰机的干扰功率由下式给出:
智能体每进行一步,都要进行感知-决策-执行决策,由于在训练阶段采用的是合作式的训练方式,在感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的SINR来估计干扰机干扰功率;双方获得感知信息后,更新各自的状态信息,计算效用并更新Q函数,执行下一次动作选择;对抗双方在训练阶段反复进行感知-决策-执行决策过程,直到所有智能体收益基本保持均衡为止,达到收敛。
基于强化学习经验的实况模拟测试步骤如下:
在强化学习的实际应用测试阶段,在得到训练好的智能基站和智能干扰机后,模拟真实的对抗环境;
在实际测试阶段,干扰机不具备直接获得被干扰方信息的能力,为实现闭环的“感知-决策-执行”中的“认知”,智能干扰机增加了窃听模块来获得粗略的基站发射信号强度信息;智能干扰机通过K-Means聚类算法或者SOM聚类算法来对窃听到的基站发射机信号强度进行聚类,并使用经过训练的聚类中心点作为判断发射功率等级的阈值,通过使用相应的阈值,可以对窃听到的接收信号强度进行功率等级评估,并将该结果作为干扰机对被干扰方动作的评估结果。
本发明的特点及有益效果是:
(1)由于在多智能体强化学习中,智能体间的相互作用会影响学习效果,所以本发明在强化学习基础上引入了在多智能体非零和非合作博弈的架构,实现自适应的闭环策略优化,使双方在交互对抗中互相学习并提升自己,探索性能的提升空间与均衡状态,双向增强了博弈方的智能性和适应性,更符合实际应用需求。
(2)通过合作式的训练来让基站(BS)和干扰机相互学习对方的功率分配策略,探索对抗双方优化的稳定状态,并将训练经验应用在模拟实际对抗的交互中。这种方法对于提升攻防双方智能性十分有益。从训练效果图可以看出,基于合作的训练与基于非合作的训练相比,收敛更快且更加稳定。
(3)在传统的通信安全干扰-抗干扰博弈中,干扰机的信息获取渠道及处理方式研究较缺乏,因此提出的抗干扰方法也一般建立在缺乏智能性与优化能力的对手基础上。为了更接近实际对抗环境,本发明建立了干扰方的有效信息获取渠道并构建了干扰效果评估模型,使干扰机也能学习对方的策略,并将之作为干扰决策的依据,弥补了传统方法对干扰机信息获取论证方面的缺乏。
(4)在测试阶段模拟了真实的对抗环境并测试了不同条件下的系统性能。实验结果表明,当干扰机采用更加精确的聚类方法时系统实际测试性能更接近训练结果,所提出的方法可以显着提高双方的学习效率和能力。
附图说明:
图1系统模型。
图2智能体间动态交互示意图。
图3使用或不使用智能优化策略时的攻击者和防御者的实际对抗测试。
图4合作-非合作训练效果对比。
图5干扰机窃听模块分别使用K均值(K-Means)聚类算法和自组织特征映射神经网络(SOM)聚类算法时的系统性能比较。
图6为所提出的基于强化学习的干扰-抗干扰动态博弈中双方策略优化的网络整体结构图。
具体实施方式
本发明在博弈论的理论基础上,提出一种基于强化学习的干扰-抗干扰机功率控制训练和测试方案,包括下列步骤:
(3)建立无线网络干扰-抗干扰通信博弈框架
如图1所示,考虑针对K个用户的MIMO系统。基站发射机将信息发送给用户,而干扰则通过发送干扰信号对正在进行的通信进行干扰来降低信息速率。在本发明中,我们将重点讨论干扰机与通信系统之间的功率博弈。在功率博弈中,基站通过选择适当的发射功率来确保安全通信速率,而干扰机在成本控制下通过选择干扰强度来在最大化干扰效果。干扰成本和抗干扰成本是博弈双方的重要约束。此外,博弈中的干扰方和抗干扰方都需要通过一定的信息反馈来获取有益于其正确决策的有效信息。
用户和基站之间的信道矩阵可以表示为:
设定智能干扰机与基站具有相同的预编码架构,有NJ个干扰天线,以与基站相同的频率发送干扰信号(用zJ表示),以干扰通信。在时隙n,智能干扰机根据正在进行的传输状态和信道状态选择干扰功率,记为PJ (n)≥0,以降低通信系统的SINR。智能干扰机的干扰成本用CJ表示。用户k和智能干扰机之间有条路径。路径的复增益、方位角和仰角可以表示为因此,用户k与智能干扰机之间的信道矢量由下式给出:
K个用户与智能干扰机之间的信道矩阵表示为:
(4)训练阶段动态博弈的功率控制,方法如下:
在强化学习的训练阶段,采用合作式的训练方式。基站发射机基于用户反馈的平均信噪比评估干扰机采取的干扰强度,而干扰机则可以直接获得被干扰方的动作信息。基于合作式的训练方式,双方均可以直接获得认知信息来完成闭环的智能决策。
多智能体强化学习可看成随机博弈,将每一个状态的阶段博弈的策略组合起来成为一个智能体在动态环境中的策略,并不断与环境和其他智能体交互来更新每一个状态的阶段博弈中的Q值函数,如图2所示。
在整个交互过程中,所有智能体在每一离散时刻都是同时做出决策的。同时,由于每个智能体在决策时都仅考虑最大化自己的收益,而不关心是否损害了对方的收益,且所有个体的收益之和不为零,因此该博弈是一个非零和非合作博弈。
基于强化学习的动态博弈需要以下几个要素:代理、各博弈方的策略集、及博弈方的收益。博弈包含有限个数的代理,在这项工作中设置代理q∈{B,J},其中B代表基站发射机,J代表智能干扰机。每个参与博弈的代理都有自己的策略集合,在每次博弈中,所有参与代理根据获得的信息,在相应的策略下从各自的动作集合中选取使自己收益最大化的动作来作为当前时刻要采取的行动。代理的收益函数表示其在策略组合下所能获得的收益值。每个代理的收益不仅与自己选择的策略有关,还取决于其他参与者采取的行动。在多智能体系统中多个智能体是同时学习的,当对方策略改变时,每个智能体自身的最优策略也可能会变化,这将对算法的收敛性带来影响。
由于发射机与智能干扰机之间目标不同,彼此之间又相互耦合影响,因此奖励设计的优劣直接影响学习到的策略的好坏。
发射机的收益函数为:
干扰机的收益函数为:
抗干扰功率控制博弈策略每次通过以下方式更新Q函数:
其中表示状态上可行动作的最大Q函数,α∈(0,1)是强化学习算法的学习因子,而δ∈(0,1)是表示基站贪婪算法的参数。贪婪策略是基站在学习过程中在开发和探索之间进行权衡的一种方法。基站的发射功率由下式给出:
其中,|Ω|是发射机动作的总数。
而干扰功率控制博弈策略则通过以下方式更新Q函数:
干扰机的干扰功率由下式给出:
智能体每进行一步,都要进行感知-决策-执行决策,如图6上半部分训练阶段算法结构图所示。由于在训练阶段采用的是合作式的训练方式,在感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的SINR来估计干扰机干扰功率。双方获得感知信息后,更新各自的状态信息,计算效用并更新Q函数,执行下一次动作选择。对抗双方在训练阶段反复进行该过程,直到所有智能体收益基本保持均衡为止,达到收敛。
算法1中总结了基于强化学习的干扰-抗干扰功率控制博弈策略学习优化过程。
(5)基于强化学习经验的实况模拟测试方案如下:
在强化学习的实际应用测试阶段,在得到训练好的智能基站和智能干扰机后,模拟真实的对抗环境。
在实际测试阶段,干扰机不具备直接获得被干扰方信息的能力。为实现闭环的“感知-决策-执行”中的“认知”,智能干扰机增加了窃听模块来获得粗略的基站发射信号强度信息。智能干扰机通过K-Means聚类算法或者SOM聚类算法来对窃听到的基站发射机信号强度进行聚类,并使用经过训练的聚类中心点作为判断发射功率等级的阈值。通过使用相应的阈值,可以对窃听到的接收信号强度进行功率等级评估,并将该结果作为干扰机对被干扰方动作的评估结果。
如图6下半部分测试阶段算法结构图所示,在感知阶段,智能干扰机通过窃听获得被干扰方动作信息,而被干扰方则通过用户反馈的SINR来估计干扰方的动作信息。双方获得感知信息后,更新各自的状态信息,然后根据加载的训练经验进行决策,执行下一时刻的动作。
算法2中总结了测试阶段基于强化学习的功率控制过程。
下面将结合附图对实施方式进一步的详细描述:
(1)算法参数设置:
本发明的仿真中,通过将发射天线数分别设置为NB=48、96、256来评估基于强化学习的建议解决方案的性能。在所考虑的系统中,基站的RF链的数量设置为16以服务于相应数量的用户,并从10个级别中选择发射功率。成本参数CB和CJ设置为CB=1.5和CJ=5,以平衡效用和成本。学习参数选择为α=0.5,δ=0.5。
(2)模型训练:本发明采用强化学习优化方法,进行协同训练。攻防双方信息透明,不断学习对手策略并提升自己。系统性能随着训练的进行而逐渐提高,并在2×104个时隙后达到收敛。
(3)系统测试:本发明在测试阶段模仿实际对抗环境,对抗双方通过己方闭环系统以及训练阶段的经验来获取信息、分析信息并优化策略。
(a)窃听模块:分别使用K-Means聚类和SOM网络对窃听到的基站发射信号的强度进行等级评估。实验所得加入干扰机窃听功能后,干扰机对发射机方的信息获取更加准确,与训练阶段双方信息透明的状况更为接近,系统测试性能更接近训练阶段的结果。
(b)性能测试:在测试阶段,分别测试通信系统性能和干扰机效用指标。
(c)基线对比实验:基站恒定发射功率系统以及随机干扰被分别用作基准,分别进行以下对比实验测试双方智能性:基站使用恒定发射功率-随机干扰、基站使用优化后的发射功率-随机干扰、基站使用优化后的发射功率-智能干扰。
(d)合作-非合作训练对比实验:非合作训练与合作训练相比,攻防双方在训练中持有的信息大大减少。分别进行合作-非合作训练对比实验以检验合作式训练的有效性。
(4)评价指标:本发明实验采用总数据速率和基站发射机(干扰机)效用衡量算法效果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
参考文献:
[1]M.Li,I.Koutsopoulos,and R.Poovendran,“Optimal jamming attacks andnetwork defense policies in wireless sensor networks,”in IEEEINFOCOM 2007-26th IEEE International Conference on Computer Communications,2007,pp.1307–1315.
[2]Y.-C.Tung,S.Han,D.Chen,and K.G.Shin,“Vulnerability and protectionof channel state information in multiuser mimo networks,”in Proceedings ofthe 2014 ACM SIGSAC Conference on Computer and Communications Security,2014,pp.775–786.
[3]L.Xiao,J.Liu,Q.Li,N.B.Mandayam,and H.V.Poor,“User-centric view ofjamming games in cognitive radio networks,”IEEE Transactions on InformationForensics and Security,vol.10,no.12,pp.2578–2590,2015.
[4]H.Wang,L.Zhang,T.Li,and J.Tugnait,“Spectrally efficient jammingmitigation based on code-controlled frequency hopping,”IEEE Transactions onWireless Communications,vol.10,no.3,pp.728–732,2011.
[5]K.Park and J.Seo,“Single-antenna-based gps anti-jamming methodexploiting polarization diversity,”2020.
[6]A.Richa,C.Scheideler,S.Schmid,and J.Zhang,“Antijam:Efficientmedium access despite adaptive and reactive jamming,”2011.
[7]R.Talwar,N.Amala,G.Medina,A.S.Jida,and M.E.Eltayeb,“Exploitingmulti-path for safeguarding mmwave communications against randomly locatedeavesdroppers,”2020.
[8]M.Hannon,Shaung Feng,Hyuck Kwon,and Khanh Pham,“Jammingstatistics-dependent frequency hopping,”in MILCOM 2016-2016IEEE MilitaryCommunications Conference,2016,pp.138–143.
[9]M.L.Littman,“Markov games as a framework for multi-agentreinforcement learning,”in Machine learning proceedings 1994.Elsevier,1994,pp.157–163.
[10]X.He,H.Dai,P.Ning,and R.Dutta,“A stochastic multi-channelspectrum access game with incomplete information,”in 2015IEEE InternationalConference on Communications(ICC).IEEE,2015,pp.4799–4804.
[11]A.Garnaev,M.Baykal-Gursoy,and H.V.Poor,“A game theoretic analysisof secret and reliable communication with active and passive adversarialmodes,”IEEE Transactions on Wireless Communications,vol.15,no.3,pp.2155–2163,2015.
[12]Z.Xiao,B.Gao,S.Liu,and L.Xiao,“Learning based power control formmwave massive mimo against jamming,”in 2018 IEEE Global CommunicationsConference(GLOBECOM).IEEE,2018,pp.1–6.
[13]Y.Arjoune and S.Faruque,“Smart jamming attacks in 5g new radio:Areview,”2020.
[14]Q.Wang,T.Nguyen,K.Pham,and H.Kwon,“Mitigating jamming attack:Agame-theoretic perspective,”IEEE Transactions on Vehicular Technology,vol.67,no.7,pp.6063–6074,2018.
[15]L.Jia,Y.Xu,Y.Sun,S.Feng,and A.Anpalagan,“Stackelberg gameapproaches for anti-jamming defence in wireless networks,”IEEE WirelessCommunications,vol.25,no.6,pp.120–128,2018.
[16]J.Zheng,Y.Cai,Y.Xu,and A.Anpalagan,“Distributed channel selectionfor interference mitigation in dynamic environment:A game theoreticstochastic learning solution,”Vehicular Technology IEEE Transactions on,vol.63,no.9,pp.4757–4762,2014.
[17]D.Yang,G.Xue,J.Zhang,A.Richa,and X.Fang,“Coping with asmartjammer in wireless networks:A stackelberg game approach,”IEEE Transactions onWireless Communications,vol.12,no.8,pp.4038–4047,2013.
[18]Y.Li,L.Xiao,H.Dai,and H.V.Poor,“Game theoretic study ofprotecting mimo transmissions against smart attacks,”in 2017 IEEEInternational Conference on Communications(ICC).IEEE,2017,pp.1–6.
[19]Y.Xu,J.Xia,H.Wu,and L.Fan,“Q-learning based physical-layersecuregame against multiagent attacks,”IEEE Access,vol.7,pp.49 212–49 222,2019。
Claims (3)
1.一种强化学习非零和非合作多智能体安全通信功率控制方法,其特征是,步骤如下:
(1)建立无线网络干扰-抗干扰通信博弈框架
在功率博弈中,基站通过选择适当的发射功率来确保安全通信速率,而干扰机在成本控制下通过选择干扰强度来在最大化干扰效果;
(2)训练阶段动态博弈的功率控制,方法如下:
在强化学习的训练阶段,采用合作式的训练方式,基站发射机基于用户反馈的平均信噪比评估干扰机采取的干扰强度,而干扰机则可以直接获得被干扰方的动作信息;
在强化学习的感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的信号与干扰加噪声比SINR来估计干扰机干扰功率,双方获得感知信息后,更新各自的状态信息,计算效用并更新品质系数Q函数,执行下一次动作选择;
对抗双方在训练阶段反复进行该过程,直到所有智能体收益基本保持均衡为止,达到收敛。
2.如权利要求1所述的强化学习非零和非合作多智能体安全通信功率控制方法,其特征是,具体步骤如下:
(1)建立无线网络干扰-抗干扰通信博弈框架
用户和基站之间的信道矩阵可以表示为:
干扰机与基站具有相同的预编码架构,有NJ个干扰天线,以与基站相同的频率发送用zJ表示的干扰信号,在时隙n,智能干扰机根据正在进行的传输状态和信道状态选择干扰功率,记为以降低通信系统的SINR,智能干扰机的干扰成本用CJ表示,用户k和智能干扰机之间有条路径,路径的复增益、方位角和仰角可以表示为因此,用户k与智能干扰机之间的信道矢量由下式给出:
K个用户与智能干扰机之间的信道矩阵表示为:
(2)训练阶段动态博弈的功率控制,方法如下:
由基站和干扰机组成的多智能体,其强化学习过程为随机博弈过程,将每一个状态的阶段博弈的策略组合起来成为一个智能体在动态环境中的策略,并不断与环境和其他智能体交互来更新每一个状态的阶段博弈中的Q值函数;
基于强化学习的动态博弈需要以下几个要素:代理、各博弈方的策略集、及博弈方的收益,博弈包含有限个数的代理,在这项工作中设置代理q∈{B,J},其中B代表基站发射机,J代表智能干扰机,每个参与博弈的代理都有自己的策略集合,在每次博弈中,所有参与代理根据获得的信息,在相应的策略下从各自的动作集合中选取使自己收益最大化的动作来作为当前时刻要采取的行动,代理的收益函数表示其在策略组合下所能获得的收益值,每个代理的收益不仅与自己选择的策略有关,还取决于其他参与者采取的行动,在多智能体系统中多个智能体是同时学习的,当对方策略改变时,每个智能体自身的最优策略也可能会变化;
由于发射机与智能干扰机之间目标不同,彼此之间又相互耦合影响,因此奖励设计的优劣直接影响学习到的策略的好坏;
发射机的收益函数为:
干扰机的收益函数为:
抗干扰功率控制博弈策略每次通过以下方式更新Q函数:
其中表示状态上可行动作的最大Q函数,α∈(0,1)是强化学习算法的学习因子,而δ∈(0,1)是表示基站贪婪算法的参数,贪婪策略是基站在学习过程中在开发和探索之间进行权衡的一种方法,基站的发射功率由下式给出:
其中,|Ω|是发射机动作的总数;
而干扰功率控制博弈策略则通过以下方式更新Q函数:
干扰机的干扰功率由下式给出:
智能体每进行一步,都要进行感知-决策-执行决策,由于在训练阶段采用的是合作式的训练方式,在感知阶段,干扰机直接获得一定误差下基站的发射信号强度信息,发射机则根据用户反馈的SINR来估计干扰机干扰功率;双方获得感知信息后,更新各自的状态信息,计算效用并更新Q函数,执行下一次动作选择;对抗双方在训练阶段反复进行感知-决策-执行决策过程,直到所有智能体收益基本保持均衡为止,达到收敛。
3.如权利要求1所述的强化学习非零和非合作多智能体安全通信功率控制方法,其特征是,基于强化学习经验的实况模拟测试步骤如下:
在强化学习的实际应用测试阶段,在得到训练好的智能基站和智能干扰机后,模拟真实的对抗环境;
在实际测试阶段,干扰机不具备直接获得被干扰方信息的能力,为实现闭环的“感知-决策-执行”中的“认知”,智能干扰机增加了窃听模块来获得粗略的基站发射信号强度信息;智能干扰机通过K-Means聚类算法或者SOM聚类算法来对窃听到的基站发射机信号强度进行聚类,并使用经过训练的聚类中心点作为判断发射功率等级的阈值,通过使用相应的阈值,可以对窃听到的接收信号强度进行功率等级评估,并将该结果作为干扰机对被干扰方动作的评估结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111170428.7A CN113973362B (zh) | 2021-10-08 | 2021-10-08 | 强化学习非零和非合作多智能体安全通信功率控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111170428.7A CN113973362B (zh) | 2021-10-08 | 2021-10-08 | 强化学习非零和非合作多智能体安全通信功率控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113973362A true CN113973362A (zh) | 2022-01-25 |
CN113973362B CN113973362B (zh) | 2024-03-22 |
Family
ID=79587118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111170428.7A Active CN113973362B (zh) | 2021-10-08 | 2021-10-08 | 强化学习非零和非合作多智能体安全通信功率控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113973362B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115022952A (zh) * | 2022-08-09 | 2022-09-06 | 中国人民解放军国防科技大学 | 一种对抗条件下的卫星通信功率资源分配方法 |
CN115113146A (zh) * | 2022-05-24 | 2022-09-27 | 西安电子科技大学 | 一种基于深度q网络的雷达干扰机博弈策略获取方法 |
CN115333956A (zh) * | 2022-10-17 | 2022-11-11 | 南京信息工程大学 | 一种多联盟非合作博弈的多智能体状态控制方法 |
CN115347927A (zh) * | 2022-08-15 | 2022-11-15 | 东南大学 | 一种智能超表面辅助ofdm系统1比特相移配置方法 |
CN115379545A (zh) * | 2022-09-22 | 2022-11-22 | 北京工业大学 | 一种工业动态复杂环境中无线通信发射功率匹配系统及方法 |
CN117614501A (zh) * | 2023-11-27 | 2024-02-27 | 中国人民解放军陆军工程大学 | 一种基于深度强化学习的认知通扰一体化波束形成方法 |
CN118243132A (zh) * | 2024-05-28 | 2024-06-25 | 山东理工大学 | 基于Astar算法与非零和博弈的动态路径规划方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101031129A (zh) * | 2006-03-01 | 2007-09-05 | 中兴通讯股份有限公司 | 一种抑制无线系统间干扰的装置和方法 |
CN106487417A (zh) * | 2016-10-20 | 2017-03-08 | 成都米风通信技术有限公司 | 基于WiFi 芯片的电视白频谱抗干扰系统及方法 |
CN108901065A (zh) * | 2018-07-27 | 2018-11-27 | 湖北民族学院 | 一种利益分配关系建模的能效最优报偿及功率分配方法 |
US20200153535A1 (en) * | 2018-11-09 | 2020-05-14 | Bluecom Systems and Consulting LLC | Reinforcement learning based cognitive anti-jamming communications system and method |
CN112423234A (zh) * | 2020-11-20 | 2021-02-26 | 华侨大学 | 基于强化学习的无人机辅助物联网抗敌意干扰方法和系统 |
WO2021136070A1 (zh) * | 2019-12-30 | 2021-07-08 | 三维通信股份有限公司 | 无线携能物理层安全传输的资源分配方法、装置及计算机 |
CN113382381A (zh) * | 2021-05-30 | 2021-09-10 | 南京理工大学 | 一种基于贝叶斯q学习的无人机集群网络智能跳频方法 |
-
2021
- 2021-10-08 CN CN202111170428.7A patent/CN113973362B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101031129A (zh) * | 2006-03-01 | 2007-09-05 | 中兴通讯股份有限公司 | 一种抑制无线系统间干扰的装置和方法 |
CN106487417A (zh) * | 2016-10-20 | 2017-03-08 | 成都米风通信技术有限公司 | 基于WiFi 芯片的电视白频谱抗干扰系统及方法 |
CN108901065A (zh) * | 2018-07-27 | 2018-11-27 | 湖北民族学院 | 一种利益分配关系建模的能效最优报偿及功率分配方法 |
US20200153535A1 (en) * | 2018-11-09 | 2020-05-14 | Bluecom Systems and Consulting LLC | Reinforcement learning based cognitive anti-jamming communications system and method |
WO2021136070A1 (zh) * | 2019-12-30 | 2021-07-08 | 三维通信股份有限公司 | 无线携能物理层安全传输的资源分配方法、装置及计算机 |
CN112423234A (zh) * | 2020-11-20 | 2021-02-26 | 华侨大学 | 基于强化学习的无人机辅助物联网抗敌意干扰方法和系统 |
CN113382381A (zh) * | 2021-05-30 | 2021-09-10 | 南京理工大学 | 一种基于贝叶斯q学习的无人机集群网络智能跳频方法 |
Non-Patent Citations (1)
Title |
---|
刘伟;汪清;: "分布式MIMO系统的复合信道容量分析", 计算机工程与应用, no. 02 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115113146A (zh) * | 2022-05-24 | 2022-09-27 | 西安电子科技大学 | 一种基于深度q网络的雷达干扰机博弈策略获取方法 |
CN115022952A (zh) * | 2022-08-09 | 2022-09-06 | 中国人民解放军国防科技大学 | 一种对抗条件下的卫星通信功率资源分配方法 |
CN115347927A (zh) * | 2022-08-15 | 2022-11-15 | 东南大学 | 一种智能超表面辅助ofdm系统1比特相移配置方法 |
CN115379545A (zh) * | 2022-09-22 | 2022-11-22 | 北京工业大学 | 一种工业动态复杂环境中无线通信发射功率匹配系统及方法 |
CN115333956A (zh) * | 2022-10-17 | 2022-11-11 | 南京信息工程大学 | 一种多联盟非合作博弈的多智能体状态控制方法 |
CN117614501A (zh) * | 2023-11-27 | 2024-02-27 | 中国人民解放军陆军工程大学 | 一种基于深度强化学习的认知通扰一体化波束形成方法 |
CN118243132A (zh) * | 2024-05-28 | 2024-06-25 | 山东理工大学 | 基于Astar算法与非零和博弈的动态路径规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113973362B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113973362B (zh) | 强化学习非零和非合作多智能体安全通信功率控制方法 | |
Wang et al. | Dynamic spectrum anti-jamming communications: Challenges and opportunities | |
CN111970072B (zh) | 基于深度强化学习的宽带抗干扰系统及抗干扰方法 | |
Shen et al. | Beam-domain anti-jamming transmission for downlink massive MIMO systems: A Stackelberg game perspective | |
Liu et al. | Intelligent reflecting surface meets mobile edge computing: Enhancing wireless communications for computation offloading | |
Chen et al. | DQN-based power control for IoT transmission against jamming | |
Sagduyu et al. | MAC games for distributed wireless network security with incomplete information of selfish and malicious user types | |
Zhao et al. | Reinforcement learning based a non-zero-sum game for secure transmission against smart jamming | |
Ibrahim et al. | Anti-jamming game to combat intelligent jamming for cognitive radio networks | |
CN115567148A (zh) | 一种基于合作q学习的智能干扰方法 | |
Yang et al. | Intelligent reflecting surface assisted anti-jamming communications based on reinforcement learning | |
Li et al. | Reinforcement learning-based intelligent reflecting surface assisted communications against smart attackers | |
Khanafer et al. | Adaptive resource allocation in jamming teams using game theory | |
Li et al. | Know Thy Enemy: An Opponent Modeling-Based Anti-Intelligent Jamming Strategy Beyond Equilibrium Solutions | |
Zheng et al. | Covert federated learning via intelligent reflecting surfaces | |
CN113420495A (zh) | 主动诱骗式智能抗干扰方法 | |
Choi et al. | Uplink energy efficiency of cell-free massive MIMO with transmit power control in measured propagation channels | |
Wang et al. | Opponent’s dynamic prediction model-based power control scheme in secure transmission and smart jamming game | |
Wu et al. | Game-theoretic and Learning-aided Physical Layer Security for Multiple Intelligent Eavesdroppers | |
Wang et al. | A multi-agent reinforcement learning-based collaborative jamming system: Algorithm design and software-defined radio implementation | |
Rawat | Deep transfer learning for physical layer security in wireless communication systems | |
Pramitarini et al. | Exploiting TAS schemes to enhance the PHY-security in cooperative NOMA networks: A deep learning approach | |
Zhou et al. | “One Plus One is Greater Than Two”: Defeating Intelligent Dynamic Jamming with Collaborative Multi-agent Reinforcement Learning | |
Ke et al. | An intelligent anti-interference communication method based on game learning | |
Wu et al. | Anti-jamming and anti-eavesdropping in A2G communication system with jittering UAV |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |