CN113973362A

CN113973362A - 强化学习非零和非合作多智能体安全通信功率控制方法

Info

Publication number: CN113973362A
Application number: CN202111170428.7A
Authority: CN
Inventors: 汪清; 赵琛宇; 李淳
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2022-01-25
Anticipated expiration: 2041-10-08
Also published as: CN113973362B

Abstract

本发明涉及多智能体强化学习领域，为在博弈均衡状态分析的基础上，针对博弈双方动态交互的特点，对双方策略优化方法进行改进，本发明，强化学习非零和非合作多智能体安全通信功率控制方法；步骤如下：建立无线网络干扰‑抗干扰通信博弈框架；训练阶段动态博弈的功率控制，方法如下：在强化学习的训练阶段，采用合作式的训练方式；在强化学习的感知阶段，干扰机直接获得一定误差下基站的发射信号强度信息，发射机则根据用户反馈的信号与干扰加噪声比SINR来估计干扰机干扰功率，执行下一次动作选择；对抗双方在训练阶段反复进行该过程，直到所有智能体收益基本保持均衡为止，达到收敛。本发明主要应用于雷达、干扰机设计制造场合。

Description

强化学习非零和非合作多智能体安全通信功率控制方法

技术领域

本方法涉及多智能体强化学习领域，特别是安全通信中针对智能干扰方的博弈对抗。具体涉及强化学习非零和非合作多智能体安全通信功率控制方法。

背景技术

无线网络由于介质的开放性和共享性存在被窃听的风险，再加上发射功率的有限性，易受到干扰攻击^[1]。干扰机通过发送干扰信号可以破坏无线网络的传输安全性，从而在能量约束下对通信网络造成尽可能大的损害。

随着各种智能无线设备的日益普及，干扰攻击的发展趋势更加多样化、智能化。智能干扰机可根据通信系统正在进行的传输状态、传输历史和无线电信道状态灵活地选择其攻击方法、攻击类型和攻击强度^[2]。根据马尔可夫决策过程可以研究被干扰方和智能干扰机之间的长期交互作用^[3]，并对用户决策进行建模。当智能干扰机具有学习防御者策略的能力时，它可以根据传输策略的规律自适应地选择最佳干扰策略。

智能干扰机的不断升级给无线网络的安全性带来了更为严峻的挑战。面对新的挑战，有必要在干扰-抗干扰对抗逐渐智能化的情况下不断提高对抗双方的策略优化能力^[4-8]。近来，强化学习(RL)在决策问题上的广泛成功应用吸引了很多研究人员将强化学习用在干扰-抗干扰无线通信中。在基站发射机与智能干扰机之间动态对抗交互的功率控制过程中，利用强化学习算法可以得到优化的功率控制策略^[9-12]。以毫米波(mmWave)大规模多输入多输出(MIMO)系统为例，将信号与干扰加噪声比(SINR)作为攻防双方的效用的主要衡量标准，使用快速策略梯度的算法可以实现双方的最优功率控制^[12]。

智能干扰机和智能抗干扰机始终以相互矛盾的方式进行攻击和防御。实际上，所有进化方之间都存在基本的权衡。面对可能涉及到智能体间合作与竞争的的关系，可以引入博弈的概念来研究网络攻防过程的机制^[13-19]。Yanda Li等人围绕用户与智能干扰机之间关于其各自的发射功率选择的交互过程提出了一种在智能攻击下的安全MIMO传输博弈^[17]，并且推导了在不同信道模型和传输成本下的静态MIMO博弈的纳什均衡(NE)，其中干扰机和被干扰基站均存在潜在能量限制。为了更加贴合实际对抗环境，提出了应对多个智能攻击者的随机博弈框架，其中每个智能攻击者具备多种攻击模式^[19]。此外，影响智能攻击者攻击率的因素也在分析物理层随机安全博弈的均衡基础上得到了研究。

目前通信系统干扰-抗干扰博弈对抗在不断发展中，但研究仍然有一定局限性。提出的抗干扰方法一般建立在对手缺乏闭环反馈能力的基础上，对智能干扰机如何获取理想、实际的防御方的信息的论述比较缺乏。在实际对抗条件下，一方面，己方不能直接获得敌方策略的摸底情况；另一方面，在施加干扰后，干扰机很难得知具体的干扰效果。由于通过训练让攻防双方足够智能化的前提条件是互相有直接或间接的有效信息，所以，构建探测对方意图的渠道对实现智能化博弈至关重要。本发明提出一种基于聚类的窃听信息分析方法。这种方法可以估计非合作情况下被干扰方发射机的动作，并将该估计值用作己方策略优化的基础。此外，本发明在博弈的基本框架下应用创新的合作训练和非合作测试来探索优化的稳定状态，这对于提高双方的学习效率和能力是极其有利的。

发明内容

为克服现有技术的不足，本发明旨在提出一种利用强化学习来提升通信安全博弈智能性与有效性的算法。本方法基于非零和非合作博弈，在博弈均衡状态分析的基础上，针对博弈双方动态交互的特点，对双方策略优化方法进行改进。为此，本发明采取的技术方案是，强化学习非零和非合作多智能体安全通信功率控制方法；步骤如下：

(1)建立无线网络干扰-抗干扰通信博弈框架

在功率博弈中，基站通过选择适当的发射功率来确保安全通信速率，而干扰机在成本控制下通过选择干扰强度来在最大化干扰效果；

(2)训练阶段动态博弈的功率控制，方法如下：

在强化学习的训练阶段，采用合作式的训练方式，基站发射机基于用户反馈的平均信噪比评估干扰机采取的干扰强度，而干扰机则可以直接获得被干扰方的动作信息；

在强化学习的感知阶段，干扰机直接获得一定误差下基站的发射信号强度信息，发射机则根据用户反馈的信号与干扰加噪声比SINR来估计干扰机干扰功率，双方获得感知信息后，更新各自的状态信息，计算效用并更新品质系数Q函数，执行下一次动作选择；

对抗双方在训练阶段反复进行该过程，直到所有智能体收益基本保持均衡为止，达到收敛。

具体步骤如下：

(1)建立无线网络干扰-抗干扰通信博弈框架

基站采用混合预编码架构，发射机天线数量为N_B，发送K×1传输信号矢量s_B，其发射功率由P_B表示，

发射机发射成本用C_B表示，当K个用户接收到信号时，用户估计信道质量和SINR，并将其进行反馈；

用户k和基站有

条路径，用户k和基站的路径

的复增益、方位角和仰角分别表示为

令a_B(φ,θ)表示阵列导向矢量，用户k和基站之间的信道矢量，即

写为：

用户和基站之间的信道矩阵可以表示为：

干扰机与基站具有相同的预编码架构，有N_J个干扰天线，以与基站相同的频率发送用z_J表示的干扰信号，在时隙n，智能干扰机根据正在进行的传输状态和信道状态选择干扰功率，记为P_J ⁽ⁿ⁾≥0，以降低通信系统的SINR，智能干扰机的干扰成本用C_J表示，用户k和智能干扰机之间有

条路径，路径的复增益、方位角和仰角可以表示为

因此，用户k与智能干扰机之间的信道矢量由下式给出：

K个用户与智能干扰机之间的信道矩阵表示为：

(2)训练阶段动态博弈的功率控制，方法如下：

由基站和干扰机组成的多智能体，其强化学习过程为随机博弈过程，将每一个状态的阶段博弈的策略组合起来成为一个智能体在动态环境中的策略，并不断与环境和其他智能体交互来更新每一个状态的阶段博弈中的Q值函数；

基于强化学习的动态博弈需要以下几个要素：代理、各博弈方的策略集、及博弈方的收益，博弈包含有限个数的代理，在这项工作中设置代理q∈{B,J}，其中B代表基站发射机，J代表智能干扰机，每个参与博弈的代理都有自己的策略集合，在每次博弈中，所有参与代理根据获得的信息，在相应的策略下从各自的动作集合中选取使自己收益最大化的动作来作为当前时刻要采取的行动，代理的收益函数表示其在策略组合下所能获得的收益值，每个代理的收益不仅与自己选择的策略有关，还取决于其他参与者采取的行动，在多智能体系统中多个智能体是同时学习的，当对方策略改变时，每个智能体自身的最优策略也可能会变化；

在训练阶段，基站收集K个用户的先前SINR，表示为

并根据信道质量和K用户的SINR估计先前的干扰功率，即

基站将时隙n-1处的干扰功率和所有用户的SINR设置为发射机当前系统状态，即

同理，由于在训练阶段互相信息是对称的，所以干扰机的系统状态表示为

然后，基站基于

选择发送功率

以在状态

发送信号，基站在从用户接收反馈信息时，更新新的系统状态，即

干扰机则根据

选择干扰功率P_J ⁽ⁿ⁾并发送干扰信号；

由于发射机与智能干扰机之间目标不同，彼此之间又相互耦合影响，因此奖励设计的优劣直接影响学习到的策略的好坏；

发射机的收益函数为：

干扰机的收益函数为：

抗干扰功率控制博弈策略每次通过以下方式更新Q函数：

其中

表示状态

上可行动作的最大Q函数，α∈(0,1)是强化学习算法的学习因子，而δ∈(0,1)是表示基站贪婪算法的参数，贪婪策略是基站在学习过程中在开发和探索之间进行权衡的一种方法，基站的发射功率由下式给出：

其中，|Ω|是发射机动作的总数；

而干扰功率控制博弈策略则通过以下方式更新Q函数：

干扰机的干扰功率由下式给出：

智能体每进行一步，都要进行感知-决策-执行决策，由于在训练阶段采用的是合作式的训练方式，在感知阶段，干扰机直接获得一定误差下基站的发射信号强度信息，发射机则根据用户反馈的SINR来估计干扰机干扰功率；双方获得感知信息后，更新各自的状态信息，计算效用并更新Q函数，执行下一次动作选择；对抗双方在训练阶段反复进行感知-决策-执行决策过程，直到所有智能体收益基本保持均衡为止，达到收敛。

基于强化学习经验的实况模拟测试步骤如下：

在强化学习的实际应用测试阶段，在得到训练好的智能基站和智能干扰机后，模拟真实的对抗环境；

在实际测试阶段，干扰机不具备直接获得被干扰方信息的能力，为实现闭环的“感知-决策-执行”中的“认知”，智能干扰机增加了窃听模块来获得粗略的基站发射信号强度信息；智能干扰机通过K-Means聚类算法或者SOM聚类算法来对窃听到的基站发射机信号强度进行聚类，并使用经过训练的聚类中心点作为判断发射功率等级的阈值，通过使用相应的阈值，可以对窃听到的接收信号强度进行功率等级评估，并将该结果作为干扰机对被干扰方动作的评估结果。

本发明的特点及有益效果是：

(1)由于在多智能体强化学习中，智能体间的相互作用会影响学习效果，所以本发明在强化学习基础上引入了在多智能体非零和非合作博弈的架构，实现自适应的闭环策略优化，使双方在交互对抗中互相学习并提升自己，探索性能的提升空间与均衡状态，双向增强了博弈方的智能性和适应性，更符合实际应用需求。

(2)通过合作式的训练来让基站(BS)和干扰机相互学习对方的功率分配策略，探索对抗双方优化的稳定状态，并将训练经验应用在模拟实际对抗的交互中。这种方法对于提升攻防双方智能性十分有益。从训练效果图可以看出，基于合作的训练与基于非合作的训练相比，收敛更快且更加稳定。

(3)在传统的通信安全干扰-抗干扰博弈中，干扰机的信息获取渠道及处理方式研究较缺乏，因此提出的抗干扰方法也一般建立在缺乏智能性与优化能力的对手基础上。为了更接近实际对抗环境，本发明建立了干扰方的有效信息获取渠道并构建了干扰效果评估模型，使干扰机也能学习对方的策略，并将之作为干扰决策的依据，弥补了传统方法对干扰机信息获取论证方面的缺乏。

(4)在测试阶段模拟了真实的对抗环境并测试了不同条件下的系统性能。实验结果表明，当干扰机采用更加精确的聚类方法时系统实际测试性能更接近训练结果，所提出的方法可以显着提高双方的学习效率和能力。

附图说明：

图1系统模型。

图2智能体间动态交互示意图。

图3使用或不使用智能优化策略时的攻击者和防御者的实际对抗测试。

图4合作-非合作训练效果对比。

图5干扰机窃听模块分别使用K均值(K-Means)聚类算法和自组织特征映射神经网络(SOM)聚类算法时的系统性能比较。

图6为所提出的基于强化学习的干扰-抗干扰动态博弈中双方策略优化的网络整体结构图。

具体实施方式

本发明在博弈论的理论基础上，提出一种基于强化学习的干扰-抗干扰机功率控制训练和测试方案，包括下列步骤：

(3)建立无线网络干扰-抗干扰通信博弈框架

如图1所示，考虑针对K个用户的MIMO系统。基站发射机将信息发送给用户，而干扰则通过发送干扰信号对正在进行的通信进行干扰来降低信息速率。在本发明中，我们将重点讨论干扰机与通信系统之间的功率博弈。在功率博弈中，基站通过选择适当的发射功率来确保安全通信速率，而干扰机在成本控制下通过选择干扰强度来在最大化干扰效果。干扰成本和抗干扰成本是博弈双方的重要约束。此外，博弈中的干扰方和抗干扰方都需要通过一定的信息反馈来获取有益于其正确决策的有效信息。

发射机发射成本用C_B表示。当K个用户接收到信号时，用户估计信道质量和SINR，并将其进行反馈。

用户k和基站有

条路径，用户k和基站的路径

的复增益、方位角和仰角分别表示为

令a_B(φ,θ)表示阵列导向矢量。用户k和基站之间的信道矢量，即

可以写为：

用户和基站之间的信道矩阵可以表示为：

设定智能干扰机与基站具有相同的预编码架构，有N_J个干扰天线，以与基站相同的频率发送干扰信号(用z_J表示)，以干扰通信。在时隙n，智能干扰机根据正在进行的传输状态和信道状态选择干扰功率，记为P_J ⁽ⁿ⁾≥0，以降低通信系统的SINR。智能干扰机的干扰成本用C_J表示。用户k和智能干扰机之间有

条路径。路径的复增益、方位角和仰角可以表示为

因此，用户k与智能干扰机之间的信道矢量由下式给出：

K个用户与智能干扰机之间的信道矩阵表示为：

(4)训练阶段动态博弈的功率控制，方法如下：

在强化学习的训练阶段，采用合作式的训练方式。基站发射机基于用户反馈的平均信噪比评估干扰机采取的干扰强度，而干扰机则可以直接获得被干扰方的动作信息。基于合作式的训练方式，双方均可以直接获得认知信息来完成闭环的智能决策。

多智能体强化学习可看成随机博弈，将每一个状态的阶段博弈的策略组合起来成为一个智能体在动态环境中的策略，并不断与环境和其他智能体交互来更新每一个状态的阶段博弈中的Q值函数，如图2所示。

在整个交互过程中，所有智能体在每一离散时刻都是同时做出决策的。同时，由于每个智能体在决策时都仅考虑最大化自己的收益，而不关心是否损害了对方的收益，且所有个体的收益之和不为零，因此该博弈是一个非零和非合作博弈。

基于强化学习的动态博弈需要以下几个要素：代理、各博弈方的策略集、及博弈方的收益。博弈包含有限个数的代理，在这项工作中设置代理q∈{B,J}，其中B代表基站发射机，J代表智能干扰机。每个参与博弈的代理都有自己的策略集合，在每次博弈中，所有参与代理根据获得的信息，在相应的策略下从各自的动作集合中选取使自己收益最大化的动作来作为当前时刻要采取的行动。代理的收益函数表示其在策略组合下所能获得的收益值。每个代理的收益不仅与自己选择的策略有关，还取决于其他参与者采取的行动。在多智能体系统中多个智能体是同时学习的，当对方策略改变时，每个智能体自身的最优策略也可能会变化，这将对算法的收敛性带来影响。

具体地说，在训练阶段，基站收集K个用户的先前SINR，表示为

并根据信道质量和K用户的SINR估计先前的干扰功率，即

同理，由于在训练阶段互相信息是对称的，所以干扰机的系统状态可以表示为

然后，基站基于

选择发送功率

以在状态

发送信号。基站在从用户接收反馈信息时，更新新的系统状态，即

干扰机则根据

选择干扰功率P_J ⁽ⁿ⁾并发送干扰信号。

由于发射机与智能干扰机之间目标不同，彼此之间又相互耦合影响，因此奖励设计的优劣直接影响学习到的策略的好坏。

发射机的收益函数为：

干扰机的收益函数为：

抗干扰功率控制博弈策略每次通过以下方式更新Q函数：

其中

表示状态

上可行动作的最大Q函数，α∈(0,1)是强化学习算法的学习因子，而δ∈(0,1)是表示基站贪婪算法的参数。贪婪策略是基站在学习过程中在开发和探索之间进行权衡的一种方法。基站的发射功率由下式给出：

其中，|Ω|是发射机动作的总数。

而干扰功率控制博弈策略则通过以下方式更新Q函数：

干扰机的干扰功率由下式给出：

智能体每进行一步，都要进行感知-决策-执行决策，如图6上半部分训练阶段算法结构图所示。由于在训练阶段采用的是合作式的训练方式，在感知阶段，干扰机直接获得一定误差下基站的发射信号强度信息，发射机则根据用户反馈的SINR来估计干扰机干扰功率。双方获得感知信息后，更新各自的状态信息，计算效用并更新Q函数，执行下一次动作选择。对抗双方在训练阶段反复进行该过程，直到所有智能体收益基本保持均衡为止，达到收敛。

算法1中总结了基于强化学习的干扰-抗干扰功率控制博弈策略学习优化过程。

(5)基于强化学习经验的实况模拟测试方案如下：

在强化学习的实际应用测试阶段，在得到训练好的智能基站和智能干扰机后，模拟真实的对抗环境。

在实际测试阶段，干扰机不具备直接获得被干扰方信息的能力。为实现闭环的“感知-决策-执行”中的“认知”，智能干扰机增加了窃听模块来获得粗略的基站发射信号强度信息。智能干扰机通过K-Means聚类算法或者SOM聚类算法来对窃听到的基站发射机信号强度进行聚类，并使用经过训练的聚类中心点作为判断发射功率等级的阈值。通过使用相应的阈值，可以对窃听到的接收信号强度进行功率等级评估，并将该结果作为干扰机对被干扰方动作的评估结果。

如图6下半部分测试阶段算法结构图所示，在感知阶段，智能干扰机通过窃听获得被干扰方动作信息，而被干扰方则通过用户反馈的SINR来估计干扰方的动作信息。双方获得感知信息后，更新各自的状态信息，然后根据加载的训练经验进行决策，执行下一时刻的动作。

算法2中总结了测试阶段基于强化学习的功率控制过程。

下面将结合附图对实施方式进一步的详细描述：

(1)算法参数设置：

本发明的仿真中，通过将发射天线数分别设置为N_B＝48、96、256来评估基于强化学习的建议解决方案的性能。在所考虑的系统中，基站的RF链的数量设置为16以服务于相应数量的用户,并从10个级别中选择发射功率。成本参数C_B和C_J设置为C_B＝1.5和C_J＝5，以平衡效用和成本。学习参数选择为α＝0.5，δ＝0.5。

(2)模型训练：本发明采用强化学习优化方法，进行协同训练。攻防双方信息透明，不断学习对手策略并提升自己。系统性能随着训练的进行而逐渐提高，并在2×10⁴个时隙后达到收敛。

(3)系统测试：本发明在测试阶段模仿实际对抗环境，对抗双方通过己方闭环系统以及训练阶段的经验来获取信息、分析信息并优化策略。

(a)窃听模块：分别使用K-Means聚类和SOM网络对窃听到的基站发射信号的强度进行等级评估。实验所得加入干扰机窃听功能后，干扰机对发射机方的信息获取更加准确，与训练阶段双方信息透明的状况更为接近，系统测试性能更接近训练阶段的结果。

(b)性能测试：在测试阶段，分别测试通信系统性能和干扰机效用指标。

(c)基线对比实验：基站恒定发射功率系统以及随机干扰被分别用作基准，分别进行以下对比实验测试双方智能性：基站使用恒定发射功率-随机干扰、基站使用优化后的发射功率-随机干扰、基站使用优化后的发射功率-智能干扰。

(d)合作-非合作训练对比实验：非合作训练与合作训练相比，攻防双方在训练中持有的信息大大减少。分别进行合作-非合作训练对比实验以检验合作式训练的有效性。

(4)评价指标：本发明实验采用总数据速率和基站发射机(干扰机)效用衡量算法效果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

参考文献：

[1]M.Li，I.Koutsopoulos，and R.Poovendran，“Optimal jamming attacks andnetwork defense policies in wireless sensor networks，”in IEEEINFOCOM 2007-26th IEEE International Conference on Computer Communications，2007，pp.1307–1315.

[2]Y.-C.Tung，S.Han，D.Chen，and K.G.Shin，“Vulnerability and protectionof channel state information in multiuser mimo networks，”in Proceedings ofthe 2014 ACM SIGSAC Conference on Computer and Communications Security，2014，pp.775–786.

[3]L.Xiao，J.Liu，Q.Li，N.B.Mandayam，and H.V.Poor，“User-centric view ofjamming games in cognitive radio networks，”IEEE Transactions on InformationForensics and Security，vol.10，no.12，pp.2578–2590，2015.

[4]H.Wang，L.Zhang，T.Li，and J.Tugnait，“Spectrally efficient jammingmitigation based on code-controlled frequency hopping，”IEEE Transactions onWireless Communications，vol.10，no.3，pp.728–732，2011.

[5]K.Park and J.Seo，“Single-antenna-based gps anti-jamming methodexploiting polarization diversity，”2020.

[6]A.Richa，C.Scheideler，S.Schmid，and J.Zhang，“Antijam:Efficientmedium access despite adaptive and reactive jamming，”2011.

[7]R.Talwar，N.Amala，G.Medina，A.S.Jida，and M.E.Eltayeb，“Exploitingmulti-path for safeguarding mmwave communications against randomly locatedeavesdroppers，”2020.

[8]M.Hannon，Shaung Feng，Hyuck Kwon，and Khanh Pham，“Jammingstatistics-dependent frequency hopping，”in MILCOM 2016-2016IEEE MilitaryCommunications Conference，2016，pp.138–143.

[9]M.L.Littman，“Markov games as a framework for multi-agentreinforcement learning，”in Machine learning proceedings 1994.Elsevier，1994，pp.157–163.

[10]X.He，H.Dai，P.Ning，and R.Dutta，“A stochastic multi-channelspectrum access game with incomplete information，”in 2015IEEE InternationalConference on Communications(ICC).IEEE，2015，pp.4799–4804.

[11]A.Garnaev，M.Baykal-Gursoy，and H.V.Poor，“A game theoretic analysisof secret and reliable communication with active and passive adversarialmodes，”IEEE Transactions on Wireless Communications，vol.15，no.3，pp.2155–2163，2015.

[12]Z.Xiao，B.Gao，S.Liu，and L.Xiao，“Learning based power control formmwave massive mimo against jamming，”in 2018 IEEE Global CommunicationsConference(GLOBECOM).IEEE，2018，pp.1–6.

[13]Y.Arjoune and S.Faruque，“Smart jamming attacks in 5g new radio：Areview，”2020.

[14]Q.Wang，T.Nguyen，K.Pham，and H.Kwon，“Mitigating jamming attack：Agame-theoretic perspective，”IEEE Transactions on Vehicular Technology，vol.67，no.7，pp.6063–6074，2018.

[15]L.Jia，Y.Xu，Y.Sun，S.Feng，and A.Anpalagan，“Stackelberg gameapproaches for anti-jamming defence in wireless networks，”IEEE WirelessCommunications，vol.25，no.6，pp.120–128，2018.

[16]J.Zheng，Y.Cai，Y.Xu，and A.Anpalagan，“Distributed channel selectionfor interference mitigation in dynamic environment：A game theoreticstochastic learning solution，”Vehicular Technology IEEE Transactions on，vol.63，no.9，pp.4757–4762，2014.

[17]D.Yang，G.Xue，J.Zhang，A.Richa，and X.Fang，“Coping with asmartjammer in wireless networks：A stackelberg game approach，”IEEE Transactions onWireless Communications，vol.12，no.8，pp.4038–4047，2013.

[18]Y.Li，L.Xiao，H.Dai，and H.V.Poor，“Game theoretic study ofprotecting mimo transmissions against smart attacks，”in 2017 IEEEInternational Conference on Communications(ICC).IEEE，2017，pp.1–6.

[19]Y.Xu，J.Xia，H.Wu，and L.Fan，“Q-learning based physical-layersecuregame against multiagent attacks，”IEEE Access，vol.7，pp.49 212–49 222，2019。