CN110061982B

CN110061982B - 一种基于强化学习的对抗智能攻击安全传输方法

Info

Publication number: CN110061982B
Application number: CN201910262870.9A
Authority: CN
Inventors: 范立生; 李超; 陈庆春; 夏隽娟; 谭伟强
Original assignee: Guangzhou University
Current assignee: China Southern Power Grid Internet Service Co ltd; Ourchem Information Consulting Co ltd
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2021-06-29
Anticipated expiration: 2039-04-02
Also published as: CN110061982A

Abstract

本发明公开了一种基于强化学习的对抗智能攻击安全传输方法，包括：S1，通过系统的信道参数矩阵信号，估计出主信道、干扰及欺骗信道的链路参数，再分别通过最大化主信道的信噪比、最小化干扰及欺骗信道的信噪比，实现发送端波束成形器、接收端滤波器的设计，抑制特定攻击模式及特定天线数的攻击者；S2，在波束成形器及滤波器的基础上，进行零和博弈，并基于强化学习的功率控制算法，在发送者与攻击者之间展开智能对抗；S3，动态地调整主信道发送与接收天线的数目，应用至波束成形器及滤波器、零和博弈过程，实现有效地抑制智能攻击模式、智能天线数的攻击者；本发明能够抑制智能攻击者的攻击意图，降低攻击概率，提高系统数据传输速率。

Description

一种基于强化学习的对抗智能攻击安全传输方法

技术领域

本发明涉及网络通信安全领域，尤其涉及一种基于强化学习的对抗智能攻击安全传输方法。

背景技术

作为快速发展的技术，人工智能已经被应用于各个领域，例如人脸识别，水位监测等，近来，把人工智能技术应用到无线通信领域已经得到了许多研究者的重视。在许多情况下，一个智能体不仅限于对目标进行识别与分类，还需要对所处的环境状态做出即时回应，自动采取恰当的动作。强化学习任务通常被认为是一个马尔科夫决策过程：智能体在当前时刻执行一个动作，同时环境根据奖赏函数回馈给智能体一个奖励，在环境中不断地试错与探索，智能体可以获得一个使得长期奖赏最大的策略。然而，在实际情况中，特别是在无线通信的安全问题上，智能体很难探测环境的状态空间和状态转移概率，Q学习算法可以很好地解决这个问题。

安全无线传输对未来移动通信网络至关重要，但是拥有强化学习能力的智能攻击者会严重影响无线通信的安全性。对于无线系统中的发送者来说，很难去探测介于发送者与接收者之间的信道状态信息，更无法预测攻击者的动作模式。面对复杂的无线电环境，发送者能做的仅仅是可以自动控制自身的传输功率和天线数目，因此为无线通信系统采取安全传输策略显得尤为重要。以往的常规策略只能应对攻击天线数目不变的情况，而且要求发送者的天线数目远大于攻击者，但是在实际情况中，发送者与攻击者的天线数目很可能相同，解决这个问题是本发明的动因。

发明内容

本发明的目的是为了提高无线通信网络的物理层安全性，克服传统方案的不足；在波束成形和滤波器的辅助下，利用基于强化学习算法对发送者的传输功率进行调控，找到最优传输策略，抑制智能攻击者的攻击意图，降低攻击概率，提高系统数据传输速率。

为了解决上述技术问题，本发明实施例提供了一种基于强化学习的对抗智能攻击安全传输方法，包括：

通过系统的导频信号，估计出主信道、干扰及欺骗信道的链路参数，再分别通过最大化主信道的信噪比、最小化干扰及欺骗信道的信噪比，实现发送端波束成形器、接收端滤波器的设计，抑制特定攻击模式及特定天线数的攻击者；

在波束成形器及滤波器的基础上，进行零和博弈，并基于强化学习的功率控制算法，在发送者与攻击者之间展开智能对抗；

动态地调整主信道发送与接收天线的数目，应用至波束成形器及滤波器、零和博弈过程，实现有效地抑制智能攻击模式、智能天线数的攻击者。

作为优选方案，所述链路参数的计算过程包括：在发送端信号插入导频，在接收端利用导频恢复出导频位置的信道参数矩阵，然后对所述信道参数矩阵进行数据处理获得所有时段的信道链路参数。

作为优选方案，所述对所述信道参数矩阵进行数据处理的方法包括内插处理、滤波处理和变换处理。

作为优选方案，所述最大化主信道信噪比方法包括：对主信道的信道参数矩阵进行奇异值分解，取矩阵的第一列向量作为波束成型器参数，即可最大化主信道信噪比。

作为优选方案，所述最小化干扰及欺骗信道信噪比方法包括：对干扰及欺骗信道进行奇异值分解H₂＝UΛV^H，取U矩阵的最后一列向量作为滤波器参数，即可最小化干扰及欺骗信道信噪比。

作为优选方案，所述功率控制算法的步骤包括：

步骤1，初始化攻击者的模式，即发送者的环境状态；发送者在可选功率范围内基于贪婪策略选择一个功率值发射信号，作为博弈的动作；

步骤2，根据信息速率公式计算系统在攻击者不同模式下的传输速率，考虑天线数目变化带来的传输代价，以传输速率和传输代价的差值作为奖赏函数返回给发送者；

步骤3，攻击者根据发送者的发送功率，在下一时刻采取相应的应对模式返回给发送者，作为下一时刻发送者的状态；

步骤4，发送者选择使得奖赏函数最高的状态作为其功率选择策略，并随着博弈过程的时间序列不断更新；

步骤5，将步骤1至步骤4重复执行N次，取发送功率平均值，获得最优发送功率。

作为优选方案，所述信息速率公式为香农公式。

作为优选方案，所述动态地调整主信道发送与接收天线的数目，应用至波束成形器及滤波器、零和博弈过程，包括：

每隔一段时间观察保持静默的概率，若低于某个阈值则增加一根天线数目；

通过分析干扰及欺骗信道矩阵的维度变化，动态调整发送者和接受者的天线数目与攻击者相等。

相比于现有技术，本发明实施例具有如下有益效果：

提高无线通信网络的物理层安全性，克服传统方案的不足；在波束成形和滤波器的辅助下，利用基于强化学习算法对发送者的传输功率进行调控，找到最优传输策略，抑制智能攻击者的攻击意图，降低攻击概率，提高系统数据传输速率。

附图说明

图1：为本发明实施例中的步骤流程示意图；

图2：为本发明实施例中的仿真实验数据结果第一示意图；

图3：为本发明实施例中的仿真实验数据结果第二示意图；

图4：为本发明实施例中的仿真实验数据结果第三示意图；

图5：为本发明实施例中的仿真实验数据结果第四示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中，我们考虑一个存在智能攻击者的对抗性无线通信系统，该智能攻击者可以在窃听，干扰，欺骗以及保持静默四种工作模式之间灵活切换，旨在减少系统的安全传输速率，而且攻击者可以自由地增加天线数目来增强攻击能力。为了应对智能攻击，我们首先设定发送者和合法接收者可以自适应地保持天线数目与攻击者一致，在发送端应用波束成形技术来抑制窃听，在接收端使用滤波器来阻止干扰和欺骗。再者，我们提出了一种基于Q学习的增强型安全传输策略，发送者和攻击者被认为是非合作零和博弈中的两个玩家，博弈期间攻击者在窃听，干扰，欺骗，或者静默中选择一种工作模式执行，把无线电环境从当前状态改变为下一个状态。同时，发送者把计算得来的安全传输速率作为反馈奖赏。通过结合蒙特卡洛和动态规划的方法，发送者最终会获得最优传输功率来最大化平均安全传输速率。最后，通过结合波束成形技术和滤波器来有效限制攻击者在攻击模式下的奖赏收益，我们推导出这个博弈下新的纳什均衡。

请参照图1-图5，为达到上述目的，本发明实施的技术方案包括以下步骤：

1)我们考虑一个存在智能攻击者的无线通信系统，其中攻击者可以在窃听，干扰，欺骗和静默四种工作模式之间自由切换，使用m＝0,1,2和3来分别表示攻击者处于静默，窃听，干扰，欺骗四种模式。该系统中我们使用Alice，Bob，Eve来分别表示发送者，合法接受者和攻击者。使用p_t来表示发送者的传输功率。

Eve装备了多根天线并可以灵活增加其数目来提高攻击能力，为了应对这个问题，本发明使Alice和Bob使用的天线数自适应地与Eve相等，并在Alice上应用了波束成形技术，在Bob上使用了滤波器来阻止攻击。我们使用L_A，L_B和L_E分别表示Alice，Bob和Eve所使用的天线数目。我们使用H_AB～CN(0,αI)，H_AE～CN(0,βI)和H_EB～CN(0,εI)分别表示Alice-Bob，Alice-Eve，和Eve-Bob链路的信道参数。

此外，我们使用w_A和w_B分别表示波束成形向量和滤波器向量，然后Alice以功率p_t发送经过波束成形的信号w_As_A，S_A已经被归一化。然后，Bob端接收的信号经过滤波器后，表示为

当m＝0和1时分别代表攻击者处于静默和窃听模式。其中n_B～CN(0,σ²I)表示Bob端的加性高斯白噪声。当m＝1成立，Eve收到的窃听信号表示为

其中n_E～CN(0,σ²I)是Eve端的加性高斯白噪声。当m＝2，Eve选择发送干扰信号s_J，Bob接收到经过滤波器的信号变成了

其中p_J是Eve的干扰功率。当m＝3时，Eve在Alice不发送信号的时候发送欺骗信号s_S，Bob接收到经过滤波器的信号表示为

其中p_s是Eve的干扰功率。

我们现在求出波束成形向量w_A和滤波器向量w_B。为此，我们对信道矩阵H_AB进行奇异值分解H_AB＝UΛV^H，其中

和

是两个酉矩阵，

是单位矩阵，其中的奇异值按递减排列。同样，对信道矩阵H_EB进行奇异值分解

其中

和

也表示酉矩阵，

表示一气之下递减的单位矩阵。综合上述两个矩阵的分解，我们可以把向量w_A和w_B表示为

目的是为了最大化主链路的等效信道增益，最小化干扰欺骗链路的等效信道增益。

当m＝0,1,2和3时，该保密数据传输速率相应地被表示为C₀，C₁，C₂和C₃，如下

其中

和

被平均噪声功率归一化的发送，干扰，欺骗功率。另外，ξ∈(0,1)表示欺骗信号的影响概率。

2)Q学习是一种典型的且强有力的免模型强化学习方法，已经在人工智能领域中广泛应用，我们为Alice提出一种基于Q学习的功率控制算法的主要原因是Alice很难探测到信道状态信息和状态转移概率，适用于免模型学习，来达到最优功率控制策略。这个功率控制算法本质上是基于时序差分算法，结合了蒙特卡洛和动态规划的方法。首先我们对Q表Q(s,a)进行随机初始化，Q表包含了状态-动作对(s,a)。对于每次实验，Alice从初始状态开始探索环境直到最终状态，在t时刻，Eve的动作模式是m，也可以看做是Alice的当前所处环境状态，表示为s_t＝m。Alice则根据当前状态选择一个动作a_t，同时获得一个奖赏值R_A。注意到使用天线数目增多会引起更多的代价，我们设置Alice的总传输代价p_tL_Aμ，μ是单位传输功率的代价，我们可以根据保密数据传输速率和传输代价表示奖赏函数为

R_A(p_t,m)＝C_m-p_tL_Aμ，(7)

C_m是Eve选择执行第m个动作模式时的保密数据传输速率。在实际情形中，我们只期望Alice可以在安全博弈中获胜，因此Eve的奖赏函数可以表示为

R_E(p_t,m)＝-C_m-L_Eν_m，(8)

其中ν_m表示Eve在执行模式m下的单根天线代价。我们我们综合奖赏值R_A和下一个状态Q(s_t+1,a)的动作-值函数来更新Q表，我们把这个过程表示为

Q(s_t,a_t)←Q(s_t,a_t)+θ[R_A+γmax_aQ(s_t+1,a)-Q(s_t,a_t)]，(9)

其中θ∈(0,1]是学习速率，决定了策略更新的速度，θ越大，保留当前经验的权重就越大。折扣率γ∈[0,1]代表Alice重视记忆奖赏的概率。然而，如果Alice每次都利用Q表选取当前的最优动作，则很有可能会使策略陷入局部最优。为了获得全局最优策略，我们在Alice选择动作的时候采用了贪婪策略在探索与利用之间做一个折中，即我们以一个设定好的特定概率来选择利用当前最优动作，否则Alice随机选择一个动作。每经过一段时间，Eve检查其保持静默的概率，若概率高于一个给定的阈值，Eve将增加一根攻击天线，为了解决这个问题，Alice自适应地调整其天线数目使L_A与L_B相等。由于我们无法得知Alice的状态转移概率，所以我们需要进行多次实验来得到预期的动作-值函数，类似于蒙特卡洛的方法。在足够多的实验后，学习而来的Q表就逐渐收敛至最优的Q^*表，两个智能体也将学习得到对应的最优策略集合

即纳什均衡，此时Alice和Eve的累积奖赏都达到最大值：

根据纳什均衡的定义，如果Alice和Eve中的一个保持采取纳什均衡策略，另一个无法通过改变其策略来获得更多的效益。我们发现，当Alice采取某个发射功率时，Eve保持静默使其效益最大，因此我们通过调控Alice的功率来抑制了Eve的攻击意图，提高系统安全性能。

下面对本技术进行仿真实验：

在MATLAB仿真环境下，图2是天线数目可变下的工作模式概率仿真曲线。图3是本发明提出的天线数目可变下安全通信策略的保密数据传输速率仿真曲线。图4是本发明提出的天线数目可变下安全通信策略的平均奖赏值仿真曲线。图5是本发明提出的天线数目可变下发送者的平均发送功率仿真曲线。

我们首先设置系统参数：{α,β,ε}＝{1.2,0.5,2}，μ＝0.1，ν_{m＝{0,1,2,3}}＝{0,2.5,3.2,3}，ξ＝0.5，p_J＝3.2以及p_S＝3。为了使得仿真结果更加明确，我们假设Eve每经过10000个时隙观察一次保持静默的概率，并且当静默概率高于90％时每次增加一根天线，因此总共包含40000个时隙单位的过程被分为了四个阶段。

图2表示横坐标从0变化到40000过程中Eve的工作模式概率变化，Eve使用的天线数目从1变到4。在第一个阶段，从0到3000时隙过程中平均静默概率均需升到90％，从3000到6000时隙，静默概率上升非常缓慢，6000时隙以后保持在91％的平稳水平。相反，窃听，干扰，欺骗的概率迅速跌到5％以下。然后，在10000时隙点，Eve检查到静默概率高于90％，增加了一根天线。Alice和Bob自动把天线数目调整为与Eve相等。在时隙[10000,20000]的第二阶段，各个概率曲线收敛地更加迅速，而且静默概率高于第一阶段。第三第四阶段变化情况相同。

图3表示了横坐标从0变化到40000过程中保密数据速率的曲线变化情况，Eve使用的天线数目自动从1增加到4。在第一阶段，我们发现从0到3000时隙期间平均保密数据传输速率迅速增加，从3000到6000时隙，平均保密数据传输速率上升非常缓慢，6000时隙以后趋于平稳水平。在10000时隙点，Eve和Alice的天线数目都增加了一根。对于在时隙[10000,20000]的第二阶段，保密数据传输速率急剧增长，收敛速度比之第一阶段更加迅速。第三第四阶段变化情况相同。

图4中两条曲线表示了时隙从0到40000过程中平均奖赏值的变化，Eve使用的天线数目自动从1增加到4。在第一阶段，Alice和Eve的奖赏值迅速增加，并且趋于平稳。在第二阶段，由于天线数目增加的原因，Alice的奖赏值增加了100％，同时Eve的奖赏值下降100％。在后续阶段，随着天线数目的增多，Alice的平均奖赏值变得更高。

图5表示了时隙从0到40000过程中Alice平均传输功率的变化，Eve使用的天线数目自动从1增加到4。很明显，Alice的传输功率从0到10000时隙逐渐增加并到达峰值5.5。到第二阶段，由于天线数目的增加，Alice传输功率在10000时隙点跌到临时值4.8，然后又逐渐增加到5.4。相似的变化同样发生在第三第四阶段。

综合以上分析，我们可以总结，我们提出的安全传输策略可以使Alice收敛到最优策略，而且可以有效增加保密数据传输速率，同时不管Eve的天线数目如何增加都可以减少其攻击概率。

本发明为遭受智能攻击的无线通信系统提出了一种有效提高通信安全性的方法。该无线系统中存在的智能攻击者可以以窃听，干扰，欺骗等任一方式进行攻击。常规的安全策略是应用基于Q学习的算法在发送者和攻击者的零和博弈框架中来寻找一个纳什均衡，但是这种常规策略必须满足发送者的天线数目大于攻击者的天线数目。为了克服这种限制，我们首先设定攻击者可以随意增加天线数目来获得更强的攻击能力，发送者和接受者的天线数目自动调整并与攻击者的天线数目相等，然后我们在发送端采用波束成形技术来抑制来自攻击者的窃听攻击，以及在接收端使用滤波器来阻止干扰和欺骗攻击。波束成形技术和滤波器的综合使用，使得攻击者在博弈中的收益被有效抑制。最后，我们采用基于Q学习的功率控制策略达到新的纳什均衡，仿真结果已经证明我们提出的策略可以有效抑制智能攻击，性能优于传统的常规方案。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的对抗智能攻击安全传输方法，其特征在于，包括：

2.如权利要求1所述的基于强化学习的对抗智能攻击安全传输方法，其特征在于，所述链路参数的计算过程包括：在发送端信号插入导频，在接收端利用导频恢复出导频位置的信道参数矩阵，然后对所述信道参数矩阵进行数据处理获得所有时段的信道链路参数。

3.如权利要求2所述的基于强化学习的对抗智能攻击安全传输方法，其特征在于，所述对所述信道参数矩阵进行数据处理的方法包括内插处理、滤波处理和变换处理。

4.如权利要求1所述的基于强化学习的对抗智能攻击安全传输方法，其特征在于，所述最大化主信道信噪比方法包括：对主信道的信道参数矩阵进行奇异值分解，取矩阵的第一列向量作为波束成型器参数，即可最大化主信道信噪比。

5.如权利要求1所述的基于强化学习的对抗智能攻击安全传输方法，其特征在于，所述最小化干扰及欺骗信道信噪比方法包括：对干扰及欺骗信道进行奇异值分解H₂＝UΛV^H，取U矩阵的最后一列向量作为滤波器参数，即可最小化干扰及欺骗信道信噪比。

6.如权利要求1所述的基于强化学习的对抗智能攻击安全传输方法，其特征在于，所述功率控制算法的步骤包括：

7.如权利要求6所述的基于强化学习的对抗智能攻击安全传输方法，其特征在于，所述信息速率公式为香农公式。

8.如权利要求1所述的基于强化学习的对抗智能攻击安全传输方法，其特征在于，所述动态地调整主信道发送与接收天线的数目，应用至波束成形器及滤波器、零和博弈过程，包括：

每隔一段时间观察保持静默的概率，若低于某个阈值，则增加一根天线数目；