CN108923828B

CN108923828B - 一种基于深度强化学习的mimo窃听信道的发射天线选择方法

Info

Publication number: CN108923828B
Application number: CN201810739220.4A
Authority: CN
Inventors: 李立欣; 胡有兵; 张会生; 高昂; 李旭; 梁微
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2019-06-07
Anticipated expiration: 2038-07-06
Also published as: CN108923828A

Abstract

本发明公开了一种基于深度强化学习算法的MIMO窃听信道的发射天线选择方法，发射保密信息需要两时隙完成，第一个时隙发射端逐个发射天线来发送导频序列，合法接收端接收来自各发射天线的导频信号，并通过最大比合并得到各发射天线发射的导频信号的信噪比；然后合法接收机根据这些信噪比使用DQN算法预测与下一个时隙最佳信噪比相对应的发射天线，并将相应的天线索引反馈给发射端；在第二个时隙时，发射端将仅用索引对应的发射天线发射保密信息，这使得主信道的信噪比大于窃听信道的信噪比，能够实现保密信息不被窃听。以解决发射机获得的无线通信信道的信道状态信息过时的情况下，发射机难以准确地选择出最佳的发射天线而导致传输信息被窃听的问题。

Description

一种基于深度强化学习的MIMO窃听信道的发射天线选择方法

【技术领域】

本发明属于无线通信安全技术领域，具体涉及一种基于深度强化学习算法的MIMO窃听信道的发射天线选择方法。

【背景技术】

由于无线通信环境的广播性和开放性，使得无线通信非常容易受到未经授权的接收器的窃听。因此，无线通信的安全问题已经引起了人们的广泛关注。在传统的无线通信系统中，人们设计了各种各样的密码方案来保证信息传输的安全性。然而，随着窃听者的计算能力越来越强大，基于复杂数学函数的传统密码方案变得越来越不可靠。在此背景下，研究人员从信息论的角度出发，揭示了可以通过利用主信道和窃听信道之间的不同特性来确保信息的安全性，这种方案叫做物理层安全。

由于多输入多输出(MIMO)系统具有高可靠性和高速率等诸多优异的性能，MIMO窃听信道中的物理层安全性受到了越来越多的关注。最佳发射天线选择(发射天线选择)是物理层安全中最重要的MIMO技术之一。基于获取的信道状态信息(信道状态信息)选择一个最优发射天线可以使接收机的信噪比最大化，最终可以有效避免窃听。发射天线选择的主要优势在于可以增强部分信道状态信息中通信的安全性，MIMO系统中的发射天线选择也可以降低射频复杂度。MIMO系统中的传统发射天线选择是基于主信道的信道状态信息获得的。

专利公开号为CN 105162506B中，通过对天线集合进行子集划分，在每个子集合内进行天线选择，避免了星座点和发送向量全集的遍历搜索，同时用夹角和向量的2-范数的权重作为选取的衡量标准，性能明显优于单纯的考虑2-范数的容量最大化天线选择方法，在性能和复杂度中取得了较好的折中。

专利公开号为CN 107864001A中，天线选择的准则基于获取尽可能大的无线信道的信道增益，因此，选择后的天线组合能获取较好的信道增益，从而保证无线通信系统传输的可靠性。此外，该发明根据无线信道的信道矩阵自适应地选择较优的天线选择组合，能获取较大的系统容量。

与以上相似的传统的发射天线选择的专利都是基于准确的无线信道的信道状态信息而实现的，然而，由于实际的移动网络的主信道的快速变化、信道状态信息的有限反馈和延迟，发射机往往获得过时的信道状态信息。基于过时的信道状态信息来选择最佳发送天线通常不能确保安全通信。因此，为了根据过时的信道状态信息来选择最佳发射天线来提高系统的安全性，本发明提出一种基于深度强化学习算法的MIMO窃听信道的发射天线选择方法。

【发明内容】

本发明的目的是提供一种基于深度强化学习算法的MIMO窃听信道的发射天线选择方法，以解决发射机获得的无线通信信道的信道状态信息过时的情况下，发射机难以准确地选择出最佳的发射天线而导致传输信息被窃听的问题。

本发明采用以下技术方案：一种基于深度强化学习的MIMO窃听信道的发射天线选择方法，发射保密信息需要两时隙完成，第一个时隙发射端逐个发射天线来发送导频序列，合法接收端接收来自各发射天线的导频信号，并通过最大比合并得到各发射天线发射的导频信号的信噪比；然后合法接收机根据这些信噪比使用DQN算法预测与下一个时隙最佳信噪比相对应的发射天线，并将相应的天线索引反馈给发射端；在第二个时隙时，发射端将仅用索引对应的发射天线发射保密信息，这使得主信道的信噪比大于窃听信道的信噪比，能够实现保密信息不被窃听。

进一步的，包括以下步骤：

步骤1、发射端发射导频信号对主信道和窃听信道进行信道估计；

步骤2、合法接收端获得各个天线发射的导频信号的信噪比，并将其作为DQN算法的输入，DQN预测结果所对应的索引k反馈给发送端；

步骤3、发射端逐个天线发送训练信号，并根据步骤1中窃听者反馈的信道状态信息得到索引为k的发射天线发射的训练信号在窃听者处的信噪比，之后将该信噪比反馈给合法接受者；

步骤4、合法接收端获得各个天线发射的训练信号的信噪比，如果索引为k的发射天线发射的训练信号的信噪比是合法接受者接受的最大信噪比且大于步骤3反馈的信噪比时，对DQN神经网络参数做出奖励，如果索引为k的发射天线发射的训练信号的信噪比小于等于步骤3反馈的信噪比时，对DQN神经网络参数做出惩罚；

步骤5、重复步骤1、步骤2、步骤3和步骤4，并统计DQN的预测准确率，当该准确率达到目标值时，完成DQN训练阶段，进行步骤6；

步骤6、发送保密信息时，重复步骤1和步骤2之后，发送端仅用索引为k的天线发送保密信息s(t+1)，合法接收者获得最佳信噪比，保密信息实现安全通信。

进一步的，步骤1的具体方法为：发射端的第i根天线发射导频信号x(t)，合法接收端的第j∈{1,2,...,M_R}根天线接收到的信号接收端对收到的第i根发射天线的信号进行最大比合并，并得到其信噪比同时，窃听者根据收到的导频信号进行信道估计，并将得到的信道增益反馈给发送端；

其中h_ij(t)表示主信道矩阵的第(i,j)个复元素，P_T表示信号的发射功率，z_B,ij(t)表示第(i,j)个信道的高斯白噪声，且z_B,ij(t)的期望和方差分别为0和δ²，M_R、M_E和M_T分别表示合法接收者、窃听者和发射端的天线个数。

进一步的，步骤2的具体方法为：合法接收端获得信噪比集合γ_B(t)，并将其作为DQN算法的输入，得到一个动作a_i(t)，并将该动作对应的索引k反馈给发送端；

其中

进一步的，步骤3的具体方法为：发送端逐个天线发送训练信息x(t+1)，合法接收者获得信噪比集合γ_B(t+1)，其中，索引为k的发射天线发送信息的信噪比为γ_B,k(t+1)，同时，发送端根据步骤1反馈的信道增益H_E，得到之后，发送端将γ_E,k(t+1)发送给合法接收者；其中h_E,ij(t)表示窃听信道矩阵H_E的第(i,j)个复元素。

进一步的，步骤4的具体方法为：合法接收者根据奖励函数r(t)：

对步骤2的DQN的输出结果做出评价，如果评价结果为1，则步骤2的预测结果为准确，并修正DQN的网络参数使得该状态下做出该动作的几率增加，如果评价结果为-1，反之，如果评价结果为0，则不改变DQN的网络参数；

其中，maxγ_B(t+1)表示下一时隙合法接收者的信噪比集合中的最大值。

与最近的现有技术相比，本发明至少具有以下有益效果：

(一)本方法是首次使用深度强化学习框架来选择最佳的发射天线，本发明也是首次利用DQN的预测和决策能力来实现安全通信。

(二)本方法具有很强的适用性，能够适合很多通信场景，这归因于DQN具有强大的学习能力。

(三)本方法提出在接收机实现基于DQN的发射天线选择算法，并只对发射机反馈最佳发射天线的索引，这不仅降低了发射端的负担，也大大减少了反馈开销和反馈误差。

【附图说明】

图1是本发明一种基于深度强化学习的MIMO窃听信道的发射天线选择方法中MIMO窃听系统场景图；

图2是发明一种基于深度强化学习的MIMO窃听信道的发射天线选择方法中DQN的算法流程图；

图3是发明一种基于深度强化学习的MIMO窃听信道的发射天线选择方法中，当发射天线的数量和天线选择方案不同时，保密中断概率P(R_S)与合法接收者的平均信噪比之间的关系仿真图；

图4是发明一种基于深度强化学习的MIMO窃听信道的发射天线选择方法中，对于不同天线选择方案，误比特率性能与合法接收者的平均信噪比的关系仿真图。

【具体实施方式】

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

如图1所示的MIMO窃听系统中，发射端有M_T根发射天线，合法接收端和窃听端分别有M_B和M_E根接收天线。假定合法接收端具有移动性，主信道的信道状态信息快速变化，发射端获得过时的主信道的信道状态信息。假定窃听者的信道状态信息变化缓慢，即窃听信道的信道增益在发送一次保密信息的两个时隙里保持不变，且窃听信道的信道状态信息发射端可以完美获得。

发射端发送一次保密信息需要两个时隙来完成。具体来说，发射端在第t个时隙发送导频信号x(t)，在第t+1个时隙发送信息s(t+1)。第t个时隙又分为M_T+1个更小的时间片，在第i∈{1,2,...,M_T}个时间片里，发射端的第i根天线发射导频信号x(t)，合法接收端的第j∈{1,2,...,M_R}根天线接收到的信号y_B,ij(t)可表示为：

其中h_ij(t)表示主信道矩阵的第(i,j)个复元素，P_T表示信号的发射功率，z_B,ij(t)表示第(i,j)个信道的高斯白噪声，且z_B,ij(t)的期望和方差分别为0和δ²。接收端对收到的第i根发射天线的信号进行最大比合并，并得到其信噪比γ_B,i(t)表示为：

因此，接收端获得信噪比集合在第M_T+1个时间片里合法接收者根据集合γ_B(t)预测第t+1时隙的最佳发射天线，并将其索引k反馈给发射机，完成整个天线选择方案。

DQN是将深度学习与强化学习结合起来从而实现从感知(观测)到动作的端对端学习的一种全新的算法。DQN直接从高维原始数据学习控制策略。它要做的就是将深度神经网络和Q-Learning结合起来，DQN的输入是状态，输出则是每个动作对应的价值评估Q值。该算法的核心是使用一个深度神经网络(主网络)产生当前Q值，使用另外一个深度神经网络(目标网络)产生Target Q值。

由于本发明使用DQN来进行预测，因此一下给出其状态集、动作集、奖励函数的定义：

状态集S(t)：MIMO窃听信道的保密容量C_S由下式给出：

其中和分别为合法接收者和窃听者的最大信噪比，C_B＝log(1+γ_B)和C_E＝log(1+γ_E)分别为合法接收者和窃听者的最大传输速率。该公式表明当主信道的信噪比大于窃听信道的信噪比时，可以实现安全通信，所以最优发射天线是主信道信噪比最大的天线。因此，本文将合法接收者接收到的各个发射天线的信噪比作为系统的状态集，即：在第t时刻该学习系统的状态集S(t)为：

动作集A(t)：我们将a_i(t)表示为在t时隙DQN输出的动作，它表示使用索引为i的天线发送消息。因此，在时隙t的动作集可以表示为：

奖励函数r(t)：作为DRL算法，DQN对其预测和决策进行适当评估是非常重要的。本发明通过DQN算法选择最佳的发射天线，因此，奖励由下式给出：

这里maxγ_B(t+1)表示t+1时隙合法接收者的最大信噪比，k表示在t时隙时DQN的输出所对应的发射天线的索引，γ_B,k(t+1)和γ_E,k(t+1)表示合法接收者和窃听者在t+1时隙接收到的索引为k的发射天线的信噪比。

DQN的算法流程图如图2所示，环境模块是根据当前值网络的反馈产生状态和γ_E,k(t+1)，通过奖励函数r(t)对主网络的动作做出评价。

主网络模块用来评估当前状态动作对的值函数，目标网络用于暂时冻结Target Q的参数，这一定程度降低了当前Q值和目标Q值的相关性，提高了算法稳定性。主网络根据学习环境和记忆库中获得状态S(t)和评价r(t)，输出每个动作Action对应的Q值,并返回给学习环境，在间隔一定步数时更新目标网络的网络参数，该更新过程用Q值更新公式描述：

Q^*(s(t+1),a(t+1))＝Q(s(t),a(t))+α(r(t)+γmaxQ(s(t+1),a(t+1))-Q(s(t),a(t)))，

其中Q^*(s(t+1),a(t+1))表示更新后的目标网络的Q值，Q(s(t),a(t))表示未更新的目标网络的Q值，α是学习率，γ是折扣因子，s(t)、a(t)和r(t)分别是前时刻的状态，动作和奖励值，s(t+1)和a(t+1)分别是下一时刻的状态和动作。

误差函数模块产生误差函数并使用随即梯度下降更新网络参数θ。DQN的误差函数表达式为：L(θ)＝E[(r(t)+γmaxQ(S(t+1),A(t+1)；θ)-Q(S(t),A(t)；θ))²]，其中θ是网络参数。误差函数的意义是使当前的Q值逼近Target Q值。

本发明一种基于深度强化学习的MIMO窃听信道的发射天线选择方法的具体步骤如下：

步骤1：发射端的第i根天线发射导频信号x(t)，合法接收端的第j∈{1,2,...,M_R}根天线接收到信号接收端对收到的第i根发射天线的信号进行最大比合并，并得到其信噪比同时，窃听者根据收到的训练信号进行信道估计，并将得到的信道增益H_E反馈给发送端；

步骤2：合法接收端获得信噪比集合γ_B(t)，并将其作为DQN算法的输入，得到一个动作a_i(t)，并将该动作对应的索引k反馈给发送端；

步骤3：发送端逐个天线发送训练信息x(t+1)，合法接收者获得信噪比集合γ_B(t+1)，其中，索引为k的发射天线发送信息的信噪比为γ_B,k(t+1)，同时，发送端根据步骤1反馈的信道增益H_E，得到之后，发送端将γ_E,k(t+1)发送给合法接收者；

步骤4：合法接收者根据奖励函数r(t)：

步骤5：重复步骤1、步骤2、步骤3和步骤4，并统计DQN的预测准确率，当该准确率达到目标值时，完成DQN训练阶段，进行步骤6；

步骤6：发送保密信息时，重复步骤1和步骤2，之后，发送端仅用索引为k的天线发送保密信息s(t+1)，合法接收者获得最佳信噪比。

安全通信的条件是主信道的信噪比大于窃听信道的信噪比。MIMO窃听信道的保密容量C_S由下式给出：

其中和分别为合法接收者和窃听者的最大信噪比，C_B＝log(1+γ_B)和C_E＝log(1+γ_E)分别为合法接收者和窃听者的最大传输速率。该公式表明当主信道的信噪比大于窃听信道的信噪比时，可以实现安全通信。

本发明是基于深度强化学习而进行的发射天线选择，在某一个确定的通信环境下，在发送保密信息之前，需要对神经网络进行训练，具体的训练按步骤1，步骤2，步骤3，步骤4和步骤5进行，当DQN的预测精确度达到目标值时，该方法就可以按步骤6发送保密信息。在下一次发送保密信息之前，由于通信环境可能发生改变，需要循环几次步骤1、步骤2、步骤3和步骤4来验证DQN在此通信环境下的预测精度，只有当DQN精确度大于等于目标值时才发送保密信息，否则需要再次训练神经网络。

实施例

本发明实施例研究像学校或工厂这样的固定区域的窃听场景，为了便于研究，该场景包括发送者(如基站)、一个合法接收者和一个窃听者，发射信号正好覆盖整个固定区域。发送端处的发射天线数量表示为M_T，合法接收端和窃听者处的接收天线数量分别表示为M_R和M_E。我们将定义为发送端和合法接收端之间的主通道。我们还将定义为发送端与窃听者之间的窃听信道。我们假设主信道的信道状态信息对合法接收端是可获得的，但窃听信道的信道状态信息完全未知，但可以根据通信环境描述为一个不确定性集合H_E。不失一般性，我们假设所有信道服从独立同分布瑞利衰落，并且信道系数在一个时隙中保持不变。本文假定发送端，合法接收端和窃听者的各个天线之间不存在空间相关性。发送端需要为每个数据传输完成两个时隙。发射天线选择方案在第一个时隙完成，第二个时隙传输数据。建立的系统模型如图1所示。

本发明解决的是发射机获得的无线通信信道的信道状态信息过时的情况下，发射机难以准确地选择出最佳的发射天线而导致传输信息被窃听的问题。发射端只有一个射频链，并且它会逐个发送导频序列以用于主信道的信道估计。合法接收机接收来自各发射天线的导频信号，并通过最大比合并得到各发射天线发射的导频信号的信噪比。然后合法接收机根据这些信噪比使用DQN算法选择与下一个时隙最佳信噪比相对应的发射天线，并将相应的天线索引反馈给发射端。

与现有技术相比，本发明使用DQN框架来选择最佳的发射天线，并利用DRL的预测和决策能力以实现安全通信。因DQN强大的学习能力使得本方法具有很强的适用性，能够适合很多网络。本方法提出在接收机而不是发射机上实现基于DQN的发射天线选择算法，并只对发射机反馈最佳发射天线的索引，这不仅降低了发射机的负担，也大大减少了反馈开销和反馈误差。

为了验证本发明的效果，我们在Python仿真时，假定合法接收者和窃听者的天线数分别为M_R＝8和M_E＝8。在图2中，当发射天线的数量和天线选择方案不同时，我们绘制了保密中断概率P(R_S)与合法接收者的平均信噪比之间的关系曲线。在这个图中，我们假定窃听者的平均信噪比为10dB，系统的传输速率R_S＝2bits/Hz/s。在图2中，随着合法接收者平均信噪比的增加，基于DQN方案的安全中断概率趋势与传统方案的安全中断概率一致，证明了基于DQN的天线选择方案本文提出的是合理的。当发射天线数量和合法接收者的平均信噪比不变时，基于DQN的天线选择方案低于传统方案和基于支持向量机的方案，这表明我们提出的天线选择方案具有更好的安全性。另外，当合法接收者的平均信噪比恒定时，基于DQN的方案与传统方案之间的中断概率与N＝16的差值大于N＝8的中断概率的差值，这表明更多的发射天线可以提高系统的安全性能。

图3显示了对于N＝8的不同天线选择方案，误比特率性能与合法接收者的平均信噪比的关系。在该图中，随着合法接收者的平均信噪比增加，基于DQN的天线选择方案的误比特率不断下降，并且基于DQN的方案的误比特率低于传统方案和基于支持向量机的方案时的平均信噪比这表明基于DQN的天线选择方案具有更好的可靠性。另外，随着合法接收者平均信噪比的增加，基于DQN的方案和基于支持向量机的方案之间的误比特率差异也在增大，这表明在高信噪比的情况下，基于DQN的天线选择方案的可靠性更好。

本发明发射保密信息需要两时隙完成，第一个时隙发射端逐个发射天线来发送导频序列，合法接收端接收来自各发射天线的导频信号，并通过最大比合并得到各发射天线发射的导频信号的信噪比。然后合法接收机根据这些信噪比使用DQN算法预测与下一个时隙最佳信噪比相对应的发射天线，并将相应的天线索引反馈给发射端。在第二个时隙时，发射端将仅用索引对应的发射天线发射保密信息。

现有的发射天线选择的技术往往是基于准确的无线信道的信道状态信息而实现的，然而，由于实际的移动网络的主信道的快速变化、信道状态信息的有限反馈和延迟，发射机往往获得过时的信道状态信息。基于过时的信道状态信息来选择最佳发送天线通常不能确保安全通信。因此，为了根据过时的信道状态信息来选择最佳发射天线来提高系统的安全性，本发明提出一种基于深度强化学习算法的MIMO窃听信道的发射天线选择方法。本方法是首次使用深度强化学习框架来选择最佳的发射天线，本发明也是首次利用DQN的预测和决策能力来实现安全通信。本方法具有很强的适用性，能够适合很多通信场景，这归因于DQN具有强大的学习能力。本方法提出在接收机实现基于DQN的发射天线选择算法，并只对发射机反馈最佳发射天线的索引，这不仅降低了发射端的负担，也大大减少了反馈开销和反馈误差。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于深度强化学习的MIMO窃听信道的发射天线选择方法，其特征在于，包括以下步骤：

步骤4、合法接收端获得各个天线发射的训练信号的信噪比，如果索引为k的发射天线发射的训练信号的信噪比是合法接受者接受的最大信噪比且大于等于步骤3反馈的信噪比时，对DQN神经网络参数做出奖励，如果索引为k的发射天线发射的训练信号的信噪比小于等于步骤3反馈的信噪比时，对DQN神经网络参数做出惩罚；

步骤6、发送保密信息时，重复步骤1和步骤2之后，发送端仅用索引为k的天线发送保密信息s(t+1)，合法接收端获得最佳信噪比，保密信息实现安全通信。

2.如权利要求1所述的一种基于深度强化学习的MIMO窃听信道的发射天线选择方法，其特征在于，所述步骤1的具体方法为：发射端的第i根天线发射导频信号x(t)，合法接收端的第j∈{1,2,...,M_R}根天线接收到的信号接收端对收到的第i根发射天线的信号进行最大比合并，并得到其信噪比同时，窃听者根据收到的导频信号进行信道估计，并将得到的信道增益反馈给发送端；

其中h_ij(t)表示主信道矩阵的第(i,j)个复元素，P_T表示信号的发射功率，z_B,ij(t)表示第(i,j)个信道的高斯白噪声，且z_B,ij(t)的期望和方差分别为0和δ²，M_R、M_E和M_T分别表示合法接收端、窃听者和发射端的天线个数。

3.如权利要求1所述的一种基于深度强化学习的MIMO窃听信道的发射天线选择方法，其特征在于，所述步骤2的具体方法为：合法接收端获得信噪比集合γ_B(t)，并将其作为DQN算法的输入，得到一个动作a_i(t)，并将该动作对应的索引k反馈给发送端；

其中

4.如权利要求1所述的一种基于深度强化学习的MIMO窃听信道的发射天线选择方法，其特征在于，所述步骤3的具体方法为：发送端逐个天线发送训练信息x(t+1)，合法接收端获得信噪比集合γ_B(t+1)，其中，索引为k的发射天线发送信息的信噪比为γ_B,k(t+1)，同时，发送端根据步骤1反馈的信道增益H_E，得到之后，发送端将γ_E,k(t+1)发送给合法接收端；其中h_E,ij(t)表示窃听信道矩阵H_E的第(i,j)个复元素，γ_E,k(t+1)表示窃听者收到收索引为k的发射天线发送的信息的信噪比。

5.如权利要求1所述的一种基于深度强化学习的MIMO窃听信道的发射天线选择方法，其特征在于，所述步骤4的具体方法为：合法接收端根据奖励函数r(t)：

对步骤2的DQN的输出结果做出评价，如果评价结果为1，则步骤2的预测结果为准确，并修正DQN的网络参数使得状态集为γ_B(t)时做出动作a_i(t)的几率增加，如果评价结果为-1，反之，如果评价结果为0，则不改变DQN的网络参数；

其中，maxγ_B(t+1)表示下一时隙合法接收端的信噪比集合中的最大值。