CN108923828A - 一种基于深度强化学习的mimo窃听信道的发射天线选择方法 - Google Patents

一种基于深度强化学习的mimo窃听信道的发射天线选择方法 Download PDF

Info

Publication number
CN108923828A
CN108923828A CN201810739220.4A CN201810739220A CN108923828A CN 108923828 A CN108923828 A CN 108923828A CN 201810739220 A CN201810739220 A CN 201810739220A CN 108923828 A CN108923828 A CN 108923828A
Authority
CN
China
Prior art keywords
signal
antenna
noise ratio
transmitting
dqn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810739220.4A
Other languages
English (en)
Other versions
CN108923828B (zh
Inventor
李立欣
胡有兵
张会生
高昂
李旭
梁微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201810739220.4A priority Critical patent/CN108923828B/zh
Publication of CN108923828A publication Critical patent/CN108923828A/zh
Application granted granted Critical
Publication of CN108923828B publication Critical patent/CN108923828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0602Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using antenna switching
    • H04B7/0608Antenna selection according to transmission parameters
    • H04B7/061Antenna selection according to transmission parameters using feedback from receiving side

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Radio Transmission System (AREA)

Abstract

本发明公开了一种基于深度强化学习算法的MIMO窃听信道的发射天线选择方法,发射保密信息需要两时隙完成,第一个时隙发射端逐个发射天线来发送导频序列,合法接收端接收来自各发射天线的导频信号,并通过最大比合并得到各发射天线发射的导频信号的信噪比;然后合法接收机根据这些信噪比使用DQN算法预测与下一个时隙最佳信噪比相对应的发射天线,并将相应的天线索引反馈给发射端;在第二个时隙时,发射端将仅用索引对应的发射天线发射保密信息,这使得主信道的信噪比大于窃听信道的信噪比,能够实现保密信息不被窃听。以解决发射机获得的无线通信信道的信道状态信息过时的情况下,发射机难以准确地选择出最佳的发射天线而导致传输信息被窃听的问题。

Description

一种基于深度强化学习的MIMO窃听信道的发射天线选择方法
【技术领域】
本发明属于无线通信安全技术领域,具体涉及一种基于深度强化学习算法的MIMO窃听信道的发射天线选择方法。
【背景技术】
由于无线通信环境的广播性和开放性,使得无线通信非常容易受到未经授权的接收器的窃听。因此,无线通信的安全问题已经引起了人们的广泛关注。在传统的无线通信系统中,人们设计了各种各样的密码方案来保证信息传输的安全性。然而,随着窃听者的计算能力越来越强大,基于复杂数学函数的传统密码方案变得越来越不可靠。在此背景下,研究人员从信息论的角度出发,揭示了可以通过利用主信道和窃听信道之间的不同特性来确保信息的安全性,这种方案叫做物理层安全。
由于多输入多输出(MIMO)系统具有高可靠性和高速率等诸多优异的性能,MIMO窃听信道中的物理层安全性受到了越来越多的关注。最佳发射天线选择(发射天线选择)是物理层安全中最重要的MIMO技术之一。基于获取的信道状态信息(信道状态信息)选择一个最优发射天线可以使接收机的信噪比最大化,最终可以有效避免窃听。发射天线选择的主要优势在于可以增强部分信道状态信息中通信的安全性,MIMO系统中的发射天线选择也可以降低射频复杂度。MIMO系统中的传统发射天线选择是基于主信道的信道状态信息获得的。
专利公开号为CN 105162506B中,通过对天线集合进行子集划分,在每个子集合内进行天线选择,避免了星座点和发送向量全集的遍历搜索,同时用夹角和向量的2-范数的权重作为选取的衡量标准,性能明显优于单纯的考虑2-范数的容量最大化天线选择方法,在性能和复杂度中取得了较好的折中。
专利公开号为CN 107864001A中,天线选择的准则基于获取尽可能大的无线信道的信道增益,因此,选择后的天线组合能获取较好的信道增益,从而保证无线通信系统传输的可靠性。此外,该发明根据无线信道的信道矩阵自适应地选择较优的天线选择组合,能获取较大的系统容量。
与以上相似的传统的发射天线选择的专利都是基于准确的无线信道的信道状态信息而实现的,然而,由于实际的移动网络的主信道的快速变化、信道状态信息的有限反馈和延迟,发射机往往获得过时的信道状态信息。基于过时的信道状态信息来选择最佳发送天线通常不能确保安全通信。因此,为了根据过时的信道状态信息来选择最佳发射天线来提高系统的安全性,本发明提出一种基于深度强化学习算法的MIMO窃听信道的发射天线选择方法。
【发明内容】
本发明的目的是提供一种基于深度强化学习算法的MIMO窃听信道的发射天线选择方法,以解决发射机获得的无线通信信道的信道状态信息过时的情况下,发射机难以准确地选择出最佳的发射天线而导致传输信息被窃听的问题。
本发明采用以下技术方案:一种基于深度强化学习的MIMO窃听信道的发射天线选择方法,发射保密信息需要两时隙完成,第一个时隙发射端逐个发射天线来发送导频序列,合法接收端接收来自各发射天线的导频信号,并通过最大比合并得到各发射天线发射的导频信号的信噪比;然后合法接收机根据这些信噪比使用DQN算法预测与下一个时隙最佳信噪比相对应的发射天线,并将相应的天线索引反馈给发射端;在第二个时隙时,发射端将仅用索引对应的发射天线发射保密信息,这使得主信道的信噪比大于窃听信道的信噪比,能够实现保密信息不被窃听。
进一步的,包括以下步骤:
步骤1、发射端发射导频信号对主信道和窃听信道进行信道估计;
步骤2、合法接收端获得各个天线发射的导频信号的信噪比,并将其作为DQN算法的输入,DQN预测结果所对应的索引k反馈给发送端;
步骤3、发射端逐个天线发送训练信号,并根据步骤1中窃听者反馈的信道状态信息得到索引为k的发射天线发射的训练信号在窃听者处的信噪比,之后将该信噪比反馈给合法接受者;
步骤4、合法接收端获得各个天线发射的训练信号的信噪比,如果索引为k的发射天线发射的训练信号的信噪比是合法接受者接受的最大信噪比且大于步骤3反馈的信噪比时,对DQN神经网络参数做出奖励,如果索引为k的发射天线发射的训练信号的信噪比小于等于步骤3反馈的信噪比时,对DQN神经网络参数做出惩罚;
步骤5、重复步骤1、步骤2、步骤3和步骤4,并统计DQN的预测准确率,当该准确率达到目标值时,完成DQN训练阶段,进行步骤6;
步骤6、发送保密信息时,重复步骤1和步骤2之后,发送端仅用索引为k的天线发送保密信息s(t+1),合法接收者获得最佳信噪比,保密信息实现安全通信。
进一步的,步骤1的具体方法为:发射端的第i根天线发射导频信号x(t),合法接收端的第j∈{1,2,...,MR}根天线接收到的信号接收端对收到的第i根发射天线的信号进行最大比合并,并得到其信噪比同时,窃听者根据收到的导频信号进行信道估计,并将得到的信道增益反馈给发送端;
其中hij(t)表示主信道矩阵的第(i,j)个复元素,PT表示信号的发射功率,zB,ij(t)表示第(i,j)个信道的高斯白噪声,且zB,ij(t)的期望和方差分别为0和δ2,MR、ME和MT分别表示合法接收者、窃听者和发射端的天线个数。
进一步的,步骤2的具体方法为:合法接收端获得信噪比集合γB(t),并将其作为DQN算法的输入,得到一个动作ai(t),并将该动作对应的索引k反馈给发送端;
其中
进一步的,步骤3的具体方法为:发送端逐个天线发送训练信息x(t+1),合法接收者获得信噪比集合γB(t+1),其中,索引为k的发射天线发送信息的信噪比为γB,k(t+1),同时,发送端根据步骤1反馈的信道增益HE,得到之后,发送端将γE,k(t+1)发送给合法接收者;其中hE,ij(t)表示窃听信道矩阵HE的第(i,j)个复元素。
进一步的,步骤4的具体方法为:合法接收者根据奖励函数r(t):
对步骤2的DQN的输出结果做出评价,如果评价结果为1,则步骤2的预测结果为准确,并修正DQN的网络参数使得该状态下做出该动作的几率增加,如果评价结果为-1,反之,如果评价结果为0,则不改变DQN的网络参数;
其中,maxγB(t+1)表示下一时隙合法接收者的信噪比集合中的最大值。
与最近的现有技术相比,本发明至少具有以下有益效果:
(一)本方法是首次使用深度强化学习框架来选择最佳的发射天线,本发明也是首次利用DQN的预测和决策能力来实现安全通信。
(二)本方法具有很强的适用性,能够适合很多通信场景,这归因于DQN具有强大的学习能力。
(三)本方法提出在接收机实现基于DQN的发射天线选择算法,并只对发射机反馈最佳发射天线的索引,这不仅降低了发射端的负担,也大大减少了反馈开销和反馈误差。
【附图说明】
图1是本发明一种基于深度强化学习的MIMO窃听信道的发射天线选择方法中MIMO窃听系统场景图;
图2是发明一种基于深度强化学习的MIMO窃听信道的发射天线选择方法中DQN的算法流程图;
图3是发明一种基于深度强化学习的MIMO窃听信道的发射天线选择方法中,当发射天线的数量和天线选择方案不同时,保密中断概率P(RS)与合法接收者的平均信噪比之间的关系仿真图;
图4是发明一种基于深度强化学习的MIMO窃听信道的发射天线选择方法中,对于不同天线选择方案,误比特率性能与合法接收者的平均信噪比的关系仿真图。
【具体实施方式】
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
如图1所示的MIMO窃听系统中,发射端有MT根发射天线,合法接收端和窃听端分别有MB和ME根接收天线。假定合法接收端具有移动性,主信道的信道状态信息快速变化,发射端获得过时的主信道的信道状态信息。假定窃听者的信道状态信息变化缓慢,即窃听信道的信道增益在发送一次保密信息的两个时隙里保持不变,且窃听信道的信道状态信息发射端可以完美获得。
发射端发送一次保密信息需要两个时隙来完成。具体来说,发射端在第t个时隙发送导频信号x(t),在第t+1个时隙发送信息s(t+1)。第t个时隙又分为MT+1个更小的时间片,在第i∈{1,2,...,MT}个时间片里,发射端的第i根天线发射导频信号x(t),合法接收端的第j∈{1,2,...,MR}根天线接收到的信号yB,ij(t)可表示为:
其中hij(t)表示主信道矩阵的第(i,j)个复元素,PT表示信号的发射功率,zB,ij(t)表示第(i,j)个信道的高斯白噪声,且zB,ij(t)的期望和方差分别为0和δ2。接收端对收到的第i根发射天线的信号进行最大比合并,并得到其信噪比γB,i(t)表示为:
因此,接收端获得信噪比集合在第MT+1个时间片里合法接收者根据集合γB(t)预测第t+1时隙的最佳发射天线,并将其索引k反馈给发射机,完成整个天线选择方案。
DQN是将深度学习与强化学习结合起来从而实现从感知(观测)到动作的端对端学习的一种全新的算法。DQN直接从高维原始数据学习控制策略。它要做的就是将深度神经网络和Q-Learning结合起来,DQN的输入是状态,输出则是每个动作对应的价值评估Q值。该算法的核心是使用一个深度神经网络(主网络)产生当前Q值,使用另外一个深度神经网络(目标网络)产生Target Q值。
由于本发明使用DQN来进行预测,因此一下给出其状态集、动作集、奖励函数的定义:
状态集S(t):MIMO窃听信道的保密容量CS由下式给出:
其中分别为合法接收者和窃听者的最大信噪比,CB=log(1+γB)和CE=log(1+γE)分别为合法接收者和窃听者的最大传输速率。该公式表明当主信道的信噪比大于窃听信道的信噪比时,可以实现安全通信,所以最优发射天线是主信道信噪比最大的天线。因此,本文将合法接收者接收到的各个发射天线的信噪比作为系统的状态集,即:在第t时刻该学习系统的状态集S(t)为:
动作集A(t):我们将ai(t)表示为在t时隙DQN输出的动作,它表示使用索引为i的天线发送消息。因此,在时隙t的动作集可以表示为:
奖励函数r(t):作为DRL算法,DQN对其预测和决策进行适当评估是非常重要的。本发明通过DQN算法选择最佳的发射天线,因此,奖励由下式给出:
这里maxγB(t+1)表示t+1时隙合法接收者的最大信噪比,k表示在t时隙时DQN的输出所对应的发射天线的索引,γB,k(t+1)和γE,k(t+1)表示合法接收者和窃听者在t+1时隙接收到的索引为k的发射天线的信噪比。
DQN的算法流程图如图2所示,环境模块是根据当前值网络的反馈产生状态和γE,k(t+1),通过奖励函数r(t)对主网络的动作做出评价。
主网络模块用来评估当前状态动作对的值函数,目标网络用于暂时冻结Target Q的参数,这一定程度降低了当前Q值和目标Q值的相关性,提高了算法稳定性。主网络根据学习环境和记忆库中获得状态S(t)和评价r(t),输出每个动作Action对应的Q值,并返回给学习环境,在间隔一定步数时更新目标网络的网络参数,该更新过程用Q值更新公式描述:
Q*(s(t+1),a(t+1))=Q(s(t),a(t))+α(r(t)+γmaxQ(s(t+1),a(t+1))-Q(s(t),a(t))),
其中Q*(s(t+1),a(t+1))表示更新后的目标网络的Q值,Q(s(t),a(t))表示未更新的目标网络的Q值,α是学习率,γ是折扣因子,s(t)、a(t)和r(t)分别是前时刻的状态,动作和奖励值,s(t+1)和a(t+1)分别是下一时刻的状态和动作。
误差函数模块产生误差函数并使用随即梯度下降更新网络参数θ。DQN的误差函数表达式为:L(θ)=E[(r(t)+γmaxQ(S(t+1),A(t+1);θ)-Q(S(t),A(t);θ))2],其中θ是网络参数。误差函数的意义是使当前的Q值逼近Target Q值。
本发明一种基于深度强化学习的MIMO窃听信道的发射天线选择方法的具体步骤如下:
步骤1:发射端的第i根天线发射导频信号x(t),合法接收端的第j∈{1,2,...,MR}根天线接收到信号接收端对收到的第i根发射天线的信号进行最大比合并,并得到其信噪比同时,窃听者根据收到的训练信号进行信道估计,并将得到的信道增益HE反馈给发送端;
步骤2:合法接收端获得信噪比集合γB(t),并将其作为DQN算法的输入,得到一个动作ai(t),并将该动作对应的索引k反馈给发送端;
步骤3:发送端逐个天线发送训练信息x(t+1),合法接收者获得信噪比集合γB(t+1),其中,索引为k的发射天线发送信息的信噪比为γB,k(t+1),同时,发送端根据步骤1反馈的信道增益HE,得到之后,发送端将γE,k(t+1)发送给合法接收者;
步骤4:合法接收者根据奖励函数r(t):
对步骤2的DQN的输出结果做出评价,如果评价结果为1,则步骤2的预测结果为准确,并修正DQN的网络参数使得该状态下做出该动作的几率增加,如果评价结果为-1,反之,如果评价结果为0,则不改变DQN的网络参数;
步骤5:重复步骤1、步骤2、步骤3和步骤4,并统计DQN的预测准确率,当该准确率达到目标值时,完成DQN训练阶段,进行步骤6;
步骤6:发送保密信息时,重复步骤1和步骤2,之后,发送端仅用索引为k的天线发送保密信息s(t+1),合法接收者获得最佳信噪比。
安全通信的条件是主信道的信噪比大于窃听信道的信噪比。MIMO窃听信道的保密容量CS由下式给出:
其中分别为合法接收者和窃听者的最大信噪比,CB=log(1+γB)和CE=log(1+γE)分别为合法接收者和窃听者的最大传输速率。该公式表明当主信道的信噪比大于窃听信道的信噪比时,可以实现安全通信。
本发明是基于深度强化学习而进行的发射天线选择,在某一个确定的通信环境下,在发送保密信息之前,需要对神经网络进行训练,具体的训练按步骤1,步骤2,步骤3,步骤4和步骤5进行,当DQN的预测精确度达到目标值时,该方法就可以按步骤6发送保密信息。在下一次发送保密信息之前,由于通信环境可能发生改变,需要循环几次步骤1、步骤2、步骤3和步骤4来验证DQN在此通信环境下的预测精度,只有当DQN精确度大于等于目标值时才发送保密信息,否则需要再次训练神经网络。
实施例
本发明实施例研究像学校或工厂这样的固定区域的窃听场景,为了便于研究,该场景包括发送者(如基站)、一个合法接收者和一个窃听者,发射信号正好覆盖整个固定区域。发送端处的发射天线数量表示为MT,合法接收端和窃听者处的接收天线数量分别表示为MR和ME。我们将定义为发送端和合法接收端之间的主通道。我们还将定义为发送端与窃听者之间的窃听信道。我们假设主信道的信道状态信息对合法接收端是可获得的,但窃听信道的信道状态信息完全未知,但可以根据通信环境描述为一个不确定性集合HE。不失一般性,我们假设所有信道服从独立同分布瑞利衰落,并且信道系数在一个时隙中保持不变。本文假定发送端,合法接收端和窃听者的各个天线之间不存在空间相关性。发送端需要为每个数据传输完成两个时隙。发射天线选择方案在第一个时隙完成,第二个时隙传输数据。建立的系统模型如图1所示。
本发明解决的是发射机获得的无线通信信道的信道状态信息过时的情况下,发射机难以准确地选择出最佳的发射天线而导致传输信息被窃听的问题。发射端只有一个射频链,并且它会逐个发送导频序列以用于主信道的信道估计。合法接收机接收来自各发射天线的导频信号,并通过最大比合并得到各发射天线发射的导频信号的信噪比。然后合法接收机根据这些信噪比使用DQN算法选择与下一个时隙最佳信噪比相对应的发射天线,并将相应的天线索引反馈给发射端。
与现有技术相比,本发明使用DQN框架来选择最佳的发射天线,并利用DRL的预测和决策能力以实现安全通信。因DQN强大的学习能力使得本方法具有很强的适用性,能够适合很多网络。本方法提出在接收机而不是发射机上实现基于DQN的发射天线选择算法,并只对发射机反馈最佳发射天线的索引,这不仅降低了发射机的负担,也大大减少了反馈开销和反馈误差。
为了验证本发明的效果,我们在Python仿真时,假定合法接收者和窃听者的天线数分别为MR=8和ME=8。在图2中,当发射天线的数量和天线选择方案不同时,我们绘制了保密中断概率P(RS)与合法接收者的平均信噪比之间的关系曲线。在这个图中,我们假定窃听者的平均信噪比为10dB,系统的传输速率RS=2bits/Hz/s。在图2中,随着合法接收者平均信噪比的增加,基于DQN方案的安全中断概率趋势与传统方案的安全中断概率一致,证明了基于DQN的天线选择方案本文提出的是合理的。当发射天线数量和合法接收者的平均信噪比不变时,基于DQN的天线选择方案低于传统方案和基于支持向量机的方案,这表明我们提出的天线选择方案具有更好的安全性。另外,当合法接收者的平均信噪比恒定时,基于DQN的方案与传统方案之间的中断概率与N=16的差值大于N=8的中断概率的差值,这表明更多的发射天线可以提高系统的安全性能。
图3显示了对于N=8的不同天线选择方案,误比特率性能与合法接收者的平均信噪比的关系。在该图中,随着合法接收者的平均信噪比增加,基于DQN的天线选择方案的误比特率不断下降,并且基于DQN的方案的误比特率低于传统方案和基于支持向量机的方案时的平均信噪比这表明基于DQN的天线选择方案具有更好的可靠性。另外,随着合法接收者平均信噪比的增加,基于DQN的方案和基于支持向量机的方案之间的误比特率差异也在增大,这表明在高信噪比的情况下,基于DQN的天线选择方案的可靠性更好。
本发明发射保密信息需要两时隙完成,第一个时隙发射端逐个发射天线来发送导频序列,合法接收端接收来自各发射天线的导频信号,并通过最大比合并得到各发射天线发射的导频信号的信噪比。然后合法接收机根据这些信噪比使用DQN算法预测与下一个时隙最佳信噪比相对应的发射天线,并将相应的天线索引反馈给发射端。在第二个时隙时,发射端将仅用索引对应的发射天线发射保密信息。
现有的发射天线选择的技术往往是基于准确的无线信道的信道状态信息而实现的,然而,由于实际的移动网络的主信道的快速变化、信道状态信息的有限反馈和延迟,发射机往往获得过时的信道状态信息。基于过时的信道状态信息来选择最佳发送天线通常不能确保安全通信。因此,为了根据过时的信道状态信息来选择最佳发射天线来提高系统的安全性,本发明提出一种基于深度强化学习算法的MIMO窃听信道的发射天线选择方法。本方法是首次使用深度强化学习框架来选择最佳的发射天线,本发明也是首次利用DQN的预测和决策能力来实现安全通信。本方法具有很强的适用性,能够适合很多通信场景,这归因于DQN具有强大的学习能力。本方法提出在接收机实现基于DQN的发射天线选择算法,并只对发射机反馈最佳发射天线的索引,这不仅降低了发射端的负担,也大大减少了反馈开销和反馈误差。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (6)

1.一种基于深度强化学习的MIMO窃听信道的发射天线选择方法,其特征在于,发射保密信息需要两时隙完成,第一个时隙发射端逐个发射天线来发送导频序列,合法接收端接收来自各发射天线的导频信号,并通过最大比合并得到各发射天线发射的导频信号的信噪比;然后合法接收机根据这些信噪比使用DQN算法预测与下一个时隙最佳信噪比相对应的发射天线,并将相应的天线索引反馈给发射端;在第二个时隙时,发射端将仅用索引对应的发射天线发射保密信息,这使得主信道的信噪比大于窃听信道的信噪比,能够实现保密信息不被窃听。
2.如权利要求1所述的一种基于深度强化学习的MIMO窃听信道的发射天线选择方法,其特征在于,包括以下步骤:
步骤1、发射端发射导频信号对主信道和窃听信道进行信道估计;
步骤2、合法接收端获得各个天线发射的导频信号的信噪比,并将其作为DQN算法的输入,DQN预测结果所对应的索引k反馈给发送端;
步骤3、发射端逐个天线发送训练信号,并根据步骤1中窃听者反馈的信道状态信息得到索引为k的发射天线发射的训练信号在窃听者处的信噪比,之后将该信噪比反馈给合法接受者;
步骤4、合法接收端获得各个天线发射的训练信号的信噪比,如果索引为k的发射天线发射的训练信号的信噪比是合法接受者接受的最大信噪比且大于步骤3反馈的信噪比时,对DQN神经网络参数做出奖励,如果索引为k的发射天线发射的训练信号的信噪比小于等于步骤3反馈的信噪比时,对DQN神经网络参数做出惩罚;
步骤5、重复步骤1、步骤2、步骤3和步骤4,并统计DQN的预测准确率,当该准确率达到目标值时,完成DQN训练阶段,进行步骤6;
步骤6、发送保密信息时,重复步骤1和步骤2之后,发送端仅用索引为k的天线发送保密信息s(t+1),合法接收者获得最佳信噪比,保密信息实现安全通信。
3.如权利要求1所述的一种基于深度强化学习的MIMO窃听信道的发射天线选择方法,其特征在于,所述步骤1的具体方法为:发射端的第i根天线发射导频信号x(t),合法接收端的第j∈{1,2,...,MR}根天线接收到的信号接收端对收到的第i根发射天线的信号进行最大比合并,并得到其信噪比同时,窃听者根据收到的导频信号进行信道估计,并将得到的信道增益反馈给发送端;
其中hij(t)表示主信道矩阵的第(i,j)个复元素,PT表示信号的发射功率,zB,ij(t)表示第(i,j)个信道的高斯白噪声,且zB,ij(t)的期望和方差分别为0和δ2,MR、ME和MT分别表示合法接收者、窃听者和发射端的天线个数。
4.如权利要求1所述的一种基于深度强化学习的MIMO窃听信道的发射天线选择方法,其特征在于,所述步骤2的具体方法为:合法接收端获得信噪比集合γB(t),并将其作为DQN算法的输入,得到一个动作ai(t),并将该动作对应的索引k反馈给发送端;
其中
5.如权利要求1所述的一种基于深度强化学习的MIMO窃听信道的发射天线选择方法,其特征在于,所述步骤3的具体方法为:发送端逐个天线发送训练信息x(t+1),合法接收者获得信噪比集合γB(t+1),其中,索引为k的发射天线发送信息的信噪比为γB,k(t+1),同时,发送端根据步骤1反馈的信道增益HE,得到之后,发送端将γE,k(t+1)发送给合法接收者;其中hE,ij(t)表示窃听信道矩阵HE的第(i,j)个复元素。
6.如权利要求1所述的一种基于深度强化学习的MIMO窃听信道的发射天线选择方法,其特征在于,所述步骤4的具体方法为:合法接收者根据奖励函数r(t):
对步骤2的DQN的输出结果做出评价,如果评价结果为1,则步骤2的预测结果为准确,并修正DQN的网络参数使得该状态下做出该动作的几率增加,如果评价结果为-1,反之,如果评价结果为0,则不改变DQN的网络参数;
其中,maxγB(t+1)表示下一时隙合法接收者的信噪比集合中的最大值。
CN201810739220.4A 2018-07-06 2018-07-06 一种基于深度强化学习的mimo窃听信道的发射天线选择方法 Active CN108923828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810739220.4A CN108923828B (zh) 2018-07-06 2018-07-06 一种基于深度强化学习的mimo窃听信道的发射天线选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810739220.4A CN108923828B (zh) 2018-07-06 2018-07-06 一种基于深度强化学习的mimo窃听信道的发射天线选择方法

Publications (2)

Publication Number Publication Date
CN108923828A true CN108923828A (zh) 2018-11-30
CN108923828B CN108923828B (zh) 2019-06-07

Family

ID=64423774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810739220.4A Active CN108923828B (zh) 2018-07-06 2018-07-06 一种基于深度强化学习的mimo窃听信道的发射天线选择方法

Country Status (1)

Country Link
CN (1) CN108923828B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660287A (zh) * 2018-12-10 2019-04-19 深圳大学 一种基于深度学习的天线选择方法
CN110445522A (zh) * 2019-07-16 2019-11-12 北京邮电大学 一种多天线系统中基于发送天线索引预编码的安全传输方法
CN112290694A (zh) * 2020-09-14 2021-01-29 德清阿尔法创新研究院 一种基于磁谐振和dqn的mimo中继充电方法
CN113472706A (zh) * 2021-07-12 2021-10-01 南京大学 一种基于深度神经网络的mimo-ofdm系统信道估计方法
WO2023231639A1 (zh) * 2022-06-02 2023-12-07 中兴通讯股份有限公司 发射天线选择方法及装置、计算机设备及计算机存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105429682A (zh) * 2014-09-11 2016-03-23 中国电信股份有限公司 有源天线工作模式的自适应控制装置和方法
CN105790813A (zh) * 2016-05-17 2016-07-20 重庆邮电大学 一种大规模mimo下基于深度学习的码本选择方法
CN106612138A (zh) * 2015-10-22 2017-05-03 北京信威通信技术股份有限公司 一种下行多用户数据传输方法
CN106792662A (zh) * 2016-11-15 2017-05-31 湖北民族学院 一种利用中继节点协作形成虚拟mimo 的方法
CN106792506A (zh) * 2016-11-22 2017-05-31 上海斐讯数据通信技术有限公司 一种WiFi定位方法及服务器
CN107332598A (zh) * 2017-06-26 2017-11-07 浙江理工大学 一种基于深度学习的mimo系统联合预编码和天线选择方法
CN107332592A (zh) * 2016-03-18 2017-11-07 建汉科技股份有限公司 天线对准系统及方法
CN108235423A (zh) * 2017-12-29 2018-06-29 中山大学 基于q学习的无线通信防窃听干扰功率控制算法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105429682A (zh) * 2014-09-11 2016-03-23 中国电信股份有限公司 有源天线工作模式的自适应控制装置和方法
CN106612138A (zh) * 2015-10-22 2017-05-03 北京信威通信技术股份有限公司 一种下行多用户数据传输方法
CN107332592A (zh) * 2016-03-18 2017-11-07 建汉科技股份有限公司 天线对准系统及方法
CN105790813A (zh) * 2016-05-17 2016-07-20 重庆邮电大学 一种大规模mimo下基于深度学习的码本选择方法
CN106792662A (zh) * 2016-11-15 2017-05-31 湖北民族学院 一种利用中继节点协作形成虚拟mimo 的方法
CN106792506A (zh) * 2016-11-22 2017-05-31 上海斐讯数据通信技术有限公司 一种WiFi定位方法及服务器
CN107332598A (zh) * 2017-06-26 2017-11-07 浙江理工大学 一种基于深度学习的mimo系统联合预编码和天线选择方法
CN108235423A (zh) * 2017-12-29 2018-06-29 中山大学 基于q学习的无线通信防窃听干扰功率控制算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JOAO VIEIRA: "Deep Comvolutional Neural for Massice MIMO Fingerint-Based Positioning", 《IEEE INTERNATIONAL SYMPOSIUM ON PERSONAL,INDOOR AND MOBILE RADIO COMMUNICATIONS 2017》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660287A (zh) * 2018-12-10 2019-04-19 深圳大学 一种基于深度学习的天线选择方法
CN109660287B (zh) * 2018-12-10 2022-02-11 深圳大学 一种基于深度学习的天线选择方法
CN110445522A (zh) * 2019-07-16 2019-11-12 北京邮电大学 一种多天线系统中基于发送天线索引预编码的安全传输方法
CN110445522B (zh) * 2019-07-16 2020-11-27 北京邮电大学 一种多天线系统中基于发送天线索引预编码的安全传输方法
CN112290694A (zh) * 2020-09-14 2021-01-29 德清阿尔法创新研究院 一种基于磁谐振和dqn的mimo中继充电方法
CN112290694B (zh) * 2020-09-14 2024-01-16 德清阿尔法创新研究院 一种基于磁谐振和dqn的mimo中继充电方法
CN113472706A (zh) * 2021-07-12 2021-10-01 南京大学 一种基于深度神经网络的mimo-ofdm系统信道估计方法
WO2023231639A1 (zh) * 2022-06-02 2023-12-07 中兴通讯股份有限公司 发射天线选择方法及装置、计算机设备及计算机存储介质

Also Published As

Publication number Publication date
CN108923828B (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
CN108923828B (zh) 一种基于深度强化学习的mimo窃听信道的发射天线选择方法
CN101720093B (zh) 一种基于正交矩阵的认知无线电频谱共享方法
CN105491563B (zh) 利用人工噪声提高miso安全通信系统安全速率的方法和系统
CN105515717A (zh) 一种基于人工噪声加扰的协同中继安全传输方法
Xie et al. Outage performance and QoS optimization in full-duplex system with non-linear energy harvesting model
Yu et al. On outage of WPC system with relay selection over Nakagami-$ m $ fading channels
Sánchez et al. Information-Theoretic Security of MIMO Networks Under $\kappa $-$\mu $ Shadowed Fading Channels
Coon et al. Combined bulk and per-tone transmit antenna selection in OFDM systems
Hu et al. Secrecy transmission of NOMA-OTFS based multicast-unicast streaming
CN111404587B (zh) 一种基于共轭预编码的多用户mimo对称信道特征获取方法
CN102780545B (zh) 放大转发分布式协作系统发射天线选择方法
CN110213793B (zh) 一种基于速率控制的中继系统安全吞吐量优化方法
CN112601286B (zh) 一种基于信道估计误差的用户调度方法
Yang et al. Cognitive radio networks with orthogonal space-time block coding and multiuser diversity
Xu et al. Covert communication with a full-duplex receiver based on channel distribution information
Lubega et al. A secure energy efficient multi-user selection scheme for SWIPT wireless IoT networks in the presence of cooperative jamming
Shang et al. Secure transmission in cognitive radio networks using full-duplex technique with outdated CSI
CN111263363A (zh) 一种高强度的安全传输方法
Kotwal et al. Transmitter selection for secrecy in frequency-selective fading with multiple eavesdroppers and wireless backhaul links
CN106792899B (zh) 基于次用户选择的认知无线网络物理层安全传输方法
Guo et al. Threshold-based pair switching scheme in SWIPT-enabled wireless downlink system
Yao et al. Deep learning assisted antenna selection in untrusted relay networks
Cao et al. An anti-eavesdropping interference alignment scheme with wireless power transfer
Zou Precoding design and optimization for multi-antenna systems with limited feedback
Kim et al. Performance analysis of spatially correlated MIMO-OFDM beamforming systems with the maximum eigenvalue model from measured MIMO channels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant