CN111917508A - 基于多天线抗干扰通信模型及动态空间谱抗干扰方法 - Google Patents

基于多天线抗干扰通信模型及动态空间谱抗干扰方法 Download PDF

Info

Publication number
CN111917508A
CN111917508A CN202010797220.7A CN202010797220A CN111917508A CN 111917508 A CN111917508 A CN 111917508A CN 202010797220 A CN202010797220 A CN 202010797220A CN 111917508 A CN111917508 A CN 111917508A
Authority
CN
China
Prior art keywords
interference
signal
value
receiving end
experience
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010797220.7A
Other languages
English (en)
Other versions
CN111917508B (zh
Inventor
徐煜华
汪西明
刘典雄
徐逸凡
杨晓琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN202010797220.7A priority Critical patent/CN111917508B/zh
Publication of CN111917508A publication Critical patent/CN111917508A/zh
Application granted granted Critical
Publication of CN111917508B publication Critical patent/CN111917508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/20Countermeasures against jamming
    • H04K3/22Countermeasures against jamming including jamming detection and monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Electromagnetism (AREA)
  • Radio Transmission System (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于多天线抗干扰通信模型及动态空间谱抗干扰方法,考虑一对具有多天线的发射端和接收端的用户进行通信,一个无人机干扰对用户通信进行干扰,将接收端获取的具有无人机干扰信号到达方向角信息的空间谱图作为学习的状态输入,获取无人机干扰的空间运动特征,并准确地对干扰信号进行消除。算法为:用户通过感知获得干扰信号的到达方向角,并构建空间谱图;根据空间谱图,深度强化学习中的深度神经网络拟合得到对应的Q值函数并输出每个动作的Q值;根据Q值,用户依概率进行信号消除方向的决策,根据该决策的回报值和下一步环境状态对深度神经网络进行训练并更新网络权重,优化决策策略;当达到最大循环次数时,算法结束。

Description

基于多天线抗干扰通信模型及动态空间谱抗干扰方法
技术领域
本发明属于无线通信抗干扰技术领域,包括一种基于多天线抗干扰通信模型和一种基于深度强化学习的动态空间谱抗干扰方法。
背景技术
利用天线增益与分集增益,多输入多输出(MIMO)通信在信道状态信息已知的前提之下可以有效地抑制干扰信号。随着无人机应用的普及,高机动性的无人机干扰可以在短时间内压制大片区域,对军用和民用无线通信造成严重威胁。然而传统的MIMO抗干扰通信方法大多针对静态干扰。由于无人机干扰的高速移动与信号处理的时延,造成估计的干扰信道的状态信息过时,此时传统的MIMO抗干扰通信方法无法适用。因此,迫切需要研究对抗高机动干扰机的通信方法。
人工智能中强化学习方法(参考文献:C.J.Watkins and P.Dayan,“Q-learning,”Machine learning,vol.8,no.3-4,pp.279–292,1992)可以在动态未知的环境中学习环境变化规律,获取最优的决策策略。通过强化学习方法,在无人机飞行特性(如轨迹、速度、高度等)先验信息未知的前提下,学习干扰信号到达角的变化规律,将是一种可行的方案。然而,由于不同的无人机飞行特性将导致不同的干扰信号变化规律,巨大的状态空间将使得强化学习无法收敛。
针对以上问题,本发明创新性地利用深度强化学习算法解决干扰机快速移动场景下的MIMO抗干扰通信。利用深度学习强大的函数拟合能力对巨大状态空间进行特征提取和泛化,通过强化学习在动态未知的环境中获取最优抗干扰策略,有效提升MIMO通信对抗移动干扰的能力。
发明内容
本发明的目的在于提供一种基于多天线抗干扰通信模型和一种基于深度强化学习的动态空间谱抗干扰方法,很好地刻画了面向移动干扰的MIMO抗干扰通信场景。
实现本发明目的的技术解决方案为:一种基于多天线抗干扰通信模型,对该模型做如下刻画:一种基于多天线抗干扰通信模型,其特征在于,对该模型做如下刻画:一个天线数为Nt的发射端和一个天线数为Nr接收端的用户进行通信,一个天线数为Nt的无人机干扰对用户通信进行干扰;在动态未知环境中,将接收端获取的具有无人机干扰信号到达方向角信息的动态空间谱图作为学习算法的输入状态,获取无人机干扰的空间运动特征,并基于抗干扰波束成形方法准确地对干扰信号进行消除。
在用户发射端与干扰机同时发送信号时用户接收端的信干噪比SINR表示为:
Figure BDA0002626105850000021
公式中(9)中,
Figure BDA0002626105850000022
为对随机变量求期望,Pt和Pj分别为发射端和干扰机的发送功率,f为接收端的接收波束成形向量(滤波),Ht,r和Hj,r分别表示表示发射端到接收端的信道系数矩阵,wt和wj分别为发送机和干扰机的发送波束成形向量(预编码),st和st分别为用户和干扰发送的符号,n表示加性高斯白噪声矢量,其元素服从独立同分布的均值为0、方差为
Figure BDA0002626105850000023
的复高斯分布,I代表单位对角阵。
此外,用λ表示成功解调信号所需要的SINR门限,定义传输速率r如公式(10)所示:
Figure BDA0002626105850000024
用户接收端通过感知干扰信号并估计干扰加噪声的自相关矩阵,根据估计出的自相关矩阵获得最优的抗干扰波束成形方法。令
Figure BDA0002626105850000025
根据公式(9)可知接收到的干扰加噪声的功率为fHRjf。对于抗干扰通信而言,用户的优化目标如公式(11)所示:
Figure BDA0002626105850000026
其中
Figure BDA0002626105850000027
为接收端天线阵列响应矢量,θt,r为发送端发射的信号到接收端的信号到达角,Δr为接收端天线之间的间隔。公式(11)的目标为设计最优的抗干扰接收波束成形向量,使得在保证接收到的有用信号功率一定的条件下,最小化接收到的干扰信号。
当用户发送端不发射信号时,接收端接收到的干扰与噪声叠加的信号为yj=Hj, rwjsj+n,那么干扰噪声叠加信号的自相关矩阵为
Figure BDA0002626105850000031
通过对接收到的信号进行快拍采样,可以得到估计的自相关矩阵为
Figure BDA0002626105850000032
其中K为快拍数。利用拉格朗日乘数法,可以对公式(11)进行求解,求得最优的抗干扰接收波束成形向量为如公式(12)所示:
Figure BDA0002626105850000033
接收端的波束成形向量确定之后,发送端的发送波束成形向量则由最大比传输方案获得,即
Figure BDA0002626105850000034
进一步地,针对无人机干扰的高速运动导致干扰到达用户接收端的信号到达角快速变化的问题,进行了“感知-传输-学习-决策”的通信时隙一体化设计。用户通信以时隙的方式实施,一个通信时隙划分成四个阶段:感知、传输数据、学习、ACK传输。感知阶段,用户发射端保持沉默,接收端通过感知干扰信号来估计干扰加噪声的自相关矩阵。传输数据阶段,发射端向接收端发送数据,接收端利用上一时隙决策的抗干扰接收波束成形向量接收信号。学习阶段,接收端运行抗干扰方法并产生下一时刻接收端的抗干扰接收波束成形向量。ACK传输阶段,接收端向发送端发送信号是否成功接收的确认信息,并携带接收端的决策信息,以供发送端生成发送波束成形向量。
进一步地,构建具有无人机干扰信号到达方向角信息的动态空间谱图。对于估计出的信号加噪声自相关矩阵
Figure BDA0002626105850000035
利用特征值分解可以将该自相关矩阵表示为
Figure BDA0002626105850000036
其中
Figure BDA0002626105850000037
Figure BDA0002626105850000038
分别表示估计的干扰信号子空间和噪声子空间,Λj为干扰信号的特征值对角矩阵。由此,估计干扰信号到达角的方法如公式(13)所示:
Figure BDA0002626105850000039
其中s(θj,r)为当前时刻的干扰信号空间谱函数,该函数最大值对应的角度即为估计的信号到达角。
由于无人机干扰的移动,干扰信号到达角在时间上的变化具有相关性和连续性,因此构建具有时间、空间二维信息的动态空间谱图,即Sk=[sk,sk-1,…,sk-L+2,sk-L+1]T,其中Sk为维度为L×S的动态空间谱矩阵,S角度分辨率,k为第k个时隙,Sk包含L个历史时隙的空间谱信息。随着无人机的飞行和接收端的感知与估计,动态空间谱矩阵进行持续动态地更新,记录新估计的角度信息,去除超过L个时隙的历史信息。
一种基于深度强化学习的动态空间谱抗干扰方法,其特征在于,包括以下步骤:
步骤1,初始化:以随机权重φ构建深度强化学习神经网络Q,构建与网络Q完全相同的目标网络
Figure BDA0002626105850000041
权重为
Figure BDA0002626105850000042
利用公式(12),以不同的θj,r∈(0°,180°]生成动作集
Figure BDA0002626105850000043
生成容量为M的经验池
Figure BDA0002626105850000044
步骤2,依据以下准则选择一个动作ak:当迭代次数小于随机探索次数门限M,随机选择动作集中的动作;当迭代次数大于M小于训练次数门限,以概率0≤ε≤1随机选择一个动作
Figure BDA0002626105850000045
概率1-ε以贪婪准则选择Q值最大的动作ak=argmaxaQ(Sk,a;φ);当迭代次数大于训练次数门限,以贪婪准则选择Q值最大的动作。
步骤3,接收机感知当前空间谱信息sk+1,用动作ak作为接收波束成形向量接收信号,获得回报值rk,即公式(10)所示的通信吞吐量。
步骤4,更新动态空间谱状态Sk+1=(sk+1,Sk),将经验存入经验池
Figure BDA0002626105850000046
中。
步骤5,判断训练次数是否小于训练门限:如果小于则从经验池
Figure BDA0002626105850000047
中随机批量采样经验,通过最小化估计Q值与目标Q值的距离来训练网络Q的权重φ,且每C次迭代将网络Q的权重复制给目标网络
Figure BDA0002626105850000048
更新概率ε=max(0.01,ε-Δε),其中Δε为步长;如果大于则步骤2,进行步骤2~6循环迭代,直到达到最大循环数,结束算法。
进一步地,步骤1中所述的以不同的θj,r∈(0°,180°]生成动作集
Figure BDA0002626105850000049
具体如下:假设干扰信号到达角从0°到180°,每隔δ°生成一个接收波束成形向量作为动作。
进一步地,步骤2中所述的以贪婪准则选择Q值最大的动作,具体为深度强化学习神经网络Q是用来拟合Q值函数的,该函数的输入为当前获取的环境状态,输出为在当前状态下对每个动作的评价,即每个动作的长期累积折扣回报值(Q值),拟合的Q函数表示如下:
Figure BDA0002626105850000051
其中γ为折扣因子。
进一步地,步骤4中所述的将经验存入经验池
Figure BDA0002626105850000052
中的具体方法为:定义一个经验为一个四元组,包括当前环境状态Sk、所做动作ak、获得的回报值rk和更新后的环境状态Sk+1,即将k时刻获得的信息(Sk,ak,rk,Sk+1)定义为一个经验。每次做一次决策,所获得的一个经验存储到经验池中,若经验池存储的经验数量已经达到容量值M,则将存储时间超过M的经验删除而存储新的经验。
进一步地,步骤5中所述的从经验池
Figure BDA0002626105850000053
中随机批量采样经验,通过最小化估计Q值与目标Q值的距离来训练网络Q的权重φ,具体的方法为:训练时,采用经验值回放机制,随机选取一定数量的经验组成一组训练数据
Figure BDA0002626105850000054
第k次迭代时,估计Q值与目标Q值的距离表示如下:
Figure BDA0002626105850000055
其中Q(Sk,ak;φk)表示第k次迭代神经网络权重为φk时的Q值,为Q网络的输出,
Figure BDA0002626105850000056
为目标Q值,其中
Figure BDA0002626105850000057
为目标网络
Figure BDA0002626105850000058
的输出。
目标是使估计Q值与目标Q值的距离最小,通过对公式(15)进行梯度下降算法,可得参数φk的梯度表示如下:
Figure BDA0002626105850000059
其中
Figure BDA00026261058500000510
为梯度运算符。
本发明与现有技术相比,其显著优点在于:(1)创新深度强化学习在MIMO抗干扰通信中的应用,解决传统MIMO抗干扰通信方法无法应对移动干扰的不足;(2)模型完备,物理意义清晰,提出的基于深度强化学习的动态空间谱抗干扰方法,实现对提出模型的有效求解,求出MIMO通信的抗干扰波束成形策略;(3)能够有效地应对移动干扰,并很好地刻画基于深度强化学习算法的抗干扰场景。
附图说明
图1是本发明多天线抗干扰通信系统模型图。
图2是本发明中深度强化学习神经网络模型图。
图3是本发明中基于深度强化学习的动态空间谱抗干扰通信时隙结构图。
图4是本发明实施例1中平均通信速率随着迭代次数变化的仿真图。
图5是本发明实施例2中神经网络输出的平均Q值随着迭代次数变化的仿真图。
具体实施方式
本发明所提出的基于多天线抗干扰通信模型和基于深度强化学习的动态空间谱抗干扰方法,旨在提供方案以解决移动干扰下的MIMO抗干扰通信问题。本发明提出的基于深度强化学习的动态空间谱抗干扰方法,将接收机感知得到的的动态空间谱图作为算法的输入,采用深度强化学习神经网络提取动态空间谱特征,获取干扰信号到达角变化规律,对策略函数即Q值函数进行拟合;接着,通过相应的决策算法,更新接收机的接收波束成形选择策略。
图1是多天线抗干扰通信系统模型。该模型中,一个发射机向一个接收机发送数据,一个正在飞行的无人机干扰发送干扰信号阻碍通信。
图2是深度强化学习神经网络模型。深度强化学习神经网络采用卷积神经网络框架,输入为动态空间谱图,通过两层卷积层提取动态空间谱图特征并降低图维度、两层全连接层拟合Q值函数,然后通过相应的决策算法输出当前空间谱状态下最优的抗干扰波束成形决策。
图3是基于深度强化学习的动态空间谱抗干扰通信时隙结构图。用户通信以时隙的方式实施,一个通信时隙划分成四个阶段:感知、传输数据、学习、ACK传输。感知阶段,用户发射端保持沉默,接收端通过感知干扰信号来估计干扰加噪声的自相关矩阵。传输数据阶段,发射端向接收端发送数据,接收端利用上一时隙决策的抗干扰接收波束成形向量接收信号。学习阶段,接收端运行抗干扰方法并产生下一时刻接收端的抗干扰接收波束成形向量。ACK传输阶段,接收端向发送端发送信号是否成功接收的确认信息,并携带接收端的决策信息,以供发送端生成发送波束成形向量。
本发明的目的在于提供一种基于多天线抗干扰通信模型和一种基于深度强化学习的动态空间谱抗干扰方法,很好地刻画了面向移动干扰的MIMO抗干扰通信场景。
实现本发明目的的技术解决方案为:一种基于多天线抗干扰通信模型,对该模型做如下刻画:一种基于多天线抗干扰通信模型,其特征在于,对该模型做如下刻画:一个天线数为Nt的发射端和一个天线数为Nr接收端的用户进行通信,一个天线数为Nt的无人机干扰对用户通信进行干扰;在动态未知环境中,将接收端获取的具有无人机干扰信号到达方向角信息的动态空间谱图作为学习算法的输入状态,获取无人机干扰的空间运动特征,并基于抗干扰波束成形方法准确地对干扰信号进行消除。
在用户发射端与干扰机同时发送信号时用户接收端的信干噪比SINR表示为:
Figure BDA0002626105850000071
公式中(17)中,
Figure BDA0002626105850000072
为对随机变量求期望,Pt和Pj分别为发射端和干扰机的发送功率,f为接收端的接收波束成形向量(滤波),Ht,r和Hj,r分别表示表示发射端到接收端的信道系数矩阵,wt和wj分别为发送机和干扰机的发送波束成形向量(预编码),st和st分别为用户和干扰发送的符号,n表示加性高斯白噪声矢量,其元素服从独立同分布的均值为0、方差为
Figure BDA0002626105850000073
的复高斯分布,I代表单位对角阵。
此外,用λ表示成功解调信号所需要的SINR门限,定义传输速率r如公式(18)所示:
Figure BDA0002626105850000074
用户接收端通过感知干扰信号并估计干扰加噪声的自相关矩阵,根据估计出的自相关矩阵获得最优的抗干扰波束成形方法。令
Figure BDA0002626105850000075
根据公式(17)可知接收到的干扰加噪声的功率为fHRjf。对于抗干扰通信而言,用户的优化目标如公式(19)所示:
Figure BDA0002626105850000076
其中
Figure BDA0002626105850000081
为接收端天线阵列响应矢量,θt,r为发送端发射的信号到接收端的信号到达角,Δr为接收端天线之间的间隔。公式(19)的目标为设计最优的抗干扰接收波束成形向量,使得在保证接收到的有用信号功率一定的条件下,最小化接收到的干扰信号。
当用户发送端不发射信号时,接收端接收到的干扰与噪声叠加的信号为yj=Hj, rwjsj+n,那么干扰噪声叠加信号的自相关矩阵为
Figure BDA0002626105850000082
通过对接收到的信号进行快拍采样,可以得到估计的自相关矩阵为
Figure BDA0002626105850000083
其中K为快拍数。利用拉格朗日乘数法,可以对公式(19)进行求解,求得最优的抗干扰接收波束成形向量为如公式(20)所示:
Figure BDA0002626105850000084
接收端的波束成形向量确定之后,发送端的发送波束成形向量则由最大比传输方案获得,即
Figure BDA0002626105850000085
进一步地,针对无人机干扰的高速运动导致干扰到达用户接收端的信号到达角快速变化的问题,进行了“感知-传输-学习-决策”的通信时隙一体化设计。用户通信以时隙的方式实施,一个通信时隙划分成四个阶段:感知、传输数据、学习、ACK传输。感知阶段,用户发射端保持沉默,接收端通过感知干扰信号来估计干扰加噪声的自相关矩阵。传输数据阶段,发射端向接收端发送数据,接收端利用上一时隙决策的抗干扰接收波束成形向量接收信号。学习阶段,接收端运行抗干扰方法并产生下一时刻接收端的抗干扰接收波束成形向量。ACK传输阶段,接收端向发送端发送信号是否成功接收的确认信息,并携带接收端的决策信息,以供发送端生成发送波束成形向量。
进一步地,构建具有无人机干扰信号到达方向角信息的动态空间谱图。对于估计出的信号加噪声自相关矩阵
Figure BDA0002626105850000086
利用特征值分解可以将该自相关矩阵表示为
Figure BDA0002626105850000087
其中
Figure BDA0002626105850000088
Figure BDA0002626105850000089
分别表示估计的干扰信号子空间和噪声子空间,Λj为干扰信号的特征值对角矩阵。由此,估计干扰信号到达角的方法如公式(21)所示:
Figure BDA0002626105850000091
其中s(θj,r)为当前时刻的干扰信号空间谱函数,该函数最大值对应的角度即为估计的信号到达角。
由于无人机干扰的移动,干扰信号到达角在时间上的变化具有相关性和连续性,因此构建具有时间、空间二维信息的动态空间谱图,即Sk=[sk,sk-1,…,sk-L+2,sk-L+1]T,其中Sk为维度为L×S的动态空间谱矩阵,S角度分辨率,k为第k个时隙,Sk包含L个历史时隙的空间谱信息。随着无人机的飞行和接收端的感知与估计,动态空间谱矩阵进行持续动态地更新,记录新估计的角度信息,去除超过L个时隙的历史信息。
一种基于深度强化学习的动态空间谱抗干扰方法,其特征在于,包括以下步骤:
步骤1,初始化:以随机权重φ构建深度强化学习神经网络Q,构建与网络Q完全相同的目标网络
Figure BDA0002626105850000092
权重为
Figure BDA0002626105850000093
利用公式(20),以不同的θj,r∈(0°,180°]生成动作集
Figure BDA0002626105850000094
生成容量为M的经验池
Figure BDA0002626105850000095
步骤2,依据以下准则选择一个动作ak:当迭代次数小于随机探索次数门限M,随机选择动作集中的动作;当迭代次数大于M小于训练次数门限,以概率0≤ε≤1随机选择一个动作
Figure BDA0002626105850000096
概率1-ε以贪婪准则选择Q值最大的动作ak=argmaxaQ(Sk,a;φ);当迭代次数大于训练次数门限,以贪婪准则选择Q值最大的动作。
步骤3,接收机感知当前空间谱信息sk+1,用动作ak作为接收波束成形向量接收信号,获得回报值rk,即公式(18)所示的通信吞吐量。
步骤4,更新动态空间谱状态Sk+1=(sk+1,Sk),将经验存入经验池
Figure BDA0002626105850000097
中。
步骤5,判断训练次数是否小于训练门限:如果小于则从经验池
Figure BDA0002626105850000098
中随机批量采样经验,通过最小化估计Q值与目标Q值的距离来训练网络Q的权重φ,且每C次迭代将网络Q的权重复制给目标网络
Figure BDA0002626105850000099
更新概率ε=max(0.01,ε-Δε),其中Δε为步长;如果大于则步骤2,进行步骤2~6循环迭代,直到达到最大循环数,结束算法。
进一步地,步骤1中所述的以不同的θj,r∈(0°,180°]生成动作集
Figure BDA00026261058500000910
具体如下:假设干扰信号到达角从0°到180°,每隔δ°生成一个接收波束成形向量作为动作。
进一步地,步骤2中所述的以贪婪准则选择Q值最大的动作,具体为深度强化学习神经网络Q是用来拟合Q值函数的,该函数的输入为当前获取的环境状态,输出为在当前状态下对每个动作的评价,即每个动作的长期累积折扣回报值(Q值),拟合的Q函数表示如下:
Figure BDA0002626105850000101
其中γ为折扣因子。
进一步地,步骤4中所述的将经验存入经验池
Figure BDA0002626105850000102
中的具体方法为:定义一个经验为一个四元组,包括当前环境状态Sk、所做动作ak、获得的回报值rk和更新后的环境状态Sk+1,即将k时刻获得的信息(Sk,ak,rk,Sk+1)定义为一个经验。每次做一次决策,所获得的一个经验存储到经验池中,若经验池存储的经验数量已经达到容量值M,则将存储时间超过M的经验删除而存储新的经验。
进一步地,步骤5中所述的从经验池
Figure BDA0002626105850000103
中随机批量采样经验,通过最小化估计Q值与目标Q值的距离来训练网络Q的权重φ,具体的方法为:训练时,采用经验值回放机制,随机选取一定数量的经验组成一组训练数据
Figure BDA0002626105850000104
第k次迭代时,估计Q值与目标Q值的距离表示如下:
Figure BDA0002626105850000105
其中Q(Sk,ak;φk)表示第k次迭代神经网络权重为φk时的Q值,为Q网络的输出,
Figure BDA0002626105850000106
为目标Q值,其中
Figure BDA0002626105850000107
为目标网络
Figure BDA0002626105850000108
的输出。
目标是使估计Q值与目标Q值的距离最小,通过对公式(23)进行梯度下降算法,可得参数φk的梯度表示如下:
Figure BDA0002626105850000109
其中
Figure BDA00026261058500001010
为梯度运算符。
实施例1
本发明的第一个实施例具体描述如下,系统仿真采用Python语言,基于TensorFlow的深度学习框架,参数设定不影响一般性。该实施例验证所提模型与算法的有效性,参数设置为,无人机飞行高度30米,速度为50米每秒,发射机发送的有用信号到接收机的到达角θt,r固定为30度,无人机干扰和发射机的发射功率分别为20dB和10dB,噪声的方差为1,解调门限为λ=5dB,另发射机、接收机和干扰的天线数相等。在一个通信时隙中,TS、TD、TL和TACK分别设置为0.03秒、0.05秒、0.01秒和0.01秒。算法的折扣因子γ=0.8,动作数为
Figure BDA0002626105850000111
状态Sk的维度为10×180其中历史长度L=10,经验池
Figure BDA0002626105850000112
的容量M=5000。总迭代次数为1.5×105,其中前5000次为随机探索动作,最后55000次为贪婪选择动作,中间的90000次为训练神经网络。目标网络的权重每C=100次进行更新。
图4是本发明实施例1中在不同的天线数下平均通信速率随着迭代次数变化的仿真图,从图中可以看出,在算法的初始阶段接收机随机探索波束成形向量,积累经验。随着迭代次数的增加,接收机选择获得高回报动作的概率逐渐增加,通信速率也因此上升,直到训练阶段结束,算法趋于收敛,接收机获得稳定的抗干扰波束成形策略。同时,随着天线数的增加,抗干扰性能也提高。该仿真图验证了算法抗干扰的有效性。
实施例2
本发明的第二个实施例具体描述如下,系统仿真采用Python语言,基于TensorFlow的深度学习框架,参数设定不影响一般性。该实施例验证所提模型与算法的有效性,参数设置为,无人机飞行高度30米,速度为50米每秒,发射机发送的有用信号到接收机的到达角θt,r固定为30度,无人机干扰和发射机的发射功率分别为20dB和10dB,噪声的方差为1,解调门限为λ=5dB,另发射机、接收机和干扰的天线数相等。在一个通信时隙中,TS、TD、TL和TACK分别设置为0.03秒、0.05秒、0.01秒和0.01秒。算法的折扣因子γ=0.8,动作数为
Figure BDA0002626105850000113
状态Sk的维度为10×180其中历史长度L=10,经验池
Figure BDA0002626105850000114
的容量M=5000。总迭代次数为1.5×105,其中前5000次为随机探索动作,最后55000次为贪婪选择动作,中间的90000次为训练神经网络。目标网络的权重每C=100次进行更新。
图5是本发明实施例2中神经网络输出的平均Q值随着迭代次数变化的仿真图,随着迭代次数的增加,神经网络的训练使得其拟合的函数逐渐趋近于最优的Q值函数,最终拟合函数的过程收敛。该仿真图验证了算法的收敛性。
综上所述,本发明提出的基于多天线抗干扰通信模型充分考虑了MIMO通信中干扰的移动性、通信环境的动态未知性和状态空间的复杂性等问题,比传统的MIMO抗干扰通信模型更有实际意义;提出的基于深度强化学习的动态空间谱抗干扰方法,能够实现对提出模型的有效求解,求出接收机的抗干扰波束成形向量选择策略,有效地应对高机动性的干扰。

Claims (10)

1.一种基于多天线抗干扰通信模型,其特征在于:对该模型做如下刻画:一个天线数为Nt的发射端和一个天线数为Nr接收端的用户进行通信,一个天线数为Nt的无人机干扰对用户通信进行干扰;在动态未知环境中,将接收端获取的具有无人机干扰信号到达方向角信息的动态空间谱图作为学习算法的输入状态,获取无人机干扰的空间运动特征,并基于抗干扰波束成形方法准确地对干扰信号进行消除。
2.根据权利要求1所述的基于多天线抗干扰通信模型,其特征在于,考虑用物理信道模型描述多天线信号传输,令
Figure FDA0002626105840000011
和θa,b分别表示信号从a节点到b节点的信号离去角和信号到达角,μa,b为信号传播的路径损耗,则a节点到b节点之间的信道Ha,b如公式(1)所示:
Figure FDA0002626105840000012
其中da,b为发送天线到接收天线之间的距离,λc为载波波长,eba,b)和
Figure FDA0002626105840000013
分别为接收机和发送机的天线阵列响应矢量,
Figure FDA0002626105840000014
Figure FDA0002626105840000015
的共轭转置,天线阵列响应矢量的表达式如公式(2)所示:
Figure FDA0002626105840000016
其中j为虚数因子,e为自然常数,Δa和Δb分别为天线之间的物理间隔,Na和Nb分别为a节点和b节点的天线数,xT为对x取转置运算;在信号传输阶段,接收机接收到的信号y如公式(3)所示:
Figure FDA0002626105840000017
其中Pt和Pj分别为发射端和干扰机的发送功率,Ht,r和Hj,r分别表示表示发射端到接收端的和干扰端到接收端的信道系数矩阵,wt和wj分别为发送机和干扰机的发送波束成形向量(预编码),st和sj分别为用户和干扰发送的符号,其功率满足
Figure FDA0002626105840000018
Figure FDA0002626105840000019
其中
Figure FDA00026261058400000110
为对x求期望,n表示加性高斯白噪声矢量,其元素服从独立同分布的均值为0、方差为
Figure FDA0002626105840000021
的复高斯分布;
接收机通过接受波束成形向量对信号进行处理,获得接收端的信干噪比SINR如公式(4)所示:
Figure FDA0002626105840000022
其中,
Figure FDA0002626105840000023
为对随机变量x求期望,|x|为对x取模运算,xH表示对x取共轭转置;f为接收端的接收波束成形向量(滤波),I代表单位对角阵;令
Figure FDA0002626105840000024
根据公式(4)可知接收到的干扰加噪声的功率为fHRjf;定义传输速率r如公式(5)所示:
Figure FDA0002626105840000025
用λth表示成功解调信号所需要的SINR门限。
3.根据权利要求1所述的基于多天线抗干扰通信模型,其特征在于,用户接收端通过感知干扰信号并估计干扰加噪声的自相关矩阵,根据估计出的自相关矩阵获得最优的抗干扰波束成形方法,具体如下:
对于抗干扰通信而言,用户的优化目标如公式(6)所示:
Figure FDA0002626105840000026
其中
Figure FDA0002626105840000027
为接收端天线阵列响应矢量,θt,r为发送端发射的信号到接收端的信号到达角,Δr为接收端天线之间的间隔;公式(6)的目标为设计最优的抗干扰接收波束成形向量,使得在保证接收到的有用信号功率一定的条件下,最小化接收到的干扰信号;
当用户发送端不发射信号时,接收端接收到的干扰与噪声叠加的信号为yj=Hj,rwjsj+n,那么干扰噪声叠加信号的自相关矩阵为
Figure FDA0002626105840000031
通过对接收到的信号进行快拍采样,得到估计的自相关矩阵
Figure FDA0002626105840000032
Figure FDA0002626105840000033
其中K为快拍数,k为第k次采样;利用拉格朗日乘数法,对公式(6)进行求解,求得最优的抗干扰接收波束成形向量为如公式(7)所示:
Figure FDA0002626105840000034
其中ert,r)为接收端天线阵列响应矢量。接收端的波束成形向量确定之后,发送端的发送波束成形向量则由最大比传输方案获得,即如公式(8)所示:
Figure FDA0002626105840000035
其中||x||为对x进行欧几里得范数运算。
4.根据权利要求1所述的基于多天线抗干扰通信模型,其特征在于,无人机干扰的高速运动导致干扰到达用户接收端的信号到达角快速变化,进行了“感知-传输-学习-决策”的通信时隙一体化设计,具体如下:
用户通信以时隙的方式实施,一个通信时隙划分成四个阶段:感知阶段、传输数据阶段、学习阶段、ACK传输阶段,感知阶段,用户发射端保持沉默,接收端通过感知干扰信号来估计干扰加噪声的自相关矩阵;传输数据阶段,发射端向接收端发送数据,接收端利用上一时隙决策的抗干扰接收波束成形向量接收信号;学习阶段,接收端运行抗干扰方法并产生下一时刻接收端的抗干扰接收波束成形向量;ACK传输阶段,接收端向发送端发送信号是否成功接收的确认信息,并携带接收端的决策信息,以供发送端生成发送波束成形向量。
5.根据权利要求1所述的基于多天线抗干扰通信模型,其特征在于,具有无人机干扰信号到达方向角信息的动态空间谱图包含了一定历史时间长度内干扰信号的到达角度信息,具体构建方法如下:
对于估计出的信号加噪声自相关矩阵
Figure FDA0002626105840000036
利用特征值分解可以将该自相关矩阵表示为
Figure FDA0002626105840000037
其中
Figure FDA0002626105840000038
Figure FDA0002626105840000039
分别表示估计的干扰信号子空间和噪声子空间,Λj为干扰信号的特征值对角矩阵。由此,估计干扰信号到达角的方法如公式(9)所示:
Figure FDA0002626105840000041
其中s(θj,r)为当前时刻的干扰信号空间谱函数,该函数最大值对应的角度即为估计的信号到达角;
由于无人机干扰的移动,干扰信号到达角在时间上的变化具有相关性和连续性,因此构建具有时间、空间二维信息的动态空间谱图,即Sk=[sk,sk-1,…,sk-L+2,sk-L+1]T,其中Sk为维度为L×S的动态空间谱矩阵,S角度分辨率,k为第k个时隙,Sk包含L个历史时隙的空间谱信息;随着无人机的飞行和接收端的感知与估计,动态空间谱矩阵进行持续动态地更新,记录新估计的角度信息,去除超过L个时隙的历史信息。
6.一种基于权利要求1-5任一项所述的基于多天线抗干扰通信模型的动态空间谱抗干扰方法,其特征在于,包括以下步骤:
步骤1,初始化:以随机权重构建深度强化学习神经网络Q,记其权重为φ,通过完全复制的方式构建与网络Q完全相同的目标网络
Figure FDA0002626105840000042
记其权重为
Figure FDA0002626105840000043
假设干扰信号到达角θj,r∈(0°,180°]出现的集合为Θ(如Θ={0°,1°,…,180°}),利用公式(1)、(7)、(8),对所有的θj,r∈Θ生成动作集
Figure FDA0002626105840000044
其中fx为对应干扰到达角求得的干扰滤波向量,生成容量为M的经验池
Figure FDA0002626105840000045
步骤2,依据以下准则选择一个动作ak:当迭代次数小于随机探索次数门限M,随机选择动作集中的动作;当迭代次数大于M小于训练次数门限,以概率0≤ε≤1随机选择一个动作
Figure FDA0002626105840000046
概率1-ε以贪婪准则选择Q值最大的动作ak=argmaxaQ(Sk,a;φ);当迭代次数大于训练次数门限,以贪婪准则选择Q值最大的动作;
步骤3,接收机感知当前空间谱信息sk+1,用动作ak作为接收波束成形向量接收信号,即f=ak带入到公式(5)中,获得通信吞吐量作为回报值rk
步骤4,更新动态空间谱状态Sk+1=(sk+1,Sk),将经验存入经验池
Figure FDA0002626105840000047
中;
步骤5,判断训练次数是否小于训练门限:如果小于则从经验池
Figure FDA0002626105840000048
中随机批量采样经验,通过最小化损失函数Lkk)来更新网络Q的权重φ,且每隔C次迭代将网络Q的权重复制给目标网络
Figure FDA0002626105840000051
更新概率ε=max(0.01,ε-Δε),其中Δε为步长;如果大于则步骤2,进行步骤2~6循环迭代,直到达到最大循环数,结束算法。
7.根据权利要求6所述的动态空间谱抗干扰方法,其特征在于,上述步骤1中所述的以不同的干扰信号到达角θj,r∈(0°,180°]生成动作集
Figure FDA0002626105840000052
具体如下:假设干扰信号到达角从0°到180°,每隔δ°生成一个接收波束成形向量作为动作。
8.根据权利要求6所述的基于深度强化学习的动态空间谱抗干扰方法,步骤2中所述的以贪婪准则选择Q值最大的动作,具体如下:
深度强化学习神经网络Q是用来拟合Q值函数的,该函数的输入为当前获取的环境状态,输出为在当前状态下对每个动作的评价,即每个动作的长期累积折扣回报值(Q值),拟合的Q函数表示如下:
Figure FDA0002626105840000053
其中γ为折扣因子。
9.根据权利要求6所述的基于深度强化学习的动态空间谱抗干扰方法,步骤4中所述的将经验存入经验池
Figure FDA0002626105840000054
中,具体如下:
一个经验定义为一个四元组,包括当前环境状态Sk、所做动作ak、获得的回报值rk和更新后的环境状态Sk+1,即将k时刻获得的信息(Sk,ak,rk,Sk+1)定义为一个经验;每次做一次决策,所获得的一个经验存储到经验池中,若经验池存储的经验数量已经达到容量值M,则将存储时间超过M的经验删除而存储新的经验。
10.根据权利要求6所述的基于深度强化学习的动态空间谱抗干扰方法,步骤5中所述的从经验池
Figure FDA0002626105840000055
中随机批量采样经验,通过最小化估计Q值与目标Q值的距离来训练网络Q的权重φ,具体如下:
训练时,采用经验值回放机制,随机选取一定数量的经验组成一组训练数据;第k次迭代时,估计Q值与目标Q值的距离即损失函数表示如下:
Figure FDA0002626105840000056
其中
Figure FDA0002626105840000057
为随机选取的存储在经验池中的多个经验,Q(Sk,ak;φk)表示第k次迭代神经网络权重为φk时的Q值,为Q网络的输出,目标Q值yk
Figure FDA0002626105840000058
其中
Figure FDA0002626105840000061
为目标网络
Figure FDA0002626105840000062
的输出;
目标是使估计Q值与目标Q值的距离最小,通过对公式(11)进行梯度下降算法,可得参数φk的梯度表示如下:
Figure FDA0002626105840000063
其中
Figure FDA0002626105840000064
为梯度运算符。
CN202010797220.7A 2020-08-10 2020-08-10 基于多天线抗干扰通信模型的系统及动态空间谱抗干扰方法 Active CN111917508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010797220.7A CN111917508B (zh) 2020-08-10 2020-08-10 基于多天线抗干扰通信模型的系统及动态空间谱抗干扰方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010797220.7A CN111917508B (zh) 2020-08-10 2020-08-10 基于多天线抗干扰通信模型的系统及动态空间谱抗干扰方法

Publications (2)

Publication Number Publication Date
CN111917508A true CN111917508A (zh) 2020-11-10
CN111917508B CN111917508B (zh) 2023-05-16

Family

ID=73283623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010797220.7A Active CN111917508B (zh) 2020-08-10 2020-08-10 基于多天线抗干扰通信模型的系统及动态空间谱抗干扰方法

Country Status (1)

Country Link
CN (1) CN111917508B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112616158A (zh) * 2020-12-14 2021-04-06 中国人民解放军空军工程大学 一种认知通信干扰决策方法
CN113507342A (zh) * 2021-08-13 2021-10-15 华侨大学 一种基于深度强化学习的无人机中继抗干扰方法
CN113708886A (zh) * 2021-08-25 2021-11-26 中国人民解放军陆军工程大学 无人机抗干扰通信系统及联合轨迹与波束成形优化方法
CN113055107B (zh) * 2021-02-23 2021-11-30 电子科技大学 一种针对具有未知通信模式电台的干扰策略生成方法
CN114157345A (zh) * 2022-02-08 2022-03-08 南京信息工程大学 一种基于数据辅助的无人机集群协同空域抗干扰方法
CN114900897A (zh) * 2022-05-17 2022-08-12 中国人民解放军国防科技大学 多波束卫星资源分配方法及系统
RU2786043C1 (ru) * 2021-12-20 2022-12-16 Федеральное государственное казенное военное образовательное учреждение высшего образования "Санкт-Петербургский военный ордена Жукова институт войск национальной гвардии Российской Федерации" Способ разнесенной передачи
CN116938336A (zh) * 2023-09-18 2023-10-24 中国科学院长春光学精密机械与物理研究所 多天线激光通信系统的信号合并方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN210835734U (zh) * 2019-12-11 2020-06-23 广西大学 无人机搜救系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN210835734U (zh) * 2019-12-11 2020-06-23 广西大学 无人机搜救系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S. LIU ET AL.: "Pattern-Aware Intelligent Anti-Jamming Communication: A Sequential Deep Reinforcement Learning Approach", 《IN IEEE ACCESS, VOL. 7, PP. 169204-169216, 2019》 *
江虹等: "基于强化学习的频谱决策与传输算法", 《系统仿真学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112616158B (zh) * 2020-12-14 2023-09-05 中国人民解放军空军工程大学 一种认知通信干扰决策方法
CN112616158A (zh) * 2020-12-14 2021-04-06 中国人民解放军空军工程大学 一种认知通信干扰决策方法
CN113055107B (zh) * 2021-02-23 2021-11-30 电子科技大学 一种针对具有未知通信模式电台的干扰策略生成方法
CN113507342B (zh) * 2021-08-13 2023-06-02 华侨大学 一种基于深度强化学习的无人机中继抗干扰方法
CN113507342A (zh) * 2021-08-13 2021-10-15 华侨大学 一种基于深度强化学习的无人机中继抗干扰方法
CN113708886A (zh) * 2021-08-25 2021-11-26 中国人民解放军陆军工程大学 无人机抗干扰通信系统及联合轨迹与波束成形优化方法
RU2786043C1 (ru) * 2021-12-20 2022-12-16 Федеральное государственное казенное военное образовательное учреждение высшего образования "Санкт-Петербургский военный ордена Жукова институт войск национальной гвардии Российской Федерации" Способ разнесенной передачи
CN114157345A (zh) * 2022-02-08 2022-03-08 南京信息工程大学 一种基于数据辅助的无人机集群协同空域抗干扰方法
CN114157345B (zh) * 2022-02-08 2022-05-06 南京信息工程大学 一种基于数据辅助的无人机集群协同空域抗干扰方法
CN114900897A (zh) * 2022-05-17 2022-08-12 中国人民解放军国防科技大学 多波束卫星资源分配方法及系统
CN114900897B (zh) * 2022-05-17 2023-04-07 中国人民解放军国防科技大学 多波束卫星资源分配方法及系统
CN116938336A (zh) * 2023-09-18 2023-10-24 中国科学院长春光学精密机械与物理研究所 多天线激光通信系统的信号合并方法
CN116938336B (zh) * 2023-09-18 2023-12-19 中国科学院长春光学精密机械与物理研究所 多天线激光通信系统的信号合并方法

Also Published As

Publication number Publication date
CN111917508B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN111917508B (zh) 基于多天线抗干扰通信模型的系统及动态空间谱抗干扰方法
Arnold et al. Enabling FDD massive MIMO through deep learning-based channel prediction
CN113162679A (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN107947840B (zh) 基于毫米波大规模mimo的时间反演抗干扰方法
CN111865378B (zh) 基于深度学习的大规模mimo下行预编码方法
CN109379122B (zh) 一种毫米波通信多径信道动态波束训练方法
CN111262803B (zh) 一种基于深度学习的物理层安全通信方法、装置及系统
US8369438B2 (en) Iterative tree search-based precoding technique for multiuser MIMO communication system
CN109617590B (zh) 多输入单输出无线携能通信系统的物理层安全通信方法
US11005540B2 (en) Method and system for multiple input, multiple output communications in millimeter wave networks
JP2022537979A (ja) 機械学習支援プリコーディングのためのデバイス及び方法
Safari et al. Deep UL2DL: Data-driven channel knowledge transfer from uplink to downlink
Wang et al. Robust adaptive array for wireless communications
Safari et al. Deep UL2DL: Channel knowledge transfer from uplink to downlink
CN114285444A (zh) 一种去蜂窝大规模mimo系统的功率优化方法
CN114157345B (zh) 一种基于数据辅助的无人机集群协同空域抗干扰方法
CN116508269B (zh) 无线电信网络
US20230412430A1 (en) Inforamtion reporting method and apparatus, first device, and second device
CN117220740A (zh) 一种非合作场景下通信与干扰一体化系统波束形成方法
Nandi et al. Avenues to improve channel estimation using optimized CP in STBC coded MIMO-OFDM systems—a global optimization approach
CN113437999B (zh) 一种抑制毫米波通信系统中波束漂移效应的自适应波束宽度调制方法
Li et al. Piecewise-DRL: Joint Beamforming Optimization for RIS-assisted MU-MISO Communication System
Zhou et al. Optimal pilot design for MIMO broadcasting systems based on the positive definite matrix manifold
CN109379308A (zh) 一种基于稀疏感知的自适应空时均衡方法
Taiwo et al. Adaptive beamforming for multiple-access millimeter wave communications: invited presentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant