CN111917508A

CN111917508A - 基于多天线抗干扰通信模型及动态空间谱抗干扰方法

Info

Publication number: CN111917508A
Application number: CN202010797220.7A
Authority: CN
Inventors: 徐煜华; 汪西明; 刘典雄; 徐逸凡; 杨晓琴
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-11-10
Anticipated expiration: 2040-08-10
Also published as: CN111917508B

Abstract

本发明公开了一种基于多天线抗干扰通信模型及动态空间谱抗干扰方法，考虑一对具有多天线的发射端和接收端的用户进行通信，一个无人机干扰对用户通信进行干扰，将接收端获取的具有无人机干扰信号到达方向角信息的空间谱图作为学习的状态输入，获取无人机干扰的空间运动特征，并准确地对干扰信号进行消除。算法为：用户通过感知获得干扰信号的到达方向角，并构建空间谱图；根据空间谱图，深度强化学习中的深度神经网络拟合得到对应的Q值函数并输出每个动作的Q值；根据Q值，用户依概率进行信号消除方向的决策，根据该决策的回报值和下一步环境状态对深度神经网络进行训练并更新网络权重，优化决策策略；当达到最大循环次数时，算法结束。

Description

基于多天线抗干扰通信模型及动态空间谱抗干扰方法

技术领域

本发明属于无线通信抗干扰技术领域，包括一种基于多天线抗干扰通信模型和一种基于深度强化学习的动态空间谱抗干扰方法。

背景技术

利用天线增益与分集增益，多输入多输出(MIMO)通信在信道状态信息已知的前提之下可以有效地抑制干扰信号。随着无人机应用的普及，高机动性的无人机干扰可以在短时间内压制大片区域，对军用和民用无线通信造成严重威胁。然而传统的MIMO抗干扰通信方法大多针对静态干扰。由于无人机干扰的高速移动与信号处理的时延，造成估计的干扰信道的状态信息过时，此时传统的MIMO抗干扰通信方法无法适用。因此，迫切需要研究对抗高机动干扰机的通信方法。

人工智能中强化学习方法(参考文献：C.J.Watkins and P.Dayan,“Q-learning,”Machine learning,vol.8,no.3-4,pp.279–292,1992)可以在动态未知的环境中学习环境变化规律，获取最优的决策策略。通过强化学习方法，在无人机飞行特性(如轨迹、速度、高度等)先验信息未知的前提下，学习干扰信号到达角的变化规律，将是一种可行的方案。然而，由于不同的无人机飞行特性将导致不同的干扰信号变化规律，巨大的状态空间将使得强化学习无法收敛。

针对以上问题，本发明创新性地利用深度强化学习算法解决干扰机快速移动场景下的MIMO抗干扰通信。利用深度学习强大的函数拟合能力对巨大状态空间进行特征提取和泛化，通过强化学习在动态未知的环境中获取最优抗干扰策略，有效提升MIMO通信对抗移动干扰的能力。

发明内容

本发明的目的在于提供一种基于多天线抗干扰通信模型和一种基于深度强化学习的动态空间谱抗干扰方法，很好地刻画了面向移动干扰的MIMO抗干扰通信场景。

实现本发明目的的技术解决方案为：一种基于多天线抗干扰通信模型，对该模型做如下刻画：一种基于多天线抗干扰通信模型，其特征在于，对该模型做如下刻画：一个天线数为N_t的发射端和一个天线数为N_r接收端的用户进行通信，一个天线数为N_t的无人机干扰对用户通信进行干扰；在动态未知环境中，将接收端获取的具有无人机干扰信号到达方向角信息的动态空间谱图作为学习算法的输入状态，获取无人机干扰的空间运动特征，并基于抗干扰波束成形方法准确地对干扰信号进行消除。

在用户发射端与干扰机同时发送信号时用户接收端的信干噪比SINR表示为：

公式中(9)中，

为对随机变量求期望，P_t和P_j分别为发射端和干扰机的发送功率，f为接收端的接收波束成形向量(滤波)，H_t,r和H_j,r分别表示表示发射端到接收端的信道系数矩阵，w_t和w_j分别为发送机和干扰机的发送波束成形向量(预编码)，s_t和s_t分别为用户和干扰发送的符号，n表示加性高斯白噪声矢量，其元素服从独立同分布的均值为0、方差为

的复高斯分布，I代表单位对角阵。

此外，用λ表示成功解调信号所需要的SINR门限，定义传输速率r如公式(10)所示：

用户接收端通过感知干扰信号并估计干扰加噪声的自相关矩阵，根据估计出的自相关矩阵获得最优的抗干扰波束成形方法。令

根据公式(9)可知接收到的干扰加噪声的功率为f^HR_jf。对于抗干扰通信而言，用户的优化目标如公式(11)所示：

其中

为接收端天线阵列响应矢量，θ_t,r为发送端发射的信号到接收端的信号到达角，Δ_r为接收端天线之间的间隔。公式(11)的目标为设计最优的抗干扰接收波束成形向量，使得在保证接收到的有用信号功率一定的条件下，最小化接收到的干扰信号。

当用户发送端不发射信号时，接收端接收到的干扰与噪声叠加的信号为y_j＝H_j, _rw_js_j+n，那么干扰噪声叠加信号的自相关矩阵为

通过对接收到的信号进行快拍采样，可以得到估计的自相关矩阵为

其中K为快拍数。利用拉格朗日乘数法，可以对公式(11)进行求解，求得最优的抗干扰接收波束成形向量为如公式(12)所示：

接收端的波束成形向量确定之后，发送端的发送波束成形向量则由最大比传输方案获得，即

进一步地，针对无人机干扰的高速运动导致干扰到达用户接收端的信号到达角快速变化的问题，进行了“感知-传输-学习-决策”的通信时隙一体化设计。用户通信以时隙的方式实施，一个通信时隙划分成四个阶段：感知、传输数据、学习、ACK传输。感知阶段，用户发射端保持沉默，接收端通过感知干扰信号来估计干扰加噪声的自相关矩阵。传输数据阶段，发射端向接收端发送数据，接收端利用上一时隙决策的抗干扰接收波束成形向量接收信号。学习阶段，接收端运行抗干扰方法并产生下一时刻接收端的抗干扰接收波束成形向量。ACK传输阶段，接收端向发送端发送信号是否成功接收的确认信息，并携带接收端的决策信息，以供发送端生成发送波束成形向量。

进一步地，构建具有无人机干扰信号到达方向角信息的动态空间谱图。对于估计出的信号加噪声自相关矩阵

利用特征值分解可以将该自相关矩阵表示为

其中

和

分别表示估计的干扰信号子空间和噪声子空间，Λ_j为干扰信号的特征值对角矩阵。由此，估计干扰信号到达角的方法如公式(13)所示：

其中s(θ_j,r)为当前时刻的干扰信号空间谱函数，该函数最大值对应的角度即为估计的信号到达角。

由于无人机干扰的移动，干扰信号到达角在时间上的变化具有相关性和连续性，因此构建具有时间、空间二维信息的动态空间谱图，即S_k＝[s_k,s_k-1,…,s_k-L+2,s_k-L+1]^T，其中S_k为维度为L×S的动态空间谱矩阵，S角度分辨率，k为第k个时隙，S_k包含L个历史时隙的空间谱信息。随着无人机的飞行和接收端的感知与估计，动态空间谱矩阵进行持续动态地更新，记录新估计的角度信息，去除超过L个时隙的历史信息。

一种基于深度强化学习的动态空间谱抗干扰方法，其特征在于，包括以下步骤：

步骤1，初始化：以随机权重φ构建深度强化学习神经网络Q，构建与网络Q完全相同的目标网络

权重为

利用公式(12)，以不同的θ_j,r∈(0°,180°]生成动作集

生成容量为M的经验池

步骤2，依据以下准则选择一个动作a_k：当迭代次数小于随机探索次数门限M，随机选择动作集中的动作；当迭代次数大于M小于训练次数门限，以概率0≤ε≤1随机选择一个动作

概率1_-ε以贪婪准则选择Q值最大的动作a_k＝argmax_aQ(S_k,a；φ)；当迭代次数大于训练次数门限，以贪婪准则选择Q值最大的动作。

步骤3，接收机感知当前空间谱信息s_k+1，用动作a_k作为接收波束成形向量接收信号，获得回报值r_k，即公式(10)所示的通信吞吐量。

步骤4，更新动态空间谱状态S_k+1＝(s_k+1,S_k)，将经验存入经验池

中。

步骤5，判断训练次数是否小于训练门限：如果小于则从经验池

中随机批量采样经验，通过最小化估计Q值与目标Q值的距离来训练网络Q的权重φ，且每C次迭代将网络Q的权重复制给目标网络

更新概率ε＝max(0.01,ε-Δε)，其中Δε为步长；如果大于则步骤2，进行步骤2～6循环迭代，直到达到最大循环数，结束算法。

进一步地，步骤1中所述的以不同的θ_j,r∈(0°,180°]生成动作集

具体如下：假设干扰信号到达角从0°到180°，每隔δ°生成一个接收波束成形向量作为动作。

进一步地，步骤2中所述的以贪婪准则选择Q值最大的动作，具体为深度强化学习神经网络Q是用来拟合Q值函数的，该函数的输入为当前获取的环境状态，输出为在当前状态下对每个动作的评价，即每个动作的长期累积折扣回报值(Q值)，拟合的Q函数表示如下：

其中γ为折扣因子。

进一步地，步骤4中所述的将经验存入经验池

中的具体方法为：定义一个经验为一个四元组，包括当前环境状态S_k、所做动作a_k、获得的回报值r_k和更新后的环境状态S_k+1，即将k时刻获得的信息(S_k,a_k,r_k,S_k+1)定义为一个经验。每次做一次决策，所获得的一个经验存储到经验池中，若经验池存储的经验数量已经达到容量值M，则将存储时间超过M的经验删除而存储新的经验。

进一步地，步骤5中所述的从经验池

中随机批量采样经验，通过最小化估计Q值与目标Q值的距离来训练网络Q的权重φ，具体的方法为：训练时，采用经验值回放机制，随机选取一定数量的经验组成一组训练数据

第k次迭代时，估计Q值与目标Q值的距离表示如下：

其中Q(S_k,a_k；φ_k)表示第k次迭代神经网络权重为φ_k时的Q值，为Q网络的输出，

为目标Q值，其中

为目标网络

的输出。

目标是使估计Q值与目标Q值的距离最小，通过对公式(15)进行梯度下降算法，可得参数φ_k的梯度表示如下：

其中

为梯度运算符。

本发明与现有技术相比，其显著优点在于：(1)创新深度强化学习在MIMO抗干扰通信中的应用，解决传统MIMO抗干扰通信方法无法应对移动干扰的不足；(2)模型完备，物理意义清晰，提出的基于深度强化学习的动态空间谱抗干扰方法，实现对提出模型的有效求解，求出MIMO通信的抗干扰波束成形策略；(3)能够有效地应对移动干扰，并很好地刻画基于深度强化学习算法的抗干扰场景。

附图说明

图1是本发明多天线抗干扰通信系统模型图。

图2是本发明中深度强化学习神经网络模型图。

图3是本发明中基于深度强化学习的动态空间谱抗干扰通信时隙结构图。

图4是本发明实施例1中平均通信速率随着迭代次数变化的仿真图。

图5是本发明实施例2中神经网络输出的平均Q值随着迭代次数变化的仿真图。

具体实施方式

本发明所提出的基于多天线抗干扰通信模型和基于深度强化学习的动态空间谱抗干扰方法，旨在提供方案以解决移动干扰下的MIMO抗干扰通信问题。本发明提出的基于深度强化学习的动态空间谱抗干扰方法，将接收机感知得到的的动态空间谱图作为算法的输入，采用深度强化学习神经网络提取动态空间谱特征，获取干扰信号到达角变化规律，对策略函数即Q值函数进行拟合；接着，通过相应的决策算法，更新接收机的接收波束成形选择策略。

图1是多天线抗干扰通信系统模型。该模型中，一个发射机向一个接收机发送数据，一个正在飞行的无人机干扰发送干扰信号阻碍通信。

图2是深度强化学习神经网络模型。深度强化学习神经网络采用卷积神经网络框架，输入为动态空间谱图，通过两层卷积层提取动态空间谱图特征并降低图维度、两层全连接层拟合Q值函数，然后通过相应的决策算法输出当前空间谱状态下最优的抗干扰波束成形决策。

图3是基于深度强化学习的动态空间谱抗干扰通信时隙结构图。用户通信以时隙的方式实施，一个通信时隙划分成四个阶段：感知、传输数据、学习、ACK传输。感知阶段，用户发射端保持沉默，接收端通过感知干扰信号来估计干扰加噪声的自相关矩阵。传输数据阶段，发射端向接收端发送数据，接收端利用上一时隙决策的抗干扰接收波束成形向量接收信号。学习阶段，接收端运行抗干扰方法并产生下一时刻接收端的抗干扰接收波束成形向量。ACK传输阶段，接收端向发送端发送信号是否成功接收的确认信息，并携带接收端的决策信息，以供发送端生成发送波束成形向量。

公式中(17)中，

的复高斯分布，I代表单位对角阵。

此外，用λ表示成功解调信号所需要的SINR门限，定义传输速率r如公式(18)所示：

根据公式(17)可知接收到的干扰加噪声的功率为f^HR_jf。对于抗干扰通信而言，用户的优化目标如公式(19)所示：

其中

为接收端天线阵列响应矢量，θ_t,r为发送端发射的信号到接收端的信号到达角，Δ_r为接收端天线之间的间隔。公式(19)的目标为设计最优的抗干扰接收波束成形向量，使得在保证接收到的有用信号功率一定的条件下，最小化接收到的干扰信号。

其中K为快拍数。利用拉格朗日乘数法，可以对公式(19)进行求解，求得最优的抗干扰接收波束成形向量为如公式(20)所示：

利用特征值分解可以将该自相关矩阵表示为

其中

和

分别表示估计的干扰信号子空间和噪声子空间，Λ_j为干扰信号的特征值对角矩阵。由此，估计干扰信号到达角的方法如公式(21)所示：

权重为

利用公式(20)，以不同的θ_j,r∈(0°,180°]生成动作集

生成容量为M的经验池

概率1-ε以贪婪准则选择Q值最大的动作a_k＝argmax_aQ(S_k,a；φ)；当迭代次数大于训练次数门限，以贪婪准则选择Q值最大的动作。

步骤3，接收机感知当前空间谱信息s_k+1，用动作a_k作为接收波束成形向量接收信号，获得回报值r_k，即公式(18)所示的通信吞吐量。

中。

其中γ为折扣因子。

进一步地，步骤4中所述的将经验存入经验池

进一步地，步骤5中所述的从经验池

第k次迭代时，估计Q值与目标Q值的距离表示如下：

为目标Q值，其中

为目标网络

的输出。

目标是使估计Q值与目标Q值的距离最小，通过对公式(23)进行梯度下降算法，可得参数φ_k的梯度表示如下：

其中

为梯度运算符。

实施例1

本发明的第一个实施例具体描述如下，系统仿真采用Python语言，基于TensorFlow的深度学习框架，参数设定不影响一般性。该实施例验证所提模型与算法的有效性，参数设置为，无人机飞行高度30米，速度为50米每秒，发射机发送的有用信号到接收机的到达角θ_t,r固定为30度，无人机干扰和发射机的发射功率分别为20dB和10dB，噪声的方差为1，解调门限为λ＝5dB，另发射机、接收机和干扰的天线数相等。在一个通信时隙中，T_S、T_D、T_L和T_ACK分别设置为0.03秒、0.05秒、0.01秒和0.01秒。算法的折扣因子γ＝0.8，动作数为

状态S_k的维度为10×180其中历史长度L＝10，经验池

的容量M＝5000。总迭代次数为1.5×10⁵，其中前5000次为随机探索动作，最后55000次为贪婪选择动作，中间的90000次为训练神经网络。目标网络的权重每C＝100次进行更新。

图4是本发明实施例1中在不同的天线数下平均通信速率随着迭代次数变化的仿真图，从图中可以看出，在算法的初始阶段接收机随机探索波束成形向量，积累经验。随着迭代次数的增加，接收机选择获得高回报动作的概率逐渐增加，通信速率也因此上升，直到训练阶段结束，算法趋于收敛，接收机获得稳定的抗干扰波束成形策略。同时，随着天线数的增加，抗干扰性能也提高。该仿真图验证了算法抗干扰的有效性。

实施例2

本发明的第二个实施例具体描述如下，系统仿真采用Python语言，基于TensorFlow的深度学习框架，参数设定不影响一般性。该实施例验证所提模型与算法的有效性，参数设置为，无人机飞行高度30米，速度为50米每秒，发射机发送的有用信号到接收机的到达角θ_t,r固定为30度，无人机干扰和发射机的发射功率分别为20dB和10dB，噪声的方差为1，解调门限为λ＝5dB，另发射机、接收机和干扰的天线数相等。在一个通信时隙中，T_S、T_D、T_L和T_ACK分别设置为0.03秒、0.05秒、0.01秒和0.01秒。算法的折扣因子γ＝0.8，动作数为

状态S_k的维度为10×180其中历史长度L＝10，经验池

图5是本发明实施例2中神经网络输出的平均Q值随着迭代次数变化的仿真图，随着迭代次数的增加，神经网络的训练使得其拟合的函数逐渐趋近于最优的Q值函数，最终拟合函数的过程收敛。该仿真图验证了算法的收敛性。

综上所述，本发明提出的基于多天线抗干扰通信模型充分考虑了MIMO通信中干扰的移动性、通信环境的动态未知性和状态空间的复杂性等问题，比传统的MIMO抗干扰通信模型更有实际意义；提出的基于深度强化学习的动态空间谱抗干扰方法，能够实现对提出模型的有效求解，求出接收机的抗干扰波束成形向量选择策略，有效地应对高机动性的干扰。

Claims

1.一种基于多天线抗干扰通信模型，其特征在于：对该模型做如下刻画：一个天线数为N_t的发射端和一个天线数为N_r接收端的用户进行通信，一个天线数为N_t的无人机干扰对用户通信进行干扰；在动态未知环境中，将接收端获取的具有无人机干扰信号到达方向角信息的动态空间谱图作为学习算法的输入状态，获取无人机干扰的空间运动特征，并基于抗干扰波束成形方法准确地对干扰信号进行消除。

2.根据权利要求1所述的基于多天线抗干扰通信模型，其特征在于，考虑用物理信道模型描述多天线信号传输，令

和θ_a,b分别表示信号从a节点到b节点的信号离去角和信号到达角，μ_a,b为信号传播的路径损耗，则a节点到b节点之间的信道H_a,b如公式(1)所示：

其中d_a,b为发送天线到接收天线之间的距离，λ_c为载波波长，e_b(θ_a,b)和

分别为接收机和发送机的天线阵列响应矢量，

为

的共轭转置，天线阵列响应矢量的表达式如公式(2)所示：

其中j为虚数因子，e为自然常数，Δ_a和Δ_b分别为天线之间的物理间隔，N_a和N_b分别为a节点和b节点的天线数，x^T为对x取转置运算；在信号传输阶段，接收机接收到的信号y如公式(3)所示：

其中P_t和P_j分别为发射端和干扰机的发送功率，H_t,r和H_j,r分别表示表示发射端到接收端的和干扰端到接收端的信道系数矩阵，w_t和w_j分别为发送机和干扰机的发送波束成形向量(预编码)，s_t和s_j分别为用户和干扰发送的符号，其功率满足

其中

为对x求期望，n表示加性高斯白噪声矢量，其元素服从独立同分布的均值为0、方差为

的复高斯分布；

接收机通过接受波束成形向量对信号进行处理，获得接收端的信干噪比SINR如公式(4)所示：

其中，

为对随机变量x求期望，|x|为对x取模运算，x^H表示对x取共轭转置；f为接收端的接收波束成形向量(滤波)，I代表单位对角阵；令

根据公式(4)可知接收到的干扰加噪声的功率为f^HR_jf；定义传输速率r如公式(5)所示：

用λ_th表示成功解调信号所需要的SINR门限。

3.根据权利要求1所述的基于多天线抗干扰通信模型，其特征在于，用户接收端通过感知干扰信号并估计干扰加噪声的自相关矩阵，根据估计出的自相关矩阵获得最优的抗干扰波束成形方法，具体如下：

对于抗干扰通信而言，用户的优化目标如公式(6)所示：

其中

为接收端天线阵列响应矢量，θ_t,r为发送端发射的信号到接收端的信号到达角，Δ_r为接收端天线之间的间隔；公式(6)的目标为设计最优的抗干扰接收波束成形向量，使得在保证接收到的有用信号功率一定的条件下，最小化接收到的干扰信号；

当用户发送端不发射信号时，接收端接收到的干扰与噪声叠加的信号为y_j＝H_j,rw_js_j+n，那么干扰噪声叠加信号的自相关矩阵为

通过对接收到的信号进行快拍采样，得到估计的自相关矩阵

为

其中K为快拍数，k为第k次采样；利用拉格朗日乘数法，对公式(6)进行求解，求得最优的抗干扰接收波束成形向量为如公式(7)所示：

其中e_r(θ_t,r)为接收端天线阵列响应矢量。接收端的波束成形向量确定之后，发送端的发送波束成形向量则由最大比传输方案获得，即如公式(8)所示：

其中||x||为对x进行欧几里得范数运算。

4.根据权利要求1所述的基于多天线抗干扰通信模型，其特征在于，无人机干扰的高速运动导致干扰到达用户接收端的信号到达角快速变化，进行了“感知-传输-学习-决策”的通信时隙一体化设计，具体如下：

用户通信以时隙的方式实施，一个通信时隙划分成四个阶段：感知阶段、传输数据阶段、学习阶段、ACK传输阶段，感知阶段，用户发射端保持沉默，接收端通过感知干扰信号来估计干扰加噪声的自相关矩阵；传输数据阶段，发射端向接收端发送数据，接收端利用上一时隙决策的抗干扰接收波束成形向量接收信号；学习阶段，接收端运行抗干扰方法并产生下一时刻接收端的抗干扰接收波束成形向量；ACK传输阶段，接收端向发送端发送信号是否成功接收的确认信息，并携带接收端的决策信息，以供发送端生成发送波束成形向量。

5.根据权利要求1所述的基于多天线抗干扰通信模型，其特征在于，具有无人机干扰信号到达方向角信息的动态空间谱图包含了一定历史时间长度内干扰信号的到达角度信息，具体构建方法如下：

对于估计出的信号加噪声自相关矩阵

利用特征值分解可以将该自相关矩阵表示为

其中

和

分别表示估计的干扰信号子空间和噪声子空间，Λ_j为干扰信号的特征值对角矩阵。由此，估计干扰信号到达角的方法如公式(9)所示：

其中s(θ_j,r)为当前时刻的干扰信号空间谱函数，该函数最大值对应的角度即为估计的信号到达角；

由于无人机干扰的移动，干扰信号到达角在时间上的变化具有相关性和连续性，因此构建具有时间、空间二维信息的动态空间谱图，即S_k＝[s_k,s_k-1,…,s_k-L+2,s_k-L+1]^T，其中S_k为维度为L×S的动态空间谱矩阵，S角度分辨率，k为第k个时隙，S_k包含L个历史时隙的空间谱信息；随着无人机的飞行和接收端的感知与估计，动态空间谱矩阵进行持续动态地更新，记录新估计的角度信息，去除超过L个时隙的历史信息。

6.一种基于权利要求1-5任一项所述的基于多天线抗干扰通信模型的动态空间谱抗干扰方法，其特征在于，包括以下步骤：

步骤1，初始化：以随机权重构建深度强化学习神经网络Q，记其权重为φ，通过完全复制的方式构建与网络Q完全相同的目标网络

记其权重为

假设干扰信号到达角θ_j,r∈(0°,180°]出现的集合为Θ(如Θ＝{0°,1°,…,180°})，利用公式(1)、(7)、(8)，对所有的θ_j,r∈Θ生成动作集

其中f_x为对应干扰到达角求得的干扰滤波向量，生成容量为M的经验池

概率1-ε以贪婪准则选择Q值最大的动作a_k＝argmax_aQ(S_k,a；φ)；当迭代次数大于训练次数门限，以贪婪准则选择Q值最大的动作；

步骤3，接收机感知当前空间谱信息s_k+1，用动作a_k作为接收波束成形向量接收信号，即f＝a_k带入到公式(5)中，获得通信吞吐量作为回报值r_k；

中；

中随机批量采样经验，通过最小化损失函数L_k(φ_k)来更新网络Q的权重φ，且每隔C次迭代将网络Q的权重复制给目标网络

7.根据权利要求6所述的动态空间谱抗干扰方法，其特征在于，上述步骤1中所述的以不同的干扰信号到达角θ_j,r∈(0°,180°]生成动作集

8.根据权利要求6所述的基于深度强化学习的动态空间谱抗干扰方法，步骤2中所述的以贪婪准则选择Q值最大的动作，具体如下：

深度强化学习神经网络Q是用来拟合Q值函数的，该函数的输入为当前获取的环境状态，输出为在当前状态下对每个动作的评价，即每个动作的长期累积折扣回报值(Q值)，拟合的Q函数表示如下：

其中γ为折扣因子。

9.根据权利要求6所述的基于深度强化学习的动态空间谱抗干扰方法，步骤4中所述的将经验存入经验池

中，具体如下：

一个经验定义为一个四元组，包括当前环境状态S_k、所做动作a_k、获得的回报值r_k和更新后的环境状态S_k+1，即将k时刻获得的信息(S_k,a_k,r_k,S_k+1)定义为一个经验；每次做一次决策，所获得的一个经验存储到经验池中，若经验池存储的经验数量已经达到容量值M，则将存储时间超过M的经验删除而存储新的经验。

10.根据权利要求6所述的基于深度强化学习的动态空间谱抗干扰方法，步骤5中所述的从经验池