CN113938897B

CN113938897B - 一种主用户友好的抗干扰动态频谱接入方法

Info

Publication number: CN113938897B
Application number: CN202111157778.XA
Authority: CN
Inventors: 徐煜华; 韩昊; 徐逸凡; 李文; 陈学强; 方贵
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-09-19
Anticipated expiration: 2041-09-30
Also published as: CN113938897A

Abstract

本发明公开了一种认知无线网络中主用户友好的抗干扰动态频谱接入方法。考虑一个认知无线网络，该网络内部有一个主用户、一个次级用户通信对和一个干扰机。在动态未知的干扰环境中，次用户利用基于深度强化学习的信道选择网络挖掘干扰规律，学习最优信道选择策略；为避免学习过程中对主用户产生干扰，引入了离线训练、在线接入的框架，设计了基于生成对抗网络的虚拟环境离线训练信道选择网络，待信道选择网络训练完毕次用户再真实接入频谱，保证次用户能够完美避开主用户信号和干扰，获得最大的通信吞吐量。本发明模型完备，物理意义清晰，算法设计合理有效，能够很好地刻画认知无线网络中次用户抗干扰动态频谱接入场景。

Description

一种主用户友好的抗干扰动态频谱接入方法

技术领域

本发明属于无线通信技术领域，特别是一种认知无线网络中主用户友好的抗干扰动态频谱接入模型及方法。

背景技术

认知无线电被认为是解决频谱资源短缺、提高频谱利用率的有力工具。然而，由于无线通信信道开放、易受恶意攻击，导致认知无线网络的频谱利用率严重下降。因此，认知无线网络的抗干扰通信能力越来越受到广泛关注。

现有研究中，有相关研究(参考文献，D.-T.Ta,N.Nguyen-Thanh,P.Maill′e,andV.-T.Nguyen,“Strategic surveillance against primary user emulation attacksin cognitive radio networks,”IEEE Transactions on Cognitive Communicationsand Networking,vol.4,no.3,pp.582–596,2018.)考虑了主用户模仿攻击，提出了基于Stackelberg博弈的监督机制。有相关研究(参考文献，I.K.Ahmed andA.O.Fapojuwo,"Stackelberg Equilibria of an Anti-Jamming Game in Cooperative Cognitive RadioNetworks,"IEEE Transactions on Cognitive Communications and Networking,vol.4,no.1,pp.121-134,March 2018.)提出了基于Stackelberg博弈的干扰攻击防御策略。然而现有研究大多集中于主用户模拟攻击，对无差别干扰攻击考虑较少。

近来，深度强化学习逐渐被应用于抗干扰领域并取得极佳效果(参考文献，L.Xiao,X.Lu,T.Xu,X.Wan,W.Ji,andY.Zhang,“Reinforcement learning-based mobileoffloading for edge computing against jamming and interference,”IEEETransactions on Communications,vol.68,no.10,pp.6114–6126,2020.)。然而，深度强化学习试错学习的机制导致次用户不可避免会对主用户产生干扰，这在认知无线网络中是不可忍受的。

发明内容

本发明的目的在于提供一种认知无线网络中主用户友好的抗干扰动态频谱接入模型及方法，保证次用户在不与主用户产生互扰的同时躲避恶意干扰攻击，获得最大的通信吞吐量。

一种认知无线网络中主用户友好的抗干扰动态频谱接入方法，包括以下步骤：

初始化：生成网络和判别网络的参数θ_G和θ_D，行动者、评论家和目标网络的参数φ_A、φ_C和φ_T，温度系数α。

步骤1，收集瀑布图，并按时间先后顺序存储；

步骤2，随机选择一批瀑布图，训练判别网络区分真实瀑布图X_n+1与生成瀑布图G(X_n-Ω:n)，更新d次判别网络参数θ_D；

步骤3，随机选择一批瀑布图，训练生成网络根据历史时刻的瀑布图X_n-Ω:n生成下一时刻的瀑布图G(X_n-Ω:n)，更新1次生成网络参数θ_G；

循环执行步骤2～3，直至生成网络达到收敛状态，判别网络无法区分真实瀑布图X_n+1与生成的瀑布图G(X_n-Ω:n)，将训练好的生成网络作为虚拟频谱环境生成虚拟频谱状态；

步骤4，行动者根据当前虚拟状态S_t选择虚拟通信信道

步骤5，虚拟环境根据S_t生成下一时刻瀑布图G(S_t)，通过拼接S_t和G(S_t)获得下一虚拟状态S_t+1；

步骤6，通过检测与S_t+1中的主用户和干扰占用的信道是否冲突确定虚拟回报/>

步骤7，将经验存储至经验池，待经验池内经验数量超过最低数量要求，定期训练。随机选择一批经验，训练行动者学习最优的信道选择策略，更新行动者参数φ_A；训练评论家输出准确的状态价值函数，更新评论家参数φ_C；更新目标网络参数φ_T和温度系数α；

循环执行步骤4～7，直至行动者学习到最优的信道选择策略，训练好的行动者作为信道选择网络指导次用户真实地接入无线频谱，可以保证次用户在不与主用户产生互扰的同时躲避恶意干扰攻击。

实现本发明目的的技术解决方案为：在动态未知的干扰环境中，次用户利用基于深度强化学习的信道选择网络挖掘干扰规律，学习最优信道选择策略；为避免学习过程中对主用户产生干扰，引入了离线训练、在线接入的框架，设计了基于生成对抗网络的虚拟环境离线训练信道选择网络，待信道选择网络训练完毕次用户再真实接入频谱。首先，收集一定量的频谱瀑布图并按照时间先后顺序存储；其次，利用收集的瀑布图训练生成对抗网络基于历史瀑布图序列生成下一时刻的瀑布图，训练完毕的生成网络即为虚拟环境；然后，利用虚拟环境离线训练信道决策网络学习最优的信道选择策略；最后，在训练好的信道决策网络的指导下，次用户真实地接入频谱进行通信，能够完美避开主用户信号和干扰，获得最大的通信吞吐量。

本发明与现有技术相比，其显著优点在于：(1)设计了一种主用户友好的抗干扰频谱接入方案，能够在不影响主用户的前提下，完美躲避外界恶意干扰，进行机会频谱接入；(2)设计了基于生成对抗网络的虚拟频谱环境，通过离线训练、在线部署的方式能够加速信道选择网络的收敛过程。

附图说明

图1是本发明中主用户友好的抗干扰动态频谱接入模型的系统模型图。

图2是本发明中主用户友好的抗干扰动态频谱接入方法的架构图。

图3是本发明中所设计的生成对抗网络的网络结构图。

图4是本发明实例中对抗扫频干扰的频谱瀑布图。

图5是本发明实例中在扫频干扰下不同接入方案的归一化平均吞吐量对比图。

图6是本发明实例中在扫频干扰下不同接入方案对主用户的累积干扰次数对比图。

具体实施方式

图1所示为次用户抗干扰动态频谱接入系统模型图。在图1中，有一个主用户、一个次级用户通信对和一个干扰机。用户信道集中存在k个可用信道，并且用户的通信过程被划分为时隙。干扰机释放模式化的干扰信号阻塞用户通信。主用户基于频谱感知结果选择离当前干扰信道最远的信道进行通信。次用户接收端带有智能模块，运行智能算法选择次用户的通信信道，并将该信道信息通过控制信道反馈给次用户发射端。发射端随即在选定的信道上与接收端进行通信。

图2是本发明设计的主用户友好的抗干扰动态频谱接入方法的架构图。共包括四个阶段：收集数据、训练虚拟环境、训练信道决策网络和在线接入，其中前三个阶段均为离线阶段。首先，收集一定量的频谱瀑布图并按照时间先后顺序存储；其次，利用收集的瀑布图训练生成对抗网络基于历史瀑布图序列生成下一时刻的瀑布图，训练完毕的生成网络即为虚拟环境；然后，利用虚拟环境离线训练信道决策网络学习最优的信道选择策略，完美避开主用户信号和干扰；最后，在训练好的信道决策网络的指导下，次用户真实地接入频谱进行通信。

图3是本发明设计的生成对抗网络的网络结构图。本发明将残差网络引入生成对抗网络中，设计了一种具有预测序列数据能力的生成对抗网络。如图3(a)所示，生成网络的结构包括三部分：第一部分由一个Conv模块和一个Id模块组成，卷积核数量为16，卷积核尺寸为7×7；第二部分也包括一个Conv模块和一个Id模块，卷积核数量为32，卷积核尺寸为5×5；第三部分是一层卷积层，卷积核数量为1，卷积核尺寸为3×3。Conv模块和Id模块的结构如图3(b)所示，Conv模块由两层卷积层组成，Id模块由三层卷积层组成。判别网络包括两部分：第一部分包含三个Conv模块，卷积核数量分别为16、32、64，卷积核尺寸均为3×3；第二部分是一层卷积层，卷积核数量为1，卷积核尺寸为3×3。

建立一个认知无线网络，该认知无线网络，该网络内部有一个主用户、一个次级用户通信对和一个干扰机，用户信道集中存在k个可用信道，并且用户的通信过程被划分为时隙。干扰机释放模式化的干扰信号阻塞用户通信。主用户基于频谱感知结果选择离当前干扰信道最远的信道进行通信。次用户接收端带有智能体，运行智能算法选择次用户的通信信道，并将该信道信息通过控制信道反馈给次用户发射端。发射端随即在选定的信道上与接收端进行通信。

引入功率谱密度函数来刻画频谱状态；

在t时刻，次用户接收端接收到的无线信号的功率谱密度函数定义为，

d_t(f)＝g_uU(f-f_u,t)+g_sS(f-f_s,t)+g_jJ(f-f_j,t)+N_t(f)

上式中U(f)、S(f)、J(f)和N_t(f)分别表示主用户基带信号、次用户基带信号、干扰基带信号和噪声信号的功率谱密度，g_u、g_s和g_j分别表示主用户、次用户和干扰的信道增益，f_u,t、f_s,t和f_j,t分别表示主用户射频信号、次用户射频信号和干扰射频信号的中心频率。

在t时刻，次用户接收端感知到的频谱向量定义为：

v_t＝[p_t,1,p_t,2,…p_t,L]

上式中L＝B/Δf表示频谱感知的采样数，B为带宽，Δf为频率分辨率。p_t,i表示在t时刻第i个采样值，i∈{1,…,L}。p_t,1,p_t,2,…p_t,L表示该向量中每个频率的采样值，具体定义为：

上式中f_L表示频谱感知的起始频率，i∈{1,…,L}。

在t时刻，次用户接收端接收到的信干噪比定义为：

令η_t表示接收端正确解调信号所需的信干噪比门限，次用户获得的归一化吞吐量为c_t＝δ(η_t＞η_th)，其中δ(·)为指示函数，定义为：当x为真时δ(x)＝1，否则δ(x)＝0。

将次用户抗干扰动态频谱接入问题建模成马尔科夫决策过程，并用一个四元组<环境状态，用户动作，奖励函数，状态转移函数>来描述马尔科夫决策过程，具体定义如下：

环境状态：时刻t的环境状态S_t定义为当前及过去一段时间内次用户接收端感知到的频谱向量组成的序列，即频谱瀑布图，具体数学表达式为：

S_t＝[v_t,v_t-1,…,v_t-Θ+1]

其中，Θ表示时间回溯的长度，v_t,v_t-1,…,v_t-Θ+1为权力要求2中所述的次用户接收端感知到的频谱向量；

用户动作：时刻t的用户动作a_t定义为次用户选择的通信信道

奖励函数：在环境状态为S_t时，执行动作a_t获得的奖励r(S_t,a_t)包含了归一化通信吞吐量带来的收益以及信道切换对应的代价，具体数学表达式为：

r(S_t,a_t)＝m(c_t)-γδ(a_t≠a_t-1)

其中，δ(a_t≠a_t-1)表示信道切换带来的开销，γ为开销对应的折扣因子；m(c_t)为归一化吞吐量带来的收益，c_t为权力要求2中所述的归一化吞吐量，m(·)为收益映射函数，定义为：

状态转移函数：本发明假设状态转移函数对用户来说是未知的，故在此不做具体定义。

基于以上分析，次用户的优化目标为在不影响主用户通信的前提下最大化通信吞吐量，具体数学表达式为：

其中，E表示求数学期望的运算，S_t+l,a_t+l分别表示t+l时刻的环境状态和用户动作，l为时刻的序号，π为次用户的信道选择策略，λ为奖励函数对应的折扣因子。

为避免次用户学习最优信道选择策略的过程中对主用户产生干扰，提出了一种离线训练、在线接入的方案。具体地，设计了基于生成对抗网络的虚拟环境，利用虚拟环境离线训练基于深度强化学习的信道选择网络，待信道选择网络训练完毕后次用户再真实接入频谱，从而在不影响主用户通信的前提下获得最大的通信吞吐量。包括以下步骤：

初始化：智能体构建生成网络G和判别网络D，并随机初始化该两个网络生成网络的参数θ_G和判别网络的参数θ_D；构建行动者网络、评论家网络和目标网络，并随机初始化该三个网络的参数φ_A、φ_C和φ_T；构建数据库用于存储数据；温度系数α＝1，d＝5；

步骤1：智能体通过频谱感知获得批量的频谱瀑布图X_n，并将其按照时间先后顺序进行存储；

步骤2：智能体在存储的频谱瀑布图中随机选择一批瀑布图，将历史时刻的瀑布图序列X_n-Ωn作为先验条件输入生成网络，输出生成网络对下一时刻瀑布图X_n+1的模拟结果G(X_n-Ωn)；为使得G(X_n-Ωn)尽可能逼近X_n+1，将G(X_n-Ωn)输入判别网络，得到G(X_n-Ωn)逼真程度的得分D[G(X_n-Ω:n)]；生成网络优化1次其网络参数θ_G从而提高其逼近真实瀑布图的能力，以期获得更高的得分；

步骤3：智能体随机选择一批瀑布图X_n+1以及一批生成网络的输出结果G(X_n-Ωn)，将这两类数据分别输入判别网络。判别网络给出这两类数据逼真程度的得分，并根据判断结果的偏差优化d次其参数θ_D，以提高其区分真实瀑布图和生成瀑布图的能力；

循环执行步骤2～3，生成网络与判别网络的竞争优化，直至生成网络达到收敛状态，生成网络最终能够根据历史的瀑布图序列，精准生成下一时刻的瀑布图，判别网络无法区分真实瀑布图X_n+1与生成的瀑布图G(X_n-Ωn)；训练完毕的生成网络作为虚拟频谱环境离线训练信道决策网络；

步骤4：虚拟频谱环境输出当前虚拟状态行动者网络输出对应的信道选择策略并按照策略的分布进行抽样选择虚拟动作/>按照策略进行抽样选择动作；

步骤5：将输入虚拟环境，生成下一时刻瀑布图/>将/>和/>融合获得下一虚拟状态/>

步骤6：智能体通过能量检测的方式确定中主用户和干扰占用的信道，通过比较该信道与/>是否冲突来确定虚拟回报/>

步骤7：智能体将经验数据存储至经验池，待经验池内经验数量超过最低数量要求后，即开始按照目标函数定期更新行动者网络的参数φ_A、评论家网络的参数φ_C、目标网络参数φ_T和温度系数α；

循环执行步骤4～7，直至行动者达到收敛状态，即可学习到最优的信道选择策略。训练好的行动者作为信道选择网络指导次用户真实地接入无线频谱，可以保证次用户在不与主用户产生互扰的同时躲避恶意干扰攻击。

步骤1中所述的感知频谱瀑布图，具体如下：

智能体通过频谱感知获得频谱瀑布图，感知到的第n个瀑布图定义为其中，/>为权力要求2中所述的次用户接收端感知到的频谱向量，T_s为次用户的时隙长度。将数据归一化至[-1,1]，并将其按时间先后顺序进行存储。

步骤2所述的生成网络根据历史的瀑布图序列，生成下一时刻的瀑布图，具体过程包括：

生成网络根据历史时刻的瀑布图X_n-Ω:n＝[X_n,X_n-1,…,X_n-Ω+1]生成下一时刻的瀑布图G(X_n-Ω:n)；其目标函数包括对抗性损失函数和重构损失函数/> μ_G和μ_r为权重因子；对抗性损失函数/>定义为：

其中，G和D分别表示生成网络和判别网络，p(X_n-Ω:n)表示X_n-Ω:n的概率分布；为提高生成瀑布图的精度，引入重构损失函数：

其中，‖·‖₂表示二范数。

在目标函数的指导下，生成网络随机选择一批数据，按照如下方式计算梯度，并优化网络参数：

其中，▽表示梯度，m为批的大小。

7、根据权利要求4所述的主用户友好的抗干扰动态频谱接入方法，步骤3所述的判别网络对输入数据的逼真程度进行打分，具体过程包括：

判别网络分别输入真实瀑布图X_n+1与生成瀑布图G(X_n-Ω:n)，输出逼真程度的得分D(X_n+1)与D[G(X_n-Ω:n)]；其目标函数包括对抗性损失函数和梯度惩罚函数μ_D和μ_gp为权重因子；对抗性损失函数/>定义为：

梯度惩罚函数定义为：

其中，X′_n+1＝(1-ε)X_n+1+εG(X_n-Ω:n)，εU(0,1)。

在目标函数的指导下，判别网络随机选择一批数据，按照如下方式计算梯度，并优化网络参数：

其中，▽表示梯度，m为批的大小。

步骤5所述的获得下一虚拟状态，细节如下：

将输入虚拟环境，生成下一时刻瀑布图/>将/>中的部分历史数据替换为/>获得下一虚拟状态/>

步骤7所述的网络参数更新，细节如下：

行动者：给定当前虚拟频谱状态行动者输出信道选择策略/>并按照策略的分布进行抽样选择虚拟动作/>其目标函数为：

其中，T表示转置操作。在目标函数的指导下，行动者按照更新其网络参数，▽表示梯度，η为更新的步长，←为赋值操作。

评论家：给定当前频谱状态S_t，输出每个可能的动作对应的Q值Q(S_t)。其目标函数为：

其中，表示状态的软Q值，定义为/>在目标函数的指导下，评论家按照/>更新其网络参数。

目标网络：给定当前频谱状态S_t，输出每个可能的动作对应的目标Q值其网络参数φ_T更新方式为：φ_T＝τφ_C+(1-τ)φ_T，τ∈[0,1]为权重因子。

温度系数：温度系数α表示信道选择策略的熵相较于回报r(S_t,a_t)的重要程度。其目标函数为：

其中，是一个常向量，表示信道选择策略的目标熵。在目标函数的指导下，温度系数按照/>进行更新。

实施例1

本发明的一个具体实施例如下描述：系统仿真采用Python语言，基于Tensorflow深度学习框架，参数设定不影响一般性。通信频带的带宽为20MHz，被划分为5个非重叠信道。主用户的感知时隙和传输时隙分别设置为1ms和10ms，次用户的传输时隙设置为5ms。智能体每1ms能够进行一次全频段感知，频率分辨率为100kHz。智能体存储当前以及过去40ms的感知结果作为频谱状态。主、次用户的功率分别设置为15dBm和0dBm。本发明考虑扫频干扰，扫频速率为1GHz/s，干扰功率设置为30dBm。次用户接收端正确解调的信干噪比门限为10dB。

图4是本发明实施例1中对抗扫频干扰的频谱瀑布图，持续时间为40ms，扫频干扰呈现出高功率、中心频率变化呈折现状的特点，主用户的功率次之，次用户的功率最低。干扰、主用户和次用户信号之间没有重叠，说明在本发明设计的频谱接入方法的指导下，次用户能够完全躲避主用户信号和干扰。

图5是在扫频干扰场景中本发明设计的频谱接入方法达到的归一化平均吞吐量随实验时间变化情况。归一化平均吞吐量代表每100次传输中成功的传输次数。对比方法为在真实频谱环境中从零开始训练信道决策网络。前95.54s为所提方法收集数据、训练虚拟环境和训练信道决策网络的过程，均为离线阶段，图中展示的这个时间段内的吞吐量为虚拟吞吐量。后138.25s为所提方法真实接入频谱阶段，产生的吞吐量为真实的吞吐量，可见离线训练完毕后次用户能够学习到最优的信道选择策略，获得最大的吞吐量，且收敛时间仅为对比算法的一半左右，收敛速度较快。

图6是在扫频干扰场景中本发明设计的频谱接入方法干扰主用户的累积次数随实验时间变化情况。对主用户的累积干扰次数为100次传输中的干扰比例。前95.54s为所提方法的离线阶段，此时并未接入频谱，因此不会干扰主用户。后138.25s为所提方法真实接入频谱阶段，此时依然未对主用户产生干扰，可见所提方法能够保证次用户完美避开主用户信号。

综上，本发明提出的主用户友好的抗干扰动态频谱接入模型及方法，充分考虑认知无线网络交互关系复杂、主用户不能容忍干扰等问题，设计了基于深度强化学习的信道决策网络，并引入了基于生成对抗网络的虚拟环境，通过离线训练、在线接入的方式，学习最优的接入策略，保证次用户在不干扰主用户的同时躲避恶意干扰，达到了最优的通信效果，提高了频谱利用率。通过在线训练信道决策网络的方法相比较，仿真结果表明所提方法能够完全避开主用户信号和干扰，且方法收敛速度较快，适用于认知无线网络次用户抗干扰动态频谱接入场景。

Claims

1.一种主用户友好的抗干扰动态频谱接入方法，其特征在于建立一个认知无线网络，该认知无线网络，该网络内部有一个主用户、一个次级用户通信对和一个干扰机，用户信道集中存在k个可用信道，并且用户的通信过程被划分为时隙；干扰机释放模式化的干扰信号阻塞用户通信；主用户基于频谱感知结果选择离当前干扰信道最远的信道进行通信；次用户接收端带有智能体，运行智能算法选择次用户的通信信道，并将该信道信息通过控制信道反馈给次用户发射端，发射端随即在选定的信道上与接收端进行通信；

为避免次用户学习最优信道选择策略的过程中对主用户产生干扰，提出了一种离线训练、在线接入的方案，设计了基于生成对抗网络的虚拟环境，利用虚拟环境离线训练基于深度强化学习的信道选择网络，待信道选择网络训练完毕后次用户再真实接入频谱，从而在不影响主用户通信的前提下获得最大的通信吞吐量；包括以下步骤：

步骤2：智能体在存储的频谱瀑布图中随机选择一批瀑布图，将历史时刻的瀑布图序列X_n-Ωn作为先验条件输入生成网络，输出生成网络对下一时刻瀑布图X_n+1的模拟结果G(X_n-Ωn)；为使得G(X_n-Ωn)尽可能逼近X_n+1，将G(X_n-Ωn)输入判别网络，得到G(X_n-Ωn)逼真程度的得分D[G(X_n-Ω：n)]；生成网络优化1次其网络参数θ_G从而提高其逼近真实瀑布图的能力，以期获得更高的得分；

步骤3：智能体随机选择一批瀑布图X_n+1以及一批生成网络的输出结果G(X_n-Ωn)，将这两类数据分别输入判别网络；判别网络给出这两类数据逼真程度的得分，并根据判断结果的偏差优化d次其参数θ_D，以提高其区分真实瀑布图和生成瀑布图的能力；

步骤4：虚拟频谱环境输出当前虚拟状态行动者网络输出对应的信道选择策略并按照策略的分布进行抽样选择虚拟动作/>

循环执行步骤4～7，直至行动者达到收敛状态，即可学习到最优的信道选择策略；训练好的行动者作为信道选择网络指导次用户真实地接入无线频谱，可以保证次用户在不与主用户产生互扰的同时躲避恶意干扰攻击。

2.根据权利要求1所述的主用户友好的抗干扰动态频谱接入方法，其特征在于，引入功率谱密度函数来刻画频谱状态；

d_t(f)＝g_uU(f-f_u，t)+g_sS(f-f_s，t)+g_jJ(f-f_j，t)+N_t(f)

上式中U(f)、S(f)、J(f)和N_t(f)分别表示主用户基带信号、次用户基带信号、干扰基带信号和噪声信号的功率谱密度，g_u、g_s和g_j分别表示主用户、次用户和干扰的信道增益，f_u，t、f_s，t和f_j，t分别表示主用户射频信号、次用户射频信号和干扰射频信号的中心频率；

在t时刻，次用户接收端感知到的频谱向量定义为：

v_t＝[p_t，1，p_t，2，…p_t，L]

上式中L＝B/Δf表示频谱感知的采样数，B为带宽，Δf为频率分辨率；p_t，1，p_t，2，…p_t，L表示该向量中每个频率的采样值，具体定义为：

上式中f_L表示频谱感知的起始频率，i∈{1，…，L}；

在t时刻，次用户接收端接收到的信干噪比定义为：

令η_t表示接收端正确解调信号所需的信干噪比门限，次用户获得的归一化吞吐量为c_t＝δ(η_t＞η_th)，其中δ(.)为指示函数，定义为：当x为真时δ(x)＝1，否则δ(x)＝0。

3.根据权利要求2所述的主用户友好的抗干扰动态频谱接入方法，其特征在于：将次用户抗干扰动态频谱接入问题建模成马尔科夫决策过程，并用一个四元组<环境状态，用户动作，奖励函数，状态转移函数>来描述马尔科夫决策过程，具体定义如下：

S_t＝[v_t，v_t-1，…，v_t-Θ+1]

其中，Θ表示时间回溯的长度，v_t，v_t-1，…，v_t-Θ+1为次用户接收端感知到的频谱向量；

用户动作：时刻t的用户动作a_t定义为次用户选择的通信信道

奖励函数：在环境状态为S_t时，执行动作a_t获得的奖励r(S_t，a_t)包含了归一化通信吞吐量带来的收益以及信道切换对应的代价，具体数学表达式为：

r(S_t，a_t)＝m(c_t)-γδ(a_t≠a_t-1)

其中，δ(a_t≠a_t-1)表示信道切换带来的开销，γ为开销对应的折扣因子；m(c_t)为归一化吞吐量带来的收益，c_t为归一化吞吐量，m(·)为收益映射函数，定义为：

状态转移函数：假设状态转移函数对用户来说是未知的；

次用户的优化目标为在不影响主用户通信的前提下最大化通信吞吐量，具体数学表达式为：

其中，E表示求数学期望的运算，S_t+l，a_t+l分别表示t+l时刻的环境状态和用户动作，l为时刻的序号，π为次用户的信道选择策略，λ为奖励函数对应的折扣因子。

4.根据权利要求3所述的主用户友好的抗干扰动态频谱接入方法，步骤1中所述的频谱瀑布图，具体如下：

智能体通过频谱感知获得频谱瀑布图，感知到的第n个瀑布图定义为其中，/>为次用户接收端感知到的频谱向量，T_s为次用户的时隙长度；将数据归一化至[-1，1]，并将其按时间先后顺序进行存储。

5.根据权利要求3所述的主用户友好的抗干扰动态频谱接入方法，步骤2所述的生成网络根据历史的瀑布图序列，生成下一时刻的瀑布图，具体过程包括：

生成网络根据历史时刻的瀑布图X_n-Ω：n＝[X_n，X_n-1，…，X_n-Ω+1]生成下一时刻的瀑布图G(X_n-Ω：n)；其目标函数包括对抗性损失函数和重构损失函数/> μ_G和μ_r为权重因子；对抗性损失函数/>定义为：

其中，G和D分别表示生成网络和判别网络，p(X_n-Ω：n)表示X_n-Ω：n的概率分布；为提高生成瀑布图的精度，引入重构损失函数：

其中，||·||₂表示二范数；

其中，表示梯度，m为批的大小。

6.根据权利要求3所述的主用户友好的抗干扰动态频谱接入方法，步骤3所述的判别网络对输入数据的逼真程度进行打分，具体过程包括：

判别网络分别输入真实瀑布图X_n+1与生成瀑布图G(X_n-Ω：n)，输出逼真程度的得分D(X_n+1)与D[G(X_n-Ω：n)]；其目标函数包括对抗性损失函数和梯度惩罚函数/> μ_D和μ_gp为权重因子；对抗性损失函数/>定义为：

梯度惩罚函数定义为：

其中，X′_n+1＝(1-ε)X_n+1+εG(X_n-Ω：n)，ε～U(0，1)；

其中，表示梯度，m为批的大小。

7.根据权利要求3所述的主用户友好的抗干扰动态频谱接入方法，步骤5所述的获得下一虚拟状态，细节如下：

8.根据权利要求3所述的主用户友好的抗干扰动态频谱接入方法，步骤7所述的网络参数更新，细节如下：

其中，T表示转置操作；在目标函数的指导下，行动者按照更新其网络参数，/>表示梯度，η为更新的步长，←为赋值操作；

评论家：给定当前频谱状态S_t，输出每个可能的动作对应的Q值Q(S_t)；其目标函数为：

其中，表示状态的软Q值，定义为/>在目标函数的指导下，评论家按照/>更新其网络参数；

目标网络：给定当前频谱状态S_t，输出每个可能的动作对应的目标Q值其网络参数φ_T更新方式为：φ_T＝τφ_C+(1-τ)φ_T，τ∈[0，1]为权重因子；

温度系数：温度系数α表示信道选择策略的熵相较于回报r(S_t，a_t)的重要程度；

其目标函数为：

其中，是一个常向量，表示信道选择策略的目标熵；在目标函数的指导下，温度系数按照/>进行更新。