CN109743780B

CN109743780B - 信道选择和传输时间联合优化的分层强化学习抗干扰算法

Info

Publication number: CN109743780B
Application number: CN201910099046.6A
Authority: CN
Inventors: 徐煜华; 孔利君; 郭秋菊; 徐以涛; 江汉
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2020-11-27
Anticipated expiration: 2039-01-31
Also published as: CN109743780A

Abstract

本发明公开了一种信道选择和传输时间联合优化的分层强化学习抗干扰算法。该算法为：包括一个由发射机、接收机和干扰机组成的无线通信网络，所述干扰机按照扫频、梳状、随机三种模式中任意一种产生干扰信号；在数据信道上，发射机与接收机以动态频谱接入的方式进行数据通信，以对抗干扰机释放的干扰信号对发射机‑接收机造成的通信干扰；在控制信道上，发射机与接收机通过信息交互，实现收发端动态频谱的协调。在动态干扰场景中，以较小的时间粒度进行基于快速强化学习的信道选择优化，以较大的时间粒度进行基于随机自动学习机的传输时间长度优化，循环执行直到数据传输时间长度收敛或达到最大迭代次数。本发明提高了无线通信网络系统的吞吐量。

Description

信道选择和传输时间联合优化的分层强化学习抗干扰算法

技术领域

本发明属于无线通信技术领域，特别是一种信道选择和传输时间联合优化的分层强化学习抗干扰算法。

背景技术

基于认知无线电理论，以动态频谱接入的方式进行抗干扰通信，是抗干扰领域的一大研究热点。而在实际抗干扰通信过程中，数据传输时间长度对抗干扰系统的吞吐量具有不可忽视的作用。当传输时间长度远大于干扰时间长度时，一次数据传输时间内容易遭受多次干扰，将严重降低通信的质量。反之，当传输时间长度远小于干扰时间长度时，会导致用户频繁切换工作信道，消耗较多的切换时间，同样也会严重降低通信的质量。所以，在动态频谱抗干扰系统中，信道选择与传输时间的优化都有非常重要的研究意义。

在现有研究中，大多数只聚焦于信道选择的优化问题，并提出了很多算法。单用户场景下，有研究工作(参考文献Slimeni F,Schaeers B,Chtourou Z,et al,Jammingmitigation in cognitive radio networks using a modified Q-learning algorithm[J],International Conference on Military Communications&Information Systems,2015:1-7.Machuzak S and Jayaweera S K.Reinforcement learning based anti-jamming with wideband autonomous cognitive radios[C].IEEE InternationalConference on Communications in China,2016:1-5.)将信道选择问题建模为Markov决策过程，并用强化学习算法来解决；在多用户场景下，有研究工作(参考文献Aref M A andJayaweera S K.A novel cognitive anti-jamming stochastic game.CognitiveCommunications for Aerospace Applications Workshop,2017:1-4.Chen C,Song M,XinC,et al.A game-theoretical anti-jamming scheme for cognitive radio networks[J].IEEE Network,2013,27(3):22-27.)将其建模为Markov博弈问题，并用多智能体强化学习算法来解决。以上文献中针对单用户与多用户场景下的信道选择问题提出了比较好的解决方案，并通过仿真验证了其所提算法的性能，但是实际通信受信道、传输时间等因素的联合制约，上述文献中只考虑了单一因素的影响。

目前在抗干扰领域，主要研究了信道选择对抗干扰性能的影响，并未考虑抗干扰质量受到实际通信的各种因素影响，研究的抗干扰影响因素比较单一，没有综合考虑其他因素对抗干扰通信性能的影响。

发明内容

本发明的目的在于提供一种信道选择和传输时间联合优化的分层强化学习抗干扰算法。从而提高无线通信网络系统吞吐量。

实现本发明目的的技术解决方案为：一种信道选择和传输时间联合优化的分层强化学习抗干扰算法，包括一个由1个发射机、1个接收机和1个干扰机组成的无线通信网络，所述干扰机按照扫频、梳状、随机三种模式中任意一种模式产生干扰信号；在数据信道上，发射机与接收机以动态频谱接入的方式进行数据通信，以对抗干扰机释放的干扰信号对发射机-接收机造成的通信干扰；在控制信道上，发射机与接收机通过信息交互，实现收发端动态频谱的协调。

进一步地，所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法，包括以下步骤：

步骤1，设定在实际通信过程中，有M个可用信道，N个传输时间长度等级，其中可用信道集合记为

传输时间长度集合记为

信道序号集合为ε＝{1,...,M}，传输时间长度序号集合为

定义k时隙传输时间长度选择概率向量ψ_n(k)，随机自动学习机学习步长为b，随机自动学习机学习时隙数为K＞0，单个随机自动学习机学习时隙中的强化学习时隙数为D，设置初始随机自动学习机学习时隙k＝0，令所有传输时间长度的选择概率向量为

初始传输时间长度为T_d(0)；

步骤2，根据传输时间长度的选择概率向量ψ_n(k)选择传输时间长度T_d(k)，执行D次基于快速强化学习的信道选择，获得当前传输时隙长度T_d(k)下的最优吞吐量性能R＝r；

步骤3，更新传输时间长度选择向量ψ_n(k)，并根据ψ_n(k)探索选择随机自动学习机学习周期的传输时间长度T_d(k+1)；

步骤4，k＝k+1，循环执行步骤2～步骤3，当传输时间长度选择概率向量有一个元素大于0.99，或当k≥K-1时，算法结束。

进一步地，步骤2所述的根据传输时间长度的选择概率向量选择传输时间长度T_d(k)，执行D次基于快速强化学习的信道选择，获得当前传输时隙长度T_d(k)下最优的吞吐量性能R＝r，具体如下：

步骤2.1，定义d时隙用户状态、决策动作和信道选择概率向量，设置学习速率α，折扣因子γ，玻尔兹曼系数常量β，当前传输时间长度为T_d，快速强化学习时隙数为D＞0，设置初始快速强化学习时隙d＝0，初始化Q值表为全零矩阵，初始工作状态为S₀(f_t,f_j)，其中f_j为干扰信道，由宽带频谱感知获得；f_t为工作信道，从空闲信道中随机选择；

步骤2.2，在工作信道f_t上传输数据，传输时间长度为T_d，计算工作信道f_t的回报值r；

步骤2.3，通过宽带频谱感知获得干扰信道f_j'和各个信道的能量值

计算各信道的回报值

步骤2.4，根据Q值表更新信道选择概率向量P(d)，并根据P(d)探索选择下一时隙的工作信道f_t'；

步骤2.5，当d＞0时，用户根据快速强化学习更新维护Q值表；

步骤2.6，发送ACK反馈至发射机端，以协调收发端的数据频率；

步骤2.7，d＝d+1，循环执行步骤2.2～步骤2.7，当d≥D，算法结束，获得传输时隙长度T_d下的最优吞吐量性能R＝r，其中r为回报值。

进一步地，步骤2.1中所述的定义d时隙用户状态、决策动作和信道选择概率向量，具体如下：

定义d时隙用户状态为S(d)＝S(f_t(d),f_j(d))，状态空间为

其中f_t(d),f_j(d)分别代表d时隙的工作信道和干扰信道，

定义d时隙做出的决策动作为

下一时隙的工作信道f_t(d+1)＝a(d+1)；

定义d时隙用户的信道选择概率向量为

进一步地，步骤2.4中所述的根据Q值表更新信道选择概率向量P(d)，并根据P(d)探索选择下一时隙的工作信道f_t'，具体如下：

信道选择概率向量P(d)的更新公式为：

其中，β为玻尔兹曼系数常量，p_m(d+1)为d+1时隙选择信道m的概率，Q(S_d,m)为d时隙用户在S_d状态下执行动作m对应的Q值；

下一时隙的工作信道a(d+1)为：

a(d+1)＝f_t' (2)。

进一步地，步骤2.5中所述的用户根据快速强化学习更新维护Q值表，具体如下：

用户根据快速强化学习维护一张Q(S,a)值表，用于评估不同状态下各个动作的优劣，并随着用户与环境的交互，不断地更新Q值表直至强化学习结束，Q值表中的值将趋于稳定状态；

在任意d时隙，Q值表的更新公式为：

Q_d+1(S_d,a_d+1)＝Q_d(S_d,a_d+1)+α(r_d+γΦ-Q_d(S_d,a_d+1)) (3)

其中，Q_d(S_d,a_d+1)为d时隙用户在S_d状态下执行动作a_d+1对应的Q值，Q_d+1(S_d,a_d+1)、为更新后的Q值，α为学习速率，γ为折扣因子，r_d为当前状态S_d的即时回报值，Φ为S_d+1状态下所有动作的最大Q值，即智能体记忆里最大的利益；智能体在选择并执行动作a_d+1后，在d+1时隙到达S_d+1状态；

r_d和Φ的计算公式如下：

其中，

为可选信道、f_t'为下一时隙的工作信道，α,γ分别为学习速率和折扣因子，T_succ为传输时隙T_s时间内未被干扰的时间长度，E_m为感知到的各个信道的空闲状态，Φ为在S_d+1(f_t',f_j')状态所有可执行动作对应的最大Q值。

进一步地，步骤3中所述的更新传输时间长度选择向量ψ_n(k)，具体如下：

每个传输时间长度的选择概率的更新公式如下：

其中0＜b＜1是迭代步长，i、j为传输时间长度，R_i(k)为归一化吞吐量，从强化学习中获得；ψ_ij(k)为k时隙在当前选择传输时间长度为i的条件下，下一时刻选择传输时间长度为j的概率；ψ_ij(k+1)为更新后k+1时隙在当前选择传输时间长度为i的条件下，下一时刻选择传输时间长度为j的概率。

本发明与现有技术相比，其显著优点在于：(1)通过在线学习的方式，从动态未知环境中实现了信道和传输时间长度的联合优化；(2)快速强化学习算法在减小状态空间的基础上，利用宽带频谱感知设计了一种评估函数并行更新规则，有效提升了收敛速度；(3)解决了信道选择优化和传输时间长度的联合优化问题，提高了无线通信网络系统的吞吐量。

附图说明

图1是本发明信道选择和传输时间联合优化的分层强化学习抗干扰算法的系统模型图。

图2是本发明中分层强化学习算法的时隙结构示意图。

图3是本发明中分层强化学习算法的流程示意图。

图4是本发明中下层快速强化学习算法单个时隙T_s内的结构示意图。

图5是本发明中上层随机自动学习机算法的流程示意图。

图6是本发明实施例中不同传输时间条件下最优信道选择策略对应的吞吐量曲线图。

图7是本发明实施例中各信道的选择概率变化曲线图。

具体实施方式

下面参考附图并结合实施例来对本发明作进一步详细说明。

结合图1，本发明一种信道选择和传输时间联合优化的分层强化学习抗干扰算法，对无线通信网络做如下刻画：在一个由1个发射机、1个接收机和1个干扰机组成的无线通信网络中，干扰机按照扫频、梳状、随机三种模式中任意一种模式产生干扰信号；在数据信道上，发射机与接收机以动态频谱接入的方式进行数据通信，以对抗干扰机释放的干扰信号对发射机-接收机造成的通信干扰；在控制信道上，发射机与接收机通过信息交互，实现收发端动态频谱的协调。

结合图2和图3，一种信道选择和传输时间联合优化的分层强化学习抗干扰算法，以较小的时间粒度进行基于快速强化学习的信道选择优化，以较大的时间粒度进行基于随机自动学习机的传输时间长度优化。用户每选择一种数据传输时间，则在该传输时间下进行多次基于强化学习的信道选择优化，获得信道选择收敛条件下的吞吐量性能，然后再次通过随机自动学习机选择新的传输时间长度。如此循环执行，强化用户对动态环境的认知，达到优化信道选择和传输时间长度的目的。

结合图4，为快速强化学习抗干扰算法在单个时隙T_s内结构设计图，该结构中用户执行的操作如下：其中数据传输时间为T_d，宽带感知的时间为T_WBSS，ACK反馈时间为T_ACK，智能学习时间T_L忽略不计，每个快速强化学习周期(时隙)为T_s＝T_d+T_WBSS+T_ACK。处于S₀(f_t,f_j)状态的用户，在f_t信道上传输数据T_d时间，获得当前信道的回报值r，之后在全频段进行宽带频谱感知T_WBSS时间，获得当前的干扰信道f_j'。然后在当前S₀(f_t,f_j)状态下，根据Q值表选择一个最优的动作a,f_t'＝a，此时用户到达新的状态S₁(f_t',f_j')。用户在更新评估函数

之后，将状态S₁(f_t',f_j')记为S₀(f_t,f_j)，在下一时隙继续执行上述“传输-反馈-调整”的过程。

结合图5，为随机自动学习机算法的实现流程图，该结构中用户执行的操作如下：其中每个T_s时隙进行一次强化学习选择信道，每D个强化学习时隙进行一次随机自动学习机学习，根据强化学习收敛后获得的吞吐量性能，调整传输时间长度。

进一步地，设定在实际通信过程中，假设有M个可用信道，N个传输时间长度等级，其中可用信道集合记为

传输时间长度集合记为

信道序号集合为ε＝{1,...,M}，传输时间长度序号集合为

记k时隙用户选择的信道为f_t(k)，传输时间长度为T_d(k)，当前时隙获得的吞吐量为u(k)。

其中，p_m(k)为选择信道m的概率，且

T_s为传输时隙长度，T_succ为在T_s时间内信道m的成功传输时间(未被干扰)。

从在线学习的角度看，给定信道选择和传输时间长度策略，根据历史的信道与传输时间长度选择策略和回报值信息，确定下一时刻的信道选择和传输时间长度。记所有的可行策略组成的集合为

目标为寻找最优的信道选择和传输时间长度策略，最大化累积的期望回报值，也即：

结合图2～图5，一种信道选择和传输时间联合优化的分层强化学习抗干扰算法，包括以下步骤：

一种信道选择和传输时间联合优化的分层强化学习抗干扰算法，其特征在于，包括以下步骤：

传输时间长度集合记为

信道序号集合为ε＝{1,...,M}，传输时间长度序号集合为

初始传输时间长度为T_d(0)；

计算各信道的回报值

步骤2.5，当d＞0时，用户根据快速强化学习更新维护Q值表；

定义d时隙用户状态为S(d)＝S(f_t(d),f_j(d))，状态空间为

其中f_t(d),f_j(d)分别代表d时隙的工作信道和干扰信道，

定义d时隙做出的决策动作为

下一时隙的工作信道f_t(d+1)＝a(d+1)；

定义d时隙用户的信道选择概率向量为

信道选择概率向量P(d)的更新公式为：

下一时隙的工作信道a(d+1)为：

a(d+1)＝f_t' (2)

在任意d时隙，Q值表的更新公式为：

Q_d+1(S_d,a_d+1)＝Q_d(S_d,a_d+1)+α(r_d+γΦ-Q_d(S_d,a_d+1)) (1)

r_d和Φ的计算公式如下：

其中，

每个传输时间长度的选择概率的更新公式如下：

实施例1

本发明的第一个实施例具体描述如下，系统采用matlab软件对所提信道选择和传输时间联合优化模型及分层强化学习抗干扰算法进行了仿真验证，同时分析了所提算法的收敛性。

无线通信环境中包含1路扫频干扰信号、1个发射机和1个接收机，有M＝5个可用信道，N＝5个可选传输时间长度。具体的分层强化学习相关参数设置如表1所示。

表1仿真参数设置

仿真结果分析：

图6给出了在不同的传输时间长度下，基于强化学习的信道选择算法获得优化的吞吐量性能曲线图。通过仿真结果可以发现，随着传输时间的增加，系统的吞吐量性能呈现出先增后减的趋势，即存在最优的传输时间长度。

图7给出了信道选择和传输时间联合优化的分层强化学习抗干扰算法对不同传输时间的选择概率曲线。在学习开始阶段各传输时间的选择概率相同，随着不断学习，传输时间为2.0ms的选择概率逐渐趋近于1。通过与图6对比，可以证明所提算法能够选择出最优的传输时间。

综上所述，本发明提出的一种信道选择和传输时间联合优化的分层强化学习抗干扰算法，不仅能通过快速强化学习以较小的时间粒度优化信道选择策略，还可以通过随机自动学习机以较大的时间粒度优化传输时间长度，获得最优的信道选择和传输时间联合策略。仿真结果验证了所提算法的收敛性，实现了信道选择和传输时间的联合优化，提升了系统的吞吐量性能。

Claims

1.一种信道选择和传输时间联合优化的分层强化学习抗干扰算法，其特征在于，该算法基于一个由1个发射机、1个接收机和1个干扰机组成的无线通信网络，所述干扰机按照扫频、梳状、随机三种模式中任意一种模式产生干扰信号；在数据信道上，发射机与接收机以动态频谱接入的方式进行数据通信，以对抗干扰机释放的干扰信号对发射机-接收机造成的通信干扰；在控制信道上，发射机与接收机通过信息交互，实现收发端动态频谱的协调；

该算法包括以下步骤：

传输时间长度集合记为

信道序号集合为ε＝{1,...,M}，传输时间长度序号集合为

定义k时隙传输时间长度选择概率向量ψ_n(k)，随机自动学习机学习步长为b，随机自动学习机学习时隙数为K＞0，单个随机自动学习机学习时隙中的强化学习时隙数为D，设置初始随机自动学习机学习时隙k＝0，令所有传输时间长度的选择概率向量为ψ_n(k)＝1/N,

初始传输时间长度为T_d(0)；

步骤2，根据传输时间长度的选择概率向量ψ_n(k)选择传输时间长度T_d(k)，执行D次基于快速强化学习的信道选择，获得当前传输时隙长度T_d(k)下的最优吞吐量性能R＝r，其中r为回报值，下标d为强化学习时隙的标号；

2.根据权利要求1所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法，其特征在于，步骤2所述的根据传输时间长度的选择概率向量选择传输时间长度T_d(k)，执行D次基于快速强化学习的信道选择，获得当前传输时隙长度T_d(k)下最优的吞吐量性能R＝r，具体如下：

步骤2.1，定义d时隙用户状态、决策动作和信道选择概率向量，设置学习速率α，折扣因子γ，玻尔兹曼系数常量β，当前传输时间长度为T_d，快速强化学习时隙数为D＞0，设置初始快速强化学习时隙d＝0，初始化Q值表为全零矩阵，初始工作状态为S₀(f_t,f_j)，其中f_j为干扰信道，由宽带频谱感知获得；f_t为工作信道，从空闲信道中随机选择；下标j为传输时间长度，

步骤2.3，通过宽带频谱感知获得干扰信道f_j和各个信道的能量值E(m),

计算各信道的回报值r(m),

步骤2.5，当d＞0时，用户根据快速强化学习更新维护Q值表；

3.根据权利要求2所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法，其特征在于，步骤2.1中所述的定义d时隙用户状态、决策动作和信道选择概率向量，具体如下：

定义d时隙用户状态为S(d)＝S(f_t(d),f_j(d))，状态空间为

其中f_t(d),f_j(d)分别代表d时隙的工作信道和干扰信道，f_t(d),

定义d时隙做出的决策动作为a(d)且

下一时隙的工作信道f_t(d+1)＝a(d+1)；

定义d时隙用户的信道选择概率向量为P(d)＝(p₁(d),...p_m(d),...,p_M(d)),

4.根据权利要求2所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法，其特征在于，步骤2.4中所述的根据Q值表更新信道选择概率向量P(d)，并根据P(d)探索选择下一时隙的工作信道f_t'，具体如下：

信道选择概率向量P(d)的更新公式为：

下一时隙的工作信道a(d+1)为：

a(d+1)＝f_t' (2)。

5.根据权利要求2所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法，其特征在于，步骤2.5中所述的用户根据快速强化学习更新维护Q值表，具体如下：

在任意d时隙，Q值表的更新公式为：

Q_d+1(S_d,a_d+1)＝Q_d(S_d,a_d+1)+α(r_d+γΦ-Q_d(S_d,a_d+1)) (3)

其中，Q_d(S_d,a_d+1)为d时隙用户在S_d状态下执行动作a_d+1对应的Q值，Q_d+1(S_d,a_d+1)为更新后的Q值，α为学习速率，γ为折扣因子，r_d为当前状态S_d的即时回报值，Φ为S_d+1状态下所有动作的最大Q值，即智能体记忆里最大的利益；智能体在选择并执行动作a_d+1后，在d+1时隙到达S_d+1状态；

r_d和Φ的计算公式如下：

其中，

6.根据权利要求1所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法，其特征在于，步骤3中所述的更新传输时间长度选择向量ψ_n(k)，具体如下：

每个传输时间长度的选择概率的更新公式如下：