CN112672359B

CN112672359B - 基于双向长短时记忆网络的动态频谱接入方法

Info

Publication number: CN112672359B
Application number: CN202011505701.2A
Authority: CN
Inventors: 高玉龙; 陈鹏; 郭士增
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2022-06-21
Anticipated expiration: 2040-12-18
Also published as: CN112672359A

Abstract

基于双向长短时记忆网络的动态频谱接入方法，属于认知无线电技术领域，本发明为解决现有频谱共享使用方法未考虑频谱资源的动态性和不完全观测性，应用单一的问题。它包括：通信系统在正交频分多址情况下，每个信道固定分配给一个主用户，主用户依据自主接入策略传输信息，次级用户在每个时隙依据历史动作数据预测信道占用状态，选取其中一个未占用信道传输信息；次级用户传输信息方法包括：采用双向长短时记忆网络优化DQN强化学习算法，形成DBRQN算法模型；将历史动作数据输入DBRQN算法模型预测动态频谱空洞；感知预测到的动态频谱空洞，获取最优信道接入策略，然后动态接入空闲频谱空洞，实现动态频谱共享。本发明用于频谱共享。

Description

基于双向长短时记忆网络的动态频谱接入方法

技术领域

本发明涉及一种动态频谱接入方法，属于认知无线电技术领域。

背景技术

现代通信技术迅速发展，适用于通信的电磁波频段被陆续划分给特定用户，频谱资源由于日益稀缺成为关键战略资源。现行的固定频谱分配策略是将固定频段授权给相关用户，将这些用户称为授权用户，其对相应频段独自占用，非授权用户不得利用该频谱资源进行通信。如果频谱资源被空闲用户长期占用将会导致频谱浪费，因此引入了认知无线电技术。

认知无线电技术是一种基于感知和共享的频谱高效利用方式。网络区分主用户和次级用户。主用户即为授权用户，但与固定分配不同，认知无线电中次级用户被允许共享空闲频段，如何在不影响主用户通信同时最大限度的利用空闲频点成为频谱共享关键。

目前频谱共享使用的主要技术有传统的基于着色理论、基于拍卖机制、基于动态规划算法的分配方法。但这些方法没有考虑频谱资源的动态性以及不完全观测性，应用场景比较单一，面对复杂场景效果较差。

发明内容

本发明目的是为了解决现有频谱共享使用方法未考虑频谱资源的动态性和不完全观测性，应用单一的问题，提供了一种基于双向长短时记忆网络的动态频谱接入方法。

本发明所述基于双向长短时记忆网络的动态频谱接入方法，该动态频谱接入方法包括：

通信系统在正交频分多址的情况下，每个信道固定分配给一个主用户，主用户依据自主接入策略传输信息，次级用户在每个时隙依据历史动作数据预测信道占用状态，并选取其中一个未占用信道传输信息；

次级用户传输信息的方法包括：

采用双向长短时记忆网络优化DQN强化学习算法，形成DBRQN算法模型；

将历史动作数据输入DBRQN算法模型中，预测动态频谱空洞；

次级用户感知预测到的动态频谱空洞，获取最优信道接入策略，然后动态接入空闲频谱空洞，实现动态频谱共享。

优选的，DBRQN算法模型的训练方法包括：

S2-1、初始化多个主用户的参数和信道占用情况；

S2-2、初始化次级用户智能体的网络权重参数，同时初始化经验回放池；

S2-3、次级用户输入历史感知信道标号和历史感知结果序列数据，以随机的感知结果序列作为初始启动数据，输出值Q最大的最优动作，同时输出一个0至1的随机数，当随机数大于预先设置的阈值时选取输出的值Q最大的最优动作，当随机数小于预先设置的阈值时采用随机动作进行随机探索；逐步减小阈值，使随机探索的概率随训练的进行逐步减小；

S2-4、将历史动作数据输入环境模拟器，从环境模拟器的反馈获取奖赏，当环境模拟器中的历史动作数据传输成功获得正反馈，当当环境模拟器中的历史动作数据传输未成功获得负反馈；同时，环境模拟器自动生成下一个状态；环境模拟器根据获取的奖赏和下一个状态合并生成下一个时隙的输入向量；

S2-5、将动作、S2-4获取的奖赏、下一个状态和下一个状态的动作组成元组，将该元组存入经验回放池；

S2-6、从经验回放池中随机选取训练数据进行网络训练，更新网络权重参数；

S2-7、判断更新网络权重参数过程中的网络估计误差是否小于阈值，否则返回执行S2-3，是则执行S2-8；

判断更新网络权重参数过程中的训练步数是否达到预设的最大训练步长值，否则返回执行S2-3，是则执行S2-8；

S2-8、DBRQN算法模型训练完成，保存当前训练参数。

优选的，S2-4所述历史动作数据为：

动作A＝(a₀,a₁,a₂,…,a_n)，其中，n表示信道总数，a_i,i＝0,1…,n表示选取对应的信道i进行接入及信息传输；

特别的，次级信道在a₀时隙退避，不进行信息传输；

动作均以独热编码形式给出，即对应位置为1，其余位置为0；

选取动作后获得当前动作的环境反馈确认字符，反馈集合为R＝{0,1}，0表示所选信道已被占用且传输失败，1表示所选信道空闲且传输成功。

优选的，S2-4所述奖赏包括：

获取最大累计折扣奖赏对应的最优策略：

采用折扣回报表示t时刻的状态具备的回报G_t：

其中，λ表示累计折扣因子，R_t+k+1表示t+k+1时刻的反馈集合，k表示叠加上下界符号。

优选的，S2-6所述更新网络权重参数的方法包括：

采用值函数Q(s,a)表示当前状态s、当前状态对应动作a的优劣，结合贝尔曼方程与时间差分方法对值函数进行更新：

Q(s_t,a_t)←Q(s_t,a_t)+α(R_t+1+λmax_aQ(s_t+1,a)-Q(s_t,a_t))；

其中，α表示学习步长，表征更新速率；

当面对连续状态或状态集合较大时，采用结合深度学习的多层神经网络代替价值函数估计器，使用多层全连接网络，形成DQN强化学习算法，通过梯度反向传播算法最小化网络估计误差进行网络权重训练，网络估计误差为：

其中，

表示对作用对象求期望，r表示采取动作后的即时奖赏，γ表示折扣因子，w表示网络的权重参数，s'表示下一个状态，a'表示下一个动作。

优选的，将历史动作数据输入DBRQN算法模型中，预测动态频谱空洞，次级用户感知预测到的动态频谱空洞，获取最优信道接入策略的方法包括：

S6-1、初始化主用户的参数和信道占用情况；

S6-2、将训练好的DBRQN算法模型加载到新的网络模型中；

S6-3、次级用户将输入数据上传至S6-2获取的网络模型中，选取网络模型值Q最大的输出作为当前时刻的动作数据，网络模型同时输出动作数据；

所述输入数据包括历史感知信道标号和历史感知结果序列数据，以随机的感知结果序列作为初始启动数据；

S6-4、将当前时刻的动作数据输入环境模拟器，获取奖赏和下一个状态，生成下一个时隙的输入向量；

S6-5、判断测试步数是否达到预设的最大测试步长值，否则返回执行S6-3，是则执行S6-6；

S6-6、统计网络模型输出的各动作数据，计算成功率和冲突率，并绘制相应曲线；

S6-7、根据成功率和冲突率选取最优信道接入策略。

本发明的优点：本发明提出的基于双向长短时记忆网络的动态频谱接入方法，结合双向长短时记忆网络与深度强化学习，对动态频谱空洞进行感知预测后接入，从而实现动态频谱共享。在设置的独立信道以及相关信道场景下，训练过程中，损失函数下降迅速，经过多次迭代，算法最终性能稳定且优于传统与已有算法。最终成功率接近最优解，冲突率可以下降到阈值以下，表现优异。

附图说明

图1是信道状态转移示意图；

图2是训练过程损失函数示意图；

图3是多种算法最终成功率曲线对比图，其中，曲线a表示Myopic算法，曲线b表示DQN算法，曲线c表示DRQN算法，曲线d表示DBRQN算法；

图4是多种算法最终冲突率曲线对比图，其中，曲线a表示Myopic算法，曲线b表示DQN算法，曲线c表示DRQN算法，曲线d表示DBRQN算法。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

具体实施方式一：下面结合图1说明本实施方式，本实施方式所述基于双向长短时记忆网络的动态频谱接入方法，该动态频谱接入方法包括：

次级用户传输信息的方法包括：

将历史动作数据输入DBRQN算法模型中，预测动态频谱空洞；

本实施方式中，长短时记忆网络(LSTM)是循环神经网络(RNN)的一种变体，其加入“遗忘门”等操作使得网络在提取序列时间相关性的同时避免梯度爆炸或梯度消失问题。而双向长短时记忆网络则是将原先输入层前向的LSTM拓展为前向后向并行的结构，并将两者输出合并，以此提取输入序列的相关关系。与单向LSTM相比，双向LSTM可以更加充分提取有用信息，对解决部分观测马尔科夫决策问题(POMDP，Partially Observable MarkovDecision Process)具有更优性能。

本实施方式中，所述DBRQN(Deep Bidirectional Recurrent Q-networks)算法是通过结合强化学习中基于价值的Q学习方法与循环神经网络中可以提取时间相关性的双向长短时记忆网络，形成的一种新型的频谱分配算法。以用户历史动作与感知反馈作为网络输入，寻找最优的信道接入策略，提高网络频谱资源的利用效率。

本实施方式中，当面对连续状态或状态集合较大时，传统Q-learning算法更新表格的方式捉襟见肘，需要结合深度学习中的多层神经网络代替原有方法的价值函数估计器。较为常见的是使用多层全连接网络，形成DQN(Deep Q-network)算法，该方法通过梯度反向传播(BP)算法最小化网络估计误差进行网络权重训练。

本实施方式中，如图1所示，是信道状态转移示意图，横轴表示8个信道，纵轴表示时隙，白色色块表示信道空闲，次级用户可以接入并进行信息传输。

进一步的，DBRQN算法模型的训练方法包括：

S2-1、初始化多个主用户的参数和信道占用情况；

S2-8、DBRQN算法模型训练完成，保存当前训练参数。

再进一步的，S2-4所述历史动作数据为：

特别的，次级信道在a₀时隙退避，不进行信息传输；

本实施方式中，次级信道在a₀时隙退避，不进行信息传输，目的是为了减小干扰。

本实施方式中，环境反馈确认字符也就是环境反馈ACK，ACK(Acknowledgecharacter)即是确认字符，是数据通信中接收站发给发送站的一种传输类控制字符，表示发来的数据已确认接收无误。

再进一步的，S2-4所述奖赏包括：

获取最大累计折扣奖赏对应的最优策略：

采用折扣回报表示t时刻的状态具备的回报G_t：

再进一步的，S2-6所述更新网络权重参数的方法包括：

Q(s_t,a_t)←Q(s_t,a_t)+α(R_t+1+λmax_aQ(s_t+1,a)-Q(s_t,a_t))；

其中，α表示学习步长，表征更新速率；

其中，

再进一步的，将历史动作数据输入DBRQN算法模型中，预测动态频谱空洞，次级用户感知预测到的动态频谱空洞，获取最优信道接入策略的方法包括：

S6-1、初始化主用户的参数和信道占用情况；

S6-2、将训练好的DBRQN算法模型加载到新的网络模型中；

S6-7、根据成功率和冲突率选取最优信道接入策略。

本发明采用DQN深度强化学习模型结合双向长短时记忆网络形成DBRQN算法解决动态频谱接入问题。在认知无线电框架下，次级用户(SU)可以感知并接入空闲频谱。重点在于对空闲频谱的预测。

本发明中，如图2所示，是训练过程损失函数示意图，从图2中可以看到其下降迅速、稳定，说明网络得到了很好的训练。

如图3所示，是多种算法最终成功率曲线对比图，可以看到我们提出的DBRQN优于DRQN和DQN算法，性能接近拥有额外全部状态知识的传统短时策略，表明其性能接近最优。

如图4所示，是多种算法最终冲突率曲线对比图，可见DBRQN冲突率下降迅速，可以有效预测信道空闲，避免与主用户产生冲突。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims

1.基于双向长短时记忆网络的动态频谱接入方法，其特征在于，该动态频谱接入方法包括：

次级用户传输信息的方法包括：

将历史动作数据输入DBRQN算法模型中，预测动态频谱空洞；

次级用户感知预测到的动态频谱空洞，获取最优信道接入策略，然后动态接入空闲频谱空洞，实现动态频谱共享；

DBRQN算法模型的训练方法包括：

S2-1、初始化多个主用户的参数和信道占用情况；

S2-4、将历史动作数据输入环境模拟器，从环境模拟器的反馈获取奖赏，当环境模拟器中的历史动作数据传输成功获得正反馈，当环境模拟器中的历史动作数据传输未成功获得负反馈；同时，环境模拟器自动生成下一个状态；环境模拟器根据获取的奖赏和下一个状态合并生成下一个时隙的输入向量；

S2-5、将动作S2-4获取的奖赏、下一个状态和下一个状态的动作组成元组，将该元组存入经验回放池；

S2-8、DBRQN算法模型训练完成，保存当前训练参数；

S2-4所述历史动作数据为：

特别的，次级信道在a₀时隙退避，不进行信息传输；

选取动作后获得当前动作的环境反馈确认字符，反馈集合为R＝{0,1}，0表示所选信道已被占用且传输失败，1表示所选信道空闲且传输成功；

S2-4所述奖赏包括：

获取最大累计折扣奖赏对应的最优策略：

采用折扣回报表示t时刻的状态具备的回报G_t：

其中，λ表示累计折扣因子，R_t+k+1表示t+k+1时刻的反馈集合，k表示叠加上下界符号；

S2-6所述更新网络权重参数的方法包括：

Q(s_t,a_t)←Q(s_t,a_t)+α(R_t+1+λmax_aQ(s_t+1,a_t+1)-Q(s_t,a_t))；

其中，α表示学习步长，表征更新速率；

L(w)＝E[(r+γmax_a'Q(s',a',w)-Q(s,a,w))²]；

其中，E表示对作用对象求期望，r表示采取动作后的即时奖赏，γ表示折扣因子，w表示网络的权重参数，s'表示下一个状态，a'表示下一个动作。

2.根据权利要求1所述的基于双向长短时记忆网络的动态频谱接入方法，其特征在于，将历史动作数据输入DBRQN算法模型中，预测动态频谱空洞，次级用户感知预测到的动态频谱空洞，获取最优信道接入策略的方法包括：

S6-1、初始化主用户的参数和信道占用情况；

S6-2、将训练好的DBRQN算法模型加载到新的网络模型中；

S6-7、根据成功率和冲突率选取最优信道接入策略。