CN112672359B - 基于双向长短时记忆网络的动态频谱接入方法 - Google Patents

基于双向长短时记忆网络的动态频谱接入方法 Download PDF

Info

Publication number
CN112672359B
CN112672359B CN202011505701.2A CN202011505701A CN112672359B CN 112672359 B CN112672359 B CN 112672359B CN 202011505701 A CN202011505701 A CN 202011505701A CN 112672359 B CN112672359 B CN 112672359B
Authority
CN
China
Prior art keywords
network
action
channel
data
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202011505701.2A
Other languages
English (en)
Other versions
CN112672359A (zh
Inventor
高玉龙
陈鹏
郭士增
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202011505701.2A priority Critical patent/CN112672359B/zh
Publication of CN112672359A publication Critical patent/CN112672359A/zh
Application granted granted Critical
Publication of CN112672359B publication Critical patent/CN112672359B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

基于双向长短时记忆网络的动态频谱接入方法,属于认知无线电技术领域,本发明为解决现有频谱共享使用方法未考虑频谱资源的动态性和不完全观测性,应用单一的问题。它包括:通信系统在正交频分多址情况下,每个信道固定分配给一个主用户,主用户依据自主接入策略传输信息,次级用户在每个时隙依据历史动作数据预测信道占用状态,选取其中一个未占用信道传输信息;次级用户传输信息方法包括:采用双向长短时记忆网络优化DQN强化学习算法,形成DBRQN算法模型;将历史动作数据输入DBRQN算法模型预测动态频谱空洞;感知预测到的动态频谱空洞,获取最优信道接入策略,然后动态接入空闲频谱空洞,实现动态频谱共享。本发明用于频谱共享。

Description

基于双向长短时记忆网络的动态频谱接入方法
技术领域
本发明涉及一种动态频谱接入方法,属于认知无线电技术领域。
背景技术
现代通信技术迅速发展,适用于通信的电磁波频段被陆续划分给特定用户,频谱资源由于日益稀缺成为关键战略资源。现行的固定频谱分配策略是将固定频段授权给相关用户,将这些用户称为授权用户,其对相应频段独自占用,非授权用户不得利用该频谱资源进行通信。如果频谱资源被空闲用户长期占用将会导致频谱浪费,因此引入了认知无线电技术。
认知无线电技术是一种基于感知和共享的频谱高效利用方式。网络区分主用户和次级用户。主用户即为授权用户,但与固定分配不同,认知无线电中次级用户被允许共享空闲频段,如何在不影响主用户通信同时最大限度的利用空闲频点成为频谱共享关键。
目前频谱共享使用的主要技术有传统的基于着色理论、基于拍卖机制、基于动态规划算法的分配方法。但这些方法没有考虑频谱资源的动态性以及不完全观测性,应用场景比较单一,面对复杂场景效果较差。
发明内容
本发明目的是为了解决现有频谱共享使用方法未考虑频谱资源的动态性和不完全观测性,应用单一的问题,提供了一种基于双向长短时记忆网络的动态频谱接入方法。
本发明所述基于双向长短时记忆网络的动态频谱接入方法,该动态频谱接入方法包括:
通信系统在正交频分多址的情况下,每个信道固定分配给一个主用户,主用户依据自主接入策略传输信息,次级用户在每个时隙依据历史动作数据预测信道占用状态,并选取其中一个未占用信道传输信息;
次级用户传输信息的方法包括:
采用双向长短时记忆网络优化DQN强化学习算法,形成DBRQN算法模型;
将历史动作数据输入DBRQN算法模型中,预测动态频谱空洞;
次级用户感知预测到的动态频谱空洞,获取最优信道接入策略,然后动态接入空闲频谱空洞,实现动态频谱共享。
优选的,DBRQN算法模型的训练方法包括:
S2-1、初始化多个主用户的参数和信道占用情况;
S2-2、初始化次级用户智能体的网络权重参数,同时初始化经验回放池;
S2-3、次级用户输入历史感知信道标号和历史感知结果序列数据,以随机的感知结果序列作为初始启动数据,输出值Q最大的最优动作,同时输出一个0至1的随机数,当随机数大于预先设置的阈值时选取输出的值Q最大的最优动作,当随机数小于预先设置的阈值时采用随机动作进行随机探索;逐步减小阈值,使随机探索的概率随训练的进行逐步减小;
S2-4、将历史动作数据输入环境模拟器,从环境模拟器的反馈获取奖赏,当环境模拟器中的历史动作数据传输成功获得正反馈,当当环境模拟器中的历史动作数据传输未成功获得负反馈;同时,环境模拟器自动生成下一个状态;环境模拟器根据获取的奖赏和下一个状态合并生成下一个时隙的输入向量;
S2-5、将动作、S2-4获取的奖赏、下一个状态和下一个状态的动作组成元组,将该元组存入经验回放池;
S2-6、从经验回放池中随机选取训练数据进行网络训练,更新网络权重参数;
S2-7、判断更新网络权重参数过程中的网络估计误差是否小于阈值,否则返回执行S2-3,是则执行S2-8;
判断更新网络权重参数过程中的训练步数是否达到预设的最大训练步长值,否则返回执行S2-3,是则执行S2-8;
S2-8、DBRQN算法模型训练完成,保存当前训练参数。
优选的,S2-4所述历史动作数据为:
动作A=(a0,a1,a2,…,an),其中,n表示信道总数,ai,i=0,1…,n表示选取对应的信道i进行接入及信息传输;
特别的,次级信道在a0时隙退避,不进行信息传输;
动作均以独热编码形式给出,即对应位置为1,其余位置为0;
选取动作后获得当前动作的环境反馈确认字符,反馈集合为R={0,1},0表示所选信道已被占用且传输失败,1表示所选信道空闲且传输成功。
优选的,S2-4所述奖赏包括:
获取最大累计折扣奖赏对应的最优策略:
采用折扣回报表示t时刻的状态具备的回报Gt
Figure BDA0002844863830000031
其中,λ表示累计折扣因子,Rt+k+1表示t+k+1时刻的反馈集合,k表示叠加上下界符号。
优选的,S2-6所述更新网络权重参数的方法包括:
采用值函数Q(s,a)表示当前状态s、当前状态对应动作a的优劣,结合贝尔曼方程与时间差分方法对值函数进行更新:
Q(st,at)←Q(st,at)+α(Rt+1+λmaxaQ(st+1,a)-Q(st,at));
其中,α表示学习步长,表征更新速率;
当面对连续状态或状态集合较大时,采用结合深度学习的多层神经网络代替价值函数估计器,使用多层全连接网络,形成DQN强化学习算法,通过梯度反向传播算法最小化网络估计误差进行网络权重训练,网络估计误差为:
Figure BDA0002844863830000032
其中,
Figure BDA0002844863830000033
表示对作用对象求期望,r表示采取动作后的即时奖赏,γ表示折扣因子,w表示网络的权重参数,s'表示下一个状态,a'表示下一个动作。
优选的,将历史动作数据输入DBRQN算法模型中,预测动态频谱空洞,次级用户感知预测到的动态频谱空洞,获取最优信道接入策略的方法包括:
S6-1、初始化主用户的参数和信道占用情况;
S6-2、将训练好的DBRQN算法模型加载到新的网络模型中;
S6-3、次级用户将输入数据上传至S6-2获取的网络模型中,选取网络模型值Q最大的输出作为当前时刻的动作数据,网络模型同时输出动作数据;
所述输入数据包括历史感知信道标号和历史感知结果序列数据,以随机的感知结果序列作为初始启动数据;
S6-4、将当前时刻的动作数据输入环境模拟器,获取奖赏和下一个状态,生成下一个时隙的输入向量;
S6-5、判断测试步数是否达到预设的最大测试步长值,否则返回执行S6-3,是则执行S6-6;
S6-6、统计网络模型输出的各动作数据,计算成功率和冲突率,并绘制相应曲线;
S6-7、根据成功率和冲突率选取最优信道接入策略。
本发明的优点:本发明提出的基于双向长短时记忆网络的动态频谱接入方法,结合双向长短时记忆网络与深度强化学习,对动态频谱空洞进行感知预测后接入,从而实现动态频谱共享。在设置的独立信道以及相关信道场景下,训练过程中,损失函数下降迅速,经过多次迭代,算法最终性能稳定且优于传统与已有算法。最终成功率接近最优解,冲突率可以下降到阈值以下,表现优异。
附图说明
图1是信道状态转移示意图;
图2是训练过程损失函数示意图;
图3是多种算法最终成功率曲线对比图,其中,曲线a表示Myopic算法,曲线b表示DQN算法,曲线c表示DRQN算法,曲线d表示DBRQN算法;
图4是多种算法最终冲突率曲线对比图,其中,曲线a表示Myopic算法,曲线b表示DQN算法,曲线c表示DRQN算法,曲线d表示DBRQN算法。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
具体实施方式一:下面结合图1说明本实施方式,本实施方式所述基于双向长短时记忆网络的动态频谱接入方法,该动态频谱接入方法包括:
通信系统在正交频分多址的情况下,每个信道固定分配给一个主用户,主用户依据自主接入策略传输信息,次级用户在每个时隙依据历史动作数据预测信道占用状态,并选取其中一个未占用信道传输信息;
次级用户传输信息的方法包括:
采用双向长短时记忆网络优化DQN强化学习算法,形成DBRQN算法模型;
将历史动作数据输入DBRQN算法模型中,预测动态频谱空洞;
次级用户感知预测到的动态频谱空洞,获取最优信道接入策略,然后动态接入空闲频谱空洞,实现动态频谱共享。
本实施方式中,长短时记忆网络(LSTM)是循环神经网络(RNN)的一种变体,其加入“遗忘门”等操作使得网络在提取序列时间相关性的同时避免梯度爆炸或梯度消失问题。而双向长短时记忆网络则是将原先输入层前向的LSTM拓展为前向后向并行的结构,并将两者输出合并,以此提取输入序列的相关关系。与单向LSTM相比,双向LSTM可以更加充分提取有用信息,对解决部分观测马尔科夫决策问题(POMDP,Partially Observable MarkovDecision Process)具有更优性能。
本实施方式中,所述DBRQN(Deep Bidirectional Recurrent Q-networks)算法是通过结合强化学习中基于价值的Q学习方法与循环神经网络中可以提取时间相关性的双向长短时记忆网络,形成的一种新型的频谱分配算法。以用户历史动作与感知反馈作为网络输入,寻找最优的信道接入策略,提高网络频谱资源的利用效率。
本实施方式中,当面对连续状态或状态集合较大时,传统Q-learning算法更新表格的方式捉襟见肘,需要结合深度学习中的多层神经网络代替原有方法的价值函数估计器。较为常见的是使用多层全连接网络,形成DQN(Deep Q-network)算法,该方法通过梯度反向传播(BP)算法最小化网络估计误差进行网络权重训练。
本实施方式中,如图1所示,是信道状态转移示意图,横轴表示8个信道,纵轴表示时隙,白色色块表示信道空闲,次级用户可以接入并进行信息传输。
进一步的,DBRQN算法模型的训练方法包括:
S2-1、初始化多个主用户的参数和信道占用情况;
S2-2、初始化次级用户智能体的网络权重参数,同时初始化经验回放池;
S2-3、次级用户输入历史感知信道标号和历史感知结果序列数据,以随机的感知结果序列作为初始启动数据,输出值Q最大的最优动作,同时输出一个0至1的随机数,当随机数大于预先设置的阈值时选取输出的值Q最大的最优动作,当随机数小于预先设置的阈值时采用随机动作进行随机探索;逐步减小阈值,使随机探索的概率随训练的进行逐步减小;
S2-4、将历史动作数据输入环境模拟器,从环境模拟器的反馈获取奖赏,当环境模拟器中的历史动作数据传输成功获得正反馈,当当环境模拟器中的历史动作数据传输未成功获得负反馈;同时,环境模拟器自动生成下一个状态;环境模拟器根据获取的奖赏和下一个状态合并生成下一个时隙的输入向量;
S2-5、将动作、S2-4获取的奖赏、下一个状态和下一个状态的动作组成元组,将该元组存入经验回放池;
S2-6、从经验回放池中随机选取训练数据进行网络训练,更新网络权重参数;
S2-7、判断更新网络权重参数过程中的网络估计误差是否小于阈值,否则返回执行S2-3,是则执行S2-8;
判断更新网络权重参数过程中的训练步数是否达到预设的最大训练步长值,否则返回执行S2-3,是则执行S2-8;
S2-8、DBRQN算法模型训练完成,保存当前训练参数。
再进一步的,S2-4所述历史动作数据为:
动作A=(a0,a1,a2,…,an),其中,n表示信道总数,ai,i=0,1…,n表示选取对应的信道i进行接入及信息传输;
特别的,次级信道在a0时隙退避,不进行信息传输;
动作均以独热编码形式给出,即对应位置为1,其余位置为0;
选取动作后获得当前动作的环境反馈确认字符,反馈集合为R={0,1},0表示所选信道已被占用且传输失败,1表示所选信道空闲且传输成功。
本实施方式中,次级信道在a0时隙退避,不进行信息传输,目的是为了减小干扰。
本实施方式中,环境反馈确认字符也就是环境反馈ACK,ACK(Acknowledgecharacter)即是确认字符,是数据通信中接收站发给发送站的一种传输类控制字符,表示发来的数据已确认接收无误。
再进一步的,S2-4所述奖赏包括:
获取最大累计折扣奖赏对应的最优策略:
采用折扣回报表示t时刻的状态具备的回报Gt
Figure BDA0002844863830000061
其中,λ表示累计折扣因子,Rt+k+1表示t+k+1时刻的反馈集合,k表示叠加上下界符号。
再进一步的,S2-6所述更新网络权重参数的方法包括:
采用值函数Q(s,a)表示当前状态s、当前状态对应动作a的优劣,结合贝尔曼方程与时间差分方法对值函数进行更新:
Q(st,at)←Q(st,at)+α(Rt+1+λmaxaQ(st+1,a)-Q(st,at));
其中,α表示学习步长,表征更新速率;
当面对连续状态或状态集合较大时,采用结合深度学习的多层神经网络代替价值函数估计器,使用多层全连接网络,形成DQN强化学习算法,通过梯度反向传播算法最小化网络估计误差进行网络权重训练,网络估计误差为:
Figure BDA0002844863830000071
其中,
Figure BDA0002844863830000072
表示对作用对象求期望,r表示采取动作后的即时奖赏,γ表示折扣因子,w表示网络的权重参数,s'表示下一个状态,a'表示下一个动作。
再进一步的,将历史动作数据输入DBRQN算法模型中,预测动态频谱空洞,次级用户感知预测到的动态频谱空洞,获取最优信道接入策略的方法包括:
S6-1、初始化主用户的参数和信道占用情况;
S6-2、将训练好的DBRQN算法模型加载到新的网络模型中;
S6-3、次级用户将输入数据上传至S6-2获取的网络模型中,选取网络模型值Q最大的输出作为当前时刻的动作数据,网络模型同时输出动作数据;
所述输入数据包括历史感知信道标号和历史感知结果序列数据,以随机的感知结果序列作为初始启动数据;
S6-4、将当前时刻的动作数据输入环境模拟器,获取奖赏和下一个状态,生成下一个时隙的输入向量;
S6-5、判断测试步数是否达到预设的最大测试步长值,否则返回执行S6-3,是则执行S6-6;
S6-6、统计网络模型输出的各动作数据,计算成功率和冲突率,并绘制相应曲线;
S6-7、根据成功率和冲突率选取最优信道接入策略。
本发明采用DQN深度强化学习模型结合双向长短时记忆网络形成DBRQN算法解决动态频谱接入问题。在认知无线电框架下,次级用户(SU)可以感知并接入空闲频谱。重点在于对空闲频谱的预测。
本发明中,如图2所示,是训练过程损失函数示意图,从图2中可以看到其下降迅速、稳定,说明网络得到了很好的训练。
如图3所示,是多种算法最终成功率曲线对比图,可以看到我们提出的DBRQN优于DRQN和DQN算法,性能接近拥有额外全部状态知识的传统短时策略,表明其性能接近最优。
如图4所示,是多种算法最终冲突率曲线对比图,可见DBRQN冲突率下降迅速,可以有效预测信道空闲,避免与主用户产生冲突。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims (2)

1.基于双向长短时记忆网络的动态频谱接入方法,其特征在于,该动态频谱接入方法包括:
通信系统在正交频分多址的情况下,每个信道固定分配给一个主用户,主用户依据自主接入策略传输信息,次级用户在每个时隙依据历史动作数据预测信道占用状态,并选取其中一个未占用信道传输信息;
次级用户传输信息的方法包括:
采用双向长短时记忆网络优化DQN强化学习算法,形成DBRQN算法模型;
将历史动作数据输入DBRQN算法模型中,预测动态频谱空洞;
次级用户感知预测到的动态频谱空洞,获取最优信道接入策略,然后动态接入空闲频谱空洞,实现动态频谱共享;
DBRQN算法模型的训练方法包括:
S2-1、初始化多个主用户的参数和信道占用情况;
S2-2、初始化次级用户智能体的网络权重参数,同时初始化经验回放池;
S2-3、次级用户输入历史感知信道标号和历史感知结果序列数据,以随机的感知结果序列作为初始启动数据,输出值Q最大的最优动作,同时输出一个0至1的随机数,当随机数大于预先设置的阈值时选取输出的值Q最大的最优动作,当随机数小于预先设置的阈值时采用随机动作进行随机探索;逐步减小阈值,使随机探索的概率随训练的进行逐步减小;
S2-4、将历史动作数据输入环境模拟器,从环境模拟器的反馈获取奖赏,当环境模拟器中的历史动作数据传输成功获得正反馈,当环境模拟器中的历史动作数据传输未成功获得负反馈;同时,环境模拟器自动生成下一个状态;环境模拟器根据获取的奖赏和下一个状态合并生成下一个时隙的输入向量;
S2-5、将动作S2-4获取的奖赏、下一个状态和下一个状态的动作组成元组,将该元组存入经验回放池;
S2-6、从经验回放池中随机选取训练数据进行网络训练,更新网络权重参数;
S2-7、判断更新网络权重参数过程中的网络估计误差是否小于阈值,否则返回执行S2-3,是则执行S2-8;
判断更新网络权重参数过程中的训练步数是否达到预设的最大训练步长值,否则返回执行S2-3,是则执行S2-8;
S2-8、DBRQN算法模型训练完成,保存当前训练参数;
S2-4所述历史动作数据为:
动作A=(a0,a1,a2,…,an),其中,n表示信道总数,ai,i=0,1…,n表示选取对应的信道i进行接入及信息传输;
特别的,次级信道在a0时隙退避,不进行信息传输;
动作均以独热编码形式给出,即对应位置为1,其余位置为0;
选取动作后获得当前动作的环境反馈确认字符,反馈集合为R={0,1},0表示所选信道已被占用且传输失败,1表示所选信道空闲且传输成功;
S2-4所述奖赏包括:
获取最大累计折扣奖赏对应的最优策略:
采用折扣回报表示t时刻的状态具备的回报Gt
Figure FDA0003580423890000021
其中,λ表示累计折扣因子,Rt+k+1表示t+k+1时刻的反馈集合,k表示叠加上下界符号;
S2-6所述更新网络权重参数的方法包括:
采用值函数Q(s,a)表示当前状态s、当前状态对应动作a的优劣,结合贝尔曼方程与时间差分方法对值函数进行更新:
Q(st,at)←Q(st,at)+α(Rt+1+λmaxaQ(st+1,at+1)-Q(st,at));
其中,α表示学习步长,表征更新速率;
当面对连续状态或状态集合较大时,采用结合深度学习的多层神经网络代替价值函数估计器,使用多层全连接网络,形成DQN强化学习算法,通过梯度反向传播算法最小化网络估计误差进行网络权重训练,网络估计误差为:
L(w)=E[(r+γmaxa'Q(s',a',w)-Q(s,a,w))2];
其中,E表示对作用对象求期望,r表示采取动作后的即时奖赏,γ表示折扣因子,w表示网络的权重参数,s'表示下一个状态,a'表示下一个动作。
2.根据权利要求1所述的基于双向长短时记忆网络的动态频谱接入方法,其特征在于,将历史动作数据输入DBRQN算法模型中,预测动态频谱空洞,次级用户感知预测到的动态频谱空洞,获取最优信道接入策略的方法包括:
S6-1、初始化主用户的参数和信道占用情况;
S6-2、将训练好的DBRQN算法模型加载到新的网络模型中;
S6-3、次级用户将输入数据上传至S6-2获取的网络模型中,选取网络模型值Q最大的输出作为当前时刻的动作数据,网络模型同时输出动作数据;
所述输入数据包括历史感知信道标号和历史感知结果序列数据,以随机的感知结果序列作为初始启动数据;
S6-4、将当前时刻的动作数据输入环境模拟器,获取奖赏和下一个状态,生成下一个时隙的输入向量;
S6-5、判断测试步数是否达到预设的最大测试步长值,否则返回执行S6-3,是则执行S6-6;
S6-6、统计网络模型输出的各动作数据,计算成功率和冲突率,并绘制相应曲线;
S6-7、根据成功率和冲突率选取最优信道接入策略。
CN202011505701.2A 2020-12-18 2020-12-18 基于双向长短时记忆网络的动态频谱接入方法 Expired - Fee Related CN112672359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011505701.2A CN112672359B (zh) 2020-12-18 2020-12-18 基于双向长短时记忆网络的动态频谱接入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011505701.2A CN112672359B (zh) 2020-12-18 2020-12-18 基于双向长短时记忆网络的动态频谱接入方法

Publications (2)

Publication Number Publication Date
CN112672359A CN112672359A (zh) 2021-04-16
CN112672359B true CN112672359B (zh) 2022-06-21

Family

ID=75406804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011505701.2A Expired - Fee Related CN112672359B (zh) 2020-12-18 2020-12-18 基于双向长短时记忆网络的动态频谱接入方法

Country Status (1)

Country Link
CN (1) CN112672359B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113423110B (zh) * 2021-06-22 2022-04-12 东南大学 基于深度强化学习的多用户多信道动态频谱接入方法
CN113810954B (zh) * 2021-09-08 2023-12-29 国网宁夏电力有限公司信息通信公司 基于流量预测与深度强化学习的虚拟资源动态扩缩容方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108809456A (zh) * 2018-07-04 2018-11-13 天津大学 一种基于改进强化学习的集中式认知无线电频谱分配方法
CN110225525A (zh) * 2019-06-06 2019-09-10 广东工业大学 一种基于认知无线电网络的频谱共享方法、装置及设备
CN111224726A (zh) * 2019-11-21 2020-06-02 南京邮电大学 一种基于长短期记忆网络的视频直播系统及其实现方法
CN111654342A (zh) * 2020-06-03 2020-09-11 中国人民解放军国防科技大学 基于有先验知识强化学习的动态频谱接入方法
WO2020183182A1 (en) * 2019-03-13 2020-09-17 Airbus Defence And Space Limited Managing satellite bearer resources
CN111726217A (zh) * 2020-06-29 2020-09-29 中南大学 基于深度强化学习的宽带无线通信自主选频方法及系统
CN111935722A (zh) * 2020-08-20 2020-11-13 中国人民解放军国防科技大学 基于用户在线学习与低开销合作的动态频谱共享方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3039351B1 (fr) * 2015-07-21 2019-03-15 Institut National Des Sciences Appliquees (Insa) Procede d'acces opportuniste au spectre
EP3295611B1 (en) * 2016-07-13 2018-12-05 Incelligent P.C. Early warning and recommendation system for the proactive management of wireless broadband networks
US11533115B2 (en) * 2019-05-15 2022-12-20 Huawei Technologies Co., Ltd. Systems and methods for wireless signal configuration by a neural network

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108809456A (zh) * 2018-07-04 2018-11-13 天津大学 一种基于改进强化学习的集中式认知无线电频谱分配方法
WO2020183182A1 (en) * 2019-03-13 2020-09-17 Airbus Defence And Space Limited Managing satellite bearer resources
CN110225525A (zh) * 2019-06-06 2019-09-10 广东工业大学 一种基于认知无线电网络的频谱共享方法、装置及设备
CN111224726A (zh) * 2019-11-21 2020-06-02 南京邮电大学 一种基于长短期记忆网络的视频直播系统及其实现方法
CN111654342A (zh) * 2020-06-03 2020-09-11 中国人民解放军国防科技大学 基于有先验知识强化学习的动态频谱接入方法
CN111726217A (zh) * 2020-06-29 2020-09-29 中南大学 基于深度强化学习的宽带无线通信自主选频方法及系统
CN111935722A (zh) * 2020-08-20 2020-11-13 中国人民解放军国防科技大学 基于用户在线学习与低开销合作的动态频谱共享方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Deep Multi-User Reinforcement Learning for Distributed Dynamic Spectrum Access;Oshri Naparstek等;《IEEE Transactions on Wireless Communications》;20181112;第18卷(第01期);全文 *
Deep Reinforcement Learning for Dynamic Multichannel Access in Wireless Networks;Shangxing Wang等;《IEEE Transaction on Cognitive Communications and Networking》;20180227;第04卷(第02期);全文 *
Dynamic Multi-channel Access in Wireless System with Deep Reinforcement Learning;Fan Li等;《2020 12th International Conference on Advanced Computational Intelligence(ICACI)》;20200826;全文 *
一种利用优先经验回放深度Q-Learning的频谱接入算法;盘小娜等;《电讯技术》;20200527(第05期);全文 *
基于Q学习异构网络干扰协调算法;钱进,郭士增,王孝;《现代电子技术 通信与信息技术》;20161228;第39卷(第23期);全文 *
基于深度强化学习的动态频谱分配方法研究;叶梓峰;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200215(第02期);全文 *
基于深度强化学习的智能频谱分配策略研究;杨洁祎等;《数据通信》;20200807(第03期);全文 *

Also Published As

Publication number Publication date
CN112672359A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN109862610B (zh) 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN113242568B (zh) 一种不确定网络环境中的任务卸载和资源分配方法
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN109639377B (zh) 基于深度强化学习的频谱资源管理方法
Yuan et al. Meta-reinforcement learning based resource allocation for dynamic V2X communications
CN112672359B (zh) 基于双向长短时记忆网络的动态频谱接入方法
CN113316154B (zh) 一种授权和免授权d2d通信资源联合智能分配方法
CN106454700B (zh) 基于社交网络的d2d通信内容分发方法
CN113784410B (zh) 基于强化学习td3算法的异构无线网络垂直切换方法
CN110492955B (zh) 基于迁移学习策略的频谱预测切换方法
CN110856268B (zh) 一种无线网络动态多信道接入方法
CN103209419B (zh) 一种面向用户需求和提升网络性能的动态频谱接入的方法
CN109803292B (zh) 一种基于强化学习的多次级用户移动边缘计算的方法
CN113364859A (zh) 车联网中面向mec的联合计算资源分配和卸载决策优化方案
CN116390125A (zh) 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法
CN116456493A (zh) 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质
Han et al. Joint resource allocation in underwater acoustic communication networks: A game-based hierarchical adversarial multiplayer multiarmed bandit algorithm
CN109039505B (zh) 一种认知无线电网络中信道状态转移概率预测方法
CN114885422A (zh) 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法
CN113590279A (zh) 一种面向多核边缘计算服务器的任务调度和资源分配方法
Yu et al. User-centric heterogeneous-action deep reinforcement learning for virtual reality in the metaverse over wireless networks
Yan et al. Gaussian process reinforcement learning for fast opportunistic spectrum access
CN113891327A (zh) 一种基于深度多用户drqn的动态频谱接入方法
CN114615744A (zh) 一种知识迁移强化学习网络切片通感算资源协同优化方法
Ren et al. Joint spectrum allocation and power control in vehicular communications based on dueling double DQN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220621