CN110856268A - 一种无线网络动态多信道接入方法 - Google Patents
一种无线网络动态多信道接入方法 Download PDFInfo
- Publication number
- CN110856268A CN110856268A CN201911047777.2A CN201911047777A CN110856268A CN 110856268 A CN110856268 A CN 110856268A CN 201911047777 A CN201911047777 A CN 201911047777A CN 110856268 A CN110856268 A CN 110856268A
- Authority
- CN
- China
- Prior art keywords
- controller
- channel
- sub
- meta
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 230000006870 function Effects 0.000 claims abstract description 19
- 238000009826 distribution Methods 0.000 claims abstract description 16
- 230000002787 reinforcement Effects 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 12
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 210000004027 cell Anatomy 0.000 claims description 3
- 230000001413 cellular effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 abstract description 8
- 238000004891 communication Methods 0.000 abstract description 4
- 230000003993 interaction Effects 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W74/00—Wireless channel access
- H04W74/08—Non-scheduled access, e.g. ALOHA
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/38—Services specially adapted for particular environments, situations or purposes for collecting sensor information
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种无线网络动态多信道接入方法,针对无线传感网络中信道的高度相关建立遵循马尔科夫联合分布条件下的动态多信道问题模型,从而解决外部干扰对动态多信道接入的影响,针对指数级计算量问题将动态多信道问题模型通过深度强化学习方法进行求解,把DQN算法中的神经网络看作逼近函数来近似Q值,由此避免了庞大的Q表格带来的指数级计算量;通过双控制器在不同维度层级上提取特征值,近似出不同Q值,再通过两者之间的相互制约以及它们与环境的交互不断训练神经网络,以达到最优的接入信道策略。本发明信道遵循马尔科夫联合分布,在保障主用户通信质量的前提下,考虑信道之间的相关度,提高频谱的利用率。
Description
技术领域
本发明属于本无线网络中动态频谱接入技术领域,具体涉及一种无线网络动态多信道接入方法。
背景技术
在认知无线电研究的背景下,一个标准的假设是次用户可能搜索和使用没有被主用户使用的空闲频道。为了提高无线网络频谱利用率、满足日益增长的容量需求,针对作为认知无线电关键技术之一的动态频谱接入技术的研究正在展开。
信道独立且同分布的情况下,短视策略(Myopic policy)具有简单、鲁棒的循环结构,除了正相关和负相关外,不需要知道转移概率。信道独立,但遵循不同分布时,动态多信道问题也可以建模为Restless Multi-armed bandit(RMAB)问题,目标是随着时间的推移使总期望奖励最大化。信道相同分布但不独立的情况下,Whittle Index策略具有与短视策略相同的简单半通用结构和最优性结果。
虽然现有的许多研究都集中在动态频谱接入技术的算法设计和实现上,但是仍然存在以下问题:1)现有的研究大多是在信道相互独立的前提下进行的,忽略了外部干扰会导致无线传感器网络中的信道高度相关;(N个相关信道,联合分布);2)由于用户只能在每个时隙中观察所选的信道,所以问题可以看作为一个部分可观察的马尔科夫决策过程(POMDP),但是找到精确的解需要指数计算,复杂度高;从而导致频谱资源利用率低,降低了主用户通信质量。
发明内容
本发明的目的在于提供一种无线网络动态多信道接入方法,以克服现有技术频谱资源利用率低、主用户通信质量差的问题,本发明能够在保障主用户通信质量的前提下,考虑信道之间的相关度,提高频谱的利用率,在没有先验知识和状态维度极大情况下,实现良好的动态多信道接入。
为达到上述目的,本发明采用如下技术方案:
一种无线网络动态多信道接入方法,包括以下步骤:
步骤1),建立遵循马尔科夫联合分布条件下的动态多信道问题模型,动态多信道问题模型包括信道环境中的多个信道状态信息;
步骤2)、基于双控制器深度强化学习方法获取信道环境重多个信道状态信息误差最小信道信息,以多个信道状态信息误差最小信道信息所对应的信道信息作为接入信道,从而实现动态网络接入最优信道。
进一步的,针对无线传感网络中信道的高度相关问题,建立遵循马尔科夫联合分布条件下的动态多信道问题模型;
遵循马尔科夫联合分布条件下的动态多信道问题模型为:
C2:Si=[Si1,...,Sik,...,SiN]
C6:
其中,C1为马尔科夫链的状态空间,C2是长度为N的向量,Sik是信道k状态的二进制表示:好的(1)或坏的(0);C3为信念向量,是包含历史信息的状态条件概率,P为马尔科夫链的转移矩阵;C4为信念向量的更新,C5为预期累计折扣回报,π(Ω(t))为当前时隙t信念向量为Ω(t)时的策略,Rπ(Ω(t))为策略的相应奖励,γ为折扣因子,C6为最大预期累计折扣回报。
进一步的,双控制器包括元控制器和子控制器。
进一步的,元控制器通过估计值函数获取信道编号信息,元控制器获取的信道编号信息作为子控制器的输入,子控制器通过估计值函数获取新的信道编号信息作为输出,若子控制器获取新的信道编号信息输出满足目标要求,则完成目标的多信道接入,若子控制器获取新的信道编号信息输出不满足目标要求,则重复上述步骤:通过元控制器重新获取信道编号信息,直至子控制器获取新的信道编号信息输出满足目标要求。
进一步的,具体包括以下步骤:
1)、首先初始化子控制器和元控制器的经验缓存{d1,d2}、深度神经网络{Q1,Q2}、搜索概率{ε1,ε2}、折扣因子γ、迭代次数和信道环境;
2)、通过元控制器从信道环境中随机获取一个信道的初始状态S,同时生成一个随机数εi2,如果随机数εi2小于元控制器初始化后的搜索概率ε2,则从元控制器的动作集中随机获取一个目标动作g做为子控制器的输入,如果随机数εi大于等于元控制器初始化后的搜索概率ε2,则通过元控制器神经网络给出的最大θ2(s,g;θ2,i)值得到的目标动作g做为子控制器的输入;
3)、元控制器将获取的初始状态S赋值给子控制器,子控制器同时生成一个随机数εi1,如果随机数εi1小于子控制器初始化后的搜索概率ε1,则从子控制器的动作集中随机获取一个目标动作a做为子控制器的输出,如果随机数εi1大于等于子控制器初始化后的搜索概率ε1,则通过子控制器神经网络给出的最大Q1(s,a;θ1,i,g)值得到子控制器的输出a;
4)、如果子控制器的输出a得到的信道良好,则完成目标的多信道接入,如果子控制器的输出a得到的信道占用,则返回步骤2),直至子控制器的输出a得到的信道良好,完成目标的多信道接入。
进一步的,步骤4)中,根据子控制器的输出a,从信道环境中获取下一个非子控制器输出信道信息的下一个信道状态s',获取内部奖励r,将{s,a,r,s'}存入子控制器经验缓存d1中;同时更新元控制器神经网络的参数θ2和子控制器神经网络的参数θ1;同时从环境获得外部奖励f,累加外部奖励f为得到累加奖励F',将{s0,g,F',s'}存入元控制器经验缓存d2中,完成一次信道信息选择;获取内部奖励r具体为:如果子控制器的输出a得到的信道良好,则传输成功,内部奖励为正奖励,如果子控制器的输出a得到的信道占用,则传输失败,内部奖励为负奖励。
进一步的,元控制器通过估计值函数获取信道编号信息具体如下式:
C12:L2(θ2,i)=E[(y2,i-Q2(s,g;θ2,i))2]
C11为元控制器的实际输出值,C12为元控制器的损失函数,g为元控制器输出的目标动作,θ2元控制器神经网络的参数,y1,i为依据子控制器下一时隙的估计Q值得出的实际Q值,y2,i为依据元控制器下一时隙的估计Q值得出的实际Q值。
进一步的,步骤4)中,同时更新元控制器神经网络的参数θ2和子控制器神经网络的参数θ1;元控制器神经网络的参数θ2和子控制器神经网络的参数θ1分别通过式13和式16更新:
C13:
C16:
L1(θ1,i)为子控制器实际Q值和估计Q值之间的误差期望,C16是对C15的梯度下降;L2(θ2,i)为元控制器实际Q值和估计Q值之间的误差期望,C13是对C12的梯度下降。
进一步的,子控制器通过估计值函数获取信道编号信息如下式:
C15:L1(θ1,i)=E[(y1,i-Q1(s,a;θ1,i,g))2]
C14为子控制器的实际输出值,C15为控制器的损失函数。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种无线网络动态多信道接入方法,通过建立遵循马尔科夫联合分布条件下的动态多信道问题模型,动态多信道问题模型包括信道环境中的多个信道状态信息;基于双控制器深度强化学习方法获取信道环境重多个信道状态信息误差最小信道信息,以多个信道状态信息误差最小信道信息所对应的信道信息作为接入信道,从而实现动态网络接入最优信道,本发明针对无线传感网络中信道的高度相关建立遵循马尔科夫联合分布条件下的动态多信道问题模型,从而解决外部干扰对动态多信道接入的影响,针对指数级计算量问题将动态多信道问题模型通过深度强化学习方法进行求解,把DQN算法中的神经网络看作逼近函数来近似Q值,由此避免了庞大的Q表格带来的指数级计算量;通过双控制器在不同维度层级上提取特征值,近似出不同Q值,再通过两者之间的相互制约以及它们与环境的交互不断训练神经网络,以达到最优的接入信道策略。本发明信道遵循马尔科夫联合分布,在保障主用户通信质量的前提下,考虑信道之间的相关度,提高频谱的利用率。
进一步的,针对不同层级上的隐特征值影响问题将深度强化学习问题通过引入控制器与子控制器进行求解,控制器与子控制器分别为两个不相干的深度神经网络,在深度强化学习能很好的解决动态多信道接入问题的情况下,优化性能。
附图说明
图1为本发明流程示意图。
图2为本发明Episode 0时Q损失与迭代次数的关系图;
图3为本发明中训练次数与奖励的关系图;
图4为采用DQN算法得出的训练次数与奖励之间实验结果图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
本发明考虑的动态多信道访问问题,一个用户动态从N个信道中选择一个来传输数据包;每个信道可以处于两种状态之一:好的(1)或坏的(0)。由于信道可能是相互关联的,所以整个系统可以描述为一个2N状态的马尔科夫链;在每个时隙的开始,用户选择一个信道来检查和传输数据包;如果信道良好,则传输成功,用户获得正的奖励(+1);否则传输失败,用户获得负的奖励(-1)。目标是使预期的长期回报最大化。
如图1所示,具体地,一种无线网络动态多信道接入方法,包括如下步骤:
步骤1),建立遵循马尔科夫联合分布条件下的动态多信道问题模型,动态多信道问题模型包括信道环境中的多个信道状态信息;
动态多信道问题模型即:一个用户动态的从N个信道中选择一个信道来传输数据包,每个信道为空闲和占用两种状态,多个信道之间是相互关联的,所以整个多信道系统描述为一个2N状态的马尔科夫链,在每个时隙的开始,用户选择一个信道来检查和传输数据包,如果信道良好,则传输成功,用户获得正的奖励(+1);否则传输失败,用户获得负的奖励(-1);目标是使预期的长期回报最大化。
具体的,针对无线传感网络中信道的高度相关问题,建立遵循马尔科夫联合分布条件下的动态多信道问题模型;
遵循马尔科夫联合分布条件下的动态多信道问题模型为:
C2:Si=[Si1,...,Sik,...,SiN]
其中,C1为马尔科夫链的状态空间,C2是长度为N的向量,Sik是信道k状态的二进制表示:好的(1)或坏的(0);C3为信念向量,是包含历史信息的状态条件概率,P为马尔科夫链的转移矩阵;C4为信念向量的更新,C5为预期累计折扣回报,π(Ω(t))为当前时隙t信念向量为Ω(t)时的策略,Rπ(Ω(t))为策略的相应奖励,γ为折扣因子,C6为最大预期累计折扣回报。
步骤2)、基于双控制器深度强化学习方法获取信道环境重多个信道状态信息误差最小信道信息,以多个信道状态信息误差最小信道信息所对应的信道信息作为接入信道,从而实现动态网络接入最优信道。
元控制器通过估计值函数获取信道编号信息,满足元控制器获得最大化预期未来外在奖励,元控制器获取的信道编号信息作为子控制器的输入,子控制器通过估计值函数获取新的信道编号信息作为输出,满足子控制器最大化预期未来内在奖励,若子控制器获取新的信道编号信息输出满足目标要求,即新的信道编号信息传输成功,则完成目标的多信道接入,若子控制器获取新的信道编号信息输出不满足目标要求,即新的信道编号信息传输失败,则重复上述步骤,通过元控制器重新获取信道编号信息,直至子控制器获取新的信道编号信息输出满足目标要求。
具体包括以下步骤:双控制器包括元控制器和子控制器;
1)、首先初始化子控制器和元控制器的经验缓存{d1,d2}、深度神经网络{Q1,Q2}、搜索概率{ε1,ε2}、折扣因子γ、迭代次数和信道环境;
2)、通过元控制器从信道环境中随机获取一个信道的初始状态S,同时生成一个随机数εi2,如果随机数εi2小于元控制器初始化后的搜索概率ε2,则从元控制器的动作集中随机获取一个目标动作g做为子控制器的输入,即随机生成信道编号作为子控制器的输入,如果随机数εi大于等于元控制器初始化后的搜索概率ε2,则通过元控制器神经网络给出的最大θ2(s,g;θ2,i)值得到的目标动作g做为子控制器的输入;
3)、元控制器将获取的初始状态S赋值给子控制器,子控制器同时生成一个随机数εi1,如果随机数εi1小于子控制器初始化后的搜索概率ε1,则从子控制器的动作集中随机获取一个目标动作a做为子控制器的输出,即最终接入的信道编号,如果随机数εi1大于等于子控制器初始化后的搜索概率ε1,则通过子控制器神经网络给出的最大Q1(s,a;θ1,i,g)值得到子控制器的输出a;
4)、如果子控制器的输出a得到的信道良好,则传输成功,则完成目标的多信道接入,如果子控制器的输出a得到的信道占用,则传输失败,则返回步骤2),直至子控制器的输出a得到的信道良好,完成目标的多信道接入。
步骤4)中,根据子控制器的输出a,获取内部奖励r,将{s,a,r,s'}存入子控制器经验缓存d1中;同时更新元控制器神经网络的参数θ2和子控制器神经网络的参数θ1;同时从环境获得外部奖励f,累加外部奖励f为得到累加奖励F',将{s0,g,F',s'}存入元控制器经验缓存d2中,完成一次信道信息选择。获取内部奖励r具体为:如果子控制器的输出a得到的信道良好,则传输成功,内部奖励为正奖励,如果子控制器的输出a得到的信道占用,则传输失败,内部奖励为负奖励。
具体的,元控制器神经网络的参数θ2和子控制器神经网络的参数θ1分别通过式13和式16更新:
C13:
C16:
元控制器通过估计值函数获取信道编号信息具体如下式:
C12:L2(θ2,i)=E[(y2,i-Q2(s,g;θ2,i))2]
C11为元控制器的实际输出值,C12为元控制器的损失函数,g为元控制器输出的目标动作,θ2元控制器神经网络的参数。
子控制器通过估计值函数获取信道编号信息如下式:
C15:L1(θ1,i)=E[(y1,i-Q1(s,a;θ1,i,g))2]
C14为子控制器的实际输出值,C15为控制器的损失函数。
r为内部奖励,γ为折扣因子,s为目标动作,a为子控制器输出的当前动作,s’为下一个信道状态,a’为子控制器输出的下一动作,θ1,i为i时隙时子控制器神经网络的参数,θ2,i为i时隙元控制器神经网络的参数,g为当前目标,y1,i为依据子控制器下一时隙的估计Q值得出的实际Q值,L1(θ1,i)为子控制器实际Q值和估计Q值之间的误差期望,C16是对C15的梯度下降,y2,i为依据元控制器下一时隙的估计Q值得出的实际Q值,L2(θ2,i)为元控制器实际Q值和估计Q值之间的误差期望,C13是对C12的梯度下降。
实验台由IEEE 802.15.4无线TelosB节点组成。设计了一对相距约20米的尘埃作为发射器/接收器。发射机定期地向16个可用信道中的每一个发送一个数据包,接收机记录成功和失败的尝试。根据真实的数据跟踪,采用发明提供的方法进行实验得到数据结果图。如图2所示,Episode 0时随着迭代次数的增加Q损失快速收敛。
将采用本发明提供的方法进行的实验得到的训练次数和奖励关系图与采用DQN方法进行实验得到的训练次数和奖励关系图进行比较,如图3和图4所示,图3代表本发明的实验结果,图4代表采用DQN方法的实验结果。本发明中相同训练次数,得到的奖励更大,即用户动态多信道接入成功的次数更多,性能得到提升。
Claims (10)
1.一种无线网络动态多信道接入方法,其特征在于,包括以下步骤:
步骤1),建立遵循马尔科夫联合分布条件下的动态多信道问题模型,动态多信道问题模型包括信道环境中的多个信道状态信息;
步骤2)、基于双控制器深度强化学习方法获取信道环境重多个信道状态信息误差最小信道信息,以多个信道状态信息误差最小信道信息所对应的信道信息作为接入信道,从而实现动态网络接入最优信道。
2.根据权利要求1所述的一种无线网络动态多信道接入方法,其特征在于,针对无线传感网络中信道的高度相关问题,建立遵循马尔科夫联合分布条件下的动态多信道问题模型;
遵循马尔科夫联合分布条件下的动态多信道问题模型为:
C2:Si=[Si1,...,Sik,...,SiN]
3.根据权利要求1所述的一种无线网络动态多信道接入方法,其特征在于,双控制器包括元控制器和子控制器。
4.根据权利要求3所述的一种无线网络动态多信道接入方法,其特征在于,元控制器通过估计值函数获取信道编号信息,元控制器获取的信道编号信息作为子控制器的输入,子控制器通过估计值函数获取新的信道编号信息作为输出,若子控制器获取新的信道编号信息输出满足目标要求,则完成目标的多信道接入,若子控制器获取新的信道编号信息输出不满足目标要求,则重复上述步骤:通过元控制器重新获取信道编号信息,直至子控制器获取新的信道编号信息输出满足目标要求。
5.根据权利要求4所述的一种无线网络动态多信道接入方法,其特征在于,具体包括以下步骤:
1)、首先初始化子控制器和元控制器的经验缓存{d1,d2}、深度神经网络{Q1,Q2}、搜索概率{ε1,ε2}、折扣因子γ、迭代次数和信道环境;
2)、通过元控制器从信道环境中随机获取一个信道的初始状态S,同时生成一个随机数εi2,如果随机数εi2小于元控制器初始化后的搜索概率ε2,则从元控制器的动作集中随机获取一个目标动作g做为子控制器的输入,如果随机数εi大于等于元控制器初始化后的搜索概率ε2,则通过元控制器神经网络给出的最大Q2(s,g;θ2,i)值得到的目标动作g做为子控制器的输入;
3)、元控制器将获取的初始状态S赋值给子控制器,子控制器同时生成一个随机数εi1,如果随机数εi1小于子控制器初始化后的搜索概率ε1,则从子控制器的动作集中随机获取一个目标动作a做为子控制器的输出,如果随机数εi1大于等于子控制器初始化后的搜索概率ε1,则通过子控制器神经网络给出的最大Q1(s,a;θ1,i,g)值得到子控制器的输出a;
4)、如果子控制器的输出a得到的信道良好,则完成目标的多信道接入,如果子控制器的输出a得到的信道占用,则返回步骤2),直至子控制器的输出a得到的信道良好,完成目标的多信道接入。
6.根据权利要求5所述的一种无线网络动态多信道接入方法,其特征在于,步骤4)中,根据子控制器的输出a,从信道环境中获取下一个非子控制器输出信道信息的下一个信道状态s’,获取内部奖励r,将{s,a,r,s’}存入子控制器经验缓存d1中;同时更新元控制器神经网络的参数θ2和子控制器神经网络的参数θ1;同时从环境获得外部奖励f,累加外部奖励f为得到累加奖励F’,将{s0,g,F’,s’}存入元控制器经验缓存d2中,完成一次信道信息选择。
7.根据权利要求5所述的一种无线网络动态多信道接入方法,其特征在于,获取内部奖励r具体为:如果子控制器的输出a得到的信道良好,则传输成功,内部奖励为正奖励,如果子控制器的输出a得到的信道占用,则传输失败,内部奖励为负奖励。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911047777.2A CN110856268B (zh) | 2019-10-30 | 2019-10-30 | 一种无线网络动态多信道接入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911047777.2A CN110856268B (zh) | 2019-10-30 | 2019-10-30 | 一种无线网络动态多信道接入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110856268A true CN110856268A (zh) | 2020-02-28 |
CN110856268B CN110856268B (zh) | 2021-09-07 |
Family
ID=69599022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911047777.2A Active CN110856268B (zh) | 2019-10-30 | 2019-10-30 | 一种无线网络动态多信道接入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110856268B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112188503A (zh) * | 2020-09-30 | 2021-01-05 | 南京爱而赢科技有限公司 | 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法 |
CN112291495A (zh) * | 2020-10-16 | 2021-01-29 | 厦门大学 | 一种基于强化学习的无线视频低时延抗干扰传输方法 |
CN112651137A (zh) * | 2020-12-31 | 2021-04-13 | 武汉思普崚技术有限公司 | 一种策略模拟仿真给出策略开通建议的方法及装置 |
CN112888071A (zh) * | 2021-01-22 | 2021-06-01 | 中国人民解放军国防科技大学 | 基于快速强化学习的干扰规避方法、装置、设备及介质 |
WO2021227508A1 (zh) * | 2020-05-09 | 2021-11-18 | 中国科学院沈阳自动化研究所 | 基于深度强化学习的工业5g动态多优先级多接入方法 |
CN113784359A (zh) * | 2021-09-08 | 2021-12-10 | 昆明理工大学 | 一种基于改进bp神经网络算法的动态信道接入方法 |
US12035380B2 (en) | 2020-05-09 | 2024-07-09 | Shenyang Institute Of Automation, Chinese Academy Of Sciences | Industrial 5G dynamic multi-priority multi-access method based on deep reinforcement learning |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106961684A (zh) * | 2017-03-24 | 2017-07-18 | 厦门大学 | 基于深度强化学习的认知无线电空频二维抗敌意干扰方法 |
CN109729528A (zh) * | 2018-12-21 | 2019-05-07 | 北京邮电大学 | 一种基于多智能体深度强化学习的d2d资源分配方法 |
CN109962728A (zh) * | 2019-03-28 | 2019-07-02 | 北京邮电大学 | 一种基于深度增强学习的多节点联合功率控制方法 |
-
2019
- 2019-10-30 CN CN201911047777.2A patent/CN110856268B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106961684A (zh) * | 2017-03-24 | 2017-07-18 | 厦门大学 | 基于深度强化学习的认知无线电空频二维抗敌意干扰方法 |
CN109729528A (zh) * | 2018-12-21 | 2019-05-07 | 北京邮电大学 | 一种基于多智能体深度强化学习的d2d资源分配方法 |
CN109962728A (zh) * | 2019-03-28 | 2019-07-02 | 北京邮电大学 | 一种基于深度增强学习的多节点联合功率控制方法 |
Non-Patent Citations (1)
Title |
---|
SHANGXING WANG等人: "Deep Reinforcement Learning for Dynamic Multichannel Access in Wireless Networks", 《IEEE TRANSACTIONS ON COGNITIVE COMMUNICATIONS AND NETWORKING》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021227508A1 (zh) * | 2020-05-09 | 2021-11-18 | 中国科学院沈阳自动化研究所 | 基于深度强化学习的工业5g动态多优先级多接入方法 |
US12035380B2 (en) | 2020-05-09 | 2024-07-09 | Shenyang Institute Of Automation, Chinese Academy Of Sciences | Industrial 5G dynamic multi-priority multi-access method based on deep reinforcement learning |
CN112188503A (zh) * | 2020-09-30 | 2021-01-05 | 南京爱而赢科技有限公司 | 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法 |
CN112291495A (zh) * | 2020-10-16 | 2021-01-29 | 厦门大学 | 一种基于强化学习的无线视频低时延抗干扰传输方法 |
CN112291495B (zh) * | 2020-10-16 | 2021-08-03 | 厦门大学 | 一种基于强化学习的无线视频低时延抗干扰传输方法 |
CN112651137A (zh) * | 2020-12-31 | 2021-04-13 | 武汉思普崚技术有限公司 | 一种策略模拟仿真给出策略开通建议的方法及装置 |
CN112651137B (zh) * | 2020-12-31 | 2023-06-09 | 武汉思普崚技术有限公司 | 一种策略模拟仿真给出策略开通建议的方法及装置 |
CN112888071A (zh) * | 2021-01-22 | 2021-06-01 | 中国人民解放军国防科技大学 | 基于快速强化学习的干扰规避方法、装置、设备及介质 |
CN112888071B (zh) * | 2021-01-22 | 2022-05-17 | 中国人民解放军国防科技大学 | 基于快速强化学习的干扰规避方法、装置、设备及介质 |
CN113784359A (zh) * | 2021-09-08 | 2021-12-10 | 昆明理工大学 | 一种基于改进bp神经网络算法的动态信道接入方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110856268B (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110856268B (zh) | 一种无线网络动态多信道接入方法 | |
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
CN111556572B (zh) | 一种基于强化学习的频谱资源和计算资源联合分配方法 | |
Xu et al. | Online client scheduling for fast federated learning | |
CN112188503B (zh) | 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法 | |
CN113423110B (zh) | 基于深度强化学习的多用户多信道动态频谱接入方法 | |
Yang et al. | Deep reinforcement learning based wireless network optimization: A comparative study | |
CN115278708B (zh) | 一种面向联邦学习的移动边缘计算资源管理方法 | |
CN110519849B (zh) | 一种针对移动边缘计算的通信和计算资源联合分配方法 | |
CN111628855A (zh) | 基于深度强化学习的工业5g动态多优先级多接入方法 | |
CN116744311B (zh) | 基于per-ddqn的用户组频谱接入方法 | |
CN113242601A (zh) | 一种基于优化样本采样的noma系统资源分配方法及存储介质 | |
Lan et al. | Progressive feature transmission for split classification at the wireless edge | |
CN116187483A (zh) | 模型训练方法、装置、设备、介质和程序产品 | |
Jiang et al. | Dynamic user pairing and power allocation for NOMA with deep reinforcement learning | |
Giri et al. | Deep Q-learning based optimal resource allocation method for energy harvested cognitive radio networks | |
Jiang et al. | An optimal stopping approach for iterative training in federated learning | |
CN114126021A (zh) | 一种基于深度强化学习的绿色认知无线电的功率分配方法 | |
CN111917529B (zh) | 一种基于改进exp3算法的水声ofdm资源分配方法 | |
CN109561129B (zh) | 一种基于光纤-无线网络的协同计算卸载方法 | |
Li et al. | Dynamic multi-channel access in wireless system with deep reinforcement learning | |
Peng et al. | How to tame mobility in federated learning over mobile networks? | |
Tian et al. | Hierarchical federated learning with adaptive clustering on non-IID data | |
Ge et al. | Multi-server intelligent task caching strategy for edge computing | |
Jiang et al. | Dueling double deep q-network based computation offloading and resource allocation scheme for internet of vehicles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |