CN112637914A - 在双通道环境下基于dqn算法的信道切换系统及方法 - Google Patents

在双通道环境下基于dqn算法的信道切换系统及方法 Download PDF

Info

Publication number
CN112637914A
CN112637914A CN202011436120.8A CN202011436120A CN112637914A CN 112637914 A CN112637914 A CN 112637914A CN 202011436120 A CN202011436120 A CN 202011436120A CN 112637914 A CN112637914 A CN 112637914A
Authority
CN
China
Prior art keywords
channel
neural network
spectrum
reinforcement learning
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011436120.8A
Other languages
English (en)
Other versions
CN112637914B (zh
Inventor
张周
赵润森
秦伟
闫野
桂健钧
郄志鹏
王彤彤
谢佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center, National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center
Priority to CN202011436120.8A priority Critical patent/CN112637914B/zh
Publication of CN112637914A publication Critical patent/CN112637914A/zh
Application granted granted Critical
Publication of CN112637914B publication Critical patent/CN112637914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/0005Control or signalling for completing the hand-off
    • H04W36/0083Determination of parameters used for hand-off, e.g. generation or modification of neighbour cell lists
    • H04W36/0085Hand-off measurements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/16Performing reselection for specific purposes
    • H04W36/22Performing reselection for specific purposes for handling the traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/24Connectivity information management, e.g. connectivity discovery or connectivity update
    • H04W40/32Connectivity information management, e.g. connectivity discovery or connectivity update for defining a routing cluster membership
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种在双通道环境下基于DQN算法的信道切换系统及方法。每个簇的次用户节点用于进行信道切换的系统结构包括频谱感知模块、频谱任务处理器、强化学习模块。首先建网并寻找当前工作信道;进行信道切换的判决:每个感知时隙内频谱感知模块对当前工作信道进行频谱感知,如果当前工作信道空闲,则当前信道进行数据传输,强化学习模块初始化,频谱感知信息经过处理放入经验池作为训练样本集,强化学习模块实时调取样本进行学习并更新权重参数;如果忙碌,则当前信道参数作为强化学习模块输入并进行最优信道预测,上传优选信道至频谱管理器并进行信道切换决策。本发明提高了信道切换的实时性和所选信道的质量,保障了通信业务的持续进行。

Description

在双通道环境下基于DQN算法的信道切换系统及方法
技术领域
本发明属于无线通信技术领域,特别是一种在双通道环境下基于DQN算法的信道切换系统及方法。
背景技术
现有的信道切换技术,其主要分为主动信道切换和被动信道切换两类。主动式信道切换是通过次用户对主用户过去的活动规律进行统计与总结,并进行归纳,从而预测当前环境下当前时刻主用户对信道的占用情况,在传输过程中每隔一定的周期就主动的发起信道切换。被动式频谱切换是次用户在主用户回归的时候才会发起切换,在每一次信道切换发生前对当前环境下的各个信道进行频谱感知,找到空闲信道之后,再执行切换,如果没有找到合适的空闲信道,将会导致次用户发生通信中断现象。
基于现有的主动信道切换方法,有以下两方面的缺点:1)此方法需要当前工作信道的先验统计信息,需要进行不断的统计分析。先验信息不够好时容易导致预测不够准确。2)此方法对频谱感知的能力要求较高,并且周期性的频谱切换会对次用户的通信业务连续性造成一定的影响。
基于现有的被动信道切换,有以下两方面的缺点:1)每次切换过程次用户和主用户的碰撞不可避免。2)寻找空闲信道时间不可估计,感知可用信道时间超过一定时间将会导致通信中断现象,严重影响次用户服务质量和系统性能。
发明内容
本发明的目的在于提供一种在双通道环境下基于DQN算法的信道切换系统及方法,提高信道切换的实时性和所选信道的质量,保障通信业务的持续进行。
实现本发明目的的技术解决方案为:一种在双通道环境下基于DQN算法的信道切换系统,对于每个簇的次用户节点,用于进行信道切换的系统结构包括频谱感知模块、频谱任务处理器、强化学习模块,具体如下:
频谱任务处理器存在于整个簇中所有次用户节点,是一个控制实体,控制频谱感知模块,同时负责次用户节点各模块间的信息交流;
频谱感知模块是物理层模块,负责空穴检测,以及信号类型、信号调制方式、信号强度、信号信噪比这些参数的检测,并提供数据给频谱任务处理器和强化学习模块使用;
强化学习模块即RL模块为整个系统的主体模块,RL模块又分为经验池、DQN算法、预测三部分:
经验池部分,用于存储训练样本集,为频谱感知模块提供样本数据,并提供给DQN算法部分用于训练神经网络;
DQN算法部分,基于马尔科夫决策过程即MDP进行建模,包括两个神经网络结构,分别为Q神经网络和目标Q神经网络,使用DQN算法进行神经网络权值参数的更新;
预测部分包括一个神经网络结构,该神经网络完全实时的复制DQN算法部分的Q神经网络,当需要进行信道切换时激活该部分,进行最优信道的预测,并将预测结果返还至频谱管理器,用于次用户进行信道切换。
进一步地,当次用户节点为簇首时,信道切换系统还包括频谱管理器,频谱管理器位于簇首中的MAC层,是簇子网运行的关键,负责信道切换、管理信道以及整个簇中所有次用户节点的频谱协同;频谱任务处理器执行频谱管理器的命令。
本发明一种在双通道环境下基于DQN算法的信道切换方法,步骤如下:
步骤1,初始建网:整个网络所有次用户节点进行簇首选举,确定节点所属簇,以及节点是否为簇首;
步骤2,寻找当前工作信道;
步骤3,对是否需要信道切换进行判决:在确定工作信道后,根据帧结构设计,每个感知时隙内频谱感知模块首先对当前工作信道进行频谱感知,如果当前工作信道空闲,则不进行信道切换,跳转至步骤4;如果当前工作信道忙碌,则需要进行信道切换,跳转至步骤8;
步骤4,当前信道进行数据传输;
步骤5,强化学习模块初始化;
步骤6,频谱感知信息经过处理放入经验池作为训练样本集;
步骤7,强化学习模块在该时隙剩余时间内不断的实时调取样本进行学习并更新权重参数,实现模块中神经网络权重参数实时的随外界环境改变而智能的进行调整,当强化学习模块预测部分激活时提供此时最新权重参数实现最优信道的预测;
步骤8,当前信道参数作为强化学习模块预测部分输入并进行最优信道预测;
步骤9,上传优选信道至频谱管理器并进行信道切换决策;
步骤10,信道切换完成,并返回步骤3。
进一步地,步骤2所述寻找当前工作信道,具体如下:
簇首中频谱管理器启动工作,进行网络初始化;读取本地的信道配置参数:
如果存在备选信道,则使用备选信道作为工作信道;
如果不存在备选信道,则初始化频谱任务处理器,进行信道感知:如果存在空闲可用信道,则选择空闲可用信道为工作信道;否则频谱感知模块重新进行感知,直到找到可用信道;
簇首选择工作信道后下发信息,簇节点接收信息,工作在同一信道,此时该簇完成初始建网。
进一步地,步骤5所述强化学习模块初始化,具体如下:
强化学习模块初始化经验池容量为D,该容量根据具体硬件条件进行设置,用于存储神经网络的训练样本;初始化Q神经网络,并随机初始化该网络的权重参数θ;初始化目标Q神经网络,仍初始化对应的权重参数为θ;设定神经网络每次学习的最小样本量为M。
进一步地,步骤6所述频谱感知信息经过处理放入经验池作为训练样本集,具体如下:
在当前信道进行正常通信工作的同时,强化学习模块向频谱任务处理器发出进行实时学习更新的请求,节点的频谱感知模块在另一个通道上遵循频谱任务处理器指令对所有N个信道根据编号1~N进行感知;其中在一个时隙内频谱感知模块依次对所有信道进行检测,当一轮感知结束,当前时隙时间仍未结束,将会重复继续对所有信道依次进行感知,直到时隙结束;
与此同时强化学习模块将频谱感知模块感知结果归一化并统一格式,作为强化学习模块的输入,统一输入格式为(st、Zi(t)、RSSIi、SNRi),采用贪心策略ε-greedy算法得到动作at
at=argmaxaQt(st,a;θ)1-ε的概率执行
at=random(a)ε的概率执行
其中st为所感知信道编号,Zi(t)表示信道的可用状态,即对当前工作信道进行频谱感知的能量检测结果;RSSIi为无线信号强度;SNRi是当前信道的信噪比;at为在当前状态st下将要采取的动作值;Qt(st,a;θ)为当前状态经过Q神经网络预测得出的Q值;a为所有动作的集合;ε为探索值;
执行当前状态st下所选择的动作at,根据奖励计算公式和状态转移计算公式得到对应的奖励rt和下一状态st+1,重置st=st+1,用于下一次循环的输入状态,公式如下:
rt=(1-Zi(t))×(RSSIi×ω1+SNRi×ω2)
st+1=[N'],N'=at
其中rt为当前状态st下执行动作at所获得的奖励;st+1为下一状态值;ω1为无线信号强度RSSIi的权重参数;ω2为当前信道信噪比SNRi的权重参数;
将(st、at、rt、st+1)四个参数作为一个样本存入经验池中,因此每次感知一个信道即有一个样本存入经验池。
进一步地,步骤7所述强化学习模块实时调取样本进行学习并更新权重参数,具体如下:
通过步骤6经验池累积了样本,强化学习模块的DQN算法部分即开始进行实时的学习,通过经验池中样本的不断更新,在经验池中的样本数量满足预先设置的数量时,随机从经验池中取出最小样本量mini batch个样本作为目标Q神经网络的输入,得到当前目标Q值yj
Figure BDA0002828802720000041
其中yj为输入样本j时的目标Q值;rj为当前输入样本j的回报值;γ为权重参数;
Figure BDA0002828802720000042
为输入样本j时目标Q神经网络的预测输出;
DQN算法中损失函数定义为:
Figure BDA0002828802720000043
其中yj为目标Q神经网络的输出值,Q(sj,aj;θ)为输入样本j时Q神经网络的输出值,通过最优化损失函数,利用神经网络的梯度反向传播更新Q神经网络中的权重参数θ;
采用上述方法,每经过100次的迭代更新,复制此时的Q神经网络的参数作为目标Q神经网络的参数;
通过将步骤6、步骤7重复循环,DQN算法部分实现与外界环境进行交互学习,其中Q神经网络和目标Q神经网络保持自身权重参数的不断更新,从而保证在强化学习模块中预测部份激活需要复制Q神经网络权重参数时,得到与外界环境相匹配的最新权重参数。
进一步地,步骤8所述当前信道参数作为强化学习模块输入并进行最优信道预测,具体如下:
当次用户节点正常工作时,频谱感知模块感知当前信道结果为信道忙碌时,即信道切换判决为1,次用户节点上传信道切换需求;频谱管理器下发指令激活强化学习模块的预测部分,频谱感知模块根据频谱管理器指令将当前信道感知信息,即信道状态参数(st、Zi(t)、RSSIi、SNRi)作为输入送至强化学习模块的预测部分,并采取如下的动作选择算法得到最佳动作at
at=argmaxa Qt(st,a;θ)
其中Qt(st,a;θ)为强化学习模块预测部份的输出Q值集合;
最优信道st+1=at,强化学习模块将最优信道上传至频谱管理器。
进一步地,步骤9所述上传优选信道至频谱管理器并进行信道切换决策,具体如下:
位于簇首的频谱管理器根据各子结点强化学习模块上传的最优信道信息做出融合判决,选择出现次数占比最高的优选信道作为最终的切换信道,频谱管理器下发切换指令,次用户节点进行信道切换。
进一步地,步骤10所述信道切换完成,并返回步骤3,具体如下:
信道切换完成,当前信道为信道st+1,返回步骤3,在该信道上,次用户节点对当前信道st+1再次进行频谱感知。
本发明与现有技术相比,其显著优点为:(1)利用强化学习结合神经网络,通过获取当前感知信道的状态数据,实现RL模块与环境的实时交互学习,从而在未知信道的先验信息和统计信息的情况下,实现最优信道的预测;(2)在环境发生变化后,由于模型的实时学习特性,可以很快的更新自身神经网络参数,根据新的参数做出新的预测;随着样本的训练最优信道的预测正确率不断上升,可达到很高的正确率;(3)无需进行空闲信道搜索,因此空闲信道搜索时间由RL模块计算时间代替,所用时间大大缩短。
附图说明
图1是信道切换方法对应的系统结构图。
图2是场景一对应的系统模型示意图。
图3是场景二对应的系统模型示意图。
图4是本发明在双通道环境下基于DQN算法的信道切换方法流程图。
图5是空穴搜索时间仿真图。
图6是优选信道正确率仿真图。
具体实施方式
当无线网络环境中次用户节点当前工作信道的主用户返回,亦或当前信道指标降低以及节点移动导致脱离信道可用范围不能满足节点正常通信的需要时,节点需要进行信道切换,常规的信道切换技术会导致通信的不稳定和不确定性,还会造成一定的切换时延,更有可能影响网络结构造成通信中断,为克服上述问题,本发明提出一种在双通道环境下基于DQN算法的信道切换系统及方法。
本发明采用强化学习技术同信道切换技术结合,建立一种信道切换系统如图1所示,包括频谱感知模块、频谱任务处理器、强化学习模块、频谱管理器四部分,其中只有当次用户节点为簇首时才具有频谱管理器这一模块。
其中频谱管理器位于簇首中的MAC层,是簇子网运行的关键,负责信道切换、管理信道以及整个簇中所有节点的频谱协同等。
频谱任务处理器存在于整个簇中所有次用户节点,是一个控制实体,控制频谱感知模块并执行频谱管理器的命令,同时负责次用户节点各模块间的信息交流。
频谱感知模块是物理层模块,负责空穴检测,信号类型、信号调制方式、信号强度、信号信噪比等一系列参数的检测,以提供数据给频谱任务处理器和强化学习模块使用。
强化学习模块(RL模块)为本发明主体模块,该模块又分为三部分:
首先是经验池部分,该部分主要用于存储训练样本集,主要为频谱感知模块提供的样本数据,以提供给DQN算法部分用于训练神经网络。
其次是DQN算法部分,该部分基于马尔科夫决策过程即MDP进行建模,其主要包括两个神经网络结构,分别为Q神经网络和目标Q神经网络(Target Q神经网络),使用DQN算法进行神经网络权值参数的更新。
最后为预测部分,该部分主要包括一个神经网络结构,该神经网络完全实时的复制Q神经网络,当需要进行信道切换时,会激活该部分,进行最优信道的预测,并将结果返还至频谱管理器,用于次用户进行信道切换。
本发明一种在双通道环境下基于DQN算法的信道切换方法,步骤如下:
步骤1:初始建网。整个网络所有次用户节点进行簇首选举,确定节点所属簇,以及节点是否为簇首。
步骤2:寻找当前工作信道。簇首中频谱管理器启动工作,进行网络初始化。读取本地的信道配置参数,如果存在备选信道,则使用备选信道作为工作信道。否则初始化频谱任务处理器,进行信道感知,如果存在空闲可用信道,则选择其为工作信道,否则频谱感知模块重新进行感知,直到找到可用信道,簇首选择工作信道后,下发信息,簇节点接收信息,工作在同一信道,此时该簇完成初始建网。
步骤3:是否需要信道切换进行判决。在确定工作信道后,根据帧结构设计,每个感知时隙内频谱感知模块首先对当前工作信道进行频谱感知。可能出现以下两种情况:
1)能量检测结果Zi(t)=0,即当前工作信道空闲,信道切换判决为0,不进行切换,此时跳转至步骤4。
2)能量检测结果Zi(t)=1,即当前工作信道忙碌,信道切换判决为1,需要进行信道切换,此时跳转至步骤8。
步骤4:当前信道进行数据传输。信道切换判决为0,无需进行信道切换,当前信道可进行正常的通信工作,开始数据传输。
步骤5:强化学习模块初始化。强化学习模块初始化经验池(replay memory)容量为D(该容量可根据具体硬件条件进行设置),用于存储神经网络的训练样本;初始化Q神经网络,并随机初始化该网络的权重参数θ。初始化target Q神经网络,仍初始化其权重参数为θ。设定神经网络每次学习的最小样本量(mini batch)为M,本发明中设定M为36。
步骤6:频谱感知信息经过处理放入经验池作为训练样本集。在当前信道进行正常通信工作的同时,强化学习模块向频谱任务处理器发出进行实时的学习更新的请求,节点的频谱感知模块在富裕的通道2上遵循频谱任务处理器指令对所有信道(1~N)根据编号进行感知。其中在一个时隙内频谱感知模块依次对所有信道进行检测,当一轮感知结束,当前时隙时间仍未结束,将会重复继续对所有信道依次进行感知,直到时隙结束。
与此同时强化学习模块将频谱感知模块感知结果归一化并统一格式,作为强化学习模块的输入,统一输入格式为(st、Zi(t)、RSSIi、SNRi),采用贪心策略(ε-greedy)算法即:
at=argmaxaQt(st,a;θ)(1-ε)的概率执行
at=random(a)ε的概率执行
得到动作at,其中st为所感知信道编号,at为在当前状态st下将要采取的动作值;Qt(st,a;θ)为当前状态经过Q神经网络预测得出的Q值;a为所有动作的集合;ε为探索值,常使用0.5。
执行当前状态st下所选择的动作at,根据奖励计算公式和状态转移计算公式:
rt=(1-Zi(t))×(RSSIi×ω1+SNRi×ω2)
st+1=[N'],N'=at
得到对应的奖励rt和下一状态st+1,重置st=st+1,用于下一次循环的输入状态。其中rt为当前状态st下执行动作at所获得的奖励;Zi(t)表示信道的可用状态,参数RSSIi为无线信号强度;参数SNRi是当前信道的信噪比;st+1为下一状态值;ω1为无线信号强度RSSIi的权重参数;ω2为当前信道信噪比SNRi的权重参数。
将(st、at、rt、st+1)四个参数作为一个样本存入经验池中。因此每次感知一个信道即有一个样本存入经验池。
步骤7:强化学习模块实时调取样本进行学习并更新权重参数。通过步骤6经验池累积了样本,强化学习模块的DQN算法部分即可开始进行实时的学习,通过经验池中样本的不断更新,在经验池中的样本数量满足预先设置的数量时,随机从经验池中取出最小样本量(mini batch)个样本作为目标Q神经网络的输入,得到当前目标Q值yj
Figure BDA0002828802720000081
其中yj为输入样本j时的目标Q值;rj为当前输入样本j的回报值;γ为权重参数;
Figure BDA0002828802720000091
为输入样本j时目标Q神经网络的预测输出。
DQN算法中损失函数定义为:
Figure BDA0002828802720000092
其中yj为目标Q神经网络的输出值,Q(sj,aj;θ)为输入样本j时Q神经网络的输出值。通过最优化损失函数,利用神经网络的梯度反向传播来更新Q神经网络中的权重参数θ。
通过上述方法,每经过100次的迭代更新,我们复制此时的Q神经网络的参数作为目标Q神经网络的参数。通过将步骤6、步骤7不断地重复循环,DQN算法部分实现与外界环境进行交互学习,其中Q神经网络和目标Q神经网络保持自身权重参数的不断更新,从而在保证强化学习模块中预测部份激活需要复制Q神经网络权重参数时,可以得到与外界环境相匹配的最新权重参数。
步骤8:当前信道参数作为强化学习模块输入并进行最优信道预测。当次用户节点正常工作时,频谱感知模块感知当前信道结果为信道忙碌时,即信道切换判决为1,次用户节点上传信道切换需求。频谱管理器下发指令激活强化学习模块的预测部分,频谱感知模块根据频谱管理器指令将当前信道感知信息,即信道状态参数(st、Zi(t)、RSSIi、SNRi)作为输入送至强化学习模块的预测部份,并采取如下的动作选择算法:
at=argmaxaQt(st,a;θ)
得到最佳动作at,其中Qt(st,a;θ)为强化学习模块预测部份的输出Q值集合。最优信道st+1=at,强化学习模块将最优信道上传至频谱管理器。
步骤9:上传优选信道至频谱管理器并进行信道切换决策。位于簇首的频谱管理器根据各子结点强化学习模块上传的最优信道信息做出融合判决,选择出现次数占比最高的优选信道作为最终的切换信道,频谱管理器下发切换指令,次用户节点进行信道切换;
步骤10:信道切换完成,当前信道为信道st+1。在该信道上,次用户节点对当前信道st+1再次进行频谱感知,以减少与主用户发生碰撞的几率。如信道st+1空闲,即可进行正常通信,并跳至步骤4继续进行强化学习模块的学习;如信道st+1忙碌,则继续执行信道切换,跳至步骤8。
使用本发明所提方法,次用户使用主用户返回之前通信过程中空闲的通道资源实时的与环境进行交互并训练模型,可在未知当前环境的先验信息和统计信息的条件下经过短时间的与无线网络环境的交互学习选出当前空闲概率大且信道质量最优的信道,进行信道切换,有效的提高了切换的实时性和所选信道的质量,保障了通信业务的持续进行。
下面结合附图及具体实施例对本发明做进一步详细说明。
实施例
针对次用户在一定的条件下需要进行信道切换的问题,本实施例设计了一种在双通道环境下基于DQN算法的信道切换方法。本实施例考虑的系统模型如图1所示。模型描述了在多信道环境下基于硬件具有富裕通道的基础条件上进行信道切换过程。系统模型图只列出典型的单个次用户节点(即SU1)的信道切换系统结构,对于多个次用户节点的环境,只需要简单的对每个次用户节点应用此结构即可。该方法下,次用户的信道切换状态分为两种场景。
场景一如图2所示,对应图4信道切换判决结果为“否”的流程,即次用户当前工作信道处于空闲状态。首先次用户感知当前信道,使用能量检测的方法进行频谱感知,结果为0,该信道空闲,可以继续进行通信数据的传播;同时根据能量检测结果,信道切换判决为0,即不激活强化学习的实时预测模块,而是在节点富裕通道上继续进行实时的强化学习过程;因此根据指令在第一通道次用户感知完成进行通信的同时,第二通道上强化学习模块指导频谱感知模块对所有信道(1—N)不断进行频谱感知;每次感知后都会将感知信息(包括该信道忙闲状态、该信道RSSI以及该信道的信噪比)作为训练样本传入至RL模块,强化学习模块则根据实时的样本数据更新自身神经网络参数,从而做到跟外界环境同时进行变化,随时做好推选最优信道的准备。
场景二如图3所示,对应图4信道切换判决结果为“是”的流程,即次用户当前工作信道处于忙碌状态。首先次用户感知当前信道,感知结果为1,即该信道不可用,需要进行信道切换,信道切换判决为1,激活强化学习的实时预测模块,此时会将当前工作信道的感知信息作为输入,强化学习预测模块会给出当前环境下的最优切换信道k,以供信道切换。当一次信道切换完成,当前信道为k,在该信道上次用户节点会重复上述感知步骤,再次根据感知结果选择符合的场景,从而选择进行通信或继续切换信道。
其中外界网络环境为多信道环境,包含N个信道,每个信道的空闲概率是独立同分布的。该方法针对周期性信号效果最好,因为周期性信号主用户的出现较为规律且可以在较长时间内保持不变,因此强化学习模块可以具有充足的训练时间。
为便于描述,首先对网络环境中的信道基本参数做出定义如下:
1)网络环境中存在N个主用户信道,并按照一定的频率范围将信道进行编号(1,2,3...N),主用户PU数量为N,次用户SU数量理论上可为任意多个;
2)每个信道的状态均为两种:①空闲状态,即感知结果Zi(t)=0,信道切换判决为0;②忙碌状态,即感知结果Zi(t)=1,信道切换判决为1。其中i为信道标号,取值范围为(1~N),t为一个时隙中的最小感知的时间的计数。
3)其中该网络下的每个信道的空闲概率均是独立同分布的,需要指出,本发明方法对于各种典型无线信道都适用。
无线多信道网络环境中,本发明所设计的双通道环境下基于DQN算法的信道切换方法中强化学习模块基于马尔可夫决策过程MDP进行建模,并采用DQN算法进行模型的训练。其模型的主要元素包括状态空间、动作空间、奖励函数、状态转移概率。
①状态空间
s=[N],其中N为无线网络环境中信道的编号,取值范围s=(1、2、3…N)。
②动作空间
动作空间根据总信道数目决定,取值范围a=(1、2、3…N),不同的动作选择表示切换至不同的信道。
③奖励函数
r=(1-Zi(t))×(RSSIi×ω1+SNRi×ω2)
其中参数Zi(t)表示信道的可用状态,Zi(t)=1或0。当所感知的信道忙碌时,Zi(t)=1,奖励值R=0,当所感知信道空闲时,Zi(t)=0时,奖励值为正值,使用此参数降低了选择忙碌状态信道的概率,减小了次用户与主用户发生碰撞的机会。
参数RSSIi由当时所对应信道的能量检测模块提供,RSSI以-90dBm为基准,实际测量值为RSSI除以基准,因此权重
Figure BDA0002828802720000121
参数SNRi是当前信道的信噪比,该值越大越有利于次用户节点通信,因此权重参数ω2为正值。
最终奖励值信道由当前感知信道的参数Zi(t)、RSSIi和SNRi共同决定。
4)状态转移概率P(s'|s,a)
s'=[N'],在本模型中,下一状态s'是可以通过计算得到的,其中N'=a,即下一状态由当前状态和当前动作值决定。
整体系统的具体实现步骤如图4所示,具体描述如下:
步骤1:初始建网。整个网络所有次用户节点进行簇首选举,确定节点所属簇,以及节点是否为簇首。
步骤2:寻找当前工作信道。簇首中频谱管理器启动工作,进行网络初始化。读取本地的信道配置参数,如果存在备选信道,则使用备选信道作为工作信道。否则初始化频谱任务处理器,进行信道感知,如果存在空闲可用信道,则选择其为工作信道,否则频谱感知模块重新进行感知,直到找到可用信道,簇首选择工作信道后,下发信息,簇节点接收信息,工作在同一信道,此时该簇完成初始建网。
步骤3:是否需要信道切换进行判决。在确定工作信道后,根据帧结构设计,每个感知时隙内频谱感知模块首先对当前工作信道进行频谱感知。可能出现以下两种情况:
1)能量检测结果Zi(t)=0,即当前工作信道空闲,信道切换判决为0,不进行切换,此时跳转至步骤4。
2)能量检测结果Zi(t)=1,即当前工作信道忙碌,信道切换判决为1,需要进行信道切换,此时跳转至步骤8。
步骤4:当前信道进行数据传输。信道切换判决为0,无需进行信道切换,当前信道可进行正常的通信工作,开始数据传输。
步骤5:强化学习模块初始化。强化学习模块初始化经验池(replay memory)容量为D(该容量可根据具体硬件条件进行设置),用于存储神经网络的训练样本;初始化Q神经网络,并随机初始化该网络的权重参数θ。初始化target Q神经网络,仍初始化其权重参数为θ。设定神经网络每次学习的最小样本量(mini batch)为M,本实施例中设定M为36。
步骤6:频谱感知信息经过处理放入经验池作为训练样本集。在当前信道进行正常通信工作的同时,强化学习模块向频谱任务处理器发出进行实时的学习更新的请求,节点的频谱感知模块在富裕的通道2上遵循频谱任务处理器指令对所有信道(1~N)根据编号进行感知。其中在一个时隙内频谱感知模块依次对所有信道进行检测,当一轮感知结束,当前时隙时间仍未结束,将会重复继续对所有信道依次进行感知,直到时隙结束。
与此同时强化学习模块将频谱感知模块感知结果归一化并统一格式,作为强化学习模块的输入,统一输入格式为(st、Zi(t)、RSSIi、SNRi),采用贪心策略(ε-greedy)算法即:
at=argmaxaQt(st,a;θ)(1-ε)的概率执行
at=random(a)ε的概率执行
得到动作at,其中st为所感知信道编号,at为在当前状态st下将要采取的动作值;Qt(st,a;θ)为当前状态经过Q神经网络预测得出的Q值;a为所有动作的集合;ε为探索值,常使用0.5。
执行当前状态st下所选择的动作at,根据奖励计算公式和状态转移计算公式:
rt=(1-Zi(t))×(RSSIi×ω1+SNRi×ω2)
st+1=[N'],N'=at
得到对应的奖励rt和下一状态st+1,重置st=st+1,用于下一次循环的输入状态。其中rt为当前状态st下执行动作at所获得的奖励;Zi(t)表示信道的可用状态,参数RSSIi为无线信号强度;参数SNRi是当前信道的信噪比;st+1为下一状态值;ω1为无线信号强度RSSIi的权重参数;ω2为当前信道信噪比SNRi的权重参数。
将(st、at、rt、st+1)四个参数作为一个样本存入经验池中。因此每次感知一个信道即有一个样本存入经验池。
步骤7:强化学习模块实时调取样本进行学习并更新权重参数。通过步骤6经验池累积了样本,强化学习模块的DQN算法部分即可开始进行实时的学习,通过经验池中样本的不断更新,在经验池中的样本数量满足预先设置的数量时,随机从经验池中取出最小样本量(mini batch)个样本作为目标Q神经网络的输入,得到当前目标Q值yj
Figure BDA0002828802720000141
其中yj为输入样本j时的目标Q值;rj为当前输入样本j的回报值;γ为权重参数;
Figure BDA0002828802720000142
为输入样本j时目标Q神经网络的预测输出。
DQN算法中损失函数定义为:
Figure BDA0002828802720000143
其中yj为目标Q神经网络的输出值,Q(sj,aj;θ)为输入样本j时Q神经网络的输出值。通过最优化损失函数,利用神经网络的梯度反向传播来更新Q神经网络中的权重参数θ。
通过上述方法,每经过100次的迭代更新,我们复制此时的Q神经网络的参数作为目标Q神经网络的参数。通过将步骤6、步骤7不断地重复循环,DQN算法部分实现与外界环境进行交互学习,其中Q神经网络和目标Q神经网络保持自身权重参数的不断更新,从而在保证强化学习模块中预测部份激活需要复制Q神经网络权重参数时,可以得到与外界环境相匹配的最新权重参数。
步骤8:当前信道参数作为强化学习模块输入并进行最优信道预测。当次用户节点正常工作时,频谱感知模块感知当前信道结果为信道忙碌时,即信道切换判决为1,次用户节点上传信道切换需求。频谱管理器下发指令激活强化学习模块的预测部分,频谱感知模块根据频谱管理器指令将当前信道感知信息,即信道状态参数(st、Zi(t)、RSSIi、SNRi)作为输入送至强化学习模块的预测部份,并采取如下的动作选择算法:
at=argmaxaQt(st,a;θ)
得到最佳动作at,其中Qt(st,a;θ)为强化学习模块预测部份的输出Q值集合。最优信道st+1=at,强化学习模块将最优信道上传至频谱管理器。
步骤9:上传优选信道至频谱管理器并进行信道切换决策。位于簇首的频谱管理器根据各子结点强化学习模块上传的最优信道信息做出融合判决,选择出现次数占比最高的优选信道作为最终的切换信道,频谱管理器下发切换指令,次用户节点进行信道切换;
步骤10:信道切换完成,当前信道为信道st+1。在该信道上,次用户节点对当前信道st+1再次进行频谱感知,以减少与主用户发生碰撞的几率。如信道st+1空闲,即可进行正常通信,并跳至步骤4继续进行强化学习模块的学习;如信道st+1忙碌,则继续执行信道切换,跳至步骤8。
本发明经过仿真测试,通过计算机模拟验证本发明所提方法的有效性。
首先在空穴搜索时间方面。传统方法对一个信道进行一次能量检测的时间约为1ms,传统方法进行空穴搜索的时间随信道数目的增加而递增,对20个信道进行一遍空穴搜索时间可达到20ms,。本发明所提方法在节点需要进行切换时无需再对频谱进行空穴检测,只需进行一次RL模块的计算,空闲信道搜索时延和信道数量无关,在350μs左右浮动,处于微秒级别,相较于传统方法时间短。在各信道信噪比SNR、接收信号强度RSSI、信道忙碌状态保持不变的情况下,统计信道数量不同时下空穴搜索时间的变化,其仿真结果如图5所示。
另一方面,在信道优选方面。传统方法寻找空闲信道的正确性很高,但是只是采用最先检测到的处于空闲状态的信道。在信道总数为20的无线网络环境中,各信道信噪比SNR在-15db~20db的范围取值,接收信号强度RSSI在0~70取值,信道忙闲状态用0,1表示,已知各信道感知信息和最优信道的前提下,在不同的学习次数时统计RL模块进行100次信道优选的结果,计算信道优选的正确率,可以看出本发明所提方法可以在未知信道先验信息和统计信息的情况下,经过短时间的与环境的交互学习就达到很高的优选信道正确率。从而在需要进行信道切换时选出当前空闲概率大且信道质量最优的信道。其仿真结果如图6所示。
综上可知,本发明的关键技术方案如下:①本发明设计了一种基于多通道的信道切换方案。在一个感知时隙内,节点首先对当前工作信道进行感知,根据感知结果该模型分为两种场景,当节点检测当前工作信道空闲进行正常的通信业务时,通过使用多余的通道资源对全频域信道进行频谱感知,并将获取的感知数据用于强化学习模型的学习训练。当节点检测当前工作信道忙碌,暂停通信业务,通过调用当前信道状态参数和强化学习预测模块选举出当前环境下最优的信道,并进行信道切换。在新的信道上重新执行频谱感知,根据感知结果选择信道切换模型对应的情况继续执行,直到该时隙结束。
②本发明设计了一种基于DQN算法的信道切换方法,其中信道切换系统中的强化学习模块基于马尔科夫决策MDP进行建模,并使用DQN算法进行强化学习模块中的各个神经网络的参数权重更新。具体为首先强化学习模块实时获取信道各项感知结果,经过处理存入经验池作为样本集,为神经网络的结构提供训练样本;其次DQN算法部分调用样本数据集进行训练,达到与外界环境交互实时更新神经网络参数的;最后通过DQN算法结构的设计实现能够预测最优信道的神经网络。当次用户节点需要进行信道切换时,通过频谱感知模块输入当前信道感知信息至强化学习模块的预测部份,即可选出当前环境下的最优的信道。

Claims (10)

1.一种在双通道环境下基于DQN算法的信道切换系统,其特征在于,对于每个簇的次用户节点,用于进行信道切换的系统结构包括频谱感知模块、频谱任务处理器、强化学习模块,具体如下:
频谱任务处理器存在于整个簇中所有次用户节点,是一个控制实体,控制频谱感知模块,同时负责次用户节点各模块间的信息交流;
频谱感知模块是物理层模块,负责空穴检测,以及信号类型、信号调制方式、信号强度、信号信噪比这些参数的检测,并提供数据给频谱任务处理器和强化学习模块使用;
强化学习模块即RL模块为整个系统的主体模块,RL模块又分为经验池、DQN算法、预测三部分:
经验池部分,用于存储训练样本集,为频谱感知模块提供样本数据,并提供给DQN算法部分用于训练神经网络;
DQN算法部分,基于马尔科夫决策过程即MDP进行建模,包括两个神经网络结构,分别为Q神经网络和目标Q神经网络,使用DQN算法进行神经网络权值参数的更新;
预测部分包括一个神经网络结构,该神经网络完全实时的复制DQN算法部分的Q神经网络,当需要进行信道切换时激活该部分,进行最优信道的预测,并将预测结果返还至频谱管理器,用于次用户进行信道切换。
2.根据权利要求1所述的在双通道环境下基于DQN算法的信道切换系统,其特征在于,当次用户节点为簇首时,信道切换系统还包括频谱管理器,频谱管理器位于簇首中的MAC层,是簇子网运行的关键,负责信道切换、管理信道以及整个簇中所有次用户节点的频谱协同;频谱任务处理器执行频谱管理器的命令。
3.一种在双通道环境下基于DQN算法的信道切换方法,其特征在于,步骤如下:
步骤1,初始建网:整个网络所有次用户节点进行簇首选举,确定节点所属簇,以及节点是否为簇首;
步骤2,寻找当前工作信道;
步骤3,对是否需要信道切换进行判决:在确定工作信道后,根据帧结构设计,每个感知时隙内频谱感知模块首先对当前工作信道进行频谱感知,如果当前工作信道空闲,则不进行信道切换,跳转至步骤4;如果当前工作信道忙碌,则需要进行信道切换,跳转至步骤8;
步骤4,当前信道进行数据传输;
步骤5,强化学习模块初始化;
步骤6,频谱感知信息经过处理放入经验池作为训练样本集;
步骤7,强化学习模块在该时隙剩余时间内不断的实时调取样本进行学习并更新权重参数,实现模块中神经网络权重参数实时的随外界环境改变而智能的进行调整,当强化学习模块预测部分激活时提供此时最新权重参数实现最优信道的预测;
步骤8,当前信道参数作为强化学习模块预测部分输入并进行最优信道预测;
步骤9,上传优选信道至频谱管理器并进行信道切换决策;
步骤10,信道切换完成,并返回步骤3。
4.根据权利要求3所述的在双通道环境下基于DQN算法的信道切换方法,其特征在于,步骤2所述寻找当前工作信道,具体如下:
簇首中频谱管理器启动工作,进行网络初始化;读取本地的信道配置参数:
如果存在备选信道,则使用备选信道作为工作信道;
如果不存在备选信道,则初始化频谱任务处理器,进行信道感知:如果存在空闲可用信道,则选择空闲可用信道为工作信道;否则频谱感知模块重新进行感知,直到找到可用信道;
簇首选择工作信道后下发信息,簇节点接收信息,工作在同一信道,此时该簇完成初始建网。
5.根据权利要求3所述的在双通道环境下基于DQN算法的信道切换方法,其特征在于,步骤5所述强化学习模块初始化,具体如下:
强化学习模块初始化经验池容量为D,该容量根据具体硬件条件进行设置,用于存储神经网络的训练样本;初始化Q神经网络,并随机初始化该网络的权重参数θ;初始化目标Q神经网络,仍初始化对应的权重参数为θ;设定神经网络每次学习的最小样本量为M。
6.根据权利要求5所述的在双通道环境下基于DQN算法的信道切换方法,其特征在于,步骤6所述频谱感知信息经过处理放入经验池作为训练样本集,具体如下:
在当前信道进行正常通信工作的同时,强化学习模块向频谱任务处理器发出进行实时学习更新的请求,节点的频谱感知模块在另一个通道上遵循频谱任务处理器指令对所有N个信道根据编号1~N进行感知;其中在一个时隙内频谱感知模块依次对所有信道进行检测,当一轮感知结束,当前时隙时间仍未结束,将会重复继续对所有信道依次进行感知,直到时隙结束;
与此同时强化学习模块将频谱感知模块感知结果归一化并统一格式,作为强化学习模块的输入,统一输入格式为(st、Zi(t)、RSSIi、SNRi),采用贪心策略ε-greedy算法得到动作at
at=argmaxaQt(st,a;θ) 1-ε的概率执行
at=random(a) ε的概率执行
其中st为所感知信道编号,Zi(t)表示信道的可用状态,即对当前工作信道进行频谱感知的能量检测结果;RSSIi为无线信号强度;SNRi是当前信道的信噪比;at为在当前状态st下将要采取的动作值;Qt(st,a;θ)为当前状态经过Q神经网络预测得出的Q值;a为所有动作的集合;ε为探索值;
执行当前状态st下所选择的动作at,根据奖励计算公式和状态转移计算公式得到对应的奖励rt和下一状态st+1,重置st=st+1,用于下一次循环的输入状态,公式如下:
rt=(1-Zi(t))×(RSSIi×ω1+SNRi×ω2)
st+1=[N'],N'=at
其中rt为当前状态st下执行动作at所获得的奖励;st+1为下一状态值;ω1为无线信号强度RSSIi的权重参数;ω2为当前信道信噪比SNRi的权重参数;
将(st、at、rt、st+1)四个参数作为一个样本存入经验池中,因此每次感知一个信道即有一个样本存入经验池。
7.根据权利要求6所述的在双通道环境下基于DQN算法的信道切换方法,其特征在于,步骤7所述强化学习模块实时调取样本进行学习并更新权重参数,具体如下:
通过步骤6经验池累积了样本,强化学习模块的DQN算法部分即开始进行实时的学习,通过经验池中样本的不断更新,在经验池中的样本数量满足预先设置的数量时,随机从经验池中取出最小样本量mini batch个样本作为目标Q神经网络的输入,得到当前目标Q值yj
Figure FDA0002828802710000041
其中yj为输入样本j时的目标Q值;rj为当前输入样本j的回报值;γ为权重参数;
Figure FDA0002828802710000042
为输入样本j时目标Q神经网络的预测输出;
DQN算法中损失函数定义为:
Figure FDA0002828802710000043
其中yj为目标Q神经网络的输出值,Q(sj,aj;θ)为输入样本j时Q神经网络的输出值,通过最优化损失函数,利用神经网络的梯度反向传播更新Q神经网络中的权重参数θ;
采用上述方法,每经过100次的迭代更新,复制此时的Q神经网络的参数作为目标Q神经网络的参数;
通过将步骤6、步骤7重复循环,DQN算法部分实现与外界环境进行交互学习,其中Q神经网络和目标Q神经网络保持自身权重参数的不断更新,从而保证在强化学习模块中预测部份激活需要复制Q神经网络权重参数时,得到与外界环境相匹配的最新权重参数。
8.根据权利要求7所述的在双通道环境下基于DQN算法的信道切换方法,其特征在于,步骤8所述当前信道参数作为强化学习模块输入并进行最优信道预测,具体如下:
当次用户节点正常工作时,频谱感知模块感知当前信道结果为信道忙碌时,即信道切换判决为1,次用户节点上传信道切换需求;频谱管理器下发指令激活强化学习模块的预测部分,频谱感知模块根据频谱管理器指令将当前信道感知信息,即信道状态参数(st、Zi(t)、RSSIi、SNRi)作为输入送至强化学习模块的预测部分,并采取如下的动作选择算法得到最佳动作at
at=argmaxaQt(st,a;θ)
其中Qt(st,a;θ)为强化学习模块预测部份的输出Q值集合;
最优信道st+1=at,强化学习模块将最优信道上传至频谱管理器。
9.根据权利要求8所述的在双通道环境下基于DQN算法的信道切换方法,其特征在于,步骤9所述上传优选信道至频谱管理器并进行信道切换决策,具体如下:
位于簇首的频谱管理器根据各子结点强化学习模块上传的最优信道信息做出融合判决,选择出现次数占比最高的优选信道作为最终的切换信道,频谱管理器下发切换指令,次用户节点进行信道切换。
10.根据权利要求9所述的在双通道环境下基于DQN算法的信道切换方法,其特征在于,步骤10所述信道切换完成,并返回步骤3,具体如下:
信道切换完成,当前信道为信道st+1,返回步骤3,在该信道上,次用户节点对当前信道st+1再次进行频谱感知。
CN202011436120.8A 2020-12-10 2020-12-10 在双通道环境下基于dqn算法的信道切换系统及方法 Active CN112637914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011436120.8A CN112637914B (zh) 2020-12-10 2020-12-10 在双通道环境下基于dqn算法的信道切换系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011436120.8A CN112637914B (zh) 2020-12-10 2020-12-10 在双通道环境下基于dqn算法的信道切换系统及方法

Publications (2)

Publication Number Publication Date
CN112637914A true CN112637914A (zh) 2021-04-09
CN112637914B CN112637914B (zh) 2023-04-07

Family

ID=75309626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011436120.8A Active CN112637914B (zh) 2020-12-10 2020-12-10 在双通道环境下基于dqn算法的信道切换系统及方法

Country Status (1)

Country Link
CN (1) CN112637914B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113595663A (zh) * 2021-08-06 2021-11-02 天津(滨海)人工智能军民融合创新中心 基于实时信道状态估计的协作频谱感知接入方法
CN114375022A (zh) * 2022-01-08 2022-04-19 山东大学 一种无线网络中基于多智能体强化学习的领导人选举方法
CN114626306A (zh) * 2022-03-22 2022-06-14 华北电力大学 一种园区分布式能源调控信息新鲜度保障方法及系统
CN115209508A (zh) * 2021-04-13 2022-10-18 中国移动通信集团设计院有限公司 频谱接入方法、装置、设备及存储介质
WO2023029320A1 (zh) * 2021-09-03 2023-03-09 展讯通信(上海)有限公司 通信方法及装置、计算机可读存储介质、通信设备
CN116095781A (zh) * 2023-02-10 2023-05-09 惠州市源医科技有限公司 一种信道切换方法及5g智能路由器
CN117545094A (zh) * 2024-01-09 2024-02-09 大连海事大学 面向分级异构认知无线传感网络的动态频谱资源分配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105119669A (zh) * 2015-09-09 2015-12-02 昆明理工大学 一种认知无线电网络分簇协作频谱感知方法
CN108809452A (zh) * 2018-05-02 2018-11-13 河海大学常州校区 动态频谱接入系统中最佳感知信道选择方法
CN110190918A (zh) * 2019-04-25 2019-08-30 广西大学 基于深度q学习的认知无线传感器网络频谱接入方法
US20200153535A1 (en) * 2018-11-09 2020-05-14 Bluecom Systems and Consulting LLC Reinforcement learning based cognitive anti-jamming communications system and method
CN111726217A (zh) * 2020-06-29 2020-09-29 中南大学 基于深度强化学习的宽带无线通信自主选频方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105119669A (zh) * 2015-09-09 2015-12-02 昆明理工大学 一种认知无线电网络分簇协作频谱感知方法
CN108809452A (zh) * 2018-05-02 2018-11-13 河海大学常州校区 动态频谱接入系统中最佳感知信道选择方法
US20200153535A1 (en) * 2018-11-09 2020-05-14 Bluecom Systems and Consulting LLC Reinforcement learning based cognitive anti-jamming communications system and method
CN110190918A (zh) * 2019-04-25 2019-08-30 广西大学 基于深度q学习的认知无线传感器网络频谱接入方法
CN111726217A (zh) * 2020-06-29 2020-09-29 中南大学 基于深度强化学习的宽带无线通信自主选频方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宁文丽: "基于强化学习的频谱感知策略研究", 《硕士学位论文》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115209508B (zh) * 2021-04-13 2023-09-19 中国移动通信集团设计院有限公司 频谱接入方法、装置、设备及存储介质
CN115209508A (zh) * 2021-04-13 2022-10-18 中国移动通信集团设计院有限公司 频谱接入方法、装置、设备及存储介质
CN113595663B (zh) * 2021-08-06 2023-08-04 天津(滨海)人工智能军民融合创新中心 基于实时信道状态估计的协作频谱感知接入方法
CN113595663A (zh) * 2021-08-06 2021-11-02 天津(滨海)人工智能军民融合创新中心 基于实时信道状态估计的协作频谱感知接入方法
WO2023029320A1 (zh) * 2021-09-03 2023-03-09 展讯通信(上海)有限公司 通信方法及装置、计算机可读存储介质、通信设备
CN114375022A (zh) * 2022-01-08 2022-04-19 山东大学 一种无线网络中基于多智能体强化学习的领导人选举方法
CN114375022B (zh) * 2022-01-08 2024-03-12 山东大学 一种无线网络中基于多智能体强化学习的信道抢占方法
CN114626306A (zh) * 2022-03-22 2022-06-14 华北电力大学 一种园区分布式能源调控信息新鲜度保障方法及系统
CN114626306B (zh) * 2022-03-22 2023-01-24 华北电力大学 一种园区分布式能源调控信息新鲜度保障方法及系统
CN116095781A (zh) * 2023-02-10 2023-05-09 惠州市源医科技有限公司 一种信道切换方法及5g智能路由器
CN116095781B (zh) * 2023-02-10 2023-08-15 惠州市源医科技有限公司 一种信道切换方法及5g智能路由器
CN117545094A (zh) * 2024-01-09 2024-02-09 大连海事大学 面向分级异构认知无线传感网络的动态频谱资源分配方法
CN117545094B (zh) * 2024-01-09 2024-03-26 大连海事大学 面向分级异构认知无线传感网络的动态频谱资源分配方法

Also Published As

Publication number Publication date
CN112637914B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN112637914B (zh) 在双通道环境下基于dqn算法的信道切换系统及方法
CN110770761B (zh) 深度学习系统和方法以及使用深度学习的无线网络优化
CN107249200B (zh) 一种应用模糊预测模型的切换方法
CN110620611B (zh) 一种基于geo与leo双层卫星网络的协同频谱感知方法
CN106507370B (zh) 主动式频谱感知切换的方法
CN112040510B (zh) 基于QoS约束和负载均衡的卫星网络接入选择方法
CN103281734B (zh) 一种分布式认知无线网络中主动频谱切换的方法
US11284361B2 (en) System and method for device-to-device communication
CN105813123B (zh) 基于预测呼叫阻塞率预筛选网络的异构网络接入选择方法
Qu et al. A hybrid handover forecasting mechanism based on fuzzy forecasting model in cellular networks
CN113423110A (zh) 基于深度强化学习的多用户多信道动态频谱接入方法
CN104301964A (zh) 基于组合预测的自适应机会协作控制方法
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
Wang et al. A dynamic channel-borrowing approach with fuzzy logic control in distributed cellular networks
CN112437446B (zh) 多层室分小区的区分方法、装置、电子设备及存储介质
CN114390625B (zh) 一种基站切换的控制方法、装置、存储介质及电子设备
CN116321431A (zh) 基于元学习的超参数重加权水声网络介质访问控制方法
CN115297518A (zh) 一种基于移动用户位置的网络切换方法及其系统
CN115580900A (zh) 一种基于深度强化学习的无人机辅助协作式任务卸载方法
Moses et al. An integrated AHP‐ELECTRE and deep reinforcement learning methods for handover performance optimization in an LTE‐A networks
CN113747386A (zh) 认知无线电网络频谱共享中的智能功率控制方法
KR20220044635A (ko) 네트워크 스위칭 장치 및 네트워크 스위칭 장치의 동작 방법
CN113115355A (zh) 一种d2d系统中基于深度强化学习的功率分配方法
CN114980254B (zh) 基于决斗深度循环q网络的动态多信道接入方法和装置
KR102445733B1 (ko) 전술환경에서의 시스템 망 최적화 방법, 서버 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant