CN110691422B - 一种基于深度强化学习的多信道智能接入方法 - Google Patents

一种基于深度强化学习的多信道智能接入方法 Download PDF

Info

Publication number
CN110691422B
CN110691422B CN201910946631.5A CN201910946631A CN110691422B CN 110691422 B CN110691422 B CN 110691422B CN 201910946631 A CN201910946631 A CN 201910946631A CN 110691422 B CN110691422 B CN 110691422B
Authority
CN
China
Prior art keywords
channel
state
action
strategy
intelligent access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910946631.5A
Other languages
English (en)
Other versions
CN110691422A (zh
Inventor
赵楠
程一强
刘畅
裴一扬
刘聪
曾春艳
贺潇
刘泽华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN201910946631.5A priority Critical patent/CN110691422B/zh
Publication of CN110691422A publication Critical patent/CN110691422A/zh
Application granted granted Critical
Publication of CN110691422B publication Critical patent/CN110691422B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0808Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA]
    • H04W74/0816Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA] with collision avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0833Random access procedures, e.g. with 4-step access
    • H04W74/0841Random access procedures, e.g. with 4-step access with collision treatment
    • H04W74/085Random access procedures, e.g. with 4-step access with collision treatment collision avoidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于无线通信技术领域,具体涉及一种基于深度强化学习的多信道智能接入方法,旨在将深度强化学习策略引入到多信道接入,以期实现多信道的智能接入。针对现有多信道接入策略较难适应信道环境动态性问题,本发明提出基于深度强化学习的多信道智能接入方法。首先,将多信道智能接入问题建模为离散状态与动作空间的马尔可夫决策过程,提出Q‑learning方法以实现多信道的智能接入。在此基础上,针对Q‑learning状态空间大和收敛慢等特点,通过设计深度神经网络,利用梯度下降法来训练深度神经网络的权值,修正损失函数解决状态‑动作函数过高估计问题,以获得近似最优的多信道智能接入策略。

Description

一种基于深度强化学习的多信道智能接入方法
技术领域
本发明属于无线通信技术领域,具体涉及一种基于深度强化学习的多信道智能接入方法。
背景技术
随着无线通信技术的迅速发展,频谱资源的需求越来越高。频谱资源日益匮乏,已成为制约无线通信发展的严峻问题。多信道接入方法因其能够有效地提高频谱资源的利用率,受到研究者的广泛关注。
然而,多信道接入方法往往需要大量网络信息;同时,当信道状态发生变化时,很难有效地实现信道的智能接入。因此,如何实现多信道的智能接入是一个值得研究的问题。近年来,深度强化学习方法因其强大的学习能力,在智能决策、无人驾驶、边缘卸载等领域取得了一些研究进展。
因此,受到深度强化学习的启发,本发明旨在将强化学习策略引入到多信道接入,以期实现多信道的智能接入。在建立多信道接入模型的基础上,将多信道智能接入问题建模为离散状态与动作空间的马尔可夫决策过程。针对Q-learning状态空间大和收敛慢等问题,通过设计深度神经网络,利用梯度下降法来训练深度神经网络的权值,采用经验回放策略降低数据的相关性,修正损失函数解决状态-动作函数过高估计问题,以获得近似最优的多信道智能接入策略。
发明内容
为了克服现有多信道接入策略较难适应信道环境动态性问题,本发明的目的在于提出一种基于深度强化学习的多信道智能接入方法。
为了达到上述目的,本发明所采用的技术方案是:一种基于深度强化学习的多信道智能接入方法,其特征在于,所述方法包括如下步骤:
步骤1,将多信道接入模型描述成马尔可夫决策过程;
步骤2,在此基础上,提出Q-learning方法以实现多信道的智能接入;
步骤3,通过设计深度神经网络,以获得近似最优的多信道智能接入策略;
步骤4,采用经验回放策略,以降低数据的相关性;
步骤5,设计基于深度强化学习多信道智能接入算法。
进一步地,步骤1中,所述将多信道接入模型描述成马尔可夫决策过程包括:
假设用户在从N个信道的选择接入某一信道的过程中,会受到从第1个到第N个信道的周期性外部干扰,同时,考虑到用户当前时刻接入信道所获得的效用仅与当前信道状态有关,与信道之前状态无关,上述多信道接入过程可描述为一个马尔可夫决策过程(S;A;p(s′|s,a);r;π(a|s)),具体描述如下:
状态空间S:当前时刻各信道状态s的集合,0表示某一信道处于空闲状态,1表示某一信道已被占用,于是,N个信道的状态空间S为2N
动作空间A:选择某一信道动作a的集合;
转移概率p(s′|s,a):在信道状态s情况下,采用某一动作a时,信道状态s转变为下一信道状态s′的概率;
奖励r:用户某一动作a时,信道状态从s转移到下一信道状态s′获得的奖励,如果用户与干扰没有发生碰撞,奖励r=r+1,否则为r=r-1;
策略π(a|s):在信道状态s时,选择某一信道动作a的概率;
这里,定义累积奖励R为所有奖励r的累积,即:
Figure BDA0002224354060000021
其中,rn表示在第n个时刻获得的奖励,γ为衰减因子且γ∈[0,1),衰减因子决定了未来信道奖励和当前时刻奖励的重要性,当衰减因子接近0时,意味着当前时刻获得的奖励权重较多;反之,当衰减因子接近1时,则意味着用户更注重未来时刻获得的奖励。
进一步地,步骤2中,Q-learning方法实现多信道的智能接入过程包括:
作为解决上述马尔可夫决策过程的常用方法,强化学习不断以试错的方式与环境进行交互,通过最大化累积奖励以获得最优策略。本发明将强化学习方法应用于多信道接入,用户通过观察当前时刻各信道占位情况,从历史经验中学习,选择接入下一时刻的最佳信道,避免与干扰产生碰撞,从而实现多信道智能接入。
这里,本发明定义信道状态s处选择信道a得到的期望奖励为状态-动作值函数Q(s,a):
Q(s,a)=E[R|s,a]
其中,E表示信道状态s处选择信道a得到的期望。
于是,通过贝尔曼方程得到最优的状态-动作值函数Q*(s,a):
Figure BDA0002224354060000031
同时,状态-动作值函数Q(s,a)更新过程可以表示如下:
Q(s,a)=(1-δ)Q(s,a)+δQ-
其中,Q-=r+γmaxa′Q(s′,a′),δ为学习率,它影响状态-动作函数Q(s,a)的更新速度。
进一步地,步骤3中,设计深度神经网络以获得近似最优的多信道智能接入策略的过程包括:
值得注意的是,当N较大时,整个状态空间S非常巨大。如果采用经典的强化学习方法Q-learning,通过查找状态-动作值Q(s,a)表获得最优信道接入策略,将非常困难。因此,本发明提出基于深度强化学习的多信道智能接入方法。
本发明将DNN引入到Q-learning的框架中,以获得近似最优的策略和状态-动作函数Q(s,a)。DNN是一个具有多个处理层的神经网络,每一层都由许多神经元组成,每个神经元都将前一层的输出通过加权线性组合作为下一层的输入。在这里,DNN由Online网络和Target网络组成,Online网络使用带有权重θ的Q函数Q(s,a,θ),以近似最优状态-动作值函数Q*(s,a);Target网络使用带有权重θ-的Q函数Q(s,a,θ-),以提高整个网络的性能。在特定的回合数后,复制Online网络的权重θ以更新Target网络的权重θ-。利用梯度下降法更新Online网络的权重θ,以获得最小损失函数:
L=(r+γmaxa'Q(s′,a′,θ-)-Q(s,a,θ))2
进一步地,步骤4中,经验回放策略具体实现过程包括:
为了降低数据的相关性,本发明采用经验回放策略。在学习过程中,从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>,以训练神经网络。通过不断减少训练样本之间的相关性,以避免最优策略陷入局部最小值。
此外,考虑到上述DNN经常会过高地估计状态-动作函数Q(s,a,θ),本发明在公式L=(r+γmaxa'Q(s′,a′,θ-)-Q(s,a,θ))2的基础上,将权重为θ的Q函数用来选择动作,权重为θ-的Q函数用来评估动作。于是,修正后的损失函数如下:
L=(y-Q(s,a,θ))2
其中,y=r+γQ(s′,argmaxa′Q(s′,a′,θ),θ-)。
进一步地,步骤5中,基于深度强化学习多信道智能接入算法具体实现过程包括:
(1)初始化当前时刻中各信道状态s;
(2)利用ε-贪婪策略来选择信道:以概率ε随机选择下一时刻接入的信道,以概率(1-ε)选择接入满足最优Q(s,a,θ)的信道;
(3)在信道状态s下,选择信道接入动作a,得到奖励r。如果没有与干扰产生碰撞r=r+1,产生碰撞r=r-1;
(4)信道状态s转移到下一信道状态s′;
(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中;
(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>;
(7)计算损失函数,借助梯度下降法获得最小损失函数;
(8)间隔一定回合后,将Online网络的权重θ复制给Target网络权重θ-
(9)重复第2到第8步骤。
与现有技术相比,本发明的有益效果是:本发明针对多信道状态的动态性,研究了基于深度强化学习的多信道智能接入方法,解决了Q-learning状态空间过大和收敛速度慢等问题,从而获得近似最优的信道接入策略和更快的收敛速度。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明针对现有多信道接入策略较难适应信道环境动态性问题,提出基于深度强化学习的多信道智能接入方法。首先,通过将多信道接入模型描述成马尔可夫决策过程,提出Q-learning方法以实现多信道的智能接入。在此基础上,针对Q-learning状态空间大和收敛慢等特点,通过设计深度神经网络,以获得近似最优的多信道智能接入策略。
A.马尔可夫决策模型
假设用户在从N个信道的选择接入某一信道的过程中,会受到从第1个到第N个信道的周期性外部干扰。同时,考虑到用户当前时刻接入信道所获得的效用仅与当前信道状态有关,与信道之前状态无关,上述多信道接入过程可描述为一个马尔可夫决策过程(S;A;p(s′|s,a);r;π(a|s)),具体描述如下:
状态空间S:当前时刻各信道状态s的集合。0表示某一信道处于空闲状态,1表示某一信道已被占用。于是,N个信道的状态空间S为2N
动作空间A:选择某一信道动作a的集合。
转移概率p(s′|s,a):在信道状态s情况下,采用某一动作a时,信道状态s转变为下一信道状态s′的概率。
奖励r:用户某一动作a时,信道状态从s转移到下一信道状态s′获得的奖励。如果用户与干扰没有发生碰撞,奖励r=r+1,否则为r=r-1。
策略π(a|s):在信道状态s时,选择某一信道动作a的概率。
这里,本发明定义累积奖励R为所有奖励r的累积,即:
Figure BDA0002224354060000061
其中,rn表示在第n个时刻获得的奖励。γ为衰减因子且γ∈[0,1),衰减因子决定了未来信道奖励和当前时刻奖励的重要性。当衰减因子接近0时,意味着当前时刻获得的奖励权重较多;反之,当衰减因子接近1时,则意味着用户更注重未来时刻获得的奖励。
B.强化学习模型
作为解决上述马尔可夫决策过程的常用方法,强化学习不断以试错的方式与环境进行交互,通过最大化累积奖励以获得最优策略。本发明将强化学习方法应用于多信道接入,用户通过观察当前时刻各信道占位情况,从历史经验中学习,选择接入下一时刻的最佳信道,避免与干扰产生碰撞,从而实现多信道智能接入。
这里,本发明定义信道状态s处选择信道a得到的期望奖励为状态-动作值函数Q(s,a):
Q(s,a)=E[R|s,a]
其中,E表示信道状态s处选择信道a得到的期望。
于是,通过贝尔曼方程得到最优的状态-动作值函数Q*(s,a):
Figure BDA0002224354060000062
同时,状态-动作值函数Q(s,a)更新过程可以表示如下:
Q(s,a)=(1-δ)Q(s,a)+δQ-
其中,Q-=r+γmaxa′Q(s′,a′),δ为学习率,它影响状态-动作函数Q(s,a)的更新速度。
C.DNN模型
值得注意的是,当N较大时,整个状态空间S非常巨大。如果采用经典的强化学习方法Q-learning,通过查找状态-动作值Q(s,a)表获得最优信道接入策略,将非常困难。因此,本发明提出基于深度强化学习的多信道智能接入方法。
本发明将DNN引入到Q-learning的框架中,以获得近似最优的策略和状态-动作函数Q(s,a)。DNN是一个具有多个处理层的神经网络,每一层都由许多神经元组成,每个神经元都将前一层的输出通过加权线性组合作为下一层的输入。在这里,DNN由Online网络和Target网络组成,Online网络使用带有权重θ的Q函数Q(s,a,θ),以近似最优状态-动作值函数Q*(s,a);Target网络使用带有权重θ-的Q函数Q(s,a,θ-),以提高整个网络的性能。在特定的回合数后,复制Online网络的权重θ以更新Target网络的权重θ-。利用梯度下降法更新Online网络的权重θ,以获得最小损失函数:
L=(r+γmaxa'Q(s′,a′,θ-)-Q(s,a,θ))2
D.经验回放策略
为了降低数据的相关性,本发明采用经验回放策略。在学习过程中,从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>,以训练神经网络。通过不断减少训练样本之间的相关性,以避免最优策略陷入局部最小值。
此外,考虑到上述DNN经常会过高地估计状态-动作函数Q(s,a,θ),本发明在公式L=(r+γmaxa'Q(s′,a′,θ-)-Q(s,a,θ))2的基础上,将权重为θ的Q函数用来选择动作,权重为θ-的Q函数用来评估动作。于是,修正后的损失函数如下:
L=(y-Q(s,a,θ))2
其中,y=r+γQ(s′,argmaxa′Q(s′,a′,θ),θ-)。
E.基于深度强化学习多信道智能接入算法
(1)初始化当前时刻中各信道状态s;
(2)利用ε-贪婪策略来选择信道:以概率ε随机选择下一时刻接入的信道,以概率(1-ε)选择接入满足最优Q(s,a,θ)的信道;
(3)在信道状态s下,选择信道接入动作a,得到奖励r。如果没有与干扰产生碰撞r=r+1,产生碰撞r=r-1;
(4)信道状态s转移到下一信道状态s′;
(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中;
(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>;
(7)计算损失函数,借助梯度下降法获得最小损失函数;
(8)间隔一定回合后,将Online网络的权重θ复制给Target网络权重θ-
(9)复第2到第8步骤。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (1)

1.一种基于深度强化学习的多信道智能接入方法,其特征在于,所述方法包括如下步骤:
步骤1,将多信道接入模型描述成马尔可夫决策过程;
步骤2,在此基础上,提出Q-learning方法以实现多信道的智能接入;
步骤3,通过设计深度神经网络,以获得近似最优的多信道智能接入策略;
步骤4,采用经验回放策略,以降低数据的相关性;
步骤5,设计基于深度强化学习多信道智能接入算法;
步骤1中,所述将多信道接入模型描述成马尔可夫决策过程包括:
假设用户在从N个信道的选择接入某一信道的过程中,会受到从第1个到第N个信道的周期性外部干扰,同时,考虑到用户当前时刻接入信道所获得的效用仅与当前信道状态有关,与信道之前状态无关,上述多信道接入过程可描述为一个马尔可夫决策过程(S;A;p(s′|s,a);r;π(a|s)),具体描述如下:
状态空间S:当前时刻各信道状态s的集合,0表示某一信道处于空闲状态,1表示某一信道已被占用,于是,N个信道的状态空间S为2N
动作空间A:选择某一信道动作a的集合;
转移概率p(s′|s,a):在信道状态s情况下,采用某一动作a时,信道状态s转变为下一信道状态s′的概率;
奖励r:用户某一动作a时,信道状态从s转移到下一信道状态s′获得的奖励,如果用户与干扰没有发生碰撞,奖励r=r+1,否则为r=r-1;
策略π(a|s):在信道状态s时,选择某一信道动作a的概率;
这里,定义累积奖励R为所有奖励r的累积,即:
Figure FDA0002966777060000011
其中,rn表示在第n个时刻获得的奖励,γ为衰减因子且γ∈[0,1),衰减因子决定了未来信道奖励和当前时刻奖励的重要性,当衰减因子接近0时,意味着当前时刻获得的奖励权重较多;反之,当衰减因子接近1时,则意味着用户更注重未来时刻获得的奖励;
步骤2中,Q-learning方法实现多信道的智能接入过程包括:
作为解决马尔可夫决策过程的常用方法,强化学习不断以试错的方式与环境进行交互,通过最大化累积奖励以获得最优策略,将强化学习方法应用于多信道接入,用户通过观察当前时刻各信道占位情况,从历史经验中学习,选择接入下一时刻的最佳信道,避免与干扰产生碰撞,从而实现多信道智能接入;
这里,定义信道状态s处选择信道a得到的期望奖励为状态-动作值函数Q(s,a):
Q(s,a)=E[R|s,a]
其中,E表示信道状态s处选择信道a得到的期望;
于是,通过贝尔曼方程得到最优的状态-动作值函数Q*(s,a):
Figure FDA0002966777060000021
同时,状态-动作值函数Q(s,a)更新过程可以表示如下:
Q(s,a)=(1-δ)Q(s,a)+δQ-
其中,Q-=r+γmaxa′Q(s′,a′),δ为学习率,它影响状态-动作函数Q(s,a)的更新速度;
步骤3中,设计深度神经网络以获得近似最优的多信道智能接入策略的过程包括:
将DNN引入到Q-learning的框架中,以获得近似最优的策略和状态-动作函数Q(s,a),DNN是一个具有多个处理层的神经网络,每一层都由许多神经元组成,每个神经元都将前一层的输出通过加权线性组合作为下一层的输入,在这里,DNN由Online网络和Target网络组成,Online网络使用带有权重θ的Q函数Q(s,a,θ),以近似最优状态-动作值函数Q*(s,a);Target网络使用带有权重θ-的Q函数Q(s,a,θ-),以提高整个网络的性能,在特定的回合数后,复制Online网络的权重θ以更新Target网络的权重θ-,利用梯度下降法更新Online网络的权重θ,以获得最小损失函数:
L=(r+γmaxa'Q(s′,a′,θ-)-Q(s,a,θ))2
步骤4中,经验回放策略具体实现过程包括:
为了降低数据的相关性,采用经验回放策略,在学习过程中,从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>,以训练神经网络,通过不断减少训练样本之间的相关性,以避免最优策略陷入局部最小值;
此外,考虑到上述DNN经常会过高地估计状态-动作函数Q(s,a,θ),在公式L=(r+γmaxa'Q(s′,a′,θ-)-Q(s,a,θ))2的基础上,将权重为θ的Q函数用来选择动作,权重为θ-的Q函数用来评估动作,于是,修正后的损失函数如下:
L=(y-Q(s,a,θ))2
其中,y=r+γQ(s′,argmaxa′Q(s′,a′,θ),θ-);
步骤5中,基于深度强化学习多信道智能接入算法具体实现过程包括:
(1)初始化当前时刻中各信道状态s;
(2)利用ε-贪婪策略来选择信道:以概率ε随机选择下一时刻接入的信道,以概率(1-ε)选择接入满足最优Q(s,a,θ)的信道;
(3)在信道状态s下,选择信道接入动作a,得到奖励r,如果没有与干扰产生碰撞r=r+1,产生碰撞r=r-1;
(4)信道状态s转移到下一信道状态s′;
(5)将上述信息<s,a,r,s′>保存在经验回放存储器D中;
(6)从经验回放存储器D中随机抽取mini-batch样本<s,a,r,s′>;
(7)计算损失函数,借助梯度下降法获得最小损失函数;
(8)间隔一定回合后,将Online网络的权重θ复制给Target网络权重θ-
(9)重复第2到第8步骤。
CN201910946631.5A 2019-10-06 2019-10-06 一种基于深度强化学习的多信道智能接入方法 Expired - Fee Related CN110691422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910946631.5A CN110691422B (zh) 2019-10-06 2019-10-06 一种基于深度强化学习的多信道智能接入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910946631.5A CN110691422B (zh) 2019-10-06 2019-10-06 一种基于深度强化学习的多信道智能接入方法

Publications (2)

Publication Number Publication Date
CN110691422A CN110691422A (zh) 2020-01-14
CN110691422B true CN110691422B (zh) 2021-07-13

Family

ID=69111369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910946631.5A Expired - Fee Related CN110691422B (zh) 2019-10-06 2019-10-06 一种基于深度强化学习的多信道智能接入方法

Country Status (1)

Country Link
CN (1) CN110691422B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111491358B (zh) * 2020-04-23 2021-10-26 电子科技大学 基于能量采集的自适应调制和功率控制系统与优化方法
CN111985672B (zh) * 2020-05-08 2021-08-27 东华大学 一种多Agent深度强化学习的单件作业车间调度方法
CN111628855B (zh) * 2020-05-09 2021-06-15 中国科学院沈阳自动化研究所 基于深度强化学习的工业5g动态多优先级多接入方法
CN112188600B (zh) * 2020-09-22 2023-05-30 南京信息工程大学滨江学院 一种利用强化学习优化异构网络资源的方法
CN112188503B (zh) * 2020-09-30 2021-06-22 南京爱而赢科技有限公司 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法
CN112188539B (zh) * 2020-10-10 2022-11-11 南京理工大学 一种基于深度强化学习的干扰抵消调度码设计方法
CN112163666B (zh) * 2020-10-20 2021-06-11 北京理工大学 一种基于强化学习的仿生机器鼠行为交互方法及仿真系统
CN112437131B (zh) * 2020-11-10 2022-09-13 西北农林科技大学 物联网中考虑数据相关性的数据动态采集与传输方法
CN112954814B (zh) * 2021-01-27 2022-05-20 哈尔滨工程大学 一种认知无线电中信道质量性接入方法
CN113573284B (zh) * 2021-06-21 2023-05-12 吉林大学 大规模机器类通信基于机器学习的随机接入退避方法
CN113613301B (zh) * 2021-08-04 2022-05-13 北京航空航天大学 一种基于dqn的空天地一体化网络智能切换方法
CN115811801A (zh) * 2021-09-15 2023-03-17 华为技术有限公司 通信方法以及相关装置
CN114143149B (zh) * 2021-11-26 2023-03-10 西北大学 一种基于神经网络的LoRa信道估计方法及系统
CN114375066B (zh) * 2022-01-08 2024-03-15 山东大学 一种基于多智能体强化学习的分布式信道竞争方法
CN115315020A (zh) * 2022-08-08 2022-11-08 重庆邮电大学 基于区分服务的ieee 802.15.4协议的智能csma/ca退避方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9113371B2 (en) * 2010-07-01 2015-08-18 The Hong Kong University Of Science And Technology Cross-layer optimization for next-generation WiFi systems
KR101877243B1 (ko) * 2017-04-25 2018-07-11 한국과학기술원 강화학습 기반의 신경망을 이용한 ap 장치 클러스터링 방법 및 강화학습 기반의 신경망을 이용한 협력 통신 장치
CN109462858A (zh) * 2017-11-08 2019-03-12 北京邮电大学 一种无线传感器网络参数自适应调节方法
CN109639377B (zh) * 2018-12-13 2021-03-23 西安电子科技大学 基于深度强化学习的频谱资源管理方法
CN109710741A (zh) * 2018-12-27 2019-05-03 中山大学 一种面向在线问答平台的基于深度强化学习的问题标注方法
CN110035478A (zh) * 2019-04-18 2019-07-19 北京邮电大学 一种高速移动场景下的动态多信道接入方法

Also Published As

Publication number Publication date
CN110691422A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN110691422B (zh) 一种基于深度强化学习的多信道智能接入方法
CN111556461B (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
CN111726811B (zh) 一种用于认知无线网络的切片资源分配方法及系统
CN113873022A (zh) 一种可划分任务的移动边缘网络智能资源分配方法
CN112598150B (zh) 一种在智能电厂中基于联邦学习提升火灾检测效果的方法
CN114285853B (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
CN113784410B (zh) 基于强化学习td3算法的异构无线网络垂直切换方法
CN113485826A (zh) 一种边缘服务器负载均衡方法、系统
CN114501667A (zh) 一种考虑业务优先级的多信道接入建模及分布式实现方法
CN116367231A (zh) 基于ddpg算法的边缘计算车联网资源管理联合优化方法
CN116389270A (zh) 联邦学习中基于drl联合优化客户端选择和带宽分配的方法
CN113613332B (zh) 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统
CN117495052A (zh) 强化学习与遗传算法融合驱动的多农机多任务调度方法
CN116542319A (zh) 边缘计算环境中基于数字孪生的自适应联邦学习方法及系统
CN113191487B (zh) 基于分布式ppo算法的自适应连续功率控制方法
CN116596059A (zh) 一种基于优先级经验共享的多智能体强化学习方法
CN116193516A (zh) 一种物联网场景下用于高效联邦学习的成本优化方法
CN112953666B (zh) 认知无线网络中基于信道质量的频谱预测切换方法
CN114138416A (zh) 面向负载-时间窗口的基于dqn云软件资源自适应分配方法
CN112954814B (zh) 一种认知无线电中信道质量性接入方法
CN114980254B (zh) 基于决斗深度循环q网络的动态多信道接入方法和装置
CN117750509A (zh) 一种多无人机网络下基于深度强化学习的时隙分配方法
CN118042525A (zh) 一种基于多目标权重网络的任务卸载方法
CN114599116A (zh) 一种非授权频段公平共存接入方法及系统
CN116113079A (zh) 一种基于dqn的工业无线传感网共存调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210713

Termination date: 20211006