CN113810910A - 基于深度强化学习的4g与5g网络间动态频谱共享方法 - Google Patents

基于深度强化学习的4g与5g网络间动态频谱共享方法 Download PDF

Info

Publication number
CN113810910A
CN113810910A CN202111098334.3A CN202111098334A CN113810910A CN 113810910 A CN113810910 A CN 113810910A CN 202111098334 A CN202111098334 A CN 202111098334A CN 113810910 A CN113810910 A CN 113810910A
Authority
CN
China
Prior art keywords
base station
network
sharing
decision
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111098334.3A
Other languages
English (en)
Other versions
CN113810910B (zh
Inventor
李轩衡
陈幸运
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202111098334.3A priority Critical patent/CN113810910B/zh
Publication of CN113810910A publication Critical patent/CN113810910A/zh
Application granted granted Critical
Publication of CN113810910B publication Critical patent/CN113810910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/14Spectrum sharing arrangements between different networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种基于深度强化学习的4G与5G网络间动态频谱共享方法。考虑一个单基站覆盖的蜂窝网络,将基站视为智能体,其可调度的最小资源单位定义为资源块,包含时间和频率两个维度,基站的共享策略将针对资源块周期制定,即在每个决策周期内决定哪些资源块共享用于5G服务供应。本发明以4G网络服务质量保证和频谱共享效率为目标,通过深度强化学习使基站能够根据动态的环境信息不断改进策略,实现对4G闲置频谱的高效、合理利用。本发明不依赖特定模型,能够更加准确地制定共享策略。同时,本发明中基站能够利用训练好的神经网络基于当前环境的观测量直接制定共享策略,省去基于传统优化算法的复杂计算,避免了其带来的不可容忍的延迟。

Description

基于深度强化学习的4G与5G网络间动态频谱共享方法
技术领域
本发明属于移动通信技术领域,具体涉及一种基于深度强化学习的智能型动态频谱共享方法。
背景技术
近年来,随着入网无线设备数量的激增,移动无线通信网络中的数据流量呈指数级增长,迫使移动通信网络向第五代(5G)演进。为了支撑海量数据传输和新兴应用场景,5G网络需要更多的频谱资源作为支持,频谱短缺已成为5G移动通信网络发展亟需解决的关键问题。然而,大量研究表明,在目前固定的频谱分配策略下,大量授权频段利用率很低,在部分地区和时段甚至不足20%,这与5G对频谱的迫切需求形成了强烈的矛盾。因此,如何有效利用有限的频谱资源,解决频谱供需矛盾,已成为移动通信领域的焦点难题。
为提高频谱利用效率,频谱共享技术被提出并迅速得到广泛关注,其主要思想是让非授权用户在不影响授权用户正常使用的前提下,机会性地使用空闲的授权频段。该共享理念已在5G频谱部署中得到体现,根据不同网络在不同时段的业务量的不同,动态分配某段频谱共享用于5G服务提供。频谱共享对5G发展具有重大意义,一是利于5G使用4G的低频段实现网络的泛在覆盖,比如2021年初中国移动和中国广电在700MHz频段上对5G业务的共建共享;二是利于4G向5G平滑演进,在5G初期用户数量不多时,可以动态地将频谱资源用于4G用户使用,而当5G用户逐渐增多时,可以为5G网络分配更多的频谱资源。然而,目前频谱共享的实施方案主要是大尺度下的静态共享,即在特定时段和较大区域内对固定频段进行释放和共享,灵活度不高,且仍存在频谱资源浪费现象。因此,更具优势的动态频谱共享技术被提出,旨在根据业务需求的实时变化动态分配频谱资源,从而大幅度提高频谱利用效率。目前关于4G与5G网络频谱动态共享的研究存在以下不足:
一、目前提出的动态频谱共享方法大多基于传统的优化理论将问题建成一个全局优化问题,进而得到最优的共享策略。然而,由于网络环境在空间和时间维度上的动态特性,网络中的流量需求等相关信息是不确定的,这使得优化建模和求解十分困难,难以实现。
二、动态频谱共享需要根据网络的状态实时调整共享策略,由于实际网络中通常有大量智能设备接入,数据类型多,信息维度大,即使能够通过优化手段得到最优策略,其问题求解的较高复杂度将带来难以容忍的延迟。
三、动态共享4G的频谱资源会带来一定的信道容量损失,即降低4G用户的网络速率,影响4G用户体验。因此,在制定共享策略时,需要前瞻地预测4G网络流量需求,在保证4G用户QoS(服务质量)的前提下,准确地制定频谱资源共享策略。
考虑上述目前研究存在的问题,本发明将基于深度强化学习设计一种以4G网络性能保证为前提,以频谱共享效率为目标的智能型4G与5G网络动态频谱共享方法,令基站可以通过学习网络环境快速制定最优策略。
发明内容
本发明的目的是克服目前网络对频谱利用的低效性,为移动通信网络提供一种4G与5G网络之间动态频谱共享方法。在移动通信网络中,不同区域和时段内的流量需求通常不同,且具有一定变化规律,本发明将通过学习不同区域内4G流量需求变化的潜在时间相关性,预测小区的未来4G流量需求,并依此制定相应的频谱共享策略,即将多余的4G频谱用于5G服务提供。
本发明的技术方案是基于深度强化学习方法实现4G与5G网络间动态频谱共享。强化学习的主要框架由智能体和环境组成,智能体从环境中获得观测状态,根据状态选择动作,然后得到一个奖励值并进入下一个状态。这个与环境交互的过程称为智能体的一个决策周期,其基本思路是指导智能体在每个状态下去选择一个动作使累积折扣奖励(也被称为Q值)最大化。在本发明中,某基站覆盖的区域下的频谱共享决策是周期制定的,在每个决策周期内,基站根据上一个决策周期结束时观测到的该区域的流量需求信息(即环境状态)去执行动作,即制定频谱共享策略,并根据动作结束后的状态去计算奖励值,用于评价该执行动作的好坏。基站会将状态、动作、动作结束后跳转的状态和计算得到的奖励值4组信息包成一个经验元组,存入经验池当中,用于网络训练,使其能够根据动态的环境信息不断地改进决策,以实现对4G闲置频谱的合理、高效利用。
本发明的一种基于深度强化学习方法实现4G与5G网络间动态频谱共享方法建立于以下系统环境:
考虑一个单基站覆盖的蜂窝网络,网络中包括4G和5G两种类型用户。基站覆盖区域被分为L个子区域,并且基站能够收集每个子区域中4G流量数据信息。基站总带宽为NMHz,分为F个子频带,每个子频带的带宽为B=N/FMHz。基站可调度的最小资源单位定义为资源块,每个资源块包含时间和频率两个维度,时域持续时间为T,频域带宽为B。在本发明中,基站会针对资源块周期地制定共享策略,即在每个决策周期T内决定哪些资源块共享用于5G服务供应。
具体步骤如下:
(1)基站首先构建两个结构完全相同的神经网络,分别是带有参数θ的Q主网络和带有参数
Figure BDA0003269841860000031
的Q目标网络。对于任意第t个决策周期,状态定义为基站在上一个决策周期内观测到的各子区域的4G流量数据,记为st={w1,t,w2,t,...,wL,t},并且将其作为Q主网络的输入。Q主网络的作用是对当前状态st下所有可选的共享策略进行评估,其输出为对各策略的打分,称为Q值,对于任意策略a,记为Q(st,a;θ)。
(2)基站会基于获取的状态信息st制定共享策略at,又称为动作。在本发明中,任意第t个决策周期内基站的动作为at={a1,t,a2,t,...,aF,t},其中af,t={0,1},用于标识各资源块是否被共享,af,t=1表示第f个资源块被共享,否则af,t=0。因此,总的共享资源块数量可以表示为
Figure BDA0003269841860000032
动作的选择基于ε-greedy策略,即以εt概率从所有可选动作中随机选择一个,用于学习探索,以1-εt概率根据Q主网络输出选择对应Q值最大的动作,作为当前最佳决策。
(3)当基站根据ε-greedy策略执行了动作at后,基站会根据动作结束后观测到的状态st+1={w1,t+1,w2,t+1,...,wL,t+1}去计算奖励值rt+1。具体来说,基站会根据st+1计算得到整个基站覆盖区域所需要的资源块数量Mt,通过与共享之后剩余的资源块数量进行比较,评价共享决策的好坏。因此,奖励值函数rt+1定义为:
Figure BDA0003269841860000033
该奖励值设定对应三种情况:一是错误决策,当共享之后剩余的资源块数量少于需求量时,会对4G网络的吞吐量带来损失,故给予负奖励值;二是正确决策,即当共享之后剩余的资源块数量等于需求量时,此时共享效率最高,故给与正奖励值;三是保守决策,即当共享之后剩余的资源块数量多于需求量时,此时没有影响4G网络吞吐量,但没有使得共享效率最大化,所以令基站得到的奖励值为0。当基站计算得到奖励值后,会将经验元组(st,at,st+1,rt+1)存入基站的经验池当中。
(4)每一个决策周期,基站都会执行上述的步骤。当内存为G的基站经验池溢出时,基站会移除最旧的经验元组并存入最新的经验元组,同时开始从经验池当中随机采样数量为S的一小批经验数据对网络进行训练。具体而言,小批量采样中的每一个经验元组(st,at,st+1,rt+1)的状态st会作为Q主网络的输入,然后Q主网络会输出对应at的估计Q值;而st+1则作为Q目标网络的输入,然后Q目标网络会输出目标Q值,表示为
Figure BDA0003269841860000041
目标Q值和rt+1组成目标值,表示为
Figure BDA0003269841860000042
其中γ∈[0,1],是一个折扣因子。估计Q值和目标值构成损失函数:
Figure BDA0003269841860000043
通过对损失函数求梯度来更新Q主网络参数,即
Figure BDA0003269841860000044
其中α为学习率。每隔固定J个决策周期,Q主网络的参数θ就会复制给目标网络的参数
Figure BDA0003269841860000045
综上,基站将在观察到的状态下持续执行动作,与环境不断进行交互,并通过在此过程中获得的奖励值去指导基站进行学习。在训练的初始阶段,基站会设置较大的探索率ε去保证基站对未知环境的探索,随着其不断地与环境进行交互,探索率会逐渐下降,训练的网络也将逐渐收敛,最终找到最优的频谱共享策略。
本发明的效果和益处:
(1)相比目前大尺度下的静态频谱共享方案,本发明能在保证4G网络服务质量的前提下,实时准确地基于网络的业务需求动态地分配频谱资源,克服了其依然存在频带资源浪费和灵活性低的不足,可以显著提高频谱利用效率。
(2)相比目前基于传统优化算法的动态频谱共享方案相比,本发明不依赖特定模型,能够更加准确地制定共享策略。同时,本发明中基站能够利用训练好的网络基于当前环境的观测量直接制定频谱共享策略,省去了基于传统优化算法的复杂计算,避免了其带来的不可容忍的延迟。
(3)本发明基于深度强化学习设计的动态频谱共享方法,能使基站通过与环境的交互学习4G网络流量特征,并根据环境的动态变化实时自适应地制定策略,克服了网络环境动态性为基站制定频谱策略共享带来的难题。
附图说明
图1基于深度强化学习的动态频谱共享方法工作流程图。
具体实施方式
以下结合技术方案,进一步说明本发明的具体实施方式。
考虑某4G基站覆盖的蜂窝网络区域,整个区域被划分为4个子区域。根据LTE标准,一个资源块的时域持续时间为0.5ms,带宽为180KHz。每个资源块对应的持续时间即为决策周期。考虑LTE可用带宽为20MHz,左右各存在1MHz带宽的保护带,因此,每个决策周期内基站可调度的资源块数量为100个。
图1表示了整个工作流程,具体步骤如下:
基站首先会构建结构相同的两个神经网络,即带有网络参数θ的Q主网络和带有网络参数
Figure BDA0003269841860000051
的Q目标网络,并对网络中的各类参数进行初始化设置。基站初始时刻会在初始状态基于ε-greedy策略制定频谱共享策略。完成决策后,基站收集当前决策周期内4个子区域内产生的4G流量数据信息并进入下一个决策周期。在下一个决策周期开始时,基站首先观测得到当前的状态信息,并根据公式(1)计算得到奖励值,然后,将经验元组信息存入经验池中。当经验池存满后,基站会从中随机采样一小批经验元组训练Q主网络,利用公式(2)对Q主网络的网络参数进行更新。每隔J个决策周期,Q主网络的网络参数会复制给Q目标网络。最后重复上述步骤。
在算法的初始阶段,探索率ε将会设置成一个较大的值,如0.9,在算法迭代过程中,令ε=0.9-0.0009×t使其逐渐下降,t为当前决策周期的序号。随着ε减小,网络的训练也将逐渐完成。当ε的值小于0.1时,将其固定设置为0.1,目的是让基站对所处的环境保持一定的探索能力。当训练收敛后,基站能直接通过训练完成的网络指导其在不同的状态下准确做出相应的频谱共享决策,以实现在保证4G网络服务质量的前提下,最大化利用闲置频谱资源。
下面给出算法全部流程:
初始化:
设定经验池大小G,小批量采样大小S,更新周期J,折扣因子γ,学习率α,贪婪因子ε=0.9,初始状态s0,Q主网络参数θ,Q目标网络参数
Figure BDA0003269841860000052
t=1
重复:
基站基于ε-greedy策略在状态st下制定共享策略at
转移到下一个状态st+1并计算奖励值rt+1
收集经验元组信息:状态st,动作at,下一个状态st+1,奖励值rt+1,并将经验元组信息存入记忆单元
t←t+1
ε←0.9-0.0009×t
如果ε<=0.1
ε=0.1
如果t>G
移除记忆单元最旧的经验元组并存入最新的经验元组
随机采样S个经验元组对网络进行训练
计算损失函数L(θ),执行一次梯度下降并更新Q主网络参数θ
如果(t-G)mod J=0
Q主网络参数θ复制给Q目标网络参数
Figure BDA0003269841860000061

Claims (1)

1.一种基于深度强化学习的4G与5G网络间动态频谱共享方法,其特征在于,
考虑一个单基站覆盖的蜂窝网络,网络中包括4G和5G两种类型用户;基站覆盖区域被分为L个子区域,并且基站能收集每个子区域中4G流量数据信息;基站总带宽为NMHz,分为F个子频带,每个子频带的带宽为B=N/FMHz;基站可调度的最小资源单位定义为资源块,每个资源块包含时间和频率两个维度,时域持续时间为T,频域带宽为B;在本方法中,基站针对资源块周期地制定共享策略,即在每个决策周期T内决定哪些资源块共享用于5G服务供应;
具体步骤如下:
(1)基站首先构建两个结构完全相同的神经网络,分别是带有参数θ的Q主网络和带有参数
Figure FDA0003269841850000013
的Q目标网络;对于任意第t个决策周期,状态定义为基站在上一个决策周期内观测到的各子区域的4G流量数据,记为st={w1,t,w2,t,...,wL,t},并且将其作为Q主网络的输入;Q主网络的作用是对当前状态st下所有可选的共享策略进行评估,其输出为对各策略的打分,称为Q值,对于任意策略a,记为Q(st,a;θ);
(2)基站会基于获取的状态信息st制定共享策略at,又称为动作;在本方法中,任意第t个决策周期内基站的动作为at={a1,t,a2,t,...,aF,t},其中af,t={0,1},用于标识各资源块是否被共享,af,t=1表示第f个资源块被共享,否则af,t=0;因此,总的共享资源块数量表示为
Figure FDA0003269841850000011
动作的选择基于ε-greedy策略,即以εt概率从所有可选动作中随机选择一个,用于学习探索,以1-εt概率根据Q主网络输出选择对应Q值最大的动作,作为当前最佳决策;
(3)当基站根据ε-greedy策略执行了动作at后,基站根据动作结束后观测到的状态st+1={w1,t+1,w2,t+1,...,wL,t+1}去计算奖励值rt+1;具体来说,基站根据st+1计算得到整个基站覆盖区域所需要的资源块数量Mt,通过与共享之后剩余的资源块数量进行比较,评价共享决策的好坏;因此,奖励值函数rt+1定义为:
Figure FDA0003269841850000012
该奖励值设定对应三种情况:一是错误决策,当共享之后剩余的资源块数量少于需求量时,会对4G网络的吞吐量带来损失,故给予负奖励值;二是正确决策,即当共享之后剩余的资源块数量等于需求量时,此时共享效率最高,故给与正奖励值;三是保守决策,即当共享之后剩余的资源块数量多于需求量时,此时没有影响4G网络吞吐量,但没有使得共享效率最大化,所以令基站得到的奖励值为0;当基站计算得到奖励值后,会将经验元组(st,at,st+1,rt+1)存入基站的经验池当中;
(4)每一个决策周期,基站都会执行上述的步骤;当内存为G的基站经验池溢出时,基站会移除最旧的经验元组并存入最新的经验元组,同时开始从经验池当中随机采样数量为S的一小批经验数据对网络进行训练;具体而言,小批量采样中的每一个经验元组(st,at,st+1,rt+1)的状态st作为Q主网络的输入,然后Q主网络输出对应at的估计Q值;而st+1则作为Q目标网络的输入,然后Q目标网络会输出目标Q值,表示为
Figure FDA0003269841850000021
目标Q值和rt+1组成目标值,表示为
Figure FDA0003269841850000022
其中γ∈[0,1],是一个折扣因子;估计Q值和目标值构成损失函数:
Figure FDA0003269841850000023
通过对损失函数求梯度来更新Q主网络参数,即
Figure FDA0003269841850000024
其中α为学习率;每隔固定J个决策周期,Q主网络的参数θ就会复制给目标网络的参数
Figure FDA0003269841850000025
CN202111098334.3A 2021-09-18 2021-09-18 基于深度强化学习的4g与5g网络间动态频谱共享方法 Active CN113810910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111098334.3A CN113810910B (zh) 2021-09-18 2021-09-18 基于深度强化学习的4g与5g网络间动态频谱共享方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111098334.3A CN113810910B (zh) 2021-09-18 2021-09-18 基于深度强化学习的4g与5g网络间动态频谱共享方法

Publications (2)

Publication Number Publication Date
CN113810910A true CN113810910A (zh) 2021-12-17
CN113810910B CN113810910B (zh) 2022-05-20

Family

ID=78939780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111098334.3A Active CN113810910B (zh) 2021-09-18 2021-09-18 基于深度强化学习的4g与5g网络间动态频谱共享方法

Country Status (1)

Country Link
CN (1) CN113810910B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114338814A (zh) * 2022-03-03 2022-04-12 广州卓远虚拟现实科技有限公司 基于区块链的数据共享处理方法及系统
WO2023173759A1 (zh) * 2022-03-18 2023-09-21 中国电信股份有限公司 面向动态频谱共享的网络资源管理方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
US20190124667A1 (en) * 2017-10-23 2019-04-25 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method for allocating transmission resources using reinforcement learning
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法
CN113316156A (zh) * 2021-05-26 2021-08-27 重庆邮电大学 免授权频段上的一种智能共存方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190124667A1 (en) * 2017-10-23 2019-04-25 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method for allocating transmission resources using reinforcement learning
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法
CN113316156A (zh) * 2021-05-26 2021-08-27 重庆邮电大学 免授权频段上的一种智能共存方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李孜恒等: "基于深度强化学习的无线网络资源分配算法", 《通信技术》 *
杜江等: "基于强化学习的动态频谱分配研究", 《数字通信》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114338814A (zh) * 2022-03-03 2022-04-12 广州卓远虚拟现实科技有限公司 基于区块链的数据共享处理方法及系统
WO2023173759A1 (zh) * 2022-03-18 2023-09-21 中国电信股份有限公司 面向动态频谱共享的网络资源管理方法和装置

Also Published As

Publication number Publication date
CN113810910B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
Wang et al. Intelligent cognitive radio in 5G: AI-based hierarchical cognitive cellular networks
CN113810910B (zh) 基于深度强化学习的4g与5g网络间动态频谱共享方法
CN108848520B (zh) 一种基于流量预测与基站状态的基站休眠方法
CN107172704B (zh) 基于协作频谱感知和干扰约束的认知异构网络功率分配方法
CN112188503B (zh) 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法
CN109982434B (zh) 无线资源调度一体智能化控制系统及方法、无线通信系统
CN114980339B (zh) 基于可变时隙调度的c-v2x多业务下行资源分配方法
CN110035559B (zh) 一种基于混沌q-学习算法的竞争窗口大小智能选择方法
CN109803292A (zh) 一种基于强化学习的多次级用户移动边缘计算的方法
Pratap et al. Maximizing fairness for resource allocation in heterogeneous 5G networks
Hua et al. GAN-based deep distributional reinforcement learning for resource management in network slicing
Muteba et al. Deep reinforcement learning based resource allocation for narrowband cognitive radio-IoT systems
CN109862567A (zh) 一种蜂窝移动通信系统接入非授权频谱的方法
CN116743669A (zh) 一种深度强化学习分组调度方法、系统、终端及介质
CN103618674B (zh) 基于自适应服务模型的联合分组调度和信道分配路由方法
WO2022212079A1 (en) Deep reinforcement learning for adaptive network slicing in 5g for intelligent vehicular systems and smart cities
Geng et al. A Reinforcement learning framework for vehicular network routing under peak and average constraints
Mazandarani et al. Self-sustaining multiple access with continual deep reinforcement learning for dynamic metaverse applications
CN112055362B (zh) 一种4g与5g协同的动态频率共享方法和系统
Ganjalizadeh et al. Interplay between distributed AI workflow and URLLC
Wu et al. Mobile data offloading under attractor selection in heterogeneous networks
Zhang et al. Wireless resource pre-allocation for cellular V2I low-latency communications
Li et al. Adaptive packet scheduling algorithm for cognitive radio system
Wang et al. A dynamic channel-borrowing approach with fuzzy logic control in distributed cellular networks
Höyhtyä et al. Combination of short term and long term database for cognitive radio resource management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant