CN113727306A - 一种基于深度强化学习的解耦c-v2x网络切片方法 - Google Patents
一种基于深度强化学习的解耦c-v2x网络切片方法 Download PDFInfo
- Publication number
- CN113727306A CN113727306A CN202110934853.2A CN202110934853A CN113727306A CN 113727306 A CN113727306 A CN 113727306A CN 202110934853 A CN202110934853 A CN 202110934853A CN 113727306 A CN113727306 A CN 113727306A
- Authority
- CN
- China
- Prior art keywords
- network
- bandwidth
- strategy
- user
- rac
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000002787 reinforcement Effects 0.000 title claims abstract description 18
- 238000004891 communication Methods 0.000 claims abstract description 66
- 238000005457 optimization Methods 0.000 claims abstract description 18
- 238000005516 engineering process Methods 0.000 claims abstract description 10
- 238000013461 design Methods 0.000 claims abstract description 8
- 238000012546 transfer Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 37
- 230000006399 behavior Effects 0.000 claims description 30
- 230000007704 transition Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 10
- 238000013468 resource allocation Methods 0.000 claims description 10
- 230000006872 improvement Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 230000007774 longterm Effects 0.000 claims description 6
- 239000002904 solvent Substances 0.000 claims description 5
- 230000003542 behavioural effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 230000008846 dynamic interplay Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 229910052739 hydrogen Inorganic materials 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000012384 transportation and delivery Methods 0.000 claims description 3
- 238000011144 upstream manufacturing Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 11
- 230000001413 cellular effect Effects 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 239000002355 dual-layer Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001351 cycling effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 1
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000280 densification Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 238000013101 initial test Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/44—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/46—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0453—Resources in frequency domain, e.g. a carrier in FDMA
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/20—Control channels or signalling for resource management
- H04W72/27—Control channels or signalling for resource management between access points
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于深度强化学习的解耦C‑V2X网络切片方法,基于两层异构网络HetNet在C‑V2X通信的动态RAN切片框架,在切片第一层中,采用深度强化学习SAC算法在宏基站MBS和微基站SBS之间分配带宽,实现V2I和RAC‑V2V之间的资源编排;采用云接入网络C‑RAN中的虚拟化方法在边缘云上聚合UL/DL带宽,满足V2I片和RAC‑V2V片的通信需求;在切片第二层中,将RAC‑V2V通信的QoS建模为一个绝对值优化问题,并采用ASRS算法进行求解,进一步将带宽分配给每个车辆用户;每个车辆用户都采用DL/UL解耦接入技术,并向相关的基站BS报告最低速率要求,边缘云采集不同切片的速率要求,SAC策略网络根据网络状态选择一个转移,即UL/DL带宽分配比,设计ASRS算法,为每一个车辆用户分配带宽。
Description
技术领域
本发明涉及车联网技术领域,主要涉及基于深度强化学习的解耦C-V2X网络切片方法。
背景技术
随着5G蜂窝网络的商业化应用的普及,C-V2X通信将在构造汽车和智能交通的未来中发挥关键作用。最近流行的3GPP Release 16支持更多的车辆服务,如自动驾驶、现代智能驾驶体验等。为了适应日益增长的交通流量需求,5G蜂窝网络已经由单层同质网络向多层异构网络(HetNets)转变。HetNets由覆盖范围广的大型基站(MBS)和大量的小型基站(SBS)组成。随着车辆网络密集化和移动数据使用的爆炸性增长,HetNet结构的最大挑战是用户关联,特别是对于具有高移动性和严格通信要求的C-V2X用户访问。目前,无线接入网(RAN)的上行(UL)和下行(DL)解耦接入的新方式出现,允许上行和下行的接入关联是不同的和灵活的。实践证明,UL/DL解耦接入可以明显降低UL用户的发送功率。除此之外,由于具有灵活的小区域关联,中断式上下行解耦模式在提高网络吞吐量、负载均衡、提高能量效率、消除干扰等方面显现出优势。C-V2X通信作为5G和超越网络的重要组成部分,研究UL/DL解耦接入对C-V2X通信的影响具有现实意义。
一般来说,C-V2X通信有两种重要的使用场景,即蜂窝车辆到基础设施(C-V2I,cellular vehicle-to-infrastructure)通信和中继辅助蜂窝车辆到车辆(RAC-V2V,relay-assisted cellular vehicle-to-vehicle)通信。由于C-V2X通信的不同需求,需求评判型车载应用已被公认为增强移动宽带(eMBB,enhanced mobile broadband)通信和超可靠低延迟通信(URLLC,ultra-reliable low latency communications)的重要5G场景。例如,C-V2I通信支持在车辆之间实时共享3D高清地图和其他丰富的媒体信息,RAC-V2V通信支持有超低延迟要求的更长距离安全相关的车辆应用。
目前,如何在密集异构的5G和超越网络的环境下,提供多样化需求的定制化C-V2X服务是一个挑战。RAN切片被认为是最有应用前途的网络架构创新技术之一,可以在5G和C-V2X之外提供具有差异化QoS要求的定制服务。此外,随着先进人工智能技术的快速发展,基于人工智能的RAN切片方法已成为能够有效解决低复杂度动态资源分配优化问题的极具应用前景的解决方案。
经过对现有文献的检索发现,与传统的UL/DL只能连接到一个特定的BS的用户关联场景不同,F.Boccardi等人在2016年发表的题为“Why to decouple the uplink anddownlink in cellular networks and how to do it(为何要解耦蜂窝网络上下行连接以及如何解耦)”的文章中提出的UL/DL解耦耦访问是近年来作为一种新的灵活的小区域关联模式出现的。解耦接入使移动用户可以访问不同的基站而显著提高UL传输吞吐量,以相对较低的成本提高能源效率,并对区域边缘用户的通信能力带来显著的提高。为了实现这些优势,M.A.Lema等人在2016年发表的题为“Flexible dual-connectivity spectrumaggregation for decoupled uplink and downlink access in 5G heterogeneoussystems(用于5G异构网络中的解耦上下行访问的灵活双连通性频谱聚合)”的文章中提出了如题所述的双连通性频谱聚合,M.Bacha在2017年发表的题为“Downlink and uplinkdecoupling in two-tier heterogeneous networks with multi-antenna basestations(具有多线基站的解耦UL/DL双层异构网络)”提出了如题所述的多天线基站的双层异构网络模型,M.Chen在2017年发表的题为“Echo state networks for self-organizing resource allocation in LTE-U with uplink-downlink decoupling(用于LTE-U的UL/DL解耦自组织资源分配的反馈状态网络”)文章中提出了在LTE-U中的反馈状态网络框架,在网络和用户状态信息有限的情况下选取最优频带。
经检索还发现,RAN切片的应用也在不断深入发展。网络切片是一种不断发展的资源分配概念,可以利用它来满足用户对5G无线通信的多样化需求。通过将基础网络划分为多个专用逻辑网络,无线网络可以支持多种个人用户业务。由于无线接入网的频谱资源稀缺,RAN切片在保证不同用户的QoS需求方面起着至关重要的作用,针对RAN切片的应用,Q.Ye等人在2018年发表的题为“Dynamic radio resource slicing for a two-tierheterogeneous wireless network(用于双层异构无线网络的动态资源切片)”的文章中提出了另一种凹搜索算法来最大化聚合网络的效用,V.Sciancalepore等人在2017年发表的题为“Mobile traffic forecasting for maximizing 5G network slicing resourceutilization(用于最大化5G网络切片资源利用率的移动交通流量预测方法)”的文章中针对三个关键的网络切片构建模块的设计,提出了基于测量偏差自适应的负载修改预测,实现了对网络切片发送请求的流量分析、网络切片预测和准入控制决策。
然而,由于车辆移动性带来的复杂、动态的网络环境,传统的车辆服务机制难以满足异构的车辆服务需求。K.Xiong等人在2019年发表的名为“Smart network slicing forvehicular fog-RANs(车载雾天无线接入网络智能切片)”的文章中将该问题建模为马尔可夫决策过程,提出了一种基于蒙特卡罗树的车载雾天无线接入网络智能切片调度算法。通过对多维网络资源的虚拟化和机器学习算法的设计,可以显著提高V2X车辆业务的QoS。此外,S.Zhang等人在2019年发表的名为“Air-ground integrated vehicular networkslicing with content pushing and caching(空地一体化车载网络切片)”提出了一种跨切片匹配多资源的组网切片方法。为了提高体验质量,H.Khan等人在2020年发表的名为“inhancing video streaminging vehicular networks via resource slicing”的文章中提出了一种联合质量选择和资源分配技术。通过利用聚类算法和李亚普诺夫漂移加惩罚方法,可以有效地实现低延迟、高可靠性的车载通信。
为了进一步提高无线通信资源分配的灵活性和能力,同时保证各种服务的QoS的要求,基于机器学习的智能分配机制在网络切片中得到了广泛研究。H.D.R.Albonda等人在2019年发表的名为“An efficient RAN slicing strategy for a heterogeneousnetwork with eMBB and V2X services(用于异质网络的高效RAN切片策略)”的文章中提出了一种高效的基于Deep-Q学习的RAN切片算法,保证频谱资源的利用率,并满足V2I和V2V片的QoS要求。此外,Y.Hua等人在2020年发表的名为“GAN-powered deep distributionalreinforcement learning for resource management in network slicing(用于网络切片资源配置的GaN驱动的分布式强化深度学习)”的文章中利用生成对抗网络对Deep Q网络进行学习,学习行为价值分布。上述无模型RL算法虽然取得了一定的效果,但以下两个瓶颈阻碍了它们在网络切片中的广泛应用。一方面,基于策略的RL算法,如信任区域策略优化(TRPO)和近端策略优化(PPO)需要更多的采样来计算梯度,而实际环境中大量的采样过程会带来很大的负担。另一方面。深度确定性策略梯度(deep deterministic policygradient,DDPG)等基于确定性策略的RL算法往往会导致很强的超参数敏感性和低采样效率。
综上所述,现有技术存在的问题是:(1)车辆流量过多地集中在主基站MBS上,极大地限制了车辆吞吐量的提升;(2)传统UL/DL规则下车辆用户上行(UL)传输功率过大;(3)用于网络切片智能分配机制的机器学习算法存在采样效率低,超参数敏感等问题,性能不足。解决上述技术问题的意义在于:基于目前无线通信技术的发展与无人驾驶技术的进步,显著提高基站负载均衡,降低C-V2X通信网络中的发射功率,在保证蜂窝V2X不同QoS的基础上,显著提高网络吞吐量。促进车联网领域通信技术及网络切片技术的应用与发展。
发明内容
发明目的:针对上述背景技术中存在的问题,本发明在保证不同QoS需求的基础上提供了一种基于深度强化学习的解耦C-V2X网络切片方法。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于深度强化学习的解耦C-V2X网络切片方法,包括以下步骤:
步骤S1、在切片第一层中,采用深度强化学习SAC算法在宏基站MBS和微基站SBS之间分配带宽,实现V2I和RAC-V2V之间的资源编排;采用云接入网络C-RAN中的虚拟化方法在边缘云上聚合UL/DL带宽,满足V2I片和RAC-V2V片的通信需求;其中UL代表上行,DL代表下行;
步骤S2、在切片第二层中,将RAC-V2V通信的QoS建模为一个绝对值优化问题,并采用ASRS算法进行求解,进一步将带宽分配给每个车辆用户;每个车辆用户都采用DL/UL解耦接入技术,并向相关的基站BS报告最低速率要求,边缘云采集不同切片的速率要求,SAC策略网络根据网络状态选择一个转移,即UL/DL带宽分配比,设计ASRS算法,为每一个车辆用户分配带宽;
其中,UL/DL的RAC-V2V用户可以独立连接至MBS或SBS。
进一步地,在所述动态RAN切片框架中,用M和b分别代表MBS和SBS,其中b∈{1,···,b,···,B},和Φb代表车辆用户相关的组,UL和DL整体的带宽用WUL和WDL来表示;分配给宏节点M的带宽用βfWf表示,分配给微节点b的带宽用(1-βf)Wf表示,其中f∈{UL,DL};通过确定最优切片比β* UL和β* DL最大化带宽利用率;保证V2I和RAC-V2V片的不同QoS车辆用户有两种,一种是下行(DL)V2I用户H={1,···,h,···H},另一种是RAC-V2V用户D={1,···,d,···D};
对于V2I通信,BS到V2I用户的数据包传输速率为λh包/秒,每个数据包的长度恒为Lh比特;对于RAC-V2V通信将RAC-V2V车辆用户UL和DL数据包送达的过程建模为泊松过程,定义相同的平均传输速率λd包/秒,数据包长度为Ld比特;在解耦场景下,车载用户选择距离最近的BS作为UL服务提供点,选择接受功率最大的BS作为DL服务提供点,
对于连接到DL的l节点的用户,距离是xi,l,当且仅当:
其中,Gk、αk分别为接入BS k的用户i的天线增益和路径损耗常数。hi,M和分别表示连接到宏节点的用户的UL/DL发射功率和MBS的发射功率;依次表示连接到微节点的用户的UL/DL发射功率和SBS的发射功率;
车辆用户连接到宏节点的信道信噪比SNR表示为:
由于通信内的干扰,车辆用户与微节点之间的信道SINR表示为:
其中i∈{1,L,H},j∈{1,L,1+B}分别表示矩阵的行和列;
基于最优资源分配策略,针对RAC-V2V通信,采用有效带宽理论,得到在给定用户端数据到达分布和时延约束下的最低服务速率。
进一步地,采用马尔科夫决策过程MDP描述所述两层切片框架中的学习、存储、更新的过程;通过表示切片控制器的状态转移和返回,得到可观察的MDP模型;具体如下:
通过切片控制器与无线网络环境的动态交互,推导出元组:其中表示状态集合,表示一组可能的操作。P定义为状态转移的概率;采用无模型的深度强化学习算法处理可完整观察到的MDP问题;将r(s,a)表示为在特定状态s下采取行为a的奖励;该行为将进一步返回给网络片控制器;具体地,
状态:将微状态s表示为一个元组:{Γ,Y,r},其中Γ表示分配给V2I和RAC-V2V切片的带宽,Y表示不同切片的总带宽需求,r表示奖励。
行为:在某一状态下,DRL agent执行一个行为a={βUL,βDL}。其中βUL和βDL限制为[0,1]。
奖励:状态转移奖励表示为r∈R(s,a);其中RAC-V2V通信下的的奖励包括效用函数和QoS,表示如下:
首先,边缘云节点采集不同切片的速率要求;之后SAC中的策略网络根据网络状态选择行为,即UL/DL带宽分配比率;接着,设计ASRS算法为每个用户分配带宽;当分配完成时,奖励和新的状态将会进入重放缓冲区。
进一步地,提出一种基于Actor-Critic框架的SAC算法,以策略迭代和最大熵和状态值的联合奖赏为基础,处理连续转移空间问题;具体地,
传统的RL算法的目标是根据策略π(a|s)来最大化长期期望奖励:
在传统RL算法的长期奖励中加入了熵,
其中参数α是温度指数,表示熵对于奖励的相对重要性;α的值越大,想得到的随机行为就越多,否则,学到的有效行为将会越少;
表示s状态下的作用熵,因此可以进一步表示为:
其中软值函数可以从Bellman备份算子中得到,表示为:
下面通过定理1-2,详细描述;其中定理1证明通过贝尔曼算子Q函数可以收敛到最优解;定理2是证明通过交替优化SAC中的策略网络和critic部分(包含两张Q值网络和2张价值网络),策略可以逐渐收敛到最优。
定理1:给定策略π,当任何状态下的行为奖励是有限的,序列Qk可以收敛到软Q函数,其中对于连续状态转移空间中的Actor-Critic算法,轮流运行actor和critic,直到融合。采用深度神经网络DNN分别拟合Critic网络和Actor网络,然后采用随机梯度下降法交替更新两个网络中的参数;
评估网络的参数通过下式来更新:
利用双深度Q-learning中的软深度网络参数更新方法,推导出目标网络更新公式:
其中参数τ∈[0,1],为目标价值网络的更新权值;参数为θ1和θ2的两个Q网络负责评价状态-行为。根据当前策略对行为进行采样。软Q函数参数可以训练到最小的平方误差,
其中
由下式更新Q网络参数θi,i∈{1,2}:
策略网络(SAC网络的一部分)负责输出连续行为的高斯均值和方差;在策略改进步骤中,对于每个状态,将策略更新到新的Q函数的指数,利用KL-divergence来预测高斯分布的参数策略;软策略迭代算法在软策略评估和软策略改进之间交替进行;策略参数直接通过最小化KL-divergence期望来学习:
at=fφ(∈t;st),
其中∈t是输入噪声向量,采样来自高斯固定分布;使用重新参数化技巧,将Lπ(φ)改写如下:
为了最小化Lπ(φ),得到策略网络的参数更新等式为:
定理2:给定策略π∈Π,状态转移的价值是有限的;交替更新critic网络和policy网络,策略π将收敛于最优π*,表示为:
进一步地,为每一个车辆用户分配带宽的ASRS算法具体如下:
将RAC-V2V通信的QoS度量用公式表达为:
|RUL-RDL|.
其中,变量RUL和RDL分别表示UL/DL下的可到达率;用1表示车辆用户已经与相应的BS建立了连接,0表示没有与BS建立连接;将UL和DL关联矩阵分别表示为:
为每一个车辆用户分配带宽,目标是最小化RAC-V2V通信的QoS度量;目标函数及其约束条件表述如下:
令Γ与目标函数相等,所述优化问题等价地转化为:
Γ≥0.(i)
利用块协调下降算法,设计ASRS算法,即固定矩阵得到最优然后利用计算最优在ASRS的每个迭代循环中,需要固定一个变量来求解另一个变量,将优化问题转化为两个线性规划问题;在每次迭代中,首先固定矩阵来求解最优矩阵因此子问题描述为:
s.t.b,d-h
s.t.a,c,e–h
通过循环计算,每次迭代需要解决两个子问题,如下式所示:
有益效果:
首先,本发明提供的C-V2X切片方法保证了V2I和RAC-V2V片不同QoS要求,在保证RAC-V2V通信稳定性和严格时延约束的同时,最大限度地提升了网络容量;其次,有效降低了车辆用户发射功率,通过灵活的关联模式,更多的车辆选择访问SBS,可以减轻MBS的沉重负担;再次,提出了一种针对RAC-V2V通信的创新性度量,并设计了一种基于ASRS算法进行求解其最小化问题。
附图说明
图1是本发明实施例所采用的解耦接入的RAN切片结构示意图。
图2是本发明实施例所采用的用于C-V2X的双层RAN切片结构示意图。
图3是本发明实施例所采用的双层RAN切片过程示意图。
图4是本发明实施例所采用的算法1逻辑框图。
图5是本发明实施例所采用的算法2逻辑框图。
具体实施方式
下面结合附图提供一份具体实施例,对本发明作更进一步的说明。
本实施例采用了图1的两层切片结构,设计了一个基于两层HetNet的C-V2X通信的动态RAN切片框架。在解耦规则下,UL和DL RAC-V2V用户可以自由地独立连接到MBS或SBS。图1中一般有三种不同的UL/DL关联情况(即通过一个或两个基站实现两跳RAC-V2V通信)。在情况2和3中,两跳中继可以通过一个基站实现。而在情况1中,通过与两个基站建立UL/DL连接实现的中继应由BS之间的接口支持。MBS与SBS之间的通信可由标准化的X2接口实现,数据将通过公共无线接口转发到另一个BS。具体来说,在切片框架中,本实施例同时考虑V2I和RAC-V2V切片。同时,利用云RAN(C-RAN)技术在边缘云上聚合UL/DL带宽。由于V2I片和RAC-V2V片的通信需求不同,本发明设计了一种两层带宽切片算法,在满足不同片不同QoS要求的同时最大化总容量。
如图1所示,在切片第一层,采用深度强化学习SAC算法在宏基站MBS和微基站SBS之间分配带宽,实现V2I和RAC-V2V之间的资源编排;采用云接入网络C-RAN中的虚拟化方法在边缘云上聚合UL/DL带宽,满足V2I片和RAC-V2V片的通信需求;其中UL代表上行,DL代表下行。在第二层,将RAC-V2V通信的QoS建模为一个绝对值优化问题,并采用ASRS算法进行求解,进一步将带宽分配给每个车辆用户;每个车辆用户都采用DL/UL解耦接入技术,并向相关的基站BS报告最低速率要求,边缘云采集不同切片的速率要求,SAC策略网络根据网络状态选择一个转移,即UL/DL带宽分配比,设计ASRS算法,为每一个车辆用户分配带宽。
在动态RAN切片框架中,用M和b分别代表MBS和SBS,其中b∈{1,···,b,···,B},和Φb代表车辆用户相关的组,UL和DL整体的带宽用WUL和WDL来表示;分配给宏节点M的带宽用βf Wf表示,分配给微节点b的带宽用(1-βf)Wf表示,其中f∈{UL,DL};通过确定最优切片比β*UL和β*DL最大化带宽利用率;保证V2I和RAC-V2V片的不同QoS车辆用户有两种,一种是下行(DL)V2I用户H={1,···,h,···H},另一种是RAC-V2V用户D={1,···,d,···D};
本实施例考虑负责上下行的基站端和用户端的队列,分析来自不同车辆用户的数据包流的不同QoS需求。BS到V2I用户的数据包传输速率为λh包/秒,每个数据包的长度恒为Lh比特。而对于RAC-V2V通信,考虑其严格的时延要求和连接的不稳定性,本实施例将RAC-V2V车辆用户UL和DL数据包送达的过程建模为泊松过程,定义相同的平均传输速率λd包/秒,数据包长度为Ld比特。
假设所有车辆用户都配备了一个天线。传统的UL/DL接入是基于最大平均接收信号功率(RSP)。但在解耦场景下,车载用户选择距离最近的BS作为UL服务提供点,而DL用户选择接收功率最大的BS。
对于连接到DL的l节点的用户,距离是xi,l,当且仅当:
其中,Gk、αk分别为接入BS k的用户i的天线增益和路径损耗常数。hi,M和分别表示连接到宏节点的用户的UL/DL发射功率和MBS的发射功率;依次表示连接到微节点的用户的UL/DL发射功率和SBS的发射功率;
车辆用户连接到宏节点的信道信噪比SNR表示为:
由于通信内的干扰,车辆用户与微节点之间的信道SINR表示为:
其中i∈{1,L,H},j∈{1,L,1+B}分别表示矩阵的行和列;
对于RAC-V2V的有效带宽理论,可由大偏差理论推导得到。有效带宽理论表示在给定源流数据速率的时延约束下的最低服务率,该理论常用于获得最优的资源分配策略。本实施例认为可以计算数据包从到达到离开之间的端到端延迟,例如数据包在用户端或基站端生成,然后到它的目的地。对于两跳RAC-V2V通信,为简化问题公式,本实施例考虑中继的上行和下行数据包均为泊松到达,且有效带宽相同。因此,本实施例可以推导出RAC-V2V通信满足时延冲突概率的最小传输速率。
首先表示QoS指数。RAC-V2V通信的有效带宽可以表示为:
其中O(t)表示RAC-V2V通信中在时间[0,t)内到达的数据包数,E[·]表示期望。由于O(t)被建模为λf d包/秒的泊松过程,有效带宽可以被进一步地表示为:
对于两层RAN切片的马尔科夫模型,学习、存储和更新的详细过程如图3所示。可以描述为马尔可夫决策过程(MDP)。本实施例表示出切片控制器的状态、行为、状态转移和返回,从而得到完整可观察的MDP模型。具体如下:
通过切片控制器与无线网络环境的动态交互,推导出元组:其中表示状态集合,表示一组可能的操作。P定义为状态转移的概率;采用无模型的深度强化学习算法处理可完整观察到的MDP问题;将r(s,a)表示为在特定状态s下采取行为a的奖励;该行为将进一步返回给网络片控制器;具体地,
状态:将微状态s表示为一个元组:{Γ,Y,r},其中Γ表示分配给V2I和RAC-V2V切片的带宽,Y表示不同切片的总带宽需求,r表示奖励。
行为:在某一状态下,DRL agent执行一个行为a={βUL,βDL}。其中βUL和βDL限制为[0,1]。
奖励:状态转移奖励表示为r∈R(s,a);其中RAC-V2V通信下的的奖励包括效用函数和QoS,表示如下:
首先,边缘云节点采集不同切片的速率要求;之后SAC中的策略网络根据网络状态选择行为,即UL/DL带宽分配比率;接着,设计ASRS算法为每个用户分配带宽;当分配完成时,奖励和新的状态将会进入重放缓冲区。
基站带宽分配的SAC算法是一种典型的无模型算法,在处理连续状态转移的情况下表现不佳。由于将行为离散化将导致行为数量的指数级增长,并且一些用于解决问题的重要信息可能会丢失。因此,本实施例提出了一种基于Actor-Critic框架的SAC算法。SAC算法的采用有以下三个优点:
1)基于策略迭代,可以处理连续行动空间问题;
2)基于最大熵和状态值的联合奖励可以有效地探索出更多的优秀行为,使其具有更强的探索能力;
3)SAC克服了大量采样带来的复杂性和超参数(如学习率、探索常数)强化学习敏感性。
传统的RL算法的目标是根据策略π(a|s)来最大化长期期望奖励:
为了学习更有效的行为,本实施例在传统RL算法的长期奖励中加入了熵,
其中参数α是温度指数,表示熵对于奖励的相对重要性;α的值越大,想得到的随机行为就越多,否则,学到的有效行为将会越少;
表示s状态下的作用熵,因此可以进一步表示为:
其中软值函数可以从Bellman备份算子中得到,表示为:
下面通过定理1-2,详细描述;
定理1:给定策略π,当任何状态下的行为奖励是有限的,序列Qk可以收敛到软Q函数,其中对于连续状态转移空间中的Actor-Critic算法,轮流运行actor和critic,直到融合。采用深度神经网络DNN分别拟合Critic网络和Actor网络,然后采用随机梯度下降法交替更新两个网络中的参数;
评估网络的参数通过下式来更新:
利用双深度Q-learning中的软深度网络参数更新方法,推导出目标网络更新公式:
其中参数τ∈[0,1],为目标价值网络的更新权值;参数为θ1和θ2的两个Q网络负责评价状态-行为。根据当前策略对行为进行采样。软Q函数参数可以训练到最小的平方误差,
其中
由下式更新Q网络参数θi,i∈{1,2}:
策略网络负责输出连续行为的高斯均值和方差;在策略改进步骤中,对于每个状态,将策略更新到新的Q函数的指数,利用KL-divergence来预测高斯分布的参数策略;软策略迭代算法在软策略评估和软策略改进之间交替进行;策略参数直接通过最小化KL-divergence期望来学习:
at=fφ(∈t;st),
其中∈t是输入噪声向量,采样来自高斯固定分布;使用重新参数化技巧,将Lπ(φ)改写如下:
为了最小化Lπ(φ),得到策略网络的参数更新等式为:
定理2:给定策略π∈Π,状态转移的价值是有限的;交替更新critic网络和policy网络,策略π将收敛于最优π*,表示为:
对于为车辆用户分配频谱带宽的ASRS算法:在RAC-V2V通信中,UL和DL分别与不同的BSs独立关联。但是,由于通信车辆需要交换安全相关的信息,通过利用RAC-V2V,其通信的发送方和接收方的角色是不断的交换以完成可逆的交互通信。一般情况下,RAC-V2V蜂窝用户的UL和DL会话是耦合的,以完成双向信息交换。为了保证系统的稳定性和严格的延迟约束要求,必须同时考虑UL/DL资源分配。UL/DL中RAC-V2V发射端和接收端之间的双向安全相关数据和信息流一般是对称流量。因此,RAC-V2V通信需要在UL和DL中进行对称的资源分配
因此,本实施例可以将RAC-V2V通信的QoS度量用公式表达为:
|RUL-RDL|.
其中,变量RUL和RDL分别表示UL/DL下的可到达率;用1表示车辆用户已经与相应的BS建立了连接,0表示没有与BS建立连接;将UL和DL关联矩阵分别表示为:
为每一个车辆用户分配带宽,目标是最小化RAC-V2V通信的QoS度量;目标函数及其约束条件表述如下:
令Γ与目标函数相等,所述优化问题等价地转化为:
Γ≥0. (i)
利用块协调下降算法,设计ASRS算法,即固定矩阵得到最优然后利用计算最优在ASRS的每个迭代循环中,需要固定一个变量来求解另一个变量,将优化问题转化为两个线性规划问题;在每次迭代中,首先固定矩阵来求解最优矩阵因此子问题描述为:
s.t.b,d-h
s.t.a,c,e–h
通过循环计算,每次迭代需要解决两个子问题,如下式所示:
如图5所示,算法2描述了ASRS算法,负责及时的资源分配。本发明设计了一种启发式初始带宽分配方法,可以找到最合适的迭代初始测试矩阵在重复迭代过程中,首先确定一个矩阵并找到最优目标函数Γ和最优矩阵然后利用最优矩阵找到最优矩阵和最优目标函数Γ。
在以上结果的基础上,本实施例提出了迭代算法ASRS,采用块协调下降法,也称为交替优化法。具体而言,将原问题中的整个优化变量划分为两个变量块,即然后上行频谱带宽调度比率和下行频谱调度比率交替优化,分别求解问题,同时保持另一个变量块不变,并将每次迭代得到的解作为下一次迭代的输入。值得指出的是,在经典的块协调下降法中,更新每个变量块的子问题需要在每次迭代中都解决到精确最优解,以保证收敛。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于深度强化学习的解耦C-V2X网络切片方法,其特征在于,包括以下步骤:
基于两层异构网络HetNet在C-V2X通信的动态RAN切片框架,进行如下切片:
步骤S1、在切片第一层中,采用深度强化学习SAC算法在宏基站MBS和微基站SBS之间分配带宽,实现V2I和RAC-V2V之间的资源编排;采用云接入网络C-RAN中的虚拟化方法在边缘云上聚合UL/DL带宽,满足V2I片和RAC-V2V片的通信需求;其中UL代表上行,DL代表下行;
步骤S2、在切片第二层中,将RAC-V2V通信的QoS建模为一个绝对值优化问题,并采用ASRS算法进行求解,进一步将带宽分配给每个车辆用户;每个车辆用户都采用DL/UL解耦接入技术,并向相关的基站BS报告最低速率要求,边缘云采集不同切片的速率要求,SAC策略网络根据网络状态选择一个转移,即UL/DL带宽分配比,设计ASRS算法,为每一个车辆用户分配带宽;
其中,UL/DL的RAC-V2V用户可以独立连接至MBS或SBS。
2.根据权利要求1所述的一种基于深度强化学习的解耦C-V2X网络切片方法,其特征在于,在所述动态RAN切片框架中,用M和b分别代表MBS和SBS,其中b∈{1,···,b,···,B},和Φb代表车辆用户相关的组,UL和DL整体的带宽用WUL和WDL来表示;分配给宏节点M的带宽用βfWf表示,分配给微节点b的带宽用(1-βf)Wf表示,其中f∈{UL,DL};通过确定最优切片比β* UL和β* DL最大化带宽利用率;保证V2I和RAC-V2V片的不同QoS车辆用户有两种,一种是下行(DL)V2I用户H={1,···,h,···H},另一种是RAC-V2V用户D={1,···,d,···D};
对于V2I通信,BS到V2I用户的数据包传输速率为λh包/秒,每个数据包的长度恒为Lh比特;对于RAC-V2V通信将RAC-V2V车辆用户UL和DL数据包送达的过程建模为泊松过程,定义相同的平均传输速率λd包/秒,数据包长度为Ld比特;在解耦场景下,车载用户选择距离最近的BS作为UL服务提供点,选择接受功率最大的BS作为DL服务提供点,
对于连接到DL的l节点的用户,距离是xi,l,当且仅当:
其中,Gk、αk分别为接入BS k的用户i的天线增益和路径损耗常数。hi,M和分别表示连接到宏节点的用户的UL/DL发射功率和MBS的发射功率;依次表示连接到微节点的用户的UL/DL发射功率和SBS的发射功率;
车辆用户连接到宏节点的信道信噪比SNR表示为:
由于通信内的干扰,车辆用户与微节点之间的信道SINR表示为:
其中i∈{1,L,H},j∈{1,L,1+B}分别表示矩阵的行和列;
基于最优资源分配策略,针对RAC-V2V通信,采用有效带宽理论,得到在给定用户端数据到达分布和时延约束下的最低服务速率。
3.根据权利要求1所述的一种基于深度强化学习的解耦C-V2X网络切片方法,其特征在于,采用马尔科夫决策过程MDP描述所述两层切片框架中的学习、存储、更新的过程;通过表示切片控制器的状态转移和返回,得到可观察的MDP模型;具体如下:
通过切片控制器与无线网络环境的动态交互,推导出元组:其中表示状态集合,表示一组可能的操作。P定义为状态转移的概率;采用无模型的深度强化学习算法处理可完整观察到的MDP问题;将r(s,a)表示为在特定状态s下采取行为a的奖励;该行为将进一步返回给网络片控制器;具体地,
状态:将微状态s表示为一个元组:{Γ,Y,r},其中Γ表示分配给V2I和RAC-V2V切片的带宽,Y表示不同切片的总带宽需求,r表示奖励。
行为:在某一状态下,DRL agent执行一个行为a={βUL,βDL}。其中βUL和βDL限制为[0,1]。
奖励:状态转移奖励表示为r∈R(s,a);其中RAC-V2V通信下的的奖励包括效用函数和QoS,表示如下:
首先,边缘云节点采集不同切片的速率要求;之后SAC中的策略网络根据网络状态选择行为,即UL/DL带宽分配比率;接着,设计ASRS算法为每个用户分配带宽;当分配完成时,奖励和新的状态将会进入重放缓冲区。
4.根据权利要求3所述的一种基于深度强化学习的解耦C-V2X网络切片方法,其特征在于,提出一种基于Actor-Critic框架的SAC算法,以策略迭代和最大熵和状态值的联合奖赏为基础,处理连续转移空间问题;具体地,
传统的RL算法的目标是根据策略π(a|s)来最大化长期期望奖励:
在传统RL算法的长期奖励中加入了熵,
其中参数α是温度指数,表示熵对于奖励的相对重要性;α的值越大,想得到的随机行为就越多,否则,学到的有效行为将会越少;
表示s状态下的作用熵,因此可以进一步表示为:
在软迭代的策略评价步骤中,通过上式中最大熵目标计算策略π的值;对于一个固定的策略,软Q函数可以迭代计算,从任何函数Q开始,重复应用改进的Bellman备份算子Fπ
其中软值函数可以从Bellman备份算子中得到,表示为:
下面提供定理1-2,其中定理1证明通过贝尔曼算子Q函数可以收敛到最优解;
定理2证明通过交替优化SAC中的策略网络和critic部分,策略可以逐渐收敛到最优。
定理1:给定策略π,当任何状态下的行为奖励是有限的,序列Qk可以收敛到软Q函数,其中Qk+1=FπQk;对于连续状态转移空间中的Actor-Critic算法,轮流运行actor和critic,直到融合。采用深度神经网络DNN分别拟合Critic网络和Actor网络,然后采用随机梯度下降法交替更新两个网络中的参数;
评估网络的参数通过下式来更新:
利用双深度Q-learning中的软深度网络参数更新方法,推导出目标网络更新公式:
其中参数τ∈[0,1],为目标价值网络的更新权值;参数为θ1和θ2的两个Q网络负责评价状态-行为。根据当前策略对行为进行采样。软Q函数参数可以训练到最小的平方误差,
其中
由下式更新Q网络参数θi,i∈{1,2}:
策略网络负责输出连续行为的高斯均值和方差;在策略改进步骤中,对于每个状态,将策略更新到新的Q函数的指数,利用KL-divergence来预测高斯分布的参数策略;软策略迭代算法在软策略评估和软策略改进之间交替进行;策略参数直接通过最小化KL-divergence期望来学习:
at=fφ(∈t;st),
其中∈t是输入噪声向量,采样来自高斯固定分布;使用重新参数化技巧,将Lπ(φ)改写如下:
为了最小化Lπ(φ),得到策略网络的参数更新等式为:
定理2:给定策略π∈Π,状态转移的价值是有限的;交替更新critic网络和policy网络,策略π将收敛于最优π*,表示为:
5.根据权利要求3所述的一种基于深度强化学习的解耦C-V2X网络切片方法,其特征在于,为每一个车辆用户分配带宽的ASRS算法具体如下:
将RAC-V2V通信的QoS度量用公式表达为:
|RUL-RDL|.
其中,变量RUL和RDL分别表示UL/DL下的可到达率;用1表示车辆用户已经与相应的BS建立了连接,0表示没有与BS建立连接;将UL和DL关联矩阵分别表示为:
为每一个车辆用户分配带宽,目标是最小化RAC-V2V通信的QoS度量;目标函数及其约束条件表述如下:
令Γ与目标函数相等,所述优化问题等价地转化为:
Γ≥0.(i)
利用块协调下降算法,设计ASRS算法,即固定矩阵得到最优然后利用计算最优在ASRS的每个迭代循环中,需要固定一个变量来求解另一个变量,将优化问题转化为两个线性规划问题;在每次迭代中,首先固定矩阵来求解最优矩阵因此子问题描述为:
s.t.b,d-h
s.t.a,c,e–h
通过循环计算,每次迭代需要解决两个子问题,如下式所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110934853.2A CN113727306B (zh) | 2021-08-16 | 2021-08-16 | 一种基于深度强化学习的解耦c-v2x网络切片方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110934853.2A CN113727306B (zh) | 2021-08-16 | 2021-08-16 | 一种基于深度强化学习的解耦c-v2x网络切片方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113727306A true CN113727306A (zh) | 2021-11-30 |
CN113727306B CN113727306B (zh) | 2023-04-07 |
Family
ID=78675905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110934853.2A Active CN113727306B (zh) | 2021-08-16 | 2021-08-16 | 一种基于深度强化学习的解耦c-v2x网络切片方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113727306B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115460699A (zh) * | 2022-07-18 | 2022-12-09 | 北京交通大学 | 一种基于深度强化学习的无线传输空时频资源配置方法 |
CN116079737A (zh) * | 2023-02-23 | 2023-05-09 | 南京邮电大学 | 基于分层强化学习的机械臂复杂操作技能学习方法及系统 |
CN116743584A (zh) * | 2023-08-09 | 2023-09-12 | 山东科技大学 | 一种基于信息感知及联合计算缓存的动态ran切片方法 |
CN117234785A (zh) * | 2023-11-09 | 2023-12-15 | 华能澜沧江水电股份有限公司 | 基于人工智能自查询的集控平台错误分析系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170318468A1 (en) * | 2016-04-27 | 2017-11-02 | Kabushiki Kaisha Toshiba | Radio resource slicing in a radio access network |
US20180317133A1 (en) * | 2017-04-28 | 2018-11-01 | NEC Laboratories Europe GmbH | Method and system for network slice allocation |
CN108848561A (zh) * | 2018-04-11 | 2018-11-20 | 湖北工业大学 | 一种基于深度强化学习的异构蜂窝网络联合优化方法 |
CN111294762A (zh) * | 2020-01-23 | 2020-06-16 | 北京邮电大学 | 基于无线接入网络ran切片协作的车辆业务处理方法 |
CN112423267A (zh) * | 2020-10-14 | 2021-02-26 | 南京大学 | 基于Lyapunov随机优化的车联网异质资源动态切片方法 |
CN112995951A (zh) * | 2021-03-12 | 2021-06-18 | 南京航空航天大学 | 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法 |
CN113163451A (zh) * | 2021-04-23 | 2021-07-23 | 中山大学 | 一种基于深度强化学习的d2d通信网络切片分配方法 |
-
2021
- 2021-08-16 CN CN202110934853.2A patent/CN113727306B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170318468A1 (en) * | 2016-04-27 | 2017-11-02 | Kabushiki Kaisha Toshiba | Radio resource slicing in a radio access network |
US20180317133A1 (en) * | 2017-04-28 | 2018-11-01 | NEC Laboratories Europe GmbH | Method and system for network slice allocation |
CN108848561A (zh) * | 2018-04-11 | 2018-11-20 | 湖北工业大学 | 一种基于深度强化学习的异构蜂窝网络联合优化方法 |
CN111294762A (zh) * | 2020-01-23 | 2020-06-16 | 北京邮电大学 | 基于无线接入网络ran切片协作的车辆业务处理方法 |
CN112423267A (zh) * | 2020-10-14 | 2021-02-26 | 南京大学 | 基于Lyapunov随机优化的车联网异质资源动态切片方法 |
CN112995951A (zh) * | 2021-03-12 | 2021-06-18 | 南京航空航天大学 | 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法 |
CN113163451A (zh) * | 2021-04-23 | 2021-07-23 | 中山大学 | 一种基于深度强化学习的d2d通信网络切片分配方法 |
Non-Patent Citations (2)
Title |
---|
蒋树国 等: "5G网络切片技术在车联网中的应用", 《汽车文摘》 * |
龙银江 等: "一种基于网络切片的车联网联合资源分配算法", 《无线电工程》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115460699A (zh) * | 2022-07-18 | 2022-12-09 | 北京交通大学 | 一种基于深度强化学习的无线传输空时频资源配置方法 |
CN116079737A (zh) * | 2023-02-23 | 2023-05-09 | 南京邮电大学 | 基于分层强化学习的机械臂复杂操作技能学习方法及系统 |
CN116743584A (zh) * | 2023-08-09 | 2023-09-12 | 山东科技大学 | 一种基于信息感知及联合计算缓存的动态ran切片方法 |
CN116743584B (zh) * | 2023-08-09 | 2023-10-27 | 山东科技大学 | 一种基于信息感知及联合计算缓存的动态ran切片方法 |
CN117234785A (zh) * | 2023-11-09 | 2023-12-15 | 华能澜沧江水电股份有限公司 | 基于人工智能自查询的集控平台错误分析系统 |
CN117234785B (zh) * | 2023-11-09 | 2024-02-02 | 华能澜沧江水电股份有限公司 | 基于人工智能自查询的集控平台错误分析系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113727306B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yates et al. | The age of information: Real-time status updating by multiple sources | |
Tang et al. | Survey on machine learning for intelligent end-to-end communication toward 6G: From network access, routing to traffic control and streaming adaption | |
CN113727306B (zh) | 一种基于深度强化学习的解耦c-v2x网络切片方法 | |
Sun et al. | AoI-energy-aware UAV-assisted data collection for IoT networks: A deep reinforcement learning method | |
Hu et al. | Twin-timescale artificial intelligence aided mobility-aware edge caching and computing in vehicular networks | |
Sun et al. | Autonomous resource slicing for virtualized vehicular networks with D2D communications based on deep reinforcement learning | |
CN113543074B (zh) | 一种基于车路云协同的联合计算迁移和资源分配方法 | |
Azari et al. | User traffic prediction for proactive resource management: Learning-powered approaches | |
Ji et al. | Trajectory and communication design for cache-enabled UAVs in cellular networks: A deep reinforcement learning approach | |
Gong et al. | Bayesian optimization enhanced deep reinforcement learning for trajectory planning and network formation in multi-UAV networks | |
Zheng et al. | Digital twin empowered heterogeneous network selection in vehicular networks with knowledge transfer | |
Hazarika et al. | RADiT: Resource allocation in digital twin-driven UAV-aided internet of vehicle networks | |
Li et al. | Intelligent resource optimization for blockchain-enabled IoT in 6G via collective reinforcement learning | |
CN114143814B (zh) | 一种基于异构边缘云架构的多任务卸载方法及系统 | |
Huang | Quality of service optimization in wireless transmission of industrial Internet of Things for intelligent manufacturing | |
Yin et al. | Decentralized federated reinforcement learning for user-centric dynamic TFDD control | |
Zhao et al. | DRL Connects Lyapunov in Delay and Stability Optimization for Offloading Proactive Sensing Tasks of RSUs | |
CN116848828A (zh) | 机器学习模型分布 | |
Chen et al. | Traffic prediction-assisted federated deep reinforcement learning for service migration in digital twins-enabled MEC networks | |
Mei et al. | Semi-decentralized network slicing for reliable V2V service provisioning: A model-free deep reinforcement learning approach | |
Shu et al. | Optimal sampling rate assignment with dynamic route selection for real-time wireless sensor networks | |
Zhang et al. | On-device intelligence for 5g ran: Knowledge transfer and federated learning enabled ue-centric traffic steering | |
Meng et al. | Intelligent routing orchestration for ultra-low latency transport networks | |
CN117580063A (zh) | 一种车联网络中多维资源协同管理方法 | |
Li et al. | Energy–latency tradeoffs edge server selection and DQN-based resource allocation schemes in MEC |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |