CN113727306B - 一种基于深度强化学习的解耦c-v2x网络切片方法 - Google Patents

一种基于深度强化学习的解耦c-v2x网络切片方法 Download PDF

Info

Publication number
CN113727306B
CN113727306B CN202110934853.2A CN202110934853A CN113727306B CN 113727306 B CN113727306 B CN 113727306B CN 202110934853 A CN202110934853 A CN 202110934853A CN 113727306 B CN113727306 B CN 113727306B
Authority
CN
China
Prior art keywords
network
bandwidth
strategy
rac
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110934853.2A
Other languages
English (en)
Other versions
CN113727306A (zh
Inventor
周海波
李易凡
余凯
汤芷萱
钱博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110934853.2A priority Critical patent/CN113727306B/zh
Publication of CN113727306A publication Critical patent/CN113727306A/zh
Application granted granted Critical
Publication of CN113727306B publication Critical patent/CN113727306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/46Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/20Control channels or signalling for resource management
    • H04W72/27Control channels or signalling for resource management between access points
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明公开了一种基于深度强化学习的解耦C‑V2X网络切片方法,基于两层异构网络HetNet在C‑V2X通信的动态RAN切片框架,在切片第一层中,采用深度强化学习SAC算法在宏基站MBS和微基站SBS之间分配带宽,实现V2I和RAC‑V2V之间的资源编排;采用云接入网络C‑RAN中的虚拟化方法在边缘云上聚合UL/DL带宽,满足V2I片和RAC‑V2V片的通信需求;在切片第二层中,将RAC‑V2V通信的QoS建模为一个绝对值优化问题,并采用ASRS算法进行求解,进一步将带宽分配给每个车辆用户;每个车辆用户都采用DL/UL解耦接入技术,并向相关的基站BS报告最低速率要求,边缘云采集不同切片的速率要求,SAC策略网络根据网络状态选择一个转移,即UL/DL带宽分配比,设计ASRS算法,为每一个车辆用户分配带宽。

Description

一种基于深度强化学习的解耦C-V2X网络切片方法
技术领域
本发明涉及车联网技术领域,主要涉及基于深度强化学习的解耦C-V2X网络切片方法。
背景技术
随着5G蜂窝网络的商业化应用的普及,C-V2X通信将在构造汽车和智能交通的未来中发挥关键作用。最近流行的3GPP Release 16支持更多的车辆服务,如自动驾驶、现代智能驾驶体验等。为了适应日益增长的交通流量需求,5G蜂窝网络已经由单层同质网络向多层异构网络(HetNets)转变。HetNets由覆盖范围广的大型基站(MBS)和大量的小型基站(SBS)组成。随着车辆网络密集化和移动数据使用的爆炸性增长,HetNet结构的最大挑战是用户关联,特别是对于具有高移动性和严格通信要求的C-V2X用户访问。目前,无线接入网(RAN)的上行(UL)和下行(DL)解耦接入的新方式出现,允许上行和下行的接入关联是不同的和灵活的。实践证明,UL/DL解耦接入可以明显降低UL用户的发送功率。除此之外,由于具有灵活的小区域关联,中断式上下行解耦模式在提高网络吞吐量、负载均衡、提高能量效率、消除干扰等方面显现出优势。C-V2X通信作为5G和超越网络的重要组成部分,研究UL/DL解耦接入对C-V2X通信的影响具有现实意义。
一般来说,C-V2X通信有两种重要的使用场景,即蜂窝车辆到基础设施(C-V2I,cellular vehicle-to-infrastructure)通信和中继辅助蜂窝车辆到车辆(RAC-V2V,relay-assisted cellular vehicle-to-vehicle)通信。由于C-V2X通信的不同需求,需求评判型车载应用已被公认为增强移动宽带(eMBB,enhanced mobile broadband)通信和超可靠低延迟通信(URLLC,ultra-reliable low latency communications)的重要5G场景。例如,C-V2I通信支持在车辆之间实时共享3D高清地图和其他丰富的媒体信息,RAC-V2V通信支持有超低延迟要求的更长距离安全相关的车辆应用。
目前,如何在密集异构的5G和超越网络的环境下,提供多样化需求的定制化C-V2X服务是一个挑战。RAN切片被认为是最有应用前途的网络架构创新技术之一,可以在5G和C-V2X之外提供具有差异化QoS要求的定制服务。此外,随着先进人工智能技术的快速发展,基于人工智能的RAN切片方法已成为能够有效解决低复杂度动态资源分配优化问题的极具应用前景的解决方案。
经过对现有文献的检索发现,与传统的UL/DL只能连接到一个特定的BS的用户关联场景不同,F.Boccardi等人在2016年发表的题为“Why to decouple the uplink anddownlink in cellular networks and how to do it(为何要解耦蜂窝网络上下行连接以及如何解耦)”的文章中提出的UL/DL解耦耦访问是近年来作为一种新的灵活的小区域关联模式出现的。解耦接入使移动用户可以访问不同的基站而显著提高UL传输吞吐量,以相对较低的成本提高能源效率,并对区域边缘用户的通信能力带来显著的提高。为了实现这些优势,M.A.Lema等人在2016年发表的题为“Flexible dual-connectivity spectrumaggregation for decoupled uplink and downlink access in 5G heterogeneoussystems(用于5G异构网络中的解耦上下行访问的灵活双连通性频谱聚合)”的文章中提出了如题所述的双连通性频谱聚合,M.Bacha在2017年发表的题为“Downlink and uplinkdecoupling in two-tier heterogeneous networks with multi-antenna basestations(具有多线基站的解耦UL/DL双层异构网络)”提出了如题所述的多天线基站的双层异构网络模型,M.Chen在2017年发表的题为“Echo state networks for self-organizing resource allocation in LTE-U with uplink-downlink decoupling(用于LTE-U的UL/DL解耦自组织资源分配的反馈状态网络”)文章中提出了在LTE-U中的反馈状态网络框架,在网络和用户状态信息有限的情况下选取最优频带。
经检索还发现,RAN切片的应用也在不断深入发展。网络切片是一种不断发展的资源分配概念,可以利用它来满足用户对5G无线通信的多样化需求。通过将基础网络划分为多个专用逻辑网络,无线网络可以支持多种个人用户业务。由于无线接入网的频谱资源稀缺,RAN切片在保证不同用户的QoS需求方面起着至关重要的作用,针对RAN切片的应用,Q.Ye等人在2018年发表的题为“Dynamic radio resource slicing for a two-tierheterogeneous wireless network(用于双层异构无线网络的动态资源切片)”的文章中提出了另一种凹搜索算法来最大化聚合网络的效用,V.Sciancalepore等人在2017年发表的题为“Mobile traffic forecasting for maximizing 5G network slicing resourceutilization(用于最大化5G网络切片资源利用率的移动交通流量预测方法)”的文章中针对三个关键的网络切片构建模块的设计,提出了基于测量偏差自适应的负载修改预测,实现了对网络切片发送请求的流量分析、网络切片预测和准入控制决策。
然而,由于车辆移动性带来的复杂、动态的网络环境,传统的车辆服务机制难以满足异构的车辆服务需求。K.Xiong等人在2019年发表的名为“Smart network slicing forvehicular fog-RANs(车载雾天无线接入网络智能切片)”的文章中将该问题建模为马尔可夫决策过程,提出了一种基于蒙特卡罗树的车载雾天无线接入网络智能切片调度算法。通过对多维网络资源的虚拟化和机器学习算法的设计,可以显著提高V2X车辆业务的QoS。此外,S.Zhang等人在2019年发表的名为“Air-ground integrated vehicular networkslicing with content pushing and caching(空地一体化车载网络切片)”提出了一种跨切片匹配多资源的组网切片方法。为了提高体验质量,H.Khan等人在2020年发表的名为“inhancing video streaminging vehicular networks via resource slicing”的文章中提出了一种联合质量选择和资源分配技术。通过利用聚类算法和李亚普诺夫漂移加惩罚方法,可以有效地实现低延迟、高可靠性的车载通信。
为了进一步提高无线通信资源分配的灵活性和能力,同时保证各种服务的QoS的要求,基于机器学习的智能分配机制在网络切片中得到了广泛研究。H.D.R.Albonda等人在2019年发表的名为“An efficient RAN slicing strategy for a heterogeneousnetwork with eMBB and V2X services(用于异质网络的高效RAN切片策略)”的文章中提出了一种高效的基于Deep-Q学习的RAN切片算法,保证频谱资源的利用率,并满足V2I和V2V片的QoS要求。此外,Y.Hua等人在2020年发表的名为“GAN-powered deep distributionalreinforcement learning for resource management in network slicing(用于网络切片资源配置的GaN驱动的分布式强化深度学习)”的文章中利用生成对抗网络对Deep Q网络进行学习,学习行为价值分布。上述无模型RL算法虽然取得了一定的效果,但以下两个瓶颈阻碍了它们在网络切片中的广泛应用。一方面,基于策略的RL算法,如信任区域策略优化(TRPO)和近端策略优化(PPO)需要更多的采样来计算梯度,而实际环境中大量的采样过程会带来很大的负担。另一方面。深度确定性策略梯度(deep deterministic policygradient,DDPG)等基于确定性策略的RL算法往往会导致很强的超参数敏感性和低采样效率。
综上所述,现有技术存在的问题是:(1)车辆流量过多地集中在主基站MBS上,极大地限制了车辆吞吐量的提升;(2)传统UL/DL规则下车辆用户上行(UL)传输功率过大;(3)用于网络切片智能分配机制的机器学习算法存在采样效率低,超参数敏感等问题,性能不足。解决上述技术问题的意义在于:基于目前无线通信技术的发展与无人驾驶技术的进步,显著提高基站负载均衡,降低C-V2X通信网络中的发射功率,在保证蜂窝V2X不同QoS的基础上,显著提高网络吞吐量。促进车联网领域通信技术及网络切片技术的应用与发展。
发明内容
发明目的:针对上述背景技术中存在的问题,本发明在保证不同QoS需求的基础上提供了一种基于深度强化学习的解耦C-V2X网络切片方法。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于深度强化学习的解耦C-V2X网络切片方法,包括以下步骤:
步骤S1、在切片第一层中,采用深度强化学习SAC算法在宏基站MBS和微基站SBS之间分配带宽,实现V2I和RAC-V2V之间的资源编排;采用云接入网络C-RAN中的虚拟化方法在边缘云上聚合UL/DL带宽,满足V2I片和RAC-V2V片的通信需求;其中UL代表上行,DL代表下行;
步骤S2、在切片第二层中,将RAC-V2V通信的QoS建模为一个绝对值优化问题,并采用ASRS算法进行求解,进一步将带宽分配给每个车辆用户;每个车辆用户都采用DL/UL解耦接入技术,并向相关的基站BS报告最低速率要求,边缘云采集不同切片的速率要求,SAC策略网络根据网络状态选择一个转移,即UL/DL带宽分配比,设计ASRS算法,为每一个车辆用户分配带宽;
其中,UL/DL的RAC-V2V用户可以独立连接至MBS或SBS。
进一步地,在所述动态RAN切片框架中,用M和b分别代表MBS和SBS,其中b∈{1,···,b,···,B},
Figure BDA0003212615540000041
和Φb代表车辆用户相关的组,UL和DL整体的带宽用WUL和WDL来表示;分配给宏节点M的带宽用βfWf表示,分配给微节点b的带宽用(1-βf)Wf表示,其中f∈{UL,DL};通过确定最优切片比β* UL和β* DL最大化带宽利用率;保证V2I和RAC-V2V片的不同QoS车辆用户有两种,一种是下行(DL)V2I用户H={1,···,h,···H},另一种是RAC-V2V用户D={1,···,d,···D};
对于V2I通信,BS到V2I用户的数据包传输速率为λh包/秒,每个数据包的长度恒为Lh比特;对于RAC-V2V通信将RAC-V2V车辆用户UL和DL数据包送达的过程建模为泊松过程,定义相同的平均传输速率λd包/秒,数据包长度为Ld比特;在解耦场景下,车载用户选择距离最近的BS作为UL服务提供点,选择接受功率最大的BS作为DL服务提供点,
对于连接到UL的l节点典型车辆用户i∈{H,D},距离是xi,l
Figure BDA00032126155400000514
当且仅当:
Figure BDA0003212615540000051
对于连接到DL的l节点的用户,距离是xi,l,当且仅当:
Figure BDA0003212615540000052
其中,Gk、αk分别为接入BS k的用户i的天线增益和路径损耗常数。hi,M
Figure BDA0003212615540000053
分别表示连接到宏节点的用户的UL/DL发射功率和MBS的发射功率;
Figure BDA0003212615540000054
依次表示连接到微节点的用户的UL/DL发射功率和SBS的发射功率;
车辆用户连接到宏节点的信道信噪比SNR表示为:
Figure BDA0003212615540000055
Figure BDA0003212615540000056
由于通信内的干扰,车辆用户与微节点之间的信道SINR表示为:
Figure BDA0003212615540000057
Figure BDA0003212615540000058
其中σ2是附加的高斯白噪声功率,
Figure BDA0003212615540000059
Figure BDA00032126155400000510
分别代表UL和DL上SBS间的干扰;每个单元的负载由与同一BS相关联的设备数量和相应用户的可实现率决定;
采用矩阵
Figure BDA00032126155400000511
Figure BDA00032126155400000515
分别表示UL和DL中MBS和SBS相关的全带宽Shannon容量;给定每个BS的UL带宽时,每个用户
Figure BDA00032126155400000512
的Shannon容量表示如下:
Figure BDA00032126155400000513
相应的,给定每个BS的DL带宽时,每个用户
Figure BDA0003212615540000061
的Shannon容量表示为:
Figure BDA0003212615540000062
其中i∈{1,L,H},j∈{1,L,1+B}分别表示矩阵的行和列;
基于最优资源分配策略,针对RAC-V2V通信,采用有效带宽理论,得到在给定用户端数据到达分布和时延约束下的最低服务速率。
进一步地,采用马尔科夫决策过程MDP描述所述两层切片框架中的学习、存储、更新的过程;通过表示切片控制器的状态转移和返回,得到可观察的MDP模型;具体如下:
通过切片控制器与无线网络环境的动态交互,推导出元组:
Figure BDA0003212615540000063
其中
Figure BDA0003212615540000064
表示状态集合,
Figure BDA0003212615540000065
表示一组可能的操作。P定义为状态转移的概率;采用无模型的深度强化学习算法处理可完整观察到的MDP问题;将r(s,a)表示为在特定状态s下采取行为a的奖励;该行为将进一步返回给网络片控制器;具体地,
状态:将微状态s表示为一个元组:{Γ,Y,r},其中Γ表示分配给V2I和RAC-V2V切片的带宽,Y表示不同切片的总带宽需求,r表示奖励。
行为:在某一状态下,DRL agent执行一个行为a={βULDL}。其中βUL和βDL限制为[0,1]。
奖励:状态转移奖励表示为r∈R(s,a);其中RAC-V2V通信下的的奖励包括效用函数和QoS,表示如下:
Figure BDA0003212615540000066
其中A、B、P、Q矩阵维数是相同的,由i行,j列组成;i代表车辆,j代表基站;矩阵
Figure BDA0003212615540000067
Figure BDA0003212615540000068
分别表示UL/DL车辆用户在将全带宽分配给相关BS时的容量,矩阵
Figure BDA0003212615540000069
Figure BDA00032126155400000610
分别表示每个用户的UL/DL带宽切片比率;
首先,边缘云节点采集不同切片的速率要求;之后SAC中的策略网络根据网络状态选择行为,即UL/DL带宽分配比率;接着,设计ASRS算法为每个用户分配带宽;当分配完成时,奖励和新的状态将会进入重放缓冲区。
进一步地,提出一种基于Actor-Critic框架的SAC算法,以策略迭代和最大熵和状态值的联合奖赏为基础,处理连续转移空间问题;具体地,
传统的RL算法的目标是根据策略π(a|s)来最大化长期期望奖励:
Figure BDA0003212615540000071
在传统RL算法的长期奖励中加入了熵,
Figure BDA0003212615540000072
其中参数α是温度指数,表示熵对于奖励的相对重要性;α的值越大,想得到的随机行为就越多,否则,学到的有效行为将会越少;
Figure BDA0003212615540000073
表示s状态下的作用熵,因此可以进一步表示为:
Figure BDA0003212615540000074
在软迭代的策略评价步骤中,通过上式中最大熵目标计算策略π的值;对于一个固定的策略,软Q函数可以迭代计算,从任何函数Q开始,重复应用改进的Bellman备份算子
Figure BDA0003212615540000075
Figure BDA0003212615540000076
其中软值函数可以从Bellman备份算子中得到,表示为:
Figure BDA0003212615540000077
下面通过定理1-2,详细描述;其中定理1证明通过贝尔曼算子Q函数可以收敛到最优解;定理2是证明通过交替优化SAC中的策略网络和critic部分(包含两张Q值网络和2张价值网络),策略可以逐渐收敛到最优。
定理1:给定策略π,当任何状态下的行为奖励是有限的,序列Qk可以收敛到软Q函数,其中
Figure BDA0003212615540000078
对于连续状态转移空间中的Actor-Critic算法,轮流运行actor和critic,直到融合。采用深度神经网络DNN分别拟合Critic网络和Actor网络,然后采用随机梯度下降法交替更新两个网络中的参数;
用V(s)≈Vψ(s)和
Figure BDA0003212615540000081
参数化价值网络,即评估网络ψ和目标网络
Figure BDA0003212615540000082
通过最小化均方误差LV(ψ)的训练更新价值网络:
Figure BDA0003212615540000083
神经网络参数更新所需的参数来自重放记忆D,其中
Figure BDA00032126155400000812
是采样状态和行为的分布。上式的梯度采用无偏差估计量估计如下:
Figure BDA0003212615540000084
评估网络的参数通过下式来更新:
Figure BDA0003212615540000085
其中参数
Figure BDA0003212615540000086
是评估网络的学习率。
利用双深度Q-learning中的软深度网络参数更新方法,推导出目标网络更新公式:
Figure BDA0003212615540000087
其中参数τ∈[0,1],为目标价值网络的更新权值;参数为θ1和θ2的两个Q网络负责评价状态-行为。根据当前策略对行为进行采样。软Q函数参数可以训练到最小的平方误差,
Figure BDA0003212615540000088
其中
Figure BDA0003212615540000089
Figure BDA00032126155400000810
是st+1的目标状态值;MSE损失LQ(θ)用随机梯度进行优化如下:
Figure BDA00032126155400000811
由下式更新Q网络参数θi,i∈{1,2}:
Figure BDA0003212615540000091
其中参数
Figure BDA0003212615540000092
是价值评估网络的学习率。
策略网络(SAC网络的一部分)负责输出连续行为的高斯均值和方差;在策略改进步骤中,对于每个状态,将策略更新到新的Q函数的指数,利用KL-divergence来预测高斯分布的参数策略;软策略迭代算法在软策略评估和软策略改进之间交替进行;策略参数直接通过最小化KL-divergence期望来学习:
Figure BDA0003212615540000093
目标密度是Q函数,由一个神经网络表示,可以微分;函数
Figure BDA0003212615540000094
是归一化分布函数,它对梯度没有贡献,可以忽略;使用神经网络重新变换参数化策略如下:
at=fφ(∈t;st),
其中∈t是输入噪声向量,采样来自高斯固定分布;使用重新参数化技巧,将Lπ(φ)改写如下:
Figure BDA0003212615540000095
其中πφ是由fφ隐形定义的,
Figure BDA0003212615540000096
忽略,用下式来估计Lπ(φ)梯度:
Figure BDA0003212615540000097
为了最小化Lπ(φ),得到策略网络的参数更新等式为:
Figure BDA0003212615540000098
参数
Figure BDA0003212615540000099
是策略网络的学习率。
定理2:给定策略π∈Π,状态转移的价值是有限的;交替更新critic网络和policy网络,策略π将收敛于最优π*,表示为:
Figure BDA0003212615540000101
进一步地,为每一个车辆用户分配带宽的ASRS算法具体如下:
在ASRS算法的循环之前,通过计算每个车辆用户的最小通信速率,获取初始带宽分配矩阵
Figure BDA0003212615540000102
每个上行用户的最小带宽需求表示为:
Figure BDA0003212615540000103
下行用户的最小带宽需求
Figure BDA0003212615540000104
表示为:
Figure BDA0003212615540000105
由此得到第j个基站的最小上行带宽要求
Figure BDA0003212615540000106
相似的,第j个基站的最小下行带宽要求是
Figure BDA0003212615540000107
将RAC-V2V通信的QoS度量用公式表达为:
|RUL-RDL|.
其中,变量RUL和RDL分别表示UL/DL下的可到达率;用1表示车辆用户已经与相应的BS建立了连接,0表示没有与BS建立连接;将UL和DL关联矩阵分别表示为:
Figure BDA0003212615540000108
其中矩阵
Figure BDA0003212615540000111
Figure BDA0003212615540000112
的行数和列数分别代表车辆数和基站数;
Figure BDA0003212615540000113
Figure BDA0003212615540000114
Figure BDA0003212615540000115
Figure BDA0003212615540000116
单位向量e=[1,…,1]T;用
Figure BDA0003212615540000117
Figure BDA0003212615540000118
分别表示UL和DL的切片比率矩阵;
Figure BDA0003212615540000119
表示为:
Figure BDA00032126155400001110
Figure BDA00032126155400001111
矩阵每一列的和
Figure BDA00032126155400001112
都等于1;
为每一个车辆用户分配带宽,目标是最小化RAC-V2V通信的QoS度量;目标函数及其约束条件表述如下:
Figure BDA00032126155400001113
Figure BDA00032126155400001114
Figure BDA00032126155400001115
Figure BDA00032126155400001116
Figure BDA00032126155400001117
Figure BDA00032126155400001118
令Γ与目标函数相等,所述优化问题等价地转化为:
Figure BDA00032126155400001119
Figure BDA00032126155400001120
Figure BDA00032126155400001121
Figure BDA00032126155400001122
Figure BDA00032126155400001123
Figure BDA00032126155400001124
Figure BDA00032126155400001125
Figure BDA00032126155400001126
Γ≥0.(i)
利用块协调下降算法,设计ASRS算法,即固定矩阵
Figure BDA0003212615540000121
得到最优
Figure BDA0003212615540000122
然后利用
Figure BDA0003212615540000123
计算最优
Figure BDA0003212615540000124
在ASRS的每个迭代循环中,需要固定一个变量来求解另一个变量,将优化问题转化为两个线性规划问题;在每次迭代中,首先固定矩阵
Figure BDA0003212615540000125
来求解最优矩阵
Figure BDA0003212615540000126
因此子问题描述为:
Figure BDA0003212615540000127
s.t.b,d-h
求解问题后得到最优矩阵
Figure BDA0003212615540000128
基于循环特性,下一次迭代中使用最优
Figure BDA0003212615540000129
来求解最优
Figure BDA00032126155400001210
另一子问题表示为:
Figure BDA00032126155400001211
s.t.a,c,e–h
通过循环计算,每次迭代需要解决两个子问题,如下式所示:
Figure BDA00032126155400001212
有益效果:
首先,本发明提供的C-V2X切片方法保证了V2I和RAC-V2V片不同QoS要求,在保证RAC-V2V通信稳定性和严格时延约束的同时,最大限度地提升了网络容量;其次,有效降低了车辆用户发射功率,通过灵活的关联模式,更多的车辆选择访问SBS,可以减轻MBS的沉重负担;再次,提出了一种针对RAC-V2V通信的创新性度量,并设计了一种基于ASRS算法进行求解其最小化问题。
附图说明
图1是本发明实施例所采用的解耦接入的RAN切片结构示意图。
图2是本发明实施例所采用的用于C-V2X的双层RAN切片结构示意图。
图3是本发明实施例所采用的双层RAN切片过程示意图。
图4是本发明实施例所采用的算法1逻辑框图。
图5是本发明实施例所采用的算法2逻辑框图。
具体实施方式
下面结合附图提供一份具体实施例,对本发明作更进一步的说明。
本实施例采用了图1的两层切片结构,设计了一个基于两层HetNet的C-V2X通信的动态RAN切片框架。在解耦规则下,UL和DL RAC-V2V用户可以自由地独立连接到MBS或SBS。图1中一般有三种不同的UL/DL关联情况(即通过一个或两个基站实现两跳RAC-V2V通信)。在情况2和3中,两跳中继可以通过一个基站实现。而在情况1中,通过与两个基站建立UL/DL连接实现的中继应由BS之间的接口支持。MBS与SBS之间的通信可由标准化的X2接口实现,数据将通过公共无线接口转发到另一个BS。具体来说,在切片框架中,本实施例同时考虑V2I和RAC-V2V切片。同时,利用云RAN(C-RAN)技术在边缘云上聚合UL/DL带宽。由于V2I片和RAC-V2V片的通信需求不同,本发明设计了一种两层带宽切片算法,在满足不同片不同QoS要求的同时最大化总容量。
如图1所示,在切片第一层,采用深度强化学习SAC算法在宏基站MBS和微基站SBS之间分配带宽,实现V2I和RAC-V2V之间的资源编排;采用云接入网络C-RAN中的虚拟化方法在边缘云上聚合UL/DL带宽,满足V2I片和RAC-V2V片的通信需求;其中UL代表上行,DL代表下行。在第二层,将RAC-V2V通信的QoS建模为一个绝对值优化问题,并采用ASRS算法进行求解,进一步将带宽分配给每个车辆用户;每个车辆用户都采用DL/UL解耦接入技术,并向相关的基站BS报告最低速率要求,边缘云采集不同切片的速率要求,SAC策略网络根据网络状态选择一个转移,即UL/DL带宽分配比,设计ASRS算法,为每一个车辆用户分配带宽。
在动态RAN切片框架中,用M和b分别代表MBS和SBS,其中b∈{1,···,b,···,B},
Figure BDA0003212615540000131
和Φb代表车辆用户相关的组,UL和DL整体的带宽用WUL和WDL来表示;分配给宏节点M的带宽用βf Wf表示,分配给微节点b的带宽用(1-βf)Wf表示,其中f∈{UL,DL};通过确定最优切片比β*UL和β*DL最大化带宽利用率;保证V2I和RAC-V2V片的不同QoS车辆用户有两种,一种是下行(DL)V2I用户H={1,···,h,···H},另一种是RAC-V2V用户D={1,···,d,···D};
本实施例考虑负责上下行的基站端和用户端的队列,分析来自不同车辆用户的数据包流的不同QoS需求。BS到V2I用户的数据包传输速率为λh包/秒,每个数据包的长度恒为Lh比特。而对于RAC-V2V通信,考虑其严格的时延要求和连接的不稳定性,本实施例将RAC-V2V车辆用户UL和DL数据包送达的过程建模为泊松过程,定义相同的平均传输速率λd包/秒,数据包长度为Ld比特。
假设所有车辆用户都配备了一个天线。传统的UL/DL接入是基于最大平均接收信号功率(RSP)。但在解耦场景下,车载用户选择距离最近的BS作为UL服务提供点,而DL用户选择接收功率最大的BS。
对于连接到UL的l节点典型车辆用户i∈{H,D},距离是xi,l
Figure BDA0003212615540000141
当且仅当:
Figure BDA0003212615540000142
对于连接到DL的l节点的用户,距离是xi,l,当且仅当:
Figure BDA0003212615540000143
其中,Gk、αk分别为接入BS k的用户i的天线增益和路径损耗常数。hi,M
Figure BDA0003212615540000144
分别表示连接到宏节点的用户的UL/DL发射功率和MBS的发射功率;
Figure BDA0003212615540000145
依次表示连接到微节点的用户的UL/DL发射功率和SBS的发射功率;
车辆用户连接到宏节点的信道信噪比SNR表示为:
Figure BDA0003212615540000146
Figure BDA0003212615540000147
由于通信内的干扰,车辆用户与微节点之间的信道SINR表示为:
Figure BDA0003212615540000148
Figure BDA0003212615540000151
其中σ2是附加的高斯白噪声功率,
Figure BDA0003212615540000152
Figure BDA0003212615540000153
分别代表UL和DL上SBS间的干扰;每个单元的负载由与同一BS相关联的设备数量和相应用户的可实现率决定;
采用矩阵
Figure BDA0003212615540000154
Figure BDA0003212615540000155
分别表示UL和DL中MBS和SBS相关的全带宽Shannon容量;给定每个BS的UL带宽时,每个用户
Figure BDA0003212615540000156
的Shannon容量表示如下:
Figure BDA0003212615540000157
相应的,给定每个BS的DL带宽时,每个用户
Figure BDA0003212615540000158
的Shannon容量表示为:
Figure BDA0003212615540000159
其中i∈{1,L,H},j∈{1,L,1+B}分别表示矩阵的行和列;
对于RAC-V2V的有效带宽理论,可由大偏差理论推导得到。有效带宽理论表示在给定源流数据速率的时延约束下的最低服务率,该理论常用于获得最优的资源分配策略。本实施例认为可以计算数据包从到达到离开之间的端到端延迟,例如数据包在用户端或基站端生成,然后到它的目的地。对于两跳RAC-V2V通信,为简化问题公式,本实施例考虑中继的上行和下行数据包均为泊松到达,且有效带宽相同。因此,本实施例可以推导出RAC-V2V通信满足时延冲突概率的最小传输速率。
首先表示QoS指数。RAC-V2V通信的有效带宽可以表示为:
Figure BDA00032126155400001510
其中O(t)表示RAC-V2V通信中在时间[0,t)内到达的数据包数,E[·]表示期望。由于O(t)被建模为λf d包/秒的泊松过程,有效带宽可以被进一步地表示为:
Figure BDA00032126155400001511
数据包从发送端基站/车辆用户l发送到接收端基站/车辆用户i的总传输延时
Figure BDA0003212615540000161
超过最大传输延时
Figure BDA0003212615540000162
的概率可以拟合为:
Figure BDA0003212615540000163
其中ε表示超出传输延迟约束的概率,
Figure BDA0003212615540000164
是从V2V用户i到基站l的有效到达率(在每秒传输数据包数量约束下),最小可实现的速率pmin是:
Figure BDA0003212615540000165
根据有效带宽理论,pmin应与有效带宽
Figure BDA0003212615540000166
相等来确保延迟冲突概率不超过ε。所以可以得到
Figure BDA0003212615540000167
进而RAC-V2V通信的最小传输速率可表示为:
Figure BDA0003212615540000168
对于两层RAN切片的马尔科夫模型,学习、存储和更新的详细过程如图3所示。可以描述为马尔可夫决策过程(MDP)。本实施例表示出切片控制器的状态、行为、状态转移和返回,从而得到完整可观察的MDP模型。具体如下:
通过切片控制器与无线网络环境的动态交互,推导出元组:
Figure BDA0003212615540000169
其中
Figure BDA00032126155400001610
表示状态集合,
Figure BDA00032126155400001611
表示一组可能的操作。P定义为状态转移的概率;采用无模型的深度强化学习算法处理可完整观察到的MDP问题;将r(s,a)表示为在特定状态s下采取行为a的奖励;该行为将进一步返回给网络片控制器;具体地,
状态:将微状态s表示为一个元组:{Γ,Y,r},其中Γ表示分配给V2I和RAC-V2V切片的带宽,Y表示不同切片的总带宽需求,r表示奖励。
行为:在某一状态下,DRL agent执行一个行为a={βULDL}。其中βUL和βDL限制为[0,1]。
奖励:状态转移奖励表示为r∈R(s,a);其中RAC-V2V通信下的的奖励包括效用函数和QoS,表示如下:
Figure BDA0003212615540000171
其中A、B、P、Q矩阵维数是相同的,由i行,j列组成;i代表车辆,j代表基站;矩阵
Figure BDA0003212615540000172
Figure BDA0003212615540000173
分别表示UL/DL车辆用户在将全带宽分配给相关BS时的容量,矩阵
Figure BDA0003212615540000174
Figure BDA0003212615540000175
分别表示每个用户的UL/DL带宽切片比率;
首先,边缘云节点采集不同切片的速率要求;之后SAC中的策略网络根据网络状态选择行为,即UL/DL带宽分配比率;接着,设计ASRS算法为每个用户分配带宽;当分配完成时,奖励和新的状态将会进入重放缓冲区。
基站带宽分配的SAC算法是一种典型的无模型算法,在处理连续状态转移的情况下表现不佳。由于将行为离散化将导致行为数量的指数级增长,并且一些用于解决问题的重要信息可能会丢失。因此,本实施例提出了一种基于Actor-Critic框架的SAC算法。SAC算法的采用有以下三个优点:
1)基于策略迭代,可以处理连续行动空间问题;
2)基于最大熵和状态值的联合奖励可以有效地探索出更多的优秀行为,使其具有更强的探索能力;
3)SAC克服了大量采样带来的复杂性和超参数(如学习率、探索常数)强化学习敏感性。
传统的RL算法的目标是根据策略π(a|s)来最大化长期期望奖励:
Figure BDA0003212615540000176
为了学习更有效的行为,本实施例在传统RL算法的长期奖励中加入了熵,
Figure BDA0003212615540000177
其中参数α是温度指数,表示熵对于奖励的相对重要性;α的值越大,想得到的随机行为就越多,否则,学到的有效行为将会越少;
Figure BDA0003212615540000181
表示s状态下的作用熵,因此可以进一步表示为:
Figure BDA0003212615540000182
在软迭代的策略评价步骤中,通过上式中最大熵目标计算策略π的值;对于一个固定的策略,软Q函数可以迭代计算,从任何函数Q开始,重复应用改进的Bellman备份算子
Figure BDA0003212615540000183
Figure BDA0003212615540000184
其中软值函数可以从Bellman备份算子中得到,表示为:
Figure BDA0003212615540000185
下面通过定理1-2,详细描述;
定理1:给定策略π,当任何状态下的行为奖励是有限的,序列Qk可以收敛到软Q函数,其中
Figure BDA0003212615540000186
对于连续状态转移空间中的Actor-Critic算法,轮流运行actor和critic,直到融合。采用深度神经网络DNN分别拟合Critic网络和Actor网络,然后采用随机梯度下降法交替更新两个网络中的参数;
用V(s)≈Vψ(s)和
Figure BDA0003212615540000187
参数化价值网络,即评估网络ψ和目标网络
Figure BDA0003212615540000188
通过最小化均方误差LV(ψ)的训练更新价值网络:
Figure BDA0003212615540000189
神经网络参数更新所需的参数来自重放记忆D,其中
Figure BDA00032126155400001810
是采样状态和行为的分布。上式的梯度采用无偏差估计量估计如下:
Figure BDA00032126155400001811
评估网络的参数通过下式来更新:
Figure BDA00032126155400001812
其中参数
Figure BDA0003212615540000191
是评估网络的学习率。
利用双深度Q-learning中的软深度网络参数更新方法,推导出目标网络更新公式:
Figure BDA0003212615540000192
其中参数τ∈[0,1],为目标价值网络的更新权值;参数为θ1和θ2的两个Q网络负责评价状态-行为。根据当前策略对行为进行采样。软Q函数参数可以训练到最小的平方误差,
Figure BDA0003212615540000193
其中
Figure BDA0003212615540000194
Figure BDA0003212615540000195
是st+1的目标状态值;MSE损失LQ(θ)用随机梯度进行优化如下:
Figure BDA0003212615540000196
由下式更新Q网络参数θi,i∈{1,2}:
Figure BDA0003212615540000197
其中参数
Figure BDA0003212615540000198
是价值评估网络的学习率。
策略网络负责输出连续行为的高斯均值和方差;在策略改进步骤中,对于每个状态,将策略更新到新的Q函数的指数,利用KL-divergence来预测高斯分布的参数策略;软策略迭代算法在软策略评估和软策略改进之间交替进行;策略参数直接通过最小化KL-divergence期望来学习:
Figure BDA0003212615540000199
目标密度是Q函数,由一个神经网络表示,可以微分;函数
Figure BDA00032126155400001910
是归一化分布函数,它对梯度没有贡献,可以忽略;使用神经网络重新变换参数化策略如下:
at=fφ(∈t;st),
其中∈t是输入噪声向量,采样来自高斯固定分布;使用重新参数化技巧,将Lπ(φ)改写如下:
Figure BDA0003212615540000201
其中πφ是由fφ隐形定义的,
Figure BDA0003212615540000202
忽略,用下式来估计Lπ(φ)梯度:
Figure BDA0003212615540000203
为了最小化Lπ(φ),得到策略网络的参数更新等式为:
Figure BDA0003212615540000204
参数
Figure BDA0003212615540000205
是策略网络的学习率。
定理2:给定策略π∈Π,状态转移的价值是有限的;交替更新critic网络和policy网络,策略π将收敛于最优π*,表示为:
Figure BDA0003212615540000206
对于为车辆用户分配频谱带宽的ASRS算法:在RAC-V2V通信中,UL和DL分别与不同的BSs独立关联。但是,由于通信车辆需要交换安全相关的信息,通过利用RAC-V2V,其通信的发送方和接收方的角色是不断的交换以完成可逆的交互通信。一般情况下,RAC-V2V蜂窝用户的UL和DL会话是耦合的,以完成双向信息交换。为了保证系统的稳定性和严格的延迟约束要求,必须同时考虑UL/DL资源分配。UL/DL中RAC-V2V发射端和接收端之间的双向安全相关数据和信息流一般是对称流量。因此,RAC-V2V通信需要在UL和DL中进行对称的资源分配
因此,本实施例可以将RAC-V2V通信的QoS度量用公式表达为:
|RUL-RDL|.
其中,变量RUL和RDL分别表示UL/DL下的可到达率;用1表示车辆用户已经与相应的BS建立了连接,0表示没有与BS建立连接;将UL和DL关联矩阵分别表示为:
Figure BDA0003212615540000211
其中矩阵
Figure BDA0003212615540000212
Figure BDA0003212615540000213
的行数和列数分别代表车辆数和基站数;
Figure BDA0003212615540000214
Figure BDA0003212615540000215
Figure BDA0003212615540000216
Figure BDA0003212615540000217
单位向量e=[1,…,1]T;用
Figure BDA0003212615540000218
Figure BDA0003212615540000219
分别表示UL和DL的切片比率矩阵;
Figure BDA00032126155400002110
表示为:
Figure BDA00032126155400002111
Figure BDA00032126155400002112
矩阵每一列的和
Figure BDA00032126155400002113
都等于1;
为每一个车辆用户分配带宽,目标是最小化RAC-V2V通信的QoS度量;目标函数及其约束条件表述如下:
Figure BDA00032126155400002114
Figure BDA00032126155400002115
Figure BDA00032126155400002116
Figure BDA00032126155400002117
Figure BDA00032126155400002118
Figure BDA00032126155400002119
令Γ与目标函数相等,所述优化问题等价地转化为:
Figure BDA00032126155400002120
Figure BDA00032126155400002121
Figure BDA00032126155400002122
Figure BDA00032126155400002123
Figure BDA00032126155400002124
Figure BDA00032126155400002125
Figure BDA0003212615540000221
Figure BDA0003212615540000222
Γ≥0.   (i)
利用块协调下降算法,设计ASRS算法,即固定矩阵
Figure BDA0003212615540000223
得到最优
Figure BDA0003212615540000224
然后利用
Figure BDA0003212615540000225
计算最优
Figure BDA0003212615540000226
在ASRS的每个迭代循环中,需要固定一个变量来求解另一个变量,将优化问题转化为两个线性规划问题;在每次迭代中,首先固定矩阵
Figure BDA0003212615540000227
来求解最优矩阵
Figure BDA0003212615540000228
因此子问题描述为:
Figure BDA0003212615540000229
s.t.b,d-h
求解问题后得到最优矩阵
Figure BDA00032126155400002210
基于循环特性,下一次迭代中使用最优
Figure BDA00032126155400002211
来求解最优
Figure BDA00032126155400002212
另一子问题表示为:
Figure BDA00032126155400002213
s.t.a,c,e–h
通过循环计算,每次迭代需要解决两个子问题,如下式所示:
Figure BDA00032126155400002214
在ASRS算法的循环之前,通过计算每个车辆用户的最小通信速率,获取初始带宽分配矩阵
Figure BDA00032126155400002215
每个上行用户的最小带宽需求表示为:
Figure BDA00032126155400002216
下行用户的最小带宽需求
Figure BDA0003212615540000231
表示为:
Figure BDA0003212615540000232
由此得到第j个基站的最小上行带宽要求
Figure BDA0003212615540000233
相似的,第j个基站的最小下行带宽要求是
Figure BDA0003212615540000234
如图5所示,算法2描述了ASRS算法,负责及时的资源分配。本发明设计了一种启发式初始带宽分配方法,可以找到最合适的迭代初始测试矩阵
Figure BDA0003212615540000235
在重复迭代过程中,首先确定一个矩阵
Figure BDA0003212615540000236
并找到最优目标函数Γ和最优矩阵
Figure BDA0003212615540000237
然后利用最优矩阵
Figure BDA0003212615540000238
找到最优矩阵
Figure BDA0003212615540000239
和最优目标函数Γ。
在以上结果的基础上,本实施例提出了迭代算法ASRS,采用块协调下降法,也称为交替优化法。具体而言,将原问题中的整个优化变量划分为两个变量块,即
Figure BDA00032126155400002310
然后上行频谱带宽调度比率
Figure BDA00032126155400002311
和下行频谱调度比率
Figure BDA00032126155400002312
交替优化,分别求解问题,同时保持另一个变量块不变,并将每次迭代得到的解作为下一次迭代的输入。值得指出的是,在经典的块协调下降法中,更新每个变量块的子问题需要在每次迭代中都解决到精确最优解,以保证收敛。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种基于深度强化学习的解耦C-V2X网络切片方法,其特征在于,包括以下步骤:
基于两层异构网络HetNet在C-V2X蜂窝车辆通信的动态RAN切片框架,进行如下切片:中继辅助蜂窝车辆到车辆
步骤S1、在切片第一层中,采用深度强化学习SAC算法在宏基站MBS和微基站SBS之间分配带宽,实现V2I和RAC-V2V之间的资源编排;采用云接入网络C-RAN中的虚拟化方法在边缘云上聚合UL/DL带宽,满足V2I片和RAC-V2V片的通信需求;其中UL代表上行,DL代表下行;
步骤S2、在切片第二层中,将RAC-V2V中继辅助蜂窝车辆到车辆通信的QoS建模为一个绝对值优化问题,并采用ASRS算法进行求解,进一步将带宽分配给每个车辆用户;每个车辆用户都采用DL/UL解耦接入技术,并向相关的基站BS报告最低速率要求,边缘云采集不同切片的速率要求,SAC策略网络根据网络状态选择一个转移,即UL/DL带宽分配比,设计ASRS算法,为每一个车辆用户分配带宽;
其中,UL/DL的RAC-V2V用户能独立连接至MBS或SBS;
在所述动态RAN切片框架中,用M和b分别代表MBS和SBS,其中b∈{1,···,b,···,B},M和Φb代表车辆用户相关的组,UL和DL整体的带宽用WUL和WDL来表示;分配给宏节点M的带宽用βf Wf表示,分配给微节点b的带宽用(1-βf)Wf表示,其中f∈{UL,DL};通过确定最优切片比β* UL和β* DL最大化带宽利用率;保证V2I和RAC-V2V片的不同QoS车辆用户有两种,一种是下行(DL)V2I用户H={1,···,h,···H},另一种是RAC-V2V用户D={1,···,d,···D};
对于V2I通信,BS到V2I用户的数据包传输速率为λh包/秒,每个数据包的长度恒为L h比特;对于RAC-V2V通信将RAC-V2V车辆用户UL和DL数据包送达的过程建模为泊松过程,定义相同的平均传输速率λd包/秒,数据包长度为L d比特;在解耦场景下,车载用户选择距离最近的BS作为UL服务提供点,选择接受功率最大的BS作为DL服务提供点,
对于连接到UL的l节点典型车辆用户i∈{H,D},距离是xi,l,l∈{Φb,M},当且仅当:
Figure FDA0004064287870000021
对于连接到DL的l节点的用户,距离是xi,l,当且仅当:
Figure FDA0004064287870000022
其中,Gk、αk分别为接入BS k的用户i的天线增益和路径损耗常数;
Figure FDA0004064287870000023
Figure FDA0004064287870000024
分别表示连接到宏节点的用户的UL/DL发射功率和MBS的发射功率;
Figure FDA0004064287870000025
Figure FDA0004064287870000026
依次表示连接到微节点的用户的UL/DL发射功率和SBS的发射功率;
车辆用户连接到宏节点的信道信噪比SNR表示为:
Figure FDA0004064287870000027
Figure FDA0004064287870000028
由于通信内的干扰,车辆用户与微节点之间的信道SINR表示为:
Figure FDA0004064287870000029
Figure FDA00040642878700000210
其中σ2是附加的高斯白噪声功率,
Figure FDA00040642878700000211
Figure FDA00040642878700000212
分别代表UL和DL上SBS间的干扰;每个单元的负载由与同一BS相关联的设备数量和相应用户的可实现率决定;
采用矩阵A和B分别表示UL和DL中MBS和SBS相关的全带宽Shannon容量;给定每个BS的UL带宽时,每个用户Ai,j的Shannon容量表示如下:
Figure FDA00040642878700000213
相应的,给定每个BS的DL带宽时,每个用户Bi,j的Shannon容量表示为:
Figure FDA0004064287870000031
其中i∈{1,..,H},j∈{1,..,1+B}分别表示矩阵的行和列;
基于最优资源分配策略,针对RAC-V2V通信,采用有效带宽理论,得到在给定用户端数据到达分布和时延约束下的最低服务速率;
为每一个车辆用户分配带宽的ASRS算法具体如下:
在ASRS算法的循环之前,通过计算每个车辆用户的最小通信速率,获取初始带宽分配矩阵P0,Q0,每个上行用户的最小带宽需求表示为:
Figure FDA0004064287870000032
下行用户的最小带宽需求
Figure FDA0004064287870000033
表示为:
Figure FDA0004064287870000034
由此得到第j个基站的最小上行带宽要求
Figure FDA0004064287870000035
相似的,第j个基站的最小下行带宽要求是
Figure FDA0004064287870000036
将RAC-V2V通信的QoS度量用公式表达为:
|RUL-RDL|.
其中,变量RUL和RDL分别表示UL/DL下的可到达率;用1表示车辆用户已经与相应的BS建立了连接,0表示没有与BS建立连接;将UL和DL关联矩阵分别表示为:
Figure FDA0004064287870000041
其中矩阵
Figure FDA0004064287870000042
Figure FDA0004064287870000043
的行数和列数分别代表车辆数和基站数;
Figure FDA0004064287870000044
Figure FDA0004064287870000045
单位向量e=[1,..,1]T;用PH×(B+1)和Q(H+D)×(B+1)分别表示UL和DL的切片比率矩阵;Pi,j∈(0,1)Qi,j∈(0,1)表示为:
Figure FDA00040642878700000418
矩阵每一列的和
Figure FDA0004064287870000046
都等于1;
为每一个车辆用户分配带宽,目标是最小化RAC-V2V通信的QoS度量;目标函数及其约束条件表述如下:
Figure FDA0004064287870000047
Figure FDA0004064287870000048
Figure FDA0004064287870000049
Figure FDA00040642878700000410
Figure FDA00040642878700000411
Figure FDA00040642878700000412
令Γ与目标函数相等,所述优化问题等价地转化为:
Figure FDA00040642878700000413
Figure FDA00040642878700000414
Figure FDA00040642878700000415
Figure FDA00040642878700000416
Figure FDA00040642878700000417
Figure FDA0004064287870000051
Figure FDA0004064287870000052
Figure FDA0004064287870000053
Γ≥0.(i)
利用块协调下降算法,设计ASRS算法,即固定矩阵P得到最优Q*,然后利用Q*计算最优P*;在ASRS的每个迭代循环中,需要固定一个变量来求解另一个变量,将优化问题转化为两个线性规划问题;在每次迭代中,首先固定矩阵P来求解最优矩阵Q,因此子问题描述为:
Figure FDA0004064287870000054
s.t.b,d-h
求解问题后得到最优矩阵Q*;基于循环特性,下一次迭代中使用最优Q*来求解最优P*,另一子问题表示为:
Figure FDA0004064287870000055
s.t.a,c,e–h
通过循环计算,每次迭代需要解决两个子问题,如下式所示:
Figure FDA0004064287870000056
2.根据权利要求1所述的一种基于深度强化学习的解耦C-V2X网络切片方法,其特征在于,采用马尔科夫决策过程MDP描述所述两层切片框架中的学习、存储、更新的过程;通过表示切片控制器的状态转移和返回,得到能观察的MDP模型;具体如下:
通过切片控制器与无线网络环境的动态交互,推导出元组:(S,A,r,P,a);其中S表示状态集合,A表示一组可能的操作;P定义为状态转移的概率;采用无模型的深度强化学习算法处理能完整观察到的MDP问题;将r(s,a)表示为在特定状态s下采取行为a的奖励;该行为将进一步返回给网络片控制器;具体地,
状态:将微状态s表示为一个元组:{Γ,Y,r},其中Γ表示分配给V2I和RAC-V2V切片的带宽,Y表示不同切片的总带宽需求,r表示奖励;
行为:在某一状态下,DRL agent执行一个行为a={βULDL};其中βUL和βDL限制为[0,1];
奖励:状态转移奖励表示为r∈R(s,a);其中RAC-V2V通信下的的奖励包括效用函数和QoS,表示如下:
Figure FDA0004064287870000061
其中A、B、P、Q矩阵维数是相同的,由i行,j列组成;i代表车辆,j代表基站;矩阵A和B分别表示UL/DL车辆用户在将全带宽分配给相关BS时的容量,矩阵P和Q分别表示每个用户的UL/DL带宽切片比率;
首先,边缘云节点采集不同切片的速率要求;之后SAC中的策略网络根据网络状态选择行为,即UL/DL带宽分配比率;接着,设计ASRS算法为每个用户分配带宽;当分配完成时,奖励和新的状态将会进入重放缓冲区。
3.根据权利要求1所述的一种基于深度强化学习的解耦C-V2X网络切片方法,其特征在于,提出一种基于Actor-Critic框架的SAC算法,以策略迭代和最大熵和状态值的联合奖赏为基础,处理连续转移空间问题;具体地,
传统的RL算法的目标是根据策略π(a|s)来最大化长期期望奖励:
Figure FDA0004064287870000062
在传统RL算法的长期奖励中加入了熵,
Figure FDA0004064287870000063
其中参数α是温度指数,表示熵对于奖励的相对重要性;α的值越大,想得到的随机行为就越多,否则,学到的有效行为将会越少;
H(π(·|st))=-logπ(a|s)
表示s状态下的作用熵,因此进一步表示为:
Figure FDA0004064287870000071
在软迭代的策略评价步骤中,通过上式中最大熵目标计算策略π的值;对于一个固定的策略,软Q函数能迭代计算,从任何函数Q开始,重复应用改进的Bellman备份算子Fπ
Figure FDA0004064287870000072
其中软值函数能够从Bellman备份算子中得到,表示为:
V(st)=E[Q(st,at)-logπ(at|st)|π].
下面提供定理1-2,其中定理1证明通过贝尔曼算子Q函数能收敛到最优解;定理2证明通过交替优化SAC中的策略网络和critic部分,策略能够逐渐收敛到最优;
定理1:给定策略π,当任何状态下的行为奖励是有限的,序列Qk能收敛到软Q函数,其中
Figure FDA0004064287870000073
对于连续状态转移空间中的Actor-Critic算法,轮流运行actor和critic,直到融合;采用深度神经网络DNN分别拟合Critic网络和Actor网络,然后采用随机梯度下降法交替更新两个网络中的参数;
用V(s)≈Vψ(s)和V(s)≈Vψ(s)参数化价值网络,即评估网络ψ和目标网络ψ;通过最小化均方误差LV(ψ)的训练更新价值网络:
Figure FDA0004064287870000074
神经网络参数更新所需的参数来自重放记忆D,其中D是采样状态和行为的分布;上式的梯度采用无偏差估计量估计如下:
Figure FDA0004064287870000075
评估网络的参数通过下式来更新:
Figure FDA0004064287870000076
其中参数
Figure FDA0004064287870000081
是评估网络的学习率;
利用双深度Q-learning中的软深度网络参数更新方法,推导出目标网络更新公式:
ψ←ψ+(1-τ)ψ,
其中参数τ∈[0,1],为目标价值网络的更新权值;参数为θ1和θ2的两个Q网络负责评价状态-行为;根据当前策略对行为进行采样;软Q函数参数能训练到最小的平方误差,
Figure FDA0004064287870000082
其中
Figure FDA0004064287870000083
Vψ(st+1)是st+1的目标状态值;MSE损失LQ(θ)用随机梯度进行优化如下:
Figure FDA0004064287870000084
由下式更新Q网络参数θi,i∈{1,2}:
Figure FDA0004064287870000085
其中参数
Figure FDA0004064287870000086
是价值评估网络的学习率;
策略网络负责输出连续行为的高斯均值和方差;在策略改进步骤中,对于每个状态,将策略更新到新的Q函数的指数,利用KL-divergence来预测高斯分布的参数策略;软策略迭代算法在软策略评估和软策略改进之间交替进行;策略参数直接通过最小化KL-divergence期望来学习:
Figure FDA0004064287870000087
目标密度是Q函数,由一个神经网络表示,能微分;函数
Figure FDA0004064287870000088
是归一化分布函数,它对梯度没有贡献,忽略;使用神经网络重新变换参数化策略如下:
at=fφt;st),
其中òt是输入噪声向量,采样来自高斯固定分布;使用重新参数化技巧,将Lπ(φ)改写如下:
Figure FDA0004064287870000091
其中πφ是由fφ隐形定义的,
Figure FDA0004064287870000092
忽略,用下式来估计Lπ(φ)梯度:
Figure FDA0004064287870000093
为了最小化Lπ(φ),得到策略网络的参数更新等式为:
Figure FDA0004064287870000094
参数
Figure FDA0004064287870000095
是策略网络的学习率;
定理2:给定策略π∈Π,状态转移的价值是有限的;交替更新critic网络和policy网络,策略π将收敛于最优π*,表示为:
Figure FDA0004064287870000096
CN202110934853.2A 2021-08-16 2021-08-16 一种基于深度强化学习的解耦c-v2x网络切片方法 Active CN113727306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110934853.2A CN113727306B (zh) 2021-08-16 2021-08-16 一种基于深度强化学习的解耦c-v2x网络切片方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110934853.2A CN113727306B (zh) 2021-08-16 2021-08-16 一种基于深度强化学习的解耦c-v2x网络切片方法

Publications (2)

Publication Number Publication Date
CN113727306A CN113727306A (zh) 2021-11-30
CN113727306B true CN113727306B (zh) 2023-04-07

Family

ID=78675905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110934853.2A Active CN113727306B (zh) 2021-08-16 2021-08-16 一种基于深度强化学习的解耦c-v2x网络切片方法

Country Status (1)

Country Link
CN (1) CN113727306B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116079737A (zh) * 2023-02-23 2023-05-09 南京邮电大学 基于分层强化学习的机械臂复杂操作技能学习方法及系统
CN116743584B (zh) * 2023-08-09 2023-10-27 山东科技大学 一种基于信息感知及联合计算缓存的动态ran切片方法
CN117234785B (zh) * 2023-11-09 2024-02-02 华能澜沧江水电股份有限公司 基于人工智能自查询的集控平台错误分析系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN113163451A (zh) * 2021-04-23 2021-07-23 中山大学 一种基于深度强化学习的d2d通信网络切片分配方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2553077B (en) * 2016-04-27 2019-07-24 Toshiba Kk Radio resource slicing in a radio access network
US11051210B2 (en) * 2017-04-28 2021-06-29 NEC Laboratories Europe GmbH Method and system for network slice allocation
CN111294762B (zh) * 2020-01-23 2021-04-13 北京邮电大学 基于无线接入网络ran切片协作的车辆业务处理方法
CN112423267B (zh) * 2020-10-14 2022-04-22 南京大学 基于Lyapunov随机优化的车联网异质资源动态切片方法
CN112995951B (zh) * 2021-03-12 2022-04-08 南京航空航天大学 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN113163451A (zh) * 2021-04-23 2021-07-23 中山大学 一种基于深度强化学习的d2d通信网络切片分配方法

Also Published As

Publication number Publication date
CN113727306A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
Tang et al. Survey on machine learning for intelligent end-to-end communication toward 6G: From network access, routing to traffic control and streaming adaption
Yates et al. The age of information: Real-time status updating by multiple sources
Hu et al. Twin-timescale artificial intelligence aided mobility-aware edge caching and computing in vehicular networks
CN113727306B (zh) 一种基于深度强化学习的解耦c-v2x网络切片方法
Sun et al. AoI-energy-aware UAV-assisted data collection for IoT networks: A deep reinforcement learning method
Chen et al. Deep-learning-based intelligent intervehicle distance control for 6G-enabled cooperative autonomous driving
Sun et al. Autonomous resource slicing for virtualized vehicular networks with D2D communications based on deep reinforcement learning
Wang et al. Energy-delay minimization of task migration based on game theory in MEC-assisted vehicular networks
CN111339554A (zh) 基于移动边缘计算的用户数据隐私保护方法
Nguyen et al. DRL-based intelligent resource allocation for diverse QoS in 5G and toward 6G vehicular networks: a comprehensive survey
Chen et al. A multilevel mobile fog computing offloading model based on UAV-assisted and heterogeneous network
Chen et al. Reinforcement learning meets wireless networks: A layering perspective
Zhang et al. Joint communication and computation resource allocation in fog-based vehicular networks
Qi et al. Vehicular edge computing via deep reinforcement learning
Wu et al. High stable and accurate vehicle selection scheme based on federated edge learning in vehicular networks
Liu et al. Energy-efficient joint computation offloading and resource allocation strategy for isac-aided 6g v2x networks
Zheng et al. Digital twin empowered heterogeneous network selection in vehicular networks with knowledge transfer
Ma et al. Joint scheduling and resource allocation for efficiency-oriented distributed learning over vehicle platooning networks
Huang Quality of service optimization in wireless transmission of industrial Internet of Things for intelligent manufacturing
Gong et al. Bayesian optimization enhanced deep reinforcement learning for trajectory planning and network formation in multi-UAV networks
Li et al. Intelligent resource optimization for blockchain-enabled IoT in 6G via collective reinforcement learning
Wang et al. Energy-efficient and delay-guaranteed routing algorithm for software-defined wireless sensor networks: A cooperative deep reinforcement learning approach
Qiu et al. Maintaining links in the highly dynamic fanet using deep reinforcement learning
Shu et al. Optimal sampling rate assignment with dynamic route selection for real-time wireless sensor networks
Lv et al. Edge computing task offloading for environmental perception of autonomous vehicles in 6G networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant