CN113727306A

CN113727306A - 一种基于深度强化学习的解耦c-v2x网络切片方法

Info

Publication number: CN113727306A
Application number: CN202110934853.2A
Authority: CN
Inventors: 周海波; 李易凡; 余凯; 汤芷萱; 钱博
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-11-30
Anticipated expiration: 2041-08-16
Also published as: CN113727306B

Abstract

本发明公开了一种基于深度强化学习的解耦C‑V2X网络切片方法，基于两层异构网络HetNet在C‑V2X通信的动态RAN切片框架，在切片第一层中，采用深度强化学习SAC算法在宏基站MBS和微基站SBS之间分配带宽，实现V2I和RAC‑V2V之间的资源编排；采用云接入网络C‑RAN中的虚拟化方法在边缘云上聚合UL/DL带宽，满足V2I片和RAC‑V2V片的通信需求；在切片第二层中，将RAC‑V2V通信的QoS建模为一个绝对值优化问题，并采用ASRS算法进行求解，进一步将带宽分配给每个车辆用户；每个车辆用户都采用DL/UL解耦接入技术，并向相关的基站BS报告最低速率要求，边缘云采集不同切片的速率要求，SAC策略网络根据网络状态选择一个转移，即UL/DL带宽分配比，设计ASRS算法，为每一个车辆用户分配带宽。

Description

一种基于深度强化学习的解耦C-V2X网络切片方法

技术领域

本发明涉及车联网技术领域，主要涉及基于深度强化学习的解耦C-V2X网络切片方法。

背景技术

随着5G蜂窝网络的商业化应用的普及，C-V2X通信将在构造汽车和智能交通的未来中发挥关键作用。最近流行的3GPP Release 16支持更多的车辆服务，如自动驾驶、现代智能驾驶体验等。为了适应日益增长的交通流量需求，5G蜂窝网络已经由单层同质网络向多层异构网络(HetNets)转变。HetNets由覆盖范围广的大型基站(MBS)和大量的小型基站(SBS)组成。随着车辆网络密集化和移动数据使用的爆炸性增长，HetNet结构的最大挑战是用户关联，特别是对于具有高移动性和严格通信要求的C-V2X用户访问。目前，无线接入网(RAN)的上行(UL)和下行(DL)解耦接入的新方式出现，允许上行和下行的接入关联是不同的和灵活的。实践证明，UL/DL解耦接入可以明显降低UL用户的发送功率。除此之外，由于具有灵活的小区域关联，中断式上下行解耦模式在提高网络吞吐量、负载均衡、提高能量效率、消除干扰等方面显现出优势。C-V2X通信作为5G和超越网络的重要组成部分，研究UL/DL解耦接入对C-V2X通信的影响具有现实意义。

一般来说，C-V2X通信有两种重要的使用场景，即蜂窝车辆到基础设施(C-V2I，cellular vehicle-to-infrastructure)通信和中继辅助蜂窝车辆到车辆(RAC-V2V，relay-assisted cellular vehicle-to-vehicle)通信。由于C-V2X通信的不同需求，需求评判型车载应用已被公认为增强移动宽带(eMBB，enhanced mobile broadband)通信和超可靠低延迟通信(URLLC，ultra-reliable low latency communications)的重要5G场景。例如，C-V2I通信支持在车辆之间实时共享3D高清地图和其他丰富的媒体信息，RAC-V2V通信支持有超低延迟要求的更长距离安全相关的车辆应用。

目前，如何在密集异构的5G和超越网络的环境下，提供多样化需求的定制化C-V2X服务是一个挑战。RAN切片被认为是最有应用前途的网络架构创新技术之一，可以在5G和C-V2X之外提供具有差异化QoS要求的定制服务。此外，随着先进人工智能技术的快速发展，基于人工智能的RAN切片方法已成为能够有效解决低复杂度动态资源分配优化问题的极具应用前景的解决方案。

经过对现有文献的检索发现，与传统的UL/DL只能连接到一个特定的BS的用户关联场景不同，F.Boccardi等人在2016年发表的题为“Why to decouple the uplink anddownlink in cellular networks and how to do it(为何要解耦蜂窝网络上下行连接以及如何解耦)”的文章中提出的UL/DL解耦耦访问是近年来作为一种新的灵活的小区域关联模式出现的。解耦接入使移动用户可以访问不同的基站而显著提高UL传输吞吐量，以相对较低的成本提高能源效率，并对区域边缘用户的通信能力带来显著的提高。为了实现这些优势，M.A.Lema等人在2016年发表的题为“Flexible dual-connectivity spectrumaggregation for decoupled uplink and downlink access in 5G heterogeneoussystems(用于5G异构网络中的解耦上下行访问的灵活双连通性频谱聚合)”的文章中提出了如题所述的双连通性频谱聚合，M.Bacha在2017年发表的题为“Downlink and uplinkdecoupling in two-tier heterogeneous networks with multi-antenna basestations(具有多线基站的解耦UL/DL双层异构网络)”提出了如题所述的多天线基站的双层异构网络模型，M.Chen在2017年发表的题为“Echo state networks for self-organizing resource allocation in LTE-U with uplink-downlink decoupling(用于LTE-U的UL/DL解耦自组织资源分配的反馈状态网络”)文章中提出了在LTE-U中的反馈状态网络框架，在网络和用户状态信息有限的情况下选取最优频带。

经检索还发现，RAN切片的应用也在不断深入发展。网络切片是一种不断发展的资源分配概念，可以利用它来满足用户对5G无线通信的多样化需求。通过将基础网络划分为多个专用逻辑网络，无线网络可以支持多种个人用户业务。由于无线接入网的频谱资源稀缺，RAN切片在保证不同用户的QoS需求方面起着至关重要的作用，针对RAN切片的应用，Q.Ye等人在2018年发表的题为“Dynamic radio resource slicing for a two-tierheterogeneous wireless network(用于双层异构无线网络的动态资源切片)”的文章中提出了另一种凹搜索算法来最大化聚合网络的效用，V.Sciancalepore等人在2017年发表的题为“Mobile traffic forecasting for maximizing 5G network slicing resourceutilization(用于最大化5G网络切片资源利用率的移动交通流量预测方法)”的文章中针对三个关键的网络切片构建模块的设计，提出了基于测量偏差自适应的负载修改预测，实现了对网络切片发送请求的流量分析、网络切片预测和准入控制决策。

然而，由于车辆移动性带来的复杂、动态的网络环境，传统的车辆服务机制难以满足异构的车辆服务需求。K.Xiong等人在2019年发表的名为“Smart network slicing forvehicular fog-RANs(车载雾天无线接入网络智能切片)”的文章中将该问题建模为马尔可夫决策过程,提出了一种基于蒙特卡罗树的车载雾天无线接入网络智能切片调度算法。通过对多维网络资源的虚拟化和机器学习算法的设计,可以显著提高V2X车辆业务的QoS。此外，S.Zhang等人在2019年发表的名为“Air-ground integrated vehicular networkslicing with content pushing and caching(空地一体化车载网络切片)”提出了一种跨切片匹配多资源的组网切片方法。为了提高体验质量，H.Khan等人在2020年发表的名为“inhancing video streaminging vehicular networks via resource slicing”的文章中提出了一种联合质量选择和资源分配技术。通过利用聚类算法和李亚普诺夫漂移加惩罚方法，可以有效地实现低延迟、高可靠性的车载通信。

为了进一步提高无线通信资源分配的灵活性和能力，同时保证各种服务的QoS的要求，基于机器学习的智能分配机制在网络切片中得到了广泛研究。H.D.R.Albonda等人在2019年发表的名为“An efficient RAN slicing strategy for a heterogeneousnetwork with eMBB and V2X services(用于异质网络的高效RAN切片策略)”的文章中提出了一种高效的基于Deep-Q学习的RAN切片算法，保证频谱资源的利用率，并满足V2I和V2V片的QoS要求。此外，Y.Hua等人在2020年发表的名为“GAN-powered deep distributionalreinforcement learning for resource management in network slicing(用于网络切片资源配置的GaN驱动的分布式强化深度学习)”的文章中利用生成对抗网络对Deep Q网络进行学习，学习行为价值分布。上述无模型RL算法虽然取得了一定的效果，但以下两个瓶颈阻碍了它们在网络切片中的广泛应用。一方面，基于策略的RL算法，如信任区域策略优化(TRPO)和近端策略优化(PPO)需要更多的采样来计算梯度，而实际环境中大量的采样过程会带来很大的负担。另一方面。深度确定性策略梯度(deep deterministic policygradient，DDPG)等基于确定性策略的RL算法往往会导致很强的超参数敏感性和低采样效率。

综上所述，现有技术存在的问题是：(1)车辆流量过多地集中在主基站MBS上，极大地限制了车辆吞吐量的提升；(2)传统UL/DL规则下车辆用户上行(UL)传输功率过大；(3)用于网络切片智能分配机制的机器学习算法存在采样效率低，超参数敏感等问题，性能不足。解决上述技术问题的意义在于：基于目前无线通信技术的发展与无人驾驶技术的进步，显著提高基站负载均衡，降低C-V2X通信网络中的发射功率，在保证蜂窝V2X不同QoS的基础上，显著提高网络吞吐量。促进车联网领域通信技术及网络切片技术的应用与发展。

发明内容

发明目的：针对上述背景技术中存在的问题，本发明在保证不同QoS需求的基础上提供了一种基于深度强化学习的解耦C-V2X网络切片方法。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于深度强化学习的解耦C-V2X网络切片方法，包括以下步骤：

步骤S1、在切片第一层中，采用深度强化学习SAC算法在宏基站MBS和微基站SBS之间分配带宽，实现V2I和RAC-V2V之间的资源编排；采用云接入网络C-RAN中的虚拟化方法在边缘云上聚合UL/DL带宽，满足V2I片和RAC-V2V片的通信需求；其中UL代表上行，DL代表下行；

步骤S2、在切片第二层中，将RAC-V2V通信的QoS建模为一个绝对值优化问题，并采用ASRS算法进行求解，进一步将带宽分配给每个车辆用户；每个车辆用户都采用DL/UL解耦接入技术，并向相关的基站BS报告最低速率要求，边缘云采集不同切片的速率要求，SAC策略网络根据网络状态选择一个转移，即UL/DL带宽分配比，设计ASRS算法，为每一个车辆用户分配带宽；

其中，UL/DL的RAC-V2V用户可以独立连接至MBS或SBS。

进一步地，在所述动态RAN切片框架中，用M和b分别代表MBS和SBS，其中b∈{1,···,b,···,B}，

和Φ_b代表车辆用户相关的组，UL和DL整体的带宽用W^UL和W^DL来表示；分配给宏节点M的带宽用β_fW^f表示，分配给微节点b的带宽用(1-β_f)W^f表示，其中f∈{UL,DL}；通过确定最优切片比β^* _UL和β^* _DL最大化带宽利用率；保证V2I和RAC-V2V片的不同QoS车辆用户有两种，一种是下行(DL)V2I用户H＝{1,···,h,···H}，另一种是RAC-V2V用户D＝{1,···,d,···D}；

对于V2I通信，BS到V2I用户的数据包传输速率为λ_h包/秒，每个数据包的长度恒为L_h比特；对于RAC-V2V通信将RAC-V2V车辆用户UL和DL数据包送达的过程建模为泊松过程，定义相同的平均传输速率λ_d包/秒，数据包长度为L_d比特；在解耦场景下，车载用户选择距离最近的BS作为UL服务提供点，选择接受功率最大的BS作为DL服务提供点，

对于连接到UL的l节点典型车辆用户i∈{H,D}，距离是x_i,l，

当且仅当：

对于连接到DL的l节点的用户，距离是x_i,l，当且仅当：

其中，G_k、α_k分别为接入BS k的用户i的天线增益和路径损耗常数。h_i,M和

分别表示连接到宏节点的用户的UL/DL发射功率和MBS的发射功率；

依次表示连接到微节点的用户的UL/DL发射功率和SBS的发射功率；

车辆用户连接到宏节点的信道信噪比SNR表示为：

由于通信内的干扰，车辆用户与微节点之间的信道SINR表示为：

其中σ²是附加的高斯白噪声功率，

和

分别代表UL和DL上SBS间的干扰；每个单元的负载由与同一BS相关联的设备数量和相应用户的可实现率决定；

采用矩阵

和

分别表示UL和DL中MBS和SBS相关的全带宽Shannon容量；给定每个BS的UL带宽时，每个用户

的Shannon容量表示如下：

相应的，给定每个BS的DL带宽时，每个用户

的Shannon容量表示为：

其中i∈{1,L,H},j∈{1,L,1+B}分别表示矩阵的行和列；

基于最优资源分配策略，针对RAC-V2V通信，采用有效带宽理论，得到在给定用户端数据到达分布和时延约束下的最低服务速率。

进一步地，采用马尔科夫决策过程MDP描述所述两层切片框架中的学习、存储、更新的过程；通过表示切片控制器的状态转移和返回，得到可观察的MDP模型；具体如下：

通过切片控制器与无线网络环境的动态交互，推导出元组：

其中

表示状态集合，

表示一组可能的操作。P定义为状态转移的概率；采用无模型的深度强化学习算法处理可完整观察到的MDP问题；将r(s,a)表示为在特定状态s下采取行为a的奖励；该行为将进一步返回给网络片控制器；具体地，

状态：将微状态s表示为一个元组：{Γ,Y,r}，其中Γ表示分配给V2I和RAC-V2V切片的带宽，Y表示不同切片的总带宽需求，r表示奖励。

行为：在某一状态下，DRL agent执行一个行为a＝{β_UL,β_DL}。其中β_UL和β_DL限制为[0,1]。

奖励：状态转移奖励表示为r∈R(s,a)；其中RAC-V2V通信下的的奖励包括效用函数和QoS，表示如下：

其中A、B、P、Q矩阵维数是相同的，由i行，j列组成；i代表车辆，j代表基站；矩阵

和

分别表示UL/DL车辆用户在将全带宽分配给相关BS时的容量，矩阵

和

分别表示每个用户的UL/DL带宽切片比率；

首先，边缘云节点采集不同切片的速率要求；之后SAC中的策略网络根据网络状态选择行为，即UL/DL带宽分配比率；接着，设计ASRS算法为每个用户分配带宽；当分配完成时，奖励和新的状态将会进入重放缓冲区。

进一步地，提出一种基于Actor-Critic框架的SAC算法，以策略迭代和最大熵和状态值的联合奖赏为基础，处理连续转移空间问题；具体地，

传统的RL算法的目标是根据策略π(a|s)来最大化长期期望奖励：

在传统RL算法的长期奖励中加入了熵，

其中参数α是温度指数，表示熵对于奖励的相对重要性；α的值越大，想得到的随机行为就越多，否则，学到的有效行为将会越少；

表示s状态下的作用熵，因此可以进一步表示为:

在软迭代的策略评价步骤中，通过上式中最大熵目标计算策略π的值；对于一个固定的策略，软Q函数可以迭代计算，从任何函数Q开始，重复应用改进的Bellman备份算子

其中软值函数可以从Bellman备份算子中得到，表示为：

下面通过定理1-2，详细描述；其中定理1证明通过贝尔曼算子Q函数可以收敛到最优解；定理2是证明通过交替优化SAC中的策略网络和critic部分(包含两张Q值网络和2张价值网络)，策略可以逐渐收敛到最优。

定理1：给定策略π，当任何状态下的行为奖励是有限的，序列Q^k可以收敛到软Q函数,其中

对于连续状态转移空间中的Actor-Critic算法，轮流运行actor和critic，直到融合。采用深度神经网络DNN分别拟合Critic网络和Actor网络，然后采用随机梯度下降法交替更新两个网络中的参数；

用V(s)≈V_ψ(s)和

参数化价值网络，即评估网络ψ和目标网络

通过最小化均方误差L_V(ψ)的训练更新价值网络：

神经网络参数更新所需的参数来自重放记忆D，其中

是采样状态和行为的分布。上式的梯度采用无偏差估计量估计如下：

评估网络的参数通过下式来更新：

其中参数

是评估网络的学习率。

利用双深度Q-learning中的软深度网络参数更新方法，推导出目标网络更新公式：

其中参数τ∈[0,1]，为目标价值网络的更新权值；参数为θ₁和θ₂的两个Q网络负责评价状态-行为。根据当前策略对行为进行采样。软Q函数参数可以训练到最小的平方误差，

其中

是s_t+1的目标状态值；MSE损失L_Q(θ)用随机梯度进行优化如下：

由下式更新Q网络参数θ_i，i∈{1,2}：

其中参数

是价值评估网络的学习率。

策略网络(SAC网络的一部分)负责输出连续行为的高斯均值和方差；在策略改进步骤中，对于每个状态，将策略更新到新的Q函数的指数，利用KL-divergence来预测高斯分布的参数策略；软策略迭代算法在软策略评估和软策略改进之间交替进行；策略参数直接通过最小化KL-divergence期望来学习：

目标密度是Q函数，由一个神经网络表示，可以微分；函数

是归一化分布函数，它对梯度没有贡献，可以忽略；使用神经网络重新变换参数化策略如下：

a_t＝f_φ(∈_t；s_t),

其中∈_t是输入噪声向量，采样来自高斯固定分布；使用重新参数化技巧，将L_π(φ)改写如下：

其中π_φ是由f_φ隐形定义的，

忽略，用下式来估计L_π(φ)梯度：

为了最小化L_π(φ),得到策略网络的参数更新等式为：

参数

是策略网络的学习率。

定理2：给定策略π∈Π，状态转移的价值是有限的；交替更新critic网络和policy网络，策略π将收敛于最优π*，表示为：

进一步地，为每一个车辆用户分配带宽的ASRS算法具体如下：

在ASRS算法的循环之前，通过计算每个车辆用户的最小通信速率，获取初始带宽分配矩阵

每个上行用户的最小带宽需求表示为：

下行用户的最小带宽需求

表示为：

由此得到第j个基站的最小上行带宽要求

相似的，第j个基站的最小下行带宽要求是

将RAC-V2V通信的QoS度量用公式表达为：

|R^UL-R^DL|.

其中，变量R^UL和R^DL分别表示UL/DL下的可到达率；用1表示车辆用户已经与相应的BS建立了连接，0表示没有与BS建立连接；将UL和DL关联矩阵分别表示为：

其中矩阵

和

的行数和列数分别代表车辆数和基站数；

单位向量e＝[1,…,1]^T；用

和

分别表示UL和DL的切片比率矩阵；

表示为：

矩阵每一列的和

都等于1；

为每一个车辆用户分配带宽，目标是最小化RAC-V2V通信的QoS度量；目标函数及其约束条件表述如下：

令Γ与目标函数相等，所述优化问题等价地转化为：

Γ≥0.(i)

利用块协调下降算法，设计ASRS算法，即固定矩阵

得到最优

然后利用

计算最优

在ASRS的每个迭代循环中，需要固定一个变量来求解另一个变量，将优化问题转化为两个线性规划问题；在每次迭代中，首先固定矩阵

来求解最优矩阵

因此子问题描述为：

s.t.b，d-h

求解问题后得到最优矩阵

基于循环特性，下一次迭代中使用最优

来求解最优

另一子问题表示为：

s.t.a,c,e–h

通过循环计算，每次迭代需要解决两个子问题，如下式所示：

有益效果：

首先，本发明提供的C-V2X切片方法保证了V2I和RAC-V2V片不同QoS要求，在保证RAC-V2V通信稳定性和严格时延约束的同时，最大限度地提升了网络容量；其次，有效降低了车辆用户发射功率，通过灵活的关联模式，更多的车辆选择访问SBS，可以减轻MBS的沉重负担；再次，提出了一种针对RAC-V2V通信的创新性度量，并设计了一种基于ASRS算法进行求解其最小化问题。

附图说明

图1是本发明实施例所采用的解耦接入的RAN切片结构示意图。

图2是本发明实施例所采用的用于C-V2X的双层RAN切片结构示意图。

图3是本发明实施例所采用的双层RAN切片过程示意图。

图4是本发明实施例所采用的算法1逻辑框图。

图5是本发明实施例所采用的算法2逻辑框图。

具体实施方式

下面结合附图提供一份具体实施例，对本发明作更进一步的说明。

本实施例采用了图1的两层切片结构，设计了一个基于两层HetNet的C-V2X通信的动态RAN切片框架。在解耦规则下,UL和DL RAC-V2V用户可以自由地独立连接到MBS或SBS。图1中一般有三种不同的UL/DL关联情况(即通过一个或两个基站实现两跳RAC-V2V通信)。在情况2和3中,两跳中继可以通过一个基站实现。而在情况1中，通过与两个基站建立UL/DL连接实现的中继应由BS之间的接口支持。MBS与SBS之间的通信可由标准化的X2接口实现，数据将通过公共无线接口转发到另一个BS。具体来说,在切片框架中，本实施例同时考虑V2I和RAC-V2V切片。同时，利用云RAN(C-RAN)技术在边缘云上聚合UL/DL带宽。由于V2I片和RAC-V2V片的通信需求不同，本发明设计了一种两层带宽切片算法，在满足不同片不同QoS要求的同时最大化总容量。

如图1所示，在切片第一层，采用深度强化学习SAC算法在宏基站MBS和微基站SBS之间分配带宽，实现V2I和RAC-V2V之间的资源编排；采用云接入网络C-RAN中的虚拟化方法在边缘云上聚合UL/DL带宽，满足V2I片和RAC-V2V片的通信需求；其中UL代表上行，DL代表下行。在第二层，将RAC-V2V通信的QoS建模为一个绝对值优化问题，并采用ASRS算法进行求解，进一步将带宽分配给每个车辆用户；每个车辆用户都采用DL/UL解耦接入技术，并向相关的基站BS报告最低速率要求，边缘云采集不同切片的速率要求，SAC策略网络根据网络状态选择一个转移，即UL/DL带宽分配比，设计ASRS算法，为每一个车辆用户分配带宽。

在动态RAN切片框架中，用M和b分别代表MBS和SBS，其中b∈{1,···,b,···,B}，

和Φ_b代表车辆用户相关的组，UL和DL整体的带宽用W^UL和W^DL来表示；分配给宏节点M的带宽用β_f W^f表示，分配给微节点b的带宽用(1-β_f)W^f表示，其中f∈{UL,DL}；通过确定最优切片比β*_UL和β*_DL最大化带宽利用率；保证V2I和RAC-V2V片的不同QoS车辆用户有两种，一种是下行(DL)V2I用户H＝{1,···,h,···H}，另一种是RAC-V2V用户D＝{1,···,d,···D}；

本实施例考虑负责上下行的基站端和用户端的队列，分析来自不同车辆用户的数据包流的不同QoS需求。BS到V2I用户的数据包传输速率为λ_h包/秒，每个数据包的长度恒为L_h比特。而对于RAC-V2V通信，考虑其严格的时延要求和连接的不稳定性，本实施例将RAC-V2V车辆用户UL和DL数据包送达的过程建模为泊松过程，定义相同的平均传输速率λ_d包/秒，数据包长度为L_d比特。

假设所有车辆用户都配备了一个天线。传统的UL/DL接入是基于最大平均接收信号功率(RSP)。但在解耦场景下，车载用户选择距离最近的BS作为UL服务提供点，而DL用户选择接收功率最大的BS。

对于连接到UL的l节点典型车辆用户i∈{H,D}，距离是x_i,l，

当且仅当：

对于连接到DL的l节点的用户，距离是x_i,l，当且仅当：

车辆用户连接到宏节点的信道信噪比SNR表示为：

其中σ²是附加的高斯白噪声功率，

和

采用矩阵

和

的Shannon容量表示如下：

相应的，给定每个BS的DL带宽时，每个用户

的Shannon容量表示为：

其中i∈{1,L,H},j∈{1,L,1+B}分别表示矩阵的行和列；

对于RAC-V2V的有效带宽理论，可由大偏差理论推导得到。有效带宽理论表示在给定源流数据速率的时延约束下的最低服务率，该理论常用于获得最优的资源分配策略。本实施例认为可以计算数据包从到达到离开之间的端到端延迟，例如数据包在用户端或基站端生成，然后到它的目的地。对于两跳RAC-V2V通信，为简化问题公式，本实施例考虑中继的上行和下行数据包均为泊松到达，且有效带宽相同。因此，本实施例可以推导出RAC-V2V通信满足时延冲突概率的最小传输速率。

首先表示QoS指数。RAC-V2V通信的有效带宽可以表示为：

其中O(t)表示RAC-V2V通信中在时间[0,t)内到达的数据包数，E[·]表示期望。由于O(t)被建模为λ^f _d包/秒的泊松过程，有效带宽可以被进一步地表示为：

数据包从发送端基站/车辆用户l发送到接收端基站/车辆用户i的总传输延时

超过最大传输延时

的概率可以拟合为：

其中ε表示超出传输延迟约束的概率，

是从V2V用户i到基站l的有效到达率(在每秒传输数据包数量约束下)，最小可实现的速率p^min是：

根据有效带宽理论，p^min应与有效带宽

相等来确保延迟冲突概率不超过ε。所以可以得到

进而RAC-V2V通信的最小传输速率可表示为：

对于两层RAN切片的马尔科夫模型，学习、存储和更新的详细过程如图3所示。可以描述为马尔可夫决策过程(MDP)。本实施例表示出切片控制器的状态、行为、状态转移和返回，从而得到完整可观察的MDP模型。具体如下：

通过切片控制器与无线网络环境的动态交互，推导出元组：

其中

表示状态集合，

和

和

分别表示每个用户的UL/DL带宽切片比率；

基站带宽分配的SAC算法是一种典型的无模型算法，在处理连续状态转移的情况下表现不佳。由于将行为离散化将导致行为数量的指数级增长，并且一些用于解决问题的重要信息可能会丢失。因此，本实施例提出了一种基于Actor-Critic框架的SAC算法。SAC算法的采用有以下三个优点：

1)基于策略迭代，可以处理连续行动空间问题；

2)基于最大熵和状态值的联合奖励可以有效地探索出更多的优秀行为，使其具有更强的探索能力；

3)SAC克服了大量采样带来的复杂性和超参数(如学习率、探索常数)强化学习敏感性。

为了学习更有效的行为，本实施例在传统RL算法的长期奖励中加入了熵，

表示s状态下的作用熵，因此可以进一步表示为:

其中软值函数可以从Bellman备份算子中得到，表示为：

下面通过定理1-2，详细描述；

用V(s)≈V_ψ(s)和

参数化价值网络，即评估网络ψ和目标网络

通过最小化均方误差L_V(ψ)的训练更新价值网络：

神经网络参数更新所需的参数来自重放记忆D，其中

评估网络的参数通过下式来更新：

其中参数

是评估网络的学习率。

其中

由下式更新Q网络参数θ_i，i∈{1,2}：

其中参数

是价值评估网络的学习率。

策略网络负责输出连续行为的高斯均值和方差；在策略改进步骤中，对于每个状态，将策略更新到新的Q函数的指数，利用KL-divergence来预测高斯分布的参数策略；软策略迭代算法在软策略评估和软策略改进之间交替进行；策略参数直接通过最小化KL-divergence期望来学习：

目标密度是Q函数，由一个神经网络表示，可以微分；函数

a_t＝f_φ(∈_t；s_t),

其中π_φ是由f_φ隐形定义的，

忽略，用下式来估计L_π(φ)梯度：

为了最小化L_π(φ),得到策略网络的参数更新等式为：

参数

是策略网络的学习率。

对于为车辆用户分配频谱带宽的ASRS算法：在RAC-V2V通信中，UL和DL分别与不同的BSs独立关联。但是，由于通信车辆需要交换安全相关的信息，通过利用RAC-V2V，其通信的发送方和接收方的角色是不断的交换以完成可逆的交互通信。一般情况下，RAC-V2V蜂窝用户的UL和DL会话是耦合的，以完成双向信息交换。为了保证系统的稳定性和严格的延迟约束要求，必须同时考虑UL/DL资源分配。UL/DL中RAC-V2V发射端和接收端之间的双向安全相关数据和信息流一般是对称流量。因此，RAC-V2V通信需要在UL和DL中进行对称的资源分配

因此，本实施例可以将RAC-V2V通信的QoS度量用公式表达为：

|R^UL-R^DL|.

其中矩阵

和

的行数和列数分别代表车辆数和基站数；

单位向量e＝[1,…,1]^T；用

和

分别表示UL和DL的切片比率矩阵；

表示为：

矩阵每一列的和

都等于1；

令Γ与目标函数相等，所述优化问题等价地转化为：

Γ≥0. (i)

利用块协调下降算法，设计ASRS算法，即固定矩阵

得到最优

然后利用

计算最优

来求解最优矩阵

因此子问题描述为：

s.t.b，d-h

求解问题后得到最优矩阵

基于循环特性，下一次迭代中使用最优

来求解最优

另一子问题表示为：

s.t.a,c,e–h

每个上行用户的最小带宽需求表示为：

下行用户的最小带宽需求

表示为：

由此得到第j个基站的最小上行带宽要求

相似的，第j个基站的最小下行带宽要求是

如图5所示，算法2描述了ASRS算法，负责及时的资源分配。本发明设计了一种启发式初始带宽分配方法，可以找到最合适的迭代初始测试矩阵

在重复迭代过程中，首先确定一个矩阵

并找到最优目标函数Γ和最优矩阵

然后利用最优矩阵

找到最优矩阵

和最优目标函数Γ。

在以上结果的基础上，本实施例提出了迭代算法ASRS，采用块协调下降法，也称为交替优化法。具体而言，将原问题中的整个优化变量划分为两个变量块，即

然后上行频谱带宽调度比率

和下行频谱调度比率

交替优化，分别求解问题，同时保持另一个变量块不变，并将每次迭代得到的解作为下一次迭代的输入。值得指出的是，在经典的块协调下降法中，更新每个变量块的子问题需要在每次迭代中都解决到精确最优解，以保证收敛。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的解耦C-V2X网络切片方法，其特征在于，包括以下步骤：

基于两层异构网络HetNet在C-V2X通信的动态RAN切片框架，进行如下切片：

其中，UL/DL的RAC-V2V用户可以独立连接至MBS或SBS。

2.根据权利要求1所述的一种基于深度强化学习的解耦C-V2X网络切片方法，其特征在于，在所述动态RAN切片框架中，用M和b分别代表MBS和SBS，其中b∈{1,···,b,···,B}，

对于连接到UL的l节点典型车辆用户i∈{H,D}，距离是

当且仅当：

对于连接到DL的l节点的用户，距离是x_i,l，当且仅当：

车辆用户连接到宏节点的信道信噪比SNR表示为：

其中σ²是附加的高斯白噪声功率，

和

采用矩阵

和

的Shannon容量表示如下：

相应的，给定每个BS的DL带宽时，每个用户

的Shannon容量表示为：

其中i∈{1,L,H},j∈{1,L,1+B}分别表示矩阵的行和列；

3.根据权利要求1所述的一种基于深度强化学习的解耦C-V2X网络切片方法，其特征在于，采用马尔科夫决策过程MDP描述所述两层切片框架中的学习、存储、更新的过程；通过表示切片控制器的状态转移和返回，得到可观察的MDP模型；具体如下：

通过切片控制器与无线网络环境的动态交互，推导出元组：

其中

表示状态集合，

和

和

分别表示每个用户的UL/DL带宽切片比率；

4.根据权利要求3所述的一种基于深度强化学习的解耦C-V2X网络切片方法，其特征在于，提出一种基于Actor-Critic框架的SAC算法，以策略迭代和最大熵和状态值的联合奖赏为基础，处理连续转移空间问题；具体地，

在传统RL算法的长期奖励中加入了熵，

表示s状态下的作用熵，因此可以进一步表示为:

在软迭代的策略评价步骤中，通过上式中最大熵目标计算策略π的值；对于一个固定的策略，软Q函数可以迭代计算，从任何函数Q开始，重复应用改进的Bellman备份算子F^π

其中软值函数可以从Bellman备份算子中得到，表示为：

下面提供定理1-2，其中定理1证明通过贝尔曼算子Q函数可以收敛到最优解；

定理2证明通过交替优化SAC中的策略网络和critic部分，策略可以逐渐收敛到最优。

定理1：给定策略π，当任何状态下的行为奖励是有限的，序列Q^k可以收敛到软Q函数,其中Q^k+1＝F^πQ^k；对于连续状态转移空间中的Actor-Critic算法，轮流运行actor和critic，直到融合。采用深度神经网络DNN分别拟合Critic网络和Actor网络，然后采用随机梯度下降法交替更新两个网络中的参数；

用V(s)≈V_ψ(s)和