CN116017736A

CN116017736A - 一种用于服务化无线接入网的资源分配方法

Info

Publication number: CN116017736A
Application number: CN202211475526.6A
Authority: CN
Inventors: 赵力强; 赵晓雪; 梁凯; 郑兴运
Original assignee: Xidian University; Guangzhou Institute of Technology of Xidian University
Current assignee: Xidian University; Guangzhou Institute of Technology of Xidian University
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-04-25

Abstract

本发明提供的一种用于服务化无线接入网的资源分配方法，通过获取在当前时刻不同切片的性能指标以及切片状态；根据联合不同切片的性能指标以及基站的计算资源成本，构建系统传输数据的累积效用函数；对系统累积效用函数进行最大化约束，获得优化目标；将切片状态输入至训练好的DDQN算法网络中，以使训练好的DDQN算法网络对优化目标进行求解，获得奖励最大时的动作以及该动作对应的带宽分配策略；按照带宽分配策略为eMBB切片和URLLC切片内的用户分配带宽资源。本发明在保证不同服务QoS同时联合考虑计算资源成本，因此本发明可行性较高，可以在满足用户QoS的基础上实现更高的带宽利用率和更低的计算能耗。

Description

一种用于服务化无线接入网的资源分配方法

技术领域

本发明属于网络资源分配技术领域，具体涉及一种用于服务化无线接入网的资源分配方法。

背景技术

面对数据流量急剧增长和服务类型日益多样化以及严格的QoS要求，研究灵活的动态资源分配方案变得至关重要。因此目前对无线接入网(Radio Access Network，RAN)的研究主要集中在资源的动态分配。在服务化RAN系统中引入RAN切片技术，针对该场景研究无线资源分配方案，以支撑服务化RAN的资源灵活配置。传统优化算法存在长期优化目标计算复杂、求解困难的问题。

目前大多数资源分配方案是基于优化目标和约束进行数学方法上的求最优解，适用于静态的或者瞬时问题的求解中。但是对优化目标的分析可知，无线接入网的资源分配问题已经建模为一个动态决策问题，这会使得优化函数过于复杂，很难得出最优解。

现有技术提出的一种基于动态智能资源分配的无线接入网切片延迟和吞吐量的权衡分析方法，以满足智能电网场景下不同业务的不同需求，该方案基于eMBB切片的吞吐量需求和URLLC切片的用户时延约束建立模型，在保证URLLC切片的用户时延的同时最大化eMBB切片的吞吐量。该方案考虑了切片的不同需求，然而该方案切片的计算资源部署成本巨大。

现有技术提出另一种基于离线强化学习和低复杂度启发式算法的高效RAN切片方案，该方案将无线资源分配给不同的切片，目标是最大化资源利用率的同时满足每个RAN切片的流量需求，该方案思想是根据速率定义QoS，而实际环境中服务多种多样，此种满足单一服务的某种需求的方案并不适用。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种用于服务化无线接入网的资源分配方法。本发明要解决的技术问题通过以下技术方案实现：

本发明提供的一种用于服务化无线接入网的资源分配方法包括：

步骤1：获取在当前时刻不同切片的性能指标以及切片状态；

其中，所述切片包括eMBB切片和URLLC切片，每个切片内有多个用户；

步骤2：根据联合不同切片的性能指标以及基站的计算资源成本，构建系统传输数据的系统累积效用函数；

步骤3：对所述系统累积效用函数进行最大化约束，获得优化目标；

步骤4：将所述切片状态输入至训练好的DDQN算法网络中，以使训练好的DDQN算法网络对所述优化目标进行求解，获得奖励最大时的动作以及该动作对应的带宽分配策略；

步骤5：按照所述带宽分配策略为eMBB切片和URLLC切片内的用户分配带宽资源。

本发明提供的一种用于服务化无线接入网的资源分配方法，通过获取在当前时刻不同切片的性能指标以及切片状态；根据联合不同切片的性能指标以及基站的计算资源成本，构建系统传输数据的累积效用函数；对系统累积效用函数进行最大化约束，获得优化目标；将切片状态输入至训练好的DDQN算法网络中，以使训练好的DDQN算法网络对所述优化目标进行求解，获得奖励最大时的动作以及该动作对应的带宽分配策略；按照带宽分配策略为eMBB切片和URLLC切片内的用户分配带宽资源。本发明在保证不同服务QoS同时联合考虑计算资源成本，因此本发明可行性较高，可以在满足用户QoS的基础上实现更高的带宽利用率和更低的计算能耗。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明提供的一种用于服务化无线接入网的资源分配方法的流程示意图；

图2是本发明提供的无线网络切片模型示意图；

图3是本发明提供的基于DDQN算法的服务化RAN无线资源分配方案模型图；

图4是本发明提供的带宽利用率对比图；

图5是本发明提供的计算能耗对比图；

图6是本发明提供的eMBB切片QoS满意度对比图；

图7是本发明提供的URLLC切片QoS满意度对比图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

为了能够在保证每个服务的Qos同时，尽可能地降低部署计算资源成本，本发明提出了一种用于服务化RAN的无线资源分配方法，思想在于将eMBB(enhanced MobileBroadband)业务的速率、URLLC(Ultra-Reliable Low-Latency Comunications)业务的时延收益和基站计算资源成本的加权和定义为效用函数，构建了网络切片效用函数最大化问题；将用户分配的无线资源不超过总带宽资源、URLLC切片速率不小于速率下限和eMBB切片处理时延不大于处理时延上限定义为约束条件；将无线资源分配决策过程建模为马尔可夫决策过程(Markov Decision Process,MDP)，采用双深度Q网络(Double Deep Q Network，DDQN)算法来求解，结合约束条件将系统效用函数变形作为奖励，在一个物理网络上动态分配有限的时频资源实现最大化累积奖励。

下面详细介绍本发明提供的一种用于服务化无线接入网的资源分配方法的具体过程。

如图1所示，本发明提供的一种用于服务化无线接入网的资源分配方法包括：

步骤1：获取在当前时刻不同切片的性能指标以及切片状态；

其中，所述切片包括eMBB切片和URLLC切片，每个切片内有多个用户；所述性能指标包括：基站中t时刻子带宽i是否分配给切片k的变量；基站在子带宽i上的发射功率；切片k的信道增益系数；切片k在时刻t存储待发送数据包队列buffer的第一个数据包大小为δ_k()；当数据包到来没有被立即传输则在buffer中等待，数据包在buffer中等待的时间

同一个切片的数据包编码时间

基于图2所示的系统模型，假设一个用户只请求一种类型业务，优化目标是以尽量少的计算资源获得切片的更高QoS收益，不同切片的QoS要求不同，其中eMBB切片对吞吐量要求较高，以吞吐量为QoS指标；URLLC切片对时延要求比较高，以处理时延为QoS指标。假设切片之间存在带宽资源隔离，也就是两个切片的带宽资源不会重叠，因此切片之间没有干扰。每个用户只接入一个切片，切片k内有M个用户，在当前时刻t下eMBB切片和URLLC切片获得的带宽分别为b₁()和b₂()；切片的带宽资源平均分配给切片内的M个用户，则用户的带宽为：

其中，

为切片k内的用户d在时刻t的带宽。

步骤2：根据联合不同切片的性能指标以及基站的计算资源成本，构建系统传输数据的累积效用函数；

步骤2包括：

步骤21：根据性能指标，计算切片k在时刻t的数据传输速率θ_k(t)；

步骤22：根据第一个数据包大小δ_k()，计算传输该数据包的传输时间

步骤23：根据传输时间

数据包在buffer中等待的时间

以及同一个切片的数据包的编码时间

计算数据包处理时间τ_k()；

步骤24：获取基站的计算资源c(t)；

步骤25：根据切片k在时刻t的数据传输速率θ_k(t)、数据包处理时间τ_k()以及基站的计算资源c(t)，构建系统传输数据的累积效用函数。

根据香农公式切片k在时刻t的数据传输速率θ_k(t)如下：

其中，a_i,k()是表示基站中t时刻子带宽i是否分配给切片k的变量，a_i,k(t)＝{0,1}；p_i()为t时刻基站在子带宽i上的发射功率；h_k()为t时刻切片k的信道增益系数；σ²为加性高斯白噪声的功率谱密度；

基站的发射功率系统部署后恒定，总功率为P，且平均分配给每个子带宽，即p_i(t)＝/N，代入(2)式则切片k在时刻t的数据传输速率θ_k(t)如下式：

每次分配资源只处理用户的一个数据包，切片内用户的其余数据包在buffer等待，切片k在时刻t存储待发送数据包队列buffer的第一个数据包大小为δ_k()，则该数据包的传输时间

如下式：

当数据包到来没有被立即传输则在buffer中等待，数据包在buffer中等待的时间为

同一个切片的数据包编码时间相同，编码时间为

则该数据包处理时间τ_k()如下式：

本发明考虑的计算资源为BBU软件单元部分进行数字部分处理和编解码的计算资源，基站的计算资源c(t)具体关系表达式如下式：

其中，ξ是计算资源的权重系数，A为天线数量，B为基站带宽(单位为MHz)，θ(t)为基站速率，单位为Mbps，计算资源c(t)单位为每秒十亿次操作(Giga Operations PerSecond,GOPS)，ζ是计算资源的偏置系数。

在时刻t基站BBU软件单元的计算资源c(t)表达式如下式：

本发明的优化目标为尽量获取用户高QoS的同时减少计算资源消耗，因此系统效用函数U(t)为基站两种切片的QoS收益与计算资源成本的加权和，如下式：

其中，q₁(t)＝₁(t)-_1,(t)为eMBB切片的速率收益函数，α₁为吞吐量的增益系数，θ₁(t)为t时刻eMBB切片数据包的实际观测吞吐量，θ_1,h(t)为t时刻eMBB切片数据包的吞吐量下限；q₂(t)＝₂(τ_2,(t)-₂(t))为URLLC切片的时延收益，α₂为时延的增益系数，τ₂(t)为t时刻URLLC切片数据包的实际处理时延，τ_2,(t)为t时刻URLLC切片数据包的处理时延上限；β为计算成本系数。

具体的，本发明的步骤3包括：

步骤31：利用约束条件对所述系统累积效用函数进行约束；

其中，约束条件包括：约束C1、约束C2、约束C3以及约束C4；约束C1保证分配的带宽为整数个子带宽，约束C2保证分配给两个切片的带宽不超过基站的总带宽，约束C3保证URLLC切片t时刻数据包的速率不小于速率下限，约束C4保证eMBB切片t时刻数据包的处理时延不大于处理时延上限；

步骤32：将最大化系统累积效用函数作为优化目标；

其中，优化目标为：

其中，s.t表示约束，b表示子带宽，n等份子带宽为

本发明训练好的DDQN算法网络的训练过程如下：

步骤51：初始化经验池初始化经验池D的容量为N，初始化DDQN算法网络Q及网络参数ω^-＝；

步骤52：针对第i轮迭代，取切片缓冲器buffer的第一个数据包的数据组成状态s；

步骤53：随机产生一个概率p；

步骤54：如果p≤e，则随机选取一个动作a∈A，否则将状态s输入到DDQN算法网络Q得到动作a；

步骤55：系统执行动作a，根据系统的QoS和公式(12)得出奖励r；

步骤56：从切片缓冲器buffer取下一个数据包的数据组成状态s^-

步骤57：将四元组数据(s,,,^-)存储到经验池D中；

其中，经验池中包括n个样本，每个样本为一组四元组数据，每个四元组数据包括t时刻的状态、t时刻的动作、t时刻下DDQN算法网络Q的奖励以及t+1时刻的状态组成；

步骤58：如果经验池D存满，则在经验池D中随机采样n组样本来进行网络参数更新；

步骤59：根据DDQN算法网络Q的实际动作与选择动作估计计算损失函数

步骤60：对损失函数关于Q网络神经网络参数ω计算梯度，利用Adam优化器更新参数；

步骤61：i+1返回步骤52直至i达到迭代次数。

本发明对优化目标的分析可知，无线接入网的资源分配问题已经建模为一个动态决策问题，采用DDQN算法来构建无线接入网切片的无线资源分配方案。

图3是采用的DDQN算法的无线资源方案模型图。本发明将DDQN算法部署在服务化RAN控制面服务器上，DDQN Agent从SMF的周期性统计RAN用户面状态信息中获取状态信息作为算法的状态。然后DDQN Agent根据输入的状态采取无线资源分配决策，即算法的动作。接下来将资源分配决策发送PCF进行无线资源分配的策略配置，然后下发至RCF进行资源策略的解析和执行，实现在RAN用户面应用无线资源分配方案。用户使用分配的资源处理、传输数据后，进入下一状态，根据QAF分析的QoS数据得到该动作对应的奖励。接着将新的状态输入至DDQN算法，如此往复，在算法可以稳定获得较高奖励时结束训练迭代过程并得到最终模型，即基于DDQN算法的服务化RAN无线资源分配方案模型。

本发明中，将在当前时刻t切片k的状态定义如下：

其中k＝{1,2}，分别代表了eMBB和URLLC切片；δ_k(t)为在时刻t切片k的buffer中第一个数据包的大小，buffer中第一个数据包即为当前待发送的数据包；τ_k(t)为在时刻t切片k的buffer中第一个数据包的最高容忍时延；χ_k(t)为在时刻t切片k的buffer中待发送数据包的数量；θ_k(t)为在时刻t切片k的buffer中第一个数据包的最低传输速率；

为在时刻t切片k的buffer中第一个数据包的等待处理时间；h_k(t)为在时刻t切片k的信道增益系数；B为基站的总带宽；N是子带宽数量；p是基站的总功率，状态是一个6*+3维的向量；

在时刻t动作具体定义如下：

A(t)＝{b₁(t),₂(t)}(11)

其中b₁(t)表示t时刻的eMBB切片的带宽，b₂(t)表示t时刻的eMBB切片的带宽，并且只能由一个或多个子带宽组成，在时刻t切片的总带宽也不能超过基站的总带宽，通过限制DDQN算法的动作空间满足约束C1和C2；

执行该动作A(t)获得的奖励R(t)；

本发明的优化目标是在约束条件下最大化系统累积效用函数，DDQN算法的训练目标是最大化累积奖励函数。但是DDQN算法无法直接处理带有约束的优化目标，约束C1和C2可以通过限制动作空间满足约束，约束C3和C4则无法按照此法处理。因此本发明将优化目标做一个变形处理来满足奖励，当满足约束C3和C4奖励即为效用函数，当不满足约束C3和C4则令奖励为0，如下式：

本发明详细的基于DDQN的无线资源分配算法步骤如下：

步骤41：将当前时刻的切片状态输入训练好的DDQN算法网络，并随机选择一个动作，计算执行该动作对优化目标求解所对应的奖励；

步骤42：选择奖励最大时的动作以及该动作对应的带宽分配策略。

为了体现该资源分配方案的性能，本发明选择了时延单性能优化算法与静态均匀分配算法和本发明提出的无线资源分配方法进行对比。从图4可以看出，随着数据包到达率的增加，三种资源分配方案的带宽利用率都有所降低，但是基于DDQN的效用优化分配方案的带宽利用率下降速度较慢，从而可以实现更高的带宽利用率。从图5可以看出，随着数据包到达率的增加三种方法的计算能耗都在升高，本发明基于DDQN的效用优化分配方案的计算能耗增长速度较慢，从而可以实现更低的计算资源消耗。本发明分别统计1s内eMBB业务数据包的传输速率高于最低速率的比例值和URLLC业务数据包的处理时延低于最高容忍时延的比例值，将其作为切片的QoS满意度，结果如图6和图7所示。从图6可以看出基于DDQN的效用优化分配方案eMBB切片速率满意度大于两种对比方案，且数据包到达率越大使差值越大。从图7可以看出基于DDQN的效用优化分配方案URLLC切片时延满意度则略低于两种对比方案，且随着数据包到达率增加差值增大不明显。这是因为本发明方法在目标函数中综合考虑了速率和时延收益。相比于其他两种方法，本发明的方法可以更好地应对流量变化的情况，使两种切片都保持较高的时延满意度。

本发明的关键点为：在服务化RAN中引入切片技术，为高速率需求的eMBB业务和低时延需求的URLLC业务设计两种RAN切片，联合优化切片多维性能指标和基站运营成本，构建了系统累积效用函数最大化问题，采用DDQN算法来求解，并详细设计了基于DDQN求解的算法逻辑。

与最好的现有技术相比，本发明的优点为在保证不同服务QoS同时联合考虑计算资源成本，可行性较高，可以在满足用户QoS的基础上，实现更高的带宽利用率和更低的计算能耗。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种用于服务化无线接入网的资源分配方法，其特征在于，包括：

步骤1：获取在当前时刻不同切片的性能指标以及切片状态；

2.根据权利要求1所述的一种用于服务化无线接入网的资源分配方法，其特征在于，步骤1中在当前时刻t下eMBB切片和URLLC切片获得的带宽分别为b₁(t)和b₂(t)；切片的带宽资源平均分配给切片内的M个用户，则用户的带宽为：

其中，

为切片k内的用户d在时刻t的带宽。

3.根据权利要求2所述的一种用于服务化无线接入网的资源分配方法，其特征在于，所述性能指标包括：基站中t时刻子带宽i是否分配给切片k的变量；基站在子带宽i上的发射功率；切片k的信道增益系数；切片k在时刻t存储待发送数据包队列buffer的第一个数据包大小为δ_k(t)；当数据包到来没有被立即传输则在buffer中等待，数据包在buffer中等待的时间

同一个切片的数据包编码时间

4.根据权利要求3所述的一种用于服务化无线接入网的资源分配方法，其特征在于，步骤2包括：

步骤22：根据第一个数据包大小δ_k(t)，计算传输该数据包的传输时间

步骤23：根据传输时间

数据包在buffer中等待的时间

以及同一个切片的数据包的编码时间

计算数据包处理时间τ_k(t)；

步骤24：获取基站的计算资源c(t)；

步骤25：根据切片k在时刻t的数据传输速率θ_k(t)、数据包处理时间τ_k(t)以及基站的计算资源c(t)，构建系统传输数据的累积效用函数。

5.根据权利要求4所述的一种用于服务化无线接入网的资源分配方法，其特征在于，根据香农公式切片k在时刻t的数据传输速率θ_k(t)如下：

其中，a_i,k(t)是表示基站中t时刻子带宽i是否分配给切片k的变量，a_i,k(t)＝{0,1}；p_i(t)为t时刻基站在子带宽i上的发射功率；h_k(t)为t时刻切片k的信道增益系数；σ²为加性高斯白噪声的功率谱密度；

基站的发射功率系统部署后恒定，总功率为P，且平均分配给每个子带宽，即p_i(t)＝P/N，代入(2)式则切片k在时刻t的数据传输速率θ_k(t)如下式：

每次分配资源只处理用户的一个数据包，切片内用户的其余数据包在buffer等待，切片k在时刻t存储待发送数据包队列buffer的第一个数据包大小为δ_k(t)，则该数据包的传输时间

如下式：

同一个切片的数据包编码时间相同，编码时间为

则该数据包处理时间τ_k(t)如下式：

基站的计算资源c(t)具体关系表达式如下式：

其中，ξ是计算资源的权重系数，A为天线数量，B为基站带宽(单位为MHz)，θ(t)为基站速率，单位为Mbps，计算资源c(t)单位为每秒十亿次操作，ζ是计算资源的偏置系数；

在时刻t基站BBU软件单元的计算资源c(t)表达式如下式：

系统效用函数U(t)为基站两种切片的QoS收益与计算资源成本的加权和，如下式：

其中，q₁(t)＝θ₁(t)-θ_1,th(t)为eMBB切片的速率收益函数，α₁为吞吐量的增益系数，θ₁(t)为t时刻eMBB切片数据包的实际观测吞吐量，θ_1,th(t)为t时刻eMBB切片数据包的吞吐量下限；q₂(t)＝a₂(τ_2,th(t)-τ₂(t))为URLLC切片的时延收益，α₂为时延的增益系数，τ₂(t)为t时刻URLLC切片数据包的实际处理时延，τ_2,th(t)为t时刻URLLC切片数据包的处理时延上限；β为计算成本系数。

6.根据权利要求5所述的一种用于服务化无线接入网的资源分配方法，其特征在于，步骤3包括：

步骤31：利用约束条件对所述系统累积效用函数进行约束；

步骤32：将最大化系统累积效用函数作为优化目标；

其中，优化目标为：