CN113395723B

CN113395723B - 基于强化学习的5g nr下行调度时延优化系统

Info

Publication number: CN113395723B
Application number: CN202110656499.1A
Authority: CN
Inventors: 杨树森; 郝怡君; 李芳�; 孙建永; 薛江; 王楠斌; 李鑫; 王琪
Original assignee: Huawei Technologies Co Ltd; Xian Jiaotong University
Current assignee: Huawei Technologies Co Ltd; Xian Jiaotong University
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2022-08-09
Anticipated expiration: 2041-06-11
Also published as: CN113395723A

Abstract

基于强化学习的5G NR下行调度时延优化系统，是根据实际场景存在的状态非完全可观测情形，将基站下行调度过程建模为一个部分可观测马尔可夫控制问题，并通过Actor‑Critic强化学习算法框架来解决。具体包括：网络监控模块，用于负责采集下行调度器的相关输入；资源调度器模块，用于通过仿真器模拟基站细粒度调度过程；POMDP构建模块，用于将每个时隙的状态处理为部分可观测状态，并建立针对不同时间尺度任务的智能体；核心控制器模块，用于帮助POMDP构建模块完成针对不同时间尺度任务的智能体在每个时隙的动作策略制定；场景自适应模块，作为辅助模块为核心控制器提供更科学高效的决策，并且通过流量时空预测来指导算法更好地进行多小区调度场景下的负载均衡。

Description

基于强化学习的5G NR下行调度时延优化系统

技术领域

本发明属于网络系统领域，具体涉及一种基于强化学习的5G NR下行调度时延优化系统。

背景技术

5G技术的发展对QoS提出了更高的要求，如更低的时延，更高的数据传输速率，更低的丢包率等。为了应对这些挑战，无线接入网应支持更先进的波形技术，更大规模天线与更灵活的无线资源管理。其中，无线资源管理包括传输功率管理，移动性管理和分组调度。分组调度作为核心组件，负责在每个TTI上为用户分配共享信道上的时域与频域资源。其目的是在四个主要效用之间进行权衡：容量(系统吞吐量，频谱效率，小区覆盖范围)，服务质量(QoS)，稳定性(鲁棒性)和用户公平性，通过在每个TTI使用最具代表性的调度规则来满足优化目标，以获得总体满意度。

目前，学术界对于空口时延优化的研究主要集中在结合深度学习的相关算法进行优化，典型例子是利用强化学习通过与网络环境不断交互实时更新调度策略，以达到最优分配资源降低时延的目的，但是目前基于深度学习的优化方案大多假设状态信息完全可观测，这不符合实际基站下行调度场景中无法获取到完全来自网络环境的观测信息；同时，由于时延不可建模，缺乏以降低时延为目标的优化方案。

工业界完成空口时延优化任务的技术主要为传统的基于规则优化，主要是通过度量一个合理的调度函数来进行时延优化，该方案无法合理利用无线侧的丰富数据，也难以根据信道参数进行实时更新。

发明内容

针对上述问题，本发明提供了一种以部分可观测马尔可夫决策过程为数学理论基础的基于强化学习的5G NR下行调度时延优化系统，该系统可以基于部分可观测的网络状态信息，通过调整调度优先级函数相关参数，达到资源的更合理分配，从而降低系统时延。该系统将5G NR下行调度过程建模为一个部分可观测的马尔可夫控制问题(POMDP)，向其中引入针对不同时间尺度任务的智能体，并通过Actor-Critic强化学习算法框架来解决。

为达到上述目的，本发明采用如下系统方案来实现：

基于强化学习的5G NR下行调度时延优化系统，包括

网络监控模块，用于负责采集下行调度器的相关输入并传递至资源调度器模块；

资源调度器模块，用于通过仿真器来模拟基站细粒度调度过程，首先基于调度优先级函数来计算业务流优先级，之后选择MCS用于系统消息和用户数据的传输，最终达到为UE分配物理下行共享信道PDSCH上的时频域资源的目的；

POMDP构建模块，其输入来自网络监控模块，用于将每个时隙的状态处理为部分可观测状态，并建立针对不同时间尺度任务的智能体，完成小尺度实际智能体至大尺度虚拟智能体的抽象建模，以及大尺度虚拟智能体至小尺度实际智能体的动作分解；

核心控制器模块，用于将帮助POMDP构建模块完成针对不同时间尺度任务的智能体在每个时隙的动作策略制定过程，然后将所产生的策略函数传递至资源调度器模块使之完成无线资源分配后进入下一时隙状态S_t+1；

场景自适应模块，作为辅助模块为核心控制器提供更科学高效的决策，并且通过流量时空预测来指导算法更好地进行多小区调度场景下的负载均衡。

本发明进一步的改进在于，网络监控模块的具体操作为：

采集下行调度器的相关输入，包括下行信道质量CQI、QoS指标、MAC层信息以及HARQ反馈状态；其中CQI用于确定传输数据块大小、编码方式、调制方式；时延与丢包率的QoS约束用于定量测量服务质量；MAC层用于获取时延及丢包率等信息；HARQ反馈状态用以输入资源调度器对重传信息进行调度；它们共同构成了t时隙的状态S_t并且作为输入传递至资源调度器模块。

本发明进一步的改进在于，资源调度器模块具体操作为：

根据用户调度优先级函数对不同业务流分配物理下行共享信道PDSCH上的时域与频域资源，并选择合适的MCS用于系统消息和用户数据的传输；在接到相关输入后，首先确定调度的优先级及调度的用户，保证QoS的同时，最大化目标函数；其次，根据输入信息，确定每一个选定用户的MCS；然后，根据用户数量和确定的MCS，确定用户分配的RB数和RB位置；最后输出被调度的UE，MCS，分配的RB数，RB的位置，以及TBS的大小信息；

其中，初传调度优先级函数定义为：

eff_CQI表示根据用户的CQI查MCS调整码率后所得到的频谱利用效率；avg_rate表示最近n个时隙调度的平均速率；γ_QCI表示业务对应的QCI加权因子；D表示队列等待时长；PacketDelayBudget_QCI表示业务对应的时延阈值。

本发明进一步的改进在于，POMDP构建模块的具体操作为：将此场景下的下行调度问题构建为一个部分可观测的马尔可夫控制问题POMDP，将该时隙t所获取的数据作为观测值O_t，它将与动作一起构成历史序列h_t，以时间序列作为部分观测状态输入为算法加入记忆来补全状态空间；同时，此模块根据不同的任务时间尺度构建实际智能体与虚拟智能体两个智能体，虚拟智能体由实际的资源调度器对时间尺度进行抽象而得到，在虚拟智能体上更新策略后分解动作至实际智能体进行小尺度时间下的调度，由此达到对不同时间尺度任务下的智能调度，其中实际智能体与虚拟智能体的区别在于所得到的动作是否能够通过资源调度器直接实现；

在所构建的POMDP问题中，将输入由S_t改为O_t，与之相应的，所构建的序列将建模为：

τ＝(s₁,o₁,a₁,s₂,…)

序列τ中实际所能获得的观察不包含s_i仅包含o_i，故此时输入模型的历史序列为：

h_t＝(o₁,a₁,o₂,a₂,…,a_t-1,o_t)

所制定的策略函数为：

π:p(s₁)p(o₁|s₁)π(a₁|h₁)p(s₂|s₁,a₁)p(o₂|s₂)π(a₂|h₂)…

将上述历史序列h_t输入模型，达成以时间序列作为部分观测状态输入来为算法加入记忆补全状态空间的目的。

本发明进一步的改进在于，为了使调度器在与网络环境的交互过程中不断主动学习来训练模型，核心控制器模块将帮助POMDP构建模块完成针对不同时间尺度任务的智能体在每个时隙的动作策略制定过程，基于Actor-Critic强化学习算法框架利用LSTM补全状态空间来为POMDP问题提供决策，其中Actor网络使用策略函数，负责生成动作并和环境交互；而Critic网络使用基于值的强化学习方法对价值函数进行近似，负责评估Actor网络的表现，并指导Actor网络下一阶段的动作；核心控制器模块与POMDP构建模块的相互配合所产生的策略函数将传递至资源调度器模块使之完成无线资源分配后进入下一时隙状态S_t+1；

其中，状态空间为分为可控子空间与不可控子空间两部分：

可控状态为：avg_rate表示最近T秒业务流的平均速率；D表示最近T秒业务流的平均时延；不可控状态为：eff_CQI表示该T秒最后一个时隙的CQI所对应MCS调整后所得到的频谱利用效率；

表示业务流的时延，丢包率与速率标准；

动作即所采取的调度规则，就是t时隙的RB应该分别分给哪条业务流，建立连续动作空间A(t)：

A(t)＝[γ_CQI(t),PacketDelayBudget_QCI(t)]

γ_QCI,PacketDelayBudget_QCI分别为业务流对应的QCI加权因子与时延阈值，即动作空间相当于对QCI值表的更新；

奖励函数由两部分组成，一是奖励分布情况，中用时延方差来表示，二是时延距KPI指标的距离，以此来进行综合考量；

r(s′,s)＝α₁r_o1(s′,s)+α₂r_o2(s′,s)

r_o1(s′,s)＝STDEV(s′,s)

本发明进一步的改进在于，场景自适应模块的具体步骤为将接收到的状态S_t+1与QoS指标进行对比，与时延指标对比来产生奖励函数帮助下一回合制定更科学调度策略；同时，通过流量时空预测来指导算法更好的进行多小区调度场景下的负载均衡，借鉴GCN的思想来提取流量的空间特征，利用结合了指数平滑和循环神经网络的ES_RNN模型来进行时序方面的预测，以此构建负荷-调度特性网络级时延优化算法；

其中，指数平滑法有如下几种经典形式：

1)非季节模型

l_t＝αy_t+(1-α)l_t-1

2)单季节模型

l_t＝αy_t/s_t+(1-α)l_t-1

s_t+K＝βy_t/l_t+(1-β)s_t

3)双季节模型

l_t＝αy_t/(s_tu_t)+(1-α)l_t-1

s_t+K＝βy_t/(l_tu_t)+(1-β)s_t

u_t+L＝γy_t/(l_ts_t)+(1-γ)u_t

其中y_t表示时间序列在t时刻的流量，l_t,s_t,u_t分别表示水平性参数、季节性参数、额外季节性参数；K表示每个“季节性”观测值的数量，例如K＝4表示一年中有4个季节，K＝12表示一年中有12个月，K＝52表示一年中有52个星期；L表示每个“季节性”观测值的数量，当L＝168表示一年中有168个小时；α,β,γ为平滑系数。

本发明至少具有如下有益的技术效果：

本发明提供了一种基于强化学习的5G NR下行调度时延优化系统，该系统考虑了实际情形下基站数据部分可观测以及实际基站调度可控参数有限，以此基于部分可观测马尔可夫决策过程为数学理论基础，针对调度特性参数进行连续优化，同时考虑了优化目标为时延更低情形下对每步奖励函数的制定，最终实现了状态非完全可观测条件下针对时延优化的实时调度。对比现有最优算法，无论是在单小区多用户场景下还是多小区多用户场景下，本发明的算法都有了显著提升。在单小区多用户场景下，在UE数(用户数)由2到8，nTTi由1到100变化的情况下，尾部时延的提升在27.9％-66.9％；在多小区多用户场景下，流量时空预测结果的平均偏差率为21％，相较现有最优算法降低了15％，多小区多用户尾部时延降低22％，系统总时延降低15.3％。综上，本发明提出的方法可以针对目前工业界所存在的传统基于规则的优化方案难以利用信道参数信息的劣势，同时更好的结合了学术界的前沿方法，使得基于调度特性的5G空口时延优化得到很好解决。

附图说明

图1为5G NR分组调度基本流程；

图2为基于强化学习的5G NR下行调度时延优化系统整体框架；

图3为POMDP构建模块中虚拟智能体与实际智能体的联系；

图4为核心控制器模块中的Actor-Critic算法架构；

图5场景自适应模块中的流量时空预测算法架构；

图6为单小区多用户场景下算法奖励随步数变化情况；

图7为单小区多用户场景下不同算法的尾部时延对比；

图8为单小区多用户场景下不同算法下时延随步长的变化情况；

图9为单小区多用户场景下不同算法的时延分布对比；

图10为多小区多用户场景下流量时空预测算法实际值和预测值的对比。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

参考图1，展现了5G NR分组调度基本流程。资源调度器先会收到用户请求，具体包括来自网络的统计量信息，如Qos指标、缓存量、频谱效率等，然后资源调度器将会根据调度优先级函数计算优先级，选择MCS，最终达到PDSCH共享信道上的时域与频域资源的分配。本发明的目标为通过调整调度优先级函数的相关参数，达到时域与频域资源的更好分配，以此来降低系统时延。

本发明聚焦于分组调度中的下行链路调度的时延优化问题，以每个用户每条业务流为粒度，通过调整初传调度优先级函数的相关参数，在保障速率要求的前提下达到时延分布指数最优的目标。

对于空口时延优化问题，学术界的研究主要集中在结合深度学习相关算法进行优化，但是基于深度学习的优化方案大多假设状态信息完全可观测，不符合业务实际场景，同时缺乏以降低时延为目标的优化方案；工业界的主要技术为传统的基于规则优化，无法合理利用无线侧的丰富数据，也难以根据信道参数进行实时更新。

综合上述情况，本发明提出一种基于强化学习并以部分可观测马尔可夫决策过程为数学理论基础的5G NR下行调度时延优化系统。该系统符合业务实际场景，可以实现在状态非完全可观测条件下实现针对时延优化的实时调度。

参考图2，展示了基于强化学习的5G NR下行调度时延优化系统整体框架。该系统由网络监控，POMDP构建，核心控制器，资源调度器，场景自适应五个模块构成，其中网络监控与资源调度器属于业务强相关模块，借鉴了开源的Vienna 5G系统级仿真器进行基站的细粒度调度环境仿真；POMDP构建，核心控制器与场景自适应属于算法强相关模块，用来进行粗粒度上基于强化学习的策略制定。

网络监控模块主要负责采集下行调度器的相关输入，然后传递至资源调度器模块和POMDP构建模块。资源调度器模块主要负责为UE分配物理下行共享信道PDSCH上的资源，并选择合适的MCS用于系统消息和用户数据的传输。POMDP构建模块用于来补全状态空间，将时隙的状态处理为部分可观测状态，并建立针对不同时间尺度任务的智能体，完成小尺度实际智能体至大尺度虚拟智能体的抽象建模，以及大尺度虚拟智能体至小尺度实际智能体的动作分解。核心控制器模块将帮助POMDP构建模块完成针对不同时间尺度任务的Agent在每个时隙的动作策略制定过程，主要基于Actor-Critic强化学习算法框架利用LSTM补全状态空间来为POMDP问题提供决策，其中Actor使用策略函数，负责生成动作并和环境交互，而Critic使用基于值的强化学习方法对价值函数进行近似，负责评估Actor的表现，并指导Actor下一阶段的动作，然后将所产生的策略函数将传递至资源调度器模块使之完成无线资源分配后进入下一时隙状态。场景自适应模块将通过对比接收的状态和Qos指标来计算奖励，以此辅助核心控制器提供更科学高效的决策，并且通过流量时空预测来指导算法更好的进行多小区调度场景下的负载均衡，以此构建负荷-调度特性网络级时延优化算法。

参考图3，展示了POMDP构建模块中虚拟智能体与实际智能体的联系。虚拟智能体由实际的资源调度器对时间尺度进行抽象而得到，在虚拟智能体上更新策略后分解动作至实际智能体进行小尺度时间下的调度，由此达到对不同时间尺度任务下的智能调度。

参考图4，展示了核心控制器模块中的Actor-Critic算法架构。Actor-Critic算法将帮助POMDP构建模块完成针对不同时间尺度任务的智能体在每个时隙的动作策略制定过程，通过Actor网络来近似策略函数，负责生成动作并和环境交互；通过Critic网络近似状态价值函数，评估Actor网络的表现，并指导Actor网络下一阶段的动作，同时指导策略梯度的更新，所运用的为随机策略而非确定性策略。

参考图5，展示了场景自适应模块中的流量时空预测算法架构，算法首先用指数平滑法公式计算时间序列的水平值和季节值；其次对预处理后的数据进行消除季节性因素和自适应归一化；接着借鉴GCN的思想计算邻接矩阵和特征矩阵来提取流量的空间特征；最后将得到的特征矩阵输入基于LSTM的DRNN神经网络中，训练模型，并优化指数平滑方法所涉及的初始季节性参数、平滑系数及神经网络的权重，生成预测值。

本发明分别在单小区多用户场景下和多小区多用户场景下对比了本发明与现有最优算法的结果对比。

在单小区多用户场景下，奖励随步数变化情况参考图6，随着步长的增长，不同UE的奖励都得到了明显提升，从而促进智能体更好地逼近最优策略的发放，以此来优化目标函数中的时延，使得达到尾部时延和系统总时延降低的目的。尾部时延对比情况参考图7，对比现有最优算法，在资源更合理分配下，本发明的算法可以达到时延向更低方向移动，从而保证超出时延的业务流数量大幅降低，以此提升用户体验。实际时序下时延对比情况参考图8，对比现有最优算法，随着时间步长的增加，本发明的算法的时延显著下降。尾部时延提升对比情况参考图9，随着UE数的增加，本发明的算法的尾部时延明显降低，在UE数由2至8，nTTi由1至100变化下，90％和95％分位点处的尾部时延降低约27.9％-66.9％。

在多小区多用户场景下，流量时空预测的实际值和预测值的对比折线图参考图10，实验结果显示，本发明的算法能够预测出流量的趋势，流量时空预测结果的平均偏差率为21％，相较现有最优算法降低约15％。多小区多用户尾部时延降低22％，系统总时延降低15.3％。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.基于强化学习的5G NR下行调度时延优化系统，其特征在于，包括

网络监控模块，用于负责采集下行调度器的相关输入并传递至资源调度器模块；网络监控模块的具体操作为：采集下行调度器的相关输入，包括下行信道质量CQI、QoS指标、MAC层信息以及HARQ反馈状态；其中CQI用于确定传输数据块大小、编码方式、调制方式；时延与丢包率的QoS约束用于定量测量服务质量；MAC层用于获取时延及丢包率信息；HARQ反馈状态用以输入资源调度器对重传信息进行调度；它们共同构成了t时隙的状态S_t并且作为输入传递至资源调度器模块；

资源调度器模块，用于通过仿真器来模拟基站细粒度调度过程，首先基于调度优先级函数来计算业务流优先级，之后选择MCS用于系统消息和用户数据的传输，最终达到为UE分配物理下行共享信道PDSCH上的时频域资源的目的；资源调度器模块具体操作为：

其中，初传调度优先级函数定义为：

eff_CQI表示根据用户的CQI查MCS调整码率后所得到的频谱利用效率；avg_rate表示最近n个时隙调度的平均速率；γ_QCI表示业务对应的QCI加权因子；D表示队列等待时长；PacketDelayBudget_QCI表示业务对应的时延阈值；

POMDP构建模块，其输入来自网络监控模块，用于将每个时隙的状态处理为部分可观测状态，并建立针对不同时间尺度任务的智能体，完成小尺度实际智能体至大尺度虚拟智能体的抽象建模，以及大尺度虚拟智能体至小尺度实际智能体的动作分解；POMDP构建模块的具体操作为：将此场景下的下行调度问题构建为一个部分可观测的马尔可夫控制问题POMDP，将该时隙t所获取的数据作为观测值O_t，它将与动作一起构成历史序列h_t，以时间序列作为部分观测状态输入为算法加入记忆来补全状态空间；同时，此模块根据不同的任务时间尺度构建实际智能体与虚拟智能体两个智能体，虚拟智能体由实际的资源调度器对时间尺度进行抽象而得到，在虚拟智能体上更新策略后分解动作至实际智能体进行小尺度时间下的调度，由此达到对不同时间尺度任务下的智能调度，其中实际智能体与虚拟智能体的区别在于所得到的动作是否能够通过资源调度器直接实现；

τ＝(s₁，o₁，a_t，s₂，…)

h_t＝(o₁，a₁，o₂，a₂，…，a_t-1，o_t)

所制定的策略函数π为：

π：p(s₁)p(o₁|s₁)π(a₁|h₁)p(s₂|s₁，a₁)p(o₂|s₂)π(a₂|h₂)…

将上述历史序列h_t输入模型，达成以时间序列作为部分观测状态输入来为算法加入记忆补全状态空间的目的；

核心控制器模块，用于将帮助POMDP构建模块完成针对不同时间尺度任务的智能体在每个时隙的动作策略制定过程，然后将所产生的策略函数传递至资源调度器模块使之完成无线资源分配后进入下一时隙状态S_t+1；为了使调度器在与网络环境的交互过程中不断主动学习来训练模型，核心控制器模块将帮助POMDP构建模块完成针对不同时间尺度任务的智能体在每个时隙的动作策略制定过程，基于Actor-Critic强化学习算法框架利用LSTM补全状态空间来为POMDP问题提供决策，其中Actor网络使用策略函数，负责生成动作并和环境交互；而Critic网络使用基于值的强化学习方法对价值函数进行近似，负责评估Actor网络的表现，并指导Actor网络下一阶段的动作；核心控制器模块与POMDP构建模块的相互配合所产生的策略函数将传递至资源调度器模块使之完成无线资源分配后进入下一时隙状态S_t+1；

其中，状态空间为分为可控子空间与不可控子空间两部分：

表示业务流的时延，丢包率与速率标准；

A(t)＝[γ_CQI(t)，PacketDelayBudget_QCI(t)]

γ_QCI，PacketDelayBudget_QCI分别为业务流对应的QCI加权因子与时延阈值，即动作空间相当于对QCI值表的更新；

奖励函数由两部分组成，一是奖励分布情况，用时延方差来表示，二是时延距KPI指标的距离，以此来进行综合考量；

r(s′，s)＝α₁r_o1(s′，s)+α₂r_o2(s′，s)

r_o1(s′，s)＝STDEV(s′，s)

场景自适应模块，作为辅助模块为核心控制器提供决策，并且通过流量时空预测来指导算法进行多小区调度场景下的负载均衡；场景自适应模块的具体步骤为将接收到的状态S_t+1与QoS指标进行对比，与时延指标对比来产生奖励函数帮助下一回合制定调度策略；同时，通过流量时空预测来指导算法进行多小区调度场景下的负载均衡，借鉴GCN的思想来提取流量的空间特征，利用结合了指数平滑和循环神经网络的ES_RNN模型来进行时序方面的预测，以此构建负荷-调度特性网络级时延优化算法；