CN115996403A

CN115996403A - 5g工业时延敏感业务资源调度方法、装置、电子设备

Info

Publication number: CN115996403A
Application number: CN202310283730.6A
Authority: CN
Inventors: 丰雷; 周雨; 周凡钦; 蒋潇逸; 古诗怡
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-04-21
Anticipated expiration: 2043-03-22
Also published as: CN115996403B

Abstract

本发明提供的5G工业时延敏感业务资源调度方法、装置、电子设备，方法包括：分别对时延敏感流和时延容忍流进行业务建模，以及对无线信道进行服务建模，以得到5G无线时延敏感网络模型；应用随机网络演算理论确定5G无线时延敏感网络模型的网络性能边界；基于5G无线时延敏感网络模型的网络性能边界获取确定性时延保障的分配策略，用于对时延敏感流和时延容忍流共存下的工业无线网络资源进行优化配置，以满足时延敏感流确定性时延约束的同时最大化时延容忍流长期时间的平均速率。本发明在信道不确定的环境下，针对非平稳变化的信道条件和业务状态下的工业无线网络，通过上述方法实现5G承载工业时延敏感业务的可靠调度和确定性时延保障的资源调度。

Description

5G工业时延敏感业务资源调度方法、装置、电子设备

技术领域

本发明涉及通信网络技术领域，尤其涉及一种5G工业时延敏感业务资源调度方法、装置、电子设备。

背景技术

随着工业4.0的蓬勃发展，工厂中内会部署种类繁多的感知设备和控制设备，例如移动巡检机器人、自动运输车和监控摄像头等，这些工业设备在实时性和可靠性等方面对传统工业网络提出了严格的要求。5G等无线移动技术与有线技术相比，具有易部署、成本低和支持移动性等优势，可以很好地应用于工业领域。

由于信号在无线信道传播的复杂和随机性，许多调度方案的目标仅仅是不超过最大时延，对于部分工业控制业务的时延敏感特性很难得到保障。此外，目前针对工业5G时延敏感网络协同传输的研究更多聚焦于网络架构、功能实体与网络接口层面，它们侧重在提升无线网络的核心网以及传输网上的确定性保障，而针对5G时延敏感业务的联合调度算法的研究则相对缺乏，如何从技术上克服无线信道时变及终端移动等随机因素叠加造成5G空口时延的不确定影响仍然是一个急需解决的核心问题。

发明内容

本发明提供的5G工业时延敏感业务资源调度方法、装置、电子设备，旨在解决现有技术中，针对非平稳变化的信道条件和业务状态，无法实现5G承载工业时延敏感业务的可靠调度和确定性时延保障的资源调度。

本发明提供一种5G工业时延敏感业务资源调度方法，所述方法应用于工业无线网络异构业务接入场景，所述场景由一个5G基站和所述5G基站覆盖范围内多个工业设备终端组成，用于工业生产控制业务，所述工业生产控制业务在对应的系统中会产生时延敏感流和时延容忍流两种不同类型的业务流，所述方法包括：

分别对所述时延敏感流和所述时延容忍流进行业务建模，以及对工业无线网络下行链路传输过程中的无线信道进行服务建模，以得到5G无线时延敏感网络模型；

应用随机网络演算理论确定所述5G无线时延敏感网络模型的网络性能边界，确定所述网络性能边界包括：确定时延敏感流确定性时延约束，以及基于所述时延敏感流确定性时延约束确定时延容忍流的时延性能；

基于所述5G无线时延敏感网络模型的网络性能边界获取确定性时延保障的分配策略，用于对所述时延敏感流和所述时延容忍流共存下的工业无线网络资源进行优化配置，以满足所述时延敏感流确定性时延约束的同时最大化所述时延容忍流长期时间的平均速率。

根据本发明提供的一种5G工业时延敏感业务资源调度方法，将所述5G无线时延敏感网络模型定义为一个基于流业务模型的离散时间的排队模型，对应地，所述应用随机网络演算理论确定所述5G无线时延敏感网络模型的网络性能边界，包括：

在比特域中定义所述工业生产控制业务在所述5G无线时延敏感网络模型的业务队列中的到达增量过程、服务增量过程以及离开增量过程，并用比特单位量化为累积到达量、累积服务量以及累积离开量；

将所述累积到达量、所述累积服务量和所述累积离开量映射至传输域，使用梅林变换评估业务队列在所述传输域中的稳定性，以获得稳定业务队列的性能边界；

将所述传输域的性能边界映射回比特域，以获得5G无线时延敏感网络模型的网络性能边界。

根据本发明提供的一种5G工业时延敏感业务资源调度方法，所述将所述累积到达量、所述累积服务量和所述累积离开量映射至传输域，使用梅林变换评估业务队列在所述传输域中的稳定性，以获得稳定业务队列的性能边界，包括：

基于所述累积到达量、所述累积服务量和所述累积离开量在传输域中分别构建到达过程、服务过程以及离开过程，其中，离开过程由到达过程和服务过程共同决定，到达过程和服务过程相互独立；

基于业务流的随机到达曲线和随机服务曲线得到随机积压和时延边界；

利用切尔诺夫不等式，确定两个独立的非负随机过程在传输域内的最小加卷积和最小加反卷积的梅林变换是有界的，并进一步确定业务流的时延性能在传输域内的梅林变换也是存在上界的，以得到稳定业务队列的性能边界。

根据本发明提供的一种5G工业时延敏感业务资源调度方法，所述时延性能包括：时延门限与时延违背概率的关系，对应地，所述确定所述网络性能边界包括：确定时延敏感流确定性时延约束，以及基于所述时延敏感流确定性时延约束确定时延容忍流的时延性能，包括：

对于任何稳定的业务队列，基于给定的时延约束确定一般条件下业务流的时延门限与时延违背概率的关系；

基于给定的系统总带宽，在信道感知和队列感知的情况下，分别对所述时延敏感流和所述时延容忍流分配对应的带宽；

在对应的带宽限制条件下，基于所述一般条件下业务流的时延门限与时延违背概率的关系，对于给定相应的时延敏感流确定性时延约束确定时延容忍流的时延门限与时延违背概率的关系。

根据本发明提供的一种5G工业时延敏感业务资源调度方法，所述基于所述5G无线时延敏感网络模型的网络性能边界获取确定性时延保障的分配策略，用于对所述时延敏感流和所述时延容忍流共存下的工业无线网络资源进行优化配置，以满足所述时延敏感流确定性时延约束的同时最大化所述时延容忍流长期时间的平均速率，包括：

基于所述5G无线时延敏感网络模型的网络性能边界建立所述时延敏感流和所述时延容忍流共存下的工业无线网络资源优化配置问题；

采用李雅普诺夫优化理论对所述工业无线网络资源优化配置问题优化，解耦成为每个时隙内带宽资源优化调度问题；

基于近端策略优化算法使用策略价值网络进行深度强化学习，获取确定性时延保障的分配策略。

根据本发明提供的一种5G工业时延敏感业务资源调度方法，所述采用李雅普诺夫优化理论对所述工业无线网络资源优化配置问题优化，解耦成为每个时隙内带宽资源优化调度问题，包括：

定义业务流的队列积压量；

基于李雅普诺夫函数以及李雅普诺夫惩罚函数，使用漂移加惩罚最小化方法，在稳定所述队列积压量的条件下确定漂移加惩罚函数的上界；

基于机会期望最小化理论，以及根据某一时隙内的队列积压量决定的带宽资源分配动作来最小化所述漂移加惩罚函数的上界；

基于长期每帧内存在的带宽资源约束，对所述漂移加惩罚函数的上界进行最大化优化，即，解耦成为每个时隙内带宽资源优化调度问题。

根据本发明提供的一种5G工业时延敏感业务资源调度方法，所述基于近端策略优化算法使用策略价值网络进行深度强化学习，获取确定性时延保障的分配策略，包括：

将5G基站的无线调度器作为预训练好的策略价值网络的智能体，采用马尔科夫决策过程对所述每个时隙内带宽资源优化调度问题进行建模，所述马尔科夫决策过程包括动作、状态和奖励；

将每个时隙内分配给所述时延敏感流的带宽作为智能体的动作，并映射到带宽资源约束的约束区间；

将所述约束区间观测到的业务队列积压量及业务到达量作为智能体的状态传递至策略网络，并将策略网络的输出结果输入至价值网络；

价值网络采用监督学习的方式更新对状态的评估，获取状态价值最好的动作并通过所述策略网络输出，以作为所述确定性时延保障的分配策略。

本发明还提供一种5G工业时延敏感业务资源调度装置，所述装置应用于工业无线网络异构业务接入场景，所述场景由一个5G基站和所述5G基站覆盖范围内多个工业设备终端组成，用于工业生产控制业务，所述工业生产控制业务在对应的系统中会产生时延敏感流和时延容忍流两种不同类型的业务流，所述装置包括：

5G无线时延敏感网络模型生成模块，用于分别对所述时延敏感流和所述时延容忍流进行业务建模，以及对工业无线网络下行链路传输过程中的无线信道进行服务建模，以得到5G无线时延敏感网络模型；

网络性能边界确定模块，用于应用随机网络演算理论确定所述5G无线时延敏感网络模型的网络性能边界，确定所述网络性能边界包括：确定时延敏感流确定性时延约束，以及基于所述时延敏感流确定性时延约束确定时延容忍流的时延性能；

分配策略获取模块，用于基于所述5G无线时延敏感网络模型的网络性能边界获取确定性时延保障的分配策略，所述确定性时延保障的分配策略用于对所述时延敏感流和所述时延容忍流共存下的工业无线网络资源进行优化配置，以满足所述时延敏感流确定性时延约束的同时最大化所述时延容忍流长期时间的平均速率。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的5G工业时延敏感业务资源调度方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的5G工业时延敏感业务资源调度方法。

本发明提供的5G工业时延敏感业务资源调度方法、装置、电子设备，在信道不确定的环境下，针对非平稳变化的信道条件和业务状态下的工业无线网络，通过构建5G无线时延敏感网络模型，利用随机网络演算理论，确定5G无线时延敏感网络模型的网络性能边界，基于5G无线时延敏感网络模型的网络性能边界获取确定性时延保障的分配策略，对时延敏感流和时延容忍流共存下的工业无线网络资源进行优化配置，满足时延敏感流确定性时延约束的同时最大化时延容忍流长期时间的平均速率，以实现5G承载工业时延敏感业务的可靠调度和确定性时延保障的资源调度，满足了工业时延敏感业务的可靠性传输和确定性时延保障需求。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种5G工业时延敏感业务资源调度方法的流程示意图；

图2为本发明提供的基于随机网络演算理论的工业无线网络系统模型的图示；

图3为本发明提供的于不同平均信噪比下对DT业务流时延违背概率与其时延门限之间关系的理论与仿真验证图示；

图4为本发明提供的基于李雅普诺夫优化理论PPO算法对策略价值网络进行训练的算法流程图示；

图5为本发明提供的一种5G工业时延敏感业务资源调度装置的结构示意图；

图6为本发明提供的电子设备的结构示意图。

附图标记：

21：5G无线时延敏感网络模型生成模块；22：网络性能边界确定模块；23：分配策略获取模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

经典马尔科夫（Markov）过程只能描述平稳过程，而工业环境中复杂电磁活动和AGV (Automated Guided Vehicles，又名无人搬运车、自动导航车、激光导航车)等工业设备终端的无规则移动使得信道产生非平稳变化，工业无线网络下业务突发性抢占的情况下也会导致业务状态的非平稳变化，并且传统任务调度多采用基于排队论的随机过程方法，随着通信技术的不断演进，在实际系统的高通信精度要求和更加多元化的服务需求下，使用排队论需要较精确的流量与服务特性，也无法准确适配工业确定性业务的通信需求。因此，考虑到工业控制业务对承载网络具有低时延、低抖动和高可靠性能以及确定性时延保障的严苛要求，以及5G无线资源（即计算资源、无线资源）的限制，本发明提出一种考虑时延敏感流业务的确定性时延保障和可靠传输的5G工业时延敏感业务资源调度方法、装置、电子设备。

以下是本发明中相关技术用语的英文简写：

DS：时延敏感流；

DT：时延容忍流；

i.i.d（independent and identically distributed）：独立同分布；

SNR：信噪比；

Mellin变换：梅林变换；

CSI：信道状态信息；

TTI：传输时间间隔；

MINLP：混合整数非线性规划；

PPO：近端策略优化算法；

Actor-Critic网络：策略价值网络(Actor：策略网络、Critic：价值网络)；

DRL：深度强化学习；

GAE：是结合了λ-return方法的优势函数估计，其平衡了强化学习中的方差和偏差，并被广泛应用于强化学习算法之中。

实施例一

参照图1所示，本实施例提供一种5G工业时延敏感业务资源调度方法，该方法应用于工业无线网络异构业务接入场景，场景由一个5G基站和5G基站覆盖范围内多个工业设备终端组成，用于工业生产控制业务，工业生产控制业务在对应的系统中会产生时延敏感流和时延容忍流两种不同类型的业务流，该方法包括：

步骤S1：分别对时延敏感流和时延容忍流进行业务建模，以及对工业无线网络下行链路传输过程中的无线信道进行服务建模，以得到5G无线时延敏感网络模型；

具体地，5G基站覆盖范围内有U个工业设备终端。假设工业生产控制业务均为i.i.d业务，业务的到达过程和服务过程相互独立，产生的业务数据包按照先入先出（FIFO）的规则进行传输。由于业务到达具有随机性以及传输资源受限，有可能业务流的数据包到达5G基站调度器后无法立即处理发送，因此需要为这些数据包配置数据缓存区，暂存无法被立即传输的数据包，假设数据缓冲区的容量足够大，系统不会因缓存溢出而丢包。

工业无线网络异构业务的业务流量类型非常多，例如视频、音频、同步实时控制流、事件、配置&诊断等，不同的业务流有不同的服务级别协议（SLA）需求。假设系统中存在两类不同的工业设备终端分别产生两种不同类型的业务流量，分别表示为时延敏感流和时延容忍流。时延敏感流可分为周期时延敏感流（PTS, Periodic Time Sensitive），比如工厂里的循环控制指令、同步信息，和非周期/零星时延敏感流(STS，Sporadic Time Sensitive)，比如事件告警信息；时延容忍流是指专业音视频等有一定时延抖动要求，同时占用带宽大，需要进行时延容忍的流量。

传统排队论分析方法，主要关注业务到达的时间间隔的概率分布以及业务在系统中被服务的时间的概率分布，但是无法满足工业确定性业务对时延上下有界的要求，而随机网络演算理论主要关注业务累积到达量的上边界和服务累积提供量的下边界，也就是“随机到达曲线”和“随机服务曲线”这两个核心概念。本发明运用随机到达曲线模型对工业生产控制业务产生的两种业务流进行建模，设该系统为同步系统，分析过程中将系统时间划分为以时隙为固定长度的时间序列，当业务达到5G基站的无线调度器后，经过业务队列的排队等待进入到无线调度器中，进行处理和调度等，然后被服务系统输出，形成离开过程，具体如图2所示。根据随机网络演算的定义，t时刻的系统积压大小可表示为，t时刻的系统时延可表示为，如式（1）、（2）所示：

（1）

（2）

其中，表示在0-t时间区间内，业务到达过程所累积到达系统的业务量，表示离开过程，离开过程具体表示为，表示无线调度器能够提供给到达业务的累积服务量，d为时延。

a、对时延敏感流和时延容忍流进行业务建模：

本发明将时延敏感业务流建模成周期性业务，符合到达业务的特征，可以保持较高的精准性。周期业务过程即在时有单位数据到达，其中，Z为[0,1]上均匀分布，则有。时延敏感业务流的到达过程如式（3）表示：

（3）

对于时延容忍业务流，本发明采用复合泊松业务模型建模，如式（4）表示：

（4）

其中为周期长度；是独立泊松过程，也就是(0,t]时间间隔内到达的数据包总数，设泊松过程的到达速率为是独立同分布的随机变量，服从参数为的指数分布。

b、对工业无线网络下行链路传输过程中的无线信道进行服务建模：

在工业无线网络下行传输过程中，5G基站的无线调度器中到达的业务数据包通过无线信道传输到工业设备终端上。假设下行链路信道主要受到路径损耗和小尺度瑞利衰落影响，因此该无线信道可以建模为具有加性高斯噪声的瑞利衰落信道。

具体地，距离为的传输信道的路径损耗为，指信号传播过程中的路径损耗因子，是与天线增益和载波频率相关的常数，小尺度衰落服从方差为的瑞利分布，则根据其概率密度函数可知，服从参数为的指数分布。设模型的噪声在t时刻的功率为，基站的瞬时发射功率为，则系统在该时刻的瞬时信噪比为，为了简化模型，设定平均信噪比值为。本发明认为系统能够获得完美的CSI，无线信道是准静态平坦型衰落的，也就是说用瞬时信噪比表示信道条件，在同一个时隙内的取值不变，在不同的时隙中的取值服从i.i.d分布。假设系统中总带宽为W，其中t时刻用户所分配到的带宽为，那么依据香农公式，t时刻用户在下行传输过程中的频谱效率（bits/s/Hz）可以简化表示为。对于下行链路的数据传输，用户的累计传输量如式（5）表示：

（5）

上述无线信道建模方法将信道的香农容量作为无线链路传输的频谱效率，这样做的目的在于简化分析过程，但并不影响分析的有效性。

步骤S2：应用随机网络演算理论确定5G无线时延敏感网络模型的网络性能边界，确定网络性能边界包括：确定时延敏感流确定性时延约束，以及基于时延敏感流确定性时延约束确定时延容忍流的时延性能。

本实施例中，将5G无线时延敏感网络模型定义为一个基于流业务模型的离散时间的排队模型，对应地，步骤S2中，应用随机网络演算理论确定5G无线时延敏感网络模型的网络性能边界，包括：

步骤SA21：在比特域中定义工业生产控制业务在5G无线时延敏感网络模型的业务队列中的到达增量过程、服务增量过程以及离开增量过程，并用比特单位量化为累积到达量、累积服务量以及累积离开量；

步骤SA22：将累积到达量、累积服务量和累积离开量映射至传输域，使用梅林变换评估业务队列在传输域中的稳定性，以获得稳定业务队列的性能边界；

步骤SA23：将传输域的性能边界映射回比特域，以获得5G无线时延敏感网络模型的网络性能边界。

具体地，为了不失一般性，本发明从U条业务流中选取1条DS业务流和1条DT业务流作为研究对象，带有下标DS和DT的变量分别对应于DS业务流和DT业务流。为了定义方便和表达简介，采用带有下标i的统一变量描述用户u_i的业务流下行链路传输过程分析中相似的参数和变量，i=1表示DS业务流，i=2表示DT业务流。用分别表示时间区间内业务的累计到达量、累计服务容量以及累计离开量。以表示业务A_i在时刻的时延，业务的时延约束表示业务时延超过给定门限d_i的概率需控制在概率内，如式（6）表示：

（6）

下行5G无线时延敏感系统可以看作为一个基于流业务模型的离散时间的排队模型。该模型中业务的累积到达量、累积服务量以及累积离开量分别定义为：，其中表示到达增量过程、服务增量过程和离开增量过程。所有的这些过程都在所谓的比特域中定义，其中数据以bit来衡量。但是累计服务量中含有瑞利衰落分布的对数运算，使得服务过程的累积量难以用闭合表达式表示。因此引入SNR域的概念，现在将下行5G无线时延敏感网络模型映射到传输域，称之为SNR域。寻求导出传输域中的性能边界，然后将结果映射回比特域以获得网络性能边界。在下式中分别构建了SNR域的到达过程、服务过程和离开过程，如式（7）表示：

（7）

本实施例中，步骤SA22具体包括：

步骤SA221：基于累积到达量、累积服务量和累积离开量在传输域中分别构建到达过程、服务过程以及离开过程，其中，离开过程由到达过程和服务过程共同决定，到达过程和服务过程相互独立；

步骤SA222：基于业务流的随机到达曲线和随机服务曲线得到随机积压和时延边界；

步骤SA223：利用切尔诺夫不等式，确定两个独立的非负随机过程在传输域内的最小加卷积和最小加反卷积的梅林变换是有界的，并进一步确定业务流的时延性能在传输域内的梅林变换也是存在上界的，以得到稳定业务队列的性能边界。

具体地，由网络演算可知，通过最小加卷积，将系统中离开过程表示为，结合式（1）和式（2），由于离开过程由到达过程和服务过程共同决定，因此基于业务流的随机到达曲线和随机服务曲线得到随机积压和时延边界如式（8）和（9）所示：

（8）

（9）

采用了将比特域映射到SNR域中的方式，用简洁的表达式描述了网络服务过程和性能界限。但是网络演算的所有表达式都包含随机变量的乘积或商，使用Mellin变换可以更为轻松评估队列稳定性和性能边界，特别是到达过程和服务过程相互独立。

非负随机过程的Mellin变换定义为：，

其中，为自由优化参数，这里仅考虑为正实数。非负随机过程的概率性能边界可以表示为，非负随机过程，即过程中随机变量取值大于等于0，这里利用了切尔诺夫不等式，其中x和自由变量都是大于0的。由Mellin变换确定两个独立的非负随机过程和在SNR域内的最小加卷积和最小加反卷积的Mellin变换是有界的，如式（10）和（11）所示：

（10）

（11）

相应地，结合式（6）可以进一步得到业务流的时延性能在SNR域内的Mellin变换也是存在上界的，如式（12）所示：

（12）

其中，。

当累积过程具有i.i.d增量过程x时，SNR域内的累积过程的Mellin变换如式（13）所示：

（13）

因此，当累积到达量和累积服务量相互独立且具有i.i.d增量过程时，式（12）可改为式（14）：

（14）

其中，特别地是，对于任何稳定的业务队列，其到达增量过程和服务增量过程必须满足。

本实施例中，时延性能包括：时延门限与时延违背概率的关系，对应地，步骤S2中，确定网络性能边界包括：确定时延敏感流确定性时延约束，以及基于时延敏感流确定性时延约束确定时延容忍流的时延性能，具体包括：

步骤SB21：对于任何稳定的业务队列，基于给定的时延约束确定一般条件下业务流的时延门限与时延违背概率的关系；

步骤SB22：基于给定的系统总带宽，在信道感知和队列感知的情况下，分别对时延敏感流和时延容忍流分配对应的带宽；

步骤SB23：在对应的带宽限制条件下，基于一般条件下业务流的时延门限与时延违背概率的关系，对于给定相应的时延敏感流确定性时延约束确定时延容忍流的时延门限与时延违背概率的关系。

具体地，基于上面的推导，进一步确定基于DS业务流确定性时延约束的DT业务流的时延性能。对于任何稳定的业务队列，当给定业务的时延约束时，设式（14）的右边为，则时延门限与自由优化参数以及时延违背概率之间的关系如式（15）所示：

（15）

考虑了DS业务流的周期性到达过程，同时系统中还存在复合泊松的DT业务流的突发流量到达。对于DS业务流而言，周期过程为确定性过程，周期业务流DS的到达过程A₁在SNR域中的Mellin 变换可以等效表征为式（16）：

（16）

对于复合泊松的DT业务流属于i.i.d过程，其到达过程A₂具有i.i.d增量，在SNR域中的Mellin 变换可以等效表征为式（17）：

（17）

为了进一步得到业务流的时延边界，下面通过相关定理和引理继续推导SNR域中服务进程的Mellin 变换表达式。

定理1：在无线链路传输过程中，无线信道为加性高斯白噪声下的具有平坦性衰落的瑞利信道，若在任何时刻系统都能够掌握准确的CSI，设时隙长度，则可以利用信道增益的概率分布得到系统服务过程在SNR域中的Mellin变换为式（18）：

（18）

其中，为自由优化参数，w为信道带宽，，为信道平均信噪比，为上不完全伽玛函数，具体为。

引理2：考虑图2中的系统模型，业务的到达过程为A(0，t)和服务过程S(0，t)为两个相互独立的随机过程，若要保障DS业务流的时延确定性，则对于任意，需满足式（19）：

（19）

考虑业务流充分利用带宽资源，设系统的总带宽为W，系统为两条业务流分配的带宽分别为和，。结合引理2，若要实现DS业务流的时延确定性，则对于任意，DS业务流的到达过程和服务过程需满足式（20）：

（20）

对于该系统而言，DS业务流的到达过程为确定性到达过程，而服务过程由于每时隙内信道条件的变化以及所分配到的带宽资源的不同而发生变化，显然当DS业务流的业务队列稳定后，为了保障时延确定性，DS业务流所分配到的带宽存在最大值和最小值的限制。

为了简化模型，本发明提出一种确定性时延保障的分配策略，在信道感知和队列感知的情况下，系统为DS业务流分配平均带宽，相应地，为DT业务流分配的平均带宽为。

首先分析不等式（20）左边的，这里将其视为条件①。对于任意，要想满足条件①，则需要保证的上界小于等于，而对于，当DS业务流的服务过程在时间内所分配的带宽为时，达到最大值。同理可得，将视为条件②，要想满足条件②，则需要保证的下界大于等于，而对于，当DS业务流的服务过程S₁在时间内所分配的带宽为时，达到最小值。

定理2：考虑图2中的系统模型使用确定性时延保障的分配策略，若DS业务的到达过程为和服务过程为，对于DS业务流的时延确定性约束，则对于任意，DS业务流所分配到的带宽限制需根据式（21）满足以下条件：

（21）

其中，。

对于任意，DS业务流所分配到的带宽限制满足式（21）的限制，但是研究跨层调度策略下DT业务流的时延性能，还需进一步了解，因此本发明对进一步分析，由于服从参数为的指数分布，因此也服从参数为的指数分布，由指数分布的期望和高阶矩可知，，其中n为非负整数。由于为负实数，因此还可转化为式（22）：

（22）

其中，是形式上的组合数，式（22）中的组合数可参考。在的情况下，且h的取值满足时，可利用了牛顿广义二项式定理进行如上转化。并且，经分析可知，随h着的增加，呈单调递减的趋势，由此可得的具体值。

由于DS业务流为确定性周期到达过程，平均带宽的取值与当前队列状态以及当前的信道条件决定，在信道感知和队列感知的情况下，系统为DS业务流分配平均带宽，则相应为DT业务流分配的带宽为。

推论1：考虑图2中的系统模型，给定DS业务流确定性时延约束，若DT业务流的到达过程和服务过程为均为相互独立的i.i.d过程，系统使用确定性时延保障的分配策略后，DT分配的带宽为，给定DT业务流的时延门限与自由优化参数以及时延违背概率之间的关系如式（23）所示：

（23）

其中，自由优化参数满足，这里，，在中的值为。

因此，本发明基于随机衰落信道和精确边界的分析过程，用闭合表达式表征服务过程的累计量，使所得到的分析结果也是闭合的。如图3所示，给出了DT业务流时延违背概率与其时延门限之间的关系，包含理论分析结果和蒙特卡洛仿真结果，实线代表理论分析结果，散点代表蒙特卡洛仿真结果。本发明使用模拟来评估时延违背概率范围从10⁰到10^-4的界限的准确性。延迟分布尾部的指数衰减率对平均SNR具有依赖性，即衰减率随着增加而增加。和蒙特卡洛模拟实验的对比表明，这里的分析提供的计算上限与蒙特卡洛仿真系统相当接近，验证了使用随机网络演算理论分析基于DS业务流确定性时延约束的DT业务流的时延性能的准确性。同时还精确刻画出时延确定性约束、超时概率与传输速率之间的关系，更好地实现非平稳变化的信道条件和业务状态下的5G工业无线网络的系统性能分析，为5G承载工业时延敏感业务的可靠调度和确定性时延保障的资源调度方法提供有力的理论依据。

步骤S3：基于5G无线时延敏感网络模型的网络性能边界获取确定性时延保障的分配策略，用于对时延敏感流和时延容忍流共存下的工业无线网络资源进行优化配置，以满足时延敏感流确定性时延约束的同时最大化时延容忍流长期时间的平均速率。

本实施例中，步骤S3具体包括：

步骤S31：基于5G无线时延敏感网络模型的网络性能边界建立时延敏感流和时延容忍流共存下的工业无线网络资源优化配置问题；

步骤S32：采用李雅普诺夫优化理论对工业无线网络资源优化配置问题优化，解耦成为每个时隙内带宽资源优化调度问题；

具体地，基于DS业务流确定性时延约束下DT业务流的时延性能在上述使用SNR域中基于随机网络演算理论的方法得到了很好地评估。因此建立DS业务流和DT业务流共存下的工业无线网络资源优化配置问题，以进一步确定所需的最佳信道带宽资源分配，以满足DS业务流确定性时延约束保障需求下最大化DT业务流长期时间的平均速率。

因此，结合式（1）的定义，进一步假设为在t时刻的第i条业务流的队列长度，也就是队列积压量，。依据Lindley方程可知业务队列长度可以如式（24）表示：

（24）

式（24）表示业务队列中积压的流量等于前一时刻结束时积压的流量加上这一时刻内之间到达的流量减去服务的流量。本发明考虑易处理性，假设排队容量无限，且对于任何时刻而言，。

设，，分别表示系统在t时刻内对DS业务流和DT业务流的带宽分配情况。设，，为了进一步研究无线信道时变、移动终端位置不确定等对时延敏感业务确定性传输时延的影响，本发明提出的工业无线网络资源优化配置问题，其实就是在多个工业生产控制业务混合接入时，保障业务队列的稳定和DS业务流的时延确定性约束的条件下，最大化DT业务流长期时间的平均速率，如式（25）和（26）所示：

（25）

（26）

式（26）中，C1表示DS业务流的时延确定性约束，C2表示DT业务流的硬时延约束，C3表示对应于业务队列的稳定性约束，C4表示分配的带宽资源约束。

在随机信道条件和随机数据到达的情况下，无法预测未来信道条件和数据到达量，因此很难保证在每个时隙内做出决策时都满足长期的约束。此外，时变条件下工业无线网络要求5G基站的无线调度器能在一个较短时间（例如一个TTI）内进行实时决策。因此本发明采用李雅普诺夫优化理论将上述问题解耦成每个时隙内带宽资源优化调度问题。

本实施例中，步骤S32具体包括：

步骤S321：定义业务流的队列积压量；

步骤S322：基于李雅普诺夫函数以及李雅普诺夫惩罚函数，使用漂移加惩罚最小化方法，在稳定队列积压量的条件下确定漂移加惩罚函数的上界；

步骤S323：基于机会期望最小化理论，以及根据某一时隙内的队列积压量决定的带宽资源分配动作来最小化漂移加惩罚函数的上界；

步骤S324：基于长期每帧内存在的带宽资源约束，对漂移加惩罚函数的上界进行最大化优化，即，解耦成为每个时隙内带宽资源优化调度问题。

具体地，为了稳定业务队列的同时最大化DT业务流长期时间的平均速率，将定义为t时刻的业务流的队列积压量，。引入李雅普诺夫函数以及李雅普诺夫惩罚函数，如式（27）和（28）所示：

（27）

（28）

为了在稳定业务队列的同时最大化时间平均计算速率，使用漂移加惩罚最小化方法，在每一个时刻t最小化以下漂移加惩罚表达式（29）的上限：

（29）

其中，为衡量惩罚的重要权值参数。已知不等式，因此结合式（28）可进一步推导为下式（30）：

（30）

式（30）右侧第一项可进一步简化为

。由表示到达过程的式（3）、（4）和表示服务过程的式（5）可知式（31）和（32）：

（31）

（32）

业务到达的随机过程独立于队列积压量，已知DS业务流为周期到达过程，DT业务流为复合泊松到达过程，因此漂移加惩罚函数的上界可表示为下式（33）：

（33）

其中，C为常量，根据机会期望最小化理论，为了最小化漂移加惩罚函数的上界，需观察在t时刻内的队列积压量，并据此决定带宽资源分配动作。观察式（33），在t时刻内只有后两项与控制变量有关，通过去掉常量，并最大化下式（34）来决定带宽资源分配动作，可以达到最小化漂移加惩罚函数的上界。

（34）

实际上，式（34）的意义为最大化拥有大积压量DS业务流的速率以及拥有大积压量或大惩罚权值的DT业务流的速率。考虑到长期每帧内存在的带宽资源约束，使得在工业无线网络的DS业务流在确定性时延约束的传输保障的下，尽可能提升DT业务流长期时间的平均速率，即，变成在每个时隙内求解MINLP问题，如式（35）所示：

（35）

步骤S33：基于近端策略优化算法使用策略价值网络进行深度强化学习，获取确定性时延保障的分配策略。

本实施例中，步骤S33具体包括：

步骤S331：将5G基站的无线调度器作为预训练好的策略价值网络的智能体，采用马尔科夫决策过程对每个时隙内带宽资源优化调度问题进行建模，马尔科夫决策过程包括动作、状态和奖励；

步骤S332：将每个时隙内分配给时延敏感流的带宽作为智能体的动作，并映射到带宽资源约束的约束区间；

步骤S333：将约束区间观测到的业务队列积压量及业务到达量作为智能体的状态传递至策略网络，并将策略网络的输出结果输入至价值网络；

步骤S334：价值网络采用监督学习的方式更新对状态的评估，获取状态价值最好的动作并通过策略网络输出，以作为确定性时延保障的分配策略。

具体地，基于李雅普诺夫优化理论转化，将问题变成在每个时隙内求解MINLP问题。针对工业无线时变信道和业务状态处于非平稳变化状态，采用在线强化学习算法可以快速响应动态环境中的变化，并且不需要太多数据即可做出决策。因此，本发明采用在线强化学习算法解决每个时隙内求解MINLP问题，针对系统中具有时间敏感业务流的无线调度器设计了一个DRL框架，采用策略价值网络（Actor-critic网络），利用PPO算法进行带宽资源的合理分配，以实现5G带宽资源有效性、传输可靠性和时延确定性之间的有机平衡。

针对该带宽资源分配问题，先进行马尔可夫决策过程建模。马尔可夫决策过程包括动作、状态、奖励三个部分。

（ⅰ）动作：假设系统中存在1条DS业务流以及1条DT业务流，即。由于带宽资源约束C4将DS业务流和DT业务流的带宽资源捆绑在一起，因此在智能体决策过程中，可以单独将DS业务流在每个时隙内的分配到的带宽设为智能体的动作，将由计算得到，以此降低决策复杂度。带宽资源分配动作为连续动作，采用一个有界的Beta分布可以把采样到的[0,1]区间内的动作映射到C4中对带宽的约束区间。

（ⅱ）状态：为智能体的观测状态向量，这里将业务队列积压量以及业务到达量设为观测状态为，其中的下标当时表示DS业务流，而表示DT业务流。

（ⅲ）奖励：训练奖励为在特定状态并采取特定动作的“优度”，这里将最大化目标函数以及时延约束（C1和C2）定为训练奖励，即，设定保证时延约束C1和C2条件下尽可能使得目标函数最大化的动作将得到更大的奖励值，如式（36）所示：

（36）

其中，为时延约束奖励和目标函数奖励之间的权值参数，越大则时延约束奖励对动作决策的影响越大，反之，目标函数的对动作决策影响越大。

对于时延约束C1和C2对动作的影响设为，由于DS业务流的时延约束为确定性约束，DT业务流的时延约束为硬时延约束（时延上界约束），依据状态下的决策动作可以推导出在当前带宽分配决策下，两类业务流的时延，因此设计两类业务流的时延约束奖励函数，如式（37）和（38）所示：

（37）

（38）

其中，当时表示DS业务流，而表示DT业务流。由于本发明重点研究对象为保障DS业务流的确定性时延约束，降低无线传输的不可靠因素带来的抖动，因此对于满足DT业务流的时延约束的动作奖励不做特别处理。对于目标函数奖励的设计，由式（35）转化得到，如式（39）和（40）所示：

（39）

（40）

此外，这里通过奖励稀疏化引入指数函数以及对数函数，调整时延约束奖励的尺度，避免因过大或过小的奖励对价值函数的训练产生负面影响。

为了保证优化的稳定性，采用策略梯度的优化损失函数保证每一步优化得到的新的策略概率分布与旧的策略概率分布之间的差距不能太大，因此PPO算法中策略梯度的优化损失函数如式（41）所示：

（41）

其中，表示新旧策略之间的比率，为新策略网络的网络参数，是旧策略网络的网络参数，为保证优化稳定性的超参数。为优势函数的估计，使用的是GAE来计算，如式（42）所示：

（42）

其中，是通过价值网络计算得到的拟合折扣奖励，表示在下得到的折扣奖励的期望，是价值网络的网络参数，为只考虑当前时刻之后的带折扣因子的累积奖励。

价值网络将利用采样的样本数据，用监督学习的方式来更新对状态的评估，价值网络的优化损失函数为式（43）所示：

（43）

该算法需要定义三个神经网络，其中actor网络有两个，分别是旧策略网络和新策略网络；critic网络只有一个。actor网络的输入为状态，输出为动作概率分布的参数，critic网络的输入为状态，输出为状态的价值。如果actor网络输出的动作越能够使优势变大，那么就越好。如果critic网络输出的状态价值估计越准确，那么就越好。因此，获取状态价值最好的动作并通过策略网络输出，以作为确定性时延保障的分配策略。基于李雅普诺夫优化理论PPO算法对策略价值网络进行训练的算法流程如图4所示。

综上，本实施例提供的5G工业时延敏感业务资源调度方法，在信道不确定的环境下，针对非平稳变化的信道条件和业务状态下的工业无线网络，通过构建5G无线时延敏感网络模型，利用随机网络演算理论，确定5G无线时延敏感网络模型的网络性能边界，基于5G无线时延敏感网络模型的网络性能边界获取确定性时延保障的分配策略，对时延敏感流和时延容忍流共存下的工业无线网络资源进行优化配置，满足时延敏感流确定性时延约束的同时最大化时延容忍流长期时间的平均速率，通过李雅普诺夫优化理论和近端策略优化算法实现网络带宽资源的最佳动态分配，降低无线信道时变、业务状态变化等对时延敏感业务传输带来的时延抖动，实现5G承载工业时延敏感业务的可靠调度和确定性时延保障的资源调度，满足了工业时延敏感业务的可靠性传输和确定性时延保障需求。

实施例二

参照图5所示，本实施例提供一种5G工业时延敏感业务资源调度装置，该装置应用于工业无线网络异构业务接入场景，场景由一个5G基站和5G基站覆盖范围内多个工业设备终端组成，用于工业生产控制业务，工业生产控制业务在对应的系统中会产生时延敏感流和时延容忍流两种不同类型的业务流，该装置包括：

5G无线时延敏感网络模型生成模块21，用于分别对时延敏感流和时延容忍流进行业务建模，以及对工业无线网络下行链路传输过程中的无线信道进行服务建模，以得到5G无线时延敏感网络模型；

网络性能边界确定模块22，用于应用随机网络演算理论确定5G无线时延敏感网络模型的网络性能边界，确定网络性能边界包括：确定时延敏感流确定性时延约束，以及基于时延敏感流确定性时延约束确定时延容忍流的时延性能；

分配策略获取模块23，用于基于5G无线时延敏感网络模型的网络性能边界获取确定性时延保障的分配策略，确定性时延保障的分配策略用于对时延敏感流和时延容忍流共存下的工业无线网络资源进行优化配置，以满足时延敏感流确定性时延约束的同时最大化时延容忍流的平均速率。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，所以相关之处参见方法实施例的部分说明即可，在此不再赘述。以上所描述的装置实施例仅仅是示意性的，可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。

实施例三

如图6所示，本实施例提供一种电子设备，该电子设备包括：处理器（processor）310、通信接口（Communications Interface）320、存储器（memory）330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，处理器310执行上述方法实施例所述的5G工业时延敏感业务资源调度方法，该方法包括：

分别对时延敏感流和时延容忍流进行业务建模，以及对工业无线网络下行链路传输过程中的无线信道进行服务建模，以得到5G无线时延敏感网络模型；

应用随机网络演算理论确定5G无线时延敏感网络模型的网络性能边界，确定网络性能边界包括：确定时延敏感流确定性时延约束，以及基于时延敏感流确定性时延约束确定时延容忍流的时延性能；

基于5G无线时延敏感网络模型的网络性能边界获取确定性时延保障的分配策略，用于对时延敏感流和时延容忍流共存下的工业无线网络资源进行优化配置，以满足时延敏感流确定性时延约束的同时最大化时延容忍流长期时间的平均速率。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

实施例四

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例所述的5G工业时延敏感业务资源调度方法，该方法包括：

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种5G工业时延敏感业务资源调度方法，其特征在于，所述方法应用于工业无线网络异构业务接入场景，所述场景由一个5G基站和所述5G基站覆盖范围内多个工业设备终端组成，用于工业生产控制业务，所述工业生产控制业务在对应的系统中会产生时延敏感流和时延容忍流两种不同类型的业务流，所述方法包括：

2.根据权利要求1所述的5G工业时延敏感业务资源调度方法，其特征在于，将所述5G无线时延敏感网络模型定义为一个基于流业务模型的离散时间的排队模型，对应地，所述应用随机网络演算理论确定所述5G无线时延敏感网络模型的网络性能边界，包括：

3.根据权利要求2所述的5G工业时延敏感业务资源调度方法，其特征在于，所述将所述累积到达量、所述累积服务量和所述累积离开量映射至传输域，使用梅林变换评估业务队列在所述传输域中的稳定性，以获得稳定业务队列的性能边界，包括：

4.根据权利要求1所述的5G工业时延敏感业务资源调度方法，其特征在于，所述时延性能包括：时延门限与时延违背概率的关系，对应地，所述确定所述网络性能边界包括：确定时延敏感流确定性时延约束，以及基于所述时延敏感流确定性时延约束确定时延容忍流的时延性能，包括：

5.根据权利要求1所述的5G工业时延敏感业务资源调度方法，其特征在于，所述基于所述5G无线时延敏感网络模型的网络性能边界获取确定性时延保障的分配策略，用于对所述时延敏感流和所述时延容忍流共存下的工业无线网络资源进行优化配置，以满足所述时延敏感流确定性时延约束的同时最大化所述时延容忍流长期时间的平均速率，包括：

6.根据权利要求5所述的5G工业时延敏感业务资源调度方法，其特征在于，所述采用李雅普诺夫优化理论对所述工业无线网络资源优化配置问题优化，解耦成为每个时隙内带宽资源优化调度问题，包括：

定义业务流的队列积压量；

7.根据权利要求5所述的5G工业时延敏感业务资源调度方法，其特征在于，所述基于近端策略优化算法使用策略价值网络进行深度强化学习，获取确定性时延保障的分配策略，包括：

8.一种5G工业时延敏感业务资源调度装置，其特征在于，所述装置应用于工业无线网络异构业务接入场景，所述场景由一个5G基站和所述5G基站覆盖范围内多个工业设备终端组成，用于工业生产控制业务，所述工业生产控制业务在对应的系统中会产生时延敏感流和时延容忍流两种不同类型的业务流，所述装置包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的5G工业时延敏感业务资源调度方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的5G工业时延敏感业务资源调度方法。