CN112153702A

CN112153702A - 一种局域网带宽资源分配方法、存储装置及设备

Info

Publication number: CN112153702A
Application number: CN202011220383.5A
Authority: CN
Inventors: 郭云飞; 袁旭; 陈永杰; 张燕
Original assignee: Guangzhou Jingyuan Safety Technology Co ltd
Current assignee: Guangzhou Jingyuan Safety Technology Co ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2020-12-29
Anticipated expiration: 2040-11-05
Also published as: CN112153702B

Abstract

本发明公开了一种局域网带宽资源分配方法、存储装置和移动设备，方法包括步骤S1:设备负载测量步骤；S2:业务流量测量步骤：S3:业务带宽动态分配步骤：采用Actor‑Critic深度强化学习算法，对设备负载测量、业务测量得到的统计数据以及用户对业务质量的感知数据进行分析处理并生成业务带宽资源分配方案；S4:设备在线配置步骤；S5:业务质量测量步骤；S6:用户业务主观感知值计算步骤。本发明采用了深度强化学习模型以实现基于业务流量状态和用户业务主观感知向量的实现基于深度神经网络的非线性最优化，在深度强化学习的状态向量中引入了滑动窗口以引入时间序列提升优化效果。

Description

一种局域网带宽资源分配方法、存储装置及设备

技术领域

本发明涉及无线通信网络领域，具体涉及一种局域网带宽资源分配方法、存储装置及设备。

背景技术

局域网内多种业务类型共享网络出口带宽资源，由于各类业务的流量随机性，造成在有限的网络出口带宽资源的情况下，各类业务的用户感知到的业务质量会发生波动，当这样的波动达到一定的程度就会在网络出口处出现流量溢出，从而导致用户感知劣化。

在网络出口设备处会对来自不同用户及业务类型的流量进行调度，在某种策略的判决下占用出口链路，从而达到某种带宽资源分配目标。

为了解决上述的不同业务类型流量抢占出口带宽资源造成的业务质量下降，通常有以下方法：

按优先级调度：

给每一种业务类型分配一个固定的优先级，在网络出口处，按照业务优先级进行报文调度，具体的做法有固定严格优先级调度、加权轮询调度等等。

为各类业务或业务组分配固定的带宽：

在网络出口设备处事先配置好每一类业务或业务组可以使用的带宽上限，当各类业务流量到达时，网络出口设备就按照事先配置好的参数严格限制每类业务或业务组可以使用的带宽的上限，超限的流量被丢弃。

固定分配带宽和带宽优先级混合调度：

综合采用固定分配带宽和优先级调度的方法，较高优先级的业务或业务组超限部分的流量可以借用较低优先级业务或业务组未使用部分的流量。

动态带宽资源分配：

通过采集网络流量的实际数据及简单的业务质量QoS如丢包率、报文转发延迟等，根据某种自适应算法对网络带宽策略进行调整以优化QoS表现。

按优先级调度的方法不能保证较低优先级业务在共享带宽资源时的公平性，当较高优先级业务占据大量带宽资源时，较低优先级业务的质量将急剧下降。

以上现有的带宽资源分配方法具有以下不足：

为各类业务或业务组分配固定带宽的方法，不能根据各类业务的实际带宽占用及业务质量动态调整分配策略，造成无法充分利用带宽资源。此外已超限的业务或业务组无法使用其它业务或业务组空闲的带宽资源，造成资源的浪费。

目前的动态带宽资源分配方法中自适应算法的输入是业务的简单质量指标，如丢包率、报文转发延迟等等，依据这些指标进行自适应带宽分配不能如实体现用户的业务质量感知最优化的目标，此外目前使用的自适应算法使用的是决策树等传统的机器学习算法，无法充分利用蕴含在输入参数中的高维度特征从而获得最优的结果。

固定分配带宽和带宽优先级混合调度的方法可以缓解上述方法造成的带宽资源浪费，但是仍然属于固定分配策略，不能够根据带宽资源占用状态和业务质量情况动态调整，不能够达到带宽资源的最大化利用，并且业务在借用其它业务类型带宽资源时，突发流量会导致被借用带宽资源的业务质量受到不可控的影响。

因此，需要对现有的局域网带宽分配方法进行优化，以优化用户对业务质量的感知，使用QoE作为算法的训练参数能够更好地收敛于最优方案。

发明内容

为了解决上述技术问题，本发明的提出了一种面向用户对于业务质量的主观感受的局域网带宽资源最优分配系统和方法，采用基于Actor-Critic深度强化学习算法对带宽资源进行动态调度以最优化用户的业务质量感知。

为实现上述目的，本发明采取的技术方案如下：一种基于深度强化学习的局域网带宽资源分配系方法，适用于在智能终端中执行，该方法包括以下步骤：

S1: 设备负载测量步骤:在时刻t时汇总前L个时间窗口内设备处理各业务类型的资源负载并统计数据，第i个业务类型的设备资源负载向量为：

；

其中

表示时间窗口内该业务专有缓存的平均利用率；

S2: 业务流量测量步骤：在时刻t时汇总前L个时间窗口内各业务类型实际到达设备的流量并统计数据，第i个业务类型的流量向量为：

；

其中，

表示第i类业务在L个最近时间窗口内不同流量组成成分，每一个流量向量组成成分都为一个长度为L的向量，N表示设备处理的业务总数；

S3: 业务带宽动态分配步骤：采用Actor-Critic深度强化学习算法，对设备负载测量、业务测量得到的统计数据以及用户对业务质量的感知数据进行分析处理并生成业务带宽资源分配方案；

S4: 设备在线配置步骤，根据生成的业务带宽资源分配方案，通过设备内部的配置接口，在线调整各业务类型对应的缓冲资源及调度参数并实施带宽分配方案；

S5: 业务质量测量步骤：分别采集基础QoS和应用层QoS数据进行以下业务测量操作：

对于所有业务类型，均采集每个时间窗口内两个基础QoS数据：

根据第i类业务的专有缓存的溢出率

，通过监测业务报文统计得到的时间窗内口第i类业务平均TCP连接清除时延

，根据以上两个数据确定业务类型i的QoS值：

（1）；

其中，OFBS和SCDBS均为系统可配置参数；

对于WEB业务、FTP业务、Email业务、流媒体业务这四类特殊业务还要统计其应用层QoS数据。S6: 用户业务主观感知值计算步骤：根据韦伯-费希纳定律，人类主观感受和客观物理刺激的关系如公式

所示，进而得出

。运用在计算用户对业务质量的主观感知数值QoE中，采用以下公式计算时间窗口t的用户业务主观感知数值QoE：

（2）；

式中，

为第i类业务QoS参数在计算QoE时的权重系数；

是第i类业务QoS参数的基准参考值；

计算所得QoE数值为各业务类型QoE数值的平均值，并作为业务带宽动态分配算法的

值。

优选地，所述

，表示第i类业务在L个最近时间窗口内的平均报文到达速率；

所述

，表示第i类业务在L个最近时间窗口内的平均比特速率；

所述

，表示第i类业务在L个最近时间窗口内的平均会话到达速率；

所述

，表示第i类业务在L个最近时间窗口内报文长度的中位数；

以上各表达式中N表示设备处理的业务总数。

优选地，所述Actor-Critic深度强化学习算法对数据处理的过程如下：

a)统初始化并为各业务类型分配初始带宽

；

b)测量得到的N个流量向量

及N个设备资源负载向量

，并将二者拼接而成算法的状态向量

；

c)以状态向量

为输入，输出策略

，其中，策略

，即从第e个业务类型的分配带宽中扣除带宽

，并将此带宽添加到第r个业务类型的分配带宽中，

为系统配置，

为选用每一个策略的概率；

d)策略概率取样器根据策略生成网络给出的策略向量，依据种带宽调整策略的选用概率选中一个具体的策略作为当前状态下的动作

；

e)V值估计网络以状态向量

为输入，以价值

作为输出；

f)以公式

（3），

计算损失，用于训练策略生成网络；

h)以公式

（4），

计算损失，用于训练V值估计网络；

其中，

由公式（2）计算所得，

、n均为系统配置参数。

优选地，所述业务质量测量步骤中还包括对特殊业务的业务质量测量：对于特殊业务类型，采集每个时间窗口内两个基础QoS数据以及每个时间窗口内的应用层QoS指标。

优选地，所述特殊业务的应用层QoS指标采集采用如下方法：

WEB业务，其应用层QoS指标包括：空白等待时间

、网页主体显示时间

和内嵌内容显示时间

，WEB业务的应用层QoS值由以下公式计算得到：

（5），

其中

、

、

均为系统可配置参数，以上指标的采集及QoS的计算均在每个时间窗口内单独进行；

FTP业务，其应用层QoS指标包括：登录等待时间

和业务失败率

FTP业务的应用层QoS值由以下公式计算得到：

（6），

其中

、

Email业务，其应用层QoS指标包括：登录等待时间

和业务失败率

，所述Email业务的应用层QoS值由以下公式计算得到：

（7），

其中

、

均为系统可配置参数，以上指标的采集及QoS的计算均在每个时间窗口内单独进行;

流媒体类业务，其应用层QoS指标包括：登录等待时间

和流媒体中断播放等待缓存次数

，所述流媒体业务的应用层QoS值由以下公式计算得到:

)/2 （8），

其中

、

均为系统可配置参数,以上指标的采集及QoS的计算均在每个时间窗口内单独进行。

优选地，若第i类业务为特殊业务，则时间窗口t内其

为该时间窗口内

与该时间窗口内该业务的应用层QoS之和，如果第i类业务不属于所述特殊业务，则时间窗口t内其

为该时间窗口内

。

一种存储装置，该存储装置中存储有多条指令，其特征在于，所述指令适用于由处理器加载并执行步骤S1-S6的操作。

一种设备，包括用于执行各指令的处理器和用于存储多条指令的存储装置，所述指令适用于由所述处理器加载并执行步骤S1-S6的操作。

本发明有益的技术效果：

1）本发明在多类型业务共享局域网带宽资源的环境中，使用基于Actor-Critic深度强化学习的方法，对各业务动态分配带宽资源，以优化用户对业务质量的感知。

2）本发明使用滑动时间窗口的方法，在深度强化学习算法的状态参数中引入了历史统计数据，使动态带宽分配算法能够充分利用时间序列蕴含的信息。

3）本发明在测量业务质量QoS时，引入了面向应用层的质量测量指标，对各类业务能够更好捕捉用户感受的QoS。

4）本发明使用韦伯-费希纳定律对统计得到的各业务的QoS进行计算，得到用户对业务质量QoS的主观感受QoE，由于QoS和QoE存在非线性关系，而用户主观感受是系统的真正优化目标，使用QoE作为算法的训练参数能够更好地收敛于最优方案。

附图说明

图1为本发明一种局域网带宽资源分配系方法的步骤流程图。

图2 为本发明的业务带宽动态分配算法结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例对本发明进行进一步详细说明，但本发明要求保护的范围并不局限于下述具体实施例。

我们记局域网内为用户提供的服务类型为N，业务集合记为

，网络出口设备中在时刻t为这N类业务分别预留一定量的带宽作为其可用带宽，记为：

。

以下是本发明的一个具体实施例：

如图1所示，一种基于深度强化学习的局域网带宽资源分配系方法，适用于在智能终端中执行，该方法包括以下步骤：

；

其中

表示时间窗口内该业务专有缓存的平均利用率；

；

其中，

表示第i类业务在L个最近时间窗口内不同流量组成成分，每一个流量向量组成成分都为一个长度为L的向量。

具体地，所述

所述

，表示第i类业务在L个最近时间窗口内的平均比特速率；

所述

所述

，表示第i类业务在L个最近时间窗口内报文长度的中位数。

如图2所示，所述Actor-Critic深度强化学习算法对数据处理的过程如下：

a)初始化并为各业务类型分配初始带宽

；

b)测量得到的N个流量向量

及N个设备资源负载向量

，并将二者拼接而成算法的状态向量

；

c)以状态向量

为输入，输出策略

，其中，策略

，即从第e个业务类型的分配带宽中扣除带宽

，并将此带宽添加到第r个业务类型的分配带宽中，

为系统配置，

为选用每一个策略的概率；

；

e)V值估计网络以状态向量

为输入，以价值

作为输出；

f)以公式

（3），

计算损失，用于训练策略生成网络；

h)以公式

（4），

计算损失，用于训练V值估计网络；

其中，

由公式（2）计算所得，

、n均为系统配置参数。

S5: 业务质量测量步骤：分别采集基础QoS（Quality of Service，服务质量）和应用层QoS数据进行以下业务测量操作：

根据第i类业务的专有缓存的溢出率

，根据以上两个数据确定业务类型i的QoS值：

（1）；

其中OFBS和SCDBS均为系统可配置参数；

对于特殊业务类型还采集应用层QoS指标以更好地反映用户对业务质量的主观感受，包括以下特殊业务类型：

i.WEB业务，应用层QoS指标包括：空白等待时间

，即用户点击某个网站链接后经历的空白等待时间；网页主体显示时间

，即网页显示主体框架及其中文字的时间；内嵌内容显示时间

，即主页面内所有内嵌文件显示完成的时间。

ii.FTP业务，应用层QoS指标包括：登录等待时间

和业务失败率

。

iii.Email业务，应用层QoS指标包括：登录等待时间

和业务失败率

。

iv.流媒体类业务，应用层QoS指标包括：登录等待时间

和流媒体中断播放等待缓存次数

。

由于以上应用层QoS指标同时依赖于服务器侧的性能和资源情况，因此，系统只选取经过验证确定稳定的服务器作为基准服务器进行测量。

S6: 用户业务主观感知值计算步骤：采用以下公式计算时间窗口t的用户业务主观感知数值QoE：

（2）；

式中，

为第i类业务QoS参数在计算QoE时的权重系数；

是第i类业务QoS参数的基准参考值；

值。

系统初始化时为各业务类型分配初始带宽

，这个初始带宽值可通过系统配置。迭代时间长度也可以通过系统配置。到时刻t时，模块的策略空间为

，即从第e个业务类型的分配带宽中扣除带宽

，并将此带宽添加到第r个业务类型的分配带宽中，

可以通过系统配置。

一种存储装置，该存储装置中存储有多条指令，其特征在于，所述指令适用于由处理器加载并执行步骤S1-S6所述的步骤操作。

一种设备或移动终端，包括用于执行各指令的处理器和用于存储多条指令的存储装置，其特征在于，所述指令适用于由所述处理器加载并执行步骤S1-S6所述的步骤操作。

本发明在多类型业务共享局域网带宽资源的环境中，使用基于Actor-Critic深度强化学习的方法，对各业务动态分配带宽资源，以优化用户对业务质量的感知。

本发明使用滑动时间窗口的方法，在深度强化学习算法的状态参数中引入了历史统计数据，使动态带宽分配算法能够充分利用时间序列蕴含的信息。

本发明在测量业务质量QoS时，引入了面向应用层的质量测量指标，对各类业务能够更好捕捉用户感受的QoS。

本发明使用韦伯-费希纳定律对统计得到的各业务的QoS进行计算，得到用户对业务质量QoS的主观感受QoE，由于QoS和QoE存在非线性关系，而用户主观感受是系统的真正优化目标，使用QoE作为算法的训练参数能够更好地收敛于最优方案。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还可以对上述实施方式进行变更和修改。因此，本发明并不局限于上面揭示和描述的具体实施方式，对发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对发明构成任何限制。

Claims

1.一种局域网带宽资源分配方法，适用于在智能终端中执行，其特征在于，该方法包括以下步骤：

；

其中 oc表示时间窗口内该业务专有缓存的平均利用率，N为设备处理的业务总数；

；

其中，

表示第i类业务在L个最近时间窗口内不同流量组成成分，每一个流量向量组成成分都为一个长度为L的向量，N为设备处理的业务总数；

使用步骤S1和步骤S2统计、测量得到的信息作为算法的输入状态参数，使用步骤S6计算得到的用户业务主观感知值作为算法中策略回报值

；

S4: 设备在线配置步骤:根据生成的业务带宽资源分配方案，通过设备内部的配置接口，在线调整各业务类型对应的缓冲资源及调度参数并实施带宽分配方案；

对于所有业务类型，均采集每个时间窗口内两个基础QoS数据：根据第i类业务的专有缓存的溢出率

，根据以上两个数据确定业务类型i的基础QoS值：

（1）；

其中，OFBS和SCDBS均为系统可配置参数，N为设备处理的业务总数；

对于特殊业务，还要统计其应用层QoS数据，所述特殊业务包括WEB业务、FTP业务、Email业务和流媒体业务这四类业务；

若第i类业务为所述特殊业务，则时间窗口t内其

为该时间窗口内

为该时间窗口内

；

（2）；

式中， Wi为第i类业务QoS参数在计算QoE时的权重系数；

是第i类业务QoS参数的基准参考值；

值。

2.如权利要求1所述的一种局域网带宽资源分配方法，其特征在于：

所述

所述

，表示第i类业务在L个最近时间窗口内的平均比特速率；

所述

所述

，表示第i类业务在L个最近时间窗口内报文长度的中位数；

以上各表达式中N表示设备处理的业务总数。

3.如权利要求1所述的一种局域网带宽资源分配方法，其特征在于：所述Actor-Critic深度强化学习算法对数据处理的过程如下：

系统初始化并为各业务类型分配初始带宽

；

测量得到的N个流量向量

及N个设备资源负载向量

，并将二者拼接而成算法的状态向量

；

以状态向量

为输入，输出策略

，其中，策略

，即从第e个业务类型的分配带宽中扣除带宽

，并将此带宽添加到第r个业务类型的分配带宽中，

为系统配置，

为选用每一个策略的概率；

策略概率取样器根据策略生成网络给出的策略向量，依据种带宽调整策略的选用概率选中一个具体的策略作为当前状态下的动作

；

V值估计网络以状态向量

为输入，以价值

作为输出；

以公式

（3），计算损失，用于训练策略生成网络；

以公式

（4），计算损失，用于训练V值估计网络；

其中，

由公式（2）计算所得，

、n均为系统配置参数，N为设备处理的业务总数。

4.如权利要求1所述的一种局域网带宽资源分配方法，其特征在于：所述业务质量测量步骤中还包括对特殊业务的业务质量测量：对于特殊业务类型，采集每个时间窗口内两个基础QoS数据之外还要采集每个时间窗口内的应用层QoS指标，所述特殊业务的应用层QoS指标采集采用如下方法：

WEB业务，其应用层QoS指标包括：空白等待时间 UWPw、网页主体显示时间UWTmp和内嵌内容显示时间UWTe，WEB业务的应用层QoS值由以下公式计算得到：

（5），

其中UWPBSw、UWPBSmp、UWPBSe均为系统可配置参数，以上指标的采集及QoS的计算均在每个时间窗口内单独进行；

FTP业务，其应用层QoS指标包括：登录等待时间UFTw和业务失败率UFFR,FTP业务的应用层QoS值由以下公式计算得到：

（6），

Email业务，其应用层QoS指标包括：登录等待时间

和业务失败率

，所述Email 业务的应用层QoS值由以下公式计算得到：

（7），

流媒体类业务，其应用层QoS指标包括：登录等待时间 UMTw和流媒体中断播放等待缓存次数UMPF，所述流媒体业务的应用层QoS值由以下公式计算得到:

（8），

公式（6），（7）和（8）中，UWTBSw、UFFRBS均为系统可配置参数,以上指标的采集及QoS的计算均在每个时间窗口内单独进行。

5.一种存储装置，该存储装置中存储有多条指令，其特征在于，所述指令适用于由处理器加载并执行如权利要求1-4任一所述的步骤操作。

6.一种设备，包括用于执行各指令的处理器和用于存储多条指令的存储装置，其特征在于，所述指令适用于由所述处理器加载并执行如权利要求1-4任一所述的步骤操作。