CN113364630A

CN113364630A - 一种服务质量QoS差异化优化方法、装置

Info

Publication number: CN113364630A
Application number: CN202110663039.1A
Authority: CN
Inventors: 蔡君; 付鸿添; 刘燕; 罗建桢; 廖丽平
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-09-07
Also published as: US20220400062A1; US11616702B2

Abstract

本发明公开一种服务质量QoS差异化优化方法、装置，其中，所述方法包括：建立多任务卸载框架的系统模型；获取用户执行计算任务的模式，根据所述用户执行计算任务的模式，来执行所述多任务卸载框架的系统模型；基于多智能体深度强化学习的多目标优化方法，优化服务质量QoS。本发明基于多智能体深度强化学习的多用户差异化QoS计算卸载策略，考虑了系统中不同用户之间差异化的QoS需求，根据任务性能需求与网络资源状态进行全局卸载决策，对不同用户需求进行差异化性能优化，有效提高系统资源利用率以及用户服务质量。

Description

一种服务质量QoS差异化优化方法、装置

技术领域

本发明涉及通信技术领域，特别涉及一种服务质量QoS差异化优化方法、装置。

背景技术

近年来，以虚拟现实、增强现实为代表的计算密集型应用程序的广泛使用，对有限计算能力与电池容量的终端提出了极大的挑战。现有的计算卸载相关研究大多是对系统整体时延或整体能耗进行优化，忽略了不用的用户之间存在不同的QoS(Quality ofService，服务质量)需求，在权衡时延与能耗的研究中，大多通过设置权重的方式将时延与能耗进行结合，应用场景局限，当任务需求发生改变时，需要重新设置权值以及重新训练决策网络，操作复杂并且效率低下。

发明内容

本发明的主要目的是提出一种服务质量QoS差异化优化方法，旨在解决现有的当用户计算任务需求发生改变时，需要重新设置权值以及重新训练决策网络，操作复杂并且效率低下技术问题。

为实现上述目的，本发明一方面提出一种服务质量QoS差异化优化方法，包括：

建立多任务卸载框架的系统模型；

获取用户执行计算任务的模式，根据所述用户执行计算任务的模式，来执行所述多任务卸载框架的系统模型；

基于多智能体深度强化学习的多目标优化方法，优化服务质量QoS。

优选地，所述多任务卸载框架的系统模型包括：

MEC基站、云服务器和多个移动用户，其中所述多个移动用户在所述MEC基站信号覆盖范围内。

优选地，所述MEC基站设置边缘计算服务器和决策智能体。

优选地，所述用户执行计算任务的模式包括：

本地执行模式，即用户使用本地资源处理计算任务；

D2D执行模式，即用户通过D2D链路将任务卸载至邻近资源丰富的终端中执行；

D2E执行模式，即用户通过蜂窝链路将任务卸载至边缘服务器中执行；

D2C执行模式，即用户通过蜂窝链路将任务传输至MEC基站，再由MEC基站进一步将任务发送至云服务器中执行。

优选地，所述多任务卸载框架的系统模型包括：

用户模型、通信模型和计算模型。

优选地，所述根据所述用户执行计算任务的模式，来执行所述多任务卸载框架的系统模型包括：

当用户i产生计算任务时，根据用户对QoS的需求以及网络资源状态选择最佳节点执行计算任务

令二进制向量

表示计算任务卸载决策，a_i，j∈{0，1}表示节点j是否执行用户i产生的计算任务；

当a_i，i＝1时，表示任务i在本地执行，a_i，0＝1表示任务i被卸载到MEC服务器执行，a_i，N+1＝1表示任务i被卸载到云中心执行；

由于任务不可拆分，故有

用户i产生的计算任务完成时延为：

能耗为：

优选地，所述基于多智能体深度强化学习的多目标优化方法，优化服务质量QoS包括：

设置状态空间、动作空间和奖励函数；

根据所述状态空间、动作空间和奖励函数，基于MADDPG的多用户差异化进行QoS优化。

优选地，所述设置状态空间包括：

定义时延智能体Delay Agent和能耗智能体Energy Agent，其中时延智能体DelayAgent对时延敏感型任务做卸载决策，能耗智能体Energy Agent对能耗敏感型任务做卸载决策；

使用

表示t时隙内时延智能体Delay Agent与能耗智能体Energy Agent的状态，定义如下

其中d(t)＝{d₁(t)，...，d_N(t)}，其中

表示t时隙用户n与服务器和其他用户的距离，其中d_n，0表示用户n与边缘计算服务器之间的距离；u(t)＝{u₀(t)，...，u_N(t)，u_N+1(t)}表示t时隙用户及服务器可用计算资源，u₀(t)表示边缘服务器可用计算资源,u_N+1(t)表示云服务器可用计算资源；v(t)＝{v₁(t)，...，v_N(t)}表示t时隙用户产生的计算任务的数据量大小，其中v_n(t)＝0表示t时隙用户n没有产生计算任务，c(t)＝{c₁(t)，...，c_N(t)}表示t时隙用户产生的计算任务的计算密度大小，即每比特计算数据所需的CPU循环数，τ(t)＝{τ₁(t)，...，τ_N(t)}表示t时隙用户产生计算任务的约束时延，e(t)＝{e₁(t)，...，e_N(t)}表示t时隙用户产生计算任务的用户能耗约束。

优选地，所述设置动作空间包括：

时延智能体Delay Agent与能耗智能体Energy Agent根据t时隙的状态

为用户选择最佳的任务卸载节点，使用

表示时隙t内Delay Agent与Energy Agent的卸载决策，表示如下：

其中，a_n(t)＝[a_n，0(t)，...，a_n，N，a_n，N+1(t)]为二进制向量，表示用户n产生计算任务的卸载位置，且

即任务不可拆分，全部卸载到选中节点执行。

优选地，所述设置奖励函数包括：

定义即时延奖励

与能量奖励

表示如下：

若卸载决策不满足约束条件，则时延智能体或能耗智能体接收到惩罚值，-η表示该动作不可接受，其中η为设计参数，且η＞0。

另一方面，本发明还提出一种服务质量QoS优化装置，包括：

系统模型建立模块，用于建立多任务卸载框架的系统模型；

系统模型执行模块，用于获取用户执行计算任务的模式，根据所述用户执行计算任务的模式，来执行所述多任务卸载框架的系统模型；

服务质量QoS优化模块，用于基于多智能体深度强化学习的多目标优化方法，优化服务质量QoS。

本发明服务质量QoS差异化优化方法、装置，通过基于多智能体深度强化学习的多用户差异化QoS计算卸载策略，考虑了系统中不同用户之间差异化的QoS需求，根据任务性能需求与网络资源状态进行全局卸载决策，对不同用户需求进行差异化性能优化，有效提高系统资源利用率以及用户服务质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明服务质量QoS差异化优化方法一实施例的方法流程图；

图2为图1中采用的多任务卸载框架的系统模型结构示意图；

图3为图1中采用的算法模型结构示意图；

图4为本发明服务质量QoS优化装置一实施例的结构示意图。

附图标号说明：

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

QoS(Quality of Service，服务质量)指一个网络能够利用各种基础技术，为指定的网络通信提供更好的服务能力，是网络的一种安全机制，是用来解决网络延迟和阻塞等问题的一种技术。QoS的保证对于容量有限的网络来说是十分重要的，特别是对于流多媒体应用，例如VoIP和IPTV等，因为这些应用常常需要固定的传输率，对延时也比较敏感。

本发明提出一种服务质量QoS差异化优化方法。服务质量QoS差异化优化方法用于虚拟现实、增强现实为代表的计算密集型应用程序等，本发明以基于多智能体强化学习的多用户差异化QoS优化方法为例解释本发明。

实施例一

图1为本发明服务质量QoS差异化优化方法一实施例的方法流程图；图2为图1中采用的多任务卸载框架的系统模型结构示意图；图3为图1中采用的算法模型结构示意图。在本发明一实施例中，如图1—图3所示，一种服务质量QoS差异化优化方法，包括步骤：

S1、建立多任务卸载框架的系统模型。

从模型构成上来说，多任务卸载框架的系统模型包括：

MEC基站、云服务器和多个移动用户，其中所述多个移动用户在所述MEC基站信号覆盖范围内。MEC基站设置边缘计算服务器和决策智能体。本实施例中，决策智能体包括时延智能体Delay Agent和能耗智能体Energy Agent。其中，时延智能体Delay Agent用于时延敏感型任务的卸载决策，能耗智能体Energy Agent用于能耗敏感型任务的卸载决策。此外MEC基站通过有线连接与云服务进行通信。把整个网络分成间隔为μ的离散时间槽，记为

考虑在一个时隙内终端的位置与系统特性保持不变的准静态情况。

考虑对不用计算需求的用户进行差异化QoS性能优化。假设时隙内有供电系统的用户产生的任务为时延敏感型任务，无供电系统的用户产生的任务为能耗敏感型任务。针对时延敏感型任务，通过计算卸载决策，最小化时隙所有时延敏感型任务的总时延，提升用户服务质量。针对能耗敏感型任务，通过计算卸载决策，保障用户能够在剩余电量内完成计算任务，杜绝用户电量耗尽任务仍未处理完的情况发生。假设MEC基站具备全局视野，在每个时隙能够获取用户状态与系统状态。MEC基站能够将时隙内所有时延敏感型任务分发至Delay Agent进行决策，将时隙内能耗敏感型任务交由Energy Agent决策。

从模型方式上来说，多任务卸载框架的系统模型包括：用户模型、通信模型和计算模型。

用

表示移动用户的集合。每个移动终端都能通过蜂窝链路与MEC基站通信，处于D2D通信范围ξ内的用户能通过D2D通信链路进行通信。使用

表示产生时延敏感型任务的用户集合，使用

表示产生能耗敏感型任务的用户集合，且G+H＝N.使用一个四元组ψ_n＝{v_n，c_n，τ_n，e_n}来表示用户n计算任务的信息，其中，v_n，c_n表示计算任务的数据量大小以及计算单位bit数据所需的CPU循环，τ_n，e_n表示计算任务的约束时延与约束能耗。无供电系统的用户能耗约束为时隙内电池电量值

以确保任务能在电量耗尽前完成。

通信模型：假设蜂窝网络和D2D链路都是基于多用户正交频分多址接入技术(OFDMA,orthogonal frequency division multiple access)，由于每个信道都是正交分离的，所以信道之间不会相互干扰。

定义

为系统给用户分配的带宽，

表示用户n与MEC基站的蜂窝链路信道功率增益。让N₀表示传输背景噪声功率，

表示用户n的D2E传输功率，d_n，e表示用户n到MEC服务器的距离，β为路径损耗因子。用户将任务数据传输至边缘服务器的传输速率可表示为

同样的，使用

表示用户n与用户m，

之间的D2D链路信道功率增益，d_n，m表示用户n到终端m的距离，β为路径损耗因子。因此，用户将任务数据传输至邻近用户的传输速率可表示为

考虑到MEC基站与云服务器通过有线连接通信，带宽资源充足，我们使用常数Δr^e2c来表示MEC基站到云服务器的传输速率。

S2、获取用户执行计算任务的模式，根据所述用户执行计算任务的模式，来执行所述多任务卸载框架的系统模型。

用户执行计算任务的模式包括：本地执行模式、D2D执行模式、D2E执行模式和D2C执行模式。

本地执行模式，即用户使用本地资源处理计算任务。当用户在本地执行计算任务时，任务完成时延与用户的能量消耗取决于任务处理所需的计算资源以及本地可用的计算资源。任务n在本地计算时的时延

以及能耗

可表示为

其中，v_n，c_n表示计算任务n的数据量大小以及单位比特计算数据所需的CPU循环数，f_n表示用户n分配给任务的计算资源，κ是器件的有效电容数量，这取决于器件的芯片结构。

D2D执行模式，即用户通过D2D链路将任务卸载至邻近资源丰富的终端中执行。当用户将计算任务通过D2D链路卸载到邻近资源丰富的用户m，

中执行时，计算任务的完成时延

为任务的传输时间和任务在用户m的处理时间之和，即：

当用户将任务卸载到其他节点中计算时，需要考虑用户等待结果回传所消耗的能量，因此用户n的消耗的能量可以表示为：

其中，

表示D2D通信数据率，

表示服务终端m分配给任务n的计算资源，

表示用户n的d2d传输功率以及空闲状态下的等待功率。根据Chai等人的假设，用户的D2D传输功率略小于D2E传输功率，在条件允许下选择D2D卸载能够有效降低用户能耗。

D2E执行模式，即用户通过蜂窝链路将任务卸载至边缘服务器中执行。当用户将计算任务卸载到MEC基站中执行时，计算任务的完成时延分成两个部分：数据的传输时延以及任务在MEC服务器中的处理时延。则D2E时延定义为：

用户所消耗的能量可表示为：

其中，

表示D2E通信数据率，

表示边缘计算服务分配给任务n的计算资源，

表示用户n的d2e传输功率以及空闲状态下的能耗。

D2C执行模式，即用户通过蜂窝链路将任务传输至MEC基站，再由MEC基站进一步将任务发送至云服务器中执行。当用户将计算任务卸载云服务器中执行，任务的完成时间包含三个部分：任务数据传输到MEC基站的时间、MEC基站将任务数据传输到云服务器的时间以及任务在云服务器中处理的时间。则D2C时延定义为：

与D2D卸载、D2E卸载类似，D2C卸载的用户能耗可以表示为：

其中，

表示云服务器分配给任务n的计算资源，

表示用户n的传输功率以及空闲状态下的能耗,常数Δr^e2c来表示MEC基站到云服务器的传输数率。

根据所述用户执行计算任务的模式，来执行所述多任务卸载框架的系统模型包括：

令二进制向量

由于任务不可拆分，故有

用户i产生的计算任务完成时延为：

能耗为：

S3、基于多智能体深度强化学习的多目标优化方法，优化服务质量QoS。

对系统内的多个优化目标进行同时优化，传统的单智能体深度强化学习只能对多个优化目标进行加权构造一个总的优化函数，但是优化效果往往是由权重决定的，系统状态改变，性能权重就需要改变，此类方法操作繁琐，效率不高。因此，本发明提出了一种基于MADDPG的多智能体计算卸载方法，每个智能体对应一个优化目标，对系统内多个目标进行差异化优化，为了提高所有用户的服务质量。

MADDPG：Multi-Agent Deep Deterministic Policy Gradient，基于DDPG：深度确定性策略梯度算法的多智能体强化学习框架。MADDPG，基于DDPG的多智能体深度强化学习算法。MADDPG是对DDPG算法为适应多Agent环境的改进，最核心的部分就是每个Agent的Critic部分能够获取其余所有Agent的动作信息，进行中心化训练和非中心化执行，即在训练的时候，引入可以观察全局的critic来指导actor训练，而测试的时候只使用有局部观测的actor采取行动。模型由多个DDPG网络组成，每个网络学习policyπ(Actor)和actionvalue Q(Critic)。

具体实施时，基于多智能体深度强化学习的多目标优化方法，优化服务质量QoS包括：

设置状态空间、动作空间和奖励函数；

MEC基站具备全局视野，能在每个时隙内获取系统内的用户信息与网络资源情况。考虑对不同QoS需求的任务进行差异化性能优化，设置状态空间包括：

使用

其中d(t)＝{d₁(t)，…，d_N(t)}，其中

表示t时隙用户n与服务器和其他用户的距离，其中d_n，0表示用户n与边缘计算服务器之间的距离；u(t)＝{u₀(t)，...，u_N(t)，u_N+1(t)}表示t时隙用户及服务器可用计算资源，u₀(t)表示边缘服务器可用计算资源,u_N+1(t)表示云服务器可用计算资源；v(t)＝{v₁(t)，...，v_N(t)}表示t时隙用户产生的计算任务的数据量大小，其中v_n(t)＝0表示t时隙用户n没有产生计算任务，c(t)＝{c₁(t)，...，c_N(t)}表示t时隙用户产生的计算任务的计算密度大小，即每比特计算数据所需的CPU循环数，τ(t)＝{τ₁(t)，...，τ_N(t)}表示t时隙用户产生计算任务的约束时延，e(t)＝{e₁(t)，…，e_N(t)}表示t时隙用户产生计算任务的用户能耗约束。

设置动作空间包括：

时延智能体Delay Agent与能耗智能体Energy Agent根据t时隙的状态

为用户选择最佳的任务卸载节点，使用

表示时隙t内Delay Agent与Energy Agent的卸载决策，表示如下：

即任务不可拆分，全部卸载到选中节点执行。

当用户执行完动作后，会从环境中获得瞬时奖励。考虑对不同QoS需求的用户进行差异化性能优化，即对时延敏感型任务进行时延优化，对能耗敏感型任务进行能耗优化。因此我们分别定义了两种相应的奖励设置，奖励函数包括：

定义即时延奖励

与能量奖励

表示如下：

实施本实施例，基于多智能体深度强化学习的多用户差异化QoS计算卸载策略，考虑了系统中不同用户之间差异化的QoS需求，根据任务性能需求与网络资源状态进行全局卸载决策，对不同用户需求进行差异化性能优化，有效提高系统资源利用率以及用户服务质量。

实施例二

图4为本发明服务质量QoS优化装置一实施例的结构示意图。如图4所示，一种服务质量QoS优化装置，包括：

系统模型建立模块10，用于建立多任务卸载框架的系统模型；

从模型构成上来说，多任务卸载框架的系统模型包括：

用

表示产生时延敏感型任务的用户集合，使用

以确保任务能在电量耗尽前完成。

定义B_n，

为系统给用户分配的带宽，

同样的，使用

表示用户n与用户m，

系统模型执行模块20，用于获取用户执行计算任务的模式，根据所述用户执行计算任务的模式，来执行所述多任务卸载框架的系统模型；

以及能耗

可表示为

中执行时，计算任务的完成时延

为任务的传输时间和任务在用户m的处理时间之和，即：

其中，

表示D2D通信数据率，

表示服务终端m分配给任务n的计算资源，

用户所消耗的能量可表示为：

其中，

表示D2E通信数据率，

表示边缘计算服务分配给任务n的计算资源，

表示用户n的d2e传输功率以及空闲状态下的能耗。

与D2D卸载、D2E卸载类似，D2C卸载的用户能耗可以表示为：

其中，

表示云服务器分配给任务n的计算资源，

令二进制向量

由于任务不可拆分，故有

用户i产生的计算任务完成时延为：

能耗为：

服务质量QoS优化模块30，用于基于多智能体深度强化学习的多目标优化方法，优化服务质量QoS。

设置状态空间、动作空间和奖励函数；

使用

其中d(t)＝{d₁(t)，...，d_N(t)}，其中

设置动作空间包括：

时延智能体Delay Agent与能耗智能体Energy Agent根据t时隙的状态

为用户选择最佳的任务卸载节点，使用

表示时隙t内Delay Agent与Energy Agent的卸载决策，表示如下：

即任务不可拆分，全部卸载到选中节点执行。

定义即时延奖励

与能量奖励

表示如下：

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种服务质量QoS差异化优化方法，其特征在于，包括：

建立多任务卸载框架的系统模型；

2.如权利要求1所述的服务质量QoS差异化优化方法，其特征在于，所述多任务卸载框架的系统模型包括：

3.如权利要求2所述的服务质量QoS差异化优化方法，其特征在于，所述MEC基站设置边缘计算服务器和决策智能体。

4.如权利要求3所述的服务质量QoS差异化优化方法，其特征在于，所述用户执行计算任务的模式包括：

本地执行模式，即用户使用本地资源处理计算任务；

5.如权利要求1所述的服务质量QoS差异化优化方法，其特征在于，所述多任务卸载框架的系统模型包括：

用户模型、通信模型和计算模型。

6.如权利要求1至6任意一项所述的服务质量QoS差异化优化方法，其特征在于，所述根据所述用户执行计算任务的模式，来执行所述多任务卸载框架的系统模型包括：

令二进制向量

由于任务不可拆分，故有

用户i产生的计算任务完成时延为：

能耗为：

7.如权利要求1至6中任意一项所述的服务质量QoS差异化优化方法，其特征在于，所述基于多智能体深度强化学习的多目标优化方法，优化服务质量QoS包括：

设置状态空间、动作空间和奖励函数；

8.如权利要求7所述的服务质量QoS差异化优化方法，其特征在于，所述设置状态空间包括：

使用

表示t时隙内时延智能体Delay Agent与能耗智能体EnergyAgent的状态，定义如下

其中d(t)＝{d₁(t)，...，d_N(t)}，其中

表示t时隙用户n与服务器和其他用户的距离，其中d_n，0表示用户n与边缘计算服务器之间的距离；u(t)＝{u₀(t)，...，u_N(t)，u_N+1(t)}表示t时隙用户及服务器可用计算资源，u₀(t)表示边缘服务器可用计算资源，u_N+1(t)表示云服务器可用计算资源；v(t)＝{v₁(t)，...，v_N(t)}表示t时隙用户产生的计算任务的数据量大小，其中v_n(t)＝0表示t时隙用户n没有产生计算任务，c(t)＝{c₁(t)，...，c_N(t)}表示t时隙用户产生的计算任务的计算密度大小，即每比特计算数据所需的CPU循环数，τ(t)＝{τ₁(t)，...，τ_N(t)}表示t时隙用户产生计算任务的约束时延，e(t)＝{e₁(t)，...，e_N(t)}表示t时隙用户产生计算任务的用户能耗约束。

9.如权利要求8所述的服务质量QoS差异化优化方法，其特征在于，所述设置动作空间包括：

时延智能体Delay Agent与能耗智能体Energy Agent根据t时隙的状态