CN112799843B

CN112799843B - 一种基于边缘计算的在线自适应服务配置优化方法及装置

Info

Publication number: CN112799843B
Application number: CN202110139391.5A
Authority: CN
Inventors: 孙梦宇; 周长兵; 施振生; 张玉清
Original assignee: China University of Geosciences Beijing
Current assignee: China University of Geosciences Beijing
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2023-12-29
Anticipated expiration: 2041-02-01
Also published as: CN112799843A

Abstract

本申请提供了一种基于边缘计算的在线自适应服务配置优化方法及装置，其中，该方法包括：基于动态网络中每一时刻的实时用户需求生成服务请求；根据通信计算模型计算服务请求响应过程中的延迟和能耗情况，并构建包括多目标函数和多约束条件的多目标多约束模型；构建连续时间马尔可夫决策过程模型，并采用基于时间差分算法的强化学习方法对其进行求解，得到满足每一时刻的实时用户需求的最优服务配置决策；在求解所述连续时间马尔可夫决策过程模型的过程中，针对每个服务请求，以服务请求的最小响应延迟和边缘网络的最小总能耗为目标，通过求解所述多目标多约束模型来确定该服务请求的最优服务配置决策，可以高效地实现在线用户需求的自适应配置。

Description

一种基于边缘计算的在线自适应服务配置优化方法及装置

技术领域

本申请涉及物联网和通信技术领域，尤其是涉及一种基于边缘计算的在线自适应服务配置优化方法及装置。

背景技术

随着物联网技术和通信技术的不断发展，越来越多的物联网应用程序被接入到网络中，导致传统的由云计算提供服务的需求大幅增加，从而导致用户和远程云服务器之间造成了巨大的网络开销，给通信链路带来了沉重的负担，并造成了较高的服务延迟。

现有技术中，针对上述问题提出一种边缘计算方案，通过利用网络边缘的空闲计算和存储资源，将提供服务的设备从远程的云端转移到边缘端，减轻骨干网络的过载压力，以支持用户需求的及时、快速响应。

但是，由于单个边缘节点能力有限，只能承载少数几个服务，用户需求需要由网络中的多个边缘节点相互协作。因此，在边缘计算中，如何合理地进行多个边缘节点间的自适应服务配置，从而按需高效地满足用户需求和优化网络资源，是一个亟需解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种基于边缘计算的在线自适应服务配置优化方法及装置，可以高效地实现在线用户需求的自适应配置。

第一方面，本申请实施例提供了一种基于边缘计算的在线自适应服务配置优化方法，包括：

基于动态网络中每一时刻的实时用户需求生成服务请求；所述服务请求包括多个功能独立的服务的服务标识、各个服务之间的控制流关系信息、以及各个相邻的服务之间的时序依赖关系信息；

根据通信计算模型计算服务请求响应过程中的延迟和能耗情况，并构建包括多目标函数和多约束条件的多目标多约束模型；所述多目标函数包括用于表征服务请求的响应延迟最小的第一目标函数和用于表征边缘网络的总能耗最小的第二目标函数；所述多约束条件包括边缘节点承载服务容量约束条件、边缘节点剩余能耗约束条件、服务持续时间约束条件和服务间时序依赖约束条件；

针对动态网络中连续时间下每一时刻的实时用户需求的在线自适应服务配置过程，构建连续时间马尔可夫决策过程模型，并采用基于时间差分算法的强化学习方法求解所述连续时间马尔可夫决策过程模型，得到满足每一时刻的实时用户需求的最优服务配置决策；其中，在求解所述连续时间马尔可夫决策过程模型的过程中，针对每个服务请求，以服务请求的最小响应延迟和边缘网络的最小总能耗为目标，通过求解所述多目标多约束模型来确定该服务请求的最优服务配置决策。

在一种可能的实施方式中，根据以下步骤确定所述多目标函数：

基于服务配置前的等待时间、服务所需的CPU周期数和边缘节点CPU频率，确定服务请求响应过程中服务被配置在边缘节点上的计算延迟；

基于边缘节点的计算功率、服务所需的CPU周期数和边缘节点CPU频率，确定服务请求响应过程中服务被配置在边缘节点上的计算能耗；

基于发送节点和接收节点之间的信道带宽和收益、边缘节点传输功率和信道噪声系数，确定服务请求响应过程中服务数据从一个边缘节点传输到下一个边缘节点的传输延迟；

基于发送节点和接收节点的传输能耗，确定服务请求响应过程中服务数据从一个边缘节点传输到下一个边缘节点的传输能耗；

基于服务请求响应过程中服务被配置在边缘节点上的计算延迟和服务请求响应过程中服务数据从一个边缘节点传输到下一个边缘节点的传输延迟，构建用于表征服务请求的响应延迟最小的第一目标函数；

基于服务请求响应过程中服务被配置在边缘节点上的计算能耗和服务请求响应过程中服务数据从一个边缘节点传输到下一个边缘节点的传输能耗，构建用于表征边缘网络的总能耗最小的第二目标函数。

在一种可能的实施方式中，根据以下步骤确定所述多约束条件：

将用于表征边缘节点配置的服务数量不超过该边缘节点可承载的最大容量的约束条件，确定为边缘节点承载服务容量约束条件；

将用于表征边缘节点的剩余能量不小于其所承载服务的计算能耗与通信能耗之和的约束条件，确定为边缘节点剩余能耗约束条件；

将用于表征配置有服务的边缘节点计算该服务的时间不超过该服务的持续时间的约束条件，确定为服务持续时间约束条件；

将用于表征相邻服务间的传输时间不超过其既定的时序依赖时间的约束条件，确定为服务间时序依赖约束条件。

在一种可能的实施方式中，根据以下步骤构建连续时间马尔可夫决策过程模型：

定义系统状态，所述系统状态包括以下参量：当前阶段观察到的服务队列、服务队列中服务的候选边缘节点集、当前阶段边缘网络中各边缘节点的工作情况和各边缘节点间通信信道情况；

定义系统动作集，所述系统动作集包括满足多约束条件的多个边缘节点；

定义转移函数，所述转移函数用于根据当前阶段的系统状态和采用的系统动作改变下一阶段的系统状态；

定义回报函数，求解所述通信计算模型得到当前阶段的服务请求的最小响应延迟和边缘网络的最小总能耗，若服务可选择的系统动作集不为空，则所述回报函数为当前阶段的服务请求的最小响应延迟和边缘网络的最小总能耗的加权和；若服务可选择的系统动作集为空，则所述回报函数为当前阶段的服务请求的最小响应延迟和边缘网络的最小总能耗的和与预设常数的乘积。

在一种可能的实施方式中，采用基于时间差分算法的强化学习方法求解所述连续时间马尔可夫决策过程模型，得到满足每一时刻的实时用户需求的最优服务配置决策，包括：

初始化当前阶段的系统状态，并执行一个随机的系统动作；

计算执行该系统动作后的立即回报，并依据转移函数进入下一阶段的系统状态；

在下一阶段的系统状态下，利用贪婪算法通过求解所述多目标多约束模型来选择将要执行的下一个系统动作；

基于当前阶段的系统平均回报、下一阶段的立即回报和动作值函数的近似值，计算时间差分算法误差；

将当前阶段的系统平均回报更新为下一阶段的系统平均回报；

将当前阶段的动作值函数的权重更新为下一阶段的动作值函数的权重；

以最小化长期系统平均回报为长期目标，重复执行上述步骤直至得到满足每一时刻的实时用户需求的最优服务配置决策。

第二方面，本申请实施例还提供了一种基于边缘计算的在线自适应服务配置优化装置，包括：

生成模块，用于基于动态网络中每一时刻的实时用户需求生成服务请求；所述服务请求包括多个功能独立的服务的服务标识、各个服务之间的控制流关系信息、以及各个相邻的服务之间的时序依赖关系信息；

构建模块，用于根据通信计算模型计算服务请求响应过程中的延迟和能耗情况，并构建包括多目标函数和多约束条件的多目标多约束模型；所述多目标函数包括用于表征服务请求的响应延迟最小的第一目标函数和用于表征边缘网络的总能耗最小的第二目标函数；所述多约束条件包括边缘节点承载服务容量约束条件、边缘节点剩余能耗约束条件、服务持续时间约束条件和服务间时序依赖约束条件；

配置模块，用于针对动态网络中连续时间下每一时刻的实时用户需求的在线自适应服务配置过程，构建连续时间马尔可夫决策过程模型，并采用基于时间差分算法的强化学习方法求解所述连续时间马尔可夫决策过程模型，得到满足每一时刻的实时用户需求的最优服务配置决策；其中，在求解所述连续时间马尔可夫决策过程模型的过程中，针对每个服务请求，以服务请求的最小响应延迟和边缘网络的最小总能耗为目标，通过求解所述多目标多约束模型来确定该服务请求的最优服务配置决策。

在一种可能的实施方式中，所述构建模块包括第一构建单元和第二构建单元；

所述第一构建单元具体用于：

基于服务请求响应过程中服务被配置在边缘节点上的计算能耗和服务请求响应过程中服务数据从一个边缘节点传输到下一个边缘节点的传输能耗，构建用于表征边缘网络的总能耗最小的第二目标函数；

所述第二构建单元具体用于：

在一种可能的实施方式中，所述配置模块包括构建单元和求解单元；

所述构建单元具体用于：

定义回报函数，求解所述通信计算模型得到当前阶段的服务请求的最小响应延迟和边缘网络的最小总能耗，若服务可选择的系统动作集不为空，则所述回报函数为当前阶段的服务请求的最小响应延迟和边缘网络的最小总能耗的加权和；若服务可选择的系统动作集为空，则所述回报函数为当前阶段的服务请求的最小响应延迟和边缘网络的最小总能耗的和与预设常数的乘积；

所述求解单元具体用于：

初始化当前阶段的系统状态，并执行一个随机的系统动作；

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

本申请实施例提供的一种基于边缘计算的在线自适应服务配置优化方法，首先，基于动态网络中每一时刻的实时用户需求生成服务请求；所述服务请求包括多个功能独立的服务的服务标识、各个服务之间的控制流关系信息、以及各个相邻的服务之间的时序依赖关系信息，有助于复杂用户需求的快速响应。其次，根据通信计算模型计算服务请求响应过程中的延迟和能耗情况，并构建包括多目标函数和多约束条件的多目标多约束模型；所述多目标函数包括用于表征服务请求的响应延迟最小的第一目标函数和用于表征边缘网络的总能耗最小的第二目标函数；所述多约束条件包括边缘节点承载服务容量约束条件、边缘节点剩余能耗约束条件、服务持续时间约束条件和服务间时序依赖约束条件。最后，针对动态网络中连续时间下每一时刻的实时用户需求的在线自适应服务配置过程，构建连续时间马尔可夫决策过程模型，并采用基于时间差分算法的强化学习方法求解所述连续时间马尔可夫决策过程模型，得到满足每一时刻的实时用户需求的最优服务配置决策；其中，在求解所述连续时间马尔可夫决策过程模型的过程中，针对每个服务请求，以服务请求的最小响应延迟和边缘网络的最小总能耗为目标，通过求解所述多目标多约束模型来确定该服务请求的最优服务配置决策，可以将边缘网络中的自适应服务配置问题转化为一个多目标多约束优化问题。本申请针对动态网络中连续时间下每一时刻的实时用户需求的在线自适应服务配置过程，考虑边缘网络中边缘节点的异构性，根据每一时刻的用户需求，自适应地配置边缘网络中的边缘节点，这些边缘节点相互协作，共同支持网络中节点能效高效性和服务响应即时性。并且，本申请研究系统的长期服务配置，采用基于时间差分算法的强化学习方法，对实时服务配置策略进行在线学习，不断提高系统决策的有效性，降低边缘计算网络中节点的长期平均能耗和网络响应延迟。因此，本申请可以高效地实现在线用户需求的自适应配置。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种基于边缘计算的在线自适应服务配置优化方法的流程图；

图2示出了本申请实施例所提供的服务请求实例；

图3示出了本申请实施例所提供的边缘网络架构；

图4示出了本申请实施例所提供的一种基于边缘计算的在线自适应服务配置优化装置的结构示意图；

图5示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到由于单个边缘节点能力有限，只能承载少数几个服务，用户需求需要由网络中的多个边缘节点相互协作。因此，在边缘计算中，如何合理地进行多个边缘节点间的自适应服务配置，从而按需高效地满足用户需求和优化网络资源，是一个亟需解决的问题。基于此，本申请实施例提供了一种基于边缘计算的在线自适应服务配置优化方法及装置，下面通过实施例进行描述。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种基于边缘计算的在线自适应服务配置优化方法进行详细介绍。

请参照图1，图1为本申请实施例所提供的一种基于边缘计算的在线自适应服务配置优化方法的流程图。如图1所示，所述方法可以包括以下步骤：

S101、基于动态网络中每一时刻的实时用户需求生成服务请求；所述服务请求包括多个功能独立的服务的服务标识、各个服务之间的控制流关系信息、以及各个相邻的服务之间的时序依赖关系信息；

S102、根据通信计算模型计算服务请求响应过程中的延迟和能耗情况，并构建包括多目标函数和多约束条件的多目标多约束模型；所述多目标函数包括用于表征服务请求的响应延迟最小的第一目标函数和用于表征边缘网络的总能耗最小的第二目标函数；所述多约束条件包括边缘节点承载服务容量约束条件、边缘节点剩余能耗约束条件、服务持续时间约束条件和服务间时序依赖约束条件；

S103、针对动态网络中连续时间下每一时刻的实时用户需求的在线自适应服务配置过程，构建连续时间马尔可夫决策过程模型，并采用基于时间差分算法的强化学习方法求解所述连续时间马尔可夫决策过程模型，得到满足每一时刻的实时用户需求的最优服务配置决策；其中，在求解所述连续时间马尔可夫决策过程模型的过程中，针对每个服务请求，以服务请求的最小响应延迟和边缘网络的最小总能耗为目标，通过求解所述多目标多约束模型来确定该服务请求的最优服务配置决策。

步骤S101中，动态网络中每一时刻的实时用户需求是不可预测的，随着时间可能在动态变化，因此需要对每个实时用户需求进行处理。具体地，每个用户需求可被构建为过程模型中的业务流程，采用业务流程建模符号(BPMN)的形式，逻辑化表示为服务请求srq＝(SEV,CntF,TmpD)。其中，SEV＝(sev₁,sev₂,sev₃,…)表示服务请求包括的多个功能独立的服务的服务标识；表示各个服务之间的控制流关系信息，即服务执行的逻辑先后顺序；/>表示各个相邻的服务之间的时序依赖关系信息，即后序服务需要在前序服务完成后多久内开始执行才能保证前序服务结果的有效性。服务请求中的每项服务sev包含其自身属性，涉及到其服务功能func、需求工作任务量task(数据包大小υ和所需CPU周期数ω)和服务持续时间约束sevD。

如图2所示，基于动态网络中每一时刻的实时用户需求的结构，将实时用户需求拆分为一组原子型服务。这些原子型服务可以分别被单个边缘节点执行，并按照一定的逻辑顺序和时序约束进行组合，表示为服务请求srq。

步骤S102中，如图3所示，针对任一服务请求srq_m，其包含的每个服务都被部署在边缘网络中的边缘节点上执行，由于单个边缘节点能力不足，多个边缘节点将相互协作共同完成。服务请求响应过程包括计算和传输两个方面，需要基于服务请求响应过程中的计算和传输情况构建通信计算模型。在本实施例中，根据通信计算模型计算服务请求响应过程中的延迟和能耗情况，并构建包括多目标函数和多约束条件的多目标多约束模型

所述多目标函数包括用于表征服务请求的响应延迟最小的第一目标函数和用于表征边缘网络的总能耗最小的第二目标函数。在本实施例中可通过以下子步骤确定所述多目标函数：

S1020、基于服务配置前的等待时间、服务所需的CPU周期数和边缘节点CPU频率，确定服务请求响应过程中服务被配置在边缘节点上的计算延迟；

S1021、基于边缘节点的计算功率、服务所需的CPU周期数和边缘节点CPU频率，确定服务请求响应过程中服务被配置在边缘节点上的计算能耗；

S1022、基于发送节点和接收节点之间的信道带宽和收益、边缘节点传输功率和信道噪声系数，确定服务请求响应过程中服务数据从一个边缘节点传输到下一个边缘节点的传输延迟；

S1023、基于发送节点和接收节点的传输能耗，确定服务请求响应过程中服务数据从一个边缘节点传输到下一个边缘节点的传输能耗；

S1024、基于服务请求响应过程中服务被配置在边缘节点上的计算延迟和服务请求响应过程中服务数据从一个边缘节点传输到下一个边缘节点的传输延迟，构建用于表征服务请求的响应延迟最小的第一目标函数；

S1025、基于服务请求响应过程中服务被配置在边缘节点上的计算能耗和服务请求响应过程中服务数据从一个边缘节点传输到下一个边缘节点的传输能耗，构建用于表征边缘网络的总能耗最小的第二目标函数。

步骤S1020和S1021中，在满足用户需求的服务组合计算过程中，主要考虑服务被配置在相应合适边缘节点上的执行过程，包括计算延迟T^comp和计算能耗E^comp两个方面：

(1)服务请求srq_m中的服务sev_i被配置在边缘节点nd_j的计算延迟如下：

其中，表示服务配置前的等待时间，ω_m,i表示相应服务所需的CPU周期数，f_j表示边缘节点CPU频率。

(2)服务请求srq_m中的服务sev_i被配置在边缘节点nd_j的计算能耗如下：

其中，表示边缘节点的计算功率，ω_m,i表示相应服务所需的CPU周期数，f_j表示边缘节点CPU频率。

步骤S1022和S1023中，在满足用户需求的过程中，相邻服务被配置在不同的边缘节点，从而造成边缘节点间的相互通讯和数据传输。相应地，通信过程也主要考虑通信延迟T^tran和通信能耗E^tran开销两个部分：

(1)服务请求srq_m中的服务sev_i数据从边缘节点nd_j传输到边缘节点nd_j′的传输延迟如下：

其中，和/>分别表示发送节点与接收节点间的信道带宽和收益，/>表示节点传输功率，N₀为信道噪声系数，θ_mi表示相应服务需要传输的数据量。

(2)服务请求srq_m中的服务sev_i数据从边缘节点nd_j传输到边缘节点nd_j，的传输能耗如下：

其中，与/>分别表示发送节点和接收节点的传输能耗，/>表示节点传输功率，/>表示传输延迟。

步骤S1024和S1025中，对于一个服务请求所需的服务组合的要实现的目标包括服务请求的响应延迟最小和边缘网络的总能耗最小，具体如下：

(1)基于服务请求响应过程中服务被配置在边缘节点上的计算延迟和服务请求响应过程中服务数据从一个边缘节点传输到下一个边缘节点的传输延迟，构建用于表征服务请求的响应延迟最小的第一目标函数，即min(T^comp+T^tran)。

(2)基于服务请求响应过程中服务被配置在边缘节点上的计算能耗和服务请求响应过程中服务数据从一个边缘节点传输到下一个边缘节点的传输能耗，构建用于表征边缘网络的总能耗最小的第二目标函数，即min(E^comp+E^tran)。

所述多约束条件包括边缘节点承载服务容量约束条件、边缘节点剩余能耗约束条件、服务持续时间约束条件和服务间时序依赖约束条件。在本实施例中可通过以下子步骤确定所述多约束条件：

S1026、将用于表征边缘节点配置的服务数量不超过该边缘节点可承载的最大容量的约束条件，确定为边缘节点承载服务容量约束条件；

其中，若服务请求srq_m中的sev_i配置在边缘节点nd_j上，则I_m,i,j为1，若服务请求srq_m中的sev_i没有配置在边缘节点nd_j上，则I_m,i,j为0，表示边缘节点配置的服务数量，C_j表示该边缘节点可承载的最大容量。

S1027、将用于表征边缘节点的剩余能量不小于其所承载服务的计算能耗与通信能耗之和的约束条件，确定为边缘节点剩余能耗约束条件；

其中，表示边缘节点的剩余能量，/>表示边缘节点所承载服务的计算能耗，边缘节点所承载服务的通信能耗。

S1028、将用于表征配置有服务的边缘节点计算该服务的时间不超过该服务的持续时间的约束条件，确定为服务持续时间约束条件；

其中，配置有服务的边缘节点计算该服务的时间，Dur(i)表示该服务的持续时间。

S1029、将用于表征相邻服务间的传输时间不超过其既定的时序依赖时间的约束条件，确定为服务间时序依赖约束条件。

其中，表示相邻服务间的传输时间，TmpD(i)表示既定的时序依赖时间。

步骤S103中，针对动态网络中连续时间下每一时刻的实时用户需求的在线自适应服务配置过程，构建连续时间马尔可夫决策过程模型。在本实施例中可通过以下子步骤构建连续时间马尔可夫决策过程模型：

S1031、定义系统状态，所述系统状态包括以下参量：当前阶段观察到的服务队列、服务队列中服务的候选边缘节点集、当前阶段边缘网络中各边缘节点的工作情况和各边缘节点间通信信道情况；

S1032、定义系统动作集，所述系统动作集包括满足多约束条件的多个边缘节点；

S1033、定义转移函数，所述转移函数用于根据当前阶段的系统状态和采用的系统动作改变下一阶段的系统状态；

S1034、定义回报函数，求解所述通信计算模型得到当前阶段的服务请求的最小响应延迟和边缘网络的最小总能耗，若服务可选择的系统动作集不为空，则所述回报函数为当前阶段的服务请求的最小响应延迟和边缘网络的最小总能耗的加权和；若服务可选择的系统动作集为空，则所述回报函数为当前阶段的服务请求的最小响应延迟和边缘网络的最小总能耗的和与预设常数的乘积。

步骤S1031中，系统状态其中，/>表示此阶段观察到的服务队列，由于服务请求包含多个服务，当且仅当服务请求中的前序服务被执行完成，后续服务才能够被加入到服务队列中；/>表示队列中服务的候选边缘节点集，当且仅当该边缘节点的硬件设施能够满足该服务的持续时间约束并具有剩余容量时，该边缘节点才会被加入到候选集中；/>表示当前阶段网络中各边缘节点的工作情况；/>表示各边缘节点间通信信道情况。系统的状态随着服务队列中新服务的加入或队列头服务的配置操作而发生改变，当采取某个动作，系统的状态依据转移函数不断被更新。为了整个网络的长期稳定和高效满足用户请求的目的，对系统状态下的动作优劣进行评价，不同动作的采取使系统获得相应的回报。

步骤S1032中，系统动作集表示为服务等待队列中的头节点配置合适的边缘节点，系统动作集即动作候选集合，动作候选集合中包括多约束条件的多个候选边缘节点。当候选服务选择合适的边缘节点进行配置，系统状态随之改变。

步骤S1033中，系统状态根据转移函数进行改变，其转移函数如下：

其中，s_k和s_k+1分别为系统第k阶段和第k+1阶段的系统状态，a_k表示第k阶段采取的系统动作。

步骤S1034中，每一步动作的选择都为系统带来相应的奖励，按照系统的最小延迟和最低能耗需求，得到如下回报函数：

其中，T(k)表示第k阶段系统的延迟，E(k)表示第k阶段系统的能耗，w₁和w₂分别表示延迟和能耗所占的权重比，Q设置为10，表示当服务可选择的边缘节点候选集不为空时，系统动作选择将会受到积极影响。

步骤S103中，采用基于时间差分的强化学习方法，基于系统长期平均回报产生每个系统状态下的决策，指导系统将服务配置到合适的边缘节点上。在本实施例中，采用基于时间差分算法的强化学习方法求解所述连续时间马尔可夫决策过程模型的具体子步骤如下：

S1、初始化当前阶段的系统状态s_k，并执行一个随机的系统动作a_k；

S2、计算执行该系统动作后的立即回报R_k，并依据转移函数进入下一阶段的系统状态s_k+1；

S3、在下一阶段的系统状态下，利用贪婪算法(ε-greedy)通过求解所述多目标多约束模型来选择将要执行的下一个系统动作，即服务配置的边缘节点；

贪婪算法是指，在对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，算法得到的是在某种意义上的局部最优解。贪婪算法的关键是贪心策略的选择。在本实施例中，贪心策略包括：针对每个服务请求，以服务请求的最小响应延迟和边缘网络的最小总能耗为目标，通过求解所述多目标多约束模型来确定该服务请求的最优服务配置决策，即为该服务请求所对应的每个服务选择系统动作。

S4、基于当前阶段的系统平均回报、下一阶段的立即回报和动作值函数的近似值，计算时间差分算法误差δ_k；

/>

其中，R_k+1表示k+1阶段系统的立即回报，表示前k个阶段的系统平均回报，表示动作值函数的近似值，s_k+1表示第k+1阶段的系统状态，a_k+1表示第k+1阶段的系统动作，ω_k为第k阶段动作值函数权重值。

S5、将当前阶段的系统平均回报更新为下一阶段的系统平均回报；

其中，表示前k个阶段的系统平均回报，/>表示前k+1个阶段的系统平均回报，β表示设置的系统参数，δ_k表示时间差分算法误差。

S6、将当前阶段的动作值函数的权重更新为下一阶段的动作值函数的权重；

ω_k+1←ω_k+αδ_kω(s_k,a_k)

其中，ω_k+1表示第k+1阶段动作值函数权重值，ω_k为第k阶段动作值函数权重值，α为算法步长，δ_k表示时间差分算法误差，ω(s_k,a_k)表示在系统状态s_k下采取动作a_k的动作值函数权重。

S7、以最小化长期系统平均回报为长期目标，重复执行上述步骤S1-S6直至得到满足每一时刻的实时用户需求的最优服务配置决策，即将系统中的每个服务自适应地配置到合适的边缘节点。

基于相同的技术构思，本申请实施例还提供一种基于边缘计算的在线自适应服务配置优化装置、电子设备、以及计算机存储介质等，具体可参见以下实施例。

请参照图4，图4为本申请实施例所提供的一种基于边缘计算的在线自适应服务配置优化装置的结构示意图。所述装置可以包括：

生成模块10，用于基于动态网络中每一时刻的实时用户需求生成服务请求；所述服务请求包括多个功能独立的服务的服务标识、各个服务之间的控制流关系信息、以及各个相邻的服务之间的时序依赖关系信息；

构建模块20，用于根据通信计算模型计算服务请求响应过程中的延迟和能耗情况，并构建包括多目标函数和多约束条件的多目标多约束模型；所述多目标函数包括用于表征服务请求的响应延迟最小的第一目标函数和用于表征边缘网络的总能耗最小的第二目标函数；所述多约束条件包括边缘节点承载服务容量约束条件、边缘节点剩余能耗约束条件、服务持续时间约束条件和服务间时序依赖约束条件；

配置模块30，用于针对动态网络中连续时间下每一时刻的实时用户需求的在线自适应服务配置过程，构建连续时间马尔可夫决策过程模型，并采用基于时间差分算法的强化学习方法求解所述连续时间马尔可夫决策过程模型，得到满足每一时刻的实时用户需求的最优服务配置决策；其中，在求解所述连续时间马尔可夫决策过程模型的过程中，针对每个服务请求，以服务请求的最小响应延迟和边缘网络的最小总能耗为目标，通过求解所述多目标多约束模型来确定该服务请求的最优服务配置决策。

在一种可能的实施方式中，所述构建模块20包括第一构建单元和第二构建单元；

所述第一构建单元具体用于：

所述第二构建单元具体用于：

在一种可能的实施方式中，所述配置模块30包括构建单元和求解单元；

所述构建单元具体用于：

所述求解单元具体用于：

初始化当前阶段的系统状态，并执行一个随机的系统动作；

本申请实施例公开了一种电子设备，如图5所示，包括：处理器501、存储器502和总线503，所述存储器502存储有所述处理器501可执行的机器可读指令，当电子设备运行时，所述处理器501与所述存储器502之间通过总线503通信。

所述机器可读指令被所述处理器501执行时执行以下基于边缘计算的在线自适应服务配置优化方法的步骤：

在一种可能的实施方式中，所述处理器501根据以下步骤确定所述多目标函数：

在一种可能的实施方式中，所述处理器501根据以下步骤确定所述多约束条件：

在一种可能的实施方式中，所述处理器501根据以下步骤构建连续时间马尔可夫决策过程模型：

在一种可能的实施方式中，所述处理器501采用基于时间差分算法的强化学习方法求解所述连续时间马尔可夫决策过程模型，得到满足每一时刻的实时用户需求的最优服务配置决策，包括：

初始化当前阶段的系统状态，并执行一个随机的系统动作；

本申请实施例所提供的基于边缘计算的在线自适应服务配置优化方法的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于边缘计算的在线自适应服务配置优化方法，其特征在于，包括：

针对动态网络中连续时间下每一时刻的实时用户需求的在线自适应服务配置过程，构建连续时间马尔可夫决策过程模型，并采用基于时间差分算法的强化学习方法求解所述连续时间马尔可夫决策过程模型，得到满足每一时刻的实时用户需求的最优服务配置决策；其中，在求解所述连续时间马尔可夫决策过程模型的过程中，针对每个服务请求，以服务请求的最小响应延迟和边缘网络的最小总能耗为目标，通过求解所述多目标多约束模型来确定该服务请求的最优服务配置决策；

其中，根据以下步骤确定所述多目标函数：

其中，根据以下步骤确定所述多约束条件：

2.根据权利要求1所述的方法，其特征在于，根据以下步骤构建连续时间马尔可夫决策过程模型：

3.根据权利要求1所述的方法，其特征在于，采用基于时间差分算法的强化学习方法求解所述连续时间马尔可夫决策过程模型，得到满足每一时刻的实时用户需求的最优服务配置决策，包括：

初始化当前阶段的系统状态，并执行一个随机的系统动作；

4.一种基于边缘计算的在线自适应服务配置优化装置，其特征在于，包括：

配置模块，用于针对动态网络中连续时间下每一时刻的实时用户需求的在线自适应服务配置过程，构建连续时间马尔可夫决策过程模型，并采用基于时间差分算法的强化学习方法求解所述连续时间马尔可夫决策过程模型，得到满足每一时刻的实时用户需求的最优服务配置决策；其中，在求解所述连续时间马尔可夫决策过程模型的过程中，针对每个服务请求，以服务请求的最小响应延迟和边缘网络的最小总能耗为目标，通过求解所述多目标多约束模型来确定该服务请求的最优服务配置决策；

其中，所述构建模块包括第一构建单元和第二构建单元；

所述第一构建单元具体用于：

所述第二构建单元具体用于：

5.根据权利要求4所述的装置，其特征在于，所述配置模块包括构建单元和求解单元；

所述构建单元具体用于：

所述求解单元具体用于：

初始化当前阶段的系统状态，并执行一个随机的系统动作；

6.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至3任一所述方法的步骤。

7.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至3任一所述方法的步骤。