CN117499491B

CN117499491B - 基于双智能体深度强化学习的物联网服务编排方法及装置

Info

Publication number: CN117499491B
Application number: CN202311840771.7A
Authority: CN
Inventors: 王滨; 赵海涛; 王星; 王琴; 杨德贤; 徐波; 谢瀛辉
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-03-26
Anticipated expiration: 2043-12-27
Also published as: CN117499491A

Abstract

本申请提供一种基于双智能体深度强化学习的物联网服务编排方法及装置，该方法包括：依据历史时间段的服务请求到达率，利用预先训练的神经网络模型，确定下一时间段的服务请求到达率；依据所述下一时间段的服务请求到达率，利用深度强化学习算法，确定下一时间段到达的服务请求的目标划分比例和目标VNF编排方案；依据所述目标划分比例和目标VNF编排方案，对下一时间段到达的服务请求进行处理。该方法可以实现物联网环境下的服务请求的合理分配，降低物联网环境下的服务请求的计算成本。

Description

基于双智能体深度强化学习的物联网服务编排方法及装置

技术领域

本申请涉及物联网中服务编排以及边缘计算领域，尤其涉及一种基于双智能体深度强化学习的物联网服务编排方法及装置。

背景技术

随着过去几年网络服务需求的大幅增长，越来越多的物联网（Internet ofThings，简称IoT）终端需要随时随地访问的特定服务，并且用户的物联网服务需求是异构的，使得物联网网络框架设计已经从单片模式过渡到软件范式，并得到网络功能虚拟化（Network Functions Virtualization，简称NFV）、软件定义网络（Software DefinedNetwork，简称SDN）和移动边缘计算（Mobile Edge Computing，简称MEC）技术的支持，这些新技术是革命性的关键网络架构设计概念。

通过 NFV 技术，网络操作变得更加灵活、可伸缩和敏捷。使得物联网服务能够快速部署和按需缩放。此外，它还通过使用通用硬件和开源软件来减少建立和维护复杂基于硬件的网络的成本。NFV使服务提供商能够以更低的成本向用户提供更加创新和专业化的服务。

SDN是一种新型的网络架构，它的核心思想是通过将网络控制层和数据转发层分离来实现网络的可编程性和自动化管理，为物联网服务提供商带来了更高效、更灵活的网络解决方案。

MEC能够将云服务和资源部署在网络边缘设备（如基站、路由器等）上，从而实现低延迟、高带宽的计算和数据处理能力，结合移动边缘计算技术，物联网应用可以实现更快、更安全和更有效的数据处理，从而实现更高效、更智能的应用和服务。

然而如何在这些新技术的支持下能够让用户在高度动态的现实世界里服务请求得到合理的编排，降低其成本，提高用户的服务质量，是一个值得探讨的问题。

发明内容

有鉴于此，本申请提供一种基于双智能体深度强化学习的物联网服务编排方法及装置。

具体地，本申请是通过如下技术方案实现的：

根据本申请实施例的第一方面，提供一种基于双智能体深度强化学习的物联网服务编排方法，包括：

依据历史时间段的服务请求到达率，利用预先训练的神经网络模型，确定下一时间段的服务请求到达率；其中，任一服务请求对应一组有序的虚拟网络功能VNF；

依据所述下一时间段的服务请求到达率，利用深度强化学习算法，确定下一时间段到达的服务请求的目标划分比例和目标VNF编排方案；所述划分比例为下一时间段到达服务请求中，本地计算的服务请求的数量的占比，所述深度强化学习算法基于第一智能体和第二智能体实现，所述第一智能体用于确定服务请求的划分比例，所述第二智能体用于确定划分给边缘计算的服务请求的VNF编排方案；所述深度强化学习算法以最小化计算成本为优化目标，所述计算成本包括计算时间延迟和能耗，所述计算时间延迟依据本地计算时间延迟和边缘计算时间延迟确定，所述能耗依据本地能耗和边缘能耗确定；计算成本分别与计算时间延迟及能耗正相关；

依据所述目标划分比例和目标VNF编排方案，对下一时间段到达的服务请求进行处理。

根据本申请实施例的第二方面，提供一种基于双智能体深度强化学习的物联网服务编排装置，包括：

第一确定单元，用于依据历史时间段的服务请求到达率，利用预先训练的神经网络模型，确定下一时间段的服务请求到达率；其中，任一服务请求对应一组有序的虚拟网络功能VNF；

第二确定单元，用于依据所述下一时间段的服务请求到达率，利用深度强化学习算法，确定下一时间段到达的服务请求的目标划分比例和目标VNF编排方案；所述划分比例为下一时间段到达服务请求中，本地计算的服务请求的数量的占比，所述深度强化学习算法基于第一智能体和第二智能体实现，所述第一智能体用于确定服务请求的划分比例，所述第二智能体用于确定划分给边缘计算的服务请求的VNF编排方案；所述深度强化学习算法以最小化计算成本为优化目标，所述计算成本包括计算时间延迟和能耗，所述计算时间延迟依据本地计算时间延迟和边缘计算时间延迟确定，所述能耗依据本地能耗和边缘能耗确定；计算成本分别与计算时间延迟及能耗正相关；

处理单元，用于依据所述目标划分比例和目标VNF编排方案，对下一时间段到达的服务请求进行处理。

本申请实施例的基于双智能体深度强化学习的物联网服务编排方法，通过对物联网场景的服务请求到达率进行预测，依据预测确定的服务请求到达率，利用基于合作的双智能体的深度强化学习算法确定服务请求的目标划分比例和目标VNF编排方案，并依据所确定的目标划分比例和目标VNF编排方案，对下一时间段到达的服务请求进行处理，实现了物联网环境下的服务请求的合理分配，降低了物联网环境下的服务请求的计算成本。

附图说明

图1为本申请一示例性实施例示出的一种基于双智能体深度强化学习的物联网服务编排方法的流程示意图；

图2为本申请一示例性实施例示出的一种基于双智能体深度强化学习的物联网服务编排方法的流程示意图；

图3为本申请一示例性实施例示出的一种基于双智能体深度强化学习的物联网服务编排装置的结构示意图；

图4为本申请一示例性实施例示出的一种基于双智能体深度强化学习的物联网服务编排装置的结构示意图；

图5为本申请一示例性实施例示出的一种电子设备的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

需要说明的是，本申请实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

请参见图1，为本申请实施例提供的一种基于双智能体深度强化学习的物联网服务编排方法的流程示意图，示例性的，该方法的执行主体可以为中心管理节点，例如，云服务器，如图1所示，该基于双智能体深度强化学习的物联网服务编排方法可以包括以下步骤：

步骤S100、依据历史时间段的服务请求到达率，利用预先训练的神经网络模型，确定下一时间段的服务请求到达率。

本申请实施例中，历史时间段可以指已经确定了服务请求到达率的时间段。下一时间段是指最近的已经确定服务请求到达率的时间段的下一时间段。

示例性的，服务请求是指物联网终端设备产生的服务请求。

示例性的，服务请求到达率是指单位时间（本文中可以称为时隙）内物联网终端设备产生的服务器请求。

示例性的，单位时间内物联网终端设备产生的服务器请求可以通过所需SFC（Service Function Chain服务功能链）、输入数据大小，以及，所需CPU周期来表征。

本申请实施例中，为了实现物联网服务编排，需要确定下一时间段的服务请求到达率。

为了确定下一时间段的服务请求到达率，可以预先训练用于对服务请求到达率进行预测的神经网络模型，以便在实际应用中，利用训练好的神经网络模型对下一时间段的服务请求到达率进行预测。

示例性的，该神经网络模型可以为循环神经网络模型（Recurrent NeuralNetwork，简称RNN），例如，长短期记忆（Long short-term memory，简称LTSM）模型。

示例性的，对于任一服务请求，其对应一组有序的VNF。

步骤S110、依据下一时间段的服务请求到达率，利用深度强化学习算法，确定下一时间段到达的服务请求的目标划分比例和目标VNF编排方案。

本申请实施例中，对于任一时间段的服务请求，可以对其进行划分，将一定比例的服务请求分配给边缘计算，即将一定比例的服务请求卸载到MEC服务器进行远程执行，以提高资源利用率。

其中，对于任一时间段的服务请求，在对该时间段的服务请求进行划分的过程中，可以将本地计算的服务请求的数量占比（即本地计算的服务请求的数量与该时间段服务请求的总数的比值）作为划分比例。

示例性的，该划分比例的取值范围为[0，100%]，即可以将服务请求全部卸载到MEC服务器进行远程执行，或，将部分服务请求卸载到MEC服务器进行远程执行，或，将全部服务请求均本地计算。

由于实际应用中，本地可用资源和MEC服务器侧的可用资源是动态变化的，服务请求的划分比例不同，对服务请求进行处理的计算成本也会存在差异。

因而，为了减少服务请求处理的计算成本，需要依据实际情况确定一个合理的划分比例。

示例性的，服务请求的计算成本可以包括计算时间延迟和能耗。

计算时间延迟可以依据本地计算时间延迟和边缘计算时间延迟确定；能耗可以依据本地能耗和边缘能耗确定。

示例性的，计算成本分别与计算时间延迟及能耗正相关。

此外，考虑到对于划分给边缘计算的服务请求，VNF编排方案的差异会影响边缘计算成本，进而，影响服务请求的整体计算成本。

其中，VNF编排方案是指将服务请求对应的VNF部署到MEC服务器上，不同的VNF编排方案对应了VNF的不同部署方式。

相应地，为了减少计算成本，对于划分给边缘计算的服务请求，需要确定合理的VNF编排方案。

本申请实施例中，为了确定最优的服务请求的划分比例以及VNF编排方案，可以利用深度强化学习算法来实现服务请求的划分及VNF编排。

示例性的，可以采用基于合作双智能体的深度强化学习算法，考虑物联网用户和边缘节点环境，对物联网服务的划分和VNF编排进行建模，通过双智能体的交互得到最优的划分比例以及VNF编排方案。

例如，可以将服务请求划分和VNF编排划分为两个环境进行处理，分别对其建模为MDP（Markov Decision Process，马尔可夫决策过程）。

示例性的，上述双智能体可以包括第一智能体和第二智能体，第一智能体用于确定服务请求的划分比例，第二智能体用于确定划分给边缘计算的服务请求的VNF编排方案。

可以通过训练第一智能体找到一个最优的服务请求划分策略，使计算成本最小化；同理，通过训练第二智能体找到一个最优的VNF部署策略（或称为放置策略），使计算成本最小化。

深度强化学习模型的训练以最小化计算成本为优化目标，其具体实现可以在下文中结合具体实例进行说明。

步骤S120、依据目标划分比例和目标VNF编排方案，对下一时间段到达的服务请求进行处理。

本申请实施例中，在按照上述实施例中描述的方式确定了下一时间段到达的服务请求的目标划分比例和目标VNF编排方案的情况下，可以依据目标划分比例和目标VNF编排方案，对下一时间段到达的服务请求进行处理。

示例性的，可以按照目标划分比例，对缓存队列中缓存的下一时间段到达的服务请求进行划分，其中一部分（可以为0）进行本地计算，另一部分（可以为0）进行边缘计算。

对于边缘计算的服务请求，可以按照目标VNF编排方案进行VNF放置。

可见，在图1所示方法流程中，通过对物联网场景的服务请求到达率进行预测，依据预测确定的服务请求到达率，利用基于合作的双智能体的深度强化学习算法确定服务请求的目标划分比例和目标VNF编排方案，并依据所确定的目标划分比例和目标VNF编排方案，对下一时间段到达的服务请求进行处理，实现了物联网环境下的服务请求的合理分配，降低了物联网环境下的服务请求的计算成本。

在一些实施例中，上述依据历史时间段的服务请求到达率，利用预先训练的神经网络模型，确定下一时间段的服务请求到达率，可以包括：

依据历史时间段的服务请求达到率，利用预先训练的LSTM模型，确定下一时间段的服务请求到达率。

示例性的，由于在对服务请求进行编排的过程中，下一时间段的服务请求到达率是无法提前获知。因此，对于每一个物联网终端，设计了一种基于LSTM（Long Short-TermMemory，长短时记忆）网络的算法来预测即将到来的时间段内的服务请求到达率。

LSTM是循环神经网络（RNN）的一种变体，用于有效地处理时间序列数据的预测。

设= {/>，…，/>,/>}表示历史服务请求的时间序列，其中ls为时间序列长度，/>为t时隙（即时间段t）到达的服务请求数，在每个t时隙，LSTM单元可计算为:

其中，，/>，/>和/>分别为遗忘门，输入门，输出门和调制输入，/>、/>、/>、/>、、/>、/>及/>为网络参数（也可以称为权重值），/>为上一时隙（即时隙t-1）的输出结果（即上一时隙的服务请求达到率），/>(/>)是s型函数，/>是输入，可以得到内存单元和隐藏单元为:

是LSTM单元在第t步（即时隙t）的输出，即下一个时隙的服务请求到达率/>。

示例性的，一个时隙可以对应一个上述时间段。

为便于描述和理解，下文中以一个时间段为一个时隙为例进行说明。

在一些实施例中，在第一智能体和第二智能体的训练过程中，对于下一时间段到达的服务请求，利用第一智能体确定的划分比例，将该划分比例输出给第二智能体，利用第二智能体依据该划分比例，确定VNF编排方案，并确定该VNF编排方案下的边缘计算时间延迟和边缘能耗，将该边缘计算时间延迟和边缘能耗反馈给第一智能体；

第一智能体的奖励依据该划分比例下的计算成本确定，且与该划分比例下的计算成本负相关；其中，该划分比例下的计算成本依据该划分比例下的本地计算时间延迟、本地能耗、边缘计算时间延迟，以及，边缘能耗确定；

第二智能体的奖励依据该VNF编排方案下的边缘计算时间延迟及边缘能耗确定，并分别与边缘计算时间延迟及边缘能耗负相关。

示例性的，在双智能体强化学习算法中，第一智能体和第二智能体合作可以实现物联网服务的动态编排。两个智能体之间的协作是通过本地环境和边缘网络环境之间的信息交换来实现的。

第一智能体可以依据当前环境状态，确定采取的行动（即确定下一时间段达到的服务请求的划分比例），第一智能体在确定了该划分比例的情况下，一方面，可以依据该划分比例，确定本地计算时间延迟和本地能耗；另一方面，可以将该划分比例输出给第二智能体。

第二智能体接收到第一智能体传输的划分比例的情况下，可以依据当前环境状态，以及，该划分比例，确定采取的行动（即确定VNF编排方案），依据该VNF编排方案确定边缘计算时间延迟和边缘能耗，并将边缘计算时间延迟和边缘能耗反馈给第一智能体。

第一智能体可以依据确定的本地计算时间延迟、本地能耗，以及，接收到的边缘计算时间延迟和边缘能耗，确定计算成本，并依据计算成本确定此次采取的行动的奖励。

示例性的，第一智能体的奖励与该计算成本负相关，即计算成本越低，第一智能体此次采取的行动的奖励越高，通过选择高奖励的行动，可以降低计算成本。

第二智能体在确定了边缘计算时间延迟和边缘能耗的情况下，一方面，可以按照上述方式将边缘计算时间延迟和边缘能耗反馈给第一智能体；另一方面，可以依据边缘计算时间延迟和边缘能耗，确定此次采取的行动的奖励。

其中，第二智能体的奖励分别与边缘计算时间延迟及边缘能耗负相关，通过选择高奖励的行动，可以降低边缘计算时间延迟和/或边缘能耗。

通过两个智能体的信息交互使得决策更加合理，优化了服务的成本。

在一个示例中，本地计算时间延迟依据划分比例、本地节点的CPU频率，以及，执行下一时间段到达的服务请求所需的CPU周期数确定；

本地能耗依据本地节点的CPU频率，以及，执行下一时间段到达的服务请求所需的CPU周期数确定；

边缘计算时间延迟依据本地节点将服务请求发送到边缘节点处理的上行链路时延、边缘节点计算服务请求的时延以及边缘节点之间的数据传输时延确定；

边缘能耗依据边缘节点执行所分配的VNF所需的CPU周期数，以及，边缘节点的CPU频率确定。

示例性的，考虑到服务请求在本地处理过程中的时间延迟和能耗主要与本地节点（即对服务请求进行本地计算的节点，也可以称为MD（Mobile Device，移动设备））的CPU（Center Process Unit，中央处理单元）频率，以及，执行服务请求所需的CPU周期数有关，此外，服务请求在本地处理的比例，也会存在影响。

因此，可以依据划分比例、本地节点的CPU频率，以及，执行下一时间段到达的服务请求所需的CPU周期数确定本地计算时间延迟，并依据地节点的CPU频率，以及，执行下一时间段到达的服务请求所需的CPU周期数确定本地能耗。

同理，可以依据边缘节点（用于对服务请求进行边缘处理的节点，也可以称为边缘服务器）执行所分配的VNF所需的CPU周期数，以及，边缘节点的CPU频率确定边缘能耗。

此外，考虑到服务请求分配给边缘节点计算的情况下，完整计算过程可以包括服务请求发送到边缘节点处理的过程、边缘节点计算的过程，以及，边缘节点之间数据传输的过程。

需要说明的是，由于边缘节点对服务请求进行计算得到的回馈结果的数据量很小，因此，在确定边缘计算时间延迟的过程中，下行链路的时延可以忽略。

相应地，可以依据本地节点将服务请求发送到边缘节点处理的上行链路时延、边缘节点计算服务请求的时延以及边缘节点之间的数据传输时延确定边缘计算时间延迟。

例如，假设={/>,/>,/>}为时隙t的MD的服务请求，其中/>表示所需的SFC，/>为输入数据大小，/>为执行/>所需的CPU周期数。设/>[0，1]表示边缘计算的比例，则本地计算/>的速率为：

其中，为本地节点（即对服务请求进行本地计算的节点，可以称为MD（MobileDevice，移动设备））的CPU频率。

对于服务请求，其处理过程为M/M/1队列，即处理的是一个服务请求的队列，是一个M/M/1队列模型，由于计算的时间还包括了等待的时间（因为有可能正在处理其他服务请求），因此，可以得到在本地计算的时间为：

其中，为t时隙的服务请求到达率。

本地计算的能耗成本为：

k为能耗系数，主要与硬件架构有关。

令, i = 1，…，/>为/>中的第i个VNF，实现/>所需的CPU周期数为cp(/>)，其处理VNF/>的EN CPU频率为cp(/>)，其中/>为/>中VNF的个数。/>和/>之间所需的带宽容量用/>表示,/>为t时刻链路之间的可用带宽资源；对于通过在EN上执行的服务请求部分，/>的数据流需要通过/>，…，/>。以/>表示/>经过/>处理后的数据量，则可得到服务/>在边缘服务器上的处理时延为：

其中，第一项是MD将服务请求发送到EN处理的上行链路时延，由于发回结果很小，这里忽略了下行链路的时延，第二项是EN服务器计算服务请求的时延，其中表示边缘服务器对/>计算速率，第三项是EN之间的数据传输时延。

在边缘服务器上的能耗为：

在一个示例中，依据本地计算时间延迟、本地能耗、边缘计算时间延迟，以及，边缘能耗确定计算成本，包括：

将本地计算时间延迟与边缘计算时间延迟中的最大值，确定为最终计算时间延迟；

将本地能耗与边缘能耗二者之和，确定为最终能耗；

将最终计算时间延迟和最终能耗的加权和，确定为本地计算成本；其中，计算时延延迟和能耗的加权权重依据计算时间延迟的优先级和能耗的优先级设定。

示例性的，考虑到确定了服务请求划分比例的情况下，本地计算和边缘计算可以同步进行，因此，服务请求的计算时间延迟（可以称为最终计算时间延迟）可以为本地计算时间延迟与边缘计算时间延迟中的最大值。

服务请求的计算能耗（可以称为最终能耗）可以为本地能耗与边缘能耗二者之和。

在确定了最终计算时间延迟和最终能耗的情况下，可以将最终计算时间延迟和最终能耗的加权和，确定为本地计算成本。

示例性的，计算时延延迟和能耗的加权权重依据计算时间延迟的优先级和能耗的优先级设定。

例如，在计算时间延迟的优先级和能耗优先级一样的情况下，二者的加权权重均可以取0.5；在只考虑计算时间延迟或能耗的情况下，计算时间延迟的加权权重和能耗的加权权重可以取0或者1。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，下面结合具体场景对本申请实施例提供的技术方案进行说明。

在该实施例中，提出一种基于合作双智能体深度强化学习的物联网服务编排方法，对于物联网用户产生的服务请求，可以通过一组有序的VNF组成的SFC来表示，对其进行动态编排。通过对服务请求的到达率进行建模，使用LSTM网络对其到达率进行预测，极大的还原了现实的动态性；依据服务请求到达率，对服务请求进行划分，可全部或部分地卸载到MEC服务器进行远程执行，提高资源利用率；对于卸载到MEC服务器进行远程执行的服务请求，可以对其VNF进行合理的放置部署到MEC服务器上，目标是在长期内最小化服务的执行延迟。

如图2所示，为了达到上述目的，可以通过一种合作双智能体深度强化学习算法实现，方法具体步骤如下：

1、对物联网用户的服务请求的到达过程进行建模，对下一时间段的服务请求到达率进行预测。

示例性的，对于物联网环境下产生的服务请求到达模型，可以基于队列的系统视作泊松过程，由于在对服务请求进行编排的过程中，下一时间段的服务请求到达率是无法提前获知。因此，对于每一个物联网中的用户，设计了一种基于LSTM网络的算法来预测即将到来的时间段内的服务请求到达率（可以记为）。

其中，，/>，/>和/>是遗忘门，输入门，输出门和调制输入，/>(/>)是s型函数，/>是输入，可以得到内存单元和隐藏单元为:

是LSTM单元在第t步的输出,即下一个时隙的服务请求到达率/>。

2、对服务请求的处理过程进行建模，推导出服务请求处理的成本公式。

示例性的，对服务请求处理进行建模的过程可以包括：

2.1、在支持NFV的MEC系统中，包括物联网用户MD和边缘服务器EN（Edge Node，边缘节点）。

EN可以用无向图G = （V，E）来表示，其中V是EN在区域内的集合（即中心管理节点能够管理到的范围内的EN集合，可用下标序号{1,2,3…，n}区分集合内的不同EN），E是服务器之间链路的集合。EN可以承载多个VNF实现所需的移动边缘应用，为MD提供计算卸载服务，但其计算能力有限，具有强大计算能力的云服务器被指定为运行NFV管理与编排（NFV-MANO）框架的中心管理节点。

NFV-MANO 通过SDN控制器具有全局视角，负责VNF编排和生命周期管理，进行包括服务请求划分以及VNF放置。

2.2、对于MD产生的服务请求，产生的输入数据可以被任意划分为两部分（其中一部分可以为0）进行本地计算和边缘计算，这两个部分由两个相同的SFC处理，一个部署在MD上，另一个部署在边缘环境中。

设={/>,/>,/>}为时隙t的MD的服务请求，其中/>表示所需的SFC,/>为输入数据大小，/>为执行/>所需的CPU周期数。设/>[0，1]表示边缘计算的比例，则本地计算/>的速率为：

其中，为MD的CPU频率。

本地计算的能耗成本为：

k为能耗系数，主要与硬件架构有关。

在边缘服务器上的能耗为：

2.3、由于MD与边缘服务器处理为并行处理，因此服务请求/>最终的处理时延为：

最终的能耗为：

物联网服务动态编排的目标是使平均长期成本最小化，让用户的服务质量能得到提高，可以得到所需优化的目标函数（也可以称为成本公式）：

其中，上述目标函数的含义为在指定约束条件下，确定和/>的值，使的值最小，即成本最小化。

其中，目标函数中第一项（即第一个约束条件）用于确保取值在[0，1]，第二项用于确保EN均为中心管理节点能够管理到的范围内的EN，第三项用于确保处理VNF所需的CPU不能超过服务器的计算上限，第四项用于保证传输所需带宽不能超过链路带宽容量。

3、将服务请求的划分和VNF的放置建模为马尔科夫决策过程。

示例性的，对服务请求划分和VNF放置可划分为两个环境进行处理，可以分别对其建模为马尔科夫决策过程。

3.1、对于MD环境下的MDP可由三元组来表示。在MD环境下智能体/>（即上述第一智能体）负责服务请求的划分，可以通过训练/>找到一个最优的任务划分策略，使成本最小化。与MD环境相关联的状态空间、动作空间和奖励空间定义如下：

3.1.1、状态空间：

为时间段t的MD环境状态，包括/>所需SFC的向量、输入数据大小、执行所需的CPU周期数。

3.1.2、行动空间：

是/>在/>的动作。在时隙t，MD将任务输出的输入数据划分为本地计算部分和边缘计算部分，设/>=/>。如果/>=0，则任务/>在MD本地执行。否则，/>的一部分输入数据·/>在EN上执行，而其余的输入数据在MD上处理。

3.1.3、奖励函数：

其中，约束记为上述目标函数的约束；为一个调控因子，取0到1。

例如，在时延优先级和能耗优先级一样的情况下，可以取0.5；同理，在只考虑时延或者能耗的情况下，/>可以取0或者1。

目标是最小化平均长期成本，即MD环境的奖励函数设为成本的负值，是一个极大的值，由于/>和/>是由/>、/>、/>和/>决定的，/>和/>是在收到EN环境的结果后获得的。

3.2、在给定的EN环境下的MDP可由四元组来表示，通过训练/>（即上述第二智能体）找到一个最优的VNF放置策略，使成本最小化。VNF放置的解决方案指定SFC中的每个VNF放置的位置。在时间槽t内，/>的VNF放置可分为/>个阶段。在阶段i ,/>只决定在EN处/>中第i个VNF的位置。与EN环境相关联的状态空间、动作空间和奖励空间定义如下：

3.2.1、状态空间：

其中，为时隙t在阶段i的EN环境的状态，/>用于识别被选为托管VNFs前一阶段的EN，即在部署当前VNF的过程中，部署了上一个VNF的EN。/>=/>表示所有EN的可用计算能力，/>=/>表示所有EN之间所有有线链路的可用带宽容量。

3.2.2、行动空间：

是/>在/>中所做的动作。在每个阶段，置/>=/>，表明EN/>已被选中托管VNF/>。因此，可以将所有VNFs放置置于/>个阶段之后。

3.2.3、状态转换：

由的定义可知，当前状态/>是由之前的状态按照一定的转移概率得到的，强化学习智能体可以学习到这些转移概率。/>就是上一个VNF部署的结果，由/>决定。因此，可以得出/>依赖于/>和/>，从而构成了MDP模型。

3.2.4、奖励函数：

其中，依据当前阶段的能耗和时延成本确定。

强化学习的目标是最大化处理阶段内的累积奖励。所需成本越小，奖励越高，在训练中，为了使目标的优化方向与奖励函数成正相关，可以将物联网服务在边缘服务器中的能耗和时延取负值，在个阶段之后可以得到/>和/>。

4、通过合作双智能体深度强化学习得到步骤3的决策结果，从而实现对物联网服务请求的动态编排。

示例性的，考虑到任务划分是一个连续优化问题，即的动作空间是连续的。TD3（Twin Delayed DDPG，双延迟深度确定性策略梯度）是一种经典的DRL（DeepReinforcement Learning，深度强化学习）算法（一种结合了深度学习和强化学习的算法），可以应用于求解/>，TD3采用了两个评论家网络和一个行动者网络，优化了DDPG（DeepDeterministic Policy Gradient，深度确定性策略梯度）在训练过程中Q值估计过高的问题。而对于VNF的放置是一个离散优化问题，/>的动作空间是非连续的，可以使用DDQN（Double DQN（Deep Q-Network，深度Q网络），双DQN）的无模型（Model-free）DRL（DeepReinforcement Learning，深度强化学习）方法。在双智能体强化学习算法中，智能体/>和合作可以实现物联网服务的动态编排。两个智能体之间的协作是通过MD和EN环境之间的信息交换来实现的，在/>和MD环境之间，/>观察当前状态/>，并采取行动/>，在收到EN环境的边缘计算结果/>和/>之后, MD环境将奖励/>反馈给/>，并过渡到下一个状态。同样，EN环境从MD环境接收到服务划分比例/>后，/>观察当前状态/>，并采取行动，然后EN环境将奖励R反馈给/>，并过渡到下一个状态/>，通过两个智能体的信息交互使得决策更加合理，优化了服务的成本。

以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述：

请参见图3，为本申请实施例提供的一种基于双智能体深度强化学习的物联网服务编排装置的结构示意图，如图3所示，该基于双智能体深度强化学习的物联网服务编排装置可以包括：

第一确定单元310，用于依据历史时间段的服务请求到达率，利用预先训练的神经网络模型，确定下一时间段的服务请求到达率；其中，任一服务请求对应一组有序的虚拟网络功能VNF；

第二确定单元320，用于依据所述下一时间段的服务请求到达率，利用深度强化学习算法，确定下一时间段到达的服务请求的目标划分比例和目标VNF编排方案；所述划分比例为下一时间段到达服务请求中，本地计算的服务请求的数量的占比，所述深度强化学习算法基于第一智能体和第二智能体实现，所述第一智能体用于确定服务请求的划分比例，所述第二智能体用于确定划分给边缘计算的服务请求的VNF编排方案；所述深度强化学习算法以最小化计算成本为优化目标，所述计算成本包括计算时间延迟和能耗，所述计算时间延迟依据本地计算时间延迟和边缘计算时间延迟确定，所述能耗依据本地能耗和边缘能耗确定；计算成本分别与计算时间延迟及能耗正相关；

处理单元330，用于依据所述目标划分比例和目标VNF编排方案，对下一时间段到达的服务请求进行处理。

在一些实施例中，所述第一确定单元310依据历史时间段的服务请求到达率，利用预先训练的神经网络模型，确定下一时间段的服务请求到达率，包括：

依据历史时间段的服务请求达到率，利用预先训练的长短时记忆网络LSTM模型，确定下一时间段的服务请求到达率。

在一些实施例中，本地计算时间延迟依据划分比例、本地节点的CPU频率，以及，执行下一时间段到达的服务请求所需的CPU周期数确定；

在一些实施例中，如图4所示，所述装置还包括：

第三确定单元340，用于依据本地计算时间延迟、本地能耗、边缘计算时间延迟，以及，边缘能耗确定计算成本；

所述第三确定单元依据本地计算时间延迟、本地能耗、边缘计算时间延迟，以及，边缘能耗确定计算成本包括：

将本地能耗与边缘能耗二者之和，确定为最终能耗；

本申请实施例还提供一种电子设备，包括处理器和存储器，其中，存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上文描述的基于双智能体深度强化学习的物联网服务编排方法。

请参见图5，为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可包括处理器501、存储有机器可执行指令的存储器502。处理器501与存储器502可经由系统总线503通信。并且，通过读取并执行存储器502中基于双智能体深度强化学习的物联网服务编排逻辑对应的机器可执行指令，处理器501可执行上文描述的基于双智能体深度强化学习的物联网服务编排方法。

本文中提到的存储器502可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM（RadomAccess Memory，随机存取存储器）、易失存储器、非易失性存储器、闪存、存储驱动器（如硬盘驱动器）、固态硬盘、任何类型的存储盘（如光盘、dvd等），或者类似的存储介质，或者它们的组合。

在一些实施例中，还提供了一种机器可读存储介质，如图5中的存储器502，该机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时实现上文描述的基于双智能体深度强化学习的物联网服务编排方法。例如，所述机器可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种计算机程序产品，存储有计算机程序，并且当处理器执行该计算机程序时，促使处理器执行上文中描述的基于双智能体深度强化学习的物联网服务编排方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种基于双智能体深度强化学习的物联网服务编排方法，其特征在于，包括：

依据所述目标划分比例和目标VNF编排方案，对下一时间段到达的服务请求进行处理；

其中，在第一智能体和第二智能体的训练过程中，对于下一时间段到达的服务请求，利用第一智能体确定的划分比例，将该划分比例输出给第二智能体，利用第二智能体依据该划分比例，确定VNF编排方案，并确定该VNF编排方案下的边缘计算时间延迟和边缘能耗，将该边缘计算时间延迟和边缘能耗反馈给第一智能体；

2.根据权利要求1所述的方法，其特征在于，所述依据历史时间段的服务请求到达率，利用预先训练的神经网络模型，确定下一时间段的服务请求到达率，包括：

3.根据权利要求1所述的方法，其特征在于，本地计算时间延迟依据划分比例、本地节点的CPU频率，以及，执行下一时间段到达的服务请求所需的CPU周期数确定；

4.根据权利要求1所述的方法，其特征在于，依据本地计算时间延迟、本地能耗、边缘计算时间延迟，以及，边缘能耗确定计算成本，包括：

将本地能耗与边缘能耗二者之和，确定为最终能耗；

5.一种基于双智能体深度强化学习的物联网服务编排装置，其特征在于，包括：

处理单元，用于依据所述目标划分比例和目标VNF编排方案，对下一时间段到达的服务请求进行处理；

6.根据权利要求5所述的装置，其特征在于，所述第一确定单元依据历史时间段的服务请求到达率，利用预先训练的神经网络模型，确定下一时间段的服务请求到达率，包括：

7.根据权利要求5所述的装置，其特征在于，本地计算时间延迟依据划分比例、本地节点的CPU频率，以及，执行下一时间段到达的服务请求所需的CPU周期数确定；

边缘能耗依据边缘节点执行所分配的VNF所需的CPU周期数，以及，边缘节点的CPU频率确定；

其中，所述装置还包括：

第三确定单元，用于依据本地计算时间延迟、本地能耗、边缘计算时间延迟，以及，边缘能耗确定计算成本；

将本地能耗与边缘能耗二者之和，确定为最终能耗；

8.一种电子设备，其特征在于，包括处理器和存储器，其中，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1~4任一项所述的方法。