CN117041330A

CN117041330A - 一种基于强化学习的边缘微服务细粒度部署方法及系统

Info

Publication number: CN117041330A
Application number: CN202311304760.7A
Authority: CN
Inventors: 彭凯; 何金涛; 徐家祥; 张晨; 何建文; 胡梦兰; 陈云鹏; 杨晓东; 王建东; 邱生顺; 姚毅; 郭佳璐; 胡毅
Original assignee: Three Gorges High Technology Information Technology Co ltd; Huazhong University of Science and Technology
Current assignee: Three Gorges High Technology Information Technology Co ltd; Huazhong University of Science and Technology
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2023-11-10
Anticipated expiration: 2043-10-10
Also published as: CN117041330B

Abstract

本发明提供一种基于强化学习的边缘微服务细粒度部署方法及系统，该方法包括：分别构建边缘服务器、微服务种类、应用请求和移动设备的集合，定义各集合中元素信息；建立微服务访问模型，并将最小化访问时延作为优化目标；构建基于奖励记忆塑造的深度确定性策略梯度算法学习最优的微服务部署和路由策略，基于重放池和目标网络来提高学习效率和稳定性；通过批量样本策略梯度更新Actor网络，最小化损失函数更新Critic网络，利用指数平滑更新目标网络；基于最小微服务访问时延的优化目标输出最终的微服务部署策略，并更新微服务部署状态。通过该方案能实现微服务节点资源合理分配，可以有效降低微服务间通信开销，并方便动态调整微服务部署和路由路径。

Description

一种基于强化学习的边缘微服务细粒度部署方法及系统

技术领域

本发明属于深度学习领域，尤其涉及一种基于强化学习的边缘微服务细粒度部署方法及系统。

背景技术

随着互联网应用的快速发展，用户对服务的响应时间、安全性和可用性的要求越来越高。由于云端服务器与用户之间的距离较远，会存在网络延迟、拥塞以及数据隐私安全等问题。为了解决这些问题，边缘计算作为一种新兴的计算范式，将计算资源和服务部署在靠近用户的边缘节点上，能提高网络服务质量及用户体验。

微服务作为一种轻量级、松耦合、可复用的软件架构风格，它将一个复杂的应用拆分成多个小型、独立的服务，每个服务负责一个单一的功能，并通过网络协议进行通信。微服务具有高内聚、低耦合、易扩展、易维护等优点，适合在动态变化的边缘环境中部署和运行。

当前，在边缘环境中部署微服务也面临着一些问题，比如边缘节点的资源有限，如何有效地利用和分配资源，实现资源均衡和负载均衡；微服务之间存在依赖关系，如何根据依赖强度和网络带宽等因素，优化微服务之间的通信开销和延迟；用户移动设备的位置不固定，如何根据用户位置变化，动态地调整微服务部署位置和路由路径等。

有鉴于此，有必要提出一种能实现节点资源合理分配、降低微服务间通信开销并能动态调整微服务部署和路由路径的方案。

发明内容

有鉴于此，本发明实施例提供了一种基于强化学习的边缘微服务细粒度部署方法及系统，用于解决现有微服务部署无法实现节点资源合理分配、微服务间通信开销大以及无法动态调整微服务部署和路由路径的问题。

在本发明实施例的第一方面，提供了一种基于强化学习的边缘微服务细粒度部署方法，包括：

构建边缘服务器集合、微服务种类集合、应用请求集合和用户移动设备集合，并定义各集合中元素信息；

建立微服务访问模型，将微服务部署和路由策略表示为用户访问微服务的时延优化单目标模型，并以最小化微服务访问时延作为优化目标来提高网络服务质量；

构建基于奖励记忆塑造的深度确定性策略梯度算法学习最优的微服务部署和路由策略，基于重放池和目标网络来提高学习效率和稳定性；

其中，所述深度确定性策略梯度算法中包括一个Actor网络、一个Critic网络和一个LSTM网络，Actor网络用于输出动作，Critic网络用于输出评估状态-动作对的Q值，LSTM网络用于预防网络更新过程的梯度爆炸；

通过批量样本策略梯度的方式更新Actor网络，最小化损失函数更新Critic网络，利用指数平滑更新目标网络；

基于最小微服务访问时延的优化目标，通过所述微服务访问模型输出最终的微服务部署策略，并更新最终微服务部署状态。

在本发明实施例的第二方面，提供了一种基于强化学习的边缘微服务细粒度部署系统，包括：

集合构建模块，用于构建边缘服务器集合、微服务种类集合、应用请求集合和用户移动设备集合，并定义各集合中元素信息；

模型构建模块，用于建立微服务访问模型，将微服务部署和路由策略表示为用户访问微服务的时延优化单目标模型，并以最小化微服务访问时延作为优化目标来提高网络服务质量；

深度学习模块，用于构建基于奖励记忆塑造的深度确定性策略梯度算法学习最优的微服务部署和路由策略，基于重放池和目标网络来提高学习效率和稳定性；

网络优化模块，用于通过批量样本策略梯度的方式更新Actor网络，最小化损失函数更新Critic网络，利用指数平滑更新目标网络；

结果输出模块，用于基于最小微服务访问时延的优化目标，通过所述微服务访问模型输出最终的微服务部署策略，并更新最终微服务部署状态。

在本发明实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明实施例第一方面所述方法的步骤。

在本发明实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例第一方面提供的所述方法的步骤。

本发明实施例中，基于奖励记忆塑造的深度确定性策略梯度模型学习最优的微服务部署和路由策略，将最小访问时延作为目标进行模型得到最优微服务部署策略，从而能实现微服务节点资源合理分配，而且能有效降低微服务间通信开销，并方便动态调整微服务部署和路由路径，进而提高了服务质量及服务的可靠性，且不需要人为地设定固定的规则或参数进行部署，增强微服务部署的灵活性，方便根据需求动态部署。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍，显而易见地，下面描述的附图仅仅是本发明的一些实施例，对本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他附图。

图1为本发明一个实施例提供的一种微服务部署和请求路由案例示意图；

图2为本发明一个实施例提供的一种基于强化学习的边缘微服务细粒度部署方法的流程示意图；

图3为本发明一个实施例提供的一种奖励记忆塑造的深度确定性策略梯度算法框架示意图；

图4为本发明一个实施例提供的一种基于强化学习的边缘微服务细粒度部署系统的结构示意图；

图5为本发明的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

应当理解，本发明的说明书或权利要求书及上述附图中的术语“包括”以及其他相近意思表述，意指覆盖不排他的包含，如包含一系列步骤或单元的过程、方法或系统、设备没有限定于已列出的步骤或单元。此外，“第一”“第二”用于区分不同对象，并非用于描述特定顺序。

如图1所示，本发明一个实施例提供了微服务部署和请求路由案例的示意图。

为了避免海量的并发请求阻塞边缘网络，设计为一个种类的微服务可以有多个镜像部署在不同的边缘服务器上，从而使得并发的请求分流，达到缓解服务器单处理器压力的效果，降低服务器崩溃的概率。用户请求在边缘网络中的运转可以分解为两步：

步骤一，将微服务镜像部署在边缘服务器上。每种微服务可能包括多个镜像，多个镜像可能部署在同一或不同的边缘服务器上。由于微服务间存在依赖关系，如果具有依赖关系的微服务部署在同一服务器上，那么他们之间的调用可忽略通信时延，能有效降低用户请求完成的时延。定义微服务镜像的部署空间为：

其中，表示微服务/>部署在服务器/>上的镜像数，/>表示不部署该微服务镜像在服务器上，由于每个边缘服务器资源有限，因此对部署空间做如下约束：

（1）

（2）

这意味着在任意一个服务器上部署的所有微服务镜像占据的CPU资源和存储资源无法超出服务器现有CPU和存储资源。

步骤二，根据请求链选择合适的路由完成请求。微服务镜像部署完毕之后，需要将用户请求映射到微服务镜像上，由于每种微服务拥有多个镜像，当用户请求达到边缘网络中心时，需要选择其中一个镜像完成请求，由于同种微服务镜像可能会被部署在不同服务器上，所以微服务请求到不同服务器上的镜像最终返回的响应时延也不同。

如图1所示，假设一个用户的请求链为

其中部署了3个镜像，/>部署了2个镜像，/>部署了4个镜像，通常用户发送的请求率先落到距离近的服务器上，以图1为例，用户的第一个微服务请求/>率先落到边缘服务器/>上，从/>有两条路径，如图1中1-2所示，对于同在边缘服务器/>上的微服务/>和/>，通常忽略他们之间的传输时延，因此访问时延会下降；对于不在同一个服务器上的微服务，需要消费额外的路由传输时延，如图1中1-2路径选择/>。从单个用户请求考虑，必然会选择第一种，但在海量请求到来的时候，如果全部的请求都落在边缘服务器/>，就会产生较大的排队时延，也会导致该服务器负载过大，有崩溃的风险，因此需要综合考虑时延和负载的平衡来选择合适的路由策略。同理，/>的路由选择参考图1的2-3和/>。

请参阅图2，本发明实施例提供的一种基于强化学习的边缘微服务细粒度部署方法的流程示意图，包括：

S201、构建边缘服务器集合、微服务种类集合、应用请求集合和用户移动设备集合，并定义各集合中元素信息；

所述边缘服务器集合可以为，其中，/>表示第k个边缘服务器节点，/>为边缘服务器节点总数；所述微服务种类集合可以为，其中，/>表示第/>个微服务，/>为微服务类型总数；所述应用请求集合可以为/>，其中，/>表示第m种应用请求，/>为应用请求总数；所述用户移动设备集合可以为/>，其中，/>表示第n个用户移动设备，/>为用户移动设备总数。

其中，边缘服务器集合中每个边缘服务器节点至少包括边缘服务器的地理位置、CPU资源总量和Memory（存储）资源总量；

微服务种类集合中每个微服务至少包括微服务需要消耗的CPU资源和Memory资源；

应用请求集合中每个应用请求至少包括微服务及微服务之间存在的依赖关系；

用户移动设备集合中每个用户移动设备至少包括地理位置信息。

示例性的，每个边缘服务器包含以下3个信息：，其中，/>表示边缘服务器的地理位置，包含经度和纬度两个信息/>，表示边缘服务器的地理位置固定，/>表示边缘服务器的CPU资源总量，/>表示边缘服务器存储资源总量；每个微服务/>包含2个信息：/>，其中，/>表示微服务需要消耗的CPU资源，/>表示微服务/>需要消耗的存储资源；每个应用请求表示为/>,它是由不同的微服务组成的有向无环图，ms表示微服务，表示微服务之间存在的依赖关系，通常指微服务之间调用的数据量；每个用户移动设备具有地理位置信息，表示为/>，/>，/>分别表示经度和纬度。

S202、建立微服务访问模型，将微服务部署和路由策略表示为用户访问微服务的时延优化单目标模型，并以最小化微服务访问时延作为优化目标来提高网络服务质量；

所述微服务访问模型是将用户请求微服务的过程表示为模型，在移动边缘场景中，终端用户向边缘服务器发出请求，每个请求作为微服务链，当用户请求时就是在访问链上的每个微服务，直到微服务链上的微服务全部访问结束，代表请求完成，而访问时延则是模型的优化目标。

在所述微服务访问模型中，不断优化微服务的部署以及路由策略，并将最小化访问时延作为目标，可以提高网络服务质量QoS。

所述用户访问微服务的时延优化单目标模型也即是微服务访问模型，微服务访问模型是将用户访问微服务的最小时延作为优化目标，因而，微服务访问模型中微服务部署和路由策略也可以表示为用户访问微服务的时延优化单目标模型。

其中，将微服务部署和路由策略表示为用户访问微服务的时延优化单目标模型；

分别定义单目标模型的微服务部署决策变量和微服务实例放置决策变量；

微服务部署决策变量用于表示微服务是否部署在边缘节点上，微服务实例放置决策变量用于微服务在边缘节点上放置的实例数目；

定义微服务的访问时延，所述访问时延包括执行时延和通信时延，执行时延由处理时延和排队时延组成，通信时延由用户请求到服务器的上下行传输时延、传播时延和边缘服务器之间的路由时延组成；

所述执行时延表示为：

；

所述通信时延表示为：

；

式中，表示微服务/>的到来速率，/>表示微服务队长，/>表示微服务处理速率，/>表示用户请求到服务器的上行传输时延，/>表示服务器到用户的下行传输时延，/>表示传播时延，/>表示边缘服务器之间的路由时延。

将微服务部署决策变量定义为,它是大小为/>的矩阵，表示微服务是否部署在边缘节点上；将微服务实例放置决策变量定义为/>，同样是大小为/>的矩阵，表示微服务在边缘节点上放置的实例数目。

微服务访问时延是指从用户移动设备发出请求到收到请求响应的总时间，包括执行时延和通信时延；执行时延是指微服务在边缘节点上的处理时延和排队时延，采用M/M/S的等待制排队模型计算；通信时延是指用户请求到服务器的上下行传输时延、传播时延和边缘服务器之间的路由时延。

执行时延包括处理时延和排队时延：，/>表示微服务排队时延，执行时延中不同的边缘节点对于不同微服务的处理速度也是不同的。/>被计算为：。

S203、构建基于奖励记忆塑造的深度确定性策略梯度算法学习最优的微服务部署和路由策略，基于重放池和目标网络来提高学习效率和稳定性；

在所述微服务访问模型中通过奖励记忆塑造的深度确定性策略梯度算法不断学习微服务部署和路由策略，在最小访问时延的约束下，以实现最优微服务部署和请求路由。

所述奖励记忆塑造的深度确定性策略梯度算法是基于深度强化学习，其在移动边缘环境中，构造一个智能体，它将采取一系列的部署动作，记录每一步动作获得的奖励，目标是获得最多的累加奖励，但由于微服务部署的特殊性，只有当一个请求链上所有的微服务部署完毕才能判断动作的好坏，因此，可以将部署好最后一个微服务产生的奖励共享给先前的步骤（记忆共享），通过不断学习、反馈得到最终的部署策略，也即深度强化学习的过程。

定义Actor网络是一个确定性策略函数，表示为，待学习的参数表示为/>，每个动作由Actor网络输出，被计算为：

；

式中，为了平衡确定性策略的探索和利用，对每个输出动作添加随机噪声，通过添加探索因子/>,对输出的动作以/>为均值，/>为方差的构造正态分布采样来代替，以此达到添加随机噪声的效果。

其中，初始化Actor 网络参数/>，Critic 网络 />参数/>，初始化目标网络/>、/>以及目标网络的网络参数，令/>，/>；

在每个episode回合开始时，从重放池中随机抽取一批状态转移数据对；

通过目标网络计算目标Q值，令

；

式中，表示目标Q值，/>表示获得奖励，/>表示奖励折扣因子，/>表示当前阶段的部署状态，/>表示下一阶段的部署状态，/>表示当前阶段采取动作，/>、/>表示目标网络，/>、/>均表示目标网络参数。

具体的，在Actor网络和Critic网络中引入了LSTM模块，它是一个递归神经网络，具体计算步骤包括：

步骤一：将当前第步骤的部署状态/>作为输入/>和先前输出的动作/>作为隐藏层的输出/>进入遗忘门，选择需要保留的信息，表示为：

其中表示sigmoid函数，/>，/>分别表示遗忘门的权重和偏置，通过sigmoid函数将信息映射到0-1之间，0表示完全舍弃，1表示完全保留。

步骤二：在输入门中选择存储单元需要保存的信息，包括两个部分，sigmoid层和tanh层，被计算为：

步骤三：更新存储单元，计算为：

步骤四：确定输出门输出的信息，计算为：

最终所含的信息再经过全连接神经网络得到Actor网络和Critic网络的输出，分别为/>和/>。

式中，表示上一时刻隐藏层状态，/>表示部署状态的输入，/>表示输入门控制信号，/>表示信息候选状态，/>表示当前时刻记忆状态，/>表示上一时刻记忆状态，/>、、/>分别表示输入门、遗忘门、输出门的权重，/>表示遗忘门控制信号，/>表示输出门控制信号，/>表示当前时刻隐藏状态，/>表示上一时刻隐藏状态，/>表示当前时刻的输入，/>、/>、/>分别表示输入门、遗忘门、输出门的偏置。

S204、通过批量样本策略梯度的方式更新Actor网络，最小化损失函数更新Critic网络，利用指数平滑更新目标网络；

具体的，通过批量样本策略梯度的方式更新Actor网络：

；

通过最小化目标Q值和预测Q值之间的均方误差来更新Critic网络的参数；

；

通过软更新的方式来更新目标网络的参数，；

；

式中，表示数学期望，/>表示获得奖励，▽表示梯度算子，/>表示奖励累加和，/>表示损失函数，N表示采样的数据量，t表示步骤，a表示动作，s表示部署状态，/>表示目标Q值，/>表示当前步骤部署状态，/>表示当前步骤采取的动作，/>表示更新因子，/>、/>表示目标网络，/>、/>均表示目标网络参数，/>表示Actor 网络 />的参数，/>表示Critic 网络 />的参数。

S205、基于最小微服务访问时延的优化目标，通过所述微服务访问模型输出最终的微服务部署策略，并更新最终微服务部署状态。

将最小微服务访问时延作为目标，根据边缘服务器的地理信息、带宽、可用资源以及用户设备的地理信息、带宽、应用请求等信息，通过训练后的微服务访问模型输出最优微服务部署策略，可以在边缘环境资源约束下使得所有用户的访问时延最小，优化微服务的部署策略。

本实施例中，基于优先经验记忆共享的深度确定性策略梯度模型学习最优的微服务部署和路由策略，实现最小化微服务访问时延，不仅能实现边缘微服务资源的合理分配，而且能优化微服务的通信开销和延迟，方便动态调整微服务部署位置和路由路径，保障微服务的高可用性和容错性。

在一个实施例中，所述基于奖励记忆塑造的深度确定性策略梯度算法可以分为状态、智能体、动作和奖励四个组成部分，如图3所示，图3是本发明一个实施例提供的一种奖励记忆塑造的深度确定性策略梯度算法框架示意图，主要包括状态、动作、RMS_DDPG智能体和奖励四部分，下面结合图4对算法框架的各个组成部分进行具体的介绍：

状态：奖励记忆塑造的深度确定性策略梯度算法的状态空间主要指的每个边缘服务器放置微服务实例的部署空间以及边缘服务器的资源空间，微服务部署状态空间为，为/>大小的矩阵，描述服务器上部署的微服务镜像信息，资源空间分为已用资源空间和剩余资源空间，分别表示为

资源空间约束着部署空间,因此整个系统状态空间表示为。

智能体：奖励记忆塑造的深度确定性策略梯度算法中，智能体与环境互动，采取系列动作，更新状态和回报，最终学习得到一个最优的部署策略，主要包含Actor网络、Critic网络、目标Actor网络和目标Critic网络,在这四个网络中我们都引入长短期记忆神经网络使得智能体具有一定的记忆能力，用于记忆之前好的动作和状态，遗忘坏的动作和状态，另外，此模块可以有效防止学习过程的梯度消失和梯度爆炸。

动作：奖励记忆塑造的深度确定性策略梯度算法的动作表示某个到来的微服务镜像部署在某个边缘节点上的倾向，用表示微服务/>选择部署在某个边缘节点的动作，它被表示为：

其中，最终选择概率最大的节点部署该微服务镜像。

奖励：奖励记忆塑造的深度确定性策略梯度算法中，智能体的目标是探索不同的部署动作来寻找最小化微服务访问时延的部署策略，但由于微服务部署任务的特殊性，只有在部署完所有的微服务时，才可以计算整个系统用户请求时延时。因此设计的获得奖励分为两部分：部署每个微服务镜像获得的奖励、部署完最后一个微服务镜像后通过计算所有请求获得的奖励。最终，一个episode回合的奖励是这两个部分的累加，每一个step的奖励表示如下：

式中，全局表示最优微服务访问时延，/>表示第/>个episode部署状态/>的微服务访问时延，/>表示上一个episode回合部署状态/>的微服务访问时延。

综上，每个episode回合的奖励表示为：

其中，表示需要部署的微服务实例总数。

应理解，上述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图4为本发明实施例提供的一种基于强化学习的边缘微服务细粒度部署系统的结构示意图，该系统包括：

集合构建模块410，用于构建边缘服务器集合、微服务种类集合、应用请求集合和用户移动设备集合，并定义各集合中元素信息；

其中，所述定义各集合中元素信息包括：

边缘服务器集合中每个边缘服务器节点至少包括边缘服务器的地理位置、CPU资源总量和Memory（存储）资源总量；

模型构建模块420，用于建立微服务访问模型，所述微服务访问模型中将最小化微服务访问时延作为优化目标以提高网络服务质量；

其中，所述将微服务部署和路由策略表示为用户访问微服务的时延优化单目标模型包括：

将微服务部署和路由策略表示为用户访问微服务的时延优化单目标模型；

其中，微服务部署决策变量用于表示微服务是否部署在边缘节点上，微服务实例放置决策变量用于微服务在边缘节点上放置的实例数目；

其中，所述执行时延表示为：

；

所述通信时延表示为：

；

深度学习模块430，用于通过优先经验记忆共享的深度确定性策略梯度算法学习最优的微服务部署和路由策略，基于重放池和目标网络来提高学习效率和稳定性；

其中，所述基于重放池和目标网络来提高学习效率和稳定性包括：

初始化Actor 网络参数/>，Critic 网络 />参数/>，初始化目标网络/>、/>以及目标网络的网络参数，令/>，/>；

通过目标网络计算目标Q值，令

；

其中，所述基于奖励记忆塑造的深度确定性策略梯度算法分为状态、智能体、动作和奖励四个组成部分；

状态分为微服务部署状态空间、资源空间，资源空间分为已用资源空间和剩余资源空间，资源空间约束着部署状态空间；

智能体包括Actor网络、Critic网络、目标Actor网络和目标Critic网络,四个网络中都引入LSTM网络使得智能体具有记忆能力；

动作用于表示微服务镜像部署在某个边缘节点上的倾向，用表示微服务/>选择部署在某个边缘节点的动作，表示为：

式中，、/>、/>、/>均表示选择概率，/>为边缘服务器节点总数，/>，最终选择概率最大的节点部署当前微服务镜像；

奖励分为部署每个微服务镜像获得的奖励、部署完最后一个微服务镜像后所有请求获得的奖励两个部分，最终的奖励表示为两个部分的累加：

式中，表示总奖励，/>表示需要部署的微服务实例总数，/>表示每一个微服务部署的奖励，/>表示部署完最后一个微服务的总奖励。

网络优化模块440，用于通过批量样本策略梯度的方式更新Actor网络，最小化损失函数更新Critic网络，利用指数平滑更新目标网络；

具体的，通过批量样本策略梯度的方式更新Actor网络：

；

通过软更新的方式来更新目标网络的参数，；

；

结果输出模块450，用于基于最小微服务访问时延的优化目标，通过所述微服务访问模型输出最终的微服务部署策略，并更新最终微服务部署状态。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和模块的具体工作过程可以参考前述方法实施例中对应的过程，在此不再赘述。

图5是本发明一实施例提供的一种电子设备的结构示意图。所述电子设备用于实现边缘微服务的细粒度部署。如图5所示，该实施例的电子设备5包括：存储器510、处理器520以及系统总线530，所述存储器510包括存储其上的可运行程序5101，本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对电子设备的各个构成部件进行具体的介绍：

存储器510可用于存储软件程序以及模块，处理器520通过运行存储在存储器510的软件程序以及模块，从而执行电子设备的各种功能应用以及数据处理。存储器510可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据电子设备的使用所创建的数据（比如缓存数据）等。此外，存储器510可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在存储器510上包含微服务部署方法的可运行程序5101，所述可运行程序5101可以被分割成一个或多个模块/单元，所述一个或多个模块/单元被存储在所述存储器510中，并由处理器520执行，以实现最优的微服务部署和请求路由等，所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述可运行程序5101在所述电子设备5中的执行过程。例如，所述可运行程序5101可以被分割为集合构建模块、模型构建模块、深度学习模块、网络优化模块和结果输出模块等功能模块。

处理器520是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器510内的软件程序和/或模块，以及调用存储在存储器510内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体状态监控。可选的，处理器520可包括一个或多个处理单元；优选的，处理器520可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器520中。

系统总线530是用来连接计算机内部各功能部件，可以传送数据信息、地址信息、控制信息，其种类可以是例如PCI总线、ISA总线、CAN总线等。处理器520的指令通过总线传递至存储器510，存储器510反馈数据给处理器520，系统总线530负责处理器520与存储器510之间的数据、指令交互。当然系统总线530还可以接入其他设备，例如网络接口、显示设备等。

在本发明实施例中，该电子设备所包括的处理器520执行的可运行程序包括：

建立微服务访问模型，所述微服务访问模型将最小化微服务访问时延作为优化目标以提高网络服务质量；

通过优先经验记忆共享的深度确定性策略梯度算法学习最优的微服务部署和路由策略，基于重放池和目标网络来提高学习效率和稳定性；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于强化学习的边缘微服务细粒度部署方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述定义各集合中元素信息包括：

边缘服务器集合中每个边缘服务器节点至少包括边缘服务器的地理位置、CPU资源总量和Memory资源总量；

3.根据权利要求1所述的方法，其特征在于，所述建立微服务访问模型包括：

其中，所述执行时延表示为：

；

所述通信时延表示为：

；

4.根据权利要求1所述的方法，其特征在于，所述构建基于奖励记忆塑造的深度确定性策略梯度算法学习最优的微服务部署和路由策略包括：

构建算法的状态、智能体、动作和奖励四个组成部分；

；

5.根据权利要求1所述的方法，其特征在于，所述基于重放池和目标网络来提高学习效率和稳定性包括：

通过目标网络计算目标Q值，令

；

式中，表示目标Q值，/>表示获得奖励，/>表示奖励折扣因子，/>表示当前阶段的部署状态，/>表示下一阶段的部署状态，/>表示当前阶段采取动作，/>、/>表示目标网络，、/>均表示目标网络参数。

6.根据权利要求1所述的方法，其特征在于，所述通过批量样本策略梯度的方式更新Actor网络，最小化损失函数更新Critic网络，利用指数平滑更新目标网络包括：

通过批量样本策略梯度的方式更新Actor网络：

；

通过软更新的方式来更新目标网络的参数，；

；

式中，表示数学期望，/>表示获得奖励，▽表示梯度算子，/>表示奖励累加和，/>表示损失函数，N表示采样的数据量，t表示步骤，a表示动作，s表示部署状态，/>表示目标Q值，/>表示当前步骤部署状态，/>表示当前步骤采取的动作，/>表示更新因子，/>、/>表示目标网络，/>、/>表示目标网络参数，/>表示Actor 网络/>的参数，/>表示Critic 网络的参数。

7.一种基于强化学习的边缘微服务细粒度部署系统，其特征在于，包括:

8.根据权利要求7所述的系统，其特征在于，所述通过批量样本策略梯度的方式更新Actor网络，最小化损失函数更新Critic网络，利用指数平滑更新目标网络包括：

通过批量样本策略梯度的方式更新Actor网络：

；

通过软更新的方式来更新目标网络的参数，；

；

式中，表示数学期望，/>表示获得奖励，▽表示梯度算子，/>表示奖励累加和，/>表示损失函数，N表示采样的数据量，t表示步骤，a表示动作，s表示部署状态，/>表示目标Q值，表示当前步骤部署状态，/>表示当前步骤采取的动作，/>表示更新因子，/>、/>表示目标网络，/>、/>表示目标网络参数，/>表示Actor 网络 />的参数，/>表示Critic网络 />的参数。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的一种基于强化学习的边缘微服务细粒度部署方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的一种基于强化学习的边缘微服务细粒度部署方法的步骤。