CN112381212B

CN112381212B - 一种基于深度强化学习的移动边缘计算的服务组合方法

Info

Publication number: CN112381212B
Application number: CN202011368603.9A
Authority: CN
Inventors: 黄�俊; 连亚婷
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2023-02-17
Anticipated expiration: 2040-11-27
Also published as: CN112381212A

Abstract

本发明涉及一种基于深度强化学习的移动边缘计算服务组合方法，属于移动边缘计算领域，包括S1：获取用户需求，对当前可用服务的QoS属性进行归一化处理；S2：针对终端高度移动的特性，构建共享服务的移动终端模型；S3：构建基于移动边缘计算的在线服务组合模型；S4：利用深度强化学习算法对服务组合问题进行求解。本发明方法利用深度强化学习算法，可在海量边缘服务数据中表现出其高效性，保证终端用户在移动的过程中提供可靠的解决方案。本发明方法不仅能满足终端用户需求，而且能保证服务组合的可靠性、高效性和灵活性。

Description

一种基于深度强化学习的移动边缘计算的服务组合方法

技术领域

本发明属于移动边缘计算领域，涉及一种基于深度强化学习的移动边缘计算的服务组合方法。

背景技术

近年来，随着大数据、云计算和人工智能技术的迅猛发展以及多媒体应用的普及，网络用户数量和移动应用服务类型呈爆炸式增长。智能终端和智能应用的出现，成为服务计算持续向前发展的关键因素之一。由于其业务具有复杂多样、持续时间长、数据量大等特点，导致终端与云通信延迟较高。终端设备与云之间的通信距离较远，这可能会导致连接不稳定和较长的延迟，无法满足当前的低时延需求。因此，移动边缘计算技术的出现为此类问题提供了有效的解决方案。

随着移动设备和无线技术的快速发展，服务不再局限于传统的云平台，它们变得更加灵活和复杂。移动终端、穿戴设备和智能应用的出现，使得服务器中的服务数目越来越多，种类复杂多样，服务请求更加多样化。将服务组合问题应用于边缘计算，虽然能够解决用户的低时延需求，但也带来了新的挑战。由于移动终端资源有限且移动性强，边缘服务随着终端的不断移动，通常会出现服务组合失败或因交付失败而不断重新组合的情况。因此，如何在边缘服务中随着终端的移动性选择可靠服务并且保证服务组合的成功率最高是本发明急需解决的重点。

近年来，一些研究学者采用机器学习技术解决服务组合问题，但由于各种智能应用的不断增加，机器学习技术已经不能用于处理当前的海量数据，深度学习的出现为解决此类问题提供了新思路。深度强化学习是人工智能领域的一个新的研究热点，它解决了许多需要感知高维原始输入和决策控制的任务。该技术具有善于处理高维数据，能够在不断变化的环境中学习、计算和处理数据的特点。在移动边缘计算环境中充分利用该技术计算能力强和处理大数据的优势，可实现在边缘计算环境中终端设备和边缘节点之间的高效通信，从而提高服务效率，给用户更好的用户体验。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度强化学习的移动边缘计算服务组合方法，实现在移动边缘设备上解决服务组合问题获得最优的解决方案，降低时延，增加高效性。

为达到上述目的，本发明提供如下技术方案：

一种基于深度强化学习的移动边缘计算的服务组合方法，包括以下步骤：

S1：获取用户需求，对当前可用服务的QoS属性进行归一化处理；

S2：针对终端高度移动的特性，构建共享服务的移动终端模型；

S3：构建基于移动边缘计算的在线服务组合模型；

S4：利用深度强化学习算法对服务组合问题进行求解。

进一步，步骤S1中所述可用服务的QoS属性包括响应时间、吞吐量、可靠性、延迟时间、可用性；

所述归一化处理包括：当服务的QoS属性和服务质量之间呈正相关时，采用公式(1)对服务进行规格化处理；反之采用公式(2)：

服务请求为初始服务S₀，期望得到的服务参数为终止服务S_T。

进一步，所述步骤S2包括：

定义服务节点的相对动态期为T＝[a_ij,b_ij]，若在该范围内的连接表示随时有可能会断开，当T＜a_ij表示稳定状态，当T＞b_ij表示断开状态，两个服务节点必断开；其中a_ij和b_ij均服从均匀分布；用p_ij表示服务可用的概率；

(1)若当前状态节点处于稳定状态，表示该状态节点提供的服务是完全可用的，在t时刻，该节点提供的服务不会移动到请求者的覆盖范围以外，即t＜a_ij；

(2)若当前状态节点处于相对动态时期，表示该状态提供的服务是不稳定的，服务节点在t时刻的不稳定性表示为

(3)若当前状态节点处于断开状态，表示提供的服务不可用，在t时刻该终端已经移动出请求者的覆盖范围，即t＞b_ij；具体如下公式：

进一步，步骤S3中所述服务组合模型定义为一个五元组RLSC＝<S,A(.),P,R,B>

S代表系统从初始状态到终止状态的过程中所有状态的集合，该状态包含初始状态和终止状态；

A(.)代表系统在状态s∈S下可采取的动作的集合，每个动作和具体服务存在一定的映射关系，A(.)是所有A(s_i)的集合，即组合服务中所有可能用到的全体服务集合；

P是状态转移函数，P(s'|s,a)表示在状态s下调用服务a∈A(s)转移到下一状态s'的概率；

R是奖励函数，当一个服务a∈A(s)被调用后，环境从当前状态s转移到下一状态s'，同时得到一个奖励值r＝R(s'|s,a)；当r＞0时，表示奖励；当r＜0时，表示惩罚；当选择某一个服务使服务组合质量越高，则奖励值越大，否则奖励值越小；服务组合的目标是选择最优候选服务使组合服务的累计回报值最高；

B表示Agent的状态，描述Agent处在状态s的概率，B(s)＝p_ij；

当选择某一动作后，将计算得到的奖励值，为保证服务组合过程能够高效进行，将服务的响应时间设置较大的权重，最终得到对应服务的奖励值，如公式(4)所示：

基于QoS聚合值，将服务组合过程中某一状态执行动作后的奖励值用QoS聚合值表示；根据上述公式不断迭代选择最优的动作，直到达到终止状态，满足用户需求为止，使得服务组合的奖励值之和最大，服务组合达到近似最优。

进一步，步骤S4具体包括以下步骤：

S41：初始化参数：每个服务节点的相对动态期T＝[a_ij,b_ij]，折扣因子γ和学习率α，迭代次数和最大迭代次数，用户请求的初始服务和终止服务，初始化每个服务的奖励R；

S42：构建服务匹配原则：

根据服务S_i的输入S_i-in＝{I_i1,I_i2,...I_in}和输出参数集S_i-out＝{O_i1,O_i2,...O_in}完成服务匹配，

匹配规则采用模糊匹配的方式；

其中服务的输入和输出参数集合中，存在不同的参数具有相同的语义包含关系；

S43：不断迭代，当迭代次数小于k时，根据启发式选择策略直接进入步骤S45，否则进入步骤S44；

S44：采用启发式选择策略选择适当的动作；启发式选择策略选择下一动作的步骤为：判断当前服务节点状态是否处于稳定状态，若处于稳定状态，则通过查找Q表选择最优的动作；如果当前状态处于相对动态时期，为避免两节点交互时断开，根据下列公式选择可靠性最高的动作，选择概率最大的动作；

S45：采用ε-greedy策略选择一个可用动作，并与环境交互得到反馈；

S46：对历史信息进行存储，并更新神经网络或Q值表，更新Q值表时将服务的奖励值作为瞬时奖励值，更新公式为：

Q(s,a)←Q(s,a)+α[r+γmax_a'Q(s',a')-Q(s,a)] (6)

Q(s,a)＝Q(s,a)×Re_ij (7)

S47：系统当前状态更新为下一状态，对当前状态是否为终止状态进行判断，若是终止状态进入步骤S48，否则返回步骤S43；

S48：观察神经网络的收敛情况，若神经网络收敛小于阈值，采用贪心原则，选择一条从开始状态到终止状态的组合路径，并将该路径上的服务组合结果反馈给用户，完成一次服务组合。

进一步，通过深度神经网络来拟合函数，拟合函数为：

Q(s,a)＝f(s,θ) (8)

即输入当前状态s，输出的是包含了所有动作的Q值的向量[Q(s,a₁),Q(s,a₂),Q(s,a₃),...,Q(s,a_n)]，损失函数为：

L(θ)＝E[(Q_target-Q(s',a'；θ))²] (9)

其存在两个结构完全相同但参数不同的神经网络，预测Q估计的网络MainNet使用最新的参数，而预测Q现实的神经网络TargetNet参数使用的是之前的，Q(s,a；θ_i)表示当前网络MainNet的输出，用来评估当前状态动作对的值函数；Q(s,a；θ_i')表示TargetNet的输出，当agent对环境采取动作a时可根据公式(10)计算出Q并根据损失函数更新MainNet的参数；

Q_target＝r'+γmax_a'Q(s',a'；θ) (10)

每经过一定次数的迭代，将MainNet的参数复制给TargetNet。

本发明的有益效果在于：本发明提供的基于深度强化学习的移动边缘计算服务组合方法，用以解决在复杂环境中为用户提供高效、可靠的服务交付问题。针对移动终端不断移动的特性，构建了一个移动模型；基于该模型，使用深度强化学习算法能够在满足服务请求者的需求的基础上为用户提供最优的组合结果。克服了现有技术中的方法无法应用于移动环境的问题，也克服了现有技术中的方法未考虑在海量服务组合过程中，服务组合在移动过程中的效率问题，提高了效率和服务交付的可靠性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明的总体流程图；

图2深度强化学习算法流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

假定用户要在网上购买一本书，首先他将自己的需求(购书、快递)提交给边缘服务器，边缘根据当前的服务分布情况构建一个服务组合模型，从众多功能相同，质量不同的服务中选择合适的服务满足用户需求，使其在满足功能需求的情况下，用户体验达到最佳。

如图1-2所示，实施步骤：

1)边缘服务器获取用户需求(用户的输入和期望得到的输出)，初始化起始服务S₀和终止服务S_T。起始服务的输入为空，输出为用户的输入。终止服务的输入为用户期望得到的输出，输出为空。根据用户需求，可以得到服务的功能需求和非功能需求。在本实例中，可将功能需求包括：购书服务和快递服务。非功能需求包括：响应时间、吞吐量等。

然后将符合要求的服务采用归一化的方法进行处理。其中当服务的QoS属性和服务质量之间呈正相关(吞吐量、可靠性和可用性)时，采用公式(1)对服务进行规格化处理；反之采用公式(2)。

针对终端移动的特性，构建共享服务的移动终端模型。步骤2)具体操作如下：

2-1)移动终端不仅可以发出请求，也可通过成为服务节点共享终端上的服务，构成移动共享服务模型；

2-2)由于终端处于不断移动状态，每两个共享服务节点进行连接时都会受到距离的影响，因此，两节点保持连接的时间受到了限制。可定义服务节点的相对动态期为T＝[a_ij,b_ij]，若在该范围内的连接表示随时有可能会断开，当T＜a_ij表示稳定状态，当T＞b_ij表示断开状态，两个服务节点必断开；其中a_ij和b_ij均服从均匀分布；本发明用p_ij表示服务可用的概率。具体如下：

(2)若当前状态节点处于相对动态时期，表示该状态提供的服务是不稳定的，服务节点在t时刻的不稳定性表示为，

构建基于移动边缘计算的在线服务组合模型，步骤3)具体操作如下：

服务组合依据业务逻辑所定义的过程模型，以组合、可靠性和高效性最优为目标，根据对服务所处环境分布的判断从当前任务的候选服务中选择当前运行状态下性能最优的可靠服务。在线服务组合模型中，决策者不断地观察动态环境，在决策时刻根据观察到的状态分布以及所采取的策略从可用服务集合中选择一个动作。决定选择哪个动作只与当前的状态有关，与历史状态无关。选择最新动作之后更新当前状态。决策者根据新的观察判断系统的状态分布，做出新的决策，不断反复进行直到达到用户需求。本发明建立的服务组合模型定义如下：

基于移动边缘计算的在线服务组合模型可定义为一个六元组RLSC＝<S,A(.),P,R,B>。

S代表系统从初始状态到终止状态的过程中所有状态的集合，该状态包含初始状态和终止状态。

A(.)代表系统在状态s∈S下可采取的动作的集合。每个动作和具体服务存在一定的映射关系，A(.)是所有A(s_i)的集合，即组合服务中所有可能用到的全体服务集合。

P是状态转移函数，P(s'|s,a)表示在状态s下调用服务a∈A(s)转移到下一状态s'的概率。

R是奖励函数。当一个服务a∈A(s)被调用后，环境从当前状态s转移到下一状态s'，同时得到一个奖励值r＝R(s'|s,a)。当r＞0时，表示奖励；当r＜0时，表示惩罚。当选择某一个服务使服务组合质量越高，则奖励值越大，否则奖励值越小。服务组合的目标是选择最优候选服务使组合服务的累计回报值最高。

B表示Agent的状态，描述Agent处在状态s的概率，B(s)＝p_ij。

当选择某一动作后，将计算得到的奖励值，为保证服务组合过程能够高效进行，可将服务的响应时间设置较大的权重，最终得到对应服务的奖励值。如公式(4)所示：

基于QoS聚合值，将服务组合过程中某一状态执行动作后的奖励值用QoS聚合值表示。根据上述公式不断迭代选择最优的动作，直到达到终止状态，满足用户需求为止，使得服务组合的奖励值之和最大，服务组合达到近似最优。

利用深度强化学习算法进行求解，步骤4)具体操作如下：

4-1)初始化参数：每个服务节点的相对动态期T＝[a_ij,b_ij]，折扣因子γ和学习率α，迭代次数和最大迭代次数，用户请求的初始服务和终止服务，初始化每个服务的奖励R；

4-2)构建服务匹配原则：

根据服务S_i的输入S_i-in＝{I_i1,I_i2,...I_in}和输出参数集S_i-out＝{O_i1,O_i2,...O_in}完成服务匹配，匹配规则采用模糊匹配的方式。例如，服务S_i的输出集合和S_j的输入集合满足

服务S_i的匹配服务为S_j，权值为S_i的QoS聚合值。服务S_i匹配上服务S_j后，存在一条有向S_i指向S_j的有向边。直到满足请求者需要的输出集合为止，初始服务权值为0。具体的服务匹配算法如下所示：

其中服务的输入和输出参数集合中，存在不同的参数具有相同的语义包含关系。例如，对于C_i和C_j，如果

则称C_i语义上匹配C_j。具体的语义匹配算法如下所示：

4-3)不断迭代，当迭代次数小于k时，根据启发式选择策略直接进入步骤4-5)否则进入步骤4-4)；

4-4)采用启发式选择策略选择适当的动作。启发式选择策略选择下一动作的步骤为：判断当前服务节点状态是否处于稳定状态，若处于稳定状态，则通过查找Q表选择最优的动作；如果当前状态处于相对动态时期，为避免两节点交互时断开，根据下列公式选择可靠性最高的动作，选择概率最大的动作；

b_ij-a_ij表示时间段长度，1-p_ij表示服务在调用过程中失败的概率。

4-5)采用ε-greedy策略选择一个可用动作，并与环境交互得到反馈；

4-6)对历史信息进行存储，并更新神经网络或Q值表，更新Q值表时将服务的奖励值作为瞬时奖励值，更新公式为：

Q(s,a)←Q(s,a)+α[r+γmax_a'Q(s',a')-Q(s,a)] (6)

Q(s,a)＝Q(s,a)×Re_ij (7)

4-7)系统当前状态更新为下一状态，对当前状态是否为终止状态进行判断，若是终止状态进入步骤4-8，否则返回步骤4-3；

4-8)观察神经网络的收敛情况，若神经网络收敛小于阈值，采用贪心原则，选择一条从开始状态到终止状态的组合路径，并将该路径上的服务组合结果反馈给用户。

与现有技术相比，本发明的有益效果在于：本发明提供的基于深度强化学习的移动边缘计算服务组合方法，针对移动终端不断移动的特性，构建了一个移动模型；基于该模型，使用深度强化学习算法能够在满足服务请求者的需求的基础上为用户提供可靠且高效的服务组合方案。

本发明提供的基于深度强化学习的移动边缘计算服务组合方法，是使用深度神经网络来拟合函数的，拟合函数为：

Q(s,a)＝f(s,θ) (8)

L(θ)＝E[(Q_target-Q(s',a'；θ))²] (9)

其存在两个结构完全相同但参数不同的神经网络，预测Q估计的网络MainNet使用最新的参数，而预测Q现实的神经网络TargetNet参数使用的是之前的，Q(s,a；θ_i)表示当前网络MainNet的输出，用来评估当前状态动作对的值函数；Q(s,a；θ_i')表示TargetNet的输出，可得到Q_target值，在一段时间内使Q_target值保持不变，在一定程度上降低了当前Q值和目标Q值的相关性，提高算法的稳定性。因此，当agent对环境采取动作a时可根据公式(10)计算出Q并根据损失函数更新MainNet的参数；

Q_target＝r'+γmax_a'Q(s',a'；θ) (10)

每经过一定次数的迭代，将MainNet的参数复制给TargetNet。这样就完成了一次学习过程。通过多次的迭代学习，最终得到最优的组合方案。

本发明实施提供的基于深度强化学习的移动边缘计算服务组合方法，通过获取终端服务信息；根据服务信息分布建立移动模型；通过归一化服务质量确定服务组合的目标函数；根据服务的匹配规则和深度强化学习算法进行组合优化，得到最优的服务组合策略。从而克服了当前技术中仅仅在云端处理请求导致传输时延较高且对云存储和计算压力较大的问题，也克服了服务在移动终端设备上随着位置的移动而导致组合失败或中断，无法成功交付的问题，实现了在边缘设备上的服务组合的优化，满足了用户的基本需求，同时能够保证服务组合能够可靠并高效的交付给用户，降低传输时延，提高效率。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度强化学习的移动边缘计算的服务组合方法，其特征在于：包括以下步骤：

S3：构建基于移动边缘计算的在线服务组合模型；

S4：利用深度强化学习算法对服务组合问题进行求解；

所述步骤S2包括：

步骤S3中所述服务组合模型定义为一个五元组RLSC＝<S,A(.),P,R,B>

B表示Agent的状态，描述Agent处在状态s的概率，B(s)＝p_ij；

基于QoS聚合值，将服务组合过程中某一状态执行动作后的奖励值用QoS聚合值表示；根据上述公式不断迭代选择最优的动作，直到达到终止状态，满足用户需求为止，使得服务组合的奖励值之和最大，服务组合达到近似最优；

步骤S4具体包括以下步骤：

S42：构建服务匹配原则：

根据服务S_i的输入S_i-in＝{I_i1,I_i2,...I_in}和输出参数集S_i-out＝{O_i1,O_i2,...O_in}完成服务匹配，匹配规则采用模糊匹配的方式；

Q(s,a)←Q(s,a)+α[r+γmax_a'Q(s',a')-Q(s,a)] (6)

Q(s,a)＝Q(s,a)×Re_ij (7)

S47：系统当前状态更新为下一状态，对当前状态是否为终止状态进行判断，若是终止状态进入步骤S4，否则返回步骤S43；

S48：观察神经网络的收敛情况，若神经网络收敛小于阈值，采用贪心原则，选择一条从开始状态到终止状态的组合路径，并将该路径上的服务组合结果反馈给用户，完成了一次服务组合。

2.根据权利要求1所述的基于深度强化学习的移动边缘计算的服务组合方法，其特征在于：步骤S1中所述可用服务的QoS属性包括响应时间、吞吐量、可靠性、延迟时间、可用性；

3.根据权利要求1所述的基于深度强化学习的移动边缘计算的服务组合方法，其特征在于：通过深度神经网络来拟合函数，拟合函数为：

Q(s,a)＝f(s,θ) (8)

L(θ)＝E[(Q_target-Q(s',a'；θ))²] (9)

Q_target＝r'+γmax_a'Q(s',a'；θ) (10)

每经过一定次数的迭代，将MainNet的参数复制给TargetNet。