CN110971683A

CN110971683A - 基于强化学习的服务组合方法

Info

Publication number: CN110971683A
Application number: CN201911191031.9A
Authority: CN
Inventors: 余学志; 叶春杨; 周辉
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-04-07
Anticipated expiration: 2039-11-28
Also published as: CN110971683B

Abstract

本发明公开了一种基于强化学习的服务组合方法，所述服务组合满足动态约束，其包括如下步骤：根据用户的功能性需求建立工作流，为工作流中的每个任务选取候选服务，对所有候选服务的QoS非功能属性进行数据预处理；根据建立的工作流结构搭建基于强化学习的自适应模型；每一次训练自适应模型时，均将根据建立工作流结构随机生成的训练集、用户对QoS非功能属性的偏好和约束输入自适应模型中，循环迭代若干次训练，以得到收敛的自适应模型；将工作流中每个任务的候选服务属性、用户对QoS非功能属性的偏好和约束输入收敛的自适应模型中，输出合适的工作流候选服务序列。本发明的基于强化学习的服务组合方法弥补了传统Q‑learning的不足，大大减少了服务组合过程中耗费的资源。

Description

基于强化学习的服务组合方法

技术领域

本发明涉及网络服务技术领域，更具体地涉及基于强化学习的服务组合方法。

背景技术

在SOA(面向服务的架构)体系结构中，软件打包为单独的Web服务，使用者可以组合这些服务向用户提供新服务。选择和组合不同的Web服务以满足用户日益多样化的需求已经成为一个突出的问题。实际上，许多Web服务具有相同的功能，但它们的QoS(Qualityof Service，服务质量)非功能属性(如响应时间、吞吐量、价格、调用成功率等)各不相同。如何选择合适的Web服务来同时满足用户的功能需求和用户对QoS非功能属性的约束是一个关键的问题，动态约束的服务组合问题(简称CSSC)也就成了一个迫在眉睫的需要解决的问题。

由于Internet的动态性，Web服务的可用性及其QoS非功能属性可能会不时发生变化。另一方面，SOA应用程序的功能需求和用户的QoS非功能属性约束也变得越来越复杂。传统的解决方案通常通过两个阶段来解决CSSC问题：服务选择和服务执行。在服务选择阶段，选择并组合满足功能需求和用户QoS约束的服务。在服务执行阶段，调用组合好的服务来处理用户的请求。在这样的解决方案中有一个假设:一旦选择了一个服务并在一个服务组合中进行组合，该服务及其QoS非功能属性值就不应该改变。然而，由于QoS属性的波动性和主机服务器行为的不确定性，这种假设在实践中并不总是成立。使得，在选择阶段为服务组合选择的最佳服务到了执行阶段可能不是最佳的，甚至在服务执行阶段不可用，而此时用户便需要从头开始重新选择所有任务的最佳候选服务，这无疑会消耗额外的资源，导致糟糕的用户体验。

近年来，针对动态环境下的CSSC问题进行了大量的研究，包括随机模型、MDP模型与HTN编程模型的结合、博弈论等。但这些方法存在成本高、速度慢等缺点。有研究者提出使用Q-learning模型来解决动态CSSC问题。该方法的主要局限性在于Q表的状态爆炸问题。为了减少大量的状态，便将所有的连续状态划分为一个给定数量的离散状态级。使得，非功能QoS属性被定义在一个粗糙的范围中。

因此，针对上述问题，有必要提供一种改进的基于强化学习的服务组合方法以克服上述缺陷。

发明内容

本发明的目的是提供一种基于强化学习的服务组合方法，本发明的基于强化学习的服务组合方法弥补了Q-learning的不足，可以满足大规模的服务组合问题，并具有泛化能力，当遇到相同结构的服务组合问题时，不需要重新训练，大大减少了服务组合过程中耗费的资源。

为实现上述目的，本发明提供一种改进的基于强化学习的服务组合方法，所述服务组合满足动态约束，其包括如下步骤：

根据用户的功能性需求建立工作流，为工作流中的每个任务选取候选服务，对所有候选服务的QoS非功能属性进行数据预处理；

根据建立的工作流结构搭建基于强化学习的自适应模型；

每一次训练所述自适应模型时，均根据建立工作流结构随机生成的训练集、用户对QoS非功能属性的偏好和约束输入所述自适应模型中，循环迭代若干次训练，以得到收敛的自适应模型；

将工作流中每个任务的候选服务属性、用户对QoS非功能属性的偏好和约束输入所述收敛的自适应模型中，输出合适的工作流候选服务序列。

较佳地，对所有候选服务的非功能QoS属性进行归一化处理。

较佳地，所述对所有候选服务的QoS非功能属性进行数据预处理具体为，计算每一个任务所有候选服务关于该属性的期望μ和标准差σ，求出工作流关于该属性的总期望和标准差如下

其中n表示工作流中的任务数目。

较佳地，根据正态分布的3σ原则，用户约束应满足下式：

μ_cs-2σ_cs＜Constraint＜μ_cs+2σ_cs。

较佳地，训练所述自适应模型具体为，根据工作流的结构以构造随机数据集作为训练集，采用两个神经网络来进行训练，且每隔一设定时间同步两个神经网络的参数。

较佳地，将探索环境得到的数据储存起来，采用随机采样样本更新深度神经网络的参数。

较佳地，所述自适应模型具有两个神经网络，每个神经网络的结构相同，都有三层结构，包括如下步骤：

将当前的状态s转换成特征向量

输入第一层，以使所述自适应模型在第二层得到两组值；

在第三层将第二层得到的两组值相结合得到每一个候选服务的综合评分；

根据每一个候选服务的综合评分选取合适的候选服务。

较佳地，循环迭代若干次训练，以得到收敛的自适应模型具体还包括：

每一次循环都根据工作流结构随机生成训练集，每循环训练设定次数就保存一次自适应模型；

在保存下来的自适应模型上运行同一个测试集，并通过不同训练阶段得到的自适应模型在同一个测试集上的运行效果分析自适应模型的学习历程；

以收敛后的自适应模型作为最终的自适应模型，应用到实际的服务组合问题中。

较佳地，根据工作流的结构和单个任务的最大候选服务数目，建立内部值为0到1之间浮点数的矩阵，每一次训练时均随机生成一个新的矩阵作为训练集。

较佳地，所述基于强化学习的服务组合方法还包括步骤：

判断用户的QoS非功能属性约束是否合理，若不合理就进行约束合理性协商，协商失败则输出用户约束不合理。

与现有技术相比，本发明的基于强化学习的服务组合方法弥补了Q-learning不能适应大规模服务组合问题的不足，而且本发明的自适应模型具有泛化性，不仅可以应对候选服务在执行阶段故障缺失问题，还能应对候选服务的服务质量(QoS)非功能属性整体波动的情况，另外当遇到相同结构的服务组合问题时，可以直接使用所述自适应模型，不需要重新训练，大大减少了服务组合过程中耗费的资源。

通过以下的描述并结合附图，本发明将变得更加清晰，这些附图用于解释本发明的实施例。

附图说明

图1为本发明基于强化学习的服务组合方法的流程图。

图2为本发明基于强化学习的服务组合方法的选择候选服务的流程图。

图3为本发明基于强化学习的服务组合方法的选择最终自适应模型的流程图。

图4为本发明基于强化学习的服务组合方法的强化学习过程的时序图。

具体实施方式

现在参考附图描述本发明的实施例，附图中类似的元件标号代表类似的元件。如上所述，本发明提供了一种基于强化学习的服务组合方法，本发明的基于强化学习的服务组合方法弥补了Q-learning的不足，可以应对大规模的服务组合问题，同时，本发明具有泛化能力，当遇到相同结构的服务组合问题时，不需要重新训练，大大减少了服务组合过程中耗费的资源。由于已经有了很多将复杂结构服务组合问题转化为顺序服务组合问题的工作，所以本发明重点处理顺序结构工作流的服务组合问题。

请参考图1,图1为本发明基于强化学习的服务组合方法的流程图。如图1所示，本发明的基于强化学习的服务组合方法包括如下步骤：

步骤S001，根据用户的功能性需求建立工作流，为工作流中的每个任务选取候选服务，对所有候选服务的QoS非功能属性进行数据预处理；在本步骤中，具体地从云端服务器的云服务池中为工作流中的每个任务选取候选服务；所述数据预处理包括对所有候选服务的非功能QoS属性进行归一化处理，以使每个候选服务的非功能QoS属性均变为0到1之间的值。

再有，在本发明中，QoS的非功能属性可分为三种类型：加法属性、乘法属性和最大值属性。本发明中选取了三种类型中具有代表性的Qos属性以作说明：执行成本(ec)、可用性(ava)和响应时间(rt)，更进一步地，在本发明中还在模型中添加了价格(pr)作为第四个属性，以使本发明的通用性更好。下面以这四个非功能属性为例描述本发明的方案。上述四种属性的归一化如下表1所示

表1

在上表1中，其中

为所有任务的所有候选服务中l属性(任意一个属性)的最大值，

为所有任务的所有候选服务中l属性的最小值，

为第i个任务中第j个候选服务l属性的初始值，n代表着工作流一共有n个任务，

为第i个任务中第j个候选服务l属性的归一化之后的值，c^l为用户对工作流中l属性的约束归一化之后的值。

通过数据归一化将复杂的QoS非功能属性转换为线性表示。每个属性的用户约束被转换为0到一个固定值之间的范围。若属性的累积值位于约束范围内，则认为满足用户对该属性的约束。某属性的累积值表示当前状态中所有先前任务所选定服务的该属性的累计值。对于一个积极的属性，较大的累计值意味着更好的QoS。对于负属性，累计值越小，QoS越好。作为本发明的一优选实施方式，服务组合的服务质量值为每个任务选择的候选服务的QoS值之和，具体如下公式所示：

其中n代表着工作流的任务数量，ω是权重，代表着用户对不同属性的偏好，在实际应用中，根据实际的需求确定权重值。

作为本发明的优选实施方式，还包括步骤S002，判断用户的QoS非功能属性约束是否合理，若不合理则进行约束合理性协商，协商失败则输出用户约束不合理；通过本步骤，可成功筛选出各约束不合理的QoS非功能属性，以保证后续的服务质量。具体如下：

用户QoS非功能属性合理性评估，计算每一个任务所有候选服务关于该属性的期望μ和标准差σ，求出工作流关于该属性的总期望和标准差如下

其中n表示工作流中的任务数目，具体取值可根据用户的需求而选择。

再根据正态分布的3σ原则，只需要约束条件满足

μ_cs-2σ_cs＜Constraint＜μ_cs+2σ_cs。

那么约束满足的概率为0.9545，则可以将用户关于该QoS非功能属性的约束看作合理的。

显而易见地，工作流在满足用户约束的条件下，QoS值越高越好。因此每一次为当前任务给出所选择的候选服务时，都需要为这一个选出候选服务的动作计算出合适的奖励，根据选择这个候选服务对最终目标有积极或是消极作用，给出一个合适的反馈，下面是详细的计算方式。

首先计算出每一个任务中的候选服务里关于属性l的数学期望，

假设现在是为第x个任务选取最优的候选服务，则第x个任务的期望约束为

其中

为当前任务x对l属性约束的期望，

是第i个任务所选择的候选服务l属性，而最终的回报函数如下：

最后结合用户对不同属性的偏好，对于本发明的例子而言，在第x个任务所选取的实际回报如下：

步骤S003,根据建立的工作流结构搭建基于强化学习的自适应模型；在本步骤中，根据工作流的任务数目和最大候选服务数目，搭建初步的基于强化学习的自适应模型，以供后续训练使用。

步骤S004,每一次训练所述自适应模型时，均根据建立工作流结构随机生成的训练集、用户对QoS非功能属性的偏好和约束输入所述自适应模型中，循环迭代若干次训练，以得到收敛的自适应模型；在本步骤中，训练所述自适应模型时，根据所建立工作流结构随机生成的训练数据集，再根据正态分布，随机生成用户对QoS非功能属性的偏好和约束，将这三者输入所述自适应模型中，循环迭代若干次训练，且每一次训练的输入都是完全随机的训练数据集、偏好和约束，最后得到收敛的自适应模型；再有训练所述自适应模型具体地为根据工作流的结构以构造随机数据集作为训练集，采用两个神经网络来进行训练，其中，两个神经网络为Q-eval和Q-target，且每隔一设定时间同步两个神经网络的参数；进一步地将探索环境得到的数据(上述回报函数所涉及数据)储存起来，其中探索环境是指每一次训练所述自适应模型选取最优候选服务，然后采用随机采样样本更新深度神经网络的参数；更进一步地，请结合参考图4，图4为本发明强化学习过程的时序图；在图4中，t代表着当前处于第几个任务，是一个从1到工作流总任务数n的序列；s_t代表处于第t个任务时的某一个状态，其中包含当前任务序号t、用户对各个属性的总约束、每一个任务中的候选服务关于QoS非功能属性的期望值、当前任务之前的任务所选择的候选服务QoS非功能属性和当前状态所属任务的所有候选服务的各个属性值；a_t表示在s_t这个状态下所选择的候选服务；r_t表示在s_t这个状态下选择a_t这一个候选服务所带来的回报，也就是上述的回报函数。

如上所述，在本发明中，所述自适应模型具有两个神经网络，每个神经网络的结构相同，都有三层结构，而在本步骤中，请再结合参考图2，选择候选服务具体包括如下步骤：

步骤S101，将当前的状态s转换成特征向量

输入第一层，以使所述自适应模型在第二层得到两组值；其中，第一组值是每一个候选服务的优势值，第二组值是当前局势的评估值。

步骤S102，在第三层将第二层得到的两组值相结合得到每一个候选服务的综合评分。

步骤S103，根据每一个候选服务的综合评分选取合适的候选服务。

其中，形成本发明的自适应模型的算法如表2所示：

表2

更进一步地，在本步骤中为了使所述自适应模型具有更好的泛化性，所述循环迭代若干次训练，以得到收敛的自适应模型具体还包括如下步骤：

步骤S201，每一次循环都根据工作流结构随机生成训练集，每循环训练设定次数就保存一次自适应模型；在本步骤中，具体地还包括，根据工作流的结构和单个任务的最大候选服务数目，建立内部值为0到1之间浮点数的矩阵，每一次训练时均随机生成一个新的矩阵作为训练集。

步骤S202，在保存下来的自适应模型上运行同一个测试集，并通过不同训练阶段得到的自适应模型在同一个测试集上的运行效果分析自适应模型的学习历程。

步骤S203，以收敛后的自适应模型作为最终的自适应模型，应用到实际的服务组合问题中。至此，完成对本发明的所述自适应模型的训练，并得到收敛后的自适应模型，在实际中通过所述收敛后的自适应模型即可选择输出合适的工作流候选服务序列。

步骤S005,将工作流中每个任务的候选服务属性、用户对QoS非功能属性的偏好和约束输入所述收敛的自适应模型中，输出合适的工作流候选服务序列。

下面具体描述本发明的自适应模型的运行过程：

首先在前面的数据预处理时，已经将测试集工作流的m个任务的每一个候选服务的四种QoS非功能属性都变成了0到1之间的值，因此在训练时，每一次循环都生成4个m×n的矩阵，其中m是工作流任务的数目，n是工作流所有任务中最大的候选服务数目，矩阵的元素是0到1之间的随机浮点数，每一个矩阵代表一个QoS非功能属性。同时，计算出该数据集相应的各个属性的相应合理约束范围，在该范围内为每一个属性随机选取约束。每一次循环输入的都是一个全新的训练集和合理的QoS非功能属性约束，隔设定的循环次数便保存一次模型，最后在这些模型上运行同一个测试集，观察模型在测试集上的表现趋势，可以判断模型是否学习到了如何解决服务组合问题。由于训练集的每一次循环更新的测试集具有很大的随机性，能恰好随机到测试集的概率接近为0。因此可以将测试集看作一个对自适应模型而言完全陌生的数据集，如果在这一个测试集上获得很好的效果，那么换一个测试集同样可以达到相同的效果，因此本发明对于相同结构的服务组合问题具有泛化能力。

如上所述，本发明所用的DQN与传统的DQN不同的是，传统的DQN是将Q-learning与神经网络相结合，在每一层都拥有激活函数，可以处理线性或非线性问题，而本发明在数据预处理阶段，将复杂的服务组合问题处理成了线性问题，因此所用的DQN没有设置激活函数，表现得要比使用激活函数的DQN好很多。

以上结合最佳实施例对本发明进行了描述，但本发明并不局限于以上揭示的实施例，而应当涵盖各种根据本发明的本质进行的修改、等效组合。

Claims

1.一种基于强化学习的服务组合方法，所述服务组合满足动态约束，其特征在于，包括如下步骤：

根据建立的工作流结构搭建基于强化学习的自适应模型；

2.如权利要求1所述的基于强化学习的服务组合方法，其特征在于，对所有候选服务的非功能QoS属性进行归一化处理。

3.如权利要求1所述的基于强化学习的服务组合方法，其特征在于，还包括步骤：

判断用户的QoS非功能属性约束是否合理，若不合理则进行约束合理性协商，协商失败则输出用户约束不合理。

4.如权利要求3所述基于强化学习的服务组合方法，其特征在于，计算每一个任务所有候选服务关于该属性的期望μ和标准差σ，求出工作流关于该属性的总期望和标准差如下

其中n表示工作流中的任务数目。

5.如权利要求4所述的基于强化学习的服务组合方法，其特征在于，根据正态分布的3σ原则，用户约束应满足下式：

μ_cs-2σ_cs＜Constraint＜μ_cs+2σ_cs。

6.如权利要求2所述的基于强化学习的服务组合方法，其特征在于，训练所述自适应模型具体为，根据工作流的结构以构造随机数据集作为训练集，采用两个神经网络来进行训练，且每隔一设定时间同步两个神经网络的参数。

7.如权利要求6所述的基于强化学习的服务组合方法，其特征在于，将探索环境得到的数据储存起来，采用随机采样样本更新深度神经网络的参数。

8.如权利要求7所述的基于强化学习的服务组合方法，其特征在于，所述自适应模型具有两个神经网络，每个神经网络的结构相同，都有三层结构，包括如下步骤：

将当前的状态s转换成特征向量

输入第一层，以使所述自适应模型在第二层得到两组值；

根据每一个候选服务的综合评分选取合适的候选服务。

9.如权利要求2所述的基于强化学习的服务组合方法，其特征在于，所述循环迭代若干次训练，以得到收敛的自适应模型具体还包括：

10.如权利要求9所述的基于强化学习的服务组合方法，其特征在于，根据工作流的结构和单个任务的最大候选服务数目，建立内部值为0到1之间浮点数的矩阵，每一次训练时均随机生成一个新的矩阵作为训练集。