CN109063870A

CN109063870A - 基于q学习的组合服务策略优化方法及系统

Info

Publication number: CN109063870A
Application number: CN201810821480.6A
Authority: CN
Inventors: 冯文龙; 李想
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2018-12-21
Anticipated expiration: 2038-07-24
Also published as: CN109063870B

Abstract

本发明涉及一种基于Q学习的组合服务策略优化方法，该方法包括步骤：步骤1，定义组合服务W中子服务F的QoS模型，根据子服务F的QoS模型确定子服务F的静态信任度；步骤2，根据QoS模型中的属性及业务相同的子服务的个数，得到二维Q矩阵，并将该二维Q矩阵归一化处理，并计算得到每个子服务F的综合评价值；进行Q学习算法学习，根据系统状态X_n做出决策，选择相应的动作直至学习结束，得到组合服务最优策略。本发明基于组合服务中子服务的个数以及每个子服务属性生成状态空间，将组合服务的综合评价值列入效益函数，用于寻找使整个QoS最优的策略，解决单一子服务组合运行时的差异问题。

Description

基于Q学习的组合服务策略优化方法及系统

技术领域

本发明涉及机器学习和云计算技术领域，特别涉及一种基于Q学习的组合服务策略优化方法及系统。

背景技术

组合服务是将多个已经存在的服务按照功能、语义以及它们之间的逻辑关系组合成新的综合服务。而单个服务的供应商一般只关注某一领域业务，开发的服务具有单一和功能有限的特点，往往只能满足某个应用，如天气预报服务、酒店预订服务等等，不能满足大型、复杂的综合服务，如旅游路线规划。服务组合的核心是可靠性问题，组合服务可靠性取决于组合服务信任度，组合服务信任度越高，用户的满意度也越高。

传统的组合服务信任度较多的考虑安全问题，基本上以子服务提供的QoS为基础选择子服务，较少考虑子服务实际组合运行时的差异，并且很少涉及服务组合方式，因此不能适应云计算环境。

发明内容

本发明的目的在于改善现有技术中所存在的上述不足，提供一种基于Q学习的组合服务策略优化方法及系统。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

一种基于Q学习的组合服务策略优化方法，包括以下步骤：

步骤1，定义组合服务W中子服务F的QoS模型，根据子服务F的QoS模型确定子服务F的静态信任度；

步骤2，根据QoS模型中的属性及业务相同的子服务的个数，得到二维Q矩阵，并将该二维Q矩阵归一化处理，并计算得到每个子服务F的综合评价值；

步骤3，初始化Q学习中的折扣因子β、学习步长γ_h、学习片段数H、状态-行动对的Q值；

步骤4，令决策时刻n＝0，选定初始状态并设定总报酬r＝0；

步骤5，在当前状态下，根据ε-greedy方法选择行动并执行行动及计算当前状态下的报酬r；

步骤6，判断当前状态是否是终止状态，若不是，则令n:＝n+1，并返回步骤5；若是，则更新状态-行动对的Q值，并令h:＝h+1，然后判断是否h＝H，是则学习结束，得到组合服务最优策略，否则转步骤4，直至学习结束，得到组合服务最优策略；

步骤7，按照得到的组合服务最优策略执行工作流。

本发明同时提供了一种基于Q学习的组合服务策略优化系统，包括以下模块：

QoS模型定义模块，用于定义组合服务W中子服务F的QoS模型，根据子服务F的QoS模型确定子服务F的静态信任度；

综合评价模块，用于根据QoS模型中的属性及业务相同的子服务的个数，得到二维Q矩阵，并将该二维Q矩阵归一化处理，并计算得到每个子服务F的综合评价值；

学习模块，用于按照以下步骤进行学习：

步骤A，初始化Q学习中的折扣因子β、学习步长γ_h、学习片段数H、状态-行动对的Q值；

步骤B，令决策时刻n＝0，选定初始状态并设定总报酬r＝0；

步骤C,在当前状态下，根据ε-greedy方法选择行动并执行行动及计算当前状态下的报酬r；

步骤D，判断当前状态是否处于终止状态，若不是，则令n:＝n+1，返回步骤C，若是，则进一步判断学习是否结束，若未结束，则更新状态-行动对的Q值，并返回步骤B，进入下一个学习片段，直至学习结束，得到组合服务最优策略；

任务执行模块，用于按照学习模块得到的组合服务最优策略执行工作流。

与现有技术相比，本发明方法及系统，具有以下有益效果：

本发明使用强化学习中的Q学习算法设计组合服务的策略动态制定机制。在传统的服务组合中，子服务实际组合运行时的差异较大，可靠性难以预测。Q学习算法训练组合服务的综合QoS，使其能得到最优或者次优的服务组合策略，取得良好的服务组合可靠性，使其信任度更高，从而使用户的满意度更高。

本发明基于组合服务中子服务的个数以及每个子服务属性生成状态空间，将组合服务的综合评价值列入效益函数，用于寻找使整个QoS最优的策略，解决单一子服务组合运行时的差异问题。更进一步的通过调节综合评价值的效益，满足大型的复杂综合服务需求。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为实施例中所述基于Q学习的组合服务策略优化方法的流程图。

图2为实施例中所述基于Q学习的组合服务策略优化系统的功能模块图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本实施例中提供的基于Q学习的组合服务策略优化方法，包括以下步骤：

步骤1，定义组合服务W中子服务F的QoS模型，根据子服务F的QoS模型确定子服务F的静态信任度。

本步骤中，执行时，子服务F的QoS模型记为QoS(F)＝(C(F),T(F),A(F))，子服务F的静态信任度为：

T_s(W,F)＝C(F)×r₁+A(F)×r₂+T(F)×r₃

式中，A(F)，C(F)，T(F)为QoS模型中的属性元素，r1，r2，r3分别是子服务F的各属性元素对应的权重，T_s(W,F)的取值范围为[0,1]。服务费用C(F)，响应时间T(F)，有效性A(F)，本步骤中仅选择了3个具有代表性的QoS属性元素，当前也可以有更多的属性元素，当有新属性元素需要添加时，只需在此模型基础上添加即可。

步骤2，根据QoS模型中的属性及业务相同的子服务的个数，得到二维Q矩阵，并将该二维Q矩阵归一化处理，并计算得到每个子服务F的综合评价值。

本步骤中，具体执行时，将业务相同(即功能相同个体不同)的子服务设为n个，用{F₁,F₂......F_n}表示，则所述二维Q矩阵为：

其中，m为QoS模型中属性的个数，基于上述步骤1，此处m＝3，n为子服务的个数；

将上述二维Q矩阵归一化处理有：

根据归一化后的值，设w_ij是每个指标的权值，计算每个子服务F的综合评价值为：

由此可见，组合服务的系统状态可用k(此处k指子服务的个数)元组<t₁,t₂...t_i...t_k>表示，其中t_i＝1,2...k∈{0,1}，t_i＝1表示t_i节点已经绑定了一项子服务，t_i＝0表示t_i节点还未绑定某项子服务。将T_n表示第n个决策时刻，第n个决策时刻系统的状态记作X_n，Φ表示状态空间。在学习过程中，将从初始状态到下一个目标状态的过程称为学习片段，记为h。

步骤3，初始化Q学习中的折扣因子β、学习步长γ_h、学习片段数H、状态-行动对的Q值。

步骤4，令决策时刻n＝0，选定初始状态并设定总报酬r＝0。

步骤5，在状态X_n下，调用子服务F，由状态X_n转移到状态X_n+1的概率为在当前状态下，根据ε-greedy方法选择行动并执行行动

再根据公式计算报酬，有

步骤6，判断状态是否处于终止状态，若不是，则n:＝n+1，返回步骤5，若是，则进一步判断学习是否结束，若未结束，则更新状态-行动对的Q值，并返回步骤4，进入下一个学习片段，直至学习结束，得到组合服务最优策略；

更新状态-行动对的Q值时，根据公式

计算差分并根据公式更新h:＝h+1，若h＝H，学习结束，否则转入步骤3，进入下一个学习片段，直到得到一个收敛的理想Q值表。

步骤7，按照得到的组合服务最优策略执行工作流。

应用举例

在旅游路线推荐服务中，将旅游路线规划总体设为W。其中，酒店预订子服务设为F，其QoS模型记为QoS(F)＝(C(F),T(F),A(F))，酒店入住费用C(F)，酒店应答时间T(F)，酒店的安全程度A(F)。酒店预订子服务F的静态信任度为：

T_s(W,F)＝C(F)×0.5+A(F)×0.5+T(F)×0.5

这里取r₁＝r₂＝r₃＝0.5，是各属性元素对应的权重。权重的实际取值跟子服务功能有关，根据实际经验和历史交互数据进行选择。

此处，将酒店预订子服务的个数设为10个，用{F₁,F₂......F₁₀}表示，并选取上述3个属性来衡量每个子服务的性能，列出二维Q矩阵：

将其归一化：

根据以上归一化后的值，设w_ij是每个指标的权值，根据客户的偏好选取。

计算每个子服务的综合评价值：

由此可见，在旅游路线推荐服务W中，当子服务包括且仅包括酒店预订服务和天气预报服务这两项子服务时，系统状态可用2元组<t₁,t₂>表示，其中t_i＝1,2∈{0,1}，t_i＝1表示t_i节点已经绑定了一项子服务，t_i＝0表示t_i节点还未绑定某项子服务。将T_n表示第n个决策时刻，第n个决策时刻系统的状态记作X_n，Φ表示状态空间。在学习过程中，将初始状态到下一个目标状态的学习片段，记为h。

将组合服务使用Q学习算法学习，根据系统状态X_n做出决策，选择相应的动作具体步骤如下：

(1)初始化参数。令h＝0，设置折扣因子β＝0.5，学习步长γ_h，学习片段数H，初始化所有状态-行动对的Q值。

(2)令决策时刻n＝0，选定初始状态(不是终止状态)，并令总报酬r＝0；

(3)在状态X_n下，调用子服务F，转移到状态X_n+1的概率为

在状态下，根据ε-greedy方法选择行动并执行行动根据公式

计算报酬，有

(4)判断状态是否处于终止状态，若不是，则n:＝n+1，转到(3)。

(5)根据公式

计算差分并根据公式

更新

(6)令h:＝h+1，若h＝H，学习结束，否则转(2)，直到得到一个收敛的理想Q值表。

(7)经过以上步骤可得结果：在Q学习的初期，实验效果欠佳。在子服务数确定的情况下，候选子服务数量将决定组合服务的成功率。但是在经过一定步数的迭代后，最终结果会收敛，从而得到最优或次优的组合服务策略。

请参阅图2，基于相同的发明构思，本实施例中还提供了一种基于Q学习的组合服务策略优化系统，包括以下模块：

学习模块，用于按照以下步骤进行学习：

步骤B，令决策时刻n＝0，选定初始状态并设定总报酬r＝0；

步骤D，判断当前状态是否处于终止状态，若不是，则令n:＝n+1，返回步骤C，若是，则更新状态-行动对的Q值，并返回步骤B，进入下一个学习片段，直至学习结束，得到组合服务最优策略；

其中，QoS模型定义模块中，子服务F的QoS模型记为QoS(F)＝(C(F),T(F),A(F))，其中，服务费用C(F)，响应时间T(F)，安全性A(F)；子服务F的静态信任度为：

T_s(W,F)＝C(F)×r₁+A(F)×r₂+T(F)×r₃

式中，r1，r2，r3分别是子服务F的各属性对应的权重，T_s(W,F)的取值范围为[0,1]。

综合评价模块中，将业务相同的子服务设为n个，用{F₁,F₂......F_n}表示，则所述二维Q矩阵为：

其中，m为QoS模型中属性的个数，n为子服务的个数；

将上述二维Q矩阵归一化处理有：

对于其他模块的具体执行过程，可以参见前述方法实施例中的相应描述，此处不再赘述。

需要说明的是，在本申请所提供的实施例中，应该理解到，所揭露的系统和方法，也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read‐Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于Q学习的组合服务策略优化方法，其特征在于，包括以下步骤：

步骤4，令决策时刻n＝0，选定初始状态并设定总报酬r＝0；

步骤7，按照得到的组合服务最优策略执行工作流。

2.根据权利要求1所述的方法，其特征在于，所述步骤1中，子服务F的QoS模型记为QoS(F)＝(C(F),T(F),A(F))，子服务F的静态信任度为：

T_s(W,F)＝C(F)×r₁+A(F)×r₂+T(F)×r₃

式中，A(F)，C(F)，T(F)为QoS模型中的属性元素，r1，r2，r3分别是子服务F的各属性元素对应的权重，T_s(W,F)的取值范围为[0,1]。

3.根据权利要求2所述的方法，其特征在于，所述步骤2中，将业务相同的子服务设为n个，用{F₁,F₂......F_n}表示，则所述二维Q矩阵为：

其中，m为QoS模型中属性的个数，n为子服务的个数；

将上述二维Q矩阵归一化处理有：

4.根据权利要求3所述的方法，其特征在于，所述步骤5中，在状态X_n下，调用子服务F，计算由状态X_n转移到状态X_n+1的概率为

再根据公式：计算当前状态下的报酬，有

5.根据权利要求4所述的方法，其特征在于，所述步骤6中，更新状态-行动对的Q值的过程为：

根据公式计算差分并根据公式更新Q值为

6.一种基于Q学习的组合服务策略优化系统，其特征在于，包括以下模块：

学习模块，用于按照以下步骤进行学习：

步骤B，令决策时刻n＝0，选定初始状态并设定总报酬r＝0；

7.根据权利要求6所述的系统，其特征在于，QoS模型定义模块中，子服务F的QoS模型记为QoS(F)＝(C(F),T(F),A(F))，其中，服务费用C(F)，响应时间T(F)，安全性A(F)；子服务F的静态信任度为：

T_s(W,F)＝C(F)×r₁+A(F)×r₂+T(F)×r₃

8.根据权利要求6所述的系统，其特征在于，综合评价模块中，将业务相同的子服务设为n个，用{F₁,F₂......F_n}表示，则所述二维Q矩阵为：

其中，m为QoS模型中属性的个数，n为子服务的个数；

将上述二维Q矩阵归一化处理有：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-5任一所述方法包含的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。