CN103646008A

CN103646008A - 一种Web服务组合方法

Info

Publication number: CN103646008A
Application number: CN201310687734.7A
Authority: CN
Inventors: 王红兵; 陈鑫; 吴琴; 王玉文
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2013-12-13
Filing date: 2013-12-13
Publication date: 2014-03-19
Anticipated expiration: 2033-12-13
Also published as: CN103646008B

Abstract

本发明公开了一种Web服务组合方法，针对传统服务组合方法存在的耗时长、灵活性差等问题，将多Agent（智能体）技术、博弈论和强化学习方法引入服务组合过程，将服务组合过程转化为一个马尔可夫博弈过程（Markov Games,or Stochastic Games）。在此基础上进一步融入Q-learning方法和团队马尔可夫博弈理论，使其能够适用于多Agent协同学习环境，通过迭代求解的方式求得最终的服务组合结果。本发明方法能够有效提高求解速度，确保各个智能体在高效协作的同时，能够自主地适应环境并进行动态的服务组合，有效提高了服务组合的灵活性和自适应性。

Description

一种Web服务组合方法

技术领域

本发明属于计算机领域，涉及Web服务组合方法。

背景技术

随着近些年来Web服务领域的快速发展，以及面向服务的软件开发方法的迅速升温，Web服务组合得到了众多研究者的关注。由于单个Web服务的能力有限，如何将各种不同的业务根据需求有效地集成、提供更优质的服务，成为了Web服务应用集成的核心问题。从最初的功能驱动到后来的QoS（Quality of Service，服务质量）驱动，相关研究人员已经在Web服务组合领域做了大量的研究工作。但是，由于Web服务的随机性和Internet环境的不确定性，Web服务组合领域仍然面领着一些挑战，譬如如何减少组合过程所耗费的时间、如何适应动态环境的变化等等。因此，对Web服务组合方法进行研究和创新有着重要的现实意义。

强化学习作为一种以环境反馈作为输入的、特殊的、自主适应环境的机器学习方法，能够有效提高智能系统在动态不可预测的环境下的问题求解。近些年来，逐渐有研究人员试着将强化学习机制引入服务组合过程，以提高服务组合的灵活性与自适应性。强化学习的基本原理是：如果Agent（智能体）的某个行为策略导致环境正的奖赏（强化信号），那么Agent以后产生这个行为策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略，从而使得期望的折扣奖励之和达到最大。一般来讲，强化学习框架需要通过合适的数学模型予以实现，如马尔可夫决策模型（MarkovDecision Process）、矩阵决策模型等等。

值得注意的是，现有的利用强化学习进行服务组合的方法中，鲜少有方法使用多Agent技术来加速组合过程。为数不多的此类方法也仅仅是采用朴素的知识复制的形式来实现不同Agent间的经验共享，不同Agent间本质上还是各自行动，未能充分考虑到多Agent间可能存在的协同博弈行为，也未能实现多Agent联合探索求解路径的目标。

现有的利用强化学习进行服务组合的方法中，大多是将服务组合过程建模为马尔可夫决策过程（Markov Decision Process，MDP）或各种马尔可夫决策过程的变形，如半马尔可夫过程、隐马尔可夫过程、连续时间马尔可夫过程等等，然后在此基础上应用强化学习的某种算法进行迭代求解。然而需要注意的是，马尔可夫决策过程及其各种变形适用的是单Agent学习框架，换言之，采用这类模型的解决方案基本都是单Agent学习机制的变形，在求解效率上并没有显著的提升。

多Agent系统（Multi-Agent System）作为近年来人工智能领域中除了强化学习以外的另一个研究热点，是当前分布式人工智能研究的重要分支。多Agent技术主要研究一组自治的智能体在分布式开放的动态环境下,通过交互、合作、竞争、协商等智能行为完成复杂的控制或任务求解,由于它更能体现人类的社会智能,更加适合开放的、动态的社会环境,因而得到广泛的关注。就目前而言，多Agent系统的重点在于体系结构、协调和学习机制这些方面，如何在开放的动态环境下，使各智能体在短时间内具有快速学习和协调功能的能力,是多Agent系统能否有效运作的关键。

近来，有少部分研究人员尝试将多Agent技术加入到服务组合的过程中，希望通过多Agent学习来加快问题求解的速度，提升服务组合的自适应性。然而，这些方法存在着下述问题：首先，这些方法的建模策略本质上依旧是马尔可夫决策过程，只是单纯地将其推广至每一个Agent，即针对每个Agent都建立一个MDP模型，并没有通过一个全局模型将所有的Agent统一纳入考虑；其次，没有考虑到各个Agent在学习过程中可能遇到的博弈和协作关系，因而并不能称作完整的多Agent协同强化学习。

博弈论作为一门研究多个局中人采取何种策略而能处于优越的地位并取得较好收益的学科，最早是由冯·诺依曼和摩根斯坦合作提出并主要应用在经济学领域。近年来，由于其将局中人作为独立的决策主体的特点与多Agent系统的分布式决策的特点高度吻合，博弈论在多Agent系统领域得到了充分的关注。另一方面，博弈论对于环境因素和团体因素的动态考量也和强化学习的某些思路不谋而合。可以说，发展基于多Agent的团队协同学习方法在近10年来成为了计算机学界一个新兴的热点。Michael L.Litmaan将Q学习方法扩展到满足二人零和博弈的多agent环境，提出了Minimax-Q学习方法。Michael P.Wellman将Minimax-Q学习方法进行修改，将其应用范围扩展到满足二人非零和马尔可夫博弈的多agent环境，提出了Nash-Q方法。然而，由于协作环境下学习的目标与竞争环境不同，这些方法并不能作为通用方法进行求解，它们都有着各自的适用范围，因此，需要针对不同的场景设计不同的多Agent协同学习方法。本发明利用马尔可夫博弈模型将多Agent决策过程和博弈论充分结合起来，根据团队马尔可夫博弈下的得益矩阵概念来改造传统的Q学习方法，使得强化学习机制能够适用于这一模型框架，从而有效地将三者结合。

发明内容

技术问题：本发明提供了一种可进行快速、自适应服务组合的Web服务组合方法。

技术方案：本发明的Web服务组合方法，包括以下步骤：

1）将服务组合建模为马尔可夫博弈，并初始化系统参数和变量：

建模的具体过程为：

把投放的全部智能体定义为局中人集合，将Web服务的前置和后置条件作为马尔可夫博弈过程的状态空间，把可执行的Web服务定义成动作空间，动作表示为如何将一个状态转换为另一个状态，将得益值定义为实际Web服务质量参数的函数；由此得到一个七元组r=<G,S,S₀,S_τ,A,T,R>，G是智能体集合，其中S是状态集，A是联合行为空间，A=A₁×...×A_i×...×A_n，其中A_i是第i个智能体的可用行为集，n是智能体的总个数，T是状态转移概率函数，T:S×A×S→[0,1]，R是所有智能体共有的得益函数，R:S×A→ω，S₀是开始状态，S_τ是终止状态；

初始化系统参数和变量的具体内容为：

初始化折扣因子γ，0<γ<1；初始化学习率α，0<α<1；初始化瞬时得益矩阵和长期得益矩阵；初始化迭代次数m为1；

2）将开始状态S₀作为系统当前状态；

3）根据玻尔兹曼探索策略来计算系统当前状态s下各个联合行为的被调用概率，得到联合行为的概率分布，然后选择当前状态s下被调用概率值最大的联合行为a^max，作为当前联合行为，系统开始调用、执行当前联合行为，系统当前状态s∈S；

4）细化得益函数，更新瞬时得益矩阵：

首先根据实际Web服务质量参数，按照下式计算系统当前状态s下各智能体采取对应行为时每个智能体的得益值：

R (s) = Σ w_{i} \times \frac{{Att}_{i}^{s} - {Att}_{i}^{\min}}{{Att}_{i}^{\max} - {Att}_{i}^{\min}},

其中w_i是服务质量中第i个属性指标的权重，

是第i个属性指标的最大值，是第i个属性指标的最小值，是当前网络下由执行动作反馈的真实观察值；

将当前联合行为下所有智能体的得益值求和，即为当前联合行为下的得益值

r_{i_{1} i_{2} . . . i_{n};}

用计算得到的当前联合行为下的得益值

更新瞬时得益矩阵；

5）采用Q学习方法，更新长期得益矩阵：

根据下式计算在系统当前状态s下各智能体采取对应行为时系统所得到的长期得益值l_i1i2...in ^m(s)：

l_i1i2...in ^m(s)=(1-α)·l_i1i2...in ^m(s)+α·(r_i1i2...in(s)+γ·l_i1i2...in ^m-1(s′))

m为迭代次数，s′是s的下一后继状态；

用计算得到的所有联合行为下的长期得益值更新长期得益矩阵；

6）待系统执行完毕当前联合行为，并收到反馈后，进入下一后继状态，当后继状态为终止状态S_τ时，进入步骤7），否则返回步骤3）；

7）判断系统的学习过程是否收敛：

观察长期得益矩阵，如果更新得到的长期得益矩阵与上一次迭代过程结束后得到的长期得益矩阵相比，其中所有数据变动幅度均小于ε收敛判断阈值，则认为系统的学习过程已经收敛，并进入步骤8），否则令m=m+1后返回步骤2）；

8）根据学习结果，生成工作流：

从开始状态S₀开始，按照贪心原则，选取一条从开始状态S₀到终止状态S_τ的完整路径，将路径中出现的所有联合行为按其出现的先后顺序排列，然后按照步骤1）所构建七元组中规定的映射关系，将这些联合行为里的各个子行为，替换为七元组里的web服务，生成完整的工作流。

有益效果：本发明与现有技术相比，具有以下优点：

鉴于现有的利用强化学习进行服务组合的方法中，未能充分考虑到多Agent（智能体）间可能存在的协同或博弈行为，也未能实现协调多个Agent并使其联合探索、求解问题的目标，本发明通过将博弈论、多Agent技术和强化学习方法三者结合，在充分保留强化学习所带来的自适应性的同时，利用多Agent技术加速问题求解的过程，并利用博弈论的相关理论和机制来确保多个Agent彼此之间能够协同工作，联合探索问题的求解答案。

现有的利用强化学习机制进行服务组合的方法里，通常是将服务组合过程建模为马尔可夫决策过程（Markov Decision Process,MDP），然后应用某种强化学习算法予以求解。这类方法大部分通过单Agent方式进行求解，虽然可以保证得到最终解，但是由于单Agent的原因，系统计算能力不足，计算时间漫长。与这些方法相比，本发明方法采用多Agent技术加速学习过程，运用多个智能体同时进行环境信息的采集和探索工作，加快对未知环境的学习速度，在同样的时间里采集更多的信息，帮助系统提高学习和决策效率。

此外，有少数方法将MDP建模与多Agent技术相结合，也希望通过多Agent技术来提升计算能力，缩减计算时间。但是它们所采用的MDP框架是针对单Agent机制所设计，此类框架仅仅考虑系统的状态、行为与环境反馈信号，而不考虑各个Agent的协作关系与通讯机制，因此这些方法就本质而言并不是真正的多Agent方法。此外，由于不能将各个Agent统一纳入考虑范畴，这些Agent彼此之间各自为政，不能从系统整体的角度去选取最优联合行为，而仅仅从自身回报最大化的角度选取有利于自身的局部行为，从而有可能使得整个系统最终陷入某一局部状态，不能保证系统得到最终解。相对于这些方法所呈现出的问题，本方法采用针对多Agent场景所设计的马尔可夫博弈（Markov Games）模型来建模基于多Agent技术的服务组合过程，将所有的Agent全部纳入框架内，统一协调，从而使得各个Agent能够进行协同工作。同时，本方法采用基于玻尔兹曼探索策略的计算方法来确定各个候选行为的被调用几率。传统方法一般是将探索位置环境的行动比例固化，而本发明中提出的方法可以随着对环境的熟知而逐步减少探索未知环境的行动比例，从而减少多余的时间开销，进一步提高执行效率。

本发明方法利用马尔可夫博弈过程对基于多Agent的Web服务组合过程进行建模，将所有的Agent纳入一个统一的决策框架，使其避免各自为政。根据Web服务的服务质量参数计算由环境反馈而得的得益值，并在此基础上构建统一的瞬时得益矩阵和长期得益矩阵，用瞬时得益矩阵和长期得益矩阵改造传统的Q学习方法，使之适用于马尔可夫博弈框架下的协同强化学习要求。在此基础上，利用玻尔兹曼探索策略加强问题求解过程中的灵活性。

与传统的服务组合方法相比，本方法的优势体现在下述几点：

1）提出基于多Agent协同强化学习的服务组合方法。

2）针对多Agent协作过程和服务组合的特点，提出了一种新的服务组合建模方法。这种方法将多Agent场景下的服务组合过程建模为一个马尔可夫博弈过程，从而将所有的Agent纳入一个统一的决策框架。

3）针对多Agent协作学习的要求和团队马尔可夫博弈过程的特点，改造了传统的Q学习方法，使得新的Q学习方法能够适应新场景下的强化学习要求。

4）采用玻尔兹曼探索策略动态地调整迭代求解过程中各个动作的概率分布，从而增强对动态环境的适应性，降低后期探索过程所造成的时间耗损。

附图说明

图1为本发明方法的流程框图。

具体实施方式

下面通过实施例来对本发明做进一步详细说明。

本发明的Web服务组合方法，包括以下步骤：

1）假定用户甲在筹备一次从A地到B地的旅游计划，现在他将相应的出行要求（如时间安排、预算上限、交通工具选择等）提交给Web服务执行引擎，希望Web服务执行引擎能够根据他的要求自动挑选相关的Web服务，完成服务组合过程，且最终得到的服务组合结果必须满足他所设定的初始条件。

对于Web服务执行引擎而言，先对此人所提的要求进行常规的需求分解，得到任务的基本结构，比如可将此任务分成5个部分，即：出行要求设置、交通方式选择、抵达时间计算、下榻酒店选择和最终预定确认5个部分。

然后将其转化为本方法的模型。具体而言，系统可先设定所投放的智能体（Agent）的总个数n，在本例子中，n可设为3，将这3个智能体构成的集合表示为G。然后将所有备选的可执行web服务转化为模型中的联合动作空间，用A表示，A=A₁×...×A_i×...×A_n，其中A_i是第i个智能体的可用行为集，在本例子中，则A=A₁×A₂×A₃。在此基础上，将备选的Web服务的前置条件和后续结果作为模型里的状态空间，系统每成功执行一次联合动作，则从一个状态变迁到另一个状态，所有的系统状态构成的集合用S表示。将“出行要求设置”的前置条件设为系统的开始状态，用S₀表示；将“最终预定确认”的后续结果作为系统的终止状态，用S_τ表示。系统状态和可执行动作之间的条件概率关系用状态转移概率函数T来表示。系统每执行一次联合行为，将得到环境给予的实际反馈，这部分反馈被转化为数值形式予以保存，转化方式用得益函数R来表示。由此，我们将一次服务组合过程转化为一个七元组r=<G,S,S₀,S_τ,A,T,R>。

然后初始化系统在后面将会用到的相关参数。设置折扣因子γ的值，值可取(0,1)区间内的任何值；设置学习率α的值，值可取(0,1)区间内的任何值。创建瞬时得益矩阵和长期得益矩阵，用以记录系统在后续运算过程中得到的得益值数据。两个矩阵内的值全部初始化为0。设置迭代次数m=1。

在完成建模和初始化步骤后，系统可以正式开始本次迭代的运行，直至到达系统终止状态S_τ。

2）系统首先将开始状态S₀设置为系统的当前状态；

3）根据玻尔兹曼探索策略计算当前状态下各个联合行为的被调用概率，得到联合行为的概率分布。玻尔兹曼探索策略属于强化学习领域中一种普遍使用的探索策略，其公式可以表示为

其中a是所执行的联合行为，a∈A；s是系统当前状态，s∈S，T是温度因子，T=T₀*η，T₀为温度初值，可设为500，当然也可以设为其他的正值，具体设为多少可由操作人员根据其领域的相关特性进行调整。η为降温率，一般设置为关于时间的某种递减函数，如

t为当前时间。Q(s,a)为状态s下执行联合行为a所得到的累计回报值，所有的Q(s,a)值均以长期得益值的形式保存在长期得益矩阵中，每执行一次联合动作行为后，相关的Q(s,a)值会立马予以更新。由前述初始化环节的内容可知，Q(s,a)作为长期得益矩阵中的元素，其初始值为0。

在计算出当前状态下各个联合行为的被调用概率后，选择当前状态下被调用概率值最大的联合行为a^max作为当前联合行为，然后系统开始调用、执行联合行为a^max。

4）根据网络环境所反馈的实际Web服务质量结果，计算系统当前状态s下，各智能体采取对应行为时每个智能体的得益值。换言之，即在当前状态s、所执行的联合行为a^max=a₁×a₂×a₃的情况下，智能体1执行子行为a₁、智能体2执行子行为a₂、智能体3执行子行为a₃时，计算它们各自的得益值，计算公式为

其中w_i是该智能体所执行的子服务的服务质量中第i个属性指标的权重，

是第i个属性指标的最大值，

是第i个属性指标的最小值，是当前网络下由执行动作反馈的真实观察值。然后将3个智能体的得益值求和，结果作为当前联合行为下的得益值并用

更新瞬时得益矩阵。

5）在

的基础上，根据强化学习中的Q学习方法，计算本次迭代中，系统在当前状态s下采取联合行为a^max时，系统所得到的长期得益值l_i1i2...in ^m(s)。l_i1i2...in ^m(s)的计算公式如下：

其中m是迭代次数，s′是s的下一后继状态。当m=1时，长期得益矩阵属于初始化状态，其中的所有长期得益值l_i1i2...in ^m(s)均为初始值0，此时公式里的l_i1i2...in ^m-1(s′)值可用初始值0来表示。当迭代次数m≠1时，则l_i1i2...in ^m-1(s′)可用第m-1论迭代最后得到的长期得益矩阵中对应位置的值来表示。

在计算完l_i1i2...in ^m(s)后，用新得到的l_i1i2...in ^m(s)值去更新长期得益矩阵。

6）当系统执行完毕本次联合行为a^max并收到确认反馈后，系统由当前状态变迁到一个新的系统状态，此新状态即为原来状态的下一后继状态。

此时系统针对新的系统状态进行终止检测。如果此新状态不是终止状态S_τ，则系统返回步骤3），只不过当前状态发生了改变，由此计算新的当前状态下的联合动作分布概率，并据此选择联合行为、计算瞬时得益和长期得益、更新瞬时得益矩阵和长期得益矩阵。如果此后继状态是终止状态S_τ，即完成了最终的预定确认，则系统进入步骤7）。

7）将本次迭代结束后最终得到的长期得益矩阵与上一轮迭代结束后得到的长期得益矩阵进行对比，如果本轮长期得益矩阵中的所有值在上一轮长期得益矩阵的基础上，变化幅度满足收敛条件，即所有值的变化幅度小于收敛判断阈值ε，则认为矩阵中所有数据变动幅度均满足收敛判断条件，从而认为系统的学习过程已经收敛，并进入步骤8）。如果有数据没有满足这一条件，则将迭代次数m加1，然后返回步骤2）开始新一轮迭代。ε一般以百分比的形式表示，正常情况下设为原值的0.1%。考虑到相关行业的领域特殊性，ε也可以由操作人员设置成其他比例值。

8）当系统结束所有的学习过程后，系统开始根据所得到的长期得益矩阵，搜索一条从开始状态S₀到终止状态S_τ的路径，换言之，即找一条能够从“出行要求设置”开始、历经“交通方式选择”等若干环节且最终完成“最终预定确认”的完整执行路径。这一路径选择过程将按照贪心原则来予以实现。首先，系统在开始状态S₀处查询长期得益矩阵，挑选此状态下对应长期得益值最大的那个联合行为，记作

然后执行

进入下一状态；再挑选此状态下对应长期得益值最大的那个联合行为，记作

然后执行

进入新的后继状态；下面依次进行这一过程，直至终止状态S_τ，从而得到一条从开始状态S₀到终止状态S_τ的路径。将寻径过程中依次选取的联合行为

...等按其被选取的先后顺序排列，然后将这些联合行为里的各个子行为按照步骤1）所构建七元组中规定的映射关系，替换为七元组里的web服务，从而生成完整的工作流。

最后，系统执行这一工作流并将最终的服务组合结果反馈给用户甲，从而完成了一次完整的服务组合过程。