CN103150336B

CN103150336B - 一种基于用户聚类的skyline在线计算方法

Info

Publication number: CN103150336B
Application number: CN201310043441.5A
Authority: CN
Inventors: 吴健; 陈克寒; 吉利川; 尹建伟; 李莹; 邓水光; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-02-04
Filing date: 2013-02-04
Publication date: 2016-01-20
Anticipated expiration: 2033-02-04
Also published as: CN103150336A

Abstract

本发明公开了一种基于用户聚类的sky？line在线计算方法，（1）通过用户聚类，将QoS相似的用户聚集在一起，利用聚类共同特征代替用户个体特征，使得计算数据量有效减少；将对所有用户进行离线处理转化为对各个聚类进行离线处理，提高了离线计算的效率，大幅减少了存储空间消耗，提高了系统的可实施性，（2）将计算过程划分为离线和在线模块，通过将大量复杂运算在离线模块中进行，有效提高在线算法的执行效率，（3）利用群体特征sky？line对个体sky？line进行预测，一方面在精度要求不高时可以直接作为结果返回；另一方面在需要求解准确sky？line时在此预测sky？line基础上进行修正，可以简化计算过程。

Description

一种基于用户聚类的skyline在线计算方法

技术领域

本发明涉及一种服务计算中的skyline计算发现，尤其涉及实现了基于用户聚类了离线预测的在线skyline计算方法。

背景技术

近年来，Web服务计算领域随着SOA技术的广泛应用而得到了快速发展，从中衍生出了服务发现、服务组合、服务选择等若干子领域。随着SOA的广泛应用，当今互联网上的Web服务（之后简称为服务）数量急剧的增加，使得人工的查找、选择和调用服务不再能满足需求，从而高效的发现、选择和组合服务算法成为了迫切的研究需要。如何根据用户功能需求描述，在海量服务中找到符合此功能需求的服务，是服务发现的研究内容。然而，在海量的服务中，通常会存在相当数量由不同服务提供商所提供的，功能相同而非功能属性完全不同的服务，如何从大量功能上等价的服务中，根据其非功能属性有效的选择出最为合适的服务，是服务选择所解决的问题。作为服务选择中的重要步骤，基于服务QoS属性的skyline计算课题亦成为了热门的研究方向。

一次典型的服务计算请求，通常包括服务发现、组合、选择、执行过程，整个过程由用户发起，最终将结果返回给用户，其中各个步骤的执行效率直接影响整体服务计算的响应效率，对于服务选择中的skyline计算环节而言，同样如此。传统的方法，通常是对skyline计算进行独立的探讨，而忽略了其在真实服务计算场景中的应用；基于对整体服务QoS数据进行skyline全局计算的方法效率较低，不能满足于在线请求的实时性；每一时刻发起skyline请求的用户是不可预知的，因而不可能事先对所有用的skyline进行离线计算。

目前的skyline计算方法主要可以分为完全离线计算和渐进式在线计算两类。完全离线方法对全局服务QoS数据集进行分析，其计算结果准确但难以满足在线的skyline计算需求；渐进式在线计算方法，通过在线不断的对skyline进行调整修正，逐渐逼近最终skyline结果，其计算过程虽然符合在线特性，但准确结果需逐步细化且完全在线完成，整体计算效率偏低。可以看到，还没有一种很好的结合离线运算的全局性和在线运算的实时性优点的skyline计算方法。

发明内容

针对上述技术缺陷，本发明提出一种基于用户聚类的skyline在线计算方法。

为了解决上述技术问题，本发明的技术方案如下：

一种基于用户聚类的skyline在线计算方法，包括如下步骤：

11）基于用户-服务QoS矩阵对相似用户进行聚类步骤：

当为单维度场景时，采用将所有维度的QoS值归一化处理后按照其权重计算为一维数值，用户u对服务s的多维QoS的归一化公式如下：

\tilde{q} (s) = Σ_{i = 1}^{R} \frac{q_{i} (s) - \min_{s^{'} &Element; S} q_{i} (s^{'})}{\max_{s^{'} &Element; S} q_{i} (s^{'}) - \min_{s^{'} &Element; S} q_{i} (s^{'})} \cdot w_{i}

其中q_i(s)为第i个维度上的QoS值，w_i为各维度的QoS权重，且∑w_i＝1，由此一维用户相似度可以由以下Pearson相似度公式计算：

Dist (u_{i}, u_{j}) = Sim (u_{i}, u_{j}) = \frac{Σ_{s &Element; S (i, j)} (q_{i} (s) - {\overset{&OverBar;}{q}}_{i}) (q_{j} (s) - {\overset{&OverBar;}{q}}_{j})}{\sqrt{Σ_{s &Element; S (i, j)} {(q_{i} (s) - {\overset{&OverBar;}{q}}_{i})}^{2}} \sqrt{Σ_{s &Element; S (i, j)} {(q_{j} (s) - {\overset{&OverBar;}{q}}_{j})}^{2}}}

其中为用户u_i对所有服务调用的平均QoS，为用户u_j对所有服务调用的评均QoS，基于此相似度进行聚类操作；

当为多维度场景时，首先对每个维度的QoS仍然进行归一化操作，是每一个维度上QoS的取值范围都是(0,1)之间，接着采用余弦距离计算两个用户u_i与u_j之间在服务s上的相似度：

sim (u_{i}, u_{j}, s) = \frac{{\overset{&RightArrow;}{q}}_{i} (s) \cdot {\overset{&RightArrow;}{q}}_{j} (s)}{| {\overset{&RightArrow;}{q}}_{i} (s) | | {\overset{&RightArrow;}{q}}_{j} (s) |}

其中是用户i对服务s的归一化QoS向量，定义用户u_i与u_j的在服务集S上的多维QoS相似度为：

sim (u_{i}, u_{j}, S) J (u_{i}, u_{j}) \cdot \frac{\underset{s &Element; S}{Σ} sim (u_{i}, u_{j}, s)}{| S |}

定义S(u)为用户u调用的服务s所构成的集合，那么有：

J (u_{i}, u_{j}) = \frac{| S (u_{i}) \cap S (u_{j}) |}{| S (u_{i}) \cup S (u_{j}) |}

基于此相似度进行聚类操作；

12）基于用户聚类，计算聚类特征skyline步骤；

由一个聚类中服务的QoS均值计算得到的skyline；

13）基于离线聚类skyline执行在线skyline修正步骤:

首先在对应类平均skyline的支配表中支配该点的原skyline点集，并逐个判断在预测QoS数值之后的支配关系，若仍存在支配关系，那么该点在预测过QoS的服务集仍然不属于skyline；若原支配该点的skyline点，在预测后的QoS数值上不再支配该点，那么将该点和不被该点支配的原skyline点都加入候选集。最后在候选集中进行最终skyline计算;

所述支配表用来存储skyline中支配关系的HashTable，其键为每一个非skyline节点索引，值为支配该节点的skyline点的集合。

进一步的，所述步骤12）和步骤13）可采用如下步骤替代：

首先定义skyline合并；如果SK(S₁),SK(S₂)分别是集合S₁,S₂上的skyline，SK(S′)是这两条skyline的并，即SK(S′)=merge(SK(S₁),SK(S₂))，那么SK(S′)是这样一个集合：s∈SK(S₁)∨s∈SK(S₂)，且在SK(S₁),SK(S₂)中不存在的服务s′，使得s′＞s，且merge(SK(S₁),SK(S₂))=SK(S₁∪S₂)，即并集的skyline等于各自skyline的并对聚类C上的等价服务集S的最优skyline的计算，可以由聚类C上各用户u的历史skyline记录合并获得。

本发明的有益效果在于;（1）通过用户聚类，将QoS相似的用户聚集在一起，利用聚类共同特征代替用户个体特征。使得计算数据量有效减少；将对所有用户进行离线处理转化为对各个聚类进行离线处理，提高了离线计算的效率，大幅减少了存储空间消耗，提高了系统的可实施性。（2）将计算过程划分为离线和在线模块，通过将大量复杂运算在离线模块中进行，有效提高在线算法的执行效率。（3）利用群体特征skyline对个体skyline进行预测，一方面在精度要求不高时可以直接作为结果返回；另一方面在需要求解准确skyline时在此预测skyline基础上进行修正，可以简化计算过程。

附图说明

图1为本发明的模块设计图；

图2为skyline支配关系图示例。

具体实施方式

下面将结合附图和具体实施例对本发明做进一步的说明。

本发明所设计的系统主要模块如图1所示，主要包括：

（1）离线用户聚类模块。用户聚类模块从用户QoS记录数据库中读取用户-服务QoS数据，通过定义多维度用户-服务QoS向量的距离运算，采用canoy和kmeans混合的方法对历史QoS相近的用户进行聚类。算法输出一系列的用户聚类，并且该输出被作为中间结果保存在系统中，该聚类结果将作为离线聚类skyline预处理模块的输入，进行下一步的离线处理。

（2）离线聚类skyline预处理模块。在skyline计算中存在这样的事实，即在服务选择问题中，作为候选集合的等价服务集合通常是反复出现的，这是由于候选服务集是由功能相同的服务构成，而功能相同的服务通常具有一致的WSDL接口定义，因而在服务的发现过程中，这些服务往往会被同时搜索出，并作为服务选择的候选集提供。因此，我们认为“作为候选skyline的服务集总是相同的”。同时，由于用户聚类生成器产生的输出聚类为QoS总是相似的用户的集合，因此可以得到“同一聚类下的用户QoS总是相似的”这一结论。基于以上两点事实，那么属于同一聚类下的用户对于某一功能等价服务集合往往会具有相似的skyline，因而基于用户聚类算法的输出我们能够对skyline的在线计算问题进行离线预处理优化。

聚类skyline预处理模块利用聚类生成模块的结果，以及历史的skyline计算结果作为输入，通过分析在同一服务候选集上的历史skyline结果，得到一个聚类的特征skyline作为输出并作为中间结果进行存储。在skyline的在线查询中，此离线skyline结果作为一个当前skyline请求的一个近似返回值；接着，结合QoS预测结果，在线计算模块对上述skyline近似结果进行微调，得到准确的skyline；最后这一计算结果将被反馈到skyline历史结果集中，用于对之后的离线计算进行优化。通过对进行整个聚类中的用户进行skyline离线预处理，使得每一次在线的skyline查询，不再是对整个等价服务集的QoS进行的计算，而是再一个现有skyline的基础上进行修正，大大提高了在线求解的效率。并且在精度要求不严格的情况下，可以将离线预处理的结果作为skyline的一个预测值直接返回。

（3）本模块利用skyline离线计算的结果以及QoS预测器的结果作为输入，得到精确的skyline作为候选服务集的一个过滤结果，并将此结果输出的最终的服务选择器中，用以进行最终的服务个体选择。同时，每次skyline查询得到的准确结果将被返回到离线模块中的skyline历史数据库中，用于对离线skyline预处理结果的下一次迭代计算的优化。

本实施例的具体步骤如下：

（1）基于用户-服务QoS矩阵对相似用户进行聚类。

对于基于距离的聚类算法，需要对用户间距离进行定义。针对用户QoS多维特性，本方法采用两种方式定义用户间距离，即归一化方法和多维相似度：

（a）归一化公式的思路是将所有维度的QoS值归一化处理后按照其权重计算为一维数值，用户u对服务s的多维QoS的归一化公式如下：

\tilde{q} (s) = Σ_{i = 1}^{R} \frac{q_{i} (s) - \min_{s^{'} &Element; S} q_{i} (s^{'})}{\max_{s^{'} &Element; S} q_{i} (s^{'}) - \min_{s^{'} &Element; S} q_{i} (s^{'})} \cdot w_{i}

其中q_i(s)为第i个维度上的QoS值，w_i为各维度的QoS权重，且∑w_i＝1，可以看出归一化之后的归一化之后的多维QoS可以直接转化为一维QoS进行计算。由此一维用户相似度可以由以下Pearson相似度公式计算：

Dist (u_{i}, u_{j}) = Sim (u_{i}, u_{j}) = \frac{Σ_{s &Element; S (i, j)} (q_{i} (s) - {\overset{&OverBar;}{q}}_{i}) (q_{j} (s) - {\overset{&OverBar;}{q}}_{j})}{\sqrt{Σ_{s &Element; S (i, j)} {(q_{i} (s) - {\overset{&OverBar;}{q}}_{i})}^{2}} \sqrt{Σ_{s &Element; S (i, j)} {(q_{j} (s) - {\overset{&OverBar;}{q}}_{j})}^{2}}}

其中为用户u_i对所有服务调用的平均QoS，为用户u_j对所有服务调用的评均QoS。

（b）首先对每个维度的QoS仍然进行归一化操作，是每一个维度上QoS的取值范围都是(0,1)之间。接着采用余弦距离计算两个用户u_i与u_j之间在服务s上的相似度：

sim (u_{i}, u_{j}, s) = \frac{{\overset{&RightArrow;}{q}}_{i} (s) \cdot {\overset{&RightArrow;}{q}}_{j} (s)}{| {\overset{&RightArrow;}{q}}_{i} (s) | | {\overset{&RightArrow;}{q}}_{j} (s) |}

其中是用户i对服务s的归一化QoS向量。由此可以定义用户u_i与u_j的在服务集S上的多维QoS相似度为：

sim (u_{i}, u_{j}, S) J (u_{i}, u_{j}) \cdot \frac{\underset{s &Element; S}{Σ} sim (u_{i}, u_{j}, s)}{| S |}

在不产生歧义的情况下，记为sim(u_i,u_j)。等式的右侧包括两部分的乘积，即两用户所调用的服务集之间的Jaccard距离J(u_i,u_j)和两用户间在服务集S上所有服务的QoS相似度的平均值。定义S(u)为用户u调用的服务s所构成的集合，那么有：

J (u_{i}, u_{j}) = \frac{| S (u_{i}) \cap S (u_{j}) |}{| S (u_{i}) \cup S (u_{j}) |}

通过上述定义，可以替代单维度场景下的加权Pearson相似度公式，对多维QoS场景下的聚类间相似度进行计算，并基于此相似度进行聚类操作。

在此距离定义基础之上，本模块可采用canopy聚类生成初始集合，并在此基础上执行k-means方法生成用户聚类。此两种聚类方法可以直接采用现有的研究成果，不属于本发明的讨论范围。

（2）基于用户聚类，计算聚类特征skyline。skyline的离线计算过程，目的在于根据每个聚类中成员的历史skyline记录，得到代表整个聚类QoS特征的skyline结果，该结果一方面可以作为聚类中任一成员的skyline的一个估计，在对精度要求不高的时候可以直接作为在线请求的结果返回，从而避免低效的在线计算；另一方面，此结果作为目标用户的一个skyline估计，在该用户获得准确的QoS预测之后，在此预测值的基础上进行修正得到最终的skyline结果，其计算效率也将高于直接在候选服务集上进行全局的skyline计算。

对此本发明提出两种离线聚类skyline预测方法，类平均skyline和类最优skyline：

（a）一个等价服务集S′在聚类C_i上的“类平均skyline”，是由一个聚类中这些服务的QoS均值所计算得到的skyline，即QoS(s_j)＝μ_i(s_j)，类平均skyline的计算同传统的skyline计算方法一致，我们将其记为类平均skyline基于本聚类用户的QoS平均值得到的结果，其主要目的是对属于本类的用户提供一个skyline的粗略估计，同时对于未来加入本聚类的新用户而言，由于其QoS预测值即是类均值，因此其在线skyline计算的结果可以直接调用类平均skyline而得到。

（b）另一条重要的skyline是“类最优skyline”，其主要目标是筛选出某聚类所有用户历史记录中所体现的QoS全局最优的skyline结果，并将此结果作为一个对聚类成员进行skyline预测的一个最优值。在介绍“类最优skyline”的计算之前，我们需要先对相关概念进行说明。除特别说明，我们将服务s₁,s₂在QoS上的支配关系QoS(s₁)＞QoS(s₂)记为s₁＞s₂，反之亦然。在不引起歧义的情况下，我们将不严格区分“服务”和“点”的称呼。

首先定义skyline合并。如果SK(S₁),SK(S₂)分别是集合S₁,S₂上的skyline，SK(S′)是这两条skyline的并，即SK(S′)=merge(SK(S₁),SK(S₂))，那么SK(S′)是这样一个集合：s∈SK(S₁)∨s∈SK(S₂)，且在SK(S₁),SK(S₂)中不存在的服务s′，使得s′＞s。可以证明merge(SK(S₁),SK(S₂))=SK(S₁∪S₂)，即并集的skyline等于各自skyline的并。

因此，对聚类C上的等价服务集S的最优skyline的计算，可以由聚类C上各用户u的历史skyline记录合并获得。事实上，由于同一个服务对不同用户产生的调用QoS不同，因而获得的聚类上的最优skyline可能包含有一个服务的多个不同QoS点。这样的skyline我们认为对服务选择过程是具有参考意义的，因为如果一个服务在不同的用户调用下总是支配其他的服务的，那么该服务在未来更有可能具有好的QoS性能（也即是说同一个服务在最优skyline上出现的越多，那么其未来的QoS表现可以认为更优）。

（3）处理在线请求，基于离线聚类skyline执行在线skyline修正算法。在线skyline计算是基于离线的skyline计算结果，一方面离线skyline计算中的“类最优skyline”和“类平均skyline”结果被返回用于对在线请求进行最优推荐和平均的估计，在对精度要求不高而对响应时间敏感的应用场景下这一可以直接作为接下来服务选择过程的输入；另一方面在需要准确skyline结果的时候，可以在“类平均skyline”的基础上加入真正的QoS预测值进行skyline修正计算。由于“类平均skyline”本身就是对类成员QoS的一个估计，因而该skyline修正的过程也将在全局skyline计算的基础上得到简化。

为了加速“类平均skyline”对最终skyline的求解过程，需要定义一个辅助数据结构“支配表”，此数据结构可以在离线skyline计算过程中一并完成。支配表是用来存储skyline图中支配关系的HashTable，其键为每一个非skyline节点索引，值为支配该节点的skyline点的集合。如图2所示的支配关系，我们可以建立支配表如表1：

表1skyline支配表

基于以上的辅助数据结构，基于“类平均skyline”的skyline修正算法可以表述为：输入用户u对于目标等价服务集S中的每一个点，首先在对应类平均skyline的支配表中支配该点的原skyline点集，并逐个判断在预测QoS数值之后的支配关系，若仍存在支配关系，那么该点在预测过QoS的服务集仍然不属于skyline；若原支配该点的skyline点，在预测后的QoS数值上不再支配该点，那么将该点和不被该点支配的原skyline点都加入候选集。最后在候选集中进行最终skyline计算。其主要过程为：

（a）建立空的候选集Candidate，从支配表中读出被支配集Non_Set。

（b）对于Non_Set中的每一个点p，循环执行以下的过程。

（c）读取点p在支配表中对应的支配点集合D_Set。

（d）若在D_Set中不存在任一点dp，使得dp＞p，那么将p加入候选集Candidate。

（e）对于D_Set中不满足p＞dp的点dp，若dp不在D_Set中，那么将dp也加入候选集Candidate。

（f）在候选集Candidate中执行普通的skyline算法，得到最终的skyline输出。

由于通过预测的用户QoS往往相比聚类的平均QoS不会有过大的偏差，当聚类的平均skyline与预测之后的skyline充分接近的时候，原类平均skyline中所满足的支配关系很大一部分在该用户skyline中仍然是满足的，因此最后进行skyline计算的候选集（Candidate）将是整个等价服务集合的一个很小的子集，相比传统的在线全局skyline计算，这过程将大大的简化。同时，系统对DMap的访问是常数时间，并且skyline的集合往往是不大的，一个点集也很少被大量的skyline点同时支配，因而对应DMap的Value中的点集并不会非常的大，因此算法总体效率将是很高的，对于在线计算的体验能有直接的提升。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种基于用户聚类的skyline在线计算方法，其特征在于，包括如下步骤：

11)基于用户-服务QoS矩阵对相似用户进行聚类步骤：

\tilde{q} (s) = Σ_{i = 1}^{R} \frac{q_{i} (s) - \min_{s^{'} &Element; S} q_{i} (s^{'})}{\max_{s^{'} &Element; S} q_{i} (s^{'}) - \min_{s^{'} &Element; S} q_{i} (s^{'})} \cdot w_{i}

D i s t (u_{i}, u_{j}) = S i m (u_{j}, u_{j}) = \frac{Σ_{s &Element; S (i, j)} (q_{j} (s) - \overset{&OverBar;}{q_{i}}) (q_{j} (s) - \overset{&OverBar;}{q_{j}})}{\sqrt{Σ_{s &Element; S (i, j)} {(q_{i} (s) - \overset{&OverBar;}{q_{j}})}^{2}} \sqrt{Σ_{s &Element; S (i, j)} {(q_{j} (s) - \overset{&OverBar;}{q_{j}})}^{2}}}

其中为用户u_i对所有服务调用的平均QoS，用户u_j对所有服务调用的平均QoS，基于此相似度进行聚类操作；

当为多维度场景时，首先对每个维度的QoS仍然进行归一化操作，每一个维度上QoS的取值范围都是(0,1)之间，接着采用余弦距离计算两个用户u_i与u_j之间在服务s上的相似度：

s i m (u_{i}, u_{j}, s) = \frac{\overset{&RightArrow;}{q_{i}} (s) \cdot \overset{&RightArrow;}{q_{j}} (s)}{| \overset{&RightArrow;}{q_{i}} (s) | | \overset{&RightArrow;}{q_{j}} (s) |}

s i m (u_{i}, u_{j}, S) = J (u_{i}, u_{j}) \cdot \frac{\underset{s &Element; S}{Σ} si m (u_{i}, u_{j}, s)}{| S |}

定义S(u)为用户u调用的服务s所构成的集合，那么有：

J (u_{i}, u_{j}) = \frac{| S (u_{i}) \cap S (u_{j}) |}{| S (u_{i}) \cup S (u_{j}) |}

基于此相似度进行聚类操作；

12)基于用户聚类，计算聚类特征skyline步骤；

由一个聚类中服务的QoS均值计算得到的skyline；

13)基于离线聚类skyline执行在线skyline修正步骤:

输入用户u对于目标等价服务集S中的每一个点，首先在对应类平均skyline的支配表中支配该点的原skyline点集，并逐个判断在预测QoS数值之后的支配关系，若仍存在支配关系，那么该点在预测过QoS的服务集仍然不属于skyline；若原支配该点的skyline点，在预测后的QoS数值上不再支配该点，那么将该点和不被该点支配的原skyline点都加入候选集，最后在候选集中进行最终skyline计算；

2.根据权利要求1所述的一种基于用户聚类的skyline在线计算方法，其特征在于，所述步骤12)和步骤13)可采用如下步骤替代：

首先定义skyline合并；如果SK(S₁),SK(S₂)分别是集合S₁,S₂上的skyline，SK(S′)是这两条skyline的并，即SK(S′)＝merge(SK(S₁),SK(S₂))，那么SK(S′)是这样一个集合：s∈SK(S₁)∨s∈SK(S₂)，且在SK(S₁),SK(S₂)中不存在的服务s′，使得s′＞s，且merge(SK(S₂),SK(S₂))＝SK(S₁∪S₂)，即并集的skyline等于各自skyline的并对聚类C上的等价服务集S的最优skyline的计算，可以由聚类C上各用户u的历史skyline记录合并获得。