CN104615683A

CN104615683A - 一种具有高可扩展性的时间及位置感知的协同过滤技术

Info

Publication number: CN104615683A
Application number: CN201510031278.XA
Authority: CN
Inventors: 黄林鹏; 于程远
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2015-01-21
Filing date: 2015-01-21
Publication date: 2015-05-13

Abstract

本发明公开了一种具有高可扩展性的时间及位置感知的协同过滤技术，通过利用用户及Web服务的IP地址所属的AS(An autonomous system)对用户及Web服务进行分类；在寻找类似用户和类似Web服务的时候只在与活动用户和目标Web服务处于同一个AS中的用户和Web服务中寻找。然后利用这些用户及Web服务来进行预测，提高了算法的可扩展性和预测精确度。

Description

一种具有高可扩展性的时间及位置感知的协同过滤技术

技术领域

本发明涉及一种计算机应用技术领域的方法，具体是一种具有高可扩展性的时间及位置感知的协同过滤技术及系统。

背景技术

随着Web服务以及互联网技术的迅猛发展，越来越多具有相似功能的Web服务出现在网络中。这种现象一方面给了用户更多的选择，另一方面用户不得不花费大量的时间以及精力来寻找真正满足自己需求的Web服务。就算找到了满足用户功能需求的Web服务，但是该Web服务的非功能属性(QoS属性)也不一定满足，即便是Web提供者声明的非功能属性(QoS属性)满足用户需求，该用户感受到的Web服务的QoS属性值很可能与Web服务提供者声明的QoS属性值不同。用户直接去调用Web服务观察到的QoS属性才是最正确的，但是该方法却完全行不同。由于网络中具有相同或类似的功能的Web服务实在太多，导致用户完全没有足够的时间和精力一个一个去尝试，即使有足够的时间或者精力也不一定能承受如此昂贵的花费。因此，如何从大量的具有相同或者类似功能的Web服务中选出真正满足用户需求的Web服务变得越来越重要。

协同过滤技术的出现为上述问题提供了一个良好的技术途径。协同过滤技术利用一个N×M用户-Web服务矩阵M_u，s记录用户调用Web服务时观察到的该Web服务的QoS属性值。其中N代表该Web服务推荐系统中已经注册的用户数量，M代表该Web服务推荐系统中已经注册的Web服务数量。矩阵中的项表示编号为u_i的用户调用过编号为s_j的Web服务，并且用户u_i观察到的Web服务s_j的QoS属性值记录在项中。假如则表示用户u_i没有调用过Web服务s_j。协同过滤技术通过找到和活动用户类似的用户，然后根据类似用户观察到的目标Web服务的QoS属性值来预测活动用户观察到的目标Web服务的QoS属性值。这样的预测值往往非常接近活动用户实际观察到的QoS属性值。协同过滤技术可以分成两大类：基于内存的协同过滤技术和基于模型的协同过滤技术。基于内存的协同过滤技术的特点是容易实现且预测精确度较高，但是可扩展性差。而基于模型的协同过滤技术的特点是具有较好的可扩展性，但是该类技术的预测准确度较低。

由于Web服务以及互联网技术的迅猛发展，导致用户数量及Web服务的数量极其膨大，最终导致基于内存的协同过滤技术预测QoS属性值所需的时间和资源都超过了能容忍的地步。而基于模型的协同过滤技术的预测质量又较差。因此，现有的协同过滤技术很难既保证预测质量有保证预测速度。

发明内容

本发明的目的在于克服现有技术中存在的不足，提供一种既能保证预测质量又能保证预测速度的协同过滤技术以及基于该技术的Web服务推荐系统，通过利用用户及Web服务的IP地址所属的AS(An autonomous system)对用户及Web服务进行分类，由于QoS中的性能属性，例如反应时间，吞吐量与用户与Web服务之间的网络距离相关。因此，在寻找类似用户和类似Web服务的时候只在与活动用户和目标Web服务处于同一个AS中的用户和Web服务寻找。然后利用这些用户及Web服务来进行预测，不仅仅能提高算法的可扩展性，还能提高预测精确度。

本发明的目的通过以下技术方案来实现：一种具有高可扩展性的时间及位置感知的协同过滤技术，包括以下步骤：

步骤一，根据用户及Web服务的IP地址对用户及Web服务进行分类，得到用户群及Web服务群，利用用户-Web服务-时间张量记录QoS值；

其中，所述用户群，是指IP地址属于同一个AS的用户构成的集合；所述Web服务群，是指IP地址属于同一个AS的Web服务构成的集合；所述用户-Web服务-时间张量，是指张量的项用于记录用户u_i在时间t_k上观察到的Web服务s_j的QoS属性值。

步骤二，计算所有和目标Web服务处于同一个AS的Web服务与目标Web服务之间的平均类似度，然后选择k个平均类似度最高的Web服务形成topK类似Web服务集合；

其中，所述目标Web服务，是指需要被预测QoS属性值的那个Web服务；所述所有和目标Web服务处于同一个AS的Web服务，是指Web服务的IP地址和目标Web服务的IP地址属于同一个AS的所有Web服务构成的集合，其中目标Web服务也属于该集合；所述topK类似Web服务集合N′(s)，是指与目标Web服务类似度最高的K个Web服务所组成的集合。

所述平均类似度的计算公式如下

{sim}_{t_{k_{1}}} (s_{j_{1}}, s_{j_{2}}) = \frac{\underset{t_{k} &Element; t_{D}}{Σ} sim (s_{j_{1}, t_{k}}, s_{j_{2}, t_{k}})}{| t_{D} |}

其中表示web服务和在时间t_k上的类似度。t_D是时间区间集合。

步骤三，计算所有和活动用户处于同一个AS的用户与活动用户之间的平均类似度，然后选择k个平均类似度最高的用户形成topK类似用户集合；

其中，所述活动用户，是指需要使用某个Web服务的用户；所述所有和活动用户处于同一个AS的用户，是指用户的IP地址和活动用户的IP地址属于同一个AS的所有用户构成的集合，其中活动用户也属于该集合；所述topK类似用户集合N′(u)，是指与活动用户类似度最高的K个用户所组成的集合。

所述平均类似度的计算公式如下：

{sim}_{t_{k_{1}}} (u_{i_{1}}, u_{i_{2}}) = \frac{\underset{t_{k} &Element; t_{D}}{Σ} sim (u_{i_{1}, t_{k}}, u_{i_{2}, t_{k}})}{| t_{D} |}

其中表示用户和在时间t_k上的类似度。t_D是时间区间集合。

步骤四，分别利用基于用户的协调过滤算法(user-based CF algorithm)和基于项目的协调过滤算法(item-based CF algorithm)来预测QoS属性值，然后将这两个值加权平均，既得到本发明最终的预测值。

其中，所述利用基于用户的协调过滤算法预测的QoS属性值，是指根据步骤三寻找到的topK类似用户集合利用基于用户的协调过滤算法的预测公式计算获得的QoS属性值；所述利用基于项目的协调过滤算法预测的QoS属性值，是指根据步骤二寻找到的topK类似Web服务集合利用基于项目的协调过滤算法的预测公式计算获得的QoS属性值；所述加权平均，是指利用基于用户的协调过滤算法获得的QoS属性值乘上权重inf_u再加上利用基于项目的协调过滤算法预测的QoS属性值与权重inf_s的乘积。

所述权重inf_u的计算公式如下：

\inf_{u} = \frac{\underset{u_{i} &Element; N^{'} (u)}{Σ} {sim}_{t_{k_{1}}} (u_{i_{1}}, u_{i_{2}})}{\underset{u_{i} &Element; N^{'} (u)}{Σ} {sim}_{t_{k_{1}}} (u_{i_{1}}, u_{i_{2}}) + \underset{s_{j} &Element; N^{'} (s)}{Σ} {sim}_{t_{k_{1}}} (s_{j_{1}}, s_{j_{2}})},

其中指利用步骤三中的公式计算出的两个用户之间的平均类似度，指利用步骤二中的公式计算出的两个web服务之间的平均类似度。

所述权重inf_s的计算公式如下：

\inf_{s} = \frac{\underset{u_{i} &Element; N^{'} (u)}{Σ} {sim}_{t_{k_{1}}} (s_{j_{1}}, s_{j_{2}})}{\underset{u_{i} &Element; N^{'} (u)}{Σ} {sim}_{t_{k_{1}}} (u_{i_{1}}, u_{i_{2}}) + \underset{s_{j} &Element; N^{'} (s)}{Σ} {sim}_{t_{k_{1}}} (s_{j_{1}}, s_{j_{2}})}

本发明具有以下有益效果：

寻找类似的用户(Web服务)只在活动用户(目标Web服务)所在的用户群(Web服务群)中寻找，而不需要计算系统中的每一个用户(Web服务)与活动用户(目标Web服务)的类似度，计算量小，可扩展性高；预测QoS属性值时引入了时间的概念以及网络距离的概念，大幅度提高了预测精确度。

附图说明

图1为本发明实施例中进行QoS属性值预测的流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，本发明实施例提供了一种具有高可扩展性的时间及位置感知的协同过滤技术，包括以下步骤：

步骤一，计算所有和目标Web服务处于同一个AS的Web服务与目标Web服务之间的平均类似度，然后选择k个平均类似度最高的Web服务形成topK类似Web服务集合；

所述目标Web服务，是指需要被预测QoS属性值的那个Web服务。

所述所有和目标Web服务处于同一个AS的Web服务，是指Web服务的IP地址和目标Web服务的IP地址属于同一个AS的所有Web服务构成的集合，其中目标Web服务也属于该集合。

所述平均类似度，是指利用公式计算出来的值。

所述topK类似Web服务集合，是指与目标Web服务类似度最高的K个Web服务所组成的集合。

步骤二，计算所有和活动用户处于同一个AS的用户与活动用户之间的平均类似度，然后选择k个平均类似度最高的用户形成topK类似用户集合；

所述活动用户，是指需要使用某个Web服务的用户。

所述所有和活动用户处于同一个AS的用户，是指用户的IP地址和活动用户的IP地址属于同一个AS的所有用户构成的集合，其中活动用户也属于该集合。

所述平均类似度，是指利用公式计算出来的值。

所述topK类似用户集合，是指与活动用户类似度最高的K个用户所组成的集合。

步骤三，利用基于用户的协调过滤算法(user-based CF algorithm)来预测QoS属性值；

所述利用基于用户的协调过滤算法预测的QoS属性值，是指根据步骤二寻找到的topK类似用户集合利用基于用户的协调过滤算法的预测公式计算获得的QoS属性值。

步骤四，利用基于项目的协调过滤算法(item-based CF algorithm)来预测QoS属性值；

所述利用基于项目的协调过滤算法预测的QoS属性值，是指根据步骤一寻找到的topK类似Web服务集合利用基于项目的协调过滤算法的预测公式计算获得的QoS属性值。

步骤五，将步骤三和步骤四获得的两个值加权平均，既得到本发明最终的预测值。

所述加权平均，是指利用基于用户的协调过滤算法获得的QoS属性值乘上权重inf_u再加上利用基于项目的协调过滤算法预测的QoS属性值与权重inf_s的乘积。

所述权重inf_u，是指利用公式

\inf_{u} = \frac{\underset{u_{i} &Element; N^{'} (u)}{Σ} {sim}_{t_{k_{1}}} (u_{i_{1}}, u_{i_{2}})}{\underset{u_{i} &Element; N^{'} (u)}{Σ} {sim}_{t_{k_{1}}} (u_{i_{1}}, u_{i_{2}}) + \underset{s_{j} &Element; N^{'} (s)}{Σ} {sim}_{t_{k_{1}}} (s_{j_{1}}, s_{j_{2}})}

计算出来的结果。

所述权重inf_s，是指利用公式

\inf_{s} = \frac{\underset{u_{i} &Element; N^{'} (u)}{Σ} {sim}_{t_{k_{1}}} (s_{j_{1}}, s_{j_{2}})}{\underset{u_{i} &Element; N^{'} (u)}{Σ} {sim}_{t_{k_{1}}} (u_{i_{1}}, u_{i_{2}}) + \underset{s_{j} &Element; N^{'} (s)}{Σ} {sim}_{t_{k_{1}}} (s_{j_{1}}, s_{j_{2}})}

计算出来的结果。

本具体实施寻找类似的用户(Web服务)只在活动用户(目标Web服务)所在的用户群(Web服务群)中寻找，而不需要计算系统中的每一个用户(Web服务)与活动用户(目标Web服务)的类似度，计算量小；本发明预测QoS属性值引入了时间的概念以及网络距离的概念，由于Web服务的QoS属性中包含性能属性；性能属性包括反应时间及吞吐量等；而性能属性与用户和Web服务的网络距离有关系；同时，性能属性又与Web服务的状态有关，而Web服务的状态又与时间相关，从而大幅度提高了预测精确度。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种具有高可扩展性的时间及位置感知的协同过滤技术，其特征在于，包括以下步骤：

步骤四，分别利用基于用户的协调过滤算法和基于项目的协调过滤算法来预测QoS属性值，然后将这两个值加权平均，既得到最终的预测值。

2.根据权利要求1所述的一种具有高可扩展性的时间及位置感知的协同过滤技术，其特征在于，所述步骤一中用户-Web服务-时间张量是指张量的项用于记录用户u_i在时间t_k上观察到的Web服务S_j的QoS属性值。

3.根据权利要求1所述的一种具有高可扩展性的时间及位置感知的协同过滤技术，其特征在于，所述步骤二中Web服务之间的平均类似度的计算公式如下：

{sim}_{t_{k_{1}}} (s_{j_{1}}, s_{j_{2}}) = \frac{\underset{t_{k} &Element; t_{D}}{Σ} sim (s_{j_{1}, t_{k}}, s_{j_{2}, t_{k}})}{| t_{D} |},

4.根据权利要求1所述的一种具有高可扩展性的时间及位置感知的协同过滤技术，其特征在于，所述步骤三中用户之间的平均类似度的计算公式如下：

{sim}_{t_{k_{1}}} (u_{i_{1}}, u_{i_{2}}) = \frac{\underset{t_{k} &Element; t_{D}}{Σ} sim (u_{i_{1}, t_{k}}, u_{i_{2}, t_{k}})}{| t_{D} |},

其中表示用户和在时间t_k上的类似度。t_D是时间区间集合。

5.根据权利要求1所述的一种具有高可扩展性的时间及位置感知的协同过滤技术，其特征在于，所述步骤四中利用基于用户的协调过滤算法预测的QoS属性值是指根据步骤三寻找到的topK类似用户集合N′(u)利用基于用户的协调过滤算法的预测公式计算获得的QoS属性值。

6.根据权利要求1所述的一种具有高可扩展性的时间及位置感知的协同过滤技术，其特征在于，所述步骤四中利用基于项目的协调过滤算法预测的QoS属性值是指根据步骤二寻找到的topK类似Web服务集合N′(s)利用基于项目的协调过滤算法的预测公式计算获得的QoS属性值。

7.根据权利要求1所述的一种具有高可扩展性的时间及位置感知的协同过滤技术，其特征在于，所述步骤四中的加权平均是指利用基于用户的协调过滤算法获得的QoS属性值乘上权重inf_u再加上利用基于项目的协调过滤算法预测的QoS属性值与权重inf_s的乘积。

8.根据权利要求7所述的一种具有高可扩展性的时间及位置感知的协同过滤技术，其特征在于，所述权重inf_u，的计算公式如下：

\inf_{u} = \frac{\underset{u_{i} &Element; N^{'} (u)}{Σ} {sim}_{t_{k_{1}}} (u_{j_{1}}, u_{j_{2}})}{\underset{u_{i} &Element; N^{'} (u)}{Σ} {sim}_{t_{k_{1}}} (u_{i_{1}}, u_{i_{2}}) + \underset{s_{j} &Element; N^{'} (s)}{Σ} {sim}_{t_{k_{1}}} (s_{j_{1}}, s_{j_{2}})},

其中N′(u)是指权利要求5中的topK类似用户集合，N′(s)是指权利要求6中的topK类似Web服务集合。

9.根据权利要求7所述的一种具有高可扩展性的时间及位置感知的协同过滤技术，其特征在于，所述权重inf_s的计算公式如下：

\inf_{s} = \frac{\underset{u_{i} &Element; N^{'} (u)}{Σ} {sim}_{t_{k_{1}}} (s_{j_{1}}, s_{j_{2}})}{\underset{u_{i} &Element; N^{'} (u)}{Σ} {sim}_{t_{k_{1}}} (u_{i_{1}}, u_{i_{2}}) + \underset{s_{j} &Element; N^{'} (s)}{Σ} {sim}_{t_{k_{1}}} (s_{j_{1}}, s_{j_{2}})},