CN103139310B

CN103139310B - 一种基于混合协同过滤的Web服务QoS预测方法

Info

Publication number: CN103139310B
Application number: CN201310070867.XA
Authority: CN
Inventors: 俞东进; 吴萌萌; 殷昱煜; 李万清; 穆海伦
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2013-03-06
Filing date: 2013-03-06
Publication date: 2016-04-27
Anticipated expiration: 2033-03-06
Also published as: CN103139310A

Abstract

本发明公开一种基于混合协同过滤的Web服务QoS预测方法，现有的Web服务QoS预测方法的预测精确度不高，特别是在QoS数据稀疏的情况下该情况更为严重，本发明根据用户和服务的相关信息，首先将用户和服务分类，然后根据目标用户和目标服务所属分类的不同使用不同的预测方法计算其QoS预测值，并在计算预测值的过程中使用改进的欧氏距离方法计算用户间和服务间的相似度。与传统方法相比，本发明具有较高的Web服务QoS的预测精度，尤其在历史QoS数据稀疏情况下，其预测精度相比现有方法有明显提高。

Description

一种基于混合协同过滤的Web服务QoS预测方法

技术领域

本发明属于服务选择领域，具体涉及到一种基于混合协同过滤的Web服务QoS预测方法。

背景技术

当前，利用Web服务组合技术有效地组织Internet中的各类服务，开发既满足用户功能性需求、又满足服务质量（QualityofService，简称QoS）需求的企业级应用，已成为Internet环境下软件开发的重要方式。其中，服务选择是服务组合过程中的关键环节。由于存在大量功能、行为相同或相似而QoS不同的Web服务，进行服务选择时必须考虑它们的QoS属性。

迄今为止，国内外研究者已提出了许多基于QoS的服务选择方法，这些方法大多针对服务的QoS信息较为完整的情况，然而实际情况并非都是如此。服务的QoS信息通常来自于用户调用后得到的数据。但是一个用户一般并不可能调用过所有的服务，这样就需要在众多的候选服务中，在服务QoS信息不完全情况下进行选择。

当前，服务QoS预测已成为Web服务领域的一个热点问题。通过大量实验的验证和比较，基于协同过滤的预测方法是迄今为止整体预测精度最好的方法。但是在QoS数据稀疏的情况下，该类方法的预测精度较其他方法提高并不十分明显。同时，通过分析真实QoS数据，可以发现QoS数据的重要特点正是数据稀疏性。

发明内容

本发明针对现有技术的不足，提出了一种基于混合协同过滤的Web服务QoS预测方法。

本发明一种基于混合协同过滤的Web服务QoS预测方法的具体步骤是：

步骤(1)获取用户调用Web服务QoS历史记录信息，并将所获取的初始QoS矩阵正规化，具体计算公式为：，其中，表示用户u调用服务s的QoS，表示与用户u相关的所有QoS记录的平均值，表示用户u调用服务所得QoS数据的标准偏差；

步骤(2)根据用户和服务的相关信息，将用户分为“普通用户类”和“特殊用户类”，将服务分为“普通服务类”、“特殊服务类”和“区域敏感服务类”；根据定义1确定“特殊用户类”，根据定义2确定“特殊服务类”，根据定义3和定义4确定“区域敏感服务类”，未被划分入以上任意类的用户和服务分别组成“普通用户类”和“普通服务类”；

步骤(3)目标用户属于“特殊用户类”，而目标服务不属于“特殊服务类”，则使用UMEAN方法计算预测值，即将目标用户调用过的QoS记录的均值作为预测值；

步骤(4)目标服务属于“特殊服务类”，而目标用户不属于“特殊用户类”，则使用IMEAN方法计算预测值，即将目标服务被调用的QoS记录的均值作为预测值；

步骤(5)目标服务属于“特殊服务类”，且目标用户属于“特殊用户类”，则将使用UMEAN方法和IMEAN方法获得的预测值的均值作为最终的预测值；

步骤(6)目标服务对于目标用户所属区域敏感，根据定义5，将目标用户所属区域对目标服务的中心作为最终的预测值；

步骤(7)目标用户和目标服务分别属于“普通用户类”和“普通服务类”，根据定义6和定义7，使用改进欧氏距离计算用户间和服务间的相似度，使用Top-K算法选择目标用户和目标服务的相似邻居，最后根据定义8使用综合预测方法计算最终的预测值。

定义1特殊用户类。用户QoS均值最大的个用户组成“特殊用户类”。其中，用户QoS均值是指与该用户相关的所有QoS记录的平均值，是控制特殊用户类中用户个数的阈值，可根据实际情况指定。

定义2特殊服务类。服务QoS均值最大的个服务组成“特殊服务类”。其中，服务QoS均值是指与该服务相关的所有QoS记录的平均值，是控制特殊服务类中服务个数的阈值，可根据实际情况指定。

定义3用户区域。将用户按照所在物理位置的不同分成f类，用户表示属于第i个区域的用户的集合，用表示用户区域的集合，即。

定义4区域敏感服务。若服务s满足，则称服务s对区域敏感。其中，表示一个名为的服务；为控制区域敏感服务的阈值，可根据实际情况指定；表示区域中用户调用服务s所得QoS记录的集合的中值，简称区域的中值；表示用户区域集合中各个区域中值所组成的集合的中值；表示用户区域集合中各个区域中值与的差的绝对值所组成的集合的中值，计算公式为。

定义5区域中心。区域对服务s的中心是指：区域中所有用户调用服务s所得QoS集合的中值，计算公式为：。

定义6用户相似度。本发明中，用户u₁和u₂的相似度使用改进欧式距离计算，具体公式为：，其中，表示用户u₁和u₂共同调用过的服务集合，表示用户u₁和用户u₂共同调用服务的个数，表示服务s被用户调用所得QoS数据的标准偏差，计算公式为：，表示调用服务s的用户集合，表示调用服务s的用户的个数，表示用户u_i调用服务s的QoS值，表示与服务s相关的所有QoS记录的平均值。

定义7服务相似度。本发明中，服务s₁和s₂的相似度使用改进欧式距离计算，具体公式为：，其中，表示共同调用服务s₁和s₂的用户集合，表示共同调用服务s₁和s₂的用户的个数，表示表示用户u调用服务所得QoS数据的标准偏差，计算公式为：，表示用户u调用的服务集合，表示用户u调用服务的个数，表示用户u调用服务s的QoS值，表示与服务u相关的所有QoS记录的平均值。

定义8综合预测方法。综合预测方法的计算公式为：，其中，表示基于用户的预测结果，计算公式为（表示目标用户u的相似邻居集合，表示用户u₁调用服务s的QoS，表示用户u与u₁的相似度），表示基于服务的预测结果，计算公式为其中表示目标服务s的相似邻居集合，表示用户u调用服务s₁的QoS，表示服务s与服务s₁的相似度，和()分别表示基于用户预测结果和基于服务预测结果的权重，计算公式为：，，和分别为调节基于用户和基于服务预测结果权重的固定因子，计算公式为：，，为调节基于用户和基于服务预测结果权重的可变因子，可根据实际情况指定。

有益效果：本发明通过考虑用户和服务的自身特性将用户和服务分类，并且根据目标用户和目标服务所属分类的不同使用不同的预测方法计算其QoS预测值，并利用改进的欧氏距离方法计算用户和服务的相似度，解决了传统相似度计算方法可能存在的对相似度值评估过高的问题，同时通过引入平衡因子整合了相似用户对相同服务QoS的预测结果和相同用户对相似服务QoS的预测结果。与传统方法相比，本发明具有较高的Web服务QoS的预测精度，尤其在历史QoS数据稀疏情况下，其预测精度相比现有方法有明显提高。

附图说明

图1本发明的主要流程图。

具体实施方式

如图1所示，本发明一种基于混合协同过滤的Web服务QoS预测方法包括以下步骤：

Claims

1.一种基于混合协同过滤的Web服务QoS预测方法，

定义1特殊用户类；用户QoS均值最大的N_u个用户组成特殊用户类；其中，用户QoS均值是指与该用户相关的所有QoS记录的平均值，N_u是控制特殊用户类中用户个数的阈值，根据实际情况指定；

定义2特殊服务类；服务QoS均值最大的N_s个服务组成特殊服务类；其中，服务QoS均值是指与该服务相关的所有QoS记录的平均值，N_s是控制特殊服务类中服务个数的阈值，根据实际情况指定；

定义3用户区域；将用户按照所在物理位置的不同分成f类，用户UR_i表示属于第i个区域的用户的集合，用UR表示用户区域的集合，即UR＝{UR₁,UR₂,...,UR_f}；

定义4区域敏感服务；若服务s满足s∈{s_j||median(UR_i,s_j)-median(UR,s_j)|≥λ×MMAD(UR,s_j)}，则称服务s对区域UR_i敏感；其中，s_j表示一个名为s_j的服务；λ为控制区域敏感服务的阈值，根据实际情况指定；median(UR_i,s)表示区域UR_i中用户调用服务s所得QoS记录的集合的中值，简称区域UR_i的中值；median(UR,s)表示用户区域集合UR中各个区域中值所组成的集合的中值；MMAD(UR,s)表示用户区域集合UR中各个区域中值与median(UR,s)的差的绝对值所组成的集合的中值，计算公式为MMAD(UR,s)＝median(|median(UR_i,s)-median(UR,s)|),i＝1,2,...,f,median(UR,s_j)表示区域UR中用户调用服务s_j所得QoS记录的集合的中值；

定义5区域中心；区域UR_i对服务s的中心是指：区域UR_i中所有用户调用服务s所得QoS集合的中值，计算公式为：

定义6用户相似度；用户u₁和u₂的相似度使用改进欧式距离计算，具体公式为：其中，S表示用户u₁和u₂共同调用过的服务集合，|S|表示用户u₁和用户u₂共同调用服务的个数，d_s表示服务s被用户调用所得QoS数据的标准偏差，计算公式为：U_s表示调用服务s的用户集合，|U_s|表示调用服务s的用户的个数，表示用户u_i调用服务s的QoS值，表示与服务s相关的所有QoS记录的平均值,r_u,s表示用户u调用服务s的QoS值；

定义7服务相似度；服务s₁和s₂的相似度使用改进欧式距离计算，具体公式为：其中，U表示共同调用服务s₁和s₂的用户集合，|U|表示共同调用服务s₁和s₂的用户的个数，d_u表示用户u调用服务所得QoS数据的标准偏差，计算公式为：S_u表示用户u调用的服务集合，|S_u|表示用户u调用服务的个数，r_u,s表示用户u调用服务s的QoS值，表示与服务u相关的所有QoS记录的平均值；

定义8综合预测方法；综合预测方法的计算公式为：P(r_u,s)＝w_u*P_u+w_s*P_s，其中，P_u表示基于用户的预测结果，计算公式为L_u表示目标用户u的相似邻居集合，表示用户u₁调用服务s的QoS，表示用户u与u₁的相似度，P_s表示基于服务的预测结果，计算公式为其中L_s表示目标服务s的相似邻居集合，表示用户u调用服务s₁的QoS，表示服务s与服务s₁的相似度，w_u和w_s分别表示基于用户预测结果和基于服务预测结果的权重，w_u+w_s＝1，计算公式为：con_u和con_s分别为调节基于用户和基于服务预测结果权重的固定因子，计算公式为：w为调节基于用户和基于服务预测结果权重的可变因子，根据实际情况指定；

其特征在于该方法包括以下步骤：

步骤(1)获取用户调用Web服务QoS历史记录信息，并将所获取的初始QoS矩阵正规化，具体计算公式为：其中，r_u,s表示用户u调用服务s的QoS，表示与用户u相关的所有QoS记录的平均值，σ_u表示用户u调用服务所得QoS数据的标准偏差,r′_u，s表示将所获取的初始QoS矩阵正规化得到的值；

步骤(2)根据用户和服务的相关信息，将用户分为普通用户类和特殊用户类，将服务分为普通服务类、特殊服务类和区域敏感服务类；根据定义1确定特殊用户类，根据定义2确定特殊服务类，根据定义3和定义4确定区域敏感服务类，未被划分入特殊用户类、特殊服务类、区域敏感服务类的用户和服务分别组成普通用户类和普通服务类；

步骤(3)目标用户属于特殊用户类，而目标服务不属于特殊服务类，则使用UMEAN方法计算预测值，即将目标用户调用过的QoS记录的均值作为预测值；

步骤(4)目标服务属于特殊服务类，而目标用户不属于特殊用户类，则使用IMEAN方法计算预测值，即将目标服务被调用的QoS记录的均值作为预测值；

步骤(5)目标服务属于特殊服务类，且目标用户属于特殊用户类，则将使用UMEAN方法和IMEAN方法获得的预测值的均值作为最终的预测值；

步骤(7)目标用户和目标服务分别属于普通用户类和普通服务类，根据定义6和定义7，使用改进欧氏距离计算用户间和服务间的相似度，使用Top-K算法选择目标用户和目标服务的相似邻居，最后根据定义8使用综合预测方法计算最终的预测值。