CN106055665A

CN106055665A - 基于异常值剔除的情境感知Web服务推荐方法和系统

Info

Publication number: CN106055665A
Application number: CN201610390028.XA
Authority: CN
Inventors: 范晓亮; 王玉杰; 胡亚昆; 马友; 韩宁; 郭磊
Original assignee: Lanzhou University
Current assignee: Lanzhou University
Priority date: 2016-06-02
Filing date: 2016-06-02
Publication date: 2016-10-26
Anticipated expiration: 2036-06-02
Also published as: CN106055665B

Abstract

本发明公开了一种基于异常值剔除的情境感知Web服务推荐方法和系统，其中，基于异常值剔除的情境感知Web服务推荐方法，包括，通过情境相似度的挖掘，获得和用户当前所处情境相似的用户集合；进行真异常值的判断和剔除，从而得到不存在真异常值的服务对；通过建立QoS相似度挖掘模型，得到与当前服务相关性比较大的服务调用记录；进行服务QoS值的预测，从而得到QoS值的预测值和每个预测值的权值；进一步得出最终的预测结果；对预测结果进行评估。实现提高Web服务推荐系统的准确性的优点。

Description

基于异常值剔除的情境感知Web服务推荐方法和系统

技术领域

本发明涉及Web服务和推荐系统领域，具体地，涉及一种基于异常值剔除的情境感知Web服务推荐方法和系统。

背景技术

Web服务(Web service)是一种面向服务的架构技术,通过标准的Web协议提供服务，目的是保证不同平台的应用服务能够实现互操作。常见的Web服务有，例如提供天气预报查询的Web服务、提供应用程序下载的Web服务等。网络中存在大量功能相同或类似的Web服务，“信息过载”问题十分严重，从而大大增加了用户选择Web服务的难度，从众多功能相同或类似的Web服务为用户推荐其偏好的Web服务已经成为一个重要的研究课题。

现有的Web服务推荐系统主要是基于PCC(Pearson Correlation Coefficient皮尔逊相关系数)的协同过滤算法(CF)。协同过滤算法主要是通过收集与目标用户兴趣相同用户的个人偏好，自动地预测目标用户调用服务的QoS值。现有的CF算法主要包括基于模式的CF算法和基于记忆的CF算法。基于记忆的CF算法主要包括基于user和基于item的CF算法。Ma等人通过研究服务QoS等客观数据的影响，对现有的CF算法进行改进的算法，提高了未知的QoS值预测的精确度。这些方法缺少用户调用Web服务时所处的情境及服务本身所处的情境，因此基于情境感知推荐方法应运而生。

情境感知的推荐系统通过挖掘情境因素的重要性，实现了个性化的推荐得以广泛的应用。而且在基于QoS的个性化服务推荐中融入一些情境信息特别是时间、空间、和社交因素的时候，发现可以提高服务推荐的准确率。

上述方法的缺陷是：并没有考虑到网络环境的动态性，以及动态的网络中一些潜在的因素对数据推荐的影响不能完全依靠情境信息解决，例如用户客户机的性能，路由的情况对数据的影响；而且这些潜在的因素使用户调用的服务的QoS值产生异常，这些异常值往往高于平均值几十倍。现存的服务推荐系统中无论是现有的基于传统的CF算法及CF的改进算法，还是基于情境感知推荐算法往往都是基于PCC系数实现个性化的服务推荐，而且这些算法在使用PCC系数的过程中没有考虑异常数据的影响。这些高于平均值几十倍或者小于平均值几十倍的值，在计算PCC系数的往往或产生很大的影响。因此在情境感知推荐系统中一些潜在的因素导致的用户偏好发生变化，影响推荐系统的精确性。

下面三套具有代表性且与本发明相关的技术方案：

1)Zheng等人提出了根据用户需求、兴趣偏好和历史记录等信息，并利用“用户-服务”评分矩阵来为用户推荐感兴趣或者评分最高的Web服务的方法。

2)Ma等人根据用户的需求、兴趣爱好和历史记录等信息，利用用户之间的QoS相似度和服务之间的QoS相似度对CF算法进行改进，提高了服务推荐的精确度。

3)Kuang等人提出了情境感知的Web服务推荐方法，旨在向当前用户推荐与之所处的情境信息相似的服务调用记录中的服务，但不能处理用户偏好发生变化的情况。

上述三套解决方案的缺点是：第一，忽略了用户当前所处的情境信息，用户所处的情境因素在很大程度上会影响Web服务的QoS值(响应时间)，如果两个用户的所处情境越相似，调用相同Web服务的QoS值就越相似。前两套方案没有考虑用户所处的情境，从而无法在用户偏好发生改变时推荐新的、切合时宜的Web服务，影响系统推荐的准确率；第二，考虑了情境信息，没有考虑一些潜在的因素对用户偏好的影响，更没有有效的排除潜在因素对用户偏好的影响。本发明有效的考虑了相似的情境信息中一些潜在的因素的影响，并且有效排除潜在因素的影响。为用户提供个性化的推荐。

发明内容

本发明的目的在于，针对上述问题，提出一种基于异常值剔除的情境感知Web服务推荐方法和系统，以实现提高Web服务推荐系统的准确性的优点。

为实现上述目的，本发明采用的技术方案是：

一种基于异常值剔除的情境感知Web服务推荐方法，包括，

步骤1、通过情境相似度的挖掘，获得和用户当前所处情境相似的用户集合；

步骤2、基于上述获得的和用户当前所处情境相似的用户集合，进行真异常值的判断和剔除，从而得到不存在真异常值的服务对；

步骤3、基于上述不存在真异常值的服务对，通过建立QoS相似度挖掘模型，得到与当前服务相关性比较大的服务调用记录；

步骤4、在上述得到与当前服务相关性比较大的服务调用记录的基础上，进行服务QoS值的预测，从而得到QoS值的预测值和每个预测值的权值；

步骤5、基于上述QoS值的预测值和每个预测值的权值进行加权融合，从而得出最终的预测结果；

步骤6、对上述预测结果进行评估。

优选的，所述步骤2中真异常值的判断和剔除具体包括：

步骤201、根据同时请求服务s_i和服务s_j的所有QoS值求得线性回归的回归系数b₀和b₁，具体公式如下：

\{\begin{matrix} b_{1} = \frac{Σ_{v &Element; U} r_{v, s_{i}} \cdot r_{v, s_{j}} - | U | \cdot {\overset{&OverBar;}{r}}_{s_{i}} \cdot {\overset{&OverBar;}{r}}_{s_{j}}}{Σ_{v &Element; U} r_{v, s_{j}}^{2} - | U | \cdot {\overset{&OverBar;}{r}}_{s_{j}}^{2}} \\ b_{0} = {\overset{&OverBar;}{r}}_{s_{i}} - b_{1} \cdot {\overset{&OverBar;}{r}}_{s_{j}} \end{matrix}

其中，b₀和b₁是服务s_i和服务s_j的线性回归方程的两个参数，和分别代表用户v请求服务s_i和服务s_j获得QoS值，和分别代表同时请求服务s_i和服务s_j所有用户的平均值，U是同时请求服务s_i和服务s_j的用户的集合；

步骤202、使用参数b₀和b₁得到用户v请求服务s_i的QoS粗略的预测值具体公式如下：

R p (r_{v, s_{i}}) = b_{1} \cdot r_{v, s_{j}} + b_{0}

步骤203、当时，认为用户v请求服务s_i的QoS值是真异常的值，S是服务s_i的标准差，具体公式：

S = \sqrt{\frac{Σ_{v &Element; U} {(r_{v, s_{i} -} b_{1} \cdot r_{v, s_{j}} - b_{0})}^{2}}{| U | - 2}}

步骤204、回到步骤201，直到所有的数据与其粗略预测值之差的绝对值都小于nS，n是一个常数。优选的，所述步骤3具体为：

使用两个服务间的皮尔逊相关系数作为两个服务间的相似度，皮尔逊相关系数计算方法如下：

s i m (s_{i}, s_{j}) = \frac{Σ_{v &Element; U} (r_{v, s_{i}} - {\overset{&OverBar;}{r}}_{s_{i}}) (r_{v, s_{j}} - {\overset{&OverBar;}{r}}_{s_{j}})}{\sqrt{Σ_{v &Element; U} {(r_{v, s_{i}} - {\overset{&OverBar;}{r}}_{s_{i}})}^{2}} \sqrt{Σ_{v &Element; U} {(r_{v, s_{j}} - {\overset{&OverBar;}{r}}_{s_{j}})}^{2}}}

其中，sim(s_i,s_j)代表服务s_i和服务s_j的相似度。

优选的，所述步骤4具体为：

步骤401、假设有两个具有较高相似度的服务s_i和服务s_j，同时被用户集U(已经去除异常值)请求，他们的相似度在步骤3中sim(s_i,s_j)。当一个新的用户u已经请求服务s_j并得到一个QoS值，假设用户u也会请求服务s_i，但是QoS值是未知，在本发明中设为未知数x，并且重新计算服务s_i和服务s_j的相似度：

{sim}^{'} (s_{i}, s_{j}) = \frac{Σ_{v &Element; U^{'}} (r_{v, s_{i}} - {\overset{&OverBar;}{r^{'}}}_{s_{i}}) (r_{v, s_{j}} - {\overset{&OverBar;}{r^{'}}}_{s_{j}})}{\sqrt{Σ_{v &Element; U^{'}} {(r_{v, s_{i}} - {\overset{&OverBar;}{r^{'}}}_{s_{i}})}^{2}} \sqrt{Σ_{v &Element; U^{'}} {(r_{v, s_{j}} - {\overset{&OverBar;}{r^{'}}}_{s_{j}})}^{2}}}

这里U′＝U∪u，和分别代表的是用户集U′所有用户请求服务s_i和服务s_j的平均QoS值。

步骤402、根据假设两个QoS相似度较高的服务对，在加入新记录的时候相似度的变化范围较小，可以忽略不计；于是：

sim(s_i,s_j)≈sim′(s_i,s_j)

步骤403、假设用户u请求服务s_i的QoS值为x,则得到一个关于x的方程：

\frac{a \cdot x + b}{c \sqrt{d \cdot x^{2} + e \cdot x + f}} = s i m (s_{i}, s_{j})

以上方程可以转换为一个一元二次方程，并且会有两个解x₁和x₂，为了得到方程的最佳解，首先根据服务s_i和服务s_j的用户请求记录利用线性回归求得一个粗略值；

步骤404、首先根据服务s_i和服务s_j的用户请求记录求得线性回归的参数b₀和b₁，具体公式如下：

\begin{matrix} b_{1} = \frac{Σ_{v &Element; U} r_{v, s_{i}} \cdot r_{v, s_{j}} - | U | \cdot {\overset{&OverBar;}{r}}_{v, s_{i}} \cdot {\overset{&OverBar;}{r}}_{v, s_{j}}}{Σ_{v &Element; U} r_{v, s_{j}}^{2} - | U | \cdot {\overset{&OverBar;}{r}}_{v, s_{j}}^{2}} \\ b_{0} = {\overset{&OverBar;}{r}}_{v, s_{i}} - b_{1} \cdot {\overset{&OverBar;}{r}}_{v, s_{j}} \end{matrix}

步骤405、使用参数b₀和b₁得到用户u请求服务s_i的QoS粗略的预测值具体公式如下

R p (r_{u, s_{i}}) = b_{1} \cdot r_{u, s_{j}} + b_{0}

是通过s_j求得的用户u请求服务i的预测值，这里x₁和x₂是上面含有x的方程的两个根，两个解中距离粗略预测值更近的值视为用户u请求服务s_i的预测值；

步骤406、使用粗略预测值判断最佳值，具体公式如下：

{pre}_{s_{j}} (r_{u, s_{i}}) = x_{1}, i f | x_{1} - R p (r_{u, s_{i}}) | < | x_{2} - R p (r_{u, s_{i}}) |

{pre}_{s_{j}} (r_{u, s_{i}}) = x_{2}, e l s e

步骤407、为了提高预测的精确度使用了KI个相似度较高的服务去预测QoS值，然后再给予每个预测值的不同的权重得到预测值，加权的公式如下：

c o n (s_{j}) = \frac{s i m (s_{i}, s_{j})}{Σ_{s_{j} &Element; K I} s i m (s_{i}, s_{j})}

其中，是预测值，con(s_j)是每一个预测值的权值。

优选的，所述步骤5具体为：

首先，对最大相似度ms、平均相似度as和相似的标准差的倒数rsd进行加权公式为：

\begin{matrix} Q ({pre}_{u s e r}) = \frac{m s ({pre}_{u s e r})}{m s ({pre}_{u s e r}) + m s ({pre}_{i t e m})} + \frac{a s ({pre}_{u s e r})}{a s ({pre}_{u s e r}) + a s ({pre}_{i t e m})} \\ + \frac{r s d ({pre}_{u s e r})}{r s d ({pre}_{u s e r}) + r s d ({pre}_{i t e m})} \end{matrix}

\begin{matrix} Q ({pre}_{i t e m}) = \frac{m s ({pre}_{i t e m})}{m s ({pre}_{u s e r}) + m s ({pre}_{i t e m})} + \frac{a s ({pre}_{i t e m})}{a s ({pre}_{u s e r}) + a s ({pre}_{i t e m})} \\ + \frac{r s d ({pre}_{i t e m})}{r s d ({pre}_{u s e r}) + r s d ({pre}_{i t e m})} \end{matrix}

其中，ms(pre_user)、as(pre_user)和rsd(pre_user)分别代表的是在KU个相似度较高的用户中最大相似度值、相似度的平均值和相似度标准差的倒数；ms(pre_item)、as(pre_item)、rsd(pre_item)分别代表在KI个相似度服务中最大相似度值、相似度的平均值和相似度标准差的倒数，加权融合的公式，

p r e = \frac{{pre}_{u s e r} \times Q ({pre}_{u s e r}) + {pre}_{i t e m} \times Q ({pre}_{i t e m})}{Q ({pre}_{i t e m}) + Q ({pre}_{i t e m})}

pre是最后的预测值。

优选的，所述步骤6对预测结果进行评估，具体为：

采用MAE值进行预测结果的评估，

平均绝对误差的公式：

M A E = \frac{Σ_{u, s} | Q_{u, s} - {\hat{Q}}_{u, s} |}{N}

其中，Q_u,s代表用户u对服务s总体QoS值的实际值，代表用户u对服务s总体QoS值的预测值，N代表预测值的总个数，MAE的值越小，预测的误差越小，即推荐预测越准。

同时本发明技术方案还公开一种基于异常值剔除的情境感知Web服务推荐系统，具体包括：

情景相似度挖掘模块：获得和用户当前所处情境相似的用户集合；

真异常值的判断和剔除模块：基于上述获得的和用户当前所处情境相似的用户集合，进行真异常值的判断和剔除，从而得到不存在真异常值的服务对；

QoS的相似度挖掘模块：基于上述不存在真异常值的服务对，通过建立QoS相似度挖掘模型，得到与当前服务相关性比较大的服务调用记录；

QoS值的预测模块：在上述得到与当前服务相关性比较大的服务调用记录的基础上，进行服务QoS值的预测，从而得到QoS值的预测值和每个预测值的权值；

以及

QoS值的预测和结果评估模块：基于上述QoS值的预测值和每个预测值的权值进行加权融合，从而得出最终的预测结果，并对预测结果进行评估。

本发明的技术方案具有以下有益效果：

本发明考虑到在情境感知的Web服务推荐系统中一些潜在因素的影响，通过分析建立判断这些潜在的因素导致的真异常数据和处理真异常数据的模型，并结合QoS相似度挖掘模型以及QoS预测方法，实现了个性化的Web服务推荐系统，进一步提高了Web服务推荐系统的准确性。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明实施例所述的考虑真异常在情境感知的网络服务推荐方法的场景示意图；

图2为本发明实施例所述的不同数据值的数量占比的分布图；

图3为本发明实施例所述的基于剔除真异常值建模的情境感知网络服务推荐方法流程图；

图4为本发明实施例所述的基于剔除真异常值建模的情境感知网络服务推荐方法的模块示意图；

图5为本发明实施例所述的不同算法的MAE结果对照图；

图6为本发明实施例所述的基于用户和服务的HAPA和CASR-TE的MAE结果对照图；

图7为本发明实施例中n取不同值的MAE值对照图；

图8为本发明实施例所述的不同比例下各种算法的MAE结果对照图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

为了让网络服务推荐系统更加准确地为用户推荐个性化的网络服务，本发明主要考虑是网络服务推荐中的不同情境因素导致的真异常值的影响，并剔除这些真异常值。首先，建立相似情境中真异常值的判断和处理模型；其次，结合情境感知相似度的挖掘方法得到的数据集；最后，在得到的数据集上运用预测算法进行QoS的预测，并将预测值和实际值相比较，评估算法预测的准确性。

附图1展示了本发明公开的考虑情境感知的天气预报网络服务推荐方法的场景图。图中包含一个服务层(里面包含许多服务，且这些服务广泛地分布在世界各地)、一个空间层和用户层。

假设这个服务存储库里面包含有许多在线的天气预报服务(s₁代表美国国家气象中心的天气预报服务，s₂代表气象美国的天气预报服务，s₃代表中国国家气象局的天气预报服务，s₄代表英国BBC的天气预报服务)。

由于天气预报服务的准确度与地域的相关性很大，很自然地，用户偏好于选择距离自己当前位置比较近的天气预报网络服务。在附图1的场景中，用户u₁在纽约，则其会倾向于选择来自纽约的天气预报网络服务s₁或s₂。用户u₄和u₅则更倾向于选择来自北京的天气。

此外，在相似情境下的用户，对服务往往有着更为相似的选择。比如调用一个服务的时间、地点等，都会影响到用户对服务的选择。在附图1的场景中，用户u₁则可能更倾向与用户u₂的服务推荐，两个用户的情境越相似，其做出的服务选择也就会越相似。因此，利用位置相关性寻找情境相似的用户是必要的。

最后在考虑到相似的情境下的用户，虽然对服务往往有着相似的选择，但是也必须考虑到不同用户之间一些潜在因素的影响，比如调用服务时的网络状况，用户客户机的性能等，也会影响到用户服务的选择。这些潜在的因素可能会导致一些数据比较异常，在本发明中对WSDream数据集中来自美国的150个用户和150个服务的用户-服务数据矩阵进行了统计，发现在这该数据矩阵中QoS值的平均值和标准差分别是0.3435和0.741。最小值是0.003是平均值的百分之一，最大值19.61大约是平均值的60倍；最小值是平均值的百分之一。并对数据的分布做了如图2的统计图：

从图2中可以发现大部分分布在[0.01,0.8]之间，大于12.8的数据是仅占0.062％，但是这部分的数据值是平均值的几十倍。这些值用于计算用户的相似度时可能会带来较低精确度。但是由于网络环境是动态变化的，每一个用户的客户机，或者服务的性能是不同的，并不能单纯的认为数值大或者小就直接的认为这个值是异常值而将其剔除。在本发明中提出了真异常值的概念，即根据异常数据周围的数据大小建立数学模型(详见步骤2)，不符合数学模型的数据被认为是真异常值并将其剔除。异常值和真异常的概念如下：

定义1：异常值-这些值与平均值相比有很大的差距，直观的认为偏离了平均值。

定义2：真异常值-每一个相似的用户(服务)对中，调用同一个服务时得到的两个差异很大的值，其中远离平均值数据判断为真异常值。

为了充分说明异常值和真异常的区别，建立以表1中的示例：

	WS₁	WS₂	WS₃	WS₄	WS₅	WS₆	WS₇
								U₈	0.247	0.257	0.243	0.266	0.921	0.336	0.424
U₉	0.212	0.217	0.207	0.2	0.716	0.438	0.376
								U₁₀	0.207	0.221	0.2	0.199	0.626	0.389	0.34
U₁₁	0.278	0.294	0.264	0.278	1.015	5.26	0.477

表1、WSDream中响应时间数据示例，

从表1中可以看出，四个用户请求的服务WS₅时得到的QoS值均大于他们请求服务WS₁、WS₂、WS₃、WS₄值，这些值看起来是比较异常的，但是并不能认为这请求服务WS₅所得到的QoS值就是真异常值，有可能是有服务WS₅的性能不如其他四个服务的性能，从而导致QoS值异常。然而，从表中可以发现用户U₁₁请求服务WS₆得到的QoS值是其他三个用户请求服务WS₆的QoS值的数十倍，认为用户在请求服务WS₆得到的值可能存在真异常。即在判断一个异常值是不是真异常的时候要根据用户的历史记录或者服务的被调用记录，因此建立了真异常数据的判断和处理模块。

从上面的分析可以发现，在情境感知的推荐系统中，真异常值的判断和处理发挥着重要的作用，真异常的判断和处理模块是本发明的重点。

一种基于异常值剔除的情境感知网络服务推荐方法，如图3所示，包括，

步骤6、对上述预测结果进行评估。

步骤1、情境相似度的挖掘

传统的协同过滤算法一般是利用用户-商品评分矩阵寻找相似的用户或相似的商品,进而为用户进行推荐，很少考虑用户的情境环境。在实际的情况下，用户所处的情境环境往往决定着用户的偏好。用户的情境相似度越高，用户-商品评分记录在相似度计算的时候往往越高。假设两个用户，当他们所处的情境越相似，他们越有可能选择相似的服务。通过情境相似度的挖掘，获得和用户当前所处情境相似的用户集合。本发明采用根据用户和服务的地理信息进行分类，构成地理位置相同的用户和服务数据集。

步骤2、真异常值的判断和剔除模块

在前面已经说过由于用户的情境环境是动态变化的，并不能直接将所有偏离平均值的数据都判断为异常值，本发明通过使用线性回归的方式判断每一个值是否是真异常值。在异常值的判断和处理模块、QoS相似度的挖掘及使用预测方法对QoS值的预测模块中均使用了基于item和基于user的方法，在以下的介绍中主要是基于item的方法介绍。基于item的方法的具体步骤如下：

1、根据同时请求服务s_i和服务s_j的所有QoS值求得线性回归的回归系数b₀和b₁，具体公式如下：

\{\begin{matrix} b_{1} = \frac{Σ_{v &Element; U} r_{v, s_{i}} \cdot r_{v, s_{j}} - | U | \cdot {\overset{&OverBar;}{r}}_{s_{i}} \cdot {\overset{&OverBar;}{r}}_{s_{j}}}{Σ_{v &Element; U} r_{v, s_{j}}^{2} - | U | \cdot {\overset{&OverBar;}{r}}_{s_{j}}^{2}} \\ b_{0} = {\overset{&OverBar;}{r}}_{s_{i}} - b_{1} \cdot {\overset{&OverBar;}{r}}_{s_{j}} \end{matrix}

这里b₀和b₁是服务s_i和服务s_j的线性回归方程的两个参数，和分别代表用户v请求服务s_i和服务s_j获得QoS值，和分别代表同时请求服务s_i和服务s_j所有用户的平均值，U是同时请求服务s_i和服务s_j的用户的集合。

2、使用参数b₀和b₁可以得到用户v请求服务s_i的QoS粗略的预测值具体公式如下：

R p (r_{v, s_{i}}) = b_{1} \cdot r_{v, s_{j}} + b_{0}

3、当时，认为用户v请求服务s_i的QoS值是真异常的值。这里的S是服务s_i的标准差，具体公式：

S = \sqrt{\frac{Σ_{v &Element; U} {(r_{v, s_{i} -} b_{1} \cdot r_{v, s_{j}} - b_{0})}^{2}}{| U | - 2}}

4、回到1继续求解线性回归的回归系数，直到所有的数据与其粗略预测值之差的绝对值都小于nS，n是一个常参数。注：以后步骤中U均是不含真异常值的哟用户集合，为了方便理解和表述在本发明中还用U表述。

步骤3、QoS相似度挖掘模型

在步骤2中得到了不存在真异常值的一个服务对，每一个服务对的相似度越高，服务被相同用户调用的可能性就越高，在本发明中使用两个服务间的PCC(PearsonCorrelation Coefficient,皮尔逊相关系数)作为他们的相似度，皮尔逊相关系数计算方法如下：

s i m (s_{i}, s_{j}) = \frac{Σ_{v &Element; U} (r_{v, s_{i}} - {\overset{&OverBar;}{r}}_{s_{i}}) (r_{v, s_{j}} - {\overset{&OverBar;}{r}}_{s_{j}})}{\sqrt{Σ_{v &Element; U} {(r_{v, s_{i}} - {\overset{&OverBar;}{r}}_{s_{i}})}^{2}} \sqrt{Σ_{v &Element; U} {(r_{v, s_{j}} - {\overset{&OverBar;}{r}}_{s_{j}})}^{2}}}

这里sim(s_i,s_j)代表服务s_i和服务s_j的相似度，使用较高相似度和服务调用记录对未知的QoS值进行预测。

步骤4、未知QoS值预测

经过以上步骤得到与当前服务相关性比较大的服务调用记录。在此基础上，进行服务QoS值的预测。

首先介绍预测算法的基本原理。本发明使用的QoS预测算法原理是基于一个假设，假设两个服务(用户)的调用记录具有很高的相似度，那两个服务(用户)在加入新的记录的时候，相似度的变化范围较小，可以忽略不急。具体实现步骤如下：

假设有两个具有较高相似度的服务s_i和服务s_j，同时被用户集U(已经去除异常值)请求，他们的相似度在步骤3中sim(s_i,s_j)。当一个新的用户u已经请求服务s_j并得到一个QoS值，假设用户u也会请求服务s_i，但是QoS值是未知，在本发明中设为未知数x，并且重新计算服务s_i和服务s_j的相似度：

{sim}^{'} (s_{i}, s_{j}) = \frac{Σ_{v &Element; U^{'}} (r_{v, s_{i}} - {\overset{&OverBar;}{r^{'}}}_{s_{i}}) (r_{v, s_{j}} - {\overset{&OverBar;}{r^{'}}}_{s_{j}})}{\sqrt{Σ_{v &Element; U^{'}} {(r_{v, s_{i}} - {\overset{&OverBar;}{r^{'}}}_{s_{i}})}^{2}} \sqrt{Σ_{v &Element; U^{'}} {(r_{v, s_{j}} - {\overset{&OverBar;}{r^{'}}}_{s_{j}})}^{2}}}

这里U′＝U∪u，和分别代表的是用户集U′所有用户请求服务s_i和服务s_j的平均QoS值。根据假设两个QoS相似度较高的服务对，在加入新记录的时候相似度的变化范围较小，可以忽略不计。于是sim(s_i,s_j)≈sim′(s_i,s_j)。在本发明中假设用户u请求服务s_i的QoS值为x,则可以得到一个关于x的方程：

\frac{a \cdot x + b}{c \sqrt{d \cdot x^{2} + e \cdot x + f}} = s i m (s_{i}, s_{j})

其中，上述方程是可以转化为一个一元二次方程求解，求解的结果可能会有两个根x₁和x₂，在本发明中使用了线性回归判断方程的最佳根，首先根据服务s_i和服务s_j的用户请求记录求得线性回归的参数b₀和b₁(和上面出现的参数值并不相同，只是表述相同)，具体公式如此：

\begin{matrix} b_{1} = \frac{Σ_{v &Element; U} r_{v, s_{i}} \cdot r_{v, s_{j}} - | U | \cdot {\overset{&OverBar;}{r}}_{v, s_{i}} \cdot {\overset{&OverBar;}{r}}_{v, s_{j}}}{Σ_{v &Element; U} r_{v, s_{j}}^{2} - | U | \cdot {\overset{&OverBar;}{r}}_{v, s_{j}}^{2}} \\ b_{0} = {\overset{&OverBar;}{r}}_{v, s_{i}} - b_{1} \cdot {\overset{&OverBar;}{r}}_{v, s_{j}} \end{matrix}

参数b₀和b₁是线性回归方程的两个参数，使用参数b₀和b₁可以得到用户v请求服务s_i的QoS粗略的预测值具体公式如下：

R p (r_{u, s_{i}}) = b_{1} \cdot r_{u, s_{j}} + b_{0}

使用粗略预测值判断最佳值，具体公式如下：

\{\begin{matrix} {pre}_{s_{j}} (r_{u, s_{i}}) = x_{1}, i f | x_{1} - R p (r_{u, s_{i}}) | < | x_{2} - R p (r_{u, s_{i}}) | \\ {pre}_{s_{j}} (r_{u, s_{i}}) = x_{2}, e l s e \end{matrix}

是通过s_j求得的用户u请求服务i的预测值，这里x₁和x₂是上面含有x的方程的两个根，两个解中距离粗略预测值更近的值视为用户u请求服务s_i的预测值。

在方程的两个根中更接近于粗略预测值的根为最佳根。在本发明中，为了提高预测的精确度使用了KI个相似度较高的服务去预测QoS值，然后再给予每个预测值的不同的权重得到预测值，加权的公式如下：

c o n (s_{j}) = \frac{s i m (s_{i}, s_{j})}{Σ_{s_{j} &Element; K I} s i m (s_{i}, s_{j})}

其中，是最终预测值，con(s_j)是每一个预测值的权值。

步骤5、基于item和基于user预测值的加权融合

在本发明中真异常值的判断和处理模块、QoS相似度的挖掘模块、QoS值的预测模块中分别使用了基于item和基于user的计算方法，在三个模块中仅仅介绍了基于item的计算方法，最后需要将基于item和基于user的QoS预测结果进行加权融合。在本发明中无论是基于item的QoS预测还是基于user的QoS预测中都使用了K个相似度较高的用户(服务)进行预测。在加权融合的过程中使用了ms(Max Similarity最大相似度)、as(AverageSimilarity平均相似度)、rsd(Reciprocal of Standard Deviation相似的标准差的倒数)三个参数进行加权，具体公式如下：

\begin{matrix} Q ({pre}_{u s e r}) = \frac{m s ({pre}_{u s e r})}{m s ({pre}_{u s e r}) + m s ({pre}_{i t e m})} + \frac{a s ({pre}_{u s e r})}{a s ({pre}_{u s e r}) + a s ({pre}_{i t e m})} \\ + \frac{r s d ({pre}_{u s e r})}{r s d ({pre}_{u s e r}) + r s d ({pre}_{i t e m})} \end{matrix}

\begin{matrix} Q ({pre}_{i t e m}) = \frac{m s ({pre}_{i t e m})}{m s ({pre}_{u s e r}) + m s ({pre}_{i t e m})} + \frac{a s ({pre}_{i t e m})}{a s ({pre}_{u s e r}) + a s ({pre}_{i t e m})} \\ + \frac{r s d ({pre}_{i t e m})}{r s d ({pre}_{u s e r}) + r s d ({pre}_{i t e m})} \end{matrix}

其中，ms(pre_user)、as(pre_user)和rsd(pre_user)分别代表的是在KU个相似度较高的用户中最大相似度值、相似度的平均值和相似度标准差的倒数；ms(pre_item)、as(pre_item)、rsd(pre_item)分别代表在KI个相似度服务中最大相似度值、相似度的平均值和相似度标准差的倒数。加权融合的公式。

p r e = \frac{{pre}_{u s e r} \times Q ({pre}_{u s e r}) + {pre}_{i t e m} \times Q ({pre}_{i t e m})}{Q ({pre}_{i t e m}) + Q ({pre}_{i t e m})}

这里pre就是最后的预测值。

步骤6、预测结果评估

对服务推荐预测结果的评估方法主要有两种。一种是通过precision(准确率)/recall(召回率)的方法来评估，这主要应用于给用户一次推荐多个服务的算法；另一种是通过通常所说的MAE(平均绝对误差)来评估，MAE的值越小，说明预测的误差越小，即推荐系统预测得越准，这种方法主要应用于给出QoS预测值的算法。由于本发明的预测结果是以QoS的形式给出的，所以采用MAE值进行预测结果的评估。

平均绝对误差的公式

M A E = \frac{Σ_{u, s} | Q_{u, s} - {\hat{Q}}_{u, s} |}{N}

其中，Q_u,s代表用户u对服务s总体QoS值的实际值，代表用户u对服务s总体QoS值的预测值，N代表预测值的总个数。MAE的值越小，说明预测的误差越小，即推荐系统预测得越准。

以及

基于异常值剔除的情境感知Web服务推荐系统，用于运行本发明技术方案中的基于异常值剔除的情境感知Web服务推荐方法。

如图4所示，是本发明运行基于剔除真异常数据建模的情境感知Web服务推荐方法的模块示意图。

在本实施例中，数据集采用香港中文大学服务计算实验室开发的WS-Dream数据集。该数据集是目前Web服务推荐最权威的数据集之一，该数据集包含了339个用户调用5825个服务的响应时间和吞吐量的QoS值。

本实施例是使用MATLAB(2015a版本)来实现的。选择MATLAB的好处是，该软件中包含有许多作图的功能，为实验结果的可视化提供了便利。上述软件所运行的环境是操作系统是64位的Windows 7华硕，其CPU是3.6GHz Intel Core I7，内存32G。

1)本发明技术方案还包括数据集的预处理。主要包括数据集的训练集和测试集的划分、相似服务(用户)K值的设定。

数据集要划分为训练集和测试集，训练集主要用来训练得出预测的结果，然后和测试集中的结果进行比较，得出预测误差。

2)与本发明实施结果的进行比较的参考算法

UPCC：UPCC算法利用用户的user-item评分矩阵，寻找与当前用户兴趣相似的用户的历史调用记录进行预测。用户之间的相似度利用皮尔森相关系数方程来计算。

IPCC：IPCC算法利用item-user评分矩阵寻找用户曾经喜欢的items的相似items推荐给用户，item之间的相似度也是通过皮尔森相关系数方程来计算。

HAPA：HAPA算法是利用用户(服务)的相似度进行服务推荐，该方法包括基于用户的HAPA和基于服务的HAPA算法。

ADE：ADE方法是基于相似度的服务推荐算法，在计算相似度之前将剔除所有可能的异常值。该算法与CASR-TADE的不同之处是剔除所有可能异常值。

CASR-TE：CASR-TE算法基于时间效应建模的情境感知Web服务推荐方法

本发明的具体实验结果如图5至图8所示。

图6具体为在14:1的比例下6种方法在不同K值情况下的MAE值

图7具体为在14:1的比例下基于user、基于item和加权后的CARS-TADE不同n值情况下的MAE值

图8具体为6种方法在训练集和测试集不同的比例下的MAE值。

在图5中，可以发现随着K值的增大，所有的MAE值都在增长，但是本发明得到的MAE值一直小于其他算法得到的MAE值；在附图6中，可以发现在基于item的算法、基于user算法以及融合两种方法情况下，本发明优于HAPA算法；在附图7中，展示了在不同的n值下基于item的CARS-TADE、基于user的CARS-TADE及两者融合CARS-TE算法得到的MAE值，可以发现随着n的增大，MAE值先减小后增大，说明当n过小时，一些正常的值会被判定为真异常值，从而影响了预测的精确度；在附图8中，可以发现在训练集和测试集比例不同的情况下，本发明得到的MAE值小于其他方法得到的MAE值。通过以上实验结果的分析(图5、图6、图7和图8)可以得出，本发明的CASR-TADE算法具有更小的实验误差，比其它参考算法好。其中图6中，每个数据组中的数据柱从左至右依次为：User-HAPA、User-CASR-TADE、Item-HAPA、Item-CASR-TADE、HAPA和CASR-TADE。

本发明技术方案分为情境相似度的挖掘模块、真异常值的判断和剔除模块(真异常值的判断和处理模块)、QoS相似度挖掘模块、QoS值的预测模块(未知的QoS值预测模块)、QoS值的预测和结果评估模块(基于item和user预测值的处理模块和预测结果评估模块)。目前并暂无其他完整的替代方案可以完成本发明，但是以下技术方案的替换在本发明的技术方案的保护范围内：

1)在本发明技术方案中最重要的模块是真异常值的区分和处理模块，该模块暂无其它同样能完成发明目的替代方案。

2)情境相似度的挖掘模块是基于欧几里德距离的数学聚类算法，目前流行的聚类算法比较多，但是欧几里德距离在情境感知中得到广泛的应用；

3)未知QoS值的预测模块可以使用其他预测方法替代，例如IPCC、UPCC和UIPCC等协同过滤算法。

4)基于item和user那个预测值的处理模块的加权方法，可以采用普通的加权方法。预测结果的评估算法模块的评估方法可以使用准确度/召回率代替。

缩略语和关键术语说明：

CARS(Context-aware Recommender System，情境感知推荐系统)：是一种特殊的推荐系统，即一方面为用户推荐那些与他们信息需求相似的产品和服务，另一方面根据情境信息为用户做出个性化的推荐。

Web服务(Web服务)：是一个应用程序，它能够向外界提供一个通过网络进行调用的应用程序接口(API)。

QoS(Quality of Service，服务质量)：是服务质量的一个体现，当用户通过网络调用服务时，会表现出一些反映服务质量的特性，如调用是否成功、响应时间、吞吐率等，这些特性统称为QoS。

HAPA(Highly Accurate Prediction Algorithm，高准确的预测方法)：是web服务的一种推荐方法，使用用户的历史数据为用户推荐相似的产品和服务，性能优越于传统的协同过滤方法。

Item：item是指推荐系统中用户请求的商品或者项目，在这里主要是指Web服务。

User：user是指在推荐系统中请求商品(或项目)的用户，这里主要指请求Web服务的用户。

综上所述，本发明还具有以下有益效果：

1、本发明在是基于情境感知的服务推荐系统，不仅结合了用户的情境信息，而且结合服务的情境信息，结合适当的情境为用户推荐合适的服务。2、本发明在情境感知Web服务推荐系统中，并对用户-商品数据的潜在因素分析并建立数学模型判断和处理真异常值。3、本发明真异常的判断和剔除模块QoS值预测模块以及基于item和基于user的预测的加权方法有效融合，提高了QoS值预测的精确度。4、该方法实现简单，不需要使用其他辅助模块。从实验结果可以发现，本发明(CARS-TADE)的实验结果的MAE误差均小于所有对比算法的实验结果，充分的说明了本发明有效的减小情境感知Web推荐系统中潜在的因素导致的真异常值在计算QoS相似度中的影响，故可以有效提高情境感知的Web服务推荐的准确率，改善服务推荐效果。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于异常值剔除的情境感知Web服务推荐方法，其特征在于，包括，

步骤6、对上述预测结果进行评估。

2.根据权利要求1所述的基于异常值剔除的情境感知Web服务推荐方法，其特征在于，所述步骤2中真异常值的判断和剔除具体包括：

\{\begin{matrix} b_{1} = \frac{Σ_{v &Element; U} r_{v, s_{i}} \cdot r_{v, s_{j}} - | U | \cdot {\overset{&OverBar;}{r}}_{s_{i}} \cdot {\overset{&OverBar;}{r}}_{s_{j}}}{Σ_{v &Element; U} r_{v, s_{j}}^{2} - | U | \cdot {\overset{&OverBar;}{r}}_{s_{j}}^{2}} \\ b_{0} = {\overset{&OverBar;}{r}}_{s_{i}} - b_{1} \cdot {\overset{&OverBar;}{r}}_{s_{j}} \end{matrix}

其中，b₀和b₁是服务s_i和服务s_j的线性回归方程的两个参数，和分别代表用户v请求服务s_i和服务s_j获得QoS值，和分别代表同时请求服务s_i和服务s_j所有用户的平均值，U是同时请求服务s_i和服务s_j的且得到的QoS值不含有真异常值的用户的集合；

Rp (r_{v, s_{i}}) = b_{1} \cdot r_{v, s_{j}} + b_{0}

S = \sqrt{\frac{Σ_{v &Element; U} {(r_{v, s_{i} -} b_{1} \cdot r_{v, s_{j}} - b_{0})}^{2}}{| U | - 2}}

步骤204、回到步骤201，直到所有的数据与其粗略预测值之差的绝对值都小于nS，n是一个常数。

3.根据权利要求2所述的基于异常值剔除的情境感知Web服务推荐方法，其特征在于，所述步骤3具体为：

s i m (s_{i}, s_{j}) = \frac{Σ_{v &Element; U} (r_{v, s_{i}} - {\overset{&OverBar;}{r}}_{s_{i}}) (r_{v, s_{j}} - {\overset{&OverBar;}{r}}_{s_{j}})}{\sqrt{Σ_{v &Element; U} {(r_{v, s_{i}} - {\overset{&OverBar;}{r}}_{s_{i}})}^{2}} \sqrt{Σ_{v &Element; U} {(r_{v, s_{j}} - {\overset{&OverBar;}{r}}_{s_{j}})}^{2}}}

其中，sim(s_i,s_j)代表服务s_i和服务s_j的相似度。

4.根据权利要求3所述的基于异常值剔除的情境感知Web服务推荐方法，其特征在于，所述步骤4包括：

步骤401、假设有两个具有较高相似度的服务s_i和服务s_j，同时被已经去除异常值的用户集U请求，服务s_i和服务s_j的相似度在上述步骤3中求得，即sim(s_i,s_j)，当一个新的用户u已经请求服务s_j并得到一个QoS值，假设用户u也会请求服务s_i，但是QoS值是未知设为未知数x，并且重新计算服务s_i和服务s_j的相似度：

{sim}^{'} (s_{i}, s_{j}) = \frac{Σ_{v &Element; U^{'}} (r_{v, s_{i}} - {\overset{&OverBar;}{r^{'}}}_{s_{i}}) (r_{v, s_{j}} - {\overset{&OverBar;}{r^{'}}}_{s_{j}})}{\sqrt{Σ_{v &Element; U^{'}} {(r_{v, s_{i}} - {\overset{&OverBar;}{r^{'}}}_{s_{i}})}^{2}} \sqrt{Σ_{v &Element; U^{'}} {(r_{v, s_{j}} - {\overset{&OverBar;}{r^{'}}}_{s_{j}})}^{2}}}

这里和分别代表的是用户集U′所有用户请求服务s_i和服务s_j的平均QoS值；

步骤402、假设两个QoS相似度较高的服务对，在加入新记录的时候相似度的变化范围较小，忽略不计，于是：

sim(s_i,s_j)≈sim′(s_i,s_j)

\frac{a \cdot x + b}{c \sqrt{d \cdot x^{2} + e \cdot x + f}} = s i m (s_{i}, s_{j})

\begin{matrix} b_{1} = \frac{Σ_{v &Element; U} r_{v, s_{i}} \cdot r_{v, s_{j}} - | U | \cdot {\overset{&OverBar;}{r}}_{v, s_{i}} \cdot {\overset{&OverBar;}{r}}_{v, s_{j}}}{Σ_{v &Element; U} r_{v, s_{j}}^{2} - | U | \cdot {\overset{&OverBar;}{r}}_{v, s_{j}}^{2}} \\ b_{0} = {\overset{&OverBar;}{r}}_{v, s_{i}} - b_{1} \cdot {\overset{&OverBar;}{r}}_{v, s_{j}} \end{matrix}

步骤405、使用参数b₀和b₁得到用户u请求服务s_i的QoS粗略的预测值具体公式如下：

Rp (r_{v, s_{i}}) = b_{1} \cdot r_{v, s_{j}} + b_{0}

步骤406、使用粗略预测值判断最佳值，具体公式如下：

{pre}_{s_{j}} = (r_{u, s_{i}}) = x_{1}, if | x_{1} - Rp (r_{u, s_{i}}) | < | x_{2} - Rp (r_{u, s_{i}}) |

{pre}_{s_{j}} (r_{u, s_{i}}) = x_{2}, else

c o n (s_{j}) = \frac{s i m (s_{i}, s_{j})}{Σ_{s_{j} &Element; K I} s i m (s_{i}, s_{j})}

其中，是预测值，con(s_j)是每一个预测值的权值。

5.根据权利要求4所述的基于异常值剔除的情境感知Web服务推荐方法，其特征在于，所述步骤5具体为：

\begin{matrix} Q ({pre}_{u s e r}) = \frac{m s ({pre}_{u s e r})}{m s ({pre}_{u s e r}) + m s ({pre}_{i t e m})} + \frac{a s ({pre}_{u s e r})}{a s ({pre}_{u s e r}) + a s ({pre}_{i t e m})} \\ + \frac{r s d ({pre}_{u s e r})}{r s d ({pre}_{u s e r}) + r s d ({pre}_{i t e m})} \end{matrix}

\begin{matrix} Q ({pre}_{i t e m}) = \frac{m s ({pre}_{i t e m})}{m s ({pre}_{u s e r}) + m s ({pre}_{i t e m})} + \frac{a s ({pre}_{i t e m})}{a s ({pre}_{u s e r}) + a s ({pre}_{i t e m})} \\ + \frac{r s d ({pre}_{i t e m})}{r s d ({pre}_{u s e r}) + r s d ({pre}_{i t e m})} \end{matrix}

p r e = \frac{{pre}_{u s e r} \times Q ({pre}_{u s e r}) + {pre}_{i t e m} \times Q ({pre}_{i t e m})}{Q ({pre}_{i t e m}) + Q ({pre}_{i t e m})}

pre是最后的预测值。

6.根据权利要求5所述的基于异常值剔除的情境感知Web服务推荐方法，其特征在于，所述步骤6对预测结果进行评估，具体为：

采用MAE值进行预测结果的评估，

平均绝对误差的公式：

M A E = \frac{Σ_{u, s} | Q_{u, s} - {\hat{Q}}_{u, s} |}{N}

7.一种基于异常值剔除的情境感知Web服务推荐系统，其特征在于，具体包括：

以及

8.根据权利要求7所述的基于异常值剔除的情境感知Web服务推荐系统，其特征在于，运用权利要求2至6任一所述的方法。