CN110232151A

CN110232151A - 一种混合概率分布检测的QoS预测模型的构建方法

Info

Publication number: CN110232151A
Application number: CN201910428747.XA
Authority: CN
Inventors: 李俊; 林坚
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-09-13
Anticipated expiration: 2039-05-22
Also published as: CN110232151B

Abstract

本发明提供一种混合概率分布检测的QoS预测模型的构建方法，包括获取原始QoS数据，构建离散化表示QoS数据概率分布的数学模型；基于传统的MF方法构建用户对服务的第一QoS预测模型；基于改进的CF方法构建用户对服务的第二QoS预测模型；其中，用户对服务的第二QoS预测模型包括采用传统方法、MF分解后的低维度用户潜因子矩阵以及KL散度各自构建的用户相似度计算模型；根据QoS数据概率分布的数学模型，确定预测结果概率置信度计算公式后计算出第一及第二QoS预测模型的概率置信度并结合各自QoS预测模型，得到最终QoS预测模型。实施本发明，基于现有的QoS预测方法基础上综合考虑原始数据的分布情况，自适应地融合多种现有预测模型的优势以提高服务的预测精度。

Description

一种混合概率分布检测的QoS预测模型的构建方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种混合概率分布检测的QoS预测模型的构建方法。

背景技术

SOA(Service-Oriented Architecture，面向服务的体系架构)作为一种新型的分布式计算模型已经在电子商务，应用集成等领域扮演越来越重要的角色。工业界中IBM、Oracle、微软等巨头纷纷发布自己的SOA战略，建议用户在进行企业IT建设时考虑S0A，学术界也成立多个服务计算技术委员会重点关注SOA研究。

SOA的核心思想是强调以服务为基本单位，发现并组合符合用户需求的一系列服务。然而随着SOA和Web服务的迅速发展，在网络上具有功能相似但非功能属性各异的Web服务数量急剧增加，因此基于web服务的推荐机制成为目前学术界和工业界共同关注的重大问题。

当前web服务推荐机制主要考虑两个方面，一个是服务功能，另一个是QoS(Quality of Service，服务质量)，比如服务的响应时间，数据吞吐量等。

目前，基于服务质量的推荐面临数据稀疏和“冷启动”的问题。由于预测模型的单一性，数据随机性，环境复杂等因素引起的不确定性问题导致web服务推荐算法精度不够高。因此，开发出一种有效地针对服务数据稀疏的问题并提高服务预测精度的推荐算法，成为目前学术界和工业界的研究和讨论的问题。

在现有技术中，基于相似度计算的协同过滤(CF，Collaborative filtering)方法和基于矩阵分解(MF，Matrix Factorization)的预测方法是目前解决稀疏数据中服务QoS预测问题的主要手段，有各自的特点和优势。

但是，上述两种方法的使用具有单一性，且构建的预测模型的预测能力都十分有限；另外，上述两种方法都没有考虑原始数据的分布情况对预测结果的影响，也导致了预测精度不够准确。

发明内容

本发明实施例所要解决的技术问题在于，提供一种混合概率分布检测的QoS预测模型的构建方法，基于现有的QoS预测方法基础上综合考虑原始数据的分布情况，自适应地融合多种现有预测模型的优势以提高服务的预测精度。

为了解决上述技术问题，本发明实施例提供了一种混合概率分布检测的QoS预测模型的构建方法，所述方法包括以下步骤：

步骤S1、获取原始QoS数据，并构建出离散化方式表示QoS数据概率分布的数学模型；

步骤S2、将所获取到的原始QoS数据基于传统的矩阵分解MF方法，构建出用户对服务的第一QoS预测模型；

步骤S3、将所获取到的原始QoS数据基于改进的相似度计算的协同过滤CF方法，构建出用户对服务的第二QoS预测模型；其中，所述用户对服务的第二QoS预测模型由多个用户相似度计算模型决定；所述多个用户相似度计算模型包括采用传统方法构建的用户相似度第一计算模型、采用MF分解后的低维度的用户潜因子矩阵构建的用户相似度第二计算模型以及采用KL散度构建的基于概率分布的用户相似度第三计算模型；

步骤S4、根据所构建出的离散化表示QoS数据概率分布的数学模型，确定预测结果概率置信度计算公式，并根据所确定的预测结果概率置信度计算公式，分别计算出所述用户对服务的第一QoS预测模型及所述用户对服务的第二QoS预测模型各自对应的概率置信度，且进一步将所述用户对服务的第一QoS预测模型及所述用户对服务的第二QoS预测模型分别与各自计算得到的概率置信度相结合，得到用户对服务的最终QoS预测模型，即为混合概率分布检测的QoS预测模型。

其中，所述步骤S1中的“离散化方式表示QoS数据概率分布的数学模型”为

其中，P_i(k)表示特定用户U_i产生的原始QoS数据Q_i在区间k内发生的概率，且P_i(k)≥0；Num(Q_i，k-1，k)表示Q_i在划分区间[k-1，k]内采样数据的个数；Num(Q_i，0，k)表示总体采样数据的个数；K为原始QoS数据被等分的区间总数。

其中，所述步骤S2具体包括：

首先，矩阵分解，定义分解过程中的损失函数如下式(1)所示：

其中，Q_ij为特定用户U_i对应服务j产生的原始QoS数据；||.||_F为矩阵的Frobenius范数；λ_U和λ_S均为正则项系数；U_i表示为用户潜因子矩阵中第i个向量，S_j表示为服务潜因子矩阵中第j个向量；

其次，通过式(2)-(5)的随机梯度下降算法，多次迭代分解出用户潜因子矩阵U和服务潜因子矩阵S；其中，

其中，通过和参数用于控制梯度下降的收敛速度；Loss为损失函数；为损失函数关于U_i的梯度，为损失函数关于S_j的梯度；t+1表示迭代次数，直到收敛得到第t+1次的计算结果；

最后，待确定出最终的用户潜因子矩阵U和服务潜因子矩阵S后，基于矩阵分解MF方法得到用户对服务的第一QoS预测模型为其中，为用户对服务的第一QoS预测模型中用户i对服务j的QoS预测结果。

其中，所述步骤S3具体包括：

利用传统方法公式构建的用户相似度第一计算模型，如下式(6)所示：

其中，s∈NES表示user_i和user_j之间共同调用的服务集合，q_is和q_js分别表示user_i和user_j用户对共同调用过的服务所产生的QoS值；当用户之间对共同调用的服务所产生的QoS越接近，则相似度越高，否则相似度越低，如用户之间没有共同调用过的项的时候，则相似度为0；

其次，采用MF分解后的低维度的用户潜因子矩阵构建的用户相似度第二计算模型，如下式(7)所示：

其中，Dim是用户潜因子矩阵U的特征维度；U_ik和U_jk分别表示user_i和user_j在隐含维度k上的值；

然后，采用KL散度构建的基于概率分布的用户相似度第三计算模型，如下式(8)所示：

其中，p_i(k)和q_j(k)表示位于第k个区间内样本发生的概率；若user_i和user_j的分布越接近，则也会越接近，使用户之间的概率分布相似度会越接近于1；

接着，设置用户相似度第一计算模型、用户相似度第二计算模型及用户相似度第三计算模型的权重均相等且三者相加之和为1，利用用户相似度第一计算模型、用户相似度第二计算模型及用户相似度第三计算模型及其各自的权重，得到最终的用户相似度计算模型，如下式(9)所示：

其中，Union_i是计算用户i与其它计算用户相似度方法的集合；ω_ik表示用户相似度第一计算模型、用户相似度第二计算模型及用户相似度第三计算模型的权重；

最后，根据最终的用户相似度计算模型，构建出用户对服务的第二QoS预测模型，如下式(10)所示：

其中，分别表示表示用户j和当前用户i的平均QoS值；Topk_i表示与当前用户i最相似的k个近邻用户；表示用户相似度第一计算模型、用户相似度第二计算模型及用户相似度第三计算模型，*依次代表NES、MFS及KLS；表示用户对服务的第二QoS预测模型中用户i对服务k的QoS预测结果。

其中，所述步骤S4具体包括：

首先，根据所构建出的离散化表示QoS数据概率分布的数学模型，确定预测结果概率置信度计算公式，如下式(11)所示：

其中，Q_i是训练集中用户i的特定原始QoS数据，Q_ik是Q_i的子集表示在第k个区间内的样本数据，||·||表示样本数据的数量；min(Q_i)和max(Q_i)分别表示Q_i中的最小值和最大值；

其次，根据所确定的预测结果概率置信度计算公式，分别计算出所述用户对服务的第一QoS预测模型的概率置信度及所述用户对服务的第二QoS预测模型的概率置信度其中，当获得预测结果后，根据上述公式(11)计算对应区间数k的值，进而计算的概率置信度当获得预测结果后，根据上述公式(11)计算对应区间数k的值，进而计算的概率置信度

最后，将所述用户对服务的第一QoS预测模型及所述用户对服务的第二QoS预测模型分别与各自计算得到的概率置信度相结合，得到用户对服务的最终QoS预测模型，即为混合概率分布检测的QoS预测模型，如下式(12)所示：

实施本发明实施例，具有如下有益效果：

1、本发明由于综合了多种潜在的数据信息来计算用户的相似度，使得在局部范围内的预测精度得到了显著的提高，同时可以基于原始QoS数据的概率分布动态混合具有不同特点的模型的预测结果，使得最终的推荐结果更加精确；

2、本发明由于引入矩阵分解的用户关系矩阵和数据分布的相似性，因此增强用户相似度在稀疏数据中的计算精度，还引入原始数据概率分布的离散化模型来计算不同预测模型预测结果的概率置信度以及引入动态融合参数混合不同模型的预测结果，故提高了预测模型的预测精度和鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例提供的混合概率分布检测的QoS预测模型的构建方法的流程图；

图2为本发明实施例提供的混合概率分布检测的QoS预测模型与其它扩展QoS预测模型在WS-DREAM数据集合中数据子集rt的效果对比图；

图3为本发明实施例提供的混合概率分布检测的QoS预测模型与其它扩展QoS预测模型在WS-DREAM数据集合中数据子集tp的效果对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明实施例中，提出的一种混合概率分布检测的QoS预测模型的构建方法，所述方法包括以下步骤：

具体过程为，对WS-DREAM数据集合中rt(response time)和tp(throughput)数据子集以及Jester数据集按照不同密度的进行随机采样，以模拟实际web服务推荐中收集服务质量数据来作为原始QoS数据。本技术方案适用各种低采样密度下推荐精度的提高，设置采样密度大致为(5％，10％，15％，20％)。

假设原始QoS数据的概率分布为p(x)，根据微积分的知识，可以将原始数据的作用域等分成K个足够小的区间，则随机变量x在每个小区间内发生的概率可认为是一定的。因此，原始QoS数据的概率分布离散化的表示为即得到离散化方式表示QoS数据概率分布的数学模型：

具体过程为，首先，矩阵分解，定义分解过程中的损失函数如下式(1)所示：

具体过程为，利用传统方法公式构建的用户相似度第一计算模型，如下式(6)所示：

其次，采用MF分解后的低维度的用户潜因子矩阵构建的用户相似度第二计算模型，该过程充分利用了数据的潜在信息来帮助数据稀疏情况下的用户相似度计算，如下式(7)所示：

然后，采用KL(Kullback-Leibler)散度构建的基于概率分布的用户相似度第三计算模型，该过程充分利用了原始数据的概率分布信息来帮助数据稀疏情况下的用户相似度计算，如下式(8)所示：

其中，分别表示表示用户j和当前用户i的平均QoS值；Topk_i表示与当前用户i最相似的k个近邻用户；表示用户相似度第一计算模型、用户相似度第二计算模型及用户相似度第三计算模型，*依次代表NES、MFS及KLS；表示用户对服务的第二QoS预测模型中用户i对服务k的QoS预测结果，即基于改进的相似度计算的协同过滤CF方法得到用户i对服务k的QoS预测结果。

具体过程为，融合不同模型的预测结果。首先，根据所构建出的离散化表示QoS数据概率分布的数学模型，确定预测结果概率置信度计算公式，如下式(11)所示：

其次，根据预测结果概率置信度计算公式，分别计算出用户对服务的第一QoS预测模型的概率置信度及用户对服务的第二QoS预测模型的概率置信度其中，当获得预测结果后，根据上述公式(11)计算对应区间数k的值，进而计算的概率置信度当获得预测结果后，根据上述公式(11)计算对应区间数k的值，进而计算的概率置信度

最后，将用户对服务的第一QoS预测模型及用户对服务的第二QoS预测模型分别与各自计算得到的概率置信度相结合，得到用户对服务的最终QoS预测模型，即为混合概率分布检测的QoS预测模型，如下式(12)所示：

应当说明的是，由于预测的结果的概率置信度在原始QoS数据分布的影响下能动态地调整，因此能自适应的混合其他模型的预测结果。这样一来，在实际应用中，便可以根据原始QoS数据的不同特性，应用不同的预测模型(即不局限于MF预测模型、CF预测模型、改进的CF预测模型等)，以提高预测的精度。混合模型的扩展式如下(13)所示：

其中，是第m个模型的预测值，并且是第m个模型的概率置信权重；M包含多种合适的模型包括基于近邻和基于模型的预测结果。

如图2所示，为本发明实施例提供的混合概率分布检测的QoS预测模型与其它扩展QoS预测模型在WS-DREAM数据集合中数据子集rt的效果对比图。从图2中可以看出，本发明实施例中的QoS预测模型DHEM-MFENN相对于扩展模型DHEM-MORE(动态融合了ENN，MFENN，MF和UPCC的预测结果)，在不同的采样密度下，本发明实施例中的QoS预测模型DHEM-MFENN的数据准确性有了更大的提高，特别是在采样密度为5％的情况下。MAE为0.4884和0.4644，低于0.5，优于当前主流的Web服务QoS预测模型。

如图3所示，为本发明实施例提供的混合概率分布检测的QoS预测模型与其它扩展QoS预测模型在WS-DREAM数据集合中数据子集tp的效果对比图。从图3中可以看出，本发明实施例中的QoS预测模型DHEM-MFENN相对于扩展模型DHEM-MORE(动态融合了ENN，MFENN，MF和UPCC的预测结果)，效果最佳，而融合了更多预测结果DHEM-MORE模型结果稍差，说明在不同的数据集上不同的模型性能表现不同，本发明实施例中的QoS预测模型可在基准上动态自适应的扩展以适应不同的情形。

实施本发明实施例，具有如下有益效果：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种混合概率分布检测的QoS预测模型的构建方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的混合概率分布检测的QoS预测模型的构建方法，其特征在于，所述步骤S1中的“离散化方式表示QoS数据概率分布的数学模型”为

3.如权利要求2所述的混合概率分布检测的QoS预测模型的构建方法，其特征在于，所述步骤S2具体包括：

4.如权利要求1所述的混合概率分布检测的QoS预测模型的构建方法，其特征在于，所述步骤S3具体包括：

5.如权利要求4所述的混合概率分布检测的QoS预测模型的构建方法，其特征在于，所述步骤S4具体包括：