CN109347691B

CN109347691B - 一种用于Web服务的数据采样方法、装置及设备

Info

Publication number: CN109347691B
Application number: CN201810865968.9A
Authority: CN
Inventors: 李俊; 林坚
Original assignee: Wenzhou University Cangnan Research Institute
Current assignee: Wenzhou University Cangnan Research Institute
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2020-09-01
Anticipated expiration: 2038-08-01
Also published as: CN109347691A

Abstract

本发明适用于服务推荐技术领域，提供了一种用于Web服务的数据采样方法、装置及设备，包括：获取Web服务数据和初始参数；根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重；基于所述Web服务数据和所述采样数据，计算评价参数的值，若所述评价参数的值不满足预设条件，则利用所述权重修正参数修正所述区间采样权重，直到得到满足所述预设条件的评价参数的值，并将所述满足所述预设条件的评价参数的值对应的采样数据确定为最终的采样数据。所述方法由于能够获取到高精度的采样数据，提高了Web服务推荐的精度。

Description

一种用于Web服务的数据采样方法、装置及设备

技术领域

本发明属于服务推荐技术领域，尤其涉及一种用于Web服务的数据采样方法、装置及设备。

背景技术

面向服务的架构(SOA，Service-Oriented Architecture)作为一种新型的分布式计算模型已经在电子商务，应用集成等领域扮演越来越重要的角色。SOA的核心思想是强调以服务为基本单位，发现并组合符合用户需求的一系列服务。然而随着SOA和Web服务的迅速发展，在网络上可用的Web服务数量急剧增加，因此基于web服务的推荐机制成为目前学术界和工业界共同关注的重大问题。web服务推荐机制主要考虑两个方面，一个是服务功能，另一个是服务质量。

目前，基于服务质量的推荐面临数据稀疏的问题。由于数据测量不精确，数据随机性，环境复杂等因素引起的不确定性问题导致web服务推荐算法精度不够高。

发明内容

有鉴于此，本发明实施例提供了一种用于Web服务的数据采样方法、装置及设备，以解决现有技术中的Web服务推荐算法推荐精度低的问题。

本发明实施例的第一方面提供了一种用于Web服务的数据采样方法，包括：

获取Web服务数据和初始参数，所述初始参数包括采样区间个数、每个采样区间内的初始采样权重和权重修正参数；所述采样区间个数用于将所述Web服务数据划分为多个采样区间，每个所述初始采样权重反映在对应采样区间内采样的概率；

根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重；

基于所述Web服务数据和所述采样数据，计算评价参数的值，若所述评价参数的值不满足预设条件，则利用所述权重修正参数修正所述区间采样权重，并将经过修正的区间采样权重作为所述初始采样权重，返回执行所述根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重，直到得到满足所述预设条件的评价参数的值，并将所述满足所述预设条件的评价参数的值对应的采样数据确定为最终的采样数据。

本发明实施例的第二方面提供了一种用于Web服务的数据采样装置，包括：

获取模块，用于获取Web服务数据和初始参数，所述初始参数包括采样区间个数、每个采样区间内的初始采样权重和权重修正参数；所述采样区间个数用于将所述Web服务数据划分为多个采样区间，每个所述初始采样权重反映在对应采样区间内采样的概率；

采样模块，用于根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重；

修正模块，用于基于所述Web服务数据和所述采样数据，计算评价参数的值，若所述评价参数的值不满足预设条件，则利用所述权重修正参数修正所述区间采样权重，并将经过修正的区间采样权重作为所述初始采样权重，返回执行所述根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重，直到得到满足所述预设条件的评价参数的值，并将所述满足所述预设条件的评价参数的值对应的采样数据确定为最终的采样数据。

本发明实施例的第三方面提供了一种用于Web服务的数据采样设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上第一方面所述的方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上第一方面所述方法的步骤。

本发明实施例与现有技术相比存在的有益效果是：

本发明实施例提供了一种用于Web服务的数据采样方法、装置及设备，首先获取Web服务数据和初始参数；然后根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重；最后基于所述Web服务数据和所述采样数据，计算评价参数的值，若所述评价参数的值不满足预设条件，则利用所述权重修正参数修正所述区间采样权重，直到得到满足所述预设条件的评价参数的值，并将所述满足所述预设条件的评价参数的值对应的采样数据确定为最终的采样数据。上述数据采样方式，由于采用了评价参数对采样数据进行评价，且该评价是基于原始的Web服务数据和采样数据进行的，最后通过不断的修正，得到和原始的Web服务数据具有某些相同特性的采样数据，此时，再利用最终确定的参数模型去采样数据，得到的数据将更为精确，从而提高Web服务推荐算法的精度，进一步的，由于抽样算法采用的是重要性采样算法，该算法能够基于数据的分布情况设置概率密度函数，并进行采样，使得采样数据的精确度再次提高，从而进一步的提高了Web服务推荐算法的精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例一提供的用于Web服务的数据采样方法的实现流程示意图；

图2示出了本发明实施例一提供的子区间的示意图；

图3示出了本发明实施例一提供的均匀分布采样的示意图；

图4是本发明实施例一提供的非均匀分布函数的示意图；

图5示出了本发明实施例一提供的非均匀分布采样的示意图；

图6示出了本发明实施例一提供的步骤S102的实现流程示意图；

图7示出了本发明实施例二提供的用于Web服务的数据采样装置的组成示意图；

图8示出了本发明实施例三提供的用于Web服务的数据采样设备的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解的是，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

图1示出了本发明实施例提供的用于Web服务的数据采样方法的实现流程。详述如下：

S101、获取Web服务数据和初始参数，所述初始参数包括采样区间个数、每个采样区间内的初始采样权重和权重修正参数；所述采样区间个数用于将所述Web服务数据划分为多个采样区间，每个所述初始采样权重反映在对应采样区间内采样的概率。

所述Web服务数据，可以包括但不限于服务响应时间和网络吞吐量。

例如，若Web服务数据是服务响应时间，则基于时间进行子区间的划分，假设原始的Web服务数据的服务响应时间是0～20秒，那么将该Web服务数据划分为5个子区间，分别是：0秒～2秒、2秒～6秒、6秒～12秒，12秒～18秒，18秒～20秒。

例如，若Web服务数据是服务吞吐量，则基于吞吐带宽进行子区间的划分，假设原始的Web服务数据的吞吐量是0～1000kbps，那么将该Web服务数据划分为5个子区间，分别是：0kbps～100kbps、100kbps～300kbps、300kbps～700kbps，700kbps～900kbps，900kbps～1000kbps。所述采样区间个数，指将原始的Web服务数据划分为多个区间的数据，如图2所示，每个区间包含一定数量的Web服务数据。

所述采样权重，反映在对应采样区间内采样的概率，即每个采样区间对应一个采样权重。

所述权重修正参数，用于在评价参数的值不满足预设条件时，对区间采样权重进行修正，以再根据修正的采样权重得到新的采样数据，直到得到满足预设条件的评价参数的值，将此时的采样数据确定为最终的采样数据。

在本发明实施例中，每个采样区间的采样权重，均是指代在对应采样区间采样的概率。

S102、根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重。

所述重要性采样算法，是蒙特卡洛积分中的一种采样策略。

具体地，对于一个在区间[a，b]上的函数f(x)做积分

当f(x)不解析时，无法直接积分。比如，当f(x)是一条不规则曲线时，求积分只能另寻方法。比如，均匀的在区间[a，b]采样N个点：x₁，x₂，…，x_n，分别求出f(x₁)，f(x₂)，…f(x_n)，然后加权累加，得到积分值，这样分别计算采样点函数值然后累加的方法叫做蒙特卡洛积分。如图3所示，蒙特卡洛积分的本质是由一系列相同宽度，不同高度的小矩阵面积和来近似曲线所围面积。

但是，很多时候，曲线的分布并不均匀，有的地方高，有的地方低，而高的地方对积分值贡献大，需要刻画精确，低的地方对积分值贡献小，不需要进行精确刻画，所以采用均匀采样就不太适合。例如图4所示，圆圈部分贡献较低，不需要进行精确刻画，而非圆圈部分则需要多采一些点，以进行精确刻画。重要性采样就是解决这个问题，采用如图5所示的概率分布函数进行采样，由于p(x)单调减，所以采样点的间隔将越来越大，其中，p(x)叫做重要性采样函数。于是可得重要性采样算法的公式如下：

其中，f(x)为样本的函数值，重要性采样函数p(x)反映函数f(x)的概率分布，E(f)为在这种分布下得到的期望。w(x)是采样方法在x采样点处的重要性权重，用于矫正采样分布，产生对于原分布的无偏分布。有的时候，由于无法直接计算数据的概率分布，此时，可以通过使用常用分布q(x)(如正态分布，均匀分布等)进行采样，最后得到的期望是对原分布的无偏估计。

在本发明实施例中，如图6所示，步骤S102所述根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重，包括：

S1021、根据每个所述初始采样权重，在对应采样区间进行采样，得到区间采样数据。

如图2所示，例如采样区间个数为5，则将Web服务数据的区间划分为5个子区间，每个子区间都包含一定数量的Web服务数据，将子区间的Web服务数据称为Web服务子数据。

在这里，就是利用重要性采样算法对Web服务子数据进行采样，得到区间采样数据，需要说明的是，所有的区间采样数据构成采样数据。如图2所示，子区间1包含2个区间采样数据，子区间2包含3个区间采样数据，子区间3包含4个区间采样数据，子区间4包含2个区间采样数据，子区间5包含3个区间采样数据，由此得到包含5个子区间数据的采样数据，即采样数据总共包含了14个数据。

S1022、分别基于每个所述区间采样数据和与所述区间采样数据对应的Web服务子数据，计算所述采样区间的区间采样密度。

在本发明实施例中，所述基于每个所述区间采样数据和与所述区间采样数据对应的Web服务子数据，计算所述采样区间的区间采样密度，包括：

区间S的区间采样密度＝区间S的采样数据个数/区间S的Web服务子数据的总个数。

例如，子区间1包含2个区间采样数据，而子区间1总共包含20个Web服务子数据，那么可以计算得到子区间1的区间采样密度＝0.1。

S1023、若有至少一个所述区间采样密度与标准采样密度的差异度超过预设值，则基于所述区间采样密度和所述标准采样密度，修正对应采样区间的初始采样权重，得到区间采样权重，将所述区间采样权重作为初始采样权重。

在本发明实施例中，区间采样密度与标准采样密度的差异度＝|区间采样密度-标准采样密度|。

例如，某一子区间的区间采样密度为0.094，标准采样密度为00.1，预设值为0.006，则该子区间的区间采样密度与标准采样密度的差异度为：|0.1-0.094|＝0.006，超过了预设值0.005，需要修正该子区间的初始采样权重。

在本发明实施例中，所述基于所述区间采样密度和所述标准采样密度，修正对应采样区间的初始采样权重，得到区间采样权重，包括：

计算

其中，w为所述初始采样权重，t为所述标准采样密度，t'为所述区间采样密度，k为一个大于1的数，w'为所述区间采样权重。

所述k可以根据实际需求进行设置，例如根据经验，将k设置为1.2。

由于基于标准采样密度对初始采样权重进行了修正，得到了经过修正的区间采样权重，使得最终得到的采样区间的采样密度和标准采样密度尽可能的相似，以使得采样数据的分布和原始Web服务数据的分布相似。

在经过修正得到区间采样权重之后，将该区间采样权重设置为初始采样权重，返回步骤S1022根据每个所述初始采样权重，在对应采样区间进行采样，得到区间采样数据继续执行，直到得到每个所述区间采样密度与标准采样密度的差异度均小于或等于预设值的采样数据，并确定在得到所述采样数据时每个所述采样区间的区间采样权重。

S1025、直到得到每个所述区间采样密度与标准采样密度的差异度均小于或等于预设值的采样数据，并确定在得到所述采样数据时每个所述采样区间的区间采样权重。

例如，若所有子区间的区间采样密度均为0.098，标准采样密度为0.1，预设值为0.005，则所有子区间的区间采样密度与标准采样密度的差异度为：|0.1-0.098|＝0.002，均小于预设值0.005，此时得到的区间采样数据即为最终的采样数据，确定并获取每个采样区间的区间采样权重。

S103、基于所述Web服务数据和所述采样数据，计算评价参数的值，若所述评价参数的值不满足预设条件，则利用所述权重修正参数修正所述区间采样权重，并将经过修正的区间采样权重作为所述初始采样权重。

所述评价参数，用于对原始的Web服务数据和采样得到的采样数据进行评价，以评估采样数据与原始的Web服务数据的相似程度。

在本发明实施例中，所述评价参数包括但不限于：相对熵、Wasserstein距离和有效数据比。

所述相对熵，又称KL散度(Kullback–Leibler divergence)，是描述两个概率分布差异的一种方法。相对熵可以衡量两个随机分布之间的距离，即当两个随机分布完全相同时，计算得到的相对熵为零，两个随机分布差别越大，计算得到的相对熵也会越大。具体的，相对熵可以按下式计算：

D(P||Q)＝∫P(x)log(P(x)/Q(x))d(x)，

其中，P(x)，Q(x)分别是两个分布在x点的概率密度。

所述Wasserstein距离，用于反映在给定度量空间上的两个概率分布之间的距离。具体的，Wasserstein距离可以按下式进行计算：

其中，∏(p,q)是p和q分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布γ，可以从中采样(x-y)～γ得到一个样本x和y，并计算出这对样本的距离||x-y||，所以可以计算该联合分布γ下，样本对距离的期望值：E_(x,y)～γ[||x-y||]。在所有可能的联合分布中能够对这个期望值取到的下界

就是Wasserstein距离。直观地，Wasserstein距离是测量将数据从分布P移动到分布Q所需的平均距离的最小值，例如，衡量一堆土壤从一个形状变换到另一个形状所需的最低工作量。可以理解的是，Wasserstein距离的值越小，说明两个概率分布越为相似，Wasserstein距离的值越大，说明两个概率分布差别越大。

所述有效数据比，基于所述Web服务数据、所述采样数据和所述标准采样密度，计算所述有效数据比。

所述标准采样密度，为预先设置的采样密度，基于所述标准采样密度，可以将原始的Web服务数据分为两个部分：训练数据和测试数据。所述训练数据，用于模拟真实环境中采样到的数据，以进行参数模型训练，所述测试数据，用于评估根据训练数据训练得到的参数模型的预测效果。例如，所述标准采样密度设置为15％。

在本发明实施例中，所述基于所述Web服务数据、所述采样数据和所述标准采样密度，计算所述有效数据比，包括：

有效数据比Rspl_tst＝R_spl/R_tst，其中，R_spl为采样数据密度，R_tst为测试数据密度，且所述采样数据密度R_spl＝采样数据个数/(Web服务数据个数×标准采样密度)；所述测试数据密度R_tst＝测试数据个数/(Web服务数据个数-Web服务数据个数×标准采样密度)。

在本发明实施例中，那么若评价参数的值小于某一预置值，则认为评价参数的值满足预设条件，此时，将评价参数的值确定为目标值，并将该目标值对应的采样数据确定为目标采样数据；相反，若评价参数的值大于或等于该预置值，则认为评价参数的值不满足预设条件，需要利用权重修正参数修正区间采样权重，将修正的区间采样权重作为初始采样权重，并返回步骤S102“根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重”继续执行，直到得到满足所述预设条件的评价参数的值，并将所述满足所述预设条件的评价参数的值对应的采样数据确定为最终的采样数据。

在本发明实施例中，所述利用所述权重修正参数修正所述区间采样权重，包括：

计算w”＝w'×y，其中，w'为所述区间采样权重，w”为经过修正的区间采样权重，y为一个大于1的数。

在本发明实施中，y可以根据经验进行设置，例如，将y设置为2.1。

在评价参数的值不满足预设条件的时候，利用上式对各个子区间的区间采样权重进行统一修正。

S104、直到得到满足所述预设条件的评价参数的值，并将所述满足所述预设条件的评价参数的值对应的采样数据确定为最终的采样数据。

上述方案，首先获取Web服务数据和初始参数；然后根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重；最后基于所述Web服务数据和所述采样数据，计算评价参数的值，若所述评价参数的值不满足预设条件，则利用所述权重修正参数修正所述区间采样权重，直到得到满足所述预设条件的评价参数的值，并将所述满足所述预设条件的评价参数的值对应的采样数据确定为最终的采样数据。上述数据采样方式，由于采用了评价参数对采样数据进行评价，且该评价是基于原始的Web服务数据和采样数据进行的，最后通过不断的修正，得到和原始的Web服务数据具有某些相同特性的采样数据，此时，再利用最终确定的参数模型去采样数据，得到的数据将更为精确，从而提高Web服务推荐算法的精度，进一步的，由于抽样算法采用的是重要性采样算法，该算法能够基于数据的分布情况设置概率密度函数，并进行采样，使得采样数据的精确度再次提高，从而进一步的提高了Web服务推荐算法的精度。

在本发明实施例中，还将本发明实施例所述的数据采样方法与其他几个采样算法的效果进行了比较。表1是网络吞吐量数据的比较结果，表2是服务响应时间的比较结果。

表1

表2

上述表中，density为标准采样密度，R_spl_tst为有效数据比，kl_h是相对熵，wd_h是Wasserstein距离，U-RS、S-RS是基于简单随机抽样(Simple RandomSample，SRS)算法的，在用户维度和服务维度上采用均匀分布采样思想的采样方法，D-RS同样是基于SRS采样的，但是利用了服务端域名信息来对服务进行分层，进而在分好的层次中采用均匀分布的思想进行采样，B-IS是重要性采样算法，E-IS是本发明实施例所述的方法。

综合表1和表2，本发明实施例所述的数据采样方法采样得到的采样数据更加接近原始的Web服务数据。

进一步的，为了验证本发明实施例所述的数据采样方法采样得到的采样数据的预测效果，使用平均绝对误差MAE和标准绝对值平均误差NMAE对不同采样算法得到的采样模型的预测效果进行评价，如表3所示(采用的推荐算法为：用户服务混合型协同过滤推荐算法)。

表3

从表3可以看出，不管标准采样密度的值为多少，得到的MAE和NMAE均为最小，因此，使用本发明实施例所述的数据采样方法采样得到的数据具有更有的预测效果，推荐的Web服务的精度更高。

实施例二

图7示出了本发明实施例提供的用于Web服务的数据采样装置100，详述如下：

获取模块110，用于获取Web服务数据和初始参数，所述初始参数包括采样区间个数、每个采样区间内的初始采样权重和权重修正参数；所述采样区间个数用于将所述Web服务数据划分为多个采样区间，每个所述初始采样权重反映在对应采样区间内采样的概率；

采样模块120，用于根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重；

修正模块130，用于基于所述Web服务数据和所述采样数据，计算评价参数的值，若所述评价参数的值不满足预设条件，则利用所述权重修正参数修正所述区间采样权重，并将经过修正的区间采样权重作为所述初始采样权重，返回执行所述根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重，直到得到满足所述预设条件的评价参数的值，并将所述满足所述预设条件的评价参数的值对应的采样数据确定为最终的采样数据。

上述装置，首先获取Web服务数据和初始参数；然后根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重；最后基于所述Web服务数据和所述采样数据，计算评价参数的值，若所述评价参数的值不满足预设条件，则利用所述权重修正参数修正所述区间采样权重，直到得到满足所述预设条件的评价参数的值，并将所述满足所述预设条件的评价参数的值对应的采样数据确定为最终的采样数据。上述数据采样方式，由于采用了评价参数对采样数据进行评价，且该评价是基于原始的Web服务数据和采样数据进行的，最后通过不断的修正，得到和原始的Web服务数据具有某些相同特性的采样数据，此时，再利用最终确定的参数模型去采样数据，得到的数据将更为精确，从而提高Web服务推荐算法的精度，进一步的，由于抽样算法采用的是重要性采样算法，该算法能够基于数据的分布情况设置概率密度函数，并进行采样，使得采样数据的精确度再次提高，从而进一步的提高了Web服务推荐算法的精度。

在本发明实施例中，所述采样模块120，包括：

采样子模块，用于根据每个所述初始采样权重，在对应采样区间进行采样，得到区间采样数据；

密度子模块，用于分别基于每个所述区间采样数据和与所述区间采样数据对应的Web服务子数据，计算所述采样区间的区间采样密度；

修正子模块，用于若有至少一个所述区间采样密度与标准采样密度的差异度超过预设值，则基于所述区间采样密度和所述标准采样密度，修正对应采样区间的初始采样权重，得到区间采样权重，将所述区间采样权重作为初始采样权重，返回执行根据每个所述初始采样权重，在对应采样区间进行采样，得到区间采样数据，直到得到每个所述区间采样密度与标准采样密度的差异度均小于或等于预设值的采样数据，并确定在得到所述采样数据时每个所述采样区间的区间采样权重。

在本发明实施例中，所述修正子模块，包括：

初始采样权重修正模块，用于计算

在本发明实施例中，所述修正子模块，还包括：

有效数据比子模块，用于基于所述Web服务数据、所述采样数据和所述标准采样密度，计算所述有效数据比。

在本发明实施例中，所述修正模块，包括：

区间采样权重修正子模块，用于计算w”＝w'×y，其中，w'为所述区间采样权重，w”为经过修正的区间采样权重，y为一个大于1的数。

需要说明的是，本发明实施例二提出的用于Web服务的数据采样装置与本发明方法实施例提出的用于Web服务的数据采样方法基于相同的发明构思，设备实施例与方法实施例中的相应技术内容可互相适用，此处不再详述。

实施例三

图8是本发明再一实施例提供的一种用于Web服务的数据采样设备200的示意图。如图5所示的本实施例中的用于Web服务的数据采集设备200可以包括：处理器210、存储器220以及存储在存储器220中并可在处理器210上运行的计算机程序230。处理器210执行计算机程序230时实现上述用于Web服务的数据采样方法实施例中的步骤。存储器220用于存储计算机程序，所述计算机程序包括程序指令。处理器210用于执行存储器220存储的程序指令。其中，处理器210被配置用于调用所述程序指令执行以下操作：

处理器210用于获取Web服务数据和初始参数，所述初始参数包括采样区间个数、每个采样区间内的初始采样权重和权重修正参数；所述采样区间个数用于将所述Web服务数据划分为多个采样区间，每个所述初始采样权重反映在对应采样区间内采样的概率；

处理器210还用于根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重；

处理器210还用于基于所述Web服务数据和所述采样数据，计算评价参数的值，若所述评价参数的值不满足预设条件，则利用所述权重修正参数修正所述区间采样权重，并将经过修正的区间采样权重作为所述初始采样权重，返回执行所述根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重，直到得到满足所述预设条件的评价参数的值，并将所述满足所述预设条件的评价参数的值对应的采样数据确定为最终的采样数据。

上述设备，首先获取Web服务数据和初始参数；然后根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重；最后基于所述Web服务数据和所述采样数据，计算评价参数的值，若所述评价参数的值不满足预设条件，则利用所述权重修正参数修正所述区间采样权重，直到得到满足所述预设条件的评价参数的值，并将所述满足所述预设条件的评价参数的值对应的采样数据确定为最终的采样数据。上述数据采样方式，由于采用了评价参数对采样数据进行评价，且该评价是基于原始的Web服务数据和采样数据进行的，最后通过不断的修正，得到和原始的Web服务数据具有某些相同特性的采样数据，此时，再利用最终确定的参数模型去采样数据，得到的数据将更为精确，从而提高Web服务推荐算法的精度，进一步的，由于抽样算法采用的是重要性采样算法，该算法能够基于数据的分布情况设置概率密度函数，并进行采样，使得采样数据的精确度再次提高，从而进一步的提高了Web服务推荐算法的精度。

进一步的，处理器210还用于：

根据每个所述初始采样权重，在对应采样区间进行采样，得到区间采样数据；

分别基于每个所述区间采样数据和与所述区间采样数据对应的Web服务子数据，计算所述采样区间的区间采样密度；

若有至少一个所述区间采样密度与标准采样密度的差异度超过预设值，则基于所述区间采样密度和所述标准采样密度，修正对应采样区间的初始采样权重，得到区间采样权重，将所述区间采样权重作为初始采样权重，返回执行根据每个所述初始采样权重，在对应采样区间进行采样，得到区间采样数据，直到得到每个所述区间采样密度与标准采样密度的差异度均小于或等于预设值的采样数据，并确定在得到所述采样数据时每个所述采样区间的区间采样权重。

进一步的，处理器210还用于：

计算

进一步的，处理器210还用于：

基于所述Web服务数据、所述采样数据和所述标准采样密度，计算所述有效数据比。

进一步的，处理器210还用于：

应当理解，在本发明实施例中，所称处理器210可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器210还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器220可以包括只读存储器和随机存取存储器，并向处理器210提供指令和数据。存储器220的一部分还可以包括非易失性随机存取存储器。例如，存储器220还可以存储设备类型的信息。

需要说明的是，本发明实施例三提出的用于Web服务的数据采样设备与本发明方法实施例提出的用于Web服务的数据采样方法基于相同的发明构思，设备实施例与方法实施例中的相应技术内容可互相适用，此处不再详述。

实施例四

在本发明的另一实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现：

上述计算机可读存储介质，首先获取Web服务数据和初始参数；然后根据每个所述采样区间和每个所述初始采样权重，使用重要性采样算法对所述Web服务数据进行采样，得到采样数据和每个所述采样区间内的区间采样权重；最后基于所述Web服务数据和所述采样数据，计算评价参数的值，若所述评价参数的值不满足预设条件，则利用所述权重修正参数修正所述区间采样权重，直到得到满足所述预设条件的评价参数的值，并将所述满足所述预设条件的评价参数的值对应的采样数据确定为最终的采样数据。上述数据采样方式，由于采用了评价参数对采样数据进行评价，且该评价是基于原始的Web服务数据和采样数据进行的，最后通过不断的修正，得到和原始的Web服务数据具有某些相同特性的采样数据，此时，再利用最终确定的参数模型去采样数据，得到的数据将更为精确，从而提高Web服务推荐算法的精度，进一步的，由于抽样算法采用的是重要性采样算法，该算法能够基于数据的分布情况设置概率密度函数，并进行采样，使得采样数据的精确度再次提高，从而进一步的提高了Web服务推荐算法的精度。

进一步的，所述程序指令被处理器执行时还可以实现：

计算

进一步的，所述程序指令被处理器执行时还可以实现：

所述计算机可读存储介质可以是前述任一实施例所述的设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序及所述设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，本发明实施例四提出的计算机可读存储介质与本发明方法实施例提出的为用于Web服务的数据采样方法基于相同的发明构思，计算机可读存储介质实施例与方法实施例中的相应技术内容可互相适用，此处不再详述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、设备或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于Web服务的数据采样方法，其特征在于，包括：

若有至少一个所述区间采样密度与标准采样密度的差异度超过预设值，则基于所述区间采样密度和所述标准采样密度，修正对应采样区间的初始采样权重，得到区间采样权重，将所述区间采样权重作为初始采样权重，返回执行根据每个所述初始采样权重，在对应采样区间进行采样，得到区间采样数据，直到得到每个所述区间采样密度与标准采样密度的差异度均小于或等于预设值的采样数据，并确定在得到所述采样数据时每个所述采样区间的区间采样权重；

2.如权利要求1所述的数据采样方法，其特征在于，所述基于所述区间采样密度和所述标准采样密度，修正对应采样区间的初始采样权重，得到区间采样权重，包括：

计算

其中，w为所述初始采样权重，t为所述标准采样密度，t'为所述区间采样密度，k为一个大于1的实数，w'为所述区间采样权重。

3.如权利要求1或2任一项所述的数据采样方法，其特征在于，所述评价参数包括以下至少一项：相对熵、Wasserstein距离和有效数据比，基于所述Web服务数据、所述采样数据和所述标准采样密度，计算所述有效数据比。

4.如权利要求3所述的数据采样方法，其特征在于，所述利用所述权重修正参数修正所述区间采样权重，包括：

计算w”＝w'×y，其中，w'为所述区间采样权重，w”为经过修正的区间采样权重，y为一个大于1的实数。

5.一种用于Web服务的数据采样装置，其特征在于，包括：

采样模块，用于根据每个所述初始采样权重，在对应采样区间进行采样，得到区间采样数据；分别基于每个所述区间采样数据和与所述区间采样数据对应的Web服务子数据，计算所述采样区间的区间采样密度；若有至少一个所述区间采样密度与标准采样密度的差异度超过预设值，则基于所述区间采样密度和所述标准采样密度，修正对应采样区间的初始采样权重，得到区间采样权重，将所述区间采样权重作为初始采样权重，返回执行根据每个所述初始采样权重，在对应采样区间进行采样，得到区间采样数据，直到得到每个所述区间采样密度与标准采样密度的差异度均小于或等于预设值的采样数据，并确定在得到所述采样数据时每个所述采样区间的区间采样权重；

6.如权利要求5所述的数据采样装置，其特征在于，所述采样模块，包括：

初始采样权重修正模块，用于计算

7.一种用于Web服务的数据采样设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。