CN104239019B

CN104239019B - 搜索请求生成方法和系统

Info

Publication number: CN104239019B
Application number: CN201310248207.6A
Authority: CN
Inventors: 贾禛; 王磊; 詹剑锋; 张立新
Original assignee: Huawei Technologies Co Ltd; Institute of Computing Technology of CAS
Current assignee: Huawei Technologies Co Ltd; Institute of Computing Technology of CAS
Priority date: 2013-06-21
Filing date: 2013-06-21
Publication date: 2017-11-03
Anticipated expiration: 2033-06-21
Also published as: CN104239019A

Abstract

本发明实施例涉及网络技术领域，公开了一种搜索请求生成方法和系统。其中，该方法包括：获取搜索请求的种子数据，所述种子数据的时间长度为第一时长；对所述种子数据进行分析，获取所述种子数据的负载特性；根据所述种子数据的负载特性生成时间长度为第二时长的搜索请求数据；所述第二时长大于第一时长。实施本发明实施例，其获得的搜索请求可以很好地反映请求数据的真实性，克服现有技术中使用固定的概率模型生成搜索请求所带来的缺陷。

Description

搜索请求生成方法和系统

技术领域

本发明涉及网络技术领域，具体涉及一种搜索请求生成方法和系统。

背景技术

搜索引擎性能的提高是各大搜索服务提供商和研究者所关注的焦点，其中搜索引擎性能的测试非常重要，这其中最基础的是如何生成测试用负载。

现有技术中，存在一些搜索引擎的负载产生器，例如：

Httperf是HP公司开发的一款著名的web（网络）服务器性能测试工具。Httperf能够灵活地产生各种类型的Web负载，并测试Web服务器的性能。在其中一种情况下，用户需要预先提供两个参数：一是保存了url（Uniform Resource Locator，统一资源定位符）列表的文件名；二是时间间隔模型和对应参数。Httperf将会根据时间间隔模型决定发出Http（Hyper Text Transmission Protocol，超文本传输协议）请求的时间，根据url列表决定发出Http请求的内容。Httperf也提供了日志重放(Replay)功能，并且有两种重放方式：一种方式是基于Request（请求）的重放，即对于指定的url访问记录文件，依次进行请求重放；另外一种是基于Session（同一用户在某一段时间内向搜索引擎提交的查询的集合）的重放，不仅能指定Session内的请求类型请求顺序，还可以指定Session内的Think Time（两个连续请求之间的间隔时间）。Httperf的重放方式中，Session或Request的启动可由用户指定，提供了3种时间间隔方式：1.固定时间间隔，即匀速重放。2.时间间隔满足泊松分布。3.时间间隔满足几何分布。

现有技术中的各种负载生成工具都是基于预先设定的各种概率模型进行虚拟生成，没有考虑搜索请求的时间局部性以及搜索请求的请求速率受时间的影响，在实际的搜索请求中，由于用户访问量在高峰时期较多，而在低谷时期（如凌晨）较少，高峰和低谷之间的平均速率可能相差巨大，采用固定的概率模型来生成搜索请求的方式，并不能很好的反映请求数据的真实性。

发明内容

本发明实施例所要解决的技术问题是提供一种搜索请求生成方法和系统，用于克服现有技术中使用固定的概率模型生成搜索请求所带来的缺陷。

本发明实施例提供一种搜索请求生成方法，包括：

获取搜索请求的种子数据，所述种子数据的时间长度为第一时长；

对所述种子数据进行分析，获取所述种子数据的负载特性；

根据所述种子数据的负载特性生成时间长度为第二时长的搜索请求数据；所述第二时长大于第一时长。

相应的，本发明实施例还提供一种搜索请求生成系统，包括：

获取模块，用于获取搜索请求的种子数据，所述种子数据的时间长度为第一时长；

分析模块，用于对所述种子数据进行分析，获取所述种子数据的负载特性；

生成模块，用于根据所述种子数据的负载特性生成时间长度为第二时长的搜索请求数据；所述第二时长大于第一时长。

本发明实施例中提供的搜索请求生成方法和系统，可在获取了一定时长的种子数据之后，对种子数据的负载特性进行分析，然后根据种子数据的负载特性来生成更大规模的搜索请求，获得的大规模搜索请求数据以真实的搜索请求数据为基础，可以很好地反映请求数据的真实性，克服现有技术中使用固定的概率模型生成搜索请求所带来的缺陷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是实施例一提供的搜索请求生成方法的流程第一示意图；

图2是实施例一提供的搜索请求生成方法的流程第二示意图；

图3是实施例二提供的搜索请求生成系统的结构第一示意图；

图4是实施例二提供的搜索请求生成系统的结构第二示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中提供了一种搜索请求生成方法和系统和设备，其核心思想是以真实的搜索请求数据为种子数据，根据种子数据的负载特性来生成更大规模的搜索请求。以下分别进行详细说明。

实施例一：

本发明提供一种搜索请求生成方法，如图1所示，包括：

A、获取搜索请求的种子数据，上述种子数据的时间长度为第一时长；

上述种子数据为真实的搜索请求数据，用户虽然可能难以获得大规模的搜索请求数据，但可能可以获得较小规模的搜索请求数据作为种子数据，例如时间长度为一天的种子数据（第一时长可以为一天）；

B、对上述种子数据进行分析，获取上述种子数据的负载特性；

C、根据上述种子数据的负载特性生成时间长度为第二时长的搜索请求数据；上述第二时长大于第一时长。

本实施例中提供的搜索请求生成方法，在获取了一定时长的种子数据之后，可以对种子数据的负载特性进行分析，然后根据种子数据的负载特性来生成更大规模的搜索请求，获得的大规模搜索请求数据以真实的搜索请求数据为基础，可以很好地反映请求数据的真实性，克服现有技术中使用固定的概率模型生成搜索请求所带来的缺陷。

举例来说，上述步骤B可以包括：

对上述种子数据进行分析，获取上述种子数据的请求速率、各请求词出现的概率、各请求词的时间局部性；其中，上述请求速率是单位时间内的请求词的个数，上述各请求词出现的概率包括各请求词在所有请求词中出现的比例以及一个请求中出现多个请求词的概率，上述时间局部性包括请求词的平均重用距离，重用距离是指距离最近的相同的两个请求词之间其它请求词的个数，例如请求序列的一段为{x，a，b，c，d，x}，根据这段请求序列求出在两个x之间有4个不同的请求词，则x在该段请求序列中的重用距离为4，以此方法可以求出x在不同请求序列段中的重用距离，而后对其求平均值得到其平均重用距离。

举例来说，如果上述第二时长为上述第一时长的N倍，N为大于1的正整数；上述第一时长包括M个单位时间；其中，单位时间可以是预先设定的，例如但不限于1秒钟、1分钟、10分钟等数值；

举例来说，如图2所示，上述步骤C可以包括：

C1、将上述第二时长平均分成N段，其中每段的时间长度均等于上述第一时长；

当需要生成的请求数据的时长（第二时长）为种子数据时长（第一时长）的整数倍时，可将第二时长分成若干段，每段都等于第一时长；

C2、预设S=1；

C3、以上述种子数据的第S个单位时间的请求速率为均值，将其代入第一分布模型求出N个请求速率μ_S1、μ_S2…μ_Sn…μ_SN，其中μ_Sn是上述第二时长的第n段的第S个时间单位的请求速率；

其中，第一分布模型可以是正态分布模型，在此选择正态分布模型是因为而正态分布则能很好的表述波动平稳的请求。另外如果需要模拟出尖峰负载，则可以在正态分布模型中加入参数调整，如对请求速率进行十倍的扩展。而如果想模拟大部分时间负载均衡，少数情况下会有尖峰负载和低谷负载的情况，则第一分布模型可以是三角分布模型。如果希望可以模拟用户数逐渐增多的网站请求的情况，则可以将概率模型的自变量由第一分钟的速率更换为第二天的第一分钟速率与第一天的第一分钟速率的差值，即使速率地增长服从正态分布。具体的做法可以是：以原始日志中第一分钟的速率为均值构建正态分布模型（或其它模型），以此正态分布模型生成一个值作为第二天第一分钟的速率。然后将该值减去第一天第一分钟的速率得到差值，以该值再次构建正态模型得出多个值μ1，μ2，μ3，μ4，…，将这些值做为速度差，加在前一天第一分钟的速率上作为当天的第一分钟的速率；

当然本领域技术人员还可以选用其他分布模型，在此不予具体的限定；

C4、以上述请求速率μ_S1、μ_S2…μ_Sn…μ_SN为均值分别代入第二分布模型求出第二时长的每段的第S个时间单位内的时间序列；

第二分布模型可以是泊松分布模型，泊松分布模型可以较好的反映出单位时间内请求的小幅波动情况，但如果单位时间设置的比较短，例如设置为1秒钟时，也可以忽略请求的波动，而生成等间隔的时间序列，即第二分布模型也可以是平均分布模型；

C5、判断S是否大于等于M，如果是执行步骤C7，如果否执行步骤C6；

C6、使S=S+1，并返回步骤C3；

使S=S+1，返回步骤C3以对第二时长的各段的第S+1个时间单位的请求速率进行计算；

C7、按照上述种子数据中的各请求词出现的概率以及上述第二时长的各单位时间的请求速率生成第二时长内各单位时间内的请求序列；

得到的请求序列中各请求词出现的概率和种子数据中一致，可较好的反映搜索请求数据的真实性；

C8、根据上述种子数据中的各请求词的时间局部性对上述各单位时间内的请求序列进行调整；

即是按照各请求的平均重用距离来调整请求序列中请求词的顺序，以使获得的请求序列更好的反映搜索请求数据的真实性；

C9、将调整后得到的请求序列按照上述时间序列生成搜索请求。

在确定请求序列之后，按照步骤C4中生成的时间序列来生成搜索请求。

需要说明的是，如果第二时长不是第一时长的整数倍，可以将第二时长分解成为第三时长和第四时长，其中第三时长是第一时长的整数倍，第四时长的长度为第一时长的一部分，例如第一时长是一天，第二时长是10.5天，则可将第二时长分解为长度为10天的第三时长，长度为0.5天的第四时长，然后利用前述的方法生成长度为第三时长的搜索请求，再从第一时长中截取长度为第四时长的搜索请求，然后将第三时长的搜索请求和第四时长的搜索请求附加到一起成为时长为第二时长的搜索请求。

下面以一个具体的实例来说明本实施例所提供的搜索请求生成方法：

在这个实例中，第一时长是1天，第二时长是30天，单位时间的长度是1分钟，则第一时长包括1440个单位时间，第一分布模型是正态分布模型，第二分布模型是泊松分布模型；

S1、用户获取到了时长为1天的搜索请求，作为种子数据，要生成时长为30天的搜索请求；

S2、对该种子数据进行分析，得到了种子数据的请求速率、各请求词出现的概率、各请求词的时间局部性；

S3、以种子数据的第一分钟的请求速率为平均值构建正态分布模型，求出30个请求速率μ₁₁、μ₁₂…μ_1n…μ₁₃₀，分别作为第一天、第二天……第三十天的第1分钟的请求速率；将μ₁₁、μ₁₂…μ_1n…μ₁₃₀分别作为均值构建泊松分布模型，生成第一天、第二天……第三十天的第1分钟的时间序列；

然后以种子数据的第二分钟的请求速率构建正态分布模型，求出30个请求速率μ₂₁、μ₂₂…μ_2n…μ₂₃₀，分别作为第一天、第二天……第三十天的第2分钟的请求速率；将μ₂₁、μ₂₂…μ_2n…μ₂₃₀分别作为均值构建泊松分布模型，生成第一天、第二天……第三十天的第2分钟的时间序列；

依次类推，直至求出第一天、第二天……第三十天的第1440分钟的请求速率和时间序列；

S4、按照种子数据中的各请求词出现的概率以及第二时长的各单位时间的请求速率生成第二时长内各单位时间内的请求序列；以第一天的第1分钟为例：如果种子数据中共有a、b、c、d、e五个请求词，并且每个请求词出现的频率分别为P(a)=0.2，P(b)=0.3，P(c)=0.3，P(d)=0.1，P(e)=0.1，Pn(2)=0.1，其中a的出现频率为0.2，b为0.3，c为0.3,d为0.1，e为0.1，而在同一次请求中含有两个请求词的概率为0.1（Pn(2)=0.1），第一天的第1分钟的请求速率为10，则可生成的请求词序列为：a+b，b，a，c，d，c，c，b，e，其中a+b表示该次请求中有两个请求词，分别为a和b；依次类推，生成全部的请求序列；

S5、根据各个请求词的时间局部性对各单位时间内的请求序列进行调整；同样以第一天的第1分钟为例：以最大重用距离（各请求词的平均重用距离最大者）+2为滑动窗口大小，此处滑动窗口的大小可以设置为最大重用距离加2，这是因为，这样能保证在滑动窗口内窗口的第一词和窗口的最后一个词之间的请求个数为最大的重用距离。根据种子数据中请求词的重用距离调整请求序列：比如种子数据中请求词的重用距离为L(a)=2，L(b)=1，L(c)=1，L(d)=3，L(e)=2，则M（最大重用距离）=3，所以窗口值大小为M+2=3+2=5。以此调整生成序列中词语的重用距离，每次都根据滑动窗口头部的查询词调整窗口内的查询序列。调整后滑动窗口向后移一位。

具体调整步骤如下：（其中用||表示滑动窗口，两个“|”之间表示调整的序列内容）

1.待调整的序列为a+b，b，a，c，d，c，c，b，e，因此前五个查询进入最初的滑动窗口即|a+b，b，a，c，d|，c，c，b，e。由于a的重用距离需要大于等于2，所以需要根据a的重用距离调整，将后面的a右移，调整后的序列为：|a+b，b，c，a，d|，c，c，b，e；

2.接下来观测a+b中b的重用距离情况，b的重用距离为1，而在这个序列中为0，因此需要调整，将a+b后面的b右移，此时序列为|a+b，c，b，a，d|，c，c，b，e；

3、滑动窗口先后移动：a+b，|c，b，a，d，c|，c，b，e；

4、同理，根据c的重用距离调整词语位置：a+b，|c，b，c，a，d|，c，b，e；

5、滑动窗口前进后序列为a+b，c，|b，c，a,d，c|，b，e。b符合重用距离限定，滑动窗口前进：a+b，c，b，|c，a，d，c，b|，e；

6、调整c的重用距离:a+b，c，b，|c，a，c，d，b|，e，推进滑动窗口：a+b，c，b，c，|a,c，d，b，e|；

7、a符合重用距离，同时没有后续查询序列，固只推动滑动窗口头，而不改变滑动窗口尾部：a+b，c，b，c，a，|c，d，b，e|；

8、c符合重用距离，推动滑动窗口头：a+b，c，b，c，a，c，|d，b，e|；

9、d符合重用距离，推动滑动窗口头：a+b，c，b，c，a，c，|d，b，e|；

10、e符合重用距离，推动滑动窗口头：a+b，c，b，c，a，c，d，|b，e|；

11、调整完毕，调整后的请求序列为a+b，c，b，c，a，c，d，b，e，调整后的新请求序列满足了种子数据中各词语重用距离的特性。

依次类推，按照上述的调整方法，调整每一天每一分钟的请求序列。

S6、在完成请求序列的调整之后，将请求序列按照S3中计算得到的时间序列来生成搜索请求；即将得到的请求序列依据计算出的时间序列值发送给搜索引擎。如：得到的请求序列为a+b，c，b，c，a，c，d，...,得到的时间序列为x，y，z，……则在时刻x发送序列a+b，在时刻y发送序列c，其余类似。

实施例二：

本发明还提供一种搜索请求生成系统，可用于执行如实施例一上述的方法，如图3所示，包括：

获取模块100，用于获取搜索请求的种子数据，上述种子数据的时间长度为第一时长；

分析模块200，用于对上述种子数据进行分析，获取上述种子数据的负载特性；

生成模块300，用于根据上述种子数据的负载特性生成时间长度为第二时长的搜索请求数据；上述第二时长大于第一时长。

本实施例提供的搜索请求生成系统，在获取了一定时长的种子数据之后，可以对种子数据的负载特性进行分析，然后根据种子数据的负载特性来生成更大规模的搜索请求，获得的大规模搜索请求数据以真实的搜索请求数据为基础，可以很好地反映请求数据的真实性，克服现有技术中使用固定的概率模型生成搜索请求所带来的缺陷。

其中，分析模块200可以具体用于对上述种子数据进行分析，获取上述种子数据的请求速率、各请求词出现的概率、各请求词的时间局部性；上述请求速率是单位时间内的请求词的个数，上述各请求词出现的概率包括各请求词在所有请求词中出现的比例以及一个请求中出现多个请求词的概率，上述时间局部性包括各个请求词的平均重用距离。

举例来说，如果上述第二时长为上述第一时长的N倍，N为大于1的正整数；上述第一时长包括M个单位时间；

则如图4所示，生成模块300可以具体包括：

均分单元301，用于将上述第二时长平均分成N段，其中每段的时间长度均等于上述第一时长；

预设单元302，用于预设S=1；

第一计算单元303，用于以上述种子数据的第S个单位时间的请求速率为均值，将其代入第一分布模型求出N个请求速率μ_S1、μ_S2…μ_Sn…μ_SN，其中μ_Sn是上述第二时长的第n段的第S个时间单位的请求速率；

如实施例一中上述，第一分布模型可以是正态分布模型，当然本领域技术人员还可以选用其他分布模型，在此不予具体的限定；

第二计算单元304，以上述请求速率μ_S1、μ_S2…μ_Sn…μ_SN为均值分别代入第二分布模型求出第二时长的每段的第S个时间单位内的时间序列；

如实施例一中上述，第二分布模型可以是泊松分布模型，当然本领域技术人员还可以选用其他分布模型，在此不予具体的限定；

判断单元305，用于判断S是否大于等于M；

循环单元306，用于当上述判断单元的判断结果为否，使S=S+1后将S的取值返回第一计算单元；

第一生成单元307，用于当上述判断单元的判断结果为是时，按照上述种子数据中的各请求词出现的概率以及上述第二时长的各单位时间的请求速率生成第二时长内各单位时间内的请求序列；

调整单元308，用于根据上述种子数据中的各请求词的时间局部性对上述各单位时间内的请求序列进行调整；

第二生成单元309，用于将调整后得到的请求序列按照上述时间序列生成搜索请求。

本实施例与实施例一处于同一发明构思下，相关内容可参考实施例一中的描述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random AccessMemory，RAM）、磁盘或光盘等。

以上对本发明实施例所提供的搜索请求生成方法和系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种搜索请求生成方法，其特征在于，包括：

对所述种子数据进行分析，获取所述种子数据的负载特性；

根据所述种子数据的负载特性生成时间长度为第二时长的搜索请求数据；所述第二时长大于第一时长；

所述对所述种子数据进行分析，获取所述种子数据的负载特性包括：

对所述种子数据进行分析，获取所述种子数据的请求速率、各请求词出现的概率、各请求词的时间局部性；所述请求速率是单位时间内的请求词的个数，所述各请求词出现的概率包括各请求词在所有请求词中出现的比例以及一个请求中出现多个请求词的概率，所述时间局部性包括各个请求词的平均重用距离；

如果所述第二时长为所述第一时长的N倍，N为大于1的正整数；

所述第一时长包括M个单位时间；

所述根据所述种子数据的负载特性生成时间长度为第二时长的搜索请求数据包括：

C1、将所述第二时长平均分成N段，其中每段的时间长度均等于所述第一时长；

C2、预设S＝1；

C3、以所述种子数据的第S个单位时间的请求速率为均值，将其代入第一分布模型求出N个请求速率μ_S1、μ_S2…μ_Sn…μ_SN，其中μ_Sn是所述第二时长的第n段的第S个时间单位的请求速率；

C4、以所述请求速率μ_S1、μ_S2…μ_Sn…μ_SN为均值分别代入第二分布模型求出第二时长的每段的第S个时间单位内的时间序列；

C6、使S＝S+1，并返回步骤C3；

C7、按照所述种子数据中的各请求词出现的概率以及所述第二时长的各单位时间的请求速率生成第二时长内各单位时间内的请求序列；

C8、根据所述种子数据中的各请求词的时间局部性对所述各单位时间内的请求序列进行调整；

C9、将调整后得到的请求序列按照所述时间序列生成搜索请求。

2.根据权利要求1所述的方法，其特征在于，所述第一分布模型是正态分布模型；所述第二分布模型是泊松分布模型。

3.一种搜索请求生成系统，其特征在于，包括：

生成模块，用于根据所述种子数据的负载特性生成时间长度为第二时长的搜索请求数据；所述第二时长大于第一时长；

所述分析模块具体用于对所述种子数据进行分析，获取所述种子数据的请求速率、各请求词出现的概率、各请求词的时间局部性；所述请求速率是单位时间内的请求词的个数，所述各请求词出现的概率包括各请求词在所有请求词中出现的比例以及一个请求中出现多个请求词的概率，所述时间局部性包括各个请求词的平均重用距离；

所述第一时长包括M个单位时间；

所述生成模块具体包括：

均分单元，用于将所述第二时长平均分成N段，其中每段的时间长度均等于所述第一时长；

预设单元，用于预设S＝1；

第一计算单元，用于以所述种子数据的第S个单位时间的请求速率为均值，将其代入第一分布模型求出N个请求速率μ_S1、μ_S2…μ_Sn…μ_SN，其中μ_Sn是所述第二时长的第n段的第S个时间单位的请求速率；

第二计算单元，以所述请求速率μ_S1、μ_S2…μ_Sn…μ_SN为均值分别代入第二分布模型求出第二时长的每段的第S个时间单位内的时间序列；

判断单元，用于判断S是否大于等于M；

循环单元，用于当所述判断单元的判断结果为否，使S＝S+1后将S的取值返回第一计算单元；

第一生成单元，用于当所述判断单元的判断结果为是时，按照所述种子数据中的各请求词出现的概率以及所述第二时长的各单位时间的请求速率生成第二时长内各单位时间内的请求序列；

调整单元，用于根据所述种子数据中的各请求词的时间局部性对所述各单位时间内的请求序列进行调整；

第二生成单元，用于将调整后得到的请求序列按照所述时间序列生成搜索请求。

4.根据权利要求3所述的系统，其特征在于，所述第一分布模型是正态分布模型；所述第二分布模型是泊松分布模型。