CN202033748U - 搜索引擎性能测试系统 - Google Patents

搜索引擎性能测试系统 Download PDF

Info

Publication number
CN202033748U
CN202033748U CN2011201216683U CN201120121668U CN202033748U CN 202033748 U CN202033748 U CN 202033748U CN 2011201216683 U CN2011201216683 U CN 2011201216683U CN 201120121668 U CN201120121668 U CN 201120121668U CN 202033748 U CN202033748 U CN 202033748U
Authority
CN
China
Prior art keywords
search engine
query requests
server
search
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN2011201216683U
Other languages
English (en)
Inventor
陈磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2011201216683U priority Critical patent/CN202033748U/zh
Application granted granted Critical
Publication of CN202033748U publication Critical patent/CN202033748U/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种搜索引擎性能测试系统,以解决每次测试时都需要重新建立索引和查询请求从而耗费的处理资源较大的问题。系统包括:存储器,用于存储预先指定的结构化数据和查询请求;搜索引擎服务器,连接于存储器,从存储器中获取进行搜索引擎性能测试的查询请求,并根据获取的查询请求在存储器存储的结构化数据中搜索与查询请求相匹配的结构化数据;搜索引擎性能测试装置,连接于搜索引擎服务器,用于根据从搜索引擎服务器获取的性能指标确定搜索引擎性能。

Description

搜索引擎性能测试系统
技术领域
本申请涉及互联网技术领域,尤其涉及一种搜索引擎性能测试系统。
背景技术
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统,其所实现的功能概括来说就是数据预处理、建立索引和接受查询请求并返回结果。其中,数据预处理是指根据搜索引擎要求,把经各种渠道获得的数据转化为结构化数据;建立索引是指根据结构化数据中的各种字段建立相应的索引;接受查询请求并返回结果是指使用查询关键词对建立的索引进行检索,并返回检索到的索引所指向的结构化数据。
一般来说,搜索引擎版本的更新是很频繁的,而在每次更新完毕后都要对更新后的搜索引擎(相对于更新前的旧版本搜索引擎,更新完毕后的搜索引擎可以称为新版本搜索引擎)进行性能测试以判断其是否满足性能要求。目前,常用的搜索引擎性能测试方案是基于如图1a所示的搜索引擎性能测试系统A实现的,该搜索引擎性能测试系统A包括安装有多个不同版本的搜索引擎的搜索引擎服务器和分别与搜索引擎服务器相连接的搜索引擎性能测试装置。基于该搜索引擎性能测试系统A实现的搜索引擎测试方案一般包括下述步骤:
首先,针对新版本搜索引擎建立索引,即利用结构化数据重新建立新的索引;
然后构造查询请求,目前常用的查询请求构造方案是将部署上线的安装有旧版本搜索引擎的搜索引擎服务器在实际应用中所记录的的访问日志转换为访问搜索引擎时输入的查询请求;
接下来,将转换得到的查询请求输入安装有新版本搜索引擎的搜索引擎服务器对新的索引进行搜索,并在安装有新版本搜索引擎的搜索引擎服务器返回相应的结构化数据时,确定反映新版本搜索引擎性能的参数(比如,该参数可以是新版本搜索引擎从开始搜索至返回相应搜索结构化数据之间的这段响应时间的长度和/或新版本搜索引擎在搜索时对资源的占用量等等);
最后,根据反映新版本搜索引擎性能的参数对新版本搜索引擎进行性能评估(比如,可以通过衡量响应时间的长度是否在新版本搜索引擎可承受的响应时间长度范围之内等方式来确定新版本搜索引擎性能),并得出新版本搜索引擎性能测试是否通过的结论。
在现有的性能测试中,当新版本搜索引擎的性能与旧版本搜索引擎的性能差异较小时,还可以通过上述步骤分别对新版本搜索引擎和旧版本搜索引擎进行性能测试,并对反映新、旧版本搜索引擎性能的参数进行相应比较,从而判断新、旧版本搜索引擎的性能优劣。然而,现有技术提供的性能测试方案存在的缺陷在于,每次测试时都需要重新建立索引和查询请求,从而测试过程耗费的处理资源较大。
实用新型内容
本申请实施例提供一种搜索引擎性能测试系统,用以解决利用现有技术提供的搜索引擎性能测试方案在每次测试时都需要重新建立索引和查询请求,从而耗费的处理资源较大的问题。
本申请实施例采用以下技术方案:
一种搜索引擎性能测试系统,包括:
存储器,用于存储预先指定的结构化数据和查询请求;搜索引擎服务器,连接于所述存储器,用于从所述存储器中获取进行搜索引擎性能测试的查询请求,并根据获取的所述查询请求在所述存储器中存储的结构化数据中搜索与所述查询请求相匹配的结构化数据;搜索引擎性能测试装置,连接于所述搜索引擎服务器,用于根据从所述搜索引擎服务器获取的性能指标确定搜索引擎性能,其中,所述性能指标为所述搜索引擎性能测试装置对所述搜索引擎服务器基于所述存储器存储的查询请求,从所述存储器存储的结构化数据中搜索与所述查询请求匹配的结构化数据的过程进行监控而得到的。
较佳地,所述系统还包括:采集转换器,连接于所述存储器,用于采集搜索引擎访问日志,并将采集到的搜索引擎访问日志转换为查询请求后发送给存储器进行存储。
较佳地,所述系统还包括:
第一搜索引擎性能改进处理器,其与所述搜索引擎服务器和所述搜索引擎性能测试装置相连接,用于根据搜索引擎性能测试装置得到的搜索引擎服务器响应所述指定的查询请求的响应时间长度,对搜索引擎服务器调用的搜索处理算法进行改进。
较佳地,所述系统还包括:
第二搜索引擎性能改进处理器,其与所述搜索引擎服务器和所述搜索引擎性能测试装置相连接,用于根据搜索引擎性能测试装置得到的搜索引擎服务器响应作为查询请求的推荐关键词时的响应时间长度,对搜索引擎服务器调用的搜索处理算法进行改进。
较佳地,所述存储器是一台或一组独立于搜索引擎服务器和搜索引擎性能测试装置的服务器。
较佳地,所述存储器为一组服务器,其中部分服务器用于存储所述查询请求,部分服务器用于存储所述结构化数据。
本申请实施例的有益效果如下:
本申请实施例提供的搜索引擎性能测试系统通过设置存储器,该存储器与搜索引擎服务器相连接,用于存储预先指定对搜索引擎进行性能测试时所需的查询请求和结构化数据,从而在对搜索引擎服务器进行多次性能测试时,搜索引擎服务器均可以利用存储器存储的查询请求和结构化数据完成数据搜索,而无需每次测试时都重新建立查询请求和结构化数据,因此减少了搜索引擎性能测试所耗费的处理资源。
附图说明
图1a为现有技术中采用的搜索引擎性能测试系统的具体结构示意图;
图1b为本申请实施例提供的一种搜索引擎性能测试系统的具体结构示意图;
图1c为包含搜索引擎性能改进器的一种搜索引擎性能测试系统的具体结构示意图;
图2为本申请实施例中对搜索引擎性能评估基准进行改进后的性能测试流程示意图;
图3为本申请实施例中根据不同查询请求对于搜索引擎性能的影响,对搜索引擎性能测试过程进行改进后的性能测试流程示意图;
图4为本申请实施例中根据搜索引擎以推荐关键词作为查询请求进行查询时表现出的性能,对搜索引擎性能测试过程进行改进后的性能测试流程示意图;
图5为搜索引擎性能的一个闭环测试流程示意图;
图6为本申请实施例提供的一种搜索引擎性能测试装置的具体结构示意图;
图7为本申请实施例提供的一种搜索引擎性能改进装置的具体结构示意图;
图8为本申请实施例提供的另一种搜索引擎性能改进装置的具体结构示意图。
具体实施方式
为了解决现有技术提供的搜索引擎性能测试方案在每次测试时都需要重新建立索引和查询请求,从而耗费的处理资源较大的问题,本申请实施例提供了一种搜索引擎性能测试方案。以下结合附图,对本申请实施例提供的该系统进行详细说明。
本申请实施例首先提供一种搜索引擎性能测试系统B,该搜索引擎性能测试系统的具体结构示意图如图1b所示,包括至少一个搜索引擎服务器11,该搜索引擎服务器可以安装不同版本的搜索引擎;还包括与各个搜索引擎服务器11分别相连接,并根据性能指标确定搜索引擎性能的搜索引擎性能测试装置12,该搜索引擎性能测试装置12可以是安装有搜索引擎性能测试软件的服务器,也可以是具有搜索引擎性能测试功能的硬件装置;以及还包括与各个搜索引擎服务器11分别相连接的存储器13,该存储器13存储有预先指定的结构化数据和查询请求,且该存储器13可以是一台或一组独立于搜索引擎服务器11和搜索引擎性能测试装置12的存储器服务器,也可以是内置于搜索引擎服务器11或搜索引擎性能测试装置12内部的一个独立的存储器或一组独立的存储器。做为本申请实施例的一个替换方案,本申请可以设置一台或一组储存器用于存储预先指定的查询请求,在该查询请求存储器之外可以再设置一台或一组存储器用于存储预先指定的结构化数据。其中,搜索引擎服务器11的主要作用在于基于存储器13存储的预先指定的查询请求,从存储器13存储的预先指定的结构化数据中搜索与该查询请求匹配的结构化数据。此外需要说明的是,上述性能指标为搜索引擎性能测试装置12对搜索引擎服务器11基于存储器13存储的查询请求,从存储器13存储的结构化数据中搜索与所述查询请求匹配的结构化数据的过程进行监控而得到的。
上述性能指标可以有多种,比如可以为搜索引擎服务器11响应查询请求的响应时间长度、搜索引擎服务器11基于查询请求完成对结构化数据的搜索这一过程对CPU计算资源的占用率、对内存的消耗量、对网络资源的消耗量等通用指标;还可以为搜索引擎服务器11每秒内响应的查询请求的个数、对结构化数据进行查询耗费的时间长度、搜索引擎服务器11在完成对结构化数据的搜索后返回结构化数据所耗费的时间长度等指标。
在本申请实施例中,可以但不限于通过下述两种方式来指定查询请求。
第一种方式的实现步骤如下:
首先,将预先获得的搜索引擎服务器访问日志转换为查询请求;
然后,从转换得到的查询请求中选取查询请求,其中,选取的查询请求满足:搜索引擎服务器响应选取的查询请求的响应时间长度大于第一预定响应时间长度;
最后,根据搜索引擎服务器基于选取的各查询请求进行搜索后返回的结构化数据的数量,从选取的查询请求中确定所述指定的查询请求,其中,指定的该查询请求满足:搜索引擎服务器根据指定的各查询请求进行搜索后分别返回的各结构化数据的数量满足预定的数量分布统计规律,这里的数量分布统计规律可以但不限于为正态分布规律等。
第二种方式的实现步骤如下:
首先,也是需要将预先获得的搜索引擎服务器访问日志转换为查询请求;
然后,从转换得到的查询请求中选取查询请求,其中,搜索引擎服务器响应选取的查询请求的响应时间长度大于第二预定响应时间长度,这里的第二预定响应时间长度也可以与前文所述的第一预定响应时间长度相同;
最后,根据搜索引擎服务器基于选取的各查询请求所调用的搜索处理算法,从选取的查询请求中确定所述指定的查询请求,其中,搜索引擎服务器根据指定的各查询请求而调用的搜索处理算法为指定的搜索处理算法。这里所说的指定的搜索处理算法可以为某一种搜索处理算法,也可以为多种搜索处理算法。
通过上述两种方式获得了查询请求后,将获得的查询请求存储于存储器13中。
对应于上述两种方式,本申请实施例提供的如图1b所示的系统还可以进一步包括采集搜索引擎服务器访问日志,并将采集到的搜索引擎服务器访问日志转换为查询请求后发送给存储器进行存储的数据采集转换器。
本申请实施例提供的上述两种方式还可以结合在一起来实现对查询请求的指定。比如,根据第一种方式从选取的查询请求中确定指定的查询请求时,确定出的指定的查询请求还可以进一步满足第二种方式中提出的规则,即搜索引擎服务器根据指定的各查询请求而调用的搜索处理算法为指定搜索处理算法。
基于本申请实施例提供的上述系统,由于通过设置存储器13来存储预先指定的结构化数据和查询请求,因此在对搜索引擎服务器的性能进行测试时,无需再重新建立结构化数据和查询请求,只需每次测试时从存储器中读取相应的查询请求,并根据该查询请求在存储器中存储的结构化数据中进行查询,从而可以在耗费较少处理资源的前提下实现对搜索引擎的性能测试。若需要对不同版本的搜索引擎进行性能的对比测试,则可以利用存储器13存储的预先指定的结构化数据和查询请求,分别针对不同版本的搜索引擎进行测试,并在获取到相应的性能指标后进一步对指标进行比较,从而实现不同版本搜索引擎的性能对比测试。
在对搜索引擎服务器进行性能测试后,若测试结果不能达到对搜索引擎服务器的预期要求,则可以对搜索引擎进行性能优化处理。具体地,本申请实施例中可以通过在上述系统中增加搜索引擎性能改进处理器的方式来实现搜索引擎性能优化。该搜索引擎性能改进处理器主要实现的功能是在对搜索引擎服务器进行性能测试后,根据测试结果实现对搜索引擎的改进,其作用主要体现为:根据搜索引擎服务器响应指定的查询请求的响应时间长度,从指定的查询请求中确定响应时间长度大于第三预定响应时间长度的查询请求;确定搜索引擎根据确定的查询请求所调用的搜索处理算法,并根据监控到的利用搜索处理算法搜索到相应的结构化数据所耗费的处理时间长度,以及从搜索处理算法中选取处理时间长度大于预定处理时间长度的搜索处理算法,并改进选取的搜索处理算法。
在另一个较佳的实施例中,搜索引擎性能改进处理器的作用体现为:确定搜索引擎响应作为查询请求的推荐关键词时的响应时间长度;根据确定的响应时间长度以及预先统计的点击推荐关键词作为查询请求的点击概率、点击收益信息,确定推荐关键词所对应的单位收益所耗费的响应时间长度;以及确定单位收益所耗费的响应时间长度大于第四预定响应时间长度的推荐关键词,并改进以确定的推荐关键词作为查询请求时所调用的查询处理算法。
总结搜索引擎性能改进处理器的功能,本申请实施例提供的上述系统可以包括两种类型的搜索引擎性能改进处理器。一种是根据根据搜索引擎性能测试装置得到的搜索引擎响应指定的查询请求的响应时间长度,对搜索引擎调用的搜索处理算法进行改进的第一搜索引擎性能改进处理器;另一种是根据根据搜索引擎性能测试装置得到的搜索引擎响应作为查询请求的推荐关键词时的响应时间长度,对搜索引擎调用的搜索处理算法进行改进的第二搜索引擎性能改进处理器。第一、第二搜索引擎性能改进处理器都需要与搜索引擎服务器相连接,如图1c所示。由于上述响应时间长度是搜索引擎性能测试装置得到的性能指标之一,因此,第一、第二搜索引擎性能改进器还需要与搜索引擎测试装置相连接。
本申请实施例提供的上述方案在实际中的应用可以看做是从三个方面来改善搜索引擎性能测试过程,具体如下:
第一个方面的改进体现在搜索引擎性能评估的基准上。主要是着眼于固定一些影响搜索引擎性能的条件,然后在固定的该些条件的前提下对比不同版本搜索引擎的性能,从而实现搜索引擎性能测试。从该方面进行改进后的搜索引擎性能测试过程示意图如图2所示,主要包括下述步骤:
步骤21,选取一批有代表性的结构化数据;
选取“有代表性”的结构化数据的含义可以为:按照选取的结构化数据中包含的具有预定长度的字段的个数相同或相近的原则来选取结构化数据,或者,按照选取的结构化数据中包含的由预定个数字节构成的字段的个数相同或相近的原则来选取结构化数据。选取的这些数据将在一定时期内固定下来作为评估搜索引擎性能所用的基准数据,每次对搜索引擎进行性能测试以前,都要使用选取的这些数据建索引。为了便于描述,可以把选取出的这批“有代表性结构化的数据”构成的集合叫做“数据集合”。“数据集合”存储在与搜索引擎服务器相连接的存储器中。
步骤22,选取一批有代表性的查询请求;
较佳地,选取有代表性的查询请求的原则为选取出的查询请求要能较好地符合搜索引擎被部署上线后的实际访问情况,同时选取出的查询请求最好还能体现一些影响性能的关键指标,具体查询请求是如何体现影响性能的关键指标请参见下文的第二方面改进,在此不再赘述。
选取出的查询请求也将被固定下来作为评估搜索引擎性能所用的基准查询请求。每次对搜索引擎进行性能测试时都需利用选取的这批查询请求来访问进行测试的该搜索引擎。为了便于描述,可以把选取出的这些查询请求构成的集合称为“查询请求集合”。“查询请求集合”存储在与搜索引擎相连接的存储器中。“查询请求集合”的具体构造过程请参见后文的详细介绍,此处不再赘述。
上述步骤21和22相当于是在为搜索引擎的性能测试进行准备,主要是准备固定的数据集合和查询请求集合,从而为接受性能测试的搜索引擎提供相同的基准。
步骤23,针对待进行性能测试的版本号为n的搜索引擎,从存储器存储的查询请求集合中选取查询请求,并利用该搜索引擎从基于存储器存储的数据集合而建立的索引集合中搜索与选取的该查询请求匹配的索引;
步骤23所描述的过程即为基于选取出的文档集和查询请求集合对版本号为n的搜索引擎进行性能测试的过程,本申请实施例中可以假设对对版本号为n的搜索引擎进行性能测试得到的测试结果为A。
步骤24,针对待进行性能测试的版本号为n+1的搜索引擎(这里假设版本号为n+1的搜索引擎是前文所述版本号为n的搜索引擎的改进版),采用与步骤23类似的方式对其进行性能测试,并得到测试结果B;
步骤25,对比结果A和结果B的各种性能指标,最终得到对搜索引擎改进情况的评估结果。比如,可以对比A中包含的版本号为n的搜索引擎响应查询请求的响应时间长度和B中包含的版本号为n+1的搜索引擎响应查询请求的响应时间长度这一性能指标进行比较,从而实现对改进后的搜索引擎的性能评估。或者,还可以通过对比A中包含的版本号为n的搜索引擎在响应查询请求时对指定资源(比如搜索引擎所在的搜索系统的内存)的消耗量和B中包含的版本号为+1n的搜索引擎在响应查询请求时对指定资源的消耗量,从而实现对改进后的搜索引擎的性能评估,等等。
第二个方面的改进主要体现在通过考察各种不同的查询请求对于搜索引擎性能带来的影响,并对查询请求进行分级评估。从该方面进行改进后的搜索引擎性能测试过程示意图如图3所示,主要包括下述步骤:
步骤31,将已经部署上线的搜索引擎服务器的访问日志转换为查询请求;
该步骤31的实现方式与现有技术中采用的访问日志转换为查询请求的方式相同,该实现方式的好处在于可以尽可能地模拟实际情况。
步骤32,获取已部署上线的该搜索引擎服务器安装的搜索引擎在分别响应转换后得到的各查询请求时的响应时间长度信息,并从转换后得到的查询请求中选取对应的响应时间长度大于预定响应时间长度的查询请求;
现有技术提供的方案重点关注查询请求的平均响应时间长度,而对于响应超时的查询请求不会太重视。而通过研究发现,实际上响应超时的的查询请求更适用于对搜索引擎的性能进行测试,其更能对比出不同搜索引擎性能之间的优劣差异。因此,本申请实施例中重点关注超时的查询请求,并把这部分查询请求选取出来。
步骤33,针对选取出的各查询请求,分别使用监控工具(比如linux操作系统自带的top、free命令,以及第三方提供的工具:sysstat包、nmon等)和侧写(profile)工具(比如oprofile、GNU提供的gprof、还有google proflile等)对其进行分析,从多个维度来实现从各查询请求中确定出对于搜索引擎性能产生影响的各种因素;
从技术角度讲,影响搜索引擎性能的因素可以分为两类。一类是与搜索引擎根据查询请求所返回的数据量有关的因素。与数据量有关的因素(比如数据量的大小等)会影响搜索引擎在内存、硬盘、网络上消耗的时间从而影响对查询请求的响应时间长度。比如返回的数量较大则会增大搜索引擎所需的响应时间长度,并且还会增大搜索引擎消耗的资源,反之则情况相反。另一类是与搜索引擎针对不同查询请求所调用的搜索处理算法有关的因素。与搜索处理算法有关的因素(包括商业逻辑、计算机系统逻辑)使得搜索处理算法在运算上消耗的时间也将直接反映到最终的响应时间长度上。比如针对一些查询请求所调用的搜索处理算法包含的逻辑较多,需要的处理时间长,从而导致搜索引擎针对该些查询请求的响应时间较长;而针对另一些查询请求所调用的搜索处理算法包含的逻辑较少,需要的处理时间短,从而搜索引擎针对该些查询请求的响应时间就较短。
对于与数据量有关的因素的分析,可以使用各种监控工具。这些监控工具可以监控一些系统级的通用指标,比如搜索引擎对网络带宽的消耗量、搜索引擎对搜索引擎服务器磁盘的消耗量等;此外,还可以监控一些应用级的指标,比如阶段查询时间长度、缓存命中率等。
对于与处理算法有关的因素的分析,则可以使用profile工具。通过使用profile工具,可以获取到搜索引擎在进行搜索的过程中各个环节所消耗的处理时间长度和这些环节所消耗的内存量等指标值。
通过使用上述工具对选取出的查询请求进行分析,可以得到两个结论:1、确定出导致超时的指标和处理逻辑;2、确定出效率较低的搜索处理算法,并进一步确定能够通过增加硬件等简单的方式就能改进的搜索处理算法以及不是通过简单地增加硬件就能改进的搜索处理算法。
步骤34,根据执行步骤33所得到的上述第1个结论,可以获取能单独触发某一影响因素(这里的影响因素是指搜索引擎返回的数据量大小和搜索处理算法)的查询请求;
在本申请实施例中,根据实际需求,可以根据搜索引擎针对各个查询请求所返回的数据量大小满足预定分布规律(比如可以是满足正态分布规律)的规则,从通过执行步骤32后得到的查询请求中选取满足该规则的多个查询请求构成查询请求集合;或者,还可以根据搜索引擎针对不同查询请求所调用的搜索处理算法为指定搜索处理算法的规则,从通过执行步骤32后得到的查询请求中选取满足该规则的查询请求构成查询请求集合;或者,还可以综合考虑这两种规则以实现从通过执行步骤32后得到的查询请求中选取满足该规则的查询请求购车让那个查询请求集合等。需要说明的是,当按照上述规则从执行步骤32后得到的查询请求中选取的查询请求的个数较少时,还可以根据上述两个结论来设置满足上述规则的新的查询请求。
步骤35,对执行步骤33所得到的上述第2个结论中确定的效率较低的搜索处理算法进行优化,从而将版本号为m的搜索引擎优化升级为版本号为m+1的搜索引擎;
在本步骤中,可以通过增加硬件的方式,对能够通过增加硬件等简单的方式就能实现改进的搜索处理算法进行改进;而针对不是通过简单地增加硬件就能改进的搜索处理算法,可以通过同时升级硬、软件的方式对其进行改进。
步骤36,基于步骤34得到的查询请求集合,分别对版本号为m、m+1的搜索引擎进行性能测试与对比,最终得到针对搜索引擎性能改进情况的评估结果。
第三个方面的改进主要体现在对搜索引擎性能的优化上。主要是根据搜索引擎以各种类型的推荐关键词(这里的推荐关键词可以是一些广告信息)作为查询请求进行查询时表现出的性能来确定搜索引擎性能的优化方向。
基于不同的广告信息,对于应该优先优化搜索引擎中的哪个查询处理算法,目前通常的做法是选取响应时间最长的广告信息对应的查询处理算法来进行优先优化。然而若只以响应时间长度作为判定查询处理算法优化优先级的指标,难免会存在片面性的问题。本申请实施例中,在考虑响应时间长度的基础上,还综合考虑其他指标来确定查询处理算法的优化优先级。具体地,从该方面进行改进后的搜索引擎性能测试过程示意图如图4所示,主要包括以下步骤:
步骤41,对搜索引擎以不同广告信息作为查询请求时的响应时间长度分别进行统计;
步骤42,根据预先统计的每次点击广告信息所带来的收益以及统计得到的各响应时间长度,确定广告信息的“单位收益需要耗费的响应时间长度”;
比如,以广告信息A作为搜索引擎的查询请求时,假如提供10个广告信息A能够带来1次点击,而以广告信息作为查询请求进行一次查询所消耗的响应时间长度(简称广告信息的查询响应时间长度)是2秒,每次点击带来的收益是3块钱,那么广告信息A的“单位收益需要耗费的响应时间长度”的计算方法就是:每次点击需要的推荐的广告信息次数×广告信息的查询响应时间长度÷一次点击带来的收益,代入上述具体的数据,就是10×2÷3=6.67秒/元。这个值可以理解为,针对广告信息A,对其进行查询而带来的一块钱的收益需要耗费6.67秒的响应时间长度。
步骤43,针对不同广告信息,根据确定的“单位收益需要耗费的响应时间长度”来对各种广告信息进行排序,并确定出单位收益需要耗费的响应时间长度最长或较长的广告信息;
步骤44,针对单位收益需要耗费的响应时间长度最长或较长的广告信息,对以该些广告作为查询请求时所使用的查询处理算法进行优化。
以上被改进的三方面是搜索引擎性能测试过程中密不可分的三个方面。在实际应用中,可以结合这三个方面的改进而实现较优的搜索引擎性能测试。比如,可以采用如图2所示的各步骤来构造搜索引擎的性能测试流程,其中可以考虑采用如图3中所示的“查询请求集合”构造方式来构造查询请求集合,进一步地,在对搜索引擎的性能进行优化时,还可以考虑采用如图4所示的优化流程。这样就形成了如图5所示的一个搜索引擎性能的闭环测试流程。图5所示的流程主要可以包含下述步骤:
步骤51,针对版本号为x的搜索引擎,按照如图2的步骤21~23所示的流程对其进行性能测试,得到测试结果,并对测试结果进行分析,判断是否需要对其进行优化,并在判断结果为是时,执行步骤52;
步骤52,按照如图4所示的流程对版本号为x的搜索引擎的性能进行优化后得到版本号为x+1的搜索引擎,与版本号为x的搜索引擎相比,版本号为x+1的搜索引擎在以不同广告信息作为查询请求的情况下,响应时间长度得到了缩减,从而具备搜索效率较高的优势;
步骤53,利用如图3所示的流程中的步骤31~34,生成查询请求集合;
步骤54,基于步骤53中生成的查询请求集合,按照与图2所示的流程所包含的类似步骤,对版本号为x、x+1的两个搜索引擎进行性能的测试与比较,流程结束。
对应于本申请实施例提供的搜索引擎性能测试系统,本申请实施例还提供一种搜索引擎性能测试装置,该装置的具体结构示意图如图6所示,包括以下功能实体:
对搜索引擎基于预先指定的查询请求,从预先指定的结构化数据中搜索与该查询请求匹配的结构化数据的过程进行监控,而获得反映搜索引擎性能的性能指标的性能指标采集器61;以及
与性能指标采集器61相连接,并根据性能指标采集器61获得的性能指标确定搜索引擎性能的中央处理器62。
较佳地,本申请实施例提供的该搜索引擎性能测试装置还可以包括采集搜索引擎访问日志,并将采集到的搜索引擎访问日志转换为所述查询请求的数据采集转换器。
在一个较佳的实施例中,本申请实施例提供的该装置还可以进一步包括:
根据性能指标采集器获得的搜索引擎响应指定的查询请求的响应时间长度,对搜索引擎调用的搜索处理算法进行改进的第一搜索引擎性能改进处理器,其中,第一搜索引擎性能改进处理器与性能指标采集器相连接。
或者,该装置还可以进一步包括:
根据性能指标采集器获得的搜索引擎响应作为查询请求的推荐关键词时的响应时间长度,对搜索引擎调用的搜索处理算法进行改进的第二搜索引擎性能改进处理器,其中,第二搜索引擎性能改进处理器与性能指标采集器相连接。
本申请实施例还提供一种搜索引擎性能改进装置,该装置的具体结构示意图如图7所示,包括以下功能单元:
查询请求确定单元71,用于根据搜索引擎响应指定的查询请求的响应时间长度,从指定的查询请求中确定响应时间长度大于第三预定响应时间长度的查询请求;搜索处理算法选取单元72,用于确定搜索引擎根据查询请求确定单元71确定的查询请求所调用的搜索处理算法,并根据监控到的利用所述搜索处理算法搜索到相应的结构化数据所耗费的处理时间长度,从所述搜索处理算法中选取处理时间长度大于预定处理时间长度的搜索处理算法;改进单元73,用于改进搜索处理算法选取单元72选取的搜索处理算法。
此外,本申请实施例还提供另一种搜索引擎性能改进装置,该装置的具体结构示意图如图8所示,包括以下功能单元:
第一确定单元81,用于确定搜索引擎响应作为查询请求的推荐关键词时的响应时间长度;第二确定单元82,用于根据第一确定单元81确定的响应时间长度以及预先统计的点击推荐关键词作为查询请求的点击概率、点击收益信息,确定推荐关键词所对应的单位收益所耗费的响应时间长度;推荐关键词确定单元83,用于根据第二确定单元82确定的推荐关键词所对应的单位收益所耗费的响应时间长度,确定单位收益所耗费的响应时间长度大于第四预定响应时间长度的推荐关键词;改进单元84,用于改进以推荐关键词确定单元83确定的推荐关键词作为查询请求时所调用的查询处理算法。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (6)

1.一种搜索引擎性能测试系统,其特征在于,包括:
存储器,用于存储预先指定的结构化数据和查询请求;
搜索引擎服务器,连接于所述存储器,用于从所述存储器中获取进行搜索引擎性能测试的查询请求,并根据获取的所述查询请求在所述存储器中存储的结构化数据中搜索与所述查询请求相匹配的结构化数据;
搜索引擎性能测试装置,连接于所述搜索引擎服务器,用于根据从所述搜索引擎服务器获取的性能指标确定搜索引擎性能,其中,所述性能指标为所述搜索引擎性能测试装置对所述搜索引擎服务器基于所述存储器存储的查询请求,从所述存储器存储的结构化数据中搜索与所述查询请求匹配的结构化数据的过程进行监控而得到的。
2.如权利要求1所述的系统,其特征在于,还包括:采集转换器,连接于所述存储器,用于采集搜索引擎访问日志,并将采集到的搜索引擎访问日志转换为查询请求后发送给存储器进行存储。
3.如权利要求1所述的系统,其特征在于,还包括:
第一搜索引擎性能改进处理器,其与所述搜索引擎服务器和所述搜索引擎性能测试装置相连接,用于根据搜索引擎性能测试装置得到的搜索引擎服务器响应所述指定的查询请求的响应时间长度,对搜索引擎服务器调用的搜索处理算法进行改进。
4.如权利要求1所述的系统,其特征在于,还包括:
第二搜索引擎性能改进处理器,其与所述搜索引擎服务器和所述搜索引擎性能测试装置相连接,用于根据搜索引擎性能测试装置得到的搜索引擎服务器响应作为查询请求的推荐关键词时的响应时间长度,对搜索引擎服务器调用的搜索处理算法进行改进。
5.如权利要求1所述的系统,其特征在于:所述存储器是一台或一组独立于搜索引擎服务器和搜索引擎性能测试装置的服务器。
6.如权利要求1所述的系统,其特征在于:所述存储器为一组服务器,其中部分服务器用于存储所述查询请求,部分服务器用于存储所述结构化数据。
CN2011201216683U 2011-04-22 2011-04-22 搜索引擎性能测试系统 Expired - Lifetime CN202033748U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011201216683U CN202033748U (zh) 2011-04-22 2011-04-22 搜索引擎性能测试系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011201216683U CN202033748U (zh) 2011-04-22 2011-04-22 搜索引擎性能测试系统

Publications (1)

Publication Number Publication Date
CN202033748U true CN202033748U (zh) 2011-11-09

Family

ID=44896037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011201216683U Expired - Lifetime CN202033748U (zh) 2011-04-22 2011-04-22 搜索引擎性能测试系统

Country Status (1)

Country Link
CN (1) CN202033748U (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622296A (zh) * 2012-02-21 2012-08-01 百度在线网络技术(北京)有限公司 搜索引擎模块的测试方法、系统及其装置
CN103297285A (zh) * 2012-02-23 2013-09-11 百度在线网络技术(北京)有限公司 分布式集群的性能测试系统、方法和装置
CN103297450A (zh) * 2012-02-23 2013-09-11 百度在线网络技术(北京)有限公司 分布式集群的模拟系统、方法和装置
CN103297286A (zh) * 2012-02-23 2013-09-11 百度在线网络技术(北京)有限公司 分布式集群的可靠性的测试系统、方法和装置
CN103577487A (zh) * 2012-08-07 2014-02-12 亿赞普(北京)科技有限公司 一种搜索引擎索引功能的测试方法和装置
CN103634160A (zh) * 2012-08-28 2014-03-12 深圳市世纪光速信息技术有限公司 基于web的通用互联网产品数据对比测试的方法及装置
CN103780449A (zh) * 2012-10-23 2014-05-07 百度在线网络技术(北京)有限公司 一种基于cache存储的流量复用方法和装置
WO2018205391A1 (zh) * 2017-05-10 2018-11-15 平安科技(深圳)有限公司 信息检索准确性评估方法、系统、装置及计算机可读存储介质
CN113849417A (zh) * 2021-11-08 2021-12-28 杭州网易云音乐科技有限公司 测试方法、介质、装置和计算设备
CN114861039A (zh) * 2022-03-31 2022-08-05 北京优特捷信息技术有限公司 一种搜索引擎的参数配置方法、装置、设备及存储介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622296A (zh) * 2012-02-21 2012-08-01 百度在线网络技术(北京)有限公司 搜索引擎模块的测试方法、系统及其装置
CN102622296B (zh) * 2012-02-21 2015-11-25 百度在线网络技术(北京)有限公司 搜索引擎模块的测试方法、系统及其装置
CN103297285B (zh) * 2012-02-23 2016-03-16 百度在线网络技术(北京)有限公司 分布式集群的性能测试系统、方法和装置
CN103297285A (zh) * 2012-02-23 2013-09-11 百度在线网络技术(北京)有限公司 分布式集群的性能测试系统、方法和装置
CN103297450A (zh) * 2012-02-23 2013-09-11 百度在线网络技术(北京)有限公司 分布式集群的模拟系统、方法和装置
CN103297286A (zh) * 2012-02-23 2013-09-11 百度在线网络技术(北京)有限公司 分布式集群的可靠性的测试系统、方法和装置
CN103297286B (zh) * 2012-02-23 2016-12-14 百度在线网络技术(北京)有限公司 分布式集群的可靠性的测试系统、方法和装置
CN103297450B (zh) * 2012-02-23 2016-04-13 百度在线网络技术(北京)有限公司 分布式集群的模拟系统、方法和装置
CN103577487A (zh) * 2012-08-07 2014-02-12 亿赞普(北京)科技有限公司 一种搜索引擎索引功能的测试方法和装置
CN103634160A (zh) * 2012-08-28 2014-03-12 深圳市世纪光速信息技术有限公司 基于web的通用互联网产品数据对比测试的方法及装置
CN103634160B (zh) * 2012-08-28 2018-10-19 深圳市世纪光速信息技术有限公司 基于web的通用互联网产品数据对比测试的方法及装置
CN103780449A (zh) * 2012-10-23 2014-05-07 百度在线网络技术(北京)有限公司 一种基于cache存储的流量复用方法和装置
CN103780449B (zh) * 2012-10-23 2018-05-01 百度在线网络技术(北京)有限公司 一种基于cache存储的流量复用方法和装置
WO2018205391A1 (zh) * 2017-05-10 2018-11-15 平安科技(深圳)有限公司 信息检索准确性评估方法、系统、装置及计算机可读存储介质
CN113849417A (zh) * 2021-11-08 2021-12-28 杭州网易云音乐科技有限公司 测试方法、介质、装置和计算设备
CN114861039A (zh) * 2022-03-31 2022-08-05 北京优特捷信息技术有限公司 一种搜索引擎的参数配置方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN202033748U (zh) 搜索引擎性能测试系统
CN103902646B (zh) 一种分布式任务管理系统与方法
CN101989283B (zh) 一种数据库性能的监控方法和装置
US8880022B2 (en) Providing per-application resource usage information
CN107734052B (zh) 面向组件依赖的负载均衡容器调度方法
CN102075554B (zh) 一种基于soa架构的服务处理方法及其系统
CN102081625B (zh) 一种数据查询的方法及查询服务器
US20120198073A1 (en) Dynamically organizing cloud computing resources to facilitate discovery
US20060047813A1 (en) Provisioning manager for optimizing selection of available resources
US8375228B2 (en) Multiple-node system power utilization management
Dang et al. Combination of replication and scheduling in data grids
CN111752678A (zh) 面向边缘计算中分布式协同学习的低功耗容器放置方法
CN110020061A (zh) 一种智慧城市时空信息云平台服务引擎
CN103917970A (zh) 企业中的顾客关注的关键字搜索
CN102081624B (zh) 一种数据查询的方法及装置
Xiang et al. Energy-effective iot services in balanced edge-cloud collaboration systems
CN101645934A (zh) 基于加权的Web服务评价方法、Web服务查找方法及其装置
EP2336902A2 (en) A method and system for improving information system performance based on usage pattern
Wang et al. HTD: heterogeneous throughput-driven task scheduling algorithm in MapReduce
Xu et al. Efficient composition of semantic web services with end-to-end QoS optimization
CN110689386A (zh) 一种电子票据开具方法及系统
US20090157806A1 (en) Method and System for Delivering Information with Caching Based on Interest and Significance
CN109587223B (zh) 数据聚合方法、装置和系统
Dandamudi et al. Architectures for parallel query processing on networks of workstations
Zaremba et al. Matchmaking of IaaS cloud computing offers leveraging linked data

Legal Events

Date Code Title Description
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20111109