CN101477542B - 一种抽样分析方法、系统和设备 - Google Patents

一种抽样分析方法、系统和设备 Download PDF

Info

Publication number
CN101477542B
CN101477542B CN2009100011170A CN200910001117A CN101477542B CN 101477542 B CN101477542 B CN 101477542B CN 2009100011170 A CN2009100011170 A CN 2009100011170A CN 200910001117 A CN200910001117 A CN 200910001117A CN 101477542 B CN101477542 B CN 101477542B
Authority
CN
China
Prior art keywords
query
keywords
sampling
subset
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009100011170A
Other languages
English (en)
Other versions
CN101477542A (zh
Inventor
张俊林
孙健
侯磊
张勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2009100011170A priority Critical patent/CN101477542B/zh
Publication of CN101477542A publication Critical patent/CN101477542A/zh
Priority to HK09112042.4A priority patent/HK1132812A1/xx
Priority to US12/657,431 priority patent/US8849798B2/en
Priority to JP2011547965A priority patent/JP5552496B2/ja
Priority to PCT/US2010/000177 priority patent/WO2010085355A1/en
Priority to EP10733732A priority patent/EP2389624A4/en
Application granted granted Critical
Publication of CN101477542B publication Critical patent/CN101477542B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种抽样分析方法,用于对大规模搜索引擎查询的数据分析,该方法包括:根据不同查询关键词的查询记录PV值将查询关键词划分为至少一个查询关键词子集;计算所述查询关键词子集的抽样数目;根据所述抽样数目在所述查询关键词子集中抽取查询数据。通过本申请的实施例,可以从海量的并且经过初步统计整理的查询关键词集合中随机抽取出所需的查询数据,既可以减少后续计算所需的存储量,又能够解决很多方法中小概率低频查询被低估的风险,有效地达到了随机抽取查询记录的目的,使得中等规模或者小规模的抽样可以更逼近于数据的真实分布,从而为搜索引擎服务提供商提供准确的用户查询需求和市场动态信息,提高服务质量。

Description

一种抽样分析方法、系统和设备
技术领域
本申请涉及计算机网络技术领域,特别涉及一种抽样分析方法、系统和设备。 
背景技术
搜索引擎一般会记载用户的查询记录,对于大型搜索引擎,在一定时间段内用户的查询记录是海量数据,而有很大比例的用户查询关键词是重复查询,比如对于最近的热门事件,不同用户进行的查询是相近甚至相同的。搜索引擎服务提供商为了提供更好的服务,会对用户的查询记录进行处理,而一个基础的处理步骤就是将相同查询关键词进行合并,这样可以大量缩小数据存储占用的内存或者磁盘空间。比如,最近有2000个查询关键词是“阿里巴巴”,那么经过合并后的数据形式是“阿里巴巴2000”,其中“阿里巴巴”代表用户查询关键词,2000代表该查询关键词在一段时期的Query Log(查询日志)中出现的次数。但是对于这种已经初步经过整理的统计数据,如何进行查询关键词抽样才能够使得其抽样数据接近于查询关键词的真实分布就成为一个需要解决的问题。 
在现有技术中,对于“查询关键词PV(Page View,查询记录)”这种格式的统计数据,首先要计算每个查询关键词在所有查询关键词中所占的比例,其中PV代表查询关键词在搜索平台出现的次数的统计信息。比如说,对于“阿里巴巴2000”这个查询数据,首先将查询关键词集合中的所有查询关键词PV值之和统计出来,假设这个PV总值是100万,代表了所有用户查询关键词数目是100万条,然后计算“阿里巴巴”这个查询关键词在所有查询关键词中的比例,可知这个比例为2000/1000000=0.0025,这个数据的含义是:在所有查询关键词中,“阿里巴巴”这个查询关键词被随机抽取到的概率是0.0025。当所有查询关键词的抽取概率计算结果得到后,可以根据某个查询关 键词的抽取概率在所有查询关键词组成的集合中进行查询关键词抽样,从而获得相应查询关键词最终的抽样数据,通过对抽样数据的分析了解用户查询关键词的分布情况。比如,在PV总值为100万的查询关键词集合中,预计抽取1万条的查询记录作为查询关键词试样进行分析。具体查询关键词抽样过程如下:根据某个查询关键词的抽取概率确定该查询关键词的抽样数目,即:[某个查询关键词的抽样数目]=[预计抽样数目]*(该查询关键词的抽取概率),其中,查询关键词的抽样数目和预计抽样数目均为正整数。比如,“阿里巴巴”这个查询关键词被随机抽到的概率是0.0025,则在“阿里巴巴2000”这个查询记录中抽取10000*0.0025=25个“阿里巴巴”查询关键词作为查询关键词试样;相同的,其他查询关键词被进行抽样分析的数目可以根据上述计算公式得到;所有查询关键词的抽样数目之和为1万。相对于100万条查询记录来说,对1万条抽样查询记录进行分析处理,数据分析师的工作量和运算步骤会大大降低,提高了工作效率。 
在实现本发明的过程中,发明人发现现有技术至少存在以下问题: 
如果需要抽取的数据数目较大时,现有技术中的抽样分析方法能够在一定程度上模拟真实的数据分布进行数据抽样,但是当需要抽取的数目是中等或者小规模的情况,抽取结果会与数据真实分布有较大的失真。原因在于:在数据统计中,很多数据的统计分布都具有长尾的特性,所谓长尾,即出现频率很低的实体或者数据个数非常多,具体在用户通过搜索引擎查询关键词来说,就是很多用户查询的关键词只出现了很少的次数,比如某些查询的关键词只出现了1次或者2次。虽然某个关键词出现概率很低,但是这些出现低频的查询关键词总数在总的查询关键词个数中所占的比例却很大。对于这种长尾分布的情况,如果采取上述现有技术中的抽样分析方法,会导致无法抽取到低频查询关键词。比如某个应用的目标是需要抽取2000个查询关键词,其中查询PV总数为100万,对于某个查询关键词,以“电子商务1”来说,其被抽取到的概率仅为百万分之一,所以利用上述方法是抽取不到低频查询关键词的。这种根据现有抽样分析方法抽取的数据与真实数据的分布会有很大不同,从而无法根据搜索引擎中查询关键词的抽样分析准确了解用户需求信息和市场动态,也就不能很好的为用户提供方便、快捷的电子商务的网上交易服务。 
发明内容
本申请实施例提供一种抽样分析方法、系统和设备,用于对大规模搜索引擎查询的数据分析,以实现在使用尽可能少的存储空间的情况下得到真实的数据抽样,准确了解用户需求信息和市场动态,提高服务质量。 
为达到上述目的,本申请实施例一方面提供了一种抽样分析方法,用于对大规模搜索引擎查询的数据分析,包括以下步骤: 
根据不同查询关键词的查询记录PV值将查询关键词划分为至少一个查询关键词子集,其中,将所述PV值相同的查询关键词归为一个查询关键词子集; 
计算所述查询关键词子集的抽样数目; 
根据所述抽样数目在所述查询关键词子集中抽取查询数据。 
本申请实施例另一方面提供了一种抽样分析设备,用于对大规模搜索引擎查询的数据分析,包括: 
划分模块,用于根据不同查询关键词的查询记录PV值将查询关键词划分为至少一个查询关键词子集,其中,将所述PV值相同的查询关键词归为一个查询关键词子集; 
计算模块,用于计算通过所述划分模块划分的所述查询关键词子集的抽样数目; 
抽样模块,用于根据所述计算模块得到的抽样数目在所述划分模块划分的所述查询关键词子集中抽取查询数据。 
另一方面,本申请实施例还提供了一种抽样分析系统,用于对大规模搜索引擎查询的数据分析,包括: 
搜索平台,用于为用户查询提供搜索服务,记录不同查询关键词的PV值; 
抽样分析设备,用于根据所述搜索平台记录的不同查询关键词的PV值将查询关键词划分为至少一个查询关键词子集,其中,将所述PV值相同的查询关键词归为一个查询关键词子集,计算所述查询关键词子集的抽样数目,根据所述抽样数目在所述查询关键词子集中抽取查询数据。 
与现有技术相比,本申请实施例具有以下优点:可以从海量的并且经过 
初步统计整理的查询关键词集合中随机抽取出所需的查询记录,既可以减少后续计算所需的存储量,又能够解决现有抽样分析方法中小概率低频查询关键词被低估的风险,有效地达到了随机抽取查询记录的目的,使得中等规模或者小规模的抽样可以更逼近于数据的真实分布;搜索引擎服务提供商可以根据抽样数据建立完善的数学模型,获取真实有效的数据分布信息,准确了解用户需求和市场动态,适当调整搜索引擎的服务内容,从而更好的为用户提供方便、快捷的电子商务网上交易平台,提高服务质量。 
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 
图1是本申请实施例一中一种抽样分析方法流程图; 
图2是本申请实施例二中两阶段抽样分析方法流程图; 
图3是本申请实施例二中第一阶段抽样方法流程图; 
图4是本申请实施例二中第二阶段抽样方法流程图; 
图5是本申请实施例三中一种抽样分析系统结构示意图; 
图6是本申请实施例三中抽样分析设备结构示意图。 
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。 
本申请实施例一提供了一种抽样分析方法,用于对大规模搜索引擎查询的数据分析,具体包括以下步骤: 
步骤S101,根据不同查询关键词的PV值将查询关键词划分为至少一个查询关键词子集。 
其中,PV值具体为在一个预设的时间段内,至少一个查询关键词在搜索平台上出现的次数。在进行抽样分析前,首先对搜索平台在一个时间段内记录的所有用户查询关键词的PV值进行存储,对这些不同查询关键词的PV值进行排序,排序方式可以按照从小到大,也可以按照从大到小,然后将所述PV值相同的查询关键词归为一个查询关键词子集。 
步骤S102,计算所述查询关键词子集中查询关键词的抽样数目。 
在对所有的查询关键词组成的集合进行查询关键词抽样前,首先要根据应用需要确定抽样分析查询关键词的数目。具体的,先计算每个查询关键词子集中PV值的总和SPV(Set Page View,一批查询记录)值,SPV指的是某个查询关键词子集的总PV数目;然后,将每个查询关键词子集得到的SPV值计算总和,得到查询关键词集合中所述查询记录的总次数TPV(Total PageView)值,即在一个预设的时间段内,所有用户查询关键词在搜索平台上出现的总次数;根据得到的所述SPV值与所述TPV值的比值就可以计算得出所述查询关键词子集被抽取到的概率。然后,根据预先确定的需要抽取的查询关键词数目和每个查询关键词子集的抽取概率计算某个查询关键词子集的抽样数目。 
步骤S103,根据所述查询关键词的抽样数目在所述查询关键词子集中抽取查询关键词的查询数据。 
通过随机采样法在查询关键词子集中抽取查询数据,其中随机采样法包括抽签法和/或随机数法。采用随机抽取的查询关键词的查询数据,可以分析在一段时间内用户搜索的不同查询关键词的分布情况,从而可以了解用户的需求信息。 
通过本申请实施例,可以从海量的并且经过初步统计整理的查询关键词集合中随机抽取出所需的查询数据,既可以减少后续计算所需的存储量,又能够解决很多方法中小概率低频查询被低估的风险,有效地达到了随机抽取查询记录的目的,使得中等规模或者小规模的抽样可以更逼近于数据的真实 分布,从而为搜索引擎服务提供商提供准确的用户需求信息和市场动态,提高服务质量。 
对很多搜索引擎服务提供商来说,需要提供一个“目前网友正在搜索什么”的功能,目的是要实时输出网友向搜索引擎发出的查询请求。尤其对于大型搜索引擎来说,很多用户都会利用其进行搜索查询,而且每个用户在该搜索平台上一般会搜索多个查询关键词,因此,即使在很短的一段时间内,搜索引擎所记录的用户查询都是海量数据,比如一天接受到上亿条搜索请求。在记录的用户查询关键词中,有很大比例的用户查询的关键词是重复的查询,也就是说,不同用户发出的查询关键词是相近甚至是相同的,比如对于最近的热门事件,可能会有成百上千万的用户在很短的一个时间段内集中发出同一个查询请求查询该事件。搜索引擎服务提供商需要在一定的时间段内,对海量的用户查询请求进行处理,以便为用户提供更好的服务,其中一个基础的处理步骤就是将相同的用户查询关键词合并,这样,可以大大缩小数据存储所占用的内存或者磁盘空间。为了了解用户需求,为用户提供更好、更便利的服务,需要对一段时间内的用户查询关键词进行抽样分析和调查。当然,确定抽样的查询关键词数目相对于总的所有用户查询关键词来说,其比例是很小的。如果直接对整理后的查询记录进行抽样分析的话,那些在该段时间内查询频率较高的、大规模的用户查询关键词被抽到的概率就比较高,而那些低频的、小规模的用户查询关键词被抽到的概率就非常低,因此不能达到最初的抽样的目的。另外,由于网页显示空间有限,不可能把所有网友实时的查询关键词都显示出来,所以只能通过对查询关键词进行抽样,建立小规模查询记录的数学模型来显示,而为了能够准确反映用户的查询需求,要求这种抽样和海量的用户查询的关键词分布是真实逼近的。 
本申请实施例二针对带有部分统计信息的大规模搜索引擎查询的真实抽样问题,提供了另一种抽样分析方法,采用两阶段的抽样方法,来解决现有技术中存在的问题,使得其抽样数据接近于查询的真实分布。整体方法的流程如图2所示。如果对某个查询应用已经确定需要抽取的查询数目M,在本申请的第一阶段,首先根据每个搜索引擎查询关键词的PV值将查询关键词归类, 并计算每个类别的抽取概率,由此可以计算得到从每个类别中抽取到的查询关键词的数目;在本申请的第二阶段,可以在查询关键词组成的某个类别里面采用随机抽样的方法抽取最终的查询数据。 
在下面的实施例中,对第一阶段和第二阶段的抽样方法的流程作进一步详细描述。其中,在第一阶段计算每个查询关键词子集的抽样数目,其方法流程如图3所示,包括以下步骤: 
步骤S301、将以“查询关键词PV”格式存储的搜索引擎查询关键词集合按照PV数值进行排序。排序可以是PV值由大到小的方式,也可以是PV值由小到大的方式,其排序方式不影响后续步骤的操作。例如,假设在一个时间段内,搜索引擎记录的所有用户查询关键词总数目TPV为10万条,其中,查询“阿里巴巴”关键词的记录有2000条,存储为“阿里巴巴2000”;查询“电子商务”的记录有1800条,存储为“电子商务1800”;查询“电脑”的记录有500条,存储为“电脑500”;查询“服饰”的记录500条,存储为“服饰500”;......;另外还有“水杯”查询60条,“铅笔”查询60条,“便笺本”查询60条,等等,均按照上述的储存格式进行存储。然后,将上述查询集合按照从小到大的顺序排列,即:“水杯60”,“铅笔60”,“便笺本60”,......,“电脑500”,“服饰500”,“电子商务1800”,“阿里巴巴2000”,......。 
步骤S302、将PV值相同的查询关键词进行归并。 
对于PV值相同的查询关键词,可以将所有这些查询关键词看做一个查询关键词集合的子集QuerySet,属于QuerySet集合的这些查询的共通属性是:每个查询关键词的PV值都相同;这样,可以根据不同的PV值得到不同的QuerySet,假设PV值是从1到K(K为大于1的自然数),那么可以据此得到查询关键词子集合QuerySet1,QuerySet2,......,QuerySetK。当然,在具体情况下,对于不同的用户查询,搜索引擎在一个时间段内统计的每个查询关键词的PV值也可能是不连续的。将步骤S301中PV值相同的查询关键词进行合并,可以顺序得到多个查询关键词子集合,如:QuerySet60,QuerySet500,QuerySet1800,QuerySet2000,等等。 
步骤S303、计算每个查询关键词子集合的抽取概率。 
对于PV值为i的查询组成的查询关键词子集合QuerySetI,统计计算得到这个查询关键词子集合的总PV数目,即SPV值:SPVi=I*|QuerySetI|,其中,I代表PV值为I,|QuerySetI|代表这个查询关键词子集合的大小,也就是说,有多少个PV值为i的查询关键词属于这个子集合,即对于步骤S302中的查询关键词子集合QuerySet60来说,假设其中有30个“查询关键词60”的查询记录,|QuerySet60|等于30,代表这个查询关键词子集合中有30个不同的查询,则SPV值为60*30=1800。对于满足长尾分布的数据来说,一般PV数值越小,其组成的查询关键词子集合包含的查询关键词个数越多,所以虽然对于单个查询关键词来说PV值很小,但是SPV作为统计信息其值并不因单个查询关键词的PV值小而受影响。例如,对于“水杯60”查询数据来说,其PV值相对于所有查询总和TPV值10万,甚至相对于“阿里巴巴2000”的PV值2000来说是很小的一个数字,但是,该“水杯60”查询数据所在的查询关键词子集合QuerySet60,其SPV值为1800,与“阿里巴巴2000”所在的查询关键词子集合的SPV值2000(假设只有1个“阿里巴巴2000”的查询记录)非常接近。 
为了计算每个查询关键词子集合的抽取概率,将所有查询关键词子集合的SPV数目求和,得到所有查询关键词的PV总数,称之为TPV;有了TPV,就可以计算抽样过程中每个查询关键词子集合被抽取到的概率,例如对于PV值为i的查询关键词子集合来说,其被抽取到的概率为Pi=SPVi/TPV。 
经过如上步骤,每个查询关键词子集合都可以计算得到该集合被抽取到的概率Pi。这个概率对于本抽样方法是很重要的,因为对于很多低频出现的查询关键词来说,低频查询本身被抽取到的概率非常小。但是,对于由相同PV值组成的查询关键词子集合来说,往往低频查询的关键词的个数会很多,所以由低频查询关键词组成的查询关键词子集合SPV数目还是较大的,如此一来,这些低频查询关键词作为一个整体被抽样,其被抽取到的概率就被有效放大,使得最终抽样得出的数据更加符合数据的真实分布。如:查询关键词子集合QuerySet60被抽取到的概率为P60=1800/100000=0.018,而QuerySet2000被抽取到的概率为P2000=2000/100000=0.020,从得出的数据结 果可以看出,查询关键词子集合QuerySet60与QuerySet2000分别被抽取到的概率是非常接近的。 
在本申请的第一阶段,假设具体某个应用已经确定了抽样数目K,那么可以根据每个查询关键词子集合被抽取到的概率计算应从本集合中抽取的查询数目,比如确定K为5000,而PV=60的子集合抽取概率为0.018,那么需要从QuerySet60中抽取的查询个数为:5000*0.018=90个;假设PV=2的集合抽取概率为0.010,那么需要从QuerySet2中抽取的查询个数为:5000*0.010=50个。 
在抽样的第二阶段,从每个查询关键词子集中抽取最终的查询关键词。通过在第一阶段对不同的查询数据进行归类和统计,确定了从某个查询关键词子集合中需要抽取出的查询数目,第二阶段就从某个指定查询关键词子集合中随机抽取某条查询关键词,其流程如图4所示。由于在第一阶段已经能够确定在某个查询关键词子集合中需要抽取的查询数目N(N为自然数),所以在第二阶段进行抽样查询时,需要对某个查询关键词子集合连续抽样N次,每次从该查询关键词子集中随机抽取一条查询记录,直到取满N条为止。例如,对于查询关键词子集合QuerySet60,在第一阶段步骤S303中,已经根据该集合被抽取到的概率计算得出在该查询子集合中需要抽取的查询数目为90条,因此,在进行最后查询关键词抽样时,要从该查询关键词子集合中连续随机抽样90次,得到90条查询记录。 
在某个查询关键词子集合抽取任意一条搜索引擎查询记录的时候,由于在第一阶段对所有查询关键词归类时所遵循的原则是:相同PV值的查询关键词归为一类。因此,对于该查询关键词子集合中的每个查询关键词来说,其被某次抽样抽取到的概率应该是等概率事件,即每个查询关键词被抽取到的概率是相同的。例如,在查询关键词子集合QuerySet60中进行抽样时,抽取到的90条记录中,可能包括“水杯”查询记录2条,“铅笔”查询记录3条,等等。这样,对低频查询进行抽样时,所得的抽样结果就可以逼近于数据的真实分布,达到最初进行抽样分析的目的。 
在本阶段对某个查询关键词子集合进行抽样,可以采用常用的随机采样 方法,比如抽签法或者随机数法进行抽样。在本实施例中,采用随机数方法对这个查询关键词子集合中的查询关键词进行抽样,其具体计算流程如算法1所示。 
算法1:采用随机数法从查询子集中抽取任意一条查询记录 
输入:查询关键词子集QuerySet输出:查询记录L计算流程:步骤1:计算得到QeurySet集合的大小M;步骤2:顺序扫描QeurySet的每条查询记录,并依次编号,编号范围1-M;步骤3:产生一个随机数K,其范围为1-M;步骤4:从QuerySet中找到编号为K的查询记录L;步骤5:输出查询记录L。
通过本申请实施例,采用两阶段抽样分析方法,从海量的并且经过初步统计整理的搜索引擎查询关键词集合中随机抽取出所需的查询,抽样结果逼近真实数据分布情况。采用这种抽样方式,既可以通过保留并利用初步统计数据,以减少后续计算所需的存储量,又能够解决很多方法中小概率低频查询被低估的风险,有效地达到了随机抽取进行抽样分析的目标;根据抽样数据获知的信息,搜索引擎服务提供商可以准确了解用户需求和市场动态,从中发现一些商业机会,适当调整搜索引擎的服务内容,从而更好的为用户提供方便、快捷的电子商务网上交易平台,提高服务质量。 
本申请实施例三提供了一种抽样分析系统,用于对大规模搜索引擎查询的数据分析,其结构如图5所示,包括: 
搜索平台1,用于为用户查询提供搜索服务,记录不同查询关键词的PV值; 
抽样分析设备2,用于根据所述搜索平台1记录的不同查询关键词的PV值将查询关键词集合划分为至少一个查询关键词子集,计算所述查询关键词子集的抽样数目,根据所述抽样数目在所述查询关键词子集中抽取查询数据。 
其中,抽样分析设备2的结构如图6所示,包括: 
划分模块21,用于根据不同查询关键词的查询记录PV值将查询关键词划分为至少一个查询关键词子集; 
计算模块22,用于计算通过划分模块21划分的所述查询关键词子集的抽样数目; 
抽样模块23,用于根据计算模块22得到的抽样数目在划分模块21划分的所述查询关键词子集中抽取查询数据。 
另外,该抽样分析设备2还可以包括:存储模块24,用于存储所述PV值,所述PV值具体为在一个预设的时间段内,至少一个查询关键词出现的次数。 
其中, 
划分模块21还可以进一步包括: 
排序子模块211,用于对存储模块24存储的所述不同查询关键词的PV值进行排序; 
归类子模块212,用于根据排序子模块211安排的顺序将所述PV值相同的查询关键词归为一个查询关键词子集。 
计算模块22还可以进一步包括: 
概率计算子模块221,用于计算所述查询关键词子集的抽取概率; 
抽样计算子模块222,用于根据确定抽取的查询数目和概率计算子模块221得到的抽取概率计算所述查询关键词子集的抽样数目。 
通过本申请实施例提供的抽样分析系统和设备,可以从海量的并且经过初步统计整理的查询关键词集合中随机抽取出所需的查询数据,既可以减少后续计算所需的存储量,又能够解决很多方法中小概率低频查询关键词被低估的风险,有效地达到了随机抽取查询记录的目的,使得中等规模或者小规模的抽样可以更逼近于数据的真实分布,从而为搜索引擎服务提供商提供准确的用户需求信息和市场动态,提高服务质量。 
为了描述的方便,以上所述系统的各部分以功能分为各种模块或设备分别描述。当然,在实施本发明时可以把各模块或设备的功能在同一个或多个软件或硬件中实现。 
上述模块可以分布于一个装置,也可以分布于多个装置。上述模块可以合并为一个模块,也可以进一步拆分成多个子模块。 
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的。 
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。 
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。 
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。 
以上公开的仅为本申请的几个具体实施例,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。 

Claims (12)

1.一种抽样分析方法,用于对大规模搜索引擎查询的数据分析,其特征在于,包括:
根据不同查询关键词的查询记录PV值将查询关键词划分为至少一个查询关键词子集,其中,将所述PV值相同的查询关键词归为一个查询关键词子集;
计算所述查询关键词子集的抽样数目;所述计算所述查询关键词子集的抽样数目之前,还包括:确定该次抽样分析所要抽取的查询关键词数目;所述计算所述查询关键词子集的抽样数目包括:计算所述查询关键词子集的抽取概率;根据所述确定抽取的查询关键词数目和所述抽取概率计算所述查询关键词子集的抽样数目;
根据所述抽样数目在所述查询关键词子集中抽取查询数据。
2.如权利要求1所述抽样分析方法,其特征在于,在所述根据不同查询关键词的查询记录PV值将查询关键词划分为至少一个查询关键词子集之前,还包括:
存储所述不同查询关键词的查询记录PV值,所述PV值具体为在一个预设的时间段内,至少一个查询关键词在搜索平台出现的次数。
3.如权利要求1所述抽样分析方法,其特征在于,所述根据不同查询关键词的PV值将查询关键词划分为至少一个查询关键词子集,包括:
对所述PV值进行排序;
将所述PV值相同的查询关键词归为一个查询关键词子集。
4.如权利要求3所述抽样分析方法,其特征在于,所述对所述PV值进行排序,包括:
对所述PV值按照从小到大方式排序;或,
对所述PV值按照从大到小方式排序。
5.如权利要求1所述抽样分析方法,其特征在于,所述计算所述查询关键词子集的抽取概率,包括:
计算所述查询关键词子集中所述PV值的总和SPV值; 
根据所述SPV值得到查询关键词集合中所述查询记录的总次数TPV值;
根据所述SPV值与所述TPV值的比值获得所述查询关键词子集的抽取概率。
6.如权利要求1所述抽样分析方法,其特征在于,所述根据所述抽样数目在所述查询关键词子集中抽取查询数据通过随机采样法获得。
7.如权利要求6所述抽样分析方法,其特征在于,所述随机采样法包括:抽签法和/或随机数法。
8.一种抽样分析设备,用于对大规模搜索引擎查询的数据分析,其特征在于,包括:
划分模块,用于根据不同查询关键词的查询记录PV值将查询关键词划分为至少一个查询关键词子集,其中,将所述PV值相同的查询关键词归为一个查询关键词子集;
计算模块,用于计算通过所述划分模块划分的所述查询关键词子集的抽样数目;所述计算所述查询关键词子集的抽样数目之前,还包括:确定该次抽样分析所要抽取的查询关键词数目;所述计算所述查询关键词子集的抽样数目包括:计算所述查询关键词子集的抽取概率;根据所述确定抽取的查询关键词数目和所述抽取概率计算所述查询关键词子集的抽样数目;
抽样模块,用于根据所述计算模块得到的抽样数目在所述划分模块划分的所述查询关键词子集中抽取查询数据。
9.如权利要求8所述抽样分析设备,其特征在于,还包括:
存储模块,用于存储所述不同查询关键词的PV值,所述PV值具体为在一个预设的时间段内,至少一个查询关键词出现的次数。
10.如权利要求9所述抽样分析设备,其特征在于,所述划分模块包括:
排序子模块,用于对所述存储模块存储的所述不同查询关键词的PV值进行排序;
归类子模块,用于根据所述排序子模块安排的顺序将所述PV值相同的查询关键词归为一个查询关键词子集。
11.如权利要求8所述抽样分析设备,其特征在于,所述计算模块包括: 
概率计算子模块,用于计算所述查询关键词子集的抽取概率;
抽样计算子模块,用于根据确定抽取的查询数目和所述概率计算子模块得到的抽取概率计算所述查询关键词子集的抽样数目;在所述计算所述查询关键词子集的抽样数目之前,还包括:确定该次抽样分析所要抽取的查询关键词数目。
12.一种抽样分析系统,用于对大规模搜索引擎查询的数据分析,其特征在于,包括:
搜索平台,用于为用户查询提供搜索服务,记录不同查询关键词的PV值;
抽样分析设备,用于根据所述搜索平台记录的不同查询关键词的PV值将查询关键词划分为至少一个查询关键词子集,其中,将所述PV值相同的查询关键词归为一个查询关键词子集,计算所述查询关键词子集的抽样数目,所述计算所述查询关键词子集的抽样数目之前,还包括:确定该次抽样分析所要抽取的查询关键词数目;所述计算所述查询关键词子集的抽样数目包括:计算所述查询关键词子集的抽取概率;根据所述确定抽取的查询关键词数目和所述抽取概率计算所述查询关键词子集的抽样数目;根据所述抽样数目在所述查询关键词子集中抽取查询数据。 
CN2009100011170A 2009-01-22 2009-01-22 一种抽样分析方法、系统和设备 Expired - Fee Related CN101477542B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN2009100011170A CN101477542B (zh) 2009-01-22 2009-01-22 一种抽样分析方法、系统和设备
HK09112042.4A HK1132812A1 (en) 2009-01-22 2009-12-22 Sampling analysis method, system and device
US12/657,431 US8849798B2 (en) 2009-01-22 2010-01-20 Sampling analysis of search queries
JP2011547965A JP5552496B2 (ja) 2009-01-22 2010-01-21 検索クエリのサンプリング解析
PCT/US2010/000177 WO2010085355A1 (en) 2009-01-22 2010-01-21 Sampling analysis of search queries
EP10733732A EP2389624A4 (en) 2009-01-22 2010-01-21 SAMPLE ANALYSIS OF SEARCH QUESTIONS

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100011170A CN101477542B (zh) 2009-01-22 2009-01-22 一种抽样分析方法、系统和设备

Publications (2)

Publication Number Publication Date
CN101477542A CN101477542A (zh) 2009-07-08
CN101477542B true CN101477542B (zh) 2013-02-13

Family

ID=40838259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100011170A Expired - Fee Related CN101477542B (zh) 2009-01-22 2009-01-22 一种抽样分析方法、系统和设备

Country Status (6)

Country Link
US (1) US8849798B2 (zh)
EP (1) EP2389624A4 (zh)
JP (1) JP5552496B2 (zh)
CN (1) CN101477542B (zh)
HK (1) HK1132812A1 (zh)
WO (1) WO2010085355A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286150B (zh) * 2007-04-10 2010-09-15 阿里巴巴集团控股有限公司 生成更新参数的方法和装置、展示相关关键词的方法和装置
CN102654862B (zh) * 2011-03-01 2016-02-17 腾讯科技(深圳)有限公司 信息相关性分析方法和装置
US8667007B2 (en) 2011-05-26 2014-03-04 International Business Machines Corporation Hybrid and iterative keyword and category search technique
US20140222788A1 (en) * 2011-08-24 2014-08-07 The Regents Of The University Of California Research recommendation system
CN102968418A (zh) 2011-09-01 2013-03-13 阿里巴巴集团控股有限公司 网站信息检索方法和系统
CN103778129B (zh) * 2012-10-18 2019-02-05 腾讯科技(深圳)有限公司 一种博客数据搜索方法及系统
US8892597B1 (en) * 2012-12-11 2014-11-18 Google Inc. Selecting data collections to search based on the query
US8631325B1 (en) 2013-08-09 2014-01-14 Zoomdata, Inc. Real-time data visualization of streaming data
CN104133824B (zh) * 2013-08-13 2015-09-09 腾讯科技(深圳)有限公司 一种样本属性的动态分布数据获取方法及系统
US9251224B2 (en) * 2014-03-04 2016-02-02 Google Inc. Triggering and ranking of native applications
US9589050B2 (en) 2014-04-07 2017-03-07 International Business Machines Corporation Semantic context based keyword search techniques
US9251276B1 (en) 2015-02-27 2016-02-02 Zoomdata, Inc. Prioritization of retrieval and/or processing of data
CN104991969B (zh) * 2015-07-28 2018-09-04 北京奇虎科技有限公司 根据预设模板生成模拟事件结果集合的方法及装置
US9942312B1 (en) 2016-12-16 2018-04-10 Zoomdata, Inc. System and method for facilitating load reduction at a landing zone
CN107194592A (zh) * 2017-05-26 2017-09-22 北京师范大学 一种土地监管抽样方法及系统
CN108491262A (zh) * 2018-02-28 2018-09-04 华为技术有限公司 一种抽样查询的方法和装置
CN108920617B (zh) * 2018-06-28 2022-07-12 中译语通科技股份有限公司 一种数据采集的判定系统及方法、信息数据处理终端
CN110825783B (zh) * 2019-10-31 2024-07-02 深圳前海微众银行股份有限公司 数据抽样方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1882943A (zh) * 2003-10-09 2006-12-20 雅虎公司 使用超单元的搜索处理的系统和方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6119114A (en) 1996-09-17 2000-09-12 Smadja; Frank Method and apparatus for dynamic relevance ranking
JPH11259518A (ja) * 1998-03-13 1999-09-24 Hitachi Ltd データベース検索方法
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6578032B1 (en) * 2000-06-28 2003-06-10 Microsoft Corporation Method and system for performing phrase/word clustering and cluster merging
US7062485B1 (en) 2000-09-01 2006-06-13 Huaichuan Hubert Jin Method and apparatus for score normalization for information retrieval applications
JP2002351897A (ja) * 2001-05-22 2002-12-06 Fujitsu Ltd 情報利用頻度予測プログラム、情報利用頻度予測装置および情報利用頻度予測方法
US6691099B1 (en) * 2001-05-31 2004-02-10 Oracle International Corporation Method and system for histogram determination in a database
US20040044571A1 (en) 2002-08-27 2004-03-04 Bronnimann Eric Robert Method and system for providing advertising listing variance in distribution feeds over the internet to maximize revenue to the advertising distributor
JP2004206517A (ja) 2002-12-26 2004-07-22 Nifty Corp ホットキーワード提示方法及びホットサイト提示方法
US7340460B1 (en) * 2003-04-04 2008-03-04 Yahoo! Inc. Vector analysis of histograms for units of a concept network in search query processing
US7051023B2 (en) * 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US7197497B2 (en) 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
US7424421B2 (en) * 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
KR100481141B1 (ko) 2004-04-17 2005-04-07 엔에이치엔(주) 소정의 검색 요청에 의해 검색 목록순을 추출하는 검색어광고 제공 시스템 및 검색어 광고 제공 방법
CN100354863C (zh) 2005-02-03 2007-12-12 中国科学院计算技术研究所 大规模关键词匹配的方法和系统
CN1818908A (zh) 2006-03-16 2006-08-16 董崇军 一种在搜索引擎中应用搜索者反馈信息的方法
US8126874B2 (en) * 2006-05-09 2012-02-28 Google Inc. Systems and methods for generating statistics from search engine query logs
US8332269B2 (en) 2006-06-27 2012-12-11 Adchemy, Inc. System and method for generating target bids for advertisement group keywords
US7831472B2 (en) 2006-08-22 2010-11-09 Yufik Yan M Methods and system for search engine revenue maximization in internet advertising
US20080249855A1 (en) 2007-04-04 2008-10-09 Yahoo! Inc. System for generating advertising creatives
US7644075B2 (en) * 2007-06-01 2010-01-05 Microsoft Corporation Keyword usage score based on frequency impulse and frequency weight
US8806321B2 (en) * 2007-06-26 2014-08-12 Oracle International Corporation Interactive controls and information visualization using histogram equalization
CN100520782C (zh) 2007-11-09 2009-07-29 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
US9798806B2 (en) * 2008-03-31 2017-10-24 Excalibur Ip, Llc Information retrieval using dynamic guided navigation
US7962487B2 (en) * 2008-12-29 2011-06-14 Microsoft Corporation Ranking oriented query clustering and applications

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1882943A (zh) * 2003-10-09 2006-12-20 雅虎公司 使用超单元的搜索处理的系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
US2005/0080795A1 2005.04.14

Also Published As

Publication number Publication date
CN101477542A (zh) 2009-07-08
EP2389624A4 (en) 2013-02-13
US8849798B2 (en) 2014-09-30
US20100185619A1 (en) 2010-07-22
JP5552496B2 (ja) 2014-07-16
HK1132812A1 (en) 2010-03-05
EP2389624A1 (en) 2011-11-30
WO2010085355A1 (en) 2010-07-29
JP2012515978A (ja) 2012-07-12

Similar Documents

Publication Publication Date Title
CN101477542B (zh) 一种抽样分析方法、系统和设备
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN106980573B (zh) 一种构建测试用例请求对象的方法、装置及系统
CN102043833B (zh) 一种基于查询词进行搜索的方法和搜索装置
CN102880712B (zh) 一种用于对搜索的网络视频进行排序的方法和系统
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN110457577B (zh) 数据处理方法、装置、设备和计算机存储介质
JP2013504118A (ja) クエリのセマンティックパターンに基づく情報検索
CN103064880B (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和系统
CN105389590B (zh) 一种视频聚类推荐方法和装置
CN106897280B (zh) 数据查询方法及装置
US20190149344A1 (en) Intelligent search system for service cost and method thereof
CN106557558A (zh) 一种数据分析方法及装置
CN103838754A (zh) 信息搜索装置及方法
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
CN104317946A (zh) 一种基于多张关键图的图像内容检索方法
CN117725437B (zh) 一种基于机器学习的数据精准匹配分析方法
US8024341B1 (en) Query expansion
CN109462635B (zh) 一种信息推送方法、计算机可读存储介质及服务器
Lee et al. The geographic flow of music
CN104462347A (zh) 关键词的分类方法及装置
CN103823847A (zh) 一种关键词的扩充方法及装置
CN107133321B (zh) 页面的搜索特性的分析方法和分析装置
CN113408207A (zh) 基于社会网络分析技术的数据挖掘的一种方法
CN111259117B (zh) 短文本批量匹配方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1132812

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1132812

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130213

Termination date: 20220122

CF01 Termination of patent right due to non-payment of annual fee