CN104281691B

CN104281691B - 一种基于搜索引擎的数据处理方法及平台

Info

Publication number: CN104281691B
Application number: CN201410535635.1A
Authority: CN
Inventors: 郑鹏; 韩聪
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-10-11
Filing date: 2014-10-11
Publication date: 2017-07-21
Anticipated expiration: 2034-10-11
Also published as: CN104281691A

Abstract

本发明公开了一种基于搜索引擎的数据处理方法及平台，该方法包括：通过搜索引擎的搜索结果获取在N个时间段内的N×r个初始统计信息；对N个时间段的每一个时间段内的r个设定点击位置对应的r个样本量的第一均值与第一方差以各自的样本量为权值进行加权合并，得到N个每一个时间段内的位置合并后的第二均值与第二方差；对N个位置合并后的第二均值与第二方差在时间上进行加权合并，得到N个时间段对应的整体均值与整体方差；根据整体均值与整体方差获取用于A/B测试的统计量。本发明实施例可以使互联网搜索中的指标通过A/B测试进行有效的检验，为分析人员对实验效果的评估提供科学、客观的依据。

Description

一种基于搜索引擎的数据处理方法及平台

技术领域

本发明涉及互联网络技术领域，尤其涉及一种基于搜索引擎的数据处理方法及平台。

背景技术

搜索引擎上的搜索页上每年都有几百个商业产品和策略做小流量实验，这些产品和策略是否能全流量上线，是通过对各类指标的实验效果进行评估来决定的。目前，在生物、医疗和教育等领域比较常用的方法是A/B测试(A/B test)。但在互联网搜索领域，因互联网需要检测的数据结构复杂、指标类型多，因此尚未构造出合适的统计量来执行A/B测试。现有技术通过判断绝对差A-B或相对差A/B是否在经验范围内，从而确定对各类指标的实验是否有效果，然而，由于通过判断绝对差A-B或相对差A/B是否在经验范围内的方式完全依赖经验，因此有失客观。

发明内容

本发明的实施例提供一种基于搜索引擎的数据处理方法及平台，为分析人员对实验效果的评估提供科学、客观的依据。

为达到上述目的，本发明的实施例采用如下技术方案：

一种基于搜索引擎的数据处理方法，包括：

通过所述搜索引擎的搜索结果获取在N个时间段内的N×r个初始统计信息，其中，所述N个时间段内的每一个时间段对应r个设定点击位置的初始统计信息，所述初始统计信息包括样本量、所述样本量对应的第一均值与第一方差，N，r均为正整数。

对所述N个时间段的每一个时间段内的r个设定点击位置对应的r个样本量的第一均值与第一方差以各自的样本量为权值进行加权合并，得到N个每一个时间段内的位置合并后的第二均值与第二方差。

对N个所述位置合并后的第二均值与第二方差在时间上进行加权合并，得到所述N个时间段对应的整体均值与整体方差。

根据所述整体均值与整体方差获取用于A/B测试的统计量。

一种基于搜索引擎的数据处理平台，包括：

第一获取模块，用于通过所述搜索引擎的搜索结果获取在N个时间段内的N×r个初始统计信息，其中，所述N个时间段内的每一个时间段对应r个设定点击位置的初始统计信息，所述初始统计信息包括样本量、所述样本量对应的均值与方差，N，r均为正整数。

第一处理模块，用于对所述N个时间段的每一个时间段内的r个设定点击位置对应的r个样本量的第一均值与第一方差以各自的样本量为权值进行加权合并，得到N个每一个时间段内的位置合并后的第二均值与第二方差。

第二处理模块，用于对N个所述位置合并后的第二均值与第二方差在时间上进行加权合并，得到所述N个时间段对应的整体均值与整体方差。

第二获取模块，用于根据所述整体均值与整体方差获取用于A/B测试的统计量。

本发明实施例提供的基于搜索引擎的数据处理方法及平台，通过对N个时间段内的N×r个初始统计信息进行处理得到整体均值与方差，该整体均值与方差可以作为A/B测试的输入，从而可以使互联网搜索中的指标通过A/B测试进行有效的检验，为分析人员对实验效果的评估提供科学、客观的依据；此外，通过N个时间段的长短可以确定获取整体均值与方差的时长，从而提高了实验效率，节省了实验资源。

附图说明

图1为本发明实施例一提供的基于搜索引擎的数据处理方法的流程示意图。

图2为图1所示实施例中的场景示意图之一。

图3为图1所示实施例中的场景示意图之二。

图4为本发明实施例二提供的基于搜索引擎的数据处理方法的流程示意图。

图5为图3所示实施例中的场景示意图之一。

图6为本发明实施例三提供的基于搜索引擎的数据处理平台的结构示意图。

图7为本发明实施例四提供的基于搜索引擎的数据处理平台的结构示意图。

具体实施方式

下面结合附图对本发明实施例基于搜索引擎的数据处理方法及平台进行详细描述。

A/B测试通过比较A组与B组之间是否有差别的核心思想是假设检验，假设检验的基本原理是先对总体的特征做出某种假设，然后通过抽样研究的统计推理，对该假设应该被拒绝还是接受做出推断。

实施例一：

图1为本发明实施例一提供的基于搜索引擎的数据处理方法的流程示意图，图2为图1所示实施例中的场景示意图之一，图3为图1所示实施例中的场景示意图之二；图1将结合图2和图3说明，如图1所示，本发明实施例包括如下步骤：

步骤101，通过搜索引擎的搜索结果获取在N个时间段内的N×r个初始统计信息，其中，N个时间段内的每一个时间段对应r个设定点击位置的初始统计信息，初始统计信息包括样本量、样本量对应的第一均值与第一方差，N，r均为正整数。

步骤102，对N个时间段的每一个时间段内的r个设定点击位置对应的r个样本量的第一均值与第一方差以各自的样本量为权值进行加权合并，得到N个每一个时间段内的位置合并后的第二均值与第二方差。

步骤103，对N个位置合并后的第二均值与第二方差在时间上进行加权合并，得到N个时间段对应的整体均值与整体方差。

步骤104，根据整体均值与整体方差获取用于A/B测试的统计量。

在步骤101中，可以通过动态服务器页面(Active Server Page，简称为ASP)日志获取到搜索引擎的搜索结果，进一步在该搜索结果中获取N个时间段内的r个设定点击位置的N×r个初始统计信息。如图2所示，在T1时间段获取第1位的初始统计信息、第2位的初始统计信息、…、第r位的初始统计信息，其中，第1位、第2位、…、第r位在搜索引擎的页面上的位置如图3所示。在图3中以关键词“鲜花”进行搜索，出现在该搜索页面的排位即为本发明实施例中的设定点击位置，该设定点击位置的个数可以依据互联网运营商的具体情况设置，本发明实施例对设定点击位置的个数以及在搜索页面中的具体位置不做限制。

进一步地，初始统计信息包括样本量以及样本量对应的均值与方差，例如，以第1位的点击位置为例，在T1时间段内，在第1位的抽样观测值分别为x₁,x₂,…,x_n，则第1位的设定点击位置的抽样观测均值为方差为并且从概率统计的角度可以获知抽样观测均值渐进于正态分布，此时抽样观测均值的方差为：此外，第2位、第3位、…、第r位与上述第1位的抽样观测值类似，在此不再赘述。

在步骤102中，如图2所示，由于不同设定点击位置之间的均值与方差互不相同，为求设定点击位置的整体均值与整体方差，需要以各自的样本量为权重进行加权合并，即，分别对T1时间段、T2时间段、TN时间段内的r个设定点击位置对应的r个样本量的第一均值与第一方差以各自的样本量为权值进行加权合并，得到N个每一个时间段内的位置合并后的第二均值与第二方差。例如，T1时间段内的第1位、第2位、…、第r位各自对应的权值可以由各自的样本量的个数与T1时间段内的总样本量的个数的比值来确定。

在步骤103中，对r个设定点击位置合并后的第二均值与第二方差在时间上进行加权合并，得到N个时间段对应的整体均值与整体方差，例如，T1时间段、T2时间段、…、TN时间段各自对应的权值可以由各自的总样本量的个数与总时间段内的总样本量的个数的比值来确定。

在步骤104中，通过上述步骤102和步骤103的分时段、分位置的处理，得到整体均值服从正态分布，从而可以求出其分布特征，进一步将整体均值与整体方差作为A/B测试的输入，得到A/B测试的统计量，实现A/B测试。

本发明实施例提供的基于搜索引擎的数据处理方法，通过对N个时间段内的N×r个初始统计信息进行处理得到整体均值与整体方差，该整体均值与整体方差可以作为A/B测试的输入，从而可以使互联网搜索中的指标通过A/B测试进行有效的检验，为分析人员对实验效果的评估提供科学、客观的依据；此外，通过N个时间段的长短可以确定获取整体均值与整体方差的时长，从而提高了实验效率，节省了实验资源。

实施例二：

图4为本发明实施例二提供的基于搜索引擎的数据处理方法的流程示意图，图5为图3所示实施例中的场景示意图之一；图4将结合图5说明，如图4所示，本发明实施例包括如下步骤：

步骤201，通过搜索引擎的搜索结果获取在N个时间段内的N×r个初始统计信息，执行步骤202；其中，N个时间段内的每一个时间段对应r个设定点击位置的初始统计信息，初始统计信息包括样本量、样本量对应的第一均值与第一方差，N，r均为正整数。

步骤202，对N个时间段的每一个时间段的数据按点击位置进行聚类，并分别统计每一个时间段下r个聚类结果的表示数据分布特征的第一均值和第一方差，其中，每一个时间段下的聚类结果有r个聚类集合。

步骤203，统计r个聚类集合之间的相关系数矩阵。

步骤204，根据相关系数矩阵对每一时间段下所述r个聚类集合的第一均值与第一方差进行加权合并，得到r个聚类集合合并后的表示分布特征的第二均值与第二方差。

步骤205，对N个位置合并后的第二均值与第二方差在时间上进行加权合并，得到N个时间段对应的整体均值与整体方差。

步骤206，根据整体均值与整体方差获取用于A/B测试的统计量。

上述步骤201的具体实现过程可以参见上述实施例一中的步骤101的相关描述，在此不在赘述。

在步骤202中，由于真实数据并不满足同分布假设，例如上述步骤201中的不同时间的不同设定点击位置的N×r个初始统计信息的数据分布互不形同。本发明实施例通过聚类将属性相同或相近的数据聚成一类，进一步地，本发明实施例中所述的属性包括：时间、设定点击位置等。

在通过上述步骤202进行数据聚类之后，可以对N×r个初始统计信息利用同分布的假设，分别统计计算各类数据集合的第一均值与第一方差。因为每个初始统计信息的数据是独立同分布的，那么由中心极限定理，各初始统计信息对应的集合分布的均值随样本量增加趋于正态分布。

在上述步骤203中，在真实数据中，独立性也不能完全成立，例如，通过搜索引擎上的某一搜索触发了多条广告，这些广告之间的点击存在相关性。在聚类完成后，需要统计出各初始统计信息的数据集合之间的协方差，进而计算出各初始统计信息之间的相互关系。在一个实施例中，获取每一个时间段内对应的搜索结果；如果r个聚类集合之间的数据存在相关性，根据每一个时间段内对应的搜索结果获取r个聚类集合之间的每一个时间段内的相关系数矩阵。

在每一时间段内统计任意两个不同设定位置在一次搜索下同时有展现和同时有点击的次数，对r个设定点击位置，共有r×(r-1)/2种位置组合；根据对r×(r-1)/2种位置组合的展现次数和点击次数的统计结果，获取r个聚类集合之间的相关系数矩阵。

在步骤204中，对每一个时间段，根据r个聚类集合的第一均值、第一方差和相关系数矩阵，同时按r个聚类集合的样本量加权；获取加权后的每一个时间段下按点击位置合并后的第二均值与第二方差，得到N个合并后的第二均值与N个合并后的第二方差。

在步骤205中，根据N个位置合并后的第二均值与第二方差在时间上进行加权合并得到所述N个时间段对应的整体均值与整体方差。通过考虑不同设定点击位置之间初始统计信息之间的相关性，可以使得计算得到的整体均值与方差更准确，进而提高A/B测试的准确性。

上述步骤206的具体实现过程可以参见上述实施例一中的步骤104的相关描述，在此不在赘述。

下面对结合图5对步骤203进行详细举例说明：

例如，参见图5，在搜索引擎上的同一次搜索(以“鲜花”作为关键词进行搜索)下，在第1位与第2位的广告的点击之间存在相关性，在不同的搜索(例如，前次搜索以“图书”为关键词，本次搜索以“鲜花”为关键词)下，广告点击之间不存在相关性。表1为五次搜索中展现、点击和消费之间的示意，通过表1可以示例性的描述如何计算第1位与第2位之间的相关系数。

表1

搜索次数	展现位置	点击次数
			id_1	第1位	0
id_1	第2位	1
			id_1	第3位	0
id_1	第4位	0
			id_2	第1位	1
id_2	第2位	1
			id_3	第1位	1
id_3	第2位	0
			id_4	第1位	1
id_4	第2位	1
			id_4	第3位	0
id_5	第1位	0

在上述表1所列的5次搜索(id_1、id_2、id_3、id_4、id_5)中，第1位上的广告展现次数为5，点击次数为3，第2位的展现次数为4，点击次数为3。则第1位与第2位的初始统计信息的均值分别为：

至少出现两条广告的搜索共有4次，则第1位与第2位之间的相关系数(也称为协方差)为：

此外，第1位与第2位之间的初始统计信息的相关系数可以通过如下过程计算得到：

则第1位与第2位之间的初始统计信息的相关系数为：

本领域技术人员可以理解的是，上述相关系数的计算仅为示例性的说明而非限制，本发明实施例还可以根据概率统计中关于相关性的理论获取到相关系数，在此不再赘述。通过上述过程，还可以计算出第1位与第3位，第1位与第4位，…，第4位与第5位之间的相关系数，进而形成本发明实施例中所述的相关系数矩阵。

实施例三：

图6为本发明实施例三提供的基于搜索引擎的数据处理平台的结构示意图。如图6所示，本发明实施例的数据处理平台包括：第一获取模块61、第一处理模块62、第二处理模块63和第二获取模块64。

第一获取模块61，用于通过搜索引擎的搜索结果获取在N个时间段内的N×r个初始统计信息，其中，N个时间段内的每一个时间段对应r个设定点击位置的初始统计信息，初始统计信息包括样本量、样本量对应的第一均值与第一方差，N，r均为正整数。

第一处理模块62，用于对N个时间段的每一个时间段内的r个设定点击位置对应的r个样本量的第一均值与第一方差以各自的样本量为权值进行加权合并，得到N个每一个时间段内的位置合并后的第二均值与第二方差。

第二处理模块63，用于对N个所述位置合并后的第二均值与第二方差在时间上进行加权合并，得到N个时间段对应的整体均值与整体方差。

第二获取模块64，用于根据整体均值与整体方差获取用于A/B测试的统计量。

进一步地，第一处理模块62包括：

聚类单元(图中未示出)，用于对N个时间段的每一个时间段的数据按点击位置进行聚类，并分别统计每一个时间段下r个聚类结果的表示数据分布特征的第一均值和第一方差，其中，每一个时间段下的聚类结果有r个聚类集。

统计单元(图中未示出)，用于统计聚类单元聚类得到的r个聚类集合之间的相关系数矩阵。

第一获取单元(图中未示出)，用于根据r相关系数矩阵对每一时间段下r个聚类集合的第一均值与第一方差进行加权合并，得到r个聚类集合合并后的表示分布特征的第二均值与第二方差。

更进一步地，统计单元(图中未示出)包括：

第二获取单元(图中未示出)，用于获取每一个时间段内对应的搜索结果。

第三获取单元(图中未示出)，用于如果r个聚类集合之间的数据存在相关性，根据每一个时间段内对应的搜索结果获取r个聚类集合之间的每一个时间段内的相关系数矩阵。

本发明实施例提供的基于搜索引擎的数据处理平台，通过对N个时间段内的r个设定点击位置的初始统计信息进行处理得到整体均值与方差，该整体均值与整体方差可以作为A/B测试的输入，从而可以使互联网搜索中的指标通过A/B测试进行有效的检验，为分析人员对实验效果的评估提供科学、客观的依据；此外，通过N个时间段的长短可以确定获取整体均值与方差的时长，从而提高了实验效率，节省了实验资源。

实施例四：

图7为本发明实施例四提供的基于搜索引擎的数据处理平台的结构示意图。如图7所示数据处理平台包括：第一获取模块61、第一处理模块62、第二处理模块63、第二获取模块64、第一确定模块65和第二确定模块66。

其中，第一获取模块61、第一处理模块62、第二处理模块63以及第二获取模块64的功能与图6中所示的相同，在此不再赘述。

第一确定模块65，用于确定每一个时间段内对应的搜索结果是在同一次搜索下进行。

第二确定模块66，用于确定同一次搜索下的在r个设定点击位置之间的点击存在相关性。

根据本发明一实施例，前述统计单元(图中未示出)包含的第三获取单元(图中未示出)包括：

第一统计单元，用于在每一时间段内统计任意两个不同设定位置在一次搜索下同时有展现和同时有点击的次数，对r个设定点击位置共有r×(r-1)/2种位置组合。

第四获取单元，用于根据对r×(r-1)/2种位置组合的展现次数和点击次数的统计结果，获取r个聚类集合之间的相关系数矩阵。

根据本发明另一实施例，第一处理模块62包含的第一获取单元(图中未示出)包括：

加权单元(图中未示出)，用于对每一个时间段，根据r个聚类集合的第一均值、第一方差和所述相关系数矩阵，同时按r个聚类集合的样本量加权。

第五获取单元(图中未示出)，用于获取加权后的每一个时间段下按点击位置合并后的第二均值与第二方差，得到N个合并后的第二均值与N个合并后的第二方差。

本发明实施例提供的基于搜索引擎的数据处理平台，通过对N个时间段内的N×r个初始统计信息进行处理得到整体均值与方差，该整体均值与整体方差可以作为A/B测试的输入，从而可以使互联网搜索中的指标通过A/B测试进行有效的检验，为分析人员对实验效果的评估提供科学、客观的依据；此外，通过N个时间段的长短可以确定获取整体均值与方差的时长，从而提高了实验效率，节省了实验资源。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于搜索引擎的数据处理方法，其特征在于，所述方法包括：

通过所述搜索引擎的搜索结果获取在N个时间段内的N×r个初始统计信息，其中，所述N个时间段内的每一个时间段对应r个设定点击位置的初始统计信息，所述初始统计信息包括样本量、所述样本量对应的第一均值与第一方差，N，r均为正整数；

对所述N个时间段的每一个时间段内的r个设定点击位置对应的r个样本量的第一均值与第一方差以各自的样本量为权值进行加权合并，得到N个每一个时间段内的位置合并后的第二均值与第二方差；

对N个所述位置合并后的第二均值与第二方差在时间上进行加权合并，得到所述N个时间段对应的整体均值与整体方差；

根据所述整体均值与整体方差获取用于A/B测试的统计量。

2.根据权利要求1所述的方法，其特征在于，对所述N个时间段的每一个时间段内的r个设定点击位置对应的r个样本量的第一均值与第一方差进行加权合并，得到N个每一个时间段内的位置合并后的第二均值与第二方差的步骤包括：

对所述N个时间段的每一个时间段的数据按点击位置进行聚类，并分别统计每一个时间段下r个聚类结果的表示数据分布特征的第一均值和第一方差，其中，所述每一个时间段下的聚类结果有r个聚类集合；

统计所述r个聚类集合之间的相关系数矩阵；

根据所述相关系数矩阵对每一时间段下所述r个聚类集合的所述第一均值与所述第一方差进行加权合并，得到所述r个聚类集合合并后的表示分布特征的第二均值与第二方差。

3.根据权利要求2所述的方法，其特征在于，所述统计所述r个聚类集合之间的相关系数矩阵的步骤包括：

获取所述每一个时间段内对应的搜索结果；

如果所述r个聚类集合之间的数据存在相关性，根据所述每一个时间段内对应的搜索结果获取所述r个聚类集合之间的每一个时间段内的相关系数矩阵。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

确定所述每一个时间段内对应的搜索结果是在同一次搜索下进行；

确定所述同一次搜索下的在所述r个设定点击位置之间的点击存在相关性。

5.根据权利要求3或4所述的方法，其特征在于，所述根据所述每一个时间段内对应的搜索结果获取所述r个聚类集合之间的每一个时间段内的相关系数矩阵的步骤包括：

在每一时间段内统计任意两个不同设定位置在一次搜索下同时有展现和同时有点击的次数，对r个设定点击位置，共有r×(r-1)/2种位置组合；

根据对r×(r-1)/2种位置组合的展现次数和点击次数的统计结果，获取所述r个聚类集合之间的相关系数矩阵。

6.根据权利要求5所述的方法，其特征在于，所述根据所述相关系数矩阵对每一时间段下所述r个聚类集合的所述第一均值与所述第一方差进行加权合并，得到所述r个聚类集合合并后的表示分布特征的第二均值与第二方差的步骤包括：

对所述每一个时间段，根据所述r个聚类集合的第一均值、第一方差和所述相关系数矩阵，同时按所述r个聚类集合的样本量加权；

获取加权后的所述每一个时间段下按点击位置合并后的第二均值与第二方差，得到N个合并后的第二均值与N个合并后的第二方差。

7.一种基于搜索引擎的数据处理平台，其特征在于，所述平台包括：

第一获取模块，用于通过所述搜索引擎的搜索结果获取在N个时间段内的N×r个初始统计信息，其中，所述N个时间段内的每一个时间段对应r个设定点击位置的初始统计信息，所述初始统计信息包括样本量、所述样本量对应的第一均值与第一方差，N，r均为正整数；

第一处理模块，用于对所述N个时间段的每一个时间段内的r个设定点击位置对应的r个样本量的第一均值与第一方差以各自的样本量为权值进行加权合并，得到N个每一个时间段内的位置合并后的第二均值与第二方差；

第二处理模块，用于对N个所述位置合并后的第二均值与第二方差在时间上进行加权合并，得到所述N个时间段对应的整体均值与整体方差；

8.根据权利要求7所述的平台，其特征在于，所述第一处理模块包括：

聚类单元，用于对所述N个时间段的每一个时间段的数据按点击位置进行聚类，并分别统计每一个时间段下r个聚类结果的表示数据分布特征的第一均值和第一方差，其中，所述每一个时间段下的聚类结果有r个聚类集合；

统计单元，用于统计所述r个聚类集合之间的相关系数矩阵；

第一获取单元，用于根据所述相关系数矩阵对每一时间段下所述r个聚类集合的所述第一均值与所述第一方差进行加权合并，得到所述r个聚类集合合并后的表示分布特征的第二均值与第二方差。

9.根据权利要求8所述的平台，其特征在于，所述统计单元包括：

第二获取单元，用于获取所述每一个时间段内对应的搜索结果；

第三获取单元，用于如果所述r个聚类集合之间的数据存在相关性，根据所述每一个时间段内对应的搜索结果获取所述r个聚类集合之间的每一个时间段内的相关系数矩阵。

10.根据权利要求9所述的平台，其特征在于，所述平台还包括：

第一确定模块，用于确定所述每一个时间段内对应的搜索结果是在同一次搜索下进行；

第二确定模块，用于确定所述同一次搜索下的在所述r个设定点击位置之间的点击存在相关性。

11.根据权利要求9或10所述的平台，其特征在于，所述第三获取单元包括：

第一统计单元，用于在每一时间段内统计任意两个不同设定位置在一次搜索下同时有展现和同时有点击的次数，对r个设定点击位置共有r×(r-1)/2种位置组合；

第四获取单元，用于根据对r×(r-1)/2种位置组合的展现次数和点击次数的统计结果，获取所述r个聚类集合之间的相关系数矩阵。

12.根据权利要求11所述的平台，其特征在于，所述第一获取单元包括：

加权单元，用于对所述每一个时间段，根据所述r个聚类集合的第一均值、第一方差和所述相关系数矩阵，同时按所述r个聚类集合的样本量加权；

第五获取单元，用于获取加权后的所述每一个时间段下按点击位置合并后的第二均值与第二方差，得到N个合并后的第二均值与N个合并后的第二方差。