CN103577464A

CN103577464A - 一种搜索引擎坏例的挖掘方法和装置

Info

Publication number: CN103577464A
Application number: CN201210273635.XA
Authority: CN
Inventors: 张鑫; 阮星华; 李卓
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-08-02
Filing date: 2012-08-02
Publication date: 2014-02-12
Anticipated expiration: 2032-08-02
Also published as: CN103577464B

Abstract

本发明提供了一种搜索引擎坏例（badcase）的挖掘方法和装置，其中方法包括：预处理过程：从会话（session）日志中抽取一定数量的session作为样本，并从样本的各session中抽取描述搜索质量的特征向量；利用各session的特征向量对样本进行聚类；确定聚类得到的各类别的置信度，置信度代表搜索质量低的程度；挖掘过程：在待挖掘的session日志中确定同一query下的行为序列，并从行为序列中抽取描述搜索质量的特征向量；通过计算query的特征向量与各类别的特征向量之间的距离，确定query所属的类别；如果query所属类别的置信度超过预设的高阈值，则确定搜索引擎对该query存在badcase。本发明能够实现搜索引擎badcase的自动挖掘，从而及时准确地发现搜索引擎的badcase。

Description

一种搜索引擎坏例的挖掘方法和装置

【技术领域】

本发明涉及计算机应用技术领域，特别涉及一种搜索引擎坏例（badcase）的挖掘方法和装置。

【背景技术】

随着计算机技术的不断发展，网络已经成为人们获取信息的主要渠道。其中搜索引擎能够通过分析理解用户查询需求和意图，在全网范围内搜索与用户query最匹配的网页。然而，由于互联网有海量的网页，网页在内容形式上差异很大，同时用户需求的表达方式也多种多样，因此搜索引擎最大的难度就在于不论用户怎样的查询都能够返回相关性最好的结果。

搜索引擎内部是由诸多复杂耦合的相关性策略组合而成的，其数量和复杂程度以及相互制约关系已经到了无法完整描述的组合爆炸程度，一个策略的升级会优化部分相关性特征，同时也会影响甚至降低其他的相关性特征。换句话说，在用户层面，一些升级会提高部分query的搜索质量（即用户满意度），同时可能会降低一些未知query的搜索质量，这种对搜索质量的降低情况就是搜索引擎的坏例（bad case）。

搜索引擎对内部策略的升级是十分频繁的，因此也会十分频繁的引入badcase，目前badcase的发现主要是通过人工评估，即人工搜索多个热门query和随机query，判断这些query的搜索质量。这种方式效率低下，而且只能发现少量碰巧遇到的badcase，不能及时准确地发现badcase，必然难以及时作为搜索引擎改进的决策参考。

【发明内容】

有鉴于此，本发明提供了一种搜索引擎badcase的挖掘方法和装置，以便于及时准确地发现搜索引擎的badcase。

具体技术方案如下：

一种搜索引擎坏例badcase的挖掘方法，该方法包括：

S1、预处理过程：

S11、从会话session日志中抽取一定数量的session作为样本，并从样本的各session中抽取描述搜索质量的特征向量；

S12、利用各session的特征向量对所述样本进行聚类；

S13、确定聚类得到的各类别的置信度，所述置信度代表搜索质量低的程度；

S2、挖掘过程：

S21、在待挖掘的session日志中确定同一query下的行为序列，并从所述行为序列中抽取描述搜索质量的特征向量；

S22、通过计算query的特征向量与各类别的特征向量之间的距离，确定query所属的类别；

S23、如果query所属类别的置信度超过预设的高阈值，则确定搜索引擎对该query存在badcase。

根据本发明一优选实施例，步骤S12和步骤S21中所述抽取描述搜索质量的特征向量为：抽取搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续时间、首次点击的位置、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数中的一种或任意组合的特征，将抽取的特征进行归一化后构成所述描述搜索质量的特征向量。

根据本发明一优选实施例，所述步骤S12具体为：基于各session的特征向量之间的距离采用k-means聚类的方式对所述样本进行聚类。

根据本发明一优选实施例，所述步骤S13具体为：根据用户在各类别中标出的搜索质量低的session在各类别中所占的比例，确定各类别的置信度。

根据本发明一优选实施例，所述步骤S22具体包括：计算query的特征向量分别与各类别的特征向量之间的距离，将距离最近的类别确定为query所属的类别。

根据本发明一优选实施例，所述S23还包括：如果query所属类别的置信度低于预设的低阈值，则确定搜索引擎对该query不存在badcase；

如果query所属类别的置信度在所述预设的高阈值和低阈值之间，则采用其他决策规则进一步判断；

所述预设的高阈值大于所述预设的低阈值。

根据本发明一优选实施例，所述采用其他决策规则进一步判断包括：

计算session日志中该query对应的被点击URL与全网搜索中该query对应的被点击URL之间的重合度，重合度高于预设第一重合度阈值的，确定搜索引擎对该query不存在badcase，重合度低于预设第二重合度阈值的，确定搜索引擎对该query存在badcase，所述第一重合度阈值大于或等于第二重合度阈值；或者，

判断该query下用户的停留时长是否超过预设的停留时长阈值，如果是，则确定搜索引擎对该query不存在badcase，否则确定搜索引擎对该query存在badcase；或者，

判断同一用户在该query之后查询的query是否与该query相关联，如果是，则确定搜索引擎对该query存在badcase，否则确定搜索引擎对该query不存在badcase。

一种搜索引擎badcase的挖掘装置，该装置包括预处理单元和挖掘单元；

所述预处理单元包括：

样本特征抽取模块，用于从session日志中抽取一定数量的session作为样本，并从样本的各session中抽取描述搜索质量的特征向量；

样本聚类模块，用于利用各session的特征向量对所述样本进行聚类；

置信度确定模块，用于确定所述样本聚类模块聚类得到的各类别的置信度，所述置信度代表搜索质量低的程度；

所述挖掘单元包括：

查询特征抽取模块，用于在待挖掘的session日志中确定同一query下的行为序列，并从所述行为序列中抽取描述搜索质量的特征向量；

查询类别确定模块，用于通过计算query的特征向量与各类别的特征向量之间的距离，确定query所属的类别；

坏例判别模块，用于如果query所属类别的置信度超过预设的高阈值，则确定搜索引擎对该query存在badcase。

根据本发明一优选实施例，所述样本特征抽取模块和查询特征抽取模块在抽取描述搜索质量的特征向量时，具体抽取搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续时间、首次点击的位置、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数中的一种或任意组合的特征，将抽取的特征进行归一化后构成所述描述搜索质量的特征向量。

根据本发明一优选实施例，所述样本聚类模块基于各session的特征向量之间的距离采用k-means聚类的方式对所述样本进行聚类。

根据本发明一优选实施例，所述置信度确定模块具体根据用户在各类别中标出的搜索质量低的session在各类别中所占的比例，确定各类别的置信度。

根据本发明一优选实施例，所述查询类别确定模块具体计算query的特征向量分别与各类别的特征向量之间的距离，将距离最近的类别确定为query所属的类别。

根据本发明一优选实施例，所述坏例判别模块，还用于如果query所属类别的置信度低于预设的低阈值，则确定搜索引擎对该query不存在badcase；如果query所属类别的置信度在所述预设的高阈值和低阈值之间，则采用其他决策规则进一步判断；其中所述预设的高阈值大于所述预设的低阈值。

根据本发明一优选实施例，所述坏例判别模块在采用其他决策规则进一步判断时，包括：

由以上技术方案可以看出，本发明从session日志中抽取样本后基于特征向量对样本进行聚类并确定各类别的置信度，从待挖掘的session日志中同一query下的行为序列中抽取特征向量，利用query的特征向量与各类别的特征向量之间的距离确定query所属的类别并依据所属类别的置信度判别搜索引擎是否针对该query存在badcase，从而实现了搜索引擎badcase的自动挖掘，不再依赖于人工评估，既提高了效率也提高了准确性。

【附图说明】

图1为本发明实施例一提供的搜索引擎badcase的挖掘方法流程图；

图2为本发明实施例二提供的搜索引擎badcase的挖掘装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

搜索引擎的badcase会导致用户使用它进行查询时，得到的结果质量低下，这个结果的质量低下会直接反映到用户在本次检索时的行为上。比如搜索一个query的结果不好，用户的行为可能是直接关掉这个页面、直接翻页等，由此可见，用户的会话（session）日志里面包含了用户对检索质量好坏评价的信息。本发明就从session日志中用户行为数据入手来进行搜索引擎badcase的挖掘，具体的挖掘方法通过下面的实施例一进行详细描述。

实施例一、

图1为本发明实施例一提供的搜索引擎badcase的挖掘方法流程图，如图1所示，该方法可以包括以下步骤：

步骤101：从session日志中抽取一定数量的session作为样本，并从样本的各session中抽取描述搜索质量的特征向量。

session指的是用户与交互系统进行通信的时间阶段，通常指从进入交互系统到推出系统之间所经过的时间，还会有一定的操作空间。在本发明实施例中，session日志中一个session包含用户使用搜索引擎的行为信息。

搜索引擎的session日志是海量的，每天可能就是T（1T=1024G）级别的文件，因此在本步骤中仅需要从中抽取出一定数量的session作为样本即可，例如从中抽取出600条session作为样本。

描述搜索质量的特征可以包括但不限于以下特征中的至少一种：搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续的时间、首次点击的位置（例如搜索结果页中的第几页）、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数。以上特征实际上都是用户的一些行为信息，都能从session日志中提取出来，并被归一化后构成一个session的特征向量。

例如，用户在每个query下的一系列行为即session用一个30维的特征向量表示，该特征向量采用10个行为，每个行为采用三个特征参数描述：行为发生时间、行为发生位置和是否紧随相似query。其中行为发生时间和行为发生位置参数可以使用自然对数函数进行归一化。

步骤102：利用各session的特征向量对样本进行聚类。

在此，聚类方式可以基于特征向量间的距离采用k-means聚类的方式，其中由于特征向量中使用到的量纲可能不是统一的，因此特征向量间的距离可以采用曼哈顿距离。

k-means聚类的过程可以如下：

首先选择k个初始聚类中心。初始聚类中心的特征向量可以任意设定，例如可以从样本中选择开始的k个特征向量作为初始聚类中心。

然后逐个将需分类的样本按照最小距离划分给其中的一个类别，然后更新聚类中心的特征向量，直至各类别的聚类中心收敛。

步骤103：确定聚类得到的各类别的代表搜索质量低的程度的置信度。

在聚类结束后，可以人工分析各类别的数据，依据各类别中各session的行为信息在各类别中标出各session的搜索质量高低，根据标出的搜索质量低的session在各类别中所占的比例，确定各类别的置信度，该置信度代表搜索质量低的程度。

举一个例子，假设通过上述过程得到了11个类别，各类别的置信度和含义如表1所示。

表1

以上步骤是预处理过程，是作为以后每次挖掘badcase的基础，该预处理过程在挖掘badcase之前执行一次即可，不必每次挖掘badcase时都执行。

步骤104：在待挖掘的session日志中，确定同一query下的行为序列，并从中抽取描述搜索质量的特征向量。

session日志中每一条日志通常会包含：用户cookie、行为类型（诸如搜索行为、点击行为、翻页行为、关闭页面行为等）、行为产生的时间、行为产生的位置、对应的query，还可能会包含其他内容，在此处不再一一赘述。在本步骤中，对同一query下的行为序列进行聚合，每一个query对应的行为序列表示该query对应的行为信息。具体地，可以首先对同一用户下同一query对应的行为序列进行聚合，然后再对所有用户下同一query对应的行为序列进行聚合，当然也可以直接对所有用户下同一query对应的行为序列进行聚合。

同一query下的行为序列中包含各行为信息，行为信息中包含：用户cookie、行为类型、行为产生时间和行为产生位置。

然后针对每一个query从其行为序列中抽取描述搜索质量的特征向量，该特征向量的形成过程与步骤101中描述的特征向量形成方法相同，即同样从每一个query的行为序列中抽取出以下描述搜索质量的特征中的至少一种（与步骤101中所抽取的特征类型一致）：搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续的时间、首次点击的位置（例如搜索结果页中的第几页）、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数。这些特征抽取出来后，被归一化后构成一个query的特征向量。

其中行为发生时间和行为发生位置参数可以使用自然对数函数进行归一化。

上述步骤101和步骤104中抽取描述搜索质量的特征向量的工作量较大，为了提高效率可以采用分布式（map-reduce）框架来完成抽取特征向量的工作。

步骤105：通过计算query对应的特征向量与各类别的特征向量之间的距离，确定query所属的类别。

在本步骤中可以将距离最近的类别确定为query所属的类别，此处的距离依旧可以采用曼哈顿距离。

步骤106：如果query所属类别的置信度超过预设的高阈值，则确定搜索引擎对该query存在badcase。

如果query落在某个类别的置信度超过一定程度，由于各类别的置信度是代表搜索质量低的程度，因此可以很容易确定该query的搜索质量低。如果query所属类别的置信度低于预设的低阈值，则可以确定搜索引擎对该query不存在badcase。但对于query落在某个类别的置信度在预设的高阈值和低阈值之间的，这种模棱两可的情况则可以结合其他决策规则进行进一步判断。另外，在进行进一步的判断时，可以针对不同置信度的类别采用不同的决策规则。

下面对进一步采用的其他决策规则举几个例子：

决策规则一、结合query-URL关系文件进行进一步判断，具体可以对全网搜索中同一query对应的被点击URL进行聚合，计算待挖掘的session日志中该query对应的被点击URL与全网搜索中同一query对应的被点击URL之间的重合度，重合度高于预设第一重合度阈值的，认为搜索质量较高，用户行为满意度高；如果计算出的重合度低于预设第二重合度阈值，则认为搜索质量低，可以认为搜索引擎对该query存在badcase。其中，第二重合度阈值小于或等于第一重合度阈值。在计算重合度时可以仅采用全网搜索中同一query对应的被点击URL中点击次数排在前若干位的URL。

决策规则二、通过判断在该query下用户的停留时长超过预设停留时长阈值，则可以确定用户行为满意度高，例如，判断在该query下用户的停留时长是否超过10分钟。否则，确定用户行为满意度低，即搜索质量低，可以认为搜索引擎对该query存在badcase。所谓query下用户的停留时长，可以指用户搜索query后对搜索结果的总操作时长，包括浏览、点击操作等。

决策规则三、通过判断同一用户在该query之后查询的query是否与该query相关联来判断，如果相关联，则说明用户行为满意度低，可以认为搜索引擎对该query存在badcase；如果不关联，则说明用户行为满意度高。

以上三种决策规则仅是举的几个例子，当然并不限于采用其他决策规则来进行进一步的判断。

以上是对本发明所提供的方法进行的详细描述，下面通过实施例二对本发明提供的装置进行详细描述。

实施例二、

图2为本发明实施例二提供的搜索引擎badcase的挖掘装置，该装置包括预处理单元200和挖掘单元210两部分，如图2所示，其中预处理单元200具体包括样本特征抽取模块201、样本聚类模块202和置信度确定模块203，挖掘单元210具体包括查询特征抽取模块211、查询类别确定模块212和坏例判别模块213。

样本特征抽取模块201从session日志中抽取一定数量的session作为样本，并从样本的各session中抽取描述搜索质量的特征向量。

样本聚类模块202利用各session的特征向量对样本进行聚类。

置信度确定模块203确定样本聚类模块202聚类得到的各类别的置信度，置信度代表搜索质量低的程度。

查询特征抽取模块211在待挖掘的session日志中确定同一query下的行为序列，并从行为序列中抽取描述搜索质量的特征向量。

查询类别确定模块212通过计算query的特征向量与各类别的特征向量之间的距离，确定query所属的类别。

坏例判别模块213如果query所属类别的置信度超过预设的高阈值，则确定搜索引擎对该query存在badcase。

上述的样本特征抽取模块201和查询特征抽取模块211在抽取描述搜索质量的特征向量时，具体抽取搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续时间、首次点击的位置、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数中的一种或任意组合的特征，将抽取的特征进行归一化后构成描述搜索质量的特征向量。在归一化时可以使用自然对数函数进行归一化。

在对样本进行聚类时，样本聚类模块202可以基于各session的特征向量之间的距离采用k-means聚类的方式。其中由于特征向量中使用到的量纲可能不是统一的，因此特征向量间的距离可以采用曼哈顿距离。

k-means聚类的过程可以如下：

在聚类结束后，可以人工分析各类别的数据，依据各类别中各session的行为信息在各类别中标出各session的搜索质量高低，这样置信度确定模块203具体根据用户在各类别中标出的搜索质量低的session在各类别中所占的比例，确定各类别的置信度。

挖掘单元210中查询类别确定模块212具体计算query的特征向量分别与各类别的特征向量之间的距离，将距离最近的类别确定为query所属的类别，此处的距离依旧可以采用曼哈顿距离。

除了上述能够直接判定badcase的情况之外，坏例判别模块213还可以如果query所属类别的置信度低于预设的低阈值，则确定搜索引擎对该query不存在badcase；如果query所属类别的置信度在预设的高阈值和低阈值之间，则采用其他决策规则进一步判断；其中预设的高阈值大于预设的低阈值。

举几个例子，坏例判别模块213在采用其他决策规则进一步判断时，包括但不限于以下几种决策规则：

决策规则一、计算session日志中该query对应的被点击URL与全网搜索中该query对应的被点击URL之间的重合度，重合度高于预设第一重合度阈值的，确定搜索引擎对该query不存在badcase，重合度低于预设第二重合度阈值的，确定搜索引擎对该query存在badcase，第一重合度阈值大于或等于第二重合度阈值。

决策规则二、判断该query下用户的停留时长是否超过预设的停留时长阈值，如果是，则确定搜索引擎对该query不存在badcase，否则确定搜索引擎对该query存在badcase。

决策规则三、判断同一用户在该query之后查询的query是否与该query相关联，如果是，则确定搜索引擎对该query存在badcase，否则确定搜索引擎对该query不存在badcase。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种搜索引擎坏例badcase的挖掘方法，其特征在于，该方法包括：

S1、预处理过程：

S12、利用各session的特征向量对所述样本进行聚类；

S2、挖掘过程：

2.根据权利要求1所述的方法，其特征在于，步骤S12和步骤S21中所述抽取描述搜索质量的特征向量为：抽取搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续时间、首次点击的位置、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数中的一种或任意组合的特征，将抽取的特征进行归一化后构成所述描述搜索质量的特征向量。

3.根据权利要求1所述的方法，其特征在于，所述步骤S12具体为：基于各session的特征向量之间的距离采用k-means聚类的方式对所述样本进行聚类。

4.根据权利要求1所述的方法，其特征在于，所述步骤S13具体为：根据用户在各类别中标出的搜索质量低的session在各类别中所占的比例，确定各类别的置信度。

5.根据权利要求1所述的方法，其特征在于，所述步骤S22具体包括：计算query的特征向量分别与各类别的特征向量之间的距离，将距离最近的类别确定为query所属的类别。

6.根据权利要求1所述的方法，其特征在于，所述S23还包括：如果query所属类别的置信度低于预设的低阈值，则确定搜索引擎对该query不存在badcase；

所述预设的高阈值大于所述预设的低阈值。

7.根据权利要求6所述的方法，其特征在于，所述采用其他决策规则进一步判断包括：

8.一种搜索引擎badcase的挖掘装置，其特征在于，该装置包括预处理单元和挖掘单元；

所述预处理单元包括：

所述挖掘单元包括：

9.根据权利要求8所述的装置，其特征在于，所述样本特征抽取模块和查询特征抽取模块在抽取描述搜索质量的特征向量时，具体抽取搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续时间、首次点击的位置、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数中的一种或任意组合的特征，将抽取的特征进行归一化后构成所述描述搜索质量的特征向量。

10.根据权利要求8所述的装置，其特征在于，所述样本聚类模块基于各session的特征向量之间的距离采用k-means聚类的方式对所述样本进行聚类。

11.根据权利要求8所述的装置，其特征在于，所述置信度确定模块具体根据用户在各类别中标出的搜索质量低的session在各类别中所占的比例，确定各类别的置信度。

12.根据权利要求8所述的装置，其特征在于，所述查询类别确定模块具体计算query的特征向量分别与各类别的特征向量之间的距离，将距离最近的类别确定为query所属的类别。

13.根据权利要求8所述的装置，其特征在于，所述坏例判别模块，还用于如果query所属类别的置信度低于预设的低阈值，则确定搜索引擎对该query不存在badcase；如果query所属类别的置信度在所述预设的高阈值和低阈值之间，则采用其他决策规则进一步判断；其中所述预设的高阈值大于所述预设的低阈值。

14.根据权利要求13所述的装置，其特征在于，所述坏例判别模块在采用其他决策规则进一步判断时，包括：