CN102760142A

CN102760142A - 一种针对搜索请求抽取搜索结果主题标签的方法和装置

Info

Publication number: CN102760142A
Application number: CN2011101119758A
Authority: CN
Inventors: 赵世奇; 韩中华; 方高林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-04-29
Filing date: 2011-04-29
Publication date: 2012-10-31

Abstract

本发明提供了一种针对搜索请求抽取搜索结果中的主题标签的方法和装置，针对用户输入的搜索请求(query)的搜索结果执行以下步骤：A、对搜索结果中的各页面进行分词处理，并对分词处理后得到的各词语进行过滤处理，得到query对应的候选标签集合；B、分别针对候选标签集合中的各候选标签w，基于w与query在搜索日志中的共现状况，为w打分，得到w的打分值f₂(w)；和/或，基于w对于同一实体类型的各query的共性程度，为w打分，得到w的打分值f₃(w)；C、整合步骤B的打分结果，得到候选标签集合中各候选标签w的排序权值f(w)；D、选取候选标签集合中排序权值f(w)在前M1个的候选标签作为query的搜索结果的主题标签。通过本发明能够提高主题标签抽取的准确性。

Description

一种针对搜索请求抽取搜索结果主题标签的方法和装置

【技术领域】

本发明涉及计算机技术领域，特别涉及一种针对搜索请求抽取搜索结果主题标签的方法和装置。

【背景技术】

所谓搜索结果主题标签，是指当用户使用搜索引擎针对特定搜索请求进行搜索之后，从搜索结果中提炼出的可以概括当前搜索结果主题分布的标签。搜索结果主题标签可以看作是搜索结果的“摘要”，用户通过主题标签可以方便快速地了解搜索结果的主要内容和主题分布。同时，所述主题标签还可作为搜索结果聚类的描述标签使用，即可以围绕主题标签对搜索结果进行聚类展现，以方便用户的信息获取与浏览。

具体地，在搜索结果的聚类中，聚类结果描述是一项关键技术，指自动地为每个类别抽取或者生成关键词作为该类别的标签，方便用户快速掌握搜索请求(query)所在类别的大概内容。为了提高标签的可读性，搜索结果的聚类通常采用先抽取出页面类别标签，再利用抽取出的标签对搜索结果中的页面进行聚类的方式。因此，页面标签的准确性直接影响到搜索结果聚类的准确性。

随着自然语言处理技术的发展，按照高词频关键词来抽取页面标签的方法得到了广泛的应用，具体做法是将页面内容进行分词处理得到关键词，基于词频统计对关键词进行排序，给出前N个高词频作为标签。但这种方式抽取出的标签忽略了标签对用户实际需求的反映，也就是说，高词频的关键词并不一定能够标示标签对用户实际需求的反映。显然，现有技术中提供的标签的抽取方法抽取出的标签准确性较差。

【发明内容】

本发明提供了一种针对搜索请求抽取搜索结果主题标签的方法和装置，以便于提高所抽取出类别标签的准确性。

具体技术方案如下：

一种针对搜索请求抽取搜索结果主题标签的方法，针对用户输入的query的搜索结果执行以下步骤：

A、对所述搜索结果中的各页面进行分词处理，并对分词处理后得到的各词语进行过滤处理，得到所述query对应的候选标签集合；

B、分别针对所述候选标签集合中的各候选标签w执行步骤B2和步骤B3中的任一或任意组合，或者执行步骤B2和步骤B3中的任一与步骤B1的组合，或者执行步骤B1、步骤B2和步骤B3：

B1、基于词频为候选标签w打分，得到候选标签w的打分值f₁(w)；

B2、基于候选标签w与所述query在搜索日志中的共现状况，为候选标签w打分，得到候选标签w的打分值f₂(w)；

B3、基于候选标签w对于同一实体类型的各query的共性程度，为候选标签w打分，得到候选标签w的打分值f₃(w)；

C、整合步骤B的打分结果，得到候选标签集合中各候选标签w的排序权值f(w)；

D、选取所述候选标签集合中排序权值f(w)在前M1个的候选标签作为所述query的搜索结果主题标签，M1为预设的正整数。

较优地，步骤A中对所述搜索结果中的各页面进行分词处理为：

对所述搜索结果中的各页面的标题和/或摘要进行分词处理。

具体地，步骤A中所述对分词处理后得到的各词语进行过滤处理为：

从所述分词处理后得到的各词语中过滤掉预设的停用词表所包含的词语；或者，

从所述分词处理后得到的各词语中过滤掉在页面中与所述query之间的最小距离超过预设范围的词语。

所述f₁(w)具体为：

f_{1} (w) = tf (w) \times \log \frac{N}{c (w)},

其中，tf(w)为所述w在所述搜索结果中出现的次数，c(w)为所述w在语料库中出现的总次数，N为所述各词语在所述语料库的各页面中出现次数的最大值。

所述f₂(w)具体为：

f_{2} (w) = \frac{c (w, E_{i})}{Σ_{w^{'}} c (w^{'}, E_{i})},

其中，E_i为所述query，c(w，E_i)为在搜索日志中w与E_i共现的次数，∑_w′c(w′，E_i)为搜索日志中各词语与E_i共现的次数和。

所述f₃(w)具体为：

f_{3} (w) = \frac{| {E_{j} | E_{j} &Element; C (E_{i}), w &Element; SL (E_{j})} |}{| {E_{j} | E_{j} &Element; C (E_{i})} |},

其中，E_i为所述query，C(E_i)为E_i所属的实体类型，E_j∈C(E_i)表示E_j为与E_i属于同一类型的实体，SL(E_j)为E_j对应的候选标签集合，|{E_j|E_j∈C(E_i)，w∈SL(E_j)}|为预先设置的实体列表中实体类型为C(E_i)且候选标签包含w的query个数，|{E_j|E_j∈C(E_i)}|为所述实体列表中实体类型为C(E_i)的query总数，所述实体列表为通过网络挖掘方式和/或人工方式得到的包含各命名实体的列表。

所述步骤C具体包括：

如果在所述步骤B中执行步骤B1、步骤B2和步骤B3，则所述f(w)＝f₁(w)×f₂(w)×f₃(w)或者f(w)＝α1×f₁′(w)+β1×f₂(w)+γ1×f₃(w)，其中，α1、β1和γ1是预设的权值参数，f₁′(w)为f₁(w)进行归一化后的值；

如果在所述步骤B中执行步骤B2和步骤B3，则所述f(w)＝f₂(w)×f₃(w)或者f(w)＝β2×f₂(w)+γ2×f₃(w)，其中，β2和γ2是预设的权值参数；

如果在所述步骤B中执行步骤B1和步骤B2，则所述f(w)＝f₁(w)×f₂(w)或者f(w)＝α3×f₁′(w)+β3×f₂(w)，其中α3和β3是预设的权值参数；

如果在所述步骤B中执行步骤B1和步骤B3，则所述f(w)＝f₁(w)×f₃(w)或者f(w)＝α4×f₁′(w)+γ4×f₃(w)，其中，α4和γ4为预设的权值参数；

如果在所述步骤B中仅执行步骤B2，则所述f(w)＝f₂(w)；

如果在所述步骤B中仅执行步骤B3，则所述f(w)＝f₃(w)。

更进一步地，在所述步骤C和所述步骤D之间还包括：

E1、确定所述候选标签集合中的相似标签；

E2、对所述候选标签集合中的相似标签进行合并处理。

其中，所述步骤E1具体为：

如果所述候选标签集合中候选标签w₁和w₂仅存在大小写差别，则确定w₁和w₂为相似标签；或者，

如果所述候选标签集合中w₁和w₂是同义词，则确定w₁和w₂为相似标签；或者，

如果所述候选标签集合中w₁和w₂的字面相似度大于预设的相似度阈值T1，则确定w₁和w₂为相似标签；或者，

如果所述候选标签集合中w₁和w₂分别出自的搜索结果集合的重叠度大于预设的重叠度阈值T2，则确定w₁和w₂为相似标签。

所述w₁和w₂的字面相似度sim1(w₁，w₂)为：

sim 1 (w_{1}, w_{2}) = \frac{| Cha (w_{1}) \cap Cha (w_{2}) |}{\max {| Cha (w_{1}) |, | Cha (w_{2}) |}};

其中，Cha(X)为X中包含的字集合，|Cha(w₁)∩Cha(w₂)|为w₁和w₂中共同包含的字的个数，max{|Cha(w₁)|，|Cha(w₂)|}为w₁包含的字数和w₂包含的字数中的最大值。

所述w₁和w₂分别出自的搜索结果的重叠度sim2(w₁，w₂)为：

sim 2 (w_{1}, w_{2}) = \frac{| SR (w_{1}) \cap SR (w_{2}) |}{\max {| SR (w_{1}) |, | SR (w_{2}) |}};

其中，SR(X)为搜索结果中X所在的页面集合，|SR(w₁)∩SR(w₂)|为搜索结果中w₁和w₂共同所在的页面的数目，max{|SR(w₁)|，|SR(w₂)|}为搜索结果中w₁所在的页面数目和w₂所在的页面数目中的最大值。

另外，所述步骤E2为：

在所述候选标签集合中，仅保留相似标签中排序权值f(w)最大的候选标签。

更优地，在所述步骤D之后，还包括：

F、将所述搜索结果中的各页面基于所述步骤D选取的标签进行聚类。

更进一步地，在所述步骤F之后还包括：

G、在展现所述搜索结果的同时，展现所述步骤D选取的标签；

H、当用户点击标签时，将所述搜索结果中属于用户所点击标签所在聚类的页面展现给用户。

较优地，在所述步骤A之前还包括：

识别所述用户输入的query是否为实体型query，如果是，继续执行所述步骤A；否则不执行所述步骤A；

其中，所述实体型query为一个命名实体。

识别所述用户输入的query是否为实体型query具体包括：

判断所述用户输入的query是否包含在预设的实体列表中，如果是，则识别出所述用户输入的query为实体型query，所述实体列表为通过网络挖掘方式和/或人工方式得到的包含各命名实体的列表；或者，

判断所述用户输入的query的构造是否符合预设的实体构造规则，如果是，则识别出所述用户输入的query为实体型query。

一种针对搜索请求抽取搜索结果主题标签的装置，该装置包括：候选集合产生单元、打分处理单元、排序权值确定单元和标签选取单元；

所述候选集合产生单元，用于对用户输入的搜索请求query的搜索结果中的各页面进行分词处理，并对分词处理后得到的各词语进行过滤处理，得到所述query对应的候选标签集合；

所述打分处理单元，用于分别针对所述候选标签集合中的各候选标签w执行操作S2和S3中的任一或任意组合，或者执行操作S2和S3中的任一与操作S1的组合，或者执行操作S1、S2和S3：

S1、基于词频为候选标签w打分，得到候选标签w的打分值f₁(w)；

S2、基于候选标签w与所述query在搜索日志中的共现状况，为候选标签w打分，得到候选标签w的打分值f₂(w)；

S3、基于候选标签w对于同一实体类型的各query的共性程度，为候选标签w打分，得到候选标签w的打分值f₃(w)；

所述排序权值确定单元，用于整合所述打分处理单元的打分结果，得到所述候选标签集合中各候选标签w的排序权值f(w)；

所述标签选取单元，用于选取所述候选标签集合中排序权值f(w)在前M1个的候选标签作为所述query的搜索结果主题标签，M1为预设的正整数。

所述候选集合产生单元中包含分词处理子单元，用于对所述搜索结果中的各页面的标题和/或摘要进行分词处理。

所述候选集合产生单元中包含过滤处理子单元，用于从所述分词处理后得到的各词语中过滤掉预设的停用词表所包含的词语；或者，

具体地，所述打分处理单元在执行所述操作S1时，按照

得到候选标签w的打分值f₁(w)，其中，tf(w)为所述w在所述搜索结果中出现的次数，c(w)为所述w在语料库中出现的总次数，N为所述各词语在所述语料库的各页面中出现次数的最大值。

所述打分处理单元在执行所述操作S2时，按照得到候选标签w的打分值f₂(w)，其中，E_i为所述query，c(w，E_i)为在搜索日志中w与E_i共现的次数，∑_w′c(w′，E_i)为搜索日志中各词语与E_i共现的次数和。

所述打分处理单元在执行所述操作S3时，按照得到候选标签w的打分值f₃(w)，其中，E_i为所述query，C(E_i)为E_i所属的实体类型，E_j∈C(E_i)表示E_j为与E_i属于同一类型的实体，SL(E_i)为E_i对应的候选标签集合，|{E_j|E_j∈C(E_i)，w∈SL(E_j)}|为预先设置的实体列表中实体类型为C(E_i)且候选标签包含w的query个数，|{E_j|E_j∈C(E_i)}|为实体类型为C(E_i)的query总数，所述实体列表为通过网络挖掘方式和/或人工方式得到的包含各命名实体的列表。

如果所述打分处理单元执行操作S1、S2和S3，则所述排序权值确定单元按照f(w)＝f₁(w)×f₂(w)×f₃(w)或者f(w)＝α1×f₁′(w)+β1×f₂(w)+γ1×f₃(w)得到所述候选标签集合中各候选标签w的排序权值f(w)，其中，α1、β1和γ1是预设的权值参数，f₁′(w)为f₁(w)进行归一化后的值；

如果所述打分处理单元执行操作S2和S3，则所述排序权值确定单元按照f(w)＝f₂(w)×f₃(w)或者f(w)＝β2×f₂(w)+γ2×f₃(w)得到所述候选标签集合中各候选标签w的排序权值f(w)，其中，β2和γ2是预设的权值参数；

如果所述打分处理单元执行操作S1和S2，则所述排序权值确定单元按照f(w)＝f₁(w)×f₂(w)或者f(w)＝α3×f₁′(w)+β3×f₂(w)得到所述候选标签集合中各候选标签w的排序权值f(w)，其中α3和β3是预设的权值参数；

如果所述打分处理单元执行操作S1和S3，则所述排序权值确定单元按照f(w)＝f₁(w)×f₃(w)或者f(w)＝α4×f₁′(w)+γ4×f₃(w)得到所述候选标签集合中各候选标签w的排序权值f(w)，其中α4和γ4为预设的权值参数；

如果所述打分处理单元仅执行操作S2，则所述排序权值确定单元按照f(w)＝f₂(w)得到所述候选标签集合中各候选标签w的排序权值f(w)；

如果所述打分处理单元仅执行操作S3，则所述排序权值确定单元按照f(w)＝f₃(w)得到所述候选标签集合中各候选标签w的排序权值f(w)。

更优地，该装置还包括：相似标签处理单元，具体包括：相似标签确定子单元和相似标签合并子单元；

所述相似标签确定子单元，用于确定所述候选标签集合中的相似标签；

所述相似标签合并子单元，用于对所述候选标签集合中的相似标签进行合并处理；

所述标签选取单元从所述相似标签合并子单元处理后的候选标签集合中选取所述query的标签。

具体地，如果所述候选标签集合中候选标签w₁和w₂仅存在大小写差别，则所述相似标签确定子单元确定w₁和w₂为相似标签；或者，

如果所述候选标签集合中w₁和w₂是同义词，则所述相似标签确定子单元确定w₁和w₂为相似标签；或者，

如果所述候选标签集合中w₁和w₂的字面相似度大于预设的相似度阈值T1，则所述相似标签确定子单元确定w₁和w₂为相似标签；或者，

如果所述候选标签集合中w₁和w₂分别出自的搜索结果集合的重叠度大于预设的重叠度阈值T2，则所述相似标签确定子单元确定w₁和w₂为相似标签。

所述w₁和w₂的字面相似度sim1(w₁，w₂)为：

sim 1 (w_{1}, w_{2}) = \frac{| Cha (w_{1}) \cap Cha (w_{2}) |}{\max {| Cha (w_{1}) |, | Cha (w_{2}) |}};

所述w₁和w₂分别出自的搜索结果集合的重叠度sim2(w₁，w₂)为：

sim 2 (w_{1}, w_{2}) = \frac{| SR (w_{1}) \cap SR (w_{2}) |}{\max {| SR (w_{1}) |, | SR (w_{2}) |}};

其中，所述相似标签合并子单元在执行所述合并处理时，仅保留相似标签中排序权值f(w)最大的候选标签。

更进一步地，该装置还包括：结果聚类单元，用于基于所述标签选取单元选取的标签将所述搜索结果中的各页面进行聚类。

更优地，该装置还包括：结果展现单元，用于在展现所述搜索结果的同时，展现所述标签选取单元选取的标签；当用户点击标签时，将所述搜索结果中属于用户所点击标签所在聚类的页面展现给用户。

较优地，该装置还包括：query类型识别单元，用于识别所述用户输入的query是否为实体型query，如果是，触发所述候选集合产生单元得到所述query对应的候选标签集合；否则，禁止所述候选集合产生单元得到所述query对应的候选标签集合；

其中，所述实体型query为一个命名实体。

具体地，query类型识别单元判断所述用户输入的query是否包含在预设的实体列表中，如果是，则识别出所述用户输入的query为实体型query，所述实体列表为通过网络挖掘方式和/或人工方式得到的包含各命名实体的列表；或者，

由以上技术方案可以看出，本发明首先确定出query的候选标签列表，基于候选标签与所述query在搜索日志中的共现状况以及基于候选标签对于同一实体类型的各query的共性程度中的至少一种，为候选标签列表中的各候选标签确定排序权值，并以此作为query的标签的抽取依据。这种方式选取出的标签反映了query的实际需求，提高了标签抽取的准确性，进而提高搜索效率。

【附图说明】

图1为本发明实施例一提供的抽取页面标签的主要方法流程图；

图2a为本发明实施例一提供的展现搜索结果和标签的实例图；

图2b为本发明实施例一提供的用户点击标签后搜索结果的展现实例图；

图3为本发明实施例二提供的抽取标签的装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、

图1为本发明实施例一提供的抽取页面标签的主要方法流程图，如图1所示，在针对用户输入的query进行搜索得到搜索结果后，针对搜索结果执行以下步骤：

步骤101：对query的搜索结果中各页面进行分词处理，并对分词处理后得到的各词语进行过滤处理，得到该query对应的候选标签集合。

在本步骤中，可以对页面的所有内容进行分词处理，但基于效率的考虑，可以仅从页面的标题和/或摘要中抽取标签，即仅对页面的标题和/或摘要进行分词处理。

其中，进行分词处理时可以采用但不限于：基于词典和最长匹配的方法，或者，基于统计模型的方法。基于词典和最长匹配的方法是以一个分词词典为基础，然后采用正向最长匹配或者逆向最长匹配的方法找到最长片段，作为分词处理后得到的词语。基于统计模型的方法以人工标注的分词语料库为基础，训练出一个统计模型，利用该统计模型能够自动标注出一个句子中的词语。

在对页面进行分词处理后，为了提高标签抽取的效率和减小噪音，对分词处理后得到的各词语进行过滤处理，包括但不限于以下所列过滤处理：过滤掉预设的停用词表所包含的词语；其中，通用词表是预先基于词频统计出的虚词、助词、代词、副词、语气词等，这些词语通常不具备独立表意能力。或者，过滤掉在页面上与query之间的最小距离超过预设范围的词语，也就是说，在选取候选标签时仅考虑页面中与页面所对应query之间的距离在L个词语之内的词语，其中L为预设的正整数。

步骤102：基于词频为候选标签集合中的各候选标签打分，得到各候选标签的打分值f₁(w)。

本步骤中f₁(w)的计算可以采用如下公式：

f_{1} (w) = tf (w) \times \log \frac{N}{c (w)} - - - (1)

其中，w为候选标签集合中的词语，tf(w)为w在当前搜索结果中出现的次数，c(w)为w在大规模语料库中出现的总次数，N为分词处理后的各词语在大规模语料库中出现次数的最大值。

上述公式类似于词频-倒文档率(TF-IDF)，一方面鼓励在当前搜索结果中出现次数多的词语，另一方面惩罚绝对词频高(即在大规模语料库中出现的总次数多)的词语。

步骤103：基于候选标签集合中各候选标签与query在搜索日志中的共现状况，为各候选标签打分，得到各候选标签的打分值f₂(w)。

由于搜索引擎的根本目的还是在于满足用户的检索需求，往往与query高频共现的词语能够反映用户需求的分布状况。例如，对于query“王菲”，其对应的候选标签可能包含“传奇”、“微博”、“演唱会”、“李亚鹏”等，其中与“王菲”的共现程度越高，则说明该候选标签满足用户需求的程度越高。

本步骤中f₂(w)的计算可以采用如下公式：

f_{2} (w) = \frac{c (w, E_{i})}{Σ_{w^{'}} c (w^{'}, E_{i})}, - - - (2)

其中，E_i为用户输入的query，c(w，E_i)为在搜索日志中w与E_i共现的次数，w′为搜索日志中所有与E_i共现的词语，∑_w′c(w′，E_i)为搜索日志中各词语与E_i共现的次数和。

可见f₂(w)的取值范围在[0，1]内。

步骤104：基于候选标签集合中各候选标签对于同一实体类型的各query的共性程度，为候选标签集合中的各候选标签打分，得到各候选标签的打分值f₃(w)。

通常，对于同一实体类型的query来说，通常会共享一些标签，这些共享的标签通常较重要的标签。例如，对于同属于“人名-歌手”这一实体类型来说，query“刘德华”、“王菲”、“周杰伦”等都属于这一实体类型，这些query所对应页面的候选标签集合中可能都包含“专辑”、“单曲”、“演唱会”等候选标签，这些标签就是共性标签，是用户较为关心的内容。

本步骤中f₃(w)的计算可以采用如下公式：

f_{3} (w) = \frac{| {E_{j} | E_{j} &Element; C (E_{i}), w &Element; SL (E_{j})} |}{| {E_{j} | E_{j} &Element; C (E_{i})} |}, - - - (3)

其中，E_i为用户输入的query，C(E_i)为E_i所属的实体类型，E_j∈C(E_i)表示E_j为与E_i属于同一类型的实体，SL(E_j)为E_j对应的候选标签集合，|{E_j|E_j∈C(E_i)，w∈SL(E_j)}|为预先设置的实体列表中实体类型为C(E_i)且候选标签包含w的query个数，|{E_j|E_j∈C(E_i)}|为所述实体列表中实体类型为C(E_i)的query总数，所述实体列表为通过网络挖掘方式和/或人工方式得到的包含各命名实体的列表。

可见f₃(w)的取值范围在[0，1]内，当C中每个query都包含w时，f₃(w)的值为1，其共性程度达到最大。

步骤105：整合f₁(w)、f₂(w)和f₃(w)，得到候选标签集合中的各候选标签的排序权值f(w)。

本步骤中，f(w)的计算可以采用公式(4)或公式(5)：

f(w)＝f₁(w)×f₂(w)×f₃(w) (4)

f(w)＝α1×f₁′(w)+β1×f₂(w)+γ1×f₃(w) (5)

其中，α1、β1和γ1是预设的权值参数，f₁′(w)为f₁(w)进行归一化后的值。

需要说明的是，上述步骤102至104可以择一执行，也可以以任意组合的形式执行。当以任意组合的形式执行时，并不限定其执行的先后顺序。

如果仅执行步骤103和步骤104的组合，采用公式(6)或(7)计算f(w)：

f(w)＝f₂(w)×f₃(w) (6)

f(w)＝β2×f₂(w)+γ2×f₃(w) (7)

其中，β2和γ2是预设的权值参数。

如果仅执行步骤102和步骤103的组合，采用公式(8)或公式(9)计算f(w)：

f(w)＝f₁(w)×f₂(w) (8)

f(w)＝α3×f₁′(w)+β3×f₂(w) (9)

其中，α3和β3是预设的权值参数。

如果仅执行步骤102和步骤104的组合，采用公式(10)或(11)计算：

f(w)＝f₁(w)×f₃(w) (10)

f(w)＝α4×f₁′(w)+γ4×f₃(w) (11)

其中，α4和γ4为预设的权值参数。

如果仅执行步骤102，则f(w)＝f₁(w)；如果仅执行步骤103，则f(w)＝f₂(w)；如果仅执行步骤104，则f(w)＝f₃(w)。

步骤106：对候选标签集合中的相似标签进行合并处理。

在候选标签集合中，往往会存在语义相似的标签，例如对于query来说，存在“报价”、“最新报价”和“手机报价”这三种相似标签，这三种相似标签，仅保留其中一个即可。

在确定候选标签集合中的相似标签时，可以将候选标签集合中的候选标签进行两两比较，确定两候选标签是否为相似标签。

确定候选标签w₁和w₂是否为相似标签时，如果至少满足以下条件之一，则确定w₁和w₂为相似标签：

如果w₁和w₂仅存在大小写差别，则确定w₁和w₂为相似标签。例如“Apple”和“apple”为相似标签。

如果w₁和w₂是同义词，则确定w₁和w₂为相似标签。例如“父亲”和“爸爸”为相似标签。同义词的识别可以基于预设的同义词词典实现。

如果w₁和w₂的字面相似度大于预设的相似度阈值T1，则确定w₁和w₂为相似标签。例如“火箭”和“火箭队”的字面相似度很高，可以确定为相似标签。

其中，w₁和w₂的字面相似度sim1(w₁，w₂)可以为：

sim 1 (w_{1}, w_{2}) = \frac{| Cha (w_{1}) \cap Cha (w_{2}) |}{\max {| Cha (w_{1}) |, | Cha (w_{2}) |}}, - - - (12)

Cha(X)为X中包含的字集合，|Cha(w₁)∩Cha(w₂)|为w₁和w₂中共同包含的字的个数，max{|Cha(w₁)|，|Cha(w₂)|}为w₁包含的字数和w₂包含的字数中的最大值。

如果w₁和w₂分别出自的搜索结果集合的重叠度大于预设的重叠度阈值T2，则确定w₁和w₂为相似标签。

其中，w₁和w₂分别出自的搜索结果集合的重叠度sim2(w₁，w₂)为：

sim 2 (w_{1}, w_{2}) = \frac{| SR (w_{1}) \cap SR (w_{2}) |}{\max {| SR (w_{1}) |, | SR (w_{2}) |}} - - - (13)

SR(X)为搜索结果中X所在的页面集合，|SR(w₁)∩SR(w₂)|为搜索结果中w₁和w₂共同所在的页面的数目，max{|SR(w₁)|，|SR(w₂)|}为搜索结果中w₁所在的页面数目和w₂所在的页面数目中的最大值。

在确定出相似标签后，对相似标签进行合并，仅保留相似标签中的一个，例如保留相似标签中排序权值f(w)最大的候选标签。如果相似标签中存在多个f(w)相同的标签，则可以都保留，也可以从中任选一个。

步骤107：选取候选标签集合中排序权值在前M1个的候选标签作为该query的搜索结果主题标签，M1为预设的正整数。

至此，query的标签抽取完毕。

当利用实施例一所示的流程针对query进行标签抽取后，可以将抽取的标签用于搜索结果的聚类中。即针对用户输入的query所对应的搜索结果，可以对搜索结果中的各页面基于标签进行聚类，将包含相同标签的页面聚为一类。在展现时，可以同时展现标签，当用户点击标签时，搜索引擎可以将搜索结果中属于该标签所在聚类的页面(即具有该标签的页面)展现给用户。

例如，用户输入query“刘德华”，初始可以在页面右侧展现搜索结果，在页面左侧展现该query对应的搜索结果主题标签，如图2a所示，query“刘德华”对应的标签包括：演唱会、电影、歌曲、图片、专辑、资料、新闻、全集等。

当用户点击标签“演唱会”时，将属于该标签所在聚类的页面展现给用户，如图2b所示，此时页面右侧展现的是搜索结果中包含“演唱会”的页面。

需要说明的是，本发明实施例中可以仅针对实体型query所对应的页面执行实施例一所述的方法。由于在利用页面的标签进行搜索结果的聚类时，实体型query通常对应的搜索结果数量较大，主题也较为复杂，还可能包含歧义，因此搜索结果聚类的需求更为明显。而其他query，尤其是长query，由于返回的结果数量通常较少，搜索结果聚类的需求不大。

较优地，可以将是一个命名实体的query作为实体型query，识别实体型query的方法可以包括但不限于以下方式：

方式一：基于实体列表的方式。预先通过网络挖掘的方式和/或人工添加的方式，得到包含各命名实体的实体列表。仅对包含在实体列表中的query所对应的页面执行实施例一所述的流程。即识别query是否为实体型query时，判断该query是否包含在预先设置的实体列表中，如果是，则确定该query为实体型query；否则确定该query不是实体型query。

方式二：基于实体构造规则的方式。预先定义一些实体构造规则，例如，预先定义“地名+2至10个字+公司”为机构名，“姓+1至3个字”为人名等。在进行实体型query的识别时，判断该query的构造是否符合实体构造规则，如果是，则确定该query为实体型query；否则确定该query不是实体型query。

以上是对本发明所提供的方法进行的详细描述，下面结合实施例二对本发明所提供的装置进行详细描述。

实施例二、

图3为本发明实施例二提供的抽取标签的装置结构图，如图3所示，该装置可以包括：候选集合产生单元300、打分处理单元310、排序权值确定单元320和标签选取单元330。

候选集合产生单元300，用于对用户输入的query的搜索结果中的各页面进行分词处理，并对分词处理后得到的各词语进行过滤处理，得到query对应的候选标签集合。

基于效率的考虑，候选集合产生单元300中包含的分词处理子单元301，对搜索结果中的各页面的标题和/或摘要进行分词处理。

另外，候选集合产生单元300中包含过滤处理子单元302，用于从分词处理后得到的各词语中过滤掉预设的停用词表所包含的词语；或者，从分词处理后得到的各词语中过滤掉在页面中与query之间的最小距离超过预设范围的词语。

打分处理单元310，用于分别针对候选标签集合中的各候选标签w执行操作S1、S2和S3中的任一或任意组合：

操作S1、基于词频为候选标签w打分，得到候选标签w的打分值f₁(w)。

操作S2、基于候选标签w与query在搜索日志中的共现状况，为候选标签w打分，得到候选标签w的打分值f₂(w)。

操作S3、基于候选标签w对于同一实体类型的各query的共性程度，为候选标签w打分，得到候选标签w的打分值f₃(w)。

排序权值确定单元320，用于整合打分处理单元310的打分结果，得到候选标签集合中各候选标签w的排序权值f(w)。

标签选取单元330，用于选取候选标签集合中排序权值f(w)在前M1个的候选标签作为query的搜索结果主题标签，M1为预设的正整数。

具体地，打分处理单元310在执行操作S1时，按照得到候选标签w的打分值f₁(w)，其中，tf(w)为w在搜索结果中出现的次数，c(w)为w在语料库中出现的总次数，N为上述各词语在语料库中出现次数的最大值。

打分处理单元310在执行操作S2时，可以按照

得到候选标签w的打分值f₂(w)，其中，E_i为query，c(w，E_i)为在搜索日志中w与E_i共现的次数，∑_w′c(w′，E_i)为搜索日志中各词语与E_i共现的次数和。

打分处理单元310在执行操作S3时，可以按照

得到候选标签w的打分值f₃(w)，其中，E_i为所述query，C(E_i)为E_i所属的实体类型，E_j∈C(E_i)表示E_j为与E_i属于同一类型的实体，SL(E_i)为E_i对应的候选标签集合，|{E_j|E_j∈C(E_i)，w∈SL(E_j)}|为预先设置的实体列表中实体类型为C(E_i)且候选标签包含w的query个数，|{E_j|E_j∈C(E_i)}|为实体类型为C(E_i)的query总数，所述实体列表为通过网络挖掘方式和/或人工方式得到的包含各命名实体的列表。

根据打分处理单元310执行的不同操作，排序权值确定单元320可以采用不同的整合策略：

如果打分处理单元310执行操作S1、S2和S3，则排序权值确定单元320可以按照f(w)＝f₁(w)×f₂(w)×f₃(w)或者f(w)＝α1×f₁′(w)+β1×f₂(w)+γ1×f₃(w)得到候选标签集合中各候选标签w的排序权值f(w)，其中，α1、β1和γ1是预设的权值参数，f₁′(w)为f₁(w)进行归一化后的值。

如果打分处理单元310执行操作S2和S3，则排序权值确定单元320按照f(w)＝f₂(w)×f₃(w)或者f(w)＝β2×f₂(w)+γ2×f₃(w)得到候选标签集合中各候选标签w的排序权值f(w)，其中，β2和γ2是预设的权值参数。

如果打分处理单元310执行操作S1和S2，则排序权值确定单元320按照f(w)＝f₁(w)×f₂(w)或者f(w)＝α3×f₁′(w)+β3×f₂(w)得到候选标签集合中各候选标签w的排序权值f(w)，其中α3和β3是预设的权值参数。

如果打分处理单元310执行操作S1和S3，则排序权值确定单元320按照f(w)＝f₁(w)×f₃(w)或者f(w)＝α4×f₁′(w)+γ4×f₃(w)得到候选标签集合中各候选标签w的排序权值f(w)，其中α4和γ4为预设的权值参数。

如果打分处理单元310仅执行操作S1，则排序权值确定单元320按照f(w)＝f₁(w)得到候选标签集合中各候选标签w的排序权值f(w)。

如果打分处理单元310仅执行操作S2，则排序权值确定单元320按照f(w)＝f₂(w)得到候选标签集合中各候选标签w的排序权值f(w)。

如果打分处理单元310仅执行操作S3，则排序权值确定单元320按照f(w)＝f₃(w)得到候选标签集合中各候选标签w的排序权值f(w)。

为了避免从候选标签集合中选取出的标签存在相似标签，该装置还可以包括：相似标签处理单元340，该相似标签处理单元340可以具体包括：相似标签确定子单元341和相似标签合并子单元342。

相似标签确定子单元341，用于确定候选标签集合中的相似标签。

相似标签合并子单元342，用于在所述排序权值确定单元320确定出各候选标签的排序权值后，对候选标签集合中的相似标签进行合并处理。具体地，在执行合并处理时，可以仅保留相似标签中排序权值f(w)最大的候选标签。如果相似标签中存在多个f(w)相同的标签，则可以都保留，也可以从中任选一个。

也就是说，标签选取单元330从相似标签合并子单元342处理后的候选标签集合中选取query的标签。

在确定候选标签集合中的相似标签时，可以将候选标签集合中的候选标签进行两两比较，确定两候选标签是否为相似标签。确定候选标签w₁和w₂是否为相似标签时，如果至少满足以下条件之一，则确定w₁和w₂为相似标签：

如果候选标签集合中候选标签w₁和w₂仅存在大小写差别，则相似标签确定子单元341确定w₁和w₂为相似标签。或者，

如果候选标签集合中w₁和w₂是同义词，则相似标签确定子单元341确定w₁和w₂为相似标签。或者，

如果候选标签集合中w₁和w₂的字面相似度大于预设的相似度阈值T1，则相似标签确定子单元341确定w₁和w₂为相似标签。或者，

如果候选标签集合中w₁和w₂分别出自的搜索结果集合的重叠度相似度大于预设的重叠度阈值T2，则相似标签确定子单元341确定w₁和w₂为相似标签。

其中，w₁和w₂的字面相似度sim1(w₁，w₂)可以采用实施例一中的公式(12)确定。

w₁和w₂分别出自的搜索结果集合的重叠度sim2(w₁，w₂)可以采用实施例一中的公式(13)确定。

在利用该装置选取出query的标签后，可以利用选取出的标签对搜索结果进行聚类，即该装置还可以包括：结果聚类单元350，用于基于标签选取单元330选取的标签将搜索结果中的各页面进行聚类。

还可以包括：结果展现单元360，用于在展现搜索结果的同时，展现标签选取单元330选取的标签；当用户点击标签时，将搜索结果中属于用户所点击标签所在聚类的页面展现给用户。

考虑到在利用标签进行搜索结果的聚类时，实体型query通常对应的搜索结果数量较大，主题也较为复杂，还可能包含歧义，因此搜索结果聚类的需求更为明显。而其他query的需求并不大。因此，该装置还可以包括：query类型识别单元370，用于识别用户输入的query是否为实体型query，如果是，触发候选集合产生单元300得到query对应的候选标签集合；否则，禁止候选集合产生单元300得到query对应的候选标签集合。其中，实体型query可以为一个命名实体。

其中，query类型识别单元370对实体型query的识别可以具体为：判断用户输入的query是否包含在预设的实体列表中，如果是，则识别出用户输入的query为实体型query，实体列表为通过网络挖掘方式和/或人工方式得到的包含各命名实体的列表；或者，判断用户输入的query的构造是否符合预设的实体构造规则，如果是，则识别出用户输入的query为实体型query。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种针对搜索请求抽取搜索结果主题标签的方法，其特征在于，针对用户输入的搜索请求query的搜索结果执行以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤A中对所述搜索结果中的各页面进行分词处理为：

对所述搜索结果中的各页面的标题和/或摘要进行分词处理。

3.根据权利要求1所述的方法，其特征在于，步骤A中所述对分词处理后得到的各词语进行过滤处理为：

4.根据权利要求1所述的方法，其特征在于，所述f₁(w)具体为：

f_{1} (w) = tf (w) \times \log \frac{N}{c (w)},

其中，tf(w)为所述w在所述搜索结果中出现的次数，c(w)为所述w在语料库中出现的总次数，N为所述各词语在所述语料库中出现次数的最大值。

5.根据权利要求1所述的方法，其特征在于，所述f₂(w)具体为：

f_{2} (w) = \frac{c (w, E_{i})}{Σ_{w^{'}} c (w^{'}, E_{i})},

6.根据权利要求1所述的方法，其特征在于，所述f₃(w)具体为：

f_{3} (w) = \frac{| {E_{j} | E_{j} &Element; C (E_{i}), w &Element; SL (E_{j})} |}{| {E_{j} | E_{j} &Element; C (E_{i})} |},

7.根据权利要求1所述的方法，其特征在于，所述步骤C具体包括：

如果在所述步骤B中仅执行步骤B2，则所述f(w)＝f₂(w)；

如果在所述步骤B中仅执行步骤B3，则所述f(w)＝f₃(w)。

8.根据权利要求1所述的方法，其特征在于，在所述步骤C和所述步骤D之间还包括：

E1、确定所述候选标签集合中的相似标签；

E2、对所述候选标签集合中的相似标签进行合并处理。

9.根据权利要求8所述的方法，其特征在于，所述步骤E1具体为：

10.根据权利要求9所述的方法，其特征在于，所述w₁和w₂的字面相似度sim1(w₁，w₂)为：

sim 1 (w_{1}, w_{2}) = \frac{| Cha (w_{1}) \cap Cha (w_{2}) |}{\max {| Cha (w_{1}) |, | Cha (w_{2}) |}};

11.根据权利要求9所述的方法，其特征在于，所述w₁和w₂分别出自的搜索结果集合的重叠度sim2(w₁，w₂)为：

sim 2 (w_{1}, w_{2}) = \frac{| SR (w_{1}) \cap SR (w_{2}) |}{\max {| SR (w_{1}) |, | SR (w_{2}) |}};

12.根据权利要求8所述的方法，其特征在于，所述步骤E2为：

13.根据权利要求1至12任一权项所述的方法，其特征在于，在所述步骤D之后，还包括：

14.根据权利要求13所述的方法，其特征在于，在所述步骤F之后还包括：

15.根据权利要求1至12任一权项所述的方法，其特征在于，在所述步骤A之前还包括：

其中，所述实体型query为一个命名实体。

16.根据权利要求15所述的方法，其特征在于，识别所述用户输入的query是否为实体型query具体包括：

17.一种针对搜索请求抽取搜索结果主题标签的装置，其特征在于，该装置包括：候选集合产生单元、打分处理单元、排序权值确定单元和标签选取单元；

18.根据权利要求17所述的装置，其特征在于，所述候选集合产生单元中包含分词处理子单元，用于对所述搜索结果中的各页面的标题和/或摘要进行分词处理。

19.根据权利要求17所述的装置，其特征在于，所述候选集合产生单元中包含过滤处理子单元，用于从所述分词处理后得到的各词语中过滤掉预设的停用词表所包含的词语；或者，

20.根据权利要求17所述的装置，其特征在于，所述打分处理单元在执行所述操作S1时，按照得到候选标签w的打分值f₁(w)，其中，tf(w)为所述w在所述搜索结果中出现的次数，c(w)为所述w在语料库中出现的总次数，N为所述各词语在所述语料库中出现次数的最大值。

21.根据权利要求17所述的装置，其特征在于，所述打分处理单元在执行所述操作S2时，按照

得到候选标签w的打分值f₂(w)，其中，E_i为所述query，c(w，E_i)为在搜索日志中w与E_i共现的次数，∑_w′c(w′，E_i)为搜索日志中各词语与E_i共现的次数和。

22.根据权利要求17所述的装置，其特征在于，所述打分处理单元在执行所述操作S3时，按照

得到候选标签w的打分值f₃(w)，其中，E_i为所述query，C(E_i)为E_i所属的实体类型，E_j∈C(E_i)表示E_j为与E_i属于同一类型的实体，SL(E_i)为E_i对应的候选标签集合，|{E_j|E_j∈C(E_i)，w∈SL(E_j)}|为预先设置的实体列表中实体类型为C(E_i)且候选标签包含w的query个数，|{E_j|E_j∈C(E_i)}|为所述实体列表中实体类型为C(E_i)的query总数，所述实体列表为通过网络挖掘方式和/或人工方式得到的包含各命名实体的列表。

23.根据权利要求17所述的装置，其特征在于，如果所述打分处理单元执行操作S1、S2和S3，则所述排序权值确定单元按照f(w)＝f₁(w)×f₂(w)×f₃(w)或者f(w)＝α1×f₁′(w)+β1×f₂(w)+γ1×f₃(w)得到所述候选标签集合中各候选标签w的排序权值f(w)，其中，α1、β1和γ1是预设的权值参数，f₁′(w)为f₁(w)进行归一化后的值；

24.根据权利要求17所述的装置，其特征在于，该装置还包括：相似标签处理单元，具体包括：相似标签确定子单元和相似标签合并子单元；

25.根据权利要求24所述的装置，其特征在于，如果所述候选标签集合中候选标签w₁和w₂仅存在大小写差别，则所述相似标签确定子单元确定w₁和w₂为相似标签；或者，

26.根据权利要求25所述的装置，其特征在于，所述w₁和w₂的字面相似度sim1(w₁，w₂)为：

sim 1 (w_{1}, w_{2}) = \frac{| Cha (w_{1}) \cap Cha (w_{2}) |}{\max {| Cha (w_{1}) |, | Cha (w_{2}) |}};

27.根据权利要求25所述的装置，其特征在于，所述w₁和w₂分别出自的搜索结果集合的重叠度sim2(w₁，w₂)为：

sim 2 (w_{1}, w_{2}) = \frac{| SR (w_{1}) \cap SR (w_{2}) |}{\max {| SR (w_{1}) |, | SR (w_{2}) |}};

28.根据权利要求24所述的装置，其特征在于，所述相似标签合并子单元在执行所述合并处理时，仅保留相似标签中排序权值f(w)最大的候选标签。

29.根据权利要求17至28任一权项所述的装置，其特征在于，该装置还包括：结果聚类单元，用于基于所述标签选取单元选取的标签将所述搜索结果中的各页面进行聚类。

30.根据权利要求29所述的装置，其特征在于，该装置还包括：结果展现单元，用于在展现所述搜索结果的同时，展现所述标签选取单元选取的标签；当用户点击标签时，将所述搜索结果中属于用户所点击标签所在聚类的页面展现给用户。

31.根据权利要求17至28任一权项所述的装置，其特征在于，该装置还包括：query类型识别单元，用于识别所述用户输入的query是否为实体型query，如果是，触发所述候选集合产生单元得到所述query对应的候选标签集合；否则，禁止所述候选集合产生单元得到所述query对应的候选标签集合；

其中，所述实体型query为一个命名实体。

32.根据权利要求31所述的装置，其特征在于，query类型识别单元判断所述用户输入的query是否包含在预设的实体列表中，如果是，则识别出所述用户输入的query为实体型query，所述实体列表为通过网络挖掘方式和/或人工方式得到的包含各命名实体的列表；或者，