CN102081642A

CN102081642A - 搜索引擎检索结果聚类的中文标签提取方法

Info

Publication number: CN102081642A
Application number: CN 201010527341
Authority: CN
Inventors: 董守斌; 张丽平; 张凌; 李粤; 袁华
Original assignee: Count Network Co Ltd Of Park In Guangzhou; South China University of Technology SCUT
Current assignee: Count Network Co Ltd Of Park In Guangzhou; South China University of Technology SCUT
Priority date: 2010-10-28
Filing date: 2010-10-28
Publication date: 2011-06-01

Abstract

本发明公开了一种搜索引擎检索结果聚类的中文标签提取方法，包括以下步骤：S1、用户输入查询词，形成输入文档；S2、选取候选词，对所有候选词评分；S3、判断是否存在未作标记的候选词，若否，则跳转到步骤S8；若是，则选出得分最高的候选词；把这个选中的候选词拓展成为包含该词的有序词序列的集合，进入步骤S4；S4、计算各个有序词序列的频率，抽取高频词序列；S5、对高频词序列评分，并选取候选词序列；S6、判断选词序列是否被接受为标签，若是，则进入步骤S7；若否，则返回步骤S3；S7、根据生成的标签进行聚类；S8、结束操作。本发明可以减少噪音标签，使标签具有更好的代表性、简明性和完整性。

Description

搜索引擎检索结果聚类的中文标签提取方法

技术领域

本发明涉及基于搜索引擎的检索结果聚类的技术领域，特别涉及一种搜索引擎检索结果聚类的中文标签提取方法。

背景技术

对搜索引擎返回结果的聚类，是提高搜索引擎服务质量的重要手段。它把同一个子主题的网页分划到同一个类别当中，并对每个类用标签描述，作为对该类主题的概括，方便用户快速定位自己感兴趣的主题的网页。搜索引擎结果聚类的研究，是现代搜索引擎研究的热点和难点。

目前对搜索引擎检索结果聚类的标签生成方法可以分为两类：一、先聚类后抽取标签的方法；二、先抽取标签然后把文档划分到对应标签的方法。

(一)先聚类后抽取标签的方法：把每个文档以词的权值为元素，表示成向量形式，然后用一般的数值聚类的算法，如k均值聚类算法、层次聚类算法，对文档向量进行聚类，再通过每个聚类中词语的统计特征，抽取聚类中相应的标签。这是早期的搜索引擎结果聚类中采用的方法。这种方法基于一般数值聚类的方法对文档进行聚类，忽略了文档所固有的语义特性，使得文档的组织并没有和用户所期望的根据主题组织的方式相一致，而且各个聚类所对应的标签可读性差，无法准确地表述主题。聚类的数目以及聚类过程的终止也很难确定。

(二)先抽取标签后聚类的方法：先对输入文档抽取出所有的公共短语，然后通过不同评分方式选取若干公共短语作为候选标签，并合并相似度高的标签，再把文档划分到对应的标签当中。这是现代搜索引擎中普遍采用的聚类方法。这种方法着重于聚类标签的抽取，从而使得聚类标签有较高的可读性，同时，也使得文档能够更好地根据主题进行聚类。

现有的比较成熟的支持结果聚类的系统有元搜索引擎clusty、聚类引擎Carrot2等。但是，现有系统和算法所获得的对于中文查询的聚类结果，特别是聚类标签的质量，依然有待于改善。主要存在的问题有：

(一)标签的噪音问题：检索结果的聚类一般基于标题和摘要，然而标题和摘要当中包含了大量的与文档内容、主题不相关的词，从而在标签的抽取过程中引入了大量的噪音。而现有的噪音过滤技术主要是采用去掉html标记、去掉无意义的符号、去掉停用词等一些简单的方法，无法很好地解决噪音问题。

(二)标签不具有较好的主题代表性，且难以满足用户的查询需求。如Carrot2的一些聚类算法采用潜语义索引的方法，选取能最好代表各个概念的词或短语作为候选标签，但是效果不佳。如何抽取有主题代表性的标签来代表聚类，如何抽取与用户的查询密切相关的标签来细化用户的查询、提供用户感兴趣的信息，这是现有技术中还有待于完善的问题。

(三)标签的“不完整”和过于冗长的问题。简单短语提取方法提取的标签一般不够完整，无法完整表达聚类的内容。而潜语义索引的方法，从理论上来说又偏向于选取到过于冗长的标签。如何选取能够简明地表达完整语义的标签，这也是技术上需要深入研究的问题。

(四)被聚类的文档数比例过低的问题。由于一些聚类标签的提取方法(如潜语义索引的方法)通常计算开销较大，因此为了保证实时的在线响应，一般搜索引擎系统只能选择前几百个网页进行聚类，使得被聚类的文档比例过少，无法较完整地反映搜索结果的性质。

发明内容

本发明的目的在于克服上述现有技术的缺点和不足，提供一种搜索引擎检索结果聚类的中文标签提取方法，其可以减少噪音标签，使标签具有更好的代表性、简明性和完整性，更能满足用户的查询需求，提高被聚类文档的比例的效果。

本发明的目的通过下述技术设计方案实现：一种搜索引擎检索结果聚类的中文标签提取方法，包括以下步骤：

S1、用户输入查询词，在得到检索结果后，选取检索结果的前M个结果页面的摘要作为输入文档，形成文档集合，所述M为正整数；

S2、在输入文档中选取候选词，对所有候选词评分：根据各个候选词的主题代表性、以及候选词和用户查询词的相关性给各个候选词评分；

S3、判断是否存在未作标记的候选词，若否，则跳转到步骤S8；若是，则在未作标记的候选词中，选出得分最高的候选词，并给予标记；把这个选中的候选词拓展成为包含该词的有序词序列的集合，进入步骤S4；

S4、计算步骤S3中各个有序词序列的频率，抽取高频词序列；

S5、根据完整性和简明性对步骤S4中抽取的高频词序列评分，并选取得分最高的词序列作为候选词序列；

S6、如果当前候选词序列所关联的文档，与已有的标签所关联的文档相比，其覆盖程度小于预设的阈值，则选取其对应的短语作为标签，进入步骤S7；否则该候选词序列未被接受为标签，则返回步骤S3；

S7、根据生成的标签进行聚类：根据步骤S6生成的标签，计算每个检索结果网页摘要与各标签的语义相关度，然后将与某标签相关度最高的文档划分到该类别；

S8、结束操作。

为更好的实现本发明，所述步骤S2中在输入文档中选取候选词，具体是指：

S2.11、对输入文档分词：对所有输入文档进行分词，把各个输入文档切分成词的有序序列，并得到各个词的词性标注，构成新的集合R1；

S2.12、选取候选词：在集合R1中抽取所有的出现频率不小于3次的动词、名词作为候选词。

优选的，所述步骤S2中对所有候选词评分，具体是包括以下步骤：

S2.21对R1中各个输入文档，仅保留其动词和名词，得到各个输入文档对应的新的有序词序列，构成新的集合R2；

S2.22选取任一未被评分的候选词，计算该候选词到查询词的平均距离：

从R2中抽取出同时包含该候选词和查询词的所有输入文档形成集合R3，由于集合R3中的各输入文档表示为有序词序列的形式，对于R3中的任一输入文档，所述有序词序列标记为(w₁，w₂，…，w_q，…，w_t，……，w_k)，其中候选词w_t出现在序列中的第p₁，p₂，......，p_m个位置，查询词w_q出现在序列中的第q₁，q₂，......，q_n个位置，则在该输入文档中，候选词到查询词的距离为所有|p_i-q_j|的最小值，其中i＝1，2，......，m，j＝1，2，.....，n；对R3中的所有输入文档，通过上述方法计算候选词到查询词的距离，求平均得到该候选词到查询词的平均距离，记为score₁；

S2.23计算包含了该候选词的输入文档之间的平均相似度：

对于步骤S2.22中选取的候选词，从集合R2中抽取出包含该词的所有输入文档并分别表示成向量，向量的每个元素用词的TF-IDF权重表示，用向量空间的余弦相似度的计算方法计算这些输入文档中任意两个文档的相似度，并对相似度求平均值，记为score₂；

S2.24计算该候选词的得分：

score(w_t)＝-α*r(w_q)*score₁+score₂

其中，score(w_t)代表的是w_t的候选词得分，w_t代表的是候选词，α代表的是score₁的可变权值；w_q代表的是查询词，r(w_q)代表查询词在输入文档中的出现比率，r(w_q)＝包含查询词的输入文档个数/输入文档的总个数M；

S2.25判断是否已对所有候选词评分，若是，则进入步骤S3；若否，返回至步骤S2.22。

优选的，所述α值为3。

优选的，所述步骤S3中把这个选中的候选词拓展成为包含该词的有序词序列的集合，具体是指：

在集合R2中抽取出包含该候选词的所有输入文档，由于集合R2中的各输入文档表示为有序词序列的形式，假设把候选词标记为w_t，任意一个所述序列标记为(w₁，w₂，……，w_t……，w_k)，则所有满足i≤t且j≥t的子序列(w_i，……，w_j)将被作为扩展得到的词序列。

优选的，所述步骤S4中计算步骤S3中各个有序词序列的频率，抽取高频词序列，具体包括以下步骤：

假设待计算频率的序列为seq，令frequency(seq)表示seq的频率，length(seq)表示seq的长度，d(seq₁，seq₂)表示序列seq₁与seq₂之间的字符串编辑距离，delta(i)代表第i个文档中的词序列对seq频率增量的贡献，scale代表加权因子；

S4.1、选择一个未计算过频率的有序词序列seq；

S4.2、初始化，令frequency(seq)＝0，i＝1；

S4.3、对第i个输入文档Di，获取该文档的所有有序词序列集合Fi；

S4.4、对于Fi中的所有序列seq_l，计算d(seq，seq_l)，令d min为这些距离中的最小值，如果d min/length(seq)超过给定阈值，则delta(i)＝0，否则令delta(i)＝1/(1+scale*d min/length(seq))；

S4.5、令frequency(seq)＝frequency(seq)+delta(i)，判断是否已计算完词序列seq与所有输入文档中词序列的编辑距离，若否，则处理下一个输入文档，令i＝i+1，跳转至步骤S4.3；若是，则进入步骤S4.6；

S4.6、判断是否已计算完步骤S3中各个有序词序列的频率，若否，返回至步骤S4.1；若是，则抽取高频词序列，进入步骤S5，所述高频词是指出现次数大于某个阈值的词，所述阈值由管理员设置。

优选的，所述scale值为2。

优选的，所述步骤S4.4中的阈值为1/3。

优选的，所述步骤S5中根据完整性和简明性对步骤S4中抽取的高频词序列评分，具体包括以下步骤：

S5.1计算词序列的右独立性：

以seq代表待评分的序列，以length(seq)表示seq的长度，以w_b表示seq的最后一个词，以w_b-1表示seq的倒数第二个词，则通过下式对序列的右独立性评分：

{EN}_{1} = \underset{t &Element; r (w_{b})}{Σ} N (w_{b}) / N * p (t | w_{b}) * \log_{2} (N (w_{b}, t) / N (w_{b}))

{EN}_{2} = \underset{t &Element; r (w_{b})}{Σ} N (w_{b - 1}) / N * p (w_{b} | w_{b - 1}) p (t | w_{b - 1}, w_{b}) * \log_{2} (\frac{N (w_{b - 1}, w_{b}, t)}{N (w_{b - 1}, w_{b})})

其中r(w_b)表示所有位于w_b的下一个位置的词，N(w_b)表示w_b总共出现的次数，N代表所有词的出现总次数，p(t|w_b)代表w_b的下一个词是t的概率，N(w_b，t)表示词t出现在w_b的下一个位置的次数，N(w_b-1)表示w_b-1总共出现的次数，p(w_b|w_b-1)代表w_b-1的下一个词是w_b的概率；p(t|w_b-1，w_b)代表w_b-1、w_b依次连续出现的条件下，w_b的下一个词是t的概率；N(w_b-1，w_b，t)表示t出现在w_b的下一个位置，同时w_b出现在w_b-1的下一个位置的次数；N(w_b-1，w_b)表示w_b出现在w_b-1的下一个位置的次数，上述的次数或概率均是指在R2中出现的概率或次数；

如果seq的长度不小于2，则右独立性评分为EN₁和EN₂的平均值，即右独立性评分IND_R(seq)＝0.5*(EN₁+EN₂)，否则IND_R(seq)＝EN₁；

S5.2计算词序列的左独立性：

以seq表示待评分的序列，以length(seq)表示seq的长度，以w_l表示seq的头一个词，以w_l+1表示seq的第二个词，则通过下式对序列的左独立性评分：

{EN}^{'}_{1} = \underset{t &Element; r (w_{l})}{Σ} N (t) / N * p (w_{l} | t) * \log_{2} (N (t, w_{l}) / N (w_{l}))

{EN}^{'}_{2} = \underset{t &Element; r (w_{l})}{Σ} N (t) / N * p (w_{l} | t) * p (w_{l + 1} | t, w_{l}) * \log_{2} (\frac{N (t, w_{l}, w_{l + 1})}{N (w_{l}, w_{l + 1})})

其中r(w_l)表示出现在w_l的前一个位置的所有词的集合，N(w_l)表示w_l总共出现的次数，N(t，w_l)表示w_l出现在t的下一个位置的次数，p(w_l|t)代表在t的下一个词是w_l的概率，N(t)表示t总共出现的次数，N代表所有词的出现总次数；N(t，w_l，w_l+1)表示w_l出现在t的下一个位置，同时w_l+1出现在w_l的下一个位置的次数；p(w_l+1|t，w_l)代表t、w_l依次连续出现的条件下，w_l的下一个词是w_l+1的概率；N(w_l，w_l+1)表示w_l+1出现在w_l的下一个位置的次数，上述的次数或概率均是指在R2中出现的概率或次数；

如果seq的长度不小于2，则左独立性评分为EN′₁和EN′₂的平均值，即左独立性评分IND_L(seq)＝0.5*(EN′₁+EN′₂)，否则IND_L(seq)＝EN′₁；

S5.3计算词序列的独立性分数：

独立性分数IND_LR(seq)是左独立性评分和右独立性评分的平均值，即IND_LR(seq)＝0.5*(IND_L(seq)+IND_R(seq))。

优选的，所述步骤S6具体为：

假设该候选词词序列表示为seq(w_l，……，w_b)，并假设已经接受了y个序列，已经划分到这y个序列的文档的并集为D_y，作出如下定义：

{Snip}_{1} = {s | s &Element; snippets, {w_{l}, . . . . . ., w_{b}} &SubsetEqual; s}

Snip₂＝{s|s∈Snip₁∩D_y}

其中Snippets代表步骤S1中的文档集合，Snip₁代表被该候选词序列所覆盖的摘要的个数；Snip₂代表Snip₁中被之前已经接受作为标签的词序列所覆盖的摘要的个数；

本发明与现有技术相比，具有如下优点和有益效果：

第一、本方法可大大减少噪音标签。本方法在提取标签时主要提取有主题意义的动名词，因此基本上不包括噪音。

第二、本方法提取的标签具有更好的主题代表性，并与查询具有更好的关联性。

本方法根据包含了该候选词的文档之间的平均相似度对该词评分，因为较好的具有主题代表性的词，能把内容相似度较高的文档聚到相应的类。本方法根据候选词到查询词的平均距离对该候选词评分。两个词之间的距离，是以这两个词在同时包含了这两个词的文档的出现位置之间最少的动、名词的总个数来衡量。这是因为：一方面，对查询词起细化、修饰、扩充的词，往往与查询词是相邻的，也即是这种能够较好地满足用户查询需求的词，一般与查询词之间的间隔较小；另一方面，网页的标题与摘要中往往可能包含多个句子，每个句子可能有不同的论述对象，所以其它不包含有查询词的句子，可能和查询词本身的相关性是较差的，甚至可能是噪音。因此以与查询词的间隔为度量能够使这些句子中所包含的词具有较低的得分，从而使标签具有更好的主题代表性和与查询的关联性。

另外本方法中利用采用字符串间的相似度作为词序列频率增量的加权，比起传统的频率计算方法，对于相似的、不同形式出现的词序列能有效地识别，从而更好地防止高频词的丢失，使标签具有更好的主题代表性和与查询的关联性。

第三、本方法提取的标签具有更好的简明性和更好的完整性。单个词可能使得标签的完整性较差，所以本发明中把候选词扩充成短语，意在把与候选词密切关联的其它成分加入，使得标签具有很好的可读性。

第四、本方法计算简单，简单易于实施，速度较快，具有较好的扩展性。

附图说明

图1是本发明搜索引擎检索结果聚类方法实现的流程图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

本搜索引擎检索结果聚类的中文标签提取方法，如图1所示，包括以下步骤：

S1、用户输入查询词，在得到检索结果后，选取检索结果的前M个结果页面的摘要作为输入文档，形成文档集合Snippets；所述M为正整数；

S2、对输入文档分词：(以下的输入文档均指的是检索结果网页，每个结果网页的输入只包括标题和摘要，不包括原始内容。)

对所有输入文档进行分词，把各个输入文档切分成词的有序序列，并得到各个词的词性标注，这些有序词序列构成新的集合R1；

S3、选取候选词

在集合R1中抽取所有的出现频率不小于3次的动词、名词作为候选词；

S4、对所有候选词评分：

对R1中各输入文档，仅保留其动词和名词，得到各个输入文档对应的新的有序词序列，这些有序词序列构成新的集合R2。

对于任一候选词，从R2中抽取出同时包含该词和查询词的所有输入文档形成集合R3。由于集合R3中的各输入文档表示为有序词序列的形式，对于R3中的任一输入文档，所述有序词序列标记为(w₁，w₂，…，w_q，…，w_t，……，w_k)，其中候选词w_t出现在序列中的第p₁，p₂，......，p_m个位置(因为在同一个输入文档中，同一候选词可能会多次出现)，查询词w_q出现在序列中的第q₁，q₂，......，q_n个位置(因为在同一个输入文档中，同一查询词可能会多次出现)，则在该输入文档中，候选词到查询词的距离为所有|p_i-q_j|的最小值，其中i＝1，2，......，m，j＝1，2，.....，n。对R3中的所有输入文档，通过上述方法计算候选词到查询词的距离，求平均得到该候选词到查询词的平均距离，记为score₁。对于任意两个词，在某个同时包含了这两个词的输入文档中，这两个词之间的距离，是以这两个词在这个文档的出现位置之间最少的动、名词的总个数来衡量，这有利于提高简明性，与查询词的相关性，以及有效减少了噪音标签。

对于任一候选词，从集合R2中抽取出包含该词的所有输入文档并分别表示成向量，向量的每个元素用词的TF-IDF权重表示。用向量相似度的计算方法计算这些输入文档中任意两个文档的相似度，并对相似度求平均值，记为score₂。

候选词的得分的计算公式如下：

score(w_t)＝-α*r(w_q)*score₁+score₂

其中，w_t代表的是候选词，score(w_t)代表的是w_t的候选词得分，α代表的是score₁的可变权值，可配置，本实施例中设定为3；w_q代表的是查询词，r(w_q)代表查询词在输入文档中的出现比率，r(w_q)＝包含查询词的输入文档个数/输入文档的总个数M；

S5、判断是否存在未作标记的候选词，若否，则跳转到步骤S10，若是，则在未作标记的候选词中，选出得分最高的候选词，并给予标记。把这个候选词拓展成为包含该词的有序词序列的集合，以实现标签的完整性目的，进入S6。

拓展的实现方式如下：在集合R2中抽取出包含该候选词的所有输入文档。由于集合R2中的各输入文档表示为有序词序列的形式，假设把候选词标记为w_t，把任意一个所述序列标记为(w₁，w₂，……，w_t……，w_k)，那么，所有满足i≤t且j≥t的子序列(w_i，……，w_j)将被作为扩展得到的词序列。

由于通过步骤S4选取到的是具有主题代表意义或者是与查询词有较好相关性的单个候选词。然而，单个词可能使得标签的完整性较差，所以在本实施例的步骤S5中把候选词扩充成短语，意在把与候选词密切关联的其它成分加入。另外，短语中非动、名词成分的添加、删除，往往不影响该短语的呈现，但是它们的存在又影响着短语间相似度的计算，所以在本步骤中使各个句子去除除动、名词外的其它词性的词，获取相应的有序词序列。

S6、计算步骤S5中各个有序词序列的频率，抽取高频词序列：

在词序列出现频率的计算中，一个词序列的出现，对于另一个词序列频率增量的贡献，以这两个词序列之间的相似度作度量，因此本实施例中运用编辑距离公式，计算词序列之间的相似度。由于语言表达的灵活性，一个词序列在各个文档中的表达形式可能不完全一致，包括词顺序的调换，或者其它修饰成分的插入或删除。所以传统的频率计算方式可能会丢弃出现形式灵活的词序列。所以用词序列的相似度之间作为频率增量的加权值，有利于提高文档的聚类比例。

假设待计算频率的序列为seq，令frequency(seq)表示seq的频率，length(seq)表示seq的长度，d(seq₁，seq₂)表示序列seq₁与seq₂之间的字符串编辑距离，delta(i)代表第i个文档中的词序列对seq频率增量的贡献，scale代表加权因子，本实施例中设为2；有序词序列频率的计算，具体包括以下步骤：

S6.1、选择一个未计算过频率的有序词序列seq；

S6.2、初始化，令frequency(seq)＝0，i＝1；

S6.3、对第i个输入文档Di，获取该文档的所有有序词序列集合Fi；

S6.4、对于Fi中的所有序列seq_l，计算d(seq，seq_l)，令d min为这些距离中的最小值，如果d min/length(seq)超过给定阈值(本实施例中设为1/3)，则delta(i)＝0，否则令delta(i)＝1/(1+scale*d min/length(seq))；

S6.5、令frequency(seq)＝frequency(seq)+delta(i)，判断是否已计算完词序列seq与所有输入文档中词序列的编辑距离，若否，则处理下一个输入文档，令i＝i+1，跳转至步骤S6.3；若是，则进入步骤S6.6；

S6.6、判断是否已计算完步骤S5中各个有序词序列的频率，若否，返回至步骤S6.1；若是，则抽取高频词序列进入步骤S7(高频词序列，是指出现次数大于某个阈值的词序列。在本实施例中，这个阈值设为3)。

S7、词序列评分，根据步骤S6中抽取的高频词序列的完整性和简明性对其评分，并选取得分最高的词序列作为候选词序列：

根据词序列的左独立性和右独立性，对各个词序列的完整性和简明性进行评分：其中左独立性是以输入文档中出现在词序列的第一个词的前一个位置出现的词的熵来估计；右独立性是以输入文档中出现在词序列的最后一个词的下一个位置出现的词的熵来估计。即假设步骤S6中抽取到的高频词序列seq表示为(w_l，……，w_b)，该词序列的第一个词用w_l表示，最后一个词用w_b表示，则在输入文档中出现在w_l的前一个位置出现的词的熵，来估计词序列的左独立性。以输入文档中出现在w_b的后一个位置出现的词的熵，来估计词序列的右独立性。一个简明性和完整性较好的短语，具有较好的上下文独立性。同时，上下文独立性可以用熵来度量。熵越大，上下文独立性越强。

其中根据步骤S6中抽取的高频词序列的完整性和简明性对其评分，具体包括以下步骤：

S7.1计算词序列的右独立性：

以seq代表待评分的序列，以length(seq)表示seq的长度，以w_b表示seq的最后一个词，以w_b-1表示seq的倒数第二个词，则对于右独立性评分，基于一阶熵和二阶熵的计算原理给出两个得分EN₁和EN₂的计算公式分别如下：

{EN}_{1} = \underset{t &Element; r (w_{b})}{Σ} N (w_{b}) / N * p (t | w_{b}) * \log_{2} (N (w_{b}, t) / N (w_{b}))

{EN}_{2} = \underset{t &Element; r (w_{b})}{Σ} N (w_{b - 1}) / N * p (w_{b} | w_{b - 1}) p (t | w_{b - 1}, w_{b}) * \log_{2} (\frac{N (w_{b - 1}, w_{b}, t)}{N (w_{b - 1}, w_{b})})

其中r(w_b)表示所有位于w_b的下一个位置的词，N(w_b)表示w_b总共出现的次数，N代表所有词的出现总次数，p(t|w_b)代表w_b的下一个词是t的概率，N(w_b，t)表示词t出现在w_b的下一个位置的次数。N(w_b-1)表示w_b-1总共出现的次数，p(w_b|w_b-1)代表w_b-1的下一个词是w_b的概率，p(t|w_b-1，w_b)代表w_b-1、w_b依次连续出现的条件下，w_b的下一个词是t的概率，N(w_b-1，w_b，t)表示t出现在w_b的下一个位置，同时w_b出现在w_b-1的下一个位置的次数，N(w_b-1，w_b)表示w_b出现在w_b-1的下一个位置的次数(上述的次数或概率均是指在R2中出现的概率或次数)；

如果seq的长度不小于2，则右独立性评分为EN₁和EN₂的平均值，即右独立性评分IND_R(seq)＝0.5*(EN₁+EN₂)，否则IND_R(seq)＝EN₁。

S7.2计算词序列的左独立性：

以seq表示待评分的序列，以length(seq)表示seq的长度，以w_l表示seq的头一个词，以w_l+1表示seq的第二个词，则对于左独立性评分的计算，基于一阶熵和二阶熵的计算原理给出两个得分EN′₁和EN′₂的计算公式分别如下：

{EN}^{'}_{1} = \underset{t &Element; r (w_{l})}{Σ} N (t) / N * p (w_{l} | t) * \log_{2} (N (t, w_{l}) / N (w_{l}))

{EN}^{'}_{2} = \underset{t &Element; r (w_{l})}{Σ} N (t) / N * p (w_{l} | t) * p (w_{l + 1} | t, w_{l}) * \log_{2} (\frac{N (t, w_{l}, w_{l + 1})}{N (w_{l}, w_{l + 1})})

其中r(w_l)表示出现在w_l的前一个位置的所有词的集合，N(w_l)表示w_l总共出现的次数，N(t，w_l)表示w_l出现在t的下一个位置的次数，p(w_l|t)代表在t的下一个词是w_l的概率，N(t)表示t总共出现的次数，N代表所有词的出现总次数；N(t，w_l，w_l+1)表示w_l出现在t的下一个位置，同时w_l+1出现在w_l的下一个位置的次数，p(w_l+1|t，w_l)代表t、w_l依次连续出现的条件下，w_l的下一个词是w_l+1的概率；N(w_l，w_l+1)表示w_l+1出现在w_l的下一个位置的次数，上述的次数或概率均是指在R2中出现的概率或次数。

如果seq的长度不小于2，则左独立性评分为EN′₁和EN′₂的平均值，左独立性评分IND_L(seq)＝0.5*(EN′₁+EN′₂)，否则IND_L(seq)＝EN′₁。

S7.3计算词序列的独立性分数：

S8、判断是否接受步骤S7中选取的候选词序列：

{Snip}_{1} = {s | s &Element; Snippets, {w_{l}, . . . . . ., w_{b}} &SubsetEqual; s}

Snip₂＝{s|s∈Snip₁∩D_y}

其中Snip₁代表被该候选词序列所覆盖的摘要；Snip₂代表Snip₁中被之前已经接受作为标签的词序列所覆盖的摘要。

S9、根据生成的标签进行聚类

根据步骤S8生成的标签，计算每个检索结果网页摘要与各标签的语义相关度，然后将与某标签相关度最高的文档划分到该类别。

S10、结束操作。

上述步骤S8和步骤S9中，如果当前候选词序列所关联的文档，被已有的标签所关联的文的覆盖程度小于给定的阈值，那么这个候选序列将被接受，对于短语将被作为标签。一方面，这样可以去除重复的或者高相似度的标签。另一方面，结合步骤S4，可以去除低质量的标签。因为候选词评分是根据它的主题代表性以及查询相关性，某个候选词得分越低，就越靠后被选取，那么与它对应的词序列所关联的文档，和接受的标签所关联的文档的重复率就越大。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种搜索引擎检索结果聚类的中文标签提取方法，其特征在于，包括以下步骤：

S4、计算步骤S3中各个有序词序列的频率，抽取高频词序列；

S8、结束操作。

2.根据权利要求1所述一种搜索引擎检索结果聚类的中文标签提取方法，其特征在于，所述步骤S2中在输入文档中选取候选词，具体是指：

3.根据权利要求1所述一种搜索引擎检索结果聚类的中文标签提取方法，其特征在于，所述步骤S2中对所有候选词评分，具体是包括以下步骤：

S2.21对R1中各输入文档，仅保留其动词和名词，得到各个输入文档对应的新的有序词序列，构成新的集合R2；

从R2中抽取出同时包含该候选词和查询词的所有输入文档形成集合R3，由于集合R3中的各输入文档表示为有序词序列的形式，对于R3中的任一输入文档，所述有序词序列标记为(w₁，w₂，…，w_q，…，w_t，……，w_k)，其中候选词w_t出现在序列中的第p₁，p₂，......，p_m个位置，查询词w_q出现在序列中的第q₁，q₂，......，q_n个位置，则在该输入文档中，候选词到查询词的距离为所有|p_i-q_j|的最小值，其中i＝1，2，......，m，j＝1，2，.....，n，对R3中的所有输入文档，通过上述方式计算候选词到查询词的距离，求平均得到该候选词到查询词的平均距离，记为score₁；

S2.23计算包含了该候选词的输入文档之间的平均相似度：

S2.24计算该候选词的得分：

score(w_t)＝-α*r(w_q)*score₁+score₂

4.根据权利要求3所述一种搜索引擎检索结果聚类的中文标签提取方法，其特征在于，所述α值为3。

5.根据权利要求3所述一种搜索引擎检索结果聚类的中文标签提取方法，其特征在于，所述步骤S3中把这个选中的候选词拓展成为包含该词的有序词序列的集合，具体是指：

6.根据权利要求1所述一种搜索引擎检索结果聚类的中文标签提取方法，其特征在于，所述步骤S4中计算步骤S3中各个有序词序列的频率，抽取高频词序列，具体包括以下步骤：

S4.1、选择一个未计算过频率的有序词序列seq；

S4.2、初始化，令frequency(seq)＝0，i＝1；

7.根据权利要求6所述一种搜索引擎检索结果聚类的中文标签提取方法，其特征在于，所述scale值为2。

8.根据权利要求6所述一种搜索引擎检索结果聚类的中文标签提取方法，其特征在于，所述步骤S4.4中的阈值为1/3。

9.根据权利要求1所述一种搜索引擎检索结果聚类的中文标签提取方法，其特征在于，所述步骤S5中根据完整性和简明性对步骤S4中抽取的高频词序列评分，具体包括以下步骤：

S5.1计算词序列的右独立性：

{EN}_{1} = \underset{t &Element; r (w_{b})}{Σ} N (w_{b}) / N * p (t | w_{b}) * \log_{2} (N (w_{b}, t) / N (w_{b}))

{EN}_{2} = \underset{t &Element; r (w_{b})}{Σ} N (w_{b - 1}) / N * p (w_{b} | w_{b - 1}) p (t | w_{b - 1}, w_{b}) * \log_{2} (\frac{N (w_{b - 1}, w_{b}, t)}{N (w_{b - 1}, w_{b})})

S5.2计算词序列的左独立性：

{EN}^{'}_{1} = \underset{t &Element; r (w_{l})}{Σ} N (t) / N * p (w_{l} | t) * \log_{2} (N (t, w_{l}) / N (w_{l}))

{EN}^{'}_{2} = \underset{t &Element; r (w_{l})}{Σ} N (t) / N * p (w_{l} | t) * p (w_{l + 1} | t, w_{l}) * \log_{2} (\frac{N (t, w_{l}, w_{l + 1})}{N (w_{l}, w_{l + 1})})

S5.3计算词序列的独立性分数：

10.根据权利要求1所述一种搜索引擎检索结果聚类的中文标签提取方法，其特征在于，所述步骤S6具体为：

{Snip}_{1} = {s | s &Element; snippets, {w_{l}, . . . . . ., w_{b}} &SubsetEqual; s}

Snip₂＝{s|s∈Snip₁∩D_y}