CN1916905A

CN1916905A - 基于倒排表进行检索提示的方法

Info

Publication number: CN1916905A
Application number: CN 200610112822
Authority: CN
Inventors: 曹勇刚; 曹羽中; 金茂忠; 刘超
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2006-09-04
Filing date: 2006-09-04
Publication date: 2007-02-21
Anticipated expiration: 2026-09-04
Also published as: CN100437585C

Abstract

本发明是一种基于倒排表进行检索提示的方法，它包括如下步骤：建立主搜索引擎使用的主倒排表和次搜索引擎使用的次倒排表；将用户输入的检索串切分成词，用主搜索引擎检索出包含这些词的文档，并将这些文档进行相关度排序，得到检索结果。再将检索串切分成字，用次搜索引擎检索出包含检索串中每一个字的词，再对所有检索出的词汇进行优先度排序，得到排序后的检出词序列；向用户提供检索提示时，按照从次搜索引擎中检索出的检出词序列的顺序显示每个检出词，并在每个检出词后面显示出包含这个检出词的文档数目。本发明基于待检索文档的内容来进行检索提示，它较基于查询词统计的检索提示有如下优点：可以把少见的、信息量大的词给提示出来；所提示的词冗余数量少，跨越范围大，能够给用户更加广度的提示；能提示出鲜为人知的检索词，并能列出每个检索提示词会在多少篇文档中出现，从而扩展用户的知识面，帮助用户进行更准确的检索。

Description

基于倒排表进行检索提示的方法

技术领域

本发明涉及计算机信息检索技术，特别是指一种基于倒排表的检索提示方法。

背景技术

搜索引擎的用户经常需要寻找自己本不熟悉的内容(新颖的内容)，即他并不明确自己的需要，或者不知如何表达这种需要。除了某些流行的词语以外(如明星的名字，新闻事件的名字等)，用户所输入的查询词并不总是最适当的查询词。另一种情况是用户并没有明确的目标，只是想大概了解一下某个范围内自己感兴趣的未知内容，这样，他就更加不知道如何通过查询词表达这种需求了。最后一种情况是用户根本就不知道相关内容的存在，他不可能想起去找寻它们，而这些内容却是他所想要得到的；或者用户认为有相关内容，但索引库中确实没有相关内容，例如某些信息没有被自动获取或者某些信息被当作有害信息被禁止访问或丢弃了。

上述情况的存在，使得用户表达需求困难，不能让搜索引擎方便的找到用户所需要的内容，我们称之为用户需求与内容的不一致性。这种不一致性的解决需要系统根据内容提示出相关的词，让用户选择或点击来进行搜索而不是要求用户输入正确的查询词。研究表明，用户通常从一个短查询开始，查看查询结果后，修改查询，再进行检索，如此反复，直到找到目标，若在查询结果中给予更多的提示将加速这一过程。

目前的搜索引擎主要都是基于对用户输入的查询词进行统计而生成检索提示的，即通过对所有用户输入的查询词进行统计，得到所有查询词的热门程度，然后选择与当前用户输入的查询词类似的且最热门的一批检索词作为检索提示。这种检索提示方法提示给用户的总是最热门的那批检索词，虽有其合理性，但并不一定就是用户真正想要的。

发明内容

有鉴于此，本发明的目的是提供一种基于倒排表进行检索提示的方法，它可基于待检索文档的内容来进行检索提示。

为此，本发明采用以下方法：

一种基于倒排表进行检索提示的方法，它包括如下步骤：

●建立主搜索引擎使用的主倒排表

把全部待检索文档切分成词，对切分后的词进行索引，建立以词为索引、包含此词的文档编号列表为值的倒排表，称之为主倒排表。使用主倒排表对文档进行索引和检索的部分即为主搜索引擎，主搜索引擎用于根据查询串中的词检索包含该词的文档；

●建立次搜索引擎使用的次倒排表

把上一步骤中切分后的词再切分成字，对切分后的字进行索引，建立以字为索引、包含此字的词为值的倒排表，称之为次倒排表，使用次倒排表对词进行索引和检索的部分即为次搜索引擎，次搜索引擎用于根据查询串中的字检索包含该字的词；

●用主搜索引擎检索文档

将用户输入的检索串切分成词，用主搜索引擎检索出包含这些词的文档，再对所有检索出的文档进行相关度排序，得到排序后的检出文档序列；

●用次搜索引擎检索词

将用户输入的检索串切分成字，用次搜索引擎检索出包含检索串中每一个字的词，再对所有检索出的词进行优先度排序，得到排序后的检出词序列；

●检索提示

向用户提供检索提示时，按照从次搜索引擎中检索出的检出词序列的顺序显示每个检出词，并在每个检出词后面显示出包含这个词的文档数目。

此外：

在所述建立次搜索引擎使用的次倒排表步骤前，可先对主搜索引擎使用的主倒排表中的词进行筛选，以去除不需要的词。

筛选时，可以以词长和包含此词的文档个数作为筛选条件。

在所述用主搜索引擎检索文档步骤中，对检索出的文档采用TF*IDF算法或PageRank算法进行相关度排序。

在所述用次搜索引擎对检索串中的字进行检索的步骤中，采用以下优先度算法进行排序：

首先分别计算检索串中的各字与次倒排表中的该词的相似度，即TF*IDF：

检索串中的某字与该词的相似度＝检索串中的某字在该词中出现的次数×log(次倒排表中包含某字的词的个数的倒数)，

然后计算该词的优先度，即：

该词的优先度＝该词在主搜索引擎的所有文档中出现的频率的平方根×检索串中的各字与该词的相似度之和。

本发明方法实际上就是基于待检索文档的内容来进行检索提示，它较基于查询词统计的检索提示有如下优点：

(1)从信息论的角度，一个词在各场合出现的频度越高，它所包含的信息量就越少。基于内容的检索提示可以把少见的、信息量大的词给提示出来，而基于查询统计的提示则只能提示出些众所周知的包含信息量少的词。

(2)基于内容所提示的词一定会有内容对应。基于查询词的提示则不然，用户可能输入检索不到结果或有误导性的查询词。

(3)基于内容检索提示，由于文档内容中用语的相对一致性，所提示的词冗余数量少，跨越范围大，能够给用户更加广度的提示。基于查询词的提示则不然，由于事先不知道目标文档所采用的词，不同用户对流行的主题会采用不同的查询词，不同的组合，不同的顺序，这种现象导致基于查询词的提示被大量意义重复的流行词所填充。

(4)基于内容的提示能提示出鲜为人知的检索词，从而扩展用户的知识面。基于查询词的提示则不然，只有被用户使用过且满足统计要求的查询词才会被提示出来，即便所索引的内容中有相关主题，但只要用户不知道，就不会去查询或只有很少的用户查询，系统也不会提示用户去查询，它们也就永远不为人知或仅为少数人知道。

(5)基于内容的提示能准确提示相关文档的数目，且效率相对较高。由于基于内容的检索提示，直接提示的就是倒排表中的词，可以很容易获取对应文档的数目。而基于查询词的提示，若要获取对应的文档数则需要进行对应的查询或通过额外的缓存来记录检索结果数目，完成相同的功能所需开销巨大。并且按照查询词解析后的查询结果反映的是包含检索词各种排列组合的可能文档，所获取结果并不准确(严重偏大)。

附图说明

图1为本发明的体系结构图；

图2为本发明的流程图；

图3为本发明的主倒排表示意图；

图4为本发明的次倒排表示意图；

图5为Google Suggest基于查询统计给出的提示；

图6为百度的相关搜索基于查询统计给出的提示；

图7为依据本发明构造的新搜索引擎基于内容所给出的检索提示。

具体实施方式

倒排表是搜索引擎中的一种常用的数据结构，倒排表以词为索引，以包含这些词的文档集合为项，可以快速找到包含某个词或某些词的文档集合。倒排表不仅存放了每个词所对应的文档编号列表，还存储了该词对应的文档的数目(称之为文档频率df)、该词在某文档中的出现的次数(称之为词频tf)，甚至该词在某文档中的出现的位置等信息。因此倒排表中的词和它所对应的文档数目实质上构造了一个以大规模语料为基础的词频词典，可以作为检索提示的一个依据。当用户不知道该使用什么样的检索词来搜索他感兴趣的内容时，他可以输入与他想检索的内容有关的字词，系统能够搜索倒排表中已有的词，提示出与用户输入相关的词，并能列出每个词会在多少篇文档中出现。用户根据检索提示，可以做进一步的精确搜索。

北京航空航天大学软件工程研究所研发出一种中文分词软件BUAASEISEG，该分词软件倾向于长词切分，具有很强的新词识别能力，对术语、人名、地名、组织名、机构名等命名实体有很强的识别能力。BUAASEISEG采用迭代式二元切分方法，结合候选词在文章中出现的局部概率以及候选词在词频词典中出现的全局概率，以及候选词向后续词的转移次数，能够在线进行上下文相关的新词识别和歧义消解，只要具备一定的上下文，它就具有识别各种类型的新词的能力(不局限于人名、地名、组织名)和消解各类歧义的能力。对于一些在文章中出现频率较高的命名实体，BUAASEISEG会将其切分成一个整词，比如“北京航空航天大学”，BUAASEISEG也把它切分成一个整词，而一般的中文分词算法则会把它切分成“北京”，“航空”，“航天”，“大学”4个词。BUAASEISEG同时支持英文的命名实体识别，比如“software engineering”会作为一个完整的词加入倒排表中，而不会分为”software”和”engineering”两个词。(关于BUAASEISEG分词系统的详细说明可以参见论文：曹勇刚，曹羽中，金茂忠，刘超.面向信息检索的自适应中文分词系统.软件学报，2006，17(3)：356-363)。

本发明是一种基于倒排表进行检索提示的方法，下面结合图1所示的本发明的体系结构和图2所示的流程图，描述本发明的实施步骤。

步骤a)建立主搜索引擎使用的主倒排表

把全部待检索文档或网页切分成词，对切分后的词进行索引，在索引的过程中建立以词为索引、包含此词的文档编号列表为值的倒排表，其结构如附图3所示。我们把对文档进行索引和检索的部分，称为主搜索引擎，主搜索引擎用于根据查询串中的词检索包含该词的文档。

如果待检索文档中包含中文，可以使用任意中文分词算法或中文分词软件(分词器)来进行中文分词。如果使用特定的分词算法，比如使用中文分词软件BUAASEISEG，将会得到更佳的检索提示。

步骤b)对步骤a)中主倒排表中的词进行筛选

可以以词长和包含此词的文档个数作为筛选条件，去除不需要的词(如单个词或出现极少的词)。根据不同的需要可以采用各种筛选手段，也可以不进行筛选。筛选的原则是词长必须大于等于2并且词必须在至少五个文档中出现过(即DF≥5)。选择何种筛选条件主要依据要索引的文档集的大小以及内容，根据实验效果来确定。

步骤c)建立次搜索引擎使用的次倒排表

把切分后的词(如经过筛选，则指筛选后的词)进行单字切分(即把英文切分成一个个的单词，中文切分成一个个的汉字)并进行索引，建立以字为索引、包含此字的词为值的倒排表，称之为“次倒排表”，其结构如附图4所示。我们把使用次倒排表对词进行索引和检索的部分称为次搜索引擎。次搜索引擎用于根据查询串中的字检索包含这些字的词汇(不限次序)。次倒排表中同时也存储了每个词的文档频率(即有多少篇文档中包含此词)。

步骤d)用主搜索引擎检索文档

用户检索时，先把检索串按步骤a)中使用的切词算法切分成词，用主搜索引擎检索出包含这些词的文档，再对所有检索出的文档进行相关度排序(依据搜索引擎所通用的向量空间模型进行计算)，得到检索结果，即排序后的检出文档序列。此处可以采用信息检索领域的各种相关度排序算法，如TF*IDF，PageRank等，所使用的具体排序算法只会影响文档检索结果的查准率和查全率，而不会影响检索提示的效果。

步骤e)用次搜索引擎检索词

在步骤d)的同时将用户输入的检索串切分成字，然后到次搜索引擎中检索出所有包含检索串中每一个字的词以及该词的文档频率，再对所有检索出的词进行优先度排序，得到排序后的检出词序列。

步骤f)提供检索提示

向用户提供检索提示时，按照从次搜索引擎中检索出的检出词序列的顺序显示每个检出词，并在每个词后面显示该词的文档频率(即有多少篇文档中包含此词)。

在步骤e)中本发明使用了一种检索提示词优先度排序算法(此算法将在后面详细描述)对全部检索结果进行优先度排序，得到优先度最高的10个(可以根据需要调整数目)检索提示词，显示在步骤d)所得到的检索结果页面中(一般适合放在上方、下方或两处全有)。每个检索提示词都对应有超链接，前方也可以有一个复选框，用户可以单击单个或选中多个自己感兴趣的检索词，进行进一步的精确搜索。用户也可以通过点击”更多检索提示”这个链接，得到全部检索提示词。

本发明所使用的检索提示词优先度排序算法如下：

把用户输入的检索串sequence切分成单字，即sequence＝{char[1]，char[2]，.....，char[n]}，然后用char[1]，char[2]....，char[n]到次倒排表中去进行匹配，如果次倒排表中的某个词word[j]包含了char[1]，char[2]，....，char[n](不限各个字的出现顺序)，那么word[j]就是一个检索提示词。然后对char[1]，char[2]，.....，char[n]分别计算与word[j]的相似度得分，计算公式是：

sim(char[i]，word[j])＝TF*IDF

其中：sim(char[i]，word[j])：字char[i]与检索提示词word[j]的相似度得分

TF：字char[i]在词word[j]中出现的次数。

IDF：次倒排索引中包含字char[i]的词的个数的倒数取log值。

然后检索提示词的优先度计算公式如下：

Priority(word[j])＝boost(word[j])*∑sim(char[i]，word[j])

即把char[1]，char[2]，......，char[n]与word[j]的相似度得分求和后再乘以word[j]本身的加权值boost(word[j])，即得到了word[j]的优先度得分Priority(word[j])。其中加权值boost的计算公式如下：

boost(word[j])＝sqrt(docFreq(word[j]))

其中：docFreq(word[j])指检索提示词word[j]在主搜索引擎的所有文档中出现的频率，即主搜索引擎中有多少个文档包含word[j]，sqrt指取平方根。

使用检索提示词加权值的好处是可以优先提示文档频率高的词，这样一方面可以避免把步骤a)中少数切分错误的词排在前面提示出来(因为切分错误的词通常具有很低的文档频率)，另一方面由于文档中最经常出现的词可能也是人们最常使用、最感兴趣的词，这样可以让用户很快找到自己所需要的词。

本发明不依赖于特定的软硬件环境，它可以采用目前已有的搜索引擎的硬件配置。按照本说明书的步骤，可在任何已有的具有倒排表索引和查询能力的搜索引擎基础上加以改造从而实现本发明要达到的目标——基于内容的检索提示。

本发明的所产生的提示和已有搜索引擎的基于查询统计的差别在发明内容中已经阐述，附图5-7给出了一个具体的例子(检索“机器人”)来和流行的搜索引擎Google和百度进行提示效果比较，其中DiMoor是发明人在开源搜索引擎Nutch(http://lucene.Apache.org/nutch/)的基础上按本说明书的步骤构造的新搜索引擎。由图5-图6可看出，基于查询统计的检索提示会由于用户反复采用不同的查询词检索同一个热门话题而使得提示面很窄且不规范(图5-图6中由于游戏爱好者数量大于科学爱好者，提示出来的基本上都是跟游戏有关的词，而科学中的机器人相关词汇被埋没了)。图7则能从更普遍意义上揭示所索引的文档所包含的各种与查询词相关的词汇，并揭示了包含对应提示词的文档数目(从图7可以看到，实际上网上介绍机器人技术的科普文章并不少于用机器人作弊的游戏攻略)。

如使用我们的发明方法系统，用户输入检索词“北航”，系统将能够提示出“北京航空航天大学”，“北方航空公司”等，也能够提示出北京航空航天大学的下级机构名如“北京航空航天大学计算机学院”，“北京航空航天大学软件工程研究所”，“北京航空航天大学宇航学院”等等，如果用户是想要利用搜索引擎了解北京航空航天大学下属的某一个单位，但又并不确切知道该单位的名称，这样的检索提示就非常有价值了。

Claims

1.一种基于倒排表进行检索提示的方法，其特征在于它包括如下步骤：

●建立主搜索引擎使用的主倒排表

●建立次搜索引擎使用的次倒排表

●用主搜索引擎检索文档

●用次搜索引擎检索词

●检索提示

2.如权利要求1所述的基于倒排表进行检索提示的方法，其特征在于：

在所述建立次搜索引擎使用的次倒排表步骤前，先对主搜索引擎使用的主倒排表中的词进行筛选，以去除不需要的词。

3.如权利要求2所述的基于倒排表进行检索提示的方法，其特征在于：

对所述主搜索引擎使用的主倒排表中的词进行筛选时，可以以词长和包含此词的文档个数作为筛选条件。

4.如权利要求3所述的基于倒排表进行检索提示的方法，其特征在于：所述筛选的条件是词长必须大于等于2并且词必须在至少五个文档中出现过。

5.如权利要求1所述的基于倒排表进行检索提示的方法，其特征在于：

6.如权利要求1所述的基于倒排表进行检索提示的方法，其特征在于：

然后计算该词的优先度，即：