CN1435776A

CN1435776A - 一种基于词汇的计算机索引和检索方法

Info

Publication number: CN1435776A
Application number: CN 02100551
Authority: CN
Inventors: 雷鸣; 陈竞凯; 裘强; 林云; 谌振宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2002-01-31
Filing date: 2002-01-31
Publication date: 2003-08-13

Abstract

本发明为一种基于词汇的计算机索引和检索方法。该方法的主要特征是对一段连续的文字信息，经过词汇分析处理后，通过添加隐形词汇的手段，实现对基于词汇索引和检索系统的检索质量提升。本发明能够有效的提升对词组和语句的检索质量，使用户获得更加准确的检索结果。

Description

一种基于词汇的计算机索引和检索方法

技术领域：

本发明涉及计算机网络技术，特别是一种基于词汇的计算机索引和检索方法。

背景技术：

基于词汇的计算机索引和检索方法随着社会的进步和科技的发展，越来越多的信息以电子化文本的方式表达出来。例如当前的电子图书馆、无纸办公、电子政务、电子商务等等。随着这个过程的迅速发展，人们可以访问的信息量急剧增加。当前互联网上的网页已经超过10亿页，许多大型电子图书馆的电子书籍以近达到数百万的规模。

如何在如此海量的数据中定位自己需要的信息？检索系统成为了极其重要的辅助工具。检索系统只需用户输入简单的信息，如关心的主题关键词、短语等信息，就可以准确的定位到信息本身。由于检索给人们带来了极大的便利，因此迅速的被人们接受。在Internet用户使用的各类服务统计中，搜索引擎(互联网信息检索)服务成为仅次于电子邮件服务的第二大被使用服务。由于人们越来越依赖于检索服务去在海量信息中发现自己所需要的信息，检索系统的质量也就越来越被人们所关注。

当前，人们主要采用的都是基于词汇的检索技术。在索引组织时，分为两种形式，一种是只纪录词汇是否在一篇文章中出现，并按照出现的次数等信息纪录权值，不纪录该词汇出现的位置；另一种是对出现的位置和权值信息都给以纪录。当然，利用第二种方式可以得到更好的结果，因为它记录了更多的信息，尤其是当我们进行词组检索时，如“计算机网络”时，利用位置信息可以轻易帮助我们定位到相应的文章。但是，为了纪录更多信息的代价是十分昂贵的。它会比第一种方式使用多出很多倍的硬件资源，并且大大降低了系统的性能，使得在相同的硬件条件下，能够处理的数据总量和用户请求数量都大幅度减少。因此，在海量信息检索时，很多系统都不得已采用了第一种处理方式。第一种方式的效率非常高，能够处理的信息量和提供服务的性能都非常的好。但是，第一种方式在用户进行词组合语句检索时的劣势非常明显，很多时候使得用户对检索结果不知所措。例如用户检索“计算机网络”时，却得到一篇讲述旅游的文章，讲到了有关计算机订票和他们在全国的旅游网络内容。

发明内容：

本发明的主要目的是针对当前两种方法存在的不足之处，提出一种方法，即能够保证处理信息量和用户服务量，同时又能够较好的处理用户对词组和语句的检索。

本发明的目的是这样实现的：利用含内容分析系统，索引系统和检索系统组成的计算机系统，执行基于词汇的索引和检索方法。该方法的步骤包括分析文本信息提取词汇和隐形词汇，对两种词汇建立索引并提供检索结果。

所述的隐形词汇生成步骤为：

a、一段连续的文字进行词汇分析

b、原文中所有两两相邻的词汇组成相邻词汇组。

c、每个相邻词汇组，对两个词汇分别选取出部分信息，形成隐形词汇。

所述的词汇部分信息选取方法可以是任何方法，例如选取前面词汇的最后一个字或字符，后面词汇的最先一个字或字符；两个词汇的各自长度；两个词汇的拼音或音标或这些信息的部分截取等。

所述隐形词汇在索引中的表现方式有别于正常提取出的词汇。隐形词汇的可以由相邻词汇组中两个词汇部分信息的任何运算，例如粘贴、累加、异或等。

所述的隐形词汇不能够让用户通过通用检索界面检索到，而只能够在用户检索多于一个词汇的字符串时，才能够被检索到，用于辅助提高该类检索的准确性。

附图说明：

图1为本发明基于词汇的计算机索引和检索系统的流程图

图2为内容分析子系统的工作流程

图3为隐形关键词生成流程图

图4为检索系统工作流程图

具体实施方式：

本发明应用在中文文章的计算机索引和检索系统

本实例中有一个中文文章正文的信息库，包含一定量的中文信息。通过相应的中文索引和检索系统，实现对该文章库正文的检索支持，实现对短语和语句检索质量的提升。

如图1，该系统由三个子系统组成，它们分别是内容分析子系统，索引子系统和检索子系统。其中内容分析子系统负责对每个文章正文的分析工作，从中提取关键词，生成隐形关键词，并将这些信息保存起来，用于以后建立索引；索引子系统根据每篇正文对应的关键词和隐形关键词，建立起从关键词或隐形关键词到文章的索引；检索系统用于响应用户的检索请求。在系统实施是，我们可以让每个子系统对应一台服务器。当然，如果数据量小的情况下，也可以让所有子系统都运转在一台服务器上；当数据量极为庞大时，每个子系统都可以使用多台服务器并行处理。

该系统中使用的服务器可以各种品牌和配置的服务器，例如可采用Dell、Compaq、IBM、联想、方正等品牌的服务器。相应服务器上的操作系统也可以是多种选择，如Window、Linux、Solaris等。对于数据库，系统在设计上也没有特指性，可以选用商业数据库如DB2、Oracle、SQL Server等，也可以选择免费的数据库如MySQL等。

本系统是一个完整的检索系统，本专利申请的核心技术，主要体现在内容分析子系统和检索子系统中，在下面对这两个系统相应的流程说明中再进一步的进行阐述。

图2显示了内容分析子系统的工作流程。该子系统用于对正文进行分析，生成正文到关键词和隐形关键词的对应。流程如下：

110：获得一篇正文。

120：对正文进行分词，这里的分词指从连续书写的中文将词汇断开。

130：纪录关键词信息，将这些信息纪录数据库中。

140：生成隐形关键词，这一步骤将在下面展开进行讲述。

150：纪录隐形关键词信息，将这些信息纪录在数据库中。

160：还有正文？如果有，则返回110继续分析；否则，结束整个内容分析流程。

对于流程中的120，需要用专有的分词软件或自己实现的软件模块。当前，北京大学语言所、东北大学计算机系、百度网络技术(北京)有限公司都有相应的软件模块。该模块利用自然语言处理技术和人工智能技术，对连续的大段中文电子文档进行词汇分析，正确的从原文中提取词汇。

对于流程中的140，参考图3，我们用更加详细的流程进行说明：

141：选取一个未被处理过的相邻词汇组

142：提取前一个词汇的最后一个字

143：提取后一个词汇的最前一个字

144：粘接这两个字构成一个双字

145：将双字转化为隐形词汇，如在双字前添加一个特殊符号“#”

146：还有未处理相邻词汇组？如果有，跳转到141继续执行；否则，结束该流程。

下面，我们用一个更加具体的例子对上述流程进行说明。对于一篇文章中的一段文字：

“上海风土人情研究”

我们通过分词系统可以获得如下结果：

“上海”“风土人情”“研究”

这些就是我们从正文中提取的关键词，我们将这些关键词添加到关键词信息中，并纪录到数据库中用于建立关键词索引。

我们可以发现，这里的相邻词汇组有2个，分别是：

(“上海”“风土人情”)(“风土人情”“研究”)

对每个词汇组，按照流程中提出的方法，可以生成2个双字，他们分别为：

“海风”“情研”

下面，给这3个双字分别加上特殊前缀“#”，生成2个隐形关键词

“#海风”“#情研”

将这些隐形关键词也纪录到相应的数据库中用于建立隐形关键词索引。

对于索引系统，在本实例中就是一个对文章和关键词建立倒排表的系统，在每个文本检索系统中都包含该子系统。我们在这里就不再详细描述。

对于已经建立的关键词索引和隐形关键词索引，我们使用检索系统来实现输入关键词或短语，获得对应文章的检索过程。参考图4，我们来具体讲述检索系统的工作流程：

210：对检索输入进行分词处理

220：提取检索关键词

230：生成检索隐形关键词，同内容分析中隐形关键词的生成方法

240：隐形关键词检索，检索230生成的隐形关键词，获得隐形关键词对应的索引

250：关键词检索，检索220提取出的检索关键词，获得关键词对应的索引

260：检索结果合成将240和250检索获得的结果进行归并运算，得到最终结果

270：结果整理输出，将结果进行后继处理，如计算相关度，进行排序等工作，并生成检索结果页面返回给用户

以上过程中，对关键词和隐形关键词的检索是对立完成的。对单独的关键词或隐形关键词的检索过程不做详细描述，这些技术在每个文本检索系统中都包括。需要强调的使对两种词汇检索后进行归并的运算，这是本系统的独有之处。

在这里，我们使用具体的例子对上述流程加以进一步的解释：

例如用户输入检索：

“上海风土人情”

我们可以获得关键词

“上海”“风土人情”

和隐形关键词

“#海风”

对于关键词和隐形关键词，我们分别检索获得其对应的索引共3个。将这3个索引进行归并运算，最终获得我们期望的检索结果。

本例也较好的显示了隐形关键词的必要性。如果文章中出现“上海风土人情”。系统分析出双字“海风”后，不做隐形处理，就会在以后有用户检索“海风”时，得到出现“上海风土人情”的文章。其实，这种结果是我们不期望看到的。

使用该例，我们还希望说明它优于仅仅适用关键词的系统。对于仅仅适用关键词的系统，它仅会考虑关键词“上海”“风土人情”在文章中出现。但是对于一篇文章，讲述一个上海人在北京感受到北京风土人情的文章，也会被检索到。如果使用了本技术，考虑隐形关键词“#海风”，则会避免这种不准确问题的产生。

根据以上步骤，我们可以看到，只有当用户输入的检索字符串被分解为两个或者两个以上的词汇时，才会产生隐形关键词并参与检索，生成最终结果。我们不允许直接通过用户检索接口获得隐形关键词数据。如果用户输入“#海风”进行检索时，字符“#”被认为非合法文字字符被过滤到，实际上进行的还是对“海风”的检索。系统处理改检索时，直接到关键词索引中进行检索，获得真正的关于词汇“海风”的文章，而“上海风土人情”这个结果也不会被检索到。

Claims

1、一种基于词汇的计算机索引和检索方法，该方法利用含内容分析子系统，索引子系统和检索子系统组成的计算机系统，执行基于词汇的索引和检索方法，其特征在于：该方法的步骤包括分析文本信息提取词汇和隐形词汇，对两种词汇建立索引并提供检索结果。

2、根据权利要求1所述的基于词汇的计算机索引和检索方法，其特征在于：所述的隐形词汇生成步骤为：a、对一段连续的文字进行词汇分析b、原文中所有两两相邻的词汇组成相邻词汇组。c、每个相邻词汇组，对两个词汇分别选取出部分信息，形成隐形词汇。

3、根据权利要求2所述的基于词汇的索引和检索方法，其特征在于：所述的词汇部分信息选取方法可以是任何力法，可以选取前面词汇的最后一个字或字符，后面词汇的最先一个字或字符；两个词汇的各自长度；两个词汇的拼音或音标或这些信息的部分截取。

4、根据权利要求2所述的基于词汇的计算机索引和检索方法，其特征在于：所述隐形词汇在索引中的表现方式有别于正常提取出的词汇，隐形词汇可以是相邻词汇组中两个词汇部分信息的粘贴、累加、异或等的任何运算。

5、根据权利要求1所述的基于词汇的计算机索引和检索方法，其特征在于：所述的隐形词汇仅在用户检索多于一个词汇的字符串时，才能够被检索到。