CN101089841A

CN101089841A - 基于知识编码的精确搜索方法和系统

Info

Publication number: CN101089841A
Application number: CN 200610012243
Authority: CN
Inventors: 王江
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2006-06-14
Filing date: 2006-06-14
Publication date: 2007-12-19
Anticipated expiration: 2026-06-14
Also published as: CN101089841B

Abstract

公开了一种基于知识编码的精确搜索方法和系统。建立知识索引的方法包括：将目标文档划分成多个部分；对各个部分中包含的知识进行编码，以得到相应知识的知识编码；相互对应地存储所述各个部分及其知识编码。利用本发明的搜索方法和系统，可以准确地回答用户的查询，给出精确和简短的查询结果文档，精确到包含查询结果的文档段落，以节省系统资源和用户的时间，改善信息搜索系统的交互体验。

Description

基于知识编码的精确搜索方法和系统

技术领域

本发明涉及信息搜索领域，具体涉及根据用户查询语句提供高度准确的搜索结果(即精确搜索)的技术领域。

背景技术

信息搜索的过程一般包括：(a)接受用户输入的查询请求；(b)通过某种方法将查询请求转换为计算机可以处理的数据结构；(c)根据该数据结构在文档索引表中进行匹配(一般包含相似度计算)；(d)将匹配之后的结果文档输出，作为对用户查询请求的响应，也就是搜索结果。

图1表示了根据现有技术的信息搜索系统的基本框图，包括索引建立过程和信息查询过程。

索引建立过程包括：目标文档101的原始内容，经过编码设备102的处理，按照预定的数据结构转换为既可以在一定程度上表达原始文档的内容又可以被信息系统识别和处理的编码，通过索引设备103建立索引，存储在索引-文档存储设备104中。

信息查询过程包括：通过查询输入设备107输入查询请求(例如：一串关键词或一句话)，通过查询处理设备106将查询请求转换为信息系统可以识别和处理的编码和索引(这一过程遵循的编码原则与索引编码过程一致)，然后通过信息搜索设备从索引-文档存储设备104中获得与此相对应的文档，通过结果显示设备108将格式组织后的结果文档显示出来。

在搜索结果方面，目前的搜索方法倾向于返回过长、过多的结果文档，其中包含大量无用信息。例如，对于查询请求“秦始皇出生的时间”，搜索系统往往返回成百上千篇文档。可能需要用户全文阅读完多篇文档才能找到真正的答案，其实用户的问题只需要一句话就能回答了。也就是说，现有系统会浪费大量系统资源和用户的宝贵时间。常规的编码和索引方法存在内容表达不准确的问题，倾向于对用词类似但是含义不同的文档内容建立相同或相似的索引。例如，“联想电脑”中的“联想”(表示公司名称)与“联想记忆法”中的“联想”(表示人类的一种思维活动)含义不同，但是系统不能区分，这很可能导致匹配出错误结果。例如，当用户查询“联想电脑”时，可能与“电脑不能联想”匹配成功。目前的技术还存在漏掉正确结果的可能性。例如：“电脑”和“计算机”的含义相同，但“联想电脑”可能不能匹配到“联想计算机”，因为两者的用词不同。

因此，能够准确理解用户的查询请求，并返回精确的、简短的结果文档的信息搜索系统是非常实用的。

发明内容

鉴于上述问题，完成了本发明。本发明的一个目的是提出一种基于知识编码的精确搜索方法和系统，能大大提高信息搜索的准确度并减小了搜索所用的时间。

在本发明的一个方面，提出了一种种建立知识索引的方法，包括：将目标文档划分成多个部分；对各个部分中包含的知识进行编码，以得到相应知识的知识编码；相互对应地存储所述各个部分及其知识编码。

根据本发明的实施例，所述划分步骤包括：按照段落或者句子落划分目标文档。

根据本发明的实施例，所述知识编码步骤包括：按照词语的含义赋予相应的编码；将具有相同含义的词语赋予相同的编码，而将具有多种含义的词语赋予不同的编码。

根据本发明的实施例，所述知识编码步骤还包括：按照‘对象-特征-特征值’的数据结构组合各个词语的知识编码。

根据本发明的实施例，所述知识编码以整数来表示。

根据本发明的实施例，重复上述步骤，建立每一篇文档的知识编码。

在本发明的另一方面，提出了一种信息搜索方法，包括步骤：输入搜索语句；对所述搜索语句进行语法或者语义分析，以获得该搜索语句的基于知识编码的语义表达；在知识库中匹配该语义表达，以找到对应的答案。

根据本发明的实施例，在用户不满意所述答案的情况下，向用户返回包括该答案的文档的一部分。

根据本发明的实施例，在用户不满意所述包括该答案的文档的一部分的情况下，向用户返回包括该答案的整个文档。

根据本发明的实施例，在用户不满意包括该答案的整个文档的情况下，利用关键词搜索，向用户返回包括关键词的所有搜索结果。

根据本发明的实施例，对于陈述形式的搜索语句，根据该搜索语句的语义表达的“特征-特征值”，匹配到知识编码中的一个或多个编码。

根据本发明的实施例，对于疑问形式的搜索语句，通过“特征-特征值”匹配来发现该搜索语句的语义表达所指向的知识编码，然后根据疑问点匹配到答案的知识编码。

在本发明的又一方面，提出了一种实现信息搜索的系统，包括：一个或多个中央处理器；一个或多个存储器；其中，所述中央处理器根据存储器中的程序运行，以便：输入搜索语句；对所述搜索语句进行语法或者语义分析，以获得该搜索语句的基于知识编码的语义表达；在知识库中匹配该语义表达，以找到对应的答案。

根据本发明的实施例，该系统还包括一个或多个计算机可读的外部存储介质，其中保存有按照所述的方法建立的知识索引。

根据本发明的实施例，该系统还包括一个或多个网络连接部件。

利用本发明的搜索方法和系统，可以准确地回答用户的查询，给出精确和简短的查询结果文档，精确到包含查询结果的文档段落，以节省系统资源和用户的时间，改善信息搜索系统的交互体验。在结果的覆盖性方面，用户可以逐级扩大搜索结果范围，从而保证不会遗漏所有相关信息。

附图说明

图1示出了根据现有技术的信息搜索系统的结构示意图；

图2示出了用于说明在根据本发明实施例的方法中如何进行知识编码的处理过程；

图3示出了用于说明在根据本发明实施例的方法中如何建立知识索引的处理过程；

图4示出了用于说明在根据本发明实施例的方法中如何进行信息搜索的处理过程；

图5示出了用于说明在根据本发明实施例的方法中如何控制结果范围的处理过程；

图6示出了用于说明在根据本发明实施例的方法中如何基于知识精确搜索源文档的处理过程；

图7示出了用于实现本发明的方法的精确搜索系统的结构示意图。

具体实施方式

下面对照附图详细说明书本发明的具体实施方式。

在索引建立过程中，文档内容编码的准确程度决定了信息查询过程中定位目标文档的准确程度。词语存在一词多义和多义词现象，基于词语的内容编码方法本质上不能达到精确搜索的要求。因此，精确搜索的基础是文档内容编码方法的改进。

对文档内容所代表的知识进行编码，能够解决这个问题。图2示出了用于说明在根据本发明实施例的方法中如何进行知识编码的处理过程。知识编码包括浅层和深层的知识编码，浅层知识编码表现在同义词和一词多义方面，同义词例如：“电脑”和“计算机”，虽然是不同的词，但应该被赋予相同的编码301；一词多义例如：“联想”具有两个含义——“一家电脑公司的名称”302和“人类的一种思维活动”303，应该被赋予不同的编码。图2示意了知识编码的一部分，这种浅层知识编码的资源又称为语义资源库。

在本发明实施例中，用整型数字或者长整型数字来表示不同的语义，因为机器易于识别和处理。如图2所示，词语“电脑”和“计算机”都被表示为整数301；而词语“联想”具有两个整数编码302和303，分别代表前文中提到的两个含义。

深层知识编码由浅层知识编码根据信息设备中约定的知识表示模型组合而成，成为具有“对象-特征-特征值”的数据结构。计算设备对这样的数据结构可以通过标准运算进行搜索和匹配。例如，“联想电脑”在种属310方面，属于‘电脑301’类，但是同时在生产厂家方面，属于‘联想(公司)’302。“嬴政生于赵都邯郸”是一句话，其包括主语312‘嬴政321’、谓语313‘出生322’和地点314‘邯郸323’，并且‘邯郸323’是‘赵国324’的‘首都315’。这样，‘联想电脑’和“嬴政生于赵都邯郸”的知识编码分别用304，305表示。深层知识编码被存储于系统中的知识库，图2简化示意了知识库，隐去了与说明本发明不相关的部分。

图3示出了用于说明在根据本发明实施例的方法中如何建立知识索引的处理过程。

本发明实施例中，索引建立过程是这样的：对于目标文档，首先按照段落进行切分401；然后针对每个段落，按照如上所示的方法，逐个对段落内容中包含的知识进行编码402；知识编码存储在按照“对象-特征-特征值”结构建立起来的知识库中403、406；在文档-索引存储设备中存储按照段落切分之后的文档原文404、407；最后在文档-索引存储设备中存储知识编码及对应的按照段落切分之后的文档原文的对应关系405、408。这个过程可以不断重复，对每一篇单独的文档建立基于知识编码的索引。

需要说明的是，以上索引建立过程既可以是手工进行，也可以由机器自动进行，或者半手工、半自动地进行，但这与本发明无关。

图4示出了用于说明在根据本发明实施例的方法中如何进行信息搜索的处理过程。在信息查询过程，系统采用相同的编码原则，通过语法、语义分析，得到查询请求的语义表达501，502；然后通过一个索引设备在知识库中匹配找到对应的答案503，504、知识索引和对应的文档原文段落、文档原文全文，或者抽取出其中的关键词，调用标准全文搜索引擎获得包含相关关键词的全部文档505～511。

根据本发明实施例的精确搜索系统，能够准确理解用户的查询请求，给出正确的答案；只返回目标文档的一部分，这一部分是文档中的一个段落且包含用户期望的答案；当用户期望阅读文档中其它部分时，系统才给出目标文档的全部；当用户期望阅读更多包含相同关键词的文档时，调用标准的全文搜索引擎，给出更大范围的搜索结果。

图5示出了用于说明在根据本发明实施例的方法中如何控制结果范围的处理过程。在本发明中，用户与系统就某个查询请求进行交互的过程中，获得结果的范围是逐渐扩大的：先是直接的、准确的回答201；然后是包含该答案内容的目标文档段落202；然后是目标文档全部203；最后才是所有包含相关关键词的文档204。这样做更加符合人类获取信息的心理习惯，而且能节省用户获取信息所消耗的时间。

图6示出了用于说明在根据本发明实施例的方法中如何基于知识精确搜索源文档的处理过程。

用户输入一个用自然语言表达的查询请求，比如：“联想电脑”和“嬴政出生的地点”。首先，对查询语句进行语法和语义分析，将字符串表达的含义转换为信息设备可以理解并自动处理的数据结构(即语义表达)。这种转换可以采用基于规则的方法，或者基于统计的方法，或者基于两者结合的方法。图6表示了经过处理形成的语义表达610、620。因为转换过程中知识编码原则与索引过程中知识编码原则一致，所以图6中的语义表达与图2中的语义表达是相同或相似的。

然后，根据查询句的语义表达中所包含的“特征-特征值”，进行匹配，从文档-索引存储设备104中找到被查询的对象，其分为两类：

一类是陈述形式，匹配的结果是一个对象，如查询句“联想电脑”(语义表达610)被匹配到文档-索引存储设备104中的索引304。从文档-索引存储设备104中精确定位目标文档段落《联想产品报价05年1月》第x段和《联想产品报价05年2月》第y段。

另一类是疑问形式，如“嬴政出生的地点”(语义表达620)，通过“特征-特征值”匹配发现该表达指向文档-索引存储设备104中的事件305，并且根据疑问点621“地点622”可以匹配到答案323。同时，可以精确定位目标文档段落《秦始皇生平》第1段。

以上阐述的是获得准确答案201，及精确搜索文档段落202的方法。当用户期望看到目标文档更多内容时，发出一个操作指令(例如：消息“more”)，文档-索引存储设备104查询到目标文档的全部段落，顺序显示就可以得到目标文档的全文203。

当用户期望看到更多相关文档时，发出一个操作指令(例如：消息“more”)，系统对查询句进行泛化，调用可以返回更多查询结果的搜索引擎，获得相关文档204。例如，具体到目前成熟的全文搜索引擎，这种方法可以是：提取查询句中所有实词，构成搜索关键词，调用全文搜索引擎，获得所有包含相关关键词的文档。

图7是本发明的精确搜索系统的一个优选实施例。基于本发明的精确搜索设备包括一个或多个中央处理器，一个或多个存储器。中央处理器根据存储器中的程序运行(包括按照前文所述方法实现的知识编码、文档切分/索引、语法/语义分析、知识匹配、输出/交互程序)。该设备还包含一个或多个计算机可读的外部存储介质，其中保存按照前文所述方法建立的目标文档(按照段落切分)、知识索引、语义资源、以及文档-索引对应关系。该设备还包含一个或多个网络连接部件，以使本发明设备可以跨网络运行。

本发明中，虽然是按照文档段落进行切分和精确搜索，但是本发明方法不局限于段落级别，同样适用于按照句子级别进行切分和索引，因而实现针对目标文档中句子级的精确搜索。

优选实施例中的网络连接部件并非基于本发明的设备所必需的部件。当所有程序和数据均运行在单一的物理设备中时，可以没有网络连接设备，本发明同样适用。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所披露的技术范围内，可轻易想到的变换或替换，都应涵盖在本发明的包含范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1、一种建立知识索引的方法，包括：

将目标文档划分成多个部分；

对各个部分中包含的知识进行编码，以得到相应知识的知识编码；

相互对应地存储所述各个部分及其知识编码。

2、如权利要求1所述的方法，其特征在于，所述划分步骤包括：

按照段落或者句子落划分目标文档。

3、如权利要求1所述的方法，其特征在于，所述知识编码步骤包括：

按照词语的含义赋予相应的编码；

将具有相同含义的词语赋予相同的编码，而将具有多种含义的词语赋予不同的编码。

4、如权利要求3所述的方法，其特征在于，所述知识编码步骤还包括：

按照‘对象-特征-特征值’的数据结构组合各个词语的知识编码。

5、如权利要求3或4所述的方法，其特征在于，所述知识编码以整数来表示。

6、如权利要求1所述的方法，其特征在于，重复上述步骤，建立每一篇文档的知识编码。

7、一种信息搜索方法，包括步骤：

输入搜索语句；

对所述搜索语句进行语法或者语义分析，以获得该搜索语句的基于知识编码的语义表达；

在知识库中匹配该语义表达，以找到对应的答案。

8、如权利要求7所述的方法，其特征在于，在用户不满意所述答案的情况下，向用户返回包括该答案的文档的一部分。

9、如权利要求8所述的方法，其特征在于，在用户不满意所述包括该答案的文档的一部分的情况下，向用户返回包括该答案的整个文档。

10、如权利要求9所述的方法，其特征在于，在用户不满意包括该答案的整个文档的情况下，利用关键词搜索，向用户返回包括关键词的所有搜索结果。

11、如权利要求7所述的方法，其特征在于，对于陈述形式的搜索语句，根据该搜索语句的语义表达的“特征-特征值”，匹配到知识编码中的一个或多个编码。

12、如权利要求7所述的方法，其特征在于，对于疑问形式的搜索语句，通过“特征-特征值”匹配来发现该搜索语句的语义表达所指向的知识编码，然后根据疑问点匹配到答案的知识编码。

13、一种实现信息搜索的系统，包括：

一个或多个中央处理器；

一个或多个存储器；

其中，所述中央处理器根据存储器中的程序运行，以便：

输入搜索语句；

在知识库中匹配该语义表达，以找到对应的答案。

14、如权利要求13所述的系统，还包括一个或多个计算机可读的外部存储介质，其中保存有按照权利要求1所述的方法建立的知识索引。

15、如权利要求14所述的系统，其特征在于，还包括一个或多个网络连接部件。