CN101051311A

CN101051311A - 从应用于中心词提取系统的词条中提取中心词的方法

Info

Publication number: CN101051311A
Application number: CNA2006101717708A
Authority: CN
Inventors: 郑一亨
Original assignee: KT Corp
Current assignee: KT Corp
Priority date: 2000-04-18
Filing date: 2001-04-18
Publication date: 2007-10-10
Also published as: EP1290583A1; WO2001080077A1; CA2406203A1; HK1057632A1; US20030171914A1; JP2004501424A; CN100535892C; AU5273501A; KR100813806B1; KR20010098714A; US20090144249A1; CN1434952A; EP1290583A4

Abstract

本发明涉及从询问词中提取有含义中心词的方法和系统，并且公开了据此检索信息的方法和系统。检索系统提取词条的有含义中心词，扩充词条，和根据扩充的词条检索文本，从而提高了检索系统的性能和使用的便利性。

Description

从应用于中心词提取系统的词条中提取中心词的方法

本申请是申请日为2001年4月18日、申请号为01810875.X、发明名称为“根据有含义中心词检索信息的方法和系统”的发明专利申请的分案申请。

技术领域

本发明涉及提取有含义中心词和根据有含义中心词检索信息的方法和系统，尤其涉及从词条中提取中心词，即词干或派生词的方法和系统、其性能提高了的和便于使用中心词提取方法的信息检索系统、和记录方法和使方法具体化的程序的计算机可读记录介质，以及记录中心词词典的数据的计算机可读记录介质。

背景技术

众所周知，为了适应迅速、准确和容易地搜索信息的需要，人们已经着手开发称为信息搜索的技术。为了满足需要而开发出来的信息检索系统把最适合用户需要的信息提供给他或她。随着信息量不断增加，信息检索系统不是从每个数据中直接找出信息，而是采用索引系统，在这种索引系统中，以适合于数据搜索的容易方式，事先处理和存储数据，以便可以实时搜索信息。从上面可以看出，信息搜索分三步进行：询问、编索引和搜索。在编索引步骤中，事先把数据收集起来，处理成较容易搜索的，然后存储起来。在询问步骤中，用户请求信息，和在搜索步骤中，提供与他或她的询问相对应的信息。

在许多情形中都可以使用信息搜索。例如，存在如下一些情况：计算机操作系统从硬盘或辅助存储单元的数据中搜索某个文件或文件夹；从文字处理器的一个文件中搜索某个词或词组；从电子日程表的电子词典或作为离线应用软件的电子词典中搜索某个词；和电子词典的在线服务器程序搜索和提供与客户计算机请求的某个词相关的信息。

现今，计算机相关存储介质的容量越来越大，和因特网的普及使全世界所有计算机连接成一个大型网络，因此，信息量成几何级数增长。因此，从巨大的信息中迅速和容易地找出所需的正确信息变得越来越难。

搜索的性能由两个因子来衡量。一个是再现率，另一个是精确率。再现率是搜索到的适用文本与系统拥有的适用文本之比。精确率指的是适用文本与搜索出的文本之比。也就是说，再现率表示系统搜索适用文本的能力，而精确率则显示系统不搜索不适用文本的能力。换一种方式来说，前者衡量搜索的完全性，而后者衡量搜索的精确性。

因此，最完美的检索系统应该具有100％的再现率和精确率。但是，一般说来，这两个比率成反比。换句话说，当扩大搜索范围，以获得高再现率时，精确率下降，而当缩小搜索范围，以提高精确率时，再现率下降。实际上，使这两个比率都很高是很少见的。因此，对于每种检索系统，人们试图同时提高这两个因子。

但是，随着因特网的引入，信息量变得十分巨大，因此，难以衡量再现率和精确率。当要搜索的目标文本的数量像在因特网中那样不断增加时，搜索结果多种多样，因此，难以搞清楚搜索的所有目标文本中到底搜索了多少适用文本。也就是说，即使搜索出询问的适用文本，也不可能搞清楚未搜索的文本的数量，因此，用户想要在搜索出的所有数据当中，检查每个单独文本，看一看它是否适用是相当困难和繁重的。搜索质量与索引的有效性密切相关。编索引指的是事先提取和存储索引词，即，要搜索文本数据所需的信息。这是有效信息搜索所需的。信息检索系统将用户的询问与索引相比较，然后提供最合适的信息。

至于生成索引的方法，有由本领域的普通技术人员完成的人工方法和由计算机程序完成的自动索引生成方法。与自动编索引相比，人工编索引需要更多的劳力和时间。因此，实际上，难以把它应用在因特网的众多文本上。此外，即使同一个编索引者也有可能在不同的试用场合对同一种情况选择不同的索引词。因此，难以保持一致性，造成编索引者与搜索信息的用户之间的不一致。自动编索引是由计算机完成的。因此，不仅可以非常快地对大量文本编索引，而且根据系统采用的自动编索引程序，也可以保持一致性。尽管这种自动编索引存在这些优点，但是，正如人工编索引一样，在用户的询问词与编索引者选择的索引词之间仍然存在着不一致。由于索引词是编索引程序从文本中选择的，因此，数据发生器选择一个术语的不同表达式造成索引词的不一致。为了解决这个问题和对来自用户的同一询问词得出相同的搜索结果，已经进行了一些研究。

同时，索引的有效性由两个因子，即完全度和准确度确定。索引的准确度指的是索引精确表达某个概念的能力。索引的准确度越高，由于它可以更准确地表示某个概念，因此，可以更有效地搜索到适用的文本。索引的完全度指的是多少索引词用于表达一个文本所涉及的概念。当除了文本的中心概念之外，所有的相近概念都被选作索引词时，完全度就更高。因此，当再现率上升时，由于搜索了相近概念的文本，因此，精确率就下降。请记住，再现率取决于索引的完全度，精确率取决于索引的准确度。

同时，执行搜索方法与执行编索引方法相反。例如，当在文本中存在词“political(政治的)”和对词“politic(精明的)”编索引时，在搜索期间从询问词“political”中生成关键词“politic”和搜索带有这个词的文本。如果对词“political”编索引，那么，在搜索期间从询问词“political”中生成“political”作为关键词，和搜索包含这个词的文本。如果对两个字符串“politic”和“al”编索引，那么，在搜索期间从询问词“political”中生成“politic”和“al”作为关键词，和搜索同时包含这两个字符串的文本。也就是说，对词“political”编索引和生成“politic”作为关键词使搜索失败。

在带有许多数据和网页的因特网上，存在数十种网络搜索引擎。用户把询问词输入之后，它们搜索和提供可能与它最匹配的网络文件的位置。这里，位置指的是聚集用户想要的网络文件的目录或路径(目录搜索、网络类别搜索、或某个网络文件的因特网地址或URL(统一资源定位地址)(网页搜索))。

但是，实际上，当前的因特网检索系统搜索和提供用户想要的信息的很少一部分，因此，使信息搜索的置信度下降。受用户的便利性和搜索速度制约，传统搜索引擎以众所周知的简单方式对数据编索引，将索引词与询问词相比较来确定索引词。因此，在编索引和翻译询问词时在对目标的表达方面的少许差异可能把用于与询问词相比较的、搜索目标当中的信息排除在外。也就是说，由于信息生产者的片面表达、编索引者的编索引表达、和信息用户的询问表达相互之间存在些许差异，导致检索系统效率低下。

举一个例子来说，可能存在这样一种情况，信息生产者把某个信息表达成“politician(政治家)”，索引者或编索引程序把它的索引编成“politic”，和信息用户查询“politician”。这里，当用户在信息检索系统中搜索用询问词“politician”编索引的信息时，用“politic”编索引的信息将遗漏掉。此外，当在上述情况中用“statesman(政治家)”对信息编索引时，不搜索带有询问词“politician”的文本。正如这里所示的，存在着具有相同含义的一些术语，和同一概念可能用不同方式来表达。因此，即使实际上存在所需信息，也由于把它当作不同的东西，而不能把它搜索出来。因此，只有在用户把所有相关词，即“politic”、“politician”、“statesman”和“political”输入成与“politic”相关的搜索信息时，按照这种方式具体化的传统检索系统才能提供与询问词对应的信息。这就造成了使用上的不方便和使信息搜索的置信度下降的缺点。

同时，另一个例子显示了这样一种情况，信息生产者把某个信息表达成“backbone”，索引者或编索引程序把它的索引编成“back”、“bone”、和“backbone”，和信息用户查询“back”。这里，当使用信息检索系统和用用户询问词“back”编索引的搜索信息时，将提供用“back”编索引的信息作为搜索结果。当然，如果理解这些词的不同概念的人士人工对信息编索引，不会把“backbone”的索引编成“back”。但是，当利用计算机程序自动对数据编索引时，或者，当选择可能导致相同结果的编索引方法时，可能提供如上所述的错误搜索结果。

为了避免在信息生产、编索引和询问时的不同表达所致的低搜索效率，当前在一些高质量信息检索系统中使用了另一种编索引和搜索方法。这些系统采用了相关术语的各种不同表达，下面将对此加以描述。

一般说来，表达集合包括同义词、含义相同的词(politician与statesman)、含义相近但拼法不同的词(atmosphere与air，elderly与aged与retired与senior citizens与old people与golden-agers)、拼法可以不同的同一词(theatre与theater、color与colour)、和同(近)义词词库等。在它们当中，涵盖词与词之间的大多数关系的同(近)义词词库包括诸如同义词、近义词、广义词-使含义扩充的术语(atmosphere与environment)、狭义词-使含义变窄的术语(atmosphere与oxygen)之类的关系和其它词与词关系的宽范围。

但是，当把这些同(近)义词词库应用于检索系统时，难以实现自构，并且，由于搜索的相关词太多，搜索效率显著下降。这里举一个例子。当询问词是“credit card(信用卡)”时，词“card(纸牌)”被扩充成一个与“card(纸牌)”相近的词-“trump(王牌)”，这导致精确率下降。因此，尽管系统采用了同(近)义词词库，也有限度地用作当没有得出搜索结果时搜索数据的派生功能，或只用于少数几种特殊情况。

举另一个例子来说，当用户询问“air pollution”和允许使用如上所述的同(近)义词词库时，词“air”被扩充成包括含义相近的词“atmosphere”、广义词“environment”、狭义词“oxygen”。因此，搜索效率因搜索这些词，例如，“atmosphere pollution”、“environment pollution”、和“oxygenpollution”而显著下降。此外，从上面可以看出，在系统用“big”对“bigbusiness”编索引的情况下，同(近)义词词库的扩充加大了错误搜索结果，并且损坏了检索系统的品质。

同时，在构造同(近)义词词库时，术语的选择和它们之间的相互关系，以及要用在信息搜索中的关系的类型和层次的控制都影响着应用同(近)义词词库的信息检索系统的品质，从而难以构造信息检索系统，和增加系统构造成本和系统负担。

下面详细描述在现有系统中采用的传统搜索方法的例子。

对于不使用语言学知识和不考虑自然语言的简单字符串匹配方法，有两种方法。

首先，在用户询问“superhigh-speed internet(超高速因特网)”的情况中，在传统方法中，搜索完全匹配的搜索引擎找出包含“superhigh-speed”和“internet”的网络文件。尽管询问词“superhigh-speed”看起来与“high-speed”不同，但是，显而易见，向“superhigh-speed”索取的东西与向“high-speed internet”索取的东西是相同的。然后，这种类型的信息检索系统存在着因未能找出包含“superhigh-speed”的关键词-“high-speed”、和“internet”的网络文件而把信息排除在外的问题。

其次，在用户询问词“back”的情况中，在传统方法中，允许部分匹配的搜索引擎存在着找出带有诸如“backbone”之类含有字符串“back”的词的所有网络文件的问题。

与上述不同，还存在应用语言学知识，例如，同义词、含义相近的词、拼法不同的同一词和同(近)义词词库，因此处理自然语言的其它搜索引擎。在使用普通词典的情况下，进行诸如词素分析的语言学处理。但是，由于词“backbone”被当作词条列出来，搜索引擎把它识别成询问词，但是，不对它的词干“bone”进行搜索。也就是说，当使用传统搜索引擎和查询“backbone”时，把不使用“backbone”，但使用“bone”和“back”的文件排除在外，导致大量信息遗漏掉，降低了搜索的置信度。此外，在使用诸如同义词词典之类的特殊词典或采用像同(近)义词词库那些的语言学知识的情况下，存在着在增加再现率的过程中使精确率下降的负面影响。

发明内容

因此，本发明的一个目的是提供一种根据中心词词典，提取含有词条的中心含义的词，即词干或派生词，扩充词条，然后，通过关键词进行搜索，从而提高系统性能和使用户使用起来更方便的信息检索系统、及其方法、和记录使方法具体化的程序的计算机可读记录介质。

本发明的另一个目的是根据中心词词典，提取含有词条的中心含义的词，即词干或派生词，扩充词条，然后，利用关键词进行信息搜索，提供按照最适合于询问的顺序排列的信息搜索结果，从而提高系统性能和使用户使用起来更方便。

本发明的另一个目的是提供一种根据中心词词典，提取含有词条的中心含义的词，即词干或派生词方法、和记录使方法具体化的程序的计算机可读记录介质。

本发明的另一个目的是提供一种记录包含词条和标识词条的类型的标识符的中心词词典的数据、和含有词条的中心含义的词，即词干或派生词的计算机可读记录介质。

本发明的另一个目的是提供一种连接和记录第一和第二中心词词典的计算机可读记录介质，其中，第一中心词词典包含词干的词条和含有词条的中心含义的派生词，和第二中心词词典包含派生词的词条和含有词条的中心含义的词干。

本发明的另一个目的是提供一种记录包含词条和含有词条的中心含义的词的中心词词典的数据的计算机可读记录介质。

根据本发明的一个方面，提供了基于中心词词典的信息检索系统，它包括：中心词词典存储单元，用于存储找出含有词条的中心含义的词，即中心词的信息；匹配单元，用于从用户那里接收询问词；信息搜索单元，用于利用词条和中心词作为关键词搜索相关信息，其中，根据接收的询问词把词条设置成向存储在中心词词典中的数据查询的一个或数个词条，和通过利用上面设置的词条查询中心词词典，提取中心词；和输出单元，用于输出信息搜索单元搜索的结果。

根据本发明的另一个方面，提供了基于中心词词典的信息检索系统，它包括：中心词词典存储单元，用于存储找出含有词条的中心含义的词的信息；匹配单元，用于从用户那里接收询问词和有关是否根据中心词词典扩充询问词的选择信息；信息搜索单元，用于利用词条和中心词作为关键词搜索相关信息，其中，根据接收的询问词把词条设置成一个或数个词条，并且，在检查发送的选择信息是否是扩充的那一个之后，如果不是扩充的那一个，用设置的词条进行搜索，否则，通过利用上面设置的词条查询中心词词典，提取中心词；和输出单元，用于输出信息搜索单元搜索的结果。

根据本发明的另一个方面，提供了根据中心词词典，搜索应用于信息检索系统的信息的方法，该方法包括如下步骤：a)构造能够找出含有词条的中心含义的词的中心词词典；b)设置要向中心词词典查询的、来自用户的询问词当中的一个或数个词条；c)通过从中心词词典中提取词条的中心词，扩充词条；d)利用上面设置的词条和提取的中心词搜索相关信息；和e)输出信息搜索的结果。

根据本发明的另一个方面，提供了根据中心词词典，搜索应用于信息检索系统的信息的方法，该方法包括如下步骤：a)构造能够找出含有词条的中心含义的词的中心词词典；b)从用户那里接收询问词和有关是否根据中心词词典扩充询问词的选择信息；c)设置来自用户的询问词当中的一个或数个词条；d)检查来自用户的选择信息是否是根据中心词词典扩充的那一个；e)如果不是扩充选择信息，利用设置的词条进行搜索，并且输出搜索结果；和f)如果证明是扩充选择信息，通过从中心词词典中提取词条的中心词，扩充词条，通过把设置的词条和提取的中心词取作关键词，搜索相关信息，并且输出结果。

根据本发明的另一个方面，提供了根据中心词词典，从词条当中的应用于中心词提取系统的词条中提取中心词的方法，该方法包括如下步骤：a)构造能够找出含有词条的中心含义的词的中心词词典；b)设置要向中心词词典查询的、来自用户的询问词当中的一个或数个词条；和c)向中心词词典查询设置的词条，和提取含有词条的中心含义的词。

根据本发明的另一个方面，提供了根据中心词词典，从词条当中的应用于中心词提取系统的词条中提取中心词的方法，该方法包括如下步骤：a)构造能够找出含有词条的中心含义的词的中心词词典；b)从用户那里接收询问词和有关是否根据中心词词典扩充询问词的选择信息；c)设置来自用户的询问词当中的一个或数个词条；d)检查来自用户的选择信息是否是根据中心词词典扩充的那一个；e)如果不是扩充选择信息，不扩充上面设置的词条；和f)如果是扩充选择信息，向中心词词典查询设置的词条，和通过提取含有词条的中心含义的词，扩充词条。

根据本发明的另一个方面，提供了记录使配有处理器的信息检索系统中，根据中心词词典搜索信息的方法具体化的程序的计算机可读记录介质，该方法包括如下步骤：a)构造能够找出含有词条的中心含义的词的中心词词典；b)设置要向中心词词典的数据查询的、来自用户的询问词当中的一个或数个词条；c)通过从中心词词典中提取含有词条的中心含义的词，扩充词条；d)把设置的词条和提取的中心词用作关键词，搜索相关信息；和e)输出搜索结果。

根据本发明的另一个方面，提供了记录使配有处理器的信息检索系统中，根据中心词词典搜索信息的方法具体化的程序的计算机可读记录介质，该方法包括如下步骤：a)构造能够找出含有词条的中心含义的词的中心词词典；b)从用户那里接收询问词和有关是否根据中心词词典扩充询问词的选择信息；c)设置来自用户的询问词当中的一个或数个词条；d)检查来自用户的选择信息是否是根据中心词词典扩充的那一个；e)如果不是扩充选择信息，利用设置的词条进行搜索，并且输出搜索结果；和f)如果是扩充选择信息，通过提取词条的中心词，扩充词条，然后，把提取的中心词用作关键词，搜索相关信息，并且输出搜索结果。

根据本发明的另一个方面，提供了记录使配有处理器的信息检索系统中，根据中心词词典搜索信息的方法具体化的程序的计算机可读记录介质，该方法包括如下步骤：a)构造能够找出含有词条的中心含义的词的中心词词典；b)设置要向中心词词典的数据查询的、来自用户的询问词当中的一个或数个词条；和c)向中心词词典查询设置的词条，和提取含有词条的中心含义的词。

根据本发明的另一个方面，提供了记录使配有处理器的信息检索系统中，根据中心词词典搜索信息的方法具体化的程序的计算机可读记录介质，该方法包括如下步骤：a)构造能够找出含有词条的中心含义的词的中心词词典；b)从用户那里接收询问词和有关是否根据中心词词典扩充询问词的选择信息；c)设置来自用户的询问词当中的一个或数个词条；d)检查来自用户的选择信息是否是根据中心词词典扩充的那一个；e)如果不是扩充选择信息，不扩充上面设置的词条；和f)如果是扩充选择信息，向中心词词典查询设置的词条，和通过提取含有词条的中心含义的词，扩充词条。

根据本发明的另一个方面，提供了记录如下数据的计算机可读记录介质：词条字段，用于填充词条，即词干或派生词；标识符字段，用于插入标识词条字段中的词条是词干还是派生词的标识符；和中心词字段，用于如果词条，即词条的中心词是词干，插入含有词条的中心含义的派生词，和如果词条，即词条的中心词是派生词，插入含有词条的中心含义的词干。

根据本发明的另一个方面，提供了记录如下数据的计算机可读记录介质：词条字段，用于插入词条；词干字段，用于填充含有词条的中心含义的词干；和派生词字段，用于插入含有词条的中心含义的派生词。

根据本发明的另一个方面，提供了记录如下数据的计算机可读记录介质：词条字段，用于插入词条；和中心词字段，用于插入中心词，即含有词条的中心含义的词干或派生词。

这里，词干指的是构成词条的字符串，它包含词条字符串的全部或一部分，形成词条的中心含义。字符串未必是连续的。词干“politic”构成词条“politician”、“political”、和“politics”的中心含义。

并且，“politician”、和“political”是含有作为词干的“politic”的派生词。从这里可以看出，派生词是含有相应词条的中心含义的词。例如，如果词条是“politician”，那么，它的词干应该是“politic”，和它的派生词是“politician”和“political”，排除诸如“policy”之类的词。

举另一个例子。字“cookbook”由两个词“cook”和“book”组成。它们当中的两个或任一个都可以是它的词干。如果选择词干完全是在考虑到信息检索系统的性能之后，如何构造中心词词典的策略问题。细想一下用户的兴趣，通常就会把“cookbook”的词干选成词“cook”。尽管“cook(烹调)”与“book(书)”没有多大关系，但是，一般认为，用户会对与“cook”有关的信息感兴趣，而不是对与除了“cook”之外的“book”有关的信息感兴趣。像“laserprinter”那些的词属于同一种情况，这里，词“printer”是词干。

另一个例子是“未成年的小孩(infant baby)”，它的词干是“小孩(baby)”和“未成年的(infant)”。但是，在构成“未成年的小孩(infant baby)”时，词干“小孩(baby)”不是连续的。这也可以从词“年青的成年人(youthmanhood”看出，其中，“年青的(youth)”和成年人(manhood)”两个都可以是词干。

同时，词条，即列在词典中的词与询问词是不同的概念。词条可以与询问词相同，但是，当按照自然语言原原本本地输入询问词时，从询问词中选择词条，然后，使用它。词条与关键词也是不同的概念。它可以是关键词本身，并且，含有词条的中心含义的词干或派生词也可以是关键词。上述的本发明扩大了信息搜索方法和系统在所有环境和应用系统，譬如，文字处理器、电子词典、操作系统、因特网搜索引擎、词素分析系统、自然语言接口等中的使用价值。通过根据中心词词典提供含有词条的中心含义的词干或派生词，本发明搜索出与用户询问相关的所有信息，并且，以最适合于询问的顺序提供它们，从而提高了使用方的便利性。

附图说明

通过结合附图，对本发明的优选实施例进行如下详细描述，本发明的上面和其它目的和特征将更加清楚，在附图中：

图1A和1B是显示按照本发明一个实施例列出词条的中心词的中心词词典的结构的图形；

图1C和1D是显示按照本发明另一个实施例列出词条的中心词的中心词词典的结构的图形；

图1E是显示按照本发明另一个实施例列出词条的中心词的中心词词典的结构的图形；

图2是按照本发明一个实施例的、基于中心词词典的信息检索系统的图形；

图3是显示按照本发明的一个实施例，根据中心词词典从词条中提取中心词的方法和据此进行信息搜索的方法的流程图；和

图4是显示按照本发明的另一个实施例，根据中心词词典从词条中提取中心词的方法和据此进行信息搜索的方法的流程图。

具体实施方式

通过参照附图，对本发明的优选实施例进行如下详细描述，本发明的其它目的和方面将更加清楚。

图1A和1B是显示按照本发明一个实施例列出每个词条的关键词的中心词词典的结构的图形。

在图1A和1B中，本发明的中心词词典被构造成一个数据库，每个词条的种类用标识符标记。

从图中可以看出，词干或派生词101或104插在第一字段的词条位置中，而标识词条是词干还是派生词的标识符102或105插在第二字段中。在第三字段中，如果词条是词干，插入与它有关的派生词103；否则，如果词条是派生词，插入含有词条的中心含义的词干106。

也就是说，如图1A所示，如果词条是词干，把词干101插在第一字段的词条位置中，把标识词条是词干的标识符(例：1)102插在第二字段中，而把含有词条的中心含义的派生词插在第三字段中，作为中心词。

从图1B可以看出，在词条是派生词的情况下，把派生词104插在第一字段的词条位置中，把标识词条是派生词的标识符(例：2)105插在第二字段中，而把含有词条的中心含义的词干插在第三字段中，作为词条的中心词。

例如，当中心词是“politic”和它的派生词是““politician”、“poli-tical”、和“politically”时，由如上所述的数据库构成的实施例如下：

词条	标识符	中心词
词条	标识符	中心词	politic	1	politician	statesman	political
politician	2	politic	politic	1	politician	statesman	political
politician	2	politic	statesman	3	politic
political	4	politic	statesman	3	politic

在上面有关中心词的结构的实施例中，显示了构造中心词的数据库的方法。但是，可以把包含当词条是词干时含有词条的中心含义的派生词的第一数据库与包含当词条是派生词时含有派生词的中心含义的词干的第二数据库合并在一起。但是，在这种情况中，由于两个数据库是相互有区别的，无需单独插入标识符字段。这种情况显示在图1C和1D中。

图1C和1D是显示按照本发明另一个实施例列出词条的中心词的中心词词典的结构的图形。

图1C是当词条是词干时第一数据库的结构图，其中，把词干107插在第一字段，即词条字段中，和把含有词干的中心含义的派生词108插在第二字段中。

图1D是当词条是派生词时第二数据库的结构图，其中，把派生词109插在第一字段，即词条字段中，和把含有派生词的中心含义的词干110插在第二字段中。

例如，词干是“politic”和它的派生词是““politician”、“poli-tical”、和“politically”时，由如上所述的两个数据库构成的实施例的第一数据库的结构如下：

词条	中心词
词条	中心词	politic	politician、political、politically

并且，第二数据库的结构显示如下：

词条	中心词
词条	中心词	politician	politic
political	politic	politician	politic
political	politic	politically	politic

与上面实施例不同，也可以构造无需使用任何标识符的单个数据库。但是，应该列出含有词条的中心含义的派生词，下面参照图1E对此加以描述。

图1E是显示按照本发明另一个实施例列出词条的中心词的中心词词典的结构的图形。

在显示由不含标识符的单个数据库构成的实施例的结构的图1E中，它的第一字段111，即用于中心词的字段，由词干或派生词占据着。并且，如果词条是词干，把含有词条的中心含义的派生词插入第二字段中。否则，如果词条是派生词，把它的词干和含有词条的中心含义的派生词插入第二字段112中。

例如，当词干是“politic”和它的派生词是“politician”、“poli-tical”、和“politically”时，由不含标识符的单个数据库构成的上面实施例显示如下：

词条	中心词
词条	中心词			politic	politician	politician	political
statesman	politic	politician	political	politic	politician	politician	political
statesman	politic	politician	political	politician	politic	statesman	political
political	politic	politician	politician	politician	politic	statesman	political

中心词词典可以以如上面例子所述的各种方式构造而成。构造这样的中心词词典的主要原因是找出含有词条的中心含义的词、词干、或派生词。

图2是按照本发明一个实施例的、基于中心词词典的信息检索系统的图形。

如图2所示，本发明的信息检索系统存储词条和含有词条的中心含义的词干或派生词，作为中心词，或者，包括标识符，用于标识词条和标识词条是词干还是派生词；中心词词典23，用于存储词干或派生词，作为中心词；用户接口单元21，用于让用户输入至少一个询问词；信息搜索器22，用于把来自用户的询问词设置成访问中心词词典23的词条，提取含有词条的中心含义的词、即，词干或派生词，和对于扩充词条之后的搜索，利用上面设置的词条或提取的词干或派生词作为关键词进行信息搜索；和输出单元24，用于以用户想要的方式显示搜索结果。这里，由于设置来自用户的询问词当中的词条的过程是使用本领域普通技术人员所熟知的、通过词素分析器处理询问词，获取一个或数个词条的方法，因此，不再作进一步说明。

下面更详细地描述信息检索系统的结构和操作。

本发明的信息检索系统存储词条和含有词条的中心含义的词干或派生词，作为中心词，或者，包括标识符，用于标识词条和标识词条是词干还是派生词；中心词词典23，用于存储词干或派生词，作为中心词；用户接口单元21，用于让用户输入至少一个询问词；信息搜索器22，用于把来自用户的询问词设置成访问中心词词典23的词条，提取含有词条的中心含义的词、即，词干或派生词，和对于扩充词条之后的搜索，利用上面设置的词条或提取的词干或派生词作为关键词进行搜索；和结果输出单元24，用于把不同权重施加在扩充之前的关键词(词条)和扩充之后的关键词(词干或派生词)上-也就是说，把不同权重施加在利用词条作为关键词获取的结果和利用词干或派生词作为关键词获取的结果上，并且以按权重设置的优先顺序输出搜索结果。

在中心词词典23像图1A和1B所示那样，由单个数据库构成和使用标识符的情况下，在信息搜索器22中执行的扩充过程描述如下。向中心词词典23查询词条和检查标识符。如果词条是词干，通过含有词条的中心含义的派生词扩充词条。如果词条是派生词，提取含有词条的中心含义的词干，向中心词词典23再次查询作为词条的提取词干，并且通过提取的派生词扩充词条。这里，可以把提取的词干用在扩充中。

下面描述在中心词词典23像图1C和1D所示那样，由不含标识符的两个数据库构成的情况下，在信息搜索器22中执行的扩充过程。向第一数据库查询词条和检查相应词条是否是词干。如果是词干，通过含有词条的中心含义的派生词扩充词条。否则，向第二数据库查询它，和提取含有词条的中心含义的词干。然后，向第一数据库查询将用作词条的提取词干，并且通过提取的派生词扩充它。

在这两种扩充方法中，你可以使用词干作为询问词，也可以不使用词干作为询问词。在使用词干作为询问词的情况下，输出的优先顺序可能是把利用词条作为询问词搜索的结果放在第一位，后面接着利用词干作为询问词搜索的结果，然后是利用没有任何优先顺序地输出的派生词搜索的结果。但是，这只不过是一个例子而已。实际上，也可以在输出利用词干搜索的结果之前，输出利用派生词搜索的结果，或者，以你想要的顺序输出利用派生词搜索的结果。当询问词不是词干时，优先输出顺序可以是把利用词条作为询问词搜索的结果放在第一位，然后是无序输出的其余部分。此外，可以以各种方式定义优先顺序，例如，这里，根据用户想要的顺序输出利用派生词搜索的结果。

在中心词词典23由不含任何标识符的单个数据库构成的情况下，在信息搜索器22中执行的扩充过程如下。向中心词词典23查询词条，并且利用含有相应词条的中心含义的词干或派生词扩充它。在这种情况中，在构造的时候，可以事先把权重施加在词干或派生词上来构造中心词词典23。这样，所需要的只是以对应的顺序输出用对应词干或派生词搜索的结果。

同时，上述信息检索系统需要事先收集数据和编索引的步骤，以便对数据进行处理，和以易于搞清楚它们是什么东西的方式存储起来。因此，本发明还采用了像上面中心词词典的概念那样的索引数据库。例如，在收集像politic、politician、political、和politically那样形态相关的词的信息的情况下，把它的词条，即，politic、politician、political、和politically存储在索引数据库中，作为索引。因此，与把部分字符串编成索引的传统索引数据库相比，可以显著缩小本发明的索引数据库的规模。除了能够编索引之外，本发明还可以得出适合于用户要求的较好搜索结果。由于能够编出忠实于原意的索引，因此，与把词根编成索引的传统索引数据库相比，本发明得出更适合于用户要求的搜索结果。这种编索引器可以以多种多样的方式构成，譬如，包含在信息搜索器22中，或者，与信息搜索器22连接。

图3是显示按照本发明的一个实施例，利用中心词词典从词条中提取中心词的方法和据此进行信息搜索的方法的流程图。

如图3所示，在步骤301中，由用户把用于数据搜索的询问词输入用户接口单元21中，并且，在步骤302中，从构成问题的一个或数个询问词中设置访问中心词词典23的词条。然后，在步骤303中，访问带有在上面设置的词条的中心词词典23，提取含有词条的中心含义的词，即词干或派生词。在步骤304中，通过提取的中心词，即词干或派生词，扩充词条。在步骤305中，把设置的词条、提取的中心词，即词干或派生词取作搜索关键词，进行数据搜索。在步骤306中，输出搜索结果，然后，结束处理。如果存在数个词条，那么，可以在步骤304执行词条扩充过程之后，插入用户选择哪一个词条用作关键词的过程(未示出)。这可以应用于如上所述的系统。

下面更详细地说明上述方法。

首先，通过把词条和含有词条的中心含义的词干或派生词设置成中心词，构造由一个或多个数据库构成的中心词词典。由单个数据库构成的中心词词典可以通过把词条、标识词条是词干还是派生词的标识符、和含有词条的中心含义的词干或派生词设置成中心词构成。由单个数据库构成的中心词词典也可以通过把词条、和含有词条的中心含义的词干或派生词设置成中心词构成。

然后，在步骤301中，由用户把一个或多个询问词输入用户接口单元21中，并且，将其发送到信息搜索器22。在步骤302中，接收到询问词之后，信息搜索器22设置向中心词词典23查询的词条。在步骤303中，向中心词词典23查询上面设置的词条，并且，提取含有词条的中心含义的词，即词干或派生词。在步骤304中，通过提取的中心词，即词干或派生词，扩充词条，并且，在步骤305中，搜索与取作搜索关键词的上面设置的词条、或提取的词干或派生词相关的信息。此后，结果输出单元24把不同权重施加在扩充之前的关键词(词条)和扩充之后的关键词(词干或派生词)上，也就是说，把不同权重施加在利用词条作为关键词搜索的结果和利用词干和派生词作为关键词搜索的结果上。并且，在步骤306中，以基于权重的优先顺序把搜索结构输出给用户。同时，在存在数个词条的情况下，在扩充词条之后，信息搜索器22可以执行用户选择哪一个扩充词条用作关键词的过程(在图中未示出)。

然后，在步骤401中，用户接口单元21与询问词一起接收有关是否根据中心词词典扩充来自用户的询问词的信息，并且，将其发送到信息搜索器22。在步骤402中，信息搜索器22根据询问词设置向中心词词典23查询的词条，并且，在步骤403中，确定发送的选择信息是否是利用中心词词典23扩充的那一个。

如果在步骤403中，不希望基于中心词词典23的扩充，那么，在步骤406中，利用已经设置的当前词条进行信息搜索。在步骤407中输出搜索结果，然后，逻辑流程结束。

如果希望基于中心词词典23的扩充，那么，在步骤404中，向中心词词典23查询上面设置的词条，并且，提取含有词条的中心含义的词，即词干或派生词。在步骤405中，通过提取的中心词，即词干或派生词，扩充词条，并且，在步骤406中，利用上面设置的词条、提取的词干或提取的派生词作为关键词搜索相关信息。此后，结果输出单元24把不同权重施加在扩充之前的关键词(词条)和扩充之后的关键词(词干或派生词)上。也就是说，把不同权重施加在利用词条作为关键词搜索的结果和利用词干和派生词作为关键词搜索的结果上。然后，在步骤407中，以基于权重的优先顺序把搜索结构输出给用户。同时，在存在数个词条的情况下，在步骤405中扩充词条之后，信息搜索器22可以执行用户选择哪一个扩充词条用作关键词的过程(在图中未示出)。

尽管已经参照附图描述了上面其它实施例中搜索数据的方法，但是，可以与图2所示的信息检索系统类似地实现那些实施例的信息检索系统。你需要做的只是在用户接口单元21的一端配备用于确定来自用户的选择信息是否是利用中心词词典扩充的那一个的信息校验器。信息校验器可以安装在信息搜索器22中。图4描述了它的所有操作。

如前所述，本发明的中心词词典包括同(近)义词词库、含义相近的词、拼法不同的同一词和自然语言处理的概念。例如，在利用自然语言或其它输入询问词的情况下，首先从询问词中选择词条，然后，可能使用中心词。

如上所述，本发明的方法是可编程的，并且可以记录在计算机可读记录介质，例如，CD ROM(只读光盘存储器)、RAM(随机存取存储器)、ROM(只读存储器)、软盘、硬盘、磁光盘等中。

如上所述的本发明利用含有词条的中心含义的词干或派生词作为词条的中心词，从而扩大了搜索方法和系统在所有环境和应用系统，譬如，文字处理器、电子词典、操作系统、因特网搜索引擎、词素分析系统、自然语言接口等中的使用价值。本发明还可以忽略与用户询问词无关的搜索结果，和搜索与他或她的询问词相关的所有东西，以最适合于询问的优先顺序提供结果，从而除了提高使用的便利性之外，还提高了信息搜索的置信度。

通过例子可以说得更确切些，在应用本发明的情况下，中心词词典包括“back”事实上是词干和词“backbone”的词干是“bone”的信息。利用这个信息，在用户询问“back”时，不搜索词“backbone”。并且，在询问“backbone”时，可以搜索和提供与它的词干“bone”相关的信息。

此外，与传统方法，可以显著缩小索引数据库的规模。

虽然结合某些优选实施例已经对本发明进行了描述，但是，对于本领域的普通技术人员来说，显而易见，可以进行各种各样的改变和修改而不偏离如所附权利要求书限定的本发明的范围。

Claims

1.一种根据中心词词典，从词条当中的应用于中心词提取系统的词条中提取中心词的方法，该方法包括如下步骤：

a)构造能够找出含有词条的中心含义的词的中心词词典；

b)设置要向中心词词典查询的、来自用户的询问词当中的至少一个词条；和

c)向中心词词典查询设置的词条，并提取含有词条的中心含义的词。

2.根据权利要求1所述的方法，其中，中心词词典存储词条、标识词条是词干还是派生词的标识符、和含有词条的中心含义的词。

3.根据权利要求2所述的方法，还包括如下步骤：

d)向中心词词典查询词条，并且用标识符检查词条是词干还是派生词；

e)如果词条是词干，则利用含有词条的中心含义的派生词扩充词条；和

f)如果词条是派生词，则提取含有词条的中心含义的词干，把提取的词干取作词条，向中心词词典查询它，并且扩充词条。

4.根据权利要求3所述的方法，其中，在步骤f)中，利用提取的词干扩充词条。

5.根据权利要求1所述的方法，其中，中心词词典包括存储词干的词条和含有词条的中心含义的派生词的第一数据库、以及存储派生词的词条和含有词条的中心含义的词干的第二数据库，第一和第二数据库相互协作。

6.根据权利要求5所述的方法，还包括如下步骤：

d)向第一数据库查询词条，并且检查词条是否是词干；

e)如果证明词条是词干，则利用含有词条的中心含义的派生词扩充词条；和

f)如果证明词条不是词干，则向第二数据库查询词条，提取含有词条的中心含义的词干，然后把提取的词干取作词条，再次向第一数据库查询它，并且利用提取的派生词扩充词条。

7.根据权利要求1所述的方法，其中，中心词词典存储词条和含有词条的中心含义的词。

8.根据权利要求1到7任何一项所述的方法，其中，中心词包括含有词条的中心含义的词干。

9.根据权利要求8所述的方法，其中，词干是词条字符串的全部或一部分。

10.根据权利要求9所述的方法，其中，词干是词条字符串的连续字符串。

11.根据权利要求9所述的方法，其中，词干是词条字符串的不连续字符串。

12.根据权利要求1到7任何一项所述的方法，其中，中心词包括含有词条的中心含义的派生词。

13.一种根据中心词词典，从词条当中的应用于中心词提取系统的词条中提取中心词的方法，该方法包括如下步骤：

a)构造能够找出含有词条的中心含义的词的中心词词典；

b)从用户那里接收询问词和有关是否根据中心词词典扩充询问词的选择信息；

c)从询问词中设置至少一个词条；

d)检查来自用户的选择信息是否是根据中心词词典扩充的那一个；

e)如果不是扩充选择信息，则不扩充上面设置的词条；和

f)如果是扩充选择信息，则向中心词词典查询设置的词条，并且通过提取含有词条的中心含义的词，扩充词条。

14.根据权利要求13所述的方法，其中，中心词词典存储词条、标识词条是词干还是派生词的标识符、和含有词条的中心含义的词。

15.根据权利要求14所述的方法，还包括如下步骤：

g)向中心词词典查询词条，并且用标识符检查词条是词干还是派生词；

h)如果词条是词干，则利用含有词条的中心含义的派生词扩充词条；和

i)如果词条是派生词，则提取含有词条的中心含义的词干，把提取的词干取作词条，向中心词词典查询它，并且扩充词条。

16.根据权利要求15所述的方法，其中，在步骤i)中，利用提取的词干扩充词条。

17.根据权利要求13所述的方法，其中，中心词词典包括存储词干的词条和含有词条的中心含义的派生词的第一数据库、以及存储派生词的词条和含有词条的中心含义的词干的第二数据库，第一和第二数据库相互协作。

18.根据权利要求17所述的方法，还包括如下步骤：

g)向第一数据库查询词条，并且检查词条是否是词干；

i)如果词条不是词干，则向第二数据库查询词条，提取含有词条的中心含义的词干，然后把提取的词干取作词条，再次向第一数据库查询它，并且利用提取的派生词扩充词条。

19.根据权利要求13所述的方法，其中，中心词词典存储词条和含有词条的中心含义的词。

20.根据权利要求13到19任何一项所述的方法，其中，中心词包括含有词条的中心含义的词干。

21.根据权利要求20所述的方法，其中，词干是词条字符串的全部或一部分。

22.根据权利要求21所述的方法，其中，词干是词条字符串的连续字符串。

23.根据权利要求21所述的方法，其中，词干是词条字符串的不连续字符串。

24.根据权利要求13到19任何一项所述的方法，其中，中心词包括含有词条的中心含义的派生词。