CN1489089A

CN1489089A - 文件检索系统和问题回答系统

Info

Publication number: CN1489089A
Application number: CNA031580459A
Authority: CN
Inventors: 野本昌子; 弘; 佐藤光弘; 之; 铃木浩之
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2002-08-19
Filing date: 2003-08-19
Publication date: 2004-04-14
Also published as: JP2004139553A; EP1391834A3; KR20040016799A; US20040049499A1; EP1391834A2

Abstract

一种文件检索系统，能够高准确性地获得用户请求的信息。在这个文件检索系统中，询问输入部分102接收用户输入的询问。关键字提取部分104输入询问并提取关键字。关键字类型指定部分106判定每个提取的关键字的类型并指定关键字类型。问题类型判定部分108判定问题类型。关键字分类部分110参照存储在关键字分类规则存储部分112中的关键字分类规则将已指定关键字类型的关键字分类为主要型和次要型。文件检索部分114使用分类的关键字组搜索存储在文件存储部分116中的文件集，并且获得检索结果的文件。

Description

文件检索系统和问题回答系统

技术领域

本发明涉及一种文件检索系统和问题回答系统，。

背景技术

近年来，随着因特网和个人计算机等的广泛使用，大量的计算机化的文件普遍流行，从计算机化的和积累的文件信息中寻找期望的文件的文件检索系统也得到常规使用。这样一种文件检索系统比较用户指定的关键字和每个目标文件的相似性，并且按相似性的递降顺序提供包含这些关键字的文件，以此作为检索的结果。

然而，在这样一种文件检索系统中作为检索结果所获得的就是一些文件，因此，响应于一个问题，例如，“2002年足球世界杯的冠军是哪个国家？”。用户需要阅读作为检索结果获得的每一个文件，才能得到“巴西”这个用户最初希望了解的信息。因此，提供对于问题而非文件的回答的问题回答系统越来越引起人们的关注。问题回答系统从文件当中提取答案并且呈现这些答案。

这样一个问题回答系统的典型实例是在未经审查的日本专利出版物No.2002-132811中描述的问题回答系统。

在这个问题回答系统中，问题分析设备从询问中提取问题的一组术语和问题类型，文件检索设备使用问题的这组术语和类型搜索目标文件，答案提取设备从检索的文件中提取询问的答案。

然而，传统的文件检索系统和问题回答系统不能在考虑问题的类型或包含在答案中的期望的信息细节的情况下搜索文件或提取答案，它的缺点就是在文件检索和答案提取中不可能获得足够的准确性。

发明内容

本发明的目的是提供一种文件检索系统和问题回答系统，它能高准确度地搜索用户请求的信息。

本发明的主题就是分析用户输入的问题，识别文件类型和用户请求和它的细节级别，并且使用这些信息进行处理。更加具体地说，本发明的文件检索系统将把从输入的问题中提取的关键字分类为主要型和次要型，并且使用这些关键字搜索文件。本发明的问题回答系统提供了用于判定输入询问所要求的答案中期望的信息细节的装置。

按照本发明的一个方面，文件检索系统用于比较询问和逐个文件之间的相似性，并输出根据相似性排序的文件列表，所述文件检索系统包括：提取部分，用于从问题中提取关键字；分类部分，用于根据关键字的属性对由提取部分提取的关键字分类，使之分成为主要型和次要型，主要型涉及询问所指示的中心议题，次要型涉及补充信息；和，检索部分，用于实现文件检索处理，根据分类部分的分类结果获得按照相似性顺序排序的一个文件列表。

按照本发明的另一方面，问题回答系统包括；问题输入部分，用于输入询问的问题；问题分析部分，用于分析输入询问；文件检索部分，用于根据对询问问题的分析搜索文件；答案产生部分，用于根据检索的文件产生对询问问题的回答；和，答案输出部分，用于输出产生的答案。问题分析部分包括：关键字提取部分，用于从输入的询问问题提取关键字；关键字类型指定部分，用于对提取的关键字指定具有细节级别的语义属性，以此作为关键字的类型；和问题类型判定部分，用于根据指定给提取的关键字的具有细节级别的语义属性判定询问类型。答案产生部分包括：语义属性指定部分，用于在检索的文件中给关键字指定具有细节级别的语义属性；候选答案选择部分，用于根据问题类型判定部分的判定结果和判定结果的细节级别从检索的文件的表达方式中选择候选答案，这些检索的文件的关键字已经指定了具有细节级别的语义属性；答案排序部分，用于对所选择的候选答案进行排序。答案输出部分根据所述答案排序部分的排序结果输出答案。

附图说明

从以下结合附图的描述，本发明的上述目的和其它目的以及特征都将更加全面呈现，其中借助于实例来说明一个例子，其中：

图1是示出按照本发明的第一实施例的文件检索系统的结构的方框图；

图2说明了对应于第一实施例的文件检索系统中从关键字提取到关键字分类的一系列过程的实例的概览；

图3说明了信息的细节级别的实例；

图4表示在第一实施例中使用的关键字分类规则的例子；

图5是示出在对应于第一实施例的文件检索系统中使用主要型/次要型关键字的文件搜索处理过程的例子的流程图；

图6是示出在对应于第一实施例的文件检索系统中使用主要型/次要型关键字的文件搜索处理过程的另一个例子流程图；

图7示意地说明按照图6的流程图执行的文件搜索处理的结果；

图8是示出在对应于第一实施例的文件检索系统中使用主要型/次要型关键字的文件搜索处理过程的另一个例子的流程图；

图9示意地说明按照图8的流程图执行的文件搜索处理的结果；

图10说明了按照本发明的第二实施例的文件检索系统中从关键字提取到关键字分类的一系列过程的实例的概览；

图11说明了第二实施例中使用的关键字分类结果的例子；

图12是表示使用被分类成主要型/次要型的关键字的文件搜索处理过程以及在对应于实施例2的文件检索系统中对于文献目录信息的搜索条件的例子的一个流程图；

图13是示出按照本发明的实施例3的文件检索系统的结构的方框图；

图14A说明一个文件的例子；

图14B说明具有附加的语义属性的文件的例子；

图14C说明具有附加的语义属性的规范化的文件的例子；

图15是示出在对应于实施例3的文件检索系统中，对于具有语义属性的文件使用主要型/次要型关键字的文件搜索处理过程的例子的一个流程图；

图16是示出按照本发明实施例4的问题回答系统的结构的方框图；

图17是示出对应于实施例4的问题回答系统的操作的流程图；

图18是示出按照本发明的实施例5的问题回答系统的结构的方框图；

图19说明了在对应于实施例5的问题回答系统中的一种答案细节级别估算方法的总图；

图20说明了在对应于实施例5的问题回答系统中的一种答案细节级别判定方法的总图；

图21是示出按照本发明的实施例6的问题回答系统的配置方框图。

具体实施方式

下面参照附图对本发明的实施例作出详细说明。

(实施例1)

图1是示出按照本发明的第一实施例的文件检索系统的结构的方框图。

这个文件检索系统100是用于比较询问和单个文件之间的相似性并输出根据相似性排序的文件列表的系统，所述文件检索系统包括：询问输入部分102、关键字提取部分104、关键字类型指定部分106、关键字类型判定部分108、关键字分类部分110、关键字分类规则存储部分112、文件检索部分114、和文件存储部分116。

文件检索系统100的硬件结构是任意的，不限于某种特定的结构。例如，文件检索系统100可由设有CPU和存储设备(例如ROM、RAM、硬盘、和其它的各种存储介质)的计算机实施。在这种情况下，关键字分类规则存储部分112可以是计算机内的存储设备，或者是在计算机外部的存储设备(例如网络上的存储设备)。当文件检索系统100按这种方式由计算机实施的时候，文件检索系统100通过CPU执行预定的操作，而CPU执行描述这个文件检索系统100的操作的程序。

在这个文件检索系统100中，询问输入部分102首先接收由用户输入的询问。然后，关键字提取部分104分析输入的询问并提取关键字。然后，关键字类型指定部分106对于每个由关键字提取部分104提取的关键字作出类型的判定，并且对于每个关键字指定一个关键字类型。然后，问题类型判定部分108判定问题类型。

然后，参照预先存储在关键字分类规则存储部分112中的关键字分类规则，关键字分类部分110将由关键字类型指定部分106指定了关键字类型的关键字分类为主要型关键字(主要关键字)和次要型关键字(次要关键字)。最后，文件检索部分114利用由关键字分类部分110分类的关键字组搜索预先存储在文件存储部分116中的文件集，并由此获得对应于检索结果的文件。

这里，主要型关键字指的是与由询问指示的中心议题有关的关键字，次要型关键字指的是与补充信息有关的关键字。

下面，利用特定的例子详细描述具有上述配置的文件检索系统100。

图2说明了在从输入的询问提取关键字之后、对于每一个关键字指定一个类型、一直到根据指定的类型将关键字分类为主要型关键字或次要型关键字的一系列过程的总图。

首先，响应于输入的询问：“哪一个国家是2002年举办的FIFA世界杯的冠军？“，关键字提取部分104提取关键字。对于提取关键字的方法没有特殊的限制，例如可以使用下述的方法：按照最大长度匹配方法使用一部字典从询问一开始就提取除辅助字以外的字作为关键字；或者，利用模式要素分析方法只提取独立的字作为关键字。在图2的例中，关键字提取部分104获得了一组关键字：2002、举办、FIFA、世界杯、冠军、国家、哪一个。

然后，关键字类型指定部分106对于每一个关键字指定关键字类型。指定关键字类型的方法没有特殊的限制，例如可以使用下述的方法：使用描述每个关键字类型的字典，或者使用在文件“在提取专用名词当中在日文和英文之间的比较(Fukumoto等人，日本信息处理协会，工作报告98-NL-126。Pp.107-114，1998)“中表示的专用名词提取技术。在图2的例子中，关键字类型指定部分106把“日期表达方式“指定给关键字“2002“，把“组织名称”指定给关键字“FIFA“，它们分别为对应的关键字的语义属性(在图中简写为“语义属性“)。

这里，语义属性使用例如含义分类来表示，所述含义分类按照每个表达方式的含义分为真实表达方式(至少包括：代词表达方式、数字表达方式、动词概念等效表达方式)和疑问表达方式。

当对于一个关键字指定语义属性的时候，还可能指定如在图2的例子中出现的一个包括在它的语义属性中的细节级别(含义分类)。例如，关键字“2002”是“时间表达方式“类型并且它的细节级别是在“年度级别“。对于日期表达方式，它的细节级别还包括“月级别“，“日级别”、“小时级别”、等。类似地，对于“地名表达方式”，还可以，设置“国家级别”、“地方和城市政府级别”、“市镇级别”、和“地址级别”作为它的细节级别。

这里，图3表示细节级别信息的例子。如图3所示，细节级别信息有一个级别结构。即，确定一个级别结构，以使随着细节级别(数字值)的增加限定的范围越来越小，例如对于日期表达方式依次为“年级别”、“月级别”、“日级别”、“小时级别”，对于地名表达方式依次为“国家级别”、“地方和城市政府级别”、“市镇级别”、“地址级别”。

进而，当对于一个关键字指定了类型的时候，还可以指定关键字的句法属性(在图中简写为“句法属性”)，如图2的例中一起表示的。作为句法属性，例如可以使用一个标准，即一个属性是否是核心要素。例如，关键字“举办”和“冠军”每一个都被指定为“动词概念”型，并且进一步根据图2中询问的句法属性可以确定：“冠军”在询问中是主要动词，“举办”在询问中是次要动词，“主要”和“次要”指定给对应的动词概念，以此作为语义属性。

这里，例如，可以使用下述的模式匹配规则作为判定句法属性的方法，即，作为判定核心要素的方法。这个模式匹配规则是按照字符串模式寻找变动关系以估算核心要素的系统。

(1)△△的○○是+<疑问词>→○○，是主要动词概念

(2)△△的○○是+<普通名词>是+<疑问词>→○○，是主要动词概念

在图2中的询问的情况下，“冠军”与模式2匹配，因此被指定为主要动词概念类型，而“举办”既不匹配模式1又不匹配模式2，因此可以被指定为次要动词概念的类型。

在指定句法属性时，不仅可以使用上述的模式匹配规则的方法，而且可以使用其后在询问中作为主要动词出现的动词概念的方法，或者分析询问的句法并选择核心动词的方法，等等。

作为例子，本实施例已经说明了首先从询问中提取关键字、然后对于每个关键字指定一个类型的情况，但是本发明不局限于此。例如，还可以使用如下的方法：在提取关键字之前将语义属性和句法属性嵌入询问，然后再提取关键字。在这种情况下，例如，在使用上述的专用名词提取技术时，对于输入的询问(见图2)，有可能获得一个分析结果，例如“<问题_地点_细节＝国家>哪一个</问题><名词>国家</名词>是<动词类型＝主要>冠军</动词><名词>属于<组织>FIFA</组织><事件>世界杯</事件><动词类型＝次要>举办</动词>在<日期细节＝年>2002</日期>？“，并且由此提取关键字，并且使用这个分析结果指定类型。

然后，问题类型判定部分108判定问题类型。这里，对于问题类型的判定指的是对于输入的询问期望接收哪种类型的回答。例如，在图2所示的询问中，有一个疑问表达方式“哪一个？”，通过关键字类型指定部分106的处理，有可能知道疑问表达方式“哪一个国家”就是有关地点的问题。因此，使用这个疑问表达方式，有可能确定这个问题整体上来说就是有关地点的一个问题。

如图2的例子所示，还可以对这个问题类型的判定处理过程进行设置，使其还能判定与这个问题类型同时需要的细节级别。例如，在如图2所示的询问中，对于“哪一个国家“的疑问表达方式，判定细节级别为“级别1(图家级别)“，并且因此判定询问从整体上来说，就是“需要细节级别为国家级别的有关地点的问题“。

用这种方式，一旦对于每个关键字指定了类型并且判定了问题类型，关键字分类部分110就利用存储在关键字分类规则存储部分112中的关键字分类规则将这些关键字分为主要型关键字和次要型关键字。图4说明关键字分类规则的例子。

在这个实施例中的关键字分类部分110参照关键字分类规则和对于每个关键字指定的类型判定是否将每个关键字分为主要型关键字和次要型关键字。更加具体地说，关键字分类部分110按照问题类型判定部分108的判定结果的问题类型参考关键字分类规则(见图4)，并且指定要加到当前问题类型情况(例如，在图2的例子中有关地点的问题)的当前规则组。然后，问题类型判定部分108按照分配给关键字的类型(语义属性或句法属性)确定每个关键字是主要型关键字还是次要型关键字，并且进行分类。例如，在图2和图3的例子中，判定询问类型是“有关地点的问题”，因此参照在这种情况下的规则，事件名称类型的关键字“世界杯”、日期表达方式类型的关键字“2002”、组织名称类型的关键字“FIFA”、其动词概念的句法属性是主要要素的关键字“冠军”都被分类为主要型关键字，而其动词概念的句法属性是次要要素的关键字“举办”和作为普通名词概念的关键字“国家”都被分类为次要型关键字。

这里，本实施例已经说明了当分类关键字时参考询问的类型并且例如根据问题类型施加不同的规则，但本实施例不局限于此，本实施例还可以修改，以使相同的规则可以应用到所有的询问。在这种情况下，图1中的问题类型判定部分108可以省略。

此外，本实施例已经说明了分类关键字的情况，作为例子其中使用了关键字的语义属性和句法属性，但本实施例不局限于此，可以修改本实施例，使得只通过使用关键字的语义属性或句法属性或最多包括关键字的语义属性的细节级别就能将关键字分为主要型关键字和次要型关键字。为实现这一点，或只通过关键字的语义属性或句法属性描述关键字分类规则，或者还要描述关键字语义属性的细节级别。

进而，在分类关键字时，本实施例只着重于语义属性和句法属性，但本实施例不局限于此，还可以对本实施例进行修改，使其在分类关键字时还要考虑到关键字的统计属性。这里，关键字的“限制特性”可以用作关键字的统计属性。在信息检索领域通常使用IDF(反向文件频率)表示关键字的限制特性。假定出现关键字i的文件数为dfi，文件集的总数是N。对于反向文件频率IDF，log(N/dfi)通常用作一个标准。为了简化说明，假定使用N/dfi，并且这里使用这个值作为限制特性。

例如，对于总数达到10000的文件集，假定在4000个文件中发现“国家”这个关键字，并且在100个文件中发现“世界杯”这个关键字。这时，假定关键字的限制特性是r(W)，则

r(国家)＝10000/4000＝2.5

r(世界杯)＝10000/100＝100

因此，如果例如将阈值设置为30，并且将具有限制特性高于阈值的关键字分类为主要型关键字，则将关键字“世界杯”分类为主要型关键字，并且将关键字“国家”分类为次要型关键字。

这里，按照一个阈值分类关键字的方法是作为一个例子给出的，但本实施例不局限于此，还可以对于本实施例进行修改，使之可以使用统计属性按照不同的方法进行分类。

以此方式，有可能将提取的关键字分类为主要型关键字和次要型关键字。

下面描述文件检索部分114的操作，即，使用分类为主要型关键字和次要型关键字的关键字执行搜索的操作。下面一个接一个地介绍几种搜索方法。

使用图5描述第一搜索方法。图5是示出在文件检索部分114使用主/次要型关键字的搜索处理过程的例子的一个流程图。在文件检索部分114接收的关键字组A、B、C、D、E当中，假定关键字A、B、C被分类为主要型关键字，关键字D、E被分类为次要型关键字。

这个第一搜索方法使用主要型关键字作为主要用于限制搜索的文件数目的关键字、并且使用主要型关键字和次要型关键字作为排序的关键字以比较询问和单个文件之间的相似性并按照相似性顺序对检索的文件排序，由此来实现文件搜索处理。

更加具体地说，在步骤S1000，首先从存储在文件存储部分116中的文件集中选择包括所有的主要型关键字A、B、C的文件。

然后，在步骤S1100，根据在步骤S1000中选择的每个文件中出现关键字(所有的关键字A、B、C、D、E)的频率，计算相似性的程度。作为计算相似性程度的方法，有可能使用tf*idf加权，这个方法是根据例如一个不太精确的匹配模型在检索技术中通常使用的方法。根据f*idf的加权在“现代信息检索导论“(Saltion，G.andMcGill，M.J.，McGraw-Hill Publishing Company，1983)中有详细描述。

然后，在步骤S1200，按照在步骤S1100中计算的相似性的顺序即相似性的递减顺序对检索到的文件排序。

于是，按照第一搜索方法，搜索仅限于包含主要型关键字的文件，而相似性比较是在还要考虑到次要型关键字的情况下进行的，以此方式可以获得经过准确检索的文件。

然后，利用图6和图7说明第二搜索方法。图6是示出在文件检索部分114利用主/次要型关键字的文件搜索处理过程的另一个例子的流程图，图7示意地说明了按照图6的流程图执行的文件搜索处理过程的结果。这里，在文件检索部分114接收的关键字组A、B、C、D、E当中，假定关键字A、B、C被分类为主要型关键字，而关键字D、E被分类为次要型关键字。

当在询问和单个文件之间比较相似性的时候，这个第二搜索方法根据在每个文件中的主要型关键字的数目将检索的文件分类为不同的层，并且进一步根据在每个文件中次要型关键字的数目将已经分类在对应的层的文件再分类成不同的层，并且比较在对应的层中的文件的相似性。

更加具体地说，在步骤S2000，首先从存储在文件检索部分116中的文件中搜索含关键字A、B、C、D、E中的任何一个的文件。

然后，在步骤S2100，计算在步骤S2000中选择的每个文件中出现的关键字A、B、C的类型数，并按照出现的类型数将检索到的文件分类为不同的层。即，按照在对应的文件中的主要型关键字(A、B、C)数将检索到的文件分类为各个层。更加具体地说，例如如图7所示，包括所有的关键字A、B、C的文件(关键字数＝3)分类在最上一层，包括A和B、A和C、B和C中的任何一个的文件，即包括两个主要型关键字的文件(关键字数＝2)，分类在第二层，包括A、B、C中的任何一个的文件(关键字数＝1)分类在第三层，不包含任何一个关键字A、B、C的文件(关键字数＝0)分类在最下一层。

然后，在步骤S2200，按照已经出现的次要型关键字D、E的数目将在步骤S2100获得的对应的层中的文件进一步分类成不同的层。即，按照已经出现的次要型关键字D、E的数目将在步骤S2100获得的对应的层中的内容进一步分类成不同的层。更加具体地说，如图7所示，对于使用主型关键字分类的每一层，包括两个关键字D和E的文件(已经出现的类型数＝2)分类在第一层，对于包括D或E中的任何一个的文件(已经出现的类型数＝1)分类在第二层，不包含任何一个关键字D和E的文件(已经出现的类型数＝0)分类在第三层(但不包括使用主要型关键字的底层)。

然后，在步骤S2300，根据关键字A、B、C、D、E出现的频率，对于在步骤S2000中选择的所有文件计算相似性程度。

然后，在步骤S2400，获得按照相似性顺序排列的一个检索文件列表，这个检索文件列表是从对于步骤S2200得到的对应的层在步骤S2300的计算得到的，即，通过按照相似性递减顺序对对应的层中的文件排序得到的。这个检索结果的例子如图7所示。

于是，按照第二搜索方法，按照层进行排序，因此，与检索范围只包括所有的主要型关键字的文件的方法相比，有可能减小检索的文件的错误排除的几率。进而，通过把含有较多的主要型关键字的文件排序在较高处，有可能获得准确的检索结果。

这里，本实施例已经描述了先使用主要型关键字将文件分类为不同层、然后再使用次要型关键字将文件分类为不同层的情况，但本实施例不局限于此，还可以只使用主要型关键字将文件分成层，而省去使用次要型关键字将文件进一步地分成层的操作。

然后，利用图8和图9说明第三搜索方法。图8是示出在文件检索部分114利用主/次要型关键字的文件搜索处理过程的另一个例子的流程图，图9示意地说明按照图8的流程图执行的文件搜索处理过程的结果。这里，在文件检索部分114接收的关键字组A、B、C、D、E当中，假定关键字A、B、C被分类为主要型关键字，而关键字D、E被分类为次要型关键字。此外，对于关键字A、B、C、D、E都指定了数字值，用于表示关键字的限制特性。使用上述的IDF作为关键字的限制特性。这里，假定关键字A、B、C、D、E的限制特性分别是50、10、20、30、和10。

当根据已经出现的主/次要型关键字的类型数把文件分类成层的时候，这个第三搜索方法不仅根据已经出现的关键字类型数而且还要根据它们的限制特性对文件进行分层。

更加具体地说，在步骤S3000，首先从存储在文件检索部分116中的文件中选择含关键字A、B、C、D、E中的任何一个的文件。

然后，在步骤S3100，当按照出现的关键字A、B、C的类型数将在步骤S3000中选择的文件分成层的时候，如果已经出现的类型数相同，则文件分成层的方式是：具有较大的关键字限制特性总和的组合排在较高的层。即，在将所选的文件分成层的过程中，使用了已经出现的主要型关键字(A、B、C)的类型数和对应的主要型关键字的限制特性。更加具体地说，如图9所示，假定包括所有的关键字A、B、C的文件(已经出现的类型数＝3)分类在最上一层，则包括A和B、A和C、B和C中的任何一个的文件，即包括两个主要型关键字的文件(已经出现的类型数＝2)，按照关键字限制特性的总和的递减顺序进行分类，使得只包括A和C(限制特性：50+20＝70)的文件分类在第二层，只包括A和B(限制特性：50+10＝60)的文件分类在第三层，并且只包括B和C(限制特性：20+10＝30)的文件分类在第四层。然后，以限制特性的递减顺序对只包括A、B、C中的任何一个的文件(已经出现的类型数＝1)分类，以使只包括A的文件分类为第五层，只包括C的文件分类为第六层，只包括B的文件分类为第七层。最后，不包含任何一个关键字A、B、C的文件(已经出现的类型数＝0)分类在最下一层。

然后，在步骤S3200，将每一层再进一步分层，以使在步骤S3100获得的具有较大数目的已经出现的次要型关键字(D、E)的、并且同时具有较大关键字限制特性总和的组合的文件被分类到较高的层。即，按照已经出现的次要型关键字D、E的数目以及它们的限制特性将在步骤S3100获得的每一层的内容进一步分层。更加具体地说，例如如图9所示，对于由次要型关键字分类的每一层，包括所有的关键字D和E的文件(已经出现的类型数＝2)分类在第一层，包括D或E中的任何一个的文件(已经出现的类型数＝1)分类在第二层，不包含任何一个关键字D、E的文件(已经出现的类型数＝0)分类在第三层(但不包括使用主要型关键字的底层)。

然后，在步骤S3300，根据关键字A、B、C、D、E出现的频率，对于在步骤S3000中选择的文件计算其相似性程度。

然后，在步骤S3400，按照相似性顺序对在步骤S3200得到的对应层中的文件排序，相似性是作为在步骤S3300的计算结果获得的，即，通过按照相似性递减顺序对对应的层中的文件排序得到一个检索文件列表。这个检索结果的例子如图9所示。

于是，第三搜索方法实现了按照层排序，其中还考虑到关键字的限制特性，因此，与搜索范围只包括所有主要型关键字的文件的方法相比，有可能减小检索的文件被错误排除的几率。进而，通过将拥有较多的主要型关键字的文件排序在较高处，并且进一步根据具有较高限制特性的关键字的存在对具有相同数目关键字类型的文件分层，第三搜索方法有可能获得准确程度更高的检索结果。

这样，本实施例根据属性将从询问提取的关键字分类为主要型关键字和次要型关键字，并且根据这个分类结果实现了文件搜索处理，并且能够按照关键字类型灵活地改变关键字的处理，在考虑到询问类型的情况下执行文件搜索，并且以高准确程度获得用户请求的信息(期望的文件)。

本实施例实现了以文件为单位的检索，但本实施例不局限于此，还可以对本实施例进行修改，以配置比文件还要小的检索目标，例如段落。

(实施例2)

图10说明在按照本发明的实施例2的文件检索系统中直到关键字分类的过程实例。在本实施例中的文件检索系统具有与如图1所示的实施例1对应的文件检索系统100相同的基本结构，因此省去对它的说明和解释。

本实施例的一个特征是关键字的分类不仅被分类成主/次要型关键字，而且还按照文献目录信息的搜索条件来分类。图11说明在本实施例中使用的关键字分类规则的例子。如果使用如图11所示的关键字分类规则，例如有关地点的问题，可将日期表达方式分类为文献目录信息的搜索条件。关键字提取的内容和关键字类型的指定与实施例1相同，因此省去了对它们的说明。

下面使用附图12中的流程图描述使用分类为主/次要型关键字的关键字和文献目录信息的搜索条件进行的搜索。这里，在文件检索部分接收的关键字组A、B、C、D、E、F当中，假定关键字A、B、C被分类为主要型关键字，而关键字D、E被分类为次要型关键字，关键字F被分类为文献目录信息的搜索条件。

首先，在步骤S4000，使用文献目录信息的搜索条件使文件集变小。即，只有与文献目录信息的搜索条件匹配的文件才被认为是检索目标。例如，如果文献目录信息的搜索条件是“2002年“，则只有在2002年产生的文件才被设置为搜索目标。

然后，在步骤S4100，从在步骤S4000中设定的搜索范围中的文件选择包括所有的关键字A、B、C的文件。

然后，在步骤S4200，根据在步骤S4100选择的文件中关键字(所有的关键字A、B、C、D、E)出现的频率，计算相似性程度。例如可以使用以上所述的tf*idf的加权作为计算相似性程度的方法。

然后，在步骤S4300，按照在步骤S4200中作为计算结果获得的相似性顺序，即相似性递减顺序，对检索的文件排序。

因此，本实施例不仅将关键字分类为主/次要型关键字，而且按文献目录信息的搜索条件分类。即，本实施例认为询问的一部分是文献目录信息的搜索条件，因此可以获得反映用户搜索意向的检索结果。

本实施例已经描述了将文献目录信息的搜索条件与如图5所示的实施例1中的第一搜索方法组合的情况，但本实施例不局限于此，还可能将文献目录信息的搜索条件与例如如图6所示的实施例1中的第二搜索方法(按层排序)组合，还可能与如图8所示的实施例1中的第三搜索方法(按层和关键字限制特性排序)组合。

进而，本实施例实现了以文件为单位的检索，但本实施例不局限于此，还可以对本实施例进行修改，以构成比文件还要小的检索目标，例如在实施例1的情况下的段落。

(实施例3)

图13是示出在按照本发明的实施例3的文件检索系统的结构的方框图。本实施例的文件检索系统200具有与如图1所示的实施例1对应的文件检索系统100相同的基本结构，并且指定相同的参考数字表示相同的元件，这里省去对它的说明。

本实施例的一个特征是还包括一个语义属性指定部分202，对于存储在文件存储部分116中的文件集指定语义属性。语义属性指定部分202的处理结果，即，文件集(具有语义属性的文件集)存储在具有语义属性存储部分204的文件集中。在这种情况下，文件检索部分114a搜索存储在具有语义属性存储部分204的文件集中的具有语义属性的文件集。

更加具体地说，语义属性指定部分202使用例如上述的专用名词提取技术对存储在文件存储部分116中的原始文件集中的专用名词进行标记。当例如利用专用名词提取技术用语义属性对如图14A所示的文件集进行标记时，获得如图14B所示的具有语义属性的文件集。在这个例子中，<地点细节＝国家>指示一个是“地点“而细节级别是“国家级“的语义属性被作为标记附加到指示国家名称的“巴西”、“德国”和“美国”的词上。

这里，当附加语义属性时，还可能使它在文件中的表达方式规范化。图14C示出具有语义属性的规范化的文件集的一个例子。具有语义属性的这个文件集是对于图14B中的具有语义属性的文件集的日期表达方式进行规范化的一个例子。可以使用例如作为文件的文献目录信息附加的日期实现日期表达方式的规范化。例如，在图14A-14C的例子中，文件的日期是“2002/6/30”，可以判定：在文件中的表达方式“30”表示“2002年6月30日”，并且因此，<日期细节级别＝日期值＝20020630>指示语义属性就是“日期”，细节级别就是“日期级别”，它们的规范化值是作为标记附加到这个表达方式上的6月30日，2002。类似地，通过单独提供时代名称和公元时代年之间的对应关系的表格，还可以将<日期细节级别＝日期值＝20020630>作为一个标记附加到表达方式“Heisei时代14年6月30日”上。

上述的例子说明日期表达方式规范化的情况，然而，还可能规范化指示其它语义属性的标记。例如，当文件中的描述明显是有关“神奈川县”的时候(例如地方版报纸文章)，则可以附加<地点细节级别＝城市名＝Atsugi-shi，神奈川>Atsugi-shi</地点>，以此作为指示对应于表达方式Atsugi-shi的语义属性的标记。类似的技术还可以应用到人名的表达方式(将只用姓的表达方式规范化为全名)和组织名称的表达方式(将缩写规范化为正式名)等上。这样一种规范化(补充)可以利用描述不同的字的标号、同义词和改写规则等之间的关系的外部字典来实施。

然后，使用附图15中的流程图描述执行对于具有如上所述附加的语义属性的文件集进行搜索的方法。这里，在文件检索部分114a接收的关键字组A、B、C、D、E、F当中，假定关键字A、B、C分类为主要型关键字，而关键字D、E分类为次要型关键字，问题类型判定部分108判定：检索问题类型是“关于地点的问题”。

首先，在步骤S5000，从存储在具有语义属性指定部分204的文件集中的具有语义属性的文件集中选择包括所有主要型关键字A、B、C的文件。

然后，在步骤S5100，从在步骤S5000中选择的文件中提取只附加具有有关地点的语义属性的文件。这时，当例如进行如图14A-14C所示的作为语义属性的标记的时候，只提取包括标记<地点>的文件。

这时，当作为由问题类型判定部分108判定的结果的搜索问题类型最高包括细节级别“级别1(国家级别)“，则必须只提取包括标记<地点细节级别＝国家>的文件。进而，还可以采用下面的提取文件的结构：使用如图3所示的级别细节的分层结构提取级别细节高于某个特定级别的文件。例如，当指定了细节级别1(国家级别)，还可能提取具有细节级别2(地方和城市政府级别)以及细节级别3(市镇级别)的语义属性的文件。

然后，在步骤S5200，根据在步骤S5100选择的对应的文件中关键字(所有的关键字A、B、C、D、E)出现的频率，计算相似性程度。例如可以使用以上所述的tf*idf的加权作为计算相似性程度的方法。

然后，在步骤S5300，作为在步骤S5200中获得的计算结果，检索的文件被按照相似性顺序，即相似性递减顺序排序。

因此，本实施例将语义属性分配给文件集，并且利用文件中的搜索文件类型和语义属性来进行搜索，因此也能够在比较相似性程度时考虑到次要型关键字，同时还将搜索范围限制在只包括主要型关键字并且具有与搜索问题类型匹配的语义属性的文件，因而获得准确的检索结果。

本实施例已经描述了使用文件中的搜索问题类型和语义属性与如图5所示的实施例1中的第一搜索方法组合的情况，但本实施例不局限于此，还可能将搜索方法与例如如图6所示的实施例1中的第二搜索方法(按层排序)组合，或者与如图8所示的实施例1中的第三搜索方法(按层包括关键字限制特性排序)组合。

进而，本实施例实现了以文件为单位的搜索，但本实施例不局限于此，还可以对本实施例进行修改，以构成比文件还要小的搜索目标，例如在实施例1的情况下的段落。

进而，作为例子，本实施例描述了由语义属性指定部分202预先指定文件集的语义属性的情况，但本实施例不局限于此，还可以对于本实施例进行修改，以便只将语义属性指定给在搜索文件集后获得的文件集。从大量的文件中提取专用名词通常要花费相当多的计算时间，因此，采用这种结构就有可能将语义属性只指定给必要的文件，从而精简了处理过程。

此外，本实施例还可以被修改，以便能够搜索其语义属性值已经规范化为文件集(具有规语义属性的文件集)的文件。在这种情况下，例如当“2002/6/30”被指定为关键字，即使只有表达方式“30”出现在这篇文章里，在图14C的例子中的搜索目标中添加规范化的标记值(<日期细节级别＝日值＝20020630>)允许将这篇文章包括在检索结果中，并因此能够把对要检索的文件的错误排除减小到最小值。

(实施例4)

图16是示出按照本发明的实施例4的问题回答系统的结构的方框图。这里，问题回答系统指的是例如在响应问题“2002年世界杯冠军是哪个国家？”时自己输出一个例如“Brazil(巴西)”答案字符串的系统。

问题回答系统的输出不仅仅局限于答案字符串，还可能输出答案字符串与已经提取出答案的一组文件的组合，例如，有关问题回答技术的评估型专题讨论会的文件：TREC的问题回答思路(文件：E.M.Voorhees，“TREC2 002问题回答思路概述”，第十一届文本检索会议的会议录(TREC2002)，2003)，以及，NTCIR3的问题回答任务(文件：J.Fukumoto，T.Kato，F.Masui，问题回答挑战(QAC-1)，在第三届NTCIR专题计论会上对于问题回答任务的评估，第三届NTCIR专题讨论会的有关信息检索、自动文本归纳、和问题回答的研讨会的会议记录，2003年将要出版)；它们要求：应该输出一组答案字符串以及提取出答案的文件的ID，以此作为参与系统的输出。

如图16所示的问题回答系统300主要包括：询问输入部分302，用于接收来自用户的询问输入；问题分析部分304，用于分析输入的询问问题；文件检索部分308，根据对询问的分析结果搜索文件集；答案产生部分312，用于根据检索到的文件产生答案；和答案输出部分314，用于输出答案。通过答案输出部分314向用户显示该答案。在文件存储部分306中预先存储搜索目标文件，在检索文件存储部分310存储检索到的文件。问题分析部分304还包括：关键字提取部分320、关键字类型指定部分322、问题类型判定部分324。再有，答案产生部分312包括语义属性指定部分326、候选答案选择部分328、和答案排序部分330。

问题回答系统300的硬件结构是任意的，并且不限于特定的结构。例如，问题回答系统300可用配有CPU和存储设备(ROM、RAM、硬盘、以及其它各种存储介质)的计算机实施。当用计算机实施问题回答系统300的时候，当CPU执行描述这个问题回答系统300的操作的时候，问题回答系统300要执行预定的操作。

下面利用如图17所示的流程图说明具有上述结构的问题回答系统300的操作。

首先，在步骤S6000，询问输入部分302接收从用户输入的询问，并将其传送到问题分析部分304。

然后，在步骤S6100，在问题分析部分304中的关键字提取部分320从输入的询问提取关键字。

然后，在步骤S6200，在问题分析部分304中的关键字类型指定部分322判定在步骤S6100提取的每个关键字的类型并指定一个关键字类型。这里，至少要指定一个具有作为关键字类型的细节级别的语义属性。

然后，在步骤S6300，在问题分析部分304中的问题类型判定部分324判定搜索问题类型。

使用与实施例1中相同的方法(见实施例1中的关键字提取部分104、关键字类型指定部分106、问题类型判定部分108的分别操作)可以执行在步骤S6100(由关键字提取部分320提取关键字)、在步骤S6200(由关键字类型指定部分322指定关键字类型)、和在步骤S6300(由问题类型判定部分324确判定搜索问题类型)中的过程。然而，在本实施例中，假定通过搜索问题类型判定已判定了询问的类型和它的细节级别。

然后，在步骤S6400，文件检索部分308按照在步骤S6100获得的关键字搜索存储在文件存储部分306中的文件集，并将检索到的文件存储在检索文件存储部分310中。虽然，对于文件存储部分308的搜索方法没有特殊的限制，但这个实施例将说明一个文件检索系统，作为例子，这个文件检索系统将要输出按照关键字相似性排序的检索结果。

然后，在步骤S6500，在答案产生部分312中的语义属性指定部分326对于在步骤S6400中获得的每个检索到的文件中的关键字都指定具有一个细节级别的语义属性。作为这里使用的系统，可以使用在实施例3中描述的专用名词提取技术等。

当对于检索到的文件指定语义属性的时候，还可以对本实施例进行修改，以使具有不确定性的标记可用作表示语义属性的标记。例如，表达方式“Matsuyama”可以用作人名或公司名，取决于上下文。当手头存在指示人名例如“经理Matsuyama”的表达方式时(在这个例子中是“经理”)，则可以唯一地确定语义属性，但经常发生的情况却是手头没有这样的表达方式，在这种情况下不可能唯一确定语义属性。因此，当语义属性不能唯一确定的时候，在保持不确定性的同时添加语义属性标记，例如

<人__或__组织>Matsuyama

</人__或__组织>

进而，当将语义属性指定给检索到的文件的时候，还可能给语义属性增加一个值，用于规范化文件中的表达方式。在这种情况下，可以使用实施例3中描述的规范化系统(见图14A-14C)。

然后，在步骤S6600，在答案产生部分312中的候选答案选择部分328在考虑到在步骤S6500获得的检索到的具有语义属性的文件的询问的类型和细节级别的情况下选择候选答案。例如，当在步骤S6300得到的问题类型是有关地点的问题，并且细节级别被判定为第一级别(国家级别)，判定其语义属性标记为<地点细节级别＝国家>的检索到的文件的表达方式是一个候选答案。类似地，当问题类型是有关地点的问题，并且细节级别被判定为第一级别(国家级别)，有可能判定其细节级别高于这个级别(如市镇级别)的语义属性为候选答案。

然后，在步骤S6700，在答案产生部分312中的答案排序部分330对于在步骤S6600中获得的对应的候选答案指定加权，并且按照加权下降顺序对答案队列排序。

这里，可以通过下述的表达式(1)计算候选答案A的加权w(A)：

w(A)＝∑(1/(|p(A)-p(Ki)|))+d(A)+r(D)... (表达式1)

这里，p(A)代表文件中候选答案A出现的位置，p(Ki)代表文件中关键字Ki出现的位置。上述的表达式1的第1项是所有关键字出现的位置和候选答案A出现的位置之间的差的绝对值的倒数的总和，这是使接近更多关键字的候选答案能够得到较大加权的一项。进而，d(A)是通过比较候选答案A的细节级别和询问的细节级别获得的一项。例如，给出如下的定义：当候选答案A的细节级别完全匹配询问的细节级别的时候，d(A)＝10；当候选答案A的细节级别高于询问的细节级别的时候，d(A)＝5：当候选答案A的细节级别低于询问的细节级别的时候，d(A)＝1。进而，r(D)是包括候选答案A在内的文件检索结果中排序序列的倒数的一个系数。即，当D是排序第一的文件时，r(D)＝1；而排在第10时，r(D)＝0.1。这将允许包括候选答案在内的文件的关键字相似性程度反映在候选答案的加权中。当采用没有文件排序功能的检索系统作为文件检索部分308时，上述的表达式1中的第3项可以省略。

候选答案加权系统不局限于上述的(表达式1)，还可以在除上述的(表达式1)以外的各种系统中实施。

然后，在步骤S6800，答案输出部分314根据在步骤S6700得到的答案排序顺序输出一个答案。这个答案的输出是通过例如从排序的答案的系统中提取预定数目的个例(如最上边的5个个例)并显示它们获得的。

于是，本实施例对从询问提取的关键字指定具有细节级别的语义属性，判定询问的类型，还要对检索到的文件中关键字指定具有细节级别的语义属性，并且使用这个细节级别信息选择候选答案，由此可以按照询问适当地设定答案的细节级别，允许考虑到用户期望的答案的细节级别来进行答案提取，并且准确地获得用户请求的信息(期望的答案)。即，有可能考虑到输入的询问的类型和细节级别来构成问题回答系统。

在步骤S6500，如果将系统构成为附加了具有不确定性的标记，则在步骤S6600中还要提取作为候选答案的附加有不确定性标记的表达方式。例如，当问题类型是“关于组织的问题”时，被标记为<人__或__组织>Matsuyama</人__或__组织>的表达方式也被认为是候选答案。在这种情况下，还可以修改本实施例，以便考虑如下事实：在步骤S6700中的候选答案加权计算过程中(例如，通过减掉某些分)，不能唯一地确定语义属性。

进而，在步骤S6500，当将通过规范化文件中的表达方式获得的值添加到一个语义属性上时，可以修改步骤S6600，以输出一个规范化值而不是文件中的表达方式作为候选答案，。在这种情况下，如果例如有一个候选答案<组织细节级别＝公司值＝Matsuyama电子产业>Matsuyama</组织>，则可以输出“Matsuyama电子产业“来代替“Matsuyama”。

进而，在步骤S6500，当将通过规范化文件中的表达方式获得的值被添加到一个语义属性上时，有可能通过使用规范化值检查身份来把在文件中按不同方式描述的目标视为同一目标。例如，即使表示法是不同的，如

<组织细节级别＝公司值＝Matsuyama电子产业>Matsuyam</组织>

<组织细节级别＝公司值＝Matsuyama电子产业>Matsuyama电子</组织>

<组织细节级别＝公司值＝Matsuyama电子产业>Matsuyama电子产业有限公司</组织>

这些都可被认为是相同的组织。利用这个优点，有可能按照询问要求的细节级别从指示相同目标的不同表达方式中选择并输出适当的表示法。

进而，本实施例提供了对检索到的文件指定语义属性的语义属性指定部分326，但本实施例不局限于此，还可以修改本实施例，使其可以对整个文件集预先指定语义属性。

(实施例5)

图18是示出按照本发明的实施例5的问题回答系统的结构方框图。这个问题回答系统400具有与如图16所示的实施例4对应的问题回答系统300相同的基本结构，相同的标号指定相同的元部件，这里省去了对它们的说明。

本实施例的一个特征是答案产生部分312还包括一个答案细节级别判定部分402。当问题类型判定部分324未能明确地判定询问所请求的细节级别信息的时候，答案细节级别确定部分402具有估算一个适当的细节级别作为答案的功能。

估算答案的细节级别的步骤如以下所述。首先，语义属性指定部分326对检索到的文件指定包括细节级别在内的语义属性，并将结果传送到答案细节级别判定部分402。答案细节级别判定部分402检查已接收到的具有语义属性的检索文件，检查在包括关键字在内的文件中的哪一级别描述与搜索问题类型相匹配的语义属性的细节级别，并且估算作为答案的细节级别出现关键字次数异常地多的那些细节级别。

图19说明了这种答案细节级别估算方法的概览。在图19的例子中，响应于询问“2001年奥林匹克运动会在哪里举行？”，判定问题类型是“关于地点的问题”，但从询问中不能判定细节级别。然而，由于在这种情况下在检索到的文件中(例如)出现了1例“日本”(细节级别1)、和3例东京(细节级别2)，因对于这个询问的回答的细节级别被估计为级别2(地方和城市政府级别)，因为在这个级别关键字出现数目最大。

在这个实施例中，答案细节级别判定部分402检查检索到的文件的语义属性的细节级别，以估算答案的细节级别，但本实施例不局限于此，还可以对本实施例进行修改，以便将具有细节级别的语义属性指定给整个文件集，准备通过对关键字和问题类型的组合预先计算答案的细节级别出现的频率所获得的外部数据，当处理问题和答案时参照这个外部数据，并由此判定答案的细节级别。

下面使用图20说明当不存在与检索到的文件的搜索问题类型匹配的语义属性的细节级别分布偏差时的答案细节级别判定方法。

在图20的例中，响应于询问“○○是在什么时候销售的？”，判定这个问题类型是有关日期的问题，但从询问中不能判定细节级别。此外，这些例子在检索到的文件中从级别1到级别4是均匀分布的。在这种情况下，有可能根据检索结果的每个文件(例如)的创建日期和实际发生“销售”事件的日期之间的差以及文件中表达方式的细节级别、粗略地确定在时间差别和细节级别之间的相互关系。例如，在这个图20的例子中，从产生这个文件的日期到发生事件的日期之间的差为一年以上的相互关系可以看出，例中的细节级别为级别1(年级别)，假定输入的询问的日期例如是2003年1月，则可以估算这个询问的回答的细节级别为级别1。

于是，按照本实施例，即使从询问不可能判定答案的细节级别，也可能估算答案的适当的细节级别。

还可以修改本实施例，使其能在向用户显示由答案细节级别判定部分402估算的作为“推荐的细节级别”的答案细节级别后，输入用户请求的细节级别，并且使用用户输入的细节级别作为答案的细节级别继续进行随后的处理。

(实施例6)

图21是示出按照本发明的实施例6的问题回答系统的结构的方框图。这个问题回答系统500具有与如图18所示的实施例5对应的问题回答系统400相同的基本结构，并且相同的元部件指定相同的标号，这里省去了对它们的描述。

本实施例的一个特征是问题分析部分304进一步包括一个关键字分类部分502。关键字分类部分502具有参照存储在关键字分类规则存储部分504中的关键字分类规则将关键字分类为主要型关键字和次要型关键字的功能。即，如图21所示的从询问输入部分302、关键字提取部分320、关键字类型指定部分322、问题类型判定部分324、和关键字分类部分502、一直到文件检索部分308的结构都与如图1所示的实施例1对应的文件检索系统100的结构相同，并且能够完成相同的搜索处理。因此，本实施例的问题回答系统500通过它的文件搜索功能能够实现在实施例1到实施例3中说明的搜索功能，以较高的准确性输出对询问的回答。

当用计算机实现问题回答系统500时，关键字分类规则存储部分504可以是在计算机内部的存储器件，或者是在计算机外部的存储器件(如在网络上的存储器)。

如上所述，本发明能以较高的准确性获得用户请求的信息。

本发明不限于上述实施例，在不脱离本发明的范围的情况下各种变化和改进都是可以的。

本申请基于2002年8月19日提交的日本专利申请No.2002-238031和2003年6月30日提交的日本专利申请No.2003-18911138031，在这里参照引用了它们的全文。

Claims

1.一种文件检索系统，用于比较询问和一个文件集之间的相似性程度，并输出根据相似性顺序排序的检索结果，所述文件检索系统包括：

提取部分，用于从询问中提取关键字；

分类部分，用于根据所述关键字的属性对所述提取部分提取的关键字分类，使之分为主要型和次要型，主要型涉及由询问指示的中心议题，次要型涉及补充信息；和，

检索部分，用于实现文件搜索处理，根据所述分类部分的分类结果获得按照相似性顺序排序的检索结果。

2.根据权利要求1所述的文件检索系统，其中，所述的属性是语义属性。

3.根据权利要求1所述的文件检索系统，其中，所述的属性是句法属性。

4.根据权利要求1所述的文件检索系统，其中，所述的属性是统计属性。

5.根据权利要求1所述的文件检索系统，其中，所述的属性是语义属性、句法属性、和统计属性中至少两种类型属性的组合。

6.根据权利要求2所述的文件检索系统，其中，对于所述语义属性使用含义分类，借此，按照所述对应表达方式的含义分类为真实表达方式和疑问表达方式。

7.根据权利要求6所述的文件检索系统，其中所述含义分类具有分级的细节级别。

8.根据权利要求3所述的文件检索系统，其中使用一个标准。该标准为：所述的句法属性是否是句法核心要素。

9.根据权利要求1所述的文件检索系统，还包括存储部分，用于存储把由所述的分类部分使用的关键字分类为主要型和次要型的规则，其中所述规则考虑到询问的类型。

10.根据权利要求1所述的文件检索系统，还包括存储部分，用于存储把由所述分类部分使用的关键字分类为主要型和次要型的规则，其中所述规则不考虑询问的类型。

11.根据权利要求1所述的文件检索系统，其中，所述的检索部分实现文件搜索处理过程，在此过程中使用属于主要型的关键字作为主要用于限制一组要被检索的文件的关键字，并且使用属于主要型的关键字和属于次要型的关键字作为排序关键字，以比较询问和文件集之间的相似性程度，并且根据相似性程度对检索结果中的检索到的文件排序。

12.根据权利要求1所述的文件检索系统，其中，当在询问和文件集之间比较相似性程度的时候，所述检索部分根据属于已经出现的主要型的关键字类型数将检索结果的文件分成层，并且在获得的所述对应的层内比较相似性程度。

13.根据权利要求1所述的文件检索系统，其中，当在询问和文件集中的各个文件之间比较相似性程度的时候，所述检索部分根据在各个文件中的主要型关键字数将检索结果的文件分成层，并且根据在各个文件中的次要型关键字数进一步将获得的对应的层中的文件分成层，并且在获得的所述对应的层内比较相似性程度。

14.根据权利要求12所述的文件检索系统，其中，当根据属于已经出现的主要型的关键字类型数将检索结果的文件分成层时，所述检索部分不仅根据已经出现的主要型关键字类型数而且根据所述关键字的文件限制特性将文件分成层。

15.根据权利要求13所述的文件检索系统，其中，一种情况是：根据属于已经出现的主要型的关键字类型数将检索结果的文件分成层，另一种情况是：根据属于已经出现的次要型的关键字类型数将获得的所述对应的层中的文件分成层，在这两种情况中的至少一种情况下，所述检索部分不仅根据已经出现的主要型关键字类型数而且根据所述关键字的文件限制特性将文件分成层。

16.根据权利要求1所述的文件检索系统，其中，在由所述提取部分提取的关键字中，具有特定语义属性的关键字用作文件的文献目录信息的搜索条件。

17.根据权利要求1所述的文件检索系统，其中，当具有分级的细节级别的语义属性与它们的对应的关键字相关联时，所述检索部分在比较询问和文件集之间的相似性程度时根据询问中关键字的语义属性的细节级别估算在检索结果的文件中关键字所需的语义属性的细节级别，评估在检索到的文件中的关键字的语义属性的细节级别，并且由此完成对检索结果的文件的过滤。

18.根据权利要求1所述的文件检索系统，其中，当具有分级的细节级别的语义属性与它们的对应的关键字相关联时，所述检索部分在比较询问和文件集之间的相似性程度时根据询问中关键字的语义属性的细节级别估算在检索结果的文件中关键字所需的语义属性的细节级别，评估在检索到的文件中的语义属性的细节级别，并且由此确定检索结果的文件的排序。

19.根据权利要求1所述的文件检索系统，还包括对文件集指定语义属性的指定部分，其中所述指定部分预先为文件集指定指示语义属性的标记。

20.根据权利要求17或18所述的文件检索系统，其中，在询问中的关键字的表达方式和检索结果文件中的关键字的表达方式都要预先规范化。

21.根据权利要求19所述的文件检索系统，其中，在询问中的关键字的表达方式和检索结果文件中的关键字的表达方式都要预先规范化。

22.根据权利要求1所述的文件检索系统，其中，所述检索部分使用部分文件作为搜索单元，完成文件搜索处理过程。

23.一种文件检索方法，用于比较询问和文件集中各个文件之间的相似性程度，并输出按相似性顺序排序的检索结果，所说方法包括如下步骤：

一个提取步骤，用于从询问提取关键字；

一个分类步骤，用于根据所述关键字的属性将在所述提取步骤提取的关键字分类成主要型和次要型，所述主要型涉及由询问指示的中心议题，所述次要型涉及补充信息；和

根据在所述分类步骤的分类结果完成文件搜索处理过程以获得按相似性顺序排序的检索结果的搜索步骤。

24.一种文件搜索程序，用于比较询问和文件集中各个文件之间的相似性程度，并且输出按相似性顺序排序的检索结果，所述程序使计算机执行：

一个提取步骤，用于从询问提取关键字；

25.一种问题回答系统，包括；

问题输入部分，用于输入询问的问题；

问题分析部分，用于分析输入询问的问题；

文件检索部分，用于根据对询问的分析结果搜寻文件集；

答案产生部分，用于根据检索结果的文件产生对询问的回答；和

答案输出部分，用于输出产生的答案，其中所述问题分析部分包括：

关键字提取部分，用于从输入的询问提取关键字；

关键字类型指定部分，用于对提取的关键字指定具有分级的细节级别的语义属性，并以此作为关键字的类型；和

问题类型判定部分，根据指定给提取的关键字的具有细节级别的语义属性判定询问类型；

所述答案产生部分包括：

语义属性指定部分，用于在检索结果的文件中给关键字指定具有细节级别的语义属性；

候选答案选择部分，根据所述问题类型判定部分的判定结果和所述判定结果的细节级别从检索的文件的表达方式中选择候选答案，这些检索的文件的关键字已经指定了具有细节级别的语义属性；

答案排序部分，对于选择的候选答案进行排序；并且

所述答案输出部分根据所述答案排序部分的排序结果输出答案。

26.根据权利要求25所述的问题回答系统，其中，使用含义分类，借此，按照所说表达方式的含义分类为真实表达方式和疑问表达方式。

27.根据权利要求25所述的问题回答系统，其中，当不能唯一地判定在检索到的文件中的关键字的语义属性或细节级别的时候，所述语义属性指定部分在指定具有细节级别的语义属性时留下多种可能性。

28.根据权利要求25所述的问题回答系统，其中，当询问所请求的细节级别不清楚的时候，所述答案产生部分进一步包括答案细节级别判定部分，答案细节级别判定部分判定适当的细节级别作为答案。

29.根据权利要求25所述的问题回答系统，其中当在检索到的文件中存在关键字的细节级别的变化的时候，所述答案产生部分进一步包括答案细节级别判定部分，答案细节级别判定部分判定适当的细节级别作为答案。

30，根据权利要求28或29所述的文件检索系统，其中，所述答案细节级别判定部分向用户显示作为推荐级别的判定结果以及其它的细节级别，并且按照用户的选择判定答案的细节级别。

31，根据权利要求25所述的问题回答系统，其中，当规范化询问中的关键字的表达方式和在文件集内文件中的关键字的表达方式时，所述候选答案选择部分允许与询问中的关键字的表达方式不同的关键字表达方式作为指示相同目标的不同表达方式。

32，根据权利要求31所述的问题回答系统，其中，当在候选答案中有不同的表达方式时，所述答案输出部分输出规范化的表达方式作为答案。

33，根据权要求31所述的问题回答系统，其中当候选答案字符串有不同的表达方式时，所述答案输出部分根据指示相同目标的不同表达方式或规范化表达方式的细节级别从允许作为不同表达方式的表达方式中选择一个合适的候选答案字符串。

34，根据权利要求25所述的问题回答系统，其中所述文件检索部分包括根据权利要求1所述的文件检索系统。

35，一种问题回答方法，包括：

输入部分，用于输入询问的问题；

问题分析部分，用于分析输入询问；

文件检索部分，用于根据对询问的分析结果搜寻文件集；

答案产生部分，用于根据检索的文件产生对询问的回答；和

答案输出部分，用于输出产生的答案，其中所述问题输入部分包括输入询问的问题输入步骤；

所述问题分析部分包括从所述问题输入步骤输入的询问中提取关键字的关键字提取步骤；

所述问题分析部分包括对在所述关键字提取步骤提取的关键字指定具有分级的细节级别的语义属性作为关键字类型的关键字类型指定步骤；

所述问题分析部分包括基于对在所述关键字提取步骤提取的关键字指定的具有细节级别的语义属性的问题类型判定步骤；

所述文件检索部分包括基于在所述关键字类型指定步骤和所述问题类型判定步骤中的询问分析结果搜索文件集的文件搜索步骤；

所述答案产生部分包括对于在所述文件搜索步骤中的检索结果文件中的关键字指定具有细节级别的语义属性的语义属性指定步骤；

所述答案产生部分包括基于在所述问题类型判定步骤中的判定结果和所述判定结果的细节级别、从检索到的文件的表达方式中选择候选答案的候选答案选择步骤。该检索到的文件的关键字已经在所述语义属性指定步骤被指定了具有细节级别的语义属性；

所述答案产生部分包括给在所述候选答案选择步骤中选择的候选答案排序的答案排序步骤；和

所述答案输出部分包括根据在所述答案排序步骤中的排序结果输出答案的答案输出步骤。

36.一种在问题回答系统中的问题回答程序，包括：

问题输入部分，用于输入询问的问题；

问题分析部分，用于分析输入询问的问题；

文件检索部分，用于根据对询问的分析结果搜寻文件集；

答案输出部分，用于输出产生的答案，所述问题回答程序使计算机执行：

问题输入步骤，用于输入询问；

关键字提取步骤，用于从所述问题输入步骤输入的询问中提取关键字；

关键字类型指定步骤，用于对在所述关键字提取步骤提取的关键字指定具有分级的细节级别的语义属性作为关键字类型；

问题类型判定步骤，用于基于对在所述关键字提取步骤提取的关键字指定具有细节级别的语义属性判定询问类型；

文件搜索步骤，用于基于在所述关键字类型指定步骤和所述问题类型判定步骤中的询问分析结果来搜索文件集；

语义属性指定步骤，用于对在所述文件搜索步骤中的检索结果文件中的关键字指定具有细节级别的语义属性；

候选答案选择步骤，用于基于在所述问题类型判定步骤中的判定结果和所述判定结果的细节级别、从检索到的文件的表达方式中选择候选答案。该检索到的文件的关键字已经在所述语义属性指定步骤被指定了具有细节级别的语义属性；

答案排序步骤，用于给在所述候选答案选择步骤中选择的候选答案排序；和

答案输出步骤，用于根据在所述答案排序步骤中的排序结果输出答案。