CN101438285A

CN101438285A - 用于对文档数据库中的文档进行域识别的方法

Info

Publication number: CN101438285A
Application number: CNA2007800162574A
Authority: CN
Inventors: 玛格丽特·M·内珀; 凯文·李·福克斯; 奥菲尔·弗里德
Original assignee: Harris Corp
Current assignee: Harris Corp
Priority date: 2006-05-05
Filing date: 2007-05-03
Publication date: 2009-05-20
Anticipated expiration: 2027-05-03
Also published as: JP5063682B2; KR20090007626A; US20060206483A1; CA2651217A1; JP2009536401A; KR101118454B1; WO2007130544A3; TWI341489B; CN101438285B; EP2024883A2; WO2007130544A2; TW200817998A; EP2024883A4; US7814105B2; IL195064A0

Abstract

本发明揭示一种用于处理文档数据库中的文档的方法，其包括针对每一文档确定词汇字并基于每一词汇字在所有所述文档中的出现率来确定每一词汇字的相应相关性。基于所述词汇字和其相应相关性来确定所述文档之间的相似性。基于所述确定的相似性来确定所述文档的至少一个域识别。

Description

用于对文档数据库中的文档进行域识别的方法

技术领域

本发明涉及信息检索领域，且更明确地说，涉及一种对文档数据库中的文档进行分类的方法。

背景技术

信息检索系统和相关联的方法响应于用户搜索查询而搜索并检索信息。任何给定搜索的结果是可检索大量数据。举例来说，这些数据可包括结构化和未结构化数据、自由文本、标记数据、元数据、音频图像和运动图像(视频)。令问题变复杂的是，信息检索系统每年搜索越来越大量的信息。柏克莱的加州大学(University of California atBerkley)所进行的一项研究得出的结论是，在1999年与2002年之间新信息的产生几乎翻倍。

当信息检索系统响应于用户搜索查询而执行搜索时，用户可能对结果不知所措。举例来说，典型搜索向用户提供数百甚至数千个条目。所检索的信息包括相关信息和无关信息两者。现在用户的负担是区分相关信息和无关信息。

此问题的一种方法是构建分类法。分类法是将广泛主题划分成许多预定义类别的有序分级方案，其中所述类别被划分成子类别。这允许用户通过可用数据导航以查找相关信息，同时限制待搜索的文档。然而，创建分类法并用正确分级识别文档相当耗时。此外，分类法需要不断维护以在新信息变可用时对其进行分类。第6,938,046号美国专利揭示包括多层级编码的分类法，其涉及使用应用于同一较低级代码的多个较高级代码。举例来说，所述多层级编码意味着，编码器仅需要针对一条数据输入一个较低级代码且将自动应用所述较高级的多级代码。

另一方法是使用对结果进行分组的信息检索系统来辅助用户。举例来说，由宾州匹兹堡的维维西摩公司(Vivisimo，Inc.of Pittsburg，PA)制造的维维西摩群集引擎^TM(Vivisimo Clustering Engine^TM)在运行中自动将搜索结果组织成含有意义的分级文件夹。当检索信息时，将其群集成多个类别，所述类别是以智能方式从搜索结果本身所包含的字和短语中选择的。具体来说，维维西摩群集引擎^TM仅使用针对每一结果的返回标题和摘要。文档之间的相似性是基于此原始材料(即，搜索结果的可见文本而非整篇文章)而非其它。接着，基于文本相似性而将所述文档群集在一起。然而，通过人们对用户在检查成群集的文档时希望看见的内容的认识，此原始相似性得到增强。这导致所述类别与其中的内容一样是最新且新鲜的。

颁予福克斯(Fox)等人的第6,574,632号和第6,701,318号美国专利中提供视觉导航搜索方法，所述专利的内容以引用的方式并入本文中。福克斯等人揭示一种信息检索和视觉化系统，其利用多个搜索引擎来基于用户输入查询从文档数据库检索文档。每一搜索引擎产生每一所检索文档的共同数学表示。接着，将所检索的文档组合并排名。将用于每一相应文档的数学表示映射到显示器上。所显示的信息包括来自用户输入查询的关键字的三维显示。所述信息检索和视觉化系统内的基于信息数学表示的三维视觉化能力以直观理解的方式向用户提供相关性反馈/查询精化技术，所述技术可得到较好利用，从而产生较高的检索精确度。

尽管搜索引擎和结果视觉化技术不断发展，但仍需要快速且有效地将文档数据库中的相似文档分组在一起，以便以有意义的方式向用户呈现搜索结果。

发明内容

鉴于前述背景技术，因此本发明的目的是辅助用户对文档数据库中的文档进行分类。

通过用于处理文档数据库中的多个文档的方法来提供根据木发明的这种和其它目的、特征和优点，所述方法包含针对所述多个文档中的每一文档确定词汇字以及针对每一词汇字基于其在所述多个文档中的出现率而确定相应相关性。所述方法进一步包含基于所述词汇字和其相应相关性而确定所述多个文档之间的相似性。基于所确定的相似性而确定文档的至少一个域识别。

确定所述多个文档之间的相似性可包含基于所述词汇字的相应相关性而选择所述词汇字的一部分以用于定义词汇字超集，所述词汇字超集说明所述多个文档之间的相似性并具有与其相关联的整体域识别。

所述方法可进一步包含基于选择与每一相应较低级域识别相关联的词汇字而将整体域识别划分成较低级域识别。因此，与每一较低级域识别相关联的词汇字的相关性发生改变，使得针对每一较低级域识别将相似文档分组在一起。

确定所述词汇字的相应相关性可包含计数每一词汇字在所述多个文档中使用多少次以及计数有多少所述多个文档使用每一词汇字。所述方法可进一步包含基于所述计数而针对每一相应词汇字产生字/文档比率，且如果所述字/文档比率小于阈值，则在确定所述多个文档之间的相似性时不使用所述字的相关性。或者，所述方法可包含准许用户设定至少一个词汇字的相应相关性。用于每一词汇字的相应相关性可进一步基于相关性反馈因数。举例来说，所述相关性反馈因数可基于用户搜索查询或算法。

可基于识别所述词汇字中的字图案而确定所述文档之间的相似性。举例来说，字图案可包含n字短语，其中n≥2。换句话说，可通过计算机基于重叠的词汇字来确定相似文档的域识别。

另外，所述方法可进一步包含确定对应于预定域识别的词汇字。可在用于所述多个文档的词汇字与对应于预定域识别的词汇字之间确定相似性。接着，可基于所确定的相似性将预定域识别指派给所述文档中的至少一者。

所述文档可包含网站文档、电子邮件消息和具有与其相关联的元数据的非文本文档。所述非文本文档可包含视频图像文件、照片文件和音频文件。

本发明的另一方面针对于一种计算机可读媒体，其具有用于致使计算机如上所定义处理文档数据库中的文档的计算机可执行指令。

本发明的又一方面针对于一种计算机实施系统，其用于如上所定义处理文档数据库中的文档。

附图说明

图1是根据本发明的用于处理文档数据库中的文档的流程图。

图2是根据木发明的初始查询显示器屏幕。

图3a和3b分别说明根据本发明的用于开始新词汇和用于使用现有词汇的显示器屏幕。

图4是说明根据本发明的使用“海盗行为”词汇的查询结果的显示器屏幕。

图5和6是说明根据本发明的来自选定文档的字列表的显示器屏幕。

图7是说明根据本发明的来自选定文档的字列表的另一版本的显示器屏幕。

图8到11是说明根据本发明的针对不同排名参数的文档排名的显示器屏幕。

图12是说明根据本发明的在通过不同排名参数提供的所检索文档中的相关文档的数目的条形图。

图13是根据本发明的用于处理文档数据库中的文档的基于计算机的系统的方框图。

图14是根据本发明的用于对文档数据库中的文档进行分类的流程图。

图15到19是说明根据本发明的来自文档数据库中的文档的用于对所述文档进行分类的词汇字的显示器屏幕。

具体实施方式

现将在下文中参看附图更全面地描述本发明，在附图中展示本发明的优选实施例。然而，本发明可以许多不同形式实施，且不应解释为受限于本文所陈述的实施例。实际上，提供这些实施例是为了使得本发明为详尽且完整的，并将本发明的范围全面地传达给所属领域的技术人员。相同数字始终指代相同元件，且使用撇符号来指示替代实施例中的相似元件。

首先参看图1，本发明针对于用于处理文档数据库中的文档的计算机实施方法。从开始(方框20)起，所述方法包含在方框22处使用信息检索系统并基于用户搜索查询来产生所检索文档的初始排名。在方框24处产生多个词汇字，这基于其在所检索文档的至少一些文档中的出现率，且在方框26处产生所述词汇字的相应相关性，这基于其出现率和用户搜索查询。在方框28处产生所检索文档的重新排名，这基于所述词汇字的相关性。所述方法进一步包含在方框30处显示经重新排名之后的所检索文档。所述方法在方框32处结束。

所述用于处理文档数据库中的文档的计算机实施方法有利地允许用户在已使用信息检索系统检索到所述文档之后识别相关文档且丢弃无关文档。用户可以是人类用户或计算机实施用户。当用户是计算机实施用户时，识别相关文档和丢弃无关文档是自主的。所述信息检索系统包括用于接收用户搜索查询的输入接口和用于从文档数据库选择性地检索文档的搜索引擎。

所述搜索引擎不限于任何特定搜索引擎。实例性搜索引擎是在伊利诺技术学院(IIT，Illinois Institute of Technology)的信息检索实验室开发的高级信息检索引擎(AIRE)。AIRE是用加哇(Java)编写的便携式信息检索引擎，且为探索新的信息检索技术提供基础。每年召开的文本检索会议(TREC)经常性地使用AIRE，TREC是通过为关注于比较其结果的组织提供大文本集合、统一计分程序和论坛来鼓励对从大文本应用检索信息的研究的一系列研讨会。

由于TREC使用具有已知结果的数据集，所以这有助于对本发明进行评估。来自TREC的实例性搜索主题是“海盗行为”，使用其来说明和评估本发明。AIRE基于“海盗行为”用户搜索查询来提供所检索文档的初始排名。初始排名中的相关文档的数目和/或顺序是基线或参考，其将与经重新排名文档中的相关文档的数目进行比较。

如下文将进一步详细论述，存在多种字与文档相关性选项可供用户使用。这些选项单独地或以组合方式改进用户搜索查询的检索精确度。本发明的实施方案采用需要用户输入的算法的形式，且经由与AIRE相关联的图形用户接口(GUI)来提供此输入。

图2中提供用于辅助用户提供用于对所检索文档进行重新排名的相关反馈的初始AIRE查询屏幕。在区段40中提供“海盗行为”用户搜索查询，且用户可在区段42中选择开始新词汇或使用现有词汇。在此情况下，正在开始新词汇。

在区段44中提供对关注主题的描述，其针对于“近代有哪些例子属于良好的旧式海盗行为，登船或控制船只？”。在区段46中提供叙述，其提供关于所述描述的更多详细信息。在此情况下，所述叙述规定“论述任何水体上的海盗行为的文档是相关的，论述由国家机构合法取得船舶或其内含物的文档是非相关的，且渔船之间关于捕鱼的碰撞是非相关的，除非登上一艘船”。所述描述和叙述区段44、46中的字并未被包括作为所述用户搜索查询的部分。尽管如此，用户仍可通过选择描述和叙述区段44、46连同区段40来使这些区段中的字成为用户搜索查询的部分。

当用户在区段42中选择开始新词汇时，出现新词汇屏幕，如图3a所说明。此处，用户在区段50中输入新词汇的名称，其在所说明的实例中是“海盗行为”。在此情况下，所述新词汇的标题也是用户搜索查询。或者，如果用户已在区段42中选择使用现有词汇，则出现现有词汇屏幕，如图3b所说明。关注主题可与两个不同词汇重叠，所以选择优选词汇将是有帮助的。如在所说明的实例中，海盗行为与海事而非电影和歌曲的非法拷贝相关。因此，可在区段52中选择现有词汇(例如“海事”)，其已经包括将在所检索文档中找到的相关字。事实上，现有词汇中的词汇字可取自已知与用户搜索查询相关的优选文档中的字。所述优选文档可能是或可能不是所检索文档的部分。

相对于“海盗行为”，所检索文档的初始排名是非常大的数目，其包括相关文档和无关文档两者。在产生新词汇之前，用户在图2的区段48中选择排名前N个文档。在所说明的实例中，待重新排名的靠前排名文档的数目为100。

为了构建新词汇，算法计数字在所有前100个所检索文档中使用多少次。可以字根版本对所述字进行计数，但这并非是绝对必要的。还可通过提供相关文档列表来构建域词汇。针对每一文档中的每一字而收集的信息是所述字在所述文档中的使用次数以及所述排名前100个文档中使用所述字的文档数目。

接下来，计算文档统计数据，以确定每一字对于排名前N个文档的有用程度。不使用无用字来计算关于所述文档的信息。无用字是不提供意义的字，例如停用字(例如，是、我们)或在所述域内用作停用字的字(例如，计算机科学文献中的计算机)。用于确定无用字的统计数据可包括但不限于以下各项：

a)字/文档比率＝1(所述字需要在文档中出现一次以上才会有用)；

b)字/文档比率>20(这确定有意义的阈值；且可使用阈值范围来替代单个阈值)；以及

c)文档数目＝1(所述字需要出现于一个以上文档中)。

基于a)到c)中的标准，所述词汇因此针对每一有用字包含其使用次数(仅在单个文档内传统的条目频率、使用所述字的文档数目(传统的文档频率)和字/文档比率)。

在已编辑了由排名前100个文档和用户搜索查询(即，“海盗行为”)提供的词汇字列表之后，设定所述词汇字的相关性。一些词汇字的相关性/无关性可能比其它字更强。字相关性是通过主题设定的，其在此情况下是与“海事”相关的“海盗行为”。相关字是描述主题“海盗行为”的有用字。无关字是不描述所述主题的字，并且是无关文档的指示符。

针对用户所供应的查询条目，将相关性设定为值1。词汇字的相关性值基于所述字的相关次数以及所述字的无关次数。字的相关性值可书写为如下：相关性值＝(#相关-#无关)/(#相关+#无关)。举例来说，如果所述相关性值>0.5，则可将字视为相关，且如果所述相关性值<-0.5，则无关。所属领域的技术人员容易明白，0.5和-0.5是实例性值，且可设定为其它值。另外，可使用阈值范围来代替单个阈值。

为了计算文档统计数据，基于所述排名前N个文档中的字来计算信息。文档包含一组字，且字可在其，中出现一次或一次以上。每一文档本质上是末结构化文本，且可将字表征为新、无用或有用。新字对于所述词汇来说是新的。在培训会话中，即以新词汇开始，所有所述字均在所述词汇中。在文档计算中不使用无用字，且如上所述，这些字不提供意义。无用字是停用字(例如是、我们等)或在所述域内用作停用字的字(例如计算机科学文献中的计算机)。有用字是将用于所述文档统计数据的字。

可将有用字进一步分级为相关、无关或中立。如这些分级条目所定义，相关字对于主题来说是重要的，且无关字对于主题来说是无用的，并且通常是坏文档的指示符。中立字是其中尚未确定所述字与主题相关的状态的字。

为了计算所检索文档的重新排名，使用算术方法来对所述文档进行评级。所述算术方法使用上文论述的相关性信息。AIRE对所述初始文档排名的输出是评级为1到100的文档的列表，其中100是用户选择的。最低数字指示最佳排名。或者，最高数字可以是最佳排名。

使用三个不同的相关性值来对所述文档进行重新排名。第一相关性值基于以下表达式：

Unique Rel-Unique Irrel→UniqueRel (1)

对所述文档中的独特相关字的数目进行计数，且对所述文档中的无关字的数目进行计数。从所述相关字的总和减去所述无关字的总和。据观察，当仅识别个别字时，此计算变得较为有用。也就是说，尚未将整个文档识别为相关/无关。

第二相关性值基于以下表达式：

Rel NO Freq-Irrel NO Freq→RelNOFreq (2)

此处，确定所述文档中的独特相关/无关字的重要性。从所述字在所述词汇中的相关次数的总和减去所述字在所述词汇中的无关次数的总和。在所述词汇中出现频率较高的字的权数将比仅出现数次的字的权数高。据观察，此值与表达式(1)中的Unique Rel-Irrel值紧密耦合，尤其是在所有值均为正的情况下。

第三相关性值基于以下表达式：

Rel Freq-Ir Freq→RelFreq (3)

此处，确定所述文档中的独特相关/无关字的重要性和其频率。将所述字在所述词汇中的相关次数的总和乘以所述字在所述文档中的使用次数。将所述字在所述词汇中的无关次数的总和乘以所述字在所述文档中的使用次数。从所述相关性频率总和减去无关性频率总和。在所述词汇中出现频率较高的字的权数将比仅出现数次的字的权数高。据观察，当在所述系统中已培训相关/无关文档实例时，此值更为有用。

存在两种技术用于识别坏文档。一种技术基于特定字的过度使用，且另一种技术基于如表达式(1)中定义的低UniqueRel值。相对于特定字的过度使用，将具有出现超过100次的字(例如，在文档中)的文档识别为坏文档。并且，将在一些文档中使用非常频繁的字确定为具有设定为0的有用性。用户可选择设定待视为坏值的所述字在文档中出现的次数。

针对表达式1)UniqueRe、2)RelNOFreq和3)RelFreq，将所述排名前N个所检索文档的初始排名从最高相关性值到最低相关性值重新排名。针对所述三个表达式对每一文档的重新排名求平均，以获得所检索文档的最终重新排名。在所述相应文档排名的每一者中，将坏文档发送到文档列表的底部。可使用两种不同技术将坏文档移动到底部。一种技术是跳跃数字排序，其将较大值指派给所述文档的排名以使其保持于底部。另一种技术是平滑数字排序，其将连续的排名数字指派给所述文档。

相对于所述文档获得的UniqueRel数字，具有最小UniqueRel数字的所有文档均被识别为坏文档。如果第二最小UniqueRel数字(例如)低于30％，则这些文档也被表征为坏文档。可添加额外的小UniqueRel文档，直到文档总数不超过30％为止。换句话说，从最高UniqueRel数字的百分比中取得最低UniqueRel数字的百分比不应超过30％。如所属领域的技术人员容易明白，用户可选择将此阈值设定为除30％以外的值。

在对排名前N个所检索文档进行重新排名时，还有可能基于文档的来源而向所述文档指派优先级。举例来说，“国家科学(National Scientific)”可具有比“国家调查者(National Enquirer)”高的权数。

现将参看图4到7中所提供的用户显示器屏幕来论述对所述数据的管理。在两个级处对所述数据进行处置：词汇和主题。词汇用于定义域，且针对每一字包括在每一文档中的使用次数以及出现所述字的文档数目。词汇可供多个主题使用，例如采取预定义词汇的形式。然而，优选避免使用同一文档来多次培训。相对于通过主题来管理所述数据，使用字与文档的相关性/无关性以及使用查询搜索条目。

大部分数据管理涉及用户接口。用户有能力查看任何文档和与其相关联的字信息。用户有能力识别相关/无关文档和字以用于培训，即构建词汇。用户有能力针对将来的AIRE查询对字进行识别。用户有能力基于供应给所述系统的信息对当前数据运行新的AIRE查询或重新运行根据本发明的排名算法。

图4说明使用“海盗行为”词汇对所检索文档进行的初始排名。列60以从高到低的顺序列出所述文档的标题。在列62中提供AIRE相关性。在考虑到“海盗行为”词汇的同时已将所检索文档重新排名之后，将此重新排名与列62中由AIRE提供的初始排名进行平均。在列64中提供所述两个排名的组合。举例来说，列62中的最高排名文档现在是列64中的排名第六文档。

选择列60中的所列标题的任一者将显示所述文档字。在列66中提供每一词汇字相对于每一文档的相关性。针对每一文档，可将所述文档标记为相关(列68)、适度相关(列70)或脱离主题(列72)。另外，在列74中提供针对每一文档的总字计数，且可通过选择列76中的图标来添加或查看与所述文档的任一者相关联的注解。

如果用户需要查看整个文档，则用户突出显示列78中与关注标题相邻的图标。将针对每一文档的信息存储在相应文件中，如列80所指示。为了进一步辅助用户，当文档被标记为相关时，则突出显示与所述相关文档相关联的行。

通过选定列60中的特定文档的标题，将所述文档中的字以基于其在所述文档中的使用次数的顺序显示在列81中(图5)。此屏幕还展示如何依据相关性来设定所述字。在列82中列出每一词汇字在所述文档中的使用次数，且在列84中列出使用所述字的文档数目。在列86中提供字/文档比率。最初由用户标记为相关的词汇字在列88和92中由数字1指示。如果所述词汇字是无关的，则替代地在列90中放置数字-1。

图5中突出显示的区段还指示相关字。然而，字“版权”和“软件”与主题“海盗行为”不相关。但是，在此屏幕中，用户仍可通过选择适当特征来根据相关性和使用率对所述字进行分类：R表示相关(列100)，I表示无关(列102)，N表示中立(列104)，且U表示无用(列106)。如果所述字已经被标记为相关，则不需要对所述字采取任何动作。

图6中所说明的屏幕显示说明经由列102将某些词汇字选择为无关。图7中提供当在特定文档中查看所述字时图5和6的显示器屏幕的替代版本。在此特定屏幕中，用户还可选择在区段110′中对所述文档是相关、适度相关还是脱离主题进行选择。用户还可选择经由区段112′向词汇添加新字。

用户还可根据用户偏好来选择多个视图(如所标记的)。举例来说，标签120列出文档中的所有词汇字，标签122以字母顺序列出所述词汇字，标签124列出标记为相关的词汇字，标签126列出标记为无关的词汇字，标签128列出标记为新的词汇字，且可通过选择标签130来获得所述词汇字的统计数据。在图7中，用户可相对于所述文档中的相关/无关/中立字来选择标签。标签140′列出所述文档中的相关字，标签142′列出所述文档中的无关字，标签144′列出所述文档中的中立字，且标签146′列出所述文档中的无用字。

针对根据本发明的用于处理文档数据库中的文档的计算机实施方法中的各种文档排名结果进行比较，现将其与由AIRE提供的基线结果(即，所检索文档的初始排名)进行比较。现将参考在图4和图8到11中提供的显示器屏幕。如图4所示，在列60中提供所检索文档从1到20的初始排名(列62)。在图8的列60中列出对应于从1到20的“海盗行为”词汇排名(列66)的文档标题。可在已排名基线文档对由最相关“海盗行为”词汇字提供的已排名文档的关系之间进行视觉比较。

图9的列60中提供将AIRE排名与“海盗行为”词汇排名进行组合以获得从1到20的新排名(列64)。代替如上所论述那样创建新词汇，可使用现有词汇。举例来说，现已将预定义“海事”词汇的结果与AIRE结果进行组合。图10的列60中列出对应于此重新排名而从1到20排名(列64)的文档。作为又一比较，在图11的列60中列出仅对应于从1到20(列66)的“海事”词汇排名的文档标题。可在图4中由AIRE提供的已排名基线文档对图11中通过最相关“海事”词汇字提供的已排名文档的关系之间再次进行视觉比较。

现将参看图12论述刚才针对将所检索文档进行重新排名所论述的各种方法的结果。此论述是基于排名或重新排名前5、10、15、20和30个文档中的相关文档的数目。第一组条形图对应于在图4的列60和62中提供的基线AIRE排名。在排名前5个文档中有1个相关文档；在排名前10个文档中有2个相关文档；在排名前15个文档中有4个相关文档；在排名前20个文档中有5个相关文档，且在排名前30个文档中有6个相关文档。

当将所述AIRE排名与图9的列60、64中提供的“海盗行为”词汇排名进行组合时，已重新排名文档中的相关文档的数目减少了，如第二组条形图所说明。相反，当将AIRE排名与使用无关字的识别的“海盗行为”词汇排名进行组合时，相关文档的数目增加了，如第三组条形图所说明。

第四组条形图是基于AIRE排名与“海事”词汇排名的组合排名，如图10的列60、64中所提供。此处，已重新排名文档中的相关文档的数目有更大增加。

已重新排名文档中的相关文档的数目的进一步增加仅是基于如图11的列60、66中提供的“海事”词汇。在排名前5个文档中有5个相关文档；在排名前10个文档中有10个相关文档；在排名前15个文档和排名前20个文档中，针对每一者有12个相关文档；且在排名前30个文档中有13个相关文档。

如图12中最佳说明，本发明有利地允许用户将从文档数据库中检索的文档重新排名，使得排名靠前文档中的更多文档是相关文档。基于用户搜索查询来构建词汇，或者选择现有词汇。分析新近创建的词汇以识别特定字的重要性且还识别问题字。通过用户搜索查询、适用的算法并经由用户输入来识别相关/无关字。另外，基于所述字的相关性来识别相关/无关文档。将无关文档移动到排名的底部。

可在基于计算机的系统150中实施所述方法以处理文档数据库中的文档，如图13所说明。所述基于计算机的系统150包含多个第一到第四模块152到158。第一模块152使用信息检索系统并基于用户搜索查询来产生所检索文档的初始排名。第二模块154产生多个词汇字，这基于其在至少一些所检索文档中的出现率。第三模块156基于所述词汇字的出现率和用户搜索查询来产生所述词汇字的相应相关性。第四模块158基于所述词汇字的相关性来产生所检索文档的重新排名。显示器160连接到基于计算机的系统150以显示经重新排名的文档。

本发明的另一方面针对于一种用于辅助用户对文档数据库中的文档进行分类的方法。所述文档可以是信息检索系统响应于用户搜索查询进行操作的结果。或者，所述文档是响应于(例如)监视选定网站文档、监视对话(即，音频文件)、电子邮件消息和新闻群组事务而收集的。不管如何将文档提供给用户，其形成文档数据库。

参看图14，现将论述用于针对文档数据库中的多个文档确定域识别的方法。从开始(方框200)起，在方框202处针对每一文档确定词汇字。

可以许多方式确定用于每一文档的词汇字。一种方法是简单地在每一文档中使用所有字。另一种方法是使用字提取器来选择具有特定意义的字。

又一种方法是在运行中构建所述词汇。举例来说，选择来自M个文档列表的N个文档，其中M≥N。所述N个文档形成文档数据库。或者，从特定文档构建词汇。举例来说，用户识别相关文档列表。将所述相关文档列表给予上述用于处理文档的计算机实施方法以从所述文档列表构建词汇。当用户识别相关文档时，其将所述文档的字添加到所述词汇。与在运行中构建词汇相比，从特定文档构建词汇提供较佳的文档排名。

一旦确定了用于每一文档的词汇字，便在方框204处基于每一词汇字在所述多个文档中的出现率来确定每一词汇字的相应相关性。

如上所述，可基于统计数据来确定所述词汇字的相应相关性。举例来说，词汇字的相关性可基于每一词汇字在所述多个文档中的使用次数以及所述多个文档使用每一词汇字的次数。另一种统计方法所基于的是基于所述计数针对每一相应词汇字而产生字/文档比率，且如果所述字/文档比率小于阈值，则在确定所述多个文档之间的相似性时不使用所述字的相关性。

由用户确定又一种用于确定特定词汇字的相关性的方法。或者，确定相关性反馈因数，且每一词汇字的相应相关性可进一步基于此相关性反馈因数。举例来说，所述相关性反馈因数可基于用户搜索查询或基于算法。

在方框206处基于所述词汇字和其相应相关性确定所述多个文档之间的相似性。在一种方法中，这涉及基于所述词汇字的相应相关性来选择所述词汇字的至少一部分以用于定义词汇字超集，所述词汇字超集较佳地说明所述文档之间的相似性。换句话说，选择来自所述文档数据库中的文档的前X个字(依据相关性)来定义所述词汇字超集。举例来说，X等于100。

所述相似性可基于识别所述前100个字内的具有高相关性程度的单个字。另外，所述相似性可基于所述前100个词汇字中的字图案。字图案包括n字短语，其中n≥2。举例来说，“纽约市”是三字短语。

在方框208处确定相似文档的至少一个域识别。可使用许多方法来确定域识别。一种方法是由用户确定域识别。另一种方法是由计算机基于重叠的词汇字来确定域识别。

另一种用于确定域识别的方法是确定对应于预定域识别的词汇字，并接着确定针对所述文档的词汇字(例如，前100个字)与对应于预定域识别的词汇字之间的相似性。将所述预定域识别指派给具有与对应于所述预定域识别的词汇字相似的词汇字的文档。举例来说，对应于预定域识别的词汇字可以是用户定义的，或者其可以是预定的。所述方法在方框210处结束。

出于说明性目的，可基于针对于“癌症”的用户搜索查询来形成实例性文档数据库。所收集的文档来自不同的癌症查询。一旦已收集了所述文档，便确定来自每一所收集文档的词汇字。并且，基于每一词汇字在所述文档集合中的出现率来确定每一词汇字的相应相关性。在已连同其相应相关性确定了所述词汇字之后，使用前若干字来定义针对于“癌症”的词汇字超集，如图15和16中提供的屏幕所展示。

所述前若干字可限于例如描述癌症的100个字。换句话说，定义由选定文档组成的癌症词汇。图15和16中的屏幕还提供每一词汇字的重要性。

图15和16中的屏幕展示如何依据相关性来设定所述前若干字181。在列182中列出每一词汇字181在所述文档中的使用次数，且在列184中列出使用所述字的文档的数目。在列186中提供字/文档比率。

然而，重要的是确定所述字181的相关性。在列188和190中提供相关性程度。在列192中，确定介于-1与1之间的整体相关性数字。可设定阈值以用于确定相关性。举例来说，具有相关性≥0.50的字经突出显示为相关。当然，用户可在必要时改变所述阈值以及将字添加到癌症词汇/从癌症词汇移除。从癌症词汇移除具有0???相关性数字的字181。

基于图15和16中的屏幕所部分展示的癌症词汇字，现可将与癌症相关的文档分成或分组成不同类别或域识别。现参看图17到19提供的屏幕，已创建三个类别：皮肤癌、脑癌和乳癌。这些类别中的每一者均使用所述癌症词汇。所说明的字和因此与这些字相关的文档是基于针对这些类别中的每一者的癌症词汇的相应查询。作为所述相应查询的结果，针对每一类别对列188到192中的字相关性作不同设定。基于图17到19所提供的屏幕中的词汇字，向与这些字相关联的文档给予相应域识别。

如上所述，所述文档可包含网站文档、电子邮件消息和具有与其相关联的元数据的非文本文档。所述非文本文档可包含视频图像文件、照片文件和音频文件。举例来说，可将报纸在选定时间周期收集到的新闻文章分类。然而，许多所述文章可仅仅是图片。与所述图片相关联的元数据可用于提供域识别所必要的词汇字。类似地，与视频相关联的元数据可用于提供域识别所必要的词汇字。举例来说，所述照片文件可具有JPEG格式，而所述视频图像文件可具有MPEG格式。音频文件可具有以下格式，例如：微软“波”格式(WAV)、音频交换文件格式(AIFF)和资源交换文件格式(RIFF)。

本发明的另一方面针对于一种计算机可读媒体，其具有用于致使计算机如上所定义处理文档数据库中的文档的计算机可执行指令。本发明的又一方面针对于一种计算机实施系统，其用于如上所定义处理文档数据库中的文档。

Claims

1.一种用于处理文档数据库中的多个文档的方法，其包含：

针对所述多个文档的每一文档确定词汇字；

基于每一词汇字在所述多个文档中的出现率来确定每一词汇字的相应相关性；

基于所述词汇字和其相应相关性来确定所述多个文档之间的相似性；以及

基于所述确定的相似性来确定文档的至少一个域识别。

2.根据权利要求1所述的方法，其中确定所述多个文档之间的相似性包含基于所述词汇字的相应相关性来选择所述词汇字的一部分以用于定义词汇字超集，其中所述词汇字超集说明所述多个文档之间的相似性且具有与其相关联的整体域识别。

3.根据权利要求2所述的方法，其进一步包含基于选择与每一相应较低级域识别相关联的词汇字而将所述整体域识别划分成较低级域识别；且其中与每一较低级域识别相关联的词汇字的相关性发生改变，使得针对每一较低级域识别将相似文档分组在一起。

4.根据权利要求1所述的方法，其中确定所述词汇字的所述相应相关性包含：

计数每一词汇字在所述多个文档中使用多少次；以及

计数有多少所述多个文档使用所述词汇字中的每一者。

5.根据权利要求4所述的方法，其进一步包含基于所述计数而针对每一相应词汇字产生字/文档比率，且如果所述字/文档比率小于阈值，则在确定所述多个文档之间的相似性时不使用所述字的所述相关性。

6.一种计算机实施系统，其用于处理文档数据库中的文档，所述计算机实施系统包含：

第一模块，其用于针对所述多个文档的每一文档确定词汇字；

第二模块，其用于基于每一词汇字在所述多个文档中的出现率来确定每一词汇字的相应相关性；

第三模块，其用于基于所述词汇字和其相应相关性来确定所述多个文档之间的相似性；以及

第四模块，其用于基于所述确定的相似性来确定文档的至少一个域识别。

7.根据权利要求6所述的计算机实施系统，其中所述用于确定所述多个文档之间的相似性的第三模块包含：基于所述词汇字的相应相关性来选择所述词汇字的一部分以用于定义词汇字超集，其中所述词汇字超集说明所述多个文档之间的相似性且具有与其相关联的整体域识别。

8.根据权利要求7所述的计算机实施系统，其进一步包含第五模块，所述第五模块基于选择与每一相应较低级域识别相关联的词汇字而将所述整体域识别划分成较低级域识别；且其中与每一较低级域识别相关联的词汇字的相关性发生改变，使得针对每一较低级域识别将相似文档分组在一起。

9.根据权利要求6所述的计算机实施系统，其中所述用于确定所述词汇字的所述相应相关性的第二模块包含：

计数每一词汇字在所述多个文档中使用多少次；以及

计数有多少所述多个文档使用所述词汇字中的每一者。

10.根据权利要求9所述的计算机实施系统，其中所述第二模块进一步包含基于所述计数而针对每一相应词汇字产生字/文档比率，且如果所述字/文档比率小于阈值，则在确定所述多个文档之间的相似性时不使用所述字的所述相关性。