CN101082914A

CN101082914A - 结构文档的分类检索

Info

Publication number: CN101082914A
Application number: CNA200610063660XA
Authority: CN
Inventors: 叶继吉
Original assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Current assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Priority date: 2005-12-30
Filing date: 2006-12-29
Publication date: 2007-12-05
Also published as: US20070156671A1

Abstract

本发明提供一个对存储在数据库里的多个结构文档执行分类检索的系统和方法。依照本方法，用户首先输入结构文档的一个或多个类别项和一个查询项。然后，检索引擎依照查询项检索结构文档，获得多个查询文档。进而，查询文档类别项的内容被馈送器提取出来。接着，仅依靠查询文档的类别项内容，分类引擎将查询文档分类，获得分类结果。最后，分类结果由报告引擎显示出来。

Description

结构文档的分类检索

发明领域

本发明涉及文档检索，特别涉及一种用于结构文档(如专利文档、公司年报、金融报告等)分类检索的系统和方法。

背景技术

在现有的检索引擎领域和范围内，通常有两种检索查询选择：简单检索和高级检索。使用简单检索时，呈现给用户的是一个查询框，包含一个数据输入表格，通常是一个文本框，可以输入一个或多个词汇。使用高级检索时，呈现给用户的是一个或多个文本框，并对用户输入一个查询词汇后将会出现什么情况提供说明。有一些高级检索，提供一个下拉菜单给用户，对在文本框里输入的任何词汇，指示检索引擎使用一定的布尔运算符(Boolean operators)。从而，在互联网流行的检索引擎上，普通的检索选项仅是一个空格文本框。高级检索选项允许用户输入可选词汇，然后检索将在“包含所有词汇(all the words)”、“包含任一词汇(with any of thewords)”上以“精确字段检索(exact phrase)”或“不包含检索词汇(noneof the words)”上执行。检索也可以在任何语言或指定语言上、在任何文本格式或指定文本格式上、或在一些指定时间期限内被执行。

最近的一个新方法是分类检索，可以帮助输入查询项的用户调查互联网结果的索引列表并且概括汇总这些结果覆盖的主题。Alta Vista Prisma和Vivisimo是使用这种技术的检索引擎和检索工具的例子。这些程序对互联网检索的结果进行分析和运作，而不是查询词汇本身。

但是，现有检索方法对多个结构文档(其中一个或多个类别项由用户指定)执行分类检索不是有效的。

概述

本发明提供一种方法和系统，对存储在数据库里的多个结构文档执行分类检索。结构文档可以是专利文档、公司年报、或金融报告等。

依照本方法的一个方面，用户首先输入结构文档的一个或多个类别项和一个查询项。接着，根据查询项检索结构文档，来获得多个查询文档。进而，提取查询文档的类别项内容。然后，仅根据查询文档的类别项内容，查询文档被分类而得到分类结果。最后，显示分类结果。

在一个实施例中，在查询文档被分类之前，删除查询文档的类别项内容里的常用词汇。

在一个实施例中，在查询文档被分类之前，查询文档类别项内容里的复数名词被转换成单数名词，和/或查询文档类别项内容里的单词时态被转换成现在时态。

在一个实施例中，对每个分类结果提供查询文档的链接。

在一个实施例中，将分类结果翻译成一种或多种不同语言。

依照本系统的一个方面，系统包括用户界面、数据库、检索引擎、馈送器、分类引擎、和报告引擎。用户界面用于用户输入结构文档的一个或多个类别项和一个查询项。数据库用于存储结构文档。检索引擎根据查询项用于检索结构文档来获得多个查询文档。馈送器用于提取检索文档的类别项内容。分类引擎仅根据查询文档的类别项内容，用于将查询文档分类来获得分类结果。报告引擎用于显示分类结果。

在一个实施例中，馈送器去除查询文档的类别项内容的常用词汇。

在一个实施例中，馈送器将查询文档类别项内容里的复数单词转换成单数单词，和/或将查询文档类别项内容里的单词时态转换成现在时态。

在一个实施例中，对每个分类结果，报告引擎提供查询文档的链接。

在一个实施例中，报告引擎将分类结果翻译成一种或多种不同语言。

附图说明

图1a-1d显示来自美国专利商标局网站的美国专利6,876,334的一个打印输出；

图2是显示执行分类检索主要步骤的一个流程图；

图3是显示馈送器的工作流程图；

图4显示一个查询项的分类结果。

发明详述

现在参考本发明的一些实施例，在以下的描述中也将提供其中的范例。本发明的典型实施例将被仔细描述，尽管一些相关领域的技术人员很容易明白的、对理解实施例并不是特别重要的特征可能不会清晰地显示出来。

而且，应该明白的是，本发明不限于以下所述实施例，本领域技术人员可以对其做出不同的改变和修正，而不偏离本发明的精神和范围。例如，在本发明披露和附带权利要求的范围内，不同所述实施例的元件和/或特征可以被相互结合在一起和/或被互相替代。

在进行分类检索之前，需要建立一个存储结构文档的数据库。如此处所用的，术语“分类检索”是指将检索结果根据出现在文档内的显著词汇和短语分组成不同的类别，术语“结构文档”是指具有一定格式的多个文档。结构文档包括但不仅限于专利文档、公司年报、金融报告等。“专利文档”是指授权专利和/或公开的专利申请。存储结构文档的数据库可以设置于单机电脑或服务器内，用户可以通过局域网(LAN)、广域网(WAN)、内联网(Intranet)、互联网(Internet)等进入其内。

存储结构文档的数据库通常是一个文本数据库。数据库的结构是灵活的。例如，数据库可以是一个包含所有结构文档的常规文本文件；可以是分离的文本文件，其中每个文本文件代表一个结构文档；可以是一个关系数据库，其中每个记录与一个结构文件相关联；或者可以是文本文件和一个关系数据库的组合。如果数据库是一个常规文本文件，从结构文档提取的信息被标记并直接输入到文本文件内。从每个结构文档提取的信息也可以被输入到一个单独的文本文件内。或者，从结构文档提取的信息可以被输入到一个关系数据库内。信息提取过程可以通过逐字地、逐行地、或逐段地分析结构文档来完成。

对关系数据库而言，在执行信息提取过程之前，需要产生至少一个表格。这个表格通常包含结构文档的公共项。例如，如果结构文档是美国专利，这个表格可能包含以下项：专利号(Patent Number)、专利授权日(PatentGranted Date)、专利标题(Patent Title)、摘要(Abstract)、发明人(Inventors)、受让人(Assignee)、申请序列号(Application Serial Number)、美国申请日(US Filing Date)、当前美国分类号(Current US Class)、国际分类号(International Class)、检索范围(Field of Search)、美国专利文件引用(USPatent Documents Cited)、其他参考文件引用(Other References Cited)、权利要求(Claims)、和说明书(Description)。也可以将更多项，如相关申请日(Related Application Data)、审查员(Examiner)、专利代理人(Attorney)、代理公司(Attorney or Firm)等，添加到这个表格中。

图1a-1d显示一个来自美国专利商标局(USPTO)网站的典型的授权美国专利6,876,334(’334专利)的一个打印输出(HTML文件)。以下将描述从’334专利提取信息、并将此信息输入数据库的步骤：

步骤1：在如上所述的数据库中开启一个新记录；

步骤2：从美国专利商标局(USPTO)网站下载一个’334专利的HTML文件；

步骤3：去除该文件的所有HTML标记；

步骤4：去除在项目12-“United States Patent”之前的任何内容；

步骤5：将项目4-“6,876,334”输入到记录的“专利号(Patent Number)”项中；

步骤6：将项目16-“April 5，2005”输入到记录的“专利授权日(PatentGranted Date)”项中；

步骤7：将项目18-“Wideband shorted tapered strip antenna”输入到记录的“专利标题(Patent Title)”项中；

步骤8：将项目20列出的’334专利摘要的所有内容输入到记录的“摘要(Abstract)”项中；

步骤9：将项目22-“Song；Peter Chun Teck(Hong Kong，CN)；Murch；Ross David(Hong Kong，CN)”输入到记录的“发明人(Inventors)”项中；

步骤10：将项目24-“Hong Kong Applied Science and TechnologyResearch Institute Co.，Ltd.(Kowloon，CN)”输入到记录的“受让人(Assignee)”项中；

步骤11：将项目26-“377128”输入到记录的“申请号(Apllication SerialNumber)”项中；

步骤12：将项目28-“February 28，2003”输入到记录的“美国申请日(US Filing Date)”项中；

步骤13：将项目30-“343/767；343/866”输入到记录的“当前美国分类号(Current US Class)”项中；

步骤14：将项目32-“H01Q 007/00”输入到记录的“国际分类号(International Class)”选项中；

步骤15：将项目34-“343/767,786,866”输入到记录的“检索范围(Fieldof Search)”项中；

步骤16：将项目36列出的所有美国专利号码输入到记录的“美国专利文件引用(US Patent Documents Cited)”项中；

步骤17：将项目38列出的所有其它参考内容输入到记录的“其他参考引用(Other References Cited)”项中；

步骤18：将项目40列出的所有权利要求输入到记录的“权利要求(Claims)”项中；(图1b和1c仅显示“Claims”项的部分内容)

步骤19：将项目42列出的名词“Description”之后的所有内容输入到记录的“说明书(Description)”项中；(图1d仅显示“Description”项的部分内容)

通过执行步骤1到19，在数据库里建立了’334专利的一个记录。如果数据库容量允许的话，数据库可以包含所有授权的美国专利。尽管此处描述从一个授权的美国专利提取信息、并将此信息输入到一个数据库的方法，应该明白的是，公开的美国专利申请、授权专利或其它国家的公开的专利申请、和公开的PCT专利申请的信息也可以被提取出来，并被输入到相同的数据库/或不同的数据库中以便以后的分类检索。也应该明白的是，对其它的结构文档如公司年报、金融报告等，可以执行同样的信息提取机制来建立一个数据库以便以后的分类检索。

图2显示的是执行分类检索的主要步骤的一个流程图。首先，用户需要输入一个查询项，并选择一个类别来执行分类检索，如在步骤62里所述。查询项通常包含一个或多个关键字。如果在查询项里有两个或多个关键字，需要一个或多个逻辑或数据库操作符(如布尔运算符和SQL命令)来连接关键字。类别是指结构文档的一个公共项，其中分类或分组是根据公共项里的内容来执行的。例如，专利文档的类别可以是“摘要”、“权利要求”、“受让人”、“国际分类号”等。应该明白的是，在执行一个分类检索时可以选择多个类别。

在步骤64，检索引擎从数据库里识别满足查询检索标准的结构文档。应该明白的是，可以使用任何类型的检索引擎来执行检索，只要检索引擎能够找出满足检索标准的文档。

一个能够使用的简单检索引擎就是逐字地检查数据库，来找到用户所输入的关键字。在一个实施例中，一旦检索引擎找到一个满足检索标准的文档，检索引擎能够将文档记录号码(如：在数据库里文档所处的位置)报告给馈送器以便进一步处理。(以下将描述馈送器的具体细节)例如，如果检索标准是寻找由“Peter Song”发明的所有专利，检索引擎将在数据库里的’334专利的记录号码报告给馈送器。尽管在此处描述的是将文档的记录号码报告给馈送器，应该明白的是，也可以使用其它方法来将识别到的文档通知给馈送器。例如，馈送器能够根据文档标题、文件名或路径，来识别文档。

更多复杂的检索引擎，如Lucene-一种基于Java的用于文本索引和检索的开放源工具箱，允许用户输入复杂的查询项。例如，用户可以输入一个查询项，仅在“权利要求”项里检索“conductor”。Lucene将仅在记录的“权利要求”项里检索“conductor”，而跳过其它项。’334专利满足查询项的检索标准。结果，Lucene在数据库里识别’334专利的记录号码。如果用户在“专利标题”项中寻找“conductor”，’334专利不满足查询项的检索标准。结果，Lucene在数据库里不能识别’334专利的记录号码。在检索引擎识别出所有满足数据库里检索标准的文档之后，这些文档的记录号码将被报告给馈送器。馈送器是一个软件程序，处理由检索引擎产生的检索结果以便分类引擎进一步使用(步骤66)。一些高级检索引擎能够修改查询项如包含更多相关的词汇。例如，为了搜索“conductor”，一个高级检索引擎可能在查询项里包含“conduct”、“conducts”、“conducting”和“conducted”。尽管此处描述的是将文档记录号码报告给馈送器，应该明白的是，可以使用其它方法将识别到的文档通知给馈送器。例如，馈送器能够根据文档标题、文件名或路径来识别文档。

现在参考图3，显示的是一个馈送器的工作流程图。在一个实施例中，在检索引擎将满足查询检索标准的文档记录号码报告给馈送器之后(步骤86)，馈送器可以获取所有满足查询检索标准的记录(步骤88)。进而，如步骤90所示，馈送器将提取这些记录的类别项内容，而忽略其它项。例如，如果用户基于“摘要”项(即类别项)的内容来指示系统对专利文档进行分类，仅能够提取“摘要”项的内容，并传递给分类引擎。而忽略记录的其它项内容，如“专利标题”、“发明人”、“权利要求”等。忽略其它项能够减少将要分析的内容大小。结果，仅需要更少的计算资源，并能够获得更快的计算速度。

馈送器可以从类别项的提取内容里删除常用词汇(步骤92)。如此处使用的，“常用词汇”是指在结构文档里经常出现的词汇或短语。对年报文档而言，常用词汇包括“收益(revenue)”、“利润(profit)”、“收入(income)”、“市场(market)”等。对专利文档而言，常用词汇包括“方法(method)”、“设备(apparatus)”、“所述(said)”、“其中(wherein)”、“包括(comprising)”、“组成(consisting)”、“装置(means)”等。常用词汇也可以包括所有类型的文档(包括结构文档)里经常出现的词汇。对英语文档而言，常用词汇包括“a”、“an”、“the”、“on”、“in”、“at”、“and”等。馈送器也可以从类别项的提取内容里去除标点符号。对专利和常规英语文档而言，以下是一个显示典型常用词汇(能够被馈送器去除)的表格。

专利的常用词汇	常规英语文档的常用词汇
专利的常用词汇	常规英语文档的常用词汇			Allowallowsapparatus	aboutabsaccordingly	ifintois	saidsameseem

apparatus for controlbodycombinedcomprisescomprisingconformconnectedconsistingconstitutedcontinuedcontrol methodcorrespondingdescribeddevicedisclosedelementelement formedelementsfunctionincludeincludesincludinginventionmakingmeansmeasuredmethodmountedpresent

affectedaffectingafteragainagainstallalmostalreadyalsoalthoughalwaysamonganandanyanyoneapparentlyareariseasasideatawaybebecamebecausebecomebecomesbeen

ititselfjustkeepkeptkgknowledgelargelylike mademainlymakemanymgmightmlmoremostmostlymuchmustnearlynecessarilyneithernextnonenornormallynotnoted

seenseveralshallshouldshowshowedshownshowssignificantlysimilarsimilarlysinceslightlysosomesometimesomewhatsoonspecificallystatestatesstronglysubstantiallysuccessfullysuchsufficientlythanthatthe

producingprovidedprovidingrelaterelatesselectedservesset forthstructurethereonuseused

beforebeingbetweenbothbrieflybutbycamecancannotcertaincertainlycoulddoesdoneduringeacheitherelseetcevereveryfollowingforfoundfromfurthergavegets

nowobtainobtainedofoftenonlyorotherouroutowingparticularlypastperhapspleasepoorlypossiblepossiblypotentiallypredominantlypreviouslyprimarilyprobablypromptpromptlyputquicklyquiterather

theirtheirsthemthentherethereforethesetheythisthosethoughthroughthroughouttotootowardunderunlessuntiluponusefullyusefulnessusingusuallyvariousverywaswewere

givegivengivinggonegothadhardlyhashavehavingherehowhowever

readilyreallyrecentlyrefsregardingregardlessrelativelyrespectivelyresultedresultingresults

whatwhenwherewhetherwhichwhilewhowhosewhywidelywillwithwithinwithoutwouldyet

以’334专利的权利要求1作为例子，权利要求陈述“[a]n antennaelement comprising a conductor strip having a face thereof tapered to therebydefine an aperture taper；and a ground plane disposed parallel to at least aportion of said face，wherein a signal feed gap remains between said conductorstrip and said ground plane at said at least a portion of said face”。从权利要求1要去除的常用词汇是“element，”“comprising，”“thereof，”“wherein，”“said，”“an，”“a，”“having，”“to，”“an，”“and，”“at least，”“of”和“between.”。结果，在馈送器去除常用词汇和标点符号之后，权利要求1变成“antennaconductor strip face tapered define aperture taper ground plane disposedparallel portion face sinal feed gap remains conductor strip ground planeportion face”。删除常用词汇能够减少分类引擎将要分析的内容量，得到更高的计算效率和准确度。

以下是用于删除常用词汇的馈送器的一个典型语法：

For counter1＝1 to all_sentences_in_the_content{

For counter2＝1 to total_number_of_common_words_in_the common_word_list{

focused_common_word＝common_word_list[counter2]；

If the current sentence，all_sentences_in_the_content[counter1]，has the

focused_common_word，replace the focused_ccommon_word with space；

increase counter2；

}

increase counter1；

}

通过将复数单词转换成单数单词和/或将单词时态转换成现在时态，也能够提高馈送器。结果，在将复数单词转换成单数单词和将单词时态转换成现在时态之后，权利要求1变成“antenna conductor strip face taper defineaperture taper ground plane dispose parallel portion face signal feed gap remainconductor strip ground plane portion face”。

最后，如步骤94所示，馈送器将记录类别项的修改内容传送给分类引擎作进一步处理。

如图2所示，在步骤68，基于类别项的内容，分类引擎将结构文档分类。分类引擎是一个将检索结果分组的软件程序。许多现有的分类引擎，如Carrot2或Visimo，能够被用来执行分类检索的步骤68。对不同的分类引擎而言，馈送器被修正来满足分类引擎的不同输入要求(如数据结构和文本格式)。由于需要分类输入的文本，馈送器可能将从检索引擎接收到的内容重排格式给分类引擎。例如，分类引擎可能要求一个XML格式输入或一个SQL格式输入。因此，依照分类引擎定义的标准，需要一个软件程序来定制输入格式。

一旦结构文档根据类别项内容被分类，分类结果被传递给报告引擎。如此处所使用的，“分类结果”是指一个或多个在结构文档类别项内容里出现的显著词语。依靠用户偏好、行业规范和/或分类引擎供应商的经验，一个词语的显著性可以在很多方面来评估。例如，词语的显著性可以通过(1)词语出现的次数、(2)词语位置，如在一个句子的开头或结尾、(3)与其它词语一起出现的联合概率、(4)词语的单词数目、(5)其它度量、或(6)(1)到(5)的任何组合被测量。分类结果通常是一个词汇或短语的格式。

报告引擎是一个从分类结果生成报告给用户的软件程序。如步骤70所示，报告引擎能够以一个用户友好格式，将分类结果报告给用户。报告引擎如何报告分类结果，并没有固定的格式。例如，分类结果的输出可以是具有统计信息的文本格式。用户能够自由地决定怎样显示文本和统计信息。

图4显示一个查询项的典型分类结果。在这个例子中，查询项是Claim：stream*AND(description：“watermark”OR description：“signature”)ANDClaim：“sequence”，类别项是“摘要Abstract”。检索引擎找到有61个专利满足这个查询的检索标准。分类引擎决定的分类结果是“Received Unit”、“Detection”、“Values”等。在每个分类结果旁边，括号中的数字代表在61个专利中属于分类结果的专利数量。例如，在61个专利中，有22个专利满足查询检索标准，在摘要(Abstracts)里包含短语“Received Unit”。对每个分类结果，报告引擎还提供这些文档的链接。例如，当用户点击有记号“info”的按钮82，将显示所有的22个专利。

可选择地，报告引擎能够将分类引擎建立的分类结果翻译成不同语言。

分类检索可以在每个分类结果上执行，直到每个分类结果的结构文档数目小于一个阈值。阈值可以由用户定义，或者是一个预先定义的默认值。例如，当用户输入一个查询项到检索引擎时，检索引擎找到一些满足查询检索标准的文档(如1000个文档)。在这1000个文档里，分类引擎根据类别项的内容将它们分成一些分类结果(如10个分类结果)。每一个分类结果里有许多文档(如100个文档)显示。但是，一个分类结果里的文档可以被进一步分成许多分类结果，如另外5个分类结果，每个有20个文档。如果用户设定阈值是30个文档，那么对这20个文档将不需要进一步分类。另一方面，如果阈值被设定成10个文档，分类将会继续进行下去。

尽管本发明已经以首选实施例的方式进行了描述，但本领域的技术人员将会理解，可以在格式和细节上作出修改，而不偏离本发明的精神和范围。另外，本发明不限于其中所有细节，而是在不偏离本发明的精神和范围下可以作出修改和变化。

Claims

1.一种对存储在数据库中的多个结构文档执行分类检索的方法，包括：

(A)接收用户输入的结构文档的一个或多个类别项和一个查询项；

(B)根据查询项检索结构文档，获得多个查询文档；

(C)提取查询文档的一个或多个类别项的内容；

(D)仅根据查询文档的一个或多个类别项的内容，将查询文档分类，获得分类结果；和

(E)显示分类结果。

2.根据权利要求1所述的方法，还包括：在步骤(D)之前，从查询文档类别项的内容里删除常用词汇。

3.根据权利要求1所述的方法，还包括：在步骤(D)之前，将查询文档类别项内容里的复数名词转换成单数名词，和/或将查询文档类别项内容里的单词时态转换成现在时态。

4.根据权利要求1所述的方法，其中步骤(E)包括：对每个分类结果提供查询文档的链接；

5.根据权利要求1所述的方法，其中步骤(E)包括：将分类结果翻译成一种或多种不同语言；

6.根据权利要求1所述的方法，其中结构文档是专利文档、公司年报、或金融报告；

7.一种对存储在数据库中的多个结构文档执行分类检索的方法，包括：

(B)根据查询项检索结构文档，获得多个查询文档；

(C)提取查询文档的一个或多个类别项的内容；

(D)从查询文档的一个或多个类别项的内容里删除常用词汇；

(E)仅根据查询文档的一个或多个类别项的内容，获得分类结果；和

(F)显示分类结果，并对每个分类结果提供查询文档的链接。

8.根据权利要求7所述的方法，还包括：在步骤(E)之前，将查询文档类别项内容里的复数名词转换成单数名词，和/或将查询文档类别项内容里的单词时态转换成现在时态。

9.根据权利要求7所述的方法，其中步骤(E)包括：将分类结果翻译成一种或多种不同语言；

10.根据权利要求7所述的方法，其中结构文档是专利文档、公司年报、或金融报告；

11.一个对多个结构文档执行分类检索的系统，包括：

(A)用户界面，用于接收用户输入的结构文档的一个或多个类别结果和一个查询项；

(B)数据库，用于存储结构文档；

(C)检索引擎，根据查询项检索结构文档而获得多个查询文档；

(D)馈送器，用于提取查询文档的一个或多个类别项的内容；

(E)分类引擎，仅根据查询文档的一个或多个类别项的内容，将查询文档分类，获得分类结果；和

(F)报告引擎，用于显示分类结果。

12.根据权利要求11所述的系统，其中馈送器删除查询文档类别项的内容里的常用词汇。

13.根据权利要求11所述的系统，其中馈送器将查询文档类别项内容里的复数名词转换成单数名词，和/或将查询文档类别项内容里的单词时态转换成现在时态。

14.根据权利要求11所述的系统，其中报告引擎对每个分类结果提供查询文档的链接。

15.根据权利要求11所述的系统，其中报告引擎将分类结果翻译成一种或多种不同语言。

16.根据权利要求11所述的系统，其中结构文档是专利文档、公司年报、或金融报告。

17.一个对多个结构文档执行分类检索的系统，包括：

(A)用户界面，用于接收用户输入的结构文档的一个或多个类别项和一个查询项；

(B)数据库，用于存储结构文档；

(C)检索引擎，根据查询项检索结构文档，获得多个查询文档；

(D)馈送器，用于提取查询文档一个或多个类别项的内容，并删除查询文档一个或多个类别项的内容里的常用词汇；

(E)分类引擎，仅根据查询文档的一个或多个类别项的内容，获得分类结果；和

(F)报告引擎，用于显示分类结果，并对每个分类结果提供查询文档的链接。

18.根据权利要求17所述的系统，其中馈送器将查询文档类别项内容里的复数名词转换成单数名词，和/或将查询文档类别项内容里的单词时态转换成现在时态。

19.根据权利要求17所述的系统，其中报告引擎将分类结果翻译成一种或多种不同语言。

20.根据权利要求17所述的系统，其中结构文档是专利文档、公司年报、或金融报告。