CN102597991A - 文档分析与关联系统及方法 - Google Patents
文档分析与关联系统及方法 Download PDFInfo
- Publication number
- CN102597991A CN102597991A CN2010800494938A CN201080049493A CN102597991A CN 102597991 A CN102597991 A CN 102597991A CN 2010800494938 A CN2010800494938 A CN 2010800494938A CN 201080049493 A CN201080049493 A CN 201080049493A CN 102597991 A CN102597991 A CN 102597991A
- Authority
- CN
- China
- Prior art keywords
- term
- text
- local
- input
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
用于对多个文档进行标引的方法与系统,每个文档包括一个文本部分,该方法包括:a)解析该多个文档各自的文本部分以形成多个对应的本地文档索引,每个索引与一个对应的文档相关联,并且在一个数据库中存储本地文档索引,其中每个本地文档索引包括包含在该对应文档中的多个本地文本术语以及与每个文本术语相关联的一个本地权重;b)从该多个本地文档索引中形成包括包含在该多个文档中的多个全局文本术语的一个全局文档索引以及一个与每个全局文本术语相关联的全局权重;其中与这些全局文本术语中的每一个相关联的全局权重是相对于与一个参考全局文本术语相关联的一个参数所确定的。此外,在此披露了用于分析文本部分并且从数据库中检索与该文本部分相关的文档的方法和系统。此外,在此披露了用于提炼搜索结果的方法和系统。
Description
技术领域
本发明总体上涉及用于从文本字符串和/或包含一个或多个文本部分的文档中的信息提取的方案,并且特别地涉及用于分析文本字符串和/或文档及将这种文档与来自一个数据库的相关信息或文档相关联的方法和装置。
本发明进一步涉及识别并且检索与文本相关的文档。更具体地,本发明涉及通过从文本材料中产生相关术语列表并且权重这种术语以用来分析与这些加权的术语相关的信息和/或文档的一个文档数据库,从较大集合的文本材料中识别和检索感兴趣的文本部分(或文本片段)。
本发明开发主要用于分析一个文本部分并且将这种文本部分与在一个数据库中的相关的信息和/或文档相关联的方法和系统。然而,应理解本发明不限于该具体的使用领域。
背景技术
信息发起该搜索,所以返回到用户的文档相对于关键词的相关性通常是基于统计上最期望的结果的一个估计的输出,因为关键词本身产生大量的文档匹配,并且在输入文本中也没有足够的信息根据用户/搜索者的特别期望的相关性固有地对所有这些匹配进行排序。
随着待搜索的数据库中的文档的数目变大并且输入文本的量变小,在没有额外的信息(即未包含在初始输入文本或搜索查询中的信息)的情况下,搜索结果中的文档的相关性变得不可能确定。在如GoogleTM、YAHOOTM、微软BINGTM及其他的互联网搜索引擎的例子中,搜索算法的开发者已经发现了改进搜索结果的相关性的方法,最著名是GoogleTM的通过网页排名算法,这主要使用超文本链接结构以形成数十亿文档和数百万搜索术语的流行度指数。
流行度对于互联网“文本到文档”搜索很奏效,因为流行度方法学在绝大多数案例中找到与输入搜索查询相关的合适的信息。然而,因为输入和输出要求在很大程度上不同,所以这种类型的搜索对文档到文档搜索而言不太有用。文档到文档搜索以更多的输入文本并且总体上在给定增加的输入信息下对相关输出结果的更大期望发起的。迄今,GoogleTM将搜索查询中的输入术语的数目限制到50个术语或2048个字符。GoogleTM搜索的本质倾向于(不总是,但总体上是这种情况)当添加越多的信息到搜索查询中时找到越少的结果,因为额外的输入文本术语用来从搜索结果中排除(裁剪)尽可能多的文档。这对于文档到文档搜索而言不是一个有用的方法,因为当使用其中包含的文本作为输入搜索术语时,可能匹配一个特定文档的仅有的文档是其本身。
其他传统的搜索方法使用基于匹配元信息的技术。元信息主要是应用到每个文档的一组标记(或标签),这允许文档以不同的尺寸对齐。一个关于工作搜索的示例是应聘者以两个元字段位置=“洛杉矶”和工作类型=“全职”寻找一个工作。排除没有这些元匹配的所有文档。当数据库搜索在一个字段中的匹配(或非匹配)而不是跨整个文档的匹配时,元标签的特定本质允许非常快速地搜索数据库,这允许在检查全部文本内容之前从搜索中排除许多文档。然而,元搜索具有几个缺点,最显著的是必须为数据库中的每一个文档创建这些标签。这通常手动完成作为数据库输入流程的一部分,这极其费时并且还阻止数据的批量导入。尽管如隐性语义索引(LSI)的技术由于其语义上确定合适的标签的能力而变得更加流行。第二个显著的问题是围绕不同数据库的交叉兼容性问题。通常每个数据库提供者为每个元字段使用不同的规定,这使得跨不同平台的搜索实际上不可能。在一些例子中,元标签是自动产生的,但在许多例子中这或者简单地不是实际的、高度受限的、或者在分配到数据库中的文档的元标签的信息中导致较大的错误的实例。
不像上述文本到文档搜索和元搜索,文档到文档搜索在输入处理要求上具有进一步额外的复杂性,并且因此需要用于计算数据库中的文档相对于输入文档的相关性的不同的方法学。特别地,文档到文档搜索的目标不是找到新的信息(正如文本到文档或元标签搜索),而是找到最相似的文档、或包含最相关信息的文档。这种类型的文档搜索的应用很多,如研究、工作-应聘者匹配、法律案例匹配、专利资产组合管理及许多其他,在所有的这些例子中,搜索者以至少一个文档开始,这相比较于上述文本到文档和元标签搜索而言是比较大量的信息。
有几个文档到文档搜索应用的示例。例如,美国Iparadigms LLC公司已开发了一种用于学生和学术作品的抄袭的检测的文档搜索引擎。该技术寻找在数据库中存储的与输入文本部分或输入文本的多个部分匹配的参考文档的相同的单词字符串,这例如可以是有一个学生提交的作为课程研究的一部分的文章或论文。这种类型的搜索对于找到非常相似的内容片断(即相似措辞)而言非常有用,但当尝试寻找使用不同的措辞的相似内容的文档时则失效。
此外,美国Burning Glass Technologies公司已经开发了特别用于人力资源行业的技术。Burning Glass技术为一个特定职位识别成功的应聘者,并且然后使用相似的选择规则寻找与先前已经成功找到工作的应聘者具有相似度的应聘者。这种类型的匹配使用隐马尔可夫模型,并且是非常有用的技术,但是这种模型具有必须依赖先前成功案例的识别来预测新的成功案例的缺点。这一贯要求重复相同工作说明,因此这很大程度上仅对再补缺相似职位的大公司有用。因为大多数其他的文档到文档搜索不是重复、评估和再重复的,所以该技术在工作搜索之外不是非常有用的。因此,因为该搜索技术依赖重复和已经建立的成功案例的定义,Burning Glass旨在基于公司/机构的整合而不是更广泛的方法去匹配,这总之在一个封闭系统中的效果更好。
在搜索方法学的其他示例中,如美国Patent Cafe Inc的专利匹配技术中采用隐形语义分析(LSA)技术帮助专利搜索、资产组合分析、专利强度等。这种方法学观察文本术语并基于总量得分(每个术语是如何罕见)使用反向权衡对术语打分以找到一个匹配,例如在美国专利号4,839,853中所描述的。然而,LSA技术受到系统开始建立时的良好程度的限制,并主要依赖于在许多应用中可能不可靠的反向词语总量分析。同样,由于用户与通过这种LSA类型技术获得的结果进行交互,LSA技术总体上不能实时地适配,即这些技术在很大程度上是严格的并且很慢或者不能随着一个或多个数据库中的信息改变或者来自例如用户和/或额外的/外部的一个或多个信息源的外部输入而适配。当在输入中的术语的数目变得较大时,LSA分析也变得极其计算密集的,因为LSA通常使用一个术语和文档在每个对应的轴上的二维矩阵。这在所谓的“术语空间”中产生识别每个文档的一个语义向量。当术语的数目和/或文档的数目变得较大时,需要近似值以减少计算负荷。这样的减少典型地通过将语义上相似的术语(它们展示许多相同的文档)分组为更高级的组以减少术语空间。然而,遗憾的是,这种的简化具有几个缺点,主要在于:a)较罕见的术语不能配合到任何组中,b)具有混淆分组的双意的词(多义词),及c)具有相似的意思的多个词(同义词)。当这些语境问题中的任意一个出现在关键搜索术语上时,对近似值的依赖会产生更差的结果。
另一个搜索方法学涉及一个流程,该流程包括接收一个查询、识别该查询中的短语、识别该查询中短语的可能的一个或多个延伸以及搜索文档中的短语和从查询中识别的短语延伸之间一致的一个文档数据库。在美国专利申请号20060031195中披露了这种方法。该方法似乎与自动完成功能具有许多相似性,例如GoogleTM使用的基于先前搜索查询的流行度来预测对几个术语的查询的延伸,以缩小超过它的搜索范围,这可以从初始查询实现。然而,这种方法更适合于仅几个术语的输入查询,并且当输入查询术语的数目变大(大于10或更多)时具有困难,这将可能对短语和短语延伸的识别上施加极大的计算负荷。
因此,需要文本搜索的新方法,特别地涉及在输入文档包括大量术语的场合的整个文档到文档搜索应用。定义
提供下述定义作为一般的定义,但绝不应该将本发明的范围限制于那些术语,而是提出用于更好地理解下述说明。
除非以其他方式定义,在本文中使用的所有的术语(包括技术和科学的术语)与本发明所属的领域中的技术人员的共同理解具有相同的意思。应理解本文中使用的术语应该被解释为具有与在该说明书的上下文中和相关领域中的意思相同的意思,并且不能以理想化或过分形式意义解释,除非像本文那样明确规定。为了本发明的目的,在下文描述了额外的术语。
在本文中使用的术语仅用于描述具体的实施方案的目的,不旨在限制本发明。如在本文中所使用,单个冠词“一个”、“一种”和“该”也旨在包括复数形式,除非上下文明确指出,并且因此在本文中使用的是指冠词的语法对象的一个或超过一个(即至少一个)。举例,“一种元件”是指一个元件或超过一个元件。
在本文中使用的术语“大约”是指数量相对于参考数量变化多达30%、优选地多达20%、及更优选地多达10%。
在整个说明书中,除非上下文以其他方式要求,词语“包括”应理解为表示包括一个规定的步骤或元件或一组步骤或元件,但不排除任何其他的步骤或元件或其他组的步骤或元件。
在给定系统的处理限制和精确测量数据所要求的时间的情况下,术语“实时”(例如“显示实时数据”)是指数据的显示而没有故意的延迟。
术语“文本部分”是指包括至少一个单词的一段文本。
术语“文本术语”是指一个或多个单词(例如具有至少一个术语的一组单词)的一个有序的序列。“参考文本术语”是指存在于或定位于一个参考文档的文本部分中的文本术语。其中参考文本是存储在对其进行搜索的数据库中的多个文档之一。每个参考文档是一次搜索的一个潜在结果。相似地,“输入文本术语”是指定位在输入文档的一个文本部分中的文本术语或其可以被认为是编程术语中的一个字符串。术语“全局文本术语”是指存在于全局索引中并且因此具有关联的全局权重的一个文本术语。
术语“输入文档”是指包含用户希望将一次搜索基于它而在数据库中找到与输入文档相关的文档(参考文档)的输入文本部分的一个文档。在文档到文档搜索的例子中,这相似于用于使用如GoogleTM或YahooTM搜索引擎的互联网搜索的输入文档。
术语“输入文本部分”是指输入文档,除了在该例子中输入可能是多个文档、或简单地一组文本术语。因此,其在本质上是有待以其为基础进行搜索的输入文本的概括。
术语“本地文档索引”是指一个文档的文本部分的数据库表示、或者存储在一个数据库中的参考文档、或者通过用户输入到系统用于针对参考文档搜索的一个文档或文本部分。在本安排中,本地文档索引总体上包括从文档的解析中确定的文档中的文本术语,并且尽管其他信息还可以存储本地文档索引中,但是与每个术语相关联的一个文本术语权重将额外的信息包含到文本中并且用于计算结果的相关性。特别地,指代一个输入文档或文本部分的本地文档索引被称为一个“输入本地索引”或“输入本地文本术语索引”,并且术语“本地参考文档术语索引”是指为数据库中的参考文档中的每一个所形成的本地文档索引。相似地,术语“全局文本术语索引”或“全局术语索引”或“全局索引”是指存储在数据库中的索引(不同于本地索引),该数据库包含对存储在数据库中的整个文档集合中的每一个文本术语的概述信息(如权重)。
术语“本地权重”或“本地文本术语权重”或相似的术语是指与一个或多个本地文本术语索引中的一个文本术语相关联的数字权重值。相似地,术语“全局权重”、“全局文本术语权重”或相似术语是指与全局文本术语索引中的一个文本术语相关联的数字权重值。
术语“补充的输入本地文本术语索引”或“再形成的本地术语索引”是指在其被调整(再形成)以反映用户与通过数据库的搜索查询所检索到的结果的交互之后的输入本地文本术语索引。可替代地,可以基于从一个或多个额外的或外部数据源接收的信息再形成该索引。通常通过存储在其中的文本术语的本地文本术语权重的调整来再形成补充的索引,然而,在本文中讨论了再形成本地索引的其他方法。
术语“本地文本术语权重”和“全局文本术语权重”(及变化)是指分别为本地文本术语索引或全局文本术语索引中的文本术语中的每一个给定的数字得分,并且可以从与每个术语相关的多个参数确定每个权重。
术语“代表性文本字符串”典型地是指用来识别显示给用户的搜索结果中的文档的一个文档的一小部分。代表性文本字符串可以是围绕文档中的一个或多个术语的文本的分配,这被发现是与用户的查询相关并且因此对于用户能够确定该文档的相关性而不用复核整个文档而言是有用的。
多个术语的“交集”总体上是指在设定的分析环境中的其标准的意思,例如当两个或多个文档分享一个具体的文本术语时发现一个交集的场合。这种交集还可以包括在可以是同义词或其他相关术语之间的一个交集。
在下文参考根据本发明的方面与安排的方法、设备(系统)和/或计算机程序产品的框图和/或流程图示来描述本发明。应理解框图和/或流程图示的几个方框以及框图和/或流程图示中的方框的组合可以通过计算机程序指令执行。可以将这些计算机程序指令提供给一个通用计算机、专用计算机、和/或其他可编程数据处理设备的处理器以产生一个机器,以便通过计算机的处理器和/或其他的可编程数据处理设备执行的指令创建用于实施在框图和/或一个或多个流程方框中指定的功能/动作。
这些计算机程序指令还可以存储在计算机可读存储器中,该存储器可以控制一个计算机或其他的可编程数据处理设备以一种具体的方式工作,以便存储在计算机可读存储器中的指令产生一件制品,该制品包括实施在框图和/或一个或多个流程方框中指定的功能/动作的指令。
计算机程序指令还可以加载在一个计算机或其他的可编程数据处理设备上以促使在计算机或其他的可编程设备上执行一系列操作步骤以产生一个计算机实施的流程,以便在计算机或其他的可编程设备上执行的指令提供用于实施在框图和/或一个或多个流程方框中指定的功能/动作的步骤。
因此,本发明可以体现在硬件和/或软件中(包括固件、常驻软件、微代码等)。此外,本发明可以采用一个计算机可用或计算机可读存储媒质上的计算机程序产品的形式,该存储媒质具有体现在媒质中的计算机可用或计算机可读程序代码用于通过或结合一个指令执行系统使用。在该文档的背景中,计算机可用或计算机可读媒质可以是能够包含、存储、传递、传播、或传输程序用于通过或结合指令执行系统、设备、或装置使用的任何媒质。
计算机可用或计算机可读媒质例如可以是但不限于电子、磁学、光学、电磁、红外线、或半导体系统、设备、装置或传播媒质。计算机可读媒质的更具体的例子(一个非排他性列表)将包括以下各项:具有一条或多条线的电连接、便携式计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存存储器)、光纤、及便携式紧凑光盘只读存储器(CD-ROM)。注意:计算机可用或计算机可读媒质甚至可以是其上印刷有程序的纸张或另一种合适的媒质,因为该程序可以电子捕捉,例如通过纸张或其他媒质的光扫描,然后汇编、解释或以合适的方式处理,若必要的话,然后存储在计算机存储器中。
尽管相似于或等价于在本文描述的那些方法和材料的任何的方法和材料可以用在本发明的实践或测试中,但在此描述了优选的方法和材料。应理解本文描述的方法、设备、及系统能够以多种方法实施并且用于多种目的。在此的描述仅通过举例。概述
本发明的目标是基本上克服或至少改善现有技术的缺点中的一个或多个,或至少提供一个有用的替代方案。
根据一个第一方面,提供了一种对多个文档进行标引的方法。每个文档可以包括一个文本部分。该方法可以包括解析该多个文档各自的文本部分以形成多个对应的本地文档索引的步骤。每个本地文档索引可以与一个对应的文档相关联。本地文档索引可以存储在一个数据库中,或替代地存储在一个文件或一组文件中。每个本地文档索引可以包括包含在该对应文档中的多个本地文本术语。每个本地文档索引可以进一步包括与每个文本术语相关联的一个本地权重。该方法可以进一步包括形成一个全局文档索引的步骤。全局文档索引可以从该多个本地文档索引中形成。全局文档索引可以包括包含在该多个文档中的多个全局文本术语。全局文档索引可以进一步包括一个与每个全局文本术语相关联的全局权重。与这些全局文本术语中的每一个相关联的全局权重可以是相对于与一个参考全局文本术语相关联的参数所确定的。与全局文本术语相关联的全局权重可以是相对于多个参数所确定的,每个参数可以与一个对应的参考全局文本术语相关联。
在第一方面的一种安排中,提供了一种用于对多个文档进行标引的方法,每个文档包括一个文本部分,该方法包括以下步骤:a)解析该多个文档各自的文本部分以形成每个与一个对应的文档相关联的多个对应的本地文档索引,并且在一个数据库中存储本地文档,其中每个本地文档索引包括包含在该对应文档中的多个本地文本术语以及与每个文本术语相关联的本地权重;以及b)从该多个本地文档索引中形成包括包含在该多个文档中的多个全局文本术语的一个全局文档索引,以及与每个全局文本术语相关联的全局权重;其中与这些全局文本术语中的每一个相关联的全局权重是相对于与一个参考全局文本术语相关联的参数所确定的。
本地文档索引可以存储为一个包括文本术语以及相关联的权重的一个单一的逻辑计算机可读文件或者替代地存储为一组相关的逻辑计算机可读文件,其中每个单个的文本术语、或一组文本术语存储为包括相关联的细节和/或关联于对应的文本术语的权重。
可以相对于每个全局文本术语在其中在所有多个文档上出现的文档的数目进一步确定与这些全局文本术语中的每一个相关联的全局权重。可以相对于参考文本术语在其中出现的文档的数目确定与全局文本术语相关联的全局权重。
可以相对于用户交互进一步确定与全局文本术语相关联的全局权重。额外地或替代地,可以相对于额外的和/或外部信息源进一步确定与全局文本术语相关联的全局权重。与每个文本术语相关联的本地权重可以包括多个权重的组合,每个权重与每个本地文本术语相关联。可以相对于从下组中所选一个或多个参数进一步确定一个或多个权重,该组的构成为:术语在单个文档中出现的次数;术语在所有多个文档中出现的次数;文本术语在一个文档中的位置;术语的大写;在术语周围的标点符号;临近术语的文本部分中的单词;单词罕见度;单词序列;文本术语的组合;或在每个文本术语中的单词的数目;用户定义的权重;或本领域技术人员应理解的其他合适的参数。额外地或替代地,可以从下组中选择一个或多个权重,该组的构成为:一个单词或文本术语的字体大小、字体族群、字体粗细、字体风格、字体装饰、字体颜色、下标、上标、以及文本术语在文档结构中出现的地方(例如在标题、评论、脚注、页眉、页脚、或在文档的元信息中)。可以相对于每个文本术语的本地权重进一步确定与每个全局文本术语相关联的全局权重。针对一个具体的文本术语的本地权重当与不同的文档相关联时可以是不同的,因此导致文本术语在其中出现的具体文本术语的多个本地术语权重,并且可以相对于该具体的文本术语的多个本地权重的组合确定全局权重。
该权重可以是正权重或负权重。其中该多个权重中的一个或多个是用于所选全局文本术语的负权重,可以为该所选全局文本术语分配一个零权重。或者,该权重可以选自权重范围从正到负的一个刻度尺,例如选自例如包括分等级的权重的刻度:(非常差)-(差)-(中)-(好)-(非常好)
用户定义的权重可以来源于一个自学习系统,该系统包括用于一个所选文本术语、或一个或多个本地文本术语或一个或多个全局文本术语中的多个用户定义的权重。
可以在文本部分中识别多个文本术语。可以为该多个文本术语中的每一个分配至少一个相关联的本地术语权重。至少一个或多个文本术语可以在输入文本部分中包括单词型术语。相关的术语可以在输入文本部分内包括双词型术语。至少一个或多个文本术语可以在输入文本部分内包括三词型术语。文本部分可以包括大量的文本术语、例如高达或超过5个文本术语、或高达或超过10个、高达或超过20个、高达或超过50个、高达或超过100个、高达或超过500个、高达或超过1000个、高达或超过5000个、高达或超过10000个、高达或超过20000个、高达或超过50000个、高达或超过100000个、高达或超过250000个、高达或超过500000个、高达或超过1000000个或更多文本术语,并且可以取决于可用的处理能力。
文本部分可以是包括多个文本单词的一个文本字符串。文本部分可以是一个文本文档。文本部分可以选自下组中各项的一个或多个中,该组构成为:包括一个或多个单词的一个文本字符串;一个文本文档;一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份简历;一份履历表;一份法律抄录;一份法律文档;或一份新闻报道。文本部分可以包括大量的文本术语、例如高达或超过5个单词、或高达或超过10个、高达或超过20个、高达或超过50个、高达或超过100个、高达或超过500个、高达或超过1000个、高达或超过5000个、高达或超过10000个、高达或超过20000个、高达或超过50000个、高达或超过100000个、高达或超过250000个、高达或超过500000个、高达或超过1000000个或更多的单词。
参考文档可以是代表选自下组中各项中的一个或多个中的一个文档的文本文档,该组的构成为:一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份招聘广告;一份法律抄录;一份法律文档;或一份新闻报道。
根据本发明的一个第二方面,提供了一种用于对多个文档进行标引的系统。每个文档可以包括一个文本部分。该系统可以包括用于解析该多个文档各自的文本部分的一个解析模块以形成多个对应的本地文档索引,其中每个本地文档索引与一个对应的文档相关联。每个本地文档索引可以包括在对应的文档中包含的多个本地文本术语以及与每个文本文档相关联的一个本地权重。该系统进一步包括被适配为在存储器中存储本地文档中的每一个的一个数据库,其中该数据库可以是传统的数据库,或可替代地它可以是基于文件的存储器。该系统可以进一步包括一个处理器,该处理器用于分析该多个本地文档索引以及从该多个本地文档中形成一个全局文档索引。该全局文档索引可以包括包含在该多个文档中的多个全局文本术语。该全局文档索引可以进一步包括与每个全局文本术语相关联的一个全局权重。可以相对于与一个参考全局文本术语相关联的参数确定与全局文本术语中的每一个相关联的全局权。该全局文档索引可以存储在该数据库中并且相关于本地文档索引中的每一个。
在一个第二方面的安排中,提供了一种用于对多个文档进行标引的系统,每个文档包括一个文本部分,该系统包括:一个解析模块,该解析模块用于解析该多个文档各自的文本部分以形成多个对应的本地文档索引,每个索引与一个对应的文档相关联,其中每个本地文档索引包括包含在该对应文档中的多个本地文本术语以及与每个文本术语相关联的至少一个本地权重;一个数据库,该数据库被适配为在一个存储器中存储这些本地文档索引中的每一个;一个处理器,该处理器用于分析该多个本地文档索引并且从该多个本地文档索引中形成全局文档索引,该全局文档索引包括包含在该多个文档中的多个全局文本术语以及与每个全局文本术语相关联的一个全局权重;其中与这些全局文本术语中的每一个相关联的全局权重是相对于与一个参考全局文本术语相关联的参数所确定的;并且其中该全局文档索引存储在该数据中并且与本地文档索引中的每一个相关。
可以在该文本部分识别多个文本术语。可以为该多个文本术语中的每一个分配至少一个相关联的本地术语权重。可以参考全局术语索引确定相关联的一个或多个本地术语权重。
该至少一个或多个文本术语可以在输入文本部分内包括单词型术语。这些相关术语可以在输入文本部分内包括双词型术语。该至少一个或多个文本术语可以在输入文本部分内包括三词型术语。
该文本部分可以是包括多个文本单词的一个文本字符串。该文本部分可以是一个文本文档。该文本部分可以选自下组中各项中的一个或多个,该组的构成为::包括一个或多个单词的一个文本字符串;一个文本文档;一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份简历;一份履历表;一份法律抄录;一份法律文档;或一份新闻报道。
这些参考文档可以是文本文档、或包括一个文本部分、代表选自下组的各项中的一个或多个中的一个文档的文档:一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份招聘广告;一份法律抄录;一份法律文档;或一份新闻报道。作为搜索过程的一部分,可以为参考文档中的每一个分配一个代表与输入文本部分的相关性的文档相关性得分。
根据一个第三方面,提供了一种用于分析文本部分并且检索与该文本部分相关的文档的方法。该方法可以包括接收包括一个文本部分的输入的步骤。该方法可以进一步包括识别文本部分中的至少一个文本术语的步骤。该方法可以进一步包括分配与该至少一个文本术语相关联的至少一个权重的步骤。该方法可以进一步包括形成该至少一个文本术语的一个输入本地索引以及至少一个相关联的本地术语权重的步骤。可以参考存储在数据库中的全局术语索引确定该至少一个相关联的本地术语权重。全局术语索引可以包括多个全局文本术语和相关联的全局文本术语权重。该全局术语索引可以从多个参考文档中形成。参考文档中的每一个的图示可以存储在数据库中。该方法可以进一步包括查询数据库以识别与输入文本部分相关的参考文档中的一个或多个。该方法可以进一步包括输出所识别的相关参考文档的一个图示的步骤。
在第三方面的安排中,提供了一种用于分析文本部分并且检索与该文本部分相关的文档的方法,该方法包括以下步骤:
a)接收包括一个输入文本部分的一个输入;
b)识别在该文本部分中的至少一个文本术语;
c)分配与该至少一个文本术语相关联的至少一个权重;
d)形成该至少一个文本术语的一个输入本地索引和至少一个相关联的本地术语权重,其中该至少一个相关联的本地术语权重是参考存储在一个数据库中的全局术语索引所确定的,该全局术语索引包括多个全局文本术语和相关联的全局文本术语权重并且从多个参考文档中形成,其中参考文档中的每一个的图示存储在数据库中;
e)查询数据库以识别与输入文本部分相关的参考文档中的一个或多个;并且
f)输出所识别的相关参考文档的一个图示。
存储在数据库中的多个参考文档中的每一个的图示可以包括参考文档或到其的一个链接。该图示可以进一步包括针对每个参考文档的一个对应的本地参考术语索引。
存储在数据库中的多个参考文档中的每一个的图示可以包括来源于每个参考文档的文本部分中的一个代表性文本字符串以及一个对应的本地参考术语索引。
可以在文本部分中识别多个文本术语。可以为该多个文本术语中的每一个分配至少一个相关联的本地术语权重。可以参考全局术语索引确定一个或多个相关联的本地术语权重。
步骤(b)可以包括解析文本部分以识别至少一个或多个文本术语。
在步骤(e)中,可以从输入本地索引与相关联于每个对应的参考文档的多个参考本地索引中的每一个的比较中确定相关参考文档。
在步骤(e)中,可以从输入文本部分的至少一个或多个文本术语与相关联于每个参考文档的本地参考术语索引中的一个或多个术语的至少一个交集中确定相关参考文档。
可以根据选自下组的各项中的一个或多个参数将这些权重分配到该至少一个或多个术语中的每一个:单词罕见度;标点符号;大写;单词序列;术语的组合;或在每个术语中的单词的数目。
所识别的相关参考文档的图示包括来源于所识别的相关参考文档中的每一个的文本的一个代表性文本字符串。来自每个文档的代表性文本字符串可以包括在具有重要权重的一个或多个所选相关文本术语之前和/或之后的所选数目的文本单词。
第三和第四方面的方法可以被适配为例如相对于所显示的文本中的一个或多个从一个或多个外部数据源中获得信息。该方法可以进一步包括在来自该一个或多个外部数据源信息的基础上再形成输入本地术语索引的步骤。该一个或多个外部数据源可以包括互联网,该互联网包括例如一个或多个互联网可访问数据库和/或一个或多个互联网网页;一个或多个新闻信息源;一个或多个金融和/或股票信息源;一个或多个科学信息源;一个或多个专业社会信息源等等;以及可以是一个或多个初级、次级和/或第三级信息源。
第三和第四方面的方法可以进一步包括和/或可替代地包括在一个用户界面上显示相关参考文档的步骤。该用户界面可以提供在一个客户端装置上。该用户界面可以包括相对于所显示的参考文档中的每一个用于接收用户输入的装置。合适的客户端装置的例子可以是个人计算机、数字助理、个人数字助理、蜂窝电话、移动电话、智能电话、传呼器、数字平板电脑、笔记本计算机、互联网家电、以及其他基于处理器的装置。客户端装置可以是通用计算机或便携式计算装置。
客户端装置总体上包括一个处理器,该处理器执行存储在连接到该处理器上的计算机可读存储媒质(如随机存取存储器和/或只读存储器)中的计算机指令。这种处理器可以包括微处理器、ASIC、以及状态机。这种处理器包括、或可以与媒质通信,例如存储指令的计算机可读媒质,当由处理器执行时,这些致使处理器执行本文中描述的步骤。该计算机可读媒质可以包括用于执行在本文中披露的一个或多个方法的步骤,所述程序控制数据处理设备的运行,该程序在其上运行以执行该一个或多个方法的步骤。合适的计算机可读媒质的示例可以包括但不限于能够提供为处理器提供计算机可读指令的电子、光学、磁、或其他的存储或传输装置。合适的媒质的其他的示例包括但不限于软盘、CD-ROM、DVD、磁盘、存储芯片、ROM、RAM、ASIC、配置的处理器、所有光学媒质、所有磁带、或其他磁媒质、或计算机处理器可以从其中读出指令的任何其他媒质。此外,多种其他形式的计算机可读媒质可以将指令传输或携带到计算机,包括路由器、私人或公共网络、或其他的有线和无线的传输装置或通道。客户端装置可以进一步包括用于将指令传输或携带到计算机的数据连接,例如连接到一个网络上,例如局域网、或广域网或互联网。在其他的安排中,可以使用内部网。该数据连接可以使用一个合适的无线连接协议的无线数据连接。在其他的安排中,根据本发明的方法可以在单个计算装置中执行。
该方法可以进一步包括相对于所显示的文档中的一个或多个通过客户端装置上的用户界面接受用户输入的步骤。该方法可以进一步包括在用于输入的基础上再形成输入本地术语索引的步骤。
可替代地,该方法可以进一步包括相对于所显示的文档中的一个或多个例如从一个或多个外部数据源获得信息的步骤。该方法可以进一步包括在来自一个或多个外部数据源的信息的基础上再形成输入本地术语索引的步骤。该一个或多个外部数据源可以包括互联网(包括例如一个或多个互联网可访问数据库和/或一个或多个互联网网页)、一个或多个新闻信息源、一个或多个金融和/或股票信息源、一个或多个科学信息源、一个或多个专业社会信息源等等、并且可以是一个或多个初级、次级和/或第三级信息源。
该方法可以进一步包括在再形成的输入本地术语索引的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档的步骤。该方法可以进一步包括输出具有加强相关性的进一步识别的参考文档的图示的步骤。
在第三方面的又一个安排中,该方法可以进一步包括以下步骤:g)在一个用户界面上显示相关参考文档,该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的输入装置;h)相对于所显示的文档中的一个或多个接受用户输入;i)在用户输入的基础上再形成输入术语索引;j)在再形成的输入本地术语索引的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档;以及k)输出具有加强的相关性的进一步识别的参考文档的一个图示。
在一个安排中,步骤(i)中的再形成输入本地术语索引可以包括:重新分配同样出现在为其接收用户确定的输入的参考文档中的每一个中的输入文本术语的输入本地文本术语权重;在该安排中,步骤(j)可以包括在重新分配的输入本地文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
在步骤(g)中,用户输入装置可以是相对于每个所显示的参考文档用于分配正相关性权重和负相关性权重的一个装置。该权重可以是正权重或负权重。其中该多个权重中的一个或多个是用于所选全局文本术语的一个负权重,可以为该所选全局文本术语分配一个零权重。或者,该权重可以选择权重范围从正到负的一个刻度尺,例如选自例如包括分等级的权重的刻度:(非常差)-(差)-(中)-(好)-(非常好)。
第三方面的安排可以包括重复步骤(h)到(k),从而识别并输出与在文本部分中的相关文本术语具有增加的加强的相关性的一个或多个进一步相关的文档。
第三方面的安排可以进一步包括在具有加强的相关性的参考文档上的重复步骤(h)到(k),以识别并输出具有额外的加强的相关性的参考文档。
该额外的相关性信息可以包括一个文档的正的相关性指示。该具体的文档或一个具体文档的负的相关性指示或额外的相关性信息的图示可以选自权重范围从正到负的一个刻度尺,例如选自例如包括分等级的权重的刻度:(非常差)-(差)-(中)-(好)-(非常好),或可以包括更多或更少的刻度等级的一些其他相似的刻度。
对于接收正的相关性指示的每个参考文档而言,同样出现在被识别为正的参考文档的本地文本术语索引中的输入本地索引中的输入文本术语中的每一个的相关联的权重可以增加一个预定的量。该预定的量可以是施加到索引术语权重的一个乘数。该乘数可以是大于1的一个数字。该乘数可以是在1和10000或更大之间的一个数字。该乘数可以是在1和1000之间、1和500之间、1和100之间、1和50之间、1和40之间、1和30之间、1和20之间、1和10之间、1和5之间的一个数字以及例如可以是1、1.5、2、2.5、3、3.5、4、4.5、5、6、7、8、9、10、20、30、40、50、100、200、300、400、500、1000、2000、3000、4000、5000、6000、7000、8000、9000或10000。具体的文本术语可以出现在多个参考文档中。该乘数可以取决于接收一个正指示并且一个具体的文本术语在其中出现的参考文档的数目。例如,一个具体的文本术语仅出现在接收正指示的一个文档中,应用到该文本术语的乘数可以是一个第一乘数。若具体的文本术语出现在两个文档中,应用到文本术语中的乘数可以大于第一乘数的一个第二乘数。相似地,若具体的文本术语出现在三个文档中,应用到文本术语的乘数可以是大于第二乘数的一个第三乘数,等等。作为一个示例,对于一个具有正指示的文档而言,该乘数可以是2,对于两个文档而言是4,对于三个文档而言是8等等。当然还可以使用其他的乘数,并且具体的乘数值可以是动态的,例如考虑到以下因素:如用户交互、启发式分析、从一个或多个外部信息源中获得的数据,或本领域技术人员理解的其他因素。
对于接收负的相关性指示中的每一个参考文档而言,同样出现在被识别为负的参考文档的本地文本术语索引中的输入本地索引中的输入文本术语中的每一个的相关联的权重可以减少一个预定的量。在具体的安排中,对于接收负的相关性指示中的每一个参考文档而言,同样出现在被识别为负的参考文档的本地文本术语索引中的输入本地索引中的输入文本术语中的每一个的相关联的权重可以减少到一个零值。该预定的量可以是应用到索引术语权重的一个乘数。该乘数可以是零以便一个所选术语与随后的交互不相关在替代的安排中,该乘数可以是在0和1之间的值以便该文本术语具有减少的权重,这将致使该文本术语对随后的计算和匹配查询具有一个减少的影响,但仍对随后的数据库查询保持一些影响以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
在一个所选文本术语出现在接收一个正的相关性指示的一个或多个文档中并且该所选文本术语同样出现在接收一个负的相关性指示的一个或多个文档的场合中,可以基于该正负指示的组合更新在输入本地索引中的所选文本术语的相关联的权重。
在该所选文本术语出现在接收一个正的相关性指示的一个或多个文档中并且该所选文本术语同样出现在相等数目的接收一个负的相关性指示的文档的场合中,在输入本地索引中的所选文本术语的相关联的权重可以不改变。
在该安排中,在步骤(i)中输入本地术语索引的再形成可以包括在接收一个正的相关性指示的参考文档的本地术语索引中的文本术语的基础上形成一个补充的输入本地术语索引。在该安排中,步骤(j)可以包括在补充的输入本地文本术语索引中的输入本地文本术语权重的基础上查询数据库以识别与该输入文本部分具有加强相关性的一个或多个相关参考文档。
对于为其接受一个正的相关性指示的每个参考文档而言,可以将未出现在输入本地术语索引中的被识别为正的术语添加到其中,以一起形成补充的本地文本术语索引以及所确定的相关联的本地索引文本术语权重。
该文本部分是包括多个文本单词的一个文本字符串。该文本部分可以是一个文本文档。该文本部分可以是选自下组中的各项中的一个或多个,该组的构成为:包括一个或多个单词的一个文本字符串;一个文本文档;一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份简历;一份履历表;一份法律抄录;一份法律文档;或一份新闻报道。
参考文档可以是代表选自下组中的各项中的一个或多个中的一个文档的文本文档,该组的构成为:一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份招聘广告;一份法律抄录;一份法律文档;或一份新闻报道。可以为参考文档中的每一个分配一个代表与输入文本部分的相关性的文档相关性得分。
根据一个第四方面,提供了一种用于提炼搜索结果的方法。这些搜索结果可以包括所选多个参考文档的一个图示。所显示的参考文档可以相关于包括一个或多个搜索术语的输入文本部分。所选多个参考文档可以包括一个数据库中的多个文档的一个子集。该方法可以包括从搜索术语中形成一个本地术语索引的步骤。本地术语索引可以包括一个或多个文本术语。每个本地文本术语可以与一个本地文本术语权重相关联。该方法可以进一步包括在一个用户界面上接收并显示搜索结果的步骤。用户界面可以提供在如上披露的一个客户端装置上,并且包括相对于所显示的参考文档中的每一个或多个用于接收用户输入的装置。该方法可以进一步包括在所显示的参考文本的一个或多个上接收用户输入的步骤。该方法可以进一步包括在用户输入的基础上再形成输入术语索引的步骤。该方法可以进一步包括在再形成输入本地术语索引的基础上查询数据库以识别与搜索术语具有加强的相关性的一个或多个文档的步骤。该方法可以进一步包括输出具有加强的相关性的进一步识别的参考文档的一个图示的步骤。
在第四方面的示例安排中,提供了一种用于提炼搜索结果的方法,这些搜索结果包括所选多个参考文档的一个图示,所显示的这种参考文档相关于包括一个或多个搜索术语的输入文本部分、包括在一个数据库中的多个文档的一个子集的所选多个参考文档,该方法包括以下步骤:
a)从搜索术语中形成一个本地术语索引,该本地术语索引包括一个或多个文本术语,每个本地文本术语与一个本地文本术语权重相关联;
b)接收这些搜索结果并将其显示在一个用户界面上,该用户界面包括相对于多个所显示的参考文档中的一个或多个用于接收用户输入的输入装置;
c)在所显示的参考文档中的一个或多个上接受用户输入;
d)在用户输入的基础上再形成本地术语索引;
e)在再形成输入本地术语索引的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个文档;以及
f)输出具有加强的相关性的进一步识别的参考文档的一个图示。
在步骤(d)中,再形成本地术语索引可以包括步骤(d.1):重新分配同样出现在为其接收用户确定的输入的参考文档中的每一个中的输入文本术语的输入本地文本术语权重的步骤;并且其中步骤(e)可以包括(e.1):在重新分配的输入本地文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档的步骤。
在步骤(a)中针对本地文本术语中的每一个的本地文本术语权重可以是相等的。在步骤(a)中针对本地文本术语中的每一个的本地文本术语权重可以来源于一个全局文本术语索引。该全局文本术语索引包括与全局文本术语权重相关联的多个文本术语。在具体的安排中,这些全局文本术语权重可以来源于多个文档的文本术语分析。
在步骤(d)中,再形成输入本地术语索引包括步骤(d.2):在接收一个正的相关性指示的文档的本地术语索引中的文本术语的基础上,形成一个补充的输入本地术语索引,其中步骤(e)可以包括步骤(e.2):在补充的输入本地术语索引中的输入本文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
对于接收一个正的相关性指示的每个参考文档而言,可以将未出现在本地术语索引中的被识别为正的新的术语添加到其中以形成补充的本地文本术语索引并且确定用于新术语的相关联的本地索引文本术语权重。
对于接收一个负的相关性指示中的每一个参考文档而言,在被识别为负的未出现在本地术语索引中的参考文档中的术语在随后的数据库搜索/查询中权重下降,以便它们不太可能涉及到确定一个相关文档的匹配。这可以通过用一个乘数(例如在0和1之间的值)修改出现在被识别为负的文档中的文本术语的权重来实现,以减少该权重并且因此减少该文本术语在确定相关文档中的影响。这也可以利用一个乘数(例如在0和1之间的一个值)以减少该权重。
根据一个第五方面,提供了一种用于提炼搜索结果的系统。这些搜索结果可以包括与一个或多个搜索术语相关的所选多个文档的一个图示。该所选多个文档可以包括在一个数据库中的多个文档的一个子集。该系统可以包括用于从搜索术语中形成一个本地术语索引的装置。该本地术语索引包括一个或多个文本术语。每个本地文本术语与一个本地文本术语权重相关联。该系统可以进一步包括用于在一个用户界面上接收并显示搜索结果的装置。该用户界面可以是提供在如上披露的客户端装置上并且可以包括相对于所显示的参考文本中的每一个用于接收用户输入的装置。该系统可以进一步包括用于在所显示的文档中的一个或多个上接收用户输入的用户输入装置。该系统可以进一步包括用于分析用户输入并且在用户输入的基础上再形成输入本地术语索引的处理装置。该系统可以进一步包括用于在再形成的输入本地术语索引的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个文档的查询装置。该系统可以进一步包括输出具有加强的相关性的进一步识别的参考文档的图示的输出装置。
在第五方面的一个具体的示例安排中,提供了一种提炼搜索结果的系统,这些搜索结果可以包括与一个或多个搜索术语相关的所选多个文档的一个图示,该所选多个文本包括在一个数据库中的多个文档的一个子集。该系统可以包括:
用于从搜索术语中形成一个本地术语索引的装置,该本地术语索引包括一个或多个文本术语,每个本地文本术语与一个本地文本术语权重相关联;
用于在一个用户界面上接收并显示搜索结果的装置,该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的输入装置;
用于在所显示的文档中的一个或多个上接受用户输入的用户输入装置;
用于分析用户输入并且在用户输入的基础上再形成输入本地术语索引的处理装置;
用于在再形成的输入本地术语索引的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个文档的查询装置;以及
输出具有加强的相关性的进一步识别的参考文档的图示的输出装置。
根据一个第六方面,提供了一种分析输入文本部分并且检索与该文本部分相关的文档的系统。该系统可以包括用于接收包括一个输入文本部分的输入的输入装置。该系统可以进一步包括识别在文本部分中的至少一个文本术语的识别装置。该系统可以进一步包括用于分配与至少一个文本术语相关联的至少一个权重的分配装置。该系统可以进一步包括用于形成至少一个文本术语的输入本地术语索引和至少一个相关联的本地术语权重的标引装置。可以参考存储在一个数据库中一个全局术语索引确定该至少一个相关联的本地文本术语。该全局文本术语包括多个全局文本术语和相关联的全局文本术语权重,并且从多个参考文档中形成。可以将参考文档中的每一个的图示存储在数据库中。该系统可以进一步包括用于查询数据库以相对于输入文本部分识别一个或多个相关和的参考文档的查询装置。该系统可以进一步包括用于输出识别的相关参考文档的图示的输出装置。
在第六方面的示例安排中,提供了一种分析输入文本部分并且检索与该文本部分相关的文档的系统,该系统包括:用于接收包括一个输入文本部分的输入的输入装置;识别在文本部分中的至少一个文本术语的识别装置;用于分配与至少一个文本术语相关联的至少一个权重的分配装置;用于形成至少一个文本术语的输入本地术语索引和至少一个相关联的本地术语权重的标引装置,其中该至少一个相关联的本地文本术语是参考存储在一个数据库中存储的一个全局术语索引所确定的,该全局文本术语包括多个全局文本术语和相关联的全局文本术语权重,并且从多个参考文档中形成,其中这些参考文档中的每一个的图示存储在数据库中;用于查询数据库以相对于输入文本部分识别一个或多个相关的参考文档的查询装置;以及用于输出所识别的相关参考文档的图示的输出装置。
在一个具体的安排中,存储在数据库中的多个参考文档中的每一个的图示包括或该参考文档或到其的一个链接。该图示可以进一步包括用于每个参考文档的一个对应的本地参考术语索引。
在又一个具体的安排中,存储在数据库中的多个参考文档中的每一个的图示包括来源于每个参考文档的文本部分的一个代表性文本字符串。该图示可以进一步包括一个对应的本地参考术语索引。
可以在文本部分中识别多个文本术语。可以为多个文本术语中中的每一个分配至少一个参考全局术语索引所确定的相关联的本地术语权重。
在第六方面的系统可以进一步包括用于在一个用户界面上显示相关参考文档的显示装置。该用户界面可以提供在如上披露的一个客户端装置上。该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的装置。该系统可以进一步包括在所显示的文档中的一个或多个上接收用户输入的用户输入装置。该系统可以进一步包括用于分析用户输入并且再形成输入本地文本术语索引的处理装置。该系统可以进一步包括用于在再形成的输入本地文本术语索引的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档的查询装置。该系统可以进一步包括用于输出具有加强的相关性的进一步识别的参考文档的图示的装置。
在第六方面的又一个示例安排中,该系统可以包括:用于在一个用户界面上显示相关参考文档的显示装置,该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的输入装置;在所显示的文档中的一个或多个上接收用户输入的用户输入装置;用于分析用户输入并且再形成输入本地文本术语索引的处理装置;用于在再形成的输入本地文本术语索引的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档的查询装置;以及用于输出具有加强的相关性的进一步识别的参考文档的图示的装置。
输入本地术语索引的再形成可以包括重新分配同样出现在为其接收用户确定的输入的参考文档中的每一个中的输入文本术语中的输入本地文本术语权重。此外,在再形成的输入本地文本术语索引的基础上查询数据库可以包括在重新分配的输入本地文本术语权重的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
在其他的安排中,输入本地术语索引的再形成可以包括在接收一个正的相关性指示的文档的本地术语索引中的文本术语的基础上形成一个补充的输入本地术语索引。此外,在再形成输入本地文本术语索引的基础上查询数据库包括:在补充的输入本地文本术语索引中的输入本地文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强相关性的一个或多个相关参考文档。
根据一个第七方面,提供了一种包括用于分析文本部分并且检索与该文本部分相关的文档的程序的计算可读媒质,该程序控制一个数据处理设备的运行,该程序在其上运行以执行以下步骤:
a)接收包括一个输入文本部分的一个输入;
b)识别在该文本部分中的至少一个文本术语;
c)分配与该至少一个文本术语相关联的至少一个权重;
d)形成至少一个文本术语的一个输入本地索引和至少一个相关联的本地术语权重,其中该至少一个相关联的本地术语权重是参考存储在一个数据库中的全局术语索引所确定的,该全局术语索引包括多个全局文本术语和相关联的全局文本术语权重,并且从多个参考文档中形成,其中这些参考文档中的每一个的图示存储在数据库中;
e)查询数据库以识别与输入文本部分相关的参考文档中的一个或多个;以及
f)输出所识别的相关参考文档的一个图示。
在具体的安排中,该程序可以额外地运行以执行进一步的步骤:
g)在一个用户界面上显示相关参考文档,该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的输入装置;
h)相对于所显示的文档中的一个或多个接受用户输入;
i)在用户输入的基础上再形成输入本地术语索引;
j)在再形成的输入本地术语索引的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档;以及
k)输出具有加强的相关性的进一步识别的参考文档的一个图示。
根据一个第八方面,提供了一种包括用于提炼搜索结果的程序的计算机可读媒质,这些搜索结果包括所选多个参考文档的一个图示,所显示的这种参考文档与包括一个或多个搜索术语的一个输入文本部分相关,该所选多个文档包括多个文档在一个数据库中的一个子集,所述程序控制一个数据处理设备的运行,该程序在其上运行以执行以下步骤:
a)从搜索术语中形成一个本地术语索引,该本地术语索引包括一个或多个文本术语,每个本地文本术语与一个本地文本术语权重相关联;
b)在一个用户界面上接收并显示搜索结果,该用户界面包括相对于所显示的多个参考文档中的一个或多个用于接收用户输入的输入装置;
c)在所显示的文档中的一个或多个上接受用户输入;
d)在用户输入的基础上再形成输入本地术语索引;
e)在再形成的输入本地术语索引的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个文档;以及
f)输出具有加强的相关性的进一步识别的参考文档的一个图示。
在上述方面和/或安排中的任何一个中,相对于形成一次搜索查询的结果的参考文档中的一个或多个,可以从例如一个或多个外部数据源中获得进一步的信息。该进一步的信息可以用于在来自一个或多个外部数据源的基础上再形成输入本地术语索引。一个或多个外部数据源可以包括互联网(例如一个或多个互联网可访问数据库和/或一个或多个互联网网页)、一个或多个新闻信息源、一个或多个金融和/或股票信息源、一个或多个科学信息源、一个或多个专业社会信息源等等、并且可以是一个或多个初级、次级和/或第三级信息源。
在上述方面和/或安排的任何一个中,该文本部分可以是包括多个文本单词的一个文本字符串。该文本部分可以是一种文本文档。该文本部分可以选自下组中各项中的一个或多个,该组的构成为::包括一个或多个单词的一个文本字符串;一个文本文档;一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份简历;一份履历表;一份法律抄录;一份法律文档;或一份新闻报道。文本部分可以包括大量的文本术语、例如高达或超过5个单词、或高达或超过10个、高达或超过20个、高达或超过50个、高达或超过100个、高达或超过500个、高达或超过1000个、高达或超过5000个、高达或超过10000个、高达或超过20000个、高达或超过50000个、高达或超过100000个、高达或超过250000个、高达或超过500000个、高达或超过1000000个或更多的单词。
在上述方面和/或安排中的任何一个中,可以在文本部分中识别多个文本术语。可以为多个文本术语中的每一个分配至少一个相关联的本地术语权重。该至少一个或多个文本术语可以包括在输入文本部分内的单词型术语。相关术语可以包括在输入文本部分内的双词型术语。该至少一个或多个文本术语可以包括在输入文本部分内的三词型术语。文本部分可以包括大量的文本术语、例如高达或超过5个文本术语、或高达或超过10个、高达或超过20个、高达或超过50个、高达或超过100个、高达或超过500个、高达或超过1000个、高达或超过5000个、高达或超过10000个、高达或超过20000个、高达或超过50000个、高达或超过100000个、高达或超过250000个、高达或超过500000个、高达或超过1000000个或更多术语,并且取决于可用的处理能力。
附图简要说明
现将参考附图仅通过示例描述本发明的安排,其中:
图1是根据在此披露的本发明的安排用于分析一个或多个参考文档的方法的示意性图示;
图2A和2B是根据在此披露的本发明的安排的系统的示意性图示;
图3是根据本发明的安排用于分析一个文本部分并且检索与该文本部分相关的文档的方法的示意性图示;
图4是使用用户输入以及与结果的交互用于改善所检索到的文档与文本部分的相关性的进一步提炼方法的示意性图示;
图5和6是根据在此披露的方法的安排用户与该系统交互以搜索与一个输入文本部分相关的文档的示意性图示;以及
图7是图2A和2B的系统的一种进一步的安排的示意性图示。
具体实施方式
以下将参考附图更全面地描述本发明的方面和安排,其中示出了本发明的示例安排。能够以不同形式安排本发明的方面和/或安排,然而,不应将其理解为限定为在本文中提出的安排。然而,提供当前描述的安排以提供完全的披露从而表达在本领域的技术人员构想的本发明的范围。在附图的描述中,相似的参考号指代相似的元素和/或特征。
在本文中披露的方法和系统提供一种基于文档到文档搜索的新的途径。这些搜索方法解决了围绕结果相关性、数据库兼容性、搜索的速度和效率几个关键问题。
总之,具有使本文中公开的系统实现这些目标的几个关键组件。本搜索方法学的第一组件是将文档输入解析成为适合于数据库搜索的形式。主要由于输入文本(即从一个输入文档中获得的)的绝对大小,这不同于标准的搜索方法学,但是也因为若该输入在实际搜索之前被分析,相关性计算更有效率。第二是系统基于与用户及时的交互以及与结果设定的先前交互学习和改进的能力。
为了改进结果的相关性,本发明公开的方法和系统使用一种基于它们在本地(在输入文档中)和全局(数据库中的所有文档)环境两者中的出现为输入文本术语加权的方法。该加权方法学允许搜索快速实时地量化结果设定的相关性。全局索引创建了一个查找表,该查找表提供了一个具体的文本术语相对于其他的文本术语价值如何的信息。该价值产生于许多因素,如术语的罕见度、在先前正/负结果中的出现等。该全局索引基于单独搜索和用户与系统的交互连续更新、调节并改进其自身的打分方法学。将本地得分与全局得分组合以计算在搜索中来自输入文档的输入文本术语的整体重要性。本地权重也考虑不同的因素,例如文本术语在文档中出现的次数、在文档中的位置、标点符号、大写、或格式等等,除其他因素之外。在具体的安排中,本公开的搜索方法学主要寻找在两个文档之间的交集(共同或相等的术语),并且然后将合适的权重应用到这些交集。该结果是一个相对相关性得分,其可以用于对结果集进行排序。
广泛地说,本公开的系统和方法利用在输入文档或文本部分的文本术语以及存储在数据库中的多个参考文档之间的交集,以至少初始地确定似乎相关于(例如从上下文)输入文档的那些参考文档的一个子集。当具有大量的输入术语,比如说在一个输入文档中具有大量的文本需要去分析并且与参考文档中的每一个比较以确定相关的匹配,使用这种交集是有价值的。
随着在系统中的文档的数目变大,然而只使用交集去确定一个较好的匹配变得越来越困难。例如,使用如GoogleTM的搜索引擎的互联网搜索将典型地导致具有与少数输入搜索术语的交集术语的数百万文档(网页)。在这样大量的搜索结果的面前,如何确定相关性?随着交集数目的增加,总体上相关性增加,但是对于少量的搜索术语和大量的可能结果而言,几乎不可能依赖这个比率用于相关结果。当以少量的输入术语查找时,需要搜索术语本身的额外的信息来找到更多的相关结果。为此,本文公开的方法和系统直接结合用户与搜索结果的交互以确定如何扩大输入文本信息,例如添加额外的术语、或者使用动态的加权系统增加或减少某些术语的相对重要性。因此在本文中公开的是用于分析输入搜索术语并且将这些输入搜索术语与存储在数据库中的相关信息匹配的方法和系统,但也是基于用户交互动态地改进搜索结果的(正负)相关性的方法和系统。此外,相对于形成一次搜索查询的结果的文档,例如还可以通过从一个或多个外部数据源获得进一步的信息来改进搜索结果的相关性。可以利用进一步的信息在来自一个或多个外部数据源的基础上再形成输入本地术语索引。一个或多个外部数据源可以包括互联网(包括例如一个或多个互联网可访问数据库和/或一个或多个互联网网页)、一个或多个新闻信息源、一个或多个金融和/或股票信息源、一个或多个科学信息源、一个或多个专业社会信息源等等、并且可以是一个或多个初级、次级和/或第三级信息源。
因为本公开描述的搜索方法学和系统不是一贯依赖元数据(尽管这种系统为改进的结果可以容易地合并),而仅是文本的一部分(即切片),其与使用包括文本的任何尺寸的文档的任何系统或应用兼容。可以容易地将任何文档或批量的文档添加到该系统中,对于如工作搜索的应用,其中工作被公告在许多不同的网址上,每个网址具有它们自身的数据设计结构,这具有许多优点。对于许多其他应用,例如具有变化结构的大型法律数据库、或研究杂志文章,其中不同的杂志常常具有略微不同的格式结构,这也同样适用。当然,本公开的系统也容易被适配为多种应用,其中在搜索中使用的并且存储在数据库中的通用格式的文档具有非常相似的结构,例如专利说明书数据库。
现参考图1,提供了一种用于对多个参考文档101进行标引并且在数据库111中存储该索引(以及其他信息)的方法100。在该方法中,提供了多个N个参考文档101,每个文档包括一个文本部分,这期望被标引用于将来的搜索功能。该方法包括解析多个文档101中的每一个的文本部分的步骤103。解析操作被适配为识别每个文档101的文本部分中的至少一个、典型地多个文本术语。这些文本术语可以包括单词型术语、和/或多词型术语。多词型术语可以包括具有两个、三个、四个、五个、或更多个单词的术语。实践中,发现高达三个单词的多单词文本术语(即单-双和三词型术语)在数据库的要求的处理能力和标引能力之间提供一个合适平衡。
在文档101中的每一个的文本部分可以是包括多个文本单词的一个文本字符串,或文本部分可以是一个文本文档。或者该文本部分可以是选自下组中的各项中的一个或多个,该组的构成为:包括一个或多个单词的一个文本字符串;一个文本文档;一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份简历;一份履历表;一份法律抄录;一份法律文档;或一份新闻报道,或包括文本的其他相似的项目。
参考文档101中的每一个可以是文本文档、或包括一个文本部分的文档,并且可以是代表选自下组中的各项中的一个或多个的一个文档的文本文档:一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份招聘广告;一份法律抄录;一份法律文档;或一份新闻报道,或包括文本的其他相似的项目。
一旦识别了这些文本术语,为它们各自分配一个权重105。在该基本的例子中,针对每个术语的权重可以相同(例如设定为“1”的值),其中没有偏向于该文本术语的任何一个的重要性和相关性。
替代地,与每个文本术语相关联的权重可以包括多个权重的组合,每个权重与在每个对应的文档101中识别中的每一个文本术语相关联。可以相对于一个或多个参数确定一个或多个权重,并且这些参数可以涉及相关于文档中的具体的文本部分中的每一个术语的特征。例如,这些参数可以选自以下各项,除其他因素之外:一个具体的术语在单个文档中出现的次数;文本术语在一个文档中的位置;术语的大写;在术语周围的标点符号;临近术语的文本部分中的单词;单词罕见度;单词序列;文本术语的组合;或在每个文本术语中的单词的数目。在其他的安排中,针对每个文本术语的权重可以是来源于用户输入或本领域技术人员理解的其他合适的参数的用户定义的权重。
该文本部分可以是包括多个文本单词的一个文本字符串。该文本部分可以是一个文本文档。该文本部分是选自下组中的各项中的一个或多个,该组的构成为:包括一个或多个单词的一个文本字符串;一个文本文档;一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份简历;一份履历表;一份法律抄录;一份法律文档;或一份新闻报道。
参考文档可以是代表选自下组中的各项中的一个或多个的一个文档的文本文档,该组的构成为:一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份招聘广告;一份法律抄录;一份法律文档;或一份新闻报道。可以为参考文档中的每一个分配代表与输入文本部分相关性的一个文档相关性得分。
该方法100接下来包括形成多个对应的本地文档索引107,其中每个本地文档索引与一个对应的文档101相关联。每个本地文本索引107包括包含在每个关联的对应的文本101中的一个或多个本地文本术语以及与关联的文档中的每一个文本术语相关联的本地权重。如下文讨论,文档101中的每一个及其关联的本地索引107存储在数据库中用于随后的搜索和检索操作。
在一个具体的简单示例安排中,考虑了例如单个参数,如一个具体的术语在相关联的参考文档中出现的次数,可以从如下关系计算本地文本术语权重:
其中SL是在一个文档出现NL次在该文档中的具体的术语的本地权重。方程(1)将应用到所有的文本术语而不管在每个术语中的单词的数目。该因数x是可以用来按要求衡量本地术语权重的一个任意因数。针对每个文档中中的每一个文本术语的本地权重SL存储在针对每个对应的文档的本地索引中。本地术语权重计算可以是相同的,而不管文本部分或文档,即文档是否是存储在数据库中的一个参考文档,或由用户上传的一个输入文本部分或文档,通过使用方程(1)可以确定在每个例子中的本地术语权重计算。
方法100进一步包括从多个本地文档索引107中形成一个全局文档索引109的步骤。该全局文档索引109包括包含在多个文档101中的每一个中的多个全局文本术语以及与每个全局文本术语相关联的一个全局权重。在具体的安排中,可以相对于与参考全局文本术语相关联的一个参数确定与这些全局文本术语中的每一个相关联的全局权重。例如,相对于大多数流行的有用的文本术语,在确定全局权重中可以是有用的一个参数可以是一个具体的术语在数据库中的所有文档中是如何流行。最流行有用的文本术语可以任意定义的,但总体上将涉及在数据库中的所有参考文档中具有最高出现率的术语,从中可以获得有用的相关性信息。这样的一个参考术语因此不可能是独立地不提供任何相关性或背景信息的非常常用的单词,因此简单的连接词(例如“该”、“中”、“在”、“由”、“一个”等)通常不会被选择为一个参考术语。
例如,在具体的安排中,为每个文本术语分配了一个权重或得分,其涉及该单词相关于系统中的其他术语如何罕见。典型地,权重越高,术语的质量越好,即可以确定更多的关于包含该文本术语的文档上下文信息。为避免极其罕见的术语不相称地影响系统的搜索能力,一般不考虑仅出现相对几个文档中(例如在所有参考文档中的一个或两个中)的术语。这也对术语的拼写错误具有影响,在这种错误的精确复制仅发生在较小百分比例的参考文档场合,将典型地不被系统认为是将一个具体的上下文传递到其出现的文档中的唯一的术语。可替代地,系统可以记录这些极其罕见的术语和/或带有拼写错误的术语,但是可以为它们分配为一个零权重。在一个具体的示例中,使用来自2009年的澳大利亚网址的在线工作广告,发现大约60%的有用的单词型术语、75%有用的双词型术语、以及88%的有用的三词型术语出现在少于3个文档中,因此,明显地降低了被要求能够提供关于每个广告的要求足够相关的上下文信息的有用的文本术语的总数。相似地,在太多文档中出现的文本术语,例如大于一个具体的百分比例,例如大于10%、或者大于15%、大于20%、大于25%或者更高,被确定为太平常以至于不能提供足够的唯一的上下文信息,并且这样的文本术语也会被赋予一个零全局权重。
在一种示例的安排中,全局索引可以包括单词型、双词型、以及三词型文本术语。可以根据以下关系式确定针对在数据库中中的每一个单词型的文本术语的全局权重SG1:
其中NG1是包含单词型文本术语一次或多次的不同文档的数目,并且MR1是最流行有用的单词型文本术语出现的参考文档的总数目。在其他的安排中,例如在文档的总数较小的场合,NG1可以替代地涉及文本术语在所有文档中出现的总数目。相似地,MR1可以替代地涉及在所有文档中最流行单词型术语出现的总数目。参数y可以是根据要求而适配的一个任意参数,例如用于计算效率优化(比如说将全局权重保持在一个特定值范围或避免要求额外的存储和处理要求的浮点操作)。
参数AG1是一个可选的参数,其可以由系统管理员利用以将额外的权重添加到具体的单词型文本术语,例如在检查术语时,系统管理员可以确定一个具体的术语可以更多或更少相关于一个具体的数据库,并且可以相应地对该术语进行加权。参数z可以用来修改管理员参数AG1用于期望的效果。作为一个示例,两个AG1和z都可以被初始化到50的值,并且管理员可以提供在0和100之间的范围内的管理员权重AG1。因此,具有AG1>50(好术语)的术语取得一个增加的全局权重,AG1<(差术语)的术语取得一个减少的全局权重,具有AG1=50的文本术语将是没有施加额外的上升和下降权重的中性术语。在替代的安排中,管理员权重AG1可以通过用户对系统的利用而动态地确定,例如使用学习算法、或中性网络安排,以基于与该系统的实际用户交互增加或降低具体的文本术语的相关性。
对于双词型或三词型术语,可以确定全局权重,不是简单地通过具体的双词型或三词型组合的出现率,而是通过组成多词型文本术语中的每一个单词的全局权重。例如,一个全局双词型术语G2可以从两个全局单词型术语G1A和G1B形成。例如,用于确定双词型文本术语权重的一种可能的手段可以简单地是组成该双词型术语的两个单词型术语的平均。替代地,相似于方程(2),可以使用如下关系式为全局双词型术语分配一个全局权重SG2。
其中[(SG1A+SG1B)/2)是两个单词型术语的平均全局得分,NG2是包含单词型文本术语一次或多次的不同文档的数目,MR2是最流行有用的单词型文本术语出现的参考文档的总数目。再次,AG2是一个可选的参数,其可以由系统管理员或动态算法利用以将额外的权重添加到具体的双词型文本术语。此外,如之前一样,在替代的安排中,NG2可以替代地涉及双词型术语在所有文档中出现的总数目。相似地,MR2可以替代地涉及最流行双词型术语在所有文档的出现率的总数目。
再相似地,一个全局三词型文本术语包括两个双词型文本术语,并且用于确定三词型文本术语权重的一个可能的手段可以简单地是组成该三词型术语的两个双词型术语的平均。替代地,可以使用如下关系式确定全局三词型术语权重
其中[(SG2A+SG2B)/2)是两个双词型术语的平均全局得分,NG3是包含三词型文本术语一次或多次的不同文档的数目,MR3是最流行有用的三词型文本术语出现的参考文档的总数目。再次,AG3是一个可选的参数,其可以由系统管理员或动态算法利用以将额外的权重添加到具体的三词型文本术语。该方法学可以延伸超过三词型术语到四词型术语,或者到期望多术语。然而实践中,已发现对于比较高的计算能力超过三个单词获得较少的值。此外,如之前一样,在替代的安排中,NG3可以替代地涉及三词型术语在所有文档中出现的总数目。相似地,MR3可以替代地涉及最流行三词型术语在所有文档的出现率的总数目。
可以相对于多个参数确定与全局文本术语相关联的全局权重,每个参数可以与一个对应的参考全局文本术语相关联。可以相对于其中每个全局文本术语出现在所有多个文档中的文档的数目进一步确定与这些全局文本术语中的每一个相关联的全局权重。
可以相对于其中文本术语出现的参考文档的数目确定与这些全局文本术语中的每一个相关联的全局权重。可以相对于用户交互进一步确定与这些全局文本术语中的每一个相关联的全局权重,例如作为本领域技术人员理解的机械学习或中性网络安排的一部分。
如上,全局文本术语权重可以来源于多个参数,例如包括:术语在所有多个文档中出现的次数;具体的术语在单个文档中出现的次数;文本术语在一个具体的文档中的位置;术语的大写;在术语周围的标点符号;临近术语的具体文档的文本部分中的单词;在具体的文档或在所有多个文档中的单词罕见度;单词序列;文本术语的组合;该术语在其中出现的文档的数目;或在每个文本术语中的单词的数目。在其他的安排中,针对每个文本术语的权重可以来源用户输入或本领域技术人员理解的其他合适的参数的用户定义的权重。
本地和/或全局文本术语权重可以正权重或负权重。在具体的安排中,其中多个权重中的一个或多个是用于所选全局文本术语的一个负权重,可以为该所选全局文本术语分配一个零权重,或替代地在0和1之间的权重,以便该术语在确定随后的结果(即与输入文本术语或搜索术语具有加强的相关性的文档)中仍具有影响,但该影响减少了。用户定义的权重可以是来源于包括用于所选全局文本术语的多个用户定义的权重的自学习系统。
例1
作为文本术语权重的上述确定的一个示例,考虑了分别包含如下文本部分的两个参考文档:
参考文档1:“那只敏捷的棕色的狐狸跃过懒惰的狗”
参考文档2:“那只迟缓的棕色的狐狸跃过懒惰的猫”
为该示例的目的,由于较少的数目,我们将不再扔掉任何术语。用于数据库的单词型术语的全局索引因此是:
单词型文本术语 | 出现次数 |
那只 | 2 |
敏捷的 | 1 |
迟缓的 | 1 |
棕色的 | 2 |
狐狸 | 2 |
跃 | 2 |
过 | 2 |
懒惰的 | 2 |
狗 | 1 |
猫 | 1 |
因此,MG1=2,因为任何单词型文本术语在其中出现的文档的最大数目是2。使用方程(1)(其中y=1000,z=50=AG1),针对单词型术语中的每一个的本地术语得分(权重)将是:
术语 | 计算 | 术语权重,SG1 |
那只 | 1000-(2*1000)/2 | 0 |
敏捷的 | 1000-(1*1000)/2 | 500 |
迟缓的 | 1000-(1*1000)/2 | 500 |
棕色的 | 1000-(2*1000)/2 | 0 |
狐狸 | 1000-(2*1000)/2 | 0 |
跃 | 1000-(2*1000)/2 | 0 |
过 | 1000-(2*1000)/2 | 0 |
懒惰的 | 1000-(2*1000)/2 | 0 |
狗 | 1000-(1*1000)/2 | 500 |
猫 | 1000-(1*1000)/2 | 500 |
若管理员确定术语“狗”是差的并且“狐狸”是好的,或例如通过随时间的用户的启发或分析进行这样的决定,然后如下再加权的单词型术语“狐狸”和“狗”。
术语 | 计算 | 术语权重,SG1 |
狐狸 | 500*(100/50) | 1000 |
狗 | 500*(0/50) | 0 |
因此,差的术语“跃过”不会添加任何重要的背景的信息到文档中,在两个参考文档的搜索不会具有影响,而添加重要的背景的好的术语“狐狸”将对输入文本部分包含单词型术语的“狐狸”场合的搜索结果具有较大的影响。
例2
示出文本术语权重的上述确定的又一个示例,考虑了如下的输入文档:
输入文档:“这辆红色的轿车”相比较于包括该三个文档的数据库中的文档:
参考文档A:“这辆蓝色的轿车”
参考文档B:“这辆红色的卡车”
参考文档C:“这辆蓝色的卡车”
在如下的表1示出了在解析之后用于输入文档和参考文档中的每一个的全局术语得分、术语出现率、及本地术语得分,这是在任何用户交互发生之前的得分的图示。比较输入文档与参考文档中的每一个的匹配得分也如在表1中所示。
从表1中的匹配得分可以看到参考文档B被发现与输入文档最匹配。
参考文档C仅有术语“这辆”与输入文档具有交集,但因为该术语太流行,参考文档C在匹配得分的得分是零,并且被确定为与输入文档没有相关性。
表1:在用户交互之前的匹配得分
现在开始说用户通过一个用户界面指示参考文档B不是一个好的匹配,但参考文档A是一个好的匹配。
表2:在用户交互之后的匹配得分
可以看出,由于用户交互,参考文档A和B的最终匹配得分反过来,反映了用户的语境信息,即在该示例中,用户感兴趣的是关于轿车而不是卡车的文档。
这是一个简单的例子示出了提炼过程如何快速地改变算法上下文以产生更接近于用户期望的输出。本领域技术人员应理解该相同的过程应用于许多文档,每个文档具有更多个术语并且明显更复杂的本地和全局索引可以比只有算法处理产生具有基本上改进的相关性和上下文的结果。
系统基础设施
现参考图2A,提供了一种用于对多个文档进行标引的101的系统150。这些文档可以从一个数据源155中获得,该数据源可以通过系统150的输入157和输出159模块与系统150连接。该数据源155可以是文档的数据库,其中每个文档包括一个文本部分。替代地,数据源可以是一个动态的环境,例如互联网或如互联网的网络的所选部分,例如包括文本的一个或多个资源源或相关文档(例如招聘广告资源、专利资源、新闻资源等)。该系统可以被适配为周期性地轮询数据源155用于由系统150标引的新的或相关的文档。
该系统包括一个处理器160。处理器160被适配为通过输入模块157从数据源155标引的文档。在具体的安排中,处理器包括至少一个解析模块161,该模块用于解析从数据源155中搜索的多个文档中的每一个的文本部分,以形成多个对应的本地文档索引,每个索引与一个对应的文档相关联的、。对于每个文档由解析模块161形成的本地文本索引总体上将包括包含在文档中的多个本地文本术语以及与每个文本术语相关联的本地权重。
系统150的处理器161还包括一个分析模块163,该模块用于分析在解析模块161中形成的多个本地文档和从多个本地文档索引中形成全局文档索引。全局文档索引总体上包括包含在从数据源155中搜索的多个文档的多个全局文本术语。全局文档索引进一步包括与每个全局文本术语相关联的一个全局权重。典型地相对于与一个参考全局文本术语相关联的至少一个参数确定与这些全局文本术语中的每一个相关联的全局权重。全局文档索引可以存储在数据库中并且与这些本地文档索引中的每一个有关。
系统150进一步包括一个数据库111,该数据库被适配为在系统150的存储器165中存储这些本地文档索引中的每一个的至少一个图示。数据库111可以进一步被适配为在存储器165中存储至少一个全局文本索引的图示以及至少一个索引的文档中的每一个的图示。被标引的文档的图示在一些例子中可以是文本本身的复制,或者替代地,每个被标引的文档的图示可以是文档的一个所选部分,或者替代地仍是如何重新尝试该文档的信息(例如到驻存在互联网上的文档的一个超文本链接,或驻存在计算机系统上的文档的目录树位置)。
系统150可以被提供一个为虚拟系统,例如作为分布式计算平台的一部分,有时称为云计算系统,并且通过利用这样的一个分布式计算平台,执行在本文中描述的方法的软件和设施可以作为服务提供给一个或多个用户和/或一个或多个提供商。该虚拟系统可以形成到物理资源的逻辑服务器的虚拟化逻辑服务器云的一部分(例如,如在美国专利号6,880,002中所描述的)。该系统150因此可以包括多个体现在一个或多个物理系统和逻辑上互联的多个相似的虚拟系统150用于在按需基础上的透明和比例运算。在该安排中,每个系统150包括数据库111,该数据库可以在所有这样的系统中的整个数据库的一个子集。
随着系统成熟和系统的使用/采用增加,基于云的基础设施的实施在管理可扩展性问题时特别有用,这在单个处理单元上施加增加的负载。
例如,参考文档的总集可以分割并且分布在多个系统中,每个系统相似于在图2A中描述的系统150。在该安排中,多个系统150中的每一个的数据库111可以不是包括所有参考文档,而是可以包括参考文档的总数的仅一个子集。查询然后可以分布在多个系统150中的每一个中。搜索查询然后被发送到多个系统150中的每一个,其中对应的处理器模块处理如上的查询并且为如上的相似文档搜索在对应的数据库分区(即,类似于数据库111但是仅包括参考文档的总数的一个子集)上存储的所有文档。每个对应的工作站系统150然后输出所有的文档匹配和指示匹配的相关性或质量的匹配得分等,并且校对和排序来自多个系统中的每一个的匹配结果用于展示给用户。仍替代地,应理解上述分割的安排在文档的总数增加时具有固有的优点,特别是相关于可以实施查询以及检索搜索结果的速度。期望在该具体的安排中参考文档的总数可以被明显扩大而可以获得查询结果的速度具有较少或没有可察觉的变化,主要的限制是在最终展示给用户之前来自多个工作站系统的查询结果的校对,而不是在参考文档的一个一直增加的池的搜索中。
会遭遇到的一个具体的可扩展性问题可以是由一个匹配数据库查询遇到的太多的参考文档(即在参考文档的数量超过一个阈值的场合)不可能在整个文档池上执行。能够以多种方式克服这种情况。首先,参考文档池被分成多个独立的服务器,并且在每个服务器上以及来自如上讨论的每一个校对结果的最佳结果上执行该查询。可以基于随机算法、空间位置、天数的调整、或最佳平衡负荷的其他的手动或自动流程决定文档池的分割。在改进平衡的事实之后可以调节参考文档的分割。此外,可以利用采样以抵消大量的参考文档。例如,认识到初始匹配和重复匹配的目标是构建具有权重的术语的主题以最佳表示文档和提交者的意图。可以保持一个文档池的采样以便其足以代表整个池,还足够小以便单个或多个服务器容易查询。一旦令人满意地建立了该主题,进一步的元数据可以用来减少整个文档池足以使其对于在所有参考文档的子集上执行的查询而言是可管理的。
作为一个替代方案,数据库可以替换为等价的基于文档存储系统或如上所述在多个工作站系统中传播的分割安排。在这些安排中,查询能够按要求广泛地分布并且在克服大量参考文档的问题中非常有效。
可能出现的又一个可扩展性问题是在数据库中的参考文档上的计算以确定创建和更新全局术语索引,即基于添加到数据库中的新的参考文档计算(或再计算)一个术语的流行度,并且为该术语分配一个或多个相关的权重,在计算上会变得太昂贵以至于不能实时执行。假设考虑足够大的参考文档池代表潜在文档的总体,意识到单个术语的流行仅随着时间逐渐改变,例如反映在趋势与术语学中的改变。全局索引和相关术语权重(即术语流行度)的再计算然后可以由一个或多个专用工作站处理器离线处理,并且以所选最佳反映趋势与术语学中的改变的频率对结果进行更新,例如每小时、每天、每周、每两周、每月、每季度等。
在当前用户的数目超过适合由单个服务器管理的阈值的场合,可能出现的又一个可扩展性的问题是太多的合法请求。这种情况可以通过使用副本工作站处理器来抵消。例如,可以在多个服务器中复制参考文档的一个或多个数据库以执行匹配查询。用户开始通过单个共同的进入点到达系统,并且然后该进入点可以使用一个合适的负荷平衡算法在多个服务器中以分布的方式发布查询。图2B示出了当采用上述讨论的所有措施时的系统基础设施的一种具体的安排的示意性图示。网页服务器170用来提供前端(头部),其显示一个用户界面以接受输入文档/搜索术语,并且适当地指导查询请求到参考文档池。可以使用公共数据库171,该数据库可以由一个或多个网页服务器170访问以存储用户数据。参考文档可以存储在多个数据库173、175XY中,其中X指示池的分割部分(上述文档分割的措施),并且Y指示文档池X的复制用于负荷平衡(上述副本工作站处理器措施)。注意若使用采样措施,可以仅要求单个文档池X。服务器可以与适用于提供用户界面的客户端装置通信,并且用户可以通过客户端装置上的用户界面与服务器交互。
离线工作站/处理器177(此处可以是一个、两个、三个、或多个(即所要求的数十个、数百个、或数千个)这样的工作站)提供可以按需使用的全局索引的计算/再计算的离线处理能力(即确定在一个或多个文档池中的参考文档中的所有术语的术语流行度)。离线工作站177还可以用于例如参考文档和/或用户查询中的趋势的解析分析。
在图2B的系统的又一个安排中,包括可以被镜像的几个文档池(即173和175),这些文档池本身可以按照几个逻辑分区实施。在该安排中,这些逻辑分区(及因此的池)可以如本领域技术人员理解的那样被镜像。此外在该安排中,工作站节点177可以被适配为托管文档池分区的实例。
在该安排中,一个具体的文档池可以被分离到到多个工作站上,以便文档池可以被实施为相关联的文档的分区。每个分区然后仅要求一个全局文档索引,即术语的集合,包括与存储在那个具体的分区上的文档的子集中的每一个中包含中的每一个全局文本术语相关联的全局权重。以此方式,可以对输入文档与在相关联的文档中的分区中包含的所有参考文档进行一个完整的匹配计算。
该安排具有的具体优点是可以容易地使用平行处理技术并且能够以容易可扩展的平行方式针对存储在每个逻辑分区上的参考文档的子集中的每一个分析具体的输入文档。因此,随着参考文档的数目的增加,可以添加额外的工作站处理器,每个处理器包括具有优化数目的参考文档的分区,以及用于在每个分区上的文档的一个对应的全局文档索引,并且文档匹配过程可以在工作站和分区中的每一个中均匀地展开。然后可以校对来自每个分区的文档匹配并且透明地呈现给用户,以便没有从多个资源(即多个工作站单元)中接收文档匹配的指示。
分析和文档相关性匹配
在这里公开了一种用于分析文本部分并且检索与文本部分相关的文档的方法200,如在图3中示意性地描述。在方法200的本描述的安排中,该方法包括通过一个用户接口接收202包括一个文本部分的一个输入。如上所述用户接口可以提供在一个客户端装置上。输入可以是包括该文本部分的一个文本文档。该文本部分可以通过一个输入装置接收(例如在图2A中描述的系统150的输入模块157)。
用户接口可以是被适配为从用户接收信息的任何合适的用户接口,包括为找到与该文本部分相关的文档的目的被适配为上传文本部分用于文本部分的分析和初始分析。用户界面被适配为向用户显示分析结果的信息,即通过分析被认为与文本部分相关的文档的图示。用户界面可以进一步被适配为从用户接收关于通过分析被认为相关于文本部分的文档的相关性的额外的信息,并且基于额外的用户信息发起一个进一步的分析。用户界面例如可以作为门户网址提供,这可以在例如互联网的LAN或WAN的网络上访问。
该方法进一步包括识别204在文本部分中的至少一个文本术语的步骤。替代地,可以识别文本部分中的多个文本术语。可以通过解析文本部分以识别至少一个或多个文本术语或从文本部分中提取文本术语来识别该至少一个或多个文本术语。
所识别的一个或多个文本术语可以包括在输入文本部分中的单词型术语、双词型术语和/或三词型术语的一个或多个,或者替代地具有超过三个单词(例如所要求的四个、五个、六个、七个、八个、九个、十个或更多的单词)的文本术语。
文本部分的解析可以由一个处理器160中的一个解析模块(例如系统150的解析模块161)执行。该方法可以进一步包括分配206与该至少一个(或多个)文本术语相关联的至少一个权重。解析模块可以包括识别装置从而识别输入文本部分中的文本术语从而解析文本部分。解析模块可以进一步包括用于分配与该至少一个文本术语相关联的至少一个权重的分配装置,并且可以为该多个文本术语中的每一个分配至少一个相关联的本地术语权重。分配文本术语的权重可以包括将权重分配到所识别的(220、222、224)的每个多词型术语,并且例如可以使用上述方程(1)确定。此外,解析模块还可以包括标引装置,该装置用于形成该至少一个文本术语的输入本地术语索引和至少一个相关联的本地术语权重。可以参考在数据库111中存储的全局术语索引确定该至少一个相关联的本地术语权重。可以使用如本领域技术人员理解的文本解析方法执行输入文本部分的解析以识别其中的文本术语。该解析可以可选地包括如下步骤中的一个或多个:分析和/或移除在输入文本部分中的标点符号,例如使用这种标点去识别文本术语;分析和/或移除文本的大写;分析段落结构;分析句子结构,分析标题结构;确定具体的文本结构(例如单词、单词的组合、缩略词、同义词等)在单个文档中出现的次数;单词的复数形式(并且将这样的复数形式减少到它们的基本单词);具体的文本结构在文本部分中的位置;分析临近于具体的文本结构中的文本部分中的单词;在文本部分中的具体的单词和/或文本结构的罕见度;确定和分析单词序列。
在具体的示例中,可以通过将文本部分转换到期望的格式用于进一步处理来执行这种解析。这种格式的具体的示例是XHTML兼容字符串,尽管本领域技术人员应理解还可以应用许多其他的格式。文本部分可以由任何装置以及本领域技术人员理解的多种这样的装置转换到这样的XHTML兼容字符串。例如根据定义的一组规则,例如由如下方法可以在XHTML字符串上执行该解析。
遍历字符串中的每一个XHTML节点:
若该节点是一个具有“href”属性的标签<a>,则添加属性值作为一个链接;
若该节点是在黑名单中(即应该一起移除XHTML标签的清单与在其中包含的一切,例如一个<style>标签包含与解析不相关的级联样式表单信息),则移除它及其子节点;
若该节点是在白名单中(即XHTML标签的清单与我们的解析相关,如标题、粗体、斜体等),则移除它但保留并提升其子节点;
当XHTML标签既不在黑名单也不在白名单中,则移除标签并且将其子节点完整地保留。这种情况的一个示例是将其子节点居中的<center>标签。这与解析过程不相关因此将其移除。以此方式使用黑与白名单的技术的原因是具有很多XHTML标签,其中的一些专用于具体的网页浏览器。完全禁令的名单(黑名单)非常小,相关的名单(白名单)非常小,但忽视一切的名单非常大,若节点是文本,则从左到右解析,试图匹配一系列按顺序的规则表达;
若找到了一个邮件地址,则将其添加到文档元数据中,但不将其添加为一个术语;
若发现了一个电话号码,则将其添加到与文档相关联的元数据中,但不将其添加为文本术语;
若发现了一个当前数据或范围,则取决于参考文档的背景(例如科学文档、工作广告等),将其添加到与该文档相关联的元数据中,但不将其添加为术语;
若发现了一个URL,则将其添加到文档元数据中,但不将其添加为文本术语;
或者将其视为一个单词,作为有待成为一个术语的候选:
将单词减少到其核心版本(例如通过移除单词词干,例如-s、-es、-ing等);
识别同义词、反义词、同形异义词等,并且减少到术语的单个核心版本;
移除所有的XHTML属性;
应用额外的过滤器,例如元数据,若具体的文档池使用具体的语言句法,然后这些可以被考虑作为与那个文档池具有增加重要性的术语。
关于同义词、同形异义词(也称为同形异音异义词)和/或缩略词的识别和减少到术语的核心版本以确定背景,这还可以包括其似乎具有多个背景的分支术语的识别和特征化。
总体上,同义词和同形异义词的处理的区别是同义词同义词组合术语,而同形异义词将术语分成子术语,并且解析模块可以被适配为以此方式简化这些术语形式的处理。
例如,取决于术语“红色的帽子”(涉及计算机操作系统)是否同样出现在被解析的文档中,术语“帽子”(涉及头部覆盖)可以具有子术语分支(a)和(b)。该分支分析可以可选地形成文档解析的一部分,即该方法可以确定术语“帽子”应该被存储为“帽子(a)”或“帽子(b)”,就关注的系统而言这个主要是不同的术语。可选地,被解析的文档可以搜索“帽子”、“帽子(a)”和“帽子(b)”,但不同地对它们进行加权。替代地,解析方法可以计算例如,若术语“红色”在“帽子”之前的次数的百分比例特别大,则术语“红色的帽子”为“帽子”的具体的子集。然后,若文档具有“红色的帽子”,然后术语“帽子”其本身是明显低权重的或者被完全忽视,以便匹配的文档将需要具有具体的术语“红色的帽子”而不是简单的“帽子”。
同形异义词的处理会更为困难,因为必须还确定同形异义词的上下文,然而,在文档的解析中检测形容词或动词将会有很大的帮助。否则解析还必须考虑文档中的其他单词。替代地,解析模块可以包括常见的同形异义词的一个清单,若发现了这样的一个术语,则解析模块可以咨询清单,或者帮助确定上下文(即该清单可以包括常常被发现与在具体的上下文中的同形异义术语结合在一起的共同术语),或者该解析模块简单地将同形异义术语处理为常见的单词,或者较大程度地降低这些术语的权重或完全地忽视它们。用于解析包括同形异义词的文档的又一个替代方案是寻找顶级相关联的术语,但是然后提取相关联的顶级术语,并且查看它们相关关联性。若顶级相关联的术语彼此没有关联,然后它们有可能指示具有母术语的不同上下文。一旦该系统确定了那些单词是什么,其可以在母术语突然确定寻找哪一个上下文时寻找它们。当一个母术语具有多个上下文(有效地子术语),母术语值应该通过自身估值更少,除非存在指示上下文的理解的一个子术语。额外地,用户交互推断上下文将在上下文的确定中提供重要信息,特别地相关于同形异义词,因为它们应该出现在不相称的量的负交互并且相应地降低权重,以便用户感兴趣的考虑中的同形异义字的相关上下文意义将影响在在此所描述的再形成搜索结果的索引和提炼之后呈现的搜索结果。
上述方法仅作为一个示例提供,并且可以添加许多其他的步骤,并且这些步骤是可选的,取决于该方法的具体的应用和被解析的文档的上下文。
本安排的方法200进一步包括形成该至少一个文本术语和至少个相关联的本地术语权重的输入本地索引208的步骤。输入本地术语索引208可以包括多个文本术语和相关联的文本术语权重。
方法200进一步包括查询212数据库111以识别214相关于输入文本部分的参考文档中的一个或多个的步骤。可以在处理器160中执行数据库的查询,并且可以在处理器160的匹配模块167中执行。数据库包括一个全局术语索引,该索引包括多个全局文本术语以及相关联的全局文本术语权重。全局术语索引可以从多个参考文档中形成,并且参考文档中的每一个的图示可以存储在数据库111中。存储在数据库111中的多个参考文档中的每一个的图示可以包括参考文档或到其的一个链接。参考文档的图示可以进一步包括针对每个参考文档的对应的本地参考术语。替代地,存储在数据库111中的多个参考文档中的每一个的图示可以包括来源于每个参考文档的文本部分的代表性文本字符串和一个对应的本地参考术语索引。
在步骤214中,为识别与输入文本相关的一个或多个参考文档,可以从输入本地索引(例如在图1中描述的参考文档101(1)的本地索引107(1))与相关联于每个对应的参考文档的多个参考本地索引中的每一个的比较确定相关参考文档。可以通过识别输入文本部分的至少一个或多个文本术语和相关联于每个参考文档的本地参考术语索引中的一个或多个术语的交集223确定相关参考文档。一旦已经比较了输入文本的输入本地索引与参考文档的本地索引,为每个参考文档分配一个相关性权重,其中具有较高相关性权重的文档更相关于输入文本。可以通过在本地输入索引与全局索引的比较并且从与全局术语索引的比较中确定用于参考文档的相关性权重来执行输入本地索引与这些本地索引的比较。
如上讨论,该至少一个或多个文本术语可以在输入文本部分中包括单词型术语、双词型术语、三词型术语以及具有更高单词数量的术语(四单词术语、五单词术语、六单词术语等)。
应理解,在匹配过程中识别参考文档与输入文本部分的相关性的目标是按照它们与主题文档的相似程度的顺序给所有其他的文档排序。在输入文本部分与参考文档之间的相似度水平是参考文档的上下文与输入文本部分的上下文有多匹配的指示,并且因此可以用来识别与由用户基于输入到系统的文本部分的具体的查询相关的参考文档。
在本文描述的系统和方法的示例安排中,可以任意限制文本术语的数量以最小化执行数据库查询以识别具有相关性的参考文档的处理要求。例如,在一个具体的示例中,单词型、双词型、三词型文本术语的数目可以被限制为比如说50、100、150、200、250、300、350、400、450、500或更多的术语每个(例如200单词型术语、200双词型术语和200三词型文本术语)或更多。在一些安排中,取决于可用的处理能力可以使用数千个单词型、双词型、及三词型文本术语中的每一个。然而,应理解相对于所要求的额外的处理能力,更多文本术语的连续增加在搜索结果的质量上可以不必具有相应的改进。因此应理解在搜索查询中使用的文本术语的数目的阈值将是明显的,在阈值之上,仅获得最小的改进,并且用于额外的术语所要求的额外的处理也许是不必要的。在术语中的限制不应相比较于其他搜索系统的标准输入长度限制(如在GoogleTM搜索引擎中当前使用的字母和单词限制),因为该限制实际上基于输入术语的质量,因此在检查了所有输入术语的权重之后应用该限制。在具体的示例中例如在匹配求职者简历与相关的招聘广告的领域中,已经发现基于其本地术语得分仅使用顶级权重的针对每个文档所要求的大约200个单词型术语、200个双词型术语、及200个三词型术语以实现统计上的相关结果。
在识别相关参考文档的示例方法中,可以使用如下程序:
1.找到其中单词型术语的集合与主题文档的单词型术语的集合具有交集的所有文档。
2.单独对单词型、双词型、及三词型术语,对主题文档的交集的本地术语权重求和。
3.单独对单词型、双词型、及三词型术语,对每个文档的交集的本地术语权重求和。
4.对单独地针对单词型、双词型、及三词型术语两个得分总和求平均值。
5.对单词型、双词型、及三词型术语求和以找到针对参考文档中的每一个的整体匹配得分。
在上述步骤(5)中,可以通过在最终求和的计算中添加又一个权重乘数(例如参见在方程(5)中的术语Vi)为单、双、和/或三词型术语给定额外的重要性。这使用以下实现中:在文档之间的多词型形式的交集随着文本术语中的单词的数目的增加提供增加的相关性的指示(即相似的上下文)。即,具有共同/交集的双词型术语的文档可能比简单地具有形成双词型术语的两个单词的分离的交集的那些文档更相关,具有共同/交集的三词型文本术语的又一些文档可能比具有组成三词型术语的单词型和双词型术语的分离的交集的文档更相关。
在一个具体的安排中,可以通过计算文档相关性得分Drel(输入、参考)确定在数据库中的参考文档中的每一个与输入文本部分的相关性,其可以通过如下关系式确定。
其中S1、S2和S3分别是在(即输入文本部分的)输入本地索引的单、双、及三词型术语权重,其与数据库中的参考文档中的每一个的本地索引中的单、双、及三词型术语(分别是O1、O2和O3)一起求平均值并且对所有术语输入本地文本术语SG1、SG2、和SG3求和。
参数V1、V2和V3分别是施加到对应的单、双、及三词型的总和的总和上的任意附加权重,以反映增加数目的组成元素(单词)形成为文档的相关性的文本术语的增加的重要性。典型地,V1<V2<V3,例如,[V1=1,V2=2,V3=3]或[V1=1,V2=4,V3=8]或[V1=10,V2=50,V3=100]或任何其他合适的值,这可以取决于在数据库中存储的参考文档的类型,或通过学习或启发式过程确定以实现所期望的结果。一旦已经为数据库中中的每一个文档(或其一个子集)确定了一个文档相关性得分Drel(输入、参考),然后文档以相关性的降序排名(即Drel(输入、参考)),并且将参考文档的排名清单输出到用户并且显示在用户界面上。
方法200进一步包括输出216显示在用户界面上的所识别的相关参考文档的图示。所识别的相关参考文档的图示可以包括来源于所识别的相关参考文档中的每一个的文本的一个代表性文本字符串。来自每个文档的代表性文本字符串可以包括在具有重要权重的一个或多个所选相关文本术语之前和/或之后的所选数目的文本单词。例如,代表性文本字符串可以是来自参考文档的文本的一部分,该参考文档在来自输入文本部分的文本术语的一个或多个的附近或周围。
在具体的安排中,方法200可以包括又一个提炼方法250,该提炼方法提供了提炼搜索结果的能力以基于它们具体的要求增加显示到用户的参考文档的相关性。提炼方法250可以根据所显示的参考文档的一个或多个的相关性利用来自用户的输入。该用户输入可以用来修改输入本地索引中的文本术语的权重(即再形成索引)以便为与用户专用的查询更相关的术语分配更高的权重。因此,具有修改后的权重的这种文本术语对应用到后续数据库查询/搜索中的参考文档中的每一个的相关性具有更大的影响。额外地,为不太重要和/或与用户专用的查询不相关的输入本地索引中的文本术语分配更少的权重以便这种文本术语对任何后续搜索的结果具有较少影响或没有影响。替代地,(或额外地),提炼方法250例如可以根据所显示的文档中的一个或多个利用从一个或多个外部数据源获得的信息,这可以用来修改输入本地索引中的文本术语的权重,以便为与用户专用的查询更相关的术语分配一个更高的权重。该方法可以进一步包括在来自一个或多个外部数据源的信息的基础上再形成输入本地术语索引的步骤。一个或多个外部数据源可以包括互联网(包括例如一个或多个互联网可访问数据库和/或一个或多个互联网网页)、一个或多个新闻信息源、一个或多个金融和/或股票信息源、一个或多个科学信息源、一个或多个专业社会信息源等等、并且可以是一个或多个初级、次级和/或第三级信息源。
使用用户输入以及与结果的交互的进一步提炼方法250的安排如在图4中描述。如上,方法250包括显示218搜索的结果以找到与用户界面上的输入文本部分相关的参考文档的步骤。用户界面可以是提供在上述公开的客户端装置上。该方法进一步包括提供输入装置251用于让用户与结果交互,并且根据由搜索所检索到的某些文档具有相关性或缺少相关性提供额外的输入。用户输入装置可以是用于对每个所显示的参考文档分配正和负相关性权重的装置。
该方法进一步包括接收关于所显示的文档的一个或多个的这样的用户输入253。该用户输入可以是额外的相关性信息,并且可以包括具体的文档的正的相关性指示或具体的文档的负的相关性指示,或者文档的图示,即用户可以提供指示与其当前要求相关的参考文档中的一个或多个的正的输入,和/或用户还可以提供指示参考文档中的一个或多个与他们的当前搜索需要不相关的负的输入。
在其他安排中,该系统可以包括一个用户账户系统,从而单独的用户可以例如通过安全的登录安排在系统上创建一个个人档案。用户档案可以被适配为在用户数据库中存储关于每个用户的相关的个人信息,例如姓名、地址等,如上讨论这可以用作用于提炼具体的参考文档数据库的用户搜索的元数据输入。用户账户还可以被适配为让用户来创建一个或多个搜索文件,例如覆盖用户感兴趣的主题。这种感兴趣的主题可以包括一个或多个输入文档(即文本文档或搜索术语的集合),这可以用来定期地查询参考文档的数据库,以定期地搜索与输入文档相关的新的或更新后的参考文档。用户账户进一步可以被适配为在用户数据库中记录并存储先前的用户交互对话,该用户可以与感兴趣的一个具体的主题具有关系,例如,存储的搜索条件可以包括具体的文本术语的结果,这在先前用户交互的基础上具有上升权重或下降权重,以便在后续的搜索中,可以将用户偏好结合到初始的搜索查询中以最小化所检索到的与搜索条件具有较少相关性的参考文档的数目,并且允许系统在初始的结果中向用户呈现比不知道用户偏好时本应该正常实现的具有更高的相关性的一组参考文档。
在具体的示例安排中,可以通过如下关系式确定提炼的文档相关性得分Rrel(输入、参考):
其中S1、S2和S3分别是在(即输入文本部分的)输入本地索引的单、双、及三词型术语权重,其与数据库中的参考文档中的每一个的本地索引中的单、双、及三词型术语(分别是O1、O2和O3)一起求平均值并且对所有术语输入本地文本术语SG1、SG2、和SG3求和。参数V1、V2和V3分别是施加到对应的单、双、及三词型总和的总和上的任意附加权重,以反映增加数目的组成元素(单词)的文档术语形成为文档的相关性的增加的重要性。
在方程(6)中的额外的术语Gi和Bi分别是代表每个对应的文本术语在其中出现的“好”即(Gi)和“坏”(Bi)匹配的参数,(即从用户输入接收正的和负的相关性指示的参考文档的数目)。参数Gi是包含被权重为正的术语的文档的数目,并且参数Bi是包含被权重为负的术语的文档的数目。例如,若在搜索结果的集合中,2个文档被权重为正,1个文档被权重为负,所有那3个文档包含术语“老虎”,则将一个(2+1)/(1+1)=3/2=1.5的乘数施加到该术语。替代地,若在相同的集合中,1个文档被权重为正,1个文本被权重为负,并且两个文档都包含术语“老虎”,则将一个(1+1)/(1+1)=2/2=1的乘数施加到该术语。
用于确定方程(6)的具有增加相关性的参考文档的提炼后的匹配公式可以被减少如下的关系式:
Sx=f(Lx∩Gx) (7)
其中:Lx是输入文本部分的x长度的术语的集合;Gx是参考文档的x长度的术语的集合;f(Lx∩Gx)是通过一起添加输入文本部分的本地术语索引权重以及每个术语的参考文档将输入文本部分和参考文档中的交集术语Lx∩Gx的集合转换为那些术语的对应得分的集合的Sx的函数;Vx是施加到x长度的术语的比例因数;Sxi是x长度的交集术语的集合中的第i个术语的得分;Qx是对每组术语Sx的修改后的术语得分;Mx是在集合Sx中的术语的数目;N是术语的最大单词长度(即3,使用高达三词型长度的文档术语的场合);并且Tn是第N个参考文档G的文档得分作为与输入文本部分L相关的测量。
示例3
上述匹配方法200在如下的例子中容易理解。假设用户期望输入文本部分找到的相似/相关参考文档是:
输入文本部分:L=“那只敏捷的棕色的狐狸跃过懒惰的狗”
由解析模块确定的术语文本部分的单词型(L1)、双词型(L2)、及三词型(L3)文本术语是如下集合:
L1={敏捷的,棕色的,狐狸,越,过,懒惰的,狗}
L2={敏捷的棕色的,棕色的狐狸,狐狸越,跃过,懒惰的狗}
L3={敏捷的棕色的狐狸,棕色的狐狸越,狐狸跃过}
接下来,假设数据库(111)包括参考文档:
参考文档:G=“那只迟缓的棕色的狐狸跃过懒惰的猫”
由解析模块确定的参考文档G的单词型(G1)、双词型(G2)、及三词型(G3)文本术语是如下集合:
G1={迟缓的,棕色的,狐狸,跃,过,懒惰的,猫}
G2={迟缓的棕色的,棕色的狐狸,狐狸跃,跃过,懒惰的猫}
G3={迟缓的棕色的狐狸,棕色的狐狸跃,狐狸跃过}
为简化本示例,假设所有的文本术语在其相关的本地术语索引中的具有术语权重一(即所有的术语相等地权重)。此外,假设额外的比例因数Vx,单、双和三词型术语的比例因数为[V1=1,V2=2,V3=4]。
在输入文本部分L参以及考文档G中的单、双和三词型术语之间的交集分别是:
L1∩G1={棕色的;狐狸;跃;过;懒惰的}
L2∩G2={棕色的狐狸;狐狸跃;跃过}
L3∩G3={棕色的狐狸跃;狐狸跃过}
并且每个术语集合(来自方程(7)的对应的得分是:
S1={1+1;1+1;1+1;1+1}={2;2;2;2},
S2={2,2,2},S3={2,2}
接下来,使用方程(8),单、双和三词型术语中的每一个组的修改后的术语得分是:
Q1=V1x∑S1=1x10=10;Q2=2x6=12;Q3=4x4=12
并且最终,使用方程(9),参考文档G的文档得分T是参考文档G与输入文本部分L的相关性的测量,通过如下等式给出
TG=10+12+12=34
为比较,考虑了进一步参考文档:
参考文档H=“那只懒惰的棕色的狐狸坐在垫子上”。
由解析模块确定的参考文档G的单词型(H1)、双词型(H2)、及三词型(H3)文本术语为如下集合:
H1={懒惰的,棕色的,狐狸,坐,垫子}
H2={懒惰的棕色的,棕色的狐狸;狐狸坐}
H3={懒惰的棕色的狐狸,棕色的狐狸坐}
再次,在输入文本部分L与参考文档H中的单、双和三词型术语之间的交集分别是:
L1∩H1={狐狸;棕色的}
L2∩H2={棕色的狐狸}
L3∩H3={空}
每个术语集合的对应的得分是:
S1={2;2},S2={2},S3={0}
接下来,参考文档H的单、双和三词型术语的每一个集合的修改后的术语得分是:
Q1=1x4=4;Q2=2x2=4;Q3=4x0=0
并且参考文档H的文档得分T是:
TH=4+4+0=8.
参考文档G(TG=34)明显是更接近的上下文,因此比参考文档H(TH=8)与输入文本具有更大的相关性,这很清楚地在参考得分T中反映。
现回到图4,方法250包括在用户输入的基础上再形成255输入本地术语索引(和/或从附加/外部的信息源获得的数据)的步骤,并且在再形成的输入本地术语索引的基础上,查询数据库以识别与输入文本部分257具有加强的相关性的一个或多个相关参考文档。然后将进一步识别的具有加强的相关性的参考文档的图示输出259到用户界面用于让用户进一步观看和检查。
在示例的安排中,在步骤255中的输入本地术语索引的再形成可以包括重新分配在输入本地索引中存储的输入文本术语的输入本地文本术语权重。为其重新分配权重的术语可以是同样出现在接收用户确定的输入的参考文档中的每一个中的那些。在该安排中,步骤257可以包括在重新分配的输入本地文本术语权重的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个参考文档。
选择地,方法250可以通过重复骤251至259来重复252,从而识别并输出与具有每个重复的文本部分中的相关文本术语具有增加的加强的相关性的一个或多个进一步的文档。该方法可以重复多次直到用户满意通过数据库搜索接收的参考文档满足他们当前的需求。
对于接收一个正的相关性指示的每个参考文档而言,同样出现在被识别为正的参考文档中的本地文本术语索引中的输入本地索引中的输入文本术语的相关联的权重增加了一个预定的量。该预定的量可以是施加到索引术语权重的一个乘数。该乘数可以是大于1的一个数字。该乘数可以是1和10000或更大之间的一个数字。该乘数可以是在1和1000之间、1和500之间、1和100之间、1和50之间、1和40之间、1和30之间、1和20之间、1和10之间、1和5之间的一个数字以及例如1、1.5、2、2.5、3、3.5、4、4.5、5、6、7、8、9、10、20、30、40、50、100、200、300、400、500、1000、2000、3000、4000、5000、6000、7000、8000、9000或10000。具体的文本术语可以出现在多个参考文档中。该乘数可以取决于接收一个正指示并且一个具体的文本术语在其中出现的参考文档的数目。例如,一个具体的文本术语仅出现在接收正指示的一个文档中,应用到该文本术语的乘数可以是一个第一乘数。若具体的文本术语出现在两个文档中,应用到文本术语中的乘数可以是大于第一乘数的一个第二乘数。相似地,若具体的文本术语出现在三个文档中,应用到文本术语的乘数可以是大于第二乘数的一个第三乘数,等等。作为一个示例,对于一个具有正指示的文档而言,该乘数可以是2,对于两个文档而言是4,对于三个文档而言是8等等。当然也可以使用其他的乘数,并且具体的乘数值可以是动态的,例如考虑到以下因素:如用户交互、启发式分析、从一个或多个外部信息源中获得的数据,或本领域技术人员理解的其他因素。
对于接收负的相关性指示中的每一个参考文档而言,同样出现在被识别为负的参考文档的本地文本术语索引中的输入本地索引中的输入文本术语中的每一个的相关联的权重减少了一个预定的量。在具体的安排中,对于接收负的相关性指示中的每一个参考文档而言,同样出现在被识别为负的参考文档的本地文本术语索引中的输入本地索引中的输入文本术语中的每一个的相关联的权重减少到零值。预定的量可以是应用到索引术语权重的一个乘数。该乘数可以是零以便一个所选术语与随后的交互没用关系。在替代的安排中,该乘数可以是在0和1之间的值以便该文本术语具有减少的权重,这将致使该文本术语对随后的计算和匹配查询具有一个减少的影响,但仍对随后的数据库查询保持一些影响以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
在一个所选文本术语出现在接收一个正的相关性指示的一个或多个文档中的场合,该所选文本术语同样出现在接收一个负的相关性指示的一个或多个文档中,可以基于该正负指示的组合更新在输入本地索引中的所选文本术语的相关联的权重。在该所选文本术语出现在接收一个正的相关性指示的一个或多个文档中的场合,该所选文本术语同样出现在相等数目的接收一个负的相关性指示的文档中,在输入本地索引中的所选文本术语的相关联的权重不改变。
例如,在从用户接收具体的参考文档的正的相关性指示(正的相关性文档)的场合,可以增加同样出现在正的相关性文档中的输入本地索引中的文本术语的本地术语权重。当执行进一步的数据库的查询时,在再形成的本地术语索引中具有增加的权重的这样的术语然后对分配到参考文档中的每一个的相关性得分具有更大的影响,因此具有更大或加强的相关性的文档将收到更高的得分,并且在搜索结果中作为具有加强的相关性的文档返回到用户。相似地,在从用户接收具体的参考文档的负的相关性指示(负的相关性文档)的场合,可以减少同样出现在正的相关性文档中的输入本地索引中的文本术语的本地术语权重。具有减少权重的这样的术语因此将对于确定后续搜索中的数据库中的参考文档的文档得分具有更少的影响,因此包含被权重为负的术语的参考文档将收到更低的得分,并且作为比其他参考文档更少相关呈现给用户。当然,在输入本地索引中的文本术语可以出现在从用户输入中接收正的和负的相关性指示的参考文档中。在这样的例子中,术语权重的正的和负的增加/减少可以平衡(若识别了相等数目的包含该术语的正的和负的文档),并且因此对于该术语而言在输入本地索引中的本地术语权重将不改变。
替代地,若具体的术语出现在接收用户收入的多个参考文档中,接收到不均匀数目的那些文档的正的和负的相关性指示,然后文本术语的本地权重将是增加/减少术语权重调整的一个组合。例如,若一个具体的术语被赋予一个本地术语权重50(比如说,在1和100之间),并且该术语出现在参考文档中,其中的六个从用户接收正的相关性指示,并且其中的四个从用户接收负的相关性指示。在该例子中,每个正的指示可以将术语权重增加1,每个负的指示可以将术语权重降低1。因此,在再形成的本地索引中,将有施加到该具体的文本术语的乘数(6+1)/(4+1)=7/5=1.4,因此若原来的术语权重为50,最终的术语得分将是50*1.4=70,即权重的整体增加。当然可以构想如下文讨论其他的交互和权重重新分配方法,如正/负的乘数。
这样的用户交互可以被记录并存储在数据库111中以用在对术语的进一步分析中,例如使用自学习技术,用于让系统“学习”哪些文本术语和短语在具体的环境或应用中是重要的。这样的自学习可以用来修改全局术语权重,并且例如可以由在上述方程(1)至(4)中的额外的术语实施。
在一个示例的安排中,在步骤255中的输入本地术语索引的再形成可以包括在接收正的相关性指示的参考文档的本地术语索引中的文本术语的基础上形成补充的输入本地术语索引。在该安排中,步骤257可以包括在补充的术语本地文本术语索引中的输入本地文本术语的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
对于接收正的相关性指示中的每一个参考文档而言,可以将未出现在输入本地术语索引中在被识别为正的参考文档中的术语添加到其中以一起与所确定的相关联的本地索引文本术语权重形成补充的文本术语索引。
能够以多种方式利用存储在数据库中从每个用户的交互中收集的这种数据以改进系统的整体性能。例如,如上讨论关于单独的用户账户,针对个人用户术语索引来记录用户的个人交互,这记录了由于与在先前的搜索中的参考文档的用户的正的或负的交互而导致的已经上升或下降权重的文本术语。在用户术语索引中中的每一个术语还与术语权重修改器相关联,该术语权重修改器用来修改输入文本部分的本地术语索引,对此用于寻求在搜索查询中找到相关参考文档。基于新的搜索和交互可以连续更新这样的用户术语索引,以致用户与系统的交互越多,他们的搜索结果就改进得越多,因此随着系统日益“学习”什么对具体的用户而言是重要的并且提供相关的搜索查询结果,增加了用户体验。
从许多用户交互收集的数据可以用来整体上改进文本匹配能力,以便所有的用户从所有其他用户的交互中获益。例如,可以利用用户交互来修改在“自学习”安排中的全局术语索引,在其中接收针对具体的文本术语或短语的许多正的或负的指示,因此指示了具体的术语或短语比其他的术语或短语更多或更少地相关,但是应理解这样的信息是语境专用的,例如专用于一种具体类型的文档、行业或应用。基于用户交互的这样的全局术语索引修改比没有来自系统的用户他们自己的任何这样额外的观点返回更多的相关初始结果到搜索查询,具有为系统的所有用户的改进用户体验的明显的优点。
本领域技术人员应理解,文本部分可以是包括多个文本单词的任何文本字符串。例如,文本部分可以是文本文档,或可以选自下组中各项中的一个或多个,该组的构成为::包括一个或多个单词的一个文本字符串;一个文本文档;一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份简历;一份履历表;一份法律抄录;一份法律文档;或一份新闻报道,本领域技术人员应理解的任何其他。参考文档可以是代表选自下组中的各项中的一个或多个的一个文档的文本文档,该组的构成为:一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份招聘广告;一份法律抄录;一份法律文档;或一份新闻报道,除本领域技术人员将理解的其他内容之外。可以为参考文档中的每一个分配一个代表与输入文本部分的相关性的文档相关性得分。
在图4的提炼方法250的又一个安排中,输入文本部分可以包括一个或多个搜索术语,并且提供了一种用于提炼在搜索术语上的搜索的结果的方法,在其中搜索结果包括所选多个参考文档的图示。再次,所显示的参考文档与搜索术语相关,所选多个参考文档在数据库中包括多个文档的一个子集。在示例的安排中,该方法包括从搜索术语中形成本地术语索引的步骤(相似于图3的步骤208),本地术语索引包括一个或多个文本术语,每个本地文本术语与本地文本术语权重相关联。如图4所述,接收搜索结果并且将其显示216(图4的)在用户界面上,用户界面包括用于接收对于多个所显示的参考文档中的一个或多个的用户输入251的输入装置。用户界面可以提供在如上公开的客户端装置上。在所显示的参考文档中的一个或多个上接受253用户输入,在用户输入的基础上再形成输入本地术语索引255。接下来,在再形成的输入本地术语索引的基础上,查询257数据库111以识别与一个或多个搜索术语具有加强的相关性的一个或多个文档;并且将具有加强的相关性的进一步识别的参考文档的图示输出259到用户界面。
在本文中公开的方法中,用户与系统交互以进行搜索与输入文本部分相关的文档,理论上,包括明显的文本部分的文档。在用户与系统之间的交互示意性地如在图5和图6中描述。
现开始参考图5的图解300,用户流程310用粗实线描绘,用户通过在客户端装置上提供的用户界面(未示出)在与系统交互的过程中看到该流程,而该系统处理操作350用虚线描绘。
开始(未示出),用户例如通过用户界面访问这些系统,例如可以是客户端装置的门户网站(未示出)或能够访问(例如通过网络)处理系统的计算机终端。用户界面可以是被适配为从用户接收信息的任何合适的用户界面,包括被适配为上传用于为了找到与文本部分相关的文档的目的从而对文本部分进行分析和初始分析的文本部分。用户界面被适配为向用户显示分析所产生的信息,即被分析认为与文本部分相关的文档的图示。用户界面可以进一步被适配为从用户接收额外的信息,该信息与通过分析被认为与文本部分相关的文档的相关性有关,并且被适配为基于额外的用户信息开始又一个分析。用户界面例如可以作为门户网址提供,这可以在例如互联网的LAN或WAN的网络上访问。门户网站例如可以是互联网门户网站,并且用户可以通过本领域技术人员理解的合适的互联网协议访问门户网站。一旦连接到处理系统,用户上传311包括文本部分的一个文档,对此用户期望找到与那个文本部分相关的文档。处理器160接收上传的文档的文本部分(见图3的步骤202),并且形成如上讨论的输入文本索引部分351(图3的步骤204、206与208)。如本文描述的,处理器解析输入文本部分,并且将权重分配到在文本部分中发现的文本术语。如上讨论的,处理器161接下来查询352数据库111(图2A的)用于文档匹配535,其中处理认为与输入文本部分相关。相关的文档从处理器161输出354并且显示313在用户界面用于让用户查看。如上讨论,用户界面被适配为方便通过用户与结果的交互315,并且从用户接收关于在初始的查询352中的从处理器中输出的文档的相关性的额外的信息。若用户输入关于文档中的一个或多个的额外的相关性信息,该额外的信息被发送到处理器161,并且在额外的信息的基础上,处理器161再形成355索引,并且执行数据库111的进一步的查询356以确定与文本部分以及用户的具体的意图(即与用户具体的需要具有更大的上下文相关性)具有加强的相关性的文档匹配357,并且将具有改进的相关性的文档输出到358用户界面用于通过让用户进一步检查。用户界面再次可以被适配为允许通过用户与具有改进的相关性文档的交互315,并且进行进一步查询356以进一步改进输出到用户界面的文档的相关性。该交互环(315→316→317)可以由用户执行用户认为要求实现显示在用户界面上的一组结果以足够匹配用户要求的次数一样多的次数,即与找到相关于输入文档的文档的用户需要具有足够的上下文相关性。当用户相信已经获得具有足够相关性的文档,这样的交互可以由用户在任何时刻终结。
替代地,与结果的用户交互315可以是可选的,即,用户将典型地可以选择或者与结果交互以实现与输入文本部分具有改进的相关性的一组结果或者若用户相信在初始查询352之后接收的文档是足够的,则可以跳过316交互317和一个或多个进一步的搜索查询356,并且进行到接下来的在用户流程310中的步骤(例如对于结果的具体的提炼的用户具体的数据或元数据的输入)。
在任何的例子中,一旦用户满意由查询/交互程序接收的文档的相关性,用户在用户流程中前进,并且可以被提示通过用户界面输入额外的用户专用信息,例如元数据输入319。这样的元数据例如可以在搜索招聘广告的例子中,包括用户当前位置、期望的工作地址、期望的薪水等的信息。输入的用户专用元数据可以然后由处理器161接收并且可以进行数据库111的进一步查询359以在元数据的基础上过滤更早的查询结果,以确定文档匹配的进一步提炼360以及元数据过滤后的文档输出361到用户界面。
用户界面然后被适配为让用户选择323由上述过程检索到的文档中的一个或多个用于进一步使用。替代地,额外的元数据的输入可以可替代地是可选的,并且用户可以决定跳过318这样的元数据输入并且直接进行到由该过程检索到的文档中的一个或多个的选择323用于进一步的使用。
现在参考图5,描述了被适配为实施在本文中公开的方法的系统400的又一个示例示意图。数据库111(如上)用来存储多个(N)个参考文档451,每个参考文档具有相关联的本地索引453。如上全局术语索引455用来存储在数据库111中存储的所有多个参考文档中的所有文本术语以及相关联的全局术语权重。在具体的安排中,数据库111可以作为包括一个或多个文件的基于文件的实现方式而实现。将输入文档401(例如输入文本部分或一个或多个搜索术语)通过合适的连接(未示出,例如局域网、广域网、或互联网连接)上传到处理器160的解析模块161。解析模块161解析403输入文档401以确定输入文档的一个或多个文本术语,并且参考全局文本术语索引451将权重分配405到输入文本术语,并且形成407包括输入文档的文本术语的输入文本术语索引和分配的权重。如本文公开,解析模块161可以使用识别装置(未示出)解析输入文档401,这可以包括识别输入文档401中的文本术语的算法。由解析模块161的分配405权重可以通过在解析模块161中的分配装置来实现,这可以包括用于分配这样的权重如本文中公开的算法。最终,输入文本术语的形成可以由解析模块161中的标引装置(未示出)来实现,这可以包括如本文中公开的用于形成这样的索引的算法。在数据库111是以基于文件的架构实现的安排中,文本术语中的每一个可以由一个唯一的逻辑文件表示,即在合适的逻辑目录结构中的计算机可读文件。处理器160然后将输入文档401和新的相关联的本地索引402输出409到数据库111,其中在具体的安排中,输入文档401存储在其中,并且取决于文档的上下文或其他的因素,可以将其添加到参考文档451的集合。该处理器还可以基于新的输入本地索引402中的术语和术语权重更新全局术语索引455。
新形成的输入本地索引402由处理器160的匹配模块163接收,其查询数据库111以确定411与参考文档451的多个本地索引453的交集,并且基于每个参考文档与输入文档401的相关性将一个权重分配413到参考文档中的每一个。然后从处理器160输出这个初始搜索结果并将其在一个合适的用户界面(未示出)上显示给用户。用户然后与这些结果进行交互417以基于他们当前的要求提供与初始的搜索结果的正和/或负的相关性指示,并且将这些交互传递到处理器160,其基于用户交互再形成419输入本地索引402。然后将再形成的本地索引402传递到匹配模块163,其中进行数据库111的进一步的查询以确定参考文档451的新的相关性权重,并且输出413提炼的搜索结果用于由用户检查。接收用户交互、再形成输入本地索引、以及再查询数据库111的过程可以由用户按需要重复多次,以便检索到搜索查询结果,用户认为其与他们当前搜索要求足够相关以接受具有增加的相关性421的一个或多个文档。
可以在来自任何合适的资源460中的数据库111中检索并存储参考文档451。这样的一个源460可以包括一个数据库,可以通过合适的网络(例如LAN、WAN、互联网)连接访问该数据库,例如包括招聘广告、销售物品广告(例如货物、服务、财产(例如住宅/商业财产等))、新闻资源、或专利数据库、可通过互联网访问的网页、本领域技术人员应理解的许多其他内容。该系统400可以为了新的文档定期地查询一个或多个这样的文档资源460,并且当发现新的文档时,处理器可以将这样的文档输入到解析模块401以便为文本术语解析新的文档,并且将权重分配405到文本术语以形成新文档的本地索引,并且在数据库111中将该文档和相关联的本地索引存储为额外的参考文档。
在又一些安排中,该系统还可以包括如在图7的系统500中示意性描述的分析能力,其中该处理器160进一步包括一个分析模块501,该分析模块分析来自参考文档451、本地参考文档术语索引453和全局术语索引455存储在数据库111中的信息用于本领域技术人员应理解的动态以及其他统计上可用的信息。例如,在招聘广告的应用中,其中参考文档451包括关于可用的工作和/或潜在应聘者的简历信息的信息/广告,该分析模块可以被适配为分析存储在数据库111中的信息。这样的分析可以被适配为确定这样的信息,如特定类型的工作的一个或多个位置,例如位置对建筑工人具有较高的要求,或可以用来确定在某个时期经历增长或下降的所选地理区域内的特定行业。这样的分析还可以用作对于求职者的搜索查询的输入,例如在数据库中的信息的分析可以确定在两个或多个相关的或先前不相关的行业之间的增长的重叠,而求职者可以典型地集中搜索在一个行业中的招聘,该系统可以向用户呈现在用户没有搜索到的在其他行业中的这样的相关的工作。
继续招聘广告的示例,作为用于本系统的一个具体的示例,存储在数据库中的参考文档可以涉及招聘(工作)广告。在该示例中,用户可以是求职者,并且可以输入(即上传到数据库中)一份简历,目的在于寻求与用户的经验、特征、或用户感兴趣的其他内容的工作广告。
在该例子中,具体的元数据还可以用来过滤用户的搜索结果(例如用户指定的或自动产生的位置或所期望的工作位置(或两者))可以用来对用户及其偏好/工作地点进行地理编码。这样的信息可以存储在如上述讨论的用户数据库中用于用户专用的元数据,该元数据可以用来为单独的体用户增加搜索结果的相关性。例如,地址编码可以用来基于他们的位置将工作的权重上升或下降(这主要提供将位置接近于用户的家乡、或所期望的一个或多个工作位置的工作的权重上升)。随着工作广告的位置进一步远离用户的优选地点,地址编码可以用来逐渐地减少权重,或者甚至降低文档得分的权重,以便他们在搜索结果中出现更少的相关性。这可以是线性的或非线性的,与如今共同使用的二进制阶梯函数相反(如“在50km半径之内”)。基于用于专用的元数据(如地理位置信息)缩放文档匹配得分的优点是用户特定的可接受距离之外的高度相关的工作也包括在结果集中,这不是基于标准步骤算法的情况,这排除了在设定边界之外的所有结果。该方法的缺点是从潜在的结果集中剔除了较少的文档,因此匹配过程是更加负荷密集型的。然而,这两种方法的混合可以用来限制来自匹配过程的一些文档,并且固定的边界之外的又一些分析确保不排除非常相关的匹配。
同样,在本招聘广告示例中,用户可以提交所期望的薪水(用户指示的)可以用来上升或下降数据库111中的参考文档(即工作广告)451的相关性的权重。例如,接近于用户所期望的薪水的参考文档451中的薪水信息的权重可以上升,而当薪水远离所期望的薪水时,权重将减少或者甚至变成负的。再次,权重中的变化可以是线性或非线性的。基于地理位置的权重变化概括的上述优点对于基于薪水的权重也是相关的。再次,混合模型可以用来剔除具有完全不可接受的薪水的非相关的相关性文档,而仍允许搜索匹配在用户设定可接受的范围之外的文档。当高度地使用这种方法时,搜索条件之外的相关薪水结果仍出现在结果集中。
如上讨论,用户的所有元信息(地点、所期望的工作地点、所期望的薪水、工作类型等)可以与用户账户一起存储在用户数据库中。在特定的示例中,系统可以被适配为提供用户专用的预警,其中用户输入联系人信息(例如邮件地址)并且可以将预警设定为匹配搜索得分阈值,并且该系统可以在新的匹配文档到达时发布预警。该功能对IP资产组合监控也特别有用(例如监控竞争者资产组合),并且在用户也许不主动寻求一个新的工作的工作搜索、猎头的情况中同样有用。
用户账户还可以被适配为存储关于与先前搜索的具体的用户交互的信息。当用户进行新的搜索时,该交互信息然后可以被结合到匹配过程中,以便当进行相似的搜索时,用户不必重复地选择初始相关的文档,因此快速地减少了用户要求找到高度相关的文档匹配的重复的次数。
当然本领域技术人员应理解呈现上述示例仅用于展示的目的,并且该系统可以被适配用于作为文本存储在文档中的上下文信息在其中是相关的任何类型的行业或应用。应理解,这样的系统具有极其广泛的能力,并且本发明可以容易地适配用于许多这样的应用。
因此,应理解上述描述/示出的方法/设备/装置/系统至少基本上提供从文本字符串和/或包含一个或多个文本部分的文档中提取信息的方案,并且具体地涉及到用于分析文档的文本部分并且将这样的文档与来自数据库的相关信息或文档相关联的方法和设备。上述描述/示出的方法/设备/装置/系统至少基本上进一步涉及识别并检索与特定的文本部分相关的文档,并且特别是通过从文本材料产生相关术语的清单并对这样的术语加权从而用来分析与该加权的术语相关的信息和/或文档的文档数据库从较大的文本材料的集合中识别并检索感兴趣的文本部分(或文本片段)。
在本文中描述和/或在附图中示出的方法、设备及系统仅通过示例示出,而不限制本发明的范围。除非以其他方式明确地规定,可以修改这些方法、设备和系统的单个方面和组件,或可以用已知的等价物替代,或者还未知的如可以在将来开发或如在将来发现可接受的替代物替代。该方法、设备和系统还可以修改用于多种应用,而保持在要求的本发明的范围和精神内,因为潜在应用的范围是大的,因为本发明的方法、设备和系统可适用于许多这样的改变。
Claims (60)
1.一种用于对多个文档进行标引的方法,每个文档包括一个文本部分,该方法包括:
a)解析该多个文档各自的文本部分以形成多个对应的本地文档索引,每个索引与一个对应的文档相关联,并且在一个数据库中存储本地文档索引,其中每个本地文档索引包括包含在该对应文档中的多个本地文本术语以及与每个文本术语相关联的一个本地权重;以及
b)从该多个本地文档索引中形成包括包含在该多个文档中的多个全局文本术语的一个全局文档索引以及一个与每个全局文本术语相关联的全局权重;
其中与这些全局文本术语中的每一个相关联的全局权重是相对于与一个参考全局文本术语相关联的参数所确定的。
2.如权利要求1所述的方法,其中与这些全局文本术语中的每一个相关联的全局权重是进一步相对于其中的每个全局文本术语出现在所有多个文档中的文档的数目所确定的。
3.如权利要求1或权利要求2所述的方法,其中与这些全局文本术语中的每一个相关联的全局权重是相对于该参考文本术语在其中出现的文档的数目所确定的。
4.如权利要求1至3中任意一项所述的方法,其中与这些全局文本术语中的每一个相关联的全局权重是进一步相对于用户交互所确定的。
5.如权利要求4所述的方法,其中与每个文本术语相关联的权重包括多个权重的组合,其中每个权重与每个全局文本术语相关联。
6.如权利要求5所述的方法,其中一个或多个权重是选自下组,该组的构成为:术语在一个单个文档中出现的次数;术语在所有多个文档中出现的次数;文本术语在一个文档中的位置;术语的大写;术语周围的标点符号;临近术语的文本部分中的单词;单词罕见度;单词序列;文本术语的组合;或在每个文本术语中的单词的数目;或用户定义的权重。
7.如权利要求5或权利要求6中任意一项所述的方法,其中该权重可以一个正权重或一个负权重,或选自一个权重范围从正到负的刻度尺。
8.如权利要求7所述的方法,其中该多个权重中的一个或多个是用于一个所选全局文本术语的负权重,为该所选全局文本术语分配了一个零权重。
9.如权利要求6所述的方法,其中该用户定义的权重来源于一个自学习系统,该系统包括用于一个所选全局文本术语的多个用户定义的权重。
10.一种对多个文档进行标引的系统,每个文档包括一个文本部分,该系统包括:
一个解析模块,该解析模块用于解析该多个文档各自的文本部分以形成多个对应的本地文档索引,每个索引与一个对应的文档相关联,其中每个本地文档索引包括包含在该对应文档中的多个本地文本术语以及与每个文本术语相关联的一个本地权重;
一个数据库,该数据库被适配为在一个存储器中存储这些本地文档索引中的每一个;
一个处理器,该处理器用于分析该多个本地文档索引并且从该多个本地文档索引中形成一个全局文档索引,该全局文档索引包括包含在该多个文档中的多个全局文本术语以及与每个全局文本术语相关联的一个全局权重;其中与这些全局文本术语中的每一个相关联的全局权重是相对于与一个参考全局文本术语相关联的参数所确定的;并且其中该全局文档索引存储在该数据库中并且与这些本地文档索引中的每一个有关。
11.一种分析文本部分并且检索与该文本部分相关的文档的方法,该方法包括:
a)接收包括一个输入文本部分的一个输入;
b)识别在该文本部分中的至少一个文本术语;
c)分配与该至少一个文本术语相关联的至少一个权重;
d)形成该至少一个文本术语的一个输入本地索引以及至少一个相关联的本地术语权重,其中该至少一个相关联的本地术语权重是参考在一个数据库存储的一个全局术语索引所确定的,该全局术语索引包括多个全局文本术语以及多个相关联的全局文本术语权重并且从多个参考文档中形成,其中这些参考文档中的每一个的一个图示存储在该数据库中;
e)查询该数据库以识别与该输入文本部分相关的这些参考文档的一个或多个;以及
f)输出所识别的相关参考文档的一个图示。
12.如权利要求11所述的方法,其中存储在该数据库中的多个参考文档中的每一个的图示包括或该参考文档或到其的一个链接,并且该图示进一步包括用于每个参考文档的一个对应的本地参考术语索引。
13.如权利要求11所述的方法,其中存储在一个数据库中的多个参考文档中的每一个的图示包括来源于每个参考文档的文本部分的一个代表性文本字符串以及一个对应的本地参考术语索引。
14.如权利要求11至13中的任一项所述的方法,其中在该文本部分中识别多个文本术语,为该多个文本术语中的每一个分配了至少一个相关联的本地术语权重,该权重是参考该全局术语索引所确定的。
15.如权利要求11至14中的任一项所述的方法,其中步骤(11.b)包括对文本部分进行解析以识别该至少一个或多个文本术语。
16.如权利要求11至15中的任一项所述的方法,其中在步骤(11.e)中该相关参考文档是从该输入本地索引与相关联于每个对应的参考文档的多个参考本地索引中的每一个的比较中确定的。
17.如权利要求12至15中的任一项所述的方法,其中在步骤(11.e)中该相关参考文档是从该输入文本部分的至少一个或多个文本术语与相关联于每个参考文档的本地参考术语索引中的一个或多个术语的交集中所确定的。
18.如权利要求11或权利要求14中的任一项所述的方法,其中该至少一个或多个文本术语包括在该输入文本部分内的多个单词型术语。
19.如权利要求11、14或18中的任一项所述的方法,其中该至少一个或多个文本术语包括在该输入文本部分内的多个双词型术语。
20.如权利要求11、14、18或19中的任一项所述的方法,其中该至少一个或多个文本术语包括在输入文本部分内的多个三词型术语。
21.如权利要求11、14、18、19或20中的任一项所述的方法,其中这些本地权重被分配到根据从下组中所选的一个或多个参数的至少一个或多个术语中的每一个,该组的构成为:单词罕见度;标点符号;大写;单词序列;术语的组合;或在每个术语中的单词的数目。
22.如权利要求11所述的方法,其中所识别的相关参考文档的图示包括一个代表性文本字符串,该字符串来源于所识别的相关参考文档中的每一个的文本。
23.如权利要求22所述的方法,其中来自每个文档的代表性文本字符串包括在具有重要权重的一个或多个所选相关文本术语之前和/或之后的所选数目的文本单词。
24.如权利要求11所述的方法,进一步包括以下步骤:
g)在一个用户界面上显示这些相关参考文档,该用户界面包括输入装置,该装置用于相对于所显示的参考文档中的每一个接收用户输入;
h)相对于所显示的文档中的一个或多个接受用户输入;
i)在用户输入的基础上再形成该输入本地术语索引;
j)在再形成的输入本地术语索引的基础上,查询该数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档;以及
k)输出具有加强相关性的进一步识别的参考文档的一个图示。
25.如权利要求24所述的方法,其中在步骤(24.i)中,再形成该输入本地术语索引包括:
i.1)重新分配同样出现在为其接收用户确定的输入的参考文档中的每一个中的输入文本术语的输入本地文本术语权重;以及
其中步骤(24.j)包括:
j.1)在这些重新分配的输入本地文本术语权重的基础上,查询该数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
26.如权利要求24所述的方法,其中在步骤(24.g)中,用户输入装置是相对于每个所显示的参考文档用于分配正和负相关性权重的一个装置。
27.如权利要求24所述的方法,进一步包括重复步骤(24.h)到(24.k),从而识别并输出与在文本部分中的相关文本术语具有增加的加强相关性的一个或多个进一步相关的文档。
28.如权利要求24所述的方法,进一步包括在具有加强的相关性的参考文档上的重复步骤(24.h)到(24.k),以识别并输出具有额外的相关性加强的参考文档。
29.如权利要求24所述的方法,其中该额外的相关性信息包括或一个具体的文档的正的相关性指示或一个具体的文档的负的相关性指示。
30.如权利要求29所述的方法,其中对于为其接收正的相关性指示的每一个参考文档而言,同样出现在被识别为正的参考文档的本地文本术语索引中的输入本地索引中的输入文本术语中的每一个的相关联的权重增加了一个预定的量。
31.如权利要求29所述的方法,其中对于为其接收负的相关性指示每个参考文档而言,同样出现在被识别为负的参考文档的本地文本术语索引中的输入本地索引中的输入文本术语中的每一个的相关联的权重减少了一个预定的量。
32.如权利要求29或30中的任意一项所述的方法,其中该预定的量可以是施加到索引术语权重的一个乘数。
33.如权利要求32所述的方法,其中该乘数可以是零以便一个所选术语与随后的交互没有相关性。
34.如权利要求29所述的方法,其中在一个所选文本术语出现在接收一个正的相关性指示的一个或多个文档中并且该所选文本术语同样出现在接收一个负的相关性指示的一个或多个文档中的场合,基于该正指示与负指示的一种组合来更新在输入本地索引中的所选文本术语的相关联的权重。
35.如权利要求34所述的方法,其中在该所选文本术语出现在接收一个正的相关性指示的一个或多个文档中并且该所选文本术语同样出现在相等数目的接收一个负的相关性指示的文档中的场合,在输入本地索引中的所选文本术语的相关联的权重不改变。
36.如权利要求30所述的方法,其中在步骤(24.i)中,再形成输入本地术语索引包括:
i.2)在接收一个正的相关性指示的文档的本地术语索引中的文本术语的基础上,形成一个补充的输入本地术语索引;以及
其中步骤(24.j)包括:
j.2)在补充的输入本地文本术语索引中的输入本地文本术语权重的基础上,查询数据库以识别与该输入文本部分具有加强相关性的一个或多个相关参考文档。
37.如权利要求36所述的方法,其中对于为其接收一个正的相关性指示的每一个参考文档而言,将未出现在输入本地术语索引中的被识别为正的术语添加到其中,以与所确定的相关联的本地索引文本术语权重一起形成补充的本地文本术语索引。
38.如权利要求11至37中的任意一项所述的方法,其中该文本部分是包括多个文本单词的一个文本字符串。
39.如权利要求11至37中的任意一项所述的方法,其中该文本部分是一个文本文档。
40.如权利要求11至37中的任意一项所述的方法,其中为这些参考文档中的每一个分配了一个代表与输入文本部分的相关性的文档相关性得分。
41.如权利要求11至37中的任意一项所述的方法,其中该参考文档是代表选自下组的各项中的一个或多个中的一个文档的文本文档,该组的构成为:一本书;一篇文章;一个文本记录;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份简历;一份专利说明书;一份招聘广告;一份法律抄录;一份法律文档;或一份新闻报道。
42.如权利要求11至37中的任意一项所述的方法,其中该文本部分是选自下组的各项中的一个或多个,该组的构成为:包括一个或多个单词的一个文本字符串;一个文本文档;一本书;一篇文章;一个文本记录;一份简历;一个证书;一份协议;一份合同;一份手稿;一篇论文;一篇科学论文;一份专利说明书;一份简历;一份履历表;一份法律抄录;一份法律文档;或一份新闻报道。
43.一种提炼搜索结果的方法,这些搜索结果包括所选多个参考文档的一个图示,这种参考文档被显示为相关于包括一个或多个搜索术语的输入文本部分,所选多个参考文档包括数据库中的多个文档的一个子集,该方法包括以下步骤:
a)从这些搜索术语中形成一个本地术语索引,该本地术语索引包括一个或多个文本术语,每个本地文本术语与一个本地文本术语权重相关联;
b)接收并显示这些搜索结果在一个用户界面上,该用户界面包括相对于多个所显示的参考文档中的一个或多个用于接收用户输入的输入装置;
c)接收在所显示的参考文档中的一个或多个上的用户输入;
d)在用户输入的基础上再形成该本地术语索引;
e)在该再形成的输入本地术语索引的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个文档;以及
f)输出具有加强的相关性的进一步识别的参考文档的一个图示。
44.如权利要求43所述的方法,其中在步骤(43.d)中,再形成该输入本地术语索引包括:
d.1)重新分配同样出现在为其接收用户确定的输入的参考文档中的每一个中的输入本地文本术语的输入文本术语权重;以及
其中步骤(43.e)包括:
e.1)在这些重新分配的输入本地文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
45.如权利要求43所述的方法,其中在步骤(43.a)中用于本地文本术语中的每一个的本地文本术语权重是相等的。
46.如权利要求43所述的方法,其中在步骤(43.a)中用于本地文本术语中的每一个的本地文本术语权重来源于一个全局文本术语索引,该全局文本术语索引包括与全局文本术语权重相关联的多个文本术语,其中这些全局文本术语权重来源于多个文档的文本术语分析。
47.如权利要求43所述的方法,其中在步骤(43.d)中,再形成该输入本地术语索引包括:
d.2)在接收一个正的相关性指示的文档的本地术语索引中的文本术语的基础上,形成一个补充的输入本地术语索引;以及
其中步骤(43.e)包括:
e.2)在补充的输入本地术语索引中的输入本文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
48.如权利要求47所述的方法,其中对于为其接收一个正的相关性指示的每一个参考文档而言,将未出现在本地术语索引中的被识别为正的新的术语添加到其中以形成补充的本地文本术语索引并且确定用于这些新术语的相关联的本地索引文本术语权重。
49.如权利要求47或权利要求48中的任意一项所述的方法,其中对于为其接收一个负的相关性指示的每一个参考文档而言,从其中减去未出现在本地术语索引中的被识别为负的参考文档中的术语,以形成补充的本地文本术语索引。
50.一种提炼搜索结果的系统,这些搜索结果包括与一个或多个搜索术语相关的所选多个文档的一个图示,该所选多个文本包括数据库中的多个文档的一个子集,该系统包括:
用于从搜索术语中形成一个本地术语索引的装置,该本地术语索引包括一个或多个文本术语,每个本地文本术语与一个本地文本术语权重相关联;
用于在一个用户界面上接收并显示搜索结果的装置,该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的输入装置;
用于接收所显示的文档中的一个或多个上的用户输入的用户输入装置;
用于分析用户输入并且在用户输入的基础上再形成输入本地术语索引的处理装置;
用于在再形成的输入本地术语索引的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个文档的查询装置;以及
输出具有加强的相关性的进一步识别的参考文档的图示的输出装置。
51.一种分析输入文本部分并检索与该文本部分相关的文档的系统,该系统包括:
用于接收一个输入的输入装置,该输入包括一个输入文本部分;
识别在文本部分中的至少一个文本术语的识别装置;
用于分配与该至少一个文本术语相关联的至少一个权重的分配装置;
用于形成至该少一个文本术语的一个输入本地术语索引和至少一个相关联的本地术语权重的标引装置,其中该至少一个相关联的本地文本术语是参考存储在一个数据库中的一个全局术语索引所确定的,该全局术语索引包括多个全局文本术语和相关联的全局文本术语权重并且从多个参考文档中形成,其中这些参考文档中的每一个的图示存储在该数据库中;
用于查询数据库以相对于输入文本部分识别一个或多个相关参考文档的查询装置;以及
用于输出所识别的相关参考文档的图示的输出装置。
52.如权利要求51所述的系统,其中存储在数据库中的多个参考文档中的每一个的图示包括该参考文档或一个到其的链接,并且该图示进一步包括用于每个参考文档的一个对应的本地参考术语索引。
53.如权利要求51所述的系统,其中存储在数据库中的多个参考文档中的每一个的图示包括来源于每个参考文档的文本部分的一个代表性文本字符串以及一个对应的本地参考术语索引。
54.如权利要求51至53中的任一项所述的系统,其中在文本部分中识别多个文本术语,为该多个文本术语中中的每一个分配了参考全局术语索引所确定的至少一个相关联的本地术语权重。
55.如权利要求51所述的系统,还包括:
用于在一个用户界面上显示相关参考文档的显示装置,该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的输入装置;
接收所显示的文档中的一个或多个上的用户输入的用户输入装置;
用于分析用户输入并且再形成输入本地文本术语索引的处理装置;
用于在再形成的输入本地文本术语索引的基础上查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档的查询装置;以及
用于输出具有加强的相关性的进一步识别的参考文档的图示的装置。
56.如权利要求55所述的系统,其中再形成输入本地术语索引包括:重新分配同样在为其接收用户确定的输入的参考文档中的每一个中出现的输入文本术语的输入本地文本术语权重;以及
在该再形成的输入本地文本术语索引的基础上查询数据库包括:在该重新分配的输入本地文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
57.如权利要求55所述的系统,其中输入本地术语索引的再形成包括:在接收一个正的相关性指示的文档的本地术语索引中的文本术语的基础上形成一个补充的输入本地术语索引;以及
在该再形成的输入本地文本术语索引的基础上查询数据库包括:在补充的输入本地文本术语索引中的输入本地文本术语权重的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档。
58.一种包括用于分析文本部分并且检索与该文本部分相关的文档的程序的计算可读媒质,所述程序控制一个数据处理设备的运行,该程序在其上运行以执行以下步骤:
a)接收包括一个输入文本部分的一个输入;
b)识别在该文本部分中的至少一个文本术语;
c)分配与该至少一个文本术语相关联的至少一个权重;
d)形成该至少一个文本术语的一个输入本地索引和至少一个相关联的本地术语权重,其中该至少一个相关联的本地术语权重是参考存储在一个数据库中的一个全局术语索引所确定的,该全局术语索引包括多个全局文本术语和相关联的全局文本术语权重并且从多个参考文档中形成,其中这些参考文档中的每一个的图示存储在该数据库中;
e)查询该数据库以识别与输入文本部分相关的参考文档中的一个或多个;以及
f)输出所识别的相关参考文档的一个图示。
59.一种包括根据权利要求58所述的程序的计算机可读媒质,其中该程序运行以执行进一步的步骤:
g)在一个用户界面上显示这些相关参考文档,该用户界面包括相对于所显示的参考文档中的每一个用于接收用户输入的输入装置;
h)相对于所显示的文档中的一个或多个接受用户输入;
i)在用户输入的基础上再形成该输入本地术语索引;
j)在该再形成的输入本地术语索引的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个相关参考文档;以及
k)输出具有加强的相关性的进一步识别的参考文档的一个图示。
60.一种包括用于提炼搜索结果的程序的计算机可读媒质,这些搜索结果包括所选多个参考文档的一个的图示,所显示的这种参考文档与包括一个或多个搜索术语的一个输入文本部分相关,该所选多个文档包括在一个数据库中的多个文档的一个子集,所述程序控制一个数据处理设备的运行,该程序在其上运行以执行以下步骤:
a)从这些搜索术语中形成一个本地术语索引,该本地术语索引包括一个或多个文本术语,每个本地文本术语与一个本地文本术语权重相关联;
b)在一个用户界面上接收并显示这些搜索结果,该用户界面包括相对于多个所显示的参考文档中的一个或多个用于接收用户输入的输入装置;
c)接受所显示的文档的一个或多个上的用户输入;
d)在用户输入的基础上再形成该输入本地术语索引;
e)在该再形成的输入本地术语索引的基础上,查询数据库以识别与输入文本部分具有加强的相关性的一个或多个文档;以及
f)输出具有加强的相关性的进一步识别的参考文档的一个图示。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US24612109P | 2009-09-26 | 2009-09-26 | |
US61/246,121 | 2009-09-26 | ||
PCT/AU2010/001259 WO2011035389A1 (en) | 2009-09-26 | 2010-09-24 | Document analysis and association system and method |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102597991A true CN102597991A (zh) | 2012-07-18 |
Family
ID=43795233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010800494938A Pending CN102597991A (zh) | 2009-09-26 | 2010-09-24 | 文档分析与关联系统及方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US8666994B2 (zh) |
EP (1) | EP2480987A4 (zh) |
CN (1) | CN102597991A (zh) |
AU (1) | AU2010300096B2 (zh) |
BR (1) | BR112012006743A2 (zh) |
CA (1) | CA2775368A1 (zh) |
NZ (1) | NZ599047A (zh) |
WO (1) | WO2011035389A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103684816A (zh) * | 2012-09-04 | 2014-03-26 | 华为技术有限公司 | 资源信息显示方法和装置 |
CN104809106A (zh) * | 2015-05-15 | 2015-07-29 | 合肥汇众知识产权管理有限公司 | 一种专利方案的挖掘系统及挖掘方法 |
CN105190620A (zh) * | 2013-05-10 | 2015-12-23 | 国际商业机器公司 | 改变文档和/或搜索查询的相关性 |
CN107315830A (zh) * | 2017-07-10 | 2017-11-03 | 深圳市视维科技股份有限公司 | 一种智能分析文档的方法及系统 |
CN107798637A (zh) * | 2016-08-30 | 2018-03-13 | 北京国双科技有限公司 | 同案异判文书的获取方法及装置 |
CN110209663A (zh) * | 2018-02-14 | 2019-09-06 | 阿里巴巴集团控股有限公司 | 搜索范围确定的方法、装置和存储介质 |
CN110309502A (zh) * | 2018-03-20 | 2019-10-08 | 波音公司 | 用于复杂系统生命周期管理的预测查询处理 |
Families Citing this family (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9183535B2 (en) * | 2008-07-30 | 2015-11-10 | Aro, Inc. | Social network model for semantic processing |
US9069862B1 (en) | 2010-10-14 | 2015-06-30 | Aro, Inc. | Object-based relationship search using a plurality of sub-queries |
US8706717B2 (en) * | 2009-11-13 | 2014-04-22 | Oracle International Corporation | Method and system for enterprise search navigation |
US20120076414A1 (en) * | 2010-09-27 | 2012-03-29 | Microsoft Corporation | External Image Based Summarization Techniques |
US8429099B1 (en) * | 2010-10-14 | 2013-04-23 | Aro, Inc. | Dynamic gazetteers for entity recognition and fact association |
US8874568B2 (en) * | 2010-11-05 | 2014-10-28 | Zofia Stankiewicz | Systems and methods regarding keyword extraction |
US9251508B2 (en) | 2010-12-09 | 2016-02-02 | At&T Intellectual Property I, L.P. | Intelligent message processing |
US20120150862A1 (en) * | 2010-12-13 | 2012-06-14 | Xerox Corporation | System and method for augmenting an index entry with related words in a document and searching an index for related keywords |
US20120271844A1 (en) * | 2011-04-20 | 2012-10-25 | Microsoft Corporation | Providng relevant information for a term in a user message |
CN102810096B (zh) * | 2011-06-02 | 2016-03-16 | 阿里巴巴集团控股有限公司 | 一种基于单字索引系统的检索方法和装置 |
US8676795B1 (en) * | 2011-08-04 | 2014-03-18 | Amazon Technologies, Inc. | Dynamic visual representation of phrases |
US9442930B2 (en) * | 2011-09-07 | 2016-09-13 | Venio Inc. | System, method and computer program product for automatic topic identification using a hypertext corpus |
US9442928B2 (en) * | 2011-09-07 | 2016-09-13 | Venio Inc. | System, method and computer program product for automatic topic identification using a hypertext corpus |
US9223769B2 (en) | 2011-09-21 | 2015-12-29 | Roman Tsibulevskiy | Data processing systems, devices, and methods for content analysis |
US8782058B2 (en) * | 2011-10-12 | 2014-07-15 | Desire2Learn Incorporated | Search index dictionary |
US20130191365A1 (en) * | 2012-01-19 | 2013-07-25 | Mauritius H.P.M. van Putten | Method to search objectively for maximal information |
US9406072B2 (en) | 2012-03-29 | 2016-08-02 | Spotify Ab | Demographic and media preference prediction using media content data analysis |
US9547679B2 (en) * | 2012-03-29 | 2017-01-17 | Spotify Ab | Demographic and media preference prediction using media content data analysis |
ITTO20120867A1 (it) * | 2012-10-05 | 2014-04-06 | Rai Radiotelevisione Italiana | Metodo e sistema per la raccomandazione di contenuti multimediali su una piattaforma multimediale |
WO2014100202A1 (en) * | 2012-12-18 | 2014-06-26 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for patent-related document analysis and searching |
US11232137B2 (en) | 2012-12-18 | 2022-01-25 | RELX Inc. | Methods for evaluating term support in patent-related documents |
US8949228B2 (en) * | 2013-01-15 | 2015-02-03 | Google Inc. | Identification of new sources for topics |
US9171083B2 (en) | 2013-03-14 | 2015-10-27 | FortyTwo, Inc. | Expert network in a method and apparatus for keeping and finding information |
US9465789B1 (en) | 2013-03-27 | 2016-10-11 | Google Inc. | Apparatus and method for detecting spam |
CN105378707A (zh) * | 2013-04-11 | 2016-03-02 | 朗桑有限公司 | 情感反馈 |
US9898523B2 (en) | 2013-04-22 | 2018-02-20 | Abb Research Ltd. | Tabular data parsing in document(s) |
US20150242927A1 (en) * | 2013-10-03 | 2015-08-27 | Jason Will | Method and system of an online travel website |
US9928295B2 (en) | 2014-01-31 | 2018-03-27 | Vortext Analytics, Inc. | Document relationship analysis system |
US10007935B2 (en) * | 2014-02-28 | 2018-06-26 | Rakuten, Inc. | Information processing system, information processing method, and information processing program |
US10963924B1 (en) * | 2014-03-10 | 2021-03-30 | A9.Com, Inc. | Media processing techniques for enhancing content |
US9679050B2 (en) * | 2014-04-30 | 2017-06-13 | Adobe Systems Incorporated | Method and apparatus for generating thumbnails |
WO2016028770A1 (en) | 2014-08-18 | 2016-02-25 | HavenLock Inc. | Improved locking apparatus, locking member, and method of use |
TWI526856B (zh) * | 2014-10-22 | 2016-03-21 | 財團法人資訊工業策進會 | 服務需求分析系統、方法與電腦可讀取記錄媒體 |
US10372718B2 (en) | 2014-11-03 | 2019-08-06 | SavantX, Inc. | Systems and methods for enterprise data search and analysis |
US10915543B2 (en) | 2014-11-03 | 2021-02-09 | SavantX, Inc. | Systems and methods for enterprise data search and analysis |
KR101668725B1 (ko) * | 2015-03-18 | 2016-10-24 | 성균관대학교산학협력단 | 잠재 키워드 생성 방법 및 장치 |
US11281639B2 (en) | 2015-06-23 | 2022-03-22 | Microsoft Technology Licensing, Llc | Match fix-up to remove matching documents |
US10467215B2 (en) | 2015-06-23 | 2019-11-05 | Microsoft Technology Licensing, Llc | Matching documents using a bit vector search index |
US10565198B2 (en) | 2015-06-23 | 2020-02-18 | Microsoft Technology Licensing, Llc | Bit vector search index using shards |
US10242071B2 (en) | 2015-06-23 | 2019-03-26 | Microsoft Technology Licensing, Llc | Preliminary ranker for scoring matching documents |
US10229143B2 (en) | 2015-06-23 | 2019-03-12 | Microsoft Technology Licensing, Llc | Storage and retrieval of data from a bit vector search index |
US11392568B2 (en) | 2015-06-23 | 2022-07-19 | Microsoft Technology Licensing, Llc | Reducing matching documents for a search query |
US10733164B2 (en) * | 2015-06-23 | 2020-08-04 | Microsoft Technology Licensing, Llc | Updating a bit vector search index |
US10402400B2 (en) | 2015-06-25 | 2019-09-03 | International Business Machines Corporation | Distributed processing of a search query with distributed posting lists |
US11392582B2 (en) * | 2015-10-15 | 2022-07-19 | Sumo Logic, Inc. | Automatic partitioning |
US20170116194A1 (en) | 2015-10-23 | 2017-04-27 | International Business Machines Corporation | Ingestion planning for complex tables |
US9798823B2 (en) | 2015-11-17 | 2017-10-24 | Spotify Ab | System, methods and computer products for determining affinity to a content creator |
US20170147652A1 (en) * | 2015-11-19 | 2017-05-25 | Institute For Information Industry | Search servers, end devices, and search methods for use in a distributed network |
US20170192854A1 (en) * | 2016-01-06 | 2017-07-06 | Dell Software, Inc. | Email recovery via emulation and indexing |
US10628466B2 (en) * | 2016-01-06 | 2020-04-21 | Quest Software Inc. | Smart exchange database index |
US10839149B2 (en) | 2016-02-01 | 2020-11-17 | Microsoft Technology Licensing, Llc. | Generating templates from user's past documents |
US9922022B2 (en) * | 2016-02-01 | 2018-03-20 | Microsoft Technology Licensing, Llc. | Automatic template generation based on previous documents |
US10354066B2 (en) | 2016-02-26 | 2019-07-16 | Cylance Inc. | Retention and accessibility of data characterizing events on an endpoint computer |
US11347777B2 (en) * | 2016-05-12 | 2022-05-31 | International Business Machines Corporation | Identifying key words within a plurality of documents |
US10866992B2 (en) * | 2016-05-14 | 2020-12-15 | Gratiana Denisa Pol | System and methods for identifying, aggregating, and visualizing tested variables and causal relationships from scientific research |
US10621237B1 (en) * | 2016-08-01 | 2020-04-14 | Amazon Technologies, Inc. | Contextual overlay for documents |
US10691507B2 (en) * | 2016-12-09 | 2020-06-23 | Fujitsu Limited | API learning |
US10699012B2 (en) | 2017-01-11 | 2020-06-30 | Cylance Inc. | Endpoint detection and response utilizing machine learning |
US10528668B2 (en) * | 2017-02-28 | 2020-01-07 | SavantX, Inc. | System and method for analysis and navigation of data |
US11328128B2 (en) | 2017-02-28 | 2022-05-10 | SavantX, Inc. | System and method for analysis and navigation of data |
US10819714B2 (en) * | 2017-04-26 | 2020-10-27 | Cylance Inc. | Endpoint detection and response system with endpoint-based artifact storage |
US11651333B2 (en) * | 2017-05-05 | 2023-05-16 | Microsoft Technology Licensing, Llc | Specialized user interfaces and processes for increasing user interactions with job postings in a social network/top jobs |
RU2652461C1 (ru) | 2017-05-30 | 2018-04-26 | Общество с ограниченной ответственностью "Аби Девелопмент" | Дифференциальная классификация с использованием нескольких нейронных сетей |
US11669574B2 (en) * | 2017-08-01 | 2023-06-06 | Informatica Llc | Method, apparatus, and computer-readable medium for determining a data domain associated with data |
US10885121B2 (en) * | 2017-12-13 | 2021-01-05 | International Business Machines Corporation | Fast filtering for similarity searches on indexed data |
EP3874383A1 (en) | 2018-11-01 | 2021-09-08 | rewardStyle, Inc. | System and method for improved searching across multiple databases |
US11144579B2 (en) * | 2019-02-11 | 2021-10-12 | International Business Machines Corporation | Use of machine learning to characterize reference relationship applied over a citation graph |
US11537581B2 (en) * | 2019-03-22 | 2022-12-27 | Hewlett Packard Enterprise Development Lp | Co-parent keys for document information trees |
US11314534B2 (en) * | 2020-01-30 | 2022-04-26 | Accenture Global Solutions Limited | System and method for interactively guiding users through a procedure |
US11405338B2 (en) * | 2020-12-10 | 2022-08-02 | Capital One Services, Llc | Virtual-assistant-based resolution of user inquiries via failure-triggered document presentation |
IT202100001133A1 (it) * | 2021-01-22 | 2022-07-22 | Aptus Ai S R L | Procedimento e sistema autonomo di gestione e aggiornamento di documenti testuali digitali normativi |
US20220398660A1 (en) * | 2021-06-10 | 2022-12-15 | SRAX, Inc. | System and method for computational shelf forecasting |
US11874880B2 (en) | 2022-02-09 | 2024-01-16 | My Job Matcher, Inc. | Apparatuses and methods for classifying a user to a posting |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6163782A (en) * | 1997-11-19 | 2000-12-19 | At&T Corp. | Efficient and effective distributed information management |
US6490575B1 (en) * | 1999-12-06 | 2002-12-03 | International Business Machines Corporation | Distributed network search engine |
US6847966B1 (en) * | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
CN101059806A (zh) * | 2007-06-06 | 2007-10-24 | 华东师范大学 | 一种基于语义的本地文档检索方法 |
US20080027918A1 (en) * | 2003-07-07 | 2008-01-31 | International Business Machines Corporation | Method of generating a distributed text index for parallel query processing |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4839853A (en) | 1988-09-15 | 1989-06-13 | Bell Communications Research, Inc. | Computer information retrieval using latent semantic structure |
US5826261A (en) * | 1996-05-10 | 1998-10-20 | Spencer; Graham | System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query |
US6012053A (en) * | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
US7113943B2 (en) * | 2000-12-06 | 2006-09-26 | Content Analyst Company, Llc | Method for document comparison and selection |
US6978274B1 (en) | 2001-08-31 | 2005-12-20 | Attenex Corporation | System and method for dynamically evaluating latent concepts in unstructured documents |
US6880002B2 (en) | 2001-09-05 | 2005-04-12 | Surgient, Inc. | Virtualized logical server cloud providing non-deterministic allocation of logical attributes of logical servers to physical resources |
US7137062B2 (en) * | 2001-12-28 | 2006-11-14 | International Business Machines Corporation | System and method for hierarchical segmentation with latent semantic indexing in scale space |
GB0200980D0 (en) * | 2002-01-15 | 2002-03-06 | Ibm | Method and apparatus for classification |
US7440964B2 (en) * | 2003-08-29 | 2008-10-21 | Vortaloptics, Inc. | Method, device and software for querying and presenting search results |
US7437353B2 (en) * | 2003-12-31 | 2008-10-14 | Google Inc. | Systems and methods for unification of search results |
US7599914B2 (en) | 2004-07-26 | 2009-10-06 | Google Inc. | Phrase-based searching in an information retrieval system |
US20060047441A1 (en) * | 2004-08-31 | 2006-03-02 | Ramin Homayouni | Semantic gene organizer |
US7433869B2 (en) * | 2005-07-01 | 2008-10-07 | Ebrary, Inc. | Method and apparatus for document clustering and document sketching |
US20070150492A1 (en) * | 2005-12-27 | 2007-06-28 | Hitachi, Ltd. | Method and system for allocating file in clustered file system |
US8392400B1 (en) * | 2005-12-29 | 2013-03-05 | Amazon Technologies, Inc. | Method and apparatus for stress management in a searchable data service |
US7860853B2 (en) | 2007-02-14 | 2010-12-28 | Provilla, Inc. | Document matching engine using asymmetric signature generation |
US8027977B2 (en) | 2007-06-20 | 2011-09-27 | Microsoft Corporation | Recommending content using discriminatively trained document similarity |
US20100169339A1 (en) * | 2008-12-30 | 2010-07-01 | Yahoo! Inc., A Delaware Corporation | System, method, or apparatus for updating stored search result values |
US8266135B2 (en) * | 2009-01-05 | 2012-09-11 | International Business Machines Corporation | Indexing for regular expressions in text-centric applications |
-
2010
- 2010-09-24 CN CN2010800494938A patent/CN102597991A/zh active Pending
- 2010-09-24 BR BR112012006743A patent/BR112012006743A2/pt not_active IP Right Cessation
- 2010-09-24 AU AU2010300096A patent/AU2010300096B2/en not_active Ceased
- 2010-09-24 EP EP10818162.9A patent/EP2480987A4/en not_active Withdrawn
- 2010-09-24 US US13/498,244 patent/US8666994B2/en active Active - Reinstated
- 2010-09-24 NZ NZ599047A patent/NZ599047A/xx not_active IP Right Cessation
- 2010-09-24 WO PCT/AU2010/001259 patent/WO2011035389A1/en active Application Filing
- 2010-09-24 CA CA2775368A patent/CA2775368A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6163782A (en) * | 1997-11-19 | 2000-12-19 | At&T Corp. | Efficient and effective distributed information management |
US6490575B1 (en) * | 1999-12-06 | 2002-12-03 | International Business Machines Corporation | Distributed network search engine |
US6847966B1 (en) * | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
US20080027918A1 (en) * | 2003-07-07 | 2008-01-31 | International Business Machines Corporation | Method of generating a distributed text index for parallel query processing |
CN101059806A (zh) * | 2007-06-06 | 2007-10-24 | 华东师范大学 | 一种基于语义的本地文档检索方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103684816A (zh) * | 2012-09-04 | 2014-03-26 | 华为技术有限公司 | 资源信息显示方法和装置 |
CN103684816B (zh) * | 2012-09-04 | 2017-12-22 | 华为技术有限公司 | 资源信息显示方法和装置 |
US10055100B2 (en) | 2012-09-04 | 2018-08-21 | Huawei Technologies Co., Ltd. | Method and apparatus for displaying resource information |
CN105190620A (zh) * | 2013-05-10 | 2015-12-23 | 国际商业机器公司 | 改变文档和/或搜索查询的相关性 |
CN104809106A (zh) * | 2015-05-15 | 2015-07-29 | 合肥汇众知识产权管理有限公司 | 一种专利方案的挖掘系统及挖掘方法 |
CN107798637A (zh) * | 2016-08-30 | 2018-03-13 | 北京国双科技有限公司 | 同案异判文书的获取方法及装置 |
CN107315830A (zh) * | 2017-07-10 | 2017-11-03 | 深圳市视维科技股份有限公司 | 一种智能分析文档的方法及系统 |
CN110209663A (zh) * | 2018-02-14 | 2019-09-06 | 阿里巴巴集团控股有限公司 | 搜索范围确定的方法、装置和存储介质 |
CN110309502A (zh) * | 2018-03-20 | 2019-10-08 | 波音公司 | 用于复杂系统生命周期管理的预测查询处理 |
Also Published As
Publication number | Publication date |
---|---|
BR112012006743A2 (pt) | 2019-09-24 |
AU2010300096B2 (en) | 2012-10-04 |
EP2480987A4 (en) | 2013-09-25 |
AU2010300096A1 (en) | 2012-04-19 |
EP2480987A1 (en) | 2012-08-01 |
CA2775368A1 (en) | 2011-03-31 |
US20120278341A1 (en) | 2012-11-01 |
WO2011035389A1 (en) | 2011-03-31 |
US8666994B2 (en) | 2014-03-04 |
NZ599047A (en) | 2013-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102597991A (zh) | 文档分析与关联系统及方法 | |
CN109754233B (zh) | 一种智能推荐职位信息的方法和系统 | |
CN111125334B (zh) | 一种基于预训练的搜索问答系统 | |
CA2556202C (en) | Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently | |
Zanasi | Text mining and its applications to intelligence, CRM and knowledge management | |
US20140279622A1 (en) | System and method for semantic processing of personalized social data and generating probability models of personal context to generate recommendations in searching applications | |
CN106951558B (zh) | 一种基于深度搜索的税务智能咨询平台的数据处理方法 | |
CN104216913A (zh) | 问题回答框架 | |
CN103838833A (zh) | 基于相关词语语义分析的全文检索系统 | |
CN105426529A (zh) | 基于用户搜索意图定位的图像检索方法及系统 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN114090861A (zh) | 一种基于知识图谱的教育领域搜索引擎构建方法 | |
CN117708270A (zh) | 企业数据查询方法、装置、设备及存储介质 | |
CN111126073B (zh) | 语义检索方法和装置 | |
RU2345416C1 (ru) | Способ синтеза самообучающейся аналитической вопросно-ответной системы с извлечением знаний из текстов | |
CN106951517B (zh) | 狭隘范围内文献的多样性查询方法 | |
KR102454261B1 (ko) | 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법 | |
Lazemi et al. | PAKE: a supervised approach for Persian automatic keyword extraction using statistical features | |
CN102663123B (zh) | 基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统 | |
Alashti et al. | Parsisanj: an automatic component-based approach toward search engine evaluation | |
Roussinov et al. | Web question answering: technology and business applications | |
German et al. | Information extraction method from a resume (CV) | |
Trusov et al. | Iterative procedural internet search | |
CN109101591A (zh) | 基于知识库的拼音词义检索方法 | |
KR102434880B1 (ko) | 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120718 |