CN102436505A

CN102436505A - 导出文档相似性索引

Info

Publication number: CN102436505A
Application number: CN2011104401572A
Authority: CN
Inventors: S·盖尔曼; K·慕克吉; A·普劳特
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-12-16
Filing date: 2011-12-15
Publication date: 2012-05-02
Anticipated expiration: 2031-12-15
Also published as: US20130282730A1; CN102436505B; US8478740B2; US20120158731A1; US8793242B2

Abstract

本发明涉及导出文档相似性索引。本发明涉及用于导出文档相似性索引的方法、系统以及计算机程序产品。本发明的各实施例包括用于导出和更新多个文档的文档相似性索引的可扩展且高效的机制。所维护的相似性的数量可被控制来节省CPU和存储资源。

Description

导出文档相似性索引

技术领域

本发明涉及文档索引，尤其涉及文档相似性索引。

背景技术

1.背景和相关技术

计算机系统和相关技术影响社会的许多方面。的确，计算机系统处理信息的能力已转变了人们生活和工作的方式。计算机系统现在通常执行在计算机系统出现以前手动执行的许多任务(例如，文字处理、日程安排和会计等)。最近，计算机系统彼此耦合并耦合到其他电子设备以形成计算机系统和其他电子设备可以在其上传输电子数据的有线和无线计算机网络。因此，许多计算任务的执行跨多个不同的计算机系统和/或多个不同的计算环境分布。

对于许多组织而言，文档很容易按量构成最大信息资产。如此，按其显著特征(诸如其关键词和短语)来表征文档是一种重要的功能。

用于表征文档的一种技术包括使用在全文本倒排索引中挖掘文档的全文本搜索解决方案。用于表征文档的另一技术挖掘文档级语义(例如，以标识文档之间的相似性)。在一些实施例中，术语相似性和/或文档相似性是经由诸如潜在语义索引(“LSI”)和潜在Direchlet分配(“LDA”)等计算密集的算法来计算的。

LSI是使用称为奇异值分解(“SVD”)的数学技术来标识文本的非结构化集合中包含的各术语和各概念之间的各个关系中的模式的索引和检索方法。LSI基于以下原理：在相同上下文中使用的词语趋向于具有相似的意义。LSI的一个特征是它能通过建立出现在类似上下文中的各术语之间的关联来提取文本正文的概念性内容。

LDA是允许由解释数据的一些部分为什么相似的未观察到的各组来解释各观察结果集合的生成性模型。例如，如果观察结果是被收集到文档中的词语，则假定每一文档是少量主题的混合并且每一词语的创建可归因于该文档的主题之一。

然而，全文本搜索和文档相似性技术的正确实现可能需要在计算机硬件和人力资源两方面进行大量投资。此外，文档解析、挖掘等操作通常在这两种技术之间是重复的。如此，最终用户因必须投资(可能多达双倍)资源来支付另外的成本，才能获得对他们的文档的搜索和语义洞察的好处。另外，许多更复杂的文档挖掘技术需要将不同的系统集成在一起，并且导致进一步的成本才能满足一组织的文档处理需求。

发明内容

本发明涉及用于导出文档相似性索引的方法、系统以及计算机程序产品。本发明的各实施例包括导出多个文档的文档相似性索引。访问一文档。计算该文档的标签索引。标签索引包括一个或多个关键词/权重对。每一关键词/权重对将关键词映射到该关键词的对应权重，以指示该关键词在文档内的显著性。基于标签索引中的权重来标识文档中的指定数量的最显著的关键词。

对于该指定数量的最显著的关键词中的每一关键词，从多个文档中的每一文档内确定该关键词的对应权重。基于多个文档中的指定数量的最显著的关键词的对应权重来从该多个文档中标识多个候选文档。文档中的指定数量的最显著的关键词中的至少一些也是该多个候选文档中的每一个文档中的显著关键词。

对于该多个候选文档中的每一候选文档，通过确定来自该文档的附加关键词在候选文档内的权重来计算该文档与候选文档之间的完全相似性。选择规定数量的候选文档的完全相似性以包括在文档相似性索引中，来指示与该文档相似的文档。对规定数量的候选文档的完全相似性的选择是基于完全相似性计算并根据硬限制或明确阈值之一的。硬限制或明确阈值对可被选择以包括在文档相似性索引中的候选文档的数量进行限制。对于规定数量的候选文档中包括的每一候选文档，来自该文档与候选文档之间的完全相似性的信息被存储在文档相似性索引中。

本发明的其他实施例包括更新多个文档的文档相似性索引。访问一批文档。对于该批文档中的每一文档，计算该文档的标签索引。标签索引包括一个或多个关键字/权重对。每一关键词/权重对将关键词映射到该关键词的对应权重，以指示该关键词在文档内的显著性。

对于该批文档中的每一文档，在计算了标签索引之后，基于标签索引中的权重来标识该文档中的指定数量的最显著的关键字。对于该指定数量的最显著的关键词中的每一关键词，从多个文档中的每一文档内以及该批文档的文档中确定该关键词的对应权重。从该多个文档和该批文档中标识多个候选文档。基于该多个文档和该批文档中的指定数量的最显著的关键词的对应权重来标识该多个候选文档。该文档中的指定数量的最显著的关键词中的至少一些也是该多个候选文档中的每一个候选文档中的显著关键字。

对于从该多个文档内标识的任何候选文档，通过确定来自该文档的附加关键词在该候选文档内的权重来标识该文档与该候选文档之间的完全相似性。从文档相似性索引中标识该候选文档的来自指定数量的最高相似性中的最弱相似性。该最弱相似性指示该候选文档与该多个文档中的另一文档之间的相似性。

通过将计算得到的完全相似性与所标识的最弱相似性进行比较来确定该候选文档和该文档比该候选文档和另一文档更相似。用来自计算得到的完全相似性的信息来替换文档相似性索引内的该最弱相似性，该替换是基于该确定的；以及

对于从该批文档标识的任何候选文档，通过确定来自该文档的附加关键词在该候选文档内的权重来标识该文档与该候选文档之间的完全相似性。选择规定数量的候选文档来作为与该文档相似的文档以包括在文档相似性索引中。对规定数量的候选文档的选择是基于完全相似性计算并根据硬限制或明确阈值之一的。硬限制或明确阈值对可被选择以包括在文档相似性索引中的候选文档的数量进行限制。来自该文档与该候选文档之间的计算得到的完全相似性的信息被存储在文档相似性索引中。

提供本发明内容以便以简化的形式介绍将在以下的具体实施方式中进一步描述的一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

本发明的附加特征和优点将在以下描述中叙述，且其一部分根据本描述将是显而易见的，或可通过对本发明的实践来获知。本发明的特征和优点可通过在所附权利要求书中特别指出的工具和组合来实现和获得。本发明的这些和其他特征将通过以下描述和所附权利要求书变得更加显而易见，或可通过对下文中所述的本发明的实践来领会。

附图说明

为了描述可获得本发明的上述和其他优点和特征的方式，将通过参考附图中示出的本发明的具体实施例来呈现以上简要描述的本发明的更具体描述。可以理解，这些附图仅描述本发明的典型实施例，从而不被认为是对其范围的限制，本发明将通过使用附图用附加特征和细节来描述和说明，在附图中：

图1示出了便于导出文档相似性索引的示例计算机体系结构。

图2示出了用于导出文档相似性索引的示例方法的流程图。

图3示出了便于更新文档相似性索引的示例计算机体系结构。

图4示出了用于更新文档相似性索引的示例方法的流程图。

具体实施方式

本发明的其他实施例包括更新多个文档的文档相似性索引。访问一批文档。对于该批文档中的每一文档，计算该文档的标签索引。标签索引包括一个或多个关键词/权重对。每一关键词/权重对将关键词映射到该关键词的对应权重，以指示该关键词在文档内的显著性。

对于该批文档中的每一文档，在计算了标签索引之后，基于标签索引中的权重来标识该文档中的指定数量的最显著的关键词。对于该指定数量的最显著的关键词中的每一关键词，从多个文档中的每一文档内以及该批文档的文档中确定该关键词的对应权重。从该多个文档和该批文档中标识多个候选文档。基于该多个文档和该批文档中的指定数量的最显著的关键词的对应权重来标识该多个候选文档。该文档中的指定数量的最显著的关键词中的至少一些也是该多个候选文档中的每一个候选文档中的显著关键词。

对于从该多个文档标识的任何候选文档，通过确定来自该文档的附加关键词在该候选文档内的权重来标识该文档与该候选文档之间的完全相似性。从文档相似性索引中标识该候选文档的来自指定数量的最高相似性中的最弱相似性。该最弱相似性指示该候选文档与该多个文档中的另一文档之间的相似性。

对于从该批文档标识的任何候选文档，通过确定来自该文档的附加关键词在该候选文档内的权重来标识该文档与该候选文档之间的完全相似性。选择规定数量的候选文档来作为与该文档相似的文档以包括在文档相似性索引中。对规定数量的候选文档的选择是基于完全相似性计算并根据硬限制或明确阈值之一的。硬限制或明确阈值限制了可被选择以包括在文档相似性索引中的候选文档的数量。来自该文档与该候选文档之间的计算得到的完全相似性的信息被存储在文档相似性索引中。

本发明的各实施例可包括或利用专用或通用计算机，该专用或通用计算机包括诸如例如一个或多个处理器和系统存储器等计算机硬件，如以下更详细讨论的。本发明范围内的各实施例还包括用于携带或存储计算机可执行指令和/或数据结构的物理介质和其他计算机可读介质。这些计算机可读介质可以是通用或专用计算机系统能够访问的任何可用介质。存储计算机可执行指令的计算机可读介质是物理存储介质。携带计算机可执行指令的计算机可读介质是传输介质。由此，作为示例而非限制，本发明的各实施例可包括至少两种明显不同类型的计算机可读介质：计算机存储介质和传输介质。

计算机存储介质包括RAM、ROM、EEPROM、CD-ROM、DVD或其他光盘存储、磁盘存储或其他磁存储设备、或可用于存储计算机可执行指令或数据结构形式的所需程序代码装置(软件)且可由通用或专用计算机访问的任何其他介质。

“网络”被定义为允许在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当信息通过网络或另一个通信连接(硬连线、无线、或者硬连线或无线的组合)传输或提供给计算机时，该计算机将该连接适当地视为传输介质。传输介质可包括可用于携带以计算机可执行指令或数据结构形式的所需程序代码装置且可由通用或专用计算机访问的网络和/或数据链路。上述的组合也应被包括在计算机可读介质的范围内。

此外，在到达各种计算机系统组件之后，以计算机可执行指令或数据结构形式的程序代码装置可从传输介质自动传输到计算机存储介质(或反之亦然)。例如，通过网络或数据链路接收到的计算机可执行指令或数据结构可被缓存在网络接口模块(例如，“NIC”)内的RAM中，然后最终被传输到计算机系统RAM和/或计算机系统处的较不易失性的计算机存储介质。因而，应当理解，计算机存储介质可被包括在还利用(或甚至主要利用)传输介质的计算机系统组件中。

计算机可执行指令例如包括，当在处理器处执行时使通用计算机、专用计算机、或专用处理设备执行某一功能或某组功能的指令和数据。计算机可执行指令可以是例如二进制代码、诸如汇编语言之类的中间格式指令、或甚至源代码。尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述特征或动作。相反，上述特征和动作是作为实现权利要求的示例形式而公开的。

本领域的技术人员将理解，本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践，这些计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子设备、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等等。本发明也可在其中通过网络链接(或者通过硬连线数据链路、无线数据链路，或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务的分布式系统环境中实施。在分布式系统环境中，程序模块可位于本地和远程存储器存储设备两者中。

本发明的各实施例可被用来导出文档相似性索引。图1示出了便于导出文档相似性索引的示例计算机体系结构100。参考图1，计算机体系结构100包括标签索引生成器101、关键词选择器102、候选文档标识器103、完全相似性计算器106、以及候选文档选择器107。所描绘的组件中的每一个可通过诸如例如局域网(“LAN”)、广域网(“WAN”)和甚至因特网等网络(或作为网络的一部分)彼此连接。因此，所描绘的组件中的每一个以及任何其他连接的计算机系统及其组件都可以创建消息相关数据并通过网络交换消息相关数据(例如，网际协议(“IP”)数据报和利用IP数据报的其他更高层协议，诸如传输控制协议(“TCP”)、超文本传输协议(“HTTP”)、简单邮件传输协议(“SMTP)等)。”

一般而言，标签索引生成器101被配置成接收文档并生成该文档的标签索引。标签索引包括将来自文档的关键词映射到该关键词在该文档内的对应权重的一个或多个关键词/权重对。关键词可以是书面语(例如，英语、日语、德语等)的词。权重指示该关键词在该文档内的显著性。

各种不同类型的自由参数(如术语频率、文档长度等)可被用于权重函数中以生成标签索引中包括的权重值，并被用于选择/阈值函数中，该选择/阈值函数被用来选择标签索引内的标签。权重函数和选择/阈值函数的函数形式可任意选择。例如，一些可能的函数类型包括：

函数形式示例

线性 f(.)＝ax1+bx2+c

多项式 f(.)＝ax1ⁿ+bx2^n-1

比例 f(.)＝ax1ⁿ/bx2^m

指数2^f(.)，e^f(.)

关键词选择器102被配置成接收标签索引并从标签索引中提取多个显著关键词。显著关键词可以基于权重来进行选择。所选择的显著关键词的数量可以基于限制或阈值。

候选文档标识器103被配置成标识候选文档以因其与另一文档相似而被包括在文档相似性索引中。候选文档可以基于关键词来标识。关键词比较器104可以将来自文档的显著关键词与来自多个其他文档的标签索引进行比较。在来自一个文档的显著关键词在另一文档的标签索引中也被更重地加权时，该一个文档至少有某种可能性与该另一文档相似。候选文档标识器103可以输出具有与另一文档的潜在相似性的对应一组候选文档的一组标签索引。

完全相似性计算器106被配置成计算一文档与该潜在相似候选文档的集合中的每一文档之间的完全相似性。完全相似性可以从该文档的标签索引和来自每一潜在相似的候选文档的标签来计算。因此，来自一文档的前几个显著关键词可被用来标识潜在相似候选文档，并且随后该文档的完全标签索引可被用来计算该文档与潜在相似候选文档中的每一个之间的完全相似性。

候选文档选择器107被配置成选择规定数量的候选文档的完全相似性以包括在文档相似性索引中。候选文档选择器107根据候选选择规则124来选择完全相似性以包括在文档相似性索引中。候选选择规则124可包括对可被选择以包括在文档相似性索引中的候选文档的数量进行限制的硬限制或明确阈值。来自所选文档相似性的信息可被存储在文档相似性索引中以指示各文档之间的相似性(例如，两个文档包含多个相同的词或短语)。

图2示出了用于导出文档相似性索引的示例方法200的流程图。方法200将参考计算机体系结构100的组件和数据来描述。

方法200包括访问文档的动作(动作201)。例如，标签索引生成器101可以访问文档112(例如，书面语的文档)。方法200包括计算文档的标签索引，该标签索引包括一个或多个关键词/权重对，每一关键词/权重对将关键词映射到该关键词的对应权重以指示该关键词在该文档内的显著性的动作(动作202)。例如，标签索引生成器101可以生成文档112的标签索引113。标签索引113包括关键词/权重对，例如指示每一关键词114A、关键词114B等在文档112内的显著性的关键词114A/权重114B、关键词116A/权重116B等。

方法200包括基于标签索引中的权重来标识该文档中的指定数量的最显著的关键词的动作(动作203)。例如，关键词选择器102可以访问标签索引113。关键词选择器102可以基于标签索引113中的权重来标识文档112(包括关键词114A、116A、118A)中包含的显著关键词117。例如，权重114B、116B等可以指示关键词114A、116A等在文档112中更显著。关键词选择器102可被配置成从文档中选择指定数量(例如，前10个)的显著关键词。

方法200包括对于指定数量的最显著关键词中的每一关键词，确定该关键词在多个文档中的每一文档中的对应权重的动作(动作204)。候选文档标识器103可以接收(文档111的)显著关键词117和标签索引119。标签索引119中的每一标签索引可以对应于诸文档111中的文档。例如，标签索引119A对应于文档111A，标签索引119B对应于文档111B，标签索引119C对应于文档111C，诸如此类。标签索引生成器102可被用来生成文档111的标签索引119。因此，标签索引119中的每一标签索引的格式可以是标签索引113的格式。

对于显著关键词117中的每一关键词，候选文档标识器103可以扫描标签索引119以寻找该关键词。对于包括该关键词的任何标签索引，可临时保存该关键词在对应文档内的权重。例如，如果在标签索引119A中找到了关键词114A，则可临时保存该关键词114A在文档111A内的权重。

方法200包括基于指定数量的最显著关键词在多个文档中的对应权重从该多个文档中标识多个候选文档的动作，该文档中的指定数量的最显著关键词中的至少一些也是该多个候选文档中的每一个中的显著关键词(动作205)。候选文档标识器103可以(从诸文档111中)将与标签索引121(标签索引119的子集)相对应的文档标识为可能与文档112相似的候选文档。例如，候选文档标识器103可以将与标签索引119A相对应的文档111A标识为可能与文档112相似。类似地，候选文档标识器103可以将与标签索引119C相对应的文档111C标识为可能与文档112相似。同样，候选文档标识器103可以(从诸文档111中)将与标签索引119C相对应的某一其他文档标识为可能与文档112相似。显著关键词117中的至少一些也可被包括在候选文档111A、111C等中的每一个中。

为了标识可能与文档112相似的候选文档，关键词比较器104可以将在每一文档中找到的每一关键词的诸关键词权重彼此进行比较。不同算法可被用来标识候选，这些算法可以基于显著关键词117中有多少被包含在文档中以及在该文档中每一显著关键词的权重是什么。因此，包含较大数量的在该文档中具有较小显著性的显著关键词117的文档可被标识为候选文档。类似地，包含较少数量的在该文档中具有较大显著性的显著关键词117的文档也可被标识为候选文档。

方法200包括对于多个候选文档中的每一候选文档，通过确定来自该文档的附加关键词在候选文档内的权重来计算该文档与该候选文档之间的完全相似性的动作(动作206)。例如，完全相似性计算器102可以访问标签索引113和标签索引122。完全相似性计算器102可以计算完全相似性123。完全相似性123可以指示文档112与对应于各标签索引121中的标签索引的每一文档之间的完全相似性。

例如，完全相似性123可以基于标签索引113和119A中的(显著关键词117之外的)关键词和权重来指示文档112与文档111A之间的完全相似性。同样，完全相似性123可以基于标签索引113和119C中的(显著关键词117之外的)关键词和权重来指示文档112与文档111C之间的完全相似性。文档112与其他文档之间的完全相似性还可以基于标签索引113和其他对应的标签索引中的关键词和权重来指示。

方法200包括选择规定数量的候选文档的完全相似性以包括在文档相似性索引中来指示与该文档相似的文档的动作，基于完全相似性计算并根据硬限制或明确阈值之一来选择规定数量的候选文档的完全相似性，该硬限制或明确阈值对可被选择以包括在文档相似性索引中的候选文档的数量进行限制(动作207)。例如，候选文档选择器107可以选择规定的完全相似性126以包括在文档相似性索引127中。规定的相似性126包括文档112与完全相似性123中所表示的候选文档的缩减子集之间的完全相似性。候选文档选择器107可以基于完全相似性123并根据候选选择规则124中的硬限制或明确阈值来选择规定的完全相似性126。硬限制或明确阈值对来自完全相似性123的可被包括在规定的完全相似性126中的完全相似性的数量进行限制。例如，硬限制可以将可被包括在规定的完全相似性中的完全相似性的数量限制为10或更少。

方法200包括对于规定数量的候选文档中包括的每一候选文档，将来自该文档与该候选文档之间的完全相似性的信息存储在文档相似性索引中的动作(动作208)。例如，对于规定的完全相似性126中表示的每一候选文档，来自文档112与候选文档之间的相似性的信息可被存储在文档相似性索引127中。例如，来自标签索引113和标签索引119A的信息可被存储在文档相似性索引127中以指示文档112和111A是相似的。

本发明的各实施例还可被用来更新文档相似性索引。图3示出了便于导出文档相似性索引的示例计算机体系结构300。参考图3，计算机体系结构300包括标签索引生成器301、关键词选择器302、候选文档标识器303、完全相似性计算器306、候选文档选择器307、文档位置检测器309、以及相似性比较器374。所描绘的组件中的每一个可通过诸如例如局域网(“LAN”)、广域网(“WAN”)和甚至因特网等网络(或作为网络的一部分)彼此连接。因此，所描绘的组件中的每一个以及任何其他连接的计算机系统及其组件都可以创建消息相关数据并通过网络交换消息相关数据(例如，网际协议(“IP”)数据报和利用IP数据报的其他更高层协议，诸如传输控制协议(“TCP”)、超文本传输协议(“HTTP”)、简单邮件传输协议(“SMTP”)等)。

相同命名的组件与计算机体系结构100中的对应组件相似地运作。例如，标签索引生成器301、关键词选择器302、候选文档标识器303、完全相似性计算器306、候选文档选择器307可以分别与标签索引生成器101、关键词选择器102、候选文档标识器103、完全相似性计算器106、以及候选文档选择器107相似地运作。

文档位置检测器309被配置成从该文档的标签索引中确定文档所处的位置(例如，处于哪一批文档)。

相似性比较器374被配置成将不同的相似性彼此进行比较以确定哪一相似性是最强的(较相似)和/或最弱的(较不相似)。例如，相似性比较器374可以将第一文档与第二文档之间的相似性与该第一文档与第三文档之间的相似性进行比较以确定该第一文档是更相似于该第二文档还是该第三文档。

图4示出了用于更新文档相似性索引的示例方法400的流程图。方法400将参考计算机体系结构300的组件和数据来描述。

如图所示，标签索引生成器301可以生成文档311的标签索引319。例如，标签索引319A可对应于文档311A，标签索引319B可对应于文档311B，标签索引319C可对应于文档311C，诸如此类。

方法400包括访问一批文档的动作(动作401)。例如，标签索引生成器401可以访问包括文档312A、312B、312C等的批量文档312。对于该批文档中的每一文档，计算该文档的标签索引的动作，该标签索引包括一个或多个关键词/权重对，每一关键词/权重对将关键词映射到该关键词的对应权重以指示该关键词在该文档内的显著性(动作402)。标签索引生成器301可以生成批量文档312的诸标签索引364。例如，标签索引生成器301可以生成文档312A的标签索引313、文档312B的标签索引393，等等。例如，标签索引313包括关键词/权重对，例如指示每一关键词314A、关键词314B等在文档312A内的显著性的关键词314A/权重314B、关键词316A/权重316B等。类似地，标签索引393包括关键词/权重对，例如指示每一关键词394A、关键词394B等在文档312B内的显著性的关键词394A/权重394B、关键词396A/权重396B等。标签索引397可以是批量文档312中的某一其他文档的类似地格式化的标签索引。

方法400包括对于该批文档中的每一文档，在计算了标签索引之后，基于标签索引中的权重来标识该文档中的指定数量的最显著的关键字的动作(动作403)。例如，关键词选择器302可以访问标签索引313。关键词选择器302可以基于标签索引313中的权重来标识文档112(包括关键词114A、116A、118A)中包含的显著关键词317。例如，权重314B、316B等可以指示关键词314A、316A等在文档312中较显著。关键词选择器302可被配置成从文档中选择指定数量(例如，前10个)的显著关键词。

方法400包括对于指定数量的最显著关键词中的每一关键词，确定该关键词在多个文档中和该批文档中的每一文档中的对应权重的动作(动作404)。候选文档标识器303可以接收显著关键词317、(批量文档312的)诸标签索引364、(诸文档311的)诸标签索引319。诸标签索引364中的每一标签索引可对应于批量文档312中的文档，例如，标签索引393可对应于文档312B。标签索引319中的每一标签索引可以对应于诸文档311中的文档。例如，标签索引319A对应于文档311A，标签索引319B对应于文档311B，标签索引319C对应于文档311C，诸如此类。

对于显著关键词317中的每一关键词，候选文档标识器303可以扫描标签索引364(可忽略标签索引313)和标签索引319以寻找该关键词。对于包括该关键词的任何标签索引，可临时保存该关键词在对应文档内的权重。例如，如果在标签索引319A中找到了关键词314A，则可临时保存该关键词314A在文档311A内的权重。类似地，如果在标签索引393中找到了关键词316A，则可临时保存该关键词316A在文档312B内的权重。

方法400包括基于指定数量的最显著关键词在该多个文档中和该批文档中的对应权重从该多个文档中和该批文档中标识多个候选文档的动作，该文档中的指定数量的最显著关键词中的至少一些也是该多个候选文档中的每一个中的显著关键词(动作405)。候选文档标识器303可以(从批量文档312和诸文档312中)将与标签索引321(标签索引364和319的子集)相对应的文档标识为可能与文档312A相似的候选文档。

例如，候选文档标识器303可以将与标签索引319A相对应的文档311A标识为可能与文档112相似。类似地，候选文档标识器303可以将与标签索引319C相对应的文档311C标识为可能与文档112相似。同样，候选文档标识器303可以将与标签索引393相对应的文档312B标识为可能与文档312A相似。显著关键词317中的至少一些也可被包括在候选文档111A、111C、112B等中的每一个中。为了标识可能与文档312A相似的候选文档，关键词比较器304可以将在每一文档中找到的每一关键词的诸关键词权重彼此进行比较。

文档位置检测器309可以访问标签索引321并检测与标签索引相对应的文档是位于诸文档311中还是位于批量文档312中。文档位置检测器可以将诸文档311中的候选文档的标签索引与批量文档312中的候选文档的标签索引分开。标签索引331包括例如与批量文档312中的文档相对应的标签索引393、397等。标签索引332包括例如与诸文档311中的文档相对应的标签索引319、319A等。

方法400包括对于从该多个文档标识的任何候选文档，通过确定来自该文档的附加关键词在候选文档内的权重来计算该文档与该候选文档之间的完全相似性的动作(动作406)。例如，完全相似性计算器302可以访问标签索引313和标签索引332。完全相似性计算器302可以计算完全相似性334。完全相似性334可以指示文档312A与对应于诸标签索引332中的标签索引的每一文档之间的完全相似性。

例如，完全相似性334可以基于标签索引313和319A中的(显著关键词317之外的)关键词和权重来指示文档312A与文档311A之间的完全相似性。同样，完全相似性334可以基于标签索引313和319C中的(显著关键词317之外的)关键词和权重来指示文档312A与文档311C之间的完全相似性。文档312A与诸文档311中的其他文档之间的完全相似性还可以基于标签索引113和其他对应的标签索引中的关键词和权重来指示。

转向图3的续页，在一些实施例中，文档相似性由联系两文档的相似性值来表示。例如，在完全相似性334内，相似性值372表示文档312A与文档311C之间的相似性。类似地，在文档相似性索引327内，相似性值371表示文档361(某一其他文档)与文档311C之间的相似性。

方法400包括从文档相似性索引中候选文档的指定数量的在前的相似性中标识最弱相似性的动作，该最弱相似性指示该候选文档与该多个文档中的另一文档之间的相似性(动作407)。例如，相似性比较器374可以从文档相似性索引327中访问文档311C的指定数量的在前的相似性。指定数量的在前的相似性表示文档311C与其他文档之间的相似性。

相似性比较器374可以将指定数量的在前的相似性彼此进行比较以标识该指定数量的在前的相似性中的最弱相似性(例如，按值来比较)。例如，相似性比较器374可以基于相似性值371将文档361与文档311C之间的相似性标识为文档311C的最弱在前相似性。如此，相似性比较器374可以将文档361与文档311C之间的相似性看作文档相似性索引327内的替换的候选。

相似性比较器374还可访问完全相似性334。相似性比较器可以将相似性值372与相似性值371进行比较以确定文档311C是更相似于文档312A还是更相似于文档361。

方法400包括通过将计算得到的完全相似性与所标识的最弱相似性进行比较来确定该候选文档和该文档比该候选文档和该另一文档更相似的动作(动作408)。例如，基于相似性值371和372，相似性比较器374可以确定文档312A和311C比文档361和311C更相似。方法400包括用来自计算得到的完全相似性的信息替换文档相似性索引内的最弱相似性的动作，该替换是基于该确定的(动作409)。例如，来自文档312A与文档311C之间的完全相似性的信息可以替换文档相似性索引327内的文档311C与文档361之间的相似性。如此，基于更近接收到的文档的相似性被检测为比现有文档之间的相似性更大来递增地更新文档相似性索引327(而不必完全重建文档相似性索引327)。

例如，基于相似性值371和372，相似性比较器374可以确定文档361和311C比文档312A和311C更相似。如此，文档361与文档311C之间的相似性保留在文档相似性索引327中。

方法400包括对于从该批文档标识的任何候选文档，通过确定来自该文档的附加关键词在候选文档内的权重来计算该文档与该候选文档之间的完全相似性的动作(动作410)。返回图3，完全相似性计算器302可以访问标签索引313和标签索引331。完全相似性计算器302可以计算完全相似性333。完全相似性333可以指示文档312A与对应于诸标签索引331中的标签索引的每一文档之间的完全相似性。

例如，完全相似性333可以基于标签索引313和393中的(显著关键词317之外的)关键词和权重来指示文档312A与文档312B之间的完全相似性。同样，完全相似性333可以基于标签索引313和397中的(显著关键词317之外的)关键词和权重来指示文档312A与批量文档312中的另一文档之间的完全相似性。文档312A与批量文档312中的其他文档之间的完全相似性还可以基于标签索引113和其他对应的标签索引中的关键词和权重来指示。

方法400包括选择规定数量的候选文档以包括在文档相似性索引中来作为与该文档相似的文档的动作，基于完全相似性计算并根据硬限制或明确阈值之一来选择规定数量的候选文档，该硬限制或明确阈值对可被选择以包括在文档相似性索引中的候选文档的数量进行限制(动作411)。再次转向图3的续页，候选文档选择器307可以选择规定的完全相似性326以包括在文档相似性索引327中。规定的相似性326包括文档312A与完全相似性333中所表示的候选文档的缩减子集之间的完全相似性。候选文档选择器307可以基于完全相似性333并根据候选选择规则324中的硬限制或明确阈值来选择规定的完全相似性326。硬限制或明确阈值对来自完全相似性333的可被包括在规定的完全相似性326中的完全相似性的数量进行限制。

方法300包括将来自计算得到的该文档和该候选文档之间的完全相似性的信息存储在文档相似性索引中的动作(动作411)。例如，对于规定的完全相似性326中表示的每一候选文档，来自文档312A与该候选文档之间的相似性的信息可被存储在文档相似性索引327中。例如，来自标签索引313和标签索引393的信息可被存储在文档相似性索引327中以指示文档312A和312B是相似的。

在一些实施例中，标签索引包括标签列表和每一标签的对应权重，如：

文档1：{(标签11，权重11)，(标签12，权重12)，...，(标签1k，权重1k)}

文档2：{(标签21，权重21)，(标签22，权重22)，...，(标签2k，权重2k)}

因此，文档可被看作标签空间中的向量(每一标签是不同的维度并且每一权重是对应维度中的值)。因此，(用于计算向量差的)余弦相似性函数(CosineSimilarity)可被用来计算两个文档之间的相似性。例如：

CosineSimilarity(doc1，doc2)＝Dotproduct(doc1，doc2)/(Norm(doc1)*Norm(doc2))

其中：

Dotproduct(doc1，doc2)＝Sum(Weight(tag，doc1)*Weight(tag，doc2)|对于doc1(文档1)和doc2(文档2)所共有的每一标签)

且

Norm(doc)＝Sqrt(Sum(Weight(tag，doc1)^2|对于doc(文档)中的每一标签)

标签索引的示例物理数据布局如下：

CREATE TABLE sys.tag_index AS(

doc_id BIGINT，

phrase_id BIGINT，

weight DOUBLE，

PRIMAY KEY(doc_id，phrase_id))

CREATE INDEX tag_index_phrase_id on tag_index(phrase_id，doc_id)

CREATE INDEX doc_index_phrase_id on tag_index(doc_id)

因此，以下算法可被用来导出文档相似性索引：

其中SelectSimilarityCandidates(选择相似性候选)函数是：

在resultsSet(结果集)中返回topK个项

为了“从TI[tag]中选择前K1个文档”，可以按权重的降序找出具有给定标签的所有文档，以便可以选择前K个文档。最近最少使用的(“LRU”)高速缓存可被用在标签索引行上以提高选择前K个文档的效率(至少部分因为在处理文档资料库的相似性时该操作可例如对流行标签重复多次)。对应于一行的各单独的(标签，文档ID，权重)元组可被存储在高速缓存中。可使用以下示例接口：

使用示例接口，文档相似性索引构建算法可以调用GetNextEntry(..)(获取下一条目)，直至它具有了所需文档id(docid)的集合为止。高速缓存中的查找可基于先前条目权重/文档id来键控。如果高速缓存中不存在下一条目，则可以使用先前条目来在盘上查找它(即，使用适当的索引来查找标签索引系统表上的基于权重排序的下一条目)。随后可以将该条目进行高速缓存。同一LRU高速缓存(具有不同的查找键)也可被用来通过对先前标签进行排序来查找按给定文档的权重来排序的标签。

不同文档id的文档相似性可在不同线程上处理以将文档相似性构建算法并行化(即，外部的“For每一未处理的docID”循环可被拆分在多个线程上)。如此，LRU高速缓存可以通过选取高速缓存的条目的随机样本来使用近似(例如，以减轻对高速缓存的并发需求的影响，该并发需求可使得使用真实LRU资源密集)。使用该样本，可以确定LRU截止。LRU截止可被用来将条目的指定百分比(例如，25％)设置为比该LRU截止更老。在高速缓存充满时，钟针溢出该高速缓存并驱逐其LRU值低于预先计算的LRU截止的条目来将高速缓存保持在其最大大小之下。一旦钟针对整个高速缓存作出了清扫，就重新计算LRU截止。因此，近似可以用最小锁定来完成，从而在增加插入/查找的数量方面提升高速缓存的效率。

本发明的各实施例包括用于导出和更新多个文档的文档相似性索引的可扩展且高效的机制。所维护的相似性的数量可被控制来减少N²CPU和存储需求。

本发明可具体化为其他具体形式而不背离其精神或本质特征。所描述的实施例在所有方面都应被认为仅是说明性而非限制性的。因此，本发明的范围由所附权利要求书而非前述描述指示。落入权利要求书的等效方案的含义和范围内的所有改变被权利要求书的范围所涵盖。

Claims

1.一种在计算机系统上的用于导出多个文档(111)的文档相似性索引(127)方法，所述计算机系统包括一个或多个处理器和系统存储器，所述方法包括：

访问文档(112)的动作；

计算所述文档(112)的标签索引(113)的动作，所述标签索引(113)包括一个或多个关键词/权重对(114A/114B，116A/116B)，每一关键词/权重对将关键词(114A，116A)映射到该关键词的对应权重(114B，116B)以指示该关键词在所述文档(112)内的显著性；

基于所述标签索引(117)中的权重(114B，116B)来标识所述文档中的指定数量的最显著的关键词的动作；

对于所述指定数量的最显著关键词中的每一关键词，确定所述关键词在所述多个文档(111)中的每一文档(111A，111B，111C)中的对应权重的动作；

基于所述指定数量的最显著关键词在所述多个文档中的对应权重从所述多个文档中标识多个候选文档的动作，所述文档中的所述指定数量的最显著关键词中的至少一些也是所述多个候选文档中的每一个中的显著关键词；

对于所述多个候选文档中的每一候选文档，通过确定来自所述文档的附加关键词在所述候选文档内的权重来计算所述文档与所述候选文档之间的完全相似性(123)的动作；

选择规定数量的候选文档的完全相似性(126)以包括在所述文档相似性索引(127)中来指示与所述文档相似的文档的动作，基于完全相似性计算并根据硬限制或明确阈值(124)之一来选择所述规定数量的候选文档的完全相似性(126)，所述硬限制或明确阈值对可被选择以包括在所述文档相似性索引中的候选文档的数量进行限制；以及

对于所述规定数量的候选文档中包括的每一候选文档，将来自所述文档与所述候选文档之间的完全相似性的信息存储在所述文档相似性索引(127)中的动作。

2.如权利要求1所述的方法，其特征在于，所述访问文档的动作包括访问包括书面语的词语的文档的动作。

3.如权利要求1所述的方法，其特征在于，计算所述文档的标签索引的动作包括基于所述文档内的关键词频率和文档长度来计算关键词权重。

4.如权利要求1所述的方法，其特征在于，基于所述指定数量的最显著关键词在所述多个文档中的对应权重从所述多个文档中标识多个候选文档的动作包括从最近最少使用的(“LRU”)高速缓存中访问至少一个关键词/权重对的动作。

5.如权利要求1所述的方法，其特征在于，对于所述多个候选文档中的每一候选文档，计算所述文档与候选文档之间的完全相似性的动作包括使用余弦相似性函数来计算所述文档与所述候选文档之间的相似性的动作。

6.一种在计算机系统处更新文档相似性索引的方法，所述计算机系统包括一个或多个处理器和系统存储器，所述计算机系统还包括多个文档(311)和所述文档相似性索引(327)，所述文档相似性索引指示所述多个文档中的不同文档之间的相似性，所述方法包括：

访问一批文档(312)的动作；

对于所述一批文档(312A，312B，312C)中的每一文档，计算所述文档的标签索引(313，393，397)的动作，所述标签索引包括一个或多个关键词/权重对(314A/314B，394A/394B)，每一关键词/权重对将关键词映射到该关键词的对应权重以指示该关键词在所述文档内的显著性；

对于所述一批文档(312)中的每一文档(312A，312B，312C)，在计算了所述标签索引之后：

基于所述标签索引(313)中的权重来标识所述文档中的指定数量的最显著的关键词(317)的动作；

对于所述指定数量的最显著关键词中的每一关键词，确定所述关键词在所述多个文档(311)中和所述一批文档(312)中的每一文档中的对应权重的动作；

基于所述指定数量的最显著关键词(317)在所述多个文档(311)中和所述一批文档(312)中的对应权重从所述多个文档中和所述一批文档中标识多个候选文档的动作，所述文档中的所述指定数量的最显著关键词中的至少一些也是所述多个候选文档中的每一个中的显著关键词；

对于从所述多个文档内标识的至少一个候选文档(311A)：

通过确定来自所述文档(312A)的附加关键词在候选文档(311C)内的权重来计算所述文档与所述候选文档之间的完全相似性的动作；

从所述文档相似性索引(327)内所述候选文档的指定数量的前几个相似性中标识最弱相似性(371)的动作，所述最弱相似性指示所述候选文档与所述多个文档中的另一文档之间的相似性；

通过将计算得到的完全相似性(372)与所标识的最弱相似性进行比较来确定所述候选文档和所述文档比所述候选文档(311C)和所述另一文档(361)更相似的动作；以及

用来自计算得到的完全相似性的信息来替换所述文档相似性索引(327)内的所述最弱相似性(371)以递增地更新所述文档相似性索引(327)的动作，所述替换是基于所述确定的；以及

对于从所述一批文档(312)中标识的任何候选文档：

通过确定来自所述文档的附加关键词在候选文档内的权重来计算所述文档与所述候选文档之间的完全相似性(333)的动作；

选择规定数量(326)的候选文档以包括在所述文档相似性索引中来作为与所述文档相似的文档的动作，基于所述完全相似性计算并根据硬限制或明确阈值(324)之一来选择所述规定数量的候选文档，所述硬限制或明确阈值对可被选择以包括在所述文档相似性索引中的候选文档的数量进行限制；以及

将来自计算得到的所述文档和所述候选文档之间的完全相似性(326)的信息存储在所述文档相似性索引(327)中的动作。

7.如权利要求6所述的方法，其特征在于，还包括对于从所述多个文档中标识的至少一个其他候选文档：

通过确定来自所述文档的附加关键词在候选文档内的权重来计算所述文档与所述候选文档之间的完全相似性的动作；

从所述文档相似性索引内所述候选文档的指定数量的前几个相似性中标识最弱相似性的动作，所述最弱相似性指示所述候选文档与所述多个文档中的第二另一文档之间的相似性；

通过将计算得到的完全相似性与所标识的最弱相似性进行比较来确定所述候选文档和所述第二另一文档比所述候选文档和所述文档更相似的动作；以及

基于所述确定将所述最弱相似性保留在所述文档相似性索引内的动作。

8.如权利要求6所述的方法，其特征在于，用来自计算得到的完全相似性的信息来替换所述文档相似性索引内的所述最弱相似性的动作包括用对所述候选文档与所述文档之间的相似性进行量化的相似性值来盖写对所述候选文档与所述另一文档之间的相似性进行量化的相似性值的动作。

9.如权利要求6所述的方法，其特征在于，将来自所述完全相似性的信息存储在所述文档相似性索引中的动作包括存储对所述文档与所述候选文档之间的相似性进行量化的映射到相似性值中的动作。

10.一种供在计算机系统处使用的计算机程序产品，所述计算机程序产品实现一种用于导出多个文档的文档相似性索引的方法，所述计算机程序产品包括其上存储有计算机可执行指令的一个或多个计算机可读设备，所述计算机可执行指令当在处理器处执行时使所述计算机系统执行所述方法，其特征在于，所述方法包括以下动作：

访问包含书面语的词语的文档；

计算所述文档的标签索引，所述标签索引包括一个或多个关键词/权重对，每一关键词/权重对将关键词映射到该关键词的对应权重以指示该关键词在所述文档内的显著性；

基于所述标签索引中的权重来标识所述文档中的指定数量的最显著的关键词；

对于所述指定数量的最显著的关键词中的每一关键词，确定所述关键词在所述多个文档中的每一文档内的对应权重；

基于所述指定数量的最显著的关键词在所述多个文档中的对应权重来从所述多个文档中标识多个候选文档，所述指定数量的最显著的关键词中的至少一些是从最近最少使用的高速缓存中访问的；

对于所述多个候选文档中的每一候选文档，通过确定来自所述文档的附加关键词在所述候选文档内的权重来使用余弦相似性函数计算所述文档与所述候选文档之间的完全相似性；

对于第一一个或多个候选文档：

选择规定数量的候选文档的完全相似性以包括在所述文档相似性索引中来指示与所述文档相似的文档，基于所述完全相似性计算并根据硬限制或明确阈值之一来选择所述规定数量的候选文档的完全相似性，所述硬限制或明确阈值对可被选择以包括在所述文档相似性索引中的候选文档的数量进行限制；以及

对于所述规定数量的候选文档中包括的每一候选文档，将来自所述文档与所述候选文档之间的完全相似性的信息存储在所述文档相似性索引中。

对于第二一个或多个候选文档：

从所述文档相似性索引内所述候选文档的指定数量的前几个相似性中标识最弱相似性，所述最弱相似性指示所述候选文档与所述多个文档中的另一文档之间的相似性；

通过将计算得到的完全相似度与所标识的最弱相似度进行比较来确定所述候选文档和所述文档是否比所述候选文档和所述另一文档更相似；

在候选文档和所述文档比所述候选文档和所述另一文档更相似的情况下，用来自计算得到的完全相似性的信息来替换所述文档相似性索引内的最弱相似性；以及

在候选文档和所述文档不比所述候选文档和所述另一文档更相似的情况下保留所述最弱相似性。