CN108027822A

CN108027822A - 用于从文档语料库中生成概念的系统和方法

Info

Publication number: CN108027822A
Application number: CN201680036474.9A
Authority: CN
Inventors: P·张; S·沙尔玛; D·斯坦纳; M·D·沃森; H·R·希尔维; R·沃灵
Original assignee: LexisNexis Inc
Current assignee: LexisNexis Inc
Priority date: 2015-04-21
Filing date: 2016-04-21
Publication date: 2018-05-11
Also published as: US20170060991A1; AU2016250552A1; CA2983159A1; WO2016172288A1; JP2018517968A

Abstract

公开了用于从文档语料库中生成概念的系统和方法。在一个实施例中，一种用于从文档中生成概念的方法包括：检索存储在第一词典内的多个术语。所述方法进一步包括：针对存储在所述第一词典内的单独术语，确定所述术语在所述文档语料库内的第一频率，并且确定所述术语在包括多个对比文档的对比文档语料库内的第二频率，其中，所述对比文档语料库不同于所述文档语料库。所述方法进一步包括：针对所述第一词典内的单独术语，确定所述第一频率与所述第二频率之间的差，将所述第一频率与所述第二频率之间的所述差与比较度量指标进行比较，并且当所述第一频率与所述第二频率之间的所述差满足所述比较度量指标时，将所述术语作为概念存储在第二词典内。

Description

用于从文档语料库中生成概念的系统和方法

相关申请的交叉引用

本申请要求于2015年4月21日提交的美国临时申请62/150,404的优先权，所述临时申请的全部内容通过引用结合在此。

背景技术

技术领域

本文中所提供的实施例总体上涉及通过在文档语料库内提取讨论的内容来提高搜索功能以及文档搜索、文档索引和其他任务的效率，并且更具体地涉及从文档语料库中提取的更大词典中生成概念以便提高用户执行的函数的准确度。

技术背景

随着电子系统将文档和其他数据转换成电子形式，许多已经被转换的文档被编入索引以促进搜索、检索和/或其他功能。例如，文档语料库中的法律文档(如法院判决、案情摘要、提议等)可以被存储并编入索引以供用户以电子方式访问。由于不同的法律文档可以包括关于不同司法管辖区的不同法律点，因此那些文档可以被相应地编入索引并组织。

很多很多概念可以在文档语料库内讨论。根据文档语料库的一般主题(例如，法律、科学、医疗等)，可能存在在文档语料库内具有显著重要性的概念的子集。揭开这些重要概念可以改进例如计算机化文档索引、文档搜索和其他功能。

因此，存在对用于从文档语料库中提取重要概念的系统和方法的需要。

发明内容

在一个实施例中，一种用于从包括多个文档的文档语料库中生成概念的由计算机实现的方法包括：使用处理设备检索存储在第一词典内的多个术语。所述方法进一步包括：针对存储在所述第一词典内的所述多个术语中的单独术语，使用所述处理设备确定所述术语在所述文档语料库内的第一频率，并且使用所述处理设备确定所述术语在包括多个对比文档的对比文档语料库内的第二频率，其中，所述对比文档语料库不同于所述文档语料库。所述方法进一步包括，针对存储在所述第一词典中的所述多个术语中的单独术语：使用所述处理设备确定所述第一频率与所述第二频率之间的差，使用所述处理设备将所述第一频率与所述第二频率之间的所述差与比较度量指标进行比较，并且当所述第一频率与所述第二频率之间的所述差满足所述比较度量指标时，将所述术语作为概念存储在非暂态计算机可读介质中所存储的第二词典内。

在另一个实施例中，一种用于从包括多个文档的文档语料库中生成概念的系统包括：至少一个处理设备；以及至少一个非暂态计算机可读介质，存储有计算机可读指令，所述指令当被所述至少一个处理设备执行时使得所述至少一个处理设备检索存储在所述至少一个非暂态计算机可读介质中的第一词典内的多个术语。所述计算机可读指令进一步使得所述至少一个处理设备针对存储在所述第一词典内的所述多个术语中的单独术语：确定所述术语在所述文档语料库内的第一频率；确定所述术语在包括多个对比文档的对比文档语料库内的第二频率，其中，所述对比文档语料库不同于所述文档语料库；确定所述第一频率与所述第二频率之间的差；将所述第一频率与所述第二频率之间的所述差与比较度量指标进行比较；以及当所述第一频率与所述第二频率之间的所述差满足所述比较度量指标时，将所述术语作为概念存储在所述至少一个非暂态计算机可读介质中所存储的第二词典内。

在又另一个实施例中，一种用于从包括多个文档的文档语料库中生成概念的由计算机实现的方法包括使用处理设备检索存储在第一词典内的多个术语。所述方法进一步包括针对存储在所述第一词典内的所述多个术语中的单独术语：使用所述处理设备确定所述多个文档的子集，其中，所述多个文档的所述子集内的每个文档具有包含所述术语的正文部分；使用所述处理设备确定在所述多个文档的所述子集内具有包含所述术语的批注部分的文档百分比；将所述百分比与百分比阈值进行比较；以及当所述百分比大于所述百分比阈值时，将所述术语作为概念存储在非暂态计算机可读介质中所存储的第二词典内。

鉴于以下具体描述结合附图将更完整地理解由在此描述的实施例提供的这些和附加特征。

附图说明

附图中阐述的实施例在性质上是说明性的和示例性的并且不旨在限制权利要求书所限定的主题。当结合以下附图阅读时，能够理解说明性实施例的以下详细描述，其中，相似结构用相似参考数字指示，并且在附图中：

图1描绘了计算网络，展示了根据本文所示出和描述的一个或多个实施例的用于概念生成的系统的部件；

图2描绘了来自图1的用于概念生成的计算设备，进一步展示了根据本文所示出和描述的一个或多个实施例的可以用于生成词典以及来自那个词典的概念的硬件和软件；

图3描绘了流程图，展示了根据本文所描述和展示的一个或多个实施例的用于生成存储来自从文档语料库中提取的更大第一词典的多个重要高级概念的第二词典的示例过程；

图4描绘了流程图，展示了根据本文所描述和展示的一个或多个实施例的用于生成存储来自从文档语料库中提取的更大第一词典的多个重要高级概念的第二词典的另一个示例过程；

图5描绘了流程图，展示了根据本文所示出和描述的一个或多个实施例的可以用于生成第一词典的示例过程；

图6描绘了根据本文所示出和描述的一个或多个实施例的可以用于从文档语料库中生成初始术语的示例过程；

图7描绘了根据本文所示出和描述的一个或多个实施例的可以用于生成词典的术语的等效分组的示例过程；并且

图8和图9描绘了示例图形用户界面，展示了根据本文所示出和描述的一个或多个实施例的文档语料库内的概念与文档之间的关联。

具体实施方式

本公开的实施例涉及用于生成在文档语料库中出现的高级概念的系统和方法。作为示例而非限制，这种重要的高级概念可以是在法律文档语料库中出现的法律概念。在实施例中，通过从文档语料库中提取的更大术语集来确定高级概念的小集合。

如以下更详细描述的，可以从在文档语料库的文档中提取的术语的词典(即，字典(dictionary))中生成重要的高级概念。如此，高级概念表示在词典中找到的更大量术语的子集。本文所描述的实施例确定相对于特定文档语料库具有高重要性的文档语料库的词典内的那些术语，并且将这些术语选择作为高级概念。作为非限制性示例，术语“不充分证据(insufficient evidence)”可以在从法律文档语料库中生成的词典中找到，并且可以确定其在法律文档语料库内相比于其他术语具有更高的重要性。如此，术语“不充分证据”可以作为高级概念存储在第二词典中。

尽管本文所描述的实施例将文档语料库描述为若干示例中的法律文档语料库，但是应当理解的是实施例不限于此。作为进一步非限制性示例，文档语料库可以是科学期刊文档语料库、医疗期刊文档语料库、烹饪文档语料库等。

从文档语料库中提取的高级概念可以根据文档语料库的主题被分类成各种类别。作为非限制性示例，在法律环境下，从文档语料库中提取的概念可以被分类为但不限于法律原则、过程概念或基于事实的概念。

这些高级概念一旦被提取则可以用于改善如文档索引、搜索、联网等功能。进一步地，重要的高级概念的语言变体可以被确定、存储和利用。

本文所提供的实施例还公开了用于基于来自文档语料库的内容来生成词典(即，字典)的方法，所述文档语料库包含语义上等效的术语组，所述语义上等效的术语组由与那个组的标准化形式相关联的短语和单个单词的变体组成。

下文中描述了用于从文档语料库中生成概念的各个实施例。

现在参照附图，图1描绘了示例性计算网络，展示了根据本文所示出和描述的一个或多个实施例的从文档语料库中生成概念的系统的部件。如图1中所展示的，计算机网络100可以包括广域网(如互联网)、局域网(LAN)、移动通信网络、公共业务电话网络(PSTN)和/或其他网络，并且可以被配置成用于电连接用户计算设备102a、概念生成计算设备102b、以及管理员计算设备102c。

用户计算设备102a可以发起对一个或多个文档进行电子搜索。更具体地，为了执行电子搜索，用户计算设备102a可以向概念生成计算设备102b(或其他计算设备)发送用于提供呈现电子搜索能力的数据的请求(如超文本传输协议(HTTP)请求)，所述电子搜索能力包括向用户计算设备102提供用户界面。用户界面可以被配置用于从用户处接收搜索请求并发起搜索。搜索请求可以包括用于检索文档的术语和/或其他数据。

另外，包括在图1中的是管理员计算设备102c。在概念生成计算设备102b需要监督、更新或校正的情况下，管理员计算设备102c可以被配置用于提供所期望的监督、更新、和/或校正。

应当理解的是，虽然用户计算设备102a和管理员计算设备102c被描绘为个人计算机并且概念生成计算设备102b被描绘为服务器，但是这些仅是示例。更具体地，在一些实施例中，任何类型的计算设备(例如，移动计算设备、个人计算机、服务器等)可以用于这些部件中的任何部件。另外，虽然这些计算设备中的每个计算设备在图1中被展示为单件硬件，但是这也是示例。更具体地，用户计算设备102a、概念生成计算设备102b和管理员计算设备102c中的每一者可以表示多个计算机、服务器、数据库等。

图2描绘了来自图1的概念生成计算设备102b，进一步展示了根据本文所示出和描述的实施例的一种用于生成概念以及第一和第二词典的系统和/或一种用于生成被实施为硬件、软件和/或固件的概念以及第一和第二词典的非暂态计算机可读介质。虽然在一些实施例中概念生成计算设备102b可以被配置为具有必要硬件、软件、和/或固件的通用计算机，但是在一些实施例中，概念生成计算设备102b可以被配置为用于执行本文所描述的功能而专门设计的专用计算机。

还如图2中所展示的，概念生成计算设备102b可以包括处理设备230、输入/输出硬件232、网络接口硬件234、数据存储部件236(其存储语料库数据238a、其他术语列表238b、成对列表238c和概念列表238d)、以及存储器部件240。存储器部件240可以被配置为易失性和/或非易存储器并且因此可以包括随机存取存储器(包括SRAM、DRAM和/或其他类型的随机存取存储器)、闪存、寄存器、致密盘(CD)、数字通用盘(DVD)和/或其他类型的存储部件。另外，存储器部件240可以被配置用于存储操作逻辑242、搜索逻辑244a、词典生成逻辑244b、术语等效生成逻辑244c、以及概念生成逻辑244d(作为示例，所述逻辑中的每个逻辑可以被实施为计算机程序、固件、或硬件)。本地接口246也包括在图2中并且可以被实现为总线或其他接口以便促进在概念生成计算设备102b的部件之中的通信。

处理设备230可以包括被配置用于接收并执行指令(如来自数据存储部件236和/或存储器部件240)的(多个)任何处理部件。输入/输出硬件232可以包括监视器、键盘、鼠标、打印机、相机、麦克风、扬声器和/或用于接收、发送和/或呈现数据的其他设备。网络接口硬件234可以包括任何有线或无线联网硬件，如调制解调器、LAN端口、无线保真(Wi-Fi)卡、WiMax卡、移动通信硬件和/或用于与其他网络和/或设备通信的其他硬件。

应当理解的是，数据存储部件236可以在概念生成计算设备102b本地和/或远离概念生成计算设备而驻留并且可以被配置用于存储由概念生成计算设备102b和/或其他部件访问的一条或多条数据。如图2中所展示的，数据存储部件236存储语料库数据238a，所述语料库数据在非限制性示例中包括已经被组织并编入索引以供搜索的法律和/或其他文档。法律文档可以包括：案件判决、案情摘要、表格、论文等。类似地，其他术语列表238b可以由数据存储部件236存储，并且可以包括待由词典生成逻辑244b、术语等效生成逻辑244c和概念生成逻辑244d使用的一个或多个列表。成对列表238c也可以由数据存储部件236存储，并且可以包括与标准化术语和相关联候选术语(和/或等效物)有关的数据。由数据存储部件236存储的概念列表238d可以表示如以下更加详细描述的第二词典及相关联概念。

包括在存储器部件240中的是操作逻辑242、搜索逻辑244a、词典生成逻辑244b、术语等效生成逻辑244c和概念生成逻辑244d。操作逻辑242可以包括操作系统和/或用于管理概念生成计算设备102b的部件的其他软件。类似地，搜索逻辑244a可以驻留在存储器部件240中，并且可以被配置用于促进如由用户计算设备102a(图1)进行的电子搜索。搜索逻辑244a可以被配置用于编译和/或组织文档和其他数据，从而使得电子搜索对于用户计算设备102a而言可以更容易地执行。搜索逻辑244a还可以被配置用于将用户界面的数据提供给用户计算设备102a，接收搜索请求，检索相关联的文档并且向用户计算设备102a提供对那些文档的访问。

如图2中还展示的，词典生成逻辑244b可以驻留在存储器部件240中。如以下更加详细描述的，词典生成逻辑244b可以被配置用于根据语料库数据238a对语料库术语(短语和单独单词)进行定位，并且基于在语料库数据238a中发现的使用频率来确定使用候选术语。进一步地，如以下更加详细描述的，术语等效生成逻辑244c可以被配置用于基于由词典生成逻辑244b在序列的先前部分中确定的候选术语来生成术语等效物。如以下更加详细描述的，概念生成逻辑244d可以被配置用于从由词典生成逻辑244b生成的词典中生成高级概念。虽然搜索逻辑244a、词典生成逻辑244b和术语等效生成逻辑244c被展示为不同的部件，但是这仅是示例。更具体地，在一些实施例中，本文所描述的针对这些部件中的任何部件的功能可以组合到单个部件中。

还应当理解的是，图2中展示的部件仅是示例性的并且不旨在限制本公开的范围。更具体地，虽然图2中的部件被展示为驻留在概念生成计算设备102b内，但这仅是示例。在一些实施例中，所述部件中的一个或多个部件可以驻留在概念生成计算设备102b外部。类似地，虽然图2涉及概念生成计算设备102b，但是其他部件(如用户计算设备102a和管理员计算设备102c)可以包括相似的硬件、软件和/或固件。

现在将描述从文档语料库中提取的术语的第一词典(例如，字典)中生成重要的高级概念。如本文所使用的，术语“概念”和“重要的高级概念”被可交换地使用，并且指满足客观度量指标的单词或短语。在一些实施例中，重要的高级概念除了满足客观度量指标之外还满足预定的启发式规则。

任何装置可以用于生成从中生成重要的高级概念的第一词典。在一个示例中，所述词典被提供为术语字典。在另一个示例中，根据以下关于图5至图7所描述的实施例生成所述词典。第一词典可以包含任何数量的单独术语。在一个非限制性示例中，第一词典包括成百上千的单独术语。

本文所描述的实施例从第一词典中提取文档语料库内非常重要的单独术语。从此大第一词典中，确定重要的高级概念的较小集合。这些高级概念可能在文档语料库内具有特定重要性。在法律文档语料库中，例如，特定法律术语可能比法律文档语料库内的非法律术语更重要。高级概念可以是在文档语料库内频繁出现的重要法律概念。

现在参照图3，流程图中图形地展示了从大第一词典中提取重要的高级概念(即，“概念”)的一种示例方法。在框300处，选择来自第一词典的术语以进行评估。如上文中指出的，可以包括多个标准化术语的第一词典可以由任何装置生成。在框302处，使用处理设备确定所选术语在文档语料库内的频率(即，第一频率)。作为示例而非限制，所述过程可以确定包括所选术语的单独文档的总数量。可以通过由包括所选术语的单独文档的数量除以文档语料库内的文档总数来确定所述频率。作为另一个示例，可以由术语频率-逆文档频率(tf-idf)生成和表示所选术语的频率。可以利用计算所选术语的频率的其他方法。

接下来，在框304处，确定所选术语在对比文档语料库内的频率(即，第二频率)。对比文档语料库不同于文档语料库。对比文档语料库可以表示术语的一般使用情况，并且提供用于判定第一词典内的术语是否在文档语料库中具有特定重要性的基线。对比文档语料库应当基于与文档语料库不同的主题。理想地，对比文档语料库应当覆盖大量不同的主题。在一个非限制性示例中，对比文档语料库是包括多篇新闻文章的新闻文章语料库。由于新闻文章通常覆盖大量主题，因此新闻文章语料库可以提供对如由普通人群使用的术语的良好表示。

可以在框304处以与以上关于框302所描述的方式类似的方式确定所选术语在对比文档语料库内的频率。

在框306处，确定第一频率与第二频率之间的差。可以从第一频率中减去第二频率。在框307处，将第一频率与第二频率之间的差与比较度量指标进行比较。如果所述差满足比较度量指标，则所述过程移至框308。如果不满足，则所述过程移至框310。

作为示例，比较度量指标是阈值。当在框306处确定的差大于(或者大于或等于)阈值时，所述过程移至框308，在所述框处，将所选术语作为候选重要的高级概念存储在第二词典内。在文档语料库中比在对比文档语料库中出现更频繁表明所选术语在文档语料库内的重要性。在框308处将所选术语存储在第二词典中之后，所述过程移至框310。

当所述差小于阈值时，可以认为所选术语在文档语料库内不具有必要重要性，并且所述过程移至框310，从而使得不将所选术语存储为重要的高级概念。

可以例如启发式地选择阈值。可以使用任何阈值。作为示例并非限制，阈值可以是二十，从而使得当所选术语在文档语料库中比在对比文档语料库中多出现至少百分之二十时，在框308处，所选术语作为候选重要的高级概念存储在第二词典中。

在框310处，判定第一词典内是否存在尚未被评估的剩余术语。如果第一词典内存在剩余术语，则所述过程移回至框300，其中，评估下一个术语。如果第一词典中不再有剩余术语，则所述过程移至框312并结束。作为示例并非限制，第一词典内的每个术语可以被顺序地评估，例如，按字母顺序或按某种其他预定的顺序。应当理解的是，并不是第一词典内的所有术语可以被评估。例如，在一些实施例中，可以评估第一词典内的术语的子集。

一旦所选术语中的所有术语被评估，就可以生成存储有在文档语料库内具有特定重要性的多个概念的第二词典。在一些实施例中，在框308处，将在图3的框307处满足比较度量指标的所有术语保存在第二词典中。在其他实施例中，可以进一步分析在框307处满足比较度量指标的术语，以便判定所述术语是否应当作为概念被保存在第二词典内。例如，启发式规则可以用于判定满足比较度量指标的术语是否应当被保存为概念。作为非限制性示例，可以将候选重要的高级概念与单词列表进行比较，并且如果特定候选重要的高级概念包括那个单词，则将其作为重要的高级概念保存在第二词典中。作为进一步非限制性法律示例，术语如“要求(claim)”、“行为(action)”、“行为(act)”、“诉讼(suit)”、“诉讼(lawsuit)”等可以包括在这种单词列表中，从而使得包括这些单词之一的任何候选重要的高级概念作为概念保存在第二词典中。作为另一个示例，可以提供单词列表以使得包括单词列表内的单词的任何候选重要的高级概念不作为概念保存在第二词典中。可以根据特定应用而应用其他类型的启发式规则。在一些实施例中，可以将多于一种类型的启发式规则应用于候选重要的高级概念。

如以下更详细描述的，第二词典可以用于提高执行如文档索引和搜索等功能的一个或多个计算机的计算性能。

在一些实施例中，还可以评估至少一个附加对比文档语料库，以便生成至少一个附加频率。可以评估任何数量的附加对比文档语料库以生成任何数量的附加频率。可以确定第二频率和所述至少一个附加频率的平均频率。然后，在框306处，可以将第一频率与平均频率进行比较。

现在参照图4，流程图中图形地展示了从大第一词典中提取高级概念的方法的另一个示例。在框400处，选择来自第一词典的术语以进行评估。从中生成第一词典的特定文档语料库内的文档包括正文部分和批注部分。作为示例并非限制，正文部分可以是如由法院最初发布的法律意见书。如本文所使用的，批注部分指文档的提供如最初发布的以下文档的概要的任何部分。作为示例并非限制，批注部分可以包括在法律意见书内讨论的法律点的各种概要。例如，可以由编者添加批注部分。由于批注部分通常对在文档下面的正文部分中重要的点进行总结，因此在批注部分内出现的术语可能具有特定重要性。

在框402处，由所述一个或多个处理设备确定文档语料库内包括文档的正文部分内的所选术语的文档的子集。因此，文档子集内的每个文档包含所选术语。在框404处，判定文档子集内的哪些文档也包含批注部分内的所选术语。进一步在框404处，确定所述子集内的具有存在于批注部分内的所选术语的文档的百分比。第一词典的在批注部分内频繁出现的术语可能在文档语料库内具有特定重要性。相反地，第一词典内的在批注部分内不频繁出现的术语可能不具有特定重要性。作为示例并非限制，在文档的子集内的百分之七十五的文档中的批注部分中出现的术语可能具有特定重要性。相反地，在子集中的仅百分之十的文档中的批注部分中出现的术语可能不具有重要性。

值得注意的是，在替代性实施例中，在框404处计算的百分比是文档语料库内所选术语出现在批注部分内的文档的百分比。换言之，未确定包括所选术语的文档的子集(即，未执行框402)。相反，百分比基于所选术语出现在批注部分内的文档的数量。

在框406处，将在框404处计算的百分比与百分比阈值进行比较。如果在框404处计算的百分比大于百分比阈值，则在框408处，可以将所选术语作为重要的高级概念存储在第二词典中。所述过程然后移至框410。如果在框404处计算的百分比不大于百分比阈值，则所述过程移至框410，并且所选术语不保存在第二词典内。

在框410处，判定第一词典内是否存在尚未被评估的剩余术语。如果第一词典内存在剩余术语，则所述过程移回至框400，其中，评估下一个术语。如果第一词典中不再有剩余术语，则所述过程移至框412并结束。作为示例并非限制，第一词典内的每个术语可以被顺序地评估，例如，按字母顺序或按某种其他预定的顺序。应当理解的是，并不是第一词典内的所有术语可以被评估。例如，在一些实施例中，可以评估第一词典内的术语的子集。

如上文中所描述的，关于图3，在一些实施例中，在框408处，可以将满足阈值的候选重要的高级概念自动保存在第二词典中。在其他实施例中，如以上所描述的，一个或多个启发式规则可以应用于候选重要的高级概念，以便判定是否将其保存在第二词典中。

因此，可以通过从文档语料库进行数据挖掘来生成存储在第二词典内的高级概念集，以便捕获在文档语料库的文档内讨论的主要点。在一些实施例中，根据第二词典的预期用途，存储在第二词典内的单独术语的数量可能受到限制以便提供更可管理的列表。作为示例并非限制，可以迭代地并通过调整各个阈值来运行以上所描述以及图3和图4中所展示的过程直到期望数量的术语存储到第二词典内。

可以以期望的时间间隔(例如，每周一次、每月一次、一年四次等)执行确定概念的过程，以便捕获文档语料库内的新的且进化的概念。作为示例并非限制，术语“儿童在线保护”不存在于任何法律案件中，直到1999年(仅存在一个报道的案例)。然而，现在，此术语在法律意见书中已经变得越来越频繁了。

在一些实施例中，在第二词典内列出的高级概念可以按概念类型进一步分类。作为非限制性示例，在法律环境下，可以使用三种不同类型的概念：(1)法律原则(例如，单一满足规则(一个满足规则)、医患特权、故意行为排除以及最后明显的机会)；(2)基于过程的概念(例如，具有/不具有偏见的解雇、缓刑的撤销、即决审判的授予)，以及(3)基于事实的概念(例如，DUI(DWI，驾驶时具有血液酒精、醉酒驾驶车辆、……)、狗咬伤(来自狗的咬伤、被攻击或咬伤的狗、被狗咬伤、……)、遗弃子女(遗弃未成年人、奇异儿童、……)、乘客伤害(受伤的乘客、对乘客的伤害、乘客的伤害、……))。应该理解的是，可以使用更多或更少的概念类型。

值的注意的是，在一些情况下中，概念可能不总是清楚地落入概念类别之一。在一些实施例中，可以定义规则来帮助将概念分配到适当的概念类别。选择法律概念以供包括在概念类型中的潜在含义或源包括但不限于：分类学主题、法律字典条目、用户查询以及自定义字典。

在一些实施例中，所生成的概念中的一个或多个可以扩展为包括变化的形式。例如，概念可以通过算法自动地扩展。作为示例但非限制，定义概念的术语可以通过编程过程中的以下基于语言学的规则而被扩展：

●屈折变化，例如，债务(liability)＝债务(liabilities)，开始(begin)＝开始(beginning)

●一种形式的派生变化，-tion，例如，满足(satisfy)＝满足(satisfaction)(而非遗嘱检验(probate)vs.缓刑(probation))

●合成词术语，例如，预先安排(pre-arrange)＝预先安排(prearrange)

●短语内的控制语言结构，例如，新审判运动(motion for new trial)＝新审判运动(new trial motion)

·……

可以组合扩展规则，以便产生扩展术语/概念的期望结果。扩展术语/概念的非限制性示例包括：

●行人(passerby)＝行人(passerbys)＝行人(passersby)＝行人(passers by)＝行人(passer by)

●滥用自由裁量权(abuse of discretion)＝滥用其自由裁量权(abuseditsdiscretion)＝……

●女性的权利(right of woman)＝女性权利(women right)＝女性的权利(women’s rights)

以下关于第一词典的生成提供了关于术语扩展的附加信息。

结构上不同的短语还可以基于短语内的关键术语被分组到一起，并且存储在第二词典或单独的存储位置中。作为示例并非限制，编程装置可以用于生成共享一个或多个单词的短语列表。用于对短语进行分组的经验选择可以基于类别。作为示例并非限制，这些类别可以包括但不限于：基于已知使术语等效的结构的扩展(例如，不存在过失(absence ofnegligence)、缺乏过失(lack ofnegligence)、非过失(non negligence)、想要过失(wantof negligence)、没有任何过失(without any negligence)等)，已知不产生不期望结果的派生变化(例如，肥胖的(obese)＝肥胖(obesity)、不许可(inadmissibility)＝不许可的(inadmissible)；而不是政府(government)vs.支配(govern)、组成(constitute)vs.宪法(constitution)、终止(abort)vs.流产(abortion))、以及已知不产生不期望结果的同义词和其他相关术语。当扩展术语时，应当质疑扩展术语是否将产生不期望的结果。

如上文中指出的，可以以任何数量的方式生成更大第一词典(即，字典)。图5描绘了流程图，展示了根据本文所示出和描述的实施例的可以用于实施词典生成以便从文档语料库创建大第一词典的一个示例过程。如所展示的，在图5中，词典生成逻辑244b可以生成用于词典生成的术语候选项(框550)。更具体地，语料库数据238a可以包括可以用于将来搜索的语料库术语列表。词典生成逻辑244b(经由处理设备230)可以从语料库数据238a中检索语料库术语，并且生成与那些语料库术语相关联的候选术语。作为示例，如果语料库术语“不充分证据”位于语料库数据238a、词典生成逻辑244b中，则基于其语言和语境线索，术语变成用于过程的下一部分的潜在候选术语。

应当理解的是，候选术语的生成可以包括用于确定语料库术语的变体的一种或多种技术。作为示例，词典生成逻辑244b可以被配置用于访问数据存储部件236，以便标识语料库中的不同形式的术语(例如，复数形式、不同词形变化等)。根据此确定，词典生成逻辑244b可以标识初始短语和单词以便用作候选术语(框552)。

一旦生成候选术语，就可以在语料库数据238a中验证候选术语(框554)。更具体地，可以针对语料库数据238a来搜索候选术语，(例如，使用有限状态机)，并且可以对结果进行计算以便创建文档频率文件。可以将文档频率文件与出现的预定阈值(例如，0、1、2、3等)进行比较，并且将移除在小于或等于阈值的文档中找到的术语。一旦验证了候选项，则对在处理中使用的短语和单词进行固化(框556)。

另外，可以由术语等效生成逻辑244c生成术语等效物(框558)。更具体地，框556中的每个术语的潜在等效术语可以由术语等效生成逻辑244c以编程方式生成，所述术语等效生成逻辑由在术语等效生成逻辑244c中指定的规则以及在其他术语列表238b中提供的补充信息来协助。作为示例，其他术语列表238b可以用作对过程框558的信息的补充，并且可以包括被编码的可以不以其他方式处理的规则。这种规则可以被配置用于理解术语“儿童(child)”的复数形式是“多名儿童(children)”，其中，使用单词的标准复数形式(例如，添加‘s’或‘es’)将不适用。因此，术语等效物的生成可以提供候选等效术语(框560)。在以上给出的示例中，其中，从语料库数据238a中标识“不充分证据”，框558中的词典生成逻辑244b可以生成其等效术语，如“多个不充分证据(insufficient evidences)”、“证据的不充分(insufficiency of the evidence)”、“多个证据的不充分(insufficiency ofevidences)”等等。在框560中，将这些等效术语存储为等待验证的候选等效物。

类似地，对候选等效物的验证(框562)是基于使用频率，并且产生了等效术语列表(框564)。然后可以基于在术语等效生成逻辑244c中指定的规则对等效术语对进行合并和/或关联(框566)，以便形成等效术语组。合并可以仅包括组合两条数据和/或移除副本，以便创建等效术语组(框568)。然而，在一些实施例中，可以收集等效术语对，并且可以做出关于等效对是否也等效的判定。如果是，则可以将这些等效对一起合并在等效术语组中。

另外，如以上所讨论的，可以从合并的术语组中选择标准化术语(框570)。更具体地，针对每个术语组，可以使用启发式规则(如频率、名词复数等)作出用于判定将术语中的哪个术语指定为标准化术语的判定。参照以上示例，根据以下内容，可以在位于语料库数据238a中的文档中找到术语组：

表1

如表1中所展示的，术语“不充分证据”比这组中的其他术语在位于语料库数据238a中的文档中出现的更频繁。另外，由于“不充分证据”是所述组中的最简单术语，因此，“不充分证据”可以被选择为所述组的标准化术语。因此，可以标识包括具有标准化形式的等效术语的词典匹配的术语(框572)。可以在框574处执行(自动地和/或手动地)质量保证检查。在质量保证之后，词典匹配的术语可以存储在成对列表238c中。一旦存储了词典匹配的术语，就可以使用所述词典匹配的术语来执行用户指定的搜索。

图6描绘了根据本文所示出和描述的实施例的可以用于从语料库中生成初始术语的过程(如可以通过使用词典生成逻辑244b来执行)。如图4中所展示的，可以创建来自语料库数据238a的语料库术语的术语列表(框650)。可以另外可编程地对所述列表进行处理，以便创建术语候选列表(框652)。可以针对语料库数据来搜索候选术语，以便确定在语料库数据238a中提供的文档的出现频率(框654)。可移除具有不满足预定阈值的频率的候选术语(框656)。另外，可以执行质量保证检查(框658)。另外，可以将术语列表记录在词典中(框660)。

图7描绘了根据本文所示出和描述的实施例的可以用于生成词典的术语等效分组的过程(如可以通过使用术语等效生成逻辑244c来执行)。如图5中所展示的，针对初始列表中的每个术语可以生成潜在等效术语列表(框750)。可以然后搜索语料库以确定所有潜在术语的频率(框752)。可以移除具有不满足预定阈值的出现频率的候选术语(框754)。可以将剩余术语分组到等效术语中(框756)。可以选择等效术语组中的每一组的标准形式(框758)。进一步地，可以执行质量保证检查(框760)。然后可以将等效术语组记录在词典中(框762)。

以上描述的具有重要的高级概念的更小第二词典可以用于增强计算系统的索引和搜索文档的功能。一旦已经存储了这些概念及其语言和语义变体，则文档语料库内的文档的文本就可以注释有概念的标准化形式。例如，通过以上过程被认为是语言学变体的短语如“没有搜查证(without a search warrant)”、“没有根据搜查(searched without awarrant)”、“缺乏搜查证(absence of a searchwarrant)”以及许多其他短语可以都存储在第二词典中(在标准化概念“无证搜索(warrantless search)”的情况下)。这些短语之一的每个实例可以注释(例如，使用注释协议，如XML)有标准化概念“无证搜索”。

当提交查询时，搜索引擎可以判定存储在第二词典中的概念是否呈现在查询内。例如，如果概念呈现在搜索查询内(以标准化形式或者以存储的变体)，则可以针对概念的标准化形式搜索文档的元数据以便检索讨论此概念的文档。因为完成了标准化水平的匹配，因此提高了准确度和效率。使用所生成的标准化概念使得能够找到由于术语差异而以其他方式尚未找到的文档。

另外，针对每个文档，可以确定如由第二词典定义的许多概念。文档内最彻底的讨论的那些概念(例如，具有属于其的大多数文本)可以被指定为关键概念。例如，当文档显示在图形用户界面中时，可以将这些关键概念呈现给用户。

在一些实施例中，存储在第二词典内的每个概念具有唯一标识号。如以上所指出的，概念是可搜索的。甚至进一步地，还可以提供概念关联。例如，同时更频繁地出现在文档内的概念可以一起关联在第二词典或其他存储装置中。

存储在第二词典内的概念还可以用于生成各种图形用户界面，以便展示概念和文档如何一起关联在网络中。图8和图9展示了法律引证网络示例，其中，围绕外围的量圈表示概念，并且暗圈表示法律案件。圆圈之间的界限展示了各种概念和法律案件如何关联在一起。法律案件之间的界限表示引证关联。概念与法律案件之间的界限展示了特定案件讨论特定问题。应当理解的是，仅出于说明的目的提供图8和图9，并且实施例不限于由图8和图9展示的图形界面。

在一个示例中，用户可以呈现关于特定概念的搜索请求。作为非限制性示例，用户的所选概念可以是“员工受伤(injury to employee)”。可以针对讨论所选概念(例如，“员工受伤”)的法律案件来搜索文档语料库。进一步地，基于存储在第二词典内的各种概念之间的关联，可以返回并显示在法律案件中频繁出现的多个类似概念连同所选概念。在图8中，这些概念呈现为亮圈。

还返回的是讨论所选概念(如概念“员工受伤”)的多个法律案件、以及讨论通过搜索返回的类似概念的法律案件。在所展示的示例中，如图8中所示出的，当用户选择概念时，呈现概念与法律案件之间的关联的界限被突出显示。以此方式，用户可以容易地标识哪些案件讨论了他或她在图形用户界面中选择的概念。类似地，如图9中所示出的，用户可以选择图形用户界面内的单独案件，这使得突出显示表示引证关联的单独案件之间的界限以及由用户在图形用户界面内当前所选的法律案件讨论的概念之外的界限。应当理解的是，可以根据存储在第二词典中的概念使能图形用户界面和功能。

虽然本文中已经展示和描述了特定实施例，但应当理解的是，在不脱离所要求保护的主题的精神和范围的情况下，可作出各种其他变化和修改。此外，尽管本文已经描述了所要求保护的主题的各方面，但这些方面无需以组合使用。因此，本发明旨在所附权利要求书涵盖所有此类落入所要求保护的主题的范围内的变化和修改。

Claims

1.一种用于从包括多个文档的文档语料库中生成概念的由计算机实现的方法，所述方法包括：

使用处理设备检索存储在第一词典内的多个术语；以及

针对存储在所述第一词典内的所述多个术语中的单独术语：

使用所述处理设备确定所述术语在所述文档语料库内的第一频率；

使用所述处理设备确定所述术语在包括多个对比文档的对比文档语料库内的第二频率，其中，所述对比文档语料库不同于所述文档语料库；

使用所述处理设备确定所述第一频率与所述第二频率之间的差；

使用所述至少一个处理设备将所述第一频率与所述第二频率之间的所述差与比较度量指标进行比较；以及

当所述第一频率与所述第二频率之间的所述差满足所述比较度量指标时，将所述术语作为概念存储在非暂态计算机可读介质中所存储的第二词典内。

2.如权利要求1所述的由计算机实现的方法，其中：

所述比较度量指标是阈值；并且

当所述第一频率与所述第二频率之间的所述差大于所述阈值时，所述比较度量指标被满足。

3.如权利要求1所述的由计算机实现的方法，其中，所述文档语料库内的所述多个文档是多个法律文档，从而所述文档语料库是法律文档语料库。

4.如权利要求3所述的由计算机实现的方法，其中，所述对比文档语料库内的所述多个对比文档是多个新闻文档，从而所述对比文档语料库是新闻文章语料库。

5.如权利要求1所述的由计算机实现的方法，进一步包括针对存储在所述第一词典内的所述多个术语中的每个术语：

使用所述处理设备计算所述术语在包括多个附加对比文档的至少一个附加对比文档语料库内的至少一个附加频率，其中，所述至少一个附加对比文档语料库不同于所述文档语料库和所述对比文档语料库；

确定所述第二频率和所述至少一个附加频率的平均频率；

使用所述处理设备计算所述第一频率与所述平均频率之间的差；

将所述第一频率与所述平均频率之间的所述差与所述比较度量指标进行比较；

当所述第一频率与所述平均频率之间的所述差满足所述比较度量指标时，将所述术语存储在所述第二词典内。

6.如权利要求1所述的由计算机实现的方法，其中，所述第一词典中的每个术语是通过以下步骤确定的：

从所述文档语料库的所述多个文档中确定语料库术语；

从所述语料库术语生成候选术语，其中，生成所述候选术语包括生成所述语料库术语的语言变体；

从所述候选术语生成多个等效术语；

通过将所述多个等效术语与所述候选术语的出现频率进行比较来验证所述多个等效术语；

将所述多个等效术语中的每一个与所述候选术语相关联以便创建相应的等效术语对；

判定所述等效术语对中的任何等效术语对是否等效，并且响应于确定等效术语对中的至少两个等效术语对是等效的而合并所述等效术语对以便创建等效术语组；

从所述等效术语组中选择标准化术语；以及

将所述标准化术语存储为所述第一词典内的所述术语。

7.如权利要求1所述的由计算机实现的方法，进一步包括：针对存储在所述第二词典内的每个术语，生成至少一个扩展术语。

8.如权利要求1所述的由计算机实现的方法，进一步包括：针对作为概念存储在所述第二词典内的每个术语，将所述术语与来自多个概念类型中的单独概念类型相关联。

9.如权利要求8所述的由计算机实现的方法，其中，所述多个概念类型包括：法律原则、基于过程的概念以及基于事实的概念。

10.一种用于从包括多个文档的文档语料库中生成概念的系统，所述方法包括：

至少一个处理设备；以及

至少一个非暂态计算机可读介质，存储有计算机可读指令，所述计算机可读指令当被所述至少一个处理设备执行时使得所述至少一个处理设备：

检索存储在所述至少一个非暂态计算机可读介质中的第一词典内的多个术语；并且

针对存储在所述第一词典内的所述多个术语中的单独术语：

确定所述术语在所述文档语料库内的第一频率；

确定所述术语在包括多个对比文档的对比文档语料库内的第二频率，其中，所述对比文档语料库不同于所述文档语料库；

确定所述第一频率与所述第二频率之间的差；

将所述第一频率与所述第二频率之间的所述差与比较度量指标进行比较；以及

当所述第一频率与所述第二频率之间的所述差满足所述比较度量指标时，将所述术语作为概念存储在所述至少一个非暂态计算机可读介质中所存储的第二词典内。

11.如权利要求10所述的系统，其中：

所述比较度量指标是阈值；并且

12.如权利要求10所述的系统，其中，所述文档语料库内的所述多个文档是多个法律文档，从而所述文档语料库是法律文档语料库。

13.如权利要求12所述的系统，其中，所述对比文档语料库内的所述多个对比文档是多个新闻文档，从而所述对比文档语料库是新闻文章语料库。

14.如权利要求10所述的系统，其中，所述计算机可读指令进一步使得所述至少一个处理设备针对存储在所述第一词典内的所述多个术语中的每个术语：

使用所述至少一个处理设备计算所述术语在包括多个附加对比文档的至少一个附加对比文档语料库内的至少一个附加频率，其中，所述至少一个附加对比文档语料库不同于所述文档语料库和所述对比文档语料库；

确定所述第二频率和所述至少一个附加频率的平均频率；

使用所述至少一个处理设备计算所述第一频率与所述平均频率之间的差；

使用所述至少一个处理设备将所述第一频率与所述平均频率之间的所述差与比较度量指标进行比较；

15.如权利要求10所述的系统，其中，所述第一词典中的每个术语是通过以下步骤确定的：

从所述文档语料库的所述多个文档中确定语料库术语；

从所述候选术语生成多个等效术语；

从所述等效术语组中选择标准化术语；以及

将所述标准化术语存储为所述第一词典内的所述术语。

16.如权利要求10所述的系统，进一步包括：针对存储在所述第二词典内的每个术语，生成至少一个扩展术语。

17.如权利要求10所述的系统，进一步包括：针对作为概念存储在所述第二词典内的每个术语，将所述术语与来自多个概念类型中的单独概念类型相关联。

18.如权利要求17所述的系统，其中，所述多个概念类型包括：法律原则、基于过程的概念以及基于事实的概念。

19.一种用于从包括多个文档的文档语料库中生成概念的由计算机实现的方法，所述方法包括：

使用处理设备检索存储在第一词典内的多个术语；并且

针对存储在所述第一词典内的所述多个术语中的单独术语：

使用所述处理设备确定所述多个文档的子集，其中，所述多个文档的所述子集内的每个文档具有包含所述术语的正文部分；

使用所述处理设备确定在所述多个文档的所述子集内具有包含所述术语的批注部分的文档的百分比；

将所述百分比与百分比阈值进行比较；以及

当所述百分比大于所述百分比阈值时，将所述术语作为概念存储在非暂态计算机可读介质中所存储的第二词典内。

20.如权利要求19所述的由计算机实现的方法，进一步包括：针对存储在所述第二词典内的每个术语，将所述术语与来自多个概念类型中的单独概念类型相关联。