CN110678860B - 用于逐字文本挖掘的系统以及方法 - Google Patents

用于逐字文本挖掘的系统以及方法 Download PDF

Info

Publication number
CN110678860B
CN110678860B CN201880031762.4A CN201880031762A CN110678860B CN 110678860 B CN110678860 B CN 110678860B CN 201880031762 A CN201880031762 A CN 201880031762A CN 110678860 B CN110678860 B CN 110678860B
Authority
CN
China
Prior art keywords
gram
string
strings
word
index data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880031762.4A
Other languages
English (en)
Other versions
CN110678860A (zh
Inventor
P·张
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LexisNexis Inc
Original Assignee
LexisNexis Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LexisNexis Inc filed Critical LexisNexis Inc
Publication of CN110678860A publication Critical patent/CN110678860A/zh
Application granted granted Critical
Publication of CN110678860B publication Critical patent/CN110678860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

用于逐字文本挖掘的系统和方法包括:将文本语料库的文档分析为多个单独句子;为多个单独句子中的一个或多个单独句子指派句子标识符;生成包括来自单独句子中的单词的多个n‑Gram的多个n‑Gram串;将反向索引应用至n‑Gram串;当一个n‑Gram串的索引数据结构与另一n‑Gram串的索引数据结构共享预先确定的百分比的句子标识符时,将该一个n‑Gram串的索引数据结构与该另一个n‑Gram串的索引数据结构组合以形成合并索引数据结构;将群组标识符指派至一个或多个合并索引数据结构中的合并索引数据结构;以及创建包括句子标识符、群组标识符以及相关联的n‑Gram串的数据集。

Description

用于逐字文本挖掘的系统以及方法
相关申请的交叉引用
本申请要求于2017年3月13日提交的名为“Systems and Methods for Verbatim-Text Mining(用于逐字文本挖掘的系统以及方法)”的美国专利申请第15/457,323号的优先权,该申请以其整体通过引用并入本文。
技术领域
本说明书总体上涉及用于逐字文本挖掘的系统以及方法,并且更具体地,涉及用于在文档的语料库中标识逐字文本的系统以及方法。
背景技术
随着电子系统将越来越多的文档以及其他数据转换成电子形式,许多已经被转换的文档被使用元数据编入索引或交叉引用以促进搜索、检索和/或其他功能。例如,文本语料库中的法律文档(诸如法院判决、简报、动议等)可以被存储并编入索引以供用户以电子方式访问。由于不同的法律文档可以包括关于不同司法管辖的不同的点,因此那些文档可以被相应地编入索引并组织。
很多很多概念可以在文本语料库内讨论。每一个概念可包括与特定概念相关的讨论。根据文本语料库的一般主题(例如,法律、科学、医疗等),可能存在在文本语料库内具有显著重要性的概念的子集。一般而言,具有显著重要性的概念以及提供与该概念有关的相关讨论的文本在与相同的话题相关的多个文档内被引用并且重复。揭开这些重要概念可以改进例如计算机化文档索引、元数据发布、文档搜索和其他功能。然而,揭开这些重要概念的每一个实例或有关可能的大文本语料库内的概念的重复讨论需要系统以及用户熟悉要寻找以标识的概念。目前,标识重复的讨论以及概念(例如,逐字文本)并不容易完成,部分是因为文本语料库的大小以及引用或讨论呈现的方式的变化,诸如标点符号、单词选择中的变化或其他语言变化。
因此,存在对于用于在文档的语料库中标识并且提取逐字文本的系统以及方法的需要。
发明内容
在一个实施例中,用于逐字文本挖掘的方法包括将文本语料库的文档分析为多个单独句子,并且将句子标识符指派至该多个单独句子中的一个或多个单独句子。逐字文本挖掘方法也包括生成多个单独句子中单独句子的多个n-Gram串,包括来自单独句子内的单词的多个n-Gram,其中多个n-Gram中的单个n-Gram包括不多于多个单词中的单词的预先确定数量的字符,并且至少基于多个指南生成该多个n-Gram串中的n-Gram串,其中该多个指南包括n-Gram串中n-Gram的最大数量以及n-Gram串中n-Gram的最小数量。该方法也可包括将反向索引应用至n-Gram串,其中索引数据结构与n-Gram串相关联,并且该索引数据结构包括包含n-Gram串的单独句子的一个或多个句子标识符。该方法还包括当一个n-Gram串的索引数据结构与另一n-Gram串的索引数据结构共享预先确定的百分比的句子标识符时,将一个n-Gram串的索引数据结构与另一n-Gram串的索引数据结构组合以形成合并索引数据结构,并且将群组标识符指派至一个或多个合并索引数据结构中的合并索引数据结构。该方法还包括创建数据集,该数据集包括n-Gram串的句子标识符、合并索引数据结构的群组标识符以及一个或多个合并索引数据结构的n-Gram串。
在另一实施例中,用于逐字文本挖掘的系统包括计算设备,该计算设备包括通信地耦合至非瞬态计算机可读存储器的处理单元,计算机可读并且可执行指令集存储在该非瞬态计算机可读存储器中。当计算机可读并且可执行指令由处理单元执行时,该处理单元将文本语料库的文档分析为多个单独句子,并且将句子标识符指派至该多个单独句子中的一个或多个单独句子。处理单元也为多个单独句子中的单独句子生成多个n-Gram串,包括来自单独句子内的单词的多个n-Gram,其中多个n-Gram中的单个n-Gram包括不多于多个单词中的单词的预先确定数量的字符,并且至少基于多个指南生成该多个n-Gram串中的n-Gram串,其中该多个指南包括n-Gram串中n-Gram的最大数量以及n-Gram串中n-Gram的最小数量。处理单元进一步将反向索引应用至n-Gram串,其中该索引数据结构与该n-Gram串相关联,并且该索引数据结构包括包含该n-Gram串的单独句子的一个或多个句子标识符。当一个n-Gram串的索引数据结构与另一n-Gram串的索引数据结构共享预先确定的百分比的句子标识符时,处理单元也将一个n-Gram串的索引数据结构与另一n-Gram串的索引数据结构组合以形成合并索引数据结构,并且将群组标识符指派至一个或多个合并索引数据结构中的合并索引数据结构。处理单元也创建数据集,该数据集包括n-Gram串的句子标识符、合并索引数据结构的群组标识符以及一个或多个合并索引数据结构的n-Gram串。
在又另一实施例中,用于逐字文本挖掘的方法包括预处理、逐字文本挖掘方法以及后处理。预处理包括:选择文本文档的数据库;使用目标名称搜索该文本文档的数据库;并且从使用该目标名称的搜索的结果中生成文本语料库。逐字文本挖掘方法包括将文本语料库的文档分析为多个单独句子、以及将句子标识符指派至该多个单独句子中的一个或多个单独句子。逐字文本挖掘方法也包括为多个单独句子中的单独句子生成多个n-Gram串,包括来自单独句子内的单词的多个n-Gram,其中该多个n-Gram中的单个n-Gram包括不多于多个单词中的单词的预先确定数量的字符,至少基于多个指南生成该多个n-Gram串中的n-Gram串,其中该多个指南包括n-Gram串中n-Gram的最大数量以及n-Gram串中n-Gram的最小数量。单独句子的多个n-Gram串进一步包括n-Gram串的第一子集以及n-Gram串的第二子集。通过如下步骤生成n-Gram串的第一子集:从单独句子的第一单词开始,记录最小数量的单词的预先确定数量的字符,以限定n-Gram串的第一子集的第一n-Gram串。针对n-Gram串的第一子集的后续n-Gram串,记录单独句子的单词的预先确定数量的字符,由此使得每一个后续n-Gram串比上一个n-Gram串多包括至少一个n-Gram,并且n-Gram串的第一子集的最后n-Gram串与最大数量的单词的预先确定数量的字符对应。通过如下步骤生成n-Gram串的第二子集:从单独句子的第二单词开始,记录最小数量的单词的预先确定数量的字符,以限定n-Gram串的第二子集的第一n-Gram串。针对n-Gram串的第二子集的后续n-Gram串,记录单独句子的单词的预先确定数量的字符,由此使得:每一个后续n-Gram串比上一个n-Gram串多包括至少一个n-Gram,并且n-Gram串的第二子集的最后n-Gram串与最大数量的单词的预先确定数量的字符对应。逐字文本挖掘方法进一步包括将反向索引应用至n-Gram串,其中索引数据结构与n-Gram串相关联,并且该索引数据结构包括包含n-Gram串的单独句子的一个或多个句子标识符。逐字文本挖掘方法也包括按照索引数据结构内的句子标识符的量排序n-Gram的索引数据结构。逐字文本挖掘方法还包括当一个n-Gram串的索引数据结构与另一n-Gram串的索引数据结构共享预先确定的百分比的句子标识符时,将一个n-Gram串的索引数据结构与另一n-Gram串的索引数据结构组合以形成合并索引数据结构,并且将群组标识符指派至一个或多个合并索引数据结构中的合并索引数据结构。逐字文本挖掘方法还包括创建数据集,该数据集包括n-Gram串的句子标识符、合并索引数据结构的群组标识符以及一个或多个合并索引数据结构的n-Gram串。后处理包括将聚类算法应用至合并索引数据结构的多个单独句子,其中该聚类算法进一步包括将该多个单独句子组合为群集并且选择该群集的代表性单独句子。
鉴于下面的详细描述,将结合附图更充分地理解本文所描述的实施例提供的这些和额外的特征。
附图说明
附图中阐述的实施例本质上是说明性的和示例性的并且不旨在限制由权利要求所限定的主题。当结合以下附图阅读时,可以理解对说明性实施例的以下详细描述,其中,用类似的附图标记指示类似的结构,并且其中:
图1示意性地描绘了根据在本文示出并且描述的一个或多个实施例的用于从文本语料库中提取逐字文本的示例计算网络;
图2描绘了根据本文示出并且描述的一个或多个实施例的图1中计算网络的示例逐字文本挖掘计算设备;
图3描绘了根据本文示出并且描述的一个或多个实施例的逐字文本挖掘系统以及方法的示例流程图;
图4A、图4B以及图4C描绘了根据本文示出并且描述的一个或多个实施例的逐字文本挖掘系统以及方法的示例框图;
图5描绘了根据本文示出并且描述的一个或多个实施例的用于逐字文本挖掘系统以及方法的预处理的示例框图;并且
图6描绘了根据本文示出并且描述的一个或多个实施例的包括应用聚类算法的后处理的示例输出。
具体实施方式
本公开的实施例设计用于在文本语料库中标识逐字文本的系统以及方法。如本文所使用,“逐字文本”指的是与另一字符串或文本匹配或几乎匹配的字符串或文本。例如,尽管字符串或文本在标点符号、措辞上的较小变化或语言变化等方面有所不同,但两个字符串或文本仍可被考虑为“逐字文本”。作为示例而非限制,逐字文本挖掘提取在文本语料库的文档中出现的逐字文本,诸如从法律语料库中提取法律声明或信息。当法官在许多案例中以逐字的方式引用法律声明时,可认为该声明具有较高程度的法律重要性。逐字引用经常指的是由法律以及法规限定的法律知识,被广泛接受的原则以及指南或州案例法律先例。然而,法官、律师以及法律学者可能并不总是从原始语言中逐字逐句地引用法律声明,因此使用n-Gram、n-Gram串以及如下文中更加详细地描述的多个指南实现了标识以及提取逐字文本中的一定程度的灵活性或模糊性。
用于从法律文档的语料库中标识并且提取逐字文本的系统以及方法可包括多年来由法官以及律师撰写的不同的法律源。所提取的法律信息可形成用于各种用户功能的元数据。作为示例而非限制,应用可提供元数据作为基于用户的问题来查找内容的源。逐字文本挖掘的结果也可以是被用于汇编法律话题概要的组件。如下文中更加详细地讨论的,在文本语料库的文档中出现的逐字文本可从该文本语料库的文档的逐字文本数据挖掘中生成。
尽管本文所描述的实施例将文本语料库描述为若干示例中的法律文本语料库,但是应当理解,实施例不限于此。作为进一步非限制性示例,文本语料库可以是科学期刊文本语料库、医疗期刊文本语料库、烹饪文本语料库等。
逐字文本数据挖掘系统以及方法可通常包括:选择文本语料库的预处理;挖掘文本语料库以获取逐字文本;以及后处理,该后处理进一步完善由逐字文本挖掘标识的文本语料库的文档中出现的逐字文本。通常,通过将给定句子内的单词截断为n-Gram并且将该n-Gram组合以形成具有变化的长度以及内容的多个n-Gram串来实现挖掘文本语料库以获取逐字文本。每一个n-Gram串包括多个n-Gram,其中每一个n-Gram包括来自每一个单词的多个字母。n-Gram串的长度以及每一个n-Gram中的字母的数量以及多个指南是逐字文本挖掘系统以及方法的参数中使得逐字文本的标识以及提取具有一定程度的灵活性或模糊性的一些参数。一定程度的灵活性或模糊性允许逐字文本挖掘系统以及方法标识并且提取逐字逐句匹配的逐字文本以及除了标点符号使用中的一些差异、措辞中的较小变化或语言中的变化之外在语义上非常接近的几乎相同的逐字文本。除了逐字文本挖掘过程之外,可实现预处理以初始地限定文本语料库,并且可实现后处理以进一步完善逐字文本的标识以及提取。现在下文中更加详细地描述用于文本语料库的逐字文本挖掘的各种实施例。
现在参考附图,图1描绘了根据本文示出并且描述的一个或多个实施例的示例性计算机网络100,示出了用于标识以及提取在文本语料库的文档中出现的逐字文本的系统的组件。如图1中所展示的,计算机网络100可以包括广域网(如因特网)、局域网(LAN)、移动通信网络、公共业务电话网络(PSTN)和/或其他网络,并且可以被配置成用于电连接用户计算设备102a、逐字文本挖掘设备102b、以及管理员计算设备102c。
用户计算设备102a可以发起对一个或多个文档的电子搜索。更具体地,为了执行电子搜索,用户计算设备102a可以向逐字文本挖掘设备102b(或其他计算设备)发送用于提供呈现电子搜索能力的数据的请求(诸如超文本传输协议(HTTP)请求),该电子搜索能力包括向用户计算设备102提供用户界面。用户界面可以被配置成用于从用户处接收搜索请求并发起搜索。搜索请求可以包括用于检索文档的术语和/或其他数据。
另外,包括在图1中的是管理员计算设备102c。在逐字文本挖掘设备102b需要监督、更新或校正的情况下,管理员计算设备102c可以被配置成用于提供所期望的监督、更新、和/或校正。
应当理解的是,虽然用户计算设备102a和管理员计算设备102c被描绘为个人计算机并且逐字文本挖掘设备102b被描绘为服务器,但是这些仅是示例。更具体地,在一些实施例中,任何类型的计算设备(例如,移动计算设备、个人计算机、服务器等)可以用于这些组件中的任何组件。此外,虽然这些计算设备中的每一个计算设备在图1中被展示为单件硬件,但是这也是示例。更具体地,用户计算设备102a、逐字文本挖掘设备102b和管理员计算设备102c中的每一个可以表示多个计算机、服务器、数据库等。
图2描绘了图1中的逐字文本挖掘设备102b,同时进一步示出了根据本文示出以及描述的实施例通过利用硬件、软件和/或固件从文本预料库的文档中标识并且提取逐字文本的系统。虽然在一些实施例中逐字文本挖掘设备102b可以被配置为具有必要硬件、软件和/或固件的通用计算机,但是在一些实施例中,逐字文本挖掘设备102b可以被配置为用于执行本文所描述的功能而专门设计的专用计算机。
也在图2中所示出的,逐字文本挖掘设备102b可包括处理单元230、输入/输出硬件232、网络接口硬件234、存储文本文档的数据库238a的数据存储组件236、索引数据结构238b、合并索引数据结构238c以及数据集238d以及存储器组件240。存储器组件240可以是非瞬态计算机可读存储器。存储器组件240可以被配置为易失性和/或非易失性存储器并且因此可以包括随机存取存储器(包括SRAM、DRAM和/或其他类型的随机存取存储器)、闪存、寄存器、致密盘(CD)、数字通用盘(DVD)和/或其他类型的存储组件。此外,存储器组件240可以被配置成用于存储操作逻辑242、搜索逻辑244a、预处理逻辑244b、逐字文本挖掘逻辑244c、以及后处理逻辑244d(作为示例,这些逻辑中的每一个逻辑可以被实现为计算机程序、固件、或硬件)。本地接口246也包括在图2中并且可以被实现为总线或其他接口以便促进在逐字文本挖掘设备102b的组件之间的通信。
处理单元230可以包括被配置成用于接收并执行指令(诸如来自数据存储组件236和/或存储器组件240)的(多个)任何处理组件。输入/输出硬件232可以包括监视器、键盘、鼠标、打印机、相机、麦克风、扬声器和/或用于接收、发送和/或呈现数据的其他设备。网络接口硬件234可以包括任何有线或无线联网硬件,如调制解调器、LAN端口、无线保真(Wi-Fi)卡、WiMax卡、移动通信硬件和/或用于与其他网络和/或设备通信的其他硬件。
应当理解的是,数据存储组件236可以驻留在逐字文本挖掘设备102b本地和/或远程并且可以被配置成用于存储由逐字文本挖掘设备102b和/或其他组件访问的一条或多条数据。如图2中所示,数据存储组件236在文本文的档数据库238a中存储语料库数据,该语料库数据在非限制性示例中包括已经被组织并编入索引以供搜索的法律和/或其他文档。法律文档可以包括:案例判决、简报、表格、论文、汇编批注、汇编引用理由等。应当理解的是,除了法律文档之外,还可在数据存储组件236中存储文本文档。相似地,可由数据存储组件236存储索引数据结构238b并且可包括由逐字文本挖掘设备102b、预处理逻辑244b、逐字文本挖掘逻辑244c以及后处理逻辑244d生成的一个或多个索引数据结构238b。如下文更加详细地描述的,合并索引数据结构238c也可由数据存储组件236存储并且可包括与相关的索引数据结构238b的组合相关的数据。由数据存储组件236存储的数据集238d可表示从文本语料库中提取的法律信息的关键片段,如下文更加详细地描述的。
包括在存储器组件240中的是操作逻辑242、搜索逻辑244a、预处理逻辑244b、逐字文本挖掘逻辑244c以及后处理逻辑244d。操作逻辑242可包括操作系统和/或用于管理逐字文本挖掘设备102b的组件的其他软件。相似地,搜索逻辑244a可以驻留在存储器组件240中,并且可被配置成用于促进例如由用户计算设备102a(图1)发起的电子搜索。搜索逻辑244a可以被配置成用于汇编和/或组织文档和其他数据,从而使得电子搜索对于用户计算设备102a而言可以更容易地执行。搜索逻辑244a还可以被配置成用于将用户界面的数据提供给用户计算设备102a、接收搜索请求、检索相关联的文档并且通过用户计算设备102a提供对那些文档的访问。
如图2中还示出的,预处理逻辑244b可以驻留在存储器组件240中。如下文中更加详细地描述的,预处理逻辑244b可被配置成用于选择文本文档的数据库238a、搜索文本文档的数据库238a以及从文本文档的数据库238a的搜索生成文本语料库。进一步地,逐字文本挖掘逻辑244c可被配置成用于基于从文本语料库中提取的逐字文本以解析文本语料库以生成n-Gram串、索引数据结构238b以及合并数据结构238c以及数据集238d,如下文中更加详细地描述的。也在下文中更加详细地描述的是,后处理逻辑244d可被配置成用于完善合并索引数据结构238c,由此完善数据集238d。虽然搜索逻辑244a、预处理逻辑244b、逐字文本挖掘逻辑逻辑244c以及后处理逻辑244d被展示为不同的组件,但是这仅是示例。更具体地,在一些实施例中,本文所描述的针对这些组件中的任何组件的功能可以组合到单个组件中。
还应当理解的是,图2中展示的组件仅是示例性的并且不旨在限制本公开的范围。更具体地,虽然图2中的组件被示出为驻留在逐字文本挖掘设备102b内,但这仅是示例。在一些实施例中,所述组件中的一个或多个组件可以驻留在逐字文本挖掘设备102b外部。相似地,虽然图2涉及逐字文本挖掘设备102b,但是其他组件(如用户计算设备102a和管理员计算设备102c)可以包括相似的硬件、软件和/或固件。
现在将描述用于从文本文档的数据库的文本语料库中生成基于逐字文本的数据集的实施例。
参考图3,描绘了逐字文本挖掘系统以及方法的示例流程图。参考下文图5以及图6详细地描述了选择文本语料库的预处理以及进一步完善在文本语料库的文档中出现的逐字文本的后处理。图3提供了描绘逐字文本挖掘系统以及方法的步骤的流程图,下文通过示例的方式更加详细地描述了该流程图。在接收来自选择并且生成语料库的预处理的文本语料库时,步骤310将文本语料库分析为单独句子。如下文所讨论的,文本语料库可包括各种格式的许多文档或单个文档。通过将文本语料库分析为单独句子,排除了引文以及非文本部分以创建单独句子的语料库。在步骤320中,为每一个单独句子指派句子标识符。作为示例而非限制,句子标识符可被用于跟踪单独句子相对于文本语料库的来源(origin)或被用于由系统在逐字文本挖掘过程期间处理。
一旦已为单独句子指派了句子标识符,则在步骤330中为每一个句子生成多个n-Gram串。在下文中更加详细地描述了n-Gram以及n-Gram串的生成。然而,一般而言,单独句子中的单词被转换为n-Gram。n-Gram包括每一个单词的多个字母。组合n-Gram以形成n-Gram串,该n-Gram串具有从每一个n-Gram串中的最小数量的n-Gram到最大数量的n-Gram的长度范围。给定长度的每一个n-Gram串均以单独句子中的每一个单词开始,从而允许n-Gram串的给定长度适合单独句子的总长度。例如,对于具有12个单词的句子,这12个单词中的每一个均可被转换为n-Gram,则具有长度为8个n-Gram的n-Gram串将仅使用该单独句子的前5个单词以生成n-Gram串,因为以任何超过第五个单词的单词开始将使得长度为8的n-Gram串延伸超过该单独句子中的第十二个单词,也就是最后单词。
一旦为每一个单独句子生成了n-Gram串,则在步骤340中将反向索引应用于每一个n-Gram串,从而为每一个n-Gram串形成索引数据结构。给定的n-Gram串的索引数据结构包括每一个句子标识符的列表,包括给定的n-Gram串。在步骤350中,按照包含在每一个索引数据结构中的句子标识符的数量对索引数据结构进行排序。具有较大数量的句子标识符的索引数据结构可指示经常陈述的逐字文本,并且该文本因此具有显著的重要性。然而,在步骤360中进一步地完善逐字文本的标识。步骤360创建合并索引数据结构,包括具有预先限定的百分比的相似句子标识符的索引数据结构。参考图4C中的框360’进一步描述了合并索引数据结构的方法。当创建了合并索引数据结构时,则在步骤370中为其指派群组标识符。在步骤380中,使用数据集创建新文件,该数据集包括n-Gram串的句子标识符、与该n-Gram串相关联的合并索引数据结构的群组标识符以及与该合并索引数据结构相关联的n-Gram串。数据集可充当给定话题的概要,因为该数据集包括例如来自涉及概念(诸如,“违反合同”)的法律意见的逐字文本。
现在描述用于逐字文本的系统和方法的更为详细的描述。下文的描述中,参考框310’、320’、330’、340’、350’、360’、370’以及380’的描述分别与步骤310、320、330、340、350、360、370以及380对应。现在参考图4A、图4B以及图4C,描绘了逐字文本挖掘系统以及方法300的示例框图。在框310’处,如图2中所示的处理单元230访问存储在数据存储组件236中的文本语料库的一个或多个文档。处理单元230将文本语料库分析为多个单独句子311。该多个单独句子通常被称为311。每一个单独句子311包括多个单词321(例如,321a到321g)。在框320’处,分别为每一个单独句子311a、311b、311c以及311d指派了句子标识符312a、312b、312c以及312d。句子标识符被统称为312。句子标识符312可包括字母数字代码。在一些实施例中,句子标识符312包括四个字母数字字符。此外,句子标识符312可包括大小写(case)敏感的字母数字代码以增加唯一句子标识符312的数量。在其他实施例中,句子标识符312并不限于四个字符;它们可包括一个或多个字符。如附图中所描绘的以及本文中所描述的,诸如“#”的符号可表示任意数字:0、1、2、3、4、5、6、7、8或9,并且诸如“A”的字母可以表示字母表中任意字母。单独句子311以及相应句子标识符312可被存储在存储器组件240中。虽然图4A中描绘了四个单独句子311,但其他实施例可在文本语料库中包括一个或多个文档,该文本语料库包括一个或多个单独句子311。
通过非限制示例的方式,从文本语料库分析下述句子并为其指派句子标识符。0Bqg:Ross held the permissible scope of the search extended to every part ofthe vehicle and its contents that might contain the object of the search.“0Bqg”是其后跟随的单独句子的句子标识符。该示例句子被输入至图3的步骤330,在该步骤330生成了多个n-Gram串。下文提供了该说明性句子的示例n-Gram串输出。
一旦文本语料库的文档在框310’中被分析为单独句子311,则每一个单独句子311在框330’中被转换为多个n-Gram串331(例如,331a到331l)。n-Gram串331中每一个包括多个n-Gram 333。n-Gram 333包括从单词321中得出的字符的序列。在一些实施例中,n-Gram333包括字符的序列,该字符的序列具有来自每一个单词321的不多于四个字符。作为非限制性示例,针对单词“contract”,具有其不多于四个字符的n-Gram 333可以是“cont”。在另一非限制性示例中,针对单词“law”,具有其不多于四个字符的n-Gram 333可以是“law”。单词“law”不具有四个字符,故n-Gram 333可包括该单词的所有字符。
相似地,n-Gram串331中的每一个可包括预先限定的最小长度以及最大长度,即,n-Gram 333的最小数量到n-Gram 333的最大数量。例如,单个n-Gram串331可包括最小数量的n-Gram(例如,331a)、最大数量的n-Gram(例如,331c)或这之间任意数量的n-Gram。出于解释的目的,在框330’中,处理单元230接收具有句子标识符312a(例如,“<##AA>”)的单独句子311a。框330’描绘了生成多个n-Gram串331的结果,包括单独句子311a的多个n-Gram333。
在实施例中,为每一个单独句子311生成了n-Gram串331的一个或多个子集332。作为非限制性示例,n-Gram串的第一子集332a包括n-Gram串331a、331b以及331c。可由处理单元230通过选择单独句子311a的第一单词321a并且将其转换为具有不多于为每一个n-Gram333限定的字符数量的字符的n-Gram 333a生成n-Gram串331a。处理单元230可随后选择单独句子311a中的每一个后续单词(例如,321b、321c)并且将其转换为n-Gram(例如,333b、333c),直至生成了n-Gram串331中最大数量的n-Gram 333。处理单元230可随后以在单独句子311a(即,333a、333b、333c)中出现的顺序将n-Gram 333a、333b、333c作为n-Gram串331a存储在存储器组件240中。作为非限制性示例,如图4A、图4B以及图4C所示,n-Gram串331中的最小数量的n-Gram 333是三(3),并且如图4A、图4B以及图4C所示,n-Gram串331中n-Gram333的最大数量是五(5)。替代地,n-Gram串331中的n-Gram 333的最小数量以及n-Gram串331中n-Gram 333的最大数量可以分别是11以及15,或10以及16。实施例并不限于n-Gram的最大数量以及最小数量的特定值。在一些实施例中,n-Gram串331中n-Gram 333的最小数量以及n-Gram串331中n-Gram 333的最大数量可以由用户限定。
处理单元230可随后生成n-Gram串的第一子集332a的下一n-Gram串331b。在最后单词321c被转换为其n-Gram 333等价物后,处理单元230选择下一单词321d并且将该下一单词321d转换为n-Gram 333d。处理单元230将n-Gram 333d组合至n-Gram串331a的末尾以形成n-Gram串331b,只要n-Gram串331b中的n-Gram 333的数量不超过n-Gram串331中n-Gram 333的最大数量。n-Gram串331b包括四个n-Gram(例如,333a、333b、333c、333d),并且由此未超过在图4A、图4B以及图4C中所描绘的示例的n-Gram串331中n-Gram 333的最大数量五(5)。处理单元230可随后将n-Gram串331b存储在存储器组件240中。
处理单元230可随后生成n-Gram串的第一子集332a的下一n-Gram串331c。在最后单词321d被转换为其n-Gram 333等价物后,处理单元230选择之后的下一单词321e并且将该下一单词321e转换为n-Gram 333e。处理单元230将n-Gram 333e组合至n-Gram串331b的末尾以形成n-Gram串331c,只要n-Gram串331c中的n-Gram 333的数量不超过n-Gram串331中n-Gram 333的最大数量。n-Gram串331c包括五个n-Gram(例如,333a、333b、333c、333d、333e),故因此未超过在图4A、图4B以及图4C中所描绘的示例的n-Gram串331中n-Gram 333的最大数量五(5)。处理单元230可随后将n-Gram串331b存储在存储器组件240中。因为已经生成了包括n-Gram串331中最大数量的n-Gram 333的n-Gram串331,故n-Gram串的第一子集332a是完整的。
仍参考框330’,可生成n-Gram串的第二子集332b。可生成第二子集332b,因为具有在n-Gram串331中允许的最小数量的n-Gram 333的n-Gram串331a的最后n-Gram 333c没有以单独句子311a中最后单词321g的n-Gram 333g结束。第二子集332b包括n-Gram串331d、331e以及331f。n-Gram串表示以第二单词321b开始的并且具有最小数量到最大数量的n-Gram的可能的n-Gram串中的每一个,例如,n-Gram串331d具有3个n-Gram(333b、333c、333d),n-Gram串331e具有4个n-Gram(333b、333c、333d、333e),并且n-Gram串331f具有5个n-Gram(333b、333c、333d、333e、333f)。第二子集包括具有最小数量(例如,三个n-Gram)到最大数量(例如,五个n-Gram)的n-Gram的n-Gram串,因为每一个n-Gram串的长度不需要超出单独句子311a的最后单词321g的单词,即,第二子集332b中的每一个n-Gram串在单独句子的最后单词321g之前结束。如参考第一子集详细描述的,通过选择以第二单词321b开始的每一个单词并且将其转换为n-Gram等价物,直至达到每一个n-Gram串的n-Gram的总数,从而生成第二子集332b的n-Gram串。作为示例而非限制,n-Gram串331d包括从单词321b、321c以及321d生成的三个n-Gram,即,最小数量的n-Gram。此外,n-Gram串331e包括从单词321b、321c、321d、321e生成的四个n-Gram 333b、333c、333d、333e,并且n-Gram串331f包括从单词321b、321c、321d、321e、321f生成的五个n-Gram 333b、333c、333d、333e、333f。处理单元230可随后将第二子集332b的每一个n-Gram串331d、331e以及331f存储在存储器组件240中。
一旦在没有超出单独句子311a的最后单词321g的情况下生成了第二子集332b的每一个可能的n-Gram串并且至少具有第二子集332b的最小数量的n-Gram的n-Gram串331d没有以单独句子311a的最后单词321g结束,则处理单元230可生成以单独句子311a的第三单词321c开始的第三子集332c。
在图4A、图4B以及图4C所提供的示例中,第三子集332c包括具有最小数量到最大数量的n-Gram并且以第三单词321c的n-Gram 333c开始的n-Gram串331g、331h、331i。n-Gram串331g、331h、331i以及对应的n-Gram 333c、333d、333e、333f、333g是通过由处理单元230选择单词321c、321d、321e、321f、321g并且将其转换为相应的n-Gram等效物以形成符合如上文详细描述的最小数量到最大数量的n-Gram的n-Gram而生成的。处理单元230可随后将第三子集332c的每一个n-Gram串331g、331h以及331i存储在存储器组件240中。
一旦已经生成了第三子集332c的每一个n-Gram串并且具有第三子集332c的最小数量的n-Gram的n-Gram串331g没有以单独句子311a的最后单词321g的n-Gram结束,则处理单元230可生成以单独句子311a的第四单词321d开始的第四子集332d。
仍参考框330’,可生成n-Gram串的第四子集332d。第四子集332d包括n-Gram串331j、331k。第四子集332d与第一子集332a、第二子集332b以及第三子集332c都不一样,其仅包括两个n-Gram串331j、331k,该两个n-Gram串分别包括三个n-Gram以及四个n-Gram。具有五个n-Gram(即,最大数量的n-Gram)的n-Gram串是不可能的,因为具有四个n-Gram的n-Gram串331k以单独句子311a的最后单词321g的n-Gram 333g结束。句子中没有额外的单词可供选择并且转换为n-Gram的等价物以完成具有五个n-Gram的n-Gram串。因此,作为非限制性示例,处理单元230通过选择单独句子311a的第四单词321d并且将其转换为n-Gram333d以生成n-Gram串331j。处理单元230可随后选择单独句子311a中的每一个后续单词(例如,321e、321f)并且将其转换为n-Gram(例如,333e、333f),直至生成了n-Gram串331中最小数量的n-Gram 333(例如,三个n-Gram)。处理单元230可随后将n-Gram 333d、333e以及333f按顺序(即,333d、333e、333f)作为n-Gram串331j存储在存储器组件240中。
处理单元230可随后生成n-Gram串的第四子集332d的下一n-Gram串331k。在最后单词321f被转换为其n-Gram等价物333f后,处理单元230选择下一单词321g并且将该下一单词321g转换为n-Gram 333g。处理单元230将n-Gram 333g组合至n-Gram串331j的末尾以形成n-Gram串331k,只要n-Gram串331k中的n-Gram 333的数量不超过n-Gram串331中n-Gram 333的最大数量。n-Gram串331k包括四个n-Gram(例如,333d、333e、333f、333g),其未超过在图4A、图4B以及图4C中所描绘的示例的n-Gram串331中n-Gram 333的最大数量五(5)。处理单元230可随后将n-Gram串331k存储在存储器组件240中。n-Gram串的第四子集332d是完整的,因为被转换为n-Gram 333g的最后单词321g是单独句子311a中的最后单词321g。因此,尝试生成具有多于四个n-Gram 333的下一n-Gram串将超出单独句子311的长度。然而,可生成额外子集,即第n-Gram串的第五子集332e,因为在n-Gram串331j中被允许的具有最小数量的n-Gram 333的n-Gram串331j的最后n-Gram 333f不以单独句子311a中的最后单词321g的n-Gram 333g结束。
仍参考框330框,n-Gram串的第五子集332e包括n-Gram串331l。可由处理单元230通过选择单独句子311a的第五单词321e并且将其转换为n-Gram 333e以生成n-Gram串331l。处理单元230可随后选择单独句子311a中的每一个后续单词(例如,321f、321g)并且将其转换为n-Gram(例如,333f、333g),直至生成了n-Gram串331中最小数量的n-Gram 333(例如,三个n-Gram)。处理单元230可随后将n-Gram 333e、333f、333g按顺序(即,333e、333f、333g)作为n-Gram串331l存储在存储器组件240中。n-Gram串的第五子集332e是完整的,因为被转换为n-Gram 333g的最后单词321g是单独句子311a中的最后单词321g。因此,尝试生成具有多于三个n-Gram 333的下一n-Gram串331将超出单独句子311的长度。
如所描绘的以及所描述的,n-Gram串的每一个子集使用在n-Gram串的先前子集的开始单词321之后的单独句子311中的单词321开始n-Gram串331的生成。然而,在n-Gram串的每一个子集中的单词321的有序选择以及n-Gram串331的生成仅为示例。生成用于逐字文本挖掘的n-Gram 333的方法仅要求使用单独句子311中的每一个单词321作为n-Gram串331的开始单词321以生成具有最小数量的n-Gram 333、最大数量的n-Gram 333以及这之间每一个数量的n-Gram 333的n-Gram333。例如,如果n-Gram串331的n-Gram 333的最小数量是11,并且n-Gram串331的n-Gram 333的最大数量是15,并且单独句子311包括20个单词321,则处理单元230应当使用该单独句子311的前十个单词321作为n-Gram串331的开始单词321以生成至少一个n-Gram串331。尽管下文描述了用于生成n-Gram 333串的额外指南,但具有11个n-Gram 333的n-Gram串331将使用前10个单词321作为开始单词321;具有12个n-Gram333的n-Gram串331将使用前9个单词321作为开始单词321;具有13个n-Gram 333的n-Gram串331将使用前8个单词321作为开始单词321;具有14个n-Gram 333的n-Gram串331将使用前7个单词321作为开始单词321;并且具有15个n-Gram 333的n-Gram串331将使用前6个单词321作为开始单词321。由此,当生成n-Gram串331时,顺序并不重要,只要开始单词321中的每一个均由n-Gram串长度(由n-Gram串331中的n-Gram 333的最大数量以及最小数量限定)中的每一个所使用以生成用于文本语料库的单独句子311中的每一个的多个n-Gram串331。可能的n-Gram串331的总数量包括n-Gram的最小数量n、以及n-Gram的最大数量k,对于具有限定数量、即w个单词的给定句子,可能的n-Gram串331的总数量可被表示为
Figure SMS_1
虽然上文所述的方法涉及处理单元230将单独句子311a转换为n-Gram串331,但是处理单元230可以对文本语料库中多个单独句子311中的每一个单子句子311重复相同的方法。此外,上文描述的方法仅仅是可将单独句子311转换为n-Gram串331的一个方法。处理单元230可通过用于实现生成单独句子311中的连续单词321的每一个组合的n-Gram串331的相同结果的替代方法以生成n-Gram串331。例如,处理单元230可将单独句子311中的每一个单词321转换为n-Gram 333等价物,并且随后选择n-Gram 333的连续组合以形成符合用于形成n-Gram串331的指南的每一个n-Gram串331。上文描述了用于形成n-Gram串331的一般指南,包括但不限于:符合n-Gram串331中n-Gram 333的最小数量、n-Gram串331中n-Gram333的最大数量以及在该最小数量与最大数量之间的n-Gram串331中n-Gram 333的每一个数量。
在一些实施例中,指南也可包括跳过出现在结束单词列表或开始单词列表中的单词321。例如但不限于:单词“该(the)”、“一(a/an)”、“在(in)”、“由此(thus)”、“然而(however)”等,上述单词可被包括在开始单词列表中,并且因此在选择用于开始n-Gram串331的生成的单词321时可以跳过上述单词。相似地,例如但不限于:单词“该(the)”、“以及(and)”、“那(that)”、“对于(for)”、“在(at)”、“可(might)”、“其(which)”等,上述单词可被包括在结束单词列表中,并且因此在选择用于将n-Gram 333转换为n-Gram串331的最后单词时可以跳过上述单词。在一些实施例中,结束单词列表与开始单词列表是相同的,然而在其他实施例中,结束单词列表以及开始单词列表包括相似但不相同的单词。在一个示例中,其中n-Gram串331以与结束单词列表条目对应的n-Gram串331结束,n-Gram串331未被包括在单独句子311的多个n-Gram串331中。在一些实施例中,例如,当在处理单元230正在生成n-Gram串331中具有最小数量的n-Gram 333的n-Gram串331时遇到结束单词时,可生成具有比n-Gram串331中n-Gram 333的最小数量少一个n-Gram 333的n-Gram串331,因为最后单词为结束单词,并且因此未被包括在n-Gram串331中。此外,为了防止生成重复的n-Gram串331,处理单元230可在将n-Gram串331存储在存储器组件240和/或数据存储组件236中之前应用过滤过程以搜索并且移除重复的n-Gram串331。
在一些实施例中,指南也可包括将单词321或它们的n-Gram 333等价物从n-Gram串331的中间移除。不将包括在n-Gram串331中间的单词的列表可被存储在存储器组件240或数据存储组件236中以供处理单元230在n-Gram串331的生成期间访问。不在n-Gram串331的中间出现的单词可包括但不限于:“一(a/an)”、“该(the)”、“其(its)”、“它们的(their)、“他的(his)、“她的(her)”、“任何(any)”、“一些(some)”等。上述列表中的每一个可以是单个列表、列表的组合或离散列表。
在一些实施例中,指南也可包括语言驱动的启发式规则。作为示例而非限制,如果n-Gram串331包括预先确定数量的较小单词(即,具有少于4个字母的单词),则将不生成n-Gram串331。在此类示例中,连续的较小单词的预先限定的数量可以是九(9)。在其他示例中,用户可限定连续的较小单词321的预先限定的数量。在其他示例中,连续的较小单词的预先限定的数量可以大于二。其他启发式规则可包括移除不包含诸如“必须(must)”、“应当(should)”、“认为(hold)”等动词或情态动词的n-Gram串的规则。在又另实施例中,语言驱动的启发规则可包括其他启发式算法。
从被转换成多个n-Gram串的以下示例句子中,可以更好地理解生成n-Gram串的先前过程。
0Bqg:Ross held the permissible scope of the search extended to everypart of the vehicle and its contents that might contain the object of thesearch.
通过将单个单独句子中的每一个单词截断为四(4)个或更少的字母以创建每一个n-Gram。在该非限制性示例中,每一个n-Gram串中的n-Gram的最小数量以及最大数量分别是11以及15。此外,在该示例中实现了排除或移除n-Gram串中的特定开始单词、结束单词以及单词的多个指南。该多个指南或启发式规则在n-Gram串生成期间阻止整个n-Gram被输出,或是移除单词。下述示例句子是来自上文但现在是相对于图3的步骤330中的n-Gram串的生成重新讨论的。现在将下述示例句子输入至图3中的步骤330中,参考图4B的框330’对该步骤330进行进一步描述。
n-Gram串的下述子集是从步骤330中生成的:
ross held perm scop of sear exte to ever part
ross held perm scop of sear exte to ever part of vehi
ross held perm scop of sear exte to ever part of vehi and cont
held perm scop of sear exte to ever part of vehi
held perm scop of sear exte to ever part of vehi and cont
held perm scop of sear exte to ever part of vehi and cont that mighcont
perm scop of sear exte to ever part of vehi and cont that migh cont
perm scop of sear exte to ever part of vehi and cont that migh contobje
scop of sear exte to ever part of vehi and cont that migh cont
scop of sear exte to ever part of vehi and cont that migh cont obje
sear exte to ever part of vehi and cont that migh cont
sear exte to ever part of vehi and cont that migh cont obje
sear exte to ever part of vehi and cont that migh cont obje of sear
exte to ever part of vehi and cont that migh cont obje
exte to ever part of vehi and cont that migh cont obje of sear
ever part of vehi and cont that migh cont obje of sear
如从上述n-Gram串输出中所描绘的,示例句子中的单词被截断至四(4)个或更少单词以形成n-Gram。输出的n-Gram串符合在示例系统以及方法的执行中实现的多个指南或启发式规则。通过示例的方式,至少下述行被启发式规则阻挡:
perm scop of sear exte to ever part of vehi and cont that migh
perm scop of sear exte to ever part of vehi and cont that
perm scop of sear exte to ever part of vehi and cont
perm scop of sear exte to ever part of vehi and.
上述n-Gram串中的三个未被输出,因为它们以结束单词列表中的单词结束(例如,“might”、“that”以及“and”)。另一个被移除,因为启发式规则中声明除非n-Gram串中具有一些动词或情态动词(例如,“必须(must)”、“应当(should)”、“认为(hold)”、“应当(shall)”、“将(will/would)”、“可(can/could/may/might)”)并且n-Gram串不具有九个连续的非较小单词(例如,具有四个或更多个字母的单词),则将该n-Gram串从输出中移除。
n-Gram串输出随后被输入至图3中的步骤340,在该步骤340中应用反向索引。例如,n-Gram串:,在实验文本语料库中的三个句子中找到了“ever part of vehi and contthat migh cont obje of sear”。因此,上述n-Gram串的索引数据结构在该非限制性示例中包括<05mr 0Bqg 0Bqh>。每一个字母数字代码是表示在其中找到该n-Gram串的文本语料库内的唯一的句子的句子标识符。现在将参考图4C中的框340’更加详细地描述步骤340。
仍参考图4A、图4B以及图4C,一旦由处理单元230生成并且存储了文本语料库的每一个单独句子311的n-Gram串331,则在框340’中将反向索引应用至每一个n-Gram串。处理单元230将反向索引应用至每一个n-Gram串331,由此将索引数据结构341与包括包含n-Gram串331的句子标识符312的列表(例如,341a到341j)的每一个n-Gram串331相关联。框340’描绘了将反向索引应用至n-Gram串331a的方法的示例结果。作为非限制性示例,关于n-Gram串331a描述了应用反向索引的方法。在框340’中,处理单元230从存储器组件240或数据存储组件236中选择n-Gram串331a。处理单元230在文本语料库的每一个单独句子311中搜索n-Gram串331a。当处理单元230确定正被搜索的单独句子311包括与n-Gram串331a的匹配时,处理单元230将单独句子311的句子标识符312添加至n-Gram串331a的索引数据结构341。如框340’中描绘的,n-Gram串331a被定位于文本语料库的多个句子中的十个单独句子311中。这十个单独句子311中的每一个均由它们的句子标识符312索引。例如,句子标识符312“#AA、##RN、##DS、##PZ、##LZ、##BZ、##DB、##GR、##MR、##QG”构成了n-Gram串331a的索引数据结构341。处理单元230可将索引数据结构341存储在存储器组件240中。
处理单元230为文本语料库中的单独句子311中的每一个的每一个n-Gram串331重复框340’中描述的步骤。结果是与包含句子标识符312的列表的每一个n-Gram串331相关联的索引数据结构341,该句子标识符312指示包含该n-Gram串331的每一个单独句子311。索引数据结构341中的一个或多个句子标识符312在框350’中被描绘为省略号“…”。一旦生成并且存储n-Gram串331的索引数据结构341,则在框350’中,处理单元230根据在每一个索引数据结构341中包含的句子标识符312的数量对n-Gram串331进行排序。在框350’中,处理单元230随后评估第一索引数据结构351与第二索引数据结构352之间的相似度。处理单元230基于合并指南将第二n-Gram串的索引数据结构352组合进第一n-Gram串的索引数据结构351。合并指南可要求第一n-Gram串的索引数据结构351与第二n-Gram串的索引数据结构352之间共享预先确定的百分比的句子标识符312,例如但不限于:80%。如果第一n-Gram串的索引数据结构351与第二n-Gram串的索引数据结构352之间共享预先确定的百分比的句子标识符312,则在框360’中将第二n-Gram串的索引数据结构352合并进第一n-Gram串的索引数据结构351以创建与第一n-Gram串相关联的合并索引数据结构361。例如,将构成第二n-Gram串的索引数据结构352的句子标识符312合并进第一n-Gram串的索引数据结构351的句子标识符312以创建与第一n-Gram串相关联的索引数据结构361。
在框370’中,与第一n-Gram串相关联的合并索引数据结构361随后被指派群组标识符371。如果第三n-Gram串的索引数据结构353与第一n-Gram串的索引数据结构351共享预先确定的百分比的句子标识符312,则处理单元230可进一步将第三n-Gram串的索引数据结构353合并进与第一n-Gram串相关联的合并索引数据结构。一旦处理单元230已经将第一n-Gram串的索引数据结构351与其他n-Gram串的索引数据结构(例如,352、353、354)中的每一个相比较并且将其他n-Gram串中的每一个的索引数据结构(例如,352、353、354)中的每一个合并进与第一n-Gram串(该第一n-Gram串共享预先确定的百分比的句子标识符312)相关联的合并索引数据结构361,则处理单元230对第二n-Gram串的索引数据结构352重复相同的步骤。在实施例中,与n-Gram串相关联的每一个合并索引数据结构361被存储在存储器组件240或数据存储组件236中。此外,如上文在框370’中所描述的,每一个合并索引数据结构361被指派群组标识符371。
在框380’中,处理单元230生成数据集381,该数据集381包括n-Gram串331的句子标识符312、与该n-Gram串331相关联的合并索引数据结构361的群组标识符371、以及与合并索引数据结构361相关联的n-Gram串331。数据集381被输出并且被存储在存储器组件240或数据存储组件236中。数据集381可用作各种用户功能的元数据,包括但不限于:改进搜索。
现在参考图5,描绘了用于逐字文本挖掘方法以及系统的预处理400的框图。在一些实施例中,预处理400可被用于从多个数据库411生成文本语料库432。在一些实施例中,预处理400包括从多个数据库411中选择数据库412;使用表示在文本语料库中讨论的话题或术语(例如,“违反合同”)的目标名称421搜索数据库412;响应于数据库412的搜索,接收多个文档431;并且从多个文档431中生成文本语料库432。目标名称421可通常限定在其中寻找逐字文本的话题、术语或主题。当已知至少一个话题期望更多信息时,目标名称421可被用于缩小文本语料库。文本语料库432可包括单个文件或多个文件。
在框410中,处理单元230访问多个数据库411。在一些实施例中,专用数据412可被选择以用于与例如但不限于案例意见、案例数据批注、从案例文档中提取的引用理由等的数据库交互。在其他实施例中,可基于输入参数(诸如但不限于:管辖、日期范围、内容类型、实践区域或源等)构造新的数据库412。一旦在框410中选择或限定了数据库412,则在框420中,处理单元230使用目标名称421执行数据库412的搜索。在一些实施例中,用户可向逐字文本挖掘系统提供目标名称421。在其他实施例中,可从例如词典工艺概念名称列表、规范化术语、常见搜索术语、法律短语等中得出目标名称421。在逐字文本挖掘方法的应用之前,目标名称421可将数据库412缩小至特定的话题区域。框430接收来自框420的基于目标名称421的搜索的结果。结果可包括与目标名称421相关或包含目标名称421的多个文档431。在框430中,处理单元230可将多个文档431汇编为单个文件或多个文件以形成文本语料库432,以用于如上文所描述的后续分析为单独句子311。在一些实施例中,可将额外的过滤算法应用至文本语料库432,由此使得文本语料库432被缩小以关注期望的法律话题的具体方面。
现在参考图6,描绘了包括应用聚类算法的后处理的示例输出。在一些实施例中,处理单元230可将聚类算法应用至合并索引数据结构361或数据集381以进一步将合并索引数据结构361或数据集381组合为更为紧凑的群组。可通过选择合并索引数据结构361或数据集381的全部成员(member)句子以开始聚类算法。聚类算法可随后确定多对单独句子311之间的相似度并且创建类似单独句子311的群集。聚类算法可生成群集,该群集包括群集标识符510、成员512(例如,单独句子311)统计数据505的数量,包括但不限于:指示成员514之间的平均相似度的评级、指示与所有成员516具有最低的相似度的单独句子的评级、指示与所有成员518具有最高的相似度的单独句子的评级、最接近的群集520的身份、距离最接近的群集522的距离以及以它们的句子标识符312呈现的成员512中的每一个的列表524。因此,集群以及为每一个集群生成的统计数据505可从文本语料库432的逐字文本挖掘中移除额外的离群值。
现在应当理解本文所描述的实施例涉及用于标识在文本语料库内的逐字文本的逐字文本挖掘系统以及方法。本文的逐字文本挖掘系统以及方法包括生成文本语料库;将文本语料库分析为多个句子;为多个句子中的每一个单独句子指派句子标识符;生成包括多个n-Gram的每一个单独句子的多个n-Gram串;将反向索引应用至n-Gram串,其中索引数据结构与每一个n-Gram串相关联;将共享预先确定的百分比的单独句子的索引数据结构组合为合并数据结构;将群组标识符指派至每一个合并数据结构;并且创建包括句子标识符、群组标识符以及n-Gram串的数据集。
通常,通过将给定句子内的单词截断为n-Gram并且将该n-Gram组合以形成具有不同长度以及内容的多个n-Gram串来实现挖掘文本语料库以获取逐字文本。n-Gram串的长度以及每一个n-Gram中的字母的数量以及多个指南是逐字文本挖掘系统以及方法的参数中的一些,该逐字文本挖掘系统以及方法使得逐字文本的标识以及提取具有一定程度的灵活性或模糊性。一定程度的灵活性或模糊性允许逐字文本挖掘系统以及方法标识并且提取逐字逐句匹配文本以及除了标点符号使用中的一些差异、措辞中的较小变化或语言中的变化之外在语义上非常接近的几乎逐字匹配的逐字文本。
通过从文本语料库的单独句子中的单词的n-Gram中生成n-Gram串,逐字文本挖掘的系统和方法能够将句子分解为多个分段(例如,n-Gram串)。将文本语料库中的每一个句子分解为多个n-Gram串并且将指南以及启发式规则应用至n-Gram串的形成消除了标点符号、较小的单词选择中的变化以及其他语言变化。所生成的n-Gram串通常是对法律原则、规则、法律、指南或判例法先例的可能的其他形式化叙述的更为具体的内容版本。一旦整个文本语料库被转换为每一个单独句子的多个n-Gram串,则将n-Gram串与其他n-Gram串相比较以生成在其中找到每一个n-Gram串的句子的列表。例如,当表示第一句子的一部分的第一n-Gram串与表示第二句子的一部分的第二n-Gram串匹配时,第一句子的句子标识符被添加进第二n-Gram串的索引数字结构,并且第二句子的句子标识符被添加进第一n-Gram串的索引数据结构。表示文本语料库内不同的句子的两个n-Gram串之间的匹配即为文本语料库内逐字文本的标识。可实现进一步的排序、合并、分组以及聚类步骤以完善文本语料库内可能的上千个匹配。
此外,文本语料库内每一个单独句子的多个n-Gram串的生成创建了搜索串以及要被搜索的串。每一个n-Gram串是基于文本语料库的内容自动地生成的搜索串。因此,用户不需要熟悉文本语料库的内容以便于执行文本语料库的分析以标识重复出现的并且可能重要的主题。同样地,可分析文本语料库并且通过逐字文本挖掘系统以及方法对其进行概括,因为逐字文本挖掘系统以及方法不仅标识逐字文本,也提取最经常重复的逐字文本。所生成的数据可被用于生成文本语料库的概要;充当各种用户功能的元数据,包括但不限于改进搜索;或被输入至进一步完善或聚类系统。
所注意到的是,文本语料库可包括被转换为多个n-Gram串的几百、几千或几百万个句子。出于描述逐字文本挖掘的方法以及系统的目的,描绘了具有相对减少的指南集的相对较小的文本语料库。
此处使用的术语仅为了描述特定方面,而非旨在构成限定。如本文所使用的,单数形式的“一(a/an)”以及“该”旨在包括复数形式,包括“至少一个”,除非内容另有明确指示。“或”意味着“和/或”。如本文所用,术语“和/或”包括一个或多个相关联的列出项目的任何和所有组合。将进一步理解的是,术语“包括”和/或“包括有”或“包含”和/或“包含有”当在本申请文件中使用时指明所陈述的特征、区域、整数、步骤、操作、要素和/或组件的存在,但并不排除一个或多个额外特征、区域、整数、步骤、操作、要素、组件和/或其群组的存在或添加。术语“或其组合”意味着包括前述要素中至少一个的组合。
要注意的是,可以利用术语“基本”和“大约”来表示可归因于任何定量比较、数值、度量,或其它表示的固有不确定度。这些术语还在本文用来表明数量表示可以与所陈述的引用不同的程度,而不会导致所讨论的主题的基本功能的改变。
尽管本文示出和描述了特定实施例,但应理解可作出其他变化和改型而不偏离所要求保护主题的精神和范围。另外,虽然本文描述了所要求保护主题的各种方面,但不需要以组合的方式来使用这些方面。因此,所附权利要求旨在涵盖权利要求主题范围内的所有此类变更和修改。

Claims (10)

1.一种逐字文本挖掘方法,包括:
将文本语料库的文档分析为多个单独句子;
将句子标识符指派至所述多个单独句子中的一个或多个单独句子;
为所述多个单独句子中的单独句子生成多个n-Gram串,包括来自所述单独句子内单词的多个n-Gram,其中:
所述多个n-Gram中的单个n-Gram包括不多于所述多个单词中的单词的预先确定数量的字符;并且
至少基于多个指南生成所述多个n-Gram串中的n-Gram串,其中所述多个指南包括所述n-Gram串中n-Gram的最大数量、以及所述n-Gram串中n-Gram的最小数量;
将反向索引应用至所述n-Gram串,其中索引数据结构与所述n-Gram串相关联,并且所述索引数据结构包括包含所述n-Gram串的所述单独句子的一个或多个句子标识符;
当一个n-Gram串的索引数据结构与另一n-Gram串的索引数据结构共享预先确定的百分比的句子标识符时,将一个n-Gram串的索引数据结构与另一n-Gram串的索引数据结构组合以形成合并索引数据结构;
将群组标识符指派至一个或多个合并索引数据结构中的所述合并索引数据结构;以及
创建数据集,所述数据集包括所述n-Gram串的所述句子标识符、所述合并索引数据结构的所述群组标识符以及所述一个或多个合并索引数据结构的所述n-Gram串。
2.根据权利要求1所述的逐字文本挖掘方法,其特征在于:
所述单独句子的所述多个n-Gram串包括n-Gram串的第一子集以及n-Gram串的第二子集;
通过如下步骤生成n-Gram串的所述第一子集:
从所述单独句子的第一单词开始,记录最小数量的单词的所述预先确定数量的字符,以限定n-Gram串的所述第一子集的第一n-Gram串;
针对n-Gram串的所述第一子集的后续n-Gram串,记录所述单独句子的单词的预先确定数量的字符,由此使得:
每一个后续n-Gram串比上一个n-Gram串多包括至少一个n-Gram;并且
n-Gram串的所述第一子集的最后n-Gram串与最大数量的单词的所述预先确定数量的字符对应;通过如下步骤生成n-Gram串的所述第二子集:
从所述单独句子的第二单词开始,记录所述最小数量的单词的所述预先确定数量的字符,以限定n-Gram串的所述第二子集的第一n-Gram串;
针对n-Gram串的所述第二子集的后续n-Gram串,记录所述单独句子的单词的预先确定数量的字符,由此使得:
每一个后续n-Gram串比上一个n-Gram串多包括至少一个n-Gram;并且
n-Gram串的所述第二子集的最后n-Gram串与所述最大数量的单词的所述预先确定数量的字符对应。
3.根据权利要求2所述的逐字文本挖掘方法,其特征在于:
所述多个n-Gram串进一步包括n-Gram串的一个或多个额外子集;并且
n-Gram串的每一个额外子集的第一n-Gram串的第一n-Gram与来自对应于n-Gram串的上一子集的第一n-Gram的单词的下一后续单词对应。
4.根据前述任一项权利要求所述的逐字文本挖掘方法,其特征在于,跳过了在结束单词列表中出现的所述单独句子的单词。
5.根据前述任一项权利要求所述的逐字文本挖掘方法,其特征在于,以与结束单词列表对应的n-Gram结束的n-Gram串不被包括在所述单独句子的所述多个n-Gram串中。
6.根据前述任一项权利要求所述的逐字文本挖掘方法,进一步包括:
选择文本文档的数据库;
使用目标名称搜索所述文本文档的数据库;以及
从使用所述目标名称的搜索中生成所述文本语料库。
7.根据权利要求6所述的逐字文本挖掘方法,其特征在于,所述文本文档的数据库包括法律意见的语料库。
8.根据前述任一项权利要求所述的逐字文本挖掘方法,进一步包括:
将聚类算法应用至所述合并索引数据结构的所述多个单独句子,其中所述聚类算法进一步包括将所述多个单独句子组合为群集并且选择所述群集的代表性单独句子。
9.根据前述任一项权利要求所述的逐字文本挖掘方法,进一步包括按照所述索引数据结构内的句子标识符的量排序所述n-Gram的所述索引数据结构。
10.一种逐字文本挖掘系统,包括:
计算设备,所述计算设备包括通信地耦合至非瞬态计算机可读存储器的处理单元;
计算机可读并且可执行指令集,所述计算机可读并且可执行指令集存储在所述非瞬态计算机可读存储器中,当被执行时,所述计算机可读并且可执行指令集使得处理设备执行权利要求1-9中任一项所述的方法。
CN201880031762.4A 2017-03-13 2018-01-12 用于逐字文本挖掘的系统以及方法 Active CN110678860B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/457,323 US10417269B2 (en) 2017-03-13 2017-03-13 Systems and methods for verbatim-text mining
US15/457,323 2017-03-13
PCT/US2018/013463 WO2018169597A1 (en) 2017-03-13 2018-01-12 Systems and methods for verbatim -text mining

Publications (2)

Publication Number Publication Date
CN110678860A CN110678860A (zh) 2020-01-10
CN110678860B true CN110678860B (zh) 2023-06-09

Family

ID=63444754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880031762.4A Active CN110678860B (zh) 2017-03-13 2018-01-12 用于逐字文本挖掘的系统以及方法

Country Status (3)

Country Link
US (1) US10417269B2 (zh)
CN (1) CN110678860B (zh)
WO (1) WO2018169597A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10360229B2 (en) 2014-11-03 2019-07-23 SavantX, Inc. Systems and methods for enterprise data search and analysis
US10915543B2 (en) 2014-11-03 2021-02-09 SavantX, Inc. Systems and methods for enterprise data search and analysis
EP3590053A4 (en) * 2017-02-28 2020-11-25 SavantX, Inc. SYSTEM AND METHOD OF ANALYSIS AND DATA TRAVEL
US11328128B2 (en) 2017-02-28 2022-05-10 SavantX, Inc. System and method for analysis and navigation of data
US11620351B2 (en) * 2019-11-07 2023-04-04 Open Text Holdings, Inc. Content management methods for providing automated generation of content summaries
US11568151B2 (en) * 2019-11-20 2023-01-31 Academia Sinica Natural language processing method and computing apparatus thereof
US11501067B1 (en) * 2020-04-23 2022-11-15 Wells Fargo Bank, N.A. Systems and methods for screening data instances based on a target text of a target corpus
US11995209B2 (en) * 2021-07-30 2024-05-28 Netapp, Inc. Contextual text detection of sensitive data
CN113962217B (zh) * 2021-10-22 2024-04-26 深圳前海环融联易信息科技服务有限公司 一种贸易合同关键内容的跨行合并方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0583083A2 (en) * 1992-07-20 1994-02-16 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
WO2010013228A1 (en) * 2008-07-31 2010-02-04 Ginger Software, Inc. Automatic context sensitive language generation, correction and enhancement using an internet corpus
JP4796664B1 (ja) * 2011-06-10 2011-10-19 株式会社野村総合研究所 感性分析システム及びプログラム
WO2012143839A1 (en) * 2011-04-19 2012-10-26 Greyling Abraham Carel A computerized system and a method for processing and building search strings
CN106383814A (zh) * 2016-09-13 2017-02-08 电子科技大学 一种英文社交媒体短文本分词方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003207856A1 (en) 2002-02-04 2003-09-02 Cataphora, Inc A method and apparatus to visually present discussions for data mining purposes
US20060047656A1 (en) * 2004-09-01 2006-03-02 Dehlinger Peter J Code, system, and method for retrieving text material from a library of documents
US7461056B2 (en) * 2005-02-09 2008-12-02 Microsoft Corporation Text mining apparatus and associated methods
US8015162B2 (en) 2006-08-04 2011-09-06 Google Inc. Detecting duplicate and near-duplicate files
US9454597B2 (en) 2007-11-15 2016-09-27 Nec Corporation Document management and retrieval system and document management and retrieval method
EP2399385B1 (en) 2009-02-18 2019-11-06 Google LLC Automatically capturing information, such as capturing information using a document-aware device
US8271499B2 (en) 2009-06-10 2012-09-18 At&T Intellectual Property I, L.P. Incremental maintenance of inverted indexes for approximate string matching
US8489601B2 (en) * 2010-07-08 2013-07-16 GM Global Technology Operations LLC Knowledge extraction methodology for unstructured data using ontology-based text mining
WO2012027262A1 (en) 2010-08-23 2012-03-01 Google Inc. Parallel document mining
US10235680B2 (en) * 2010-11-12 2019-03-19 Maritz Holdings Inc. System and method for populating a database with user input
US20120233112A1 (en) * 2011-03-10 2012-09-13 GM Global Technology Operations LLC Developing fault model from unstructured text documents
US8886648B1 (en) 2012-01-31 2014-11-11 Google Inc. System and method for computation of document similarity
US8843493B1 (en) 2012-09-18 2014-09-23 Narus, Inc. Document fingerprint
US20160055196A1 (en) 2013-04-15 2016-02-25 Contextual Systems Pty Ltd Methods and systems for improved document comparison
US10318523B2 (en) 2014-02-06 2019-06-11 The Johns Hopkins University Apparatus and method for aligning token sequences with block permutations
US9836529B2 (en) 2014-09-22 2017-12-05 Oracle International Corporation Semantic text search
US20160162554A1 (en) * 2014-12-08 2016-06-09 GM Global Technology Operations LLC Methods for applying text mining to identify and visualize interactions with complex systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0583083A2 (en) * 1992-07-20 1994-02-16 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
WO2010013228A1 (en) * 2008-07-31 2010-02-04 Ginger Software, Inc. Automatic context sensitive language generation, correction and enhancement using an internet corpus
WO2012143839A1 (en) * 2011-04-19 2012-10-26 Greyling Abraham Carel A computerized system and a method for processing and building search strings
JP4796664B1 (ja) * 2011-06-10 2011-10-19 株式会社野村総合研究所 感性分析システム及びプログラム
CN106383814A (zh) * 2016-09-13 2017-02-08 电子科技大学 一种英文社交媒体短文本分词方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭志鑫 ; 金海 ; 陈汉华 ; .SemreX中基于语义的文档参考文献元数据信息提取.计算机研究与发展.2006,(第08期),64-70. *

Also Published As

Publication number Publication date
CN110678860A (zh) 2020-01-10
US20180260475A1 (en) 2018-09-13
US10417269B2 (en) 2019-09-17
WO2018169597A1 (en) 2018-09-20

Similar Documents

Publication Publication Date Title
CN110678860B (zh) 用于逐字文本挖掘的系统以及方法
CN110892399B (zh) 自动生成主题内容摘要的系统和方法
US10503828B2 (en) System and method for answering natural language question
US8015124B2 (en) Method for determining near duplicate data objects
US7424421B2 (en) Word collection method and system for use in word-breaking
US7447683B2 (en) Natural language based search engine and methods of use therefor
US8200642B2 (en) System and method for managing electronic documents in a litigation context
US7555475B2 (en) Natural language based search engine for handling pronouns and methods of use therefor
US8391614B2 (en) Determining near duplicate “noisy” data objects
US20060224569A1 (en) Natural language based search engine and methods of use therefor
US20020010574A1 (en) Natural language processing and query driven information retrieval
KR20190062391A (ko) 전자 기록의 문맥 리트리벌을 위한 시스템 및 방법
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
US20190317953A1 (en) System and method for computerized semantic indexing and searching
WO2014179409A1 (en) Systems and methods for parsing search queries
US20060224566A1 (en) Natural language based search engine and methods of use therefor
CN111680152A (zh) 目标文本的摘要提取方法及装置、电子设备、存储介质
US20100185438A1 (en) Method of creating a dictionary
WO2011086637A1 (ja) 要求抽出システム、要求抽出方法および要求抽出プログラム
CN117171650A (zh) 基于网络爬虫技术的文献数据处理方法、系统及介质
Kosa et al. Similar terms grouping yields faster terminological saturation
CN111581162A (zh) 一种基于本体的海量文献数据的聚类方法
Garcia et al. A framework to collect and extract publication lists of a given researcher from the web
US11755842B2 (en) Natural language processing for descriptive language analysis including n-gram analysis of narrative information
CN110235127B (zh) 一种信息处理系统、信息处理方法、及计算机程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant