CN107209750B - 用于自动地标识文档中的潜在重要事实的系统及方法 - Google Patents
用于自动地标识文档中的潜在重要事实的系统及方法 Download PDFInfo
- Publication number
- CN107209750B CN107209750B CN201580063042.2A CN201580063042A CN107209750B CN 107209750 B CN107209750 B CN 107209750B CN 201580063042 A CN201580063042 A CN 201580063042A CN 107209750 B CN107209750 B CN 107209750B
- Authority
- CN
- China
- Prior art keywords
- fact
- sentence
- paragraph
- sentences
- important fact
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000004891 communication Methods 0.000 claims abstract description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 74
- 238000012549 training Methods 0.000 claims description 55
- 230000009471 action Effects 0.000 claims description 27
- 238000012706 support-vector machine Methods 0.000 claims description 25
- 238000003066 decision tree Methods 0.000 claims description 24
- 229910000078 germane Inorganic materials 0.000 claims description 3
- 230000008569 process Effects 0.000 description 20
- 238000012360 testing method Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 11
- 238000013500 data storage Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000001105 regulatory effect Effects 0.000 description 9
- 230000006399 behavior Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000012552 review Methods 0.000 description 7
- 241000288113 Gallirallus australis Species 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 238000007477 logistic regression Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- HVVWZTWDBSEWIH-UHFFFAOYSA-N [2-(hydroxymethyl)-3-prop-2-enoyloxy-2-(prop-2-enoyloxymethyl)propyl] prop-2-enoate Chemical compound C=CC(=O)OCC(CO)(COC(=O)C=C)COC(=O)C=C HVVWZTWDBSEWIH-UHFFFAOYSA-N 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 230000006378 damage Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 101100478890 Caenorhabditis elegans smo-1 gene Proteins 0.000 description 2
- 241000542980 Mimidae Species 0.000 description 2
- 241000219995 Wisteria Species 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000002747 voluntary effect Effects 0.000 description 2
- 244000144725 Amygdalus communis Species 0.000 description 1
- 244000304337 Cuminum cyminum Species 0.000 description 1
- 241000219492 Quercus Species 0.000 description 1
- 241000220221 Rosales Species 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- QZXCCPZJCKEPSA-UHFFFAOYSA-N chlorfenac Chemical compound OC(=O)CC1=C(Cl)C=CC(Cl)=C1Cl QZXCCPZJCKEPSA-UHFFFAOYSA-N 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000599 controlled substance Substances 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 244000309465 heifer Species 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- NLYAJNPCOHFWQQ-UHFFFAOYSA-N kaolin Chemical compound O.O.O=[Al]O[Si](=O)O[Si](=O)O[Al]=O NLYAJNPCOHFWQQ-UHFFFAOYSA-N 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012634 optical imaging Methods 0.000 description 1
- 230000008775 paternal effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000000246 remedial effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本文公开了用于标识从电子储存库获得的电子法律文档中的潜在重要事实语句的系统及方法。系统包括处理设备以及与所述处理设备通信的存储介质。所述存储介质包括编程指令,所述编程指令致使所述处理设备:获得文档并且解析所述文档内的文本以基于与所述文档中的每一个段落相关联的标题以及所述段落的特征中的至少一项判定所述段落是事实段落、讨论段落还是结果段落。所述存储介质进一步包括编程指令,所述编程指令致使所述处理设备:提取所述事实段落中的每一个语句,指示受训语句分类器基于每一个语句的特征判定所述语句是潜在重要事实语句还是非重要事实语句,以及标识潜在重要事实语句。
Description
相关申请的交叉引用
本申请要求于2014年11月19日提交的标题为“用于自动标识文档中的潜在重要事实的系统及方法(Systems and Methods for Automatic Identification of PotentialMaterial Facts in Documents)”第62/081,786号美国临时专利申请的优先权,该申请通过引用以其整体结合在此。
背景技术
技术领域
对于各种法律事务,经常需要确定文档的重要事实,诸如例如法院意见书、答辩文档、要求文档等等。当研究法律事务时,人们可能希望找到具有类似的重要事实模式的其他案例。有时,难以隔离文档中的重要事实并且需要理解上下文。因此,需要从与特定的法律意见书相关的文档自动地确定并获得类似的重要事实。
发明背景
本公开的实施例自动地标识判例法意见书中的事实段落以及确定事实段落中的潜在重要事实语句。
发明内容
在一个实施例中,一种用于标识从电子储存库获得的电子法律文档中的潜在重要事实语句的系统包括:处理设备;以及与所述处理设备通信的非瞬态处理器可读存储介质。所述非瞬态处理器可读存储介质包括一个或多个编程指令,当被执行时,所述编程指令致使所述处理设备:从储存库获得电子法律文档并且解析所述电子法律文档内的文本以基于与所述法律文档中的一个或多个段落中的每一个段落相关联的标题以及所述段落的一个或多个特征中的至少一项判定所述段落是事实段落、讨论段落还是结果段落。针对所述一个或多个段落中作为事实段落的每一个段落,所述非瞬态处理器可读存储介质包括一个或多个编程指令,当被执行时,所述编程指令致使所述处理设备:提取所述事实段落中的一个或多个语句中的每一个语句,指示受训语句分类器基于所述一个或多个语句中的每一个语句的一个或多个特征判定所述语句是潜在重要事实语句还是非重要事实语句,以及基于所述判定从所述一个或多个语句标识一个或多个潜在重要事实语句。
在另一实施例中,一种用于标识从电子储存库获得的电子法律文档中的潜在重要事实语句的方法包括:由处理设备从储存库获得电子法律文档;由所述处理设备解析所述电子法律文档内的文本以基于与所述法律文档中的一个或多个段落中的每一个段落相关联的标题以及所述段落的一个或多个特征中的至少一项判定所述段落是事实段落、讨论段落还是结果段落。针对所述一个或多个段落中作为事实段落的每一个段落,所述方法还包括:由所述处理设备提取所述事实段落中的一个或多个语句中的每一个语句;由所述处理设备指示受训语句分类器基于所述一个或多个语句中的每一个语句的一个或多个特征判定所述语句是潜在重要事实语句还是非重要事实语句;以及由所述处理设备基于所述判定从所述一个或多个语句标识一个或多个潜在重要事实语句。
在又一实施例中,一种用于标识从电子储存库获得的电子法律文档中的潜在重要事实语句的方法包括:由处理设备从储存库获得电子法律文档;由所述处理设备解析所述电子法律文档内的文本以基于与所述法律文档中的一个或多个段落中的每一个段落相关联的标题以及所述段落的一个或多个特征中的至少一项判定所述段落是事实段落、讨论段落还是结果段落。针对所述一个或多个段落中作为事实段落的每一个段落,所述方法还包括:由所述处理设备提取所述事实段落中的一个或多个语句中的每一个语句;由所述处理设备指示自然语言解析器解析所述事实段落中的所述一个或多个语句中的每一个语句以确定名词短语的数量和动词短语的数量;由所述处理设备从所述一个或多个语句中的每一个语句提取选自以下各项的一个或多个特征:日期的数量、时间戳的数量、货币值的数量、下级法院行为的数量、当前法院行为的数量、原告行为的数量、被告行为的数量、法律短语的数量、法律概念的数量、非重要事实单词的数量以及非重要事实短语的数量;由所述处理设备基于所述名词短语的数量、所述动词短语的数量以及所述一个或多个特征对所述一个或多个语句中的每一个语句打分;以及由所述处理设备基于所述打分确定所述一个或多个语句中的每一个语句是潜在重要事实语句还是非重要事实语句。
可以参照以下详细描述结合附图更充分地理解本文描述的实施例提供的这些特征和附加特征。
附图说明
附图中阐述的实施例在性质上是说明性的和示例性的并且不旨在限制权利要求书所限定的主题。可以在结合以下附图阅读时理解说明性实施例的以下详细描述,其中相同的结构用相同的参考标号表示,并且在附图中:
图1描绘根据本文示出或描述的一个或多个实施例的用于确定事实段落并从其提取重要事实的系统的说明性计算网络的示意性描绘;
图2描绘根据本文示出或描述的一个或多个实施例的图1的服务器计算设备的示意性描绘,进一步示出可以用于确定事实段落并从其提取重要事实的硬件和软件;
图3是根据本文示出或描述的一个或多个实施例的说明性训练和识别过程的高级流程图;
图4描绘根据本文示出或描述的一个或多个实施例的用于从事实段落确定重要事实的总体过程的流程图;
图5描绘根据本文示出或描述的一个或多个实施例的标识事实段落的说明性方法的流程图;
图6描绘根据本文示出或描述的一个或多个实施例的训练事实段落分类器的说明性方法的流程图;
图7描绘根据本文示出或描述的一个或多个实施例的确定事实段落、讨论段落和结果段落分类的一个或多个特征的说明性方法的流程图;
图8描绘根据本文示出或描述的一个或多个实施例的标识事实段落中的重要事实语句和非重要事实语句的说明性方法的流程图;
图9描绘根据本文示出或描述的一个或多个实施例的生成受训模型的说明性方法的流程图;
图10描绘根据本文示出或描述的一个或多个实施例的确定重要事实和非重要事实语句分类的一个或多个特征的说明性方法的流程图;以及
图11描绘根据本文示出或描述的一个或多个实施例的确定事实语句是潜在重要事实语句还是非重要事实语句的说明性方法的流程图。
具体实施方式
以前,研究案例法的个人需要手动地搜索与手上的案子有关的和/或相关的参考案例,这非常耗费时间并且经常导致研究人员无法发现与手上的案子有关的和/或相关的每一个参考案例的情况。例如,因为参考案例讨论了许多不同的问题并且一些问题可能与手上的案子完全不相关而其他问题则相关,某些参考案例可能尚未对于研究人员而言与手上的案子相关或有关的。在其他示例中,因为研究人员由于可用于搜索的越来越大量的案例而无法简单地发现参考案例,某些参考案例可能尚未对于研究人员而言与手上的案子相关或有关的。在仍另一个示例中,因为其仅以电子形式可用,研究人员可能未发现参考案例。
计算机和联网设备的出现尤其解决了这个问题,因为计算机能够处理大量数据来准确地向研究人员准确地提供任何信息。然而,越来越大量的数据可能使得研究人员难以处理,研究人员可能不知所措并且可能无法发现某些参考案例。这样,可能重要的是尤其被配置成用于使用在计算机和联网设备出现之前不存在的这种数据并且对研究人员的研究需要背景下的数据做出智能决定的系统和方法返回与研究人员相关的信息,由此避免了与研究人员略过或无法考虑与手上的案例相关的参考案例的问题。
总体上参考附图,本文描述的实施例涉及用于自动地检测电子文档中的潜在重要事实和/或从电子文档尤其是电子法律文档(诸如意见书、起诉状、投诉等等)精选的数据的系统及方法。本公开的实施例定位事实段落并且确定事实段落中的可能包含重要事实(与非重要事实、意见书等等相反)的特定语句。
本文公开的方法及系统可以例如用于以下情况:自动化搜索和/或归类工具用于协助文档查看者查看电子文档的有关部分并且帮助文档查看者发现包含相关信息的电子文档和/或数据。例如,查看或搜索案例法的律师可能需要查看大量案例来判定这些案例是否与手上的问题有关、这些案例有多大的关联、这些案例是否提供有先例的或没有先例的信息或裁定等等。由于大量案例或从这些案例获得的数据,可能难以或者需要很长时间来详细查看每个案例来确定相关信息。这样,能够自动地为律师“查看”文档的自动化搜索和/或归类工具将能够用于确定文档何处存在相关信息以及为律师显示和/或突出显示相关信息从而使得律师可以选择跳过所有其他不相关信息。结果是,律师可以花费更多时间关注必要信息并且跳过不必要的信息从而以合理的时间高效地查看所有案例。结果是,在一些情况下,客户可能不给律师太多查看时间。
在本文描述的各个实施例中,基于数据挖掘软件的分类框架快速地从训练数据文件生成分类器模型。所述框架的用户无需对所使用的分类算法的任何知识。而是,所述框架允许用户指定各个特性,诸如分类器(或一组分类器以及基分类器)以及训练和测试数据文件的位置。除非以其他方式指明,训练和测试数据文件被假定为字符串类型,从而使得文本可以被转换为数字特征,如本文更详细描述的。在一些实施例中,用户还可以指定属性集和Java预处理器类来从训练/测试数据导出属性值。
所述框架生成用于使用命名分类器的训练数据的模型。然后针对每一个分类器用测试数据和顶部的几个类对模型进行测试,因为每一个测试实例被写入真值表中。当结果文件快结束时,展现分类器的总体准确性。用户可以查看真值表中的结果并且接受所生成的分类器模型或修改特征集以改善准确性。所述框架可以自动地跟踪用户的主要/次要实验版本。
所述框架可以用作供其他人使用的web应用。这将允许任何人使用机器学习算法挖掘他们的数据而无需编写单行程序代码。当用户对所生成的分类器模型的准确性满意时,用户可以点击按钮来将分类器用作web服务。此后,所述模型可以用于准确地确定事实段落以及包含在其中的潜在重要事实语句和/或非重要事实语句。
如本文所使用的,术语“电子文档”指代以电子形式可用的文档。在一些实施例中,电子文档可以仅以电子形式可用。也就是,所述文档可能通常不可以物理形式可用。例如,某些法律文档可以通过电子笔录员可用但是以其他方式无法以打印形式可用。这样,可以仅通过计算设备(诸如本文描述的计算设备)访问电子文档从而获得其中包含的信息。本文对“文档”的所用参考意味着包含电子文档和从电子文档获得的数据。
“引用器”是通过发现引用特定参考文献(诸如案例、法规或规定)帮助研究人员确定所述参考文献的状态的工具(例如,判定所述参考文献是否表示有效法律)。在一些实施例中,引用器可以被称为引用索引。说明性引用器可以通过对后续参考文献如何对待一个参考文献进行列表(例如,通过对所述参考文献被否决、沿用还是有区别等等进行列表)来产生所述参考文献的引用链。
“重要事实”是指与决定是否参与特定事务、问题或手头事务的理性人有密切关系的事实。也就是,重要事实是其表现或隐匿将实质性地改变从其得到的理性结果的事实并且因此对于理性人来说是重要的、显著的或必要的。相比之下,其他事实可以是真实的但是与手头问题没有密切关系,诸如不重要、非实质性或无关紧要的事实。在案例法的情况下,重要事实是对于解决纠纷而言重要的事实。这样,重要事实是案例的事实的子集并且通常被解释以便分析案例的基础问题。
本公开的实施例涉及描述纠纷的“何人、何事、何时、何处以及如何”的潜在重要事实语句。在法律背景下定义的重要事实是潜在重要事实的子集。由于潜在重要事实是相关的唯一语句,所有其他类型的语句被认为是非重要事实语句。换言之,仅需要二进制分类器来将语句分类为潜在重要事实还是非重要事实。因此,“潜在重要事实语句”和“重要事实语句”可以在本文可互换地使用。
现在参考附图,图1描绘说明性计算网络,描绘了根据本文示出和描述的实施例的用于确定可电子获得的文档中的事实段落并从其提取重要事实语句的系统的组件。如图1所示,计算机网络10可以包括广域网(WAN)(诸如互联网)、局域网(LAN)、移动通信网络、公共服务电话网络(PSTN)、个域网(PAN)、城域网(MAN)、虚拟私人网(VPN)和/或另一种网络。计算机网络10可以通常被配置成用于电子地连接一个或多个计算设备和/或其组件。说明性计算设备可以包括但不限于用户计算设备12a、服务器计算设备12b和管理员计算设备12c。
用户计算设备12a可以通常用作用户与连接到计算机网络10的其他组件之间的接口。因此,用户计算设备12a可以用于执行一个或多个面向用户的功能,诸如从用户接收一个或多个输入或向用户提供诸如潜在重要事实等信息,如本文更详细描述的。另外,图1中包括管理员计算设备12c。如果服务器计算设备12b需要监督、更新或校正,管理员计算设备12c可以被配置成用于提供所需要的监督、更新和/或校正。管理员计算设备12c还可以用于将附加数据输入到服务器计算机设备12b的数据存储部分。
服务器计算设备12b可以从一个或多个源接收诸如电子文档等电子数据、确定所述数据中的事实段落和重要事实语句以及将来自所述数据的某些部分(例如,重要事实)的信息提供给用户计算设备12a。
应当理解的是尽管用户计算设备12a和管理员计算设备12c被描绘为个人计算机并且服务器计算设备12b被描绘为服务器,这些都是非限制性示例。更确切地,在一些实施例中,任意类型的计算设备(例如,移动计算设备、个人计算机、服务器等等)可以用于这些组件中的任意组件。另外,尽管这些计算设备中的每一个计算设备在图1中被示出为单个硬件,这也仅是示例。更确切地,用户计算设备12a、服务器计算设备12b和管理员计算设备12c各自可以表示多个计算机、服务器、数据库、组件等等。
另外,应当理解的是尽管本文描绘的实施例是指计算设备网络,本公开不仅限于这种网络。例如,在一些实施例中,本文描述的各个过程可以由单个计算设备(诸如不使用网络来完成本文描述的各个过程的非联网计算设备或联网计算设备)完成。
图2描绘图1的服务器计算设备12b,进一步示出用于确定电子文档中的事实段落和潜在重要事实语句的系统。另外,服务器计算设备12b可以包括根据本文示出和描述的实施例的用于搜索语料库或确定事实和/或重要事实的被体现为硬件、软件和/或固件的非瞬态计算机可读介质。尽管在一些实施例中服务器计算设备12b可以被配置为具有所需硬件、软件和/或固件的通用计算机,在一些实施例中,服务器计算设备12b还可以被配置为专门设计成用于执行本文描述的功能的专用计算机。例如,服务器计算设备12b可以是仅用于确定事实段落和来自电子文档的那些事实段落中的潜在重要事实语句的专用设备。在另一示例中,服务器计算设备12b可以是进一步生成用于确定事实段落和其中的潜在重要事实语句的电子文档的专用设备。可以从其他计算设备获得的数据生成电子文档,诸如通过互联网获得的数据、经由光学成像和/或光学字符识别(OCR)从硬拷贝文档获得的数据等等。
同样如图2所示,服务器计算设备12b可以包括处理器30、输入/输出硬件32、网络接口硬件34、数据存储组件36(其可以存储主题文档38a、训练数据38b和其他数据38c)以及非瞬态存储器组件40。存储器组件40可以被配置为易失性和/或非易失性计算机可读介质并且因此可以包括随机存取存储器(包括SRAM、DRAM和/或其他类型的随机存取存储器)、闪存、寄存器、致密盘(CD)、数字通用盘(DVD)和/或其他类型的存储组件。另外,存储器组件40可以被配置成用于存储运算逻辑42、受训分类器43(包括受训段落分类器和/或受训语句分类器)和分类器逻辑44(各自可以被体现为例如计算机程序、固件或硬件)。本地接口46也被包括在图2中并且可以被实现为用于促成服务器计算设备12b的组件之间的通信的总线或其他接口。
处理器30可以包括被配置成用于接收并执行指令(诸如来自数据存储组件36和/或存储器组件40)的任意处理组件。输入/输出硬件32可以包括监视器、键盘、鼠标、打印机、照相机、麦克风、扬声器、触摸屏和/或用于接收、发送和/或呈现数据的其他设备。网络接口硬件34可以包括任何有线或无线网络硬件,诸如调制解调器、LAN端口、无线保真(Wi-Fi)卡、WiMax卡、移动通信硬件和/或用于与其他网络和/或设备通信的其他硬件。
应当理解的是数据存储组件36可以位于服务器计算设备12b本地和/或远处并且可以被配置成用于存储一个或多个数据、确定事实段落和/或从事实段落确定重要事实语句。如图2所示,数据存储组件36可以存储主题文档38a、训练数据38b和其他数据38c,如本文更详细描述的。
存储器组件40中包括运算逻辑42、受训分类器43和分类器逻辑44。运算逻辑42可以包括用于管理服务器计算设备12b的组件的操作系统和/或其他软件。受训分类器43可以包括用于训练服务器计算设备12b识别事实段落和事实段落中的潜在重要事实语句的一个或多个软件模块。在一些实施例中,受训分类器43可以是两个分开的分类器:标识事实段落的受训段落分类器以及标识潜在重要事实语句的受训语句分类器。在其他实施例中,受训分类器可以是标识事实段落并且还标识潜在重要事实语句的单个分类器。因此,应当理解的是术语“受训分类器”“受训段落分类器”和“受训语句分类器”可以互换地使用。分类器逻辑44可以包括用于对电子文档的各部分进行分类的一个或多个软件模块。
应当理解的是图2示出的组件仅是说明性的并且不旨在限制本公开的范围。更确切地,尽管图2中的组件被示出为驻留在服务器计算设备12b中,这是非限制性示例。在一些实施例中,这些组件中的一个或多个组件可以驻留在服务器计算设备12b外部。类似地,尽管图2涉及服务器计算设备12b,诸如用户计算设备12a和管理员计算设备12c等其他设备可以包括类似的硬件、软件和/或固件。
图3描绘说明性训练和识别过程的高级流程图。如图3所示,在识别事实段落与讨论段落之间的区别以及事实段落中的潜在重要事实语句与非潜重要事实语句之间的区别(在识别过程315中)之前首先对学习算法进行训练(在训练过程310中)。知识库320用于将训练结果存储在训练过程310中以便在识别过程315中使用。知识库320可以是例如本文描述的数据存储组件36(图2)的训练数据38b。
训练过程310和识别过程315使用各个列表和格式定义305集合。列表可以包括但不限于本文的附录A至附录M中示出的那些列表。格式定义可以包括例如案例引用格式、法规引用格式、日期格式等等。应当理解的是本文描述的各个列表和格式定义仅仅是说明性的并且其他列表(包括其各项)和格式定义不受本公开限制。
图4描绘用于确定事实段落中的潜在重要事实语句的总体过程。如图4所示,所述过程包括在步骤400中获得文档、在步骤410中识别事实段落以及在步骤420中识别潜在重要事实语句和非重要事实语句。
如步骤400所示,获得文档可以通常包括从储存库检索文档。例如,可以从数据存储组件36(图2)的主题文档38a获得这些文档,如本文更详细描述的。在其他实施例中,可以从离线数据存储库(诸如电子文档发布者的储存库等等)中获得这些文档。这些文档通常是电子文档并且可以通常包括按照段落形式排列的信息。在一些实施例中,这些文档可以是法律文档,诸如例如起诉状、声明、书面证词、专家报告、调查笔录、提议、摘要、专家报告、法律备忘录、原告在法律事务中产生的文档、被告在法律事务中产生的文档、合同、专利、交易文档、不动产文档等等。
代替获得电子文档或除此之外,可以从储存库检索数据。例如,可以获得包括已经为了处理目的从文档生成的用于确定事实段落和/或其中的潜在重要事实语句的信息的数据。在一些实施例中,所述数据可以是被由于一个或多个计算设备扫描并从电子文档检索信息生成的原始数据。
在步骤410中,对所获得的每个文档进行分析以标识文档中的事实段落。图5描绘这种标识的详细流程图。如图5所示,在步骤412中获得文档中的段落。通常通过对文档进行解析以确定其中每个段落的开始和结束来获得这些段落。例如,段落的开始可以由段落编号标识符之后的第一个单词、硬回车之后的第一个单词、软回车之后的第一个单词、标题之后的第一个单词、文档的第一个单词等等表示。类似地,段落的结束可以由硬回车、软回车、文档的最后一个单词、标题之前的最后一个单词等等表示。
在已经在步骤412中获得事实段落之后,在步骤414中应用受训段落分类器以在步骤416中提取事实段落、讨论段落和结果段落。也就是,在步骤414中,受训段落分类器用于将文档中的每一个段落归类为事实段落、讨论段落或结果段落。受训段落分类器尤其被训练为分析每一个段落并且基于所述段落的某些特征(即,所述段落之前的标题)、在所述段落中使用的某些短语等等将其归类。例如,如图6所示,在步骤502中,受训段落分类器可以将每一个段落与所述段落之前的任意标题相关联。也就是,标题之后直至但不包括下一个标题的段落存储在存储器中并且由标题的文本标引(例如,在附录A、附录B和附录C中示出的标题)。另外,每一个段落可以从零开始按顺序编号(与标题无关)并且对意见书中的段落总数进行存储。如步骤504所示,通过对标题与文档的已知且归类的标题列表进行比较来“查找”文档的各个标题,诸如例如在附录A中列出的事实标题、在附录B中列出的讨论标题和/或在附录C中列出的结果标题。如果标题与所述列表中的已知且归类的标题匹配,可以相应地对所述标题(以及相关联的段落)进行归类(例如,作为事实标题/段落、讨论标题/段落、结果标题/段落等等)。如果标题与任意列表中的标题都不匹配,出于考虑,在步骤506中移除所述标题和相关联的段落。例如,可以从文档删除不匹配的标题和相关联的段落、将其标记为忽略、隐藏等等。在步骤508中,剩余的段落和标题可以被返回为已分类标题/段落以便在事实段落标识过程期间使用。
应当理解的是,在一些情况下,文档可能不包含标题和/或可以包含与特定的标题不相关联的段落。然而,可以仍根据参照图6描述的步骤对段落进行分类。也就是,段落可以基于特定的单词和/或短语被标识为事实段落、讨论段落或结果段落。说明性单词和短语可以类似于分别在附录A、附录B和附录C中示出的那些或者可以是通常与事实段落、讨论段落和结果段落相关联的其他单词或短语。
除了特定的单词和/或短语之外,诸如单词类型、段落结构和/或段落排列等某些其他特征也可以用于判定所述段落是事实段落、讨论段落还是结果段落。例如,图7描绘确定段落的特征的方法的流程图。如图7所示,可以在步骤520中获得训练示例。可以例如从储存库(诸如数据存储组件36(图2))获得这些训练示例。这些训练示例是已经由受训段落分类器学习的事实段落、讨论段落和结果段落的说明性示例。训练示例可以包括段落的某些特征,诸如但不限于所述段落相对于其他段落的位置、案例引用、法规引用、过去时态动词、日期、信号单词、对提供文档的法庭的参考(“当前法院”)、对在到达当前法院之前对案例作出裁决的下级法院的参考(“下级法院”)、对被告的参考、对原告的参考以及法律短语。
在步骤522中,可以提取段落位置。段落位置可以通常指代所述段落在文档中的位置。例如,所述段落可以是文档中的第一段落、文档中的第四段落、文档的最后一段等等。另外,段落位置可以相对于文档中的其他段落。例如,一个段落可以位于已经被标识为讨论段落的第一段落与已经被标识为结果段落的第二段落之间。在一些实施例中,所述段落的位置可以被表达为等于文档E中的段落编号除以文档中的段落的总数T的相对位置P。例如,包含17个段落的文档的第四个段落将具有4/17的相对位置P。在一些实施例中,P可以作为所述段落的浮点编号存储在存储器中作为一个或多个学习算法的位置参数。
在步骤524中,可以从所述段落提取案例和/或法规数量。案例和法规数量是指在所述段落中引用的其他案例(例如,具有文本“Roe v.Wade,410U.S.113(1973)”的段落)或法规(例如,具有文本“35U.S.C.§101”的段落)的总数。例如,参考三个不同案例和一个法规的段落将具有总数四。除了案例和法规数量之外,还可以提取并记录案例名称/引用(例如,Roe v.Wade,410U.S.113(1973))和法规引用(35U.S.C.§101)。在一些实施例中,段落中的案例和/或法规数量可以作为引用参数、法规参数或引用/法规参数的组合存储在存储器中用于一个或多个学习算法。
在步骤526中,可以从所述段落提取过去时态动词的数量。也就是,可以将所述段落解析为确定所述段落中的每一个单词是否是过去时态动词及其出现次数。可以通过尤其被配置成用于自动地判定单词是否是过去时态动词的语言解析器模块完成特定单词是否是动词的判定。附录D示出说明性过去时态单词。在一些实施例中,过去时态动词的总数可以作为过去时态动词参数存储在存储器用于一个或多个学习算法。
在步骤528中,可以从所述段落提取当前法院和下级法院单词和/或短语的数量。也就是,可以将所述段落解析为确定所述段落中的每一个单词或短语是当前法院单词/短语还是下级法院单词/短语及其出现次数。可以通过对所述段落中的每一个单词或短语与下级法院列表和/或当前法院列表进行比较来完成这种确定。说明性当前法院单词和/或短语可以包括但不限于附录F中出现的单词和短语。说明性下级法院单词和/或短语可以包括但不限于附录G中出现的单词和短语。在一些实施例中,当前法院和下级法院单词和/或短语的数量可以作为当前法院参数、下级法院参数或组合当前法院/下级法院参数存储在存储器中用于一个或多个学习算法。
在步骤530中,可以从所述段落提取法律短语的数量。也就是,可以将所述段落解析为确定所述段落中的单词是否构成法律短语及其出现次数。可以通过对每一个短语与法律短语列表进行比较来完成这种确定。说明性法律短语可以包括但不限于附录J中出现的法律短语。在一些实施例中,所述数量可以对应于短语总数。在其他实施例中,所述数量可以对应于单词总数。在一些实施例中,法律短语的数量可以作为法律短语参数存储在存储器中用于一个或多个学习算法。
在步骤532中,可以从所述段落提取被告和原告单词的数量。也就是,可以将所述段落解析为确定每一个单词是被告单词还是原告单词及其出现次数。可以通过对每一个单词与被告单词列表和/或原告单词列表进行比较来完成这种确定。说明性被告单词可以包括但不限于附录H中出现的被告单词。说明性原告单词可以包括但不限于附录I中出现的原告单词。在一些实施例中,被告单词数量可以作为被告参数存储在存储器中,原告单词数量可以作为原告参数存储在存储器中,和/或被告和原告单词的总数可以作为组合被告/原告参数存储在存储器中用于一个或多个学习算法。
在步骤534中,可以从所述段落提取日期的数量。也就是,可以将所述段落解析为确定日期是否出现在所述段落中及其出现次数。日期可以是任意通常识别的日期格式,诸如例如1981年9月8日、9月8日、09/08/1981、9/8/81、9月8日等等。在一些实施例中,日期的数量可以作为日期参数存储在存储器中用于一个或多个学习算法。
在步骤536中,可以从所述段落提取信号单词的数量。也就是,可以将所述段落解析为确定每一个单词是否构成信号单词及其出现次数。可以通过对每一个单词与信号单词列表进行比较来完成这种确定。说明性信号单词可以包括但不限于附录E中出现的信号单词。在一些实施例中,信号单词的数量可以作为问题参数存储在存储器中用于一个或多个学习算法。
在步骤538中,可以从所述段落提取注脚的数量。也就是,可以将所述段落解析为确定每一个单词是否包含对注脚的参考(例如,在单词之后立即出现的上标指示符)及其出现次数。在一些实施例中,注脚的数量可以作为注脚参数存储在存储器中用于一个或多个学习算法。
在各个实施例中,可以从所述段落提取附加特征。例如,在一些实施例中,可以从所述段落提取现在时态动词的数量。也就是,所述段落可以被解析为使得通过对每一个单词与现在时态动词列表进行比较以及确定其出现次数来判定所述单词是否是现在时态动词。说明性现在时态动词可以包括但不限于附录K中出现的单词。在另一示例中,段落文本可以用于诸如通过将段落属性转换为表示单词出现信息的属性集来发现附加特征。说明性商用产品可以包括StringToWordVector、ChiSquaredAttributeEval和Ranker,所有这些产品可以从Weka(新西兰怀卡托大学)获得。尽管在可从Weka获得的开源机器学习软件的背景下描述了本公开的实施例,实施例不限于此。可以使用的其他非限制性机器学习软件包括但不限于RapidMiner(RapidMiner,Inc.,坎布里奇,美国马萨诸塞州)、R编程语言、IBM社会科学统计程序包(“IBM SPSS”)(国际商用机器公司,阿蒙克市,纽约)和统计分析系统(“SAS”)(SAS学院,卡里市,北卡罗来纳州)。
在一些实施例中,从以上描述的段落提取的各个参数可以用于一个或多个算法中学习并且稍后确定所述段落是事实段落、讨论段落还是结果段落。例如,这些参数可以在支持向量机、决策树学习模型和朴素贝叶斯分类器中使用。另外,可以使用一组堆叠分类器,其中逻辑回归模型作为顶层元分类器。通常应当理解的是支持向量机是具有相关联的学习算法的监督学习模型,所述模型可以分析从段落获得的数据并且识别用于对段落进行分类的模式。还通常应当理解的是决策树学习是将有关某一项的观察意见映射到所述项的目标值的结论的预测模型。还通常应当理解的是朴素贝叶斯分类器包括简单概率分类器族中的基于将贝叶斯理论应用到特征之间的无关性假设的任意一个分类器。本文参照潜在重要事实语句的训练和识别提供这些分类器的附加描述。
再次参考图5,在步骤416中根据其归类提取由受训段落分类器返回的段落。也就是,与已经被分类为事实标题的标题相关联的段落被提取为事实段落,与已经被分类为讨论标题的标题相关联的段落被提取为讨论段落,并且与已经被分类为结果段落的标题相关联的段落。另外,包含已经被分类为事实的特征的段落被提取为事实段落,包含已经被分类为讨论的特征的段落被提取为讨论段落,并且包含已经被分类为结果的特征的段落被提取为结果段落。为了进一步对潜在重要事实和非重要事实语句进行归类,仅使用事实段落。因此,讨论段落和结果段落用于确定重要事实语句和非重要事实语句。
再次参考图4,在步骤420中,从事实段落标识重要事实语句和非重要事实语句。进一步详细地参考图8描述步骤420。如图8所示,从事实段落提取语句。可以通过标识每个语句的开始和结束、确定语句在段落中的位置、确定语句中的单词数量、确定语句中的单词类型、确定语句中的单词排列、生成与语句的开始和结束、语句的位置、单词的数量、单词的类型、单词的排列有关的数据以及将数据存储到存储器中来提取语句。可以基于单词的首字母的大小写、单词之前是否有句号、单词之前是否有软回车或硬回车等等来标识语句的开始。可以基于句号的位置、软回车的位置、硬回车的位置等等来标识语句的结束。例如,可以通过在事实段落的开始处开始并且在到达第一个句号时结束并且然后确定第一个句号是否在缩略词之后(例如,“corp.”)来标识语句。如果第一个句号不是在缩略词之后,所述语句可以被确定为已经结束。如果第一个句号在缩略词之后,可以进一步解析所述语句,直至已经到达下一个句号并且已经进一步确定所述语句之前的单词是否是缩略词。一旦已经确定语句的开始点和停止点,可以对单词的数量以及每个单词的类型进行统计(例如,名词、过去时态动词、现在时态动词、未来时态动词、代词、形容词、副词、介词、连词、感叹词等等)。每一个单词的类型可以由已经被尤其设计成自动地确定每一个单词类型的自然语言解析器确定,如本文更详细描述的。
在步骤424中,可以应用受训语句分类器来判定每一个语句是潜在重要事实语句还是非重要事实语句,从而使得可以在步骤426中标识所述语句。可以对受训语句分类器进行训练以便将每一个语句识别为重要还是非重要。本文参照图9和图10更详细地描述受训语句分类器的训练。
如图9所示,可以在步骤550中获得重要事实和/或非重要事实语句的训练示例。可以例如从储存库(诸如数据存储组件36(图2))获得这些训练示例。训练示例可以是先前已经由受训语句分类器学习和/或由法律编辑人员提供的重要事实语句和/或非重要事实语句的说明性示例。例如,法律编辑人员可以将一个或多个事实段落的每一个语句加标签为重要事实语句或非重要事实语句,并且然后可以对被加标签语句的某些属性进行分析以确定语句如何是重要事实语句或非重要事实语句。说明性属性可以包括但不限于名词短语、动词短语、日期和/或时间戳、货币值、下级法院行为、当前法院行为、原告行为、被告行为以及法律短语和/或法律概念。
在步骤552中,可以从事实段落的语句提取各个特征。在一些实施例中,可以按照类似于如本文参照图7示出并描述的提取段落特征的方法提取这些特征。在一些实施例中,可以按照如图10所示提取这些特征。在步骤602中,自然语言解析器模块可以在事实段落中的每一个语句上运行。同样应当理解的是,自然语言解析器模块是实现段落中的每一个语句的语法结构的计算机程序。例如,自然语言解析器模块可以确定哪些组单词一起(作为“短语”)以及哪些单词是动词的主语或宾语。某些概率解析器可以使用从手动解析的语句获得的语言知识对新语句进行最可能的分析。自然语言解析器模块的一个非限制性示例可以是斯坦福解析器,可以在http://nlp.stanford.edu/software/tagger.shtml从斯坦福大学获得这一解析器。自然语言解析器模块可以被使用为使得识别以下描述的各个特征。
在步骤604中,从所述语句提取名词短语的数量。也就是,语言解析器模块被应用到所述语句,从而使得自然语言解析器模块自动地确定名词短语,包括表示行为人的单词和/或短语。自然语言解析器模块可以然后自动地返回存在于所述语句中的名词短语。说明性名词短语可以包括但不限于附录F中出现的当前法院单词/短语、附录G中出现的下级法院单词/短语、附录H中出现的被告单词以及附录I中出现的原告单词。在一些实施例中,名词短语的数量可以作为名词短语参数存储在存储器中用于一个或多个学习算法。
在步骤606中,从所述语句提取动词短语的数量。也就是,自然语言解析器模块被应用于所述语句,从而使得自然语言解析器模块自动地确定动词短语,包括表示正在完成的行为、已经完成的行为或将要完成的行为的单词和/或短语。自然语言解析器模块可以然后自动地返回存在于所述语句中的动词短语。说明性动词短语包括但不限于附录D中出现的过去时态动词和附录K中出现的现在时态动词。在一些实施例中,动词短语的数量可以作为动词短语参数存储在存储器中用于一个或多个学习算法。
在步骤608中,可以从所述语句提取日期和/或时间戳的数量。也就是,可以将所述段落解析为确定日期和/或时间戳是否出现在所述语句中及其出现次数。日期可以是任意通常识别的日期格式,诸如例如1981年9月8日、9月8日、09/08/1981、9/8/81、9月8日等等。时间戳可以是任意通常识别的日期格式,诸如例如3:17PM、15:17:00等等。在一些实施例中,日期和/或时间戳的数量可以作为日期和/或时间戳参数存储在存储器中用于一个或多个学习算法。
在步骤610中,可以从所述语句提取货币值的数量。也就是,可以将所述语句解析为确定货币值是否出现在所述语句中及其出现次数。货币值可以处于任何通常识别的格式,诸如例如五十美元、50美元、$50.00、$50、五十巴克、50巴克等等。在一些实施例中,货币值的数量可以作为货币参数存储在存储器中用于一个或多个学习算法。
在步骤612中,可以从所述语句提取下级法院行为的数量。也就是,可以将所述语句解析为确定所述语句中的每一个名词单词或名词短语是否是下级法院单词/短语及其出现次数。可以通过对所述语句中的每一个名词单词或名词短语与下级法院列表进行比较来完成这种确定。说明性下级法院单词和/或短语可以包括但不限于附录G中出现的单词和短语。在一些实施例中,下级法院行为的数量可以作为下级法院行为参数存储在存储器中用于一个或多个学习算法。
在步骤614中,可以从所述语句提取当前法院行为的数量。也就是,可以将所述语句解析为确定所述语句中的每一个名词单词或名词短语是否是当前法院单词/短语及其出现次数。可以通过对所述语句中的每一个名词单词或名词短语与当前法院列表进行比较来完成这种确定。说明性当前法院单词和/或短语可以包括但不限于附录F中出现的单词和短语。在一些实施例中,当前法院行为的数量可以作为当前法院行为参数存储在存储器中用于一个或多个学习算法。
在步骤616中,可以从所述语句提取原告行为的数量。也就是,可以将所述语句解析为确定所述语句中的每一个单词或短语是否是原告单词/短语以及表示原告的行为的相应的动词是哪一个动词及其出现次数。可以通过对所述语句中的每一个单词或短语与原告列表进行比较并且然后确定相应的动词来确定原告的行为来完成这种确定。说明性原告单词和/或短语可以包括但不限于附录I中出现的单词和短语。说明性动词包括但不限于附录D中出现的过去时态动词和附录K中出现的现在时态动词。在一些实施例中,原告行为的数量可以作为原告行为参数存储在存储器中用于一个或多个学习算法。
在步骤618中,可以从所述语句提取被告行为的数量。也就是,可以将所述语句解析为确定所述语句中的每一个单词或短语是否是被告单词/短语以及表示被告的行为的相应的动词是哪一个动词及其出现次数。可以通过对所述语句中的每一个单词或短语与被告列表进行比较并且然后确定相应的动词来确定被告的行为来完成这种确定。说明性被告单词和/或短语可以包括但不限于附录H中出现的单词和短语。说明性动词包括但不限于附录D中出现的过去时态动词和附录K中出现的现在时态动词。在一些实施例中,被告行为的数量可以作为被告行为参数存储在存储器中用于一个或多个学习算法。
在步骤620中,可以从所述语句提取法律短语和/或法律概念的数量。也就是,可以将所述语句解析为确定所述语句中的每一个单词或短语是否是法律短语和/或法律概念及其出现次数。可以通过对所述语句中的每一个单词或短语与法律单词/法律短语列表进行比较来完成这种确定。说明性法律单词和/或法律短语可以包括但不限于附录J中出现的法律短语。在一些实施例中,法律短语和/或法律概念的数量可以作为法律短语/概念参数存储在存储器中用于一个或多个学习算法。
在步骤622中,可以从所述语句提取非重要事实单词/短语的数量。也就是,可以将所述语句解析为确定所述语句中的每一个单词或短语是否是非重要事实单词和/或非重要事实短语及其出现次数。可以通过对所述语句中的每一个单词或名词短语与非重要事实单词和/或短语列表进行比较来完成这种确定。说明性非重要事实单词和非重要事实短语可以包括但不限于附录L中出现的非重要事实单词和短语。说明性非重要事实语句可以包括但不限于附录M中出现的非重要事实语句。
再次参考图9,从来自事实段落中的每一个语句的提取特征获得的数据可以由监督学习使用,从而使计算设备(诸如例如图2的服务器计算设备12b)可以被训练为识别潜在重要事实语句并且将其与非重要事实语句区分开。监督学习涉及使用训练数据学习模型并且使用未看到的数据测试模型从而评估模型的准确度。在一些实施例中,可以使用用于基分类器的一个或多个学习算法训练多个模型。说明性基分类器可以包括但不限于概率朴素贝叶斯分类器、向量空间分割支持向量机和/或布尔函数分类器决策树。例如,支持向量机算法可以应用在步骤554中,决策树算法可以应用在步骤556中,和/或朴素贝叶斯算法可以应用在步骤558中。另外,一组堆叠分类器算法可以应用在步骤570中对计算设备进行教导从而判定语句是潜在重要事实语句还是非重要事实语句。
在步骤554中,计算设备可以被训练为通过支持向量机算法从非重要事实语句识别潜在重要事实语句。支持向量机(SVM)是可以将数据分类为两个类(例如,潜在重要事实和非重要事实)的机器学习算法。SVM对将所述数据分割为两组的决策边界(也称为超平面)进行构造。超平面被构造为使得其与任一侧上的任意数据点之间的距离被最大化。也就是,SVM将分割超平面与所有数据点之间的边际最大化。离决策边界最近的数据点是限定超平面并且约束边际的宽度的那些数据点。这些数据点被认为“支持”超平面并且因此被称为支持向量。
SVM的一个特征是其可以通过内核函数对输入变量和输出变量之间的非线性关系进行建模。内核函数可以由以下等式表示:
其中,x和y是对应于数据集中的两个训练实例的特征向量(例如,文档中的语句)。内核函数K是x和y的函数,测量这两个向量之间的相似性,因此提供基础语句在特征集的各个项之间有多“靠近”的确定。
内核函数可以通常被称为归一化多项式内核。归一化将变换值约束为具有单位长度。这个技术可以防止具有更高可变性或更大范围的变量主导模型。
当在Weka中实现SVM时,得到在示例3中提供的输出。以下提供的示例3中的输出的每一行表示分离的支持向量。在这种情况下,存在105个不同的支持向量。
由于SVM的应用,可以生成、获得受训模型并且用于确定语句是潜在重要事实语句还是非重要事实语句。在一些实施例中,在步骤564中,受训模型可以存储在储存库中。
在步骤556中,计算设备可以被训练为通过决策树算法从非重要事实语句识别潜在重要事实语句。决策树是将给定输入分类为给定输出类标签的决策建模工具。也就是,决策树实现从上到下递归各个击破策略。决策树选择一个特征在根节点上进行分离,产生用于训练数据中的特征的可能值的分支,所述分支将训练实例分离为多个子集。通过仅使用来自到达每一个节点的实例的数据再次在所述节点处选择特征来递归地重复所述过程,直至所有实例具有相同的类标签。
节点的特征在于待分离的节点被选择为使得决策树的大小是最小的,由此最大化信息增益并且尽可能最小化数据的不确定性。用于得出最小决策树的试探法是信息增益。信息增益被定义为分离之前和分离之后的熵差。熵是数据不确定性的试探测量值。特征值被离散化并且计算所述特征的每一个可能分离点的信息增益。具有最高增益的特征被选择对树进行分支/分离。递归分离在给定节点处的所有实例属于同一类或者当没有任何剩余的特征或实例供进一步分割时停止。信息增益可以由以下等式表示:
信息增益=(父节点的熵)–(子节点的熵的加权平均值)
另外,可以通过以下等式表示节点的熵:
节点的熵=-Sigma(i=1,n)(i)的概率*log2((i)的概率)
由于决策树算法的应用,可以生成、获得受训模型并且用于确定语句是潜在重要事实语句还是非重要事实语句。在一些实施例中,在步骤566中,受训模型可以存储在储存库中。在以下示例4中提供应用决策树算法以获得受训模型的说明性示例。
在步骤558中,计算设备可以被训练为通过朴素贝叶斯算法从非重要事实语句识别潜在重要事实语句。朴素贝叶斯分类器通过假设特征之间的朴素无关性来应用贝叶斯理论。一个特征的值被假设与训练实例中的任意其他特征的值无关。每一个特征被假定对实例的类的概率作出相等的贡献,忽略特征之间存在的任何相关性。尽管无关性假设不一定是真的,这种方法在实践中工作良好。
贝叶斯理论意味着以下等式:
其中P(H)是训练集中的假设H(类)的基线(先验)概率。当在建模期间看到新的证据E(训练实例)时,更新所述概率。P(H|E)是给定训练实例时类的后验概率。
无关性假设使得P(E|H)=P(E1|H)×P(E2|H)...P(En|H)对于n个特征成立。这对于给定的E(训练实例)被称为H(类)的可能性。
P(E)是任意H的证据概率,所述概率对于所有假设是常量并且等效地改变所有后验假设的大小。在朴素贝叶斯分类器中,最可能的假设被选择为预测。
假设从相互排斥的类提取事实段落语句(重要事实或非重要事实)并且可以被建模为以上提及的多个无关特征集。为两个类(重要事实或非重要事实)中的每一个类针对测试实例计算P(H|E)×P(H),并且通过彼此相除计算log可能性之比。
因此,如果
语句被分类为潜在重要事实语句(重要事实)。
应当认识到需要为语句的特征计算这两个类的P(E|H)×P(H)的log可能性之比。
由于朴素贝叶斯算法的应用,可以生成、获得受训模型并且用于确定语句是潜在重要事实语句还是非重要事实语句。在一些实施例中,在步骤568中,受训模型可以存储在储存库中。在以下提供的示例5中提供应用朴素贝叶斯算法以获得受训模型的说明性示例。
可以通过具有多个异构机器学习算法(诸如上述那些)(全部从同一训练数据学习)并且通过元分类器(诸如一组堆叠分类器)组合这些算法的输出来改善系统的预测性能。
堆叠是其中将基学习器的预测输入到元分类器的全体。堆叠训练接受每一个全体成员的估计作为输入并且生成总体输出的元分类器。这个第二水平的目标是按照优化组合模型的分类的方式调整来自基分类器的错误。例如,如果分类器由于未正确地学习一个区域的特征空间而连续地将来自所述区域的实例误分类,可以训练元分类器学习所述错误。通过将所估计的错误添加到基分类器,可以改善这种训练不足。在一些实施例中,逻辑回顾可以用作堆叠元分类器。
因此,如步骤570所示,所述组堆叠分类器可以被应用到从所提取的特征获得的数据以及在步骤564、566和568中获得的受训模型。通常,可以通过为一组分类器教导哪些语句可能是重要事实语句以及哪些语句不是重要事实语句来构建所述组分类器。用于分类的特征的范围可以从单词类型的简单频率到法院行为的数量。通过所述组堆叠分类器,若干基分类器被指定(即,支持向量机算法、决策树算法和朴素贝叶斯算法)并且独立地在输入集(即,在步骤552中提取的特征)上运行,如上所述。还指定组合器分类器(元分类器)。组合器元分类器取所有基分类器的结果以及输入集并且为每个样本生成最终分类。所得输出可以是受训模型。在一些实施例中,在步骤580中,所述输出可以存储在储存库中。在以下提供的示例6中提供了结果的说明性示例。
再次参考图8,在步骤426中,每一个语句被标识为潜在重要事实语句或非重要事实语句。可以通过参照图10和图11在本文示出并描述的步骤对语句进行处理来作出这种决定。图11描绘的过程类似于本文先前参照图9描述的过程。也就是,如图11所示,代替重要和/或非重要事实语句的训练示例,可以在步骤750中获得参照步骤508(图6)描述的事实段落。可以例如从储存库(诸如数据存储组件36(图2))获得这些事实段落。事实段落可以通常包含为其确定语句是潜在重要事实语句还是非重要事实语句的一个或多个事实语句,受训分类器将对其进行归类。
在步骤752中,可以从事实段落的语句提取各个特征。在一些实施例中,可以按照类似于如本文参照图7示出并描述的提取段落特征的方法提取这些特征。在一些实施例中,可以按照本文如参照图10示出并描述的那样提取这些特征。
从来自事实段落中的每一个语句的提取特征获得的数据可以由受训计算设备(诸如例如图2的服务器计算设备12b)使用上述受训模型识别潜在重要事实语句并且将其与非重要事实语句区分开。在一些实施例中,可以使用一个或多个基分类器识别并区分事实语句。说明性基分类器可以包括但不限于本文先前描述的基分类器。因此,可以使用概率朴素贝叶斯分类器、向量空间分割支持向量机和/或布尔函数分类器决策树识别并区分。例如,支持向量机算法可以应用在步骤754中,决策树算法可以应用在步骤756中,和/或朴素贝叶斯算法可以应用在步骤758中。另外,一组堆叠分类器算法可以应用在步骤770中对语句是潜在重要事实语句还是非重要事实语句作出最终决定。
由于使用受训模型来判定事实语句是潜在重要事实语句还是非重要事实语句,应用支持向量机算法可以导致在步骤764中输出第一判定,应用决策树算法可以导致在步骤766中输出第二判定,和/或应用朴素贝叶斯算法可以导致在步骤768中输出第三判定。在一些实施例中,第一确定、第二确定和第三确定可以全部是相同的(即,各自可以确定事实语句是潜在重要事实语句还是非重要事实语句)。在其他实施例中,第一确定、第二确定和第三确定可以不同(例如,这些确定中的一个或多个确定可以是事实语句是潜在重要事实语句,并且这些确定中的一个或多个确定可以是事实语句是非重要事实语句)。这样,所述组堆叠分类器算法可以基于从步骤752提取的特征在步骤770中应用到第一确定、第二确定和第三确定,并且可以针对事实语句是重要事实语句还是非重要事实语句而做出最终确定。可以在步骤780中输出最终确定。例如,最终确定可以被输出到存储设备供进一步参考、可以通过用户接口显示给用户等等。
示例
示例1-标识事实段落
在标识潜在重要事实之前,首先标识事实段落。系统使用分类器框架标识法律意见书中的事实段落、讨论段落和结果段落。以下非限制性特性可以用作分类输入特征:
·意见书中的%段落位置
·案例引用数量
·法规引用数量
·过去时态动词数量
·日期出现数量
·谢泊德信号短语数量
·本法院短语数量
·地方院短语数量
·被告短语数量
·原告短语数量
·法律短语数量
通过用于这些短语的可能值列表识别这些短语特征中的每一个特征。在来自法律文档储存库的案例法意见书中的段落生成训练和测试数据。在确定事实段落、讨论段落和结果段落时,对法律文档的段落标题与已知与事实段落相关联的段落标题、已知与讨论段落相关联的段落标题以及已知与结果段落相关联的段落标题进行比较。匹配的已知事实标题下的任意段落被认为是事实段落。类似地,匹配的已知讨论标题下的任意段落被认为是讨论段落。另外,匹配的已知结果标题下的任意段落被认为是结果段落。
段落标题的手动分类帮助标识事实段落、讨论段落和结果段落用于训练和测试。接下来,由模型对不具有已识别标题的所有段落进行分类。Perl程序被创造并用于生成这些特征。从大量的法律意见书收集大量法律短语。代替使用列表,使用词性标记来解析段落文本并且对过去时态动词的数量、过去分词动词的数量、注脚引用的数量以及现在时态动词的数量进行计数。在用词性标记对文本进行标记之后对现在时态动词进行计数。最后,段落文本自身用于使用StringToWordVector、Chi-Squared属性评估和Ranker算法(或如果使用不同的数据挖掘/机器学习软件的话其他属性/算法)寻找附加特征。
所述系统并入诸如支持向量机、决策树和朴素贝叶斯算法等三个不同的机器学习算法。还在这些基分类器的顶部添加一组堆叠分类器,并且逻辑回归用作顶级元分类器。在以下表1中示出了分类器的所得准确性。
表1:事实/讨论/结果分类器准确度
以下是用于使用分类器框架的示例段落分类器模型的各个特性的值:
从来自法律文档储存库的500份案例法意见书提取训练段落(1943个事实段落、1356个讨论段落以及609个结果段落)。从相互排斥的1500个案例法意见书(4557个事实段落、3703个讨论段落、2662个结果段落和53867个未知段落)提取测试段落,这使得分类器准确度为大约90%。
示例2-潜在重要事实语句识别
一旦事实段落已经按照示例1上述那样被识别,下一步骤是标识其中的重要事实。即使被分类为事实段落,段落可以包含其他类型的事实语句(诸如程序事实、证据事实等等)以及有时甚至包含讨论或结果相关语句。这个任务可以被作为对事实段落中的语句进行子分类来执行。语句分类将帮助提取重要事实的主语、关系和宾语三方面的更大目标并且构建其本体论;提取主语动词宾语(SVO)三体仅仅适用于语句。
不像事实/讨论/结果段落分类,无法自动地为语句分类器生成训练和测试数据。群体采购可以用于例如形成更大的训练和测试数据样本。
机器学习的步骤是“调谐”特征集和分类算法两者以便实现最高准确度。使用Weka执行实验运行。应当理解的是,还可以使用其他数据挖掘/机器学习软件工具。发现使用Weka UI工具提供了尝试不同的特征和算法组合并且对结果进行比较的有利方式。尤其是,Weka具有被称为实验员的UI工具,所述工具允许建立这些组合并且在单次按钮点击期间运行所有这些组合。实验员用于对算法的第二阶段的实现方式进行比较,这将事实分类为重要事实和非重要事实。
为了标识基准特征集,在不同的运行期间对不同的特征集进行试验。从输入数据计算特征,并且有时输入文本自身被包括为特征。以下是不同运行的特征集:
运行1:这包含以下特征:
·意见中的%段落位置
·法规引用数量
·过去时态动词数量
·日期出现数量
·谢泊德信号短语数量
·被告短语数量
·原告短语数量
·法律短语数量
·姓名数量
·货币值数量
·原告行为短语数量
·被告行为短语数量
·法院行为短语数量
需要注意,这一运行中不存在重要或非重要事实短语的特征。
运行2:所述运行与运行1完全相同,添加了对语句中的非重要事实单词的数量进行计数的特征。针对此运行,通过查看大量非重要事实语句并且选择在这些语句中出现的我们曾经怀疑没那么频繁地在重要事实语句中出现的单词来生成非重要单词列表。
运行3:所述运行与运行1完全相同,添加了两个特征:一个特征是对输入语句中的重要事实语句的数量进行计数,并且另一个特征是对输入语句中的非重要事实短语的数量进行计数。在这种情况下,通过在已知是重要或非重要的输入语句列表上运行卡方算法来计算重要和非重要短语列表。
运行4:所述运行与运行3完全相同,但是现在已经用在运行2中使用的手动生成的列表替换非重要短语列表。(仍自动地计算重要短语列表。)
运行5:所述运行与运行3完全相同,但是移除了稍微不同的输入集和重要事实特征。
以下不同的学习算法被应用于在以上运行中标识的每个特征集:
·J48:决策树算法使用默认参数运行。
·NB:朴素贝叶斯算法具有默认参数。
·SMO-1:支持向量机(SVM)的实现使用默认参数运行。
·SMO-2:SMO使用归一化多项式内核而不是默认多项式内核作为内核函数。
·SMO-3:SMO使用RBF内核(径向基函数)作为内核。
·堆叠-1:对来自多个分类器的结果进行组合的总体学习算法。通过堆叠,首先指定若干基分类器,并且这些基分类器在输入集上独立地运行。还指定组合器分类器(元分类器),并且组合器分类器取所有基分类器的结果以及输入集并且为每个样本生成最终分类。对于堆叠-1,SMO、J48和朴素贝叶斯(全部具有默认参数)被用作基分类器,并且具有默认参数的SMO被用作组合器分类器。
·堆叠-2:在此,具有默认参数的带有归一化多项式内核的SMO、J48和朴素贝叶斯被用作基分类器,并且具有默认参数的SMO被用作组合器分类器。
·堆叠-3:在此,具有默认参数的带有归一化多项式内核的SMO、J48和朴素贝叶斯被用作基分类器,并且逻辑回顾被用作组合器分类器。
下表2总结了各种数据集对各种算法的分类准确度:
表2:分类器实验运行的准确度
J48 | NB | SMO-1 | SMO-2 | SMO-3 | 堆叠-1 | 堆叠-2 | 堆叠-3 | |
运行1 | 75.61 | 74.18 | 79.29 | 79.29 | 78.26 | 79.29 | 79.29 | 79.82 |
运行2 | 87.21 | 83.45 | 87.58 | 89.66 | 88.08 | 86.11 | 89.66 | 89.16 |
运行3 | 84 | 78.68 | 81.34 | 84.92 | 80.34 | 82.42 | 84.92 | 85.45 |
运行4 | 86.63 | 83.97 | 86.55 | 88.63 | 85.61 | 86.05 | 88.63 | 88.63 |
运行5 | 86.78 | 83.65 | 84.71 | 88.42 | 87.87 | 88.92 | 87.37 | 89.44 |
当对所有运行取每个算法的平均准确度时,执行最佳的两个算法是SMO-2(具有归一化多项式内核的SVM)和堆叠-3(具有归一化多项式内核的SMO、J48和朴素贝叶斯作为基分类器并且逻辑回归作为组合器分类器)。对于大部分而言,当参数被保留为默认值时最佳地执行这些分类算法。一个显著的例外是用于SVM的内核算法。使用归一化多项式内核总是给出比默认多项式内核显著更好的结果。
选择通过SVM、J48和朴素贝叶斯的堆叠实现方式,因为作为基分类器它们都全部单独地表现良好并且还因为它们的工作方式非常不同。因为它们如此不同,它们更可能在不同的样本上出现错误,并且堆叠可以改善任意单独分类器的准确度。下表3示出在进行附加运行之后的分类器的准确度:
表3:分类器附加运行的准确度
推荐具有归一化多项式内核的SMO、J48决策树、朴素贝叶斯和具有逻辑回归的堆叠总体作为基准分类器。
标识潜在重要事实语句的总体准确度是标识事实段落的分类器的准确度乘以标识来自这些事实段落的重要事实语句的分类器的准确度的乘积。作为非限制性示例,大约是0.9*0.9=0.81。因此,在从手动选择的训练和测试语句进行大约10轮学习之后,所述组分类器能够以大约81%的准确度标识测试集中的潜在重要事实语句。
示例3-应用支持向量机算法的结果
分类器类:重要事实、非重要事实
二进制SMO
[输出截断]
支持向量的数量:105
示例4-应用决策树算法的结果
训练集具有2个类A和B的3个特征(F1、F2、F3)。
F1 | F2 | F3 | C |
1 | 1 | 1 | A |
1 | 1 | 0 | A |
0 | 0 | 1 | B |
1 | 0 | 0 | B |
根节点具有4个实例(类A有2个,类B有2个)。
根节点的熵=-2/4*log2(2/4)-2/4*log2(2/4)=1
案例1:
对特征F1(F1=1,F1=0)的两路分离产生2个子节点;子节点1具有3个实例(类A两个并且类B两个)并且子节点2具有类B的1个实例。
子节点1的熵=-(1/3)log2(1/3)–(2/3)log2(2/3)=0.5284+0.39=0.9184。
子节点2的熵=-(1/1)log2(1/1)=0。
信息增益=1–((3/4)*0.9184)–((1/4)*0)=0.3112
案例2:
对特征F1(F2=1,F1=0)的两路分离产生2个子节点;子节点1具有类A的2个实例并且子节点2具有类B的2个实例。
子节点1的熵=-(2/2)log2(2/2)=0。
子节点2的熵=-(2/2)log2(2/2)=0。
信息增益=1-((2/4)*0)-((2/4)*0)=1
案例3:
对特征F3(F3=1,F3=0)的两路分离产生2个子节点;子节点1具有2个实例(类A和类B各一个)。子节点2具有2个实例(类A和类B各有1个)。
子节点1的熵=-(1/2)log2(1/2)-(1/2)log2(1/2)=1
子节点2的熵=-(1/2)log2(1/2)-(1/2)log2(1/2)=1
信息增益=1-((2/4)*1)–((2/4)*1)=1-1=0
对F2(案例2)进行分离最大程度地降低了不确定性,因为其具有最大的信息增益。
对决策树进行修剪以便减少过度拟合并且进行概括从而通过确保节点的最少数量的叶节点、置信因数与任意测试数据一起工作。从根节点到叶节点的每一条路径是对未看到的测试数据进行分类的规则。
以下是在学习期间建立的截断决策树:
示例5-应用朴素贝叶斯算法的结果
假设1000个训练语句中的500个语句已经被确定为潜在重要事实语句(重要事实)并且500个语句已经被确定为非重要事实语句(非重要事实),具有如下特征:
类 | #训练实例的 | 具有信号单词 | 具有过去时态动词 |
重要事实 | 500 | 425 | 350 |
非重要事实 | 500 | 50 | 100 |
类的先验概率P(H)是:
P(重要事实)=500/1000=0.5
P(非重要事实)=500/1000=0.5
“可能性”的概率P(E1|H)、P(E2,H)是:
P(具有信号值|重要事实)=425/500=0.85
P(具有过去时态动词|重要事实)=350/500=0.70
P(具有信号单词|非重要事实)=50/500=0.10
P(具有过去时态动词|非重要事实)=100/500=0.20
为了将新的测试语句分类为重要事实或非重要事实,语句的特征信号单词、过去时态动词的值被提取,为每一个类应用贝叶斯理论,并且选择概率最高的那个。
贝叶斯理论认为P(H|E)=(P(E|H)*P(H))/P(E)。
无需等效地计算P(E)(特征的概率,对于任意H影响后验概率P(重要事实|E)和P(非重要事实|E)的常量值)。而是,可以对分子进行比较,选择值更高的那一个。
假设测试语句具有信号单词但是不具有过去时态动词,按照如下计算其作为重要事实或非重要事实语句的概率:
P(重要事实|具有信号单词,不具有过去时态动词)
=P(具有信号单词|重要事实)*P(具有过去时态动词|重要事实)*P(重要事实)/P(E)
=(0.85*(1–0.70)*0.5)/P(E)
=0.1275/P(E)
P(非重要事实|具有信号单词,不具有过去时态动词)
=P(具有信号单词|非重要事实)*P不具有过去时态动词|非重要事实)*P(非重要事实)/P(E)
=(0.10*(1-0.20)*0.5)/P(E)
=0.0400/P(E)
因为分母是相同的,对分子进行比较,并且由于0.1275>>0.0400,测试语句可能被分类为重要事实语句。
示例6-应用一组堆叠分类器的结果
堆叠元分类器
逻辑回归具有岭参数1.0E-8
系数...
比值比...
总体实现的准确度:
现在应当理解的是,本文描述的实施例从储存库获得数据和/或电子文档并且判定数据和/或电子文档中的段落是事实段落、讨论段落还是结果段落。对事实段落进行进一步的分析以通过使用从一个或多个基分类器和/或组合器分类器生成的一个或多个受训模型对每一个语句的特征进行分析并打分来判定事实段落中的每一个语句是潜在重要事实语句还是非重要事实语句。
尽管本文已经示出并描述特定实施例,应当理解的是可以在不背离所要求保护的主题的精神和范围的情况下做出各种其他改变和修改。而且,尽管本文已经描述了所要求保护的主题的各个方面,不一定组合地使用这些方面。因此,预期的是所附权利要求书覆盖落入所要求保护的主题的所有这种改变和修改。
附录A
示例性事实标题-可以在事实段落之前的标题(非穷尽的)
附录B
示例性法律讨论标题-可以在法律讨论段落之前的标题(非穷尽的)
讨论 裁决
问题 分析
附录C
示例性法律结果标题-可以在法律结果段落之前的标题(非穷尽的)
附录D
示例性过去形态动词列表(非穷尽的)
附录E
示例性信号单词列表(非穷尽的)
附录F
示例性当前法院单词/短语列表(非穷尽的)
本法庭 我们
本法官 高级法院
附录G
示例性下级法院单词/短语列表(非穷尽的)
本法庭 上诉法官 同一法院
预审法官 上诉法院 高级法院
上诉法院
附录H
示例性被告单词列表(非穷尽的)
附录I
示例性原告单词列表(非穷尽的)
附录J
示例性法律短语(非穷尽的)
附录K
示例性现在形态动词列表(非穷尽的)
附录L
示例性非重要事实单词/短语(非穷尽的)
附件M
说明性非重大事实文句(非详尽)
本次上诉情况如下。
审判庭在审理申请后认为提前占用原则确实适用,并于2011年8月29日签发庭谕,同意做出有利于Gulf Oaks的即决判决。
经过为期3周的审理,陪审团认定Bout犯有全部四项控罪,Scheindlin法官于2012年4月5日判他数罪并罚,为第1、2、4项罪行合计服刑180个月、为第3项罪行服刑300个月。
经让步后,判决争议问题如下:(1)申诉人是否有权享有被申诉人分别就2004年和2005准许的超过218,355美元和202,059美元的慈善捐款扣除;(2)申诉人是否曾分别就其2004年和2005年的1040表——美国个人所得税申报表后附的补充损益附件E中申报的185,800美元和75,000美元这两笔非被动未偿付费用提交过证据;[脚注]以及(3)申诉人对于2004年和2005年第6662(a)款下与准确性相关的罚款是否负有责任。
在认定“Nicholson争论的事实和原告提出的事实之间并无重大差异”后,地区法院认为并无足够的因果关系估定被告对LIA索赔负有责任。
在审阅证据后,审判庭认定上诉人有罪,判处她在德克萨斯州刑法局州立监狱服刑180天,缓刑5年,并令她支付5,350美元赔款。
在原告案情主诉过后,被告主要倚赖Nicholson诉请依法就FELA索赔和LIA索赔做出判决。
但是上诉人仍然拒绝。
经复查,向法院提诉的案件系据称违反《电话消费者保护法案》(“TCPA”)发送传真的集体诉讼,[法规援引]。
将其诉讼归类为“非仲裁案件/取消抵押品赎回权理由书告知令状”,摩根大通于2011年9月30日递交其物权抵押品赎回权取消诉状。Hopkins女士在其后数月进行抗辩。在其抗辩中,Hopkins女士称之前的所有贷款变更均已被摩根大通废止、她的贷款正在被评审以做出新的修改、摩根大通的代表已通知她在贷款修改过程中停止付款。
[脚注]
D&F诉Circle S未予通知。
辩护律师于2011年11月29日递交Sposato出庭通知。
聆讯过后,援引[案例援引],法院认定Northernaire可以代表其未建造单位投票,并且批准了申请。
从本案被递交之时起至Fowler White被聘为特别辩护律师前,提出申诉的债权人称他们曾:向受托人提供他们在预申诉调查期间获得的大量信息;协助受托人获得编制债务人清单(例如:债务人旁氏骗局的数百名受害人的姓名和地址)所必需的信息;编制并递交申请,以使这些破产程序在德国获得确认;向受托人提供与资产追索有关的文件;向受托人提供与债务人的关联单位、银行记录和资产有关的信息;协助受托人调查债务人的资产。
在这些事宜方面,法院基于“眼光敏锐的观察员”的意见认为Rubin宅邸与原告享有版权的作品并不存在“实质性雷同”,而其他法院已就该点实施救济,在建筑背景下给予版权侵权评估。
在违反TRO方面,WCJ裁定被告不必为腰椎间盘摘除术支付费用。
在该备忘录过程中,USB根据原告对强制披露请求的回应坚称:1)原告的执行委员会未投票启动抵押品止赎诉讼,反而依照“标准收款政策”;2)存在专门经理是否有权采纳标准收款政策这一事实问题;3)启动抵押品止赎诉讼前须发出催函,但原告所有催函的日期均早于收款政策的采纳日期,此外,所有催函均不符合收款政策或相关法定要求。
判决A&B和Bostwick连带向房利美(Fannie Mae)支付435,178.43美元,利息自2012年5月15日计起,并判决物业抵押品被取消赎回权。
Klingeberger法官于2007年11月5日[DE 1-2,1]判令清偿,并于2007年11月8日结案。
随后,原告在庭审过后诉请重启庭审记录,以获得Ruble先生对此前向其提出的书面问题的重要宣誓证词。
Legacy通过检察长诉请[法规援引]驳回反诉,而州审计官诉请[法规援引]驳回第三方索赔。
Mark和Kay Baldwin于2012年5月21日签署其上诉状。
Hulsey先生就该项驳回提出上诉。
CJS在上诉时辩称审判庭的错误在于:(1)认定Hoopers已承担其证明在任何30年的期间内不间断地和平公开明确非法占有其地契中载明的测量边界以外之土地的责任;(2)认定CJS及其业权上的前任在被提诉前并未占用争议区域,仅享有10年的业权;(3)认定从争议物业被移走的树木的价值有别于树木所在的不动产的价值或者有别于树木作为木料的价值;(4)允许城市林业员就“树木估值”提供鉴定证据;(5)驳回CJS针对LeSage被告提出的第三方要求,从而使驳回所依据的销售文件被纳为证据。
2012年8月15日进行了初步庭审,在庭审期间向Fuller发出逮捕令。
2012年12月17日,原告Toney-Dick代表自身和所有身陷类似处境的其他人士针对本地被告(City Defendants)提请本次诉讼。
2009年12月31日,该署在本院递交临时拘押令申请和疏忽诉状。
2013年1月18日,DiRienzo提交包含五项衍生新罪行的修订诉状(下称“诉状”)。
2011年7月12日,该署呈请复查和批准为Kevin制定的修订永久性方案。
2012年11月26日,美国法律司法中心经法院准许递交庭审顾问关于反对该署申请驳回的意见陈述书。
申诉人亦于同日呈请暂缓其FAP。
尽管政府反对,法院仍允许辩护方的专家证人就药品经销商的惯常做法提供证词,前提是任何一方均不试图“诱使专家就被告是否知情这一最终问题发表意见。”
Pamela上诉,我方翻案。
PETA辩称:前述修订后的判决书载明须在支付律师费和诉讼费前偿付第7章案件中的所有非担保债权,非担保债权合计约达34,339.27美元;应基于对债权人的分配比例计算特别辩护律师的胜诉酬金;特别辩护律师争辩的问题因其之前在地区法院诉讼中对债务人的陈述而使其对受托人的陈述受到影响;特别辩护律师地区法院诉讼费的报销限于地区法院针对PETA裁定的7,296.05美元;最后,[法规援引]下计算的受托人报酬限于对非担保债权人的比例分配金额,不包括支付给特别辩护律师的金额。
原告的住宿请求获准,该机构将原告重新列为VACHS中的联邦政府工作人员救治计划(Feds Heal Program)对象(待审案件清单1第2页)。
原告于2012年12月14日诉请准予提交第二次修订诉状。
原告于2013年9月9日递交庭谕答辩状,声称她已“将传票和诉状的副本邮寄给美国教育部,附上内装前述传票和诉状的信封复印件为证。”
原告于2008年5月8日在俄亥俄州北部地区递交本案诉因。
原告于2013年6月11日取得Beverly Olsen的证词,并于2013年6月21日递交证词文本呈送通知。
原告Cora Songy、Melvin Bovie、Jannette LaGrange、Elizabeth Johnson、OscarBovie、Gene Bovie和Natalie Miller于2010年5月3日针对圣约翰浸会教区(下称“教区”)递交禁令救济和损害赔偿申请,寻求禁止该教区在原告的物业上修筑任何道路或其他构筑物。
不管哪名被告在DOT下拥有受益权,原告的产权归属诉因被驳回,准予修改。
巡回法庭维持该判决。
法院告诫父母双方:如果他们日后选择一起生活,他们须在重新同居前尽力成功应对和有效解决前述家庭暴力问题。
法院又于2013年3月21日签发庭谕,同意Sunshine的未决上诉暂缓申请,“条件是Sunshine Heifers,LLC of Chandler,AZ须在2013年3月22日周五于东部时间下午4点半之前公布10万美元的全额现金付款契约。”
法院同时表示:“未能遵守本庭谕可能会导致在不予另行通知或审理的情况下驳回被告的本次诉讼。”
法院拒绝行使科罗拉多河弃权,认为州法院的模拟不足以被视为具有可比性。
鉴于Kevin H.依法享有足够的补救措施,法院于2013年5月1日拒绝禁令救济。
法院进一步认为,鉴于原告未能在1934法案第10(b)款下对主要违规行为进行申辩,原告不能在第20(a)款下诉求次级负债索赔。
法院在审阅构成证据的文件后发现如下司法问题:2009年12月31日,法院(Maronich法官)批准该署代表Kevin提出的单方面临时禁令申请;2010年1月5日,依约维持临时拘押令,命令对被告父母采取变更后的初步具体措施;2010年10月27日,法院(Sommer法官)批准该署提出的要求Tracy K.采取必要措施纠正Kevin的出生证明的申请令;2011年1月3日,法院(Sommer法官)同意终止被告母亲Tracy K.对Kevin的兄弟Jezocalynne G.(现名Jezocalynne M.)的父母权;2011年1月3日,法院(Sommer法官)裁定Kevin受到忽视。
法院于2010年11月到2011年2月期间审理了Mandel针对Thrasher索赔提出的异议。
债务人于2013年3月26日提出第7章自愿案件[待审案件清单1]。
该署于2010年9月22日诉请复查和批准其为Kevin制定的永久性方案。
地区法院于2012年8月31日进行聆讯,并收到Langford和该州提交的证据。
地区法院驳回他的申请。
地区法院驳回该申请,准许继续审理。
地区法院认为:
审判庭于下述日期签发庭谕,拒绝Nationwide,Vallozes,Cummins,和AllisonTransmission提出的驳回申请。
2013年5月3日继续聆讯、2013年5月29日提供结案理据后做出判决。
UCC-1表杂项复选框10载明:“贷款-Westmoore Huntley#21-310万美元。”UCC-1后还附有附件A,其载明:抵押物名称;下述所有物业(合称为“抵押物”),无论是现在抑或日后获得的债务人目前或日后在其中享有任何权利、产权、业权或权益的物业,以及在本固定附着物呈报记录之前录得的该物业的所有增建物、增加物、更换物及所有收益、留置权主体和从属体、留置权款项及任何信托契据款项(就本附件“A”目的而言,“收益”一词包括下述物业或收益被出售、托收、交易或者以其他方式被处置时的应收或已收款项,无论该等处置属于自愿抑或非自愿性质,还包括但不限于保费退款在内的与任何相关审理有关的所有款项权):1。
复议申请于2011年8月9日被驳回。
所有当事人曾于2013年3月26日参加和解会议,但问题仍未解决。
原告的请求被驳回。
永久性方案建议是终止父母权和收养。
第六巡回审判区驳回该理据。
在认定Huber未能在庭审前做出善意和解努力后,审判庭同时裁定830,774.66美元的预判决权益,其中包括构成日后损害赔偿部分的预判决权益。
审判庭同意该郡的判决申请,并发函判令就他的裁定做出解释。
该两项债权系申索截止日期前向法院诉请的唯一债权。
本次上诉情况如下。
本院维持[案例援引]
本院认为该陈情书缺乏可信性,系该母亲“刻意淡化案情”的又一例证。
这包括以下方面的权力和权限:(a)花费[Royce Homes]的资金和收入促进[RoyceHomes]的生意;(b)订立任何合伙协议、分享协议,或者加入从事任何[Royce Homes]被授权从事的业务或交易的合资企业;(c)开立、开具、签署和签发期票和其他可转让或不可转让票据及债务凭证、获得借款款项、抵押、质押或信托转让[Royce Homes]的全部或任何部分的财产;……(h)代表[Royce Homes]担保任何人士、企业或公司支付任何款项或履行任何合同或义务;(i)以[Royce Homes]的名义和代表[Royce Homes]提诉和被诉、控告和辩护、就普通合伙人认为合适的任何事宜订立协议、收取款项、弃权和履行责任;……(m)订立、履行和执行对达成[Royce Homes]的目标必要、适合或附带的合同和协议、为之做出任何其他行为和举动;[以及](n)促使[Royce Homes]借入资金或接受其他出资,而无需征得有限责任合伙人的同意。
Thrasher于2012年3月22日递交申请,寻求就所有罪行做出即决判决。
我们本着最有利于以下胜诉方的原则审阅证据,并认可由此做出的所有合理推断。
当B人从A人那里窃取信用卡并用该信用卡消费时,受害人有可能是信用卡公司,这是因为信用卡公司并未与B人订立任何协议。B人假装其有权使用信用卡公司的信用额进行消费,而该信用额的授信对象其实是A人。或者,出售商品的商户有可能成为受害人,原因在于B人已从该商户那里获得有价商品,该商户因为误将B人认作A人而放弃了商品,而信用卡发卡人与A人签订的信用协议原本是以该商户为保护对象。
她坚称UAW-GM CHR的受托人委员会系由各组织相同人数的代表组成。
HGC声称Connecticut Sports Shooters、Michael Critser和Michael Burek(合称为“CSS被告”)在当天组织并运作了射击比赛,并负责射程设定和比赛安全。
上诉人声称他与主管谈话的机会被拒,他拍摄即将被拆毁的物业照片的请求亦同样被拒。
Rosales随后就受伤之日起造成的永久性终生残疾(PTD)提出书面索赔。
经认真审议记录,本院基于下述理由认为专员的裁定应被推翻并按照本意见书发回进一步审理。
在等待上诉判决期间,受托人和PETA订立了和解协议,旨在解决双方之间的所有争议问题(下称“和解协议”)。
Scott随后认罪,承认意图售卖管制毒品,而对他的其他三项控罪被驳回。
在审阅所有当事人的理据后,审判庭驳回上诉人的即决判决申请,批准被上诉人的即决判决申请。
P7Thiede立即在[法规援引]下编制了撤销经营特权意向通知,该通知载明:“如果某人拒绝[呼吸]测试。”
上诉人诉请[法规援引]无罪判决,但被审判庭驳回。
Fowlkes法官在跟随Gunn进入书记员办公室后重复该指示,然后威胁认为她藐视法庭。
委员会讨论了与1970年5月和1971年3月的RO裁定有关的事实,认为Hulsey先生并未就这些裁定提出上诉,因而使之成为终局裁定。
第11.2.1款随后明确定义不利裁定和建议的范围,该范围包括减少、暂停、撤销、限制或未能更新临床特权、拒绝连任和拒绝任命。
Gravitas随后修改其要求附上各种文件的诉求,称这些文件能够证明位于其中的卡车和设备存在有效担保权益。
因此,2006年12月15日,Hoopers提交禁令申请[第4页],以阻止CJS、Blunt先生、Cantu先生和紫藤湖分部(Wisteria Lakes Subdivision)开发该地块。
Sadler一家称Nancy曾于2009年4月试图将她的汽车搬入她家的车库。
Carlson律师知会被告,称Brown和Mantell会相互作证,并且如果当事人无法达成和解,她希望Mantell为Brown作证。
Claims (20)
1.一种用于标识从电子储存库获得的电子法律文档中的潜在重要事实语句的系统,所述系统包括:
处理设备;以及
非瞬态处理器可读存储介质,其与所述处理设备通信,所述非瞬态处理器可读存储介质包括一个或多个编程指令,所述一个或多个编程指令当被执行时致使所述处理器设备:
从储存库获得电子法律文档,
解析所述电子法律文档内的文本以基于与所述法律文档中的一个或多个段落中的每一个段落相关联的标题以及所述每一个段落的一个或多个特征中的至少一项判定所述每一个段落是事实段落、讨论段落还是结果段落,以及
针对所述一个或多个段落中作为事实段落的每一个段落:
提取所述事实段落中的一个或多个语句中的每一个语句,
指示受训语句分类器基于所述一个或多个语句中的每一个语句的一个或多个特征来判定所述每一个语句是潜在重要事实语句还是非重要事实语句,其中:
判定所述潜在重要事实语句包括判定语句潜在地包含重要事实在其中,
判定所述非重要事实语句包括判定语句不包含重要事实,以及
所述重要事实是与所述电子法律文档的特定主题有密切关系的事实;以及
基于判定从所述一个或多个语句标识一个或多个潜在重要事实语句。
2.如权利要求1所述的系统,其中,所述每一个语句的所述一个或多个特征选自由以下各项组成的组:名词短语的数量、动词短语的数量、日期的数量、时间戳的数量、货币值的数量、下级法院行为的数量、当前法院行为的数量、原告行为的数量、法律短语的数量、法律概念的数量、非重要事实单词的数量以及非重要事实短语的数量。
3.如权利要求1所述的系统,其中,所述受训语句分类器通过对所述一个或多个语句中的每一个语句运行自然语言解析器来判定所述一个或多个语句中的每一个语句是潜在重要事实语句还是非重要事实语句从而确定所述每一个语句的所述一个或多个特征。
4.如权利要求1所述的系统,其中,所述受训语句分类器通过基于支撑向量机算法从训练数据中生成的受训模型对所述一个或多个特征打分来判定所述一个或多个语句中的每一个语句是潜在重要事实语句还是非重要事实语句。
5.如权利要求1所述的系统,其中,所述受训语句分类器通过基于决策树算法从训练数据中生成的受训模型对所述一个或多个特征打分来判定所述一个或多个语句中的每一个语句是潜在重要事实语句还是非重要事实语句。
6.如权利要求1所述的系统,其中,所述受训语句分类器通过基于朴素贝叶斯算法从训练数据中生成的受训模型对所述一个或多个特征打分来判定所述一个或多个语句中的每一个语句是潜在重要事实语句还是非重要事实语句。
7.如权利要求1所述的系统,其中,所述受训语句分类器通过基于一组堆叠分类器算法从训练数据中生成的受训模型以及从一个或多个基分类器输出的数据对所述一个或多个特征打分来判定所述一个或多个语句中的每一个语句是潜在重要事实语句还是非重要事实语句。
8.如权利要求1所述的系统,其中,所述标题是事实标题、讨论标题或结果标题。
9.如权利要求1所述的系统,其中,所述段落的所述一个或多个特征选自由以下各项组成的组:所述段落的位置、案例的数量、法规的数量、过去时态动词的数量、当前法院单词的数量、下级法院单词的数量、法律短语的数量、被告单词的数量、原告单词的数量、日期的数量、信号单词的数量以及注脚的数量。
10.一种用于标识从电子储存库获得的电子法律文档中的潜在重要事实语句的方法,所述方法包括:
由处理设备从储存库获得电子法律文档;
由所述处理设备解析所述电子法律文档内的文本以基于与所述法律文档中的一个或多个段落中的每一个段落相关联的标题以及所述每一个段落的一个或多个特征中的至少一项判定所述每一个段落是事实段落、讨论段落还是结果段落;以及
针对所述一个或多个段落中作为事实段落的每一个段落:
由所述处理设备提取所述事实段落中的一个或多个语句中的每一个语句,
由所述处理设备指示受训语句分类器基于所述一个或多个语句中的每一个语句的一个或多个特征来判定所述每一个语句是潜在重要事实语句还是非重要事实语句,其中:
判定所述潜在重要事实语句包括判定语句潜在地包含重要事实在其中,
判定所述非重要事实语句包括判定语句不包含重要事实,以及
所述重要事实是与所述电子法律文档的特定主题有密切关系的事实;以及
由所述处理设备基于判定从所述一个或多个语句中标识一个或多个潜在重要事实语句。
11.如权利要求10所述的方法,其中,所述每一个语句的所述一个或多个特征选自由以下各项组成的组:名词短语的数量、动词短语的数量、日期的数量、时间戳的数量、货币值的数量、下级法院行为的数量、当前法院行为的数量、原告行为的数量、法律短语的数量、法律概念的数量、非重要事实单词的数量以及非重要事实短语的数量。
12.如权利要求10所述的方法,其中,所述受训语句分类器通过对所述一个或多个语句中的每一个语句运行自然语言解析器来判定所述一个或多个语句中的每一个语句是潜在重要事实语句还是非重要事实语句从而确定所述每一个语句的所述一个或多个特征。
13.如权利要求10所述的方法,其中,所述受训语句分类器通过基于支撑向量机算法从训练数据中生成的受训模型对所述一个或多个特征打分来判定所述一个或多个语句中的每一个语句是潜在重要事实语句还是非重要事实语句。
14.如权利要求10所述的方法,其中,所述受训语句分类器通过基于决策树算法从训练数据中生成的受训模型对所述一个或多个特征打分来判定所述一个或多个语句中的每一个语句是潜在重要事实语句还是非重要事实语句。
15.如权利要求10所述的方法,其中,所述受训语句分类器通过基于朴素贝叶斯算法从训练数据中生成的受训模型对所述一个或多个特征打分来判定所述一个或多个语句中的每一个语句是潜在重要事实语句还是非重要事实语句。
16.如权利要求10所述的方法,其中,所述受训语句分类器通过基于一组堆叠分类器算法从训练数据中生成的受训模型以及从一个或多个基分类器输出的数据对所述一个或多个特征打分来判定所述一个或多个语句中的每一个语句是潜在重要事实语句还是非重要事实语句。
17.如权利要求10所述的方法,其中,所述标题是事实标题、讨论标题或结果标题。
18.如权利要求10所述的方法,其中,所述段落的所述一个或多个特征选自由以下各项组成的组:所述段落的位置、案例的数量、法规的数量、过去时态动词的数量、当前法院单词的数量、下级法院单词的数量、法律短语的数量、被告单词的数量、原告单词的数量、日期的数量、信号单词的数量以及注脚的数量。
19.一种用于标识从电子储存库获得的电子法律文档中的潜在重要事实语句的方法,所述方法包括:
由处理设备从储存库获得电子法律文档,
由所述处理设备解析所述电子法律文档内的文本以基于与所述法律文档中的一个或多个段落中的每一个段落相关联的标题以及所述每一个段落的一个或多个特征中的至少一项判定所述每一个段落是事实段落、讨论段落还是结果段落,以及
针对所述一个或多个段落中作为事实段落的每一个段落:
由所述处理设备提取所述事实段落中的一个或多个语句中的每一个语句,
由所述处理设备指示自然语言解析器解析所述事实段落中的所述一个或多个语句中的每一个语句以确定名词短语的数量和动词短语的数量,
由所述处理设备从所述一个或多个语句中的每一个语句提取选自以下各项的一个或多个特征:日期的数量、时间戳的数量、货币值的数量、下级法院行为的数量、当前法院行为的数量、原告行为的数量、被告行为的数量、法律短语的数量、法律概念的数量、非重要事实单词的数量以及非重要事实短语的数量,
由所述处理设备基于所述名词短语的数量、所述动词短语的数量以及所述一个或多个特征对所述一个或多个语句中的每一个语句打分,以及
由所述处理设备基于所述打分确定所述一个或多个语句中的每一个语句是潜在重要事实语句还是非重要事实语句,其中:
判定所述潜在重要事实语句包括判定语句潜在地包含重要事实在其中,
判定所述非重要事实语句包括判定语句不包含重要事实,以及
所述重要事实是与所述电子法律文档的特定主题有密切关系的事实。
20.如权利要求19所述的方法,其中,所述打分包括基于一个或多个基分类器从训练数据中生成的受训模型对所述一个或多个语句中的每一个语句打分。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462081786P | 2014-11-19 | 2014-11-19 | |
US62/081,786 | 2014-11-19 | ||
PCT/US2015/061539 WO2016081707A1 (en) | 2014-11-19 | 2015-11-19 | Systems and methods for automatic identification of potential material facts in documents |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107209750A CN107209750A (zh) | 2017-09-26 |
CN107209750B true CN107209750B (zh) | 2020-08-18 |
Family
ID=55961891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580063042.2A Active CN107209750B (zh) | 2014-11-19 | 2015-11-19 | 用于自动地标识文档中的潜在重要事实的系统及方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10331782B2 (zh) |
JP (1) | JP6715838B2 (zh) |
CN (1) | CN107209750B (zh) |
AU (1) | AU2015349927A1 (zh) |
CA (1) | CA2964391C (zh) |
WO (1) | WO2016081707A1 (zh) |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10133755B2 (en) * | 2015-04-22 | 2018-11-20 | Lex Machina, Inc. | Legal analytics based on party, judge, or law firm |
US10140101B2 (en) | 2015-08-26 | 2018-11-27 | International Business Machines Corporation | Aligning natural language to linking code snippets to perform a complicated task |
AU2017283731A1 (en) * | 2016-06-16 | 2018-10-04 | Thomson Reuters Enterprise Centre Gmbh | Scenario analytics system |
JP6635966B2 (ja) * | 2017-03-28 | 2020-01-29 | 日本電信電話株式会社 | 可視化装置、可視化方法、及びプログラム |
JP6974751B2 (ja) * | 2017-03-28 | 2021-12-01 | 日本電信電話株式会社 | 可視化装置、可視化方法、及びプログラム |
CN109670162A (zh) * | 2017-10-13 | 2019-04-23 | 北大方正集团有限公司 | 标题的确定方法、装置及终端设备 |
CN108241741B (zh) * | 2017-12-29 | 2021-02-12 | 深圳传音控股股份有限公司 | 一种文本分类方法、服务器及计算机可读存储介质 |
US10885442B2 (en) * | 2018-02-02 | 2021-01-05 | Tata Consultancy Services Limited | Method and system to mine rule intents from documents |
US10303771B1 (en) | 2018-02-14 | 2019-05-28 | Capital One Services, Llc | Utilizing machine learning models to identify insights in a document |
US11030691B2 (en) | 2018-03-14 | 2021-06-08 | Chicago Mercantile Exchange Inc. | Decision tree data structure based processing system |
JP6469919B1 (ja) * | 2018-05-09 | 2019-02-13 | 株式会社Legalscape | 判決文データベースの作成方法、判決文データベースの検索方法、文作成方法、判決文データベースの作成装置、判決文データベースの検索装置、文作成装置、判決文データベースの作成プログラム、判決文データベースの検索プログラム、および文作成プログラム |
CN110532538B (zh) * | 2018-05-24 | 2022-11-29 | 中国科学院沈阳计算技术研究所有限公司 | 财产纠纷裁判文书关键实体抽取算法 |
CN108830699A (zh) * | 2018-05-28 | 2018-11-16 | 北京令才科技有限公司 | 一种智能核算技术 |
US11568503B2 (en) * | 2018-06-19 | 2023-01-31 | Thomson Reuters Enterprise Centre Gmbh | Systems and methods for determining structured proceeding outcomes |
CN110717609A (zh) * | 2018-07-12 | 2020-01-21 | 北京京东尚科信息技术有限公司 | 一种赔偿金的预测方法和装置 |
CN110929025B (zh) * | 2018-09-17 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 垃圾文本的识别方法、装置、计算设备及可读存储介质 |
US10452734B1 (en) | 2018-09-21 | 2019-10-22 | SSB Legal Technologies, LLC | Data visualization platform for use in a network environment |
CN111241269B (zh) * | 2018-11-09 | 2024-02-23 | 中移(杭州)信息技术有限公司 | 一种短信文本分类方法、装置、电子设备及存储介质 |
KR102124846B1 (ko) * | 2018-11-27 | 2020-06-19 | (주)아이와즈 | 출처 분석 기반의 뉴스 신뢰성 평가 시스템 및 그 동작 방법 |
EP3660699A1 (en) * | 2018-11-29 | 2020-06-03 | Tata Consultancy Services Limited | Method and system to extract domain concepts to create domain dictionaries and ontologies |
CN111428466B (zh) * | 2018-12-24 | 2022-04-01 | 北京国双科技有限公司 | 法律文书解析方法及装置 |
US11556938B2 (en) * | 2019-01-07 | 2023-01-17 | International Business Machines Corporation | Managing regulatory compliance for an entity |
US11783439B2 (en) * | 2019-01-16 | 2023-10-10 | LAINA Pro, Inc. | Legal document analysis platform |
CN110147532B (zh) * | 2019-01-24 | 2023-08-25 | 腾讯科技(深圳)有限公司 | 编码方法、装置、设备及存储介质 |
CN111814018A (zh) * | 2019-04-10 | 2020-10-23 | 蓝海系统株式会社 | 记录管理系统和装置、文档审批和制作装置及方法、记录介质 |
US11501233B2 (en) * | 2019-05-21 | 2022-11-15 | Hcl Technologies Limited | System and method to perform control testing to mitigate risks in an organization |
US11487942B1 (en) * | 2019-06-11 | 2022-11-01 | Amazon Technologies, Inc. | Service architecture for entity and relationship detection in unstructured text |
CN110309384B (zh) * | 2019-07-08 | 2021-07-16 | 南京楚卿电子科技有限公司 | 一种利用日期进行专利文件分类的管理方法 |
CN110472231B (zh) * | 2019-07-11 | 2023-05-12 | 创新先进技术有限公司 | 一种识别法律文书案由的方法和装置 |
US11144719B2 (en) * | 2019-11-27 | 2021-10-12 | International Business Machines Corporation | System and method for argument retrieval |
US11556579B1 (en) | 2019-12-13 | 2023-01-17 | Amazon Technologies, Inc. | Service architecture for ontology linking of unstructured text |
CN111222314B (zh) * | 2020-01-03 | 2021-12-21 | 北大方正集团有限公司 | 版式文档的比对方法、装置、设备及存储介质 |
US11392774B2 (en) | 2020-02-10 | 2022-07-19 | International Business Machines Corporation | Extracting relevant sentences from text corpus |
US11556873B2 (en) * | 2020-04-01 | 2023-01-17 | Bank Of America Corporation | Cognitive automation based compliance management system |
US20210406758A1 (en) * | 2020-06-24 | 2021-12-30 | Surveymonkey Inc. | Double-barreled question predictor and correction |
CN111784505A (zh) * | 2020-06-30 | 2020-10-16 | 鼎富智能科技有限公司 | 一种借贷纠纷判决书提取方法及装置 |
CN111798344B (zh) * | 2020-07-01 | 2023-09-22 | 北京金堤科技有限公司 | 主体名称确定方法和装置、电子设备和存储介质 |
EP3964978A1 (en) * | 2020-09-02 | 2022-03-09 | Tata Consultancy Services Limited | Method and system for retrieval of prior court cases using witness testimonies |
CN112950414B (zh) * | 2021-02-25 | 2023-04-18 | 华东师范大学 | 一种基于解耦法律要素的法律文本表示方法 |
CN113609840B (zh) * | 2021-08-25 | 2023-06-16 | 西华大学 | 一种汉语法律判决摘要生成方法及系统 |
CN113762474A (zh) * | 2021-08-26 | 2021-12-07 | 厦门大学 | 自适应主题的故事结尾生成方法、存储介质 |
US11823592B2 (en) * | 2021-08-31 | 2023-11-21 | Accenture Global Solutions Limited | Virtual agent conducting interactive testing |
CN115470871B (zh) * | 2022-11-02 | 2023-02-17 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 |
KR102615420B1 (ko) * | 2022-11-16 | 2023-12-19 | 에이치엠컴퍼니 주식회사 | 인공지능 기반의 법률 문서에 대한 자동 분석 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6772149B1 (en) * | 1999-09-23 | 2004-08-03 | Lexis-Nexis Group | System and method for identifying facts and legal discussion in court case law documents |
CN1707487A (zh) * | 2004-06-09 | 2005-12-14 | 袁玉宇 | 法律信息智能分析、处理方法和系统 |
EP2639749A1 (en) * | 2012-03-15 | 2013-09-18 | CEPT Systems GmbH | Methods, apparatus and products for semantic processing of text |
CN103443787B (zh) * | 2011-02-01 | 2016-10-12 | 埃森哲环球服务有限公司 | 用于标识文本关系的系统 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5819248A (en) | 1990-12-31 | 1998-10-06 | Kegan; Daniel L. | Persuasion organizer and calculator |
US5265065A (en) | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
US5488725A (en) | 1991-10-08 | 1996-01-30 | West Publishing Company | System of document representation retrieval by successive iterated probability sampling |
US6055531A (en) | 1993-03-24 | 2000-04-25 | Engate Incorporated | Down-line transcription system having context sensitive searching capability |
US5544352A (en) | 1993-06-14 | 1996-08-06 | Libertech, Inc. | Method and apparatus for indexing, searching and displaying data |
US5692176A (en) | 1993-11-22 | 1997-11-25 | Reed Elsevier Inc. | Associative text search and retrieval system |
US5850490A (en) | 1993-12-22 | 1998-12-15 | Xerox Corporation | Analyzing an image of a document using alternative positionings of a class of segments |
US5720003A (en) | 1994-10-27 | 1998-02-17 | Lucent Technologies Inc. | Method and apparatus for determining the accuracy limit of a learning machine for predicting path performance degradation in a communications network |
US5918240A (en) | 1995-06-28 | 1999-06-29 | Xerox Corporation | Automatic method of extracting summarization using feature probabilities |
US5778155A (en) | 1995-10-10 | 1998-07-07 | Hewlett-Packard Company | Method and apparatus for selecting among competing facts to achieve the desired calculation |
US5819260A (en) | 1996-01-22 | 1998-10-06 | Lexis-Nexis | Phrase recognition method and apparatus |
JP2000511670A (ja) | 1996-06-11 | 2000-09-05 | イェン クァン オゥン | 反復的問題解決技術 |
DE19737939A1 (de) | 1997-08-30 | 1999-03-04 | Steiner Ralf Dr | Verfahren und Datenstruktur zur rechnergestützten Verwaltung von Entwicklungen |
JP3652086B2 (ja) * | 1997-10-22 | 2005-05-25 | 株式会社日立製作所 | 速読支援装置 |
US6289342B1 (en) | 1998-01-05 | 2001-09-11 | Nec Research Institute, Inc. | Autonomous citation indexing and literature browsing using citation context |
US6192360B1 (en) | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
US7778954B2 (en) | 1998-07-21 | 2010-08-17 | West Publishing Corporation | Systems, methods, and software for presenting legal case histories |
US6167369A (en) | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
AU764415B2 (en) | 1999-08-06 | 2003-08-21 | Lexis-Nexis | System and method for classifying legal concepts using legal topic scheme |
US20040122709A1 (en) | 2002-12-18 | 2004-06-24 | Avinash Gopal B. | Medical procedure prioritization system and method utilizing integrated knowledge base |
US8095544B2 (en) | 2003-05-30 | 2012-01-10 | Dictaphone Corporation | Method, system, and apparatus for validation |
US7610313B2 (en) | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
US7567895B2 (en) | 2004-08-31 | 2009-07-28 | Microsoft Corporation | Method and system for prioritizing communications based on sentence classifications |
JP2007004756A (ja) * | 2005-06-27 | 2007-01-11 | Kikuo Akagane | 判例自動検索 |
US9177050B2 (en) * | 2005-10-04 | 2015-11-03 | Thomson Reuters Global Resources | Systems, methods, and interfaces for extending legal search results |
US7668791B2 (en) | 2006-07-31 | 2010-02-23 | Microsoft Corporation | Distinguishing facts from opinions using a multi-stage approach |
EP2182451A1 (en) | 2008-10-29 | 2010-05-05 | Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO | Electronic document classification apparatus |
JP5346841B2 (ja) * | 2010-02-22 | 2013-11-20 | 株式会社野村総合研究所 | 文書分類システムおよび文書分類プログラムならびに文書分類方法 |
US8423482B2 (en) | 2010-03-16 | 2013-04-16 | Harvey L. Gansner | Automated legal evaluation using a decision tree over a communications network |
US11386510B2 (en) * | 2010-08-05 | 2022-07-12 | Thomson Reuters Enterprise Centre Gmbh | Method and system for integrating web-based systems with local document processing applications |
CN103221915B (zh) | 2010-09-24 | 2017-02-08 | 国际商业机器公司 | 在开域类型强制中使用本体信息 |
US8990065B2 (en) | 2011-01-11 | 2015-03-24 | Microsoft Technology Licensing, Llc | Automatic story summarization from clustered messages |
US8788443B2 (en) | 2011-12-23 | 2014-07-22 | Sap Ag | Automated observational decision tree classifier |
US20130246017A1 (en) | 2012-03-14 | 2013-09-19 | Microsoft Corporation | Computing parameters of a predictive model |
US20130297540A1 (en) | 2012-05-01 | 2013-11-07 | Robert Hickok | Systems, methods and computer-readable media for generating judicial prediction information |
US9817810B2 (en) | 2012-11-07 | 2017-11-14 | International Business Machines Corporation | SVO-based taxonomy-driven text analytics |
-
2015
- 2015-11-18 US US14/944,692 patent/US10331782B2/en active Active
- 2015-11-19 CN CN201580063042.2A patent/CN107209750B/zh active Active
- 2015-11-19 JP JP2017527215A patent/JP6715838B2/ja active Active
- 2015-11-19 WO PCT/US2015/061539 patent/WO2016081707A1/en active Application Filing
- 2015-11-19 AU AU2015349927A patent/AU2015349927A1/en not_active Abandoned
- 2015-11-19 CA CA2964391A patent/CA2964391C/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6772149B1 (en) * | 1999-09-23 | 2004-08-03 | Lexis-Nexis Group | System and method for identifying facts and legal discussion in court case law documents |
CN1707487A (zh) * | 2004-06-09 | 2005-12-14 | 袁玉宇 | 法律信息智能分析、处理方法和系统 |
CN103443787B (zh) * | 2011-02-01 | 2016-10-12 | 埃森哲环球服务有限公司 | 用于标识文本关系的系统 |
EP2639749A1 (en) * | 2012-03-15 | 2013-09-18 | CEPT Systems GmbH | Methods, apparatus and products for semantic processing of text |
Also Published As
Publication number | Publication date |
---|---|
US10331782B2 (en) | 2019-06-25 |
AU2015349927A1 (en) | 2017-04-27 |
CN107209750A (zh) | 2017-09-26 |
US20160140210A1 (en) | 2016-05-19 |
JP2017535000A (ja) | 2017-11-24 |
JP6715838B2 (ja) | 2020-07-01 |
CA2964391A1 (en) | 2016-05-26 |
WO2016081707A1 (en) | 2016-05-26 |
CA2964391C (en) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107209750B (zh) | 用于自动地标识文档中的潜在重要事实的系统及方法 | |
Craja et al. | Deep learning for detecting financial statement fraud | |
Han et al. | Artificial intelligence for anti-money laundering: a review and extension | |
Hollibaugh | The use of text as data methods in public administration: A review and an application to agency priorities | |
Purda et al. | Accounting variables, deception, and a bag of words: Assessing the tools of fraud detection | |
Moses et al. | Using big data for legal and law enforcement decisions: Testing the new tools | |
US20230004590A1 (en) | Ai-augmented auditing platform including techniques for automated adjudication of commercial substance, related parties, and collectability | |
CN113994323A (zh) | 智能警报系统 | |
Spicer et al. | Multiple paths to institutional-based trust production and repair: Lessons from the Russian bank deposit market | |
CN113011185A (zh) | 法律领域文本分析识别方法、系统、存储介质及终端 | |
Meoli et al. | Machine-learning forecasting of successful ICOs | |
Davalos et al. | A textual analysis of the US Securities and Exchange Commission's accounting and auditing enforcement releases relating to the Sarbanes–Oxley Act | |
Fleming et al. | Responsible data science | |
Morgenstern | Toward automated international law compliance monitoring (tailcm) | |
Hagen | Topic modeling for e-petition analysis: Interpreting petitioners' policy priorities | |
Bianchi Santiago et al. | Record linkage of crashes with injuries and medical cost in Puerto Rico | |
Lee et al. | Designing a Classifying System for Nonprofit Organizations Using Textual Contents from the Mission Statement | |
Aizenberg et al. | Computational approaches to mapping interest group representation: A test and discussion of different methods | |
Mraović | Relevance of data mining for accounting: social implications | |
Te | Predicting the financial growth of small and medium-sized enterprises using web mining | |
Moturi | Use Of Data Mining To Detect Fraud Health Insurance Claims | |
Teodorescu | Knowledge Flows and IP Within and Across Firms–Economics and Machine Learning Approaches | |
Cecil | A Qualitative Study on Predictive Models in Accounting Fraud Detection | |
Denny | Three Essays on Legislative Text Analysis | |
Lipenko | Social Media user profiling for credit scoring: A Taxonomy of explainability techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |