CN113779227B

CN113779227B - 案情事实抽取方法及系统及装置及介质

Info

Publication number: CN113779227B
Application number: CN202111341769.6A
Authority: CN
Inventors: 翁洋; 任恩芝; 潘舸众; 谷依韩; 李鑫; 王竹; 刘沛琦; 宋凌波; 其他发明人请求不公开姓名
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-01-25
Anticipated expiration: 2041-11-12
Also published as: CN113779227A

Abstract

本发明公开了案情事实抽取方法及系统及装置及介质，涉及人工智能领域，包括：获得第一训练集，构建第一分类模型，利用第一训练集训练第一分类模型获得触发词识别模型；利用第二训练集训练第一概率预测模型和第二概率预测模型获得论元起点预测模型；获得待处理裁判文书，将待处理裁判文书输入触发词识别模型，获得触发词识别结果；将待处理裁判文书输入论元起点预测模型模型，获得论元的起始位置；基于起始位置获得相应的论元字段；基于触发词识别结果和论元字段获得待处理裁判文书的案情事实，本方法能够实现在从裁判文书中自动抽取案情事实。

Description

案情事实抽取方法及系统及装置及介质

技术领域

本发明涉及人工智能领域，具体地，涉及案情事实抽取方法系统及装置及介质。

背景技术

事件抽取是信息抽取中一项长期研究及具有挑战性的任务，目的是从非结构化文本中抽取结构化信息—“正在发生的事情”以及所涉及的人/物。目前的事件抽取方法都是基于神经网络模型抽取的密集特征和预训练语言模型的上下文表示，它们严重依赖实体识别，通常需要采用多步骤来进行事件论元抽取，这种方式在模型设计、训练时间上耗费大量工作，效率很低；同时会忽略不同论元角色间的语义相似性，对于训练集很小/没有案例的论元角色来说，这些方法会影响系统性能，导致事件抽取不准确，前期实体识别的准确性会很大程度上影响事件抽取的性能。现有的实体识别方法应用到法律领域效果一般（比如别准确率、召回率、精确度低等），并且法律领域内的文本信息存在严重的语义相似性，语义相似性越高，分类任务的难度越大，对实体识别和关系抽取的模型性能影响越大；也缺乏标准标注数据集，缺乏标注数据即缺乏训练集，因此只能考虑非监督学习/半监督学习。

发明内容

本发明的目的是实现在裁判文书中自动抽取案情事实。

为实现上述目的，本发明提供了案情事实抽取方法，所述方法包括：

获得用于触发词检测的第一输入序列，对所述第一输入序列进行实例化处理获得第二输入序列；

使用预训练语言表示模型获得所述第二输入序列中每个单词的上下文表示，基于所述第二输入序列中每个单词的上下文表示获得第三输入序列；

基于第一论元矩阵和所述第三输入序列获得第一训练集；

构建第一分类模型，利用所述第一训练集训练所述第一分类模型获得触发词识别模型；

获得用于论元范围抽取的第四输入序列，对所述第四输入序列进行实例化处理获得第五输入序列；

使用所述预训练语言表示模型获得所述第五输入序列中每个单词的上下文表示，基于所述第五输入序列中每个单词的上下文表示获得第六输入序列；

基于开始论元矩阵、结尾论元矩阵和所述第六输入序列获得第二训练集；

构建第一概率预测模型，所述第一概率预测模型用于预测单词被选为论元起点的概率，构建第二概率预测模型，所述第二概率预测模型用于预测单词被选为论元结尾的概率，利用所述第二训练集训练所述第一概率预测模型和所述第二概率预测模型获得论元起点预测模型；

获得待处理裁判文书，将所述待处理裁判文书输入所述触发词识别模型，获得触发词识别结果；将所述待处理裁判文书输入所述论元起点预测模型模型，获得论元的起始位置；基于所述起始位置获得相应的论元字段；基于所述触发词识别结果和所述论元字段获得所述待处理裁判文书的案情事实。

其中，本发明的目标在于抽取法律裁判文书案情事实部分的事件。本发明主要分为两个部分：第一部分是利用预先设定的触发词问题模板，识别裁判文书中的触发词；第二部分是利用预先设定的论元抽取模板识别案件论元。通过将两部分内容进行结合获得裁判文书的案情事实。

其中，实例化处理指的是将中文单词变成向量，计算机可以识别的实例，便于进行计算机处理，最终实现机器自动处理。

优选的，本方法中对所述第一输入序列或所述第四输入序列进行实例化处理包括：

使用预设模型将所述第一输入序列或所述第四输入序列中的单词转换为向量表示为：

；

其中，

表示特殊分类标记，

表示分离的标记。

优选的，本方法中所述预训练语言表示模型为BERT_Tr模型。BERT_Tr模型相较于原来的 RNN、LSTM 可以做到并发执行，同时提取词在句子中的关系特征，并且能在多个不同层次提取关系特征，进而更全面反映句子语义。相较于 word2vec，其又能根据句子上下文获取词义，从而避免歧义出现。

优选的，本方法中所述第一输入序列为

；所述第三输入序列为

；

，

分别对应相应的单词，

为分别对应相应向量化后的单词，N为单词的数量。

优选的，本方法中所述第一论元矩阵为

，H为转换器的隐藏大小，T为事件类型的数量加一，R为实数。

优选的，本方法中所述第一分类模型使用softmax识别触发词：

其中，

为每一类事件的概率。

优选的，本方法中最小化所述

的对数似然损失来训练所述第一分类模型。

优选的，本方法中所述第四输入序列为

；所述第六输入序列为

；

，

分别为对应相应的论元，

分别对应相应向量化后的论元，M为单词的数量。

优选的，本方法中所述开始论元矩阵为

，所述结尾论元矩阵为

，

，

，H为转换器的隐藏大小，R为实数。

优选的，本方法中所述第一概率预测模型使用softmax预测单词

被选为论元起点的概率

，所述第二概率预测模型使用softmax预测单词

被选为论元结尾的概率

；

。

优选的，本方法中最小化所述

的对数似然损失与所述

的对数似然损失之和来训练所述论元起点预测模型。

其中，为了将更多自然性和语义信息纳入问题，利用ACE事件注释准则中每个论元角色的描述来设计自然问题。

本发明还提供了案情事实抽取系统，所述系统包括：

第一实例化单元，用于获得用于触发词检测的第一输入序列，对所述第一输入序列进行实例化处理获得第二输入序列；

第一预训练语言表示模型处理单元，用于使用预训练语言表示模型获得所述第二输入序列中每个单词的上下文表示，基于所述第二输入序列中每个单词的上下文表示获得第三输入序列；

第一训练集获得单元，用于基于第一论元矩阵和所述第三输入序列获得第一训练集；

触发词识别模型获得单元，用于构建第一分类模型，利用所述第一训练集训练所述第一分类模型获得触发词识别模型；

第二实例化处理单元，用于获得用于论元范围抽取的第四输入序列，对所述第四输入序列进行实例化处理获得第五输入序列；

第二预训练语言表示模型处理单元，用于使用所述预训练语言表示模型获得所述第五输入序列中每个单词的上下文表示，基于所述第五输入序列中每个单词的上下文表示获得第六输入序列；

第二训练集获得单元，用于基于开始论元矩阵、结尾论元矩阵和所述第六输入序列获得第二训练集；

论元起点预测模型获得单元，构建第一概率预测模型，所述第一概率预测模型用于预测单词被选为论元起点的概率，构建第二概率预测模型，所述第二概率预测模型用于预测单词被选为论元结尾的概率，利用所述第二训练集训练所述第一概率预测模型和所述第二概率预测模型获得论元起点预测模型；

案情事实抽取单元，用于获得待处理裁判文书，将所述待处理裁判文书输入所述触发词识别模型，获得触发词识别结果；将所述待处理裁判文书输入所述论元起点预测模型模型，获得论元的起始位置；基于所述起始位置获得相应的论元字段；基于所述触发词识别结果和所述论元字段获得所述待处理裁判文书的案情事实。

本发明还提供了一种案情事实抽取装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述案情事实抽取方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述案情事实抽取方法的步骤。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明将案件事实的事件抽取任务表述为问答/机器阅读理解任务，在将裁判文书内容作为输入层输入模型以获取抽取信息之前，使用模板实例化输入语句，不需要实体注释，即本发明采用端到端模型进行事件论元抽取，不需要实体识别的任何预处理步骤，提高了效率。

本发明采用BERT+softmax结构获取各序列的上下文信息然后进行问答任务，能够学习不同模型中语义相似的论元角色从而进行事件论元的抽取，触发器和论元抽取的性能均优于现有方法，能够保障抽取的事件的准确性，同时本发明能够抽取司法领域未知角色的事件论元，应用到法律领域效果较佳，能够克服法律领域内的文本信息存在严重的语义相似性的缺陷。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1为案情事实抽取方法的流程示意图；

图2为案情事实抽取系统的组成示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

实施例一

请参考图1，图1为案情事实抽取方法的流程示意图，本发明实施例一提供了案情事实抽取方法，所述方法包括：

基于第一论元矩阵和所述第三输入序列获得第一训练集；

本发明为了实现在人工智能推动下的司法改革中，面向海量裁判文书资源库，让机器通过技术抽取案件事件信息；实现机器自动检测与分类司法事件，为相似案例检索、类案精准推送、审判逻辑图谱构建等一系列司法应用奠定基础。

本发明的目标在于抽取法律裁判文书案情事实部分的事件。本发明主要分为两个大步骤：第一部分：利用预先设定的触发词问题模板，识别裁判文书中的触发词；第二部分：利用预先设定的论元抽取模板识别案件论元。

其中，案情事实是法律文书主体之一，主要包括事实要素、案件情节、因果关系、争执焦点、叙述事实、材料内容等。

其中，案件论元是一个实体，时间表达式，作为参与者的值和在案件中具有特定角色的属性。

其中，触发词最清楚的表达事件发生的主要词，一般指动词或名词。

其中，本发放中的第一部分任务和第二部分任务是两个是并行任务，触发词识别是任务的一部分，论元抽取也是任务的一部分，两个之间没有交集，但设置相似。

步骤A：利用预先设定的触发词问题模板（“触发是什么”，“触发器”，“动作”，“动词”），识别裁判文书中的触发词。由法学专业的专家学者根据案由对司法实务进行具体分析总结，然后进行触发词的预先定义。具体分为4步完成：

第一部分内容具体包括：

准备用于触发词检测的输入序列

，然后将输入序列实例化为

，其中

是特殊分类标记，

是表示分离的标记，其中，

等指的是构成序列（句子）的单词。

使用BERT_Tr获得用于触发词检测的每个token的上下文表示：

，其中，Token指的是词条，即

等；

引入一个论元矩阵

，其中，R指实数，H是转换器的隐藏大小，T是事件类型的数量加一，使用softmax识别触发词：

其中，

指每一类事件的概率。

最小化

的对数似然损失，以此来训练模板获得触发词识别结果。

在第二部分内容中本方法利用预先设定的论元抽取模板识别案件论元。本部分中设计了三个模板，分别是：

模板1：使用论元角色名称作为问题。其中，论元角色为论元与它所参与的事件之间的关系。

模板2：基于基本论元的问题，是在模板1的基础上进行了扩展。首先确定论元角色的类型（人、地点或其他），然后基于基本类型信息，确定要提问的“

”单词（谁代表人、代表地方是哪里以及其他什么）。其中，基本论元为仅包含人、地点或其他简单类型的事体。

模板3：基于注释准则的问题（注释即纳入更多语义信息并使问题更自然），在模板2的基础上增加了第一部分内容中获得的触发词。为了将更多自然性和语义信息纳入问题，利用ACE事件注释准则中每个论元角色的描述来设计自然问题，即

。其中，ACE ( Automatic Content Extraction)会议是含有事件抽取任务的评测会议，这个会议定义了事件抽取的基本任务构成。ACE定义中的事件由事件触发词(Event Trigger)和描述事件结构的论元(Argument)构成。事件触发词事件触发词(trigger)是能够触动事件发生的词，是决定事件类型最重要的特征词，决定了事件类别/子类别。论元用于填充事件模版，两者完整的描述了事件本身。

其中，第二部分内容具体包括：

准备用于论元范围抽取的输入序列

，然后将输入序列实例化为

，标记含义与步骤A1中相同。其中，论元范围为预先定义哪些词可以被认为是论元，

为论元，

为向量化后的论元。

使用BERT_Arg获得用于论元抽取的每个词条的上下文表示：

；

通过上述处理将对输入的中文进行处理变成向量。

引入两个论元矩阵

，

，其中H含义与步骤A3中相同，使用softmax获取每个token被选为论元范围的start/end的概率：

其中，

为开始概率，

为结尾概率，

为开始论元矩阵，

为结尾论元矩阵。

最小化上一步骤中

的对数似然损失与

的对数似然损失之和，以预测出论元在原始文本序列中的起始位置，通过这个起始位置能够提取出相应的论元字段。

将获得论元字段与获得的触发词共同构成了事件。两个任务在一起实现案情事实事件抽取。

实施例二

请参考图2，图2为案情事实抽取系统的组成示意图，本发明实施例二提供了案情事实抽取系统，所述系统包括：

实施例三

本发明实施例三提供了一种案情事实抽取装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述案情事实抽取方法的步骤。

实施例四

本发明实施例四提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述案情事实抽取方法的步骤。

其中，所述处理器可以是中央处理器（CPU，Central Processing Unit），还可以是其他通用处理器、数字信号处理器（digital signal processor）、专用集成电路（Application Specific Integrated Circuit）、现成可编程门阵列（Fieldprogrammablegate array）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的数据，实现发明中案情事实抽取装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等。此外，存储器可以包括高速随机存取存储器、还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡，安全数字卡，闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述案情事实抽取装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序可存储于一计算机可读存介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

本发明已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。