CN111680504A

CN111680504A - 法律信息抽取模型及方法及系统及装置及辅助系统

Info

Publication number: CN111680504A
Application number: CN202010798144.1A
Authority: CN
Inventors: 翁洋; 李鑫; 王竹; 其他发明人请求不公开姓名
Original assignee: Sichuan University; Chengdu Shuzhilian Technology Co Ltd
Current assignee: Sichuan University; Chengdu Shuzhilian Technology Co Ltd
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2020-09-18
Anticipated expiration: 2040-08-11
Also published as: CN111680504B

Abstract

本发明公开了法律信息抽取模型及方法及系统及装置及辅助系统，涉及自然语言处理领域，包括：定义裁判文书中需要标注的实体类型；标注选取的若干裁判文书中的实体类型；基于法律分词数据集和实体识别数据集得到训练集；建立裁判文书法律信息抽取模型，利用训练集训练裁判文书法律信息抽取模型；将法律信息待抽取的裁判文书输入训练后的裁判文书法律信息抽取模型，输出裁判文书中的法律信息抽取结果；裁判文书法律信息抽取模型结构包括：词嵌入层、共享‑私有信息抽取器、任务特有CRF层和任务判别器；本发明以公开的裁判文书为起点，最终实现裁判文书中相关重要法律信息要素的抽取。

Description

法律信息抽取模型及方法及系统及装置及辅助系统

技术领域

本发明涉及自然语言处理领域，具体地，涉及一种裁判文书中的法律信息抽取模型及方法及系统及装置及介质及法律案件审理辅助系统。

背景技术

裁判文书，是人民法院结合当事人的请求事项或者争议事项进行审理后，并根据具体的案件情况向当事人下发的具有法律意义的文书。目前，裁判文书中有大量的法律信息要素，在法律信息案例库的构建中有助于之后的大量审判过程。现有的裁判文书的法律信息要素抽取方法多基于通过法律专家归纳总结相关正则，不断完善正则引擎或者通过将信息抽取任务转换为命名实体识别任务实现，但是通过序列标注的方式存在词义不完全匹配等司法常见问题，导致法律要素抽取准确度不高，同时因为对于特定实体识别类型，需要大量的人工标注，对于实体识别任务中标注数据的质量和数量依赖度很高。

发明内容

为了解决人民法院审判过程中提取法律信息准确度不高的问题，本发明目的为以公开的裁判文书为起点，最终实现在裁判文书中抽取相关重要法律信息要素。

为了实现上述发明目的，本发明提供了一种裁判文书法律信息抽取模型，所述裁判文书法律信息抽取模型包括：词嵌入层、共享-私有信息抽取器、任务特有CRF层和任务判别器；词嵌入层用于将句子中的词转换为词向量；共享-私有信息抽取器由BI-LSTM组成，共享-私有信息抽取器包括2个私有信息抽取器和一个共享信息抽取器，其中一个私有信息抽取器用于学习分词任务中的边界线，另一个私有信息抽取器用于学习实体识别任务中的边界线，共享信息抽取器用于学习分词任务和实体识别任务共有的边界线；任务特有CRF层是分别连接两个私有信息抽取器BI-LSTM的输出表示；任务特有CRF层用于输出分词任务和实体识别任务对应的标签表示；任务判别器为共享信息抽取器的下层输入，通过任务判别器和共享信息抽取器的对抗训练方式，使共享信息抽取器能够学习到分词任务和实体识别任务中共有的边界线特征。通过本发明中的裁判文书法律信息抽取模型，能够自动抽取预设好的相关信息内容，提升信息抽取的准确性。

为实现上述发明目的，本发明还提供了一种法律信息抽取方法，所述方法包括：

定义裁判文书中需要标注的实体类型；

基于定义的实体类型，标注选取的若干裁判文书中的实体类型，得到标注后的实体识别数据集；

获得公开的法律分词数据集，基于法律分词数据集和实体识别数据集得到训练集；

建立裁判文书法律信息抽取模型，利用训练集训练裁判文书法律信息抽取模型，得到训练后的裁判文书法律信息抽取模型；

将法律信息待抽取的裁判文书输入训练后的裁判文书法律信息抽取模型，输出裁判文书中的法律信息抽取结果；

其中，裁判文书法律信息抽取模型结构包括：词嵌入层、共享-私有信息抽取器、任务特有CRF层和任务判别器；词嵌入层用于将句子中的词转换为词向量；共享-私有信息抽取器由BI-LSTM组成，共享-私有信息抽取器包括2个私有信息抽取器和一个共享信息抽取器，其中一个私有信息抽取器用于学习分词任务中的边界线，另一个私有信息抽取器用于学习实体识别任务中的边界线，共享信息抽取器用于学习分词任务和实体识别任务共有的边界线；任务特有CRF层是分别连接两个私有信息抽取器BI-LSTM的输出表示，用于输出分词任务和实体识别任务对应的标签表示；任务判别器为共享信息抽取器的下层输入，通过任务判别器和共享信息抽取器的对抗训练方式，使共享信息抽取器学习到分词任务和实体识别任务中共有的边界线特征。

优选的，本方法中以BIO的形式标记裁判文书中的实体，B表示实体的开头，I表示实体的中间字符，O表示与实体不相关的字符。

优选的，本方法中将法律分词数据集和实体识别数据集划分为训练集，交叉验证集和测试集，训练集用于训练裁判文书法律信息抽取模型，交叉验证集用于验证裁判文书法律信息抽取模型，测试集用于测试裁判文书法律信息抽取模型。

优选的，本方法中在训练裁判文书法律信息抽取模型时，将法律分词数据集和实体识别数据集中的每一句话输入词嵌入层进行词嵌入，每一个词将得到一个预先训练好的词向量。

优选的，本方法中分词任务中每一个字输出BEMS，其中，B代表词首，E代表词尾，M代表词中，S代表单字词。

优选的，本方法中在训练裁判文书法律信息抽取模型时，将轮流训练分词任务和实体识别任务，同时引入对抗损失函数和更新参数设置，最终经过调参得到最优模型。

与方法对应，本发明还提供了一种法律信息抽取系统，所述系统包括：

定义单元，用于定义裁判文书中需要标注的实体类型；

标注单元，用于基于定义的实体类型，标注选取的若干裁判文书中的实体类型，得到标注后的实体识别数据集；

训练集获得单元，用于获得公开的法律分词数据集，基于法律分词数据集和实体识别数据集获得训练集；

模型建立及训练单元，用于建立裁判文书法律信息抽取模型，利用训练集训练裁判文书法律信息抽取模型，得到训练后的裁判文书法律信息抽取模型；

法律信息抽取单元，用于将法律信息待抽取的裁判文书输入训练后的裁判文书法律信息抽取模型，输出裁判文书中的法律信息抽取结果；

其中，裁判文书法律信息抽取模型结构包括：词嵌入层、共享-私有信息抽取器、任务特有CRF层和任务判别器；词嵌入层用于将句子中的词转换为词向量；共享-私有信息抽取器由BI-LSTM组成，共享-私有信息抽取器包括2个私有信息抽取器和一个共享信息抽取器，其中一个私有信息抽取器用于学习分词任务中的边界线，另一个私有信息抽取器用于学习实体识别任务中的边界线，共享信息抽取器用于学习分词任务和实体识别任务共有的边界线；任务特有CRF层是分别连接两个私有信息抽取器BI-LSTM的输出表示；任务特有CRF层用于输出分词任务和实体识别任务对应的标签表示；任务判别器为共享信息抽取器的下层输入，通过任务判别器和共享信息抽取器的对抗训练方式，使共享信息抽取器能够学习到分词任务和实体识别任务中共有的边界线特征。

本发明还提供了一种法律信息抽取装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述法律信息抽取方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述法律信息抽取方法的步骤。

本发明还提供了一种基于所述法律信息抽取系统的法律案件审理辅助系统，所述系统包括：

司法案例库，用于存储裁判文书和对应的法律信息；

法律信息抽取系统，与司法案例库连接，用于从裁判文书中抽取相应的法律信息，并将抽取到的法律信息和对应的裁判文书存储在司法案例库中；

查询单元，用于用户从司法案例库中查询相应的裁判文书和对应的法律信息；

显示单元，用于对查询单元查询到的信息进行显示。

其中，法律工作者如法官可以通过法律案件审理辅助系统快速的查询到其需要的法律信息，便于快速辅助完成案件的审理。

本发明提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明实现了将一篇裁判文书输入裁判文书法律信息抽取模型后，采用对抗迁移学习的方法，自动抽取预设好的相关信息内容，提升信息抽取的准确性，同时由于引入分词任务，减少了对于实体识别数据量的依赖。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本发明的一部分，并不构成对本发明实施例的限定；

图1为一种基于对抗迁移学习的裁判文书信息抽取方法的流程示意图；

图2为法律信息抽取系统的组成示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例一，本发明实施例一提供了一种裁判文书法律信息抽取模型，所述裁判文书法律信息抽取模型包括：词嵌入层、共享-私有信息抽取器、任务特有CRF层和任务判别器；词嵌入层用于将句子中的词转换为词向量；共享-私有信息抽取器由BI-LSTM组成，共享-私有信息抽取器包括2个私有信息抽取器和一个共享信息抽取器，其中一个私有信息抽取器用于学习分词任务中的边界线，另一个私有信息抽取器用于学习实体识别任务中的边界线，共享信息抽取器用于学习分词任务和实体识别任务共有的边界线；任务特有CRF层是分别连接两个私有信息抽取器BI-LSTM的输出表示；任务特有CRF层用于输出分词任务和实体识别任务对应的标签表示；任务判别器为共享信息抽取器的下层输入，通过任务判别器和共享信息抽取器的对抗训练方式，使共享信息抽取器能够学习到分词任务和实体识别任务中共有的边界线特征。通过本发明中的裁判文书法律信息抽取模型，能够自动抽取预设好的相关信息内容，提升信息抽取的准确性，

实施例二

请参考图1，图1为一种基于对抗迁移学习的裁判文书信息抽取方法的流程示意图，在公开的裁判文书中，法官可以利用本发明提取相关的法律信息要素，以达到辅助后续办案，建立司法案例库等多重目的。具体步骤如下：

首先法律专家定义需要标注的实体类型，例如人名，公司，金钱等常用实体类型，以及根据实际情况的法律实体类型；

选取若干份裁判文书，裁判文书的数量越多越好，如50000份裁判文书，将定义好的实体类型用现有的标注工具进行标注，以BIO的形式对实体进行标记，B表示实体的开头，I表示实体的中间字符，O表示与实体不相关的字符；

为了辅助提升实体识别的任务，本方法同时引入公开的法律分词数据集作为辅助作用，并将上述的标注后的实体识别数据集和公开的法律分词数据集按6:2:2比例划分为训练集、交叉验证集和测试集，其中数据集的划分比例可以根据实际需要进行调整，本实施例对具体的划分比例不进行具体的限定。

裁判文书法律信息抽取模型结构设计为四部分：词嵌入层，共享-私有信息抽取器，任务特有CRF层以及任务判别器。词嵌入层是指将句子中的词转换为词向量；共享-私有信息抽取器都由BI-LSTM组成：其中私有信息抽取器一共有两个，每一个分别学习分词任务和实体识别任务中特有的边界线，而共享信息抽取器是学习两个任务共有的边界线；任务特有CRF层是分别连接两个私有信息抽取器BI-LSTM的输出表示。CRF层的作用是为了更好的输出两个任务对应的标签表示，标签是指：实体识别任务中每一个字输出BIO（B代表实体开始，I代表实体中间，O代表不属于实体的词），分词任务中每一个字输出BEMS(B代表词首，E代表词尾，M代表词中，S代表单字词)，引入CRF层可以因为上下两个标签的依赖关系，从而使两个任务中输出的标签更为准确；任务判别器是指引入对抗网络的思想，任务判别器作为共享信息抽取器的下层输入，通过任务判别器和共享信息抽取器的对抗训练方式，最终促使共享信息抽取器能够更好的学习到两个任务中共有的边界线特征。

首先，本方法将两个数据集中的每一句话送入词嵌入层进行词嵌入，每一个词将得到一个预先训练好的词向量，词向量的获取可以是公开预训练好的来自百度、Wikipedia的词向量，也可以用大量的裁判文书训练好的词向量。

然后，本方法提出一种共享-私有的信息抽取器。共享-私有信息抽取器由三个不同的BI-LSTM组成，其中私有信息抽取器是针对实体识别和分词两个不同的任务，单独进行信息抽取，用于学习不同任务特有的分界线；而共享抽取器是针对在实体识别任务和分词两个任务中，他们会共享相同的分界线，因此用于学习任务共享的边界线。

为了更好的考虑输出标签，即实体识别任务中的BIO形式和分词任务中的BEMS形式之间的关系，本方法采用CRF层作为两个私有信息抽取器的最后一层，分别得到实体识别任务和分词任务的标签表示。

受到对抗网络的启发，本方法采取一个任务判别器作为共享信息抽取器的下层输入。任务判别器和共享信息抽取器的联合作用在于最终达到共享信息抽取器能够更好的学习到实体识别任务和分词任务中共有的边界线特征，从而减少对于实体任务中的数据依赖。

在训练中，本方法将轮流训练分词和实体识别任务，同时引入对抗损失函数，同时更新参数设置，最终经过调参得到最优模型，使模型能够借助分词任务中学习到的共有的边界线特征，能够提升实体识别任务中的准确性。

在实际预测中，本方法输入一篇裁判文书，将抽取到此前设定的信息，因为有了分词任务作为对抗迁移学习的辅助作用，实体识别任务的精度将提高，并且不受限于少量数据、长距离依赖的干扰。

实施例三

请参考图2，图2为法律信息抽取系统的组成示意图，本发明实施例提供了一种法律信息抽取系统，所述系统包括：

定义单元，用于定义裁判文书中需要标注的实体类型；

其中，裁判文书法律信息抽取模型结构包括：词嵌入层、共享-私有信息抽取器、任务特有CRF层和任务判别器；词嵌入层用于将句子中的词转换为词向量；共享-私有信息抽取器均由BI-LSTM组成，共享-私有信息抽取器包括2个私有信息抽取器和一个共享信息抽取器，其中一个私有信息抽取器用于学习分词任务中的边界线，另一个私有信息抽取器用于学习实体识别任务中的边界线，共享信息抽取器用于学习分词任务和实体识别任务共有的边界线；任务特有CRF层是分别连接两个私有信息抽取器BI-LSTM的输出表示；任务特有CRF层用于输出分词任务和实体识别任务对应的标签表示；任务判别器为共享信息抽取器的下层输入，通过任务判别器和共享信息抽取器的对抗训练方式，使共享信息抽取器能够学习到分词任务和实体识别任务中共有的边界线特征。

实施例四

本发明实施例四提供了一种法律信息抽取装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述法律信息抽取方法的步骤。

本实施例的法律信息抽取装置包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如：法律信息抽取程序。所述处理器执行所述计算机程序时实现上述各个法律信息抽取方法实施例中的步骤，例如图1所示的步骤法律信息抽取方法中的步骤。或者所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如：定义单元、标注单元、训练集获得单元、模型建立及训练单元和输入和输出单元。

实施例五

本发明实施例五提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述法律信息抽取方法的步骤。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述上述计算机程序在所述法律信息抽取装置中的执行过程。例如，所述计算机程序可以被分割成定义单元、标注单元、训练集获得单元、模型建立及训练单元和输入和输出单元。

所述法律信息抽取装置可以是桌上型计算机、笔记本、掌上电脑以及云端服务器等计算设备。所述法律信息抽取装置/可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是法律信息抽取装置的示例，并不构成对法律信息抽取装置设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述法律信息抽取装置设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理器（CPU，Central Processing Unit），还可以是其他通用处理器、数字信号处理器（digital signal processor）、专用集成电路（ApplicationSpecific Integrated Circuit）、现成可编程门阵列（Fieldprogrammable gate array）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述法律信息抽取装置的控制中心，利用各种接口和线路连接整个法律信息抽取装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的数据，实现所述法律信息抽取装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等。此外，存储器可以包括高速随机存取存储器、还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡，安全数字卡，闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

实施例六

本发明实施例六提供了一种基于所述法律信息抽取系统的法律案件审理辅助系统，所述系统包括：

司法案例库，用于存储裁判文书和对应的法律信息；

显示单元，用于对查询单元查询到的信息进行显示。

通过法律案件审理辅助系统能够便于法律工作者快速查询获得裁判文书中的法律信息以及建立完善的司法案例库以便使用。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种裁判文书法律信息抽取模型，其特征在于，所述裁判文书法律信息抽取模型包括：词嵌入层、共享-私有信息抽取器、任务特有CRF层和任务判别器；词嵌入层用于将句子中的词转换为词向量；共享-私有信息抽取器由BI-LSTM组成，共享-私有信息抽取器包括2个私有信息抽取器和一个共享信息抽取器，其中一个私有信息抽取器用于学习分词任务中的边界线，另一个私有信息抽取器用于学习实体识别任务中的边界线，共享信息抽取器用于学习分词任务和实体识别任务共有的边界线；任务特有CRF层是分别连接两个私有信息抽取器BI-LSTM的输出表示；任务特有CRF层用于输出分词任务和实体识别任务对应的标签表示；任务判别器为共享信息抽取器的下层输入，通过任务判别器和共享信息抽取器的对抗训练方式，使共享信息抽取器能够学习到分词任务和实体识别任务中共有的边界线特征。

2.一种法律信息抽取方法，其特征在于，所述方法包括：

定义裁判文书中需要标注的实体类型；

基于定义的实体类型，标注若干裁判文书中的实体类型，得到标注后的实体识别数据集；

获得法律分词数据集，基于法律分词数据集和实体识别数据集得到训练集；

3.根据权利要求2所述的法律信息抽取方法，其特征在于，以BIO的形式标记裁判文书中的实体，B表示实体的开头，I表示实体的中间字符，O表示与实体不相关的字符。

4.根据权利要求2所述的法律信息抽取方法，其特征在于，将法律分词数据集和实体识别数据集划分为训练集，交叉验证集和测试集，训练集用于训练裁判文书法律信息抽取模型，交叉验证集用于验证裁判文书法律信息抽取模型，测试集用于测试裁判文书法律信息抽取模型。

5.根据权利要求2所述的法律信息抽取方法，其特征在于，在训练裁判文书法律信息抽取模型时，将法律分词数据集和实体识别数据集中的每一句话输入词嵌入层进行词嵌入，每一个词将得到一个预先训练好的词向量。

6.根据权利要求2所述的法律信息抽取方法，其特征在于，分词任务中每一个字输出BEMS，其中，B代表词首，E代表词尾，M代表词中，S代表单字词。

7.根据权利要求2所述的法律信息抽取方法，其特征在于，在训练裁判文书法律信息抽取模型时，将轮流训练分词任务和实体识别任务，同时引入对抗损失函数和更新参数设置，最终经过调参得到最优模型。

8.一种法律信息抽取系统，其特征在于，所述系统包括：

定义单元，用于定义裁判文书中需要标注的实体类型；

标注单元，用于基于定义的实体类型，标注若干裁判文书中的实体类型，得到标注后的实体识别数据集；

训练集获得单元，用于获得法律分词数据集，基于法律分词数据集和实体识别数据集获得训练集；

9.一种法律信息抽取装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求2-7中任意一个所述方法的步骤。

10.一种法律案件审理辅助系统，其特征在于，所述系统包括：

司法案例库，用于存储裁判文书和对应的法律信息；

显示单元，用于显示查询单元查询到的信息；

其中，所述法律信息抽取系统包括：定义单元，用于定义裁判文书中需要标注的实体类型；