CN112417880A

CN112417880A - 一种面向法院电子卷宗的案情信息自动抽取方法

Info

Publication number: CN112417880A
Application number: CN202011369142.7A
Authority: CN
Inventors: 万玉晴; 王霄
Original assignee: Taiji Computer Corp Ltd
Current assignee: Taiji Computer Corp Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-26
Anticipated expiration: 2040-11-30
Also published as: CN112417880B

Abstract

本发明公开了一种面向法院电子卷宗的案情信息自动抽取方法，该方法包括：创建案情信息抽取框架，对各类案件电子卷宗文件中案情要素进行统计分析，构建基本案情本体；根据案情本体和电子卷宗文件版面特点，定制基本案情信息抽取策略；基于XML的跨领域信息抽取工具TZIE，构建案情信息抽取框架；基于多粒度语义的法律文书构建NER模型及训练，多粒度语义单元的结合方式，采用Word2vec的Skip‑gram模型和LDA主题模型，分别训练得到司法领域词向量模型和字向量模型，结合BiLSTM‑Attention‑CRF模型的领域实体识别，在基准模型BiLSTM‑CRF中增加了Attentio机制，预测每个语义单元属于不同标签的概率，辅助优化的模型训练方式，以人工标注语料训练模型作为主任务，以人工和自动标注语料训练模型作为辅助任务。

Description

一种面向法院电子卷宗的案情信息自动抽取方法

技术领域

本发明涉及人工智能文本信息抽取技术领域，具体来说，涉及一种面向法院电子卷宗的案情信息自动抽取方法。

背景技术

目前，各级法院在信息化过程中积累了大规模的案件电子卷宗，对于海量电子卷宗记录的非结构文本信息，亟需利用更加高效的方法进行结构化、知识化处理，为法院电子卷宗深度应用奠定基础。

信息抽取是从非结构化文本中获取结构化数据的过程，结构化数据中主要包括：实体、关系、属性、事件四种数据类型，对于一份法院案卷来说，其中的案情信息就是有由以上四种要素所形成的语义网络，从电子卷宗中进行信息抽取的过程也就是构建案件知识本体的过程，这个过程中通常包括符号化标注、句法分析、提取、对齐合并四个环节，综合国内外文本信息抽取方法研究成果，主要分为三类方法：基于规则模板的方法；基于统计机器学习的方法；基于图的方法；早期的研究多采用人工总结领域语言特征，基于词性标注、依存句法分析等自然语言处理技术，编写规则模板，抽取匹配模式的信息，后来研究者采用无监督方法自动生成新规则扩充模板库，取得了一定的进展，规则的编写极为依赖领域知识，这使得基于规则模板的方法对于特定语料具有较高的抽取准确率，但往往无法跨领域移植，范化能力差。

基于统计机器学习的方法是把信息抽取的问题，看作序列标注问题来解决，主要分为传统机器学习方法和深度学习方法，目前常用的传统机器学习方法有：隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)、和条件随机场模型(Conditional Random Field Model,CRF)，这三种模型都是通过已知的观测序列X，去求解最优的标注序列Y，所不同的是，三者依赖的假设条件约束依次降低，CRF由于其不受状态独立性和状态转移的马尔可夫性的严格限制，被更广泛的用在解决序列标注问题上，但CRF训练需要根据经验设置特征值，而且完全依赖训练词库进行实体判断，对未登录词的抽取效果很差，近年来深度学习技术快速发展，与传统的基于规则的方法以及基于统计机器学习的方法相比，深度神经网络模型具有更好的泛化性，更少的人工特征依赖等优点，在各领域命名实体识别中得到了广泛的应用，但对于法律文书命名实体识别的主要问题在于：不同命名实体之间长度差别大，使得语言表示的语义粒度对模型训练效果影响较大，造成不同命名实体的识别性能差异大的问题，在不同案件类型的卷宗文书中，命名实体的上下文特征具有显著差异，造成模型应用在不同类型案件卷宗上的鲁棒性较差，训练深度学习模型需要大量标注语料，但当前法律文书的标注语料不充足。

基于图的方法是采用节点表示实体、节点的边表示实体关系、实体的边数来量化实体间的语义距离，这种图的方法从整体上建模实体及其关系，更方便表达实体间的等级关系，具有更完整的信息提取思路，这种方法需要面向领域提前构建本体。

发明内容

针对相关技术中的上述技术问题，本发明提出一种面向法院电子卷宗的案情信息自动抽取方法，能够对各类案件卷宗内文件类型和案情要素的统计分析，基于图方法的思想从整体上建模案情本体，整合各种信息抽取技术方法，以获取准确完整的案情信息，然后从输入模型的语言表示入手，对不同尺度的嵌入表示，以及结合方式的有效性进行了研究验证，形成涵盖字向量、词向量和主题向量三个语义粒度的语言表示，使用一种辅助优化的训练方式，减少模型对人工标注语料的依赖，最后训练了适用于法律文书的命名实体识别模型。

为实现上述技术目的，本发明的技术方案是这样实现的：一种面向法院电子卷宗的案情信息自动抽取方法，其特征在于，该方法包括如下步骤：

S1创建案情信息抽取框架，进一步包含：

S1.1对各类案件电子卷宗文件中案情要素进行统计分析，构建基本案情本体；

S1.2根据案情本体和电子卷宗文件版面特点，定制基本案情信息抽取策略；

S1.3基于XML的跨领域信息抽取工具TZIE，自定义抽取领域要素信息，构建案情信息抽取框架，提供领域词典、规则及现有模型组合配置；

S2基于多粒度语义的法律文书构建NER模型及训练，进一步包含：

S2.1多粒度语义单元的结合方式，采集一个包含400多万份裁判文书的中文语料集，采用Word2vec的Skip-gram模型和LDA主题模型，分别训练得到司法领域含有主题语义的词向量模型和字向量模型，另外，不同案件类型的裁判文书中，使用LDA主题模型的向量模型，获取更大粒度上的语义信息；

S2.2结合BiLSTM-Attention-CRF模型的领域实体识别，在基准模型BiLSTM-CRF中增加了Attentio机制，预测出每个语义单元属于不同标签的概率，在BiLSTM模型上接入CRF模型，使得BiLSTM模型在计算最优标签序列时合理体现CRF模型转移矩阵；

S2.3基于辅助优化的模型训练方式，以人工标注语料训练模型作为主任务，以人工和自动标注语料训练模型作为辅助任务，后者向前者共享BiLSTM模型层的输出。

进一步地，所述S1.1中基本案情本体进一步包含：

S1.1.1基本案情本体为顶层实体，由系列属性和实体共同定义，对基本案情本体中实体、属性及关系定制抽取策略并执行。

进一步地，所述S1.2中基本案情信息抽取策略进一步包含：

S1.2.1基于通用命名实体识别模型抽取，对案情本体中大部分属性信息的抽取，命名实体识别对象主要为三大类：实体、时间和数字，七小类：人名、地名、机构名、日期、时间、百分比及货币；

S1.2.2基于领域词典和规则模板抽取，可枚举或具有固定模式的属性，所述属性为案由、审理方式、诉讼请求、身份证号码、联系方式、诉讼地位，对于案情本体中的实体关系，采用基于上下文关系定义规则模板来获取；

S1.2.3训练领域命名实体识别模型抽取，其中，案情本体中的司法领域特有命名实体为案号、案件名称、法律条文，以及领域特性的命名实体为地址、籍贯、工作单位，这类命名实体需要结合领域文本语料单独训练和优化。

进一步地，所述S1.3中构建案情信息抽取框架进一步包含：

S1.3.1框架配置文件，基于TZIE配置语法规则编写的XML文件，XML节点及关系由DTD文件定义，所述配置文件分为定义领域词典、定义领域要素、定义信息抽取方式；

S1.3.2框架功能调度器，框架基于TZIE配置语言编译器对配置文件进行资源链接，形成可执行代码，在执行过程中通过功能调度器从功能池中调用相应模型工具，完成信息抽取，输出结果JSON对象，该JSON对象完全基于XML配置文件中定义的数据结构组织所抽取的要素信息。

进一步地，所述S1.3.1中配置文件类型进一步包含：

S1.3.1.1定义领域词典，按照TZIE内置操作符格式进行引用领域词典信息抽取任务；

S1.3.1.2定义领域要素，基于TZIE内置的实体节点进行配置，在领域概念和事件的定义中继续配置下层属性实体，层级结构表达为复杂从属关系；

S1.3.1.3定义信息抽取方式，TZIE内置的method节点用来定义信息抽取，其中，通过引入TZIE配置语言元素，把正则表达式改造为领域规则模板，对具有显著关键词和文本格式特征的场景具有很好的效果，通过配置通用及自训练的模型进行信息抽取，通过配置调用自定义API实现信息抽取的方式，获取复杂逻辑判断或计算的信息。

进一步地，所述S2.1中多粒度语义单元的结合方式进一步包含：

S2.1.1基于LDA主题模型的向量模型对文档主题和词的概率分布的设定，得到联合概率关系式：

其中，K为主题数、M为裁判文书数、N为文书中的词数，在(1)式中，W是唯一观察到的量，Z、θ、

是中间隐含变量，α，β是需要求的超参数，对(1)进一步处理得到：

其中，计算的是超参α、β的极大似然估计值：

采用EM算法学习出

代入Dirichlet分布得到文书主题的概率分布θ,和主题中词的概率分布

本文根据θ和

进行多次随机采样，确定一个K*V的矩阵,该矩阵的每一列作为对应词的主题信息向量：

同样的过程，可以得到基于中文字的主题信息向量：

通过以上方式分别得到了字、词、篇章三种粒度上的语义信息表示，对此，提出以下两种结合方式分别获取词向量和字向量；

S2.1.2结合字信息和主题信息的词向量，以词作为基本语义单元，加入词内字的语义信息，和基于词的主题信息

设某个中文词w_i在所训练的司法词向量模型中的向量表示为

w_i中的字c_j在所训练的司法字向量模型中的向量表示为

由组成w_i的所有字向量联合表示，得到w_i新的词向量

是信是信息结合后的词向量，计算公式为：

其中i是指词在句子中的位置，j是指字在词中的位置，n是指词的字数；

S2.1.3结合词信息和主题信息的字向量作为基本语义单元，加入所在词的语义信息，和基于字的主题信息

设

句子中的第i个字的字向量表示，

是第i个字所在词的向量表示，

是信息结合后的字向量，计算得到：

进一步地，所述S2.2中结合BiLSTM-Attention-CRF模型进一步包含：

S2.2.1在BiLSTM模型和CRF模型之间加入Attention机制，在语义单元特征中加入全局注意力信息，为CRF模型计算最优路径时突出关键词的影响，向量词句子设为

表示句中第i个词的词向量，n为句长，输入模型进行计算：

得到双向LSTM提取的特征状态值，进入全连接层，该层在基于辅助优化的训练中，具有融合辅助特征到统一维度的作用，设置relu作为非线性激活函数，获取全连接层输出

组合每个时刻的输出向量设为

进入Attention模块，训练公式如下：

α＝softmax(h^a) (9)

进一步地，所述S2.2.1中进入Attention模块进一步包含：

S2.2.1上述步骤中Attention模块的第一层是以tanh为激活函数的全连接层，与前一个全连接层不同的是，该层是在BiLSTM模型的完整输出序列上做全连接，θ^a和b^a随模型训练不断更新，再通过一层softmax获取注意力权重a后，与Attention模块的输入h^m加权求和得到输出向量

进入Dropout层，获得Dropout层输出

进入CRF层，得到最终的全局最优标注序列，设定对输入句子的预测标注序列为y＝{y₁，y₂，…，y_i，…，y_n}，该序列的整体得分为：

其中A为CRF模型的转移矩阵，P为BiLSTM-Attention输出的标注概率矩阵，可以计算把输入句子x标记为序列y的概率，并计算其对数似然函数为：

其中Y_x是句子x所有可能的标注序列集合，CRF模型在预测中使用Viterbi算法来求解最优路径，即得到概率最大的一组标注序列：

进一步地，所述S2.3中基于辅助优化的模型训练方式进一步包含：

S2.3.1从BiLSTM模型直接进入Attention模块，而主任务模型中第一层全连接层的输入

为：

当输入的句子是自动标注语料时，只执行辅助任务，当输入来自人工标注语料集时，会同时执行主任务和辅助任务，因此训练依据的损失函数是两者损失函数的加权组合，λ是一个可调控的组合系数：

基于上述方式，训练得到适用于法律文书的命名实体识别模型，放入案情信息抽取框架的功能池中，框架根据配置文件通过功能调度器从功能池中调用。

本发明的有益效果：鉴于现有技术中存在的不足，本申请基于当前文本信息抽取相关方法的研究成果，对法院电子卷宗内案情信息及裁判文书模式特征进行了分析，设计了基本案情本体，和法院电子卷宗案情要素信息抽取框架，另外，针对深度学习在法律文书命名实体识别中出现的主要问题，提出了基于多粒度语义的法律文书NER模型及训练方法，依此训练出模型，并集成在框架功能池中，本申请的框架及模型方法对法院电子卷宗基本案情信息抽取具有如下有益效果：

1)只需要较少的样本即可获得较高精度的信息抽取效果，在方法上实现冷启动，减少了大量的人工标注工作；

2)深入结合领域文本特征和领域词典，配置引用灵活方便；

3)针对不同实体特征可适配多种信息抽取方法，并按照定制策略选择和融合，在一定程度上保证了召回率；

4)信息抽取结果具有与领域本体一致的结构，可准确获取实体关系；

5)易于调整优化，可针对抽取错误调整对应配置内容，实现精准修正而不影响其他信息项，目前本发明已经在合作法院的业务信息中使用，获得了很好的应用效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的面向法院电子卷宗的案情信息自动抽取方法基本案情本体框图

图2是根据本发明实施例所述的面向法院电子卷宗的案情信息自动抽取方法构建框架的整体框图；

图3是根据本发明实施例所述的面向法院电子卷宗的案情信息自动抽取方法主题模型框图；

图4是根据本发明实施例所述的面向法院电子卷宗的案情信息自动抽取方法基于辅助优化模型训练框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1-4所示，根据本发明实施例所述的面向法院电子卷宗的案情信息自动抽取方法，该方法包括：

步骤一，创建案情信息抽取框架；

步骤二，基于多粒度语义的法律文书构建NER模型及训练。

在本发明的一个具体实施例中，

步骤一，创建案情信息抽取框架；

基本案情本体，对各类案件电子卷宗文件中案情要素进行统计分析，构建基本案情本体，基本案情本体为顶层实体，由系列属性和实体共同定义，对基本案情本体中实体、属性及关系定制抽取策略并执行；

基本案情信息抽取策略，根据案情本体和电子卷宗文件版面特点，定制基本案情信息抽取策略，基于通用命名实体识别模型抽取；基于领域词典和规则模板抽取；训练领域命名实体识别模型抽取；

构建案情信息抽取框架，基于XML的跨领域信息抽取工具TZIE，自定义抽取领域要素信息，构建案情信息抽取框架，提供领域词典、规则及现有模型组合配置，并充分考虑了规则模板的复用，及对结果信息的引用，框架主要功能有：文本处理、要素定义、提取方式配置，框架中使用的TZIE配置语言由XML节点、保留字、操作符和语法规则构成，其中封装了用于信息抽取的各种技术方法，正则表达式、NLP技术工具、机器学习模型，及代码包等，通过配置语句，可以应对各种场景、各种文本下的信息提取需求，其中，框架配置文件进一步包含：

定义领域词典，基于TZIE配置语法规则编写的XML文件，XML节点及关系由DTD文件定义，领域词典在信息抽取任务中具有重要作用，不仅可以提高分词工具的性能，还可以快速实现信息抽取的领域自适应，使用词典时，按照TZIE内置操作符格式进行引用；

定义领域要素，基于TZIE内置的实体节点进行配置，在领域概念和事件的定义中继续配置下层属性实体，层级结构表达为复杂从属关系；

定义信息抽取方式，TZIE内置的method节点用来定义信息抽取，可选用基于规则模板、基于模型、基于编码的方法，基于规则模板的方式是通过引入TZIE配置语言元素，把正则表达式改造为领域规则模板，对具有显著关键词和文本格式特征的场景具有很好的效果，通过配置通用及自训练的模型进行信息抽取，通过配置调用自定义API实现信息抽取的方式，获取复杂逻辑判断或计算的信息，同一要素可配置多个method节点，然后通过配置组合表达式及优先级关系，对结果进行融合或取舍，另外，使用TZIE内置操作符可以对领域词典、信息抽取结果、功能池等资源进行调用；

框架功能调度器，框架基于TZIE配置语言编译器对配置文件进行资源链接，形成可执行代码，在执行过程中通过功能调度器从功能池中调用相应模型工具，完成信息抽取，输出结果JSON对象，该JSON对象完全基于XML配置文件中定义的数据结构组织所抽取的要素信息，框架功能池中包含了常用的文本处理工具和模型，所训练的适用于法律文书的命名实体识别模型，以及针对具体应用场景开发的代码包。

在本发明的一个具体实施例中，

步骤二，基于多粒度语义的法律文书构建NER模型及训练；

多粒度语义单元的结合方式，采集一个包含400多万份裁判文书的中文语料集，采用Word2vec的Skip-gram模型和LDA主题模型，分别训练得到司法领域含有主题语义的词向量模型和字向量模型，向量维度均为200维；

根据基准方法BiLSTM-CRF模型在标注语料上的表现来看，使用字向量对较短的命名实体具有更好的识别效果，而对于法律文书中地名、机构名较长的特点，采用词向量效果更好一些，分析主要原因在于：词向量忽略了词内字的语义信息，另外，分词质量对采用词向量的识别结果有很大影响，但另一方面，以单字作为语义单元的歧义性较大，可见词向量和字向量各有优略，两种语义单元相结合可以包含更全面的信息表示，另外，不同案件类型的裁判文书中，命名实体的上下文具有显著差异，无法在细粒度语义单元中得到很好的表示，使用LDA主题模型的向量模型，获取更大粒度上的语义信息，结合BiLSTM-Attention-CRF模型的领域实体识别，在基准模型BiLSTM-CRF中增加了Attentio机制，预测出每个语义单元属于不同标签的概率，在BiLSTM模型上接入CRF模型，使得BiLSTM模型在计算最优标签序列时合理体现CRF模型转移矩阵；

基于辅助优化的模型训练方式，以人工标注语料训练模型作为主任务，以人工和自动标注语料训练模型作为辅助任务，后者向前者共享BiLSTM模型层的输出，在模型结构上，相比前者，去掉了第一层全连接层，从BiLSTM直接进入Attention模块，当输入的句子是自动标注语料时，只执行辅助任务，当输入来自人工标注语料集时，会同时执行主任务和辅助任务，因此训练依据的损失函数是两者损失函数的加权组合，训练得到适用于法律文书的命名实体识别模型，放入案情信息抽取框架的功能池中，框架可以根据配置文件通过功能调度器从功能池中调用。

为了方便理解本发明的上述技术方案，以下通过具体使用方式上对本发明的上述技术方案进行详细说明。

在具体使用时，根据本发明所述的面向法院电子卷宗的案情信息自动抽取方法，具体实施举例说明步骤如下：

1、案件文本数据采集与标注

针对司法领域命名实体识别任务，还没有数量充分的标注语料集，本文的语料数据主要来源于中国裁判文书网，共计2200份案件判决书，其中包含民事、刑事和执行三种类型的案件。在实体标注上，本发明面向司法领域需求，设定5类命名实体：人名(Nr)、地名(Ns)、机构名(Nt)、案件名(Nc)和法律条文(Nl)，采用BIOES方式进行标注，对语料分别进行字标注和词标注，如表1所示。在词标注中使用HanLP开发工具进行分词；表1基于词的BIOES标注示例；

在标注方式上，采用人工标注和自动标注两种方式，人工标注语料集中包含200份裁判文书，经过人工标注和检验，获取高质量标注语料集,对于另2000份文书，根据法律文书中一些半结构化特点和关键词典，使用正则表达式和词性标注工具定义了相应启发式规则，例如：当事人姓名，和机构名前通常会有“原告”、“被告”这样的诉讼地位；地名前通常会有“住址”、“籍贯”等词出现；案件名通常由当事人名称和案由名称组合而成；法律条文更是具有典型的结构化特征,基于这些启发式规则开发了相应命名实体的自动标注工具，可以快速获取标注语料集，但其标注质量，尤其在召回率上与人工标注语料相比有一定差距；

2、模型训练

从人工标注语料集中随机选取150份裁判文书作为NER主任务的训练语料，剩余50份用于测试，自动标注语料集中全部2000份文书用于辅助任务训练，另外，根据句长分布情况，无论以词还是字作为语义单元，模型接收的句子长度设为200，数据集情况如表2所示：

语料	训练数据(句)	测试数据(句)
			人工标注语料集	10927	3446
自动标注语料集	143059	--

模型参数设置如表3所示：

参数	值
		词/字向量维度	200
多粒度词/字向量	406
		语义单元长度	200
优化方法	Adam
		学习率	0.001
Dropout概率	0.5
		Epoch	20
Batch	32
		辅助优化组合系数	0.65

训练得到模型文件：ner.bin，放置在案情信息抽取框架的功能池中；

3、编写框架配置文件

框架配置文件基于TZIE配置语法规则进行编写，主要包括三个方面的配置：定义法律文书相关词典、定义案卷案情要素、定义信息抽取方法，同一要素可以配置多种方法，然后通过配置多方式组合表达式及优先级关系，对多个方法结果进行融合或取舍，最后获取一个结构化数据对象,该XML配置文件也是对领域本体另一种形式的定义，不同的是，其中还包含了每个实体及属性的信息抽取方法；

4、执行信息抽取

框架基于配置文件进行资源链接，形成可执行代码，在执行过程中通过功能调度器从功能池中调用相应模型，完成信息抽取，输出结果JSON对象，该JSON对象完全基于XML配置文件中定义的案情本体组织所抽取的要素信息，获取输入文件的格式化信息，如表4所示：

综上所述，借助于本发明的上述技术方案，通过对各类案件卷宗内文件类型和案情要素的统计分析，基于图方法的思想从整体上建模案情本体，整合各种信息抽取技术方法，以获取准确完整的案情信息；从输入模型的语言表示入手，对不同尺度的嵌入表示，以及结合方式的有效性进行了研究验证，形成涵盖字向量、词向量和主题向量三个语义粒度的语言表示，然后提出一种适于法律文书命名实体识别的深度学习模型，并从模型训练入手，使用一种辅助优化的训练方式，减少模型对人工标注语料的依赖，最后训练了适用于法律文书的命名实体识别模型。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。