CN110516257A

CN110516257A - 一种基于边界识别与组合的裁判文书证据抽取方法

Info

Publication number: CN110516257A
Application number: CN201910816186.0A
Authority: CN
Inventors: 黄瑞章; 杨健; 丁志远; 陈艳平; 秦永彬
Original assignee: Guizhou University
Current assignee: GUIZHOU CLOUD PIONEER TECH Co.,Ltd.; Guizhou University
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-11-29

Abstract

本发明公开了一种一种基于边界识别与组合的裁判文书证据抽取方法。为了有效抽取裁判文书里的证据，本发明分为三步：(1)使用RNNs识别证据实体的开始边界和结束边界。(2)组合所有开始边界和结束边界形成候选证据实体。(3)使用CNN对候选证据进行分类，识别真实的证据。基于边界识别与组合的方法弥补了传统的序列标注模型在长实体的识别上性能比较低的缺点，并且在一定程度上避免传统机器学习方法产生的特征稀疏问题，从而提高了裁判文书中证据抽取的性能。

Description

一种基于边界识别与组合的裁判文书证据抽取方法

技术领域

本发明涉及自然语言处理和机器学习领域，特别涉及到一种基于边界识别与组合的裁判文书证据抽取方法。

背景技术

证据是司法领域的一种命名实体，证据抽取是一项十分重要的工作。裁判文书中的证据是法官进行量刑的基础。根据法院审判的要求，法官量刑必须要有证据支撑。正常情况下，裁判文书中的证据列表和案件卷宗里的证据目录要一一对应。证据过多或过少都会导致法官量刑的轻判或重判。所以，通过抽取裁判文书中的证据列表和案件卷宗里的证据目录进行对比，可以对案件审判质量进行评估。通过裁判文书证据抽取，可以支撑“智慧法院”建设，能够使得司法审判、诉讼服务和司法管理高度信息化，实现全方位智能服务的人民法院建设、运行与管理。

在裁判文书的证据表达式里，证据命名实体都很长，如：“李四的身份证”、“证人张三的证言证词”、“银行取款业务回执单”、“银行转账流水记录”等，通过分析，裁判文书中的证据最长有13个字符。传统的序列标注模型在长实体的识别上性能都比较低。通过分析裁判文书中的证据，我们发现相同类型的证据在同类型的裁判文书中重复出现，如：民事案件里的身份证、户口本、身份证复印、户口本复印件、银行转账记录，刑事案件里的鉴定报告、辨认笔录、照片、证人张三的证言等，这些词经常都作为证据重复出现。

发明内容

针对现有发明材料的不足，本发明提供了一种基于边界识别与组合的裁判文书证据抽取方法，它弥补了传统的序列标注模型在长实体的识别上性能比较低的缺点，并且在一定程度上避免传统机器学习方法产生的特征稀疏问题，从而提高了裁判文书中证据抽取的性能。。

为实现以上目的，本发明通过以下技术方案予以实现：基于边界识别与组合的裁判文书证据抽取方法，包括如下步骤：

步骤1：基于神经网络模型识别裁判文书证据的开始边界和结束边界；

步骤2：组合所有开始边界和结束边界，形成候选证据实体；

步骤3：构建基于卷积神经网络分类器，对候选证据进行分类，识别真实证据。

步骤1中所述的神经网络模型为基于循环神经网络构建的模型。

步骤2中所述的边界组合的具体步骤如下：

步骤1)根据边界识别模型识别的标签序列结果，寻找序列里的开始边界；

步骤2)以每个开始边界的位置为准，向前组合证据边界序列的开始边界；

步骤3)开始边界和结束边界之间的字符-包含开始边界和结束边界，作为证据候选实体。

所述步骤3的主要目的是构建多核卷积神经网络分类器，以候选证据实体集为输入，通过证据分类，识别真实的证据。

本发明同现有技术相比，为了有效抽取裁判文书里的证据，本发明分为三步：(1)使用RNNs识别证据实体的开始边界和结束边界。(2)组合所有开始边界和结束边界形成候选证据实体。(3)使用CNN对候选证据进行分类，识别真实的证据。基于边界识别与组合的方法弥补了传统的序列标注模型在长实体的识别上性能比较低的缺点，并且在一定程度上避免传统机器学习方法产生的特征稀疏问题，从而提高了裁判文书中证据抽取的性能。证据抽取结果将有益于智慧法院建设，能够使得司法审判、诉讼服务和司法管理高度信息化，实现全方位智能服务的人民法院建设、运行与管理。

附图说明

图1为基于Bi-LSTM-CRF边界识别模型架构。

图2为基于边界识别与组合的裁判文书证据抽取模型架构。

具体实施方式

以下结合实施例对本发明进行更详细的阐述，所选的特定例子仅作为举例说明，并不对本发明的整个范围作任何限制。本发明采用固定床反应器，钢瓶气模拟烟气对催化剂进行脱硝活性测试。尾气中的NO_x和SO₂采用烟气分析仪进行检测。

实施例：基于边界识别与组合的裁判文书证据抽取方法。。

(1)数据预处理。

使用真实数据验证方法的有效性。实验使用贵州省智慧法院建设的裁判文书数据，包括刑事类、民事类和行政类等多种类型的649篇裁判文书，通过对649篇裁判文书进行人工标注。标注数据中共包括3914个证据实体。

整个数据集以裁判文书为单位进行随机打乱，按照6:2:2的划分比例，把数据划分为训练集、验证集、测试集。

一篇裁判文书由当事人诉讼、案情分析、判决结果等多部分构成，裁判文书的证据部分在判决书里有明确的标识：原告XXX在举证期限内提交了如下证据或原告围绕诉讼请求依法提交了证据。构造数据集时，需要对数据进行人工标注：用P标签标注整个证据段，用D标签标注证据词。

边界识别模型的数据集构造分3步：(1)首先用基于正则表达式的方法提取裁判文书中的证据段，得到标注数据集。(2)基于分句符号(【，。？！\n…】\n\r)对证据段进行切分(保留符号)。(3)提取证据词，将标注数据集的每个字符单独成一行构成文本文件的一列，每个短句空一行。第二列为标注标签，为每个字符对应的标签，两列之间使用空格分隔，属于证据词的开始边界的字符标注为B，属于证据词的结束边界的字符标注为E，其余字符标注为O。其中“O”表示非边界，“B”表示证据的开始边界，“E”表示证据的结束边界。整个证据段作为Bi-LSTM-CRF边界识别模型的输入，用以获取证据边界信息。

对证据部分进行“B-I-O”的标记，用作Bi-LSTM-CRF命名实体识别模型对比实验的输入。

(2)首先进行实体边界识别，构建Bi-LSTM-CRF边界识别模型。

本步骤的目的是基于经典Bi-LSTM-CRF模型，构建用于较精准识别证据边界信息的神经网络模型。本模型采用增加分词特征和字特征嵌入进行特征拼接后，经过双向循环神经网络和全连接网络，结合条件随机场结构后得到证据的边界信息，模型架构见附图1。本步骤的输出的是证据实体边界识别结果。此步骤的预期结果是获得较精准证据边界分类结果，并对模型进行本地持久化。

(3)在边界识别的基础上，根据边界识别的结果进行边界组合，形成候选证据集，作为多核CNN分类器的输入，见附图2(边界组合)部分。

本步骤的目的是根据步骤1边界识别的结果，进行边界组合，形成候选证据集，作为步骤3的输入。

对于训练集数据的处理：模型的输入序列单位同为“短句”，将边界识别的训练集按标点进行切分(保留切分符号)。提取每个短句中所有证据实体的右边界的下一个字符作为right，以right往前推N个字符(本次实验N取当前句子的长度)作为entity，left为当前entity的开始边界的前三个字符，从后往前遍历N个字符，找到left和entity，若entity和人工标注的证据实体相同，label为yes，否则label为no。

对于验证集和测试集数据的处理：将边界识别的验证数据和测试数据按切分符号进行切分(保留切分符号)，调用已训练完成的边界识别模型分别识别验证集和测试集字符的标签，寻找识别结果的结束边界，以结束边界的位置向前组合所有的开始标签作为entity，left为当前entity的开始边界的前三个字符，right为当前entity的结束边界的后一个字符，若entity和人工标注的证据实体相同，label为yes，否则label为no。若entity部分的字符数大于N(构造训练集时规定)，则该entity所在的整条数据不作为实验数据

(4)构建针对候选证据进行分类的多核卷积神经网络分类器

本步骤的目的是对边界组合产生的候选证据实体集进行筛选，识别出真正的证据。本发明通过构建多核卷积神经网络分类器完成上述工作。在此步骤中的实践中，实施边界组合方法产生的候选证据是基于多核CNN边界组合的证据分类模型的输入。模型包含两个输入：其一为不定长的句子字符序列，其二的证据字符序列。两个输入分别通过不同的词嵌入层生成两个输入序列的语义向量表示。该语义向量通过多核卷积神经网络层与最大池化层生成两个同纬度的向量。再将这两个同纬度向量对应位置相减之后接入一个全连接神经网络得到模型输出，并进行本地模型持久化，见附图2(多核CNN分类)部分。

将候选实体输入集输入CNN模型，得出实验结果。通过试验实施，证据边界识别结果如下：

表1 证据边界识别结果

标注	Precision(％)	Recall(％)	F-measure(％)
				B	89.20	87.97	88.58
E	96.60	96.96	95.77

为了验证边界识别与组合模型对于证据抽取任务有很好的表现效果，本文把边界识别、组合与分类的证据抽取模型的性能和Bi-LSTM-CRF模型的性能做了对比。对比结果如表2所示。

表2 模型性能对比

模型	Precision	Recall	F-measure
				Bi-LSTM-CRF	82.38	80.23	81.29
本发明	88.47	81.74	85.04

通过表1和表2可以看出，本发明所提出的基于边界识别和组合的证据抽取模型在对裁判文书中的证据命名实体抽取能取得很好的效果，模型的F值为84.97％，比LSTM-CRF模型的F值高出3.75％。在本模型中，在Bi-LSTM综合考虑文本的上下文信息和CRF考虑了文本前后的标签信息的同时，裁判文书的证据重复出现，使得Bi-LSTM-CRF边界识别模型能准确识别证据的开始边界和结束边界，通过组合边界形成的候选实体中包含了几乎所有的证据实体，通过证据分类模型才能取得不错的效果。综上所述，本文设计的基于边界识别与组合的证据抽取模型可以取得比传统Bi-LSTM-CRF模型更好的实验效果。

本发明不局限于上述最佳实施方式，任何人在本发明的启示下可得到其他形式的产品。但是，无论在催化剂组成、结构和配比方面作任何的变化，凡是具有和本申请相同或相似的技术方案，均属于本发明的保护范围。

Claims

1.一种基于边界识别与组合的裁判文书证据抽取方法，其特征在于：包括如下步骤：

步骤2：组合所有开始边界和结束边界，形成候选证据实体；

2.根据权利要求1所述的基于边界识别与组合的裁判文书证据抽取方法，其特征在于：步骤1中所述的神经网络模型为基于循环神经网络构建的模型。

3.根据权利要求1所述的基于边界识别与组合的裁判文书证据抽取方法，其特征在于：步骤2中所述的边界组合的具体步骤如下：

4.根据权利要求1所述的基于边界识别与组合的裁判文书证据抽取方法，其特征在于：所述步骤3的主要目的是构建多核卷积神经网络分类器，以候选证据实体集为输入，通过证据分类，识别真实的证据。