CN113553385B

CN113553385B - 一种司法文书中法律要素的关系抽取方法

Info

Publication number: CN113553385B
Application number: CN202110770848.2A
Authority: CN
Inventors: 白雄文; 陈飞; 王红艳; 惠欣恒; 安娜
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2023-08-25
Anticipated expiration: 2041-07-08
Also published as: CN113553385A

Abstract

本发明涉及一种司法文书中法律要素的关系抽取方法，属于自然语言处理领域。本发明对司法文书进行数据清洗；将清洗过的司法文书根据各类型文书的规则机制进行段落划分；利用“三位标注”的标注方式对法律要素的实体及实体主客体的关系进行标注；使用标注的数据作为深度神经网络模型的原始输入，完成法律要素的实体及实体间关系的识别及抽取。本发明有效避免因传统句法树导致的结构嵌套以及实体关系重叠，有利于提高案件要素实体的识别性能。本发明实现了案件要素的实体识别及关系抽取，取得了良好的使用效果。

Description

一种司法文书中法律要素的关系抽取方法

技术领域

本发明属于自然语言处理及自然语言理解技术领域，具体涉及一种司法文书中法律要素的关系抽取方法。

背景技术

自2016年“智慧法院”的提出到2018年“智慧法院”的全面建设，最高检察院及各级检察院方面都在依靠互联网、大数据、人工智能等技术积极推动“智慧”司法的进程，务求通过以高度信息化的方式支持审判、司法管理等，同时以一种智慧化的方式全方位的服务各级检察院组织。

各级检察院在长期的司法实践以及应用过程中累积了体量非常庞大的司法文书，比如判决书、逮捕书等；不同的司法文书中蕴含着非常有价值的信息，这些信息对于我国司法建设有着极其重要的作用。有效的利用这些司法文书单靠传统的人工方式是远远不够的，不仅效率低下，收益低而且还会耗费大量的人力。因此在不断信息化的今天，可以利用人工智能、大数据等技术对这些司法文书进行结构化的处理，例如智能量刑、智慧语音法庭(语音转文字)、司法文书自动生成、法律知识智慧问答等。面对庞大的司法文书集，要想从每篇文书当中获得各个法律要素的实体以及实体之间的关系是一件困难的事情，传统的方式是利用规则的方式摘取主要信息段落或者句子，然后利用机器学习的方式进行实体标注，同时结合句法分析的方式，但是句法分析需要分析整个句子的结构，同时还需要依赖分词以及词性标注等自然语言处理技术，因此识别难度大、效率低下、准确率低等。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种司法文书中法律要素的关系抽取方法，以解决现有的司法文书识别方法识别难度大、效率低下、准确率低等问题。

(二)技术方案

为了解决上述技术问题，本发明提出一种司法文书中法律要素的关系抽取方法，该方法包括如下步骤：

S1、利用自然语言处理技术对司法文书进行数据清洗；

S2、将清洗过的司法文书根据各类型文书的规则机制进行段落划分；

S3、利用“三位标注”的标注方式对法律要素的实体及实体主客体的关系进行标注；

S4、使用“三位标注”标注的数据作为深度神经网络模型的原始输入，完成法律要素的实体及实体间关系的识别及抽取。

进一步地，所述步骤S1中数据清洗是指司法文书的噪声去除，包括空格、空行、编码、全半角和停用词。

进一步地，所述步骤S2中段落划分后，司法文书被分解为案件基础信息、诉讼信息、基本案情、审判认定信息、判决信息和结尾阶段。

进一步地，所述步骤S3包括将划分后的六大部分通过相关规则细化切分成语句或者短段落；抽取相关段落或者关键句子进行数据标注处理。

进一步地，“三位标注”的标注方式包括：实体主体开头“B-SUB”、实体主体内部“I-SUB”、实体客体开头“B-OBJ”、实体客体内部“I-OBJ”和非实体类型“O”。

进一步地，所述步骤S4中的深度神经网络模型是双向注意力机制编码深度神经网络模型。

进一步地，所述步骤6具体包括：法律要素的实体识别任务在双向注意力机制编码深度神经网络模型的输出端叠加条件随机场层，法律要素实体关系的识别任务是在双向注意力机制编码深度神经网络模型的输出端进行多分类逻辑回归，并对其进行联合学习。

进一步地，所述双向注意力机制编码深度神经网络模型将输入序列转换成输出序列，该输出序列的每一个位置的输出可对应输入序列的每一个位置的输入。

进一步地，条件随机场层对输出标签的路径进行约束，排除不符合序列标注顺序的结果，实现案件要素的识别。

进一步地，法律要素实体关系的识别任务进一步包括在双向注意力机制编码深度神经网络模型的输出端叠加全连接层后进行多分类逻辑回归，求得每个关系类别的最大概率。

(三)有益效果

本发明提出一种司法文书中法律要素的关系抽取方法，不论是之前的句法分析、词性分析等机器学习技术还是现有循环神经网络都无法从深层次的语义方面出发完成实体间关系的理解并识别标示。本发明从句子或者段落的整体语义及句子整体顶层结构出发，采用扁平化的“三位标注”策略，对句子的主客体实体以及实体对之间的关系进行标注，该方法可以有效的避免因传统句法树导致的结构嵌套以及实体关系重叠，有利于提高案件要素实体的识别性能。本发明基于双向注意力机制的神经网络词向量训练方式，深层次的强化句子语义，并结合条件随机场的序列标注方式对案件要素进行实体识别，通过深层次的语义挖掘及序列标注结合，实现案件要素的实体识别及关系抽取，取得了良好的使用效果。

附图说明

图1为本发明司法文书中法律要素的关系抽取方法的流程图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明涉及一种司法文书中法律要素的关系抽取方法，它包括以下步骤：一、利用自然语言处理的技术手段完成对司法文书的清洗；二、依据不同的司法文书类型选择不同的规则处理机制，基于规则(司法文书自身固有格式)的方法完成文书的段落划分；三、通过对司法文书段落(包含单独句子)进行扁平化法律要素(包含实体、关系等)的标注，标注采用“三位标注”方式完成句子级别的法律要素标注；四、基于双向注意力机制编码深度神经网络的案件要素识别及关系抽取，将标注的实体及实体对应的主客体标注数据作为模型的原始输入，实现法律文书中法律要素的实体识别及关系抽取模型训练并完成预测抽取。司法文书中法律要素的识别及各法律要素之间的关系识别有利于法律文书的结构化存储，为后期智能化法律办公提供依据，同时为法律文书的智能化检索、审查等应用提供便捷，提高办公效率。

本发明的司法文书中法律要素的关系抽取方法，该方法所包括步骤如下：一、司法文书中可能夹杂一些噪声项，首先利用自然语言处理机制完成司法文书的清洗去噪；二、根据不同的司法文书类型，选择各类型文书的规则处理机制，完成司法文书的段落划分；三、扁平化处理实体及实体间的关系标注，对数据(句子或段落)采用“三位标注”的方式完成主客体及关系的标注；四、将标注数据作为输入，采用双向注意力机制编码深度神经网络的方式实现实体及实体关系的训练和识别。

进一步地，所述步骤一中噪声去除包括空格、空行、编码、全半角、停用词等处理手段。

进一步地，所述步骤二中主要根据各类型文书的规则处理机制对司法文书进行切分，分解为案件基础信息、诉讼信息、基本案情、审判认定信息、判决信息等阶段。

进一步地，所述步骤三中采用“三位标注”的方式完成对法律要素的实体及实体主客体的关系标注，包括：“B-SUB”(实体主体开头)、“I-SUB”(实体主体内部)、“B-OBJ”(实体客体开头)、“I-OBJ”(实体客体内部)、“O”(非实体类型)。

进一步地，所述步骤四中使用“三位标注”的数据作为关系抽取方法的输入，完成法律要素的实体及实体间关系的识别及抽取。

本发明要解决的技术问题是：提供一种司法文书中法律要素的关系抽取方法，主要将非结构化的司法文书通过规则的方式进行段落、句子划分，扁平化式的采用“三位标注”方式完成实体及关系的标注，通过双向注意力机制编码深度神经网络的手段完成法律要素的实体识别和关系识别，整个过程目的在于司法文书的结构化及标准化存储，为后期智能化法律办公提供依据，同时为法律文书的智能化检索、审查等应用提供便捷，提高办公效率。

本发明的技术方案为：一种基于案件要素的法律要素关系抽取方法，所述方法包括如下步骤：

S1、利用自然语言处理技术对司法文书进行数据清洗；

S2、将清洗过的司法文书根据各类型文书的规则机制进行段落(句子)划分；

S3、利用“三位标注”的标注方式对段落(句子)完成标注，包括实体、实体关系等；

S4、将标注后的实体及实体关系数据作为双向注意力机制编码深度神经网络模型的原始输入，实现管道式的实体识别及关系识别抽取。

所述步骤S1：数据的清洗是指司法文书的噪声去除，主要包括空格、空行、编码、全半角、停用词等。

所述步骤S2：根据各类型文书的规则机制对司法文书进行切分，分解为案件基础信息、诉讼信息、基本案情、审判认定信息、判决信息等阶段。

所述步骤S3：采用“三位标注”的方式对法律要素的实体及实体主客体的关系标注。

所述步骤S4：使用步骤S3中采用“三位标注”标注的数据作为深度神经网络模型的原始输入，完成法律要素的实体及实体间关系的识别及抽取。

图1所示为一种司法文书中法律要素的关系抽取方法，该方法主要实施包含以下步骤：

步骤S1：司法文书内容清洗(去噪)

司法文书中包含着许多的空格、空行等，同时还夹杂着许多类似噪声、全半角等词等对司法文书产生影响的信息，对其加以清洗。

步骤S2：根据各类型文书的规则机制完成对司法文书的段落划分

对待不同类型的司法文书选用不同的规则机制去处理，司法文书(判决文书)包含基础信息(包括原被告姓名、身份证号、地址、原被告委托代理人等)、诉讼信息(案件发生的过程、结果、诉讼缘由等)、基本案情(包括原告诉称、被告辨称、提供证据等)、审判认定信息(包括审理查明、本院认为等)、判决信息、结尾(包括审判人员、时间等)。划分阶段采用基于规则的方式完成文书段落划分。

步骤S3：采用“三位标注”的方式对法律要素的实体及实体主客体的关系标注

深度神经网络的学习方式首先需要对数据进行标注，本发明对法律要素的实体以及实体间的关系采用经典“三位标注”模式，使用类似“B-SUB”、“I-SUB”、“B-OBJ”、“I-OBJ”、“O”的方式完成标注。

步骤S4：使用“三位标注”标注的数据作为深度神经网络模型的原始输入，完成法律要素的实体及实体间关系的识别及抽取

本发明一种基于深度神经网络的法律要素及关系抽取方法，采用结合条件随机场的双向注意力机制编码深度神经网络模型对司法文书中的法律要素实体及实体间关系进行预测识别。

下面结合具体示例及附图对本发明流程作进一步说明：

第一步：判断文书及罪名类型，并通过相关程序对文书进行去噪及切分。

第二步：将划分后的六大部分通过相关规则细化切分成语句或者短段落；抽取相关段落或者关键句子进行数据标注处理。案件要素识别是一个序列标注问题，采用经典的“三位标注”模式，案件要素实体关系识别系分类问题。如：B-SUB表示案件犯罪主体的开始，I-SUB表示案件犯罪主体的内部；B-OBJ表示案件犯罪客体的开始，I-OBJ表示案件犯罪客体的内部，O表示非案件犯罪实体，同时在每一个句子或者段落标注对应关系。

第三步：基于双向注意力机制编码深度神经网络的法律要素实体识别及关系抽取。本发明法律要素的实体识别任务在双向注意力机制编码深度神经网络模型的输出端叠加条件随机场层，法律要素实体关系的识别任务是在双向注意力机制编码深度神经网络模型的输出端进行多分类逻辑回归，并对其进行联合学习。

从图中可以看到结合条件随机场的双向注意力机制编码深度神经网络模型的输入是以单字为细粒度的形式。主要使用了双向注意力机制编码作为算法的主要框架，同时使用了独有的掩码机制以及“后句”预测的多任务训练，可以有效的捕获语句的语义。

双向注意力机制编码深度神经网络模型可将输入序列转换成输出序列，该输出序列的每一个位置的输出可对应输入序列的每一个位置的输入。如：输入是司法文书中的某一个关键句子所对应各单字的序列，则输出便是每个单字是否是实体。

该深度神经网络包括编码器神经网络和解码器神经网络。编码器和解码器均为基于注意力机制的，并且输入是利用已学习的词嵌入将单字转化为多维向量。解码器是通过线性变换、多分类逻辑回归模型或其他网络将解码的输出转化为一个预测下一个单字的概率。

此外，为使用序列中单字的前后次序信息，需将单字的相对位置及绝对位置以编码的形式添加到双向注意力机制编码深度神经网络模型中去，即“位置编码”，使用时将“位置编码”和词嵌入编码直接相加(“位置编码”和词嵌入维度相同)，本发明中位置编码使用正弦和余弦函数加以编码，具体如下：

其中pos为位置，i表示位置编码的维度信息，d_mod代表词嵌入维度。

最后，注意力机制函数可以看作一个查询向量和一系列键值、价值向量映射为一个输出向量的过程，且输出是由带权重的值向量叠加的，而该权重是通过查询向量和相应键值、价值向量通过一个函数计算而来，并形成矩阵，计算函数如下：Q、K、V分别表示双向注意力机制编码深度神经网络的查询矩阵、键值矩阵、价值矩阵，K^T表示键值矩阵的转置矩阵，d_k表示键值向量k的向量维度。

法律要素的实体识别任务在双向注意力机制编码深度神经网络模型的输出端叠加条件随机场层，使用条件随机场是因为双向注意力机制编码深度神经网络模型输出对于实体序列起不到约束的作用，利用条件随机场层对输出标签的路径进行约束，可以排除不符合序列标注顺序的结果(例如将I-SUB、B-SUB这样的标注结果剔除，因为案件犯罪主体的内部不会出现在案件犯罪主体的开始之前)，实现案件要素的识别。条件随机场层中，对于一个给定的输入序列x＝(x₁,x₂,x₃…,x_n)，(即双向注意力机制编码深度神经网络模型的输出序列)需最大化输出序列，该输出序列y＝(y₁,y₂,y₃…,y_n)的评价函数如下所示：

其中表示转移概率，即序列中标签间状态的转移概率，P表示标注权重，即当前模型输出标注的最大概率。

法律要素实体关系的识别任务是在双向注意力机制编码深度神经网络模型的输出端叠加全连接层后进行多分类逻辑回归，求得每个关系类别的最大概率。

假设我们有一个序列数组X，X_i标示第i个元素，那么该元素的概率值为：

本发明是一种基于双向注意力机制编码深度神经网络模型的法律要素实体及实体关系抽取，旨在将非结构化的司法文书通过实体及关系抽取进行识别和法律要素关系的识别，并结构化存储，为后期智能化的司法提供可靠的依据。同时为法律文书的智能化检索、审查等应用提供便捷，提高办公效率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种司法文书中法律要素的关系抽取方法，其特征在于，该方法包括如下步骤：

S1、利用自然语言处理技术对司法文书进行数据清洗；

S4、使用“三位标注”标注的数据作为深度神经网络模型的原始输入，完成法律要素的实体及实体间关系的识别及抽取；

其中，

所述步骤S4中的深度神经网络模型是双向注意力机制编码深度神经网络模型；

所述步骤S4具体包括：法律要素的实体识别任务在双向注意力机制编码深度神经网络模型的输出端叠加条件随机场层，法律要素实体关系的识别任务是在双向注意力机制编码深度神经网络模型的输出端进行多分类逻辑回归，并对其进行联合学习。

2.如权利要求1所述的司法文书中法律要素的关系抽取方法，其特征在于，所述步骤S1中数据清洗是指司法文书的噪声去除，包括空格、空行、编码、全半角和停用词。

3.如权利要求1所述的司法文书中法律要素的关系抽取方法，其特征在于，所述步骤S2中段落划分后，司法文书被分解为案件基础信息、诉讼信息、基本案情、审判认定信息、判决信息和结尾阶段。

4.如权利要求3所述的司法文书中法律要素的关系抽取方法，其特征在于，所述步骤S3包括将划分后的六大部分通过相关规则细化切分成语句或者短段落；抽取相关段落或者关键句子进行数据标注处理。

5.如权利要求4所述的司法文书中法律要素的关系抽取方法，其特征在于，“三位标注”的标注方式包括：实体主体开头“B-SUB”、实体主体内部“I-SUB”、实体客体开头“B-OBJ”、实体客体内部“I-OBJ”和非实体类型“O”。

6.如权利要求1所述的司法文书中法律要素的关系抽取方法，其特征在于，所述双向注意力机制编码深度神经网络模型将输入序列转换成输出序列，该输出序列的每一个位置的输出可对应输入序列的每一个位置的输入。

7.如权利要求6所述的司法文书中法律要素的关系抽取方法，其特征在于，条件随机场层对输出标签的路径进行约束，排除不符合序列标注顺序的结果，实现案件要素的识别。

8.如权利要求6所述的司法文书中法律要素的关系抽取方法，其特征在于，法律要素实体关系的识别任务进一步包括在双向注意力机制编码深度神经网络模型的输出端叠加全连接层后进行多分类逻辑回归，求得每个关系类别的最大概率。