CN110147553A

CN110147553A - 一种基于案件要素的法律文书分析方法

Info

Publication number: CN110147553A
Application number: CN201910433562.8A
Authority: CN
Inventors: 陈艳平; 冯丽; 秦永彬; 黄瑞章
Original assignee: Guizhou University
Current assignee: GUIZHOU CLOUD PIONEER TECH Co.,Ltd.; Guizhou University
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-08-20

Abstract

本发明公开了一种基于案件要素的法律文书分析方法，它包括如下步骤：一、利用机器学习算法从法律文书中抽取案情描述信息，并按照案件要素标注的优先级对案情描述进行标注；二、数据预处理：将步骤一中所标注的案件要素进行识别；三、基于深度神经网络的案件要素识别：将标注的文档数据作为标注模型的原始输入，实现端到端的案件要素识别。通过对法律文书进行扁平化关联案件要素的标注，将标注的文档数据以句子为单位处理为经典的“BIO”序列标注格式，采用相关的序列标注模型识别文档中的案件要素。案件要素识别有利于法律文本的结构化表示，支撑法律文书的融合分析等应用研究，为法律文书的信息检索、自动审阅等实践应用白来巨大便利。

Description

一种基于案件要素的法律文书分析方法

技术领域

本发明涉及一种法律文书，尤其涉及一种基于案件要素的法律文书分析方法，属于自然语言处理技术领域。

背景技术

2018年，智慧法院3.0版进入全面建设、深化完善阶段，各级法院都在积极推动互联网、物联网、大数据、人工智能与法院工作的深度融合。人工智能快速地改造着司法领域，推动司法领域的智能化实践。法院在长期的司法实践过程中，积累了大量的法律文书，这些法律文书中蕴含着巨大的价值，而有效利用具有典型特点的法律文书单靠传统的人工手段是极其困难的。利用人工智能可对法律文书进行处理，如庭审语音转文字，判决书或起诉书的自动生成等，在很大程度上为司法实践应用带来了巨大便利。由于“智慧法院”建设所涉及到数据来源广泛、结构复杂、动态实时，法院数据具有鲜明的领域性和专业性，数据特征隐藏较深，导致数据挖掘分析性能较差。调研发现法律文书中的案情描述对法条推荐、审判结果有着显著影响，因此本发明的研究点面向法律文书中案情描述内容。传统方法采用树形结构(语法树或者依赖树)表示句子结构，树形结构虽然能够很好地表示句子中语义角色之间的关系，但是树形结构中的嵌套标注增加了对语料库进行注释的负担，并造成了句子解析的歧义。识别句子中的关键要素，传统使用的方法是句法解析，但是句法解析需要分析整个句子的结构，依赖分词、词性标注等自然语言处理技术，因此，识别难度大，性能相对较低。

发明内容

本发明要解决的技术问题是：提供一种基于案件要素的法律文书分析方法，通过对半结构化法律文书进行扁平化关联案件要素的标注，然后，将标注的文档数据以句子为单位处理为经典的“BIO”序列标注格式，采用相关的序列标注模型识别文档中的案件要素。案件要素的识别有利于法律文本的结构化表示，支撑法律文书的融合分析等应用研究，为法律文书的信息检索、自动审阅等实践应用白来巨大便利，有效的解决了上述存在的问题。

本发明的技术方案为：一种基于案件要素的法律文书分析方法，所述方法包括如下步骤：一、利用机器学习法从法律文书中抽取案情描述信息，并按照案件要素标注的优先级对案情描述进行标注；二、数据预处理：将步骤一中所标注的案件要素进行识别；三、基于深度神经网络的案件要素识别：将标注的文档数据作为标注模型的原始输入，实现端到端的案件要素识别。

所述步骤一中，案件要素包括：行为要素、行为主体、行为客体、时间、地点、方式、行为结果。行为要素用字母ACT表示，在中文句子的表达中，一个句子不止一个动词，但是只有一个行为词推动案件的发展。行为主体要素用字母SUB表示，是行为动作的执行者。行为客体要素用OBJ表示，是行为动作的作用对象或受体。时间要素用字母TEM表示，是行为动作发生的时间，在这里可以指时间点或者时间段。地点要素用字母LOC表示，是行为动作发生的地点。方式要素用字母MAN表示，是行为动作的实施途径、方法或者使用工具。行为结果要素用字母RAI表示，是行为动作的发展趋势、状态、目的等补充成分。

所述步骤一中，数据标注的优先级为：行为要素>行为主体/行为客体>时间/地点>方式/结果。分号中的案件要素表示平级的。行为要素是法律文书中最重要的要素，根据犯罪行为词的读取，可看出案件的发展趋势，所以它在优先级里是最高的。

所述步骤二中，数据预处理时采用经典的序列标注方式“BIO”与案件要素类型相结合的原则。

所述步骤三中，采用深度神经网络模型对半结构化法律文书中的事实描述部分进行案件要素识别。

本发明的有益效果是：与现有技术相比，采用本发明的技术方案，从句子顶层结构角度出发，采用扁平化标注策略对法律文书中的谓语及其关联的案件要素进行相关参数的标注工作。扁平化标注策略不考虑嵌套标注，因此，可避免传统语法树因嵌套标注在句法解析过程中分解粒度歧义，有利于提高案件要素识别性能。本发明基于神经网络结合序列标注模型CRF对案件要素进行识别，在深度神经网络中可自动抽取句子的结构信息和语义信息，实现端到端的案件要素识别，避免传统序列识别任务中的人工选取特征问题，取得了很好的使用效果。

附图说明

图1为本发明的案件要素识别模型。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将参照本说明书附图对本发明作进一步的详细描述。

实施例1：如附图1所示，一种基于案件要素的法律文书分析方法，所述方法包括如下步骤：一、利用深度学习算法从法律文书中抽取案情描述信息，并按照案件要素标注的优先级对案情描述进行标注；二、数据预处理：将步骤一中所标注的案件要素进行识别；三、基于深度神经网络的案件要素识别：将标注的文档数据作为标注模型的原始输入，实现端到端的案件要素识别。

在步骤一中，案件要素包括：行为要素、行为主体、行为客体、时间、地点、方式、行为结果。行为要素用字母ACT表示，在中文句子的表达中，一个句子不止一个动词，但是只有一个行为词推动案件的发展。行为主体要素用字母SUB表示，是行为动作的执行者。行为客体要素用OBJ表示，是行为动作的作用对象或受体。时间要素用字母TEM表示，是行为动作发生的时间，在这里可以指时间点或者时间段。地点要素用字母LOC表示，是行为动作发生的地点。方式要素用字母MAN表示，是行为动作的实施途径、方法或者使用工具。行为结果要素用字母RAI表示，是行为动作的发展趋势、状态、目的等补充成分。

在步骤一中，数据标注的优先级为：行为要素>行为主体/行为客体>时间/地点>方式/结果。分号中的案件要素表示平级的。行为要素是法律文书中最重要的要素，根据犯罪行为词的读取，可看出案件的发展趋势，所以它在优先级里是最高的。

在步骤二中，数据预处理时采用经典的序列标注方式“BIO”与案件要素类型相结合的原则。

在步骤三中，深度神经网络模型采用Bi-LSTM-attention-CRF网络模型对半结构化法律文书中的事实描述部分进行案件要素识别。

下面将结合附图和示例对本发明做进一步描述。

第一步，利用Python代码从法律文书中抽取案情描述信息，并按照案件要素标注的优先级对案情描述进行标注。

第二步，数据预处理。案件要素识别是一个序列标注任务，所以数据预处理时采用经典的序列标注方式“BIO”与本发明中的案件要素类型形结合。例如：“SUB_B”表示犯罪主体的开始，“SUB_I”表示犯罪主体的连续部分，“O”表示不在这7个要数之中,也就是未标注数据。

第三步，基于深度神经网络的案件要素识别。在本实施示例中采用Bi-LSTM-attention-CRF网络模型对半结构化法律文书中的事实描述部分进行案件要素识别，支撑法律文书的融合分析等应用研究。以句子为单位作为模型的原始输入。在图1中，数据从定向上传输，文本数据在embedding层经过预训练的查找表映射成向量表示。然后进入Bi-LSTM层，Bi-LSTM层可获取每个字长距离的上下文特征。然后引入attention机制对Bi-LSTM输出中的抽象语义特征进行选取。最后，利用CRF层对输出标签的路径进行约束，计算出全局最优的标注序列，实现案件要素的识别。

Bi-LSTM是双向LSTM结合而成，其优势在于可以同时捕捉两个方向的长距离信息，因此在序列标注模型中有较好的表现。Bi-LSTM层的输出：

本发明在Bi-LSTM层之后加入了attention机制。attention的优点在于对输入句子的每个字都会与整个句子的其他字进行一次相似度计算，这样的目的是学习句子内部的字依赖关系，捕获句子的内部结构信息，突出特定字词对整个句子的重要程度。如图1所示，表示第t个目标字与第j个输入字的相似度，的数值越大，表示在生成第t个目标字时受到第j输入字的影响越大。定义一个全局变量u_t为第t个目标字与Bi-LSTM层输出向量h_t的编码权重之和，u_t的计算方式为：

将u_t与Bi-LSTM的输出h_t合并为一个新向量[u_t,h_t]经过一个tanh函数作为attention层的输出，即:

z_t＝tanh(w_u[u_t；h_t])

在CRF层中，对于一个给定的输入序列x＝(x₁,x₂,…,x_t)，求出条件最大的输出序列y＝(y₁,y₂,…,y_t)，该输出序列的评分函数定义出下：

其中表示标签y_i转移到y_i+1的概率，P是Bi-LSTM的计算得分矩阵，表示字w_i标注y_i的权重。最后得到标注路径的概率：

其中y_x表示输入序列x所有可能的标注路径。从公式上可以看出，CRF实质上是从输入序列到输出序列的概率映射关系。在预测过程中，使用动态规划的Viterbi算法来获得最大分数的输出序列：

本发明采用扁平化标注策略，从句子顶层结构角度标注法律文书中的谓语及其关联的案件要素，扁平化标注策略不考虑嵌套标注，可避免嵌套引起的在分解粒度上导致的歧义。

本发明未详述之处，均为本技术领域技术人员的公知技术。最后说明的是，以上实施例所采用的Bi-LSTM-attention-CRF模型仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于案件要素的法律文书分析方法，其特征在于：所述方法包括如下步骤：一、利用机器学习算法从法律文书中抽取案情描述信息，并按照案件要素标注的优先级对案情描述进行标注；二、数据预处理：将步骤一中所标注的案件要素进行识别；三、基于深度神经网络的案件要素识别：将标注的文档数据作为标注模型的原始输入，实现端到端的案件要素识别。

2.根据权利要求1所述的基于案件要素的法律文书分析方法，其特征在于：所述步骤一中，案件要素包括：行为要素、行为主体、行为客体、时间、地点、方式、行为结果。

3.根据权利要求1所述的基于案件要素的法律文书分析方法，其特征在于：所述步骤一中，数据标注的优先级为：行为要素>行为主体/行为客体>时间/地点>方式/结果。

4.根据权利要求1所述的基于案件要素的法律文书分析方法，其特征在于：所述步骤二中，数据预处理时采用经典的序列标注方式“BIO”与案件要素类型相结合的原则。

5.根据权利要求1所述的基于案件要素的法律文书分析方法，其特征在于：所述步骤三中，采用深度神经网络模型对半结构化法律文书中的事实描述部分进行案件要素识别。