CN114372153A

CN114372153A - 基于知识图谱的法律文书结构化入库方法及系统

Info

Publication number: CN114372153A
Application number: CN202210011124.4A
Authority: CN
Inventors: 林英撑; 梅秀九; 刘炳胜; 何伟; 张玲; 梅紫华; 韩劲锋; 宋万年
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-04-19

Abstract

本发明公开的一种基于知识图谱的法律文书结构化入库方法及系统，包括以下步骤：步骤1.获取相关法律文书；步骤2.对法律文书进行预处理；步骤3.根据候选语句对法律文书进行语句分类并标注；步骤4.对分类标注完成后的语句做语义分析，并对分析后的结果通过三元组抽取模型生成法律要素三元组，将法律要素三元组构建成法律文书知识图谱；步骤5.将已构建的法律文书知识图谱入库存储。本发明能够将法律文书非结构化的文本信息结构化，提高了获取法律文书中信息的效率。

Description

基于知识图谱的法律文书结构化入库方法及系统

技术领域

本发明属于数据处理技术领域，特别是涉及一种基于知识图谱的法律文书结构化入库方法及系统。

背景技术

随着社会的高速发展，在法律领域法律事务电子化、信息化的需求越来越高。结合人工智能、大数据、云计算等技术的智慧法务在法律领域需求增长很快。在这些技术中需要海量的数据做支撑，所以卷宗信息提取是至关重要的一个环节。面对传统的卷宗以段落为主的大颗粒度信息提取现状，这种大颗粒度的数据在智慧法务的信息技术中难以提供有效的数据支撑。

因此，有必要开发一种新的基于知识图谱的法律文书结构化入库方法及系统。

发明内容

本发明的目的是提供一种基于知识图谱的法律文书结构化入库方法及系统，能将法律文书非结构化的文本信息结构化，以提高获取法律文书中信息的效率。

第一方面，本发明所述的一种基于知识图谱的法律文书结构化入库方法，包括以下步骤：

步骤1.获取相关法律文书；

步骤2.对法律文书进行预处理；

步骤3.根据候选语句对法律文书进行语句分类并标注；

步骤4.对分类标注完成后的语句做语义分析，并对分析后的结果通过三元组抽取模型生成法律要素三元组，将法律要素三元组构建成法律文书知识图谱；

步骤5.将已构建的法律文书知识图谱入库存储。

可选地，所述步骤2具体为：对法律文书文本进行分句，其中，分句是按照中文标点符号里的句号、问号、感叹号为标志将段落文本分为语句，将文书的内容按照文本的顺序分成若干语句；

去除分句完成后的法律文书中的辅助句子，辅助句子具有如下特征：形式上是句子的句首与句尾有括号，内容上是附录的内容。

可选地，所述步骤3具体为：

步骤31，设置特征字符语句标注模板集，该特征字符语句标注模板集包括有至少一个特征字符，其中，所述特征字符为法律文件的句首部分文字；对预处理后的法律文书，通过与特征字符语句标注模板集中的各特征字符进行文本匹配，若匹配成功，则对含有特征字符的句子进行标注；

步骤32，设置正则表达式语句标注模板集，该正则表达式语句标注模板集包括有至少一个正则表达式，其中，所述正则表达式由数字和特征字符构成；将未被步骤31标注的部分，与正则表达式语句标注模板集中的各正则表达式进行匹配，若匹配成功，则对法律文中匹配到的语句进行标注；

步骤33，利用PKU98语料库来训练词性分析标注模型，得到词性分析标注模型的参数；通过训练好的词性分析标注模型对未被步骤31和步骤32标注的部分进行词性和命名实体的联合标注。

可选地，所述步骤4包括：

步骤41.获取标注完成的文本；

步骤42.深度学习训练与语义分析；

步骤43.由三元组抽取模型生成法律要素三元组；

步骤44.构建知识图谱。

可选地，所述步骤42具体包括：

采用ChineseStanfordDependencies依存关系标注集制作的语料库训练Bert深度学习模型来分析语句中的词与词的语法关系，语句中的语法关系由ChineseStanfordDependencies依存关系标注集构成。

可选地，所述步骤43具体包括：

建立三元组抽取模型；

按照三元组抽取模型抽取深度学习训练与语义分析的语义关系获得法律文书的三元组信息，即获得法律文书要素之间的关系；其中，三元组由(实体1，关系，实体2)和(实体，属性，属性值)构成。

可选地，所述步骤44具体包括：

将每个语句中的三元组以对应的语句主题词为中心构建语句级知识图谱，知识图谱的节包含三元组实体和属性值，知识图谱的边由三元组关系和属性构成；

将语句级知识图谱构建成篇章级知识图谱，篇章级知识图谱的框架由语句级知识图谱的语句标签构成。

可选地，所述步骤5中，将法律文书知识图谱以一个N叉树的存储结构进行存储，并将存储节点与存储节点之间的节点关系设置为查询时的链接。

第二方面，本发明所述的一种基于知识图谱的法律文书结构化入库系统，包括存储器和控制器，所述存储器内存储有计算机可读程序，所述计算机可读程序被控制器调用时能执行如基于知识图谱的法律文书结构化入库方法的步骤。

本发明具有以下优点：

(1)提出了三种分类标注方法，分别为特征字符匹配、正则表达式匹配、词性标注模板结合基于深度学习的次性分析，利用这三种方法分别从三个角度由简单到复杂完成法律文书语句的分类并标注，能够快速、高效地完成文本分类和标注。

(2)法律要素三元组抽取模型是在分析法律文书特点的基础上提出的，该抽取模型结合基于Bert 的依存语义分析深度学习可以抽取法律文书中语句中的语法关系，这种方法能够在没有或相关专业数据集不充足的情况下达到比较好的效果。

(3)在二叉树的数据结构基础上，结合知识图谱的结构特点，设计了一个N叉树的存储结构，并增加了存储节点之间的边即节点之间的关系，将节点之间的关系作为查询时的链接，从而大大提高了查询效率。

附图说明

图1是本实施例的原理框图；

图2是本实施例的流程图；

图3是本实施例中语句分类标注的流程示意图；

图4是本实施例中知识图谱构件的流程示意图；

图5是本实施例中法律文书知识图谱示意图。

具体实施方式

下面结合附图对本发明作进一步说明。

参见图1，本实施例中，一种基于知识图谱的法律文书结构化入库方法，首先在法律文书相关网站获取法律文书，然后对法律文书进行预处理，预处理包括对法律文书进行文本分句与去噪。然后对候选语句进行分类并标注。接着将标注后的语句进行依存语义分析，结合三元组抽取模型生成法律要素三元组，再将三元组构建成语句级知识图谱,综合前面的语句分类信息将语句级知识图谱构建成文书级知识图谱，最后针对知识图谱设计的数据存储结构存入已构建的知识图谱。

参见图2，本实施例中，一种基于知识图谱的法律文书结构化入库方法，具体包括以下步骤：

步骤1.获取法律文书。

本实施例中，在法律文书网或者裁判文书上获取相关法律文书。

步骤2.对法律文书进行预处理。

本实施例中，步骤2具体包括以下步骤：

步骤21.对法律文书文本进行分句，分句是按照中文标点符号里的句号、问号、感叹号为标志将段落文本分为语句，此将文书的内容按照文本的顺序分成若干语句。

步骤22.去除分句完成后的法律文书中的辅助句子，辅助句子具有如下特征：形式上是句子的句首与句尾有括号；内容上是附录的内容。

步骤3.根据候选语句对法律文书进行语句分类并标注，对预处理后的法律文书进行语句分类并标注分为三个类别，分别为结合特征字符进行文本匹配并标注(第一类)、结合正则表达式进行文本标注(第二类)以及基于神经网络的词性分析结合词性标注模板集进行标注(第三类)。

本实施例中，步骤3具体为：

步骤31，设置特征字符语句标注模板集(参见表1的第三部分)，该特征字符语句标注模板集包括有至少一个特征字符，其中，所述特征字符为法律文件的句首部分文字；对预处理后的法律文书，通过与特征字符语句标注模板集中的各特征字符进行文本匹配，若匹配成功，则对含有特征字符的句子进行标注；即图3中的结合特征字符进行文本匹配并标注。

步骤32，设置正则表达式语句标注模板集(参见表1的第二部分)，该正则表达式语句标注模板集包括有至少一个正则表达式，其中，所述正则表达式由数字和特征字符构成；将未被步骤31标注的部分，与正则表达式语句标注模板集中的各正则表达式进行匹配，若匹配成功，则对法律文中匹配到的语句进行标注；即图3中的结合正则表达式进行标注。正则表达式内容是对应类别语句的内容，但在语句中没有特定位置信息，需要文本匹配一整句话才能够正确分类。

步骤33，利用PKU98语料库来训练词性分析标注模型，得到词性分析标注模型的参数；通过训练好的词性分析标注模型对未被步骤31和步骤32标注的部分进行词性和命名实体的联合标注；即基于神经网络的词性分析结合词性标注模板集(参见表1的第一部分，这部分由词性和命名实体构成，大写字母为词性标签，括号内文字为实体标签)进行标注。这种句子标注方法与文本分类方法的差异在于，文本分类方法需要大量的专业领域数据，获取这些数据集难度大，而人工制作数据集存在数据集一致性问题，导致后续分类效果较差。本方法提出的词性标注模板，特征明显，数量较少，制作难度小，且后续匹配准确率较高。

表1：法律文书语句标注模板集如下：

步骤4.对分类标注完成后的语句做语义分析，并对分析后的结果通过三元组抽取模型生成法律要素三元组，将法律要素三元组构建成法律文书知识图谱。

本实施例中，参见图4，步骤4具体为：

步骤41.获取标注完成的文本。

步骤42.深度学习训练与语义分析。

本实施例中，步骤42具体为；

步骤421，语义分析是基于依存句法分析的Bert深度学习模型，采用ChineseStanfordDependencies 依存关系标注集制作的语料库训练Bert深度学习模型。

步骤422，训练好的网络可分析语句中的词与词的语法关系，语句中的语法关系由ChineseStanfordDependencies依存关系标注集构成。分析含有标签的语句，保存语句语义关系信息。

步骤43.由三元组抽取模型生成法律要素三元组。

本实施例中，步骤43具体为：

步骤431，三元组由(实体1，关系，实体2)和(实体，属性，属性值)这种形式构成，依据这种形式结合法律文书，本实施例中提出了关于法律文书的三元组抽取模型，该三元组抽取模型体现了法律文书要素之间的关系。表2定义了三元组抽取模型，其中，实体、属性值由步骤42中深度学习模型分析出来，属性和关系由步骤42的语法关系信息得出。

步骤432，按照表2中的三元组抽取模型抽取步骤42的语义关系可以获得法律文书三元组信息，即获得法律文书要素之间的关系；

表2：法律文书三元组抽取模型如下：

步骤44.构建知识图谱。

本实施例中，步骤44具体为：

步骤441.将每个语句中的三元组以该语句主题词为中心构建语句级知识图谱，图谱的节包含三元组实体和属性值，图谱的边或者连线由三元组关系和属性构成。

步骤442.将语句级知识图谱构建成篇章级知识图谱，篇章级知识图主要框架由语句级知识图谱的语句标签构成。法律文书知识图谱示意图参见图5。图5中的{A1，A2...A9}由每个语句的主题词构成，图 5中{B11，B12...,B93}由三元组中实体2或属性值构成，图5中的曲线由三元组中的关系或属性构成。

步骤5，将已构建的法律文书知识图谱入库存储，具体为：

将法律文书知识图谱以一个N叉树的存储结构进行存储，并将存储节点与存储节点之间的节点关系设置为查询时的链接。

本实施例中，在二叉树的数据结构基础上，结合了知识图谱的结构特点，设计了一个N叉树的存储结构，并增加了存储节点之间的边即节点之间的关系，将存储节点之间的关系作为查询时的链接，从而大大提高了查询效率。

本实施例中，一种基于知识图谱的法律文书结构化入库系统，包括存储器和控制器，所述存储器内存储有计算机可读程序，所述计算机可读程序被控制器调用时能执行本实施例中所述基于知识图谱的法律文书结构化入库方法的步骤。

Claims

1.一种基于知识图谱的法律文书结构化入库方法，其特征在于，包括：

步骤1.获取相关法律文书；

步骤2.对法律文书进行预处理；

步骤3.根据候选语句对法律文书进行语句分类并标注；

步骤5.将已构建的法律文书知识图谱入库存储。

2.根据权利要求1所述的基于知识图谱的法律文书结构化入库方法，其特征在于，所述步骤2具体为：

对法律文书文本进行分句，其中，分句是按照中文标点符号里的句号、问号、感叹号为标志将段落文本分为语句，将文书的内容按照文本的顺序分成若干语句；

3.根据权利要求2所述的基于知识图谱的法律文书结构化入库方法，其特征在于，所述步骤3具体为：

4.根据权利要求1至3任一所述的基于知识图谱的法律文书结构化入库方法，其特征在于，所述步骤4包括：

步骤41.获取标注完成的文本；

步骤42.深度学习训练与语义分析；

步骤43.由三元组抽取模型生成法律要素三元组；

步骤44.构建知识图谱。

5.根据权利要求4所述的基于知识图谱的法律文书结构化入库方法，其特征在于，所述步骤42具体包括：

6.根据权利要求5所述的基于知识图谱的法律文书结构化入库方法，其特征在于，所述步骤43具体包括：

建立三元组抽取模型；

按照三元组抽取模型抽取深度学习训练与语义分析的语义关系获得法律文书的三元组信息，即获得法律文书要素之间的关系；其中，三元组由（实体1，关系，实体2）和（实体，属性，属性值）构成。

7.根据权利要求6所述的基于知识图谱的法律文书结构化入库方法，其特征在于，所述步骤44具体包括：

8.根据权利要求5至7任一所述的基于知识图谱的法律文书结构化入库方法，其特征在于，所述步骤5中，将法律文书知识图谱以一个N叉树的存储结构进行存储，并将存储节点与存储节点之间的节点关系设置为查询时的链接。

9.一种基于知识图谱的法律文书结构化入库系统，其特征在于，包括存储器和控制器，所述存储器内存储有计算机可读程序，所述计算机可读程序被控制器调用时能执行如权利要求1至8任一所述的基于知识图谱的法律文书结构化入库方法的步骤。