CN110597999A

CN110597999A - 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法

Info

Publication number: CN110597999A
Application number: CN201910706329.2A
Authority: CN
Inventors: 陈建峡; 张伟; 黄煜俊; 马忠宝; 张�杰
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2019-12-20

Abstract

本发明公开一种依存句法分析关系抽取模型的司法案件知识图谱构建方法。该方法首先对非结构化的裁判文书通过信息抽取技术转换为结构化的数据，然后对其进行分词、词性标注以及命名实体识别处理，接着通过依存句法分析关系抽取模型抽取出实体关系三元组。最后把三元组形式的数据批量导入到Neo4j图数据库，利用Neo4j实现裁判文书知识图谱的构建并对其进行可视化展示。依存句法分析关系抽取模型能有效的抽取出实体之间的关系并适用于不同的大规模语料库，具有较好的移植适用性。裁判文书知识图谱直观明了，能让用户便捷高效地掌握信息，为司法工作提供极大地便利。

Description

一种依存句法分析关系抽取模型的司法案件知识图谱构建方法

技术领域

本发明属于人工智能领域的自然语言处理技术领域，主要研究信息抽取和知识图谱技术问题，特别是涉及实体关系抽取的依存句法分析关系抽取模型的司法案件知识图谱构建方法。

背景技术

司法领域是一个比较庞大的知识体系，领域知识也比较复杂，随着司法案件数据量的不断增大，数据之间的关系也越来越复杂，只能处理简单数据关系的传统关系型数据库已无法胜任，知识图谱的兴起便是为了解决该难题。知识图谱是用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。近年来，知识图谱获得迅猛的发展，目前已成为分析学科领域热点和前沿的有力工具。

2012年5月份Google公司就首先提出了“知识图谱”的概念，旨在提升其搜索引擎性能而建立的知识库。Zhang等人认为知识图谱可以应用于展示领域知识整体结构、可视化分析检索结果；CiteSpaceⅡ软件是一款针对所采集到的数据进行知识图谱分析，专门用于在科学文献中识别并显示科学发展新趋势和新动态的软件；Wang等人借助CiteSpaceⅡ软件绘制了国际刑事司法研究领域的知识图谱，并作可视化分析，发现在国际刑事司法研究方面存在着注重理论与实证的两种趋势。

目前，国内知识图谱的研究内容主要集中在知识图谱的构建和知识表示学习与推理的方法。Wang等人通过知识图谱梳理了我国近年来司法鉴定学科的研究热点与演进趋势，客观地展示其研究成果，为相关人员提供直观的参考依据。

自然语言处理中的信息抽取是将半结构化数据的司法案件形成结构化信息，包括实体、实体间关系以及属性，帮助用户快速便捷地获取所需信息。而实体关系抽取作为信息抽取的子任务，通过依存句法分析关系抽取技术，分析句子中各个成分之间的依赖关系，进而揭示句子的句法结构，同时分析句子所包含的句法成分和这些句法成分之间的关系，抽取出主要成分之间的语义关系。依存句法分析关系抽取技术能有效的抽取出实体之间的关系并适用于不同的大规模语料库，具有较好的移植适用性。

综上所述，面向司法领域司法案件知识图谱的研究还是比较匮乏。为此，本发明提出了一种依存句法分析模型的司法案件知识图谱构建方法，采用依存句法分析模型对司法案件文本进行分词、词性标注、命名实体识别和依存句法分析等处理，获得例如原告、被告、案件类型等关键信息，再利用Neo4j图数据库对其进行整理和编译，将其整合成为结构化语义网络构建司法案件知识图谱，最终实现特定查询的功能并优化了信息获取的速度。

发明内容

本发明的目的在于提供一种依存句法分析关系抽取模型的司法案件知识图谱构建方法。包括对司法案件文本进行预处理。预处理主要包括三方面内容，分别是：分词、词性标注和命名实体识别。调用分词模块，对于输入的司法案件文本句子的子序列，会给句子中每个字标注一个词边界的标记，开始边界和结束边界中的内容就是一个词，这样便达到分词的效果；接着调用词性标注模块，依次对分词之后的结果进行词性的标注，标注的结果作为后续命名实体识别模块的输入；最后调用命名实体识别模块将依存句法分析关系抽取所需的关键实体从处理后的司法案件文本中抽取出来。然后，将三元组形式的数据信息录入到Neo4j图数据库，利用Neo4j实现司法案件知识图谱的构建并对其进行可视化展示。

为了达到上述目的，本发明所采用的技术方案是：一种依存句法分析关系抽取模型的司法案件知识图谱构建方法，其特征在于，包括如下步骤：

步骤1，数据预处理，利用ProcessOn软件把司法案件整理为两大类，第一类是在司法案件中出现的涉案人身份，第二类是司法案件中的涉案种类，形成司法案件知识导图；

步骤2，采用依存句法分析关系抽取模型对司法案件实体关系的抽取；

步骤3，司法案件中实体关系三元组构建，主要包括四个过程，分别是判断、抽取、筛选和整理；

步骤4，司法案件知识图谱的构建与可视化，抽取出来的实体关系三元组形成完整严谨的知识语言逻辑体系，成为司法案件知识图谱的理论基础，通过定义实体与实体之间的关系，能够定义涉案、种类、受理等多种关系，凭借着各种关系，多个不同实体间的关系就能够构成一套容纳司法案件中的实体与实体间关系的知识库。

进一步地，所述步骤2中对司法案件实体关系的抽取，包括：预处理和依存句法分析关系抽取模型，步骤2进一步包括：

步骤2.1，首先要对司法案件文本进行预处理，预处理主要包括三方面内容，分别是：分词、词性标注和命名实体识别；

步骤2.2，研发加入了丰富的全局特征和聚类特征的依存句法分析关系抽取模型，准确找出句子中主要成分的依存关系。

进一步地，所述步骤2.2中依存句法分析关系抽取模型，包括：特征向量输入、类型转换和循环，步骤2.2进一步包括：

步骤2.2.1，输入特征向量。其中包括：当前移位操作时栈和buffer中的部分词汇以及栈中部分单词的依赖单词；上述单词的词性和上述依赖单词的依赖关系；

步骤2.2.2，预测出对应的转换类型，进行相应的转换操作，更新配置信息，然后得到新的特征向量；

步骤2.2.3，将新的特征向量再输入模型中预测，如此循环，最后就能得到依存弧集合找出句子中主要成分的依存关系。

进一步地，所述步骤3中对司法案件构建实体关系三元组，主要包括四个过程，分别是判断、抽取、筛选和整理，步骤3进一步包括：

步骤3.1，判断，判断句子中是否有两个实体，并且判断以两个实体为基础的依存句法分析的内容集合是否具有实体之间的关系；

步骤3.2，抽取，将已判定为实体间的关系和两个实体抽取出来，并且以(实体，关系，实体)的三元组形式保存；

步骤3.3，筛选，抽取出来的实体关系三元组并不是一定有效的，所以需要去除不必要的三元组，筛选出高质量的有效三元组；

步骤3.4，整理，筛选之后的三元组具有重复性，虽然都是有效三元组，但是都表达一个意思的三元组只需要存在一个，同时，三元组也需要分类，三元组有部分描述人物关系，也有部分描述机构和地名实体关系，需要将所抽取和筛选的三元组进行分类整理，整理好不同类别的三元组可以使关系描述更加集中明确。

进一步地，所述步骤3.2中实体关系三元组的构建，包括采用三种方式，步骤3.2进一步包括：

步骤3.2.1，以依赖于实体的描述词语作为关系词的三元组；

步骤3.2.2，以“主谓宾”、“主系表”等形式产生的三元组；

步骤3.2.3，以描述实体的关系词和“主谓宾”等形式相结合的三元组。

进一步地，所述步骤3.3中筛选模型具有两个要求限制，步骤3.3进一步包括：

步骤3.3.1，实体关系三元组中的实体与关系词必须为文本所需要的；

步骤3.3.2，实体关系三元组中的关系能合理的描述两个实体之间的关系。

进一步地，所述步骤4中对司法案件知识图谱的构建与可视化，包括：司法案件实体关系分类、知识图谱构建和可视化，步骤4进一步包括：

步骤4.1，司法案件实体关系分类，司法案件知识图谱的实体节点数量很多，若要形成一个有明确知识架构的知识网络，就需要把相关的实体连接起来，即实体的关系，在这基础上，利用Neo4j图数据构建了司法案件知识图谱，同时，司法案件知识图谱的可视化也是利用Neo4j图数据库实现；

步骤4.2，司法案件知识图谱构建，利用Neo4j图数据库对实体及其关系分类后的数据信息进行存储，考虑到司法案件文本数量比较多，因此需要批量入库；

步骤4.3司法案件知识图谱可视化，完成数据的全部导入工作后，便能够使用Cypher语言对生成的知识图谱进行操作以及可视化。

进一步地，所述步骤4.2中司法案件知识图谱构建需要信息格式转换和批量导入代码，步骤4.2进一步包括：

步骤4.2.1，首先将数据信息全部整合并转化为csv格式文件，采用“neo4j-adminimport--mode＝csv”的方式，将csv文件批量导入到Neo4j图数据库中，并在Neo4j图数据库中构建知识图谱体系；

步骤4.2.2，通过在Neo4j中输入实体节点批量导入代码，便能实现实体节点批量入库操作，在这基础上，利用Neo4j图数据构建了司法案件知识图谱。

进一步地，所述步骤4.3中司法案件知识图谱可视化，具有知识查询和拓展查询可视化两种功能，步骤4.3进一步包括：

4.3.1知识查询可视化，通过Cypher语言查询数据库中的数据，可将查询结果以图形化的方式展现，点击实体节点还能展示其全部的属性，从而可以便捷高效地掌握信息，也同时为司法工作提供极大地便利；

4.3.2拓展查询可视化，当使用拓展查询时，也能通过Cypher语句得到关于该实体的拓展信息。

本发明的有益效果是：面对公开的海量案件信息，本发明能够对海量的法院案件文本进行主题分类，汇总成一个关于整个案件体系的知识图谱，为法院案件的知识融合和系统化提供了有利支持。

其中，利用依存句法分析关系抽取模型，通过依存句法分析来识别句子中的“主谓宾”、“主系表”和定状补等语法关系，从中分析各单位之间的关系，并从句子中抽取这样的关系，并列为三元组的方式作为实体之间的关系。该模型从复杂繁琐的中文文档中，简单有效的抽取其中的实体关系，达到80％的准确率。与其他关系抽取模型相比，本模型适用于多种语料库并且提升了20％的准确度，说明了本模型可以有效的解决中文实体关系抽取的困难。

同时，本发明对抽取的实体三元组实现了三元组抽取优化算法，通过判断、抽取、筛选和整理等四个过程，筛选出高质量的有效三元组。并且能够对三元组进行分类整理，能够分别描述人物，机构和地名等实体关系，使司法案件实体关系描述更加集中明确。

最后，本发明基于抽取的实体关系数据，利用Neo4j图数据库实现司法案件知识图谱的构建与可视化，并实现了特定查询的功能。其中，实现案件名称、作案人员以及其相互关系为主题的可视化展示，为实现法务工作者快速、有效的、全面了解案件信息提供了很好的解决方案。

附图说明

图1是本发明知识图谱构建流程图；

图2是本发明依存句法分析算法流程图；

图3是本发明三元组抽取算法流程图；

图4是本发明司法案件案例图；

图5是本发明司法案件预处理结果图；

图6是本发明司法案件文本依存句法分析部分结果图；

图7是本发明实体关系三元组构建结果图；

图8是本发明不同语料库的关系抽取实验结果图；

图9是本发明对比实验结果图；

图10是实体关系分类表；

图11是实体节点批量导入关键代码；

图12是实体关系批量导入关键代码；

图13是司法案件知识图谱部分展示；

图14是“行初字”知识图谱展示；

图15是实体节点部分属性展示；

图16是“刑事案件”拓展查询部分结果展示。

具体实施方式

下面结合附图对本发明做进一步说明：

如图1所示的本发明知识图谱构建流程图。知识图谱的构建需要借助来自不同研究领域的研究成果。通过知识抽取技术，从不同形式的数据源获取知识图谱构建的各类知识。采用知识融合剔除各类不合适的知识，提高知识图谱的质量与性能。

如图2所示的本发明依存句法分析算法流程图。依存句法分析算法加入了丰富的全局特征和聚类特征，以便更能准确找出句子中主要成分的依存关系。首先输入特征向量，然后预测出对应的转换类型，预测出转换类型就进行相应的转换操作，这样就更新了配置信息，然后得到新的向量，再输入模型中预测，如此循环。最后就能得到依存弧集合找出句子中主要成分的依存关系。

如图3所示的本发明三元组抽取算法流程图，根据文本句子描述的特性，将句子中的关键信息以三元组的形式抽取出来，并对三元组进行有效性的筛选和整理，构成最适合需求的实体关系三元组。

如图4所示的本发明司法案件案例图，采用法院的司法案件作为语料库。

如图5所示的本发明司法案件预处理结果图，是司法案件文本经过预处理之后的部分结果。

如图6所示的本发明司法案件文本依存句法分析部分结果图，是预处理后的司法案件文本经过依存句法分析的部分结果。

如图7所示的本发明实体关系三元组构建结果图，是司法案件文本的实体关系三元组构建的最终结果部分截图，司法案件文本里的主要人物及其身份都被抽取出来。

如图8所示的本发明不同语料库的关系抽取实验结果图，是为了分析依存句法分析关系抽取技术在不同的语料库下的实验结果，在搜狗新闻语料库和司法案件下使用分析依存句法分析关系抽取技术进行了实体关系抽取，搜狗新闻语料库随机抽取2000个文本，司法案件随机抽取5000个文本进行实验，实验结果表明分析依存句法分析关系抽取技术可以有效的从司法案件中抽取出实体关系三元组，并且实体关系三元组的的准确率接近80％；而在不同的语料库上，分析依存句法分析关系抽取技术都表现出不错的效果，说明其适用于不同的大规模语料库，具有较好的移植适用性。

如图9所示的本发明对比实验结果图，是为了比较不同的实体关系抽取技术的准确性，在搜狗新闻语料库上使用分析依存句法分析关系抽取技术和基于卷积的无监督聚类实体关系抽取技术进行对比实验，实验结果表明分析依存句法分析关系抽取技术更能有效的抽取出实体之间的关系，也保证了有很好的准确率，召回率和F1值，其中F1值比基于卷积的无监督聚类技术提高了约15％，充分说明分析依存句法分析关系抽取技术的可靠性。

如图10所示的本发明实体关系分类表，司法案件知识图谱的实体节点数量很多，若要形成一个有明确知识架构的知识网络，就需要把相关的实体连接起来，即实体的关系。实体关系分类表展示了各实体之间可能会有的关系，依据这些具体的关系能够将相关实体都联系起来。

如图11所示的实体节点批量导入关键代码，考虑到司法案件文本数量比较多，因此需要对实体分类后的数据信息进行批量入库存储。首先将实体数据信息全部整合并转化为csv格式文件，通过在Neo4j中输入实体批量导入代码，便能实现实体批量入库操作。

如图12所示的实体关系批量导入关键代码，考虑到司法案件文本数量比较多，因此需要对实体关系分类后的数据信息进行批量入库存储。首先将实体关系数据信息全部整合并转化为csv格式文件，通过在Neo4j中输入实体关系批量导入代码，便能实现实体关系批量入库操作。采用“neo4j-admin import--mode＝csv”的方式，在Neo4j图数据库中构建知识图谱体系。

如图13所示的司法案件知识图谱部分展示，将实体csv文件和实体关系csv文件全部导入Neo4j图数据库后，便能够使用Cypher语言对生成的知识图谱进行操作以及可视化。鉴于司法案件文本数量比较多并且可视化空间有限，绘制完成的司法案件知识图谱只展示了部分实体和实体关系。

如图14所示的“行初字”知识图谱展示，是以“行初字”为关键词查询得到的知识图谱展示图。通过Cypher语言查询数据库中的数据，可将查询结果以图形化的方式展现。

如图15所示的实体节点部分属性展示，是点击实体节点“杜海龙”的部分属性。点击实体节点能够展示其全部的属性，从而可以便捷高效地掌握信息，同时为司法工作提供极大地便利。

如图16所示的“刑事案件”拓展查询部分结果展示，是当使用拓展查询时，也能通过Cypher语句得到关于该实体的拓展信息，如查询刑事案件的拓展信息，拓展查询可视化部分结果展示。

总结：本发明公开了依存句法分析关系抽取模型的裁判文书知识图谱构建方法。该方法从海量的非结构化的裁判文书中抽取有价值的信息，解决司法领域办案过程中所需知识分散、不完备、查询不便等问题。

首先对非结构化的裁判文书通过信息抽取技术转换为结构化的数据，然后对其进行分词、词性标注以及命名实体识别处理，接着通过依存句法分析关系抽取模型抽取出实体关系三元组。最后把三元组形式的数据批量导入到Neo4j图数据库，利用Neo4j实现裁判文书知识图谱的构建并对其进行可视化展示。

依存句法分析关系抽取模型从裁判文书中抽取实体关系三元组的F1值达到78.77％，并且F1值比基于卷积的无监督聚类实体关系抽取模型的F1值提高了约15％。裁判文书知识图谱成功可视化并能够进行特定查询功能。

依存句法分析关系抽取模型能有效的抽取出实体之间的关系并适用于不同的大规模语料库，具有较好的移植适用性。裁判文书知识图谱直观明了，能让用户便捷高效地掌握信息，为司法工作提供极大地便利。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或者示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实例做各种各样的修改或补充或者采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种依存句法分析关系抽取模型的司法案件知识图谱构建方法，其特征在于，包括如下步骤：

步骤4，司法案件知识图谱的构建与可视化，抽取出来的实体关系三元组形成完整严谨的知识语言逻辑体系，成为司法案件知识图谱的理论基础，通过定义实体与实体之间的关系，能够定义涉案、种类、受理多种关系，凭借着各种关系，多个不同实体间的关系就能够构成一套容纳司法案件中的实体与实体间关系的知识库。

2.根据权利要求1所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法，其特征在于，所述步骤2中对司法案件实体关系的抽取，包括：预处理和依存句法分析关系抽取模型，步骤2进一步包括：

步骤2.1，首先要对司法案件文本进行预处理，预处理包括三方面内容，分别是：分词、词性标注和命名实体识别；

步骤2.2，采用全局特征和聚类特征的依存句法分析关系抽取模型，找出句子中主要成分的依存关系。

3.根据权利要求2所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法，其特征在于，所述步骤2.2中依存句法分析关系抽取模型，包括：特征向量输入、类型转换和循环，步骤2.2进一步包括：

步骤2.2.1，输入特征向量，其中包括：当前移位操作时栈和buffer中的部分词汇以及栈中部分单词的依赖单词；上述单词的词性和上述依赖单词的依赖关系；

4.根据权利要求1所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法，其特征在于，所述步骤3中对司法案件构建实体关系三元组，包括四个过程，分别是判断、抽取、筛选和整理，步骤3进一步包括：

步骤3.2，抽取，将已判定为实体间的关系和两个实体抽取出来，并且以实体，关系，实体的三元组形式保存；

步骤3.4，整理，筛选之后的三元组具有重复性，虽然都是有效三元组，但是都表达一个意思的三元组只需要存在一个，同时，三元组也需要分类，三元组有部分描述人物关系，也有部分描述机构和地名实体关系，需要将所抽取和筛选的三元组进行分类整理。

5.根据权利要求4所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法，其特征在于，进一步地，所述步骤3.2中实体关系三元组的构建，包括采用三种方式，步骤3.2进一步包括：

步骤3.2.1，以依赖于实体的描述词语作为关系词的三元组；

步骤3.2.2，以“主谓宾”、“主系表”形式产生的三元组；

步骤3.2.3，以描述实体的关系词和“主谓宾”形式相结合的三元组。

6.根据权利要求4所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法，其特征在于，所述步骤3.3中筛选模型具有两个要求限制，步骤3.3进一步包括：

步骤3.3.2，实体关系三元组中的关系能够描述两个实体之间的关系。

7.根据权利要求1所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法，其特征在于，所述步骤4中对司法案件知识图谱的构建与可视化，包括：司法案件实体关系分类、知识图谱构建和可视化，步骤4进一步包括：

步骤4.1，司法案件实体关系分类，利用Neo4j图数据构建司法案件知识图谱，同时，利用Neo4j图数据库实现司法案件知识图谱的可视化；

步骤4.2，司法案件知识图谱构建，利用Neo4j图数据库对实体及其关系分类后的数据信息进行存储，考虑到司法案件文本数量多，因此要批量入库；

步骤4.3，司法案件知识图谱可视化，完成数据的全部导入工作后，便能够使用Cypher语言对生成的知识图谱进行操作以及可视化。

8.根据权利要求7所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法，其特征在于，所述步骤4.2中司法案件知识图谱构建需要信息格式转换和批量导入代码，步骤4.2进一步包括：

步骤4.2.2，通过在Neo4j中输入实体节点批量导入代码，便能实现实体节点批量入库操作，在这基础上，利用Neo4j图数据构建司法案件知识图谱。

9.根据权利要求7所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法，其特征在于，所述步骤4.3中司法案件知识图谱可视化，具有知识查询和拓展查询可视化两种功能，步骤4.3进一步包括：

4.3.1知识查询可视化，通过Cypher语言查询数据库中的数据，能够将查询结果以图形化的方式展现，点击实体节点还能展示其全部的属性；