CN110879842A

CN110879842A - 一种基于信息抽取的法律知识图谱构建方法

Info

Publication number: CN110879842A
Application number: CN201910980158.2A
Authority: CN
Inventors: 黄焱晖; 毕胜; 漆桂林; 陈佳敏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2020-03-13

Abstract

本发明涉及一种基于信息抽取的法律知识图谱构建方法，所述方法包括以下步骤：步骤1)从网络中爬取大量法律文书和法律实体；步骤2)从百度百科中抽取和法律相关的法律实体；步骤3)融合爬取得到的法律实体和百度百科中抽取得到的法律实体，并将法律实体链接至法律文书，构建法律实体与法律文书之间的网络；步骤4)利用实体描述和实体名称构建实体网络，基于实体结构信息构建实体相似度网络。步骤5)抽取法律文书中的三元组，结合法律实体构建法律知识图谱。

Description

一种基于信息抽取的法律知识图谱构建方法

技术领域

本发明涉及一种图谱构件方法，具体涉及一种基于信息抽取的法律知识图谱构建方法，属于知识图谱技术领域。

背景技术

知识图谱技术日益成为人工智能的基础，它是机器理解自然语言和构建知识图谱的重要方法。近年来，知识图谱在司法领域的运用悄然兴起,它帮助从业人员快速地在线检索相关的法务内容，从而提高法院审判工作质量和效率。

知识图谱表达的知识方法与人类认知的模式相一致。与自然语言表达语义的方式相一致，对领域的概念分类、分层也一致，可以叠加无限的维度，允许知识与语言相对独立的相关性。这其实跟知识图谱技术、方法的本质有关系。法律知识体系是多种逻辑的结合。法律的知识体系非常复杂，可以从法律法规自上而下构建体系，也可以从法学概念的相关性去构建体系。成文法体系。中国是一个成文法体系的国家，它跟英美不同，不是遵循先例的角度去看。这就有了一个条件，业界可能用一种比较统一的方法去处理整个中国的法律知识。专业领域的知识图谱的构建和百科类知识的融合和构建不同，需要非常严格的专家指导和监督。百度类的知识图谱搭建属于起步阶段，专业领域内的知识图谱构建更是处于初级阶段，要经历非常长时间的发展。

现代信息技术正在推动司法领域的深刻变革，随着中国司法制度的日趋完善，以及中国裁判文书网等案件公示网的建立，大量的法律文书充斥在互联网上。同时互联网上还含有大量的法律相关实体，构建法律文书和法律实体的法律知识图谱对于类案发现和智能判决等相关司法应用有着举足轻重的作用。

发明内容

本发明正是针对现有技术中存在的问题，提供一种基于信息抽取的法律知识图谱构建方法，该技术方案能够辅助判决和辅助类案发现的法律知识图谱。同时，本发明从网络上爬取法律文书和法律实体，并融合从百度百科中抽取得到的法律相关实体，通过SIMRANK算法构建法律实体相似度网络，将实体链接至法律文书，并将法律文书中案件要素三元组通过规则和模板抽取出来，构建法律知识图谱。

为了实现上述目的，本发明的技术方案如下，一种基于信息抽取的法律知识图谱构建方法，所述方法包括以下步骤：

步骤1)从网络中爬取大量法律文书和法律实体；

步骤2)从百度百科中抽取和法律相关的法律实体；

步骤3)融合爬取得到的法律实体和百度百度中抽取得到的法律实体，并将法律实体链接至法律文书，构建法律实体与法律文书之间的网络；

步骤4)利用实体描述和实体名称构建实体网络，基于实体结构信息构建实体相似度网络；

步骤5)抽取法律文书中的三元组，结合法律知识网络构建法律知识图谱。

对于从百度百科中抽取和法律相关的实体，利用实体摘要作为输入，利用构建好的分类器，对于实体进行二分类。

分类器的构建在于正例集即法律实体集合的构建和负例集即非法律实体集合的构建。

正例集的选取从网络上爬虫获取的法律实体，负例集的构建方式为将百度百科中的实体链接至法律文书中，将从未在法律文书中出现过的百度百科中的实体作为负例候选集，并从中筛选出和正例集数目一致的实体集合作为负例集。

对于实体的分类器，我们选用SVM，特征提取方式为TF-IDF。

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆向文件频率(Inverse Document Frequency)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TF计算方法如下：

IDF计算式如下：

通过TF-idf就可以得到一个m维的向量，其中m取决于出现在所有案情描述文本的不同词语。

SVM(Support Vector Machine)指的是支持向量机，是常见的一种判别方法。在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。

SVM模型输入为X＝(f₁,f₂,…,f_n),Y＝0|1|2|3|4|5|6|7，SVM模型的求解就是求最优化的超平面Y＝wX+b,能够将属于不同的Y的点分开，在本发明中，即将是否为法律实体分开。

将一个实体描述的正文中含有的其他实体，通过实体名字符串匹配的方法链接起来，得到实体网络，但是该网络中边的权重都为1，可以通过SIMRANK方法得到网络中边的权重。SIMRANK的主要计算方式如下所示：

s(a,b)代表结点a和结点b的相似程度，当结点a和结点b是同一个结点时，s(a,b)为1，

时或者

时，s(a,b)为0。I_i(a)代表结点a第i个有边相连的邻居结点。I_j(b)代表结点b第j个有边相连的邻居结点。

相对于现有技术，本发明具有如下优点，1)法律文书中含有大量的法律知识和可以总结的法律术语，本方法预先从百度百科中的实体抽取出法律相关实体，通过实体链接至法律文书，对于法律文书利用信息抽取技术从法律文书中抽取出三元组；2)经过实验分析证明，利用本方法构建的法律知识图谱对于相似法律文书推荐和智能司法判决有着重要的作用，本文从相似法律文书推荐和智能判决的准确度上印证了本文构建的法律知识图谱的重要作用。3)相比于目前大多数知识图谱构建的方式，本方法利用法律文书和法律实体更好的构建了法律知识之间的图结构的关系，利用互联网知识，获取到法律文书和法律实体，相比于其他的领域知识图谱，来源更加广泛，数据信息获取更加简单，并且利用信息抽取等技术，将杂乱的数据整理成规格化的三元组信息，对于数据的查询更加快捷，相比于以往其他的知识图谱图谱构建技术，减少了大量人工的参与，是一种自动化的方法。考虑到结合了裁判文书的信息，本方法构建的知识图谱对于类案推荐，罪名预测等法律应用有着更好的作用。4)相比于以往的方法，本方法结合了互联网中的法律知识和法律文书中的相关专业法律知识和法律术语，构建的法律知识图谱更加全面，覆盖面更广，实用价值更高。

附图说明

图1是本发明的基本过程示意图；

图2是层次体系结构构建算法图。

具体实施方式：

为了加深对本发明的理解，下面结合附图对本实施例做详细的说明。

实施例1：参见图1，一种基于信息抽取的法律知识图谱构建方法，所述方法包括以下步骤：

步骤1)从网络中爬取大量法律文书和法律实体；

步骤2)从百度百科中抽取和法律相关的法律实体；

步骤4)利用实体描述和实体名称构建实体网络，基于实体结构信息构建实体相似度网络。

步骤5)抽取法律文书中的三元组，结合法律实体构建法律知识图谱。

所述步骤3)具体如下：

1)对于从百度百科中抽取和法律相关的实体，利用实体摘要作为输入，利用构建好的分类器，对于实体进行二分类；

分类器的构建在于正例集即法律实体集合的构建和负例集即非法律实体集合的构建；

正例集的选取从网络上爬虫获取的法律实体，负例集的构建方式为将百度百科中的实体链接至法律文书中，将从未在法律文书中出现过的百度百科中的实体作为负例候选集，并从中筛选出和正例集数目一致的实体集合作为负例集；

对于实体的分类器，选用SVM，特征提取方式为TF-IDF；

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆向文件频率(Inverse Document Frequency)，TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TF计算方法如下：

IDF计算式如下：

SVM(Support Vector Machine)指的是支持向量机，是常见的一种判别方法，在机器学习领域，是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。

所述步骤4)中，将一个实体描述的正文中含有的其他实体，通过实体名字符串匹配的方法链接起来，得到实体网络，但是该网络中边的权重都为1，可以通过SIMRANK方法得到网络中边的权重，SIMRANK的主要计算方式如下所示：

s(a,b)代表结点a和结点b的相似程度，当结点a和结点b是同一个结点时，s(a,b为1，

时或者

应用实施例：参见图1、图2，一种基于信息抽取的法律知识图谱构建方法，下面结合实施例和说明书附图对本发明作进一步的说明。

本发明的基于信息抽取的法律知识图谱构建方法，包括以下几个步骤：

1)利用爬虫技术，从网络中爬取裁判文书和法律实体。对于爬取得到的法律文书，撰写规则对于文书做分段处理。详细步骤如下：

(1)中国裁判文书网的法律文书覆盖面全，文书质量较高，本实施例中以它作为文书的来源。

(2)撰写规则对于文书做一个基本处理，例如将文书处理为大致分为以下段落：法院，当事人信息，案号，审判人员，一审法院查明，一审请求情况，本院认为，审判结果，一审答辩情况，二审请求情况，一审法院认为，文书类型，案例描述，相关法条，审判日期，审理经过，本院查明，书记员，标题。

(3)法律实体含有以下属性：实体名，摘要，内链，标签，类别，相关实体。

2)从百度百科中抽取和法律相关的实体，抽取方式，本文采取文本分类的方法，将实体摘要作为特征，训练集的正例集为爬取得到的法律实体，负例集为人工标注得到的非法律实体。法律实体是以下数据形式：

非法律实体是以下数据形式：

采用分类技术是TFIDF+SVM，首先利用TFIDF方法将待分类的实体摘要转化为向量，SVM作为分类器，对于得到的实体摘要进行判定，判断该实体摘要的实体是否为法律相关实体。

首先对于摘要进行分词，例如对于“盗窃罪”的摘要进行分词得到以下结果：盗窃罪/刑法/264/条/指以/非法占有/目的/秘密/窃取/数额较大/公私/财物/多次/秘密/窃取/公私/财物/行为。对于“香蕉”的摘要进行分词得到以下结果：香蕉/学名/Musa/nana//Lour/芭蕉/科/芭蕉/属/植物/指其/果实/热带地区/广泛/种植/香蕉/味香/富含/营养/植株/大型/草本/根状茎/发出/叶鞘/下部/形成/高/公尺/10/20/尺/假杆/叶长/圆形/椭圆形/长达/3.5/公尺/10/11.5/尺/宽/65/公分/26/寸/10/20/枚/簇生/茎/顶/穗状花序/下垂/假杆/顶端/抽出/花/多数/淡黄色/果序/弯/垂/10/20/串/约/50/150/植株/枯死/根状茎/长出/吸根/继续/繁殖/一根/株/可活/多年/原产/亚洲/东南部/台湾/海南/广东/广西/均/栽培。利用TFIDF方法将分词过后的实体摘要转化为向量，“盗窃罪”实体摘要向量为(0.02493874，0.04562989，……)，“香蕉”实体摘要向量为(0.04164625，0.02082312，……)。两者的向量维度为200维。将实体摘要向量和相应的标签，本方法设置法律相关的标签为1，和法律无关的标签为0。训练得到SVM分类器，分类器相关准确率，召回率和F1值为accuracy_score:0.979,recall_score:0.979,f1_score:0.977，并将待分类的实体摘要转化为TF-IDF向量，并输入到分类器中，根据预测结果筛选出百度百科中和法律相关的实体，对于筛选得到的法律实体和爬取得到法律实体进行融合，融合的方法采用实体名匹配和摘要匹配的方法。对于实体名相同且实体摘要相似程度达到50％的实体视为同一实体，保留爬取得到的实体，删除筛选得到的实体。

3)将法律实体链接至法律文书，首先利用双向LSTM和CRF做命名实体识别，识别出命名实体指称，和法律实体名做字符串匹配，得到候选实体，出现多个候选实体时，匹配实体所在句子和实体摘要的语义相似度，挑选最相近的实体作为链接实体。链接实体的结果为实验结果为准确率86.21％,召回率为89.69％，F1值为87.91％。

4)利用实体内链和实体名称构建实体网络。实体网络中的结点为所有法律实体，总数为27345个，通过实体内链将所有实体连接起来。其中边的权重计算方式为SIM-RANK方法，例如“抢劫罪”和“抢夺罪”两个实体的相似程度为“0.98”。

5)从法律文书中抽取三元组，作为法律知识图谱中的三元组，抽取方式为模板匹配和NER。抽取得到如下所示三元组：

被告人-职业-无业

被告人-学历-初中

法律文书-文书类型-判决书。

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。