CN114372153A - 基于知识图谱的法律文书结构化入库方法及系统 - Google Patents
基于知识图谱的法律文书结构化入库方法及系统 Download PDFInfo
- Publication number
- CN114372153A CN114372153A CN202210011124.4A CN202210011124A CN114372153A CN 114372153 A CN114372153 A CN 114372153A CN 202210011124 A CN202210011124 A CN 202210011124A CN 114372153 A CN114372153 A CN 114372153A
- Authority
- CN
- China
- Prior art keywords
- legal
- sentence
- knowledge
- graph
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开的一种基于知识图谱的法律文书结构化入库方法及系统,包括以下步骤:步骤1.获取相关法律文书;步骤2.对法律文书进行预处理;步骤3.根据候选语句对法律文书进行语句分类并标注;步骤4.对分类标注完成后的语句做语义分析,并对分析后的结果通过三元组抽取模型生成法律要素三元组,将法律要素三元组构建成法律文书知识图谱;步骤5.将已构建的法律文书知识图谱入库存储。本发明能够将法律文书非结构化的文本信息结构化,提高了获取法律文书中信息的效率。
Description
技术领域
本发明属于数据处理技术领域,特别是涉及一种基于知识图谱的法律文书结构化入库方法及系统。
背景技术
随着社会的高速发展,在法律领域法律事务电子化、信息化的需求越来越高。结合人工智能、大数据、云计算等技术的智慧法务在法律领域需求增长很快。在这些技术中需要海量的数据做支撑,所以卷宗信息提取是至关重要的一个环节。面对传统的卷宗以段落为主的大颗粒度信息提取现状,这种大颗粒度的数据在智慧法务的信息技术中难以提供有效的数据支撑。
因此,有必要开发一种新的基于知识图谱的法律文书结构化入库方法及系统。
发明内容
本发明的目的是提供一种基于知识图谱的法律文书结构化入库方法及系统,能将法律文书非结构化的文本信息结构化,以提高获取法律文书中信息的效率。
第一方面,本发明所述的一种基于知识图谱的法律文书结构化入库方法,包括以下步骤:
步骤1.获取相关法律文书;
步骤2.对法律文书进行预处理;
步骤3.根据候选语句对法律文书进行语句分类并标注;
步骤4.对分类标注完成后的语句做语义分析,并对分析后的结果通过三元组抽取模型生成法律要素三元组,将法律要素三元组构建成法律文书知识图谱;
步骤5.将已构建的法律文书知识图谱入库存储。
可选地,所述步骤2具体为:对法律文书文本进行分句,其中,分句是按照中文标点符号里的句号、问号、感叹号为标志将段落文本分为语句,将文书的内容按照文本的顺序分成若干语句;
去除分句完成后的法律文书中的辅助句子,辅助句子具有如下特征:形式上是句子的句首与句尾有括号,内容上是附录的内容。
可选地,所述步骤3具体为:
步骤31,设置特征字符语句标注模板集,该特征字符语句标注模板集包括有至少一个特征字符,其中,所述特征字符为法律文件的句首部分文字;对预处理后的法律文书,通过与特征字符语句标注模板集中的各特征字符进行文本匹配,若匹配成功,则对含有特征字符的句子进行标注;
步骤32,设置正则表达式语句标注模板集,该正则表达式语句标注模板集包括有至少一个正则表达式,其中,所述正则表达式由数字和特征字符构成;将未被步骤31标注的部分,与正则表达式语句标注模板集中的各正则表达式进行匹配,若匹配成功,则对法律文中匹配到的语句进行标注;
步骤33,利用PKU98语料库来训练词性分析标注模型,得到词性分析标注模型的参数;通过训练好的词性分析标注模型对未被步骤31和步骤32标注的部分进行词性和命名实体的联合标注。
可选地,所述步骤4包括:
步骤41.获取标注完成的文本;
步骤42.深度学习训练与语义分析;
步骤43.由三元组抽取模型生成法律要素三元组;
步骤44.构建知识图谱。
可选地,所述步骤42具体包括:
采用ChineseStanfordDependencies依存关系标注集制作的语料库训练Bert深度学习模型来分析语句中的词与词的语法关系,语句中的语法关系由ChineseStanfordDependencies依存关系标注集构成。
可选地,所述步骤43具体包括:
建立三元组抽取模型;
按照三元组抽取模型抽取深度学习训练与语义分析的语义关系获得法律文书的三元组信息,即获得法律文书要素之间的关系;其中,三元组由(实体1,关系,实体2)和(实体,属性,属性值)构成。
可选地,所述步骤44具体包括:
将每个语句中的三元组以对应的语句主题词为中心构建语句级知识图谱,知识图谱的节包含三元组实体和属性值,知识图谱的边由三元组关系和属性构成;
将语句级知识图谱构建成篇章级知识图谱,篇章级知识图谱的框架由语句级知识图谱的语句标签构成。
可选地,所述步骤5中,将法律文书知识图谱以一个N叉树的存储结构进行存储,并将存储节点与存储节点之间的节点关系设置为查询时的链接。
第二方面,本发明所述的一种基于知识图谱的法律文书结构化入库系统,包括存储器和控制器,所述存储器内存储有计算机可读程序,所述计算机可读程序被控制器调用时能执行如基于知识图谱的法律文书结构化入库方法的步骤。
本发明具有以下优点:
(1)提出了三种分类标注方法,分别为特征字符匹配、正则表达式匹配、词性标注模板结合基于深度学习的次性分析,利用这三种方法分别从三个角度由简单到复杂完成法律文书语句的分类并标注,能够快速、高效地完成文本分类和标注。
(2)法律要素三元组抽取模型是在分析法律文书特点的基础上提出的,该抽取模型结合基于Bert 的依存语义分析深度学习可以抽取法律文书中语句中的语法关系,这种方法能够在没有或相关专业数据集不充足的情况下达到比较好的效果。
(3)在二叉树的数据结构基础上,结合知识图谱的结构特点,设计了一个N叉树的存储结构,并增加了存储节点之间的边即节点之间的关系,将节点之间的关系作为查询时的链接,从而大大提高了查询效率。
附图说明
图1是本实施例的原理框图;
图2是本实施例的流程图;
图3是本实施例中语句分类标注的流程示意图;
图4是本实施例中知识图谱构件的流程示意图;
图5是本实施例中法律文书知识图谱示意图。
具体实施方式
下面结合附图对本发明作进一步说明。
参见图1,本实施例中,一种基于知识图谱的法律文书结构化入库方法,首先在法律文书相关网站获取法律文书,然后对法律文书进行预处理,预处理包括对法律文书进行文本分句与去噪。然后对候选语句进行分类并标注。接着将标注后的语句进行依存语义分析,结合三元组抽取模型生成法律要素三元组,再将三元组构建成语句级知识图谱,综合前面的语句分类信息将语句级知识图谱构建成文书级知识图谱,最后针对知识图谱设计的数据存储结构存入已构建的知识图谱。
参见图2,本实施例中,一种基于知识图谱的法律文书结构化入库方法,具体包括以下步骤:
步骤1.获取法律文书。
本实施例中,在法律文书网或者裁判文书上获取相关法律文书。
步骤2.对法律文书进行预处理。
本实施例中,步骤2具体包括以下步骤:
步骤21.对法律文书文本进行分句,分句是按照中文标点符号里的句号、问号、感叹号为标志将段落文本分为语句,此将文书的内容按照文本的顺序分成若干语句。
步骤22.去除分句完成后的法律文书中的辅助句子,辅助句子具有如下特征:形式上是句子的句首与句尾有括号;内容上是附录的内容。
步骤3.根据候选语句对法律文书进行语句分类并标注,对预处理后的法律文书进行语句分类并标注分为三个类别,分别为结合特征字符进行文本匹配并标注(第一类)、结合正则表达式进行文本标注(第二类)以及基于神经网络的词性分析结合词性标注模板集进行标注(第三类)。
本实施例中,步骤3具体为:
步骤31,设置特征字符语句标注模板集(参见表1的第三部分),该特征字符语句标注模板集包括有至少一个特征字符,其中,所述特征字符为法律文件的句首部分文字;对预处理后的法律文书,通过与特征字符语句标注模板集中的各特征字符进行文本匹配,若匹配成功,则对含有特征字符的句子进行标注;即图3中的结合特征字符进行文本匹配并标注。
步骤32,设置正则表达式语句标注模板集(参见表1的第二部分),该正则表达式语句标注模板集包括有至少一个正则表达式,其中,所述正则表达式由数字和特征字符构成;将未被步骤31标注的部分,与正则表达式语句标注模板集中的各正则表达式进行匹配,若匹配成功,则对法律文中匹配到的语句进行标注;即图3中的结合正则表达式进行标注。正则表达式内容是对应类别语句的内容,但在语句中没有特定位置信息,需要文本匹配一整句话才能够正确分类。
步骤33,利用PKU98语料库来训练词性分析标注模型,得到词性分析标注模型的参数;通过训练好的词性分析标注模型对未被步骤31和步骤32标注的部分进行词性和命名实体的联合标注;即基于神经网络的词性分析结合词性标注模板集(参见表1的第一部分,这部分由词性和命名实体构成,大写字母为词性标签,括号内文字为实体标签)进行标注。这种句子标注方法与文本分类方法的差异在于,文本分类方法需要大量的专业领域数据,获取这些数据集难度大,而人工制作数据集存在数据集一致性问题,导致后续分类效果较差。本方法提出的词性标注模板,特征明显,数量较少,制作难度小,且后续匹配准确率较高。
表1:法律文书语句标注模板集如下:
步骤4.对分类标注完成后的语句做语义分析,并对分析后的结果通过三元组抽取模型生成法律要素三元组,将法律要素三元组构建成法律文书知识图谱。
本实施例中,参见图4,步骤4具体为:
步骤41.获取标注完成的文本。
步骤42.深度学习训练与语义分析。
本实施例中,步骤42具体为;
步骤421,语义分析是基于依存句法分析的Bert深度学习模型,采用ChineseStanfordDependencies 依存关系标注集制作的语料库训练Bert深度学习模型。
步骤422,训练好的网络可分析语句中的词与词的语法关系,语句中的语法关系由ChineseStanfordDependencies依存关系标注集构成。分析含有标签的语句,保存语句语义关系信息。
步骤43.由三元组抽取模型生成法律要素三元组。
本实施例中,步骤43具体为:
步骤431,三元组由(实体1,关系,实体2)和(实体,属性,属性值)这种形式构成,依据这种形式结合法律文书,本实施例中提出了关于法律文书的三元组抽取模型,该三元组抽取模型体现了法律文书要素之间的关系。表2定义了三元组抽取模型,其中,实体、属性值由步骤42中深度学习模型分析出来,属性和关系由步骤42的语法关系信息得出。
步骤432,按照表2中的三元组抽取模型抽取步骤42的语义关系可以获得法律文书三元组信息,即获得法律文书要素之间的关系;
表2:法律文书三元组抽取模型如下:
步骤44.构建知识图谱。
本实施例中,步骤44具体为:
步骤441.将每个语句中的三元组以该语句主题词为中心构建语句级知识图谱,图谱的节包含三元组实体和属性值,图谱的边或者连线由三元组关系和属性构成。
步骤442.将语句级知识图谱构建成篇章级知识图谱,篇章级知识图主要框架由语句级知识图谱的语句标签构成。法律文书知识图谱示意图参见图5。图5中的{A1,A2...A9}由每个语句的主题词构成,图 5中{B11,B12...,B93}由三元组中实体2或属性值构成,图5中的曲线由三元组中的关系或属性构成。
步骤5,将已构建的法律文书知识图谱入库存储,具体为:
将法律文书知识图谱以一个N叉树的存储结构进行存储,并将存储节点与存储节点之间的节点关系设置为查询时的链接。
本实施例中,在二叉树的数据结构基础上,结合了知识图谱的结构特点,设计了一个N叉树的存储结构,并增加了存储节点之间的边即节点之间的关系,将存储节点之间的关系作为查询时的链接,从而大大提高了查询效率。
本实施例中,一种基于知识图谱的法律文书结构化入库系统,包括存储器和控制器,所述存储器内存储有计算机可读程序,所述计算机可读程序被控制器调用时能执行本实施例中所述基于知识图谱的法律文书结构化入库方法的步骤。
Claims (9)
1.一种基于知识图谱的法律文书结构化入库方法,其特征在于,包括:
步骤1.获取相关法律文书;
步骤2.对法律文书进行预处理;
步骤3.根据候选语句对法律文书进行语句分类并标注;
步骤4.对分类标注完成后的语句做语义分析,并对分析后的结果通过三元组抽取模型生成法律要素三元组,将法律要素三元组构建成法律文书知识图谱;
步骤5.将已构建的法律文书知识图谱入库存储。
2.根据权利要求1所述的基于知识图谱的法律文书结构化入库方法,其特征在于,所述步骤2具体为:
对法律文书文本进行分句,其中,分句是按照中文标点符号里的句号、问号、感叹号为标志将段落文本分为语句,将文书的内容按照文本的顺序分成若干语句;
去除分句完成后的法律文书中的辅助句子,辅助句子具有如下特征:形式上是句子的句首与句尾有括号,内容上是附录的内容。
3.根据权利要求2所述的基于知识图谱的法律文书结构化入库方法,其特征在于,所述步骤3具体为:
步骤31,设置特征字符语句标注模板集,该特征字符语句标注模板集包括有至少一个特征字符,其中,所述特征字符为法律文件的句首部分文字;对预处理后的法律文书,通过与特征字符语句标注模板集中的各特征字符进行文本匹配,若匹配成功,则对含有特征字符的句子进行标注;
步骤32,设置正则表达式语句标注模板集,该正则表达式语句标注模板集包括有至少一个正则表达式,其中,所述正则表达式由数字和特征字符构成;将未被步骤31标注的部分,与正则表达式语句标注模板集中的各正则表达式进行匹配,若匹配成功,则对法律文中匹配到的语句进行标注;
步骤33,利用PKU98语料库来训练词性分析标注模型,得到词性分析标注模型的参数;通过训练好的词性分析标注模型对未被步骤31和步骤32标注的部分进行词性和命名实体的联合标注。
4.根据权利要求1至3任一所述的基于知识图谱的法律文书结构化入库方法,其特征在于,所述步骤4包括:
步骤41.获取标注完成的文本;
步骤42.深度学习训练与语义分析;
步骤43.由三元组抽取模型生成法律要素三元组;
步骤44.构建知识图谱。
5.根据权利要求4所述的基于知识图谱的法律文书结构化入库方法,其特征在于,所述步骤42具体包括:
采用ChineseStanfordDependencies依存关系标注集制作的语料库训练Bert深度学习模型来分析语句中的词与词的语法关系,语句中的语法关系由ChineseStanfordDependencies依存关系标注集构成。
6.根据权利要求5所述的基于知识图谱的法律文书结构化入库方法,其特征在于,所述步骤43具体包括:
建立三元组抽取模型;
按照三元组抽取模型抽取深度学习训练与语义分析的语义关系获得法律文书的三元组信息,即获得法律文书要素之间的关系;其中,三元组由(实体1,关系,实体2)和(实体,属性,属性值)构成。
7.根据权利要求6所述的基于知识图谱的法律文书结构化入库方法,其特征在于,所述步骤44具体包括:
将每个语句中的三元组以对应的语句主题词为中心构建语句级知识图谱,知识图谱的节包含三元组实体和属性值,知识图谱的边由三元组关系和属性构成;
将语句级知识图谱构建成篇章级知识图谱,篇章级知识图谱的框架由语句级知识图谱的语句标签构成。
8.根据权利要求5至7任一所述的基于知识图谱的法律文书结构化入库方法,其特征在于,所述步骤5中,将法律文书知识图谱以一个N叉树的存储结构进行存储,并将存储节点与存储节点之间的节点关系设置为查询时的链接。
9.一种基于知识图谱的法律文书结构化入库系统,其特征在于,包括存储器和控制器,所述存储器内存储有计算机可读程序,所述计算机可读程序被控制器调用时能执行如权利要求1至8任一所述的基于知识图谱的法律文书结构化入库方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210011124.4A CN114372153A (zh) | 2022-01-05 | 2022-01-05 | 基于知识图谱的法律文书结构化入库方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210011124.4A CN114372153A (zh) | 2022-01-05 | 2022-01-05 | 基于知识图谱的法律文书结构化入库方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114372153A true CN114372153A (zh) | 2022-04-19 |
Family
ID=81142557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210011124.4A Pending CN114372153A (zh) | 2022-01-05 | 2022-01-05 | 基于知识图谱的法律文书结构化入库方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372153A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580424A (zh) * | 2022-04-24 | 2022-06-03 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
CN115017144A (zh) * | 2022-05-30 | 2022-09-06 | 北京计算机技术及应用研究所 | 一种基于图神经网络的司法文书案情要素实体识别方法 |
CN115545671A (zh) * | 2022-11-02 | 2022-12-30 | 广州明动软件股份有限公司 | 一种法律法规结构化处理的方法、系统 |
CN116628229A (zh) * | 2023-07-21 | 2023-08-22 | 支付宝(杭州)信息技术有限公司 | 一种利用知识图谱生成文本语料的方法及装置 |
-
2022
- 2022-01-05 CN CN202210011124.4A patent/CN114372153A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580424A (zh) * | 2022-04-24 | 2022-06-03 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
CN115017144A (zh) * | 2022-05-30 | 2022-09-06 | 北京计算机技术及应用研究所 | 一种基于图神经网络的司法文书案情要素实体识别方法 |
CN115017144B (zh) * | 2022-05-30 | 2024-03-29 | 北京计算机技术及应用研究所 | 一种基于图神经网络的司法文书案情要素实体识别方法 |
CN115545671A (zh) * | 2022-11-02 | 2022-12-30 | 广州明动软件股份有限公司 | 一种法律法规结构化处理的方法、系统 |
CN115545671B (zh) * | 2022-11-02 | 2023-10-03 | 广州明动软件股份有限公司 | 一种法律法规结构化处理的方法、系统 |
CN116628229A (zh) * | 2023-07-21 | 2023-08-22 | 支付宝(杭州)信息技术有限公司 | 一种利用知识图谱生成文本语料的方法及装置 |
CN116628229B (zh) * | 2023-07-21 | 2023-11-10 | 支付宝(杭州)信息技术有限公司 | 一种利用知识图谱生成文本语料的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108121829B (zh) | 面向软件缺陷的领域知识图谱自动化构建方法 | |
CN114372153A (zh) | 基于知识图谱的法律文书结构化入库方法及系统 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN111259873B (zh) | 一种表格数据提取方法及装置 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN105975454A (zh) | 一种网页文本的中文分词方法和装置 | |
WO2017080090A1 (zh) | 一种网页正文提取比对方法 | |
CN113177124A (zh) | 一种垂直领域知识图谱构建方法及系统 | |
CN109062904B (zh) | 逻辑谓词提取方法和装置 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN111143531A (zh) | 一种问答对构建方法、系统、装置及计算机可读存储介质 | |
CN114881043B (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN107451116B (zh) | 一种移动应用内生大数据统计分析方法 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及系统 | |
CN111951079B (zh) | 一种基于知识图谱的信用评级方法、装置及电子设备 | |
CN113392183A (zh) | 一种儿童范畴图谱知识的表征与计算方法 | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
CN117035084A (zh) | 一种基于语法分析的医疗文本实体关系抽取方法和系统 | |
CN107451215B (zh) | 特征文本抽取方法及装置 | |
CN114840657A (zh) | 一种基于混合模式的api知识图谱自适应构建及智能问答方法 | |
Xu et al. | Estimating similarity of rich internet pages using visual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |