CN110597999A - 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法 - Google Patents
一种依存句法分析关系抽取模型的司法案件知识图谱构建方法 Download PDFInfo
- Publication number
- CN110597999A CN110597999A CN201910706329.2A CN201910706329A CN110597999A CN 110597999 A CN110597999 A CN 110597999A CN 201910706329 A CN201910706329 A CN 201910706329A CN 110597999 A CN110597999 A CN 110597999A
- Authority
- CN
- China
- Prior art keywords
- judicial
- relationship
- knowledge graph
- entity
- triples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 66
- 238000010276 construction Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 238000012800 visualization Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000008676 import Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 9
- 230000000007 visual effect Effects 0.000 abstract description 6
- 238000002054 transplantation Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 9
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 239000000969 carrier Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种依存句法分析关系抽取模型的司法案件知识图谱构建方法。该方法首先对非结构化的裁判文书通过信息抽取技术转换为结构化的数据,然后对其进行分词、词性标注以及命名实体识别处理,接着通过依存句法分析关系抽取模型抽取出实体关系三元组。最后把三元组形式的数据批量导入到Neo4j图数据库,利用Neo4j实现裁判文书知识图谱的构建并对其进行可视化展示。依存句法分析关系抽取模型能有效的抽取出实体之间的关系并适用于不同的大规模语料库,具有较好的移植适用性。裁判文书知识图谱直观明了,能让用户便捷高效地掌握信息,为司法工作提供极大地便利。
Description
技术领域
本发明属于人工智能领域的自然语言处理技术领域,主要研究信息抽取和知识图谱技术问题,特别是涉及实体关系抽取的依存句法分析关系抽取模型的司法案件知识图谱构建方法。
背景技术
司法领域是一个比较庞大的知识体系,领域知识也比较复杂,随着司法案件数据量的不断增大,数据之间的关系也越来越复杂,只能处理简单数据关系的传统关系型数据库已无法胜任,知识图谱的兴起便是为了解决该难题。知识图谱是用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。近年来,知识图谱获得迅猛的发展,目前已成为分析学科领域热点和前沿的有力工具。
2012年5月份Google公司就首先提出了“知识图谱”的概念,旨在提升其搜索引擎性能而建立的知识库。Zhang等人认为知识图谱可以应用于展示领域知识整体结构、可视化分析检索结果;CiteSpaceⅡ软件是一款针对所采集到的数据进行知识图谱分析,专门用于在科学文献中识别并显示科学发展新趋势和新动态的软件;Wang等人借助CiteSpaceⅡ软件绘制了国际刑事司法研究领域的知识图谱,并作可视化分析,发现在国际刑事司法研究方面存在着注重理论与实证的两种趋势。
目前,国内知识图谱的研究内容主要集中在知识图谱的构建和知识表示学习与推理的方法。Wang等人通过知识图谱梳理了我国近年来司法鉴定学科的研究热点与演进趋势,客观地展示其研究成果,为相关人员提供直观的参考依据。
自然语言处理中的信息抽取是将半结构化数据的司法案件形成结构化信息,包括实体、实体间关系以及属性,帮助用户快速便捷地获取所需信息。而实体关系抽取作为信息抽取的子任务,通过依存句法分析关系抽取技术,分析句子中各个成分之间的依赖关系,进而揭示句子的句法结构,同时分析句子所包含的句法成分和这些句法成分之间的关系,抽取出主要成分之间的语义关系。依存句法分析关系抽取技术能有效的抽取出实体之间的关系并适用于不同的大规模语料库,具有较好的移植适用性。
综上所述,面向司法领域司法案件知识图谱的研究还是比较匮乏。为此,本发明提出了一种依存句法分析模型的司法案件知识图谱构建方法,采用依存句法分析模型对司法案件文本进行分词、词性标注、命名实体识别和依存句法分析等处理,获得例如原告、被告、案件类型等关键信息,再利用Neo4j图数据库对其进行整理和编译,将其整合成为结构化语义网络构建司法案件知识图谱,最终实现特定查询的功能并优化了信息获取的速度。
发明内容
本发明的目的在于提供一种依存句法分析关系抽取模型的司法案件知识图谱构建方法。包括对司法案件文本进行预处理。预处理主要包括三方面内容,分别是:分词、词性标注和命名实体识别。调用分词模块,对于输入的司法案件文本句子的子序列,会给句子中每个字标注一个词边界的标记,开始边界和结束边界中的内容就是一个词,这样便达到分词的效果;接着调用词性标注模块,依次对分词之后的结果进行词性的标注,标注的结果作为后续命名实体识别模块的输入;最后调用命名实体识别模块将依存句法分析关系抽取所需的关键实体从处理后的司法案件文本中抽取出来。然后,将三元组形式的数据信息录入到Neo4j图数据库,利用Neo4j实现司法案件知识图谱的构建并对其进行可视化展示。
为了达到上述目的,本发明所采用的技术方案是:一种依存句法分析关系抽取模型的司法案件知识图谱构建方法,其特征在于,包括如下步骤:
步骤1,数据预处理,利用ProcessOn软件把司法案件整理为两大类,第一类是在司法案件中出现的涉案人身份,第二类是司法案件中的涉案种类,形成司法案件知识导图;
步骤2,采用依存句法分析关系抽取模型对司法案件实体关系的抽取;
步骤3,司法案件中实体关系三元组构建,主要包括四个过程,分别是判断、抽取、筛选和整理;
步骤4,司法案件知识图谱的构建与可视化,抽取出来的实体关系三元组形成完整严谨的知识语言逻辑体系,成为司法案件知识图谱的理论基础,通过定义实体与实体之间的关系,能够定义涉案、种类、受理等多种关系,凭借着各种关系,多个不同实体间的关系就能够构成一套容纳司法案件中的实体与实体间关系的知识库。
进一步地,所述步骤2中对司法案件实体关系的抽取,包括:预处理和依存句法分析关系抽取模型,步骤2进一步包括:
步骤2.1,首先要对司法案件文本进行预处理,预处理主要包括三方面内容,分别是:分词、词性标注和命名实体识别;
步骤2.2,研发加入了丰富的全局特征和聚类特征的依存句法分析关系抽取模型,准确找出句子中主要成分的依存关系。
进一步地,所述步骤2.2中依存句法分析关系抽取模型,包括:特征向量输入、类型转换和循环,步骤2.2进一步包括:
步骤2.2.1,输入特征向量。其中包括:当前移位操作时栈和buffer中的部分词汇以及栈中部分单词的依赖单词;上述单词的词性和上述依赖单词的依赖关系;
步骤2.2.2,预测出对应的转换类型,进行相应的转换操作,更新配置信息,然后得到新的特征向量;
步骤2.2.3,将新的特征向量再输入模型中预测,如此循环,最后就能得到依存弧集合找出句子中主要成分的依存关系。
进一步地,所述步骤3中对司法案件构建实体关系三元组,主要包括四个过程,分别是判断、抽取、筛选和整理,步骤3进一步包括:
步骤3.1,判断,判断句子中是否有两个实体,并且判断以两个实体为基础的依存句法分析的内容集合是否具有实体之间的关系;
步骤3.2,抽取,将已判定为实体间的关系和两个实体抽取出来,并且以(实体,关系,实体)的三元组形式保存;
步骤3.3,筛选,抽取出来的实体关系三元组并不是一定有效的,所以需要去除不必要的三元组,筛选出高质量的有效三元组;
步骤3.4,整理,筛选之后的三元组具有重复性,虽然都是有效三元组,但是都表达一个意思的三元组只需要存在一个,同时,三元组也需要分类,三元组有部分描述人物关系,也有部分描述机构和地名实体关系,需要将所抽取和筛选的三元组进行分类整理,整理好不同类别的三元组可以使关系描述更加集中明确。
进一步地,所述步骤3.2中实体关系三元组的构建,包括采用三种方式,步骤3.2进一步包括:
步骤3.2.1,以依赖于实体的描述词语作为关系词的三元组;
步骤3.2.2,以“主谓宾”、“主系表”等形式产生的三元组;
步骤3.2.3,以描述实体的关系词和“主谓宾”等形式相结合的三元组。
进一步地,所述步骤3.3中筛选模型具有两个要求限制,步骤3.3进一步包括:
步骤3.3.1,实体关系三元组中的实体与关系词必须为文本所需要的;
步骤3.3.2,实体关系三元组中的关系能合理的描述两个实体之间的关系。
进一步地,所述步骤4中对司法案件知识图谱的构建与可视化,包括:司法案件实体关系分类、知识图谱构建和可视化,步骤4进一步包括:
步骤4.1,司法案件实体关系分类,司法案件知识图谱的实体节点数量很多,若要形成一个有明确知识架构的知识网络,就需要把相关的实体连接起来,即实体的关系,在这基础上,利用Neo4j图数据构建了司法案件知识图谱,同时,司法案件知识图谱的可视化也是利用Neo4j图数据库实现;
步骤4.2,司法案件知识图谱构建,利用Neo4j图数据库对实体及其关系分类后的数据信息进行存储,考虑到司法案件文本数量比较多,因此需要批量入库;
步骤4.3司法案件知识图谱可视化,完成数据的全部导入工作后,便能够使用Cypher语言对生成的知识图谱进行操作以及可视化。
进一步地,所述步骤4.2中司法案件知识图谱构建需要信息格式转换和批量导入代码,步骤4.2进一步包括:
步骤4.2.1,首先将数据信息全部整合并转化为csv格式文件,采用“neo4j-adminimport--mode=csv”的方式,将csv文件批量导入到Neo4j图数据库中,并在Neo4j图数据库中构建知识图谱体系;
步骤4.2.2,通过在Neo4j中输入实体节点批量导入代码,便能实现实体节点批量入库操作,在这基础上,利用Neo4j图数据构建了司法案件知识图谱。
进一步地,所述步骤4.3中司法案件知识图谱可视化,具有知识查询和拓展查询可视化两种功能,步骤4.3进一步包括:
4.3.1知识查询可视化,通过Cypher语言查询数据库中的数据,可将查询结果以图形化的方式展现,点击实体节点还能展示其全部的属性,从而可以便捷高效地掌握信息,也同时为司法工作提供极大地便利;
4.3.2拓展查询可视化,当使用拓展查询时,也能通过Cypher语句得到关于该实体的拓展信息。
本发明的有益效果是:面对公开的海量案件信息,本发明能够对海量的法院案件文本进行主题分类,汇总成一个关于整个案件体系的知识图谱,为法院案件的知识融合和系统化提供了有利支持。
其中,利用依存句法分析关系抽取模型,通过依存句法分析来识别句子中的“主谓宾”、“主系表”和定状补等语法关系,从中分析各单位之间的关系,并从句子中抽取这样的关系,并列为三元组的方式作为实体之间的关系。该模型从复杂繁琐的中文文档中,简单有效的抽取其中的实体关系,达到80%的准确率。与其他关系抽取模型相比,本模型适用于多种语料库并且提升了20%的准确度,说明了本模型可以有效的解决中文实体关系抽取的困难。
同时,本发明对抽取的实体三元组实现了三元组抽取优化算法,通过判断、抽取、筛选和整理等四个过程,筛选出高质量的有效三元组。并且能够对三元组进行分类整理,能够分别描述人物,机构和地名等实体关系,使司法案件实体关系描述更加集中明确。
最后,本发明基于抽取的实体关系数据,利用Neo4j图数据库实现司法案件知识图谱的构建与可视化,并实现了特定查询的功能。其中,实现案件名称、作案人员以及其相互关系为主题的可视化展示,为实现法务工作者快速、有效的、全面了解案件信息提供了很好的解决方案。
附图说明
图1是本发明知识图谱构建流程图;
图2是本发明依存句法分析算法流程图;
图3是本发明三元组抽取算法流程图;
图4是本发明司法案件案例图;
图5是本发明司法案件预处理结果图;
图6是本发明司法案件文本依存句法分析部分结果图;
图7是本发明实体关系三元组构建结果图;
图8是本发明不同语料库的关系抽取实验结果图;
图9是本发明对比实验结果图;
图10是实体关系分类表;
图11是实体节点批量导入关键代码;
图12是实体关系批量导入关键代码;
图13是司法案件知识图谱部分展示;
图14是“行初字”知识图谱展示;
图15是实体节点部分属性展示;
图16是“刑事案件”拓展查询部分结果展示。
具体实施方式
下面结合附图对本发明做进一步说明:
如图1所示的本发明知识图谱构建流程图。知识图谱的构建需要借助来自不同研究领域的研究成果。通过知识抽取技术,从不同形式的数据源获取知识图谱构建的各类知识。采用知识融合剔除各类不合适的知识,提高知识图谱的质量与性能。
如图2所示的本发明依存句法分析算法流程图。依存句法分析算法加入了丰富的全局特征和聚类特征,以便更能准确找出句子中主要成分的依存关系。首先输入特征向量,然后预测出对应的转换类型,预测出转换类型就进行相应的转换操作,这样就更新了配置信息,然后得到新的向量,再输入模型中预测,如此循环。最后就能得到依存弧集合找出句子中主要成分的依存关系。
如图3所示的本发明三元组抽取算法流程图,根据文本句子描述的特性,将句子中的关键信息以三元组的形式抽取出来,并对三元组进行有效性的筛选和整理,构成最适合需求的实体关系三元组。
如图4所示的本发明司法案件案例图,采用法院的司法案件作为语料库。
如图5所示的本发明司法案件预处理结果图,是司法案件文本经过预处理之后的部分结果。
如图6所示的本发明司法案件文本依存句法分析部分结果图,是预处理后的司法案件文本经过依存句法分析的部分结果。
如图7所示的本发明实体关系三元组构建结果图,是司法案件文本的实体关系三元组构建的最终结果部分截图,司法案件文本里的主要人物及其身份都被抽取出来。
如图8所示的本发明不同语料库的关系抽取实验结果图,是为了分析依存句法分析关系抽取技术在不同的语料库下的实验结果,在搜狗新闻语料库和司法案件下使用分析依存句法分析关系抽取技术进行了实体关系抽取,搜狗新闻语料库随机抽取2000个文本,司法案件随机抽取5000个文本进行实验,实验结果表明分析依存句法分析关系抽取技术可以有效的从司法案件中抽取出实体关系三元组,并且实体关系三元组的的准确率接近80%;而在不同的语料库上,分析依存句法分析关系抽取技术都表现出不错的效果,说明其适用于不同的大规模语料库,具有较好的移植适用性。
如图9所示的本发明对比实验结果图,是为了比较不同的实体关系抽取技术的准确性,在搜狗新闻语料库上使用分析依存句法分析关系抽取技术和基于卷积的无监督聚类实体关系抽取技术进行对比实验,实验结果表明分析依存句法分析关系抽取技术更能有效的抽取出实体之间的关系,也保证了有很好的准确率,召回率和F1值,其中F1值比基于卷积的无监督聚类技术提高了约15%,充分说明分析依存句法分析关系抽取技术的可靠性。
如图10所示的本发明实体关系分类表,司法案件知识图谱的实体节点数量很多,若要形成一个有明确知识架构的知识网络,就需要把相关的实体连接起来,即实体的关系。实体关系分类表展示了各实体之间可能会有的关系,依据这些具体的关系能够将相关实体都联系起来。
如图11所示的实体节点批量导入关键代码,考虑到司法案件文本数量比较多,因此需要对实体分类后的数据信息进行批量入库存储。首先将实体数据信息全部整合并转化为csv格式文件,通过在Neo4j中输入实体批量导入代码,便能实现实体批量入库操作。
如图12所示的实体关系批量导入关键代码,考虑到司法案件文本数量比较多,因此需要对实体关系分类后的数据信息进行批量入库存储。首先将实体关系数据信息全部整合并转化为csv格式文件,通过在Neo4j中输入实体关系批量导入代码,便能实现实体关系批量入库操作。采用“neo4j-admin import--mode=csv”的方式,在Neo4j图数据库中构建知识图谱体系。
如图13所示的司法案件知识图谱部分展示,将实体csv文件和实体关系csv文件全部导入Neo4j图数据库后,便能够使用Cypher语言对生成的知识图谱进行操作以及可视化。鉴于司法案件文本数量比较多并且可视化空间有限,绘制完成的司法案件知识图谱只展示了部分实体和实体关系。
如图14所示的“行初字”知识图谱展示,是以“行初字”为关键词查询得到的知识图谱展示图。通过Cypher语言查询数据库中的数据,可将查询结果以图形化的方式展现。
如图15所示的实体节点部分属性展示,是点击实体节点“杜海龙”的部分属性。点击实体节点能够展示其全部的属性,从而可以便捷高效地掌握信息,同时为司法工作提供极大地便利。
如图16所示的“刑事案件”拓展查询部分结果展示,是当使用拓展查询时,也能通过Cypher语句得到关于该实体的拓展信息,如查询刑事案件的拓展信息,拓展查询可视化部分结果展示。
总结:本发明公开了依存句法分析关系抽取模型的裁判文书知识图谱构建方法。该方法从海量的非结构化的裁判文书中抽取有价值的信息,解决司法领域办案过程中所需知识分散、不完备、查询不便等问题。
首先对非结构化的裁判文书通过信息抽取技术转换为结构化的数据,然后对其进行分词、词性标注以及命名实体识别处理,接着通过依存句法分析关系抽取模型抽取出实体关系三元组。最后把三元组形式的数据批量导入到Neo4j图数据库,利用Neo4j实现裁判文书知识图谱的构建并对其进行可视化展示。
依存句法分析关系抽取模型从裁判文书中抽取实体关系三元组的F1值达到78.77%,并且F1值比基于卷积的无监督聚类实体关系抽取模型的F1值提高了约15%。裁判文书知识图谱成功可视化并能够进行特定查询功能。
依存句法分析关系抽取模型能有效的抽取出实体之间的关系并适用于不同的大规模语料库,具有较好的移植适用性。裁判文书知识图谱直观明了,能让用户便捷高效地掌握信息,为司法工作提供极大地便利。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或者示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实例做各种各样的修改或补充或者采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (9)
1.一种依存句法分析关系抽取模型的司法案件知识图谱构建方法,其特征在于,包括如下步骤:
步骤1,数据预处理,利用ProcessOn软件把司法案件整理为两大类,第一类是在司法案件中出现的涉案人身份,第二类是司法案件中的涉案种类,形成司法案件知识导图;
步骤2,采用依存句法分析关系抽取模型对司法案件实体关系的抽取;
步骤3,司法案件中实体关系三元组构建,主要包括四个过程,分别是判断、抽取、筛选和整理;
步骤4,司法案件知识图谱的构建与可视化,抽取出来的实体关系三元组形成完整严谨的知识语言逻辑体系,成为司法案件知识图谱的理论基础,通过定义实体与实体之间的关系,能够定义涉案、种类、受理多种关系,凭借着各种关系,多个不同实体间的关系就能够构成一套容纳司法案件中的实体与实体间关系的知识库。
2.根据权利要求1所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法,其特征在于,所述步骤2中对司法案件实体关系的抽取,包括:预处理和依存句法分析关系抽取模型,步骤2进一步包括:
步骤2.1,首先要对司法案件文本进行预处理,预处理包括三方面内容,分别是:分词、词性标注和命名实体识别;
步骤2.2,采用全局特征和聚类特征的依存句法分析关系抽取模型,找出句子中主要成分的依存关系。
3.根据权利要求2所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法,其特征在于,所述步骤2.2中依存句法分析关系抽取模型,包括:特征向量输入、类型转换和循环,步骤2.2进一步包括:
步骤2.2.1,输入特征向量,其中包括:当前移位操作时栈和buffer中的部分词汇以及栈中部分单词的依赖单词;上述单词的词性和上述依赖单词的依赖关系;
步骤2.2.2,预测出对应的转换类型,进行相应的转换操作,更新配置信息,然后得到新的特征向量;
步骤2.2.3,将新的特征向量再输入模型中预测,如此循环,最后就能得到依存弧集合找出句子中主要成分的依存关系。
4.根据权利要求1所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法,其特征在于,所述步骤3中对司法案件构建实体关系三元组,包括四个过程,分别是判断、抽取、筛选和整理,步骤3进一步包括:
步骤3.1,判断,判断句子中是否有两个实体,并且判断以两个实体为基础的依存句法分析的内容集合是否具有实体之间的关系;
步骤3.2,抽取,将已判定为实体间的关系和两个实体抽取出来,并且以实体,关系,实体的三元组形式保存;
步骤3.3,筛选,抽取出来的实体关系三元组并不是一定有效的,所以需要去除不必要的三元组,筛选出高质量的有效三元组;
步骤3.4,整理,筛选之后的三元组具有重复性,虽然都是有效三元组,但是都表达一个意思的三元组只需要存在一个,同时,三元组也需要分类,三元组有部分描述人物关系,也有部分描述机构和地名实体关系,需要将所抽取和筛选的三元组进行分类整理。
5.根据权利要求4所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法,其特征在于,进一步地,所述步骤3.2中实体关系三元组的构建,包括采用三种方式,步骤3.2进一步包括:
步骤3.2.1,以依赖于实体的描述词语作为关系词的三元组;
步骤3.2.2,以“主谓宾”、“主系表”形式产生的三元组;
步骤3.2.3,以描述实体的关系词和“主谓宾”形式相结合的三元组。
6.根据权利要求4所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法,其特征在于,所述步骤3.3中筛选模型具有两个要求限制,步骤3.3进一步包括:
步骤3.3.1,实体关系三元组中的实体与关系词必须为文本所需要的;
步骤3.3.2,实体关系三元组中的关系能够描述两个实体之间的关系。
7.根据权利要求1所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法,其特征在于,所述步骤4中对司法案件知识图谱的构建与可视化,包括:司法案件实体关系分类、知识图谱构建和可视化,步骤4进一步包括:
步骤4.1,司法案件实体关系分类,利用Neo4j图数据构建司法案件知识图谱,同时,利用Neo4j图数据库实现司法案件知识图谱的可视化;
步骤4.2,司法案件知识图谱构建,利用Neo4j图数据库对实体及其关系分类后的数据信息进行存储,考虑到司法案件文本数量多,因此要批量入库;
步骤4.3,司法案件知识图谱可视化,完成数据的全部导入工作后,便能够使用Cypher语言对生成的知识图谱进行操作以及可视化。
8.根据权利要求7所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法,其特征在于,所述步骤4.2中司法案件知识图谱构建需要信息格式转换和批量导入代码,步骤4.2进一步包括:
步骤4.2.1,首先将数据信息全部整合并转化为csv格式文件,采用“neo4j-adminimport--mode=csv”的方式,将csv文件批量导入到Neo4j图数据库中,并在Neo4j图数据库中构建知识图谱体系;
步骤4.2.2,通过在Neo4j中输入实体节点批量导入代码,便能实现实体节点批量入库操作,在这基础上,利用Neo4j图数据构建司法案件知识图谱。
9.根据权利要求7所述的依存句法分析关系抽取模型的司法案件知识图谱构建方法,其特征在于,所述步骤4.3中司法案件知识图谱可视化,具有知识查询和拓展查询可视化两种功能,步骤4.3进一步包括:
4.3.1知识查询可视化,通过Cypher语言查询数据库中的数据,能够将查询结果以图形化的方式展现,点击实体节点还能展示其全部的属性;
4.3.2拓展查询可视化,当使用拓展查询时,也能通过Cypher语句得到关于该实体的拓展信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910706329.2A CN110597999A (zh) | 2019-08-01 | 2019-08-01 | 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910706329.2A CN110597999A (zh) | 2019-08-01 | 2019-08-01 | 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110597999A true CN110597999A (zh) | 2019-12-20 |
Family
ID=68853307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910706329.2A Pending CN110597999A (zh) | 2019-08-01 | 2019-08-01 | 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110597999A (zh) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781254A (zh) * | 2020-01-02 | 2020-02-11 | 四川大学 | 一种案情知识图谱自动构建方法及系统及设备及介质 |
CN111145052A (zh) * | 2019-12-26 | 2020-05-12 | 北京法意科技有限公司 | 司法文书的结构化分析方法及系统 |
CN111177406A (zh) * | 2019-12-25 | 2020-05-19 | 毛彬 | 一种基于wikidata的知识体系自动构建方法与系统 |
CN111198852A (zh) * | 2019-12-30 | 2020-05-26 | 浪潮通用软件有限公司 | 微服务架构下知识图谱驱动的元数据关系推理方法 |
CN111259624A (zh) * | 2020-01-15 | 2020-06-09 | 北京百度网讯科技有限公司 | 知识图谱中三元组数据标注方法和装置 |
CN111324779A (zh) * | 2020-02-28 | 2020-06-23 | 卡斯柯信号有限公司 | 基于知识图谱的联锁逻辑关系可视化信息处理方法 |
CN111368011A (zh) * | 2020-03-03 | 2020-07-03 | 京东方科技集团股份有限公司 | 知识图谱构建方法及装置、计算机设备及介质 |
CN111552804A (zh) * | 2020-04-08 | 2020-08-18 | 国电南瑞科技股份有限公司 | 一种电网故障处置预案的知识图谱构建方法 |
CN111597803A (zh) * | 2020-05-14 | 2020-08-28 | 鼎富智能科技有限公司 | 一种要素提取方法、装置、电子设备及存储介质 |
CN111597351A (zh) * | 2020-05-14 | 2020-08-28 | 上海德拓信息技术股份有限公司 | 可视化文档图谱构建方法 |
CN111611399A (zh) * | 2020-04-15 | 2020-09-01 | 广发证券股份有限公司 | 一种基于自然语言处理的资讯事件图谱化系统及方法 |
CN111724881A (zh) * | 2020-06-19 | 2020-09-29 | 中国科学院自动化研究所 | 一种心理沙盘分析方法和系统 |
CN111737496A (zh) * | 2020-06-29 | 2020-10-02 | 东北电力大学 | 一种电力设备故障知识图谱构建方法 |
CN111859969A (zh) * | 2020-07-20 | 2020-10-30 | 航天科工智慧产业发展有限公司 | 数据分析方法及装置、电子设备、存储介质 |
CN111897914A (zh) * | 2020-07-20 | 2020-11-06 | 杭州叙简科技股份有限公司 | 用于综合管廊领域的实体信息抽取及知识图谱构建方法 |
CN111985236A (zh) * | 2020-06-02 | 2020-11-24 | 中国航天科工集团第二研究院 | 基于多维联动的可视化分析方法 |
CN112307364A (zh) * | 2020-11-25 | 2021-02-02 | 哈尔滨工业大学 | 一种面向人物表征的新闻文本发生地抽取方法 |
CN112380868A (zh) * | 2020-12-10 | 2021-02-19 | 广东泰迪智能科技股份有限公司 | 一种基于事件三元组的信访目的多分类装置及其方法 |
CN112380298A (zh) * | 2020-12-03 | 2021-02-19 | 成都航天科工大数据研究院有限公司 | 一种油气管道缺陷修复的知识图谱构建方法及系统 |
CN112417170A (zh) * | 2020-11-23 | 2021-02-26 | 南京大学 | 面向不完备知识图谱的关系链接方法 |
CN112434532A (zh) * | 2020-11-05 | 2021-03-02 | 西安交通大学 | 一种支持人机双向理解的电网环境模型及建模方法 |
CN112732821A (zh) * | 2021-03-31 | 2021-04-30 | 成都新希望金融信息有限公司 | 数据入库方法、装置、设备及存储介质 |
CN112800235A (zh) * | 2021-01-11 | 2021-05-14 | 厦门渊亭信息科技有限公司 | 一种可视化知识图谱数据建模方法和系统 |
CN112948510A (zh) * | 2021-04-21 | 2021-06-11 | 央视国际网络无锡有限公司 | 一种媒体行业知识图谱的构建方法 |
CN113157943A (zh) * | 2021-04-15 | 2021-07-23 | 辽宁大学 | 面向大规模金融知识图谱的分布式存储及可视化查询处理方法 |
CN113392224A (zh) * | 2021-06-04 | 2021-09-14 | 上海浦东发展银行股份有限公司 | 一种制度信息知识图谱构建方法及系统 |
CN113609838A (zh) * | 2021-07-14 | 2021-11-05 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 文档信息抽取及图谱化方法和系统 |
CN116629258A (zh) * | 2023-07-24 | 2023-08-22 | 北明成功软件(山东)有限公司 | 基于复杂信息项数据的司法文书的结构化分析方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107797991A (zh) * | 2017-10-23 | 2018-03-13 | 南京云问网络技术有限公司 | 一种基于依存句法树的知识图谱扩充方法及系统 |
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
CN108694178A (zh) * | 2017-04-06 | 2018-10-23 | 北京国双科技有限公司 | 一种推荐司法知识的方法及装置 |
-
2019
- 2019-08-01 CN CN201910706329.2A patent/CN110597999A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694178A (zh) * | 2017-04-06 | 2018-10-23 | 北京国双科技有限公司 | 一种推荐司法知识的方法及装置 |
CN107797991A (zh) * | 2017-10-23 | 2018-03-13 | 南京云问网络技术有限公司 | 一种基于依存句法树的知识图谱扩充方法及系统 |
CN108596439A (zh) * | 2018-03-29 | 2018-09-28 | 北京中兴通网络科技股份有限公司 | 一种基于知识图谱的企业风险预测方法及系统 |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177406A (zh) * | 2019-12-25 | 2020-05-19 | 毛彬 | 一种基于wikidata的知识体系自动构建方法与系统 |
CN111177406B (zh) * | 2019-12-25 | 2023-09-26 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于wikidata的知识体系自动构建方法与系统 |
CN111145052A (zh) * | 2019-12-26 | 2020-05-12 | 北京法意科技有限公司 | 司法文书的结构化分析方法及系统 |
CN111198852A (zh) * | 2019-12-30 | 2020-05-26 | 浪潮通用软件有限公司 | 微服务架构下知识图谱驱动的元数据关系推理方法 |
CN110781254A (zh) * | 2020-01-02 | 2020-02-11 | 四川大学 | 一种案情知识图谱自动构建方法及系统及设备及介质 |
CN111259624A (zh) * | 2020-01-15 | 2020-06-09 | 北京百度网讯科技有限公司 | 知识图谱中三元组数据标注方法和装置 |
CN111259624B (zh) * | 2020-01-15 | 2023-03-31 | 北京百度网讯科技有限公司 | 知识图谱中三元组数据标注方法和装置 |
CN111324779A (zh) * | 2020-02-28 | 2020-06-23 | 卡斯柯信号有限公司 | 基于知识图谱的联锁逻辑关系可视化信息处理方法 |
CN111368011A (zh) * | 2020-03-03 | 2020-07-03 | 京东方科技集团股份有限公司 | 知识图谱构建方法及装置、计算机设备及介质 |
CN111368011B (zh) * | 2020-03-03 | 2023-10-13 | 京东方科技集团股份有限公司 | 知识图谱构建方法及装置、计算机设备及介质 |
CN111552804B (zh) * | 2020-04-08 | 2022-09-02 | 国电南瑞科技股份有限公司 | 一种电网故障处置预案的知识图谱构建方法 |
CN111552804A (zh) * | 2020-04-08 | 2020-08-18 | 国电南瑞科技股份有限公司 | 一种电网故障处置预案的知识图谱构建方法 |
CN111611399A (zh) * | 2020-04-15 | 2020-09-01 | 广发证券股份有限公司 | 一种基于自然语言处理的资讯事件图谱化系统及方法 |
CN111597803A (zh) * | 2020-05-14 | 2020-08-28 | 鼎富智能科技有限公司 | 一种要素提取方法、装置、电子设备及存储介质 |
CN111597803B (zh) * | 2020-05-14 | 2024-03-26 | 鼎富智能科技有限公司 | 一种要素提取方法、装置、电子设备及存储介质 |
CN111597351A (zh) * | 2020-05-14 | 2020-08-28 | 上海德拓信息技术股份有限公司 | 可视化文档图谱构建方法 |
CN111985236A (zh) * | 2020-06-02 | 2020-11-24 | 中国航天科工集团第二研究院 | 基于多维联动的可视化分析方法 |
CN111724881A (zh) * | 2020-06-19 | 2020-09-29 | 中国科学院自动化研究所 | 一种心理沙盘分析方法和系统 |
CN111724881B (zh) * | 2020-06-19 | 2024-02-23 | 中国科学院自动化研究所 | 一种心理沙盘分析方法和系统 |
CN111737496A (zh) * | 2020-06-29 | 2020-10-02 | 东北电力大学 | 一种电力设备故障知识图谱构建方法 |
CN111859969B (zh) * | 2020-07-20 | 2024-05-03 | 航天科工智慧产业发展有限公司 | 数据分析方法及装置、电子设备、存储介质 |
CN111897914B (zh) * | 2020-07-20 | 2023-09-19 | 杭州叙简科技股份有限公司 | 用于综合管廊领域的实体信息抽取及知识图谱构建方法 |
CN111859969A (zh) * | 2020-07-20 | 2020-10-30 | 航天科工智慧产业发展有限公司 | 数据分析方法及装置、电子设备、存储介质 |
CN111897914A (zh) * | 2020-07-20 | 2020-11-06 | 杭州叙简科技股份有限公司 | 用于综合管廊领域的实体信息抽取及知识图谱构建方法 |
CN112434532A (zh) * | 2020-11-05 | 2021-03-02 | 西安交通大学 | 一种支持人机双向理解的电网环境模型及建模方法 |
CN112417170B (zh) * | 2020-11-23 | 2023-11-14 | 南京大学 | 面向不完备知识图谱的关系链接方法 |
CN112417170A (zh) * | 2020-11-23 | 2021-02-26 | 南京大学 | 面向不完备知识图谱的关系链接方法 |
CN112307364B (zh) * | 2020-11-25 | 2021-10-29 | 哈尔滨工业大学 | 一种面向人物表征的新闻文本发生地抽取方法 |
CN112307364A (zh) * | 2020-11-25 | 2021-02-02 | 哈尔滨工业大学 | 一种面向人物表征的新闻文本发生地抽取方法 |
CN112380298A (zh) * | 2020-12-03 | 2021-02-19 | 成都航天科工大数据研究院有限公司 | 一种油气管道缺陷修复的知识图谱构建方法及系统 |
CN112380868B (zh) * | 2020-12-10 | 2024-02-13 | 广东泰迪智能科技股份有限公司 | 一种基于事件三元组的信访目的多分类装置及其方法 |
CN112380868A (zh) * | 2020-12-10 | 2021-02-19 | 广东泰迪智能科技股份有限公司 | 一种基于事件三元组的信访目的多分类装置及其方法 |
CN112800235B (zh) * | 2021-01-11 | 2023-10-31 | 厦门渊亭信息科技有限公司 | 一种可视化知识图谱数据建模方法和系统 |
CN112800235A (zh) * | 2021-01-11 | 2021-05-14 | 厦门渊亭信息科技有限公司 | 一种可视化知识图谱数据建模方法和系统 |
CN112732821A (zh) * | 2021-03-31 | 2021-04-30 | 成都新希望金融信息有限公司 | 数据入库方法、装置、设备及存储介质 |
CN112732821B (zh) * | 2021-03-31 | 2021-07-06 | 成都新希望金融信息有限公司 | 数据入库方法、装置、设备及存储介质 |
CN113157943A (zh) * | 2021-04-15 | 2021-07-23 | 辽宁大学 | 面向大规模金融知识图谱的分布式存储及可视化查询处理方法 |
CN112948510A (zh) * | 2021-04-21 | 2021-06-11 | 央视国际网络无锡有限公司 | 一种媒体行业知识图谱的构建方法 |
CN112948510B (zh) * | 2021-04-21 | 2024-02-20 | 央视国际网络无锡有限公司 | 一种媒体行业知识图谱的构建方法 |
CN113392224A (zh) * | 2021-06-04 | 2021-09-14 | 上海浦东发展银行股份有限公司 | 一种制度信息知识图谱构建方法及系统 |
CN113609838A (zh) * | 2021-07-14 | 2021-11-05 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 文档信息抽取及图谱化方法和系统 |
CN116629258A (zh) * | 2023-07-24 | 2023-08-22 | 北明成功软件(山东)有限公司 | 基于复杂信息项数据的司法文书的结构化分析方法及系统 |
CN116629258B (zh) * | 2023-07-24 | 2023-10-13 | 北明成功软件(山东)有限公司 | 基于复杂信息项数据的司法文书的结构化分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597999A (zh) | 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法 | |
CN110717049B (zh) | 一种面向文本数据的威胁情报知识图谱构建方法 | |
CN112612902B (zh) | 一种电网主设备的知识图谱构建方法及设备 | |
CN111753099B (zh) | 一种基于知识图谱增强档案实体关联度的方法及系统 | |
CN110968699B (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
US20050223042A1 (en) | Method and apparatus for information mining and filtering | |
CN111598702A (zh) | 一种基于知识图谱的风险投资语义搜索的方法 | |
CN104281702A (zh) | 基于电力关键词分词的数据检索方法及装置 | |
US20210065045A1 (en) | Artificial intelligence (ai) based innovation data processing system | |
CN110910175B (zh) | 一种旅游门票产品画像生成方法 | |
CN114495143B (zh) | 一种文本对象识别方法、装置、电子设备及存储介质 | |
CN114547072A (zh) | 自然语言查询转换sql方法、系统、设备及存储介质 | |
CN114218472A (zh) | 基于知识图谱的智能搜索系统 | |
CN110795932B (zh) | 基于地质本体的地质报告文本信息提取方法 | |
US20190057085A1 (en) | Method for establishing a digitized interpretation base of dongba classic ancient books | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN113297251A (zh) | 多源数据检索方法、装置、设备及存储介质 | |
CN112883202A (zh) | 一种基于知识图谱的多组件建模方法和系统 | |
KR101374195B1 (ko) | 학술적 과학 지식 메모리 기반의 심층 지식 제공 방법 및 이에 적합한 장치 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
Beniwal et al. | Data mining with linked data: past, present, and future | |
CN113779981A (zh) | 一种基于指针网络和知识图谱的推荐方法及装置 | |
CN112214615A (zh) | 基于知识图谱的政策文件处理方法、装置和存储介质 | |
CN117150046B (zh) | 基于上下文语义的任务自动分解方法和系统 | |
Al-Mutairi et al. | Predicting the Popularity of Trending Arabic Wikipedia Articles Based on External Stimulants Using Data/Text Mining Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191220 |