CN113590846A - 法律知识图谱构建方法及相关设备 - Google Patents
法律知识图谱构建方法及相关设备 Download PDFInfo
- Publication number
- CN113590846A CN113590846A CN202111118187.1A CN202111118187A CN113590846A CN 113590846 A CN113590846 A CN 113590846A CN 202111118187 A CN202111118187 A CN 202111118187A CN 113590846 A CN113590846 A CN 113590846A
- Authority
- CN
- China
- Prior art keywords
- nodes
- graph
- node
- sub
- legal knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000033228 biological regulation Effects 0.000 claims abstract description 33
- 230000002776 aggregation Effects 0.000 claims abstract description 28
- 238000004220 aggregation Methods 0.000 claims abstract description 28
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000001228 spectrum Methods 0.000 claims abstract description 23
- 238000013145 classification model Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 29
- 238000004891 communication Methods 0.000 description 10
- 208000027418 Wounds and injury Diseases 0.000 description 9
- 230000006378 damage Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 208000014674 injury Diseases 0.000 description 9
- 238000007689 inspection Methods 0.000 description 7
- 238000009411 base construction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000001520 comb Anatomy 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种法律知识图谱构建方法及相关设备,该方法包括:通过对法律法规的法律内容进行分类,确定一级节点和二级节点,基于与每个所述二级节点相关联的法律法规,构建以该二级节点为根节点的子图谱;对所述子图谱的节点分别进行聚合计算和相似度计算,重构所述子图谱;基于所述一级节点、所述二级节点和经过重构的所述子图谱构建初始法律知识图谱;基于法律知识相关文件通过实体抽取得到游离节点;将所述初始法律知识图谱的节点作为第一类别标签,通过经过预训练的第一多类别分类模型对所述游离节点进行分类,并将所述游离节点关联到所述初始法律知识图谱的相应节点上,以得到所述法律知识图谱。
Description
技术领域
本公开涉及知识图谱技术领域,尤其涉及一种法律知识图谱构建方法及相关设备。
背景技术
司法领域是以公检法等国家司法机关及司法人员依照法定职权和法定程序,运用法律处理案件的专业领域。近年来,司法领域积极运用大数据、云计算、人工智能等先进技术,深入业务场景解决痛点问题,有效提升办案质效、辅助司法管理、服务群众诉讼,加速推进司法智慧化、数字化、现代化转型升级。
人工智能本质是提升和解放生产力的问题,人工智能中的认知智能和行为智能与生产力相对应,而知识图谱结合自然语言处理则是发展认知智能的基础。应用于司法领域,法律知识图谱的构建则是实现智慧司法不可或缺的基础工程。法律知识图谱将法律领域中的实体、属性和关系进行体系化梳理,并建立逻辑关联,通过知识图谱和大数据技术进行数据挖掘,辅助决策,洞察知识领域动态发展规律。基于法律知识图谱,通过技术手段可实现司法业务场景的智能应用,解决“案多人少”等现实问题,为司法人员办案提供高效参考和科学依据。但是,目前法律知识图谱的构建还不够完善,无法对法律咨询和法律搜索等司法领域的应用提供基础保障。
发明内容
有鉴于此,本公开的目的在于提出一种法律知识图谱构建方法及相关设备。
基于上述目的,本公开提供了一种法律知识图谱构建方法,包括:
通过对法律法规的法律内容进行分类,确定一级节点;
基于所述一级节点根据相关法律法规确定二级节点,所述二级节点为所述一级节点的子节点;
基于与每个所述二级节点相关联的法律法规,构建以该二级节点为根节点的子图谱;
对所述子图谱的节点分别进行聚合计算和相似度计算,重构所述子图谱;
基于所述一级节点、所述二级节点和经过重构的所述子图谱构建初始法律知识图谱;
基于法律知识相关文件通过实体抽取得到游离节点;
将所述初始法律知识图谱的节点作为第一类别标签,通过经过预训练的第一多类别分类模型对所述游离节点进行分类,并将所述游离节点关联到所述初始法律知识图谱的相应节点上,以得到所述法律知识图谱。
进一步的,所述一级节点包括:民事、刑事、商事、经济、行政和宪法。
进一步的,所述基于与每个所述二级节点相关联的法律法规,构建以该二级节点为根节点的子图谱,包括:
从与所述二级节点相关联的第一类法律文件中提取关键词,构建所述子图谱。
进一步的,对所述子图谱的节点进行聚合计算和相似度计算,重构所述子图谱,包括:
将所述子图谱的节点作为第二类别标签,通过经过预训练的第二多标签分类模型对与所述子图谱关联的法律语料进行分类,基于分类结果确定聚合节点,所述聚合节点作为所述二级节点下的三级节点,与所述聚合节点关联的所述子图谱中的节点作为所述聚合节点的子节点;
从与所述二级节点相关联的第二类法律文件中提取关键词,将所述关键词作为候选节点,通过对所述候选节点和所述子图谱中的节点进行相似度计算,将所述候选节点关联到所述子图谱的相应节点上。
进一步的,基于法律知识相关文件通过实体抽取得到游离节点,包括:
通过预训练模型Bert对法律知识相关文件中的语句进行编码,得到该语句中每个字的字向量表示;
通过BIO标注法对所述字向量表示进行标注并得到所述字向量表示的第三类别标签,基于所述第三类别标签通过前馈神经网络生成所述字向量表示的得分向量;
基于条件随机场和所述得分向量得到所述字向量表示对应的最终第三类别标签;
基于所述最终第三类别标签确定游离节点。
进一步的,所述将所述初始法律知识图谱的节点作为第一类别标签,通过经过预训练的第一多类别分类模型对所述游离节点进行分类,包括:
通过预训练模型Bert对与所述游离节点关联的文本语句进行编码,得到所述文本语句的句子向量表示;
基于所述第一类别标签通过所述第一多类别分类模型对所述句子向量表示进行分类,确定所述句子向量表示的所述第一类别标签,将所述第一类别标签作为所述游离节点的第一类别标签。
进一步的,所述将所述游离节点关联到所述初始法律知识图谱的相应节点上,以得到所述法律知识图谱,包括:
通过自顶向下或自底向上的关联方法将所述游离节点关联到所述初始法律知识图谱的相应节点上。
基于同一发明构思,本公开还提供了一种法律知识图谱构建装置,包括:
一级节点确定模块,被配置为通过对法律法规的法律内容进行分类,确定一级节点;
二级节点确定模块,被配置为基于所述一级节点根据相关法律法规确定二级节点,所述二级节点为所述一级节点的子节点;
子图谱构建模块,被配置为基于与每个所述二级节点相关联的法律法规,构建以该二级节点为根节点的子图谱;
子图谱重构模块,被配置为对所述子图谱的节点分别进行聚合计算和相似度计算,重构所述子图谱;
初始法律知识图谱构建模块,被配置为基于所述一级节点、所述二级节点和经过重构的所述子图谱构建初始法律知识图谱;
游离节点提取模块,被配置为基于法律知识相关文件通过实体抽取得到游离节点;
法律知识图谱构建模块,被配置为将所述初始法律知识图谱的节点作为第一类别标签,通过经过预训练的第一多类别分类模型对所述游离节点进行分类,并将所述游离节点关联到所述初始法律知识图谱的相应节点上,以得到所述法律知识图谱。
基于同一发明构思,本公开还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上所述的方法。
基于同一发明构思,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上所述的方法。
从上面所述可以看出,本公开提供的法律知识图谱构建方法及相关设备,基于深度学习的要素抽取方法,结合法律专家和人工抽取建立法律知识图谱表示体系,提出一套法律知识图谱的构建方法。该法律知识图谱通过信息抽取,将以纯文本形式存在的法律数据结构化,为法律咨询和法律搜索等一系列司法领域的应用提供了基础保障。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例的法律知识图谱构建方法的流程示意图;
图2为本公开实施例的子图谱构建的示意图;
图3为本公开实施例的子图谱节点聚合的示意图;
图4为本公开实施例的经过相似度计算的子图谱重构的示意图;
图5为本公开实施例的法律知识图谱构建装置的结构示意图;
图6为本公开实施例的电子设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
以下结合附图来详细说明本公开的实施例。
本公开提供了一种法律知识图谱构建方法,参考图1,包括以下几个步骤:
步骤S101、通过对法律法规的法律内容进行分类,确定一级节点。基于由法律专家确定的法律类型对法律内容进行分类,将分类得到的类别确定为法律知识图谱的一级节点。
在一些实施例中,所述一级节点包括:民事、刑事、商事、经济、行政 和宪法。
步骤S102、基于所述一级节点根据相关法律法规确定二级节点,所述二级节点为所述一级节点的子节点。具体的,根据确定的一级节点的相关法律法规,结合法律专家建议进行归纳,得到二级节点。
在一些实施例中,以一级节点中的“民事”为例,依据《民法典》及与民事相关的主要法律法规进行归纳,可得到13个二级节点,分别为交通、侵权责任、债券债务、企业、知识产权、消费维权、税务、人格权、合同、婚姻家庭、劳动、继承和物权。
步骤S103、基于与每个所述二级节点相关联的法律法规,构建以该二级节点为根节点的子图谱。
在一些实施例中,从与所述二级节点相关联的第一类法律文件中提取关键词,构建所述子图谱。
具体的,为了方便说明,通过下表举例说明一级节点“民事”对应的各二级节点的主要法律法规。
表1 一级节点“民事”对应的各二级节点的主要法律法规
二级节点 | 主要法 |
婚姻家庭 | 《民法典》第五编“婚姻家庭” |
继承 | 《民法典》第六编“继承” |
侵权责任 | 《民法典》第七编“侵权责任” |
债权债务 | 《民法典》第三编“合同” |
劳动 | 《中华人民共和国劳动法》等 |
交通 | 《中华人民共和国道路交通安全法》等 |
消费维权 | 《中华人民共和国消费者权益保护法》、《中华人民共和国产品质量法》、《中华人民共和国食品安全法》等 |
知识产权 | 《中华人民共和国专利法》、 《中华人民共和国著作权法》、《中华人民共和国商标法》等 |
合同 | 《民法典》第三编“合同” |
物权 | 《民法典》第二编“物权” |
企业 | 《中华人民共和国个人独资企业法》、《中华人民共和国合伙企业法》等 |
税务 | 《中华人民共和国环境保护税法》、《中华人民共和国资源税法》等 |
人格权 | 《民法典》第四编“人格权” |
从表1可以看出,二级节点“劳动”对应的主要法律法规为《中华人民共和国劳动法》,该部法律的篇章结构具体为:
第一章 总则
第二章 促进就业
第三章 劳动合同和集体合同
第四章 工作时间和休息休假
第五章 工资
第六章 劳动安全卫生
第七章 女职工和未成年工特殊保护
第八章 职业培训
第九章 社会保险和福利
第十章 劳动争议
第一十章 监督检查
……
对上述篇章结构中的关键词进行提取,将关键词作为子图谱的节点,得到如图2所示的子图谱,其中,二级节点“劳动”对应的子图谱节点包括促进就业、劳动合同、集体合同、休息休假、劳动争议、福利、社会保险、未成年工特殊保护、女职工特殊保护、监督检查、工作时间、工资、劳动安全卫生和职业培训。
步骤S104、对所述子图谱的节点分别进行聚合计算和相似度计算,重构所述子图谱。具体的,子图谱中的节点存在类别相同或缺失的情况,可进一步通过节点聚合和相似度计算,对子图谱的节点进行优化。
步骤S105、基于所述一级节点、所述二级节点和经过重构的所述子图谱构建初始法律知识图谱。
具体的,根据上述步骤确定的一级节点、二级节点和子图谱构建初始法律知识图谱,二级节点作为一级节点的子节点,二级节点作为子图谱的父节点,初始法律知识图谱形成至少包括三级节点的表示体系。
步骤S106、基于法律知识相关文件通过实体抽取得到游离节点。具体的,基于非结构化的法律数据对初始法律知识图谱进行优化。利用收集到的法律文书、用户问题以及法律条文的内容描述对实处法律知识图谱进一步完善。例如,用户法律问题中的某些问题并不能精准的关联到初始法律知识图谱中,这就需要对从用户提问和法条内容等大量非结构化数据中抽取关键实体,将这些关键实体添加到初始法律知识图谱中对图谱节点进行补充。
步骤S107、将所述初始法律知识图谱的节点作为第一类别标签,通过经过预训练的第一多类别分类模型对所述游离节点进行分类,并将所述游离节点关联到所述初始法律知识图谱的相应节点上,以得到所述法律知识图谱。
具体的,通过对游离节点进行分类,将其关联到初始法律知识图谱的不同层级的相应节点中,得到较为完善的法律知识图谱。
在一些实施例中,对所述子图谱的节点进行聚合计算和相似度计算,重构所述子图谱,包括:
将所述子图谱的节点作为第二类别标签,通过经过预训练的第二多标签分类模型对与所述子图谱关联的法律语料进行分类,基于分类结果确定聚合节点,所述聚合节点作为所述二级节点下的三级节点,与所述聚合节点关联的所述子图谱中的节点作为所述聚合节点的子节点;
从与所述二级节点相关联的第二类法律文件中提取关键词,将所述关键词作为候选节点,通过对所述候选节点和所述子图谱中的节点进行相似度计算,将所述候选节点关联到所述子图谱的相应节点上。
具体的,将图2中的子图谱的节点作为第二类别标签,对所述子图谱关联的法律语料进行分类,分类后会出现某些节点,例如“女职工特殊保护”、“未成年工特殊保护”等类别对应法律数据稀少的情况,结合专家意见对这些节点进行聚合,并在这些节点的基础上确定聚合节点“劳动保护”,该聚合节点“劳动保护”主要基于专家建议结合相关法律语料的关键信息进行命名,经过聚合后的子图谱如图3所示,在图2的基础上增加了两个聚合节点“劳动保护”和“员工权益”,这两个聚合节点作为二级节点“劳动”的子节点,“劳动保护”包括的子节点为“劳动安全卫生”、“女职工特殊保护”和“未成年工特殊保护”。“员工权益”包括的子节点为“工作时间”、“福利”、“工资”、“休息休假”和“职业培训”。
由于二级节点“劳动”还对应《中华人民共和国促进就业法》、《工伤保险条例》等法律法规,从上述法律法规中提取候选节点,通过对候选节点和子图谱中的节点计算相似度,将候选节点关联至子图谱中。例如,从第二类法律文件中国提取的候选节点为“工伤保险”,经相似度计算可知,“社会保险”和“工伤保险”相似度很高,可能是等价关系节点或上下位关系节点,通过法律专家建议,将“工伤保险”作为“社会保险”的下一级节点。又如,从第二类法律文件中提取的候选节点为“监督管理”,经过相似度计算,可知“监督检查”和“监督管理”相似度很高,并且“监督管理”同时在《工伤保险条例》和《中华人民共和国促进就业法》中被重复提取,经过法律专家建议,将“监督检查”和“监督管理”视为等价关系节点,并将该节点命名为“监督检查”。以《工伤保险条例》和《中华人民共和国促进就业法》对子图谱进行重构为例,其篇章结构分别为:
《中华人民共和国促进就业法》的篇章结构:
第一章 总则
第二章 政策支持
第三章 公平就业
第四章 就业服务和管理
第五章 职业教育和培训
第六章 就业援助
第七章 监督检查
第八章 法律责任
第九章 附则
《工伤保险条例》的篇章结构:
第一章 总则
第二章 工伤保险基金
第三章 工伤认定
第四章 劳动能力鉴定
第五章 工伤保险待遇
第六章 监督管理
第七章 法律责任
第八章 附则
重构的子图谱如图4所示,“工伤保险”作为“社会保险”的子节点,“工伤认定”、“工伤保险基金”、“工伤保险待遇”和“劳动能力鉴定”作为“工伤保险”的子节点。
在一些实施例中,基于法律知识相关文件通过实体抽取得到游离节点,包括:
通过预训练模型Bert对法律知识相关文件中的语句进行编码,得到该语句中每个字的字向量表示;通过BIO标注法对所述字向量表示进行标注并得到所述字向量表示的第三类别标签,基于所述第三类别标签通过前馈神经网络生成所述字向量表示的得分向量;基于条件随机场和所述得分向量得到所述字向量表示对应的最终第三类别标签;基于所述最终第三类别标签确定游离节点。
具体的,在编码阶段采用中文预训练模型Bert-Chinese对语句的内容进行编码,最终输出语句中每个字的向量表示,假设语句中有L个字,则输出的字向量表示为:
其中,为字向量表示,通过BIO标注法对每一个字向量表示进行标
注,返回一个标注了具体实体的句子。BIO标注法中第三类别标签包括‘B-PER’,‘I-PER’,
‘0’等,其中连接符‘-’左侧代表该字在实体中所处的位置,‘B’代表起始位置,‘I’代表非起
始位置,连接符右侧代表该字所属词的类别,‘PER’代表‘人’这一具体的实体类,‘0’用来表
示非实体。例如,“劳动者有权依法参加和组织工会”这句话中,‘劳’被标注为‘B-PER’,‘动’
被标注为‘I-PER’,‘有’不属于实体,因此被标注为‘0’。采用前馈神经网络FFN
(Feedforward neural Network)对每一个字向量表示生成一个得分向量
该得分向量的每一个分量对应于该字向量表示对每个第三类别标签的得分,得
分向量的长度即为全部第三类别标签的个数。得到了每个字向量表示的标签得分向量
后,如果直接取的最大分量作为的标签输出,会得到一个对应的第三类别标签路径
其中,代表的最大分量。这样直接取最大值得到的
标签路径没有考虑到路径中每个第三类别标签的联系和顺序的合理性等问题。例如:, 这种标签路径是不合理的,因为‘I-PER’前面只有可能是‘B-PER’
或另一个‘I-PER’。考虑到标签路径中第三类别标签之间的关联性,在得到得分向量后不直
接选取最大值,而是在其后添加一个条件随机场CRF层学习序列标注的约束条件,从而确保
预测结果的合理性。经过训练,最终可以通过CRF层输出得到符合序列标注约束条件、最大
可能的预测标签路径,根据该标签路径可以得到每个词的第三类别标签,并根据第三类别
标签确定游离节点。
在一些实施例中,所述将所述初始法律知识图谱的节点作为第一类别标签,通过经过预训练的第一多类别分类模型对所述游离节点进行分类,包括:
通过预训练模型Bert对与所述游离节点关联的文本语句进行编码,得到所述文本语句的句子向量表示;基于所述第一类别标签通过所述第一多类别分类模型对所述句子向量表示进行分类,确定所述句子向量表示的所述第一类别标签,将所述第一类别标签作为所述游离节点的第一类别标签。
具体的,基于上述步骤得到了图谱以外的一些游离节点。这些游离节点可能能够关联到初始法律知识图谱中的某个节点,或者可以单独作为一个新的节点,需要对这些游离节点进行分类以确定其在初始法律知识图谱中的具体位置。
在一些实施例中,所述将所述游离节点关联到所述初始法律知识图谱的相应节点上,以得到所述法律知识图谱,包括:通过自顶向下或自底向上的关联方法将所述游离节点关联到所述初始法律知识图谱的相应节点上。
具体的,有些游离节点对细粒度类别敏感,有些游离节点对粗粒度类别敏感,所以关联的方法可以采取自顶向下或是自底向上的方式。其中,自顶向下的方式以二级节点为顶,逐步向下进行关联。若游离节点通过分类属于某个二级节点,则游离节点成为该二级节点下的三级节点。若该游离节点不属于某个一级节点下的任何一个二级节点,则将该游离节点作为该一级节点下的新的二级节点。如果游离节点不属于初始法律知识图谱中的任何一个节点,则由法律专家确定其所述层级,关联到初始法律图谱中。
自底向上的方法是指从底层的节点开始对给定的游离节点进行分类,如果该游离节点属于某一类别,则直接将其作为该类别的子节点。如果应用自顶向下和自底向上的方法均无法对游离节点进行分类,则通过法律专家对该游离节点进行分类并关联至初始法律图谱中。
自顶向下和自底向上两种关联方法均通过第一多类别分类模型进行分类并关联。首先,通过预训练模型Bert-Chinese对与所述游离节点关联的文本语句进行编码,得到句子级别的句子向量表示。然后再将该句子向量表示输入到第一多类别分类模型进行分类,判断该句子的第一类别标签,作为关联游离节点的第一类别标签。
使用第一多类别分类模型之前,需要对第一多类别分类模型进行预训练,训练步骤如下:
设训练样本集为,其中,表示第i个训练
样本对应的句子向量表示,Rn表示n维实数空间,表示第i个训练样本对应的类别,m为训
练样本的总数。使用前馈神经网络FFN(Feedforward neural Network)计算每个样本对应
于不同类别的得分向量,向量的每一个分量对应于该句子
向量表示对于相应类别的得分,这里一共假设共有n个类别。为了提高梯度下降法求最优解
的速度,对得到的类别得分做归一化处理,这里我们使用Softmax归一化指数函数得到样本属于类别j的概率:
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种法律知识图谱构建装置。
参考图5,所述法律知识图谱构建装置,包括:
一级节点确定模块501,被配置为通过对法律法规的法律内容进行分类,确定一级节点;
二级节点确定模块502,被配置为基于所述一级节点根据相关法律法规确定二级节点,所述二级节点为所述一级节点的子节点;
子图谱构建模块503,被配置为基于与每个所述二级节点相关联的法律法规,构建以该二级节点为根节点的子图谱;
子图谱重构模块504,被配置为对所述子图谱的节点分别进行聚合计算和相似度计算,重构所述子图谱;
初始法律知识图谱构建模块505,被配置为基于所述一级节点、所述二级节点和经过重构的所述子图谱构建初始法律知识图谱;
游离节点提取模块506,被配置为基于法律知识相关文件通过实体抽取得到游离节点;
法律知识图谱构建模块507,被配置为将所述初始法律知识图谱的节点作为第一类别标签,通过经过预训练的第一多类别分类模型对所述游离节点进行分类,并将所述游离节点关联到所述初始法律知识图谱的相应节点上,以得到所述法律知识图谱。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的法律知识图谱构建方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的法律知识图谱构建方法。
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图, 该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的法律知识图谱构建方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的法律知识图谱构建方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的法律知识图谱构建方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种法律知识图谱构建方法,包括:
通过对法律法规的法律内容进行分类,确定一级节点;
基于所述一级节点根据相关法律法规确定二级节点,所述二级节点为所述一级节点的子节点;
基于与每个所述二级节点相关联的法律法规,构建以该二级节点为根节点的子图谱;
对所述子图谱的节点分别进行聚合计算和相似度计算,重构所述子图谱;
基于所述一级节点、所述二级节点和经过重构的所述子图谱构建初始法律知识图谱;
基于法律知识相关文件通过实体抽取得到游离节点;
将所述初始法律知识图谱的节点作为第一类别标签,通过经过预训练的第一多类别分类模型对所述游离节点进行分类,并将所述游离节点关联到所述初始法律知识图谱的相应节点上,以得到所述法律知识图谱。
2.根据权利要求1所述的方法,其中,所述一级节点包括:民事、刑事、商事、经济、行政和宪法。
3.根据权利要求1所述的方法,其中,所述基于与每个所述二级节点相关联的法律法规,构建以该二级节点为根节点的子图谱,包括:
从与所述二级节点相关联的第一类法律文件中提取关键词,构建所述子图谱。
4.根据权利要求1所述的方法,其中,对所述子图谱的节点进行聚合计算和相似度计算,重构所述子图谱,包括:
将所述子图谱的节点作为第二类别标签,通过经过预训练的第二多标签分类模型对与所述子图谱关联的法律语料进行分类,基于分类结果确定聚合节点,所述聚合节点作为所述二级节点下的三级节点,与所述聚合节点关联的所述子图谱中的节点作为所述聚合节点的子节点;
从与所述二级节点相关联的第二类法律文件中提取关键词,将所述关键词作为候选节点,通过对所述候选节点和所述子图谱中的节点进行相似度计算,将所述候选节点关联到所述子图谱的相应节点上。
5.根据权利要求1所述的方法,其中,基于法律知识相关文件通过实体抽取得到游离节点,包括:
通过预训练模型Bert对法律知识相关文件中的语句进行编码,得到该语句中每个字的字向量表示;
通过BIO标注法对所述字向量表示进行标注并得到所述字向量表示的第三类别标签,基于所述第三类别标签通过前馈神经网络生成所述字向量表示的得分向量;
基于条件随机场和所述得分向量得到所述字向量表示对应的最终第三类别标签;
基于所述最终第三类别标签确定游离节点。
6.根据权利要求1所述的方法,其中,所述将所述初始法律知识图谱的节点作为第一类别标签,通过经过预训练的第一多类别分类模型对所述游离节点进行分类,包括:
通过预训练模型Bert对与所述游离节点关联的文本语句进行编码,得到所述文本语句的句子向量表示;
基于所述第一类别标签通过所述第一多类别分类模型对所述句子向量表示进行分类,确定所述句子向量表示的所述第一类别标签,将所述第一类别标签作为所述游离节点的第一类别标签。
7.根据权利要求1所述的方法,其中,所述将所述游离节点关联到所述初始法律知识图谱的相应节点上,以得到所述法律知识图谱,包括:
通过自顶向下或自底向上的关联方法将所述游离节点关联到所述初始法律知识图谱的相应节点上。
8.一种法律知识图谱构建装置,包括:
一级节点确定模块,被配置为通过对法律法规的法律内容进行分类,确定一级节点;
二级节点确定模块,被配置为基于所述一级节点根据相关法律法规确定二级节点,所述二级节点为所述一级节点的子节点;
子图谱构建模块,被配置为基于与每个所述二级节点相关联的法律法规,构建以该二级节点为根节点的子图谱;
子图谱重构模块,被配置为对所述子图谱的节点分别进行聚合计算和相似度计算,重构所述子图谱;
初始法律知识图谱构建模块,被配置为基于所述一级节点、所述二级节点和经过重构的所述子图谱构建初始法律知识图谱;
游离节点提取模块,被配置为基于法律知识相关文件通过实体抽取得到游离节点;
法律知识图谱构建模块,被配置为将所述初始法律知识图谱的节点作为第一类别标签,通过经过预训练的第一多类别分类模型对所述游离节点进行分类,并将所述游离节点关联到所述初始法律知识图谱的相应节点上,以得到所述法律知识图谱。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现根据权利要求1至7中任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行根据权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111118187.1A CN113590846B (zh) | 2021-09-24 | 2021-09-24 | 法律知识图谱构建方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111118187.1A CN113590846B (zh) | 2021-09-24 | 2021-09-24 | 法律知识图谱构建方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113590846A true CN113590846A (zh) | 2021-11-02 |
CN113590846B CN113590846B (zh) | 2021-12-17 |
Family
ID=78242175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111118187.1A Active CN113590846B (zh) | 2021-09-24 | 2021-09-24 | 法律知识图谱构建方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590846B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905577A (zh) * | 2023-02-08 | 2023-04-04 | 支付宝(杭州)信息技术有限公司 | 知识图谱的构建方法及装置、法规检索方法和装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109597856A (zh) * | 2018-12-05 | 2019-04-09 | 北京知道创宇信息技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN109635121A (zh) * | 2018-11-07 | 2019-04-16 | 平安科技(深圳)有限公司 | 医疗知识图谱创建方法及相关装置 |
CN110941702A (zh) * | 2019-11-26 | 2020-03-31 | 北京明略软件系统有限公司 | 一种法律法规和法条的检索方法及装置、可读存储介质 |
CN111897970A (zh) * | 2020-07-27 | 2020-11-06 | 平安科技(深圳)有限公司 | 基于知识图谱的文本比对方法、装置、设备及存储介质 |
CN111930774A (zh) * | 2020-08-06 | 2020-11-13 | 全球能源互联网研究院有限公司 | 一种电力知识图谱本体自动构建方法及系统 |
CN112035672A (zh) * | 2020-07-23 | 2020-12-04 | 深圳技术大学 | 一种知识图谱补全方法、装置、设备以及存储介质 |
CN112214611A (zh) * | 2020-09-24 | 2021-01-12 | 远光软件股份有限公司 | 一种企业知识图谱的构建系统和方法 |
CN112347270A (zh) * | 2020-11-30 | 2021-02-09 | 重庆工程职业技术学院 | 一种法律知识图谱构建系统及方法 |
CN112612908A (zh) * | 2021-01-05 | 2021-04-06 | 上海云扣科技发展有限公司 | 自然资源知识图谱构建方法、装置、服务器及可读存储器 |
CN113094517A (zh) * | 2021-04-27 | 2021-07-09 | 中国美术学院 | 一种产品知识单元的构建方法和系统 |
-
2021
- 2021-09-24 CN CN202111118187.1A patent/CN113590846B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635121A (zh) * | 2018-11-07 | 2019-04-16 | 平安科技(深圳)有限公司 | 医疗知识图谱创建方法及相关装置 |
CN109597856A (zh) * | 2018-12-05 | 2019-04-09 | 北京知道创宇信息技术有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN110941702A (zh) * | 2019-11-26 | 2020-03-31 | 北京明略软件系统有限公司 | 一种法律法规和法条的检索方法及装置、可读存储介质 |
CN112035672A (zh) * | 2020-07-23 | 2020-12-04 | 深圳技术大学 | 一种知识图谱补全方法、装置、设备以及存储介质 |
CN111897970A (zh) * | 2020-07-27 | 2020-11-06 | 平安科技(深圳)有限公司 | 基于知识图谱的文本比对方法、装置、设备及存储介质 |
CN111930774A (zh) * | 2020-08-06 | 2020-11-13 | 全球能源互联网研究院有限公司 | 一种电力知识图谱本体自动构建方法及系统 |
CN112214611A (zh) * | 2020-09-24 | 2021-01-12 | 远光软件股份有限公司 | 一种企业知识图谱的构建系统和方法 |
CN112347270A (zh) * | 2020-11-30 | 2021-02-09 | 重庆工程职业技术学院 | 一种法律知识图谱构建系统及方法 |
CN112612908A (zh) * | 2021-01-05 | 2021-04-06 | 上海云扣科技发展有限公司 | 自然资源知识图谱构建方法、装置、服务器及可读存储器 |
CN113094517A (zh) * | 2021-04-27 | 2021-07-09 | 中国美术学院 | 一种产品知识单元的构建方法和系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905577A (zh) * | 2023-02-08 | 2023-04-04 | 支付宝(杭州)信息技术有限公司 | 知识图谱的构建方法及装置、法规检索方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113590846B (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428053B (zh) | 一种面向税务领域知识图谱的构建方法 | |
CN113822494B (zh) | 风险预测方法、装置、设备及存储介质 | |
Tsui et al. | Knowledge-based extraction of intellectual capital-related information from unstructured data | |
CN109543034B (zh) | 基于知识图谱的文本聚类方法、装置及可读存储介质 | |
CN110968699A (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
CN111144723A (zh) | 人岗匹配推荐方法及系统、存储介质 | |
CN110633577A (zh) | 文本脱敏方法以及装置 | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
Moreno-Schneider et al. | Orchestrating NLP services for the legal domain | |
CN113378970B (zh) | 语句相似性检测方法、装置、电子设备及存储介质 | |
CN112100398B (zh) | 一种专利空白预测方法及系统 | |
CN113312480A (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
US11620453B2 (en) | System and method for artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations | |
CN114372620A (zh) | 基于轨迹预测的目标人员动态风险预警方法及相关设备 | |
US20200074300A1 (en) | Artificial-intelligence-augmented classification system and method for tender search and analysis | |
CN110033382B (zh) | 一种保险业务的处理方法、装置及设备 | |
CN113627797A (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
CN113220901A (zh) | 基于增强智能的写作构思辅助系统、网路系统 | |
CN116205482A (zh) | 重点人员风险等级评估方法及相关设备 | |
CN115905528A (zh) | 具有时序特征的事件多标签分类方法、装置及电子设备 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN113590846B (zh) | 法律知识图谱构建方法及相关设备 | |
CN112632223B (zh) | 案事件知识图谱构建方法及相关设备 | |
Jin et al. | Textual content prediction via fuzzy attention neural network model without predefined knowledge | |
Sieminski et al. | Modern approaches for intelligent information and database systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |