CN111143521A

CN111143521A - 基于知识图谱的法条检索方法、系统、装置及存储介质

Info

Publication number: CN111143521A
Application number: CN201911031835.2A
Authority: CN
Inventors: 方清
Original assignee: Guangzhou Huge Information Technology Co ltd
Current assignee: Guangzhou Huge Information Technology Co ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-05-12
Anticipated expiration: 2039-10-28
Also published as: CN111143521B

Abstract

本发明公开了一种基于知识图谱的法条检索方法、系统、装置及存储介质通过获取法律相关的语料，并构建得到法律知识图谱，获取法律法条数据库，检测法律法条数据库中的每条法律法条在法律知识图谱的关系，获取输入的搜索文本，检测搜索文本在法律知识图谱的关系，根据所述搜索文本分别与各所述法律法条之间的相似权重，对各所述法律法条按照预设的排列方式进行排列，形成得到法条检索结果。本发明通过构建法律知识图谱，并基于法律知识图谱对搜索文本与法律法条进行相似计算，从而能快速得出推荐的法律法条，并且还能大大提高法律的检索准确性。本发明可广泛应用于法律检索领域中。

Description

基于知识图谱的法条检索方法、系统、装置及存储介质

技术领域

本发明涉及知识工程技术领域，尤其涉及一种基于知识图谱的法条检索方法、系统、装置及存储介质。

背景技术

知识图谱，2012年由谷歌正式发布，是一种知识库，用于知识的管理，以便于有关领域知识的采集、整理以及提取。知识图谱旨在描述真实世界中存在的各种实体或概念及其关系，其构成一张巨大的语义网络图，节点表示实体或概念，边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。

一方面，随着语义Web数据的数量激增，产生了大量的RDF数据。互联网变成包含大量描述各种实体和实体之间丰富关系的数据万维网。在此基础上，以谷歌为代表的各大检索引擎公司纷纷构建知识图谱来改善检索质量，从而拉开了语义检索的序幕。知识图谱显著提高检索引擎和检索系统的质量。

另一方面，随着深度学习的发展，自然语言处理领域的难题也不断突破，机器正在理解人类的语言，这使得自动构建大型知识图谱成为可能。WordNet、DBpedia、Freebase、WikiData等大型通用知识图谱相继发布。先进的技术在我们的生活中创造越来越多的价值。法制社会更是与每个人的生活息息相关。但由于需要领域专家的大量人工干预，基于法律领域的知识图谱的构建，进展却一直十分缓慢。

追溯起来，人工智能和法律的结合始于1987年在美国波士顿的东北大学举办的首届国际人工智能与法律会议，建立基于法律和案例的推理模型或知识系统等应用是精准、高效办案的迫切需求。由于法律是一种概括、普遍、严谨的行为规范，这种规范由特殊的逻辑所构成，目前并没有相关的技术或方法，直接基于法律文本构建知识图谱，从而法律检索的准确性得不到有效的提升。

发明内容

为了解决上述技术问题，本发明的目的是提供一种能提高检索准确性的静基于知识图谱的法条检索方法、系统、装置及存储介质。

第一方面，本发明实施例提供了一种基于知识图谱的法条检索方法，包括以下步骤：

获取法律相关的语料，并构建得到法律知识图谱；

获取法律法条数据库，检测法律法条数据库中的每条法律法条在法律知识图谱的关系，得出每条法律法条对应的第一实体关系集合列表；

获取输入的搜索文本，检测搜索文本在法律知识图谱的关系，得出第二实体关系集合列表；

计算各所述法律法条对应的第一实体关系集合列表中实体关系集合与第二实体关系集合列表中实体关系集合的交集，得到多个交集；

根据得到的多个交集，计算得出所述搜索文本分别与各所述法律法条之间的相似权重；

根据所述搜索文本分别与各所述法律法条之间的相似权重，对各所述法律法条按照预设的排列方式进行排列，形成得到法条检索结果。

作为所述的一种基于知识图谱的法条检索方法的进一步改进，所述的获取法律相关的语料，并构建得到法律知识图谱，这一步骤具体包括：

获取法律相关的文档作为语料；

对所述文档进行预处理，得出实体词库；

通过词袋模型将所述文档进行向量化处理，得到文档向量；

对所述文档向量作为训练集，使用预设的词向量模型通过所述训练集进行训练，得到训练后的词向量模型；

遍历实体词库中的每个实体，通过训练后的词向量模型计算与各实体之间关系相近的实体，形成“实体-相近关系-实体”的三元组结构，构建得到法律知识图谱。

作为所述的一种基于知识图谱的法条检索方法的进一步改进，所述的对所述文档进行预处理，得出实体词库，这一步骤具体包括：

对所述语料中的各所述文档进行分词处理，得到第一分词；

对所述第一分词进行词性标注；

根据标注的词性，按照预设的词性要求对所述第一分词进行提取处理，得到第二分词；

对所述第二分词过滤处理，得到过滤后的第二分词；

将过滤后的第二分词作为实体并构成实体词库。

作为所述的一种基于知识图谱的法条检索方法的进一步改进，所述的获取法律法条数据库，检测法律法条数据库中的每条法律法条在法律知识图谱的关系，得出每条法律法条对应的第一实体关系集合列表，这一步骤具体包括：

获取法律法条数据库，并对法律法条数据库中的各法律法条进行分词处理，得到第一法条分词；

对所述各法律法条的第一法条分词依次进行词性标注、提取和过滤处理，得到各法律法条的第二法条分词；

检测各法律法条的第二法条分词在法律知识图谱中的关系，得出第二法条分词对应的实体关系集合，进而得到第一实体关系集合列表。

作为所述的一种基于知识图谱的法条检索方法的进一步改进，所述的获取输入的搜索文本，检测搜索文本在法律知识图谱的关系，得出第二实体关系集合列表，这一步骤具体包括：

获取输入的搜索文本，并对所述搜索文本进行分词处理，得到第一文本分词；

对所述第一文本分词依次进行词性标注、提取和过滤处理，得到各法律法条的第二文本分词；

检测所述第二文本分词在法律知识图谱中的关系，得出第二文本分词对应的实体关系集合，进而得到第二实体关系集合列表。

作为所述的一种基于知识图谱的法条检索方法的进一步改进，所述的根据得到的多个交集，计算得出所述搜索文本分别与各所述法律法条之间的相似权重，这一步骤具体包括：

根据得到的多个交集，检测各交集中最大的相近关系；

根据各交集中最大的相近关系，计算得出所述搜索文本分别与各所述法律法条之间的相似权重。

作为所述的一种基于知识图谱的法条检索方法的进一步改进，所述相似权重的计算公式为：

W＝0.6*n+(1-0.6)*(R1+R2+R3+…+Rn)；

其中，W表示相似权重，R1……Rn分别表示第1个交集最大的相近关系到第n个交集最大的相近关系。

第二方面，本发明实施例提供了一种基于知识图谱的法条检索系统，包括：

第一获取单元，用于获取法律相关的语料，并构建得到法律知识图谱；

第二获取单元，用于获取法律法条数据库，检测法律法条数据库中的每条法律法条在法律知识图谱的关系，得出每条法律法条对应的第一实体关系集合列表；

第三获取单元，用于获取输入的搜索文本，检测搜索文本在法律知识图谱的关系，得出第二实体关系集合列表；

第一处理单元，用于计算各所述法律法条对应的第一实体关系集合列表中实体关系集合与第二实体关系集合列表中实体关系集合的交集，得到多个交集；

第二处理单元，用于根据得到的多个交集，计算得出所述搜索文本分别与各所述法律法条之间的相似权重；

第三处理单元，用于根据所述搜索文本分别与各所述法律法条之间的相似权重，对各所述法律法条按照预设的排列方式进行排列，形成得到法条检索结果。

第三方面，本发明实施例提供了一种基于知识图谱的法条检索装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述一种基于知识图谱的法条检索方法。

第四方面，本发明实施例提供了一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行所述一种基于知识图谱的法条检索方法。

本发明的有益效果是：

本发明一种基于知识图谱的法条检索方法、系统、装置及存储介质通过构建法律知识图谱，并基于法律知识图谱对搜索文本与法律法条进行相似计算，从而能快速得出推荐的法律法条，并且还能大大提高法律的检索准确性。

附图说明

图1是本发明实施例一种基于知识图谱的法条检索方法一个实施例的步骤流程图；

图2是本发明实施例一种基于知识图谱的法条检索系统一个实施例的模块方框图；

图3是本发明实施例一种基于知识图谱的法条检索装置一个实施例的结构方框图；

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。而且需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

参考图1，本发明实施例提供了一种基于知识图谱的法条检索方法，包括以下步骤：

S101、获取法律相关的语料，并构建得到法律知识图谱；

本实施例中，为了连接法律条文中的实体与日常生活中的实体的距离。所述法律相关的语料必须具备两面性，一面立足与法律条文，一面面向普通大众，例如可以是法律科普、法律解读、政策解读等。所述语料的具体获取方式可以是通过合法的爬虫技术从互联网上爬取公开的政策及新闻、普法专栏、专家解读作为语料。

S102、获取法律法条数据库，检测法律法条数据库中的每条法律法条在法律知识图谱的关系，得出每条法律法条对应的第一实体关系集合列表；

S103、获取输入的搜索文本，检测搜索文本在法律知识图谱的关系，得出第二实体关系集合列表；

S104、计算各所述法律法条对应的第一实体关系集合列表中实体关系集合与第二实体关系集合列表中实体关系集合的交集，得到多个交集；

S105、根据得到的多个交集，计算得出所述搜索文本分别与各所述法律法条之间的相似权重；

S106、根据所述搜索文本分别与各所述法律法条之间的相似权重，对各所述法律法条按照预设的排列方式进行排列，形成得到法条检索结果。

本实施例中预设的排列方式为倒序排列，所述法条检索结果采用列表方式呈现，则根据相似权重对各所述法律法条倒序排列，形成得到法律法条搜索推荐列表，大大提高法律的检索准确性。

进一步作为本实施例的优选实施方式，本实施例中所述的获取法律相关的语料，并构建得到法律知识图谱，这一步骤具体包括：

S1011、获取法律相关的文档作为语料；

S1012、对所述文档进行预处理，得出实体词库；

本实施例中，所述预处理包括分词处理、词性标注、提取和过滤处理。

S1013、通过词袋模型将所述文档进行向量化处理，得到文档向量；

本实施例中，所述词袋模型可采用doc2bow模型。

S1014、对所述文档向量作为训练集，使用预设的词向量模型通过所述训练集进行训练，得到训练后的词向量模型；

本实施例中，所述词向量模型可采用word2vec模型。

S1015、遍历实体词库中的每个实体，通过训练后的词向量模型计算与各实体之间关系相近的实体，形成“实体-相近关系-实体”的三元组结构，构建得到法律知识图谱。

本实施例中，所述三元组结构具体表示为“(EA,R,EB)”，例如 (“军人”,0.96,“军队”)表示“军人”与“军队”存在某种关系，这种相近关系为0.96；如(“夫妻”,0.84,“婚姻”)表示“夫妻”与“婚姻”存在某种关系，这种相近关系为0.84。其中，相近关系R 通过实体EA的词向量OA和实体EB的词向量OB的夹角α的余弦值计算：R＝cos(α)＝OA·OB/|OB|*|OB|。

进一步作为本实施例的优选实施方式，本实施例中所述的对所述文档进行预处理，得出实体词库，这一步骤具体包括：

对所述语料中的各所述文档进行分词处理，得到第一分词；

本实施例中，可以采用结巴分词工具结合法律领域词典对所述语料的每一个文档去停用词和进行分词。

对所述第一分词进行词性标注；

本实施例中，所述提取处理为提取其中的名词、名词短语、动词和动词短语作为实体或概念。

对所述第二分词过滤处理，得到过滤后的第二分词；

本实施例中，所述过滤处理为过滤其中人名地名等没有特别内涵的词。

将过滤后的第二分词作为实体并构成实体词库。其中，每个实体都具有一个唯一的整数索引。

进一步作为本实施例的优选实施方式，本实施例中所述的获取法律法条数据库，检测法律法条数据库中的每条法律法条在法律知识图谱的关系，得出每条法律法条对应的第一实体关系集合列表，这一步骤具体包括：

S1021、获取法律法条数据库，并对法律法条数据库中的各法律法条进行分词处理，得到第一法条分词；

S1022、对所述各法律法条的第一法条分词依次进行词性标注、提取和过滤处理，得到各法律法条的第二法条分词；

S1023、检测各法律法条的第二法条分词在法律知识图谱中的关系，得出第二法条分词对应的实体关系集合，进而得到第一实体关系集合列表。

进一步作为本实施例的优选实施方式，本实施例中所述的获取输入的搜索文本，检测搜索文本在法律知识图谱的关系，得出第二实体关系集合列表，这一步骤具体包括：

S1031、获取输入的搜索文本，并对所述搜索文本进行分词处理，得到第一文本分词；

S1032、对所述第一文本分词依次进行词性标注、提取和过滤处理，得到各法律法条的第二文本分词；

S1033、检测所述第二文本分词在法律知识图谱中的关系，得出第二文本分词对应的实体关系集合，进而得到第二实体关系集合列表。

其中，第二实体关系集合列表可以表现为[{(R_1,1,EB_1,1),(R_1,2, EB_1,2),(R_1,3,EB_1,3),…},{(R_2,1,EB_2,1),(R_2,2,EB_2,2),(R_2,3,EB_2,3),…}, {(R_3,1,EB_3,1),(R_3,2,EB_3,2),(R_3,3,EB_3,3),…},…,{(R_n,1,EB_n,1),(R_n,2, EB_n,2),(R_n,3,EB_n,3),…}]。

进一步作为本实施例的优选实施方式，本实施例中所述的根据得到的多个交集，计算得出所述搜索文本分别与各所述法律法条之间的相似权重，这一步骤具体包括：

S1051、根据得到的多个交集，检测各交集中最大的相近关系；

S1052、根据各交集中最大的相近关系，计算得出所述搜索文本分别与各所述法律法条之间的相似权重。

进一步作为本实施例的优选实施方式，本实施例中所述相似权重的计算公式为：

W＝0.6*n+(1-0.6)*(R1+R2+R3+…+Rn)；

参考图2，本发明实施例提供了一种基于知识图谱的法条检索系统，包括：

可见，上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

参考图3，本发明实施例提供了一种基于知识图谱的法条检索装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

可见，上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

此外，本发明实施例提供了一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行所述一种基于知识图谱的法条检索方法。

从上述内容可知，本发明通过构建法律知识图谱，并基于法律知识图谱对搜索文本与法律法条进行相似计算，从而能快速得出推荐的法律法条，并且还能大大提高法律的检索准确性。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于知识图谱的法条检索方法，其特征在于，包括以下步骤：

获取法律相关的语料，并构建得到法律知识图谱；

2.根据权利要求1所述的一种基于知识图谱的法条检索方法，其特征在于：所述的获取法律相关的语料，并构建得到法律知识图谱，这一步骤具体包括：获取法律相关的文档作为语料；

对所述文档进行预处理，得出实体词库；

通过词袋模型将所述文档进行向量化处理，得到文档向量；

3.根据权利要求2所述的一种基于知识图谱的法条检索方法，其特征在于：所述的对所述文档进行预处理，得出实体词库，这一步骤具体包括：

对所述语料中的各所述文档进行分词处理，得到第一分词；

对所述第一分词进行词性标注；

对所述第二分词过滤处理，得到过滤后的第二分词；

将过滤后的第二分词作为实体并构成实体词库。

4.根据权利要求1所述的一种基于知识图谱的法条检索方法，其特征在于：所述的获取法律法条数据库，检测法律法条数据库中的每条法律法条在法律知识图谱的关系，得出每条法律法条对应的第一实体关系集合列表，这一步骤具体包括：

5.根据权利要求1所述的一种基于知识图谱的法条检索方法，其特征在于：所述的获取输入的搜索文本，检测搜索文本在法律知识图谱的关系，得出第二实体关系集合列表，这一步骤具体包括：

6.根据权利要求1所述的一种基于知识图谱的法条检索方法，其特征在于：所述的根据得到的多个交集，计算得出所述搜索文本分别与各所述法律法条之间的相似权重，这一步骤具体包括：

根据得到的多个交集，检测各交集中最大的相近关系；

7.根据权利要求6所述的一种基于知识图谱的法条检索方法，其特征在于：所述相似权重的计算公式为：

W＝0.6*n+(1-0.6)*(R1+R2+R3+…+Rn)；

8.一种基于知识图谱的法条检索系统，其特征在于，包括：

9.一种基于知识图谱的法条检索装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7任一项所述一种基于知识图谱的法条检索方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-7任一项所述一种基于知识图谱的法条检索方法。