CN113723047A

CN113723047A - 一种基于法律文件的图谱构建方法、设备及介质

Info

Publication number: CN113723047A
Application number: CN202110850668.5A
Authority: CN
Inventors: 邱瀚; 董志勇; 于文才; 杜志诚; 张亚宁; 郭苏鸣
Original assignee: Shandong Banner Information Co ltd
Current assignee: Shandong Banner Information Co ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-11-30

Abstract

本申请公开了一种基于法律文件的图谱构建方法、设备及介质，方法包括：确认法律文件的格式，根据格式将法律文件转化为统一格式的待抽取文件；解析待抽取文件，得到待抽取文件包括的元素；确定元素的类型，并根据元素的不同类型，对元素进行抽取，得到待抽取文件的知识元；根据知识元构建法律文件的知识图谱。通过本申请提出的方法通过将不同类型的法律文件转换为统一格式的待抽取文件，从而增加了对于待抽取文件的处理速度，通过待抽取文件内不同的元素类型，确定不同的抽取方式，从而使得知识元更加准确。还能够帮助理清各类知识本体之间的关系，构建各类知识组织及结构，描述知识本体之间的关系及各自的属性。

Description

一种基于法律文件的图谱构建方法、设备及介质

技术领域

本申请涉及知识抽取领域，具体涉及一种基于法律文件的图谱构建方法、设备及介质。

背景技术

随着社会中法律体系的健全和完善，国家出台的法律文件越来越多，以文本、图片等形式出现的法律文件中各类数据急剧增加，面对如此巨大的信息海洋，如何存储、查询、分析、挖掘和利用这些法律文件中包含的信息就显得尤为关键。特别是法律文件的数量增加后，伴随着与法律文件有关的知识本体也越来越多，各类知识本体之间复杂的关系导致传统关系数据库在管理存在困难。由于办公以及组建数据库的需要，经常需要从法律文件中抽取相关的知识元，为了理清各类知识本体之间的关系，还需要构建各类知识组织及结构，用于描述知识本体之间的关系及各自的属性。因此亟需一种基于法律文件的图谱构建方法，高效率地对法律文件进行管理。

发明内容

为了解决上述问题，本申请提出了一种基于法律文件的图谱构建方法、设备及介质，方法包括：

确认法律文件的格式，根据所述格式将所述法律文件转化为统一格式的待抽取文件；解析所述待抽取文件，得到所述待抽取文件包括的元素；确定所述元素的类型，并根据所述元素的不同类型，对所述元素进行抽取，得到所述待抽取文件的知识元；根据所述知识元构建所述法律文件的知识图谱。

在一个示例中，根据所述格式将所述法律文件转化为统一格式的待抽取文件，具体包括：若所述法律文件不是文本文档格式，则抽取所述法律文件中的文本数据，并根据所述文本数据生成所述文本文档格式的待抽取文件。

在一个示例中，根据所述格式将所述法律文件转化为统一格式的待抽取文件，具体包括：若所述法律文件中抽取到的所述文本数据的数量低于预设阈值，则将所述法律文件标记，以使工作人员将所述法律文件人工转化为所述文本文档格式。

在一个示例中，所述元素的类型包括：所述待抽取文件的标题、颁发时间、颁发机构、修订情况、章节题干以及章节内容中的至少一种。

在一个示例中，确定所述元素的类型，并根据所述元素的不同类型，对所述元素进行抽取，得到所述待抽取文件的知识元，具体包括：确定所述元素的类型属于所述标题、所述颁发时间、所述颁发机构、所述修订情况，按照正则表达式对所述元素进行抽取，得到所述知识元；确定所述元素的类型属于所述章节题干及所述章节内容，按照所述法律文件的排版规则进行抽取，得到所述知识元。

在一个示例中，得到所述知识元之后，所述方法还包括：提取所述法律文件以及所述法律文件各章节的关键字；并使用信息熵的新词发现方法，发现新关键词，并将所述新关键词扩充所述知识元。

在一个示例中，提取所述法律文件以及所述法律文件各章节的关键字之后，所述方法还包括：确认输入的检索词，获取所述检索词的文本内容；确定多个所述法律文件的所述关键词与所述检索词的相关等级，并按照所述相关等级对所述法律文件进行排序。

在一个示例中，根据所述知识元及所述抽取信息构建所述法律文件的知识图谱，具体包括：将所述法律文件的所述标题、所述颁发机构作为所述知识图谱中的知识本体，并将所述知识元作为所述知识本体的属性；根据所述知识本体与所述知识本体的属性构建所述知识图谱。

本申请还提出了一种基于法律文件的图谱构建设备，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：确认法律文件的格式，根据所述格式将所述法律文件转化为统一格式的待抽取文件；解析所述待抽取文件，得到所述待抽取文件包括的元素；确定所述元素的类型，并根据所述元素的不同类型，对所述元素进行抽取，得到所述待抽取文件的知识元；根据所述知识元构建所述法律文件的知识图谱。

本申请还提出了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

本申请提出的方法通过将不同类型的法律文件转换为统一格式的待抽取文件，从而增加了对于待抽取文件的处理速度，通过待抽取文件内不同的元素类型，确定不同的抽取方式，从而使得知识元更加准确。还能够帮助理清各类知识本体之间的关系，构建各类知识组织及结构，描述知识本体之间的关系及各自的属性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种基于法律文件的图谱构建方法流程示意图；

图2为本申请实施例中一种基于法律文件的图谱构建设备示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

如图1所示，本申请实施例提供一种基于法律文件的图谱构建方法，包括：

S101：确认法律文件的格式，根据所述格式将所述法律文件转化为统一格式的待抽取文件。

这里所说的法律文件指的是包含法律信息的文件，由于包含法律信息的文件可以有多种格式，比如文本格式、图片格式。为了方便对法律文件进行处理，首先需要将多种格式的多个法律文件整合为统一格式，例如全都转化为文本格式，也可以是图片格式。并将处理完格式之后的多个文件称为待抽取文件。

S102：解析所述待抽取文件，得到所述待抽取文件包括的元素。

将各种格式的法律文件全都转化为一种格式的待抽取文件之后，需要对待抽取文件进行解析，得到待抽取文件内包括的所有元素，这里的元素指的是待抽取文件内的各种内容。

S103：确定所述元素的类型，并根据所述元素的不同类型，对所述元素进行抽取，得到所述待抽取文件的知识元。

在得到待抽取文件包括的所有元素之后，需要根据元素的不同类型，对元素进行抽取。不同的元素类型对应的抽取方式不同，抽取后得到待抽取文件的知识元，这里的知识元是指不可再分割的具有完备知识表达的知识单位。

S104：根据所述知识元构建所述法律文件的知识图谱。

在得到待抽取文件的知识元之后，使用知识元构建多个法律文件的知识图谱的知识组织及结构，用于描述知识本体之间关系及各自的属性，如法律法规与颁发机构的关系，法律法规与人物的关系等，法律法规与其他法律法规的关系等。

在一个实施例中，由于包含法律信息的文件有可能是图片、Word文档，甚至是音频文件等格式，为了方便访问这些文件中包含的法律信息，可以将这些文件转化为访问速度较快的文本文档格式。基于此，在进行转换时，首先需要判断包含法律信息的法律文件的格式，如果法律文件已经是文本文档格式，就无需再对法律文件进行处理。如果法律文件不是文本文档格式，则对法律文件内的进行实体抽取，并根据抽取到的文本数据生成待抽取文件。如果法律文件是音频文件，可以对音频进行识别，从而抽取相应的文本数据。

进一步地，有的法律文件可能由于图片模糊等原因导致从法律文件中抽取出来的文本数据较少，此时可能会出现文本数据提取有误或是只能抽取部分文本数据的情况，降低后续过程准确性。基于此，如果发现从法律文件中抽取到的文本数量低于预设阈值，可以将法律文件进行标记，以使工作人员能够将该法律文件进行人工转化。

在一个实施例中，元素的类型包括：待抽取文件的标题、颁发时间、颁发机构、修订情况、章节题干以及章节内容。这里待抽取文件的标题、颁发时间、颁发机构、修订情况、章节题干以及章节内容与进行格式转换之前的法律文件相同。

在一个实施例中，再进行知识元抽取之前，需要确定元素的类型，再按照元素的不同类型，按照不同方式提取知识元。如果元素属于标题、颁发时间、颁发机构、修订情况等类型，按照正则表达式对知识元进行抽取，由于正则表达式具有灵活性、逻辑性和功能性强的特点，可以迅速地用极简单的方式达到字符串的复杂控制。如果元素的类型属于章节题干及章节内容，按照法律文件的排版规则对知识元进行抽取。

进一步地，当法律文件过多时，想要找到自己感兴趣的知识信息就需要关键字、关键词的帮助。基于此，可以通过LDA主题模型提取待抽取文件中整篇及各章节的关键词。还可以在提取关键词后，使用信息熵的新词发现方法，发现新关键词，从而减少未登录词的影响，并使用新关键词作为知识元的补充。

进一步地，当进行多个法律文件的检索时，先确认输入的检索词，获取检索词的文本内容，再根据多个法律文件各自的关键字与检索词的相关等级，对法律文件进行排序，使得相关等级高的法律文件排在前列，方便工作人员能够更加迅速的找到自己想要找的内容。

在一个实施例中，根据知识元及抽取信息构建法律文件的知识图谱时，首先需要构建知识图谱的知识组织及结构，以用于描述知识本体之间的关系以及各自的属性。这里的关系是指按照不同领域的知识内容需要进行预定义的，如目前举例处理的法律文件，其中颁布/修订是实体之间的关系，在构建知识组织及结构时，可以将法律文件的标题、颁发机构作为知识图谱中的知识本体，并将除颁发机构以外的知识元作为知识本体的属性。再根据所述知识本体与所述知识本体的属性构建所述知识图谱。

在一个实施例中，信息的储存是信息系统的重要方面，如果没有信息储存，就不能充分利用已收集、加工所得信息，同时还要耗资、耗人、耗物来组织信息的重新收集、加工。基于此，在进行知识图谱构建之后，可以以RDF三元组或者图数据库形式存储获取得到知识本体、属性、及关系，实现知识图谱的存储。信息储存可以保证随用随取，为单位信息的多功能利用创造条件，从而大大降低了费用。

在一个实施例中，由于法律文件经常会进行修订，但是文件的文本数据并不会有过大的改变，在进行知识元抽取时，修订后的法律文件与修订前的法律文件经常会有大量重复的文本数据，如果重新进行知识元抽取，将会导致不必要的资源浪费。因此，可以在确定各个法律文件的格式时，同时确定法律文件的名称，确定法律文件是否是修订版本。如果法律文件是修订版本，在统一法律文件的格式之后，对修订后的法律文件以及修订前的法律文件内包含的文本数据进行查重，并将重复语句删除，保留修订痕迹。把法律文件的修订痕迹作为知识元，以更好的构建法律文件的知识图谱。

如图2所示，本申请实施例还提供了一种基于法律文件的图谱构建设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

确认法律文件的格式，根据所述格式将所述法律文件转化为统一格式的待抽取文件；

解析所述待抽取文件，得到所述待抽取文件包括的元素；

确定所述元素的类型，并根据所述元素的不同类型，对所述元素进行抽取，得到所述待抽取文件的知识元；

根据所述知识元构建所述法律文件的知识图谱。

本申请实施例还提供了一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

解析所述待抽取文件，得到所述待抽取文件包括的元素；

根据所述知识元构建所述法律文件的知识图谱。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于法律文件的图谱构建方法，其特征在于，所述方法包括：

解析所述待抽取文件，得到所述待抽取文件包括的元素；

根据所述知识元构建所述法律文件的知识图谱。

2.根据权利要求1所述的方法，其特征在于，根据所述格式将所述法律文件转化为统一格式的待抽取文件，具体包括：

若所述法律文件不是文本文档格式，则抽取所述法律文件中的文本数据，并根据所述文本数据生成所述文本文档格式的待抽取文件。

3.根据权利要求2所述的方法，其特征在于，根据所述格式将所述法律文件转化为统一格式的待抽取文件，具体包括：

若所述法律文件中抽取到的所述文本数据的数量低于预设阈值，则将所述法律文件标记，以使工作人员将所述法律文件人工转化为所述文本文档格式。

4.根据权利要求1所述的方法，其特征在于，所述元素的类型包括：

所述待抽取文件的标题、颁发时间、颁发机构、修订情况、章节题干以及章节内容中的至少一种。

5.根据权利要求4所述的方法，其特征在于，确定所述元素的类型，并根据所述元素的不同类型，对所述元素进行抽取，得到所述待抽取文件的知识元，具体包括：

确定所述元素的类型属于所述标题、所述颁发时间、所述颁发机构、所述修订情况，按照正则表达式对所述元素进行抽取，得到所述知识元；

确定所述元素的类型属于所述章节题干及所述章节内容，按照所述法律文件的排版规则进行抽取，得到所述知识元。

6.根据权利要求5所述的方法，其特征在于，得到所述知识元之后，所述方法还包括：

提取所述法律文件以及所述法律文件各章节的关键字；

并使用信息熵的新词发现方法，发现新关键词，并将所述新关键词扩充所述知识元。

7.根据权利要求6所述的方法，其特征在于，提取所述法律文件以及所述法律文件各章节的关键字之后，所述方法还包括：

确认输入的检索词，获取所述检索词的文本内容；

确定多个所述法律文件的所述关键词与所述检索词的相关等级，并按照所述相关等级对所述法律文件进行排序。

8.根据权利要求7所述的方法，其特征在于，根据所述知识元及所述抽取信息构建所述法律文件的知识图谱，具体包括：

将所述法律文件的所述标题、所述颁发机构作为所述知识图谱中的知识本体，并将所述知识元作为所述知识本体的属性；

根据所述知识本体与所述知识本体的属性构建所述知识图谱。

9.一种基于法律文件的图谱构建设备，其特征在于，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：

解析所述待抽取文件，得到所述待抽取文件包括的元素；

根据所述知识元构建所述法律文件的知识图谱。

10.一种非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：

解析所述待抽取文件，得到所述待抽取文件包括的元素；

根据所述知识元构建所述法律文件的知识图谱。