CN114201616A

CN114201616A - 一种基于多源数据库的知识图谱构建方法及系统

Info

Publication number: CN114201616A
Application number: CN202111627930.6A
Authority: CN
Inventors: 田立娜; 高军; 王可鑫; 段文良
Original assignee: Shandong Heetian Information Technology Co ltd
Current assignee: Shandong Heetian Information Technology Co ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-03-18

Abstract

本发明提供了一种基于多源数据库的知识图谱构建方法及系统，包括：获取每个源数据库中的所有表，将每个表作为一个元数据；获取字段提取指令，提取每个表的字段，将其作为对应元数据的字段；对于任意两个元数据，提取具有匹配关系的字段，并遍历元数据中的实体，基于具有匹配关系的字段，构建两个元数据之间的所有实体关系；将所有实体作为知识图谱的节点，实体关系作为知识图谱的边，得到知识图谱。简化了知识图谱的创建过程，提供了创建效率。

Description

一种基于多源数据库的知识图谱构建方法及系统

技术领域

本发明属于知识图谱构建技术领域，尤其涉及一种基于多源数据库的知识图谱构建方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

面对海量数据，传统的关系型数据库已经无法满足分析的需求，分布式图数据库能够很清晰地揭示各类复杂关系，尤其是针对错综复杂的社交网络、物流、金融风控等行业，其优势更为明显。

但是，传统构建知识图谱时需要手工定义源数据，然后再针对不同来源的数据进行治理、提取等多个步骤，过程较为繁琐；在多种数据资源的情况下，有些部门的数据是相同的，但由于部门权限的原因每个部门看到的数据是有限制的，无法不同的部门构建不同的知识图谱，并且将相同的数据进行归整处理；在多源数据来源的情况下要保证原始数据结构及数据不被破坏，进一步对知识图谱中元数据中的字段进行规范标准化，使用传统的方式需要人工对每一张表中的字段进行规范化，并将规范化的字段输入到指定位置的字典配置表，人工构建过程中容易出现手误、错表配置等问题；多源数据的格式错乱复杂、形式不统一及各类数据总量大的情况下，在处理数据同步时候会出现各种各样的问题，导致构建知识图谱失败。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于多源数据库的知识图谱构建方法及系统，简化了知识图谱的创建过程，提供了创建效率。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于多源数据库的知识图谱构建方法，其包括：

获取每个源数据库中的所有表，将每个表作为一个元数据；

获取字段提取指令，提取每个表的字段，将其作为对应元数据的字段；

对于任意两个元数据，提取具有匹配关系的字段，并遍历元数据中的实体，基于具有匹配关系的字段，构建两个元数据之间的所有实体关系；

将所有实体作为知识图谱的节点，实体关系作为知识图谱的边，得到知识图谱。

进一步的，还包括：在获取每个源数据库中的所有表之前，判断所有源数据库的有效性，只获取有效源数据库中的所有表；

所述判断所有源数据库的有效性的方法为：获取数据源配置参数，并将数据源配置参数发送至各个源数据库，根据各个元数据库返回的配置结果，判断源数据库的有效性。

进一步的，所述提取每个表的字段的具体方法为：

获取字段提取指令，基于字段提取指令提取表中的部分或全部字段，并将表中的字段名称作为对应元数据的字段名称。

进一步的，所述字段提取指令为SQL语句。

进一步的，对于任意两个元数据，假设任意两个元数据为第一元数据和第二元数据，当第一元数据中的第一字段的所有值能够在第二元数据的第二字段中找到时，则第一字段和第二字段为具有匹配关系的字段。

进一步的，所述构建两个元数据之间的所有实体关系的具体方法为：

当所述第一字段中的第i个值，与所述第二字段中的第j个值相等时，将第一元数据中的第i个实体关联到第二元数据中的第j个实体，将其作为一个实体关系；

遍历第一元数据的所有实体，得到两个元数据之间的所有实体关系。

本发明的第二个方面提供一种基于多源数据库的知识图谱构建系统，其包括：

元数据获取模块，其被配置为：获取每个源数据库中的所有表，将每个表作为一个元数据；

字段提取模块，其被配置为：获取字段提取指令，提取每个表的字段，将其作为对应元数据的字段；

实体关系构建模块，其被配置为：对于任意两个元数据，提取具有匹配关系的字段，并遍历元数据中的实体，基于具有匹配关系的字段，构建两个元数据之间的所有实体关系；

知识图谱构建模块，其被配置为：将所有实体作为知识图谱的节点，实体关系作为知识图谱的边，得到知识图谱。

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种基于多源数据库的知识图谱构建方法中的步骤。

本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种基于多源数据库的知识图谱构建方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明提供了一种基于多源数据库的知识图谱构建方法，其使元数据与实体本体进行对齐，构建知识图谱只需要关注元数据的类型及结构及元数据之间关系，大大简化了知识图谱的创建过程，提供了创建效率。

本发明提供了一种基于多源数据库的知识图谱构建方法，其将元数据定义、数据治理、抽取融为一个步骤，大大简化了操作步骤，提高了操作效率。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一的一种基于多源数据库的知识图谱构建方法流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示，本实施例提供了一种基于多源数据库的知识图谱构建方法，通过对源数据库中表的字段进行规则设置，规则定义出来通过哪些字段是可以构建知识图谱中的实体，即定义实体元数据的字段；同时对元数据与元数据之间通过哪些字段可以构建知识图谱中的关系，即关系元数据字段。通过定义元数据的规则来创建从多种数据源抽取数据并将表字段转换为相应的元数据配置，并将数据进行一一比对转换为实体的模型，使多种数据资源使用SQL语句自动化构建知识图谱并对知识进行归一化处理。

步骤1、数据治理和元数据创建：判断所有源数据库的有效性，并获取每个有效源数据库中的所有表，每个表作为一个元数据。

作为一种实施方式，可用于构建教育知识图谱。

作为一种实施方式，源数据库包括教育局数据库和该教育局下属所有学校的数据库。

具体的，为了保证数据源是有效可用的，对需要构建知识图谱的数据源进行集中配置，用户通过数据源配置模型，获取设置的数据源配置参数数据库连接驱动、选择数据库类型、用户名和密码，并将数据源配置参数发送至各个源数据库，测试数据库是否可用；根据各个元数据库返回的配置结果，判断源数据库的有效性，具体的，若是可用，返回R(R＝1)，同时将此配置信息记录在配置表aSource_config中；若不可用，返回R(R<＝0,R＝0错误的连接驱动方式，R<0数据库用户名或密码错误)。

选择配置成功且有效的数据源，通过SQL的方式获取当前数据源下所有的表集合，将每个表作为一个元数据；将当前数据源的表集合存储在dsMap中，其中，Key为数据源名称dsn，Value为表集合tableList；实现一个数据源对应多张数据表。

例如，教育局数据库中包含学校表(表A)，因此教育局数据库对应学校元数据(元数据A)，学校的数据库中包含学生表(表B)和教师表(表C)等，因此，学校的数据库对应学生元数据(元数据B)和教师元数据(元数据C)等。学校表中包含学校编号id(实体编号)、校名name(实体名)等字段，学生表中包含学号id(实体编号)、姓名name(实体名)、年龄age、性别sex和学校school等字段，教师表中包含教师编号id(实体编号)、姓名name(实体名)、年龄age、性别sex和学校school等字段。学校表中的实体为各个学校，学生表的实体为各个学生，教师表的实体为各个教师。

步骤2、数据抽取：获取字段提取指令，提取每个表的字段，将其作为对应元数据的字段。

具体的，获取字段提取指令，基于字段提取指令提取表中的部分或全部字段，并将表中的字段名称作为对应元数据的字段名称，将表中字段所对应的中文注释作为对应元数据的字段标签。其中，字段提取指令为SQL语句。

具体的，制定多个字段识别规则，一个表对应一个字段识别规则，或者，多个表对应一个字段识别规则。

作为一种实施方式，制定第一字段识别规则和第二字段识别规则。

第一字段识别规则：获取第一字段提取指令，基于第一字段提取指令提取表A中所有的字段名称作为元数据A的字段名称，表A中字段所对应的中文注释作为元数据A的字段标签。即，当输入SQL语句格式为“select*from A”(第一字段提取指令)，将从表A中获取所有的字段名称作为元数据A的字段名称，表A中字段所对应的中文注释作为元数据A的字段标签。

第二字段识别规则：获取第二字段提取指令，基于第二字段提取指令提取表B或表C中的部分字段名称作为元数据B或C的字段名称，表B或C中字段所对应的中文注释作为元数据B或C的字段标签。即，以表B为例，当输入SQL语句格式为“select id，name，age，sex，school from B”(第二字段提取指令)，将从表B中获取所有字段名称进行过滤匹配，将与id、name、age、sex、school名称一样的字段进行保留构建元数据B的字段名称，表B中获相对于字段的中文注释作为元数据B的字段标签。若表B中不存在与select关键字后的字段匹配项，元数据B默认保留select关键字后的字段名称，可以自定义指定其它与之匹配的字段名称，且字段标签可自定义。

根据上述步骤可以自动对表创建对应的元数据。

步骤3、对于任意两个元数据，提取具有匹配关系的字段，并遍历元数据中的实体，基于具有匹配关系的字段，构建两个元数据之间的所有实体关系。

具体的，对于任意两个元数据，假设任意两个元数据为第一元数据和第二元数据，当第一元数据中的第一字段的所有值能够在第二元数据的第二字段中找到时，则第一字段和第二字段为具有匹配关系的字段。当第一字段中的第i个值，与第二字段中的第j个值相等时，将第一元数据中的第i个实体(源实体)关联到第二元数据中的第j个实体(目标实体)，将其作为一个实体关系，遍历第一元数据的所有实体，得到两个元数据之间的所有实体关系。

具体的，根据步骤2完成之后的元数据选择两个元数据，如选择学生元数据Person、学校元数据School，学生元数据Person中的school字段只包含唯一值——第一学校，而学校元数据School的name字段包含第一学校、第二学校等多个学校，即学生元数据中的school字段的所有值能够在学校元数据据的name字段中找到，学生元数据Person中的school字段和学校元数据School的name字段为具有匹配关系的字段。

作为一种实施方式，可以通过显示装置对学生元数据Person、学校元数据School的所有字段进行显示，用户通过拖拽学生元数据Person中的school字段、学校元数据School的name字段上，即可获取学生元数据Person和学校元数据School之间的具有匹配关系的字段为学生元数据Person中的school字段和学校元数据School的name字段。

当两个属性(字段值)相等时，实体关系成立，同时将这两个元数据的实体的实体编号id和实体名name分别作为一个实体关系的sourceid(源实体id)、sourcename(源实体名称)、targetid(目标实体id)、targetname(目标实体名称)。通过上述对元数据属性的拖拽及规则的比较创建更多关联关系。

步骤4、数据同步：基于所有实体以及实体关系，构建知识图谱。即将所有实体作为知识图谱的节点，将实体关系作为知识图谱的边。

根据SQL语句自动创建的元数据及关系规则编写写数据同步算子，提交数据同步自动服务。

数据同步ETL工具使用webkettle，编写webkettle算子将多种数据源作为数据抽取的原始库，Elasticsearch作为知识图谱构建的索引库，Hbase作为知识图谱构建的存储仓库；在此过程中将原始库字段与元数据字段进行匹配设置，对此步骤进行测试无误后，调用构建图谱入库接口，接口访问正常后开启自动同步服务。直到原始数据库中表的数据全部转换为实体关系同步到知识图谱的存储仓库knowledgegraph。

建设知识图谱可视化开发者，只需要关心上述步骤中产生的图谱表(knowledgegraph)，根据gremlin图谱查询语法查询知识图谱中指定规则的实体及关系数据。将查询结果组装为接口返回数据进行前端页面展示。以此方式使知识图谱构建开发者与知识图谱前端可视化开发者进行松耦合，以此来提高开发者的工作效率。

本发明首先建立元数据与知识资源管理模型，将不同数据资源下存储在关系数据库中数据进行统一管理。将不同字段名称表达相同含义的字段进行归一化处理，并针对每一类归一化处理后的结果定义为元数据。使元数据与实体本体进行对齐，从此构建知识图谱只需要关注元数据的类型及结构及元数据之间关系分析，无需在把精力分散在对不同种类数据资源的梳理等错综复杂的表结构。从而提升了构建整个知识图谱工作流的顺利完成，节省了大量建设时间。

本发明通过对多种数据源进行集中配置管理及每项数据源对应的原始库表集合关系的构建，使用SQL语句的方式定义创建元数据的规则，使用对元数据属性进行拖拽规则比对自动创建关联关系的规则，大大简化了知识图谱的创建过程，提供了创建效率。同时将数据的治理、元数据创建、数据抽取三个步骤合并在一个步骤中并发执行，打破传统构建知识图谱的繁琐过程，有利于知识图谱的进一步推广使用。

实施例二

本实施例提供了一种基于多源数据库的知识图谱构建系统，其具体包括如下模块：

有效性判断模块，其被配置为：判断所有源数据库的有效性，具体的：获取数据源配置参数，并将数据源配置参数发送至各个源数据库，根据各个元数据库返回的配置结果，判断源数据库的有效性；

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的一种基于多源数据库的知识图谱构建方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的一种基于多源数据库的知识图谱构建方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多源数据库的知识图谱构建方法，其特征在于，包括：

获取每个源数据库中的所有表，将每个表作为一个元数据；

2.如权利要求1所述的一种基于多源数据库的知识图谱构建方法，其特征在于，还包括：在获取每个源数据库中的所有表之前，判断所有源数据库的有效性，只获取有效源数据库中的所有表；

3.如权利要求1所述的一种基于多源数据库的知识图谱构建方法，其特征在于，所述提取每个表的字段的具体方法为：

4.如权利要求1所述的一种基于多源数据库的知识图谱构建方法，其特征在于，所述字段提取指令为SQL语句。

5.如权利要求1所述的一种基于多源数据库的知识图谱构建方法，其特征在于，对于任意两个元数据，假设任意两个元数据为第一元数据和第二元数据，当第一元数据中的第一字段的所有值能够在第二元数据的第二字段中找到时，则第一字段和第二字段为具有匹配关系的字段。

6.如权利要求5所述的一种基于多源数据库的知识图谱构建方法，其特征在于，所述构建两个元数据之间的所有实体关系的具体方法为：

7.一种基于多源数据库的知识图谱构建系统，其特征在于，包括：

8.如权利要求1所述的一种基于多源数据库的知识图谱构建系统，其特征在于，还包括有效性判断模块，其被配置为：判断所有源数据库的有效性，具体的：获取数据源配置参数，并将数据源配置参数发送至各个源数据库，根据各个元数据库返回的配置结果，判断源数据库的有效性。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的一种基于多源数据库的知识图谱构建方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的一种基于多源数据库的知识图谱构建方法中的步骤。