CN114462603A

CN114462603A - 数据湖的知识图谱生成方法及装置

Info

Publication number: CN114462603A
Application number: CN202210120630.7A
Authority: CN
Inventors: 李卓林
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2022-05-10

Abstract

本发明公开了一种数据湖的知识图谱生成方法及装置，涉及大数据技术领域；其中该方法包括：获取数据湖中的多源异构数据，将所述多源异构数据作为主数据存储至对应结构的数据库中；主数据包括：结构化主数据、半结构化主数据、以及非结构化主数据；查询获取结构化主数据的数据表结构，根据所述数据表结构得到结构化主数据的元数据；根据半结构化主数据的格式对半结构化主数据进行解析，从解析结果中提取半结构化主数据的元数据；调用各非结构化主数据对应的算子提取非结构化主数据的元数据；利用知识图谱将各元数据进行融合关联，得到数据湖对应的知识图谱网络。本发明可以将数据湖中的数据进行有效关联，避免出现数据沼泽。

Description

数据湖的知识图谱生成方法及装置

技术领域

本发明涉及大数据技术领域，尤其涉及数据湖的知识图谱生成方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

对于数据湖而言，由于其可以获取全业务流程的所有相关领域的结构化数据、以及文本、图像、语音、视频等非结构且多元异构的数据。基于数据湖收集和存储的数据形式和类型繁多，因此可以突破在现有大型数据仓库上进行“自上向下”需要业务专家来指定规则模型和逻辑的设计模式，助力数据科学家以及业务专家实现“自底向上”的数据分析，从而进行更广且更深的角度和范围来进行业务的开发和开展。在数据湖中可以将不同业务范围的数据关联起来进行一项数据分析任务，但是如果进入到数据湖的数据缺乏一定的数据治理，会导致数据之间无法进行有效的关联，甚至存在缺陷，进而会导致出现使用障碍，产生数据使用减少的情况，这进一步就又会引发存在的数据缺陷无法很好的暴露和反映，也即出现“数据沼泽”的困境。有效应对“数据沼泽”出现，需要对数据湖进行有效的数据治理。

发明内容

本发明实施例提供一种数据湖的知识图谱生成方法，用以实现对数据湖中数据的有效治理，避免出现数据沼泽，该方法包括：

获取数据湖中的多源异构数据，将所述多源异构数据作为主数据存储至对应结构的数据库中；其中，所述主数据包括：结构化主数据、半结构化主数据、以及非结构化主数据；

查询获取结构化主数据的数据表结构，根据所述数据表结构得到结构化主数据的元数据；

根据半结构化主数据的格式对半结构化主数据进行解析，从解析结果中提取半结构化主数据的元数据；

调用各非结构化主数据对应的算子提取非结构化主数据的元数据；

利用知识图谱将各元数据进行融合关联，得到数据湖对应的知识图谱网络。

本发明实施例还提供一种数据湖的知识图谱生成装置，用以实现对数据湖中数据的有效治理，避免出现数据沼泽，该装置包括：

获取模块，用于获取数据湖中的多源异构数据，将所述多源异构数据作为主数据存储至对应结构的数据库中；其中，所述主数据包括：结构化主数据、半结构化主数据、以及非结构化主数据；

第一元数据提取模块，用于查询获取结构化主数据的数据表结构，根据所述数据表结构得到结构化主数据的元数据；

第二元数据提取模块，用于根据半结构化主数据的格式对半结构化主数据进行解析，从解析结果中提取半结构化主数据的元数据；

第三元数据提取模块，用于调用各非结构化主数据对应的算子提取非结构化主数据的元数据；

处理模块，用于利用知识图谱将各元数据进行融合关联，得到数据湖对应的知识图谱网络。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述数据湖的知识图谱生成方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述数据湖的知识图谱生成方法。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述数据湖的知识图谱生成方法。

本发明实施例中，获取数据湖中的多源异构数据，将所述多源异构数据作为主数据存储至对应结构的数据库中；其中，所述主数据包括：结构化主数据、半结构化主数据、以及非结构化主数据；查询获取结构化主数据的数据表结构，根据所述数据表结构得到结构化主数据的元数据；根据半结构化主数据的格式对半结构化主数据进行解析，从解析结果中提取半结构化主数据的元数据；调用各非结构化主数据对应的算子提取非结构化主数据的元数据；利用知识图谱将各元数据进行融合关联，得到数据湖对应的知识图谱网络。这样，通过为数据湖生成对应的知识图谱网络，可以实现对数据湖中数据的有效管治理，将数据湖中的数据进行有效关联，避免出现数据沼泽。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中提供的一种数据湖的知识图谱生成方法的流程图；

图2为本发明实施例中提供的一种调用各非结构化主数据对应的算子提取非结构化主数据的元数据的方法流程图；

图3为本发明实施例中提供的一种调用YAKE算子提取文本主数据的元数据的方法流程图；

图4为本发明实施例中提供的一种调用光学字符识别OCR算子提取图像票据主数据的元数据的方法流程图；

图5为本发明实施例中提供的一种数据湖的知识图谱生成装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

在本说明书的描述中，所使用的“包含”、“包括”、“具有”、“含有”等，均为开放性的用语，即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施，其中的步骤顺序不作限定，可根据需要作适当调整。

经研究发现，对于数据湖而言，由于其可以获取全业务流程的所有相关领域的结构化数据、以及文本、图像、语音、视频等非结构且多元异构的数据。基于数据湖收集和存储的数据形式和类型繁多，因此可以突破在现有大型数据仓库上进行“自上向下”需要业务专家来指定规则模型和逻辑的设计模式，助力数据科学家以及业务专家实现“自底向上”的数据分析，从而进行更广且更深的角度和范围来进行业务的开发和开展。在数据湖中可以将不同业务范围的数据关联起来进行一项数据分析任务，但是如果进入到数据湖的数据缺乏一定的数据治理，会导致数据之间无法进行有效的关联，甚至存在缺陷，进而会导致出现使用障碍，产生数据使用减少的情况，这进一步就又会引发存在的数据缺陷无法很好的暴露和反映，也即出现“数据沼泽”的困境。有效应对“数据沼泽”出现，需要对数据湖进行有效的数据治理。

针对上述研究，本发明实施例提供一种数据湖的知识图谱生成方法，如图1所示，包括：

S101：获取数据湖中的多源异构数据，将所述多源异构数据作为主数据存储至对应结构的数据库中；其中，所述主数据包括：结构化主数据、半结构化主数据、以及非结构化主数据；

S102：查询获取结构化主数据的数据表结构，根据所述数据表结构得到结构化主数据的元数据；

S103：根据半结构化主数据的格式对半结构化主数据进行解析，从解析结果中提取半结构化主数据的元数据；

S104：调用各非结构化主数据对应的算子提取非结构化主数据的元数据；

S105：利用知识图谱将各元数据进行融合关联，得到数据湖对应的知识图谱网络。

下面对上述数据湖的知识图谱生成方法加以详细说明。

针对上述S101，所述多源异构数据例如包括下述至少一种：来自企业级数据仓库、大数据平台批量运行系统、以及网络爬虫获取的结构化数据、半结构化数据、非结构化数据。

针对上述S102，对于结构化数据，元数据发现就是获取主数据的数据表结构，通过查询的方式即可获取结构化主数据的数据表结构，根据数据表结构得到结构化主数据的元数据。

针对上述S103，对于半结构化数据，元数据发现就是通过解析半结构化主数据的结构，根据半结构化主数据的格式对半结构化主数据进行解析，从解析结果中全部或者是部分筛选出需要的信息，并进行存储，形成半结构化主数据的元数据。

针对上述S104，对于非结构化数据，元数据发现需要针对不同数据类型的非结构化主数据，使用对应的算子来进行获取。

本发明一实施例中，非结构化主数据例如包括：文本主数据、图像票据主数据；如图2所示，为本发明实施例提供的一种调用各非结构化主数据对应的算子提取非结构化主数据的元数据的方法流程图，包括：

S201：调用单文档无监督关键词抽取YAKE算子提取文本主数据的元数据。

具体的，针对文本主数据，需要考虑涉及到的常用文本文字，也即中文和英文的情况，在分析文本主数据的过程中，例如可以采用单文档无监督关键词抽取算子(YetAnother Keyword Extractor，YAKE)来实现元数据的提取。

示例性的，如图3所示，为本发明实施例提供的一种调用YAKE算子提取文本主数据的元数据的方法流程图，具体例如调用YAKE算子对文本主数据进行如下操作：

S301：根据标点符号对文本主数据进行拆分得到多个拆分部分。

S302：对每个拆分部分的词进行特征提取。

S303：根据每个词在各拆分部分中的位置和出现频率，得到每一拆分部分对应的词的各特征的权重值。

示例性的，各拆分部分共有X个词，若某个词出现了Y次，该词的频率为Y/X，频率越高，该词的各特征的权重值越小；其次，需要判断该词出现的位置，根据词是否在句子头或者在句子尾出现，来确定词的重要程度，词的重要程度越高，该词的各特征的权重值越高。

S304：根据每一拆分部分对应的词的各特征的权重值、以及预设权重阈值，确定每一拆分部分对应的词的最终特征。

示例性的，预设权重阈值可以根据实际的权重值排序进行确定，针对每一拆分部分，从其对应的词的各特征中，将权重值大于预设权重阈值的各特征选出来，作为该拆分部分对应的词的最终特征。

S305：根据每一拆分部分对应的词的最终特征，采用n-gram模型对每一拆分部分进行概率计算。

S306：采用levenshtein函数计算各拆分部分之间的相似度，根据各拆分部分之间的相似度，删除重复的拆分部分。

S307：根据剩余的每一拆分部分的概率计算结果、以及预设概率阈值，提取出文本主数据的元数据。

S202：调用光学字符识别OCR算子提取图像票据主数据的元数据。

示例性的，如图4所示，为本发明实施例提供的一种调用光学字符识别OCR算子提取图像票据主数据的元数据的方法流程图，具体例如调用光学字符识别(OpticalCharacter Recognition，OCR)算子对图像票据主数据执行下述操作：

S401：对图像票据主数据进行文本框检测。

此处，针对图像票据主数据经过拍摄或者扫描之后存在倾斜的问题，例如可以采用高效精准的场景文本检测器(An Efficient and Accurate Scene Text Detector，EAST)来检测文本框。

S402：对检测出的文本框进行文本矫正。

具体的，例如可以采用随机霍夫变换(Random Hough Transform)等方法进行文本矫正。

S403：采用投影直方图对矫正后的文本框进行分割得到单行文本图像。

S404：从单行文本图像中提取出单行文本。

S405：从提取的单行文本中提取图像票据主数据的元数据。

此处，考虑到会存在不定长文字的情况，因此例如可以采用卷积神经网络(Convolutional Neural Networ，CNN)+循环神经网络(Rerrent Neural Network，RNN)+注意力机制(Attention-mechanism)的方法来对数据湖构建所需要的元数据。

针对上述S105，例如可以采用下述方法利用知识图谱将各元数据进行融合关联，得到数据湖对应的知识图谱网络：根据各元数据的属性之间的关联关系，将各元数据、以及元数据之间的关系构造成知识图谱的资源描述框架(Resource Description Framework，RDF)型数据结构，得到多个独立知识图谱；根据各独立知识图谱的网状结构，采用GLUE算法将各独立知识图谱进行融合，得到数据湖对应的知识图谱网络。

此处，独立知识图谱中的元数据包括本体层；根据各独立知识图谱的网状结构，采用GLUE算法将各独立知识图谱进行融合，得到数据湖对应的知识图谱网络时，例如可以：将独立知识图谱的本体层的RDF数据输入到图神经网络(Graph Neural Networks，GNN)，得到各独立知识图谱的本体层之间的联合概率分布；根据各独立知识图谱的本体层之间的联合概率分布，计算各独立知识图谱之间的本体层相似度；将本体层相似度大于预设相似度阈值的独立知识图谱进行融合，得到数据湖对应的知识图谱网络。

本发明实施例中还提供了一种的数据湖的知识图谱生成装置，如下面的实施例所述。由于该装置解决问题的原理与的数据湖的知识图谱生成方法相似，因此该装置的实施可以参见的数据湖的知识图谱生成方法的实施，重复之处不再赘述。

如图5所示，文本发明实施例提供的一种数据湖的知识图谱生成装置的示意图，包括：获取模块501、第一元数据提取模块502、第二元数据提取模块503、第三元数据提取模块504、以及处理模块505；其中，

获取模块501，用于获取数据湖中的多源异构数据，将所述多源异构数据作为主数据存储至对应结构的数据库中；其中，所述主数据包括：结构化主数据、半结构化主数据、以及非结构化主数据；

第一元数据提取模块502，用于查询获取结构化主数据的数据表结构，根据所述数据表结构得到结构化主数据的元数据；

第二元数据提取模块503，用于根据半结构化主数据的格式对半结构化主数据进行解析，从解析结果中提取半结构化主数据的元数据；

第三元数据提取模块504，用于调用各非结构化主数据对应的算子提取非结构化主数据的元数据；

处理模块505，用于利用知识图谱将各元数据进行融合关联，得到数据湖对应的知识图谱网络。

在一种可能的实施方式中，非结构化主数据包括：文本主数据、图像票据主数据；第三元数据提取模块，具体用于调用单文档无监督关键词抽取YAKE算子提取文本主数据的元数据；调用光学字符识别OCR算子提取图像票据主数据的元数据。

在一种可能的实施方式中，第三元数据提取模块，具体用于调用YAKE算子对文本主数据进行如下操作：根据标点符号对文本主数据进行拆分得到多个拆分部分；对每个拆分部分的词进行特征提取；根据每个词在各拆分部分中的位置和出现频率，得到每一拆分部分对应的词的各特征的权重值；根据每一拆分部分对应的词的各特征的权重值、以及预设权重阈值，确定每一拆分部分对应的词的最终特征；根据每一拆分部分对应的词的最终特征，采用n-gram模型对每一拆分部分进行概率计算；采用levenshtein函数计算各拆分部分之间的相似度，根据各拆分部分之间的相似度，删除重复的拆分部分；根据剩余的每一拆分部分的概率计算结果、以及预设概率阈值，提取出文本主数据的元数据。

在一种可能的实施方式中，第三元数据提取模块，具体用于调用OCR算子对图像票据主数据执行下述操作：对图像票据主数据进行文本框检测；对检测出的文本框进行文本矫正；采用投影直方图对矫正后的文本框进行分割得到单行文本图像；从单行文本图像中提取出单行文本；从提取的单行文本中提取图像票据主数据的元数据。

在一种可能的实施方式中，处理模块，具体用于将各元数据加载到同一知识图谱中；根据各元数据的属性之间的关联关系，将各元数据、以及元数据之间的关系构造成知识图谱的资源描述框架RDF型数据结构，得到多个独立知识图谱；根据各独立知识图谱的网状结构，采用GLUE算法将各独立知识图谱进行融合，得到数据湖对应的知识图谱网络。

在一种可能的实施方式中，独立知识图谱中的元数据包括本体层；处理模块，具体用于将独立知识图谱的本体层的RDF数据输入到图神经网络GNN，得到各独立知识图谱的本体层之间的联合概率分布；根据各独立知识图谱的本体层之间的联合概率分布，计算各独立知识图谱之间的本体层相似度；将本体层相似度大于预设相似度阈值的独立知识图谱进行融合，得到数据湖对应的知识图谱网络。

本发明实施例中，本发明实施例中，获取数据湖中的多源异构数据，将所述多源异构数据作为主数据存储至对应结构的数据库中；其中，所述主数据包括：结构化主数据、半结构化主数据、以及非结构化主数据；查询获取结构化主数据的数据表结构，根据所述数据表结构得到结构化主数据的元数据；根据半结构化主数据的格式对半结构化主数据进行解析，从解析结果中提取半结构化主数据的元数据；调用各非结构化主数据对应的算子提取非结构化主数据的元数据；利用知识图谱将各元数据进行融合关联，得到数据湖对应的知识图谱网络。这样，通过为数据湖生成对应的知识图谱网络，可以实现对数据湖中数据的有效管治理，将数据湖中的数据进行有效关联，避免出现数据沼泽。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据湖的知识图谱生成方法，其特征在于，包括：

2.如权利要求1所述的数据湖的知识图谱生成方法，其特征在于，非结构化主数据包括：文本主数据、图像票据主数据；

调用各非结构化主数据对应的算子提取非结构化主数据的元数据，包括：

调用单文档无监督关键词抽取YAKE算子提取文本主数据的元数据；

调用光学字符识别OCR算子提取图像票据主数据的元数据。

3.如权利要求2所述的数据湖的知识图谱生成方法，其特征在于，调用YAKE算子提取文本主数据的元数据，包括：

调用YAKE算子对文本主数据进行如下操作：

根据标点符号对文本主数据进行拆分得到多个拆分部分；

对每个拆分部分的词进行特征提取；

根据每个词在各拆分部分中的位置和出现频率，得到每一拆分部分对应的词的各特征的权重值；

根据每一拆分部分对应的词的各特征的权重值、以及预设权重阈值，确定每一拆分部分对应的词的最终特征；

根据每一拆分部分对应的词的最终特征，采用n-gram模型对每一拆分部分进行概率计算；

采用levenshtein函数计算各拆分部分之间的相似度，根据各拆分部分之间的相似度，删除重复的拆分部分；

根据剩余的每一拆分部分的概率计算结果、以及预设概率阈值，提取出文本主数据的元数据。

4.如权利要求2所述的数据湖的知识图谱生成方法，其特征在于，调用OCR算子提取图像票据主数据的元数据，包括：

调用OCR算子对图像票据主数据执行下述操作：

对图像票据主数据进行文本框检测；

对检测出的文本框进行文本矫正；

采用投影直方图对矫正后的文本框进行分割得到单行文本图像；

从单行文本图像中提取出单行文本；

从提取的单行文本中提取图像票据主数据的元数据。

5.如权利要求1所述的数据湖的知识图谱生成方法，其特征在于，利用知识图谱将各元数据进行融合关联，得到数据湖对应的知识图谱网络，包括：

将各元数据加载到同一知识图谱中；

根据各元数据的属性之间的关联关系，将各元数据、以及元数据之间的关系构造成知识图谱的资源描述框架RDF型数据结构，得到多个独立知识图谱；

根据各独立知识图谱的网状结构，采用GLUE算法将各独立知识图谱进行融合，得到数据湖对应的知识图谱网络。

6.如权利要求5所述的数据湖的知识图谱生成方法，其特征在于，独立知识图谱中的元数据包括本体层；

根据各独立知识图谱的网状结构，采用GLUE算法将各独立知识图谱进行融合，得到数据湖对应的知识图谱网络，包括：

将独立知识图谱的本体层的RDF数据输入到图神经网络GNN，得到各独立知识图谱的本体层之间的联合概率分布；

根据各独立知识图谱的本体层之间的联合概率分布，计算各独立知识图谱之间的本体层相似度；

将本体层相似度大于预设相似度阈值的独立知识图谱进行融合，得到数据湖对应的知识图谱网络。

7.一种数据湖的知识图谱生成装置，其特征在于，包括：

8.如权利要求7所述的数据湖的知识图谱生成装置，其特征在于，非结构化主数据包括：文本主数据、图像票据主数据；

第三元数据提取模块，具体用于调用单文档无监督关键词抽取YAKE算子提取文本主数据的元数据；

调用光学字符识别OCR算子提取图像票据主数据的元数据。

9.如权利要求8所述的数据湖的知识图谱生成装置，其特征在于，第三元数据提取模块，具体用于调用YAKE算子对文本主数据进行如下操作：

根据标点符号对文本主数据进行拆分得到多个拆分部分；

对每个拆分部分的词进行特征提取；

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。