CN110941612B

CN110941612B - 基于关联数据的自治数据湖构建系统及方法

Info

Publication number: CN110941612B
Application number: CN201911131738.0A
Authority: CN
Inventors: 蔡鸿明; 黄佳卉; 张贝格; 于晗; 雷连松; 姜丽红
Original assignee: Shanghai Jiaotong University
Current assignee: NANJING RUNCHAIN TECHNOLOGY Co.,Ltd.
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-08-11
Anticipated expiration: 2039-11-19
Also published as: CN110941612A

Abstract

一种基于关联数据的自治数据湖构建系统及方法，该系统包括：数据源输入模块、异构数据预处理模块、元数据发现与抽取模块、元数据融合与关联模块、元模型优化与构建模块、实例知识抽取模块、知识封装模块、知识校正与融合模块、实例概念抽取模块和元模型验证与演化模块；本发明基于关联数据，在构建数据湖的同时，生成实时更新的目录索引和可通过目录快速定位的实例知识图谱，通过其内在结构和语义关联最终得到一个具有自治能力的数据湖，使其易于被外部用户管理、检索及满足更多需求。

Description

基于关联数据的自治数据湖构建系统及方法

技术领域

本发明涉及的是一种大数据信息处理领域的技术，具体是一种面向多源异构数据的基于关联数据的自治数据湖构建系统及方法。

背景技术

在大数据时代，所有数据都具有潜在价值。数据湖是一个集中式存储库，允许以任意规模存储所有结构化、半结构化和非结构化数据。数据湖无需预先定义数据结构，可以用原始形式存储。经过长时间的积累后，缺乏治理的数据湖会成为无人可以清理的“数据沼泽”，数据变得难以理解及使用。因此，如何构建一个能全自动融合数据、实时更新数据湖模式与目录、便于外部管理和使用的数据湖，使其成为一个具有自治能力的数据湖变得至关重要。目前如何管理和使用数据湖的方法或平台有相对较多的研究和应用，但是如何减少人工干预，构建一个具有自治能力的数据湖方面，还没有很成熟的应用和技术支撑。

现有技术利用基于网络和语义驱动的相关技术，通过构建适用于数据湖的元模型，允许当前元数据模型具备执行相对复杂任务的能力。或通过在数据湖中增加多个业务流程系统，对各流程系统中的业务数据人工添加业务标签，实现数据湖的索引构建和管理，利用各业务流程系统间的内在业务逻辑，支持用户通过业务请求找到对应数据。但对于如何有效自动化处理融合持续异构数据源，深入解析数据湖中的实例数据，为其自动建立内在语义关联，构建一个自治数据湖，使其易于被外部用户管理、检索及满足更多复杂需求上依然有所欠缺。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于关联数据的自治数据湖构建方法，面向持续生成的多源数据，深入解析原始数据，实现全自动实例抽取融合和统一管理语义元模型构建，实例知识图谱不断融合新数据的同时，驱动统一管理语义元模型不断演化。统一管理语义元模型为数据湖提供全面清晰的目录索引，实时更新当前数据湖中的数据模式；实例知识图谱将原始数据进行解析封装为知识节点，深入解析和丰富原始数据。该构建方法基于关联数据，在构建数据湖的同时，生成实时更新的目录索引和可通过目录快速定位的实例知识图谱，通过其内在结构和语义关联最终得到一个具有自治能力的数据湖，使其易于被外部用户管理、检索及满足更多需求。

本发明是通过以下技术方案实现的：

本发明涉及一种基于关联数据的自治数据湖构建系统，包括：数据源输入模块、异构数据预处理模块、元数据发现与抽取模块、元数据融合与关联模块、元模型优化与构建模块、实例知识抽取模块、知识封装模块、知识校正与融合模块、实例概念抽取模块和元模型验证与演化模块，其中：数据源输入模块接收异构数据源，异构数据预处理模块对异构数据源进行预处理得到抽取规则及内容文本信息，元数据发现与抽取模块对各类结构数据进行对应的定位与元数据抽取，元数据融合与关联模块将精炼处理的元数据进行基于语义相似度和字符相似度的聚类后进行深入关联，元模型优化与构建模块通过引入领域历史知识库对现有的元数据进行扩充丰富关联与属性并进行标准元模型的构建从而生成由元数据自上而下构建得到的初始元模型，实例知识抽取模块对各类结构数据进行具体实例处理以及不同颗粒度的信息抽取，知识封装模块对实例知识抽取模块中抽取到的知识进行封装，知识校正与融合模块对封装后的知识进行词义消歧和实体匹配以解决大量知识在合并时存在的问题，保证知识的唯一性和准确性后进行知识融合处理，得到实例知识图谱，实例概念抽取模块对数据湖中的实例知识图谱进行概念抽取并对抽取得到的概念进行自动聚类后得到由实例数据自下而上生成的实例关联概念模型，元模型验证与演化模块根据实例关联概念模型对初始元模型进行验证，推动初始元模型演化，得到最终的统一管理语义元模型。

所述的自治数据湖包括：原始数据，实例知识图谱和统一管理语义元模型。

所述的异构数据源包括：结构化的数据库，半结构化的JSON文件，非结构化的表格扫描图片。

所述的预处理是指：对不易于直接解析的具有大量的重复性结构的半结构化JSON文件进行自动学习并识别抽取规则从而实现自动解析、对非结构化的表格扫描图片，利用OpenCV进行图像校正与框线识别，OCR技术进行解析后其转换为文本文件，并对其进行简单的文本校正便于进行后续处理。

所述的定位与元数据抽取是指：对结构化的数据库抽取Schema作为元数据、对于半结构化的文件利用自动学习的抽取规则可以确定属性标签的具体位置并对其进行抽取、对于非结构化图片在异构数据预处理模块中通过框线识别出表格结构结合转换后的文本信息确定并抽取表单的重要属性如标题、表头等。

所述的精炼处理是指：依次进行格式统一、去重后得到标准元数据组，其中：格式统一是指：来自不同数据源的元数据格式上存在差异，如全半角格式、英文大小写等，将其统一为标准格式；去重是指：对统一格式后的元数据进行同义词去重，保证元数据的唯一性。

所述的基于语义相似度和字符相似度的聚类是指：利用k-medoids聚类算法对标准元数据进行聚类，具体步骤如下：

1)在标准元数据中随机选择k个数据样本作为质点，即参考点；

2)重复地将剩下的样本点分配到k个簇类当中；

3)随机选择一个非质点样本Object；计算交换对象Object和O₁参考点，重复2)中的操作，产生新的一组簇类，计算目标函数S，若S>S₀则将Object和O₁交换，保留新的簇类，否则，保留原中心点和聚类。重复此步骤直到k个中心点不再变化，其中：目标函数S为当前簇内元数据基于Wordnet的语义和字符相似度得分，S₀表示旧簇类的相似度得分，最终将元数据聚为k个簇类。

所述的对抽取得到的概念进行自动聚类是指：将实例知识图谱中抽取得到的概念自动基于语义和字符相似度进行聚类，与上述方法相同。

所述的深入关联是指：对各类中的元数据从两个维度与剩余类中的元数据进行关联，具体为：在非结构化数据预处理中通过框线识别获得元数据的表单结构关系，基于该关系对元数据进行语义推理，从语义关系维度为元数据建立关联，例如因为A和B来源相同，即为其添加关联-A is originated from the same table as B。

所述的表单结构包括但不限于主从关系与包含关系。

所述的语义推理包括但不限于合同中的负责人与项目的项目经理实际上为同一人，将不同类的元数据通过语义推理建立了关联。

所述的领域历史知识库采用但不限于该领域的历史知识经过人工处理后行成。

所述的具体实例处理是指：将来自关系型数据库表格的每一行数据作为一个实例单元，在JSON文件中多个属性对应一个实例单元，而对于非结构化数据每一张图片作为一个实例单元。

所述的不同颗粒度的信息抽取是指：通过基于自然语言处理技术与深度学习技术从实例数据中自动识别出离散的命名实体，然后提取出实体之间的关联关系与属性，支持后续形成网状的知识结构以得到语义信息。

所述的封装是指：对抽取到的知识进行统一的统一资源标识符(URI)分配与标识，便于后续通过HTTP协议访问该数据，并利用统一资源管理框架(RDF)对实例资源进行描述，统一标准化表示便于后续使用。

所述的词义消歧包括但不限于同名不同意等。

所述的实体匹配包括但不限于多指称指向同一实体等。

所述的知识融合处理是指：通过实体对齐将源自多个数据源的知识进行统一融合，得到一个该领域统一的实例知识图谱并将其持久化。

所述的概念抽取包括上下位关系抽取和实体概念抽取。

所述的验证是指：通过实例关联概念模型来验证初始元模型是否覆盖了全部的实例概念、属性与关联，若未完全覆盖，则通过关联概念模型对初始元模型进行补充，完成元模型的演化，得到最终的统一管理语义元模型。

本发明涉及上述系统的自治数据湖构建方法，分为实例数据处理和元数据处理两部分，通过实例数据处理得到的实例知识图谱和元数据处理得到的标准初始元模型后，结合生成的实例知识图谱，通过实例概念抽取对初始元模型进行自动验证与演化后，得到统一管理语义元模型；最终得到由统一管理语义元模型、实例知识图谱和原始数据构成的自治数据湖。

所述的实例数据处理是指：从多源数据中按相应颗粒度抽取实例数据，通过基于自然语言处理技术对其进行信息抽取，从实例数据中获取知识；由知识封装模块和知识校正与融合模块将知识进行统一标准化与融合并以关联数据的形式存储得到实例知识图谱；

所述的元数据处理是指：自顶向下地构建领域元模型，从原始数据中发现并抽取元数据；将元数据进行基于语义和结构的融合与关联后，参考领域历史知识库构建标准初始元模型。

技术效果

与现有技术相比，本发明整体所解决的技术效果是：面向持续生成的多源异构数据，基于关联数据在构建数据湖的同时，生成实时更新的统一管理语义元模型提供数据湖目录索引，以及可通过目录快速定位的实例知识图谱，通过其内在结构和语义关联最终得到一个具有自治能力的数据湖，使其易于被外部用户管理、检索及满足更多需求。统一管理语义元模型的构建过程中，首先由顶向下由元数据和领域历史知识库生成了初始元模型，又借助实例知识图谱的概念模型自底向上对其进行了验证与演化，该双向算法有效地保证了数据湖元模型的实时性与完整性，同时也保证了数据湖中的实例数据能够通过统一管理语义管理元模型灵活地使用与管理。与此同时提出了对非结构化数据的自动解析、抽取与元模型的构建方法，有效改善了对于非结构化数据的处理与利用。实例知识图谱的构建也破除了数据湖的集中式限制，深入解析原始数据，并丰富其语义信息，以关联数据的形式存储实例数据，使具备快速响应复杂的检索需求的能力，易于挖掘复杂数据间的价值与联系，提高了数据的语义丰富性与利用率。

附图说明

图1为本发明系统示意图；

图2为实施例架构示意图。

具体实施方式

如图2所示，本实施例的实现环境包括：外部用户接口、数据导入接口、数据持久层、数据封装导出接口以及如图1所示的本实施例涉及的基于关联数据的自治数据湖构建系统，其中：外部用户接口用于向自治数据湖构建系统提供可视化操作界面，外部用户能够通过该页面直观便捷地进行操作，包括：各类数据的导入、删除以及检索；数据导入接口用于接收来自外部用户的数据导入请求和/或各类异构数据源至自治数据湖构建系统，包括：结构化的关系型数据库，半结构化的JSON文件和非结构化的表格扫描图片，数据封装导出接口用于用于向自治数据湖构建系统提供外部用户查看或搜索数据的接口，从数据持久层中导出所需的具体数据，并根据需求进行封装输出，例如OWL格式的统一管理语义元模型。

所述的自治数据湖构建系统包括：异构数据预处理模块、元数据发现与抽取模块、元数据融合与关联模块、元模型优化与构建模块、实例知识抽取模块、知识封装模块、知识校正与融合模块、实例概念抽取模块和元模型验证与演化模块。

本实施例中通过包括MySQL关系型数据库、MongoDB分布式NoSQL数据库、HDFS分布式文件系统、Neo4j图数据库的数据持久层实现对应的存储原始数据文件、构成实例知识图谱的知识RDF文件与领域历史知识库、统一管理语义元模型，以组成三层架构的数据湖。

本系统通过以下步骤具体实现数据湖构建：

①外部用户在可视化界面上导入各类异构数据，调用数据导入接口，实现原始数据的上传，以原格式存入数据持久层中；

②原始数据导入后通过异构数据预处理模块实时解析由数据导入接口传入的异构数据包，对不易于直接解析的异构数据源进行预处理，得到文本型的数据后并行同时进行实例数据处理流程和元数据处理流程；

所述的实例数据处理流程是指：由实例知识抽取模块开始，针对各类结构数据进行不同颗粒度的信息抽取，知识封装模块对实例信息的进行标准化封装，再通过对知识的校正与融合得到最终的实例知识图谱并将其持久化于分布式文件系统中。

所述的元数据处理流程是指：由元数据发现与抽取模块开始，对各类结构数据的元数据进行准确定位与抽取，元数据融合与关联模块再对其进行统一处理，对元数据进行统一的对齐和融合。

③基于相似度对元数据进行统一聚类后，各类中的元数据从表单结构和语义推理两个维度与剩余类中的元数据进行关联。

④关联后通过元模型优化与构建模块导入领域历史知识库对现有的元数据进行扩充丰富关联与属性，最后进行标准元模型的构建，生成初始元模型。

⑤通过实例概念抽取模块持久层中存储的实例知识图谱进行概念抽取后，对初始元模型进行验证与演化得到最终的统一管理语义元模型。

⑥将统一管理语义元模型存入数据持久层的Neo4j图数据库中，外部用户查看或搜索数据时，调用数据封装导出接口，从数据持久层中导出所需的具体数据，并根据需求进行封装输出。以上就是该系统完整的业务流程。

上述工作的技术指标与国内外类似成果的技术参数的比较见表1。

表1技术特性对比

与现有技术项目比较，本实施例在业务流程执行过程中，面向持续生成的多源异构数据，基于关联数据在构建数据湖的同时，生成实时更新的统一管理语义元模型提供数据湖目录索引，以及可通过目录快速定位的实例知识图谱，通过其内在结构和语义关联最终得到一个具有自治能力的数据湖，使其易于被外部用户管理、检索及满足更多需求。

本发明的优势与特点体现在：

语义丰富性：本实施例面向各类异构数据，不同于传统数据湖的构建过程中，对原始数据的处理只有转存或统一备份。本实施例对原始数据进行深入抽取和解析，挖掘原始数据中的知识并进行统一封装融合，以关联数据的形式进行存储为实例知识图谱。其中每个知识节点都包含丰富的属性、关联和语义标注，极大扩充并丰富原始数据的信息，使具备快速响应复杂的检索需求的能力，易于挖掘复杂数据间的价值与联系。

灵活性：本实施例中基于关联数据，在构建数据湖的同时，生成实时更新的统一管理语义元模型提和实例知识图谱，最终得到一个具有自治能力的数据湖。其中，统一管理语义元模型为数据湖提供了全面清晰的目录索引，将统一管理语义元模型进行可视化后，用户即可直观实时地掌握与查看当前数据湖中的数据情况；实例知识图谱将原始数据进行解析封装为知识节点，包含丰富的属性、关联与语义信息，通过目录索引能够快速定位到相关的知识节点及其相关信息，具备灵活应对外部用户未来按需查询和深度数据挖掘的需求，无需提前定义相关数据结构。未来外部用户通过由统一管理语义元模型提供的目录索引自定义查询需求，实例知识图谱快速响应定位，即可实现灵活地按需查询并满足更多需求。

可持续自治能力：本实施例面向持续生成的原始数据，经过统一处理流程后，完成与实例知识图谱的融合，新的实例知识图谱概念模型再驱动元模型的演化。本实施例中的数据湖是“流动”的，新数据驱动实例知识图谱的更新，再推动统一管理语义元模型的演化，非一次性构建且无需人工参与全自动完成，使数据湖具有可持续化自治能力。不同的外部用户上传新的数据到系统中，不断推动演化统一管理语义元模型，逐渐完善数据湖的目录索引；同时也逐渐丰富实例知识图谱，形成一个逐渐扩大的领域知识图谱。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于关联数据的自治数据湖构建系统，其特征在于，包括：数据源输入模块、异构数据预处理模块、元数据发现与抽取模块、元数据融合与关联模块、元模型优化与构建模块、实例知识抽取模块、知识封装模块、知识校正与融合模块、实例概念抽取模块和元模型验证与演化模块，其中：数据源输入模块接收异构数据源，异构数据预处理模块对异构数据源进行预处理得到抽取规则及内容文本信息，元数据发现与抽取模块对各类结构数据进行对应的定位与元数据抽取，元数据融合与关联模块将精炼处理的元数据进行基于语义相似度和字符相似度的聚类后进行深入关联，元模型优化与构建模块通过引入领域历史知识库对现有的元数据进行扩充丰富关联与属性并进行标准元模型的构建从而生成由元数据自上而下构建得到的初始元模型，实例知识抽取模块对各类结构数据进行具体实例处理以及不同颗粒度的信息抽取，知识封装模块对实例知识抽取模块中抽取到的知识进行封装，知识校正与融合模块对封装后的知识进行词义消歧和实体匹配以解决大量知识在合并时存在的问题，保证知识的唯一性和准确性后进行知识融合处理，得到实例知识图谱，实例概念抽取模块对数据湖中的实例知识图谱进行概念抽取并对抽取得到的概念进行自动聚类后得到由实例数据自下而上生成的实例关联概念模型，元模型验证与演化模块根据实例关联概念模型对初始元模型进行验证，推动初始元模型演化，得到最终的统一管理语义元模型；

所述的自治数据湖包括：原始数据，实例知识图谱和统一管理语义元模型；

2.根据权利要求1所述的系统，其特征是，所述的预处理是指：对不易于直接解析的具有大量的重复性结构的半结构化JSON文件进行自动学习并识别抽取规则从而实现自动解析、对非结构化的表格扫描图片，利用OpenCV进行图像校正与框线识别，OCR技术进行解析后其转换为文本文件，并对其进行简单的文本校正便于进行后续处理。

3.根据权利要求1所述的系统，其特征是，所述的定位与元数据抽取抽取是指：对结构化的数据库抽取Schema作为元数据、对于半结构化的文件利用自动学习的抽取规则以确定属性标签的具体位置并对其进行抽取、对于非结构化图片在异构数据预处理模块中通过框线识别出表格结构结合转换后的文本信息确定并抽取表单的重要属性。

4.根据权利要求1所述的系统，其特征是，所述的精炼处理是指：依次进行格式统一、去重后得到标准元数据组，其中：格式统一是指：当来自不同数据源的元数据格式上存在差异时，将其统一为标准格式；去重是指：对统一格式后的元数据进行同义词去重，保证元数据的唯一性。

5.根据权利要求1所述的系统，其特征是，所述的深入关联是指：对各类中的元数据从两个维度与剩余类中的元数据进行关联，具体为：在非结构化数据预处理中通过框线识别获得元数据的表单结构关系，基于该关系对元数据进行语义推理，从语义关系维度为元数据建立关联。

6.根据权利要求1所述的系统，其特征是，所述的具体实例处理是指：将来自关系型数据库表格的每一行数据作为一个实例单元，在JSON文件中多个属性对应一个实例单元，而对于非结构化数据每一张图片作为一个实例单元。

7.根据权利要求1所述的系统，其特征是，所述的不同颗粒度的信息抽取是指：通过基于自然语言处理技术与深度学习技术从实例数据中自动识别出离散的命名实体，然后提取出实体之间的关联关系与属性，支持后续形成网状的知识结构以得到语义信息。

8.根据权利要求1所述的系统，其特征是，所述的封装是指：对抽取到的知识进行统一的统一资源标识符分配与标识，便于后续通过HTTP协议访问该数据，并利用统一资源管理框架对实例资源进行描述，统一标准化表示便于后续使用。

9.根据权利要求1所述的系统，其特征是，所述的知识融合处理是指：通过实体对齐将源自多个数据源的知识进行统一融合，得到一个该领域统一的实例知识图谱并将其持久化。

10.根据权利要求1所述的系统，其特征是，所述的验证是指：通过实例关联概念模型来验证初始元模型是否覆盖了全部的实例概念、属性与关联，若未完全覆盖，则通过关联概念模型对初始元模型进行补充，完成元模型的演化，得到最终的统一管理语义元模型。

11.一种根据上述任一权利要求所述系统的自治数据湖构建方法，其特征在于，通过实例数据处理得到的实例知识图谱和元数据处理得到的标准初始元模型后，结合生成的实例知识图谱，通过实例概念抽取对初始元模型进行自动验证与演化后，得到统一管理语义元模型；最终得到由统一管理语义元模型、实例知识图谱和原始数据构成的自治数据湖；