CN115422155A - 一种数据湖元数据模型的建模方法 - Google Patents

一种数据湖元数据模型的建模方法 Download PDF

Info

Publication number
CN115422155A
CN115422155A CN202211045040.9A CN202211045040A CN115422155A CN 115422155 A CN115422155 A CN 115422155A CN 202211045040 A CN202211045040 A CN 202211045040A CN 115422155 A CN115422155 A CN 115422155A
Authority
CN
China
Prior art keywords
data
metadata
star
entity
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211045040.9A
Other languages
English (en)
Inventor
杨良怀
陈峥
梁荣华
孙国道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202211045040.9A priority Critical patent/CN115422155A/zh
Publication of CN115422155A publication Critical patent/CN115422155A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据湖元数据模型建模方法,包括:提取数据实体的信息及其数据实体内元数据;判断数据实体的数据实体类型与模型中现有的恒星表是否相符;对数据湖进行提取获得数据实体内元数据和全局元数据;将获得的数据实体内元数据存储入对应数据实体所存储恒星表链接的行星表中;判断全局元数据所对应的彗星表是否创建;使用关系挖掘算法挖掘不同数据实体间可能存在的关系,根据不同数据实体的数据实体内元数据的内容进行挖掘;若通过算法确定某些数据实体间存在联系,则判断是否存在对应的星链表链接这些数据实体存储的恒星表,循环执行后两步,遍历完所有的数据实体,结束模型的构建。本发明了解决元数据耦合的复杂性问题以及异构数据的支持问题。

Description

一种数据湖元数据模型的建模方法
技术领域
本发明涉及数据湖元数据管理领域,特别涉及数据湖元数据模型建模。
背景技术
在大数据时代,数字化的发展导致了数据的爆炸式增长,智能手机、社交媒体、物联网以及其他数据创造者比以往更快地创建了大量结构化(如企业关系型数据库中的表等)、半结构化(如CSV、日志、XML、JSON等)、非结构化数据(如电子邮件、文档、PDF等)和二进制数据(如图形、音频、视频等)。这些海量的异构数据为企业的数据管理与分析带来了巨大的难题,传统的数据仓库已不适用于当下海量异构复杂数据环境下的数据管理与分析。为解决这个难题,一种新的大数据分析解决方案——数据湖应运而生。数据湖是一种灵活、可扩展的数据存储和管理系统,以原始格式接收和存储来自异构数据源的原始数据,并以动态的方式提供查询处理和数据分析。
然而随着数据湖技术的不断发展,人们发现未经治理的数据湖很可能会逐步变成不可用的“数据沼泽”。当将多源异构的原始数据引入数据湖时,原始数据的语义或数据质量是未知的,对于用户而言,在数据湖中检索有用的信息或对其中的数据进行应用都是很困难的。一种有效避免数据湖成为“数据沼泽”的方法就是数据湖元数据管理。元数据作为描述数据的数据,它记录了数据的特征,通过对数据湖元数据的有效管理能极大的提高数据湖中数据的可信度与可用性。
在数据湖中需要管理的元数据类型有很多,主流的元数据类型分类方法有两种,一种是基于元数据的功能进行分类,包含技术元数据、操作元数据和业务元数据三个大类;第二种也是最受现在主流研究者认可的分类方法是根据元数据的描述领域进行分类,包含对象内元数据,对象间元数据和全局元数据三个大类。在第二种分类方法基础上提出的数据湖元数据分类体系是目前最为完整的数据湖元数据分类方法,它根据元数据的作用范围,将数据湖中的元数据分为三大类,分别是数据实体内元数据、数据实体间元数据以及全局元数据。数据实体内元数据指的是与数据实体本身特征相关联的元数据,包含属性元数据、结构元数据、摘要元数据、数据更新版本元数据、数据演化版本元数据、语义元数据、区域元数据这七类,其中区域元数据是用来标识数据实体所位于数据湖的区域位置元数据;数据实体间元数据指的是描述数据实体之间关联关系的元数据,包含实体分组、相似链接、血缘关系这三类,实体分组是记录带有同一特征标签的数据实体之间集合关系的元数据,相似链接是记录两个数据实体之间相似程度强弱的元数据,血缘关系是记录数据沿袭的元数据;全局元数据指的是作用于整个元数据模型或整个数据湖的元数据,包含语义资源、知识共享元数据和用户访问元数据这三类。
在数据湖元数据管理中,一个最为关键的难题就是如何以形式化的方法将元数据有序的组织起来,即元数据建模。现有的数据湖元数据模型主要分为三个类型,分别是通用元数据模型、DV模型(Data Vault)和基于图的元数据模型。然而这些数据湖元数据模型在实际应用过程中还是会存在着一些问题与不足。例如,基于逻辑的通用元数据模型GEMMS将包含内容、语义、结构的元数据进行分离,以此来适应生命科学领域结构化或半结构化数据的元数据管理需求,但是该模型不能支持非结构化数据的元数据管理,并且也无法提供对数据实体间元数据以及全局元数据的管理;Nogueira等人提出了一个基于DV模型的数据湖元数据模型,然而该作者所提模型只考虑了部分数据实体内元数据的管理,并没有提供数据实体间元数据以及全局元数据的管理;基于图的数据湖元数据模型CO DAL只专注于文本数据的元数据管理,并不能支持其他异构数据的元数据管理。
发明内容
本发明要克服传统数据湖元数据模型通用性不强、数据湖元数据支持不完善的缺点,在数据湖元数据分类体系的基础上,提出一种数据湖元数据模型建模方法,以实现对数据湖元数据的有效管理。
本发明解决上述问题所采用的技术方案是:
一种数据湖元数据模型的建模方法,采用的数据湖元数据模型包括以下组件:恒星实体、行星实体、星链实体、彗星实体。所述恒星实体可用于表示不同数据实体类型的数据实体或数据实体集,使用恒星表进行数据存储,恒星表内的属性有:数据实体ID,即恒星表的主键,用于记录数据实体在数据湖中的唯一标识信息;数据来源,即该数据实体的来源,可以是数据来源的描述,也可以是源系统访问链接;入湖时间,记录数据实体加载进入数据湖的时间;数据实体名称,即数据实体在数据湖中的名称;存储位置,记录数据实体在数据湖中的存储路径;所述行星实体用于表示数据实体的数据实体内元数据,使用行星表进行数据存储,行星表与恒星表通过外键相链接,一张恒星表拥有七张行星表以分别记录七种不同类型的数据实体内元数据,分别是属性行星表、结构行星表、摘要行星表、数据更新版本行星表、数据演化版本行星表、语义行星表、区域行星表,行星表内的重要属性有:数据实体ID:即恒星表的主键,行星ID:数据来源,记录数据实体内元数据的来源;加载时间,记录数据实体内元数据加载进入行星表的时间,其中数据实体ID以及行星ID两者形成行星表主键;所述星链实体用于表示数据实体的数据实体间元数据,使用星链表以及星链子表进行数据存储,数据实体内元数据详细内容会存储于该星链表的对应星链子表中,一张星链表拥有三张星链子表以分别记录三种不同类型的数据实体间元数据,分别是实体分组星链子表、相似链接星链子表、血缘关系星链子表,星链表内的重要属性有:星链ID,即星链表的主键;数据实体ID,即与该星链表链接的恒星表的主键,是表的外键,一个星链表可能会有两个或多个数据实体ID;数据来源,记录数据实体间元数据的来源;加载时间,记录数据实体内元数据加载的时间。星链子表内的关键属性有:星链ID,即星链表的主键;星链子表ID。其中星链ID以及星链子表ID两者形成星链子表主键;所述彗星实体用于表示全局元数据,使用语义参考彗星表、知识共享彗星表以及用户访问彗星表进行数据存储,彗星表可与恒星表、星链表、行星表通过外键相链接,彗星表内的重要属性有:彗星I D,即彗星表的主键。
包括如下步骤:
1)给定一个数据湖的数据实体集E={ei|i∈N *},首先对其中一个数据实体ei使用合适的元数据抽取方法或框架,提取该数据实体的信息及其数据实体内元数据;
2)判断数据实体ei的数据实体类型与模型中现有的恒星表是否相符。若相符则将该数据实体的信息和数据实体内元数据存储入对应数据实体类型的恒星表及行星表中;若都不符,则创建一张对应数据实体类型的恒星表以及七张对应的行星表,再将相关数据存储入对应的表中;
3)循环执行1)、2)操作,直至遍历完数据实体集中的所有数据实体;
4)对数据湖的系统日志、操作记录、语义资源等进行提取获得数据实体内元数据和全局元数据;
5)将获得的数据实体内元数据存储入对应数据实体所存储恒星表链接的行星表中;
6)判断全局元数据所对应的彗星表是否创建,若创建,则将全局元数据存储入对应的彗星表之中;若未创建,则构建对应的彗星表,再将这些全局元数据存储入对应的彗星表之中;
7)使用聚类算法、相似算法等关系挖掘算法挖掘不同数据实体间可能存在的关系,主要根据不同数据实体的数据实体内元数据的内容进行挖掘;
8)若通过算法确定某些数据实体间存在联系,则判断是否存在对应的星链表链接这些数据实体存储的恒星表。若存在,则将对应的数据实体间元数据存储入对应的星链表和星链子表中;若不存在,则在这些数据实体存储的恒星表之间构建一张星链表以及三张对应的星链子表,再将相关元数据存储入对应的表中;
9)循环执行7)、8),若遍历完所有的数据实体,则结束模型的构建。步骤1)所述的数据实体内元数据包括:属性元数据、结构元数据、摘要元数据、区域元数据。
步骤4)所述的数据实体内元数据包括数据更新版本元数据、数据演化版本元数据、语义元数据。
本发明中建模方法的特点为:在数据湖元数据分类体系的基础之上,将数据实体、数据实体本体的元数据属性(即数据实体内元数据)、数据实体间的联系(即数据实体间元数据)以及全局元数据分开存储,以不同数据实体类型的数据实体为中心进行集成建模,以此解决元数据耦合的复杂性问题以及异构数据的支持问题。
本发明的有益效果为:通过将不同数据实体类型的数据实体及其对应的三大类元数据分开建模与存储,可以有效解决元数据耦合的复杂性问题以及异构数据支持的问题。此外,上述设计理念也使得本发明模型更具有通用性与可扩展性,同时也满足了数据湖元数据分类体系中三大类元数据的管理需求。
附图说明
图1是本发明方法中元数据模型的概念模型图。
图2是本发明方法中的元数据模型中的恒星表与行星表示例图。
图3是本发明方法中的元数据模型中的恒星表与星链表、星链子表示例图。
图4是本发明方法中的元数据模型中的语义参考彗星表示例图。
图5是本发明方法中的元数据模型中的恒星表与用户访问彗星表、知识共享彗星表示例图。
图6是本发明方法中元数据模型的建模方法的流程图。
具体实施方式
下面结合附图和实施例对本发明进行进一步的详细说明。
本实施例是应用本发明的一种数据湖元数据模型建模方法的大气扬尘颗粒物检测方法。以两个与大气扬尘颗粒物检测系统相关的数据湖数据实体集为例。其中一个数据实体集来自于该系统的MySQL数据库,包含6个关系数据表类型的数据实体;另一个数据实体集是该系统的相关设计文档,包含16个Word文档类型的数据实体。数据集的相关信息如表1所示。
表1数据湖数据实体集信息
Figure BDA0003822074480000051
扬尘数据实体集中的一张关系数据表device的数据字典如表2所示。
表2device关系数据表数据字典
Figure BDA0003822074480000052
Figure BDA0003822074480000061
表3dust关系数据表数据字典
Figure BDA0003822074480000062
参照图6,针对实施例中两个数据实体集中的数据实体,一种采用了本发明方法的一种大气扬尘颗粒物检测方法,包括以下具体实施步骤:
参照图1,本建模方法中采用的数据湖元数据模型包括以下组件:恒星实体、行星实体、星链实体、彗星实体。所述恒星实体可用于表示不同数据实体类型的数据实体或数据实体集,使用恒星表进行数据存储;所述行星实体用于表示数据实体的数据实体内元数据,使用行星表进行数据存储,参照图2,行星表与恒星表通过外键相链接,一张恒星表拥有七张行星表以分别记录七种不同类型的数据实体内元数据,分别是属性行星表、结构行星表、摘要行星表、数据更新版本行星表、数据演化版本行星表、语义行星表、区域行星表;所述星链实体用于表示数据实体的数据实体间元数据,使用星链表以及星链子表进行数据存储,参照图3,数据实体内元数据详细内容会存储于该星链表的对应星链子表中,一张星链表拥有三张星链子表以分别记录三种不同类型的数据实体间元数据,分别是实体分组星链子表、相似链接星链子表、血缘关系星链子表;所述彗星实体用于表示全局元数据,使用语义参考彗星表、知识共享彗星表以及用户访问彗星表进行数据存储,参照图4,彗星表可与恒星表、星链表、行星表通过外键相链接。
1)首先对数据实体集中的其中一个数据实体,使用SQL语句、Apache Ti ka、metadata—extractor等元数据抽取方法或框架,提取该数据实体的信息及其数据实体内元数据(主要是属性元数据、结构元数据、摘要元数据、区域元数据),在实施例中,对包含了device和dust两个数据实体的6个关系数据表使用SQL语句进行元数据提取,对扬尘系统文档数据集中的word文档使用Apache Tika框架进行元数据提取;
2)判断数据实体的数据实体类型与模型中现有的恒星表是否相符。若相符则将该数据实体的信息和数据实体内元数据存储入对应数据实体类型的恒星表及行星表中;若都不符,则创建一张对应数据实体类型的恒星表以及七张对应的行星表,再将相关数据存储入对应的表中。在实施例中,若关系数据表数据实体device为载入的第一个数据实体,由于目前模型中还未加载入任何元数据,因此未查找到相符的恒星表,因此创建一张关系数据表恒星表以及七张对应的行星表,分别是关系数据表属性行星表、关系数据表结构行星表、关系数据表摘要行星表、关系数据表数据更新版本行星表、关系数据表数据演化版本行星表、关系数据表语义行星表、关系数据表区域行星表,再将device数据实体的相关元数据存储入对应的表中;
3)循环执行1)、2)操作,直至遍历完两个数据实体集中的所有数据实体。在实施例中,遍历完所有数据实体后,模型中有关系数据表恒星表和Word文档恒星表以及它们对应的行星表;
4)对数据湖的系统日志、操作记录、语义资源等进行提取获得数据实体内元数据(主要是数据更新版本元数据、数据演化版本元数据、语义元数据)和全局元数据;
5)将获得的数据实体内元数据存储入对应数据实体所存储恒星表链接的行星表中。在实施例中,关系数据表数据实体的数据实体内元数据存储入关系数据表恒星表对应的行星表,Word文档数据实体的数据实体内元数据存储入Word文档恒星表对应的行星表;
6)判断全局元数据所对应的彗星表是否创建,若创建,则将全局元数据存储入对应的彗星表之中;若未创建,则构建对应的彗星表,再将这些全局元数据存储入对应的彗星表之中。在实施例中,创建对应的彗星表,并进行全局元数据存储;
7)使用聚类算法、相似算法等关系挖掘算法挖掘不同数据实体间可能存在的关系,主要根据不同数据实体的数据实体内元数据的内容进行挖掘。实施例中使用K-means算法、DBSCAN算法对行星表中的数据实体内元数据进行聚类,获得实体分组元数据,使用word2vec计算数据实体间的语义相似度,对相似度超过0.7的数据实体,提取相似链接元数据,通过数据更新版本元数据、数据演化版本元数据、区域元数据等数据实体内元数据的相关信息推导形成血缘关系元数据。
8)若通过算法确定某些数据实体间存在联系,则判断是否存在对应的星链表链接这些数据实体存储的恒星表。若存在,则将对应的数据实体间元数据存储入对应的星链表和星链子表中;若不存在,则在这些数据实体存储的恒星表之间构建一张星链表以及三张对应的星链子表,再将相关元数据存储入对应的表中。在实施例中,发现关系数据表数据实体device与某一个Word文档数据实体记录的主题都是扬尘设备,因此获得实体分组元数据,在关系数据表恒星表和Word文档恒星表间构建一张关系数据表_Word文本星链表,再构建实体分组、相似链接、血缘关系星链子表,将获得的实体分组元数据记录入对应的表中;
9)循环执行7)、8),若遍历完所有的数据实体,则结束模型的构建。
10)将上述步骤构建得到的元数据模型应用于大气扬尘颗粒物检测系统中,由于检测过程只需要采集设备的设备编码、经纬度以及扬尘数据采集环境的温度、湿度、风速、气压、风向和pm2.5这些存储在关系数据表中的数据,通过对字段名的搜索可以在关系数据表摘要行星表中得到存储这些数据的关系数据表名称,将关系数据表名在关系数据表区域行星表中进行搜索,即可获得需要的关系数据表在数据湖中的存储位置,通过对关系数据表位置的确定,将所需要的数据从数据湖中进行抽取。
11)将步骤10中根据元数据模型抽取到的相关扬尘数据应用于大气扬尘颗粒物检测系统中。具体地,根据元数据模型可以抽取得到扬尘采集设备的设备编码数据和设备经纬度数据,由此可以进行数据处理和物理场网格划分工作,同时根据元数据模型可以抽取得到温度、湿度、风速、气压、风向和pm2.5数据参数,基于上述数据参数可以进一步构建神经网络模型并进行模型训练,最终得到扬尘飘移的预测轨迹。
与现有的数据湖元数据模型相比,本发明建模方法中提出的元数据模型通过将不同数据实体类型的数据实体及其对应的三大类元数据进行分开建模与存储,可以有效解决元数据耦合的复杂性问题以及异构数据支持的问题,通用性与可扩展性更强,并且本发明建模方法中提出的元数据模型相较于现有的模型支持的元数据类型更为丰富。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (3)

1.一种数据湖元数据模型建模方法;,其特征在于:在数据湖元数据分类体系基础之上,采用恒星实体、行星实体、星链实体、彗星实体四类元数据模型组件,实现对数据湖多源异构数据的元数据管理,其特征在于将数据实体、数据实体本体的元数据属性(即数据实体内元数据)、数据实体间的联系(即数据实体间元数据)以及全局元数据分开存储,以不同数据实体类型的数据实体为中心进行集成建模,以此形成一个通用可扩展的数据湖元数据模型;所述的数据实体为数据湖中不同粒度级别的数据;所述数据实体类型指代数据实体的文件类型;
依据元数据的作用范围将数据湖中的元数据进行分类,包括:
数据实体内元数据,指与数据实体本身特征相关联的元数据,包含属性元数据、结构元数据、摘要元数据、数据更新版本元数据、数据演化版本元数据、语义元数据、区域元数据这七种类型,其中区域元数据是用来标识数据实体所位于数据湖的区域位置元数据;
数据实体间元数据,指的是描述数据实体之间关联关系的元数据,包含实体分组、相似链接、血缘关系这三种类型;其中实体分组是记录带有同一特征标签的数据实体之间集合关系的元数据,相似链接是记录两个数据实体之间相似程度强弱的元数据,血缘关系是记录数据沿袭的元数据;
全局元数据,指的是作用于整个元数据模型或整个数据湖的元数据,包含语义资源、知识共享元数据和用户访问元数据这三种类型;
采用四类元数据模型组件,包括:
3.1恒星实体,可用于表示不同数据实体类型的数据实体或数据实体集;一种数据实体类型对应一个恒星实体,使用恒星表进行数据存储;恒星表内的属性有:数据实体ID,即恒星表的主键,用于记录数据实体在数据湖中的唯一标识信息;数据来源,即该数据实体的来源,可以是数据来源的描述,也可以是源系统访问链接;入湖时间,记录数据实体加载进入数据湖的时间;数据实体名称,即数据实体在数据湖中的名称;存储位置,记录数据实体在数据湖中的存储路径;
3.2行星实体,用于表示数据实体的数据实体内元数据,使用行星表进行数据存储;行星表与恒星表通过外键相链接,一张恒星表拥有七张行星表以分别记录七种不同类型的数据实体内元数据,分别是属性行星表、结构行星表、摘要行星表、数据更新版本行星表、数据演化版本行星表、语义行星表、区域行星表;行星表内的重要属性有:数据实体ID,即恒星表的主键;行星ID;数据来源,记录数据实体内元数据的来源;加载时间,记录数据实体内元数据加载进入行星表的时间;其中数据实体ID以及行星ID两者形成行星表主键;属性行星表的可选属性有:更新时间、源数据实体ID、源数据实体名称、数据大小、数据拥有者、数据记录数、数据实体类型;结构行星表的可选属性有:更新时间、模式名称、属性名、属性类型、非空判断、字符集、主外键;摘要行星表的可选属性有:更新时间、模式名称、属性名、属性描述、数据分布、最大值、最小值、平均值;数据更新版本行星表的可选属性有:数据版本、更新操作时间、操作名称、执行用户ID、父数据版本;数据演化版本行星表的可选属性有:数据版本、演化操作时间、操作名称、执行用户ID、父数据版本;语义行星表的可选属性有:更新时间、语义标注内容、语义资源ID、标注时间、执行用户ID;区域行星表的属性有:更新时间、数据湖区域;
3.3星链实体,用于表示数据实体的数据实体间元数据,使用星链表以及星链子表进行数据存储;星链表会与恒星表相链接以记录数据实体间的关系,数据实体内元数据详细内容会存储于该星链表的对应星链子表中,一张星链表拥有三张星链子表以分别记录三种不同类型的数据实体间元数据,分别是实体分组星链子表、相似链接星链子表、血缘关系星链子表;星链表内的重要属性有:星链ID,即星链表的主键;数据实体ID,即与该星链表链接的恒星表的主键,是表的外键,一个星链表可能会有两个或多个数据实体ID;数据来源,记录数据实体间元数据的来源;加载时间,记录数据实体内元数据加载的时间;星链子表内的关键属性有:星链ID,即星链表的主键;星链子表ID;其中星链ID以及星链子表ID两者形成星链子表主键;实体分组星链子表的可选属性有:集合标签、创建时间、分组方法;相似链接星链子表的可选属性有:相似度、创建时间、相似方法;血缘关系星链子表的可选属性:父实体ID、子实体ID、操作、创建时间;
3.4彗星实体,用于表示全局元数据,使用语义参考彗星表、知识共享彗星表以及用户访问彗星表进行数据存储,彗星表可与恒星表、星链表、行星表通过外键相链接;语义参考彗星表的重要属性有:语义参考彗星ID,即语义参考彗星表的主键;数据来源,记录语义资源的来源,通常是一个URL;加载时间,记录语义资源加载的时间;语义资源名称,记录语义资源的名称;描述,提供语义资源的详细描述;知识共享彗星表内的重要属性有:知识共享彗星ID,即知识共享彗星表的主键;数据实体/行星/星链ID,即与该知识共享彗星表链接的恒星/行星/星链表的主键,是表的外键,一个知识共享彗星表可能会有一个或多个数据实体/行星/星链ID;数据来源,记录知识共享元数据的来源;加载时间,记录知识共享元数据加载的时间;用户ID,即发起知识共享的用户的ID;共享创建时间,记录知识共享创建的时间;评述,记录用户对数据实体的相关认知评述;知识共享彗星表的可选属性有:探索操作、探索工具、探索结果;用户访问彗星表内的重要属性有:用户访问彗星ID,即用户访问彗星表的主键;数据实体ID,即与该用户访问彗星表链接的恒星表的主键,是表的外键;数据来源,记录用户访问元数据的来源;加载时间,记录用户访问元数据加载的时间;访问ip,记录访问用户的ip地址;访问时间,记录用户访问数据实体的时间;用户ID,即访问用户的ID;
包括如下步骤:
1)给定一个数据湖的数据实体集,首先对其中一个数据实体使用合适的元数据抽取方法或框架,提取该数据实体的信息及其数据实体内元数据;
2)判断数据实体的数据实体类型与模型中现有的恒星表是否相符;若相符则将该数据实体的信息和数据实体内元数据存储入对应数据实体类型的恒星表及行星表中;若都不符,则创建一张对应数据实体类型的恒星表以及七张对应的行星表,再将相关数据存储入对应的表中;
3)循环执行步骤1)、2)操作,直至遍历完数据实体集中的所有数据实体;
4)对数据湖的系统日志、操作记录、语义资源等进行提取获得数据实体内元数据和全局元数据;
5)将获得的数据实体内元数据存储入对应数据实体所存储恒星表链接的行星表中;
6)判断全局元数据所对应的彗星表是否创建,若创建,则将全局元数据存储入对应的彗星表之中;若未创建,则构建对应的彗星表,再将这些全局元数据存储入对应的彗星表之中;
7)使用聚类算法、相似算法的关系挖掘算法挖掘不同数据实体间可能存在的关系,根据不同数据实体的数据实体内元数据的内容进行挖掘;
8)若通过算法确定某些数据实体间存在联系,则判断是否存在对应的星链表链接这些数据实体存储的恒星表;若存在,则将对应的数据实体间元数据存储入对应的星链表和星链子表中;若不存在,则在这些数据实体存储的恒星表之间构建一张星链表以及三张对应的星链子表,再将相关元数据存储入对应的表中;
9)循环执行7)、8),若遍历完所有的数据实体,则结束模型的构建。
2.根据权利要求1所述的数据湖元数据模型的建模方法,其特征在于:步骤1)所述的数据实体内元数据包括:属性元数据、结构元数据、摘要元数据、区域元数据。
3.根据权利要求1所述的数据湖元数据模型的建模方法,其特征在于:步骤4)所述的数据实体内元数据包括数据更新版本元数据、数据演化版本元数据、语义元数据。
CN202211045040.9A 2022-08-30 2022-08-30 一种数据湖元数据模型的建模方法 Pending CN115422155A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211045040.9A CN115422155A (zh) 2022-08-30 2022-08-30 一种数据湖元数据模型的建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211045040.9A CN115422155A (zh) 2022-08-30 2022-08-30 一种数据湖元数据模型的建模方法

Publications (1)

Publication Number Publication Date
CN115422155A true CN115422155A (zh) 2022-12-02

Family

ID=84199901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211045040.9A Pending CN115422155A (zh) 2022-08-30 2022-08-30 一种数据湖元数据模型的建模方法

Country Status (1)

Country Link
CN (1) CN115422155A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115809249A (zh) * 2023-02-03 2023-03-17 杭州比智科技有限公司 一种基于专有化数据集的数据湖管理方法及系统
CN116303342A (zh) * 2023-02-01 2023-06-23 北京三维天地科技股份有限公司 一种逆向模型的构建方法及系统
KR102667631B1 (ko) * 2023-11-28 2024-05-22 한화시스템(주) 다출처데이터 계보관계 분석 시스템 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116303342A (zh) * 2023-02-01 2023-06-23 北京三维天地科技股份有限公司 一种逆向模型的构建方法及系统
CN116303342B (zh) * 2023-02-01 2023-09-12 北京三维天地科技股份有限公司 一种逆向模型的构建方法及系统
CN115809249A (zh) * 2023-02-03 2023-03-17 杭州比智科技有限公司 一种基于专有化数据集的数据湖管理方法及系统
KR102667631B1 (ko) * 2023-11-28 2024-05-22 한화시스템(주) 다출처데이터 계보관계 분석 시스템 및 방법

Similar Documents

Publication Publication Date Title
CN111708773B (zh) 一种多源科创资源数据融合方法
US11194797B2 (en) Automatic transformation of complex tables in documents into computer understandable structured format and providing schema-less query support data extraction
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
US20160098433A1 (en) Method for facet searching and search suggestions
CN115422155A (zh) 一种数据湖元数据模型的建模方法
US10089390B2 (en) System and method to extract models from semi-structured documents
US11194798B2 (en) Automatic transformation of complex tables in documents into computer understandable structured format with mapped dependencies and providing schema-less query support for searching table data
CN107180045A (zh) 一种互联网文本蕴含地理实体关系的抽取方法
US9064004B2 (en) Extensible surface for consuming information extraction services
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
CN112000773B (zh) 基于搜索引擎技术的数据关联关系挖掘方法及应用
US11308083B2 (en) Automatic transformation of complex tables in documents into computer understandable structured format and managing dependencies
CN106227788A (zh) 一种以Lucene为基础的数据库查询方法
US20120317125A1 (en) Method and apparatus for identifier retrieval
US9063957B2 (en) Query systems
CN110795932A (zh) 基于地质本体的地质报告文本信息提取方法
US9886488B2 (en) Conceptual document analysis and characterization
Tagarelli XML Data Mining: Models, Methods, and Applications: Models, Methods, and Applications
Gahar et al. Towards Big Data modeling and management systems: From DBMS to BDMS
Seenivasan ETL in a World of Unstructured Data: Advanced Techniques for Data Integration
KR102605931B1 (ko) 복수의 서로 다른 데이터베이스 상의 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 플랫폼
Macke Leveraging distributional context for safe and interactive data science at scale
Ye Development of the Data Model and Search Engine for a Moment Retrieval Application
Li Tourist Attractions Translation Database Aided by Digital Technology
Zhang Classification and Retrieval Method of Library Book Information Based on Data Mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination