CN111782886A - 元数据管理的方法和装置 - Google Patents
元数据管理的方法和装置 Download PDFInfo
- Publication number
- CN111782886A CN111782886A CN202010598513.2A CN202010598513A CN111782886A CN 111782886 A CN111782886 A CN 111782886A CN 202010598513 A CN202010598513 A CN 202010598513A CN 111782886 A CN111782886 A CN 111782886A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- metadata
- information
- storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000008569 process Effects 0.000 claims description 38
- 230000010354 integration Effects 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 9
- 239000008280 blood Substances 0.000 claims description 5
- 210000004369 blood Anatomy 0.000 claims description 5
- 238000007726 management method Methods 0.000 abstract description 24
- 238000013500 data storage Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000036765 blood level Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种元数据管理的方法和装置,属于大数据技术领域。所述方法包括:获取目标数据的存储信息,其中,目标数据的存储信息包括存储所述目标数据的目标存储设备的地址信息和所述目标数据在所述目标存储设备下的存储路径信息。基于目标数据的数据类型,确定待使用的数据连接器,通过待使用的数据连接器,基于目标数据的存储信息与目标存储设备建立连接通道,并获取目标数据对应的目标元数据。确定目标元数据的数据类型,并基于目标元数据的数据类型,对目标元数据进行存储。通过本申请可以实现对元数据的采集和归类存储管理。
Description
技术领域
本申请涉及大数据技术领域,特别涉及一种元数据管理的方法和装置。
背景技术
在企业中数据通常包括技术数据和业务数据,随着技术和业务不断发展,企业中所要管理的数据也会不断增多。管理数据的前提是要知道数据的相关属性信息。
元数据是用来描述数据的属性信息的一种数据,那么,如果要对数据进行管理,首先,要对数据对应的元数据进行管理。此处,对于元数据的管理可以包括在数据源获取元数据,并对元数据进行分类管理。
因此,在需要管理的数据不断增多的情况下,急需一种能够管理元数据的方法,来辅助进行数据管理。
发明内容
本申请实施例提供了一种元数据管理的方法和装置,能够解决数据管理的的问题。所述技术方案如下:
第一方面,提供了一种元数据管理的方法,所述方法包括:
获取目标数据的存储信息,其中,所述目标数据的存储信息包括存储所述目标数据的目标存储设备的地址信息和所述目标数据在所述目标存储设备下的存储路径信息;
基于所述目标数据的数据类型,确定待使用的数据连接器;
通过所述待使用的数据连接器,基于所述目标数据的存储信息与所述目标存储设备建立连接通道,并获取所述目标数据对应的目标元数据;
确定所述目标元数据的数据类型,并基于所述目标元数据的数据类型,对所述目标元数据进行存储。
在一种可能的实现方式中,所述基于所述目标数据的数据类型,确定待使用的数据连接器,包括:
如果所述目标数据为结构化技术数据,则获取Java数据库连接JDBC数据连接器,作为待使用的数据连接器;
所述目标元数据包括所述目标数据的属性信息和数据整合过程信息中的至少一种,所述目标数据的属性信息包括所述目标数据对应的表基本属性信息、表统计信息和表字段信息。
在一种可能的实现方式中,基于所述目标数据的数据类型,确定待使用的数据连接器,包括:
如果所述目标数据为非结构化技术数据,则获取非结构化连接器,作为待使用的数据连接器;
所述目标元数据包括所述目标数据的创建时间、更新时间、文件大小和文件占用空间。
在一种可能的实现方式中,所述基于所述目标数据的数据类型,确定待使用的数据连接器,包括:
如果所述目标数据为业务数据,则获取业务数据连接器,作为待使用的数据连接器;
所述目标元数据包括所述目标数据的数据生命周期、所属产品信息、所属项目信息和用途信息。
在一种可能的实现方式中,所述确定所述目标元数据的数据类型,并基于所述目标元数据的数据类型,对所述目标元数据进行存储之前,所述方法还包括:
将所述目标元数据转换为json格式。
在一种可能的实现方式中,所述确定所述目标元数据的数据类型,并基于所述目标元数据的数据类型,对所述目标元数据进行存储,包括:
将所述目标元数据中包括的过程process类型元数据,存储至第一存储区;
将所述目标元数据中包括的数据dataset类型元数据,存储至第二存储区。
在一种可能的实现方式中,所述方法还包括:
获取目标process类型元数据;
生成所述目标process类型元数据对应的数据血缘图。
第二方面,提供了一种元数据管理的装置,所述装置包括:
获取模块,用于获取目标数据的存储信息,其中,所述目标数据的存储信息包括存储所述目标数据的目标存储设备的地址信息和所述目标数据在所述目标存储设备下的存储路径信息,基于所述目标数据的数据类型,确定待使用的数据连接器,通过所述待使用的数据连接器,基于所述目标数据的存储信息与所述目标存储设备建立连接通道,并获取所述目标数据对应的目标元数据;
存储模块,用于确定所述目标元数据的数据类型,并基于所述目标元数据的数据类型,对所述目标元数据进行存储。
在一种可能的实现方式中,
所述获取模块,用于:
如果所述目标数据为结构化技术数据,则获取Java数据库连接JDBC数据连接器,作为待使用的数据连接器;
所述目标元数据包括所述目标数据的属性信息和数据整合过程信息中的至少一种,所述目标数据的属性信息包括所述目标数据对应的表基本属性信息、表统计信息和表字段信息。
在一种可能的实现方式中,
所述获取模块,用于:
如果所述目标数据为非结构化技术数据,则获取非结构化连接器,作为待使用的数据连接器;
所述目标元数据包括所述目标数据的创建时间、更新时间、文件大小和文件占用空间。
在一种可能的实现方式中,
所述获取模块,用于:
如果所述目标数据为业务数据,则获取业务数据连接器,作为待使用的数据连接器;
所述目标元数据包括所述目标数据的数据生命周期、所属产品信息、所属项目信息和用途信息。
在一种可能的实现方式中,所述装置还包括转换模块,用于:
将所述目标元数据转换为json格式。
在一种可能的实现方式中,所述存储模块,用于:
将所述目标元数据中包括的过程process类型元数据,存储至第一存储区;
将所述目标元数据中包括的数据dataset类型元数据,存储至第二存储区。
在一种可能的实现方式中,所述装置还包括生成模块,用于:
获取目标process类型元数据;
生成所述目标process类型元数据对应的数据血缘图。
第三方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上述第一方面所述的元数据管理的方法所执行的操作。
第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如上述第一方面所述的元数据管理的方法所执行的操作。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例对于不同类型的目标数据,可以采用不同的数据连接器,采集其对应的目标元数据,并且还可以对目标元数据按照数据类型进行归类存储。从而,实现对元数据的归类管理。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种元数据管理的方法流程图;
图2是本申请实施例提供的一种数据血缘图;
图3是本申请实施例提供的一种元数据管理的方法流程示意图;
图4是本申请实施例提供的一种元数据管理的装置结构示意图;
图5是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供的元数据管理的方法,该方法可以由计算机设备实现,计算机设备可以为笔记本电脑、台式机等。通过该方法可以实现对业务数据对应的元数据和业务数据对应的元数据的获取以及分类存储,以便后续相关人员通过存储的元数据获知相应数据的信息。
图1是本申请实施例提供的一种元数据管理的方法的流程图。参见图1,该方法的处理流程可以包括如下步骤:
步骤101、获取目标数据的存储信息。
其中,目标数据的存储信息包括存储所述目标数据的目标存储设备的地址信息和该目标数据在目标存储设备下的存储路径信息,目标存储设备的地址信息可以为目标存储设备的IP(Internet Protocol,网际互连协议)地址。
在实施中,技术人员可以获取指定的目标数据对应的元数据。那么,在获取其元数据之前,首先需要获取存储该目标数据的存储信息。在本申请实施例中,数据的存储信息可以在单独的管理设备中存储。为了方便技术人员查询,在管理设备中对数据存储信息进行存储时,可以对每个存储信息分配存储标识。而存储标识和对应的数据标识可以分发给技术人员,技术人员在需要获取目标数据的存储信息时,可以先确定目标数据对应的目标存储标识,再登录管理设备,并查询该目标存储标识对应的存储信息。
此外,存储数据的存储设备可能需要验证用户信息,在验证用户信息成功的情况下,才允许用户访问。那么,在上述数据的存储信息中,还可以包括有用户登录存储数据的存储设备的用户名和密码。
步骤102、基于目标数据的数据类型,确定待使用的数据连接器。
在实施中,由于数据的数据类型不同,相应的,获取数据对应的元数据时所采用的数据连接器也可以不同。数据可以分为业务数据和技术数据,而技术数据可以分为结构化技术数据和非结构化技术数据。其中,结构化技术数据可以包括有Hive数据库、Spark数据库和关系型数据库等数据源存储的数据。非结构化技术数据可以为以文档格式存储的数据,如TXT文档。业务数据可以为以Excel格式存储的数据。
对于相同数据类型的数据,可以预先设计对应的数据连接器,用于采集数据对应的元数据。例如,对于结构化技术数据,对应的数据连接器可以为JDBC(Java DatabaseConnectivity,Java数据库连接)数据连接器。对于非结构化技术数据,对应的数据连接器可以为非结构化数据连接器。对于业务数据,对应的数据连接器可以为业务数据连接器。对于各类数据连接器均可以采用spark应用程序实现。
步骤103、通过待使用的数据连接器,基于目标数据的存储信息与目标存储设备建立连接通道,并获取目标数据对应的目标元数据。
在实施中,可以通过待使用的数据连接器,根据目标存储设备的地址信息与目标存储设备建立连接通道。然后,根据目标数据的存储路径信息,获取目标数据对应的元数据。
下面对于不同数据类型的目标数据对应的元数据的获取进行分别说明:
一、目标数据为结构化技术数据
在获取结构化技术数据对应的元数据时,可以采用JDBC数据连接器。在此情况下,目标数据可以为目标数据库表。
通过JDBC数据连接器与目标存储设备建立连接,并获取目标数据的元数据。获取的元数据可以包括目标数据的属性信息和数据整合过程信息中的至少一种。其中,目标数据的属性信息可以包括表基本属性信息、表统计信息和表字段信息。此处需要说明的是,对于目标数据为目标数据库表的情况,目标数据库表可能是由其他数据库表经过合并删减等操作得到的,那么,该目标数据库表对应的元数据可以包括数据整合过程信息,该数据整合过程信息用于表示该目标数据库表是由哪些数据库表经过何种操作得到的。
表基本属性信息可以包括存储该目标数据库表的数据库名、该目标数据库表名、该目标数据库表的所属用户、该目标数据库表的创建时间、该目标数据库表是否为分区表以及该目标数据库表的描述信息。该目标数据库表的描述信息可以为描述该目标数据库表用途的信息。表统计信息可以包括有该目标数据库表的表头的字段数、该目标数据库表的容量、该目标数据库表包括的文件数、该目标数据库表的分区数等。表字段信息可以包括字段名、字段类型、字段别名、字段描述信息、是否为主键等。对于表字段信息来说,该目标数据库表的表头包括N个字段,则可以对应有N个表字段信息,每个表字段信息中均可以包括字段名、字段类型、字段别名、字段描述信息、是否为主键等。以上目标数据库表的元数据所包括的各信息在存储该目标数据库表的数据库均有存储,通过JDBC数据连接器直接获取即可。
二、目标数据为非结构化技术数据
在获取非结构化技术数据对应的元数据时,可以采用非结构化数据连接器。在此情况下,目标数据可以为TXT文档格式的数据。
通过非结构化数据连接器与目标存储设备建立连接,并获取目标数据的元数据。获取的元数据包括目标数据的创建时间、更新时间、所属用户、文件大小和文件占用空间等。以上元数据从目标数据的属性信息中读取即可。
三、目标数据为业务数据
在获取业务数据对应的元数据时,可以采用业务数据连接器。在此情况下,目标数据可以为Excel表格格式的数据。
通过业务数据连接器与目标存储设备建立连接,并获取目标数据的元数据。获取的元数据包括目标数据的数据生命周期、所属产品信息、所属项目信息和用途信息等。对于业务数据来说,技术人员在存储业务数据时,可以在相同的存储路径下,建立一个记录该业务数据的元数据的元数据Excel表格,则业务数据连接器,可以在获取业务数据的元数据时,可以读取该业务数据所在存储路径下的元数据Excel表格中的数据,以获取该业务数据的元数据。
在一种可能的实现方式中,可以将获取的元数据转换为JOSN(JavaScript ObjectNotation,JavaScript对象简谱)格式。
在实施中,对于从不同数据源获取到的元数据可以统一转换为JOSN格式。因为JOSN格式是一种与开发语言无关的、轻量级的数据存储格式,所有将元数据统一转换为JOSN格式,可以更便于存储。
下面对于结构化技术数据对应的元数据、非结构化技术数据对应的元数据以及业务数据对应的元数据的JOSN格式分别举例说明。
一、结构化技术数据对应的元数据
结构化技术数据对应的元数据可以包括有目标数据的数据整合过程信息和目标数据的属性信息中的至少一种,下面仅对结构化技术数据对应的元数据仅包括目标数据的数据整合过程信息和仅包括目标数据的属性信息的情况进行举例说明,对于既包括目标数据的数据整合过程信息又包括目标数据的属性信息的情况,可以为以上两种情况的简单组合,在此不做赘述。
对于结构化技术数据对应的元数据仅包括目标数据的数据整合过程信息的情况:
在此情况下,例如目标数据的表名称为C,目标数据的元数据(数据整合过程信息)指示目标数据为表名称为A的数据库表和表名称为B的数据库表合并得到的,则目标数据的JOSN格式的元数据可以为:
对结构化技术数据对应的元数据仅包括目标数据的属性信息的情况,目标数据的JOSN格式的元数据可以为:
二、非结构化技术数据对应的元数据
非结构化技术数据对应的元数据包括目标数据的创建时间、更新时间、所属用户、文件大小和文件占用空间等。例如,目标数据的创建时间为2020-01-01,更新时间为2020-01-05,所属用户HK,文件大小为1MB(Mbyte,兆字节),文件占用空间为1.1MB,则目标数据的JOSN格式的元数据可以为:
三、业务数据对应的元数据
业务数据的元数据可以包括目标数据的数据生命周期、所属产品信息、所属项目信息和用途信息等。例如,目标数据的数据生命周期为all,表示全生命周期,所属产品信息为H,表示目标数据属于产品H,所属项目信息为M,表示目标数据属于项目M,用途信息为ETL(Extract-Transform-Load,抽取-转换-加载),用于描述数据的整合过程,则目标数据的JOSN格式的元数据可以为:
在一种可能的实现方式中,在获取到目标数据的目标元数据,并将目标元数据转换为统一的格式后,可以将转换后的目标元数据存储在kafaka消息队列中。
在实施中,在kafaka消息队列中可以建立多个不同的topic(主题),例如,可以建立structured_meta_topic(结构化元数据主题)、unstructured_meta_topic(非结构化元数据主题)和business_meta_topic(业务元数据主题)。并将转换为JOSN格式的元数据,根据各自所属类型,写入到相应的topic下。例如,结构化数据对应的元数据写入到structured_meta_topic下,非结构化数据对应的元数据写入到unstructured_meta_topic下,业务数据对应的元数据写入到business_meta_topic下。
步骤104、确定目标元数据的数据类型,并基于目标元数据的数据类型,对目标元数据进行存储。
在实施中,根据预设的元数据类型系统,可以将元数据分为dataset(数据)类型元数据和process(过程)类型元数据进行分别存储。
例如,对于业务数据对应的元数据仅包括有描述目标数据的属性信息,则可以为dataset类型元数据,同样的,对于非结构化技术数据对应的元数据也仅包括有目标数据的属性信息,则可以为dataset类型元数据。对于结构化数据对应的元数据,其中的数据整合过程信息,可以为process类型元数据,其中的属性信息,可以为dataset类型元数据。
在根据预设的元数据类型系统对元数据进行分类后,可以将属于不同类型的元数据写入目标数据库中进行分区存储。目标数据库可以为MySQL(关系型数据库管理系统)等。
在一种可能的实现方式中,为了便于后续查找指定数据对应的元数据,可以在对目标数据的目标元数据进行分区存储时,将目标元数据和目标数据的数据标识对应存储。当然,除数据标识外,还可以将目标数据的存储信息也和目标元数据对应存储,即,将目标元数据、目标数据的数据标识和目标数据的存储信息对应存储。
在一种可能的实现方式中,为了更直观展示数据整合过程,对于存储的process类型元数据,可以生产对应的数据血缘图。
在实施中,可以向process类型元数据的存储区,获取目标process类型元数据。并根据该目标process类型元数据中记录的数据整合过程,生成对应的数据血缘图。如图2所示为根据如下process类型元数据,生成的数据血缘图:
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请实施例可以使用数据连接器,向目标存储设备获取目标数据对应的目标元数据,并且还可以对目标元数据按照数据类型进行归类存储。从而,实现对元数据的归类管理。
下面结合图3,对本申请实施例提供的一种元数据管理的方法流程进行简要说明:
(1)通过JDBC数据连接器,获取结构化技术数据对应的元数据。通过非结构化数据连接器,获取非结构化技术数据对应的元数据。通过业务数据连接器,获取业务数据对应的元数据。
(2)将获取的元数据转换为统一的JOSN格式,并写入kafaka消息队列中的structured_meta_topic、unstructured_meta_topic或business_meta_topic中。
(3)在消息队列中读取元数据,根据预设的元数据类型系统,将读取的元数据写入MySQL中进行分区存储。
基于相同的技术构思,本申请实施例还提供了一种元数据管理的装置,如图4所示,该装置包括:获取模块410,和存储模块420。
获取模块410,用于获取目标数据的存储信息,其中,所述目标数据的存储信息包括存储所述目标数据的目标存储设备的地址信息和所述目标数据在所述目标存储设备下的存储路径信息,基于所述目标数据的数据类型,确定待使用的数据连接器,通过所述待使用的数据连接器,基于所述目标数据的存储信息与所述目标存储设备建立连接通道,并获取所述目标数据对应的目标元数据;
存储模块420,用于确定所述目标元数据的数据类型,并基于所述目标元数据的数据类型,对所述目标元数据进行存储。
在一种可能的实现方式中,所述获取模块410,用于:
如果所述目标数据为结构化技术数据,则获取Java数据库连接JDBC数据连接器,作为待使用的数据连接器;
所述目标元数据包括所述目标数据的属性信息和数据整合过程信息中的至少一种,所述目标数据的属性信息包括所述目标数据对应的表基本属性信息、表统计信息和表字段信息。
在一种可能的实现方式中,所述获取模块410,用于:
如果所述目标数据为非结构化技术数据,则获取非结构化连接器,作为待使用的数据连接器;
所述目标元数据包括所述目标数据的创建时间、更新时间、文件大小和文件占用空间。
在一种可能的实现方式中,所述获取模块410,用于:
如果所述目标数据为业务数据,则获取业务数据连接器,作为待使用的数据连接器;
所述目标元数据包括所述目标数据的数据生命周期、所属产品信息、所属项目信息和用途信息。
在一种可能的实现方式中,所述装置还包括转换模块,用于:
将所述目标元数据转换为json格式。
在一种可能的实现方式中,所述存储模块420,用于:
将所述目标元数据中包括的过程process类型元数据,存储至第一存储区;
将所述目标元数据中包括的数据dataset类型元数据,存储至第二存储区。
在一种可能的实现方式中,所述装置还包括生成模块,用于:
获取目标process类型元数据;
生成所述目标process类型元数据对应的数据血缘图。
需要说明的是:上述实施例提供的元数据管理的装置在进行元数据管理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的元数据管理的装置与元数据管理的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)501和一个或一个以上的存储器502,其中,所述存储器502中存储有至少一条指令,所述至少一条指令由所述处理器501加载并执行以实现上述实施例提供的元数据管理的方法。当然,该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述实施例中视频合成的方法。该计算机可读存储介质可以是非暂态的。例如,所述计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,光盘只读存储器)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种元数据管理的方法,其特征在于,所述方法包括:
获取目标数据的存储信息,其中,所述目标数据的存储信息包括存储所述目标数据的目标存储设备的地址信息和所述目标数据在所述目标存储设备下的存储路径信息;
基于所述目标数据的数据类型,确定待使用的数据连接器;
通过所述待使用的数据连接器,基于所述目标数据的存储信息与所述目标存储设备建立连接通道,并获取所述目标数据对应的目标元数据;
确定所述目标元数据的数据类型,并基于所述目标元数据的数据类型,对所述目标元数据进行存储。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标数据的数据类型,确定待使用的数据连接器,包括:
如果所述目标数据为结构化技术数据,则获取Java数据库连接JDBC数据连接器,作为待使用的数据连接器;
所述目标元数据包括所述目标数据的属性信息和数据整合过程信息中的至少一种,所述目标数据的属性信息包括所述目标数据对应的表基本属性信息、表统计信息和表字段信息。
3.根据权利要求1所述的方法,其特征在于,基于所述目标数据的数据类型,确定待使用的数据连接器,包括:
如果所述目标数据为非结构化技术数据,则获取非结构化连接器,作为待使用的数据连接器;
所述目标元数据包括所述目标数据的创建时间、更新时间、文件大小和文件占用空间。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标数据的数据类型,确定待使用的数据连接器,包括:
如果所述目标数据为业务数据,则获取业务数据连接器,作为待使用的数据连接器;
所述目标元数据包括所述目标数据的数据生命周期、所属产品信息、所属项目信息和用途信息。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述确定所述目标元数据的数据类型,并基于所述目标元数据的数据类型,对所述目标元数据进行存储之前,所述方法还包括:
将所述目标元数据转换为json格式。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述确定所述目标元数据的数据类型,并基于所述目标元数据的数据类型,对所述目标元数据进行存储,包括:
将所述目标元数据中包括的过程process类型元数据,存储至第一存储区;
将所述目标元数据中包括的数据dataset类型元数据,存储至第二存储区。
7.根据权利要求6中所述的方法,其特征在于,所述方法还包括:
获取目标process类型元数据;
生成所述目标process类型元数据对应的数据血缘图。
8.一种元数据管理的装置,其特征在于,所述装置包括:
获取模块,用于获取目标数据的存储信息,其中,所述目标数据的存储信息包括存储所述目标数据的目标存储设备的地址信息和所述目标数据在所述目标存储设备下的存储路径信息,基于所述目标数据的数据类型,确定待使用的数据连接器,通过所述待使用的数据连接器,基于所述目标数据的存储信息与所述目标存储设备建立连接通道,并获取所述目标数据对应的目标元数据;
存储模块,用于确定所述目标元数据的数据类型,并基于所述目标元数据的数据类型,对所述目标元数据进行存储。
9.根据权利要求8所述的装置,其特征在于,所述获取模块,用于:
如果所述目标数据为结构化技术数据,则获取Java数据库连接JDBC数据连接器,作为待使用的数据连接器;
所述目标元数据包括所述目标数据的属性信息和数据整合过程信息中的至少一种,所述目标数据的属性信息包括所述目标数据对应的表基本属性信息、表统计信息和表字段信息。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至权利要求7任一项所述的元数据管理的方法所执行的操作。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的元数据管理的方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010598513.2A CN111782886A (zh) | 2020-06-28 | 2020-06-28 | 元数据管理的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010598513.2A CN111782886A (zh) | 2020-06-28 | 2020-06-28 | 元数据管理的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111782886A true CN111782886A (zh) | 2020-10-16 |
Family
ID=72760676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010598513.2A Pending CN111782886A (zh) | 2020-06-28 | 2020-06-28 | 元数据管理的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782886A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116881319A (zh) * | 2023-09-06 | 2023-10-13 | 杭州比智科技有限公司 | 一种元数据采集系统及快速实现元数据采集和存储的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109257403A (zh) * | 2017-07-14 | 2019-01-22 | 杭州海康威视数字技术股份有限公司 | 数据存储方法及设备、分布式存储系统 |
CN109542861A (zh) * | 2018-11-08 | 2019-03-29 | 浪潮软件集团有限公司 | 一种文件管理方法、装置和系统 |
CN109656963A (zh) * | 2018-12-18 | 2019-04-19 | 深圳前海微众银行股份有限公司 | 元数据获取方法、装置、设备及计算机可读存储介质 |
CN109739867A (zh) * | 2018-12-29 | 2019-05-10 | 北京航天数据股份有限公司 | 一种工业元数据管理方法及系统 |
WO2020026112A1 (en) * | 2018-07-31 | 2020-02-06 | Marvell World Trade Ltd. | Metadata generation for multiple object types |
CN111209259A (zh) * | 2018-11-22 | 2020-05-29 | 杭州海康威视系统技术有限公司 | Nas分布式文件系统及数据处理方法 |
-
2020
- 2020-06-28 CN CN202010598513.2A patent/CN111782886A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109257403A (zh) * | 2017-07-14 | 2019-01-22 | 杭州海康威视数字技术股份有限公司 | 数据存储方法及设备、分布式存储系统 |
WO2020026112A1 (en) * | 2018-07-31 | 2020-02-06 | Marvell World Trade Ltd. | Metadata generation for multiple object types |
CN109542861A (zh) * | 2018-11-08 | 2019-03-29 | 浪潮软件集团有限公司 | 一种文件管理方法、装置和系统 |
CN111209259A (zh) * | 2018-11-22 | 2020-05-29 | 杭州海康威视系统技术有限公司 | Nas分布式文件系统及数据处理方法 |
CN109656963A (zh) * | 2018-12-18 | 2019-04-19 | 深圳前海微众银行股份有限公司 | 元数据获取方法、装置、设备及计算机可读存储介质 |
CN109739867A (zh) * | 2018-12-29 | 2019-05-10 | 北京航天数据股份有限公司 | 一种工业元数据管理方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116881319A (zh) * | 2023-09-06 | 2023-10-13 | 杭州比智科技有限公司 | 一种元数据采集系统及快速实现元数据采集和存储的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113986873B (zh) | 一种海量物联网数据模型化的处理、存储与共享方法 | |
WO2022083436A1 (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN111786984B (zh) | Pod通信连接方法、装置及电子设备、存储介质 | |
WO2014110940A1 (en) | A method, apparatus and system for storing, reading the directory index | |
CN111723161A (zh) | 一种数据处理方法、装置及设备 | |
CN113704790A (zh) | 一种异常日志信息汇总方法及计算机设备 | |
CN111858730A (zh) | 一种图数据库的数据导入导出装置、方法、设备及介质 | |
CN112231351A (zh) | 一种pb级海量数据的实时查询方法和装置 | |
CN115858488A (zh) | 基于数据治理的平行迁移方法、装置及可读介质 | |
CN111666344A (zh) | 异构数据同步方法及装置 | |
CN111680030A (zh) | 数据融合方法及装置,基于元信息的数据处理方法和装置 | |
CN111782886A (zh) | 元数据管理的方法和装置 | |
CN111274004B (zh) | 进程实例管理方法、装置及计算机存储介质 | |
CN111984745A (zh) | 数据库字段动态扩展方法、装置、设备及存储介质 | |
CN116775712A (zh) | 联表查询方法、装置、电子设备、分布式系统和存储介质 | |
CN115858322A (zh) | 日志数据处理方法、装置和计算机设备 | |
CN113901131B (zh) | 基于索引的链上数据查询方法及装置 | |
CN111666278A (zh) | 数据存储、检索方法、电子设备及存储介质 | |
CN111061719B (zh) | 数据收集方法、装置、设备和存储介质 | |
CN115328950A (zh) | 一种基于二级索引的hbase查询方法、终端设备及存储介质 | |
CN114297236A (zh) | 一种数据血缘分析方法、终端设备及存储介质 | |
CN110321435B (zh) | 一种数据源划分方法、装置、设备和存储介质 | |
CN110740046B (zh) | 分析服务契约的方法和装置 | |
CN111651531A (zh) | 数据导入方法、装置、设备及计算机存储介质 | |
CN113448957A (zh) | 一种数据查询方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |