CN115809249A - 一种基于专有化数据集的数据湖管理方法及系统 - Google Patents

一种基于专有化数据集的数据湖管理方法及系统 Download PDF

Info

Publication number
CN115809249A
CN115809249A CN202310053407.XA CN202310053407A CN115809249A CN 115809249 A CN115809249 A CN 115809249A CN 202310053407 A CN202310053407 A CN 202310053407A CN 115809249 A CN115809249 A CN 115809249A
Authority
CN
China
Prior art keywords
data
data set
proprietary
lake
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310053407.XA
Other languages
English (en)
Other versions
CN115809249B (zh
Inventor
吴诗铭
王乐珩
张金银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Bizhi Technology Co ltd
Original Assignee
Hangzhou Bizhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Bizhi Technology Co ltd filed Critical Hangzhou Bizhi Technology Co ltd
Priority to CN202310053407.XA priority Critical patent/CN115809249B/zh
Publication of CN115809249A publication Critical patent/CN115809249A/zh
Application granted granted Critical
Publication of CN115809249B publication Critical patent/CN115809249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于专有化数据集的数据湖管理方法及系统,所述方法包括以下步骤:S1,专有化数据集判定;专有化数据集是一种描述数据特征的概念,用于将数据切分为具有相似特性的数据集;S2,专有化数据集逻辑和物理设计;专有化数据集以树形目录结构的形式进行表存储;S3,专有化数据集创建和管理;通过入湖作业的方式来生成专有化数据集,通过专有化数据集元数据管理、专有化数据集数据存储和专有化数据集生命周期管理对专有化数据集进行管理;S4,专有化数据集统一使用;专有化数据集通过标准协议的方式输出,将数据映射为表,对表进行分析使用。本发明能够实现数据湖元数据标准化,以便通过元数据达到对数据湖数据的管理和使用。

Description

一种基于专有化数据集的数据湖管理方法及系统
技术领域
本发明涉及互联网计算机及大数据处理技术领域,特别涉及一种基于专有化数据集的数据湖管理方法及系统。
背景技术
大数据时代,数据量越来越多,数据形式日益复杂,而以数据仓库为代表的、现有的数据存储和处理技术无法满足海量、多样的数据处理需求的背景下产生的。“数据湖”是将复杂的事物具象化,偏技术一些,以一个形象的名字,反应了它在大数据存储和大数据处理方面的优势和能力。
数据湖作为一个集中的存储库,可以在其中存储任何形式(结构化和非结构化)、任意规模的数据。在数据湖中,可以不对存储的数据进行结构化,只有在使用数据的时候,再利用数据湖强大的大数据查询、处理、分析等组件对数据进行处理和应用。因此,数据湖具备运行不同类型数据分析的能力。
数据湖被定义为一种可以存储各类格式的原始数据存储库,当前业界都在搭建数据湖来存储全量数据并基于上面分析,但无统一且标准的数据构建方法论,更多是在概念上。
业界只是有了数据湖的概念,对于数据湖的落地方案有很多种,但是并没有标准的数据湖落地方案,也没有标准化的输出。
发明内容
针对现有技术存在的问题,本发明的目的在于实现一种用专有化数据集做为数据湖的基础单元来实现数据湖的方式,搭建数据湖,支持全部数据(结构化、半结构化、非结构化)入湖。
为实现上述目的,本发明提供一种基于数据集的数据湖管理方法,所述方法包括以下步骤:
步骤S1,专有化数据集判定;专有化数据集是一种描述数据特征的概念,用于将数据切分为具有相似特性的数据集;定义同一性质的数据集合为专有化数据集;
步骤S2,专有化数据集逻辑和物理设计;每个专有化数据集中包含一些专有化数据集的基本属性和数据的属性,专有化数据集以树形目录结构的形式进行表存储;
步骤S3,专有化数据集创建和管理;通过入湖作业的方式来生成专有化数据集,通过专有化数据集元数据管理、专有化数据集数据存储和专有化数据集生命周期管理对专有化数据集进行管理;
步骤S4,专有化数据集统一使用;专有化数据集通过标准协议的方式输出,将数据映射为表,对表进行分析使用。
进一步,在步骤S1中,专有化数据集的判定规则如下:
结构化数据:将字段类型、字段名称直接做文本比较,相似度阈值达到100%的数据归为同一规则的专有化数据集;
半结构化数据:将半结构化数据转化为结构化数据,并且将字段类型、字段名称直接做文本比较,相似度阈值大于等于80%的数据归为同一规则的专有化数据集;
非结构化数据:将非结构数据通过对应算法进行相似度的比较,相似度阈值大于等于80%的数据归为同一规则的专有化数据集。
进一步,步骤S2中,专有化数据集以树形目录结构的形式进行表存储,每一行为专有化数据集,每一列为属性;专有化数据集的基本属性包括:专有化数据集名称、创建时间、存储信息、分区信息、样例数据、源文件信息等;数据的属性包含:数据的Schema信息。
进一步,步骤S3中,入湖作业的方式包括物理入湖和逻辑入湖。
进一步,所述物理入湖过程分为三步执行:数据同步、元数据发现、数据入湖;首先进行数据同步,通过DataX同步作业把数据同步到数据湖中;第二步进行元数据发现,按照采样规则抽取一定数量数据作为样例数据,然后通过Spark进行类型推导,获取数据的Schema信息;第三步进行数据入湖,把获取到的数据存储为特定格式,将第一步数据同步的数据按照一定的规则生成特定格式表的表名和存储路径,并将数据保存到对应的特定格式表中;等数据入湖以后,获取第二步元数据发现作业过程中获取的文件大小、样例数据、推导出来的Schema信息以及第三步数据入湖作业产生的特定格式表的表名、存储路径信息保存到MySQL对应的专有化数据集表中。
进一步,所述逻辑入湖过程分为两步执行:元数据发现和数据入湖;首先进行元数据发现,会根据页面配置信息读取,然后执行类型推导过程;第二步进行数据入湖;把获取到的数据存储为特定格式,将第一步数据同步的数据按照一定的规则生成特定格式表的表名和存储路径,并将数据保存到对应的特定格式表中;等数据入湖以后,获取第二步元数据发现作业过程中获取的文件大小、样例数据、推导出来的Schema信息以及第三步数据入湖作业产生的特定格式表的表名、存储路径信息保存到MySQL对应的专有化数据集表中。
进一步,步骤S3中,专有化数据集数据存储分为物理入湖专有化数据集存储和逻辑入湖专有化数据集存储;物理入湖专有化数据集存储存储专有化数据集的元数据,同时将解析后的真实数据存储到数据湖中;逻辑入湖仅存储专有化数据集的元数据信息;在物理入湖中,对于结构化和半结构化数据存储为特定格式,并将表名、表存储路径等信息存储在MySql对应的专有化数据集中;对于非结构化数据,将所有信息存储在存储引擎中,最终将存储路径等信息保存在MySql对应的专有化数据集中。
进一步,通过对专有化数据集进行归档实现专有化数据集数据存储,通过存储时长策略或使用频次策略划分为热存储和冷存储,其中归档流程如下:
S401.开启定时任务,遍历所有的专有化数据集,并判断专有化数据集是否设置了归档规则;若没有设置归档规则,则不对专有化数据集做任何处理;若配置了归档规则,则进入步骤S402操作;
S402.获取归档规则,并判断专有化数据集是否满足归档规则;
判断条件为:
S4021.获取设置的归档策略;判断所属归档策略类型是存储时长策略或使用频次策略;
S4022.若归档策略是存储时长策略,则计算目标存储时长,计算方式是根据用户在页面设置的目标存储时长计算;接着获取已存储时长;已存储时长的计算方式是:storedDuration = (当前时间 - 专有化数据集生成时间) / (24 * 60 * 60 * 1000);
比较已存储时长是否大于目标存储时长;若已存储时长大于目标存储时长,那么就更改为冷存储;若已存储时长小于等于目标存储时长,则不处理;
S4023.若判断归档策略是使用频次策略,首先计算已存储时长和计算周期,已存储时长的计算方式是:storedDuration = (当前时间 - 专有化数据集生成时间) / (24 *60 * 60 * 1000);计算好已存储时长和计算周期以后,获取数据集的使用次数;若已存储时长小于计算周期或者已存储时长大于计算周期,但是数据集使用次数达到了目标使用频次,则不对专有化数据集做任何处理;若不满足归档操作:进入步骤S403操作;
S403.对不满足归档规则的专有化数据集进行判断,判断其数据格式是否属于特定类型,
若数据格式是特定类型,执行以下子步骤:
T1.更改存储格式为适合存储、空间占有低的格式;
T2.更改存储介质为机械硬盘;
T3.更改专有化数据集归档规则为冷存储;
若数据格式不是特定类型,执行以下子步骤:
P1.更改存储介质为机械硬盘;
P2.更改专有化数据集归档规则为冷存储。
进一步,所述特定类型为Hudi或Iceberg。
另一方面,本发明提供一种基于数据集的数据湖管理系统,所述系统用于实现根据本发明所述的基于数据集的数据湖管理方法。
本发明的技术优势在于使用专有化数据集作为数据湖的基础单元来搭建数据湖,通过相似度计算实现对专有化数据集的判定,标准化数据湖元数据,以便通过元数据达到对数据湖数据的管理和使用;此外,本发明设置了优化的存储策略,通过对热存储和冷存储的动态化灵活调整,实现动态归档和存储,合理安排存储空间。
附图说明
图1示出了根据本发明实施例中基于专有化数据集的数据湖管理方法及系统的专有化数据集管理流程示意图;
图2示出了本发明实施例中专有化数据集的逻辑结构图;
图3示出了本发明实施例中专有化数据集的物理结构图;
图4示出了本发明实施例中物理入湖流程图;
图5示出了本发明实施例中逻辑入湖流程图;
图6示出了本发明实施例中归档的配置规则示意图;
图7示出了本发明实施例中归档使用流程图。
实施方式
下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合图1-图6对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明实施例提供一种基于专有化数据集的数据湖管理方法及系统,其基本构思在于将数据湖划分为若干个专有化数据集,以专有化数据集为粒度进行管理和使用。
如图1所示,以专有化数据集为数据湖的基础单元来实现数据湖的基本流程为:
步骤S1,专有化数据集判定;专有化数据集是一种描述数据特征的概念,用于将数据切分为具有相似特性的数据集;定义同一性质的数据集合为专有化数据集;
步骤S2,专有化数据集逻辑和物理设计;每个专有化数据集中包含一些专有化数据集的基本属性和数据的属性,专有化数据集以树形目录结构的形式进行表存储;
步骤S3,专有化数据集创建和管理;通过入湖作业的方式来生成专有化数据集,通过专有化数据集元数据管理、专有化数据集数据存储和专有化数据集生命周期管理对专有化数据集进行管理;
步骤S4,专有化数据集统一使用;专有化数据集通过标准协议的方式输出,可以将数据映射为表,对表进行分析使用。
具体的,在步骤S1中,定义同一性质的数据集合为专有化数据集。不同数据结构同一性质专有化数据集的规则如下:
结构化数据:将字段类型、字段名称直接做文本比较,相似度阈值达到100%的专有化数据集归为同一规则的专有化数据集;
半结构化数据:将半结构化数据转化为结构化数据,并且将字段类型、字段名称直接做文本比较,相似度阈值达到80%的专有化数据集归为同一规则的专有化数据集;
非结构化数据:将非结构数据通过对应算法进行相似度的比较,文本类型使用Simhash算法对词粒度属性进行比较,图片类型使用 SSIM、Mutual Information算法对像素粒度属性进行比较,最终会得到相似度的值,相似度阈值达到80%的专有化数据集归为同一规则的专有化数据集。
具体的,如图2所示,在步骤S2中,数据湖被划分为若干个专有化数据集,每个专有化数据集中包含一些专有化数据集的基本属性和数据的属性。专有化数据集的基本属性包括:专有化数据集名称、创建时间、存储信息、分区信息、样例数据、源文件信息等;数据的属性包含:数据的Schema信息。如图3所示,专有化数据集以树形目录结构的形式进行表存储,每一行为专有化数据集,每一列为属性;在新建好的专有化数据集中存在如下属性:专有化数据集 目录ID、专有化数据集 ID、专有化数据集名称、文件类型、文件大小、存储方式、创建时间等。
具体的,在步骤S3中,通过入湖作业的方式来生成专有化数据集,通过专有化数据集元数据管理、专有化数据集数据存储和专有化数据集生命周期管理对专有化数据集进行管理。一个专有化数据集对应一个入湖作业,支持结构化数据、半结构化数据、非结构化数据入湖;入湖的方式分为物理入湖和逻辑入湖。如图4所示,物理入湖过程分为三步执行:数据同步、元数据发现、数据入湖。首先进行数据同步,通过DataX(离线数据同步工具)同步作业把数据同步到数据湖中;第二步进行元数据发现,以半结构化数据(CSV文件)为例,按照采样规则抽取一定数量数据作为样例数据,然后通过Spark(一个基于内存计算的开源的集群计算系统)进行类型推导,获取数据的Schema信息。第三步进行数据入湖,把获取到的数据存储为便于分析的格式,以Hudi(一种存储格式)为例,将第一步数据同步的数据按照一定的规则生成Hudi表的表名和存储路径,并将数据保存到对应的Hudi表中。等数据入湖以后,获取第二步元数据发现作业过程中获取的文件大小、样例数据、推导出来的Schema信息以及第三步数据入湖作业产生的Hudi表的表名、存储路径等信息保存到MySQL对应的专有化数据集表里面生成专有化数据集。如图5所示,逻辑入湖过程分为两步执行:元数据发现和数据入湖。以半结构化数据(CSV文件)为例,首先进行元数据发现,会根据页面配置信息读取(通过对应的客户端连接工具),然后执行和物理入湖同样的类型推导过程;第二步进行数据入湖,也等同物理入湖的数据入湖过程;最后,在完成入湖作业之后便能生成专有化数据集。
专有化数据集的元数据包含专有化数据集的基本属性和数据的属性。专有化数据集元数据在入湖作业的不同步骤中可以获取。结构化和半结构化数据主要依靠Spark类型推导能力获取。数据湖通过管理专有化数据集的元数据,实现对专有化数据集的统一管理。
专有化数据集存储分为物理入湖专有化数据集存储和逻辑入湖专有化数据集存储。物理入湖专有化数据集存储不仅会存储专有化数据集的元数据,还会把解析后的真实数据存储到数据湖中;而逻辑入湖只会存储专有化数据集的元数据信息。在物理入湖中,对于结构化和半结构化数据(CSV文件类型)存储为便于分析的格式(例如Hudi格式),并将表名、表存储路径等信息存储在MySql对应的专有化数据集中;对于非结构化数据,会将所有信息存储在存储引擎中(例如:阿里云对象存储OSS或AWS对象存储S3),最终将存储路径等信息保存在MySql对应的专有化数据集中。逻辑入湖不会对真实数据进行存储,而是将在元数据发现过程中获取到的数据保存到MySql对应的专有化数据集表中。
如图6所示,对已有的专有化数据集可以进行归档,目的是对专有化数据集进行存储管理,如果专有化数据集长时间不使用,一直存着占空间,会导致存储空间不足,就需要对此类专有化数据集进行处理。归档策略按存储时长和使用频次可以分为热存储和冷存储,两者的区别是存储介质和存储格式不同,对于热存储,采用SSD固态硬盘存储介质和便于分析技术、空间占有高的存储格式(例如:Hudi、Iceberg);对于冷存储,采用机械硬盘存储介质和适合存储、空间占有低的存储格式(例如:zip、tar、rar)。针对存储时间较短或频繁访问的专有化数据集应用热存储规则,针对存储时间长或不频繁访问的专有化数据集应用冷存储规则。当专有化数据集不符合热存储规则时,系统自动将该专有化数据集归档为冷存储。同时,编辑热存储规则时,冷存储规则随之变化;编辑冷存储规则时,热存储随之变化。
具体举例说明如下:
1、存储时长策略:可以设置已某一个时长为限制。大于该时长的使用冷存储方式存储,小于该时长的使用热存储方式存储(例:设置时长为180天,冷存储:大于180天;热存储:小于180天)
2、使用频次策略:可以设置(年、月、日)作为计算周期,在计算周期内使用超过一定次数的使用热存储的方式存储。反之使用冷存储的方式存储。(例:设置计算周期为180天,次数为15次。冷存储:180天内小于15次的是冷存储;热存储:180天内大于15次的是热存储)
如图7所示,具体的归档流程如下:
S401.开启定时任务,遍历所有的专有化数据集,并判断专有化数据集是否设置了归档规则;若没有设置归档规则,则不对专有化数据集做任何处理;若配置了归档规则,则进入步骤S402操作。
S402.获取归档规则,并判断专有化数据集是否满足归档规则(默认为热存储);
判断条件:
S4021.获取设置的归档策略;判断所属归档策略类型是存储时长策略或使用频次策略;
S4022.若归档策略是存储时长策略,那么计算目标存储时长,计算方式是根据用户在页面设置的目标存储时长计算,由于存储时长的单位用户可以选择年月日,计算时需要换算成天数。把年或者月换算成天数时,年按照365天进行计算,月按照30天计算。
计算好目标存储时长以后,接着获取已存储时长。已存储时长的计算方式是:storedDuration = (当前时间 - 专有化数据集生成时间) / (24 * 60 * 60 * 1000);
比较已存储时长是否大于目标存储时长。若已存储时长大于目标存储时长,那么就更改为冷存储。如果已存储时长小于等于目标存储时长,则不处理。
S4023.若判断归档策略是使用频次策略,首先计算已存储时长和计算周期,计算方式和计算目标存储时长一样,计算时需要换算成天数。把年或者月换算成天数时,年按照365天进行计算,月按照30天计算。已存储时长的计算方式是:storedDuration = (当前时间 - 专有化数据集生成时间) / (24 * 60 * 60 * 1000);
计算好已存储时长和计算周期以后,获取数据集的使用次数,这个使用次数记录在数据库表中,每使用一次就会+1,直接从表中获取即可。
如果已存储时长小于计算周期或者已存储时长大于计算周期,但是数据集使用次数达到了目标使用频次,说明还满足当前归档规则,则不对专有化数据集做任何处理;若如果不满足归档操作:进入步骤S403操作。
S403.对不满足归档规则的专有化数据集进行判断,因为不同数据格式的存储方式不一样。判断其数据格式是否属于特定类型,所述特定类型为便于分析技术、空间占有高的存储格式,包括Hudi和Iceberg,以Hudi为例进行说明:
若数据格式是Hudi,执行以下子步骤:
T1.更改存储格式为适合存储、空间占有低的格式;
T2.更改存储介质为机械硬盘;
T3.更改专有化数据集归档规则为冷存储;
若数据格式不是Hudi,执行以下子步骤:
P1.更改存储介质为机械硬盘;
P2.更改专有化数据集归档规则为冷存储;
具体的,在步骤S5中,专有化数据集通过标准协议的方式输出,可以将结构化数据,半结构化数据、非结构化数据映射为表,支持sql查询、统一api接口等方式对表进行分析使用;可以通过专有化数据集元数据获取专有化数据集文件地址,直接读取专有化数据集文件拿来使用;支持通过POSIX等协议,将非结构化数据与机器学习框架直接打通。并运行不同类型的分析,例如:从可视化到大数据处理、实时分析和机器学习等,以指导做出更好的决策。
此外,本发明实施例还提供一种基于专有化数据集的数据湖管理系统,所述系统用于实现根据本发明所述的基于专有化数据集的数据湖管理方法。
本发明使用专有化数据集作为数据湖的基础单元来搭建数据湖,通过相似度计算实现对专有化数据集的判定,标准化数据湖元数据,以便通过元数据达到对数据湖数据的管理和使用;此外,本发明设置了优化的存储策略,通过对热存储和冷存储的动态化灵活调整,实现动态归档和存储,合理安排存储空间。本发明的重点在于1、标准化数据湖。2、基于专有化数据集的数据生命周期管理。3、基于专有化数据集的管理和使用。4、优化的归档和冷热存储策略。
本发明流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为表示包括一个或多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,可以实现在任何计算机刻度介质中,以供指令执行系统、装置或设备,所述计算机可读介质可以是任何包含存储、通信、传播或传输程序以供执行系统、装置或设备使用。包括只读存储器、磁盘或光盘等。
在本说明书的描述中,参考术语“实施例”、“示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外,本领域的技术人员可以在不产生矛盾的情况下,将本说明书中描述的不同实施例或示例以及其中的特征进行结合或组合。
上述内容虽然已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型等更新操作。

Claims (10)

1.一种基于专有化数据集的数据湖管理方法,其特征在于,所述方法包括以下步骤:
步骤S1,专有化数据集判定;专有化数据集是一种描述数据特征的概念,用于将数据切分为具有相似特性的数据集;定义同一性质的数据集合为专有化数据集;
步骤S2,专有化数据集逻辑和物理设计;每个专有化数据集中包含一些专有化数据集的基本属性和数据的属性,专有化数据集以树形目录结构的形式进行表存储;
步骤S3,专有化数据集创建和管理;通过入湖作业的方式来生成专有化数据集,通过专有化数据集元数据管理、专有化数据集数据存储和专有化数据集生命周期管理对专有化数据集进行管理;
步骤S4,专有化数据集统一使用;专有化数据集通过标准协议的方式输出,将数据映射为表,对表进行分析使用。
2.根据权利要求1所述的基于专有化数据集的数据湖管理方法,其特征在于,在步骤S1中,专有化数据集的判定规则如下:
结构化数据:将字段类型、字段名称直接做文本比较,相似度阈值达到100%的数据归为同一规则的专有化数据集;
半结构化数据:将半结构化数据转化为结构化数据,并且将字段类型、字段名称直接做文本比较,相似度阈值大于等于80%的数据归为同一规则的专有化数据集;
非结构化数据:将非结构数据通过对应算法进行相似度的比较,相似度阈值大于等于80%的数据归为同一规则的专有化数据集。
3.根据权利要求1所述的基于专有化数据集的数据湖管理方法,其特征在于,步骤S2中,专有化数据集以树形目录结构的形式进行表存储,每一行为专有化数据集,每一列为属性;专有化数据集的基本属性包括:专有化数据集名称、创建时间、存储信息、分区信息、样例数据、源文件信息等;数据的属性包含:数据的Schema信息。
4.根据权利要求1所述的基于专有化数据集的数据湖管理方法,其特征在于,步骤S3中,入湖作业的方式包括物理入湖和逻辑入湖。
5.根据权利要求4所述的基于专有化数据集的数据湖管理方法,其特征在于,所述物理入湖过程分为三步执行:数据同步、元数据发现、数据入湖;首先进行数据同步,通过DataX同步作业把数据同步到数据湖中;第二步进行元数据发现,按照采样规则抽取一定数量数据作为样例数据,然后通过Spark进行类型推导,获取数据的Schema信息;第三步进行数据入湖,把获取到的数据存储为特定格式,将第一步数据同步的数据按照一定的规则生成特定格式表的表名和存储路径,并将数据保存到对应的特定格式表中;等数据入湖以后,获取第二步元数据发现作业过程中获取的文件大小、样例数据、推导出来的Schema信息以及第三步数据入湖作业产生的特定格式表的表名、存储路径信息保存到MySQL对应的专有化数据集表中。
6.根据权利要求4所述的基于专有化数据集的数据湖管理方法,其特征在于,所述逻辑入湖过程分为两步执行:元数据发现和数据入湖;首先进行元数据发现,会根据页面配置信息读取,然后执行类型推导过程;第二步进行数据入湖;把获取到的数据存储为特定格式,将第一步数据同步的数据按照一定的规则生成特定格式表的表名和存储路径,并将数据保存到对应的特定格式表中;等数据入湖以后,获取第二步元数据发现作业过程中获取的文件大小、样例数据、推导出来的Schema信息以及第三步数据入湖作业产生的特定格式表的表名、存储路径信息保存到MySQL对应的专有化数据集表中。
7.根据权利要求5所述的基于专有化数据集的数据湖管理方法,其特征在于,步骤S3中,专有化数据集数据存储分为物理入湖专有化数据集存储和逻辑入湖专有化数据集存储;物理入湖专有化数据集存储存储专有化数据集的元数据,同时将解析后的真实数据存储到数据湖中;逻辑入湖仅存储专有化数据集的元数据信息;在物理入湖中,对于结构化和半结构化数据存储为特定格式,并将表名、表存储路径等信息存储在MySql对应的专有化数据集中;对于非结构化数据,将所有信息存储在存储引擎中,最终将存储路径等信息保存在MySql对应的专有化数据集中。
8.根据权利要求7所述的基于专有化数据集的数据湖管理方法,其特征在于,通过对专有化数据集进行归档实现专有化数据集数据存储,通过存储时长策略或使用频次策略划分为热存储和冷存储,其中归档流程如下:
S401.开启定时任务,遍历所有的专有化数据集,并判断专有化数据集是否设置了归档规则;若没有设置归档规则,则不对专有化数据集做任何处理;若配置了归档规则,则进入步骤S402操作;
S402.获取归档规则,并判断专有化数据集是否满足归档规则;
判断条件为:
S4021.获取设置的归档策略;判断所属归档策略类型是存储时长策略或使用频次策略;
S4022.若归档策略是存储时长策略,则计算目标存储时长,计算方式是根据用户在页面设置的目标存储时长计算;接着获取已存储时长;已存储时长的计算方式是:storedDuration = (当前时间 - 专有化数据集生成时间) / (24 * 60 * 60 * 1000);
比较已存储时长是否大于目标存储时长;若已存储时长大于目标存储时长,那么就更改为冷存储;若已存储时长小于等于目标存储时长,则不处理;
S4023.若判断归档策略是使用频次策略,首先计算已存储时长和计算周期,已存储时长的计算方式是:storedDuration = (当前时间 - 专有化数据集生成时间) / (24 * 60* 60 * 1000);计算好已存储时长和计算周期以后,获取数据集的使用次数;若已存储时长小于计算周期或者已存储时长大于计算周期,但是数据集使用次数达到了目标使用频次,则不对专有化数据集做任何处理;若不满足归档操作:进入步骤S403操作;
S403.对不满足归档规则的专有化数据集进行判断,判断其数据格式是否属于特定类型,
若数据格式是特定类型,执行以下子步骤:
T1.更改存储格式为适合存储、空间占有低的格式;
T2.更改存储介质为机械硬盘;
T3.更改专有化数据集归档规则为冷存储;
若数据格式不是特定类型,执行以下子步骤:
P1.更改存储介质为机械硬盘;
P2.更改专有化数据集归档规则为冷存储。
9.根据权利要求8所述的基于专有化数据集的数据湖管理方法,其特征在于,所述特定类型为Hudi或Iceberg。
10.一种基于数据集的数据湖管理系统,其特征在于,所述系统用于实现根据权利要求1-9任一项所述的基于数据集的数据湖管理方法。
CN202310053407.XA 2023-02-03 2023-02-03 一种基于专有化数据集的数据湖管理方法及系统 Active CN115809249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310053407.XA CN115809249B (zh) 2023-02-03 2023-02-03 一种基于专有化数据集的数据湖管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310053407.XA CN115809249B (zh) 2023-02-03 2023-02-03 一种基于专有化数据集的数据湖管理方法及系统

Publications (2)

Publication Number Publication Date
CN115809249A true CN115809249A (zh) 2023-03-17
CN115809249B CN115809249B (zh) 2023-04-25

Family

ID=85487749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310053407.XA Active CN115809249B (zh) 2023-02-03 2023-02-03 一种基于专有化数据集的数据湖管理方法及系统

Country Status (1)

Country Link
CN (1) CN115809249B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180373781A1 (en) * 2017-06-21 2018-12-27 Yogesh PALRECHA Data handling methods and system for data lakes
CN110941612A (zh) * 2019-11-19 2020-03-31 上海交通大学 基于关联数据的自治数据湖构建系统及方法
CN111723161A (zh) * 2019-03-20 2020-09-29 阿里巴巴集团控股有限公司 一种数据处理方法、装置及设备
CN112417018A (zh) * 2020-11-23 2021-02-26 中国工商银行股份有限公司 一种数据共享方法及装置
CN112597218A (zh) * 2020-12-04 2021-04-02 光大科技有限公司 一种数据处理方法、装置以及数据湖架构
CN113157742A (zh) * 2021-04-27 2021-07-23 华录智达科技股份有限公司 一种智能公交的数据湖管理方法及系统
US11216413B1 (en) * 2017-07-19 2022-01-04 EMC IP Holding Company LLC Processing platform configured for data set management utilizing metadata-based data set operational signatures
US20220222268A1 (en) * 2016-03-29 2022-07-14 Emc Corporation Recommendation system for data assets in federation business data lake environments
CN115168512A (zh) * 2022-09-01 2022-10-11 山东慧创信息科技有限公司 多维数据元融合实现数据收集和共享的时空数据湖方法
CN115203750A (zh) * 2022-09-19 2022-10-18 杭州比智科技有限公司 基于Hive插件对Hive数据权限管控及安全审计方法及系统
CN115221191A (zh) * 2022-07-27 2022-10-21 北京火山引擎科技有限公司 一种基于数据湖的虚拟列构建方法以及数据查询方法
CN115422273A (zh) * 2022-08-31 2022-12-02 中国工商银行股份有限公司 数据湖元数据处理方法、装置、电子设备、介质及产品
CN115422155A (zh) * 2022-08-30 2022-12-02 浙江工业大学 一种数据湖元数据模型的建模方法
CN115481297A (zh) * 2022-09-29 2022-12-16 中电信数智科技有限公司 一种数据湖的数据管理方法
CN115543933A (zh) * 2022-10-09 2022-12-30 联通(广东)产业互联网有限公司 一种基于数据湖的云边协同医疗数据管理方法及平台

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220222268A1 (en) * 2016-03-29 2022-07-14 Emc Corporation Recommendation system for data assets in federation business data lake environments
US20180373781A1 (en) * 2017-06-21 2018-12-27 Yogesh PALRECHA Data handling methods and system for data lakes
US11216413B1 (en) * 2017-07-19 2022-01-04 EMC IP Holding Company LLC Processing platform configured for data set management utilizing metadata-based data set operational signatures
CN111723161A (zh) * 2019-03-20 2020-09-29 阿里巴巴集团控股有限公司 一种数据处理方法、装置及设备
CN110941612A (zh) * 2019-11-19 2020-03-31 上海交通大学 基于关联数据的自治数据湖构建系统及方法
CN112417018A (zh) * 2020-11-23 2021-02-26 中国工商银行股份有限公司 一种数据共享方法及装置
CN112597218A (zh) * 2020-12-04 2021-04-02 光大科技有限公司 一种数据处理方法、装置以及数据湖架构
CN113157742A (zh) * 2021-04-27 2021-07-23 华录智达科技股份有限公司 一种智能公交的数据湖管理方法及系统
CN115221191A (zh) * 2022-07-27 2022-10-21 北京火山引擎科技有限公司 一种基于数据湖的虚拟列构建方法以及数据查询方法
CN115422155A (zh) * 2022-08-30 2022-12-02 浙江工业大学 一种数据湖元数据模型的建模方法
CN115422273A (zh) * 2022-08-31 2022-12-02 中国工商银行股份有限公司 数据湖元数据处理方法、装置、电子设备、介质及产品
CN115168512A (zh) * 2022-09-01 2022-10-11 山东慧创信息科技有限公司 多维数据元融合实现数据收集和共享的时空数据湖方法
CN115203750A (zh) * 2022-09-19 2022-10-18 杭州比智科技有限公司 基于Hive插件对Hive数据权限管控及安全审计方法及系统
CN115481297A (zh) * 2022-09-29 2022-12-16 中电信数智科技有限公司 一种数据湖的数据管理方法
CN115543933A (zh) * 2022-10-09 2022-12-30 联通(广东)产业互联网有限公司 一种基于数据湖的云边协同医疗数据管理方法及平台

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
侯宁: ""油田区域数据湖的数据集成技术研究"" *
刘扬;: "关于重塑数据湖的探讨" *
李晓松;彭欣然;肖振华;: "美国试图利用语义数据湖平台优化联合能力集成与开发系统" *
谷洪彬;杨希;魏孔鹏;: "基于数据湖的高校大数据管理体系和处理机制研究" *

Also Published As

Publication number Publication date
CN115809249B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
US10169433B2 (en) Systems and methods for an SQL-driven distributed operating system
US8799291B2 (en) Forensic index method and apparatus by distributed processing
US10268713B2 (en) Federated social media analysis system and method thereof
CN113297269A (zh) 数据查询方法及装置
CN110858210A (zh) 数据查询方法及装置
AU2020101071A4 (en) A Parallel Association Mining Algorithm for Analyzing Passenger Travel Characteristics
US10872103B2 (en) Relevance optimized representative content associated with a data storage system
EP3343395B1 (en) Data storage method and apparatus for mobile terminal
CN107577809A (zh) 离线小文件处理方法及装置
CN115809249A (zh) 一种基于专有化数据集的数据湖管理方法及系统
TWI677795B (zh) 電腦化方法及使用元合併及/或元分組的索引的電腦化系統
CN115658680A (zh) 数据存储方法、数据查询方法和相关装置
CN103761290A (zh) 基于内容感知的数据管理方法和系统
Colosi et al. Time series data management optimized for smart city policy decision
CN114297196A (zh) 元数据存储方法、装置、电子设备及存储介质
CN111782886A (zh) 元数据管理的方法和装置
JP2004192657A (ja) 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体
CN112395291A (zh) 一种根据数据资产动态生成宽表的方法及系统
CN111680072A (zh) 基于社交信息数据的划分系统及方法
CN111797284A (zh) 图数据库的构建方法及装置、电子设备、存储介质
Wangthammang et al. Distributed storage design for encrypted personal health record data
Sureshrao et al. MapReduce-Based warehouse systems: a survey
Singh NoSQL: A new horizon in big data
CN116266144A (zh) 建筑数据管理方法及装置
JP2001067369A (ja) 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant