CN115687333B - 一种v2x大数据生命周期管理方法及装置 - Google Patents

一种v2x大数据生命周期管理方法及装置 Download PDF

Info

Publication number
CN115687333B
CN115687333B CN202211533484.7A CN202211533484A CN115687333B CN 115687333 B CN115687333 B CN 115687333B CN 202211533484 A CN202211533484 A CN 202211533484A CN 115687333 B CN115687333 B CN 115687333B
Authority
CN
China
Prior art keywords
data
life cycle
time
metadata
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211533484.7A
Other languages
English (en)
Other versions
CN115687333A (zh
Inventor
褚文博
王年明
陈小强
张锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Western Science City Intelligent Connected Vehicle Innovation Center Chongqing Co ltd
Original Assignee
Western Science City Intelligent Connected Vehicle Innovation Center Chongqing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Science City Intelligent Connected Vehicle Innovation Center Chongqing Co ltd filed Critical Western Science City Intelligent Connected Vehicle Innovation Center Chongqing Co ltd
Publication of CN115687333A publication Critical patent/CN115687333A/zh
Application granted granted Critical
Publication of CN115687333B publication Critical patent/CN115687333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种v2x大数据生命周期管理方法及装置,本发明涉及大数据技术领域,其中包括:获取针对v2x数仓中各个数据表预先配置的生命周期规则,所述各个数据表包括不同存储类型的数据表;根据生命周期规则中的周期时间单位,确定所述生命周期规则的执行时间;根据执行时间,扫描相应数据表的元数据,并根据元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间;若根据所述生命周期到期时间确定所述相应数据表需要被清理,则对所述相应数据表的数据文件和元数据进行备份调用所述v2x数仓的数据清理接口,将所述相应数据表及其对应的元数据删除。通过应用本申请的技术方案,能够对V2X数仓中不同存储类型的数据统一进行生命周期管理。

Description

一种v2x大数据生命周期管理方法及装置
技术领域
本发明涉及大数据技术领域,具体而言,涉及一种v2x大数据生命周期管理方法及装置。
背景技术
随着智能网联汽车的快速发展,智能网联汽车的V2X消息越来越多,这些消息数据最终会被收集到中台的数仓系统中,随着设备的不断增多,数仓中的收集数据越来越多,数据疯狂爆炸式增长,占用了很多存储资源,给后端存储系统带来很大压力,因此需要对数仓中的存储数据进行生命周期管理。
目前,在对数据进行生命周期管理时,通常在hive表的建表语句中指定生命周期时间。然而,在V2X数仓中不仅存在hive表,还存在其他存储类型的数据,如hbase表,时序数据表等,而现有的这种方式仅适用于hive表,无法对其他存储类型的数据进行生命周期管理。
发明内容
本发明提供一种v2x大数据生命周期管理方法及装置,主要在于能够对V2X数仓中不同存储类型的数据统一进行生命周期管理。
根据本发明实施例的第一方面,提供一种v2x大数据生命周期管理方法,应用于v2x大数据生命周期管理装置,包括:
获取针对v2x数仓中各个数据表预先配置的生命周期规则,所述各个数据表包括不同存储类型的数据表;
根据所述生命周期规则中的周期时间单位,确定所述生命周期规则的执行时间;
根据所述执行时间,扫描相应数据表的元数据,并根据所述元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间;
若根据所述生命周期到期时间确定所述相应数据表需要被清理,则响应于用户触发的数据备份指令,对所述相应数据表的数据文件和元数据进行备份;
调用所述v2x数仓的数据清理接口,将所述相应数据表及其对应的元数据删除;
响应于用户触发的数据恢复指令,基于备份的数据文件和元数据进行数据恢复。
根据本发明实施例的第二方面,提供一种v2x大数据生命周期管理装置,包括:
获取单元,用于获取针对v2x数仓中各个数据表预先配置的生命周期规则,所述各个数据表包括不同存储类型的数据表;
确定单元,用于根据所述生命周期规则中的周期时间单位,确定所述生命周期规则的执行时间;
所述确定单元,还用于根据所述执行时间,扫描相应数据表的元数据,并根据所述元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间;
备份单元,用于若根据所述生命周期到期时间确定所述相应数据表需要被清理,则响应于用户触发的数据备份指令,对所述相应数据表的数据文件和元数据进行备份;
删除单元,用于调用所述v2x数仓的数据清理接口,将所述相应数据表及其对应的元数据删除;
恢复单元,用于响应于用户触发的数据恢复指令,基于备份的数据文件和元数据进行数据恢复。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取针对v2x数仓中各个数据表预先配置的生命周期规则,所述各个数据表包括不同存储类型的数据表;
根据所述生命周期规则中的周期时间单位,确定所述生命周期规则的执行时间;
根据所述执行时间,扫描相应数据表的元数据,并根据所述元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间;
若根据所述生命周期到期时间确定所述相应数据表需要被清理,则响应于用户触发的数据备份指令,对所述相应数据表的数据文件和元数据进行备份;
调用所述v2x数仓的数据清理接口,将所述相应数据表及其对应的元数据删除;
响应于用户触发的数据恢复指令,基于备份的数据文件和元数据进行数据恢复。
根据本发明实施例的第四方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取针对v2x数仓中各个数据表预先配置的生命周期规则,所述各个数据表包括不同存储类型的数据表;
根据所述生命周期规则中的周期时间单位,确定所述生命周期规则的执行时间;
根据所述执行时间,扫描相应数据表的元数据,并根据所述元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间;
若根据所述生命周期到期时间确定所述相应数据表需要被清理,则响应于用户触发的数据备份指令,对所述相应数据表的数据文件和元数据进行备份;
调用所述v2x数仓的数据清理接口,将所述相应数据表及其对应的元数据删除;
响应于用户触发的数据恢复指令,基于备份的数据文件和元数据进行数据恢复。
本发明实施例的创新点包括:
1、通过v2x大数据生命周期管理装置能够对v2x数仓中不同存储类型的数据统一进行生命周期管理是本发明实施例的创新点之一。
2、能够将删除数据备份,且支持数据复原是本发明实施例的创新点之一
3、可以对v2x数仓中的数据表进行个性化配置,支持精确到小时级别的生命周期管理是本发明实施例的创新点之一。
本发明提供的一种v2x大数据生命周期管理方法及装置,与现有技术在hive表的建表语句中指定生命周期时间的方式相比,本发明能够获取针对v2x数仓中各个数据表预先配置的生命周期规则,所述各个数据表包括不同存储类型的数据表,并根据所述生命周期规则中的周期时间单位,确定所述生命周期规则的执行时间,与此同时,根据所述执行时间,扫描相应数据表的元数据,并根据所述元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间,若根据所述生命周期到期时间确定所述相应数据表需要被清理,则对所述相应数据表的数据文件和元数据进行备份,并调用所述v2x数仓的数据清理接口,将所述相应数据表及其对应的元数据删除。由此本发明能够利用v2x大数据生命周期管理装置对v2x数仓中不同存储类型的数据表统一进行生命周期管理,与此同时,本发明对于落入v2x数仓中的数据表能够个性化地配置其生命周期规则,可精确到小时级别进行数据生命周期管理,此外,本发明还可以对清理数据进行备份,在备份期间支持数据的复原操作。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提供的一种v2x大数据生命周期管理方法流程示意图;
图2示出了本发明实施例提供的v2x大数据生命周期管理装置的整体架构示意图;
图3示出了本发明实施例提供的一种v2x大数据生命周期管理装置的结构示意图;
图4示出了本发明实施例提供的另一种v2x大数据生命周期管理装置的结构示意图;
图5示出了本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
由于在V2X数仓中不仅存在hive表,还存在其他存储类型的数据,如hbase表,时序数据表等,而现有的生命周期管理方式仅适用于hive表,无法对其他存储类型的数据进行生命周期管理。
为了解决上述问题,本发明实施例提供了一种v2x大数据生命周期管理方法,应用于v2x大数据生命周期管理装置,如图1所示,该方法包括:
步骤101、获取针对v2x数仓中各个数据表预先配置的生命周期规则,所述各个数据表包括不同存储类型的数据表。
其中,生命周期规则中包含数据表的生命周期开始时间,生命周期时长以及是否需要备份等,该生命周期时长既可以以天为单位,也可以以小时为单位,此外,不同存储类型的数据表包括Hive表、Hbase表和时序数据库中的时序数据表,此外,本发明实施例中的数据表既可以为整张数据表,也可以为某分区下的分区表。
本发明实施例主要适用于集中管理v2x数仓中不同存储类型数据表生命周期的场景。本发明实施例的执行主体为v2x大数据生命周期管理装置。
本发明实施例中的v2x大数据生命周期管理装置以独立服务的形式存在,只要通过该服务配置了相关生命周期规则的数据,会直接进入生命周期的集中管理。需要说明的是,如果不需要进行自动化生命周期管理可以不配置生命周期规则,或者将配置的生命周期规则设置为永久保存。
v2x大数据生命周期管理装置的整体架构如图2所示,由于v2x大数据生命周期管理装置管理的是v2x数仓中的Hive表、Hbase表和时序数据库,因此需要跟v2x数仓的元数据管理接口、生命周期规则建表接口和数据清理接口等进行交互,以实现生命周期规则配置,规则扫描,到期数据备份或删除,备份区数据自动清理,备份期间备份数据恢复,以及生命周期管理权限控制等模块的功能。
具体地,v2x大数据生命周期管理装置中存储有大量数据表的生命周期规则,这些数据表包括v2x数仓中不同存储类型的数据表,如Hive表、Hbase表和时序数据库中的时序数据表。为了能够对v2x数仓中不同存储类型的数据表统一进行生命周期管理,需要获取该装置中预先配置好的生命周期规则,并执行。
步骤102、根据所述生命周期规则中的周期时间单位,确定所述生命周期规则的执行时间。
对于本发明实例,在获取预先配置的生命周期规则之后,需要确定生命周期规则的执行时间,以便根据该执行时间,定时执行该生命周期规则。在确定执行时间时,步骤102具体包括:若所述生命周期规则中的周期时间单位为小时,则每小时执行所述生命周期规则;若所述生命周期规则中的周期时间单位为天,则每天执行所述生命周期规则。
具体地,在获取生命周期规则后,每天跑批计算按天为单位配置的生命周期规则,每小时跑批计算按小时为单位配置的生命周期规则,以便得到需要删除的数据表或者分区。
步骤103、根据所述执行时间,扫描相应数据表的元数据,并根据所述元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间。
其中,元数据包括数据表的表名字、列信息、是否是分区表、创建时间、数据更新时间、存储位置和数据结构等。
对于本发明实施例,当配置的生命周期规则到达执行时间时,调用数仓元数据管理接口,扫描相应数据表的元数据,并根据该元数据和生命周期规则,确定相应数据表的生命周期开始时间,之后根据该生命周期开始时间和生命周期规则中配置的生命周期时长,确定相应数据表的生命周期到期时间。
由于数仓中存在大量数据表,本发明实施例在进行生命周期管理时,为了提高生命周期管理效率,并没有逐一扫描数据表,而是扫描数据表对应的元数据。
步骤104、若根据所述生命周期到期时间确定所述相应数据表需要被清理,则响应于用户触发的数据备份指令,对所述相应数据表的数据文件和元数据进行备份。
对于本发明实施例,在进行生命周期管理时,如果当前时间大于或者等于确定的生命周期到期时间,则说明相应数据表需要被清理,在清理之前,如果接收到用户触发的数据备份指令,则可以根据数据表的生命周期规则中配置的备份规则,则对该数据表的数据文件和元数据进行备份,具体可以将数据文件移动到数据备份区进行备份,之后对元数据进行备份。例如,备份规则中配置的备份时长为3天,在3天之内可以根据备份的数据文件和元数据,进行数据恢复,具体恢复时先恢复数据,再恢复元数据,如果超过3天则将备份的数据文件和元数据清除,此时不能在进行数据恢复操作,即数据永久性删除。
需要说明的是,本发明实施例在对v2x数据仓中的数据表进行生命周期管理时,针对不同存储类型的数据,其管理方式不一样。
步骤105、调用所述v2x数仓的数据清理接口,将所述相应数据表及其对应的元数据删除
对于本发明实施例,在数据文件和元数据进行备份之后,调用v2x数仓的数据清理接口,将相应数据表及其对应的元数据删除。
步骤106、响应于用户触发的数据恢复指令,基于备份的数据文件和元数据进行数据恢复。
如果接收到用户触发的数据恢复指令,则可以根据备份的数据文件和元数据进行数据恢复。
在本公开的一种可选实施方式中,在进行生命周期管理之前,需要先对v2x数仓中的新建表或者存量表进行生命周期规则配置,基于此,所述方法还包括:接收元数据管理系统发送的各个数据表对应的目标元数据;根据所述各个数据表对应的目标元数据和存储类型,分别配置所述各个数据表对应的生命周期规则。其中各个数据表包括Hive表、Hbase表和时序数据库中的时序数据表。
具体地,v2x数仓在建表的过程中会产生元数据,元数据管理系统会实时采集数据表的元数据,通过采集的数据,元数据管理系统知道哪些表是新建表,哪些表是存量表,元数据管理系统可以将存量表或者新建表的元数据发送给v2x大数据生命周期管理装置,如果该存量表或者新件表需要进行生命周期管理,则v2x生命周期管理装置可以根据该元数据,配置新建表或者存量表的生命周期规则。
在配置生命周期规则时,不同存储类型数据,生命周期规则的配置方式不同。具体地,对于Hive表,当Hive表具体为视图表时,由于视图表一般是逻辑结构,不会有数据的物理存储,其数据存储主要依赖底表的存储,因此可以将视图表的创建时间CreateTime配置为生命周期开始时间,生命周期时长可以以小时为单位或者以天为单位进行配置,此外,还可以在生命周期规则中配置是否备份视图表及其对应的元数据,该元数据主要是指表结构,即创建视图的SQL语句;当Hive表具体为非分区的非视图表时,可以将表的创建时间CreateTime或者数据的最后写入更新时间LastModifyTime配置为生命周期开始时间,生命周期时长可以以小时为单位或者以天为单位进行配置,此外,还可以在生命周期规则中配置是否备份非分区的非视图表及其对应的元数据;当Hive表具体为分区的非视图表时,对于这种表的生命周期规则,需要在建表的时候和数据写入的时候写入相关约束,以便数据可以按照天或者小时进行分区,在配置不同分区的生命周期规则时,可以以天或者小时为单位配置生命周期时长,以便在对数据生命周期按天或者小时进行管理的时候,直接管理对应的分区数据,同样还可以在生命周期规则中配置是否备份分区的非视图表;当Hive表中的数据为固有频率产生的时,可以对Hive表自动追加一个版本字段,并按照该版本字段进行分区,生命周期规则可以配置不同分区保留多少个版本的数据。
对于Hbase表,可以借用Hbase表本身数据的版本功能,在配置规则时,可以按生命周期或者数据产生频率配置数据的版本个数。除此之外,也可以进行自定义配置。对于时序数据库,需要借助时序数据库的建库建表功能,如果生命周期规则中配置以天为单位进行生命周期管理,则在建表过程中需要增加以天为单位的时间字段;如果生命周期规则中配置以小时为单位进行生命周期管理,则在建表过程中需要增加以小时为单位的时间字段,以及以天为单位的时间字段。
需要说明的是,除Hbase表以外,对于不同存储类型的数据表,均可以在生命周期规则中配置是否需要进行数据备份,以及相应的备份规则,如在备份规则中配置备份数据的保留天数。
在本公开的一种可选实施方式中,当所述相应数据表为Hive表时,所述根据所述执行时间,扫描相应数据表的元数据,并根据所述元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间,包括:若所述Hive表为视图表或者非分区的非视图表,则根据所述Hive表的元数据中的创建时间或者数据更新时间,确定所述Hive表的生命周期开始时间,并根据所述生命周期开始时间和所述生命周期规则中配置的表生命周期时长,确定所述Hive表的生命周期到期时间;若所述Hive表为分区的非视图表,则根据所述Hive表的元数据中的创建时间和数据写入时间,确定所述Hive表的生命周期开始时间,并根据所述生命周期开始时间和所述生命周期规则中配置的分区生命周期时长,确定所述Hive表的生命到期时间。
具体地,对基于hadoop生态的hive表的管理,分视图表,非视图表,分区表,非分区表进行管理。对于视图表的管理,可以根据视图表的创建时间CreateTime,确定视图表的生命周期开始时间,之后根据该生命周期开始时间和生命周期规则中配置的表生命周期时长,确定视图表的生命周期到期时间,如果当前已经到达生命周期到期时间,则根据该生命规则判定是否需要对视图表数据进行备份,如果需要进行备份,则将视图表的数据文件和元数据(创建视图表的SQL语句)进行备份,之后删除该视图表。
对于非分区的非视图表的管理,可以根据非分区的非视图表的创建时间CreateTime或者数据的最后写入更新时间LastModifyTime,确定生命周期开始时间,之后根据该生命周期开始时间和生命周期规则中配置的表生命周期时长,确定非分区的非视图表的生命周期到期时间,如果当前已经到达生命周期到期时间,则根据该生命周期规则判定是否需要对其进行备份,如果需要进行备份,则直接将数据文件移动到备份库中,hive的存储系统hdfs的filesystem的api支持文件的rename操作,通过rename很快的将数据文件移动到备份区,之后将元数据(建表的SQL语句)备份,最后进行数据清除。
对于分区的非视图表的管理,由于分区的非视图表在分区的过程中就是按照天或者小时进行分区的,因此可以根据生命周期规则中配置的以天或者小时为单位的生命周期时长,直接对分区数据进行管理,同理如果需要备份,先用hdfs的filesystem的api对数据文件进行重命名到备份区,然后对分区的元数据进行备份。需要说明的是,也可以不备份分区元数据,分区元数据可以根据备份的数据,以及建表的语句自动组成,此外,分区表还可以在生命周期规则中配置当所有的分区数据都清理完毕后,是否删除整张表。
在本公开的一种可选实施方式中,所述方法还包括:若所述Hive表中的数据为固有频率产生的,则根据所述Hive表中的版本号进行数据分区,得到不同分区下的分区表;利用所述不同分区对应的生命周期管理规则,对所述不同分区下的分区表进行生命周期管理。
具体地,Hive表针对固有频率产生的数据,可以对数据表自动追加一个版本字段,并按数据版本进行分区,针对不同分区的生命周期规则可以配置保留多少个版本的数据,管理时按照配置的生命周期规则直接对相应分区进行管理。
在本公开的一种可选实施方式中,当所述相应数据表为Hbase表时,所述根据所述执行时间,扫描相应数据表的元数据,并根据所述元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间,包括:根据所述Hbase表的元数据,确定所述Hbase表中数据的时间戳;根据所述时间戳和所述生命周期规则中配置的生命周期时长,确定所述Hbase表中数据的生命周期到期时间。
具体地,针对基于hadoop生态hbase表的数据生命周期管理,可以根据hbase表数据的timestamp(时间戳),确定生命周期开始时间,之后根据该生命周期开始时间和生命周期规则中配置的生命周期时长,确定到期的数据,接着调用hbase的api进行数据清理。
在本公开的一种可选实施方式中,当所述相应数据表为Hbase表时,所述方法还包括:根据所述生命周期规则中配置的版本号数量,指定Hbase表在建表过程中的版本号参数,以便所述Hbase表基于所述版本号参数,对Hbase表中的数据进行生命周期管理。
具体地,针对hadoop生态hbase表的数据生命周期管理,还可以借用hbase本身数据版本的功能,例如,生命周期规则中配置的版本号数量为100,在Hbase表建表的过程中根据该生命周期规则,指定版本号数量为100,Hbase表在进行生命周期管理时会仅保留100个版本号的数据,将其余数据清除。
在本公开的一种可选实施方式中,当所述相应数据表为时序数据表时,所述方法包括:根据所述生命周期规则,在所述时序数据表建表的过程中增加相应字段,以便时序数据库基于相应字段内容,对时序数据表中的数据进行生命周期管理。
具体地,针对时序数据库数据的生命周期管理,需要借助时序数据库的建库建表相关功能,通过生命周期规则中配置的以天或者以小时为单位的生命周期时长,在建库建表过程中增加相应的字段,建完的库表能够自动继承时序数据库的生命周期管理功能。
本发明实施例提供的一种v2x大数据生命周期管理方法,能够利用v2x大数据生命周期管理装置对v2x数仓中不同存储类型的数据表统一进行生命周期管理,与此同时,本发明对于落入v2x数仓中的数据表能够个性化地配置其生命周期规则,可精确到小时级别进行数据生命周期管理,此外,本发明还可以对清理数据进行备份,在备份期间支持数据的复原操作。
进一步地,作为图1的具体实现,本发明实施例提供了一种v2x大数据生命周期管理装置,如图3所示,所述装置包括:获取单元31、确定单元32、备份单元33、删除单元34和恢复单元35。其中,备份单元33中的数据备份功能和恢复单元35中的数据恢复功能均为可选功能,可以根据用户的实际需求进行数据备份和数据恢复。
所述获取单元31,可以用于获取针对v2x数仓中各个数据表预先配置的生命周期规则,所述各个数据表包括不同存储类型的数据表。
所述确定单元32,可以用于根据所述生命周期规则中的周期时间单位,确定所述生命周期规则的执行时间。
所述确定单元32,还可以用于根据所述执行时间,扫描相应数据表的元数据,并根据所述元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间。
所述备份单元33,可以用于若根据所述生命周期到期时间确定所述相应数据表需要被清理,则响应于用户触发的数据备份指令,对所述相应数据表的数据文件和元数据进行备份。
所述删除单元34,可以用于调用所述v2x数仓的数据清理接口,将所述相应数据表及其对应的元数据删除。
所述恢复单元35,可以用于响应于用户触发的数据恢复指令,基于备份的数据文件和元数据进行数据恢复。
在具体应用场景中,如图4所示,所述装置还包括:接收单元36和配置单元37。
所述接收单元36,可以用于接收元数据管理系统发送的各个数据表对应的目标元数据。
所述配置单元37,可以用于根据所述各个数据表对应的目标元数据和存储类型,分别配置所述各个数据表对应的生命周期规则。
在具体应用场景中,所述确定单元32,可以具体用于若所述生命周期规则中的周期时间单位为小时,则每小时执行所述生命周期规则;若所述生命周期规则中的周期时间单位为天,则每天执行所述生命周期规则。
在具体应用场景中,当所述相应数据表为Hive表时,所述确定单元32,还可以具体用于若所述Hive表为视图表或者非分区的非视图表,则根据所述Hive表的元数据中的创建时间或者数据更新时间,确定所述Hive表的生命周期开始时间,并根据所述生命周期开始时间和所述生命周期规则中配置的表生命周期时长,确定所述Hive表的生命周期到期时间;若所述Hive表为分区的非视图表,则根据所述Hive表的元数据中的创建时间和数据写入时间,确定所述Hive表的生命周期开始时间,并根据所述生命周期开始时间和所述生命周期规则中配置的分区生命周期时长,确定所述Hive表的生命到期时间。
在具体应用场景中,所述装置还包括:分区单元38和管理单元39。
所述分区单元38,可以用于若所述Hive表中的数据为固有频率产生的,则根据所述Hive表中的版本号进行数据分区,得到不同分区下的分区表。
所述管理单元39,可以用于利用所述不同分区对应的生命周期管理规则,对所述不同分区下的分区表进行生命周期管理。
在具体应用场景中,当所述相应数据表为Hbase表时,所述确定单元32,还可以具体用于根据所述Hbase表的元数据,确定所述Hbase表中数据的时间戳;根据所述时间戳和所述生命周期规则中配置的生命周期时长,确定所述Hbase表中数据的生命周期到期时间。
进一步地,当所述相应数据表为Hbase表时,所述管理单元39,还可以用于根据所述生命周期规则中配置的版本号数量,指定Hbase表在建表过程中的版本号参数,以便所述Hbase表基于所述版本号参数,对Hbase表中的数据进行生命周期管理。
进一步地,当所述相应数据表为时序数据表时,所述管理单元39,还可以用于根据所述生命周期规则,在所述时序数据表建表的过程中增加相应字段,以便时序数据库基于相应字段内容,对时序数据表中的数据进行生命周期管理。
需要说明的是,本发明实施例提供的一种v2x大数据生命周期管理所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取针对v2x数仓中各个数据表预先配置的生命周期规则,所述各个数据表包括不同存储类型的数据表;根据所述生命周期规则中的周期时间单位,确定所述生命周期规则的执行时间;根据所述执行时间,扫描相应数据表的元数据,并根据所述元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间;若根据所述生命周期到期时间确定所述相应数据表需要被清理,则对所述相应数据表的数据文件和元数据进行备份,并调用所述v2x数仓的数据清理接口,将所述相应数据表及其对应的元数据删除。
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种电子设备的实体结构图,如图5所示,该电子设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取针对v2x数仓中各个数据表预先配置的生命周期规则,所述各个数据表包括不同存储类型的数据表;根据所述生命周期规则中的周期时间单位,确定所述生命周期规则的执行时间;根据所述执行时间,扫描相应数据表的元数据,并根据所述元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间;若根据所述生命周期到期时间确定所述相应数据表需要被清理,则对所述相应数据表的数据文件和元数据进行备份,并调用所述v2x数仓的数据清理接口,将所述相应数据表及其对应的元数据删除。
本发明实施例能够利用v2x大数据生命周期管理装置对v2x数仓中不同存储类型的数据表统一进行生命周期管理,与此同时,本发明对于落入v2x数仓中的数据表能够个性化地配置其生命周期规则,可精确到小时级别进行数据生命周期管理,此外,本发明还可以对清理数据进行备份,在备份期间支持数据的复原操作。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (10)

1.一种v2x大数据生命周期管理方法,其特征在于,应用于v2x大数据生命周期管理装置,包括:
获取针对v2x数仓中各个数据表预先配置的生命周期规则,所述各个数据表包括不同存储类型的数据表,所述生命周期规则包括周期时间单位、生命周期开始时间、生命周期时长、是否需要进行备份和备份规则,所述不同存储类型的数据表包括Hive表、Hbase表和时序数据库中的时序数据表,所述Hive表包括视图表、非分区的非视图表和分区的非视图表;
根据所述生命周期规则中的周期时间单位,确定所述生命周期规则的执行时间;
根据所述执行时间,扫描相应数据表的元数据,并根据所述元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间;
若根据所述生命周期到期时间确定所述相应数据表需要被清理,则响应于用户触发的数据备份指令,对基于所述备份规则中的备份方式对所述相应数据表的数据文件和元数据进行备份;
调用所述v2x数仓的数据清理接口,将所述相应数据表及其对应的元数据删除;
响应于用户触发的数据恢复指令,则基于备份的数据文件和元数据进行数据恢复;其中,预设备份规则中配置的备份时长为预设天数,若未超过预设天数,则基于所述备份的数据文件和元数据进行数据恢复;若超过所述预设天数,则将所述备份的数据文件和元数据永久性删除;
其中,在配置所述各个数据表对应的生命周期规则时,对于所述视图表,根据所述视图表的创建时间配置所述生命周期开始时间,并配置是否备份所述视图表及其对应的元数据,所述元数据包括创建所述视图表的SQL语句;对于所述非分区的非视图表,根据所述非分区的非视图表的创建时间或者数据最后写入的更新时间配置所述生命周期开始时间,并配置是否备份所述非分区的非视图表及其对应的元数据;对于所述分区的非视图表,在建表或者数据写入时写入相关约束,以便在数据生命周期管理时,直接管理对应的分区数据,同时配置是否备份所述分区的非视图表;对于所述Hive表中固有频率产生的数据,对所述Hive表追加版本字段,并按照所述版本字段进行分区,根据不同分区保留的版本数量,配置所述生命周期规则;
当所述相应数据表为时序数据表时,所述方法还包括:
根据所述生命周期规则,在所述时序数据表建表的过程中增加相应字段,以便时序数据库基于相应字段内容,对时序数据表中的数据进行生命周期管理。
2.根据权利要求1所述的方法,其特征在于,在所述获取针对v2x数仓中各个数据表预先配置的生命周期规则之前,所述方法还包括:
接收元数据管理系统发送的各个数据表对应的目标元数据;
根据所述各个数据表对应的目标元数据和存储类型,分别配置所述各个数据表对应的生命周期规则。
3.根据权利要求1所述的方法,其特征在于,所述根据所述生命周期规则中的周期时间单位,确定所述生命周期规则的执行时间,包括:
若所述生命周期规则中的周期时间单位为小时,则每小时执行所述生命周期规则;
若所述生命周期规则中的周期时间单位为天,则每天执行所述生命周期规则。
4.根据权利要求1所述的方法,其特征在于,当所述相应数据表为Hive表时,所述根据所述执行时间,扫描相应数据表的元数据,并根据所述元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间,包括:
若所述Hive表为视图表或者非分区的非视图表,则根据所述Hive表的元数据中的创建时间或者数据更新时间,确定所述Hive表的生命周期开始时间,并根据所述生命周期开始时间和所述生命周期规则中配置的表生命周期时长,确定所述Hive表的生命周期到期时间;
若所述Hive表为分区的非视图表,则根据所述Hive表的元数据中的创建时间和数据写入时间,确定所述Hive表的生命周期开始时间,并根据所述生命周期开始时间和所述生命周期规则中配置的分区生命周期时长,确定所述Hive表的生命到期时间。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述Hive表中的数据为固有频率产生的,则根据所述Hive表中的版本号进行数据分区,得到不同分区下的分区表;
利用所述不同分区对应的生命周期管理规则,对所述不同分区下的分区表进行生命周期管理。
6.根据权利要求1所述的方法,其特征在于,当所述相应数据表为Hbase表时,所述根据所述执行时间,扫描相应数据表的元数据,并根据所述元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间,包括:
根据所述Hbase表的元数据,确定所述Hbase表中数据的时间戳;
根据所述时间戳和所述生命周期规则中配置的生命周期时长,确定所述Hbase表中数据的生命周期到期时间。
7.根据权利要求1所述的方法,其特征在于,当所述相应数据表为Hbase表时,所述方法还包括:
根据所述生命周期规则中配置的版本号数量,指定Hbase表在建表过程中的版本号参数,以便所述Hbase表基于所述版本号参数,对Hbase表中的数据进行生命周期管理;
8.一种v2x大数据生命周期管理装置,其特征在于,包括:
获取单元,用于获取针对v2x数仓中各个数据表预先配置的生命周期规则,所述各个数据表包括不同存储类型的数据表,所述生命周期规则包括周期时间单位、生命周期开始时间、生命周期时长、是否需要进行备份和备份规则,所述不同存储类型的数据表包括Hive表、Hbase表和时序数据库中的时序数据表,所述Hive表包括视图表、非分区的非视图表和分区的非视图表;
确定单元,用于根据所述生命周期规则中的周期时间单位,确定所述生命周期规则的执行时间;
所述确定单元,还用于根据所述执行时间,扫描相应数据表的元数据,并根据所述元数据和所述生命周期规则,确定所述相应数据表的生命周期到期时间;
备份单元,用于若根据所述生命周期到期时间确定所述相应数据表需要被清理,则响应于用户触发的数据备份指令,对基于所述备份规则中的备份方式对所述相应数据表的数据文件和元数据进行备份;
删除单元,用于调用所述v2x数仓的数据清理接口,将所述相应数据表及其对应的元数据删除;
恢复单元,用于响应于用户触发的数据恢复指令,确定到当前为止数据的清理时长,以及所述备份规则中配置的备份时长;若所述数据的清理时长未超过所述备份时长,则基于备份的数据文件和元数据进行数据恢复;若所述数据的清理时长超过所述备份时长,则向用户反馈数据永久性删除的提示信息,并将备份的数据文件和元数据删除;
配置单元,用于在配置所述各个数据表对应的生命周期规则时,对于所述视图表,根据所述视图表的创建时间配置所述生命周期开始时间,并配置是否备份所述视图表及其对应的元数据,所述元数据包括创建所述视图表的SQL语句;对于所述非分区的非视图表,根据所述非分区的非视图表的创建时间或者数据最后写入的更新时间配置所述生命周期开始时间,并配置是否备份所述非分区的非视图表及其对应的元数据;对于所述分区的非视图表,在建表或者数据写入时写入相关约束,以便在数据生命周期管理时,直接管理对应的分区数据,同时配置是否备份所述分区的非视图表;对于所述Hive表中固有频率产生的数据,对所述Hive表追加版本字段,并按照所述版本字段进行分区,根据不同分区保留的版本数量,配置所述生命周期规则;
管理单元,用于当所述相应数据表为时序数据表时,根据所述生命周期规则,在所述时序数据表建表的过程中增加相应字段,以便时序数据库基于相应字段内容,对时序数据表中的数据进行生命周期管理。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202211533484.7A 2022-09-27 2022-12-02 一种v2x大数据生命周期管理方法及装置 Active CN115687333B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2022111809052 2022-09-27
CN202211180905 2022-09-27

Publications (2)

Publication Number Publication Date
CN115687333A CN115687333A (zh) 2023-02-03
CN115687333B true CN115687333B (zh) 2024-03-12

Family

ID=85055222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211533484.7A Active CN115687333B (zh) 2022-09-27 2022-12-02 一种v2x大数据生命周期管理方法及装置

Country Status (1)

Country Link
CN (1) CN115687333B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1643517A (zh) * 2002-03-29 2005-07-20 国际商业机器公司 生命周期管理引擎
WO2007036932A2 (en) * 2005-09-27 2007-04-05 Zetapoint Ltd. Data table management system and methods useful therefor
CN104133741A (zh) * 2014-08-01 2014-11-05 浪潮电子信息产业股份有限公司 一种磁盘数据生命周期管理的方法
CN108959400A (zh) * 2018-06-05 2018-12-07 中国银行股份有限公司 银行系统历史数据清理方法及装置
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN112000523A (zh) * 2020-08-25 2020-11-27 浪潮云信息技术股份公司 一种云备份的系统及方法
CN112269781A (zh) * 2020-11-13 2021-01-26 网易(杭州)网络有限公司 数据生命周期管理方法、装置、介质及电子设备
CN112905386A (zh) * 2021-02-08 2021-06-04 中国工商银行股份有限公司 一种基于生命周期的表数据备份清理方法及装置
CN113485999A (zh) * 2021-08-04 2021-10-08 中国工商银行股份有限公司 数据清理方法、装置和服务器

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1643517A (zh) * 2002-03-29 2005-07-20 国际商业机器公司 生命周期管理引擎
WO2007036932A2 (en) * 2005-09-27 2007-04-05 Zetapoint Ltd. Data table management system and methods useful therefor
CN104133741A (zh) * 2014-08-01 2014-11-05 浪潮电子信息产业股份有限公司 一种磁盘数据生命周期管理的方法
CN108959400A (zh) * 2018-06-05 2018-12-07 中国银行股份有限公司 银行系统历史数据清理方法及装置
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN112000523A (zh) * 2020-08-25 2020-11-27 浪潮云信息技术股份公司 一种云备份的系统及方法
CN112269781A (zh) * 2020-11-13 2021-01-26 网易(杭州)网络有限公司 数据生命周期管理方法、装置、介质及电子设备
CN112905386A (zh) * 2021-02-08 2021-06-04 中国工商银行股份有限公司 一种基于生命周期的表数据备份清理方法及装置
CN113485999A (zh) * 2021-08-04 2021-10-08 中国工商银行股份有限公司 数据清理方法、装置和服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Life cycle management system of infrastructure based on state awareness and intelligent warehousing;Liu Wei;2020 International Conference on Computer Engineering and Intelligent Control (ICCEIC);第247-52页 *
基于SAP BW中国生物财务数据仓库的设计与实现;王汝林;中国优秀硕士学位论文全文数据库;第I138-491页 *

Also Published As

Publication number Publication date
CN115687333A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN107040578B (zh) 数据同步方法、装置和系统
CN106708740B (zh) 脚本测试方法及装置
WO2015117426A1 (zh) 文件管理方法及装置
CN107203552B (zh) 垃圾回收方法及装置
CN108170820B (zh) 一种容器处理方法、控制服务器及分布式集群
CN111399764B (zh) 数据存储方法、读取方法、装置、设备及存储介质
EP2187695A1 (en) Method, device and system for realizing task in cluster environment
CN110442480B (zh) 一种镜像数据清理方法、装置及系统
CN109063005B (zh) 一种数据迁移方法及系统、存储介质、电子设备
CN112463450A (zh) 一种增量备份管理方法、系统、电子设备及存储介质
CN110868309A (zh) Vnfm中资源处理的方法、装置及计算机存储介质
CN111158957B (zh) 一种虚拟机文件恢复方法、系统、装置及存储介质
CN114356750A (zh) 测试方法、装置、计算机设备和存储介质
CN106874343B (zh) 一种时序数据库的数据删除方法及系统
CN115827162A (zh) 一种智能化处理镜像仓库数据方法、装置、介质及设备
CN115687333B (zh) 一种v2x大数据生命周期管理方法及装置
CN112905306A (zh) 多集群容器管理方法、装置、电子设备和存储介质
CN113867852A (zh) 一种业务需求的信息展示方法、装置、设备及存储介质
CN113792026B (zh) 数据库脚本的部署方法、装置及计算机可读存储介质
JPH09114708A (ja) ヒューマンインタフェース端末におけるオペレータの操作履歴収集管理方法及び装置
CN114116245A (zh) 数据处理方法、计算机设备和存储介质
CN112685370A (zh) 一种日志采集方法、装置、设备和介质
CN113515362B (zh) 数据处理方法、装置、计算机设备和存储介质
CN116886736A (zh) 基于云化架构的中间件云化处理方法及装置
CN111131361B (zh) 集群查询系统中连接节点的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant