CN112988722A - 一种Hive分区表数据清理方法、装置及存储介质 - Google Patents

一种Hive分区表数据清理方法、装置及存储介质 Download PDF

Info

Publication number
CN112988722A
CN112988722A CN202110163659.9A CN202110163659A CN112988722A CN 112988722 A CN112988722 A CN 112988722A CN 202110163659 A CN202110163659 A CN 202110163659A CN 112988722 A CN112988722 A CN 112988722A
Authority
CN
China
Prior art keywords
data
survival time
level
zone
cleaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110163659.9A
Other languages
English (en)
Inventor
户蕾蕾
王浩杰
史宁宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN202110163659.9A priority Critical patent/CN112988722A/zh
Publication of CN112988722A publication Critical patent/CN112988722A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种Hive分区表数据清理方法、装置及存储介质,用于解决Hive中分区表无法根据存活时间来自动清理的技术问题。本公开的技术方案中,在元数据服务中新增用于数据存活时间控制的表级存活时间表和区级存活时间表,由清理守护线程周期扫描这两个表,通过调用分布式文件系统判断业务数据文件是否已超过表中所设定的存活时间来进行过期数据清理,相应地本公开还改进了SQL中的创建、修改等表结构控制语句,新增了存活时间属性。通过本公开可实现Hive中表或分区级别的数据清理,能够及时有效的删除冷数据,减少存储资源的占用,提高了系统维护效率,降低了维护成本。

Description

一种Hive分区表数据清理方法、装置及存储介质
技术领域
本公开涉及大数据技术领域,尤其涉及一种Hive分区表数据清理方法、装置及存储介质。
背景技术
Hive是建立在Hadoop上的数据仓库框架,提供一种类SQL的查询语言HQL(HiveQuery Language),对结构化和半结构化数据进行批量分析,完成数据计算。HQL具有对海量数据的处理能力,Hive可将执行的HQL语句转换为分布式计算任务,从而完成海量数据的查询和分析工作。同时,为了满足不同场景的需求,HQL能通过实现用户自定义函数(UDF)、用户自定义聚合函数(UDAF)以及用户自定义表函数(UDTF)对其进行扩展。
Hive架构中的Hive Server用于对外提供Hive数据库服务,将用户提交的HQL语句进行编译,解析成对应的Map/Reduce任务或者HDFS(Hadoop Distributed File System)操作,从而完成数据的提取、转换和分析。Hive元数据服务MetaStore负责Hive表结构和属性信息的读、写、维护和修改。提供Thrift接口,供HiveServer2、Spark和WebHCat等MetaStore客户端来访问,操作元数据。
经过长时间的使用,Hive中会存在许多消费性、无价值、历史归档等类型的冷数据,如果不能及时清理,这些数据可能会长期占用宝贵的存储资源,目前采用人工清理的方式进行清理,效率低成本高。
发明内容
有鉴于此,本公开提供了一种Hive分区表数据清理方法、装置及存储介质,用于解决Hive无法自动清除过期数据的技术问题。
图1为本公开实施例提供的Hive分区表数据清理方法的步骤流程图,该方法应用于Hive Server中,该方法包括:
步骤101.在Hive元数据服务中创建表级存活时间表和区级存活时间表;所述表级存活时间表和区级存活时间表分别从表级别和分区级别设置数据存活时间;
步骤102.通过清理守护线程定期扫描所述表级存活时间表和区级存活时间表,基于所述表级存活时间表和区级存活时间表的设置进行过期数据清理。
进一步地,所述清理守护线程优先读取所述表级存活时间表中设置的指定表的数据存活时间进行全表范围的过期数据清理,当所述表级存活时间表中未设置所述指定表的数据存活时间时,再读取所述区级存活时间表中设置的所述指定表的分区数据存活时间,针对分区数据进行过期数据清理。
进一步地,基于所述表级存活时间表和区级存活时间表的设置进行过期数据清理的方法为:
清理守护线程首先扫描所述表级存活时间表,根据所述表级存活时间表中的表标识获取业务数据表的数据存储位置,调用分布式文件系统获取属于所述业务数据表的数据文件的创建时间,若判定数据文件存活时间已经超出设定的表级数据存活时间,则删除相应数据文件;
所述清理守护线程在扫描完所述表级存活时间表后,继续扫描所述区级存活时间表,根据所述区级存活时间表中的表标识和分区标识获取分区数据的存储位置,调用分布式文件系统获取分区的数据文件的创建时间,若判定数据文件存活时间已经超出设定的区级数据存活时间,则删除相应数据文件。
进一步地,所述方法还包括如下步骤:
为创建表和更新表结构的SQL语句增加设置存活时间属性(包括表级存活时间属性和区级存活时间属性)的语法;
在解析创建业务数据表或修改业务数据表结构的SQL语句时,获取所设置的存活时间属性信息和业务数据表的表标识或业务数据表的表标识和分区标识;
在执行所述创建业务数据表或修改业务数据表结构的SQL语句时,向所述表级存活时间表或区级存活时间表中新增数据存活时间记录。
进一步地,所述方法还包括为表级数据存活时间属性和区级数据存活时间属性设置开关的步骤,当开关打开时,基于所设置的数据存活时间属性的数据清理功能生效,否则不生效。
本公开提供的分区表数据清理方法用于解决Hive中分区表无法根据存活时间来自动清理的技术问题。本公开的技术方案中,在元数据服务中新增用于数据存活时间控制的表级存活时间表和区级存活时间表,由清理守护线程周期扫描这两个表,通过调用分布式文件系统判断业务数据文件是否已超过表中所设定的存活时间来进行过期数据清理,相应地本公开还改进了SQL中的创建、修改等表结构控制语句,新增了存活时间属性。通过本公开可实现Hive中表或分区级别的数据清理,能够及时有效的删除冷数据,减少存储资源的占用,提高了系统维护效率,降低了维护成本。
图2为本公开一实施例提供的一种Hive分区表数据清理装置结构示意图,该装置200中的各功能模块可以采用软件、硬件或软硬件相结合的方式实现。各模块可部署在一个硬件设备上实施上述方法的所有步骤,也可分散部署在不同硬件设备上由多个硬件设备分别实施上述方法中的一个或若干步骤从而共同实施以实现本公开的发明目的。当由多个硬件设备共同实施时,由于各硬件设备之间相互协作的目的是共同实现本发明目的,一方的动作和处理结果确定了另一方的动作执行的时机及可能获得的结果,因此,在逻辑上可视为各模块彼此之间具有相互指挥和控制关系。该装置200包括:
创建模块210,用于在Hive元数据服务中创建表级存活时间表和区级存活时间表;所述表级存活时间表和区级存活时间表分别从表级别和分区级别设置数据存活时间;
清理模块220,用于通过清理守护线程定期扫描所述表级存活时间表和区级存活时间表,基于所述表级存活时间表和区级存活时间表的设置进行过期数据清理。
进一步地,所述清理模块220中清理守护线程优先读取所述表级存活时间表中设置的指定表的数据存活时间进行全表范围的过期数据清理,当所述表级存活时间表中未设置所述指定表的数据存活时间时,再读取所述区级存活时间表中设置的所述指定表的分区数据存活时间,针对分区数据进行过期数据清理。
进一步地,所述清理模块220包括:
表级清理子模块221,用于首先扫描所述表级存活时间表,根据所述表级存活时间表中的表标识获取业务数据表的数据存储位置,调用分布式文件系统获取属于所述业务数据表的数据文件的创建时间,若判定数据文件存活时间已经超出设定的表级数据存活时间,则删除相应数据文件;
区级清理子模块222,用于在扫描完所述表级存活时间表后,扫描所述区级存活时间表,根据所述区级存活时间表中的表标识和分区标识获取分区数据的存储位置,调用分布式文件系统获取分区的数据文件的创建时间,若判定数据文件存活时间已经超出设定的区级数据存活时间,则删除相应数据文件。
进一步地,所述装置200还包括:
时间属性处理模块230,用于在解析创建业务数据表或修改业务数据表结构的SQL语句时,获取所设置的存活时间属性信息和业务数据表的表标识或业务数据表的表标识和分区标识;以及在执行所述创建业务数据表或修改业务数据表结构的SQL语句时,向所述表级存活时间表或区级存活时间表中新增数据存活时间记录。
进一步地,所述存活时间属性中还包括开关属性,当开关打开时,基于所设置的数据存活时间属性的数据清理功能生效,否则不生效。
图3为本公开一实施例提供的一种电子设备结构示意图,该设备300包括:诸如中央处理单元(CPU)的处理器310、通信总线320、通信接口340以及存储介质330。其中,处理器310与存储介质330可以通过通信总线320相互通信。存储介质330内存储有计算机程序,当该计算机程序被处理器310执行时即可实现本公开提供的方法的各步骤。
其中,存储介质可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。另外,存储介质还可以是至少一个位于远离前述处理器的存储装置。处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
附图说明
为了更加清楚地说明本公开实施例或者现有技术中的技术方案,下面将对本公开实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本公开实施例的这些附图获得其他的附图。
图1为本公开提供的Hive分区表数据清理方法的步骤流程图;
图2为本公开一实施例提供的Hive分区表数据清理装置结构示意图;
图3为本公开一实施例提供的一种电子设备结构示意图;
图4为本公开一实施例提供的Hive分区表数据清理方法步骤流程图;
图5为本公开一实施例提供的实现Hive中分区表数据生命周期管理功能的逻辑结构示意图。
具体实施方式
在本公开实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本公开实施例。本公开实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。本公开中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本公开的目的是实现Hive中对分区表中的数据进行生命周期管理(即Time-To-Alive,简称TTL),避免一些消费性、无价值、历史归档等冷数据一直占用宝贵的存储资源,实现根据所设置的存活时间自动清理删除超时数据的功能,节省人工处理删除数据的成本,提高了数据处理删除的效率和存储空间的价值。
图4为本公开一实施例提供的一种Hive分区表数据清理方法步骤流程图,图5为该实施例实现Hive中分区表数据生命周期管理的逻辑结构示意图。该实施例的实现过程为:
步骤410.在Hive安装时,在Hive元数据服务Metastore创建表级存活时间表TTL_Tables和区级存活时间表TTL_Partitions。
在安装Hive组件时或清理守护线程启动之前,通过Hive服务即HiveServer在Hive元数据服务Metastore中创建TTL_Tables表和TTL_Partitions表,在Metastore中进行维护。两个表结构示例如下:
表1:TTL_Tables
字段名 字段类型 解释
Table_id int 表标识
Table_TTL date 表级数据存活时间
表2:TTL_Partitions
字段名 字段类型 解释
Table_id int 表标识
Partition_id int 分区标识
Partition_TTL date 分区级数据存活时间
TTL_Tables用于从表级别设置数据存活时间,TTL_Tables的每一条记录至少包括两个字段,分别为表标识Table_id字段和表级数据存活时间Table_TTL字段。
TTL_Partitions用于从分区级别设置数据存活时间,TTL_Partitions的每一条记录至少包括三个字段,分别为表标识Table_id字段、分区标识Partition_id字段,分区级数据存活时间Partition_TTL字段。
TTL_Tables和TTL_Partitions分别从不同级别进行分区表的数据存活时间的控制,本公开一实施例中,TTL_Tables表中设置的数据存活时间的优先级高于TTL_Partitions表中设置的数据存活时间,清理守护线程会优先读取TTL_Tables表中设置的指定表的数据存活时间进行全表范围的过期数据清理,当TTL_Tables表中未设置指定表的数据存活时间时,清理守护线程会读取TTL_Partitions表中设置的所述指定表的分区数据存活时间,针对表的分区数据进行过期数据清理。
步骤420.当启动Hive时,启动清理守护线程,清理守护线程定期扫描TTL_Partitions和TTL_Tables表进行过期数据清理。
步骤430.清理守护线程在扫描时,读取TTL_Partitions表或TTL_Tables表的记录,基于设定的数据存活时间清理存活时间超时的数据。
基于设定的数据存活时间清理存活时间超时的数据的方法为:
步骤431.清理守护线程首先扫描TTL_Tables表,读取TTL_Tables表的记录,根据TTL_Tables中表标识获取对应业务表的数据存储位置,调用分布式文件系统(例如HDFS)获取属于该业务表的数据文件的创建时间,若判定数据文件存活时间已经超出TTL_Tables中Table_TTL字段设定的表级数据存活时间,则删除该数据文件。
步骤432.在完成TTL_Tables表的扫描后,继续扫描TTL_Partitions表,读取TTL_Partitions表的记录,根据Partition_id分区标识获取分区数据的存储位置,调用分布式文件系统获取属于该分区的数据文件的创建时间,若判定数据文件存活时间已经超出TTL_Partitions中Partition_TTL字段设定的区级数据存活时间,则删除该数据文件。
清理守护线程读取TTL_Tables表或TTL_Partitions表中的数据存储位置的方法为:清理守护线程通过Metastore中存储的表参数表table_params或分区表partitions,得到Table_id对应的表或Partition_id对应的分区在HDFS上的存储路径,然后找到存储路径下的所有数据文件。
以下举例说明基于分区设置的数据存活时间进行数据清理的过程,例如有一张分区表名称为“城市表”,该表以“省会”字段进行分区,在TTL_Partitions表中设置省会分区字段为“郑州”的数据存活时间为“1年”即超过1年的数据将被删除。清理守护线程从Metastore元数据服务中根据Table_id和Partition_id从partitions表中得到数据存储路径,假设郑州分区的数据文件存储路径为“hdfs:///城市表/郑州”,则读取该路径下的所有数据文件,将数据文件的创建时间加上TTL_Partitions表中的“郑州”分区的存活时间然后与当前时间比较,即可判断对应的分区中的数据是否超过存活时间。
在本公开一实施例中,为了实现Hive分区表数据的定时自动清理,为创建表和更新表结构的SQL语句增添了设置存活时间属性的语法,允许用户在创建业务数据表或修改业务数据表结构时为业务数据表或业务数据表的分区设置存活时间属性。
例如,可采用如下的创建表的SQL语句为day_table表设置表级数据存活时间属性:
create table day_table(id int,content string)partitioned by(dtstring)TBLPROPERTIES(TTL=true,TTL=600)
该SQL语句执行后,将创建一个day_table业务数据表,该表以dt字段进行分区,同时还会向Metastore元数据服务中的TTL_Tables表中插入一条记录,该记录的Table_id字段值为day_table的表标识,Table_TTL字段值为600秒。
若未设置表级数据存活时间属性,仅为day_table某个分区设置区级数据存活时间属性,则通过如下修改表结构的SQL语句实现:
ALTER TABLE day_table set PARTITION(dt=1)PROPERTIES(TTL=true,TTL=600)
该修改表结构的SQL语句执行后,将为day_table的Partition_id为1的分区设置分区级数据存活时间属性,将在Metastore元数据服务中的TTL_Partitions表中插入一条记录,该记录的Table_id字段值为day_table的表标识,Partition_id为1,Partition_TTL字段值为600秒。
在本公开一优选实施例中,还提供表级数据存活时间属性和区级数据存活时间属性的开关,当开关打开时,基于所设置的数据存活时间属性的数据清理功能生效,否则不生效,通过这个可开关可允许用户灵活地控制是否开启相应级别的数据清理功能。例如TTL=true时表示打开相应级别的数据存活时间属性的开关,当TTL=false时表示关闭相应级别的数据存活时间属性的开关。
为了实现上述数据存活时间属性设置的功能,本公开对Hive中的SQL语句的解析和执行过程进行了改进,改进的方法为:
步骤a.在hive的SQL语法文件中添加相应的设置数据存活时间属性的语法;
步骤b.在Hive Server对前述创建表或修改表结构的SQL语句进行语法和语义解析时,得到抽象语法树(Abstract Syntax Tree,AST),获取到表标识和相应级别的数据存活时间属性值,然后在SQL语句实际被执行时,将所设置的数据存活时间属性写入Metastore中的TTL_tables或TTL_partitions表中。
Hive Server可通过通过thrift协议将所设置的数据存活时间属性写入到Hivemetastore中。Thrift是一种接口描述语言和二进制通讯协议,它可用于定义和创建跨语言的服务。
应当认识到,本公开的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术,包括配置有计算机程序的非暂时性存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。此外,可按任何合适的顺序来执行本公开描述的过程的操作,除非本公开另外指示或以其他方式明显地与上下文矛盾。本公开描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本公开的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本公开所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本公开所述的方法和技术编程时,本公开还包括计算机本身。
以上所述仅为本公开的实施例而已,并不用于限制本公开。对于本领域技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种Hive分区表数据清理方法,其特征在于,所述方法包括:
在Hive元数据服务中创建表级存活时间表和区级存活时间表;所述表级存活时间表和区级存活时间表分别从表级别和分区级别设置数据存活时间;
步骤102.通过清理守护线程定期扫描所述表级存活时间表和区级存活时间表,基于所述表级存活时间表和区级存活时间表的设置进行过期数据清理。
2.根据权利要求1所述的方法,其特征在于,
所述清理守护线程优先读取所述表级存活时间表中设置的指定表的数据存活时间进行全表范围的过期数据清理,当所述表级存活时间表中未设置所述指定表的数据存活时间时,再读取所述区级存活时间表中设置的所述指定表的分区数据存活时间,针对分区数据进行过期数据清理。
3.根据权利要求1所述的方法,其特征在于,基于所述表级存活时间表和区级存活时间表的设置进行过期数据清理的方法为:
清理守护线程首先扫描所述表级存活时间表,根据所述表级存活时间表中的表标识获取业务数据表的数据存储位置,调用分布式文件系统获取属于所述业务数据表的数据文件的创建时间,若判定数据文件存活时间已经超出设定的表级数据存活时间,则删除相应数据文件;
所述清理守护线程在扫描完所述表级存活时间表后,继续扫描所述区级存活时间表,根据所述区级存活时间表中的表标识和分区标识获取分区数据的存储位置,调用分布式文件系统获取分区的数据文件的创建时间,若判定数据文件存活时间已经超出设定的区级数据存活时间,则删除相应数据文件。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
为创建表和更新表结构的SQL语句增加设置存活时间属性的语法;
在解析创建业务数据表或修改业务数据表结构的SQL语句时,获取所设置的存活时间属性信息和业务数据表的表标识或业务数据表的表标识和分区标识;
在执行所述创建业务数据表或修改业务数据表结构的SQL语句时,向所述表级存活时间表或区级存活时间表中新增数据存活时间记录。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括为表级数据存活时间属性和区级数据存活时间属性设置开关的步骤,当开关打开时,基于所设置的数据存活时间属性的数据清理功能生效,否则不生效。
6.一种Hive分区表数据清理装置,其特征在于,该装置包括:
创建模块,用于在Hive元数据服务中创建表级存活时间表和区级存活时间表;所述表级存活时间表和区级存活时间表分别从表级别和分区级别设置数据存活时间;
清理模块,用于通过清理守护线程定期扫描所述表级存活时间表和区级存活时间表,基于所述表级存活时间表和区级存活时间表的设置进行过期数据清理。
7.根据权利要求6所述的装置,其特征在于,所述清理模块包括:
表级清理子模块,用于首先扫描所述表级存活时间表,根据所述表级存活时间表中的表标识获取业务数据表的数据存储位置,调用分布式文件系统获取属于所述业务数据表的数据文件的创建时间,若判定数据文件存活时间已经超出设定的表级数据存活时间,则删除相应数据文件;
区级清理子模块,用于在扫描完所述表级存活时间表后,扫描所述区级存活时间表,根据所述区级存活时间表中的表标识和分区标识获取分区数据的存储位置,调用分布式文件系统获取分区的数据文件的创建时间,若判定数据文件存活时间已经超出设定的区级数据存活时间,则删除相应数据文件。
8.根据权利要求6所述的装置,其特征在于,所述装置200还包括:
时间属性处理模块,用于在解析创建业务数据表或修改业务数据表结构的SQL语句时,获取所设置的存活时间属性和业务数据表的表标识或业务数据表的表标识和分区标识;以及在执行所述创建业务数据表或修改业务数据表结构的SQL语句时,向所述表级存活时间表或区级存活时间表中新增数据存活时间记录。
9.根据权利要求8所述的装置,其特征在于,所述存活时间属性中还包括开关属性,当开关打开时,基于所设置的数据存活时间属性的数据清理功能生效,否则不生效。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序当被处理器执行时实施如权利要求1至5中任一项所述的方法步骤。
CN202110163659.9A 2021-02-05 2021-02-05 一种Hive分区表数据清理方法、装置及存储介质 Withdrawn CN112988722A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110163659.9A CN112988722A (zh) 2021-02-05 2021-02-05 一种Hive分区表数据清理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110163659.9A CN112988722A (zh) 2021-02-05 2021-02-05 一种Hive分区表数据清理方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112988722A true CN112988722A (zh) 2021-06-18

Family

ID=76348362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110163659.9A Withdrawn CN112988722A (zh) 2021-02-05 2021-02-05 一种Hive分区表数据清理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112988722A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434492A (zh) * 2021-06-21 2021-09-24 青岛海尔科技有限公司 数据的检测方法、装置、存储介质和电子装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN112269781A (zh) * 2020-11-13 2021-01-26 网易(杭州)网络有限公司 数据生命周期管理方法、装置、介质及电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN112269781A (zh) * 2020-11-13 2021-01-26 网易(杭州)网络有限公司 数据生命周期管理方法、装置、介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434492A (zh) * 2021-06-21 2021-09-24 青岛海尔科技有限公司 数据的检测方法、装置、存储介质和电子装置

Similar Documents

Publication Publication Date Title
US20150134913A1 (en) Method and apparatus for cleaning files in a mobile terminal and associated mobile terminal
CN109271435B (zh) 一种支持断点续传的数据抽取方法及系统
US7809882B1 (en) Session independent backend data cache system
CN109885642B (zh) 面向全文检索的分级存储方法及装置
CN112988782B (zh) Hive支持交互式查询的方法、装置及存储介质
CN106156301B (zh) 一种大字段数据的处理方法及装置
CN110941629B (zh) 元数据处理方法、装置、设备及计算机可读存储介质
CN112199394A (zh) 告警信息推送方法、系统、智能终端及存储介质
CN109284189A (zh) 一种批量任务超时高效触发方法及系统
CN113094162A (zh) 一种任务依赖关系更新方法、装置及存储介质
CN103778239A (zh) 一种多数据库数据管理方法及系统
CN112988722A (zh) 一种Hive分区表数据清理方法、装置及存储介质
CN109063040B (zh) 客户端程序数据采集方法及系统
CN114281757A (zh) 一种数据库的迁移方法、系统及计算机可读存储介质
CN112783898A (zh) 一种异形结构树的构造方法、装置、电子设备及存储介质
CN107656936B (zh) 一种即时通信领域的终端数据库构建方法
CN111858489B (zh) 一种基于自适应元数据模板的多源异构空间数据归档方法
CN106250477B (zh) 一种分表数据的分页方法
CN107622070B (zh) 一种数据库管理方法及装置
CN111984740B (zh) 业务数据表处理方法、装置、计算机设备和存储介质
CN111045779B (zh) 系统内存回收配置方法、存储介质
CN111090670A (zh) 一种数据预聚合的方法、系统、计算设备及存储介质
CN116401259B (zh) 一种用于ElasticSearch数据库的自动化预创建索引方法和系统
CN110007899B (zh) 基于storm的通用窗口框架系统
CN112463886B (zh) 一种数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210618