CN112988722A

CN112988722A - 一种Hive分区表数据清理方法、装置及存储介质

Info

Publication number: CN112988722A
Application number: CN202110163659.9A
Authority: CN
Inventors: 户蕾蕾; 王浩杰; 史宁宁
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-06-18

Abstract

本公开提供了一种Hive分区表数据清理方法、装置及存储介质，用于解决Hive中分区表无法根据存活时间来自动清理的技术问题。本公开的技术方案中，在元数据服务中新增用于数据存活时间控制的表级存活时间表和区级存活时间表，由清理守护线程周期扫描这两个表，通过调用分布式文件系统判断业务数据文件是否已超过表中所设定的存活时间来进行过期数据清理，相应地本公开还改进了SQL中的创建、修改等表结构控制语句，新增了存活时间属性。通过本公开可实现Hive中表或分区级别的数据清理，能够及时有效的删除冷数据，减少存储资源的占用，提高了系统维护效率，降低了维护成本。

Description

一种Hive分区表数据清理方法、装置及存储介质

技术领域

本公开涉及大数据技术领域，尤其涉及一种Hive分区表数据清理方法、装置及存储介质。

背景技术

Hive是建立在Hadoop上的数据仓库框架，提供一种类SQL的查询语言HQL(HiveQuery Language)，对结构化和半结构化数据进行批量分析，完成数据计算。HQL具有对海量数据的处理能力，Hive可将执行的HQL语句转换为分布式计算任务，从而完成海量数据的查询和分析工作。同时，为了满足不同场景的需求，HQL能通过实现用户自定义函数(UDF)、用户自定义聚合函数(UDAF)以及用户自定义表函数(UDTF)对其进行扩展。

Hive架构中的Hive Server用于对外提供Hive数据库服务，将用户提交的HQL语句进行编译，解析成对应的Map/Reduce任务或者HDFS(Hadoop Distributed File System)操作，从而完成数据的提取、转换和分析。Hive元数据服务MetaStore负责Hive表结构和属性信息的读、写、维护和修改。提供Thrift接口，供HiveServer2、Spark和WebHCat等MetaStore客户端来访问，操作元数据。

经过长时间的使用，Hive中会存在许多消费性、无价值、历史归档等类型的冷数据，如果不能及时清理，这些数据可能会长期占用宝贵的存储资源，目前采用人工清理的方式进行清理，效率低成本高。

发明内容

有鉴于此，本公开提供了一种Hive分区表数据清理方法、装置及存储介质，用于解决Hive无法自动清除过期数据的技术问题。

图1为本公开实施例提供的Hive分区表数据清理方法的步骤流程图，该方法应用于Hive Server中，该方法包括：

步骤101.在Hive元数据服务中创建表级存活时间表和区级存活时间表；所述表级存活时间表和区级存活时间表分别从表级别和分区级别设置数据存活时间；

步骤102.通过清理守护线程定期扫描所述表级存活时间表和区级存活时间表，基于所述表级存活时间表和区级存活时间表的设置进行过期数据清理。

进一步地，所述清理守护线程优先读取所述表级存活时间表中设置的指定表的数据存活时间进行全表范围的过期数据清理，当所述表级存活时间表中未设置所述指定表的数据存活时间时，再读取所述区级存活时间表中设置的所述指定表的分区数据存活时间，针对分区数据进行过期数据清理。

进一步地，基于所述表级存活时间表和区级存活时间表的设置进行过期数据清理的方法为：

清理守护线程首先扫描所述表级存活时间表，根据所述表级存活时间表中的表标识获取业务数据表的数据存储位置，调用分布式文件系统获取属于所述业务数据表的数据文件的创建时间，若判定数据文件存活时间已经超出设定的表级数据存活时间，则删除相应数据文件；

所述清理守护线程在扫描完所述表级存活时间表后，继续扫描所述区级存活时间表，根据所述区级存活时间表中的表标识和分区标识获取分区数据的存储位置，调用分布式文件系统获取分区的数据文件的创建时间，若判定数据文件存活时间已经超出设定的区级数据存活时间，则删除相应数据文件。

进一步地，所述方法还包括如下步骤：

为创建表和更新表结构的SQL语句增加设置存活时间属性(包括表级存活时间属性和区级存活时间属性)的语法；

在解析创建业务数据表或修改业务数据表结构的SQL语句时，获取所设置的存活时间属性信息和业务数据表的表标识或业务数据表的表标识和分区标识；

在执行所述创建业务数据表或修改业务数据表结构的SQL语句时，向所述表级存活时间表或区级存活时间表中新增数据存活时间记录。

进一步地，所述方法还包括为表级数据存活时间属性和区级数据存活时间属性设置开关的步骤，当开关打开时，基于所设置的数据存活时间属性的数据清理功能生效，否则不生效。

本公开提供的分区表数据清理方法用于解决Hive中分区表无法根据存活时间来自动清理的技术问题。本公开的技术方案中，在元数据服务中新增用于数据存活时间控制的表级存活时间表和区级存活时间表，由清理守护线程周期扫描这两个表，通过调用分布式文件系统判断业务数据文件是否已超过表中所设定的存活时间来进行过期数据清理，相应地本公开还改进了SQL中的创建、修改等表结构控制语句，新增了存活时间属性。通过本公开可实现Hive中表或分区级别的数据清理，能够及时有效的删除冷数据，减少存储资源的占用，提高了系统维护效率，降低了维护成本。

图2为本公开一实施例提供的一种Hive分区表数据清理装置结构示意图，该装置200中的各功能模块可以采用软件、硬件或软硬件相结合的方式实现。各模块可部署在一个硬件设备上实施上述方法的所有步骤，也可分散部署在不同硬件设备上由多个硬件设备分别实施上述方法中的一个或若干步骤从而共同实施以实现本公开的发明目的。当由多个硬件设备共同实施时，由于各硬件设备之间相互协作的目的是共同实现本发明目的，一方的动作和处理结果确定了另一方的动作执行的时机及可能获得的结果，因此，在逻辑上可视为各模块彼此之间具有相互指挥和控制关系。该装置200包括：

创建模块210，用于在Hive元数据服务中创建表级存活时间表和区级存活时间表；所述表级存活时间表和区级存活时间表分别从表级别和分区级别设置数据存活时间；

清理模块220，用于通过清理守护线程定期扫描所述表级存活时间表和区级存活时间表，基于所述表级存活时间表和区级存活时间表的设置进行过期数据清理。

进一步地，所述清理模块220中清理守护线程优先读取所述表级存活时间表中设置的指定表的数据存活时间进行全表范围的过期数据清理，当所述表级存活时间表中未设置所述指定表的数据存活时间时，再读取所述区级存活时间表中设置的所述指定表的分区数据存活时间，针对分区数据进行过期数据清理。

进一步地，所述清理模块220包括：

表级清理子模块221，用于首先扫描所述表级存活时间表，根据所述表级存活时间表中的表标识获取业务数据表的数据存储位置，调用分布式文件系统获取属于所述业务数据表的数据文件的创建时间，若判定数据文件存活时间已经超出设定的表级数据存活时间，则删除相应数据文件；

区级清理子模块222，用于在扫描完所述表级存活时间表后，扫描所述区级存活时间表，根据所述区级存活时间表中的表标识和分区标识获取分区数据的存储位置，调用分布式文件系统获取分区的数据文件的创建时间，若判定数据文件存活时间已经超出设定的区级数据存活时间，则删除相应数据文件。

进一步地，所述装置200还包括：

时间属性处理模块230，用于在解析创建业务数据表或修改业务数据表结构的SQL语句时，获取所设置的存活时间属性信息和业务数据表的表标识或业务数据表的表标识和分区标识；以及在执行所述创建业务数据表或修改业务数据表结构的SQL语句时，向所述表级存活时间表或区级存活时间表中新增数据存活时间记录。

进一步地，所述存活时间属性中还包括开关属性，当开关打开时，基于所设置的数据存活时间属性的数据清理功能生效，否则不生效。

图3为本公开一实施例提供的一种电子设备结构示意图，该设备300包括：诸如中央处理单元(CPU)的处理器310、通信总线320、通信接口340以及存储介质330。其中，处理器310与存储介质330可以通过通信总线320相互通信。存储介质330内存储有计算机程序，当该计算机程序被处理器310执行时即可实现本公开提供的方法的各步骤。

其中，存储介质可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。另外，存储介质还可以是至少一个位于远离前述处理器的存储装置。处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

附图说明

为了更加清楚地说明本公开实施例或者现有技术中的技术方案，下面将对本公开实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本公开实施例的这些附图获得其他的附图。

图1为本公开提供的Hive分区表数据清理方法的步骤流程图；

图2为本公开一实施例提供的Hive分区表数据清理装置结构示意图；

图3为本公开一实施例提供的一种电子设备结构示意图；

图4为本公开一实施例提供的Hive分区表数据清理方法步骤流程图；

图5为本公开一实施例提供的实现Hive中分区表数据生命周期管理功能的逻辑结构示意图。

具体实施方式

在本公开实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本公开实施例。本公开实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。本公开中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本公开的目的是实现Hive中对分区表中的数据进行生命周期管理(即Time-To-Alive，简称TTL)，避免一些消费性、无价值、历史归档等冷数据一直占用宝贵的存储资源，实现根据所设置的存活时间自动清理删除超时数据的功能，节省人工处理删除数据的成本，提高了数据处理删除的效率和存储空间的价值。

图4为本公开一实施例提供的一种Hive分区表数据清理方法步骤流程图，图5为该实施例实现Hive中分区表数据生命周期管理的逻辑结构示意图。该实施例的实现过程为：

步骤410.在Hive安装时，在Hive元数据服务Metastore创建表级存活时间表TTL_Tables和区级存活时间表TTL_Partitions。

在安装Hive组件时或清理守护线程启动之前，通过Hive服务即HiveServer在Hive元数据服务Metastore中创建TTL_Tables表和TTL_Partitions表，在Metastore中进行维护。两个表结构示例如下：

表1：TTL_Tables

字段名	字段类型	解释
			Table_id	int	表标识
Table_TTL	date	表级数据存活时间

表2：TTL_Partitions

字段名	字段类型	解释
			Table_id	int	表标识
Partition_id	int	分区标识
			Partition_TTL	date	分区级数据存活时间

TTL_Tables用于从表级别设置数据存活时间，TTL_Tables的每一条记录至少包括两个字段，分别为表标识Table_id字段和表级数据存活时间Table_TTL字段。

TTL_Partitions用于从分区级别设置数据存活时间，TTL_Partitions的每一条记录至少包括三个字段，分别为表标识Table_id字段、分区标识Partition_id字段,分区级数据存活时间Partition_TTL字段。

TTL_Tables和TTL_Partitions分别从不同级别进行分区表的数据存活时间的控制，本公开一实施例中，TTL_Tables表中设置的数据存活时间的优先级高于TTL_Partitions表中设置的数据存活时间，清理守护线程会优先读取TTL_Tables表中设置的指定表的数据存活时间进行全表范围的过期数据清理，当TTL_Tables表中未设置指定表的数据存活时间时，清理守护线程会读取TTL_Partitions表中设置的所述指定表的分区数据存活时间，针对表的分区数据进行过期数据清理。

步骤420.当启动Hive时，启动清理守护线程，清理守护线程定期扫描TTL_Partitions和TTL_Tables表进行过期数据清理。

步骤430.清理守护线程在扫描时，读取TTL_Partitions表或TTL_Tables表的记录，基于设定的数据存活时间清理存活时间超时的数据。

基于设定的数据存活时间清理存活时间超时的数据的方法为：

步骤431.清理守护线程首先扫描TTL_Tables表，读取TTL_Tables表的记录，根据TTL_Tables中表标识获取对应业务表的数据存储位置，调用分布式文件系统(例如HDFS)获取属于该业务表的数据文件的创建时间，若判定数据文件存活时间已经超出TTL_Tables中Table_TTL字段设定的表级数据存活时间，则删除该数据文件。

步骤432.在完成TTL_Tables表的扫描后，继续扫描TTL_Partitions表，读取TTL_Partitions表的记录，根据Partition_id分区标识获取分区数据的存储位置，调用分布式文件系统获取属于该分区的数据文件的创建时间，若判定数据文件存活时间已经超出TTL_Partitions中Partition_TTL字段设定的区级数据存活时间，则删除该数据文件。

清理守护线程读取TTL_Tables表或TTL_Partitions表中的数据存储位置的方法为：清理守护线程通过Metastore中存储的表参数表table_params或分区表partitions，得到Table_id对应的表或Partition_id对应的分区在HDFS上的存储路径，然后找到存储路径下的所有数据文件。

以下举例说明基于分区设置的数据存活时间进行数据清理的过程，例如有一张分区表名称为“城市表”，该表以“省会”字段进行分区，在TTL_Partitions表中设置省会分区字段为“郑州”的数据存活时间为“1年”即超过1年的数据将被删除。清理守护线程从Metastore元数据服务中根据Table_id和Partition_id从partitions表中得到数据存储路径，假设郑州分区的数据文件存储路径为“hdfs:///城市表/郑州”，则读取该路径下的所有数据文件，将数据文件的创建时间加上TTL_Partitions表中的“郑州”分区的存活时间然后与当前时间比较，即可判断对应的分区中的数据是否超过存活时间。

在本公开一实施例中，为了实现Hive分区表数据的定时自动清理，为创建表和更新表结构的SQL语句增添了设置存活时间属性的语法，允许用户在创建业务数据表或修改业务数据表结构时为业务数据表或业务数据表的分区设置存活时间属性。

例如，可采用如下的创建表的SQL语句为day_table表设置表级数据存活时间属性：

create table day_table(id int,content string)partitioned by(dtstring)TBLPROPERTIES(TTL＝true,TTL＝600)

该SQL语句执行后，将创建一个day_table业务数据表，该表以dt字段进行分区，同时还会向Metastore元数据服务中的TTL_Tables表中插入一条记录，该记录的Table_id字段值为day_table的表标识，Table_TTL字段值为600秒。

若未设置表级数据存活时间属性，仅为day_table某个分区设置区级数据存活时间属性，则通过如下修改表结构的SQL语句实现：

ALTER TABLE day_table set PARTITION(dt＝1)PROPERTIES(TTL＝true,TTL＝600)

该修改表结构的SQL语句执行后，将为day_table的Partition_id为1的分区设置分区级数据存活时间属性，将在Metastore元数据服务中的TTL_Partitions表中插入一条记录，该记录的Table_id字段值为day_table的表标识，Partition_id为1，Partition_TTL字段值为600秒。

在本公开一优选实施例中，还提供表级数据存活时间属性和区级数据存活时间属性的开关，当开关打开时，基于所设置的数据存活时间属性的数据清理功能生效，否则不生效，通过这个可开关可允许用户灵活地控制是否开启相应级别的数据清理功能。例如TTL＝true时表示打开相应级别的数据存活时间属性的开关，当TTL＝false时表示关闭相应级别的数据存活时间属性的开关。

为了实现上述数据存活时间属性设置的功能，本公开对Hive中的SQL语句的解析和执行过程进行了改进，改进的方法为：

步骤a.在hive的SQL语法文件中添加相应的设置数据存活时间属性的语法；

步骤b.在Hive Server对前述创建表或修改表结构的SQL语句进行语法和语义解析时，得到抽象语法树(Abstract Syntax Tree，AST)，获取到表标识和相应级别的数据存活时间属性值，然后在SQL语句实际被执行时，将所设置的数据存活时间属性写入Metastore中的TTL_tables或TTL_partitions表中。

Hive Server可通过通过thrift协议将所设置的数据存活时间属性写入到Hivemetastore中。Thrift是一种接口描述语言和二进制通讯协议，它可用于定义和创建跨语言的服务。

应当认识到，本公开的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术，包括配置有计算机程序的非暂时性存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。此外，可按任何合适的顺序来执行本公开描述的过程的操作，除非本公开另外指示或以其他方式明显地与上下文矛盾。本公开描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本公开的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本公开所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本公开所述的方法和技术编程时，本公开还包括计算机本身。

以上所述仅为本公开的实施例而已，并不用于限制本公开。对于本领域技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种Hive分区表数据清理方法，其特征在于，所述方法包括：

在Hive元数据服务中创建表级存活时间表和区级存活时间表；所述表级存活时间表和区级存活时间表分别从表级别和分区级别设置数据存活时间；

2.根据权利要求1所述的方法，其特征在于，

所述清理守护线程优先读取所述表级存活时间表中设置的指定表的数据存活时间进行全表范围的过期数据清理，当所述表级存活时间表中未设置所述指定表的数据存活时间时，再读取所述区级存活时间表中设置的所述指定表的分区数据存活时间，针对分区数据进行过期数据清理。

3.根据权利要求1所述的方法，其特征在于，基于所述表级存活时间表和区级存活时间表的设置进行过期数据清理的方法为：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

为创建表和更新表结构的SQL语句增加设置存活时间属性的语法；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括为表级数据存活时间属性和区级数据存活时间属性设置开关的步骤，当开关打开时，基于所设置的数据存活时间属性的数据清理功能生效，否则不生效。

6.一种Hive分区表数据清理装置，其特征在于，该装置包括：

创建模块，用于在Hive元数据服务中创建表级存活时间表和区级存活时间表；所述表级存活时间表和区级存活时间表分别从表级别和分区级别设置数据存活时间；

清理模块，用于通过清理守护线程定期扫描所述表级存活时间表和区级存活时间表，基于所述表级存活时间表和区级存活时间表的设置进行过期数据清理。

7.根据权利要求6所述的装置，其特征在于，所述清理模块包括：

表级清理子模块，用于首先扫描所述表级存活时间表，根据所述表级存活时间表中的表标识获取业务数据表的数据存储位置，调用分布式文件系统获取属于所述业务数据表的数据文件的创建时间，若判定数据文件存活时间已经超出设定的表级数据存活时间，则删除相应数据文件；

区级清理子模块，用于在扫描完所述表级存活时间表后，扫描所述区级存活时间表，根据所述区级存活时间表中的表标识和分区标识获取分区数据的存储位置，调用分布式文件系统获取分区的数据文件的创建时间，若判定数据文件存活时间已经超出设定的区级数据存活时间，则删除相应数据文件。

8.根据权利要求6所述的装置，其特征在于，所述装置200还包括：

时间属性处理模块，用于在解析创建业务数据表或修改业务数据表结构的SQL语句时，获取所设置的存活时间属性和业务数据表的表标识或业务数据表的表标识和分区标识；以及在执行所述创建业务数据表或修改业务数据表结构的SQL语句时，向所述表级存活时间表或区级存活时间表中新增数据存活时间记录。

9.根据权利要求8所述的装置，其特征在于，所述存活时间属性中还包括开关属性，当开关打开时，基于所设置的数据存活时间属性的数据清理功能生效，否则不生效。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序当被处理器执行时实施如权利要求1至5中任一项所述的方法步骤。