CN108415934A

CN108415934A - 一种Hive表修复方法、装置、设备及计算机可读存储介质

Info

Publication number: CN108415934A
Application number: CN201810065153.2A
Authority: CN
Inventors: 赵长虹
Original assignee: Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2018-08-17
Anticipated expiration: 2038-01-23
Also published as: CN108415934B

Abstract

本发明提出了一种Hive表修复方法、装置、设备及计算机可读存储介质，其中，方法包括：在Hive的元数据库中确定Hive表的分区字段信息；在预设的分布式缓存预存的所有Hive表的分区目录信息中，确定未建立分区的Hive表对应的分区目录信息；基于分区字段信息，以及未建立分区的Hive表对应的分区目录信息，对未建立分区的Hive表创建分区。本发明能够批量的对Hive分区进行修复，有效地提高了Hive分区的修复速度和修复效率。

Description

一种Hive表修复方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种Hive表修复方法、装置、设备及计算机可读存储介质。

背景技术

Hive是基于Hadoop(海杜普)的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL(Structured Query Language，结构化查询语言)查询功能，可以将SQL语句转换为编程模型MapReduce、开源计算框架Tez或者计算引擎Spark任务进行运行。Hive提供了一系列的工具，对数据执行ETL(Extract-Transform-Load，抽取-转换-加载)操作，对存储在Hadoop中的大规模数据进行存储、查询和分析。

在指定Hive分区字段进行数据查询时，所查询的Hive表必须先建立好分区，否则分区目录下的数据不能正常的显示。目前Hive提供两种方式来修复Hive表的分区：方式一，采用Hive官方提供的DDL(Data Definition Language，模式数据定义语言)语句添加分区，遍历Hive表的所有分区目录，根据分区目录生成添加分区的SQL脚本，再使用hive-f[批量Hive分区修复].sql进行分区的修复；方式二，采用Hive官方提供的分区修复命令MSCKREPAIR工具进行Hive表的分区修复。

其中，方式一主要存在以下缺陷：在Hive表的分区目录过多的情况下，遍历分区目录会非常耗时；不同Hive表的分区列个数和分区目录命名可能不尽相同，需要编写不同的修复脚本，实现繁琐和低效；如果Hive表已经存在部分分区，会创建这些已经存在的分区，当创建已存在分区的命令执行失败后才会去创建其他分区，造成了极大的耗时，效率低下。

方式二主要存在以下缺陷：MSCK REPAIR对于Hive分区目录命名有要求，对于非常规的目录并不支持；MSCK REPAIR对单个表进行分区修复时，需要调用HFDS(HadoopDistributed File System，海杜普分布式文件系统)的API(Application ProgrammingInterface，应用程序编程接口)递归扫描所有分区目录，当数据目录很多的情况下，耗时巨大，效率低下。

发明内容

本发明要解决的技术问题是，现有技术中Hive表修复效率低下。

本发明采用的技术方案是提供一种数据仓库工具Hive表修复方法，包括：

在Hive的元数据库中确定Hive表的分区字段信息；

在预设的分布式缓存预存的所有Hive表的分区目录信息中，确定未建立分区的Hive表对应的分区目录信息；

基于分区字段信息，以及未建立分区的Hive表对应的分区目录信息，对未建立分区的Hive表创建分区。

可选的，在预设的分布式缓存预存的Hive表的分区目录信息中，确定未建立分区的Hive表对应的分区目录信息之前，方法还包括：

基于设定的更新周期，将所有Hive表的分区目录信息更新至分布式缓存。

可选的，基于分区字段信息，以及未建立分区的Hive表对应的分区目录信息，对未建立分区的Hive表创建分区，包括：

基于分区字段信息，以及未建立分区的Hive表对应的分区目录信息，生成未建立分区的Hive表对应的分区信息；其中，分区信息包括：Hive表的分区字段名称，Hive表的分区字段类型，以及未建立分区的Hive表在海杜普分布式文件系统HDFS的路径信息；

根据分区信息，对未建立分区的Hive表创建分区。

可选的，根据分区信息，对未建立分区的Hive表创建分区，包括：

将分区信息添加至预设的分区描述信息对象中；

通过分区描述信息对象调用Hive分区创建应用程序编程接口API，对未建立分区的Hive表创建分区。

可选的，未建立分区的Hive表的数量为一个或多个。

本发明还提供一种数据仓库工具Hive表修复装置，包括：

第一确定模块，用于在Hive的元数据库中确定Hive表的分区字段信息；

第二确定模块，用于在预设的分布式缓存预存的所有所述Hive表的分区目录信息中，确定未建立分区的Hive表对应的分区目录信息；

创建模块，用于基于所述分区字段信息，以及所述未建立分区的Hive表对应的分区目录信息，对所述未建立分区的Hive表创建分区。

可选的，所述创建模块，具体用于：

基于所述分区字段信息，以及所述未建立分区的Hive表对应的分区目录信息，生成所述未建立分区的Hive表对应的分区信息；其中，所述分区信息包括：所述Hive表的分区字段名称，所述Hive表的分区字段类型，以及所述未建立分区的Hive表在海杜普分布式文件系统HDFS的路径信息；

根据所述分区信息，对所述未建立分区的Hive表创建分区。

可选的，所述根据所述分区信息，对所述未建立分区的Hive表创建分区，包括：

将所述分区信息添加至预设的分区描述信息对象中；

通过所述分区描述信息对象调用Hive分区创建应用程序编程接口API，对所述未建立分区的Hive表创建分区。

本发明还提供一种数据仓库工具Hive表修复设备，所述Hive表修复设备包括处理器和存储器；

所述处理器用于执行存储器中存储的Hive表修复的程序，以实现上述的Hive表修复方法的步骤。

本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述的Hive表修复方法的步骤。

采用上述技术方案，本发明至少具有下列优点：

本发明所述一种Hive表修复方法、装置、设备及计算机可读存储介质，能够批量的对Hive分区进行修复，有效地提高了Hive分区的修复速度和修复效率。

附图说明

图1为本发明第一实施例的Hive表修复方法流程图；

图2为本发明第二实施例的Hive表修复方法流程图；

图3为本发明第三至第四实施例的Hive表修复装置组成结构示意图；

图4为本发明第四实施例的Hive表修复装置组成结构示意图；

图5为本发明第五实施例的Hive表修复设备组成结构示意图。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效，以下结合附图及较佳实施例，对本发明进行详细说明如后。

本发明第一实施例，一种Hive表修复方法，如图1所示，包括以下具体步骤：

步骤S101，在Hive的元数据库中确定Hive表的分区字段信息。

在本实施例中，Hive表的分区字段信息包括但不限于：Hive表的分区字段名称，以及Hive表的分区字段类型等信息。

在本实施例中，元数据库的类型包括但不限于：Hive MetaStore数据库等类型。

例如：在Hive MetaStore数据库中确定Hive表的分区字段名称，以及Hive表的分区字段信息类型。

步骤S102，在预设的分布式缓存预存的所有Hive表的分区目录信息中，确定未建立分区的Hive表对应的分区目录信息。

在本实施例中，预设的分布式缓存包括但不限于：分布式缓存Redis等类型的分布式缓存。

步骤S103，基于分区字段信息，以及未建立分区的Hive表对应的分区目录信息，对未建立分区的Hive表创建分区。

基于分区字段信息，以及未建立分区的Hive表对应的分区目录信息，对未建立分区的Hive表创建分区，能够有效的避免遍历所有Hive表的分区目录，尤其在Hive表的分区目录数量巨大的情况下，有效的克服了避免遍历所有Hive表的分区目录的耗时过大和效率低下的缺陷；同时避免了对未建立分区的Hive表创建分区需要编写不同修复脚本，实现方式复杂、繁琐和低效的缺陷。

本发明第一实施例所述的Hive表修复方法，能够批量的对Hive分区进行修复，有效地提高了Hive分区的修复速度和修复效率。

本发明第二实施例，一种Hive表修复方法，如图2所示，包括以下具体步骤：

步骤S201，在Hive的元数据库中确定Hive表的分区字段信息。

步骤S202，基于设定的更新周期，将所有Hive表的分区目录信息更新至预设的分布式缓存。

在本实施例中，对更新周期不做具体限定，可以是工程师根据工程经验设置的最佳更新周期，也可以是通过有限次的试验得到的最佳更新周期，也可以是通过有限次的计算机仿真得到的最佳更新周期。

例如：基于设定的更新周期10秒，将所有Hive表的分区目录信息更新至预设的分布式缓存Redis。

步骤S203，在预设的分布式缓存预存的所有Hive表的分区目录信息中，确定未建立分区的Hive表对应的分区目录信息。

在本实施例中，未建立分区的Hive表的数量为一个或多个。

步骤S204，基于分区字段信息，以及未建立分区的Hive表对应的分区目录信息，对未建立分区的Hive表创建分区。

可选的，步骤S204，包括：

根据分区信息，对未建立分区的Hive表创建分区。

可选的，根据分区信息，对未建立分区的Hive表创建分区的方式包括但不限于：

将分区信息添加至预设的分区描述信息对象中；

通过分区描述信息对象调用Hive分区创建API(Application ProgrammingInterface,应用程序编程接口)，对未建立分区的Hive表创建分区。

例如:将分区信息添加至预设的AddPartitionDesc对象中；

通过AddPartitionDesc对象调用Hive分区创建API，对未建立分区的Hive表创建分区。

本发明第二实施例所述的Hive表修复方法，能够批量的对Hive分区进行修复，有效地提高了Hive分区的修复速度和修复效率。

本发明第三实施例，一种Hive表修复装置，如图3所示，包括以下组成部分：

第一确定模块100，用于在Hive的元数据库中确定Hive表的分区字段信息。

例如：第一确定模块100，用于在Hive MetaStore数据库中确定Hive表的分区字段名称，以及Hive表的分区字段信息类型。

第二确定模块200，用于在预设的分布式缓存预存的所有Hive表的分区目录信息中，确定未建立分区的Hive表对应的分区目录信息。

创建模块300，用于基于分区字段信息，以及未建立分区的Hive表对应的分区目录信息，对未建立分区的Hive表创建分区。

本发明第三实施例所述的Hive表修复装置，能够批量的对Hive分区进行修复，有效地提高了Hive分区的修复速度和修复效率。

本发明第四实施例，一种Hive表修复装置，如图3和图4所示，包括以下组成部分：

在本实施例中，未建立分区的Hive表的数量为一个或多个。

可选的，创建模块300，具体用于：

根据分区信息，对未建立分区的Hive表创建分区。

将分区信息添加至预设的分区描述信息对象中；

例如:创建模块300，用于将分区信息添加至预设的AddPartitionDesc对象中；

可选的，如图4所示，Hive表修复装置还包括：缓存模块400，用于在预设的分布式缓存预存的所有Hive表的分区目录信息中，确定未建立分区的Hive表对应的分区目录信息之前，基于设定的更新周期，将所有Hive表的分区目录信息更新至预设的分布式缓存。

例如：缓存模块400，用于基于设定的更新周期10秒，将所有Hive表的分区目录信息更新至预设的分布式缓存Redis。

本发明第四实施例所述的Hive表修复装置，能够批量的对Hive分区进行修复，有效地提高了Hive分区的修复速度和修复效率。

本发明第五实施例，一种Hive表修复设备，如图5所示，包括以下组成部分：

处理器501和存储器502。在本实施例中，处理器501和存储器502可通过总线或者其它方式连接。

处理器501可以是通用处理器，例如中央处理器(Central Processing Unit，CPU)，还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(英文：Application Specific Integrated Circuit，ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。其中，存储器502用于存储处理器501的可执行指令；

存储器502，用于存储程序代码，并将该程序代码传输给处理器501。存储器502可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random Access Memory，RAM)；存储器502也可以包括非易失性存储器(Non-Volatile Memory)，例如只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；存储器502还可以包括上述种类的存储器的组合。

其中，处理器501用于调用存储器502存储的程序代码管理代码，执行本发明第一实施例至本发明第二实施例中任一实施例中部分或全部步骤。

本发明第五实施例所述的Hive表修复设备，能够批量的对Hive分区进行修复，有效地提高了Hive分区的修复速度和修复效率。

本发明第六实施例，一种计算机可读存储介质。

计算机存储介质可以是RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域已知的任何其他形式的存储介质。

计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现本发明第一实施例至本发明第二实施例中任一实施例中部分或全部步骤。

本发明第六实施例中所述的一种计算机可读存储介质，存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，能够批量的对Hive分区进行修复，有效地提高了Hive分区的修复速度和修复效率。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种数据仓库工具Hive表修复方法，其特征在于，包括：

在Hive的元数据库中确定Hive表的分区字段信息；

在预设的分布式缓存预存的所有所述Hive表的分区目录信息中，确定未建立分区的Hive表对应的分区目录信息；

基于所述分区字段信息，以及所述未建立分区的Hive表对应的分区目录信息，对所述未建立分区的Hive表创建分区。

2.根据权利要求1所述的方法，其特征在于，在预设的分布式缓存预存的所述Hive表的分区目录信息中，确定未建立分区的Hive表对应的分区目录信息之前，所述方法还包括：

基于设定的更新周期，将所有所述Hive表的分区目录信息更新至所述分布式缓存。

3.根据权利要求1所述的方法，其特征在于，所述基于所述分区字段信息，以及所述未建立分区的Hive表对应的分区目录信息，对所述未建立分区的Hive表创建分区，包括：

根据所述分区信息，对所述未建立分区的Hive表创建分区。

4.根据权利要求3所述的方法，其特征在于，所述根据所述分区信息，对所述未建立分区的Hive表创建分区，包括：

将所述分区信息添加至预设的分区描述信息对象中；

5.根据权利要求1至4任一项所述的方法，其特征在于，所述未建立分区的Hive表的数量为一个或多个。

6.一种数据仓库工具Hive表修复装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述创建模块，具体用于：

根据所述分区信息，对所述未建立分区的Hive表创建分区。

8.根据权利要求7所述的装置，其特征在于，所述根据所述分区信息，对所述未建立分区的Hive表创建分区，包括：

将所述分区信息添加至预设的分区描述信息对象中；

9.一种数据仓库工具Hive表修复设备，其特征在于，所述Hive表修复设备包括处理器和存储器；

所述处理器用于执行存储器中存储的Hive表修复的程序，以实现根据权利要求1～5中任一项所述的Hive表修复方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现根据权利要求1～5中任一项所述的Hive表修复方法的步骤。