CN111291130B - Hive表一致性校验方法、系统、设备及存储介质 - Google Patents

Hive表一致性校验方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN111291130B
CN111291130B CN201811488422.2A CN201811488422A CN111291130B CN 111291130 B CN111291130 B CN 111291130B CN 201811488422 A CN201811488422 A CN 201811488422A CN 111291130 B CN111291130 B CN 111291130B
Authority
CN
China
Prior art keywords
file
hive table
format
file format
hive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811488422.2A
Other languages
English (en)
Other versions
CN111291130A (zh
Inventor
安金龙
刘业辉
张宁
王彦明
高相斌
张增
李晨
张再
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Wodong Tianjun Information Technology Co Ltd
Priority to CN201811488422.2A priority Critical patent/CN111291130B/zh
Publication of CN111291130A publication Critical patent/CN111291130A/zh
Application granted granted Critical
Publication of CN111291130B publication Critical patent/CN111291130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种Hive表一致性校验方法、系统、设备及存储介质,所述方法包括:获取Hive表的元数据;解析所述元数据,得到Hive表的第一文件格式和文件存储位置;根据所述文件存储位置确定存储在HDFS中的对应文件的第二文件格式;判断同一Hive表对应的第一文件格式和第二文件格式是否一致;如果不一致,则记录当前Hive表的信息。本发明对Hive表的元数据和数据文件格式的一致性进行校验,从而发现存在问题的Hive表,提高了Hive数据仓库的健康度和数据质量,同时也能有效地避免对Hive数据表的误操作导致数据不可用的问题。

Description

Hive表一致性校验方法、系统、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种Hive表一致性校验方法、系统、设备及存储介质。
背景技术
互联网现在进入了大数据时代,而Hadoop就是大数据时代里的核心技术,Hadoop是一个由Apache基金会所开发的分布式系统基础架构。但是Hadoop的MapReduce操作(MapReduce是一种编程模型,用于大规模数据集的并行运算)专业性太强,Hive是一种建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS(Hadoop分布式文件系统)中的数据进行分析和管理;它可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL(Structured Query Language,结构化查询语言)查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL去查询分析需要的内容,这套SQL简称Hive SQL(HQL),使不熟悉MapReduce的用户也能很方便地利用SQL语言对数据进行查询、汇总、分析。
Hive文件存储格式有很多种,例如Text File、Sequence File、RC File、ORCFile、Text+Lzo压缩格式等等,还可以有用户自定义格式。然而现有的Hive数据仓库中,可能会出现Hive表的元数据与数据文件格式不一致的情况,导致Hive表无法正常查询出数据。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种Hive表一致性校验方法、系统、设备及存储介质,对Hive表的元数据和数据文件格式的一致性进行校验,从而提高Hive数据仓库的健康度和数据质量。
本发明实施例提供一种Hive表一致性校验方法,所述方法包括如下步骤:
获取Hive表的元数据;
解析所述元数据,得到Hive表的第一文件格式和文件存储位置;
根据所述文件存储位置确定存储在HDFS中的对应文件的第二文件格式;
判断同一Hive表对应的第一文件格式和第二文件格式是否一致;
如果不一致,则记录当前Hive表的信息。
可选地,所述获取Hive表的元数据,包括如下步骤:
周期性地对各个Hive表进行扫描,获取各个Hive表的元数据。
可选地,还包括如下步骤:
建立文件格式数据库,所述文件格式数据库中存储有多种文件格式以及各种文件格式所对应的判定方法。
可选地,所述根据所述文件存储位置确定存储在HDFS中的对应文件的第二文件格式,包括如下步骤:
从所述文件格式数据库中查询得到各种文件格式所对应的判定方法,依次采用各种文件格式所对应的判定方法对存储在HDFS中的对应文件进行判断,确定该文件的第二文件格式。
可选地,所述文件格式数据库中存储有Lzo压缩格式、Sequence File格式、TextFile格式和ORC格式中的至少一种。
可选地,所述Lzo压缩格式的判定方法为:根据所述文件存储位置获取存储在HDFS中的对应文件的后缀,如果后缀为Lzo压缩格式的后缀,则该文件的第二文件格式为Lzo压缩格式;
所述Sequence File格式的判定方法为:根据所述文件存储位置获取存储在HDFS中的对应文件的后缀,如果后缀为Sequence File格式的后缀,则该文件的第二文件格式为Sequence File格式。
可选地,所述Text File格式的判定方法为:根据所述文件存储位置将文件下载到本地,如果文件格式文档的文件名中出现Text,则该文件的第二文件格式为Text格式。
可选地,所述ORC格式的判定方法为:使用Hive-orcfiledump命令对所述文件存储位置下的文件进行操作,对操作结果进行文本搜索,如果搜索到读取ORC数据命令,则该文件的第二文件格式为ORC格式。
可选地,所述记录当前Hive表的信息,包括记录当前Hive表的表名、当前Hive表对应的第一文件格式和第二文件格式。
本发明实施例还提供一种Hive表一致性校验系统,应用于所述的Hive表一致性校验方法,所述Hive表一致性校验系统包括:
元数据获取模块,用于获取Hive表的元数据;
元数据解析模块,用于解析所述元数据,得到Hive表的第一文件格式和文件存储位置;
文件格式确定模块,用于根据所述文件存储位置确定存储在HDFS中的对应文件的第二文件格式;
一致性校验模块,用于判断同一Hive表对应的第一文件格式和第二文件格式是否一致,如果不一致,则记录当前Hive表的信息。
本发明实施例还提供一种Hive表一致性校验设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的Hive表一致性校验方法的步骤。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的Hive表一致性校验方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本发明所提供的Hive表一致性校验方法、系统、设备及存储介质具有下列优点:
本发明首先获取Hive表的元数据中定义的文件格式,并获取Hive表对应的数据文件的文件格式,然后判断元数据中定义的文件格式和数据文件的文件格式是否一致,实现Hive表一致性校验,从而发现存在问题的Hive表,提高Hive数据仓库的健康度和数据质量,同时也能有效地避免对Hive数据表的误操作导致数据不可用的问题。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的Hive表一致性校验方法的流程图;
图2是本发明一具体实例的Hive表一致性校验方法的流程图;
图3是本发明一具体实例的Hive表一致性校验系统的结构框图;
图4是本发明一实施例的Hive表一致性校验设备的结构示意图;
图5是本发明一实施例的计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
如图1所示,本发明实施例提供一种Hive表一致性校验方法,所述方法包括如下步骤:
S100:获取Hive表的元数据;
S200:解析所述元数据,得到Hive表的第一文件格式和文件存储位置;
S300:根据所述文件存储位置确定存储在HDFS中的对应文件的第二文件格式;
S400:判断同一Hive表对应的第一文件格式和第二文件格式是否一致;
S500:如果不一致,则记录当前Hive表的信息;
S600:如果一致,则不对当前Hive表进行处理。
因此,本发明通过步骤S200解析元数据,可以得到元数据中Hive表的第一文件格式,通过步骤S300可以根据文件存储位置确定HDFS存储的实体文件的第二文件格式,通过步骤S400对Hive表的元数据和数据文件格式的一致性进行校验,从而发现存在问题的Hive表,当不一致时,记录当前Hive表的信息,并且可以进一步生成报告,发送给该Hive表的负责人员,从而提高了Hive数据仓库的健康度和数据质量,同时也能有效地避免对Hive数据表的误操作导致数据不可用的问题。
在该实施例中,步骤S100中,所述获取Hive表的元数据,包括如下步骤:
周期性地对各个Hive表进行扫描,获取各个Hive表的元数据。
在该实施例中,所述Hive表一致性校验方法还包括如下步骤:
建立文件格式数据库,所述文件格式数据库中存储有多种文件格式以及各种文件格式所对应的判定方法。
在该实施例中,步骤S400中,所述根据所述文件存储位置确定存储在HDFS中的对应文件的第二文件格式,包括如下步骤:
从所述文件格式数据库中查询得到各种文件格式所对应的判定方法,依次采用各种文件格式所对应的判定方法对存储在HDFS中的对应文件进行判断,确定该文件的第二文件格式。
Hive是典型的C/S模式(客户端/服务器模式),客户端有JDBC/ODBC Client和Thrift Client两类。服务器端则分为几个部分:CLI、Thrift Server、Metastore、WUI、Driver。Metastore是Hive元数据的存储地。在功能上Metastore分为两个部分:服务和存储,也就是架构图中提到的Metastore及其Database。
Hive的体系结构可以分为以下几部分:
(1)用户接口主要有三个:CLI,Client和WUI。其中最常用的是CLI,CLI启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至Hive Server。在启动Client模式的时候,需要指出Hive Server所在节点,并且在该节点启动Hive Server。WUI是通过浏览器访问Hive。
(2)Hive将元数据存储在数据库中,如mysql、derby。Hive中的元数据包括表的名字、表的列和分区及其属性、表的属性(是否为外部表等)、表的数据所在目录等。
(3)解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后有MapReduce调用执行。
(4)Hive的数据存储在HDFS中,大部分的查询、计算由MapReduce完成(包含*的查询,比如select*from tbl不会生成MapRedcue任务)。
Hive也允许熟悉MapReduce开发者们开发自定义的mappers和reducers来处理内建的mappers和reducers无法完成的复杂的分析工作。Hive还允许用户编写自己定义的函数UDF,用来在查询中使用。Hive中有3种UDF:User Defined Functions(UDF)、UserDefined AggregationFunctions(UDAF)、User Defined Table Generating Functions(UDTF)。
Hive文件存储格式包括以下几类:
(1)Text File
建表语法:STORED AS TEXTFILE;
可结合Gzip、Bzip2等压缩算法使用。
(2)Sequence File
建表语法:STORED AS SEQUENCEFILE;
SequenceFile是Hadoop API提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop的标准的Writable接口实现序列化和反序列化。它与Hadoop API中的MapFile是互相兼容的。Hive中的SequenceFile继承自Hadoop API的SequenceFile,不过它的key为空,使用value存放实际的值,这样是为了避免MR在运行map阶段的排序过程。
(3)RC File
建表语法:STORED AS RCFILE;
INPUTFORMAT:org.apache.hadoop.hive.ql.io.RCFileInputFormat;
RCFILE是一种行列存储相结合的存储方式。首先,其将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取。
(4)ORC File
建表语法:STORED AS ORC;
INPUTFORMAT:org.apache.hadoop.hive.ql.io.orc.OrcInputFormat;
ORC文件格式是一种Hadoop生态圈中的列式存储格式。
(5)Text+Lzo压缩格式
建表语法:STORED AS INPUTFORMAT"com.hadoop.mapred.DeprecatedLzoTextInputFormat"
OUTPUTFORMAT
"org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat"
INPUTFORMAT:com.hadoop.mapred.DeprecatedLzoTextInputFormat
文件后缀:lzo
(6)自定义格式
用户可以通过实现inputformat自定义格式;
其中Text File为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到HDFS上不进行处理。
因此,所述文件格式数据库中存储有Lzo压缩格式、Sequence File格式、TextFile格式和ORC格式中的至少一种。
进一步地,所述Lzo压缩格式的判定方法为:根据所述文件存储位置获取存储在HDFS中的对应文件的后缀,如果后缀为Lzo压缩格式的后缀,则该文件的第二文件格式为Lzo压缩格式;
所述Sequence File格式的判定方法为:根据所述文件存储位置获取存储在HDFS中的对应文件的后缀,如果后缀为Sequence File格式的后缀,则该文件的第二文件格式为Sequence File格式。
进一步地,所述Text File格式的判定方法为:根据所述文件存储位置将文件下载到本地,如果文件格式文档的文件名中出现Text,则该文件的第二文件格式为Text格式。
进一步地,所述ORC格式的判定方法为:使用Hive-orcfiledump命令对所述文件存储位置下的文件进行操作,对操作结果进行文本搜索,如果搜索到读取ORC数据命令,则该文件的第二文件格式为ORC格式。
进一步地,所述记录当前Hive表的信息,包括记录当前Hive表的表名、当前Hive表对应的第一文件格式和第二文件格式。
如图2所示,为本发明一具体实例的Hive表一致性校验方法的流程图。在该实例中,所述方法包括如下步骤:
S1:建立定时任务,周期性地对Hive元数据进行扫描;
S2:获取元数据信息,通过desc formatted库名.表名命令可以获取到Hive表的元数据;
S3:现在已知的文件格式的inputformat如下:
(a)text file:org.apache.hadoop.mapred.TextInputFormat
(b)sequence file:
org.apache.hadoop.mapred.SequenceFileInputFormat
(c)RC FILE:org.apache.hadoop.hive.ql.io.RCFileInputFormat
(d)ORC:org.apache.hadoop.hive.ql.io.orc.OrcInputFormat
(e)Lzo:com.hadoop.mapred.DeprecatedLzoTextInputFormat
S5:根据S4解析出的location,获取文件后缀;
S6:如果文件后缀是.lzo判定:数据文件是lzo压缩格式;如果文件后缀是.seq判定数据文件格式是sequence file;
S7:使用hadoop fs–get文件名将文件下载到本地;
S8:然后使用linux命令查看文件格式file文件名,如果结果中出现text则判定数据文件是text格式;
S9:使用hive–orcfiledump命令对location下的文件进行操作;
S10:对结果进行grep如果出现“Reading ORC rows from”判定数据文件格式是ORC;如下:
hive--orcfiledump HDFS文件名|more
Structure for hdfs://ns**
File Version:0.12with HIVE_8732
[2018-08-06T16:13:59.733+08:00][INFO]io.orc.ReaderImpl.rowsOptions(ReaderImpl.java 561)[main]:Reading ORCrows from
S11:根据上述的判断方式的判断结果,输出第二文件格式;
S12:比较S3中的inputformat和S11中获取到的数据文件格式是否一致,如果不一致跳转到步骤S13;如果一致则跳转到步骤S14;
S13:将不一致的表名、inputformat、数据文件格式,记录到临时文件unhealth_table.txt中;
S14:如果一致,不进行处理;
最后在扫描完所有hive表后,将所有不一致的信息生成报告形式,发送给各表负责人,从而提高了Hive数据仓库的健康度和数据质量,同时也能有效地避免对Hive数据表的误操作导致数据不可用的问题。
如图3所示,本发明实施例还提供一种Hive表一致性校验系统,应用于所述的Hive表一致性校验方法,所述Hive表一致性校验系统包括:
元数据获取模块M100,用于获取Hive表的元数据;
元数据解析模块M200,用于解析所述元数据,得到Hive表的第一文件格式和文件存储位置;
文件格式确定模块M300,用于根据所述文件存储位置确定存储在HDFS中的对应文件的第二文件格式;
一致性校验模块M400,用于判断同一Hive表对应的第一文件格式和第二文件格式是否一致,如果不一致,则记录当前Hive表的信息。
因此,本发明通过元数据解析模块M200解析元数据,可以得到元数据中Hive表的第一文件格式,通过文件格式确定模块M300可以根据文件存储位置确定HDFS存储的实体文件的第二文件格式,通过一致性校验模块M400对Hive表的元数据和数据文件格式的一致性进行校验,从而发现存在问题的Hive表,当不一致时,记录当前Hive表的信息,并且可以进一步生成报告,发送给该Hive表的负责人员,从而提高了Hive数据仓库的健康度和数据质量,同时也能有效地避免对Hive数据表的误操作导致数据不可用的问题。
本发明实施例还提供一种Hive表一致性校验设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的Hive表一致性校验方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
下面参照图4来描述根据本发明的这种实施方式的电子设备600。图4显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
因此,该实施例的Hive表一致性校验设备的处理器执行存储单元中的程序代码时,可以通过应用发起网络请求的同时保存网络请求函数的名称、网络请求参数、网络返回参数和回调函数等相关信息方便抓包调试应用,方便用户操作,提高抓包效率,并降低抓包成本。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的Hive表一致性校验方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图5所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
因此,该实施例的计算机存储介质中的程序代码被执行时,可以通过应用发起网络请求的同时保存网络请求函数的名称、网络请求参数、网络返回参数和回调函数等相关信息方便抓包调试应用,方便用户操作,提高抓包效率,并降低抓包成本。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统、设备和计算机存储介质的实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本发明所提供的Hive表一致性校验方法、系统、设备及存储介质具有下列优点:
本发明首先获取Hive表的元数据中定义的文件格式,并获取Hive表对应的数据文件的文件格式,然后判断元数据中定义的文件格式和数据文件的文件格式是否一致,实现Hive表一致性校验,从而发现存在问题的Hive表,提高Hive数据仓库的健康度和数据质量,同时也能有效地避免对Hive数据表的误操作导致数据不可用的问题。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种Hive表一致性校验方法,其特征在于,包括如下步骤:
获取Hive表的元数据;
解析所述元数据,得到Hive表的第一文件格式和文件存储位置;
根据所述文件存储位置确定存储在HDFS中的对应文件的第二文件格式;
判断同一Hive表对应的第一文件格式和第二文件格式是否一致;
如果不一致,则记录当前Hive表的信息;
所述方法还包括如下步骤:
建立文件格式数据库,所述文件格式数据库中存储有多种文件格式以及各种文件格式所对应的判定方法;
所述根据所述文件存储位置确定存储在HDFS中的对应文件的第二文件格式,包括如下步骤:
从所述文件格式数据库中查询得到各种文件格式所对应的判定方法,依次采用各种文件格式所对应的判定方法对存储在HDFS中的对应文件进行判断,确定该文件的第二文件格式。
2.根据权利要求1所述的Hive表一致性校验方法,其特征在于,所述获取Hive表的元数据,包括如下步骤:
周期性地对各个Hive表进行扫描,获取各个Hive表的元数据。
3.根据权利要求1所述的Hive表一致性校验方法,其特征在于,所述文件格式数据库中存储有Lzo压缩格式、Sequence File格式、Text File格式和ORC格式中的至少一种。
4.根据权利要求3所述的Hive表一致性校验方法,其特征在于,所述Lzo压缩格式的判定方法为:根据所述文件存储位置获取存储在HDFS中的对应文件的后缀,如果后缀为Lzo压缩格式的后缀,则该文件的第二文件格式为Lzo压缩格式;
所述Sequence File格式的判定方法为:根据所述文件存储位置获取存储在HDFS中的对应文件的后缀,如果后缀为Sequence File格式的后缀,则该文件的第二文件格式为Sequence File格式。
5.根据权利要求3所述的Hive表一致性校验方法,其特征在于,所述Text File格式的判定方法为:根据所述文件存储位置将文件下载到本地,如果文件格式文档的文件名中出现Text,则该文件的第二文件格式为Text格式。
6.根据权利要求3所述的Hive表一致性校验方法,其特征在于,所述ORC格式的判定方法为:使用Hive-orcfiledump命令对所述文件存储位置下的文件进行操作,对操作结果进行文本搜索,如果搜索到读取ORC数据命令,则该文件的第二文件格式为ORC格式。
7.根据权利要求1所述的Hive表一致性校验方法,其特征在于,所述记录当前Hive表的信息,包括记录当前Hive表的表名、当前Hive表对应的第一文件格式和第二文件格式。
8.一种Hive表一致性校验系统,其特征在于,应用于权利要求1至7中任一项所述的Hive表一致性校验方法,所述Hive表一致性校验系统包括:
元数据获取模块,用于获取Hive表的元数据;
元数据解析模块,用于解析所述元数据,得到Hive表的第一文件格式和文件存储位置;
文件格式确定模块,用于根据所述文件存储位置确定存储在HDFS中的对应文件的第二文件格式;
一致性校验模块,用于判断同一Hive表对应的第一文件格式和第二文件格式是否一致,如果不一致,则记录当前Hive表的信息。
9.一种Hive表一致性校验设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任一项所述的Hive表一致性校验方法的步骤。
10.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至7中任一项所述的Hive表一致性校验方法的步骤。
CN201811488422.2A 2018-12-06 2018-12-06 Hive表一致性校验方法、系统、设备及存储介质 Active CN111291130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811488422.2A CN111291130B (zh) 2018-12-06 2018-12-06 Hive表一致性校验方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811488422.2A CN111291130B (zh) 2018-12-06 2018-12-06 Hive表一致性校验方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111291130A CN111291130A (zh) 2020-06-16
CN111291130B true CN111291130B (zh) 2024-03-01

Family

ID=71024202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811488422.2A Active CN111291130B (zh) 2018-12-06 2018-12-06 Hive表一致性校验方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111291130B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347125A (zh) * 2020-11-16 2021-02-09 李增国 一种设备数据处理的方法及物联网数据处理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491475A (zh) * 2018-03-08 2018-09-04 平安科技(深圳)有限公司 数据快速批量导入方法、电子装置及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10255286B2 (en) * 2013-12-18 2019-04-09 Software Ag File metadata handler for storage and parallel processing of files in a distributed file system, and associated systems and methods

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491475A (zh) * 2018-03-08 2018-09-04 平安科技(深圳)有限公司 数据快速批量导入方法、电子装置及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Extracting Structue Data From UnStructured Data Through HiveQL;K Balakrishna;ijecs.in;第4卷(第4期);全文 *
基于Hive的性能优化研究;王康;陈海光;李东静;;上海师范大学学报(自然科学版)(第04期);全文 *

Also Published As

Publication number Publication date
CN111291130A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN107506451B (zh) 用于数据交互的异常信息监控方法及装置
CN110457277B (zh) 业务处理性能分析方法、装置、设备及存储介质
CN111241203B (zh) Hive数据仓库同步方法、系统、设备及存储介质
CN109471851B (zh) 数据处理方法、装置、服务器和存储介质
JP5791149B2 (ja) データベース・クエリ最適化のためのコンピュータで実装される方法、コンピュータ・プログラム、およびデータ処理システム
CN111309760A (zh) 数据检索方法、系统、设备及存储介质
CN112035443B (zh) 基于Linux平台的大数据执行方法、系统、设备及存储介质
CN113204571B (zh) 涉及写入操作的sql执行方法、装置及存储介质
CN111506603B (zh) 数据处理方法、装置、设备及存储介质
CN112685446A (zh) 通过Elasticsearch数据库的复杂SQL查询方法、装置、处理器及存储介质
CN113448562A (zh) 一种逻辑代码自动生成方法、装置和电子设备
US10846291B2 (en) Transforming a user-defined table function to a derived table in a database management system
CN111291130B (zh) Hive表一致性校验方法、系统、设备及存储介质
CN109473178B (zh) 医疗数据整合的方法、系统、设备及存储介质
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN108959454B (zh) 一种提示子句指定方法、装置、设备及存储介质
CN115295109A (zh) 医疗数据溯源方法及装置、存储介质、终端设备
CN113127496B (zh) 数据库中变更数据的确定方法及装置、介质和设备
US7831633B1 (en) Methods and apparatus for implementing a custom driver for accessing a data source
US20050165746A1 (en) System, apparatus and method of pre-fetching data
US20170277749A1 (en) Customize column sequence in projection list of select queries
CN112527880B (zh) 大数据集群元数据信息的采集方法、装置、设备及介质
CN116450609B (zh) 基于统一语法在异构数据源上建模的方法及设备
US7707138B2 (en) Identifying columns for row based operations
CN112948542A (zh) 埋点数据采集方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant