CN111563123A - 一种hive仓库元数据实时同步方法 - Google Patents

一种hive仓库元数据实时同步方法 Download PDF

Info

Publication number
CN111563123A
CN111563123A CN202010375596.9A CN202010375596A CN111563123A CN 111563123 A CN111563123 A CN 111563123A CN 202010375596 A CN202010375596 A CN 202010375596A CN 111563123 A CN111563123 A CN 111563123A
Authority
CN
China
Prior art keywords
log data
binary log
warehouse
type
management system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010375596.9A
Other languages
English (en)
Other versions
CN111563123B (zh
Inventor
闫守臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shouqi Zhixing Technology Co Ltd
Original Assignee
Beijing Shouqi Zhixing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shouqi Zhixing Technology Co Ltd filed Critical Beijing Shouqi Zhixing Technology Co Ltd
Priority to CN202010375596.9A priority Critical patent/CN111563123B/zh
Publication of CN111563123A publication Critical patent/CN111563123A/zh
Application granted granted Critical
Publication of CN111563123B publication Critical patent/CN111563123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开的hive仓库元数据实时同步方法,涉及数据库技术领域,通过实时获取hive仓库元数据的二进制日志数据,根据二进制日志产生的先后顺序,依次逐行解析二进制日志数据,得到二进制日志数据的类型,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统,实现了实时同步hive仓库元数据到元数据管理系统的目的,提高了效率及准确性。

Description

一种hive仓库元数据实时同步方法
技术领域
本发明涉及数据库技术领域,具体涉及一种hive仓库元数据实时同步方法。
背景技术
在大数据平台中建设元数据管理系统是作为数据治理手段的一种有效管理,而hive作为大数据平台的主流数据仓库,其元数据是大数据平台元数据管理系统的核心资源。但hive仓库专注数据操作方面管理,其元数据对外服务只提供基本查询,并不提供与元数据管理系统的消息通讯对接,而导致元数据管理系统中的元数据信息滞后严重。目前的主流方案是通过定时全量抽取或定时扫描hive元数据的方案保持hive元数据与元数据管理系统的信息同步,这些方案存在的缺陷是不能将同步hive元数据变更情况实时动态到元数据管理系统且效率及准确性都较低。
发明内容
为解决现有技术的不足,本发明实施例提供了一种hive仓库元数据实时同步方法,该方法包括以下步骤:
实时获取hive仓库元数据的二进制日志数据;
根据所述二进制日志产生的先后顺序,依次逐行解析所述二进制日志数据,得到所述二进制日志数据的类型;
根据所述二进制日志数据的类型,将相应的二进制日志数据写入 hive仓库元数据管理系统。
优选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统包括:
若所述二进制日志数据的类型为新增,则判断所述二进制日志数据中的仓库标识及相应创建者标识是否均为真,若是,则确定二进制日志数据的二进制日志数据的类型为仓库新增操作并将所述仓库信息写入hive仓库元数据管理系统,其中,所述仓库信息包括至少一个表格信息。
优选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型不是仓库新增操作,则判断所述二进制日志数据的表格标识及相应的创建者标识是否均为真,若是,则确定所述二进制日志数据的类型为表格新增操作并将表格信息及相应的字段信息写入到hive仓库元数据管理系统,其中,所述表格信息包括:表名、数据存放路径、数据输入格式、数据输出格式、表类型及分区信息,其中,所述分区信息包括分区大小、分区名称、分区文件数。
优选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型不是表格新增操作,则判断所述二进制日志数据的分区标识是否为真,若是,则确定所述二进制日志数据的类型为分区新增操作并将分区数据写入hive仓库元数据管理系统。
优选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型为更新操作,则判断所述二进制日志数据的表格标识及存储标识是否均为真,若是,则确定所述二进制日志数据的类型为表格更新操作并将所述表格的表格信息写入hive 仓库元数据管理系统。
优选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的存储标识和字段标识均为真,则确定所述二进制日志数据的类型为字段更新操作;
根据所述字段标识,得到相应的仓库标识和表格标识;
根据所述仓库标识和所述表格标识,从hive仓库元数据服务器获取相应的字段信息,将所述字段信息与hive仓库元数据管理系统的字段信息对比,将对比结果写入hive仓库元数据管理系统。
优选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型为删除操作,则判断所述二进制日志的仓库标识和创建者标识是否均为真,若是,则确定所述二进制日志数据的类型为仓库删除操作并删除所述hive仓库元数据管理系统中与所述仓库标识相关的hive仓库元数据。
优选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型不是删除操作,则判断所述二进制日志数据的表格标识和创建者标识是否均为真,若是,则确定所述二进制日志数据的类型为表格删除操作并删除hive仓库元数据管理系统中与所述表格标识相关的表格信息及相应的字段信息,其中,所述字段信息包括字段名称、字段类型及字段备注。
本发明实施例提供的hive仓库元数据实时同步方法具有以下有益效果:
采用直接循环读取二进制日志数据的方式,实时监控hive仓库元数据的变动情况,实现了实时同步hive仓库元数据到元数据管理系统的目的,提高了效率及准确性。
附图说明
图1为本发明实施例提供的hive仓库元数据实时同步方法流程示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示,本发明实施例提供的hive仓库元数据实时同步方法包括以下步骤:
S101,实时获取hive仓库元数据的二进制日志数据。
S102,根据二进制日志产生的先后顺序,依次逐行解析二进制日志数据,得到二进制日志数据的类型。
S103,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统。
可选地,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统包括:
若二进制日志数据的类型为新增,则判断二进制日志数据中的仓库标识及相应创建者标识是否均为真,若是,则确定二进制日志数据的二进制日志数据的类型为仓库新增操作并将仓库信息写入hive仓库元数据管理系统,其中,仓库信息包括至少一个表格信息。
作为一个具体的实施例,当仓库标识及相应创建者标识均为1时,则说明仓库标识及相应创建者标识均为真。
可选地,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若二进制日志数据的类型不是仓库新增操作,则判断二进制日志数据的表格标识及相应的创建者标识是否均为真,若是,则确定二进制日志数据的类型为表格新增操作并将表格信息及相应的字段信息写入到hive仓库元数据管理系统,其中,所述表格信息包括:表名、数据存放路径、数据输入格式、数据输出格式、表类型及分区信息,其中,所述分区信息包括分区大小、分区名称、分区文件数。
作为一个具体的实施例,当表格标识及相应创建者标识均为1时,则说明表格标识及相应创建者标识均为真。
可选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若二进制日志数据的类型不是表格新增操作,则判断二进制日志数据的分区标识是否为真,若是,则确定二进制日志数据的类型为分区新增操作并将分区数据写入hive仓库元数据管理系统。
作为一个具体的实施例,当分区标识为1时,则说明分区标识为真。
可选地,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若二进制日志数据的类型为更新操作,则判断二进制日志数据的表格标识及存储标识是否均为真,若是,则确定二进制日志数据的类型为表格更新操作并将表格的表格信息写入hive仓库元数据管理系统。
作为一个具体的实施例,当表格标识及存储标识均为1时,则说明表格标识及存储标识均为真。
可选地,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若二进制日志数据的存储标识和字段标识均为真,则确定二进制日志数据的类型为字段更新操作;
根据字段标识,得到相应的仓库标识和表格标识;
根据仓库标识和表格标识,从hive仓库元数据服务器获取相应的字段信息,将字段信息与hive仓库元数据管理系统的字段信息对比,将对比结果写入hive仓库元数据管理系统。
可选地,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若二进制日志数据的类型为删除操作,则判断二进制日志的仓库标识和创建者标识是否均为真,若是,则确定二进制日志数据的类型为仓库删除操作并删除hive仓库元数据管理系统中与仓库标识相关的hive仓库元数据。
可选地,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若二进制日志数据的类型不是删除操作,则判断二进制日志数据的表格标识和创建者标识是否均为真,若是,则确定二进制日志数据的类型为表格删除操作并删除hive仓库元数据管理系统中与表格标识相关的表格信息及相应的字段信息,其中,字段信息包括字段名称、字段类型及字段备注。
本发明实施例提供的hive仓库元数据实时同步方法,通过实时获取hive仓库元数据的二进制日志数据,根据二进制日志产生的先后顺序,依次逐行解析二进制日志数据,得到二进制日志数据的类型,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统,实现了实时同步hive仓库元数据到元数据管理系统的目的,提高了效率及准确性。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种hive仓库元数据实时同步方法,其特征在于,包括:
实时获取hive仓库元数据的二进制日志数据;
根据所述二进制日志产生的先后顺序,依次逐行解析所述二进制日志数据,得到所述二进制日志数据的类型;
根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统。
2.根据权利要求1所述的hive仓库元数据实时同步方法,其特征在于,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统包括:
若所述二进制日志数据的类型为新增,则判断所述二进制日志数据中的仓库标识及相应创建者标识是否均为真,若是,则确定二进制日志数据的二进制日志数据的类型为仓库新增操作并将所述仓库信息写入hive仓库元数据管理系统,其中,所述仓库信息包括至少一个表格信息。
3.根据权利要求2所述的hive仓库元数据实时同步方法,其特征在于,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型不是仓库新增操作,则判断所述二进制日志数据的表格标识及相应的创建者标识是否均为真,若是,则确定所述二进制日志数据的类型为表格新增操作并将表格信息及相应的字段信息写入到hive仓库元数据管理系统,其中,所述表格信息包括:表格名称、数据存放路径、数据输入格式、数据输出格式、表格类型及分区信息,其中,所述分区信息包括分区大小、分区名称、分区文件数。
4.根据权利要求3所述的hive仓库元数据实时同步方法,其特征在于,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型不是表格新增操作,则判断所述二进制日志数据的分区标识是否为真,若是,则确定所述二进制日志数据的类型为分区新增操作并将分区数据写入hive仓库元数据管理系统。
5.根据权利要求1所述的hive仓库元数据实时同步方法,其特征在于,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型为更新操作,则判断所述二进制日志数据的表格标识及存储标识是否均为真,若是,则确定所述二进制日志数据的类型为表格更新操作并将所述表格的表格信息写入hive仓库元数据管理系统。
6.根据权利要求5所述的hive仓库元数据实时同步方法,其特征在于,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的存储标识和字段标识均为真,则确定所述二进制日志数据的类型为字段更新操作;
根据所述字段标识,得到相应的仓库标识和表格标识;
根据所述仓库标识和所述表格标识,从hive仓库元数据服务器获取相应的字段信息,将所述字段信息与hive仓库元数据管理系统的字段信息对比,将对比结果写入hive仓库元数据管理系统。
7.根据权利要求1所述的hive仓库元数据实时同步方法,其特征在于,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型为删除操作,则判断所述二进制日志的仓库标识和创建者标识是否均为真,若是,则确定所述二进制日志数据的类型为仓库删除操作并删除所述hive仓库元数据管理系统中与所述仓库标识相关的hive仓库元数据。
8.根据权利要求7所述的hive仓库元数据实时同步方法,其特征在于,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型不是删除操作,则判断所述二进制日志数据的表格标识和创建者标识是否均为真,若是,则确定所述二进制日志数据的类型为表格删除操作并删除hive仓库元数据管理系统中与所述表格标识相关的表格信息及相应的字段信息,其中,字段信息包括字段名称、字段类型及字段备注。
CN202010375596.9A 2020-05-07 2020-05-07 一种hive仓库元数据实时同步方法 Active CN111563123B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010375596.9A CN111563123B (zh) 2020-05-07 2020-05-07 一种hive仓库元数据实时同步方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010375596.9A CN111563123B (zh) 2020-05-07 2020-05-07 一种hive仓库元数据实时同步方法

Publications (2)

Publication Number Publication Date
CN111563123A true CN111563123A (zh) 2020-08-21
CN111563123B CN111563123B (zh) 2023-08-22

Family

ID=72070823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010375596.9A Active CN111563123B (zh) 2020-05-07 2020-05-07 一种hive仓库元数据实时同步方法

Country Status (1)

Country Link
CN (1) CN111563123B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578655A (zh) * 2023-07-06 2023-08-11 舟谱数据技术南京有限公司 一种数据传输系统及其控制方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117306A (zh) * 2010-01-04 2011-07-06 阿里巴巴集团控股有限公司 Etl数据处理过程的监控方法及其系统
CN106055450A (zh) * 2016-05-20 2016-10-26 北京神州绿盟信息安全科技股份有限公司 一种二进制日志解析方法及装置
CN106484875A (zh) * 2016-10-13 2017-03-08 广州视源电子科技股份有限公司 基于molap的数据处理方法及装置
CN106570018A (zh) * 2015-10-10 2017-04-19 阿里巴巴集团控股有限公司 序列化与反序列化的方法、装置、系统以及电子设备
CN107885881A (zh) * 2017-11-29 2018-04-06 顺丰科技有限公司 业务数据实时上报、获取方法、装置、设备及其存储介质
CN109388523A (zh) * 2018-09-26 2019-02-26 四川巧夺天工信息安全智能设备有限公司 一种基于二进制日志文件恢复MySQL数据库的方法
CN109684331A (zh) * 2018-12-20 2019-04-26 浪潮软件股份有限公司 一种基于Kudu的对象存储元数据管理装置及方法
CN110196888A (zh) * 2019-05-27 2019-09-03 深圳前海微众银行股份有限公司 基于Hadoop的数据更新方法、装置、系统及介质
CN111241203A (zh) * 2020-02-10 2020-06-05 江苏满运软件科技有限公司 Hive数据仓库同步方法、系统、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117306A (zh) * 2010-01-04 2011-07-06 阿里巴巴集团控股有限公司 Etl数据处理过程的监控方法及其系统
CN106570018A (zh) * 2015-10-10 2017-04-19 阿里巴巴集团控股有限公司 序列化与反序列化的方法、装置、系统以及电子设备
CN106055450A (zh) * 2016-05-20 2016-10-26 北京神州绿盟信息安全科技股份有限公司 一种二进制日志解析方法及装置
CN106484875A (zh) * 2016-10-13 2017-03-08 广州视源电子科技股份有限公司 基于molap的数据处理方法及装置
CN107885881A (zh) * 2017-11-29 2018-04-06 顺丰科技有限公司 业务数据实时上报、获取方法、装置、设备及其存储介质
CN109388523A (zh) * 2018-09-26 2019-02-26 四川巧夺天工信息安全智能设备有限公司 一种基于二进制日志文件恢复MySQL数据库的方法
CN109684331A (zh) * 2018-12-20 2019-04-26 浪潮软件股份有限公司 一种基于Kudu的对象存储元数据管理装置及方法
CN110196888A (zh) * 2019-05-27 2019-09-03 深圳前海微众银行股份有限公司 基于Hadoop的数据更新方法、装置、系统及介质
CN111241203A (zh) * 2020-02-10 2020-06-05 江苏满运软件科技有限公司 Hive数据仓库同步方法、系统、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578655A (zh) * 2023-07-06 2023-08-11 舟谱数据技术南京有限公司 一种数据传输系统及其控制方法
CN116578655B (zh) * 2023-07-06 2023-09-15 舟谱数据技术南京有限公司 一种数据传输系统及其控制方法

Also Published As

Publication number Publication date
CN111563123B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN110019218B (zh) 数据存储与查询方法及设备
CN111459985B (zh) 标识信息处理方法及装置
US9619512B2 (en) Memory searching system and method, real-time searching system and method, and computer storage medium
CN104794123A (zh) 一种为半结构化数据构建NoSQL数据库索引的方法及装置
CN111858760B (zh) 一种异构数据库的数据处理方法及装置
CN103678694A (zh) 视频资源的倒排索引文件建立方法及其系统
CN108228664B (zh) 非结构化数据处理方法及装置
CN112597348A (zh) 一种大数据存储优化的方法及装置
CN111414424B (zh) 一种配置数据自动同步redis的方法、系统、介质及设备
CN112307318B (zh) 一种内容发布方法、系统及装置
CN114398315A (zh) 一种数据存储方法、系统、存储介质及电子设备
CN112241396B (zh) 基于Spark的对Delta进行小文件合并的方法及系统
CN110019169B (zh) 一种数据处理的方法及装置
CN111563123B (zh) 一种hive仓库元数据实时同步方法
CN109769027B (zh) 一种消息推送方法、装置及设备
CN112052248A (zh) 一种审计大数据处理方法及系统
CN107291938A (zh) 订单查询系统及方法
US20200311151A1 (en) Document structures for searching within and across messages
CN113448757B (zh) 消息处理方法、装置、设备、存储介质和系统
CN115033646A (zh) 一种基于Flink&Doris构建实时数仓系统的方法
CN114297236A (zh) 一种数据血缘分析方法、终端设备及存储介质
CN111651531B (zh) 数据导入方法、装置、设备及计算机存储介质
CN111061719B (zh) 数据收集方法、装置、设备和存储介质
CN115080504A (zh) 文件管理方法、终端及存储介质
CN112752165A (zh) 字幕处理方法、装置、服务器及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant