CN111563123A - 一种hive仓库元数据实时同步方法 - Google Patents
一种hive仓库元数据实时同步方法 Download PDFInfo
- Publication number
- CN111563123A CN111563123A CN202010375596.9A CN202010375596A CN111563123A CN 111563123 A CN111563123 A CN 111563123A CN 202010375596 A CN202010375596 A CN 202010375596A CN 111563123 A CN111563123 A CN 111563123A
- Authority
- CN
- China
- Prior art keywords
- log data
- binary log
- warehouse
- type
- management system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开的hive仓库元数据实时同步方法,涉及数据库技术领域,通过实时获取hive仓库元数据的二进制日志数据,根据二进制日志产生的先后顺序,依次逐行解析二进制日志数据,得到二进制日志数据的类型,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统,实现了实时同步hive仓库元数据到元数据管理系统的目的,提高了效率及准确性。
Description
技术领域
本发明涉及数据库技术领域,具体涉及一种hive仓库元数据实时同步方法。
背景技术
在大数据平台中建设元数据管理系统是作为数据治理手段的一种有效管理,而hive作为大数据平台的主流数据仓库,其元数据是大数据平台元数据管理系统的核心资源。但hive仓库专注数据操作方面管理,其元数据对外服务只提供基本查询,并不提供与元数据管理系统的消息通讯对接,而导致元数据管理系统中的元数据信息滞后严重。目前的主流方案是通过定时全量抽取或定时扫描hive元数据的方案保持hive元数据与元数据管理系统的信息同步,这些方案存在的缺陷是不能将同步hive元数据变更情况实时动态到元数据管理系统且效率及准确性都较低。
发明内容
为解决现有技术的不足,本发明实施例提供了一种hive仓库元数据实时同步方法,该方法包括以下步骤:
实时获取hive仓库元数据的二进制日志数据;
根据所述二进制日志产生的先后顺序,依次逐行解析所述二进制日志数据,得到所述二进制日志数据的类型;
根据所述二进制日志数据的类型,将相应的二进制日志数据写入 hive仓库元数据管理系统。
优选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统包括:
若所述二进制日志数据的类型为新增,则判断所述二进制日志数据中的仓库标识及相应创建者标识是否均为真,若是,则确定二进制日志数据的二进制日志数据的类型为仓库新增操作并将所述仓库信息写入hive仓库元数据管理系统,其中,所述仓库信息包括至少一个表格信息。
优选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型不是仓库新增操作,则判断所述二进制日志数据的表格标识及相应的创建者标识是否均为真,若是,则确定所述二进制日志数据的类型为表格新增操作并将表格信息及相应的字段信息写入到hive仓库元数据管理系统,其中,所述表格信息包括:表名、数据存放路径、数据输入格式、数据输出格式、表类型及分区信息,其中,所述分区信息包括分区大小、分区名称、分区文件数。
优选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型不是表格新增操作,则判断所述二进制日志数据的分区标识是否为真,若是,则确定所述二进制日志数据的类型为分区新增操作并将分区数据写入hive仓库元数据管理系统。
优选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型为更新操作,则判断所述二进制日志数据的表格标识及存储标识是否均为真,若是,则确定所述二进制日志数据的类型为表格更新操作并将所述表格的表格信息写入hive 仓库元数据管理系统。
优选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的存储标识和字段标识均为真,则确定所述二进制日志数据的类型为字段更新操作;
根据所述字段标识,得到相应的仓库标识和表格标识;
根据所述仓库标识和所述表格标识,从hive仓库元数据服务器获取相应的字段信息,将所述字段信息与hive仓库元数据管理系统的字段信息对比,将对比结果写入hive仓库元数据管理系统。
优选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型为删除操作,则判断所述二进制日志的仓库标识和创建者标识是否均为真,若是,则确定所述二进制日志数据的类型为仓库删除操作并删除所述hive仓库元数据管理系统中与所述仓库标识相关的hive仓库元数据。
优选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型不是删除操作,则判断所述二进制日志数据的表格标识和创建者标识是否均为真,若是,则确定所述二进制日志数据的类型为表格删除操作并删除hive仓库元数据管理系统中与所述表格标识相关的表格信息及相应的字段信息,其中,所述字段信息包括字段名称、字段类型及字段备注。
本发明实施例提供的hive仓库元数据实时同步方法具有以下有益效果:
采用直接循环读取二进制日志数据的方式,实时监控hive仓库元数据的变动情况,实现了实时同步hive仓库元数据到元数据管理系统的目的,提高了效率及准确性。
附图说明
图1为本发明实施例提供的hive仓库元数据实时同步方法流程示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示,本发明实施例提供的hive仓库元数据实时同步方法包括以下步骤:
S101,实时获取hive仓库元数据的二进制日志数据。
S102,根据二进制日志产生的先后顺序,依次逐行解析二进制日志数据,得到二进制日志数据的类型。
S103,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统。
可选地,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统包括:
若二进制日志数据的类型为新增,则判断二进制日志数据中的仓库标识及相应创建者标识是否均为真,若是,则确定二进制日志数据的二进制日志数据的类型为仓库新增操作并将仓库信息写入hive仓库元数据管理系统,其中,仓库信息包括至少一个表格信息。
作为一个具体的实施例,当仓库标识及相应创建者标识均为1时,则说明仓库标识及相应创建者标识均为真。
可选地,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若二进制日志数据的类型不是仓库新增操作,则判断二进制日志数据的表格标识及相应的创建者标识是否均为真,若是,则确定二进制日志数据的类型为表格新增操作并将表格信息及相应的字段信息写入到hive仓库元数据管理系统,其中,所述表格信息包括:表名、数据存放路径、数据输入格式、数据输出格式、表类型及分区信息,其中,所述分区信息包括分区大小、分区名称、分区文件数。
作为一个具体的实施例,当表格标识及相应创建者标识均为1时,则说明表格标识及相应创建者标识均为真。
可选地,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若二进制日志数据的类型不是表格新增操作,则判断二进制日志数据的分区标识是否为真,若是,则确定二进制日志数据的类型为分区新增操作并将分区数据写入hive仓库元数据管理系统。
作为一个具体的实施例,当分区标识为1时,则说明分区标识为真。
可选地,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若二进制日志数据的类型为更新操作,则判断二进制日志数据的表格标识及存储标识是否均为真,若是,则确定二进制日志数据的类型为表格更新操作并将表格的表格信息写入hive仓库元数据管理系统。
作为一个具体的实施例,当表格标识及存储标识均为1时,则说明表格标识及存储标识均为真。
可选地,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若二进制日志数据的存储标识和字段标识均为真,则确定二进制日志数据的类型为字段更新操作;
根据字段标识,得到相应的仓库标识和表格标识;
根据仓库标识和表格标识,从hive仓库元数据服务器获取相应的字段信息,将字段信息与hive仓库元数据管理系统的字段信息对比,将对比结果写入hive仓库元数据管理系统。
可选地,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若二进制日志数据的类型为删除操作,则判断二进制日志的仓库标识和创建者标识是否均为真,若是,则确定二进制日志数据的类型为仓库删除操作并删除hive仓库元数据管理系统中与仓库标识相关的hive仓库元数据。
可选地,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若二进制日志数据的类型不是删除操作,则判断二进制日志数据的表格标识和创建者标识是否均为真,若是,则确定二进制日志数据的类型为表格删除操作并删除hive仓库元数据管理系统中与表格标识相关的表格信息及相应的字段信息,其中,字段信息包括字段名称、字段类型及字段备注。
本发明实施例提供的hive仓库元数据实时同步方法,通过实时获取hive仓库元数据的二进制日志数据,根据二进制日志产生的先后顺序,依次逐行解析二进制日志数据,得到二进制日志数据的类型,根据二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统,实现了实时同步hive仓库元数据到元数据管理系统的目的,提高了效率及准确性。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (8)
1.一种hive仓库元数据实时同步方法,其特征在于,包括:
实时获取hive仓库元数据的二进制日志数据;
根据所述二进制日志产生的先后顺序,依次逐行解析所述二进制日志数据,得到所述二进制日志数据的类型;
根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统。
2.根据权利要求1所述的hive仓库元数据实时同步方法,其特征在于,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统包括:
若所述二进制日志数据的类型为新增,则判断所述二进制日志数据中的仓库标识及相应创建者标识是否均为真,若是,则确定二进制日志数据的二进制日志数据的类型为仓库新增操作并将所述仓库信息写入hive仓库元数据管理系统,其中,所述仓库信息包括至少一个表格信息。
3.根据权利要求2所述的hive仓库元数据实时同步方法,其特征在于,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型不是仓库新增操作,则判断所述二进制日志数据的表格标识及相应的创建者标识是否均为真,若是,则确定所述二进制日志数据的类型为表格新增操作并将表格信息及相应的字段信息写入到hive仓库元数据管理系统,其中,所述表格信息包括:表格名称、数据存放路径、数据输入格式、数据输出格式、表格类型及分区信息,其中,所述分区信息包括分区大小、分区名称、分区文件数。
4.根据权利要求3所述的hive仓库元数据实时同步方法,其特征在于,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型不是表格新增操作,则判断所述二进制日志数据的分区标识是否为真,若是,则确定所述二进制日志数据的类型为分区新增操作并将分区数据写入hive仓库元数据管理系统。
5.根据权利要求1所述的hive仓库元数据实时同步方法,其特征在于,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型为更新操作,则判断所述二进制日志数据的表格标识及存储标识是否均为真,若是,则确定所述二进制日志数据的类型为表格更新操作并将所述表格的表格信息写入hive仓库元数据管理系统。
6.根据权利要求5所述的hive仓库元数据实时同步方法,其特征在于,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的存储标识和字段标识均为真,则确定所述二进制日志数据的类型为字段更新操作;
根据所述字段标识,得到相应的仓库标识和表格标识;
根据所述仓库标识和所述表格标识,从hive仓库元数据服务器获取相应的字段信息,将所述字段信息与hive仓库元数据管理系统的字段信息对比,将对比结果写入hive仓库元数据管理系统。
7.根据权利要求1所述的hive仓库元数据实时同步方法,其特征在于,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型为删除操作,则判断所述二进制日志的仓库标识和创建者标识是否均为真,若是,则确定所述二进制日志数据的类型为仓库删除操作并删除所述hive仓库元数据管理系统中与所述仓库标识相关的hive仓库元数据。
8.根据权利要求7所述的hive仓库元数据实时同步方法,其特征在于,根据所述二进制日志数据的类型,将相应的二进制日志数据写入hive仓库元数据管理系统还包括:
若所述二进制日志数据的类型不是删除操作,则判断所述二进制日志数据的表格标识和创建者标识是否均为真,若是,则确定所述二进制日志数据的类型为表格删除操作并删除hive仓库元数据管理系统中与所述表格标识相关的表格信息及相应的字段信息,其中,字段信息包括字段名称、字段类型及字段备注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010375596.9A CN111563123B (zh) | 2020-05-07 | 2020-05-07 | 一种hive仓库元数据实时同步方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010375596.9A CN111563123B (zh) | 2020-05-07 | 2020-05-07 | 一种hive仓库元数据实时同步方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111563123A true CN111563123A (zh) | 2020-08-21 |
CN111563123B CN111563123B (zh) | 2023-08-22 |
Family
ID=72070823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010375596.9A Active CN111563123B (zh) | 2020-05-07 | 2020-05-07 | 一种hive仓库元数据实时同步方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563123B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578655A (zh) * | 2023-07-06 | 2023-08-11 | 舟谱数据技术南京有限公司 | 一种数据传输系统及其控制方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117306A (zh) * | 2010-01-04 | 2011-07-06 | 阿里巴巴集团控股有限公司 | Etl数据处理过程的监控方法及其系统 |
CN106055450A (zh) * | 2016-05-20 | 2016-10-26 | 北京神州绿盟信息安全科技股份有限公司 | 一种二进制日志解析方法及装置 |
CN106484875A (zh) * | 2016-10-13 | 2017-03-08 | 广州视源电子科技股份有限公司 | 基于molap的数据处理方法及装置 |
CN106570018A (zh) * | 2015-10-10 | 2017-04-19 | 阿里巴巴集团控股有限公司 | 序列化与反序列化的方法、装置、系统以及电子设备 |
CN107885881A (zh) * | 2017-11-29 | 2018-04-06 | 顺丰科技有限公司 | 业务数据实时上报、获取方法、装置、设备及其存储介质 |
CN109388523A (zh) * | 2018-09-26 | 2019-02-26 | 四川巧夺天工信息安全智能设备有限公司 | 一种基于二进制日志文件恢复MySQL数据库的方法 |
CN109684331A (zh) * | 2018-12-20 | 2019-04-26 | 浪潮软件股份有限公司 | 一种基于Kudu的对象存储元数据管理装置及方法 |
CN110196888A (zh) * | 2019-05-27 | 2019-09-03 | 深圳前海微众银行股份有限公司 | 基于Hadoop的数据更新方法、装置、系统及介质 |
CN111241203A (zh) * | 2020-02-10 | 2020-06-05 | 江苏满运软件科技有限公司 | Hive数据仓库同步方法、系统、设备及存储介质 |
-
2020
- 2020-05-07 CN CN202010375596.9A patent/CN111563123B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117306A (zh) * | 2010-01-04 | 2011-07-06 | 阿里巴巴集团控股有限公司 | Etl数据处理过程的监控方法及其系统 |
CN106570018A (zh) * | 2015-10-10 | 2017-04-19 | 阿里巴巴集团控股有限公司 | 序列化与反序列化的方法、装置、系统以及电子设备 |
CN106055450A (zh) * | 2016-05-20 | 2016-10-26 | 北京神州绿盟信息安全科技股份有限公司 | 一种二进制日志解析方法及装置 |
CN106484875A (zh) * | 2016-10-13 | 2017-03-08 | 广州视源电子科技股份有限公司 | 基于molap的数据处理方法及装置 |
CN107885881A (zh) * | 2017-11-29 | 2018-04-06 | 顺丰科技有限公司 | 业务数据实时上报、获取方法、装置、设备及其存储介质 |
CN109388523A (zh) * | 2018-09-26 | 2019-02-26 | 四川巧夺天工信息安全智能设备有限公司 | 一种基于二进制日志文件恢复MySQL数据库的方法 |
CN109684331A (zh) * | 2018-12-20 | 2019-04-26 | 浪潮软件股份有限公司 | 一种基于Kudu的对象存储元数据管理装置及方法 |
CN110196888A (zh) * | 2019-05-27 | 2019-09-03 | 深圳前海微众银行股份有限公司 | 基于Hadoop的数据更新方法、装置、系统及介质 |
CN111241203A (zh) * | 2020-02-10 | 2020-06-05 | 江苏满运软件科技有限公司 | Hive数据仓库同步方法、系统、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578655A (zh) * | 2023-07-06 | 2023-08-11 | 舟谱数据技术南京有限公司 | 一种数据传输系统及其控制方法 |
CN116578655B (zh) * | 2023-07-06 | 2023-09-15 | 舟谱数据技术南京有限公司 | 一种数据传输系统及其控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111563123B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019218B (zh) | 数据存储与查询方法及设备 | |
CN111459985B (zh) | 标识信息处理方法及装置 | |
US9619512B2 (en) | Memory searching system and method, real-time searching system and method, and computer storage medium | |
CN104794123A (zh) | 一种为半结构化数据构建NoSQL数据库索引的方法及装置 | |
CN111858760B (zh) | 一种异构数据库的数据处理方法及装置 | |
CN103678694A (zh) | 视频资源的倒排索引文件建立方法及其系统 | |
CN108228664B (zh) | 非结构化数据处理方法及装置 | |
CN112597348A (zh) | 一种大数据存储优化的方法及装置 | |
CN111414424B (zh) | 一种配置数据自动同步redis的方法、系统、介质及设备 | |
CN112307318B (zh) | 一种内容发布方法、系统及装置 | |
CN114398315A (zh) | 一种数据存储方法、系统、存储介质及电子设备 | |
CN112241396B (zh) | 基于Spark的对Delta进行小文件合并的方法及系统 | |
CN110019169B (zh) | 一种数据处理的方法及装置 | |
CN111563123B (zh) | 一种hive仓库元数据实时同步方法 | |
CN109769027B (zh) | 一种消息推送方法、装置及设备 | |
CN112052248A (zh) | 一种审计大数据处理方法及系统 | |
CN107291938A (zh) | 订单查询系统及方法 | |
US20200311151A1 (en) | Document structures for searching within and across messages | |
CN113448757B (zh) | 消息处理方法、装置、设备、存储介质和系统 | |
CN115033646A (zh) | 一种基于Flink&Doris构建实时数仓系统的方法 | |
CN114297236A (zh) | 一种数据血缘分析方法、终端设备及存储介质 | |
CN111651531B (zh) | 数据导入方法、装置、设备及计算机存储介质 | |
CN111061719B (zh) | 数据收集方法、装置、设备和存储介质 | |
CN115080504A (zh) | 文件管理方法、终端及存储介质 | |
CN112752165A (zh) | 字幕处理方法、装置、服务器及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |