CN114579667A

CN114579667A - 一种HBase数据增量同步的方法、装置及系统

Info

Publication number: CN114579667A
Application number: CN202210458572.9A
Authority: CN
Inventors: 李波; 王子立
Original assignee: Shenzhen SDMC Technology Co Ltd
Current assignee: Shenzhen SDMC Technology Co Ltd
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-06-03

Abstract

本申请公开提供了一种HBase数据增量同步的方法、装置及系统，其中，该方法包括：发送关键字获取请求；接收增量关键字，增量关键字是通讯对端根据HBase更新的业务数据确定的；向HBase发送增量获取请求，增量获取请求包括增量关键字；接收增量数据，增量数据是HBase根据增量关键字从更新的业务数据获取的；将增量数据导入Hive数据仓，根据HBase的协处理器特性，在数据插入HBase成功后，将增量关键字缓存在协处理器，有客户端调用增量关键字，并根据增量关键字从Hbase获取相应增量数据，解决了现有技术中HBase扫描全表造成的资源浪费和延迟，能够实现快速高效的获取增量数据。

Description

一种HBase数据增量同步的方法、装置及系统

技术领域

本发明涉及HBase数据增量同步技术领域，具体涉及一种HBase数据增量同步的方法、装置及系统。

背景技术

随着大数据技术的发展，越来越多的企业开始构建大数据平台进行数据处理。HBase数据库(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC服务器上搭建起大规模结构化存储集群。部分用户行为数据经过MQ处理存储在HBase中，这部分数据体量较大且日益增长，需要增量同步数据到Hive数据仓库中进行离线分析，然而如何将保存在HBase数据库中的数据，快速且无遗漏的同步到数据仓库Hive数据仓库中，正成为很多企业面临的问题。

现有技术采用以下两种方案将HBase数据增量同步到Hive数据仓:

方案一：使用HBase的Hive映射表将HBase数据增量同步到Hive数据仓，Hive数据仓和Hbase在大数据架构中处在不同位置，Hive数据仓是一个构建在Hadoop基础之上的数据仓库，主要解决分布式存储的大数据处理和计算问题，Hbase是基于HDFS的NoSQL数据库。Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的，此种方案实现方式简单，但是不符合数仓的实现机制，首先，在数据量大的情况下，直接通过Hive映射表读取会引起业务方读取HBase阻塞，会影响业务的正常运行，违反了数仓尽可能低的影响业务运行原则。其次，从实现方式上来讲，通过hive映射表的方式增加了与业务方的耦合度，违反数仓建设解耦原则。

方案二：根据业务表中的字段抓取增量数据，由于HBase是基于RowKey的NoSQL数据库，所以需要通过Scan全表，再根据字段关键信息和时间过滤出当天的增量，当数据量达到千万甚至亿级时，这种执行效率就很低，运行时长很长。由于HBase表更新数据时，不能自动更新时间戳，会导致业务方没有及时更新时间戳，在增量抽取数据的时候，容易造成数据缺失。

现有技术中尚未提出一种有效将HBase中数据快速同步到Hive的解决方法。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中通过客户端探针采集客户端的行为和事件，然后探针与应用层集成对接，导致开发工作量大，第三方集成复杂度高，监控平台与业务平台高耦合，业务逻辑处理复杂，不易于系统维护及后期扩展的缺陷，从而提供一种HBase数据增量同步的方法装置、及系统。

为解决上述技术问题，本发明公开实施例至少提供一种HBase数据增量同步的方法、装置及系统。

第一方面，本发明公开实施例提供了一种HBase数据增量同步的方法，包括：

接收数据更新请求，所述数据更新请求是根据HBase更新的业务数据生成的，所述数据更新请求包括HBase的增量关键字；

根据所述数据更新请求更新缓存的增量关键字；

接收增量关键字获取请求；

发送缓存内更新的增量关键字，以便通讯对端根据所述增量关键字确定HBase的增量数据。

第二方面，本发明公开实施例还提供另一种HBase数据增量同步的方法，包括：

发送关键字获取请求；

接收增量关键字，所述增量关键字是通讯对端根据HBase更新的业务数据确定的；

向HBase发送增量获取请求，所述增量获取请求包括所述增量关键字；

接收增量数据，所述增量数据是所述HBase根据所述增量关键字从更新的业务数据获取的；

将所述增量数据导入Hive数据仓。

可选地，在所述将所述增量数据导入Hive数据仓之前，所述方法还包括：

将所述增量数据和Hive映射表中的元数据进行比对；

所述将所述增量数据导入Hive数据仓为：若所述增量数据和Hive映射表中的元数据一致，则将所述增量数据导入Hive数据仓。

可选地，所述发送关键字获取请求为：按照预设时间发送关键字获取请求。

第三方面，本发明公开实施例还提供一种HBase数据增量同步的装置，包括：

更新请求接收模块，用于接收数据更新请求，所述数据更新请求是根据HBase更新的业务数据生成的，所述数据更新请求包括HBase的增量关键字；

更新执行模块，用于根据所述数据更新请求更新缓存的增量关键字；

关键字请求接收模块，用于接收增量关键字获取请求；

关键字发送模块，用于发送缓存内更新的增量关键字，以便通讯对端根据所述增量关键字确定HBase的增量数据。

第四方面，本发明公开实施例还提供一种HBase数据增量同步的装置，包括：

关键字请求模块，用于发送关键字获取请求；

关键字接收模块，用于接收增量关键字，所述增量关键字是通讯对端根据HBase更新的业务数据确定的；

增量获取模块，用于向HBase发送增量获取请求，所述增量获取请求包括所述增量关键字；

增量接收模块，用于接收增量数据，所述增量数据是所述HBase根据所述增量关键字从更新的业务数据获取的；

数据同步模块，用于将所述增量数据导入Hive数据仓。

第五方面，本发明公开实施例还提供一种HBase数据增量同步的系统，包括：

HBase，接收业务数据，根据更新的业务数据生成数据更新请求，所述数据更新请求包括HBase的增量关键字，向协处理器发送所述数据更新请求；

所述协处理器，接收所述HBase发送的数据更新请求，根据所述数据更新请求更新缓存的增量关键字；在接收到客户端发送的增量关键字获取请求后，向所述客户端发送缓存内更新的增量关键字；

客户端，向所述协处理器发送所述增量关键字获取请求，接收所述协处理器发送的增量关键字，根据所述增量关键字确定HBase的增量数据。

可选地，所述客户端还用于：将所述增量数据和Hive映射表中的元数据进行比对；所述将所述增量数据导入Hive数据仓为：若所述增量数据和Hive映射表中的元数据一致，则将所述增量数据导入Hive数据仓。

第六方面，本发明公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第七方面，本发明公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

本发明的实施例提供的技术方案可以具有以下有益效果：

根据HBase的协处理器特性，在数据插入HBase成功后，将增量关键字缓存在协处理器，有客户端调用增量关键字，并根据增量关键字从Hbase获取相应增量数据，避免HBase扫描全表，能够实现快速高效的获取增量数据。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明公开实施例所提供的一种HBase数据增量同步的方法的流程图；

图2示出了本发明公开实施例所提供的另一种HBase数据增量同步的方法的流程图；

图3示出了本发明公开实施例所提供的又一种HBase数据增量同步的方法的流程图；

图4示出了本发明公开实施例所提供的一种HBase数据增量同步的装置的结构示意图；

图5示出了本发明公开实施例所提供的另一种HBase数据增量同步的装置的结构示意图；

图6、图7示出了本发明公开实施例所提供的一种HBase数据增量同步的系统的结构示意图；

图8示出了本发明公开实施例所提供的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

实施例1

如图1所示，本发明公开实施例所提供的一种HBase数据增量同步的方法的流程图，一些实施例中，该方法由HBase协处理器实现，该方法包括：

S11：接收数据更新请求，该数据更新请求是根据HBase更新的业务数据生成的，该数据更新请求包括HBase的增量关键字；

S12：根据数据更新请求更新缓存的增量关键字；

S13：接收增量关键字获取请求；

S14：发送缓存内更新的增量关键字，以便通讯对端根据增量关键字确定HBase的增量数据。

在具体实践中，数据更新请求由HBase发送，终端设备设计用户行为埋点，上报用户行为数据至服务端。服务端接收到上报数据，进行数据校验后转发RocketMQ。RocketMQ消费者消费用户行为数据后，进行数据清洗，然后存入HBase。数据插入HBase成功后，HBase调用协处理器，执行postPut与postDelete方法，新增则插入redis中的set集合，删除则同步删除。

在具体实践中，HBase自定义处理器类实现RegionObserver与RegionCoprocessor类-实现postPut（插入后）和postDelete（删除后）方法，引入redis依赖。

可以理解的是，本实施例提供的技术方案，根据HBase的协处理器特性（Observer），在数据插入HBase成功后，调用postPut钩子函数，将存入数据的rowkey插入redis的set集合中，key值为单日日期，value为有修改新增的Rowkey。在数据插入HBase写入redis保证了数据一致性问题，避免数据未存入HBase，但是插入了redis，引起后续数据空值问题。利用redis高效读写的特点与set集合的唯一性，能获取前日所有变化的rowkey，避免HBase扫描全表。再根据rowkey去get出增量信息，能够实现快速高效的获取增量数据。

实施例2

如图2所示，本发明公开实施例所提供的另一种HBase数据增量同步的方法的流程图，一些实施例中，本实施例方法由客户端实现，该方法包括：

S21：发送关键字获取请求；

S22：接收增量关键字，增量关键字是通讯对端根据HBase更新的业务数据确定的；

S23：向HBase发送增量获取请求，增量获取请求包括增量关键字；

S24：接收增量数据，增量数据是HBase根据增量关键字从更新的业务数据获取的；

S25：将增量数据导入Hive数据仓。

实施例3

如图3所示，本发明公开实施例所提供的另一种HBase数据增量同步的方法的流程图，一些实施例中，本实施例方法由客户端实现，该方法包括：

S31：发送关键字获取请求；

S32：接收增量关键字，增量关键字是通讯对端根据HBase更新的业务数据确定的；

S33：向HBase发送增量获取请求，增量获取请求包括增量关键字；

S34：接收增量数据，增量数据是HBase根据增量关键字从更新的业务数据获取的；

S35：将增量数据和Hive映射表中的元数据进行比对，若增量数据和Hive映射表中的元数据一致，则执行步骤S36；

S36：将增量数据导入Hive数据仓。

在具体实践中，客户端次日定时任务调度Client获取Redis中增量RowKey。Client（客户端）根据rowkey列表请求HBase获取增量数据。获取到增量数据后，将增量数据与Hive表的元数据进行对比。若数据表字段不一致，则进行邮件通知预警，减少后续因缺少字段内容而导致全量初始化的情况发生。如果字段一致，则将HBase增量数据导入Hive数仓中。删除redis中的缓存。

可以理解的是，本实施例提供的技术方案，根据HBase的协处理器特性（Observer），在数据插入HBase成功后，调用postPut钩子函数，将存入数据的rowkey插入redis的set集合中，key值为单日日期，value为有修改新增的Rowkey。在数据插入HBase写入redis保证了数据一致性问题，避免数据未存入HBase，但是插入了redis，引起后续数据空值问题。利用redis高效读写的特点与set集合的唯一性，能获取前日所有变化的rowkey，避免HBase扫描全表。再根据rowkey去get出增量信息，能够实现快速高效的获取增量数据，HBase使用协处理器缓存增量rowkey至Redis，HBase大数据情况下使用redis缓存增量Rowkey高效同步数据到Hive数仓。

实施例4

如图4所示，本发明实施例还提供一种HBase数据增量同步装置，包括：

更新请求接收模块41，用于接收数据更新请求，所述数据更新请求是根据HBase更新的业务数据生成的，所述数据更新请求包括HBase的增量关键字；

更新执行模块42，用于根据所述数据更新请求更新缓存的增量关键字；

关键字请求接收模块43，用于接收增量关键字获取请求；

关键字发送模块44，用于发送缓存内更新的增量关键字，以便通讯对端根据所述增量关键字确定HBase的增量数据。

实施例5

如图5所示，本发明实施例还提供一种HBase数据增量同步的装置，包括：

关键字请求模块51，用于发送关键字获取请求；

关键字接收模块52，用于接收增量关键字，所述增量关键字是通讯对端根据HBase更新的业务数据确定的；

增量获取模块53，用于向HBase发送增量获取请求，所述增量获取请求包括所述增量关键字；

增量接收模块54，用于接收增量数据，所述增量数据是所述HBase根据所述增量关键字从更新的业务数据获取的；

数据同步模块55，用于将所述增量数据导入Hive数据仓。

可以理解的是，本实施例提供的技术方案，根据HBase的协处理器特性（Observer），在数据插入HBase成功后，调用postPut钩子函数，将存入数据的rowkey插入redis的set集合中，key值为单日日期，value为有修改新增的Rowkey。在数据插入HBase写入redis保证了数据一致性问题，避免数据未存入HBase，但是插入了redis，引起后续数据空值问题。利用redis高效读写的特点与set集合的唯一性，能获取前日所有变化的rowkey，避免HBase扫描全表。再根据rowkey去get出增量信息，能够实现快速高效的获取增量数据

实施例6

如图6所示，本发明实施例还提供一种HBase数据增量同步的系统，结合图7，该包括：

HBase61，接收业务数据，根据更新的业务数据生成数据更新请求，所述数据更新请求包括HBase的增量关键字，向协处理器62发送所述数据更新请求；

所述协处理器62，接收所述HBase61发送的数据更新请求，根据所述数据更新请求更新缓存的增量关键字；在接收到客户端63发送的增量关键字获取请求后，向所述客户端63发送缓存内更新的增量关键字；

客户端63，向所述协处理器62发送所述增量关键字获取请求，接收所述协处理器62发送的增量关键字，根据所述增量关键字确定HBase的增量数据。

实施例7

基于同一技术构思，本申请实施例还提供了一种计算机设备，包括存储器1和处理器2，如图8所示，所述存储器1存储有计算机程序，所述处理器2执行所述计算机程序时实现上述任一项所述的HBase数据增量同步的方法。

其中，存储器1至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器1在一些实施例中可以是OTT视频业务监控系统的内部存储单元，例如硬盘。存储器1在另一些实施例中也可以是OTT视频业务监控系统的外部存储设备，例如插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，存储器1还可以既包括OTT视频业务监控系统的内部存储单元也包括外部存储设备。存储器1不仅可以用于存储安装于OTT视频业务监控系统的应用软件及各类数据，例如OTT视频业务监控程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器2在一些实施例中可以是一中央处理器（Central Processing Unit,CPU）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器1中存储的程序代码或处理数据，例如执行OTT视频业务监控程序等。

本发明公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的HBase数据增量同步的方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本发明公开实施例所提供的HBase数据增量同步的方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的HBase数据增量同步的方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本发明公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包（Software DevelopmentKit，SDK）等等。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种HBase数据增量同步的方法，其特征在于，包括：

根据所述数据更新请求更新缓存的增量关键字；

接收增量关键字获取请求；

2.一种HBase数据增量同步的方法，其特征在于，包括：

发送关键字获取请求；

将所述增量数据导入Hive数据仓。

3.根据权利要求2所述的HBase数据增量同步的方法，其特征在于，在所述将所述增量数据导入Hive数据仓之前，所述方法还包括：

将所述增量数据和Hive映射表中的元数据进行比对；

4.根据权利要求2所述的HBase数据增量同步的方法，其特征在于，所述发送关键字获取请求为：按照预设时间发送关键字获取请求。

5.一种HBase数据增量同步的装置，其特征在于，包括：

关键字请求接收模块，用于接收增量关键字获取请求；

6.一种HBase数据增量同步的装置，其特征在于，包括：

关键字请求模块，用于发送关键字获取请求；

数据同步模块，用于将所述增量数据导入Hive数据仓。

7.一种HBase数据增量同步的系统，其特征在于，包括：

8.根据权利要求7所述的一种HBase数据增量同步的系统，其特征在于，所述客户端还用于：将所述增量数据和Hive映射表中的元数据进行比对；所述将所述增量数据导入Hive数据仓为：若所述增量数据和Hive映射表中的元数据一致，则将所述增量数据导入Hive数据仓。

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至4中任一项所述的一种HBase数据增量同步的方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至4中任一项所述的一种HBase数据增量同步的方法。