CN110704400A

CN110704400A - 实时数据同步方法以及装置、服务器

Info

Publication number: CN110704400A
Application number: CN201910956548.6A
Authority: CN
Inventors: 梁涌; 吴峰; 郭伟
Original assignee: Shanghai Yidianshikong Network Co Ltd
Current assignee: Shanghai Yidianshikong Network Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-01-17

Abstract

本申请公开了一种实时数据同步方法以及装置、服务器。该方法包括在HIVE数据库中创建预设数据表；启动至少一个进程，从消息队列中批量读取数据；创建时间周期目录，根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中；定时将上一个时间周期的数据文件转移到新的指定的迁移目录下；通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。本申请解决了实时数据同步方法效果不佳的技术问题。通过本申请将业务方实时传到MQ队列的数据，直接同步到Hive，节省资源和带宽，又不影响线上正常业务的查询效率。

Description

实时数据同步方法以及装置、服务器

技术领域

本申请涉及大数据领域，具体而言，涉及一种实时数据同步方法以及装置、服务器。

背景技术

现有同步实时数据的方式一般通过MQ队列，一端是生产者，一端是消费者。业务数据实时推送到MQ队列中，作为临时存储，而消费方从队列中取数据，保持到一般mysql、MongoDB之类的数据库中，用于后续的统计查询和分析。

发明人发现，随着业务发展，产生的业务数据量越来越大，将MQ队列数据同步到MySQL中存储时，当存储的数据量越来越大后，查询性能会急剧下降。从线上服务器将MySQL中数据同步到Hive，会影响到正常业务的查询效率。

针对相关技术中实时数据同步方法效果不佳的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种实时数据同步方法以及装置、服务器，以解决实时数据同步方法效果不佳的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种实时数据同步方法。具体地，是将MQ队列中的实时数据同步到Hive的方法。

根据本申请的实时数据同步方法包括：在HIVE数据库中创建预设数据表；启动至少一个进程，从消息队列中批量读取数据；创建时间周期目录，根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中；定时将上一个时间周期的数据文件转移到新的指定的迁移目录下；通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。

进一步地，方法还包括：

通过设置进程数量并记录当前已开启进程数；

当每新开一个进程时判断是否超出最大进程数；

如果判断没有超出最大进程数，则可开启新进程。

进一步地，创建时间周期目录包括：

按照数据同步周期，创建当天、当前小时的文件夹；

根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中包括：

根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式将数据文件写入到相应文件夹下的文件中。

进一步地，启动至少一个进程，从消息队列中批量读取数据包括：

使用多进程读取方式，从消息队列中对每个任务进程读取部分数据，并进行并发处理。

进一步地，创建时间周期目录，根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中还包括：

按照当前时间周期目录对读取到的数据进行过滤或者编排处理之后，对数据文件进行压缩之后，再以分布式文件系统格式写入到数据文件中。

为了实现上述目的，根据本申请的另一方面，提供了一种实时数据同步装置。

根据本申请的实时数据同步装置包括：创建模块，用于在HIVE数据库中创建预设数据表；启动模块，用于启动至少一个进程，从消息队列中批量读取数据；写入模块，用于创建时间周期目录，根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中；转移模块，用于定时将上一个时间周期的数据文件转移到新的指定的迁移目录下；同步模块，用于通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。

进一步地，装置还包括：判断模块，用于

通过设置进程数量并记录当前已开启进程数；

当每新开一个进程时判断是否超出最大进程数；

如果判断没有超出最大进程数，则可开启新进程。

进一步地，所述写入模块，用于

按照数据同步周期，创建当天、当前小时的文件夹；

进一步地，所述启动模块，用于

为了实现上述目的，根据本申请的又一方面，提供了一种服务器，其包括：所述的实时数据同步装置。

在本申请实施例中实时数据同步方法以及装置、服务器，采用在HIVE数据库中创建预设数据表的方式，启动至少一个进程，从消息队列中批量读取数据，通过创建时间周期目录，根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中，达到了定时将上一个时间周期的数据文件转移到新的指定的迁移目录下的目的，从而实现了通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下的技术效果，进而解决了实时数据同步方法效果不佳的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的实时数据同步方法流程示意图；

图2是根据本申请实施例的实时数据同步装置结构示意图；

图3是根据本申请另一实施例的实时数据同步装置结构示意图；

图4是根据本申请实施例的实时数据同步方法原理示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

在本申请中使用的名词解释如下：

Hive，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。

MongoDB，一个基于分布式文件存储的数据库。

HDFS，分布式文件系统。

PHP，一种创建动态交互性站点的强有力的服务器端脚本语言。

Mysql，最流行的关系型数据库管理系统，在WEB应用方面MySQL是最好的RDBMS(Relational Database Management System：关系数据库管理系统)应用软件之一。

Flume，Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。

MQ队列，消息队列(Message queue)是一种进程间通信或同一进程的不同线程间的通信方式。消息发送后，可以立即返回，由消息系统来确保消息的可靠传递，消息作为应用间的一种通信方式，能够有效的降低各模块间的耦合性，提升分布式协作的效率。发布者只管把消息发布到MQ中而不管谁会来取，同样消息使用者只管从MQ取消息而不管是谁发布的。这样发布者和使用者都不用知道对方的存在。

本申请中的方法，可以将业务方实时传到MQ队列的数据，直接同步到Hive，而不需要临时存储到mysql、MongoDB等临时数据库中再去同步Hive，节省资源和带宽，又不影响线上正常业务的查询效率。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤S101至步骤S105：

步骤S101，在HIVE数据库中创建预设数据表；

具体地，在在HIVE数据库提前创建好数据表，用于存储数据。

步骤S102，启动至少一个进程，从消息队列中批量读取数据；

通过开启一个或多个进程，从MQ队列中批量读取数据。使用多进程批量读取的方式，可以自由控制并发处理量，提高吞吐量。根据业务数据多少，灵活分批服务器资源。

步骤S103，创建时间周期目录，根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中；

根据Hive表数据结构，对内容进行过滤和编排，以HDFS文件系统格式写入到文件中。同时文件按照同步周期，在写文件前创建好合适的目录，文件放到目录下，便于后面数据同步。

步骤S104，定时将上一个时间周期的数据文件转移到新的指定的迁移目录下；

程序中定时将上一个周期的数据文件转移到新的指定的目录下。

具体地，迁移数据的周期会比写入周期往后延迟数秒钟或数分钟，以这种方式，是为了避免将还在写入数据的文件直接迁移到了新目录，造成数据丢失。

步骤S105，通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。

通过日志收集系统flume将迁移目录下的文件内容同步到hdfs文件系统对应的数据表目录下，至此数据同步完成。

具体地，使用Hive对数据进行查询统计，实现更多业务分析需求，结束进程。

从以上的描述中，可以看出，本申请实现了如下技术效果：

根据本申请实施例，作为本实施例中的优选，该方法还包括：通过设置进程数量并记录当前已开启进程数；当每新开一个进程时判断是否超出最大进程数；如果判断没有超出最大进程数，则可开启新进程。

每个任务进程都只读取部分数据，程序每秒在检测是否能开启新进程，如果没超过配置的最大进程数就可以开启。进程数大小可以自由配置。这样可以多个进程同时消费提高效率，又避免长连接。

具体地，通过在配置中设置进程数，程序记录当前已开启进程数，每新开进程时进行判断是否给予开启。做到进程由程序控制，不用人为干预。

根据本申请实施例，作为本实施例中的优选，创建时间周期目录包括：按照数据同步周期，创建当天、当前小时的文件夹；根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中包括：根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式将数据文件写入到相应文件夹下的文件中。

按照数据同步周期，创建当天、当前小时的文件夹，之后根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式将数据文件写入到相应文件夹下的文件中。

具体地，文件按照同步周期，在写文件前创建好合适的目录，文件放到目录下，以利于后面数据同步。

根据本申请实施例，作为本实施例中的优选，启动至少一个进程，从消息队列中批量读取数据包括：使用多进程读取方式，从消息队列中对每个任务进程读取部分数据，并进行并发处理。

具体地，将MQ中的实时大数据同步到数据仓库Hive中，比存储于mysql有更好的查询性能，也不会影响线上业务服务。采用多进程同步，可以极大提高数据处理能力，也可以灵活配置消费进程数。

根据本申请实施例，作为本实施例中的优选，创建时间周期目录，根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中还包括：按照当前时间周期目录对读取到的数据进行过滤或者编排处理之后，对数据文件进行压缩之后，再以分布式文件系统格式写入到数据文件中。

通过按照当前时间周期目录对读取到的数据进行过滤或者编排处理之后，对数据文件进行压缩之后，再以分布式文件系统格式写入到数据文件中。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例，还提供了一种用于实施上述方法的实时数据同步装置，如图2所示，该装置包括：创建模块10，用于在HIVE数据库中创建预设数据表；启动模块11，用于启动至少一个进程，从消息队列中批量读取数据；写入模块12，用于创建时间周期目录，根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中；转移模块13，用于定时将上一个时间周期的数据文件转移到新的指定的迁移目录下；同步模块14，用于通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。

本申请实施例的创建模块10中具体地，在在HIVE数据库提前创建好数据表，用于存储数据。

本申请实施例的启动模块11中通过开启一个或多个进程，从MQ队列中批量读取数据。使用多进程批量读取的方式，可以自由控制并发处理量，提高吞吐量。根据业务数据多少，灵活分批服务器资源。

本申请实施例的写入模块12中根据Hive表数据结构，对内容进行过滤和编排，以HDFS文件系统格式写入到文件中。同时文件按照同步周期，在写文件前创建好合适的目录，文件放到目录下，便于后面数据同步。

本申请实施例的转移模块13中程序中定时将上一个周期的数据文件转移到新的指定的目录下。

本申请实施例的同步模块14中通过日志收集系统flume将迁移目录下的文件内容同步到hdfs文件系统对应的数据表目录下，至此数据同步完成。

根据本申请实施例，作为本实施例中的优选，如图3所示，还包括：判断模块14，用于通过设置进程数量并记录当前已开启进程数；当每新开一个进程时判断是否超出最大进程数；如果判断没有超出最大进程数，则可开启新进程。

本申请实施例的判断模块14中每个任务进程都只读取部分数据，程序每秒在检测是否能开启新进程，如果没超过配置的最大进程数就可以开启。进程数大小可以自由配置。这样可以多个进程同时消费提高效率，又避免长连接。

根据本申请实施例，作为本实施例中的优选，所述写入模块12，用于按照数据同步周期，创建当天、当前小时的文件夹；根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式将数据文件写入到相应文件夹下的文件中。

在本申请实施例的所述写入模块12中按照数据同步周期，创建当天、当前小时的文件夹，之后根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式将数据文件写入到相应文件夹下的文件中。

根据本申请实施例，作为本实施例中的优选，所述启动模块11，用于使用多进程读取方式，从消息队列中对每个任务进程读取部分数据，并进行并发处理。

具体地，在本申请实施例的所述启动模块11中将MQ中的实时大数据同步到数据仓库Hive中，比存储于mysql有更好的查询性能，也不会影响线上业务服务。采用多进程同步，可以极大提高数据处理能力，也可以灵活配置消费进程数。

在本申请的另一实施例中还提供了一种服务器，包括：所述的实时数据同步装置。所述实时数据同步装置的实现原理和有益效果如上所述，在此不再进行赘述。

请参考图4是根据本申请实施例的实时数据同步方法原理示意图，具体包括如下流程：

步骤S1，在Hive数据库中提前创建好数据表。

步骤S2，开启一个(或多个)进程，从mq队列中批量读取数据。使用多进程批量读取的方式，可以自由控制并发处理量，提高吞吐量。根据业务数据多少，灵活分批服务器资源。

步骤S3，从mq队列中批量读取数据。据Hive表数据结构，对内容进行过滤和编排，以HDFS文件系统格式写入到文件中。同时文件按照同步周期，在写文件前创建好合适的目录，文件放到目录下，以利于后面数据同步。

步骤S4，创建时间周期目录(即当前年月日(时分)命名)，对数据文件进行过滤编排，以HDFS文件系统格式写入到文件中。

步骤S5，程序中定时将上一个周期的数据文件转移到新的指定的目录下。迁移数据的周期会比写入周期往后延迟数秒钟或数分钟。以这种方式，是为了避免将还在写入数据的文件直接迁移到了新目录，造成数据丢失。

步骤S6，最后日志收集系统flume将迁移目录下的文件内容同步到hdfs文件系统对应的数据表目录下。至此数据同步完成，使用Hive可以就对数据进行查询统计，实现更多业务分析需求。结束进程。

步骤S6，可以在配置中设置进程数，程序记录当前已开启进程数，每新开进程时进行判断是否给予开启。做到进程由程序控制，不用人为干预。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种实时数据同步方法，其特征在于，包括：

在HIVE数据库中创建预设数据表；

启动至少一个进程，从消息队列中批量读取数据；

创建时间周期目录，根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中；

定时将上一个时间周期的数据文件转移到新的指定的迁移目录下；

通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。

2.根据权利要求1所述的实时数据同步方法，其特征在于，还包括：

通过设置进程数量并记录当前已开启进程数；

当每新开一个进程时判断是否超出最大进程数；

如果判断没有超出最大进程数，则可开启新进程。

3.根据权利要求1所述的实时数据同步方法，其特征在于，创建时间周期目录包括：

按照数据同步周期，创建当天、当前小时的文件夹；

4.根据权利要求1所述的实时数据同步方法，其特征在于，启动至少一个进程，从消息队列中批量读取数据包括：

5.根据权利要求1所述的实时数据同步方法，其特征在于，创建时间周期目录，根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中还包括：

6.一种实时数据同步装置，其特征在于，包括：

创建模块，用于在HIVE数据库中创建预设数据表；

启动模块，用于启动至少一个进程，从消息队列中批量读取数据；

写入模块，用于创建时间周期目录，根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中；

转移模块，用于定时将上一个时间周期的数据文件转移到新的指定的迁移目录下；

同步模块，用于通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。

7.根据权利要求6所述的实时数据同步装置，其特征在于，还包括：判断模块，用于

通过设置进程数量并记录当前已开启进程数；

当每新开一个进程时判断是否超出最大进程数；

如果判断没有超出最大进程数，则可开启新进程。

8.根据权利要求6所述的实时数据同步装置，其特征在于，所述写入模块，用于

按照数据同步周期，创建当天、当前小时的文件夹；

9.根据权利要求6所述的实时数据同步装置，其特征在于，所述启动模块，用于

10.一种服务器，其特征在于，包括：权利要求6至9任一项所述的实时数据同步装置。