CN110704400A - 实时数据同步方法以及装置、服务器 - Google Patents

实时数据同步方法以及装置、服务器 Download PDF

Info

Publication number
CN110704400A
CN110704400A CN201910956548.6A CN201910956548A CN110704400A CN 110704400 A CN110704400 A CN 110704400A CN 201910956548 A CN201910956548 A CN 201910956548A CN 110704400 A CN110704400 A CN 110704400A
Authority
CN
China
Prior art keywords
data
real
time
file
directory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910956548.6A
Other languages
English (en)
Inventor
梁涌
吴峰
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yidianshikong Network Co Ltd
Original Assignee
Shanghai Yidianshikong Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yidianshikong Network Co Ltd filed Critical Shanghai Yidianshikong Network Co Ltd
Priority to CN201910956548.6A priority Critical patent/CN110704400A/zh
Publication of CN110704400A publication Critical patent/CN110704400A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种实时数据同步方法以及装置、服务器。该方法包括在HIVE数据库中创建预设数据表;启动至少一个进程,从消息队列中批量读取数据;创建时间周期目录,根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中;定时将上一个时间周期的数据文件转移到新的指定的迁移目录下;通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。本申请解决了实时数据同步方法效果不佳的技术问题。通过本申请将业务方实时传到MQ队列的数据,直接同步到Hive,节省资源和带宽,又不影响线上正常业务的查询效率。

Description

实时数据同步方法以及装置、服务器
技术领域
本申请涉及大数据领域,具体而言,涉及一种实时数据同步方法以及装置、服务器。
背景技术
现有同步实时数据的方式一般通过MQ队列,一端是生产者,一端是消费者。业务数据实时推送到MQ队列中,作为临时存储,而消费方从队列中取数据,保持到一般mysql、MongoDB之类的数据库中,用于后续的统计查询和分析。
发明人发现,随着业务发展,产生的业务数据量越来越大,将MQ队列数据同步到MySQL中存储时,当存储的数据量越来越大后,查询性能会急剧下降。从线上服务器将MySQL中数据同步到Hive,会影响到正常业务的查询效率。
针对相关技术中实时数据同步方法效果不佳的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种实时数据同步方法以及装置、服务器,以解决实时数据同步方法效果不佳的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种实时数据同步方法。具体地,是将MQ队列中的实时数据同步到Hive的方法。
根据本申请的实时数据同步方法包括:在HIVE数据库中创建预设数据表;启动至少一个进程,从消息队列中批量读取数据;创建时间周期目录,根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中;定时将上一个时间周期的数据文件转移到新的指定的迁移目录下;通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。
进一步地,方法还包括:
通过设置进程数量并记录当前已开启进程数;
当每新开一个进程时判断是否超出最大进程数;
如果判断没有超出最大进程数,则可开启新进程。
进一步地,创建时间周期目录包括:
按照数据同步周期,创建当天、当前小时的文件夹;
根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中包括:
根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式将数据文件写入到相应文件夹下的文件中。
进一步地,启动至少一个进程,从消息队列中批量读取数据包括:
使用多进程读取方式,从消息队列中对每个任务进程读取部分数据,并进行并发处理。
进一步地,创建时间周期目录,根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中还包括:
按照当前时间周期目录对读取到的数据进行过滤或者编排处理之后,对数据文件进行压缩之后,再以分布式文件系统格式写入到数据文件中。
为了实现上述目的,根据本申请的另一方面,提供了一种实时数据同步装置。
根据本申请的实时数据同步装置包括:创建模块,用于在HIVE数据库中创建预设数据表;启动模块,用于启动至少一个进程,从消息队列中批量读取数据;写入模块,用于创建时间周期目录,根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中;转移模块,用于定时将上一个时间周期的数据文件转移到新的指定的迁移目录下;同步模块,用于通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。
进一步地,装置还包括:判断模块,用于
通过设置进程数量并记录当前已开启进程数;
当每新开一个进程时判断是否超出最大进程数;
如果判断没有超出最大进程数,则可开启新进程。
进一步地,所述写入模块,用于
按照数据同步周期,创建当天、当前小时的文件夹;
根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式将数据文件写入到相应文件夹下的文件中。
进一步地,所述启动模块,用于
使用多进程读取方式,从消息队列中对每个任务进程读取部分数据,并进行并发处理。
为了实现上述目的,根据本申请的又一方面,提供了一种服务器,其包括:所述的实时数据同步装置。
在本申请实施例中实时数据同步方法以及装置、服务器,采用在HIVE数据库中创建预设数据表的方式,启动至少一个进程,从消息队列中批量读取数据,通过创建时间周期目录,根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中,达到了定时将上一个时间周期的数据文件转移到新的指定的迁移目录下的目的,从而实现了通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下的技术效果,进而解决了实时数据同步方法效果不佳的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的实时数据同步方法流程示意图;
图2是根据本申请实施例的实时数据同步装置结构示意图;
图3是根据本申请另一实施例的实时数据同步装置结构示意图;
图4是根据本申请实施例的实时数据同步方法原理示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
在本申请中使用的名词解释如下:
Hive,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
MongoDB,一个基于分布式文件存储的数据库。
HDFS,分布式文件系统。
PHP,一种创建动态交互性站点的强有力的服务器端脚本语言。
Mysql,最流行的关系型数据库管理系统,在WEB应用方面MySQL是最好的RDBMS(Relational Database Management System:关系数据库管理系统)应用软件之一。
Flume,Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
MQ队列,消息队列(Message queue)是一种进程间通信或同一进程的不同线程间的通信方式。消息发送后,可以立即返回,由消息系统来确保消息的可靠传递,消息作为应用间的一种通信方式,能够有效的降低各模块间的耦合性,提升分布式协作的效率。发布者只管把消息发布到MQ中而不管谁会来取,同样消息使用者只管从MQ取消息而不管是谁发布的。这样发布者和使用者都不用知道对方的存在。
本申请中的方法,可以将业务方实时传到MQ队列的数据,直接同步到Hive,而不需要临时存储到mysql、MongoDB等临时数据库中再去同步Hive,节省资源和带宽,又不影响线上正常业务的查询效率。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,该方法包括如下的步骤S101至步骤S105:
步骤S101,在HIVE数据库中创建预设数据表;
具体地,在在HIVE数据库提前创建好数据表,用于存储数据。
步骤S102,启动至少一个进程,从消息队列中批量读取数据;
通过开启一个或多个进程,从MQ队列中批量读取数据。使用多进程批量读取的方式,可以自由控制并发处理量,提高吞吐量。根据业务数据多少,灵活分批服务器资源。
步骤S103,创建时间周期目录,根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中;
根据Hive表数据结构,对内容进行过滤和编排,以HDFS文件系统格式写入到文件中。同时文件按照同步周期,在写文件前创建好合适的目录,文件放到目录下,便于后面数据同步。
步骤S104,定时将上一个时间周期的数据文件转移到新的指定的迁移目录下;
程序中定时将上一个周期的数据文件转移到新的指定的目录下。
具体地,迁移数据的周期会比写入周期往后延迟数秒钟或数分钟,以这种方式,是为了避免将还在写入数据的文件直接迁移到了新目录,造成数据丢失。
步骤S105,通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。
通过日志收集系统flume将迁移目录下的文件内容同步到hdfs文件系统对应的数据表目录下,至此数据同步完成。
具体地,使用Hive对数据进行查询统计,实现更多业务分析需求,结束进程。
从以上的描述中,可以看出,本申请实现了如下技术效果:
在本申请实施例中实时数据同步方法以及装置、服务器,采用在HIVE数据库中创建预设数据表的方式,启动至少一个进程,从消息队列中批量读取数据,通过创建时间周期目录,根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中,达到了定时将上一个时间周期的数据文件转移到新的指定的迁移目录下的目的,从而实现了通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下的技术效果,进而解决了实时数据同步方法效果不佳的技术问题。
根据本申请实施例,作为本实施例中的优选,该方法还包括:通过设置进程数量并记录当前已开启进程数;当每新开一个进程时判断是否超出最大进程数;如果判断没有超出最大进程数,则可开启新进程。
每个任务进程都只读取部分数据,程序每秒在检测是否能开启新进程,如果没超过配置的最大进程数就可以开启。进程数大小可以自由配置。这样可以多个进程同时消费提高效率,又避免长连接。
具体地,通过在配置中设置进程数,程序记录当前已开启进程数,每新开进程时进行判断是否给予开启。做到进程由程序控制,不用人为干预。
根据本申请实施例,作为本实施例中的优选,创建时间周期目录包括:按照数据同步周期,创建当天、当前小时的文件夹;根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中包括:根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式将数据文件写入到相应文件夹下的文件中。
按照数据同步周期,创建当天、当前小时的文件夹,之后根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式将数据文件写入到相应文件夹下的文件中。
具体地,文件按照同步周期,在写文件前创建好合适的目录,文件放到目录下,以利于后面数据同步。
根据本申请实施例,作为本实施例中的优选,启动至少一个进程,从消息队列中批量读取数据包括:使用多进程读取方式,从消息队列中对每个任务进程读取部分数据,并进行并发处理。
具体地,将MQ中的实时大数据同步到数据仓库Hive中,比存储于mysql有更好的查询性能,也不会影响线上业务服务。采用多进程同步,可以极大提高数据处理能力,也可以灵活配置消费进程数。
根据本申请实施例,作为本实施例中的优选,创建时间周期目录,根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中还包括:按照当前时间周期目录对读取到的数据进行过滤或者编排处理之后,对数据文件进行压缩之后,再以分布式文件系统格式写入到数据文件中。
通过按照当前时间周期目录对读取到的数据进行过滤或者编排处理之后,对数据文件进行压缩之后,再以分布式文件系统格式写入到数据文件中。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述方法的实时数据同步装置,如图2所示,该装置包括:创建模块10,用于在HIVE数据库中创建预设数据表;启动模块11,用于启动至少一个进程,从消息队列中批量读取数据;写入模块12,用于创建时间周期目录,根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中;转移模块13,用于定时将上一个时间周期的数据文件转移到新的指定的迁移目录下;同步模块14,用于通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。
本申请实施例的创建模块10中具体地,在在HIVE数据库提前创建好数据表,用于存储数据。
本申请实施例的启动模块11中通过开启一个或多个进程,从MQ队列中批量读取数据。使用多进程批量读取的方式,可以自由控制并发处理量,提高吞吐量。根据业务数据多少,灵活分批服务器资源。
本申请实施例的写入模块12中根据Hive表数据结构,对内容进行过滤和编排,以HDFS文件系统格式写入到文件中。同时文件按照同步周期,在写文件前创建好合适的目录,文件放到目录下,便于后面数据同步。
本申请实施例的转移模块13中程序中定时将上一个周期的数据文件转移到新的指定的目录下。
具体地,迁移数据的周期会比写入周期往后延迟数秒钟或数分钟,以这种方式,是为了避免将还在写入数据的文件直接迁移到了新目录,造成数据丢失。
本申请实施例的同步模块14中通过日志收集系统flume将迁移目录下的文件内容同步到hdfs文件系统对应的数据表目录下,至此数据同步完成。
具体地,使用Hive对数据进行查询统计,实现更多业务分析需求,结束进程。
根据本申请实施例,作为本实施例中的优选,如图3所示,还包括:判断模块14,用于通过设置进程数量并记录当前已开启进程数;当每新开一个进程时判断是否超出最大进程数;如果判断没有超出最大进程数,则可开启新进程。
本申请实施例的判断模块14中每个任务进程都只读取部分数据,程序每秒在检测是否能开启新进程,如果没超过配置的最大进程数就可以开启。进程数大小可以自由配置。这样可以多个进程同时消费提高效率,又避免长连接。
具体地,通过在配置中设置进程数,程序记录当前已开启进程数,每新开进程时进行判断是否给予开启。做到进程由程序控制,不用人为干预。
根据本申请实施例,作为本实施例中的优选,所述写入模块12,用于按照数据同步周期,创建当天、当前小时的文件夹;根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式将数据文件写入到相应文件夹下的文件中。
在本申请实施例的所述写入模块12中按照数据同步周期,创建当天、当前小时的文件夹,之后根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式将数据文件写入到相应文件夹下的文件中。
具体地,文件按照同步周期,在写文件前创建好合适的目录,文件放到目录下,以利于后面数据同步。
根据本申请实施例,作为本实施例中的优选,所述启动模块11,用于使用多进程读取方式,从消息队列中对每个任务进程读取部分数据,并进行并发处理。
具体地,在本申请实施例的所述启动模块11中将MQ中的实时大数据同步到数据仓库Hive中,比存储于mysql有更好的查询性能,也不会影响线上业务服务。采用多进程同步,可以极大提高数据处理能力,也可以灵活配置消费进程数。
在本申请的另一实施例中还提供了一种服务器,包括:所述的实时数据同步装置。所述实时数据同步装置的实现原理和有益效果如上所述,在此不再进行赘述。
请参考图4是根据本申请实施例的实时数据同步方法原理示意图,具体包括如下流程:
步骤S1,在Hive数据库中提前创建好数据表。
步骤S2,开启一个(或多个)进程,从mq队列中批量读取数据。使用多进程批量读取的方式,可以自由控制并发处理量,提高吞吐量。根据业务数据多少,灵活分批服务器资源。
步骤S3,从mq队列中批量读取数据。据Hive表数据结构,对内容进行过滤和编排,以HDFS文件系统格式写入到文件中。同时文件按照同步周期,在写文件前创建好合适的目录,文件放到目录下,以利于后面数据同步。
步骤S4,创建时间周期目录(即当前年月日(时分)命名),对数据文件进行过滤编排,以HDFS文件系统格式写入到文件中。
步骤S5,程序中定时将上一个周期的数据文件转移到新的指定的目录下。迁移数据的周期会比写入周期往后延迟数秒钟或数分钟。以这种方式,是为了避免将还在写入数据的文件直接迁移到了新目录,造成数据丢失。
步骤S6,最后日志收集系统flume将迁移目录下的文件内容同步到hdfs文件系统对应的数据表目录下。至此数据同步完成,使用Hive可以就对数据进行查询统计,实现更多业务分析需求。结束进程。
步骤S6,可以在配置中设置进程数,程序记录当前已开启进程数,每新开进程时进行判断是否给予开启。做到进程由程序控制,不用人为干预。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种实时数据同步方法,其特征在于,包括:
在HIVE数据库中创建预设数据表;
启动至少一个进程,从消息队列中批量读取数据;
创建时间周期目录,根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中;
定时将上一个时间周期的数据文件转移到新的指定的迁移目录下;
通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。
2.根据权利要求1所述的实时数据同步方法,其特征在于,还包括:
通过设置进程数量并记录当前已开启进程数;
当每新开一个进程时判断是否超出最大进程数;
如果判断没有超出最大进程数,则可开启新进程。
3.根据权利要求1所述的实时数据同步方法,其特征在于,创建时间周期目录包括:
按照数据同步周期,创建当天、当前小时的文件夹;
根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中包括:
根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式将数据文件写入到相应文件夹下的文件中。
4.根据权利要求1所述的实时数据同步方法,其特征在于,启动至少一个进程,从消息队列中批量读取数据包括:
使用多进程读取方式,从消息队列中对每个任务进程读取部分数据,并进行并发处理。
5.根据权利要求1所述的实时数据同步方法,其特征在于,创建时间周期目录,根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中还包括:
按照当前时间周期目录对读取到的数据进行过滤或者编排处理之后,对数据文件进行压缩之后,再以分布式文件系统格式写入到数据文件中。
6.一种实时数据同步装置,其特征在于,包括:
创建模块,用于在HIVE数据库中创建预设数据表;
启动模块,用于启动至少一个进程,从消息队列中批量读取数据;
写入模块,用于创建时间周期目录,根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式写入到文件数据中;
转移模块,用于定时将上一个时间周期的数据文件转移到新的指定的迁移目录下;
同步模块,用于通过日志收集系统将所述迁移目录下的数据文件内容同步到HIVE数据库对应的所述预设数据表目录下。
7.根据权利要求6所述的实时数据同步装置,其特征在于,还包括:判断模块,用于
通过设置进程数量并记录当前已开启进程数;
当每新开一个进程时判断是否超出最大进程数;
如果判断没有超出最大进程数,则可开启新进程。
8.根据权利要求6所述的实时数据同步装置,其特征在于,所述写入模块,用于
按照数据同步周期,创建当天、当前小时的文件夹;
根据所述预设数据表数据结构对所述批量读取数据内容按照分布式文件系统格式将数据文件写入到相应文件夹下的文件中。
9.根据权利要求6所述的实时数据同步装置,其特征在于,所述启动模块,用于
使用多进程读取方式,从消息队列中对每个任务进程读取部分数据,并进行并发处理。
10.一种服务器,其特征在于,包括:权利要求6至9任一项所述的实时数据同步装置。
CN201910956548.6A 2019-09-29 2019-09-29 实时数据同步方法以及装置、服务器 Withdrawn CN110704400A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910956548.6A CN110704400A (zh) 2019-09-29 2019-09-29 实时数据同步方法以及装置、服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910956548.6A CN110704400A (zh) 2019-09-29 2019-09-29 实时数据同步方法以及装置、服务器

Publications (1)

Publication Number Publication Date
CN110704400A true CN110704400A (zh) 2020-01-17

Family

ID=69198968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910956548.6A Withdrawn CN110704400A (zh) 2019-09-29 2019-09-29 实时数据同步方法以及装置、服务器

Country Status (1)

Country Link
CN (1) CN110704400A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291127A (zh) * 2020-03-11 2020-06-16 北京奇艺世纪科技有限公司 一种数据同步方法、装置、服务器及存储介质
CN112162964A (zh) * 2020-10-15 2021-01-01 苏州交驰人工智能研究院有限公司 一种自适应数据同步方法、装置、计算机设备及存储介质
CN112231293A (zh) * 2020-09-14 2021-01-15 杭州数梦工场科技有限公司 文件读取方法、装置、电子设备和存储介质
CN112527801A (zh) * 2020-12-21 2021-03-19 中国人民银行清算总中心 关系型数据库与大数据系统间的数据同步方法及系统
CN112860792A (zh) * 2021-01-29 2021-05-28 银盛支付服务股份有限公司 一种mongodb集群与hive集群数据相互同步的方法及其同步系统
CN115840737A (zh) * 2023-02-16 2023-03-24 济南邦德激光股份有限公司 一种基于数据库的分离式日志管理方法及系统
CN117009309A (zh) * 2023-05-31 2023-11-07 合芯科技(苏州)有限公司 一种基于rsync的文件实时同步方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102970158A (zh) * 2012-11-05 2013-03-13 广东睿江科技有限公司 日志存储与处理的方法及日志服务器
CN107544984A (zh) * 2016-06-27 2018-01-05 北京京东尚科信息技术有限公司 一种数据处理的方法和装置
CN108664551A (zh) * 2018-04-02 2018-10-16 郑州云海信息技术有限公司 一种动环监控数据接入云平台的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102970158A (zh) * 2012-11-05 2013-03-13 广东睿江科技有限公司 日志存储与处理的方法及日志服务器
CN107544984A (zh) * 2016-06-27 2018-01-05 北京京东尚科信息技术有限公司 一种数据处理的方法和装置
CN108664551A (zh) * 2018-04-02 2018-10-16 郑州云海信息技术有限公司 一种动环监控数据接入云平台的方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291127A (zh) * 2020-03-11 2020-06-16 北京奇艺世纪科技有限公司 一种数据同步方法、装置、服务器及存储介质
CN111291127B (zh) * 2020-03-11 2023-10-27 北京奇艺世纪科技有限公司 一种数据同步方法、装置、服务器及存储介质
CN112231293A (zh) * 2020-09-14 2021-01-15 杭州数梦工场科技有限公司 文件读取方法、装置、电子设备和存储介质
CN112162964A (zh) * 2020-10-15 2021-01-01 苏州交驰人工智能研究院有限公司 一种自适应数据同步方法、装置、计算机设备及存储介质
CN112162964B (zh) * 2020-10-15 2024-04-05 苏州交驰人工智能研究院有限公司 一种自适应数据同步方法、装置、计算机设备及存储介质
CN112527801A (zh) * 2020-12-21 2021-03-19 中国人民银行清算总中心 关系型数据库与大数据系统间的数据同步方法及系统
CN112860792A (zh) * 2021-01-29 2021-05-28 银盛支付服务股份有限公司 一种mongodb集群与hive集群数据相互同步的方法及其同步系统
CN115840737A (zh) * 2023-02-16 2023-03-24 济南邦德激光股份有限公司 一种基于数据库的分离式日志管理方法及系统
CN117009309A (zh) * 2023-05-31 2023-11-07 合芯科技(苏州)有限公司 一种基于rsync的文件实时同步方法及装置
CN117009309B (zh) * 2023-05-31 2024-05-07 合芯科技(苏州)有限公司 一种基于rsync的文件实时同步方法及装置

Similar Documents

Publication Publication Date Title
CN110704400A (zh) 实时数据同步方法以及装置、服务器
CN109491859B (zh) 针对Kubernetes集群中容器日志的收集方法
CN111241078B (zh) 数据分析系统、数据分析的方法及装置
CN111400326B (zh) 一种智慧城市数据管理系统及其方法
CN107169083B (zh) 公安卡口海量车辆数据存储与检索方法及装置、电子设备
CN109918349B (zh) 日志处理方法、装置、存储介质和电子装置
CN112507029B (zh) 数据处理系统及数据实时处理方法
CN105577772B (zh) 素材接收方法、素材上传方法及装置
CN109308329A (zh) 一种基于云平台的日志收集方法和装置
CN113282611B (zh) 一种流数据同步的方法、装置、计算机设备及存储介质
CN112256954A (zh) 一种消息推送的处理方法及相关系统
CN103440290A (zh) 大数据加载系统和方法
CN112764795B (zh) 一种面向服务的跨平台跨终端信息发布系统和方法
WO2020258666A1 (zh) 一种分布式系统及数据处理方法
CN108228755A (zh) 基于日志解析技术的MySQL数据库到Hadoop平台的数据同步复制方法
CN113242174B (zh) 邮件同步方法、装置、计算机设备和存储介质
CN115185705A (zh) 一种消息通知方法、装置、介质及设备
CN109274556A (zh) 一种web日志的收集分析系统
CN111177254A (zh) 一种异构关系型数据库之间数据同步的方法和装置
CN110704448A (zh) 数据同步方法及装置、服务器
CN108763323A (zh) 基于资源集和大数据技术的气象格点文件应用方法
CN109729130A (zh) 信息分析方法、业务服务器、存储介质及装置
CN110413684A (zh) 一种数据库同步方法、装置及系统
CN116304390B (zh) 时序数据处理方法、装置、存储介质及电子设备
WO2021087990A1 (zh) 标签更新方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200117

WW01 Invention patent application withdrawn after publication