CN111291127B - 一种数据同步方法、装置、服务器及存储介质 - Google Patents
一种数据同步方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN111291127B CN111291127B CN202010165156.0A CN202010165156A CN111291127B CN 111291127 B CN111291127 B CN 111291127B CN 202010165156 A CN202010165156 A CN 202010165156A CN 111291127 B CN111291127 B CN 111291127B
- Authority
- CN
- China
- Prior art keywords
- data
- server
- target type
- type data
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000001360 synchronised effect Effects 0.000 claims abstract description 52
- 238000004891 communication Methods 0.000 claims description 18
- 230000008676 import Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000002085 persistent effect Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/273—Asynchronous replication or reconciliation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2358—Change logging, detection, and notification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种数据同步方法、装置、电子设备及存储介质,方法包括:接收数据同步通知,所述数据同步通知为存储有待同步的目标类型数据的第一服务器发送的、针对所述目标类型数据的同步通知;从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件;定期将获取到的所述Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据。与需要依靠人工实现的数据同步方式相比,通过本发明实施例可以提高数据同步的效率。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据同步方法、装置、服务器及存储介质。
背景技术
对于网络服务等类型的企业而言,为满足客户的各种服务需求,一般都拥有自己的服务器集群,在服务器集群中分布有大量的服务器。各个服务器中通常配备有数据库MySQL以及数据仓库Hive。为便于数据管理,通常会将数据分成不同的类别,然后按照数据类别的不同分别存储于不同服务器的MySQL中。例如,某服务器集群中包括2个服务器:服务器1和服务器2,在服务器1的MySQL中存储各用户的登录操作日志,在服务器2的MySQL中存储各用户的网购操作日志。
随着时间的累积,已存储的数据有可能会被更新。并且,由于MySQL的存储空间较小,随着待存储数据量不断加大,也会出现MySQL存储空间不足的问题。而某些指定类型的数据可能需要长期保存,以便后期查看或者使用,基于上述情况,需要将MySQL中的上述指定类型的数据同步至存储空间更大的Hive中。
目前,数据同步过程主要依靠人工实现:人工周期性地在存储有上述指定类型数据,也就是目标类型数据的服务器的MySQL中,批量查找出有更新的数据,然后再将其存储在预先设定的目标服务器的Hive中,进行数据同步。
上述过程,主要依靠人工实现,因此,数据同步的效率较低。
发明内容
本发明实施例的目的在于提供一种数据同步方法、装置、服务器及存储介质,以提高数据同步的效率。具体技术方案如下:
第一方面,本发明实施例提供了一种数据同步方法,包括:
接收数据同步通知,所述数据同步通知为存储有待同步的目标类型数据的第一服务器发送的、针对所述目标类型数据的同步通知;
从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件;
定期将获取到的所述Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据。
进一步的,所述接收数据同步通知的步骤包括:
通过Zookeeper客户端接收数据同步通知;
所述从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件的步骤,包括:
通过Zookeeper客户端,从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件。
进一步的,所述定期将获取到的所述Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据的步骤,包括:
以第一预设时长为周期,定期将获取到的所述Binlog文件导入本地Hive中;
以第二预设时长为周期,定期将本周期内导入本地Hive中的Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据,其中,所述第二预设时长大于或者等于所述第一预设时长。
第二方面,本发明实施例提供了一种数据同步方法,应用于服务器集群,所述服务器集群中包括:存储有待同步的目标类型数据的第一服务器以及除所述第一服务器之外的其他服务器;所述方法,包括:
所述第一服务器接收针对所述目标类型数据的数据同步指令;
所述第一服务器从所述服务器集群中确定用于存储同步后的所述目标类型数据的目标服务器;
所述第一服务器向所述目标服务器发送针对所述目标类型数据的数据同步通知;
所述目标服务器从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件;
所述目标服务器定期将获取到的所述Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据。
进一步的,所述目标服务器定期将获取到的所述Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据的步骤,包括:
所述目标服务器以第一预设时长为周期,定期将获取到的所述Binlog文件导入本地Hive中;
所述目标服务器以第二预设时长为周期,定期将本周期内导入本地Hive中的Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据,其中,所述第二预设时长大于或者等于所述第一预设时长。
进一步的,所述数据同步指令中包含有用于存储同步后的所述目标类型数据的目标服务器的标识信息;
所述第一服务器从所述服务器集群中确定用于存储同步后的所述目标类型数据的目标服务器的步骤,包括:
所述第一服务器根据所述标识信息,从所述服务器集群中确定用于存储同步后的所述目标类型数据的目标服务器。
进一步的,所述服务器集群中的各服务器中均安装有Zookeeper客户端;
所述第一服务器从所述服务器集群中确定用于存储同步后的所述目标类型数据的目标服务器的步骤,包括:
所述第一服务器通过Zookeeper客户端,获取当前时刻所述服务器集群中各服务器的负载信息和/或所属地域信息;
所述第一服务器根据所述负载信息和/或所属地域信息,确定用于存储同步后的所述目标类型数据的目标服务器;
所述第一服务器向所述目标服务器发送针对所述目标类型数据的数据同步通知的步骤,包括:
所述第一服务器通过Zookeeper客户端,向所述目标服务器发送针对所述目标类型数据的数据同步通知;
所述目标服务器从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件的步骤,包括:
所述目标服务器通过Zookeeper客户端,从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件。
第三方面,本发明实施例提供了一种数据同步装置,包括:
通知接收模块,用于接收数据同步通知,所述数据同步通知为存储有待同步的目标类型数据的第一服务器发送的、针对所述目标类型数据的同步通知;
Binlog文件获取模块,用于从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件;
数据合并模块,用于定期将获取到的所述Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据。
进一步的,所述通知接收模块,具体用于通过Zookeeper客户端接收数据同步通知;
所述Binlog文件获取模块,具体用于通过Zookeeper客户端,从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件。
进一步的,所述数据合并模块,具体用于:
以第一预设时长为周期,定期将获取到的所述Binlog文件导入本地Hive中;
以第二预设时长为周期,定期将本周期内导入本地Hive中的Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据,其中,所述第二预设时长大于或者等于所述第一预设时长。
第四方面,本发明实施例提供了一种服务器,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一数据同步方法的步骤。
第五方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的数据同步方法。
第六方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的数据同步方法。
本发明实施例提供的数据同步方法、装置、服务器及存储介质,接收数据同步通知,所述数据同步通知为存储有待同步的目标类型数据的第一服务器发送的、针对所述目标类型数据的同步通知;从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件;定期将获取到的所述Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据。
本发明实施例中,当接收到存储有待同步的目标类型数据的第一服务器发送的数据同步通知时,则可以自动实现从第一服务器的MySQL中获取目标类型数据的Binlog文件,并与本地Hive中存在的所述目标类型数据的存量数据进行数据合并的操作,从而得到同步后的所述目标类型数据。可以,与需要依靠人工实现的数据同步方式相比,通过本发明实施例可以提高数据同步的效率。
另外,由于Binlog文件为用于记录用户对数据库MySQL的更新操作信息的二进制文件,该文件是在用户对MySQL进行更新操作的过程中实时自动生成的,因此,通过直接的实时获取Binlog文件进而进行数据同步,相比于现有技术中需要先人工周期性的,批量查找出有更新的数据之后,再根据查找出的有更新数据进行数据同步,本发明实施例将数据同步需求由周期性的批量操作转化为实时操作,因此,进一步的提高了数据同步的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种数据同步方法的流程图;
图2为本发明实施例提供的一种数据同步方法的具体交互流程图;
图3为图2所示实施例中的一种数据传输流程示意图;
图4为本发明实施例提供的一种数据同步装置的结构示意图;
图5为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了提高数据同步的效率,本发明实施例提供了一种数据同步方法、装置、服务器及存储介质。
参见图1,图1为本发明实施例提供的一种数据同步方法的流程图,具体步骤如下:
步骤101,接收数据同步通知,数据同步通知为存储有待同步的目标类型数据的第一服务器发送的、针对目标类型数据的同步通知。
步骤102,从第一服务器的MySQL中实时获取目标类型数据的Binlog文件。
步骤103,定期将获取到的Binlog文件与本地Hive中存在的目标类型数据的存量数据进行数据合并,得到同步后的目标类型数据。
由上述实施例可见,在本发明实施例中,当接收到存储有待同步的目标类型数据的第一服务器发送的数据同步通知时,则可以自动实现从第一服务器的MySQL中获取目标类型数据的Binlog文件,并与本地Hive中存在的目标类型数据的存量数据进行数据合并的操作,从而得到同步后的目标类型数据。可以,与需要依靠人工实现的数据同步方式相比,通过本发明实施例可以提高数据同步的效率。
同时,由于Binlog文件为用于记录用户对数据库MySQL的更新操作信息的二进制文件,该文件是在用户对MySQL进行更新操作的过程中实时自动生成的,因此,通过直接的实时获取Binlog文件进而进行数据同步,相比于现有技术中需要先人工周期性的,批量查找出有更新的数据之后,再根据查找出的有更新数据进行数据同步,本发明实施例将数据同步需求由周期性的批量操作转化为实时操作,因此,进一步的提高了数据同步的效率。
上述实施例中的数据同步方法,可以应用于服务器集群中用于存储同步后的目标类型数据的目标服务器,该目标服务器可以为服务器集群中的任一服务器,具体的,目标服务器可以是预先指定的,也可以是在确定进行目标类型数据的数据同步操作时,根据当前时刻服务器集群中各服务器的负载信息和/或所属地域信息等确定的。
进一步的,为提高各服务器之间的信息交互效率,服务器集群中的各服务器中可以均安装Zookeeper客户端,在步骤101中,可以通过Zookeeper客户端接受第一服务器发送的数据同步通知。同样的,在步骤102中,也可以通过Zookeeper客户端,从第一服务器的MySQL中实时获取目标类型数据的Binlog文件。
在步骤103中,进一步的,可以通过如下方法得到同步后的目标类型数据:
以第一预设时长为周期,定期将获取到的Binlog文件导入本地Hive中;
以第二预设时长为周期,定期将本周期内导入本地Hive中的Binlog文件与本地Hive中存在的目标类型数据的存量数据进行数据合并,得到同步后的目标类型数据,其中,第二预设时长大于或者等于第一预设时长。
具体的,本步骤中的存量数据为数据同步操作执行之前,已经在本地Hive中存在的目标类型数据。
为便于理解,可以通过例子对步骤103进行解释说明:例如,第一预设时长为1小时,第二预设时长为一天,那么,可以定期的,每1小时将获取到的Binlog文件导入本地Hive中,然后再定期的,每1天将导入到本地Hive中的Binlog文件与目标类型数据的存量数据进行数据合并,从而得到同步后的目标类型数据。
参见图2,图2为本发明实施例提供的一种数据同步方法的具体交互流程图,该方法应用于服务器集群,服务器集群中包括:存储有待同步的目标类型数据的第一服务器以及除第一服务器之外的其他服务器。具体包括如下步骤:
步骤201,第一服务器接收针对目标类型数据的数据同步指令。
步骤202,第一服务器从服务器集群中确定用于存储同步后的目标类型数据的目标服务器。
步骤203,第一服务器向目标服务器发送针对目标类型数据的数据同步通知。
步骤204,目标服务器从第一服务器的MySQL中实时获取目标类型数据的Binlog文件。
步骤205,目标服务器定期将获取到的Binlog文件与本地Hive中存在的目标类型数据的存量数据进行数据合并,得到同步后的目标类型数据。
在图2所示实施例中,当接收到存储有待同步的目标类型数据的第一服务器发送的数据同步通知时,则可以自动实现从第一服务器的MySQL中获取目标类型数据的Binlog文件,并与本地Hive中存在的目标类型数据的存量数据进行数据合并的操作,从而得到同步后的目标类型数据。可以,与需要依靠人工实现的数据同步方式相比,通过本发明实施例可以提高数据同步的效率。
另外,由于Binlog文件为用于记录用户对数据库MySQL的更新操作信息的二进制文件,该文件是在用户对MySQL进行更新操作的过程中实时自动生成的,因此,通过直接的实时获取Binlog文件进而进行数据同步,相比于现有技术中需要先人工周期性的,批量查找出有更新的数据之后,再根据查找出的有更新数据进行数据同步,本发明实施例将数据同步需求由周期性的批量操作转化为实时操作,因此,进一步的提高了数据同步的效率。
在步骤201中,第一服务器接收到的数据同步指令可以是人工输入的指令,指令中可以包含目标类型数据的标识信息,以便于第一服务器在本地的MySQL中查找与目标类型数据对应的Binlog文件。
在步骤202中,第一服务器确定目标服务器的方式可以有多种:
例如,在步骤201中的数据同步指令还可以包括有预先指定的目标服务器的标识信息,第一服务器可以根据目标服务器的标识信息,从服务器集群中确定目标服务器;又如,服务器集群中的各服务器中可以均安装Zookeeper客户端,第一服务器在接收到数据同步指令之后,可以通过Zookeeper客户端获取当前时刻服务器集群中各服务器的负载信息和/或所属地域信息,然后根据负载信息和/或所属地域信息,确定目标服务器,具体的,可以从服务器集群中选择负载较小的服务器作为目标服务器,以尽量使得集群中的服务器负载保持均衡;也可以从服务器集群中选择与第一服务器属于同一地理区域或者同一机房的服务器,以避免夸区域或者夸机房传输造成的传输成本较高的问题。此处,对于目标服务器的具体确定方式,不作限定。
在步骤204之前,目标服务器可以在本地注册永久性的空间,用于存储后序从第一服务器实时获取到的Binlog文件。
进一步的,由于在同一时间,有可能需要进行数据同步的目标类型数据有多个,且上述多个目标类型数据可能分布在不同的服务器上,也就是说,在同一时间,可能存在多个第一服务器需要与目标服务器之间进行数据同步过程中的数据交互,为便于管理,可以在注册的上述永久性空间中进一步的注册多个存储子空间,每个存储子空间与一个第一服务器对应,具体的,可以根据各存储子空间所对应的第一服务器的IP地址、目标服务器的IP地址以及数据传输过程中所使用的IP端口号等信息,分别生成各存储子空间的名称。
在步骤205中,进一步的,目标服务器可以通过如下方式将定期将获取到的Binlog文件与本地Hive中存在的目标类型数据的存量数据进行数据合并,得到同步后的目标类型数据:
目标服务器以第一预设时长为周期,定期将获取到的Binlog文件导入本地Hive中;
目标服务器以第二预设时长为周期,定期将本周期内导入本地Hive中的Binlog文件与本地Hive中存在的目标类型数据的存量数据进行数据合并,得到同步后的目标类型数据,其中,第二预设时长大于或者等于第一预设时长
具体的,在各第一预设时长周期内,首先,目标服务器可以实时将获取到的Binlog文件以Kafka队列的形式存储在已经预先注册好的永久性空间中,其中,为便于队列文件管理,对应于同一目标类型数据的Binlog文件可以存放在同一Kafka队列主题中;然后,在各第一预设时长周期结束时,可以先对Kafka队列中的Binlog文件进行解析,然后通过开源项目Camus将Kafka队列中的解析后的Binlog文件导入本地Hive中。
另外,在定期执行数据合并操作之前,在每个第二预设时长周期结束时刻,可以先检测导入操作的实效性,即:检测在该第二预设时长周期内,是否按照第一预设时长,定期将获取到的Binlog文件导入本地Hive中。具体的可以通过查看在该第二预设时长周期结束时,最后导入至本地Hive中的Binlog文件的导入时间信息来检测导入操作的实效性。例如:第一预设时长为1小时,第二预设时长为1天,也就是说,每1小时,目标服务器会定期将获取到的Binlog文件以Kafka队列的形式存储在已经预先注册好的永久性空间,每1天结束时,目标服务器可以先检测导入操作的实效性,即:获取最后导入至本地Hive中的Binlog文件的导入时间信息,若导入时间为24时,则表明时效性检测通过,这1天内的Binlog文件已经全部导入本地Hive中,之后,可以进行数据合并操作。
在定期执行数据合并操作时,针对每个第二预设时长周期,可以先将该第二预设时长结束时,导入至本地Hive中的Binlog文件存放在临时表中,该临时表中的每条数据均具有对应的键值,同时,在本地Hive中可能存在目标类型数据的存量数据,可以将该存量数据也按照上述临时表的格式进行转换,即:存量数据中的每条数据也均具有对应的键值。然后,将该临时表中的数据与本地Hive中存在的目标类型数据的存量数据进行基于键值的对照操作,对于临时表和存量数据中均存在的键值,根据临时表中该键值对应的数据,对存量数据中该键值对应的数据进行修改,同时,对于存量数据中不存在,而临时表中存在的键值,可以将临时表中的键值,以及键值对应的数据添加至存量数据。至此,本周期内的数据合并操作结束,得到同步后的目标类型数据。本周期中得到的同步后的目标类型数据,则可以作为下一周期的数据合并操作中的存量数据。
特别的,在数据同步的第一个数据合并周期内,目标服务器可以经Zookeeper客户端,通过一次性快照的方式直接从第一服务器中获取当前时刻所有的目标类型数据,作为本周期内的存量数据,以进行之后的数据同步操作。
参见图3,图3为图2所示实施例中的一种数据传输流程示意图,通过该示意图可以看出:目标类型数据的Binlog文件先从第一服务器的MySQL中被实时转移至目标服务器,并存储在目标服务器的Kafka队列中;之后,目标服务器通过开源项目Camus,定时将Kafka队列中存储的Binlog文件导入到Hive中;同时,目标服务器会对上述导入操作的实效性进行检测;最后,目标服务器会将导入至Hive中的Binlog文件与Hive中存在的目标类型数据的存量数据进行数据合并,得到同步后的目标类型数据。
进一步的,上述过程中,将Binlog文件导入Hive中的具体工作流程为:Camus先从Kafka队列中读取Binlog文件,并将Binlog文件写入Hdfs(Hadoop distributed filesystem,Hadoop分布式文件系统),再从Hdfs中将Binlog文件导入至Hive中。
基于同一发明构思,根据本发明上述实施例提供的数据同步方法,相应地,本发明一个实施例还提供了一种数据同步装置,该装置的结构示意图如图4所示,包括:
通知接收模块401,用于接收数据同步通知,数据同步通知为存储有待同步的目标类型数据的第一服务器发送的、针对目标类型数据的同步通知;
Binlog文件获取模块402,用于从第一服务器的MySQL中实时获取目标类型数据的Binlog文件;
数据合并模块403,用于定期将获取到的Binlog文件与本地Hive中存在的目标类型数据的存量数据进行数据合并,得到同步后的目标类型数据。
进一步的,通知接收模块401,具体用于通过Zookeeper客户端接收数据同步通知;
Binlog文件获取模块402,具体用于通过Zookeeper客户端,从第一服务器的MySQL中实时获取目标类型数据的Binlog文件。
进一步的,数据合并模块403,具体用于:
以第一预设时长为周期,定期将获取到的Binlog文件导入本地Hive中;
以第二预设时长为周期,定期将本周期内导入本地Hive中的Binlog文件与本地Hive中存在的目标类型数据的存量数据进行数据合并,得到同步后的目标类型数据,其中,第二预设时长大于或者等于第一预设时长。
在图4所示实施例中,当接收到存储有待同步的目标类型数据的第一服务器发送的数据同步通知时,则可以自动实现从第一服务器的MySQL中获取目标类型数据的Binlog文件,并与本地Hive中存在的目标类型数据的存量数据进行数据合并的操作,从而得到同步后的目标类型数据。可以,与需要依靠人工实现的数据同步方式相比,通过本发明实施例可以提高数据同步的效率。
另外,由于Binlog文件为用于记录用户对数据库MySQL的更新操作信息的二进制文件,该文件是在用户对MySQL进行更新操作的过程中实时自动生成的,因此,通过直接的实时获取Binlog文件进而进行数据同步,相比于现有技术中需要先人工周期性的,批量查找出有更新的数据之后,再根据查找出的有更新数据进行数据同步,本发明实施例将数据同步需求由周期性的批量操作转化为实时操作,因此,进一步的提高了数据同步的效率。
本发明实施例还提供了一种服务器,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
接收数据同步通知,数据同步通知为存储有待同步的目标类型数据的第一服务器发送的、针对目标类型数据的同步通知;
从第一服务器的MySQL中实时获取目标类型数据的Binlog文件;
定期将获取到的Binlog文件与本地Hive中存在的目标类型数据的存量数据进行数据合并,得到同步后的目标类型数据。
上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述服务器与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory,简称NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一数据同步方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一数据同步方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,简称DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(Digital Video Disc,简称DVD))、或者半导体介质(例如固态硬盘(SolidState Disk,简称SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、服务器及存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (9)
1.一种数据同步方法,其特征在于,包括:
接收数据同步通知,所述数据同步通知为存储有待同步的目标类型数据的第一服务器发送的、针对所述目标类型数据的同步通知;
从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件;
定期将获取到的所述Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据;
所述定期将获取到的所述Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据的步骤,包括:
以第一预设时长为周期,定期将获取到的所述Binlog文件导入本地Hive中;
以第二预设时长为周期,定期将本周期内导入本地Hive中的Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据,其中,所述第二预设时长大于或者等于所述第一预设时长,包括:将第二预设时长结束时,导入至本地Hive中的Binlog文件存放在临时表中,将该临时表中的数据与本地Hive中存在的目标类型数据的存量数据进行基于键值的对照操作,对于临时表和存量数据中均存在的键值,根据临时表中该键值对应的数据,对存量数据中该键值对应的数据进行修改;对于存量数据中不存在,而临时表中存在的键值,将临时表中的键值,以及键值对应的数据添加至存量数据。
2.根据权利要求1所述的方法,其特征在于,所述接收数据同步通知的步骤包括:
通过Zookeeper客户端接收数据同步通知;
所述从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件的步骤,包括:
通过Zookeeper客户端,从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件。
3.一种数据同步方法,其特征在于,应用于服务器集群,所述服务器集群中包括:存储有待同步的目标类型数据的第一服务器以及除所述第一服务器之外的其他服务器;所述方法,包括:
所述第一服务器接收针对所述目标类型数据的数据同步指令;
所述第一服务器从所述服务器集群中确定用于存储同步后的所述目标类型数据的目标服务器;
所述第一服务器向所述目标服务器发送针对所述目标类型数据的数据同步通知;
所述目标服务器从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件;
所述目标服务器定期将获取到的所述Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据;
所述目标服务器定期将获取到的所述Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据的步骤,包括:
所述目标服务器以第一预设时长为周期,定期将获取到的所述Binlog文件导入本地Hive中;
所述目标服务器以第二预设时长为周期,定期将本周期内导入本地Hive中的Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据,其中,所述第二预设时长大于或者等于所述第一预设时长,包括:将第二预设时长结束时,导入至本地Hive中的Binlog文件存放在临时表中,将该临时表中的数据与本地Hive中存在的目标类型数据的存量数据进行基于键值的对照操作,对于临时表和存量数据中均存在的键值,根据临时表中该键值对应的数据,对存量数据中该键值对应的数据进行修改;对于存量数据中不存在,而临时表中存在的键值,将临时表中的键值,以及键值对应的数据添加至存量数据。
4.根据权利要求3所述的方法,其特征在于,所述数据同步指令中包含有用于存储同步后的所述目标类型数据的目标服务器的标识信息;
所述第一服务器从所述服务器集群中确定用于存储同步后的所述目标类型数据的目标服务器的步骤,包括:
所述第一服务器根据所述标识信息,从所述服务器集群中确定用于存储同步后的所述目标类型数据的目标服务器。
5.根据权利要求3所述的方法,其特征在于,所述服务器集群中的各服务器中均安装有Zookeeper客户端;
所述第一服务器从所述服务器集群中确定用于存储同步后的所述目标类型数据的目标服务器的步骤,包括:
所述第一服务器通过Zookeeper客户端,获取当前时刻所述服务器集群中各服务器的负载信息和/或所属地域信息;
所述第一服务器根据所述负载信息和/或所属地域信息,确定用于存储同步后的所述目标类型数据的目标服务器;
所述第一服务器向所述目标服务器发送针对所述目标类型数据的数据同步通知的步骤,包括:
所述第一服务器通过Zookeeper客户端,向所述目标服务器发送针对所述目标类型数据的数据同步通知;
所述目标服务器从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件的步骤,包括:
所述目标服务器通过Zookeeper客户端,从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件。
6.一种数据同步装置,其特征在于,包括:
通知接收模块,用于接收数据同步通知,所述数据同步通知为存储有待同步的目标类型数据的第一服务器发送的、针对所述目标类型数据的同步通知;
Binlog文件获取模块,用于从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件;
数据合并模块,用于定期将获取到的所述Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据;
所述数据合并模块,具体用于:
以第一预设时长为周期,定期将获取到的所述Binlog文件导入本地Hive中;
以第二预设时长为周期,定期将本周期内导入本地Hive中的Binlog文件与本地Hive中存在的所述目标类型数据的存量数据进行数据合并,得到同步后的所述目标类型数据,其中,所述第二预设时长大于或者等于所述第一预设时长,包括:将第二预设时长结束时,导入至本地Hive中的Binlog文件存放在临时表中,将该临时表中的数据与本地Hive中存在的目标类型数据的存量数据进行基于键值的对照操作,对于临时表和存量数据中均存在的键值,根据临时表中该键值对应的数据,对存量数据中该键值对应的数据进行修改;对于存量数据中不存在,而临时表中存在的键值,将临时表中的键值,以及键值对应的数据添加至存量数据。
7.根据权利要求6所述的装置,其特征在于,所述通知接收模块,具体用于通过Zookeeper客户端接收数据同步通知;
所述Binlog文件获取模块,具体用于通过Zookeeper客户端,从所述第一服务器的MySQL中实时获取所述目标类型数据的Binlog文件。
8.一种服务器,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1或2所述的方法步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1或2所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010165156.0A CN111291127B (zh) | 2020-03-11 | 2020-03-11 | 一种数据同步方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010165156.0A CN111291127B (zh) | 2020-03-11 | 2020-03-11 | 一种数据同步方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291127A CN111291127A (zh) | 2020-06-16 |
CN111291127B true CN111291127B (zh) | 2023-10-27 |
Family
ID=71030229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010165156.0A Active CN111291127B (zh) | 2020-03-11 | 2020-03-11 | 一种数据同步方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291127B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836224B (zh) * | 2021-09-07 | 2024-07-26 | 南方电网大数据服务有限公司 | Ogg到hdfs的同步文件处理方法、装置和计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106713487A (zh) * | 2017-01-16 | 2017-05-24 | 腾讯科技(深圳)有限公司 | 数据的同步方法和装置 |
CN107423303A (zh) * | 2016-05-24 | 2017-12-01 | 北京京东尚科信息技术有限公司 | 数据同步的方法和系统 |
CN108573006A (zh) * | 2017-06-06 | 2018-09-25 | 北京金山云网络技术有限公司 | 跨机房数据同步系统、方法及装置、电子设备 |
CN110083660A (zh) * | 2019-04-29 | 2019-08-02 | 重庆天蓬网络有限公司 | 一种同步数据的方法、装置、介质和电子设备 |
CN110704400A (zh) * | 2019-09-29 | 2020-01-17 | 上海易点时空网络有限公司 | 实时数据同步方法以及装置、服务器 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10970193B2 (en) * | 2018-05-23 | 2021-04-06 | Dropbox, Inc. | Debugging a client synchronization service |
-
2020
- 2020-03-11 CN CN202010165156.0A patent/CN111291127B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423303A (zh) * | 2016-05-24 | 2017-12-01 | 北京京东尚科信息技术有限公司 | 数据同步的方法和系统 |
CN106713487A (zh) * | 2017-01-16 | 2017-05-24 | 腾讯科技(深圳)有限公司 | 数据的同步方法和装置 |
CN108573006A (zh) * | 2017-06-06 | 2018-09-25 | 北京金山云网络技术有限公司 | 跨机房数据同步系统、方法及装置、电子设备 |
CN110083660A (zh) * | 2019-04-29 | 2019-08-02 | 重庆天蓬网络有限公司 | 一种同步数据的方法、装置、介质和电子设备 |
CN110704400A (zh) * | 2019-09-29 | 2020-01-17 | 上海易点时空网络有限公司 | 实时数据同步方法以及装置、服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN111291127A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10129118B1 (en) | Real time anomaly detection for data streams | |
CN107748790B (zh) | 一种线上服务系统、数据加载方法、装置及设备 | |
CN109783258B (zh) | 一种消息处理方法、装置及服务器 | |
CN107276970B (zh) | 一种解绑、绑定方法和装置 | |
CN109241084B (zh) | 数据的查询方法、终端设备及介质 | |
CN112115200B (zh) | 数据同步方法、装置、电子设备及可读存储介质 | |
CN109995612B (zh) | 一种服务巡检方法、装置及电子设备 | |
CN111212135A (zh) | 消息订阅方法、装置、系统、电子设备及存储介质 | |
CN111291127B (zh) | 一种数据同步方法、装置、服务器及存储介质 | |
CN110309028B (zh) | 监控信息获取方法、服务监控方法、装置及系统 | |
CN110543509B (zh) | 用户访问数据的监控系统、方法、装置及电子设备 | |
CN116303340A (zh) | 数据的跨域迁移方法和装置 | |
US11113706B2 (en) | Scoring information matching method and device, storage medium and server | |
CN113114611B (zh) | 黑名单管理的方法和装置 | |
CN111400327B (zh) | 一种数据同步方法、装置、电子设备及存储介质 | |
CN114465919A (zh) | 一种网络服务测试方法、系统、电子设备及存储介质 | |
CN112783754B (zh) | 一种对页面进行测试的方法和装置 | |
CN108763291B (zh) | 一种数据管理方法、装置及电子设备 | |
CN113238919A (zh) | 一种用户访问数的统计方法、装置及系统 | |
US20200028897A1 (en) | Load balancing system | |
CN111163088B (zh) | 消息处理方法、系统、装置及电子设备 | |
CN112732757B (zh) | 一种降级数据的处理方法、系统、装置、设备及存储介质 | |
CN114301709B (zh) | 报文的处理方法和装置、存储介质及计算设备 | |
CN110858848B (zh) | 一种集群系统的任务资源的纠正方法及装置 | |
CN114205412A (zh) | 信息推送方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |