CN111506646B

CN111506646B - 数据同步方法、装置、系统、存储介质及处理器

Info

Publication number: CN111506646B
Application number: CN202010181976.9A
Authority: CN
Inventors: 梁俊飞
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2023-05-02
Anticipated expiration: 2040-03-16
Also published as: CN111506646A

Abstract

本发明公开了一种数据同步方法、装置、系统、存储介质及处理器。其中，该方法包括：基于业务数据查询请求创建索引同步工作；从第一服务器获取与索引同步工作关联的多个日志记录，其中，第一服务器为分布式文件系统储服务器，多个日志记录的每个日志记录中存储有待同步的日志元数据；将多个日志记录同步至第二服务器，其中，第二服务器为全文检索服务器。本发明解决了分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的索引同步效率低的技术问题。

Description

数据同步方法、装置、系统、存储介质及处理器

技术领域

本发明涉及计算机领域，具体而言，涉及一种数据同步方法、装置、系统、存储介质及处理器。

背景技术

分布式存储系统HBase是一个非关系型的数据库NoSQL系统，支持按行键Rowkey去查询数据,为了对同一份数据做全文检索查询，会把HBase数据同步到全文检索服务器Solr、全文检索服务器ES(即ElasticSearch)等外部系统。

需要说明的是，全文检索服务器(如Solr或ES)系统的成本高于分布式存储系统HBase的成本，因此，为了降低成本开销，可以将分布式存储系统HBase与全文检索服务器(如Solr或ES)结合，来较少对全文检索服务器(如Solr或ES)的使用，从而可以把全量数据存在HBase，把需要检索的数据同步到全文搜索引擎(即Sorl或ES)。

为了保持两个系统(如HBase与Solr，或HBase与ES)的时间数据同步，可以基于Log进行实时同步数据，在开源的索引器HBase-indexer中基于复制HBase Replication来同步数据。但是，这种方式存在维护麻烦、Log重复读取等问题，为规避这些问题提出此方案。

目前，开源HBase-indexer的实现如下：建立Solr索引后，则会创建一个对等节点peer，然后开始同步数据，并且各对等节点peer之间的同步通道是相互独立的。

但是，基于HBase-indexer的同步方式存在如下缺点：

1.每一个peer同步数据的时候都需要把所有的Log读一遍，建设有N个索引，则Log的读流量会放大N倍，对网络、磁盘的压力都比较大。

2.同步效率比较低，Replication从WAL读出Log，反序列化成KV，然后再序列化成二进制数据发送到网络，随后通过网络发送indexer，indexer方序列化出KV才能写SOLR；RS通过网络把KV发送给索引器Indexer，导致了多一次KV的反序列化和序列化。

3.索引同步链路和HBase强耦合，一旦HBase有bug或者Replication有问题会相互影响。

需要说明的是，分布式存储系统(即HBase)的数据一般都存储在分布式文件系统服务器(即HDFS)中，因此，将分布式存储系统(即HBase)与全文搜索引擎(即Sorl或ES)的数据同步就相当于对分布式文件系统服务器(即HDFS)与全文搜索引擎(即Sorl或ES)的数据同步。

针对上述分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的索引同步效率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据同步方法、装置、系统、存储介质及处理器，以至少解决分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的索引同步效率低的技术问题。

根据本发明实施例的一个方面，提供了一种数据同步方法，包括：基于业务数据查询请求创建索引同步工作；从第一服务器获取与所述索引同步工作关联的多个日志记录，其中，所述第一服务器为分布式文件系统服务器，所述多个日志记录的每个日志记录中存储有待同步的日志元数据；将所述多个日志记录同步至第二服务器，其中，所述第二服务器为全文检索服务器。

根据本发明实施例的另一方面，还提供了一种数据同步装置，包括：创建单元,用于基于业务数据查询请求创建索引同步工作；获取单元,用于从第一服务器获取与所述索引同步工作关联的多个日志记录，其中，所述第一服务器为分布式文件系统服务器，所述多个日志记录的每个日志记录中存储有待同步的日志元数据；同步单元,用于将所述多个日志记录同步至第二服务器，其中，所述第二服务器为全文检索服务器。

根据本发明实施例的另一方面，还提供了一种数据同步系统，包括：分布式文件系统服务器、全文检索服务器以及日志管理与索引管理服务器；所述分布式文件系统服务器，用于为所述日志管理与索引管理服务器提供待获取的日志记录；所述日志管理与索引管理服务器，用于基于业务数据查询请求创建索引同步工作，从所述分布式文件系统服务器获取与所述索引同步工作关联的多个日志记录，并将所述多个日志记录同步至所述全文检索服务器，其中，所述多个日志记录的每个日志记录中存储有待同步的日志元数据；所述全文检索服务器，用于存储所述日志管理与索引管理服务器写入的所述多个日志记录。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述所述的数据同步方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述所述的数据同步方法。

在本发明实施例中，基于业务数据查询请求创建索引同步工作；从第一服务器获取与索引同步工作关联的多个日志记录，其中，第一服务器为分布式文件系统服务器(即HDFS)，多个日志记录的每个日志记录中存储有待同步的日志元数据；将多个日志记录同步至第二服务器，其中，第二服务器为全文检索服务器(即Solr或ES),将分布式文件系统服务器(即HDFS)中与索引同步工作关联的多个日志记录直接同步到到全文检索服务器(即Solr或ES)中，可以避免对与索引同步工作无关的多个日志记录进行同步，达到了对分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的日志记录进行同步的目的,从而实现了提高分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的索引同步效率的技术效果，进而解决了分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的索引同步效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现数据同步方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本发明实施例的一种数据同步方法的流程图；

图3是根据本发明实施例的一种索引同步服务的示意图；

图4是根据本发明实施例的一种数据同步装置的示意图；

图5是根据本发明实施例的一种数据同步系统的示意图；

图6是根据本发明实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

HBase：即Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价的个人电脑服务器(即PC Server搭建起大会莫结构化存储集群)。

HDFS：全称Hadoop Distributed File System，即分布式文件系统，作为HBase的文件存储系统，为HBase提供了高可靠性的底层存储支持。

RegionServer：RS，即区域服务器，主要负责响应用户的请求，向HDFS读写数据，为HBase提供服务。

Replication:HBase集群间同步的方法。

HBase-indexer：开源的HBase数据同步Solr的系统。

Solr：基于搜索引擎Lucene的全文搜索服务器，是一个独立的企业级搜索应用服务器，即全文检索服务器，对外提供类似与Web-service的API接口。

ES：即ElasticSearch，是一个基于搜索引擎Lucene的全文搜索服务器，提供了一个分布式多用户能力的全文搜索引擎。

实施例1

根据本发明实施例，还提供了一种数据同步方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现数据同步方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：通用串行总线(BUS)、显示器、输入/输出接口(I/O接口)、传输装置、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的数据同步方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的数据同步方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的数据同步方法。图2是根据本发明实施例的一种数据同步方法的流程图,如图2所示，该方法包括如下步骤：

步骤S202，基于业务数据查询请求创建索引同步工作；

步骤S204，从第一服务器获取与索引同步工作关联的多个日志记录，其中，第一服务器为分布式文件系统服务器，多个日志记录的每个日志记录中存储有待同步的日志元数据；

步骤S206，将多个日志记录同步至第二服务器，其中，第二服务器为全文检索服务器。

作为一种可选的实施例，从第一服务器获取多个日志记录包括：对第一服务器上的日志目录进行扫描，获取日志列表，其中，日志列表中记录有第一服务器当前维护的全部日志记录；基于索引同步工作从日志列表中获取多个日志记录。

本发明上述实施例，通过对分布式文件系统服务器进行扫描，可以获得记录有分布式文件系统服务器当前维护的全部日志记录，然后再基于索引同步工作从分布式文件系统服务器的全部日志记录中，获取与索引同步工作关联的多个日志记录，从而在后续过程中，可以直接对分布式文件系统服务器中与索引同步工作关联的日志记录进行同步，而无需同步分布式文件系统服务器中的全部日志记录，降低了需要同步的日志记录的数量，提高日志记录的同步效率。

需要说明的是，在每次索引同步工作的过程中，只需对分布式文件系统服务器中的日志记录进行一次扫描。

可选地，第一服务器可以是HDFS服务器，作为HBase的文件存储系统，为HBase提供了高可靠性的底层存储支持。

可选地，第二服务器可以是ES服务器或Solr服务器。

作为一种可选的实施例，将多个日志记录同步至第二服务器包括：将多个日志记录存储至预设内存队列；生成与多个日志记录数量相同的多个索引同步任务并分发给同步进程，其中，多个索引同步任务中的每个索引同步任务分别处理一个不同的日志记录，并且每个索引同步任务用于依据当前处理的日志记录对至少一个索引进行同步更新；通过同步进程执行多个索引同步任务，将多个日志记录同步至第二服务器。

本发明上述实施例，在确定与索引同步工作关联的多个日志记录后，可以将确定的多个日志记录存储至预设内存队列，再生成与多个日志记录数量相同的多个索引同步任务，由每个索引同步任务分别处理一个不同的日志记录，使每个索引同步任务可以依据当前处理的日志记录对至少一个索引进行同步更新，然后将多个索引同步任务分发给同步进程，通过同步进程执行多个索引同步任务，将多个日志记录同步至全文检索服务器，实现了对分布式文件系统服务器与全文检索服务器中的日志记录进行同步。

作为一种可选的实施例，当同一个索引同步任务用于依据当前处理的日志记录对多个索引进行同步更新时，多个索引之间的同步进度存在制约关系。

作为一种可选的示例，分布式文件系统服务器HBase中存在两个日志列表，分别为日志列表A和日志列表B，其中，日志列表A包含字段a、字段b、字段c、字段d，对字段a、字段b、字段c建立索引Index A1；对字段a、字段d建立索引Index A2；日志列表B包含字段h、字段i、字段j、字段k，对字段h、字段i、字段k建立索引Index B。

需要说明的是，日志列表A的索引和日志列表B的索引可以分开，避免索引同步进度相互影响，因为索引只有在更新两个表的索引后才能推进点位。但是，如果有业务上会同时使用索引Index A1、索引Index A2和索引Index B，若其中的一个索引延迟，而另外几个无法使用，则可以将多个索引放在一起。

作为一种可选的实施例，在将多个日志记录同步至第二服务器之后，还包括：将每个索引同步任务所负责同步更新的至少一个索引的同步进度中的最慢同步进度统计为每个索引同步任务的同步进度；将每个索引同步任务的同步进度中的最慢同步进度统计为索引同步工作的同步进度；将索引同步工作的同步进度以及参与同步日志列表的其他索引同步工作的同步进度中的最慢同步进度统计为日志列表的同步进度。

本发明上述实施例，日志列表的同步过程包括至少一个索引同步工作，每个索引同步工作包括至少一个索引同步任务，每个索引同步任务包括至少一个索引，进而可以将同一索引同步任务中索引的最慢同步进度作为该索引同步任务的同步进度；也可以将同一索引同步工作中索引同步任务的最慢同步进度作为该索引同步工作的同步进度；还可以将日志列表的同步过程中索引同步工作的最慢同步进度作为该日志列表的同步进度。

作为一种可选的实施例，在将多个日志记录同步至第二服务器之后，还包括：将日志列表中已同步完毕的日志记录从日志列表移除，得到更新后日志列表；将更新后日志列表的同步进度更新至第三服务器，其中，第三服务器为集中式存储服务器。

本发明上述实施例，在分布式文件系统服务器的日志列表中，可以将已同步完毕的日志记录从日志列表移除，实现对日志列表的更新，然后再将更新后日志列表的同步进度更新至集中式存储服务器中。

需要说明的是，第三服务器可以是ZooKeeper服务器，ZooKeeper是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

作为一种可选的实施例，在第三服务器上维护的更新后日志列表中的每个日志记录包括：第一字段、第二字段和第三字段，其中，第一字段表示当前日志记录标识，第二字段表示当前日志记录长度，第三字段表示当前日志记录同步进度。

作为一种可选的实施例，该实施例可以应用于与第四服务器相互独立的第五服务器，其中，所述第四服务器为分布式文件系统服务器，所述第五服务器为日志管理与索引管理服务器。

需要说明的是，第四服务器可以是HBase服务器，可以将用于存储日志记录的日志管理模块设置在HBase服务器.

可选地，还可以将用于存储日志记录的日志管理模块设置在独立的服务器中，则存储日志记录的服务器，即为第五服务器。

需要说明的是，对于日志列表的获取，在第四服务器为分布式文件系统服务器HBase的情况下，可以获取HBase Log目录中的Log列表为日志列表。

图3是根据本发明实施例的一种索引同步服务的示意图，如图3所示，同步主干(master)包括日志管理和索引管理。

其中，日志管理包括：定时扫描(5-10s)HBase Log目录获取Log列表，并维护到预设内存队列ZK上。在预设内存队列ZK上的Log存储格式为：<LogName,Length,OffSet>对于已经关闭的Log，Length为实际文件长度，否则Length是-1；OffSet是已经同步点位，如果Length！＝-1并且OffSet＝＝Lenght，则表示日志已经消费完毕，可以移除。日志会被多个索引同步Job消费，日志同步的点位是索引同步任务的最小点位。

其中，索引管理包括：创建索引的时候会生成一个索引同步Job，索引同步job会从日志管理模块获取日志列表，并生成索引同步Task分发给Worker执行；同时也会收集同步任务的同步点位，更新到日志管理模块。

需要说明的是，一个索引同步任务可以同时包括对多个索引的更新，从分布式文件系统HDFS读出Log后，提交到共享队列(即上述预设内存队列)，然后不同索引更新模块都从共享队列获取数据；共享队列的已消费点位是所有索引更新的最小点位，只有所有的索引都同步后，才更新索引同步任务的位点，保证不丢数据。如果一个索引同步任务包含多个索引的更新，则多个索引同步进度会互相影响，可以把相关的表索引同步放在一个任务里，不相关的则分开到不同的索引同步任务，兼顾性能和索引同步时效性。

本发明上述实施例，因为索引同步任务引入了共享队列，多个索引同步可以共享一个通道，避免了对Log的多次读取，降低了磁盘和网络IO，提高同吞吐；索引同步任务是直接从集中式存储服务器HDFS读取Log，然后直接写Solr、ES避免了Replication网络发送的序列化和序列化开销，提高同步性能；通过日志管理模块，可以独立于HBase replication，和HBase实现了解耦，便于运维和独立演进。

本发明上述实施例，通过基于轮询日志、共享通道的索引同步服务，实现了一个高效的、灵活的从HBase到Solr、ES的数据同步方案。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述数据同步方法的数据同步装置，图4是根据本发明实施例的一种数据同步装置的示意图，如图4所示，该装置包括：创建单元42、获取单元44和同步单元46。

其中，创建单元42,用于基于业务数据查询请求创建索引同步工作；获取单元44,用于从第一服务器获取与索引同步工作关联的多个日志记录，其中，第一服务器为分布式文件系统服务器，多个日志记录的每个日志记录中存储有待同步的日志元数据；同步单元46,用于将多个日志记录同步至第二服务器，其中，第二服务器为全文检索服务器。

此处需要说明的是，上述创建单元42、获取单元44和同步单元46对应于实施例1中的步骤S202、步骤S204和步骤S206，上述单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例1提供的计算机终端10中。

作为一种可选的实施例,获取单元包括：扫描模块,用于对第一服务器上的日志目录进行扫描，获取日志列表，其中，日志列表中记录有第一服务器当前维护的全部日志记录；获取模块,用于基于索引同步工作从日志列表中获取多个日志记录。

作为一种可选的实施例,同步单元包括：存储模块,用于将多个日志记录存储至预设内存队列；生成模块,用于生成与多个日志记录数量相同的多个索引同步任务并分发给同步进程，其中，多个索引同步任务中的每个索引同步任务分别处理一个不同的日志记录，并且每个索引同步任务用于依据当前处理的日志记录对至少一个索引进行同步更新；执行模块,用于通过同步进程执行多个索引同步任务，将多个日志记录同步至第二服务器。

作为一种可选的实施例,当同一个索引同步任务用于依据当前处理的日志记录对多个索引进行同步更新时，多个索引之间的同步进度存在制约关系。

作为一种可选的实施例,该装置还包括：第一统计单元,用于在将多个日志记录同步至第二服务器之后，将每个索引同步任务所负责同步更新的至少一个索引的同步进度中的最慢同步进度统计为每个索引同步任务的同步进度；第二统计单元,用于将每个索引同步任务的同步进度中的最慢同步进度统计为索引同步工作的同步进度；第三统计单元,用于将索引同步工作的同步进度以及参与同步日志列表的其他索引同步工作的同步进度中的最慢同步进度统计为日志列表的同步进度。

作为一种可选的实施例,该装置还包括：移除单元,用于在将多个日志记录同步至第二服务器之后，将日志列表中已同步完毕的日志记录从日志列表移除，得到更新后日志列表；更新单元,用于将更新后日志列表的同步进度更新至第三服务器，其中，第三服务器为集中式存储服务器。

作为一种可选的实施例,在第三服务器上维护的更新后日志列表中的每个日志记录包括：第一字段、第二字段和第三字段，其中，第一字段表示当前日志记录标识，第二字段表示当前日志记录长度，第三字段表示当前日志记录同步进度。

作为一种可选的实施例,该装置应用于与第四服务器相互独立的第五服务器，其中，第四服务器为分布式文件系统服务器，第五服务器为日志管理与索引管理服务器。

实施例2

根据本发明实施例，还提供了一种数据同步系统，图5是根据本发明实施例的一种数据同步系统的示意图，如图5所示，该系统包括：分布式文件系统服务器52、全文检索服务器54以及日志管理与索引管理服务器56；

其中，分布式文件系统服务器52，用于为日志管理与索引管理服务器提供待获取的日志记录；日志管理与索引管理服务器56，用于基于业务数据查询请求创建索引同步工作，从分布式文件系统服务器获取与索引同步工作关联的多个日志记录，并将多个日志记录同步至全文检索服务器，其中，多个日志记录的每个日志记录中存储有待同步的日志元数据；全文检索服务器54，用于存储日志管理与索引管理服务器写入的多个日志记录。

在本发明实施例中，通过日志管理与索引管理服务器，基于业务数据查询请求创建索引同步工作；从第一服务器获取与索引同步工作关联的多个日志记录，其中，第一服务器为分布式文件系统服务器(即HDFS)，多个日志记录的每个日志记录中存储有待同步的日志元数据；将多个日志记录同步至第二服务器，其中，第二服务器为全文检索服务器(即Solr或ES),将分布式文件系统服务器(即HDFS)中与索引同步工作关联的多个日志记录直接同步到到全文检索服务器(即Solr或ES)中，可以避免对与索引同步工作无关的多个日志记录进行同步，达到了对分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的日志记录进行同步的目的,从而实现了提高分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的索引同步效率的技术效果，进而解决了分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的索引同步效率低的技术问题。

实施例4

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行数据同步方法中以下步骤的程序代码：基于业务数据查询请求创建索引同步工作；从第一服务器获取与所述索引同步工作关联的多个日志记录，其中，所述第一服务器为分布式文件系统服务器，所述多个日志记录的每个日志记录中存储有待同步的日志元数据；将所述多个日志记录同步至第二服务器，其中，所述第二服务器为全文检索服务器。

可选地，图6是根据本发明实施例的一种计算机终端的结构框图。如图6所示，该计算机终端10可以包括：一个或多个(图中仅示出一个)处理器、存储器、以及传输装置。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的数据同步方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据同步方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：基于业务数据查询请求创建索引同步工作；从第一服务器获取与所述索引同步工作关联的多个日志记录，其中，所述第一服务器为分布式文件系统服务器，所述多个日志记录的每个日志记录中存储有待同步的日志元数据；将所述多个日志记录同步至第二服务器，其中，所述第二服务器为全文检索服务器。

可选的，上述处理器还可以执行如下步骤的程序代码：对所述第一服务器上的日志目录进行扫描，获取日志列表，其中，所述日志列表中记录有所述第一服务器当前维护的全部日志记录；基于所述索引同步工作从所述日志列表中获取所述多个日志记录。

可选的，上述处理器还可以执行如下步骤的程序代码：将所述多个日志记录存储至预设内存队列；生成与所述多个日志记录数量相同的多个索引同步任务并分发给同步进程，其中，所述多个索引同步任务中的每个索引同步任务分别处理一个不同的日志记录，并且每个索引同步任务用于依据当前处理的日志记录对至少一个索引进行同步更新；通过所述同步进程执行所述多个索引同步任务，将所述多个日志记录同步至第二服务器。

可选的，当同一个索引同步任务用于依据当前处理的日志记录对多个索引进行同步更新时，所述多个索引之间的同步进度存在制约关系。

可选的，上述处理器还可以执行如下步骤的程序代码：在将所述多个日志记录同步至第二服务器之后，将每个索引同步任务所负责同步更新的至少一个索引的同步进度中的最慢同步进度统计为每个索引同步任务的同步进度；将每个索引同步任务的同步进度中的最慢同步进度统计为所述索引同步工作的同步进度；将所述索引同步工作的同步进度以及参与同步日志列表的其他索引同步工作的同步进度中的最慢同步进度统计为所述日志列表的同步进度。

可选的，上述处理器还可以执行如下步骤的程序代码：在将所述多个日志记录同步至第二服务器之后，将所述日志列表中已同步完毕的日志记录从所述日志列表移除，得到更新后日志列表；将所述更新后日志列表的同步进度更新至第三服务器，其中，所述第三服务器为集中式存储服务器。

可选的，在所述第三服务器上维护的所述更新后日志列表中的每个日志记录包括：第一字段、第二字段和第三字段，其中，所述第一字段表示当前日志记录标识，所述第二字段表示当前日志记录长度，所述第三字段表示当前日志记录同步进度。

可选的，该实施例应用于与第四服务器相互独立的第五服务器，其中，所述第四服务器为分布式文件系统服务器，所述第五服务器为日志管理与索引管理服务器。

采用本发明实施例，提供了一种数据同步方案。基于业务数据查询请求创建索引同步工作；从第一服务器获取与索引同步工作关联的多个日志记录，其中，第一服务器为分布式文件系统服务器(即HDFS)，多个日志记录的每个日志记录中存储有待同步的日志元数据；将多个日志记录同步至第二服务器，其中，第二服务器为全文检索服务器(即Solr或ES),将分布式文件系统服务器(即HDFS)中与索引同步工作关联的多个日志记录直接同步到到全文检索服务器(即Solr或ES)中，可以避免对与索引同步工作无关的多个日志记录进行同步，达到了对分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的日志记录进行同步的目的,从而实现了提高分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的索引同步效率的技术效果，进而解决了分布式文件系统服务器(即HDFS)与全文检索服务器(即Solr或ES)的索引同步效率低的技术问题。

本领域普通技术人员可以理解，图6所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图6所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例5

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的数据同步方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于业务数据查询请求创建索引同步工作；从第一服务器获取与所述索引同步工作关联的多个日志记录，其中，所述第一服务器为分布式文件系统服务器，所述多个日志记录的每个日志记录中存储有待同步的日志元数据；将所述多个日志记录同步至第二服务器，其中，所述第二服务器为全文检索服务器。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对所述第一服务器上的日志目录进行扫描，获取日志列表，其中，所述日志列表中记录有所述第一服务器当前维护的全部日志记录；基于所述索引同步工作从所述日志列表中获取所述多个日志记录。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将所述多个日志记录存储至预设内存队列；生成与所述多个日志记录数量相同的多个索引同步任务并分发给同步进程，其中，所述多个索引同步任务中的每个索引同步任务分别处理一个不同的日志记录，并且每个索引同步任务用于依据当前处理的日志记录对至少一个索引进行同步更新；通过所述同步进程执行所述多个索引同步任务，将所述多个日志记录同步至第二服务器。

可选地，当同一个索引同步任务用于依据当前处理的日志记录对多个索引进行同步更新时，所述多个索引之间的同步进度存在制约关系。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在将所述多个日志记录同步至第二服务器之后，将每个索引同步任务所负责同步更新的至少一个索引的同步进度中的最慢同步进度统计为每个索引同步任务的同步进度；将每个索引同步任务的同步进度中的最慢同步进度统计为所述索引同步工作的同步进度；将所述索引同步工作的同步进度以及参与同步日志列表的其他索引同步工作的同步进度中的最慢同步进度统计为所述日志列表的同步进度。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在将所述多个日志记录同步至第二服务器之后，将所述日志列表中已同步完毕的日志记录从所述日志列表移除，得到更新后日志列表；将所述更新后日志列表的同步进度更新至第三服务器，其中，所述第三服务器为集中式存储服务器。

可选地，在所述第三服务器上维护的所述更新后日志列表中的每个日志记录包括：第一字段、第二字段和第三字段，其中，所述第一字段表示当前日志记录标识，所述第二字段表示当前日志记录长度，所述第三字段表示当前日志记录同步进度。

可选地，上述实施例可以应用于与第四服务器相互独立的第五服务器，其中，第四服务器为分布式文件系统服务器，第五服务器为日志管理与索引管理服务器。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据同步方法，其特征在于，包括：

基于业务数据查询请求创建索引同步工作；

从第一服务器获取与所述索引同步工作关联的多个日志记录，其中，所述第一服务器为分布式文件系统服务器，所述多个日志记录的每个日志记录中存储有待同步的日志元数据；

将所述多个日志记录同步至第二服务器，其中，所述第二服务器为全文检索服务器；

其中，将所述多个日志记录同步至第二服务器包括：

将所述多个日志记录存储至预设内存队列；生成与所述多个日志记录数量相同的多个索引同步任务并分发给同步进程，其中，所述多个索引同步任务中的每个索引同步任务分别处理一个不同的日志记录，并且每个索引同步任务用于依据当前处理的日志记录对至少一个索引进行同步更新；通过所述同步进程执行所述多个索引同步任务，将所述多个日志记录同步至第二服务器。

2.根据权利要求1所述的方法，其特征在于，从所述第一服务器获取所述多个日志记录包括：

对所述第一服务器上的日志目录进行扫描，获取日志列表，其中，所述日志列表中记录有所述第一服务器当前维护的全部日志记录；

基于所述索引同步工作从所述日志列表中获取所述多个日志记录。

3.根据权利要求1所述的方法，其特征在于，当同一个索引同步任务用于依据当前处理的日志记录对多个索引进行同步更新时，所述多个索引之间的同步进度存在制约关系。

4.根据权利要求1所述的方法，其特征在于，在将所述多个日志记录同步至第二服务器之后，还包括：

将每个索引同步任务所负责同步更新的至少一个索引的同步进度中的最慢同步进度统计为每个索引同步任务的同步进度；

将每个索引同步任务的同步进度中的最慢同步进度统计为所述索引同步工作的同步进度；

将所述索引同步工作的同步进度以及参与同步日志列表的其他索引同步工作的同步进度中的最慢同步进度统计为所述日志列表的同步进度。

5.根据权利要求4所述的方法，其特征在于，在将所述多个日志记录同步至第二服务器之后，还包括：

将所述日志列表中已同步完毕的日志记录从所述日志列表移除，得到更新后日志列表；

将所述更新后日志列表的同步进度更新至第三服务器，其中，所述第三服务器为集中式存储服务器。

6.根据权利要求5所述的方法，其特征在于，在所述第三服务器上维护的所述更新后日志列表中的每个日志记录包括：第一字段、第二字段和第三字段，其中，所述第一字段表示当前日志记录标识，所述第二字段表示当前日志记录长度，所述第三字段表示当前日志记录同步进度。

7.根据权利要求1所述的方法，其特征在于，所述方法应用于与第四服务器相互独立的第五服务器，其中，所述第四服务器为分布式文件系统服务器，所述第五服务器为日志管理与索引管理服务器。

8.一种数据同步装置，其特征在于，包括：

创建单元,用于基于业务数据查询请求创建索引同步工作；

获取单元,用于从第一服务器获取与所述索引同步工作关联的多个日志记录，其中，所述第一服务器为分布式文件系统服务器，所述多个日志记录的每个日志记录中存储有待同步的日志元数据；

同步单元,用于将所述多个日志记录同步至第二服务器，其中，所述第二服务器为全文检索服务器；

所述同步单元还用于：将所述多个日志记录存储至预设内存队列；生成与所述多个日志记录数量相同的多个索引同步任务并分发给同步进程，其中，所述多个索引同步任务中的每个索引同步任务分别处理一个不同的日志记录，并且每个索引同步任务用于依据当前处理的日志记录对至少一个索引进行同步更新；通过所述同步进程执行所述多个索引同步任务，将所述多个日志记录同步至第二服务器。

9.一种数据同步系统，其特征在于，包括：分布式文件系统服务器、全文检索服务器以及日志管理与索引管理服务器；

所述分布式文件系统服务器，用于为所述日志管理与索引管理服务器提供待获取的日志记录；

所述日志管理与索引管理服务器，用于基于业务数据查询请求创建索引同步工作，从所述分布式文件系统服务器获取与所述索引同步工作关联的多个日志记录，并将所述多个日志记录同步至所述全文检索服务器，其中，所述多个日志记录的每个日志记录中存储有待同步的日志元数据；

所述全文检索服务器，用于存储所述日志管理与索引管理服务器写入的所述多个日志记录；

所述日志管理与索引管理服务器还用于：将所述多个日志记录存储至预设内存队列；生成与所述多个日志记录数量相同的多个索引同步任务并分发给同步进程，其中，所述多个索引同步任务中的每个索引同步任务分别处理一个不同的日志记录，并且每个索引同步任务用于依据当前处理的日志记录对至少一个索引进行同步更新；通过所述同步进程执行所述多个索引同步任务，将所述多个日志记录同步至所述全文检索服务器。

10.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的数据同步方法。

11.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的数据同步方法。