CN113297166A

CN113297166A - 数据处理系统、方法以及装置

Info

Publication number: CN113297166A
Application number: CN202010732298.0A
Authority: CN
Inventors: 熊嘉男
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2021-08-24
Anticipated expiration: 2040-07-27
Also published as: CN113297166B

Abstract

本说明书实施例提供数据处理系统、方法以及装置，其中所述数据处理系统包括：源数据库集群、迁移服务子系统；迁移服务子系统，被配置为接收数据迁移任务，并向源数据库集群发送目标数据分区的待迁移数据的记录请求；源数据库集群，被配置为创建初始文件信息列表，监听目标数据分区下的文件生成信息，基于目标数据分区的分区标识以及文件生成信息对初始文件信息列表进行更新获得文件信息列表；迁移服务子系统，还被配置为访问文件信息列表，确定与本次访问对应的待迁移数据的文件信息，根据文件信息中的文件标识与目标数据分区的映射关系，从源数据库集群的目标数据分区读取文件标识对应的目标文件，并将目标文件迁移至目标数据库。

Description

数据处理系统、方法以及装置

技术领域

本说明书实施例涉及数据库技术领域，特别涉及一种数据处理系统。本说明书一个或者多个实施例同时涉及一种数据处理方法，一种数据处理装置，两种计算设备，以及两种计算机可读存储介质。

背景技术

随着互联网的快速发展，互联网中数据的种类和规模也都在快速增长。目前，由于传统的关系型数据库在应对大数据的存储、查询和分析等需求时，出现了性能和规模上的瓶颈，因此各种非关系型数据库应运而生，成为数据存储和分析领域的重要处理手段。非关系型数据库的数据存储不需要固定的表结构，通常也不存在连接操作，具有很强的可扩展性。非关系型数据库以不同的存储结构为分类依据，可分为键-值对数据库、列族数据库、文档型数据库和图数据库等。

由于用户对不同类型数据的查询需求不同，因此往往会选择分库存储数据，即将新数据存放在节点配置规格更高的热集群，将历史全量数据存放到节点的配置规格相对较低的冷库。传统的数据同步方式为主集群将日志数据发往目标集群，目标集群解析日志数据，并通过API进行回放的机制来实现数据同步，这就需要目标端的写入吞吐要大于等于源集群，否则容易出现同步积压，并且，这种数据同步的方式需要占用较多的网络带宽，因此，亟需提供一种区别于传统的通过API进行数据回放的数据处理方法以解决此类问题。

发明内容

有鉴于此，本说明书施例提供了一种数据处理系统。本说明书一个或者多个实施例同时涉及一种数据处理方法，一种数据处理装置，两种计算设备，以及两种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种数据处理系统，包括：

源数据库集群、迁移服务子系统；

所述迁移服务子系统，被配置为接收针对所述源数据库集群的数据迁移任务，并向所述源数据库集群发送目标数据分区的待迁移数据的记录请求；

所述源数据库集群，被配置为基于所述记录请求创建待迁移数据的初始文件信息列表，监听所述目标数据分区下的文件生成信息，基于所述目标数据分区的分区标识以及所述文件生成信息对所述初始文件信息列表进行更新获得文件信息列表；

所述迁移服务子系统，还被配置为访问所述文件信息列表，确定与本次访问对应的待迁移数据的文件信息，根据所述文件信息中的文件标识与目标数据分区的映射关系，从所述源数据库集群的所述目标数据分区读取所述文件标识对应的目标文件，并将所述目标文件迁移至目标数据库。

可选地，所述迁移服务子系统，包括：

迁移服务主节点；

所述迁移服务主节点，被配置为接收针对所述源数据库集群的数据迁移任务，并向所述源数据库集群发送目标数据分区的待迁移数据的记录请求。

可选地，所述迁移服务子系统，还包括：迁移服务工作节点；

所述迁移服务主节点，还被配置为访问所述文件信息列表，确定与本次访问对应的待迁移数据的文件信息，基于所述文件信息中的文件标识与目标数据分区的映射关系，生成文件迁移任务并下发至所述迁移服务工作节点；

所述迁移服务工作节点，被配置为接收所述文件迁移任务，根据所述映射关系，从所述源数据库集群的所述目标数据分区读取所述文件标识对应的目标文件，并将所述目标文件迁移至目标数据库。

所述源数据库集群，还被配置为向所述迁移服务主节点返回文件信息的记录结果；

所述迁移服务主节点，被配置为接收所述记录结果，根据所述记录结果确定待迁移数据的文件信息，基于所述文件信息中的文件标识与目标数据分区的映射关系，生成文件迁移任务并下发至所述迁移服务工作节点；

可选地，所述迁移服务工作节点，还被配置为向所述迁移服务主节点发送所述目标文件的迁移结果；

所述迁移服务主节点，被配置为接收所述迁移结果，若所述迁移结果为迁移成功，则向所述源数据库集群发送所述目标文件迁移成功的提示信息；

所述源数据库集群，被配置为接收所述提示信息，对所述目标文件进行合并或删除处理。

可选地，所述迁移服务主节点，还被配置为若所述迁移结果为迁移失败，则获取所述源数据库集群的分区列表，确定所述文件标识与所述分区列表中分区标识间的对应关系，基于所述对应关系生成文件迁移任务，并将所述文件迁移任务下发至迁移服务工作节点。

可选地，所述迁移服务主节点，还被配置为：确定目标时间戳，检测所述目标时间戳对应的时间区间内迁移结果为迁移失败的目标文件，基于迁移失败的目标文件创建文件迁移任务，并将所述文件迁移任务下发至迁移服务工作节点。

可选地，所述迁移服务工作节点，还被配置为：

检测所述目标数据库中迁移结果为迁移成功的目标文件的文件数量或文件大小，在检测到所述文件数量大于第一预设阈值，或所述文件大小大于第二预设阈值的情况下，将所述迁移成功的目标文件导入至所述目标数据库的数据表。

可选地，所述迁移服务工作节点，还被配置为：

检测所述目标数据库中各数据分区的文件数量，若文件数量大于预设数量阈值，则对所述数据分区的文件进行合并处理。

可选地，所述迁移服务主节点，还被配置为接收针对所述源数据库集群的数据迁移任务，对所述数据迁移任务中携带的待迁移数据表进行拆分，获取待迁移数据所属目标数据分区的分区标识，并向所述源数据库集群发送所述目标数据分区的待迁移数据的记录请求。

可选地，所述源数据库集群，还被配置为接收数据写请求，基于所述数据写请求生成日志数据，将所述日志数据存储于目标日志文件，并将所述数据写请求中的待写入数据写入内存缓冲区，在检测到所述内存缓冲区中的数据量达到预设数据量阈值的情况下，将所述内存缓冲区的数据写入文件中，并基于所述文件的文件标识以及所述目标数据分区的分区标识对所述初始文件信息列表进行更新获得文件信息列表。

可选地，所述迁移服务子系统，还被配置为将所述目标日志文件迁移至所述目标数据库，检测与所述目标日志文件相关的目标文件的迁移结果，若迁移成功，则对所述目标数据库中的所述日志文件进行删除处理。

根据本说明书实施例的第二方面，提供了一种数据处理方法，包括：

接收针对源数据库集群的数据迁移任务，并向所述源数据库集群发送目标数据分区的待迁移数据的记录请求；

访问所述源数据库集群中的文件信息列表，确定与本次访问对应的待迁移数据的文件信息；

根据所述文件信息中的文件标识与目标数据分区的映射关系，从所述源数据库集群的所述目标数据分区读取所述文件标识对应的目标文件，并将所述目标文件迁移至目标数据库。

可选地，所述数据处理方法，还包括：

若所述目标文件的迁移结果为迁移失败，则获取所述源数据库集群的分区列表；

确定所述文件标识与所述分区列表中分区标识间的对应关系；

基于所述对应关系将所述目标文件迁移至所述目标数据库。

可选地，所述数据处理方法，还包括：

检测所述目标数据库中迁移结果为迁移成功的目标文件的文件数量或文件大小；

在检测到所述文件数量大于第一预设阈值，或所述文件大小大于第二预设阈值的情况下，将所述迁移成功的目标文件导入至所述目标数据库的数据表。

可选地，所述接收针对源数据库集群的数据迁移任务，并向所述源数据库集群发送目标数据分区的待迁移数据的记录请求，包括：

接收针对所述源数据库集群的数据迁移任务；

对所述数据迁移任务中携带的待迁移数据表进行拆分，获取待迁移数据所属目标数据分区的分区标识；

向所述源数据库集群发送所述目标数据分区的待迁移数据的记录请求。

可选地，所述数据处理方法，还包括：

将所述源数据集群的目标日志文件迁移至所述目标数据库；

检测与所述目标日志文件相关的目标文件的迁移结果；

若迁移成功，则对所述目标数据库中的所述日志文件进行删除处理。

根据本说明书实施例的第三方面，提供了另一种数据处理方法，包括：

接收目标数据分区下文件信息的记录请求，并基于所述记录请求创建待迁移数据的初始文件信息列表；

监听所述目标数据分区下的文件生成信息；

基于所述目标数据分区的分区标识以及所述文件生成信息对所述初始文件信息列表进行更新获得文件信息列表。

可选地，所述数据处理方法，还包括：

接收数据写请求；

基于所述数据写请求生成日志数据，将所述日志数据存储于目标日志文件，并将所述数据写请求中的待写入数据写入内存缓冲区；

在检测到所述内存缓冲区中的数据量达到预设数据量阈值的情况下，将所述内存缓冲区的数据写入文件中；

基于所述文件的文件标识以及所述目标数据分区的分区标识对所述初始文件信息列表进行更新获得文件信息列表。

根据本说明书实施例的第四方面，提供了一种数据处理装置，包括：

接收模块，被配置为接收针对源数据库集群的数据迁移任务，并向所述源数据库集群发送目标数据分区的待迁移数据的记录请求；

访问模块，被配置为访问所述源数据库集群中的文件信息列表，确定与本次访问对应的待迁移数据的文件信息；

迁移模块，被配置为根据所述文件信息中的文件标识与目标数据分区的映射关系，从所述源数据库集群的所述目标数据分区读取所述文件标识对应的目标文件，并将所述目标文件迁移至目标数据库。

根据本说明书实施例的第五方面，提供了另一种数据处理装置，包括：

记录请求接收模块，被配置为接收目标数据分区下文件信息的记录请求，并基于所述记录请求创建待迁移数据的初始文件信息列表；

监听模块，被配置为监听所述目标数据分区下的文件生成信息；

更新模块，被配置为基于所述目标数据分区的分区标识以及所述文件生成信息对所述初始文件信息列表进行更新获得文件信息列表。

根据本说明书实施例的第六方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

根据本说明书实施例的第七方面，提供了另一种计算设备，包括：

存储器和处理器；

监听所述目标数据分区下的文件生成信息；

根据本说明书实施例的第八方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述一种数据处理方法的步骤。

根据本说明书实施例的第九方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述另一种数据处理方法的步骤。

本说明书一个实施例通过接收针对源数据库集群的数据迁移任务，并向所述源数据库集群发送目标数据分区的待迁移数据的记录请求，访问所述源数据库集群中的文件信息列表，确定与本次访问对应的待迁移数据的文件信息，根据所述文件信息中的文件标识与目标数据分区的映射关系，从所述源数据库集群的所述目标数据分区读取所述文件标识对应的目标文件，并将所述目标文件迁移至目标数据库；

利用文件迁移的方式，由于文件的导入基本不占用目标数据库的机器资源，可以支持TB级文件直接导入到目标数据库，因此目标数据库可以采用更小的规格配置，有利于解决冷热库数据迁移过程中存在的数据积压问题，数据迁移过程可节省网络带宽，并且通过文件迁移的方式有利于提高数据迁移的效率。

附图说明

图1是本说明书一个实施例提供的一种数据处理系统的示意图；

图2是本说明书一个实施例提供的一种数据处理方法的处理流程图；

图3是本说明书一个实施例提供的一种数据处理过程的示意图；

图4是本说明书一个实施例提供的一种文件订阅过程的示意图；

图5是本说明书一个实施例提供的一种日志处理过程的示意图；

图6是本说明书一个实施例提供的另一种数据处理方法的处理流程图；

图7是本说明书一个实施例提供的一种数据处理方法的交互示意图；

图8是本说明书一个实施例提供的一种数据处理装置的示意图；

图9是本说明书一个实施例提供的另一种数据处理装置的示意图；

图10是本说明书一个实施例提供的一种计算设备的结构框图；

图11是本说明书一个实施例提供的另一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

HBase：HBase–HadoopDatabase，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。

RegionServer：HBase集群运行在每个工作节点上的服务。它是整个HBase系统的关键所在，一方面它维护了分区的状态，提供了对于分区的管理和服务；另一方面，它与主节点交互，参与主节点的分布式协调管理。

Zookeeper：一个分布式的，开放源码的分布式应用程序协调服务，是Hbase的重要组件。

Exporter Zookeeper：用于访问Zookeeper的客户端。

分布式文件系统(Hadoop Distributed File System)：简称HDFS是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。

HLog(WAL log)：WAL意为write ahead log，用来做灾难恢复使用，HLog记录数据的所有变更，一旦RegionServer宕机，就可以从log中进行恢复。

HFile：HBase中Key-Value数据的存储格式，HFile是Hadoop的二进制格式文件，实际上StoreFile就是对HFile做了轻量级包装，即StoreFile底层就是HFile。

在本说明书中，提供了一种数据处理系统，本说明书同时涉及一种数据处理方法，一种数据处理装置，两种计算设备，以及两种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本说明书一个实施例提供的一种数据处理系统的示意图图，包括源数据库集群102、迁移服务子系统104；

所述迁移服务子系统104，被配置为接收针对所述源数据库集群的数据迁移任务，并向所述源数据库集群发送目标数据分区的待迁移数据的记录请求；

所述源数据库集群102，被配置为基于所述记录请求创建待迁移数据的初始文件信息列表，监听所述目标数据分区下的文件生成信息，基于所述目标数据分区的分区标识以及所述文件生成信息对所述初始文件信息列表进行更新获得文件信息列表；

所述迁移服务子系统104，还被配置为访问所述文件信息列表，确定与本次访问对应的待迁移数据的文件信息，根据所述文件信息中的文件标识与目标数据分区的映射关系，从所述源数据库集群的所述目标数据分区读取所述文件标识对应的目标文件，并将所述目标文件迁移至目标数据库。

可选地，所述迁移服务子系统104，包括：迁移服务主节点1041；

所述迁移服务主节点1041，被配置为接收针对所述源数据库集群的数据迁移任务，并向所述源数据库集群发送目标数据分区的待迁移数据的记录请求。

可选地，所述迁移服务子系统104，还包括：迁移服务工作节点1042；

所述迁移服务主节点1041，还被配置为访问所述文件信息列表，确定与本次访问对应的待迁移数据的文件信息，基于所述文件信息中的文件标识与目标数据分区的映射关系，生成文件迁移任务并下发至所述迁移服务工作节点1042；

所述迁移服务工作节点1042，被配置为接收所述文件迁移任务，根据所述映射关系，从所述源数据库集群的所述目标数据分区读取所述文件标识对应的目标文件，并将所述目标文件迁移至目标数据库106。

所述源数据库集群102，还被配置为向所述迁移服务主节点1041返回文件信息的记录结果；

所述迁移服务主节点1041，被配置为接收所述记录结果，根据所述记录结果确定待迁移数据的文件信息，基于所述文件信息中的文件标识与目标数据分区的映射关系，生成文件迁移任务并下发至所述迁移服务工作节点1042；

所述迁移服务工作节点1042，被配置为接收所述文件迁移任务，根据所述映射关系，从所述源数据库集群102的所述目标数据分区读取所述文件标识对应的目标文件，并将所述目标文件迁移至目标数据库106。

具体的，所述源数据库集群包括源数据库以及分布式文件系统，源数据库为非关系型分布式数据库(HBase)，分布式文件系统(Hadoop Distributed File System，HDFS)，是分布式计算中数据存储管理的基础，HBase将数据存储于HDFS中，并且HDFS中的数据以分区的形式存储。

本说明书实施例中，所述迁移服务子系统，可以是迁移同步服务系统(BDS)，主要用于对HBase集群的数据进行导入和导出。BDS中包含BDS Master节点(主节点)和BDSWorker节点(工作节点)，BDS Master节点用于接收数据迁移任务，所述数据迁移任务中可携带待迁移数据所属数据分区的分区标识，因此，BDS Master节点在接收数据迁移任务后，可向HBase发送目标数据分区的文件订阅请求，即向HBase发送目标数据分区的待迁移数据的记录请求；

所述订阅即由HBase为BDS提供订阅服务，在HBase的文件发生变动的情况下，可通知订阅者(BDS)，方便订阅者及时获取文件的变动情况。

实际应用中，BDS Master节点在接收到数据迁移任务后，需确定目标数据分区，并向源数据集群中的Zookeeper节点发送文件订阅请求，订阅目标数据分区中文件的生成信息；

源数据库集群在接收到记录请求后，在HBase的Zookeeper中注册文件信息列表(基于所述订阅请求在Zookeeper中创建初始文件信息列表)；所述文件信息列表即用于记录待迁移数据的文件信息，列表中的文件为待迁移数据的文件。

由于HBase在接收数据写请求后，RegionServer主要负责响应所述写请求，并将用户写入的数据放入RegionServer的内存缓冲区，在内存缓冲区中的数据量达到阈值的情况下，将内存缓冲区的数据输出到HDFS上，生成对应的文件(HFile文件)，所述内存缓冲区的数据即为待迁移数据，对待迁移数据进行输出生成的文件即为新生成的文件，即HDFS中有新文件生成；

HBase通过RegionServer监听到HDFS中所述RegionServer负责的分区中有新文件生成的情况下，则将新文件的信息(文件标识以及文件所属数据分区的分区标识)添加至Zookeeper的所述初始文件信息列表中，生成文件信息列表；

Zookeeper确定文件信息列表中的信息发生变化的情况下，则向BDS Master节点返回订阅通知消息(文件信息的记录结果)，所述订阅通知消息中可携带新生成文件的文件标识以及所述新生成文件所述数据分区的分区标识。

具体实施时，由于数据迁移任务中可能包含待迁移数据表，因此可对所述数据迁移任务中携带的待迁移数据表进行拆分，获取待迁移数据所属目标数据分区的分区标识，并向所述源数据库集群发送所述目标数据分区的待迁移数据的记录请求。

BDS Master节点向HBase的Zookeeper发送文件订阅请求，HBase的Master节点(主节点)可获取文件信息列表中被订阅的文件，以确保在迁移的过程中被合并的文件在迁移成功之前不被删除。

可选地，所述迁移服务工作节点1042，还被配置为向所述迁移服务主节点1041发送所述目标文件的迁移结果；

所述迁移服务主节点1041，被配置为接收所述迁移结果，若所述迁移结果为迁移成功，则向所述源数据库集群102发送所述目标文件迁移成功的提示信息；

所述源数据库集群102，被配置为接收所述提示信息，对所述目标文件进行合并或删除处理。

可选地，所述迁移服务主节点1041，还被配置为若所述迁移结果为迁移失败，则获取所述源数据库集群的分区列表，确定所述文件标识与所述分区列表中分区标识间的对应关系，基于所述对应关系生成文件迁移任务，并将所述文件迁移任务下发至迁移服务工作节点1042。

可选地，所述迁移服务主节点1041，还被配置为：确定目标时间戳，检测所述目标时间戳对应的时间区间内迁移结果为迁移失败的目标文件，基于迁移失败的目标文件创建文件迁移任务，并将所述文件迁移任务下发至迁移服务工作节点1042。

可选地，所述迁移服务工作节点1042，还被配置为：

检测所述目标数据库中迁移结果为迁移成功的目标文件的文件数量或文件大小，在检测到所述文件数量大于第一预设阈值，或所述文件大小大于第二预设阈值的情况下，将所述迁移成功的目标文件导入至所述目标数据库106的数据表。

可选地，所述迁移服务工作节点1042，还被配置为：

检测所述目标数据库106中各数据分区的文件数量，若文件数量大于预设数量阈值，则对所述数据分区的文件进行合并处理。

可选地，所述迁移服务主节点1041，还被配置为接收针对所述源数据库集群102的数据迁移任务，对所述数据迁移任务中携带的待迁移数据表进行拆分，获取待迁移数据所属目标数据分区的分区标识，并向所述源数据库集群102发送所述目标数据分区的待迁移数据的记录请求。

可选地，所述源数据库集群102，还被配置为接收数据写请求，基于所述数据写请求生成日志数据，将所述日志数据存储于目标日志文件，并将所述数据写请求中的待写入数据写入内存缓冲区，在检测到所述内存缓冲区中的数据量达到预设数据量阈值的情况下，将所述内存缓冲区的数据写入文件中，并基于所述文件的文件标识以及所述目标数据分区的分区标识对所述初始文件信息列表进行更新获得文件信息列表。

可选地，所述迁移服务子系统104，还被配置为将所述目标日志文件迁移至所述目标数据库106，检测与所述目标日志文件相关的目标文件的迁移结果，若迁移成功，则对所述目标数据库106中的所述日志文件进行删除处理。

本说明书实施例通过迁移服务子系统接收针对源数据库集群的数据迁移任务，并向所述源数据库集群发送目标数据分区的待迁移数据的记录请求，并访问所述源数据库集群中的文件信息列表，确定与本次访问对应的待迁移数据的文件信息，根据所述文件信息中的文件标识与目标数据分区的映射关系，从所述源数据库集群的所述目标数据分区读取所述文件标识对应的目标文件，并将所述目标文件迁移至目标数据库；

图2示出了根据本说明书一个实施例提供的一种数据处理方法的处理流程图，包括步骤202至步骤206。

步骤202，接收针对源数据库集群的数据迁移任务，并向所述源数据库集群发送目标数据分区的待迁移数据的记录请求。

随着互联网中数据的种类和规模越来越多，非关系型数据库的应用越来越广泛，由于用户对不同类型数据的查询需求不同，因此往往会选择分库存储数据，即将新数据存放在节点配置规格更高的热集群，将历史全量数据存放到节点的配置规格相对较低的冷库。实际应用中热库集群往往比冷库集群的配置规格高，这导致热库和冷库处理写入的性能不一致，从而导致冷库集群的数据积压。

基于此，本说明书实施例提供的数据处理方法，应用于同步服务子系统，通过接收针对源数据库集群的数据迁移任务，并向所述源数据库集群发送目标数据分区的待迁移数据的记录请求，访问所述源数据库集群中的文件信息列表，确定与本次访问对应的待迁移数据的文件信息，根据所述文件信息中的文件标识与目标数据分区的映射关系，从所述源数据库集群的所述目标数据分区读取所述文件标识对应的目标文件，并将所述目标文件迁移至目标数据库；

本说明书实施例中，所述迁移服务子系统，可以是迁移同步服务系统(BDS)，主要用于对HBase集群的数据进行导入和导出。BDS中包含BDS Master节点和BDS Worker节点，BDS Master节点用于接收数据迁移任务，所述数据迁移任务中可携带待迁移数据所属数据分区的分区标识，因此，BDS Master节点在接收数据迁移任务后，可向HBase发送目标数据分区的文件订阅请求，即向HBase发送目标数据分区的待迁移数据的记录请求；

BDS Master节点向HBase的Zookeeper发送文件订阅请求，HBase的HMaster节点(主节点)可获取文件信息列表中被订阅的文件，以确保在迁移的过程中被合并的文件在迁移成功之前不被删除。

步骤204，访问所述源数据库集群中的文件信息列表，确定与本次访问对应的待迁移数据的文件信息。

具体的，如前所述，BDS Master节点向源数据库集群的Zookeeper发送记录请求(订阅请求)后，可由Zookeeper向BDS Master节点返回订阅通知消息，也可由BDS Master节点通过Exporter Zookeeper访问Zookeeper的文件信息列表，确定与本次访问对应的待迁移数据的文件信息，其中，若本次访问为对所述文件信息列表的首次访问，则与本次访问对应的待迁移数据的文件信息，即本次访问时所述文件信息列表中包含的文件标识以及与所述文件标识存在映射关系的目标数据分区；若本次访问不是对文件信息列表的首次访问，则与本次访问对应的待迁移数据的文件信息，即本次访问的时间节点与上一次访问的时间节点之间，所述文件信息列表中新增的文件标识以及与所述文件标识存在映射关系的目标数据分区。

步骤206，根据所述文件信息中的文件标识与目标数据分区的映射关系，从所述源数据库集群的所述目标数据分区读取所述文件标识对应的目标文件，并将所述目标文件迁移至目标数据库。

具体的，BDS中包含BDS Master节点和BDS Worker节点，BDS Master节点用于接收数据迁移任务，向HBase发送目标数据分区的文件订阅请求，并通过Exporter Zookeeper访问Zookeeper的文件信息列表，确定与本次访问对应的待迁移数据的文件信息；

在确定待迁移数据的文件信息后，由BDS Master节点根据文件信息中数据分区的分区标识，针对每一个数据分区生成一个文件迁移任务，将生成文件迁移任务分别下发给各个BDS Worker节点；BDS Worker节点接收到文件迁移任务后，根据文件迁移任务中目标数据分区的分区标识以及目标数据分区下的待迁移数据的文件标识，在源数据库集群HDFS的目标数据分区下读取与所述文件标识对应的目标文件，并将所述目标文件迁移至目标数据库。

本说明书实施例的数据处理过程的示意图如图3所示，BDS Master节点接收数据迁移任务后，向HBase发送文件订阅请求，订阅HFile文件以及HLog文件的生成信息，HBase向BDS Master节点返回订阅通知消息后，BDS Master节点根据订阅通知消息中的文件标识与目标数据分区的映射关系，生成文件迁移任务并下发至BDS Worker节点，BDS Worker节点在源数据库集群的HDFS中读取文件，并将文件迁移至目标数据库的HDFS，在检测到目标数据库HDFS的数据分区中文件大小或文件数量满足阈值，则将文件导入目标数据库的HBase中。

若所述数据迁移任务中携带的待迁移数据所属目标数据分区为分区A，则BDSMaster节点向HBase的Zookeeper发送分区A的文件订阅请求，订阅分区A中的文件变化信息。

文件订阅过程的示意图如图4所示，BDS Master节点接收数据迁移任务后，通过Exporter Zookeeper在源数据库集群HBase的Zookeeper创建文件信息列表，HBase中的RegionSever在监听到HDFS的数据分区中有新文件生成，则通过Exporter Zookeeper将新文件的文件信息添加至文件信息列表，BDS Master节点通过Exporter Zookeeper访问所述文件信息列表，确定待迁移数据的文件信息(新生成的文件信息)，并基于所述文件信息生成文件迁移任务下发至BDS Worker节点，BDS Worker节点进行文件迁移后，向BDS Master节点返回迁移结果。

HBase接收到用户针对分区A的写请求后，将数据写入分区A对应的内存缓冲区，则在内存缓冲区中的数据量达到阈值的情况下，将内存缓冲区的数据输出为文件a，输出的文件a仍存储于分区A中，因此，在将数据输出为文件a后，将文件a作为文件标识以及分区A作为分区标识更新初始文件列表，获得文件信息列表；

BDS Master节点访问文件信息列表后，可确定本次访问对应的待迁移数据的文件为文件a，以及与文件a存在映射关系的目标数据分区为分区A，则可根据分区A以及文件a生成文件迁移任务并下发至BDS Worker节点，由BDS Worker节点在源数据库集群HDFS的分区A中读取文件a，并将文件a迁移至目标数据库。

进一步的，BDS Worker节点迁移文件后，会向BDS Master节点返回目标文件的迁移结果，若迁移成功，则由BDS Master节点将迁移成功的文件标识返回至源数据集群，源数据集群可对迁移完成的文件进行合并或删除处理；若所述目标文件的迁移结果为迁移失败，则需重新基于迁移失败的目标文件生成文件迁移任务并下发至迁移服务工作节点，即获取所述源数据库集群的分区列表，确定所述文件标识与所述分区列表中分区标识间的对应关系，基于所述对应关系将所述目标文件迁移至所述目标数据库。

具体的，当内存缓冲区中的数据量达到预设阈值的情况下，将内存缓冲区中的数据输出为文件(HFile文件)，若HFile文件数量增长到一定阈值，会触发文件合并操作，将多个HFile文件合并成一个HFile文件，在HFile文件的合并过程中，合并生成的HFile文件会越来越大，当生成的单个HFile文件的大小超过一定阈值后，会触发分割操作，同时把当前分区分割成2个新分区，若在文件迁移过程中出现分区被分割的情况，则会导致文件迁移失败。

因此，在文件迁移失败的情况下，BDS Master节点需获取源数据库集群中分区被分割后生成的分区列表，确定所述文件标识与所述分区列表中分区标识间的对应关系，基于所述对应关系重新生成文件迁移任务，并下发至BDS Worker节点，由BDS Worker节点将迁移失败的目标文件迁移至目标数据库。

另外，可检测目标时间节点之前目标文件的迁移情况，通过将目标时间节点之前的目标文件均迁移至目标数据库，从而保证数据库中数据的一致性，具体可通过以下方式实现：

确定目标时间戳；

检测所述目标时间戳对应的时间区间内迁移结果为迁移失败的目标文件；

基于迁移失败的目标文件创建文件迁移任务，并将所述文件迁移任务下发至迁移服务工作节点。

具体的，以未完成迁移的最早文件的创建时间作为目标时间戳，保证在所述目标时间戳对应的时间点之前生成的目标文件均成功迁移至目标数据库；

或者，以未完成迁移的最早日志的创建时间戳作为目标时间戳，保证在所述目标时间戳对应的时间点之前生成的日志文件均成功迁移至目标数据库，以确保数据库中数据的一致性。

除此之外，为防止目标数据库的文件数过多，可对目标数据库中的目标文件进行以下操作：

具体的，在HBase中数据都是以HFile形式保存在HDFS中的，当有大量数据需要写入到HBase的时候，可以采用BulkLoad(批量装载)方式完成。

具体的，BDS Worker节点执行完对应的文件迁移任务之后，会对迁移文件进行检测，检测文件的数量和大小，当累计迁移的文件达到一定的阈值，可触发目标数据库的HBase Bulkload装载迁移的文件到对应的数据表中，并且为防止数据表的文件数过多，BDSWorker在触发Bulkload之前会对部分文件数过多的分区进行文件的合并，并将合并后的文件Bulkload到对应表中。

另外，为减少对目标数据库HDFS容量空间的占用，在文件迁移成功后，可对目标数据库中与目标文件相关的日志文件进行删除处理，即检测与所述目标日志文件相关的目标文件的迁移结果，若迁移成功，则对所述目标数据库中的所述日志文件进行删除处理。

具体的，目标集群HLog被清理时需要保证HLog所对应的HFile都迁移完成，因此提交清理任务之前需要获取迁移成功的HLog和HFile列表，只有HLog相关的HFile文件都迁移成功，对应HLog才能够被清理。

日志处理过程的示意图如图5所示，源数据库HBase的Zookeeper中记录了源数据库集群的HFile文件和HLog文件，BDS Master节点访问目标数据库的HDFS，获取HDFS中迁移成功的HLog和HFile列表，并向BDS LogCleaner(日志清理节点)下发日志清理任务，由BDSLogCleaner检测Zookeeper中HFile文件的迁移情况，若迁移成功，则清理目标数据库HDFS中的HLog文件。

为了获取源集群HLog相关的HFile文件，源集群RegionServer将每次输出文件、滚动日志的操作按照时间顺序记录在源集群Zookeeper中，若某台RegionServer在某一时刻滚动日志生成一个新日志logA，随后做了两次文件输出，生成了文件1和文件2，之后又滚动日志生成了logB，并进行一次文件输出，生成文件3。logA的数据包含在文件1和文件2中，logB的数据包含在文件3。随着时间的顺序，迁移服务会优先发现logA并进行迁移，之后再迁移生成的文件1和文件2，当源数据库集群发生日志滚动生成logB，BDS LogCleaner会检测logB和logA之间输出的文件1和文件2是否都迁移完毕，如果迁移完毕，则删除目标数据库中的logA。

Hlog文件会记录RegionServer实时写入的数据，并用于在宕机后恢复，从而不丢失数据，当Hlog文件中记录的内存数据都从输出为文件之后，HBase主节点就会清理掉这些无用的Hlog文件。因此采用迁移HFile文件和HLog文件的方式，如果源数据库集群HLog文件所包含的数据都落盘生成对应的HFile文件，并且这些HFile文件成功迁移到目标数据库，则可对目标数据库中的HLog文件进行清理，以减少对目标数据库HDFS容量空间的占用，减少流量切换之后回放的日志数从而优化RTO(Recovery Time Objective)。

本说明书实施例利用文件迁移的方式，由于文件的导入基本不占用目标数据库的机器资源，可以支持TB级文件直接导入到目标数据库，因此目标数据库可以采用更小的规格配置，有利于解决冷热库数据迁移过程中存在的数据积压问题，数据迁移过程可节省网络带宽，并且通过文件迁移的方式有利于提高数据迁移的效率。

图6示出了根据本说明书一个实施例提供的另一种数据处理方法的处理流程图，包括步骤602至步骤606。

步骤602，接收目标数据分区下文件信息的记录请求，并基于所述记录请求创建待迁移数据的初始文件信息列表。

步骤604，监听所述目标数据分区下的文件生成信息。

步骤606，基于所述目标数据分区的分区标识以及所述文件生成信息对所述初始文件信息列表进行更新获得文件信息列表。

本说明书实施例提供的数据处理方法，应用于源数据库集群，通过接收目标数据分区下文件信息的记录请求，并基于所述记录请求创建待迁移数据的初始文件信息列表，监听所述目标数据分区下的文件生成信息，基于所述目标数据分区的分区标识以及所述文件生成信息对所述初始文件信息列表进行更新获得文件信息列表；

基于所述目标数据分区的分区标识以及所述文件生成信息更新初始文件信息列表，有利于使得迁移服务子系统能够及时获得源数据库集群中新生成文件的文件信息，并及时对新生成文件进行文件迁移。

源数据库集群除接收记录请求外，还可接收数据写请求，具体的操作过程如下：

接收数据写请求；

具体的，HBase在接收数据写请求后，RegionServer主要负责响应所述写请求，并将用户写入的数据放入RegionServer的内存缓冲区，在内存缓冲区中的数据量达到阈值的情况下，将内存缓冲区的数据输出到HDFS上，生成对应的文件(HFile文件)，所述内存缓冲区的数据即为待迁移数据，对待迁移数据进行输出生成的文件即为新生成的文件，即HDFS中有新文件生成；

Zookeeper确定文件信息列表中的信息发生变化的情况下，可向BDS Master节点返回订阅通知消息(文件信息的记录结果)，所述订阅通知消息中可携带新生成文件的文件标识以及所述新生成文件所述数据分区的分区标识。

本说明书实施例基于所述目标数据分区的分区标识以及所述文件生成信息更新初始文件信息列表，有利于使得迁移服务子系统能够及时获得源数据库集群中新生成文件的文件信息，并及时对新生成文件进行文件迁移。

下述结合附图7，以本说明书提供的数据处理方法在实际场景的应用为例，对所述数据处理方法进行进一步说明。其中，图7示出了本说明书一个实施例提供的一种数据处理方法的交互示意图，具体步骤包括步骤702至步骤716。

步骤702，BDS Master节点接收针对源数据库集群的数据迁移任务。

步骤704，BDS Master节点向源数据库集群发送目标数据分区的文件订阅请求。

步骤706，源数据库集群创建初始文件信息列表。

步骤708，源数据库集群监听目标数据分区下的文件生成信息，基于目标数据分区的分区标识以及文件生成信息对初始文件信息列表进行更新获得文件信息列表。

步骤710，源数据库集群向BDS Master节点返回订阅通知消息。

具体的，所述订阅通知消息中携带待迁移数据的文件信息，所述文件信息包括文件标识以及与所述文件标识存在映射关系的目标数据分区的分区标识。

步骤712，BDS Master节点基于所述文件信息中的文件标识与目标数据分区的映射关系，生成文件迁移任务并下发至BDS Worker节点。

步骤714，BDS Worker节点根据所述映射关系，从所述源数据库集群的所述目标数据分区读取所述文件标识对应的目标文件。

步骤716，BDS Worker节点将目标文件迁移至目标数据库。

与上述方法实施例相对应，本说明书还提供了一种数据处理装置实施例，图8示出了本说明书一个实施例提供的一种数据处理装置的示意图。如图8所示，该装置包括：

接收模块802，被配置为接收针对源数据库集群的数据迁移任务，并向所述源数据库集群发送目标数据分区的待迁移数据的记录请求；

访问模块804，被配置为访问所述源数据库集群中的文件信息列表，确定与本次访问对应的待迁移数据的文件信息；

迁移模块806，被配置为根据所述文件信息中的文件标识与目标数据分区的映射关系，从所述源数据库集群的所述目标数据分区读取所述文件标识对应的目标文件，并将所述目标文件迁移至目标数据库。

可选地，所述数据处理装置，还包括：

分区列表获取模块，被配置为若所述目标文件的迁移结果为迁移失败，则获取所述源数据库集群的分区列表；

对应关系确定模块，被配置为确定所述文件标识与所述分区列表中分区标识间的对应关系；

文件迁移模块，被配置为基于所述对应关系将所述目标文件迁移至所述目标数据库。

可选地，所述数据处理装置，还包括：

第二检测模块，被配置为检测所述目标数据库中迁移结果为迁移成功的目标文件的文件数量或文件大小；

导入模块，被配置为在检测到所述文件数量大于第一预设阈值，或所述文件大小大于第二预设阈值的情况下，将所述迁移成功的目标文件导入至所述目标数据库的数据表。

可选地，所述接收模块802，包括：

接收子模块，被配置为接收针对所述源数据库集群的数据迁移任务；

拆分子模块，被配置为对所述数据迁移任务中携带的待迁移数据表进行拆分，获取待迁移数据所属目标数据分区的分区标识；

记录请求发送子模块，被配置为向所述源数据库集群发送所述目标数据分区的待迁移数据的记录请求。

可选地，所述数据处理装置，还包括：

文件迁移模块，被配置为将所述源数据集群的目标日志文件迁移至所述目标数据库；

迁移结果检测模块，被配置为检测与所述目标日志文件相关的目标文件的迁移结果；

若迁移成功，则运行删除模块；

所述删除模块，被配置为对所述目标数据库中的所述日志文件进行删除处理。

上述为本实施例的一种数据处理装置的示意性方案。需要说明的是，该数据处理装置的技术方案与上述的一种数据处理方法的技术方案属于同一构思，数据处理装置的技术方案未详细描述的细节内容，均可以参见上述一种数据处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了另一种数据处理装置实施例，图9示出了本说明书一个实施例提供的另一种数据处理装置的示意图。如图9所示，该装置包括：

记录请求接收模块902，被配置为接收目标数据分区下文件信息的记录请求，并基于所述记录请求创建待迁移数据的初始文件信息列表；

监听模块904，被配置为监听所述目标数据分区下的文件生成信息；

更新模块906，被配置为基于所述目标数据分区的分区标识以及所述文件生成信息对所述初始文件信息列表进行更新获得文件信息列表。

可选地，所述数据处理装置，还包括：

写请求接收模块，被配置为接收数据写请求；

第一写入模块，被配置为基于所述数据写请求生成日志数据，将所述日志数据存储于目标日志文件，并将所述数据写请求中的待写入数据写入内存缓冲区；

第二写入模块，被配置为在检测到所述内存缓冲区中的数据量达到预设数据量阈值的情况下，将所述内存缓冲区的数据写入文件中；

列表更新模块，被配置为基于所述文件的文件标识以及所述目标数据分区的分区标识对所述初始文件信息列表进行更新获得文件信息列表。

上述为本实施例的另一种数据处理装置的示意性方案。需要说明的是，该数据处理装置的技术方案与上述的另一种数据处理方法的技术方案属于同一构思，数据处理装置的技术方案未详细描述的细节内容，均可以参见上述另一种数据处理方法的技术方案的描述。

图10示出了根据本说明书一个实施例提供的一种计算设备1000的结构框图。该计算设备1000的部件包括但不限于存储器1010和处理器1020。处理器1020与存储器1010通过总线1030相连接，数据库1050用于保存数据。

计算设备1000还包括接入设备1040，接入设备1040使得计算设备1000能够经由一个或多个网络1060通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1040可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备1000的上述部件以及图10中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图10所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1000可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1000还可以是移动式或静止式的服务器。

其中，所述存储器1010用于存储计算机可执行指令，处理器1020用于执行如下计算机可执行指令：

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的一种数据处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述一种数据处理方法的技术方案的描述。

图11示出了根据本说明书一个实施例提供的一种计算设备1100的结构框图。该计算设备1100的部件包括但不限于存储器1110和处理器1120。处理器1120与存储器1110通过总线1130相连接，数据库1150用于保存数据。

计算设备1100还包括接入设备1140，接入设备1140使得计算设备1100能够经由一个或多个网络1160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备1100的上述部件以及图11中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图11所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1100还可以是移动式或静止式的服务器。

其中，所述存储器1110用于存储计算机可执行指令，处理器1120用于执行如下计算机可执行指令：

监听所述目标数据分区下的文件生成信息；

上述为本实施例的另一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的另一种数据处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述另一种数据处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于实现所述一种数据处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的一种数据处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述一种数据处理方法的技术方案的描述。

本说明书一实施例还提供另一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于实现所述另一种数据处理方法的步骤。

上述为本实施例的另一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的另一种数据处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述另一种数据处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据处理系统，包括：

源数据库集群、迁移服务子系统；

2.根据权利要求1所述的数据处理系统，所述迁移服务子系统，包括：

迁移服务主节点；

3.根据权利要求2所述的数据处理系统，所述迁移服务子系统，还包括：迁移服务工作节点；

4.根据权利要求2所述的数据处理系统，所述迁移服务子系统，还包括：迁移服务工作节点；

5.根据权利要求3所述的数据处理系统，所述迁移服务工作节点，还被配置为向所述迁移服务主节点发送所述目标文件的迁移结果；

6.根据权利要求5所述的数据处理系统，所述迁移服务主节点，还被配置为若所述迁移结果为迁移失败，则获取所述源数据库集群的分区列表，确定所述文件标识与所述分区列表中分区标识间的对应关系，基于所述对应关系生成文件迁移任务，并将所述文件迁移任务下发至迁移服务工作节点。

7.根据权利要求1所述的数据处理系统，所述迁移服务主节点，还被配置为：确定目标时间戳，检测所述目标时间戳对应的时间区间内迁移结果为迁移失败的目标文件，基于迁移失败的目标文件创建文件迁移任务，并将所述文件迁移任务下发至迁移服务工作节点。

8.根据权利要求3所述的数据处理系统，所述迁移服务工作节点，还被配置为：

9.根据权利要求8所述的数据处理系统，所述迁移服务工作节点，还被配置为：

10.根据权利要求2所述的数据处理系统，所述迁移服务主节点，还被配置为接收针对所述源数据库集群的数据迁移任务，对所述数据迁移任务中携带的待迁移数据表进行拆分，获取待迁移数据所属目标数据分区的分区标识，并向所述源数据库集群发送所述目标数据分区的待迁移数据的记录请求。

11.根据权利要求1所述的数据处理系统，所述源数据库集群，还被配置为接收数据写请求，基于所述数据写请求生成日志数据，将所述日志数据存储于目标日志文件，并将所述数据写请求中的待写入数据写入内存缓冲区，在检测到所述内存缓冲区中的数据量达到预设数据量阈值的情况下，将所述内存缓冲区的数据写入文件中，并基于所述文件的文件标识以及所述目标数据分区的分区标识对所述初始文件信息列表进行更新获得文件信息列表。

12.根据权利要求11所述的数据处理系统，所述迁移服务子系统，还被配置为将所述目标日志文件迁移至所述目标数据库，检测与所述目标日志文件相关的目标文件的迁移结果，若迁移成功，则对所述目标数据库中的所述日志文件进行删除处理。

13.一种数据处理方法，应用于迁移服务子系统，包括：

14.根据权利要求13所述的数据处理方法，还包括：

基于所述对应关系将所述目标文件迁移至所述目标数据库。

15.根据权利要求13所述的数据处理方法，还包括：

16.根据权利要求13所述的数据处理方法，所述接收针对源数据库集群的数据迁移任务，并向所述源数据库集群发送目标数据分区的待迁移数据的记录请求，包括：

接收针对所述源数据库集群的数据迁移任务；

17.根据权利要求13所述的数据处理方法，还包括：

将所述源数据集群的目标日志文件迁移至所述目标数据库；

检测与所述目标日志文件相关的目标文件的迁移结果；

18.一种数据处理方法，应用于源数据库集群，包括：

监听所述目标数据分区下的文件生成信息；

19.根据权利要求18所述的数据处理方法，还包括：

接收数据写请求；

20.一种数据处理装置，包括：

21.一种数据处理装置，包括：

22.一种计算设备，包括：

存储器和处理器；

23.一种计算设备，包括：

存储器和处理器；

监听所述目标数据分区下的文件生成信息；

24.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求13至17任意一项所述数据处理方法的步骤。

25.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求18至19任意一项所述数据处理方法的步骤。