CN113392067A

CN113392067A - 一种针对分布式数据库的数据处理方法、装置及系统

Info

Publication number: CN113392067A
Application number: CN202110657183.4A
Authority: CN
Inventors: 王天宇
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-14

Abstract

本发明实施例提供了一种针对分布式数据库的数据处理方法、装置及系统。该方法应用于分布式数据库系统中的管理服务器，所述管理服务器中记录有针对目标文件的、分布式存储的多个子文件的文件标识，以及关于每一子文件的文件标识与该子文件所位于分片节点的对应关系；该方法包括：确定多个子文件中待迁移的子文件的目标文件标识；基于目标文件标识以及对应关系，确定待迁移的子文件所位于的分片节点，作为初始节点；将初始节点中的具有目标文件标识的子文件，迁移至扩容节点，扩容节点为系统扩容时在分布式数据系统中预先增设的分片节点。通过本方案，可以解决分布式数据库扩容过程中计算开销和日志开销较大的问题。

Description

一种针对分布式数据库的数据处理方法、装置及系统

技术领域

本发明涉及数据处理技术领域，特别是涉及一种针对分布式数据库的数据处理方法、装置及系统。

背景技术

在分布式数据库系统中，管理服务器将任一文件分布存储于多个分片节点，这样形成了逻辑文件+分区文件的存储形式。例如：表格文件分布存储于多个分片节点，每个分片节点中存储有表格文件的部分文件内容。

弹性扩容是分布式数据库系统必备的基础功能。其中，在分布式数据库系统中增设扩容节点后，即增加新的分片节点后，将文件的数据内容进行数据重分布，以完成扩容，具体而言：将至少一个分片节点中的文件的数据内容，迁移至新增加的扩容节点中。

相关技术中，管理服务器在确定出用于筛选待迁移数据的查询条件后，从分片节点中按照行级来读取满足查询条件的数据，进而将读取到的数据写入到新增加的扩容节点中。

可见，由于按照行级来读取满足查询条件的数据，因此，导致扩容过程中的计算开销和日志开销较大。

发明内容

本发明实施例的目的在于提供一种针对分布式数据库的数据处理方法、装置及系统，以解决现有技术扩容过程中计算开销和日志开销较大的问题，同时对分布式数据库系统进行灵活扩容，避免硬件资源的浪费。具体技术方案如下：

本发明实施例的目的在于提供一种针对分布式数据库的数据处理方法、装置及系统，以解决现有技术扩容过程中计算开销和日志开销较大的问题。具体技术方案如下：

第一方面，本发明实施例提供了一种针对分布式数据库的数据处理方法，应用于分布式数据库系统中的管理服务器，所述管理服务器中记录有针对目标文件的、分布式存储的多个子文件的文件标识，以及关于每一子文件的文件标识与该子文件所位于分片节点的对应关系；所述方法包括：

确定所述多个子文件中待迁移的子文件的目标文件标识；

基于所述目标文件标识以及所述对应关系，确定所述待迁移的子文件所位于的分片节点，作为初始节点；

将所述初始节点中的具有所述目标文件标识的子文件，迁移至扩容节点，所述扩容节点为系统扩容时在所述分布式数据系统中预先增设的分片节点。

可选地，所述将所述初始节点中的具有所述目标文件标识的子文件，迁移至扩容节点的步骤之后，所述方法还包括：

将所述对应关系中所述目标文件标识所对应的分片节点，更改为所述扩容节点。

可选地，所述将所述初始节点中的具有所述目标文件标识的子文件，迁移至扩容节点，包括：

向所述初始节点发送针对具有所述目标文件标识的子文件的迁移指令，以使所述初始节点在接收到所述迁移指令后，确定具有所述文件标识的子文件待迁移至的扩容节点，通过文件传输方式，将具有所述目标文件标识的子文件传输至所述扩容节点。

可选地，所述方法还包括：在具有所述目标文件标识的子文件传输完成后，检测所述初始节点中具有所述目标文件标识的子文件，相对于所述扩容节点中的具有所述目标文件标识的子文件，是否存在增量数据；

若存在增量数据，则将增量数据写入到所述初始节点中的具有所述目标文件标识的子文件中。

可选地，所述确定所述多个文件中待迁移的子文件的目标文件标识，包括：

按照负载均衡的原则，确定待迁移出子文件的目标分片节点，以及从所述目标分片节点中待迁移出子文件的目标数量；

从所述对应关系中，确定所述目标分片节点对应的文件标识，从所确定出文件标识中选取所述目标数量个文件标识，得到所述多个子文件中待迁移的子文件的目标文件标识。

可选地，所述方法还包括：在接收到针对所述目标文件的访问请求后，按照预定的文件拆分规则，确定所述访问请求待访问的子文件的文件标识，作为待利用标识；其中，所述文件拆分规则为用于将所述目标文件拆分为分布存储的所述多个子文件的规则；

向所述对应关系中所述待利用标识对应的分片节点，下发事务处理请求，以使所述待利用标识对应的分片节点响应所述事务处理请求；

其中，所述事务处理请求用于对具有所述待利用标识的子文件执行所述访问请求中的请求内容。

第二方面，本发明实施例提供了一种分布式数据库系统，包括：管理服务器和多个分片节点，其中，所述管理服务器中记录有针对目标文件的、分布式存储的多个子文件的文件标识，以及关于每一子文件的文件标识与该子文件所位于分片节点的对应关系；

每一分片节点，用于存储针对所述目标文件的子文件；

所述管理服务器，用于确定所述多个子文件中待迁移的子文件的目标文件标识；基于所述目标文件标识以及所述对应关系，确定所述待迁移的子文件所位于的分片节点，作为初始节点；将所述初始节点中的具有所述目标文件标识的子文件，迁移至扩容节点，所述扩容节点为系统扩容时在所述分布式数据系统中预先增设的分片节点。

可选地，所述管理服务器还用于：

在将所述初始节点中的具有所述目标文件标识的子文件，迁移至扩容节点之后，将所述对应关系中所述目标文件标识所对应的分片节点，更改为所述扩容节点。

可选地，所述管理服务器将所述初始节点中的具有所述目标文件标识的子文件，迁移至扩容节点，具体为：

向所述初始节点发送针对具有所述目标文件标识的子文件的迁移指令；

所述初始节点，还用于在接收到所述迁移指令后，确定具有所述目标文件标识的子文件待迁移至的扩容节点，通过文件传输方式，将具有所述目标文件标识的子文件传输至所述扩容节点。

可选地，所述管理服务器还用于：

在具有所述目标文件标识的子文件传输完成后，检测所述初始节点中具有所述目标文件标识的子文件，相对于所述扩容节点中的具有所述目标文件标识的子文件，是否存在增量数据；

若存在增量数据，则将增量数据写入到所述扩容节点中的具有所述目标文件标识的子文件中。

可选地，所述管理服务器确定所述多个子文件中待迁移的子文件的目标文件标识，具体为：

可选地，所述管理服务器还用于：

在接收到针对所述目标文件的访问请求后，按照预定的文件拆分规则，确定所述访问请求待访问的子文件的文件标识，作为待利用标识；向所述对应关系中所述待利用标识对应的分片节点，下发事务处理请求；其中，所述文件拆分规则为用于将所述目标文件拆分为分布存储的所述多个子文件的规则；所述事务处理请求用于对具有所述待利用标识的子文件执行所述访问请求中的请求内容；

所述待利用标识对应的分片节点，还用于响应所述事务处理请求。

第三方面，本发明实施例提供了一种针对分布式数据库的数据处理装置，其特征在于，应用于分布式数据库系统中的管理服务器，所述管理服务器中记录有针对目标文件的、分布式存储的多个子文件的文件标识，以及关于每一子文件的文件标识与该子文件所位于分片节点的对应关系；所述装置包括：

文件标识确定模块，用于确定所述多个子文件中待迁移的子文件的目标文件标识；

初始节点确定模块，用于基于所述目标文件标识以及所述对应关系，确定所述待迁移的子文件所位于的分片节点，作为初始节点；

文件迁移模块，用于将所述初始节点中的具有所述目标文件标识的子文件，迁移至扩容节点，所述扩容节点为系统扩容时在所述分布式数据系统中预先增设的分片节点。

第四方面，本发明实施例提供了一种管理服务器，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面所提供的针对分布式数据库的数据处理方法的步骤。

第五方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所提供的针对分布式数据库的数据处理方法。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的针对分布式数据库的数据处理方法。

本发明实施例有益效果：

本发明实施例中，管理服务器中记录有针对目标文件的、分布式存储的多个子文件的文件标识，以及关于每一子文件的文件标识与该子文件所位于分片节点的对应关系，这样，在针对目标文件的数据重分布时，管理服务器可以确定待迁移的子文件的目标文件标识；然后，基于目标文件标识以及对应关系，确定待迁移的子文件所位于的分片节点，作为初始节点；将初始节点中的具有目标文件标识的子文件，迁移至扩容节点。可见，本方案中，管理服务器通过记录的各个子文件的文件标识，可以选定待迁移的子文件，并对待迁移的子文件进行文件迁移，无需按照行级来读取数据内容。因此，相对于相关技术而言，本方案可以解决分布式数据库扩容过程中计算开销和日志开销较大的问题。

另外，本方案中，可以根据实际需求来设定扩容节点的数量，进而，在增设所设定数量个扩容节点后，通过子文件迁移的方式，将部分子文件迁移至各个扩容节点中，从而实现有效的数据重分布。可见，本方案在保证有效的数据重分布的前提下，可以对分布式数据库系统进行灵活扩容，避免硬件资源的浪费。例如：本方案中，可以对分布式数据库系统进行阶梯式扩容，从而相对于成倍扩容，可以大大降低硬件成本。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本发明实施例所提供的一种针对分布式数据库的数据处理方法的流程图；

图2(a)为利用本发明实施例提供的一种针对分布式数据库的数据处理方法对分布式数据库进行扩容之前的子文件分布示意图；

图2(b)为利用本发明实施例提供的一种针对分布式数据库的数据处理方法对分布式数据库进行扩容之后的子文件分布示意图；

图3为本发明实施例所提供的一种针对分布式数据库的数据处理方法的另一流程图；

图4为本发明实施例所提供的一种针对分布式数据库的数据处理方法的另一流程图；

图5为本发明实施例所提供的一种针对分布式数据库的数据处理系统的结构示意图；

图6为本发明实施例所提供的一种针对分布式数据库的数据处理装置的结构示意图；

图7为本发明实施例所提供的一种管理服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，分布式数据库系统中的管理服务器基于预定的拆分规则，将任一文件分布存储于多个分片节点中，形成分布式数据库，该拆分规则为用于确定文件的文件内容所位于分片节点的规则。这样，针对分布式数据库的访问过程而言，管理服务器若接收到针对某一文件的访问请求，例如：写入请求或读请求，则基于该拆分规则，可以确定出待访问的文件内容所位于的分片节点，并向确定出的分片节点下发事务处理请求，其中，该事务处理请求用于指示执行该访问请求中的请求内容。针对上述的该种方式而言，对于管理服务器可见的是各个分片节点，而分片节点中的任一文件的数据内容的存储形式，对于管理服务器是不可见的，例如：管理服务器无法知晓分片节点将某一文件的数据内容存储于一个，还是多个文件。

相应的，由于对管理服务器可见的是分片节点，那么，相关技术中，分布式数据库扩容时，管理服务器需要确定用于筛选待迁移数据的查询条件，并在确定出用于筛选待迁移数据的查询条件后，从分片节点中按照行级来读取满足查询条件的数据，进而将读取到的数据写入到新增加的扩容节点中。

但是，由于管理服务器一行一行读取满足查询条件的数据，会导致扩容过程中的计算开销和日志开销较大，因此，为了减少分布式数据库在扩容过程中的计算开销和日志开销，本发明实施例提供了一种针对分布式数据库的数据处理方法。其中，相关技术中，扩容过程中的计算开销和日志开销可以包括但不局限于：RedoLog(即重做日志文件)、UndoLog(即用于记录数据的逻辑变化的日志文件)、binlog(即用于记录数据块的改动的二进制格式的日志文件，)和Double Write(即数据写入时一部分存在于内存中而另一部分存在于磁盘的共享表空间的写入方式)等开销。

下面首先对本发明实施例所提供的一种针对分布式数据库的数据处理方法进行介绍。

本发明实施例所提供的一种针对分布式数据库的数据处理方法应用于分布式数据库系统中的管理服务器，该分布式数据库系统还包括有多个分片节点。其中，该管理服务器用于对各个分片节点进行管理以及利用分片节点响应外部访问设备发送的针对目标文件的访问请求；并且，在具体应用时，该管理服务器也可以称为代理服务器、事务服务器或者管理节点等。而分片节点用于存储目标文件的部分数据内容，并且，分片节点可以包括至少一个存储节点，若分片节点包括多个存储节点时，多个存储节点包括主从节点，从而保证存储稳定性和安全性。可以理解的是，针对分布式数据库系统而言，目标文件的数量可以为一个或多个，目标文件属于逻辑文件，即对于外部用户可见的文件；并且，目标文件可以为数据表，当然并不局限于此。

为了解决现有技术问题，本发明实施例中，管理服务器中记录有针对目标文件的、分布式存储的多个子文件的文件标识，以及关于每一子文件的文件标识与该子文件所位于分片节点的对应关系。也就是说，本方案中，分片节点中的目标文件的子文件，对于管理服务器是可见的，即管理服务器可以知晓哪些内容存储于哪个子文件，且位于哪个分片节点。

需要说明的是，为了管理服务器能够记录上述的内容，可以为目标文件预先设定文件拆分规则，通过该文件拆分规则可以将目标文件拆分为分布存储多个子文件，并且，将各个子文件部署于多个分片节点中。相应的，在针对目标文件的访问过程中，管理服务器可以利用该文件拆分规则，来实现对于访问请求的响应，后续结合下文的实施例进行具体的访问过程。示例性的，文件拆分规则可以为：按照目标文件中指定字段来进行文件拆分，该指定字段下各个字段值所能计算得到的哈希值的数量为多个子文件的数量，不同的哈希值对应有不同的子文件；或者，该指定字段下各字段值的数量对应有不同的子文件，不同的字段值对应有不同的子文件；等等。

另外，可以理解的是，分布式存储的多个子文件均属于物理文件，无论子文件的数量是多少，对于外部可见的仅仅是一个逻辑文件，即目标文件。

其中，本发明实施例提供的一种针对分布式数据库的数据处理方法，可以包括如下步骤：

确定所述多个子文件中待迁移的子文件的目标文件标识；

基于所述目标文件标识以及所述对应关系，确定待迁移的子文件所位于的分片节点，作为初始节点；

将初始节点中的具有目标文件标识的子文件，迁移至扩容节点。

可见，本方案中，管理服务器通过记录的各个子文件的文件标识，可以选定待迁移的子文件，并对待迁移的子文件进行文件迁移，无需按照行级来读取数据内容。因此，相对于相关技术而言，本方案可以解决分布式数据库扩容过程中计算开销和日志开销较大的问题。

下面结合附图，对本发明实施例所提供的针对分布式数据库的数据处理方法进行介绍。

如图1所示，本发明实施例所提供的一种针对分布式数据库的数据处理方法，可以包括如下步骤：

S101，确定多个子文件中待迁移的子文件的目标文件标识；

当分布式数据库达到扩容的触发条件，需要在分布式数据库系统中增设扩容节点，将文件的数据内容进行数据重分布，以完成扩容，具体而言：将至少一个分片节点中的文件的数据内容，迁移至新增加的扩容节点中。其中，该触发条件可以根据实际需求进行设定，示例性的，该扩容条件可以为分布式数据库的存储量达到指定数据量，或者，达到预定时间点，等等。

本实施例中，在增设扩容节点后，在对数据重分布时，可以首先确定多个子文件中待迁移的子文件的目标文件标识，进而，利用该目标文件标识，通过迁移子文件的方式来完成扩容。其中，目标文件标识的数量可以为一个或多个，基于每一目标文件标识进行子文件迁移的处理过程均是相同的。

其中，确定待迁移的子文件的目标文件标识的实现方式存在多种。

示例性，在一种实现方式中，确定多个子文件中待迁移的子文件的目标文件标识可以包括：输出人机交互界面，该人机交互界面中展示有各个分片节点中存储的目标文件的子文件数量；获取人员基于该人机交互界面所选定的待迁移出子文件的目标分片节点，以及从目标分片节点中待迁移出子文件的目标数量；从对应关系中，确定目标分片节点对应的文件标识，从所确定出文件标识中选取目标数量个文件标识，得到多个子文件中待迁移的子文件的目标文件标识。可见，该种实现方式中，相关的人员可以根据实际需求，来选择从哪些分片节点中迁移子文件。

示例性的，在另一种实现方式中，确定多个子文件中待迁移的子文件的目标文件标识可以包括：按照负载均衡的原则，确定待迁移出子文件的目标分片节点，以及从目标分片节点中待迁移出子文件的目标数量；从该对应关系中，确定该目标分片节点对应的文件标识，从所确定出文件标识中选取目标数量个文件标识，得到多个子文件中待迁移的子文件的目标文件标识。可见，在该种实现方式中，管理服务器可以基于负载均衡原则，确定从哪些分片节点中迁移子文件，其中，该负载均衡原则能够使得各个分片节点中存储的该目标文件的子文件的数量是均衡的。

S102，基于该目标文件标识以及该对应关系，确定待迁移的子文件所位于的分片节点，作为初始节点；

管理服务器记录有每一子文件的文件标识与该子文件所位于分片节点的对应关系，因此，当确定了待迁移的子文件的目标文件标识后，可以根据该目标文件标识以及该对应关系，确定该待迁移的子文件位于哪个分片节点上，从而得到初始节点。

S103，将该初始节点中的具有该目标文件标识的子文件，迁移至扩容节点，该扩容节点为系统扩容时在该分布式数据系统中预先增设的分片节点。

本实施例中，为了解决现有技术问题，通过迁移子文件的方式来扩容，因此，在获得目标文件标识和确定出初始节点后，可以将该初始节点中的具有该目标文件标识的子文件，迁移至扩容节点。

并且，为了保证后续利用扩容节点对于迁移出的子文件的访问请求进行响应，管理服务器在将该初始节点中的具有所述目标文件标识的子文件，迁移至扩容节点之后，可以将该对应关系中该目标文件标识所对应的分片节点，更改为扩容节点。具体的，管理服务器记录有各个子文件的文件标识与该子文件所位于的节点的对应关系，该对应关系可以是管理服务器记录的各个子文件所位于的节点的分布信息，在将所述目标文件标识的子文件迁移至扩容节点之后，删除初始节点已被迁移的子文件的分布信息，并增加扩容节点中迁移完成的子文件的分布信息。

其中，将该初始节点中的具有该目标文件标识的子文件，迁移至扩容节点的实现方式存在多种。

示例性的，在一种实现方式中，管理服务器可以向该初始节点下发查询事务请求，从初始节点中读取具有目标文件标识的子文件的全部内容，然后将全部内容写入到扩容节点中具有该目标文件标识的子文件中，从而实现将该初始节点中的具有该目标文件标识的子文件，迁移至扩容节点。另外，从初始节点中读取具有目标文件标识的子文件的全部内容之后，至完成迁移的过程中，该初始节点中具有该目标文件标识的子文件可能会产生增量数据。基于该种原因，管理服务器在将读取到的全部内容写入到扩容节点后，可以从初始节点中读取增量数据，并将读取到的增量数据同步到扩容节点中具有目标文件标识的子文件中。

关于将该初始节点中的具有该目标文件标识的子文件，迁移至扩容节点的其他实现方式，后续结合其他实施例进行介绍。

为了方便理解本发明针对分布式数据库的数据处理方法，下面结合图2(a)和图2(b)进行介绍。其中，图2(a)为扩容之前的多个子文件的分布示意图，图2(b)为扩容之后多个子文件的分布示意图。如图2(a)和(b)所示，分片节点1，分片节点2为扩容之前的分片节点，分片节点3为预先增设的扩容节点；图2(a)中，管理服务器按照预定的文件拆分规则，将目标文件拆分为子文件1-8，并且，子文件1-4存储于分片节点1中，而子文件5-8存储于分片节点2中，并且，管理服务器中记录有各个子文件的文件标识和关于每一子文件的文件标识和该子文件所位于的分片节点的对应关系。此时管理服务器记录有各子文件的分布信息：

Tblname:Table

g1:[Table_1,Table_2,Table_3,Table_4]

g2:[Table_5,Table_6,Table_7,Table_8]

其中g1、g2代表分片节点1、2，Table_1至Table8代表拆分后的子文件。

当需要扩容时，按照负载均衡原则，从分片节点1和分片节点2中分别迁出一个子文件，并且，将分片节点1中的子文件2的文件标识和分片节点2中的子文件5的文件标识均作为目标文件标识；进而，管理服务器可以向作为初始节点的分片节点1下发携带有子文件2的文件标识的迁移指令，向作为初始节点的分片节点2下发携带有子文件5的文件标识的迁移指令；相应的，分片节点1通过文件传输方式将子文件2传输至分片节点3中，分片节点2通过文件传输方式将子文件5传输至分片节点3中，形成如图2(b)所示的子文件的分布示意图。

管理服务器增删相应分片的子文件分布信息，增删后记录的各子文件的分布信息为：

Tblname:Table

g1:[Table_1,Table_3,Table_4]

g2:[Table_6,Table_7,Table_8]

g3:[Table_2,Table_5]

其中，g3为预先增设的扩容节点，即分片节点3，Table_2和Table_5为迁移的目标子文件，即子文件2和子文件5。

本发明实施例中，管理服务器通过记录的各个子文件的文件标识，可以选定待迁移的子文件，并对待迁移的子文件进行文件迁移，无需按照行级来读取数据内容。因此，相对于相关技术而言，本方案可以解决分布式数据库扩容过程中计算开销和日志开销较大的问题。

可选地，在本发明的另一实施例中，如图3所示，上述的S103可以包括如下步骤：

S1031，向该初始节点发送针对具有该目标文件标识的子文件的迁移指令，以使该初始节点在接收到该迁移指令后，确定具有该目标文件标识的子文件待迁移至的扩容节点，通过文件传输方式，将具有该目标文件标识的子文件传输至该扩容节点。

在本实施例中，管理服务器通过下发迁移指令的方式，来指示初始节点对具有目标文件标识的子文件进行迁移。其中，该迁移指令中可以至少包括该目标文件标识，从而通过该目标文件标识，来指示初始节点待迁移出的子文件。

其中，确定具有该目标文件标识的子文件待迁移至的扩容节点的方式存在多种。示例性的，在一种实现方式中，迁移指令中还携带有该扩容节点的通信标识信息，从而，该初始节点可以通过该迁移指令，确定出具有该目标文件标识的子文件待迁移至的扩容节点。示例性的，在另一种实现方式中，预先将扩容节点的通信标识信息配置在初始节点中，这样，初始节点可以从预先配置的信息中，确定出具有该目标文件标识的子文件待迁移至的扩容节点。

另外，在初始节点和扩容节点建立有线或无线的通信连接之后，通过文件传输方式，将具有该目标文件标识的子文件传输至该扩容节点。其中，初始节点和扩容节点可以位于同一局域网内，当然并不局限于此；另外，文件传输方式可以包括但不局限于：FTP(FileTransfer Protocol，文件传输协议)方式。

本实施例中，管理服务器通过记录的各个子文件的文件标识，可以选定待迁移的子文件，并通过下发迁移指令的方式对待迁移的子文件进行文件迁移，无需按照行级来读取数据内容。因此，相对于相关技术而言，本方案可以解决分布式数据库扩容过程中计算开销和日志开销较大的问题。

另外，初始节点将具有目标文件标识的子文件的传输至扩容节点的过程中，该初始节点中具有该目标文件标识的子文件可能会产生增量数据。因此，为了进一步保证迁移出的子文件的完整性，可选地，基于图3所示的实施例，在本发明的另一实施例中，如图4所示，该方法还可以包括如下S104-S105：

S104，在具有该目标文件标识的子文件传输完成后，检测该初始节点中具有该目标文件标识的子文件，相对于该扩容节点中的具有该目标文件标识的子文件，是否存在增量数据；

其中，检测是否存在增量数据的实现方式存在多种，本发明实施例对此不做限定。示例性的，在一种实现方式中，检测是否存在增量数据的方式可以包括：基于指定日志数据，检测具有目标文件标识的子文件的传输时刻之后，是否存在针对具有该目标文件标识的子文件的写请求；若存在，则判定存在增量数据。其中，指定日志数据可以包括：在具有目标文件标识的子文件的传输过程中，所生成的关于具有该目标文件标识的子文件的日志数据。

S105，若存在增量数据，则将增量数据写入到该扩容节点中的具有该目标文件标识的子文件中。

示例性的，在一种实现方式中，管理服务器可以通过向初始节点下发针对具有该目标文件标识的子文件的查询事务请求，以从初始节点中具有该目标文件标识的子文件中，查询出在具有目标文件标识的子文件的传输过程中，发生更新的数据内容，从而将查询到的数据内容写入到扩容节点中的具有该目标文件标识的子文件中。其中，发生更新的数据内容即为增量数据，其具体可以包括：相对于迁移前的子文件所增加的内容，以及相对于迁移前的子文件所修改的内容。并且，查询事务请求中的查询条件也可以基于上述的指定日志数据来确定。

本实施例中，相对于相关技术而言，不但本方案可以解决分布式数据库扩容过程中计算开销和日志开销较大的问题，而且，能够保证重分布数据的完整性。

另外，可选地，在本发明的另一实施例中，一种针对分布式数据库的数据处理方法，还可以包括如下步骤A1-A2：

步骤A1，在接收到针对目标文件的访问请求后，按照预定的文件拆分规则，确定访问请求待访问的子文件的文件标识，作为待利用标识；其中，文件拆分规则为用于将目标文件拆分为分布存储的多个子文件的规则；

其中，访问请求可以为写请求或读请求，该写请求用于插入数据或者修改数据。

示例性的，目标文件为数据表文件，在接收到针对数据表文件的写请求后，按照预定的文件拆分规则，确定写请求待写行记录所属的子文件的文件标识，作为待利用标识；在接收到针对数据表文件的读请求后，按照预定的文件拆分规则，确定待读行记录所属的子文件的文件标识，作为待利用标识。

示例性的，文件拆分规则可以为：按照数据表文件中指定字段来进行文件拆分，该指定字段下各个字段值的哈希值的数量为多个子文件的数量，不同的哈希值对应有不同的子文件；相应的，在接收到针对数据表文件的访问请求后，确定出该访问请求中该指定字段的字段值的哈希值，通过哈希值，即可确定出待访问行记录所属的子文件的文件标识。

步骤A2，向对应关系中待利用标识对应的分片节点，下发事务处理请求，以使待利用标识对应的分片节点响应事务处理请求。

其中，事务处理请求用于对具有待利用标识的子文件执行访问请求中的请求内容。

本实施例中，相对于相关技术而言，不但本方案可以解决分布式数据库扩容过程中计算开销和日志开销较大的问题，而且，能够保证针对目标文件的有效访问。

相应于上述的方法实施例，本发明实施例还提供了一种分布式数据库系统，如图5所示，该系统可以包括：管理服务器510和多个分片节点520，其中，所述管理服务器510中记录有针对目标文件的、分布式存储的多个子文件的文件标识，以及关于每一子文件的文件标识与该子文件所位于分片节点520的对应关系；

每一分片节点520，用于存储针对所述目标文件的子文件；

所述管理服务器510，用于确定所述多个子文件中待迁移的子文件的目标文件标识；基于所述目标文件标识以及所述对应关系，确定所述待迁移的子文件所位于的分片节点520，作为初始节点；将所述初始节点中的具有所述目标文件标识的子文件，迁移至扩容节点，所述扩容节点为系统扩容时在所述分布式数据系统中预先增设的分片节点。

可选地，所述管理服务器510还用于：

可选地，所述管理服务器510将所述初始节点中的具有所述目标文件标识的子文件，迁移至扩容节点，具体为：

可选地，所述管理服务器510还用于：

可选地，所述管理服务器还用于：

关于系统中各设备的相关描述内容，可以参见上述方法实施例中的相应内容，在此不做赘述。

相应于上述方法实施例，本发明实施例还提供了一种针对分布式数据库的数据处理装置，应用于分布式数据库系统中的管理服务器，所述管理服务器中记录有针对目标文件的、分布式存储的多个子文件的文件标识，以及关于每一子文件的文件标识与该子文件所位于分片节点的对应关系；如图6所示，所述装置包括：

文件标识确定模块610，用于确定所述多个子文件中待迁移的子文件的目标文件标识；

初始节点确定模块620，用于基于所述目标文件标识以及所述对应关系，确定所述待迁移的子文件所位于的分片节点，作为初始节点；

文件迁移模块630，用于将所述初始节点中的具有所述目标文件标识的子文件，迁移至扩容节点，所述扩容节点为系统扩容时在所述分布式数据系统中预先增设的分片节点。

可选地，所述装置还包括：

更改模块，用于在文件迁移模块630将所述初始节点中的具有所述目标文件标识的子文件，迁移至扩容节点之后，将所述对应关系中所述目标文件标识所对应的分片节点，更改为所述扩容节点。

可选地，所述文件迁移模块630具体用于：

向所述初始节点发送针对具有所述目标文件标识的子文件的迁移指令，以使所述初始节点在接收到所述迁移指令后，确定具有所述目标文件标识的子文件待迁移至的扩容节点，通过文件传输方式，将具有所述目标文件标识的子文件传输至所述扩容节点。

可选地，所述装置还包括：

检测模块，用于在具有所述目标文件标识的子文件传输完成后，检测所述初始节点中具有所述目标文件标识的子文件，相对于所述扩容节点中的具有所述目标文件标识的子文件，是否存在增量数据；

写入模块，用于若存在增量数据，则将增量数据写入到所述扩容节点中的具有所述目标文件标识的子文件中。

可选地，所述文件标识确定模块610包括：

确定子模块，用于按照负载均衡的原则，确定待迁移出子文件的目标分片节点，以及从所述目标分片节点中待迁移出子文件的目标数量；

选取子模块，用于从所述对应关系中，确定所述目标分片节点对应的文件标识，从所确定出文件标识中选取所述目标数量个文件标识，得到所述多个子文件中待迁移的子文件的目标文件标识。

可选地，所述装置还包括：

确定模块，用于在接收到针对所述目标文件的访问请求后，按照预定的文件拆分规则，确定所述访问请求待访问的子文件的文件标识，作为待利用标识；其中，所述文件拆分规则为用于将所述目标文件拆分为分布存储的所述多个子文件的规则；

请求下发模块，用于向所述对应关系中所述待利用标识对应的分片节点，下发事务处理请求，以使所述待利用标识对应的分片节点响应所述事务处理请求；

本发明实施例还提供了一种管理服务器如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现本发明实施例上述所提供的任一方法的步骤。

上述管理服务器提到的通信总线可以是外设部件互连标准(PeripheralComponent Interconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一针对分布式数据库的数据处理方法方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一针对分布式数据库的数据处理方法方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种针对分布式数据库的数据处理方法，其特征在于，应用于分布式数据库系统中的管理服务器，所述管理服务器中记录有针对目标文件的、分布式存储的多个子文件的文件标识，以及关于每一子文件的文件标识与该子文件所位于分片节点的对应关系；所述方法包括：

确定所述多个子文件中待迁移的子文件的目标文件标识；

2.根据权利要求1所述的方法，其特征在于，所述将所述初始节点中的具有所述目标文件标识的子文件，迁移至扩容节点的步骤之后，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述将所述初始节点中的具有所述目标文件标识的子文件，迁移至扩容节点，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1或2所述的方法，其特征在于，所述确定所述多个文件中待迁移的子文件的目标文件标识，包括：

6.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

在接收到针对所述目标文件的访问请求后，按照预定的文件拆分规则，确定所述访问请求待访问的子文件的文件标识，作为待利用标识；其中，所述文件拆分规则为用于将所述目标文件拆分为分布存储的所述多个子文件的规则；

7.一种分布式数据库系统，其特征在于，包括：管理服务器和多个分片节点，其中，所述管理服务器中记录有针对目标文件的、分布式存储的多个子文件的文件标识，以及关于每一子文件的文件标识与该子文件所位于分片节点的对应关系；

每一分片节点，用于存储针对所述目标文件的子文件；

8.根据权利要求7所述的系统，其特征在于，所述管理服务器还用于：

9.根据权利要求7或8所述的系统，其特征在于，所述管理服务器将所述初始节点中的具有所述目标文件标识的子文件，迁移至扩容节点，具体为：

10.根据权利要求9所述的系统，其特征在于，所述管理服务器还用于：

11.根据权利要求7或8所述的系统，其特征在于，所述管理服务器确定所述多个子文件中待迁移的子文件的目标文件标识，具体为：

12.根据权利要求7或8所述的系统，其特征在于，所述管理服务器还用于：

13.一种针对分布式数据库的数据处理装置，其特征在于，应用于分布式数据库系统中的管理服务器，所述管理服务器中记录有针对目标文件的、分布式存储的多个子文件的文件标识，以及关于每一子文件的文件标识与该子文件所位于分片节点的对应关系；所述装置包括：

14.一种管理服务器，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。