CN115292420A

CN115292420A - 一种分布式数据库快速加载数据的方法及装置

Info

Publication number: CN115292420A
Application number: CN202211230985.8A
Authority: CN
Inventors: 李龙; 吴明远
Original assignee: Tianjin Nankai University General Data Technologies Co ltd
Current assignee: Tianjin Nankai University General Data Technologies Co ltd
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2022-11-04

Abstract

本发明提供的一种分布式数据库快速加载数据的方法及装置，客户端启动任一计算节点对应的加载系统的主控模式，客户端向加载系统发起批量加载请求；加载系统获取数据文件的长度、计算节点个数，计算获得每个计算节点加载数据文件的偏移地址和数据长度；每个计算节点上的加载系统启动加载模式，加载系统根据所述偏移地址和数据长度从文件服务器中获取所述数据文件中的加载数据，并通过与计算节点上的数据库建立连接，发送所述加载数据给数据库。本发明所述的一种分布式数据库快速加载数据的方法及装置，设置加载系统，避免了由某个集群计算节点因承担全部工作而造成的单点负载失衡而引起的加载速度慢问题，因此极大提高了加载速度。

Description

一种分布式数据库快速加载数据的方法及装置

技术领域

本发明属于分布式数据库加载的技术领域，尤其是涉及一种分布式数据库快速加载数据的方法及装置。

背景技术

在数据库集群系统中，提供了数据的分布式存储以及并行运算功能。对于分布式存储，其表现是一张表的数据分别存储在集群中多个存储节点上，而在集群的外部（例如应用系统）使用表时，看到的是表的全部数据，无法看到集群内部数据的分布情况；对于并行运算，其表现是，针对的查询操作，可以在集群内部的多个集群节点上并行执行查询操作，进而提高数据的访问速度。

由于数据库集群的分布表特性决定，向数据库集群插入数据的时候，需要由集群计算节点依据表的分布规则确定插入数据所归属的存储节点，并由归属存储节点执行数据存储操作。通常，在数据库集群中提供单条数据插入功能与多条数据批量插入功能。而在数据库集群中，采用最多的是批量插入功能。常规的批量插入通过连接集群中的任一计算节点，计算节点解析插入文件中的数据记录，将需要插入的数据转发给集群的其它存储节点，最终完成整个数据文件的插入。

在上述过程中，集群通过单一计算节点完成全部加载数据的获取、拆分等工作，造成本集群节点的负载过大，而其它储存节点都需要等待该计算节点转发数据，存储节点负载不高，进而影响了整个集群的数据加载速度。由于没有统一的调度协调，会造成数据库集群的加载速度慢问题。

发明内容

有鉴于此，本发明旨在提出一种分布式数据库快速加载数据的方法及装置，以提高数据库加载速度。

第一方面，本申请提出一种分布式数据库快速加载数据的方法，对应数据库集群中的计算节点设置加载系统，客户端与计算节点建立连接，具体步骤如下：

客户端启动任一计算节点对应的加载系统的主控模式，客户端向所述加载系统发起批量加载请求；

所述加载系统接受到客户端的批量加载请求后，向客户端的文件服务器获取数据文件的长度；

加载系统与数据库连接获取计算节点个数，计算获得每个计算节点加载所述数据文件的偏移地址和数据长度；

每个计算节点上的加载系统启动加载模式，加载系统根据所述偏移地址和数据长度从文件服务器中获取所述数据文件中的加载数据，并通过与计算节点上的数据库建立连接，发送所述加载数据给数据库；

当加载系统接收到每个集群计算节点的加载成功响应后，本次批量数据加载完成。

可选的，客户端启动任一计算节点对应的加载系统的主控模式，具体步骤如下：

客户端连接到数据库集群中任一计算节点，客户端向加载系统输入启动参数，启动所述计算节点的加载系统，使所述加载系统工作在主控模式；所述启动参数包括文件服务器信息、计算节点信息和加载命令信息。

可选的，每个计算节点上的加载系统启动加载模式，具体步骤如下：

每个计算节点上的加载系统接收到所述计算节点对应的加载所述数据文件的偏移地址和数据长度；

所述计算节点上的加载系统自动触发加载模式。

可选的，所述加载系统对应设置缓冲区机制进行数据消费；

加载系统根据所述偏移地址和数据长度从文件服务器中获取所述数据文件中的加载数据，并通过与计算节点上的数据库建立连接，发送所述加载数据给数据库，具体步骤如下：

S101、加载系统的生产者连接文件服务器获取数据文件，根据所述偏移地址从文件服务器中获取所述数据文件中的加载数据，生产者将加载数据加载至缓冲区；

S102、调整所述偏移地址至本次缓冲区的数据加载结束位置；

S103、所述加载系统的消费者通过与计算节点上的数据库建立连接，将缓冲区的数据加载至数据库；

S104、生产者根据步骤S102中的偏移地址将加载数据加载至缓冲区，统计生产者加载的数据总长度；

S105、将所述数据总长度与计算节点计算获得的数据长度对比，若所述数据总长度小于计算节点计算获得的数据长度，则重复步骤S102-S104，若数据总长度大于或等于计算节点根据计算获得的数据长度，则从当前加载数据的加载位置开始向后查找分隔符，并继续加载数据至缓冲区，直至找到所述分隔符，结束数据加载，消费者将缓冲区的数据加载至数据库后，退出加载。

可选的，生产者将加载数据加载至缓冲区，进一步包括：

若对应的偏移地址为零，所述加载的具体步骤如下：

数据文件中的加载数据的起始位置之前无数据，生产者根据偏移地址开始加载数据至缓冲区；

若对应的偏移地址不为零，所述加载的具体步骤如下：

从所述偏移地址对应数据文件的数据位置开始向后查找分隔符，从所述分隔符后面开始加载数据至缓冲区。

可选的，步骤S105中，所述加载数据至缓冲区，还包括：

若缓冲区内缓冲数据达到缓冲空间的上限，出现所述查找分隔符，结束数据加载失败的情况，则调整缓冲区的阈值和空间上限。

可选的，加载系统的消费者通过与计算节点上的数据库建立连接，将缓冲区的数据加载至数据库，还包括：

若缓冲区的数据加载至数据库时出现错误，则将缓冲区中的数据按照分隔符拆分成一条条记录，然后逐条进行加载，当某条记录发生加载错误时，将数据记录到记录文件中，并判断记录文件的记录条数是否达到设定值，若达到设定值，则退出加载；若没有达到设定值，则继续进行下一条数据加载，直至所述缓冲区中的数据加载结束。

第二方面，本申请还提出一种分布式数据库快速加载数据的装置，包括加载系统设置模块、加载请求发起模块、数据文件长度获取模块、计算节点数据获取模块、数据加载模块和加载结束模块，

所述加载系统设置模块用于对应数据库集群中的计算节点设置加载系统，客户端与计算节点建立连接；

所述加载请求发起模块用于客户端启动任一计算节点对应的加载系统的主控模式，客户端向所述加载系统发起批量加载请求；

所述数据文件长度获取模块用于所述加载系统接受到客户端的批量加载请求后，向客户端的文件服务器获取数据文件的长度；

所述计算节点数据获取模块用于加载系统与数据库连接获取计算节点个数，计算获得每个计算节点加载所述数据文件的偏移地址和数据长度；

所述数据加载模块用于每个计算节点上的加载系统启动加载模式，加载系统根据所述偏移地址和数据长度从文件服务器中获取所述数据文件中的加载数据，并通过与计算节点上的数据库建立连接，发送所述加载数据给数据库；

所述加载结束模块用于当加载系统接收到每个集群计算节点的加载成功响应后，本次批量数据加载完成。

相对于现有技术，本发明所述的一种分布式数据库快速加载数据的方法及装置具有以下有益效果：

（1）本发明所述的一种分布式数据库快速加载数据的方法及装置，自动并发快速加载数据，设置加载系统，多个计算节点的加载系统的加载模式启动是自动完成的，每个加载系统又通过多线程方式向数据库集群批量加载数据，可在数据库集群外部完成加载数据的全部准备工作，避免了由某个集群计算节点因承担全部工作而造成的单点负载失衡而引起的加载速度慢问题，因此极大提高了加载速度。

（2）本发明所述的一种分布式数据库快速加载数据的方法及装置，若缓冲区的数据加载至数据库时出现错误，则将缓冲区中的数据按照分隔符拆分成一条条记录，然后逐条进行加载，当某条记录发生加载错误时，将数据记录到记录文件中，并判断记录文件的记录条数是否达到设定值，若达到设定值，则退出加载；若没有达到设定值，则继续进行下一条数据加载，直至所述缓冲区数据加载结束，加载系统对加载数据过程中的错误会分析处理，筛选出问题数据单独存储，防止出现大量数据加载时因为个别记录数据问题导致整个加载过程失败。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的一种分布式数据库快速加载数据的方法流程图。

图2为本发明实施例所述的一种分布式数据库快速加载数据的装置结构图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

如图1所示，本申请提出一种分布式数据库快速加载数据的方法，包括，

对应数据库集群中的计算节点设置加载系统，客户端与计算节点建立连接。

具体步骤如下：

S301、客户端连接到任一计算节点，客户端启动任一计算节点对应的加载系统的主控模式，客户端向所述加载系统发起批量加载请求。

客户端连接到任一计算节点，客户端启动任一计算节点对应的加载系统的主控模式，是指，客户端连接到数据库集群中任一计算节点，客户端向加载系统输入启动参数，启动所述计算节点的加载系统工作在主控模式；所述启动参数包括文件服务器信息、所述计算节点信息和加载命令信息。

文件服务器信息可以包括服务器IP地址、访问用户名、访问密码、访问协议等。计算节点信息可以包括比如计算节点的IP地址、数据库名称、端口、用户名、密码等。加载命令信息可以包括加载数据对应的表名、加载文件名称、格式及编码方式、数据文件是否含有表头、加载线程数等。

S302、所述加载系统接受到客户端的批量加载请求后，向客户端的文件服务器获取数据文件的长度。

加载系统(主控模式)连接文件服务器，获取数据文件的大小。

S303、加载系统与数据库连接获取计算节点个数，计算获得每个计算节点加载所述数据文件的偏移地址和数据长度；

通过数据文件的大小和计算节点个数，可以通过将数据文件大小平均分配到各计算节点上的方法，计算出每个计算节点上需要数据文件的偏移地址和数据长度。

S304、每个计算节点上的加载系统启动加载模式，加载系统根据所述偏移地址和数据长度从文件服务器中获取所述数据文件中的加载数据，并通过与计算节点上的数据库建立连接，发送所述加载数据给数据库。

具体的，加载系统（主控）启动多线程连接到各个计算节点，分别启动各个计算节点的加载系统工作在加载模式。

加载系统(加载)连接文件服务器获取加载数据，通过内部生产者-消费者模型，生产者填充数据缓冲区，当缓冲区满通知消费者进行加载，具体方法如下：

S401、加载系统的生产者连接文件服务器获取数据文件，根据所述偏移地址从文件服务器中获取所述数据文件中的加载数据，生产者将加载数据加载至缓冲区；

S402、调整所述偏移地址至本次缓冲区的数据加载结束位置；

S403、所述加载系统的消费者通过与计算节点上的数据库建立连接，将缓冲区的数据加载至数据库；

S404、生产者根据步骤S402中的偏移地址将加载数据加载至缓冲区，统计生产者加载的数据总长度；

S405、将所述数据总长度与计算节点计算获得的数据长度对比，若所述数据总长度小于计算节点计算获得的数据长度，则重复步骤S402-S404，若数据总长度大于或等于计算节点根据计算获得的数据长度，则从当前加载数据的加载位置开始向后查找分隔符，并继续加载数据至缓冲区，直至找到所述分隔符，结束数据加载，消费者将缓冲区的数据加载至数据库后，退出加载。

结束数据加载后，在本次数据加载缓冲区的临近的下一个缓冲区设置结束标志，消费者消费完本次缓冲区内加载的数据后，进行下一个缓冲区数据加载时，遇到结束标志，退出数据加载。

生产者将加载数据加载至缓冲区时，需要根据分隔符查找数据起始位置（若偏移地址为零，则所述偏移地址为数据起始位置，若不为零则向后查找分隔符，向后查找到的首个分隔符位置为起始位置）；统计数据总长度大于或等于计算节点根据计算获得的数据长度时，也需查找分隔符确定加载数据结束加载的位置，（若结束的位置在一条数据的中部，也要从当前结束的位置向后查找分隔符，向后查找到的首个分隔符为结束位置）保证数据记录的完整性，方便后续消费者直接消费缓冲区数据；

消费者连接数据库完成缓冲区中数据加载。如加载过程出现错误，将缓冲区交给错误处理线程进行单独处理，将缓冲区中的数据按照分隔符拆分成一条条记录，然后逐条进行加载，当某条记录发生加载错误时，将数据记录到记录文件中，并判断记录文件的记录条数是否达到设定值，若达到设定值，则退出加载；若没有达到设定值，则继续进行下一条数据加载，直至所述缓冲区数据加载结束。加载系统对加载数据过程中的错误会分析处理，筛选出问题数据单独存储，防止出现大量数据加载时因为个别记录数据问题导致整个加载过程失败。

S305、当加载系统接收到每个集群计算节点的加载成功响应后，本次批量数据加载完成。

当生产者完成数据生产，会在新的缓冲区中设置结束标志，用于通知各个消费者及错误处理线程完成任务后自动退出。当所有线程结束，加载系统(加载)整体结束。

自动并发快速加载数据，设置加载系统，多个计算节点的加载系统的加载模式启动是自动完成的，每个加载系统又通过多线程方式向数据库集群批量加载数据，可在数据库集群外部完成加载数据的全部准备工作，避免了由某个集群计算节点因承担全部工作而造成的单点负载失衡而引起的加载速度慢问题，因此极大提高了加载速度。

实测使用文件大小26G，内含500万条记录，通过对比测试发现整体性能提升了约6倍，提升比较明显。

如图2所示，本申请提出一种分布式数据库快速加载数据的装置，包括包括加载系统设置模块、加载请求发起模块、数据文件长度获取模块、计算节点数据获取模块、数据加载模块和加载结束模块，

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式数据库快速加载数据的方法，其特征在于，对应数据库集群中的计算节点设置加载系统，客户端与计算节点建立连接，具体步骤如下：

2.根据权利要求1所述的一种分布式数据库快速加载数据的方法，其特征在于：客户端启动任一计算节点对应的加载系统的主控模式，具体步骤如下：

3.根据权利要求1所述的一种分布式数据库快速加载数据的方法，其特征在于：每个计算节点上的加载系统启动加载模式，具体步骤如下：

所述计算节点上的加载系统自动触发加载模式。

4.根据权利要求1所述的一种分布式数据库快速加载数据的方法，其特征在于：所述加载系统对应设置缓冲区机制进行数据消费；

S102、调整所述偏移地址至本次缓冲区的数据加载结束位置；

5.根据权利要求4所述的一种分布式数据库快速加载数据的方法，其特征在于，生产者将加载数据加载至缓冲区，进一步包括：

若对应的偏移地址为零，所述加载的具体步骤如下：

若对应的偏移地址不为零，所述加载的具体步骤如下：

6.根据权利要求4所述的一种分布式数据库快速加载数据的方法，其特征在于，步骤S105中，所述加载数据至缓冲区，还包括：

若缓冲区内缓冲数据达到缓冲空间的上限，出现查找分隔符，结束数据加载失败的情况，则调整缓冲区的阈值和空间上限。

7.根据权利要求4所述的一种分布式数据库快速加载数据的方法，其特征在于：加载系统的消费者通过与计算节点上的数据库建立连接，将缓冲区的数据加载至数据库，还包括：

8.一种分布式数据库快速加载数据的装置，其特征在于，包括加载系统设置模块、加载请求发起模块、数据文件长度获取模块、计算节点数据获取模块、数据加载模块和加载结束模块，