CN110362617B

CN110362617B - 基于多并发技术从数据库快速导出批量数据方法和系统

Info

Publication number: CN110362617B
Application number: CN201910549011.8A
Authority: CN
Inventors: 袁远松; 王建华; 杜春魁
Original assignee: Beijing Kingbase Information Technologies Co Ltd
Current assignee: Beijing Kingbase Information Technologies Co Ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2023-06-13
Anticipated expiration: 2039-06-24
Also published as: CN110362617A

Abstract

本发明公开了基于多并发技术从数据库快速导出批量数据方法和系统，该系统包括数据导出工具和注册到数据库服务器的数据导出插件，数据导出插件包括一个写文件进程和多个数据处理进程；该方法包括以下步骤：数据导出工具负责读取配置文件连接和调用数据导出插件进行导出工作；所述数据导出插件接收连接的进程为写文件进程，写文件进程创建多个数据处理进程；每个数据处理进程读取对应数据块的数据进行元组解析；将解析后的所述元组转化为目标格式数据后存入共享内存队列；写文件进程遍历所有所述共享内存队列，从中取出目标格式数据后批量写入目标数据文件。本发明有益效果：增强了扩展性，降低了与数据库服务器的耦合性，提高了导出效率。

Description

基于多并发技术从数据库快速导出批量数据方法和系统

技术领域

本发明涉及数据库技术领域，具体来说，涉及一种基于多并发技术从数据库快速导出批量数据方法和系统，适用于批量数据导出。

背景技术

随着计算机技术的飞速发展，数据库的应用也越来越广泛，数据的导入和导出效率是数据库的总体性能的一个非常重要的指标。数据导出主要是将数据库的数据导出成CSV、二进制和文本文件格式，也有将数据导出到EXCEL或者其他数据库中。

目前，从数据库中导出数据的主要技术如下：

一种通过实现一个外部工具连接到数据库，根据设置的数据导出配置，将导出数据存储在内存中并转换为目标格式，最后将其保存为目标文件。例如：申请号为CN201610834990的中国专利申请中就采用该技术，这种导出方式首先要通过数据库的查询接口查询出数据，网络传输给导出工具，然后导出工具再进行格式转换为目标格式，整个导出流程复杂，耗时长，并且整个导出过程为单进程，导致导出的效率极其低下，同时通过该方式在某种情况下，导出数据的数据量也受到限制。

另一种通过关系数据库中自带的函数或者命令的方式导出为目标格式的文件。例如：在开源数据库PostgreSQL中，就可以通过命令Copy To将数据库中的数据导出为CSV、二进制和文本文件格式，该方式在数据库内核中实现，将整个数据导出作为一个大事务，减少了事务的检查，并且将数据按块批量读出，在内存中直接转化为目标格式，然后批量写入目标文件中。整个过程中减少不必要的网络传输和内存拷贝等中间流程，效率相对外部工具来说有所提升，但是，由于整个流程采用单进程的方式实现的，导出的效率还是偏低，并且该方式直接修改数据库内核，会严重依赖数据库的架构。

综上所述，现有的数据库数据导出技术，无法充分利用多核CPU，普遍存在导出效率较低的问题，并且在整个数据导出过程中缺乏精细的异常处理，可靠性较低。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的上述技术问题，本发明提出一种基于多并发技术从数据库快速导出批量数据方法和系统，能够解决导出速度较低或者依赖于数据库的框架，耦合性较高，导出时缺乏相关异常处理，可靠性较低等问题。

为实现上述技术目的，本发明的技术方案是这样实现的：

一种基于多并发技术从数据库快速导出批量数据方法，包括以下步骤：

数据导出工具负责读取配置文件，与所述数据导出插件的写文件进程相连接，并调用所述数据导出插件进行数据导出工作；

每个所述写文件进程接收所述导出工具的连接后创建多个数据处理进程；

每个所述数据处理进程分任务并行读取对应数据块的数据后进行元组解析；

将解析后的所述元组转化为目标格式数据后存储于共享内存队列；

所述写文件进程遍历所有所述共享内存队列，从其取出目标格式数据后写入到目标数据文件。

进一步地，该方法还包括：在写文件进程的初始化函数中获取当前快照并存储，并将保存的快照名传给所述数据处理进程，数据处理进程根据快照名读取相应的快照。

进一步地，该方法还包括：在所述数据处理进程中采用异常捕获机制捕获出错信息进行异常处理，将错误进行分类处理并记入日志。

进一步地，所述数据导出工具包括：

在所述数据导出工具读取命令行参数和解析配置文件；

将解析后的配置信息存储于链表，并将所述链表中的配置选项转化成字符串；

将配置选项作为函数的参数，调用数据导出插件中快速导出函数；

所述数据库服务器根据配置选项导出数据。

进一步地，调用数据导出插件中快速导出函数包括：

将快速导出函数进行参数解析；

创建两个功能模块第一Reader和第一Writer，并调用对应模块的初始化函进行数初始化；

循环判断已导出的条数是否小于限制数，若导出的条数小于所述限制数，则通过所述第一Reader模块获取下一个元组，如果下一个元组不为空，则通过所述第一Writer模块导出元组；否则，若导出的条数超过受限范围或者获取元组为空就结束导出流程；

数据导出完成后，将导出的结果信息通过函数的返回值的形式返回。

本发明的另一方面，提供一种基于多并发技术从数据库快速导出批量数据系统，其特征在于，包括数据导出工具和注册到数据库服务器的数据导出插件，其中，所述数据导出插件包括一个写文件进程和多个数据处理进程，所述数据导出工具与所述写文件进程相连接；

所述数据导出插件接收连接后创建多个数据处理进程。

所述数据导出工具包括：

配置和参数解析模块，用于在所述数据导出工具读取命令行参数和解析配置文件，将解析后的配置信息存储于链表，并将所述链表中的配置选项转化成字符串；

插件调用模块，用于将配置选项作为函数的参数，调用数据导出插件中快速导出函数；

导出结果显示模块，用于所述数据库服务器根据配置选项完成数据导出，并接收和显示导出后的结果信息。

进一步地，所述写文件进程包括：

写文件进程的参数解析模块，用于写文件进程接收数据导出工具调用的函数参数解析；

写文件进程初始化模块：初始化第二READER模块、第二WRITER模块和第二系统，其中，所述第二READER模块和所述第二WRITER模块分别为元组读取模块和写目标数据文件模块；

目标数据读取模块：用于遍历所有所述共享内存队列，从所述共享内存队列中取出目标数据；

写数据文件模块：用于将从目标数据读取模块读取的目标数据直接批量写入目标数据文件中。

进一步地，所述数据处理进程包括：

数据处理进程的参数解析模块，用于所述数据处理进程接受调用的函数参数解析；

数据处理进程的初始化模块：初始化第一READER模块和第一WRITER模块分别为数据文件块读取模块和写共享内存模块，以及内存等系统初始化；

数据处理模块：用于每个所述数据处理进程读取对应数据块的数据进行元组解析，将解析后的所述元组转化为目标格式数据；

存入共享内存模块：将转化后的目标格式数据存入共享内存队列中。

进一步地，该系统还包括异常捕获模块：用于在所述数据处理进程中采用异常捕获机制捕获出错信息进行异常处理，将错误进行分类处理并记入日志。

本发明的有益效果：

1、通过数据导出插件增强了其扩展性，降低了与数据库服务器的耦合性；

2、通过在架构上并行开启多个数据处理进程进行并行处理，通过一个写文件进程直接批量写数据文件的方式，减少中间处理流程，提高了导出的效率，其导出效率是单进程单线程的几倍以上。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的基于多并发技术从数据库快速导出批量数据方法的流程示意图；

图2是根据本发明实施例所述的SYS_BULKEXPORT SERVER中Parser及其子类之间的关系图；

图3是根据本发明实施例所述的SYS_BULKEXPORT SERVER中Writer及其子类之间的关系图；

图4是根据本发明实施例所述的数据导出工具的数据处理流程图；

图5是根据本发明实施例所述的数据导出插件的数据处理流程图；

图6是根据本发明实施例所述的基于多并发技术从数据库快速导出批量数据系统的架构图；

图7是根据本发明实施例所述的数据导出工具的结构示意图；

图8是根据本发明实施例所述的写文件进程的结构示意图；

图9是根据本发明实施例所述的数据处理进程的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

以下以从KingbaseES数据服务器导出CSV文件为例进行阐述。

如图1所示，根据本发明实施例所述的基于多并发技术从数据库快速导出批量数据方法，包括以下步骤：

具体的，将数据导出插件注册到数据库服务器，所述数据导出插件包括写文件进程，所述写文件进程创建多个数据处理进程，其中，将最耗CPU的数据处理流程的元组读取、元组解析和数据转换三个阶段，合并在一个进程处理，该进程后续称之为数据处理进程，整个系统中将开启多个数据处理进程并行处理，数据处理进程的具体个数会根据用户的输入参数来决定，因为该参数严重依赖于运行的硬件设备和环境，从而让用户根据实际运行环境进行相关优化，而依赖IO的写数据文件阶段将由一个单独的进程来处理，后续称之为写文件进程，并且写文件进程只有一个，如果存在多个写文件进程，其相互之间需要同时访问IO，这样写文件进程之间就需要加互斥锁，从而导致资源竞争反而不利于性能提升；其中，优化数据的处理流程，减少不必要的中间处理流程，缩短每条数据的处理时间。借鉴PostgreSQL中的Copy To的处理方式，直接将数据导出流程嵌入内核中，减少由于外部工具需要网络通信和内存拷贝等中间流程，为了其扩展性考虑将数据导出的功能实现在一个插件中并注册到数据库服务器中，所述数据导出插件通过所述写文件进程与数据导出工具相连接；

由于整个数据表的数据在内存中是由于不同的数据块组成的，因此，根据导出表的数据块数平均分配给不同的数据处理进程进行处理，每个所述数据处理进程读取对应数据块的数据进行元组解析；

所述写文件进程遍历数据处理进程的所有所述共享内存队列，从其取出目标格式数据后写入到目标数据文件；每个数据处理进程都有一个共享内存队列与写数据文件进程进行数据交互；当多个数据处理进程会同时去读取数据表的不同数据块，有可能会出现读异常，出现读取数据不一致性，通过让各个数据处理进程同时去读取一个相同的历史快照的技术，从而确保在导出过程中数据一致性。

数据快速导出工具整体架构可采用插件的方式注册到数据库系统中，增强其可扩展性，整个数据导出系统分为两部分，一部分为数据导出工具，是一个单独可执行文件，后续称之为SYS_BULKEXPORT CLIENT；另外一部分为数据导出插件，通过注册到数据库服务器中，后续称之为SYS_BULKEXPORTSERVER。

SYS_BULKEXPORT CLIENT主要功能：

解析客户端参数和读取配置文件，并负责调用服务器数据快速导出函数SYS_BULKEXPORT，进行数据导出；

接收服务器数据导出的结果信息并显示。

SYS_BULKEXPORT SERVER的主要功能：

接收客户端连接和提供快速导出函数接口给客户端调用；

通过读取数据库服务器的元组数据并解析，然后将其转化为目标格式的数据，最后将其写入目标文件中，完成数据的导出功能；

统计导出的结果信息，并发送给客户端。

在整个SYS_BULKEXPORT SERVER中由一个写CSV文件进程和多个数据处理进程共同组成，数据处理进程的个数由用户通过配置参数进行指定，每个SYS_BULKEXPORT SERVER插件主要包括两个功能模块第一Reader模块和第一Writer模块，第一Reader模块主要由解析模块Parser和数据校验模块Checker组成，会根据进程的具体不同功能启动不同的具体Parser模块和第一Writer模块，主要功能模块的功能如下：TupleParser模块的主要功能是创建多个数据处理进程和从共享内存中读取转化后的元组信息；DBParser模块的主要功能读取数据表中的数据，解析元组，并转化为CSV格式的数据，Parser及其子类之间的关系图如图2所示；CSVWriter模块的主要功能是将CSV格式的数据写到CSV文件中；ParallelWriter模块的作用就是将CSV格式的数据写入共享内存中，Writer及其子类之间的关系图如图3所示。

写CSV文件进程进行读取CSV格式数据和写CSV文件的具体功能模块为TupleParser模块和CSVWriter模块。在TupleParser模块中的初始化函数中会根据配置参数processor_count的个数创建多个数据处理进程及其进程交互的共享内存；首先，TupleParser模块通过模拟成客户端与自身建立连接的方式创建进程，数据库服务器会专门启动一个进程与之相连；接着，TupleParser模块再调用SYS_BULKEXPORT函数让数据处理进程也进入SYS_BULKEXPORT的函数中处理，通过采用这种方式启动多个数据处理进程。TupleParser模块首先会计算需要读取数据的总块数，用符号S表示；将每个数据处理进程进行编号，用id标识，每个进程编号为0，1，……n-1，这样每个进程至少应该读取的块数为：S/n取整，用[S/n]标识，然后将剩余未处理的块数为S–[S/n]*n平均分配到进程id小于S％n的进程中，这些进程的每个进程将多处理一块数据，因此，每个进程需要处理数据的块数Count_id为：

每个进程需要处理的开始块数StartID_id为：

/>

例如：需要导出的数据表中有1697块数据，分为5个进程去导出，则将其分为5个进程读取：[1697/5]＝339，因此，每个进程至少需要处理339块数据，但是，还剩1697-339*5＝2块数据未处理，这样id为0和1的前2个进程每个进程需要多处理1块数据，最终，5个进程分别需要处理的数据块数为340，340,339，339，339块，处理数据的开始位置为0，340，680,1019，1358，将每个数据处理进程需要处理的行数的偏移量StartID和需要处理的行数Count分别作为调用SYS_BULKEXPORT函数的Offset和Limit的参数形式传送给数据处理进程，所以，采用多并发技术提高数据的处理并行性，提高数据导出的效率。

写CSV文件进程通过TupleParser中的ParserRead函数遍历所有的共享内存队列读取CSV格式的数据；然后通过CSVWriter的writer_insert函数将CSV格式的数据直接写入数据文件CSV中；最后通过将整个文件的导出信息作为SYS_BULKEXPORT函数的返回值返回给客户端。

数据处理进程的总体执行流程图也如图5所示：只是其实际进行数据处理和写数据的具体功能模块为DBParser模块和ParallelWriter模块。在数据处理进程中的DBParser模块的ParserRead函数会按照接收到的Offset和Limit的参数，分别读取数据表中的不同数据块的内容，然后进行元组解析，并将其转化为CSV文件格式；然后通过ParallelWriter模块的writer_insert函数将CSV数据写入共享内存中，等待写文件进程的TupleParser模块进行遍历读取；最后，处理完所有数据，将该数据处理进程的处理结果以函数返回值的形式返回给写CSV进程，写CSV进程接收完各个数据处理进程处理的结果汇总作为数据导出的处理结果返回给客户端。

在本发明的一个具体实施例中，为了保证多个数据处理进程读取的数据一致性，该方法还包括：在写文件进程的初始化函数中获取当前快照并存储，并将保存的快照名传给所述数据处理进程，数据处理进程根据快照名读取相应的快照，保证每个数据处理进程读取的数据一致性。

具体的，在TupleParser模块中的初始化函数中获取当前快照并保存，然后等创建完多个数据处理进程结束后，设置每个数据处理进程读取的快照为保存的快照名，这样让各个数据处理进程都是处理的同一个快照。

在本发明的一个具体实施例中，为了提高数据库的数据导出的可靠性，该方法还包括：对于导出的过程中在所述数据处理进程中采用异常捕获机制捕获出错信息进行异常处理，将错误进行分类处理并记入日志，在导出过程中将错误分类：一种由于影响系统整体导出流程的严重错误，比如配置不合法等，直接报错提示并记入日志文件中，然后终止导出流程；另外一种错误对导出整体流程影响较小，比如某条数据转化为目标格式失败等，这种错误只影响单条数据导出，不影响整体流程，对于这类错误记录在配置中指定的配置的错误日志文件中，并可根据配置指定出错条数，提前终止导出流程。

在本发明的一个具体实施例中，所述数据导出工具包括：

在所述数据导出工具读取命令行参数和解析配置文件；

所述数据库服务器根据配置选项导出数据。

具体的，SYS_BULKEXPORT CLIENT的执行流程图如图4所示：首先，SYS_BULKEXPORTCLIENT读取命令行参数和解析配置文件，将解析后的配置信息统一放入一个链表中，并将该链表中的配置选项转化成一个字符串，以逗号作为各个参数选项的分隔符；然后，将配置选项作为函数的参数，调用插件SYS_BULKEXPORT提供的SYS_BULKEXPORT函数；最后，服务器根据配置选项完成数据导出，并将导出的结果信息返回给客户端，客户端接收后显示。

在本发明的一个具体实施例中，调用数据导出插件中快速导出函数包括：

将快速导出函数进行参数解析；

创建两个功能模块第一Reader模块和第一Writer模块，并调用对应模块的初始化函进行数初始化；

具体的，当SYS_BULKEXPORT CLIENT连接到数据库服务器时，数据库服务器会专门启动一个进程与之相连，并负责处理相关的业务逻辑，这个进程为写CSV文件进程，当服务器接收到客户端调用SYS_BULKEXPORT函数请求时，会调用SYS_BULKEXPORT插件中的SYS_BULKEXPORT函数。SYS_BULKEXPORT函数的执行流程图如图5所示，主要流程如下：

首先，将SYS_BULKEXPORT函数会进行参数解析；

其次，在初始化时会创建两个功能模块第一Reader模块和第一Writer模块，并调用对应模块的初始化函数完成初始化工作；

接着，判断已写入的条数是否超过最大写入条数的限制或者写入条数不受限制，最大限制写入条数通过参数Limit指定的，为0表示不限制，如果写入的条数在受限范围内或者不受限制，则会获取下一个元组，如果下一个元组不为空，写入元组，然后继续循环判断写入元组的数量是否已达到受限数量或者不受限制，否则，超过受限范围或者获取元组为空就结束写入流程；

最后，将处理结果返回客户端，并释放资源。

如图6所示，本发明的另一方面，提供一种基于多并发技术从数据库快速导出批量数据系统，包括数据导出工具和注册到数据库服务器的数据导出插件，其中，所述数据导出插件包括一个写文件进程和多个数据处理进程，所述数据导出工具与所述写文件进程相连接；

所述数据导出插件接收连接后创建多个数据处理进程。

如图7所示，在本发明的一个具体实施例中，所述数据导出工具包括：

导出结果显示模块，用于所述数据库服务器根据配置选项完成数据导出，并接收和显示导出后的结果信息。。

如图8所示，在本发明的一个具体实施例中，所述写文件进程包括：

写文件进程初始化模块：初始化第二READER模块、第二WRITER模块和第二系统，其中，第二READER模块和第二WRITER模块分别为元组读取模块和写目标数据文件模块；第二系统包括内存等；

具体的，写CSV文件进程通过TupleParser模块中的ParserRead函数遍历所有的共享内存队列读取CSV格式的数据；然后通过CSVWriter模块的writer_insert函数将CSV格式的数据直接写入数据文件CSV中；最后通过将整个文件的导出信息作为SYS_BULKEXPORT函数的返回值返回给客户端。

如图9所示，在本发明的一个具体实施例中，所述数据处理进程包括：

在本发明的一个具体实施例中，该系统还包括异常捕获模块：用于在所述数据处理进程中采用异常捕获机制捕获出错信息进行异常处理，将错误进行分类处理并记入日志。

综上所述，借助于本发明的上述技术方案，增强了其扩展性，降低了与数据库服务器的耦合性；减少数据处理流程，在架构上并行开启多个数据处理进程进行并行处理，然后通过一个写文件进程直接写数据文件的方式，提高了导出的效率，其导出效率是单进程单线程的几倍以上。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多并发技术从数据库快速导出批量数据方法，其特征在于，包括以下步骤：

数据导出工具负责读取配置文件，与数据导出插件的写文件进程相连接，并调用所述数据导出插件进行数据导出工作；

每个所述写文件进程接收所述数据导出工具的连接后创建多个数据处理进程，其中，将数据处理流程的元组读取、元组解析和数据转换三个阶段合并在一个所述数据处理进程，所述数据处理进程的具体个数根据用户的输入参数来决定；

所述写文件进程遍历所有所述共享内存队列，从其取出目标格式数据后批量写入到目标数据文件。

2.根据权利要求1所述的基于多并发技术从数据库快速导出批量数据方法，其特征在于，该方法还包括：在所述写文件进程的初始化函数中获取当前快照并存储，并将存储的快照名传给所述数据处理进程，所述数据处理进程根据所述快照名读取相应的快照。

3.根据权利要求1所述的基于多并发技术从数据库快速导出批量数据方法，其特征在于，该方法还包括：在所述数据处理进程中采用异常捕获机制捕获出错信息进行异常处理，将错误进行分类处理并记入日志。

4.根据权利要求1-3任一项所述的基于多并发技术从数据库快速导出批量数据方法，其特征在于，所述数据导出工具包括：

在所述数据导出工具读取命令行参数和解析配置文件；

数据库服务器根据配置选项导出数据。

5.根据权利要求4所述的基于多并发技术从数据库快速导出批量数据方法，其特征在于，调用数据导出插件中快速导出函数包括：

将快速导出函数进行参数解析；

创建第一Reader模块和第一Writer模块，并调用对应模块的初始化函进行数初始化；

循环判断已导出的条数是否小于限制数，若导出的条数小于所述限制数，则通过所述第一Reader模块获取下一个元组，如果下一个元组不为空，则通过所述第一Writer模块导出元组；否则，若导出的条数超过受限范围或者获取元组为空则结束导出流程；

6.一种基于多并发技术从数据库快速导出批量数据系统，其特征在于，

包括数据导出工具和注册到数据库服务器的数据导出插件，其中，所述数据导出插件包括一个写文件进程和多个数据处理进程，所述数据导出工具与所述写文件进程相连接；

所述数据导出插件接收连接后创建多个数据处理进程，其中，将数据处理流程的元组读取、元组解析和数据转换三个阶段合并在一个所述数据处理进程，所述数据处理进程的具体个数根据用户的输入参数来决定。

7.根据权利要求6所述的基于多并发技术从数据库快速导出批量数据系统，其特征在于，所述数据导出工具包括：

插件调用模块，用于将所述配置选项作为函数的参数，调用所述数据导出插件中快速导出函数；

导出结果显示模块，用于所述数据库服务器根据所述配置选项完成数据导出，并接收和显示导出后的结果信息。

8.根据权利要求6所述的基于多并发技术从数据库快速导出批量数据系统，其特征在于，所述写文件进程包括：

目标数据读取模块：用于遍历所有共享内存队列，从所述共享内存队列中取出目标数据；

9.根据权利要求6所述的基于多并发技术从数据库快速导出批量数据系统，其特征在于，所述数据处理进程包括：

数据处理进程的初始化模块：初始化第一READER模块、第一WRITER模块和第一系统，其中，所述第一READER模块和第一WRITER模块分别为数据文件块读取模块和写共享内存模块；

10.根据权利要求6-9任一项所述的基于多并发技术从数据库快速导出批量数据系统，其特征在于，该系统还包括异常捕获模块，用于在所述数据处理进程中采用异常捕获机制捕获出错信息进行异常处理，将所述出错信息进行分类处理并记入日志。