CN113342885A

CN113342885A - 数据导入方法、装置、设备及计算机程序产品

Info

Publication number: CN113342885A
Application number: CN202110659020.XA
Authority: CN
Inventors: 俞小伟; 旷波; 文海荣; 王大飞; 江旻
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-09-03
Anticipated expiration: 2041-06-15
Also published as: CN113342885B

Abstract

本发明涉及金融科技(Fintech)技术领域，公开了一种数据导入方法，所述方法包括：确定对目标数据库的并发数据导入任务；获取并计算各并发数据导入任务上一次的实际导入速率之和；若和大于0，则获取目标数据库的安全TPS、安全IOPS、当前TPS和当前IOPS；计算当前TPS与安全TPS之差得到TPS偏差，计算当前IOPS与安全IOPS之差得到IOPS偏差；根据TPS偏差和IOPS偏差的大小确定偏差值较大的目标当前指标；根据目标当前指标和并发数据导入任务的预设优先级确定各并发数据导入任务的最优导入速率，按照最优导入速率执行并发数据导入任务。本发明实现了将有限的数据库资源优先分配给最重要的任务。

Description

数据导入方法、装置、设备及计算机程序产品

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及数据导入方法、装置统、设备及计算机程序产品。

背景技术

随着计算机技术的发展，越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对数据导入导出技术提出了更高的要求。

由于DB(database，数据库)的性能瓶颈，同一时刻对DB进行大量数据导入操作时，可能对DB所在机器产生较高的负载，将导致DB出现性能压力，进而会影响服务的稳定。现有技术中，在对DB的数据导入速度进行控制时，是通过人工根据经验手动设置的数据导入速度，这种数据导入速度的设置方案对管理人员的经验依赖性极高，对于多个重要程度不一样的任务，无法保证将有限的数据库资源优先分配给最重要的任务。

发明内容

本发明的主要目的在于提出一种数据导入方法、装置、设备及计算机程序产品，旨在解决现有的数据库的数据导入速度配置的智能性和及时性不高的技术问题。

为实现上述目的，本发明提供一种数据导入方法，所述数据导入方法包括如下步骤：

确定对目标数据库的并发数据导入任务；

获取各所述并发数据导入任务上一次的实际导入速率；

计算各所述并发数据导入任务上一次的实际导入速率之和，得到当前并发导入速率；

若所述当前并发导入速率大于0，则获取所述目标数据库的安全每秒处理事务数TPS、安全每秒进行读写操作的次数IOPS、当前TPS和当前IOPS；

计算所述当前TPS与所述安全TPS之差，得到TPS偏差，计算所述当前IOPS与所述安全IOPS之差，得到IOPS偏差；

根据所述TPS偏差和IOPS偏差的大小，确定偏差值较大的目标当前指标，所述目标当前指标为所述当前TPS和当前IOPS中的一个；

根据所述目标当前指标和所述并发数据导入任务的预设优先级确定各所述并发数据导入任务的最优导入速率，按照与各所述并发数据导入任务按照对应的最优导入速率执行所述并发数据导入任务。

可选地，所述根据所述目标当前指标和所述并发数据导入任务的预设优先级确定各所述并发数据导入任务的最优导入速率的步骤包括：

根据所述并发数据导入任务的数量和各所述并发数据导入任务的预设优先级，确定各所述并发数据导入任务的并发资源占比；

根据所述目标当前指标对应的目标安全指标、所述目标当前指标和当前并发导入速率，确定期待并发导入速率；

计算各所述并发数据导入任务的所述并发资源占比和期待并发导入速率之积，作为所述并发数据导入任务的最优导入速率。

可选地，所述确定对目标数据库的并发数据导入任务的步骤之前，还包括：

获取对目标数据库的原始数据导入任务，基于所述目标数据库的预设最大并发值控制各所述原始数据导入任务进行抢锁；

将抢锁成功的原始数据导入任务确定为并发数据导入任务。

可选地，所述基于所述目标数据库的预设最大并发值控制各所述原始数据导入任务进行抢锁的步骤包括：

确定所述原始数据导入任务中存在依赖关系的依赖任务组和不存在依赖关系的非依赖任务组；其中，所述依赖任务组中的原始数据导入任务按照依赖关系顺序抢锁；

基于所述目标数据库的预设最大并发值，控制所述依赖任务组和所述非依赖任务组进行抢锁，其中，每一所述依赖任务组在同一时刻的允许抢锁任务的数量为1。

可选地所述获取对目标数据库的原始数据导入任务的步骤之前，还包括：

接收数仓数据导出请求，根据所述数仓数据导出请求获取填写于预设导出任务配置表页面中的数仓数据导出信息；所述数据导出信息包括源数仓信息、目标导出数据信息和目标数据库信息；

基于所述数据导出信息生成对目标数据库的原始数据导入任务。

可选地，所述获取所述目标数据库的当前TPS的步骤包括：

获取所述目标数据库从上一次启动至当前时刻所执行的第一更新语句数量、第一删除语句数量和第一插入语句数量；

在距所述当前时刻预设时长的第二时刻，获取所述目标数据库从上一次启动至所述第二时刻所执行的第二更新语句数量、第二删除语句数量和第二插入语句数量；

根据所述第一更新语句数量、第一删除语句数量、第一插入语句数量、第二更新语句数量、第二删除语句数量和第二插入语句数量和所述预设时长确定当前TPS。

可选地，所述获取所述目标数据库的当前IOPS的步骤包括：

获取所述目标数据库从上一次启动至当前时刻向硬盘读取键的数据块的第一读取次数和向硬盘写入键的数据块的第一写入次数；

在距所述当前时刻预设时长的第二时刻，获取所述目标数据库从上一次启动至所述第二时刻向硬盘读取键的数据块的第二读取次数和向硬盘写入键的数据块的第二写入次数；

根据所述第一读取次数、第一写入次数、第二读取次数、第二写入次数和所述预设时长确定当前IOPS。

此外，为实现上述目的，本发明还提供一种数据导入装置，所述数据导入装置包括：

并发任务确定模块，用于确定对目标数据库的并发数据导入任务；

实际导入速率确定模块，用于获取各所述并发数据导入任务上一次的实际导入速率；

当前导入速率确定模块，用于计算各所述并发数据导入任务上一次的实际导入速率之和，得到当前并发导入速率；

数据库参数获取模块，用于若所述当前并发导入速率大于0，则获取所述目标数据库的安全每秒处理事务数TPS、安全每秒进行读写操作的次数IOPS、当前TPS和当前IOPS；

偏差计算模块，用于计算所述当前TPS与所述安全TPS之差，得到TPS偏差，计算所述当前IOPS与所述安全IOPS之差，得到IOPS偏差；

目标指标确定模块，用于根据所述TPS偏差和IOPS偏差的大小，确定偏差值较大的目标当前指标，所述目标当前指标为所述当前TPS和当前IOPS中的一个；

导入速率确定模块，用于根据所述目标当前指标和所述并发数据导入任务的预设优先级确定各所述并发数据导入任务的最优导入速率，按照与各所述并发数据导入任务按照对应的最优导入速率执行所述并发数据导入任务。

此外，为实现上述目的，本发明还提供一种数据导入设备，所述数据导入设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据导入程序，所述数据导入程序被所述处理器执行时实现如上所述的数据导入方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机存储介质，所述计算机存储介质上存储有数据导入程序，所述数据导入程序被处理器执行时实现如上所述的数据导入方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机程序产品，所述计算机程序产品包括数据导入程序，所述数据导入程序被处理器执行时实现如上所述的数据导入方法的步骤。

本发明通过确定对目标数据库的并发数据导入任务；获取各所述并发数据导入任务上一次的实际导入速率；计算各所述并发数据导入任务上一次的实际导入速率之和，得到当前并发导入速率；若所述当前并发导入速率大于0，则获取所述目标数据库的安全每秒处理事务数TPS、安全每秒进行读写操作的次数IOPS、当前TPS和当前IOPS；计算所述当前TPS与所述安全TPS之差，得到TPS偏差，计算所述当前IOPS与所述安全IOPS之差，得到IOPS偏差；根据所述TPS偏差和IOPS偏差的大小，确定偏差值较大的目标当前指标，所述目标当前指标为所述当前TPS和当前IOPS中的一个；根据所述目标当前指标和所述并发数据导入任务的预设优先级确定各所述并发数据导入任务的最优导入速率，按照与各所述并发数据导入任务按照对应的最优导入速率执行所述并发数据导入任务。一方面，本发明通过依据偏差较大的性能指标对任务的导入速率自动进行调整，能够实现在保证数据库稳定性的前提下对导入速率进行调整；另一方面，通过根据任务的优先级确定对应的导入速率，能够给将有限的数据库资源优先分配给最重要的任务，从而提升数据库的数据导入速度配置的智能性和及时性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的数据导入设备结构示意图；

图2为本发明数据导入方法第一实施例的流程示意图；

图3为本发明数据导入方法中IOPS偏差大于TPS偏差的一场景示意图；

图4为本发明数据导入方法中IOPS偏差大于TPS偏差的另一场景示意图；

图5为本发明数据导入方法中IOPS偏差小于TPS偏差的另一场景示意图；

图6为本发明数据导入方法中依据当前TPS进行调速后的数据库性能指标效果；

图7为本发明数据导入方法中依据当前IOPS进行调速后的数据库性能指标效果；

图8为本发明数据导入方法中预设导出任务配置表页面的示意图；

图9为本发明数据导入装置的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的数据导入设备结构示意图。

本发明实施例数据导入设备可以是PC机或服务器设备，其上运行有虚拟机。

如图1所示，该数据导入设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的数据导入设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据导入程序。

在图1所示的数据导入设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的数据导入程序，并执行下述数据导入方法中的操作。

基于上述硬件结构，提出本发明数据导入方法实施例。

参照图2，图2为本发明数据导入方法第一实施例的流程示意图，所述方法包括：

步骤S10，确定对目标数据库的并发数据导入任务；

步骤S20，获取各所述并发数据导入任务上一次的实际导入速率；

步骤S30，计算各所述并发数据导入任务上一次的实际导入速率之和，得到当前并发导入速率；

本实施例数据导入方法运用于数据导入设备中，数据导入设备可以是终端、机器人或者PC设备。

现有技术中，由于DB(database，数据库)的性能瓶颈，同一时刻对DB进行大量数据导入操作时，可能对DB所在机器产生较高的负载，将导致DB出现性能压力，进而会影响服务的稳定。现有技术中，在对DB的数据导入速度进行控制时，是通过人工根据经验手动设置的数据导入速度，这种数据导入速度的设置方案对管理人员的经验依赖性极高，对于多个重要程度不一样的任务，无法保证将有限的数据库资源优先分配给最重要的任务。

在此背景下，本实施例提供了一种数据导入方案，一方面通过依据偏差较大的性能指标对任务的导入速率自动进行调整，能够实现在保证数据库稳定性的前提下对导入速率进行调整；另一方面，通过根据任务的优先级确定对应的导入速率，能够给将有限的数据库资源优先分配给最重要的任务，从而提升数据库的数据导入速度配置的智能性和及时性。

在本实施例中，并发数据导入任务指的是多个需要同时操作同一个数据库的任务。在一实施场景中，并发数据导入任务可以是同一个数据库在一段时间内接收到的批量数据导入任务，即原始数据导入任务，该场景下，该原始数据导入任务的数量小于或者等于该数据库的最大并发值；在另一实施场景中，并发数据导入任务也可以是对前述原始数据导入任务进行并发限制后得到的，以避免高并发导致数据库性能压力过大，影响数据库的稳定性，可以理解的是，在该场景下，原始数据导入任务的数量大于该数据库的最大并发值。

在本实施例中，上述步骤S30之后还包括：确定所述当前并发导入速率是否等于0，若所述当前并发导入速率等于0，则按照与各所述并发数据导入任务对应的预设默认导入速率执行所述并发数据导入任务。

若任务为首次请求被执行，则该任务的上一次的实际导入速率为0，若当前并发导入速率等于0，说明各并发数据导入任务都是首次执行，则按照各并发数据导入任务对应的预设默认导入速率执行，无需进行最优调速处理。

步骤S40，若所述当前并发导入速率大于0，则获取所述目标数据库的安全每秒处理事务数TPS、安全每秒进行读写操作的次数IOPS、当前TPS和当前IOPS；

若当前并发导入速率大于0，说明并发数据导入任务中存在非首次执行的任务，则需进行最优调速处理，最优调速的基本原则是使并发数据导入任务在下一次被执行时以最优导入速率进行，使数据库的目标当前指标尽可能的稳定在对应的安全指标附近，从而保证数据库运行的稳定性，在这个前提下，再将有限的数据库资源优先分配给最重要的任务。

TPS(Transactions Per Second，每秒处理事务数)和IOPS(Input/Output PerSecond，每秒进行读写操作的次数)对于数据库这种读写频繁的应用，是衡量数据库性能的关键指标，故本实施例基于这两个关键指标来确定导入速率的依据。其中，安全TPS，顾名思义，指的是对数据库来说，TPS处于安全TPS值以及之下时，数据库能够以较高和较安全的性能运行，安全IOPS与之类似。

可以理解的是，安全TPS和安全IOPS可以是由数据库管理人员预先设置的；也可以是由数据导入设备对数据库进行压测，根据压测结果确定的，具体为，对数据库进行压测，得到数据库支持的最大TPS(T_m)和最大IOPS(I_m)，再结合安全系数k确定安全指标，安全TPS，即T_a＝k*T_m，安全IOPS，即I_a＝k*I_m，其中，安全系数k由管理人员预先设置。

进一步地，上述步骤S40中，所述获取所述目标数据库的当前TPS的步骤包括：

步骤S41，获取所述目标数据库从上一次启动至当前时刻所执行的第一更新语句数量、第一删除语句数量和第一插入语句数量；

在本实施例中，在确定对目标数据库的并发数据导入任务时，获取目标数据库从上一次启动至当前时刻所执行的更新语句数量、删除语句数量和插入语句数量，作为第一更新语句数量(@old_num_com_update)、第一删除语句数量(@old_num_com_delete)和第一插入语句数量(@old_num_com_insert)。具体获取方式为通过以下语句实现：

select VARIABLE_VALUE into@old_num_com_update from GLOBAL_STATUSwhere VARIABLE_NAME＝'COM_UPDATE'；

select VARIABLE_VALUE into@old_num_com_delete from GLOBAL_STATUSwhere VARIABLE_NAME＝'COM_DELETE'；

select VARIABLE_VALUE into@old_num_com_insert from GLOBAL_STATUSwhere VARIABLE_NAME＝'COM_INSERT'；

步骤S42，在距所述当前时刻预设时长的第二时刻，获取所述目标数据库从上一次启动至所述第二时刻所执行的第二更新语句数量、第二删除语句数量和第二插入语句数量；

在距离当前时刻预设时长的第二时刻，通过与步骤S41类似的方式，获取目标数据库从上一次启动至第二时刻所执行的第二更新语句数量(@new_num_com_update)、第二删除语句数量(@new_num_com_delete)和第二插入语句数量(@new_num_com_insert)。

步骤S43，根据所述第一更新语句数量、第一删除语句数量、第一插入语句数量、第二更新语句数量、第二删除语句数量和第二插入语句数量和所述预设时长确定当前TPS。

在确定当前TPS时，计算第二时刻的各语句数量之和，当前时刻的各语句数量之和，并将两个和的差值除以预设时长(t)，即可得到当前TPS(T_c)，具体为：

T_c＝[(@new_num_com_update+@new_num_com_delete+@new_num_com_insert)-(@old_num_com_update+@old_num_com_delete+@old_num_com_insert)]/t。

其中，预设时长可由管理人员根据需要设置，例如，预设时长可以为1～60秒中的任意值，例如5秒、10秒、20秒、50秒等。

进一步地，上述步骤S40中，所述获取所述目标数据库的当前IOPS的步骤包括：

步骤S44，获取所述目标数据库从上一次启动至当前时刻向硬盘读取键的数据块的第一读取次数和向硬盘写入键的数据块的第一写入次数；

在本实施例中，在确定对目标数据库的并发数据导入任务时，获取目标数据库从上一次启动至当前时刻向硬盘读取键的数据块的读取次数和向硬盘写入键的数据块的写入次数，作为第一读取次数(@old_key_reads)和第一写入次数(@old_key_writes)。具体获取方式为通过以下语句实现：

select VARIABLE_VALUE INTO@old_key_reads from GLOBAL_STATUSwhereVARIABLE_NAME＝'KEY_READS'；

select VARIABLE_VALUE INTO@old_key_writes from GLOBAL_STATUS whereVARIABLE_NAME＝'KEY_WRITES'；

步骤S45，在距所述当前时刻预设时长的第二时刻，获取所述目标数据库从上一次启动至所述第二时刻向硬盘读取键的数据块的第二读取次数和向硬盘写入键的数据块的第二写入次数；

在距离当前时刻预设时长的第二时刻，通过与步骤S14类似的方式，获取目标数据库从上一次启动至第二时刻的第二读取次数(@new_key_reads)和第二写入次数(@new_key_writes)。

步骤S46，根据所述第一读取次数、第一写入次数、第二读取次数、第二写入次数和所述预设时长确定当前IOPS。

在确定当前IOPS时，计算第二时刻的读写次数之和，当前时刻的读写次数之和，并将两个和的差值除以预设时长(t)，即可得到当前IOPS(I_c)，具体为：

I_c＝[(@new_key_reads+@new_key_writes)-(@old_key_reads+@old_key_writes)]/t。

步骤S50，计算所述当前TPS与所述安全TPS之差，得到TPS偏差，计算所述当前IOPS与所述安全IOPS之差，得到IOPS偏差；

步骤S60，根据所述TPS偏差和IOPS偏差的大小，确定偏差值较大的目标当前指标，所述目标当前指标为所述当前TPS和当前IOPS中的一个；

在本实施例中，在确定当前TPS(T_c)、安全TPS(T_a)、当前IOPS(I_c)和安全IOPS(I_a)后，可计算当前TPS与安全TPS之差，得到TPS偏差△T＝T_c-T_a，计算当前IOPS(I_c)和安全IOPS(I_a)之差，得到IOPS偏差△I＝I_c-I_a。比较TPS指标的△T与IOPS指标的△I的大小，将偏差较大者对应的当前指标确定为目标当前指标，例如，参见图3及图4，若△T＜△I，则将当前IOPS确定为目标当前指标；参见图5，若△T＞△I，则将当前TPS确定为目标当前指标；若△T＝△I，则将当前TPS和当前IOPS中的任一者确定为目标当前指标。

其中，偏差△所反映的是当前指标超出安全指标的值，该值越大，说明当前指标的资源越紧张，优先依据偏差较大的指标对任务导入速度进行设置，能够使该偏差较大的指标的资源紧张情况尽快缓解，避免数据库性能压力持续增大的情况发生。可以理解的是，偏差△可能大于0，也可能小于0，还可能等于0。

步骤S70，根据所述目标当前指标和所述并发数据导入任务的预设优先级确定各所述并发数据导入任务的最优导入速率，按照与各所述并发数据导入任务按照对应的最优导入速率执行所述并发数据导入任务。

在本实施例中，在确定目标当前指标后，即可根据目标当前指标和各并发数据导入任务的预设优先级确定各并发数据导入任务的最优导入速率。其中，各并发数据导入任务的预设优先级是管理人员根据每个任务的重要程度和/或紧急程度预先设置的。若目标当前指标为当前TPS，依据当前TPS进行调速后的数据库性能指标效果参见图6，可见，若TPS指标相对紧张，则重点根据TPS进行调速，可以实现调速后的数据库的TPS和IOPS均控制在安全指标上下；若目标当前指标为当前IOPS，依据当前IOPS进行调速后的数据库性能指标效果参见图7，可见，若IOPS指标相对紧张，则重点根据IOPS进行调速，可以实现调速后的数据库的TPS和IOPS均控制在安全指标上下。

进一步地，在按照各并发数据导入任务对应的最优导入速率执行并发数据导入任务后，会统计并记录各并发数据导入任务的实际导入速率，以供再次确定该并发数据导入任务的最优导入速率时使用。

本实施例通过确定对目标数据库的并发数据导入任务；获取各所述并发数据导入任务上一次的实际导入速率；计算各所述并发数据导入任务上一次的实际导入速率之和，得到当前并发导入速率；若所述当前并发导入速率大于0，则获取所述目标数据库的安全每秒处理事务数TPS、安全每秒进行读写操作的次数IOPS、当前TPS和当前IOPS；计算所述当前TPS与所述安全TPS之差，得到TPS偏差，计算所述当前IOPS与所述安全IOPS之差，得到IOPS偏差；根据所述TPS偏差和IOPS偏差的大小，确定偏差值较大的目标当前指标，所述目标当前指标为所述当前TPS和当前IOPS中的一个；根据所述目标当前指标和所述并发数据导入任务的预设优先级确定各所述并发数据导入任务的最优导入速率，按照与各所述并发数据导入任务按照对应的最优导入速率执行所述并发数据导入任务。本实施例一方面通过依据偏差较大的性能指标对任务的导入速率自动进行调整，能够实现在保证数据库稳定性的前提下对导入速率进行调整；另一方面，通过根据任务的优先级确定对应的导入速率，能够给将有限的数据库资源优先分配给最重要的任务，从而提升数据库的数据导入速度配置的智能性和及时性。

进一步地，基于上述实施例，提出本发明数据导入方法第二实施例。

上述步骤S70中，所述根据所述目标当前指标和所述并发数据导入任务的预设优先级确定各所述并发数据导入任务的最优导入速率的步骤包括：

步骤S71，根据所述并发数据导入任务的数量和各所述并发数据导入任务的预设优先级，确定各所述并发数据导入任务的并发资源占比；

步骤S72，根据所述目标当前指标对应的目标安全指标、所述目标当前指标和当前并发导入速率，确定期待并发导入速率；

步骤S73，计算各所述并发数据导入任务的所述并发资源占比和期待并发导入速率之积，作为所述并发数据导入任务的最优导入速率。

在本实施例中，在获取到各发数据导入任务的预设优先级后，即可结合并发数据导入任务的数量确定各并发数据导入任务的并发资源占比，具体为：

其中，R_i为并发资源占比；

L_i、L_j为预设优先级；

n为并发数据导入任务的数量，n≤目标数据库的预设最大并发值。

由于最优调速的基本原则是使并发数据导入任务在下一次被执行时以最优导入速率进行，以使数据库的目标当前指标尽可能的稳定在对应的安全指标附近，从而保证数据库运行的稳定性，在这个前提下，再将有限的数据库资源优先分配给最重要的任务。另外，由于导入速率与当前指标是呈正比的，因此，若目标当前指标是当前TPS时，可以确定以下公式：

其中，V_1sum为当前并发导入速率；

V_2sum为各并发数据导入任务的最优导入速率之和，即期待并发导入速率；

T_a为目标当前指标；

T_c为目标安全指标。

通过该公式确定期待并发导入速率后，计算各并发数据导入任务的所述并发资源占比和期待并发导入速率之积，即可得到各并发数据导入任务的最优导入速率，具体为：

其中，v_i为最优导入速率。

对应的，若目标当前指标是当前IOPS时，可以确定以下公式：

其中，V_1sum为当前并发导入速率；

I_a为目标当前指标；

I_c为目标安全指标。

其中，v_i为最优导入速率。

进一步地，基于上述实施例，提出本发明数据导入方法第三实施例。

上述步骤S10之前，还包括对原始数据导入任务进行并发限制的过程，具体为：

步骤a1，获取对目标数据库的原始数据导入任务，基于所述目标数据库的预设最大并发值控制各所述原始数据导入任务进行抢锁；

步骤a2，将抢锁成功的原始数据导入任务确定为并发数据导入任务。

在本实施例中，在检测到对目标数据库的原始数据导入任务时，确定原始数据导入任务的数量是否大于目标数据库的预设最大并发值，若否，则直接将原始数据导入任务确定为对目标数据库的并发数据导入任务；若是，则控制原始数据导入任务抢锁，将抢锁成功的原始数据导入任务确定为并发数据导入任务，而抢锁失败的原始数据导入任务则进入等待状态，至有锁被释放时再次抢锁，若抢锁失败则等待下一次有锁被释放时抢锁，直至抢锁成功。

其中，预设最大并发值，指的是目标数据库同一时刻最大允许运行的任务数量，可由管理人员根据目标数据库的性能设置，也可由数据导入设备对数据库进行并发任务压测，根据压测结果自动确定；本实施例中的锁，指的是并发锁，并发锁的数量与预设最大并发值一致，抢到锁的原始数据导入任务才会被确定为并发数据导入任务，并对该并发数据导入任务执行后续的导入速率确定步骤，再根据确定的导入速率执行该并发数据导入任务，在并发数据导入任务执行完成之后，其抢占的并发锁会被释放，被释放的锁能够再次被其他原始数据导入任务抢占。

在本实施例中，基于数据库的最大并发值引入抢锁机制，能够限制数据库的并发数据导入任务的数量，降低数据库同时处理的任务量，从而降低数据库的性能压力。

进一步地，上述步骤a1中，所述基于所述目标数据库的预设最大并发值控制各所述原始数据导入任务进行抢锁的步骤包括：

步骤a11，确定所述原始数据导入任务中存在依赖关系的依赖任务组和不存在依赖关系的非依赖任务组；其中，所述依赖任务组中的原始数据导入任务按照依赖关系排列；

步骤a12，基于所述目标数据库的预设最大并发值，控制所述依赖任务组和所述非依赖任务组进行抢锁，其中，每一所述依赖任务组在同一时刻的允许抢锁任务的数量为1。

由于在默认情况下，所有的原始数据导入任务都会同时抢锁，并在抢锁成功后被执行，但若部分任务之间存在依赖关系，即只有当X任务前面的一个或多个前置任务执行完成之后，才能执行X任务，此时若X任务与前置任务一起抢锁，即使X任务抢锁成功，其也会因为前置任务未完成而无法顺利执行。因此，为了减少无效抢锁，本实施例在获取到原始数据导入任务后，会确定原始数据导入任务中是否有存在依赖关系的任务，若否，则可控制所有的原始数据导入任务同时抢锁；若是，则需将互相之间存在依赖关系的任务归入依赖任务组，依赖任务组中的任务按照依赖关系串行抢锁并串行执行，剩余不存在依赖关系的任务则归入非依赖任务组。在划分依赖任务组和非依赖任务组，则可控制依赖任务组和所述非依赖任务组进行抢锁，每一依赖任务组在同一时刻只能有1个任务参与抢锁，且该任务为依赖关系中排序最靠前的任务，而非依赖任务组中的任务则没有该限制条件，即非依赖任务组中的所有任务在同一时刻都可以参与抢锁。

其中，每个任务的依赖关系是预先设置的，可通过为任务添加依赖标记的形式，设置任务的依赖关系，通过当前任务的依赖关系可以确定当前任务的前置任务，进而根据前置任务进行依赖任务组的划分。

在本实施例中，通过根据依赖关系控制任务串行抢锁和执行，能够减少无效抢锁的概率。

进一步地，基于上述实施例，提出本发明数据导入方法第四实施例。

上述获取对目标数据库的原始数据导入任务的步骤之前，还包括：

步骤b1，接收数仓数据导出请求，根据所述数仓数据导出请求获取填写于预设导出任务配置表页面中的数仓数据导出信息；所述数据导出信息包括源数仓信息、目标导出数据信息和目标数据库信息；

步骤b2，基于所述数据导出信息生成对目标数据库的原始数据导入任务。

现有的将数据从数仓导入至数据库的任务是通过脚本编写的方式实现的，由开发人员根据需求，将数仓信息与导出数据库信息维护在配置文件中，然后手动组装数据导出的SQOOP语句，再通过任务递交命令实现将数仓数据导入至数据库。由于这种数仓数据导入至数据库的任务是由开发人员手动编写脚本实现的，导致每个任务都需要编写对应的代码，对使用人员的技术能力要求较高，还存在配置繁琐、容易出错、代码很难复用、开发和使用成本高的缺点。

针对上述缺陷，本实施例封装了数据从数仓导出到数据库的通用模块，使数仓或数据库的使用人员不需要编写任何代码，只需要通过导出任务配置表页面填写数仓数据导出信息就能实现数仓数据导出任务的配置，进而基于该数仓数据导出信息生成对目标数据库的原始数据导入任务，从而使得数仓数据任务的配置流程能够通用化、可复用化，降低了配置难度和成本。

在本实施例中，当有将数仓数据导出至数据库的需求时，用户可以在前端页面打开预设导出任务配置表页面，参见图8，该页面中设计有填写源数仓信息(数据仓表)、目标导出数据信息(出库字段列表)和目标数据库信息(业务DB)的相应位置，还可以设计填写执行用户、数据模式(DCN不拆分、DCN拆分和DCN复制)、拆分字段、拆分依据、过滤条件、导出模式(updateonly、allowinsert和onlyinsert)、DB表、映射字段、区域、更新主键、删除SQL、SQL语句等信息的相应位置，具体可根据业务需要对页面的信息进行增减或修改。

在数仓数据导出信息配置完成之后，即可将预设导出任务配置表页面中填写的信息与对应的脚本模本进行组装，得到对目标数据库的原始数据导入任务。其中，脚本模板是开发人员基于数仓数据导出到数据库的通用流程预先编写的通用脚本。

本实施例通过提供导出任务配置表页面的方式，使得用户能够根据实际需求自定义配置数据导入任务，而无需接触代码层，降低了任务配置的难度，也使得任务配置更加灵活和高效。

进一步地，通过该前端页面，用户还可查看其所配置的原始数据导入任务的执行结果和异常原因等相关信息。

本发明还提供一种数据导入装置，参照图9，所述数据导入装置包括：

并发任务确定模块10，用于确定对目标数据库的并发数据导入任务；

实际导入速率确定模块20，用于获取各所述并发数据导入任务上一次的实际导入速率；

当前导入速率确定模块30，用于计算各所述并发数据导入任务上一次的实际导入速率之和，得到当前并发导入速率；

数据库参数获取模块40，用于若所述当前并发导入速率大于0，则获取所述目标数据库的安全每秒处理事务数TPS、安全每秒进行读写操作的次数IOPS、当前TPS和当前IOPS；

偏差计算模块50，用于计算所述当前TPS与所述安全TPS之差，得到TPS偏差，计算所述当前IOPS与所述安全IOPS之差，得到IOPS偏差；

目标指标确定模块60，用于根据所述TPS偏差和IOPS偏差的大小，确定偏差值较大的目标当前指标，所述目标当前指标为所述当前TPS和当前IOPS中的一个；

导入速率确定模块70，用于根据所述目标当前指标和所述并发数据导入任务的预设优先级确定各所述并发数据导入任务的最优导入速率，按照与各所述并发数据导入任务按照对应的最优导入速率执行所述并发数据导入任务。

可选地，所述导入速率确定模块，还用于：

可选地，所述并发任务确定模块，还用于：

将抢锁成功的原始数据导入任务确定为并发数据导入任务。

可选地，所述并发任务确定模块，还用于：

可选地，所述数据库参数获取模块，还用于：

上述各程序单元所执行的方法可参照本发明数据导入方法各个实施例，此处不再赘述。

本发明还提供一种数据导入设备，数据导入设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的数据导入程序，数据导入程序被处理器执行时所实现的方法可参照本发明数据导入方法各个实施例，此处不再赘述。

本发明还提供一种计算机存储介质。

本发明计算机存储介质上存储有数据导入程序，所述数据导入程序被处理器执行时实现如上所述的数据导入方法的步骤。

其中，在所述处理器上运行的数据导入程序被执行时所实现的方法可参照本发明数据导入方法各个实施例，此处不再赘述。

本发明还提供一种计算机程序产品。

本发明计算机程序产品包括数据导入程序，所述数据导入程序被处理器执行时实现如上所述的数据导入方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据导入方法，其特征在于，所述数据导入方法包括：

确定对目标数据库的并发数据导入任务；

获取各所述并发数据导入任务上一次的实际导入速率；

2.如权利要求1所述的数据导入方法，其特征在于，所述根据所述目标当前指标和所述并发数据导入任务的预设优先级确定各所述并发数据导入任务的最优导入速率的步骤包括：

3.如权利要求1所述的数据导入方法，其特征在于，所述确定对目标数据库的并发数据导入任务的步骤之前，还包括：

将抢锁成功的原始数据导入任务确定为并发数据导入任务。

4.如权利要求3所述的数据导入方法，其特征在于，所述基于所述目标数据库的预设最大并发值控制各所述原始数据导入任务进行抢锁的步骤包括：

5.如权利要求3所述的数据导入方法，其特征在于，所述获取对目标数据库的原始数据导入任务的步骤之前，还包括：

6.如权利要求1所述的数据导入方法，其特征在于，所述获取所述目标数据库的当前TPS的步骤包括：

7.如权利要求1所述的数据导入方法，其特征在于，所述获取所述目标数据库的当前IOPS的步骤包括：

8.一种数据导入装置，其特征在于，所述数据导入装置包括：

9.一种数据导入设备，其特征在于，所述数据导入设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的自定义图表生成程序，所述自定义图表生成程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据导入方法的步骤。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据导入方法的步骤。