CN117609354A

CN117609354A - 一种数据导出方法及装置

Info

Publication number: CN117609354A
Application number: CN202311651797.7A
Authority: CN
Inventors: 高印权
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-02-27

Abstract

本发明提供了一种数据导出方法及装置，用于将第一数据库服务器中的目标数据导出，方法包括：获取多个第二数据库服务器的数据库状态数据，其中，多个第二数据库服务器均为Oracle数据库服务器，每个第二数据库服务器的状态数据包括如下状态参数的当前值：Oracle剩余表空间、回滚表空间和Oracle工作进程数；根据多个第二数据库服务器的数据库状态数据确定多个第二数据库服务器分别对应的数据分配比例；根据多个第二数据库服务器分别对应的数据分配比例将第一数据库服务器中的目标数据分发给多个第二数据库服务器；并行地从多个第二数据库服务器中导出目标数据。本发明能够大大缩短数据导出时间，还能提升数据导出的成功率。

Description

一种数据导出方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据导出方法及装置。

背景技术

在某些应用场景中，需要从某个数据库服务器(将其称之为第一数据库服务器，比如Hive数据库服务器)导出所需数据，并要求导出的数据的格式为DMP文件，需要说明的是，DMP文件为从Oracle数据库中导出的数据的格式)。

为了能够获得DMP文件，目前的数据导出方式为，将所需数据从第一数据库服务器转移到一个第二数据库服务器(即Oracle数据库服务器)，从第二数据库服务器中导出所需数据。

当所需数据的数据量较小时，上述的数据导出方式具有较好的导出效果，然而，在某些时候，所需数据的数据量很大(比如所需数据的数据量大于1T)，当所需数据的数据量较大时，采用上述的数据导出方式导出数据会存在导出耗时长、导出易失败的问题。

发明内容

有鉴于此，本发明提供了一种数据导出方法及装置，用以解决现有的数据导出方式在导出大数据量数据时，导出耗时长、导出易失败的问题，其技术方案如下：

一种数据导出方法，所述数据导出方法用于将第一数据库服务器中的目标数据导出，所述数据导出方法包括：

获取多个第二数据库服务器的数据库状态数据，其中，所述多个第二数据库服务器均为Oracle数据库服务器，每个第二数据库服务器的状态数据包括如下状态参数的当前值：Oracle剩余表空间、回滚表空间和Oracle工作进程数；

根据所述多个第二数据库服务器的数据库状态数据，确定所述多个第二数据库服务器分别对应的数据分配比例；

根据所述多个第二数据库服务器分别对应的数据分配比例，将所述第一数据库服务器中的目标数据分发给所述多个第二数据库服务器；

并行地从所述多个第二数据库服务器中导出所述目标数据。

可选的，所述根据所述多个第二数据库服务器的数据库状态数据，确定所述多个第二数据库服务器分别对应的数据分配比例，包括：

将每个第二数据库服务器的状态数据融合，得到每个第二数据库服务器的融合后状态数据；

将各第二数据库服务器的融合后状态数据融合，得到各第二数据库服务器的融合后状态数据的融合结果；

根据每个第二数据库服务器的融合后状态数据，以及所述各第二数据库服务器的融合后状态数据的融合结果，确定每个第二数据库服务器对应的数据分配比例。

可选的，所述将每个第二数据库服务器的状态数据融合，得到每个第二数据库服务器的融合后状态数据，包括：

针对每个第二数据库服务器：

将该第二数据库服务器的Oracle剩余表空间的当前值、回滚表空间的当前值和Oracle工作进程数的当前值分别进行归一化处理，得到该第二数据库服务器的Oracle剩余表空间的归一化值、回滚表空间的归一化值和Oracle工作进程数的归一化值；

将该第二数据库服务器的Oracle剩余表空间的归一化值、回滚表空间的归一化值和Oracle工作进程数的归一化值按设定的对应权重加权后求和，得到该第二数据库服务器的状态数据融合结果；

所述将各第二数据库服务器的融合后状态数据融合，得到各第二数据库服务器的融合后状态数据的融合结果，包括：

将各第二数据库服务器的融合后状态数据求和，得到各第二数据库服务器的融合后状态数据的融合结果。

可选的，所述根据每个第二数据库服务器的融合后状态数据，以及所述各第二数据库服务器的融合后状态数据的融合结果，确定每个第二数据库服务器对应的数据分配比例，包括：

针对每个第二数据库服务器：

计算该第二数据库服务器的融合后状态数据与所述各第二数据库服务器的融合后状态数据的融合结果的比值，得到该第二数据库服务器对应的数据分配比例。

可选的，所述将该第二数据库服务器的Oracle剩余表空间的当前值、回滚表空间的当前值和Oracle工作进程数的当前值分别进行归一化处理，包括：

针对该数据库服务器的Oracle剩余表空间、回滚表空间和Oracle工作进程数中的每个状态参数：

获取该状态参数的最大值和最小值；

利用该状态参数的最大值和最小值，对该状态参数的当前值进行归一化处理。

一种数据导出装置，所述数据导出装置用于将第一数据库服务器中的目标数据导出，所述数据导出装置包括：数据库状态数据获取模块、数据分配比例确定模块、数据分发模块和数据导出模块；

所述数据库状态数据获取模块，用于获取多个第二数据库服务器的数据库状态数据，其中，所述多个第二数据库服务器均为Oracle数据库服务器，每个第二数据库服务器的状态数据包括如下状态参数的当前值：Oracle剩余表空间、回滚表空间和Oracle工作进程数；

所述数据分配比例确定模块，用于根据所述多个第二数据库服务器的数据库状态数据，确定所述多个第二数据库服务器分别对应的数据分配比例；

所述数据分发模块，用于根据所述多个第二数据库服务器分别对应的数据分配比例，将所述第一数据库服务器中的目标数据分发给所述多个第二数据库服务器；

所述数据导出模块，用于并行地从所述多个第二数据库服务器中导出所述目标数据。

可选的，所述数据分配比例确定模块包括：第一数据融合子模块、第二数据融合子模块和数据分配比例确定子模块；

所述第一数据融合子模块，用于将每个第二数据库服务器的状态数据融合，得到每个第二数据库服务器的融合后状态数据；

所述第二数据融合子模块，用于将各第二数据库服务器的融合后状态数据融合，得到各第二数据库服务器的融合后状态数据的融合结果；

所述数据分配比例确定子模块，用于根据每个第二数据库服务器的融合后状态数据，以及所述各第二数据库服务器的融合后状态数据的融合结果，确定每个第二数据库服务器对应的数据分配比例。

可选的，所述第一数据融合子模块，在将每个第二数据库服务器的状态数据融合，得到每个第二数据库服务器的融合后状态数据时，具体用于：

针对每个第二数据库服务器：

所述第二数据融合子模块在将各第二数据库服务器的融合后状态数据融合，得到各第二数据库服务器的融合后状态数据的融合结果时，具体用于：

可选的，所述数据分配比例确定子模块在根据每个第二数据库服务器的融合后状态数据，以及所述各第二数据库服务器的融合后状态数据的融合结果，确定每个第二数据库服务器对应的数据分配比例时，具体用于：

针对每个第二数据库服务器：

可选的，所述第一数据融合子模块在将该第二数据库服务器的Oracle剩余表空间的当前值、回滚表空间的当前值和Oracle工作进程数的当前值分别进行归一化处理时，具体用于：

获取该状态参数的最大值和最小值；

本发明提供的数据导出方法及装置，首先获取多个第二数据库服务器(即多个Oracle数据库服务器)的数据库状态数据，然后根据多个第二数据库服务器的数据库状态数据，确定多个第二数据库服务器分别对应的数据分配比例，接着根据多个第二数据库服务器分别对应的数据分配比例，将第一数据库服务器中的目标数据分发给多个第二数据库服务器，最后并行地从多个第二数据库服务器中导出目标数据。由于本发明提供的数据导出方法将第一数据库服务器中的目标数据按确定出的数据分配比例分发给了多个第二数据库服务器，因此，每个第二数据库服务器中只有目标数据的部分数据，即，在进行数据导出时，对于每个第二数据库服务器的数据导出量均不大，进而，并行地从多个第二数据库服务器中导出目标数据能够大大提升数据的导出效率，从而能够大大缩短数据导出时间，还能提升数据导出的成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的数据导出方法的流程示意图；

图2为本发明实施例提供的将第一数据库服务器中的目标数据分发给多个第二数据库服务器的示意图；

图3为本发明实施例提供的根据多个第二数据库服务器的数据库状态数据，确定多个第二数据库服务器分别对应的数据分配比例的流程示意图；

图4为本发明实施例提供的数据导出装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在介绍本发明方案之前，首先对本文中涉及到的英文及术语进行解释：

Oracle数据库：甲骨文公司的一款关系型数据库。Oracle数据库的逻辑结构分为逻辑存储结构和逻辑数据结构，逻辑存储结构包括表空间、段和范围，用于描述怎样使用数据库的物理空间。逻辑数据结构包括表、视图、序列、存储过程、同义词、索引、簇和数据库链等。

Oracle数据泵：Oracle提供的更新、更快、更灵活的数据导入、导出工具，它可实现逻辑备份和逻辑恢复，数据导出支持以下三种类型：表方式，将指定表的数据导出；用户方式，将指定用户的所有对象及数据导出；全库方式，将数据库中的所有对象导出。

Oracle表空间：是形成Oracle数据库的逻辑结构。一个Oracle数据库能够有一个或多个表空间，而一个表空间则对应着一个或多个物理的数据库文件。表空间是ORACLE数据库恢复的最小单位，容纳着许多数据库实体，如表、视图、索引、聚簇、回退段和临时段等。

UNDO：是反转数据库DML语句结果所需的信息，undo数据通常被称为“回滚数据”。undo表空间便是用于存放undo数据，当执行DML操作时，oracle会将这些操作的旧数据写入到UNDO段，以保证可以回滚或者一致读等。

接下来通过下述实施例对本发明提供的数据导出方法进行介绍。

请参阅图1，示出了本发明实施例提供的数据导出方法的流程示意图，该数据导出方法用于将第一数据库服务器(比如Hive数据库服务器、Gbase数据库服务器、Oracle数据库服务器等)中的目标数据导出，该数据导出方法可以包括：

步骤S101：获取多个第二数据库服务器的数据库状态数据。

其中，多个第二数据库服务器均为Oracle数据库服务器。

每个第二数据库服务器的状态数据包括如下状态参数的当前值：Oracle剩余表空间、回滚表空间(即UNDO表空间)和Oracle工作进程数。

需要说明的是，Oracle剩余表空间指的是Oracle数据库剩余的存储容量，UNDO表空间指的是回滚段的大小，Oracle工作进程数指的是单实例下的工作进程数。

步骤S102：根据多个第二数据库服务器的数据库状态数据，确定多个第二数据库服务器分别对应的数据分配比例。

如图2所示，在获得多个第二数据库服务器的数据库状态数据后，可以多个第二数据库服务器的数据库状态数据为依据，确定多个第二数据库服务器分别对应的数据分配比例。

其中，数据分配比例用于确定向对应的第二数据库服务器分发多少数据量的数据。

步骤S103：根据多个第二数据库服务器分别对应的数据分配比例，将第一数据库服务器中的目标数据分发给多个第二数据库服务器。

示例性的，第二数据库服务器有两个，分别为数据库服务器A1和数据库服务器A2，假设数据库服务器A1对应的数据分配比例为1/3，数据库服务器A2对应的数据分配比例为2/3，则将目标数据的1/3分发给数据库服务器A1，将目标数据的2/3分发给数据库服务器A2。

步骤S104：并行地从多个第二数据库服务器中导出目标数据。

并行地从多个第二数据库服务器中导出目标数据为DMP文件。在导出数据时，可基于Oracle数据泵进行数据导出。需要说明的是，Oracle数据泵为Oracle提供的导入、导出工具。

针对上述示例，可并行地从数据库服务器A1和数据库服务器A2中导出目标数据。

本发明实施例提供的数据导出方法，首先获取多个第二数据库服务器(即多个Oracle数据库服务器)的数据库状态数据，然后根据多个第二数据库服务器的数据库状态数据，确定多个第二数据库服务器分别对应的数据分配比例，接着根据多个第二数据库服务器分别对应的数据分配比例，将第一数据库服务器中的目标数据分发给多个第二数据库服务器，最后并行地从多个第二数据库服务器中导出目标数据。由于本发明实施例提供的数据导出方法将第一数据库服务器中的目标数据按确定出的数据分配比例分发给了多个第二数据库服务器，因此，每个第二数据库服务器中只有目标数据的部分数据，即，在进行数据导出时，对于每个第二数据库服务器的数据导出量均不大，进而，并行地从多个第二数据库服务器中导出目标数据能够大大提升数据的导出效率，从而能够大大缩短数据导出时间，还能提升数据导出的成功率。

在本发明的另一实施例中，对上述实施例中的“步骤S102：根据多个第二数据库服务器的数据库状态数据，确定多个第二数据库服务器分别对应的数据分配比例”的具体实现过程进行介绍。

请参阅图3，示出了根据多个第二数据库服务器的数据库状态数据，确定多个第二数据库服务器分别对应的数据分配比例的流程示意图，可以包括：

步骤S301：将每个第二数据库服务器的状态数据融合，得到每个第二数据库服务器的融合后状态数据。

具体的，针对每个第二数据库服务器，执行：

步骤a1、将该第二数据库服务器的Oracle剩余表空间的当前值、回滚表空间的当前值和Oracle工作进程数的当前值分别进行归一化处理，得到该第二数据库服务器的Oracle剩余表空间的归一化值、回滚表空间的归一化值和Oracle工作进程数的归一化值。

具体的，将该第二数据库服务器的Oracle剩余表空间的当前值、回滚表空间的当前值和Oracle工作进程数的当前值分别进行归一化处理的过程可以包括：针对该数据库服务器的Oracle剩余表空间、回滚表空间和Oracle工作进程数中的每个状态参数，获取该状态参数的最大值和最小值，利用该状态参数的最大值和最小值，对该状态参数的当前值进行归一化处理。

可选的，可采用下式示出的方式对状态参数的当前值进行归一化处理：

其中，x表示一状态参数的当前值，x_min表示该状态参数的最小值，x_max表示该状态参数的最大值，x′即表示归一化后的值。

步骤a2、将该第二数据库服务器的Oracle剩余表空间的归一化值、回滚表空间的归一化值和Oracle工作进程数的归一化值按设定的对应权重加权后求和，得到该第二数据库服务器的状态数据融合结果。

若该第二数据库服务器为第i个第二数据库服务器，将该第二数据库服务器的Oracle剩余表空间的归一化值表示为x₁'_i，将该第二数据库服务器的回滚表空间的归一化值表示为x'_2i，将该第二数据库服务器的Oracle工作进程数的归一化值表示为x'_3i，将Oracle剩余表空间对应的权重表示为σ₁，将回滚表空间对应的权重表示为σ₂，将Oracle工作进程数对应的权重表示为σ₃，则该第二数据库服务器的Oracle剩余表空间的归一化值、回滚表空间的归一化值和Oracle工作进程数的归一化值按设定的对应权重加权后求和得到σ₁x₁'_i+σ₂x'_2i+σ₃x'_3i，即该第一数据库服务器的状态数据融合结果。

步骤S302：将各第二数据库服务器的融合后状态数据融合，得到各第二数据库服务器的融合后状态数据的融合结果。

具体的，将各第二数据库服务器的融合后状态数据求和，得到各第二数据库服务器的融合后状态数据的融合结果。假设第二数据库服务器为N个，则将N个第二数据库服务器的融合后状态数据求和，得到N个第二数据库服务器的融合后状态数据的融合结果。

步骤S303：根据每个第二数据库服务器的融合后状态数据，以及各第二数据库服务器的融合后状态数据的融合结果，确定每个第二数据库服务器对应的数据分配比例。

具体的，针对每个第二数据库服务器，计算该第二数据库服务器的融合后状态数据与各第二数据库服务器的融合后状态数据的融合结果的比值，得到该第二数据库服务器对应的数据分配比例，即，该第二数据库服务器对应的数据分配比例可表示为：

其中，N为第二数据库服务器的总数量。

本发明实施例提供了一种数据导出装置，下面对本发明实施例提供的数据导出装置进行描述，下文描述的数据导出装置与上文描述的数据导出方法可相互对应参照。

请参阅图4，示出了本发明实施例提供的数据导出装置的结构示意图，该数据导出装置用于将第一数据库服务器中的目标数据导出，该数据导出装置可以包括：数据库状态数据获取模块401、数据分配比例确定模块402、数据分发模块403和数据导出模块404。

数据库状态数据获取模块401，用于获取多个第二数据库服务器的数据库状态数据。

其中，多个第二数据库服务器均为Oracle数据库服务器，每个第二数据库服务器的状态数据包括如下状态参数的当前值：Oracle剩余表空间、回滚表空间和Oracle工作进程数。

数据分配比例确定模块402，用于根据所述多个第二数据库服务器的数据库状态数据，确定所述多个第二数据库服务器分别对应的数据分配比例。

数据分发模块403，用于根据所述多个第二数据库服务器分别对应的数据分配比例，将所述第一数据库服务器中的目标数据分发给所述多个第二数据库服务器。

数据导出模块404，用于并行地从所述多个第二数据库服务器中导出所述目标数据。

可选的，数据分配比例确定模块402可以包括：第一数据融合子模块、第二数据融合子模块和数据分配比例确定子模块。

所述第一数据融合子模块，用于将每个第二数据库服务器的状态数据融合，得到每个第二数据库服务器的融合后状态数据。

所述第二数据融合子模块，用于将各第二数据库服务器的融合后状态数据融合，得到各第二数据库服务器的融合后状态数据的融合结果。

可选的，第一数据融合子模块，在将每个第二数据库服务器的状态数据融合，得到每个第二数据库服务器的融合后状态数据时，具体用于：

针对每个第二数据库服务器：

将该第二数据库服务器的Oracle剩余表空间的归一化值、回滚表空间的归一化值和Oracle工作进程数的归一化值按设定的对应权重加权后求和，得到该第二数据库服务器的状态数据融合结果。

可选的，所述第二数据融合子模块在将各第二数据库服务器的融合后状态数据融合，得到各第二数据库服务器的融合后状态数据的融合结果时，具体用于：

针对每个第二数据库服务器：

获取该状态参数的最大值和最小值；

本发明实施例提供的数据导出装置，首先获取多个第二数据库服务器(即多个Oracle数据库服务器)的数据库状态数据，然后根据多个第二数据库服务器的数据库状态数据，确定多个第二数据库服务器分别对应的数据分配比例，接着根据多个第二数据库服务器分别对应的数据分配比例，将第一数据库服务器中的目标数据分发给多个第二数据库服务器，最后并行地从多个第二数据库服务器中导出目标数据。由于本发明实施例提供的数据导出装置将第一数据库服务器中的目标数据按确定出的数据分配比例分发给了多个第二数据库服务器，因此，每个第二数据库服务器中只有目标数据的部分数据，即，在进行数据导出时，对于每个第二数据库服务器的数据导出量均不大，进而，并行地从多个第二数据库服务器中导出目标数据能够大大提升数据的导出效率，从而能够大大缩短数据导出时间，同时还能提升数据导出的成功率。

本发明实施例提供了一种数据导出设备，该数据导出设备可以包括：处理器、通信接口、存储器和通信总线。

在本发明实施例中，处理器、通信接口、存储器、通信总线的数量为至少一个，且处理器、通信接口、存储器通过通信总线完成相互间的通信。

处理器可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器。

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

并行地从所述多个第二数据库服务器中导出所述目标数据。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本发明实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

并行地从所述多个第二数据库服务器中导出所述目标数据。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据导出方法，其特征在于，所述数据导出方法用于将第一数据库服务器中的目标数据导出，所述数据导出方法包括：

并行地从所述多个第二数据库服务器中导出所述目标数据。

2.根据权利要求1所述的数据导出方法，其特征在于，所述根据所述多个第二数据库服务器的数据库状态数据，确定所述多个第二数据库服务器分别对应的数据分配比例，包括：

3.根据权利要求2所述的数据导出方法，其特征在于，所述将每个第二数据库服务器的状态数据融合，得到每个第二数据库服务器的融合后状态数据，包括：

针对每个第二数据库服务器：

4.根据权利要求3所述的数据导出方法，其特征在于，所述根据每个第二数据库服务器的融合后状态数据，以及所述各第二数据库服务器的融合后状态数据的融合结果，确定每个第二数据库服务器对应的数据分配比例，包括：

针对每个第二数据库服务器：

5.根据权利要求3所述的数据导出方法，其特征在于，所述将该第二数据库服务器的Oracle剩余表空间的当前值、回滚表空间的当前值和Oracle工作进程数的当前值分别进行归一化处理，包括：

获取该状态参数的最大值和最小值；

6.一种数据导出装置，其特征在于，所述数据导出装置用于将第一数据库服务器中的目标数据导出，所述数据导出装置包括：数据库状态数据获取模块、数据分配比例确定模块、数据分发模块和数据导出模块；

7.根据权利要求6所述的数据导出装置，其特征在于，所述数据分配比例确定模块包括：第一数据融合子模块、第二数据融合子模块和数据分配比例确定子模块；

8.根据权利要求7所述的数据导出装置，其特征在于，所述第一数据融合子模块，在将每个第二数据库服务器的状态数据融合，得到每个第二数据库服务器的融合后状态数据时，具体用于：

针对每个第二数据库服务器：

9.根据权利要求8所述的数据导出装置，其特征在于，所述数据分配比例确定子模块在根据每个第二数据库服务器的融合后状态数据，以及所述各第二数据库服务器的融合后状态数据的融合结果，确定每个第二数据库服务器对应的数据分配比例时，具体用于：

针对每个第二数据库服务器：

10.根据权利要求8所述的数据导出装置，其特征在于，所述第一数据融合子模块在将该第二数据库服务器的Oracle剩余表空间的当前值、回滚表空间的当前值和Oracle工作进程数的当前值分别进行归一化处理时，具体用于：

获取该状态参数的最大值和最小值；