CN111651514A

CN111651514A - 数据导入方法及装置

Info

Publication number: CN111651514A
Application number: CN202010655165.8A
Authority: CN
Inventors: 李文彬; 王凯
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-09-11

Abstract

本发明公开了一种数据导入方法及装置，其中该方法包括：获取所需导入的目标文件；确定目标文件的文件类型，获取与文件类型对应的目标文件解析器；利用目标文件解析器解析相应文件类型的目标文件，按照指定格式将解析后的目标文件转换为数据集，所述数据集中包含目标文件导入的目标数据表的名称；根据目标数据表的名称，将数据集中数据导入对应目标数据表中。本发明可以在保证数据导入效率的同时，减少编码和配置的工作量，同时满足数据导入高效率、高扩展性的要求。

Description

数据导入方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据导入方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

金融行业内，参与结算的公司之间有大量的信息交互，这些信息以csv、xls、文本和/或dbf类型的文件存储。由于文件数量大且存储格式多样，需要高效率、高拓展性的导入工具将文件中存储的数据导入目标数据表。

目前较为常用的数据导入工具包括DataX、Sqoop，以及SpringBatch三款开源工具。其中，DataX和Sqoop不支持金融行业中特有的dbf和excel类型的文件的导入，需要使用者自己结合应用进行扩展，扩展时编码和配置的工作量较大；SpringBatch侧重于数据的批量处理而不是数据导入，在数据导入方面性能较差。

发明内容

本发明实施例提供一种数据导入方法，用以在保证数据导入效率的同时，减少编码和配置的工作量，同时满足数据导入高效率、高扩展性的要求，该方法包括：

获取所需导入的目标文件；

确定目标文件的文件类型，获取预先配置的与文件类型对应的目标文件解析器；

利用目标文件解析器解析相应文件类型的目标文件，按照指定格式将解析后的目标文件转换为数据集，所述数据集中包含目标文件导入的目标数据表的名称；

根据目标数据表的名称，将数据集中数据导入对应目标数据表中。

本发明实施例还提供一种数据导入装置，用以在保证数据导入效率的同时，减少编码和配置的工作量，同时满足数据导入高效率、高扩展性的要求，该装置包括：

获取模块，用于获取所需导入的目标文件；

获取模块，还用于确定目标文件的文件类型，获取预先配置的与文件类型对应的目标文件解析器；

解析模块，用于利用获取模块获取的目标文件解析器解析相应文件类型的目标文件，按照指定格式将解析后的目标文件转换为数据集，所述数据集中包含目标文件导入的目标数据表的名称；

导入模块，用于根据目标数据表的名称，将数据集中数据导入对应目标数据表中。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述数据导入方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述数据导入方法的计算机程序。

本发明实施例中，预先配置与文件类型对应的文件解析器，如dbf，csv，文本和xls等常用的金融数据格式文件的文件解析器均可以预先配置好，当导入某种类型的文件时，可以直接调用相应的文件解析器进行解析，之后将解析后的数据导入目标数据表中，满足了金融领域高效率、安全、可扩展的需求，并且，与现有技术中的Datax、sqoop、springbatch等数据导入方法相比，本发明实施例中数据导入方法的实现框架更加轻便，更容易集成入金融系统中，减少编码和配置的工作量，且使用起来简单快捷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中一种数据导入方法的流程图；

图2为本发明实施例中一种执行数据导入方法的线程示意图；

图3为本发明实施例中一种数据集的结构示意图；

图4为本发明实施例中数据导入方法的处理时序图；

图5为本发明实施例中一种数据导入装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

本发明实施例中提供了一种数据导入方法，如图1所示，该方法包括步骤101至步骤104：

步骤101、获取所需导入的目标文件。

在数据导入之前，先将本次数据导入涉及的文件，全部扫描出来。具体的，获取所需导入目标数据表的目标文件，包括如下过程：获取用户指定的目标存储位置及扫描规则，扫描规则用于指示将文件名称中包含指定字符的文件确定为目标文件；按照扫描规则，从目标存储位置存储的所有文件中扫描得到目标文件的名称；利用NIO技术将扫描得到的名称对应的目标文件映射至内存中。

其中，目标存储位置是目标文件所在的存储位置，比如说，用户需要获取D盘中文件，则将目标存储位置设置为D盘，该目标存储位置可以具体到某个文件夹下。示例性的，可以利用如下程序代码定义目标存储位置及扫描规则：

new SimpleTask().from("D:/test/qs201911/20191119/jsmx0*.b19")

上述程序代码中，from用于表示目标存储位置及扫描规则，上述程序代码定义的目标存储位置为D:/test/qs201911/20191119，扫描规则为jsmx0*.b19。

扫描规则中可以包括通配字符，如*或？等，比如说，可以利用*匹配0-N个字符，？匹配1个字符，**可以包含在目标存储位置中，匹配0-N个目录下的存储位置。其中，N为大于0的整数。

除了目标存储位置和扫描规则外，用户还需定义目标数据表。示例性的，可以利用如下所示的程序代码定义目标数据表：

.to("edjsmx")

上述程序代码中，to后为目标数据表的名称，该示例中目标数据表的名称为“edjsmx”。

NIO(No-Blocking IO，非阻塞的读写)技术可以直接将文件映射到内存，将文件读取操作从2次IO降低为1次IO，提升了获取文件的效率。

步骤102、确定目标文件的文件类型，获取预先配置的与文件类型对应的目标文件解析器。

目标文件名称的后缀标识其文件类型，比如说，文件名称的后缀为doc，该文件类型为word，文件名称的后缀为xls，该文件类型为excel。由于文件名称后缀代表了文件类型，因此，可以存储文件解析器与文件名称后缀的对应关系，将上述对应关系作为文件解析器与文件类型的对应关系。

不同文件名称后缀对应不同的文件解析器，当出现新的文件类型时，可以为该文件类型配置相应的文件解析器，实现了文件解析器的便捷化配置，满足了数据导入对于高扩展性的要求。

文件解析器中包含文件内部字段与字段值的对应关系，利用文件解析器可以提取文件中所需导入目标数据表的字段值，存入目标数据表中相应目标字段位置。示例性的，文件解析器的程序代码可以如下所示：

.config("com/gcs/batch/cn/jsmx.xml")

其中，config表示文件内部结构的详细设置，以及与目标数据表中目标字段的映射关系。其中，文件内部结构的详细设置可以指示提取的字段值的位置。

步骤103、利用目标文件解析器解析相应文件类型的目标文件，按照指定格式将解析后的目标文件转换为数据集。

其中，数据集中包含目标文件导入的目标数据表的名称。

具体的，利用目标文件解析器解析相应文件类型的文件，包括：读取目标文件，判断目标文件中数据行数是否大于数量阈值；如果数据行数大于数量阈值，则按照数量阈值切分目标文件，得到多个分片文件，其中，每个分片文件中数据行数小于等于数量阈值；基于多线程机制，利用目标文件解析器多线程并发解析分片文件。

利用特定的文件读取程序读取文件，得到的文件中数据以一行一行的形式呈现。数据阈值由用户设定，分片线程处理文件的过程中，数值阈值不可更改；当分片线程未处理文件时，该数据阈值可以更改。设置数据阈值之后，按照数据阈值切割文件。比如，数据阈值设置为10000行，当文件的行数小于等于10000时，不切割文件；当文件的行数大于10000时，如25000，则将文件切割成两个各包含10000行数据的分片，以及一个包含5000行数据的分片。

可以利用如下程序代码来设置文件分片：

.useSlice(10000)

其中，slice表示分片，useSlice(10000)表示每10000个一个分片。

采用文件分片技术，将一个大文件切成多个分片，这样同样可以利用多线程的并发优势；多线程可以利用多核CPU的优势，让程序并发处理多个数据集，提升了数据导入的效率。

步骤104、根据目标数据表的名称，将数据集中数据导入对应目标数据表中。

在利用目标文件解析器解析相应文件类型的目标文件，得到数据集之后，还可以将数据集放入数据集缓冲区，之后，从数据集缓冲区中取出数据集，根据目标数据表的名称，将数据集导入对应目标数据表中；其中，在数据集缓冲区中以队列的形式存储指定数量的数据集；当数据集缓冲区中存满数据集后，等待队头的数据集被取出后，在队尾放入新的数据集。

如图2所示，本发明实施例中可以将线程划分为生产者线程和消费者线程，生产者线程又可以分为解析线程和分片线程，解析线程和分片线程协作解析文件得到数据集，之后将数据集放入数据集缓冲区中，由消费者线程从数据集缓冲区中取出数据导入目标数据表。

数据集的结构如图3所示。其中包含数据集编号、存入数据是否分片、源文件名、目标数据表名称，以及记录总数等数据。其中，每一行数据存入数据集中作为一条记录，记录总数为存入的数据总行数，记录1、记录2等各存储一行数据。

数据集缓冲区是一个数据集的队列，有大小限制，这样做可以避免内存溢出，或频繁GC，影响系统安定性。数据集缓冲区大小设置可以按数据集数量(此时指定数量等于数据集数量)，或者按数据集记录数(此时指定数量等于按照记录数最大时统计的数据集的个数)两种方式进行设置。数据集数量即设定数据集缓冲区最大可以包含设定数量的数据集，数据集记录数即设定所有数据集记录总数的加和最大可以不超过设定的最大记录数数值。

示例性的，可以采用如下程序代码将数据集中数据导入对应的目标数据表中：

上述程序代码中，transform标签内的field描述了源文件的字段名称、存入目标数据表时的目标字段名称以及目标字段类型。需要说明的是，源文件的字段名称也可以来自应用里的环境变量，例如：导入的用户名称或者导入的时间等等。

如图4所示，为本发明实施例中数据导入方法的处理时序图，其中，解析任务配置即文件解析器的配置完成之后，在后续过程中可以不再进行配置，而是直接执行步骤2及其后的步骤。

本发明实施例中还提供了一种数据导入装置，如下面的实施例所述。由于该装置解决问题的原理与数据导入方法相似，因此该装置的实施可以参见数据导入方法的实施，重复之处不再赘述。

如图5所示，该装置500包括获取模块501、解析模块502和导入模块503。

其中，获取模块501，用于获取所需导入的目标文件。

获取模块501，还用于确定目标文件的文件类型，获取预先配置的与文件类型对应的目标文件解析器。

解析模块502，用于利用获取模块501获取的目标文件解析器解析相应文件类型的目标文件，按照指定格式将解析后的目标文件转换为数据集，数据集中包含目标文件导入的目标数据表的名称。

导入模块503，用于根据目标数据表的名称，将数据集中数据导入对应目标数据表中。

在本发明实施例的一种实现方式中，获取模块501，用于：

获取用户指定的目标存储位置及扫描规则，扫描规则用于指示将文件名称中包含指定字符的文件确定为目标文件；

按照扫描规则，从目标存储位置存储的所有文件中扫描得到目标文件的名称；

利用NIO技术将扫描得到的名称对应的目标文件映射至内存中。

在本发明实施例的一种实现方式中，解析模块502，用于：

读取目标文件，判断目标文件中数据行数是否大于数量阈值；

如果数据行数大于数量阈值，则按照数量阈值切分目标文件，得到多个分片文件，其中，每个分片文件中数据行数小于等于数量阈值；

基于多线程机制，利用目标文件解析器多线程并发解析分片文件。

在本发明实施例的一种实现方式中，装置500还包括：

处理模块504，用于将数据集放入数据集缓冲区；

导入模块503，用于：从数据集缓冲区中取出数据集，根据目标数据表的名称，将数据集导入对应目标数据表中；

其中，在数据集缓冲区中以队列的形式存储指定数量的数据集；当数据集缓冲区中存满数据集后，等待队头的数据集被取出后，在队尾放入新的数据集。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述计算机程序时实现上述数据导入方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有执行上述数据导入方法的计算机程序。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据导入方法，其特征在于，所述方法包括：

获取所需导入的目标文件；

2.根据权利要求1所述的方法，其特征在于，获取所需导入目标数据表的目标文件，包括：

获取用户指定的目标存储位置及扫描规则，所述扫描规则用于指示将文件名称中包含指定字符的文件确定为目标文件；

3.根据权利要求1或2所述的方法，其特征在于，利用目标文件解析器解析相应文件类型的文件，包括：

4.根据权利要求1所述的方法，其特征在于，在利用目标文件解析器解析相应文件类型的目标文件，得到数据集之后，所述方法还包括：

将数据集放入数据集缓冲区；

将数据集导入目标数据表中，包括：

从数据集缓冲区中取出数据集，根据目标数据表的名称，将数据集导入对应目标数据表中；

5.一种数据导入装置，其特征在于，所述装置包括：

获取模块，用于获取所需导入的目标文件；

6.根据权利要求5所述的装置，其特征在于，获取模块，用于：

7.根据权利要求5或6所述的装置，其特征在于，解析模块，用于：

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

处理模块，用于将数据集放入数据集缓冲区；

导入模块，用于：从数据集缓冲区中取出数据集，根据目标数据表的名称，将数据集导入对应目标数据表中；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至4任一所述方法的计算机程序。