CN111339041B

CN111339041B - 文件解析入库、文件生成方法及装置

Info

Publication number: CN111339041B
Application number: CN202010161768.2A
Authority: CN
Inventors: 母睿; 邓昌胜
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2024-01-12
Anticipated expiration: 2040-03-10
Also published as: CN111339041A

Abstract

本公开涉及一种文件解析入库、文件生成方法及装置，该文件解析入库方法包括：确定待解析入库文件的文件类型；确定所述文件类型对应的数据解析配置和文件格式映射规则；根据所述数据解析配置和所述文件格式映射规则对所述待解析入库文件进行解析并存储到数据库表中。本发明的文件解析入库、文件生成方法具有以下优点：可通过灵活的配置支持数据文件的解析和导出工作；支持多种数据交换协议且可灵活自定义文件格式；支持大批量数据的多线程、多并发的分布式导出；支持切片式的多并发分布式解析；可扩展、可配置的解析入库和导出实现；支持文件解析和数据文件导出的有效性校验。

Description

文件解析入库、文件生成方法及装置

技术领域

本发明涉及数据库领域，具体而言，涉及一种文件解析入库、文件生成方法及装置。

背景技术

随着金融科技的迅猛发展，大批量的金融数据以文件为载体进行传输的场景越来越多。目前每次文件交互的数据量有时能达到千万级别，文件大小有时达到GB级别，因此如何通过灵活的配置高效解析文件入库及导出数据生成文件变得越来越急迫。

发明内容

本发明为了解决上述背景技术中的至少一个技术问题，提出了一种文件解析入库、文件生成方法及装置。

为了实现上述目的，根据本发明的一个方面，提供了一种文件解析入库方法，该方法包括：

确定待解析入库文件的文件类型；

确定所述文件类型对应的数据解析配置和文件格式映射规则，其中，所述文件格式映射规则包括：所述文件类型包含的各数据项在数据库表中对应的字段名以及在所述待解析入库文件中的存储位置信息；

根据所述数据解析配置和所述文件格式映射规则对所述待解析入库文件进行解析并存储到数据库表中。

可选的，该文件解析入库方法还包括：

生成各文件类型对应的文件字段映射配置，其中，文件字段映射配置包括：文件类型包含的各数据项在数据库表中对应的字段名；

根据所述文件字段映射配置以及预设的数据字典配置生成各文件类型对应的文件格式映射规则，其中，所述数据字典配置包括：各数据项的存储信息。

可选的，所述根据所述数据解析配置和所述文件格式映射规则对所述待解析入库文件进行解析并存储到数据库表中，具体包括：

根据所述数据解析配置和所述文件格式映射规则生成Oracle Sqlloader控制文件；

根据所述Oracle Sqlloader控制文件对所述待解析入库文件进行解析并存储到数据库表中。

根据所述待解析入库文件、所述数据解析配置以及所述文件格式映射规则生成数据库表对应的数据对象；

将生成的数据对象插入到数据库表中。

将所述待解析入库文件拆分成多个文件切片，并采用负载均衡的方法将拆分出的多个文件切片发送到多个预设的解析进程模块；

解析进程模块根据所述数据解析配置和所述文件格式映射规则对文件切片进行解析并存储到数据库表中。

为了实现上述目的，根据本发明的一个方面，提供了一种文件生成方法，该方法包括：

确定待生成文件的文件类型；

确定所述文件类型对应的数据解析配置和文件格式映射规则，其中，所述文件格式映射规则包括：所述文件类型包含的各数据项在数据库表中对应的字段名以及在所述待生成文件中的存储位置信息；

根据所述数据解析配置和所述文件格式映射规则从数据库表获取数据生成所述待生成文件。

可选的，该文件生成方法还包括：

可选的，所述根据所述数据解析配置和所述文件格式映射规则从数据库表获取数据生成所述待生成文件，具体包括：

多个文件生成模块采用负载均衡的方法生成所述待生成文件的多个子文件；

将所有子文件进行合并，得到所述待生成文件。

为了实现上述目的，根据本发明的另一方面，提供了一种文件解析入库装置，该装置包括：

待解析入库文件确定单元，用于确定待解析入库文件的文件类型；

解析配置及映射规则确定单元，用于确定所述文件类型对应的数据解析配置和文件格式映射规则，其中，所述文件格式映射规则包括：所述文件类型包含的各数据项在数据库表中对应的字段名以及在所述待解析入库文件中的存储位置信息；

解析入库单元，用于根据所述数据解析配置和所述文件格式映射规则对所述待解析入库文件进行解析并存储到数据库表中。

可选的，该文件解析入库装置还包括：

文件字段映射配置生成单元，用于生成各文件类型对应的文件字段映射配置，其中，文件字段映射配置包括：文件类型包含的各数据项在数据库表中对应的字段名；

文件格式映射规则生成单元，用于根据所述文件字段映射配置以及预设的数据字典配置生成各文件类型对应的文件格式映射规则，其中，所述数据字典配置包括：各数据项的存储信息。

可选的，所述解析入库单元包括：

Sqlldr控制文件生成模块，用于根据所述数据解析配置和所述文件格式映射规则生成Oracle Sqlloader控制文件；

Sqlldr控制文件运行模块，用于根据所述Oracle Sqlloader控制文件对所述待解析入库文件进行解析并存储到数据库表中。

可选的，所述解析入库单元包括：

数据对象生成模块，用于根据所述待解析入库文件、所述数据解析配置以及所述文件格式映射规则生成数据库表对应的数据对象；

数据对象插入模块，用于将生成的数据对象插入到数据库表中。

可选的，所述解析入库单元包括：

分布式处理模块，用于将所述待解析入库文件拆分成多个文件切片，并采用负载均衡的方法将拆分出的多个文件切片发送到多个预设的解析进程模块；

负载均衡模块，用于调用解析进程模块根据所述数据解析配置和所述文件格式映射规则对文件切片进行解析并存储到数据库表中。

为了实现上述目的，根据本发明的另一方面，提供了一种文件生成装置，该装置包括：

待生成文件确定单元，用于确定待生成文件的文件类型；

解析配置及映射规则确定单元，用于确定所述文件类型对应的数据解析配置和文件格式映射规则，其中，所述文件格式映射规则包括：所述文件类型包含的各数据项在数据库表中对应的字段名以及在所述待生成文件中的存储位置信息；

文件生成单元，用于根据所述数据解析配置和所述文件格式映射规则从数据库表获取数据生成所述待生成文件。

可选的，该文件生成装置还包括：

可选的，所述文件生成单元包括：

分布式处理模块，用于多个文件生成模块采用负载均衡的方法生成所述待生成文件的多个子文件；

文件合并模块，用于将所有子文件进行合并，得到所述待生成文件。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述文件解析入库方法和/或上述文件生成方法。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述文件解析入库方法和/或上述文件生成方法。

本发明的有益效果为：本发明通过可灵活配置的各文件类型的数据解析配置和文件格式映射规则来进行文件解析入库以及文件导出(文件生成)，提升了文件解析入库以及文件导出的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例文件解析入库方法的流程图；

图2是本发明实施例生成各文件类型对应的文件格式映射规则的流程图；

图3是本发明实施例将待解析入库文件存储到数据库表的第一流程图；

图4是本发明实施例将待解析入库文件存储到数据库表的第二流程图；

图5是本发明实施例多并发分布式的文件解析入库流程示意图；

图6是本发明实施例文件生成方法的第一流程图；

图7是本发明实施例文件生成方法的第二流程图；

图8是本发明实施例多并发分布式文件生成方法的流程示意图；

图9是本发明实施例数据解析配置的数据结构示意图；

图10是本发明实施例数据字典配置的数据结构示意图；

图11是本发明实施例数据文件字段映射配置的数据结构示意图；

图12是本发明实施例数据文件格式映射规则的数据结构示意图；

图13是本发明实施例文件解析入库装置的第一结构框图；

图14是本发明实施例文件解析入库装置的第二结构框图；

图15是本发明实施例文件生成装置的结构框图；

图16是本发明实施例计算机设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明实现一种灵活的、可配置的、支持多并发分布式导出文件、多并发分布式解析文件的方法和实现。主要分为两大部分：一、文件解析入库；二、文件生成(文件导出)。而这两部分的数据格式的解析方式是通用的，即均基于各文件类型对应的数据解析配置和文件格式映射规则，区别在于数据文件解析是解析文件中的数据，最终导入到数据库中；而数据文件生成是从数据库中查询数据，按照文件规则生成对应的数据文件。下面将根据这两部分做详细说明。

首先对本发明的文件解析入库方法进行介绍。图1是本发明实施例文件解析入库方法的流程图，如图1所示，本实施例的文件解析入库方法包括步骤S101至步骤S103。

步骤S101，确定待解析入库文件的文件类型。

步骤S102，确定所述文件类型对应的数据解析配置和文件格式映射规则，其中，所述文件格式映射规则包括：所述文件类型包含的各数据项在数据库表中对应的字段名以及在所述待解析入库文件中的存储位置信息。

在本发明实施例中，本发明预先创建各文件类型对应的数据解析配置，文件类型对应的数据解析配置中记载了该文件类型的文件的基础解析配置。图9是本发明一可选实施例数据解析配置的数据结构示意图，如图9所示，在本发明可选实施例中，文件类型对应的数据解析配置可以包含的信息有：文件类型编号、文件名匹配串、文件路径、导入导出表名、数据表实体对应的DO(Data Object)、字符集、导入导出服务等。

在本发明的可选实施例中，数据解析配置可以包括：文件名格式、文件路径格式、字符集、具体解析文件入库执行器、文件解析入库对应的数据库表名、具体数据文件生成执行器、索引文件中包括哪些文件类型、具体数据文件生成时是增量还是全量生成、具体操作执行频率(每天执行、交易日执行、非交易日执行)等信息。

在本发明实施例中，本发明同时预先创建各文件类型对应的文件格式映射规则，该文件格式映射规则用于指示文件类型包含的各数据项在数据库表中对应的字段名以及在待解析入库文件中存储的开始位置、结束位置、字段长度等存储位置信息。图12是本发明一可选实施例数据文件格式映射规则的数据结构示意图。

本发明可以对各文件类型对应的数据解析配置和文件格式映射规则进行灵活配置，例如对文件名匹配串、文件路径、导入导出表名、数据表实体对应的DO(DataObject)、字符集、导入导出服务等进行灵活配置，以灵活配置文件的解析入库，提升文件解析入库的效率。

本发明的数据解析配置和文件格式映射规则均基于文件类型。本发明支持多种数据交换协议且可灵活扩展文件类型，本发明默认支持现有的文件类型，且可根据具体需求进行文件类型自定义扩展。

步骤S103，根据所述数据解析配置和所述文件格式映射规则对所述待解析入库文件进行解析并存储到数据库表中。

本发明根据待解析入库文件对应的数据解析配置和文件格式映射规则，对待解析入库文件进行解析，将解析出的文件的各数据项存储到数据库表中对应的字段名。

图2是本发明实施例生成各文件类型对应的文件格式映射规则的流程图，如图2所示，在本发明可选实施例中，各文件类型对应的文件格式映射规则具体的生成方法包括步骤S201至步骤S202。

步骤S201，生成各文件类型对应的文件字段映射配置，其中，文件字段映射配置包括：文件类型包含的各数据项在数据库表中对应的字段名。

步骤S202，根据所述文件字段映射配置以及预设的数据字典配置生成各文件类型对应的文件格式映射规则，其中，所述数据字典配置包括：各数据项的存储信息。

在本发明实施例中，数据字典配置中记载了各数据项的数据项名称、各数据项对应的ID、各数据项的类型以及各数据项的字段长度和存储精度等存储信息。图10是本发明实施例数据字典配置的数据结构示意图。

在本发明实施例中，本发明预先创建各文件类型对应的文件字段映射配置，图11是本发明可选实施例数据文件字段映射配置的数据结构示意图，本发明文件字段映射配置记载了文件类型包含的各数据项在数据库表中对应的字段名。在本发明的其他可选实施例中，文件字段映射配置还记载了各数据项在数据字典配置中的ID。

本发明根据各文件类型对应的文件字段映射配置以及数据字典配置生成各文件类型对应的文件格式映射规则。图12是本发明可选实施例数据文件格式映射规则的数据结构示意图，文件格式映射规则记载了文件类型包含的各数据项在数据库表中对应的字段名以及在各数据项在文件中存储的开始位置、结束位置、字段长度等存储位置信息。本发明生成各文件类型对应的文件格式映射规则作为后续文件解析入库以及文件生成(文件导出)的依据。

在本发明实施例中，本发明可以支持两种文件解析入库的方式，第一种为基于Oracle Sqlloader工具进行文件解析入库，第二种为通用的文件解析入库方式。

基于Oracle Sqlloader工具进行文件解析入库方式适用于文件格式相对简单，且同一个文件中只包含一种文件的场景。这种实现的优点是通过Oracle Sqlloader工具实现简单，导入速度快；缺点是不够灵活，对于复杂的数据格式无法支持。

图3是本发明实施例采用Oracle Sqlloader工具进行文件解析入库的流程图，如图3所示，采用Oracle Sqlloader工具进行文件解析入库的流程包括步骤S301和步骤S302。

步骤S301，根据所述数据解析配置和所述文件格式映射规则生成OracleSqlloader控制文件。

步骤S302，根据所述Oracle Sqlloader控制文件对所述待解析入库文件进行解析并存储到数据库表中。

在本实施中，首先确定待解析入库的文件对应的数据解析配置和所述文件格式映射规则，进而根据数据解析配置和文件格式映射规则生成Oracle Sqlloader控制文件，最终运行Sqlloader命令将待解析入库文件存储到数据库表中，其中将Oracle Sqlloader控制文件作为Sqlloader命令的参数。

通用的文件解析入库方式为依次按行读取文本文件，逐行解析入库。这种方式适用于解析规则相对复杂，或者不能使用Oracle Sqlloader的场景。比如海外基金销售平台AllFunds提供的数据文件，同一个文件中包括有很多种数据格式，且规则相对复杂，就只能使用这种方式。这种实现的优点是支持复杂多变的复杂的数据格式，其缺点则是需要自行实现，效率相对较低。如果数据量较大，需要考虑多并发分布多的方式解析入库。

图4是通用的文件解析入库方式的流程图，如图4所示，通用的文件解析入库方式包括步骤S401和步骤S402。

步骤S401，根据所述待解析入库文件、所述数据解析配置以及所述文件格式映射规则生成数据库表对应的数据对象(Data Object，DO)。

步骤S402，将生成的数据对象插入到数据库表中。

本发明实施例还提供了一种多并发分布式的文件解析入库方案，图5是本发明实施例多并发分布式的文件解析入库方案的流程示意图。当数据文件比较大时，如果还是单个执行，可能满足不了时效性要求，此时就可以使用多并发的分布式文件解析方案。在解析文件之前，先对文件进行分片，再通过负载均衡策略将文件解析入库子作业均匀分布到各个解析进程模块上并发执行。该解析进程模块可以为应用服务器。

关于文件切片，本发明可以选择在同一个文件中，不同的解析进程模块共享同一个文件，只是读取文件时的起止位置不重叠；同时，本发明也可以先根据并发量的大小，把1个文件均匀或非均匀分成N个小文件，各个解析进程模块各自对应的独立的文件。具体选择那种方式，可以通过配置各待解析入库文件的文件解析策略来确定。

下面对本发明的文件解析入库方法进行介绍，本发明文件生成方法和上述文件解析入库方法均基于各文件类型对应的数据解析配置和文件格式映射规则，即采用的数据格式的解析方式是通用的。图6是本发明实施例文件生成方法的第一流程图，如图6所示，在本发明实施例的文件生成方法包括步骤S501至步骤S503。

步骤S501，确定待生成文件的文件类型。

步骤S502，确定所述文件类型对应的数据解析配置和文件格式映射规则，其中，所述文件格式映射规则包括：所述文件类型包含的各数据项在数据库表中对应的字段名以及在所述待生成文件中的存储位置信息。

步骤S503，根据所述数据解析配置和所述文件格式映射规则从数据库表获取数据生成所述待生成文件。

本发明文件生成方法和上述文件解析入库方法采用的数据格式的解析方式是通用的，区别在于数据文件解析是解析文件中的数据，最终导入到数据库中，而数据文件生成是从数据库中查询数据，生成文件。因此本发明文件生成方法的实施例可以参考上述文件解析入库方法的实施例，重复之处不再赘述。

图7是本发明另一实施例文件生成方法的流程图示意图，如图7所示，数据文件生成时也分只生成单个文件或生成多个文件，有时还要生成索引文件。本发明在生成文件后还对生成的文件进行数据校验确定文件生成结果。

本发明实施例还提供了一种多并发分布式文件生成方式，图8是本发明实施例多并发分布式文件生成方法的流程示意图。而在数据文件生成中，是否需要采用多并发分布式文件生成方式，要看具体的数据文件生成策略。在本发明实施例中，可以生成待生成文件的数据文件生成策略，数据文件生成策略中记载了具体采用何种文件生成策略，例如是否采用多并发分布式文件生成方式、是否生成多个文件并生成索引文件等。进而在在文件生成时根据数据文件生成策略来进行相应的生成步骤。

在本发明实施例中，当采用多并发分布式文件生成方式生成文件时，多个文件生成模块采用负载均衡的方法生成所述待生成文件的多个子文件，当所有子文件生成结束之后，合并所有生成的子文件成为一个最终的文件，并进行文件的有效性校验。

由以上描述可以看出，本发明实施例的文件解析入库方法和文件生成方法至少实现了以下有益效果。

1、可通过灵活的配置支持数据文件的解析入库和数据文件导出工作。灵活配置主要包括以下内容：文件存放路径、文件名、索引格式、字符集、是否增量导出、是否采用多并发分布式方式等。

2、支持多种数据交换协议且可灵活扩展文件类型。默认支持现有的数据格式，且可根据具体需求进行文件类型自定义扩展。

3、支持大批量数据的多线程、多并发的分布式导出。当数据量大时，如果仅单线程、单并发导出数据文件，将耗时较长，无法满足时效性要求，故本发明支持多线程、多并发分布式的数据文件导出，可把导出作业通过一定的均衡策略均匀分布在多个应用服务器上执行，且服务器数量和并发数量支持配置式的动态扩展。

4、支持切片式的多并发分布式解析。对于GB级别的文件解析工作，本发明支持切片式的解析入库。在文件解析入库时，通过配置，可能通过多线程同时解析文件，并按一定规则进行入库操作。

5、可扩展、可配置的解析入库和导出实现。如何解析文件和导出数据文件可根据需求和应用场景进行灵活配置，如果现有策略无法满足需求，可根据提供的策略实现接口自行进行扩展。

6、支持文件解析和数据文件导出的有效性校验。文件是否解析正确、数据文件导出结果是否正确均可灵活配置校验策略，且提供了良好的校验策略的扩展接口。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

基于同一发明构思，本发明实施例还提供了一种文件解析入库装置，可以用于实现上述实施例所描述的文件解析入库方法，如下面的实施例所述。由于文件解析入库装置解决问题的原理与文件解析入库方法相似，因此文件解析入库装置的实施例可以参见文件解析入库方法的实施例，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图13是本发明实施例文件解析入库装置的第一结构框图，如图13所示，本发明实施例文件解析入库装置包括：待解析入库文件确定单元1、解析配置及映射规则确定单元2和解析入库单元3。

待解析入库文件确定单元1，用于确定待解析入库文件的文件类型。

解析配置及映射规则确定单元2，用于确定所述文件类型对应的数据解析配置和文件格式映射规则，其中，所述数据解析配置包括：文件名匹配串、文件路径、导入导出表名以及字符集，所述文件格式映射规则包括：所述文件类型包含的各数据项在数据库表中对应的字段名以及在数据库表中的存储位置信息。

解析入库单元3，用于根据所述数据解析配置和所述文件格式映射规则将所述待解析入库文件存储到数据库表中。

图14是本发明实施例文件解析入库装置的第二结构框图，如图14所示，本发明实施例的文件解析入库装置还包括：文件字段映射配置生成单元4和文件格式映射规则生成单元5。

文件字段映射配置生成单元4，用于生成各文件类型对应的文件字段映射配置，其中，文件字段映射配置包括：文件类型包含的各数据项在数据库表中对应的字段名。

文件格式映射规则生成单元5，用于根据所述文件字段映射配置以及预设的数据字典配置生成各文件类型对应的文件格式映射规则，其中，所述数据字典配置包括：各数据项的存储信息。

在本发明的一可选实施例中，所述解析入库单元3具体包括：

Sqlldr控制文件运行模块，用于根据所述Oracle Sqlloader控制文件将所述待解析入库文件存储到数据库表中。

在本发明的另一可选实施例中，所述解析入库单元3具体包括：

负载均衡模块，用于解析进程模块根据所述数据解析配置和所述文件格式映射规则对文件切片进行解析并存储到数据库表中。

基于同一发明构思，本发明实施例还提供了一种文件生成装置，可以用于实现上述实施例所描述的文件生成方法。图15是本发明实施例文件生成装置的结构框图，如图15所示，本发明实施例文件生成装置包括：待生成文件确定单元6、解析配置及映射规则确定单元2和文件生成单元7。

待生成文件确定单元6，用于确定待生成文件的文件类型。

文件生成单元7，用于根据所述数据解析配置和所述文件格式映射规则从数据库表获取数据生成所述待生成文件。

在本发明的一可选实施例中，所述文件生成单元7具体包括：

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机设备。如图16所示，该计算机设备包括存储器、处理器、通信接口以及通信总线，在存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例文件解析入库方法以及文件生成方法中的步骤。

处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元，如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及作品数据处理，即实现上述方法实施例中的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个单元存储在所述存储器中，当被所述处理器执行时，执行上述实施例中的方法。

上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解，此处不再赘述。

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述文件解析入库方法中的步骤。本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文件解析入库方法，其特征在于，包括：

确定待解析入库文件的文件类型；

确定所述文件类型对应的数据解析配置和文件格式映射规则，其中，所述文件格式映射规则包括：所述文件类型包含的各数据项在数据库表中对应的字段名以及在所述待解析入库文件中的存储位置信息，所述数据解析配置包括：文件类型编号、文件名匹配串、文件路径、导入导出表名、数据表实体对应的数据对象、字符集信息、导入导出服务信息、文件名格式、文件路径格式、具体解析文件入库执行器以及具体操作执行频率；各文件类型对应的文件格式映射规则具体为根据预设的数据字典配置以及各文件类型对应的文件字段映射配置生成的，所述文件字段映射配置记载了文件类型包含的各数据项在数据库表中对应的字段名以及各数据项在所述数据字典配置中的ID，所述数据字典配置中记载了各数据项的数据项名称、各数据项对应的ID、各数据项的类型以及各数据项的字段长度和存储精度；

根据所述数据解析配置和所述文件格式映射规则对所述待解析入库文件进行解析并存储到数据库表中；

所述根据所述数据解析配置和所述文件格式映射规则对所述待解析入库文件进行解析并存储到数据库表中，具体包括：

在所述待解析入库文件的文件格式简单，并且所述待解析入库文件中的同一个文件中只包含一种文件的场景，基于Oracle Sqlloader工具进行文件解析入库；

在所述待解析入库文件的解析规则复杂，或者不能使用Oracle Sqlloader工具的场景，采用通用的文件解析入库方式进行文件解析入库；

所述基于Oracle Sqlloader工具进行文件解析入库，具体包括：

将Oracle Sqlloader控制文件作为Sqlloader命令的参数，然后运行Sqlloader命令将所述待解析入库文件存储到数据库表中；

所述采用通用的文件解析入库方式进行文件解析入库，具体包括：

将生成的数据对象插入到数据库表中。

2.根据权利要求1所述的文件解析入库方法，其特征在于，还包括：

3.根据权利要求1所述的文件解析入库方法，其特征在于，所述根据所述数据解析配置和所述文件格式映射规则对所述待解析入库文件进行解析并存储到数据库表中，具体包括：

4.一种文件解析入库装置，其特征在于，包括：

解析配置及映射规则确定单元，用于确定所述文件类型对应的数据解析配置和文件格式映射规则，其中，所述文件格式映射规则包括：所述文件类型包含的各数据项在数据库表中对应的字段名以及在所述待解析入库文件中的存储位置信息，所述数据解析配置包括：文件类型编号、文件名匹配串、文件路径、导入导出表名、数据表实体对应的数据对象、字符集信息、导入导出服务信息、文件名格式、文件路径格式、具体解析文件入库执行器以及具体操作执行频率；各文件类型对应的文件格式映射规则具体为根据预设的数据字典配置以及各文件类型对应的文件字段映射配置生成的，所述文件字段映射配置记载了文件类型包含的各数据项在数据库表中对应的字段名以及各数据项在所述数据字典配置中的ID，所述数据字典配置中记载了各数据项的数据项名称、各数据项对应的ID、各数据项的类型以及各数据项的字段长度和存储精度；

解析入库单元，用于根据所述数据解析配置和所述文件格式映射规则对所述待解析入库文件进行解析并存储到数据库表中；

所述解析入库单元，具体用于在所述待解析入库文件的文件格式简单，并且所述待解析入库文件中的同一个文件中只包含一种文件的场景，基于Oracle Sqlloader工具进行文件解析入库，在所述待解析入库文件的解析规则复杂，或者不能使用Oracle Sqlloader工具的场景，采用通用的文件解析入库方式进行文件解析入库；

所述解析入库单元包括：

Sqlldr控制文件运行模块，用于将Oracle Sqlloader控制文件作为Sqlloader命令的参数，然后运行Sqlloader命令将所述待解析入库文件存储到数据库表中；

所述解析入库单元还包括：

5.根据权利要求4所述的文件解析入库装置，其特征在于，还包括：

6.根据权利要求4所述的文件解析入库装置，其特征在于，所述解析入库单元包括：

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3任一项所述的方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序在计算机处理器中执行时实现如权利要求1至3任意一项所述的方法。