CN111078701B

CN111078701B - 基于关系型数据库的数据抽取方法及装置

Info

Publication number: CN111078701B
Application number: CN201911290486.6A
Authority: CN
Inventors: 刘斌; 李杨
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2023-09-01
Anticipated expiration: 2039-12-16
Also published as: CN111078701A

Abstract

本申请提供一种基于关系型数据库的数据抽取方法及装置，该方法包括：根据预设的抽取任务和抽取规则，从本地关系型数据库中获取对应的目标数据；基于预设的通用数据类型标准，确定所述目标数据的数据类型对应的通用数据类型格式；将所述目标数据和对应的通用数据类型格式发送至目标系统，以使该目标系统根据所述通用数据类型格式确定所述目标数据对应在该目标系统中的目标数据类型格式，并基于该目标数据类型格式完成对所述目标数据的应用。本申请能够提高关系型数据库中数据抽取的效率和灵活性。

Description

基于关系型数据库的数据抽取方法及装置

技术领域

本申请涉及数据抽取技术领域，尤其涉及一种基于关系型数据库的数据抽取方法及装置。

背景技术

关系型数据库为采用关系模型来组织数据的数据库，以行和列的形式存储数据，一系列行和列的组合被称为表，一批表的组合就是关系型数据库。常见的关系型数据库有Oracle、My SQL和SQL Server等。

目前，各行业的软件系统普遍使用关系型数据库。为了及时处理客户信息、业务订单、物流信息和统计报表等各种交易数据，需要经常从数据库中抽取数据。数据抽取的过程包括：按一定条件和周期从数据库中查询数据，并导出为文件以供外部系统使用。这种抽取数据的需求和规则是相对固定的和周期性的，如果每次都人工操作，费时费力。而且在大型系统中，抽取的数据往往需要在不同的子系统，或者外部系统之间共享使用，因此需要对数据的格式做统一规范，便于各个独立的系统方便准确的识别和处理。

发明内容

针对现有技术中的问题，本申请提出了一种基于关系型数据库的数据抽取方法及装置，能够提高关系型数据库中数据抽取的效率和灵活性。

为了解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种基于关系型数据库的数据抽取方法，包括：

根据预设的抽取任务和抽取规则，从本地关系型数据库中获取对应的目标数据；

基于预设的通用数据类型标准，确定所述目标数据的数据类型对应的通用数据类型格式；

将所述目标数据和对应的通用数据类型格式发送至目标系统，以使该目标系统根据所述通用数据类型格式确定所述目标数据对应在该目标系统中的目标数据类型格式，并基于该目标数据类型格式完成对所述目标数据的应用。

进一步地，所述通用数据类型标准用于存储数据的数据类型与通用数据类型格式之间的对应关系。

进一步地，所述根据预设的抽取任务和抽取规则，从本地关系型数据库中获取对应的目标数据，还包括：根据所述抽取任务，获取所述目标系统的信息和目标数据的本地存储目录。

进一步地，所述根据预设的抽取任务和抽取规则，从本地关系型数据库中获取对应的目标数据，包括：根据所述预设的抽取任务获取对应的抽取规则；应用所述抽取规则中的目标数据表信息、过滤条件和抽取周期获取所述目标数据。

进一步地，在所述根据预设的抽取任务和抽取规则，从本地关系型数据库中获取目标数据和其对应的数据类型之后，还包括：根据所述目标数据和预设的通用数据类型标准，生成目标数据存储文件和通用数据类型存储文件；将所述目标数据存储文件和通用数据类型存储文件发送至所述目标系统，以使所述目标系统根据所述通用数据类型存储文件确定所述目标数据存储文件中的目标数据对应在该目标系统中的目标数据类型格式，并基于该目标数据类型格式完成对所述目标数据的应用。

进一步地，在所述根据所述目标数据和预设的通用数据类型标准，生成目标数据存储文件和通用数据类型存储文件之后，还包括：根据所述目标数据存储文件，生成目标数据校验文件；将所述目标数据存储文件、目标数据校验文件和通用数据类型存储文件发送至所述目标系统，以使所述目标系统根据所述目标数据校验文件判断获取的目标数据是否正确。

进一步地，各所述目标数据分别对应有字段名称，其中，该字段名称和所述目标数据为一对多或多对多的对应关系；在所述目标数据存储文件中各行数据分别包含有各所述字段名称对应的一组目标数据；所述目标数据存储文件对应的数据表中的每一行均用于存储各个所述字段名称各自对应目标数据，且每一行均用于存储相互之间存在唯一对应关系的所述目标数据。

进一步地，所述目标数据校验文件包括：所述目标数据存储文件的文件名、文件大小、数据行数、抽取开始时间和抽取结束时间。

进一步地，所述通用数据类型存储文件包括：所述目标数据对应的数据表表名、表的主键字段、字段数、字段名称和各字段对应的通用数据类型信息。

第二方面，本申请提供一种基于关系型数据库的数据抽取装置，包括：

抽取模块，用于根据预设的抽取任务和抽取规则，从本地关系型数据库中获取对应的目标数据；

获取通用数据类型模块，用于基于预设的通用数据类型标准，确定所述目标数据的数据类型对应的通用数据类型格式；

第一输出模块，用于将所述目标数据和对应的通用数据类型格式发送至目标系统，以使该目标系统根据所述通用数据类型格式确定所述目标数据对应在该目标系统中的目标数据类型格式，并基于该目标数据类型格式完成对所述目标数据的应用。

进一步地，所述抽取模块，还包括：获取地址单元，用于根据所述抽取任务，获取所述目标系统的信息和目标数据的本地存储目录。

进一步地，所述抽取模块，包括：获取抽取任务单元，用于根据所述预设的抽取任务获取对应的抽取规则；获取目标数据单元，用于应用所述抽取规则中的目标数据表信息、过滤条件和抽取周期获取所述目标数据。

进一步地，所述的基于关系型数据库的数据抽取装置，还包括：生成文件模块，用于根据所述目标数据和预设的通用数据类型标准，生成目标数据存储文件和通用数据类型存储文件；第二输出模块，用于将所述目标数据存储文件和通用数据类型存储文件发送至所述目标系统，以使所述目标系统根据所述通用数据类型存储文件确定所述目标数据存储文件中的目标数据对应在该目标系统中的目标数据类型格式，并基于该目标数据类型格式完成对所述目标数据的应用。

进一步地，所述的基于关系型数据库的数据抽取装置，还包括：生成目标数据校验文件模块，用于根据所述目标数据存储文件，生成目标数据校验文件；校验模块，用于将所述目标数据存储文件、目标数据校验文件和通用数据类型存储文件发送至所述目标系统，以使所述目标系统根据所述目标数据校验文件判断获取的目标数据是否正确。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的基于关系型数据库的数据抽取方法的步骤。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现所述的基于关系型数据库的数据抽取方法的步骤。

由上述技术方案可知，本申请提供一种基于关系型数据库的数据抽取方法及装置。其中，该方法包括：根据预设的抽取任务和抽取规则，从本地关系型数据库中获取对应的目标数据；基于预设的通用数据类型标准，确定所述目标数据的数据类型对应的通用数据类型格式；将所述目标数据和对应的通用数据类型格式发送至目标系统，以使该目标系统根据所述通用数据类型格式确定所述目标数据对应在该目标系统中的目标数据类型格式，并基于该目标数据类型格式完成对所述目标数据的应用。本申请能够提高基于关系型数据库的数据抽取的效率和灵活性，提高不同系统之间数据传输的自动化程度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要应用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中的基于关系型数据库的数据抽取方法的流程示意图；

图2是本申请实施例中的多个参数之间的关系举例图；

图3是本申请实施例中的基于关系型数据库的数据抽取方法中步骤100、210和220的流程示意图；

图4是本申请实施例中的基于关系型数据库的数据抽取方法中步骤100、210、211和221的流程示意图；

图5是本申请实施例中的基于关系型数据库的数据抽取装置的结构示意图；

图6是本申请具体应用实例中的基于关系型数据库的数据抽取的流程示意图；

图7是本申请又一具体应用实例中的基于关系型数据库的数据抽取的流程示意图；

图8为本申请实施例的电子设备9600的系统构成示意框图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了提高关系型数据库中数据抽取的效率和灵活性，本申请实施例提供一种基于关系型数据库的数据抽取装置，该装置可以是一台服务器或客户端设备，所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备和智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表和智能手环等。

在实际应用中，进行基于关系型数据库的数据抽取的部分可以在如上述内容所述的服务器侧执行，也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

具体通过下述各个实施例进行说明。

为了提高关系型数据库中数据抽取的效率和灵活性，本实施例提供一种执行主体是基于关系型数据库的数据抽取装置的关系型数据库的数据抽取方法的实施例，参见图1，具体包含有如下内容：

步骤100：根据预设的抽取任务和抽取规则，从本地关系型数据库中获取对应的目标数据。

具体地，一个抽取任务对应一到多个抽取规则，一个抽取规则仅属于一个抽取任务。抽取任务是一批相似抽取规则的集合，抽取任务是调度的单位，是给调度使用的。当调度决定开启一个抽取任务后，获取对应的抽取规则，根据抽取规则，可以判断是否立即抽取数据。所述预设的抽取任务和抽取规则均可根据实际需要进行设置，本申请对此不作限制。

抽取任务中定义了目标系统的信息和目标数据的本地存储目录；抽取规则中定义了目标数据表信息、抽取类型、过滤条件和下次抽取时间等信息，下次抽取时间可以在每次抽取数据后，根据预设的抽取周期和抽取周期描述计算得到。抽取类型分全量和增量。全量抽取是指抽取全表的数据，不考虑数据的更新时间，用SQL语句可以近似表述为：Select需抽取的字段From目标数据表Where过滤条件；增量抽取是指仅抽取目标数据表中最近新增或更新过的数据，需考虑数据的更新时间，这种抽取方式能显著减少数据抽取量。用SQL语句可以近似表述为：Select需抽取的字段From目标数据表Where过滤条件AND最近更新的数据。如何判断“最近更新的数据”本申请不作限制。

所述预设的抽取规则中包含有目标数据表信息、过滤条件和抽取周期等。举例来说，所述本地关系型数据库可以是Oracle、My SQL或SQL Server数据库。若当前系统时间达到抽取周期设定的时间，可以从本地关系型数据库中根据目标数据表信息和过滤条件获取对应的目标数据和其对应的数据类型。

步骤200：基于预设的通用数据类型标准，确定所述目标数据的数据类型对应的通用数据类型格式。

具体地，所述预设的通用数据类型标准对于不同关系型数库中的数据类型做了统一的约定，包含有各数据类型和各数据类型对应的通用数据类型格式。所述通用数据类型标准用于存储数据的数据类型与通用数据类型格式之间的对应关系，包含有目标数据的数据类型与通用数据类型格式之间的对应关系。数据的数据类型与通用数据类型格式之间的对应关系包含数据的数据类型与通用数据类型之间的多对一或一对一的关系。可以理解的是，所述基于预设的通用数据类型标准，确定所述目标数据的数据类型对应的通用数据类型格式，并未改变目标数据的数据类型和数据内容。所述通用数据类型标准可根据实际情况进行设定，本申请对此不作限制。

举例来说，若已知目标数据的数据类型为只能包含有字母和数字，最大长度20个字符；在本地SQL Server数据库中对应的数据类型格式为VARCHAR(20)；则根据预设的通用数据类型标准，能够确定其对应的通用数据类型格式为ac..20(20写在后面，表示该数据类型的长度是可变的，最大长度为20；a代表可以包含字母，n代表可以包含数字)。

步骤300：将所述目标数据和对应的通用数据类型格式发送至目标系统，以使该目标系统根据所述通用数据类型格式确定所述目标数据对应在该目标系统中的目标数据类型格式，并基于该目标数据类型格式完成对所述目标数据的应用。

具体地，目标系统将目标数据对应的所述通用数据类型格式转化为自用关系型数据库的数据类型格式。预设的通用数据类型标准将不同的数据类型格式统一起来。

举例来说，所述目标系统的数据库为关系型数据库，可以是Oracle、My SQL或SQLServer数据库。若所述目标系统的数据库为Oracle，目标数据对应的通用数据类型格式为an..20，那么目标系统通过解析得到所述目标数据的目标数据类型格式为VARCHAR2(20)。所述目标系统的数据库与所述本地关系型数据库的数据库类型可以相同也可以不同。所述目标系统可以是所述本地关系型数据库所在系统的子系统，也可以是所述本地关系型数据库所在系统的外部系统。

为了进一步提高数据抽取的可靠性，在本申请一个实施例中，步骤100还包含有：

步骤101：根据所述抽取任务，获取所述目标系统的信息和目标数据的本地存储目录。

具体地，各抽取任务中包含有各自对应的目标系统的信息和目标数据的本地存储目录。所述抽取任务可根据实际情况进行设定，本申请对此不作限制。

在本申请一个实施例中，所述抽取任务、抽取规则、目标数据表、目标数据存储文件、目标数据校验文件和通用数据类型存储文件之间的对应关系为：

一个抽取任务对应至少一个抽取规则，一个抽取规则仅对应一个抽取任务；一个抽取规则对应一个目标数据表，一个目标数据表可以对应多个抽取规则；抽取规则和目标数据存储文件之间一一对应，目标数据存储文件和目标数据校验文件之间一一对应；目标数据存储文件和通用数据类型存储文件之间一一对应。参见图2，为上述对应关系的一种举例，其中，后缀名为.dat、.xml和.dll的文件分别为目标数据存储文件、目标数据校验文件和通用数据类型存储文件，表a、表b和表c均为本地关系型数据库中的目标数据表。

为了进一步提高基于关系型数据库抽取数据的准确性和可靠性，在本申请一个实施例中，步骤100包含有：

步骤110：根据所述预设的抽取任务获取对应的抽取规则。

步骤120：应用所述抽取规则中的目标数据表信息、过滤条件和抽取周期获取所述目标数据。

具体地，所述抽取周期包含有导出周期、导出开始时间和导出终止时间。所述目标数据表信息包含有目标数据表表名和属主。所述过滤条件为目标数据筛选条件，按照标准SQL语句填写。

为了进一步提高基于关系型数据库抽取数据的灵活性和高效性，参见图3，在本申请一个实施例中，在步骤100之后还包含有：

步骤210：根据所述目标数据和预设的通用数据类型标准，生成目标数据存储文件和通用数据类型存储文件。

具体地，根据所述目标数据生成目标数据存储文件；根据所述目标数据和预设的通用数据类型标准生成通用数据类型存储文件。

具体地，所述目标数据存储文件用于存储目标数据。所述目标数据存储文件和抽取规则为一一对应的关系；任一所述目标数据存储文件中包含有所述抽取规则对应的数据表中的目标数据；在所述目标数据存储文件中，各所述目标数据通过分隔符隔开，如；每一行所述目标数据占用一行空间。所述通用数据类型存储文件包含有：所述目标数据对应的数据表表名、表的主键字段、字段数、字段名称和各字段对应的通用数据类型信息。

可以理解的是，在关系型数据库中各数据均有各自对应的字段名称，所述字段名称和所述目标数据为一对多或多对多的对应关系。例如：数据为100、200和300，其对应的字段名称为数量，数据类型为数值类型。

步骤220：将所述目标数据存储文件和通用数据类型存储文件发送至所述目标系统，以使所述目标系统根据所述通用数据类型存储文件确定所述目标数据存储文件中的目标数据对应在该目标系统中的目标数据类型格式，并基于该目标数据类型格式完成对所述目标数据的应用。

在本申请一个实施例中，所述通用数据类型存储文件只有在首次抽取数据或者需抽取数据的字段格式发生改变时才生成，通过解析所述通用数据类型存储文件，可以方便的应用目标数据存储文件。通用数据类型存储文件还可以非常灵活的应对系统变更，当目标数据存储文件格式改变时，重新解析通用数据类型存储文件即可，不需要人工干预，提高数据抽取的自动化程度。

为了验证目标系统获取的目标数据的可靠性和准确性，参见图4，在本申请一个实施例中，在步骤210之后，还包含有：

步骤211：根据所述目标数据存储文件，生成目标数据校验文件。

具体地，所述目标数据校验文件包含有：所述目标数据存储文件的文件名、文件大小、数据行数、抽取开始时间和抽取结束时间。

步骤212：将所述目标数据存储文件、目标数据校验文件和通用数据类型存储文件发送至所述目标系统，以使所述目标系统根据所述目标数据校验文件判断获取的目标数据是否正确。

可以理解的是，通过判断所述目标系统接收的目标数据存储文件的信息与目标数据校验文件中存储的信息是否匹配，若匹配，则所述目标系统获取的目标数据正确；若不匹配，则所述目标系统获取的目标数据错误，可以输出报警提示信息。

从软件层面来说，为了能够提高关系型数据库中数据抽取的效率和灵活性，本申请实施例提供一种用于实现所述基于关系型数据库的数据抽取方法中全部或部分内容的基于关系型数据库的数据抽取装置的实施例，参见图5，所述基于关系型数据库的数据抽取装置具体包含有如下内容：

抽取模块10，用于根据预设的抽取任务和抽取规则，从本地关系型数据库中获取对应的目标数据。

获取通用数据类型模块20，用于基于预设的通用数据类型标准，确定所述目标数据的数据类型对应的通用数据类型格式。

第一输出模块30，用于将所述目标数据和对应的通用数据类型格式发送至目标系统，以使该目标系统根据所述通用数据类型格式确定所述目标数据对应在该目标系统中的目标数据类型格式，并基于该目标数据类型格式完成对所述目标数据的应用。

在本申请一个实施例中，所述通用数据类型标准用于存储数据的数据类型与通用数据类型格式之间的对应关系。

在本申请一个实施例中，所述抽取模块，还包含有：

获取地址单元，用于根据所述抽取任务，获取所述目标系统的信息和目标数据的本地存储目录。

在本申请一个实施例中，所述抽取模块，包含有：

获取抽取任务单元，用于根据所述预设的抽取任务获取对应的抽取规则。

获取目标数据单元，用于应用所述抽取规则中的目标数据表信息、过滤条件和抽取周期获取所述目标数据。

在本申请一个实施例中，所述的基于关系型数据库的数据抽取装置，还包含有：

生成文件模块，用于根据所述目标数据和预设的通用数据类型标准，生成目标数据存储文件和通用数据类型存储文件。

第二输出模块，用于将所述目标数据存储文件和通用数据类型存储文件发送至所述目标系统，以使所述目标系统根据所述通用数据类型存储文件确定所述目标数据存储文件中的目标数据对应在该目标系统中的目标数据类型格式，并基于该目标数据类型格式完成对所述目标数据的应用。

生成目标数据校验文件模块，用于根据所述目标数据存储文件，生成目标数据校验文件。

校验模块，用于将所述目标数据存储文件、目标数据校验文件和通用数据类型存储文件发送至所述目标系统，以使所述目标系统根据所述目标数据校验文件判断获取的目标数据是否正确。

在本申请一个实施例中，各所述目标数据分别对应有字段名称，其中，该字段名称和所述目标数据为一对多或多对多的对应关系；在所述目标数据存储文件中各行数据分别包含有各所述字段名称对应的一组目标数据；所述目标数据存储文件对应的数据表中的每一行均用于存储各个所述字段名称各自对应目标数据，且每一行均用于存储相互之间存在唯一对应关系的所述目标数据。

在本申请一个实施例中，所述目标数据校验文件包含有：所述目标数据存储文件的文件名、文件大小、数据行数、抽取开始时间和抽取结束时间。

在本申请一个实施例中，所述通用数据类型存储文件包含有：所述目标数据对应的数据表表名、表的主键字段、字段数、字段名称和各字段对应的通用数据类型信息。

为了进一步说明本方案，本申请还提供一种基于关系型数据库的数据抽取方法的具体应用实例，参见图6，具体包含有如下内容：

S1：读取抽取任务和抽取规则。

参见表1(抽取任务定义表)，抽取任务是调度的基础，每个任务用一个exp_id标识。每个任务中可以包含一个或多个表(视图)的数据抽取。各所述抽取任务中均包含有对应的导出ID、数据来源、目标节点位置、文件处理模式、机构号、导出方根目录、导入方根目录、暂停标志、最后处理时间、最后导出状态、控制类型和文件保留时间。具体描述如下：

导出ID：用于标识任务，一个导出ID代表一个任务，是一个或多个表/视图的组合，当系统存在多个导出ID时，调度程序可以同时启动多个任务以提高效率。数据来源：用于标识数据来源。部署位置：用于标识数据来源的物理部署位置。目标节点位置：用于表示文件使用方标志，支持多使用方；即一个任务可以对应多个目标系统。文件处理模式：文件处理模式，包含有加验、加密、和压缩。机构号：用于区分数据来源系统中的各子机构。导出方：表示导出数据的存储根目录。导入方根目录：表示接收方数据存储根目录。暂停标志：用于确定任务状态，正常、正在执行或暂停。最后处理时间：用于记录该任务最后一次处理的时间。最后导出状态：用于记录最后导出状态是否成功。控制类型：用于确定任务的执行方式，执行方式包含有：导出后发送文件、仅导出文件、仅发送文件和重新发送失败的文件。文件保留时间：用于记录文件在本地磁盘存储的天数，过期后删除等。

表1

参见表2(抽取规则定义表)，抽取规则定义了每个任务中需要抽取数据的表格清单，针对每个表格，定义独立的抽取条件。各所述抽取任务对应至少一个抽取规则；任一所述抽取规则对应一个抽取任务。各所述抽取规则均包含有：导出ID、属主、表名、视图名、导出类型、初始化标志、DDL标志、过滤条件、导出周期、导出周期描述、导出延迟时间和定长标志等。具体描述如下：

导出ID：用于确定所述抽取规则对应的抽取任务。属主：用于确认所述抽取规则对应的目标数据表在数据库中的属主。表名：所述抽取规则对应的目标数据表的表名。视图名：为抽取数据创建的视图名。导出类型：用于确定数据的导出类型，导出类型包含有：每次都全量导出类型和每次增量导出类型。DDL标志：包含有不生成标志和生成标志，只有在首次抽取数据或者需抽取数据的字段格式发生改变时才生成。过滤条件：用于确定待抽取的目标数据，是数据抽取的过滤条件，按标准SQL语句中条件填写。导出周期：用于确定导出频率，如每日多次或每日一次。导出周期描述：用于确定导出对应的时间点。导出延迟时间：用于确定抽取数据是否延迟及延迟时长。定长标志用于确定对于字符字段是否填充空格等。

表2

/>

S2：根据抽取规则判断是否开始执行对应的抽取任务。

具体地，若当前系统时间大于抽取规则定义表中下次导出时间，则根据所述抽取规则从本地关系型数据库的目标数据表中获取目标数据；其中，每个所述抽取规则均与本地关系型数据库中的任一数据表之间存在对应关系，且各个所述数据表可以不对应任何所述抽取规则，或对应多个所述抽取规则。根据所述抽取规则中的导出ID确定其对应的抽取任务，用以确定数据抽取过程中数据传输方式及存储位置等。

S3：若是，则按照数据格式生成对应的文件。

具体地，参见图7，从源关系型数据库中获取目标数据，根据目标数据对应生成3种文件名相同但后缀名不同的文件，生成文件后进行数据装载，将数据发送至数据适用方关系型数据库。

.dat文件：包含有需要抽取的表格中的数据，格式是普通的文本文件，一行数据对应关系型数据表中的一条记录，记录字段之间通过分隔符分隔。.dat文件即上述目标数据存储文件。

.xml文件：这是标准的xml格式文件，记录的元素包含有：对应.dat文件的完整文件名、行数、字节数、抽取规则等。本文件的目的是方便数据使用方校验.dat文件。.xml文件即上述目标数据校验文件。

.ddl文件：包含有.dat文件中各数据对应的各字段的数据类型的通用格式，格式是普通的文本文件。.ddl文件即上述通用数据类型存储文件。可以理解的是，在关系型数据库的表格中，每个字段必须格式明确的数据类型，例如，对于“订单编号”这个字段的数据类型，用文字可以描述为：“只能包含有字母和数字，最大长度20个字符”，在不同的关系型数据库中，这个数据类型的格式是不同的，具体参见表3：

表3

.ddl文件起到桥梁作用，使不同的关系型数据库都可以使用.dat文件。

为了避免相同含义的数据类型在不同的关系型数据库中有不同的格式，参见表4，本申请定义了一整套数据类型的通用定义，即上述预设的通用数据类型标准，这套通用定义能覆盖目前主流关系型数据库的所有数据类型，例如，Oracle、Mysql和SQLServer。

表4

/>

在数据抽取时，将特定关系型数据库的数据类型格式转化为通用格式，并记载在ddl文件中，数据使用方通过解析ddl文件，将通用格式转化为自用关系型数据库的数据类型格式。数据类型的通用格式是一座桥梁，将不同的数据类型格式统一起来。

具体地，.ddl文件只有在首次抽取数据或者需抽取数据的字段格式发生改变时才生成，这样数据使用方通过解析.ddl文件，可以方便的使用.dat文件。.ddl文件还可以非常灵活的应对系统变更，当.dat文件格式改变时，数据使用方重新解析.ddl文件即可，不需要人工干预。

S4：记录文件清单。

具体地，数据抽取并生成文件后，记录这些文件，记录的要素包含有对应的导出ID、完整文件名和文件生成时间。

具体地，为了方便在不同系统间正确的抽取文件，对于不同关系型数据库中的数据类型做了统一的约定，并根据每个表抽取得到的目标数据生成特定的.ddl文件，该文件描述抽取出的文件的字段类型。

任务调度根据抽取规则定义中的导出周期、导出周期描述、导出延迟时间、数据导出开始时间和数据导出终止时间等要素即上述抽取周期，判定抽取任务是否应该开始执行。

具体地该具体应用实例提供的基于关系型数据库的数据抽取方法，是为了生成能使多种系统识别的统一的格式数据，使用通用格式来描述数据内容，使不同的关系型数据库都能够轻松解读数据内容，数据内容本身不发生改变。

为了进一步说明本方案，本申请还提供一种基于关系型数据库的数据抽取方法的具体应用实例，具体包含有如下内容：

S5：预定的任务启动后，获取预定的规则，比较当前时间和下次抽取时间，如果当前时间<下次抽取时间，本次任务终止；否则下一步。

S6：按预定的规则中的目标表信息、抽取类型和过滤条件等抽取数据。

S7：根据抽取周期和抽取周期描述计算出下次抽取时间，并记录到抽取规则表中，供下次抽取数据时使用，具体计算方法如下：

导出周期＝每日多次，那么抽取周期描述只能是时间间隔，以分钟计算，因此：下次抽取时间＝当前时间+抽取周期描述；

导出周期＝每日一次，因此：下次抽取时间＝明天日期+抽取周期描述；

导出周期＝每月一次，因此：下次抽取时间＝下月的日期+抽取周期描述。

S8：生成校验文件等后续步骤。

S9：本次任务完成。

从上述描述可知，本申请实施例提供的基于关系型数据库的数据抽取方法包含有：基于关系型数据库的数据抽取，提前定义好数据抽取规则(例如：需抽取的表或视图名称、抽取条件、需要展现的数据列、数据存储目录等)和抽取周期(例如：每日多次、每日一次、每月一次、每年一次等)，在时间点到来时，按统一的格式和文件名命令规则，自动生成目标文件，并存储到合适的目录中，以便其它子系统或外部系统使用。所述的基于关系型数据库的数据抽取方法及装置具体具有以下优点：

灵活性，数据抽取条件可配置，可方便的选取任意想要的数据；数据抽取周期可配置，每日、每周、每月等周期自由选择；提供多种供数形式(初始化数据、全量数据、增量数据、删除数据)，便于使用数据的系统在初始上线、日常维护等生命周期中都能方便的处理；使用统一的数据格式，适应多种关系型数据；

高效率，按照系统的负载压力自由的确定任务调度规则，提高系统的数据抽取效率。以单表数据抽取为基本工作任务，当需要抽取多个表的数据时，可以将多个表格定义为一个工作任务，多表依次执行；也可以将多个表格式为多个工作任务，多个工作任务可以同时执行，也可以依次执行。

从硬件层面来说，为了能够提高关系型数据库中数据抽取的高效性和灵活性，本申请提供一种用于实现所述基于关系型数据库的数据抽取方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现所述基于关系型数据库的数据抽取装置以及用户终端等相关设备之间的信息传输；该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照实施例用于实现所述基于关系型数据库的数据抽取方法的实施例及用于实现所述基于关系型数据库的数据抽取装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图8为本申请实施例的电子设备9600的系统构成的示意框图。如图8所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图8是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在本申请一个或多个实施例中，基于关系型数据库的数据抽取功能可以被集成到中央处理器9100中。其中，中央处理器9100可以被配置为进行如下控制：

从上述描述可知，本申请的实施例提供的电子设备，能够提高关系型数据库中数据抽取的效率和灵活性。

在另一个实施方式中，基于关系型数据库的数据抽取装置可以与中央处理器9100分开配置，例如可以将基于关系型数据库的数据抽取装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现基于关系型数据库的数据抽取功能。

如图8所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图8中所示的所有部件；此外，电子设备9600还可以包括图8中没有示出的部件，可以参考现有技术。

如图8所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备应用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

上述描述可知，本申请的实施例提供的电子设备，能够提高关系型数据库中数据抽取的效率和灵活性。

本申请的实施例还提供能够实现上述实施例中的基于关系型数据库的数据抽取方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的基于关系型数据库的数据抽取方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

从上述描述可知，本申请实施例提供的计算机可读存储介质，能够提高关系型数据库中数据抽取的效率和灵活性。

本申请中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于关系型数据库的数据抽取方法，其特征在于，包括：

基于预设的通用数据类型标准，确定所述目标数据的数据类型对应的通用数据类型格式；所述通用数据类型格式与字符型、数值型、日期与时间型和大对象型分别对应的子内容项对应；

将所述目标数据和对应的通用数据类型格式发送至目标系统，以使该目标系统根据所述通用数据类型格式确定所述目标数据对应在该目标系统中的目标数据类型格式，并基于该目标数据类型格式完成对所述目标数据的应用；

所述根据预设的抽取任务和抽取规则，从本地关系型数据库中获取对应的目标数据，包括：

根据所述预设的抽取任务获取对应的抽取规则；

应用所述抽取规则中的目标数据表信息、过滤条件和抽取周期获取所述目标数据；

在所述根据预设的抽取任务和抽取规则，从本地关系型数据库中获取目标数据和其对应的数据类型之后，还包括：

根据所述目标数据和预设的通用数据类型标准，生成目标数据存储文件和通用数据类型存储文件；

将所述目标数据存储文件和通用数据类型存储文件发送至所述目标系统，以使所述目标系统根据所述通用数据类型存储文件确定所述目标数据存储文件中的目标数据对应在该目标系统中的目标数据类型格式，并基于该目标数据类型格式完成对所述目标数据的应用；

在所述根据所述目标数据和预设的通用数据类型标准，生成目标数据存储文件和通用数据类型存储文件之后，还包括：

根据所述目标数据存储文件，生成目标数据校验文件；

将所述目标数据存储文件、目标数据校验文件和通用数据类型存储文件发送至所述目标系统，以使所述目标系统根据所述目标数据校验文件判断获取的目标数据是否正确；

一个抽取任务对应至少一个抽取规则，一个抽取规则仅对应一个抽取任务；一个抽取规则对应一个目标数据表，一个目标数据表可以对应多个抽取规则；抽取规则和目标数据存储文件之间一一对应，目标数据存储文件和目标数据校验文件之间一一对应；目标数据存储文件和通用数据类型存储文件之间一一对应。

2.根据权利要求1所述的基于关系型数据库的数据抽取方法，其特征在于，所述通用数据类型标准用于存储数据的数据类型与通用数据类型格式之间的对应关系。

3.根据权利要求1所述的基于关系型数据库的数据抽取方法，其特征在于，所述根据预设的抽取任务和抽取规则，从本地关系型数据库中获取对应的目标数据，还包括：

根据所述抽取任务，获取所述目标系统的信息和目标数据的本地存储目录。

4.根据权利要求1所述的基于关系型数据库的数据抽取方法，其特征在于，

各所述目标数据分别对应有字段名称，其中，该字段名称和所述目标数据为一对多或多对多的对应关系；

在所述目标数据存储文件中各行数据分别包含有各所述字段名称对应的一组目标数据；

所述目标数据存储文件对应的数据表中的每一行均用于存储各个所述字段名称各自对应目标数据，且每一行均用于存储相互之间存在唯一对应关系的所述目标数据。

5.根据权利要求1所述的基于关系型数据库的数据抽取方法，其特征在于，所述目标数据校验文件包括：所述目标数据存储文件的文件名、文件大小、数据行数、抽取开始时间和抽取结束时间。

6.根据权利要求1所述的基于关系型数据库的数据抽取方法，其特征在于，所述通用数据类型存储文件包括：

所述目标数据对应的数据表表名、表的主键字段、字段数、字段名称和各字段对应的通用数据类型信息。

7.一种基于关系型数据库的数据抽取装置，其特征在于，包括：

获取通用数据类型模块，用于基于预设的通用数据类型标准，确定所述目标数据的数据类型对应的通用数据类型格式；所述通用数据类型格式与字符型、数值型、日期与时间型和大对象型分别对应的子内容项对应；

第一输出模块，用于将所述目标数据和对应的通用数据类型格式发送至目标系统，以使该目标系统根据所述通用数据类型格式确定所述目标数据对应在该目标系统中的目标数据类型格式，并基于该目标数据类型格式完成对所述目标数据的应用；

所述抽取模块，包括：

获取抽取任务单元，用于根据所述预设的抽取任务获取对应的抽取规则；

获取目标数据单元，用于应用所述抽取规则中的目标数据表信息、过滤条件和抽取周期获取所述目标数据；

还包括：

生成文件模块，用于根据所述目标数据和预设的通用数据类型标准，生成目标数据存储文件和通用数据类型存储文件；

第二输出模块，用于将所述目标数据存储文件和通用数据类型存储文件发送至所述目标系统，以使所述目标系统根据所述通用数据类型存储文件确定所述目标数据存储文件中的目标数据对应在该目标系统中的目标数据类型格式，并基于该目标数据类型格式完成对所述目标数据的应用；

还包括：

生成目标数据校验文件模块，用于根据所述目标数据存储文件，生成目标数据校验文件；

校验模块，用于将所述目标数据存储文件、目标数据校验文件和通用数据类型存储文件发送至所述目标系统，以使所述目标系统根据所述目标数据校验文件判断获取的目标数据是否正确；

8.根据权利要求7所述的基于关系型数据库的数据抽取装置，其特征在于，所述通用数据类型标准用于存储数据的数据类型与通用数据类型格式之间的对应关系。

9.根据权利要求7所述的基于关系型数据库的数据抽取装置，其特征在于，所述抽取模块，还包括：

10.根据权利要求7所述的基于关系型数据库的数据抽取装置，其特征在于，

11.根据权利要求7所述的基于关系型数据库的数据抽取装置，其特征在于，所述目标数据校验文件包括：所述目标数据存储文件的文件名、文件大小、数据行数、抽取开始时间和抽取结束时间。

12.根据权利要求7所述的基于关系型数据库的数据抽取装置，其特征在于，所述通用数据类型存储文件包括：

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6任一项所述的基于关系型数据库的数据抽取方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被执行时实现权利要求1至6任一项所述的基于关系型数据库的数据抽取方法的步骤。