CN110555065A

CN110555065A - 一种数据处理方法及装置

Info

Publication number: CN110555065A
Application number: CN201810265795.7A
Authority: CN
Inventors: 曾国文; 赵宝峰; 徐健强; 付文豪; 周小乐; 杨志勇
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2019-12-10

Abstract

本发明实施例提供一种数据处理方法及装置。所述方法包括：获取源数据库的第一数据以及目标数据库的第二数据；根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据；所述预设数据处理模型包括多个数据处理逻辑算法；将所述第三数据加载至所述目标数据库。所述装置用于执行上述方法。本发明提供的方法及装置提高了数据处理效率。

Description

一种数据处理方法及装置

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种数据处理方法及装置。

背景技术

随着信息化时代的到来，信息已经成为现代企业的重要资源，是企业运用科学管理、决策分析的基础。目前，大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务系统和办公自动化系统，用来记录事务处理的各种相关数据，因此，对于数据的整合处理方法的研究也越来越受到人们的关注。

据统计，数据量每2～3年时间就会成倍增长，数据仓库技术(Extract-Transform-Load，ETL)已经成为了企业进行数据处理的重要技术手段之一，ETL包括“抽取(Extract)”、“转换(Transform)”、“装载(Load)”，其中抽取是指将数据从各种数据库中读取出来；转换是指按照预先设计好的规则将抽取得数据进行转换，使本来异构的数据格式能统一起来；装载是指将经过转换之后的数据按计划增量或全部导入到数据仓库中。现有技术条件在，在通过ETL进行数据处理时，往往需要根据数据处理需求人工开发数据处理代码(包括定义源数据库和目标数据库、组件内部定义、组件组合、参数配置、关键选项定义等)，这样不仅开发周期长，需要投入人力大，尤其是在面对现在以大数据为核心的数据库时工作量会大大增加；而且人工开发数据处理代码的过程中涉及多人团队共同参与，开发思维实现各不相同，人为开发代码容易遗漏等问题，同时现有的ETL技术缺少完善的数据稽核功能，无法保证数据处理质量。综上所述，现有技术条件下的数据处理方法大大影响了数据处理效率。

因此，提出一种方法来提高数据处理效率是目前业界亟待解决的重要课题。

发明内容

针对现有技术中的缺陷，本发明实施例提供一种数据处理方法及装置。

一方面，本发明实施例提供一种数据处理方法，包括：

获取源数据库的第一数据以及目标数据库的第二数据；

根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据；所述预设数据处理模型包括多个数据处理逻辑算法；

将所述第三数据加载至所述目标数据库。

另一方面，本发明实施例提供一种数据处理装置，包括：

获取单元，用于获取源数据库的第一数据以及目标数据库的第二数据；

处理单元，用于根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据；所述预设数据处理模型包括多个数据处理逻辑算法；

加载单元，用于将所述第三数据加载至所述目标数据库。

又一方面，本发明实施例提供一种电子设备，包括处理器、存储器和总线，其中：

所述处理器，所述存储器通过总线完成相互间的通信；

所述处理器可以调用存储器中的计算机程序，以执行上述方法的步骤。

再一方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明实施例提供的数据处理方法及装置，通过获取源数据库的第一数据以及目标数据库的第二数据，并根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据，所述预设数据处理模型包括多个数据处理逻辑算法，再将所述第三数据加载至所述目标数据库，提高了数据处理效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的数据处理方法的流程示意图；

图2为本发明实施例提供的数据处理装置的结构示意图；

图3为本发明实施例提供的电子设备实体装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的数据处理方法，如图1所示，本实施例提供一种数据处理方法，包括：

S101、获取源数据库的第一数据以及目标数据库的第二数据；

具体地，数据处理装置可以通过JDBC接口、ODBC接口、hive等多种方式接入所述源数据库和所述目标数据库，获取源数据库的第一数据以及目标数据库的第二数据。其中，所述源数据库包括DB2、Oracle、Mysql、MS SQL Server、Sybase等各种主流数据库，还可以包括其他数据库，具体可以根据实际情况进行设置和调整，此处不做具体限定；所述目标数据库可以是数据仓库(Data Warehouse，DW)。所述第一数据和所述第二数据包括系统文件、Excel文件、可扩展标记语言(Extensible Markup Language，XML)文件、轻量目录访问协议(Lightweight Directory Access Protocol，LDAP)文件、SOAP/WebServcie、逗号分隔值文件格式(Comma-Separated Values，CSV)文件和简易信息聚合(Really SimpleSyndication，RSS)文件等各种数据，还可以包括其他数据，具体可以根据实际情况进行设置和调整，此处不做具体限定。可以理解的是，所述数据处理装置可以是具备数据仓库技术(Extract-Transform-Load，ETL)的服务器，还可以是其他的数据处理装置，具体可以根据实际情况进行设置和调整，此处不做具体限定。

S102、根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据；所述预设数据处理模型包括多个数据处理逻辑算法；

具体地，所述装置根据所述第一数据和所述第二数据，按照预设数据处理模型对所述第一数据和所述第二数据进行数据处理，获得所述第三数据；其中，所述预设数据处理模型包括多个数据处理逻辑算法，所述数据处理逻辑算法包括：全删全插算法、增量同步算法、拉链表算法、数据稽核算法，还可以包括其他数据处理逻辑算法，具体可以根据实际情况进行设置和调整，此处不做具体限定。

S103、将所述第三数据加载至所述目标数据库。

具体地，所述装置将根据所述第一数据和所述第二数据按照预设数据处理模型获取到的第三数据加载至所述目标数据库。

应当说明的是，本发明实施例仅描述一组源数据库和目标数据库之间的数据处理流程，当存在多组源数据库和目标数据库时，各组源数据库和目标数据库的数据处理流程可以并行批量进行，各组源数据库和目标数据库的数据处理流程与上述流程一致，此处不再赘述。

本发明实施例提供的数据处理方法，通过获取源数据库的第一数据以及目标数据库的第二数据，并根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据，所述预设数据处理模型包括多个数据处理逻辑算法，再将所述第三数据加载至所述目标数据库，提高了数据处理效率。

在上述实施例的基础上，进一步地，所述数据处理逻辑算法包括：全删全插算法、增量同步算法、拉链表算法、数据稽核算法。

具体地，所述数据处理逻辑算法包括：全删全插算法、增量同步算法、拉链表算法、数据稽核算法，还可以包括append算法等其他数据处理逻辑算法，具体可以根据实际情况进行设置和调整，此处不做具体限定。其中，所述全删全插算法是指对目标数据库清空后，将所述源数据库的数据实现全量加载；增量同步算法(upsert算法)是指通过时间条件过滤，并所述源数据库跟所述目标数据库的关键字段比较，判断出增量部分数据，再将增量部分数据同步加载至目标数据库；所述拉链表算法是指通过关键字段和加载时间，确定出数据同步流程，并在目标数据库中记录相应的数据同步轨迹；所述数据稽核算法是指获取源数据库和目标数据库中有效的全量数据，并根据以所述全量数据生成的MD5字段是否一致性，判断所述源数据库和所述目标数据库中有效的全量数据是否符合一致性稽核；所述append算法：通过圈定增量部分数据加载到目标数据库中。

在上述实施例的基础上，进一步地，所述方法还包括：

根据预先储存的所述各数据处理逻辑算法的XML文件，生成所述各数据处理逻辑算法对应的可执行Java脚本；

设置所述各数据处理逻辑算法的可执行Java脚本对应的API接口，生成所述预设数据处理模型。

具体地，技术人员预先将所述各数据处理逻辑算法对应的XML文件载入所述装置，所述装置储存所述各数据处理逻辑算法对应的XML文件，XML一般指可拓展标记语言，是标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。所述装置对所述XML文件进行导出打开，可以分析出XML文件的标记性关键信息，例如，通分析XML文件的<slaveservers>段信息，可以找到相关的连接信息和服务器信息。所述装置再通过预先设置的转译jar包，首先根据各XML文件的结构信息动态构建所述数据处理逻辑算法的层次结构，然后分析各XML文件的详细信息，动态的生成出Java的class文件，然后通过Java的反射机制绑定执行动态生成的class文件，从而将所述XML各数据处理逻辑算法对应的XML文件转译为所述各数据处理逻辑算法对应的可执行Java脚本。然后，所述装置为所述各数据处理逻辑算法的可执行Java脚本设置对应的应用程序编程接口(ApplicationProgramming Interface，API)接口，生成所述预设数据处理模型。可以理解的是，所述转译jar包可以包括：avalon-framework-4.1.3.jar、commons-collections-3.2.jar、commons-io-1.4.jar、commons-lang-2.4.jar、commons-logging-1.1.jar、commons-vfs-20091118-pentaho.jar、ETL-core-4.4.0-GA.jar、ETL-db-4.4.0-GA.jar、ETL-engine-4.4.0-GA.jar、log4j-1.2.12.jar、logkit-1.0.1.jar、servlet-api-2.3.jar，还可以包括其他jar包，具体可以根据实际情况进行设置和调整，此处不做具体限定。

在上述实施例的基础上，进一步地，所述根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据，包括：

根据所述第一数据和所述第二数据，从所述多个数据处理逻辑算法中确定目标数据处理逻辑算法；

调用所述目标数据处理逻辑算法对应的API接口，对所述第一数据和所述第二数据运行所述目标数据处理逻辑算法对应的可执行Java脚本，获得所述第三数据。

具体地，所述装置根据所述第一数据和所述第二数据，从所述多个数据处理逻辑算法中确定目标数据处理逻辑算法，然后调用所述目标数据处理逻辑算法对应的API接口，对所述第一数据和所述第二数据运行所述目标数据处理逻辑算法对应的可执行Java脚本，获得所述第三数据。可以理解的是，当存在多组源数据库和目标数据库时，所述装置可以针对每一组源数据库和目标数据库，并行调用各组源数据库和目标数据库对应的目标数据处理逻辑算法对应的API接口。

例如，所述装置在获取源数据库的第一数据以及目标数据库的第二数据，把所述第一数据和所述第二数据进行比对，确定所述源数据库和所述目标数据库的数据变更情况，但是在实际应用过程中，如果单单只对比所述第一数据和所述第二数据的关键ID列值就无法确定其他列值的变更情况，需要在这里生成一个MD5全列值数据，因此所述装置调用所述数据稽核算法对应的API接口，然后通过normal join、left join、right join和fulljoin等组件，对所述第一数据和所述第二数据进行关联，并将所述第一数据和所述第二数据进行分流处理，具体分离过程包括：将在目标数据库中对应的ID为空的列值数据作为inset数据流，并用0进行标记；将源数据库中对应的ID与目标数据库中对应的ID一致的数据流作为update数据流，并用1进行标记；将源数据库中对应的ID为空的列值数据作为delete数据流，并用2进行标记；然后，所述装置分别调用相应的数据处理逻辑算法分别对inset数据流、update数据流和delete数据流进行数据处理，获得将经过数据处理之后的三个数据流进行汇总之后加载至目标数据库中。

在上述实施例的基础上，进一步地，所述目标数据处理逻辑算法为多个；相应地，所述调用所述目标数据处理逻辑算法对应的API接口，对所述第一数据和所述第二数据运行所述目标数据处理逻辑算法对应的可执行Java脚本，包括：

根据预先设置的数据处理逻辑算法操作优先级列表，确定所述多个目标数据处理逻辑算法对应API接口的调用顺序；

按照所述调用顺序依次调用所述各目标数据处理逻辑算法对应的可执行Java脚本。

具体地，所述装置根据预先设置的数据处理逻辑算法操作优先级列表，确定所述多个目标数据处理逻辑算法对应API接口的调用顺序，按照所述调用顺序依次调用所述各目标数据处理逻辑算法对应的可执行Java脚本。也就是说所述装置在调用上一个目标数据处理逻辑算法对应的API接口执行完上一个目标数据处理逻辑算法对应的可执行Java脚本之后，按照所述调用顺序自动识别和调用下一个目标数据处理逻辑算法对应的API接口运行下一个目标数据处理逻辑算法对应的可执行Java脚本，直到所述多个目标数据处理逻辑算法对应的API接口全部被调用完成各自对应的可执行Java脚本运行为止。

在上述实施例的基础上，进一步地，所述方法还包括：

在根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据之前，对所述第一数据和所述第二数据进行条件过滤。

具体地，所述装置在根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据之前，对所述第一数据和所述第二数据进行条件过滤，所述条件过滤具体是指将不符合要求的数据过滤掉，所述不符合要求的数据可包括不完整的数据、错误的数据、重复的数据三大类，当然所述条件过滤的不符合要求的数据还可以包括其他数据，具体可以根据实际情况进行设置和调整，此处不做具体限定。其中，不完整的数据主要指一些应该有的信息缺失，如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等；错误的数据一般指在接收输入后没有进行判断直接写入数据库中造成的错误数据，比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等；重复的数据主要指在数据库中重复出现的数据。

在上述各实施例中，所述方法还包括：

获取所述源数据库对应的第一数据配置参数信息和所述目标数据库的第二数据配置参数信息；

根据第一数据配置参数信息和所述第二数据配置参数信息对所述第一数据和所述第二数据进行数据格式转换，使得所述第一数据和所述第二数据的数据格式一致。

具体地，一般情况下，源数据库和目标数据库的业务环境不同，数据的储存方式也不相同，导致所述第一数据和所述第二数据的数据格式在大多数情况下都不是一致的，因此，需要在对所述第一数据和所述第二数据按照预设数据处理模型获取第三数据之前，对所述第一数据和所述第二数据进行格式转换，使得二者数据格式一致。所述装置获取所述源数据库对应的第一数据配置参数信息和所述目标数据库对应的第二数据配置参数信息，分别根据所述第一数据配置参数信息和所述第二数据配置参数信息对所述第一数据和所述第二数据进行解析，根据解析结果对所述第一数据和所述第二数据进行数据格式转换，使得所述第一数据和所述第二数据的数据格式一致。可以理解的是，所述第一数据配置参数信息和所述第二数据配置参数信息可以为包括所述源数据库的元数据和所述目标数据库的元数据，所述元数据是描述数据库内数据的结构和建立方法的数据，可将其按用途的不同分为两类：技术元数据和商业元数据，技术元数据包括：数据源信息、数据转换的描述、数据库内对象和数据结构的定义、数据清理和数据更新时用的规则、用户访问权限、数据备份历史记录、数据导入历史记录、信息发布历史记录等；商业元数据从商业业务的角度描述了数据库中的数据，包括：业务主题的描述，包含的数据、查询、报表等。当然，所述第一数据配置参数信息和所述第二数据配置参数信息还可以包括其他信息，如连接关系、转换逻辑等，具体可以根据实际情况进行设置和调整，此处不做具体限定。

图2为本发明实施例提供的数据处理装置的结构示意图，如图2所示，本发明实施例提供一种数据处理装置，包括：获取单元201、处理单元202和加载单元203，其中：

获取单元201用于获取源数据库的第一数据以及目标数据库的第二数据；处理单元202用于根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据；所述预设数据处理模型包括多个数据处理逻辑算法；加载单元203用于将所述第三数据加载至所述目标数据库。

本发明实施例提供的数据处理装置，通过获取源数据库的第一数据以及目标数据库的第二数据，并根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据，所述预设数据处理模型包括多个数据处理逻辑算法，再将所述第三数据加载至所述目标数据库，提高了数据处理效率。

可选地，所述数据处理逻辑算法包括：全删全插算法、增量同步算法、拉链表算法、数据稽核算法。

可选地，处理单元202还用于根据预先储存的所述各数据处理逻辑算法的XML文件，生成所述各数据处理逻辑算法对应的可执行Java脚本；设置所述各数据处理逻辑算法的可执行Java脚本对应的API接口，生成所述预设数据处理模型。

可选地，处理单元202具体用于根据所述第一数据和所述第二数据，从所述多个数据处理逻辑算法中确定目标数据处理逻辑算法；调用所述目标数据处理逻辑算法对应的API接口，对所述第一数据和所述第二数据运行所述目标数据处理逻辑算法对应的可执行Java脚本，获得所述第三数据。

可选地，所述目标数据处理逻辑算法为多个；相应地，处理单元202具体用于根据预先设置的数据处理逻辑算法操作优先级列表，确定所述多个目标数据处理逻辑算法对应API接口的调用顺序；按照所述调用顺序依次调用所述各目标数据处理逻辑算法对应的可执行Java脚本。

可选地，处理单元202还用于在根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据之前，对所述第一数据和所述第二数据进行条件过滤。

可选地，处理单元202还用于获取所述源数据库对应的第一数据配置参数信息和所述目标数据库对应的第二数据配置参数信息；根据第一数据配置参数信息和所述第二数据配置参数信息对所述第一数据和所述第二数据进行数据格式转换，使得所述第一数据和所述第二数据的数据格式一致。

本发明提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图3为本发明实施例提供的电子设备实体装置结构示意图，如图3所示，该电子设备可以包括：处理器(processor)301、存储器(memory)302和总线303，其中，处理器301，存储器302通过总线303完成相互间的通信。处理器301可以调用存储器302中的计算机程序，上述各方法实施例所提供的方法，例如包括：获取源数据库的第一数据以及目标数据库的第二数据；根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据；所述预设数据处理模型包括多个数据处理逻辑算法；将所述第三数据加载至所述目标数据库。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取源数据库的第一数据以及目标数据库的第二数据；根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据；所述预设数据处理模型包括多个数据处理逻辑算法；将所述第三数据加载至所述目标数据库。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取源数据库的第一数据以及目标数据库的第二数据；根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据；所述预设数据处理模型包括多个数据处理逻辑算法；将所述第三数据加载至所述目标数据库。

此外，上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取源数据库的第一数据以及目标数据库的第二数据；

将所述第三数据加载至所述目标数据库。

2.根据权利要求1所述的方法，其特征在于，所述数据处理逻辑算法包括：全删全插算法、增量同步算法、拉链表算法、数据稽核算法。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一数据和所述第二数据按照预设数据处理模型获取第三数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述目标数据处理逻辑算法为多个；相应地，所述调用所述目标数据处理逻辑算法对应的API接口，对所述第一数据和所述第二数据运行所述目标数据处理逻辑算法对应的可执行Java脚本，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-6任意一项所述的方法，其特征在于，所述方法还包括：

获取所述源数据库对应的第一数据配置参数信息和所述目标数据库对应的第二数据配置参数信息；

8.一种数据处理装置，其特征在于，包括：

加载单元，用于将所述第三数据加载至所述目标数据库。

9.一种电子设备，其特征在于，包括处理器、存储器和总线，其中：

所述处理器，所述存储器通过总线完成相互间的通信；

所述处理器可以调用存储器中的计算机程序，以执行如权利要求1-7任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任意一项所述方法的步骤。