CN110618988B

CN110618988B - 基于大数据平台的数据处理方法及装置

Info

Publication number: CN110618988B
Application number: CN201910891563.7A
Authority: CN
Inventors: 李英军; 王宇超; 陈志�; 张奇; 余春祖
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2022-09-23
Anticipated expiration: 2039-09-20
Also published as: CN110618988A

Abstract

本申请公开了一种基于大数据平台的数据处理方法及装置，该方法包括：获取变更数据、变更数据的元数据信息，以及变更数据在数据处理过程中指定处理环节的处理方式；根据变更数据确定变更数据的数据源标识，将变更数据、元数据信息、指定处理环节的处理方式和数据源标识的对应关系写入配置文件；读取配置文件，根据配置文件中预设的数据处理过程中除指定处理环节外其他处理环节的处理方式与指定处理环节的处理方式生成变更数据的完整处理方式；按照完整处理方式依次调用每个处理环节的处理程序对变更数据进行处理；将处理完成的数据添加入目标数据表中。本申请可以减少工作人员的工作量以及遗漏等问题的出现。

Description

基于大数据平台的数据处理方法及装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种基于大数据平台的数据处理方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在面临来自企业等广大外部数据源的数据时，大数据平台需要完成数据接收、清洗、装换和加载至本地等一系列流程的工作。并且，在大数据体量下，大数据平台经常面临新建表或变更表结构这样的需求。针对每张新增的表，系统需要对其进行是否到达的接收检查、到达后清洗、判断其是否需要与前一日数据合并并执行相应操作以及落地加载等处理步骤；针对新增字段和删除字段等表结构变更需求，系统同样需要执行接收检查、清洗和判断其是否需要与前一日数据合并并执行相应操作等处理步骤。由于表的数量较多、每张表的处理步骤较多，且每个处理步骤需要人工设计、编写处理程序和测试，工作人员的工作量巨大，同时也很容易出现遗漏等问题，进而导致大数据平台出现漏洞。

发明内容

本申请实施例提供一种基于大数据平台的数据处理方法，用以减少工作人员的工作量以及遗漏等问题的出现，该方法包括：

获取变更数据、变更数据的元数据信息，以及变更数据在数据处理过程中指定处理环节的处理方式；根据变更数据确定变更数据的数据源标识，将变更数据、元数据信息、指定处理环节的处理方式和数据源标识的对应关系写入配置文件；读取配置文件，根据配置文件中预设的数据处理过程中除指定处理环节外其他处理环节的处理方式与指定处理环节的处理方式生成变更数据的完整处理方式；按照完整处理方式依次调用每个处理环节的处理程序对变更数据进行处理；将处理完成的数据添加入目标数据表中，所述目标数据表根据数据源标识和元数据信息确定。

本申请实施例还提供一种基于大数据平台的数据处理装置，用以减少工作人员的工作量以及遗漏等问题的出现，该装置包括：

获取模块，用于获取变更数据、变更数据的元数据信息，以及变更数据在数据处理过程中指定处理环节的处理方式；配置文件写入模块，用于根据获取模块获取的变更数据确定变更数据的数据源标识，将变更数据、元数据信息、指定处理环节的处理方式和数据源标识的对应关系写入配置文件；处理方式确定模块，用于读取配置文件写入模块修改的配置文件，根据配置文件中预设的数据处理过程中除指定处理环节外其他处理环节的处理方式与指定处理环节的处理方式生成变更数据的完整处理方式；数据处理模块，用于按照处理方式确定模块生成的完整处理方式依次调用每个处理环节的处理程序对变更数据进行处理；落表模块，用于将数据处理模块处理完成的数据添加入目标数据表中，所述目标数据表根据数据源标识和元数据信息确定。

本申请实施例中，在获取变更数据以及在指定处理环节中对于变更数据的处理方式之后，大数据平台根据该指定处理环节的处理方式以及预设的除指定处理环节之外的其他处理环节的处理方式，生成完整的处理变更数据的处理方式，并且每个处理环节对应相应的处理程序，根据处理方式依次调用每个处理环节的处理程序即可实现对于变更数据的处理过程，该过程无需工作人员参与，减轻了工作人员的工作量，并且，通过预设的处理程序自动处理变更数据，也能减少漏洞的出现，减小了大数据平台出现漏洞的可能性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本申请实施例中一种基于大数据平台的数据处理方法的流程图；

图2为本申请实施例中一种基于大数据平台的数据处理装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本申请实施例做进一步详细说明。在此，本申请的示意性实施例及其说明用于解释本申请，但并不作为对本申请的限定。

下面先对本申请实施例中涉及的技术术语进行解释。

抽取-转换-加载(Extract-Transform-Load，ETL)：用来描述将数据从来源端经过抽取、交互转换和加载至目的端的过程。

增量数据：每日新增数据，在银行领域内通常指每日下发的变更后数据。

全量数据：某个时间点全部记录数据。

MID层：存放每日增量数据的目录。

操作数据存储(Operational Data Store，ODS)层：存放每日全量数据的目录。

合并(Merge)：将存T日增量数据文件中的记录与T-1日全量数据文件中记录作比对，主键相同的则取增量文件中记录；增量文件有，全量文件没有的，直接取增量文件记录；全量文件有，增量文件没有的，直接取全量文件记录计入T日的全量数据文件。merge后的数据存储在操作数据存储(Operational Data Store，ODS)层中。

数据清洗(trim)：是大数据领域不可缺少的环节，用来发现并纠正数据中可能存在的错误，针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据选用适当方法进行“清理”，使“脏”数据变为“干净”数据。

本申请提供了一种基于大数据平台的数据处理方法，如图1所示，该方法包括步骤101至步骤105：

步骤101、获取变更数据、变更数据的元数据信息，以及变更数据在数据处理过程中指定处理环节的处理方式。

其中，变更数据包括新建表数据和表结构变更数据。

数据处理过程中的处理环节包括接收检查(check)环节、数据清洗(trim)环节和数据合并(merge)环节；指定处理环节包括merge环节，merge环节的处理方式包括执行merge操作与不执行merge操作。

其中，trim环节采用mapreduce对数据进行清理，比如统一日期格式、去空格、替换分隔符、丢弃脏数据、分隔符补全、判断主键情况和判断字段个数是否正确等；merge环节采用spark sql对数据进行处理，通过hive metastore获取表结构信息，并拼接出merge功能的sql。

一般情况下，大数据平台接收到的变更数据均需要执行check和trim操作，而merge操作是根据变更数据的数据类型选择性执行的。示例性的，根据划分标准的不同，变更数据可以划分为增量数据或全量数据，还可以划分为时点类数据或时段类数据，这样变更数据的数据类型可能是时点类全量数据、时点类增量数据、时段类全量数据或时段类增量数据，在这几种情况下，时点类增量数据需要执行merge操作，而其他情况下不需要。

需要说明的是，由于大数据平台接收的数据类型多种多样，通常由工作人员判断是否需要对变更数据执行merge操作。

步骤102、根据变更数据确定变更数据的数据源标识，将变更数据、元数据信息、指定处理环节的处理方式和数据源标识的对应关系写入配置文件。

广大的外部数据源接入大数据平台，向大数据平台传送变更数据，不同数据源的变更数据所要存储的目标数据表不同。变更数据中携带数据源标识及数据源名称等信息，根据这些信息可以确定变更数据存储的目标数据表。

示例性的，配置文件可以为CONFIG.propertity。

步骤103、读取配置文件，根据配置文件中预设的数据处理过程中除指定处理环节外其他处理环节的处理方式与指定处理环节的处理方式生成变更数据的完整处理方式。

其他处理环节包括check环节和trim环节。

如果变更数据需要执行merge操作，则该变更数据的完整处理方式包括check、trim、和merge；如果变更数据不需要执行merge操作，则变更数据的完整处理方式包括check和trim。

变更数据的完整处理方式也即ETL调度工作流。

步骤104、按照完整处理方式依次调用每个处理环节的处理程序对变更数据进行处理。

在每个处理环节中处理不同变更数据时使用的处理程序相同，因此，可以直接调用预设的每个处理环节的处理程序对变更数据进行处理。该处理过程不需要人为参与，提高了处理变更数据的效率。

新建表数据中包括结构化数据和半结构化数据，由于每个处理环节中处理的是结构化数据，因此，当变更数据为新建表数据时，在按照完整处理方式依次调用每个处理环节的处理程序对变更数据进行处理之前，还需要判断新建表数据为结构化数据还是半结构化数据；如果新建表数据为半结构化数据，则将半结构化数据转化为结构化数据。

在本申请实施例中，可以利用半结构化转结构化工具将半结构化数据转化为结构化数据。

步骤105、将处理完成的数据添加入目标数据表中。

其中，目标数据表根据数据源标识和元数据信息确定。目标数据表设置在ODS层。

当变更数据为新建表数据时，在将处理完成的数据添加入目标数据表之前，需要建立目标数据表。具体的，可以读取配置文件，使用自动生成建表语句工具生成建立目标数据表的程序语句，利用该生成的程序语句建立与数据源标识和元数据信息对应的目标数据表。

当变更数据为表结构变更数据时，将变更数据写入配置文件，包括：根据数据源标识和元数据信息确定进行表结构变更的当前表；比较当前表中字段与元数据信息进行比较，确定变更字段名与字段变更类型；如果字段变更类型为新增字段，则按照每个字段在元数据信息中所处位置对字段标识进行排序，得到第一字段顺序；将第一字段顺序和表结构变更数据写入配置文件；如果字段变更类型为删除字段，则按照每个字段在元数据信息中所处位置进行排序，并将被删除字段的字段标识替换为删除标识，得到第二字段顺序；将第二字段顺序和表结构变更数据写入配置文件。

需要注意的是，如果字段变更类型为新增字段，为了减少数据的重复加载，将新增字段添加在目标数据表的最后位置。如果字段变更类型为删除字段，为了保证数据的全量性，保留目标数据表中的被删除字段，不对目标数据表执行删除字段处理。

示例性的，当前表中字段为col0，col1，col2，col3，col4，col5。

如果根据元数据信息确定数据源表(上游表)在col5后新增字段col6，则在配置文件中配置：N0_A＝0,1,2,3,4,5,6，其中数字0～6表示每个字段在上游表中的位置，并将col6字段添加到当前表的最后位置，当前表更新后的第一字段顺序为col0，col1，col2，col3，col4，col5，col6。

如果上游表在col4和col5之间新增字段col6(即上游表最新的字段顺序为col0，col1，col2，col3，col4，col6，col5)，大数据平台会将col6增加到当前表的最后位置，即col5后，即更新后的表中对应的第一字段顺序为col0，col1，col2，col3，col4，col5，col6，而在配置文件中配置：N0_A＝0,1,2,3,4,6,5，其中6表示上游的col6这个字段。

如果上游表删除col4字段，则在配置文件中配置：N0_A＝0,1,2,3,-1,5，其中数字表示每个字段在该表中的位置，针对删除字段，删除标识-1。

需要说明的是，删除标识可以由人为设置，其可以为数字、字母或符号等，也可以为数字、字母或符号等的组合，任一可以区分被删除字段与其他字段的标识都可以作为删除标识。对于删除标识的具体形式，在此不做限定。

下面将对表结构变更数据在trim环节和merge环节的处理过程进行简要描述。

(1)加载配置文件，获取当前表的表结构字段名与变更数据中数据列号之间的对应关系，比如A表的表结构为col0,col1,col2,col3，变更数据中数据的列信息为col0,col1,col3,col2，那么配置文件中配置的对应关系为0,1,3,2。

对于上游删除字段的情况，hive表(即目标数据表)不删除字段，相应位置配置为删除标识-1，表示该字段已删除。比如A表的表结构为col0,col1,col2,col3，数据文件中数据的列信息为col0,col1,col3，那么配置文件中配置的对应关系为0,1,-1,2。

(2)读取其它配置信息，确定是否需要merge等。

(3)读取数据文件中的一行数据，对数据进行处理，比如替换分隔符、分隔符补全、判断主键情况、判断字段个数是否正确、去空格、丢弃脏数据等。

(4)针对(3)中读取的数据，根据(1)得到的对应关系，对字段进行重排，使变更数据中的字段与hive表结构的字段一一对应，并根据配置对某些字段进行格式化，如日期、币种等字段。

(5)Merge环节采用spark sql对数据进行处理，通过hive metastore获取表结构信息，并拼接出merge功能的sql。表变更后通过hive metastore可以获取到最新的分区表结构，所以关于表变更的情况，无需特殊处理。

本申请实施例提供了一种基于大数据平台的数据处理装置，如图2所示，该装置200包括获取模块201、配置文件写入模块202、处理方式确定模块203、数据处理模块204和落表模块205。

其中，获取模块201，用于获取变更数据、变更数据的元数据信息，以及变更数据在数据处理过程中指定处理环节的处理方式。

配置文件写入模块202，用于根据获取模块201获取的变更数据确定变更数据的数据源标识，将变更数据、元数据信息、指定处理环节的处理方式和数据源标识的对应关系写入配置文件。

处理方式确定模块203，用于读取配置文件写入模块202修改的配置文件，根据配置文件中预设的数据处理过程中除指定处理环节外其他处理环节的处理方式与指定处理环节的处理方式生成变更数据的完整处理方式。

数据处理模块204，用于按照处理方式确定模块203生成的完整处理方式依次调用每个处理环节的处理程序对变更数据进行处理。

落表模块205，用于将数据处理模块204处理完成的数据添加入目标数据表中，目标数据表根据数据源标识和元数据信息确定。

在本申请实施例的一种实现方式中，数据处理过程中的处理环节包括接收检查check环节、数据清洗trim环节和数据合并merge环节。指定处理环节包括merge环节，merge环节的处理方式包括执行merge操作与不执行merge操作。

在本申请实施例的一种实现方式中，装置200还包括：

判断模块206，用于判断获取模块201获取的新建表数据为结构化数据还是半结构化数据。

数据转化模块207，用于当判断模块206判断新建表数据为半结构化数据时，将半结构化数据转化为结构化数据。

在本申请实施例的一种实现方式中，装置200还包括：

建表模块208，用于读取配置文件写入模块202修改的配置文件，建立与数据源标识和元数据信息对应的目标数据表。

在本申请实施例的一种实现方式中，配置文件写入模块202，用于：

根据数据源标识和元数据信息确定进行表结构变更的当前表；

比较当前表中字段与元数据信息进行比较，确定变更字段名与字段变更类型；

当字段变更类型为新增字段时，按照每个字段在元数据信息中所处位置对字段标识进行排序，得到第一字段顺序；将第一字段顺序和表结构变更数据写入配置文件；

当字段变更类型为删除字段时，按照每个字段在元数据信息中所处位置进行排序，并将被删除字段的字段标识替换为删除标识，得到第二字段顺序；将第二字段顺序和表结构变更数据写入配置文件。

在本申请实施例的一种实现方式中，当变更数据为表结构变更数据时，落表模块205，用于：

如果字段变更类型为新增字段，则将新增字段添加在目标数据表的最后位置；

如果字段变更类型为删除字段，则不对目标数据表执行删除字段处理。

本申请实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现步骤101至步骤105任一方法。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有执行步骤101至步骤105任一方法的计算机程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于大数据平台的数据处理方法，其特征在于，所述方法包括：

获取变更数据、变更数据的元数据信息，以及变更数据在数据处理过程中指定处理环节的处理方式；

根据变更数据确定变更数据的数据源标识，将变更数据、元数据信息、指定处理环节的处理方式和数据源标识的对应关系写入配置文件；

读取配置文件，根据配置文件中预设的数据处理过程中除指定处理环节外其他处理环节的处理方式与指定处理环节的处理方式生成变更数据的完整处理方式；

按照完整处理方式依次调用每个处理环节的处理程序对变更数据进行处理；

将处理完成的数据添加入目标数据表中，所述目标数据表根据数据源标识和元数据信息确定；

其中，所述数据处理过程中的处理环节包括接收检查check环节、数据清洗trim环节和数据合并merge环节；所述指定处理环节包括merge环节，merge环节的处理方式包括执行merge操作与不执行merge操作。

2.根据权利要求1所述的方法，其特征在于，当所述变更数据为新建表数据时，在按照完整处理方式依次调用每个处理环节的处理程序对变更数据进行处理之前，所述方法还包括：

判断所述新建表数据为结构化数据还是半结构化数据；

如果所述新建表数据为半结构化数据，则将半结构化数据转化为结构化数据。

3.根据权利要求1所述的方法，其特征在于，当所述变更数据为新建表数据时，在将处理完成的数据添加入目标数据表之前，所述方法还包括：

读取配置文件，建立与数据源标识和元数据信息对应的目标数据表。

4.根据权利要求1所述的方法，其特征在于，当所述变更数据为表结构变更数据时，将变更数据写入配置文件，包括：

如果所述字段变更类型为新增字段，则按照每个字段在元数据信息中所处位置对字段标识进行排序，得到第一字段顺序；将第一字段顺序和表结构变更数据写入配置文件；

如果所述字段变更类型为删除字段，则按照每个字段在元数据信息中所处位置进行排序，并将被删除字段的字段标识替换为删除标识，得到第二字段顺序；将第二字段顺序和表结构变更数据写入配置文件。

5.根据权利要求4所述的方法，其特征在于，当所述变更数据为表结构变更数据时，将处理完成的数据添加入目标数据表中，包括：

如果所述字段变更类型为新增字段，则将新增字段添加在目标数据表的最后位置；

如果所述字段变更类型为删除字段，则不对目标数据表执行删除字段处理。

6.一种基于大数据平台的数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取变更数据、变更数据的元数据信息，以及变更数据在数据处理过程中指定处理环节的处理方式；

配置文件写入模块，用于根据获取模块获取的变更数据确定变更数据的数据源标识，将变更数据、元数据信息、指定处理环节的处理方式和数据源标识的对应关系写入配置文件；

处理方式确定模块，用于读取配置文件写入模块修改的配置文件，根据配置文件中预设的数据处理过程中除指定处理环节外其他处理环节的处理方式与指定处理环节的处理方式生成变更数据的完整处理方式；

数据处理模块，用于按照处理方式确定模块生成的完整处理方式依次调用每个处理环节的处理程序对变更数据进行处理；

落表模块，用于将数据处理模块处理完成的数据添加入目标数据表中，所述目标数据表根据数据源标识和元数据信息确定；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

判断模块，用于判断获取模块获取的新建表数据为结构化数据还是半结构化数据；

数据转化模块，用于当判断模块判断所述新建表数据为半结构化数据时，将半结构化数据转化为结构化数据。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

建表模块，用于读取配置文件写入模块修改的配置文件，建立与数据源标识和元数据信息对应的目标数据表。

9.根据权利要求6所述的装置，其特征在于，所述配置文件写入模块，用于：

当所述字段变更类型为新增字段时，按照每个字段在元数据信息中所处位置对字段标识进行排序，得到第一字段顺序；将第一字段顺序和表结构变更数据写入配置文件；

当所述字段变更类型为删除字段时，按照每个字段在元数据信息中所处位置进行排序，并将被删除字段的字段标识替换为删除标识，得到第二字段顺序；将第二字段顺序和表结构变更数据写入配置文件。

10.根据权利要求9所述的装置，其特征在于，当所述变更数据为表结构变更数据时，落表模块，用于：

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一所述方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至5任一所述方法的计算机程序。