CN113326305A

CN113326305A - 一种处理数据的方法和装置

Info

Publication number: CN113326305A
Application number: CN202110577801.4A
Authority: CN
Inventors: 刘荣华
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-08-31

Abstract

本发明公开了一种处理数据的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：能够为一个或多个数据源类型分别设置一个或多个目标任务，根据各个目标任务包含的数据源信息，分别从所述数据源信息中指定的数据源地址获取原始数据，再根据所述目标任务包含的数据转换关系，将原始数据转换处理为目标数据，并根据所述目标任务包含的一个或多个输出数据源信息，将所述目标数据分别输出到输出数据源类型对应的输出数据源；由此克服了处理数据实时性较差、灵活性较低、效率较低的问题，提高了处理数据的效率。

Description

一种处理数据的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种处理数据的方法和装置。

背景技术

随着大数据应用的广泛发展，对信息系统中的大数据处理的需求越来越频繁、越来越复杂，对大数据处理的要求也越来越高，例如：对处理复杂多变的实时数据ETL(Extract-Transform-Load，抽取-转换-加载)任务的需求，以及对高效、灵活地支持复杂数据转换和处理能力的扩充需求等。

目前，现有的大数据处理方案存在处理数据实时性差、无法处理多种类型的数据源的问题、以及处理复杂数据转换的能力较低的问题，从而造成处理大数据的实时性较差、灵活性较低，降低了处理大数据的效率。

发明内容

有鉴于此，本发明实施例提供一种处理数据的方法和装置，能够为一个或多个数据源类型分别设置一个或多个目标任务，根据各个目标任务包含的数据源信息，分别从所述数据源信息中指定的数据源地址获取原始数据，再根据所述目标任务包含的数据转换关系，将原始数据转换处理为目标数据，并根据所述目标任务包含的一个或多个输出数据源信息，将所述目标数据分别输出到输出数据源类型对应的输出数据源；由此克服了处理数据实时性较差、灵活性较低、效率较低的问题，提高了处理数据的效率。

为实现上述目的，根据本发明实施例的一个方面，提供了一种处理数据的方法，其特征在于，包括：获取预先设置的多个目标任务；针对各个所述目标任务，执行N1到N3的步骤：N1：基于所述目标任务包含的数据源类型，从所述数据源类型对应的数据源地址获取匹配于所述数据源类型的原始数据；N2：从所述原始数据中获取一个或多个属性名称以及对应的属性数据；根据所述目标任务包括的所述属性名称与数据输出信息的目标属性之间的转换关系，将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据；N3：基于所述目标任务包含的输出数据源类型，将所述目标数据输出到所述输出数据源类型对应的输出数据源。

可选地，所述处理数据的方法，其特征在于，

所述目标任务包括父任务以及至少一个层级的一个或多个子任务；进一步包括所述父任务和一个或多个所述子任务之间的继承关系；

根据所述父任务包括的所述转换关系、所述继承关系以及一个或多个所述子任务包括的转换关系，执行N2的步骤。

可选地，所述处理数据的方法，其特征在于，进一步包括：

为所述目标任务包含的父任务以及一个或多个子任务分别构建任务实例；利用所述任务实例，执行N1到N3的步骤。

可选地，所述处理数据的方法，其特征在于，

所述转换关系包括：一对一转换、一对多转换、多对多转换中的任意一种或多种；所述将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据，包括：通过特征关键字，确定所述转换关系为一对多转换和/或多对多转换；根据所述一对多转换和/或多对多转换，将每一条所述属性数据转换为多条目标数据。

可选地，所述处理数据的方法，其特征在于，

在所述转换关系为一对一转换的情况下，所述将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据，包括：获取所述一对一转换包括的一组对应关系的属性名称以及目标属性，基于设定转换策略，将属性名称对应的一条属性数据转换成一条匹配于所述目标属性的目标数据。

可选地，所述处理数据的方法，其特征在于，

在所述转换关系为一对多转换的情况下，所述将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据，包括：获取所述一对多转换包括的多组对应关系的属性名称以及目标属性，基于设定转换策略，将属性名称对应的一条属性数据转换成多条匹配于所述目标属性的目标数据。

可选地，所述处理数据的方法，其特征在于，

在所述转换关系为多对多转换的情况下，所述将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据，包括：获取每一个子任务包含的多组对应关系的属性名称以及目标属性，为每一个子任务执行：基于设定转换策略，将属性名称对应的一条属性数据转换成多条匹配于所述目标属性的目标数据的操作。

可选地，所述处理数据的方法，其特征在于，

所述目标任务包含一种或多种输出数据源类型；针对各个所述目标任务，基于所述目标任务包含的输出数据源类型，将所述目标数据输出到所述输出数据源类型对应的输出数据源，包括：当所述目标任务包含多种输出数据源类型时，基于所述目标任务包含的各个输出数据源类型，分别将所述目标数据输出到各个所述输出数据源类型对应的输出数据源。

为实现上述目的，根据本发明实施例的第二方面，提供了一种处理数据的装置，其特征在于，包括：获取任务信息模块和处理数据模块；其中，

所述获取任务信息模块，用于获取预先设置的多个目标任务；

所述处理数据模块，用于针对各个所述目标任务，执行N1到N3的步骤：N1：基于所述目标任务包含的数据源类型，从所述数据源类型对应的数据源地址获取匹配于所述数据源类型的原始数据；N2：从所述原始数据中获取一个或多个属性名称以及对应的属性数据；根据所述目标任务包括的所述属性名称与数据输出信息的目标属性之间的转换关系，将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据；N3：基于所述目标任务包含的输出数据源类型，将所述目标数据输出到所述输出数据源类型对应的输出数据源。

为实现上述目的，根据本发明实施例的第三方面，提供了一种处理数据的电子设备，其特征在于，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述处理数据的方法中任一所述的方法。

为实现上述目的，根据本发明实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如上述处理数据的方法中任一所述的方法。

上述发明中的一个实施例具有如下优点或有益效果：能够为一个或多个数据源类型分别设置一个或多个目标任务，根据各个目标任务包含的数据源信息，分别从所述数据源信息中指定的数据源地址获取原始数据，再根据所述目标任务包含的数据转换关系，将原始数据转换处理为目标数据，并根据所述目标任务包含的一个或多个输出数据源信息，将所述目标数据分别输出到输出数据源类型对应的输出数据源；由此克服了处理数据实时性较差、灵活性较低、效率较低的问题，提高了处理数据的效率。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是本发明一个实施例提供的一种处理数据的方法的流程示意图；

图2是本发明一个实施例提供的一种基于目标任务处理数据的流程示意图；

图3是本发明一个实施例提供的一种利用Flink处理数据的流程示意图；

图4是本发明一个实施例提供的一种处理数据的装置的结构示意图；

图5是本发明实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，本发明实施例提供了一种处理数据的方法，该方法可以包括以下步骤：

步骤S101：获取预先设置的多个目标任务。

具体地，预先设置一个或多个目标任务，以利用各个目标任务处理数据，其中待处理的数据可以来自于多种类型的数据源，数据源类型例如：kafka消息队列、日志文件、自定义类型数据源等。本发明以ETL任务作为目标任务为例说明，其中，ETL(Extract-Transform-Load)用于描述将数据从数据源经过抽取(extract)、转换(transform)、加载(load)至输出数据源的过程。具体地，ETL任务(即，目标任务)内容可以是XML格式的任务元数据，优选地，在创建ETL任务的XML格式的文件时，可以基于预先设定的XSD(XML SchemaDefinition可扩展标记语言架构)文件创建ETL任务，由此提高了设置ETL任务的规范化和效率，通过预先设置ETL任务包含的任务元数据，以基于任务元数据执行对元数据所对应的数据的定义、解析和处理，从而实现针对多种类型的输入数据源和/或多种类型的目标数据的转换和处理，多个目标任务对应的文件(例如XML文件)可以存储于预设定的目录。

如下示出了一个数据ETL任务(即目标任务)的片段示例：

如示例片段所示，ETL任务中可以包含数据源类型(source type)、数据源地址(address，)、转换关系(例如：转换处理字段映射(例如：from＝"webId"dataType＝"int"to＝"web_id"default＝"400"))、输出数据源类型(sink type)和输出数据源(包括输出数据源地址、访问数据源的用户名信息、数据源数据表等信息)。在该示例中，source type＝"kafka"代表目标任务所处理的数据源类型为“kafka”，即可以预先设置的一个或多个目标任务所对应的数据源类型，优选地，每一个ETL任务可以支持一个数据源和对应于多个输出数据源的数据处理。

进一步地，在目标任务中，所述目标任务包括父任务以及至少一个层级的一个或多个子任务；进一步包括所述父任务和一个或多个所述子任务之间的继承关系；在上面所示的ETL任务的示例中，用节点关键字“subChannel”指示父任务包含的子任务，可以理解的是，一个父任务可以包含多个子任务，子任务可以包含多层级的子任务，即子任务可以分多个层级；进一步地，当存在子任务的情况下，确定所述目标任务包括的目标父任务、一个或多个目标子任务以及所述目标父任务和一个或多个所述目标子任务之间的继承关系；具体地，利用预先设置的ETL任务对应的XML文件确定父任务、父任务对应的一个或多个子任务、以及继承关系；具体地，继承关系例如：子任务继承父任务的数据源类型、父任务或子任务节点“map”所包含的数据转换关系等；并且子任务包含自身的数据转换关系；仍以上面的ETL任务示例为例，如示例中所示：子任务继承的父任务的数据转换关系为：from＝"webId"dataType＝"int"to＝"web_id"default＝"400"，代表从属性名称“webId”转换为目标属性为“web_id”；子任务自身的数据转换映射关系为from＝"222-oss"dataType＝"int[]"to＝"oss"joinWith＝","，代表从属性名称“222-oss”转换为目标属性“oss”；即，根据所述父任务包括的所述转换关系、所述继承关系以及一个或多个所述子任务包括的转换关系，执行N2的步骤。关于N2的步骤与步骤S102的描述一致，在此不再赘述。

可以理解的是，通过设置多个层级的多个子任务，提高了处理数据的复杂度和灵活性。

步骤S102：针对各个所述目标任务，执行N1到N3的步骤：

N1：基于所述目标任务包含的数据源类型，从所述数据源类型对应的数据源地址获取匹配于所述数据源类型的原始数据；

N2：从所述原始数据中获取一个或多个属性名称以及对应的属性数据；根据所述目标任务包括的所述属性名称与数据输出信息的目标属性之间的转换关系，将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据；

N3：基于所述目标任务包含的输出数据源类型，将所述目标数据输出到所述输出数据源类型对应的输出数据源。

优选地，利用多线程并发执行多个目标任务的N1到N3的步骤。

具体地，基于所述目标任务包含的数据源类型，从所述数据源类型对应的数据源地址获取匹配于所述数据源类型的原始数据(N1的步骤)。

例如：如步骤S101示出的目标任务的示例片段中：<source type＝"kafka"app＝"111"user＝"TestUser"password＝"87654321"topic＝"111"address＝"111-cluster.local:80"connectionTimeout＝"18000"></source>，其中节点“source”指示了数据源信息，source type＝"kafka"指示了数据源类型为"kafka"消息队列，数据源地址为address＝"111-cluster.local:80"，即从“111-cluster.local:80”指示的地址获取kafka的原始数据，即基于所述目标任务包含的数据源类型，从所述数据源类型对应的数据源地址获取匹配于所述数据源类型的原始数据。

进一步地，从所述原始数据中获取一个或多个属性名称以及对应的属性数据；根据所述目标任务包括的所述属性名称与数据输出信息的目标属性之间的转换关系，将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据(N2的步骤)。

具体地，获取原始数据中的一个或多个属性名称以及对应的属性数据，以执行数据的转换处理。如下示例为JSON格式的原始数据的片段：

{"id":771857113,

"webId":400,

"url":"http://img.xxx.com/345646/12345.jpg？name＝11111",

…}其中，“id”为属性名称，对应的属性数据为“771857113”；“webId”为属性名称，对应的属性数据为“400”等；即，从所述原始数据中获取一个或多个属性名称以及对应的属性数据。

进一步地，根据所述目标任务包括的所述属性名称与数据输出信息的目标属性之间的转换关系，将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据。具体地，如步骤S101的目标任务的示例所示，利用节点<map></map>包含所述属性名称与数据输出信息的目标属性之间的转换关系，以下举例说明，如下所示：

在本示例中，webId为目标任务包括的所述属性名称，web_id为数据输出信息的目标属性；“<column from＝"webId"dataType＝"int"to＝"web_id"default＝"400"/>”利用column关键字对应的内容确定了webId和web_id的转换关系，其中webId归属于原始数据，web_id对应于目标数据，基于转换关系，将原始数据中webId对应的属性数据(例如数据值为400)处理为对应于“web_id”的目标数据(例如数据值为400)，即，基于所述属性名称与数据输出信息的目标属性之间的转换关系，将属性名称对应的属性数据处理成匹配于所述目标属性的目标数据。可以理解的是，根据处理数据的场景和需求，一个目标任务可以包含多个转换关系，多个转换关系可以通过column列表体现，每个转换关系设定了所述属性名称与数据输出信息的目标属性之间的转换关系。

进一步地，基于所述属性名称与数据输出信息的目标属性之间的转换关系，将属性名称对应的属性数据处理成匹配于所述目标属性的目标数据，其中，处理数据包括：数据类型转换，例如从字符串类型转换为整型；对数据值的处理，例如数组中多个值连接成一个字符串；对数据默认值的赋值(例如：示例中设置default＝"test")等，本发明对处理数据的具体内容和具体规则不做限定。

进一步地，所述目标任务包括的所述属性名称与数据输出信息的目标属性之间的转换关系包括：一对一转换、一对多转换、多对多转换中的任意一种或多种；本发明的实施例通过一对一转换、一对多转换、多对多转换中的任意一种或多种转换关系实现一对一、一对多和多对多数据ETL的转换处理，同时支持这些数据转换处理的任意组合，以快速实现复杂多变的ETL数据转换处理的需求。

进一步地，所述将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据，包括：通过特征关键字，确定所述转换关系为一对多转换和/或多对多转换；根据所述一对多转换和/或多对多转换，将每一条所述属性数据转换为多条目标数据。具体地，特征关键字可以为目标任务中map节点包含的“explodeBy”(如下示例所示)

其中，通过判断是否存在特征关键字“explodeBy”来确定转换关系为一对多转换和/或多对多转换；在判断存在特征关键字explodeBy的情况下，根据一对多转换和/或多对多转换的设定转换策略，将每一条所述属性数据转换为多条目标数据。

优选地，处理数据可以用Flink工具(Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎)。以下所述属性名称与数据输出信息的目标属性之间的转换关系以Column列表包含的内容为例说明，关于父任务或子任务的实例的描述与基于图3的创建任务实例的描述一致，在此不再赘述。

在所述转换关系为一对一转换的情况下，所述将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据，包括：获取所述一对一转换包括的一组对应关系的属性名称以及目标属性，基于设定转换策略，将属性名称对应的一条属性数据转换成一条匹配于所述目标属性的目标数据。进一步地，以Flink执行数据转换为例：查找目标任务(ETL任务元数据)中的map节点并处理，可以根据Flink的MapFunction处理规范进行实现，在首次映射转换时使用子任务MapDef实例中的Column列表，调用动态数据Schema生成服务，生成子任务动态数据Schema(动态数据Schema为对应于动态数据的数据库的组织和结构)。获取map节点包含的Column列表，即，获取所述一对一转换包括的一组对应关系的属性名称以及目标属性；结合数据源抽取到JSON格式的原始数据，根据子任务MapDef实例中的Column列表和动态数据Schema，从原始数据中基于属性名称提取对应的属性数据，对属性数据进行属性类型转换、属性名称映射、数据值连接(数组中多个值连接成一个字符串)、默认值处理等；其中，设定转换策略为：在目标任务中设定的对应于数据处理中的属性类型转换、属性名称映射、数据值连接(数组中多个值连接成一个字符串)、默认值处理的转换策略；即，基于设定转换策略，将属性名称对应的一条属性数据转换成一条匹配于所述目标属性的目标数据；处理后的数据对象类型为可以是Apache avro组件(Apache avro组件指Apache软件基金会开发的avro组件，是一个数据序列化系统，设计用于支持大批量数据交换的应用)中的GenericRecord数据(即目标数据)，进一步利用GenericRecord数据生成对应于目标数据源类型的输出数据。

在所述转换关系为一对多转换的情况下，所述将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据，包括：获取所述一对多转换包括的多组对应关系的属性名称以及目标属性，基于设定转换策略，将属性名称对应的一条属性数据转换成多条匹配于所述目标属性的目标数据。具体地，以Flink执行数据转换为例：查找目标任务(ETL任务元数据)中的包含特征关键字explodeBy的map节点并处理，实现原始数据(JSON格式)中数组属性转换为目标数据类型中多条数据记录。可以根据Flink的FlatMapFunction处理规范进行处理，在首次处理数据的映射转换时使用子任务MapDef实例中的Column列表，调用动态数据Schema生成服务，生成子任务动态数据Schema。结合数据源抽取到JSON格式数据，根据子任务MapDef实例中的Column列表和动态数据Schema，获取包含特征关键字explodeBy的map节点包含的Column列表(包含了多组对应关系的属性名称以及目标属性)，即，获取所述一对多转换包括的多组对应关系的属性名称以及目标属性；从原始数据(JSON格式)中提取属性名称对应的属性数据、以及数组型属性中每一组子属性数据，分别进行属性类型转换、属性名映射、值连接(数组中多个值连接成一个字符串)和默认值处理，实现将一条输入数据转换为多条输出数据。其中，设定转换策略为：在目标任务中针对每一组属性名称，设定对应于数据处理中的属性类型转换、属性名称映射、数据值连接(数组中多个值连接成一个字符串)、默认值处理的转换策略；即，基于设定转换策略，将属性名称对应的一条属性数据转换成多条匹配于所述目标属性的目标数据；处理后的数据对象类型为可以是Apache avro组件中的GenericRecord数据集合(即目标数据)，进一步利用GenericRecord集合生成对应于目标数据源类型的多条输出数据。

在所述转换关系为多对多转换的情况下，所述将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据，包括：获取每一个子任务包含的多组对应关系的属性名称以及目标属性，为每一个子任务执行：基于设定转换策略，将属性名称对应的一条属性数据转换成多条匹配于所述目标属性的目标数据的操作。具体地，以Flink执行数据转换为例：查找目标任务(ETL任务元数据)中多个子任务(标识关键字为subChannel)的包含特征关键字explodeBy的map节点并处理，以实现将原始数据中多个不同的数组属性分别转换为不同目标数据类型中多条数据记录。获取每一个子任务包含的多组对应关系的属性名称以及目标属性的方法例如根据Flink的ProcessFunction处理规范，对输入原始数据按照目标任务(ETL任务)配置的多个子任务定义进行数据拆分处理，将符合subChannel的case值定义的原始数据依次推入subChannel数据处理内存管道。每个子管道即对应一个子任务，每个子任务的处理可以根据Flink的FlatMapFunction处理规范，并基于设定转换策略，执行对应于一对多转换的数据处理操作；关于设定转换策略的描述与在转换关系为一对多转换的情况下的描述一致，在此不再赘述。即，获取每一个子任务包含的多组对应关系的属性名称以及目标属性，为每一个子任务执行：基于设定转换策略，将属性名称对应的一条属性数据转换成多条匹配于所述目标属性的目标数据的操作。

进一步地，基于所述目标任务包含的输出数据源类型，将所述目标数据输出到所述输出数据源类型对应的输出数据源(N3的步骤)；具体地，所述目标任务包含一种或多种输出数据源类型；针对各个所述目标任务，基于所述目标任务包含的输出数据源类型，将所述目标数据输出到所述输出数据源类型对应的输出数据源，包括：当所述目标任务包含多种输出数据源类型时，基于所述目标任务包含的各个输出数据源类型，分别将所述目标数据输出到各个所述输出数据源类型对应的输出数据源。其中，一个目标任务可以包含一种或多种输出数据源类型，输出数据源类型例如：MySQL数据库集群、Hive数据库集群、自定义数据源等，一个ETL任务可以基于所述目标任务包含的输出数据源类型，将所述目标数据输出到所述输出数据源类型对应的输出数据源。

目标任务中包含的输出数据源类型可以通过目标任务中的sink节点设置，如下所述的示例中，目标数据对应的输出数据源类型为MySQL(利用sink type＝"mysql"设置)，在如下所示的目标任务包含的输出数据源相关信息的示例片段中，<sinktype＝"mysql"uri＝"jdbc:mysql://localhost:3306/..."user＝"TestUser"password＝"87654321"table＝"example_table"/></sinks>；其中，输出数据源包含的输出数据源地址为(uri＝"jdbc:mysql://localhost:3306/...")、关联于输出数据源地址的访问数据源的用户名(user＝"TestUser")、用户口令(password＝"87654321")、数据表名称(table＝"example_table")等信息，可以理解的是，基于该示例片段归属的目标任务，将目标数据输出到MySQL数据库集群包含的example_table数据表中，其中，一个目标任务可以利用多个sink节点设置多种输出数据源类型对应的输出数据源信息。即，基于所述目标任务包含的各个输出数据源类型，分别将所述目标数据输出到各个所述输出数据源类型对应的输出数据源。

本发明对目标任务的具体内容和具体格式不做限定，对数据源类型、输出数据源类型、以及待处理的原始数据的具体内容和格式不做限定。

如图2所示，本发明实施例提供了一种基于目标任务数据处理的方法，该方法可以包括以下步骤：

步骤S201：基于所述目标任务包含的数据源类型，从所述数据源类型对应的数据源地址获取匹配于所述数据源类型的原始数据。

具体地，关于基于所述目标任务包含的数据源类型，从所述数据源类型对应的数据源地址获取匹配于所述数据源类型的原始数据的描述与步骤S102的描述一致，在此不再赘述。

进一步地，可以利用Flink工具从一个或多个数据源类型的数据源地址获取对应的原始数据，以下举例说明：

从数据源类型为Kafka的数据源获取数据的方法，例如：根据目标任务(ETL任务文件)中数据源信息包含的kafka地址和kafka相关属性，连接对应的kafka消息队列，执行获取数据的操作，其中，可以使用Kafka数据抽取类，该抽取类继承自Flink的RichParallelSourceFunction，并基于Flink的source数据源规范构建。在运行获取数据的操作时，每个子任务对应的kafka数据抽取类被初始化到Flink集群多个实例中，共同监控一个kafka队列，根据数据生产速度和消费效率确定Flink集群实例个数，以达到数据实时抽取的技术效果，提高了处理数据的实时性。

从数据源类型为日志文件的数据源获取数据的方法，例如：根据目标任务(ETL任务文件)中数据源信息包含的日志文件地址和日志处理相关属性，打开并连接日志文件以执行获取数据的操作。其中，可以使用日志文件数据抽取类，日志文件数据抽取类继承自Flink的RichParallelSourceFunction，并基于Flink的source数据源规范构建。数据源文件监控可以由单个Flink任务驱动执行，而数据源文件的数据读取则由并行运行的多个Flink任务实例执行处理。

从数据源类型为自定义数据类型的数据源获取数据的方法，例如：可以在目标任务(ETL任务文件)中设置自定义数据类型对应的数据源信息，从而利用Flink工具的规范自定义数据抽取功能模块，以执行进行自定义数据获取的操作。

步骤S202：从所述原始数据中获取一个或多个属性名称以及对应的属性数据；根据所述目标任务包括的所述属性名称与数据输出信息的目标属性之间的转换关系，将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据。

具体地，关于处理数据的描述与步骤S102对应的描述一致，在此不再赘述。

步骤S203：基于所述目标任务包含的输出数据源类型，将所述目标数据输出到所述输出数据源类型对应的输出数据源。

具体地，所述目标任务包含一种或多种输出数据源类型；关于输出数据源类型的描述与步骤S102的描述一致，在此不再赘述。

进一步地，针对各个所述目标任务，基于所述目标任务包含的输出数据源类型，将所述目标数据输出到所述输出数据源类型对应的输出数据源，包括：当所述目标任务包含多种输出数据源类型时，基于所述目标任务包含的各个输出数据源类型，分别将所述目标数据输出到各个所述输出数据源类型对应的输出数据源。

进一步地，可以利用Flink工具执行将所述目标数据输出到各个所述输出数据源类型对应的输出数据源的步骤如图2所示，目标数据对应的输出数据源例如：输出数据源类型1：MySQL数据库集群、输出数据源类型2：Hive数据库集群、输出数据源类型3：自定义类型的数据库集群等；其中：

在输出数据源类型为MySQL数据库集群的情况下：根据目标任务(ETL任务文件)包含的输出数据源类型MySQL数据库集群的输出数据源包含的配置信息，将通过ETL任务处理(转换)的数据输出到配置信息对应的MySQL集群中去。输出(写入)数据的方法可以按照Flink的Sink处理规范，继承RichSinkFunction类编写MySQL Sink类，进一步地，针对子任务ETL转换处理后的数据，依据ETL子任务的SinksDef配置信息、MapDef配置信息，将GenericRecord数据(目标数据)输出到目标任务设定的MySQL数据表，以达到目标数据输出到MySQL数据库集群的目的。

在输出数据源类型为Hive数据库集群的情况下：根据目标任务(ETL任务文件)包含的输出数据源类型Hive数据库集群输出数据源包含的配置信息，将通过ETL任务处理(转换)的数据输出到配置信息对应的Hive集群中的parquet格式文件。输出(写入)数据的方法可以按照Flink的Sink处理规范，使用Flink的StreamingFileSink类，将输出数据按照日期进行分区/分桶，根据子任务生成的动态数据Schema和ETL子任务数据转换处理的GenericRecord数据(即目标数据)，将处理(转换)后的目标数据写入Hive数据库集群中的parquet格式文件，以达到数据输出到Hive集群的目的。

在输出数据源类型为自定义数据类型的情况下：可以按照Flink的sink规范自定义实现。例如：按照Flink规范扩展多个ETL数据输出类。将目标数据输出到目标任务配置的自定义数据库，数据库的内容可以为基于多个二维表的多条数据记录。

针对每一个目标任务，可以基于任务包含的一种或多种输出数据源类型，分别执行对目标数据输出的操作，即将目标数据输出到匹配于输出数据源类型的输出数据源，以达到将目标数据输出到一个或多个输出数据源的目的，本发明对目标数据的具体格式和具体内容不做限定。

如图3所示，本发明实施例提供了一种用于处理数据的方法，如图3的Flink集群300所示，本发明的一个实施例基于Flink集群利用多个实例执行处理数据的操作。

具体地，为所述目标任务包含的父任务以及一个或多个子任务分别构建任务实例；利用所述任务实例，执行N1到N3的步骤。

进一步地，以步骤S101中的任务示例片段为例，在解析任务时，可以为每一个任务(包括父任务、子任务)创建实例，即，为所述目标任务、所述目标任务包含的父任务以及一个或多个子任务分别构建任务实例；创建实例的方法可以为读取ETL任务所在的目录下所有的ETL任务的XML文件，对每一个ETL任务文件进行解析，基于解析的结果分别构建与步骤S101中的任务XML文件中示例片段的节点对应的各个类FlinkChannel、Source、Map、Column、Sinks、Sink和SubChannel，分别为：FlinkChannelDef、SourceDef、MapDef、ColumnDef、SinksDef、SinkDef和SubChannelDef类，进一步地，利用XML解析工具对ETL任务XML进行解析，获得每个任务分别对应的节点的实例的集合。同时，根据父任务与一个或多个子任务的继承关系，确定出每个子任务的属性名称和目标属性的转换关系，包括从父任务继承来的转换关系。即，确定所述目标任务包括的目标父任务、一个或多个目标子任务以及所述目标父任务和一个或多个所述目标子任务之间的继承关系；根据所述目标父任务包括的所述转换关系、所述继承关系以及一个或多个所述目标子任务包括的数据转换映射关系，执行将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据的步骤。基于一个目标任务可以构建一个示例以执行N1到N3的步骤，也可以构建多个实例，以分别执行N1到N3的步骤。

示例性地，可以利用Flink工具根据解析到的ETL任务、子任务的配置信息，为每一个ETL任务和子任务创建子任务数据抽取实例，再创建ETL数据转换处理实例，然后创建ETL数据输出处理实例，然后用各个任务、子任务的处理实例构建符合Flink规范的Flink数据流处理任务，并将这些Flink数据流处理任务交由Flink集群进行执行处理。优选地，可以利用Flink的进行Map(对应于任务中指示数据转换关系的节点)并行度配置、Flink的Process分管道并行度配置、Flink的Sink(对应于任务中指示数据输出的节点)并行度配置，结合这些并行度配置以及Flink集群实例扩充与调整，即可实现大数据实时ETL任务处理，再综合以上对任务文件的解析及任务处理服务，可以高效、灵活地处理复杂数据自定义转换和处理能力的分布式扩展问题。

优选地，本发明的一个实施例将基于Flink处理数据的方法实现为一个独立组件，例如Java语言中一个fat Jar软件包，结合在设定目录下的多个目标任务(ETL任务)的配置，以运行于Flink集群中；达到处理多种数据类型的原始数据的获取和对多种数据类型的数据输出源的输出处理；其中，每一个ETL任务均支持一个数据输入提取源和多个数据输出源。例如：如图3所示，利用针对数据源A的一个或多个目标任务实例，获取数据源A(一个或多个消息队列)对应的原始数据，基于目标任务包含的任务信息，经过数据转换等处理，根据设定的输出数据源的类型可以基于目标数据生成输出数据源类型1(MySQL数据库集群)、输出数据源类型2(Hive数据库集群)、输出数据源类型3(自定义类型的数据库集群)中的任意一种或多种，并基于所述目标任务包含的输出数据源类型，将所述目标数据输出到所述输出数据源类型对应的输出数据源。即，利用所述任务实例，执行N1到N3的步骤，关于N1到N3的步骤的具体描述与步骤S102的描述一致，在此不再赘述。

如图4所示，本发明实施例提供了一种处理数据的装置400，包括：获取任务信息模块401和处理数据模块402；其中，

所述获取任务信息模块401，用于获取预先设置的多个目标任务；

所述处理数据模块402，用于针对各个所述目标任务，执行N1到N3的步骤：N1：基于所述目标任务包含的数据源类型，从所述数据源类型对应的数据源地址获取匹配于所述数据源类型的原始数据；N2：从所述原始数据中获取一个或多个属性名称以及对应的属性数据；根据所述目标任务包括的所述属性名称与数据输出信息的目标属性之间的转换关系，将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据；N3：基于所述目标任务包含的输出数据源类型，将所述目标数据输出到所述输出数据源类型对应的输出数据源。

本发明实施例还提供了一种处理数据的电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一实施例提供的方法。

本发明实施例还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例提供的方法。

图5示出了可以应用本发明实施例的处理数据的方法或处理数据的装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种客户端应用，例如电子商城客户端应用、网页浏览器应用、搜索类应用、即时通信工具和邮箱客户端等。

终端设备501、502、503可以是具有显示屏并且支持各种客户端应用的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所使用的客户端应用提供支持的后台管理服务器。后台管理服务器可以对接收到的处理数据的请求进行处理，并将处理结果反馈给终端设备。

需要说明的是，本发明实施例所提供的处理数据的方法一般由服务器505执行，相应地，处理数据的装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取任务信息模块和处理数据模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取任务信息模块还可以被描述为“获取预先设置的目标任务的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取预先设置的多个目标任务；针对各个所述目标任务，执行N1到N3的步骤：N1：基于所述目标任务包含的数据源类型，从所述数据源类型对应的数据源地址获取匹配于所述数据源类型的原始数据；N2：从所述原始数据中获取一个或多个属性名称以及对应的属性数据；根据所述目标任务包括的所述属性名称与数据输出信息的目标属性之间的转换关系，将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据；N3：基于所述目标任务包含的输出数据源类型，将所述目标数据输出到所述输出数据源类型对应的输出数据源。

本发明的实施例，能够为一个或多个数据源类型分别设置一个或多个目标任务，根据各个目标任务包含的数据源信息，分别从所述数据源信息中指定的数据源地址获取原始数据，再根据所述目标任务包含的数据转换关系，将原始数据转换处理为目标数据，并根据所述目标任务包含的一个或多个输出数据源信息，将所述目标数据分别输出到输出数据源类型对应的输出数据源；由此克服了处理数据实时性较差、灵活性较低、效率较低的问题，提高了处理数据的效率。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种处理数据的方法，其特征在于，包括：

获取预先设置的多个目标任务；

针对各个所述目标任务，执行N1到N3的步骤：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，进一步包括：

为所述目标任务包含的父任务以及一个或多个子任务分别构建任务实例；

利用所述任务实例，执行N1到N3的步骤。

4.根据权利要求1所述的方法，其特征在于，

所述转换关系包括：一对一转换、一对多转换、多对多转换中的任意一种或多种；

所述将所述属性名称对应的属性数据处理成匹配于所述目标属性的目标数据，包括：

通过特征关键字，确定所述转换关系为一对多转换和/或多对多转换；

根据所述一对多转换和/或多对多转换，将每一条所述属性数据转换为多条目标数据。

5.根据权利要求4所述的方法，

在所述转换关系为一对一转换的情况下，

获取所述一对一转换包括的一组对应关系的属性名称以及目标属性，基于设定转换策略，将属性名称对应的一条属性数据转换成一条匹配于所述目标属性的目标数据。

6.根据权利要求4所述的方法，

在所述转换关系为一对多转换的情况下，

获取所述一对多转换包括的多组对应关系的属性名称以及目标属性，基于设定转换策略，将属性名称对应的一条属性数据转换成多条匹配于所述目标属性的目标数据。

7.根据权利要求6所述的方法，

在所述转换关系为多对多转换的情况下，

获取每一个子任务包含的多组对应关系的属性名称以及目标属性，为每一个子任务执行：基于设定转换策略，将属性名称对应的一条属性数据转换成多条匹配于所述目标属性的目标数据的操作。

8.根据权利要求1所述的方法，

所述目标任务包含一种或多种输出数据源类型；

针对各个所述目标任务，基于所述目标任务包含的输出数据源类型，将所述目标数据输出到所述输出数据源类型对应的输出数据源，包括：

当所述目标任务包含多种输出数据源类型时，基于所述目标任务包含的各个输出数据源类型，分别将所述目标数据输出到各个所述输出数据源类型对应的输出数据源。

9.一种处理数据的装置，其特征在于，包括：获取任务信息模块和处理数据模块；其中，

10.一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。