CN114036183A

CN114036183A - 一种数据etl处理方法、装置、设备及介质

Info

Publication number: CN114036183A
Application number: CN202111407205.8A
Authority: CN
Inventors: 邹文龙; 范渊; 刘博�
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-02-11

Abstract

本申请公开了一种数据ETL处理方法、装置、设备及介质，包括：获取待处理数据中数据样例对应的源字段；配置每个所述源字段对应的字段解析规则；基于预设转换逻辑将每个所述字段解析规则转换为相应的Flink SQL语句；将所述Flink SQL语句下发至FLink引擎，并利用所述FLink引擎对所述待处理数据进行ETL处理。这样，将字段解析规则通过预设转换逻辑转换为相应的Flink SQL语句，SQL语句具有标准性、易懂性、灵活扩展性，可读性较高，容易扩展，能够降低ETL处理的人工成本和时间成本，从而提升数据ETL处理效率，并且，Flink引擎的大数据实时流数据处理性能较高，能够避免处理时的数据积压。

Description

一种数据ETL处理方法、装置、设备及介质

技术领域

本申请涉及数据处理技术领域，特别涉及一种数据ETL处理方法、装置、设备及介质。

背景技术

随着企业的发展，组织逐渐庞大，内部各个部门、业务线、产品线都会开发出各种信息化业务系统，方便自身业务的开展，而业务系统之间相互独立，随着信息化建设的不断深入，出现数据孤岛的现象尤为普遍，业务不集成、流程不互通、数据不共享，这给企业进行数据的分析利用、报表开发、分析挖掘等带来了巨大困难。

ETL(即Extract-Transform-Load)是将不同业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的在于将企业中分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。而现有的开源ETL工具，存在以下问题：通过业务代码的强逻辑判断来实现，比较固化且阅读性差，无法让使用者很直观的了解转换规则、过程等，处理效率低；扩展性方面支持不够，尽管有些支持上传解析规则包的工具，但是需要开发定制代码，不够通用；性能问题，在大数据场景下处理能力不足，容易造成数据积压。

发明内容

有鉴于此，本申请的目的在于提供一种数据ETL处理方法、装置、设备及介质，能够提升数据ETL处理效率以及避免处理时的数据积压，并具有扩展性。其具体方案如下：

第一方面，本申请公开了一种数据ETL处理方法，包括：

获取待处理数据中数据样例对应的源字段；

配置每个所述源字段对应的字段解析规则；

基于预设转换逻辑将每个所述字段解析规则转换为相应的Flink SQL语句；

将所述Flink SQL语句下发至FLink引擎，并利用所述FLink引擎对所述待处理数据进行ETL处理。

可选的，所述基于预设转换逻辑将每个所述字段解析规则转换为相应的FlinkSQL语句，包括：

基于预设转换逻辑，从预设FLink SQL语句模板库中调取每个所述字段解析规则中解析方式对应的FLink SQL语句模板，并基于所述FLink SQL语句模板生成所述FLinkSQL语句。

可选的，所述基于预设转换逻辑将每个所述字段解析规则转换为相应的FlinkSQL语句之后，还包括：

执行所述Flink SQL语句，得到相应的执行结果；

将所述执行结果在本地前端界面展示，以对所述Flink SQL语句进行验证。

可选的，所述执行所述Flink SQL语句，得到相应的执行结果，包括：

基于FLink引擎的API在本地模拟FLlink运行环境；

通过所述FLlink运行环境执行所述Flink SQL语句，得到相应的执行结果。

可选的，所述通过所述FLlink运行环境执行Flink SQL语句，得到相应的执行结果之前，还包括：

将FLink引擎中原生的source、query、sink对应的转换模块的执行顺序调整为指定的执行顺序。

可选的，所述配置每个所述源字段对应的字段解析规则之前，还包括：

配置数据样例对应的数据变形规则，并基于所述数据变形规则得到变更后的源字段；

其中，所述数据变形规则包括添加和/或删除和/或合并字段对应的规则。

可选的，还包括：

配置数据过滤规则，并在进行ETL处理时，基于所述数据过滤规则对所述待处理数据进行过滤。

第二方面，本申请公开了一种数据ETL处理装置，包括：

源字段获取模块，用于获取待处理数据中数据样例对应的源字段；

字段解析规则配置模块，用于配置每个所述源字段对应的字段解析规则；

规则转换模块，用于基于预设转换逻辑将每个所述字段解析规则转换为相应的Flink SQL语句；

ETL处理模块，用于将所述Flink SQL语句下发至FLink引擎，并利用所述FLink引擎对所述待处理数据进行ETL处理。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的数据ETL处理方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述的数据ETL处理方法。

可见，本申请先获取待处理数据中数据样例对应的源字段，并配置每个所述源字段对应的字段解析规则，之后基于预设转换逻辑将每个所述字段解析规则转换为相应的Flink SQL语句，最后将所述Flink SQL语句下发至FLink引擎，并利用所述FLink引擎对所述待处理数据进行ETL处理。也即，本申请对字段解析规则通过预设转换逻辑转换为相应的Flink SQL语句，SQL语句具有标准性、易懂性、灵活扩展性，可读性较高，容易扩展，能够降低ETL处理的人工成本和时间成本，从而提升数据ETL处理效率，并且，Flink引擎的大数据实时流数据处理性能较高，能够避免处理时的数据积压。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种数据ETL处理方法流程图；

图2为本申请提供的一种具体的数据变形规则的数据结构示意图；

图3为本申请提供的一种具体的字段解析规则的数据格式示意图；

图4为本申请提供的一种具体的FLink SQL语句转换示意图；

图5为本申请提供的一种具体的数据过滤规则示意图；

图6为本申请提供的一种具体的Flink SQL语句执行结果本地预览方法流程图；

图7为本申请提供的一种具体的数据ETL处理流程图；

图8为本申请提供的一种数据ETL处理装置结构示意图；

图9为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有的开源ETL工具，存在以下问题：通过业务代码的强逻辑判断来实现，比较固化且阅读性差，无法让使用者很直观的了解转换规则、过程等，处理效率低；扩展性方面支持不够，尽管有些支持上传解析规则包的工具，但是需要开发定制代码，不够通用；性能问题，在大数据场景下处理能力不足，容易造成数据积压。为此，本申请提供了一种数据ETL处理方案，能够提升数据ETL处理效率以及避免处理时的数据积压，并具有扩展性。

参见图1所示，本申请实施例公开了一种数据ETL处理方法，包括：

步骤S11:获取待处理数据中数据样例对应的源字段。

在具体的实施方式中，本申请实施例可以在每种格式的待处理数据中抽取数据作为数据样例，得到不同格式的数据样例。并且，数据样例可以为json、xml、固定分隔符拼接的格式化文本。

步骤S12:配置每个所述源字段对应的字段解析规则。

在具体的实施方式中，可以配置数据样例对应的数据变形规则，并基于所述数据变形规则得到变更后的源字段；其中，所述数据变形规则包括添加和/或删除和/或合并字段对应的规则。

可以理解的是，本申请实施例针对数据样例里的数据可以做一些补充或剔除，可以增加一些固定字段，也可以将多个字段合并成一个新的字段，也可以配置要删除的字段。例如，参见图2所示，图2为本申请实施例提供的一种具体的数据变形规则的数据结构示意图。

在具体的实施方式中，可以为每个源字段配置对应的字段解析规则，包括目的字段、解析方式等。其中，解析方式可以包括：与源值相同、固定值、条件映射，并且，条件映射可以包括：文本映射、正则映射、数值映射、时间映射、BASE64解码、URL解码、UNICODE解码等。下面，对各解析方式进行详细说明：

与源值相同：对映射后的值不做改动，一般用在字段重命名跟类型转换。固定值：无论源值是什么，统一修改为固定值。文本映射：设置一个映射关系A->B，那么如果字段值为A经过解析之后就是B。正则映射：设置一个正则表达式跟一个映射值，如果字段值匹配正则表达则解析后就是映射值。数值映射：设置一个或多个数值表达式，每个表达式对应一个映射值，使用开区间、闭区间的方式编写，例如：(0，18]表示大于0，少于等于18，如果字段值匹配到某个区间则解析后就是对应的映射值。时间映射：设置原日期格式跟目标日期格式，解析后次字段的格式就是指的目标日期格式。BASE64解码、URL解码、UNICODE解码等等自定义转换函数。例如，参见图3所示，图3为本申请实施例提供的一种具体的字段解析规则的数据格式示意图。

步骤S13:基于预设转换逻辑将每个所述字段解析规则转换为相应的Flink SQL语句。

在具体的实施方式中，可以基于预设转换逻辑，从预设FLink SQL语句模板库中调取每个所述字段解析规则中解析方式对应的FLink SQL语句模板，并基于所述FLink SQL语句模板生成所述FLink SQL语句。

也即，对于每种解析方式，本申请实施例均创建了相应的FLink SQL语句模板，在进行转换时，调取解析方式对应的FLink SQL语句模板，在结合字段解析规则中的其他信息，生成相应的FLink SQL语句。

在具体的实施方式中，本申请实施例支持自定义函数，参见图4所示，图4为本申请实施例提供的一种具体的FLink SQL语句转换示意图，相应的关键字说明如下：cast:Flink类型转换函数，case when:Flink条件判断函数，concat:Flink字符串拼接函数，find:自定义正则匹配函数，time_to_str:自定义日期转字符串函数，long_to_time:自定义long格式的时间转日期函数，hash:自定义哈希函数，base64:自定义base64解码函数，url:自定义url解码函数，unicode:自定义unicode解码函数。

步骤S14:将所述Flink SQL语句下发至FLink引擎，并利用所述FLink引擎对所述待处理数据进行ETL处理。

其中，FLink引擎为开源流处理框架，其核心是用Java和Scala编写的分布式流数据计算引擎。ETL用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

在具体的实施方式中，本申请实施例还可以配置数据过滤规则，并在进行ETL处理时，基于所述数据过滤规则对所述待处理数据进行过滤。语法也为SQL格式，支持标准的SQL判断，也支持自定义函数判断，具体语法如图5所示，图5为本申请实施例提供的一种具体的数据过滤规则示意图。

可见，本申请实施例先获取待处理数据中数据样例对应的源字段，并配置每个所述源字段对应的字段解析规则，之后基于预设转换逻辑将每个所述字段解析规则转换为相应的Flink SQL语句，最后将所述Flink SQL语句下发至FLink引擎，并利用所述FLink引擎对所述待处理数据进行ETL处理。也即，本申请对字段解析规则通过预设转换逻辑转换为相应的Flink SQL语句，SQL语句具有标准性、易懂性、灵活扩展性，可读性较高，容易扩展，能够降低ETL处理的人工成本和时间成本，从而提升数据ETL处理效率，并且，Flink引擎的大数据实时流数据处理性能较高，能够避免处理时的数据积压。

另外，在将所述Flink SQL语句下发至FLink引擎之前，可以对Flink SQL语句进行验证，在具体的实施方式中，可以执行所述Flink SQL语句，得到相应的执行结果；将所述执行结果在本地前端界面展示，以对所述Flink SQL语句进行验证。具体的，可以基于FLink引擎的API在本地模拟FLlink运行环境；通过所述FLlink运行环境执行所述Flink SQL语句，得到相应的执行结果。并且，可以基于反射机制，从所述FLlink运行环境获取所述FlinkSQL语句对应的算子，并执行，得到相应的执行结果。

进一步的，在通过所述FLlink运行环境执行Flink SQL语句，得到相应的执行结果之前，还包括：将FLink引擎中原生的source、query、sink对应的转换模块的执行顺序调整为指定的执行顺序。其中，指定的执行顺序为source、query、sink对应的转换模块依次执行。

需要指出的是，对Flink SQL语句的执行结果进行输出预览，现有的实现方式有两种：第一种，本地启动Flink实际执行，虽然结果百分百正确，但启动Flink需要消耗资源，且无法直接捕获执行结果，只能借助第三方存储。第二种，使用纯业务代码来解析SQL做逻辑判断，虽然不消耗过多资源，结果快速返回，通过业务逻辑代码可灵活控制处理流程，异常信息的定义，但需要通过编码实现的Flink SQL解析功能，工作量大且复杂，结果不可控，可能会出现与Flink引擎运行出来的结果不一致。为了克服上述问题，本申请实施例利用Flink API本地模拟Flink运行环境，将Flink解析、执行操作都本地化。这个方案完美的解决前面两种方案的缺陷。需要指出的是，通过阅读Flink的源码，发现在org.apache.flink.table.api.internal.TableEnvironment，有一个私有的缓存队列bufferedModifyOperations，将所有算子缓存了起来。通过反射即可拿到这些算子，本地程序按照Flink SQL执行的操作流程，将中间过程用本地编码的方式实现一遍，底层的API还是调用Flink的，只是提取中间操作本地化运行，这样就可以在不用启动Flink引擎，仅仅通过复用API的方式来达到获取Flink SQL执行结果的目的。具体步骤如图6所示，参见图6所示，图6为本申请实施例提供的一种具体的Flink SQL语句执行结果本地预览方法流程图。

1、创建模拟运行环境，具体程序如下：

2、注册好自定义函数，注册本申请实施例前述的自定义函数，具体程序如下：

env.registerFunction("find",new FindFunc())；

env.registerFunction("time_to_str",new TimeToStrFunc())；

env.registerFunction("long_to_time",new LongToTimeFunc())；

env.registerFunction("hash",new HashFunc())；

env.registerFunction("base64",new Base64Func())；

3、组装Flink SQL语句，SQL语句分三块，source、query、sink，本申请实施例模拟运行的主要是query模块，source和sink都可以在编码中虚拟成Kafka，这里列出关键解析模块query的语句组装，

4、通过反射机制获取到运行环境中的算子，定义公共方法通过反射获取对象的私有属性，代码如下：。

获取到算子，代码如下：

List<ModifyOperation>bufferedModifyOperations＝getPrivateField(TableEnvironmentImpl.class,tableEnvironment,"bufferedModifyOperations")；

5、将transform排序，在拿到算子之后，可以通过模拟环境的StreamPlanner中获取到Transformationm，这是一个数组，类似火山模型，默认从数据存储(sink)触发execute，而本申请实施例模拟执行的顺序是：从数据源(source)到数据转换(transform)再到数据存储(sink)，根据sink不断的调用getInput(),可以完成整个流程的追溯，再使用LinkedList.push()方法完成从source到sink的排序，代码如下：

6、模拟执行，遍历这个数组，利用Flink API分别处理SourceTransformation、OneInputTransformation、SinkTransformation。其中，

SourceTransformation：模拟执行时不连接真正的source,而是利用Flink API模拟创建Kafka数据源，且将样例数据直接写入，参考如下：

FlinkKafkaConsumerBase<？>func＝(FlinkKafkaConsumerBase<？>)((SourceTransformation<？>)transformation).getOperator().getUserFunction()；

KafkaDeserializationSchemaWrapper deserializationSchemaWrapper＝getPrivateField(FlinkKafkaConsumerBase.class,func,"deserializer")；

last＝deserializationSchemaWrapper.deserialize(new ConsumerRecord<>("topic_demo",1,1L,"key","样例数据"))；

OneInputTransformation：可以先获取算子工厂CodeGenOperatorFactor，然后通过反射获取到GeneratedClass，这样就可以修改代码了，将setup部分的代码给删除，再利用代码生成技术，生成一个没有setup这步操作的算子。因为在setup中会定义output，去除之后需要手动设置output，同样也是利用反射机制添加一个属性进去即可，调用processElement来执行算子，因OneInputTransformation可能会有多个，所以这一步会递归调用，代码如下：

SinkTransformation，类似SourceTransformation，虚拟Kafka作为数据存储，获取到的result就是执行完Flink SQL的结果。代码如下：

FlinkKafkaProducerBase kafkaProducerBase＝(FlinkKafkaProducerBase)((SinkTransformation<？>)transformation).getOperator().getUserFunction()；

KeyedSerializationSchemaWrapper schema＝getPrivateField(FlinkKafkaProducerBase.class,kafkaProducerBase,"schema")；

byte[]bytes＝schema.serializeValue(last)；

String result＝new String(bytes)；

进一步的，参见图7，图7为本申请实施例提供的一种具体的数据ETL处理流程图。可以先输入数据样例，并选择数据输出标准，也即要输出的数据格式，可以预先设置好的，然后配置数据过滤规则、配置数据变形规则，然后对源字段配置字段解析规则，得到到一个数组，里面是多个字段的解析规则，接下来根据特定的计算逻辑将一条条规则转换成一条条Flink SQL，对Flink SQL进行模拟执行并预览，实时运算得出预览值，最后远程提交给Flink集群。通过本申请提供的方案，用户可以在Web界面配置好每个字段的解析规则，通过特殊的计算逻辑，将解析规则转换成Flink SQL，再通过任务下发将这些SQL传递到Flink引擎中运行。一条SQL对应一个字段的解析规则，支持字段重命名、枚举匹配、固定值映射、范围区间映射、日期转换、加解码、字段类型转换、自定义解析函数等等。本申请的方案，符合SQL标准，易懂、可读性高，业人员甚至不需要界面配置，直接写SQL语言就好了，效率大大提高，并且，支持自定义解析函数，对与Flink SQL内部不支持的函数可通过编写自定义函数来实现灵活扩展，内部模拟Flink SQL运行流程实时预览，支持大数据场景下的ETL解析工作，Flink本身实时处理性能就非常高，还可以通过大规模集群配置来满足更高的要求。

参见图8所示，本申请公开了一种数据ETL处理装置，包括：

源字段获取模块11，用于获取待处理数据中数据样例对应的源字段；

字段解析规则配置模块12，用于配置每个所述源字段对应的字段解析规则；

规则转换模块13，用于基于预设转换逻辑将每个所述字段解析规则转换为相应的Flink SQL语句；

ETL处理模块14，用于将所述Flink SQL语句下发至FLink引擎，并利用所述FLink引擎对所述待处理数据进行ETL处理。

规则转换模块13，具体用于基于预设转换逻辑，从预设FLink SQL语句模板库中调取每个所述字段解析规则中解析方式对应的FLink SQL语句模板，并基于所述FLink SQL语句模板生成所述FLink SQL语句。

进一步的所述装置，还包括Flink SQL语句执行结果预览模块，用于执行所述Flink SQL语句，得到相应的执行结果；将所述执行结果在本地前端界面展示，以对所述Flink SQL语句进行验证。

在具体的实施方式中，Flink SQL语句执行结果预览模块，具体用于基于FLink引擎的API在本地模拟FLlink运行环境；通过所述FLlink运行环境执行所述Flink SQL语句，得到相应的执行结果。

并且，Flink SQL语句执行结果预览模块，还用于在通过所述FLlink运行环境执行Flink SQL语句，得到相应的执行结果之前，将FLink引擎中原生的source、query、sink对应的转换模块的执行顺序调整为指定的执行顺序。

所述装置还包括数据变形规则配置模块，用于在配置每个所述源字段对应的字段解析规则之前，配置数据样例对应的数据变形规则，并基于所述数据变形规则得到变更后的源字段；其中，所述数据变形规则包括添加和/或删除和/或合并字段对应的规则。

述装置还包括数据过滤规则配置模块，用于配置数据过滤规则，并在进行ETL处理时，基于所述数据过滤规则对所述待处理数据进行过滤。

参见图9所示，本申请实施例公开了一种电子设备20，包括处理器21和存储器22；其中，所述存储器22，用于保存计算机程序；所述处理器21，用于执行所述计算机程序，前述实施例公开的数据ETL处理方法。

关于上述数据ETL处理方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

并且，所述存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，存储方式可以是短暂存储或者永久存储。

另外，所述电子设备20还包括电源23、通信接口24、输入输出接口25和通信总线26；其中，所述电源23用于为所述电子设备20上的各硬件设备提供工作电压；所述通信接口24能够为所述电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；所述输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

进一步的，本申请实施例还公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的数据ETL处理方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种数据ETL处理方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据ETL处理方法，其特征在于，包括：

获取待处理数据中数据样例对应的源字段；

配置每个所述源字段对应的字段解析规则；

2.根据权利要求1所述的数据ETL处理方法，其特征在于，所述基于预设转换逻辑将每个所述字段解析规则转换为相应的Flink SQL语句，包括：

基于预设转换逻辑，从预设FLink SQL语句模板库中调取每个所述字段解析规则中解析方式对应的FLink SQL语句模板，并基于所述FLink SQL语句模板生成所述FLink SQL语句。

3.根据权利要求1所述的数据ETL处理方法，其特征在于，所述基于预设转换逻辑将每个所述字段解析规则转换为相应的Flink SQL语句之后，还包括：

执行所述Flink SQL语句，得到相应的执行结果；

4.根据权利要求3所述的数据ETL处理方法，其特征在于，所述执行所述Flink SQL语句，得到相应的执行结果，包括：

基于FLink引擎的API在本地模拟FLlink运行环境；

5.根据权利要求4所述的数据ETL处理方法，其特征在于，所述通过所述FLlink运行环境执行所述Flink SQL语句，得到相应的执行结果之前，还包括：

6.根据权利要求1所述的数据ETL处理方法，其特征在于，所述配置每个所述源字段对应的字段解析规则之前，还包括：

7.根据权利要求1所述的数据ETL处理方法，其特征在于，还包括：

8.一种数据ETL处理装置，其特征在于，包括：

规则转换模块，用于基于预设转换逻辑将每个所述字段解析规则转换为相应的FlinkSQL语句；

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的数据ETL处理方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据ETL处理方法。