CN116955427B

CN116955427B - 一种基于Flink框架的实时多规则动态表达式数据处理方法以及装置

Info

Publication number: CN116955427B
Application number: CN202311202854.3A
Authority: CN
Inventors: 李世钰; 朱文雷; 武涵玉; 宋欣儒
Original assignee: Beijing Chaitin Tech Co ltd
Current assignee: Beijing Chaitin Tech Co ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-12-15
Anticipated expiration: 2043-09-18
Also published as: CN116955427A

Abstract

本发明提供了一种基于Flink框架的实时多规则动态表达式数据处理方法以及装置，包括：从消息队列中获取数据流；通过restful服务接收规则提交请求，并将提交的规则输入到分布式应用程序协调服务zookeeper中；通过Flink广播流方式实时监听分布式应用程序服务Zookeeper中存储的规则目录，根据规则目录实时获取规则内容，所述规则内容中包括多个表达式规则；根据获取的规则内容，对所述数据流匹配不同的表达式规则以获取多个所述数据流与其对应的表达式规则的映射关系；根据多个所述数据流与其对应的表达式规则的映射关系，通过与所述数据流对应的表达式规则对所述数据流进行处理，并将所述数据流处理结果同步到所述消息队列中。本申请可以在数据流中直接执行规则流的多个表达式规则，提升数据处理效率。

Description

一种基于Flink框架的实时多规则动态表达式数据处理方法以及装置

技术领域

本申请各实施例属于数据处理技术领域，具体涉及一种基于Flink框架的实时多规则动态表达式数据方法以及装置。

背景技术

随着大数据分布式数据处理技术从基于Hadoop MR2（MapReduce2）技术的离线计算向基于Spark技术的内存离线和准实时计算发展，数据的处理周期从天级降到了分钟级。尽管Spark是非常优秀的分布式内存计算引擎，但根本上还是以批处理来实现流计算，无法真正意义上的实现实时处理，此时，Flink计算框架技术应运而生。

但是，Flink计算框架有着一定的使用门槛，通常需要通过基于Datastream API的方式写代码开发，开发周期长，代码可变动性小，且基于Yarn模式时，提交任务就需要20-50秒才能将任务运行起来，每个任务都会从Kafka拉取相同的数据，造成Kafka数据扇出非常大，任务量到一定量之后，数据拉取时的网络带宽占用和Kafka性能消耗较大，直接影响分析任务的启动数量。

当前，业界开源的Flink开发方案仍无法实现不编写代码即可实现数据分析，无法实现毫秒级提交任务进行计算，无法实现在数据流中执行表达式规则，无法实现动态的改变正在执行的任务内容和任务个数。

发明内容

为了解决现有技术存在的无法实现不编写代码即可实现数据分析，无法实现毫秒级提交任务进行计算，无法实现在数据流中执行表达式规则，无法实现动态的改变正在执行的任务内容和任务个数的技术问题，本发明提供了基于Flink框架的实时多规则动态表达式数据处理方法以及装置。

第一方面，本申请实施例提供了一种基于Flink框架的实时多规则动态表达式数据处理方法，包括：

从消息队列中获取数据流；

通过restful服务接收规则提交请求，并将提交的规则输入到分布式应用程序协调服务zookeeper中；

通过Flink广播流方式实时监听分布式应用程序服务Zookeeper中存储的规则目录，根据规则目录实时获取规则内容，所述规则内容中包括多个表达式规则；

根据获取的规则内容，对所述数据流匹配不同的表达式规则以获取多个所述数据流与其对应的表达式规则的映射关系；

根据多个所述数据流与其对应的表达式规则的映射关系，通过与所述数据流对应的表达式规则对所述数据流进行处理，并将所述数据流处理结果同步到所述消息队列中。

作为本申请一优选实施例，所述从消息队列中获取数据流，具体包括：

获取所述消息队列的安全日志，将Json格式的安全日志转换为Map类型的安全日志以获取数据流。

作为本申请一优选实施例，通过与所述数据流对应的表达式规则对所述数据流进行处理，包括：

通过所述数据流对应的规则流中的filter元素配置对数据流进行过滤，所述filter元素为通过表达式进行过滤，所述表达式通过java语言表达式和函数任意层级嵌套组成；

通过所述数据流对应的规则流中groupby元素配置的聚合条件对数据进行分区，将符合聚合条件的数据分发到各自的分区中；

通过所述数据流对应的规则流中window元素划分时间区域，对分区的数据进行指定时间区域内的聚合操作。

作为本申请一优选实施例，还包括：

配置第一监控数据点、第二监控数据点和第三监控数据点；

其中，所述第一监控数据点用于反馈经过过滤处理后数据，所述第二监控数据点用于反馈经过分区处理后数据，所述第三监控数据点用于反馈经聚合操作后的数据。

作为本申请一优选实施例，所述通过所述数据流对应的规则流中的filter元素配置对数据流进行过滤，包括：

设定数据筛选条件；

根据数据过滤表达式对数据进行过滤；

通过函数确定过滤后的数据是否符为符合要求的数据。

作为本申请一优选实施例，根据所述数据流过滤的表达式动态体调整函数；根据动态调整的函数选择待应用函数。所述函数可以无限进行扩充。

作为本申请一优选实施例，所述通过与所述数据流对应的规则流中window元素划分时间区域，对分区的数据进行指定时间区域内的聚合操作，包括：

判断是否通过所述数据流按照划分时间区域进行处理；

如果是，则所述数据流根据对应的规则流中window元素划分时间区域；

则对所述分区的数据进行指定时间区域内的聚合操作，并获取聚合操作结果，根据划分时间区域结束对所述分区的数据进行指定时间区域内的聚合操作以便将聚合操作结果上报至消息队列中。

作为本申请一优选实施例，所述通过与所述数据流对应的表达式规则对所述数据流进行处理，还包括：

获取停止规则请求，停止表达式规则对所述数据流处理过程。

作为本申请一优选实施例，所述将所述数据流处理结果同步到所述消息队列中之前，包括：

将所述数据流进行处理结果由Map类型转为Json结构。

与现有技术相比，本申请通过从消息队列中获取数据流；通过restful服务接收规则提交请求，并将提交的规则输入到分布式应用程序协调服务zookeeper中；通过Flink广播流方式实时监听分布式应用程序服务Zookeeper中存储的规则目录，根据规则目录实时获取规则内容，所述规则内容中包括多个表达式规则；根据获取的规则内容，对所述数据流匹配不同的表达式规则以获取多个所述数据流与其对应的表达式规则的映射关系；根据多个所述数据流与其对应的表达式规则的映射关系，通过与所述数据流对应的表达式规则对所述数据流进行处理，并将所述数据流处理结果同步到所述消息队列中。本申请通过restful服务接收规则提交请求，规则提交请求采用规则流的方式提交任务，可以实现毫秒级提交任务，并可以在数据流中直接执行规则流的多个表达式规则，提升数据处理效率。

第二方面，本申请实施例还提供了一种基于Flink框架的实时多规则动态表达式数据处理装置，包括：

第一获取模块，用于从消息队列中获取数据流；

输入模块，用于通过restful服务接收规则提交请求，并将提交的规则输入到分布式应用程序协调服务zookeeper中；

第二获取模块，用于通过Flink广播流方式实时监听分布式应用程序服务Zookeeper中存储的规则目录，根据规则目录实时获取规则内容，所述规则内容中包括多个表达式规则；

匹配模块，用于根据获取的规则内容，对所述数据流匹配不同的表达式规则以获取多个所述数据流与其对应的表达式规则的映射关系；

处理模块，用于根据多个所述数据流与其对应的表达式规则的映射关系，通过与所述数据流对应的表达式规则对所述数据流进行处理，并将所述数据流处理结果同步到所述消息队列中。

第二方面，本申请实施例提供的一种基于Flink框架的实时多规则动态表达式数据处理装置有益效果与第一方面相同，在此不再赘述。

附图说明

图1是本发明提供的一种基于Flink框架的实时多规则动态表达式数据处理方法的流程示意图。

图2是本发明提供的一种基于Flink框架的实时多规则动态表达式数据处理装置的结构示意图。

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都应当属于本申请保护的范围。

本发明提供了一种基于Flink框架的实时多规则动态表达式数据处理方法，可以在Flink框架中实施，Flink框架是Apache基金会开发的顶级开源项目，它支持在大规模数据集上进行高效的实时计算。Flink框架提供了流处理和批处理的能力，以及基于事件驱动模型的精确一次处理保证，这使得它成为处理实时数据的首选框架之一。Flink框架的流处理模型是基于有向无环图(DAG)的流数据流图，它允许用户在数据流中定义一系列的操作，如数据的过滤、转换、聚合、窗口化、状态管理等。这些操作可以被组合成复杂的数据处理流程，Flink框架提供了高效的流数据传输和调度机制，保证了流数据的低延迟和高吞吐。

第一方面，参照图1，示出了本发明实施例提供的一种基于Flink框架的实时多规则动态表达式数据处理方法的流程示意图。

所述方法具体包括：

S101：从消息队列中获取数据流。

可选地，获取消息队列Kafka中的安全日志，Kafka是一种高性能分布式消息队列系统，它是一种高吞吐量、低延迟的消息队列系统，可以处理大量的实时数据流。

所述从消息队列中获取数据流，具体包括：

在一种可能的实施方式中，所述从消息队列中获取数据流，具体包括：

其中，Map是一种常用的数据结构，可以方便地存储和处理数据，Map类型数据的字段名称和值都可以直接读取和操作，使得数据分析和处理更加直观和简单。

对于Json格式的数据流，需要使用Json解析库进行解析，然后才能对数据进行操作。而将Json格式的数据流转换为Map类型数据后，可以使用各种编程语言的Map相关操作进行数据处理和分析。例如，在Java中，可以使用Map的遍历、查找、过滤、排序等操作，方便地进行数据分析和处理。数据处理的代码可以更加清晰和简洁，提高代码的可读性和可维护性。同时，将Json格式的数据流转换为Map类型数据还可以方便地进行数据转换和格式化。

具体的，获取消息队列的安全日志，从安全日志中提取数据流。

可选地，安全日志是一种用于记录安全事件的日志文件，当然获取数据流的方式不仅仅局限于安全日志，其他日志只要满足格式要求，也可以提取数据流。

S102：通过restful服务接收规则提交请求，并将提交的规则输入到分布式应用程序协调服务zookeeper中。

其中，在实时多规则动态表达式数据处理引擎上设置有多个规则，通过用户点击开启规则，规则才能被启用，所有的数据都过每条规则，过规则中的filter元素，如果符合条件就来进入下一步，当数据流中的元素满足某个规则的条件时，相应的执行动作就会被触发，对数据进行相应的处理和操作。

其中，规则流可以理解为由多个按照顺序排列的表达式规则。

其中，ZooKeeper是一个开放源码的分布式应用程序协调服务。ZooKeeper中存储表达式规则的目录，可以通过Flink的ZooKeeper Connector（ZooKeeper连接器）来监测ZooKeeper中存储表达式规则的目录。当这些规则发生变化时，ZooKeeper会通知Flink应用程序，并触发广播流的更新。随后，任务的并行实例可以获取更新后的广播流，并使用其中的规则来进行相关的计算和处理。通过此种方式获取规则流可以实现动态的表达式规则的管理和使用，以便应对不断变化的业务需求。

需要说明的是，用户在提交规则时，系统中的Resful服务可以接收用户的规则提交请求，并将规则按照提交顺序存储在ZooKeeper中。

步骤S103，通过Flink广播流方式实时监听分布式应用程序服务Zookeeper中存储的规则目录，根据规则目录实时获取规则内容，所述规则内容中包括多个表达式规则；

需要说明的时，当监听到分布式应用程序服务Zookeeper中存储的规则目录有新增时，获取新增的规则内容以便处理数据流。

步骤104，根据获取的规则内容，对所述数据流匹配不同的表达式规则以获取多个所述数据流与其对应的表达式规则的映射关系；

需要说明的是，因为在消息队列中数据流是根据分类进行存储，所以对应每类数据需要同时分配多个表达式规则，以建立多个所述数据流与其对应的表达式规则的映射关系；具体的建立映射关系是在对应的数据流上进行打标以标注此数据流对应的表达式规则。

步骤105，根据多个所述数据流与其对应的表达式规则的映射关系，通过与所述数据流对应的表达式规则对所述数据流进行处理，并将所述数据流处理结果同步到所述消息队列中。

通过与所述数据流对应的表达式规则对所述数据流进行处理，包括：

通过所述数据流对应的规则流中的filter元素配置对数据流进行过滤，所述filter元素为通过表达式进行过滤，所述表达式通过java语言表达式和函数任意层级嵌套组成；采用规则流中配置表达式规则的方式对数据流处理的优点在于：可以在运行时动态地添加、删除和修改规则，以便应对不断变化的业务需求。需要说明是，通过多个进程进行处理至少一个规则，多个进程可以并行进行。

需要说明的是，通过Flink框架和Janino规则引擎结合进行数据过滤，Janino规则引擎实际上为代码编译器，通过Janino规则引擎可以实时对表达式规则进行编译。

所述通过所述数据流对应的规则流中的filter元素配置对数据流进行过滤，包括：

设定数据筛选条件；

根据数据过滤表达式对数据进行过滤；

通过函数确定过滤后的数据是否符为符合要求的数据。

在具体的应用过程中，比如筛选数据中源IP为127.0.0.1且目的IP为192.168.1.1的数据，支持的数据过滤表达式举例如下“src_ip==127.0.0.1 &&dest_ip==192.168.1.1”（其中src_ip,dest_ip代表数据中的字段名）,"ipContains(192.168.122.3,192.168.122.1/24)"该表达式中，ipContains为函数名可以判断IP192.168.122.3是否192.168.122.1/24网段，如果在该网段代表为符合条件的数据。其中，ipContains为自定义函数，用于判断IP是否在固定网段。

作为本申请一优选实施例，根据对所述数据流过滤的表达式动态调整函数，函数库可以根据业务需求动态扩展。

所述方法还包括：

配置第一监控数据点、第二监控数据点和第三监控数据点；

需要说明的是，第一监控数据点、第二监控数据点和第三监控数据点的反馈结果将反馈到消息队列中。消息队列中一方面可以接收监控数据点反馈的反馈数据，另一方面可以接收数据处理后的结果数据。

进一步地，配置第一监控数据点、第二监控数据点和第三监控数据点可以监控数据处理进度，或整个数据处理流程出现错误，可以及时寻找到出错位置，便于调试整个数据处理流程。

需要说明的是，规则流中存储有多个表达式规则，也可通过一下方式实施，先将第一个表达式规则确定为当前表达式规则，根据第一个表达式规则对数据进行过滤、分区和数据聚合，将处理结果同步到消息队列中。之后，将第二个表达式规则确定为当前表达式规则，根据第二个表达式规则对数据进行过滤、分区和数据聚合，将处理结果同步到消息队列中。以此类推，直至将第N个表达式规则确定为当前表达式规则，根据第N个表达式规则对数据进行过滤、分区和数据聚合，将处理结果同步到消息队列中。

其中，聚合操作包括：不去重计数、去重计数、聚合、去重聚合和条件计数等。去重计数是指在内存中去重数据，数据中指定字段值不重复计数加1；聚合是指把每条数据中指定字段拼接成一个字符串；去重聚合是指在内存中去重，把不重复的字段拼接成一个字符串；条件计数是指如果数据中指定字段满足什么条件，计数加1（例如：数据中源IP字段值为“127.0.0.1”，则计数加1）。

其中，条件计数可以支持自定义函数条件，可以做到线性扩展条件函数。

将处理结果同步到消息队列中，包括：

将处理后的MAP类型的结果数据转换为Json格式，将Json格式的结果数据同步到消息队列中。

若之前采用将Json格式的数据流转换为Map类型数据后，再进行数据处理，此时需要将处理后的数据重新转换为Json格式，以满足消息队列对于数据类型的要求。

在本发明中多个表达式规则使用同一份原始数据的方案，成功解决数据扇出影响网络性能的问题。并且可以解决传统数据分析任务不能共享内存和CPU资源的问题，在本发明中将多个表达式规则动态地注册到同一个资源池，能够很好的提高硬件资源的利用率。

在具体应用本申请的实施例时，本申请动态主要体现在：1、任务提交、任务修改和任务停止无需用户重启服务只需要在运行的引擎上提交规则，在页面上实时对规则进行修改、启动和停止操作；2、动态新增函数以便进行数据处理，函数为自定义添加。

第二方面，本申请实施例还提供了一种基于Flink框架的实时多规则动态表达式数据处理装置20，包括：

第一获取模块21，用于从消息队列中获取数据流；

输入模块22，用于通过restful服务接收规则提交请求，并将提交的规则输入到分布式应用程序协调服务zookeeper中；

第二获取模块23，用于通过Flink广播流方式实时监听分布式应用程序服务Zookeeper中存储的规则目录，根据规则目录实时获取规则内容，所述规则内容中包括多个表达式规则；

匹配模块24，用于根据获取的规则内容，对所述数据流匹配不同的表达式规则以获取多个所述数据流与其对应的表达式规则的映射关系；

处理模块25，用于根据多个所述数据流与其对应的表达式规则的映射关系，通过与所述数据流对应的表达式规则对所述数据流进行处理，并将所述数据流处理结果同步到所述消息队列中。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种基于Flink框架的实时多规则动态表达式数据处理方法，其特征在于，包括：

从消息队列中获取数据流；

根据多个所述数据流与其对应的表达式规则的映射关系，通过与所述数据流对应的表达式规则对所述数据流进行处理，并将所述数据流处理结果同步到所述消息队列中；

2.根据权利要求1所述的一种基于Flink框架的实时多规则动态表达式数据处理方法，其特征在于，所述从消息队列中获取数据流，具体包括：

3.根据权利要求1所述的一种基于Flink框架的实时多规则动态表达式数据处理方法，其特征在于，还包括：

配置第一监控数据点、第二监控数据点和第三监控数据点；

4.根据权利要求1所述的一种基于Flink框架的实时多规则动态表达式数据处理方法，其特征在于，所述通过所述数据流对应的规则流中的filter元素配置对数据流进行过滤，包括：

设定数据筛选条件；

根据数据过滤表达式对数据进行过滤；

通过函数确定过滤后的数据是否符为符合要求的数据。

5.根据权利要求4所述的一种基于Flink框架的实时多规则动态表达式数据处理方法，其特征在于，所述方法还包括：

根据所述数据流过滤的表达式动态调整函数；

根据动态调整的函数选择待应用函数。

6.根据权利要求1所述的一种基于Flink框架的实时多规则动态表达式数据处理方法，其特征在于，所述通过与所述数据流对应的规则流中window元素划分时间区域，对分区的数据进行指定时间区域内的聚合操作，包括：

判断是否通过所述数据流按照划分时间区域进行处理；

如果是，则所述数据流根据对应的规则流中window元素划分时间区域；则对所述分区的数据进行指定时间区域内的聚合操作，并获取聚合操作结果，根据划分时间区域结束对所述分区的数据进行指定时间区域内的聚合操作以便将聚合操作结果上报至消息队列中。

7.根据权利要求1所述的一种基于Flink框架的实时多规则动态表达式数据处理方法，其特征在于，所述通过与所述数据流对应的表达式规则对所述数据流进行处理，还包括：

8.根据权利要求1所述的一种基于Flink框架的实时多规则动态表达式数据处理方法，其特征在于，所述将所述数据流处理结果同步到所述消息队列中之前，包括：

将所述数据流进行处理结果由Map类型转为Json结构。

9.一种基于Flink框架的实时多规则动态表达式数据处理装置，其特征在于，包括：

第一获取模块，用于从消息队列中获取数据流；

处理模块，用于根据多个所述数据流与其对应的表达式规则的映射关系，通过与所述数据流对应的表达式规则对所述数据流进行处理，并将所述数据流处理结果同步到所述消息队列中；