CN109710731A

CN109710731A - 一种基于Flink的数据流多向处理系统

Info

Publication number: CN109710731A
Application number: CN201811373337.1A
Authority: CN
Inventors: 李志强; 石波; 胡佳; 谢小明; 丁卫星; 徐晶
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2019-05-03

Abstract

本发明涉及一种基于Flink的数据流多向处理系统，涉及数据实时处理技术领域。本发明给出了一种基于Kafka/Flink/Elasticsearch的单消费者处理多业务的数据流处理系统，能够实时高效准确地处理大规模的数据。利用Kafka的高扩展性和高可靠性，可将多个数据源的数据准确地收集汇总，并且易于新增扩展；Kafka可进行持久化操作，将消息持久化到磁盘，极大地减少了数据丢失的概率。与Flink的高效组合，分布式可升级为多消费多向处理业务数据的形式，极大地扩展了flink作为消费者的数据处理能力，同时也保证了计算并存储的快速性。这一种基于flink单消费者数据流处理系统，既在单节点上有出色的表现，也能在分布式呈现惊人的分析效率，扩大了传统算法分向处理、分析范围和快速存储的整体能力。

Description

一种基于Flink的数据流多向处理系统

技术领域

本发明涉及数据实时处理技术领域，具体涉及一种基于Flink的数据流多向处理系统。

背景技术

随着云时代的来临，大数据也吸引了越来越多的关注。大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。Flink是一个针对流数据和批数据的分布式处理引擎。ElasticSearch是一个基于Lucene的搜索服务器，设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，使用方便。

云计算时代数据呈现出爆炸性增长的态势，各类系统都会产生大量日志，日志数据的规模GB数量级跃升到TB甚至PB这样的数量级。面对海量的日志，传统的日志处理系统框架已经无法满足目前的需求。同时系统业务对日志、业务数据等处理的实时性需求也逐渐提高。传统的流数据处理框架其吞吐量和容错性存在先天的缺陷，不再适用于目前类似于互联网这类行业的高速扩展的业务需求。因此对于流式数据的处理，以及多业务需求中快速存储的问题，需要设计一种数据流处理系统，准确并且实时地计算和处理相关业务数据，加速系统的运算能力。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何设计一种数据流处理系统，准确并且实时地计算和处理相关业务数据，加速系统的运算能力。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于Flink的数据流多向处理系统，包括数据缓存模块、数据多向处理模块和数据存储模块；

所述数据缓存模块用于缓存从不同的源收集的数据，并转发给数据多向处理模块；所述数据多向处理模块用于接收来自数据缓存模块的数据，根据多业务需求把日志流进行多纬度处理分析，再把对应的日志流发送给其对应的数据存储模块。

优选地，所述数据缓存模块采用Apache Kafka实现。

优选地，所述数据多向处理模块中使用flink-kafka连接器对Kafka的流数据进行消费处理，在flink中进行数据多层次，多流向的处理。

优选地，所述数据多向处理模块具体采用如下过程对Kafka的流数据进行消费处理：

初始化消费者：由连接器创建kafka的消费者，此处只创建一个消费者，以接收缓存在kafka的数据；

筛选并转换：创建过滤器，对数据源进行过滤，去除非法数据；创建转换器，对多种业务需求进行数据统一化格式转换处理；

多向处理：对同一个数据按照多种不同的处理方式进行处理，并行经过多种不同的业务逻辑，实现单消费者对数据的多方位分析：

第一种业务处理流程，实现峰值和热词的统计收集：

创建统计函数，使用key计数，创建业务需求的自定义计数逻辑，实现对数据峰值、热词计数，排序；

创建存储函数，实现对相应结果记录存储。

第二种业务处理流程，实现数据重点信息收集和存储：

创建必要的数据转换器，实现对数据特征的提取处理、加工，实现数据的泛化，保留各方面数据中相同或一定程度上相似的特征；

创建过滤业务，去除数据中一定程度上发散或重复的数据；

存储第二种业务处理流程产生的泛化数据。

优选地，所述数据存储模块采取对EsSink存储时的异常处理流程：

检查Kafka业务流程，是否选择保留数据；

保存文件时处理错误数据。

(三)有益效果

本发明给出了一种基于Kafka/Flink/Elasticsearch的单消费者处理多业务的数据流处理系统，能够实时高效准确地处理大规模的数据。利用Kafka的高扩展性和高可靠性，可将多个数据源的数据准确地收集汇总，并且易于新增扩展；Kafka可进行持久化操作，将消息持久化到磁盘，极大地减少了数据丢失的概率。与Flink的高效组合，分布式可升级为多消费多向处理业务数据的形式，极大地扩展了flink作为消费者的数据处理能力，同时也保证了计算并存储的快速性。这一种基于flink单消费者数据流处理系统，既在单节点上有出色的表现，也能在分布式呈现惊人的分析效率，扩大了传统算法分向处理、分析范围和快速存储的整体能力。

附图说明

图1为本发明中数据多向处理原理图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明实现了一套分布式的数据流处理系统，它具有分布式、大吞吐、低延迟的特性，能够准确并且实时地计算和处理相关业务数据，从而加速系统的运算能力。

该系统分为三个模块：数据缓存模块、数据多向处理模块、数据存储模块。所述数据缓存模块用于缓存从不同的源收集的数据，并转发给数据多向处理模块。所述数据多向处理模块用于接收来自数据缓存模块的数据，根据多业务需求把日志流进行多纬度处理分析，再把对应的日志流发送给其对应的数据存储模块。系统的三个模块之间无缝衔接，具有高实时性的特点。本发明可用于单节点数据处理也可用于分布式，由单节点多逻辑的处理方式升级为分布式处理，则可实现指数级种逻辑的并行分析，从而提升分析效率，增强分析能力。

数据缓存模块需要一个分布式的、可靠的、高可用的、能接收海量日志的框架，并且需要支持多源采集且集中存储。在诸多的日志收集系统中，本发明选择的是ApacheKafka。Kafka可进行持久化操作。将消息持久化到磁盘，通过将数据持久化到硬盘以及replication防止数据丢失，因此可用于批量消费。由于现有服务器硬件方面限制，对其存储在硬盘上的文件大小和保存时长做了限制。同时由于本方法涉及实时性较高，故实时流数据只保存一小时内，文件大小不超过512MB，二者满足其一，则进行删除操作。同时在后数据多向处理前，异常时也进行了如上判断，并实现重启机制，重启前判断若大量积存历史数据则对其进行删除。

所有的producer、broker和consumer都会有多个，均为分布式的。无需停机即可扩展机器。同时为发布和订阅提供高吞吐量。据了解，Kafka每秒可以生产约25万消息(50MB)，每秒处理55万消息(110MB)kafka采用的是文本日志有序的方式来记录信息的，和内存没有关系，全部将接受的信息持久化到硬盘上，接收和消费互不影响，大大提高了IO效率。

Flink是完全支持流处理，也就是说作为流处理看待时输入数据流是无界的，批处理被作为一种特殊的流处理，只是它的输入数据流被定义为有界的。基于同一个Flink运行时(Flink Runtime)，分别提供了流处理和批处理API，而这两种API也是实现上层面向流处理、批处理类型应用框架的基础。本发明的数据多向处理模块采用流处理方式对数据加工分析，数据多向处理指对同一个数据源进行多方面解析、计算，从多个角度对数据进行剖析。本发明主要介绍多向处理的方法，已解决单个消费者应对多种不同逻辑业务的处理。

本发明使用flink-kafka连接器对kafka的流数据进行消费处理，在flink中进行数据多层次，多流向的处理。DataStream API支持了数据流上的函数式转换，可以使用自定义的状态和灵活的窗口。本发明实现了，一方面以滑动窗口的方式统计文本数据量的大小、记录峰值等信息，一方面同时对数据内容进行规约处理存储。此为多向的体现之一，其次多向还表现在，根据不同的业务需求对同一个数据源进行不同的转换后分别输出。其中各个数据流操作均为组合式排列，实现过程如下：

初始化消费者：由连接器创建kafka的消费者，此处只创建一个消费者，以接收缓存在kafka的数据。

筛选并转换：

创建过滤器(filter)，对数据源进行过滤，去除非法数据；

创建转换器(map(parse))，对多种业务需求进行数据统一化格式转换处理。

多向处理：对同一个数据按照多种不同的处理方式进行处理stream.flatMap(...)和stream.map(...),stream为同一数据源，并行经过多种不同的业务逻辑，实现单消费者对数据的多方位分析，如图1中flink区所示：

第一种业务处理流程，实现峰值和热词的统计收集：

创建统计(flatMap)函数，使用key计数，创建业务需求的自定义计数逻辑，实现对数据峰值、热词计数，排序；

创建存储(sink)函数，实现对相应结果记录存储。

第二种业务处理流程，实现数据重点信息收集和存储：

创建必要的数据转换器(map(parse))，实现对数据特征的提取处理、加工，实现数据的泛化，保留各方面数据中相同或一定程度(满足预设条件)相似的特征，便于业务的分析。

创建过滤业务(filter)，去除数据中一定程度上发散(满足预设条件)或重复的数据。

存储(sink)，存储第二种业务处理流程产生的泛化数据，以便用于后期数据统计，特征匹配和相似推荐。

由此创建相互关联(具有相同数据源数据特征)，又彼此独立(需要不同方向对数据进行分析)的多种业务实现。达到单消费者处理多种业务逻辑的效果，流程如图1中flink区所示，实现同时对数据进行多向分析处理。

在使用Flink进行数据处理的时候，一个必要步骤就是需要将计算的结果进行存储或导出，Flink中这个过程称为Sink。Flink支持多种Sink对数据进行存储，如ApacheKafka、Elasticsearch、Hadoop FileSystem、RabbitMQ、Amazon Kinesis Streams、TwitterStreaming API、Apache NiFi、Apache Cassandra等，本发明采用Elasticsearch进行高速快捷存储，本发明数据存储模块中实现了对EsSink存储时异常的处理，es自身的处理方式是重新添加至队列进行重试存储，由于现业务高吞吐量，高时效需求，如出现大量的异常数据，再进行重试可能会导致flink节点工作繁重从而宕机，本发明采取的对EsSink存储时异常的处理流程如下：

1、检查Kafka业务流程，是否选择保留数据。

2、保存文件时处理错误数据，以便调整和优化数据分析机制，从而由自定义处理异常的方法保证程序稳定可靠运行。

可以看出，本发明基于Kafka、Flink和ElasticSearch构建了一个分布式数据流统计、处理及存储系统。通过这个系统，可以高效、实时、可靠地获取和分析各类流数据，快速分析，从多维度解析处理数据流，从而提高系统或平台的数据处理和分析能力。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于Flink的数据流多向处理系统，其特征在于，包括数据缓存模块、数据多向处理模块和数据存储模块；

2.如权利要求1所述的系统，其特征在于，所述数据缓存模块采用Apache Kafka实现。

3.如权利要求1所述的系统，其特征在于，所述数据多向处理模块中使用flink-kafka连接器对Kafka的流数据进行消费处理，在flink中进行数据多层次，多流向的处理。

4.如权利要求3所述的系统，其特征在于，所述数据多向处理模块具体采用如下过程对Kafka的流数据进行消费处理：

第一种业务处理流程，实现峰值和热词的统计收集：

创建存储函数，实现对相应结果记录存储；

第二种业务处理流程，实现数据重点信息收集和存储：

创建过滤业务，去除数据中一定程度上发散或重复的数据；

存储第二种业务处理流程产生的泛化数据。

5.如权利要求1所述的系统，其特征在于，所述数据存储模块采取对EsSink存储时的异常处理流程：

检查Kafka业务流程，是否选择保留数据；

保存文件时处理错误数据。