CN111177237B

CN111177237B - 一种数据处理系统、方法及装置

Info

Publication number: CN111177237B
Application number: CN201911259591.3A
Authority: CN
Inventors: 易龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2024-02-13
Anticipated expiration: 2039-12-10
Also published as: CN111177237A

Abstract

本申请提供一种数据处理技术领域，尤其涉及一种数据处理系统、方法及装置，系统包括多个数据生成模块、Kafka、数据处理模块以及多个数据使用模块；每个数据生成模块分别用于获得源数据，并将源数据写入Kafka中；数据处理模块用于从接收的配置文件中获取数据处理规则，从Kafka中获取源数据，据数据处理规则将源数据处理为可用数据，并将处理后的可用数据存入Kafka中；每个数据使用模块分别用于从Kafka中获取需要的可用数据。能够实时进行数据处理的过程，提高了数据处理过程的实时性。

Description

一种数据处理系统、方法及装置

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种数据处理系统、方法及装置。

背景技术

在社会快速发展的今天，各行各业每天都会产生大量的数据，数据来源囊括了我们周围可以捕获的任何类型数据，例如网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。

在对海量数据进行处理时，通常是将海量数据进行批次保存，可以保存在线上数据库，也可以落地保存，在进行处理时，从数据库中将数据批次获取，并在处理后，将数据处理结果批次保存进数据库。

但是现有技术中，批次数据处理的过程中会造成数据库输入输出接口IO占用率高的问题，并且批次数据处理会造成数据处理的延迟性，不能适用于实时的应用场景中。

发明内容

本申请实施例提供一种数据处理系统、方法及装置，能够实时进行数据处理的过程，保证了数据处理的实时性。

一方面，本申请实施例提供一种数据处理系统，系统包括多个数据生成模块、Kafka、数据处理模块以及多个数据使用模块；

每个数据生成模块分别用于获得源数据，并将源数据写入Kafka中；

数据处理模块用于从接收的配置文件中获取数据处理规则，从Kafka中获取源数据，根据数据处理规则将源数据处理为可用数据，并将处理后的可用数据存入Kafka中；

每个数据使用模块分别用于从Kafka中获取需要的可用数据。

一方面，本申请实施例提供一种数据处理方法，包括：

通过Kafka获取待处理流式数据，待处理流式数据是数据生成模块写入Kafka中的；

根据数据处理规则，对待处理流式数据进行处理，得到可用数据，数据处理规则至少是通过配置文件进行配置的；

将可用数据写入Kafka中，以使可用数据对应的数据使用模块通过Kafka获取可用数据。

可选的，通过Kafka获取待处理流式数据，包括：

通过Kafka中不同的第一存储区域获取待处理流式数据，不同的第一存储区域是根据待处理流式数据的属性特征确定的；

根据数据处理规则，对待处理流式数据进行处理，得到可用数据，包括：

针对不同的第一存储区域的待处理流式数据，确定对应的数据处理规则；

根据不同的第一存储区域的待处理流式数据以及对应的数据处理规则进行数据处理；

将可用数据写入Kafka中，包括：

将不同的第一存储区域的待处理流式数据对应的可用数据写入Kafka中与各第一存储区域对应的第二存储区域。

可选的，所述配置文件是根据配置界面的输入的数据处理规则确定的。

一方面，本申请实施例提供一种数据处理装置，包括：

获取单元，用于通过Kafka获取待处理流式数据，待处理流式数据是数据生成模块写入Kafka中的；

数据处理单元，用于根据数据处理规则，对待处理流式数据进行处理，得到可用数据，数据处理规则至少是通过配置文件进行配置的；

数据存储单元，用于将可用数据写入Kafka中，以使可用数据对应的数据使用模块通过Kafka获取可用数据。

一方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述任一种数据处理方法的步骤。

一方面，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行上述任一种数据处理方法的步骤。

本申请实施例提供的数据处理系统，引入了Kafka将数据生成模块的源数据进行保存，并通过数据处理模块能够实时对Kafka中的数据进行数据处理，将数据处理结果保存在Kafka中。数据处理模块的数据处理规则是通过配置文件进行配置的，也就是说，可以利用本申请实施例中的相同的数据处理系统框架，可以实现数据处理规则的灵活配置。并且在本申请实施例中能够实时进行数据处理的过程，提高了数据处理过程的实时性，能够应用于各种实时场景中。

进一步地，由于本申请实施例中使用了Kafka进行数据存储，所以可以防止数据被重复进行数据处理的过程；且由于Kafka中包括备份数据，所以本申请实施例中的数据处理系统能够保证数据的安全性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中提供的一种数据处理系统的架构示意图；

图2为本申请实施例提供的一种数据处理系统的架构示意图；

图3为本申请实施例提供的一种生产者、服务器以及消费者之间交互的示意图；

图4为本申请实施例提供的一种统一写入层的结构示意图；

图5为本申请实施例提供的一种Kafka保存源数据的示意图；

图6为本申请实施例提供的一种对数据处理模块进行配置的方法示意图；

图7为本申请实施例提供的一种数据处理系统的架构示意图；

图8为本申请实施例提供的一种数据审计的架构示意图；

图9为本申请实施例提供的一种数据处理方法的流程示意图；

图10为本申请实施例提供的一种数据处理装置的结构示意图；

图11为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了方便理解，下面对本申请实施例中涉及的名词进行解释：

大数据技术：就是从各种各样类型的数据中，快速获得有价值信息的能力。大数据产生的原因:大数据时代的来临是由数据丰富度决定的。首先是社交网络兴起，互联网上每天大量非结构化数据的出现。另外，物联网的数据量更大，加上移动互联网能更准确、更快地收集用户信息，比如位置、生活信息等数据。从这些数据每天增加的数量来说，目前已进入大数据时代。大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来，为人类社会经济活动提供依据，提高各个领域的运行效率，甚至整个社会经济的集约化程度。

数据技术的广泛应用使其成为引领众多行业技术进步、促进效益增长的关键支撑技术。根据数据处理的时效性，大数据处理系统可分为批式(batch)数据和流式(streaming)数据两类。其中，批式大数据又被称为历史数据，流式数据又被称为实时数据。

流式数据：指持续的单位时间并发的数据，像流水一样，不是一次过来而是一点一点“流”过来。而处理流式数据也是一点一点处理。如果是全部收到数据以后再处理，那么延迟会很大，而且在很多场合会消耗大量内存。具体到大数据，流式数据通常是指由传感器采集的持续高速的大量的数据，比如医院发给病人心脏监视器数据采集就是一个典型的流式，另外交通信息采集也是一种流式数据。

流处理：是一种大数据处理技术，用于处理连续数据流，即流式数据，并能在收到数据短时间内快速检测出异常条件，检测时间从几毫秒到几分钟不等。例如，通过流处理查询来自温度传感器的数据流，可以在温度达到凝固点时收到报警。

数据审计：指的是对数据进行清洗、格式转换以及规则过滤等一系列处理过程。

Kafka：是由LinkedIn公司开发并开源的消息中间件。Kafka消息中间件主要由生产者producer、代理服务器broker和消费者consumer组成，生产者发布消息，代理服务器将消息从生产者转发到消费者，消费者接收并处理消息。生产者producer和代理服务器broker分别作为消息的客户端和服务端。在实际运用中，一般会将多个Kafka代理服务器以集群的方式运行形成Kafka。Kafka以时间复杂度为O(1)的方式提供消息持久化能力，时间复杂度O(1)指的是无论输入数据的规模如何增大，都不会影响Kafka的处理性能，即Kafka的时间复杂度与输入的数据规模无关，即使对TB级以上数据也能保证常数时间的访问性能。Kafka同时支持离线数据处理和实时数据处理。

Docker：是一个开源的应用容器引擎，让开发者可以开发应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的Linux或Windows机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口。

在具体实践过程中，本申请的发明人发现，当数据源产生大量数据后，需要针对数据进行审计，审计的过程不限于对数据进行筛选、过滤以及数据格式转换等。现有技术中，通常将数据源产生的大量数据进行批次保存，例如以5s的周期将数据源在5s内产生的所有数据进行保存，同时，在对数据进行审计时，也是按照批次进行审计的，可以按照数据保存的周期进行审计，也可以按照其它时间周期进行审计，例如，以10s的周期对批次数据进行审计。

在现有技术中的数据源保存以及审计的过程具体如图1所示，在图1中，数据源101在产生数据后，将数据按照批次进行保存，保存在数据审计队列102中，数据审计模块103从数据审计队列102中获取审计数据并进行审计处理，将审计处理结果保存在结果队列104中。

通过上述现有技术的数据审计处理流程，可以得知，现有技术中的数据审计过程不能满足实时性的要求，并且在数据审计过程中，要频繁从数据审计队列102中保存数据以及提取数据，所以数据审计队列102存在高并发的问题。

基于上述现有技术的缺点，本申请的发明人构思了一种数据处理系统以及一种数据处理方法，根据Kafka的特点，引入Kafka框架进行数据处理，具体的，在多个数据生成模块产生数据后，将产生的数据写入Kafka中，由于Kafka具有流式数据的存储能力，所以可以将数据生成模块生成的数据按照流式数据的方式进行保存；同时，在本申请实施例中，数据处理模块从Kafka中获取流式数据，并根据配置文件获取数据处理规则，对获取的流式数据进行处理，也就是说，在数据生成模块生成数据并保存数据的同时，数据处理模块可以从Kafka中获取流式数据进行数据处理，所以进行实时数据处理了，提高了数据处理的实时性。

进一步地的，在本申请实施例中，数据处理模块在进行数据处理后，将数据处理结果存入了Kafka中，由于Kafka是一种分布式发布订阅消息系统，所以能够实时的将数据处理结果提供给多个数据使用模块进行使用。

在上述实施例中，不仅保证了数据处理的实时性，还可以通过不同的配置文件配置不同的数据处理规则，增强了数据处理系统的泛化特征。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案的架构做一些简单介绍，需要说明的是，以下介绍的架构仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

参考图2，其为本申请实施例提供的数据处理系统的架构图。该架构至少包括多个数据生成模块201、Kafka202、数据处理模块203以及多个数据使用模块204。

在本申请实施例中，数据生成模块201是具有产生数据生成能力的模块，可以为数据服务器，也可以是其它数据库。一种可选的实施例中，数据生成模块201包括但不限于桌面计算机、移动电话、移动电脑、平板电脑等电子设备，可以包括服务器，服务器可以是服务器集群，也可以是单个服务器。同时，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

数据生成模块201可以通过Kafka202的接口，将数据生成模块201输入的数据写入Kafka202中，同时数据生成模块201可以通过无线网络访问Kafka202的接口；进一步地的，在本申请实施例中，Kafka是云存储设备中的一种，云存储是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。

同样的，在本申请实施例中，数据处理模块203是具有计算处理能力的设备的统称，数据处理模块203包括但不限于桌面计算机、移动电话、移动电脑、平板电脑等电子设备，可以包括服务器，服务器可以是服务器集群，也可以是单个服务器。数据处理模块203可以通过Kafka202的接口，获取Kafka202中的数据，并将处理结果的数据存入Kafka202中，数据处理模块203可以通过无线网络访问Kafka202的接口。

数据处理模块203可以是一种云计算模块，云计算是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。在本申请实施例中，数据处理模块203能够通过网络接收配置文件，该网络可以是局域网，也可以是互联网。

在本申请实施例中，数据使用模块204为具有数据消费能力的模块的总称，数据使用模块204可以为多个使用终端，例如计算机、移动电话、移动电脑、平板电脑等电子设备，也可以是运行在使用终端中的应用程序，例如即时通信类应用程序以及流媒体应用程序等等。另一种可选的实施例中，数据使用模块204也可以是数据库，数据库对Kafka中获取的数据进行结构组织、存储和管理。一种可选的实施例中，数据库为云数据库，云数据库是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。在本申请实施例中，各服务器通过云数据库的访问结构访问云数据库。

数据使用模块204同样可以通过Kafka202的接口，获取Kafka202中的数据，数据处理模块203可以通过无线网络访问Kafka202的接口。

当然，本申请实施例提供的架构并不限用于图2所示的结构，本申请实施例并不进行限制。为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

下面结合图2所示的系统架构，对本申请实施例提供的技术方案进行说明。

由于本申请引入了Kafka202，所以在此先具体介绍Kafka202。Kafka202是一个分布式的、可分区的、可复制的消息系统，能够提供普通消息系统的功能。通俗地讲，Kafka202是一个日志集群，各种各样的服务器将自身的日志发送到集群中进行统一汇总和存储，然后其它机器从集群中拉取消息进行分析处理，如ELT、数据挖掘等。并且Kafka202是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。

Kafka202由生产者Producer301、代理服务器Broker302和消费者Consumer303组成，代理服务器也称为Kafka集群，Kafka202运行在集群上，集群包含一个或多个服务器；Producer301负责发布消息到Broker302，且Producer301负责发布消息都具有一个类别，这个类别称为Topic304，而Consumer303向Broker302读取消息。具体的如图3所示，Producer301将消息发布到代理服务器中，代理服务器Broker302中存在多个类别Topic304，消费者Consumer303通过代理服务器Broker302获取生产者Producer301生成的数据。

在本申请实施例中，Kafka202的生产者Producer301可以理解为数据生成模块201，数据生成模块201将生成的源数据写入Kafka202中，写入的源数据即保存在Broker302中，并且可以按照不同数据的类别存入不同的Topic304。

一种可选的实施例中，数据生成模块201可以是分布式数据库，也可以是服务器；示例性的，数据生成模块可以是图形数据库Titan，也可以是分析型数据库ADS；数据生成模块201还可以是内容服务器，具体可以是即时通信类服务器。

在本申请实施例中，由于不同的数据生成模块201的源数据格式不同，或者是源数据格式不能直接写入Kafka中，所以还需要设置数据接口，通过数据接口将数据生成模块201产生的数据源通过数据接口接入Kafka202中，例如，如图4所示，数据生成模块201与Kafka202之间还设置了统一写入层205，通过统一写入层205，将不同数据生成模块201产生的数据源统一写入Kafka202中。

一种可选的实施例中，Kafka202中除了包括统一写入层外，还可以包括KafkaConnect305，通过Kafka Connect305组件接收源数据，Kafka Connect305可以更方便的创建和管理数据流管道。它为Kafka202和其它系统创建规模可扩展的、可信赖的流数据提供了一个简单的模型，通过Kafka Connect305可以将源数据从其它系统导入到Kafka202中，也可以从Kafka202中导出到其它系统。

也就是说，在本申请实施例中，若可以通过统一写入层205将源数据写入Kafka202中，则可以通过统一写入层205将源数据导入Kafka202中，同时，若不能通过统一写入层205将源数据写入Kafka202中，则通过Kafka Connect305将源数据写入Kafka202中；或者，在本申请实施例中，既可以通过统一写入层205将源数据写入Kafka202中，也可以通过KafkaConnect305将源数据写入Kafka中。

在本申请实施例中，在将源数据写入Kafka202中时，由于是源数据是流式数据，所以在写入Kafka202中时，时按照源数据的时间顺序将源数据保存在消息队列中的。

示例性的，数据生成模块201在第n时刻生成了源数据1，在n+1时刻生成了源数据2，在第n+2时刻生成了源数据3，…在第n+i时刻生成了源数据i+1，则在生成了一个源数据1后，将按照时间顺序将源数据1至源数据i+1保存在Kafka202中，如图5所示，在图5中，在第t时刻，Kafka202队列中只有源数据1，在t+1时刻，Kafka202队列中有源数据1以及源数据2，按照时间轴的顺序，源数据源2的保存时间晚于源数据1的保存时间，进一步地，在t+i时刻，Kafka202队列中有源数据1以及源数据2，……，源数据i+1，按照时间轴的顺序，源数据i+1的保存时间晚于源数据i。

可选的，在本申请实施例中，在源数据写入Kafka202中时，是按照源数据的属性，将源数据保存在不同的存储区域中。在此进一步介绍Kafka202中Broker302的具体结构。

在Kafka202中，在每条发布到Broker302的消息都有一个类别，这个类别被称为Topic304。物理上不同Topic304的消息分开存储，逻辑上一个Topic304的消息虽然保存于一个或多个Broker302上但用户只需指定消息的Topic304即可生产或消费数据而不必关心数据存于何处，Topic304中的数据分割为一个或多个partition306。每个Topic304至少有一个partition306。每个partition306中的数据使用多个segment307文件存储。

在本申请实施例中，可以根据源数据的属性特征确定源数据对应的Topic304，不同的属性特征的源数据存储在不同的Topic304中，并进一步地存储的在Topic304中的不同partition306中。

一种可选的实施例中，不同的源数据的属性特征，对应不同的Topic304的键值key，通过确定源数据的属性特征对应的key，则可以确定该源数据储存在哪个Topic304中。

在本申请实施例中，在Kafka202中保存的源数据，还需要调出进行数据处理，并在数据处理完成后，将数据处理结果保存在Kafka202中。

一种可选的实施例中，为了便于Kafka202对于源数据以及数据处理结果分开存储，所以可以将源数据保存在第一存储区域中，将数据处理结果保存在第二存储区域中。可选的，将源数据保存在第一Topic集合中，将数据处理结果保存在第二Topic集合中，且第一Topic集合中的各Topic与第二Topic集合中的各Topic不同。

进一步地，在本申请实施例中，数据处理模块从Kafka202中的第一Topic中获取源数据，然后将第一Topic中的源数据进行数据处理后，将数据处理结果存储在第一Topic对应的第二Topic中，即获取的源数据的第一Topic与数据处理结果保存在第二Topic中，第二Topic与第一Topic是对应关系的。

可以理解为，第二Topic与第一Topic都是根据源数据的属性特征确定的，示例性的，如表所示，根据源数据的属性特征，可以确定，在保存时是保存在第一Topic中的，数据处理模块203也是从第一Topic中获取源数据进行处理，而经源数据的处理结果保存在第二Topic中的，第一Topic以及第二Topic的对应关系如表1所示。

表1

特征属性	第一Topic	第二Topic
			特征属性1	Topic1	Topic5
特征属性2	Topic2	Topic4
			特征属性3	Topic3	Topic7
……	……	……

在本申请实施例中，在介绍完Kafka202针对源数据以及数据处理模块处理后的数据处理结果的保存方式后，针对数据处理模块203的处理方式进行阐述。

在本申请实施例中，数据处理模块203能够接收配置文件，并根据配置文件来获取数据处理规则，一种可选的实施例中，针对不同的源数据进行数据处理的过程时，需要使用不同的数据处理规则。示例性的，根据不同的源数据的属性特征，配置不同的数据处理规则进行数据处理。

在本申请实施例中，可以通过网络传输来接收配置文件，即数据处理模块203还与互联网或者局域网连接，一种可选的实施例中，通过互联网来发送配置文件，可以将于数据处理模块203进行交互的终端作为配置终端206，配置终端206可以为具有编辑指令功能的电子设备，例如手机终端、服务器等，配置终端206通过编写指令形成配置文件，并将配置文件通过网络发送给数据处理模块203。

通过配置终端206将配置文件配置到数据处理模块203的过程可以如图6所示，配置人员可以通过配置终端206的配置界面进行配置信息编辑，并根据编辑后的配置信息形成配置文件，其中配置文件中包括对元数据的数据处理规则；配置终端206向数据处理模块203发送配置文件，数据处理模块203若能够从配置文件中获取配置文件，且能够将配置文件保存在数据处理模块203。的数据库中，则根据Kafka202中的源数据进行数据处理，并在数据处理后将配置成功信息发送给配置终端206；数据处理模块203若不能够配置文件中获取配置文件，或者不能够将配置文件保存在数据处理模块203的数据库中，则发送配置失败信息发送给配置终端206。

在本申请实施例中，数据处理模块203进行的数据处理，包括但不限于数据清洗、数据过滤、数据结构转换等，例如，在本申请实施例中，将源数据中的脏数据进行数据清洗，或者，将源数据中的数据按照设定的过滤规则进行过滤，例如，过滤规则为将设定字段的源数据保留，其它字段的源数据丢弃；或者，进一步地的，在本实施例中，可以将源数据从第一数据格式转换为第二数据格式和/或第三数据格式。

在本申请实施例中，在数据处理模块203将数据处理完成后，将数据处理结果存储在Kafka202中，将处理结果作为可用数据，便于订阅源数据的数据使用模块204使用。

具体的，在本申请实施例中，数据使用模块204可以是各个终端，也可以是数据库。示例性的，数据使用模块204为各个终端，在终端上运行了数据消费应用程序，例如在终端上运行了消息订阅类应用程序，该消息订阅类应用程序订阅了存储在Topic1中的源数据，这些源数据在经过数据处理模块的处理后，处理结果存储在Topic2中，Topic1与Topic2具有对应关系，所以消息订阅类应用程序使用的是Topic2中的可用数据。

可选的，在本申请实施例中，数据使用模块204包括数据仓库工具Hive和/或分布式文件系统HDFS，Hive和HDFS使用Kafka202中的可用数据。

可选的，在本申请实施例中，多个Topic304中的可用数据可以对应一个数据使用模块204，可以通过组合多个Topic304中的可用数据给同一个数据使用模块204。示例性的，在本申请实施例中，数据使用模块204为设定应用程序。

另一种可选的实施例中，Kafka202还包括Kafka REST Proxy308，Kafka RESTProxy308能够使得数据生成模块、数据处理模块以及数据使用模块通过超文本传输协议Http访问Kafka202，也就是说，数据生成模块201、数据处理模块203以及数据使用模块204在向Kafka202发送指令或者请求时，都可以使用Http协议的指令或者请求。

可选的，在本申请实施例中，将所述可用数据通过Kafka REST Proxy308指定的CURL将可用数据组合发送给所述数据使用模块。CURL是一个命令行工具，通过指定的URL来上传或下载数据，并将数据展示出来。也就是说，在本申请实施例中，数据使用模块204可以通过指定的URL来上传或下载Kafka202中的可用数据。

一种可选的实施例中，Kafka202中还包括Kafka Clients309，数据生成模块201、数据处理模块203以及数据使用模块204通过Kafka Clients309与Kafka202进行连接，Kafka Clients309可以兼容不同的语言，例如java、go、C++等语言。

由于现有技术中的数据处理流程一旦开启，就不能停止数据处理流程，所以为了能够克服现有技术中的上述缺点，在本申请实施例中，可以通过网络向数据处理模块发送停止数据处理指令，数据处理模块在接收到停止数据处理指令后，停止数据处理的过程。

可选的，在本申请实施例中，数据处理模块包括规则配置单元以及数据处理单元，规则配置单元用于接收网络传输的配置文件以及网络传输的指令等，可选的，网络传输的指令包括停止数据处理指令，数据处理单元用于进行数据处理或者停止数据处理的过程。

一种可选的实施例中，数据处理模块203为Kafka Streams，Kafka Streams是一套处理分析Kafka202中存储数据的客户端类库，处理完的数据或者写回Kafka202，或者发送给外部系统。Kafka Streams利用Kafka202的并发模型以实现透明的负载均衡。

Kafka Streams为简单和轻量级的客户端类库，可以和现有Java应用、部署工具轻松整合。Kafka Streams除了依赖Kafka202以外，不依赖其他外部系统。

可选的，在本申请实施例中的数据处理系统在上线时，是用Docker镜像模式管理和部署数据处理系统，能快速部署发布；Docker是一套完整的容器管理系统；Docker提供了一组命令,让用户更加方便直接地使用容器技术,而不需要过多关心底层内核技术。相比于传统的虚拟化技术，Docker更加简洁高效。

为了更好的解释本申请实施例，下面结合一种具体的实施场景描述本申请实施例提供的一种数据处理系统，具体如图7所示，包括：

数据生成模块为Titan数据库、ADC数据库以及TOC数据库；数据生成模块通过统一写入层写入Kafka中，Kafka具体包括Kafka REST Prxoy、Kafka Connect、KSQL和KafkaClients，数据处理模块包括统一配置层以及Kafka Streams；数据处理模块包括多个应用程序以及Hive、HDFS数据库。

具体的，在本申请实施例中，Titan数据库、ADC数据库以及TOC数据库产生的源数据通过统一写入层写入Kafka中，且按照源数据的属性特征保存在不同的第一Topic中，Kafka Streams通过统一配置层接收配置文件，并获取配置文件中的数据处理规则；同时，在本申请实施例中，Kafka Streams根据Kafka Clients从Kafka中的第一Topic中获取源数据，并根据源数据对应的数据处理规则进行数据处理，并通过Kafka Clients写入Kafka中，具体的，写入Kafka中与第一Topic对应的第二Topic中。

多个应用程序以及Hive、HDFS数据库同样通过Kafka Clients从Kafka中获取可用数据，完成了流式数据从生产、处理以及数据消费的过程。

根据上述处理系统，本申请实施例还提供了一种数据审计框架，如图8所示，在数据审计框架中，数据审计层指的是Kafka Streams，Kafka Streams根据Kafka Clients从Kafka中获取数据，采集的是Topic1、Topic2以及Topic3中的源数据，并且，针对源数据，将每个源数据的数据处理任务分为两个线程进行处理，分别为线程1以及线程2。

在本申请实施例中，数据审计任务A是针对Topic1中的源数据进行数据审核的，并通过线程1以及线程2进行数据审核，将数据审计结果保存在TopicA中；数据审计任务B是针对Topic2中的源数据进行数据审核的，并通过线程1以及线程2进行数据审核，将数据审计结果保存在TopicB中；数据审计任务C是针对Topic3中的源数据进行数据审核的，并通过线程1以及线程2进行数据审核，将数据审计结果保存在TopicC中。

通过上述数据处理系统，数据审计开发实现了配置化，并可以复用现有技术中的数据审计方法，提升开发效率，减少开发的工作量；本申请实施例中的数据处理系统由于使用了Kafka框架，Kafka有备份机制，所以可以提供数据审计流的在线重启的功能，并通过配置文件可以实现数据审计的重载以及关闭，方便在线实施。

基于相同的技术构思，本申请实施例提供了一种数据处理方法，如图9所示，包括：

步骤S901，通过Kafka获取待处理流式数据，所述待处理流式数据是数据生成模块写入所述Kafka中的；

步骤S902，根据数据处理规则，对所述待处理流式数据进行处理，得到可用数据，所述数据处理规则至少是通过配置文件进行配置的；

步骤S903，将所述可用数据写入所述Kafka中，以使所述可用数据对应的数据使用模块通过所述Kafka获取所述可用数据。

基于相同的技术构思，本申请实施例提供了一种数据处理装置100，如图10所示，包括：

获取单元1001，用于通过Kafka获取待处理流式数据，所述待处理流式数据是数据生成模块写入所述Kafka中的；

数据处理单元1002，用于根据数据处理规则，对所述待处理流式数据进行处理，得到可用数据，所述数据处理规则至少是通过配置文件进行配置的；

数据存储单元1003，用于将所述可用数据写入所述Kafka中，以使所述可用数据对应的数据使用模块通过所述Kafka获取所述可用数据。

基于相同的技术构思，本申请实施例提供了一种计算机设备，如图11所示，包括至少一个处理器1101，以及与至少一个处理器连接的存储器1102，本申请实施例中不限定处理器1101与存储器1102之间的具体连接介质，图11中处理器1101和存储器1102之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器1102存储有可被至少一个处理器1101执行的指令，至少一个处理器1101通过执行存储器1102存储的指令，可以执行前述的数据处理方法中所包括的步骤。

其中，处理器1101是计算机设备的控制中心，可以利用各种接口和线路连接终端设备的各个部分，通过运行或执行存储在存储器1102内的指令以及调用存储在存储器1102内的数据，从而获得客户端地址。可选的，处理器1101可包括一个或多个处理单元，处理器1101可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1101中。在一些实施例中，处理器1101和存储器1102可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器1101可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1102作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1102可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器1102是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1102还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于相同的技术构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行数据处理方法的步骤。

上述计算机可读存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据处理系统，其特征在于，所述数据处理系统上线时，通过Docker镜像模式对所述数据处理系统进行管理和部署；

所述系统包括多个数据生成模块、分布式消息中间件服务Kafka、数据处理模块以及多个数据使用模块；其中，所述Kafka中包括Kafka Clients，所述数据生成模块、所述数据处理模块以及所述数据使用模块通过所述Kafka Clients与所述Kafka进行连接；其中：

每个数据生成模块分别用于获得源数据，并按照源数据的属性特征，将不同属性特征的源数据，写入所述Kafka中不同的第一存储区域中；

所述数据处理模块用于从所述Kafka中获取源数据，将所述源数据处理为可用数据，并根据所述源数据的属性特征，将处理后的可用数据，存入所述Kafka中与所述属性特征对应的第二存储区域中；

每个数据使用模块分别用于从所述Kafka中获取需要的可用数据；

其中，所述Kafka包括统一写入层和Kafka Connect组件，每个数据生成模块具体用于：

确定允许通过统一写入层写入源数据时，将获得的源数据通过所述统一写入层写入所述Kafka中；

确定不允许通过所述统一写入层写入源数据时，通过Kafka Connect组件将获得的源数据写入所述Kafka中；

其中，所述数据处理模块包括统一配置层以及Kafka Streams，所述数据处理模块具体用于：

通过所述统一配置层接收配置文件并存入所述Kafka Streams，其中，所述配置文件是配置终端基于配置界面中编辑的配置信息生成后发送的，且所述配置文件中存储有源数据的属性特征与数据处理规则的对应关系；

通过所述Kafka Streams基于所述源数据的属性特征，从所述配置文件中，获取所述源数据使用的数据处理规则，并根据所述数据处理规则，将所述源数据处理为可用数据；

所述数据处理单元还用于：

若能从所述配置终端发送的配置文件中获取配置文件，且能保存获取的配置文件，并根据配置文件进行数据处理，则在数据处理后向所述配置终端发送将配置成功信息；

若不能从所述配置终端发送的配置文件中获取配置文件，则向所述配置终端发送配置失败信息；

若能从所述配置终端发送的配置文件中获取配置文件，但不能保存获取的配置文件，则向所述配置终端发送配置失败信息；

所述数据处理单元还用于：通过网络接收停止数据处理指令后，停止数据处理的过程；

所述Kafka包括KSQL，所述Kafka还用于：

将各第二存储区域中的多个存储区域的可用数据进行组合，得到可用数据组合；

接收所述数据使用模块针对所述可用数据组合的获取数据请求后，将所述可用数据组合发送给所述数据使用模块。

2.根据权利要求1所述的数据处理系统，其特征在于，所述Kafka具体用于：

将所述源数据按照所述源数据的时间顺序将所述源数据保存在消息队列中；

所述数据处理模块具体用于：

从所述Kafka中的消息队列中获取所述源数据。

3.根据权利要求1所述的数据处理系统，其特征在于，所述数据处理模块具体用于：

从不同的第一存储区域获取所述源数据；

针对所述不同的第一存储区域的源数据，确定每个第一存储区域的源数据对应的数据处理规则；

根据不同第一存储区域的源数据以及对应的数据处理规则对源数据进行数据处理。

4.根据权利要求3所述的数据处理系统，其特征在于，所述Kafka具体用于：

根据所述源数据的属性特征确定所述属性特征对应的键值key；

将各源数据保存在不同的key对应的第一存储区域中。

5.根据权利要求1所述的数据处理系统，其特征在于，所述Kafka还包括Kafka RESTProxy，所述Kafka具体用于：

将所述可用数据通过所述Kafka REST Proxy指定的命令行工具CURL将所述可用数据组合发送给所述数据使用模块。

6.根据权利要求1所述的数据处理系统，其特征在于，所述Kafka包括Kafka Connect，所述数据源为关系型数据库管理系统MySQL，

所述Kafka具体用于：

通过所述Kafka Connect接收所述MySQL中的数据，并将所述MySQL中的数据以流式数据的方式进行保存。

7.根据权利要求6所述的数据处理系统，其特征在于，所述数据使用模块包括数据仓库工具Hive和/或分布式文件系统HDFS，所述Kafka还用于：

将所述Kafka中的可用数据通过所述Kafka Connect发送给所述Hive和/或所述HDFS。

8.根据权利要求1所述的数据处理系统，其特征在于，所述数据处理模块包括规则配置单元以及数据处理单元；

所述规则配置单元用于接收通过网络传输的配置文件，在将配置文件中的数据处理规则加入到所述规则配置单元的数据库后，则回复配置文件入库成功消息，并向所述数据处理单元发送开始数据处理指令；

所述数据处理单元用于在接收到所述规则配置单元发送的开始数据处理指令后，调用所述Kafka中的数据以及所述规则配置单元的数据库中的数据处理规则进行数据处理。

9.根据权利要求8所述的数据处理系统，其特征在于，所述规则配置单元还用于：

通过网络接收停止数据处理指令；

向所述数据处理单元发送停止数据处理指令；

所述数据处理单元还用于：

在接收到所述数据处理单元发送的停止数据处理指令后，停止数据处理的过程。

10.根据权利要求1～9任一所述的数据处理系统，其特征在于，所述数据处理规则至少包括数据清洗规则、数据过滤规则以及数据结构转换规则。

11.一种数据处理方法，其特征在于，所述数据处理方法通过数据处理系统执行，所述数据处理系统上线时，通过Docker镜像模式对所述数据处理系统进行管理和部署；所述系统包括多个数据生成模块、分布式消息中间件服务Kafka、数据处理模块以及多个数据使用模块；其中，所述Kafka中包括Kafka Clients，所述数据生成模块、所述数据处理模块以及所述数据使用模块通过所述Kafka Clients与所述Kafka进行连接；所述方法包括：

访问所述Kafka，从所述Kafka获取待处理流式数据，所述待处理流式数据是所述数据生成模块确定允许通过所述Kafka的统一写入层写入源数据时，通过所述统一写入层，按照源数据的属性特征，将不同属性特征的源数据，写入所述Kafka中不同的第一存储区域中的，或确定不允许通过所述统一写入层写入源数据时，通过所述Kafka的Kafka Connect组件，按照源数据的属性特征，将不同属性特征的源数据，写入所述Kafka中不同的第一存储区域中的；

基于所述待处理流式数据的属性，从所述数据处理模块存储的配置文件中，获取所述待处理流式数据使用的数据处理规则，并根据所述数据处理规则，对所述待处理流式数据进行处理，得到可用数据；其中，所述配置文件是所述数据处理模块通过统一配置层接收并存入Kafka Streams的，所述配置文件是配置终端基于配置界面中编辑的配置信息生成后发送的，且所述配置文件中存储有源数据的属性特征与数据处理规则的对应关系；

基于所述待处理流式数据的属性，将所述可用数据，写入所述Kafka中与所述属性特征对应的第二存储区域中，并将各第二存储区域中的多个存储区域的可用数据进行组合，得到可用数据组合；以在接收所述数据使用模块针对所述可用数据组合的获取数据请求后，将所述可用数据组合发送给所述数据使用模块；

其中，所述方法还包括：

其中，所述方法还包括：通过网络接收停止数据处理指令后，停止数据处理的过程。

12.一种数据处理装置，其特征在于，应用于数据处理系统，所述数据处理系统上线时，通过Docker镜像模式对所述数据处理系统进行管理和部署；所述系统包括多个数据生成模块、分布式消息中间件服务Kafka、数据处理模块以及多个数据使用模块；其中，所述Kafka中包括Kafka Clients，所述数据生成模块、所述数据处理模块以及所述数据使用模块通过所述Kafka Clients与所述Kafka进行连接；包括：

获取单元，用于访问所述Kafka，从所述Kafka获取待处理流式数据，所述待处理流式数据是所述数据生成模块确定允许通过所述Kafka的统一写入层写入源数据时，通过所述统一写入层，按照源数据的属性特征，将不同属性特征的源数据，写入所述Kafka中不同的第一存储区域中的，或确定不允许通过所述统一写入层写入源数据时，通过所述Kafka的Kafka Connect组件，按照源数据的属性特征，将不同属性特征的源数据，写入所述Kafka中不同的第一存储区域中的；

数据处理单元，用于基于所述待处理流式数据的属性，从所述数据处理模块存储的配置文件中，获取所述待处理流式数据使用的数据处理规则，并根据所述数据处理规则，对所述待处理流式数据进行处理，得到可用数据；其中，所述配置文件是所述数据处理模块通过统一配置层接收并存入Kafka Streams的，所述配置文件是配置终端基于配置界面中编辑的配置信息生成后发送的，且所述配置文件中存储有源数据的属性特征与数据处理规则的对应关系；

数据存储单元，用于基于所述待处理流式数据的属性，将所述可用数据，写入所述Kafka中与所述属性特征对应的第二存储区域中，并将各第二存储区域中的多个存储区域的可用数据进行组合，得到可用数据组合；以在接收所述数据使用模块针对所述可用数据组合的获取数据请求后，将所述可用数据组合发送给所述数据使用模块；

其中，若能从所述配置终端发送的配置文件中获取配置文件，且能保存获取的配置文件，并根据配置文件进行数据处理，则在数据处理后向所述配置终端发送将配置成功信息；

通过网络接收停止数据处理指令后，停止数据处理的过程。

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～10任一权利要求所述系统对应的方法步骤。

14.一种计算机可读存储介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行权利要求1～10任一权利要求所述系统对应的方法步骤。