CN104008007A

CN104008007A - 基于流式计算和批处理计算的互操作数据处理系统及方法

Info

Publication number: CN104008007A
Application number: CN201410260493.2A
Authority: CN
Inventors: 范小朋; 吴楠; 沈慧; 赵东辉; 须成忠
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2014-06-12
Filing date: 2014-06-12
Publication date: 2014-08-27
Anticipated expiration: 2034-06-12
Also published as: CN104008007B

Abstract

本发明公开了一种基于流式计算和批处理计算的互操作数据处理系统及方法，该系统包括：流式计算模块，所述流式计算模块中包括若干Topology计算任务；批处理计算模块，所述批处理计算模块中包括若干Job计算任务；互操作模块，所述互操作模块分别与流式计算模块和批处理计算模块相连，互操作模块包括注册子单元和触发子单元，注册子单元用于搜集流式计算模块上的Topology信息和批处理计算模块上的Job信息，触发子单元用于接收流式计算模块或批处理计算模块的互操作指令，并调用另一方的计算任务。本发明从系统级层面上实现了不同计算模块之间的互操作，以较高地效率完成了不同计算模型系统上的逻辑单元的相互调用。

Description

基于流式计算和批处理计算的互操作数据处理系统及方法

技术领域

本发明涉及流式计算和批处理计算的数据处理技术领域，尤其涉及一种基于流式计算和批处理计算的互操作数据处理系统及方法。

背景技术

近些年来，随着互联网技术的发展，现代社会进入了大数据时代。社会上产生的数据量越来越大，导致计算机系统需要处理的数据量也日益增加。因此，对大数据的高效处理成为人们普遍关注的问题。一般而言，对于大数据，分治法是一个比较有效的解决方法。这种算法把单一的计算任务分配到不同的计算机上进行，这类算法的典型代表有批处理计算模型、流式计算模型等。

批处理计算模型的典型代表是Hadoop，一个分布式系统基础架构。它能够将大量的廉价机器形成集群，从而用来提供分布式计算的服务。Hadoop其中的MapReduce计算模型采用分而治之的理念，从分布式文件系统HDFS中获取数据，将其按照大小分片，进行分布式处理，获得最终结果。虽然Hadoop在面临海量数据时，具有吞吐量大的特点，但是也对数据处理有以下要求：1)数据需要已经存在在HDFS当中；2)数据之间是少关联的、尽可能无影响的。综上所述，Hadoop适合大批量的数据处理，但是对于数据的实时计算并不合适。

流式计算模型有Esper、Streambase、HStreaming和YahooS4等，其中的典型代表是Twitter开源系统Storm，一个针对在线业务而存在的计算平台。Storm提供了一组通用原语，可用于实时处理消息并更新数据库；也可以被用来做“连续计算”，对数据流做连续查询，在计算时就将结果以流的形式输出给用户；还可以被用于“分布式RPC”，以并行的方式运行昂贵的运算。总的来讲，Storm是一个简单的编程模型，可以使用多种编程语言，拥有快速，可靠的消息处理能力的同时，也具备良好的容错性和实时扩展性。

但是随着数据量的大规模增长和用户需求的日益多样化，实际需求中人们对数据的处理要求越来越高，单一的计算模型并不能独立地承担服务。我们可以透过一个例子来看：在针对海量数据进行批处理计算时，可能需要获取其中某个特定个体的实时情况；同样地，在大数据进行流式计算处理时，可能需要查询某个特定个体的历史记录。在这种情况下，我们希望存在一种机制，使得批处理计算模型和流式计算模型能够方便地进行交互操作，减少转换时的开销，从而更好地提供数据处理服务。

从现有的计算模型来看，相比单一的集群，实时处理(Storm为代表)和批处理(Hadoop为代表)的结合具有很多优势：1)提供了巨大的弹性潜力。实时处理的负载一般不恒定，而且是不可预测的。实时处理和批处理搭配使用，实时处理需要资源时可以从批处理作业那里窃取，当资源需求下降时再把资源换回去；2)实时处理和批处理两者之间会共享数据。通过将实时处理系统放到物理上更接近数据源或者是同一流水线中其他组件的地方，可以减少网络传输，进而减少获取数据的总开销。到目前，与本发明相关的技术或者产品有SparkStreaming、Yahoo Storm OnYARN、Twitter Summingbird等。

SparkStreaming将流式计算分解成一系列短小的批处理作业，从而在批处理计算引擎Spark的基础上提供了对数据流的处理能力。Spark Streaming将输入数据按照批处理指定的大小(如1秒)分成一段一段的离散化数据，每一段数据都转换成Spark中的弹性分布式数据集，然后将Spark Streaming中对离散化数据的变换操作变为Spark中对弹性分布式数据集的变换操作，将RDD经过操作变成中间结果保存在内存中。整个流式计算根据业务的需求可以对中间的结果进行叠加，或者将其存储到外部设备。

Storm On Yarn尝试将Storm运行在YARN上，相比于将Storm部署到一个独立的集群中，这样做带来的好处有：1)弹性计算资源。将Storm运行到YARN上后，Storm可与其他应用程序(比如MapReduce批处理应用程序)共享整个集群中的资源，这样，当Storm负载骤增时，可动态为它增加计算资源，而当负载减小时，可释放部分资源，从而将这些资源暂时分配给负载更重的批处理应用程序。2)共享底层存储。Storm可与运行在YARN上的其他框架共享底层的一个HDFS存储系统，可避免多个集群带来的维护成本，同时避免数据跨集群拷贝带来的网络开销和时间延迟。3)支持多版本。可同时将多个Storm版本运行YARN上，避免一个版本一个集群带来的维护成本。

Summingbird是最近由Twitter开源的一个流式计算模型和批处理计算模型的融合体。一个Summingbird项目既可以被用来做批处理，又可以用来做实时处理，这种作业聚合的方式达到了无缝整合平台，减少切换开销的目的。

Summingbird的核心概念包括如下：1)Producer：Producer是Summingbird的数据流抽象，用以传递给特定Platform做MapReduce流编译。2)Platform：Platform实例可以用于任何流MapReduce库的实现，Summingbird库包含了Platform对Storm、Scalding及内存处理的支持。3)Source：Source代表了一个数据的源，每个系统都对数据源有自己的定义，比如Memory平台将Source[T]定义为任何TraversableOnce[T]。4)Store：Store是Summingbird中流MapReduce进行“reduce”操作的场所，Store包含了所有键对应值聚合的快照。5)Sink：不同于Store，Sink允许你形成一个体现Producer值的非聚合流，sink是流而不是快照。6)Service：Service允许用户在Producer流中当前值上执行“lookupjoin”或者是“leftJoin”，被连接的值可以是来自另一个Store的快照，也可以是另一个Sink的流，甚至来自一些其它的异步功能。7)Plan：Plan由Platform调用platform.plan(producer)产生，作为MapReduce流的最终实现。对于Storm来说，Plan就是个StormTopology实例，用户可以通过Storm提供的方法执行。对于Memory平台来说，Plan就是个内存Stream，包含了被传递Producer提供的输出内容。

现有的大数据分析系统在流式计算和批处理计算融合方面工作，是从以下方面进行的。

1)第一种方式是在流式计算系统的基础上，增加对批处理计算的支持。Storm的作者Nathan Marz最近在“How to beat the CAP theorem”一文中，提出数据处理可以通过一个简单的公式来表达：Query＝Function(All Data)。数据系统就是要回答数据集问题的系统，问题称为Query。由于Query是针对所有数据上的函数，所以加快函数执行的方法就是预先准备好这些Query，当有新的数据产生时，就重新对所有数据执行函数。这样简化问题后，基于批处理计算，除了结果需要滞后一段时间才能获得外，Query总是可以被反复执行。任何超过一段时间的数据已经被计算进入了批处理视图中，所以剩下来要做的就是处理最近时间段的数据。为了处理最近几个小时的数据，需要一个实时系统和批处理系统同时运行。这个实时系统在最近几个小时的数据上执行预计算查询函数。要计算一个查询函数，需要查询批处理视图和实时视图，并把它们合并起来以得到最终的数据。进行实时计算的系统是Storm，它在数据流上进行持续计算，并且对这种流式数据处理提供了有力保障。在批处理层仅需要考虑数据和数据上的查询函数，批处理层因此很好掌控。在实时层需要使用增量算法和复杂的NoSQL数据库。把所有的复杂问题独立到实时层中，这对系统的鲁棒性、可靠性可以做出重要改进。但是，在实际的实现中，通过建立简单而同一的数据查询函数并不是一件容易的事情。以往基于关系型的数据库系统是建立在完整的关系模型上的数据处理系统，所以应对不同种类的结构化和非结构化数据是很难存在这样的简单函数模型。

2)第二种方法是从批处理计算的基础入手，结合流式数据处理，比如通过修改MapReduce编程模型来进行实时数据流处理。Facebook在SIGMOD2011上发表了利用HBase/Hadoop进行实时处理数据的工作[Borthakur2011]，通过一些实时性改造，让批处理计算平台也具备实时计算的能力。但是，效果并不理想。这是因为MapReduce的编程框架为批处理做了高度优化，系统典型地通过调度批量任务来操作静态数据，任务不是常驻服务，数据也不是实时流入；而流式计算的典型范式之一是不确定数据到达速率的事件流流入系统，系统处理能力必须与事件流量相匹配。这类基于MapReduce流式处理的缺点有三个方面：a)将输入数据分隔成固定大小的片段，再由MapReduce平台处理，处理的延迟与数据片段的长度、初始化处理任务的开销成正比。片段之间的依赖管理更加复杂，最优的分段大小取决于具体应用；b)为了支持流式处理，MapReduce被改造成Pipeline的模式，而不是Reduce直接输出。为了提高处理效率，中间结果只保存在内存中。诸如此类改动使得原有的MapReduce框架的复杂度大大增加，不利于系统的维护和扩展；c)用户被迫使用MapReduce的接口来定义流式作业，这使得用户程序的可伸缩性降低。

3)第三种模式，关联组合模式。以Twitter Summingbird举例来说，它致力于解决现有方法遇到的实际问题：1)两个不同系统中的两组聚合逻辑必须保持同步；2)在每个系统和客户端之间，键和值必须一致地进行序列化；3)客户端要负责从两个数据存储读取数据、执行最后的聚合并提供合并结果。Summingbird的混合模式可以让Hadoop处理大多数的数据，Storm则只处理那些Hadoop没有处理过的实时数据。Summingbird要处理的数据同时来自Hadoop和Storm，和管道式地处理几个不同的系统不一样，它需要同时确保处理上的速度和准确度。尽管Summingbird利用统一的编程接口来整合平台，通用性好，可扩展性强，仍然存在在实际操作中执行效率不够理想的不足。

因此，针对上述技术问题，有必要提供一种基于流式计算和批处理计算的互操作数据处理系统及方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于流式计算和批处理计算的互操作数据处理系统及方法，其交互层次由平台级降低为任务级，从而可以从根本上提升交互操作的执行效率。

为了实现上述目的，本发明实施例提供的技术方案如下：

一种基于流式计算和批处理计算的互操作数据处理系统，所述系统包括：

流式计算模块，所述流式计算模块中包括若干Topology计算任务；

批处理计算模块，所述批处理计算模块中包括若干Job计算任务；

互操作模块，所述互操作模块分别与流式计算模块和批处理计算模块相连，互操作模块包括注册子单元和触发子单元，注册子单元用于搜集流式计算模块上的Topology信息和批处理计算模块上的Job信息，触发子单元用于接收流式计算模块或批处理计算模块的互操作指令，并调用另一方的计算任务。

作为本发明的进一步改进，所述Topology信息包括Topology的名称、创建时间和权限统计，Job信息包括Job的名称、创建时间和权限统计。

作为本发明的进一步改进，所述流式计算模块采用Storm集群，批处理计算模块采用Hadoop集群。

相应地，一种基于流式计算和批处理计算的互操作数据处理方法，所述方法包括：

S1、启动方提出触发请求，并与触发子单元建立连接，所述启动方为流式计算模块或批处理计算模块；

S2、启动方将触发请求和互操作信息发送给触发子单元；

S3、触发子单元与执行方建立连接，所述执行方为与启动方对应的批处理计算模块或流式计算模块；

S4、触发子单元转发触发请求和互操作信息给执行方；

S5、执行方根据接收到的触发请求和互操作信息启动新的逻辑单元，开始执行任务进行数据处理。

作为本发明的进一步改进，所述步骤S1前还包括：

S0、注册子单元分析流式计算模块和批处理计算模块，搜集所有符合互操作条件的Topology计算任务和Job计算任务。

作为本发明的进一步改进，所述步骤S0前还包括：

注册子单元搜集流式计算模块和批处理计算模块中的互操作信息，生成相应的注册表。

作为本发明的进一步改进，所述互操作信息包括流式计算模块上Topology计算任务的Topology信息和批处理计算模块上Job计算任务的Job信息。

本发明具有以下有益效果：

本发明从系统级层面上实现了不同计算模块之间的互操作，以较高地效率完成了不同计算模型系统上的逻辑单元的相互调用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中基于流式计算和批处理计算的互操作数据处理系统的模块示意图。

图2为本发明一优选实施方式中Storm中计算任务组成图。

图3为本发明一优选实施方式中MapReduce计算模型中计算任务执行图。

图4为本发明一优选实施方式中互操作模块示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

参图1所示，本发明公开了一种基于流式计算和批处理计算的互操作数据处理系统，其包括：

流式计算模块10，流式计算模块中包括若干Topology计算任务；

批处理计算模块20，所述批处理计算模块中包括若干Job计算任务；

其中，流式计算模块10和批处理计算模块20分别是两个各自独立的计算模型系统。

互操作模块30，互操作模块分别与流式计算模块10和批处理计算模块20相连，互操作模块包括注册子单元31和触发子单元32。

其中，注册子单元31负责搜集流式计算模块上的Topology信息和批处理计算模块上的Job信息；一旦有需要交互操作的需求产生(流式计算模型调用批处理计算模型某个Job计算任务；或是批处理计算模型调用流式计算模型某个Topology计算任务)，一方将会发出启动指令到触发子单元32，触发子单元32会及时回应，调用另一方的基本计算任务，从而实现互操作。本发明中Topology信息包括Topology的名称、创建时间和权限统计，Job信息包括Job的名称、创建时间和权限统计。

优选地，本发明所提出的互操作数据处理系统中流式计算模块采用Storm集群，批处理计算模块采用Hadoop集群，当然在其他实施方式中也可以为其他集群。三个模块功能简述如下：

(1)流式计算模块：在Storm集群中，一个实时应用的计算任务被打包作为Topology发布，Topology是由不同的Spouts和Bolts，通过数据流(Stream)连接起来的图。一个Topology的内部结构图如图2所示。

在Storm中，Stream的概念是Topology内唯一的，只能在Topology内按照“发布-订阅”方式在不同组件(Spout和Bolt)之间进行单向的数据流动。

(2)批处理计算模块：在批处理计算架构Hadoop上，一个代表客户机在单个主系统上启动的MapReduce应用程序称为JobTracker。它是Hadoop集群中惟一负责控制MapReduce应用程序的系统。在应用程序提交之后，将提供包含在HDFS中的输入和输出目录。JobTracker使用文件块信息(物理量和位置)确定如何创建其他TaskTracker从属任务。MapReduce应用程序被复制到每个出现输入文件块的节点。将为特定节点上的每个文件块创建一个惟一的从属任务。每个TaskTracker将状态和完成信息报告给JobTracker。其架构如图3所示，

(3)互操作模块：该模块根据需求划分为注册子单元和触发子单元，具体架构如图4所示：

注册子单元：该子单元主要负责对现有Topology和Job的名称、创建时间和权限统计，生成相应的注册表。如果这些计算任务想要使用到互操作，它们必须在注册子单元提前注册。

触发子单元：该子单元利用回调机制实现了互操作。回调机制是一种常见的设计模型，它把工作流内的某个功能，按照约定的接口暴露给外部使用者，为外部使用者提供数据，或者要求外部使用者提供数据。本单元将流式计算Topology的接口和批处理计算Job的接口分别统计并写入回调函数表。一旦接到一方对另一方的调用指令后，能够及时将消息与状态，通过子单元调用回调函数传递给另一方，从而启动另一方的计算任务继续进行数据处理，实现系统级别的互操作。

本发明基于流式计算和批处理计算的互操作数据处理方法包括：

S2、启动方将触发请求和互操作信息发送给触发子单元；

S4、触发子单元转发触发请求和互操作信息给执行方；

本发明是针对两种独立计算系统和两种独立计算任务的互操作，因此触发是双向的。可以由流式计算模块Storm中的某个Topology出发，通过触发机制来启动批处理计算模块Hadoop中的某个Job；亦可以由批处理计算模块Hadoop中的某个Job出发，通过触发机制来调用流式计算模块Storm中的某个Topology。

进一步地，触发之前还包括：

注册子单元搜集流式计算模块和批处理计算模块中的互操作信息，生成相应的注册表；互操作信息包括流式计算模块上Topology计算任务的Topology信息和批处理计算模块上Job计算任务的Job信息。其中Topology信息包括Topology的名称、创建时间和权限统计，Job信息包括Job的名称、创建时间和权限统计。

注册子单元分析流式计算模块和批处理计算模块，搜集所有符合互操作条件的Topology计算任务和Job计算任务。

触发方式如上述：启动方提出触发请求，并与触发子单元建立连接；启动方将触发请求和必要信息发送给触发子单元；触发子单元与执行方建立连接；触发子单元转发触发请求和必要信息给执行方；执行方根据接收到的触发请求和必要信息启动新的逻辑单元，开始执行任务。

通过上述方法，两个独立的模块通过触发子单元可以进行交互通信；独立模块间彼此的触发请求可以得到执行。

以下结合具体实施例对本发明作进一步说明。

流式计算模块中的计算单元Bolt1希望通过触发器Trigger_Unit来调用批处理计算模块中的Job1。Bolt1首先与Trigger_Unit建立连接，并开启线程执行信息传输工作。

Bolt1：

在Trigger_Unit中，可以看到：

在批处理计算系统中，job1接收到了触发请求和相关信息，并调用job2来执行具体任务。

Job1：

Job2：

这样，一个完整的流式计算调用批处理计算的过程就完成了，接下来说明批处理计算模块调用流式计算模块的过程，如批处理计算中的job3想要调用流式计算中的bolt2。

首先Job3：

同样地，Trigger_Unit会进行处理。

Trigger_Unit：

在流式计算系统中，bolt2接收到了触发请求和相关信息，并启动bolt3来执行具体任务。

Bolt2：

Bolt3：

这样，一个完整的批处理计算模块调用流式计算模块的过程就完成了。

由以上实施方式可以看出，本发明针对关联组合这一模式，提出关联融合模式，尝试在系统层面引入了回调机制，通过这种方式来消除两个独立的计算模块之间的紧耦合，在更细致的粒度上解决流式计算和批处理计算互相融合的问题。本发明的交互层次由平台级降低为任务级，从而可以从根本上提升交互操作的执行效率。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于流式计算和批处理计算的互操作数据处理系统，其特征在于，所述系统包括：

2.根据权利要求1所述的系统，其特征在于，所述Topology信息包括Topology的名称、创建时间和权限统计，Job信息包括Job的名称、创建时间和权限统计。

3.根据权利要求1所述的系统，其特征在于，所述流式计算模块采用Storm集群，批处理计算模块采用Hadoop集群。

4.一种如权利要求1所述的基于流式计算和批处理计算的互操作数据处理方法，其特征在于，所述方法包括：

S2、启动方将触发请求和互操作信息发送给触发子单元；

S4、触发子单元转发触发请求和互操作信息给执行方；

5.根据权利要求4所述的方法，其特征在于，所述步骤S1前还包括：

6.根据权利要求5所述的方法，其特征在于，所述步骤S0前还包括：

7.根据权利要求6所述的方法，其特征在于，所述互操作信息包括流式计算模块上Topology计算任务的Topology信息和批处理计算模块上Job计算任务的Job信息。

8.根据权利要求7所述的方法，其特征在于，所述Topology信息包括Topology的名称、创建时间和权限统计，Job信息包括Job的名称、创建时间和权限统计。