CN103761111A

CN103761111A - 一种基于bpel语言构建数据密集型工作流引擎的方法及其系统

Info

Publication number: CN103761111A
Application number: CN201410056681.3A
Authority: CN
Inventors: 刘杰; 叶丹; 朱锋; 魏峻
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2014-02-19
Filing date: 2014-02-19
Publication date: 2014-04-30

Abstract

一种基于BPEL语言构建数据密集型工作流引擎的方法及其系统，包括建立基于规则的模型转换框架；建立部署执行层面的转换框架；根据Hadoop工作流模型生成BPEL流程模型，部署到BPEL引擎执行。本发明支持采用BPEL语言定义复杂的Hadoop工作流；方便企业将Hadoop工作流集成入企业内部系统或者将企业内部服务集成入Hadoop工作流，可以满足企业在业务流程中处理海量数据的需求。

Description

一种基于BPEL语言构建数据密集型工作流引擎的方法及其系统

技术领域

本发明涉及一种基于BPEL语言构建数据密集型工作流引擎的方法及其系统，尤其涉及一种面向Hadoop平台的数据密集型工作流引擎的构建方法及其系统，其通过特定的模型转换方法将Hadoop工作流转换成BPEL语言描述的服务并采用BPEL引擎来调度执行，属于计算机软件领域。

背景技术

随着大数据时代的到来，数据密集型计算在学术界和工业界引起强烈关注。据IDC的一项调查报告中指出：在当今企业中80%的数据都是非结构化数据，这些数据每年都按指数增长60%。大数据将挑战企业的存储架构、数据中心的基础设施等，越来越多的企业面临着处理大数据的急迫需求。MapReduce框架以处理海量数据的高效性和简单性，受到工业界和学术界的广泛关注。它的开源实现Hadoop具有简单性、容错性和可扩展性，是目前最成功的数据密集型云计算平台。用户可以提交多个MapReduce Job到Hadoop集群，其中一个MapReduceJob由多个Map Task和多个Reduce Task组成。Hadoop集群中的JobTracker节点担当调度器的职责，负责这些MapReduce Job分派到各个Task Tracker节点上执行。

一个Hadoop工作流可以用一个有向无环图(DAG)来表示，节点代表MapReduce Job，边代表MapReduce Job间的数据依赖关系。以下所说的工作流和Job都代表Hadoop工作流和MapReduce Job。与单个MapReduce Job相比，Hadoop工作流能表达更复杂的数据处理逻辑，因而吸引了越来越多的研究者研究。

起初，一些科学工作流系统如Kelper，Pegasus，Swift，ASKALON都支持Job的并行执行，但是并没有和Hadoop进行集成。随后，Deniel Goodman在Martlet编程模型中提出了map,flodr和flodl的构造，并声明Martlet的抽象特性可以使用户采用并行编程方法进行数据分析而不需要考虑细节。Xubo Fei,Shiyong Lu等首次提出一种可以使用的MapReduce的科学工作流编译框架。Jianwu Wang,Deniel Crawl等人采用Kelper与Hadoop相集成的方法，实现一个具有图形化界面的通用数据密集型共组流系统。

同时，针对一些专有的领域，也出现了支持MapReduce的工作流模型，如MRGIS是专门处理地理信息系统的数据，CloudBurs算法适应于生物学领域。

Cascading，hamake，Azkaban等系统也是基于MapReduce的工作流系统。Cascading更类似一种编程语言，使用了“pipe and filters”(管道和过滤)来定义数据处理进程，支持分隔，合并，分组和排序操作。Hamake是一种轻量级的客户端工具，使用fold和foreach进行增量的数据处理。Azkaban还并不成熟，它提供友好的用户界面和基于时间的调度功能。

Nova是一种基于pig/hadoop的工作流系统，主要用来处理实时数据。Nova基于HDFS块的原子性，不断的跟踪的数据集，独立调度作业的不同部分，持续处理流式数据。

CloudWF支持运行由MapReduce和遗留的非MapReduce程序构成的工作流，将工作流中的数据集以及数据集之间的依赖关系分别作为一个独立的执行单元，用Hbase来储存工作流和执行单元的信息，采用轮询的方式来更新信息执行工作流。

现有的Hadoop工作流系统所使用的工作流语言提供了一些可选择的节点类型和控制逻辑关系，并且具有不同程度的监视和调度功能。但是存在以下几方面的问题：

（1）工作流描述语言异构，工作流互操作困难。已有的Hadoop工作流系统都采用自定义的工作流描述语言，不同的工作流系统生成的Hadoop工作流实例很难集成或者通信。企业通过对海量级别的数据报表处理，对结果进行分析做出相应的销售策略等。工作流需要调用企业内部的数据资源系统，又要使用Hadoop平台来存储和清理数据。传统的工作流系统难以与Hadoop平台通信，而现有的Hadoop工作流系统也不能调用企业已有系统提供的Web服务作为活动节点。

（2）Hadoop工作流表达能力较弱，支持简单的控制逻辑。极少数系统如Oozie支持fork、decision、join操作，而大部分都不支持高级的控制关系。对于需要处理复杂应用的用户必须手工编写和管理这些具有复杂逻辑的Hadoop工作流，这不仅是耗时，并且是充满麻烦的。

（3）Hadoop工作流扩展性较差，支持的节点类型有限。Hadoop工作流系统只支持固定的几种节点类型，用户很难集成自己的应用到Hadoop工作流中去。企业处理海量数据所涉及到的操作类型往往包含自定义的操作，这些活动类型是现有的Hadoop工作流系统无法支持的，这将局限Hadoop工作流来构建数据密集型应用。

发明内容

本发明的技术问题：克服上面分析的现有技术的不足，提供一种基于BPEL语言构建数据密集型工作流引擎的方法及其系统，采用标准的BPEL语言来描述工作流，并且支持复杂的业务逻辑，相比于现有的Hadoop工作流，本系统可以支持扩展节点类型。

本发明的技术方案为：一种基于规则的Hadoop工作流模型与BPEL模型的映射方法，支持采用BPEL语言定义复杂的Hadoop工作流，能够与传统工作流系统的交互，实现数据密集型工作流系统的构建，包括以下各步骤：

（1）建立基于规则的模型转换框架，具体实现为：

（11）定义Hadoop工作流元模型和BPEL服务的元模型；

（12）根据语义建立Hadoop工作流元模型与BPEL流程元模型的映射规则，即Hadoop工作流元模型中的分支fork元素对应于BPEL流程元模型中的flow元素，Hadoop工作流元模型中的活动元素对应于BPEL服务元模型中的伙伴链接；

（2）根据映射规则，建立从Hadoop工作流模型到BPEL流程模型的模型转换算法，具体实现如下：

（21）采用的转换策略是自顶向下的，每个Hadoop工作流模型表示为有向无环图，转换后，输出为BPEL流程模型；

（22）每个Hadoop工作流模型包含一个StartVnode和一个EndVnode作为工作流的开始和结束节点；

（23）统计所有的输入元素，为BPEL模型添加Variables元素，然后依次提取Hadoop工作流模型中节点对象进行翻译，判断其类型，若是活动节点，则将其翻译成基本的活动，若是控制节点，则首先翻译赋值语句，然后根据控制节点类型，翻译为不同的控制节点对象，重复这个过程，直到Hadoop工作流模型所有元素处理完毕，得到BPEL流程模型；

（3）自动部署执行转换生成的BPEL流程模型，具体实现如下：

（31）根据BPEL流程模型描述文件，生成服务部署文件；

（32）将BPEL流程模型描述文件、BPEL流程中各节点对应的任务的可执行代码和BPEL流程服务部署文件一起打成部署包；

（33）将部署包放置到BPEL引擎中，发布服务；

（34）当用户发送执行命令，执行BPEL流程。

一种基于BPEL语言构建数据密集型工作流引擎的系统，包括：Hadoop工作流模型设计器、Hadoop工作流模型到BPEL流程模型转换器、BPEL引擎、服务容器、Hadoop集群、应用服务器；

所述应用服务器采用遵循J2EE标准的服务器软件，BPEL引擎和服务容器均部署与应用服务器中；

所述Hadoop工作流模型设计器，指提供可视化的Hadoop工作流设计工具，基于web技术，设计者通过浏览器访问设计器，通过拖拽的方式设计工作流图，生成设计描述文件，发送给Hadoop工作流模型到BPEL流程模型转换器进行后续处理；

所述Hadoop工作流模型到BPEL流程模型转换器，即实Hadoop工作流模型转换为BPEL流程模型的算法，输出的BPEL流程描述文件部署到BPEL引擎，Hadoop工作流中的任务节点要经过服务化模块处理；

所述服务化模块，指将Hadoop工作流中原有的任务节点封装为web服务，再部署到服务容器中；

所述BPEL引擎，指任何遵循BPEL标准的BPEL执行引擎，将调用服务容器中的服务，并获取服务返回结果；

所述服务容器，指可以部署执行web service的web容器，执行BPEL流程中要调用的服务；

所述Hadoop集群，指部署的Hadoop1.0版本的集群，支持MapReduce任务、HDFS任务、Pig任务，MapReduce指一种分布式数据并行处理框架，HDFS指一种分布式文件系统，Pig指一种脚本语言，自动翻译为MapReduce任务执行。服务容器中执行的各种服务，实际调用的是Hadoop中的任务。数据密集型工作流引擎将Hadoop任务部署到集群中，并获取响应结果。

本发明与现有技术相比的优点在于：

（1）本发明提出一种基于规则的Hadoop工作流模型与BPEL模型的映射方法，支持通过复杂控制逻辑定义Hadoop工作流，并自动转换为BPEL流程，由BPEL引擎直接执行。

（2）本发明提出一套基于BPEL引擎和Hadoop集群构建数据密集型工作流系统的框架，充分利用成熟的BPEL引擎技术，快速构建稳定的Hadoop工作流系统，方便在企业业务流程中直接进行大数据处理。

附图说明

图1是本发明方法实现流程图；

图2是本发明系统的组成框图；

图3是海量日志分析挖掘业务流程图，对应具体实施案例；

图4是海量日志分析挖掘流程对应的Hadoop工作流图。

具体实施方式

下面结合附图和实施例对本发明做进一步说明。

本发明提出的方法如图1所示，该方法流程分两部分，第一部分包括：

（1）定义Hadoop工作流元模型；

（2）定义BPEL流程元模型；

（3）根据语义建立Hadoop工作流元模型与BPEL流程元模型的映射规则，即Hadoop工作流元模型中的分支fork元素对应于BPEL流程元模型中的flow元素，Hadoop工作流元模型中的活动元素对应于BPEL服务元模型中的伙伴链接；

（4）根据映射规则，建立从Hadoop工作流模型到BPEL流程模型的模型转换算法，具体实现如下：（1）)采用的转换策略是自顶向下的，每个Hadoop工作流模型表示为有向无环图，转换后，输出为BPEL流程模型；（2）每个Hadoop工作流模型包含一个StartVnode和一个EndVnode作为工作流的开始和结束节点；（3）统计所有的输入元素，为BPEL模型添加Variables元素，然后依次提取Hadoop工作流模型中节点对象进行翻译，判断其类型，若是活动节点，则将其翻译成基本的活动，若是控制节点，则首先翻译赋值语句，然后根据控制节点类型，翻译为不同的控制节点对象，重复这个过程，直到Hadoop工作流模型所有元素处理完毕，得到BPEL流程模型；

第一部分工作是通用的，即完成后，任意Hadoop工作流模型向BPEL流程模型转换时都可以使用该部分形成的转换算法。

第二部分即针对一个具体的Hadoop工作流进行转换部署执行的流程，包括：

（1）对于一个Hadoop工作流模型，采用转换算法进行处理，输出对应的BPEL流程模型；

（2）转换算法同时将Hadoop工作流任务节点对应代码转换为BPEL流程中节点对应的服务可执行代码；

（3）根据BPEL流程模型描述文件，生成BPEL流程服务部署文件；

（4）将BPEL流程模型描述文件、BPEL流程中各节点对应的任务的可执行代码和BPEL流程服务部署文件一起打成部署包；

（5）将部署包放置到BPEL引擎中，发布服务；

下面将通过具体的实例来进一步说明本发明提出的方法和系统。

假定互联网公司A的搜索引擎每天都会产生大量用户访问URL的Web日志。这些Web日志文件以文本的形式产生，每条日志通常代表着用户的一次访问行为，例如下面就是一条典型的apache日志：211.87.152.44–-[18/Mar/2005:12:21:42+0800]“GET/HTTP/1.1”"200899http://www.baidu.com/“Mozilla/4.0(compatible;MSIE6.0;Windows NT5.1;Maxthon)。如图3所示流程图，通过日志信息来挖掘用户的兴趣点，从而按照兴趣给用户推荐广告。

每次访问网页时，系统日志中会存储一条记录：用户+url+访问时间。用户访问的一系列网页记录即是推断用户兴趣点的基础，即：用户+urlSet。

整个挖掘过程如图3所示，分为以下步骤：

（1）单一网页信息挖掘

根据URL得到网页内容信息，并对网页内容进行处理，得到代表此网页的几个关键词，一般要借助机器学习算法或者专家经验来攫取较有价值的词。

（2）用户访问关键词信息汇总

汇总用户访问的各个URL中的所有关键词信息，进而得到用户关注的关键词列表。每个关键词均有不同权重，视该词在URL中出现的次数而定。

（3）关键词扩展及归约

对用户关注关键词列表进行一定的扩展或归约操作，得到更加具有普遍意义的词信息，以更好地表征用户的兴趣点。

整个应用的输入是用户访问网页记录组成的文件，文件每行表示用户访问网页的一条记录，形为：“用户URL”。期望输出为用户的兴趣点文件，文件每行存储每个用户的兴趣点，形为：“用户词1权重1词2权重2词3权重3”。

现在采用本发明提出的数据密集型工作流引擎系统来实现该实例对应的流程设计、转换与部署执行。

如图2所示，基于BPEL的数据密集型工作流系统主要包括以下模块：Hadoop工作流模型设计器、Hadoop工作流模型到BPEL流程模型转换器、BPEL引擎、服务容器、Hadoop集群、应用服务器等。

应用服务器采用遵循J2EE标准的服务器软件，BPEL引擎和服务容器均部署与应用服务器中；Hadoop工作流模型设计器，指提供可视化的Hadoop工作流设计工具，基于web技术，设计者通过浏览器访问设计器，通过拖拽的方式设计工作流图，生成设计描述文件，发送给Hadoop工作流模型到BPEL流程模型转换器进行后续处理；Hadoop工作流模型到BPEL流程模型转换器，即实Hadoop工作流模型转换为BPEL流程模型的算法，输出的BPEL流程描述文件部署到BPEL引擎，Hadoop工作流中的任务节点要经过服务化模块处理；服务化模块，指将Hadoop工作流中原有的任务节点封装为web服务，再部署到服务容器中；BPEL引擎，指任何遵循BPEL标准的BPEL执行引擎，将调用服务容器中的服务，并获取服务返回结果；服务容器，指可以部署执行web service的web容器，执行BPEL流程中要调用的服务；Hadoop集群，指部署的Hadoop1.0版本的集群，支持MapReduce任务、HDFS任务、Pig任务，MapReduce指一种分布式数据并行处理框架，HDFS指一种分布式文件系统，Pig指一种脚本语言，自动翻译为MapReduce任务执行。服务容器中执行的各种服务，实际调用的是Hadoop中的任务。数据密集型工作流引擎将Hadoop任务部署到集群中，并获取响应结果。

结合系统，本发明实例的具体实施过程如下：

（1）Hadoop工作流模型设计

用户使用Hadoop工作流模型设计器建立对应的Hadoop工作流模型，如图4所示。

这里工作流中的节点对应的任务，需要单独开发，这些任务可能为MapReduce任务、HDFS任务、Pig任务等。

此Hadoop工作流具有有10个Activity类活动节点和2个Control类控制节点。其中，start节点是Hadoop工作流的起始节点，fork节点是并行分支控制节点，join节点代表分支合并控制节点，TFCal节点代表MapReduce统计每个词在用户访问单个网页中出现的次数，DFCal节点代表MapReduce统计每个词在所有网页中出现的次数，KeywordCal节点代表MapReduce通过权重计算出网页关键词列表，UserWordCal1节点代表MapReduce计算用户访问的关键词汇总，UserWordCal2节点代表MapReduce计算用户访问关键词的权重列表，WordsCorrCal1节点代表MapReduce统计网页元信息中词对共现次数和网页元信息中单个词出现次数，WordsCorrCal2节点代表MapReduce合并网页元信息中单个词次数文件和词对次数文件，WordsCorrCal3节点代表MapReduce运用共现频率公式计算两个词的相关度，WordsCorrCal23节点代表MapReduce建立词相关度信息索引文件，WordExp节点代表MapReduce使用词相关度信息，对用户访问关键词列表进行扩展，输出为用户的兴趣点文件。

（2）Hadoop工作流模型到BPEL流程模型转换

将设计的Hadoop工作流模型交由“Hadoop工作流模型到BPEL流程模型转换器”进行转换。该转换器采用基于规则的映射方法，动态加载映射规则库的规则，解析Hadoop工作流对象生成符合WSBPEL2.0标准的BPEL文件。模型转换引擎是整个工作流引擎的核心。通过模型转换引擎可以将用户定义的HadoopJobGraph工作流对象转换为BPEL文件，完成语义层面的映射工作。

模型转换引擎的转换规则见表1所示，具体实现分为六类：

表1Hadoop工作流的元模型元素到BPEL流程元模型元素的映射规则表

（1）对HadoopWFGraph总体类的转换完成BPEL文件的初始化参数等工作。

（2）对StartNode和EndNode活动节点的转换，完成BPEL文件<Process>入口的<receive><reply>活动的转换。

（3）对Activity活动节点的转换，增加BPEL文件中调用伙伴链接的<invoke>活动。

Hadoop工作流单个活动节点的运行时间比较长，因此Activity类型活动将映射转换成异步的<invoke>活动，与<receive>活动成对产生。同一个实例的<receive>活动将阻塞以等待前一个<invoke>活动所调用的伙伴服务。同时，BPEL文件对应的WSDL描述文件必须公开callback接口以提供给引用的伙伴服务回调。

（4）对ForkNode节点对象的映射转换，增加BPEL文件中的<flow>活动。

（5）对IfNode节点对象的映射转换，增加BPEL文件中的<if>活动。

（6）Hadoop工作流的控制逻辑映射为BPEL文件中的属性位置关系。

（3）部署执行。

对转换生成的BPEL模型描述文件解析生成部署文件，部署引擎将BPEL服务描述文件和部署文件自动部署到BPEL引擎，并且将此服务发布，等待执行。

在接收执行命令后，部署执行引擎将调用节点服务化模块，将Hadoop工作流节点的活动转换为Web服务。

如图2所示，执行一个Hadoop工作流引擎时，系统内部的执行过程如下：

（1）BPEL引擎触发当前要调用的一个流程中的Activity活动节点；

（2）该Activity将调用服务容器中的一个web服务；

（3）Web服务将调用Hadoop集群提供的任务接口，执行具体的任务；因为Hadoop任务模型在调用时才部署，所以在此刻才会将web服务对应的Hadoop任务的可执行代码部署到Hadoop集群；

（4）等待Hadoop任务执行完毕，web服务接收到响应，就向BPEL引擎报告进度；

（5）BPEL引擎接收到响应，根据流程控制流，继续触发下一个Activity，直到整个流程执行完毕。

Claims

1.一种基于BPEL语言构建数据密集型工作流引擎的方法，其特征在于包括以下各步骤：

（1）建立基于规则的模型转换框架，具体实现为：

（11）定义Hadoop工作流元模型和BPEL服务的元模型；

（31）根据BPEL流程模型描述文件，生成服务部署文件；

（33）将部署包放置到BPEL引擎中，发布服务；

（34）当用户发送执行命令，执行BPEL流程。

2.一种基于BPEL语言构建数据密集型工作流引擎的系统，其特征在于包括：Hadoop工作流模型设计器、Hadoop工作流模型到BPEL流程模型转换器、BPEL引擎、服务容器、Hadoop集群、应用服务器；

所述Hadoop集群，指部署的Hadoop1.0版本的集群，支持MapReduce任务、HDFS任务、Pig任务，MapReduce指一种分布式数据并行处理框架，HDFS指一种分布式文件系统，Pig指一种脚本语言，自动翻译为MapReduce任务执行。服务容器中执行的各种服务，实际调用的是Hadoop中的任务，数据密集型工作流引擎将Hadoop任务部署到集群中，并获取响应结果。