CN102880510A - 基于多数据架构中心面向数据密集型应用的并行编程方法 - Google Patents

基于多数据架构中心面向数据密集型应用的并行编程方法 Download PDF

Info

Publication number
CN102880510A
CN102880510A CN2012103596008A CN201210359600A CN102880510A CN 102880510 A CN102880510 A CN 102880510A CN 2012103596008 A CN2012103596008 A CN 2012103596008A CN 201210359600 A CN201210359600 A CN 201210359600A CN 102880510 A CN102880510 A CN 102880510A
Authority
CN
China
Prior art keywords
data
task
server
job
mapreduce
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012103596008A
Other languages
English (en)
Inventor
王力哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CENTER FOR EARTH OBSERVATION AND DIGITAL EARTH CHINESE ACADEMY OF SCIENCES
Original Assignee
CENTER FOR EARTH OBSERVATION AND DIGITAL EARTH CHINESE ACADEMY OF SCIENCES
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CENTER FOR EARTH OBSERVATION AND DIGITAL EARTH CHINESE ACADEMY OF SCIENCES filed Critical CENTER FOR EARTH OBSERVATION AND DIGITAL EARTH CHINESE ACADEMY OF SCIENCES
Priority to CN2012103596008A priority Critical patent/CN102880510A/zh
Publication of CN102880510A publication Critical patent/CN102880510A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于多数据架构中心面向数据密集型应用的并行编程方法,包括构建系统架构的主节点、构建系统架构的子节点、加载、执行等步骤。本发明的有益效果为:大规模数据密集型科学数据领域技术人员,无需熟悉基于多数据中心的并行计算模型、也无需具备与高性能计算相关的MapReduce和MPI并行编程技术,只需要在多个分布式机群上进行简单配置,并加载MapReduce计算任务,无需改变已有集群系统的软硬件配置,就可实现架构于多数据中心,基于MapReduce编程模型的数据密集型应用的快速并行化,达到较高的并行效率,从而大大提高大规模分布式数据密集型科学数据的处理性能。

Description

基于多数据架构中心面向数据密集型应用的并行编程方法
技术领域
本发明涉及大规模数据密集型科学数据处理技术领域,尤其涉及一种基于多数据架构中心面向数据密集型应用的并行编程方法。
背景技术
万维网的快速增长产生了大量可用的在线信息。此外,社会、科学和工程应用也产生了大量结构化和非结构化的信息,这些信息需要被处理、分析和连接。目前,典型的数据密集型计算使用数据中心架构和大规模数据处理模式。本发明研究基于多个数据中心的大规模数据处理模型。
近年来,多个分布式机群或数据中心的数据密集型科学数据分析需求显著增长。一个数据密集型分析的好例子是高能物理领域(HEP,High Energy Physics),包括ALICE,ATLAS,CMS和LHCB在内的大型强子对撞机(LHC,Large Hadron Collider)的四个主要探测器在2010年产生了13PB的数据,这些大量数据存储在LHC世界范围内的计算网格中,包括分布在34个国家的140多个计算中心[3,4]。这些分布在全球的分布式计算中心通过广域网相连,彼此之间的数据拷贝过程是低效而乏味的。通过在多个机群之上使用数据并行处理模式,科学家们的模拟计算能够并发地在多计算中心上进行,并且不需要数据拷贝。
当前的数据密集型工作流系统,例如DAGMan、Pegasus、Swift、Kepler、Virtual Workflow、Virtual Data System和Taverna,被用于跨多数据中心的分布式数据处理。在多数据中心上使用工作流模式有如下限制:1)工作流提供粗粒度并行,并且不能满足高吞吐数据处理需求,这些高吞吐数据处理往往需要大规模并行处理;2)典型的数据密集型计算工作流系统需要多任务间大量的数据传输,有时会带来不必要的数据块或数据集移动;3)工作流系统必须考虑任务执行和数据传输的容错问题,容错是数据密集型计算实现的重要问题。将谷歌的MapReduce用于分布式数据中心的数据处理,能够克服工作流系统的上述限制。
MapReduce是谷歌提出用于大规模数据集的并行编程模型,它基于两个主要过程:映射(Map)和规约(Reduce)。映射函数用来把一组键值对映射成一组新的键值对,规约函数合并所有相同的中间值。许多现实世界的应用都采用MapReduce模型。Gfarm文件系统是一个分布式文件系统,用于共享全球范围内大量的分布式数据。Gfarm文件系统支持在计算节点上的本地存储能力。
因此目前亟需提出基于多数据中心面向数据密集型应用的并行编程方法设计和实现。为了共享多个管理域的数据集,我们使用了Gfarm文件系统来代替Hadoop的文件系统HDFS(Hadoop Distributed File System)。用户向Gfarm提交他们的MapReduce应用,基于多数据中心面向数据密集型应用的并行编程模型执行映射(map)和化简(reduce)任务。
基于多数据中心面向数据密集型应用的并行编程方法提供了一个基于MapReduce的并行处理环境,处理分布式机群的大规模数据集。与现有的数据密集型工作流系统相比,该方法实现了细粒度的数据并行处理,达到高吞吐数据处理性能,并且提供大规模数据处理的容错功能。
发明内容
本发明的目的是提供一种基于多数据架构中心面向数据密集型应用的并行编程方法,在保持各机群的自治性和现有Hadoop的MapReduce程序兼容性前提下,通过构建基于MapReduce编程模型的框架,能够自动加载MapReduce任务,使之在多个全球分布的机群节点上并行执行,解决多数据中心的数据密集型应用的并行编程问题。
本发明的目的通过以下技术方案来实现:
一种基于多数据架构中心面向数据密集型应用的并行编程方法,包括以下步骤:
1)构建系统架构的主节点,接收用户提交的若干作业,并通过主节点将所述作业分割成相对应的次一级任务,并将所述次一级任务分布到子节点上, 所述主节点包括元数据Metadata服务器和作业跟踪程序JobTracker服务器,所述元数据Metadata服务器使用Gfarm文件系统未经修改的元数据服务器,元数据服务器管理分布在多个机群上的文件,决定文件的实际位置,管理文件的复制,协调多个客户对文件的访问;元数据服务器还需要管理用户访问控制信息,所述作业跟踪程序JobTracker服务器使用一个数据感知的调度器,在考虑数据所在位置的基础上,将计算任务分布到多个机群中;
2)构建系统架构的子节点,所述子节点包括任务跟踪程序TaskTracker服务器、作业跟踪程序、I/O服务器程序和网络共享程序;
3)将MapReduce应用及其配置置于网络的共享位置中,供机群中的所有计算节点访问共享位置中的作业,并加以执行;以及
4)设计自动加载MapReduce作业并行处理模型,所述并行处理模型包括提交作业、作业初始化、任务分配、任务定位、任务提交、任务执行和释放资源功能。
进一步的,所述任务跟踪程序TaskTracker服务器负责接收和执行分布式资源管理应用接口DRMAA Gfarm Plugin送来的任务,所述作业跟踪程序使用一个分布式资源管理应用接口DRMAA的java库进行任务提交;所述子节点上的I/O服务器管理存储在子节点中的数据,所述主节点上的I/O服务器将数据存储在机群的高性能文件系统中。
本发明的有益效果为:大规模数据密集型科学数据领域技术人员,无需熟悉基于多数据中心的并行计算模型、也无需具备与高性能计算相关的MapReduce和MPI并行编程技术,只需要在多个分布式机群上进行简单配置,并加载MapReduce计算任务,无需改变已有集群系统的软硬件配置,就可实现架构于多数据中心,基于MapReduce编程模型的数据密集型应用的快速并行化,达到较高的并行效率,从而大大提高大规模分布式数据密集型科学数据的处理性能。
附图说明
图1为本发明实施例所述的基于多数据架构中心面向数据密集型应用的并行编程方法的体系结构图;
图2为本发明中主节点的软件组成部分示意图;
图3为本发明中子节点的软件组成部分示意图;
图4为本发明中一个MapReduce任务的执行流程示意图。
具体实施方式
本发明实施例所述的一种基于多数据架构中心面向数据密集型应用的并行编程方法,包括以下步骤:
1)构建系统架构的主节点,接收用户提交的若干作业,并通过主节点将所述作业分割成相对应的次一级任务,并将所述次一级任务分布到子节点上;主节点分为上下两层。首先,在作为系统主节点的计算机系统上安装Hadoop和Gfarm软件包。Hadoop是一个分布式计算平台,它实现了一个分布式文件系统。Gfarm也是一个分布式文件系统。Hadoop工作在主节点的上层,负责作业提交和跟踪管理。Gfarm工作在主节点的下层,负责管理存储系统。其次,在Hadoop和Gfarm之间安装一个GfarmFS Hadoop-Plugin插件软件程序,负责Hadoop和Gfarm的通讯。最后,分别在Hadoop上运行JobTracker程序,在Gfarm上运行Meta Data Server程序; 
所述主节点包括元数据Metadata服务器和作业跟踪程序JobTracker服务器,所述元数据Metadata服务器使用Gfarm文件系统未经修改的元数据服务器,元数据服务器管理分布在多个机群上的文件,决定文件的实际位置,管理文件的复制,协调多个客户对文件的访问;元数据服务器还需要管理用户访问控制信息,所述作业跟踪程序JobTracker服务器使用一个数据感知的调度器,在考虑数据所在位置的基础上,将计算任务分布到多个机群中;
2)构建系统架构的子节点,所述子节点包括任务跟踪程序TaskTracker服务器、作业跟踪程序、I/O服务器程序和网络共享程序,在作为系统子节点的计算机系统上安装Hadoop和Gfarm软件包。其次,在Hadoop和Gfarm之间安装一个GfarmFS Hadoop-Plugin插件软件程序,负责Hadoop和Gfarm的通讯。最后,在Hadoop上运行TaskTracker程序,在Gfarm上运行I/O Server程序,TaskTracker程序等待管理主节点分配来的任务,I/O Server程序等待为这些任务进行数据的读写;
所述任务跟踪程序TaskTracker服务器负责接收和执行分布式资源管理应用接口DRMAA Gfarm Plugin送来的任务,所述作业跟踪程序使用一个分布式资源管理应用接口DRMAA的java库进行任务提交;所述子节点上的I/O服务器管理存储在子节点中的数据,所述主节点上的I/O服务器将数据存储在机群的高性能文件系统中;
3)将MapReduce应用及其配置置于网络的共享位置中,供机群中的所有计算节点访问共享位置中的作业,并加以执行;以及
4)设计自动加载MapReduce作业并行处理模型,所述并行处理模型包括提交作业、作业初始化、任务分配、任务定位、任务提交、任务执行和释放资源功能。
具体实施时,基于多数据架构中心面向数据密集型应用的并行编程方法的具体应用流程如下:
1)提交作业。用户在客户节点上调用runJob()方法,开始进行一个MapReduce应用,runJob实例化产生一个JobClient,JobClient是Hadoop的MapReduce堆栈的一部分,负责向系统提交作业。JobClient首先联系主节点上的作业跟踪程序(JobTracker),为新作业请求一个唯一的ID,JobClient把MapReduce执行程序、配置参数和输入文件等附加资源赋值到一个指定的Gfarm文件系统目录中。JobClient把作业提交给任务跟踪程序,用于执行。
2)作业初始化。在主节点上,作业跟踪程序(JobTracker)对作业进行初始化,通过generateInputSplit()方法把作业分割成多个任务,该方法由用户实现,并联系Gfarm元数据服务器,请求得到作业输入文件的所有位置信息。由于Gfarm文件系统使用基于文件的方法,所以不同大小的文件被定位在不同的机群上。映像文件的编号被设置为输入文件的编号,每个任务使用一个文件作为它的输入数据。
3)任务分配。子节点上的任务跟踪程序(TaskTracker)使用心跳消息协议,定期向作业跟踪程序(JobTracker)询问是否有新的任务。基于输入文件的位置信息,任务倾向于分配给输入数据所在的机群。作业跟踪程序(JobTracker)使用单个心跳消息能够回答多个新任务请求。
4)任务定位。当任务跟踪程序(TaskTracker)收到一个新任务,它通过把Gfarm文件系统的工作目录复制到一个网络共享程序,将可执行任务和资源进行定位。
5)任务提交。任务被任务跟踪程序(TaskTracker)定位到机群上之后,使用分布式资源管理应用接口(DRMAA),将可执行程序和它的工作目录提交给机群调度器。
6)任务执行。机群调度器选择一个空闲的计算节点用于新任务的执行。计算节点从作业工作目录的共享位置获得可执行程序,需要的库文件(例如Hadoop和Gfarm)必须被放在机群指定的共享位置,用于访问。在计算节点上产生一个新的Java虚拟机(JVM),执行这个作业,使用配置好的参数运行相应的任务。这些任务包括映射(Map)任务和化简(Reduce)任务。如果是映射任务,则开始读取任务的输入文件,输出内容被写入到机群的一个共享目录中,并进行排序。如果是化简任务,则联系任务跟踪程序(TaskTracker)取回映射任务产生的输出内容。如果化简任务和映射任务产生的输出是在同一个机群上,那么从公共共享区域读取文件,否则使用超文本传输协议(HTTP)从其它机群上取回映射输出。化简任务的结果通常被写入到Gfarm文件系统中。在任务执行过程中,定期向任务跟踪程序(TaskTracker)报告任务的状态,当任务执行完成后,向任务跟踪程序(TaskTracker)报告完成状态,并退出。
7)释放资源。当机群调度器执行完任务,任务跟踪程序将释放资源,并且准备执行下一个任务。
按以上步骤,设计了一个面向多数据架构中心的数据密集型应用并行编程方法,适用于执行MapReduce作业。该方法由MapReduce并行编程模型、Gfarm分布式文件系统、主节点程序和子节点程序组成,已经实现了MapReduce作业在多数据中心上的并行执行。
虽然以上仅描述了本发明的具体实施方式范例,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更或修改均落入本发明的保护范围。

Claims (4)

1.一种基于多数据架构中心面向数据密集型应用的并行编程方法,其特征在于,包括以下步骤:
1)构建系统架构的主节点,接收用户提交的若干作业,并通过主节点将所述作业分割成相对应的次一级任务,并将所述次一级任务分布到子节点上;
2)构建系统架构的子节点,所述子节点包括任务跟踪程序TaskTracker服务器、作业跟踪程序、I/O服务器程序和网络共享程序;
3)将MapReduce应用及其配置置于网络的共享位置中,供机群中的所有计算节点访问共享位置中的作业,并加以执行;以及
4)设计自动加载MapReduce作业并行处理模型,所述并行处理模型包括提交作业、作业初始化、任务分配、任务定位、任务提交、任务执行和释放资源功能。
2.根据权利要求1所述的一种基于多数据架构中心面向数据密集型应用的并行编程方法,其特征在于:所述主节点包括元数据Metadata服务器和作业跟踪程序JobTracker服务器,所述元数据Metadata服务器使用Gfarm文件系统未经修改的元数据服务器,元数据服务器管理分布在多个机群上的文件,决定文件的实际位置,管理文件的复制,协调多个客户对文件的访问;元数据服务器还管理用户访问控制信息,所述作业跟踪程序JobTracker服务器使用一个数据感知的调度器,在考虑数据所在位置的基础上,将计算任务分布到多个机群中。
3.根据权利要求2所述的一种基于多数据架构中心面向数据密集型应用的并行编程方法,其特征在于:所述任务跟踪程序TaskTracker服务器负责接收和执行分布式资源管理应用接口DRMAA Gfarm Plugin送来的任务,所述作业跟踪程序使用一个分布式资源管理应用接口DRMAA的java库进行任务提交。
4.根据权利要求3所述的一种基于多数据架构中心面向数据密集型应用的并行编程方法,其特征在于:;所述子节点上的I/O服务器管理存储在子节点中的数据,所述主节点上的I/O服务器将数据存储在机群的高性能文件系统中。
CN2012103596008A 2012-09-24 2012-09-24 基于多数据架构中心面向数据密集型应用的并行编程方法 Pending CN102880510A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012103596008A CN102880510A (zh) 2012-09-24 2012-09-24 基于多数据架构中心面向数据密集型应用的并行编程方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012103596008A CN102880510A (zh) 2012-09-24 2012-09-24 基于多数据架构中心面向数据密集型应用的并行编程方法

Publications (1)

Publication Number Publication Date
CN102880510A true CN102880510A (zh) 2013-01-16

Family

ID=47481848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012103596008A Pending CN102880510A (zh) 2012-09-24 2012-09-24 基于多数据架构中心面向数据密集型应用的并行编程方法

Country Status (1)

Country Link
CN (1) CN102880510A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324538A (zh) * 2013-05-23 2013-09-25 国家电网公司 一种异位分散集群环境分布式并发进程的设计方法
CN103488775A (zh) * 2013-09-29 2014-01-01 中国科学院信息工程研究所 一种用于大数据处理的计算系统及计算方法
CN103645948A (zh) * 2013-11-27 2014-03-19 南京师范大学 一种面向数据密集型及依赖关系的并行计算方法
CN104123182A (zh) * 2014-07-18 2014-10-29 西安交通大学 基于主从架构的MapReduce任务跨数据中心调度系统及方法
CN104793955A (zh) * 2015-04-29 2015-07-22 江苏物联网研究发展中心 分布式向量计算框架
CN105608138A (zh) * 2015-12-18 2016-05-25 贵州大学 一种优化阵列数据库并行数据加载性能的系统
CN105849699A (zh) * 2013-10-24 2016-08-10 伊顿工业(法国)股份有限公司 控制数据中心架构设备的方法
CN107193926A (zh) * 2017-05-17 2017-09-22 北京快友世纪科技股份有限公司 Hadoop多管道数据处理分析方法
CN107479963A (zh) * 2016-06-08 2017-12-15 国家计算机网络与信息安全管理中心 一种任务分配方法及系统
CN109032796A (zh) * 2018-07-18 2018-12-18 北京京东金融科技控股有限公司 一种数据处理方法和装置
CN105204920B (zh) * 2014-06-18 2019-07-23 阿里巴巴集团控股有限公司 一种基于映射聚合的分布式计算作业的实现方法及装置
CN111046031A (zh) * 2019-12-13 2020-04-21 智器云南京信息科技有限公司 一种数据处理方法、系统、终端设备和存储介质
CN111679859A (zh) * 2020-06-11 2020-09-18 山东省计算中心(国家超级计算济南中心) 一种面向i/o密集型高性能应用的自动化并行mpi-i/o加速方法
CN114970294A (zh) * 2022-08-02 2022-08-30 山东省计算中心(国家超级计算济南中心) 基于神威架构的三维应变仿真pcg并行优化方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996079A (zh) * 2010-11-24 2011-03-30 南京财经大学 一种基于管道通信的MapReduce编程框架运算方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996079A (zh) * 2010-11-24 2011-03-30 南京财经大学 一种基于管道通信的MapReduce编程框架运算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIZHE WANG ETC.,: "MapReduce Across Distributed Clusters for Data-intensive Applications", 《IPDPSW,2012 IEEE 26TH INTERNATIONAL》 *
孙兆玉等: "面向数据密集型计算Hadoop及其应用研究", 《2008年全国高性能计算学术年会》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324538B (zh) * 2013-05-23 2016-08-10 国家电网公司 一种异位分散集群环境分布式并发进程的设计方法
CN103324538A (zh) * 2013-05-23 2013-09-25 国家电网公司 一种异位分散集群环境分布式并发进程的设计方法
CN103488775A (zh) * 2013-09-29 2014-01-01 中国科学院信息工程研究所 一种用于大数据处理的计算系统及计算方法
CN105849699B (zh) * 2013-10-24 2021-06-22 伊顿工业(法国)股份有限公司 控制数据中心架构设备的方法
CN105849699A (zh) * 2013-10-24 2016-08-10 伊顿工业(法国)股份有限公司 控制数据中心架构设备的方法
CN103645948A (zh) * 2013-11-27 2014-03-19 南京师范大学 一种面向数据密集型及依赖关系的并行计算方法
CN103645948B (zh) * 2013-11-27 2017-05-17 南京师范大学 一种面向数据密集型及依赖关系的并行计算方法
CN105204920B (zh) * 2014-06-18 2019-07-23 阿里巴巴集团控股有限公司 一种基于映射聚合的分布式计算作业的实现方法及装置
CN104123182A (zh) * 2014-07-18 2014-10-29 西安交通大学 基于主从架构的MapReduce任务跨数据中心调度系统及方法
CN104123182B (zh) * 2014-07-18 2015-09-30 西安交通大学 基于主从架构的MapReduce任务跨数据中心调度系统及方法
CN104793955A (zh) * 2015-04-29 2015-07-22 江苏物联网研究发展中心 分布式向量计算框架
CN105608138A (zh) * 2015-12-18 2016-05-25 贵州大学 一种优化阵列数据库并行数据加载性能的系统
CN105608138B (zh) * 2015-12-18 2019-03-12 贵州大学 一种优化阵列数据库并行数据加载性能的系统
CN107479963A (zh) * 2016-06-08 2017-12-15 国家计算机网络与信息安全管理中心 一种任务分配方法及系统
CN107193926A (zh) * 2017-05-17 2017-09-22 北京快友世纪科技股份有限公司 Hadoop多管道数据处理分析方法
CN109032796B (zh) * 2018-07-18 2020-12-22 北京京东金融科技控股有限公司 一种数据处理方法和装置
CN109032796A (zh) * 2018-07-18 2018-12-18 北京京东金融科技控股有限公司 一种数据处理方法和装置
CN111046031A (zh) * 2019-12-13 2020-04-21 智器云南京信息科技有限公司 一种数据处理方法、系统、终端设备和存储介质
CN111679859A (zh) * 2020-06-11 2020-09-18 山东省计算中心(国家超级计算济南中心) 一种面向i/o密集型高性能应用的自动化并行mpi-i/o加速方法
CN111679859B (zh) * 2020-06-11 2023-08-18 山东省计算中心(国家超级计算济南中心) 一种面向i/o密集型高性能应用的自动化并行mpi-i/o加速方法
CN114970294A (zh) * 2022-08-02 2022-08-30 山东省计算中心(国家超级计算济南中心) 基于神威架构的三维应变仿真pcg并行优化方法及系统
CN114970294B (zh) * 2022-08-02 2022-10-25 山东省计算中心(国家超级计算济南中心) 基于神威架构的三维应变仿真pcg并行优化方法及系统

Similar Documents

Publication Publication Date Title
CN102880510A (zh) 基于多数据架构中心面向数据密集型应用的并行编程方法
Wang et al. Optimizing load balancing and data-locality with data-aware scheduling
Mercier et al. Improving MPI applications performance on multicore clusters with rank reordering
US20080059555A1 (en) Parallel application load balancing and distributed work management
CN104834561A (zh) 一种数据处理方法及装置
CN104239148A (zh) 一种分布式任务调度方法及装置
US20150205888A1 (en) Simulation of high performance computing (hpc) application environment using virtual nodes
Zhang et al. MrHeter: improving MapReduce performance in heterogeneous environments
CN104050042A (zh) Etl作业的资源分配方法及装置
Li et al. An effective scheduling strategy based on hypergraph partition in geographically distributed datacenters
Lu et al. Algorithms for balanced graph colorings with applications in parallel computing
KR20150117258A (ko) 분산형 컴퓨팅 아키텍쳐
Li et al. Graph/z: A key-value store based scalable graph processing system
Wang et al. Transformer: a new paradigm for building data-parallel programming models
Mon et al. Clustering based on task dependency for data-intensive workflow scheduling optimization
Kosar Data Intensive Distributed Computing: Challenges and Solutions for Large-scale Information Management: Challenges and Solutions for Large-scale Information Management
Han et al. Scalable loop self-scheduling schemes for large-scale clusters and cloud systems
Su et al. Variable-sized map and locality-aware reduce on public-resource grids
Raca et al. clusterCL: comprehensive support for multi-kernel data-parallel applications in heterogeneous asymmetric clusters
Yadav et al. Job scheduling in grid computing
Khalil et al. Survey of Apache Spark optimized job scheduling in Big Data
Han et al. Scalable loop self-scheduling schemes implemented on large-scale clusters
Liu et al. BSPCloud: A hybrid distributed-memory and shared-memory programming model
Dong et al. Managing and Unifying Heterogeneous Resources in Cloud Environments.
Sajjapongse et al. A flexible scheduling framework for heterogeneous CPU-GPU clusters

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130116