CN102769615A - 一种基于MapReduce机制的任务调度方法和系统 - Google Patents

一种基于MapReduce机制的任务调度方法和系统 Download PDF

Info

Publication number
CN102769615A
CN102769615A CN2012102280313A CN201210228031A CN102769615A CN 102769615 A CN102769615 A CN 102769615A CN 2012102280313 A CN2012102280313 A CN 2012102280313A CN 201210228031 A CN201210228031 A CN 201210228031A CN 102769615 A CN102769615 A CN 102769615A
Authority
CN
China
Prior art keywords
subtask
mapreduce
map
computing node
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102280313A
Other languages
English (en)
Other versions
CN102769615B (zh
Inventor
沈晴霓
张力哲
杨雅辉
吴中海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201210228031.3A priority Critical patent/CN102769615B/zh
Publication of CN102769615A publication Critical patent/CN102769615A/zh
Application granted granted Critical
Publication of CN102769615B publication Critical patent/CN102769615B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Storage Device Security (AREA)

Abstract

本发明提供一种基于MapReduce机制的任务调度方法和系统,该方法包括:对以MapReduce云计算环境中的计算节点进行区域划分,包括安全域、调度域和冲突域;将MapReduce作业中的Map子任务调度至安全域的计算节点上,将每个Map子任务的副本调度至调度域的计算节点上;对Map子任务和Map子任务副本的执行环境和部分中间结果进行哈希校验,Reduce子任务分别利用Map子任务阶段生成的执行环境校验值和中间结果校验值校验自身的执行环境和输入数据。利用本发明,普通用户提交的作业的运行环境可以有效地和恶意用户隔离,并能以更高效的方式保证作业计算结果的完整性。

Description

一种基于MapReduce机制的任务调度方法和系统
技术领域
本发明属于云计算技术领域,具体涉及一种基于MapReduce机制的任务调度方法和系统,可以提高MapReduce机制安全性,实现以相对于现有技术更高效的方式保证作业计算结果的完整性。
背景技术
MapReduce是一种适用于集群计算环境的并行计算框架,云服务提供商使用MapReduce整合集群计算资源,并且以暴露MapReduce API的方式为云租户提供计算服务。利用MapReduce API,云租户可以配置及提交计算作业、查看计算作业进度及结果。
对一般用户来说,MapReduce是一种编程范型,按照MapReduce范型编写的程序可以并行运行在集群中的多个节点上;对云服务提供商来说,MapReduce是一种用来构建云计算环境的架构,用MapReduce来组织多个计算节点来组成大型集群运行MapReduce程序。MapReduce把整个计算作业按数据量大小划分成多个子任务,MapReduce集群中存在一个中央节点调度这些子任务在其它集群节点中并行运行。
MapReduce可以分成Map和Reduce两个阶段,但是其内部执行流程比较复杂,下面以图1为例描述MapReduce的执行流程。
一个MapReduce作业(Job)被划分成多个子任务(Task),划分方法由用户指定,一般按输入文件大小平均划分,即每个Task负责等量的一部分数据。Job分为Map阶段和Reduce阶段,两个阶段输入和输出的数据模型都是Key-Value形式的。Map阶段输入的Key-Value如何由输入数据转化而来由用户指定,经过用户指定的Map运算,Map阶段输出的以Key-Value为表达形式的中间结果,如图1中A阶段所示。中间结果会按Key排序,如图1中B阶段所示,排序结果将被输出到此Map阶段运行所在计算节点的本地磁盘上面。MapReduce框架会按Key排序并且按用户指定的方式对Key分区并对落在同一份分区中的Value做聚合,如图1中C阶段所示。
Reduce阶段的输入数据是多个Map阶段的中间结果,如果有n个Reduce阶段,就存在n个分区,属于第i个分区的中间结果通过网络传输到执行Reduce阶段的结算节点上,如图1中D阶段所示。某一条中间结果属于哪个分区是由此中间结果的Key计算得到的。待某一Reduce得到对应分区的所有中间结果之后,Reduce会按Key对所有中间结果排序并同时得到相同Key对应的多个Value,这样就形成了{Key-Value Set}形式的数据并把其输入到Reduce方法中,执行用户指定的Reduce算法,最后输出到用户指定的文件。
上述Map阶段对Key排序并输出到本地磁盘、中间结果按Key分区网络传输以及Reduce阶段对Key排序并形成{Key-Value Set}形式的数据的过程习惯上成为MapReduce的Shuffle过程。
MapReduce现有的调度机制可能会使恶意用户和普通用户的子任务在同一个计算节点上运行,进而存在恶意用户偷窥,篡改普通用户的计算结果的可能。另外,MapReduce的子任务分为Map和Reduce两种,Reduce子任务依赖Map子任务的输出作为自己的输入,Map子任务的输出为中间计算结果,中间计算结果会以明文的方式拷贝到执行Reduce子任务的节点上,故这个过程同样存在上述安全风险。
论文“Wei Wei,Juan Du,Ting Yu,Xiaohui Gu,"SecureMR:A Service Integrity AssuranceFramework for MapReduce,"acsac,pp.73-82,2009 Annual Computer Security ApplicationsConference,2009”提出一种保护MapReduce计算结果完整性的安全框架—SecureMR。SecureMR通过对多个计算过程冗余调度来保证计算结果的正确性,即,所有的相同的子作业完全一模一样的在两个不同的计算节点上分别执行一遍,如果得到的子结果完全相同,那么这个子作业的结果就是正确的。该方法的两个缺点是:一是性能效率低下,因为所有的子作业都重复执行一遍。二是没有考虑隔离恶意用户,无法解决“合谋”的问题,即两个计算节点都被入侵,这样就完全避开了中间结果的完整性检测。
发明内容
本发明的目的是提出一种基于MapReduce机制的任务调度方法和系统,通过用户自主决定MapReduce集群域划分策略,使得普通用户提交的作业的运行环境可以有效地和恶意用户隔离,同时利用冗余调度和不同域间子作业计算环境相互验证的方法,实现以相对于现有技术更高效的方式保证作业计算结果的完整性。
为达到上述目的,本发明采用如下技术方案:
一种基于MapReduce机制的任务调度方法,其步骤包括:
1)对以MapReduce技术构建的云计算环境中的计算节点基于安全标签进行区域划分,包括安全域、调度域和冲突域;
2)将MapReduce作业分为若干Map子任务以及若干Reduce子任务,将Map子任务调度至所述安全域的计算节点上,为每个Map子任务建立副本并将所述副本调度至所述调度域的计算节点上;
3)对所述Map子任务和所述Map子任务的副本的执行环境和部分中间结果进行哈希校验;所述Reduce子任务分别利用Map子任务阶段生成的执行环境校验值和中间结果校验值,校验自身的执行环境和输入数据。
进一步地,上述方法还包括:用户对跨域传输的中间结果进行加密处理。
一种基于MapReduce机制的任务调度系统,其包括:
标签管理模块,负责对以MapReduce技术构建的云计算环境中的计算节点建立安全标签;
域划分判定模块,连接所述标签管理模块,负责根据所述安全标签对计算节点进行区域划分,所述区域包括安全域、调度域和冲突域;
冗余调度模块,连接所述域划分判定模块,负责根据区域划分的信息为计算节点分配适当的执行作业,并使用哈希值校验调度到不同区域的作业的执行环境和中间结果;
哈希值校验模块,设于计算节点上,负责进行哈希校验并把哈希值传递给所述冗余调度模块。
进一步地,上述系统还包括设于租户端的标签管理接口和安全策略设置接口。
本发明包含域划分策略、冗余调度机制以及计算环境互验证机制三个部分。其中,域划分策略可以有效隔离普通用户和潜在恶意用户;在域划分策略的基础上,冗余调度机制可以保证计算结果的完整性,而冗余调度配合计算环境互验证的机制可以减小保证计算结果完整性的性能开销。
附图说明
图1为MapReduce执行流程示意图。
图2为本发明实施例中Alice银行Credit Card部门提交作业的执行过程示意图。
图3为本发明实施例中计算节点的区域划分示意图。
图4为本发明实施例的冗余调度策略示意图。
图5为本发明实施例的数据保密性及完整性示意图。
图6为本发明实施例中改进MapReduce系统的组成结构示意图。
图7为本发明实施例中MapReduce作业执行流程示意图。
具体实施方式
下面通过具体实施例并配合附图,对本发明做详细的说明。
首先描述以现有MapReduce技术构建的云计算环境中存在的安全风险,接着描述本发明提出的基于MapReduce机制的任务调度方法和系统中加强MapReduce安全特性的安全策略,同时描述这些安全风险是如何得以解决的。
1.MapReduce安全风险分析
为了有效整合计算资源,一般情况下都是多个租户共有同一个云计算环境。MapReduce现有的调度机制并没有考虑多租户使用环境下恶意用户可能对其它普通用户造成的危害。危害发生大体分成以下两种情况:
1)在某一时刻,普通用户和恶意用户的子任务可能同时运行在集群的某个节点上。
2)在某一时刻,某个节点上可能不存在恶意用户的子任务,但是这个节点可能曾经运行过恶意用户的子任务,而那时这个节点受到该恶意用户的破坏,进而造成对后续普通用户运行其上的子任务的计算结果的破坏和偷窥。
在某些MapReduce的使用环境下,数据提供商和算法提供商不一定是同一个主体,如何防止算法提供商泄露敏感且和算法不相关的数据同样重要。
为了方便分析安全场景,这里使用一个云计算服务用例来描述可能存在的安全风险。现有两家银行分别是Alice银行和Bob银行,这两家银行是竞争对手,互相之间存在攻击行为。Alice银行的信用卡部门拥有大量的用户消费记录,记录格式为“身份证号,消费卡号,消费时间,商品类型,商品金额”。Clark商业分析咨询公司提供机器学习算法服务,Alice要使用Clark的机器学习程序对消费记录分析从而更好地设计信用卡产品,这里假设Clark提供的算法服务是分析最近一个月各类商品的消费总量,算法输出格式类似于“商品类型,消费总量”。Alice银行分为人力资源部(Hr)和信用卡部(Credit Card),信用卡部的消费记录信息对人力资源部是保密的。
图2表示Alice银行Credit Card部门提交作业的一次执行过程的简化描述,在所提交的作业的多个子任务中,图左下侧粗线条机器表示运行Reduce子任务的节点,图左上侧粗线条机器和图右粗线条机器表示Map子任务的节点,以用户名作为标识的虚线矩形框表示正在运行某租户子任务的节点,黑色虚线表示中间结果拷贝过程。在MapReduce的一般调度策略和计算环境下,Alice银行Credit Card部门的Map子任务有可能和Bob银行的某个子任务同时运行在某个节点上(图右粗线条机器),尽管另外一个Map子任务(图左上侧粗线条机器)运行的节点上没有Bob银行的作业,但是这个节点可能曾经运行过Bob银行的子任务进而遭到破坏,同样尽管运行Reduce子任务的图左下侧粗线条机器除了Credit Card部门没有其它人的作业运行,但是这个节点可能曾经同样运行过Bob银行的作业进而遭到破坏。
图2中黑色虚线表示Map子任务中间结果在网络上拷贝的过程,因全部以明文方式传输,本身存在安全风险。Clark作为算法提供商,为Alice银行Credit Card部门提供数据分析算法,但Clark也可能泄漏算法不相关且同样敏感的数据。
故这种现有的调度策略本身存在以下安全风险,如表1所示。
表1安全风险描述表
Figure BDA00001842715500051
2.安全风险解决方案描述
为了针对上述安全风险提出对应的安全策略,需要从以下几个方面考虑问题:
如何改进计算任务的调度策略使得多个租户的计算作业有效隔离并且整体上还不至于使得计算资源浪费;
如何保证使得Alice能够让输入数据中的敏感部分(身份证号,银行卡号)对Clark的程序不可见;
如何才能确定计算任务的执行环境没有被篡改;
如何才能确定计算任务的输出结果没有被篡改。
1)基于域划分的冗余调度策略
为了隔离恶意用户,本发明把所有计算节点划分成三种区域,分别是:安全域、调度域和冲突域。某个租户的子任务绝对不会调度到冲突域的计算节点上,子任务会在调度域上实际运行,而安全域的计算节点主要负责验证调度域计算节点的计算环境并且校验某个子任务一部分结果的完整性。允许租户自主控制自己的域划分策略,集群中的计算节点会打上一系列的特征标签,而租户需要为自己的作业指定具有哪些特征标签的计算节点属于哪个区域,比如:租户只想让自己的子任务运行在处于中国的计算节点中,那么可以指定只有具有“中国”标签的计算节点才会落入调度域中。
图3为区域划分示意图,该图说明Alice银行的Credit Card部门如何从用户作业运行状态这个角度为计算节点划分区域,黑色虚线矩形框表示正在运行某一用户作业的计算节点集合,它把Bob银行作为潜在的恶意攻击者,运行Bob银行作业的计算节点集合属于冲突域中;而对于Alice银行其他部门,其对应的计算节点不能说是完全安全的,因此其集合都属于调度域;与利用用户作业运行状态划分区域不同,Alice银行Credit Card部门可以从计算节点地理位置,可信度等方面指定一个安全域计算节点集合。计算节点区域即是指用户为了保证计算结果的完整性并且保证作业计算过程的安全、利用计算节点安全标签自主划分出的计算节点集合。下面依次介绍三种区域:
安全域:安全域是一种计算节点区域,其中的计算节点是完全安全的,即节点的计算环境安全以及安全域内部的网络环境安全。用户需要自己利用计算节点安全标签指出满足什么标签关系的计算节点才属于安全域,这样计算节点通常在硬件和软件方面更加安全,甚至可以是某个租户私有的节点。本发明假定安全域的计算节点相比调度域来说相当稀少,子任务实际会在调度域上运行,而安全域只是为了校验调度域的计算环境和子任务的部分计算结果。
冲突域:冲突域是一种计算节点区域,其中的计算节点对于划分区域的用户来说可能存在较大的安全风险。比如:如果A认定B作为潜在恶意用户,A可以通过标签指定凡是运行着B作业的计算节点都属于冲突域,这样A的作业绝对不会被调度到冲突域的节点上。
调度域:调度域是一种计算节点区域,其中的计算节点对于划分区域的用户来说是进行作业调度的,但是其中的计算节点的运行环境可能已经遭到破坏,即不保证是安全的。一般来说除了冲突域和安全域以外,其它都是调度域。用户也可以通过安全标签指定不同级别的调度域,各租户的计算任务一定不会被调度到属于冲突域的计算节点上,但是可以调度到调度域上,调度域的级别越高意味着这个调度域上计算节点运行计算任务越可能产生不正确的结果,也就需要强度越高的校验。校验的强度用部分校验系数α表示,具体意义是,通过比较安全域和调度域上副本的计算结果可以保证计算结果完整性,但是,通常安全域的计算节点是比较少的,为了防止性能过大的开销,安全域中的子任务只会执行一部分,得到一部分计算结果的校验值,这个计算的比例就是由部分校验系数α表示的,部分校验的有效性是基于MapReduce作业的子作业数量都很大,虽然每个子作业只有α的概率保证完整性,但是整个MapReduce作业的保证完整性的概率是1-(1-α)^n,其中n表示子作业的数量,所以整个MapReduce作业的保证完整性的概率可以接近于1。
2)计算任务执行环境校验
对于Map子任务来说,为了防止计算任务被恶意用户控制而产生不正确结果,利用任务冗余调度来保证计算结果的完整性。图4为冗余调度策略示意图,冗余调度策略会为每个Map任务生成两个副本,分别运行于安全域和调度域中,安全域的副本运行之前会计算获得其运行环境的哈希值并立刻返回给公共中央节点,公共中央节点在调度调度域任务副本时候会附带这个哈希值,调度域副本运行之前会利用这个哈希值校验其运行环境。
为了利用MapReduce作业的子任务数量巨大以减少性能开销,安全域的会计算部分输入的结果并得到其哈希值返回给公共中央节点,调度域的副本会计算相同一部分的输入的结果以及全部输入的结果以及这些结果的哈希值返回给公共中央节点,中央节点只有验证两副本的哈希值完全相同才认为Map任务计算结果是正确的。
图5左侧表示Reduce任务计算结果完整性,对于Reduce任务,通过公共中央节点转发的Map任务输出的哈希值以及运行环境哈希值,Reduce会校验其运行环境以及输入数据的完整性。
计算结果的正确性的前提是安全域的计算环境没有被攻击。计算环境是指可能影响子任务结果的进程环境,通常包括程序运行的代码以及以及MapReduce机制分布式缓存。MapReduce任务会把程序运行的只读文件以缓存形式放到本地,即MapReduce分布式缓存,这部分文件的也作为执行环境的一部分。每一个子任务都会同时被调度到安全域和调度域中各一个计算节点上,在子任务开始运行之前,验证调度域和安全域的计算环境,只有经过验证,调度域中的子作业才可以继续执行。被调度到安全域的子任务只会计算子任务的一部分输入(校验部分结果的有效性会在下文叙述),输出这部分输入的部分结果的哈希校验值。调度域中的子作业会计算全部输入数据,计算过程中会记录相同部分输入的部分结果的哈希校验值,只有部分结果的哈希校验值相同,Map子任务的计算结果才认为是正确的。对于Reduce子任务,其输入数据是Map子任务的输出,因此调度域中Map子任务还需要对全部的结果计算哈希校验值。
策略之所以引入部分校验,即,在计算输入数据的哈希值的时候只会计算一部分的输入数据,是因为安全域的计算资源相对稀少。部分校验有效性是基于MapReduce运行的作业通常是具有非常多个子任务这一特征的,假设每个任务有1/a的数据会被校验,这个任务结果被篡改而不被发现的概率是(1-1/a),那么,假设作业有n个任务,作业结果被篡改而不被发现的概率为(1-1/a)^n。发现作业结果被篡改的概率为1-(1-1/a)^n,如果n非常大,检查出结果被篡改的概率就会很大。
3)数据加密策略
使用加密手段来保证敏感数据不被泄露是一个有效的方案,然而加密的巨大开销也成为策略性能上不得不考虑的因素,本发明可以让租户自行选择是否开启加密功能。在本发明提出的安全策略中,对跨域传输的中间结果会通过加密来保证保密性,通过中央节点转发Map子任务生成的全部结果的哈希校验值来保证数据在网络上传输的完整性。而为了防止Clark泄露消费记录中敏感信息,策略可以允许Alice执行对输入数据的部分内容进行加密处理,比如可以对敏感数据做单向加密,类似Md5,使得Clark对敏感数据不可见。图5为数据保密性及完整性示意图,如该图所示,用户可以选择对Map任务的输入记录的部分字段做加密处理,并且用户可以选择中间结果通过加密方式传递。
由上述可知各个安全风险的解决方法,如表2所示。
表2安全风险描述以及解决方案
Figure BDA00001842715500081
下面提供一个适用于上述方法的基于MapReduce机制的任务调度系统的实例。
本实例在Hadoop MapReduce之上实现冗余调度机制、域划分判定机制以及计算环境和中间结果的校验。该实例中所有调度域都是同一个级别,并且部分校验系数α恒等于0.5,即,只校验某个子任务的一半计算结果。
Hadoop MapReduce是实现了MapReduce的Java开源项目。Hadoop MapReduce主要由JobClient、JobTracker以及TaskTracker三个组件构成,图6为该系统的组成结构示意图。其中,JobTracker相当于公共中央节点,包括标签管理模块、域划分判定模块和冗余调度模块;TaskTracker相当于计算节点,每一个节点对应一个哈希值校验模块;JobClient相当于一个普通的租户,设有标签管理接口和安全策略设置接口。
本实例的域划分策略使用基于标签的判定方式,借鉴文件系统中访问控制的实现方法。文件系统访问控制用来判定主体对客体的访问权限,访问权限通常包含读、写、可执行。依据主体和客体的安全标签,计算得到最终的访问权限。在本实例中,主体相当于Job,客体相当于TaskTracker,访问权限相当于域判定信息。根据Job和TaskTracker的安全标签得到域判定信息的过程可以通过多种方式实现,比如可以为计算节点打上类似强制访问控制中密级和范畴的安全标签,然后用户分别为作业的安全域,调度域和冲突域指定密级和范畴,一个计算节点是否属于某一个区域就要看这个计算节点的密级和范畴能否被此区域的密级和范畴支配。
如图6所示,在JobTracker中,标签管理模块负责给TaskTracker打上安全标签,域划分判定模块根据TaskTracker上的安全标签和具体的某一个Job来确定这个TaskTracker所属的区域,并把这个信息传递给冗余调度模块。冗余调度模块根据域划分的信息为这个TaskTracker分配适当的作业执行。
在TaskTracker中,一个节点对应一个哈希值校验模块,图7中示意了两个哈希值校验模块。该模块负责处理计算环境的哈希值信息,把哈希值传递给JobTracker的冗余调度模块,冗余调度模块使用这些哈希值来校验调度到不同域的作业的计算环境,校验结果会影响冗余调度模块的调度策略。
如图6所示,在JobClient中,标签管理接口是JobTracker标签管理模块暴露给租户的处理标签的接口;Job安全策略指定安全标签和域的关系,比如:属于安全域的计算节点需要具备哪些安全标签。安全策略设置接口是租户利用TaskTracker安全标签配置Job的区域划分策略的接口。即标签管理接口是用来控制标签管理模块的工具,安全策略设置接口是租户自主制定域划分策略的工具。
图7为一个MapReduce作业在上述MapReduce框架之下的生命周期,其中MapReduce作业分为Map任务和Reduce任务,对其详细描述如下:
一个MapReduce作业被分为若干Map子任务和Reduce子任务。如图7中“1”所示。每个Map子任务都有一个副本,真正的Map子任务会被调度到安全域中的计算节点上,而副本会被调度到调度域中的计算节点上。
安全域中的Map子任务获得执行环境校验值并报告给JobTracker,JobTracker此时把Map子任务副本和执行环境校验值调度到调度域上。调度域中的Map子任务会首先校验执行环境,然后正常执行同时得到部分结果的校验值和全部结果的校验值,而安全域中的子任务只会执行部分计算得到对应的校验值。如图7中“2”和“3”所示。
当某个Map子任务和其副本都报告执行完毕,JobTracker校验两者的部分结果的校验值,如图7中“4”所示。校验通过之后把安全域的执行环境校验值、Map子任务计算结果校验值和Reduce子任务的信息分配到调度域上执行,如图7中“5”和“6”所示。Reduce子任务会首先从执行过Map子任务的计算节点上拷贝Map子任务计算结果并验证校验值,同时使用安全域的执行环境校验值验证自身的执行环境,如图7中“7”所示;并向JobTracker提交Reduce任务结果,如图7中“8”所示。
在图7所示的执行流程中,用户可以对中间数据进行加密中间数据加密使用对称加密算法,加密算法密钥是由系统临时生成的会话秘钥以保证安全性。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。

Claims (10)

1.一种基于MapReduce机制的任务调度方法,其步骤包括:
1)对以MapReduce技术构建的云计算环境中的计算节点基于安全标签进行区域划分,包括安全域、调度域和冲突域;
2)将MapReduce作业分为若干Map子任务以及若干Reduce子任务,将Map子任务调度至所述安全域的计算节点上,为每个Map子任务建立副本并将所述副本调度至所述调度域的计算节点上;
3)对所述Map子任务和所述Map子任务的副本的执行环境和部分中间结果进行哈希校验;所述Reduce子任务分别利用Map子任务阶段生成的执行环境校验值和中间结果校验值,校验自身的执行环境和输入数据。
2.如权利要求1所述的方法,其特征在于,用户利用所述安全标签自主进行所述区域划分。
3.如权利要求1所述的方法,其特征在于,将对于用户可能存在较大的安全风险的计算节点划分至所述冲突域。
4.如权利要求1所述的方法,其特征在于,用户通过所述安全标签指定所述调度域的级别,并对不同级别的调度域进行不同强度的校验。
5.如权利要求1所述的方法,其特征在于,所述执行环境是可能影响子任务结果的进程环境,包括程序运行的代码以及MapReduce机制分布式缓存。
6.如权利要求1所述的方法,其特征在于:安全域中的子任务计算部分输入数据,并输出这部分输入数据的部分结果的哈希校验值,进行部分校验;调度域中的子任务计算全部输入数据,并输出全部结果的哈希校验值。
7.如权利要求6所述的方法,其特征在于:进行所述部分校验时,整个MapReduce作业的保证完整性的概率是1-(1-α)^n,其中α为部分校验系数,n为子作业的数量。
8.如权利要求1所述的方法,其特征在于,用户对跨域传输的中间结果进行加密处理。
9.一种基于MapReduce机制的任务调度系统,其特征在于,包括:
标签管理模块,负责对以MapReduce技术构建的云计算环境中的计算节点建立安全标签;
域划分判定模块,连接所述标签管理模块,负责根据所述安全标签对计算节点进行区域划分,所述区域包括安全域、调度域和冲突域;
冗余调度模块,连接所述域划分判定模块,负责根据区域划分的信息为计算节点分配适当的执行作业,并使用哈希值校验调度到不同区域的作业的执行环境和中间结果;
哈希值校验模块,设于计算节点上,进行哈希校验并把哈希值传递给所述冗余调度模块。
10.如权利要求9所述的系统,其特征在于,还包括设于租户端的标签管理接口和安全策略设置接口。
CN201210228031.3A 2012-07-02 2012-07-02 一种基于MapReduce机制的任务调度方法和系统 Expired - Fee Related CN102769615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210228031.3A CN102769615B (zh) 2012-07-02 2012-07-02 一种基于MapReduce机制的任务调度方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210228031.3A CN102769615B (zh) 2012-07-02 2012-07-02 一种基于MapReduce机制的任务调度方法和系统

Publications (2)

Publication Number Publication Date
CN102769615A true CN102769615A (zh) 2012-11-07
CN102769615B CN102769615B (zh) 2014-11-26

Family

ID=47096865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210228031.3A Expired - Fee Related CN102769615B (zh) 2012-07-02 2012-07-02 一种基于MapReduce机制的任务调度方法和系统

Country Status (1)

Country Link
CN (1) CN102769615B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023805A (zh) * 2012-11-22 2013-04-03 北京航空航天大学 一种MapReduce系统
CN103544064A (zh) * 2013-10-28 2014-01-29 华为数字技术(苏州)有限公司 云计算方法、云管理平台和客户端
CN104079637A (zh) * 2014-06-20 2014-10-01 中国石油天然气集团公司 一种资源调度方法及系统
CN104346380A (zh) * 2013-07-31 2015-02-11 华为技术有限公司 基于MapReduce模型的数据排序方法和系统
CN104915352A (zh) * 2014-03-12 2015-09-16 阿里巴巴集团控股有限公司 一种验证MapReduce环境下处理数据正确性的方法和装置
CN105912892A (zh) * 2016-04-08 2016-08-31 浪潮电子信息产业股份有限公司 一种基于云计算的进程保护方法及其架构
CN106101074A (zh) * 2016-05-31 2016-11-09 北京大学 一种面向大数据平台的基于用户分级的安全调度方法
CN106406990A (zh) * 2016-08-26 2017-02-15 李逸博 一种带安全约束的成批作业‑资源匹配方法及系统
CN106778351A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 数据脱敏方法及装置
CN106909837A (zh) * 2017-02-17 2017-06-30 西安电子科技大学 云环境下MapReduce结果正确性保障机制
CN107153565A (zh) * 2016-03-03 2017-09-12 华为技术有限公司 配置资源的方法及其网络设备
CN108076034A (zh) * 2016-11-11 2018-05-25 北京嘀嘀无限科技发展有限公司 加解密数据的方法、装置及系统
CN105653928B (zh) * 2016-02-03 2018-11-13 北京大学 一种面向大数据平台的拒绝服务检测方法
CN109992372A (zh) * 2017-12-29 2019-07-09 中国移动通信集团陕西有限公司 一种基于映射归约的数据处理方法及装置
CN110347514A (zh) * 2017-01-20 2019-10-18 腾讯科技(深圳)有限公司 事件处理方法和装置
CN111049900A (zh) * 2019-12-11 2020-04-21 中移物联网有限公司 一种物联网流计算调度方法、装置和电子设备
CN111343219A (zh) * 2018-12-18 2020-06-26 同方威视技术股份有限公司 计算服务云平台
CN111723394A (zh) * 2020-04-22 2020-09-29 北京大学 一种动态加载代码库的隐私保护分布式计算方法及系统
CN113312630A (zh) * 2021-05-31 2021-08-27 支付宝(杭州)信息技术有限公司 实现可信调度的方法及装置
US11989647B2 (en) * 2019-02-08 2024-05-21 Adobe Inc. Self-learning scheduler for application orchestration on shared compute cluster

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102307185A (zh) * 2011-06-27 2012-01-04 北京大学 适用于存储云内的数据隔离方法
US20120159627A1 (en) * 2009-12-31 2012-06-21 International Business Machines Corporation Suspicious node detection and recovery in mapreduce computing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120159627A1 (en) * 2009-12-31 2012-06-21 International Business Machines Corporation Suspicious node detection and recovery in mapreduce computing
CN102307185A (zh) * 2011-06-27 2012-01-04 北京大学 适用于存储云内的数据隔离方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIE PAN,ET AL.: "Executing Multiple Group-by Query in a MapReduce Approach", 《ICCSNA 2010》, 29 June 2010 (2010-06-29), pages 38 - 41 *
李成华,等: "MapReduce:新型的分布式并行计算编程模型", 《计算机工程与科学》, vol. 33, no. 3, 4 July 2011 (2011-07-04), pages 129 - 135 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023805A (zh) * 2012-11-22 2013-04-03 北京航空航天大学 一种MapReduce系统
CN104346380B (zh) * 2013-07-31 2018-03-09 华为技术有限公司 基于MapReduce模型的数据排序方法和系统
CN104346380A (zh) * 2013-07-31 2015-02-11 华为技术有限公司 基于MapReduce模型的数据排序方法和系统
CN103544064A (zh) * 2013-10-28 2014-01-29 华为数字技术(苏州)有限公司 云计算方法、云管理平台和客户端
CN103544064B (zh) * 2013-10-28 2018-03-13 华为数字技术(苏州)有限公司 云计算方法、云管理平台和客户端
CN104915352A (zh) * 2014-03-12 2015-09-16 阿里巴巴集团控股有限公司 一种验证MapReduce环境下处理数据正确性的方法和装置
CN104915352B (zh) * 2014-03-12 2018-10-02 阿里巴巴集团控股有限公司 一种验证MapReduce环境下处理数据正确性的方法和装置
CN104079637A (zh) * 2014-06-20 2014-10-01 中国石油天然气集团公司 一种资源调度方法及系统
CN104079637B (zh) * 2014-06-20 2018-10-16 中国石油天然气集团公司 一种资源调度方法及系统
CN105653928B (zh) * 2016-02-03 2018-11-13 北京大学 一种面向大数据平台的拒绝服务检测方法
CN107153565B (zh) * 2016-03-03 2020-06-16 华为技术有限公司 配置资源的方法及其网络设备
CN107153565A (zh) * 2016-03-03 2017-09-12 华为技术有限公司 配置资源的方法及其网络设备
US10616133B2 (en) 2016-03-03 2020-04-07 Huawei Technologies Co., Ltd. Resource configuration method and network device thereof
CN105912892A (zh) * 2016-04-08 2016-08-31 浪潮电子信息产业股份有限公司 一种基于云计算的进程保护方法及其架构
CN105912892B (zh) * 2016-04-08 2018-09-04 浪潮电子信息产业股份有限公司 一种基于云计算的进程保护系统及其方法
CN106101074A (zh) * 2016-05-31 2016-11-09 北京大学 一种面向大数据平台的基于用户分级的安全调度方法
CN106101074B (zh) * 2016-05-31 2019-05-21 北京大学 一种面向大数据平台的基于用户分级的安全调度方法
CN106406990A (zh) * 2016-08-26 2017-02-15 李逸博 一种带安全约束的成批作业‑资源匹配方法及系统
CN108076034A (zh) * 2016-11-11 2018-05-25 北京嘀嘀无限科技发展有限公司 加解密数据的方法、装置及系统
CN106778351A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 数据脱敏方法及装置
CN110362406A (zh) * 2017-01-20 2019-10-22 腾讯科技(深圳)有限公司 事件处理方法和装置
CN110347514A (zh) * 2017-01-20 2019-10-18 腾讯科技(深圳)有限公司 事件处理方法和装置
CN106909837A (zh) * 2017-02-17 2017-06-30 西安电子科技大学 云环境下MapReduce结果正确性保障机制
CN109992372A (zh) * 2017-12-29 2019-07-09 中国移动通信集团陕西有限公司 一种基于映射归约的数据处理方法及装置
CN111343219A (zh) * 2018-12-18 2020-06-26 同方威视技术股份有限公司 计算服务云平台
CN111343219B (zh) * 2018-12-18 2022-08-02 同方威视技术股份有限公司 计算服务云平台
US11989647B2 (en) * 2019-02-08 2024-05-21 Adobe Inc. Self-learning scheduler for application orchestration on shared compute cluster
CN111049900A (zh) * 2019-12-11 2020-04-21 中移物联网有限公司 一种物联网流计算调度方法、装置和电子设备
CN111049900B (zh) * 2019-12-11 2022-07-01 中移物联网有限公司 一种物联网流计算调度方法、装置和电子设备
CN111723394A (zh) * 2020-04-22 2020-09-29 北京大学 一种动态加载代码库的隐私保护分布式计算方法及系统
CN111723394B (zh) * 2020-04-22 2022-10-11 北京大学 一种动态加载代码库的隐私保护分布式计算方法及系统
CN113312630A (zh) * 2021-05-31 2021-08-27 支付宝(杭州)信息技术有限公司 实现可信调度的方法及装置
CN113312630B (zh) * 2021-05-31 2022-07-01 支付宝(杭州)信息技术有限公司 实现可信调度的方法及装置

Also Published As

Publication number Publication date
CN102769615B (zh) 2014-11-26

Similar Documents

Publication Publication Date Title
CN102769615B (zh) 一种基于MapReduce机制的任务调度方法和系统
US11257073B2 (en) Systems, methods, and apparatuses for implementing machine learning models for smart contracts using distributed ledger technologies in a cloud based computing environment
Uddin et al. A survey on the adoption of blockchain in iot: Challenges and solutions
Dhieb et al. A secure ai-driven architecture for automated insurance systems: Fraud detection and risk measurement
US10701054B2 (en) Systems, methods, and apparatuses for implementing super community and community sidechains with consent management for distributed ledger technologies in a cloud based computing environment
US20190236559A1 (en) Systems, methods, and apparatuses for implementing smart flow contracts using distributed ledger technologies in a cloud based computing environment
US20190238316A1 (en) Systems, methods, and apparatuses for implementing intelligent consensus, smart consensus, and weighted consensus models for distributed ledger technologies in a cloud based computing environment
US20190236606A1 (en) Systems, methods, and apparatuses for implementing a virtual chain model for distributed ledger technologies in a cloud based computing environment
US20210241241A1 (en) Systems, methods, and apparatuses for conducting transactions between bots using distributed ledger technology in a cloud based computing environment
US20210049306A1 (en) System and method for consensus management
CN111770198B (zh) 一种信息共享方法、装置及设备
KR20220044306A (ko) 부분-정렬된 블록체인
CN111818186B (zh) 一种信息共享方法和系统
CN114219490A (zh) 交易行为数据的更新方法、装置、设备及存储介质
Zhang et al. OBBC: A blockchain-based data sharing scheme for open banking
Huang et al. Blocksense: Towards trustworthy mobile crowdsensing via proof-of-data blockchain
Swarnkar et al. Security, privacy, trust management and performance optimization of blockchain technology
Malhotra et al. Blockchain based audit trailing of XAI decisions: Storing on IPFS and Ethereum Blockchain
Peng et al. A privacy-preserving mobile crowdsensing scheme based on blockchain and trusted execution environment
CN113129017B (zh) 一种信息共享方法、装置及设备
Yadav et al. Big data hadoop: Security and privacy
La Salle et al. Joint modeling of hyperledger fabric and sybil attack: petri net approach
Gattoju et al. An efficient approach for bigdata security based on Hadoop system using cryptographic techniques
Javaid et al. Blockchain based secure group data collaboration in cloud with differentially private synthetic data and trusted execution environment
Bendahmane et al. Result verification mechanism for MapReduce computation integrity in cloud computing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141126

Termination date: 20190702

CF01 Termination of patent right due to non-payment of annual fee