CN111209091B - 混合云环境下含隐私数据的Spark任务的调度方法 - Google Patents

混合云环境下含隐私数据的Spark任务的调度方法 Download PDF

Info

Publication number
CN111209091B
CN111209091B CN202010323266.5A CN202010323266A CN111209091B CN 111209091 B CN111209091 B CN 111209091B CN 202010323266 A CN202010323266 A CN 202010323266A CN 111209091 B CN111209091 B CN 111209091B
Authority
CN
China
Prior art keywords
task
stage
private
data
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010323266.5A
Other languages
English (en)
Other versions
CN111209091A (zh
Inventor
周稳
倪家彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Nansoft Technology Co ltd
Original Assignee
Nanjing Nansoft Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Nansoft Technology Co ltd filed Critical Nanjing Nansoft Technology Co ltd
Priority to CN202010323266.5A priority Critical patent/CN111209091B/zh
Publication of CN111209091A publication Critical patent/CN111209091A/zh
Application granted granted Critical
Publication of CN111209091B publication Critical patent/CN111209091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0645Rental transactions; Leasing transactions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/62Establishing a time schedule for servicing the requests

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种混合云环境下含隐私数据的Spark任务的调度方法,首先,确定Stage的子截止期;对任务打隐私标签。其次,采用Stage排序策略,确定待调度任务序列。再次,采用数据聚集策略,对隐私数据进行聚集操作。最后,依次调度敏感任务集合和非敏感任务集合。调度敏感任务时,选择合适的私有云资源调度方法,确定调度方案;调度非敏感任务集合时,根据私有云资源的可用区间和当前任务的预计执行时间,优先选择在私有云中调度;如果私有云资源不足以满足任务子截止期,则采用公有云租赁策略,从公有云中租赁满足子截止期的资源。本发明最小化租赁成本和保证数据的隐私性。

Description

混合云环境下含隐私数据的Spark任务的调度方法
技术领域
本发明涉及一种混合云环境下含隐私数据的Spark任务的调度方法,属于云计算资源调度技术领域。
背景技术
混合云是私有云与公有云资源的组合,在私有云资源不足以满足当前所处理任务的约束时,可通过租赁公有云资源的方式扩充计算资源,更符合企业资源使用的实际情况。然而,混合云环境面临着安全和隐私问题。对于含隐私数据的任务,由于公有云环境并不提供可靠性保证,因此并不提倡将隐私数据直接放到公有云环境执行。因此,如何在混合云环境下实现隐私数据保护已成为工业界关注的重要问题。
目前在云计算环境下解决含隐私数据的任务处理主要有以下几种方式:1)任务只在私有云环境下处理。由于私有资源计算能力的局限性,该种方式往往不能保证任务执行时间,可能会违反应用的截止期约束。2)数据加密。在将数据交由云计算资源处理前,对数据进行加密操作。3)数据分割。将数据按隐私数据和非隐私数据分为两部分,隐私数据和相关操作仅在私有云上执行。这种方式可在充分利用私有云资源的前提下,通过租赁公有云资源以执行非隐私数据的相关操作,从而满足用户的资源请求和QoS 约束。
对于大数据处理平台方面,面对日益增长的数据量和快速处理的要求,Spark处理平台具有良好的处理性能。Spark基于MapReduce发展而来,提供了一个分布式计算平台,能够快速、高效、容错和可伸缩地处理大型、复杂和海量的数据。Spark基于内存进行计算,其通过将所有需要处理的数据划分成RDD(弹性式分布数据集),完成用户提交的应用程序(Application)。
在使用Spark处理平台进行大数据计算时,由于Spark本身调度方法的局限性,没有考虑含隐私数据的任务的调度方法。
发明内容
发明目的:针对现有技术中存在的问题与不足,区别于Spark中默认调度方法,本发明提供一种混合云环境下含隐私数据的Spark任务的调度方法,本发明考虑用户提交数据的隐私性,在调度过程中通过考虑任务的隐私性,增加隐私数据聚集的操作,实现降低应用完工时间和降低资源租赁成本。有效调度混合云资源,最小化租赁成本,保证用户投资和用户数据的隐私。
技术方案:一种混合云环境下含隐私数据的Spark任务的调度方法,首先,确定Stage(任务)的子截止期;对任务打隐私标签;其次,采用Stage排序策略,确定待调度任务序列;再次,采用数据聚集策略,对隐私数据进行聚集操作;最后,依次调度敏感任务集合和非敏感任务集合;调度敏感任务时,选择私有云资源调度方法;调度非敏感任务集合时,根据私有云资源的可用区间和当前任务的预计执行时间,优先选择在私有云中调度;如果私有云资源不足以满足任务子截止期,则采用公有云租赁策略,从公有云中租赁满足子截止期的资源。该方法包括以下步骤:
步骤1,确定任务的子截止期。根据用户提交的截止期约束和云环境中虚拟机资源的执行速度以及Job、Stage间的拓扑顺序,确定每个Stage的子截止期。初始化私有云中资源的可用区间。初始化任务的最早开始时间,最晚开始时间,最早结束时间,最晚结束时间参数。
步骤2,判断未调度Job队列是否为空;如果为空,则结束方法;否则转步骤3;
步骤3,通过对用户提交的应用进行排序选择,得到待调度Task集合。
步骤4,调度待调度Task集合中的Task;
步骤5,等待待调度Task序列中任务执行完;转步骤2。
在以上步骤中,所属私有云中服务资源,待处理Job列表,待处理Stage列表,待处理Task列表和私有云中服务资源的可用区间表,具体为:
私有云中服务资源S={S1, S2,…, Sm}是一个包含m个处理速度不同的虚拟机资源;
待处理Job列表用WJ={J1,J2,…, Ji}表示,其中Ji,表示没有前驱Job或前驱Job已处理完成的Job,WJ表示待处理Job的集合;
待处理Stage列表用WS={S1,1, S1,2,…, Si,j}表示,其Si,j中,表示没有前驱Stage或前驱Stage已处理完成的Stage,WS表示待处理Stage的集合。
待处理Task列表用WT={T1,1,1,…, Ti,j,k}表示,其中Ti,j,k表示当前可以被调度的Task,WT表示待处理Task的集合。
私有云中服务资源的可用区间表表示某私有云虚拟机可执行任务的时间段。
所述步骤1中,根据任务大小和资源情况,初始化任务参数:EST,EFT等。可设使用 最快资源,计算上述参数。在确定各Stage的子截止期时,首先根据任务在Spark应用中的位 置,确定其距离起始节点的距离,即为该任务所在的层次
Figure 417241DEST_PATH_IMAGE001
。根据
Figure DEST_PATH_IMAGE002
,计算每个任务的子截止期。其中EFT(t j )表示第j个Stage的 最晚结束时间,D为给定的Spark应用的截止期,D(t j )为计算得到的第j个Stage的子截止 期;步骤1中还包括初始化私有云资源的可用区间;根据初始数据隐私性,对任务打隐私标 签。
所述步骤4具体包括:
步骤41,计算隐私数据聚集所需要的时间成本,判断其是否小于预估的该层的任务调度成本。若小于,转步骤42;否则转步骤43;
步骤42,进行数据聚集操作;并对该层任务隐私性进行重新标签;
步骤43,将任务按敏感任务和非敏感任务拆成两个队列∏和∏
步骤44,判断∏队列是否为空;如果为不为空,转步骤45;否则,转步骤47;
步骤45,取队首元素在私有云中分配资源;
步骤46,更新私有云中服务的可用区间;将该任务从队列移除;转步骤44;
步骤47,判断非敏感队列是否为空,如果为空,若未调度Stage不为空,添加就绪Stage到待调度Stage列表中,重复调度任务;若未调度Stage为空,再判断未处理Job列表,添加就绪Job;否则,转步骤48;
步骤48,在私有云中调度队首任务;
步骤49,判断该任务是否<=子截止期;若小于等于,在私有云上调度该任务;转步骤411;否则,转步骤410;
步骤410,在公有云中调度该任务,转步骤411。
步骤411,更新该任务所在Stage的实际完工时间AFT;若其所在Stage中所有Task完成调度,再更新后继Stage的最早开始时间EST;将已调度任务从所在队列删除。
有益效果:与现有技术相比,本发明提供的混合云环境下含隐私数据的Spark任务的调度方法,通过实现合理的任务调度方法,优化了租赁成本,并保证了数据隐私性。
另外,本发明通过对Spark任务的聚集和对私有云资源的检测,判断其是否能够满足资源调度的要求,如果不能,则租赁公有云中服务,权衡租赁成本和任务完工时间,租用最少的服务,使得租赁成本最小化,增加了灵活性和资源利用率。
附图说明
图1是本发明实施例中实现混合云环境下含隐私数据的Spark任务的调度方法的结构图;
图2是本发明实施例中Spark任务调度的流程图;
图3(a)和图3(b)是本发明实施例中Spark任务调度的具体步骤流程图,其中图3(b)是图3(a)的延续。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,实现混合云环境下含隐私数据的Spark任务的调度方法的结构,包括私有云,公有云和待调度的应用。本实施例中设私有云和公有云中的服务包含三种处理速度不同的虚拟机资源:高性能虚拟机,中性能虚拟机和低性能虚拟机。私有云中的资源用S={S1, S2,…, Sm}表示;对于私有云中的服务资源Sm,都有其可用区间表(服务资源在某个时间段内可以处理任务就是服务资源的可用区间列表)。
混合云环境下含隐私数据的Spark任务的调度方法,首先,指定子截止期划分策略,确定Stage的子截止期;采取隐私性标签策略,对任务打隐私标签。其次,采用Stage排序策略,确定一组合适的待调度任务序列。再次,采用数据聚集策略,对隐私数据进行聚集操作。数据聚集操作即根据Stage中各任务隐私数据的分布情况,移动同一个Stage中的不同分片中的隐私数据,目的是为了将隐私数据聚集到少数几个分片中。
最后,依次调度敏感任务集合和非敏感任务集合。调度敏感任务时,选择合适的私有云资源调度方法,确定调度方案;调度非敏感任务集合时,根据私有云资源的可用区间和当前任务的预计执行时间,优先选择在私有云中调度;如果私有云资源不足以满足任务子截止期,则采用公有云租赁策略,从公有云中租赁满足子截止期的资源。综合考虑租赁成本,根据截止期和数据隐私程度,设计有效的调度方案。
如图2、3(a)和3(b)所示,混合云环境下含隐私数据的Spark任务的调度方法,具体步骤如下:
步骤s201,初始化任务的参数:最早开始时间EST,最晚开始时间EFT,最早结束时间EST,最晚结束时间EFT;计算Stage的子截止期;
步骤s202,根据提交数据的隐私性,对任务打隐私标签;
步骤s203,初始化私有云资源的可用区间;
步骤s204,对用户提交的应用进行调度;
步骤s301,将用户提交的应用中的所有Job加入未处理Job列表;
步骤s302,判断未处理Job列表中是否有Job,如果没有Job,方法结束;如果有,转步骤s303;
步骤s303,将未处理Job列表中前驱Job已完成或没有前驱Job的加入待处理Job列表,并将其从未处理Job列表中删除;
步骤s304,判断待处理Job列表是否为空,如果为空,则转步骤s302;如果不为空,转步骤s305;
步骤s305,将待处理Job列表中包含的所有Stage加入未调度Stage列表;
步骤s306,判断未调度Stage列表是否为空,如果为空,则转步骤s302;否则,转步骤s307;
步骤s307,将未调度列表中,前驱Stage已完成或没有前驱Stage的Stage加入待调度Stage列表,并将其从未调度Stage列表删除;
步骤s308,判断待调度Stage列表是否为空,如果为空,转步骤s306;否则转步骤s309;
步骤s309,将待调度Stage列表中的所有Task加入待调度Task列表;
步骤s310,根据待调度Task列表中任务中的数据隐私情况,计算如果进行数据聚集操作,进行隐私数据聚集的时间成本。对于同属一个Stage的Task,假设将其中分布在多个Task中的隐私数据聚集到少数几个分片中,数据聚集的成本即数据移动时花费的时间:Cost=d/bw,其中d表示需要传输的数据量,bw表示数据传输带宽;
步骤s311,将进行隐私数据聚集时的任务调度时间与不进行隐私数据聚集时的任务调度时间进行比较,进行隐私数据聚集时的任务调度时间包括对隐私数据聚集时间和聚集后进行调度的时间。如果进行隐私数据聚集时的任务调度时间小于不进行隐私数据聚集时的任务调度时间,转步骤s312;如果行隐私数据聚集时的任务调度时间大于等于不进行隐私数据聚集时的任务调度时间,转步骤s314;此步骤是在仅使用私有云资源且在不改变已调度任务的前提下,计算模拟进行隐私数据聚集的任务调度时间和计算模拟不进行隐私数据聚集时的任务调度时间。
步骤s312,进行隐私数据聚集;
步骤s313,对任务进行再标签,用于区分隐私数据和非隐私数据;
步骤s314,按照敏感型和非敏感型,将任务分成敏感任务队列∏和非敏感任务队列∏
步骤s315,判断∏队列是否为空,如果为空,转步骤s318;如果不为空,转步骤s316;
步骤s316,取∏队首元素,在私有云环境下,分配资源;
步骤s317,更新私有云资源的可用区间列表;更新所在Stage的实际完工时间AFT;若所在Stage中所有Task完成调度,再更新后继Stage的最早开始时间EST参数;将该任务从∏中移除;
步骤s318,判断∏队是否为空,如果为空,转步骤s306;如果不为空,转步骤s319;
步骤s319,取∏队首元素,在私有云环境下根据资源可用时间区间和任务的参数,分配资源;
步骤s320,判断此次分配是否满足该任务的子截止期约束;如果小于等于子截止期,在私有云上调度该任务,转步骤s322;如果大于,转步骤s321;
步骤s321,租赁公有云资源,分配该任务;
步骤s322,更新所在Stage的实际完工时间AFT;若其所在Stage中所有Task完成调度,再更新后继Stage的最早开始时间EST;将已调度任务从队列∏删除;转s318。

Claims (2)

1.一种混合云环境下含隐私数据的Spark任务的调度方法,其特征在于,包括:
首先,确定Stage的子截止期;对任务打隐私标签;其次,采用Stage排序策略,确定待调 度任务序列;再次,采用数据聚集策略,对隐私数据进行聚集操作;最后,依次调度敏感任务 集合和非敏感任务集合;调度敏感任务时,选择私有云资源调度方法;调度非敏感任务集合 时,根据私有云资源的可用区间和当前任务的预计执行时间,优先选择在私有云中调度;如 果私有云资源不足以满足任务子截止期,则采用公有云租赁策略,从公有云中租赁满足子 截止期的资源;在确定各Stage的子截止期时,首先根据Stage在Spark应用中的位置,确定 其距离起始节点的距离,即为该Stage所在的层次
Figure DEST_PATH_IMAGE001
根据公式
Figure DEST_PATH_IMAGE003
,计算每个Stage的子截止期;其中EFT(t j )表 示第j个Stage的最晚结束时间,D为给定的Spark应用的截止期,D(t j )为计算得到的第j个 Stage的子截止期;Task的子截止期等于其所在Stage的子截止期;根据初始数据隐私性,对 任务打隐私标签;
初始化私有云资源的可用区间之后,采用Stage排序策略,确定待调度任务序列;包括如下步骤:
步骤s300,对用户提交的应用进行调度;
步骤s301,将用户提交的应用中的所有Job加入未处理Job列表;
步骤s302,判断未处理Job列表中是否有Job,如果没有Job,方法结束;如果有,转步骤s303;
步骤s303,将未处理Job列表中前驱Job已完成或没有前驱Job的加入待处理Job列表,并将其从未处理Job列表中删除;
步骤s304,判断待处理Job列表是否为空,如果为空,则转步骤s302;如果不为空,转步骤s305;
步骤s305,将待处理Job列表中包含的所有Stage加入未调度Stage列表;
步骤s306,判断未调度Stage列表是否为空,如果为空,则转步骤s302;否则,转步骤s307;
步骤s307,将未调度列表中,前驱Stage已完成或没有前驱Stage的Stage加入待调度Stage列表,并将其从未调度Stage列表删除;
步骤s308,判断待调度Stage列表是否为空,如果为空,转步骤s306;否则转步骤s309;
步骤s309,将待调度Stage列表中的所有Task加入待调度Task列表;
采用数据聚集策略,对隐私数据进行聚集操作,依次调度敏感任务集合和非敏感任务集合:
步骤s310,根据待调度Task列表中任务中的数据隐私情况,计算如果进行数据聚集操作,进行隐私数据聚集的时间;对于同属一个Stage的Task,假设将其中分布在多个Task中的隐私数据聚集到少数几个分片中,数据聚集的时间Cost即数据移动时花费的时间:Cost=d/bw,其中d表示需要传输的数据量,bw表示数据传输带宽;
步骤s311,将进行隐私数据聚集时的任务调度时间与不进行隐私数据聚集时的任务调度时间进行比较,进行隐私数据聚集时的任务调度时间包括对隐私数据聚集时间和聚集后进行调度的时间,如果进行隐私数据聚集时的任务调度时间小于不进行隐私数据聚集时的任务调度时间,转步骤s312;如果进行隐私数据聚集时的任务调度时间大于等于不进行隐私数据聚集时的任务调度时间,转步骤s314;此步骤是在仅使用私有云资源且不改变已调度任务的前提下,计算模拟进行隐私数据聚集的任务调度时间和计算模拟不进行隐私数据聚集时的任务调度时间;
步骤s312,进行隐私数据聚集;
步骤s313,对任务进行再标签,用于区分隐私数据和非隐私数据;
步骤s314,按照敏感型和非敏感型,将任务分成敏感任务队列∏和非敏感任务队列∏
步骤s315,判断敏感任务队列∏是否为空,如果为空,转步骤s318;如果不为空,转步骤s316;
步骤s316,取敏感任务队列∏的首元素,在私有云环境下,分配资源;
步骤s317,更新私有云资源的可用区间列表;更新所在Stage的实际完工时间AFT;若所在Stage中所有Task完成调度,再更新后继Stage的最早开始时间EST参数;将该任务从敏感任务队列∏中移除;
步骤s318,判断非敏感任务队列∏是否为空,如果为空,转步骤s306;如果不为空,转步骤s319;
步骤s319,取非敏感任务队列∏的首元素,在私有云环境下根据资源可用时间区间和任务的参数,分配资源;
步骤s320,判断此次分配是否满足该任务的子截止期约束;如果小于子截止期,在私有云上调度该任务,转步骤s322;如果大于,转步骤s321;
步骤s321,租赁公有云资源,分配该任务;
步骤s322,更新所在Stage的实际完工时间AFT;若其所在Stage中所有Task完成调度,再更新后继Stage的最早开始时间EST参数;将已调度任务从非敏感任务队列∏删除;转s318。
2.如权利要求1所述的混合云环境下含隐私数据的Spark任务的调度方法,其特征在于,数据聚集操作是根据Stage中各任务隐私数据的分布情况,移动同一个Stage中的不同分片中的隐私数据,将隐私数据聚集到少数几个分片中。
CN202010323266.5A 2020-04-22 2020-04-22 混合云环境下含隐私数据的Spark任务的调度方法 Active CN111209091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010323266.5A CN111209091B (zh) 2020-04-22 2020-04-22 混合云环境下含隐私数据的Spark任务的调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010323266.5A CN111209091B (zh) 2020-04-22 2020-04-22 混合云环境下含隐私数据的Spark任务的调度方法

Publications (2)

Publication Number Publication Date
CN111209091A CN111209091A (zh) 2020-05-29
CN111209091B true CN111209091B (zh) 2020-07-21

Family

ID=70784349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010323266.5A Active CN111209091B (zh) 2020-04-22 2020-04-22 混合云环境下含隐私数据的Spark任务的调度方法

Country Status (1)

Country Link
CN (1) CN111209091B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522647B (zh) * 2020-07-01 2020-10-27 金陵科技学院 一种最小化租赁成本的公有云服务租赁方法
CN111859447A (zh) * 2020-07-03 2020-10-30 南京信息职业技术学院 一种带隐私保护的Spark工作流调度方法及系统
CN114189391B (zh) * 2022-02-14 2022-04-29 浙江易天云网信息科技有限公司 一种适用于混合云的私隐性资料控管方法
CN114648258B (zh) * 2022-05-23 2022-08-12 江苏金融租赁股份有限公司 基于融资租赁业务系统的任务调度方法及系统
CN115237592B (zh) * 2022-07-12 2023-07-11 苏州大学 隐私感知的混合云服务流程调度方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274053A (zh) * 2017-05-03 2017-10-20 浙江工商大学 基于混合云调度的智慧物流数据挖掘方法
US10467039B2 (en) * 2017-08-07 2019-11-05 Open Data Group Inc. Deployment and management platform for model execution engine containers
CN108989098B (zh) * 2018-08-24 2021-06-01 福建师范大学 一种混合云环境面向时延优化的科学工作流数据布局方法
CN110008013B (zh) * 2019-03-28 2023-08-04 东南大学 一种最小化作业完工时间的Spark任务分配方法

Also Published As

Publication number Publication date
CN111209091A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN111209091B (zh) 混合云环境下含隐私数据的Spark任务的调度方法
CN103797462B (zh) 一种创建虚拟机的方法和装置
KR100509794B1 (ko) 데이터베이스 관리시스템을 이용하는 작업들의 실시간 처리를 위한 스케줄링 방법
US8332862B2 (en) Scheduling ready tasks by generating network flow graph using information receive from root task having affinities between ready task and computers for execution
CN103098014B (zh) 存储系统
US10552213B2 (en) Thread pool and task queuing method and system
US20080229320A1 (en) Method, an apparatus and a system for controlling of parallel execution of services
CN110806933B (zh) 一种批量任务处理方法、装置、设备和存储介质
CN109857535B (zh) 面向Spark JDBC的任务优先级控制的实现方法及装置
CN108123980A (zh) 一种资源调度方法及系统
US20080221857A1 (en) Method and apparatus for simulating the workload of a compute farm
CN106775493B (zh) 一种存储控制器及io请求处理方法
KR101770191B1 (ko) 자원 할당 방법 및 그 장치
US20200167191A1 (en) Laxity-aware, dynamic priority variation at a processor
CN105022668A (zh) 一种作业调度方法及系统
CN110659108B (zh) 一种云系统虚拟机任务迁移方法及装置、服务器
CN106789421B (zh) 协同设计的方法和装置
CN113626173B (zh) 调度方法、装置及存储介质
WO2024119930A1 (zh) 调度方法、装置、计算机设备和存储介质
Cui et al. A scheduling algorithm for multi-tenants instance-intensive workflows
CN114035930B (zh) 用于任务调度的方法及装置、电子设备、可读存储介质
JP6773229B2 (ja) ストレージコントローラおよびioリクエスト処理方法
CN115858169A (zh) 一种作业资源分配方法、装置、电子设备及存储介质
CN115102851A (zh) 一种面向hpc与ai融合计算的融合平台及其资源管理方法
Sweeney et al. Early experience using amazon batch for scientific workflows

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Wen Jianzhang

Inventor after: Zhou Wen

Inventor after: Ni Jiatong

Inventor before: Zhou Wen

Inventor before: Ni Jiatong

CB03 Change of inventor or designer information