CN111209091A - 混合云环境下含隐私数据的Spark任务的调度方法 - Google Patents

混合云环境下含隐私数据的Spark任务的调度方法 Download PDF

Info

Publication number
CN111209091A
CN111209091A CN202010323266.5A CN202010323266A CN111209091A CN 111209091 A CN111209091 A CN 111209091A CN 202010323266 A CN202010323266 A CN 202010323266A CN 111209091 A CN111209091 A CN 111209091A
Authority
CN
China
Prior art keywords
task
stage
private
data
private data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010323266.5A
Other languages
English (en)
Other versions
CN111209091B (zh
Inventor
周稳
倪家彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Nansoft Technology Co Ltd
Original Assignee
Nanjing Nansoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Nansoft Technology Co Ltd filed Critical Nanjing Nansoft Technology Co Ltd
Priority to CN202010323266.5A priority Critical patent/CN111209091B/zh
Publication of CN111209091A publication Critical patent/CN111209091A/zh
Application granted granted Critical
Publication of CN111209091B publication Critical patent/CN111209091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0645Rental transactions; Leasing transactions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/62Establishing a time schedule for servicing the requests

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种混合云环境下含隐私数据的Spark任务的调度方法,首先,确定Stage的子截止期;对任务打隐私标签。其次,采用Stage排序策略,确定待调度任务序列。再次,采用数据聚集策略,对隐私数据进行聚集操作。最后,依次调度敏感任务集合和非敏感任务集合。调度敏感任务时,选择合适的私有云资源调度方法,确定调度方案;调度非敏感任务集合时,根据私有云资源的可用区间和当前任务的预计执行时间,优先选择在私有云中调度;如果私有云资源不足以满足任务子截止期,则采用公有云租赁策略,从公有云中租赁满足子截止期的资源。本发明最小化租赁成本和保证数据的隐私性。

Description

混合云环境下含隐私数据的Spark任务的调度方法
技术领域
本发明涉及一种混合云环境下含隐私数据的Spark任务的调度方法,属于云计算资源调度技术领域。
背景技术
混合云是私有云与公有云资源的组合,在私有云资源不足以满足当前所处理任务的约束时,可通过租赁公有云资源的方式扩充计算资源,更符合企业资源使用的实际情况。然而,混合云环境面临着安全和隐私问题。对于含隐私数据的任务,由于公有云环境并不提供可靠性保证,因此并不提倡将隐私数据直接放到公有云环境执行。因此,如何在混合云环境下实现隐私数据保护已成为工业界关注的重要问题。
目前在云计算环境下解决含隐私数据的任务处理主要有以下几种方式:1)任务只在私有云环境下处理。由于私有资源计算能力的局限性,该种方式往往不能保证任务执行时间,可能会违反应用的截止期约束。2)数据加密。在将数据交由云计算资源处理前,对数据进行加密操作。3)数据分割。将数据按隐私数据和非隐私数据分为两部分,隐私数据和相关操作仅在私有云上执行。这种方式可在充分利用私有云资源的前提下,通过租赁公有云资源以执行非隐私数据的相关操作,从而满足用户的资源请求和QoS 约束。
对于大数据处理平台方面,面对日益增长的数据量和快速处理的要求,Spark处理平台具有良好的处理性能。Spark基于MapReduce发展而来,提供了一个分布式计算平台,能够快速、高效、容错和可伸缩地处理大型、复杂和海量的数据。Spark基于内存进行计算,其通过将所有需要处理的数据划分成RDD(弹性式分布数据集),完成用户提交的应用程序(Application)。
在使用Spark处理平台进行大数据计算时,由于Spark本身调度方法的局限性,没有考虑含隐私数据的任务的调度方法。
发明内容
发明目的:针对现有技术中存在的问题与不足,区别于Spark中默认调度方法,本发明提供一种混合云环境下含隐私数据的Spark任务的调度方法,本发明考虑用户提交数据的隐私性,在调度过程中通过考虑任务的隐私性,增加隐私数据聚集的操作,实现降低应用完工时间和降低资源租赁成本。有效调度混合云资源,最小化租赁成本,保证用户投资和用户数据的隐私。
技术方案:一种混合云环境下含隐私数据的Spark任务的调度方法,首先,确定Stage(任务)的子截止期;对任务打隐私标签;其次,采用Stage排序策略,确定待调度任务序列;再次,采用数据聚集策略,对隐私数据进行聚集操作;最后,依次调度敏感任务集合和非敏感任务集合;调度敏感任务时,选择私有云资源调度方法;调度非敏感任务集合时,根据私有云资源的可用区间和当前任务的预计执行时间,优先选择在私有云中调度;如果私有云资源不足以满足任务子截止期,则采用公有云租赁策略,从公有云中租赁满足子截止期的资源。该方法包括以下步骤:
步骤1,确定任务的子截止期。根据用户提交的截止期约束和云环境中虚拟机资源的执行速度以及Job、Stage间的拓扑顺序,确定每个Stage的子截止期。初始化私有云中资源的可用区间。初始化任务的最早开始时间,最晚开始时间,最早结束时间,最晚结束时间参数。
步骤2,判断未调度Job队列是否为空;如果为空,则结束方法;否则转步骤3;
步骤3,通过对用户提交的应用进行排序选择,得到待调度Task集合。
步骤4,调度待调度Task集合中的Task;
步骤5,等待待调度Task序列中任务执行完;转步骤2。
在以上步骤中,所属私有云中服务资源,待处理Job列表,待处理Stage列表,待处理Task列表和私有云中服务资源的可用区间表,具体为:
私有云中服务资源
Figure 478756DEST_PATH_IMAGE001
是一个包含m个处理速度不同的虚拟机资 源;
待处理Job列表用
Figure 723793DEST_PATH_IMAGE002
表示,其中
Figure 972371DEST_PATH_IMAGE003
,表示没有前驱Job或前驱Job 已处理完成的Job,
Figure 226635DEST_PATH_IMAGE004
表示待处理Job的集合;
待处理Stage列表用
Figure 775428DEST_PATH_IMAGE005
表示,其
Figure 66732DEST_PATH_IMAGE006
中,表示没有前 驱Stage或前驱Stage已处理完成的Stage,
Figure 416987DEST_PATH_IMAGE007
表示待处理Stage的集合。
待处理Task列表用
Figure 350308DEST_PATH_IMAGE008
表示,其中
Figure 753607DEST_PATH_IMAGE009
表示当前可以 被调度的Task,
Figure 340447DEST_PATH_IMAGE010
表示待处理Task的集合。
私有云中服务资源的可用区间表表示某私有云虚拟机可执行任务的时间段。
所述步骤1中,根据任务大小和资源情况,初始化任务参数:EST,EFT等。可设使用 最快资源,计算上述参数。在确定各Stage的子截止期时,首先根据任务在Spark应用中的位 置,确定其距离起始节点的距离,即为该任务所在的层次
Figure 829197DEST_PATH_IMAGE011
。根据
Figure 159684DEST_PATH_IMAGE012
,计算每个任务的子截止期。其中
Figure 417490DEST_PATH_IMAGE013
表示 第j个Stage的最晚结束时间,D为给定的Spark应用的截止期,
Figure 316176DEST_PATH_IMAGE014
为计算得到的第j个 Stage的子截止期;步骤1中还包括初始化私有云资源的可用区间;根据初始数据隐私性,对 任务打隐私标签。
所述步骤4具体包括:
步骤41,计算隐私数据聚集所需要的时间成本,判断其是否小于预估的该层的任务调度成本。若小于,转步骤42;否则转步骤43;
步骤42,进行数据聚集操作;并对该层任务隐私性进行重新标签;
步骤43,将任务按敏感任务和非敏感任务拆成两个队列
Figure 151277DEST_PATH_IMAGE015
Figure 160821DEST_PATH_IMAGE016
步骤44,判断
Figure 899232DEST_PATH_IMAGE015
队列是否为空;如果为不为空,转步骤45;否则,转步骤47;
步骤45,取队首元素在私有云中分配资源;
步骤46,更新私有云中服务的可用区间;将该任务从队列移除;转步骤44;
步骤47,判断非敏感队列是否为空,如果为空,若未调度Stage不为空,添加就绪Stage到待调度Stage列表中,重复调度任务;若未调度Stage为空,再判断未处理Job列表,添加就绪Job;否则,转步骤48;
步骤48,在私有云中调度队首任务;
步骤49,判断该任务是否<=子截止期;若小于等于,在私有云上调度该任务;转步骤411;否则,转步骤410;
步骤410,在公有云中调度该任务,转步骤411。
步骤411,更新该任务所在Stage的实际完工时间AFT;若其所在Stage中所有Task完成调度,再更新后继Stage的最早开始时间EST;将已调度任务从所在队列删除。
有益效果:与现有技术相比,本发明提供的混合云环境下含隐私数据的Spark任务的调度方法,通过实现合理的任务调度方法,优化了租赁成本,并保证了数据隐私性。
另外,本发明通过对Spark任务的聚集和对私有云资源的检测,判断其是否能够满足资源调度的要求,如果不能,则租赁公有云中服务,权衡租赁成本和任务完工时间,租用最少的服务,使得租赁成本最小化,增加了灵活性和资源利用率。
附图说明
图1是本发明实施例中实现混合云环境下含隐私数据的Spark任务的调度方法的结构图;
图2是本发明实施例中Spark任务调度的流程图;
图3是本发明实施例中Spark任务调度的具体步骤流程图,由于流出图较大,将其分成(a)和(b)两部分,其中(b)是(a)的延续。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,实现混合云环境下含隐私数据的Spark任务的调度方法的结构,包括 私有云,公有云和待调度的应用。本实施例中设私有云和公有云中的服务包含三种处理速 度不同的虚拟机资源:高性能虚拟机,中性能虚拟机和低性能虚拟机。私有云中的资源用
Figure 968819DEST_PATH_IMAGE017
表示;对于私有云中的服务资源
Figure 166582DEST_PATH_IMAGE018
,都有其可用区间表(服务资源 在某个时间段内可以处理任务就是服务资源的可用区间列表)。
混合云环境下含隐私数据的Spark任务的调度方法,首先,指定子截止期划分策略,确定Stage的子截止期;采取隐私性标签策略,对任务打隐私标签。其次,采用Stage排序策略,确定一组合适的待调度任务序列。再次,采用数据聚集策略,对隐私数据进行聚集操作。数据聚集操作即根据Stage中各任务隐私数据的分布情况,移动同一个Stage中的不同分片中的隐私数据,目的是为了将隐私数据聚集到少数几个分片中。
最后,依次调度敏感任务集合和非敏感任务集合。调度敏感任务时,选择合适的私有云资源调度方法,确定调度方案;调度非敏感任务集合时,根据私有云资源的可用区间和当前任务的预计执行时间,优先选择在私有云中调度;如果私有云资源不足以满足任务子截止期,则采用公有云租赁策略,从公有云中租赁满足子截止期的资源。综合考虑租赁成本,根据截止期和数据隐私程度,设计有效的调度方案。
如图2-3所示,混合云环境下含隐私数据的Spark任务的调度方法,具体步骤如下:
步骤s201,初始化任务的参数:最早开始时间EST,最晚开始时间EFT,最早结束时间EST,最晚结束时间EFT;计算Stage的子截止期;
步骤s202,根据提交数据的隐私性,对任务打隐私标签;
步骤s203,初始化私有云资源的可用区间;
步骤s204,对用户提交的应用进行调度;
步骤s301,将用户提交的应用中的所有Job加入未处理Job列表;
步骤s302,判断未处理Job列表中是否有Job,如果没有Job,方法结束;如果有,转步骤s303;
步骤s303,将未处理Job列表中前驱Job已完成或没有前驱Job的加入待处理Job列表,并将其从未处理Job列表中删除;
步骤s304,判断待处理Job列表是否为空,如果为空,则转步骤s302;如果不为空,转步骤s305;
步骤s305,将待处理Job列表中包含的所有Stage加入未调度Stage列表;
步骤s306,判断未调度Stage列表是否为空,如果为空,则转步骤s302;否则,转步骤s307;
步骤s307,将未调度列表中,前驱Stage已完成或没有前驱Stage的Stage加入待调度Stage列表,并将其从未调度Stage列表删除;
步骤s308,判断待调度Stage列表是否为空,如果为空,转步骤s306;否则转步骤s309;
步骤s309,将待调度Stage列表中的所有Task加入待调度Task列表;
步骤s310,根据待调度Task列表中任务中的数据隐私情况,计算如果进行数据聚集操 作,进行隐私数据聚集的时间成本。对于同属一个Stage的Task,假设将其中分布在多个 Task中的隐私数据聚集到少数几个分片中,数据聚集的成本即数据移动时花费的时间:
Figure 104451DEST_PATH_IMAGE019
,其中d表示需要传输的数据量,bw表示数据传输带宽;
步骤s311,将进行隐私数据聚集时的任务调度时间与不进行隐私数据聚集时的任务调度时间进行比较,进行隐私数据聚集时的任务调度时间包括对隐私数据聚集时间和聚集后进行调度的时间。如果进行隐私数据聚集时的任务调度时间小于不进行隐私数据聚集时的任务调度时间,转步骤s312;如果行隐私数据聚集时的任务调度时间大于等于不进行隐私数据聚集时的任务调度时间,转步骤s314;此步骤是在仅使用私有云资源且在不改变已调度任务的前提下,计算模拟进行隐私数据聚集的任务调度时间和计算模拟不进行隐私数据聚集时的任务调度时间。
步骤s312,进行隐私数据聚集;
步骤s313,对任务进行再标签,用于区分隐私数据和非隐私数据;
步骤s314,按照敏感型和非敏感型,将任务分成敏感任务队列
Figure 336850DEST_PATH_IMAGE020
和非敏感任务队列
Figure 577338DEST_PATH_IMAGE021
步骤s315,判断
Figure 387031DEST_PATH_IMAGE020
队列是否为空,如果为空,转步骤s318;如果不为空,转步骤s316;
步骤s316,取
Figure 3957DEST_PATH_IMAGE020
队首元素,在私有云环境下,分配资源;
步骤s317,更新私有云资源的可用区间列表;更新所在Stage的实际完工时间AFT;若所 在Stage中所有Task完成调度,再更新后继Stage的最早开始时间EST参数;将该任务从
Figure 825283DEST_PATH_IMAGE020
中 移除;
步骤s318,判断
Figure 626886DEST_PATH_IMAGE021
队是否为空,如果为空,转步骤s306;如果不为空,转步骤s319;
步骤s319,取
Figure 533662DEST_PATH_IMAGE021
队首元素,在私有云环境下根据资源可用时间区间和任务的参数,分 配资源;
步骤s320,判断此次分配是否满足该任务的子截止期约束;如果小于等于子截止期,在私有云上调度该任务,转步骤s322;如果大于,转步骤s321;
步骤s321,租赁公有云资源,分配该任务;
步骤s322,更新所在Stage的实际完工时间AFT;若其所在Stage中所有Task完成调度, 再更新后继Stage的最早开始时间EST;将已调度任务从队列
Figure 688699DEST_PATH_IMAGE021
删除;转s318。

Claims (4)

1.一种混合云环境下含隐私数据的Spark任务的调度方法,其特征在于,包括:
首先,确定Stage的子截止期;对任务打隐私标签;其次,采用Stage排序策略,确定待调 度任务序列;再次,采用数据聚集策略,对隐私数据进行聚集操作;最后,依次调度敏感任务 集合和非敏感任务集合;调度敏感任务时,选择私有云资源调度方法;调度非敏感任务集合 时,根据私有云资源的可用区间和当前任务的预计执行时间,优先选择在私有云中调度;如 果私有云资源不足以满足任务子截止期,则采用公有云租赁策略,从公有云中租赁满足子 截止期的资源;在确定各Stage的子截止期时,首先根据Stage在Spark应用中的位置,确定 其距离起始节点的距离,即为该Stage所在的层次
Figure 978903DEST_PATH_IMAGE001
;根据公式
Figure 491923DEST_PATH_IMAGE002
,计算每个Stage的子截止期;其中
Figure 562648DEST_PATH_IMAGE003
表 示第j个Stage的最晚结束时间,D为给定的Spark应用的截止期,
Figure 553737DEST_PATH_IMAGE004
为计算得到的第j个 Stage的子截止期;Task的子截止期等于其所在Stage的子截止期;根据初始数据隐私性,对 任务打隐私标签。
2.如权利要求1所述的混合云环境下含隐私数据的Spark任务的调度方法,其特征在于,数据聚集操作是根据Stage中各任务隐私数据的分布情况,移动同一个Stage中的不同分片中的隐私数据,将隐私数据聚集到少数几个分片中。
3.如权利要求1所述的混合云环境下含隐私数据的Spark任务的调度方法,其特征在于,初始化私有云资源的可用区间之后,采用Stage排序策略,确定待调度任务序列;包括如下步骤:
步骤s300,对用户提交的应用进行调度;
步骤s301,将用户提交的应用中的所有Job加入未处理Job列表;
步骤s302,判断未处理Job列表中是否有Job,如果没有Job,方法结束;如果有,转步骤s303;
步骤s303,将未处理Job列表中前驱Job已完成或没有前驱Job的加入待处理Job列表,并将其从未处理Job列表中删除;
步骤s304,判断待处理Job列表是否为空,如果为空,则转步骤s302;如果不为空,转步骤s305;
步骤s305,将待处理Job列表中包含的所有Stage加入未调度Stage列表;
步骤s306,判断未调度Stage列表是否为空,如果为空,则转步骤s302;否则,转步骤s307;
步骤s307,将未调度列表中,前驱Stage已完成或没有前驱Stage的Stage加入待调度Stage列表,并将其从未调度Stage列表删除;
步骤s308,判断待调度Stage列表是否为空,如果为空,转步骤s306;否则转步骤s309;
步骤s309,将待调度Stage列表中的所有Task加入待调度Task列表。
4.如权利要求1所述的混合云环境下含隐私数据的Spark任务的调度方法,其特征在于,采用数据聚集策略,对隐私数据进行聚集操作,依次调度敏感任务集合和非敏感任务集合:
步骤s310,根据待调度Task列表中任务中的数据隐私情况,计算如果进行数据聚集操 作,进行隐私数据聚集的时间成本;对于同属一个Stage的Task,假设将其中分布在多个 Task中的隐私数据聚集到少数几个分片中,数据聚集的成本即数据移动时花费的时间:
Figure 393517DEST_PATH_IMAGE005
,其中d表示需要传输的数据量,bw表示数据传输带宽;
步骤s311,将进行隐私数据聚集时的任务调度时间与不进行隐私数据聚集时的任务调度时间进行比较,进行隐私数据聚集时的任务调度时间包括对隐私数据聚集时间和聚集后进行调度的时间,如果进行隐私数据聚集时的任务调度时间小于不进行隐私数据聚集时的任务调度时间,转步骤s312;如果进行隐私数据聚集时的任务调度时间大于等于不进行隐私数据聚集时的任务调度时间,转步骤s314;此步骤是在仅使用私有云资源且不改变已调度任务的前提下,计算模拟进行隐私数据聚集的任务调度时间和计算模拟不进行隐私数据聚集时的任务调度时间;
步骤s312,进行隐私数据聚集;
步骤s313,对任务进行再标签,用于区分隐私数据和非隐私数据;
步骤s314,按照敏感型和非敏感型,将任务分成敏感任务队列
Figure 874177DEST_PATH_IMAGE006
和非敏感任务队列
Figure 104302DEST_PATH_IMAGE007
步骤s315,判断
Figure 961399DEST_PATH_IMAGE006
队列是否为空,如果为空,转步骤s318;如果不为空,转步骤s316;
步骤s316,取
Figure 91904DEST_PATH_IMAGE006
队首元素,在私有云环境下,分配资源;
步骤s317,更新私有云资源的可用区间列表;更新所在Stage的实际完工时间AFT;若所 在Stage中所有Task完成调度,再更新后继Stage的最早开始时间EST参数;将该任务从
Figure 743465DEST_PATH_IMAGE006
中移除;
步骤s318,判断
Figure 788781DEST_PATH_IMAGE008
队是否为空,如果为空,转步骤s306;如果不为空,转步骤s319;
步骤s319,取
Figure 856095DEST_PATH_IMAGE008
队首元素,在私有云环境下根据资源可用时间区间和任务的参数,分 配资源;
步骤s320,判断此次分配是否满足该任务的子截止期约束;如果小于子截止期,在私有云上调度该任务,转步骤s322;如果大于,转步骤s321;
步骤s321,租赁公有云资源,分配该任务;
步骤s322,更新所在Stage的实际完工时间AFT;若其所在Stage中所有Task完成调度, 再更新后继Stage的最早开始时间EST;将已调度任务从队列
Figure 404888DEST_PATH_IMAGE009
删除;转s318。
CN202010323266.5A 2020-04-22 2020-04-22 混合云环境下含隐私数据的Spark任务的调度方法 Active CN111209091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010323266.5A CN111209091B (zh) 2020-04-22 2020-04-22 混合云环境下含隐私数据的Spark任务的调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010323266.5A CN111209091B (zh) 2020-04-22 2020-04-22 混合云环境下含隐私数据的Spark任务的调度方法

Publications (2)

Publication Number Publication Date
CN111209091A true CN111209091A (zh) 2020-05-29
CN111209091B CN111209091B (zh) 2020-07-21

Family

ID=70784349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010323266.5A Active CN111209091B (zh) 2020-04-22 2020-04-22 混合云环境下含隐私数据的Spark任务的调度方法

Country Status (1)

Country Link
CN (1) CN111209091B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522647A (zh) * 2020-07-01 2020-08-11 金陵科技学院 一种最小化租赁成本的公有云服务租赁方法
CN111859447A (zh) * 2020-07-03 2020-10-30 南京信息职业技术学院 一种带隐私保护的Spark工作流调度方法及系统
CN114189391A (zh) * 2022-02-14 2022-03-15 浙江易天云网信息科技有限公司 一种适用于混合云的私隐性资料控管方法
CN114648258A (zh) * 2022-05-23 2022-06-21 江苏金融租赁股份有限公司 基于融资租赁业务系统的任务调度方法及系统
CN115237592A (zh) * 2022-07-12 2022-10-25 苏州大学 隐私感知的混合云服务流程调度方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274053A (zh) * 2017-05-03 2017-10-20 浙江工商大学 基于混合云调度的智慧物流数据挖掘方法
CN108989098A (zh) * 2018-08-24 2018-12-11 福建师范大学 一种混合云环境面向时延优化的科学工作流数据布局方法
CN110008013A (zh) * 2019-03-28 2019-07-12 东南大学 一种最小化作业完工时间的Spark任务分配方法
US10599460B2 (en) * 2017-08-07 2020-03-24 Modelop, Inc. Analytic model execution engine with instrumentation for granular performance analysis for metrics and diagnostics for troubleshooting

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274053A (zh) * 2017-05-03 2017-10-20 浙江工商大学 基于混合云调度的智慧物流数据挖掘方法
US10599460B2 (en) * 2017-08-07 2020-03-24 Modelop, Inc. Analytic model execution engine with instrumentation for granular performance analysis for metrics and diagnostics for troubleshooting
CN108989098A (zh) * 2018-08-24 2018-12-11 福建师范大学 一种混合云环境面向时延优化的科学工作流数据布局方法
CN110008013A (zh) * 2019-03-28 2019-07-12 东南大学 一种最小化作业完工时间的Spark任务分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHAGHAHYEGH SHARIF: "Privacy-Aware Scheduling SaaS in", 《JOURNAL OF LATEX CLASS FILES》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522647A (zh) * 2020-07-01 2020-08-11 金陵科技学院 一种最小化租赁成本的公有云服务租赁方法
CN111522647B (zh) * 2020-07-01 2020-10-27 金陵科技学院 一种最小化租赁成本的公有云服务租赁方法
CN111859447A (zh) * 2020-07-03 2020-10-30 南京信息职业技术学院 一种带隐私保护的Spark工作流调度方法及系统
CN114189391A (zh) * 2022-02-14 2022-03-15 浙江易天云网信息科技有限公司 一种适用于混合云的私隐性资料控管方法
CN114648258A (zh) * 2022-05-23 2022-06-21 江苏金融租赁股份有限公司 基于融资租赁业务系统的任务调度方法及系统
CN115237592A (zh) * 2022-07-12 2022-10-25 苏州大学 隐私感知的混合云服务流程调度方法

Also Published As

Publication number Publication date
CN111209091B (zh) 2020-07-21

Similar Documents

Publication Publication Date Title
CN111209091B (zh) 混合云环境下含隐私数据的Spark任务的调度方法
KR100509794B1 (ko) 데이터베이스 관리시스템을 이용하는 작업들의 실시간 처리를 위한 스케줄링 방법
CN108874538B (zh) 用于调度量子计算机的调度服务器、调度方法及应用方法
US8424007B1 (en) Prioritizing tasks from virtual machines
CN103797462B (zh) 一种创建虚拟机的方法和装置
US20080229320A1 (en) Method, an apparatus and a system for controlling of parallel execution of services
WO2016078178A1 (zh) 一种虚拟cpu调度方法
CN111381950A (zh) 一种面向边缘计算环境基于多副本的任务调度方法和系统
WO2019037626A1 (zh) 一种分布式系统资源分配方法、装置及系统
CN106775493B (zh) 一种存储控制器及io请求处理方法
CN103200128A (zh) 一种网络包处理的方法、装置和系统
CN106776395B (zh) 一种共享集群的任务调度方法及装置
CN111506413B (zh) 一种基于业务效率优化的智能任务调度方法及系统
US20200167191A1 (en) Laxity-aware, dynamic priority variation at a processor
CN105022668A (zh) 一种作业调度方法及系统
Li et al. Endpoint-flexible coflow scheduling across geo-distributed datacenters
KR20140097815A (ko) 자원 할당 방법 및 그 장치
CN110659108B (zh) 一种云系统虚拟机任务迁移方法及装置、服务器
CN114721818A (zh) 一种基于Kubernetes集群的GPU分时共享方法和系统
CN111930485B (zh) 一种基于性能表现的作业调度方法
WO2024119930A1 (zh) 调度方法、装置、计算机设备和存储介质
CN111506407B (zh) Pull模式与Push模式相结合的资源管理与作业调度方法、系统
CN107797870A (zh) 一种云计算数据资源调度方法
CN115102851B (zh) 一种面向hpc与ai融合计算的融合平台及其资源管理方法
JP6773229B2 (ja) ストレージコントローラおよびioリクエスト処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wen Jianzhang

Inventor after: Zhou Wen

Inventor after: Ni Jiatong

Inventor before: Zhou Wen

Inventor before: Ni Jiatong