CN109240817B - 一种用于分布式系统的双目标快速优化任务调度方法 - Google Patents

一种用于分布式系统的双目标快速优化任务调度方法 Download PDF

Info

Publication number
CN109240817B
CN109240817B CN201811018403.3A CN201811018403A CN109240817B CN 109240817 B CN109240817 B CN 109240817B CN 201811018403 A CN201811018403 A CN 201811018403A CN 109240817 B CN109240817 B CN 109240817B
Authority
CN
China
Prior art keywords
reliability
task
target
time
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811018403.3A
Other languages
English (en)
Other versions
CN109240817A (zh
Inventor
朱江
王礼赞
刘昊霖
许海霞
田淑娟
裴廷睿
邓清勇
李哲涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CERNET Corp
Original Assignee
Xiangtan University
CERNET Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University, CERNET Corp filed Critical Xiangtan University
Priority to CN201811018403.3A priority Critical patent/CN109240817B/zh
Publication of CN109240817A publication Critical patent/CN109240817A/zh
Application granted granted Critical
Publication of CN109240817B publication Critical patent/CN109240817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提出一种用于分布式系统的双目标快速优化任务调度方法。本发明步骤:首先,计算应用中各任务在各处理器上执行的可靠性,并对该可靠性按大小排序;然后,将各任务在其可靠性最大的可用处理器上进行复制,直至各任务的实时可靠性满足可靠性目标;第三,将各任务的实时可靠性按大小排序并作乘积,直至乘积小于可靠性目标,得到满足可靠性目标所需的副本数下限(n个);第四,根据应用的可靠性与可靠性目标的大小关系,将实时可靠性最小的n个任务分别在其可靠性最大的可用处理器上复制一次;第五,重复步骤三和步骤四直至应用的可靠性满足可靠性目标为止;最后,确定应用的可靠性,冗余数,运行时间。本发明具有高效率、低冗余的优点。

Description

一种用于分布式系统的双目标快速优化任务调度方法
技术领域
本发明涉及分布式系统领域,尤其涉及该领域中双目标快速优化任务调度方法。
背景技术
分布式系统是一种为了提高并行处理速度而提出的体系架构。分布式系统通过通信网络将不同地点的,或具有不同功能的,或拥有不同数据的多个处理器连接起来,在系统的统一管理控制下,协调地完成大规模信息处理任务。处理器种类和数量的不断增加为分布式系统带来了更强大的功能和更显著的性能。正因如此,分布式系统在工业领域被广泛应用。
可靠性是衡量分布式系统性能的一个重要指标,它反映了成功执行任务调度的概率。受高温、辐射、电磁干扰、振动及其他因素的影响,随机硬件故障的发生往往无法避免。因此,系统中执行的任何应用都不可能保证100%的可靠。在实际运行中,只要应用的实际可靠性能够满足既定的可靠性目标,就认为该应用的执行是可靠的,否则认为该应用的执行存在风险。为了使应用的实际可靠性满足可靠性目标,通常采用基于复制的容错机制来提升可靠性。尽管通过基于复制的容错机制提升应用的可靠性行之有效,但分布式系统中的硬件和资源有限,无节制的复制会导致硬件和资源的严重浪费和消耗殆尽。以分布式的汽车系统为例,每个电子控制单元的价格为25美元至110美元,如果电子控制单元的数量不被限制,硬件成本将大幅增长,且不必要的复制将不可避免地导致更多的信息传输,从而造成更大的资源开销。因此,对于分布式系统而言,找到满足可靠性目标前提下的理想冗余值至关重要。
目前最新的HRRM方法和ERRM方法能够在满足可靠性目标的前提下减少冗余。但是,通过HRRM方法进行双目标优化的冗余值仍然较大,而通过ERRM方法进行双目标优化的运行时间较长。
本发明针对它们的不足进行改进,并提出了一种既能够满足可靠性目标又能够最小化冗余值的双目标快速优化解决方案,它能够在满足可靠性目标的前提下获得理想的冗余值。
发明内容
针对现有技术的不足,本发明提出一种用于分布式系统的双目标快速优化任务调度方法,该方法能在保证可靠性目标的前提下以最高效率获取理想冗余值。
本发明通过以下方案实现:
步骤一、计算每一个任务在不同处理器上的可靠性,并按照大小排序,得到每一个任务复制时选择处理器的先后顺序;
步骤二、将每一个任务在其可靠性最大的可用处理器上进行复制,直至每一个任务的实时可靠性满足可靠性目标;
步骤三、将每一个任务的实时可靠性按大小排序并作乘积,直至乘积小于可靠性目标,得到满足可靠性目标所需要复制的副本数下限|need|个任务;
步骤四、根据应用可靠性与可靠性目标的大小关系,将满足可靠性目标所需要复制的副本数下限|need|个任务分别在其可靠性最大的可用处理器上进行一次复制;
步骤五、重复以上步骤三和步骤四直至应用可靠性满足可靠性目标为止;
步骤六、确定应用的可靠性、冗余数、运行时间。
本发明具有以下优点:
1、本发明所获取的应用可靠性能够满足既定的可靠性目标,保证了系统的安全运行;
2、本发明所获取的应用冗余数低,避免了不必要备份所带来的硬件与资源浪费;
3、本发明所需的运行时间短,提升了系统运行的效率,实用性强。
附图说明
图1是本发明的实施流程图;
具体实施方式
实施例1
系统中有3个处理器uk(k=1,2,3),应用中有10个任务ni(i=1,2,…10),其中3个处理器的故障率分别为λ1=0.0010,λ2=0.0015,λ3=0.0018,可靠性目标为0.94,任务在不同处理器上的执行时间为:
Figure GDA0003274708710000021
如,w1,2=16表示任务n1在处理器u2上的执行时间为16。
结合图1,本发明的具体实现步骤如下:
步骤一、计算每一个任务在不同处理器上的可靠性,并按照大小排序,得到每一个任务复制时选择处理器的先后顺序:
1)计算各任务在各处理器上的可靠性:
Figure GDA0003274708710000031
2)任务的可靠性表示其经过复制后,成功完成执行的概率大小,即用绝对可靠的概率减去故障发生的概率,其计算公式如下:
Figure GDA0003274708710000032
式中,numi表示任务ni的复制次数,即冗余数,集合
Figure GDA0003274708710000033
表示任务ni的所有冗余,
Figure GDA0003274708710000034
表示任务ni的第x个冗余
Figure GDA0003274708710000035
所分配到的处理器;
3)结合已知条件参数及可靠性公式(1),计算出10个任务分别在3个处理器上的可靠性,生成10x3的二维数组存放任务在各处理器上可靠性的对应关系:
Figure GDA0003274708710000036
如,二维数组第一行中的0.98609754、0.97628571、0.98393051分别表示任务n1分别在处理器u1,u2,u3上执行的可靠性;
4)将每一个任务在不同处理器上的可靠性由大到小进行排序,即对二维数组中每一行的可靠性值由大到小进行排序,存入二维数组中取代之前的内容,如下所示:
Figure GDA0003274708710000041
得到排序后的二维数组,此二维数组中每一行存放可靠性值的顺序为每一个任务复制时选择处理器的实际顺序,在复制过程中,同一个处理器只能被同一个任务选择复制一次,未被该任务选择复制的处理器称为该任务的可用处理器。
步骤二、将每一个任务在其可靠性最大的可用处理器上进行复制,直至每一个任务的实时可靠性满足可靠性目标:
提升每个任务的可靠性R(ni),直至其满足可靠性目标Rreq(G),其计算公式如下:
Figure GDA0003274708710000042
对于应用中的每一个任务,当numi=1时,通过公式(3)得到:
Figure GDA0003274708710000043
即应用中的每一个任务在numi=1时均能够满足可靠性目标Rreq(G)。
步骤三、将每一个任务的实时可靠性按大小排序并作乘积,直至乘积小于可靠性目标,得到满足可靠性目标仍需要复制的副本数下限|need|个任务:
1)将所有任务按实时可靠性由大到小进行排序,得到R(nseq(i)):
Figure GDA0003274708710000044
即R(nseq(i))由大到小的顺序为:0.99501248,0.99302444,0.98955493,0.98906028,0.98807171,0.98807171,0.98708414,0.98708414,0.98609754,0.98216103;
2)将R(nseq(i))按由大到小的顺序作乘积,直至乘积小于可靠性目标Rreq(G),得到满足可靠性目标仍需要复制的副本数下限|need|个任务:
Figure GDA0003274708710000051
Figure GDA0003274708710000052
Figure GDA0003274708710000053
式中,n表示在不增加冗余的情况下,该应用中最多只有n个任务的乘积可以满足可靠性目标Rreq(G),即至少有need=numt-n个任务仍需要至少1次复制,numt表示任务数,可靠性目标被设置为0.94,由公式(5)和上表可知,n=6且need=numt-n=4,即有4个任务需要进行一次复制。
步骤四、根据应用可靠性与可靠性目标的大小关系,将满足可靠性目标所需要复制的副本数下限|need|个任务分别在其可靠性最大的可用处理器上进行一次复制:
1)将当前的应用可靠性与可靠性目标进行比较,若need=0,则当前的应用可靠性能够满足可靠性目标,计算结束,否则继续进行之后的步骤;
2)将need个满足可靠性目标所需要复制的副本数下限的任务分别在其可靠性最大的可用处理器上进行一次复制,得到新的实时可靠性R(ni):
Figure GDA0003274708710000054
由步骤三可知need=numt-n=4,将满足可靠性目标所需要复制的副本数下限的4个任务分别在其可靠性最大的可用处理器上进行一次复制,4个任务分别为n4,n6,n1,n7
步骤五、重复以上两步直至应用可靠性满足可靠性目标为止:
将任务n4,n6,n1,n7进行一次复制后的各任务实时可靠性及应用可靠性如下:
Figure GDA0003274708710000061
由上表可知将任务n4,n6,n1,n7进行一次复制后,应用可靠性R(G)=0.94307235,满足可靠性目标。
步骤六、确定应用的可靠性、冗余数和运行时间:
1)由步骤五可知,该应用的可靠性为R(G)=0.94307235;
2)由步骤四、步骤五可知,该应用的冗余值为
Figure GDA0003274708710000062
3)应用的运行时间为RT=FT-ST,其中ST表示调度开始时间,FT表示调度结束时间。

Claims (2)

1.一种用于分布式系统的双目标快速优化任务调度方法,所述方法至少包含以下几个步骤:
步骤一、计算每一个任务在不同处理器上的可靠性,并按照大小排序,得到每一个任务复制时选择处理器的先后顺序;
步骤二、将每一个任务在其可靠性最大的可用处理器上进行复制,直至每一个任务的实时可靠性满足可靠性目标;
步骤三、将每一个任务的实时可靠性按大小排序并作乘积,直至乘积小于可靠性目标,得到满足可靠性目标所需要复制的副本数下限|need|个任务;
步骤四、根据应用可靠性与可靠性目标的大小关系,将满足可靠性目标所需要复制的副本数下限|need|个任务分别在其可靠性最大的可用处理器上进行一次复制,至少包括以下几个步骤:
1)将所有任务按实时可靠性由大到小进行排序,得到R(nseq(i)):
Figure FDA0003274708700000011
2)将R(nseq(i))按由大到小的顺序作乘积,直至乘积小于可靠性目标Rreq(G),得到满足可靠性目标所需要复制的副本数下限:
Figure FDA0003274708700000012
Figure FDA0003274708700000013
式中,n表示在不增加冗余的情况下,该应用中最多只有n个任务的可靠性乘积可以满足可靠性目标Rreq(G),即至少有need=numt-n个任务仍需要至少1次复制,numt表示任务数;
3)若need=0,则当前的应用可靠性能够满足可靠性目标,进行步骤6),否则进行步骤4);
4)将need个当前满足可靠性目标所需要复制的副本数下限的任务分别在其可靠性最大的可用处理器上进行一次复制,得到新的实时可靠性R(ni):
Figure FDA0003274708700000021
5)反复对任务的实时可靠性进行排序、作乘积并对相应任务进行复制,直至need=0;
6)确定应用的可靠性,计算如下:
Figure FDA0003274708700000022
式中,N表示满足可靠性目标所需的副本数下限的任务数;
7)确定应用的冗余数,计算如下:
Figure FDA0003274708700000023
8)计算应用的运行时间,计算如下:
RT=FT-ST; (8)
其中,RT表示应用中任务进行调度的运行时间,ST表示调度开始时间,FT表示调度结束时间;
步骤五、重复步骤三和步骤四直至应用可靠性满足可靠性目标为止;
步骤六、确定应用的可靠性、冗余数、运行时间。
2.根据权利要求1所述的用于分布式系统的双目标快速优化任务调度方法,其特征在于将每一个任务在其可靠性最大的可用处理器上进行复制,直至每一个任务的实时可靠性满足可靠性目标的过程,至少还包括以下步骤:
1)计算各任务在各处理器上的可靠性:
Figure FDA0003274708700000024
式中,ni表示应用中的第i个任务,uk表示处理器集中的第k个处理器,wi,k表示任务ni在处理器uk上的执行时间,λk表示第k个处理器的故障率,计算每一个任务在不同处理器上的可靠性,并保存在二维数组r[x][y],其中x表示任务数,y表示处理器数;
2)将每一个任务在不同处理器上的可靠性由大到小进行排序,即对二维数组中的每一行数据由大到小进行排序,排序后二维数组r[x][y]的第i行数据表示任务ni在各处理器上经由大到小排序后的可靠性值;
3)设置可靠性目标Rreq(G);
4)提升每个任务的实时可靠性R(ni),直至其满足可靠性目标Rreq(G),其计算公式如下:
Figure FDA0003274708700000031
式中,numi表示任务ni的实时副本数。
CN201811018403.3A 2018-08-31 2018-08-31 一种用于分布式系统的双目标快速优化任务调度方法 Active CN109240817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811018403.3A CN109240817B (zh) 2018-08-31 2018-08-31 一种用于分布式系统的双目标快速优化任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811018403.3A CN109240817B (zh) 2018-08-31 2018-08-31 一种用于分布式系统的双目标快速优化任务调度方法

Publications (2)

Publication Number Publication Date
CN109240817A CN109240817A (zh) 2019-01-18
CN109240817B true CN109240817B (zh) 2021-11-02

Family

ID=65059986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811018403.3A Active CN109240817B (zh) 2018-08-31 2018-08-31 一种用于分布式系统的双目标快速优化任务调度方法

Country Status (1)

Country Link
CN (1) CN109240817B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038070A (zh) * 2017-04-10 2017-08-11 郑州轻工业学院 一种云环境下执行可靠性感知的并行任务调度方法
CN108108241A (zh) * 2018-01-11 2018-06-01 湘潭大学 一种用于分布式系统的满足可靠性需求的任务调度方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8732518B2 (en) * 2011-04-13 2014-05-20 Netapp, Inc. Reliability based data allocation and recovery in a storage system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038070A (zh) * 2017-04-10 2017-08-11 郑州轻工业学院 一种云环境下执行可靠性感知的并行任务调度方法
CN108108241A (zh) * 2018-01-11 2018-06-01 湘潭大学 一种用于分布式系统的满足可靠性需求的任务调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Minimizing Redundancy to Satisfy Reliability Requirement for a Parallel Application on Heterogeneous Service-Oriented Systems";Guoqi Xie等;《IEEE Transactions on Services Computing》;20170207;第13卷(第5期);第871-886页 *
"基于可信度的DSP软件冗余容错表决方法研究";梁贺斌;《中国优秀硕士学位论文全文数据库 工程科技II辑》;20160815;第C031-196页 *

Also Published As

Publication number Publication date
CN109240817A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
US20170359853A1 (en) Data complementing method and apparatus
US20080052712A1 (en) Method and system for selecting optimal clusters for batch job submissions
CN108881415B (zh) 分布式实时大数据分析系统
CN110190991A (zh) 一种多应用场景下的分布式流处理系统的容错方法
CN111858721B (zh) 一种基于优先级编码的分布式计算方法
CN104794239A (zh) 一种云平台数据处理方法
CN106354566A (zh) 一种命令处理的方法以及服务器
CN109240817B (zh) 一种用于分布式系统的双目标快速优化任务调度方法
CN110175155B (zh) 一种文件去重处理的方法和系统
CN108462737B (zh) 基于批处理和流水线的分层数据一致性协议优化方法
CN108108241B (zh) 一种用于分布式系统的满足可靠性需求的任务调度方法
CN108170763A (zh) 一种低延迟的分布式计算共识算法
Amoon A job checkpointing system for computational grids
CN113505021A (zh) 基于多主节点主从分布式架构的容错方法及系统
Ibrahim et al. Improving mapreduce performance with progress and feedback based speculative execution
US20190373053A1 (en) Ranked session affinity to improve load balancing efficiency for stateful requests
US8201023B2 (en) Test optimization
CN114816804A (zh) 煤矿井下边缘计算系统的存储可靠性评估方法以及装置
CN106599184A (zh) 一种Hadoop系统优化方法
CN109254841B (zh) 一种用于分布式系统的双目标最优化任务调度方法
CN106899392B (zh) EtherCAT消息传输过程中对瞬时故障进行容错的方法
CN112527473A (zh) 一种分布式事务处理方法及装置
Stavrinides et al. Resource allocation and scheduling of linear workflow applications with ageing priorities and transient failures
Yang et al. Research on a tunable consistency strategy of the distributed database
Srikala et al. Fault tolerant scheduling of workflows in grid computing environment (ftsw)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20191015

Address after: 411105 Hunan Province, Xiangtan City Yuhu fools Tong Street Xiangtan University

Applicant after: Xiangtan University

Applicant after: Cernet Co., Ltd.

Address before: 411105 Hunan Province, Xiangtan City Yuhu fools Tong Street Xiangtan University

Applicant before: Xiangtan University

GR01 Patent grant
GR01 Patent grant