CN109446641B - 一种云计算服务系统的多阶段可靠性建模分析方法 - Google Patents
一种云计算服务系统的多阶段可靠性建模分析方法 Download PDFInfo
- Publication number
- CN109446641B CN109446641B CN201811255155.4A CN201811255155A CN109446641B CN 109446641 B CN109446641 B CN 109446641B CN 201811255155 A CN201811255155 A CN 201811255155A CN 109446641 B CN109446641 B CN 109446641B
- Authority
- CN
- China
- Prior art keywords
- subtasks
- scheduling
- request
- service request
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种云计算服务系统的多阶段可靠性建模分析方法,包括以下步骤:请求阶段:用户的服务请求首先到达CMS,被划分为多个子任务,如果此时调度系统的任务队列有足够的空间,即请求未被阻塞的情况下,CMS接收用户请求;调度阶段:子任务排队等候调度系统的调度。本发明解决了现有的基于解析的建模技术难度大、现场实测费用昂贵、周期长和错误不可重现的问题,该云计算服务系统的多阶段可靠性建模分析方法,具备建模技术难度小、现场实测费用便宜、周期短和错误可重现的优点,采用解析建模的方法,以概率论为数学基础,从时间的维度,同时兼顾了云计算本身的容错技术,建立了云计算服务系统的可靠性模型,值得推广使用。
Description
技术领域
本发明涉及云计算技术领域,具体为一种云计算服务系统的多阶段可靠性建模分析方法。
背景技术
云计算是目前的新技术之一,它融合了网格计算、效用计算、互联网计算和SOA等,有效地整合并实现多层次虚拟化与抽象各种计算、存储、数据和应用等资源,以服务的形式按需提供给用户,将用户从复杂的底层硬件逻辑、网络协议、软件架构中解放出来,是服务模式的创新,但近几年亚马逊、谷歌、微软和Saleforce.com等主流供应商陆续发生服务中断、用户无法访问云服务、邮件服务延迟和数据丢失、数据备份丢失等事故,云计算的安全、可靠性受到多数用户的质疑,可靠性成为目前限制其大规模应用的关键因素之一,但目前未见对云计算服务的系统运行过程的任务可靠性模型,因此,作为云计算的基础性和共性技术,对云计算服务系统可靠性建模技术的研究具有重要意义,鉴于现有的基于解析的建模技术存在着难度大、现场实测费用昂贵、周期长和错误不可重现等问题,为此,我们提出了一种云计算服务系统的多阶段可靠性建模分析方法,以解决上述存在的问题。
发明内容
本发明的目的在于提供一种云计算服务系统的多阶段可靠性建模分析方法,具备建模技术难度小、现场实测费用便宜、周期短和错误可重现的优点,解决了现有的基于解析的建模技术难度大、现场实测费用昂贵、周期长和错误不可重现的问题。
为实现上述目的,本发明提供如下技术方案:一种云计算服务系统的多阶段可靠性建模分析方法,包括以下步骤:
步骤1:请求阶段:用户的服务请求首先到达CMS,被划分为多个子任务,如果此时调度系统的任务队列有足够的空间,即请求未被阻塞的情况下,CMS接收用户请求;
步骤2:调度阶段:子任务排队等候调度系统的调度,调度系统按照某种调度算法将子任务调度到各个计算节点;
步骤3:执行阶段:各个计算节点根据子任务的具体情况,按照一定的执行顺序或者链路通信交换约束处理子任务,最终完成用户的服务请求。
优选的,所述在整个服务过程中,可能存在很多故障导致服务任务无法完成,主要包括有队列溢出、请求超时、数据源丢失、计算资源不可用、软件故障、数据库不可达、硬件故障和网络故障等。
优选的,所述任务请求阶段的建模用户向CMS提交服务请求(分解为m个子任务),CMS中的调度系统(S个调度器)负责接受子任务,根据上文的假设可得该阶段为多服务的排队系统,从系统的角度来看,运行一段时间后必将到达一个稳定状态,即在任务队列中等待的子任务个数和在调度系统中正在被调度的子任务个数之和总是为k,被称为状态k,该稳定状态的稳态概率1≤k≤N,其中Pi -到达的服务请求i发现系统中有i(i=1,2,3…N)个任务的概率为一般情况下当服务请求的到达服从泊松分布,可通过求解以下方程组求得其中Pi,j一步转移概率,若当前云计算系统的调度系统队列有足够长的空间容纳该用户服务请求的子任务,则所有的子任务进入队列,否则所有的子任务将被阻塞,从而导致整个用户服务请求失败,因此用户请求被CMS阻塞的概率为由此可得一个被分解为m个子任务的用户服务请求被阻塞的概率为
优选的,所述m个子任务进入调度系统,若m≤S且有j(0≤j≤S-m)个子任务在等待队列中,则m个子任务能立刻被调度器处理,否则至少有一个必须等候,队列中有N(m)-=j(j=0,1,…,N-m)个子任务时,记大小为m的用户服务请求的等待时间为即从所有m个子任务进入任务等待队列开始,到最后一个子任务开始调度所花费的时间,当m≤S且S-m<j≤N-m,则最后一个子任务在开始调度前必须等待之前的j-(S-m)个子任务完成调度,因此服从阶数为j-S+m参数为μrS的Gamma分布,当m个子任务完全进入调度系统,调度系统正在调度m个子任务中的Y个子任务,其中Y是一个离散随机变量,其概率记为计算公式为令T(k)为第m个子任务开始进入调度系统到该用户服务请求的所有子任务都完成调度所需要的时间,令为用户服务请求在T(m)-=j(j=0,1,…,N-m)条件下进入调度系统到所有m个子任务都完成调度所需要的时间,即根据Gamma分布及概率特性可得其概率密度函数为其中为卷积运算符。
优选的,所述调度系统会按某种任务调度算法进行任务调度:子任务在节点上的处理分配方式可用子任务配置矩阵(W)来表示,对于W的元素Wik,若第i个子任务分配到第k个处理节点上,则Wik=1,否则Wik=0,令任务分配矩阵W的配置下子任务i的处理时间为即从计算节点j接受子任务i开始直至其完成子任务的时间,记τi,j为子任务i需要的处理时间,则有其中Wpi为子任务i的工作量,PSj为计算节点j的处理速度。
与现有技术相比,本发明的有益效果是:本发明解决了现有的基于解析的建模技术难度大、现场实测费用昂贵、周期长和错误不可重现的问题,该云计算服务系统的多阶段可靠性建模分析方法,具备建模技术难度小、现场实测费用便宜、周期短和错误可重现的优点,采用解析建模的方法,以概率论为数学基础,从时间的维度,同时兼顾了云计算本身的容错技术,建立了云计算服务系统的可靠性模型,值得推广使用。
具体实施方式
下面将通过实施例的方式对本发明作更详细的描述,这些实施例仅是举例说明性的而没有任何对本发明范围的限制。
本发明提供一种技术方案:一种云计算服务系统的多阶段可靠性建模分析方法,包括以下步骤:
步骤1:请求阶段:用户的服务请求首先到达CMS,被划分为多个子任务,如果此时调度系统的任务队列有足够的空间,即请求未被阻塞的情况下,CMS接收用户请求;
步骤2:调度阶段:子任务排队等候调度系统的调度,调度系统按照某种调度算法将子任务调度到各个计算节点;
步骤3:执行阶段:各个计算节点根据子任务的具体情况,按照一定的执行顺序或者链路通信交换约束处理子任务,最终完成用户的服务请求。
实施例一:
请求阶段:用户的服务请求首先到达CMS,被划分为多个子任务,如果此时调度系统的任务队列有足够的空间,即请求未被阻塞的情况下,CMS接收用户请求;调度阶段:子任务排队等候调度系统的调度,调度系统按照某种调度算法将子任务调度到各个计算节点;执行阶段:各个计算节点根据子任务的具体情况,按照一定的执行顺序或者链路通信交换约束处理子任务,最终完成用户的服务请求。
实施例二:
在实施例一中,再加上下述工序:
在整个服务过程中,可能存在很多故障导致服务任务无法完成,主要包括有队列溢出、请求超时、数据源丢失、计算资源不可用、软件故障、数据库不可达、硬件故障和网络故障等。
请求阶段:用户的服务请求首先到达CMS,被划分为多个子任务,如果此时调度系统的任务队列有足够的空间,即请求未被阻塞的情况下,CMS接收用户请求;调度阶段:子任务排队等候调度系统的调度,调度系统按照某种调度算法将子任务调度到各个计算节点;执行阶段:各个计算节点根据子任务的具体情况,按照一定的执行顺序或者链路通信交换约束处理子任务,最终完成用户的服务请求。
实施例三:
在实施例二中,再加上下述工序:
任务请求阶段的建模用户向CMS提交服务请求(分解为m个子任务),CMS中的调度系统(S个调度器)负责接受子任务,根据上文的假设可得该阶段为多服务的排队系统,从系统的角度来看,运行一段时间后必将到达一个稳定状态,即在任务队列中等待的子任务个数和在调度系统中正在被调度的子任务个数之和总是为k,被称为状态k,该稳定状态的稳态概率其中Pi -到达的服务请求i发现系统中有i(i=1,2,3…N)个任务的概率为一般情况下当服务请求的到达服从泊松分布,可通过求解以下方程组求得其中Pi,j一步转移概率,若当前云计算系统的调度系统队列有足够长的空间容纳该用户服务请求的子任务,则所有的子任务进入队列,否则所有的子任务将被阻塞,从而导致整个用户服务请求失败,因此用户请求被CMS阻塞的概率为由此可得一个被分解为m个子任务的用户服务请求被阻塞的概率为
请求阶段:用户的服务请求首先到达CMS,被划分为多个子任务,如果此时调度系统的任务队列有足够的空间,即请求未被阻塞的情况下,CMS接收用户请求;调度阶段:子任务排队等候调度系统的调度,调度系统按照某种调度算法将子任务调度到各个计算节点;执行阶段:各个计算节点根据子任务的具体情况,按照一定的执行顺序或者链路通信交换约束处理子任务,最终完成用户的服务请求。
实施例四:
在实施例三中,再加上下述工序:
m个子任务进入调度系统,若m≤S且有j(0≤j≤S-m)个子任务在等待队列中,则m个子任务能立刻被调度器处理,否则至少有一个必须等候,队列中有N(m)-=j(j=0,1,…,N-m)个子任务时,记大小为m的用户服务请求的等待时间为即从所有m个子任务进入任务等待队列开始,到最后一个子任务开始调度所花费的时间,当m≤S且S-m<j≤N-m,则最后一个子任务在开始调度前必须等待之前的j-(S-m)个子任务完成调度,因此服从阶数为j-S+m参数为μrS的Gamma分布,当m个子任务完全进入调度系统,调度系统正在调度m个子任务中的Y个子任务,其中Y是一个离散随机变量,其概率记为,计算公式为令T(k)为第m个子任务开始进入调度系统到该用户服务请求的所有子任务都完成调度所需要的时间,令为用户服务请求在T(m)-=j(j=0,1,…,N-m)条件下进入调度系统到所有m个子任务都完成调度所需要的时间,即根据Gamma分布及概率特性可得其概率密度函数为其中为卷积运算符。
请求阶段:用户的服务请求首先到达CMS,被划分为多个子任务,如果此时调度系统的任务队列有足够的空间,即请求未被阻塞的情况下,CMS接收用户请求;调度阶段:子任务排队等候调度系统的调度,调度系统按照某种调度算法将子任务调度到各个计算节点;执行阶段:各个计算节点根据子任务的具体情况,按照一定的执行顺序或者链路通信交换约束处理子任务,最终完成用户的服务请求。
实施例五:
在实施例四中,再加上下述工序:
调度系统会按某种任务调度算法进行任务调度:子任务在节点上的处理分配方式可用子任务配置矩阵(W)来表示,对于W的元素Wik,若第i个子任务分配到第k个处理节点上,则Wik=1,否则Wik=0,令任务分配矩阵W的配置下子任务i的处理时间为即从计算节点j接受子任务i开始直至其完成子任务的时间,记τi,j为子任务i需要的处理时间,则有其中Wpi为子任务i的工作量,PSj为计算节点j的处理速度。
请求阶段:用户的服务请求首先到达CMS,被划分为多个子任务,如果此时调度系统的任务队列有足够的空间,即请求未被阻塞的情况下,CMS接收用户请求;调度阶段:子任务排队等候调度系统的调度,调度系统按照某种调度算法将子任务调度到各个计算节点;执行阶段:各个计算节点根据子任务的具体情况,按照一定的执行顺序或者链路通信交换约束处理子任务,最终完成用户的服务请求。
综上所述:该云计算服务系统的多阶段可靠性建模分析方法,解决了现有的基于解析的建模技术难度大、现场实测费用昂贵、周期长和错误不可重现的问题,具备建模技术难度小、现场实测费用便宜、周期短和错误可重现的优点,采用解析建模的方法,以概率论为数学基础,从时间的维度,同时兼顾了云计算本身的容错技术,建立了云计算服务系统的可靠性模型,值得推广使用的问题。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (2)
1.一种云计算服务系统的多阶段可靠性建模分析方法,其特征在于:包括以下步骤:
步骤1:请求阶段:用户的服务请求首先到达CMS,被划分为多个子任务,如果此时调度系统的任务队列有足够的空间,即请求未被阻塞的情况下,CMS接收用户请求,在整个服务过程中,可能存在很多故障导致服务任务无法完成,主要包括有队列溢出、请求超时、数据源丢失、计算资源不可用、软件故障、数据库不可达、硬件故障和网络故障等,任务请求阶段的建模用户向CMS提交服务请求,分解为m个子任务,CMS中的调度系统,S个调度器,负责接受子任务,根据上文的假设可得该阶段为多服务的排队系统,从系统的角度来看,运行一段时间后必将到达一个稳定状态,即在任务队列中等待的子任务个数和在调度系统中正在被调度的子任务个数之和总是为k,被称为状态k,该稳定状态的稳态概率其中Pi -到达的服务请求i发现系统中有i,i=1,2,3…N个任务的概率为一般情况下当服务请求的到达服从泊松分布,可通过求解以下方程组求得其中Pi,j一步转移概率,若当前云计算系统的调度系统队列有足够长的空间容纳该用户服务请求的子任务,则所有的子任务进入队列,否则所有的子任务将被阻塞,从而导致整个用户服务请求失败,因此用户请求被CMS阻塞的概率为由此可得一个被分解为m个子任务的用户服务请求被阻塞的概率为m个子任务进入调度系统,若m≤S且有j,0≤j≤S-m,个子任务在等待队列中,则m个子任务能立刻被调度器处理,否则至少有一个必须等候,队列中有N(m)-=j,j=0,1,…,N-m,个子任务时,记大小为m的用户服务请求的等待时间为TW (m,j),即从所有m个子任务进入任务等待队列开始,到最后一个子任务开始调度所花费的时间,当m≤S且S-m<j≤N-m,则最后一个子任务在开始调度前必须等待之前的j-(S-m)个子任务完成调度,因此TW (m,j)服从阶数为j-S+m参数为μrS的Gamma分布,当m个子任务完全进入调度系统,调度系统正在调度m个子任务中的Y个子任务,其中Y是一个离散随机变量,其概率记为计算公式为令T(k)为第m个子任务开始进入调度系统到该用户服务请求的所有子任务都完成调度所需要的时间,令TS (m,j)为用户服务请求在T(m)-=j,j=0,1,…,N-m,条件下进入调度系统到所有m个子任务都完成调度所需要的时间,即根据Gamma分布及概率特性可得其概率密度函数为其中为卷积运算符;
步骤2:调度阶段:子任务排队等候调度系统的调度,调度系统按照某种调度算法将子任务调度到各个计算节点;
步骤3:执行阶段:各个计算节点根据子任务的具体情况,按照一定的执行顺序或者链路通信交换约束处理子任务,最终完成用户的服务请求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811255155.4A CN109446641B (zh) | 2018-10-26 | 2018-10-26 | 一种云计算服务系统的多阶段可靠性建模分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811255155.4A CN109446641B (zh) | 2018-10-26 | 2018-10-26 | 一种云计算服务系统的多阶段可靠性建模分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109446641A CN109446641A (zh) | 2019-03-08 |
CN109446641B true CN109446641B (zh) | 2023-04-18 |
Family
ID=65548697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811255155.4A Active CN109446641B (zh) | 2018-10-26 | 2018-10-26 | 一种云计算服务系统的多阶段可靠性建模分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446641B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110365515B (zh) * | 2019-05-30 | 2022-04-08 | 东南大学 | 基于泛化熵的服务互联网多租户满意度度量方法 |
CN110198356A (zh) * | 2019-06-10 | 2019-09-03 | 莫毓昌 | 一种基于混合云的用户请求调度机制 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103023980A (zh) * | 2012-11-21 | 2013-04-03 | 中国电信股份有限公司云计算分公司 | 一种云平台处理用户服务请求的方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9749242B2 (en) * | 2014-08-20 | 2017-08-29 | At&T Intellectual Property I, L.P. | Network platform as a service layer for open systems interconnection communication model layer 4 through layer 7 services |
-
2018
- 2018-10-26 CN CN201811255155.4A patent/CN109446641B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103023980A (zh) * | 2012-11-21 | 2013-04-03 | 中国电信股份有限公司云计算分公司 | 一种云平台处理用户服务请求的方法和系统 |
Non-Patent Citations (1)
Title |
---|
云计算任务冗余调度优化模型;孙健美等;《计算机系统应用》;20120715(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109446641A (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Capit et al. | A batch scheduler with high level components | |
Ge et al. | GA-based task scheduler for the cloud computing systems | |
US7406689B2 (en) | Jobstream planner considering network contention & resource availability | |
Zhao et al. | Reliable workflow scheduling with less resource redundancy | |
US7076781B2 (en) | Resource reservation for large-scale job scheduling | |
US8250131B1 (en) | Method and apparatus for managing a distributed computing environment | |
CN108021435B (zh) | 一种基于截止时间的具有容错能力的云计算任务流调度方法 | |
CN110661842B (zh) | 一种资源的调度管理方法、电子设备和存储介质 | |
CN109614227A (zh) | 任务资源调配方法、装置、电子设备及计算机可读介质 | |
CN109446641B (zh) | 一种云计算服务系统的多阶段可靠性建模分析方法 | |
CN107291550A (zh) | 一种针对迭代应用的Spark平台资源动态分配方法及系统 | |
US7827282B2 (en) | System and method for processing hardware or service usage data | |
WO2020121292A1 (en) | Efficient data processing in a serverless environment | |
Zhong et al. | Speeding up Paulson’s procedure for large-scale problems using parallel computing | |
CN115292039A (zh) | 一种面向异构计算平台的多任务分布式调度负载均衡方法 | |
CN112506658B (zh) | 一种服务链中动态资源分配和任务调度方法 | |
CN110928659B (zh) | 一种具有自适应功能的数值水池系统远程多平台接入方法 | |
Alhussian et al. | An unfair semi-greedy real-time multiprocessor scheduling algorithm | |
CN109829005A (zh) | 一种大数据处理方法及装置 | |
CN114237858A (zh) | 一种基于多集群网络的任务调度方法及系统 | |
CN112783613B (zh) | 一种单元调度的方法和装置 | |
Hu et al. | Low latency big data processing without prior information | |
Jagannatha et al. | Cost performance analysis: Usage of resources in cloud using Markov-chain model | |
CN111506407A (zh) | Pull模式与Push模式相结合的资源管理与作业调度方法、系统及介质 | |
Li et al. | Design and analysis of a new distributed scheduling approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230321 Address after: Fengze District of Quanzhou city of Fujian Province east of Huaqiao University, 362000 Applicant after: HUAQIAO University Address before: 321000 Room 202, unit 1, building 52, 786 Yuquan West Road, Wucheng District, Jinhua City, Zhejiang Province Applicant before: Gong Yuhuan |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |