CN109446641B

CN109446641B - 一种云计算服务系统的多阶段可靠性建模分析方法

Info

Publication number: CN109446641B
Application number: CN201811255155.4A
Authority: CN
Inventors: 莫毓昌; 蔡绍滨; 张昭; 高振国; 龚玉环
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2023-04-18
Anticipated expiration: 2038-10-26
Also published as: CN109446641A

Abstract

本发明公开了一种云计算服务系统的多阶段可靠性建模分析方法，包括以下步骤：请求阶段：用户的服务请求首先到达CMS，被划分为多个子任务，如果此时调度系统的任务队列有足够的空间，即请求未被阻塞的情况下，CMS接收用户请求；调度阶段：子任务排队等候调度系统的调度。本发明解决了现有的基于解析的建模技术难度大、现场实测费用昂贵、周期长和错误不可重现的问题，该云计算服务系统的多阶段可靠性建模分析方法，具备建模技术难度小、现场实测费用便宜、周期短和错误可重现的优点，采用解析建模的方法，以概率论为数学基础，从时间的维度，同时兼顾了云计算本身的容错技术，建立了云计算服务系统的可靠性模型，值得推广使用。

Description

一种云计算服务系统的多阶段可靠性建模分析方法

技术领域

本发明涉及云计算技术领域，具体为一种云计算服务系统的多阶段可靠性建模分析方法。

背景技术

云计算是目前的新技术之一，它融合了网格计算、效用计算、互联网计算和SOA等，有效地整合并实现多层次虚拟化与抽象各种计算、存储、数据和应用等资源，以服务的形式按需提供给用户，将用户从复杂的底层硬件逻辑、网络协议、软件架构中解放出来，是服务模式的创新，但近几年亚马逊、谷歌、微软和Saleforce.com等主流供应商陆续发生服务中断、用户无法访问云服务、邮件服务延迟和数据丢失、数据备份丢失等事故，云计算的安全、可靠性受到多数用户的质疑，可靠性成为目前限制其大规模应用的关键因素之一，但目前未见对云计算服务的系统运行过程的任务可靠性模型，因此，作为云计算的基础性和共性技术，对云计算服务系统可靠性建模技术的研究具有重要意义，鉴于现有的基于解析的建模技术存在着难度大、现场实测费用昂贵、周期长和错误不可重现等问题，为此，我们提出了一种云计算服务系统的多阶段可靠性建模分析方法，以解决上述存在的问题。

发明内容

本发明的目的在于提供一种云计算服务系统的多阶段可靠性建模分析方法，具备建模技术难度小、现场实测费用便宜、周期短和错误可重现的优点，解决了现有的基于解析的建模技术难度大、现场实测费用昂贵、周期长和错误不可重现的问题。

为实现上述目的，本发明提供如下技术方案：一种云计算服务系统的多阶段可靠性建模分析方法，包括以下步骤：

步骤1：请求阶段：用户的服务请求首先到达CMS，被划分为多个子任务，如果此时调度系统的任务队列有足够的空间，即请求未被阻塞的情况下，CMS接收用户请求；

步骤2：调度阶段：子任务排队等候调度系统的调度，调度系统按照某种调度算法将子任务调度到各个计算节点；

步骤3：执行阶段：各个计算节点根据子任务的具体情况，按照一定的执行顺序或者链路通信交换约束处理子任务，最终完成用户的服务请求。

优选的，所述在整个服务过程中，可能存在很多故障导致服务任务无法完成，主要包括有队列溢出、请求超时、数据源丢失、计算资源不可用、软件故障、数据库不可达、硬件故障和网络故障等。

优选的，所述任务请求阶段的建模用户向CMS提交服务请求(分解为m个子任务)，CMS中的调度系统(S个调度器)负责接受子任务，根据上文的假设可得该阶段为多服务的排队系统，从系统的角度来看，运行一段时间后必将到达一个稳定状态，即在任务队列中等待的子任务个数和在调度系统中正在被调度的子任务个数之和总是为k，被称为状态k，该稳定状态的稳态概率

1≤k≤N，其中P_i ^-到达的服务请求i发现系统中有i(i＝1，2，3…N)个任务的概率为

一般情况下

当服务请求的到达服从泊松分布，

可通过求解以下方程组求得

其中P_i,j一步转移概率，若当前云计算系统的调度系统队列有足够长的空间容纳该用户服务请求的子任务，则所有的子任务进入队列，否则所有的子任务将被阻塞，从而导致整个用户服务请求失败，因此用户请求被CMS阻塞的概率为

由此可得一个被分解为m个子任务的用户服务请求被阻塞的概率为

优选的，所述m个子任务进入调度系统，若m≤S且有j(0≤j≤S-m)个子任务在等待队列中，则m个子任务能立刻被调度器处理，否则至少有一个必须等候，队列中有N^(m)-＝j(j＝0，1，…，N-m)个子任务时，记大小为m的用户服务请求的等待时间为

即从所有m个子任务进入任务等待队列开始，到最后一个子任务开始调度所花费的时间，当m≤S且S-m<j≤N-m，则最后一个子任务在开始调度前必须等待之前的j-(S-m)个子任务完成调度，因此

服从阶数为j-S+m参数为μ_rS的Gamma分布，当m个子任务完全进入调度系统，调度系统正在调度m个子任务中的Y个子任务，其中Y是一个离散随机变量，其概率记为

计算公式为

令T^(k)为第m个子任务开始进入调度系统到该用户服务请求的所有子任务都完成调度所需要的时间，令

为用户服务请求在T^(m)-＝j(j＝0，1，…，N-m)条件下进入调度系统到所有m个子任务都完成调度所需要的时间，即

根据Gamma分布及

概率特性可得其概率密度函数为

其中

为卷积运算符。

优选的，所述调度系统会按某种任务调度算法进行任务调度:子任务在节点上的处理分配方式可用子任务配置矩阵(W)来表示，对于W的元素Wik，若第i个子任务分配到第k个处理节点上，则W_ik＝1，否则W_ik＝0，令任务分配矩阵W的配置下子任务i的处理时间为

即从计算节点j接受子任务i开始直至其完成子任务的时间，记τ_i,j为子任务i需要的处理时间，则有

其中Wp_i为子任务i的工作量，PS_j为计算节点j的处理速度。

与现有技术相比，本发明的有益效果是：本发明解决了现有的基于解析的建模技术难度大、现场实测费用昂贵、周期长和错误不可重现的问题，该云计算服务系统的多阶段可靠性建模分析方法，具备建模技术难度小、现场实测费用便宜、周期短和错误可重现的优点，采用解析建模的方法，以概率论为数学基础，从时间的维度，同时兼顾了云计算本身的容错技术，建立了云计算服务系统的可靠性模型，值得推广使用。

具体实施方式

下面将通过实施例的方式对本发明作更详细的描述，这些实施例仅是举例说明性的而没有任何对本发明范围的限制。

本发明提供一种技术方案：一种云计算服务系统的多阶段可靠性建模分析方法，包括以下步骤：

实施例一：

请求阶段：用户的服务请求首先到达CMS，被划分为多个子任务，如果此时调度系统的任务队列有足够的空间，即请求未被阻塞的情况下，CMS接收用户请求；调度阶段：子任务排队等候调度系统的调度，调度系统按照某种调度算法将子任务调度到各个计算节点；执行阶段：各个计算节点根据子任务的具体情况，按照一定的执行顺序或者链路通信交换约束处理子任务，最终完成用户的服务请求。

实施例二：

在实施例一中，再加上下述工序：

在整个服务过程中，可能存在很多故障导致服务任务无法完成，主要包括有队列溢出、请求超时、数据源丢失、计算资源不可用、软件故障、数据库不可达、硬件故障和网络故障等。

实施例三：

在实施例二中，再加上下述工序：

任务请求阶段的建模用户向CMS提交服务请求(分解为m个子任务)，CMS中的调度系统(S个调度器)负责接受子任务，根据上文的假设可得该阶段为多服务的排队系统，从系统的角度来看，运行一段时间后必将到达一个稳定状态，即在任务队列中等待的子任务个数和在调度系统中正在被调度的子任务个数之和总是为k，被称为状态k，该稳定状态的稳态概率

其中P_i ^-到达的服务请求i发现系统中有i(i＝1，2，3…N)个任务的概率为

一般情况下

当服务请求的到达服从泊松分布，

可通过求解以下方程组求得

实施例四：

在实施例三中，再加上下述工序：

m个子任务进入调度系统，若m≤S且有j(0≤j≤S-m)个子任务在等待队列中，则m个子任务能立刻被调度器处理，否则至少有一个必须等候，队列中有N^(m)-＝j(j＝0，1，…，N-m)个子任务时，记大小为m的用户服务请求的等待时间为

，计算公式为

根据Gamma分布及

概率特性可得其概率密度函数为

其中

为卷积运算符。

实施例五：

在实施例四中，再加上下述工序：

调度系统会按某种任务调度算法进行任务调度:子任务在节点上的处理分配方式可用子任务配置矩阵(W)来表示，对于W的元素Wik，若第i个子任务分配到第k个处理节点上，则W_ik＝1，否则W_ik＝0，令任务分配矩阵W的配置下子任务i的处理时间为

其中Wp_i为子任务i的工作量，PS_j为计算节点j的处理速度。

综上所述：该云计算服务系统的多阶段可靠性建模分析方法，解决了现有的基于解析的建模技术难度大、现场实测费用昂贵、周期长和错误不可重现的问题，具备建模技术难度小、现场实测费用便宜、周期短和错误可重现的优点，采用解析建模的方法，以概率论为数学基础，从时间的维度，同时兼顾了云计算本身的容错技术，建立了云计算服务系统的可靠性模型，值得推广使用的问题。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种云计算服务系统的多阶段可靠性建模分析方法，其特征在于：包括以下步骤：

步骤1：请求阶段：用户的服务请求首先到达CMS，被划分为多个子任务，如果此时调度系统的任务队列有足够的空间，即请求未被阻塞的情况下，CMS接收用户请求，在整个服务过程中，可能存在很多故障导致服务任务无法完成，主要包括有队列溢出、请求超时、数据源丢失、计算资源不可用、软件故障、数据库不可达、硬件故障和网络故障等，任务请求阶段的建模用户向CMS提交服务请求，分解为m个子任务，CMS中的调度系统，S个调度器，负责接受子任务，根据上文的假设可得该阶段为多服务的排队系统，从系统的角度来看，运行一段时间后必将到达一个稳定状态，即在任务队列中等待的子任务个数和在调度系统中正在被调度的子任务个数之和总是为k，被称为状态k，该稳定状态的稳态概率

其中P_i ^-到达的服务请求i发现系统中有i，i＝1，2，3…N个任务的概率为

一般情况下

当服务请求的到达服从泊松分布，

可通过求解以下方程组求得

m个子任务进入调度系统，若m≤S且有j，0≤j≤S-m，个子任务在等待队列中，则m个子任务能立刻被调度器处理，否则至少有一个必须等候，队列中有N^(m)-＝j，j＝0，1，…，N-m，个子任务时，记大小为m的用户服务请求的等待时间为T_W ^(m,j)，即从所有m个子任务进入任务等待队列开始，到最后一个子任务开始调度所花费的时间，当m≤S且S-m<j≤N-m，则最后一个子任务在开始调度前必须等待之前的j-(S-m)个子任务完成调度，因此T_W ^(m,j)服从阶数为j-S+m参数为μ_rS的Gamma分布，当m个子任务完全进入调度系统，调度系统正在调度m个子任务中的Y个子任务，其中Y是一个离散随机变量，其概率记为

计算公式为

令T^(k)为第m个子任务开始进入调度系统到该用户服务请求的所有子任务都完成调度所需要的时间，令T_S ^(m,j)为用户服务请求在T^(m)-＝j，j＝0，1，…，N-m，条件下进入调度系统到所有m个子任务都完成调度所需要的时间，即

根据Gamma分布及

概率特性可得其概率密度函数为

其中

为卷积运算符；

2.根据权利要求1所述的一种云计算服务系统的多阶段可靠性建模分析方法，其特征在于：所述调度系统会按某种任务调度算法进行任务调度：子任务在节点上的处理分配方式可用子任务配置矩阵(W)来表示，对于W的元素Wik，若第i个子任务分配到第k个处理节点上，则W_ik＝1，否则W_ik＝0，令任务分配矩阵W的配置下子任务i的处理时间为

其中Wp_i为子任务i的工作量，PS_j为计算节点j的处理速度。