CN108829956A

CN108829956A - 一种基于有色广义随机Petri网的IT架构服务可靠性建模方法

Info

Publication number: CN108829956A
Application number: CN201810558250.5A
Authority: CN
Inventors: 李晓阳; 刘岳; 林焱辉
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2018-11-16
Anticipated expiration: 2038-06-01
Also published as: CN108829956B

Abstract

本发明公开了一种基于层次化的有色广义随机Petri网的云数据中心IT架构服务可靠性建模方法，针对相应的IT架构的服务可靠性研究存在的局限性，利用层次化建模方法，基于融合了有色Petri网和广义随机Petri网建立了层次化的有色广义随机Petri网(Hierarchical Colored Generalized Stochastic Petri Net,HCGSPN)系统模型，不仅刻画了IT架构对于服务请求的处理过程，还体现了外界到来的服务请求的时间变化特性及IT架构的实时资源使用情况与节点工作状态。从而能够实现服务可靠性的评估以及进一步提高服务可靠性的资源配置策略，为云数据中心IT架构的设计与运维提供参考。

Description

一种基于有色广义随机Petri网的IT架构服务可靠性建模方法

技术领域

本发明属于可靠性技术领域，尤其是涉及一种基于层次化的有色广义随机Petri网的云数据中心IT架构服务可靠性建模方法。

背景技术

近年来，随着云计算技术的进步，云数据中心应运而生，并因其具有高可用性和资源利用率、快速的弹性和恢复的特点而蓬勃发展。作为云计算提供服务的载体，云数据中心的服务可靠性是保证服务质量(Quality of Service,QoS)的关键，在签署服务等级协议(Service-Level Agreement,SLA)时也通常会做出相关规定。

云数据中心一般由三部分基础架构组成：电力架构、冷却架构和信息技术(Information Technology,IT)架构。在电力架构和冷却架构的连续供电和恒温保障下，IT架构负责在服务提供者和用户间直接进行服务交付，所有服务内容及相关资源都通过IT架构进行传递流通。这意味着IT架构是数据中心基础架构的核心，与服务可靠性直接相关。

在现有研究中，为了评估IT架构的可靠性，针对数据中心和其他类似的系统进行了一些相关研究。但是，这些研究往往只关注网络或者软件。一方面，在关注于网络的研究中，一些具有低复杂度的拓扑被抽象成可靠性框图(Reliability Block Diagram,RBD或有向图和无向图，其可靠性通过最小割集求出。对于具有更为复杂的网络结构的系统，着眼于网络拓扑结构或进一步的网络资源分配，通过复杂网络的相关理论进行可靠性评估。另一方面，关注于软件的研究中，主要通过组件相关关系图结合故障模式及影响分析(FailureMode and Effect Analysis,FMEA)、离散时间马尔科夫链(Discrete time Markov,DTMC)，建立基于架构的软件可靠性模型。而云数据中心的IT架构是一个复杂系统，具有广泛的网络连接，大规模的服务交互和资源共享，异构设备以及复杂的交互等特点。这意味着针对IT架构的服务可靠性建模和评估不仅要考虑网络，硬件和软件，还要考虑它们之间的所有相互影响以及整个系统之间的交互作用，包括资源使用，路由规则，耦合控制等。因此，上述方法因其仅仅部分提取了整个IT架构的特征(网络或者软件)而不足以评估IT架构的可靠性。

此外，针对云数据中心的旨在提供服务这一特点，其基于面向服务的IT架构处理多种类型的服务请求的功能属性是不可忽视的。在现有研究中，从服务的角度提出了几种可靠性建模方法，包括基于系统状态的建模方法，如基于队列理论的马尔科夫模型和最小生成树法，连续时间马尔可夫链(CTMC)模型；以及数学模型，如拉普拉斯变换。但是，这些模型只关注系统对服务请求的处理过程，而忽略了IT架构，并且基于状态的方法仅仅反映了处理过程中系统或子系统的状态。

由于相应的IT架构的服务可靠性研究存在上述局限性，因此构建起云数据中心IT架构的服务可靠性分析方法至关重要。服务可靠性研究的目的是利用分析结果来指导如何在设计建造和运维保障过程中更好的提高服务可靠性。因此不仅仅是要考虑服务需求，并且必须要考虑硬件、软件和网络和IT整体架构设计对服务可靠性的影响。只有考虑了这些因素，服务可靠性分析才具有现实意义。然而，综合考虑上述因素时，系统复杂度进一步提高，因此传统的可靠性建模方法并不适用。

发明内容

针对类似于云数据中心的离散事件系统(Discrete Event System,DES)的建模，从图论中推导出来的Petri网(Petri Net,PN)，自首次提出以来，不断进一步发展从而用于解决复杂系统建模。鉴于服务请求处理期间的时间随机性以及与IT架构相关的需要考虑的多方面因素，基本Petri网不足以满足需要。而一些高级Petri网和相应方法已在一些其他系统进行应用来解决类似的问题。其中，随机Petri网(Stochastic Petri Net,SPN)和广义随机Petri网(Generalized Stochastic Petri Net,GSPN)被用于刻画系统的动态特征、并发行为和因果关系。同时也针对数据中心的传输系统和维护，使用SPN来评估可靠性。此外，有色Petri网(Colored Petri Net,CPN)使得描述更大更复杂的系统例如云计算环境中的排队信息服务、电话系统等成为可能。此外，层次化建模方法为一类高级Petri网提供了层次结构的概念，通过将系统的元素划分为层次结构来更好地降低复杂度。借助高级Petri网和层次化建模方法，Petri网的应用范围显著扩大。

为解决前述技术问题，本发明针对云数据中心的IT架构，考虑其处理服务请求的过程，利用层次化建模方法，基于融合了有色Petri网和广义随机Petri网建立了层次化的有色广义随机Petri网(Hierarchical Colored Generalized Stochastic Petri Net,HCGSPN)系统模型。

本发明完整的技术方案包括：

一种基于层次化的有色广义随机Petri网的云数据中心IT架构服务可靠性建模方法，其特征在于，包括：所述服务可靠性的定义为在可接受的时延范围内提供正确且准确的服务，其表达式为：

式(1)中，Rel表示服务可靠性；事件R表示N_REQ个服务请求中有N_R个被成功响应；N_REQ表示总请求数；N_R表示成功响应的数目；T_d表示服务请求的时延；T_e表示时延阈值；

所述有色广义随机Petri网为由可能包含令牌的库所集合和变迁集合组成的有向图，其中包含令牌的库所表示状态，变迁表示状态变化；并对每个令牌赋予颜色来进行区别，每个库所和变迁也相应进行着色从而变迁可以针对每种颜色进行触发，通过变迁的触发，令牌按照变迁触发的颜色和令牌颜色之间的函数关系进行消耗和产生；其中变迁包括瞬时变迁和触发时延服从随机分布的时间变迁，所述瞬时变迁的触发使相应令牌即时消耗或产生，所述时间变迁的触发则使得相应令牌经过一定时延后才会消耗或产生；具体的：

所述有色广义随机Petri网为一个十元组CGSPN＝(Σ,P,T,A,Nu,C,G,E,IN,Λ)，其中：

1)Σ是类别的有限集合，又称颜色集；

2)P是库所的有限集合；

3)T是变迁的有限集合，分为两个集合T＝T_t∪T_t’，且其中T_t表示时间变迁集合T_t＝{t₁,t₂,…,t_M}(M为时间变迁总数)，T_t’表示瞬时变迁集合T_t’＝{t_M+1,t_M+2,…,t_M+M’}(M’为瞬时变迁总数)；

4)A是弧的有限集合；

5)Nu是节点函数的有限集合，将每条弧映射为一对起点和终点节点。两种节点必须互不相同且均为P、T两者之一；

6)C:P∪T→Σ是颜色函数的集合，将每个库所p映射为可能的令牌颜色C(p)的集合。p中的每个令牌都必须有属于C(p)集合中的颜色；

7)G是哨函数的集合，将每个变迁映射为布尔函数，表征变迁是否能够触发；

8)E是弧表达式的有限集合，将每条弧映射为相关库所对应的颜色集的多重集；

9)IN是初始化函数的有限集合，将每个库所映射为的C(p)多重集；

10)Λ是分布参数的有限集合，即时间变迁触发速率的集合，Λ＝{λ₁,λ₂,…,λ_M}。对于第m个时间变迁的触发时延服从参数为λ_m的指数分布(m＝1,2,…,M)；

评估云数据中心IT架构的服务可靠性的层次化的所述有色广义随机Petri网模型分为系统层次和节点层次，所述系统层次模型刻画基于IT架构的处理流程，体现服务请求在相应规则与协议下流经不同节点的路径，在系统层次模型中，节点均用可替换变迁来表示；所述节点层次模型嵌入在可替换变迁中，相应的子页刻画了服务请求在每个节点中的具体处理过程，并考虑节点的故障和资源使用情况，同时，可替换变迁的触发过程体现依据节点故障情况得出的请求的处理路径的过程；

建模基于以下设定进行：

设定1：各个中心的配置相同；

设定2：所有节点均为工作或故障的二态节点。对每个节点而言，其工作和故障的概率分别为pr和1-pr；

设定3：当节点发生故障，其修复时间为Δt_r；

设定4：每个节点有一台服务器(对于服务器类节点而言)或者处理器(对于除服务器类节点外的其他类节点而言)。每台服务器或处理器的对于一个服务请求或者子任务的处理时间Δt_s服从参数为λ_s的指数分布；

设定5：第k类服务请求的到来服从参数为λ_ak的泊松过程；

设定6：网络连接(包括光纤网络和OTV)的可靠度为1；

设定7：计算结果的输出过程服务可靠度为1；

在仿真系统中绘制HCGSPN模型；

根据上述模型结合Monte Carlo仿真，得到一段时间T内的总请求数N_R，R_x(k)的时延T_d(x)由下式求出：

T_d(x)＝t_2(x)-t_1(x) (2)

将每个T_d(x)的值与T_e比较，求得成功响应的请求数N_R；

按照时间间隔Δt将T进行划分为T/Δt个时间区间，并结合公式(1)，每个时间区间内的服务可靠性为：

所述云数据中心包含两个依照三层架构布局的中心，即双活数据中心；

所述三层架构为按需访问层、服务层和存储层分层；

所述云数据中心的IT架构由处理信息的节点以及相关处理规则和信息资源构成，所述节点分布在所述三层架构中，实现相互连接，其中中心与中心之间的连接由覆盖传输虚拟化实现，中心内的连接由光纤网络实现。

所述云数据中心的IT架构节点配置方式为：

包括两个中心，每个中心包括设置在按需访问层的1个工作的以及1个热备份的GTM、CSW、FW、SW、SLB节点；设置在服务器层的K个集群，其中第k种类型的服务请求在第k个集群中被处理；设置在存储层的1个工作的以及1个热备份的SAN、SVC节点、2个工作的ST节点；

每个集群中包括Nm_k个工作的AM节点、2个工作的DM节点和J个子集群，其中第j种类型的子任务在第j个子集群中被处理；

每个子集群中包括Ns_kj个工作的AS节点和2个工作的DS节点。

所述云数据中心的服务请求处理流程为：

REQ_x(k)输入后，CSW处根据GTM根据各个中心的AM工作情况判断的结果去往某个中心；接着途径FW后，在SW处由SLB对于AM工作情况进行确认，从而决定是否去往其他中心，并选择去往第k个集群中的某个AM进行请求处理，其中k＝1,2,…,K，在AM中，REQ_x(k)将分解为X_k1个流向DM的子任务和X_k2个流向AS的子任务；在SAN处会根据SVC对于ST工作情况判断的结果选择某个中心的ST；直至ST完成对子任务的处理后，子计算结果按照原路输出，并在AM处合并为计算结果原路输出返回给用户。

云数据中心的HCGSPN模型的页面层次结构，页Overview#1与11种子页直接相连，其中子页Cluster#6、Profile#1和Gather#1与Overview#1共同构成系统层次模型，而Cluser#6子页又进一步与4种节点子页直接相连，这4种节点子页与其余的节点子页共同构成了节点层次模型，依据此页面层次划分，系统层次模型和节点层次模型的建立过程具体为：

在系统层次模型中，页Overview#1体现了在IT架构中的请求处理流程，并通过31个可替代变迁与以下子页面连接:

1)Cluster#6，由于各个集群的结构及相关配置完全相同，因此为了避免重复相同的建模过程，被分层为子页Cluster#6，

2)Profile#1和Gather#1，为了建模逻辑的清晰和视图的简洁，请求到来的过程和子计算结果的合并过程同样被分层为子页Profile#1和Gather#1，Profile#1刻画了每个服务请求的到来过程，根据设定5，第k类请求的到来过程服从参数为λ_ak的泊松过程，考虑到服务请求的时间波动性，每天可以分为多个有不同λ_ak值的时间区间，而对于每个时间区间，λ_ak看做常数，在其中的一个时间区间中，每个k类请求的到达时间间隔可以被抽象为触发时延服从指数分布E(λ_ak)的时间变迁t_a,k，然后运用Monte Carlo仿真抽样获得每个服务请求的到来时间间隔Δt_ak*，由此得知其到达时刻，于是，每个R_x(k)由一个序号x、请求类别k和到达时刻构成。Gather#1刻画了每个不同的子计算结果合并为最终计算结果的过程，当得到最后一个子计算结果，即最终计算结果完成合并；

3)节点子页，每个节点中的处理细节被分层为子页，所有的节点子页构成节点层次模型；

系统层次模型中定义的颜色集及相关变量与常量如下：共定义了6种库所颜色集，包括Requests、Subtasks、Decisions、Arrivals、Types和Numbers，Requests和Subtasks分别代表R_x(k)和S_RxDM/S_RxDS/S_RxAS；Decisions体现了决策类节点的判定规则；Arrivals、Types和Numbers则分别用于生成请求到达时间、序号和服务种类，而变迁t_G,v(v＝1,…,24)将输入变量映射为输出变量，从而实现不同颜色集之间的转化，

在系统层次模型中，有色的令牌将按照节点顺序流向有着相同颜色的库所，在流动过程中，如果在子页输入接口库所之后与其相连接的变迁被触发，则令牌将流入子页然后在到达输出接口时流回Overview#1页，

节点层次模型刻画颜色集Requests和Subtasks中的令牌被IT架构中的各个节点计算处理的具体细节，并且考虑节点的故障和资源使用情况，具体的：

节点层次模型中包含了12组节点子页，决策类节点负责根据节点状态判定流动路径，其他类别的节点负责处理请求或者子任务，节点层次模型中，节点对请求的计算处理细节的建模如下所述：

1)计算处理过程被抽象为服务器或处理器时间变迁t_s,v(v＝1,…,12)，其触发时延表征处理时间Δt_s，服从随机分布，设定分布参数后，运用Monte Carlo仿真抽样获得对每个请求的处理时间Δt_s*；

2)资源使用情况被抽象为一个代表先进先出等待队列的库所(其颜色集为List，相应变量为SList)以及另一个代表所有空闲的处于正常工作状态的服务器或处理器的数量的库所(其颜色集为Sum)，在子页中分别命名为“FIFO Queue”和“Sum”，等待队列的余量由名为“Queue Capacity”的库所表征，库所容量为Q；

3)节点故障由两个分别代表工作和故障状态的库所“Working”和“Failure”(颜色集为State)和三个变迁“Break”、“Retain”和“Recover”组成的循环来表征，时间变迁“Recover”的触发时延t_r,v(v＝1,…,12)代表恢复时间Δt_r，每个状态都赋有一个状态概率，每个时刻的节点状态由颜色集为Sampling的抽样过程来表征，对应变量为SPL，设定处于工作状态的概率pr及故障概率1-pr后，运用Monte Carlo仿真抽样获得每个时刻节点的状态。

本发明相对于现有技术的优点在于：针对相应的IT架构的服务可靠性研究存在的局限性，利用层次化建模方法，基于融合了有色Petri网和广义随机Petri网建立了层次化的有色广义随机Petri网(Hierarchical Colored Generalized Stochastic Petri Net,HCGSPN)系统模型，不仅刻画了IT架构对于服务请求的处理过程，还体现了外界到来的服务请求的时间变化特性及IT架构的实时资源使用情况与节点工作状态。从而能够实现服务可靠性的评估以及进一步提高服务可靠性的资源配置策略，为云数据中心IT架构的设计与运维提供参考。

附图说明

图1为云数据中心的IT架构拓扑。

图2为服务请求的处理流程。

图3为经由三个节点的简化的请求处理过程。

图4为HCGSPN模型页面层次结构图。

图5为系统层次模型。

图6为SVC#6子页。

图7为ST#2子页。

图8为服务请求剖面。

图9为服务可靠性评估结果。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步说明。

如图1所示，为实现服务目标，云数据中心包含两个依照三层架构——按需访问层、服务层和存储层分层布局的中心，即双活数据中心。

云数据中心的IT架构由大量的处理信息的节点以及相关处理规则和信息资源构成。节点分布在上述三层架构中，由两大类网络实现相互连接：中心与中心之间的连接由覆盖传输虚拟化(Overlay Transport Virtualization,OTV)实现，中心内的连接由光纤网络实现。这些节点根据其功能分为五类节点：交换机类；安全类；服务器类；存储类和决策类，如表1所示。

表1IT架构中的节点分类及功能

节点配置如表2所示：

表2节点配置

服务请求处理流程为：REQ_x(k)输入后，在CSW处会根据GTM根据各个中心的AM工作情况判断的结果去往某个中心；接着途径FW后，在SW处会由SLB对于AM工作情况进行确认，从而决定是否去往其他中心，并选择去往第k(k＝1,2,…,K)个集群中的某个AM进行请求处理。在AM中，REQ_x(k)将分解为X_k1个流向DM的子任务和X_k2个流向AS的子任务。在SAN处会根据SVC对于ST工作情况判断的结果选择某个中心的ST；直至ST完成对子任务的处理后，子计算结果按照原路输出，并在AM处合并为计算结果原路输出返回给用户。

故障分析服务可靠性的定义为；在可接受的时延范围内提供正确且准确的服务。表达式为：

式(1)中，Rel表示服务可靠性；事件R表示N_REQ个服务请求中有N_R个被成功响应；N_REQ表示总请求数；N_R表示成功响应的数目；T_d表示服务请求的时延；T_e表示时延阈值。

显然，只有在T_e内获得计算结果的服务请求才算作成功响应。然而在处理过程中，节点的相关故障会引起服务请求的时延T_d的增加，从而可能导致T_d<T_e，即造成超时，也就意味着该服务请求处理失败。节点相关故障如表3所示，

表3节点故障

Petri网的基础形式是由可能包含令牌的库所集合和变迁集合组成的有向图，如图3所示。包含令牌的库所表示状态；变迁表示状态变化。

考虑到令牌的多样性以及复杂系统的随机性，基础Petri网需要进一步扩展。有色广义随机Petri网(Colored Generalized Stochastic Petri Net,CGSPN)这种高级Petri网则可以解决上述问题。CGSPN融合了有色Petri网(Colored Petri Net,CPN)和广义随机Petri网(Generalized Stochastic Petri Net,GSPN)。在CPN中，通过对每个令牌赋予颜色来进行区别。每个库所和变迁也相应进行着色从而变迁可以针对每种颜色进行触发。通过变迁的触发，令牌按照变迁触发的颜色和令牌颜色之间的函数关系进行消耗和产生。因此令牌的颜色也可能由于经过了变迁的触发从而发生改变，这就使得令牌可以表示更为复杂的数据。GSPN则是随机Petri网(Stochastic Petri Net,SPN)的扩展，其中既有瞬时变迁(表示为黑色矩形)，也有触发时延服从随机分布的时间变迁(表示为空心的矩形)。前者的触发使得相应令牌即时消耗或产生；后者的触发则使得相应令牌经过一定时延后才会消耗或产生。由CPN和GSPN的融合，CGSPN不仅能够表示不同的服务请求、子任务和计算结果，根据其相关关系来定义变迁触发规则；并且能够通过瞬时变迁和时间变迁刻画不同的时延，例如请求到达时间间隔、节点处理时间、节点恢复时间等。

一个有色广义随机Petri网定义为一个十元组CGSPN＝(Σ,P,T,A,Nu,C,G,E,IN,Λ)，其中：

1)Σ是类别的有限集合，又称颜色集；

2)P是库所的有限集合；

4)A是弧的有限集合；

10)Λ是分布参数的有限集合，即时间变迁触发速率的集合，Λ＝{λ₁,λ₂,…,λ_M}。对于第m个时间变迁的触发时延服从参数为λ_m的指数分布(m＝1,2,…,M)。

层次化Petri网：由于在建模过程中需要考虑多方面的问题，例如大量的不同服务类型的服务请求、包括众多不同节点以及相关路由规则和协议的IT架构、各种故障等，想要在一个CGSPN模型中涵盖上述问题导致建模复杂度剧增。此外，属于同一类别的节点通常相似甚至相同，如果使用层次化建模方法，则对每一类节点进行一次建模即可。因此，采用层次化的概念建立CGSPN模型。

层次化的Petri网(Hierarchical Petri Net,HPN)以解决系统建模中的缺少全局观、对于细节和系统结构反映不足等问题。运用层次化概念扩展Petri网主要有四种层次化结构：变迁替换、库所替换、变迁调用和模糊集，从而能够将大型Petri网构造成一组相互关联的子网(称为页，pages)。在这四种层次化结构中，变迁替换不仅能够通过将复杂的子网嵌入到可替换变迁中来降低各层的建模难度和避免子网建模重复；而且将子网的调用与可替换变迁的触发相关联。因此，在本发明中，采取变迁替换的结构。

变迁替换的理念是将变迁(及其周围的弧)替换更为复杂的Petri网。即在第一层次中，仅简单地描述系统活动，而不必考虑具体执行的内部细节。而在下一层次中，用另一Petri网给出在上一层模型中由可替换的变迁表示的，对于系统活动的更精确和详细的描述。图3给出的了一个简单的请求处理实例来解释变迁替换的理念。

如图3所示，考虑经由三个节点的请求处理过程。在第一层次——系统层次中(即图3左侧的页)，只概述请求处理的流程；而对于在每个节点中的详细处理细节，则在下一层次——节点层次中给出(即图3右侧的页)。这样最终得到一个由连接着两个子页DNode#2和SNode#1的Procedure#1页构成的HPN模型。每个页或者子页由页面名称及“#”后代表页的数量的数字构成。页的名称与其相应的可替换变迁相同，一个子页面对应于一个可替换变迁。可替换变迁旁的说明文字及相应子页面边界的接口库所描述了接口关系。

基于HCGSPN的服务可靠性建模与仿真方法：

基于有色广义随机Petri网和相应的层次化建模方法，评估云数据中心IT架构的服务可靠性的层次化的有色广义随机Petri网(Hierarchical Colored GeneralizedStochastic Petri Net,HCGSPN)模型分为两个层次——系统层次和节点层次。系统层次刻画了基于IT架构的主要处理流程，体现了服务请求在相应规则与协议下流经不同节点的路径。在系统层次模型中，节点都用可替换变迁来表示。节点层次模型则嵌入在可替换变迁中，相应的子页刻画了服务请求在每个节点中的具体处理过程，并且考虑了节点的故障和资源使用情况。同时，可替换变迁的触发过程则体现了依据节点故障情况得出的请求的处理路径的过程。

建模基于以下设定进行：

设定1：各个中心的配置相同；

设定2：所有节点均为二态节点——工作或故障。对每个节点而言，其工作和故障的概率分别为pr和1-pr；

设定3：当节点发生故障，其修复时间为Δt_r；

设定5：第k类服务请求的到来服从参数为λ_ak的泊松过程；

设定6：网络连接(包括光纤网络和OTV)的可靠度为1；

设定7：计算结果的输出过程服务可靠度为1。即对于每个请求而言，只要其分解成的子任务都被成功处理，计算结果就能够被成功输出返回给用户。因此，只需考虑图2中的黄色部分。

层次化有色广义随机Petri网模型：

以K＝3，J＝2为例，云数据中心的HCGSPN模型的页面层次结构图如图4所示。页Overview#1与11种子页直接相连，其中子页Cluster#6、Profile#1和Gather#1与Overview#1共同构成系统层次模型。而Cluser#6子页又进一步与4种节点子页直接相连，这4种节点子页与其余的节点子页共同构成了节点层次模型。依据此页面层次划分，系统层次模型和节点层次模型的建立过程如下文所述。

4)Cluster#6。由于各个集群的结构及相关配置完全相同，因此为了避免重复相同的建模过程，被分层为子页Cluster#6，如图5中间行所示。

5)Profile#1和Gather#1。为了建模逻辑的清晰和视图的简洁，请求到来的过程和子计算结果的合并过程同样被分层为子页Profile#1和Gather#1，如图5最后一行所示。Profile#1刻画了每个服务请求的到来过程。根据假设5，第k类请求的到来过程服从参数为λ_ak的泊松过程。考虑到服务请求的时间波动性，每天可以分为多个有不同λ_ak值的时间区间，而对于每个时间区间，λ_ak可看做常数。图5中给出了其中的一个时间区间。每个k类请求的到达时间间隔可以被抽象为触发时延服从指数分布E(λ_ak)的时间变迁t_a,k，然后运用Monte Carlo仿真抽样获得每个服务请求的到来时间间隔Δt_ak*，由此得知其到达时刻。于是，每个R_x(k)由一个序号x、请求类别k和到达时刻构成。Gather#1刻画了每个不同的子计算结果合并为最终计算结果的过程。当得到最后一个子计算结果，即最终计算结果完成合并。

6)节点子页。每个节点中的处理细节被分层为子页，所有的节点子页构成节点层次模型，并在2.3.2.2节中进行了详细说明。

系统层次模型中定义的颜色集及相关变量与常量在图5中间行的左侧被列出。需要指出的是，定义了6种库所颜色集，包括Requests、Subtasks、Decisions、Arrivals、Types和Numbers。Requests和Subtasks分别代表R_x(k)和S_RxDM/S_RxDS/S_RxAS；Decisions体现了决策类节点的判定规则；Arrivals、Types和Numbers则分别用于生成请求到达时间、序号和服务种类。而变迁t_G,v(v＝1,…,24)将输入变量映射为输出变量，从而实现不同颜色集之间的转化。

在系统层次模型中，有色的令牌将按照节点顺序流向有着相同颜色的库所。在流动过程中，如果在子页输入接口库所之后与其相连接的变迁被触发，那么令牌将流入子页然后在到达输出接口时流回Overview#1页。

节点层次建模与仿真：

节点层次模型刻画了颜色集Requests和Subtasks中的令牌被IT架构中的各个节点计算处理的具体细节，并且考虑了节点的故障和资源使用情况。

由图4的页面层次结构划分可以看到，节点层次模型中包含了12组节点子页。根据表1的节点分类，除了负责根据节点状态判定流动路径的决策类节点外，其他类别的节点事实上都是负责处理请求或者子任务，它们之间的唯一差别仅在于服务器的规模和性能。因此，对于决策类节点子页(GTM#2、SLB#2和SVC#2)，考虑到决策规则和篇幅限制，以具有全局判定功能并且规模较小的SVC#6子页为例做进一步说明，如图6所示。对于其他类别的节点子页(CSW#2、FW#2、SW#2、SAN#2、ST#2、AM#6、DM#6、AS#12和DS#12)，考虑到与SVC#6的相关性和篇幅限制，以规模较小的ST#2为例进行进一步说明，如图7所示。(图6和图7中的脚标是以SVC₁₁和ST₁为例，其他子页的脚标以此类推。)

节点层次模型中，节点对请求的计算处理细节的建模如下所述：

4)计算处理过程被抽象为服务器或处理器时间变迁t_s,v(v＝1,…,12)，其触发时延表征处理时间Δt_s，服从随机分布，设定分布参数后，运用Monte Carlo仿真抽样获得对每个请求的处理时间Δt_s*；

5)资源使用情况被抽象为一个代表先进先出等待队列的库所(其颜色集为List，相应变量为SList)以及另一个代表所有空闲的处于正常工作状态的服务器或处理器的数量的库所(其颜色集为Sum)，在子页中分别命名为“FIFO Queue”和“Sum”。等待队列的余量由名为“Queue Capacity”的库所表征，库所容量为Q；

6)节点故障由两个分别代表工作和故障状态的库所“Working”和“Failure”(颜色集为State)和三个变迁“Break”、“Retain”和“Recover”组成的循环来表征。时间变迁“Recover”的触发时延t_r,v(v＝1,…,12)代表恢复时间Δt_r。每个状态都赋有一个状态概率，每个时刻的节点状态由颜色集为Sampling的抽样过程来表征，对应变量为SPL。设定处于工作状态的概率pr及故障概率1-pr后，运用Monte Carlo仿真抽样获得每个时刻节点的状态。

计算服务可靠性：

在Petri网仿真系统中绘制上述HCGSPN模型，结合Monte Carlo仿真，第x个请求R_x(k)的到达时刻t_1(x)和处理完成时刻t_2(x)可以通过记录Overview#1中的库所“Record”和“Result”里的最终令牌的标记获得。由此，可以得到一段时间T内的总请求数N_R。而R_x(k)的时延T_d(x)可以由下式求出：

T_d(x)＝t_2(x)-t_1(x) (2)

将每个T_d(x)的值与T_e比较，可以求得成功响应的请求数N_R。

由于云数据中心系统是离散系统，因此在计算T内的服务可靠性时，需要按照时间间隔Δt将T进行划分为T/Δt个时间区间。在n_tΔt(n_t＝1,2,…,T/Δt)时刻，系统的服务可靠性通过对在时间间隔[(n_t-1)Δt,n_tΔt]内累积的请求进行计算。根据公式(1)的定义，可以表示为：

以某保险公司的双活云数据中心为例。分析其IT架构，可简化为如图1所示。按照上述建模方法即可建立其HCGSPN模型。

本发明中，运用了支持随机Petri网和有色Petri网的仿真软件CPN Tools[34]进行仿真计算。

模型参数设置：

依据实际情况分析，模型参数按表4进行设定。

表4参数设置

请求剖面确定：

由前述可知，服务请求一天内的时间波动性被抽象为多个λ_ak为不同常量的时间间隔。根据用户访问记录，该双活数据中心一天内的三种类型的服务请求剖面如图8所示。不同请求的到来时间间隔可以由此抽样得到。

服务可靠性评估：

设定模型参数后，运行仿真，取Δt＝0.5h，由式(3)评估服务可靠性，结果如图9所示。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种基于层次化的有色广义随机Petri网的云数据中心IT架构服务可靠性建模方法，其特征在于，包括：

所述服务可靠性的定义为在可接受的时延范围内提供正确且准确的服务，其表达式为：

式(1)中，Rel表示服务可靠性，事件R表示N_REQ个服务请求中有N_R个被成功响应，N_REQ表示总请求数，N_R表示成功响应的数目，T_d表示服务请求的时延，T_e表示时延阈值；

所述有色广义随机Petri网为由可能包含令牌的库所集合和变迁集合组成的有向图，其中包含令牌的库所表示状态，变迁表示状态变化，并对每个令牌赋予颜色来进行区别，每个库所和变迁也相应进行着色从而变迁可以针对每种颜色进行触发，通过变迁的触发，令牌按照变迁触发的颜色和令牌颜色之间的函数关系进行消耗和产生；其中变迁包括瞬时变迁和触发时延服从随机分布的时间变迁，所述瞬时变迁的触发使相应令牌即时消耗或产生，所述时间变迁的触发则使得相应令牌经过一定时延后才会消耗或产生；具体的：

所述有色广义随机Petri网为一个十元组CGSPN＝(Σ，P，T，A，Nu，C，G，E，IN，Λ)，其中：

1)Σ是类别的有限集合，又称颜色集；

2)P是库所的有限集合；

3)T是变迁的有限集合，分为两个集合T＝T_t∪T_t’，且其中T_t表示时间变迁集合T_t＝{t₁，t₂，…，t_M}(M为时间变迁总数)，T_t’表示瞬时变迁集合T_t’＝{t_M+1，t_M+2，…，t_M+M’}(M’为瞬时变迁总数)；

4)A是弧的有限集合；

5)Nu是节点函数的有限集合，将每条弧映射为一对起点和终点节点；两种节点必须互不相同且均为P、T两者之一；

6)C：P∪T→Σ是颜色函数的集合，将每个库所p映射为可能的令牌颜色C(p)的集合；p中的每个令牌都必须有属于C(p)集合中的颜色；

10)Λ是分布参数的有限集合，即时间变迁触发速率的集合，Λ＝{λ₁，λ₂，…，λ_M}；对于第m个时间变迁的触发时延服从参数为λ_m的指数分布(m＝1，2，…，M)；

评估云数据中心IT架构的服务可靠性的层次化的有色广义随机Petri网模型分为系统层次和节点层次，所述系统层次模型刻画基于IT架构的处理流程，体现服务请求在相应规则与协议下流经不同节点的路径，在系统层次模型中，节点均用可替换变迁来表示；所述节点层次模型嵌入在可替换变迁中，相应的子页刻画了服务请求在每个节点中的具体处理过程，并考虑节点的故障和资源使用情况，同时，可替换变迁的触发过程体现依据节点故障情况得出的请求的处理路径的过程；

对评估云数据中心IT架构的服务可靠性的层次化的有色广义随机Petri网模型进行建模，建模基于以下设定进行：

设定1：各个中心的配置相同；

设定2：所有节点均为工作或故障的二态节点；对每个节点而言，其工作和故障的概率分别为pr和1-pr；

设定3：当节点发生故障，其修复时间为Δt_r；

设定4：对于服务器类节点，每个节点有一台服务器，对于除服务器类节点外的其他类节点，每个节点有一台处理器；每台服务器或处理器的对于一个服务请求或者子任务的处理时间Δt_s服从参数为λ_s的指数分布；

设定5：第k类服务请求的到来服从参数为λ_ak的泊松过程；

设定6：包括光纤网络和OTV在内的网络连接的可靠度为1；

设定7：计算结果的输出过程服务可靠度为1；

T_d(x)＝t_2(x)-t_1(x) (2)

将每个T_d(x)的值与T_e比较，求得成功响应的请求数N_R；

按照时间间隔Δt将T进行划分为T/Δt个时间区间，在n_tΔt(n_t＝1,2,…,T/Δt)时刻，系统的服务可靠性通过对在时间间隔[(n_t-1)Δt,n_tΔt]内累积的请求进行计算。根据公式(1)的定义，表示为：

2.根据权利要求1所述的一种基于层次化的有色广义随机Petri网的云数据中心IT架构服务可靠性建模方法，其特征在于，所述云数据中心包含两个依照三层架构布局的中心，即双活数据中心；

所述三层架构为按需访问层、服务层和存储层分层；

3.根据权利要求2所述的一种基于层次化的有色广义随机Petri网的云数据中心IT架构服务可靠性建模方法，其特征在于，所述云数据中心的IT架构节点配置方式为：

每个子集群中包括Ns_kj个工作的AS节点和2个工作的DS节点。

4.根据权利要求3所述的一种基于层次化的有色广义随机Petri网的云数据中心IT架构服务可靠性建模方法，其特征在于，所述云数据中心的服务请求处理流程为：

REQ_x(k)输入后，CSW处根据GTM根据各个中心的AM工作情况判断的结果去往某个中心；接着途径FW后，在SW处由SLB对于AM工作情况进行确认，从而决定是否去往其他中心，并选择去往第k个集群中的某个AM进行请求处理，其中k＝1，2，…，K，在AM中，REQ_x(k)将分解为X_k1个流向DM的子任务和X_k2个流向AS的子任务；在SAN处会根据SVC对于ST工作情况判断的结果选择某个中心的ST；直至ST完成对子任务的处理后，子计算结果按照原路输出，并在AM处合并为计算结果原路输出返回给用户。

5.根据权利要求4所述的一种基于层次化的有色广义随机Petri网的云数据中心IT架构服务可靠性建模方法，其特征在于，云数据中心的HCGSPN模型的页面层次结构，页Overview#1与11种子页直接相连，其中子页Cluster#6、Profile#1和Gather#1与Overview#1共同构成系统层次模型，而Cluser#6子页又进一步与4种节点子页直接相连，这4种节点子页与其余的节点子页共同构成了节点层次模型，依据此页面层次划分，系统层次模型和节点层次模型的建立过程具体为：

在系统层次模型中，页Overview#1体现了在IT架构中的请求处理流程，并通过31个可替代变迁与以下子页面连接：

2)Profile#1和Gather#1，为了建模逻辑的清晰和视图的简洁，请求到来的过程和子计算结果的合并过程同样被分层为子页Profile#1和Gather#1，Profile#1刻画了每个服务请求的到来过程，根据设定5，第k类请求的到来过程服从参数为λ_ak的泊松过程，考虑到服务请求的时间波动性，每天可以分为多个有不同λ_ak值的时间区间，而对于每个时间区间，λ_ak看做常数，在其中的一个时间区间中，每个k类请求的到达时间间隔可以被抽象为触发时延服从指数分布E(λ_ak)的时间变迁t_a，k，然后运用Monte Carlo仿真抽样获得每个服务请求的到来时间间隔Δt_ak*，由此得知其到达时刻，于是，每个R_x(k)由一个序号x、请求类别k和到达时刻构成，Gather#1刻画了每个不同的子计算结果合并为最终计算结果的过程，当得到最后一个子计算结果，即最终计算结果完成合并；

3)节点子页，每个节点中的处理细节被分层为子页，所有的节点子页构成节点层次模型，并在2.3.2.2节中进行了详细说明，

系统层次模型中定义的颜色集及相关变量与常量如下：共定义了6种库所颜色集，包括Requests、Subtasks、Decisions、Arrivals、Types和Numbers，Requests和Subtasks分别代表R_x(k)和S_RxDM/S_RxDS/S_RxAS；Decisions体现了决策类节点的判定规则；Arrivals、Types和Numbers则分别用于生成请求到达时间、序号和服务种类，而变迁t_G，v(v＝1，…，24)将输入变量映射为输出变量，从而实现不同颜色集之间的转化，

1)计算处理过程被抽象为服务器或处理器时间变迁t_s，v(v＝1，…，12)，其触发时延表征处理时间Δt_s，服从随机分布，设定分布参数后，运用Monte Carlo仿真抽样获得对每个请求的处理时间Δt_s*；

3)节点故障由两个分别代表工作和故障状态的库所“Working”和“Failure”(颜色集为State)和三个变迁“Break”、“Retain”和“Recover”组成的循环来表征，时间变迁“Recover”的触发时延t_r，v(v＝1，…，12)代表恢复时间Δt_r，每个状态都赋有一个状态概率，每个时刻的节点状态由颜色集为Sampling的抽样过程来表征，对应变量为SPL，设定处于工作状态的概率pr及故障概率1-pr后，运用Monte Carlo仿真抽样获得每个时刻节点的状态。