CN107302447B - 一种基于复杂系统的多层数据分析方法 - Google Patents

一种基于复杂系统的多层数据分析方法 Download PDF

Info

Publication number
CN107302447B
CN107302447B CN201710354863.2A CN201710354863A CN107302447B CN 107302447 B CN107302447 B CN 107302447B CN 201710354863 A CN201710354863 A CN 201710354863A CN 107302447 B CN107302447 B CN 107302447B
Authority
CN
China
Prior art keywords
pool
server
token
backup
servers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710354863.2A
Other languages
English (en)
Other versions
CN107302447A (zh
Inventor
管海兵
汤之光
周海航
朱昱锦
�田润
姚建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201710354863.2A priority Critical patent/CN107302447B/zh
Publication of CN107302447A publication Critical patent/CN107302447A/zh
Application granted granted Critical
Publication of CN107302447B publication Critical patent/CN107302447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0888Throughput
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0894Packet rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 

Abstract

本发明公开了基于复杂系统的多层数据分析方法,其使用Markov chain和Stochastic Reward Net来进行建模,将数据中心分为3层,为PDU、switch和server层,PDU采用集中式,也即整个数据中心只由单台PDU管理,Switch网络结构为简化的Fat Tree,分为Core Switch和Edge Switch层。Server分两类,逻辑上认为Server分别分布在主服务器集群池和备用服务器集群池。本发明中数据中心的可用性定义为主服务器集群池内可用server的台数。本发明通过对数据中心可用性的定量分析,为其确定合适的超配比,引入转移延迟,使得模型更加符合实际。

Description

一种基于复杂系统的多层数据分析方法
技术领域
本发明涉及到系统数据处理领域,具体涉及到一种基于复杂系统的多层数据分析方法,使用Markov chain和Stochastic Reward Net来分析数据中心的可用性。
背景技术
可用性,即一个系统处在可工作状态的时间比例。可用性的分析方法分为两类,一类是组合法,一类是状态法。组合法是基于系统和组成器件之间逻辑关系的一种分析方法,包含可靠性框图法,可靠图法,故障树分析法;状态法包含基于Markov过程的方法和基于Petri网的方法,Petri网的方法又分为随机Petri网、随机回报网、广义随机Petri网。
随着科学技术的发展,系统的规模越来越大,复杂程度越来越高,用组合法很难完整描述此类系统;用状态法则求解的复杂性又难以克服。而且现在很多系统都是刚性系统,参数之间的数量级存在很大差别,使得系统可靠性分析难度大大增加。针对这些问题,现有技术中有一些解决办法:一是采用分解技术和层次化结构。分解技术是将大模型分解成一些小的子模型来简化复杂性。层次化结构是将组合法或状态法中的一种或几种方法组合起来建立模型,以利用各个方法的长处;二是发展数值分析技术。数值分析技术使大规模模型和刚性系统的分析变得可行;三是对原有方法进行扩展。对原有方法进行扩展,是现在针对原有方法的限制条件,在应用过程中提出了一些扩展方法。比如用半Markov模型来分析非指数分布的系统,在故障树分析中增加各种逻辑门来增强模型的描述能力。
当前可用性研究中,大部分都停留在对server层的分析,而没有考虑数据中心的拓扑结构,然而上层设备的故障会导致底层Server的失效,从而影响数据中心的可用性。
发明内容
针对现有技术中的缺陷,本发明提出了一种基于复杂系统的多层数据分析方法,本发明考虑了server的故障与修复,使用了Markov链和随机回报网,还考虑到了PDU(PowerDistribution Unit)超配的情况,将上层Core Switch的故障和修复建模为生灭过程。Main池内为正常运行的server,backup池内为备用的server;当main池内server故障时,backup池内若有可用的server,则其中的某一server在经历一定转移延迟以后,被转移到main池内代替故障的server。
为实现上述目的,本发明是根据以下技术方案实现的:
一种基于复杂系统的多层数据分析方法,其特征在于,包括如下步骤:
步骤S1:给定某类工作负载,通过分析该负载的用电情况,可得出某负载用电的累计分布函数,最大用电量被标准化为1;
步骤S2:根据累计分布函数,得出PDU在不同超配比下的平均故障时间MTTFO,由于超配而故障的故障速率为fo=1/MTTFO,PDU自身的设备故障速率为fp,则PDU的总故障速率为fPDU=fp+fo
步骤S3:分析Switch的Core Switch层,将Core Switch的故障与修复,建模为生灭过程,并推出Core Switch层的故障速率fco
步骤S4:设定Edge Switch的故障速率为其设备故障速率fe,得出上层设备的总故障速率为:fsum=fPDU+fco+fe
步骤S5:将得到的上层设备故障速率总和加到底层server;
步骤S6:建立主服务器集群main池和备用服务器集群backup池的SRN模型;
步骤S7:通过模型之间的信息交换和迭代,使模型最后达到稳定状态;
步骤S8:记录在稳定状态下的可用性结果。
上述技术方案中,所述步骤S3中,设每个Core Switch层的故障速率为fr,当CoreSwitch层处于状态i时,该层的故障速率为fr·i;处于任意状态的修复速率定义为r,对于生灭过程,当系统到达稳定时,处于状态i的概率为:
Figure BDA0001298576230000031
其中
Figure BDA0001298576230000032
可由以下公式推出:
Figure BDA0001298576230000033
得出至少有一台Core Switch正常运行的概率为:
Figure BDA0001298576230000034
假设所有Core Switch均故障所需要的平均故障时间为MTTFco,对应的故障速率为fco=1/MTTFco,当所有Core Switch层均故障时,则pco表示为:
Figure BDA0001298576230000035
推算出fco为:
Figure BDA0001298576230000036
上述技术方案中,所述步骤S6中,在计算出fsum的情况下,将其作为参数代入main池的SRN模型,Nm表示main池,令牌数为
Figure BDA0001298576230000037
表示main池内可用的server,设定main池内server自身故障速率为fm,则任一台server的综合故障速率为fsum+fm
设定backup池内有可用server的概率为pb,Fbm表示当backup池内有可用server时main池内有server发生故障,Fbm的触发速率为
Figure BDA0001298576230000041
Fm表示当backup池内没有可用server时main池内有server发生故障,Fm的触发速率为
Figure BDA0001298576230000042
当Fm被触发时,一个令牌从Nm转移到Nfm,Nfm内的令牌数代表main池内等待修复的server数;当Fbm被触发时,一个令牌从Nm转移到Nbm,Nbm内的令牌数代表等待从backup池内转移到main池内,替代故障server的数目;
Rm表示一台故障server的修复过程,当Rm被触发时,一个令牌从Nfm转移到Nm,代表着被修复的server被送回到main池内,Rm的触发速率为r;
Mbm表示一台server的转移过程,当被触发时,一个令牌从Nbm转移到Nm,代表着一台server已成功从backup池转移到main池,Mbm的触发速率为mr
上述技术方案中,所述步骤S6中,将fsum作为参数代入backup池的SRN模型,Nb表示backup池,令牌数为
Figure BDA0001298576230000043
表示backup池内可用的server,设定backup池内server自身故障速率为fb,则任一台server的综合故障速率为fsum+fb
Fbm表示当backup池内某台可用的server需要被转移到main池内,替代故障main池内的server。计算出main池内可用server数的期望:
Figure BDA0001298576230000044
其中
Figure BDA0001298576230000046
为main池内有i台server可用的概率,通过对main池的统计得到,从而backup池内Fbm的触发速率为
Figure BDA0001298576230000045
当backup池内某台server故障时,Fb被触发,Fb的触发速率为
Figure BDA0001298576230000051
当Fbm被触发时,一个令牌从Nb转移到Nbm,Nbm的令牌数代表等待从backup池转移到main池的server数;当Fb被触发时,一个令牌从Nb转移到Nfb,Nfb的令牌数代表backup池自身发生故障的server数;
当Mbm被触发时,一个令牌从Nbm转移到Nbc,代表着一台server成功从backup池转移到main池;之后故障的server将被送去修复,而且在修复完成后被送返backup池;Nbc内的令牌数即代表等待被修复的server台数;当Nbc+Nfb>0,即表示至少有一台serve等待被修复,Rb才有可能被触发,Rb的触发速率为r,一旦被触发,一个令牌将被放入Nbr,如果Nbc和Nbr内均至少有一个令牌,瞬态跃迁rb1将被触发,Nbc和Nbr内各被取出一个令牌,Nb被放入一个令牌,代表一个故障server已经被修复,并被送回backup池;否则,如果Nfb和Nbr内均至少有一个令牌,瞬态跃迁rb2将被触发,Nfb和Nbr内各被取出一个令牌,Nb被放入一个令牌。
与现有技术相比,本发明具有如下的有益效果:
本发明在数据中心可用性分析中,将超配纳入考虑范围之内,此外对数据中心的研究不仅仅只集中于server层,还考虑了上层设备的故障及修复对数据中心可用性的影响。在此基础上建立了同时具有主服务器集群(main池)和备用服务器集群(backup池)的SRN模型,可以分析结构较复杂的数据中心可用性,并且引入了转移延迟,使得建立的模型更加符合实际。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为数据中心的结构示意图;
图2为Core Switch对应的生灭过程示意图;
图3为main池的SRN模型图;
图4为backup池的SRN模型图;
图5为Google Trace和Wiki Trace下,Job Size的累计分布函数图;
图6为在Google Trace下,超配比在20%~30%变化时,数据中心可用性的模拟和分析结果示意图;
图7为在Wiki Trace下,超配比在5.5%~6.5%变化时,数据中心可用性的模拟和分析结果示意图;
图8为在Google Trace下,超配比在20%~30%变化时,无转移延迟和有转移延迟情况下,数据中心可用性的模拟结果示意图;
图9为在Wiki Trace下,超配比在5.5%~6.5%变化时,无转移延迟和有转移延迟情况下,数据中心可用性的模拟结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
图1为数据中心的结构示意图;采用集中式PDU供电,网络拓扑为简化的二层FATTREE,Server被分为main server和backup server两类。
马尔科夫过程,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求下一状态的概率分布只能由当前状态决定,在此之前的事件对将来无影响,也即无记忆性。
马尔科夫过程又分为离散时间马尔科夫过程和连续时间马尔科夫过程。本发明采用的是连续时间马尔科夫过程中的生灭过程。
设随机过程{X(t),t≥0},状态空间I={in,n≥1},若对于任意的正数0≤t1<t2<···<tn+1及任意非负整数i1,i2,···,in+1∈I,条件概率满足
Figure BDA0001298576230000071
则称{X(t),t≥0}为连续时间马尔科夫过程。生灭过程为时间连续,状态离散的马尔科夫过程,某一状态到达相邻状态所需的时间都服从指数分布。对应的马尔科夫链见图2。
随机回报网是随机Petri网的一种变种,Petri网是由卡尔.亚当.佩特里发明的,适合于描述异步的、并发的计算机系统模型。研究领域趋向认为Petri网是所有流程定义语言之母。
经典的Petri网是简单的过程模型,由库所、变迁、有向弧以及令牌等元素组成。根据本发明提供的,在超配情况下的,可用性分析模型,可用于分析具有复杂结构的多层数据中心。本发明的两个池对应的随机回报网模型如图3和4。本发明的一种基于复杂系统的多层数据分析方法,包括如下步骤:
步骤S1:给定某类工作负载,通过分析该负载的用电情况,可得出某负载用电的累计分布函数,最大用电量被标准化为1;
步骤S2:根据累计分布函数,得出PDU在不同超配比下的平均故障时间MTTFO,由于超配而故障的故障速率为fo=1/MTTFO,PDU自身的设备故障速率为fp,则PDU的总故障速率为fPDU=fp+fo
步骤S3:分析Switch的Core Switch层,将Core Switch的故障与修复,建模为生灭过程,并推出Core Switch层的故障速率fco
步骤S4:由于Edge Switch和Server直接相连,而且每个Edge Switch均与其他Edge Switch独立设定Edge Switch的故障速率为其设备故障速率fe,得出上层设备的总故障速率为:fsum=fPDU+fco+fe
步骤S5:将得到的上层设备故障速率总和加到底层server;
步骤S6:建立主服务器集群main池和备用服务器集群backup池的SRN模型;
步骤S7:通过模型之间的信息交换和迭代,使模型最后达到稳定状态;
步骤S8:记录在稳定状态下的可用性结果。
步骤S3中,首先分析Switch的Core Switch层,因为是二层FAT TREE结构,所以只有当所有Core Switch都故障时,下层的Edge Switch和Server才会失效。Core Switch层的故障与修复,可看做一个生灭过程,如图2所示。设每个Core Switch层的故障速率为fr,当Core Switch层处于状态i时,该层的故障速率为fr·i;处于任意状态的修复速率定义为r,对于生灭过程,当系统到达稳定时,处于状态i的概率为:
Figure BDA0001298576230000081
其中
Figure BDA0001298576230000082
可由以下公式推出:
Figure BDA0001298576230000083
得出至少有一台Core Switch正常运行的概率为:
Figure BDA0001298576230000084
假设所有Core Switch均故障所需要的平均故障时间为MTTFco,对应的故障速率为fco=1/MTTFco,当所有Core Switch层均故障时,则pco表示为:
Figure BDA0001298576230000091
推算出fco为:
Figure BDA0001298576230000092
步骤S6中,在计算出fsum的情况下,将其作为参数代入main池的SRN模型,如图3所示,白色圆圈代表库所,白色长方形代表延时跃迁,黑色圆圈代表令牌,Nm表示main池,令牌数为
Figure BDA0001298576230000093
表示main池内可用的server,设定main池内server自身故障速率为fm,则任一台server的综合故障速率为fsum+fm
设定backup池内有可用server的概率为pb,Fbm表示当backup池内有可用server时main池内有server发生故障,Fbm的触发速率为
Figure BDA0001298576230000094
Fm表示当backup池内没有可用server时main池内有server发生故障,Fm的触发速率为
Figure BDA0001298576230000095
当Fm被触发时,一个令牌从Nm转移到Nfm,Nfm内的令牌数代表main池内等待修复的server数;当Fbm被触发时,一个令牌从Nm转移到Nbm,Nbm内的令牌数代表等待从backup池内转移到main池内,替代故障server的数目;
Rm表示一台故障server的修复过程,当Rm被触发时,一个令牌从Nfm转移到Nm,代表着被修复的server被送回到main池内,Rm的触发速率为r;
Mbm表示一台server的转移过程,当被触发时,一个令牌从Nbm转移到Nm,代表着一台server已成功从backup池转移到main池,Mbm的触发速率为mr
步骤S6中,将fsum作为参数代入backup池的SRN模型,如图4所示,白色圆圈代表库所,白色长方形代表延时跃迁,黑色圆圈代表令牌,黑色长方形代表瞬时跃迁。Nb表示backup池,令牌数为
Figure BDA0001298576230000101
表示backup池内可用的server,设定backup池内server自身故障速率为fb,则任一台server的综合故障速率为fsum+fb
Fbm表示当backup池内某台可用的server需要被转移到main池内,替代故障main池内的server。计算出main池内可用server数的期望:
Figure BDA0001298576230000102
其中
Figure BDA0001298576230000103
为main池内有i台server可用的概率,通过对main池的统计得到,从而backup池内Fbm的触发速率为
Figure BDA0001298576230000104
当backup池内某台server故障时,Fb被触发,Fb的触发速率为
Figure BDA0001298576230000105
当Fbm被触发时,一个令牌从Nb转移到Nbm,Nbm的令牌数代表等待从backup池转移到main池的server数;当Fb被触发时,一个令牌从Nb转移到Nfb,Nfb的令牌数代表backup池自身发生故障的server数;
当Mbm被触发时,一个令牌从Nbm转移到Nbc,代表着一台server成功从backup池转移到main池;之后故障的server将被送去修复,而且在修复完成后被送返backup池;Nbc内的令牌数即代表等待被修复的server台数;当Nbc+Nfb>0,即表示至少有一台serve等待被修复,Rb才有可能被触发,Rb的触发速率为r,一旦被触发,一个令牌将被放入Nbr,如果Nbc和Nbr内均至少有一个令牌,瞬态跃迁rb1将被触发,Nbc和Nbr内各被取出一个令牌,Nb被放入一个令牌,代表一个故障server已经被修复,并被送回backup池;否则,如果Nfb和Nbr内均至少有一个令牌,瞬态跃迁rb2将被触发,Nfb和Nbr内各被取出一个令牌,Nb被放入一个令牌。
步骤S7中,通过main池和backup池交互运行,并把一方的输出当成另一方的输入,若干次迭代后,最终使
Figure BDA0001298576230000111
和pb的值达到稳定,从而整个系统到达稳定状态;最后记录在稳定状态下的可用性结果。
本发明的一个具体实施例采用了Google Trace和Wiki Trace来作为工作负载进行分析,main池和backup池内可用server数,初始均设为100,数据中心的可用性定义为main池内可用server数不小于99的概率,图5为Google Trace和Wiki Trace下,Job Size的累计分布函数图。PDU的MTTF设为900万小时,Core Switch的MTTF为50万小时,Edge Switch的MTTF为20万小时。Main池内是运行的server,backup池内的server为处于关机状态的备用server,所以main池内server的MTTF要小一点,设为1000小时;backup池内server的MTTF设为3500小时。为了简化,设备修复的MTTR均设为3小时。
当忽略server从main池到backup池的转移延迟时,即将两个SRN中的Mbm改为瞬态跃迁,两个池的模型分别等价于两个生灭过程。生灭过程的分析类似于图2,此处不再赘述。通过SRN模型模拟所得的和经过对生灭过程的分析所得结果对比如图6-7。在图6中,本发明给出了使用Google Trace,超配比在20%~30%情况下,通过模拟所得出的和由分析得出的数据中心可用性结果。图7给出了使用Wiki Trace,超配比在5.5%~6.5%时,对应的结果。可以看出,模拟所得的结果和分析结果相差不大。
为了更贴近实际情况,本发明引入了转移延迟,在图8中,本发明给出了使用Google Trace,超配比在20%~30%情况下,模拟无转移延迟和有转移延迟的数据中心可用性结果。图9给出了使用Wiki Trace,超配比在5.5%~6.5%时,对应的结果。可以看出,在有转移延迟的情况下,数据中心可用性有所下降。这和实际情况时相符合的:当没有转移延迟时,一旦main池内server故障,backup池内可用的server将会立即代替故障server;若有转移延迟,那么故障的server经过一段时间才能被backup池内的server取代,这段时间也就导致可用性降低了。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (4)

1.一种基于复杂系统的多层数据分析方法,其特征在于,包括如下步骤:
步骤S1:给定某类工作负载,通过分析该负载的用电情况,可得出某负载用电的累计分布函数,最大用电量被标准化为1;
步骤S2:根据累计分布函数,得出PDU在不同超配比下的平均故障时间MTTFO,PDU表示电源分配单元,用来为所有交换机和服务器提供电能,由于超配而故障的故障速率为fo=1/MTTFO,PDU自身的设备故障速率为fp,则PDU的总故障速率为fPDU=fp+fo
步骤S3:分析Switch的Core Switch层,将Core Switch的故障与修复,建模为生灭过程,并推出Core Switch层的故障速率fco
步骤S4:设定Edge Switch的故障速率为其设备故障速率fe,得出上层设备的总故障速率为:fsum=fPDU+fco+fe
步骤S5:将得到的上层设备故障速率总和加到底层server;
步骤S6:建立主服务器集群main池和备用服务器集群backup池的SRN模型;SRN表示随机回报网,它是一种随机Petri网的一种变种;
步骤S7:通过模型之间的信息交换和迭代,使模型最后达到稳定状态;
步骤S8:记录在稳定状态下的可用性结果。
2.根据权利要求1所述的一种基于复杂系统的多层数据分析方法,其特征在于:所述步骤S3中,设每个Core Switch层的故障速率为fr,当Core Switch层处于状态i时,该层的故障速率为fr·i;nr表示初始时刻可用的Core Switch台数;
Figure FDA0002680495380000011
表示在所有状态修复速率为r的情况下达到稳定状态时,恰好有nr台Core Switch可用的概率;
Figure FDA0002680495380000021
表示fr的nr-i次幂,
Figure FDA0002680495380000022
表示fr的nr次幂;
Figure FDA0002680495380000023
表示r的nr-i次幂,
Figure FDA0002680495380000024
表示r的nr次幂,r为单个Core Switch的修复速率,处于任意状态的修复速率定义为r,对于生灭过程,当系统到达稳定时,处于状态i的概率为:
Figure FDA0002680495380000025
其中
Figure FDA0002680495380000026
可由以下公式推出:
Figure FDA0002680495380000027
得出至少有一台Core Switch正常运行的概率为:
Figure FDA0002680495380000028
假设所有Core Switch均故障所需要的平均故障时间为MTTFco,所有Core Switch均修复所需要的平均修复时间为MTTRco,对应的故障速率为fco=1/MTTFco,当所有Core Switch层均故障时,则pco表示为:
Figure FDA0002680495380000029
推算出fco为:
Figure FDA00026804953800000210
3.根据权利要求1所述的一种基于复杂系统的多层数据分析方法,其特征在于:所述步骤S6中,在计算出fsum的情况下,将其作为参数代入main池的SRN模型,Nm表示main池,令牌数为
Figure FDA00026804953800000211
表示main池内可用的server,设定main池内server自身故障速率为fm,则任一台server的综合故障速率为fsum+fm
设定backup池内有可用server的概率为pb,Fbm表示当backup池内有可用server时main池内有server发生故障,Fbm的触发速率为
Figure FDA0002680495380000031
Fm表示当backup池内没有可用server时main池内有server发生故障,Fm的触发速率为
Figure FDA0002680495380000032
当Fm被触发时,一个令牌从Nm转移到Nfm,Nfm表示main池中待修理的server集群池,Nfm内的令牌数代表main池内等待修复的server数;当Fbm被触发时,一个令牌从Nm转移到Nbm,Nbm表示backup池内等待迁移到main池的server集群池,Nbm内的令牌数代表等待从backup池内转移到main池内,替代故障server的数目;
Rm表示一台故障server的修复过程,当Rm被触发时,一个令牌从Nfm转移到Nm,代表着被修复的server被送回到main池内,Rm的触发速率为r;
Mbm表示一台server的转移过程,当被触发时,一个令牌从Nbm转移到Nm,代表着一台server已成功从backup池转移到main池,Mbm的触发速率为mr
4.根据权利要求3所述的一种基于复杂系统的多层数据分析方法,其特征在于:所述步骤S6中,将fsum作为参数代入backup池的SRN模型,Nb表示backup池,令牌数为
Figure FDA0002680495380000033
表示backup池内可用的server,设定backup池内server自身故障速率为fb,则任一台server的综合故障速率为fsum+fb
Fbm表示当backup池内某台可用的server需要被转移到main池内,替代故障main池内的server;nm表示main池初始可用的server台数;计算出main池内可用server数的期望:
Figure FDA0002680495380000041
其中pmi为main池内有i台server可用的概率,通过对main池的统计得到,从而backup池内Fbm的触发速率为
Figure FDA0002680495380000042
当backup池内某台server故障时,Fb被触发,Fb的触发速率为
Figure FDA0002680495380000043
当Fbm被触发时,一个令牌从Nb转移到Nbm,Nbm表示backup池内等待迁移到main池的server集群池,Nbm的令牌数代表等待从backup池转移到main池的server数;当Fb被触发时,一个令牌从Nb转移到Nfb,Nfb的令牌数代表backup池自身发生故障的server数;
当Mbm被触发时,一个令牌从Nbm转移到Nbc,代表着一台server成功从backup池转移到main池;之后故障的server将被送去修复,而且在修复完成后被送返backup池;Nbc表示等待被修复的server集群池,Nbc内的令牌数即代表等待被修复的server台数;当Nbc+Nfb>0,即表示至少有一台serve等待被修复,Rb才有可能被触发,Rb表示server的修复动作,Rb的触发速率为r,r表示server修复速率,一旦被触发,一个令牌将被放入Nbr,如果Nbc和Nbr内均至少有一个令牌,瞬态跃迁rb1将被触发,Nbc和Nbr内各被取出一个令牌,Nb被放入一个令牌,代表一个故障server已经被修复,并被送回backup池;否则,如果Nfb和Nbr内均至少有一个令牌,瞬态跃迁rb2将被触发,Nfb和Nbr内各被取出一个令牌,Nb被放入一个令牌。
CN201710354863.2A 2017-05-18 2017-05-18 一种基于复杂系统的多层数据分析方法 Active CN107302447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710354863.2A CN107302447B (zh) 2017-05-18 2017-05-18 一种基于复杂系统的多层数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710354863.2A CN107302447B (zh) 2017-05-18 2017-05-18 一种基于复杂系统的多层数据分析方法

Publications (2)

Publication Number Publication Date
CN107302447A CN107302447A (zh) 2017-10-27
CN107302447B true CN107302447B (zh) 2021-02-12

Family

ID=60137238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710354863.2A Active CN107302447B (zh) 2017-05-18 2017-05-18 一种基于复杂系统的多层数据分析方法

Country Status (1)

Country Link
CN (1) CN107302447B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108521352B (zh) * 2018-03-26 2022-07-22 天津大学 基于随机回报网的在线云服务尾延迟预测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447569B1 (en) * 2009-09-15 2013-05-21 Hewlett-Packard Development Company, L.P. Determining sustainability of a data center
JP5054220B1 (ja) * 2011-08-19 2012-10-24 株式会社大塚商会 仮想データセンタシステム
CN105743705B (zh) * 2016-03-31 2018-12-11 中国人民解放军国防科学技术大学 一种基于分级策略的数据中心网络可用性评估方法及评估装置
CN106096145B (zh) * 2016-06-15 2019-04-12 中国人民解放军国防科学技术大学 一种基于状态空间的复杂系统图形化建模与分析系统

Also Published As

Publication number Publication date
CN107302447A (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
US10372859B2 (en) System and method for designing system on chip (SoC) circuits using single instruction multiple agent (SIMA) instructions
Robidoux et al. Automated modeling of dynamic reliability block diagrams using colored Petri nets
Zhou Modeling, analysis, simulation, scheduling, and control of semiconductor manufacturing systems: A Petri net approach
CN110942387B (zh) 基于微服务的电票业务功能构建方法和系统
Goševa-Popstojanova et al. Stochastic modeling formalisms for dependability, performance and performability
CN107850927A (zh) 具有功率开关仲裁器的功率管理器
CN113010393A (zh) 基于混沌工程的故障演练方法及装置
CN109445903A (zh) 基于QoS特征发现的云计算节能调度实现方法
Xing et al. A separable ternary decision diagram based analysis of generalized phased-mission reliability
Silva et al. Astro: A tool for dependability evaluation of data center infrastructures
CN107302447B (zh) 一种基于复杂系统的多层数据分析方法
Su et al. A model of component consistency in distributed diagnosis
CN116578420A (zh) 水务智联设备及其控制方法
Pileggi et al. Lifecycle Governance for Effective Digital Twins: A Joint Systems Engineering and IT Perspective
Sukhwani et al. Largeness avoidance in availability modeling using hierarchical and fixed-point iterative techniques
Popovic et al. Formal verification of distributed transaction management in a SOA based control system
Roy et al. A self-updating K-contingency list for smart grid system
Chen et al. A high performance computational framework for dynamic security assessment under uncertainty
CN112988724A (zh) 一种工作效率数据获取方法及系统
Bui et al. A survivable design of last mile communication networks using multi-objective genetic algorithms
Wang et al. The research on electric power control center credit monitoring and management using cloud computing and smart workflow
Ponomarenko et al. The Software Platform for Evaluation of Effectiveness of Network Systems Analysis Technologies
Zhang et al. SOA software architecture extended modeling considering reliability information
CN109508260A (zh) 一种自修复处理器对锁步系统的可靠性建模与分析方法
Lin et al. Investigation of numerical performance of partitioning and parallel processing of Markov chain (PPMC) for complex design problems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant