CN105260253A - 一种服务器故障测算方法和装置 - Google Patents

一种服务器故障测算方法和装置 Download PDF

Info

Publication number
CN105260253A
CN105260253A CN201510556725.3A CN201510556725A CN105260253A CN 105260253 A CN105260253 A CN 105260253A CN 201510556725 A CN201510556725 A CN 201510556725A CN 105260253 A CN105260253 A CN 105260253A
Authority
CN
China
Prior art keywords
value
measuring
calculating
processing unit
score value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510556725.3A
Other languages
English (en)
Inventor
陆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510556725.3A priority Critical patent/CN105260253A/zh
Publication of CN105260253A publication Critical patent/CN105260253A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种服务器故障的测算方法和装置。该方法包括:根据采集到的响应时间与预设的第一测算基准,确定第一分值;根据采集到的CPU利用率与预设的第二测算基准,确定第二分值;根据采集到的内存利用率与预设的第三测算基准,确定第三分值;根据采集到的磁盘I/O占有率与预设的第四测算基准,确定第四分值;根据采集到的网络速率与预设的第五测算基准,确定第五分值;将第一权重值与第一分值的乘积、第二权重值与第二分值的乘积、第三权重值与第三分值的乘积、第四权重值与第四分值的乘积、第五权重值与第五分值的乘积,相加,计算出测算和值;根据测算和值,确定服务器的未来故障时间信息。本方案能够更为准确地测算服务器的故障时间。

Description

一种服务器故障测算方法和装置
技术领域
本发明涉及网络通信技术,特别涉及一种服务器故障测算方法和装置。
背景技术
随着数据中心的飞速发展,大规模现代化的数据中心越来越成为互联网时代的需要。当数据中心所具有的服务器数量达到一定规模,如100000台时,对这么大规模的服务器进行监控管理的难度可想而知,传统的服务器监控系统不能帮助管理员测算未来的情况,只能做到对当前服务器状况的实时监测和告警,然而这已经远远满足不了管理员对服务器监控系统的需要。例如,一个具有100000台服务器的数据中心服务器监控系统,意味着运维管理人员会一直在处理服务器故障或者投入大量的运维管理人员都无法完全应对服务器的故障处理、扩容和运行保障等。以上挑战为大规模数据中心的服务器监控带了极大的问题,严重影响大规模数据中心的发展,因此需要对服务器的故障进行测算。
服务器故障测算可使运维管理人员提前获知服务器的运行趋势,根据故障测算结论对服务器进行相应的处理措施,大大提升了运维管理效率的同时,也高质量的保障了大规模服务器的正常运行,加快了数据中心的发展。
但是,目前,并没有有效的服务器故障测算方法。
发明内容
本发明提供一种服务器故障测算方法和装置,能够更为准确地测算出服务器的故障。
一种服务器故障的测算方法,设置服务器的关键性能指标包括:响应时间、CPU利用率、内存利用率、磁盘I/O占有率、网络速率,以及设置响应时间、CPU利用率、内存利用率、磁盘I/O占有率、网络速率分别对应的第一权重值、第二权重值、第三权重值、第四权重值、第五权重值;还包括:
采集服务器当前的响应时间、CPU利用率、内存利用率、磁盘I/O占有率、网络速率;
根据采集到的响应时间与预设的第一测算基准,确定响应时间对应的第一分值;
根据采集到的CPU利用率与预设的第二测算基准,确定CPU利用率对应的第二分值;
根据采集到的内存利用率与预设的第三测算基准,确定内存利用率对应的第三分值;
根据采集到的磁盘I/O占有率与预设的第四测算基准,确定磁盘I/O对应的第四分值;
根据采集到的网络速率与预设的第五测算基准,确定网络速率对应的第五分值;
将第一权重值与第一分值的乘积、第二权重值与第二分值的乘积、第三权重值与第三分值的乘积、第四权重值与第四分值的乘积、第五权重值与第五分值的乘积,相加,计算出测算和值;
根据测算和值,确定服务器的未来故障时间信息。
所述第一权重值、第二权重值、第三权重值、第四权重值、第五权重值分别为:15%、25%、25%、20%以及15%。
所述第一测算基准包括:当响应时间大于等于第一预设值A1时,分值为0分;响应时间小于等于第二预设值A2时,分值为100分;当响应时间X介于A1与A2之间时,分值为:(X-A2)/(A1-A2);
和/或,
所述第二测算基准包括:CPU利用率的分值计算公式为(100%-CPU利用率)*100;
和/或,
所述第三测算基准包括:内存利用率的分值计算公式为(100%-内存利用率)*100;
和/或,
所述第四测算基准包括:磁盘I/O占用率的分值计算公式为(100%-磁盘I/O占用率)*100;
所述第五测算基准包括:当网络速率小于等于第三预设值B1时,分值为0分;网络速率大于等于第二预设值B2时,分值为100分;当网络速率Y介于A1与A2之间时,分值为:(Y-B1)/(B2-B1)。
所述A1为3000毫秒;所述A2为30毫秒;
所述B1为3Kbps;所述B2为10Mbps。
该方法进一步包括:设定测算周期;在每一个测算周期内多次执行所述采集及计算测算和值的处理;
所述根据测算和值,确定服务器的未来故障时间信息包括:
统计每个测算周期内各个测算和值的平均值;
根据统计出的多个测算周期的平均值,计算出下一个测算周期的平均值;
如果该计算出的平均值小于预设值,则确定在下一个测算周期内服务发生故障。
一种服务器故障的测算装置,第一指标处理单元、第二指标处理单元、第三指标处理单元、第四指标处理单元、第五指标处理单元、以及测算处理单元,其中,
第一指标处理单元,用于采集服务器的响应时间,根据采集到的响应时间与保存的第一测算基准,确定响应时间对应的第一分值;
第二指标处理单元,用于采集CPU利用率,根据采集到的CPU利用率与保存的第二测算基准,确定CPU利用率对应的第二分值;
第三指标处理单元,用于采集内存利用率,根据采集到的内存利用率与保存的第三测算基准,确定内存利用率对应的第三分值;
第四指标处理单元,用于采集磁盘I/O占有率,根据采集到的磁盘I/O占有率与保存的第四测算基准,确定磁盘I/O对应的第四分值;
第五指标处理单元,用于采集网络速率,根据采集到的网络速率与保存的第五测算基准,确定网络速率对应的第五分值;
测算处理单元,用于将预先设置的第一权重值与第一指标处理单元输出的第一分值相乘、将预先设置的第二权重值与第二指标处理单元输出的第二分值相乘、将预先设置的第三权重值与第三指标处理单元输出的第三分值相乘、将预先设置的第四权重值与第四指标处理单元输出的第四分值相乘、将预先设置的第五权重值与第五指标处理单元输出的第五分值相乘,将所有的乘积相加,计算出测算和值;根据测算和值,确定服务器的未来故障时间信息。
所述第一权重值、第二权重值、第三权重值、第四权重值、第五权重值分别为:15%、25%、25%、20%以及15%。
所述第一指标处理单元中包括第一分值计算子单元,用于在采集到的响应时间大于等于第一预设值A1时,确定第一分值为0分;在响应时间小于等于第二预设值A2时,确定第一分值为100分;当采集到的响应时间X介于A1与A2之间时,确定第一分值为:(X-A2)/(A1-A2);
和/或,
所述第二指标处理单元中包括第二分值计算子单元,用于利用计算公式(100%-CPU利用率)*100,计算出第二分值;
和/或,
所述第三指标处理单元中包括第三分值计算子单元,用于利用计算公式为(100%-内存利用率)*100,计算出第三分值;
和/或,
所述第四指标处理单元中包括第四分值计算子单元,用于利用计算公式为(100%-磁盘I/O占用率)*100,计算出第四分值;
和/或,
所述第五指标处理单元中包括第五分值计算子单元,用于在采集到的网络速率小于等于第三预设值B1时,确定第五分值为0分;在网络速率大于等于第二预设值B2时,确定第五分值为100分;当网络速率Y介于A1与A2之间时,确定第五分值为:(Y-B1)/(B2-B1)。
所述A1为3000毫秒;所述A2为30毫秒;
所述B1为3Kbps;所述B2为10Mbps。
所述第一指标处理单元、第二指标处理单元、第三指标处理单元、第四指标处理单元和第五指标处理单元均在每一个测算周期内多次执行所述采集及确定对应分值的处理;相应地,所述测算处理单元在每一个测算周期内多次执行计算测算和值的处理;
所述测算处理单元,统计每个测算周期内各个测算和值的平均值;根据统计出的多个测算周期的平均值,计算出下一个测算周期的平均值;如果该计算出的平均值小于预设值,则确定在下一个测算周期内服务发生故障。
本发明实施例提供的服务器故障的测算方法和装置,能够将能反映服务器当前运行情况的响应时间、CPU利用率、内存利用率、磁盘I/O占有率、网络速率这5个关键性能指标引入测算方法中,对于该5个关键性能指标中的每一个都预先设置对应的权重值以及对应的测算基准,利用实际业务中采集的关键性能指标的值,以及预先设置的对应的测算基准,能够得到对应于每一个关键性能指标的分值,该分值反映服务器在该关键性能指标上的运行情况,最后,将所有分值进行加权计算,则可以得到一个综合的能够反映服务器运行情况的测算和值,基于该测算和值所预测的服务器故障的时间则更为准确。
附图说明
图1是本发明一个实施例中服务器故障测算方法的流程图。
图2是本发明另一个实施例中服务器故障测算方法的流程图。
图3是本发明一个实施例中服务器故障测算装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明一个实施例提出了一种服务器故障的测算方法,参见图1,该方法包括:
101:预先设置服务器的关键性能指标包括:响应时间、CPU利用率、内存利用率、磁盘I/O占有率、网络速率,以及设置响应时间、CPU利用率、内存利用率、磁盘I/O占有率、网络速率分别对应的第一权重值、第二权重值、第三权重值、第四权重值、第五权重值。
102:采集服务器当前的响应时间、CPU利用率、内存利用率、磁盘I/O占有率、网络速率。
103:根据采集到的响应时间与预设的第一测算基准,确定响应时间对应的第一分值;
104:根据采集到的CPU利用率与预设的第二测算基准,确定CPU利用率对应的第二分值;
105:根据采集到的内存利用率与预设的第三测算基准,确定内存利用率对应的第三分值;
106:根据采集到的磁盘I/O占有率与预设的第四测算基准,确定磁盘I/O对应的第四分值;
107:根据采集到的网络速率与预设的第五测算基准,确定网络速率对应的第五分值;
108:将第一权重值与第一分值的乘积、第二权重值与第二分值的乘积、第三权重值与第三分值的乘积、第四权重值与第四分值的乘积、第五权重值与第五分值的乘积,相加,计算出测算和值;
109:根据测算和值,确定服务器的未来故障时间信息。
可见,本发明实施例提供的服务器故障的测算方法,能够将能反映服务器当前运行情况的响应时间、CPU利用率、内存利用率、磁盘I/O占有率、网络速率这5个关键性能指标引入测算方法中,对于该5个关键性能指标中的每一个都预先设置对应的权重值以及对应的测算基准,利用实际业务中采集的关键性能指标的值,以及预先设置的对应的测算基准,能够得到对应于每一个关键性能指标的分值,该分值反映服务器在该关键性能指标上的运行情况,最后,将所有分值进行加权计算,则可以得到一个综合的能够反映服务器运行情况的测算和值,基于该测算和值所预测的服务器故障的时间则更为准确。
需要说明的是,上述图1所示各步骤并无严格固定的执行先后顺序,只是为了便于描述而拆分的步骤,比如步骤103、步骤104、步骤105、步骤106、步骤107该5个步骤可以同时执行等。
在本发明一个实施例中,根据实际业务的需求,可以确定上述5个关键性能指标对于服务器的重要性,并基于此来设置每个关键性能指标对应的权重值,比如,所述第一权重值、第二权重值、第三权重值、第四权重值、第五权重值分别为:15%、25%、25%、20%以及15%。
在本发明一个实施例中,预先设定的测算基准,用于为上述各个关键性能指标进行评分。
比如,在本发明一个实施例中,用于为响应时间评分的所述第一测算基准包括:当响应时间大于等于第一预设值A1时,分值为0分;响应时间小于等于第二预设值A2时,分值为100分;当响应时间X介于A1与A2之间时,分值为:(X-A2)/(A1-A2)。比如,所述A1为3000毫秒;所述A2为30毫秒,也就是说,响应时间大于等于3000毫秒时,说明服务器的响应时间太长,属于故障范围,因此,分值为0;当响应时间小于等于30毫秒时,说明服务器的响应时间很短,目前运行情况良好,则分值为100分;当响应时间介于3000毫秒与30毫秒之间时,则分值为(X-30)/(3000-30)。
在本发明一个实施例中,用于为CPU利用率评分的所述第二测算基准包括:CPU利用率的分值计算公式为(100%-CPU利用率)*100。
在本发明一个实施例中,用于为内存利用率评分的第三测算基准包括:内存利用率的分值计算公式为(100%-内存利用率)*100/。
在本发明一个实施例中,用于为磁盘I/O占有率评分的所述第四测算基准包括:磁盘I/O占用率的分值计算公式为(100%-磁盘I/O占用率)*100。
在本发明一个实施例中,用于为网络速率评分的所述第五测算基准包括:当网络速率小于等于第三预设值B1时,分值为0分;网络速率大于等于第二预设值B2时,分值为100分;当网络速率Y介于B1与B2之间时,分值为:(Y-B1)/(B2-B1)。
比如,上述B1为3Kbps;所述B2为10Mbps。比如,也就是说,网络速率小于等于3Kbps时,说明服务器的网络速率太低,属于故障范围,因此,分值为0;当响应时间大于等于10Mbps时,说明服务器的网络速率很快,目前运行情况良好,则分值为100分;当采集到的当前网络速率比如单位为Kbps介于3Kbps秒与10Mbps之间时,则分值为(Y-3)/(10000-3)。
在本发明一个实施例中,该方法进一步包括:设定测算周期;在每一个测算周期内多次执行所述采集及计算测算和值的处理;
相应地,上述步骤109的一种实现包括:所述根据测算和值,确定服务器的未来故障时间信息包括:
统计每个测算周期内各个测算和值的平均值;
根据统计出的多个测算周期的平均值,计算出下一个测算周期的平均值;
如果该计算出的平均值小于预设值,则确定在下一个测算周期内服务器发生故障。
本发明另一个实施例也提出了一种服务器故障的测算方法,参见图2,该方法包括:
201:预先设置服务器的关键性能指标包括:响应时间、CPU利用率、内存利用率、磁盘I/O占有率、网络速率。
202:预先设置响应时间对应的权重值为15%、CPU利用率对应的权重值为25%、内存利用率对应的权重值为25%、磁盘I/O占有率对应的权重值为20%、网络速率对应的权重值为15%。
在实际的业务实现中,也可以根据服务器所承载的业务,来区分各个关键性能指标在评价服务器运行情况时的重要性,从而调整各个关键性能指标的权重值。
比如,如果服务器主要是用来向用户提供实时流媒体下载服务,那么,在评价时,响应时间和网络速率相对地更为重要,则响应时间和网络速率的权重值可以更多,比如,预先设置响应时间对应的权重值为25%、CPU利用率对应的权重值为15%、内存利用率对应的权重值为15%、磁盘I/O占有率对应的权重值为15%、网络速率对应的权重值为30%。
203:预先设置测试周期,比如为一个月。
204:在当前的测试周期中,采集服务器当前的响应时间、CPU利用率、内存利用率、磁盘I/O占有率、网络速率。
205:根据采集到的响应时间与预设的第一测算基准,确定响应时间对应的第一分值。
为响应时间评分的所述第一测算基准包括:当响应时间大于等于第一预设值A1时,分值为0分;响应时间小于等于第二预设值A2时,分值为100分;当响应时间X介于A1与A2之间时,分值为:(X-A2)/(A1-A2)。比如,所述A1为3000毫秒;所述A2为30毫秒,也就是说,响应时间大于等于3000毫秒时,说明服务器的响应时间太长,属于故障范围,因此,分值为0;当响应时间小于等于30毫秒时,说明服务器的响应时间很短,目前运行情况良好,则分值为100分;当响应时间介于3000毫秒与30毫秒之间时,则分值为(X-30)/(3000-30)。
比如,本步骤中,计算出第一分值为40。
206:根据采集到的CPU利用率与预设的第二测算基准,确定CPU利用率对应的第二分值。
这里,用于为CPU利用率评分的所述第二测算基准包括:CPU利用率的分值计算公式为(100%-CPU利用率)*100。
比如,本步骤中,采集到的CPU利用率为98%,则可以计算出第二分值为2。
207:根据采集到的内存利用率与预设的第三测算基准,确定内存利用率对应的第三分值。
这里,用于为内存利用率评分的第三测算基准包括:内存利用率的分值计算公式为(100%-内存利用率)*100/。
比如,本步骤中,采集到的内存利用率为40%,则可以计算出,第三分值为60。
208:根据采集到的磁盘I/O占有率与预设的第四测算基准,确定磁盘I/O对应的第四分值。
这里,用于为磁盘I/O占有率评分的第四测算基准包括:内存利用率的分值计算公式为(100%-磁盘I/O占用率)*100/。
比如,本步骤中,采集到的磁盘I/O占用率为88%,则可以计算出第四分值为12。
209:根据采集到的网络速率与预设的第五测算基准,确定网络速率对应的第五分值。
这里,用于为网络速率评分的所述第五测算基准包括:当网络速率小于等于第三预设值B1时,分值为0分;网络速率大于等于第二预设值B2时,分值为100分;当网络速率Y介于A1与A2之间时,分值为:(Y-B1)/(B2-B1)。
比如,上述B1为3Kbps;所述B2为10Mbps。比如,也就是说,网络速率小于等于3Kbps时,说明服务器的网络速率太低,属于故障范围,因此,分值为0;当响应时间大于等于10Mbps时,说明服务器的网络速率很快,目前运行情况良好,则分值为100分;当采集到的当前网络速率比如单位为Kbps介于3Kbps秒与10Mbps之间时,则分值为(Y-3)/(10000-3)。
比如,本步骤中,计算出的第五分值为100。
210:将第一权重值与第一分值的乘积、第二权重值与第二分值的乘积、第三权重值与第三分值的乘积、第四权重值与第四分值的乘积、第五权重值与第五分值的乘积,相加,计算出对应于本次所采集数据的测算和值。
这里,计算式为40*15%+2*25%+60*25%+12*20%+100*15%=38.9分。即,针对本次采集到的5种关键性能指标的值,测算和值为38.9。
211:在当前的测算周期即一个月的时间内,重复执行上述步骤204至步骤210,直到达到预先设置的采集次数阈值。
则,针对一个测算周期,获取了在该测算周期内针对各次采集数据的各个测算和值。
212:统计当前测算周期内各个测算和值的平均值。
213:根据统计出的多个测算周期的平均值,计算出下一个测算周期的平均值。
214:如果该计算出的平均值小于预设值,则确定在下一个测算周期即下一个月内服务发生故障。
这里,比如,本步骤中计算出的平均值小于50分,则确定在下一个月内服务器会发生故障。则提前测算出了服务器的故障时间。
本发明一个实施例还提出了一种服务器故障的测算装置,参见图3,包括:
第一指标处理单元301、第二指标处理单元302、第三指标处理单元303、第四指标处理单元304、第五指标处理单元305、以及测算处理单元306,其中,
第一指标处理单元301,用于采集服务器的响应时间,根据采集到的响应时间与保存的第一测算基准,确定响应时间对应的第一分值;
第二指标处理单元302,用于采集CPU利用率,根据采集到的CPU利用率与保存的第二测算基准,确定CPU利用率对应的第二分值;
第三指标处理单元303,用于采集内存利用率,根据采集到的内存利用率与保存的第三测算基准,确定内存利用率对应的第三分值;
第四指标处理单元304,用于采集磁盘I/O占有率,根据采集到的磁盘I/O占有率与保存的第四测算基准,确定磁盘I/O对应的第四分值;
第五指标处理单元305,用于采集网络速率,根据采集到的网络速率与保存的第五测算基准,确定网络速率对应的第五分值;
测算处理单元306,用于将预先设置的第一权重值与第一指标处理单元301输出的第一分值相乘、将预先设置的第二权重值与第二指标处理单元302输出的第二分值相乘、将预先设置的第三权重值与第三指标处理单元303输出的第三分值相乘、将预先设置的第四权重值与第四指标处理单元304输出的第四分值相乘、将预先设置的第五权重值与第五指标处理单元305输出的第五分值相乘,将所有的乘积相加,计算出测算和值;根据测算和值,确定服务器的未来故障时间信息。
在本发明装置的一个实施例中,所述第一权重值、第二权重值、第三权重值、第四权重值、第五权重值分别为:15%、25%、25%、20%以及15%。
在本发明装置的一个实施例中,所述第一指标处理单元301中包括第一分值计算子单元,用于在采集到的响应时间大于等于第一预设值A1时,确定第一分值为0分;在响应时间小于等于第二预设值A2时,确定第一分值为100分;当采集到的响应时间X介于A1与A2之间时,确定第一分值为:(X-A2)/(A1-A2)。
在本发明装置的一个实施例中,所述第二指标处理单元302中包括第二分值计算子单元,用于利用计算公式(100%-CPU利用率)*100,计算出第二分值。
在本发明装置的一个实施例中,所述第三指标处理单元303中包括第三分值计算子单元,用于利用计算公式为(100%-内存利用率)*100,计算出第三分值。
在本发明装置的一个实施例中,所述第四指标处理单元304中包括第四分值计算子单元,用于利用计算公式为(100%-磁盘I/O占用率)*100,计算出第四分值。
在本发明装置的一个实施例中,所述第五指标处理单元305中包括第五分值计算子单元,用于在采集到的网络速率小于等于第三预设值B1时,确定第五分值为0分;在网络速率大于等于第二预设值B2时,确定第五分值为100分;当网络速率Y介于B1与B2之间时,确定第五分值为:(Y-B1)/(B2-B1)。
在本发明装置的一个实施例中,所述A1为3000毫秒;所述A2为30毫秒。
在本发明装置的一个实施例中,所述B1为3Kbps;所述B2为10Mbps。
在本发明装置的一个实施例中,所述第一指标处理单元301、第二指标处理单元302、第三指标处理单元303、第四指标处理单元304和第五指标处理单元305均在每一个测算周期内多次执行所述采集及确定对应分值的处理;相应地,所述测算处理单元306在每一个测算周期内多次执行计算测算和值的处理;
所述测算处理单元306,统计每个测算周期内各个测算和值的平均值;根据统计出的多个测算周期的平均值,计算出下一个测算周期的平均值;如果该计算出的平均值小于预设值,则确定在下一个测算周期内服务发生故障。
上述设备内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明各个实施例至少具有如下的有益效果:
1、本发明实施例中,能够将能反映服务器当前运行情况的响应时间、CPU利用率、内存利用率、磁盘I/O占有率、网络速率这5个关键性能指标引入测算方法中,对于该5个关键性能指标中的每一个都预先设置对应的权重值以及对应的测算基准,利用实际业务中采集的关键性能指标的值,以及预先设置的对应的测算基准,能够得到对应于每一个关键性能指标的分值,该分值反映服务器在该关键性能指标上的运行情况,最后,将所有分值进行加权计算,则可以得到一个综合的能够反映服务器运行情况的测算和值,基于该测算和值所预测的服务器故障的时间则更为准确。
2、本发明实施例中,由于能够测算出服务器的故障时间,比如下一个月内,或者下一个周内等,因此,可以进行备件和计划性的停机维护等。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种服务器故障的测算方法,其特征在于,设置服务器的关键性能指标包括:响应时间、CPU利用率、内存利用率、磁盘I/O占有率、网络速率,以及设置响应时间、CPU利用率、内存利用率、磁盘I/O占有率、网络速率分别对应的第一权重值、第二权重值、第三权重值、第四权重值、第五权重值;还包括:
采集服务器当前的响应时间、CPU利用率、内存利用率、磁盘I/O占有率、网络速率;
根据采集到的响应时间与预设的第一测算基准,确定响应时间对应的第一分值;
根据采集到的CPU利用率与预设的第二测算基准,确定CPU利用率对应的第二分值;
根据采集到的内存利用率与预设的第三测算基准,确定内存利用率对应的第三分值;
根据采集到的磁盘I/O占有率与预设的第四测算基准,确定磁盘I/O对应的第四分值;
根据采集到的网络速率与预设的第五测算基准,确定网络速率对应的第五分值;
将第一权重值与第一分值的乘积、第二权重值与第二分值的乘积、第三权重值与第三分值的乘积、第四权重值与第四分值的乘积、第五权重值与第五分值的乘积,相加,计算出测算和值;
根据测算和值,确定服务器的未来故障时间信息。
2.根据权利要求1所述的方法,其特征在于,所述第一权重值、第二权重值、第三权重值、第四权重值、第五权重值分别为:15%、25%、25%、20%以及15%。
3.根据权利要求1所述的方法,其特征在于,所述第一测算基准包括:当响应时间大于等于第一预设值A1时,分值为0分;响应时间小于等于第二预设值A2时,分值为100分;当响应时间X介于A1与A2之间时,分值为:(X-A2)/(A1-A2);
和/或,
所述第二测算基准包括:CPU利用率的分值计算公式为(100%-CPU利用率)*100;
和/或,
所述第三测算基准包括:内存利用率的分值计算公式为(100%-内存利用率)*100;
和/或,
所述第四测算基准包括:磁盘I/O占用率的分值计算公式为(100%-磁盘I/O占用率)*100;
所述第五测算基准包括:当网络速率小于等于第三预设值B1时,分值为0分;网络速率大于等于第二预设值B2时,分值为100分;当网络速率Y介于A1与A2之间时,分值为:(Y-B1)/(B2-B1)。
4.根据权利要求3所述的方法,其特征在于,所述A1为3000毫秒;所述A2为30毫秒;
所述B1为3Kbps;所述B2为10Mbps。
5.根据权利要求1至4中任一所述的方法,其特征在于,该方法进一步包括:设定测算周期;在每一个测算周期内多次执行所述采集及计算测算和值的处理;
所述根据测算和值,确定服务器的未来故障时间信息包括:
统计每个测试周期内各个测算和值的平均值;
根据统计出的多个测算周期的平均值,计算出下一个测算周期的平均值;
如果该计算出的平均值小于预设值,则确定在下一个测算周期内服务发生故障。
6.一种服务器故障的测算装置,其特征在于,第一指标处理单元、第二指标处理单元、第三指标处理单元、第四指标处理单元、第五指标处理单元、以及测算处理单元,其中,
第一指标处理单元,用于采集服务器的响应时间,根据采集到的响应时间与保存的第一测算基准,确定响应时间对应的第一分值;
第二指标处理单元,用于采集CPU利用率,根据采集到的CPU利用率与保存的第二测算基准,确定CPU利用率对应的第二分值;
第三指标处理单元,用于采集内存利用率,根据采集到的内存利用率与保存的第三测算基准,确定内存利用率对应的第三分值;
第四指标处理单元,用于采集磁盘I/O占有率,根据采集到的磁盘I/O占有率与保存的第四测算基准,确定磁盘I/O对应的第四分值;
第五指标处理单元,用于采集网络速率,根据采集到的网络速率与保存的第五测算基准,确定网络速率对应的第五分值;
测算处理单元,用于将预先设置的第一权重值与第一指标处理单元输出的第一分值相乘、将预先设置的第二权重值与第二指标处理单元输出的第二分值相乘、将预先设置的第三权重值与第三指标处理单元输出的第三分值相乘、将预先设置的第四权重值与第四指标处理单元输出的第四分值相乘、将预先设置的第五权重值与第五指标处理单元输出的第五分值相乘,将所有的乘积相加,计算出测算和值;根据测算和值,确定服务器的未来故障时间信息。
7.根据权利要求6所述的装置,其特征在于,所述第一权重值、第二权重值、第三权重值、第四权重值、第五权重值分别为:15%、25%、25%、20%以及15%。
8.根据权利要求6所述的装置,其特征在于,所述第一指标处理单元中包括第一分值计算子单元,用于在采集到的响应时间大于等于第一预设值A1时,确定第一分值为0分;在响应时间小于等于第二预设值A2时,确定第一分值为100分;当采集到的响应时间X介于A1与A2之间时,确定第一分值为:(X-A2)/(A1-A2);
和/或,
所述第二指标处理单元中包括第二分值计算子单元,用于利用计算公式(100%-CPU利用率)*100,计算出第二分值;
和/或,
所述第三指标处理单元中包括第三分值计算子单元,用于利用计算公式为(100%-内存利用率)*100,计算出第三分值;
和/或,
所述第四指标处理单元中包括第四分值计算子单元,用于利用计算公式为(100%-磁盘I/O占用率)*100,计算出第四分值;
和/或,
所述第五指标处理单元中包括第五分值计算子单元,用于在采集到的网络速率小于等于第三预设值B1时,确定第五分值为0分;在网络速率大于等于第二预设值B2时,确定第五分值为100分;当网络速率Y介于A1与A2之间时,确定第五分值为:(Y-B1)/(B2-B1)。
9.根据权利要求8所述的装置,其特征在于,所述A1为3000毫秒;所述A2为30毫秒;
所述B1为3Kbps;所述B2为10Mbps。
10.根据权利要求1至9中任一所述的装置,其特征在于,所述第一指标处理单元、第二指标处理单元、第三指标处理单元、第四指标处理单元和第五指标处理单元均在每一个测算周期内多次执行所述采集及确定对应分值的处理;相应地,所述测算处理单元在每一个测算周期内多次执行计算测算和值的处理;
所述测算处理单元,统计每个测算周期内各个测算和值的平均值;根据统计出的多个测算周期的平均值,计算出下一个测算周期的平均值;如果该计算出的平均值小于预设值,则确定在下一个测算周期内服务发生故障。
CN201510556725.3A 2015-09-06 2015-09-06 一种服务器故障测算方法和装置 Pending CN105260253A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510556725.3A CN105260253A (zh) 2015-09-06 2015-09-06 一种服务器故障测算方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510556725.3A CN105260253A (zh) 2015-09-06 2015-09-06 一种服务器故障测算方法和装置

Publications (1)

Publication Number Publication Date
CN105260253A true CN105260253A (zh) 2016-01-20

Family

ID=55099955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510556725.3A Pending CN105260253A (zh) 2015-09-06 2015-09-06 一种服务器故障测算方法和装置

Country Status (1)

Country Link
CN (1) CN105260253A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105872061A (zh) * 2016-04-01 2016-08-17 浪潮电子信息产业股份有限公司 一种服务器集群管理方法、装置及系统
CN107092551A (zh) * 2017-06-22 2017-08-25 郑州云海信息技术有限公司 一种服务器系统性能优化方法及装置
CN107276849A (zh) * 2017-06-15 2017-10-20 北京奇艺世纪科技有限公司 一种集群的性能分析方法及装置
CN109271289A (zh) * 2017-07-18 2019-01-25 车伯乐(北京)信息科技有限公司 一种应用接口监控方法、装置、设备及计算机可读介质
CN109728923A (zh) * 2017-10-27 2019-05-07 中移(苏州)软件技术有限公司 一种云平台运行状态监控预警方法及装置
CN110933512A (zh) * 2019-10-23 2020-03-27 视联动力信息技术股份有限公司 一种基于视联网的负载确定方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070101202A1 (en) * 2005-10-28 2007-05-03 International Business Machines Corporation Clustering process for software server failure prediction
CN101021810A (zh) * 2007-03-08 2007-08-22 山东浪潮齐鲁软件产业股份有限公司 软件系统性能评估方法
CN102053873A (zh) * 2011-01-13 2011-05-11 浙江大学 一种缓存感知的多核处理器虚拟机故障隔离保证方法
CN103412806A (zh) * 2013-08-12 2013-11-27 浪潮电子信息产业股份有限公司 一种用于超级计算机上多类应用综合性能的评价方法
US20150212869A1 (en) * 2014-01-28 2015-07-30 International Business Machines Corporation Predicting anomalies and incidents in a computer application

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070101202A1 (en) * 2005-10-28 2007-05-03 International Business Machines Corporation Clustering process for software server failure prediction
CN101021810A (zh) * 2007-03-08 2007-08-22 山东浪潮齐鲁软件产业股份有限公司 软件系统性能评估方法
CN102053873A (zh) * 2011-01-13 2011-05-11 浙江大学 一种缓存感知的多核处理器虚拟机故障隔离保证方法
CN103412806A (zh) * 2013-08-12 2013-11-27 浪潮电子信息产业股份有限公司 一种用于超级计算机上多类应用综合性能的评价方法
US20150212869A1 (en) * 2014-01-28 2015-07-30 International Business Machines Corporation Predicting anomalies and incidents in a computer application

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105872061A (zh) * 2016-04-01 2016-08-17 浪潮电子信息产业股份有限公司 一种服务器集群管理方法、装置及系统
CN105872061B (zh) * 2016-04-01 2018-10-09 浪潮电子信息产业股份有限公司 一种服务器集群管理方法、装置及系统
CN107276849A (zh) * 2017-06-15 2017-10-20 北京奇艺世纪科技有限公司 一种集群的性能分析方法及装置
CN107092551A (zh) * 2017-06-22 2017-08-25 郑州云海信息技术有限公司 一种服务器系统性能优化方法及装置
CN109271289A (zh) * 2017-07-18 2019-01-25 车伯乐(北京)信息科技有限公司 一种应用接口监控方法、装置、设备及计算机可读介质
CN109271289B (zh) * 2017-07-18 2022-05-03 车伯乐(北京)信息科技有限公司 一种应用接口监控方法、装置、设备及计算机可读介质
CN109728923A (zh) * 2017-10-27 2019-05-07 中移(苏州)软件技术有限公司 一种云平台运行状态监控预警方法及装置
CN109728923B (zh) * 2017-10-27 2022-01-28 中移(苏州)软件技术有限公司 一种云平台运行状态监控预警方法及装置
CN110933512A (zh) * 2019-10-23 2020-03-27 视联动力信息技术股份有限公司 一种基于视联网的负载确定方法及装置
CN110933512B (zh) * 2019-10-23 2022-05-06 视联动力信息技术股份有限公司 一种基于视联网的负载确定方法及装置

Similar Documents

Publication Publication Date Title
CN105260253A (zh) 一种服务器故障测算方法和装置
CN106020715B (zh) 存储池容量管理
CN106600114A (zh) 一种采集运维系统多维度质量评价方法
CN106772205B (zh) 一种电力计量自动化系统终端设备异常监测方法及装置
CN106651161A (zh) 采集运维动态派工方法
CN103197623B (zh) 一种流水线监控管理方法及装置
CN103729746A (zh) 一种线损异常定位的方法及系统
CN112730938A (zh) 一种基于用电采集大数据的窃电用户判断方法
CN109375151B (zh) 电能表计量误差在线监测技术的监测通道调度方法及装置
CN102945198B (zh) 一种表征高性能计算应用特征的方法
CN107656851A (zh) 一种基于部件能耗模型的云服务器能耗测算方法及系统
CN104734347A (zh) 基于dms系统的配网终端在线率自动统计方法
CN109684320A (zh) 监测数据在线清洗的方法和设备
CN109359874A (zh) 一种多维指标监控预警方法及装置
CN104502692B (zh) 电量异动的检测方法及中央处理设备
CN108072858A (zh) 电能表质量管理方法、系统及终端设备
CN108009077A (zh) 一种基于大数据环境的业务运行状态评估算法及系统
CN105096217B (zh) 一种电力计量自动化终端通信状态预测方法和系统
CN110266513A (zh) 低压集抄系统物理拓扑的解析方法
CN109443395B (zh) 一种用能强度多点计量差值超过限值判断方法及系统
CN105678456B (zh) 一种电能计量装置运行状态自动评估方法及其系统
CN103279816A (zh) 基于活动窗口统计终端工作效率的方法和系统
CN102982231B (zh) 软件可信度的定量计算方法
CN109492184B (zh) 一种用能量值多点计量差值超过限值判断方法及系统
CN104407604A (zh) D5000调试中规约测试装置及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160120