CN108280019A - 一种评估服务器健康状态的方法 - Google Patents

一种评估服务器健康状态的方法 Download PDF

Info

Publication number
CN108280019A
CN108280019A CN201810015927.0A CN201810015927A CN108280019A CN 108280019 A CN108280019 A CN 108280019A CN 201810015927 A CN201810015927 A CN 201810015927A CN 108280019 A CN108280019 A CN 108280019A
Authority
CN
China
Prior art keywords
event
failure
server
format
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810015927.0A
Other languages
English (en)
Inventor
郭美思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810015927.0A priority Critical patent/CN108280019A/zh
Publication of CN108280019A publication Critical patent/CN108280019A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种评估服务器健康状态的方法,涉及服务器评估技术领域;根据服务器系统故障对业务处理产生的影响程度不同,对服务器系统故障事件划分不同级别,针对服务器系统故障事件级别进行分析,评估服务器总体的健康状态,本发明主要根据服务器系统故障事件级别进行统计计算,不仅能够较为准确地评估服务器总体的健康状态,方便用户对服务器的健康状态有所了解,同时也方便用户采取相应的故障措施,避免因服务器造成较大损失。

Description

一种评估服务器健康状态的方法
技术领域
本发明公开一种评估服务器的方法,涉及服务器评估技术领域,具体的说是一种评估服务器健康状态的方法。
背景技术
服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。
服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
在网络环境下,根据服务器提供的服务类型不同,分为文件服务器,数据库服务器,应用程序服务器,WEB服务器等。
随着计算机技术的高速发展,数据量的剧增,服务器得到了广泛的应用,服务器在处理能力、稳定性、可靠性、可扩展性等方面有明显的优势。企业越来越依赖服务器运营。大多数服务器都成为了处理关键业务的设备,因此服务器健康与否,对业务处理会产生影响。本发明提出一种评估服务器健康状态的方法,主要根据服务器系统故障事件级别进行统计计算,评估服务器总体的健康状态,方便用户对服务器的健康状态有所了解,同时可采取相应的措施。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种评估服务器健康状态的方法。
一种评估服务器健康状态的方法,根据服务器系统故障对业务处理产生的影响程度不同,对服务器系统故障事件划分不同级别,针对服务器系统故障事件级别进行分析,评估服务器总体的健康状态;
具体步骤为:
采集服务器系统故障事件,形成故障事件格式,存储入队列,
查询故障事件信息,对故障事件信息进行归类,
统计同类别故障事件的严重级别,根据故障事件严重级别占有的权重对服务器总体的健康状态进行评分。
所述的方法中采集服务器系统故障事件,根据故障事件类型形成故障事件格式,存储入队列,查询故障事件信息,根据故障事件类型对故障事件信息进行归类。
所述的方法中采集的故障事件类型包括CPU故障事件、内存故障事件、硬盘故障事件、网络故障事件、pcie故障事件。
所述的方法中CPU故障事件被处理成ereport.cpu.tlb_ce格式,内存故障事件格式被处理成ereport.cpu.mem_ce格式,磁盘故障事件格式被处理成ereport.disk.read.uce.err格式,网络故障事件格式被处理成ereport.net.icmp_host_unreach格式,pcie故障事件格式被处理成ereport.pcie.rx_over格式。
所述的方法中故障事件的严重级别分为trivial、minor、major三类,故障事件的严重级别的权重分配是:trivial事件发生时,当前评分=当前评分-当前评分*0.1%; minor事件发生时,当前评分=当前评分-当前评分*1%; major事件发生时,当前评分=当前评分-当前评分*10%。
一种评估服务器健康状态的系统,包括故障事件采集处理模块和健康状态评分模块,
其中故障事件采集处理模块采集服务器系统故障事件,形成故障事件格式,存储入队列,
健康状态评分模块查询故障事件信息,对故障事件信息进行归类,统计同类别故障事件的严重级别,根据故障事件严重级别占有的权重对服务器总体的健康状态进行评分。
所述的系统中故障事件采集处理模块根据故障事件类型形成故障事件格式,存储入队列。
所述的系统中故障事件采集处理模块采集的故障事件类型包括CPU故障事件、内存故障事件、硬盘故障事件、网络故障事件、pcie故障事件。
所述的系统中故障事件采集处理模块将CPU故障事件处理成ereport.cpu.tlb_ce格式,内存故障事件格式处理成ereport.cpu.mem_ce格式,磁盘故障事件格式处理成ereport.disk.read.uce.err格式,网络故障事件格式处理成ereport.net.icmp_host_unreach格式,pcie故障事件格式处理成ereport.pcie.rx_over格式。
所述的系统中健康状态评分模块将故障事件的严重级别分为trivial、minor、major三类,故障事件的严重级别的权重分配是:trivial事件发生时,当前评分=当前评分-当前评分*0.1%; minor事件发生时,当前评分=当前评分-当前评分*1%; major事件发生时,当前评分=当前评分-当前评分*10%。
本发明与现有技术相比具有的有益效果是:
本发明提出一种评估服务器健康状态的方法,根据服务器系统故障对业务处理产生的影响程度不同,对服务器系统故障事件划分不同级别,针对服务器系统故障事件级别进行分析,评估服务器总体的健康状态,本发明主要根据服务器系统故障事件级别进行统计计算,不仅能够较为准确地评估服务器总体的健康状态,方便用户对服务器的健康状态有所了解,同时也方便用户采取相应的故障措施,避免因服务器造成较大损失。
附图说明
图1 本发明方法流程示意图;
图2本发明方法中服务器总体健康状态评分流程示意图。
具体实施方式
本发明提供一种评估服务器健康状态的方法,根据服务器系统故障对业务处理产生的影响程度不同,对服务器系统故障事件划分不同级别,针对服务器系统故障事件级别进行分析,评估服务器总体的健康状态;
具体步骤为:
采集服务器系统故障事件,形成故障事件格式,存储入队列,
查询故障事件信息,对故障事件信息进行归类,
统计同类别故障事件的严重级别,根据故障事件严重级别占有的权重对服务器总体的健康状态进行评分。
同时提供与上述方法相对应的一种评估服务器健康状态的系统,包括故障事件采集处理模块和健康状态评分模块,
其中故障事件采集处理模块采集服务器系统故障事件,形成故障事件格式,存储入队列,
健康状态评分模块查询故障事件信息,对故障事件信息进行归类,统计同类别故障事件的严重级别,根据故障事件严重级别占有的权重对服务器总体的健康状态进行评分。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
利用本发明方法及系统,故障事件采集处理模块从服务器中采集故障事件,对故障事件进行处理其中采集的故障事件包括CPU故障事件、内存故障事件、硬盘故障事件、网络故障事件、PCIE故障事件,根据上述故障事件类型,将故障事件形成故障事件格式,CPU故障事件格式被处理成ereport.cpu.tlb_ce格式,内存故障事件格式被处理成ereport.cpu.mem_ce格式;磁盘故障事件格式被处理成ereport.disk.read.uce.err格式,网络故障事件格式被处理成ereport.net.icmp_host_unreach格式;pcie故障事件格式被处理成ereport.pcie.rx_over格式,将故障事件按照其故障事件格式存入队列中,为健康状态评分做准备;
健康状态评分模块查询故障信息,对故障信息进行归类,统计同类别故障事件的严重级别,根据故障事件严重级别占有的权重进行评分,其中将故障事件的严重级别分为trivial、minor、major三类,trivial等级为微不足道的故障事件可理解为初级故障、minor等级为影响一般的故障事件可理解为中级故障、major等级为影响严重的故障事件可理解为高级故障,故障事件的严重级别的权重分配是:trivial事件发生时,当前评分=当前评分-当前评分*0.1%; minor事件发生时,当前评分=当前评分-当前评分*1%; major事件发生时,当前评分=当前评分-当前评分*10%,并且健康状态评分根据上述故障事件类型进行计算,计算公式为:(cpu*100%+mem*80%+disk*60%+net*40%+pcie*20%)/3,并规定当cpu、内存、硬盘其中任意一项得分低于60分时,服务器系统健康状态得分按照三项的最低分计算,服务器系统健康状态得分结果向下取整,限制结果最低分为1分。

Claims (10)

1.一种评估服务器健康状态的方法,其特征在于根据服务器系统故障对业务处理产生的影响程度不同,对服务器系统故障事件划分不同级别,针对服务器系统故障事件级别进行分析,评估服务器总体的健康状态;
具体步骤为:
采集服务器系统故障事件,形成故障事件格式,存储入队列,
查询故障事件信息,对故障事件信息进行归类,
统计同类别故障事件的严重级别,根据故障事件严重级别占有的权重对服务器总体的健康状态进行评分。
2.根据权利要求1所述的方法,其特征在于采集服务器系统故障事件,根据故障事件类型形成故障事件格式,存储入队列,查询故障事件信息,根据故障事件类型对故障事件信息进行归类。
3.根据权利要求2所述的方法,其特征在于采集的故障事件类型包括CPU故障事件、内存故障事件、硬盘故障事件、网络故障事件、pcie故障事件。
4.根据权利要求3所述的方法,其特征在于CPU故障事件被处理成ereport.cpu.tlb_ce格式,内存故障事件格式被处理成ereport.cpu.mem_ce格式,磁盘故障事件格式被处理成ereport.disk.read.uce.err格式,网络故障事件格式被处理成ereport.net.icmp_host_unreach格式,pcie故障事件格式被处理成ereport.pcie.rx_over格式。
5.根据权利要求1-4任一项所述的方法,其特征在于故障事件的严重级别分为trivial、minor、major三类,故障事件的严重级别的权重分配是:trivial事件发生时,当前评分=当前评分-当前评分*0.1%; minor事件发生时,当前评分=当前评分-当前评分*1%;major事件发生时,当前评分=当前评分-当前评分*10%。
6.一种评估服务器健康状态的系统,其特征在于包括故障事件采集处理模块和健康状态评分模块,
其中故障事件采集处理模块采集服务器系统故障事件,形成故障事件格式,存储入队列,
健康状态评分模块查询故障事件信息,对故障事件信息进行归类,统计同类别故障事件的严重级别,根据故障事件严重级别占有的权重对服务器总体的健康状态进行评分。
7.根据权利要求6所述的系统,其特征在于故障事件采集处理模块根据故障事件类型形成故障事件格式,存储入队列。
8.根据权利要求7所述的系统,其特征在于故障事件采集处理模块采集的故障事件类型包括CPU故障事件、内存故障事件、硬盘故障事件、网络故障事件、pcie故障事件。
9.根据权利要求8所述的系统,其特征在于故障事件采集处理模块将CPU故障事件处理成ereport.cpu.tlb_ce格式,内存故障事件格式处理成ereport.cpu.mem_ce格式,磁盘故障事件格式处理成ereport.disk.read.uce.err格式,网络故障事件格式处理成ereport.net.icmp_host_unreach格式,pcie故障事件格式处理成ereport.pcie.rx_over格式。
10.根据权利要求6-9任一项所述的系统,其特征在于健康状态评分模块将故障事件的严重级别分为trivial、minor、major三类,故障事件的严重级别的权重分配是:trivial事件发生时,当前评分=当前评分-当前评分*0.1%; minor事件发生时,当前评分=当前评分-当前评分*1%; major事件发生时,当前评分=当前评分-当前评分*10%。
CN201810015927.0A 2018-01-08 2018-01-08 一种评估服务器健康状态的方法 Pending CN108280019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810015927.0A CN108280019A (zh) 2018-01-08 2018-01-08 一种评估服务器健康状态的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810015927.0A CN108280019A (zh) 2018-01-08 2018-01-08 一种评估服务器健康状态的方法

Publications (1)

Publication Number Publication Date
CN108280019A true CN108280019A (zh) 2018-07-13

Family

ID=62803257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810015927.0A Pending CN108280019A (zh) 2018-01-08 2018-01-08 一种评估服务器健康状态的方法

Country Status (1)

Country Link
CN (1) CN108280019A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669850A (zh) * 2018-12-21 2019-04-23 云南电网有限责任公司电力科学研究院 一种终端设备的运行状态评估方法
CN110796361A (zh) * 2019-10-24 2020-02-14 吉林吉大通信设计院股份有限公司 一种基于人工智能的idc设备故障风险评估方法
CN110887177A (zh) * 2019-10-10 2020-03-17 南方电网综合能源股份有限公司 一种变电站空调联动的控制方法、设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103200050A (zh) * 2013-04-12 2013-07-10 北京百度网讯科技有限公司 服务器的硬件状态监控方法和系统
CN103617110A (zh) * 2013-11-11 2014-03-05 国家电网公司 服务器设备状态检修系统
CN105335262A (zh) * 2015-12-09 2016-02-17 浪潮电子信息产业股份有限公司 一种批量服务器部件故障自动计算并预警的方法
CN105373465A (zh) * 2015-12-04 2016-03-02 英业达科技有限公司 一种系统状态的检测方法、系统及服务器
CN105488610A (zh) * 2015-11-23 2016-04-13 国网山东省电力公司信息通信公司 一种电力应用系统故障实时分析诊断系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103200050A (zh) * 2013-04-12 2013-07-10 北京百度网讯科技有限公司 服务器的硬件状态监控方法和系统
CN103617110A (zh) * 2013-11-11 2014-03-05 国家电网公司 服务器设备状态检修系统
CN105488610A (zh) * 2015-11-23 2016-04-13 国网山东省电力公司信息通信公司 一种电力应用系统故障实时分析诊断系统及方法
CN105373465A (zh) * 2015-12-04 2016-03-02 英业达科技有限公司 一种系统状态的检测方法、系统及服务器
CN105335262A (zh) * 2015-12-09 2016-02-17 浪潮电子信息产业股份有限公司 一种批量服务器部件故障自动计算并预警的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669850A (zh) * 2018-12-21 2019-04-23 云南电网有限责任公司电力科学研究院 一种终端设备的运行状态评估方法
CN110887177A (zh) * 2019-10-10 2020-03-17 南方电网综合能源股份有限公司 一种变电站空调联动的控制方法、设备、存储介质
CN110796361A (zh) * 2019-10-24 2020-02-14 吉林吉大通信设计院股份有限公司 一种基于人工智能的idc设备故障风险评估方法

Similar Documents

Publication Publication Date Title
US20120151276A1 (en) Early Detection of Failing Computers
US10452627B2 (en) Column weight calculation for data deduplication
CN109191283A (zh) 风险预警方法及系统
CN112003846B (zh) 一种信用阈值的训练、ip地址的检测方法及相关装置
CN107679734A (zh) 一种用于无标签数据分类预测的方法和系统
HK1206465A1 (zh) 一種使用多維評級來確定一實體的未來商業可行性的系統和方法
CN108710555A (zh) 一种基于监督学习的服务器错误诊断方法
CN108280019A (zh) 一种评估服务器健康状态的方法
CN107220121A (zh) 一种numa架构下沙箱环境测试方法及其系统
CN113220551A (zh) 指标趋势预测及预警方法、装置、电子设备及存储介质
WO2024222877A1 (zh) 一种分布式系统业务效果感知和评价方法及系统
WO2023029065A1 (zh) 数据集质量评估方法、装置、计算机设备及存储介质
CN117194177A (zh) 一种提高存储系统慢盘检测准确率的方法
TW201503029A (zh) 計算企業拖欠帳款機率之技術
CN110703183A (zh) 一种智能电能表故障数据分析方法及系统
CN108710562B (zh) 异常记录的合并方法、装置及设备
CN110705816A (zh) 基于大数据的任务分配方法和装置
CN114357458A (zh) 一种数据库风险评估系统、方法、电子设备及存储介质
CN115146890A (zh) 企业运营风险告警方法、装置、计算机设备和存储介质
Schörgenhumer et al. Can We Predict Performance Events with Time Series Data from Monitoring Multiple Systems?
CN110119966A (zh) 银行客户异常行为分析方法
CN117574087A (zh) 模型的确定方法、内存故障预测方法、装置、介质及设备
CN117201172A (zh) 一种基于风险传播的信息系统风险评估方法
CN115580528A (zh) 故障根因定位方法、装置、设备及可读存储介质
Huang et al. Achieving scalable automated diagnosis of distributed systems performance problems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180713

RJ01 Rejection of invention patent application after publication