CN108280019A - 一种评估服务器健康状态的方法 - Google Patents

一种评估服务器健康状态的方法 Download PDF

Info

Publication number
CN108280019A
CN108280019A CN201810015927.0A CN201810015927A CN108280019A CN 108280019 A CN108280019 A CN 108280019A CN 201810015927 A CN201810015927 A CN 201810015927A CN 108280019 A CN108280019 A CN 108280019A
Authority
CN
China
Prior art keywords
event
failure
server
format
health status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810015927.0A
Other languages
English (en)
Inventor
郭美思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810015927.0A priority Critical patent/CN108280019A/zh
Publication of CN108280019A publication Critical patent/CN108280019A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种评估服务器健康状态的方法,涉及服务器评估技术领域;根据服务器系统故障对业务处理产生的影响程度不同,对服务器系统故障事件划分不同级别,针对服务器系统故障事件级别进行分析,评估服务器总体的健康状态,本发明主要根据服务器系统故障事件级别进行统计计算,不仅能够较为准确地评估服务器总体的健康状态,方便用户对服务器的健康状态有所了解,同时也方便用户采取相应的故障措施,避免因服务器造成较大损失。

Description

一种评估服务器健康状态的方法
技术领域
本发明公开一种评估服务器的方法,涉及服务器评估技术领域,具体的说是一种评估服务器健康状态的方法。
背景技术
服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。
服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
在网络环境下,根据服务器提供的服务类型不同,分为文件服务器,数据库服务器,应用程序服务器,WEB服务器等。
随着计算机技术的高速发展,数据量的剧增,服务器得到了广泛的应用,服务器在处理能力、稳定性、可靠性、可扩展性等方面有明显的优势。企业越来越依赖服务器运营。大多数服务器都成为了处理关键业务的设备,因此服务器健康与否,对业务处理会产生影响。本发明提出一种评估服务器健康状态的方法,主要根据服务器系统故障事件级别进行统计计算,评估服务器总体的健康状态,方便用户对服务器的健康状态有所了解,同时可采取相应的措施。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种评估服务器健康状态的方法。
一种评估服务器健康状态的方法,根据服务器系统故障对业务处理产生的影响程度不同,对服务器系统故障事件划分不同级别,针对服务器系统故障事件级别进行分析,评估服务器总体的健康状态;
具体步骤为:
采集服务器系统故障事件,形成故障事件格式,存储入队列,
查询故障事件信息,对故障事件信息进行归类,
统计同类别故障事件的严重级别,根据故障事件严重级别占有的权重对服务器总体的健康状态进行评分。
所述的方法中采集服务器系统故障事件,根据故障事件类型形成故障事件格式,存储入队列,查询故障事件信息,根据故障事件类型对故障事件信息进行归类。
所述的方法中采集的故障事件类型包括CPU故障事件、内存故障事件、硬盘故障事件、网络故障事件、pcie故障事件。
所述的方法中CPU故障事件被处理成ereport.cpu.tlb_ce格式,内存故障事件格式被处理成ereport.cpu.mem_ce格式,磁盘故障事件格式被处理成ereport.disk.read.uce.err格式,网络故障事件格式被处理成ereport.net.icmp_host_unreach格式,pcie故障事件格式被处理成ereport.pcie.rx_over格式。
所述的方法中故障事件的严重级别分为trivial、minor、major三类,故障事件的严重级别的权重分配是:trivial事件发生时,当前评分=当前评分-当前评分*0.1%; minor事件发生时,当前评分=当前评分-当前评分*1%; major事件发生时,当前评分=当前评分-当前评分*10%。
一种评估服务器健康状态的系统,包括故障事件采集处理模块和健康状态评分模块,
其中故障事件采集处理模块采集服务器系统故障事件,形成故障事件格式,存储入队列,
健康状态评分模块查询故障事件信息,对故障事件信息进行归类,统计同类别故障事件的严重级别,根据故障事件严重级别占有的权重对服务器总体的健康状态进行评分。
所述的系统中故障事件采集处理模块根据故障事件类型形成故障事件格式,存储入队列。
所述的系统中故障事件采集处理模块采集的故障事件类型包括CPU故障事件、内存故障事件、硬盘故障事件、网络故障事件、pcie故障事件。
所述的系统中故障事件采集处理模块将CPU故障事件处理成ereport.cpu.tlb_ce格式,内存故障事件格式处理成ereport.cpu.mem_ce格式,磁盘故障事件格式处理成ereport.disk.read.uce.err格式,网络故障事件格式处理成ereport.net.icmp_host_unreach格式,pcie故障事件格式处理成ereport.pcie.rx_over格式。
所述的系统中健康状态评分模块将故障事件的严重级别分为trivial、minor、major三类,故障事件的严重级别的权重分配是:trivial事件发生时,当前评分=当前评分-当前评分*0.1%; minor事件发生时,当前评分=当前评分-当前评分*1%; major事件发生时,当前评分=当前评分-当前评分*10%。
本发明与现有技术相比具有的有益效果是:
本发明提出一种评估服务器健康状态的方法,根据服务器系统故障对业务处理产生的影响程度不同,对服务器系统故障事件划分不同级别,针对服务器系统故障事件级别进行分析,评估服务器总体的健康状态,本发明主要根据服务器系统故障事件级别进行统计计算,不仅能够较为准确地评估服务器总体的健康状态,方便用户对服务器的健康状态有所了解,同时也方便用户采取相应的故障措施,避免因服务器造成较大损失。
附图说明
图1 本发明方法流程示意图;
图2本发明方法中服务器总体健康状态评分流程示意图。
具体实施方式
本发明提供一种评估服务器健康状态的方法,根据服务器系统故障对业务处理产生的影响程度不同,对服务器系统故障事件划分不同级别,针对服务器系统故障事件级别进行分析,评估服务器总体的健康状态;
具体步骤为:
采集服务器系统故障事件,形成故障事件格式,存储入队列,
查询故障事件信息,对故障事件信息进行归类,
统计同类别故障事件的严重级别,根据故障事件严重级别占有的权重对服务器总体的健康状态进行评分。
同时提供与上述方法相对应的一种评估服务器健康状态的系统,包括故障事件采集处理模块和健康状态评分模块,
其中故障事件采集处理模块采集服务器系统故障事件,形成故障事件格式,存储入队列,
健康状态评分模块查询故障事件信息,对故障事件信息进行归类,统计同类别故障事件的严重级别,根据故障事件严重级别占有的权重对服务器总体的健康状态进行评分。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
利用本发明方法及系统,故障事件采集处理模块从服务器中采集故障事件,对故障事件进行处理其中采集的故障事件包括CPU故障事件、内存故障事件、硬盘故障事件、网络故障事件、PCIE故障事件,根据上述故障事件类型,将故障事件形成故障事件格式,CPU故障事件格式被处理成ereport.cpu.tlb_ce格式,内存故障事件格式被处理成ereport.cpu.mem_ce格式;磁盘故障事件格式被处理成ereport.disk.read.uce.err格式,网络故障事件格式被处理成ereport.net.icmp_host_unreach格式;pcie故障事件格式被处理成ereport.pcie.rx_over格式,将故障事件按照其故障事件格式存入队列中,为健康状态评分做准备;
健康状态评分模块查询故障信息,对故障信息进行归类,统计同类别故障事件的严重级别,根据故障事件严重级别占有的权重进行评分,其中将故障事件的严重级别分为trivial、minor、major三类,trivial等级为微不足道的故障事件可理解为初级故障、minor等级为影响一般的故障事件可理解为中级故障、major等级为影响严重的故障事件可理解为高级故障,故障事件的严重级别的权重分配是:trivial事件发生时,当前评分=当前评分-当前评分*0.1%; minor事件发生时,当前评分=当前评分-当前评分*1%; major事件发生时,当前评分=当前评分-当前评分*10%,并且健康状态评分根据上述故障事件类型进行计算,计算公式为:(cpu*100%+mem*80%+disk*60%+net*40%+pcie*20%)/3,并规定当cpu、内存、硬盘其中任意一项得分低于60分时,服务器系统健康状态得分按照三项的最低分计算,服务器系统健康状态得分结果向下取整,限制结果最低分为1分。

Claims (10)

1.一种评估服务器健康状态的方法,其特征在于根据服务器系统故障对业务处理产生的影响程度不同,对服务器系统故障事件划分不同级别,针对服务器系统故障事件级别进行分析,评估服务器总体的健康状态;
具体步骤为:
采集服务器系统故障事件,形成故障事件格式,存储入队列,
查询故障事件信息,对故障事件信息进行归类,
统计同类别故障事件的严重级别,根据故障事件严重级别占有的权重对服务器总体的健康状态进行评分。
2.根据权利要求1所述的方法,其特征在于采集服务器系统故障事件,根据故障事件类型形成故障事件格式,存储入队列,查询故障事件信息,根据故障事件类型对故障事件信息进行归类。
3.根据权利要求2所述的方法,其特征在于采集的故障事件类型包括CPU故障事件、内存故障事件、硬盘故障事件、网络故障事件、pcie故障事件。
4.根据权利要求3所述的方法,其特征在于CPU故障事件被处理成ereport.cpu.tlb_ce格式,内存故障事件格式被处理成ereport.cpu.mem_ce格式,磁盘故障事件格式被处理成ereport.disk.read.uce.err格式,网络故障事件格式被处理成ereport.net.icmp_host_unreach格式,pcie故障事件格式被处理成ereport.pcie.rx_over格式。
5.根据权利要求1-4任一项所述的方法,其特征在于故障事件的严重级别分为trivial、minor、major三类,故障事件的严重级别的权重分配是:trivial事件发生时,当前评分=当前评分-当前评分*0.1%; minor事件发生时,当前评分=当前评分-当前评分*1%;major事件发生时,当前评分=当前评分-当前评分*10%。
6.一种评估服务器健康状态的系统,其特征在于包括故障事件采集处理模块和健康状态评分模块,
其中故障事件采集处理模块采集服务器系统故障事件,形成故障事件格式,存储入队列,
健康状态评分模块查询故障事件信息,对故障事件信息进行归类,统计同类别故障事件的严重级别,根据故障事件严重级别占有的权重对服务器总体的健康状态进行评分。
7.根据权利要求6所述的系统,其特征在于故障事件采集处理模块根据故障事件类型形成故障事件格式,存储入队列。
8.根据权利要求7所述的系统,其特征在于故障事件采集处理模块采集的故障事件类型包括CPU故障事件、内存故障事件、硬盘故障事件、网络故障事件、pcie故障事件。
9.根据权利要求8所述的系统,其特征在于故障事件采集处理模块将CPU故障事件处理成ereport.cpu.tlb_ce格式,内存故障事件格式处理成ereport.cpu.mem_ce格式,磁盘故障事件格式处理成ereport.disk.read.uce.err格式,网络故障事件格式处理成ereport.net.icmp_host_unreach格式,pcie故障事件格式处理成ereport.pcie.rx_over格式。
10.根据权利要求6-9任一项所述的系统,其特征在于健康状态评分模块将故障事件的严重级别分为trivial、minor、major三类,故障事件的严重级别的权重分配是:trivial事件发生时,当前评分=当前评分-当前评分*0.1%; minor事件发生时,当前评分=当前评分-当前评分*1%; major事件发生时,当前评分=当前评分-当前评分*10%。
CN201810015927.0A 2018-01-08 2018-01-08 一种评估服务器健康状态的方法 Pending CN108280019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810015927.0A CN108280019A (zh) 2018-01-08 2018-01-08 一种评估服务器健康状态的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810015927.0A CN108280019A (zh) 2018-01-08 2018-01-08 一种评估服务器健康状态的方法

Publications (1)

Publication Number Publication Date
CN108280019A true CN108280019A (zh) 2018-07-13

Family

ID=62803257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810015927.0A Pending CN108280019A (zh) 2018-01-08 2018-01-08 一种评估服务器健康状态的方法

Country Status (1)

Country Link
CN (1) CN108280019A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669850A (zh) * 2018-12-21 2019-04-23 云南电网有限责任公司电力科学研究院 一种终端设备的运行状态评估方法
CN110796361A (zh) * 2019-10-24 2020-02-14 吉林吉大通信设计院股份有限公司 一种基于人工智能的idc设备故障风险评估方法
CN110887177A (zh) * 2019-10-10 2020-03-17 南方电网综合能源股份有限公司 一种变电站空调联动的控制方法、设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103200050A (zh) * 2013-04-12 2013-07-10 北京百度网讯科技有限公司 服务器的硬件状态监控方法和系统
CN103617110A (zh) * 2013-11-11 2014-03-05 国家电网公司 服务器设备状态检修系统
CN105335262A (zh) * 2015-12-09 2016-02-17 浪潮电子信息产业股份有限公司 一种批量服务器部件故障自动计算并预警的方法
CN105373465A (zh) * 2015-12-04 2016-03-02 英业达科技有限公司 一种系统状态的检测方法、系统及服务器
CN105488610A (zh) * 2015-11-23 2016-04-13 国网山东省电力公司信息通信公司 一种电力应用系统故障实时分析诊断系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103200050A (zh) * 2013-04-12 2013-07-10 北京百度网讯科技有限公司 服务器的硬件状态监控方法和系统
CN103617110A (zh) * 2013-11-11 2014-03-05 国家电网公司 服务器设备状态检修系统
CN105488610A (zh) * 2015-11-23 2016-04-13 国网山东省电力公司信息通信公司 一种电力应用系统故障实时分析诊断系统及方法
CN105373465A (zh) * 2015-12-04 2016-03-02 英业达科技有限公司 一种系统状态的检测方法、系统及服务器
CN105335262A (zh) * 2015-12-09 2016-02-17 浪潮电子信息产业股份有限公司 一种批量服务器部件故障自动计算并预警的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669850A (zh) * 2018-12-21 2019-04-23 云南电网有限责任公司电力科学研究院 一种终端设备的运行状态评估方法
CN110887177A (zh) * 2019-10-10 2020-03-17 南方电网综合能源股份有限公司 一种变电站空调联动的控制方法、设备、存储介质
CN110796361A (zh) * 2019-10-24 2020-02-14 吉林吉大通信设计院股份有限公司 一种基于人工智能的idc设备故障风险评估方法

Similar Documents

Publication Publication Date Title
CN110019110B (zh) 一种业务系统的容量管理方法、装置、设备及业务系统
WO2021051529A1 (zh) 评估云主机资源的方法、装置、设备及存储介质
CN109102394A (zh) 风险评估方法、装置及计算机可读存储介质
WO2021254027A1 (zh) 一种可疑社团的识别方法、装置、存储介质和计算机设备
US20110208679A1 (en) Trouble pattern creating program and trouble pattern creating apparatus
CN108280019A (zh) 一种评估服务器健康状态的方法
WO2020168756A1 (zh) 集群日志特征提取方法、装置、设备及存储介质
US20090138860A1 (en) Program analysis method amd apparatus
CN108428001B (zh) 信用分值预测方法及装置
CN111507479B (zh) 特征分箱方法、装置、设备及计算机可读存储介质
CN109299085A (zh) 一种数据处理方法、电子设备及存储介质
US20180095819A1 (en) Incident analysis program, incident analysis method, information processing device, service identification program, service identification method, and service identification device
WO2023029065A1 (zh) 数据集质量评估方法、装置、计算机设备及存储介质
CN106020722A (zh) 一种云存储系统的重复数据去重方法、装置及系统
CN109450089B (zh) 一种台区低电压识别方法、装置及终端设备
CN109408361A (zh) Monkey测试复原方法、装置、电子设备及计算机可读存储介质
WO2019062192A1 (zh) 业务员行为风险甄别管理方法、应用服务器及计算机可读存储介质
CN110348717B (zh) 基于栅格粒度的基站价值评分方法和装置
CN110232525B (zh) 一种企业风险获取方法、装置、服务器及存储介质
CN103902739B (zh) 数据库集群服务器数据分类方法
JPWO2015182629A1 (ja) 監視システム、監視装置及び監視プログラム
CN114118793A (zh) 一种地方交易所风险预警方法、装置及设备
CN112104687B (zh) 物流路由服务的监控方法、装置、电子设备及存储介质
CN113220551A (zh) 指标趋势预测及预警方法、装置、电子设备及存储介质
CN113724059A (zh) 联邦学习模型的训练方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180713