CN104375926B - 一种大规模服务器监控时的告警阀值设置系统 - Google Patents

一种大规模服务器监控时的告警阀值设置系统 Download PDF

Info

Publication number
CN104375926B
CN104375926B CN201410721437.4A CN201410721437A CN104375926B CN 104375926 B CN104375926 B CN 104375926B CN 201410721437 A CN201410721437 A CN 201410721437A CN 104375926 B CN104375926 B CN 104375926B
Authority
CN
China
Prior art keywords
resource
template
alarm threshold
threshold value
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410721437.4A
Other languages
English (en)
Other versions
CN104375926A (zh
Inventor
陆峰
刘成平
李锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410721437.4A priority Critical patent/CN104375926B/zh
Publication of CN104375926A publication Critical patent/CN104375926A/zh
Application granted granted Critical
Publication of CN104375926B publication Critical patent/CN104375926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种大规模服务器监控时的告警阀值设置系统,涉及服务器监控、资源故障告警领域,本发明设计结构包括:(1)资源配置库模块、(2)资源告警阀值自循环优化模块、(3)资源模板库生成模块、(4)资源模板库管理模块。充分发挥资源告警阀值的自循环优化机制和基于模板库的告警阀值批量分发应用等特点,采用典型资源优先入资源库进行自循环优化,并生成模板的设计方法,实现大规模同型号同配置服务器批量应用模板进行告警阀值设置,从而大大降低了大规模服务器监控的过程中进行告警阀值设置的复杂度,提高了告警阀值设置的准确性和合理性。

Description

一种大规模服务器监控时的告警阀值设置系统
技术领域
本发明涉及服务器监控、资源故障告警领域,具体涉及一种大规模服务器监控时的告警阀值设置系统。
背景技术
随着数据中心的飞速发展,大规模的服务器应用越来越成为数据中心的主要特点。在大规模服务器的监控管理中使用自动化的监控系统就成为必然,但是由于规模太大,若要实现每台服务器每项监测数据可以灵活自主的设置合理的、实际环境需要的告警阀值,会给管理员带来非常大的挑战。可想而知,一个拥有上千台服务器的集群化应用,如果对每台服务器上的每项监测参数设置合理、可控的告警阀值,需要投入大量的时间和资源去完成。例如,一个2000台服务器规模的集群进行监控,每台服务器具有50个监测项(如系统CPU利用率、系统物理内存利用率、电源1的功耗、风扇1的转速等均为一个监测项),那么就会产生100000个监测项,要想对这100000个监测项进行合理的、用户可控制的告警阀值设置,用传统的方式首先很难保证设置的正确性,再有也需要很多的资源和时间去完成,一旦需要改动调整,则还要投入大量的时间和资源进行优化,既浪费了大量的人力物力也无法保证调整过程中集群中服务器监控的有效性。以上挑战为大规模服务器监控时告警阀值的设置和设置过程中服务器监控的有效性带了极大的局限性,严重影响大规模服务器监控时告警的合理性和准确性,因此设计大规模服务器监控时的告警阀值设置系统可以有效解决该难题。
发明内容
本发明的设计主要考虑资源告警阀值的自循环优化机制和基于模板库的告警阀值批量分发应用的特点,采用典型资源优先入资源库进行自循环优化,以及典型资源的告警阀值经过优化后生成模板的设计方法,实现大规模同型号同配置服务器批量应用模板进行告警阀值设置,从而大大降低了大规模服务器监控的过程中进行告警阀值设置的复杂度,提高了告警阀值设置的准确性和合理性。
资源告警阀值的自循环优化机制和基于模板库的告警阀值批量分发应用,考虑大规模服务器监控时告警阀值的灵活控制非常复杂的特点,采用典型资源优先入资源库进行自循环优化,以及典型资源的告警阀值经过优化后生成模板的设计方法,实现大规模同型号同配置服务器批量应用模板进行告警阀值设置,从而大大降低了大规模服务器监控的过程中进行告警阀值设置的复杂度,提高了告警阀值设置的准确性和合理性,避免了浪费大量人力逐个进行告警阀值设置和人为设置的告警阀值不合理、不统一、无法真实反应资源故障原因等问题。大规模服务器监控时的告警阀值设置系统的设计结构包括:(1)资源配置库模块、(2)资源告警阀值自循环优化模块、(3)资源模板库生成模块、(4)资源模板库管理模块。
所述的资源告警阀值自循环优化模块设计,基于告警阀值经验库,设计自循环优化流程,可使典型资源的每个监测项的告警阀值根据阀值经验库中的数据进行调整,当阀值与经验库中数据相比过高时,便减小阀值;当阀值与经验库中数据相比过低时,便增加阀值,直到达到一种合理、准确的阀值水平,循环结束。其中,判断阀值是否准确、是否合理的依据为资源真正出现故障了才告警并且根据故障的严重程度分级告警。
所述的资源模板库生成模块设计,选择典型的、能够代表某型号某配置服务器的资源,启动其各监测项的告警阀值自循环优化,并根据优化完成的数据生成该型号该配置服务器监控对应的模板,并通过建立模板库的方式对模板进行维护,如添加模板、修改模板和删除模板。资源模板库通过资源库提供的典型资源监控配置生成模板,并由资源模板库管理模块调用,将模板应用到相同型号相同配置的服务器上,通过这种方式完成告警阀值的设置。
所述的资源配置库模块设计,将各种型号各种配置的服务器以资源挂载监测项的方式构建为资源配置库,并为每台服务器的资源配置属性加入告警阀值,为每台服务器提供设置告警阀值的平台,并为资源告警阀值自循环优化模块提供典型资源配置。
所述的资源模板库管理模块设计,其特征在于建立模板批量应用策略,为不同型号不同配置的服务器指定相应的模板,模板由资源模板库中获取,并通过驱动应用策略生效,将获取到的各资源模板分发应用到每个资源、每台服务器上。并且,当该型号该配置服务器的告警阀值需要调整时,只需要统一调整资源模板,然后批量应用即可,无需逐个调整、逐个应用,与此同时,该模块还负责资源模板的整个生命周期管理,从新建到应用到调整再到结束。
弥补了传统服务器监控告警阀值设置时准确性差、资源时间耗费严重的不足,采用自循环优化结合阀值经验库的方法,实现告警阀值的自循环调整,大大增强了告警阀值的合理性和准确性,并通过典型资源生成模板、资源模板批量应用到服务器的方式,实现了对告警阀值的统一化管理,在大规模服务器监控告警阀值设置应用中具有很高的技术价值。
附图说明
附图1是传统的服务器监控时的告警阀值设置原理示意图;
附图2是资源告警阀值自循环优化模块示意图;
附图3是资源模板库生成模块示意图;
附图4是大规模服务器监控时的告警阀值设置原理示意图。
具体实施方式
下面参照附图,对本发明的内容以分别位于4个机柜的4种型号和配置的服务器的告警阀值设置为例,采用4种模板、每种资源或模板下设6个监测项的方式,来描述这一设计方法的实现过程。
正如发明内容中所描述的,本发明中大规模服务器监控时的告警阀值设置系统主要包括:(1)资源配置库模块、(2)资源告警阀值自循环优化模块、(3)资源模板库生成模块、(4)资源模板库管理模块。
大规模服务器监控时的告警阀值设置方法设计包括:资源配置库模块、资源告警阀值自循环优化模块、资源模板库生成模块和资源模板库管理模块,如图4所示,其中位于4个机柜的12台服务器首先被纳入到资源配置库中,然后在不同型号不同配置的服务器中分别设置一个典型资源,每个典型资源调用自循环优化模板,将自己的各个监测项告警阀值与告警阀值经验库中的数据进行对比分析,根据高低进行循环调整,直到达到一种合理、准确的告警阀值,循环结束。将各型号各配置对应的典型资源生成不同的资源模板,开始进入模板库进行统一管理,经过模板库生成模块对各资源模板的优化处理后,最终由资源模板库管理模块调用来将模板分别与各型号各配置的服务器资源进行关联,经过批量应用生效后完成告警阀值的设置过程。与此同时,当有新的告警阀值需要调整时,只需要将模板中的各监测项告警阀值修改后,重新再应用生效即可。

Claims (1)

1.一种大规模服务器监控时的告警阀值设置系统,其特征在于,其结构包括:(1)资源配置库模块、(2)资源告警阀值自循环优化模块、(3)资源模板库生成模块、(4)资源模板库管理模块;
所述的资源告警阀值自循环优化模块,基于告警阀值经验库,设计自循环优化流程,使典型资源的每个监测项的告警阀值根据警告阀值经验库中的数据进行调整,当阀值与经验库中数据相比过高时,便减小阀值;当阀值与经验库中数据相比过低时,便增加阀值,直到达到一种合理、准确的阀值水平,循环结束;其中,判断阀值是否准确、是否合理的依据为资源真正出现故障了才告警并且根据故障的严重程度分级告警;
所述的资源模板库生成模块,选择典型的、能够代表一种型号一种配置服务器的资源,启动其各监测项的告警阀值自循环优化,并根据优化完成的数据生成该型号该配置服务器监控对应的模板,并通过建立资源模板库的方式对模板进行维护;资源模板库通过资源配置库提供的典型资源监控配置生成模板,并由资源模板库管理模块调用,将模板应用到相同型号相同配置的服务器上,通过这种方式完成告警阀值的设置;
所述的资源配置库模块,将各种型号各种配置的服务器以资源挂载监测项的方式构建为资源配置库,并为每台服务器的资源配置属性加入告警阀值,为每台服务器提供设置告警阀值的平台,并为资源告警阀值自循环优化模块提供典型资源配置;
所述的资源模板库管理模块,建立模板批量应用策略,为不同型号不同配置的服务器指定相应的模板,模板由资源模板库中获取,并通过驱动应用策略生效,将获取到的各资源模板分发应用到每个资源、每台服务器上;并且,当该型号该配置服务器的告警阀值需要调整时,只需要统一调整资源模板,然后批量应用即可,与此同时,该模块还负责资源模板的整个生命周期管理,从新建到应用到调整再到结束;
服务器首先被纳入到资源配置库中,然后在不同型号不同配置的服务器中分别设置一个典型资源,每个典型资源调用资源告警阀值自循环优化模块,将自己的各个监测项告警阀值与告警阀值经验库中的数据进行对比分析,根据高低进行循环调整,直到达到一种合理、准确的告警阀值,循环结束;将各型号各配置对应的典型资源生成不同的资源模板,开始进入资源模板库进行统一管理,经过资源模板库生成模块对各资源模板的优化处理后,最终由资源模板库管理模块调用来将资源模板分别与各型号各配置的服务器资源进行关联,经过批量应用生效后完成告警阀值的设置过程;与此同时,当有新的告警阀值需要调整时,只需要将模板中的各监测项告警阀值修改后,重新再应用生效即可。
CN201410721437.4A 2014-12-03 2014-12-03 一种大规模服务器监控时的告警阀值设置系统 Active CN104375926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410721437.4A CN104375926B (zh) 2014-12-03 2014-12-03 一种大规模服务器监控时的告警阀值设置系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410721437.4A CN104375926B (zh) 2014-12-03 2014-12-03 一种大规模服务器监控时的告警阀值设置系统

Publications (2)

Publication Number Publication Date
CN104375926A CN104375926A (zh) 2015-02-25
CN104375926B true CN104375926B (zh) 2017-07-28

Family

ID=52554862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410721437.4A Active CN104375926B (zh) 2014-12-03 2014-12-03 一种大规模服务器监控时的告警阀值设置系统

Country Status (1)

Country Link
CN (1) CN104375926B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095641A (zh) * 2016-06-12 2016-11-09 浪潮电子信息产业股份有限公司 一种监控方法、装置和系统
CN110929876A (zh) * 2019-10-12 2020-03-27 虏克电梯有限公司 基于机器学习的告警阀值设定方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530824A (zh) * 2013-11-07 2014-01-22 南京国电南自轨道交通工程有限公司 一种基于模板库的变电站智能告警系统的知识库生产方法
CN103618644A (zh) * 2013-11-26 2014-03-05 曙光信息产业股份有限公司 一种基于hadoop集群的分布式监控系统及其方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007084791A2 (en) * 2006-01-20 2007-07-26 Glenbrook Associates, Inc. System and method for managing context-rich database

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530824A (zh) * 2013-11-07 2014-01-22 南京国电南自轨道交通工程有限公司 一种基于模板库的变电站智能告警系统的知识库生产方法
CN103618644A (zh) * 2013-11-26 2014-03-05 曙光信息产业股份有限公司 一种基于hadoop集群的分布式监控系统及其方法

Also Published As

Publication number Publication date
CN104375926A (zh) 2015-02-25

Similar Documents

Publication Publication Date Title
CN107908672B (zh) 基于Hadoop平台的应用报表实现方法、设备及存储介质
CN112101899A (zh) 一种数字孪生增强的制造服务信息物理融合方法
CN108804630A (zh) 一种面向行业应用的大数据智能分析服务系统
CN106020944B (zh) 一种基于后台数据库配置进行数据下载的方法和系统
CN105574032A (zh) 规则匹配运算方法及装置
CN103218263A (zh) MapReduce参数的动态确定方法及装置
CN104423968A (zh) 设计业务逻辑的方法、执行其的服务器和储存媒介
CN105608366A (zh) 用户权限控制方法和装置
CN105677691A (zh) 巨量串流数据实时处理方法及其装置与应用系统
CN109669975B (zh) 一种工业大数据处理系统及方法
CN104375926B (zh) 一种大规模服务器监控时的告警阀值设置系统
Brodsky et al. Analysis and optimization in smart manufacturing based on a reusable knowledge base for process performance models
US20220187812A1 (en) Apparatus, engine, system and method for predictive analytics in a manufacturing system
CN107977504A (zh) 一种非对称堆芯燃料管理计算方法、装置及终端设备
CN103856969A (zh) 网元特性参数的统计方法、装置及系统
CN117182910A (zh) 一种智能装配机器人装配控制方法及控制系统
CN109522536B (zh) 一种表格自动填写方法
CN105005210B (zh) 机电一体化仿真系统及使用其的方法
CN107038260A (zh) 一种可保持titan实时数据一致性的高效并行加载方法
CN114757111B (zh) 一种基于数字孪生技术的智能装备健康管理方法
WO2016082474A1 (zh) 一种人机命令脚本更新方法、装置及计算机存储介质
CN102253861A (zh) 一种分步运算插件的执行方法
CN109492209B (zh) 一种表格签名栏自动生成方法
CN109242357B (zh) 一种mes系统的工序编辑方法
CN109710395B (zh) 参数优化控制方法、装置和分布式计算系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190719

Address after: 250100 North 3-storey North District, No. 1036 Tidal Road, Tidal Science Park S05 Building, Jinan High-tech Zone, Shandong Province

Patentee after: Shandong Yingxin Computer Technology Co., Ltd.

Address before: 250101 Ji'nan high tech Zone, Shandong, No. 1036 wave road

Patentee before: Langchao Electronic Information Industry Co., Ltd.

TR01 Transfer of patent right