CN104375926B - 一种大规模服务器监控时的告警阀值设置系统 - Google Patents

一种大规模服务器监控时的告警阀值设置系统 Download PDF

Info

Publication number
CN104375926B
CN104375926B CN201410721437.4A CN201410721437A CN104375926B CN 104375926 B CN104375926 B CN 104375926B CN 201410721437 A CN201410721437 A CN 201410721437A CN 104375926 B CN104375926 B CN 104375926B
Authority
CN
China
Prior art keywords
resource
template
alarm threshold
threshold value
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410721437.4A
Other languages
English (en)
Other versions
CN104375926A (zh
Inventor
陆峰
刘成平
李锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410721437.4A priority Critical patent/CN104375926B/zh
Publication of CN104375926A publication Critical patent/CN104375926A/zh
Application granted granted Critical
Publication of CN104375926B publication Critical patent/CN104375926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种大规模服务器监控时的告警阀值设置系统,涉及服务器监控、资源故障告警领域,本发明设计结构包括:(1)资源配置库模块、(2)资源告警阀值自循环优化模块、(3)资源模板库生成模块、(4)资源模板库管理模块。充分发挥资源告警阀值的自循环优化机制和基于模板库的告警阀值批量分发应用等特点,采用典型资源优先入资源库进行自循环优化,并生成模板的设计方法,实现大规模同型号同配置服务器批量应用模板进行告警阀值设置,从而大大降低了大规模服务器监控的过程中进行告警阀值设置的复杂度,提高了告警阀值设置的准确性和合理性。

Description

一种大规模服务器监控时的告警阀值设置系统
技术领域
本发明涉及服务器监控、资源故障告警领域,具体涉及一种大规模服务器监控时的告警阀值设置系统。
背景技术
随着数据中心的飞速发展,大规模的服务器应用越来越成为数据中心的主要特点。在大规模服务器的监控管理中使用自动化的监控系统就成为必然,但是由于规模太大,若要实现每台服务器每项监测数据可以灵活自主的设置合理的、实际环境需要的告警阀值,会给管理员带来非常大的挑战。可想而知,一个拥有上千台服务器的集群化应用,如果对每台服务器上的每项监测参数设置合理、可控的告警阀值,需要投入大量的时间和资源去完成。例如,一个2000台服务器规模的集群进行监控,每台服务器具有50个监测项(如系统CPU利用率、系统物理内存利用率、电源1的功耗、风扇1的转速等均为一个监测项),那么就会产生100000个监测项,要想对这100000个监测项进行合理的、用户可控制的告警阀值设置,用传统的方式首先很难保证设置的正确性,再有也需要很多的资源和时间去完成,一旦需要改动调整,则还要投入大量的时间和资源进行优化,既浪费了大量的人力物力也无法保证调整过程中集群中服务器监控的有效性。以上挑战为大规模服务器监控时告警阀值的设置和设置过程中服务器监控的有效性带了极大的局限性,严重影响大规模服务器监控时告警的合理性和准确性,因此设计大规模服务器监控时的告警阀值设置系统可以有效解决该难题。
发明内容
本发明的设计主要考虑资源告警阀值的自循环优化机制和基于模板库的告警阀值批量分发应用的特点,采用典型资源优先入资源库进行自循环优化,以及典型资源的告警阀值经过优化后生成模板的设计方法,实现大规模同型号同配置服务器批量应用模板进行告警阀值设置,从而大大降低了大规模服务器监控的过程中进行告警阀值设置的复杂度,提高了告警阀值设置的准确性和合理性。
资源告警阀值的自循环优化机制和基于模板库的告警阀值批量分发应用,考虑大规模服务器监控时告警阀值的灵活控制非常复杂的特点,采用典型资源优先入资源库进行自循环优化,以及典型资源的告警阀值经过优化后生成模板的设计方法,实现大规模同型号同配置服务器批量应用模板进行告警阀值设置,从而大大降低了大规模服务器监控的过程中进行告警阀值设置的复杂度,提高了告警阀值设置的准确性和合理性,避免了浪费大量人力逐个进行告警阀值设置和人为设置的告警阀值不合理、不统一、无法真实反应资源故障原因等问题。大规模服务器监控时的告警阀值设置系统的设计结构包括:(1)资源配置库模块、(2)资源告警阀值自循环优化模块、(3)资源模板库生成模块、(4)资源模板库管理模块。
所述的资源告警阀值自循环优化模块设计,基于告警阀值经验库,设计自循环优化流程,可使典型资源的每个监测项的告警阀值根据阀值经验库中的数据进行调整,当阀值与经验库中数据相比过高时,便减小阀值;当阀值与经验库中数据相比过低时,便增加阀值,直到达到一种合理、准确的阀值水平,循环结束。其中,判断阀值是否准确、是否合理的依据为资源真正出现故障了才告警并且根据故障的严重程度分级告警。
所述的资源模板库生成模块设计,选择典型的、能够代表某型号某配置服务器的资源,启动其各监测项的告警阀值自循环优化,并根据优化完成的数据生成该型号该配置服务器监控对应的模板,并通过建立模板库的方式对模板进行维护,如添加模板、修改模板和删除模板。资源模板库通过资源库提供的典型资源监控配置生成模板,并由资源模板库管理模块调用,将模板应用到相同型号相同配置的服务器上,通过这种方式完成告警阀值的设置。
所述的资源配置库模块设计,将各种型号各种配置的服务器以资源挂载监测项的方式构建为资源配置库,并为每台服务器的资源配置属性加入告警阀值,为每台服务器提供设置告警阀值的平台,并为资源告警阀值自循环优化模块提供典型资源配置。
所述的资源模板库管理模块设计,其特征在于建立模板批量应用策略,为不同型号不同配置的服务器指定相应的模板,模板由资源模板库中获取,并通过驱动应用策略生效,将获取到的各资源模板分发应用到每个资源、每台服务器上。并且,当该型号该配置服务器的告警阀值需要调整时,只需要统一调整资源模板,然后批量应用即可,无需逐个调整、逐个应用,与此同时,该模块还负责资源模板的整个生命周期管理,从新建到应用到调整再到结束。
弥补了传统服务器监控告警阀值设置时准确性差、资源时间耗费严重的不足,采用自循环优化结合阀值经验库的方法,实现告警阀值的自循环调整,大大增强了告警阀值的合理性和准确性,并通过典型资源生成模板、资源模板批量应用到服务器的方式,实现了对告警阀值的统一化管理,在大规模服务器监控告警阀值设置应用中具有很高的技术价值。
附图说明
附图1是传统的服务器监控时的告警阀值设置原理示意图;
附图2是资源告警阀值自循环优化模块示意图;
附图3是资源模板库生成模块示意图;
附图4是大规模服务器监控时的告警阀值设置原理示意图。
具体实施方式
下面参照附图,对本发明的内容以分别位于4个机柜的4种型号和配置的服务器的告警阀值设置为例,采用4种模板、每种资源或模板下设6个监测项的方式,来描述这一设计方法的实现过程。
正如发明内容中所描述的,本发明中大规模服务器监控时的告警阀值设置系统主要包括:(1)资源配置库模块、(2)资源告警阀值自循环优化模块、(3)资源模板库生成模块、(4)资源模板库管理模块。
大规模服务器监控时的告警阀值设置方法设计包括:资源配置库模块、资源告警阀值自循环优化模块、资源模板库生成模块和资源模板库管理模块,如图4所示,其中位于4个机柜的12台服务器首先被纳入到资源配置库中,然后在不同型号不同配置的服务器中分别设置一个典型资源,每个典型资源调用自循环优化模板,将自己的各个监测项告警阀值与告警阀值经验库中的数据进行对比分析,根据高低进行循环调整,直到达到一种合理、准确的告警阀值,循环结束。将各型号各配置对应的典型资源生成不同的资源模板,开始进入模板库进行统一管理,经过模板库生成模块对各资源模板的优化处理后,最终由资源模板库管理模块调用来将模板分别与各型号各配置的服务器资源进行关联,经过批量应用生效后完成告警阀值的设置过程。与此同时,当有新的告警阀值需要调整时,只需要将模板中的各监测项告警阀值修改后,重新再应用生效即可。

Claims (1)

1.一种大规模服务器监控时的告警阀值设置系统,其特征在于,其结构包括:(1)资源配置库模块、(2)资源告警阀值自循环优化模块、(3)资源模板库生成模块、(4)资源模板库管理模块;
所述的资源告警阀值自循环优化模块,基于告警阀值经验库,设计自循环优化流程,使典型资源的每个监测项的告警阀值根据警告阀值经验库中的数据进行调整,当阀值与经验库中数据相比过高时,便减小阀值;当阀值与经验库中数据相比过低时,便增加阀值,直到达到一种合理、准确的阀值水平,循环结束;其中,判断阀值是否准确、是否合理的依据为资源真正出现故障了才告警并且根据故障的严重程度分级告警;
所述的资源模板库生成模块,选择典型的、能够代表一种型号一种配置服务器的资源,启动其各监测项的告警阀值自循环优化,并根据优化完成的数据生成该型号该配置服务器监控对应的模板,并通过建立资源模板库的方式对模板进行维护;资源模板库通过资源配置库提供的典型资源监控配置生成模板,并由资源模板库管理模块调用,将模板应用到相同型号相同配置的服务器上,通过这种方式完成告警阀值的设置;
所述的资源配置库模块,将各种型号各种配置的服务器以资源挂载监测项的方式构建为资源配置库,并为每台服务器的资源配置属性加入告警阀值,为每台服务器提供设置告警阀值的平台,并为资源告警阀值自循环优化模块提供典型资源配置;
所述的资源模板库管理模块,建立模板批量应用策略,为不同型号不同配置的服务器指定相应的模板,模板由资源模板库中获取,并通过驱动应用策略生效,将获取到的各资源模板分发应用到每个资源、每台服务器上;并且,当该型号该配置服务器的告警阀值需要调整时,只需要统一调整资源模板,然后批量应用即可,与此同时,该模块还负责资源模板的整个生命周期管理,从新建到应用到调整再到结束;
服务器首先被纳入到资源配置库中,然后在不同型号不同配置的服务器中分别设置一个典型资源,每个典型资源调用资源告警阀值自循环优化模块,将自己的各个监测项告警阀值与告警阀值经验库中的数据进行对比分析,根据高低进行循环调整,直到达到一种合理、准确的告警阀值,循环结束;将各型号各配置对应的典型资源生成不同的资源模板,开始进入资源模板库进行统一管理,经过资源模板库生成模块对各资源模板的优化处理后,最终由资源模板库管理模块调用来将资源模板分别与各型号各配置的服务器资源进行关联,经过批量应用生效后完成告警阀值的设置过程;与此同时,当有新的告警阀值需要调整时,只需要将模板中的各监测项告警阀值修改后,重新再应用生效即可。
CN201410721437.4A 2014-12-03 2014-12-03 一种大规模服务器监控时的告警阀值设置系统 Active CN104375926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410721437.4A CN104375926B (zh) 2014-12-03 2014-12-03 一种大规模服务器监控时的告警阀值设置系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410721437.4A CN104375926B (zh) 2014-12-03 2014-12-03 一种大规模服务器监控时的告警阀值设置系统

Publications (2)

Publication Number Publication Date
CN104375926A CN104375926A (zh) 2015-02-25
CN104375926B true CN104375926B (zh) 2017-07-28

Family

ID=52554862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410721437.4A Active CN104375926B (zh) 2014-12-03 2014-12-03 一种大规模服务器监控时的告警阀值设置系统

Country Status (1)

Country Link
CN (1) CN104375926B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095641A (zh) * 2016-06-12 2016-11-09 浪潮电子信息产业股份有限公司 一种监控方法、装置和系统
CN110929876A (zh) * 2019-10-12 2020-03-27 虏克电梯有限公司 基于机器学习的告警阀值设定方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530824A (zh) * 2013-11-07 2014-01-22 南京国电南自轨道交通工程有限公司 一种基于模板库的变电站智能告警系统的知识库生产方法
CN103618644A (zh) * 2013-11-26 2014-03-05 曙光信息产业股份有限公司 一种基于hadoop集群的分布式监控系统及其方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007084791A2 (en) * 2006-01-20 2007-07-26 Glenbrook Associates, Inc. System and method for managing context-rich database

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530824A (zh) * 2013-11-07 2014-01-22 南京国电南自轨道交通工程有限公司 一种基于模板库的变电站智能告警系统的知识库生产方法
CN103618644A (zh) * 2013-11-26 2014-03-05 曙光信息产业股份有限公司 一种基于hadoop集群的分布式监控系统及其方法

Also Published As

Publication number Publication date
CN104375926A (zh) 2015-02-25

Similar Documents

Publication Publication Date Title
US10884471B2 (en) Holistic global performance and power management
US10466754B2 (en) Dynamic hierarchical performance balancing of computational resources
CN105573840B (zh) 工作流运行期的事件处理方法和装置
CN108804630A (zh) 一种面向行业应用的大数据智能分析服务系统
Ajorlou et al. Artificial bee colony algorithm for CONWIP production control system in a multi-product multi-machine manufacturing environment
US11657302B2 (en) Model selection in a forecasting pipeline to optimize tradeoff between forecast accuracy and computational cost
CN103886203A (zh) 一种基于指标预测的自动建模系统及其方法
WO2015094269A1 (en) Hybrid flows containing a continuous flow
CN106020944B (zh) 一种基于后台数据库配置进行数据下载的方法和系统
CN105574032A (zh) 规则匹配运算方法及装置
Wei et al. Research on cloud design resources scheduling based on genetic algorithm
任杉 et al. New pattern of lifecycle big-data-driven smart manufacturing service for complex product
CN109669975B (zh) 一种工业大数据处理系统及方法
CN104375926B (zh) 一种大规模服务器监控时的告警阀值设置系统
CN104008248A (zh) 基于高斯过程的注塑成形工艺稳健设计与容差设计方法
Brodsky et al. Analysis and optimization in smart manufacturing based on a reusable knowledge base for process performance models
CN110119583B (zh) 一种基于复杂事件处理和Petri网的泡沫浮选建模方法及系统
CN107977504A (zh) 一种非对称堆芯燃料管理计算方法、装置及终端设备
CN106326005A (zh) 一种迭代型MapReduce作业的参数自动调优方法
CN117182910A (zh) 一种智能装配机器人装配控制方法及控制系统
CN105005210B (zh) 机电一体化仿真系统及使用其的方法
WO2016082474A1 (zh) 一种人机命令脚本更新方法、装置及计算机存储介质
CN102253861A (zh) 一种分步运算插件的执行方法
Jiang et al. Improved heuristic algorithm for modern industrial production scheduling
CN109242357B (zh) 一种mes系统的工序编辑方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190719

Address after: 250100 North 3-storey North District, No. 1036 Tidal Road, Tidal Science Park S05 Building, Jinan High-tech Zone, Shandong Province

Patentee after: Shandong Yingxin Computer Technology Co., Ltd.

Address before: 250101 Ji'nan high tech Zone, Shandong, No. 1036 wave road

Patentee before: Langchao Electronic Information Industry Co., Ltd.