CN104394011A - 一种通过告警信息支持服务器虚拟化运维的方法 - Google Patents

一种通过告警信息支持服务器虚拟化运维的方法 Download PDF

Info

Publication number
CN104394011A
CN104394011A CN201410630038.7A CN201410630038A CN104394011A CN 104394011 A CN104394011 A CN 104394011A CN 201410630038 A CN201410630038 A CN 201410630038A CN 104394011 A CN104394011 A CN 104394011A
Authority
CN
China
Prior art keywords
snmp
virtual machine
alarm
information
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410630038.7A
Other languages
English (en)
Inventor
左强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410630038.7A priority Critical patent/CN104394011A/zh
Publication of CN104394011A publication Critical patent/CN104394011A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种通过告警信息支持服务器虚拟化运维的方法,在布置虚拟化软件的服务器主机上,运行一组agent组件,通过agent组件的告警机制,收集并汇总所有服务器和虚拟机以及网络设备的配置信息及性能数据,并根据所选定的事件、条件和状况进行对应的通知及告警;在监控处理的虚拟机上进行SNMP配置及告警配置,搭建SNMP管理实体,配置SNMP接收环境及相关解析脚本,对原始SNMPTrap信息进行解析处理。本发明通过布置一台虚拟机,通过SNMP协议来得到管理节点的告警信息从而对获取到的告警信息进行解析和设置处理,使用户能够在服务器虚拟化的运维上获得很大的便利。

Description

一种通过告警信息支持服务器虚拟化运维的方法
技术领域
本发明涉及虚拟化技术领域,具体涉及一种通过告警信息支持服务器虚拟化运维的方法,通过对服务器虚拟化软件的告警信息来对服务器的运维进行支持。
背景技术
近年来,基于x86系统的国产标准化高端服务器已经逐步替代国外的小型机服务器,被广泛用于金融、电信、医疗、教育、智慧城市等行业,在节约成本的同时也带来了服务器数量爆炸性增加,掀起国产替代的浪潮。作为日前讨论的非常火爆的服务器虚拟化技术,已经成为控制物理服务器快速增加、缓解机房空间、电力资源紧张、降低运维管理成本的有力举措。服务器虚拟化规模日渐扩大,运维难度和复杂度与日俱增,传统的监控方式已无法适应服务器虚拟化发展趋势,需要运用新技术,建立适应于服务器虚拟化的监控机制。
服务器虚拟化主要将服务器的物理资源抽象为逻辑资源,让一台或多台服务器变成几百台甚至上千台相互隔离的虚拟机的超虚拟化技术。应用时不再受限于物理上的界限,而是让CPU、内存、存储、I/O等硬件变成可以动态管理的“资源池”,从而提高资源的利用率,简化系统管理,从而达到实现服务器整合,让IT对业务的变化更具适应力。
作为目前网络管理系统的流行协议,简单网络管理协议(SNMP)是由一组网络管理标准组成,包含一个应用层协议、数据模型和一组资源对象,用来监测连接到网络设备上的设备是否有任何引起管理上的关注的情况。在典型的SNMP用法中,有许多系统被管理,而且是有一或多个系统在管理它们。
每一个被管理的系统上又运行一个叫做代理者(agent)的软件元件,且通过SNMP对管理系统报告资讯。基本上,SNMP代理者以变量呈现管理资料。管理系统透过GET,GETNEXT和GETBULK协定指令取回资讯,或是代理者在没有被询问的情况下,使用TRAP或INFORM传送资料。管理系统也可以传送配置更新或控制的请求,透过SET协定指令达到主动管理系统的目的。配置和控制指令只有当网络基本结构需要改变的时候使用,而监控指令则通常是常态性的工作。可透过SNMP存取的变量以阶层的方式结合。这些分层和其他元数据(例如变量的类型和描述)以管理信息库(MIBs)的方式描述。
发明内容
本发明要解决的技术问题是:提供一种通过告警信息支持服务器虚拟化运维的方法。
本发明所采用的技术方案为:
一种通过告警信息支持服务器虚拟化运维的方法,所述方法包括步骤如下: 
1)在布置虚拟化软件的服务器主机上,运行一组agent组件,用来对服务器虚拟化的监控,包括服务器主机和虚拟机以及标准虚拟交换机等的CPU使用率、CPU的频率、内存的使用率、硬盘的使用率、网络实时情况包进行全面、实时监控和告警,可以对整个系统进行实时的监控和调整;
2)通过agent组件的告警机制,收集并汇总所有服务器和虚拟机以及网络设备的配置信息及性能数据,并根据所选定的事件、条件和状况进行对应的通知及告警;
3)在监控处理的虚拟机上进行SNMP 配置及告警配置,设置SNMP 收件人地址;根据实际的监控需求启用或禁用服务器虚拟化系统中的预制告警;配置预定义警报触发规则及报警操作;根据系统监控的实际需求增加对特定事件触发或状态触发的用户自定义报警;
4)搭建SNMP 管理实体,在进行了虚拟化布置的服务器上面,创建一台用于监控信息收集处理的虚拟机,配置SNMP接收环境,可以作为管理端工具、代理程序、MIB 库转换工具实现网管工作站的基本功能;在安装并配置了SNMP 接收环境及相关解析脚本后,该台虚拟机服务器便构成了一台简单的网络管理实体,可以进行SNMP Trap 信息接收及解析工作;
5)对原始SNMP Trap 信息进行解析处理,在SNMP 虚拟机上获取到管理平台发出的原始SNMP Trap 信息,可以结合实际的运维监控工具和监控需求对原始SNMP Trap 信息进行调整以更符合实际的运维要求,例如设置报警级别、设置报警主体、配置实际报警发送等相关工作。
所述告警机制包括警报对象、警报触发器及警报操作三个模块,其中:
1)警报对象,监控模块有一组预定义的警报,每个预定义警报负责监控一个特定对象,如群集、主机、数据中心、数据存储、网络设备和虚拟机;
2)警报触发器,由值为真的条件值和时间长度组成,分为条件或状况触发器以及事件触发器,例如主机的数据储存掉线会发出相应的警报,或者在主机的宕机时会发出通告,或者在进行虚拟机复制、迁移、删除等特定事件触发时会触发对应警告(事件);
3)警报操作,对于特定状态或事件触发警报触发器之后的agent组件自动响应操作,例如重新挂载存储设备、发送电子邮件、发送SNMP Trap 陷阱信息、重启虚拟机、挂起虚拟机等;可以设置在警报触发后按照指定的时间间隔重复,直到状况恢复正常或者运维人员明确警报并手动确认警报。
所述虚拟机透过SNMP的GET、GETNEXT 和GETBULK协定指令取回信息(多用于系统状态级别主动监控),监控系统主机使用SNMP的TRAP 或INFORM 传送信息给虚拟机(多用于被动接受系统事件级别监控)。
透过SNMP 存取的信息变量以阶层的方式结合,这些分层和其他元数据,例如变量的类型和描述,以OID 的形式存放在管理信息库(Management Information Base,MIB)。根据IETF 对MIB 的标准化定义,MIB 模块为树状等级结构:在等级结构的顶部是ISO 和国际电信联盟的电信标准化组织;而在等级结构的下层,为各服务商特定的私有MIB 库中,包含有该产品所有对象的OID 对应信息,例如VMware 的私有MIB 库以6876 开头;通过在MIB 库中查找特定OID 对应的信息,可以明确解析出该条SNMP 对应的实际报警含义。
所述方法的结构流程为:在布置了虚拟化的服务器上面,组成多个群集共享资源,在资源池里面,组建若干的虚拟机;作为软件部署的主机分为计算节点和管理节点,管理节点在agent组件的监控下,获取当前整个系统的各种监控信息和告警信息,对每台计算节点主机和虚拟机以及存储设备设置告警信息;当触发告警信息时,管理节点就能够收到;另外通过SNMP布置一台虚拟机作为SNMP管理实体,对这些告警信息获取,最后SNMP虚拟机对告警信息解析并进行处理,包括发邮件和控制台屏幕显示或者消息提示。
注:OID 即 OBJECT IDENTIFIER,用于对网络硬件进行唯一的标识。
本发明有益效果:本发明通过布置一台虚拟机,通过SNMP协议来得到管理节点的告警信息从而对获取到的告警信息进行解析和设置处理,使用户能够在服务器虚拟化的运维上获得很大的便利。
具体实施方式
下面结合具体实施例,对本发明进一步说明:
一种通过告警信息支持服务器虚拟化运维的方法,所述方法包括步骤如下: 
1)在布置虚拟化软件的服务器主机上,运行一组agent组件,用来对服务器虚拟化的监控,包括服务器主机和虚拟机以及标准虚拟交换机等的CPU使用率、CPU的频率、内存的使用率、硬盘的使用率、网络实时情况包进行全面、实时监控和告警,可以对整个系统进行实时的监控和调整;
2)通过agent组件的告警机制,收集并汇总所有服务器和虚拟机以及网络设备的配置信息及性能数据,并根据所选定的事件、条件和状况进行对应的通知及告警;
3)在监控处理的虚拟机上进行SNMP 配置及告警配置,设置SNMP 收件人地址;根据实际的监控需求启用或禁用服务器虚拟化系统中的预制告警;配置预定义警报触发规则及报警操作;根据系统监控的实际需求增加对特定事件触发或状态触发的用户自定义报警;
4)搭建SNMP 管理实体,在进行了虚拟化布置的服务器上面,创建一台用于监控信息收集处理的虚拟机,配置SNMP接收环境,可以作为管理端工具、代理程序、MIB 库转换工具实现网管工作站的基本功能;在安装并配置了SNMP 接收环境及相关解析脚本后,该台虚拟机服务器便构成了一台简单的网络管理实体,可以进行SNMP Trap 信息接收及解析工作;
5)对原始SNMP Trap 信息进行解析处理,在SNMP 虚拟机上获取到管理平台发出的原始SNMP Trap 信息,可以结合实际的运维监控工具和监控需求对原始SNMP Trap 信息进行调整以更符合实际的运维要求,例如设置报警级别、设置报警主体、配置实际报警发送等相关工作。
所述告警机制包括警报对象、警报触发器及警报操作三个模块,其中:
1)警报对象,监控模块有一组预定义的警报,每个预定义警报负责监控一个特定对象,如群集、主机、数据中心、数据存储、网络设备和虚拟机;
2)警报触发器,由值为真的条件值和时间长度组成,分为条件或状况触发器以及事件触发器,例如主机的数据储存掉线会发出相应的警报,或者在主机的宕机时会发出通告,或者在进行虚拟机复制、迁移、删除等特定事件触发时会触发对应警告(事件);
3)警报操作,对于特定状态或事件触发警报触发器之后的agent组件自动响应操作,例如重新挂载存储设备、发送电子邮件、发送SNMP Trap 陷阱信息、重启虚拟机、挂起虚拟机等;可以设置在警报触发后按照指定的时间间隔重复,直到状况恢复正常或者运维人员明确警报并手动确认警报。
所述虚拟机透过SNMP的GET、GETNEXT 和GETBULK协定指令取回信息(多用于系统状态级别主动监控),监控系统主机使用SNMP的TRAP 或INFORM 传送信息给虚拟机(多用于被动接受系统事件级别监控)。
透过SNMP 存取的信息变量以阶层的方式结合,这些分层和其他元数据,例如变量的类型和描述,以OID 的形式存放在管理信息库(Management Information Base,MIB)。根据IETF 对MIB 的标准化定义,MIB 模块为树状等级结构:在等级结构的顶部是ISO 和国际电信联盟的电信标准化组织;而在等级结构的下层,为各服务商特定的私有MIB 库中,包含有该产品所有对象的OID 对应信息,例如VMware 的私有MIB 库以6876 开头;通过在MIB 库中查找特定OID 对应的信息,可以明确解析出该条SNMP 对应的实际报警含义。
所述方法的结构流程为:在布置了虚拟化的服务器上面,组成多个群集共享资源,在资源池里面,组建成百上千的虚拟机;作为软件部署的主机分为计算节点和管理节点,管理节点在agent组件的监控下,获取当前整个系统的各种监控信息和告警信息,对每台计算节点主机和虚拟机以及存储设备设置告警信息;当触发告警信息时,管理节点就能够收到;另外通过SNMP布置一台虚拟机作为SNMP管理实体,对这些告警信息获取,最后SNMP虚拟机对告警信息解析并进行处理,包括发邮件和控制台屏幕显示或者消息提示。

Claims (4)

1.一种通过告警信息支持服务器虚拟化运维的方法,其特征在于,所述方法包括步骤如下: 
1)在布置虚拟化软件的服务器主机上,运行一组agent组件,用来对服务器虚拟化的监控;
2)通过agent组件的告警机制,收集并汇总所有服务器和虚拟机以及网络设备的配置信息及性能数据,并根据所选定的事件、条件和状况进行对应的通知及告警;
3)在监控处理的虚拟机上进行SNMP 配置及告警配置,设置SNMP 收件人地址;根据实际的监控需求启用或禁用服务器虚拟化系统中的预制告警;配置预定义警报触发规则及报警操作;根据系统监控的实际需求增加对特定事件触发或状态触发的用户自定义报警;
4)搭建SNMP 管理实体,在进行了虚拟化布置的服务器上面,创建一台用于监控信息收集处理的虚拟机,配置SNMP接收环境,作为管理端工具、代理程序、MIB 库转换工具实现网管工作站的基本功能;在安装并配置了SNMP 接收环境及相关解析脚本后,该台虚拟机服务器便构成了一台简单的网络管理实体,能够进行SNMP Trap 信息接收及解析工作;
5)对原始SNMP Trap 信息进行解析处理,在SNMP 虚拟机上获取到管理平台发出的原始SNMP Trap 信息,结合实际的运维监控工具和监控需求对原始SNMP Trap 信息进行调整以更符合实际的运维要求。
2.根据权利要求1所述的一种通过告警信息支持服务器虚拟化运维的方法,其特征在于:所述告警机制包括警报对象、警报触发器及警报操作三个模块,其中:
1)警报对象,监控模块有一组预定义的警报,每个预定义警报负责监控一个特定对象;
2)警报触发器,由值为真的条件值和时间长度组成,分为条件或状况触发器以及事件触发器;
3)警报操作,对于特定状态或事件触发警报触发器之后的agent组件自动响应操作,设置在警报触发后按照指定的时间间隔重复,直到状况恢复正常或者运维人员明确警报并手动确认警报。
3.根据权利要求1或2所述的一种通过告警信息支持服务器虚拟化运维的方法,其特征在于:所述虚拟机透过SNMP的GET、GETNEXT 和GETBULK协定指令取回信息,监控系统主机使用SNMP的TRAP 或INFORM 传送信息给虚拟机。
4.根据权利要求3所述的一种通过告警信息支持服务器虚拟化运维的方法,其特征在于,所述方法的结构流程为:在布置了虚拟化的服务器上面,组成多个群集共享资源,在资源池里面,组建若干虚拟机;作为软件部署的主机分为计算节点和管理节点,管理节点在agent组件的监控下,获取当前整个系统的各种监控信息和告警信息,对每台计算节点主机和虚拟机以及存储设备设置告警信息;当触发告警信息时,管理节点就能够收到;另外通过SNMP布置一台虚拟机作为SNMP管理实体,对这些告警信息获取,最后SNMP虚拟机对告警信息解析并进行处理,包括发邮件和控制台屏幕显示或者消息提示。
CN201410630038.7A 2014-11-11 2014-11-11 一种通过告警信息支持服务器虚拟化运维的方法 Pending CN104394011A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410630038.7A CN104394011A (zh) 2014-11-11 2014-11-11 一种通过告警信息支持服务器虚拟化运维的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410630038.7A CN104394011A (zh) 2014-11-11 2014-11-11 一种通过告警信息支持服务器虚拟化运维的方法

Publications (1)

Publication Number Publication Date
CN104394011A true CN104394011A (zh) 2015-03-04

Family

ID=52611847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410630038.7A Pending CN104394011A (zh) 2014-11-11 2014-11-11 一种通过告警信息支持服务器虚拟化运维的方法

Country Status (1)

Country Link
CN (1) CN104394011A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243008A (zh) * 2015-11-02 2016-01-13 上海新炬网络信息技术有限公司 一种基于宿主机的虚拟机性能监控方法
CN106059801A (zh) * 2016-05-24 2016-10-26 北京哈工大计算机网络与信息安全技术研究中心 基于云计算平台网络的虚拟机可信证据收集方法和装置
CN107608758A (zh) * 2017-08-31 2018-01-19 郑州云海信息技术有限公司 一种虚拟机文件完整性监控方法及系统
CN107682182A (zh) * 2017-09-14 2018-02-09 郑州云海信息技术有限公司 一种实现虚拟化网络负载监控的告警方法及系统
CN107729117A (zh) * 2016-08-10 2018-02-23 中国移动通信集团重庆有限公司 一种虚拟机生成方法及系统
CN108964951A (zh) * 2017-05-19 2018-12-07 腾讯科技(深圳)有限公司 一种告警信息获取的方法以及服务器
CN113645095A (zh) * 2021-08-10 2021-11-12 浪潮思科网络科技有限公司 基于snmptrap告警信息的交换机自动化测试方法、设备及介质
CN114090184A (zh) * 2021-11-26 2022-02-25 中国电信集团系统集成有限责任公司 一种虚拟化集群高可用性的实现方法和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1393801A (zh) * 2001-06-28 2003-01-29 华为技术有限公司 一种计算机网络远程网络监控方法
CN1547120A (zh) * 2003-12-10 2004-11-17 沈阳东软软件股份有限公司 网络监视管理系统
US20080163210A1 (en) * 2006-12-29 2008-07-03 Mic Bowman Dynamic virtual machine generation
CN102307208A (zh) * 2010-09-25 2012-01-04 广东电子工业研究院有限公司 基于云计算的虚拟机运行控制装置及其运行控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1393801A (zh) * 2001-06-28 2003-01-29 华为技术有限公司 一种计算机网络远程网络监控方法
CN1547120A (zh) * 2003-12-10 2004-11-17 沈阳东软软件股份有限公司 网络监视管理系统
US20080163210A1 (en) * 2006-12-29 2008-07-03 Mic Bowman Dynamic virtual machine generation
CN102307208A (zh) * 2010-09-25 2012-01-04 广东电子工业研究院有限公司 基于云计算的虚拟机运行控制装置及其运行控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张乾尊,邵大年: "《VMware服务器虚拟化运维监控方法初探》", 《中国金融电脑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243008A (zh) * 2015-11-02 2016-01-13 上海新炬网络信息技术有限公司 一种基于宿主机的虚拟机性能监控方法
CN106059801A (zh) * 2016-05-24 2016-10-26 北京哈工大计算机网络与信息安全技术研究中心 基于云计算平台网络的虚拟机可信证据收集方法和装置
CN107729117A (zh) * 2016-08-10 2018-02-23 中国移动通信集团重庆有限公司 一种虚拟机生成方法及系统
CN107729117B (zh) * 2016-08-10 2021-07-06 中国移动通信集团重庆有限公司 一种虚拟机生成方法及系统
CN108964951A (zh) * 2017-05-19 2018-12-07 腾讯科技(深圳)有限公司 一种告警信息获取的方法以及服务器
CN108964951B (zh) * 2017-05-19 2020-12-29 腾讯科技(深圳)有限公司 一种告警信息获取的方法以及服务器
CN107608758A (zh) * 2017-08-31 2018-01-19 郑州云海信息技术有限公司 一种虚拟机文件完整性监控方法及系统
CN107682182A (zh) * 2017-09-14 2018-02-09 郑州云海信息技术有限公司 一种实现虚拟化网络负载监控的告警方法及系统
CN113645095A (zh) * 2021-08-10 2021-11-12 浪潮思科网络科技有限公司 基于snmptrap告警信息的交换机自动化测试方法、设备及介质
CN114090184A (zh) * 2021-11-26 2022-02-25 中国电信集团系统集成有限责任公司 一种虚拟化集群高可用性的实现方法和设备

Similar Documents

Publication Publication Date Title
CN104394011A (zh) 一种通过告警信息支持服务器虚拟化运维的方法
CN103716173B (zh) 一种存储监控系统及监控告警发布的方法
CN105760214B (zh) 一种设备状态及资源信息监测方法、相关设备及系统
CN106612199B (zh) 一种网络监控数据收集与分析系统及方法
CN104486445A (zh) 一种基于云平台的分布式可扩展资源监控系统及方法
CN103036736B (zh) 一种基于数据源的组态化设备监控系统及方法
CN103605722B (zh) 数据库监控方法及装置、设备
CN104104543B (zh) 一种基于snmp和ipmi协议的服务器管理系统及方法
CN105653425B (zh) 基于复杂事件处理引擎的监控系统
CN109214704A (zh) 一种分布式智能化运维平台、方法、装置及可读存储介质
CN105871957B (zh) 监控框架设计方法和监控服务器、代理单元、中控服务器
CN103812699A (zh) 基于云计算的监控管理系统
CN105245371A (zh) 一种基于ansible的自动化部署系统及方法
CN102215132A (zh) 基于数据库嵌入式snmp管理端数据采集装置、系统及方法
CN110134518A (zh) 一种提高大数据集群多节点应用高可用性的方法及系统
EP3011474A1 (en) Monitoring a computing network
CN103326874A (zh) 告警管理系统及方法
WO2011153757A1 (zh) 运行维护操作系统和方法
CN104184604A (zh) 一种云平台基础架构监管系统
JP2023506239A (ja) ハイブリッドエネルギー管理における自律的モニタリング及びリカバリのためのシステム及び方法
CN103595804A (zh) 一种服务器集群监控系统
CN111082998A (zh) 一种运维监控校园汇聚层的架构系统
WO2016177054A1 (zh) 充电设备的管理方法及装置
CN202652238U (zh) 一种自动派发故障单系统
Zhang et al. SDNMP: Enabling SDN management using traditional NMS

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150304

RJ01 Rejection of invention patent application after publication