CN109274557B - 一种云环境下的智能cmdb管理及云主机监控方法 - Google Patents

一种云环境下的智能cmdb管理及云主机监控方法 Download PDF

Info

Publication number
CN109274557B
CN109274557B CN201811351495.7A CN201811351495A CN109274557B CN 109274557 B CN109274557 B CN 109274557B CN 201811351495 A CN201811351495 A CN 201811351495A CN 109274557 B CN109274557 B CN 109274557B
Authority
CN
China
Prior art keywords
host
cloud
cloud host
cmdb
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811351495.7A
Other languages
English (en)
Other versions
CN109274557A (zh
Inventor
胡昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Clp Hongxin Information Technology Co ltd
Original Assignee
Clp Hongxin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clp Hongxin Information Technology Co ltd filed Critical Clp Hongxin Information Technology Co ltd
Priority to CN201811351495.7A priority Critical patent/CN109274557B/zh
Publication of CN109274557A publication Critical patent/CN109274557A/zh
Application granted granted Critical
Publication of CN109274557B publication Critical patent/CN109274557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • H04L41/082Configuration setting characterised by the conditions triggering a change of settings the condition being updates or upgrades of network functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0213Standardised network management protocols, e.g. simple network management protocol [SNMP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种云环境下的智能CMDB管理及云主机监控方法,步骤一:使用统一的agent服务获取所有设备的运行状态信息;步骤二:根据采集上来的信息,整理生成各种设备之间的关联关系;步骤三:当云主机出现告警时,将多种告警信息进行联合分析,确定最终故障源;步骤四:根据步骤三的结果,判断受影响的项目/业务范围,监控组件主动向CMDB发送消息以修改其配置。本发明将云主机、宿主物理机和网络设备统一纳入监控,对告警信息进行联合分析,从而准确判断出故障源,减少故障排查中的运维人员工作量。

Description

一种云环境下的智能CMDB管理及云主机监控方法
技术领域
本发明涉及一种云主机监控方法,特别是一种云环境下的智能CMDB管理及云主机监控方法。
背景技术
随着云计算技术的发展,目前公司内部使用虚拟云主机的场景和规模正在不断增长,如此一来就给后续的运维工作带来了极大的难题。当前同类产品和技术存在如下的几点问题:
1.架构和功能主要针对物理主机进行设计,缺乏对云主机的有针对性设计;
2.云主机运行在宿主机之中,因此性能受宿主机影响较大。但是目前这两者的监控和管理上是割裂的,当云主机出现告警时,往往需要人工判断其故障源是位于云主机或是宿主机;
3.目前市面上众多运维监控软件缺乏向CMDB反馈信息的功能,并对业务进行智能调整的功能。意味着虽然运维人员接收到告警,但是实际的CMDB配置数据仍然需要人工去调整;
4.从目前公司实际应用中来看,自动化运维领域牵涉东西较多,往往在一台服务器上需要部署多套系统,为后续管理增加了难度。
发明内容
本发明所要解决的技术问题是提供一种云环境下的智能CMDB管理及云主机监控方法,将云主机、宿主物理机和网络设备统一纳入监控,对告警信息进行联合分析,从而准确判断出故障源,减少故障排查中的运维人员工作量。
为解决上述技术问题,本发明所采用的技术方案是:
一种云环境下的智能CMDB管理及云主机监控方法,其特征在于包含以下步骤:
步骤一:使用统一的agent服务获取所有设备的运行状态信息;
步骤二:根据采集上来的信息,整理生成各种设备之间的关联关系;
步骤三:当云主机出现告警时,将多种告警信息进行联合分析,确定最终故障源;
步骤四:根据步骤三的结果,判断受影响的项目/业务范围,监控组件主动向CMDB发送消息以修改其配置。
进一步地,所述步骤一中agent服务获取方式为:对于网络设备,通过SNMP协议采集。
进一步地,所述步骤二中,各种设备之间的关联关系包含云主机与宿主机之间的关联关系以及云主机-宿主机-网络设备间的关联关系。
进一步地,所述云主机与宿主机之间的关联关系建立过程如下:
2.1列出宿主机上运行的所有qemu-kvm虚拟化进程,并获取每个虚拟化进程的实际CPU占用情况及其 instance id;
2.2根据instance id找到相应的libvirt配置文件,从配置文件中读取到所有的云主机配置,建立这些云主机配置与进程号、实际CPU占用情况之间的对应关系;
2.3将上述对应关系发送至后台,进行存储,建立云主机与宿主机之间的对应关系。
进一步地,所述2.2中云主机配置包含名称、硬盘、虚拟CPU、虚拟网卡和uuid。
进一步地,所述云主机-宿主机-网络设备间的关联关系建立过程如下:
2.4通过SNMP协议对云主机及宿主机的网络环境进行定时采集,获取网络设备的运行状态;
2.5通过获取的信息,建立云主机-虚拟网桥-物理网卡-路由交换设备之间的拓扑关系,并存至数据库。
进一步地,所述步骤三具体为
3.1判断底层宿主机和网络设备是否故障,排查网络;
3.2若网络没有问题,判断宿主机状态和负载压力P,若P已超过预先设置的阈值,监控则将宿主机降级;
3.3若宿主机没有问题,则判断云主机状态和负载压力V,V中必有某项指标超出设定阈值,监控则将此云主机标记为繁忙。
进一步地,所述步骤四中修改配置包含
对于降级的宿主机,阻止后续的新建云主机创建在该主机上;
对于繁忙的云主机,暂时禁止新的项目/产品线调用该云主机。
本发明与现有技术相比,具有以下优点和效果:本发明将云主机、宿主物理机和网络设备统一纳入监控,对告警信息进行联合分析,从而准确判断出故障源,减少故障排查中的运维人员工作量;同时将监控信息反馈给CMDB,智能调整业务部署。
附图说明
图1是本发明的一种云环境下的智能CMDB管理及云主机监控方法的流程图。
图2是本发明的监控系统架构图。
具体实施方式
下面通过实施例对本发明作进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
如图1和图2所示,本发明的一种云环境下的智能CMDB管理及云主机监控方法,包含以下步骤:
步骤一:使用统一的agent服务获取所有设备的运行状态信息;agent服务获取方式为:对于网络设备,通过SNMP协议采集。
使用统一的agnet采集系统监控信息,并整合不同来源的监控数据和设备,支持细化到端口和进程的监控信息。
步骤二:根据采集上来的信息,整理生成各种设备之间的关联关系;
各种设备之间的关联关系包含云主机与宿主机之间的关联关系以及云主机-宿主机-网络设备间的关联关系。
步骤2.1-2.3以CPU监控为例详细说明了如何建立云主机与宿主机之间的关联关系,步骤2.4-2.5说明了如何建立云主机-宿主机-网络设备间的关联关系:
2.1列出宿主机上运行的所有qemu-kvm虚拟化进程(每一个进程对应一台云主机),并获取每个虚拟化进程的实际CPU占用情况及其 instance id;
2.2根据instance id找到相应的libvirt配置文件,从配置文件中读取到所有的云主机配置(名称、硬盘、虚拟CPU、虚拟网卡、uuid等),建立这些云主机配置与进程号、实际CPU占用情况之间的对应关系;
2.3将上述对应关系发送至后台,进行存储,建立云主机与宿主机之间的对应关系;
2.4通过SNMP协议对云主机及宿主机的网络环境进行定时采集,获取网络设备的运行状态;
2.5通过上述步骤获取的信息,可以建立云主机-虚拟网桥-物理网卡-路由交换设备之间的拓扑关系,并存至数据库。
本发明解决了云主机与宿主机之间的关联问题,用户可以通过页面轻松掌握云主机归属情况,以及宿主机运行状态;当宿主机负载过高时,允许用户将云主机进行迁移或者扩展;主动上报主机信息,当出现关联告警时,通过智能综合分析,确定真实故障源,同时避免同一故障的反复告警。
步骤三:当云主机出现告警时,将多种告警信息进行联合分析,确定最终故障源;具体步骤如下:
3.1判断底层宿主机和网络设备是否故障,排查网络;
3.2若网络没有问题,判断宿主机状态和负载压力P,若P已超过预先设置的阈值,监控则将宿主机降级;
3.3若宿主机没有问题,则判断云主机状态和负载压力V,V中必有某项指标超出设定阈值,监控则将此云主机标记为繁忙。
步骤四:根据步骤三的结果,判断受影响的项目/业务范围,监控组件主动向CMDB发送消息以修改其配置。例如:
对于降级的宿主机,阻止后续的新建云主机创建在该主机上;
对于繁忙的云主机,暂时禁止新的项目/产品线调用该云主机。
本发明提供了提供智能感知的CMDB服务,根据监控反馈的信息,系统主动对CMDB配置数据库作出相应调整,例如:将故障主机降级、从产品线中删除、转移业务、修改主机配置信息等。集中实现云主机自动化运维管理,减轻部署工作量和后续的维护管理难度。
本发明将云主机、宿主物理机和网络设备统一纳入监控,对告警信息进行联合分析,从而准确判断出故障源,减少故障排查中的运维人员工作量;同时将监控信息反馈给CMDB,智能调整业务部署。
本说明书中所描述的以上内容仅仅是对本发明所作的举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种修改或补充或采用类似的方式替代,只要不偏离本发明说明书的内容或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (7)

1.一种云环境下的智能CMDB管理及云主机监控方法,其特征在于包含以下步骤:
步骤一:使用统一的agent服务获取所有设备的运行状态信息;
步骤二:根据采集上来的信息,整理生成各种设备之间的关联关系;
步骤三:当云主机出现告警时,将多种告警信息进行联合分析,确定最终故障源;
所述步骤三具体为
3.1判断底层宿主机和网络设备是否故障,排查网络;
3.2若网络没有问题,判断宿主机状态和负载压力P,若P已超过预先设置的阈值,监控则将宿主机降级;
3.3若宿主机没有问题,则判断云主机状态和负载压力V,V中必有某项指标超出设定阈值,监控则将此云主机标记为繁忙;
步骤四:根据步骤三的结果,判断受影响的项目/业务范围,监控组件主动向CMDB发送消息以修改其配置。
2.按照权利要求1所述的一种云环境下的智能CMDB管理及云主机监控方法,其特征在于:所述步骤一中agent服务获取方式为:对于网络设备,通过SNMP协议采集。
3.按照权利要求1所述的一种云环境下的智能CMDB管理及云主机监控方法,其特征在于:所述步骤二中,各种设备之间的关联关系包含云主机与宿主机之间的关联关系以及云主机-宿主机-网络设备间的关联关系。
4.按照权利要求3所述的一种云环境下的智能CMDB管理及云主机监控方法,其特征在于:所述云主机与宿主机之间的关联关系建立过程如下:
2.1列出宿主机上运行的所有qemu-kvm虚拟化进程,并获取每个虚拟化进程的实际CPU占用情况及其 instance id;
2.2根据instance id找到相应的libvirt配置文件,从配置文件中读取到所有的云主机配置,建立这些云主机配置与进程号、实际CPU占用情况之间的对应关系;
2.3将上述对应关系发送至后台,进行存储,建立云主机与宿主机之间的对应关系。
5.按照权利要求4所述的一种云环境下的智能CMDB管理及云主机监控方法,其特征在于:所述2.2中云主机配置包含名称、硬盘、虚拟CPU、虚拟网卡和uuid。
6.按照权利要求4所述的一种云环境下的智能CMDB管理及云主机监控方法,其特征在于:所述云主机-宿主机-网络设备间的关联关系建立过程如下:
2.4通过SNMP协议对云主机及宿主机的网络环境进行定时采集,获取网络设备的运行状态;
2.5通过获取的信息,建立云主机-虚拟网桥-物理网卡-路由交换设备之间的拓扑关系,并存至数据库。
7.按照权利要求1所述的一种云环境下的智能CMDB管理及云主机监控方法,其特征在于:所述步骤四中修改配置包含
对于降级的宿主机,阻止后续的新建云主机创建在该宿 主机上;
对于繁忙的云主机,暂时禁止新的项目/产品线调用该云主机。
CN201811351495.7A 2018-11-14 2018-11-14 一种云环境下的智能cmdb管理及云主机监控方法 Active CN109274557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811351495.7A CN109274557B (zh) 2018-11-14 2018-11-14 一种云环境下的智能cmdb管理及云主机监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811351495.7A CN109274557B (zh) 2018-11-14 2018-11-14 一种云环境下的智能cmdb管理及云主机监控方法

Publications (2)

Publication Number Publication Date
CN109274557A CN109274557A (zh) 2019-01-25
CN109274557B true CN109274557B (zh) 2021-06-08

Family

ID=65192579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811351495.7A Active CN109274557B (zh) 2018-11-14 2018-11-14 一种云环境下的智能cmdb管理及云主机监控方法

Country Status (1)

Country Link
CN (1) CN109274557B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112583611A (zh) * 2019-09-27 2021-03-30 北京金山云网络技术有限公司 一种获取故障信息的方法、装置、电子设备及介质
CN110995462B (zh) * 2019-10-31 2022-06-07 北京浪潮数据技术有限公司 一种云主机功能扩展方法、系统、设备及计算机存储介质
CN111104285A (zh) * 2019-12-17 2020-05-05 武汉武钢绿色城市技术发展有限公司 一种基于OpenStack的云计算平台的运行监控方法
CN111447109B (zh) * 2020-03-23 2022-03-22 京东方科技集团股份有限公司 监控管理设备及方法、计算机可读存储介质
CN112367212B (zh) * 2020-08-03 2022-04-05 浪潮云信息技术股份公司 云环境下虚拟机网络质量监控方法及监控系统
CN112242928B (zh) * 2020-10-15 2023-05-09 浪潮商用机器有限公司 一种业务系统管理系统
CN112636965B (zh) * 2020-12-17 2023-03-28 浪潮云信息技术股份公司 一种云环境下虚机网络连通性监控方法
CN113438136B (zh) * 2021-08-27 2021-11-19 苏州浪潮智能科技有限公司 应用服务监控方法、装置、电子设备及可读存储介质
CN115277385A (zh) * 2022-07-01 2022-11-01 浪潮云信息技术股份公司 分布式云的cmdb自动配置方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5751115B2 (ja) * 2011-09-28 2015-07-22 富士通株式会社 試験支援プログラム、試験支援方法および試験支援装置
CN102970165B (zh) * 2012-11-20 2015-07-08 北京思特奇信息技术股份有限公司 一种网络设备联合分析告警系统
CN104506393B (zh) * 2015-01-06 2017-12-08 北京海量数据技术股份有限公司 一种基于云平台的系统监控方法
CN107786616A (zh) * 2016-08-30 2018-03-09 江苏蓝创聚联数据与应用研究院有限公司 基于云端的主机智能监控系统
CN107341745A (zh) * 2017-06-16 2017-11-10 浙江网新恒天软件有限公司 一种基于云计算的高校实验设施智能云化管理系统
CN107679125A (zh) * 2017-09-21 2018-02-09 杭州云霁科技有限公司 一种用于云计算的配置管理数据库系统
CN107864061A (zh) * 2017-11-15 2018-03-30 北京易讯通信息技术股份有限公司 一种在私有云中虚拟机端口限速和镜像的方法

Also Published As

Publication number Publication date
CN109274557A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109274557B (zh) 一种云环境下的智能cmdb管理及云主机监控方法
WO2021129367A1 (zh) 一种监控分布式存储系统的方法及装置
EP3072260B1 (en) Methods, systems, and computer readable media for a network function virtualization information concentrator
US9141491B2 (en) Highly available server system based on cloud computing
CN105940377B (zh) 用于基于云的虚拟化编排器的方法、系统和计算机可读介质
CN112565415B (zh) 一种基于云边协同的跨地域资源纳管系统和纳管方法
GB2606628A (en) Centralized knowledge repository and data mining system
Kim et al. OFMon: OpenFlow monitoring system in ONOS controllers
CN102664747B (zh) 一种云计算平台系统
CN107872457B (zh) 一种基于网络流量预测进行网络操作的方法及系统
CN101707632A (zh) 一种动态监控服务器集群性能并实时报警的方法
CN102135932A (zh) 一种监控系统及监控方法
CN111163150A (zh) 一种分布式调用追踪系统
CN105871581A (zh) 云计算中报警信息的处理方法及装置
CN103986604A (zh) 网络故障定位方法和装置
CN106911519B (zh) 一种数据采集监控方法及装置
CN104468201A (zh) 一种网络设备离线的自动删除方法和设备
US10671470B2 (en) Application performance management system with dynamic discovery and extension
US11153183B2 (en) Compacted messaging for application performance management system
US10659289B2 (en) System and method for event processing order guarantee
CN111049690A (zh) 设备故障监测处理方法、装置、设备及存储介质
KR102221052B1 (ko) Sdn 오픈플로우 프로토콜을 지원하는 네트워크 장비의 장애처리 시스템
US20240020297A1 (en) Metrics and events infrastructure
CN105553766A (zh) 异常节点动态追踪集群节点状态的监测方法
CN106357466B (zh) 一种互联网产品监控方法及监控系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 210029 No. 268, Hanzhoung Road, Nanjing, Jiangsu

Applicant after: CLP Hongxin Information Technology Co., Ltd

Address before: 210029 No. 268, Hanzhoung Road, Nanjing, Jiangsu

Applicant before: Jiangsu Hongxin System Integration Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant