CN115842707A - 一种支持多种监控方式的分布式it监控系统 - Google Patents

一种支持多种监控方式的分布式it监控系统 Download PDF

Info

Publication number
CN115842707A
CN115842707A CN202211125516.XA CN202211125516A CN115842707A CN 115842707 A CN115842707 A CN 115842707A CN 202211125516 A CN202211125516 A CN 202211125516A CN 115842707 A CN115842707 A CN 115842707A
Authority
CN
China
Prior art keywords
monitoring
module
configuration
distributed
interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211125516.XA
Other languages
English (en)
Inventor
时盈晨
冯世杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Digital Intelligence Technology Co Ltd
Original Assignee
China Telecom Digital Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Digital Intelligence Technology Co Ltd filed Critical China Telecom Digital Intelligence Technology Co Ltd
Priority to CN202211125516.XA priority Critical patent/CN115842707A/zh
Publication of CN115842707A publication Critical patent/CN115842707A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种支持多种监控方式的分布式IT监控系统,包括资产管理模块,配置模块,采集模块,采集查询模块,接口模块;其中,资产管理模块,用于IT基础设施资产与基础配置信息的导入与管理;配置模块,用于基于资产配置信息进行监控服务配置和部署以及监控数据采集;采集模块,用于对监控服务采集的数据进行处理与应用;接口模块,用于提供分布式IT监控用接口。本发明可基于灵活的资源管理、配置管理和自动运维能力,实现监控流程的自动化部署、规模化采集、智能化告警根因判断,同时兼容多种采集手段,为各种大中小型数据中心提供灵活可靠的监控预警平台。

Description

一种支持多种监控方式的分布式IT监控系统
技术领域
本发明属于IT运维监控技术领域,具体涉及一种支持多种监控方式的分布式IT监控系统。
背景技术
当针对大批量、多种类型的资源进行统一监控管理时,由于资源类型不同、监控资源数量多,会涉及到不同类型采集服务以及单个类型多个采集服务的情况,除开源采集服务外,还有可能包含三方采集服务、自研采集服务等。
常用的IT运维监控技术,如zabbix、prometheus、telegraf等,因其本身架构不同、特点不同、数据采集和配置方式不同,导致了难以统一配置、融合采集;单一监控技术分布式能力差,存在海量数据查询效率低的问题。
另外,现有IT运维技术会给运维人员和客户展示大量的资源告警,需要使用人员一一筛查,最后确认问题根因并着手修复;这种处理方式不能利用资源建依赖关系等自动进行无关告警屏蔽,需要运维人员通过自身运维经验进行排查,大大降低了运维人员对故障的分析、定位以及处理效率。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种支持多种监控方式的分布式IT监控系统,灵活的资源管理、配置管理和自动运维能力,实现监控流程的自动化部署、规模化采集、智能化告警根因判断,同时兼容多种采集手段,为各种大中小型数据中心提供灵活可靠的监控预警平台。
为实现上述技术目的,本发明采取的技术方案为:
一种支持多种监控方式的分布式IT监控系统,包括:资产管理模块,配置模块,采集模块,采集查询模块,接口模块;
其中,资产管理模块,用于IT基础设施资产与配置信息的导入与管理;
配置模块,用于基于资产配置信息进行监控服务配置和部署以及监控数据采集;
采集模块和采集查询模块,用于对监控服务采集的数据进行处理与应用查询;
接口模块,用于提供分布式IT监控用接口。
为优化上述技术方案,采取的具体措施还包括:
上述的所述资产管理模块通过数据直接导入,或对接第三方接口的方式,批量导入IT基础设施资产,以及其基础配置信息和关联关系信息,并实现数据信息管理。
上述的配置模块具体包括探针的自动配置部署单元、监控服务的自动配置和部署单元、其他组件的配置和一键式部署单元;
探针的自动配置部署单元,用于用户可配置探针的部署策略,系统依据资产管理模块维护的软硬件信息,自动进行采集探针的部署,并维护探针的配置信息;
监控服务的自动配置和部署单元,对于无状态系统,用于远程配置文件更新、重载;对于有状态系统,用于调用其接口进行监控的配置操作。
上述的监控服务的自动配置和部署单元,还用于探针部署后监控服务的自动配置,监控服务实例的一键式部署。
上述的配置模块采用插件化管理各单元。
上述的采集模块包括sidecar服务单元、消息队列单元和分布式数据库;
所述sidecar服务单元与监控服务一同部署,用于将监控服务采集的数据流、告警流统一格式,同时根据资源关联关系,进行告警根因推断,屏蔽冗余告警,将有效告警推送至消息队列单元。
上述的消息队列单元,采用kafka分布式消息队列,分不同topic接收采集数据、告警数据,用以系统解耦、数据流削峰。
上述的分布式数据库,采用clickhouse分布式数据库,消费并存储kafka数据,利用其进行海量数据实时查询。
上述的接口模块对外提供http api接口,对内提供的接口包括资产管理接口、配置接口、监控信息/告警查询接口、数据统计接口。
上述的系统支持配置资源间关联关系,自动进行告警归因,屏蔽无效告警,减少运维人员工作量。
本发明具有以下有益效果:
本发明将分布式IT中间件与传统监控采集系统相结合,使其具有分布式采集能力;配置模块插件化管理,适配新的监控技术只需部署新插件即可;将云原生思想与传统监控采集技术结合,使其具有一站式自动化配置部署能力;自动化告警根因推断,可减少运维人员筛查工作量,减少故障根因定位花费时间,提升用户感知。
附图说明
图1为本发明中系统构成图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
一种支持多种监控方式的分布式IT监控系统,其特征在于,包括:资产管理模块,配置模块,采集模块,采集查询模块,接口模块;
其中,资产管理模块,用于IT基础设施资产与配置信息的导入与管理;
实施例中,资产管理模块通过数据直接导入,或对接第三方接口的方式,批量导入IT基础设施资产,以及其基础配置信息和关联关系信息,并实现数据信息管理。
配置模块,用于基于资产配置信息进行监控服务配置和部署以及监控数据采集;
实施例中,配置模块具体包括如下自动配置与部署单元:
1.探针的自动配置部署单元:用于用户可配置探针的部署策略,系统依据资产管理模块维护的软硬件信息,自动进行采集探针的部署,并维护探针的配置信息;
2.监控服务的自动配置和部署单元:对于类似prometheus的无状态系统,提供远程配置文件更新、重载;对于类似zabbix的有状态系统,调用其接口进行监控的配置操作。支持探针部署后监控服务的自动配置能力。支持监控服务实例的一键式部署能力。
3.其他组件的配置和一键式部署;
采用插件化管理,不同监控手段的适配。
采集模块,用于对监控服务采集的数据进行处理与应用;
实施例中,采集模块包括:
1.sidecar服务单元:与监控服务一同部署,负责将监控服务采集的数据流、告警流统一格式,同时根据资源关联关系,进行告警根因推断,屏蔽冗余告警,将有效告警推送至消息队列。
2.消息队列单元:采用kafka分布式消息队列,分不同topic接收采集数据、告警数据,用以系统解耦、数据流削峰。
3.分布式数据库:采用clickhouse分布式数据库,消费并存储kafka数据,利用其进行海量数据实时查询。
接口模块,用于提供分布式IT监控用接口:对外提供http api接口,对内提供的接口包括资产管理接口、配置接口、监控信息/告警查询接口、数据统计接口等。
本发明的系统支持配置资源间关联关系,自动进行告警归因,屏蔽无效告警,减少运维人员工作量。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (10)

1.一种支持多种监控方式的分布式IT监控系统,其特征在于,包括资产管理模块、配置模块,采集模块,采集查询模块,接口模块;
其中,资产管理模块,用于IT基础设施资产与配置信息的导入与管理;
配置模块,用于基于资产配置信息进行多种监控方式的监控服务配置和部署以及监控数据采集;
采集模块和采集查询模块,用于对监控服务采集的数据进行处理与应用查询;
接口模块,用于提供分布式IT监控用接口。
2.根据权利要求1所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述资产管理模块通过数据直接导入,或对接第三方接口的方式,批量导入IT基础设施资产,以及其基础配置信息和关联关系信息,并实现数据信息管理。
3.根据权利要求1所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述配置模块具体包括探针的自动配置部署单元、监控服务的自动配置和部署单元、其他组件的配置和一键式部署单元;
探针的自动配置部署单元,用于用户可配置探针的部署策略,系统依据资产管理模块维护的软硬件信息,自动进行采集探针的部署,并维护探针的配置信息;
监控服务的自动配置和部署单元,对于无状态系统,用于远程配置文件更新、重载;对于有状态系统,用于调用其接口进行监控的配置操作。
4.根据权利要求3所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述监控服务的自动配置和部署单元,还用于探针部署后监控服务的自动配置,监控服务实例的一键式部署。
5.根据权利要求3所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述配置模块采用插件化管理各单元。
6.根据权利要求1所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述采集模块包括sidecar服务单元、消息队列单元和分布式数据库;
所述sidecar服务单元与监控服务一同部署,用于将监控服务采集的数据流、告警流统一格式,同时根据资源关联关系,进行告警根因推断,屏蔽冗余告警,将有效告警推送至消息队列单元。
7.根据权利要求6所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述消息队列单元,采用kafka分布式消息队列,分不同topic接收采集数据、告警数据,用以系统解耦、数据流削峰。
8.根据权利要求6所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述分布式数据库,采用clickhouse分布式数据库,消费并存储kafka数据,利用其进行海量数据实时查询。
9.根据权利要求1所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述接口模块对外提供http api接口,对内提供的接口包括资产管理接口、配置接口、监控信息/告警查询接口、数据统计接口。
10.根据权利要求1所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,系统支持配置资源间关联关系,自动进行告警归因,屏蔽无效告警,减少运维人员工作量。
CN202211125516.XA 2022-09-16 2022-09-16 一种支持多种监控方式的分布式it监控系统 Pending CN115842707A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211125516.XA CN115842707A (zh) 2022-09-16 2022-09-16 一种支持多种监控方式的分布式it监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211125516.XA CN115842707A (zh) 2022-09-16 2022-09-16 一种支持多种监控方式的分布式it监控系统

Publications (1)

Publication Number Publication Date
CN115842707A true CN115842707A (zh) 2023-03-24

Family

ID=85574946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211125516.XA Pending CN115842707A (zh) 2022-09-16 2022-09-16 一种支持多种监控方式的分布式it监控系统

Country Status (1)

Country Link
CN (1) CN115842707A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104917836A (zh) * 2015-06-10 2015-09-16 北京奇虎科技有限公司 基于集群监控分析计算设备可用性的方法及装置
CN105208098A (zh) * 2015-08-24 2015-12-30 用友网络科技股份有限公司 云监控系统的实现装置和方法
CN111190794A (zh) * 2019-12-30 2020-05-22 天津浪淘科技股份有限公司 一种运维监控管理系统
CN112235135A (zh) * 2020-10-10 2021-01-15 浪潮天元通信信息系统有限公司 一种支持分布式部署的数据监控方法及系统
US20210075693A1 (en) * 2019-09-06 2021-03-11 Jpmorgan Chase Bank, N.A. Enterprise control plane for data streaming service
CN113656239A (zh) * 2021-06-02 2021-11-16 北京百度网讯科技有限公司 针对中间件的监控方法、装置及计算机程序产品
CN116151787A (zh) * 2021-11-18 2023-05-23 北京航天长峰科技工业集团有限公司 一种it运维管理系统
CN117194156A (zh) * 2023-09-08 2023-12-08 浪潮软件科技有限公司 一种多云平台的统一监控运维管理方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104917836A (zh) * 2015-06-10 2015-09-16 北京奇虎科技有限公司 基于集群监控分析计算设备可用性的方法及装置
CN105208098A (zh) * 2015-08-24 2015-12-30 用友网络科技股份有限公司 云监控系统的实现装置和方法
US20210075693A1 (en) * 2019-09-06 2021-03-11 Jpmorgan Chase Bank, N.A. Enterprise control plane for data streaming service
CN111190794A (zh) * 2019-12-30 2020-05-22 天津浪淘科技股份有限公司 一种运维监控管理系统
CN112235135A (zh) * 2020-10-10 2021-01-15 浪潮天元通信信息系统有限公司 一种支持分布式部署的数据监控方法及系统
CN113656239A (zh) * 2021-06-02 2021-11-16 北京百度网讯科技有限公司 针对中间件的监控方法、装置及计算机程序产品
CN116151787A (zh) * 2021-11-18 2023-05-23 北京航天长峰科技工业集团有限公司 一种it运维管理系统
CN117194156A (zh) * 2023-09-08 2023-12-08 浪潮软件科技有限公司 一种多云平台的统一监控运维管理方法及系统

Similar Documents

Publication Publication Date Title
CN106844198B (zh) 一种分布式调度自动化测试平台及方法
CN106612199B (zh) 一种网络监控数据收集与分析系统及方法
CN107508722B (zh) 一种业务监控方法和装置
CN107528870B (zh) 一种数据采集方法及其设备
US7657624B2 (en) Network usage management system and method
CN107025222A (zh) 一种分布式日志采集方法及装置
CN111338814A (zh) 消息处理方法和装置、存储介质和电子装置
CN104683446A (zh) 一种云存储集群节点服务状态实时监控方法和系统
CN102594598A (zh) 一种日志管理系统及其实现方法
CN107992392A (zh) 一种用于云渲染系统的自动监控修复系统和方法
CN105429791A (zh) 一种分布式服务状态检测器及方法
CN112667683B (zh) 流计算系统及其电子设备和存储介质
CN112417050A (zh) 数据同步方法和装置、系统、存储介质及电子装置
CN107463490B (zh) 一种应用于平台开发中的集群日志集中收集方法
CN110855481B (zh) 数据采集系统及方法
CN107239380A (zh) 一种基于zabbix的消息队列监控方法
CN114510391A (zh) 一种融合基础架构监控管理系统
CN114372105A (zh) 基于etl工具实现系统自动化巡检方法
CN113570347A (zh) 一种面向微服务架构系统的rpa运维方法
CN110929130B (zh) 一种基于分布式调度的公安部级审计数据查询方法
CN115842707A (zh) 一种支持多种监控方式的分布式it监控系统
CN109525422A (zh) 一种日志数据监控管理方法
CN105763382A (zh) 一种基于端到端业务监控的实现方法和装置
CN113824801B (zh) 一种智能融合终端统一接入管理组件系统
CN115934464A (zh) 一种信息化平台监控采集系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination