CN115842707A - 一种支持多种监控方式的分布式it监控系统 - Google Patents
一种支持多种监控方式的分布式it监控系统 Download PDFInfo
- Publication number
- CN115842707A CN115842707A CN202211125516.XA CN202211125516A CN115842707A CN 115842707 A CN115842707 A CN 115842707A CN 202211125516 A CN202211125516 A CN 202211125516A CN 115842707 A CN115842707 A CN 115842707A
- Authority
- CN
- China
- Prior art keywords
- monitoring
- module
- configuration
- distributed
- interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 87
- 238000012423 maintenance Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 6
- 239000000523 sample Substances 0.000 claims description 16
- 230000008676 import Effects 0.000 claims 1
- 238000007726 management method Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Landscapes
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种支持多种监控方式的分布式IT监控系统,包括资产管理模块,配置模块,采集模块,采集查询模块,接口模块;其中,资产管理模块,用于IT基础设施资产与基础配置信息的导入与管理;配置模块,用于基于资产配置信息进行监控服务配置和部署以及监控数据采集;采集模块,用于对监控服务采集的数据进行处理与应用;接口模块,用于提供分布式IT监控用接口。本发明可基于灵活的资源管理、配置管理和自动运维能力,实现监控流程的自动化部署、规模化采集、智能化告警根因判断,同时兼容多种采集手段,为各种大中小型数据中心提供灵活可靠的监控预警平台。
Description
技术领域
本发明属于IT运维监控技术领域,具体涉及一种支持多种监控方式的分布式IT监控系统。
背景技术
当针对大批量、多种类型的资源进行统一监控管理时,由于资源类型不同、监控资源数量多,会涉及到不同类型采集服务以及单个类型多个采集服务的情况,除开源采集服务外,还有可能包含三方采集服务、自研采集服务等。
常用的IT运维监控技术,如zabbix、prometheus、telegraf等,因其本身架构不同、特点不同、数据采集和配置方式不同,导致了难以统一配置、融合采集;单一监控技术分布式能力差,存在海量数据查询效率低的问题。
另外,现有IT运维技术会给运维人员和客户展示大量的资源告警,需要使用人员一一筛查,最后确认问题根因并着手修复;这种处理方式不能利用资源建依赖关系等自动进行无关告警屏蔽,需要运维人员通过自身运维经验进行排查,大大降低了运维人员对故障的分析、定位以及处理效率。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种支持多种监控方式的分布式IT监控系统,灵活的资源管理、配置管理和自动运维能力,实现监控流程的自动化部署、规模化采集、智能化告警根因判断,同时兼容多种采集手段,为各种大中小型数据中心提供灵活可靠的监控预警平台。
为实现上述技术目的,本发明采取的技术方案为:
一种支持多种监控方式的分布式IT监控系统,包括:资产管理模块,配置模块,采集模块,采集查询模块,接口模块;
其中,资产管理模块,用于IT基础设施资产与配置信息的导入与管理;
配置模块,用于基于资产配置信息进行监控服务配置和部署以及监控数据采集;
采集模块和采集查询模块,用于对监控服务采集的数据进行处理与应用查询;
接口模块,用于提供分布式IT监控用接口。
为优化上述技术方案,采取的具体措施还包括:
上述的所述资产管理模块通过数据直接导入,或对接第三方接口的方式,批量导入IT基础设施资产,以及其基础配置信息和关联关系信息,并实现数据信息管理。
上述的配置模块具体包括探针的自动配置部署单元、监控服务的自动配置和部署单元、其他组件的配置和一键式部署单元;
探针的自动配置部署单元,用于用户可配置探针的部署策略,系统依据资产管理模块维护的软硬件信息,自动进行采集探针的部署,并维护探针的配置信息;
监控服务的自动配置和部署单元,对于无状态系统,用于远程配置文件更新、重载;对于有状态系统,用于调用其接口进行监控的配置操作。
上述的监控服务的自动配置和部署单元,还用于探针部署后监控服务的自动配置,监控服务实例的一键式部署。
上述的配置模块采用插件化管理各单元。
上述的采集模块包括sidecar服务单元、消息队列单元和分布式数据库;
所述sidecar服务单元与监控服务一同部署,用于将监控服务采集的数据流、告警流统一格式,同时根据资源关联关系,进行告警根因推断,屏蔽冗余告警,将有效告警推送至消息队列单元。
上述的消息队列单元,采用kafka分布式消息队列,分不同topic接收采集数据、告警数据,用以系统解耦、数据流削峰。
上述的分布式数据库,采用clickhouse分布式数据库,消费并存储kafka数据,利用其进行海量数据实时查询。
上述的接口模块对外提供http api接口,对内提供的接口包括资产管理接口、配置接口、监控信息/告警查询接口、数据统计接口。
上述的系统支持配置资源间关联关系,自动进行告警归因,屏蔽无效告警,减少运维人员工作量。
本发明具有以下有益效果:
本发明将分布式IT中间件与传统监控采集系统相结合,使其具有分布式采集能力;配置模块插件化管理,适配新的监控技术只需部署新插件即可;将云原生思想与传统监控采集技术结合,使其具有一站式自动化配置部署能力;自动化告警根因推断,可减少运维人员筛查工作量,减少故障根因定位花费时间,提升用户感知。
附图说明
图1为本发明中系统构成图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
一种支持多种监控方式的分布式IT监控系统,其特征在于,包括:资产管理模块,配置模块,采集模块,采集查询模块,接口模块;
其中,资产管理模块,用于IT基础设施资产与配置信息的导入与管理;
实施例中,资产管理模块通过数据直接导入,或对接第三方接口的方式,批量导入IT基础设施资产,以及其基础配置信息和关联关系信息,并实现数据信息管理。
配置模块,用于基于资产配置信息进行监控服务配置和部署以及监控数据采集;
实施例中,配置模块具体包括如下自动配置与部署单元:
1.探针的自动配置部署单元:用于用户可配置探针的部署策略,系统依据资产管理模块维护的软硬件信息,自动进行采集探针的部署,并维护探针的配置信息;
2.监控服务的自动配置和部署单元:对于类似prometheus的无状态系统,提供远程配置文件更新、重载;对于类似zabbix的有状态系统,调用其接口进行监控的配置操作。支持探针部署后监控服务的自动配置能力。支持监控服务实例的一键式部署能力。
3.其他组件的配置和一键式部署;
采用插件化管理,不同监控手段的适配。
采集模块,用于对监控服务采集的数据进行处理与应用;
实施例中,采集模块包括:
1.sidecar服务单元:与监控服务一同部署,负责将监控服务采集的数据流、告警流统一格式,同时根据资源关联关系,进行告警根因推断,屏蔽冗余告警,将有效告警推送至消息队列。
2.消息队列单元:采用kafka分布式消息队列,分不同topic接收采集数据、告警数据,用以系统解耦、数据流削峰。
3.分布式数据库:采用clickhouse分布式数据库,消费并存储kafka数据,利用其进行海量数据实时查询。
接口模块,用于提供分布式IT监控用接口:对外提供http api接口,对内提供的接口包括资产管理接口、配置接口、监控信息/告警查询接口、数据统计接口等。
本发明的系统支持配置资源间关联关系,自动进行告警归因,屏蔽无效告警,减少运维人员工作量。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (10)
1.一种支持多种监控方式的分布式IT监控系统,其特征在于,包括资产管理模块、配置模块,采集模块,采集查询模块,接口模块;
其中,资产管理模块,用于IT基础设施资产与配置信息的导入与管理;
配置模块,用于基于资产配置信息进行多种监控方式的监控服务配置和部署以及监控数据采集;
采集模块和采集查询模块,用于对监控服务采集的数据进行处理与应用查询;
接口模块,用于提供分布式IT监控用接口。
2.根据权利要求1所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述资产管理模块通过数据直接导入,或对接第三方接口的方式,批量导入IT基础设施资产,以及其基础配置信息和关联关系信息,并实现数据信息管理。
3.根据权利要求1所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述配置模块具体包括探针的自动配置部署单元、监控服务的自动配置和部署单元、其他组件的配置和一键式部署单元;
探针的自动配置部署单元,用于用户可配置探针的部署策略,系统依据资产管理模块维护的软硬件信息,自动进行采集探针的部署,并维护探针的配置信息;
监控服务的自动配置和部署单元,对于无状态系统,用于远程配置文件更新、重载;对于有状态系统,用于调用其接口进行监控的配置操作。
4.根据权利要求3所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述监控服务的自动配置和部署单元,还用于探针部署后监控服务的自动配置,监控服务实例的一键式部署。
5.根据权利要求3所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述配置模块采用插件化管理各单元。
6.根据权利要求1所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述采集模块包括sidecar服务单元、消息队列单元和分布式数据库;
所述sidecar服务单元与监控服务一同部署,用于将监控服务采集的数据流、告警流统一格式,同时根据资源关联关系,进行告警根因推断,屏蔽冗余告警,将有效告警推送至消息队列单元。
7.根据权利要求6所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述消息队列单元,采用kafka分布式消息队列,分不同topic接收采集数据、告警数据,用以系统解耦、数据流削峰。
8.根据权利要求6所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述分布式数据库,采用clickhouse分布式数据库,消费并存储kafka数据,利用其进行海量数据实时查询。
9.根据权利要求1所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,所述接口模块对外提供http api接口,对内提供的接口包括资产管理接口、配置接口、监控信息/告警查询接口、数据统计接口。
10.根据权利要求1所述的一种支持多种监控方式的分布式IT监控系统,其特征在于,系统支持配置资源间关联关系,自动进行告警归因,屏蔽无效告警,减少运维人员工作量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211125516.XA CN115842707A (zh) | 2022-09-16 | 2022-09-16 | 一种支持多种监控方式的分布式it监控系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211125516.XA CN115842707A (zh) | 2022-09-16 | 2022-09-16 | 一种支持多种监控方式的分布式it监控系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115842707A true CN115842707A (zh) | 2023-03-24 |
Family
ID=85574946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211125516.XA Pending CN115842707A (zh) | 2022-09-16 | 2022-09-16 | 一种支持多种监控方式的分布式it监控系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115842707A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104917836A (zh) * | 2015-06-10 | 2015-09-16 | 北京奇虎科技有限公司 | 基于集群监控分析计算设备可用性的方法及装置 |
CN105208098A (zh) * | 2015-08-24 | 2015-12-30 | 用友网络科技股份有限公司 | 云监控系统的实现装置和方法 |
CN111190794A (zh) * | 2019-12-30 | 2020-05-22 | 天津浪淘科技股份有限公司 | 一种运维监控管理系统 |
CN112235135A (zh) * | 2020-10-10 | 2021-01-15 | 浪潮天元通信信息系统有限公司 | 一种支持分布式部署的数据监控方法及系统 |
US20210075693A1 (en) * | 2019-09-06 | 2021-03-11 | Jpmorgan Chase Bank, N.A. | Enterprise control plane for data streaming service |
CN113656239A (zh) * | 2021-06-02 | 2021-11-16 | 北京百度网讯科技有限公司 | 针对中间件的监控方法、装置及计算机程序产品 |
CN116151787A (zh) * | 2021-11-18 | 2023-05-23 | 北京航天长峰科技工业集团有限公司 | 一种it运维管理系统 |
CN117194156A (zh) * | 2023-09-08 | 2023-12-08 | 浪潮软件科技有限公司 | 一种多云平台的统一监控运维管理方法及系统 |
-
2022
- 2022-09-16 CN CN202211125516.XA patent/CN115842707A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104917836A (zh) * | 2015-06-10 | 2015-09-16 | 北京奇虎科技有限公司 | 基于集群监控分析计算设备可用性的方法及装置 |
CN105208098A (zh) * | 2015-08-24 | 2015-12-30 | 用友网络科技股份有限公司 | 云监控系统的实现装置和方法 |
US20210075693A1 (en) * | 2019-09-06 | 2021-03-11 | Jpmorgan Chase Bank, N.A. | Enterprise control plane for data streaming service |
CN111190794A (zh) * | 2019-12-30 | 2020-05-22 | 天津浪淘科技股份有限公司 | 一种运维监控管理系统 |
CN112235135A (zh) * | 2020-10-10 | 2021-01-15 | 浪潮天元通信信息系统有限公司 | 一种支持分布式部署的数据监控方法及系统 |
CN113656239A (zh) * | 2021-06-02 | 2021-11-16 | 北京百度网讯科技有限公司 | 针对中间件的监控方法、装置及计算机程序产品 |
CN116151787A (zh) * | 2021-11-18 | 2023-05-23 | 北京航天长峰科技工业集团有限公司 | 一种it运维管理系统 |
CN117194156A (zh) * | 2023-09-08 | 2023-12-08 | 浪潮软件科技有限公司 | 一种多云平台的统一监控运维管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844198B (zh) | 一种分布式调度自动化测试平台及方法 | |
CN106612199B (zh) | 一种网络监控数据收集与分析系统及方法 | |
CN107508722B (zh) | 一种业务监控方法和装置 | |
CN107528870B (zh) | 一种数据采集方法及其设备 | |
US7657624B2 (en) | Network usage management system and method | |
CN107025222A (zh) | 一种分布式日志采集方法及装置 | |
CN111338814A (zh) | 消息处理方法和装置、存储介质和电子装置 | |
CN104683446A (zh) | 一种云存储集群节点服务状态实时监控方法和系统 | |
CN102594598A (zh) | 一种日志管理系统及其实现方法 | |
CN107992392A (zh) | 一种用于云渲染系统的自动监控修复系统和方法 | |
CN105429791A (zh) | 一种分布式服务状态检测器及方法 | |
CN112667683B (zh) | 流计算系统及其电子设备和存储介质 | |
CN112417050A (zh) | 数据同步方法和装置、系统、存储介质及电子装置 | |
CN107463490B (zh) | 一种应用于平台开发中的集群日志集中收集方法 | |
CN110855481B (zh) | 数据采集系统及方法 | |
CN107239380A (zh) | 一种基于zabbix的消息队列监控方法 | |
CN114510391A (zh) | 一种融合基础架构监控管理系统 | |
CN114372105A (zh) | 基于etl工具实现系统自动化巡检方法 | |
CN113570347A (zh) | 一种面向微服务架构系统的rpa运维方法 | |
CN110929130B (zh) | 一种基于分布式调度的公安部级审计数据查询方法 | |
CN115842707A (zh) | 一种支持多种监控方式的分布式it监控系统 | |
CN109525422A (zh) | 一种日志数据监控管理方法 | |
CN105763382A (zh) | 一种基于端到端业务监控的实现方法和装置 | |
CN113824801B (zh) | 一种智能融合终端统一接入管理组件系统 | |
CN115934464A (zh) | 一种信息化平台监控采集系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |