CN117707894A - 一种对纳管主机进行自动化运维的配置化巡检系统 - Google Patents
一种对纳管主机进行自动化运维的配置化巡检系统 Download PDFInfo
- Publication number
- CN117707894A CN117707894A CN202311744355.7A CN202311744355A CN117707894A CN 117707894 A CN117707894 A CN 117707894A CN 202311744355 A CN202311744355 A CN 202311744355A CN 117707894 A CN117707894 A CN 117707894A
- Authority
- CN
- China
- Prior art keywords
- host
- unit
- inspection
- maintenance
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007689 inspection Methods 0.000 title claims abstract description 153
- 238000012423 maintenance Methods 0.000 title claims abstract description 124
- 239000002071 nanotube Substances 0.000 title claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 122
- 238000012544 monitoring process Methods 0.000 claims abstract description 76
- 238000013480 data collection Methods 0.000 claims abstract description 22
- 238000011084 recovery Methods 0.000 claims abstract description 13
- 238000005516 engineering process Methods 0.000 claims abstract description 4
- 238000013515 script Methods 0.000 claims description 93
- 238000007726 management method Methods 0.000 claims description 58
- 238000000034 method Methods 0.000 claims description 53
- 230000008569 process Effects 0.000 claims description 48
- 230000005540 biological transmission Effects 0.000 claims description 17
- 230000006978 adaptation Effects 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 14
- 230000002688 persistence Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000005856 abnormality Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 7
- 238000004806 packaging method and process Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000002045 lasting effect Effects 0.000 claims description 2
- 238000013498 data listing Methods 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 14
- 230000007246 mechanism Effects 0.000 description 4
- 229920001971 elastomer Polymers 0.000 description 3
- 239000000806 elastomer Substances 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44505—Configuring for program initiating, e.g. using registry, configuration files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种对纳管主机进行自动化运维的配置化巡检系统,包括:数据收集层,用于采用封装的数据采集技术将数据采集应用包部署至纳管主机上;规则配置层,与数据收集层连接,用于分场景配置处理系统处理规则,并在规则适配后通过编排操作进行自有组合形成负责业务场景;业务处理层,与规则配置层连接,用于将系统的人员、消息以及监控抽取出来结合南向的规则配置层以数据收集层信息为数据支撑提供业务操作;还用于进行人工运维处理、监控信息总览、配置巡检作业。本发明能够降低人力和时间成本,提升运维人员的工作效率;降低运维风险、节省运维成本,可以通过实时监控、自动故障处理和恢复等功能,减少系统故障和人为错误的发生。
Description
技术领域
本发明属于计算机运维服务领域,尤其涉及一种对纳管主机进行自动化运维的配置化巡检系统。
背景技术
目前各公司信息部门的软件系统运维工作依靠简单的运维业务系统以及大量的运维人员进行虚机指标抽检运维势必会引起以下问题:
1.人为错误:人工运维依赖人的操作和决策,存在人为错误的风险。人员可能会犯错、遗漏步骤,或者由于疏忽而导致配置错误。这些错误可能导致系统故障、安全漏洞或其他问题。人为因素也可能导致不一致的操作,使得不同的系统或环境之间存在差异。
2.低效性:人工运维通常需要花费大量的时间和精力来完成重复性的操作,例如手动部署、配置、监测和故障排除等。这样的低效性可能导致运维团队无法及时响应和处理问题,拖延系统的恢复时间,影响业务正常运行。
3.可伸缩性问题:人工运维在面对大规模系统或设备时,可能存在可伸缩性的问题。人工操作通常需要更多的人力资源,当系统规模扩大时,需要增加人力成本和运维团队规模。同时,面对繁重的手动操作,运维团队可能无法满足业务的快速扩展需求。
4.缺乏一致性和可追溯性:人工运维可能导致操作的不一致性和可追溯性问题。不同的运维人员可能根据自己的经验和理解采用不同的操作方式,导致系统配置的差异。此外,人工运维也难以追溯操作的历史记录,使问题追查和评估变得困难。
5.安全和风险:人工运维往往无法保证及时发现和正确处理系统的安全漏洞和风险。人工操作繁琐、容易出错,缺乏自动化的安全策略和补丁管理,可能导致系统面临更大的安全威胁。
综上所述,人工运维存在人为错误、低效性、可伸缩性问题、缺乏一致性和可追溯性,以及安全和风险方面的问题。
发明内容
为了解决这些弊端,自动化运维成为一种更加高效、准确、可靠和安全的解决方案。本发明区别于普通自动化运维系统的巡检检测机制,提供一种运维工作拆分重组的能力,提供面向普通用户的运维方式,通过预配置的形式实现自动故障处理以及自动巡检的能力,用于降低人工成本、提升运维安全性。
为实现上述目的,本发明提供了如下方案:一种对纳管主机进行自动化运维的配置化巡检系统,包括:
数据收集层,用于采用封装的数据采集技术将数据采集应用包部署至纳管主机上;
规则配置层,与所述数据收集层连接,用于分场景配置处理系统处理规则,并在规则适配后通过编排操作进行自有组合形成负责业务场景;
业务处理层,与所述规则配置层连接,用于将系统的人员、消息以及监控抽取出来结合南向的规则配置层以数据收集层信息为数据支撑提供业务操作;还用于进行人工运维处理、监控信息总览、配置巡检作业。
优选地,所述数据收集层包括纳管资源数据收录模块;所述纳管资源数据收录模块用于对纳管主机部署配套的监控指标采集应用程序后,采集多维度多层次的主机运行指标;
所述纳管资源数据收录模块包括纳管主机收录单元、主机运行指标收录单元、数据持久化单元、数据分层管理单元、主机服务维护单元;
所述纳管主机收录单元用于录入需要监测的纳管主机信息;
所述主机运行指标收录单元用于选择需要数据持久化的有效指标或者运维关注指标信息;
所述数据持久化单元用于对指标信息进行数据持久化;
所述数据分层管理单元用于对收录的各类指标信息按照不同的场景进行数据分层或者分类管理;
所述主机服务维护单元用于将各主机上运行的进程程序绑定到各自主机上应用于后续的业务场景。
优选地,所述规则配置层包括系统巡检规则适配模块;所述系统巡检规则适配模块用于配置各项配置规则;
所述系统巡检规则适配模块包括告警规则管理单元、预警规则管理单元、巡检规则管理单元、自动故障处理规则单元以及普通模式规则管理单元;
所述告警规则管理单元用于对系统收录到的纳管主机的资源运行指标通过配置具体阈值实现告警触发场景,结合圈定告警接收人将告警消息推送至接收人;还用于对主机纳管服务进程通过拖拽的形式拖入到告警规则适配作业中,对纳管主机进程提供统一的指标告警配置阈值;
所述预警规则管理单元用于通过系统收录到的主机资源监控数据以时间作为分割标识结合权重叠加算法,设置预警监控主机进行预警消息推送;
所述巡检规则管理单元用于提前适配巡检脚本,通过预制SHELL脚本、SQL脚本检测服务器网络层、资源层以及服务层的各类检测指标,通过低代码的形式提供拖拉拽页面以变量赋值的方式进行脚本编排,支持数据库脚本编制,用于检测数据库的连通性;
所述自动故障处理规则单元用于支撑系统监控主机的故障自处理场景,通过预制脚本的配置,提供试运行验证脚本的合规性,不合规脚本不能正常保存,实现自动故障处理和恢复的场景;
所述普通模式规则管理单元用于通过封装固定脚本为普通用户提供低门槛、高友好度的运维体验,提供画板通过托拉拽纳管主机以及组件的方式,选择网络层、资源层、传输层的分层方式进行无代码配置化运维。
优选地,所述告警规则管理单元包括配置定义单元、第一选择触发单元、第二选择触发单元;
所述配置定义单元用于自定义配置告警规则及告警阈值;其中,所述告警规则包括纳管主机信息、主机监控日志信息和主机进程监控信息;
所述第一选择触发单元用于选择告警消息推送业务场景,基于主要用户通知运维人员进行人工处理;
所述第二选择触发单元用于选择自动故障处理业务和适配好的自动故障处理脚本,通过所述纳管主机信息自动执行故障处理脚本,脚本执行结束后自动清除告警信息。
优选地,所述触发阈值实现告警触发场景包括第一措施和第二措施;
所述第一措施为发送告警消息,由运维人员人工判断情况以及处理;
所述第二措施为提供自动故障处理脚本,触发阈值自动触发故障处理脚本并告知运维人员故障处理结果。
优选地,所述预警规则管理单元包括预警选择单元、预警分析单元、预警处理单元;
所述预警选择单元用于选择预警关注指标及设置指标阈值;
所述预警分析单元用于根据主机收录的监控数据按照天、小时进行分析计算,汇总得出关注指标高分布区间数据,按照权重进行加权计算获得各项高负载指标的时间范围;
所述预警处理单元用于选定预警消息模板、圈定预警信息接收人,启动预警规则后根据系统收录的监控信息变化及时发送预警消息。
优选地,所述巡检规则管理单元包括类型选择单元、脚本配置单元、巡检执行单元、报告生成单元;
所述类型选择单元用于选择巡检类型,所述巡检类型包括主机巡检和数据库巡检;
所述脚本配置单元用于配置巡检脚本,所述配置巡检脚本包括选定巡检主机、选定检测数据库类型;
所述巡检执行单元用于执行巡检脚本,持久化巡检结果数据;
所述报告生成单元用于提供配置化巡检报告,通过托拉拽形成个性化巡检报告模板,将巡检记录数据导入至报告内形成可读性较高的目标巡检报告,并将所述目标巡检报告发送至消息中心用以转发至相应的巡检人员。
优选地,所述自动故障处理规则单元包括规则配置单元、通用故障处理单元、特定故障处理单元;
所述规则配置单元用于设置自动故障规则配置,采用预制脚本的方式提前配置通用故障处理脚本,结合执行主机以及进程信息作为输入变量,形成可执行的故障恢复脚本;
所述通用故障处理单元用于支持NGINX、REDIS、JAVA进程故障处理根据变量配置的方式实现低代码的故障脚本编排;
所述特定故障处理单元用于供人为编写Shell故障处理脚本,形成预制故障恢复/处理文件以供巡检或者预警触发场景的应用。
优选地,所述网络层封装主机连通性、路由转发寻址、端口开放性的一系列网络连通测试能力;
所述资源层通过配置阈值封装主机以及进程的CPU、内存、磁盘空间占用的各类指标的监控数据;
所述传输层用于封装主机之间文件传输的连通性测试。
优选地,所述业务处理层包括系统监控通知以及处理模块;所述系统监控通知以及处理模块作为用户交互层从消息推送设置、巡检管理、人员分组、监控视图和webSSH几方面支撑本系统的业务处理;
所述系统监控通知以及处理模块包括消息推送设置单元、巡检管理单元、人员分组单元、监控视图单元、异常处理单元;
所述消息推送设置单元用于按照场景类型配置不同的消息模板信息;
所述巡检管理单元用于为运维人员以及普通用户提供一键巡检入口,基于所述巡检入口在画板处托拉拽巡检规则应用与纳管主机上通过多节点形成事务性巡检任务,提供定时巡检能力形成配置好的巡检报告,选定巡检信息模板进行巡检结果通知;
所述人员分组单元用于维护巡检任务执行权限以及主机资源维护权限,圈定具体人群提供统一运维入口,接收运维告警、巡检、预警信息;
所述监控视图单元用于根据纳管主机的数据收录信息,从资源层、网络层、传输层对数据信息总和分析,计算纳管主机的高负载主机信息,通过趋势图、饼状图、雷达图多层次、多维度分析主机的监控指标信息;
所述异常处理单元用于通过webSSH工具处理运维告警异常情况,通过线上连接服务器可快速定位并处理主机异常。
与现有技术相比,本发明具有如下优点和技术效果:
本发明的巡检系统能够降低人力和时间成本,提升运维人员的工作效率;降低运维风险、节省运维成本,可以通过实时监控、自动故障处理和恢复等功能,减少系统故障和人为错误的发生;提升用户体验,可以提供更快速、更可靠的服务。通过自动化的资源分配和任务调度,可以更快速地响应用户的需求,提供更好的用户体验。还可以提供实时监控和反馈机制,帮助企业及时发现和解决潜在的问题,确保系统的稳定运行,提升用户对企业服务的信心和满意度。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的系统结构示意图;
图2为本发明实施例的纳管资源数据收录模块流程图;
图3为本发明实施例的告警规则配置流程图;
图4为本发明实施例的预警规则配置流程图;
图5为本发明实施例的巡检规则配置流程图;
图6为本发明实施例的自动故障规则配置流程图;
图7为本发明实施例的普通模式规则配置流程图;
图8为本发明实施例的业务处理层巡检流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明适用计算机运维服务领域,旨在提供一种根据运维人员动态配置的自动化运维处理机制,结合系统内部的实时监控以及配置的自动故障处置和恢复方法等为运维人员、系统用户提供便捷、可靠、稳定的运维方式。
名词解释
Prometheus(Managed Service for Prometheus,TMP):是针对云原生服务场景进行优化的监控和报警解决方案,全面支持开源Prometheus的监控能力,为用户提供轻量、稳定、高可用的云原生Prometheus监控服务。借助TMP,您无需自行搭建Prometheus监控系统,也无需关心数据存储、数据展示、系统运维等问题,只需简单配置即可享受支持多集群的高性能Prometheus监控服务。
ELK(Elasticsearch+Logstash+Kibana):Elasticsearch是一个开源的分布式搜索和分析引擎,可以用于全文检索、结构化检索和分析,它构建在Lucene搜索引擎库之上,是当前使用较为广泛的开源搜索引擎之一。
Logstash是一个开源的数据搜集引擎,是一个用来搜集、分析、过滤日志的工具,使用它可以将搜集来的日志信息进行处理然后进行输出。Logstash支持许多功能强大的插件,可以合理使用这些插件来对搜集到的日志信息进行过滤和处理。
Kibana是一个基于Web的图形界面,可以使用它对Elasticsearch索引中的数据进行搜索、查看、交互操作。还可以很方便的利用图表、表格及地图对数据进行多元化的分析和呈现。
Redis(Remote Dictionary Server),即远程字典服务,是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。
Nginx是一款轻量级的Web服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器,在BSD-like协议下发行。其特点是占有内存少,并发能力强,事实上nginx的并发能力在同类型的网页服务器中表现较好。
如图1所示,本发明所提供的一种对纳管主机进行自动化运维的配置化巡检系统,系统从业务架构上分为3层,分别为数据收集层、规则配置层、业务处理层。
其中,数据收集层:系统采用封装的数据采集技术将数据采集应用包部署至纳管主机上。数据收集层通过纳管主机管理收录纳管主机信息;通过纳管组件管理提供组件进程收录归类以及组件监控异常处理预制脚本配置的能力;用户通过纳管组件日志信息管理查看纳管组件的日志详情便于区别于自动化运维的人工运维排错场景。
进一步地,通过纳管主机收录功能手动录入需要监测的主机信息,通过提供的主机IP以及账号密码信息用于后续的自动化故障处理以及巡检场景;提供主机运行指标收录功能用于选择需要数据持久化的有效指标或者运维关注指标信息;然后运维人员通过数据分层管理功能对采集到的数据指标进行分层分类区分;通过主机服务维护功能将各主机上运行的进程程序绑定到各自主机上应用于后续的业务场景。
进一步地优化方案,数据收集层包括纳管资源数据收录模块;所述纳管资源数据收录模块将纳管主机部署配套的主机监控应用程序,本实施例提供prometheus封装的系统主机监控方案,结合ELK日志监控能力对主机的使用资源、进程状态等指标进行监控。从资源数据采集维度该模块分为纳管主机收录、主机服务维护、数据分层管理、数据持久化。运维人员/操作人员可在纳管主机收录模块配置需要监控的主机信息,包含主机的IP以及登录的用户名密码信息。通过连通性测试以及数据收录呈现测试查看主机的纳管收录情况;主机服务维护模块建立在纳管主机收录以及系统主机监控方案模块配置完成的情况下,系统自动呈现纳管主机的进程服务名以及进程号信息,运维管理员可在该模块对进程名或者进展号进行打标处理,形成识别性较高的进程识别信息。并可根据收录进程的进程类型提供故障处理脚本预设功能,系统提供NGINX、REDIS、JAVA进程等几种故障自动化处理脚本,通过适配配置变量区分具体进程重启脚本。由于系统收录监控数据体量大,维度多本系统根据收录数据的类别以及日期对数据进行分区存储,运维人员亦可对收录数据根据个人日常使用习惯进行数据分层调整,提供在线SQL脚本执行工具,对收录的运维数据进行查询,用于支撑人工问题定位场景。
进一步地优化方案,如图2所示,纳管资源数据收录模块的收录过程包括,系统为纳管主机提供封装好的监控指标采集应用程序,并在各监控主机上进行安装部署后,监控指标采集应用程序采集多维度多层次的主机运行指标,运维人员在主机运行指标收录模块选择自己需要的指标信息进行数据持久化,系统收录运维管理员配置的主机信息,主机配置需要提供IP、账号、密码信息用于上层的故障处理以及巡检操作。配置完纳管主机信息后对纳管主机上运行的进程服务进行逐一打标来提升在巡检场景的问题定位准确度。系统操作人员对收录的各类指标信息按照不同的场景进行数据分层或者分类管理,方便问题溯源和跟踪,支持贴源数据加工形成业务层数据进行存储分类。
本实施例通过纳管资源数据收录模块将纳管资源按照数据收录的颗粒度分为主机和主机服务进程,系统使用人员可以动态配置自己关注的主机以及主机服务进程信息收录,并提供收录数据的数据分层服务并支持贴源数据的二次加工保存。
规则配置层:规则配置层中的巡检规则配置用于提前适配巡检脚本,支持Shell及数据库脚本识别配置的能力,可通过预制shell脚本检测服务器网络层、资源层以及服务层的各类检测指标,采用低代码的形式封装常用脚本,关键字采取变量赋值的方式进行脚本编排;支持数据库脚本编制,用于检测数据库的连通性。
进一步地,通过告警规则管理单元、预警规则管理单元、巡检规则管理单元、自动故障处理规则单元以及普通模式规则管理单元分场景配置处理系统处理规则,各单元规则适配后可通过编排操作进行自有组合形成负责业务场景。
进一步地优化方案,规则配置层包括系统巡检规则适配模块,所述系统巡检规则适配模块用于配置各项配置规则,包含告警规则配置、预警规则配置、巡检规则配置、自动故障处理规则配置、普通模式规则配置。
运维人员在告警规则管理单元对系统收录到的纳管主机的资源运行指标通过配置具体阈值实现告警触发场景,结合圈定告警接收人将告警消息以信息、邮件的方式推送至接收人,也可对主机纳管服务进程通过拖拽的形式拖入到告警规则适配作业中,对纳管主机进程提供统一的指标告警配置阈值,触发该阈值可采取两种措施:1)发送告警消息,由运维人员人工判断情况以及处理;2)提供自动故障处理脚本,触发阈值自动触发故障处理脚本并告知运维人员故障处理结果;
预警规则管理单元通过系统收录到的主机资源监控数据以时间作为分割标识结合权重叠加算法,设置预警监控主机进行预警消息推送;预警规则配置粒度最小级别可达到进程级别。
巡检规则管理单元提供系统巡检规则配置能力,提供预制SHELL脚本、SQL脚本等运维脚本配置成巡检作业,通过低代码的形式提供拖拉拽页面以变量赋值的方式进行脚本编排,适配巡检报告页面自购件功能,提供列表、分析视图两种形式输出线上巡检报告,巡检报告页面构建可通过拖拉拽形式进行自主配置,报告数据由巡检结果和主机、进程监控数据支撑;
自动故障处理规则单元用于支撑系统监控主机的故障自处理场景,通过预制脚本的配置,提供试运行验证脚本的合规性,不合规脚本不能正常保存实现自动故障处理和恢复的场景。
本系统一大特点是区分专业模式和普通模式,用以区分普通运营人员和专业运维人员,普通模式规则管理单元通过封装固定脚本为普通用户提供低门槛、高友好度的运维体验,提供画板通过托拉拽纳管主机以及组件的方式,选择网络层、资源层、传输层的分层方式进行无代码配置化运维。其中网络层封装主机连通性、路由转发寻址、端口开放性等一系列网络连通测试能力;资源层封装主机以及进程的CPU、内存、磁盘空间占用等各类指标的监控数据,通过配置阈值进行封装;传输层封装了主机之间文件传输的连通性测试,只需配置传输层主机集群IP即可进行连通性测试。
进一步地优化方案,如图3所示,告警规则管理单元的配置流程包括,运维人员在告警规则配置管理单元自定义配置告警规则以及告警阈值,通过对纳管主机信息、监控日志信息、主机进程监控信息的阈值设定,选择触发处理措施,可选择告警消息推送业务场景,主要用户通知运维人员进行人工处理。也可通过选择自动故障处理业务选择适配好的自动故障处理脚本,通过前面选择的纳管主机信息去自动执行故障处理脚本,脚本执行结束后自动清除告警信息。
进一步地优化方案,如图4所示,预警规则管理单元的配置流程包括,运维人员在预警规则配置单元选择预警关注指标以及设置指标阈值,根据主机收录的监控数据按照天、小时进行分析计算,汇总得出关注指标高分布区间数据,按照权重进行加权计算得出各项高负载指标的时间范围,选定预警消息模板圈定预警信息接收人,启动预警规则后根据系统收录的监控信息变化及时发送预警消息。
本实施例通过预警规则配置单元结合大数据的数据算法根据收录到的主机、组件指标各时段信息,在下次某个场景或者时间区间来临之前发送预警信息。
进一步地优化方案,如图5所示,巡检规则管理单元的配置流程包括,设置巡检规则配置单元用于配置巡检流程内的执行过程,通过选择巡检类型配置巡检脚本执行巡检操作,提供配置化巡检报告,通过托拉拽形成个性化巡检报告模板,将上述的巡检记录数据导入至报告内形成可读性较高的巡检报告,并将巡检报告发送至消息中心用以转发至相应的巡检人员。其中,所述巡检类型包括主机巡检和数据库巡检;所述配置巡检脚本包括选定巡检主机、选定检测数据库类型。
本实施例的巡检规则配置单元支持巡检脚本配置,设置了主机巡检以及数据库巡检两个关注点。并设置动态配置巡检报告的能力,根据业务关注点的不同,通过拖拽的形式巡检报告页面并将巡检任务指标加载至配置的巡检报告中去。
进一步地优化方案,如图6所示,自动故障处理规则单元的配置流程包括,设置自动故障规则配置,采用预制脚本的方式提前配置通用故障处理脚本,结合执行主机以及进程信息作为输入变量,形成可执行的故障恢复脚本。提供两种故障处理机制一种是通用故障处理支持NGINX、REDIS、JAVA进程故障处理根据变量配置的方式实现低代码的故障脚本编排;另一种是特定故障处理,该模式需要完全人为编写Shell故障处理脚本,形成预制故障恢复/处理文件以供巡检或者预警触发场景的应用。
进一步地优化方案,如图7所示,普通模式规则管理单元的配置流程包括,系统区分专业模式和普通模式用于适配不同的操作人群,专业模式主要针对运维人员支持各类运维脚本适配以及业务处理,普通模式主要针对零运维基础的普通操作人员,内置一些列的运维处理逻辑,根据专业运维的适配场景为非专业人员提供便捷操作,主要针对巡检规则进行配置,通过选择巡检关注层形成固定的巡检规则,支持网络层、资源层、传输层的巡检模式,网络层主要采用PING、TELNET、traceroute等命令进行主机集群网络通讯层的监控;资源层主要对主机CPU、内存、硬盘进行占用率查询,可设置阈值;传输层主要采用文件传输测试的方式验证连通性;选择配置具体组合形成普通模式的巡检规则,普通操作人员只需根据要求选择巡检主机群以及巡检任务即可执行巡检结果,形成定制化巡检报告。
本实施例通过普通模式规则配置单元进行普通模式规则配置设置,用于适配零运维基础的普通操作人员,系统内置了一部分基本运维脚本封装为固定脚本组件,普通操作人员只需选择巡检主机以及巡检关注脚本即可完成巡检任务;还支持普通模式规则配置能力,专业运维人员为减轻工作压力可在普通模式中配置一些通用的处理脚本,封装为固定脚本组件,同样提供给普通操作人员使用。
业务处理层:主要用于将系统的人员、消息以及监控抽取出来结合南向的规则配置层以数据收集层信息为数据支撑提供业务操作,可在该模块进行人工运维处理、监控信息总览、配置巡检作业等业务。
进一步地,业务处理层提供任务管理功能,通过选择具体虚机结合预定脚本形成具体任务,支持任务流配置即通过拖拽的方式将多个执行脚本汇聚为一个事件流程最终配置为工作任务。提供巡检配置功能为运维人员提供一键巡检的功能入口亦可在配置定时巡检任务实现自动化运维的能力;运维人员在进行脚本编写以及巡检配置后可结合系统提供的人员组以及消息管理模块将巡检内容进行实时推送,支持邮件短信告警。提供在线服务连接工具用以及时处理告警信息。
进一步地优化方案,系统监控通知以及处理模块:系统监控通知和处理模块作为用户交互层从消息推送设置、巡检管理、人员分组、监控视图和webSSH几方面支撑本系统的业务处理。提供消息推送设置单元可按照场景类型配置不同的消息模板信息,默认提供短信、邮箱两种告警方案,支持消息能力对接多种消息推送能力;巡检管理为运维人员以及普通用户提供一键巡检入口,可在画板处托拉拽巡检规则应用与纳管主机上通过多节点形成事务性巡检任务,提供定时巡检能力形成配置好的巡检报告,选定巡检信息模板进行巡检结果通知;人员分组是为了维护巡检任务执行权限以及主机资源维护权限,圈定具体人群提供统一运维入口,接收运维告警、巡检、预警信息;系统根据纳管主机的数据收录信息,从资源层、网络层、传输层对数据信息总和分析,计算纳管主机的高负载主机信息,通过趋势图、饼状图、雷达图等图形多层次、多维度分析主机的监控指标信息;集成webSSH工具用于支撑手动处理运维告警异常情况,模块自动带出权限内纳管主机的主机信息,通过线上连接服务器可快速定位并处理主机异常。
进一步地优化方案,如图8所示,业务处理层的巡检流程包括,系统业务处理层结合巡检配置和其他配置信息形成完整的业务流程,通过选定巡检作业,设置执行方式,提供周期巡检和一键巡检的模式,周期巡检可配置定时任务定期执行巡检任务;配置完巡检模型后可选择上述配置的巡检报告模板选择消息通知模板并圈定通知人员后进行巡检结果通知;系统webSSH功能用于处理人工运维的场景,系统根据纳管主机配置的信息自动连接相应主机,运维人员通过该可视化工具进行巡检结果处理等操作。
本发明和现有技术相比,主要优势在于:
用户的全面性,系统不止针对运维人员开放,提供普通模式为零基础人员提供高亲和度的运维体验。
系统采用大量的封装,用户只需要选择适配组件以及设置具体的操作过程即可实现自动化运维的操作。
设置采用低代码编排的模式,将系统内的告警规则、预警规则、巡检规则以及自动故障修复规则封装成节点事件,支持多节点事件流处理并将流程处理结果反馈至相应人员。
提供纳管主机预警管理模式,根据系统收录的纳管主机的监控数据,通过分析各时间节点的指标负载,结合一定的权重叠加算法,在故障发生前进行预警消息通知。
通过配置巡检脚本,支持对主机、服务组件以及数据库的联调性测试,支持定时配置巡检任务,释放大量的运维人力成本。
本实施例的巡检系统支持两种角色人员使用,分别为运维人员和普通人员,提供普通模式规则配置模块内置封装好的运维执行脚本,对于不具有运维经验的操作人员只需要选择具体关注主机、组件选择对应的关注层面包含网络层、资源层、传输层的执行指标,生产可读性较高的运维巡检报告。
本系统将运维监控、巡检、自动化故障处理等模块做为各原子能力封装,提供低代码的配置方式适配任务流程,可在任务事件流中在各节点自主配置场景,实现一站式运维以及修复告警的能力。自动故障处理在某些大集群、需要紧急处理应用服务的场景中可以快速重启应用进程进行短暂性恢复应用功能。巡检配置功能可以用于各行业的软件系统运行检测日常维护场景,及时发现问题并反馈。
本发明的巡检系统能够节省运维人工成本,降低人工运维风险,提升运维工作效率,为后续相似用户需求做基础。提供业务原子能力拆分组装的思想,采用业务编排的手段将各业务能力无缝衔接形成独特的业务场景。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种对纳管主机进行自动化运维的配置化巡检系统,其特征在于,包括:
数据收集层,用于采用封装的数据采集技术将数据采集应用包部署至纳管主机上;
规则配置层,与所述数据收集层连接,用于分场景配置处理系统处理规则,并在规则适配后通过编排操作进行自有组合形成负责业务场景;
业务处理层,与所述规则配置层连接,用于将系统的人员、消息以及监控抽取出来结合南向的规则配置层以数据收集层信息为数据支撑提供业务操作;还用于进行人工运维处理、监控信息总览、配置巡检作业。
2.根据权利要求1所述的对纳管主机进行自动化运维的配置化巡检系统,其特征在于,所述数据收集层包括纳管资源数据收录模块;所述纳管资源数据收录模块用于对纳管主机部署配套的监控指标采集应用程序后,采集多维度多层次的主机运行指标;
所述纳管资源数据收录模块包括纳管主机收录单元、主机运行指标收录单元、数据持久化单元、数据分层管理单元、主机服务维护单元;
所述纳管主机收录单元用于录入需要监测的纳管主机信息;
所述主机运行指标收录单元用于选择需要数据持久化的有效指标或者运维关注指标信息;
所述数据持久化单元用于对指标信息进行数据持久化;
所述数据分层管理单元用于对收录的各类指标信息按照不同的场景进行数据分层或者分类管理;
所述主机服务维护单元用于将各主机上运行的进程程序绑定到各自主机上应用于后续的业务场景。
3.根据权利要求1所述的对纳管主机进行自动化运维的配置化巡检系统,其特征在于,所述规则配置层包括系统巡检规则适配模块;所述系统巡检规则适配模块用于配置各项配置规则;
所述系统巡检规则适配模块包括告警规则管理单元、预警规则管理单元、巡检规则管理单元、自动故障处理规则单元以及普通模式规则管理单元;
所述告警规则管理单元用于对系统收录到的纳管主机的资源运行指标通过配置具体阈值实现告警触发场景,结合圈定告警接收人将告警消息推送至接收人;还用于对主机纳管服务进程通过拖拽的形式拖入到告警规则适配作业中,对纳管主机进程提供统一的指标告警配置阈值;
所述预警规则管理单元用于通过系统收录到的主机资源监控数据以时间作为分割标识结合权重叠加算法,设置预警监控主机进行预警消息推送;
所述巡检规则管理单元用于提前适配巡检脚本,通过预制SHELL脚本、SQL脚本检测服务器网络层、资源层以及服务层的各类检测指标,通过低代码的形式提供拖拉拽页面以变量赋值的方式进行脚本编排,支持数据库脚本编制,用于检测数据库的连通性;
所述自动故障处理规则单元用于支撑系统监控主机的故障自处理场景,通过预制脚本的配置,提供试运行验证脚本的合规性,不合规脚本不能正常保存,实现自动故障处理和恢复的场景;
所述普通模式规则管理单元用于通过封装固定脚本为普通用户提供低门槛、高友好度的运维体验,提供画板通过托拉拽纳管主机以及组件的方式,选择网络层、资源层、传输层的分层方式进行无代码配置化运维。
4.根据权利要求3所述的对纳管主机进行自动化运维的配置化巡检系统,其特征在于,所述告警规则管理单元包括配置定义单元、第一选择触发单元、第二选择触发单元;
所述配置定义单元用于自定义配置告警规则及告警阈值;其中,所述告警规则包括纳管主机信息、主机监控日志信息和主机进程监控信息;
所述第一选择触发单元用于选择告警消息推送业务场景,基于主要用户通知运维人员进行人工处理;
所述第二选择触发单元用于选择自动故障处理业务和适配好的自动故障处理脚本,通过所述纳管主机信息自动执行故障处理脚本,脚本执行结束后自动清除告警信息。
5.根据权利要求3所述的对纳管主机进行自动化运维的配置化巡检系统,其特征在于,所述触发阈值实现告警触发场景包括第一措施和第二措施;
所述第一措施为发送告警消息,由运维人员人工判断情况以及处理;
所述第二措施为提供自动故障处理脚本,触发阈值自动触发故障处理脚本并告知运维人员故障处理结果。
6.根据权利要求3所述的对纳管主机进行自动化运维的配置化巡检系统,其特征在于,所述预警规则管理单元包括预警选择单元、预警分析单元、预警处理单元;
所述预警选择单元用于选择预警关注指标及设置指标阈值;
所述预警分析单元用于根据主机收录的监控数据按照天、小时进行分析计算,汇总得出关注指标高分布区间数据,按照权重进行加权计算获得各项高负载指标的时间范围;
所述预警处理单元用于选定预警消息模板、圈定预警信息接收人,启动预警规则后根据系统收录的监控信息变化及时发送预警消息。
7.根据权利要求3所述的对纳管主机进行自动化运维的配置化巡检系统,其特征在于,所述巡检规则管理单元包括类型选择单元、脚本配置单元、巡检执行单元、报告生成单元;
所述类型选择单元用于选择巡检类型,所述巡检类型包括主机巡检和数据库巡检;
所述脚本配置单元用于配置巡检脚本,所述配置巡检脚本包括选定巡检主机、选定检测数据库类型;
所述巡检执行单元用于执行巡检脚本,持久化巡检结果数据;
所述报告生成单元用于提供配置化巡检报告,通过托拉拽形成个性化巡检报告模板,将巡检记录数据导入至报告内形成可读性较高的目标巡检报告,并将所述目标巡检报告发送至消息中心用以转发至相应的巡检人员。
8.根据权利要求3所述的对纳管主机进行自动化运维的配置化巡检系统,其特征在于,所述自动故障处理规则单元包括规则配置单元、通用故障处理单元、特定故障处理单元;
所述规则配置单元用于设置自动故障规则配置,采用预制脚本的方式提前配置通用故障处理脚本,结合执行主机以及进程信息作为输入变量,形成可执行的故障恢复脚本;
所述通用故障处理单元用于支持NGINX、REDIS、JAVA进程故障处理根据变量配置的方式实现低代码的故障脚本编排;
所述特定故障处理单元用于供人为编写Shell故障处理脚本,形成预制故障恢复/处理文件以供巡检或者预警触发场景的应用。
9.根据权利要求3所述的对纳管主机进行自动化运维的配置化巡检系统,其特征在于,所述网络层封装主机连通性、路由转发寻址、端口开放性的一系列网络连通测试能力;
所述资源层通过配置阈值封装主机以及进程的CPU、内存、磁盘空间占用的各类指标的监控数据;
所述传输层用于封装主机之间文件传输的连通性测试。
10.根据权利要求1所述的对纳管主机进行自动化运维的配置化巡检系统,其特征在于,所述业务处理层包括系统监控通知以及处理模块;所述系统监控通知以及处理模块作为用户交互层从消息推送设置、巡检管理、人员分组、监控视图和webSSH几方面支撑本系统的业务处理;
所述系统监控通知以及处理模块包括消息推送设置单元、巡检管理单元、人员分组单元、监控视图单元、异常处理单元;
所述消息推送设置单元用于按照场景类型配置不同的消息模板信息;
所述巡检管理单元用于为运维人员以及普通用户提供一键巡检入口,基于所述巡检入口在画板处托拉拽巡检规则应用与纳管主机上通过多节点形成事务性巡检任务,提供定时巡检能力形成配置好的巡检报告,选定巡检信息模板进行巡检结果通知;
所述人员分组单元用于维护巡检任务执行权限以及主机资源维护权限,圈定具体人群提供统一运维入口,接收运维告警、巡检、预警信息;
所述监控视图单元用于根据纳管主机的数据收录信息,从资源层、网络层、传输层对数据信息总和分析,计算纳管主机的高负载主机信息,通过趋势图、饼状图、雷达图多层次、多维度分析主机的监控指标信息;
所述异常处理单元用于通过webSSH工具处理运维告警异常情况,通过线上连接服务器快速定位并处理主机异常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311744355.7A CN117707894A (zh) | 2023-12-18 | 2023-12-18 | 一种对纳管主机进行自动化运维的配置化巡检系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311744355.7A CN117707894A (zh) | 2023-12-18 | 2023-12-18 | 一种对纳管主机进行自动化运维的配置化巡检系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117707894A true CN117707894A (zh) | 2024-03-15 |
Family
ID=90160318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311744355.7A Pending CN117707894A (zh) | 2023-12-18 | 2023-12-18 | 一种对纳管主机进行自动化运维的配置化巡检系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117707894A (zh) |
-
2023
- 2023-12-18 CN CN202311744355.7A patent/CN117707894A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10901727B2 (en) | Monitoring code sensitivity to cause software build breaks during software project development | |
US10810074B2 (en) | Unified error monitoring, alerting, and debugging of distributed systems | |
US8688700B2 (en) | Scrubbing and editing of diagnostic data | |
US10339007B2 (en) | Agile re-engineering of information systems | |
Bansal et al. | Decaf: Diagnosing and triaging performance issues in large-scale cloud services | |
US20020165842A1 (en) | System and method for systematic construction of correlation rules for event management | |
US9104706B2 (en) | Meta-directory control and evaluation of events | |
US9411969B2 (en) | System and method of assessing data protection status of data protection resources | |
US10216432B1 (en) | Managing backup utilizing rules specifying threshold values of backup configuration parameters and alerts written to a log | |
Capizzi et al. | From devops to devdataops: data management in devops processes | |
CN111858251B (zh) | 一种基于大数据计算技术的数据安全审计方法及系统 | |
CN112559237B (zh) | 运维系统排障方法、装置、服务器和存储介质 | |
Sukhija et al. | Event management and monitoring framework for HPC environments using ServiceNow and Prometheus | |
CN110971464A (zh) | 一种适合灾备中心的运维自动化系统 | |
EP3202091B1 (en) | Operation of data network | |
CN117422434A (zh) | 一种智慧运维调度平台 | |
CN117640350A (zh) | 一种基于事件日志的自主式实时故障隔离方法 | |
Huang et al. | PDA: A Tool for Automated Problem Determination. | |
US11755453B1 (en) | Performing iterative entity discovery and instrumentation | |
Iuhasz et al. | Monitoring of exascale data processing | |
CN117707894A (zh) | 一种对纳管主机进行自动化运维的配置化巡检系统 | |
Yuan et al. | Design and implementation of accelerator control monitoring system | |
CN113824601A (zh) | 一种基于业务日志的电力营销监控系统 | |
Cao et al. | Research on reliability evaluation of big data system | |
CN112579685A (zh) | 大数据作业的状态监测及健康度评估方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |