CN111190794A - 一种运维监控管理系统 - Google Patents

一种运维监控管理系统 Download PDF

Info

Publication number
CN111190794A
CN111190794A CN201911394427.3A CN201911394427A CN111190794A CN 111190794 A CN111190794 A CN 111190794A CN 201911394427 A CN201911394427 A CN 201911394427A CN 111190794 A CN111190794 A CN 111190794A
Authority
CN
China
Prior art keywords
alarm
model
user
information
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911394427.3A
Other languages
English (en)
Inventor
张卫民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Langtao Technology Co Ltd
Original Assignee
Tianjin Langtao Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Langtao Technology Co Ltd filed Critical Tianjin Langtao Technology Co Ltd
Priority to CN201911394427.3A priority Critical patent/CN111190794A/zh
Publication of CN111190794A publication Critical patent/CN111190794A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/321Display for diagnostics, e.g. diagnostic result display, self-test user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提出了一种运维监控管理系统,包括:监控中心监控各应用服务和运行实例的健康度以及各实例的基本指标信息;告警中心配置新建告警规则或者编辑已有的告警规则,其中,所述告警规则包括:自动选择模型、静态阈值模型、动态阈值模型、突变阈值模型、神经网络模型;系统管理模块对系统内的所有任务建立任务计划,并操作审计记录登录系统的用户操作记录、检索审计记录登录系统的用户在实时检索页面的操作记录。本发明可以针对业务情况实时监控,及时了解业务情况,并且对系统日志及时获取,保证应用、数据的安全、可靠。

Description

一种运维监控管理系统
技术领域
本发明涉及数据运维管理技术领域,特别涉及一种运维监控管理系统。
背景技术
现有的业务系统虽然具有对数据实时监控功能,但是缺乏高效的告警方式,告警规则基本上还是人工设置,缺乏根据数据分析自动设置的告警规则,并且对突变数据的告警缺乏检测。另外,现有系统提供的管理功能比较基础单一有限,不能满足用户的需求。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种运维监控管理系统。
为了实现上述目的,本发明的实施提供一种运维监控管理系统,包括:监控中心,用于监控各应用服务和运行实例的健康度以及各实例的基本指标信息,包括:根据应用系统逻辑架构,建立拓扑图,以对目标进行全链路的监控,并提供多种数据源的指标数据查询功能;告警中心,用于配置新建告警规则或者编辑已有的告警规则,其中,所述告警规则包括:自动选择模型、静态阈值模型、动态阈值模型、突变阈值模型、神经网络模型;并且,将告警规则关联告警通道,当告警规则产生告警信息后,将告警信息同步至关联告警通道,向用户提示告警条目和告警信息;系统管理模块,用于对系统内的所有任务建立任务计划,并操作审计记录登录系统的用户操作记录、检索审计记录登录系统的用户在实时检索页面的操作记录。
进一步,所述监控中心通过手动或者自动的方式,创建调用关系拓扑图,在所述拓扑图中,通过不同标记显示各个节点的健康状态。
进一步,所述数据源还用于对数据源进行管理,包括:新建、编辑、删除数据源的信息,其中,所述数据源的信息包括:数据源名称、数据源的种类、数据源的地址。
进一步,所述静态阈值模型:关注指标值是否突破固定数值,由用户手工设置静态的上下界阈值数值;
所述动态阈值模型:按周期性有规律的波动的指标序列;
所述突变阈值模型:发生突变、不规则变化的指标序列;
所述自动选择模型:根据指标序列的历史运行状况,自动识别使用静态,动态或突变值作为异常检测模型;
所述神经网络模型:通过训练好的多次感知模型,实时判断当前指标是否异常。
进一步,所述告警信息包括:每个告警序列所属告警规则、告警标签、告警模型、上一个异常点的指标数值、告警发生和结束时间、告警状态、优先级;
所述告警条目包括:预警名称、类型、预警标签、预警阈值、异常日期、预警时间、优先级等,并可按照预警规则名称、异常日期以及优先级。
进一步,所述告警中心还用于进行容量预测,包括:对工作负载核心指标的预测,根据设定的预警模型发出预警,并根据设置发送到对应的告警通道中。
进一步,所述系统管理模块还用于提供用户管理功能,设置系统管理员、新增用户信息、编辑用户信息、删除用户信息。
进一步,所述系统管理模块还用于提供角色管理功能,为用户分配角色信息,包括:新增角色、编辑角色、删除角色。
进一步,所述系统管理模块还用于提供权限管理功能,对不同角色赋予不同的操作权限,包括:新增权限、编辑权限、删除权限。
进一步,所述系统管理模块还用于提供修改菜单属性的功能,包括:新增、编辑、删除、隐藏/显示、上移/下移、修改登录密码。
根据本发明实施的运维监控管理系统,可以针对业务情况实时监控,及时了解业务情况,并且对系统日志及时获取,保证应用、数据的安全、可靠。本发明覆盖了用户系统日志的接入、存储、检索等环节;支持多种指标数据源的接入和丰富的自定义监控方式。本发明的分布式监控系统,基于linux系统,功能强大灵活,系统安装简单,配置简单,相比zabbix,nagios,cacti,小米监控等都使用相当简单。只需要会写脚本,语言不限就可以实现任意监控需求。系统安装简单,配置简单。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的运维监控管理系统的结构图;
图2为根据本发明实施例的新建拓扑图的界面图;
图3为根据本发明实施例的查看节点相关信息的界面图;
图4为根据本发明实施例的应用管理的界面图;
图5为根据本发明实施例的数据源管理的界面图;
图6为根据本发明实施例的静态阈值模型选择的界面图;
图7为根据本发明实施例的动态阈值模型选择的界面图;
图8为根据本发明实施例的突变阈值模型选择的界面图;
图9为根据本发明实施例的自动选择模型选择的界面图;
图10为根据本发明实施例的神经网络模型选择的界面图;
图11为根据本发明实施例的新建容量预测的界面图;
图12为根据本发明实施例的新建容量预测的预警通知的界面图;
图13为根据本发明实施例的任务计划的界面图;
图14为根据本发明实施例的操作审计的界面图;
图15为根据本发明实施例的检索审计的界面图;
图16为根据本发明实施例的用户管理的界面图;
图17为根据本发明实施例的角色管理的界面图;
图18为根据本发明实施例的权限管理的界面图;
图19为根据本发明实施例的菜单属性修改的界面图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明的运维监控管理系统,实现了信息系统日志的统一标准、统一收集、统一处理、统一保存,并且基于这些日志数据,实现了系统监控、重要指标的可视化展示及智能告警分析等功能。
如图1所示,本发明实施例的运维监控管理系统,包括:监控中心1、告警中心2和系统管理模块3。
具体的,监控中心1用于监控各应用服务和运行实例的健康度以及各实例的基本指标信息,包括:根据应用系统逻辑架构,建立拓扑图,以对目标进行全链路的监控,并提供多种数据源的指标数据查询功能。
下面首先对应用系统逻辑架构进行说明。
本发明将服务逻辑根据不同的层次划分成:应用域,应用系统,机器以及应用服务。所以在创建拓扑图之前,需要分层次创建相应的逻辑结构,即:根据逻辑概念的嵌套依次创建应用域,应用系统,机器和应用服务。
拓扑监控首页点击“应用管理”默认跳转至“应用服务”,如图4所示。分别点击“应用域”、“应用系统”、“机器”创建应用域、应用系统、机器。
创建应用域;创建应用系统:这里需要引用上一步创建的应用域;创建机器:填写主机名或者IP以及该机器上运行的服务;创建应用服务:填写相应的名称,类别,服务监控、实例监控、应用系统和实例机器。
需要说明的是,新建部分也可以通过编辑按钮来修改已经创建好的逻辑模块。
在日常运维工作中,除了常见的日志检索功能外,用户使用最多的就是系统监控功能。在监控功能的使用中,可监控与本系统有关的各应用服务和运行实例的健康度以及各实例的基本指标信息,包括CPU负载、内存使用率等。
在本发明的实施例中,监控中心1通过手动或者自动的方式,创建调用关系拓扑图,如图2所示。
在拓扑图中,通过不同标记显示各个节点的健康状态。具体的,通过查看和编辑已有的拓扑图来监控全链路的状态,在拓扑图中,各系统节点通过可视化效果可以实时展示其运行的健康情况。绿色表示该节点运行正常,黄色表示该节点运行有问题,红色表示该节点发生故障。也可以通过点击选中“节点”的方式,可视化的查看该节点的相关指标数据和报警信息,如图3所示。监控中心1还可以可编辑修改应用服务的相关信息。
监控中心1还可以提供指标查询功能。在监控功能的使用中,可直接通过指标查询页面查询多种数据源的指标数据,同时也可直接筛选标签、设置时间或标签聚合方式查看结果。
监控中心1还用于对数据源进行管理,包括:新建、编辑、删除数据源的信息,其中,数据源的信息包括:数据源名称、数据源的种类、数据源的地址。
用户可以通过点击“监控中心1”菜单的“指标管理”子菜单下“数据源”列表的“新建数据源”按钮,进入新建指标配置界面,如图5所示。
各数据源的字段说明如下:
数据源名称:自定义数据源名称,符合命名要求且唯一(指定地址下名称唯一);
种类:数据源种类,单选,目前可选Prometheus、OpenTSDB,默认Prometheus;
数据源地址:数据源的访问地址;
维护必填信息后,点击确定校验种类和数据源地址的连通性。
当用户需要修改数据源名称或数据源地址,可以点击上图中的“编辑”超链接或者数据源名称,进入“编辑数据源”完成相关修改并保存。
用户可手动调整数据源顺序,数据源列表点击升序或降序排序按钮,告警压缩结果写入到数据源列表第一个OpenTSDB类型数据源地址中。
当用户不再需要某数据源,并需要删除时,可以点击“更多”超链接,再点击“删除”超链接从而完成删除操作,删除前提数据源未被指标告警等引用。
本发明根据抽离的智能化告警模型,触发条件,回溯周期等配置新建或者编辑已有的告警规则,系统会根据近几期(回溯周期)的历史数据预测生成动态阈值。其中,告警规则包括:自动选择模型、静态阈值模型、动态阈值模型、突变阈值模型、神经网络模型。
告警中心2通过对平时运维工作中长时间积累形成的自动化运维和监控等能力的总结,运用机器学习等手段对规则配置部分学习并模型化,以到达自动化,智能化运维的目标。
1、静态阈值模型:关注指标值是否突破固定数值,适用通常在固定范围内波动的指标序列。用户手工设置静态的上下界阈值数值,适用于磁盘空间,CPU使用率等需要关注静态数值的系统指标,如图6所示。
2、动态阈值模型:关注指标值是否打破周期性变化,适用通常按周期性有规律的波动的指标序列。适用于周期性变化的指标,如访问量,交易额等,如图7所示。
3、突变阈值模型:关注指标值是否发生突变,适用不规则变化的指标序列,如图8所示。
4、自动选择模型:根据指标序列的历史运行状况,自动识别使用静态,动态或突变值作为异常检测模型,如图9所示。
5、神经网络模型:神经网络模型:通过训练好的多次感知模型(DNN),实时判断当前指标是否异常,如图10所示。
如果基本信息选择OpenTSDB数据源指标,“检测模型”增加延时告警字段,以秒为单位,默认0s,若指标通过RT任务计算得到,且任务设置了延迟时间,则该指标对应的告警规则需要设置延时告警时间,且设置的延时告警时间需要大于任务中设置的延迟时间,否则会出现告警乱告等现象
告警规则中可关联告警通道,当告警规则产生告警信息后,将告警信息同步至关联告警通道(email或kafka)绑定的email或kafka,可同时选择多个告警通道,告警信息通知模板可在告警规则的告警通知中自定义,可使用变量复制和标签复制功能自定义通知模板
告警规则列表,展开告警规则,点击查看图表可查看告警图表信息,包括指标值和阈值信息。自动选择模型,每条序列根据该序列历史数据自动匹配模型。
列表详情页的标签筛选默认展示规则中已选择的标签筛选内容,且在详情页不可编辑和删除,若规则中标签筛选内容修改,详情页的标签筛选条件也同步变化。
可额外补充标签筛选条件,补充的筛选条件选择的标签可与默认的标签重复,最终查看图表是当前所有默认以及补充标签筛选条件的叠加。
编辑告警规则,可修改指标,标签筛选信息、时间聚合粒度、时间聚合方式、阈值、灵敏度、触发条件、告警通道、通知模板信息等。其中:
灵敏度:灵敏度越高,阈值范围越窄,越容易产生告警。
触发条件:“实时触发”表示指标值一旦突破阈值,实时告警。
“连续X次判断中产生Y次异常触发”表示若连续X个点共产生Y个突破阈值的点则触发告警(X个点表示以当前点开始,向前统计X-1个点。
告警通道:规则触发告警后通过绑定的通道对外发送告警信息。
可用标签:取值来源于“基本信息”的标签筛选选择的标签,若标签筛选选择空,则可用标签显示指标下的全部标签。
通知模板:通过对外发送告警信息的告警模板,模板内容可通过增加复制可用变量或可用标签,按照指定格式自定义。
并且,将告警规则关联告警通道,当告警规则产生告警信息后,将告警信息同步至关联告警通道,向用户提示告警条目和告警信息。
在本发明中,用户可定义告警通道并关联告警规则,当产生告警信息时及时将告警信息通过通道发送给指定对象。告警通道中用户可自定义通道类型、送达角色、送达地址等。
当定义为Email类型,可同时定义送达角色和送达地址,通道将合并角色关联用户对应邮箱和送达地址的邮箱并进行发送。当定义为Kafka类型,可同时定义送达角色和Kafka Server,通道将把角色的userid,email,mobile,username等信息发送到告警消息中,默认使用默认的Kafka配置和输出Topic,也可自定义外部的Kafka集群和输出Topic。
在本发明的实施例中,告警信息包括:每个告警序列所属告警规则、告警标签、告警模型、上一个异常点的指标数值、告警发生和结束时间、告警状态、优先级。
本发明可以根据告警压缩规则触发的告警信息,列表展示每个告警序列所属告警规则、告警标签、告警模型、上一个异常点的指标数值、告警发生和结束时间、告警状态、优先级等,其中静态阈值模型同时展示静态阈值信息。本发明可以可展开每条告警信息查看具体的告警详情。自动选择模型,查看告警详情,序列显示具体模型。
告警条目包括:预警名称、类型、预警标签、预警阈值、异常日期、预警时间、优先级等,并可按照预警规则名称、异常日期以及优先级进行分类筛选。本发明可展开每条预警信息查看具体的预警详情。
此外,告警中心2还用于进行容量预测,包括:对工作负载核心指标的预测,根据设定的预警模型发出预警,并根据设置发送到对应的告警通道中。
容量预测是对工作负载核心指标的预测,即CPU,内存,磁盘,网络带宽等的使用。并可以根据设定的预警模型发出预警。
用户通过创建容量预测规则来选择指标进行检测。运维监控平台服务每天会自动根据容量预测规则进行容量预测,如果设置了预警阈值则会判断预测范围是否突破预警阈值,突破产生对应的预警,并根据设置发送到对应的告警通道中。
用户可点击“告警中心2”菜单下的“容量预测”子菜单,点击“新建预测”新建预测规则,如图11所示。
维护名称、数据源等必填信息,点击“下一步”进入“预测模型”。
说明:回溯周期以周为单位,只能输入1-52之间任意整数,预测周期以天为单位,只能输入3-7天任意整数,点击预测置信度后的帮助图标,提示“预测置信度越高,表示预测的上下界的范围越大,实际值落在预测范围内的可能性越大”。下一步进入预警通知,如图12所示。
默认预测阈值未勾选,此时页面其他字段灰显不可编辑,任意勾选预测阈值上界或下界,页面其他字段可编辑,可用标签值展示“基本信息”“标签筛选”选择的标签。告警通知模板可自定义,通过复制“可用变量”或“可用标签”自定义。
预测规则列表默认按照是否产生预警和创建时间排序,优先显示已产生预警的预测规则,且按创建时间倒叙排序。已产生预警的预测规则,详情页默认开启“只看告警序列”开关,查看图表仅展示告警序列。
列表详情页的标签筛选默认展示规则中已选择的标签筛选内容,且在详情页不可编辑和删除,若规则中标签筛选内容修改,详情页的标签筛选条件也同步变化。本发明可额外补充标签筛选条件,补充的筛选条件选择的标签可与默认的标签重复,最终查看图表是当前所有默认以及补充标签筛选条件的叠加。
系统管理模块3用于对系统内的所有任务建立任务计划,并操作审计记录登录系统的用户操作记录、检索审计记录登录系统的用户在实时检索页面的操作记录。
(1)任务计划
在运维监控平台中,支持分布式调度框架可视化配置,支持浏览所有任务,在线创建、删除、修改任务(不重启调度服务),挂起/恢复任务,如图13所示。
(2)操作审计
操作审计记录了登录系统的用户操作记录(除实时检索页面的操作),如登录登出系统、新建或编辑解析作业等等,如图14所示。支持查询功能,可根据用户名,页面、操作、及操作时间查询记录
(3)检索审计
检索审计记录了登录系统的用户在实时检索页面的操作记录,包括用户名,查询语句,检索时间以及操作时间、操作状态等,如图15所示。支持查询功能,可根据查询语句,用户名,状态、及操作时间查询记录。
(4)用户管理
系统管理模块3还用于提供用户管理功能,设置系统管理员、新增用户信息、编辑用户信息、删除用户信息。
在运维监控平台的使用过程中,设置了系统管理员(管理员)。系统管理员可以通过“用户管理”功能管理各普通用户的账号和密码。系统管理员用户可以通过点击“系统设置”菜单的“用户管理”子菜单进入用户管理页面,可查看当前系统中所有用户信息,如图16所示。点击“新增用户”进入新增用户页面,输入用户信息,保存成功返回“用户管理”可查看新增的用户信息,默认正常状态。“用户管理”点击“更多”下的“编辑”可跳转至“编辑用户”修改用户信息。需要说明的是,系统管理员可通过编辑用户信息修改用户登录密码,LDAP用户不允许修改用户名密码。
新建/编辑用户可设置账户的过期日期,超过过期日期,用户管理列表中该用户记录灰显,同时使用该账户登录提示用户已过期。“用户管理”点击“更多”下的“删除”弹出删除询问框确认是否删除用户,“用户管理”点击“分配角色”可跳转至“分配角色”修改用户所属角色。
系统管理模块3还用于提供角色管理功能,为用户分配角色信息,包括:新增角色、编辑角色、删除角色。
在系统使用过程中,系统管理员可以将不同的用户设置不同的角色。管理员用户可以通过点击“系统设置”菜单的“角色管理”子菜单进入角色管理页面,可查看当前系统中所有角色信息,如图17所示。
点击“新增角色”进入新增角色页面,输入角色信息,保存成功返回“角色管理”可查看新增的角色信息。“角色管理”点击“更多”下的“编辑”可跳转至“编辑角色”修改角色信息。“角色管理”点击“更多”下的“删除”弹出删除询问框确认是否删除角色。“角色管理”点击“分配权限”可跳转至“分配权限”修改角色所分配的权限。分配权限后,用户同时可切换至“分配菜单”分配菜单权限。同时可切换至“运维监控平台索引”分配索引权限。
系统管理模块3还用于提供权限管理功能,对不同角色赋予不同的操作权限,包括:新增权限、编辑权限、删除权限。在系统使用过程中,系统管理员可以对不同角色赋予不同的操作权限。管理员用户可以通过点击“系统设置”菜单的“权限管理”子菜单进入权限管理页面,可查看当前系统中所有权限信息,如图18所示。点击“新增权限”进入新增权限页面,输入权限信息,保存成功返回“权限管理”可查看新增的权限信息,权限名称设置为是菜单,则该权限名称可在左侧菜单栏显示。“权限管理”点击“编辑”可跳转至“编辑权限”修改权限信息。“权限管理”点击“更多”下的“删除”弹出删除询问框确认是否删除角色。
系统管理模块3还用于提供修改菜单属性的功能,包括:新增、编辑、删除、隐藏/显示、上移/下移、修改登录密码,如图19所示。
此外,系统管理模块3还可以提供修改登录密码功能。登录成功后,点击修改密码。弹出修改密码弹框,输入密码信息,保存,使用新密码重新登录。
本发明实施例的运维监控管理系统,具有以下功能:
1、数据采集免配置:agent自发现、agent主动推送,任何数据自定义脚本。
2、可扩展性,扩展简单,随时扩,随心扩。
3、历史数据查询,可以秒级返回全年数据趋势图,多个指标数据,趋势图更明晰:3天7天,15天,30天,60天,90天,120天,180天,240天,360天时间段趋势。
4、架构设计高可用:整个系统无核心单点,所涉及到的负载均衡(nginx,haproxy,lvs)都可以用来负载server端,mysql(无数据压力,不做数据存储),redis,共享存储设备(本地磁盘,nfs,mfs等)。
5、任何数据图像实时查看,历史查看功能。
6、针对统一系统,基础监控无需添加配置,自动添加(比如cpu,负载,磁盘使用率,网络流量,ss状态信息等,都可以自定义实现)。
7、报警组配置,支持微信,钉钉,手机,邮件功能。。
8、分布式监控,每个装agent的都是一个监控系统,除配置外(配置只能在server端完成)。
9、自定义数据上报时间,最低5秒上报一次数据。
10、不同server性能对比,更简单,更清晰。
11、支持图像搜索,主机名,ip地址搜索图像。
12、图像收藏功能,常用的直接在收藏列表点开查看。
13、支持ldap认证登陆。
14、支持任何指标数据多条件筛选排序,资源使用情况一目了然。
15、集群数据分析,任何指标求和,平均。
16、支持项目模板导入导出。
17、自定义监控支持克隆配置。
18、支持grafana风格图像自定义展示。
19、支持对单个主机停止报警,多时间段内。
20、支持报警升级,最多5个级别的升级。
21、自动结合grafana画图工具,自动可生成图像。
22、可绘制网络top图。
根据本发明实施的运维监控管理系统,可以针对业务情况实时监控,及时了解业务情况,并且对系统日志及时获取,保证应用、数据的安全、可靠。本发明覆盖了用户系统日志的接入、存储、检索等环节;支持多种指标数据源的接入和丰富的自定义监控方式。本发明的分布式监控系统,基于linux系统,功能强大灵活,系统安装简单,配置简单,相比zabbix,nagios,cacti,小米监控等都使用相当简单。只需要会写脚本,语言不限就可以实现任意监控需求。系统安装简单,配置简单。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims (10)

1.一种运维监控管理系统,其特征在于,包括:
监控中心,用于监控各应用服务和运行实例的健康度以及各实例的基本指标信息,包括:根据应用系统逻辑架构,建立拓扑图,以对目标进行全链路的监控,并提供多种数据源的指标数据查询功能;
告警中心,用于配置新建告警规则或者编辑已有的告警规则,其中,所述告警规则包括:自动选择模型、静态阈值模型、动态阈值模型、突变阈值模型、神经网络模型;并且,将告警规则关联告警通道,当告警规则产生告警信息后,将告警信息同步至关联告警通道,向用户提示告警条目和告警信息;
系统管理模块,用于对系统内的所有任务建立任务计划,并操作审计记录登录系统的用户操作记录、检索审计记录登录系统的用户在实时检索页面的操作记录。
2.如权利要求1所述的运维监控管理系统,其特征在于,所述监控中心通过手动或者自动的方式,创建调用关系拓扑图,在所述拓扑图中,通过不同标记显示各个节点的健康状态。
3.如权利要求1所述的运维监控管理系统,其特征在于,所述监控中心还用于对数据源进行管理,包括:新建、编辑、删除数据源的信息,其中,所述数据源的信息包括:数据源名称、数据源的种类、数据源的地址。
4.如权利要求1所述的运维监控管理系统,其特征在于,
所述静态阈值模型:关注指标值是否突破固定数值,由用户手工设置静态的上下界阈值数值;
所述动态阈值模型:按周期性有规律的波动的指标序列;
所述突变阈值模型:发生突变、不规则变化的指标序列;
所述自动选择模型:根据指标序列的历史运行状况,自动识别使用静态,动态或突变值作为异常检测模型;
所述神经网络模型:通过训练好的多次感知模型,实时判断当前指标是否异常。
5.如权利要求1所述的运维监控管理系统,其特征在于,所述告警信息包括:每个告警序列所属告警规则、告警标签、告警模型、上一个异常点的指标数值、告警发生和结束时间、告警状态、优先级;
所述告警条目包括:预警名称、类型、预警标签、预警阈值、异常日期、预警时间、优先级等,并可按照预警规则名称、异常日期以及优先级。
6.如权利要求1所述的运维监控管理系统,其特征在于,所述告警中心还用于进行容量预测,包括:对工作负载核心指标的预测,根据设定的预警模型发出预警,并根据设置发送到对应的告警通道中。
7.如权利要求1所述的运维监控管理系统,其特征在于,所述系统管理模块还用于提供用户管理功能,设置系统管理员、新增用户信息、编辑用户信息、删除用户信息。
8.如权利要求1所述的运维监控管理系统,其特征在于,所述系统管理模块还用于提供角色管理功能,为用户分配角色信息,包括:新增角色、编辑角色、删除角色。
9.如权利要求1所述的运维监控管理系统,其特征在于,所述系统管理模块还用于提供权限管理功能,对不同角色赋予不同的操作权限,包括:新增权限、编辑权限、删除权限。
10.如权利要求1所述的运维监控管理系统,其特征在于,所述系统管理模块还用于提供修改菜单属性的功能,包括:新增、编辑、删除、隐藏/显示、上移/下移、修改登录密码。
CN201911394427.3A 2019-12-30 2019-12-30 一种运维监控管理系统 Pending CN111190794A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911394427.3A CN111190794A (zh) 2019-12-30 2019-12-30 一种运维监控管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911394427.3A CN111190794A (zh) 2019-12-30 2019-12-30 一种运维监控管理系统

Publications (1)

Publication Number Publication Date
CN111190794A true CN111190794A (zh) 2020-05-22

Family

ID=70709462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911394427.3A Pending CN111190794A (zh) 2019-12-30 2019-12-30 一种运维监控管理系统

Country Status (1)

Country Link
CN (1) CN111190794A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112422638A (zh) * 2020-10-28 2021-02-26 北京北明数科信息技术有限公司 数据实时流处理方法、系统、计算机装置和存储介质
CN112882796A (zh) * 2021-02-25 2021-06-01 深信服科技股份有限公司 异常根因分析方法和装置,及存储介质
CN113312341A (zh) * 2021-04-28 2021-08-27 上海淇馥信息技术有限公司 一种数据质量监控方法、系统和计算机设备
CN113535519A (zh) * 2021-07-27 2021-10-22 浪潮软件科技有限公司 一种监控告警方法
CN113923131A (zh) * 2021-09-10 2022-01-11 北京世纪互联宽带数据中心有限公司 一种监控信息确定方法、装置、计算设备及存储介质
CN114048103A (zh) * 2021-11-19 2022-02-15 重庆富民银行股份有限公司 Pmml风控模型管理平台
CN114422339A (zh) * 2022-03-29 2022-04-29 西安塔力科技有限公司 一种自动调度的分布式数据监控系统及方法
CN115115352A (zh) * 2022-08-29 2022-09-27 山东中鲁实业有限公司 基于数字化城市运行管理服务的公共设备运行控制系统
CN116610537A (zh) * 2023-07-20 2023-08-18 中债金融估值中心有限公司 一种数据量监控方法、系统、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102130783A (zh) * 2011-01-24 2011-07-20 浪潮通信信息系统有限公司 神经网络的智能化告警监控方法
WO2016101638A1 (zh) * 2014-12-23 2016-06-30 国家电网公司 一种电力系统云仿真平台的运营管理方法
CN107612779A (zh) * 2017-10-10 2018-01-19 云南电网有限责任公司 调度数据网二次安全防护网络设备及业务运行监视系统
CN108512691A (zh) * 2018-02-07 2018-09-07 复旦大学 基于Hadoop的云自动预警运维监控系统
CN109783322A (zh) * 2018-11-22 2019-05-21 远光软件股份有限公司 一种企业信息系统运行状态的监控分析系统及其方法
CN109831327A (zh) * 2019-01-28 2019-05-31 国家电网有限公司信息通信分公司 基于大数据分析的ims全业务网络监视智能化运维支撑系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102130783A (zh) * 2011-01-24 2011-07-20 浪潮通信信息系统有限公司 神经网络的智能化告警监控方法
WO2016101638A1 (zh) * 2014-12-23 2016-06-30 国家电网公司 一种电力系统云仿真平台的运营管理方法
CN107612779A (zh) * 2017-10-10 2018-01-19 云南电网有限责任公司 调度数据网二次安全防护网络设备及业务运行监视系统
CN108512691A (zh) * 2018-02-07 2018-09-07 复旦大学 基于Hadoop的云自动预警运维监控系统
CN109783322A (zh) * 2018-11-22 2019-05-21 远光软件股份有限公司 一种企业信息系统运行状态的监控分析系统及其方法
CN109831327A (zh) * 2019-01-28 2019-05-31 国家电网有限公司信息通信分公司 基于大数据分析的ims全业务网络监视智能化运维支撑系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡海燕;贾荣兴;赵锋;李晓妮;: "信息网络运维管理系统在供电企业中的建设及应用" *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112422638A (zh) * 2020-10-28 2021-02-26 北京北明数科信息技术有限公司 数据实时流处理方法、系统、计算机装置和存储介质
CN112882796A (zh) * 2021-02-25 2021-06-01 深信服科技股份有限公司 异常根因分析方法和装置,及存储介质
CN112882796B (zh) * 2021-02-25 2024-05-24 深信服科技股份有限公司 异常根因分析方法和装置,及存储介质
CN113312341A (zh) * 2021-04-28 2021-08-27 上海淇馥信息技术有限公司 一种数据质量监控方法、系统和计算机设备
CN113312341B (zh) * 2021-04-28 2024-01-02 奇富数科(上海)科技有限公司 一种数据质量监控方法、系统和计算机设备
CN113535519A (zh) * 2021-07-27 2021-10-22 浪潮软件科技有限公司 一种监控告警方法
CN113535519B (zh) * 2021-07-27 2024-01-30 浪潮软件科技有限公司 一种监控告警方法
CN113923131B (zh) * 2021-09-10 2023-08-22 北京世纪互联宽带数据中心有限公司 一种监控信息确定方法、装置、计算设备及存储介质
CN113923131A (zh) * 2021-09-10 2022-01-11 北京世纪互联宽带数据中心有限公司 一种监控信息确定方法、装置、计算设备及存储介质
CN114048103A (zh) * 2021-11-19 2022-02-15 重庆富民银行股份有限公司 Pmml风控模型管理平台
CN114422339A (zh) * 2022-03-29 2022-04-29 西安塔力科技有限公司 一种自动调度的分布式数据监控系统及方法
CN115115352B (zh) * 2022-08-29 2022-11-08 山东中鲁实业有限公司 基于数字化城市运行管理服务的公共设备运行控制系统
CN115115352A (zh) * 2022-08-29 2022-09-27 山东中鲁实业有限公司 基于数字化城市运行管理服务的公共设备运行控制系统
CN116610537B (zh) * 2023-07-20 2023-11-17 中债金融估值中心有限公司 一种数据量监控方法、系统、设备及存储介质
CN116610537A (zh) * 2023-07-20 2023-08-18 中债金融估值中心有限公司 一种数据量监控方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111190794A (zh) 一种运维监控管理系统
CN110716832B (zh) 业务运行的监控告警方法、系统、电子设备及存储介质
US8407669B2 (en) Device based software authorizations for software asset management
US7610211B2 (en) Investigating business processes
US7043659B1 (en) System and method for flexible processing of management policies for managing network elements
US6909992B2 (en) Automatically identifying replacement times for limited lifetime components
CN106487574A (zh) 自动化运行维护监测系统
US20030135382A1 (en) Self-monitoring service system for providing historical and current operating status
US20080155386A1 (en) Network discovery system
US20080098454A1 (en) Network Management Appliance
US8478788B1 (en) Centralized information technology resources analysis system
US8655700B2 (en) Method and system for grouping events
CN105843904A (zh) 针对数据库运行性能的监控告警系统
US10474954B2 (en) Feedback and customization in expert systems for anomaly prediction
CN111563022B (zh) 一种集中式存储器监控方法和装置
JP2002108728A (ja) 障害情報の掲載方法およびプロバイダ設備
US10778526B2 (en) Automated creation of test tenants for data center technical issue detection
CN115860729A (zh) 一种it运维综合管理系统
US20110320971A1 (en) Cross-domain business service management
CN113094053A (zh) 产品的交付方法及装置、计算机存储介质
CN108173711B (zh) 企业内部系统数据交换监控方法
KR101539619B1 (ko) 패턴정보를 이용한 리소스 변경 여부 결정 장치 및 방법과 이를 이용한 기록매체
CN103227738B (zh) 基于自相似模型的智能网络监控系统
CN114816943A (zh) 企业智能云运维系统
CN105607983A (zh) 数据异常监控方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination