CN107846314A - 一种智能运维管理系统 - Google Patents

一种智能运维管理系统 Download PDF

Info

Publication number
CN107846314A
CN107846314A CN201711049087.1A CN201711049087A CN107846314A CN 107846314 A CN107846314 A CN 107846314A CN 201711049087 A CN201711049087 A CN 201711049087A CN 107846314 A CN107846314 A CN 107846314A
Authority
CN
China
Prior art keywords
module
fault
fault restoration
time
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711049087.1A
Other languages
English (en)
Inventor
姚小艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Yizhou Union Network Technology Co Ltd
Original Assignee
Guangxi Yizhou Union Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Yizhou Union Network Technology Co Ltd filed Critical Guangxi Yizhou Union Network Technology Co Ltd
Priority to CN201711049087.1A priority Critical patent/CN107846314A/zh
Publication of CN107846314A publication Critical patent/CN107846314A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及系统运维管理技术领域,尤其是一种智能运维管理系统。包括系统监测模块、故障信息识别模块、故障修复模块和故障修复评估模块;系统监测模块用于监测系统的运行状态,当监测到异常时,系统监测模块将当前的状态参数及监测到的异常情况传递给故障信息收集模块;故障信息识别模块用于将收集模块传递收集到的异常情况进行识别确认是否为虚警,将判断为故障的信息传递给故障修复模块进行修复;故障修复模块用于在接收到故障信息识别模块的报警信息后根据故障特征对故障进行修复;故障修复评估模块用于对故障修复模块的故障修复结果进行评估。本发明能对故障快速修复,并能自动对修复结果不理想及修复时间过长的故障提醒管理员进行优化。

Description

一种智能运维管理系统
技术领域
本发明涉及系统运维管理技术领域,尤其是一种智能运维管理系统。
背景技术
目前IT运维系统规模不断增长,系统在对服务器、虚拟机、交换机等网络设备性能及其网络连通性进行监测过程中,运维人员每天会收到越来越多的监控报警,面对海量的运维指标当系统出现故障时,运维人员很难从海量监控指标中迅速找到故障根因,报警风暴极大地降低了定位问题的速度,故障恢复速度基本依赖于运维人员的经验以及操作响应速度。因此建立一个故障自动诊断与快速恢复系统协同处理的智能运维平台,针对多场景构建机器学习模型与大数据专家系统,实时对运维平台的异常进行在线诊断与定位,当系统出现故障时通过执行相应策略实现快速修复,恢复正常运行是人们所需要的。
发明内容
为了克服上述问题,本发明提供一种智能运维管理系统,实时对系统的异常进行在线诊断与定位,当系统出现故障时通过执行相应策略实现快速修复,并且能自动对修复结果不理想及修复时间过长的故障提醒系统管理员进行优化。
本发明解决其技术问题所采用的技术方案是:
一种智能运维管理系统,包括系统监测模块、故障信息识别模块、故障修复模块和故障修复评估模块;
所述系统监测模块用于监测系统的运行状态,当监测到异常时,系统监测模块将当前的状态参数及监测到的异常情况传递给故障信息收集模块;
所述故障信息识别模块用于将收集模块传递收集到的异常情况进行识别确认是否为虚警,将判断为故障的信息传递给故障修复模块进行修复;
所述故障修复模块用于在接收到故障信息识别模块的报警信息后根据故障特征对故障进行修复;
所述故障修复评估模块用于对故障修复模块的故障修复结果进行评估是否合格;所述故障修复评估模块还包括时间检测单元,所述时间检测单元用于检测故障修复花费时间并判断所花费的时间是否大于阈值。
进一步的,所述故障修复评估模块还用于对故障修复后,根据系统的运行状态对每次修复结果进行打分,定期将打分低的自修复执行过程提交给系统管理员进行分析,并提示管理员优化存诸在脚本调用模块中对应的脚本。
进一步的,所述时间检测单元工作流程为:当故障修复模块在接收到故障信息识别模块的报警信息后,所述时间检测单元检测并记录当前系统时间,当故障修复模块将故障修复后,所述时间时间检测单元再次检测并记录当前系统时间,并计算两次所检测到的时间间隔,并判断所述时间间隔是否大于阈值,当所述时间间隔大于阈值时,将该故障自修复执行过程提交给系统管理员进行分析,并提示管理员优化存诸在脚本调用模块中对应的脚本。
进一步的,所述阈值为修复该故障所需平均时间的2-3倍。
本发明的有益效果是,本发明中的监测模块能对系统进行全面检测,当检测系统出现异常时,故障信息识别模块对异常信息进行识别判断是否为故障,对于判断为故障的信息,故障修复模块对故障进行有效修复,故障修复评估模块对故障修复模块的修复结果进行评估能针对修复结果不理想的故障提交给系统管理员进行分析,本系统还能对于修复过程中出现所需时间过长的结果提醒统管理员进行分析并进行相应的优化系统。本系统不仅能对异常进行在线诊断与定位,当系统出现故障时通过执行相应策略实现快速修复,并且能自动对修复结果不理想及修复时间过长的故障提醒系统管理员进行优化,不断提升故障修复效果及效率。
附图说明
图1是本发明一较佳实施方式的智能运维管理系统结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,当组件被称为“固定于”另一个组件,它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件,它可以是直接连接到另一个组件或者可能同时存在居中组件。当一个组件被认为是“设置于”另一个组件,它可以是直接设置在另一个组件上或者可能同时存在居中组件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
请同时参见图1本发明一较佳实施方式提供一种智能运维管理系统,包括包括系统监测模块10、故障信息识别模块20、故障修复模块30和故障修复评估模块40。系统监测模块10用于监测系统的运行状态,当监测到异常时,系统监测模块10将当前的状态参数及监测到的异常情况传递给故障信息收集模块20;故障信息识别模块20用于将收集模块传递收集到的异常情况进行识别确认是否为虚警,将判断为故障的信息传递给故障修复模块30进行修复;故障修复模30块用于在接收到故障信息识别模块的报警信息后根据故障特征对故障进行修复;故障修复评估模块40用于对故障修复模块的故障修复结果进行评估是否合格;故障修复评估模块40还包括时间检测单元410,时间检测单元410用于检测故障修复花费时间并判断所花费的时间是否大于阈值。
进一步的,故障修复评估模块40还用于对故障修复后,根据系统的运行状态对每次修复结果进行打分,定期将打分低的自修复执行过程提交给系统管理员进行分析,并提示管理员优化存诸在脚本调用模块中对应的脚本。
进一步的,时间检测单元410工作流程为:当故障修复模块30在接收到故障信息识别模20块的报警信息后,时间检测单元410检测并记录当前系统时间,当故障修复模块30将故障修复后,时间时间检测单元410再次检测并记录当前系统时间,并计算两次所检测到的时间间隔,并判断所述时间间隔是否大于阈值,当所述时间间隔大于阈值时,将该故障自修复执行过程提交给系统管理员进行分析,并提示管理员优化存诸在脚本调用模块中对应的脚本。所述阈值为修复该故障所需平均时间的2-3倍。

Claims (4)

1.一种智能运维管理系统,其特征在于:包括系统监测模块、故障信息识别模块、故障修复模块和故障修复评估模块;
所述系统监测模块用于监测系统的运行状态,当监测到异常时,系统监测模块将当前的状态参数及监测到的异常情况传递给故障信息收集模块;
所述故障信息识别模块用于将收集模块传递收集到的异常情况进行识别确认是否为虚警,将判断为故障的信息传递给故障修复模块进行修复;
所述故障修复模块用于在接收到故障信息识别模块的报警信息后根据故障特征对故障进行修复;
所述故障修复评估模块用于对故障修复模块的故障修复结果进行评估是否合格;所述故障修复评估模块还包括时间检测单元,所述时间检测单元用于检测故障修复花费时间并判断所花费的时间是否大于阈值。
2.根据权利要求1所述智能运维管理系统,其特征在于:所述故障修复评估模块还用于对故障修复后,根据系统的运行状态对每次修复结果进行打分,定期将打分低的自修复执行过程提交给系统管理员进行分析,并提示管理员优化存诸在脚本调用模块中对应的脚本。
3.根据权利要求1所述智能运维管理系统,其特征在于:所述时间检测单元工作流程为:当故障修复模块在接收到故障信息识别模块的报警信息后,所述时间检测单元检测并记录当前系统时间,当故障修复模块将故障修复后,所述时间时间检测单元再次检测并记录当前系统时间,并计算两次所检测到的时间间隔,并判断所述时间间隔是否大于阈值,当所述时间间隔大于阈值时,将该故障自修复执行过程提交给系统管理员进行分析,并提示管理员优化存诸在脚本调用模块中对应的脚本。
4.根据权利要求3所述智能运维管理系统,其特征在于:所述阈值为修复该故障所需平均时间的2-3倍。
CN201711049087.1A 2017-10-31 2017-10-31 一种智能运维管理系统 Pending CN107846314A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711049087.1A CN107846314A (zh) 2017-10-31 2017-10-31 一种智能运维管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711049087.1A CN107846314A (zh) 2017-10-31 2017-10-31 一种智能运维管理系统

Publications (1)

Publication Number Publication Date
CN107846314A true CN107846314A (zh) 2018-03-27

Family

ID=61681217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711049087.1A Pending CN107846314A (zh) 2017-10-31 2017-10-31 一种智能运维管理系统

Country Status (1)

Country Link
CN (1) CN107846314A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197289A (zh) * 2019-06-12 2019-09-03 众诚恒祥(北京)科技有限公司 一种基于大数据的节能设备管理系统
WO2019214010A1 (zh) * 2018-05-08 2019-11-14 网宿科技股份有限公司 一种监控设备故障的方法和装置
WO2021143483A1 (zh) * 2020-01-17 2021-07-22 中兴通讯股份有限公司 系统维护方法、装置、设备和存储介质
WO2023045931A1 (zh) * 2021-09-24 2023-03-30 华为技术有限公司 一种网络性能异常分析方法、装置及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038373A (zh) * 2014-05-30 2014-09-10 国家电网公司 信息预警与自修复系统及方法
CN105262616A (zh) * 2015-09-21 2016-01-20 浪潮集团有限公司 一种基于故障知识库的自动化故障处理系统及方法
CN105550100A (zh) * 2015-12-11 2016-05-04 国家电网公司 一种信息系统故障自动恢复的方法及系统
CN106204330A (zh) * 2016-07-18 2016-12-07 国网山东省电力公司济南市历城区供电公司 一种配电网智能诊断系统
CN106209428A (zh) * 2016-06-28 2016-12-07 武汉合创源科技有限公司 一种网站故障监控预警方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038373A (zh) * 2014-05-30 2014-09-10 国家电网公司 信息预警与自修复系统及方法
CN105262616A (zh) * 2015-09-21 2016-01-20 浪潮集团有限公司 一种基于故障知识库的自动化故障处理系统及方法
CN105550100A (zh) * 2015-12-11 2016-05-04 国家电网公司 一种信息系统故障自动恢复的方法及系统
CN106209428A (zh) * 2016-06-28 2016-12-07 武汉合创源科技有限公司 一种网站故障监控预警方法及系统
CN106204330A (zh) * 2016-07-18 2016-12-07 国网山东省电力公司济南市历城区供电公司 一种配电网智能诊断系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019214010A1 (zh) * 2018-05-08 2019-11-14 网宿科技股份有限公司 一种监控设备故障的方法和装置
CN110197289A (zh) * 2019-06-12 2019-09-03 众诚恒祥(北京)科技有限公司 一种基于大数据的节能设备管理系统
CN110197289B (zh) * 2019-06-12 2020-08-25 众诚恒祥(北京)科技有限公司 一种基于大数据的节能设备管理系统
WO2021143483A1 (zh) * 2020-01-17 2021-07-22 中兴通讯股份有限公司 系统维护方法、装置、设备和存储介质
WO2023045931A1 (zh) * 2021-09-24 2023-03-30 华为技术有限公司 一种网络性能异常分析方法、装置及可读存储介质

Similar Documents

Publication Publication Date Title
CN107612756A (zh) 一种具有智能故障分析处理功能的运维管理系统
CN107862393A (zh) 一种it运维管理系统
CN106655522B (zh) 一种适用于电网二次设备运维管理的主站系统
CN107846314A (zh) 一种智能运维管理系统
CN108847968B (zh) 监控事故、异常事件辨识及多维分析方法
CN105337765A (zh) 一种分布式hadoop集群故障自动诊断修复系统
CN103078403B (zh) 一种智能变电站二次系统的在线状态评估方法
CN107656156B (zh) 一种基于云平台的设备故障诊断及运行状态评估方法与系统
CN110350660B (zh) 一种继电保护功能压板在线监视方法和系统
CN112434826A (zh) 一种充电桩充电设施运维故障智能分析与预警系统
CN105634133A (zh) 一种供配电监控系统
CN105911424B (zh) 一种基于故障指示器误报信号的识别方法
CN109672175B (zh) 电网控制方法及装置
CN108776625A (zh) 一种服务故障的修复方法、装置和存储介质
CN110020791A (zh) 一种基于责任管理的产品设计方法
CN112396292A (zh) 一种基于物联网及边缘计算的变电站设备风险管控系统
CN105067959B (zh) 环网供电条件下的故障定位方法
CN103208049A (zh) 异常告警快速事故分析方法及系统
CN111401760B (zh) 一种安全稳定控制装置异常处置决策方法及装置
CN117686829A (zh) 一种集电线路故障预警系统及方法
CN104977870A (zh) 一种车间设备事故辅助处理系统及方法
CN104417504B (zh) 电动汽车电池更换系统的安防子系统
CN115422504A (zh) 一种配电设备故障风险辨识方法及装置
CN109089109A (zh) 一种变电站监控视频常见故障的处理方法
CN105610157B (zh) 一种故障驱动的地区电网静态安全分析系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180327

RJ01 Rejection of invention patent application after publication