CN105515820A - 一种用于运维管理的健康分析方法 - Google Patents

一种用于运维管理的健康分析方法 Download PDF

Info

Publication number
CN105515820A
CN105515820A CN201510623137.7A CN201510623137A CN105515820A CN 105515820 A CN105515820 A CN 105515820A CN 201510623137 A CN201510623137 A CN 201510623137A CN 105515820 A CN105515820 A CN 105515820A
Authority
CN
China
Prior art keywords
data
analysis method
management
health
health analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510623137.7A
Other languages
English (en)
Inventor
王俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI BETA SOFTWARE CO Ltd
Original Assignee
SHANGHAI BETA SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI BETA SOFTWARE CO Ltd filed Critical SHANGHAI BETA SOFTWARE CO Ltd
Priority to CN201510623137.7A priority Critical patent/CN105515820A/zh
Publication of CN105515820A publication Critical patent/CN105515820A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种用于运维管理的健康分析方法,通过对采集到的实时状况信息加以归并保存以形成历史数据;根据历史数据计算得到所述管理对象指标按时间变化的数据曲线-健康运行基线;以所述基线为中心,设置该指标数据上下合理的波动范围-上下门限;若所述管理对象指标数据在上下门限间进行波动,则判断为正常状态,否则为越界状态;通过统计越界的频繁度来判断运维管理系统的健康趋势,收集各个监测点运行数据,与该时段健康标准做比对,得出健康状况偏差值,当偏差值越过许可范围时,则触发处理;可得到系统运行健康度趋势,发现问题征兆进行提示,防患于未然,提高了运维管理质量和效率。

Description

一种用于运维管理的健康分析方法
技术领域
本发明涉及运维管理技术领域,尤其涉及一种用于运维管理的健康分析方法。
背景技术
随着信息化建设的深入发展,IT系统日益成为核心业务处理的关键基础设施;为了保证网络、服务器、数据库等IT资源的正常运行,需要对其进行维护;当系统出现异常时能够及时产生告警并通知到运维人员,运维人员根据告警对异常进行定位,诊断,并完成相应的维护操作。在运维的管理上,有很多的管理对象是不一样的,因而它们需要监视的指标是不同的,监视的密度是不同的,指标正常与否的判断标准是不同的,发现指标偏离后的处置分析、处置操作也是不同的。但又有很多管理对象一般是相同或近似的,目前,针对所有管理对象,通常是通过完全不同的监视指标、监视密度、判断标准、处置分析和处置操作来进行运维管理,因而在碰到相同或近似的时,很多就是在重复进行运维管理,使得运维管理变得复杂化。
而在运维管理过程中,怎么针对指标的状态进行分析及判断是一个关键的问题,关系到运维管理系统的管理质量和管理效率,所以,需要一个比较好的分析方法来提高运维管理系统的管理质量和管理效率。
发明内容
鉴于目前运维管理技术领域存在的上述不足,本发明提供一种用于运维管理的健康分析方法,能够得到系统运行健康度趋势,发现问题征兆进行提示,防患于未然,提高了运维管理质量和效率。
为达到上述目的,本发明的实施例采用如下技术方案:
一种用于运维管理的健康分析方法,所述用于运维管理的健康分析方法包括以下步骤:
通过预置的管理规则连续地、周期性地采集管理对象指标的实时状况;
对采集到的实时状况信息加以归并保存以形成历史数据;
选取在管理对象正常运转周期内采集和保存的历史数据;
根据选取的历史数据计算得到所述管理对象指标按时间变化的数据曲线---健康运行基线;
以所述基线为中心,设置该指标数据上下合理的波动范围---上下门限;
若所述管理对象指标数据在上下门限间进行波动,则判断为正常状态,否则为越界状态;
通过统计越界的频繁度来判断运维管理系统的健康趋势。
依照本发明的一个方面,所述通过预置的管理规则连续地、周期性地采集管理对象指标的实时状况具体可为:通过监测模板预置的管理规则对每个管理对象和每个监测点进行连续、大量的数据采集。
依照本发明的一个方面,所述管理规则根据所述监测模板上的针对管理对象和监测点的监测规则进行制定。
依照本发明的一个方面,所述选取在管理对象正常运转周期内采集和保存的历史数据具体为:基于所述的历史数据,取一个系统正常运转的工作周期,读取所述工作周期内所有历史数据。
依照本发明的一个方面,所述用于运维管理的健康分析方法包括:通过发现越界实时调用智能处理策略。
依照本发明的一个方面,所述智能处理策略基于所述健康趋势进行分析,以决定是否需要采取措施及采取什么样的措施。
本发明实施的优点:本发明所述的用于运维管理的健康分析方法,通过对采集到的实时状况信息加以归并保存以形成历史数据;选取在管理对象正常运转周期内采集和保存的历史数据;根据选取的历史数据计算得到所述管理对象指标按时间变化的数据曲线---健康运行基线;以所述基线为中心,设置该指标数据上下合理的波动范围---上下门限;若所述管理对象指标数据在上下门限间进行波动,则判断为正常状态,否则为越界状态;通过统计越界的频繁度来判断运维管理系统的健康趋势,针对每个管理对象、每个监测点连续、自动、大量地进行数据采集,并加以归并存储。采集持续一段时间后,运用算法提炼出“与时段维度”关联的每个管理对象的“健康标准”也就是健康运行基线,不断收集各个监测点运行数据,与该时段健康标准做比对,得出健康状况偏差值,当偏差值越过许可范围时,则触发处理;可得到系统运行健康度趋势,发现问题征兆进行提示,防患于未然,提高了运维管理质量和效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述的一种用于运维管理的健康分析方法示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种用于运维管理的健康分析方法,所述用于运维管理的健康分析方法包括以下步骤:
步骤S1:通过预置的管理规则连续地、周期性地采集管理对象指标的实时状况;
所述步骤S1通过预置的管理规则连续地、周期性地采集管理对象指标的实时状况的具体实施方式可为:通过监测模板预置的管理规则对每个管理对象和每个监测点进行连续、大量的数据采集。例如,若监测模板预置的管理规则为“采集CPU的使用率”,则通过监测模板对CPU的使用率进行连续、周期、大量的采集。
在实际应用中,所述管理规则根据所述监测模板上的针对管理对象和监测点的监测规则进行制定。
步骤S2:对采集到的实时状况信息加以归并保存以形成历史数据;
所述步骤S2对采集到的实时状况信息加以归并保存以形成历史数据的具体实施方式可为:将所述步骤S1通过预置的管理规则连续地、周期性地采集管理对象指标的实时状况采集到的对应管理对象指标的实时状况数据进行归并保存,以时间为轴形成大量的历史数据,这是未来我们进行系统分析的“数据”基础。
步骤S3:选取在管理对象正常运转周期内采集和保存的历史数据;
所述步骤S3选取在管理对象正常运转周期内采集和保存的历史数据的具体实施方式可为:基于这些历史数据,取一个系统正常运转的工作周期,比如1周或1月,将该时间段内的监测模板采集到的所有实时状况信息归并保存形成的历史数据提取出来。
步骤S4:根据选取的历史数据计算得到所述管理对象指标按时间变化的数据曲线---健康运行基线;
所述步骤S3根据选取的历史数据计算得到所述管理对象指标按时间变化的数据曲线---健康运行基线的具体实施方式可为:基于步骤S3选取出来的正常运转周期内的历史数据,用数学方法处理后得到一条某管理对象关键指标按时间变化的数据曲线---健康运行基线。例如,根据一月内正常运行的CPU的使用率得到了一条随时间变化的数据曲线。
在实际应用中,所述基线还可包括日基线和周基线。
日基线:从该指标的历史记录中选择最近某几日的数据进行综合判断;
周基线:从该指标的历史记录中选择最近某几周的数据进行综合判断。
在实际应用中,所述健康运行基线是一根曲线,其横坐标是时间轴,纵坐标是指标的值。
例如,日基线类型,基线的横坐标的范围是一天,从0点到24点。
例如,周基线类型,基线的横坐标的范围是一周,从周一的0点到周日的24点。
所述健康运行基线可由用户指定选用哪一天或哪一周的历史记录数据。
步骤S5:以所述基线为中心,设置该指标数据上下合理的波动范围---上下门限;
所述步骤S5以所述基线为中心,设置该指标数据上下合理的波动范围---上下门限的具体实施方式可为:我们认为在IT环境稳定、业务使用稳定的前提下,未来正常的业务开展过程中,某具体对象的重要管理指标实时值的波动应在是围绕基线的一个合理的波动范围内,以基线为中心,上下合理的波动范围我们称为上下门限。
所述上下门限具体分为上门限和下门限,上门限或下门限可根据用户设置的参数进行计算,例如,根据用户CPU使用率的参数设置,可计算地CPU使用率的上门限为15%,其下门限为10%。。
步骤S6:若所述管理对象指标数据在上下门限间进行波动,则判断为正常状态,否则为越界状态;
所述步骤S6若所述管理对象指标数据在上下门限间进行波动,则判断为正常状态,否则为越界状态的具体实施方式可为:上下门限间的数据波动是正常的,称为健康,而超出门限的波动,我们称为越界。例如,某CPU的使用率指标健康运行基线采用的是日基线,假设当前时刻为上午10点15分,那么该时刻对应基线曲线上有一点,假设其值CPU使用率为55%,也就是说,历史上在每日的10点15分所述CPU的使用率为55%;那么根据上下门限的定义,该点的值加上门限即为该时刻上限的阈值,该点的值减下门限即为该时刻下限的阈值,如果当前CPU使用率大于上限阈值或小于下限阈值,那么就是越界。假设所述CPU使用率的上门限为15%,下门限为10%,则所述CPU使用率的上限阈值为70%,其下限阈值为45%,若采集到的当前时刻CPU使用率为85%,则判断为越界;同理,若采集到的当前时刻CPU使用率为40%,同样判断为越界;若采集到的当前时刻CPU使用率为60%,则判断为正常。
在实际应用中,不同的时刻对应基线曲线的点可能是不同的,所以不同时刻阈值也是动态变化的。
步骤S7:通过统计越界的频繁度来判断运维管理系统的健康趋势。
所述步骤S7通过统计越界的频繁度来判断运维管理系统的健康趋势的具体实施方式可为:越界约频繁,预示着业务运行的隐患越大,越不健康,则可以通过统计越界的频繁度来判断运维管理系统的健康趋势。
在实际应用中,可通过发现越界实时调用智能处理策略。
在实际应用中,所述智能处理策略可基于所述健康趋势进行分析,以决定是否需要采取措施及采取什么样的措施。
本发明实施的优点:本发明所述的用于运维管理的健康分析方法,通过对采集到的实时状况信息加以归并保存以形成历史数据;选取在管理对象正常运转周期内采集和保存的历史数据;根据选取的历史数据计算得到所述管理对象指标按时间变化的数据曲线---健康运行基线;以所述基线为中心,设置该指标数据上下合理的波动范围---上下门限;若所述管理对象指标数据在上下门限间进行波动,则判断为正常状态,否则为越界状态;通过统计越界的频繁度来判断运维管理系统的健康趋势,针对每个管理对象、每个监测点连续、自动、大量地进行数据采集,并加以归并存储。采集持续一段时间后,运用算法提炼出“与时段维度”关联的每个管理对象的“健康标准”也就是健康运行基线,不断收集各个监测点运行数据,与该时段健康标准做比对,得出健康状况偏差值,当偏差值越过许可范围时,则触发处理;可得到系统运行健康度趋势,发现问题征兆进行提示,防患于未然,提高了运维管理质量和效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种用于运维管理的健康分析方法,其特征在于,所述用于运维管理的健康分析方法包括以下步骤:
通过预置的管理规则连续地、周期性地采集管理对象指标的实时状况;
对采集到的实时状况信息加以归并保存以形成历史数据;
选取在管理对象正常运转周期内采集和保存的历史数据;
根据选取的历史数据计算得到所述管理对象指标按时间变化的数据曲线---健康运行基线;
以所述基线为中心,设置该指标数据上下合理的波动范围---上下门限;
若所述管理对象指标数据在上下门限间进行波动,则判断为正常状态,否则为越界状态;
通过统计越界的频繁度来判断运维管理系统的健康趋势。
2.根据权利要求1所述的用于运维管理的健康分析方法,其特征在于,所述通过预置的管理规则连续地、周期性地采集管理对象指标的实时状况具体可为:通过监测模板预置的管理规则对每个管理对象和每个监测点进行连续、大量的数据采集。
3.根据权利要求2所述的用于运维管理的健康分析方法,其特征在于,所述管理规则根据所述监测模板上的针对管理对象和监测点的监测规则进行制定。
4.根据权利要求1所述的用于运维管理的健康分析方法,其特征在于,所述选取在管理对象正常运转周期内采集和保存的历史数据具体为:基于所述的历史数据,取一个系统正常运转的工作周期,读取所述工作周期内所有历史数据。
5.根据权利要求1至4之一所述的用于运维管理的健康分析方法,其特征在于,所述用于运维管理的健康分析方法包括:通过发现越界实时调用智能处理策略。
6.根据权利要求5所述的用于运维管理的健康分析方法,其特征在于,所述智能处理策略基于所述健康趋势进行分析,以决定是否需要采取措施及采取什么样的措施。
CN201510623137.7A 2015-09-25 2015-09-25 一种用于运维管理的健康分析方法 Pending CN105515820A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510623137.7A CN105515820A (zh) 2015-09-25 2015-09-25 一种用于运维管理的健康分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510623137.7A CN105515820A (zh) 2015-09-25 2015-09-25 一种用于运维管理的健康分析方法

Publications (1)

Publication Number Publication Date
CN105515820A true CN105515820A (zh) 2016-04-20

Family

ID=55723480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510623137.7A Pending CN105515820A (zh) 2015-09-25 2015-09-25 一种用于运维管理的健康分析方法

Country Status (1)

Country Link
CN (1) CN105515820A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106452931A (zh) * 2016-12-27 2017-02-22 中国建设银行股份有限公司 监控指标及域值发现方法、域值调整方法及自动监控系统
CN106683340A (zh) * 2016-12-15 2017-05-17 歌尔股份有限公司 一种用户行为监测方法和可穿戴设备
CN106776102A (zh) * 2016-12-27 2017-05-31 中国建设银行股份有限公司 一种应用系统健康检查方法及系统
CN108074022A (zh) * 2016-11-10 2018-05-25 中国电力科学研究院 一种基于集中运维的硬件资源分析与评估方法
CN108255676A (zh) * 2018-01-15 2018-07-06 南京市城市规划编制研究中心 一种软件系统客户端健康度的监控方法
CN108718303A (zh) * 2018-05-09 2018-10-30 北京仁和诚信科技有限公司 安全运维管理方法及系统
CN111882195A (zh) * 2020-07-21 2020-11-03 清华大学 力与流场数据评估装置和评估方法
CN112600705A (zh) * 2020-12-14 2021-04-02 国网四川省电力公司信息通信公司 一种网络设备自动化运维的方法
CN112612671A (zh) * 2020-12-16 2021-04-06 深圳前海微众银行股份有限公司 系统监控方法、装置、设备及存储介质
CN113706823A (zh) * 2021-03-04 2021-11-26 罗勇 一种基于智慧养老的自动看护报警系统及其处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080177756A1 (en) * 2007-01-18 2008-07-24 Nicolai Kosche Method and Apparatus for Synthesizing Hardware Counters from Performance Sampling
CN101964997A (zh) * 2009-07-21 2011-02-02 中国移动通信集团黑龙江有限公司 网络性能预警方法及装置
CN102111307A (zh) * 2009-12-29 2011-06-29 亿阳信通股份有限公司 网络风险监控方法和装置
CN103892815A (zh) * 2014-04-28 2014-07-02 广东欧珀移动通信有限公司 一种人体生理指标监测方法及监测系统
CN104442931A (zh) * 2014-11-20 2015-03-25 上海富欣智能交通控制有限公司 轨道交通综合维护管理系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080177756A1 (en) * 2007-01-18 2008-07-24 Nicolai Kosche Method and Apparatus for Synthesizing Hardware Counters from Performance Sampling
CN101964997A (zh) * 2009-07-21 2011-02-02 中国移动通信集团黑龙江有限公司 网络性能预警方法及装置
CN102111307A (zh) * 2009-12-29 2011-06-29 亿阳信通股份有限公司 网络风险监控方法和装置
CN103892815A (zh) * 2014-04-28 2014-07-02 广东欧珀移动通信有限公司 一种人体生理指标监测方法及监测系统
CN104442931A (zh) * 2014-11-20 2015-03-25 上海富欣智能交通控制有限公司 轨道交通综合维护管理系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074022A (zh) * 2016-11-10 2018-05-25 中国电力科学研究院 一种基于集中运维的硬件资源分析与评估方法
CN106683340A (zh) * 2016-12-15 2017-05-17 歌尔股份有限公司 一种用户行为监测方法和可穿戴设备
CN106452931B (zh) * 2016-12-27 2019-09-17 中国建设银行股份有限公司 监控指标及域值发现方法、域值调整方法及自动监控系统
CN106776102A (zh) * 2016-12-27 2017-05-31 中国建设银行股份有限公司 一种应用系统健康检查方法及系统
CN106452931A (zh) * 2016-12-27 2017-02-22 中国建设银行股份有限公司 监控指标及域值发现方法、域值调整方法及自动监控系统
CN108255676A (zh) * 2018-01-15 2018-07-06 南京市城市规划编制研究中心 一种软件系统客户端健康度的监控方法
CN108718303A (zh) * 2018-05-09 2018-10-30 北京仁和诚信科技有限公司 安全运维管理方法及系统
CN108718303B (zh) * 2018-05-09 2021-03-23 北京仁和诚信科技有限公司 安全运维管理方法及系统
CN111882195A (zh) * 2020-07-21 2020-11-03 清华大学 力与流场数据评估装置和评估方法
CN111882195B (zh) * 2020-07-21 2023-07-14 清华大学 力与流场数据评估装置和评估方法
CN112600705A (zh) * 2020-12-14 2021-04-02 国网四川省电力公司信息通信公司 一种网络设备自动化运维的方法
CN112612671A (zh) * 2020-12-16 2021-04-06 深圳前海微众银行股份有限公司 系统监控方法、装置、设备及存储介质
CN113706823A (zh) * 2021-03-04 2021-11-26 罗勇 一种基于智慧养老的自动看护报警系统及其处理方法

Similar Documents

Publication Publication Date Title
CN105515820A (zh) 一种用于运维管理的健康分析方法
CN107742127B (zh) 一种改进的防窃电智能预警系统及方法
CN105406991A (zh) 基于网络监控指标由历史数据生成业务阈值的方法及系统
CN105893231B (zh) 一种基于smart的预测硬盘亚健康指标的方法及装置
CN105871634B (zh) 检测集群异常的方法及应用、管理集群的系统
CN104020724B (zh) 告警监控方法和装置
CN108206747B (zh) 告警生成方法和系统
CN112433919B (zh) 一种信息告警方法、设备及存储介质
CN113570200B (zh) 一种基于多维信息的电网运行状态监测方法及系统
CN110866616A (zh) 一种变电站二次设备故障预警方法及装置
CN115358155A (zh) 一种电力大数据异常预警方法、装置、设备及可读存储介质
CN109494757B (zh) 一种电压无功运行预警方法和系统
CN107276808A (zh) 一种流量异常监测的优化方法
CN115664038B (zh) 一种用于电气安全管理的智能配电运维监控系统
CN116976707B (zh) 基于用电信息采集的用户用电数据异常分析方法及系统
CN116308305B (zh) 一种桥梁健康监测数据管理系统
CN116345700B (zh) 一种用于储能电站的能耗监测方法及监测系统
JP2013214171A (ja) 性能監視装置、性能監視方法、及びそのプログラム
CN115049410A (zh) 窃电行为识别方法、装置、电子设备及计算机可读存储介质
CN109298700B (zh) 一种实时判断火电机组运行参数异常变化的方法及系统
CN105678388A (zh) 一种基于基线的运维管理健康分析方法
CN110738415A (zh) 基于用电采集系统和离群点算法的窃电用户分析方法
CN111460027B (zh) 一种适用于能源互联网的智能动态监测方法及系统
CN116401604B (zh) 进行冷头状态分类检测和寿命预测的方法
CN114064673A (zh) 一种盾构云平台多线路中心刀损坏预警系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160420