CN106549831A - 一种信息系统的健康分析方法和系统 - Google Patents

一种信息系统的健康分析方法和系统 Download PDF

Info

Publication number
CN106549831A
CN106549831A CN201611052509.6A CN201611052509A CN106549831A CN 106549831 A CN106549831 A CN 106549831A CN 201611052509 A CN201611052509 A CN 201611052509A CN 106549831 A CN106549831 A CN 106549831A
Authority
CN
China
Prior art keywords
subsystem
information system
health degree
value
availability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611052509.6A
Other languages
English (en)
Other versions
CN106549831B (zh
Inventor
肖克江
付暾
童维
童一维
罗伟
邓鹏程
吴佼
毛苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Hunan Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201611052509.6A priority Critical patent/CN106549831B/zh
Publication of CN106549831A publication Critical patent/CN106549831A/zh
Application granted granted Critical
Publication of CN106549831B publication Critical patent/CN106549831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供信息系统的健康分析方法和系统,所述信息系统包括若干个子系统,每一个所述子系统包括若干个存在关联关系的服务组件,所述方法包括以下步骤:S1、基于子系统的可用性值以及该子系统中所有服务组件的告警风险值和个数获得该子系统的健康度;以及S2、基于所有子系统的健康度获得信息系统的健康度。本方法可以准确、快速地发现系统的异常情况。

Description

一种信息系统的健康分析方法和系统
技术领域
本发明涉及计算机技术领域,更具体地,涉及信息系统的健康分析方法和系统。
背景技术
对于电力公司的信息系统监控平台,通常有针对网络和业务系统进行检测的需求。而现有的检测程序一般以设备监控为主,这种方式只能监控支撑业务系统运行的设备状态,并以此判断系统是否可用。但是这种方式存在一个问题,实际情况中会经常出现监控系统中各项监控指标都正常,但是业务系统出了问题或故障。此外,由于业务层层嵌套、相互关联,运维人员很难量化信息系统是否健康,更难发现信息系统的潜在威胁。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的信息系统的健康分析方法。
根据本发明的一个方面,提供一种信息系统的健康分析方法,所述信息系统包括若干个子系统,每一个所述子系统包括若干个存在关联关系的服务组件,包括以下步骤:
S1、基于子系统的可用性值以及该子系统中所有服务组件的告警风险值和个数获得该子系统的健康度;以及
S2、基于所有子系统的健康度获得信息系统的健康度。
根据本发明的另一个方面,提供一种信息系统的健康分析系统,所述信息系统包括若干个子系统,每一个所述子系统包括若干个存在关联关系的服务组件,包括:
若干个子系统健康度装置,与每个子系统一一对应地连接,基于子系统的可用性值以及该子系统中所有服务组件的告警风险值和个数获得该子系统的健康度;以及
信息系统健康度装置,与所有所述子系统健康度装置连接,基于所有子系统的健康度获得信息系统的健康度。
本申请提出一种基于告警风险值以及可用性值获得每个服务组件的健康度、再根据所有服务组件的健康度获得信息系统的健康度。本方法可以准确、快速地发现系统的异常情况。
附图说明
图1为本发明实施例的信息系统健康分析方法的流程示意图;
图2为根据本发明实施例的营销系统的组成示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1示出了本发明实施例的信息系统健康分析方法的流程示意图。本实施例中的信息系统健康分析方法包括:
一种信息系统的健康分析方法,所述信息系统包括若干个子系统,每一个所述子系统包括若干个存在关联关系的服务组件,每一个服务组件包括若干个监控组件,每一个监控组件对应一个监控指标,所述方法包括:
计算每个服务组件的告警风险值和可用性值;
基于服务组件的串联关系和并联关系计算子系统的可用性值;
基于每个服务组件的告警风险值和子系统的可用性值计算子系统的健康度;以及
基于所有子系统的健康度计算信息系统的健康度。
在一个实施例中,所述服务组件的告警风险值的计算公式为:
且∑lγl=1;
其中,为第j个子系统中第i个服务组件的告警风险值、Nl表示第l个告警等级的告警次数、γl为告警严重系数、m为监控指标的数量。所述告警风险值是指监控组件出现故障的程度,在信息系统中,每个服务组件根据监控组件故障程度的不同具有不同的告警严重系数,故障程度越高则告警严重系数越高,∑lγl=1,即为所有告警严重系数的和为1,m表示监控组件的数量,一个监控组件需要监控一个监控指标。由上述公式可知,告警风险值能够很好地反应出监控指标的告警风险,告警风险值越大,说明告警风险越大,越有可能出现故障并告警。
在一个实施例中,基于一定时间内的故障次数和检测次数获得所述监控组件的可用性值,计算公式为其中,表示第i个服务组件中第k个监控组件的可用性值、Nfailure表示一定时间的故障次数、Ntotal表示一定时间总的检测次数。由本公式可知,在检测次数一定的条件下,故障次数越多,则可用性值越低。
在一个实施例中,基于所有监控组件的可用性值获得服务组件的可用性,技术公式为:其中Hj(i)为第i个服务组件的可用性值。
在一个实施例中,基于所有服务组件的可用性以及关联关系获得所述子系统的可用性值。
所述关联关系包括并联和串联,并联指通过F5或RAC等技术构成集群,串联指多个组件共同提供某个服务。
当各个服务组件之间是串联关系时,各个服务组件共同提供某个服务,必须各个组件都可用时,该种类型的服务组件才可用,是“且”的关系,因此子系统的可用性值Hj的计算方法如下:Hj=ΠiHj(i);
当各个服务组件之间是并联关系时,通过F5或RAC等技术构成集群,当集群中的一个系统发生故障时,集群软件迅速做出反应,将该系统的任务分配到集群中其它正在工作的系统上执行,或者每个节点都可以承担一定的处理负载,并且可以实现处理负载在节点之间的动态分配,以实现负载均衡,因此Hj计算如下:Hj=1-Πi(1-Hj(i));
其中,Hj为所述子系统的可用性值。
在一个实施例中,通过上述方法得到子系统的可用性值以及该子系统中所有服务组件的告警风险值和个数获得子系统的健康度,所述子系统的健康度的计算如下:其中,为第j个子系统的健康度、为第j个子系统中第i个服务组件的告警风险值、C为该子系统中服务组件的总个数。
在一个具体实施例中,所述信息系统的健康度的计算方法为:
其中,所述为信息系统的健康度,βj为每个子系统的权重,是第j个子系统的健康度。
在一个实施例中,本方法还包括:基于所述信息系统的健康度与经验得到的健康阈值的大小判断所述信息系统是否健康,当所述信息系统的健康度大于监控阈值时,则认定信息系统为健康状态,反之则认定信息系统为非健康状态。
图2给出了一个基于本发明的信息系统健康分析方法的营销系统,本营销系统包括存在4个子系统,分别为主机子系统,网络子系统、数据库服务器子系统以及工作站子系统,所述主机子系统由3个为并联关系的主机组成,3台主机分别为主机1、主机2以及主机3。
在这个实例中,在这个实例中,主机1的运行状态每1.5分钟检测一次,在一个小时内出现8次该主机状态不可用情况,主机2的运行状态每1.5分钟检测一次,在一个小时内出现4次该主机状态不可用情况,主机3的运行状态每1.5分钟一次,在一个小时内出现5次该主机状态不可用情况,计算一小时主机1、主机2和主机3的可用性分别为:
由于主机之间是并联关系,因此主机子系统的可用性为:
H1=1-Πi(1-Hj(i))
=1-(1-H1(1))×(1-H1(2))×(1-H1(3))
=1-(1-0.8)×(1-0.9)×(1-0.875)
=0.9975
3台主机均采集8个监控指标,告警分为3个等级,计算一小时内的主机健康度,针对告警等级设定一定的严重度,critical告警严重度系数0.5,major告警严重度系数0.3,warning级告警严重度系数0.2,主机1出现critical告警2次,major告警1次,minor告警5次;主机2出现critical告警1次,major告警1次,minor告警7次;主机3出现critical告警3次,major告警1次,minor告警3次。那么主机1、主机2和主机3的告警风险值分别计算如下:
因此,主机子系统的健康度为:
在一个实施例中,网络子系统、数据库服务器子系统和工作站子系统的健康度分别为0.51、0.63、0.56,而网络子系统、数据库服务器子系统和工作站子系统的权重分别为主机子系统的权重β1=0.3,网络子系统的权重β2=0.2,数据库服务器子系统的权重β3=0.3,工作站子系统的权重β4=0.2,那么营销系统的健康度为:
本发明还提供一种信息系统的健康分析系统,所述信息系统包括若干个子系统,每一个所述子系统包括若干个存在关联关系的服务组件,包括:
若干个子系统健康度装置,与每个子系统一一对应地连接,基于子系统的可用性值以及该子系统中所有服务组件的告警风险值和个数获得该子系统的健康度;以及
信息系统健康度装置,与所有所述子系统健康度装置连接,基于所有子系统的健康度获得信息系统的健康度。
在一个实施例中,所述子系统健康度装置包括:
告警风险模块,与子系统中的所有服务组件连接,基于所述服务组件的不同告警等级的告警次数、告警严重系数以及监控组件的数量获得所述服务组件的告警风险值;
组件可用性模块,与每个服务组件中的所有监控组件连接,基于一定时间内的故障次数和检测次数获得所述监控组件的可用性值,对所有监控组件的可用性值进行连乘获得所述服务组件的可用性值;
子系统可用性模块,与所述组件可用性模块连接,基于所有监控组件的可用性值以及关联关系获得所述子系统的可用性值;以及
子系统健康度模块,与所述告警风险模块以及子系统可用性模块连接,基于子系统的可用性值以及该子系统中所有服务组件的告警风险值和个数获得子系统的健康度。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种信息系统的健康分析方法,所述信息系统包括若干个子系统,每一个所述子系统包括若干个存在关联关系的服务组件,任意一个所述服务组件包括若干个监控组件,其特征在于,包括以下步骤:
S1、基于子系统的可用性值以及该子系统中所有服务组件的告警风险值和个数获得该子系统的健康度;以及
S2、基于所有子系统的健康度获得信息系统的健康度。
2.如权利要求1所述的信息系统的健康分析方法,其特征在于,所述步骤S1包括:
S1.1、基于所述服务组件的不同告警等级的告警次数、告警严重系数以及监控组件的数量获得所述服务组件的告警风险值;
S1.2、基于一定时间内的故障次数和检测次数获得所述监控组件的可用性值,对所有监控组件的可用性值进行连乘获得所述服务组件的可用性值;
S1.3、基于所有监控组件的可用性值以及关联关系获得所述子系统的可用性值;以及
S1.4、基于子系统的可用性值以及该子系统中所有服务组件的告警风险值和个数获得子系统的健康度。
3.如权利要求2所述的信息系统的健康分析方法,其特征在于,所述步骤S1.3包括:
当子系统内的服务组件的关联关系为串联时,所述子系统的可用性值的计算方法为:Hj=ΠiHj(i);或
当子系统内的服务组件的关联关系为并联时,所述子系统的可用性值的计算方法为:Hj=1-Πi(1-Hj(i));
其中,Hj为所述子系统的可用性值,Hj(i)为第i个服务组件的可用性值。
4.如权利要求2所述的信息系统的健康分析方法,其特征在于,所述步骤S2的计算方法为:
H e deg t o t a l = Σ j ( β j × H e deg j ) , Σ j β j = 1
其中,所述为信息系统的健康度,βj为每个子系统的权重,是第j个子系统的健康度。
5.如权利要求1-4任意一项所述的信息系统的健康分析方法,其特征在于,还包括:
步骤S3,基于所述信息系统的健康度与健康阈值的大小判断所述信息系统是否健康。
6.一种信息系统的健康分析系统,所述信息系统包括若干个子系统,每一个所述子系统包括若干个存在关联关系的服务组件,其特征在于,包括:
若干个子系统健康度装置,与每个子系统一一对应地连接,基于子系统的可用性值以及该子系统中所有服务组件的告警风险值和个数获得该子系统的健康度;以及
信息系统健康度装置,与所有所述子系统健康度装置连接,基于所有子系统的健康度获得信息系统的健康度。
7.如权利要求6所述的信息系统的健康分析系统,其特征在于,所述子系统健康度装置包括:
告警风险模块,与子系统中的所有服务组件连接,基于所述服务组件的不同告警等级的告警次数、告警严重系数以及监控组件的数量获得所述服务组件的告警风险值;
组件可用性模块,与每个服务组件中的所有监控组件连接,基于一定时间内的故障次数和检测次数获得所述监控组件的可用性值,对所有监控组件的可用性值进行连乘获得所述服务组件的可用性值;
子系统可用性模块,与所述组件可用性模块连接,基于所有监控组件的可用性值以及关联关系获得所述子系统的可用性值;以及
子系统健康度模块,与所述告警风险模块以及子系统可用性模块连接,基于子系统的可用性值以及该子系统中所有服务组件的告警风险值和个数获得子系统的健康度。
CN201611052509.6A 2016-11-24 2016-11-24 一种信息系统的健康分析方法和系统 Active CN106549831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611052509.6A CN106549831B (zh) 2016-11-24 2016-11-24 一种信息系统的健康分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611052509.6A CN106549831B (zh) 2016-11-24 2016-11-24 一种信息系统的健康分析方法和系统

Publications (2)

Publication Number Publication Date
CN106549831A true CN106549831A (zh) 2017-03-29
CN106549831B CN106549831B (zh) 2019-12-24

Family

ID=58395849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611052509.6A Active CN106549831B (zh) 2016-11-24 2016-11-24 一种信息系统的健康分析方法和系统

Country Status (1)

Country Link
CN (1) CN106549831B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109309575A (zh) * 2017-07-26 2019-02-05 贵州白山云科技股份有限公司 一种确定监控系统健康度的方法和装置
CN110890972A (zh) * 2018-09-07 2020-03-17 中国移动通信集团浙江有限公司 一种业务系统的健康度评估方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159581A (zh) * 2006-10-08 2008-04-09 中兴通讯股份有限公司 网管多等级告警的告警气泡表示方法
CN101277218A (zh) * 2008-05-04 2008-10-01 中兴通讯股份有限公司 一种网络告警的动态分析系统和方法
US8209702B1 (en) * 2007-09-27 2012-06-26 Emc Corporation Task execution using multiple pools of processing threads, each pool dedicated to execute different types of sub-tasks
CN103490925A (zh) * 2013-09-16 2014-01-01 国家电网公司 电力通信网性能状态实时评估方法与系统
CN103580934A (zh) * 2012-07-18 2014-02-12 深圳市腾讯计算机系统有限公司 一种云业务监测方法和装置
CN105635112A (zh) * 2015-12-18 2016-06-01 国家电网公司 信息系统安全性能的评估方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159581A (zh) * 2006-10-08 2008-04-09 中兴通讯股份有限公司 网管多等级告警的告警气泡表示方法
US8209702B1 (en) * 2007-09-27 2012-06-26 Emc Corporation Task execution using multiple pools of processing threads, each pool dedicated to execute different types of sub-tasks
CN101277218A (zh) * 2008-05-04 2008-10-01 中兴通讯股份有限公司 一种网络告警的动态分析系统和方法
CN103580934A (zh) * 2012-07-18 2014-02-12 深圳市腾讯计算机系统有限公司 一种云业务监测方法和装置
CN103490925A (zh) * 2013-09-16 2014-01-01 国家电网公司 电力通信网性能状态实时评估方法与系统
CN105635112A (zh) * 2015-12-18 2016-06-01 国家电网公司 信息系统安全性能的评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张乃禄: "概率评价法", 《安全评价技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109309575A (zh) * 2017-07-26 2019-02-05 贵州白山云科技股份有限公司 一种确定监控系统健康度的方法和装置
CN110890972A (zh) * 2018-09-07 2020-03-17 中国移动通信集团浙江有限公司 一种业务系统的健康度评估方法及装置

Also Published As

Publication number Publication date
CN106549831B (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
KR101856543B1 (ko) 인공지능 기반의 장애 예측 시스템
US9529659B2 (en) Fault detection apparatus, a fault detection method and a program recording medium
CN104268678B (zh) 一种以动态可靠性为基础的石化设备预防性维修方法
CN103616878B (zh) 烟草加工过程加料回路在线状态检测系统及检测方法
WO2016160910A1 (en) Advanced data cleansing system and method
CN110703214B (zh) 一种气象雷达状态评估和故障监测方法
CN103797468A (zh) 系统异常的自动化检测
CN110008096B (zh) 数据监测方法、装置、电子设备及计算机可读存储介质
CN102740112B (zh) 一种基于视频监控系统的设备轮巡的控制方法
CN104267346B (zh) 一种发电机励磁系统故障远程诊断方法
Qu et al. A CUSUM scheme for event monitoring
CN104677997B (zh) 一种变压器油色谱在线监测差异化预警方法
CN106156913A (zh) 用于飞机部附件的健康管理方法
CN108228412A (zh) 一种基于系统健康度监测系统故障及隐患的方法及装置
CN107426019A (zh) 网络故障确定方法、计算机设备及计算机可读存储介质
US20210232104A1 (en) Method and system for identifying and forecasting the development of faults in equipment
CN114239734B (zh) 一种分布式车载健康管理系统
CN106549831A (zh) 一种信息系统的健康分析方法和系统
CN114816917A (zh) 监测数据处理方法、装置、设备及存储介质
CN102932170B (zh) 网元负载不均检测处理方法、装置及其系统
CN117391675B (zh) 一种数据中心基础设施运维管理方法
CN106228248B (zh) 一种基于模糊fmea分析的系统自动故障诊断方法
CN113610338A (zh) 轨道交通信号系统安全风险评价和风险预警方法及装置
CN115994292A (zh) 一种电子设备健康评估装置
CN106656618A (zh) 基于通信量分析的通信铁塔传感器异常识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant