CN103580924A - 一种故障定位方法、装置及系统 - Google Patents

一种故障定位方法、装置及系统 Download PDF

Info

Publication number
CN103580924A
CN103580924A CN201310559348.XA CN201310559348A CN103580924A CN 103580924 A CN103580924 A CN 103580924A CN 201310559348 A CN201310559348 A CN 201310559348A CN 103580924 A CN103580924 A CN 103580924A
Authority
CN
China
Prior art keywords
fault location
server
fault
rule
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310559348.XA
Other languages
English (en)
Inventor
彭超
陈志武
薛宏春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Iron Steel Engineering Technology Group Automation Co ltd
Wuhan Iron and Steel Group Corp
Original Assignee
Wuhan Iron Steel Engineering Technology Group Automation Co ltd
Wuhan Iron and Steel Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Iron Steel Engineering Technology Group Automation Co ltd, Wuhan Iron and Steel Group Corp filed Critical Wuhan Iron Steel Engineering Technology Group Automation Co ltd
Priority to CN201310559348.XA priority Critical patent/CN103580924A/zh
Publication of CN103580924A publication Critical patent/CN103580924A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明实施例中提供了一种故障定位方法、装置及系统,通过向服务器发送监控请求报文,接收所述服务器发送的监控数据报文,所述监控数据报文中包括所述服务器的运行信息,根据故障定位规则,对所述服务器的运行信息进行分析,以对所述服务器进行故障定位。实现了服务器故障的有效定位,使得系统维护人员可以迅速有效的定位系统故障。

Description

一种故障定位方法、装置及系统
技术领域
本发明涉及计算机领域,尤其涉及一种故障定位方法、装置及系统。
背景技术
伴随计算机技术的发展,计算机系统复杂度不断提升,相应的对系统的运行管理也提出更改的要求,目前自动化的监控技术得到广泛应用,可以实时监控计算机系统的运行情况,以便及时发现故障,但是,由于计算机系统规模不断加大,监控参数不断增多,分析这些信息需要很强的专业性,系统运行维护人员根据监控数据表现的状态无法及时准确的定位系统发生的故障,需要对每种可能的问题进行排查,随着系统复杂度的提高,排查的工作量将不断加大。
发明内容
本发明实施例中提供一种故障定位方法、装置及系统,解决系统故障频发,故障无法及时有效定位的问题。
本发明实施例的目的是通过以下技术方案实现的:
一种故障定位方法,包括:
向服务器发送监控请求报文;
接收所述服务器发送的监控数据报文,所述监控数据报文中包括所述服务器的运行信息;
根据故障定位规则,对所述服务器的运行信息进行分析,以对所述服务器进行故障定位。
一种故障定位装置,包括:
发送模块,用于向服务器发送监控请求报文;
接收模块,用于接收所述服务器发送的监控数据报文,所述监控数据报文中包括所述服务器的运行信息;
故障定位模块,用于根据故障定位规则,对所述接收模块接收的运行信息进行分析,以对所述服务器进行故障定位。
一种故障定位系统,所述系统包括服务器和故障定位装置,
其中,所述故障定位装置用于向服务器发送监控请求报文;接收所述服务器发送的监控数据报文,所述监控数据报文中包括所述服务器的运行信息;根据故障定位规则,对所述服务器的运行信息进行分析,以对所述服务器进行故障定位;
所述服务器用于,接收来自所述故障定位装置的所述监控请求报文;向所述故障定位装置发送所述监控数据报文。
通过本发明实施例中提供了一种故障定位方法、装置及系统,通过向服务器发送监控请求报文,接收所述服务器发送的监控数据报文,所述监控数据报文中包括所述服务器的运行信息,根据故障定位规则,对所述服务器的运行信息进行分析,以对所述服务器进行故障定位。实现了服务器故障的有效定位,使得系统维护人员可以迅速有效的定位系统故障。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中提供的一种服务器运行监控系统的网络结构图;
图2是本发明实施例中提供的一种故障定位方法的流程图;
图3是本发明实施例中提供的另一种故障定位方法的流程图;
图4是本发明实施例中提供的一种故障定位装置的示意图;
图5是本发明实施例中提供的一种监控系统的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例中的一种服务器运行监控系统的网络结构图,如图1所示,监控主机100,该监控主机上安装了监控端服务程序,提供了监控管理、维护、数据采集和数据展现功能。服务器110、服务器120和服务器130为被监控的服务器,其上安装了被监控服务程序,可以为一种监控代理,负责采集整理,并提供监控数据。
实施例一
本发明实施例一提供了一种故障定位方法,以监控主机100为例,如图2所示,该方法包括如下步骤:
步骤201、发送监控请求报文;
其中,监控主机100通过向服务器110、服务器120和服务器130发送监控请求报文,以触发服务器的监控服务程序。该请求报文可以采用标准的网络管理的协议,例如:RPC、SNMP、SYSLOG和脚本等,或者,用户自定义的协议报文。为了能指定监控的对象,例如指定监控服务器的内存使用率,可以在请求报文中携带监控参数信息,该监控参数信息用于指示需要监控的参数。另外,为减轻监控主机的运行负担,可以预设一定时间,向服务器发送监控请求报文。
步骤202、接收所述服务器发送的监控数据报文,所述监控数据报文中包括所述服务器的运行信息;
其中,监控主机可接收到服务器110、服务器120和服务器130采集的监控数据报文,该监控数据报文中包括了服务器的运行信息,例如:CPU占用率,温度,内存使用率和运行进程数等。
步骤203、根据故障定位规则,对所述服务器的运行信息进行分析,以对所述服务器进行故障定位。
其中,故障定位规则属于一种对服务器的运行信息进行分析,而得出故障结论的规则,例如:监控数据显示JAVA虚拟机内存使用率持续大于95%,JAVA虚拟机垃圾回收操作持续出现间隔时间少于5秒,执行时间大于10秒。根据故障定位规则对该数据进行分析,可以定位服务器发生出dump的故障(指JAVA虚拟机出现宕机前的一种状态),而现有技术中需要非常有经验的系统运维人员,通过排查多种可能,才能定位系统故障为服务器发生出dump故障,如不及时定位故障并处理,服务器中的JAVA虚拟机将可能因为死锁、内存溢出、应用程序错误等原因产生dump文件而宕机,进而影响用户使用。
通过本发明实施例中提供的一种故障定位方法,通过向服务器发送监控请求报文,接收所述服务器发送的监控数据报文,所述监控数据报文中包括所述服务器的运行信息,根据故障定位规则,对所述服务器的运行信息进行分析,以对所述服务器进行故障定位。实现了服务器故障的有效定位,使得系统维护人员可以迅速有效的定位系统故障。
实施例二
本实施例在实施例一的基础上,增加了故障定位规则的生成步骤。以监控主机100为例,如图3所示,该方法包括如下步骤:
步骤301、生成故障定位规则;
其中,生成故障定位规则有两种方式,这两种方式可以结合使用,也可以单独使用。
第一种:将历史监控数据导入所述自组织神经网络模型,以使所述自组织神经网络模型进行自学习,生成所述故障定位规则,例如:故障定位规则可以通过自组织神经网络模型生成,其中,自组织神经网络模型又称为自组织特征映射(Self-Organization Feature Mapping,SOFM)模型,或kohonen模型,该模型可根据一定的训练样本(即已知的输入和输出关系),改变模型内部结构使模型特性逼近训练样本(即自学习、自组织和自适应的概念),SOFM是一种无监督的自学习、自组织人工神经网络。它利用脑神经的空间结构映射外部复杂数据结构。Kohonen模型是用一个像大脑皮层那样的二维平面网络来表征输入信息,通过学习算法,使相邻近的节点表征出输人的不同类别特性,称之为特征映射。通过反复地将输入图样和存储在每一个节点上的矢量进行比较,如输入与节点矢量相匹配,则用该节点处的映射区域来优先表征该类训练数据的特征。实际操作中将历史一段时间的监控数据以及历史的故障记录数据导入SOFM模型中,经过自学习,得到了针对该系统的SOFM模型,基于该SOFM模型即可确定故障定位规则;
第二种:将故障定位经验规则导入所述自组织神经网络模型,以生成所述故障定位规则。例如:将日常经验中总结的故障定位方法,总结为故障定位经验规则,将这些规则直接导入所述自组织神经网络模型,省略了自学习过程。
步骤302、向服务器发送监控请求报文;
步骤303、接收所述服务器发送的监控数据报文,所述监控数据报文中包括所述服务器的运行信息;
步骤304、根据故障定位规则,对所述服务器的运行信息进行分析,以对所述服务器进行故障定位。
为了不断提升故障定位规则的准确性,步骤301的可以每隔一定时间操作一次,以更新故障定位规则。
通过本发明实施例中提供的另一种故障定位方法,通过生成故障定位规则,向服务器发送监控请求报文,接收所述服务器发送的监控数据报文,所述监控数据报文中包括所述服务器的运行信息,根据故障定位规则,对所述服务器的运行信息进行分析,以对所述服务器进行故障定位。实现了服务器故障的有效定位,使得系统维护人员可以迅速有效的定位系统故障,同时,通过采用自组织特征映射方法(SOFM)模型生成的故障定位规则,可自动地对监控数据变化的进行分析,可以判断不同的系统运行状态,及时进行故障定位,排除了安全隐患。
实施例三
本发明实施例三提供了一种故障定位装置,如图4所示,该装置包括:
发送模块410,用于向服务器发送监控请求报文;
接收模块420,用于接收所述服务器发送的监控数据报文,所述监控数据报文中包括所述服务器的运行信息;
故障定位模块430,用于根据故障定位规则,对所述接收模块接收的运行信息进行分析,以对所述服务器进行故障定位。
其中,所述装置还包括:
定位规则生成模块440,用于通过自组织神经网络模型生成所述故障定位规则。该定位规则生成模块440具体用于将历史监控数据导入所述自组织神经网络模型,以使所述自组织神经网络模型进行自学习,生成所述故障定位规则;和/或,将故障定位经验规则导入所述自组织神经网络模型,以生成所述故障定位规则。
实施例四
本发明实施例四提供了一种故障定位系统,如图5所示,该系统包括:包括故障定位装置510和服务器520,
其中,所述故障定位装置510用于向服务器发送监控请求报文;接收所述服务器发送的监控数据报文,所述监控数据报文中包括所述服务器的运行信息;根据故障定位规则,对所述服务器的运行信息进行分析,以对所述服务器进行故障定位;
所述服务器520用于,接收来自所述故障定位装置510的所述监控请求报文;向所述故障定位装置发送所述监控数据报文。
其中,所述故障定位装置510通过自组织神经网络模型生成所述故障定位规则。该故障定位装置510通过自组织神经网络模型生成所述故障定位规则,包括:所述故障定位装置将历史监控数据导入所述自组织神经网络模型,以使所述自组织神经网络模型进行自学习,以生成所述故障定位规则;和/或,所述故障定位装置将故障定位经验规则导入所述自组织神经网络模型,以生成所述故障定位规则。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种故障定位方法,其特征在于,包括:
向服务器发送监控请求报文;
接收所述服务器发送的监控数据报文,所述监控数据报文中包括所述服务器的运行信息;
根据故障定位规则,对所述服务器的运行信息进行分析,以对所述服务器进行故障定位。
2.根据权利要求1所述的方法,其特征在于,通过自组织神经网络模型生成所述故障定位规则。
3.根据权利要求2所述的方法,其特征在于,所述通过自组织神经网络模型生成所述故障定位规则,包括:
将历史监控数据导入所述自组织神经网络模型,以使所述自组织神经网络模型进行自学习,生成所述故障定位规则;
和/或,
将故障定位经验规则导入所述自组织神经网络模型,以生成所述故障定位规则。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述监控请求报文中包括监控参数信息,所述监控参数信息用于指示需要监控的参数。
5.一种故障定位装置,其特征在于,包括:
发送模块,用于向服务器发送监控请求报文;
接收模块,用于接收所述服务器发送的监控数据报文,所述监控数据报文中包括所述服务器的运行信息;
故障定位模块,用于根据故障定位规则,对所述接收模块接收的运行信息进行分析,以对所述服务器进行故障定位。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
定位规则生成模块,用于通过自组织神经网络模型生成所述故障定位规则。
7.根据权利要求5或6所述的装置,其特征在于,所述定位规则生成模块具体用于将历史监控数据导入所述自组织神经网络模型,以使所述自组织神经网络模型进行自学习,生成所述故障定位规则;和/或,将故障定位经验规则导入所述自组织神经网络模型,以生成所述故障定位规则。
8.一种故障定位系统,其特征在于,所述系统包括服务器和故障定位装置,
其中,所述故障定位装置用于向服务器发送监控请求报文;接收所述服务器发送的监控数据报文,所述监控数据报文中包括所述服务器的运行信息;根据故障定位规则,对所述服务器的运行信息进行分析,以对所述服务器进行故障定位;
所述服务器用于,接收来自所述故障定位装置的所述监控请求报文;向所述故障定位装置发送所述监控数据报文。
9.根据权利要求8所述的系统,其特征在于,所述故障定位装置通过自组织神经网络模型生成所述故障定位规则。
10.根据权利要求9所述的系统,其特征在于,所述故障定位装置通过自组织神经网络模型生成所述故障定位规则,包括:
所述故障定位装置将历史监控数据导入所述自组织神经网络模型,以使所述自组织神经网络模型进行自学习,以生成所述故障定位规则;和/或,所述故障定位装置将故障定位经验规则导入所述自组织神经网络模型,以生成所述故障定位规则。
CN201310559348.XA 2013-11-12 2013-11-12 一种故障定位方法、装置及系统 Pending CN103580924A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310559348.XA CN103580924A (zh) 2013-11-12 2013-11-12 一种故障定位方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310559348.XA CN103580924A (zh) 2013-11-12 2013-11-12 一种故障定位方法、装置及系统

Publications (1)

Publication Number Publication Date
CN103580924A true CN103580924A (zh) 2014-02-12

Family

ID=50051905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310559348.XA Pending CN103580924A (zh) 2013-11-12 2013-11-12 一种故障定位方法、装置及系统

Country Status (1)

Country Link
CN (1) CN103580924A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103812699A (zh) * 2014-02-17 2014-05-21 无锡华云数据技术服务有限公司 基于云计算的监控管理系统
CN104486115A (zh) * 2014-12-11 2015-04-01 北京百度网讯科技有限公司 定位故障的方法及系统
CN104991853A (zh) * 2015-07-22 2015-10-21 北京京东尚科信息技术有限公司 一种输出预警信息的方法和装置
CN108173671A (zh) * 2016-12-07 2018-06-15 博彦科技股份有限公司 运维方法、装置及系统
CN109032827A (zh) * 2018-07-03 2018-12-18 郑州云海信息技术有限公司 一种跟踪导致内存溢出异常的测试系统及方法
CN110445650A (zh) * 2019-08-07 2019-11-12 中国联合网络通信集团有限公司 检测报警方法、设备及服务器
CN111600759A (zh) * 2020-05-22 2020-08-28 中国工商银行股份有限公司 拓扑结构中死锁故障的定位方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1583280A1 (en) * 2004-03-30 2005-10-05 Ricoh Co., Ltd. Network communication device, method of maintenance of network communication device, program, recording medium, and maintenance system
CN1815985A (zh) * 2005-01-31 2006-08-09 华为技术有限公司 一种宽带网络系统
CN102130783A (zh) * 2011-01-24 2011-07-20 浪潮通信信息系统有限公司 神经网络的智能化告警监控方法
CN102447570A (zh) * 2010-09-30 2012-05-09 中国移动通信集团福建有限公司 一种基于健康度分析的监控装置及方法
CN103001811A (zh) * 2012-12-31 2013-03-27 北京启明星辰信息技术股份有限公司 故障定位方法和装置
CN103051956A (zh) * 2012-12-24 2013-04-17 乐视致新电子科技(天津)有限公司 一种实现日志上报和故障诊断的机顶盒及其方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1583280A1 (en) * 2004-03-30 2005-10-05 Ricoh Co., Ltd. Network communication device, method of maintenance of network communication device, program, recording medium, and maintenance system
US20060095566A1 (en) * 2004-03-30 2006-05-04 Yoichi Kanai Network communication device, method of maintenance of network communication device, program, recording medium, and maintenance system
CN1815985A (zh) * 2005-01-31 2006-08-09 华为技术有限公司 一种宽带网络系统
CN102447570A (zh) * 2010-09-30 2012-05-09 中国移动通信集团福建有限公司 一种基于健康度分析的监控装置及方法
CN102130783A (zh) * 2011-01-24 2011-07-20 浪潮通信信息系统有限公司 神经网络的智能化告警监控方法
CN103051956A (zh) * 2012-12-24 2013-04-17 乐视致新电子科技(天津)有限公司 一种实现日志上报和故障诊断的机顶盒及其方法
CN103001811A (zh) * 2012-12-31 2013-03-27 北京启明星辰信息技术股份有限公司 故障定位方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103812699A (zh) * 2014-02-17 2014-05-21 无锡华云数据技术服务有限公司 基于云计算的监控管理系统
CN104486115A (zh) * 2014-12-11 2015-04-01 北京百度网讯科技有限公司 定位故障的方法及系统
CN104486115B (zh) * 2014-12-11 2018-09-28 北京百度网讯科技有限公司 定位故障的方法及系统
CN104991853A (zh) * 2015-07-22 2015-10-21 北京京东尚科信息技术有限公司 一种输出预警信息的方法和装置
CN104991853B (zh) * 2015-07-22 2018-07-06 北京京东尚科信息技术有限公司 一种输出预警信息的方法和装置
CN108173671A (zh) * 2016-12-07 2018-06-15 博彦科技股份有限公司 运维方法、装置及系统
CN109032827A (zh) * 2018-07-03 2018-12-18 郑州云海信息技术有限公司 一种跟踪导致内存溢出异常的测试系统及方法
CN110445650A (zh) * 2019-08-07 2019-11-12 中国联合网络通信集团有限公司 检测报警方法、设备及服务器
CN110445650B (zh) * 2019-08-07 2022-06-10 中国联合网络通信集团有限公司 检测报警方法、设备及服务器
CN111600759A (zh) * 2020-05-22 2020-08-28 中国工商银行股份有限公司 拓扑结构中死锁故障的定位方法和装置

Similar Documents

Publication Publication Date Title
CN103580924A (zh) 一种故障定位方法、装置及系统
Wen et al. Fog orchestration for internet of things services
CN104022904B (zh) 分布式机房it设备统一管理平台
CN104025549B (zh) 与服务器事务延迟信息相关的技术
CN103812699A (zh) 基于云计算的监控管理系统
CN109144813B (zh) 一种云计算系统服务器节点故障监控系统及方法
CN102739802A (zh) 面向业务应用的it集中运维分析系统
CN109194543A (zh) 数据采集方法和装置
Kavulya et al. Failure diagnosis of complex systems
CN106921526A (zh) 智慧校园网络运维系统
CN109462490B (zh) 视频监控系统及故障分析方法
JP7267363B2 (ja) 交通流監視測定システムのテスト方法、装置及び機器
CN112994972B (zh) 一种分布式探针监测平台
Becker et al. Towards aiops in edge computing environments
CN107168844B (zh) 一种性能监控的方法及装置
CN106304136A (zh) 获取网络状态信息的方法、系统、控制器和模拟移动设备
Bai et al. Resilience-driven quantitative analysis of vehicle platooning service
CN115080363B (zh) 一种基于业务日志的系统容量评估方法及装置
CN106649034A (zh) 一种可视化智能运维方法及平台
CN101217369B (zh) 一种网络拓扑中更新用户访问权限的方法及设备
CN107948001B (zh) 一种船舶制造车间工业网络智能监控系统及方法
CN103327071A (zh) 云计算网络智能监控模型数据处理分散分载方法及其系统
Rathnayake et al. A realtime monitoring platform for workflow subroutines
Roman et al. Overseer: A multi robot monitoring infrastructure
CN114185736B (zh) 一种基于主动式数据的异常监测方法、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140212

RJ01 Rejection of invention patent application after publication