CN106649043B - 一种运维系统故障自动诊断方法及系统 - Google Patents

一种运维系统故障自动诊断方法及系统 Download PDF

Info

Publication number
CN106649043B
CN106649043B CN201611236325.5A CN201611236325A CN106649043B CN 106649043 B CN106649043 B CN 106649043B CN 201611236325 A CN201611236325 A CN 201611236325A CN 106649043 B CN106649043 B CN 106649043B
Authority
CN
China
Prior art keywords
interface program
unit
maintenance system
relevant parameters
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611236325.5A
Other languages
English (en)
Other versions
CN106649043A (zh
Inventor
韩振华
曾尔阳
胡卓毅
戴斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen New Base Point Intelligence Co Ltd
Original Assignee
Shenzhen New Base Point Intelligence Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen New Base Point Intelligence Co Ltd filed Critical Shenzhen New Base Point Intelligence Co Ltd
Priority to CN201611236325.5A priority Critical patent/CN106649043B/zh
Publication of CN106649043A publication Critical patent/CN106649043A/zh
Application granted granted Critical
Publication of CN106649043B publication Critical patent/CN106649043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Selective Calling Equipment (AREA)

Abstract

本发明涉及一种运维系统故障自动诊断方法及系统,包括如下步骤:步骤S1,获得运维系统正常运行的相关参数的运行信息;步骤S2,建立运维系统运行故障时相关参数运行异常的判断依据;步骤S3,采集运维系统运行中相关参数的运行信息;步骤S4,对运维系统运行故障进行故障识别及关闭相关程序。本发明提供的运维系统故障自动诊断方法及系统,通过对运维系统运行中可能存在的接口程序通讯断开、接口程序卡死、接口程序报错的异常状态进行充分的检测,3种检测方式任一检测出故障信息,即关闭接口程序,再重启接口程序,以保证系统的正常运行。

Description

一种运维系统故障自动诊断方法及系统
技术领域
本发明属于系统运营维护技术领域,尤其涉及一种运维系统故障自动诊断方法及系统。
背景技术
有效的运维系统应能充分了解业务资源的使用状况,及时发现可能导致系统故障的隐患,是实现系统运营保障的关键。针对现有的运维系统在运行过程中接口程序产生未知的故障,不能自行修复的错误导致接口卡死、崩溃等导致系统无法正常获取数据而无法正常运行的问题。现有系统的检测办法是,采集服务检测接口程序和采集服务之间的标准通讯协议的连接状态。但此方式的缺点是如果程序卡死或者发生错误的时候无法获取反馈状态,这样就无法准确判断程序的状态,本方法将解决在标准的通讯协议无法检测程序状态的情况下也可以检测接口程序运行的状态。
发明内容
本发明的目的是提供一种运维系统故障自动诊断方法及系统,即在多种检测并行方式并用的基础上,对运维系统运行故障进行故障识别及修复,以保证接口程序的正常运行。
为了解决上述技术问题,本发明提供了一种运维系统故障自动诊断方法,包括如下步骤:步骤S1,获得运维系统正常运行的相关参数的运行信息;步骤S2,建立运维系统运行故障时相关参数运行异常的判断依据;步骤S3,采集运维系统运行中相关参数的运行信息;步骤S4,对运维系统运行故障进行故障识别及关闭相关程序。
进一步可选的,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态,以及操作系统的系统事件。
进一步,所述步骤S3包括并行采用的3种相关参数的采集方式,包括;采用定时轮询的方式,采集被监测的接口程序与采集服务之间的通讯协议的连接状态,获取接口程序的通讯是否断开的信息;实时采集被监测的接口程序的内存使用状态,以设定的时间为单位获取当前的内存使用量,将每一设定的时间的内存使用量和上一设定的时间的内存使用量进行对比,以获取接口程序是否卡死的信息,如果在设定的时间内存使用量未有变动,则证明接口程序处于卡死状态;采用定时轮询的方式,采集操作系统的系统事件,以获取接口程序是否存在报错事件的信息。
进一步可选的,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的CPU利用率,以及操作系统的系统事件。
进一步,所述步骤S3包括并行采用的3种相关参数的采集方式,包括:采用定时轮询的方式,采集被监测的接口程序与采集服务之间的通讯协议的连接状态,获取接口程序的通讯是否断开的信息;实时采集被监测的接口程序的CPU利用率,以设定的时间为单位获取当前的CPU利用率,将每一设定的时间的CPU利用率和上一设定的时间的CPU利用率进行对比,以获取接口程序是否卡死的信息,如果在设定的时间CPU利用率未有变动,则证明接口程序处于卡死状态;采用定时轮询的方式,采集操作系统的系统事件,以获取接口程序是否存在报错事件的信息。
进一步,所述定时轮询的流程包括定时读取任务数据和调用指令处理流程进行任务处理。
又一方面,本发明还提供了一种运维系统故障自动诊断系统,包括:所述运维系统故障自动诊断系统采用所述的运维系统故障自动诊断方法,包括:核心处理单元,与核心处理单元相连的设置单元、监听单元、判断单元和报警单元;其中所述设置单元,用于设置要监听的运维系统正常运行的相关参数的运行信息;所述监听单元,用于获取所述的运维系统运行的相关参数的运行信息;所述判断单元,用于根据监听单元获取的运维系统运行的相关参数的运行信息,判断各相关参数的运行是否正常;以及报警单元,当判断单元判断有相关参数的运行异常时发出报警信号;程序启动单元,用于当运维系统运行状态异常时,重启接口程序;即所述核心处理单元接收所述监听单元获取的运维系统运行的相关参数的运行信息后发送给判断单元以判断各相关参数的运行是否正常,判断单元将判断结果发送给核心处理单元,当判断单元判断有相关参数的运行异常时,核心处理单元对运行异常进行故障识别,并将识别的故障信号发送至报警单元,同时核心处理单元控制程序启动单元进行接口程序的重启。
进一步,所述核心处理单元还适于通过无线模块将报警信息发送至工作人员的智能终端。
进一步,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态和/或CPU利用率,以及操作系统的系统事件。
进一步,所述运维系统故障自动诊断系统还包括一轮询单元,用于根据监听策略启动定时器,并在计时结束时通知监听单元抓取数据。
本发明的有益效果是,本发明提供的运维系统故障自动诊断方法及系统,通过对运维系统运行中的相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态和/或CPU利用率,以及操作系统的系统事件的3种并行方式的检测,对运维系统运行中可能存在的接口程序通讯断开、接口程序卡死、接口程序报错的异常状态进行充分的检测,3种检测方式任一检测出故障信息,即关闭接口程序,再重启接口程序,以保证系统的正常运行。本运维系统故障自动诊断方法及系统较现有的只检测接口程序的通讯状态的方式(接口程序通讯断开),增加了接口程序卡死、接口程序报错两种检测方式,对于运维系统运行的中的故障诊断更加全面精确,对确保运维系统的正常运行具有更广泛的应用前景。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本发明的运维系统故障自动诊断方法的原理图;
图2为本发明的运维系统故障自动诊断方法的流程图;
图3为本发明的运维系统故障自动诊断系统的结构框图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
实施例1
如图1和图2所示,本发明的一种运维系统故障自动诊断方法,包括如下步骤:步骤S1,获得运维系统正常运行的相关参数的运行信息;步骤S2,建立运维系统运行故障时相关参数运行异常的判断依据;步骤S3,采集运维系统运行中相关参数的运行信息;步骤S4,对运维系统运行故障进行故障识别及关闭相关程序。
具体的,所述相关参数为接口程序。接口程序是一种通过标准的通讯协议,和硬件设备进行通讯获取智能设备的运行信息,和采集服务进行交互的程序。
可选的,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态,以及操作系统的系统事件。其中,所述对操作系统的系统事件进行分析抓取接口程序的报错事件。
所述步骤S3包括并行采用的3种相关参数的采集方式,包括;采用定时轮询的方式,采集被监测的接口程序与采集服务之间的通讯协议的连接状态,获取接口程序的通讯是否断开的信息;实时采集被监测的接口程序的内存使用状态,以设定的时间为单位获取当前的内存使用量,将每一设定的时间的内存使用量和上一设定的时间的内存使用量进行对比,以获取接口程序是否卡死的信息,如果在设定的时间内存使用量未有变动,则证明接口程序处于卡死状态;采用定时轮询的方式,采集操作系统的系统事件,以获取接口程序是否存在报错事件的信息。
具体的,实时采集被监测的接口程序的内存使用状态,以秒为单位获取当前的内存使用量,和上一秒的内存使用量进行对比,如果内存使用量未有变动,则说明接口程序处于卡死状态。
可选的,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的CPU利用率,以及操作系统的系统事件。
所述步骤S3包括并行采用的3种相关参数的采集方式,包括:采用定时轮询的方式,采集被监测的接口程序与采集服务之间的通讯协议的连接状态,获取接口程序的通讯是否断开的信息;实时采集被监测的接口程序的CPU利用率,以设定的时间为单位获取当前的CPU利用率,将每一设定的时间的CPU利用率和上一设定的时间的CPU利用率进行对比,以获取接口程序是否卡死的信息,如果在设定的时间CPU利用率未有变动,则证明接口程序处于卡死状态;采用定时轮询的方式,采集操作系统的系统事件,以获取接口程序是否存在报错事件的信息。
所述定时轮询的流程包括定时读取任务数据和调用指令处理流程进行任务处理。
实施例2
如图3所示,在实施例1基础上,本发明还提供了一种运维系统故障自动诊断系统,包括:所述运维系统故障自动诊断系统采用所述的运维系统故障自动诊断方法,包括:核心处理单元,与核心处理单元相连的设置单元、监听单元、判断单元和报警单元;其中所述设置单元,用于设置要监听的运维系统正常运行的相关参数的运行信息;所述监听单元,用于获取所述的运维系统运行的相关参数的运行信息;所述判断单元,用于根据监听单元获取的运维系统运行的相关参数的运行信息,判断各相关参数的运行是否正常;以及报警单元,当判断单元判断有相关参数的运行异常时发出报警信号;程序启动单元,用于当运维系统运行状态异常时,重启接口程序;即所述核心处理单元接收所述监听单元获取的运维系统运行的相关参数的运行信息后发送给判断单元以判断各相关参数的运行是否正常,判断单元将判断结果发送给核心处理单元,当判断单元判断有相关参数的运行异常时,核心处理单元对运行异常进行故障识别,并将识别的故障信号发送至报警单元,同时核心处理单元控制程序启动单元进行接口程序的重启
所述核心处理单元还适于通过无线模块将报警信息发送至工作人员的智能终端。具体的,所述智能终端采用例如但不限于智能手机和平板电脑中的一种或多种。通过将报警信号发送至工作人员的智能终端,便于工作人员及时掌握运维系统的运行状况,对于异常运行若系统没有及时重启,可以选择人工模式进行修复,确保运维系统的正常运行。
所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态和/或CPU利用率,以及操作系统的系统事件。
所述运维系统故障自动诊断系统还包括一轮询单元,用于根据监听策略启动定时器,并在计时结束时通知监听单元抓取数据。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (9)

1.一种运维系统故障自动诊断方法,其特征在于,包括如下步骤:
步骤S1,获得运维系统正常运行的相关参数的运行信息;
步骤S2,建立运维系统运行故障时相关参数运行异常的判断依据;
步骤S3,采集运维系统运行中相关参数的运行信息;
步骤S4,对运维系统运行故障进行故障识别及关闭相关程序;
其中,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态,以及操作系统的系统事件。
2.根据权利要求1所述的运维系统故障自动诊断方法,其特征在于,所述步骤S3包括并行采用的3种相关参数的采集方式,包括:
采用定时轮询的方式,采集被监测的接口程序与采集服务之间的通讯协议的连接状态,获取接口程序的通讯是否断开的信息;
实时采集被监测的接口程序的内存使用状态,以设定的时间为单位获取当前的内存使用量,将每一设定的时间的内存使用量和上一设定的时间的内存使用量进行对比,以获取接口程序是否卡死的信息;
采用定时轮询的方式,采集操作系统的系统事件,以获取接口程序是否存在报错事件的信息。
3.根据权利要求1所述的运维系统故障自动诊断方法,其特征在于,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的CPU利用率,以及操作系统的系统事件。
4.根据权利要求3所述的运维系统故障自动诊断方法,其特征在于,所述步骤S3包括并行采用的3种相关参数的采集方式,包括:
采用定时轮询的方式,采集被监测的接口程序与采集服务之间的通讯协议的连接状态,获取接口程序的通讯是否断开的信息;
实时采集被监测的接口程序的CPU利用率,以设定的时间为单位获取当前的CPU利用率,将每一设定的时间的CPU利用率和上一设定的时间的CPU利用率进行对比,以获取接口程序是否卡死的信息;
采用定时轮询的方式,采集操作系统的系统事件,以获取接口程序是否存在报错事件的信息。
5.根据权利要求2或4所述的运维系统故障自动诊断方法,其特征在于,所述定时轮询的流程包括定时读取任务数据和调用指令处理流程进行任务处理。
6.一种运维系统故障自动诊断系统,其特征在于,所述运维系统故障自动诊断系统采用权利要求1-5任一所述的运维系统故障自动诊断方法,包括:核心处理单元,与核心处理单元相连的设置单元、监听单元、判断单元和报警单元;其中
所述设置单元,用于设置要监听的运维系统正常运行的相关参数的运行信息;
所述监听单元,用于获取所述的运维系统运行的相关参数的运行信息;
所述判断单元,用于根据监听单元获取的运维系统运行的相关参数的运行信息,判断各相关参数的运行是否正常;以及
报警单元,当判断单元判断有相关参数的运行异常时发出报警信号;
程序启动单元,用于当运维系统运行状态异常时,重启接口程序;即
所述核心处理单元接收所述监听单元获取的运维系统运行的相关参数的运行信息后发送给判断单元以判断各相关参数的运行是否正常,判断单元将判断结果发送给核心处理单元,当判断单元判断有相关参数的运行异常时,核心处理单元对运行异常进行故障识别,并将识别的故障信号发送至报警单元,同时核心处理单元控制程序启动单元进行接口程序的重启。
7.根据权利要求6所述的运维系统故障自动诊断系统,其特征在于,所述核心处理单元还适于通过无线模块将报警信息发送至工作人员的智能终端。
8.根据权利要求7所述的运维系统故障自动诊断系统,其特征在于,所述相关参数包括被监测的接口程序与采集服务之间的通讯协议连接的状态、被监测的接口程序的内存使用状态和/或CPU利用率,以及操作系统的系统事件。
9.根据权利要求8所述的运维系统故障自动诊断系统,其特征在于,所述运维系统故障自动诊断系统还包括一轮询单元,用于根据监听策略启动定时器,并在计时结束时通知监听单元抓取数据。
CN201611236325.5A 2016-12-28 2016-12-28 一种运维系统故障自动诊断方法及系统 Active CN106649043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611236325.5A CN106649043B (zh) 2016-12-28 2016-12-28 一种运维系统故障自动诊断方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611236325.5A CN106649043B (zh) 2016-12-28 2016-12-28 一种运维系统故障自动诊断方法及系统

Publications (2)

Publication Number Publication Date
CN106649043A CN106649043A (zh) 2017-05-10
CN106649043B true CN106649043B (zh) 2020-03-27

Family

ID=58833147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611236325.5A Active CN106649043B (zh) 2016-12-28 2016-12-28 一种运维系统故障自动诊断方法及系统

Country Status (1)

Country Link
CN (1) CN106649043B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577546B (zh) * 2017-07-21 2021-02-05 北京奇艺世纪科技有限公司 一种信息处理方法、装置及电子设备
CN110389872B (zh) * 2018-04-16 2022-02-11 腾讯科技(深圳)有限公司 一种数据采集方法、装置以及相关设备
WO2020107203A1 (zh) * 2018-11-27 2020-06-04 刘馥祎 运算设备维护方法及装置、存储介质和程序产品
CN110266549A (zh) * 2019-07-12 2019-09-20 上海纳宇电气有限公司 一种子系统故障监测装置及方法
CN112333031A (zh) * 2020-11-24 2021-02-05 中国农业银行股份有限公司安徽省分行 监测操作系统连接状态的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101043522A (zh) * 2006-03-22 2007-09-26 腾讯科技(深圳)有限公司 一种基于Web服务器的通信方法及系统
CN101183321A (zh) * 2007-12-14 2008-05-21 中国人民解放军国防科学技术大学 一种用于并行计算机系统的带外诊断测试接口及测试方法
CN102609346A (zh) * 2012-01-16 2012-07-25 深信服网络科技(深圳)有限公司 基于业务操作的监控方法和装置
RU131512U1 (ru) * 2013-01-09 2013-08-20 Федеральное государственное унитарное предприятие "Научно-исследовательский институт специальных информационно-измерительных систем" Автоматизированная система контроля цифровых устройств
CN103412805A (zh) * 2013-07-31 2013-11-27 交通银行股份有限公司 一种it故障源诊断方法及系统
CN106201835A (zh) * 2016-07-14 2016-12-07 浪潮软件股份有限公司 一种预警自动管理的实现方法置的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101043522A (zh) * 2006-03-22 2007-09-26 腾讯科技(深圳)有限公司 一种基于Web服务器的通信方法及系统
CN101183321A (zh) * 2007-12-14 2008-05-21 中国人民解放军国防科学技术大学 一种用于并行计算机系统的带外诊断测试接口及测试方法
CN102609346A (zh) * 2012-01-16 2012-07-25 深信服网络科技(深圳)有限公司 基于业务操作的监控方法和装置
RU131512U1 (ru) * 2013-01-09 2013-08-20 Федеральное государственное унитарное предприятие "Научно-исследовательский институт специальных информационно-измерительных систем" Автоматизированная система контроля цифровых устройств
CN103412805A (zh) * 2013-07-31 2013-11-27 交通银行股份有限公司 一种it故障源诊断方法及系统
CN106201835A (zh) * 2016-07-14 2016-12-07 浪潮软件股份有限公司 一种预警自动管理的实现方法置的方法

Also Published As

Publication number Publication date
CN106649043A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN106649043B (zh) 一种运维系统故障自动诊断方法及系统
CN102158527B (zh) 家用电器维护系统及具有自检功能的家用电器
CN106792864B (zh) 网元状态的处理方法及装置
US11132892B1 (en) Abberation detection technology
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN111245648A (zh) 一种云手机故障告警与自动恢复的方法
CN103034802B (zh) 一种基于智能规则匹配的自动巡检系统及方法
CN110996060A (zh) 一种工业自动化智能联动系统及方法
CN109733238B (zh) 故障检测方法、装置、存储介质及处理器
CN106375150A (zh) 服务器的断开控制方法及装置
CN111191400A (zh) 基于用户报障数据的车辆零部件寿命预测方法及系统
CN110049317A (zh) 一种视频监控系统的在线故障检测方法、系统和电子设备
CN105630647A (zh) 一种设备检测方法及检测设备
CN105262622A (zh) 一种路由器的优化和诊断的方法及系统
CN114543982A (zh) 设备的振动检测方法、装置、振动检测设备及存储介质
CN106412016A (zh) 服务器的连接控制方法及装置
CN112816933A (zh) 一种电能表终端的维护诊断方法和系统
CN112532433A (zh) 一种基于ping和电流特征的通用网络设备故障分析方法
CN115766402B (zh) 服务器故障根因的过滤方法和装置、存储介质及电子装置
CN116133021A (zh) 基于linux板卡的无线网卡自管理流程
CN110294382A (zh) 基于电梯外召板的故障处理方法及相关设备
CN116317127A (zh) 一种基于保信主子站的二次设备故障识别方法
CN111402454A (zh) 智能锁与环境参数关联的方法及装置
CN113098698A (zh) 一种通讯恢复方法、设备及存储介质、通讯断传重启器
CN105320615A (zh) 数据存储方法和数据存储装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant