CN108595307A - 一种基于it运维的自动自愈方法 - Google Patents

一种基于it运维的自动自愈方法 Download PDF

Info

Publication number
CN108595307A
CN108595307A CN201810412116.4A CN201810412116A CN108595307A CN 108595307 A CN108595307 A CN 108595307A CN 201810412116 A CN201810412116 A CN 201810412116A CN 108595307 A CN108595307 A CN 108595307A
Authority
CN
China
Prior art keywords
exception
healing
abnormal
self
exception information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810412116.4A
Other languages
English (en)
Inventor
赵静
梅永坚
练志刚
吴文青
邓书芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU KE TENG INFORMATION TECHNOLOGY Co.,Ltd.
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Ke Teng Information Technology Co Ltd
Guangzhou Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ke Teng Information Technology Co Ltd, Guangzhou Power Supply Bureau Co Ltd filed Critical Guangzhou Ke Teng Information Technology Co Ltd
Priority to CN201810412116.4A priority Critical patent/CN108595307A/zh
Publication of CN108595307A publication Critical patent/CN108595307A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于IT运维的自动自愈方法,具体包括:S1.当监测到异常时,获取异常项的开始时间节点和结束时间点,S2.获取开始时间点和结束时间点的异常信息;S3.根据异常信息与模型库中的异常原因进行比对,比对成功的,调用对应的自愈模型进行处理解决;若比对失败,将异常信息进行细化,再分别与模型库中的异常原因进行比对,比对成功的,调用对应的自愈模型进行处理解决;不能完全确定原因的,根据异常项的比对结果,提供可能的异常原因,给出参考建议,并通知运维人工处理。本发明能够在业务系统运行过程中对系统出现的异常进行定位并自动处理解决,缩短了业务中断的时间,节约了人力的投入,提高了工作效率,降低了对运维人员的技术要求。

Description

一种基于IT运维的自动自愈方法
技术领域
本发明涉及计算机软件开发技术领域,特别是一种实现系统自动巡检和异常定位的方法。
背景技术
随着信息时代的持续发展,IT运维已经成为IT服务内涵中重要的组成部分。面对越来越复杂的业务,越来越多样化的用户需求,不断扩展的IT应用需要越来越合理的模式来保障IT服务的灵活便捷、安全稳定运行。
目前,许多企业的IT运维已经实现从人工运维到计算机管理,大多数企业的IT运维管理还只是处在半自动化的运维状态,也即这种IT运维模式仍然是在等到IT故障出现后,再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的IT运维管理模式存在以下缺点。
(1)运维人员被动、效率低
在IT运维过程中,由于故障预警机制的不完善,往往只有当事件已经发生并已造成业务影响时,才能发现和着手处理,这种被动“救火”使IT运维人员终日忙碌,并且处理的大多是简单重复的问题,不但事倍功半而且常常会出现恶性连锁反应,降低了IT运维的本身质量,导致IT部门和业务部门对IT运维的服务满意度都不高。
(2)无法精准定位异常内部位置
目前,许多企业在IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。
(3)对运维人员的技术经验要求较高
因运维工具无法精准定位异常点,所以需要运维人员凭借经验去排查事故异常,提高了对事故处理运维人员的业务技术要求。
发明内容
本发明需要解决的技术问题是提供一种基于IT运维的自动自愈方法,能够在业务系统运行过程中对系统出现的异常进行定位并自动处理解决,进一步提高工作效率,降低对运维人员的技术要求。
为解决上述技术问题,本发明所采取的技术方案如下。
一种基于IT运维的自动自愈方法,具体包括以下步骤:
S1.在IT运维业务系统运行过程中,监控系统对业务系统的运行情况进行监控,当监测到异常时,获取异常项的开始时间节点和结束时间点,异常还未结束的,以当前时间点为异常结束时间点;
S2.获取开始时间点和结束时间点的异常信息;
S3.根据异常信息与模型库中的异常原因进行比对,比对成功的,调用对应的自愈模型进行处理解决,处理后查询业务系统是否恢复正常,并将结果发送至运维人员;若比对失败则进行步骤S4;
S4.将异常信息进行细化,再分别与模型库中的异常原因进行比对,比对成功的,调用对应的自愈模型进行处理解决,处理后查询业务系统是否恢复正常,并将结果发送至运维人员;不能完全确定原因的,根据异常项的比对结果,提供可能的异常原因,给出参考建议,并通知运维人工处理。
上述一种基于IT运维的自动自愈方法,步骤S2中所述的异常信息包括业务系统日志、系统资源的使用情况、业务系统使用的数据库和中间件的日志。
上述一种基于IT运维的自动自愈方法,步骤S3中所述的自愈模型是指针对已经确定异常建立的一种集脚本命令于一体的,解决异常的方法。
由于采用了以上技术方案,本发明所取得技术进步如下。
本发明通过比对异常项确定原因后,通过自愈模型处理解决,使得重复性质的运维工作无需人工参与便能够得到快速解决,缩短了业务中断的时间,节约了人力的投入,进一步提高了工作效率,降低了对运维人员的技术要求。当异常项较为复杂且在模型库中无法直接获得匹配项时,通过将异常项分解组合再进入模型库进行比对,确定异常原因进而进行排除,很好的处理多个异常同时发生的情况,并且通过分解比对还可以获取发生异常可能的原因,给出指导意见,为运维人员处理提供便利。
附图说明
图1为本发明的流程图。
具体实施方式
下面将结合附图和具体实施例对本发明进行进一步详细说明。
一种基于IT运维的自动自愈方法,在IT运维业务系统运行过程中,监控系统对业务系统的运行情况进行监控,当监测到异常时,会通过自愈模型进行自动处理,该方法的流程如图1所示,具体包括以下步骤:
S1.获取异常项的开始时间节点和结束时间点,异常还未结束的,以当前时间点为异常结束时间点。如果无法获取异常事件的开始时间点时,通过日子巡检获取异常事件的开始时间点。
S2.获取开始时间点和结束时间点的异常信息。开始时间点的异常信息主要包括异常事件开始时间点的资源信息,结束时间点的异常信息主要包括异常事件结束时间点的业务系统日志、系统资源的使用情况、业务系统使用的数据库和中间件的日志。
S3.根据异常信息与模型库中的异常原因进行比对,比对成功的,调用对应的自愈模型进行处理解决,处理后查询业务系统是否恢复正常,并将结果发送至运维人员;若比对失败则进行步骤S4。
上述自愈模型是指针对已经确定异常建立的一种集脚本命令于一体的,解决异常的方法。例如:异常事项为:业务系统添加用户失败,给用户报错是添加失败;则需要获取的异常信息是:用户业务系统日志、系统资源的使用情况、业务系统使用的数据库和中间件的日志;与模型库进行比对的方法为:检查业务系统日志发现是数据库写入失败,查询数据库日志发现数据库该时间段后面日志无;确定异常的原因是数据库服务异常;调用的自愈模型为重启数据库服务;重启数据库后检查数据库服务是否正常并将结果发送至运维人员。
本步骤为IT运维业务系统的自动自愈模式,可以快速解决重复性质的运维工作,无需人工参与,大大提高了系统运维的稳定性。
S4.将异常信息进行细化,再分别与模型库中的异常原因进行比对,比对成功的,调用对应的自愈模型进行处理解决,处理后查询业务系统是否恢复正常,并将结果发送至运维人员;不能完全确定原因的,根据异常项的比对结果,提供可能的异常原因,给出参考建议,并通知运维人工处理。
本步骤可称为分解自愈方法,通过将异常项分解组合进入模型库比对,确定异常原因进而进行排除,可以很好的处理多个异常同时发生的情况。

Claims (3)

1.一种基于IT运维的自动自愈方法,其特征在于,具体包括以下步骤:
S1.在IT运维业务系统运行过程中,监控系统对业务系统的运行情况进行监控,当监测到异常时,获取异常项的开始时间节点和结束时间点,异常还未结束的,以当前时间点为异常结束时间点;
S2.获取开始时间点和结束时间点的异常信息;
S3.根据异常信息与模型库中的异常原因进行比对,比对成功的,调用对应的自愈模型进行处理解决,处理后查询业务系统是否恢复正常,并将结果发送至运维人员;若比对失败则进行步骤S4;
S4.将异常信息进行细化,再分别与模型库中的异常原因进行比对,比对成功的,调用对应的自愈模型进行处理解决,处理后查询业务系统是否恢复正常,并将结果发送至运维人员;不能完全确定原因的,根据异常项的比对结果,提供可能的异常原因,给出参考建议,并通知运维人工处理。
2.根据权利要求1所述的一种基于IT运维的自动自愈方法,其特征在于,步骤S2中所述的异常信息包括业务系统日志、系统资源的使用情况、业务系统使用的数据库和中间件的日志。
3.根据权利要求1所述的一种基于IT运维的自动自愈方法,其特征在于,步骤S3中所述的自愈模型是指针对已经确定异常建立的一种集脚本命令于一体的,解决异常的方法。
CN201810412116.4A 2018-05-03 2018-05-03 一种基于it运维的自动自愈方法 Pending CN108595307A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810412116.4A CN108595307A (zh) 2018-05-03 2018-05-03 一种基于it运维的自动自愈方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810412116.4A CN108595307A (zh) 2018-05-03 2018-05-03 一种基于it运维的自动自愈方法

Publications (1)

Publication Number Publication Date
CN108595307A true CN108595307A (zh) 2018-09-28

Family

ID=63620635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810412116.4A Pending CN108595307A (zh) 2018-05-03 2018-05-03 一种基于it运维的自动自愈方法

Country Status (1)

Country Link
CN (1) CN108595307A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109451003A (zh) * 2018-10-30 2019-03-08 深圳市亿晟科技有限公司 一种广告机自动解决系统问题缺陷的方法
CN111796960A (zh) * 2020-07-01 2020-10-20 中国建设银行股份有限公司 一种机器人设备异常自动化恢复的方法及系统
CN117522349A (zh) * 2024-01-04 2024-02-06 山东保医通信息科技有限公司 一种多源数据业务的自动化处理方法、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105071969A (zh) * 2015-08-19 2015-11-18 焦点科技股份有限公司 基于jmx的定制化实时监控及自动化异常处理的系统及方法
CN105589794A (zh) * 2014-10-24 2016-05-18 中兴通讯股份有限公司 一种异常处理方法及装置
WO2016106965A1 (zh) * 2014-12-31 2016-07-07 中兴通讯股份有限公司 一种服务器自愈的方法和装置
CN106844132A (zh) * 2015-12-03 2017-06-13 北京国双科技有限公司 集群服务器的故障修复方法和装置
CN107092602A (zh) * 2016-02-18 2017-08-25 朗新科技股份有限公司 一种自动应答方法及系统
US9940190B2 (en) * 2003-08-11 2018-04-10 Triumfant, Inc. System for automated computer support

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9940190B2 (en) * 2003-08-11 2018-04-10 Triumfant, Inc. System for automated computer support
CN105589794A (zh) * 2014-10-24 2016-05-18 中兴通讯股份有限公司 一种异常处理方法及装置
WO2016106965A1 (zh) * 2014-12-31 2016-07-07 中兴通讯股份有限公司 一种服务器自愈的方法和装置
CN105071969A (zh) * 2015-08-19 2015-11-18 焦点科技股份有限公司 基于jmx的定制化实时监控及自动化异常处理的系统及方法
CN106844132A (zh) * 2015-12-03 2017-06-13 北京国双科技有限公司 集群服务器的故障修复方法和装置
CN107092602A (zh) * 2016-02-18 2017-08-25 朗新科技股份有限公司 一种自动应答方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李曙光,苏胜,刘迪: "《电力系统企业服务总线改进模型研究与设计》", 《电力信息化》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109451003A (zh) * 2018-10-30 2019-03-08 深圳市亿晟科技有限公司 一种广告机自动解决系统问题缺陷的方法
CN109451003B (zh) * 2018-10-30 2021-08-03 深圳市亿晟科技有限公司 一种广告机自动解决系统问题缺陷的方法
CN111796960A (zh) * 2020-07-01 2020-10-20 中国建设银行股份有限公司 一种机器人设备异常自动化恢复的方法及系统
CN117522349A (zh) * 2024-01-04 2024-02-06 山东保医通信息科技有限公司 一种多源数据业务的自动化处理方法、设备及介质
CN117522349B (zh) * 2024-01-04 2024-03-29 山东保医通信息科技有限公司 一种多源数据业务的自动化处理方法、设备及介质

Similar Documents

Publication Publication Date Title
CN108595307A (zh) 一种基于it运维的自动自愈方法
CN107766502B (zh) 一种Oracle RAC数据库容灾切换演练方法
CN109347672B (zh) 一种基于消息推送驱动工作流的方法及系统
CN113282635B (zh) 一种微服务系统故障根因定位方法及装置
CN105653322B (zh) 运维服务器和服务器事件的处理方法
CN103324565B (zh) 日志监控方法
CN102566531A (zh) 设备工作寿命的监测及预警系统
CN113533887B (zh) 一种配电终端智能调试方法及系统
CN107256457A (zh) 一种电能表自动化检定车间智能巡检系统
CN108665237B (zh) 一种基于业务系统建立自动巡检模型和定位异常的方法
CN112561370A (zh) 软件发版的管理方法、装置、计算机设备及存储介质
CN105260257B (zh) 解决程序运行期间停止响应的方法和装置
CN116383718B (zh) 一种基于内外场数据的复杂系统可靠性评估方法
CN107729184B (zh) 一种系统组件服务自愈方法
CN103684814A (zh) 一种用于通讯系统的数据比较方法和装置
CN104754562A (zh) 数据复制异常的修复方法及装置
CN111654401B (zh) 监控系统的网段切换方法、装置、终端和存储介质
CN113629878B (zh) 一种配电网三遥开关遥控控制校验方法及系统
CN111093221B (zh) 基于集中式网络的无线网络监测系统
CN113676356A (zh) 报警信息处理方法、装置、电子设备及可读存储介质
CN112085339A (zh) 一种基于soa架构的主备系统实时数据校核装置及方法
CN112134727A (zh) 基于容器技术的网关机运行数据交换方法
CN112702196A (zh) 一种自动化故障处理方法和系统
CN108491303A (zh) 一种基于中标麒麟操作系统软件运维自动化的方法
CN115827678B (zh) 一种获取业务数据的方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210312

Address after: 510000 Tianhe No. two road, Guangzhou, Guangdong Province, No. 2

Applicant after: Guangzhou Power Supply Bureau of Guangdong Power Grid Co.,Ltd.

Applicant after: GUANGZHOU KE TENG INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 510000 Tianhe No. two road, Guangzhou, Guangdong Province, No. 2

Applicant before: GUANGZHOU POWER SUPPLY Co.,Ltd.

Applicant before: GUANGZHOU KE TENG INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20180928

RJ01 Rejection of invention patent application after publication