CN110166297A - 运维方法、系统、设备及计算机可读存储介质 - Google Patents

运维方法、系统、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110166297A
CN110166297A CN201910437804.0A CN201910437804A CN110166297A CN 110166297 A CN110166297 A CN 110166297A CN 201910437804 A CN201910437804 A CN 201910437804A CN 110166297 A CN110166297 A CN 110166297A
Authority
CN
China
Prior art keywords
alarm
preset
recovery scenario
reparation
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910437804.0A
Other languages
English (en)
Inventor
郑其
黄梓荣
莫本榕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Trust Co Ltd
Original Assignee
Ping An Trust Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Trust Co Ltd filed Critical Ping An Trust Co Ltd
Priority to CN201910437804.0A priority Critical patent/CN110166297A/zh
Publication of CN110166297A publication Critical patent/CN110166297A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种基于漏洞修复效率优化的运维方法、系统、设备及计算机可读存储介质,该方法包括:在检测到预设报警事项触发的告警信号后,从所述告警信号中获取所述预设报警事项的告警类型;根据所述告警类型查询预置的修复关联表,并判断所述修复关联表中是否存在所述告警类型对应的目标修复方案;若所述修复关联表中存在所述告警类型对应的目标修复方案,则解析所述告警信号获得所述预设报警事项对应故障设备的设备地址,根据所述设备地址执行所述目标修复方案,以对故障设备上发生的所述预设报警事项进行修复。可实现自动化的故障检测与修复。

Description

运维方法、系统、设备及计算机可读存储介质
技术领域
本发明涉及运维技术领域,尤其涉及一种运维方法、系统、设备及计算机可读存储介质。
背景技术
监视和维护IT物理资源(例如硬件服务器、软件服务、网络设备、机房监控设备等)是保证企业正常业务开展的一个重要工作,如何对计算机软硬件以及网络环境进行维护,已然成为了各行业、各单位普遍关注和难以处理的问题。
目前市面上IT故障处理均为手动处理,在接到告警之后需用户手动分析问题、定位问题和解决问题,存在运维效率低下、运维服务不及时的问题。
发明内容
本发明的主要目的在于提供一种运维方法,旨在解决现有运维系统无法自动修复故障的技术问题。
为实现上述目的,本发明提供一种运维方法,所述运维方法包括以下步骤:
在检测到预设报警事项触发的告警信号后,从所述告警信号中获取所述预设报警事项的告警类型;
根据所述告警类型查询预置的修复关联表,并判断所述修复关联表中是否存在所述告警类型对应的目标修复方案;
若所述修复关联表中存在所述告警类型对应的目标修复方案,则解析所述告警信号获得所述预设报警事项对应故障设备的设备地址,根据所述设备地址执行所述目标修复方案,以对故障设备上发生的所述预设报警事项进行修复。
可选地,所述在检测到预设报警事项触发的告警信号后,从所述告警信号中获取所述预设报警事项的告警类型的步骤之前包括:
在检测到修复方案定义指令时,输出方案定义界面;
接收用户基于所述方案定义界面输入的步骤编辑操作和步骤顺序设置,根据所述步骤编辑操作确定所述目标修复方案的组成步骤,并基于所述步骤顺序设置排列所述组成步骤,以生成目标修复方案。
可选地,所述在检测到修复方案定义指令时,输出方案定义界面的步骤之后包括:
在检测到用户基于所述方案定义界面输入的修复步骤定义指令时,输出修复步骤定义界面;
在检测到用户基于所述修复步骤定义界面输入的脚本/邮件/电话/短信添加请求时,输出对应的添加界面,以供用户对应进行脚本编辑操作/邮件信息编辑操作/电话信息编辑操作/短信信息编辑操作;
在检测到基于所述添加界面触发的步骤保存操作时,基于所述添加界面中的信息生成对应的修复步骤。
可选地,所述基于所述步骤顺序设置排列所述组成步骤,以生成目标修复方案的步骤之后包括:
在检测到修复关联请求时,输出关联界面;
根据接收的告警类型选择指令确定待关联告警类型,并根据接收的修复方案选择指令确定待关联修复方案,将所述待关联告警类型与所述待关联修复方案进行关联。
可选地,所述根据所述设备地址执行所述目标修复方案,以对故障设备上发生的所述预设报警事项进行修复的步骤之后包括:
在执行完所述目标修复方案后,检测是否重新接收到由所述预设报警事项触发的告警信号;
若重新接收到由所述预设报警事项触发的告警信号,则重复执行所述目标修复方案;
若未再次接收到由所述预设报警事项触发的告警信号,则修复成功。
可选地,所述在检测到预设报警事项触发的告警信号后还包括:
获取所述预设报警事项的发生时刻以及发生设备,根据所述发生时刻确定异常时段;
获取所述异常时段内所述发生设备的相关数据,将所述相关数据存储到样本数据库,以作为预置预测模型的训练样本。
可选地,所述运维方法还包括:
实时获取被监控设备的相关数据,将所述被监控设备的相关数据输入预置预测模型,由所述预置预测模型输出故障预测结果;
将所述故障预测结果以预设方式发送至运维人员。
此外,为实现上述目的,本发明还提供一种运维系统,所述运维系统包括:
告警获取模块,用于在检测到预设报警事项触发的告警信号后,从所述告警信号中获取所述预设报警事项的告警类型;
关联判断模块,用于根据所述告警类型查询预置的修复关联表,并判断所述修复关联表中是否存在所述告警类型对应的目标修复方案;
查询修复模块,用于若所述修复关联表中存在所述告警类型对应的目标修复方案,则解析所述告警信号获得所述预设报警事项对应故障设备的设备地址,根据所述设备地址执行所述目标修复方案,以对故障设备上发生的所述预设报警事项进行修复。
此外,为实现上述目的,本发明还提供一种运维设备,所述运维设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的运维程序,其中所述运维程序被所述处理器执行时,实现如上述的运维方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有运维程序,其中所述运维程序被处理器执行时,实现如上述的运维方法的步骤。
本发明实施例通过在检测到预设报警事项触发的告警信号后,从所述告警信号中获取所述预设报警事项的告警类型;根据所述告警类型查询预置的修复关联表,并判断所述修复关联表中是否存在所述告警类型对应的目标修复方案;若所述修复关联表中存在所述告警类型对应的目标修复方案,则解析所述告警信号获得所述预设报警事项对应故障设备的设备地址,根据所述设备地址执行所述目标修复方案,以对故障设备上发生的所述预设报警事项进行修复,可实现设备故障的自动修复,减少人工投入,提高故障修复的及时性与效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的运维设备结构示意图;
图2为本发明运维方法一实施例的流程示意图;
图3为本发明运维系统一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参见图1,图1为本发明所提供的运维设备的硬件结构示意图。
所述运维设备可以是PC,也可以是智能手机、平板电脑、便携计算机、台式计算机等具有显示功能的设备设备,可选地,所述运维设备可以是服务器设备。
所述运维设备可以包括:处理器101以及存储器201等部件。在所述运维设备中,所述处理器101与所述存储器201连接,所述存储器201上存储有运维程序,处理器101可以调用存储器201中存储的运维程序,并实现如下述运维方法各实施例的步骤。
所述存储器201,可用于存储软件程序以及各种数据。存储器201可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如运维程序)等;存储数据区可包括数据库等。处理器101,是运维设备的控制中心,利用各种接口和线路连接整个运维设备的各个部分,通过运行或执行存储在存储器201内的软件程序和/或模块,以及调用存储在存储器201内的数据,执行运维设备的各种功能和处理数据,从而对运维设备进行整体监控。
本领域技术人员可以理解,图1中示出的运维设备结构并不构成对运维设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
基于上述硬件结构,提出本发明运维方法的下述各实施例。
本发明提供一种运维方法。
参照图2,图2为本发明运维方法第一实施例的流程示意图。
本实施例中,所述运维方法包括以下步骤:
步骤S10,在检测到预设报警事项触发的告警信号后,从所述告警信号中获取所述预设报警事项的告警类型;
为了实现故障的自动修复,需要预先定义故障类型和对应的修复方案,使得运维设备在检测到故障事项时,可以根据该故障事项的故障类型,执行对应的修复方案,完成故障的自动修复。
预设报警事项,指预先定义的、由运维设备进行自动修复的故障事项,本实施例中的报警事项即故障事项。可选地,对由预设报警事项触发的告警信号添加自愈标识,在运维设备检测到告警信号时,通过检测告警信号上的自愈标识区分其是否由预设报警事项触发。
预设报警事项的告警类型,可以为硬件的响应时间过长告警、磁盘空间满告警、网络告警、内存不足告警、CPU不足告警等。解析告警信号可获得触发该告警信号的预设报警事项的告警类型,根据告警类型可查询获得对应的修复方案。
可在被监控设备上预置捕获告警程序,采用实时检测或定时轮询的方式,采集被监控设备操作系统的系统事件,以确定被监控设备是否存在报错事件,可根据报错事件判断是否发生预设的报警事项;还可在被监控设备的关键位置安插告警点。在被监控设备上发生预设报警事项时,触发生成对应的告警信号。
步骤S20,根据所述告警类型查询预置的修复关联表,并判断所述修复关联表中是否存在所述告警类型对应的目标修复方案;
预先定义告警类型与修复方案的修复关联表,将告警类型与其对应的修复方案关联存储于关联表,以便在检测到发生某告警类型的预设报警事项后,可查询修复关联表获得与之关联的修复方案(方案ID)修复方案是遵循一定逻辑的故障处理流程,可包括故障修复脚本、邮件、电话等程序。
查询修复关联表,判断修复关联表中是否存在告警类型对应的目标修复方案,即是否存在与告警类型关联的目标修复方案。
步骤S30,若所述修复关联表中存在所述告警类型对应的目标修复方案,则解析所述告警信号获得所述预设报警事项对应故障设备的设备地址,根据所述设备地址执行所述目标修复方案,以对故障设备上发生的所述预设报警事项进行修复。
在修复关联表中存在目标修复方案时,根据获取的方案ID从方案表获取方案详情,并解析告警信号获得对应的故障设备IP,将相应参数(故障设备IP)传入方案执行模块,执行修复方案。故障设备即被监控设备,被监控设备被检测出发生预设报警事项时,即为故障设备。
可选地,在执行修复方案后,将执行日志写入数据库,还可以在运维系统的预设界面展示执行状态。
若修复关联表中不存在告警类型对应的修复方案,则发送提示消息通知运维人员对该告警类型对应故障设备进行修复,在运维人员将对应故障设备修复完成后,将对应告警类型及修复方案(记录开发人员的修复过程)存入修复列表,以便下一次实现故障的自动修复。
进一步地,步骤S30之后包括:
步骤S40,在执行完所述目标修复方案后,检测是否重新接收到由所述预设报警事项触发的告警信号;
在执行完目标修复方案后,验证执行结果,以判断是否修复成功。可通过获取告警状态,即通过检测是否有来自故障设备的告警信号以及,若有来自故障设备的告警信号,则通过告警信号上标签判断其是否由初始的预设报警事项触发,这里的初始的预设报警事项即触发本次修复的预设报警事项。
步骤S41,若重新接收到由所述预设报警事项触发的告警信号,则重复执行所述目标修复方案;若未再次接收到由所述预设报警事项触发的告警信号,则修复成功。
若检测到来自故障设备的、由初始的预设报警事项触发的告警信号,则说明故障设备当前存在预设报警事项,即故障设备并未修复成功,一实施方式中,可重复执行目标修复方案,每一次执行目标修复方案后,执行步骤S40以判断是否修复成功,若检测到修复成功,则无需再重复执行目标修复方案,否则获取每次修复的统计结果,获得修复失败的次数,在修复失败次数大于预设次数时,将故障详情和修复详情发送至指定运维人员;还可仅重复执行一次目标修复方案,若在执行完一次目标修复方案后,仍旧未修复成功,则将故障详情和修复详情发送至指定运维人员,由相应运维人员手动处理。
若故障修复成功,则可发送修复成功提示信息至指定人员,并将执行日志写入数据库。
本实施例通过在检测到预设报警事项触发的告警信号后,从所述告警信号中获取所述预设报警事项的告警类型;根据所述告警类型查询预置的修复关联表,并判断所述修复关联表中是否存在所述告警类型对应的目标修复方案;若所述修复关联表中存在所述告警类型对应的目标修复方案,则解析所述告警信号获得所述预设报警事项对应故障设备的设备地址,根据所述设备地址执行所述目标修复方案,以对故障设备上发生的所述预设报警事项进行修复,可实现设备故障的自动修复,减少人工投入,提高故障修复的及时性与效率。
进一步地,基于所述第一实施例提出本发明运维方法的第二实施例。
在本发明运维方法的第二实施例中,所述步骤S10之前包括:
步骤S50,在检测到修复方案定义指令时,输出方案定义界面;
修复方案定义指令,可以由用户点击运维系统界面上的“新建方案”按钮控件触发。方案定义界面可供用户定义告警类型对应的修复方案包含的流程步骤,包括是否要执行脚本或发送邮件、短信,或拨打电话等。对于修复方案的定义,需针对相应告警类型梳理出处理步骤,进行预定义,例如,检测到被监控设备出现“磁盘满”这一报警事项,对应的处理方案为:找出磁盘中的大文件并清理掉,将此处理方案配置到修复系统,即:预先将“磁盘满”这一报警事项对应的处理方案定义到修复系统,在检测到这一报警事项后,执行对应处理方案的操作。
步骤S51,接收用户基于所述方案定义界面输入的步骤编辑操作和步骤顺序设置,根据所述步骤编辑操作确定所述目标修复方案的组成步骤,并基于所述步骤顺序设置排列所述组成步骤,以生成目标修复方案。
目标修复方案为一系列的流程步骤,包括一个或多个具有一定执行顺序的流程步骤。目标修复方案的组成步骤可以从预置的步骤列表中选取,也可以临时编辑一条新的步骤作为目标修复方案的组成步骤。
本实施例中的步骤编辑操作,即从预置的步骤列表中选取组成步骤,或者编辑步骤内容,步骤顺序设置指选取的各组成步骤之间的执行顺序。在选取步骤的同时或者之后,根据步骤顺序设置调整组成步骤的执行顺序,最终形成一系列具有特定执行顺序的步骤序列,进而完成目标修复方案的预定义。
在确定一个目标修复方案各步骤后,可对目标修复方案各步骤进行顺序调换,在检测到保存指令后,保存目标修复方案各步骤内容和顺序,完成当前方案处理流程的定义。
本实施例通过提供方案定义界面以便用户直接编辑目标修复方案的组成步骤以及步骤顺序,实现目标修复方案的预先定义,为后续响应预设报警事项触发的告警信号、实现自动修复估值提供预备条件。
进一步地,步骤S50之后包括:
步骤S52,在检测到用户基于所述方案定义界面输入的修复步骤定义指令时,输出修复步骤定义界面;
本实施例中的修复步骤定义指令,指对目标修复方案各组成步骤进行步骤定义的指令,在需要对目标修复方案的组成步骤进行新增/删改时,基于用户操作触发修复步骤定义指令,可通过预设输入操作(如点击输入)触发修复步骤定义指令,运维系统响应修复步骤定义指令,输出修复步骤定义界面,供用户在该界面上进行修复步骤的预定义。可选地,修复步骤定义界面上链接运维人员信息库、脚本库,可根据用户操作触发的信息调取指令或脚本调取指令获取运维人员信息库中的运维人员信息列表或获取脚本库中的脚本列表,并根据用户选择操作选取对应的运维人员信息或脚本。
其中,运维人员信息,包括负责的运维类型、手机号码、邮箱地址等,脚本指预先编辑好的、处理特定问题的脚本程序。
步骤S53,在检测到用户基于所述修复步骤定义界面输入的脚本/邮件/电话/短信添加请求时,输出对应的添加界面,以供用户对应进行脚本编辑操作/邮件信息编辑操作/电话信息编辑操作/短信信息编辑操作;
在检测到添加请求时,解析添加请求确定用户请求新增的修复步骤类型,根据修复步骤类型确定对应的步骤编辑模板。
在添加请求为脚本添加请求时,输出脚本编辑界面,可选地,脚本编辑界面上有脚本编辑框以及脚本库引用框,可供用户在脚本编辑框中直接键入脚本,也可供用户在脚本库引用框中点击触发输出脚本列表。
在添加请求为邮件/电话/短信添加请求时,输出对应的邮件/电话/短信编辑界面,可选地,邮件/电话/短信编辑界面上有邮件/电话/短信编辑框以及运维人员信息库引用框,可供用户在邮件/电话/短信编辑框中直接键入邮件地址/电话号码/短信对应电话号码,还可直接编辑邮件内容或/短信内容/电话内容,也可供用户在运维人员信息库引用框中点击触发输出运维人员信息列表,以供用户选择所需的运维人员信息。
步骤S54,在检测到基于所述添加界面触发的步骤保存操作时,基于所述添加界面中的信息生成对应的修复步骤。
在修复步骤编辑的过程中,可定时存储用户的编辑内容,也可根据用户的保存操作进行编辑内容的保存。在检测到步骤保存操作后,获取添加界面上的信息,并生成对应的修复步骤。将定义好的修复步骤作为目标修复方案的组成步骤。
还可将修复步骤添加进修复步骤列表中/步骤库中,以便后续修复方案预定义时进行引用。
本实施例可提供修复步骤定义界面供用户进行单个步骤的定义,可自定义定制修复方案,并增强自动修复步骤的重用性,提升自动修复的方案配置效率。
进一步地,步骤S51之后包括:
步骤S55,在检测到修复关联请求时,输出关联界面;
为实现故障的自动修复,将故障与对应的修复方案进行关联,即将告警类型和修复方案关联,并将关联关系存储在关联表中。
在修复方案定义完成后,运维系统可直接输出关联提示,用户可基于关联提示向运维系统进行修复关联请求的发送操作,如点击特定按钮。运维系统在检测到修复关联请求后,输出关联界面,以供用户选择待关联的告警类型以及修复方案。
步骤S56,根据接收的告警类型选择指令确定待关联告警类型,并根据接收的修复方案选择指令确定待关联修复方案,将所述待关联告警类型与所述待关联修复方案进行关联。
一个修复方案可以对应多种告警类型,关联界面上可输出告警类型列表和修复方案列表,用户可选定一个修复方案与多个告警类型进行关联,还可一次选定多个关联对,如A修复方案与B告警类型关联、C修复方案与D告警类型关联,方便用户同时定义多个关联关系,提升修复关联定义效率。
进一步地,基于上述第一实施例和第二实施例提出本发明运维方法的第三实施例。
在本发明运维方法的第三实施例中,步骤S10中所述在检测到预设报警事项触发的告警信号后还包括:
步骤S60,获取所述预设报警事项的发生时刻以及发生设备,根据所述发生时刻确定异常时段;
解析告警信号获得预设报警事项的发生时刻,也即触发告警信号的时刻,预设报警事项的发生设备即其对应的故障设备。因为某些故障,是渐渐积累变化的,如磁盘空间满、内存不足、CPU不足等,可以通过采集相关数据,根据相关数据变化状况对故障进行预测,进而及时采取规避措施,防止因为故障出现带来的业务处理延迟,避免妨碍业务处理效率。
在预设报警事项的发生时刻之前的预设时段,为发生设备的异常时段,不同的告警类型对应不同长度的预设时段,为不同告警类型对应预设时段的长短为经验值,可以由运维人员设置,并存储在运维系统中。
步骤S61,获取所述异常时段内所述发生设备的相关数据,将所述相关数据存储到样本数据库,以作为预置预测模型的训练样本。
发生设备的相关数据,包括发生设备上的设备性能数据、设备网络数据,也包括与发生设备密切关联的设备的相关数据,如与发生设备处于同一工作组的设备。
获取发生设备的相关数据后,将发生设备的相关数据以及本次的故障发生数据存入预置的样本数据库中,作为后续训练预置预测模型的训练样本。
在训练预置预测模型时,获取训练样本,其中,训练样本为经过人工标注故障与否的数据;提取训练样本特征,并根据训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的预置预测模型。
本实施例通过对发生预设报警事项的故障设备进行更多相关数据的采集,将相关数据作为预置预测模型的训练样本,以便完善运维系统的故障预测功能,提升运维效率,减少故障报警,规避实际故障的发生。
进一步地,所述运维方法还包括:
步骤S70,实时获取被监控设备的相关数据,将所述被监控设备的相关数据输入预置预测模型,由所述预置预测模型输出故障预测结果;
在对被监控设备进行故障监测的过程中,实时采集被监控设备的相关数据,被监控设备的相关数据可包括性能数据、网络数据等,将被监控设备的相关数据作为入参输入预置预测模型,以便预置预测模型对被监控设备的故障可能性进行预测。
步骤S71,将所述故障预测结果以预设方式发送至运维人员。
故障预测结果的发送方式可以由运维人员设定,可以为电话、邮件或短信等方式发送到运维人员,以便运维人员及时采取措施或做好故障应对准备,可建立故障预测日志,记录故障预测情况,以便运维人员查看并对预置预测模型进行优化。
此外,本发明还提供一种与上述运维方法各步骤对应的运维系统。
参照图3,图3为本发明运维系统第一实施例的功能模块示意图。
在本实施例中,本发明运维系统包括:
告警获取模块10,用于在检测到预设报警事项触发的告警信号后,从所述告警信号中获取所述预设报警事项的告警类型;
关联判断模块20,用于根据所述告警类型查询预置的修复关联表,并判断所述修复关联表中是否存在所述告警类型对应的目标修复方案;
查询修复模块30,用于若所述修复关联表中存在所述告警类型对应的目标修复方案,则解析所述告警信号获得所述预设报警事项对应故障设备的设备地址,根据所述设备地址执行所述目标修复方案,以对故障设备上发生的所述预设报警事项进行修复。
进一步地,所述运维系统还包括:
方案定义模块,用于在检测到修复方案定义指令时,输出方案定义界面;接收用户基于所述方案定义界面输入的步骤编辑操作和步骤顺序设置,根据所述步骤编辑操作确定所述目标修复方案的组成步骤,并基于所述步骤顺序设置排列所述组成步骤,以生成目标修复方案。
进一步地,所述运维系统还包括:
步骤定义模块,用于在检测到用户基于所述方案定义界面输入的修复步骤定义指令时,输出修复步骤定义界面;在检测到用户基于所述修复步骤定义界面输入的脚本/邮件/电话/短信添加请求时,输出对应的添加界面,以供用户对应进行脚本编辑操作/邮件信息编辑操作/电话信息编辑操作/短信信息编辑操作;在检测到基于所述添加界面触发的步骤保存操作时,基于所述添加界面中的信息生成对应的修复步骤。
进一步地,所述运维系统还包括:
修复关联模块,用于在检测到修复关联请求时,输出关联界面;根据接收的告警类型选择指令确定待关联告警类型,并根据接收的修复方案选择指令确定待关联修复方案,将所述待关联告警类型与所述待关联修复方案进行关联。
进一步地,所述运维系统还包括:
修复验证模块,用于在执行完所述目标修复方案后,检测是否重新接收到由所述预设报警事项触发的告警信号;若重新接收到由所述预设报警事项触发的告警信号,则重复执行所述目标修复方案;若未再次接收到由所述预设报警事项触发的告警信号,则修复成功。
进一步地,所述运维系统还包括:
故障样本采集模块,用于获取所述预设报警事项的发生时刻以及发生设备,根据所述发生时刻确定异常时段;获取所述异常时段内所述发生设备的相关数据,将所述相关数据存储到样本数据库,以作为预置预测模型的训练样本。
进一步地,所述运维系统还包括:
故障预测模块,用于实时获取被监控设备的相关数据,将所述被监控设备的相关数据输入预置预测模型,由所述预置预测模型输出故障预测结果;将所述故障预测结果以预设方式发送至运维人员。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序。所述计算机可读存储介质可以是图1的运维设备中的存储器201,也可以是如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘中的至少一种,所述计算机可读存储介质包括若干指令用以使得一台具有处理器的设备设备(可以是手机,计算机,服务器,网络设备或本发明实施例中的运维设备等)执行本发明各个实施例所述的方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者服务端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者服务端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者服务端中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种运维方法,其特征在于,所述运维方法包括以下步骤:
在检测到预设报警事项触发的告警信号后,从所述告警信号中获取所述预设报警事项的告警类型;
根据所述告警类型查询预置的修复关联表,并判断所述修复关联表中是否存在所述告警类型对应的目标修复方案;
若所述修复关联表中存在所述告警类型对应的目标修复方案,则解析所述告警信号获得所述预设报警事项对应故障设备的设备地址,根据所述设备地址执行所述目标修复方案,以对故障设备上发生的所述预设报警事项进行修复。
2.如权利要求1所述的运维方法,其特征在于,所述在检测到预设报警事项触发的告警信号后,从所述告警信号中获取所述预设报警事项的告警类型的步骤之前包括:
在检测到修复方案定义指令时,输出方案定义界面;
接收用户基于所述方案定义界面输入的步骤编辑操作和步骤顺序设置,根据所述步骤编辑操作确定所述目标修复方案的组成步骤,并基于所述步骤顺序设置排列所述组成步骤,以生成目标修复方案。
3.如权利要求2所述的运维方法,其特征在于,所述在检测到修复方案定义指令时,输出方案定义界面的步骤之后包括:
在检测到用户基于所述方案定义界面输入的修复步骤定义指令时,输出修复步骤定义界面;
在检测到用户基于所述修复步骤定义界面输入的脚本/邮件/电话/短信添加请求时,输出对应的添加界面,以供用户对应进行脚本编辑操作/邮件信息编辑操作/电话信息编辑操作/短信信息编辑操作;
在检测到基于所述添加界面触发的步骤保存操作时,基于所述添加界面中的信息生成对应的修复步骤。
4.如权利要求3所述的运维方法,其特征在于,所述基于所述步骤顺序设置排列所述组成步骤,以生成目标修复方案的步骤之后包括:
在检测到修复关联请求时,输出关联界面;
根据接收的告警类型选择指令确定待关联告警类型,并根据接收的修复方案选择指令确定待关联修复方案,将所述待关联告警类型与所述待关联修复方案进行关联。
5.如权利要求1所述的运维方法,其特征在于,所述根据所述设备地址执行所述目标修复方案,以对故障设备上发生的所述预设报警事项进行修复的步骤之后包括:
在执行完所述目标修复方案后,检测是否重新接收到由所述预设报警事项触发的告警信号;
若重新接收到由所述预设报警事项触发的告警信号,则重复执行所述目标修复方案;
若未再次接收到由所述预设报警事项触发的告警信号,则修复成功。
6.如权利要求1所述的运维方法,其特征在于,所述在检测到预设报警事项触发的告警信号后还包括:
获取所述预设报警事项的发生时刻以及发生设备,根据所述发生时刻确定异常时段;
获取所述异常时段内所述发生设备的相关数据,将所述相关数据存储到样本数据库,以作为预置预测模型的训练样本。
7.如权利要求6所述的运维方法,其特征在于,所述运维方法还包括:
实时获取被监控设备的相关数据,将所述被监控设备的相关数据输入预置预测模型,由所述预置预测模型输出故障预测结果;
将所述故障预测结果以预设方式发送至运维人员。
8.一种运维系统,其特征在于,所述运维系统包括:
告警获取模块,用于在检测到预设报警事项触发的告警信号后,从所述告警信号中获取所述预设报警事项的告警类型;
关联判断模块,用于根据所述告警类型查询预置的修复关联表,并判断所述修复关联表中是否存在所述告警类型对应的目标修复方案;
查询修复模块,用于若所述修复关联表中存在所述告警类型对应的目标修复方案,则解析所述告警信号获得所述预设报警事项对应故障设备的设备地址,根据所述设备地址执行所述目标修复方案,以对故障设备上发生的所述预设报警事项进行修复。
9.一种运维设备,其特征在于,所述运维设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的运维程序,其中所述运维程序被所述处理器执行时,实现如权利要求1至7中任一项所述的运维方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有运维程序,其中所述运维程序被处理器执行时,实现如权利要求1至7中任一项所述的运维方法的步骤。
CN201910437804.0A 2019-05-22 2019-05-22 运维方法、系统、设备及计算机可读存储介质 Pending CN110166297A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910437804.0A CN110166297A (zh) 2019-05-22 2019-05-22 运维方法、系统、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910437804.0A CN110166297A (zh) 2019-05-22 2019-05-22 运维方法、系统、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110166297A true CN110166297A (zh) 2019-08-23

Family

ID=67632393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910437804.0A Pending CN110166297A (zh) 2019-05-22 2019-05-22 运维方法、系统、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110166297A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597135A (zh) * 2019-09-24 2019-12-20 上海析维医疗科技有限公司 基于氮气发生器的控制装置、系统及方法
CN111445321A (zh) * 2020-03-23 2020-07-24 中国建设银行股份有限公司 基于物联网的银行网点营业管控方法及装置
CN112181696A (zh) * 2020-08-31 2021-01-05 五八到家有限公司 异常信息处理方法、设备及存储介质
CN112269796A (zh) * 2020-10-23 2021-01-26 北京浪潮数据技术有限公司 一种数据检索方法及相关装置
CN113179180A (zh) * 2021-04-23 2021-07-27 杭州安恒信息技术股份有限公司 一种玄武盾客户端灾难故障修复方法、装置和存储介质
CN113656287A (zh) * 2021-07-28 2021-11-16 北京宝兰德软件股份有限公司 软件实例故障的预测方法、装置、电子设备及存储介质
CN113676356A (zh) * 2021-08-27 2021-11-19 创新奇智(青岛)科技有限公司 报警信息处理方法、装置、电子设备及可读存储介质
CN113920767A (zh) * 2021-10-22 2022-01-11 南京智慧交通信息股份有限公司 运维报警的方法、系统、装置以及计算机可读存储介质
CN114331046A (zh) * 2021-12-13 2022-04-12 湖南天云软件技术有限公司 一种告警事件处理方法、装置、设备及计算机存储介质
CN114419838A (zh) * 2021-12-30 2022-04-29 杭州晨鹰军泰科技有限公司 一种联动报警配置方法、装置、设备及可读存储介质
CN115277366A (zh) * 2022-07-28 2022-11-01 上海镁信健康科技有限公司 一种基于接口的sla告警系统
CN116166891A (zh) * 2023-04-25 2023-05-26 深圳市思为软件技术有限公司 基于房地产管理系统的事件重推方法及相关装置
CN118445110A (zh) * 2024-05-29 2024-08-06 广州三七极耀网络科技有限公司 一种故障修复方法、装置、存储介质以及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662784A (zh) * 2012-04-12 2012-09-12 北京华夏电通科技股份有限公司 一种嵌入式系统的故障修复方法及设备
CN107196780A (zh) * 2016-03-15 2017-09-22 伊姆西公司 用于管理设备的故障的方法和装置
CN108429629A (zh) * 2017-02-14 2018-08-21 腾讯科技(深圳)有限公司 设备故障恢复方法和装置
CN108989132A (zh) * 2018-08-24 2018-12-11 深圳前海微众银行股份有限公司 故障告警处理方法、系统及计算机可读存储介质
CN109522171A (zh) * 2018-11-27 2019-03-26 西安数拓网络科技有限公司 一种故障诊断方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662784A (zh) * 2012-04-12 2012-09-12 北京华夏电通科技股份有限公司 一种嵌入式系统的故障修复方法及设备
CN107196780A (zh) * 2016-03-15 2017-09-22 伊姆西公司 用于管理设备的故障的方法和装置
CN108429629A (zh) * 2017-02-14 2018-08-21 腾讯科技(深圳)有限公司 设备故障恢复方法和装置
CN108989132A (zh) * 2018-08-24 2018-12-11 深圳前海微众银行股份有限公司 故障告警处理方法、系统及计算机可读存储介质
CN109522171A (zh) * 2018-11-27 2019-03-26 西安数拓网络科技有限公司 一种故障诊断方法及系统

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597135A (zh) * 2019-09-24 2019-12-20 上海析维医疗科技有限公司 基于氮气发生器的控制装置、系统及方法
CN111445321A (zh) * 2020-03-23 2020-07-24 中国建设银行股份有限公司 基于物联网的银行网点营业管控方法及装置
CN111445321B (zh) * 2020-03-23 2024-08-16 中国建设银行股份有限公司 基于物联网的银行网点营业管控方法及装置
CN112181696B (zh) * 2020-08-31 2023-05-12 五八到家有限公司 异常信息处理方法、设备及存储介质
CN112181696A (zh) * 2020-08-31 2021-01-05 五八到家有限公司 异常信息处理方法、设备及存储介质
CN112269796A (zh) * 2020-10-23 2021-01-26 北京浪潮数据技术有限公司 一种数据检索方法及相关装置
CN112269796B (zh) * 2020-10-23 2023-12-22 北京浪潮数据技术有限公司 一种数据检索方法及相关装置
CN113179180A (zh) * 2021-04-23 2021-07-27 杭州安恒信息技术股份有限公司 一种玄武盾客户端灾难故障修复方法、装置和存储介质
CN113656287B (zh) * 2021-07-28 2024-06-04 北京宝兰德软件股份有限公司 软件实例故障的预测方法、装置、电子设备及存储介质
CN113656287A (zh) * 2021-07-28 2021-11-16 北京宝兰德软件股份有限公司 软件实例故障的预测方法、装置、电子设备及存储介质
CN113676356A (zh) * 2021-08-27 2021-11-19 创新奇智(青岛)科技有限公司 报警信息处理方法、装置、电子设备及可读存储介质
CN113920767B (zh) * 2021-10-22 2023-02-24 南京智慧交通信息股份有限公司 运维报警的方法、系统、装置以及计算机可读存储介质
CN113920767A (zh) * 2021-10-22 2022-01-11 南京智慧交通信息股份有限公司 运维报警的方法、系统、装置以及计算机可读存储介质
CN114331046A (zh) * 2021-12-13 2022-04-12 湖南天云软件技术有限公司 一种告警事件处理方法、装置、设备及计算机存储介质
CN114419838A (zh) * 2021-12-30 2022-04-29 杭州晨鹰军泰科技有限公司 一种联动报警配置方法、装置、设备及可读存储介质
CN115277366A (zh) * 2022-07-28 2022-11-01 上海镁信健康科技有限公司 一种基于接口的sla告警系统
CN116166891A (zh) * 2023-04-25 2023-05-26 深圳市思为软件技术有限公司 基于房地产管理系统的事件重推方法及相关装置
CN116166891B (zh) * 2023-04-25 2023-07-14 深圳市思为软件技术有限公司 基于房地产管理系统的事件重推方法及相关装置
CN118445110A (zh) * 2024-05-29 2024-08-06 广州三七极耀网络科技有限公司 一种故障修复方法、装置、存储介质以及电子设备

Similar Documents

Publication Publication Date Title
CN110166297A (zh) 运维方法、系统、设备及计算机可读存储介质
US20200250024A1 (en) High-volume distributed script error handling
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
US7467145B1 (en) System and method for analyzing processes
CN104809030A (zh) 一种基于Android的异常处理系统及处理方法
EP3192233A1 (en) System and method for recording and recreating interactive user-sessions involving an on-line server
CN107451040A (zh) 故障原因的定位方法、装置及计算机可读存储介质
CN113238930B (zh) 软件系统的测试方法、装置、终端设备和存储介质
CN112650688A (zh) 自动化回归测试方法、关联设备以及计算机程序产品
CN109409948B (zh) 交易异常检测方法、装置、设备及计算机可读存储介质
CN112380089A (zh) 一种数据中心监控预警方法及系统
CN113778879A (zh) 接口的模糊测试方法及装置
CN110275795A (zh) 一种基于告警的运维方法及装置
CN113672427A (zh) 基于rpa及ai的异常处理方法、装置、设备及介质
CN111865673A (zh) 一种自动化故障管理方法、装置及系统
CN108353086A (zh) 用于监测工业控制系统的部署确保检查
CN117829464A (zh) 业务对象的管理方法、系统和电子设备及存储介质
CN116991677A (zh) 时序异常检测方法、装置、终端设备以及存储介质
CN111835566A (zh) 一种系统故障管理方法、装置及系统
CN109274533B (zh) 一种基于规则引擎的Web服务故障的定位装置和方法
US9691038B2 (en) Method and apparatus for examining workflow processes
CN110674197A (zh) 一种业务操作的可视化配置与抓取系统
GB2557998A (en) Predictive analytics system and method
CN112835780A (zh) 一种业务检测方法及装置
US11947446B2 (en) Systems and methods for customer journey orchestration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190823

WD01 Invention patent application deemed withdrawn after publication