CN107515796B - 一种设备异常监控处理方法及装置 - Google Patents

一种设备异常监控处理方法及装置 Download PDF

Info

Publication number
CN107515796B
CN107515796B CN201710641449.XA CN201710641449A CN107515796B CN 107515796 B CN107515796 B CN 107515796B CN 201710641449 A CN201710641449 A CN 201710641449A CN 107515796 B CN107515796 B CN 107515796B
Authority
CN
China
Prior art keywords
target
state
service
monitored
alarm information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710641449.XA
Other languages
English (en)
Other versions
CN107515796A (zh
Inventor
白敏�
高浩浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qax Technology Group Inc
Secworld Information Technology Beijing Co Ltd
Original Assignee
Qax Technology Group Inc
Secworld Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qax Technology Group Inc, Secworld Information Technology Beijing Co Ltd filed Critical Qax Technology Group Inc
Priority to CN201710641449.XA priority Critical patent/CN107515796B/zh
Publication of CN107515796A publication Critical patent/CN107515796A/zh
Application granted granted Critical
Publication of CN107515796B publication Critical patent/CN107515796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种设备异常监控处理方法及装置,方法包括:对设备的进程及状态进行监控,所述进程包括系统进程和业务进程,所述状态包括系统状态和业务状态;若监控到目标进程或目标状态出现异常,则对所述目标进程或所述目标状态进行修复;若修复成功,则生成第一告警信息,否则生成第二告警信息;其中,所述第一告警信息为告知管理员设备异常已修复,所述第二告警信息为告知管理员设备异常未修复需要人为参与。本发明实施例通过对设备的进程及状态进行监控,当监控到异常时进行自动修复,生成告警信息,形成一个闭环的修复系统,不仅能够自动修复,不影响其它进程的运行,而且能够及时通知管理员,以尽快解决设备无法自动修复的问题。

Description

一种设备异常监控处理方法及装置
技术领域
本发明实施例涉及设备安全技术领域,具体涉及一种设备异常监控处理方法及装置。
背景技术
目前,随着计算机和通信等技术的飞速发展,在通信、计算机、自动控制等领域的软件或硬件系统中,由于多进程并行能够使资源高效使用,因此多进程并行的设计方法被广泛采用。但是随之而来出现了一些新问题,例如多进程系统中的异常监控问题,这个问题在当前新兴的多进程设备中尤为突出。
进程包括系统进程和业务进程,由于系统进程和业务进程的复杂性不同,现有技术往往监控到哪个进程出现问题后,便自动拉起哪个进程,直到管理员发现后进行人为干预,但往往部分进程之间会相互影响,一个进程的拉起会造成其它进程无法正常运行,甚至造成整个系统奔溃,不利用系统的运行。
在实现本发明实施例的过程中,发明人发现现有的方法仅对出现问题的进程进行拉起操作,容易影响其它进程的运行。
发明内容
由于现有方法存在上述问题,本发明实施例提出一种设备异常监控处理方法及装置。
第一方面,本发明实施例提出一种设备异常监控处理方法,包括:
对设备的进程及状态进行监控,所述进程包括系统进程和业务进程,所述状态包括系统状态和业务状态;
若监控到目标进程或目标状态出现异常,则对所述目标进程或所述目标状态进行修复;
若修复成功,则生成第一告警信息,否则生成第二告警信息;
其中,所述第一告警信息为告知管理员设备异常已修复,所述第二告警信息为告知管理员设备异常未修复需要人为参与。
可选地,所述若监控到目标进程或目标状态出现异常,则对所述目标进程或所述目标状态进行修复,具体包括:
若监控到目标进程或目标状态出现异常,则根据系统进程、业务进程、系统状态和业务状态的特征,对所述目标进程或所述目标状态进行修复。
可选地,所述若监控到目标进程或目标状态出现异常,则对所述目标进程或所述目标状态进行修复,具体包括:
若监控到所述系统状态中系统内存超过内存阈值,则优先释放业务进程,最后释放系统进程。
可选地,所述若监控到目标进程或目标状态出现异常,则对所述目标进程或所述目标状态进行修复,具体包括:
若监控到所述业务进程中的分布式全文检索ES集群中的目标节点脱离,则将所述目标节点进行重启,以使所述目标节点重新集群。
可选地,所述若监控到目标进程或目标状态出现异常,则对所述目标进程或所述目标状态进行修复,具体包括:
若监控到所述系统状态中磁盘分区超过存储阈值,则获取预设业务的日志,并删除所述取预设业务的日志。
可选地,所述第二告警信息包括人为干预所用的链接信息。
可选地,所述方法还包括:
采用邮件和/或短信的方式将所述第一告警信息或所述第二告警信息发送所述管理员。
可选地,所述方法还包括:
根据所述第一告警信息或所述第二告警信息,确定告警频率,并根据所述告警频率生成周期性鸣音,以提醒所述管理员设备发生异常。
可选地,所述方法还包括:
将所述目标进程或所述目标状态、以及所述修复的过程和结果记录在设备本地。
第二方面,本发明实施例还提出一种设备异常监控处理装置,包括:
监控模块,用于对设备的进程及状态进行监控,所述进程包括系统进程和业务进程,所述状态包括系统状态和业务状态;
修复模块,用于若监控到目标进程或目标状态出现异常,则对所述目标进程或所述目标状态进行修复;
告警模块,用于若修复成功,则生成第一告警信息,否则生成第二告警信息;
其中,所述第一告警信息为告知管理员设备异常已修复,所述第二告警信息为告知管理员设备异常未修复需要人为参与。
可选地,所述修复模块具体用于若监控到目标进程或目标状态出现异常,则根据系统进程、业务进程、系统状态和业务状态的特征,对所述目标进程或所述目标状态进行修复。
可选地,所述修复模块具体用于若监控到所述系统状态中系统内存超过内存阈值,则优先释放业务进程,最后释放系统进程。
可选地,所述修复模块具体用于若监控到所述业务进程中的分布式全文检索ES集群中的目标节点脱离,则将所述目标节点进行重启,以使所述目标节点重新集群。
可选地,所述修复模块具体用于若监控到所述系统状态中磁盘分区超过存储阈值,则获取预设业务的日志,并删除所述取预设业务的日志。
可选地,所述第二告警信息包括人为干预所用的链接信息。
可选地,所述装置还包括:
信息发送模块,用于采用邮件和/或短信的方式将所述第一告警信息或所述第二告警信息发送所述管理员。
可选地,所述装置还包括:
鸣音提醒模块,用于根据所述第一告警信息或所述第二告警信息,确定告警频率,并根据所述告警频率生成周期性鸣音,以提醒所述管理员设备发生异常。
可选地,所述装置还包括:
记录模块,用于将所述目标进程或所述目标状态、以及所述修复的过程和结果记录在设备本地。
第三方面,本发明实施例还提出一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述方法。
第四方面,本发明实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述方法。
由上述技术方案可知,本发明实施例通过对设备的进程及状态进行监控,当监控到异常时进行自动修复,生成告警信息,形成一个闭环的修复系统,不仅能够自动修复,不影响其它进程的运行,而且能够及时通知管理员,以尽快解决设备无法自动修复的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明一实施例提供的一种设备异常监控处理方法的流程示意图;
图2为本发明一实施例提供的一种设备异常监控处理装置的结构示意图;
图3为本发明一实施例提供的电子设备的逻辑框图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
图1示出了本实施例提供的一种设备异常监控处理方法的流程示意图,包括:
S101、对设备的进程及状态进行监控,所述进程包括系统进程和业务进程,所述状态包括系统状态和业务状态。
其中,所述系统进程为设备的操作系统本身的自带进程。
所述业务进程为用户根据业务需要在设备的操作系统中添加的进程。
所述系统状态包括cpu、内存、磁盘分区使用量等系统级的设备状态。
所述业务状态为各业务对应的应用程序的进程状态。
具体地,为保证设备的正常运行,对设备的系统进程及状态进行监控;为保证业务数据处理不间断,对业务进程及状态进行监控。对各数据进行统计及关联分析,例如A进程异常是否是更新配置引起的正常关闭或者其他进程异常引起的,并将数据及分析结果实时入库(比如ES),以便后续溯源跟踪或者及时查看系统状态和业务状态趋势。
此外,可以对系统正常状态建立基线,各进程及内存、CPU占用情况保存分析报表。同时对实时的信息进行汇总。当任一进程异常或重启,以及资源占用情况在异常范围内,即进行后续的判断及修复操作。
S102、若监控到目标进程或目标状态出现异常,则对所述目标进程或所述目标状态进行修复。
具体地,若监控到目标进程或目标状态出现异常,且异常范围是在自动修复范围内的,则尝试自动修复,并把异常信息及自动修复过程及结果记录在后台日志,以便事后追踪查看。
其中,所述自动修复范围,比如,ES集群,若发现有的节点脱离集群了,则会把该节点重启,让它重新集群。或者某个业务进程挂了,则会尝试它起来。或者磁盘某个分区满了,则尝试删掉业务不相关的日志,以释放空间。或者内存较高,则重启占用内存比较大的进程,等等。
S103、若修复成功,则生成第一告警信息,否则生成第二告警信息。
其中,所述第一告警信息为告知管理员设备异常已修复,所述第二告警信息为告知管理员设备异常未修复需要人为参与。
具体地,若修复成功,则发一个轻量级的告警(邮件、短信),以让管理员知晓此事。若未能修复成功,或者需要人为参与的,则发一个严重级别的告警(邮件、短信),以让管理员尽快参与此事(比如断电,网络连接断开等需要人为参与修复)。
本实施例通过对设备的进程及状态进行监控,当监控到异常时进行自动修复,生成告警信息,形成一个闭环的修复系统,不仅能够自动修复,不影响其它进程的运行,而且能够及时通知管理员,以尽快解决设备无法自动修复的问题。
进一步地,在上述方法实施例的基础上,S102具体包括:
若监控到目标进程或目标状态出现异常,则根据系统进程、业务进程、系统状态和业务状态的特征,对所述目标进程或所述目标状态进行修复。
具体地,所述系统进程或系统状态出现问题后,可能会导致部分业务进程无法运行,甚至会导致整个设备无法正常运行;业务进程或业务状态出现问题后,会导致本进程无法正常运行,也可能会导致部分关联进程出现异常。因此,不同的进程或状态有不同的特征,根据其不同特征进行修复,能够将设备开销降到最低。
进一步地,在上述方法实施例的基础上,S102具体包括:
若监控到所述系统状态中系统内存超过内存阈值,则优先释放业务进程,最后释放系统进程。
具体地,由于系统状态出现问题时可能会导致整个设备无法正常,而业务进程出现问题时仅会影响本身或其关联进程,因此系统状态对应的系统进程的优先级远远高于业务状态对应的业务进程。
举例来说,系统内存超过内存阈值95%,则优先释放占用内存较大的业务进程,当所有业务进程都释放后系统内存仍然超过内存阈值,则释放系统进程。
或者,当cpu使用率超过90%,则认为是不正常的,本实施例也会将占用cpu较大的业务进程释放,直到cpu使用率小于90%。当所有业务进程都释放后cpu使用率仍然超过90%,则释放系统进程。
通过优先释放业务进程,能够最大限度地保证系统的正常运行。
进一步地,在上述方法实施例的基础上,S102具体包括:
若监控到所述业务进程中的分布式全文检索ES集群中的目标节点脱离,则将所述目标节点进行重启,以使所述目标节点重新集群。
通过针对具体业务进程执行对应的修复操作,能够最大限度地保证系统正常运行的前提下,减少系统开销。
进一步地,在上述方法实施例的基础上,S102具体包括:
若监控到所述系统状态中磁盘分区超过存储阈值,则获取预设业务的日志,并删除所述取预设业务的日志。
举例来说,若发现设备日志分区占用比超过了90%,超过了阈值,则自动清除级别较低的业务的日志,或者清楚最近14天之外的日志,设备日志分区占用比降到90%以内后,发一个级别较低的邮件通知管理员此事情。
通过针对具体业务进程执行对应的修复操作,能够最大限度地保证系统正常运行的前提下,减少系统开销。
进一步地,在上述方法实施例的基础上,所述第二告警信息包括人为干预所用的链接信息。
具体地,可以在第二告警信息中添加人为干预所用的链接信息,例如设备登录链接,以方便管理员直接跳转登录,形成异常事件闭环处理。
现有的修复通常简单地将杀死进程尝试拉起,而本实施例会根据业务进程或状态(如es、db等)或系统进程(不能随便杀死重启的或是系统硬件相关的进程)的特点进行不同的修复(如除杀死进程后重新拉起外,还可能重新集群或删掉日志等),是一个闭环的修复,包括自我修复和告警后人为干预,且告警消息中包括便于干预的链接信息。
进一步地,在上述方法实施例的基础上,所述方法还包括:
S104、采用邮件和/或短信的方式将所述第一告警信息或所述第二告警信息发送所述管理员。
S105、根据所述第一告警信息或所述第二告警信息,确定告警频率,并根据所述告警频率生成周期性鸣音,以提醒所述管理员设备发生异常。
具体地,可以将告警信息分为多个告警级别,根据系统异常严重程度,对告警内容划分为以下级别:【通知】、【告警】、【严重】。
告警方式可以包括:邮件、短信、鸣音。
邮件或短信的告警频率可以针对不同异常事件的告警进行id分配。为避免频繁邮件、短信告警,相同id的告警事件,在归并时间段内只能邮件、短信告警一次,避免引起用户的告警信息积压。其中,归并时间段默认为1天,也可在界面进行配置。
邮件或短信的告警内容的标题有告警级别及异常信息提取。比如【严重】192.168.1.1设备网卡down了。具体内容可以包括具体异常信息内容及设备登录地址、修复建议及厂商联系方式。
邮件告警可以采用postfix作为mta,利用python的email模块,组装邮件标题,内容,发送人,收件人,抄送人。并根据不同id的归并时间,进行邮件发送,便于管理员及时方便地获知设备的异常状态。
进一步地,在上述方法实施例的基础上,所述方法还包括:
S106、将所述目标进程或所述目标状态、以及所述修复的过程和结果记录在设备本地。
具体地,对业务进程及业务状态,系统进程及系统状态,包括CPU、内存、存储空间、网卡状态等进行监控,若发现异常,则尝试自我修复,并在本地记录异常状态、数据及修复过程,方便后续追踪。
具体地,在执行本实施例提供的设备异常监控处理方法时,可以包括以下步骤:
A1、对设备进行部署和运行,并对设备的登录进行管理;
A2、对设备异常管理进行配置,例如cpu、磁盘阈值、自动修复次数,告警信息等;
A3、对系统及业务进行监控,并对监控信息实时入库,发现异常后触发修复操作;
A4、自动修复,并在本地记录异常信息;
A5、根据不同级别生成不同的告警信息,告警信息可以包括设备登录地址,便于管理员直接从邮件中登录;
A6、设备管理员及运维人员根据告警邮件链接,直接登录设备进行查看处理。
图2示出了本实施例提供的一种设备异常监控处理装置的结构示意图,所述装置包括:监控模块201、修复模块202和修复模块203,其中:
所述监控模块201用于对设备的进程及状态进行监控,所述进程包括系统进程和业务进程,所述状态包括系统状态和业务状态;
所述修复模块202用于若监控到目标进程或目标状态出现异常,则对所述目标进程或所述目标状态进行修复;
所述修复模块203用于若修复成功,则生成第一告警信息,否则生成第二告警信息;
其中,所述第一告警信息为告知管理员设备异常已修复,所述第二告警信息为告知管理员设备异常未修复需要人为参与。
具体地,所述监控模块201对设备的进程及状态进行监控,所述进程包括系统进程和业务进程,所述状态包括系统状态和业务状态;所述修复模块202若监控到目标进程或目标状态出现异常,则对所述目标进程或所述目标状态进行修复;所述修复模块203若修复成功,则生成第一告警信息,否则生成第二告警信息。
本实施例通过对设备的进程及状态进行监控,当监控到异常时进行自动修复,生成告警信息,形成一个闭环的修复系统,不仅能够自动修复,不影响其它进程的运行,而且能够及时通知管理员,以尽快解决设备无法自动修复的问题。
进一步地,在上述装置实施例的基础上,所述修复模块202具体用于若监控到目标进程或目标状态出现异常,则根据系统进程、业务进程、系统状态和业务状态的特征,对所述目标进程或所述目标状态进行修复。
进一步地,在上述装置实施例的基础上,所述修复模块202具体用于若监控到所述系统状态中系统内存超过内存阈值,则优先释放业务进程,最后释放系统进程。
进一步地,在上述装置实施例的基础上,所述修复模块202具体用于若监控到所述业务进程中的分布式全文检索ES集群中的目标节点脱离,则将所述目标节点进行重启,以使所述目标节点重新集群。
进一步地,在上述装置实施例的基础上,所述修复模块202具体用于若监控到所述系统状态中磁盘分区超过存储阈值,则获取预设业务的日志,并删除所述取预设业务的日志。
进一步地,在上述装置实施例的基础上,所述第二告警信息包括人为干预所用的链接信息。
进一步地,在上述装置实施例的基础上,所述装置还包括:
信息发送模块,用于采用邮件和/或短信的方式将所述第一告警信息或所述第二告警信息发送所述管理员。
进一步地,在上述装置实施例的基础上,所述装置还包括:
鸣音提醒模块,用于根据所述第一告警信息或所述第二告警信息,确定告警频率,并根据所述告警频率生成周期性鸣音,以提醒所述管理员设备发生异常。
进一步地,在上述装置实施例的基础上,所述装置还包括:
记录模块,用于将所述目标进程或所述目标状态、以及所述修复的过程和结果记录在设备本地。
本实施例所述的设备异常监控处理装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
参照图3,所述电子设备,包括:处理器(processor)301、存储器(memory)302和总线303;
其中,
所述处理器301和存储器302通过所述总线303完成相互间的通信;
所述处理器301用于调用所述存储器302中的程序指令,以执行上述各方法实施例所提供的方法。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (16)

1.一种设备异常监控处理方法,其特征在于,包括:
对设备的进程及状态进行监控,所述进程包括系统进程和业务进程,所述状态包括系统状态和业务状态;
若监控到目标进程或目标状态出现异常,则对所述目标进程或所述目标状态进行修复;
若修复成功,则生成第一告警信息,否则生成第二告警信息;
其中,所述第一告警信息为告知管理员设备异常已修复,所述第二告警信息为告知管理员设备异常未修复需要人为参与;
所述若监控到目标进程或目标状态出现异常,则对所述目标进程或所述目标状态进行修复,具体包括:
若监控到所述系统状态中系统内存超过内存阈值,则优先释放业务进程,最后释放系统进程;
若监控到所述系统状态中磁盘分区超过存储阈值,则获取预设业务的日志,并删除所述取预设业务的日志。
2.根据权利要求1所述的方法,其特征在于,所述若监控到目标进程或目标状态出现异常,则对所述目标进程或所述目标状态进行修复,具体包括:
若监控到目标进程或目标状态出现异常,则根据系统进程、业务进程、系统状态和业务状态的特征,对所述目标进程或所述目标状态进行修复。
3.根据权利要求1所述的方法,其特征在于,所述若监控到目标进程或目标状态出现异常,则对所述目标进程或所述目标状态进行修复,具体包括:
若监控到所述业务进程中的分布式全文检索ES集群中的目标节点脱离,则将所述目标节点进行重启,以使所述目标节点重新集群。
4.根据权利要求1所述的方法,其特征在于,所述第二告警信息包括人为干预所用的链接信息。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用邮件和/或短信的方式将所述第一告警信息或所述第二告警信息发送所述管理员。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第一告警信息或所述第二告警信息,确定告警频率,并根据所述告警频率生成周期性鸣音,以提醒所述管理员设备发生异常。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述目标进程或所述目标状态、以及所述修复的过程和结果记录在设备本地。
8.一种设备异常监控处理装置,其特征在于,包括:
监控模块,用于对设备的进程及状态进行监控,所述进程包括系统进程和业务进程,所述状态包括系统状态和业务状态;
修复模块,用于若监控到目标进程或目标状态出现异常,则对所述目标进程或所述目标状态进行修复;
告警模块,用于若修复成功,则生成第一告警信息,否则生成第二告警信息;
其中,所述第一告警信息为告知管理员设备异常已修复,所述第二告警信息为告知管理员设备异常未修复需要人为参与;
所述修复模块具体用于若监控到所述系统状态中系统内存超过内存阈值,则优先释放业务进程,最后释放系统进程;若监控到所述系统状态中磁盘分区超过存储阈值,则获取预设业务的日志,并删除所述取预设业务的日志。
9.根据权利要求8所述的装置,其特征在于,所述修复模块具体用于若监控到目标进程或目标状态出现异常,则根据系统进程、业务进程、系统状态和业务状态的特征,对所述目标进程或所述目标状态进行修复。
10.根据权利要求8所述的装置,其特征在于,所述修复模块具体用于若监控到所述业务进程中的分布式全文检索ES集群中的目标节点脱离,则将所述目标节点进行重启,以使所述目标节点重新集群。
11.根据权利要求8所述的装置,其特征在于,所述第二告警信息包括人为干预所用的链接信息。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括:
信息发送模块,用于采用邮件和/或短信的方式将所述第一告警信息或所述第二告警信息发送所述管理员。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
鸣音提醒模块,用于根据所述第一告警信息或所述第二告警信息,确定告警频率,并根据所述告警频率生成周期性鸣音,以提醒所述管理员设备发生异常。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
记录模块,用于将所述目标进程或所述目标状态、以及所述修复的过程和结果记录在设备本地。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
16.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行如权利要求1至7任一所述的方法。
CN201710641449.XA 2017-07-31 2017-07-31 一种设备异常监控处理方法及装置 Active CN107515796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710641449.XA CN107515796B (zh) 2017-07-31 2017-07-31 一种设备异常监控处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710641449.XA CN107515796B (zh) 2017-07-31 2017-07-31 一种设备异常监控处理方法及装置

Publications (2)

Publication Number Publication Date
CN107515796A CN107515796A (zh) 2017-12-26
CN107515796B true CN107515796B (zh) 2020-08-25

Family

ID=60721776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710641449.XA Active CN107515796B (zh) 2017-07-31 2017-07-31 一种设备异常监控处理方法及装置

Country Status (1)

Country Link
CN (1) CN107515796B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109995547B (zh) * 2017-12-29 2022-04-29 中国移动通信集团甘肃有限公司 一种故障诊断方法及设备
CN109298962B (zh) * 2018-09-03 2024-06-07 中国平安人寿保险股份有限公司 定时任务的监控方法、计算机可读存储介质和终端设备
CN109102669A (zh) * 2018-09-06 2018-12-28 广东电网有限责任公司 一种变电站辅助设施检测控制方法及其装置
CN109669402B (zh) * 2018-09-25 2022-08-19 平安普惠企业管理有限公司 异常监控方法、设备、装置及计算机可读存储介质
CN111064590B (zh) * 2018-10-16 2021-12-14 腾讯科技(深圳)有限公司 异常状态的修复方法、装置及可读存储介质
CN113454605A (zh) * 2018-11-27 2021-09-28 区块链联合香港有限公司 运算设备维护方法及装置、存储介质和程序产品
CN109753417A (zh) * 2018-12-17 2019-05-14 新视家科技(北京)有限公司 异常进程管理方法及其装置、电子设备、计算机可读介质
CN109710442A (zh) * 2018-12-20 2019-05-03 麒麟合盛网络技术股份有限公司 一种任务的执行方法和装置
CN109617733A (zh) * 2018-12-24 2019-04-12 浪潮电子信息产业股份有限公司 一种邮件告警方法、装置、服务器及计算机可读存储介质
CN110011854B (zh) * 2019-04-12 2022-03-04 苏州浪潮智能科技有限公司 Mds故障处理方法、装置、存储系统及计算机可读存储介质
CN110377480A (zh) * 2019-06-17 2019-10-25 百度(中国)有限公司 监测处理方法、装置、系统及计算机可读存储介质
CN112306371A (zh) * 2019-07-30 2021-02-02 伊姆西Ip控股有限责任公司 存储管理的方法、设备和计算机程序产品
CN112350840A (zh) * 2019-08-08 2021-02-09 中移物联网有限公司 一种故障监测和修复的方法及相关设备
CN112445677B (zh) * 2019-09-04 2024-06-18 中国石油化工股份有限公司 一种计算机集群的健康状态检查和修复方法及存储介质
CN110618864A (zh) * 2019-09-19 2019-12-27 北京明略软件系统有限公司 一种中断任务恢复方法及装置
CN111626597A (zh) * 2020-05-22 2020-09-04 广东电网有限责任公司 一种设备报警方法、装置、设备和介质
CN111651322A (zh) * 2020-05-29 2020-09-11 山东中创软件商用中间件股份有限公司 一种进程监控告警方法、系统及装置
CN111761576A (zh) * 2020-06-15 2020-10-13 上海高仙自动化科技发展有限公司 健康监控方法及系统、智能机器人及可读存储介质
CN111813063B (zh) * 2020-06-29 2021-11-19 南昌欧菲光电技术有限公司 一种监控生产设备的方法和装置
CN113256909A (zh) * 2020-12-31 2021-08-13 深圳怡化电脑股份有限公司 设备驱动自恢复的方法、系统、存取款设备和存储介质
CN113760409B (zh) * 2021-09-09 2024-06-18 广州市百果园网络科技有限公司 服务实例管理方法、装置、设备及存储介质
CN114356615A (zh) * 2021-12-07 2022-04-15 广州地铁集团有限公司 基于物联网轨道交通软件与应用故障自愈的解决方法
CN115396278A (zh) * 2022-08-11 2022-11-25 西安雷风电子科技有限公司 一种系统异常处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1464397A (zh) * 2002-06-10 2003-12-31 联想(北京)有限公司 系统进程的保护方法
CN1477509A (zh) * 2002-08-19 2004-02-25 万达信息股份有限公司 一种进程自动恢复方法
CN101739327A (zh) * 2008-11-07 2010-06-16 北大方正集团有限公司 一种对服务进程进行监控修复的方法和系统
CN103634149A (zh) * 2013-11-28 2014-03-12 常州工学院 一种用于分布式系统的监测方法
CN104156299A (zh) * 2014-08-21 2014-11-19 江苏惠居乐信息科技有限公司 一种用于并行系统的监测方法
CN105677501A (zh) * 2016-01-07 2016-06-15 烽火通信科技股份有限公司 Linux系统中基于看门狗的精细化进程监控方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1464397A (zh) * 2002-06-10 2003-12-31 联想(北京)有限公司 系统进程的保护方法
CN1477509A (zh) * 2002-08-19 2004-02-25 万达信息股份有限公司 一种进程自动恢复方法
CN101739327A (zh) * 2008-11-07 2010-06-16 北大方正集团有限公司 一种对服务进程进行监控修复的方法和系统
CN103634149A (zh) * 2013-11-28 2014-03-12 常州工学院 一种用于分布式系统的监测方法
CN104156299A (zh) * 2014-08-21 2014-11-19 江苏惠居乐信息科技有限公司 一种用于并行系统的监测方法
CN105677501A (zh) * 2016-01-07 2016-06-15 烽火通信科技股份有限公司 Linux系统中基于看门狗的精细化进程监控方法及系统

Also Published As

Publication number Publication date
CN107515796A (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
CN107515796B (zh) 一种设备异常监控处理方法及装置
CN109308252B (zh) 一种故障定位处理方法及装置
US9917741B2 (en) Method and system for processing network activity data
US10687306B2 (en) Intelligent throttling and notifications management for monitoring and incident management systems
TW201738747A (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN109257200A (zh) 大数据平台监控的方法和装置
CN103401698A (zh) 用于服务器集群运算中对服务器状况报警的监控系统
EP3439237A1 (en) Exception monitoring and alarming method and device
CN111901422A (zh) 一种集群中节点的管理方法、系统及装置
CN110768828A (zh) 告警处理方法及系统
CN111010318A (zh) 发现物联网终端设备失联的方法、系统和设备影子服务器
CN112910733A (zh) 一种基于大数据的全链路监控系统及方法
CN112162899A (zh) 基于大数据集群服务监控方法及系统
CN103824017A (zh) 监控恶意程序的方法和监控平台
JP2007249741A (ja) 被疑箇所特定装置および処理方法
CN110806924B (zh) 一种基于cpu占用率的网络处理方法及装置
CN111199400A (zh) 区块链网络的安全监控方法及装置
CN112860504A (zh) 监控方法及装置、计算机存储介质、电子设备
CN111756778A (zh) 一种服务器磁盘清理脚本推送的方法、装置和存储介质
CN111949421B (zh) Sdk调用方法、装置、电子设备和计算机可读存储介质
CN102567182A (zh) 远程主机的监控方法
CN111309456B (zh) 一种任务执行方法及系统
CN115712521A (zh) 一种集群节点故障处理方法、系统及介质
CN111610992B (zh) 部署组件更新处理方法、装置及存储介质
CN107294786A (zh) 一种故障信息处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190402

Address after: 100015 15, 17 floor 1701-26, 3 building, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Applicant after: BEIJING QIANXIN TECHNOLOGY Co.,Ltd.

Applicant after: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

Address before: 100015 15, 17 floor 1701-26, 3 building, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Applicant before: BEIJING QIANXIN TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 100088 Building 3 332, 102, 28 Xinjiekouwai Street, Xicheng District, Beijing

Applicant after: QAX Technology Group Inc.

Applicant after: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

Address before: 100015 Jiuxianqiao Chaoyang District Beijing Road No. 10, building 15, floor 17, layer 1701-26, 3

Applicant before: BEIJING QIANXIN TECHNOLOGY Co.,Ltd.

Applicant before: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088

Patentee after: QAX Technology Group Inc.

Patentee after: Qianxin Wangshen information technology (Beijing) Co.,Ltd.

Address before: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088

Patentee before: QAX Technology Group Inc.

Patentee before: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

CP01 Change in the name or title of a patent holder