CN112988441A - 异常处理方法和装置 - Google Patents

异常处理方法和装置 Download PDF

Info

Publication number
CN112988441A
CN112988441A CN202110236506.2A CN202110236506A CN112988441A CN 112988441 A CN112988441 A CN 112988441A CN 202110236506 A CN202110236506 A CN 202110236506A CN 112988441 A CN112988441 A CN 112988441A
Authority
CN
China
Prior art keywords
exception
abnormal
condition
handler
description information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110236506.2A
Other languages
English (en)
Other versions
CN112988441B (zh
Inventor
韩金魁
岳晓敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Qianshi Technology Co Ltd
Original Assignee
Beijing Jingdong Qianshi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Qianshi Technology Co Ltd filed Critical Beijing Jingdong Qianshi Technology Co Ltd
Priority to CN202110236506.2A priority Critical patent/CN112988441B/zh
Publication of CN112988441A publication Critical patent/CN112988441A/zh
Application granted granted Critical
Publication of CN112988441B publication Critical patent/CN112988441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种异常处理方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:监测目标系统运行;当目标系统出现异常状况时,捕获该异常状况对应的详情信息,从所述详情信息中提取该异常状况的异常类型和异常描述信息;将该异常状况的异常类型和异常描述信息输入预先训练的异常解决模型,获得对应于该异常状况的处理程序;执行所述处理程序以解决该异常状况。该实施方式能够实现目标系统异常状况的自动识别和解决。

Description

异常处理方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种异常处理方法和装置。
背景技术
应用系统在运行过程中,不可避免地会出现各种异常状况,如CPU(CentralProcessing Unit,中央处理器)占用过高、内存占用过高、磁盘不足、服务器死机等,目前,处理异常状况的方法为:使用监控装置捕捉异常,向相关人员发送告警信息,主要通过人工方式予以解决。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:人工处理方式响应较慢,效率较低,容易因处理不及时影响业务执行甚至导致应用系统崩溃。
发明内容
有鉴于此,本发明实施例提供一种异常处理方法和装置,能够实现目标系统异常状况的自动识别和解决。
为实现上述目的,根据本发明的一个方面,提供了一种异常处理方法。
本发明实施例的异常处理方法包括:监测目标系统运行;当目标系统出现异常状况时,捕获该异常状况对应的详情信息,从所述详情信息中提取该异常状况的异常类型和异常描述信息;将该异常状况的异常类型和异常描述信息输入预先训练的异常解决模型,获得对应于该异常状况的处理程序;执行所述处理程序以解决该异常状况。
可选地,所述异常解决模型通过以下步骤进行训练:获取与目标系统相关的多个异常处理历史文本,提取每一异常处理历史文本中的异常类型、异常描述信息和处理策略;将所述处理策略转换为可执行的处理程序;转换完成后,每一异常处理历史文本对应的异常类型、异常描述信息和处理程序标识形成一个训练样本;依据所述训练样本训练基于机器学习算法的所述异常解决模型;其中,所述训练样本中的异常类型和异常描述信息作为训练输入数据,所述训练样本中的处理程序标识作为标签数据。
可选地,所述训练样本中进一步包括处理程序标识对应的处理策略;训练所述异常解决模型时,该处理策略与对应的处理程序标识一起作为标签数据。
可选地,所述方法进一步包括:在目标系统出现异常状况之后,确定引发该异常状况的特定对象;在执行获得的处理程序以解决该异常状况之前,将所述特定对象的标识传入所述处理程序。
可选地,所述处理程序包括:可执行脚本、可执行插件和/或可执行Jar包。
为实现上述目的,根据本发明的另一方面,提供了一种异常处理装置。
本发明实施例的异常处理装置包括:异常跟踪单元,用于:监测目标系统运行;当目标系统出现异常状况时,捕获该异常状况对应的详情信息,从所述详情信息中提取该异常状况的异常类型和异常描述信息;异常分析单元,用于:将该异常状况的异常类型和异常描述信息输入预先训练的异常解决模型,获得对应于该异常状况的处理程序;自动解决单元,用于执行所述处理程序以解决该异常状况。
可选地,所述装置进一步包括模型训练单元,用于:获取与目标系统相关的多个异常处理历史文本,提取每一异常处理历史文本中的异常类型、异常描述信息和处理策略;将所述处理策略转换为可执行的处理程序;转换完成后,每一异常处理历史文本对应的异常类型、异常描述信息和处理程序标识形成一个训练样本;依据所述训练样本训练基于机器学习算法的所述异常解决模型;其中,所述训练样本中的异常类型和异常描述信息作为训练输入数据,所述训练样本中的处理程序标识作为标签数据。
可选地,所述训练样本中进一步包括处理程序标识对应的处理策略;训练所述异常解决模型时,该处理策略与对应的处理程序标识一起作为标签数据;所述异常跟踪单元进一步用于:在目标系统出现异常状况之后,确定引发该异常状况的特定对象;在所述自动解决单元执行获得的处理程序以解决该异常状况之前,将所述特定对象的标识传入所述处理程序;以及,所述处理程序包括:可执行脚本、可执行插件和/或可执行Jar包。
为实现上述目的,根据本发明的又一方面,提供了一种电子设备。
本发明的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的异常处理方法。
为实现上述目的,根据本发明的再一方面,提供了一种计算机可读存储介质。
本发明的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明所提供的异常处理方法。
根据本发明的技术方案,上述发明中的实施例具有如下优点或有益效果:
预先获取与目标系统相关的多个异常处理历史文本,并从中提取异常类型、异常描述信息和处理策略,在将处理策略转换为可执行的处理程序之后,形成训练样本,利用该训练样本训练基于机器学习算法的异常解决模型;此后,监测目标系统运行,当目标系统出现异常状况时,获取该异常状况的异常类型和异常描述信息并输入训练完成的异常解决模型,从而得到对应于该异常状况的处理程序;最后,执行该处理程序即可解决该异常状况。通过以上方式,能够基于机器学习模型及时、高效地识别、解决异常状况,克服了现有的人工处理方式固有的响应慢、效率低等缺陷。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明实施例中异常处理方法的主要步骤示意图;
图2是本发明实施例中异常解决模型的训练步骤、使用步骤示意图;
图3是本发明实施例中异常处理装置的组成部分示意图;
图4是根据本发明实施例可以应用于其中的示例性系统架构图;
图5是用来实现本发明实施例中异常处理方法的电子设备结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明的实施例以及实施例中的技术特征可以相互结合。
图1是根据本发明实施例中异常处理方法的主要步骤示意图。
如图1所示,本发明实施例的异常处理方法可具体按照如下步骤执行:
步骤S101:监测目标系统运行;当目标系统出现异常状况时,捕获该异常状况对应的详情信息,从详情信息中提取该异常状况的异常类型和异常描述信息。
在本发明实施例中,目标系统可以是软件系统或者软硬件系统。实际应用中,可以针对目标系统可能出现的不同异常状况采取不同的跟踪策略进行监测和异常捕获,从而得到异常状况对应的详情信息。其中,以上异常状况是对CPU占用过高、内存占用过高、磁盘不足、服务器死机等非正常现象的泛称,异常状况的详情信息指的是目标系统用于记录异常状况的相关数据,如异常状况发生时相关的堆栈信息、通过跟踪策略采集到的服务器负载率、硬盘使用率、Java虚拟机GC(Garbage Collection,垃圾回收)次数等指标。
得到异常状况对应的详情信息之后,可以从中自动提取该异常状况的异常类型和异常描述信息。具体地,异常类型用于从宏观角度表征异常状况所属的预设类别,异常描述信息则可以包括能够具体反映异常状况发生细节和特点的提示、指标等信息。在详情信息中,异常类型和异常描述信息往往处在特定的位置,利用这种规律性可以实现异常类型和异常描述信息的自动提取。可以理解,结合异常类型和异常描述信息能够准确描述和定位任意一个异常状况。以下通过几个示例对上述跟踪策略及异常类型和异常描述信息提取进行说明。
针对基于Java(一种面向对象的编程语言)的目标系统,可以在目标系统中引入跟踪插件,当目标系统启动后,跟踪插件启动,向Java虚拟机注册全局异常捕获器,当目标系统发生异常状况时,异常状况对应的异常堆栈信息(属于以上详情信息)会进入异常捕获器。该异常堆栈信息具有以下规律:第一行代码中,“Caused by:”之后的字符串为异常类型,异常类型后冒号之后的字符串为异常描述信息。利用以上规律可以从上述异常堆栈信息中提取异常类型“NoSuchMethodError”(表示未找到所需方法)和异常描述信息“com.xxx.sketch.compile.Compiler.generateClass”(表示Compiler类中未找到所需方法)。
针对“服务器过载”异常,可以开发相应的插件引入目标系统,目标系统启动后,采用守护线程技术监控服务器的CPU、内存等负载情况。当目标系统发生过载时,该插件获取服务器状态监控信息(属于以上详情信息),并从中确定异常类型为“服务器过载”、异常描述信息为“92%”(表示当前服务器负载率为92%)。
针对“磁盘空间不足”异常,可以开发相应的插件引入目标系统,目标系统启动后,采用守护线程技术监控磁盘使用率情况。当磁盘空间不足时,该插件获取磁盘监控信息(属于以上详情信息),并从中确定异常类型为“磁盘空间不足”、异常描述信息为“96%”(表示当前磁盘占用96%)。
针对“GC次数偏大”异常,可以开发相应的插件引入目标系统,目标系统启动后,采用守护线程技术监控GC次数。当GC次数超过阈值时,该插件获取GC情况监控信息(属于以上详情信息),并从中确定异常类型为“GC次数偏大”、异常描述信息为“6”(表示当前GC次数为6)。
特别地,目标系统出现某种异常状况时,在执行前述详情信息捕获以及异常类型和异常描述信息提取之前、之后或同时,基于上述跟踪策略还可以确定引发该异常状况的特定对象。以上特定对象可以是与目标系统相关的类、Jar(Java Archive,Java归档)包、文件等,实际应用中,可以通过检测日志等方式确定引发异常状况的特定对象,这有助于后续流程的执行,具体内容将在下文说明。
步骤S102:将该异常状况的异常类型和异常描述信息输入预先训练的异常解决模型,获得对应于该异常状况的处理程序。
在执行本步骤之前,需要预先训练基于机器学习算法的异常解决模型,异常解决模型的训练步骤和使用步骤如图2所示。
较佳地,异常解决模型的训练步骤如下:首先,获取与目标系统相关的多个异常处理历史文本,提取每一异常处理历史文本中的异常类型、异常描述信息和针对异常的处理策略。例如,如果目标系统为Java系统,可以利用爬虫技术从互联网相关平台抓取与Java异常处理相关的文本,并利用文本的标题、关键词等确定每一文本中的异常类型、异常描述信息和处理策略,如,某文本的标题为“遇到NoSuchMethodError的通用解决思路”,则可根据预设策略将“NoSuchMethodError”确定为异常类型;某文本正文中如果存在“具体”、“描述”、“详情”等关键词时,可以对关键词前后的相关内容进行分析进而确定异常描述信息;某文本正文中如果存在“方法”、“解决”、“策略”等关键词时,可以对关键词前后的相关内容进行分析进而确定处理策略。
实际应用中,还可以在相关界面手动输入某异常状况的异常类型、异常描述信息和采用的处理策略。通过以上两种方式获取的四条示例数据如下表所示。
Figure BDA0002960635730000061
Figure BDA0002960635730000071
此后,根据预设规则将每条数据中的处理策略转换为可执行的处理程序,示例性地,以上处理程序可以是可执行脚本、可执行插件和/或可执行Jar包,以上转换可以通过人工执行,也可以通过程序自动执行。
例如,对于“排除core-3.1.1.jar包”,可以首先执行Maven(一种Java项目构建系统)命令标记引发异常状况的Jar包(该Jar包即为前述特定对象,其标识——如名称可以在处理程序执行前传入),接着得到正确Jar包的版本依赖,之后修改pom(Project ObjectModel,项目对象模型)文件进行Jar包排除,从而生成“排除core-3.1.1.jar包”对应的Shell(一种用C语言编写的程序)脚本(名称例如a.sh)。可以理解,在Shell脚本中,使用固定参数表示引发异常状况的Jar包(即特定对象),在执行Shell脚本之前,执行前述跟踪逻辑的模块会将目标系统中特定对象的标识(如名称)传入Shell脚本,以定位实际需要排除的Jar包。
再如,对于“删除无用日志”,可以生成相应的Shell脚本(名称例如b.sh)作为处理程序来删除数天前的日志。对于“系统拒绝请求”,可以生成相应的可执行Jar包(名称例如c.jar),其中采用字节码增强技术实现针对用户请求的全局拦截。对于“扩展虚拟机内存”,可以生成用于加大内存的Shell脚本(名称例如d.sh)。这样,即可得到下表。
Figure BDA0002960635730000072
Figure BDA0002960635730000081
在执行以上转换后,上表中的每一条记录即形成一个训练样本。实际应用中,训练样本也可以没有“处理策略”字段,仅有“异常类型”、“异常描述信息”和“处理程序标识”字段。
此后,可以依据上述训练样本训练异常解决模型,训练时,使用有监督学习方法,训练样本中的异常类型和异常描述信息作为训练输入数据,训练样本中的处理程序标识作为标签数据。异常解决模型可以基于朴素贝叶斯、决策树等分类算法构建,以下以决策树为例对训练流程进行说明。
首先将所有训练样本组成的训练集作为决策树的根节点,根据预设的分裂规则逐一确定每次分裂采用的分裂属性(如异常类型或异常描述信息),此后基于确定的分裂属性从根节点进行至少一次分裂处理,直到分裂处理形成的节点满足终止条件,满足终止条件的节点即为终止节点;当所有终止节点确定后,即形成决策树。
在步骤S102中,得到训练完成的异常解决模型之后,可以将根据步骤S101得到的异常状况的异常类型和异常描述信息输入该异常解决模型,即可得到对应于该异常状况的处理程序标识(如处理程序名称),进而确定相应的处理程序,该处理程序即为能够解决相应异常状况的程序。可以理解,当训练样本中包含处理策略时,输入该异常解决模型还可得到对应于该异常状况的处理策略,该处理策略可以在相应界面向相关人员展示。
通过以上设置,异常解决模型会借助不断更新的训练集不断优化,从而具有不断提高的异常识别与处理能力。
步骤S103:执行处理程序以解决该异常状况。
在本步骤中,可以执行经异常解决模型确定的处理程序以自动解决异常状况,从而实现及时、高效的异常状况识别和解决。可以理解,对于处理程序a.sh,由于该处理程序执行前已包含经跟踪逻辑确定、并传入处理程序的特定对象标识,因此执行该处理程序能够准确排除目标系统中的特定对象。
在本发明实施例的技术方案中,预先获取与目标系统相关的多个异常处理历史文本,并从中提取异常类型、异常描述信息和处理策略,在将处理策略转换为可执行的处理程序之后,形成训练样本,利用该训练样本训练基于机器学习算法的异常解决模型;此后,监测目标系统运行,当目标系统出现异常状况时,获取该异常状况的异常类型和异常描述信息并输入训练完成的异常解决模型,从而得到对应于该异常状况的处理程序;最后,执行该处理程序即可解决该异常状况。通过以上方式,能够基于机器学习模型及时、高效地识别、解决异常状况,克服了现有的人工处理方式固有的响应慢、效率低等缺陷。
需要说明的是,对于前述的各方法实施例,为了便于描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,某些步骤事实上可以采用其它顺序进行或者同时进行。此外,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是实现本发明所必须的。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图3所示,本发明实施例提供的异常处理装置300可以包括:异常跟踪单元301、异常分析单元302和自动解决单元303。
其中,异常跟踪单元301用于:监测目标系统运行;当目标系统出现异常状况时,捕获该异常状况对应的详情信息,从所述详情信息中提取该异常状况的异常类型和异常描述信息;异常分析单元302用于:将该异常状况的异常类型和异常描述信息输入预先训练的异常解决模型,获得对应于该异常状况的处理程序;自动解决单元303用于执行所述处理程序以解决该异常状况。
在本发明实施例中,所述装置300可进一步包括模型训练单元,用于:获取与目标系统相关的多个异常处理历史文本,提取每一异常处理历史文本中的异常类型、异常描述信息和处理策略;将所述处理策略转换为可执行的处理程序;转换完成后,每一异常处理历史文本对应的异常类型、异常描述信息和处理程序标识形成一个训练样本;依据所述训练样本训练基于机器学习算法的所述异常解决模型;其中,所述训练样本中的异常类型和异常描述信息作为训练输入数据,所述训练样本中的处理程序标识作为标签数据。
作为一个优选方案,所述训练样本中进一步包括处理程序标识对应的处理策略;训练所述异常解决模型时,该处理策略与对应的处理程序标识一起作为标签数据;所述异常跟踪单元301可进一步用于:在目标系统出现异常状况之后,确定引发该异常状况的特定对象;在所述自动解决单元303执行获得的处理程序以解决该异常状况之前,将所述特定对象的标识传入所述处理程序;以及,所述处理程序包括:可执行脚本、可执行插件和/或可执行Jar包。
根据本发明实施例的技术方案,预先获取与目标系统相关的多个异常处理历史文本,并从中提取异常类型、异常描述信息和处理策略,在将处理策略转换为可执行的处理程序之后,形成训练样本,利用该训练样本训练基于机器学习算法的异常解决模型;此后,监测目标系统运行,当目标系统出现异常状况时,获取该异常状况的异常类型和异常描述信息并输入训练完成的异常解决模型,从而得到对应于该异常状况的处理程序;最后,执行该处理程序即可解决该异常状况。通过以上方式,能够基于机器学习模型及时、高效地识别、解决异常状况,克服了现有的人工处理方式固有的响应慢、效率低等缺陷。
图4示出了可以应用本发明实施例的异常处理方法或异常处理装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405(此架构仅仅是示例,具体架构中包含的组件可以根据申请具体情况调整)。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如异常处理应用(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所操作的异常处理应用提供支持的后台服务器(仅为示例)。服务器405可以对接收到的异常处理请求等进行处理,并将处理结果(例如是否解决了异常状况--仅为示例)反馈给终端设备401、402、403。
需要说明的是,本发明实施例所提供的异常处理方法一般由服务器405执行,相应地,异常处理装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
本发明还提供了一种电子设备。本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的异常处理方法。
下面参考图5,其示出了适于用来实现本发明实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有计算机系统500操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文的主要步骤图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在上述实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括异常跟踪单元、异常分析单元和自动解决单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,异常跟踪单元还可以被描述为“向异常分析单元提供异常状况的异常类型和异常描述信息的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中的。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该设备执行时,使得该设备执行的步骤包括:监测目标系统运行;当目标系统出现异常状况时,捕获该异常状况对应的详情信息,从所述详情信息中提取该异常状况的异常类型和异常描述信息;将该异常状况的异常类型和异常描述信息输入预先训练的异常解决模型,获得对应于该异常状况的处理程序;执行所述处理程序以解决该异常状况。
在本发明实施例的技术方案中,预先获取与目标系统相关的多个异常处理历史文本,并从中提取异常类型、异常描述信息和处理策略,在将处理策略转换为可执行的处理程序之后,形成训练样本,利用该训练样本训练基于机器学习算法的异常解决模型;此后,监测目标系统运行,当目标系统出现异常状况时,获取该异常状况的异常类型和异常描述信息并输入训练完成的异常解决模型,从而得到对应于该异常状况的处理程序;最后,执行该处理程序即可解决该异常状况。通过以上方式,能够基于机器学习模型及时、高效地识别、解决异常状况,克服了现有的人工处理方式固有的响应慢、效率低等缺陷。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种异常处理方法,其特征在于,包括:
监测目标系统运行;当目标系统出现异常状况时,捕获该异常状况对应的详情信息,从所述详情信息中提取该异常状况的异常类型和异常描述信息;
将该异常状况的异常类型和异常描述信息输入预先训练的异常解决模型,获得对应于该异常状况的处理程序;
执行所述处理程序以解决该异常状况。
2.根据权利要求1所述的方法,其特征在于,所述异常解决模型通过以下步骤进行训练:
获取与目标系统相关的多个异常处理历史文本,提取每一异常处理历史文本中的异常类型、异常描述信息和处理策略;
将所述处理策略转换为可执行的处理程序;转换完成后,每一异常处理历史文本对应的异常类型、异常描述信息和处理程序标识形成一个训练样本;
依据所述训练样本训练基于机器学习算法的所述异常解决模型;其中,所述训练样本中的异常类型和异常描述信息作为训练输入数据,所述训练样本中的处理程序标识作为标签数据。
3.根据权利要求2所述的方法,其特征在于,所述训练样本中进一步包括处理程序标识对应的处理策略;训练所述异常解决模型时,该处理策略与对应的处理程序标识一起作为标签数据。
4.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
在目标系统出现异常状况之后,确定引发该异常状况的特定对象;
在执行获得的处理程序以解决该异常状况之前,将所述特定对象的标识传入所述处理程序。
5.根据权利要求1-4任一所述的方法,其特征在于,所述处理程序包括:可执行脚本、可执行插件和/或可执行Jar包。
6.一种异常处理装置,其特征在于,包括:
异常跟踪单元,用于:监测目标系统运行;当目标系统出现异常状况时,捕获该异常状况对应的详情信息,从所述详情信息中提取该异常状况的异常类型和异常描述信息;
异常分析单元,用于:将该异常状况的异常类型和异常描述信息输入预先训练的异常解决模型,获得对应于该异常状况的处理程序;
自动解决单元,用于执行所述处理程序以解决该异常状况。
7.根据权利要求6所述的装置,其特征在于,所述装置进一步包括模型训练单元,用于:
获取与目标系统相关的多个异常处理历史文本,提取每一异常处理历史文本中的异常类型、异常描述信息和处理策略;将所述处理策略转换为可执行的处理程序;转换完成后,每一异常处理历史文本对应的异常类型、异常描述信息和处理程序标识形成一个训练样本;依据所述训练样本训练基于机器学习算法的所述异常解决模型;其中,所述训练样本中的异常类型和异常描述信息作为训练输入数据,所述训练样本中的处理程序标识作为标签数据。
8.根据权利要求7所述的装置,其特征在于,所述训练样本中进一步包括处理程序标识对应的处理策略;训练所述异常解决模型时,该处理策略与对应的处理程序标识一起作为标签数据;
所述异常跟踪单元进一步用于:在目标系统出现异常状况之后,确定引发该异常状况的特定对象;在所述自动解决单元执行获得的处理程序以解决该异常状况之前,将所述特定对象的标识传入所述处理程序;以及,
所述处理程序包括:可执行脚本、可执行插件和/或可执行Jar包。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN202110236506.2A 2021-03-03 2021-03-03 异常处理方法和装置 Active CN112988441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110236506.2A CN112988441B (zh) 2021-03-03 2021-03-03 异常处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110236506.2A CN112988441B (zh) 2021-03-03 2021-03-03 异常处理方法和装置

Publications (2)

Publication Number Publication Date
CN112988441A true CN112988441A (zh) 2021-06-18
CN112988441B CN112988441B (zh) 2024-04-05

Family

ID=76352436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110236506.2A Active CN112988441B (zh) 2021-03-03 2021-03-03 异常处理方法和装置

Country Status (1)

Country Link
CN (1) CN112988441B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117539674A (zh) * 2024-01-09 2024-02-09 腾讯科技(深圳)有限公司 异常处理方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0561697A (ja) * 1991-09-03 1993-03-12 Nec Corp 障害復旧処理装置
US5907708A (en) * 1996-06-03 1999-05-25 Sun Microsystems, Inc. System and method for facilitating avoidance of an exception of a predetermined type in a digital computer system by providing fix-up code for an instruction in response to detection of an exception condition resulting from execution thereof
CN102831513A (zh) * 2012-07-20 2012-12-19 大连理工大学 面向集装箱物流领域的物联网应用层中间件与信息融合集成方法
US20180159871A1 (en) * 2016-12-02 2018-06-07 F-Secure Corporation Machine Learning Based Malware Detection System
CN111104242A (zh) * 2019-12-20 2020-05-05 青岛海尔科技有限公司 基于深度学习的操作系统的异常日志的处理方法及装置
US20200218553A1 (en) * 2019-01-07 2020-07-09 International Business Machines Corporation Selective stack trace generation during java exception handling
CN112291258A (zh) * 2020-11-12 2021-01-29 杭州比智科技有限公司 网关风险控制方法及装置
CN112306722A (zh) * 2019-07-26 2021-02-02 北京京东乾石科技有限公司 识别故障的方法、装置、设备和计算机可读介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0561697A (ja) * 1991-09-03 1993-03-12 Nec Corp 障害復旧処理装置
US5907708A (en) * 1996-06-03 1999-05-25 Sun Microsystems, Inc. System and method for facilitating avoidance of an exception of a predetermined type in a digital computer system by providing fix-up code for an instruction in response to detection of an exception condition resulting from execution thereof
CN102831513A (zh) * 2012-07-20 2012-12-19 大连理工大学 面向集装箱物流领域的物联网应用层中间件与信息融合集成方法
US20180159871A1 (en) * 2016-12-02 2018-06-07 F-Secure Corporation Machine Learning Based Malware Detection System
US20200218553A1 (en) * 2019-01-07 2020-07-09 International Business Machines Corporation Selective stack trace generation during java exception handling
CN112306722A (zh) * 2019-07-26 2021-02-02 北京京东乾石科技有限公司 识别故障的方法、装置、设备和计算机可读介质
CN111104242A (zh) * 2019-12-20 2020-05-05 青岛海尔科技有限公司 基于深度学习的操作系统的异常日志的处理方法及装置
CN112291258A (zh) * 2020-11-12 2021-01-29 杭州比智科技有限公司 网关风险控制方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117539674A (zh) * 2024-01-09 2024-02-09 腾讯科技(深圳)有限公司 异常处理方法、装置、设备及存储介质
CN117539674B (zh) * 2024-01-09 2024-05-07 腾讯科技(深圳)有限公司 异常处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112988441B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
US20220092102A1 (en) Clustering of log messages
CN109743311B (zh) 一种WebShell检测方法、装置及存储介质
CN107506256B (zh) 一种崩溃数据监控的方法和装置
CN109471783B (zh) 预测任务运行参数的方法和装置
CN111190888A (zh) 一种管理图数据库集群的方法和装置
EP3637292B1 (en) Determination device, determination method, and determination program
CN113141360B (zh) 网络恶意攻击的检测方法和装置
US10839168B2 (en) Dynamic automation of pipeline creation
US11934287B2 (en) Method, electronic device and computer program product for processing data
WO2011092182A1 (en) Systems and methods for finding star structures as communities in networks
US10187264B1 (en) Gateway path variable detection for metric collection
CN112988441B (zh) 异常处理方法和装置
CN112037865B (zh) 物种科学名称确定方法、装置、电子设备及存储介质
CN115495740A (zh) 一种病毒检测方法和装置
CN113392311A (zh) 字段搜索方法、字段搜索装置、电子设备及存储介质
CN114169318A (zh) 进程识别方法、装置、设备、介质和程序
CN113704203A (zh) 一种日志文件的处理方法及装置
CN116910756B (zh) 一种恶意pe文件的检测方法
CN112527880B (zh) 大数据集群元数据信息的采集方法、装置、设备及介质
CN112699010A (zh) 处理崩溃日志的方法和装置
CN109582534B (zh) 系统的操作入口的确定方法、装置和服务器
CN117149206A (zh) 许可证信息的采集方法、装置、电子设备及存储介质
CN112948261A (zh) 针对代码检测结果的审计方法和装置
CN112988528A (zh) 日志处理方法、装置及容器组
CN117170925A (zh) 处理系统故障的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant