CN113535449B - 异常事件修复处理方法、装置、计算机设备及存储介质 - Google Patents

异常事件修复处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113535449B
CN113535449B CN202110775006.6A CN202110775006A CN113535449B CN 113535449 B CN113535449 B CN 113535449B CN 202110775006 A CN202110775006 A CN 202110775006A CN 113535449 B CN113535449 B CN 113535449B
Authority
CN
China
Prior art keywords
abnormal
repair
preset
information
triplet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110775006.6A
Other languages
English (en)
Other versions
CN113535449A (zh
Inventor
张付东
徐旭明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110775006.6A priority Critical patent/CN113535449B/zh
Publication of CN113535449A publication Critical patent/CN113535449A/zh
Application granted granted Critical
Publication of CN113535449B publication Critical patent/CN113535449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种异常事件修复处理方法、装置、计算机设备及存储介质,该方法通过接收异常事件信息;所述异常事件信息关联异常修复对象;将所述异常事件信息输入至预设异常处理模型中,以通过所述预设异常处理模型确定与所述异常事件信息匹配的异常处理三元组;所述异常处理三元组中包括异常修复信息以及异常验证信息;针对所述异常事件信息,根据所述异常修复信息对所述异常修复对象进行异常修复,得到异常修复结果;根据所述异常验证信息对所述异常修复结果进行验证,得到异常验证结果,并在所述异常验证结果表征异常修复成功时,确定所述异常修复对象修复完成。本发明实现了系统故障自愈,提高了异常修复的效率以及准确率。

Description

异常事件修复处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及检测模型技术领域,尤其涉及一种异常事件修复处理方法、装置、计算机设备及存储介质。
背景技术
监控报警是互联网技术非常重要的一环。通过监控能够及时了解到服务系统等的运行状态。在服务系统出现异常状况时,通过报警通知相关运维人员进行人工修复异常的方式,避免影响服务系统的正常使用。
在传统的运维方式中,由于故障感知判断、流量调度决策的复杂性,通常需要运维人员对服务系统发出的异常报警进行人工修复,但是通过人工修复的方式存在以下不足:人工修复的时间周期较长,进而导致系统异常修复的效率较低。
发明内容
本发明实施例提供一种异常事件修复处理方法、装置、计算机设备及存储介质,以解决系统异常修复的效率较低的问题。
一种异常事件修复处理方法,包括:
接收异常事件信息;所述异常事件信息关联异常修复对象;
将所述异常事件信息输入至预设异常处理模型中,以通过所述预设异常处理模型确定与所述异常事件信息匹配的异常处理三元组;所述异常处理三元组中包括异常修复信息以及异常验证信息;
针对所述异常事件信息,根据所述异常修复信息对所述异常修复对象进行异常修复,得到异常修复结果;
根据所述异常验证信息对所述异常修复结果进行验证,得到异常验证结果,并在所述异常验证结果表征异常修复成功时,确定所述异常修复对象修复完成。
一种异常事件修复处理装置,包括:
异常事件信息接收模块,用于接收异常事件信息;所述异常事件信息关联异常修复对象;
异常处理三元组确定模块,用于将所述异常事件信息输入至预设异常处理模型中,以通过所述预设异常处理模型确定与所述异常事件信息匹配的异常处理三元组;所述异常处理三元组中包括异常修复信息以及异常验证信息;
异常修复执行模块,用于针对所述异常事件信息,根据所述异常修复信息对所述异常修复对象进行异常修复,得到异常修复结果;
异常修复校验模块,用于根据所述异常验证信息对所述异常修复结果进行验证,得到异常验证结果,并在所述异常验证结果表征异常修复成功时,确定所述异常修复对象修复完成。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述异常事件修复处理方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述异常事件修复处理方法。
上述异常事件修复处理方法、装置、计算机设备及存储介质,该方法通过接收异常事件信息;所述异常事件信息关联异常修复对象;将所述异常事件信息输入至预设异常处理模型中,以通过所述预设异常处理模型确定与所述异常事件信息匹配的异常处理三元组;所述异常处理三元组中包括异常修复信息以及异常验证信息;针对所述异常事件信息,根据所述异常修复信息对所述异常修复对象进行异常修复,得到异常修复结果;根据所述异常验证信息对所述异常修复结果进行验证,得到异常验证结果,并在所述异常验证结果表征异常修复成功时,确定所述异常修复对象修复完成。
本发明通过预先训练完成的预设异常处理模型确定出可以解决异常事件信息中的异常的解决方案(也即修复信息),实现了系统故障自愈,进而提高了系统异常修复的效率以及准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中异常事件修复处理方法的一应用环境示意图;
图2是本发明一实施例中异常事件修复处理方法的一流程图;
图3是本发明一实施例中异常事件修复处理方法中步骤S20的一流程图;
图4是本发明一实施例中异常事件修复处理装置的一原理框图;
图5是本发明一实施例中异常事件修复处理装置中异常处理三元组确定模块的一原理框图;
图6是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的异常事件修复处理方法,该异常事件修复处理方法可应用如图1所示的应用环境中。具体地,该异常事件修复处理方法应用在异常事件修复处理系统中,该异常事件修复处理系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决系统异常修复的效率较低的问题。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种异常事件修复处理方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:接收异常事件信息;所述异常事件信息关联异常修复对象;
可以理解地,异常事件信息可以为企业的服务系统发生异常时抛出的异常信息,该异常事件信息中包括但不限于如监控告警级别、异常修复对象、告警监控项、监控项描述、告警表达式、告警系统名称、连续告警次数、监控执行频率、异常触发事件、脚本内容描述或者监控告警内容等。进一步地,异常事件信息可以为json格式。异常修复对象是指发生异常且与异常事件信息关联的服务模块、网络等设备。
在一实施例中,步骤S10中,包括:
通过MQ或者API接口,实时接收来自服务器集群的所述异常事件信息;
或者
通过轮询接口,定时接收来自服务器集群的所述异常事件信息。
可理解地,所述服务器集群包含有多个服务器的群体,所述MQ(message queuing)接口为消息队列管理器接口,通过所述MQ接口,实时接收来自服务器集群输出的所述异常事件信息,所述MQ接口提供基于队列的消息服务的接口,所述MQ接口提供的通讯模式包括点对点通讯、多点广播、发布/订阅模式和群集模式,所述MQ接口可以根据需求选择不同的通讯模式,提供了接收时间数据的多样性,其中,所述MQ接口的特点为异步、解耦、广播和流控,所述异步为所述MQ接口中的消息队列本身是异步的,它允许接收者在消息发送很长时间后再取回消息;所述解耦为所述MQ接口中的消息队列减少了服务之间的耦合性,不同的服务可以通过消息队列进行通信,无需关心彼此的实现细节,只要定义好消息的格式即可;所述广播为所述MQ接口中的消息队列能以广播方式发送消息;所述流控为当上下游系统处理能力存在差距的时候,利用所述MQ接口中的消息队列做一个通用的”载体”,在下游有能力处理的时候,再进行分发与处理。
其中,所述API(Application Programming Interface)接口为应用程序接口,所述API接口提供了基于应用程序提供的消息服务的接口,即为与应用程序进行消息传输提供的接口,所述API接口提供了简单、统一和对称性的特性,能够规范所有应用程序的接口,通过所述API接口,实时接收来自服务器集群的所述异常事件信息。
S20:将所述异常事件信息输入至预设异常处理模型中,以通过所述预设异常处理模型确定与所述异常事件信息匹配的异常处理三元组;所述异常处理三元组中包括异常修复信息以及异常验证信息;
可以理解地,预设异常处理模型是通过大量历史异常数据以及异常解决方案训练得到的。其中,历史异常数据为历史上系统发生的异常事件信息;异常解决方案为历史运维人员或者其它系统针对历史异常数据进行修复的方案。进一步地,预设异常处理模型可以通过大量历史异常数据以及异常解决方案对基于如决策树、随机森林或者线性回归等算法模型进行训练得到。异常修复信息中包括异常修复方案,也即该异常修复信息指示异常修复操作。异常验证信息中包括运维修复指标,例如针对系统的CPU(Central ProcessingUnit)占用率升高到90%这一异常事件信息,对应的异常验证信息可以为CPU占用率降低至30%等。
在一实施例中,如图3所示,步骤S20中,包括:
S201:对所述异常事件信息进行实体识别以及意图特征提取,确定所述异常事件信息中的异常实体以及异常意图;
可以理解地,异常实体表征了异常事件信息中关键的实体以及实体分布;异常意图表征了异常事件信息中的动作意图;示例性地,假设异常事件信息为系统的CPU占用率升高到90%,则对应的异常实体为CPU占用率,异常意图为升高到90%。
在一实施例中,步骤S201中,所述对所述异常事件信息进行实体识别以及意图特征提取,确定所述异常事件信息中的异常实体以及异常意图,包括:
运用降维因式分解法,对所述异常事件信息进行降维处理,得到降维信息向量;
可以理解地,所述降维因式分解法为词嵌入向量参数的因式分解,将词嵌入向量参数由O(V*H)降低至O(V*E+E*H),例如:V=30000,H=4096,E=128,那么原先参数为V*H=30000*4096=1.23亿个参数,现在则为V*E+E*H=30000*128+128*4096=384万+52万=436万,词嵌入相关的参数变化前是变换后的28倍,所述降维处理为运用所述降维因式分解法进行处理的过程。
对所述降维信息向量进行所述意图特征提取,得到意图输出向量;以及对所述降维信息向量进行所述实体抽取处理,得到实体输出向量;
可以理解地,意图输出向量为通过对降维信息向量进行意图特征提取及池化后输出的向量,意图输出向量可以为768维(768dim)的特征向量图。实体输出向量为通过对降维信息向量进行实体抽取处理后提取出的向量,实体输出向量也可以为768维(768dim)的特征向量图。
通过所述预设异常处理模型中的softmax层对所述意图输出向量进行激活处理,得到所述异常意图;
可以理解地,通过预设异常处理模型中的全连接层的所述softmax层对意图输出向量进行激活处理,其中,神经元数为意图种类的数量,通过激活处理可以得到各个意图种类的概率值,从而得到异常意图。示例性地,假设异常事件信息为系统的CPU占用率升高到90%,则对应的异常实体为CPU占用率,异常意图为升高到90%。
根据所述异常意图对所述实体输出向量进行增维处理,并对增维处理后的所述实体输出向量进行实体分类,得到所述异常实体。
可以理解地,增维处理为对实体输出向量的基础上增加异常意图的维度,增加的异常意图的宽度与实体输出向量的宽度一致,如此可以对每个实体输出向量中的特征与异常意图关联,从而对增维处理后的实体输出向量进行更加切合异常意图的实体分类,从而得到异常实体。
S202:自所述预设异常处理模型的预设异常处理数据库中查询与所述异常实体以及所述异常意图均匹配的预设三元组,并将匹配的预设三元组记录为待推荐三元组;所述预设异常处理数据库中包括至少一个所述预设三元组;
可以理解地,预设异常处理数据库为设置在预设异常处理模型中用于存储预设三元组的存储载体。其中,预设三元组中包括修复信息、验证信息以及修复推荐值。修复信息是指针对异常事件的修复方案;验证信息是指通过修复信息中的修复方案对异常事件进行修复之后需要达到的指标,也即不再发生异常事件时的验证目标;修复推荐值是推荐修复信息对异常事件进行修复的数值,可以理解地,针对一个异常事件可能存在多个修复信息,且不同的修复信息对异常事件的修复效率,准确率可能并不相同,因此可以通过推荐修复值对每一个不同的修复信息进行设定推荐度,修复效果越好的修复信息的修复推荐值越高。
具体地,在对所述异常事件信息进行实体识别以及意图特征提取,确定所述异常事件信息中的异常实体以及异常意图之后,获取预设异常处理模型的预设异常处理数据库中所有的预设三元组,进而可以确定各预设三元组中的修复信息中的内容,将异常实体以及异常意图与各预设三元组的修复信息进行匹配,进而将包含异常实体以及异常意图的修复信息对应的预设三元组记录为待推荐三元组。可以理解地,针对一个异常事件信息,可能存在多个匹配的修复信息,也即可以通过不同的修复信息中的修复方案对异常事件信息对应的异常修复对象进行修复。
在一实施例中,步骤S202之前,还包括:
获取异常样本数据集以及根据知识图谱构建的预设异常知识数据库;所述异常样本数据集中包含至少一个异常样本信息以及与所述异常样本信息对应修复信息以及验证信息。
可以理解地,异常样本数据集是通过收集大量异常样本信息(系统的CPU占用率升高到90%)、修复信息(例如针对CPU占用率升高问题,通过检测并修复CPU故障等处理方式)以及验证信息(如验证CPU占用率是否降低至30%等)等得到的。异常样本信息是通过随机爬取运维系统上历史发生过的异常数据得到。预设异常知识数据库指的是通过知识图谱框架,并根据从如知网、书籍或者历史异常检测报告等知识数据收集到的权威数据构建生成的数据库。进一步地,在异常样本数据集中包括至少一个异常样本信息,且一个异常样本信息与一个修复信息以及一个验证信息关联。
根据所述异常样本信息以及与其对应的所述修复信息构建异常实体关系,并获取每一所述异常实体关系在所述预设异常知识数据库中的支持频率。
可以理解地,异常实体关系指的是每一异常样本信息与对应的修复信息之间的关系,示例性地,假设异常样本信息A对应的有修复信息B以及修复信息C,则异常样本信息A与修复信息B为一组样本实体关系;异常样本信息A与修复信息C为另一组样本实体关系。
进一步地,支持频率指的是每一异常实体关系在预设异常知识数据库中出现的频率,支持频率的取值范围为0-1中任意一个数值,如0.5,0.6。
进一步地,可以根据下述表达式确定每一异常实体关系对应的支持频率:
其中,Support()为支持频率函数;X→Y表示X发生或者存在时,Y发生的概率;X为任意一个异常样本信息;Y为任意一个修复信息;X∪Y为预设异常知识数据库中同时包含X和Y的数据(也即可以认为包含X和Y的异常实体关系的数量);Z为预设异常知识数据库中数据的总数(也即所有异常实体关系的总数量)。
在所述异常实体关系的支持频率大于或等于预设支持度阈值时,按照预设的频率优先级规则,根据所述异常实体关系的支持频率提升所述异常实体关系的修复优先级。
其中,预设支持度阈值可以根据异常实体关系的数量进行调整(如在异常实体关系的总量较小时,该预设支持度阈值可以设置为如0.3,0.4等,以保证后续确定异常处理三元组的数量;在异常实体关系的总量较大时,该预设支持度阈值可以设置为如0.8,0.9等,以进一步对异常实体关系的筛选,提高后续确定的异常处理三元组的准确率),预设支持度阈值也可以通过用户需求进行设定。
具体地,在获取每一所述异常实体关系在所述预设异常知识数据库中的支持频率之后,将各异常实体关系的支持频率与预设支持度阈值进行比较,若支持频率大于或等于预设支持度阈值,则按照预设的频率优先级规则,根据异常实体关系的支持频率提升该异常实体关系的修复优先级。
示例性地,假设某一异常实体关系的支持频率为0.7,预设支持度阈值为0.5,假设每一异常实体关系的基础修复优先级均为5级,预设的频率优先级规则为根据支持频率与预设支持度阈值之差提升修复优先级(示例性地,若支持频率与预设支持度阈值之差为0.1,则提升1级),而该支持频率与预设支持度阈值之差为0.7-0.5=0.2,进而该异常实体关系的修复优先级从5级提升两个等级至7级。
根据提升之后的所述修复优先级以及预设的推荐算法确定所述异常实体关系中的所述修复信息的所述修复推荐值。
具体地,在异常实体关系的支持频率大于或等于预设支持度阈值时,按照预设的频率优先级规则,根据异常实体关系的支持频率提升异常实体关系的修复优先级之后,根据提升之后的修复优先级以及预设的推荐算法确定异常实体关系中的修复信息的修复推荐值。示例性地,如上述异常实体关系的提升之后的修复优先级为7级,预设的推荐算法可以为将提升后的修复优先级对应的级数转换为修复推荐值(如提升后的修复优先级为5级,则对应的修复推荐值可以为50),因此该异常实体关系中修复信息的修复推荐值为70。
将相互对应的所述修复推荐值、所述修复信息以及所述验证信息关联为一个预设三元组之后,根据所述预设三元组构建所述预设异常处理数据库。
具体地,在根据提升之后的所述修复优先级以及预设的推荐算法确定所述异常实体关系中的所述修复信息的所述修复推荐值之后,将相互对应的所述修复推荐值、所述修复信息以及所述验证信息关联为一个预设三元组,进而在异常样本数据集中所有异常样本信息均存在至少一个对应的预设三元组之后,根据各异常样本信息对应的各预设三元组构建预设异常处理数据库。
S203:根据各所述待推荐三元组中的修复推荐值,选取一个所述待推荐三元组作为所述异常处理三元组。
可以理解地,在上述说明中指出每一个预设三元组中均包含一个修复推荐值,进而在自所述预设异常处理模型的预设异常处理数据库中查询与所述异常实体以及所述异常意图均匹配的预设三元组,并将匹配的预设三元组记录为待推荐三元组之后,根据各待推荐三元组的修复推荐值,如选取修复推荐值最高的一个待推荐三元组作为异常处理三元组;若存在多个最高修复推荐值的待推荐三元组,则从修复推荐值最高的所有待推荐三元组中任意选取一个作为异常处理三元组。
S30:针对所述异常事件信息,根据所述异常修复信息对所述异常修复对象进行异常修复,得到异常修复结果。
可以理解地,在通过所述预设异常处理模型确定与所述异常事件信息匹配的异常处理三元组之后,针对该异常事件信息,根据异常修复信息对异常修复对象进行异常修复之后,得到异常修复结果。其中,异常修复结果表征进行异常修复后的异常修复对象的性能,例如异常事件信息为系统的CPU占用率升高至90%,则异常修复结果为进行异常修复后的系统的CPU占用率。
S40:根据所述异常验证信息对所述异常修复结果进行验证,得到异常验证结果,并在所述异常验证结果表征异常修复成功时,确定所述异常修复对象修复完成。
可以理解地,在针对所述异常事件信息,根据所述异常修复信息对所述异常修复对象进行异常修复,得到异常修复结果之后,根据异常验证信息对异常修复结果进行验证,得到异常验证结果;若异常验证结果表征异常修复成功时,例如异常事件信息为系统的CPU占用率升高至90%时,若异常修复结果为进行异常修复后的系统的CPU占用率为20%,而异常验证信息为系统的CPU占用率小于30%,则确定异常验证结果表征异常修复成功,进而确定异常修复对象修复完成,实现系统异常自愈。
在本实施例中,通过预先训练完成的预设异常处理模型确定出可以解决异常事件信息中的异常的解决方案(也即修复信息),实现了系统故障自愈,进而提高了系统异常修复的效率以及准确率。
在一实施例中,步骤S40之后,也即所述根据所述异常验证信息对所述异常修复结果进行验证,得到异常验证结果之后,还包括:
在所述异常验证结果表征异常修复失败时,发送包含所述异常处理三元组以及所述异常事件信息的异常修复失败通知至预设接收方,以令所述预设接收方针对所述异常事件信息修改所述异常处理三元组并返回;
接收所述预设接收方返回的修改后的异常处理三元组,并将修改后的所述异常处理三元组存储至所述预设异常处理数据库中。
可以理解地,在根据所述异常验证信息对所述异常修复结果进行验证,得到异常验证结果之后,若异常验证结果表征异常修复失败,例如异常事件信息为系统的CPU占用率升高至90%时,若异常修复结果为进行异常修复后的系统的CPU占用率为70%,而异常验证信息为系统的CPU占用率小于30%,则异常验证结果表征异常修复失败,进而可以发送包含异常处理三元组以及异常事件信息的异常修复失败通知至预设接收方,以令预设接收方确定与该异常事件信息对应的异常处理三元组是否符合修复要求,也即通过预设接收方确定异常处理三元组中的修复信息的解决方案是否能够解决该异常事件信息的异常;若异常处理三元组中的修复信息的解决方案能够解决该异常事件信息的异常,则预设接收方返回的仍然是异常处理三元组,并重新执行上述步骤S10至S40;若异常处理三元组中的修复信息的解决方案不能够解决该异常事件信息的异常,则预设接收方对修复信息进行修改,并返回修改后的异常处理三元组,接收所述预设接收方返回的修改后的异常处理三元组,并将修改后的所述异常处理三元组存储至所述预设异常处理数据库中,并通过该修改后的异常处理三元组中的修复信息执行上述步骤S30至S40。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种异常事件修复处理装置,该异常事件修复处理装置与上述实施例中异常事件修复处理方法一一对应。如图4所示,该异常事件修复处理装置包括异常事件信息接收模块10、异常处理三元组确定模块20、异常修复执行模块30和异常修复校验模块40。各功能模块详细说明如下:
异常事件信息接收模块10,用于接收异常事件信息;所述异常事件信息关联异常修复对象;
异常处理三元组确定模块20,用于将所述异常事件信息输入至预设异常处理模型中,以通过所述预设异常处理模型确定与所述异常事件信息匹配的异常处理三元组;所述异常处理三元组中包括异常修复信息以及异常验证信息;
异常修复执行模块30,用于针对所述异常事件信息,根据所述异常修复信息对所述异常修复对象进行异常修复,得到异常修复结果;
异常修复校验模块40,用于根据所述异常验证信息对所述异常修复结果进行验证,得到异常验证结果,并在所述异常验证结果表征异常修复成功时,确定所述异常修复对象修复完成。
优选地,如图5所示,异常处理三元组确定模块20包括:
意图实体提取单元201,用于对所述异常事件信息进行实体识别以及意图特征提取,确定所述异常事件信息中的异常实体以及异常意图;
待推荐三元组确定单元202,用于自所述预设异常处理模型的预设异常处理数据库中查询与所述异常实体以及所述异常意图均匹配的预设三元组,并将匹配的预设三元组记录为待推荐三元组;所述预设异常处理数据库中包括至少一个所述预设三元组;
异常处理三元组确定单元203,用于根据各所述待推荐三元组中的修复推荐值,选取一个所述待推荐三元组作为所述异常处理三元组。
优选地,意图实体提取单元201包括:
降维处理子单元,用于运用降维因式分解法,对所述异常事件信息进行降维处理,得到降维信息向量;
意图提取子单元,用于对所述降维信息向量进行所述意图特征提取,得到意图输出向量;以及对所述降维信息向量进行所述实体抽取处理,得到实体输出向量;
向量激活子单元,用于通过所述预设异常处理模型中的softmax层对所述意图输出向量进行激活处理,得到所述异常意图;
实体分类子单元,用于根据所述异常意图对所述实体输出向量进行增维处理,并对增维处理后的所述实体输出向量进行实体分类,得到所述异常实体。
优选地,异常事件修复处理装置还包括:
样本数据获取模块,用于获取异常样本数据集以及根据知识图谱构建的预设异常知识数据库;所述异常样本数据集中包含至少一个异常样本信息以及与所述异常样本信息对应修复信息以及验证信息;
支持频率确定模块,用于根据所述异常样本信息以及与其对应的所述修复信息构建异常实体关系,并获取每一所述异常实体关系在所述预设异常知识数据库中的支持频率;
优先级调整模块,用于在所述异常实体关系的支持频率大于或等于预设支持度阈值时,按照预设的频率优先级规则,根据所述异常实体关系的支持频率提升所述异常实体关系的修复优先级;
修复推荐值确定模块,用于根据提升之后的所述修复优先级以及预设的推荐算法确定所述异常实体关系中的所述修复信息的所述修复推荐值;
异常处理数据库构建模块,用于将相互对应的所述修复推荐值、所述修复信息以及所述验证信息关联为一个预设三元组之后,根据所述预设三元组构建所述预设异常处理数据库。
优选地,异常事件修复处理装置还包括:
异常修复失败通知模块,用于在所述异常验证结果表征异常修复失败时,发送包含所述异常处理三元组以及所述异常事件信息的异常修复失败通知至预设接收方,以令所述预设接收方针对所述异常事件信息修改所述异常处理三元组并返回;
三元组更新模块,用于接收所述预设接收方返回的修改后的异常处理三元组,并将修改后的所述异常处理三元组存储至所述预设异常处理数据库中。
优选地,异常事件信息接收模块10包括:
异常事件信息接收单元,用于通过MQ或者API接口,实时接收来自服务器集群的所述异常事件信息;
或者
通过轮询接口,定时接收来自服务器集群的所述异常事件信息。
关于异常事件修复处理装置的具体限定可以参见上文中对于异常事件修复处理方法的限定,在此不再赘述。上述异常事件修复处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中异常事件修复处理方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种异常事件修复处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的异常事件修复处理方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的异常事件修复处理方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (7)

1.一种异常事件修复处理方法,其特征在于,包括:
接收异常事件信息;所述异常事件信息关联异常修复对象;
将所述异常事件信息输入至预设异常处理模型中,以通过所述预设异常处理模型确定与所述异常事件信息匹配的异常处理三元组;所述异常处理三元组中包括异常修复信息以及异常验证信息;所述异常处理三元组中还包括修复推荐值;
针对所述异常事件信息,根据所述异常修复信息对所述异常修复对象进行异常修复,得到异常修复结果;
根据所述异常验证信息对所述异常修复结果进行验证,得到异常验证结果,并在所述异常验证结果表征异常修复成功时,确定所述异常修复对象修复完成;
所述将所述异常事件信息输入至预设异常处理模型中,以通过所述预设异常处理模型确定与所述异常事件信息匹配的异常处理三元组,包括:
对所述异常事件信息进行实体识别以及意图特征提取,确定所述异常事件信息中的异常实体以及异常意图;
自所述预设异常处理模型的预设异常处理数据库中查询与所述异常实体以及所述异常意图均匹配的预设三元组,并将匹配的预设三元组记录为待推荐三元组;所述预设异常处理数据库中包括至少一个所述预设三元组;
根据各所述待推荐三元组中的修复推荐值,选取一个所述待推荐三元组作为所述异常处理三元组;
所述自所述预设异常处理模型的预设异常处理数据库中查询与所述异常实体以及所述异常意图均匹配的预设三元组之前,包括:
获取异常样本数据集以及根据知识图谱构建的预设异常知识数据库;所述异常样本数据集中包含至少一个异常样本信息以及与所述异常样本信息对应修复信息以及验证信息;
根据所述异常样本信息以及与其对应的所述修复信息构建异常实体关系,并获取每一所述异常实体关系在所述预设异常知识数据库中的支持频率;
在所述异常实体关系的支持频率大于或等于预设支持度阈值时,按照预设的频率优先级规则,根据所述异常实体关系的支持频率提升所述异常实体关系的修复优先级;
根据提升之后的所述修复优先级以及预设的推荐算法确定所述异常实体关系中的所述修复信息的所述修复推荐值;
将相互对应的所述修复推荐值、所述修复信息以及所述验证信息关联为一个预设三元组之后,根据所述预设三元组构建所述预设异常处理数据库。
2.如权利要求1所述的异常事件修复处理方法,其特征在于,所述对所述异常事件信息进行实体识别以及意图特征提取,确定所述异常事件信息中的异常实体以及异常意图,包括:
运用降维因式分解法,对所述异常事件信息进行降维处理,得到降维信息向量;
对所述降维信息向量进行所述意图特征提取,得到意图输出向量;以及对所述降维信息向量进行所述实体抽取处理,得到实体输出向量;
通过所述预设异常处理模型中的softmax层对所述意图输出向量进行激活处理,得到所述异常意图;
根据所述异常意图对所述实体输出向量进行增维处理,并对增维处理后的所述实体输出向量进行实体分类,得到所述异常实体。
3.如权利要求1所述的异常事件修复处理方法,其特征在于,所述根据所述异常验证信息对所述异常修复结果进行验证,得到异常验证结果之后,还包括:
在所述异常验证结果表征异常修复失败时,发送包含所述异常处理三元组以及所述异常事件信息的异常修复失败通知至预设接收方,以令所述预设接收方针对所述异常事件信息修改所述异常处理三元组并返回;
接收所述预设接收方返回的修改后的异常处理三元组,并将修改后的所述异常处理三元组存储至所述预设异常处理数据库中。
4.如权利要求1所述的异常事件修复处理方法,其特征在于,所述接收异常事件信息,包括:
通过MQ或者API接口,实时接收来自服务器集群的所述异常事件信息;
或者
通过轮询接口,定时接收来自服务器集群的所述异常事件信息。
5.一种异常事件修复处理装置,其特征在于,所述异常事件修复处理装置用于执行如权利要求1至4任一项所述异常事件修复处理方法,所述异常事件修复处理装置包括:
异常事件信息接收模块,用于接收异常事件信息;所述异常事件信息关联异常修复对象;
异常处理三元组确定模块,用于将所述异常事件信息输入至预设异常处理模型中,以通过所述预设异常处理模型确定与所述异常事件信息匹配的异常处理三元组;所述异常处理三元组中包括异常修复信息以及异常验证信息;
异常修复执行模块,用于针对所述异常事件信息,根据所述异常修复信息对所述异常修复对象进行异常修复,得到异常修复结果;
异常修复校验模块,用于根据所述异常验证信息对所述异常修复结果进行验证,得到异常验证结果,并在所述异常验证结果表征异常修复成功时,确定所述异常修复对象修复完成;
所述异常处理三元组确定模块包括:
意图实体提取单元,用于对所述异常事件信息进行实体识别以及意图特征提取,确定所述异常事件信息中的异常实体以及异常意图;
待推荐三元组确定单元,用于自所述预设异常处理模型的预设异常处理数据库中查询与所述异常实体以及所述异常意图均匹配的预设三元组,并将匹配的预设三元组记录为待推荐三元组;所述预设异常处理数据库中包括至少一个所述预设三元组;
异常处理三元组确定单元,用于根据各所述待推荐三元组中的修复推荐值,选取一个所述待推荐三元组作为所述异常处理三元组。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述异常事件修复处理方法。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述异常事件修复处理方法。
CN202110775006.6A 2021-07-08 2021-07-08 异常事件修复处理方法、装置、计算机设备及存储介质 Active CN113535449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110775006.6A CN113535449B (zh) 2021-07-08 2021-07-08 异常事件修复处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110775006.6A CN113535449B (zh) 2021-07-08 2021-07-08 异常事件修复处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113535449A CN113535449A (zh) 2021-10-22
CN113535449B true CN113535449B (zh) 2024-05-03

Family

ID=78098051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110775006.6A Active CN113535449B (zh) 2021-07-08 2021-07-08 异常事件修复处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113535449B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115065511A (zh) * 2022-05-30 2022-09-16 济南浪潮数据技术有限公司 一种处理集群异常事件的方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189866A (zh) * 2018-08-22 2019-01-11 北京大学 一种构建装备故障诊断领域知识本体知识库的方法和系统
CN111666393A (zh) * 2020-04-29 2020-09-15 平安科技(深圳)有限公司 智能问答系统的验证方法、装置、计算机设备及存储介质
CN111859384A (zh) * 2020-07-23 2020-10-30 平安证券股份有限公司 异常事件监控方法、装置、计算机设备及存储介质
CN112182330A (zh) * 2020-09-23 2021-01-05 创新奇智(成都)科技有限公司 知识图谱构建方法、装置、电子设备及计算机存储介质
CN112231133A (zh) * 2020-10-16 2021-01-15 杭州中奥科技有限公司 一种数据修复处理方法、装置及电子设备
CN112540832A (zh) * 2020-12-24 2021-03-23 中山大学 一种基于知识图谱的云原生系统故障分析方法
CN112686542A (zh) * 2020-12-30 2021-04-20 平安普惠企业管理有限公司 业务处理方法、装置、电子设备及存储介质
CN112887119A (zh) * 2019-11-30 2021-06-01 华为技术有限公司 故障根因确定方法及装置、计算机存储介质
CN113051382A (zh) * 2021-04-08 2021-06-29 云南电网有限责任公司电力科学研究院 一种基于知识图谱的电力故障智能问答方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189866A (zh) * 2018-08-22 2019-01-11 北京大学 一种构建装备故障诊断领域知识本体知识库的方法和系统
CN112887119A (zh) * 2019-11-30 2021-06-01 华为技术有限公司 故障根因确定方法及装置、计算机存储介质
CN111666393A (zh) * 2020-04-29 2020-09-15 平安科技(深圳)有限公司 智能问答系统的验证方法、装置、计算机设备及存储介质
CN111859384A (zh) * 2020-07-23 2020-10-30 平安证券股份有限公司 异常事件监控方法、装置、计算机设备及存储介质
CN112182330A (zh) * 2020-09-23 2021-01-05 创新奇智(成都)科技有限公司 知识图谱构建方法、装置、电子设备及计算机存储介质
CN112231133A (zh) * 2020-10-16 2021-01-15 杭州中奥科技有限公司 一种数据修复处理方法、装置及电子设备
CN112540832A (zh) * 2020-12-24 2021-03-23 中山大学 一种基于知识图谱的云原生系统故障分析方法
CN112686542A (zh) * 2020-12-30 2021-04-20 平安普惠企业管理有限公司 业务处理方法、装置、电子设备及存储介质
CN113051382A (zh) * 2021-04-08 2021-06-29 云南电网有限责任公司电力科学研究院 一种基于知识图谱的电力故障智能问答方法及装置

Also Published As

Publication number Publication date
CN113535449A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
US20240004742A1 (en) Anomalous behavior detection
EP2715565B1 (en) Dynamic rule reordering for message classification
CN112732536B (zh) 数据监控告警方法、装置、计算机设备及存储介质
CN111444072B (zh) 客户端的异常识别方法、装置、计算机设备和存储介质
CN109801151B (zh) 财务造假风险监控方法、装置、计算机设备和存储介质
CN110618890B (zh) 故障处理方法、装置、电子设备及计算机可读存储介质
CN112035437A (zh) 病案数据的传输方法、装置、计算机设备及存储介质
CN113535449B (zh) 异常事件修复处理方法、装置、计算机设备及存储介质
CN109542764B (zh) 网页自动化测试方法、装置、计算机设备和存储介质
CN115269981A (zh) 一种结合人工智能的异常行为分析方法及系统
CN117061254B (zh) 异常流量检测方法、装置和计算机设备
CN107871213B (zh) 一种交易行为评价方法、装置、服务器以及存储介质
CN111371581A (zh) 物联网卡业务异常检测的方法、装置、设备和介质
CN113934611A (zh) 访问信息的统计方法、装置、电子设备及可读存储介质
CN117170894A (zh) 基于实时计算的事件中心管理方法和装置
CN111277465A (zh) 一种异常数据报文检测方法、装置及电子设备
CN110677271A (zh) 基于elk的大数据告警方法、装置、设备及存储介质
CN111258788B (zh) 磁盘故障预测方法、装置及计算机可读存储介质
CN112685157A (zh) 任务处理方法、装置、计算机设备及存储介质
CN110990810A (zh) 一种用户操作数据处理方法、装置、设备及存储介质
CN111859384B (zh) 异常事件监控方法、装置、计算机设备及存储介质
US11856014B2 (en) Anomaly detection in computing computing system events
US20240054115A1 (en) Decision implementation with integrated data quality monitoring
CN114401494B (zh) 短消息下发异常检测方法、装置、计算机设备及存储介质
US20240144075A1 (en) Updating label probability distributions of data points

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant