CN107070720A - 云平台异常事件的监控及自动处理的方法和框架 - Google Patents

云平台异常事件的监控及自动处理的方法和框架 Download PDF

Info

Publication number
CN107070720A
CN107070720A CN201710283492.3A CN201710283492A CN107070720A CN 107070720 A CN107070720 A CN 107070720A CN 201710283492 A CN201710283492 A CN 201710283492A CN 107070720 A CN107070720 A CN 107070720A
Authority
CN
China
Prior art keywords
data
anomalous event
collection
rule
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710283492.3A
Other languages
English (en)
Inventor
汪深海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen God Cloud Technology Co Ltd
Original Assignee
Shenzhen God Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen God Cloud Technology Co Ltd filed Critical Shenzhen God Cloud Technology Co Ltd
Priority to CN201710283492.3A priority Critical patent/CN107070720A/zh
Publication of CN107070720A publication Critical patent/CN107070720A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Abstract

本发明通过提供一种云平台异常事件的监控及自动处理的方法和框架,从而降低异常事件的遗漏率,大幅提升事件处理准确率,有效地提升云平台的运维效率。本发明方法通过规则引擎定义的规则判断采集的数据中是否记录有异常事件;当判定所述采集的数据中记录有异常事件时,工作负载服务调用流程控制引擎,通过所述流程控制引擎根据知识库的数据产生操作指令;所述工作负载服务根据所述操作指令调用云平台自动化运维接口,自动完成异常事件的处理工作;处理过程和结果被记录到历史数据库并定期同步更新知识库,形成闭环,完善优化自动操作指令的生成。

Description

云平台异常事件的监控及自动处理的方法和框架
技术领域
本发明涉及云计算、云监控及自动化运维领域,特别涉及一种云平台异常事件的监控及自动处理的方法和框架。
背景技术
由于云平台架构的复杂性和工作负载的不可预测性,以及云平台上资源的动态性、多样性和资源规模巨大给云平台监控带来了一定的困难。另外面对云环境下各种各样的资源,包括物理硬件、主机、存储、网络、计算、虚拟系统等,在传统的监控及异常事件的处理中,通常采用监控告警系统通知运维人员,运维人员手动处理;对于同类问题出现多次,运维人员主动总结处理方法并通过编写脚本的方式以实现半自动的处理。久而久之,系统上分布着数量不少的来自不同运维人员编写的脚本,对于它们的维护又带来另外的管理问题。而且这种方式仍存在着异常事件遗漏率高及处理效率低等问题。因此如何形成一种高度抽象的监控兼自动处理异常事件的框架,以及对于云平台种类繁多的异常事件,如何防止异常事件被遗漏,避免引发更严重的系统问题,如何解决运维人员在面对数量巨大异常事件时人工处理任务繁重低效等等一系列问题,亟待我们去解决。
发明内容
本发明通过提供一种云平台异常事件的监控及自动处理方法和框架,以实现对云平台不同层次的应用服务、中间件和基础设施资源的监控及异常事件的自动处理,从而防止异常事件被遗漏,避免引发更严重的系统问题,并完善优化自动操作指令的生成,进一步解决了运维人员在面对数量巨大异常事件时人工处理任务繁重低效的问题。
为解决上述技术问题,本发明一方面提供一种云平台监控异常事件自动处理方法,包括:
通过规则引擎定义的规则判断采集的数据中是否记录有异常事件;当判定所述采集的数据记录有异常事件时,工作负载服务调用流程控制引擎,所述流程控制引擎根据知识库的数据产生操作指令;工作负载服务根据所述操作指令调用云平台自动化运维接口,通过所述自动化运维接口处理所述异常事件。
可选地,在通过规则引擎定义的规则判断采集的数据中是否记录有异常事件之前,所述方法还包括对所有待监控对象进行数据采集。
可选地,所述待监控对象包括物理机、虚拟机、存储设备和网络设备中的至少之一。
可选地,通过所述自动化运维接口处理所述异常事件,具体包括“通过API调用、远程命令执行的方式完成所述操作指令的执行。优选地,所述自动化运维接口包括物理机管理接口、虚拟机管理接口、进程管理接口中至少之一。
可选地,所述对所有待监控对象进行数据采集包括:通过主动拉取和被动接收两种方式采集所述数据;优选地,对于云平台的事件源支持脚本方式扩展;因此可以将尽可能多异常事件采集进来。
可选地,所述通过规则引擎定义的规则判断所述采集的数据中是否记录有异常事件包括:获取通过所述规则引擎定义的至少一种规则与各个规则对应的阈值条件,确定所述数据特征所属的规则,检测所述采集的数据特征是否满足所述规则对应的阈值条件;
当检测出所述采集的数据特征满足所述规则对应的阈值条件时,则判定所述采集的数据中记录有所述异常事件;
当检测出所述采集的数据特征未满足所述规则对应的阈值条件时,则判定所述采集的数据中未记录所述异常事件。
可选地,在通过规则引擎定义的规则判断所述采集的数据中是否记录有异常事件之后,所述方法还包括:当判定所述采集的数据中记录有异常事件时,通过所述规则引擎将记录所述异常事件的数据发送到异常消息队列。
可选地,所述规则引擎还可以将记录所述异常事件的数据转换成框架组件所能处理的告警信息。
可选地,在所述工作负载服务调用流程控制引擎之前,还包括:工作负载服务从消息队列中获取所述异常事件。
可选地,所述方法还包括所述工作负载服务将所述异常事件处理过程和结果记录到历史数据库,所述历史数据库中的操作记录会定期同步更新到知识库中。
可选地,所述方法还包括工作负载服务将所述异常事件的处理过程和结果反馈回消息队列中。
可选地,通过所述自动化运维接口处理所述异常事件之后,还包括:通过API服务查看跟踪异常事件的处理过程和历史处理记录。
可选地,在对所有待监控对象进行数据采集后,所述方法还包括将采集的数据转存到消息队列。
可选地,所述消息队列可以根据处理要求划分,包括但不限于事件源队列,处理结果反馈队列,操作过程记录队列。所述消息队列主要用于满足事件源数据、处理结果反馈数据和操作过程记录数据的临时存储;以及通过API服务可以从消息队列中获取数据,供用户查看中间处理的情况。
本发明另一方面提供一种云平台监控异常事件自动处理框架,包括:
规则引擎模块、控制服务模块;其中所述控制服务模块包括工作负载服务和流程控制引擎;
所述规则引擎模块,用于通过定义的规则判断所述采集的数据中是否记录有异常事件;
所述控制服务模块,用于当判定所述采集的数据中记录有异常事件时,工作负载服务调用流程控制引擎,通过所述流程控制引擎根据知识库的数据产生操作指令;所述工作负载服务根据所述操作指令调用云平台自动化运维接口,通过所述自动化运维接口处理所述异常事件。
可选地,所述规则引擎模块,用于:
获取通过所述规则引擎模块定义的至少一种规则与各个规则对应的阈值条件,确定所述数据特征所属的规则,检测所述采集的数据特征是否满足所述阈值条件;
当检测出所述采集的数据特征满足所述规则对应的阈值条件时,则判定所述采集的数据中记录有所述异常事件;
当检测出所述采集的数据特征未满足所述规则对应的阈值条件时,则判定所述采集的数据中未记录所述异常事件。
可选地,所述规则引擎模块,还用于:
当判定所述采集的数据中记录有异常事件时,通过所述规则引擎模块将记录所述异常事件的数据发送到消息队列。
可选地,所述规则引擎模块,还用于将记录所述异常事件的数据转换成框架组件所能处理的告警信息;
可选地,所述控制服务模块,还用于在所述工作负载服务调用流程控制引擎之前,通过所述工作负载服务从消息队列中获取记录所述异常事件的数据。
可选地,所述框架还包括数据采集模块,用于对所有待监控对象进行数据采集;
可选地,所述待监控对象包括物理机、虚拟机、存储设备和网络设备中的至少之一。
可选地,所述对所有待监控对象进行数据采集包括:所述数据采集支持通过主动拉取和被动接收两种方式采集所述数据;优选地,对于云平台的事件源支持脚本方式扩展;因此可以将尽可能多异常事件采集进来。
可选地,所述数据采集模块还用于将采集的数据转存到消息队列。
可选地,所述框架还包括数据存储模块,所述数据存储模块,通过工作负载服务将所述异常事件的处理过程和结果记录到历史数据库,并将所述历史数据库中的操作记录定期同步更新到知识库中。
可选地,所述框架还包括数据临时存储模块,通过工作负载服务将所述异常事件的处理过程和结果反馈回消息队列中。
可选地,所述框架还包括API服务模块,所述API服务模块用于查看所述异常事件的处理过程和历史处理记录。优选地,所述框架支持各组件之间同步或异步的双向通讯。
本发明所涉及的知识库的数据,是通过运维经验积累所形成的,若知识库中不存在异常事件的处理记录,则转成手工操作解决。
本发明所述的框架组件包括工作负载服务、规则引擎、流程控制引擎、API服务、历史数据库、知识库、消息队列和数据采集服务至少之一。
本发明除了对某些异常事件采集时可能会对云平台做修改外,例如对于没有获取接口的事件源,要在云平台中各采集节点部署数据采集程序;其他框架组件都属于上层组件,不对云平台或被监控系统进行修改。
本发明通过采集云平台中各资源的事件数据,转存到消息队列,通过规则引擎定义至少一种规则和与各个规则对应的阈值,检测所述采集的数据的特征是否满足异常条件;在满足异常事件的情况下,工作负载服务调用流程控制引擎,所述流程控制引擎根据知识库的数据产生操作指令;工作负载服务根据指令调用云平台相关接口,自动完成异常事件的处理工作。其中所述异常事件的处理过程和结果一方面被反馈回消息队列,另一方面被记录到历史数据库并定期同步更新知识库,形成闭环,完善优化自动操作指令的生成;以及在本发明使用过程中,随着运维经验不断积累,规则库和知识库越来越丰富,异常事件遗漏率,事件处理准确率都会得到大幅提升,从而有效地提升云平台的运维效率。
附图说明
图1为本发明提供的一种云平台异常事件的监控及自动处理的框架结构示意图;
图2本发明提供的一种云平台异常事件的监控及自动处理的方法实施例流程图;
图3为本发明提供的另一种云平台异常事件的监控及自动处理的方法实施例流程图;
图4为本发明提供的一种云平台异常事件的监控及自动处理方法的框架组件交互示意图;
图5为本发明提供的一种云平台异常事件的监控及自动处理的框架模块示意图;
图6为本发明提供的另一种云平台异常事件的监控及自动处理的框架模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下基于图2,对本发明提供的一种云平台异常事件的监控及自动处理的方法实施例作进一步说明,所述方法包括:
步骤101:通过规则引擎定义的规则判断采集的数据中是否记录有异常事件;可选地,所述规则引擎可以灵活定义各种不同的规则和阈值,然后根据预设规则和阈值比对源数据特征是否满足异常事件条件;例如在规则引擎中定义的规则如下:
上述仅定义了其中一条规则,实际上规则引擎是由无数条类似这样的规则组成的。
步骤102:当判定所述采集的数据中记录有异常事件时,工作负载服务调用流程控制引擎,通过所述流程控制引擎根据知识库的数据产生操作指令;
可选地,实现操作指令的生成,主要是从知识库中调取数据,由流程控制引擎自动生成,生成的指令示例如下:
需要说明的是,若当判定所述采集的数据中未记录有异常事件时,则忽略所述采集的数据。所述流程控制引擎主要是用来定义处理的过程。
步骤103:所述工作负载服务根据所述操作指令调用云平台自动化运维接口,通过所述自动化运维接口处理所述异常事件。
如图3所示,可选地,所述方法还包括步骤100:对所有待监控对象进行数据采集。
可选地,所述待监控对象(即云平台各种资源)包括物理机、虚拟机、存储设备和网络设备中的至少之一。
可选地,在所述步骤100,对所有待监控对象进行数据采集后,所述方法还包括将采集的数据转存到消息队列。
可选地,所述对所有待监控对象进行数据采集包括:通过主动拉取和被动接收两种方式采集所述数据。
可选地,所述数据采集是提供云平台管理系统自动化运维所需的基础监控数据,通常可采用外部主动调用系统提供的接口获取数据或在原有系统嵌入探针代码的方式来实现。并且对于云平台中各种各样的事件源支持脚本方式扩展,将尽可能多异常事件采集进来。
可选地,所述步骤101具体包括:获取通过所述规则引擎定义的至少一种规则与各个规则对应的阈值条件,确定所述数据特征所属的规则,检测所述采集的数据特征是否满足所述规则对应的阈值条件;
当检测出所述采集的数据特征满足所述规则对应的阈值条件时,则判定所述采集的数据中记录有所述异常事件;
当检测出所述采集的数据特征未满足所述规则对应的阈值条件时,则判定所述采集的数据中未记录所述异常事件。
例如,CPU负载规则的阈值为50,通过规则引擎预设的CPU负载规则为“cpu负载大于50”,则当规则引擎检测出节点1的CPU负载是55,则确定该采集到的数据(即节点1的CPU负载)满足该CPU负载规则,判定该采集的数据中记录有异常事件。
需要说明的是,所述规则引擎可以灵活定义各种不同的规则和阈值,然后根据预设规则和所述规则对应的阈值范围比对所述采集的数据特征是否满足异常事件条件,因此方便使用者定义各种不同类型的异常事件。
可选地,在所述步骤101之后,所述方法还包括:当判定所述采集的数据中记录有异常事件时,通过所述规则引擎将记录所述异常事件的数据发送到消息队列。可选地,所述规则引擎还可以将所述异常事件转换成框架组件所能处理的告警信息。
可选地,在所述工作负载服务调用流程控制引擎之前,所述步骤102还包括:工作负载服务从消息队列中获取所述异常事件。
可选地,所述步骤103中,通过所述自动化运维接口处理所述异常事件具体包括:通过API调用、远程命令执行的方式完成所述操作指令的执行。可选地,所述自动化运维接口包括物理机管理接口、虚拟机管理接口、进程管理接口中至少之一。
如图3所示,可选地,所述方法还包括步骤104:通过API服务可以查看跟踪异常事件的处理过程和历史处理记录。
可选地,在所述步骤104之前,所述方法还包括所述工作负载服务将所述异常事件处理过程和结果反馈回消息队列和/或记录到历史数据库;可选地所述历史数据库中的操作记录会定期同步更新到知识库中。
需要说明的是,当用户需要查看并跟踪正在执行工作的处理过程时,则可以通过API服务到消息队列中去查询;可选地,所述消息队列可以根据处理要求划分,包括但不限于事件源队列,处理结果反馈队列,操作过程记录队列等多种不同队列,并且支持各组件之间同步或异步的双向通讯。
所述消息队列主要用于满足事件源数据、处理结果反馈数据和操作过程记录数据的临时存储;以及通过API服务可以从消息队列中获取数据,供用户查看中间处理的情况。
当用户需要查某项历史工作的处理过程则到历史数据库进行查询。
参见图1、图4,本发明实施例还提供一种云平台异常事件的监控及自动处理方法的框架组件交互示意图,包括如下步骤:
步骤1:对所有待监控对象进行数据采集;
对所有待监控对象进行数据采集,其中所述待监控对象(即云平台各种资源)包括物理机、虚拟机、存储设备和网络设备(含虚拟设备)等的至少之一。
可选地,对所有待监控对象进行数据采集还包括将采集到的数据转存到数据采集消息队列中。
可选地,对所有待监控对象进行数据采集,包括通过主动拉取和被动接收两种方式(即主动推送数据或被数据采集模块抓取数据)进行所述数据采集。
可选地,所述数据采集是提供云平台管理系统自动化运维所需的基础监控数据,通常可采用外部主动调用系统提供的接口获取数据或在原有系统嵌入探针代码的方式来实现。需要说明的是,对于云平台中各种各样的事件源支持脚本方式扩展,将尽可能多异常事件采集进来。
另外需要说明的是,一方面,对于没有获取接口的事件源,要在云平台中各采集节点部署数据采集程序,采集程序的配置文件中需要有配置项惟一指定该对象(例如物理机、虚拟机或其他);另一方面,对于有获取接口的事件源,可以直接在框架中的数据采集组件中定义采集的sensor;具体地,通过定义一种外部的数据采集器,将代码运行在框架的数据采集组件上,不需要嵌入到采集机节点上。
步骤2:通过规则引擎定义的规则判断所述采集的数据是否记录有异常事件;可选地,获取通过所述规则引擎定义的至少一种规则与各个规则对应的阈值条件,确定所述数据特征所属的规则,检测所述采集的数据特征是否满足所述规则对应的阈值条件;
当检测出所述采集的数据特征满足所述规则对应的阈值条件时,则判定所述采集的数据中记录有所述异常事件;
当检测出所述采集的数据特征未满足所述规则对应的阈值条件时,则判定所述采集的数据中未记录所述异常事件。
需要说明的是,所述规则引擎可以灵活定义各种不同的规则和阈值,然后根据预设规则和各个规则对应的阈值范围比对所述采集的数据特征是否满足异常事件条件,因此方便使用者定义各种不同类型的异常事件。
可选地,当判定所述采集的数据记录有异常事件时,所述规则引擎将所述异常事件发送到消息队列;可选地,所述规则引擎还可以将所述异常事件转换成框架组件所能处理的告警信息。
对于云平台种类繁多的异常事件,如何防止异常事件被遗漏,从而引发更严重的系统问题,规则引擎是本框架能有效实现的基础。
步骤3:当判定所述采集的数据记录有异常事件时,工作负载服务调用流程控制引擎,所述流程控制引擎根据知识库的数据产生操作指令;
可选地,若知识库中不存在该异常事件的处理记录,可转成手工操作解决;
具体地,实现操作指令的生成,主要是从知识库中调取数据,由流程控制引擎自动生成。可选地地,在所述工作负载服务调用流程控制引擎之前,还包括:工作负载服务从消息队列中获取所述异常事件。
所述流程控制引擎是一种实现操作自动化完成的重要技术;异常事件从发现到转化成框架能理解的告警信息,面对数量巨大的告警信息,单凭运维人员手工处理不太现实。通过积累运维经验形成知识库,配合流程控制引擎,做到自动化处理,是本框架的灵魂。
步骤4:所述工作负载服务调用云平台自动化运维接口,通过所述自动化运维接口按照步骤3的操作指令处理所述异常事件;
可选地,所述通过所述自动化运维接口按照步骤3的操作指令处理所述异常事件具体包括“通过API调用、远程命令执行的方式完成步骤3的操作指令的执行”;其中所述自动化运维接口可以包括物理机管理接口、虚拟机管理接口、进程管理接口中至少之一。
可选地,本发明实施例还包括如下步骤:
步骤5:所述工作负载服务将所述异常事件处理过程和结果记录到历史数据库;
步骤5a:历史数据库中的操作记录会定期更新到知识库中,以便后续同类异常事件发生时,自动生成处理指令。
步骤6:工作负载服务将各步骤的中间处理过程及结果反馈回消息队列中。
步骤7:通过API服务到消息队列去查看跟踪异常事件的处理过程。
步骤7a:通过API服务到历史数据库查询历史处理记录。
具体地,当用户需要查看并跟踪正在执行工作的处理过程时,则可以通过API服务到消息队列中去查询;可选地,所述消息队列可以根据处理要求划分,包括但不限于事件源队列,处理结果反馈队列,操作过程记录队列等多种不同队列,并且支持各组件之间同步或异步的双向通讯。
所述消息队列主要用于满足事件源数据、处理结果反馈数据和操作过程记录数据的临时存储;以及通过API服务可以从消息队列中获取数据,供用户查看中间处理的情况。
当用户需要查某项历史工作的处理过程则到历史数据库进行查询。
本发明实施例还提供了一种云平台异常事件的监控及自动处理的框架模块示意图,如图5所示,所述框架包括:规则引擎模块111、控制服务模块112,其中所述控制服务模块112包括工作负载服务和流程控制引擎;
所述规则引擎模块111,用于通过定义的规则判断所述采集的数据中是否记录有异常事件;
所述控制服务模块112,用于当判定所述采集的数据中记录有异常事件时,工作负载服务调用流程控制引擎,通过所述流程控制引擎根据知识库的数据产生操作指令;所述工作负载服务根据所述操作指令调用云平台自动化运维接口,通过所述自动化运维接口处理所述异常事件。
可选地,所述规则引擎模块111,具体用于:
获取通过所述规则引擎模块111定义的至少一种规则与各个规则对应的阈值范围条件,确定所述数据特征所属的规则,检测所述采集的数据特征是否满足所述规则对应的阈值条件;当检测出所述采集的数据特征满足所述规则对应的阈值条件时,则判定所述采集的数据中记录有所述异常事件;
当检测出所述采集的数据特征未满足所述规则对应的阈值条件时,则判定所述采集的数据中未记录所述异常事件。
需要说明的是,所述规则引擎模块111可以灵活定义各种不同的规则和所述规则对应的阈值范围,然后根据预设规则和阈值比对所述采集的数据特征是否满足异常事件条件,因此方便使用者定义各种不同类型的异常事件。
可选地,所述规则引擎模块111,还用于:
当判定所述采集的数据中记录有异常事件时,通过所述规则引擎模块111将记录所述异常事件的数据发送到消息队列。
可选地,所述规则引擎模块111,还用于:将记录所述异常事件的数据转换成框架组件所能处理的告警信息。
可选地,所述控制服务模块112,还用于在所述工作负载服务调用流程控制引擎之前,通过所述工作负载服务从异常所述消息队列中获取记录所述异常事件的数据。
如图6所示,本发明实施例还提供另一种云平台异常事件的监控及自动处理的框架模块示意图,所述框架还包括数据采集模块110、数据存储模块113,数据临时存储模块114、API服务模块115至少之一;
其中,所述数据采集模块110,用于对所有待监控对象进行数据采集;
可选地,所述待监控对象包括物理机、虚拟机、存储设备和网络设备中的至少之一。
可选地,所述数据采集支持通过主动拉取和被动接收两种方式采集所述数据;需要说明的是,对于云平台的事件源支持脚本方式扩展;因此可以将尽可能多异常事件采集进来。
另外需要说明的是,所述数据采集是提供云平台管理系统自动化运维所需的基础监控数据,通常可采用外部主动调用系统提供的接口获取数据或在原有系统嵌入探针代码的方式来实现。并且对于云平台中各种各样的事件源支持脚本方式扩展,将尽可能多异常事件采集进来。
可选地,所述数据采集模块110还用于将采集的数据转存到消息队列。
所述数据存储模块113,通过工作负载服务将所述异常事件的处理过程和结果记录到历史数据库,并将所述历史数据库中的操作记录定期同步更新到知识库中。
所述数据临时存储模块114,通过工作负载服务将所述异常事件的处理过程和结果反馈回消息队列中。
所述API服务模块115,用于查看所述异常事件的处理过程和历史处理记录。需要说明的是,当用户需要查看并跟踪正在执行工作的处理过程时,则可以通过API服务模块115到消息队列中去查询;可选地,所述消息队列可以根据处理要求划分,包括但不限于事件源队列,处理结果反馈队列,操作过程记录队列等多种不同队列,并且支持各组件之间同步或异步的双向通讯。
所述消息队列主要用于满足事件源数据、处理结果反馈数据和操作过程记录数据的临时存储;以及通过API服务模块可以从消息队列中获取数据,供用户查看中间处理的情况。
当用户需要查某项历史工作的处理过程则到历史数据库进行查询。在本申请所提供的实施例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解;另外应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的框架实施例仅仅是示意性的,例如,所述模块(或单元)的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块(或单元)或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。本领域技术人员可以理解,可以对实施例中的各模块或组件进行适应性的改变并且把它设置在与该实施例不同的一个或多个设备中。

Claims (14)

1.一种云平台异常事件的监控及自动处理的方法,其特征在于,包括:
通过规则引擎定义的规则判断采集的数据中是否记录有异常事件;当判定所述采集的数据中记录有异常事件时,工作负载服务调用流程控制引擎,通过所述流程控制引擎根据知识库的数据产生操作指令;所述工作负载服务根据所述操作指令调用云平台自动化运维接口,通过所述自动化运维接口处理所述异常事件。
2.根据权利要求1所述的方法,其特征在于,所述通过规则引擎定义的规则判断所述采集的数据中是否记录有异常事件包括:
获取通过所述规则引擎定义的至少一种规则与各个规则对应的阈值条件,确定所述数据特征所属的规则,检测所述采集的数据特征是否满足所述规则对应的阈值条件;
当检测出所述采集的数据特征满足所述规则对应的阈值条件时,则判定所述采集的数据中记录有所述异常事件;
当检测出所述采集的数据特征未满足所述规则对应的阈值条件时,则判定所述采集的数据中未记录所述异常事件。
3.根据权利要求2所述的方法,其特征在于,在通过规则引擎定义的规则判断所述采集的数据中是否记录有异常事件之后,所述方法还包括:
当判定所述采集的数据中记录有异常事件时,通过所述规则引擎将记录所述异常事件的数据发送到消息队列。
4.根据权利要求3所述的方法,其特征在于,在所述工作负载服务调用流程控制引擎之前,还包括:所述工作负载服务从所述消息队列中获取所述异常事件。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述工作负载服务将所述异常事件的处理过程和结果记录到历史数据库,并将所述历史数据库中的操作记录定期同步更新到知识库中。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括工作负载服务将处理过程和结果反馈回消息队列中。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:API服务查看所述异常事件的处理过程和历史处理记录。
8.一种云平台异常事件的监控及自动处理的框架,其特征在于,所述框架包括规则引擎模块、控制服务模块,其中所述控制服务模块包括工作负载服务和流程控制引擎;
所述规则引擎模块,用于通过定义的规则判断所述采集的数据中是否记录有异常事件;
所述控制服务模块,用于当判定所述采集的数据中记录有异常事件时,工作负载服务调用流程控制引擎,通过所述流程控制引擎根据知识库的数据产生操作指令;所述工作负载服务根据所述操作指令调用云平台自动化运维接口,通过所述自动化运维接口处理所述异常事件。
9.根据权利要求8所述的框架,其特征在于,所述规则引擎模块,用于:
获取通过所述规则引擎模块定义的至少一种规则与各个规则对应的阈值条件,确定所述数据的特征所属的规则,检测所述采集的数据特征是否满足所述阈值条件;
当检测出所述采集的数据特征满足所述规则对应的阈值条件时,则判定所述采集的数据中记录有所述异常事件;
当检测出所述采集的数据特征未满足所述规则对应的阈值条件时,则判定所述采集的数据中未记录所述异常事件。
10.根据权利要求9所述的框架,其特征在于,所述规则引擎模块,还用于:当判定所述采集的数据中记录有异常事件时,通过所述规则引擎模块将记录所述异常事件的数据发送到消息队列。
11.根据权利要求10所述的框架,其特征在于,所述控制服务模块,还用于在所述工作负载服务调用流程控制引擎之前,通过所述工作负载服务从所述消息队列中获取记录所述异常事件的数据。
12.根据权利要求8所述的框架,其特征在于,所述框架还包括数据存储模块,所述数据存储模块,通过工作负载服务将所述异常事件的处理过程和结果记录到历史数据库,并将所述历史数据库中的操作记录定期同步更新到知识库中。
13.根据权利要求8所述的框架,所述框架还包括数据临时存储模块,通过工作负载服务将所述异常事件的处理过程和结果反馈回消息队列中。
14.根据权利要求8所述的框架,其特征在于,所述框架还包括API服务模块,所述API服务模块用于查看所述异常事件的处理过程和历史处理记录。
CN201710283492.3A 2017-04-26 2017-04-26 云平台异常事件的监控及自动处理的方法和框架 Pending CN107070720A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710283492.3A CN107070720A (zh) 2017-04-26 2017-04-26 云平台异常事件的监控及自动处理的方法和框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710283492.3A CN107070720A (zh) 2017-04-26 2017-04-26 云平台异常事件的监控及自动处理的方法和框架

Publications (1)

Publication Number Publication Date
CN107070720A true CN107070720A (zh) 2017-08-18

Family

ID=59604960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710283492.3A Pending CN107070720A (zh) 2017-04-26 2017-04-26 云平台异常事件的监控及自动处理的方法和框架

Country Status (1)

Country Link
CN (1) CN107070720A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304486A (zh) * 2017-12-29 2018-07-20 北京欧链科技有限公司 一种基于区块链的数据处理方法及装置
CN109104493A (zh) * 2018-09-04 2018-12-28 南京群顶科技有限公司 一种云资源池业务负载感知与自处理装置及方法
CN110502390A (zh) * 2019-07-08 2019-11-26 中国地质大学(武汉) 一种高校云计算中心自动化运维管理系统
CN114257495A (zh) * 2021-11-16 2022-03-29 国家电网有限公司客户服务中心 一种云平台计算节点异常自动处置系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102420869A (zh) * 2011-12-02 2012-04-18 浪潮集团有限公司 一种云数据中心安全监控方法
CN103220180A (zh) * 2013-04-27 2013-07-24 华南理工大学 一种OpenStack云平台异常的处理方法
CN105262616A (zh) * 2015-09-21 2016-01-20 浪潮集团有限公司 一种基于故障知识库的自动化故障处理系统及方法
CN105872068A (zh) * 2016-04-28 2016-08-17 国网浙江省电力公司信息通信分公司 一种云平台以及基于该云平台的自动化运检方法
US20170103013A1 (en) * 2015-10-09 2017-04-13 The Board Of Trustees Of The University Of Illinois System and methods for automatically localizing faults

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102420869A (zh) * 2011-12-02 2012-04-18 浪潮集团有限公司 一种云数据中心安全监控方法
CN103220180A (zh) * 2013-04-27 2013-07-24 华南理工大学 一种OpenStack云平台异常的处理方法
CN105262616A (zh) * 2015-09-21 2016-01-20 浪潮集团有限公司 一种基于故障知识库的自动化故障处理系统及方法
US20170103013A1 (en) * 2015-10-09 2017-04-13 The Board Of Trustees Of The University Of Illinois System and methods for automatically localizing faults
CN105872068A (zh) * 2016-04-28 2016-08-17 国网浙江省电力公司信息通信分公司 一种云平台以及基于该云平台的自动化运检方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304486A (zh) * 2017-12-29 2018-07-20 北京欧链科技有限公司 一种基于区块链的数据处理方法及装置
CN109104493A (zh) * 2018-09-04 2018-12-28 南京群顶科技有限公司 一种云资源池业务负载感知与自处理装置及方法
CN110502390A (zh) * 2019-07-08 2019-11-26 中国地质大学(武汉) 一种高校云计算中心自动化运维管理系统
CN110502390B (zh) * 2019-07-08 2021-06-01 中国地质大学(武汉) 一种高校云计算中心自动化运维管理系统
CN114257495A (zh) * 2021-11-16 2022-03-29 国家电网有限公司客户服务中心 一种云平台计算节点异常自动处置系统

Similar Documents

Publication Publication Date Title
CN107070720A (zh) 云平台异常事件的监控及自动处理的方法和框架
CN104539053B (zh) 基于爬虫技术的电力调度自动化巡检机器人及巡检方法
CN107196804A (zh) 电力系统终端通信接入网告警集中监控系统及方法
CN107733986A (zh) 支持一体化部署及监控的保护运行大数据支撑平台
CN105978960A (zh) 一种基于海量视频结构化处理的云调度系统及方法
CN110502390B (zh) 一种高校云计算中心自动化运维管理系统
US20210390422A1 (en) Knowledge-Base Information Sensing Method And System For Operations And Maintenance Of Data Center
CN108769115A (zh) 分布式rss数据采集方法和系统
CN101847116A (zh) 一种基于j2ee架构的监控系统和方法
CN112600891A (zh) 一种基于信息物理融合的边云协同系统及工作方法
CN105653425A (zh) 基于复杂事件处理引擎的监控系统
CN106027328A (zh) 一种基于应用容器部署的集群监控的方法及系统
CN104298550A (zh) 一种面向Hadoop的动态调度方法
CN106445817A (zh) 测试数据的处理方法、装置和系统
CN106874189A (zh) 一种电网实时数据库系统的自动化测试系统的实现方法
CN106874482A (zh) 一种基于大数据技术的图形化的数据预处理的装置及方法
CN106790706A (zh) 一种数据资源优化的方法、平台及系统
CN108009258A (zh) 一种可在线配置的数据采集与分析平台
CN107992392A (zh) 一种用于云渲染系统的自动监控修复系统和方法
CN107562541A (zh) 一种负载均衡分布式的爬虫方法、爬虫系统
CN106888256A (zh) 分布式监控系统及其监控和调度方法与装置
CN105868222A (zh) 一种任务调度方法及装置
CN111400352B (zh) 一种可进行数据批量处理的工作流引擎
CN106789243A (zh) 一种具有智能故障分析功能的it运维系统
CN113516244A (zh) 一种智能运维方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170818