CN115001939A - 一种针对容器资源的监控告警系统及方法 - Google Patents

一种针对容器资源的监控告警系统及方法 Download PDF

Info

Publication number
CN115001939A
CN115001939A CN202210532142.7A CN202210532142A CN115001939A CN 115001939 A CN115001939 A CN 115001939A CN 202210532142 A CN202210532142 A CN 202210532142A CN 115001939 A CN115001939 A CN 115001939A
Authority
CN
China
Prior art keywords
strategy
container
value
acquiring
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210532142.7A
Other languages
English (en)
Inventor
王军平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Saibo Yunrui Intelligent Technology Co ltd
Original Assignee
Beijing Saibo Yunrui Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Saibo Yunrui Intelligent Technology Co ltd filed Critical Beijing Saibo Yunrui Intelligent Technology Co ltd
Priority to CN202210532142.7A priority Critical patent/CN115001939A/zh
Publication of CN115001939A publication Critical patent/CN115001939A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0613Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on the type or category of the network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Alarm Systems (AREA)

Abstract

本发明提供了一种针对容器资源的监控告警系统及方法,其中,系统包括:获取模块,用于获取需要进行监控的容器的第一属性信息,同时,获取多个第一容器异常事件;筛选模块,用于基于第一属性信息,对第一容器异常事件进行预筛选;制定模块,用于基于预筛选结果,制定适宜于所述第一容器的监控策略;监控模块,用于基于监控策略,对容器进行监控,当监控到异常时,进行相应告警。本发明的针对容器资源的监控告警系统及方法,基于第一属性信息,对第一容器异常事件进行预筛选,根据预筛选结果,制定适宜于所述第一容器的监控策略,保证监控策略适宜第一容器,提升了监控的针对性,更提升了异常发现的及时性,同时,也降低了人力成本。

Description

一种针对容器资源的监控告警系统及方法
技术领域
本发明涉及容器监控技术领域,特别涉及一种针对容器资源的监控告警系统及方法。
背景技术
目前,容器在运行时,需要对其进行资源监控(例如:监控CPU使用率、内存使用率、容器node状态和上下行流量等),监控时,采用人工监控或具有固定监控顺序的一般监控策略进行监控;
人力监控的人力成本较大,监控效率较低,另外,由于容器的业务场景不同等,容器产生各个异常类型的概率也会变化,若仍采用一般监控策略进行监控,缺少针对性,会降低异常发现的及时性;
因此,亟需一种解决办法。
发明内容
本发明提供一种针对容器资源的监控告警系统及方法,基于第一属性信息,对第一容器异常事件进行预筛选,根据预筛选结果,制定适宜于所述第一容器的监控策略,保证监控策略适宜第一容器,提升了监控的针对性,更提升了异常发现的及时性,同时,也降低了人力成本。
本发明提供一种针对容器资源的监控告警系统,包括:
获取模块,用于获取需要进行监控的第一容器的第一属性信息,同时,获取多个第一容器异常事件;
筛选模块,用于基于所述第一属性信息,对所述第一容器异常事件进行预筛选;
制定模块,用于基于预筛选结果,制定适宜于所述第一容器的监控策略;
监控模块,用于基于所述监控策略,对所述第一容器进行监控,当监控到至少一个第一异常项时,进行相应告警。
优选的,获取多个第一容器异常事件,包括:
获取预设的事件节点集,所述事件节点集包括:多个第一事件节点;
获取所述第一事件节点的节点类型,所述节点类型包括:主动节点和被动节点;
当所述第一事件节点的节点类型为主动节点时,获取所述第一事件节点对应的主动策略;
对所述主动策略的可行性进行验证,若验证未通过,剔除对应所述第一事件节点;
当所述第一事件节点的节点类型为被动节点时,获取所述第一事件节点对应的被动方;
对所述被动方的可信性进行验证,若验证未通过,剔除对应所述第一事件节点;
当需要剔除的所述第一事件节点均剔除后,将剔除剩余的所述第一事件节点作为第二事件节点;
通过所述第二事件节点获取多个第一容器异常事件。
优选的,对所述主动策略的可行性进行验证,包括:
对所述主动策略进行策略拆分,获得多个第一策略项;
依次遍历所述第一策略项,每次遍历时,对遍历到的第二策略项进行元素提取,获得多个第一策略元素;
获取预设的触发元素库,将所述第一策略元素与所述触发元素库中的第二策略元素进行匹配;
若匹配符合,同时,获取匹配符合的所述第二策略元素对应的触发值,并与所述第二策略项进行关联;
累加计算所述第二策略项关联的所述触发值,获得触发值和;
获取所述第二策略项对应于所述主动策略的策略权重,同时,获取所述策略权重对应的触发值和阈值;
若所述处方值和小于等于所述处方值和阈值,所述主动策略的可行性验证通过;
否则,获取所述第二策略项对应的多个主动记录;
基于预设的风险判定模型,根据所述主动记录,对所述第二策略项进行风险判定,获取第一风险值;
赋予所述第一风险值所述第二策略项对应于所述主动策略的策略权重,获得第二风险值;
当遍历所述第一策略项结束后,累加计算各所述第二风险值,获得风险值和;
若所述风险值和大于等于预设的风险值和阈值,所述主动策略的可行性验证未通过;
否则,验证通过。
优选的,对所述被动方的可信性进行验证,包括:
获取所述被动方对应的被动方式的方式类型,所述方式类型包括:直接方式和间接方式;
当所述被动方对应的被动方式的方式类型为直接方式时,获取所述被动方对应的第一可靠值;
若所述第一可靠值小于等于预设的第一可靠值阈值,所述被动方的可信性验证未通过;
否则,验证通过;
当所述被动方对应的被动方式的方式类型为间接方式时,获取所述被动方对应的至少一个第一间接场景;
依次遍历所述第一间接场景,每次遍历时,获取遍历到的第二间接场景对应于所述被动方的场景权重,获取所述第二间接场景的第二可靠值,同时,获取所述被动方对所述第二间接场景进行担保的担保值;
获取所述场景权重和所述第二可靠值共同对应的担保阈值;
若所述第二可靠值小于等于预设的第二可靠值阈值和/或所述担保值小于等于所述担保阈值,所述被动方的可信性验证未通过;
否则,验证通过。
优选的,基于所述第一属性信息,对所述第一容器异常事件进行预筛选,包括:
获取所述第一容器异常事件对应的第二容器的第二属性信息;
对所述第一属性信息进行特征提取,获得多个第一属性特征;
对所述第二属性信息进行特征提取,获得多个第二属性特征;
将所述第一属性特征与所述第二属性特征进行匹配;
若匹配符合,将匹配符合的所述第一属性特征或所述第二属性特征作为第三属性特征;
构建属性特征-利用值库,基于所述属性特征-利用值库,确定所述第三属性特征对应的第一利用值,并与对应所述第一容器异常事件进行关联;
累加计算所述第一容器异常事件关联的所述第一利用值,获得利用值和;
若所述利用值和大于等于预设的利用值和阈值,将对应所述第一容器异常事件作为第二容器异常事件;
整合各所述第二容器异常事件,获得事件集;
将所述事件集作为预筛选结果,完成预筛选。
优选的,构建属性特征-利用值库,包括:
获取预设的属性特征集,所述属性特征集包括:多个第四属性特征;
获取所述第四属性特征对应的多个利用事件;
基于预设的作用分析模型,分析所述第四属性特征对应于所述利用事件的作用值,并与对应所述第四属性特征进行关联;
累加计算所述第四属性特征关联的所述作用值,获得第二利用值;
将所述第四属性特征与对应所述第二利用值进行组合配对,获得第一配对项;
获取预设的第一空白库,将所述第一配对项存入所述第一空白库中;
当需要存入所述第一空白库的所述第一配对项均存入后,将所述第一空白库作为属性特征-利用值库。
优选的,基于预筛选结果,制定适宜于所述第一容器的监控策略,包括:
基于预设的策略制定模型,根据所述预筛选结果,制定适宜于所述第一容器的监控策略。
优选的,针对容器资源的监控告警系统,还包括:
处理模块,用于确定所述第一异常项适宜的第一处理策略,基于所述第一处理策略,对所述第一异常项进行相应处理。
优选的,所述处理模块执行如下操作:
构建异常项-处理策略库,基于所述异常项-处理策略库,确定所述第一异常项对应的第一处理策略,完成确定;
其中,构建异常项-处理策略库,包括:
获取预设的异常项集,所述异常项集包括:多个第二异常项;
获取所述第二异常项对应的复杂度;
若所述复杂度大于等于预设的复杂度阈值,将对应所述第二异常项作为第三异常项;
否则,将对应所述第二异常项作为第四异常项;
获取所述第三异常项对应的备选的多个第二处理策略;
获取预设的模拟环境,基于预设的模拟模型,在所述模拟环境内模拟发生所述第三异常项;
模拟发生后,基于预设的策略模拟模型,在所述模拟环境内模拟执行所述第二处理策略,对所述第三异常项进行模拟处理;
在模拟处理过程中,获取所述第三异常项对应的预设的第一效果评价模型,对模拟处理过程进行效果评价,获取第一评价值,并与对应所述第二处理策略进行关联;
将最大所述第一评价值关联的所述第二处理策略与对应所述第三异常项进行组合配对,获得第二配对项;
获取所述第四异常项对应的备选的多个第三处理策略;
获取所述第三处理策略对应的多个处理事件;
基于预设的第二效果评价模型,根据所述处理事件,对所述第三处理策略进行效果评价,获取第二评价值,并与对应所述第三处理策略进行关联;
将最大所述第二评价值关联的所述第三处理策略与对应所述第四异常项进行组合配对,获得第三配对项;
获取预设的第二空白库,将所述第二配对项和所述第三配对项存入所述第二空白库中;
当需要存入所述第二空白库的所述第二配对项和所述第三配对项均存入后,将所述第二空白库作为异常项-处理策略库,完成构建。
本发明提供一种针对容器资源的监控告警方法,包括:
步骤1:获取需要进行监控的第一容器的第一属性信息,同时,获取多个第一容器异常事件;
步骤2:基于所述第一属性信息,对所述第一容器异常事件进行预筛选;
步骤3:基于预筛选结果,制定适宜于所述第一容器的监控策略;
步骤4:基于所述监控策略,对所述第一容器进行监控,当监控到至少一个第一异常项时,进行相应告警。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种针对容器资源的监控告警系统的示意图;
图2为本发明实施例中又一针对容器资源的监控告警系统的示意图;
图3为本发明实施例中一种针对容器资源的监控告警方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供一种针对容器资源的监控告警系统,如图1所示,包括:
获取模块1,用于获取需要进行监控的第一容器的第一属性信息,同时,获取多个第一容器异常事件;
筛选模块2,用于基于所述第一属性信息,对所述第一容器异常事件进行预筛选;
制定模块3,用于基于预筛选结果,制定适宜于所述第一容器的监控策略;
监控模块4,用于基于所述监控策略,对所述第一容器进行监控,当监控到至少一个第一异常项时,进行相应告警。
上述技术方案的工作原理及有益效果为:
当第一容器需要进行监控时,获取其对应第一属性信息(例如:容器类型、业务场景等),同时,获取多个第一容器异常事件(大量第二容器历史上产生异常的记录);但是,并不是全部第一容器异常事件适用于第一容器适宜监控策略的制定(例如:第一容器和第二容器的容器类型不同),因此,基于第一属性信息,对所述第一容器异常事件进行预筛选(筛选出适用于第一容器适宜监控策略的制定的第二容器异常事件),基于预筛选结果,制定第一容器适宜的监控策略(例如:基于预筛选结果,确定第一容器当前产生各个不同类型异常的概率,制定监控策略时,优先监控概率较大的异常),并对第一容器进行监控;当监控到第一异常项(例如:内存使用率骤增)时,进行相应告警(例如:通知维保人员);
本发明实施例基于第一属性信息,对第一容器异常事件进行预筛选,根据预筛选结果,制定适宜于所述第一容器的监控策略,保证监控策略适宜第一容器,提升了监控的针对性,更提升了异常发现的及时性,同时,也降低了人力成本。
本发明提供一种针对容器资源的监控告警系统,获取多个第一容器异常事件,包括:
获取预设的事件节点集,所述事件节点集包括:多个第一事件节点;
获取所述第一事件节点的节点类型,所述节点类型包括:主动节点和被动节点;
当所述第一事件节点的节点类型为主动节点时,获取所述第一事件节点对应的主动策略;
对所述主动策略的可行性进行验证,若验证未通过,剔除对应所述第一事件节点;
当所述第一事件节点的节点类型为被动节点时,获取所述第一事件节点对应的被动方;
对所述被动方的可信性进行验证,若验证未通过,剔除对应所述第一事件节点;
当需要剔除的所述第一事件节点均剔除后,将剔除剩余的所述第一事件节点作为第二事件节点;
通过所述第二事件节点获取多个第一容器异常事件。
上述技术方案的工作原理及有益效果为:
第一事件节点对应于一个收集容器历史异常记录的收集方,其节点类型分为主动节点(主动进行收集,例如:从容器平台网页上获取)和被动节点(接收他方发送的容器历史异常记录);当节点类型为主动节点时,获取其对应主动策略(例如:从哪个容器平台网页上如何获取),需要对主动策略的可行性进行验证(例如:验证是否安全),若验证未通过,剔除对应第一事件节点;当节点类型为被动节点时,获取其对应被动方(发送容器历史异常记录的他方),需要对被动方的可信性进行验证(例如:可信度验证),若验证未通过,剔除对应第一事件节点;通过剔除剩余的第二事件节点获取多个第一容器异常事件;
本发明实施例根据第一事件节点的节点类型的不同,分别进行可行性验证和可信性验证,保证通过验证通过的第二事件节点获取第一容器异常事件的获取精准性和可靠性,提升了获取质量。
本发明提供一种针对容器资源的监控告警系统,对所述主动策略的可行性进行验证,包括:
对所述主动策略进行策略拆分,获得多个第一策略项;
依次遍历所述第一策略项,每次遍历时,对遍历到的第二策略项进行元素提取,获得多个第一策略元素;
获取预设的触发元素库,将所述第一策略元素与所述触发元素库中的第二策略元素进行匹配;
若匹配符合,同时,获取匹配符合的所述第二策略元素对应的触发值,并与所述第二策略项进行关联;
累加计算所述第二策略项关联的所述触发值,获得触发值和;
获取所述第二策略项对应于所述主动策略的策略权重,同时,获取所述策略权重对应的触发值和阈值;
若所述处方值和小于等于所述处方值和阈值,所述主动策略的可行性验证通过;
否则,获取所述第二策略项对应的多个主动记录;
基于预设的风险判定模型,根据所述主动记录,对所述第二策略项进行风险判定,获取第一风险值;
赋予所述第一风险值所述第二策略项对应于所述主动策略的策略权重,获得第二风险值;
当遍历所述第一策略项结束后,累加计算各所述第二风险值,获得风险值和;
若所述风险值和大于等于预设的风险值和阈值,所述主动策略的可行性验证未通过;
否则,验证通过。
上述技术方案的工作原理及有益效果为:
对主动策略的可行性进行验证时,可以从风险评估入手;将主动策略拆分成多个第一策略项,依次遍历,提取每次遍历到的第二策略项的第一策略元素,并与预设的触发元素库(存储有大量表征策略存在风险的元素,例如:从容器平台网页上爬取数据,风险未知)中的第二策略元素进行匹配,若匹配符合,获取对应触发值,触发值越大,表征的风险越大;累加计算(求和)触发值,获得触发值和;获取第二策略项对应于主动策略的策略权重,策略权重越大,该第二策略项对应于主动策略的重要性越大,对应触发值和阈值应越小;若触发值和小于等于该触发值和阈值,说明风险表征总体较小,验证通过,否则,需要进行进一步风险判定;获取第二策略项对应的主动记录(历史上采用该第二策略项进行容器历史异常记录收集的记录),基于预设的风险判定模型(预先训练的用于根据主动记录进行风险判定的模型,在进行风险判定时,例如可以基于主动记录中的风险情况进行判定),根据主动记录,判定出第一风险值,赋予第一风险值对应策略权重(两者想乘),获得第二风险值;累加计算第二风险值,获得风险值和;若风险值和大于等于预设的风险值和阈值(常数),说明风险确实较大,可行性验证未通过,否则,验证通过;
由于节点类型为主动节点的第一事件节点数目较多,若依次对主动策略的进行风险判定,判定资源较大,因此,本发明实施例设置触发元素库,当触发值和大于等于触发值和阈值时,触发进行风险判定,降低了判定资源,提升了对各主动策略的可行性进行验证的验证效率。
本发明提供一种针对容器资源的监控告警系统,对所述被动方的可信性进行验证,包括:
获取所述被动方对应的被动方式的方式类型,所述方式类型包括:直接方式和间接方式;
当所述被动方对应的被动方式的方式类型为直接方式时,获取所述被动方对应的第一可靠值;
若所述第一可靠值小于等于预设的第一可靠值阈值,所述被动方的可信性验证未通过;
否则,验证通过;
当所述被动方对应的被动方式的方式类型为间接方式时,获取所述被动方对应的至少一个第一间接场景;
依次遍历所述第一间接场景,每次遍历时,获取遍历到的第二间接场景对应于所述被动方的场景权重,获取所述第二间接场景的第二可靠值,同时,获取所述被动方对所述第二间接场景进行担保的担保值;
获取所述场景权重和所述第二可靠值共同对应的担保阈值;
若所述第二可靠值小于等于预设的第二可靠值阈值和/或所述担保值小于等于所述担保阈值,所述被动方的可信性验证未通过;
否则,验证通过。
上述技术方案的工作原理及有益效果为:
被动方对应的被动方式(发送容器历史异常记录的方式)的方式类型分为直接方式(直接发送)和间接方式(将数据发送给共享平台,共享平台向我方发送,省得被动方自行一一发送);当方式类型为直接方式时,直接获取被动方对应的第一可靠值(可以基于历史上被动方提供的容器历史异常记录的准确性等进行评价获得),若第一可靠值小于等于预设的第一可靠阈值(常数),可信性验证未通过;当方式类型为间接方式时,获取对应的至少一个第一间接场景(例如:共享平台),依次遍历,每次遍历时,获取遍历到的第二间接场景对应于被动方的场景权重,场景权重越大,说明被动方越经常通过该第二间接场景共享数据,也获取第二间接场景的第二可靠值(可以基于历史上第二间接场景提供的容器历史异常记录的准确性等进行评价获得),同时,获取被动方对第二间接场景进行担保的担保值,担保值越大,担保力度越大;获取场景权重和第二可靠值共同对应的担保阈值(场景权重越大,担保要求越高,担保阈值越大,第二可靠值越小,担保要求越高,担保阈值越大);若第二可靠值小于等于预设的第二可靠值阈值和/或担保值小于等于担保阈值,被动方的可信性验证未通过,否则,验证通过;
其中,通过如下公式获取所述场景权重和所述第二可靠值共同对应的担保阈值:
Figure BDA0003631384890000121
其中,
Figure BDA0003631384890000122
为担保阈值,σ为预设的误差系数,α和β为预设的权重值,D为所述场景权重,L为所述第二可靠值,γ为预设的常数;
被动方一定不会仅向一方提供数据,当要提供给的目标方较多时,一般会选择间接方式进行提供,比较便捷,因此,本发明实施例考虑到被动方的被动方式的两种类型,分别对被动方进行可信性验证,提升了验证全面性和验证质量。
本发明提供一种针对容器资源的监控告警系统,基于所述第一属性信息,对所述第一容器异常事件进行预筛选,包括:
获取所述第一容器异常事件对应的第二容器的第二属性信息;
对所述第一属性信息进行特征提取,获得多个第一属性特征;
对所述第二属性信息进行特征提取,获得多个第二属性特征;
将所述第一属性特征与所述第二属性特征进行匹配;
若匹配符合,将匹配符合的所述第一属性特征或所述第二属性特征作为第三属性特征;
构建属性特征-利用值库,基于所述属性特征-利用值库,确定所述第三属性特征对应的第一利用值,并与对应所述第一容器异常事件进行关联;
累加计算所述第一容器异常事件关联的所述第一利用值,获得利用值和;
若所述利用值和大于等于预设的利用值和阈值,将对应所述第一容器异常事件作为第二容器异常事件;
整合各所述第二容器异常事件,获得事件集;
将所述事件集作为预筛选结果,完成预筛选。
上述技术方案的工作原理及有益效果为:
基于第一属性信息,对第一容器异常事件进行预筛选时,可以从属性匹配入手,属性越匹配,对应第一容器异常事件越可用于第一容器适宜监控策略的知道;因此,获取第一容器异常事件对应的第二容器的第二属性信息(与第一属性信息同理),分别提取出第一属性特征和第二属性特征进行匹配,若匹配符合,查库获取对应第三属性特征对应的利用值,利用值越大,说明对应第一容器异常事件的可利用性越大;累加计算第一容器异常事件关联的第一利用值,获得利用值和;若利用值和大于等于预设的利用值和阈值,说明对应第一容器异常事件的总体可利用程度较高,作为第二容器异常事件;整合第二容器异常事件,获得事件集,并作为预筛选结果;
对第一容器异常事件进行预筛选时,可以进行属性匹配,但是,无法确定某属性特征匹配后,代表对应第一容器异常事件的可利用性具体有多大,因此,本发明实施例构建属性特征-利用值库,查库可以直接获取第三属性特征对应的利用值,提升了预筛选的精准性和筛选效率。
本发明提供一种针对容器资源的监控告警系统,构建属性特征-利用值库,包括:
获取预设的属性特征集,所述属性特征集包括:多个第四属性特征;
获取所述第四属性特征对应的多个利用事件;
基于预设的作用分析模型,分析所述第四属性特征对应于所述利用事件的作用值,并与对应所述第四属性特征进行关联;
累加计算所述第四属性特征关联的所述作用值,获得第二利用值;
将所述第四属性特征与对应所述第二利用值进行组合配对,获得第一配对项;
获取预设的第一空白库,将所述第一配对项存入所述第一空白库中;
当需要存入所述第一空白库的所述第一配对项均存入后,将所述第一空白库作为属性特征-利用值库。
上述技术方案的工作原理及有益效果为:
构建属性特征-利用值库时,可以判定不同第四属性特征(不同属性信息的全部特征)在历史上的贡献程度入手,因此,获取第四属性特征对应的多个利用事件(一个记录,记录包含某次制定适宜于某容器的监控策略,进行预筛选时,匹配的属性特征有哪些,基于制定的监控策略进行容器监控时,发现的异常的情况);基于预设的作用分析模型(预先训练用于基于利用事件判定某属性特征匹配的贡献作用的模型,在进行作用分析时,例如可以看利用事件中某属性特征匹配后,是否基于制定的监控策略发现了异常,是否提升了发现异常的及时性等),分析第四属性特征对应于利用事件的作用值,累加计算第四属性特征关联的作用值,获得第二利用值,并与对应第四属性特征进行组合配对,获得第一配对组,全部存入第一空白库(空白数据库),完成属性特征-利用值库的构建;
本发明实施例构建属性特征-利用值库时,设置作用分析模型,快速确定各个第四属性特征对应的第二利用值,提升了属性特征-利用值库的构建效率和构建质量。
本发明提供一种针对容器资源的监控告警系统,基于预筛选结果,制定适宜于所述第一容器的监控策略,包括:
基于预设的策略制定模型,根据所述预筛选结果,制定适宜于所述第一容器的监控策略。
上述技术方案的工作原理及有益效果为:
基于预筛选结果,制定第一容器适宜的监控策略时,基于预设的策略制定模型(预先训练的基于预筛选结果制定适宜监控策略的模型,在制定时,例如可以基于第二容器异常事件分析各个异常的发生概率,基于概率从大到小进行对应异常监控)进行完成,提升了监控策略制定的制定效率。
本发明提供一种针对容器资源的监控告警系统,如图2所示,还包括
处理模块5,用于确定所述第一异常项适宜的第一处理策略,基于所述第一处理策略,对所述第一异常项进行相应处理。
上述技术方案的工作原理及有益效果为:
当监控发现第一异常项(例如:内存使用率骤增)时,需要进行自行处理,确定适宜的第一处理策略(例如:筛选非必要内存进程,并进行依次结束处理),并基于第一处理策略,进行相应处理。
本发明提供一种针对容器资源的监控告警系统,所述处理模块5执行如下操作:
构建异常项-处理策略库,基于所述异常项-处理策略库,确定所述第一异常项对应的第一处理策略,完成确定;
其中,构建异常项-处理策略库,包括:
获取预设的异常项集,所述异常项集包括:多个第二异常项;
获取所述第二异常项对应的复杂度;
若所述复杂度大于等于预设的复杂度阈值,将对应所述第二异常项作为第三异常项;
否则,将对应所述第二异常项作为第四异常项;
获取所述第三异常项对应的备选的多个第二处理策略;
获取预设的模拟环境,基于预设的模拟模型,在所述模拟环境内模拟发生所述第三异常项;
模拟发生后,基于预设的策略模拟模型,在所述模拟环境内模拟执行所述第二处理策略,对所述第三异常项进行模拟处理;
在模拟处理过程中,获取所述第三异常项对应的预设的第一效果评价模型,对模拟处理过程进行效果评价,获取第一评价值,并与对应所述第二处理策略进行关联;
将最大所述第一评价值关联的所述第二处理策略与对应所述第三异常项进行组合配对,获得第二配对项;
获取所述第四异常项对应的备选的多个第三处理策略;
获取所述第三处理策略对应的多个处理事件;
基于预设的第二效果评价模型,根据所述处理事件,对所述第三处理策略进行效果评价,获取第二评价值,并与对应所述第三处理策略进行关联;
将最大所述第二评价值关联的所述第三处理策略与对应所述第四异常项进行组合配对,获得第三配对项;
获取预设的第二空白库,将所述第二配对项和所述第三配对项存入所述第二空白库中;
当需要存入所述第二空白库的所述第二配对项和所述第三配对项均存入后,将所述第二空白库作为异常项-处理策略库,完成构建。
上述技术方案的工作原理及有益效果为:
在确定第一异常项适宜的第一处理策略时,可以构建异常项-处理策略库,查库进行获取;在构建异常项-处理策略库时,可以从评价第二异常项(不同容器的全部异常类型)备选的处理策略的处理效果入手,因此,获取第二异常项对应的复杂度,复杂度越大,第二异常项的异常越复杂,当复杂度大于等于预设的复杂度阈值时,作为第三异常项,否则,作为第四异常项;基于预设的模拟模型(预先训练的用于模拟异常的模型),在预设的模拟环境(模拟环境属于现有技术,不作赘述)内模拟发生第四异常项,模拟发生后,基于预设的策略模拟模型(预先训练的用于模拟执行处理策略的模型),依次模拟执行第四异常项对应的备选的第二处理策略,在模拟处理过程中,获取第三异常项对应的预设的第一效果评价模型(预先训练的用于评价异常类型对应的处理效果的模型),进行效果评价,获得第一评价值,将最大第一评价值与对应第三异常项进行组合配对,获得第二配对项;获取第四异常项对应的备选的第三处理策略,获取第三处理策略对应的处理事件(历史上采用该第三处理策略进行容器异常处理的记录),基于预设的第二效果评价模型(预先训练的用于基于处理事件评价处理策略效果的模型,在评价时,例如可以判断处理事件中处理后的情况如何来进行效果评价),获得第二评价值,将最大第二评价值与对应第三异常项进行组合配对,获得第三配对项;将第二配对项和第三配对项存入预设的第二空白库,全部存入后,完成异常项-处理策略库的构建;
当一些第二异常项较复杂(例如:特殊的业务场景等)时,若基于历史处理事件进行效果评价,评价的精准性较低,因此,当第二异常项较复杂时,进行异常模拟、策略模拟执行和效果评价,提升了评价的精准性;当第二异常项较为不复杂时,基于对应历史处理事件进行效果评价,合理分工,提升了异常项-处理策略库的构建效率和构建质量。
本发明提供一种针对容器资源的监控告警方法,如图3示,包括:
步骤1:获取需要进行监控的第一容器的第一属性信息,同时,获取多个第一容器异常事件;
步骤2:基于所述第一属性信息,对所述第一容器异常事件进行预筛选;
步骤3:基于预筛选结果,制定适宜于所述第一容器的监控策略;
步骤4:基于所述监控策略,对所述第一容器进行监控,当监控到至少一个第一异常项时,进行相应告警。
上述技术方案的工作原理及有益效果已在系统权要中说明,不再赘述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种针对容器资源的监控告警系统,其特征在于,包括:
获取模块,用于获取需要进行监控的第一容器的第一属性信息,同时,获取多个第一容器异常事件;
筛选模块,用于基于所述第一属性信息,对所述第一容器异常事件进行预筛选;
制定模块,用于基于预筛选结果,制定适宜于所述第一容器的监控策略;
监控模块,用于基于所述监控策略,对所述第一容器进行监控,当监控到至少一个第一异常项时,进行相应告警。
2.如权利要求1所述的一种针对容器资源的监控告警系统,其特征在于,获取多个第一容器异常事件,包括:
获取预设的事件节点集,所述事件节点集包括:多个第一事件节点;
获取所述第一事件节点的节点类型,所述节点类型包括:主动节点和被动节点;
当所述第一事件节点的节点类型为主动节点时,获取所述第一事件节点对应的主动策略;
对所述主动策略的可行性进行验证,若验证未通过,剔除对应所述第一事件节点;
当所述第一事件节点的节点类型为被动节点时,获取所述第一事件节点对应的被动方;
对所述被动方的可信性进行验证,若验证未通过,剔除对应所述第一事件节点;
当需要剔除的所述第一事件节点均剔除后,将剔除剩余的所述第一事件节点作为第二事件节点;
通过所述第二事件节点获取多个第一容器异常事件。
3.如权利要求2所述的一种针对容器资源的监控告警系统,其特征在于,对所述主动策略的可行性进行验证,包括:
对所述主动策略进行策略拆分,获得多个第一策略项;
依次遍历所述第一策略项,每次遍历时,对遍历到的第二策略项进行元素提取,获得多个第一策略元素;
获取预设的触发元素库,将所述第一策略元素与所述触发元素库中的第二策略元素进行匹配;
若匹配符合,同时,获取匹配符合的所述第二策略元素对应的触发值,并与所述第二策略项进行关联;
累加计算所述第二策略项关联的所述触发值,获得触发值和;
获取所述第二策略项对应于所述主动策略的策略权重,同时,获取所述策略权重对应的触发值和阈值;
若所述处方值和小于等于所述处方值和阈值,所述主动策略的可行性验证通过;
否则,获取所述第二策略项对应的多个主动记录;
基于预设的风险判定模型,根据所述主动记录,对所述第二策略项进行风险判定,获取第一风险值;
赋予所述第一风险值所述第二策略项对应于所述主动策略的策略权重,获得第二风险值;
当遍历所述第一策略项结束后,累加计算各所述第二风险值,获得风险值和;
若所述风险值和大于等于预设的风险值和阈值,所述主动策略的可行性验证未通过;
否则,验证通过。
4.如权利要求2所述的一种针对容器资源的监控告警系统,其特征在于,对所述被动方的可信性进行验证,包括:
获取所述被动方对应的被动方式的方式类型,所述方式类型包括:直接方式和间接方式;
当所述被动方对应的被动方式的方式类型为直接方式时,获取所述被动方对应的第一可靠值;
若所述第一可靠值小于等于预设的第一可靠值阈值,所述被动方的可信性验证未通过;
否则,验证通过;
当所述被动方对应的被动方式的方式类型为间接方式时,获取所述被动方对应的至少一个第一间接场景;
依次遍历所述第一间接场景,每次遍历时,获取遍历到的第二间接场景对应于所述被动方的场景权重,获取所述第二间接场景的第二可靠值,同时,获取所述被动方对所述第二间接场景进行担保的担保值;
获取所述场景权重和所述第二可靠值共同对应的担保阈值;
若所述第二可靠值小于等于预设的第二可靠值阈值和/或所述担保值小于等于所述担保阈值,所述被动方的可信性验证未通过;
否则,验证通过。
5.如权利要求1所述的一种针对容器资源的监控告警系统,其特征在于,基于所述第一属性信息,对所述第一容器异常事件进行预筛选,包括:
获取所述第一容器异常事件对应的第二容器的第二属性信息;
对所述第一属性信息进行特征提取,获得多个第一属性特征;
对所述第二属性信息进行特征提取,获得多个第二属性特征;
将所述第一属性特征与所述第二属性特征进行匹配;
若匹配符合,将匹配符合的所述第一属性特征或所述第二属性特征作为第三属性特征;
构建属性特征-利用值库,基于所述属性特征-利用值库,确定所述第三属性特征对应的第一利用值,并与对应所述第一容器异常事件进行关联;
累加计算所述第一容器异常事件关联的所述第一利用值,获得利用值和;
若所述利用值和大于等于预设的利用值和阈值,将对应所述第一容器异常事件作为第二容器异常事件;
整合各所述第二容器异常事件,获得事件集;
将所述事件集作为预筛选结果,完成预筛选。
6.如权利要求5所述的一种针对容器资源的监控告警系统,其特征在于,构建属性特征-利用值库,包括:
获取预设的属性特征集,所述属性特征集包括:多个第四属性特征;
获取所述第四属性特征对应的多个利用事件;
基于预设的作用分析模型,分析所述第四属性特征对应于所述利用事件的作用值,并与对应所述第四属性特征进行关联;
累加计算所述第四属性特征关联的所述作用值,获得第二利用值;
将所述第四属性特征与对应所述第二利用值进行组合配对,获得第一配对项;
获取预设的第一空白库,将所述第一配对项存入所述第一空白库中;
当需要存入所述第一空白库的所述第一配对项均存入后,将所述第一空白库作为属性特征-利用值库。
7.如权利要求1所述的一种针对容器资源的监控告警系统,其特征在于,基于预筛选结果,制定适宜于所述第一容器的监控策略,包括:
基于预设的策略制定模型,根据所述预筛选结果,制定适宜于所述第一容器的监控策略。
8.如权利要求1所述的一种针对容器资源的监控告警系统,其特征在于,还包括:
处理模块,用于确定所述第一异常项适宜的第一处理策略,基于所述第一处理策略,对所述第一异常项进行相应处理。
9.如权利要求8所述的一种针对容器资源的监控告警系统,其特征在于,所述处理模块执行如下操作:
构建异常项-处理策略库,基于所述异常项-处理策略库,确定所述第一异常项对应的第一处理策略,完成确定;
其中,构建异常项-处理策略库,包括:
获取预设的异常项集,所述异常项集包括:多个第二异常项;
获取所述第二异常项对应的复杂度;
若所述复杂度大于等于预设的复杂度阈值,将对应所述第二异常项作为第三异常项;
否则,将对应所述第二异常项作为第四异常项;
获取所述第三异常项对应的备选的多个第二处理策略;
获取预设的模拟环境,基于预设的模拟模型,在所述模拟环境内模拟发生所述第三异常项;
模拟发生后,基于预设的策略模拟模型,在所述模拟环境内模拟执行所述第二处理策略,对所述第三异常项进行模拟处理;
在模拟处理过程中,获取所述第三异常项对应的预设的第一效果评价模型,对模拟处理过程进行效果评价,获取第一评价值,并与对应所述第二处理策略进行关联;
将最大所述第一评价值关联的所述第二处理策略与对应所述第三异常项进行组合配对,获得第二配对项;
获取所述第四异常项对应的备选的多个第三处理策略;
获取所述第三处理策略对应的多个处理事件;
基于预设的第二效果评价模型,根据所述处理事件,对所述第三处理策略进行效果评价,获取第二评价值,并与对应所述第三处理策略进行关联;
将最大所述第二评价值关联的所述第三处理策略与对应所述第四异常项进行组合配对,获得第三配对项;
获取预设的第二空白库,将所述第二配对项和所述第三配对项存入所述第二空白库中;
当需要存入所述第二空白库的所述第二配对项和所述第三配对项均存入后,将所述第二空白库作为异常项-处理策略库,完成构建。
10.一种针对容器资源的监控告警方法,其特征在于,包括:
步骤1:获取需要进行监控的第一容器的第一属性信息,同时,获取多个第一容器异常事件;
步骤2:基于所述第一属性信息,对所述第一容器异常事件进行预筛选;
步骤3:基于预筛选结果,制定适宜于所述第一容器的监控策略;
步骤4:基于所述监控策略,对所述第一容器进行监控,当监控到至少一个第一异常项时,进行相应告警。
CN202210532142.7A 2022-05-07 2022-05-07 一种针对容器资源的监控告警系统及方法 Pending CN115001939A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210532142.7A CN115001939A (zh) 2022-05-07 2022-05-07 一种针对容器资源的监控告警系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210532142.7A CN115001939A (zh) 2022-05-07 2022-05-07 一种针对容器资源的监控告警系统及方法

Publications (1)

Publication Number Publication Date
CN115001939A true CN115001939A (zh) 2022-09-02

Family

ID=83027994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210532142.7A Pending CN115001939A (zh) 2022-05-07 2022-05-07 一种针对容器资源的监控告警系统及方法

Country Status (1)

Country Link
CN (1) CN115001939A (zh)

Similar Documents

Publication Publication Date Title
CN110888755A (zh) 一种微服务系统异常根因节点的查找方法及装置
CN111177714B (zh) 异常行为检测方法、装置、计算机设备和存储介质
US8751867B2 (en) Method and apparatus for root cause and critical pattern prediction using virtual directed graphs
CN110147387B (zh) 一种根因分析方法、装置、设备及存储介质
CN111614491B (zh) 一种面向电力监控系统安全态势评估指标选取方法及系统
CN109818961B (zh) 一种网络入侵检测方法、装置和设备
CN112769869B (zh) 一种基于贝叶斯攻击图的sdn网络安全预测方法及对应系统
CN112733146B (zh) 基于机器学习的渗透测试方法、装置、设备及存储介质
CN112711757B (zh) 一种基于大数据平台的数据安全集中管控方法及系统
CN110855477A (zh) 链路日志监控方法、装置、计算机设备和存储介质
CN113988616A (zh) 一种基于行业数据的企业风险评估系统及方法
CN113722719A (zh) 针对安全拦截大数据分析的信息生成方法及人工智能系统
CN117221087A (zh) 告警根因定位方法、装置及介质
CN117376228B (zh) 一种网络安全测试工具确定方法及装置
CN112685272B (zh) 一种具备可解释性的用户行为异常检测方法
CN116661954B (zh) 虚拟机异常预测方法、装置、通信设备及存储介质
CN110808947B (zh) 一种自动化的脆弱性量化评估方法及系统
CN116030955B (zh) 基于物联网的医疗设备状态监测方法及相关装置
CN114519437B (zh) 一种基于云的故障诊断分析及报修的微服务方法及系统
CN115001939A (zh) 一种针对容器资源的监控告警系统及方法
CN111159251A (zh) 一种异常数据的确定方法及装置
CN113011893B (zh) 数据处理方法、装置、计算机设备及存储介质
CN110489568B (zh) 生成事件图的方法、装置、存储介质和电子设备
CN115687034A (zh) 一种业务系统平面可用性判定方法和装置
CN113434868A (zh) 基于威胁感知大数据的信息生成方法及人工智能感知系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination