CN112737839A - 多公有云环境下故障自适应修复的方法与设备 - Google Patents

多公有云环境下故障自适应修复的方法与设备 Download PDF

Info

Publication number
CN112737839A
CN112737839A CN202011585385.4A CN202011585385A CN112737839A CN 112737839 A CN112737839 A CN 112737839A CN 202011585385 A CN202011585385 A CN 202011585385A CN 112737839 A CN112737839 A CN 112737839A
Authority
CN
China
Prior art keywords
alarm
information
strategy
merging
association rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011585385.4A
Other languages
English (en)
Inventor
周斌
高海峰
赵平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Lianwei Panyun Technology Co ltd
Original Assignee
Shanghai Lianwei Panyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lianwei Panyun Technology Co ltd filed Critical Shanghai Lianwei Panyun Technology Co ltd
Priority to CN202011585385.4A priority Critical patent/CN112737839A/zh
Publication of CN112737839A publication Critical patent/CN112737839A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种多公有云环境下故障自适应修复的方法,应用于一用户终端,所述方法包括:获取用户的身份验证信息,所述身份验证信息匹配对应的多个公有云账号识别信息;基于所述多个公有云账号识别信息分别向多台云端设备发送多个元数据请求;接收所述多台云端设备基于所述元数据请求而发送或所述多台云端设备根据预设条件而主动发送的多条元数据,所述多条元数据包含相应公有云的资源信息和监控信息;对所述多条元数据执行清洗和持久化操作,以作为后续监控告警信息收敛的基础数据;基于时态数据挖掘执行监控告警信息收敛操作;根据预定规则调用相应的工作流以处理相应故障。

Description

多公有云环境下故障自适应修复的方法与设备
技术领域
本发明涉及云计算领域,尤其涉及一种多公有云环境下故障自适应修复的方法与设备。
背景技术
云计算经历了多年的发展,目前正处于高速发展期,多云是云计算发展的必经阶段。在日常运维工作中,监控是不可缺少的一部分。监控系统能够发现当前系统中存在的问题,但是想要解决还必须要人工介入并且还需要熟悉不同云平台的规则、设置和处理方式,这使得故障处理的时效与运维人员的反应时间、能力等息息相关。
发明内容
鉴于现有技术中的问题,本发明提供了一种多公有云环境下故障自适应修复的方法,应用于一用户终端,所述方法包括:
获取用户的身份验证信息,所述身份验证信息匹配对应的多个公有云账号识别信息;
基于所述多个公有云账号识别信息分别向多台云端设备发送多个元数据请求;
接收所述多台云端设备基于所述元数据请求而发送或所述多台云端设备根据预设条件而主动发送的多条元数据,所述多条元数据包含相应公有云的资源信息和监控信息;
对所述多条元数据执行清洗和持久化操作,以作为后续监控告警信息收敛的基础数据;
基于时态数据挖掘执行监控告警信息收敛操作,其中,所采用的算法依次为告警趋势预测算法、时序关联规则挖掘算法和策略关联规则挖掘算法,所述告警趋势预测算法用于判断是否产生大规模告警,所述时序关联规则挖掘算法用于挖掘具有时序关联关系的告警项,所述策略关联规则挖掘算法用于挖掘具有关联关系的告警项;
根据预定规则调用相应的工作流以处理相应故障。
进一步地,所述分别向多台云端设备发送多个元数据请求的步骤,包括:
基于预设的时间间隔分别向多台云端设备发送多个元数据请求。
进一步地,所述告警趋势预测算法包括:
输入为按接警人每小时统计的告警量;
基于大量历史告警数据利用分位点进行数据去噪和排序重组;
建立告警量统计学模型得到数据的分布规律;
通过求解极大似然估计得到大规模告警阈值;
输出按小时计大规模告警阈值的规则文件。
进一步地,所述时序关联规则挖掘算法包括:
输入为基于时序的原始告警序列;
得到带时间窗口的支持度候选集;
根据所述支持度候选集统计支持度计数;
计算置信度;
优化置信度公式,输出按置信度阈值判断得到的关联规则文件。
进一步地,所述策略关联规则挖掘算法包括:
输入为服务粒度的原始告警序列;
根据配置单元、host、监控策略和namespace执行告警信息合并操作,执行优先级由高至低依次为按配置单元合并、按host合并、按监控策略合并和按namespace合并;
输出策略规则文件。
进一步地,在依次满足所述告警趋势预测算法、所述时序关联规则挖掘算法和所述策略关联规则挖掘算法的对应条件时,根据优先级执行告警信息的合并,优先级由高至低分别为:
若由所述告警趋势预测算法得出当前满足大规模告警条件,则将属于同一接警人名下的告警信息全部合并成一条发送给该接警人;
若同时有多个关联策略产生告警,则采用所述时序关联规则挖掘算法进行时序关联规则合并;
若满足同一服务下多个机器有多个策略产生告警,则采用所述策略关联规则挖掘算法中的按配置单元合并策略进行告警信息合并;
若满足同一机器上多个实例产生告警,则采用所述策略关联规则挖掘算法中的按host合并策略进行告警信息合并;
若满足同一策略下多个实例产生告警,则采用所述策略关联规则挖掘算法中的按监控策略合并策略进行告警信息合并;
若满足同一监控对象上多个策略产生告警,则采用所述策略关联规则挖掘算法中的按namespace合并策略进行告警信息合并。
进一步地,将核心告警项设置为最高级别,以使其不会进行合并。
进一步地,将故障处理的相关信息执行归档操作。
本发明还提供了一种多公有云环境下故障自适应修复的设备,所述设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述方法的操作。
本发明还提供了一种存储指令的计算机可读介质,所述指令在被执行时使得系统执行上述方法的操作。
与现有技术相比,本发明的多公有云环境下故障自适应修复的方法与设备将多云中获取到的资源和监控信息,通过统一终端集中管理,并且针对多云环境下的故障实现自适应修复。整体方案可适配现有主流的公有云(阿里云、Azure、AWS、腾讯云),解决了多云多账号环境下故障处理不及时、无故障自我修复能力等问题,极大减轻运维人员的工作量,同时提升了工作效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出本发明一个实施例的一种系统架构;
图2示出本发明一个实施例的一种多公有云环境下故障自适应修复的方法的流程;
图3是本发明一个实施例中任务队列的示意;
图4是图3中任务队列中当前任务的示意;
图5是本发明一个实施例的任务执行状态的转换示意图;
图6是本发明一个实施例中队列任务执行的流程示意图;
图7是本发明一个实施例中监控告警信息收敛算法的框架图;
图8是本发明一个实施例中采用Apriori算法的流程示意图;
图9是本发明一个实施例中监控告警信息收敛算法应用后的效果图;
图10示出可用于本发明各实施例的一种示例性系统的功能模块。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本发明的一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(例如,中央处理器(Central Processing Unit,CPU))、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RandomAccess Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(Flash Memory)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(Phase-Change Memory,PCM)、可编程随机存取存储器(Programmable Random Access Memory,PRAM)、静态随机存取存储器(Static Random-Access Memory,SRAM)、动态随机存取存储器(Dynamic Random AccessMemory,DRAM)、其他类型的随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、电可擦除可编程只读存储器(Electrically-ErasableProgrammable Read-Only Memory,EEPROM)、快闪记忆体(Flash Memory)或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能光盘(Digital Versatile Disc,DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本发明所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作系统,如Android操作系统、iOS操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程逻辑器件(Programmable Logic Device,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、数字信号处理器(Digital Signal Processor,DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc Network)等。优选地,所述设备还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。
当然,本领域技术人员应能理解上述设备仅为举例,其他现有的或今后可能出现的设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在本发明的实施方式的描述中,“多个”的含义是两个或者更多,除非另有明确具体的限定。
本实施例首先提供了一种多云资源报警管控的系统架构。如图1所示,该系统采用B/S模式和微服务架构,总体设计分为用户层、中间层、数据层和云层四层结构,其中:
-用户层:用户通过PC电脑或第三方系统访问本系统。
-中间层:考虑系统的可扩展性进行前后端分离设计,可快速进行分布式部署,前端页面进行单独部署到Web服务器,后端应用进行单独部署到应用服务器;应用服务可构建集群提供服务,包括统一安全认证、统计分析服务、查询服务、可视化服务、数据库访问服务、配置服务、定时任务服务和计算服务等,接口服务器为第三方提供单独的服务,设计为了防止第三方交互时对业务系统的影响,用户层通过Webservices或者Restful与中间层进行数据请求交互。
-数据层:数据库服务器能进行双机热备、主从等运行,增加单独的缓存服务器,对页面和常用数据进行缓存,用以减轻数据库的压力,解决数据库读写瓶颈,保证数据库的正常运行。
-云层:根据不同云账号信息,自定义定时任务,请求API或者SDK定时从云(阿里云、Azure、AWS、腾讯云)中同步资源和原生监控数据,从云中同步元数据,根据定义的规则完成数据的持久化和资源优化计算。
基于上述架构,具体而言,本实施例提供了一种多云资源报警管控的方法。该方法应用于一用户终端,并由相应的网络设备(例如云端服务器)提供支撑。参考图2,该方法包括步骤S100、步骤S200、步骤S300、步骤S400、步骤S500、步骤S600、步骤S700和步骤S800。以下以一用户终端为例描述本实施例的具体实施方式。
具体地,在步骤S100中,用户终端获取用户的身份验证信息。例如,用户在用户终端输入自己的用户标识(例如系统账号名称)及认证信息(例如账号密码)。
在步骤S200中,用户终端基于所述身份验证信息匹配对应的多个公有云账号识别信息,其中每个公有云账号识别信息分别对应一公有云账号。例如,管理员所登录的用户账号对应于其所管理的若干个公有云账号;在一些情形下,对于同一套系统而言,不同的管理员可能管理不同的公有云账号。
在步骤S300中,用户终端分别向多台云端设备发送多个元数据请求,其中每个元数据请求包括一公有云账号识别信息,所述公有云账号识别信息用于确定用户对相应公有云账号的访问权限。例如,多台云端设备分别对应于多个不同的云平台。用户对某个云账号的访问权限,在一些实施例中由用户提供的相关账号信息确定,例如阿里云需要获取录入accessKeyId、accessSecret字段,而Azure(微软所提供的云服务平台)需要获取录入subscriptionId、clientSecret字段。录入成功以后验证录入账号是否可用。
在步骤S400中,用户终端接收所述多台云端设备基于所述元数据请求而发送或所述多台云端设备根据预设条件而主动发送的多条元数据,其中所述多条元数据包含相应公有云的资源信息和监控信息。因此,用户终端可以通过两种方式获取外部信息,一是主动从多云环境下云监控中获取信息,二是可以在云监控系统中加入触发报警机制,使监控信息被主动上报。
在步骤S500中,用户终端先根据各云平台不同的数据清洗规则,将元数据的内容清洗至相应的数据结构中,包括检查数据一致性,处理无效值和缺失值等。再将已清洗的资源数据和监控数据做持久化操作,以作为后续监控告警信息收敛的基础数据。
在步骤S600中,用户终端采用时态数据挖掘(Temporal Data Mining,TDM)技术执行监控告警信息收敛操作。鉴于多云平台监控数据中均有详细的时间记录,多云平台监控告警数据属于典型的时态数据,因此可采用时态数据挖掘技术实现告警信息收敛。
在步骤S700中,用户终端通过预定义的事件引擎调用对应的工作流解决已知故障。
在步骤S800中,用户终端对于每一次监控的触发与处理均会在后台进行记录,包括来源、参数、结果等。在一些实施例中,还可对接一些开源数据分析软件以进行进一步的数据处理。
从而,用户仅在一个单一的用户界面中,即可实现对多个云账号的云资源报警进行管控,无需分别进入各个云账号进行监控管理。
其中在一些实施例中,在上述步骤S300中,用户终端基于预设的时间间隔分别向多台网络设备发送多个元数据请求。例如,在获取用户的身份验证信息后,系统自行地每隔一定时间执行前述操作,以减轻用户的操作负担和提高本地数据的实时性。
在一些实施例中,上述步骤S300包括子步骤S310、子步骤S320、子步骤S330和子步骤S340(图中未示出)。在子步骤S310中,用户终端创建任务队列,所述任务队列包括对应于所述多个公有云账号识别信息的多个元数据请求任务;在子步骤S320中,用户终端获取所述任务队列中的当前任务,并确定所述当前任务的可执行状态;在子步骤S330中,用户终端若所述当前任务的可执行状态为不可执行,将所述当前任务移至所述任务队列的队尾;在子步骤S340中,若所述当前任务的可执行状态为可以执行,用户终端执行所述当前任务以向相应的网络设备发送相应的元数据请求,并在所述当前任务执行完毕后移除所述当前任务。其中,为自动执行某些任务而减轻管理员负担,一些任务设置有循环状态,该循环状态用于表征该任务是否在本次执行后仍需再次自动执行。相应地在一些实施例中,在子步骤S340中,若所述当前任务的可执行状态为可以执行,用户终端执行所述当前任务以向相应的网络设备发送相应的元数据请求;若所述当前任务的循环状态为真,在所述当前任务执行完毕后将所述当前任务移至所述任务队列的队尾;否则在所述当前任务执行完毕后移除所述当前任务。
例如,系统对各个云账号资源(基础资源、资源监控等)信息同步的管理;同步任务创建成功以后,会保存到待执行的任务队列中,如图3所示。任务队列中一个账号任务包含多个资源信息的子任务,而每个账号任务有且只有一个状态,任务状态分为(可执行、待执行、执行中、执行完成、执行错误),并且任务记录下次执行时间,标记是否循环任务(例如,0-否,1-是)。参考图6示出的任务执行流程,系统首先获取队列中的第一个任务(即“当前任务”),判断其是否可执行,其中图4示出一个示例性的当前任务的逻辑结构;若当前不可执行,将该当前任务移至队尾,否则将其状态置为执行中(以便在并行处理时避免发生冲突),将任务放入执行线程池,并通过子任务并发协程执行。在当前任务执行完毕后,将该当前任务的完成状态标记为“已完成”;检查循环标识,若该当前任务为循环任务,仍将该任务移至队尾,否则从队列中移除该任务。为便于说明,图5示出了任务状态之间的转换过程。
图4所示的任务队列示例中,其属性主要包括账号信息、循环标志、下次执行时间、任务状态标志、子任务信息;子任务主要包括ECS、RDS、OSS等子任务,ECS监控项主要包括CPU百分比(CPU Utilization)、系统磁盘总读BPS(Disk Read BPS)、系统磁盘总写BPS(Disk Write BPS)、公网流出带宽(Internet Out Rate),而RDS监控项主要包括CPU使用率(Cpu Usage)、磁盘使用率(Disk Usage)、连接数使用率(Connection Usage)、内存使用率(MemoryUsage)。当然,本领域技术人员应能理解,这些账号任务的属性,及子任务的种类,在此仅为举例而非对本发明的任何限定;其他现有的或者今后可能出现的账号任务的属性,及子任务的种类,如能适用于本发明,也包含在本发明的保护范围内,并以引用的方式包含于此。
在一些实施例中,在步骤S500中,用户终端将从(Azure、阿里云、AWS、腾讯云)中同步下来的云资源信息进行归类统一管理,表1提供了一种可采用的云资源分类管理表。
表1
Figure BDA0002865926980000091
Figure BDA0002865926980000101
在一些实施例中,在步骤S600中,时态数据挖掘被设置为“趋势预测挖掘”、“时态关联规则挖掘”及“序列模式挖掘”三个方面,在该完整模型中,缺少任意一方面的算法都难以达到预期的数据收敛效果,故需要设计算法框架,将三方面的算法按照一定的优先级结合起来,联合完成监控告警数据收敛的任务,如图7所示。
在“趋势预测挖掘”方面,采用告警趋势预测算法,其输入为按接警人每小时统计的告警量,首先基于大量历史告警数据利用分位点进行数据去噪和排序重组,其次建立告警量统计学模型得到数据的分布规律,接着通过求解极大似然估计得到大规模告警阈值,然后通过系数补偿进行优化调整,最后输出按小时计大规模告警阈值的规则文件。
告警趋势预测算法设置的目的在于统计接警人上个月的历史告警数据,以小时为单位对当前时段告警量进行趋势预测,当超过预测阀值时,则判断出现大规模告警,进而将该时间段内全部告警信息合并发送给同一接警人。
在历史告警数据总体分布类型己知时,极大似然估计则是最优的点估计方法。告警预测趋势分析流程包括利用分位点对数据去噪,用历史数据建立预估模型,根据该模型进行极大似然估计得出预估值。
1)分位点数据去噪
序列中可能存在大规模告警噪声,如果后续估计不排除这些时间段的噪声值,可能会影响估计精度,根据大规模告警时段一般会超过正常时段告警数量的原理,可使用分位点确定上(下)确界对数据进行数据去噪。
2)统计学模型分析
告警趋势预测需对数据进行预处理以排除脏数据,在得到纯净的告警数量数据后再建立预估模型。
根据历史数据,以月为单位,将每个人每天同一小时接收到的告警量绘制成直方图和折线图,可初步判断每个人在每天同一小时的接警数量符合正态分布。根据正态分布模型采用极大似然估计方法,可得到每人每天同一小时告警预估数量阈值。
3)求解极大似然估计
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。
若将某人同一时间段内的告警数量设为样本X,则有X1、X2、…Xn,凡是来自正态分布N(μ,σ2)的样本,需要得到未知参数μ和σ2的极大似然估计,其具体计算过程如下。
正态分布N(μ,σ2)的表达式:
Figure BDA0002865926980000111
简单代换后,则有:
Figure BDA0002865926980000112
取对数,可得如下对数似然函数式:
Figure BDA0002865926980000113
分别对μ和σ2求偏导,得如下对数似然方程组:
Figure BDA0002865926980000114
因此在对告警数据进行似然估计时,只需求解某时间段内的期望值,并代入μ的极大似然估计量公式,便可得到每人在每天同一小时的告警极大似然估计值。
在“时态关联规则挖掘”方面,采用时序关联规则挖掘算法,其输入为基于时序的原始告警序列,首先得到带时间窗口的支持度候选集,然后根据该候选集统计支持度计数,接着计算置信度,最后优化置信度公式,输出按置信度阈值判断得到的关联规则文件。
具体地,采用Apriori算法,其是最有影响的挖掘布尔关联规则频繁项集的经典算法,通过候选集生成和向下封闭检测两个阶段来挖掘频繁项集(“频繁项集”也称为“项集”,是一个二项集)。挖掘步骤可分为以下两个步骤:(1)根据支持度找出所有频繁项集,即频度;(2)根据置信度产生关联规则,即强度。
如图8所示,通过遍历数据库累计每个项的计数,并收集满足最小支持度的项,找出频繁项集的集合,即采取逐层搜索的迭代方法。
鉴于Apriori算法的先验性质可用于压缩搜索空间,从而可提高逐层产生频繁项集的效率。算法的过程包括:
1)发现频繁项集,过程为扫描、计数、比较、产生频繁项集、连接与剪枝、产生候选项集,重复以上步骤直到不能发现更大的频繁项集;
2)产生关联规则,过程为根据置信度的定义,对于每个频繁项集L,产生L的所有非空子集S,如果置信度P(B|A)≥min_conf(最小置信度)时,则输出规则L→S。
在“序列模式挖掘”方面,采用策略关联规则挖掘算法,其输入为服务粒度的原始告警序列,服务粒度由小到大依次为配置单元、host(主机资源)、监控策略和namespace(命名空间,即为一组主机资源与监控策略的集合)。因此该算法的执行优先级由高至低依次为按配置单元合并、按host合并、按监控策略合并和按namespace合并,最后输出策略规则文件。
策略关联规则挖掘算法和监控业务紧密相关,策略产生的异常告警信息首先会进行过滤,如果没有被过滤,那么在满足合并窗口的条件下才会触发合并策略,合并窗口是告警信息实现合并的时间段,一旦发现异常,系统将合并后的告警信息发送给接警人。
目前可采用的合并策略包括按配置单元合并、按host合并、按监控策略合并和按namespace合并等。
按配置单元合并是指将一个服务下的告警合并到一起进行发送。当一个服务下同时有多台机器或实例的多个策略需要告警触发服务告警合并,定位服务的方式为运维监控系统中的配置单元。例如,策略设置为三段式,如service-ff.rule.all:host:CPU IDLE,如果前两个字段service-ff.rule.all:host相同,则认为这些策略是可以合并的,如果某个策略满足合并窗口的条件,那么会将所有相关联的规则所产生的告警合并起来发送出去。
按host合并策略只适用于host类型的策略,当一台机器上多个实例触发告警,可将这台机器上所有告警进行合并,以达到告警收敛的目的。若某个策略满足合并窗口的条件,且这个策略所在的host上还有多个其他策略同时产生告警,那么将这些告警合并起来发送以减少告警数量。
按监控策略合并是指着一个监控策略下多台机器或实例产生告警,则将该策略下多余告警合并到一起。若一条告警满足合并窗口的条件且没有被以上合并策略发送出去,则单独发送告警信息。
按namespace合并是指将同一个监控对象下多个策略告警合并到一起。若多个规则产生的告警同属一个namespace,会优先按namespace合并。
对以上三种告警收敛方案,即告警趋势预测算法、时序关联规则挖掘算法和策略关联规则挖掘算法,拟定执行优先级策略,参考图7,从前到后依次满足对应条件时,根据优先级执行告警信息的合井,以达到告警收敛的目的,具体执行策略的优先级(由高至低)如下:
1)若由“告警趋势预测算法”得出当前满足大规模告警条件,则将属于同一接警人名下的告警信息全部合并成一条发送给该接警人;
2)若同时有多个关联策略产生告警,则采用“时序关联规则挖掘算法”进行时序关联规则合并;
3)若满足同一服务下多个机器有多个策略产生告警,则采用“策略关联规则挖掘算法”中的“按配置单元合并”策略进行告警信息合并;
4)若满足同一机器上多个实例产生告警,则采用“策略关联规则挖掘算法”中的“按host合并”策略进行告警信息合并;
5)若满足同一策略下多个实例产生告警,则采用“策略关联规则挖掘算法”中的“按监控策略合并”策略进行告警信息合并;
6)若满足同一监控对象上多个策略产生告警,则采用“策略关联规则挖掘算法”中的“按namespace合并”策略进行告警信息合并。
在一些实施例中,为了防止核心告警遗漏,在实际测试中,需要将规则中的告警级别设置为最高级别,则核心告警将不会进行合并。
在测试过程中,对最小置信度阈值的选取一定要合适,过小会导致数据关联度增大,本来没有关联关系的数据进行合并后,对告警信息告警的准确率会有一定干扰,过大则会削弱告警合并的效果,致使结果告警冗余的消除效果不够理想。
一个实际的测试结果反映,采用上述告警信息收敛,使得告警模式产生变更。随着告警收敛功能的应用,运维人员得以从大量重复或无用的告警中解放出来,告警数量总体降幅可达到50%以上。按周级别统计时,采用告警收敛后,告警数量明显下降,收敛效果如图9所示。
在一些实施例中,在步骤S700中,用户终端使用事件引擎进行事件管理,针对不同的监控触发不同的对应措施通过模板设置规则,事件引擎通过这些规则来针对不同的监控触发不同的处理方案;设定不同的工作流,用以解决已知的故障;针对不同的处理方案,调用对应的工作流(可以是命令、脚本或其联合式调用)处理故障。
本实施例还提供了一种计算机程序产品,当所述计算机程序产品
被计算机设备执行时,如前任一项所述的方法被执行。
本实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个计算机程序;
当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前任一项所述的方法。
图10示出了可被用于实施本发明中所述的各个实施例的示例性系统。
如图10所示,在一些实施例中,系统1000能够作为各所述实施例中的任意一个用户终端设备。在一些实施例中,系统1000可包括具有指令的一个或多个计算机可读介质(例如,系统存储器或NVM/存储设备1020)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本发明中所述的动作的一个或多个处理器(例如,(一个或多个)处理器1005)。
对于一个实施例,系统控制模块1010可包括任意适当的接口控制器,以向(一个或多个)处理器1005中的至少一个和/或与系统控制模块1010通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块1010可包括存储器控制器模块1030,以向系统存储器1015提供接口。存储器控制器模块1030可以是硬件模块、软件模块和/或固件模块。
系统存储器1015可被用于例如为系统1000加载和存储数据和/或指令。对于一个实施例,系统存储器1015可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器1015可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块1010可包括一个或多个输入/输出(I/O)控制器,以向NVM/存储设备1020及(一个或多个)通信接口1025提供接口。
例如,NVM/存储设备1020可被用于存储数据和/或指令。NVM/存储设备1020可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(Hard Disk,HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1020可包括在物理上作为系统1000被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备1020可通过网络经由(一个或多个)通信接口1025进行访问。
(一个或多个)通信接口1025可为系统1000提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统1000可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。
对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器(例如,存储器控制器模块1030)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统1000可以但不限于是:服务器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统1000可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统1000包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。本领域技术人员应能理解,计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于:该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如,光纤、同轴等))和能传播能量波的无线(未有导的传输)介质,诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。
作为示例而非限制,计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存储介质包括,但不限于,易失性存储器,诸如随机存储器(RAM,DRAM,SRAM);以及非易失性存储器,诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM);以及磁性和光学存储设备(硬盘、磁带、CD、DVD);或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。
在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种多公有云环境下故障自适应修复的方法,其特征在于,应用于一用户终端,所述方法包括:
获取用户的身份验证信息,所述身份验证信息匹配对应的多个公有云账号识别信息;
基于所述多个公有云账号识别信息分别向多台云端设备发送多个元数据请求;
接收所述多台云端设备基于所述元数据请求而发送或所述多台云端设备根据预设条件而主动发送的多条元数据,所述多条元数据包含相应公有云的资源信息和监控信息;
对所述多条元数据执行清洗和持久化操作,以作为后续监控告警信息收敛的基础数据;
基于时态数据挖掘执行监控告警信息收敛操作,其中,所采用的算法依次为告警趋势预测算法、时序关联规则挖掘算法和策略关联规则挖掘算法,所述告警趋势预测算法用于判断是否产生大规模告警,所述时序关联规则挖掘算法用于挖掘具有时序关联关系的告警项,所述策略关联规则挖掘算法用于挖掘具有关联关系的告警项;
根据预定规则调用相应的工作流以处理相应故障。
2.根据权利要求1所述的方法,其特征在于,所述分别向多台云端设备发送多个元数据请求的步骤,包括:
基于预设的时间间隔分别向多台云端设备发送多个元数据请求。
3.根据权利要求1所述的方法,其特征在于,所述告警趋势预测算法包括:
输入为按接警人每小时统计的告警量;
基于大量历史告警数据利用分位点进行数据去噪和排序重组;
建立告警量统计学模型得到数据的分布规律;
通过求解极大似然估计得到大规模告警阈值;
输出按小时计大规模告警阈值的规则文件。
4.根据权利要求1所述的方法,其特征在于,所述时序关联规则挖掘算法包括:
输入为基于时序的原始告警序列;
得到带时间窗口的支持度候选集;
根据所述支持度候选集统计支持度计数;
计算置信度;
优化置信度公式,输出按置信度阈值判断得到的关联规则文件。
5.根据权利要求1所述的方法,其特征在于,所述策略关联规则挖掘算法包括:
输入为服务粒度的原始告警序列;
根据配置单元、host、监控策略和namespace执行告警信息合并操作,执行优先级由高至低依次为按配置单元合并、按host合并、按监控策略合并和按namespace合并;
输出策略规则文件。
6.根据权利要求5所述的方法,其特征在于,在依次满足所述告警趋势预测算法、所述时序关联规则挖掘算法和所述策略关联规则挖掘算法的对应条件时,根据优先级执行告警信息的合并,优先级由高至低分别为:
若由所述告警趋势预测算法得出当前满足大规模告警条件,则将属于同一接警人名下的告警信息全部合并成一条发送给该接警人;
若同时有多个关联策略产生告警,则采用所述时序关联规则挖掘算法进行时序关联规则合并;
若满足同一服务下多个机器有多个策略产生告警,则采用所述策略关联规则挖掘算法中的按配置单元合并策略进行告警信息合并;
若满足同一机器上多个实例产生告警,则采用所述策略关联规则挖掘算法中的按host合并策略进行告警信息合并;
若满足同一策略下多个实例产生告警,则采用所述策略关联规则挖掘算法中的按监控策略合并策略进行告警信息合并;
若满足同一监控对象上多个策略产生告警,则采用所述策略关联规则挖掘算法中的按namespace合并策略进行告警信息合并。
7.根据权利要求5所述的方法,其特征在于,将核心告警项设置为最高级别,以使其不会进行合并。
8.根据权利要求1所述的方法,其特征在于,将故障处理的相关信息执行归档操作。
9.一种多公有云环境下故障自适应修复的设备,其特征在于,所述设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1至8中任一项所述方法的操作。
10.一种存储指令的计算机可读介质,其特征在于,所述指令在被执行时使得系统执行根据权利要求1至8中任一项所述方法的操作。
CN202011585385.4A 2020-12-28 2020-12-28 多公有云环境下故障自适应修复的方法与设备 Withdrawn CN112737839A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011585385.4A CN112737839A (zh) 2020-12-28 2020-12-28 多公有云环境下故障自适应修复的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011585385.4A CN112737839A (zh) 2020-12-28 2020-12-28 多公有云环境下故障自适应修复的方法与设备

Publications (1)

Publication Number Publication Date
CN112737839A true CN112737839A (zh) 2021-04-30

Family

ID=75606981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011585385.4A Withdrawn CN112737839A (zh) 2020-12-28 2020-12-28 多公有云环境下故障自适应修复的方法与设备

Country Status (1)

Country Link
CN (1) CN112737839A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399262A (zh) * 2019-06-17 2019-11-01 平安科技(深圳)有限公司 运维监测告警收敛方法、装置、计算机设备及存储介质
CN111049904A (zh) * 2019-12-12 2020-04-21 上海联蔚信息科技有限公司 多公有云资源监控的方法与设备
CN111506478A (zh) * 2020-04-17 2020-08-07 上海浩方信息技术有限公司 基于人工智能实现告警管理控制的方法
CN111767195A (zh) * 2020-09-02 2020-10-13 江苏达科云数据科技有限公司 一种告警信息智能降噪的处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399262A (zh) * 2019-06-17 2019-11-01 平安科技(深圳)有限公司 运维监测告警收敛方法、装置、计算机设备及存储介质
CN111049904A (zh) * 2019-12-12 2020-04-21 上海联蔚信息科技有限公司 多公有云资源监控的方法与设备
CN111506478A (zh) * 2020-04-17 2020-08-07 上海浩方信息技术有限公司 基于人工智能实现告警管理控制的方法
CN111767195A (zh) * 2020-09-02 2020-10-13 江苏达科云数据科技有限公司 一种告警信息智能降噪的处理方法

Similar Documents

Publication Publication Date Title
JP6952058B2 (ja) メモリ使用量判断技術
US10860441B2 (en) Method and system for data backup and restoration in cluster system
US10048996B1 (en) Predicting infrastructure failures in a data center for hosted service mitigation actions
US9367803B2 (en) Predictive analytics for information technology systems
CN103201724B (zh) 在高可用性虚拟机环境中提供高可用性应用程序
US10346283B2 (en) Dynamically identifying performance anti-patterns
US10630566B1 (en) Tightly-coupled external cluster monitoring
US20210097431A1 (en) Debugging and profiling of machine learning model training
CN107544832A (zh) 一种虚拟机进程的监控方法、装置和系统
US11934972B2 (en) Configuration assessment based on inventory
CN115004156A (zh) 实时多租户工作负载跟踪和自动节流
CN111049904A (zh) 多公有云资源监控的方法与设备
US10122602B1 (en) Distributed system infrastructure testing
EP3956771A1 (en) Timeout mode for storage devices
US11481394B2 (en) Elimination of measurement lag for operations across a large number of customer nodes
CN114328132A (zh) 外部数据源的状态监控方法、装置、设备和介质
US11468365B2 (en) GPU code injection to summarize machine learning training data
CN110704851A (zh) 公有云数据处理方法和设备
CN112737839A (zh) 多公有云环境下故障自适应修复的方法与设备
US11855849B1 (en) Artificial intelligence based self-organizing event-action management system for large-scale networks
CN112463514A (zh) 分布式缓存集群的监测方法和装置
US10311032B2 (en) Recording medium, log management method, and log management apparatus
US20170264664A1 (en) Moderating application communications according to network conditions
CN117135151B (zh) 一种gpu集群的故障检测方法及gpu集群、电子设备和存储介质
US8943177B1 (en) Modifying a computer program configuration based on variable-bin histograms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210430

WW01 Invention patent application withdrawn after publication