CN112804079B - 云计算平台告警分析方法、装置、设备及存储介质 - Google Patents

云计算平台告警分析方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112804079B
CN112804079B CN202011435620.XA CN202011435620A CN112804079B CN 112804079 B CN112804079 B CN 112804079B CN 202011435620 A CN202011435620 A CN 202011435620A CN 112804079 B CN112804079 B CN 112804079B
Authority
CN
China
Prior art keywords
alarm
data
cloud platform
alarm information
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011435620.XA
Other languages
English (en)
Other versions
CN112804079A (zh
Inventor
逄立业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Inspur Data Technology Co Ltd
Original Assignee
Beijing Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Inspur Data Technology Co Ltd filed Critical Beijing Inspur Data Technology Co Ltd
Priority to CN202011435620.XA priority Critical patent/CN112804079B/zh
Publication of CN112804079A publication Critical patent/CN112804079A/zh
Application granted granted Critical
Publication of CN112804079B publication Critical patent/CN112804079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种云计算平台告警分析方法,该方法将知识图谱概念应用到云计算平台运维领域,提出一种基于知识图谱的云计算平台告警分析方法,创造性的将整个云平台抽象成知识图谱表示,同时将知识图谱运用到告警根因分析中,在此基础上可以快速定位云平台集群告警的根本原因,特别是定位某一关键组件告警而引起其他问题的洪水告警的根因,并根据该根因进行相应的提示,该方法可以提升对于云计算平台监控数据的数据分析精度以及深度,有助于进一步基于根因实现有效的云平台运维,提升云平台的运行稳定性。本申请还提供了一种云计算平台告警分析装置、设备及一种可读存储介质,具有上述有益效果。

Description

云计算平台告警分析方法、装置、设备及存储介质
技术领域
本申请涉及云计算技术领域,特别涉及一种云计算平台告警分析方法、装置、设备及一种可读存储介质。
背景技术
随着云技术的迅速发展,云计算平台的规模(平台中物理机的数量)也从最初的几台、十几台上升到几百台甚至上千台,随之而来的是监控数据(监控平台中物理机的运行得到的监控数据)的类型和数据量越来越大,对监控数据处理、数据存储和数据分析对于云计算平台的运维来说十分重要。
而目前在得到针对某设备中某部件或某软件的监控数据后,会直接对监控对象进行相应的运维处理。而该种监控数据的信息分析方式难以有效利用监控数据的潜在价值,也难以对于云计算平台的运维产生深度有效的调整。
因此,如何提升对于云计算平台监控数据的数据分析精度以及深度,以便进一步对于云计算平台的运行提供有力参考,是本领域技术人员急需解决的问题。
发明内容
本申请的目的是提供一种云计算平台告警分析方法,该方法可以精准定位引发告警信息的根因,有助于进一步基于根因实现有效的云平台运维;本申请的另一目的是提供一种云计算平台告警分析装置、设备及一种可读存储介质。
为解决上述技术问题,本申请提供一种云计算平台告警分析方法,该方法包括:
收集云计算平台中各功能模块生成的运行数据;
根据所述运行数据对云平台进行运行架构关系分析,生成云平台运维知识图谱;
若接收到告警信息,调用所述云平台运维知识图谱确定所述告警信息对应的根因告警信息;
根据所述根因告警信息进行告警提示。
可选地,根据所述运行数据对云平台进行运行架构关系分析,生成云平台运维知识图谱,包括:
确定所述运行数据中包括的实体;
根据所述运行数据确定所述实体的属性以及所述实体间的关系;
以所述实体为基础,对各所述实体的属性以及所述实体间的关系进行知识图谱的构建,生成所述云平台运维知识图谱。
可选地,确定所述运行数据中包括的实体,包括:
确定所述运行数据中包括的资源实体以及告警实体;
其中,所述资源实体包括平台服务、组件以及资源;
所述告警实体包括:云平台所有服务以及在所述服务上运行的资源的告警信息。
可选地,根据所述运行数据确定所述实体的属性以及所述实体间的关系,包括:
从所述运行数据中提取各所述实体对应的属性项的属性信息;
根据所述运行数据确定各所述实体的实体类别关系,作为资源实体关系;
根据所述运行数据确定各所述告警实体与所述资源实体间的隶属关系,作为所述资源告警关系;所述实体间的关系包括所述资源实体关系以及资源告警关系。
可选地,所述收集云计算平台中各功能模块生成的运行数据,包括:
控制各所述功能模块将执行的各项操作以实时消息的形式,实时传输至指定位置;
每隔时间间隔采集在所述时间间隔内的各所述功能模块内存储的操作数据,作为批量采集数据传输至所述指定位置;
则相应地,根据所述运行数据对云平台进行运行架构关系分析,生成云平台运维知识图谱,包括:
根据所述指定位置中的所述实时消息对云平台进行运行架构关系分析,生成云平台运维知识图谱;
根据所述指定位置中的所述批量采集数据对所述云平台运维知识图谱中的数据进行精准性验证;
若在所述精准性校验时判定所述云平台运维知识图谱中存在不精准的数据,根据所述批量采集数据对所述不精准的数据进行修正。
可选地,根据所述根因告警信息进行告警提示,包括:
判断所述告警信息中是否包括所述根因告警信息;
若包括,调高所述根因告警信息的告警级别,调低非所述根因告警信息的所述告警信息的告警级别。
可选地,所述若接收到告警信息,调用所述云平台运维知识图谱确定所述告警信息对应的根因告警信息,包括:
若接收到告警信息,调用所述云平台运维知识图谱确定所述告警信息对应的实体以及所述实体的关系数据;
从所述实体以及所述关系数据中根据预设规则确定告警原因,将所述告警原因作为所述根因告警信息。
一种云计算平台告警分析装置,包括:
数据收集单元,用于收集云计算平台中各功能模块生成的运行数据;
图谱构建单元,用于根据所述运行数据对云平台进行运行架构关系分析,生成云平台运维知识图谱;
根因分析单元,用于若接收到告警信息,调用所述云平台运维知识图谱确定所述告警信息对应的根因告警信息;
根因提示单元,用于根据所述根因告警信息进行告警提示。
一种云计算平台告警分析设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述的云计算平台告警分析方法的步骤。
一种可读存储介质,所述可读存储介质上存储有程序,所述程序被处理器执行时实现所述云计算平台告警分析方法的步骤。
本申请所提供的云计算平台告警分析方法,该方法将知识图谱概念应用到云计算平台运维领域,提出一种基于知识图谱的云计算平台告警分析方法,创造性的将整个云平台抽象成知识图谱表示,同时将知识图谱运用到告警根因分析中,在此基础上可以快速定位云平台集群告警的根本原因,特别是定位某一关键组件告警而引起其他问题的洪水告警的根因,并根据该根因进行相应的提示,该方法可以提升对于云计算平台监控数据的数据分析精度以及深度,有助于进一步基于根因实现有效的云平台运维,提升云平台的运行稳定性。
本申请还提供了一种云计算平台告警分析装置、设备及一种可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术任务来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种云计算平台告警分析方法的流程图;
图2为本申请实施例提供的一种数据采集示意图;
图3为本申请实施例提供的一种图谱分析示意图;
图4为本申请实施例提供的一种云计算平台告警分析装置的结构框图;
图5为本申请实施例提供的一种云计算平台告警分析设备的结构示意图。
具体实施方式
本申请的核心是提供一种云计算平台告警分析方法,该方法可以精准定位引发告警信息的根因,有助于进一步基于根因实现有效的云平台运维;本申请的另一核心是提供一种云计算平台告警分析装置、设备及一种可读存储介质。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术任务在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着云计算技术越来越成熟以及业务的不断扩大,云计算平台的规模也越来越大,监控数据的类型和数据量越来越多,云计算平台对监控数据处理、数据存储和数据分析能力对于运维十分重要。
目前针对监控数据的分析处理只是基于监控对象的分析,而经过研究发现,平台中组件数据关联对于监控数据的分析处理十分重要,如果缺乏联系,会形成信息孤岛,使得在对大数据进行处理和分析时,局限于某一小的范围内而不能挖掘出更加有价值的信息,因此本申请中提出将平台各组件系统的组织和表达以一种有效的方式表达出来,从而基于此实现对于云计算平台的有效运维回馈。
知识图谱是将现实世界以图形的方式展现概念和概念间的关系,不仅帮助人们认识客观世界,而且也为计算机定义了实现的数据模型,它将复杂的知识表示成网状结构,可以对数据进行复杂查询,可以通过规则从关联的数据中挖掘出隐含的信息,揭示知识以及领域的动态发展规律,为知识以及技术的研究提供切实、有价值的参考。
本申请中提出,将知识图谱引入云计算平台对于监控数据的分析处理中,将云计算平台的各个组件和应用用知识图谱表示,基于图结构的数据格式,便于计算机系统的存储与检索,能够快速提供生产系统里面应用和组件之间的关联和承载关系,从而基于构建云平台知识图谱为云平台的运维特别是根因分析、故障定位提供指导。
图1为本实施例提供的云计算平台告警分析方法的流程图,该方法主要包括:
步骤s110、收集云计算平台中各功能模块生成的运行数据;
收集云计算平台中各功能模块(包括告警模块)运行产生的数据,本实施例中对于手机的功能模块的具体类型不做限定,运行数据为功能模块运行过程中各种操作以及传输的消息等数据,运行数据的收集具体可以根据云计算平台的类型进行相应设定,以OpenStack平台为例,收集的运行数据比如可以包括nova、neutron、cinder、zabbix告警等。
本步骤中收集的运行数据主要用于生成运维知识图谱的各元素,因此若为了云平台运维知识图谱的实时更新,本步骤可以持续不断进行,若在生成云平台运维知识图谱之后一段时间内根据该图谱进行告警信息的分析,也可以在这段时间内不收集运行数据,在此不做限定。
数据的收集主要包括两种方式,实时接收和定时采集,实时接收是平台各模块以事件的方式发送数据到消息队列并由实时接收模块消费。定时采集是批量采集,采集一段时间内的各模块内存储数据,数据较稳定,准确性高而且易于修复。
为了保障数据的即使更新的同时减少收集过程的资源占用,收集云计算平台中各功能模块生成的运行数据的过程可以如图2所示按照下述步骤来执行:
(1)控制各功能模块将执行的各项操作以实时消息的形式,实时传输至指定位置;
实时接收具有数据实时性高,延时低等特点。以OpenStack云平台为例,云平台各功能模块,例如nova、neutron、cinder等,每进行操作,例如创建虚拟机、删除磁盘、虚拟机开关机等,都以消息的形式实时传输至指定位置 (指用于存储运行数据的存储空间);实时告警数据也以实时消息的形式实时接收。云平台各模块及告警组件的操作及变更以消息的形式发送给实时接收模块,可以保证系统的实时性,从而可以进一步保证云平台运维知识图谱的快速生成。
(2)每隔时间间隔采集在时间间隔内的各功能模块内存储的操作数据,作为批量采集数据传输至指定位置;
定时采集是批量采集,采集一段时间内的各模块内存储数据,该种数据采集方式得到的数据特征较稳定,准确性高而且易于修复。
则相应地,步骤S120根据运行数据对云平台进行运行架构关系分析,生成云平台运维知识图谱的过程具体可以包括:
(1)根据指定位置中的实时消息对云平台进行运行架构关系分析,生成云平台运维知识图谱;
(2)根据指定位置中的批量采集数据对云平台运维知识图谱中的数据进行精准性验证;
(3)若在精准性校验时判定云平台运维知识图谱中存在不精准的数据,根据批量采集数据对不精准的数据进行修正。
定时采集后比对系统中由实时采集生成的图谱,当数据不一致时,以定时采集数据为准,而需要说明的是,由于告警数据无法定时采集,因此运行数据中的告警数据以实时接收数据为准。
该方法中将实时接收数据与定时采集数据相结合,既可以保障数据的实时性,又可以保障数据的精准度。
需要说明的是,本实施例中对于云计算平台的类型不做限定,其中, OpenStack是一个由NASA(美国国家航空航天局)和Rackspace合作研发并发起的,以Apache许可证授权的自由软件和开放源代码项目。OpenStack支持几乎所有类型的云环境,项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台,OpenStack云计算平台可以帮助服务商和企业内部实现云基础架构服务。本实施例中仅以OpenStack云计算平台为例进行介绍,其他类型的云计算平台的告警分析方式均可参照本实施例的介绍,在此不再赘述。
步骤s120、根据运行数据对云平台进行运行架构关系分析,生成云平台运维知识图谱;
本实施例中根据运行数据对云平台进行运行架构关系分析,实现基于当前云计算平台的知识图谱知识表示。
本实例中对于根据运行数据对云平台进行运行架构关系分析的具体实现方式不做限定,可以按照以下步骤执行:
(1)确定运行数据中包括的实体;
(2)根据运行数据确定实体的属性以及实体间的关系;
(3)以实体为基础,对各实体的属性以及实体间的关系进行知识图谱的构建,生成云平台运维知识图谱。
根据(OpenStack)云计算平台的组件配置文件和运行数据、实体、关系以及属性,即将实体、关系和属性均看作为知识图谱中的概念,构建实体、属性、关系的三元组,为了更清楚地说明知识图谱构建方式,将实体映射到知识图谱中的概念称为实体概念,属性映射到知识图谱中的概念称为属性概念,关系映射到知识图谱中的概念称为关系概念。
实体是知识图谱中的具体概念,是对云平台中资源和告警的表示;与实体类型相对应,云平台中实体的属性信息映射到知识图谱中,成为属性概念;关系指实体间的关系,云平台中关系主要包括资源实体间的关系和资源实体与告警实体的关系。
为了进一步简化对于实体分析的精准度,确定运行数据中包括的实体的过程具体可以将实体划分为两类,资源实体以及告警实体,则需要确定运行数据中包括的资源实体以及告警实体;在本方法中,云计算平台知识图谱中实体包括资源实体和告警实体。资源实体是云平台中包括平台服务、组件以及资源,比如平台服务、系统服务、云平台组件及云平台上运行的资源(例如虚拟机、云物理机等)。告警实体云平台所有服务以及在服务上运行的资源的告警信息,比如云平台告警程序产生的云平台所有服务和其上运行的资源的告警信息。
该种实体划分以及收集方式有助于后续快速理清告警信息中的各对象间关系,有助于实现精准的告警分析。
进一步地,与实体类型相对应,属性也可以分为资源实体属性和告警实体属性。则根据运行数据确定实体的属性以及实体间的关系的过程可以按照下述步骤执行:
从运行数据中提取各实体对应的属性项的属性信息;
根据运行数据确定各实体的实体类别关系,作为资源实体关系;
根据运行数据确定各告警实体与资源实体间的隶属关系,作为资源告警关系;实体间的关系包括资源实体关系以及资源告警关系。
资源实体以虚拟机为例,属性信息包括名称、id、cpu核数、内存大小、磁盘大小等;告警实体以虚拟机告警为例,属性包括告警的级别、告警的详情等。以实体为物理机为例,属性信息项可以包括名称、hostname、cpu核数、内存大小、磁盘大小等。以实体为磁盘为例,属性信息项可以包括名称、id、容量等。
云平台中关系包括资源实体间的关系和资源实体与告警实体的关系。资源实体关系是根据云平台中实体类别,开发实体类别关系的配置文件来定义各实体类别的关系,例如,物理机has虚拟机,表示虚拟机运行在物理机之上。当接收到各模块发送的数据时,对数据进行处理,得到云平台中资源实体的实例,根据配置文件的实体类别,建立各实体实例的关系。
资源实体和告警实体关系是指告警实体和资源实体的隶属关系。当接收到云平台告警程序产生的云平台告警数据时,对数据进行处理,解释得到资源实体id和告警实体id,将告警实体挂到相应的资源实体上。
需要说明的是,本实施例中仅以上述实现方式为例进行介绍,其他实现方式均可参照本实施例的介绍,在此不再赘述。
在确定了资源实体数据、告警实体数据、实体属性数据、实体关系数据后,再进行统一处理,生成云平台运维知识图谱。而基于实体、关系数据以及属性数据进行知识图谱的构架具体过程可以参照相关技术的实现方式,在此不再赘述。
在生成云平台运维知识图谱之后,对于存储位置不做限定,可以根据后续读取的需要进行相应存储位置的设置。为方便后续的频繁读取,可以采用 neo4j图数据库(noe4j是比较常用的图数据库,也可以以json存放在mysql 等关系型数据库中,但是处理速度较慢)。采用neo4j图数据库存储图谱时,云平台中资源实体和告警实体用唯一的id字段标识,每个资源的id不能相同,采用8位的id值。由于neo4j对大小比较敏感,所以head必须是index:ID。 head的LABEL节点必须书写成:LABEL,注意添加冒号,而且不能小写, LABEL的内容不能多一个或少一个空格。
步骤s130、若接收到告警信息,调用云平台运维知识图谱确定告警信息对应的根因告警信息;
知识图谱将云平台的所有实体和关系系统的组合后,利用知识图谱对对于各实体间关系的解释性确定可能与当前告警存在关联关系的实体,从而进一步确定可能会导致当前告警的因素。
本实施例中对于利用知识图谱进行根因告警信息分析的实现过程不做限定,一种实现方式如下:
(1)若接收到告警信息,调用云平台运维知识图谱确定告警信息对应的实体以及实体的关系数据;
(2)从实体以及关系数据中根据预设规则确定告警原因,将告警原因作为根因告警信息。
其中预设规则可以为在平台运维中积累的原因规则。该方法利用知识图谱对告警分析和结果具备可解释性,添加平台运维积累的规则,即可对告警进行根因分析或故障定位。例如,由知识图谱得到资源实体及关系(例如虚拟机A在物理机B上运行),得到告警实体虚拟机A网络告警和物理机B网络告警;由规则得到物理机网络告警会导致其上虚拟机网络告警,综上物理机B网络告警是虚拟机A网络告警的根因告警信息。
步骤s140、根据根因告警信息进行告警提示。
本实施例中确定了根因告警信息后,对其进行告警提示的具体实现方式不做限定,可以根据根因进行进一步的提示,比如提示当前故障的原因在于什么等,也可以进一步提示修复方法,为了避免对于告警提示单元修改过大的前提下实现有效提示,根据根因告警信息进行告警提示的过程具体可以按照图3所示的以下步骤执行:
(1)判断告警信息中是否包括根因告警信息;
(2)若包括,调高根因告警信息的告警级别,调低非根因告警信息的告警信息的告警级别。
通过消息队列实时接收告警消息,根据运维知识图谱,分析哪些告警为根因告警,将根因告警的级别定到最高,其他告警的级别降低。
若不包括,本实施例中对于该种情况下的处理方式不做限定,可以直接针对根因告警信息进行报警提示等,在此不再赘述。
基于上述介绍,本实施例提供的云计算平台告警分析方法中,将知识图谱概念应用到云计算平台运维领域,提出一种基于知识图谱的云计算平台告警分析方法,创造性的将整个云平台抽象成知识图谱表示,同时将知识图谱运用到告警根因分析中,在此基础上可以快速定位云平台集群告警的根本原因,特别是定位某一关键组件告警而引起其他问题的洪水告警的根因,并根据该根因进行相应的提示,该方法可以提升对于云计算平台监控数据的数据分析精度以及深度,有助于进一步基于根因实现有效的云平台运维,提升云平台的运行稳定性。
请参考图4,图4为本实施例提供的云计算平台告警分析装置的结构框图;主要包括:数据收集单元110、图谱构建单元120、根因分析单元130以及根因提示单元130。本实施例提供的云计算平台告警分析装置可与上述云计算平台告警分析方法相互对照。
其中,数据收集单元110主要用于收集云计算平台中各功能模块生成的运行数据;
图谱构建单元120主要用于根据运行数据对云平台进行运行架构关系分析,生成云平台运维知识图谱;
根因分析单元130主要用于若接收到告警信息,调用云平台运维知识图谱确定告警信息对应的根因告警信息;
根因提示单元140主要用于根据根因告警信息进行告警提示。
其中,图谱构建单元120具体可以包括:
实体确定子单元,用于确定运行数据中包括的实体;
属性关系确定子单元,用于根据运行数据确定实体的属性以及实体间的关系;
构建子单元,用于以实体为基础,对各实体的属性以及实体间的关系进行知识图谱的构建,生成云平台运维知识图谱。
本实施例提供一种云计算平台告警分析设备,主要包括:存储器以及处理器。
其中,存储器用于存储程序;
处理器用于执行程序时实现如上述实施例介绍的云计算平台告警分析方法的步骤,具体可参照上述云计算平台告警分析方法的介绍。
请参考图5,为本实施例提供的云计算平台告警分析设备的结构示意图,该云计算平台告警分析设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储器332通信,在云计算平台告警分析设备301上执行存储介质330中的一系列指令操作。
云计算平台告警分析设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/ 或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM, UnixTM,LinuxTM,FreeBSDTM等等。
上面图1所描述的云计算平台告警分析方法中的步骤可以由本实施例介绍的云计算平台告警分析设备的结构实现。
本实施例公开一种可读存储介质,其上存储有程序,程序被处理器执行时实现如上述实施例介绍的云计算平台告警分析方法的步骤,具体可参照上述实施例中对云计算平台告警分析方法的介绍。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业任务还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术任务可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的云计算平台告警分析方法、装置、设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术任务来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (8)

1.一种云计算平台告警分析方法,其特征在于,该方法包括:
收集云计算平台中各功能模块生成的运行数据;
根据所述运行数据对云平台进行运行架构关系分析,生成云平台运维知识图谱;
若接收到告警信息,调用所述云平台运维知识图谱确定所述告警信息对应的根因告警信息;
根据所述根因告警信息进行告警提示;
所述若接收到告警信息,调用所述云平台运维知识图谱确定所述告警信息对应的根因告警信息,包括:
若接收到告警信息,调用所述云平台运维知识图谱确定所述告警信息对应的实体以及所述实体的关系数据;
从所述实体以及所述关系数据中根据预设规则确定告警原因,将所述告警原因作为所述根因告警信息;
所述收集云计算平台中各功能模块生成的运行数据,包括:
控制各所述功能模块将执行的各项操作以实时消息的形式,实时传输至指定位置;
每隔时间间隔采集在所述时间间隔内的各所述功能模块内存储的操作数据,作为批量采集数据传输至所述指定位置;
则相应地,根据所述运行数据对云平台进行运行架构关系分析,生成云平台运维知识图谱,包括:
根据所述指定位置中的所述实时消息对云平台进行运行架构关系分析,生成云平台运维知识图谱;
根据所述指定位置中的所述批量采集数据对所述云平台运维知识图谱中的数据进行精准性验证;
若在所述精准性校验时判定所述云平台运维知识图谱中存在不精准的数据,根据所述批量采集数据对所述不精准的数据进行修正。
2.如权利要求1所述的云计算平台告警分析方法,其特征在于,根据所述运行数据对云平台进行运行架构关系分析,生成云平台运维知识图谱,包括:
确定所述运行数据中包括的实体;
根据所述运行数据确定所述实体的属性以及所述实体间的关系;
以所述实体为基础,对各所述实体的属性以及所述实体间的关系进行知识图谱的构建,生成所述云平台运维知识图谱。
3.如权利要求2所述的云计算平台告警分析方法,其特征在于,确定所述运行数据中包括的实体,包括:
确定所述运行数据中包括的资源实体以及告警实体;
其中,所述资源实体包括平台服务、组件以及资源;
所述告警实体包括:云平台所有服务以及在所述服务上运行的资源的告警信息。
4.如权利要求3所述的云计算平台告警分析方法,其特征在于,根据所述运行数据确定所述实体的属性以及所述实体间的关系,包括:
从所述运行数据中提取各所述实体对应的属性项的属性信息;
根据所述运行数据确定各所述实体的实体类别关系,作为资源实体关系;
根据所述运行数据确定各所述告警实体与所述资源实体间的隶属关系,作为资源告警关系;所述实体间的关系包括所述资源实体关系以及资源告警关系。
5.如权利要求1所述的云计算平台告警分析方法,其特征在于,根据所述根因告警信息进行告警提示,包括:
判断所述告警信息中是否包括所述根因告警信息;
若包括,调高所述根因告警信息的告警级别,调低非所述根因告警信息的所述告警信息的告警级别。
6.一种云计算平台告警分析装置,其特征在于,包括:
数据收集单元,用于收集云计算平台中各功能模块生成的运行数据;
图谱构建单元,用于根据所述运行数据对云平台进行运行架构关系分析,生成云平台运维知识图谱;
根因分析单元,用于若接收到告警信息,调用所述云平台运维知识图谱确定所述告警信息对应的根因告警信息;
根因提示单元,用于根据所述根因告警信息进行告警提示;
所述根因分析单元,具体用于:
若接收到告警信息,调用所述云平台运维知识图谱确定所述告警信息对应的实体以及所述实体的关系数据;
从所述实体以及所述关系数据中根据预设规则确定告警原因,将所述告警原因作为所述根因告警信息;
所述数据收集单元,具体用于收集云计算平台中各功能模块生成的运行数据,包括:
控制各所述功能模块将执行的各项操作以实时消息的形式,实时传输至指定位置;
每隔时间间隔采集在所述时间间隔内的各所述功能模块内存储的操作数据,作为批量采集数据传输至所述指定位置;
所述图谱构建单元,具体用于根据所述运行数据对云平台进行运行架构关系分析,生成云平台运维知识图谱,包括:
根据所述指定位置中的所述实时消息对云平台进行运行架构关系分析,生成云平台运维知识图谱;
根据所述指定位置中的所述批量采集数据对所述云平台运维知识图谱中的数据进行精准性验证;
若在所述精准性校验时判定所述云平台运维知识图谱中存在不精准的数据,根据所述批量采集数据对所述不精准的数据进行修正。
7.一种云计算平台告警分析设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的云计算平台告警分析方法的步骤。
8.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如权利要求1至5任一项所述云计算平台告警分析方法的步骤。
CN202011435620.XA 2020-12-10 2020-12-10 云计算平台告警分析方法、装置、设备及存储介质 Active CN112804079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011435620.XA CN112804079B (zh) 2020-12-10 2020-12-10 云计算平台告警分析方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011435620.XA CN112804079B (zh) 2020-12-10 2020-12-10 云计算平台告警分析方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112804079A CN112804079A (zh) 2021-05-14
CN112804079B true CN112804079B (zh) 2023-04-07

Family

ID=75806626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011435620.XA Active CN112804079B (zh) 2020-12-10 2020-12-10 云计算平台告警分析方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112804079B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113595827B (zh) * 2021-07-29 2023-02-21 北京百度网讯科技有限公司 云网络监控方法和装置、电子设备、计算机介质
CN113626616B (zh) * 2021-08-25 2024-03-12 中国电子科技集团公司第三十六研究所 航空器安全预警方法、装置及系统
CN114117077B (zh) * 2021-12-02 2023-01-31 睿云奇智(重庆)科技有限公司 运维知识图谱构建及运维的方法、装置及计算机设备、存储介质
CN116414999A (zh) * 2022-12-01 2023-07-11 北京首都在线科技股份有限公司 基于知识图谱的管理方法、装置、电子设备及存储介质
CN117527523A (zh) * 2023-11-23 2024-02-06 广东堡塔安全技术有限公司 一种基于云计算的服务器安全监控系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214704A (zh) * 2018-09-26 2019-01-15 广东电网有限责任公司 一种分布式智能化运维平台、方法、装置及可读存储介质
CN109933633A (zh) * 2019-04-02 2019-06-25 北京睿至大数据有限公司 一种基于时间和场景维度的运维知识图谱构建方法
CN111259086A (zh) * 2019-12-31 2020-06-09 的卢技术有限公司 一种基于云计算的知识图谱架构实现方法及系统
WO2020215894A1 (zh) * 2019-04-25 2020-10-29 深圳前海微众银行股份有限公司 一种告警方法、装置及系统
CN112052151A (zh) * 2020-10-09 2020-12-08 腾讯科技(深圳)有限公司 故障根因分析方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659173B (zh) * 2018-06-28 2023-05-26 中兴通讯股份有限公司 一种运维系统及方法
US10679007B2 (en) * 2018-08-30 2020-06-09 Intelligent Fusion Technology, Inc. Method and system for pattern discovery and real-time anomaly detection based on knowledge graph
CN110955550B (zh) * 2019-11-24 2022-07-08 济南浪潮数据技术有限公司 一种云平台故障定位方法、装置、设备及存储介质
CN110995482B (zh) * 2019-11-27 2022-06-21 深圳市商汤科技有限公司 告警分析方法、装置、计算机设备及计算机可读存储介质
CN111327466B (zh) * 2020-02-16 2023-01-17 苏州浪潮智能科技有限公司 一种告警分析方法、系统、设备以及介质
CN111680027A (zh) * 2020-06-08 2020-09-18 赛特斯信息科技股份有限公司 基于知识驱动实现智能云管理的方法及其系统
CN111930547A (zh) * 2020-07-31 2020-11-13 中国工商银行股份有限公司 一种故障定位方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214704A (zh) * 2018-09-26 2019-01-15 广东电网有限责任公司 一种分布式智能化运维平台、方法、装置及可读存储介质
CN109933633A (zh) * 2019-04-02 2019-06-25 北京睿至大数据有限公司 一种基于时间和场景维度的运维知识图谱构建方法
WO2020215894A1 (zh) * 2019-04-25 2020-10-29 深圳前海微众银行股份有限公司 一种告警方法、装置及系统
CN111259086A (zh) * 2019-12-31 2020-06-09 的卢技术有限公司 一种基于云计算的知识图谱架构实现方法及系统
CN112052151A (zh) * 2020-10-09 2020-12-08 腾讯科技(深圳)有限公司 故障根因分析方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112804079A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112804079B (zh) 云计算平台告警分析方法、装置、设备及存储介质
US11645293B2 (en) Anomaly detection in big data time series analysis
CN108563548B (zh) 异常检测方法及装置
TW202326537A (zh) 反欺詐風險評估方法、訓練方法、裝置及可讀存儲介質
CN114422267B (zh) 流量检测方法、装置、设备及介质
CN112035591A (zh) 一种路网匹配方法、装置、设备和存储介质
CN115034638A (zh) 数字孪生处理方法及数字孪生系统
CN111327466B (zh) 一种告警分析方法、系统、设备以及介质
JP2018503183A (ja) 神経言語挙動認識システム用の語彙解析器
CN111414619B (zh) 一种数据安全检测方法、装置、设备及可读存储介质
CN112235262A (zh) 报文的解析方法、装置、电子设备及计算机可读存储介质
CN115203340A (zh) 一种伴随关系确定方法、装置、设备和存储介质
CN116166505A (zh) 金融行业双态it架构的监控平台、方法、存储介质及设备
CN109542419B (zh) 一种can信息处理软件开发的方法、系统及设备
CN113486345B (zh) 具有风险识别的监督预警方法及系统
CN112783508B (zh) 文件的编译方法、装置、设备以及存储介质
CN112800061B (zh) 一种数据存储方法、装置、服务器及存储介质
CN111427696B (zh) 业务资源调度方法及装置
CN110769003B (zh) 一种网络安全预警的方法、系统、设备及可读存储介质
CN110971488A (zh) 一种数据处理方法、装置、服务器和存储介质
CN108133234B (zh) 基于稀疏子集选择算法的社区检测方法、装置及设备
CN110888888A (zh) 人员关系分析方法、装置、电子设备及存储介质
CN115767601A (zh) 一种基于多维数据的5gc网元自动化纳管方法及装置
CN109687999A (zh) 一种告警故障的关联分析方法、装置及设备
CN113012682B (zh) 误唤醒率确定方法、装置、设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant