CN116932148B - 一种基于ai的问题诊断系统及方法 - Google Patents

一种基于ai的问题诊断系统及方法 Download PDF

Info

Publication number
CN116932148B
CN116932148B CN202311204318.7A CN202311204318A CN116932148B CN 116932148 B CN116932148 B CN 116932148B CN 202311204318 A CN202311204318 A CN 202311204318A CN 116932148 B CN116932148 B CN 116932148B
Authority
CN
China
Prior art keywords
module
analyzer
checks
acquiring
error information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311204318.7A
Other languages
English (en)
Other versions
CN116932148A (zh
Inventor
陈洪鑫
种保中
金伟毅
李明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Database Technology Co Ltd
Original Assignee
Shandong Inspur Database Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Database Technology Co Ltd filed Critical Shandong Inspur Database Technology Co Ltd
Priority to CN202311204318.7A priority Critical patent/CN116932148B/zh
Publication of CN116932148A publication Critical patent/CN116932148A/zh
Application granted granted Critical
Publication of CN116932148B publication Critical patent/CN116932148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及边缘计算技术领域,具体提供了一种基于AI的问题诊断系统及方法,包括问题分析器模块、问题分类模块、数据存储模块、AI模块和告警通知模块;问题分析器模块作为守护进程部署在边缘侧kubernetes集群的各个边缘节点中,实时收集和分析集群中的问题;问题分类模块对问题分析器模块收集的问题进行分类汇总;部署在云端,为时序数据库,用来存储问题分类模块采集的事件信息;AI模块部署在云端,内置kubernetes相关问题的预训练模型;告警通知模块将事件信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给运维人员。与现有技术相比,本发明提升了边缘计算场景下问题诊断的自动化水平,降低了边缘计算场景下kubernetes的运维成本。

Description

一种基于AI的问题诊断系统及方法
技术领域
本发明涉及边缘计算技术领域,具体提供一种基于AI的问题诊断系统及方法。
背景技术
边缘计算是一种分布式计算模型,它将计算和数据存储靠近数据源的边缘位置,以减少数据传输延迟和网络拥塞,并提供更快的响应速度和更好的用户体验。边缘计算将计算资源和数据处理能力推向接近用户或设备的边缘,从而减少对远程云服务的依赖。伴随5G、IoT的发展,边缘计算正成为云计算的新边界,而规模和复杂度的日益提升对边缘计算的效率、可靠性、资源利用率等一系列能力又有了更高的要求。
云原生的理念自从被提出后,经过这几年的迅速发展,云原生技术开始进入公众的视线并逐渐演变成包括容器、微服务、持续交付、自动化部署等一系列技术,其中最典型的技术是kubernetes,kubernetes是一个开源的容器编排平台,用于管理容器化的应用程序的生命周期,从部署、扩展到运行和管理,越来越多的企业选择kubernetes来获得更好的资源效率和持续的服务能力。总之,kubernetes带来了资源利用率提升、分布式系统的弹性扩展与可靠性等能力,将这些能力从中心延申到边缘侧,则能解决边缘计算大部分的问题,这也是大部分企业的选择的道路。但是这又带来了另外一个问题,管理kubernetes是一项艰巨的任务,何况在边缘计算场景中,边缘节点分布较为分散且数量巨大,这就为边缘计算场景下kuberntes的维护工作带来了更大的挑战。
故如何实现在边缘计算场景下快速高效的对问题进行诊断,满足边缘计算场景下问题的快速诊断定位需求是目前亟待解决的技术问题。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的基于AI的问题诊断系统。
本发明进一步的技术任务是提供一种设计合理,安全适用的基于AI的问题诊断方法。
本发明解决其技术问题所采用的技术方案是:
一种基于AI的问题诊断系统,包括问题分析器模块、问题分类模块、数据存储模块、AI模块和告警通知模块;
所述问题分析器模块作为守护进程部署在边缘侧kubernetes集群的各个边缘节点中,实时收集和分析集群中的问题;
所述问题分类模块对问题分析器模块收集的问题进行分类汇总;
所述部署在云端,为时序数据库,用来存储问题分类模块采集的事件信息;
所述AI模块部署在云端,内置kubernetes相关问题的预训练模型;
所述告警通知模块用于将事件信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给运维人员。
进一步的,所述问题分析器模块内置的分析器,包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer和pvcAnalyzer,分别对集群中的节点、容器、工作负载、服务、持久化存储声明的事件信息进行收集和分析。
进一步的,所述nodeAnalyzer检查kubernetes集群中的节点信息,并检查与节点运行状况、cpu、内存和存储容量相关的所有问题;
所述podAnalyzer检查Pod所关联的相关配置,检查所有的可能导致Pod崩溃或资源不足的问题;
所述deploymentAnalyzer检查无状态工作负载的相关配置情况,并检查所有可能导致资源不足或过度使用的所有问题;
所述statefulsetAnalyzer检查有状态工作负载的相关配置情况,并检查所有可能导致资源不足或过度使用的所有问题;
所述serviceAnalyzer检查服务的参数配置情况,并检查所有可能导致服务不可用或性能下降的问题;
所述pvcAnalyzer检查pvc的配置信息,并检查所有可能导致数据丢失或其它存储相关的问题。
进一步的,所述问题分类模块对问题分析器模块收集的问题进行分类汇总,并根据不同的对象和不同的命名空间进行区分,问题归类后发送到存储模块进行存储,并触发AI模块进行后续的问题诊断处理。
进一步的,所述AI模块内置的预训练模型为一个自然语言处理模型,根据预训练的知识和模型能力,对收集的相关资源对象的事件进行回答;
如果预训练模型无法解答相关问题,调用AI提供者的相关接口来获取解决方案,并对返回的解决方案进行评估和验证。
进一步的,所述告警通知模块用于将事件信息以及解决方案通过邮件、短信或者企业微信订阅号等多种方式推送给运维人员,并提醒运维人员快速响应,运维人员处理告警后针对某个或者某些告警做恢复告警处理。
一种基于AI的问题诊断方法,具有如下步骤:
S1、问题分析器模块运行所用的分析器;
S2、上述分析器提取出来的事件错误信息发送到问题分类模块;
S3、云端的数据存储模块以时间序列把问题分析器模块上传的数据存储到时序数据库中,并触发AI模块的相应操作;
S4、AI模块循环获取数据存储模块的错误信息,通过自然语言处理提取错误信息中的关键词,使用提取的关键词通过内置的kubernetes问题的预训练模型获取解决方案,则通过外部的AI提供者的SDK去调用外部的AI提供的相关接口来获取解决方案;
S5、告警通知模块对AI模块处理后的错误信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给预先设置的相关人员。
进一步的,在步骤S1中,包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer、pvcAnalyzer;
所述nodeAnalyzer负责获取所有的node对象,然后针对每个node获取对象的事件,并将错误信息提取出来;
所述podAnalyzer负责获取所有的pod对象,然后针对每个pod获取对象的事件,并将错误信息提取出来;
所述deploymentAnalyzer负责获取所有的deployment对象,然后针对每个deployment获取对象的事件,并将错误信息提取出来;
所述statefulsetAnalyzer负责获取所有的statefulset对象,然后针对每个statefulset获取对象的事件,并将错误信息提取出来;
serviceAnalyzer负责获取所有的service对象,然后针对每个service获取该对象的事件,并将错误信息提取出来;
pvcAnalyzer负责获取所有的pvc对象,然后针对每个pvc获取该对象的事件,并将错误信息提取出来。
进一步的,在步骤S4中,所述AI模块循环获取数据存储模块的错误信息,通过自然语言处理提取错误信息中的关键词,使用提取的关键词通过内置的kubernetes问题的预训练模型获取解决方案,如果内置的预训练模型获取不到解决方案,则通过外部的AI提供者的SDK去调用外部的AI提供的相关接口来获取解决方案;
若明确是有效的解决方案,则直接把解决方案通过告警通知模块反馈到相关人员;
若未明确是有效的解决方案,则使用其它的外部AI提供者的相关接口,做进一步的检索分析。
进一步的,在步骤S5中,告警通知模块对AI模块处理后的错误信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给预先设置的相关人员,并提醒相关人员进行响应和处理,相关人员处理告警通知后针对某个或某些告警通知做恢复处理。
本发明的一种基于AI的问题诊断系统及方法和现有技术相比,具有以下突出的有益效果:
本发明基于AI解决边缘计算场景下kubernetes相关问题,可以帮助用户更好的使用和维护kubernetes,提高了边缘计算场景下kubernetes问题诊断的准确率,加快问题解决和学习的速度,提升了边缘计算场景下问题诊断的自动化水平,降低了边缘计算场景下kubernetes的运维成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种基于AI的问题诊断系统的框架示意图;
附图2是一种基于AI的问题诊断方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的一种基于AI的问题诊断系统,包括问题分析器模块、问题分类模块、数据存储模块、AI模块和告警通知模块;
其中,问题分析器模块作为守护进程部署在边缘侧kubernetes集群的各个边缘节点中,实时收集和分析集群中的问题;
问题分析器模块是一组内置的分析器,包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer、pvcAnalyzer,分别对集群中的节点、容器、工作负载、服务、持久化存储声明的事件信息进行收集和分析。
其中,nodeAnalyzer检查kubernetes集群中的节点信息,并检查与节点运行状况、cpu、内存和存储容量相关的所有问题;
podAnalyzer检查Pod所关联的相关配置,检查所有的可能导致Pod崩溃或资源不足等问题;
deploymentAnalyzer检查无状态工作负载的相关配置情况,并检查所有可能导致资源不足或过度使用的所有问题;
statefulsetAnalyzer检查有状态工作负载的相关配置情况,并检查所有可能导致资源不足或过度使用的所有问题;
serviceAnalyzer检查服务的参数配置情况,并检查所有可能导致服务不可用或性能下降的问题;
pvcAnalyzer检查pvc的配置信息,并检查所有可能导致数据丢失或其它存储相关的问题。
问题分类模块对问题分析器模块收集的问题进行分类汇总,并根据不同的对象和不同的命名空间进行区分,问题归类后发送到存储模块进行存储,并触发AI模块进行后续的问题诊断处理。
数据存储模块通常部署在云端,为时序数据库,用来存储问题分类模块采集的事件信息,提供了根据时间和存储空间自动分表和基于时序查询数据等功能,支持频繁查询和高频插入,较少的删除和修改操作。
AI模块部署在云端,内置kubernetes相关问题的预训练模型,此预训练模型是一个自然语言处理模型,根据预训练的知识和模型能力,对收集的相关资源对象的事件进行回答,此模型可以通过不断的学习来提高问题诊断的准确性。
如果此预训练模型无法解答相关问题,可以调用AI提供者的相关接口来获取解决方案,并对返回的解决方案进行评估和验证,从而加快问题解决的速度和提高问题诊断的准确性。
告警通知模块用于将事件信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给运维人员。并提醒运维人员快速响应,运维人员处理告警后可以针对某个或者某些告警做恢复告警处理。
基于上述系统,本实施例中的一种基于AI的问题诊断方法,具有如下步骤:
S1、问题分析器模块运行所用的分析器;
包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer、pvcAnalyzer。
nodeAnalyzer负责获取所有的node对象,然后针对每个node获取该对象的事件,并将错误信息提取出来;
podAnalyzer负责获取所有的pod对象,然后针对每个pod获取该对象的事件,并将错误信息提取出来;
deploymentAnalyzer负责获取所有的deployment对象,然后针对每个deployment获取该对象的事件,并将错误信息提取出来;
statefulsetAnalyzer负责获取所有的statefulset对象,然后针对每个statefulset获取改对象的事件,并将错误信息提取出来;
serviceAnalyzer负责获取所有的service对象,然后针对每个service获取该对象的事件,并将错误信息提取出来;
pvcAnalyzer负责获取所有的pvc对象,然后针对每个pvc获取该对象的事件,并将错误信息提取出来。
S2、上述分析器提取出来的事件错误信息发送到问题分类模块;
一方面,问题分类器模块根据对象类型、对象所属命名空间、错误类型三个维度进行分类。
另一方面,根据事件错误信息消除其中的噪音,并发现当前边缘计算环境中潜在的问题,经过上述操作得到的结果通过云边数据通道传输到云端数据存储模块。
S3、云端的数据存储模块以时间序列把问题分析器模块上传的数据存储到时序数据库中,并触发AI模块的相应操作。
S4、AI模块循环获取数据存储模块的错误信息,通过自然语言处理提取错误信息中的关键词,使用提取的关键词通过内置的kubernetes问题的预训练模型获取解决方案,则通过外部的AI提供者的SDK去调用外部的AI提供的相关接口来获取解决方案。
S5、告警通知模块对AI模块处理后的错误信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给预先设置的相关人员。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明权利要求书记载的技术方案且任何所属技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (2)

1.一种基于AI的问题诊断系统,其特征在于,包括问题分析器模块、问题分类模块、数据存储模块、AI模块和告警通知模块;
所述问题分析器模块作为守护进程部署在边缘侧kubernetes集群的各个边缘节点中,实时收集和分析集群中的问题;
所述问题分析器模块内置的分析器,包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer和pvcAnalyzer,分别对集群中的节点、容器、工作负载、服务、持久化存储声明的事件信息进行收集和分析;
所述nodeAnalyzer检查kubernetes集群中的节点信息,并检查与节点运行状况、cpu、内存和存储容量相关的所有问题;
所述podAnalyzer检查Pod所关联的相关配置,检查所有的可能导致Pod崩溃或资源不足的问题;
所述deploymentAnalyzer检查无状态工作负载的相关配置情况,并检查所有可能导致资源不足或过度使用的所有问题;
所述statefulsetAnalyzer检查有状态工作负载的相关配置情况,并检查所有可能导致资源不足或过度使用的所有问题;
所述serviceAnalyzer检查服务的参数配置情况,并检查所有可能导致服务不可用或性能下降的问题;
所述pvcAnalyzer检查pvc的配置信息,并检查所有可能导致数据丢失或其它存储相关的问题;
所述问题分类模块对问题分析器模块收集的问题进行分类汇总,并根据不同的对象和不同的命名空间进行区分,问题归类后发送到存储模块进行存储,并触发AI模块进行后续的问题诊断处理;
所述部署在云端,为时序数据库,用来存储问题分类模块采集的事件信息;
所述AI模块部署在云端,内置kubernetes相关问题的预训练模型;
AI模块内置的预训练模型为一个自然语言处理模型,根据预训练的知识和模型能力,对收集的相关资源对象的事件进行回答;
如果预训练模型无法解答相关问题,调用AI提供者的相关接口来获取解决方案,并对返回的解决方案进行评估和验证;
所述告警通知模块用于将事件信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给运维人员,并提醒运维人员快速响应,运维人员处理告警后针对某个或者某些告警做恢复告警处理。
2.一种基于AI的问题诊断方法,其特征在于,具有如下步骤:
S1、问题分析器模块运行所用的分析器;
包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer、pvcAnalyzer;
所述nodeAnalyzer负责获取所有的node对象,然后针对每个node获取对象的事件,并将错误信息提取出来;
所述podAnalyzer负责获取所有的pod对象,然后针对每个pod获取对象的事件,并将错误信息提取出来;
所述deploymentAnalyzer负责获取所有的deployment对象,然后针对每个deployment获取对象的事件,并将错误信息提取出来;
所述statefulsetAnalyzer负责获取所有的statefulset对象,然后针对每个statefulset获取对象的事件,并将错误信息提取出来;
serviceAnalyzer负责获取所有的service对象,然后针对每个service获取该对象的事件,并将错误信息提取出来;
pvcAnalyzer负责获取所有的pvc对象,然后针对每个pvc获取该对象的事件,并将错误信息提取出来;
S2、上述分析器提取出来的事件错误信息发送到问题分类模块;
S3、云端的数据存储模块以时间序列把问题分析器模块上传的数据存储到时序数据库中,并触发AI模块的相应操作;
S4、所述AI模块循环获取数据存储模块的错误信息,通过自然语言处理提取错误信息中的关键词,使用提取的关键词通过内置的kubernetes问题的预训练模型获取解决方案,如果内置的预训练模型获取不到解决方案,则通过外部的AI提供者的SDK去调用外部的AI提供的相关接口来获取解决方案;
若明确是有效的解决方案,则直接把解决方案通过告警通知模块反馈到相关人员;
若未明确是有效的解决方案,则使用其它的外部AI提供者的相关接口,做检索分析;
S5、告警通知模块对AI模块处理后的错误信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给预先设置的相关人员,并提醒相关人员进行响应和处理,相关人员处理告警通知后针对某个或某些告警通知做恢复处理。
CN202311204318.7A 2023-09-19 2023-09-19 一种基于ai的问题诊断系统及方法 Active CN116932148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311204318.7A CN116932148B (zh) 2023-09-19 2023-09-19 一种基于ai的问题诊断系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311204318.7A CN116932148B (zh) 2023-09-19 2023-09-19 一种基于ai的问题诊断系统及方法

Publications (2)

Publication Number Publication Date
CN116932148A CN116932148A (zh) 2023-10-24
CN116932148B true CN116932148B (zh) 2024-01-19

Family

ID=88384732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311204318.7A Active CN116932148B (zh) 2023-09-19 2023-09-19 一种基于ai的问题诊断系统及方法

Country Status (1)

Country Link
CN (1) CN116932148B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117667676A (zh) * 2023-11-21 2024-03-08 上海金仕达卫宁软件科技有限公司 基于aigc的区块链智能合约ide验证测试方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN113010342A (zh) * 2021-03-12 2021-06-22 北京百度网讯科技有限公司 运维诊断的方法、装置、设备以及存储介质
WO2021232567A1 (zh) * 2020-05-20 2021-11-25 江苏南工科技集团有限公司 一种基于ai技术的智慧运维知识分析方法
CN114356499A (zh) * 2021-12-27 2022-04-15 山东浪潮科学研究院有限公司 Kubernetes集群告警根因分析方法及装置
CN115033450A (zh) * 2022-05-26 2022-09-09 中电信数智科技有限公司 一种基于分布式的贝叶斯集群监控预警分析方法
CN115544202A (zh) * 2021-06-29 2022-12-30 北京华为数字技术有限公司 告警处理方法、装置及存储介质
CN116258206A (zh) * 2022-12-14 2023-06-13 东方电气集团科学技术研究院有限公司 一种基于中文自然语言处理的分布式专家系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11836037B2 (en) * 2021-05-06 2023-12-05 Salesforce.Com, Inc. Systems and methods for artificial intelligence-based root cause analysis of service incidents

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
WO2021232567A1 (zh) * 2020-05-20 2021-11-25 江苏南工科技集团有限公司 一种基于ai技术的智慧运维知识分析方法
CN113010342A (zh) * 2021-03-12 2021-06-22 北京百度网讯科技有限公司 运维诊断的方法、装置、设备以及存储介质
CN115544202A (zh) * 2021-06-29 2022-12-30 北京华为数字技术有限公司 告警处理方法、装置及存储介质
CN114356499A (zh) * 2021-12-27 2022-04-15 山东浪潮科学研究院有限公司 Kubernetes集群告警根因分析方法及装置
CN115033450A (zh) * 2022-05-26 2022-09-09 中电信数智科技有限公司 一种基于分布式的贝叶斯集群监控预警分析方法
CN116258206A (zh) * 2022-12-14 2023-06-13 东方电气集团科学技术研究院有限公司 一种基于中文自然语言处理的分布式专家系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Kafka和Kubernetes的云平台监控告警系统;郝鹏海;徐成龙;刘一田;;计算机系统应用(第08期);125-130 *

Also Published As

Publication number Publication date
CN116932148A (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
CN109542733B (zh) 一种高可靠的实时日志收集及可视化检索方法
CN112671560B (zh) 一种高可用的分布式实时告警处理方法及系统
US9832280B2 (en) User profile configuring method and device
CN107370806B (zh) Http状态码监控方法、装置、存储介质和电子设备
CN116932148B (zh) 一种基于ai的问题诊断系统及方法
CN112311617A (zh) 一种配置化数据监控告警方法及系统
CN111339175B (zh) 数据处理方法、装置、电子设备及可读存储介质
EP3918758A1 (en) Real-time event detection on social data streams
US8903923B2 (en) Methods and apparatus for system monitoring
CN109977089A (zh) 日志管理方法、装置、计算机设备及计算机可读存储介质
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN111881011A (zh) 日志管理方法、平台、服务器及存储介质
CN113448812A (zh) 微服务场景下的监控告警方法及装置
CN111651595A (zh) 一种异常日志处理方法及装置
CN111813848A (zh) 基于kafka日志中间件的数据实时采集分析方法
CN111522786A (zh) 日志处理系统及方法
CN113783931A (zh) 一种物联网数据聚合、分析方法
CN114356499A (zh) Kubernetes集群告警根因分析方法及装置
CN111339052A (zh) 一种非结构化日志数据处理方法及装置
CN107257289A (zh) 一种风险分析设备、监控系统和监控方法
CN114461792A (zh) 告警事件关联方法、装置、电子设备、介质及程序产品
CN114221997A (zh) 基于微服务业务网关的接口监控系统
CN114090529A (zh) 一种日志管理方法、装置、系统和存储介质
CN113778810A (zh) 一种日志收集方法、装置及系统
CN113468023A (zh) 监控方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant