CN116932148B - 一种基于ai的问题诊断系统及方法 - Google Patents
一种基于ai的问题诊断系统及方法 Download PDFInfo
- Publication number
- CN116932148B CN116932148B CN202311204318.7A CN202311204318A CN116932148B CN 116932148 B CN116932148 B CN 116932148B CN 202311204318 A CN202311204318 A CN 202311204318A CN 116932148 B CN116932148 B CN 116932148B
- Authority
- CN
- China
- Prior art keywords
- module
- analyzer
- checks
- acquiring
- error information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000012423 maintenance Methods 0.000 claims abstract description 14
- 238000013500 data storage Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 11
- 238000003058 natural language processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 230000002085 persistent effect Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000011084 recovery Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000001960 triggered effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45591—Monitoring or debugging support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45595—Network integration; Enabling network access in virtual machine instances
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及边缘计算技术领域,具体提供了一种基于AI的问题诊断系统及方法,包括问题分析器模块、问题分类模块、数据存储模块、AI模块和告警通知模块;问题分析器模块作为守护进程部署在边缘侧kubernetes集群的各个边缘节点中,实时收集和分析集群中的问题;问题分类模块对问题分析器模块收集的问题进行分类汇总;部署在云端,为时序数据库,用来存储问题分类模块采集的事件信息;AI模块部署在云端,内置kubernetes相关问题的预训练模型;告警通知模块将事件信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给运维人员。与现有技术相比,本发明提升了边缘计算场景下问题诊断的自动化水平,降低了边缘计算场景下kubernetes的运维成本。
Description
技术领域
本发明涉及边缘计算技术领域,具体提供一种基于AI的问题诊断系统及方法。
背景技术
边缘计算是一种分布式计算模型,它将计算和数据存储靠近数据源的边缘位置,以减少数据传输延迟和网络拥塞,并提供更快的响应速度和更好的用户体验。边缘计算将计算资源和数据处理能力推向接近用户或设备的边缘,从而减少对远程云服务的依赖。伴随5G、IoT的发展,边缘计算正成为云计算的新边界,而规模和复杂度的日益提升对边缘计算的效率、可靠性、资源利用率等一系列能力又有了更高的要求。
云原生的理念自从被提出后,经过这几年的迅速发展,云原生技术开始进入公众的视线并逐渐演变成包括容器、微服务、持续交付、自动化部署等一系列技术,其中最典型的技术是kubernetes,kubernetes是一个开源的容器编排平台,用于管理容器化的应用程序的生命周期,从部署、扩展到运行和管理,越来越多的企业选择kubernetes来获得更好的资源效率和持续的服务能力。总之,kubernetes带来了资源利用率提升、分布式系统的弹性扩展与可靠性等能力,将这些能力从中心延申到边缘侧,则能解决边缘计算大部分的问题,这也是大部分企业的选择的道路。但是这又带来了另外一个问题,管理kubernetes是一项艰巨的任务,何况在边缘计算场景中,边缘节点分布较为分散且数量巨大,这就为边缘计算场景下kuberntes的维护工作带来了更大的挑战。
故如何实现在边缘计算场景下快速高效的对问题进行诊断,满足边缘计算场景下问题的快速诊断定位需求是目前亟待解决的技术问题。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的基于AI的问题诊断系统。
本发明进一步的技术任务是提供一种设计合理,安全适用的基于AI的问题诊断方法。
本发明解决其技术问题所采用的技术方案是:
一种基于AI的问题诊断系统,包括问题分析器模块、问题分类模块、数据存储模块、AI模块和告警通知模块;
所述问题分析器模块作为守护进程部署在边缘侧kubernetes集群的各个边缘节点中,实时收集和分析集群中的问题;
所述问题分类模块对问题分析器模块收集的问题进行分类汇总;
所述部署在云端,为时序数据库,用来存储问题分类模块采集的事件信息;
所述AI模块部署在云端,内置kubernetes相关问题的预训练模型;
所述告警通知模块用于将事件信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给运维人员。
进一步的,所述问题分析器模块内置的分析器,包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer和pvcAnalyzer,分别对集群中的节点、容器、工作负载、服务、持久化存储声明的事件信息进行收集和分析。
进一步的,所述nodeAnalyzer检查kubernetes集群中的节点信息,并检查与节点运行状况、cpu、内存和存储容量相关的所有问题;
所述podAnalyzer检查Pod所关联的相关配置,检查所有的可能导致Pod崩溃或资源不足的问题;
所述deploymentAnalyzer检查无状态工作负载的相关配置情况,并检查所有可能导致资源不足或过度使用的所有问题;
所述statefulsetAnalyzer检查有状态工作负载的相关配置情况,并检查所有可能导致资源不足或过度使用的所有问题;
所述serviceAnalyzer检查服务的参数配置情况,并检查所有可能导致服务不可用或性能下降的问题;
所述pvcAnalyzer检查pvc的配置信息,并检查所有可能导致数据丢失或其它存储相关的问题。
进一步的,所述问题分类模块对问题分析器模块收集的问题进行分类汇总,并根据不同的对象和不同的命名空间进行区分,问题归类后发送到存储模块进行存储,并触发AI模块进行后续的问题诊断处理。
进一步的,所述AI模块内置的预训练模型为一个自然语言处理模型,根据预训练的知识和模型能力,对收集的相关资源对象的事件进行回答;
如果预训练模型无法解答相关问题,调用AI提供者的相关接口来获取解决方案,并对返回的解决方案进行评估和验证。
进一步的,所述告警通知模块用于将事件信息以及解决方案通过邮件、短信或者企业微信订阅号等多种方式推送给运维人员,并提醒运维人员快速响应,运维人员处理告警后针对某个或者某些告警做恢复告警处理。
一种基于AI的问题诊断方法,具有如下步骤:
S1、问题分析器模块运行所用的分析器;
S2、上述分析器提取出来的事件错误信息发送到问题分类模块;
S3、云端的数据存储模块以时间序列把问题分析器模块上传的数据存储到时序数据库中,并触发AI模块的相应操作;
S4、AI模块循环获取数据存储模块的错误信息,通过自然语言处理提取错误信息中的关键词,使用提取的关键词通过内置的kubernetes问题的预训练模型获取解决方案,则通过外部的AI提供者的SDK去调用外部的AI提供的相关接口来获取解决方案;
S5、告警通知模块对AI模块处理后的错误信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给预先设置的相关人员。
进一步的,在步骤S1中,包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer、pvcAnalyzer;
所述nodeAnalyzer负责获取所有的node对象,然后针对每个node获取对象的事件,并将错误信息提取出来;
所述podAnalyzer负责获取所有的pod对象,然后针对每个pod获取对象的事件,并将错误信息提取出来;
所述deploymentAnalyzer负责获取所有的deployment对象,然后针对每个deployment获取对象的事件,并将错误信息提取出来;
所述statefulsetAnalyzer负责获取所有的statefulset对象,然后针对每个statefulset获取对象的事件,并将错误信息提取出来;
serviceAnalyzer负责获取所有的service对象,然后针对每个service获取该对象的事件,并将错误信息提取出来;
pvcAnalyzer负责获取所有的pvc对象,然后针对每个pvc获取该对象的事件,并将错误信息提取出来。
进一步的,在步骤S4中,所述AI模块循环获取数据存储模块的错误信息,通过自然语言处理提取错误信息中的关键词,使用提取的关键词通过内置的kubernetes问题的预训练模型获取解决方案,如果内置的预训练模型获取不到解决方案,则通过外部的AI提供者的SDK去调用外部的AI提供的相关接口来获取解决方案;
若明确是有效的解决方案,则直接把解决方案通过告警通知模块反馈到相关人员;
若未明确是有效的解决方案,则使用其它的外部AI提供者的相关接口,做进一步的检索分析。
进一步的,在步骤S5中,告警通知模块对AI模块处理后的错误信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给预先设置的相关人员,并提醒相关人员进行响应和处理,相关人员处理告警通知后针对某个或某些告警通知做恢复处理。
本发明的一种基于AI的问题诊断系统及方法和现有技术相比,具有以下突出的有益效果:
本发明基于AI解决边缘计算场景下kubernetes相关问题,可以帮助用户更好的使用和维护kubernetes,提高了边缘计算场景下kubernetes问题诊断的准确率,加快问题解决和学习的速度,提升了边缘计算场景下问题诊断的自动化水平,降低了边缘计算场景下kubernetes的运维成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种基于AI的问题诊断系统的框架示意图;
附图2是一种基于AI的问题诊断方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的一种基于AI的问题诊断系统,包括问题分析器模块、问题分类模块、数据存储模块、AI模块和告警通知模块;
其中,问题分析器模块作为守护进程部署在边缘侧kubernetes集群的各个边缘节点中,实时收集和分析集群中的问题;
问题分析器模块是一组内置的分析器,包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer、pvcAnalyzer,分别对集群中的节点、容器、工作负载、服务、持久化存储声明的事件信息进行收集和分析。
其中,nodeAnalyzer检查kubernetes集群中的节点信息,并检查与节点运行状况、cpu、内存和存储容量相关的所有问题;
podAnalyzer检查Pod所关联的相关配置,检查所有的可能导致Pod崩溃或资源不足等问题;
deploymentAnalyzer检查无状态工作负载的相关配置情况,并检查所有可能导致资源不足或过度使用的所有问题;
statefulsetAnalyzer检查有状态工作负载的相关配置情况,并检查所有可能导致资源不足或过度使用的所有问题;
serviceAnalyzer检查服务的参数配置情况,并检查所有可能导致服务不可用或性能下降的问题;
pvcAnalyzer检查pvc的配置信息,并检查所有可能导致数据丢失或其它存储相关的问题。
问题分类模块对问题分析器模块收集的问题进行分类汇总,并根据不同的对象和不同的命名空间进行区分,问题归类后发送到存储模块进行存储,并触发AI模块进行后续的问题诊断处理。
数据存储模块通常部署在云端,为时序数据库,用来存储问题分类模块采集的事件信息,提供了根据时间和存储空间自动分表和基于时序查询数据等功能,支持频繁查询和高频插入,较少的删除和修改操作。
AI模块部署在云端,内置kubernetes相关问题的预训练模型,此预训练模型是一个自然语言处理模型,根据预训练的知识和模型能力,对收集的相关资源对象的事件进行回答,此模型可以通过不断的学习来提高问题诊断的准确性。
如果此预训练模型无法解答相关问题,可以调用AI提供者的相关接口来获取解决方案,并对返回的解决方案进行评估和验证,从而加快问题解决的速度和提高问题诊断的准确性。
告警通知模块用于将事件信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给运维人员。并提醒运维人员快速响应,运维人员处理告警后可以针对某个或者某些告警做恢复告警处理。
基于上述系统,本实施例中的一种基于AI的问题诊断方法,具有如下步骤:
S1、问题分析器模块运行所用的分析器;
包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer、pvcAnalyzer。
nodeAnalyzer负责获取所有的node对象,然后针对每个node获取该对象的事件,并将错误信息提取出来;
podAnalyzer负责获取所有的pod对象,然后针对每个pod获取该对象的事件,并将错误信息提取出来;
deploymentAnalyzer负责获取所有的deployment对象,然后针对每个deployment获取该对象的事件,并将错误信息提取出来;
statefulsetAnalyzer负责获取所有的statefulset对象,然后针对每个statefulset获取改对象的事件,并将错误信息提取出来;
serviceAnalyzer负责获取所有的service对象,然后针对每个service获取该对象的事件,并将错误信息提取出来;
pvcAnalyzer负责获取所有的pvc对象,然后针对每个pvc获取该对象的事件,并将错误信息提取出来。
S2、上述分析器提取出来的事件错误信息发送到问题分类模块;
一方面,问题分类器模块根据对象类型、对象所属命名空间、错误类型三个维度进行分类。
另一方面,根据事件错误信息消除其中的噪音,并发现当前边缘计算环境中潜在的问题,经过上述操作得到的结果通过云边数据通道传输到云端数据存储模块。
S3、云端的数据存储模块以时间序列把问题分析器模块上传的数据存储到时序数据库中,并触发AI模块的相应操作。
S4、AI模块循环获取数据存储模块的错误信息,通过自然语言处理提取错误信息中的关键词,使用提取的关键词通过内置的kubernetes问题的预训练模型获取解决方案,则通过外部的AI提供者的SDK去调用外部的AI提供的相关接口来获取解决方案。
S5、告警通知模块对AI模块处理后的错误信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给预先设置的相关人员。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明权利要求书记载的技术方案且任何所属技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (2)
1.一种基于AI的问题诊断系统,其特征在于,包括问题分析器模块、问题分类模块、数据存储模块、AI模块和告警通知模块;
所述问题分析器模块作为守护进程部署在边缘侧kubernetes集群的各个边缘节点中,实时收集和分析集群中的问题;
所述问题分析器模块内置的分析器,包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer和pvcAnalyzer,分别对集群中的节点、容器、工作负载、服务、持久化存储声明的事件信息进行收集和分析;
所述nodeAnalyzer检查kubernetes集群中的节点信息,并检查与节点运行状况、cpu、内存和存储容量相关的所有问题;
所述podAnalyzer检查Pod所关联的相关配置,检查所有的可能导致Pod崩溃或资源不足的问题;
所述deploymentAnalyzer检查无状态工作负载的相关配置情况,并检查所有可能导致资源不足或过度使用的所有问题;
所述statefulsetAnalyzer检查有状态工作负载的相关配置情况,并检查所有可能导致资源不足或过度使用的所有问题;
所述serviceAnalyzer检查服务的参数配置情况,并检查所有可能导致服务不可用或性能下降的问题;
所述pvcAnalyzer检查pvc的配置信息,并检查所有可能导致数据丢失或其它存储相关的问题;
所述问题分类模块对问题分析器模块收集的问题进行分类汇总,并根据不同的对象和不同的命名空间进行区分,问题归类后发送到存储模块进行存储,并触发AI模块进行后续的问题诊断处理;
所述部署在云端,为时序数据库,用来存储问题分类模块采集的事件信息;
所述AI模块部署在云端,内置kubernetes相关问题的预训练模型;
AI模块内置的预训练模型为一个自然语言处理模型,根据预训练的知识和模型能力,对收集的相关资源对象的事件进行回答;
如果预训练模型无法解答相关问题,调用AI提供者的相关接口来获取解决方案,并对返回的解决方案进行评估和验证;
所述告警通知模块用于将事件信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给运维人员,并提醒运维人员快速响应,运维人员处理告警后针对某个或者某些告警做恢复告警处理。
2.一种基于AI的问题诊断方法,其特征在于,具有如下步骤:
S1、问题分析器模块运行所用的分析器;
包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer、pvcAnalyzer;
所述nodeAnalyzer负责获取所有的node对象,然后针对每个node获取对象的事件,并将错误信息提取出来;
所述podAnalyzer负责获取所有的pod对象,然后针对每个pod获取对象的事件,并将错误信息提取出来;
所述deploymentAnalyzer负责获取所有的deployment对象,然后针对每个deployment获取对象的事件,并将错误信息提取出来;
所述statefulsetAnalyzer负责获取所有的statefulset对象,然后针对每个statefulset获取对象的事件,并将错误信息提取出来;
serviceAnalyzer负责获取所有的service对象,然后针对每个service获取该对象的事件,并将错误信息提取出来;
pvcAnalyzer负责获取所有的pvc对象,然后针对每个pvc获取该对象的事件,并将错误信息提取出来;
S2、上述分析器提取出来的事件错误信息发送到问题分类模块;
S3、云端的数据存储模块以时间序列把问题分析器模块上传的数据存储到时序数据库中,并触发AI模块的相应操作;
S4、所述AI模块循环获取数据存储模块的错误信息,通过自然语言处理提取错误信息中的关键词,使用提取的关键词通过内置的kubernetes问题的预训练模型获取解决方案,如果内置的预训练模型获取不到解决方案,则通过外部的AI提供者的SDK去调用外部的AI提供的相关接口来获取解决方案;
若明确是有效的解决方案,则直接把解决方案通过告警通知模块反馈到相关人员;
若未明确是有效的解决方案,则使用其它的外部AI提供者的相关接口,做检索分析;
S5、告警通知模块对AI模块处理后的错误信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给预先设置的相关人员,并提醒相关人员进行响应和处理,相关人员处理告警通知后针对某个或某些告警通知做恢复处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311204318.7A CN116932148B (zh) | 2023-09-19 | 2023-09-19 | 一种基于ai的问题诊断系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311204318.7A CN116932148B (zh) | 2023-09-19 | 2023-09-19 | 一种基于ai的问题诊断系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116932148A CN116932148A (zh) | 2023-10-24 |
CN116932148B true CN116932148B (zh) | 2024-01-19 |
Family
ID=88384732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311204318.7A Active CN116932148B (zh) | 2023-09-19 | 2023-09-19 | 一种基于ai的问题诊断系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116932148B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117667676A (zh) * | 2023-11-21 | 2024-03-08 | 上海金仕达卫宁软件科技有限公司 | 基于aigc的区块链智能合约ide验证测试方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105337765A (zh) * | 2015-10-10 | 2016-02-17 | 上海新炬网络信息技术有限公司 | 一种分布式hadoop集群故障自动诊断修复系统 |
CN113010342A (zh) * | 2021-03-12 | 2021-06-22 | 北京百度网讯科技有限公司 | 运维诊断的方法、装置、设备以及存储介质 |
WO2021232567A1 (zh) * | 2020-05-20 | 2021-11-25 | 江苏南工科技集团有限公司 | 一种基于ai技术的智慧运维知识分析方法 |
CN114356499A (zh) * | 2021-12-27 | 2022-04-15 | 山东浪潮科学研究院有限公司 | Kubernetes集群告警根因分析方法及装置 |
CN115033450A (zh) * | 2022-05-26 | 2022-09-09 | 中电信数智科技有限公司 | 一种基于分布式的贝叶斯集群监控预警分析方法 |
CN115544202A (zh) * | 2021-06-29 | 2022-12-30 | 北京华为数字技术有限公司 | 告警处理方法、装置及存储介质 |
CN116258206A (zh) * | 2022-12-14 | 2023-06-13 | 东方电气集团科学技术研究院有限公司 | 一种基于中文自然语言处理的分布式专家系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11836037B2 (en) * | 2021-05-06 | 2023-12-05 | Salesforce.Com, Inc. | Systems and methods for artificial intelligence-based root cause analysis of service incidents |
-
2023
- 2023-09-19 CN CN202311204318.7A patent/CN116932148B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105337765A (zh) * | 2015-10-10 | 2016-02-17 | 上海新炬网络信息技术有限公司 | 一种分布式hadoop集群故障自动诊断修复系统 |
WO2021232567A1 (zh) * | 2020-05-20 | 2021-11-25 | 江苏南工科技集团有限公司 | 一种基于ai技术的智慧运维知识分析方法 |
CN113010342A (zh) * | 2021-03-12 | 2021-06-22 | 北京百度网讯科技有限公司 | 运维诊断的方法、装置、设备以及存储介质 |
CN115544202A (zh) * | 2021-06-29 | 2022-12-30 | 北京华为数字技术有限公司 | 告警处理方法、装置及存储介质 |
CN114356499A (zh) * | 2021-12-27 | 2022-04-15 | 山东浪潮科学研究院有限公司 | Kubernetes集群告警根因分析方法及装置 |
CN115033450A (zh) * | 2022-05-26 | 2022-09-09 | 中电信数智科技有限公司 | 一种基于分布式的贝叶斯集群监控预警分析方法 |
CN116258206A (zh) * | 2022-12-14 | 2023-06-13 | 东方电气集团科学技术研究院有限公司 | 一种基于中文自然语言处理的分布式专家系统 |
Non-Patent Citations (1)
Title |
---|
基于Kafka和Kubernetes的云平台监控告警系统;郝鹏海;徐成龙;刘一田;;计算机系统应用(第08期);125-130 * |
Also Published As
Publication number | Publication date |
---|---|
CN116932148A (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109542733B (zh) | 一种高可靠的实时日志收集及可视化检索方法 | |
CN112671560B (zh) | 一种高可用的分布式实时告警处理方法及系统 | |
US9832280B2 (en) | User profile configuring method and device | |
CN107370806B (zh) | Http状态码监控方法、装置、存储介质和电子设备 | |
CN116932148B (zh) | 一种基于ai的问题诊断系统及方法 | |
CN112311617A (zh) | 一种配置化数据监控告警方法及系统 | |
CN111339175B (zh) | 数据处理方法、装置、电子设备及可读存储介质 | |
EP3918758A1 (en) | Real-time event detection on social data streams | |
US8903923B2 (en) | Methods and apparatus for system monitoring | |
CN109977089A (zh) | 日志管理方法、装置、计算机设备及计算机可读存储介质 | |
CN115809183A (zh) | 基于知识图谱的信创终端故障发现及处置的方法 | |
CN111881011A (zh) | 日志管理方法、平台、服务器及存储介质 | |
CN113448812A (zh) | 微服务场景下的监控告警方法及装置 | |
CN111651595A (zh) | 一种异常日志处理方法及装置 | |
CN111813848A (zh) | 基于kafka日志中间件的数据实时采集分析方法 | |
CN111522786A (zh) | 日志处理系统及方法 | |
CN113783931A (zh) | 一种物联网数据聚合、分析方法 | |
CN114356499A (zh) | Kubernetes集群告警根因分析方法及装置 | |
CN111339052A (zh) | 一种非结构化日志数据处理方法及装置 | |
CN107257289A (zh) | 一种风险分析设备、监控系统和监控方法 | |
CN114461792A (zh) | 告警事件关联方法、装置、电子设备、介质及程序产品 | |
CN114221997A (zh) | 基于微服务业务网关的接口监控系统 | |
CN114090529A (zh) | 一种日志管理方法、装置、系统和存储介质 | |
CN113778810A (zh) | 一种日志收集方法、装置及系统 | |
CN113468023A (zh) | 监控方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |