CN116932148B

CN116932148B - 一种基于ai的问题诊断系统及方法

Info

Publication number: CN116932148B
Application number: CN202311204318.7A
Authority: CN
Inventors: 陈洪鑫; 种保中; 金伟毅; 李明
Original assignee: Shandong Inspur Database Technology Co Ltd
Current assignee: Shandong Inspur Database Technology Co Ltd
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2024-01-19
Anticipated expiration: 2043-09-19
Also published as: CN116932148A

Abstract

本发明涉及边缘计算技术领域，具体提供了一种基于AI的问题诊断系统及方法，包括问题分析器模块、问题分类模块、数据存储模块、AI模块和告警通知模块；问题分析器模块作为守护进程部署在边缘侧kubernetes集群的各个边缘节点中，实时收集和分析集群中的问题；问题分类模块对问题分析器模块收集的问题进行分类汇总；部署在云端，为时序数据库，用来存储问题分类模块采集的事件信息；AI模块部署在云端，内置kubernetes相关问题的预训练模型；告警通知模块将事件信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给运维人员。与现有技术相比，本发明提升了边缘计算场景下问题诊断的自动化水平，降低了边缘计算场景下kubernetes的运维成本。

Description

一种基于AI的问题诊断系统及方法

技术领域

本发明涉及边缘计算技术领域，具体提供一种基于AI的问题诊断系统及方法。

背景技术

边缘计算是一种分布式计算模型，它将计算和数据存储靠近数据源的边缘位置，以减少数据传输延迟和网络拥塞，并提供更快的响应速度和更好的用户体验。边缘计算将计算资源和数据处理能力推向接近用户或设备的边缘，从而减少对远程云服务的依赖。伴随5G、IoT的发展，边缘计算正成为云计算的新边界，而规模和复杂度的日益提升对边缘计算的效率、可靠性、资源利用率等一系列能力又有了更高的要求。

云原生的理念自从被提出后，经过这几年的迅速发展，云原生技术开始进入公众的视线并逐渐演变成包括容器、微服务、持续交付、自动化部署等一系列技术，其中最典型的技术是kubernetes，kubernetes是一个开源的容器编排平台，用于管理容器化的应用程序的生命周期，从部署、扩展到运行和管理，越来越多的企业选择kubernetes来获得更好的资源效率和持续的服务能力。总之，kubernetes带来了资源利用率提升、分布式系统的弹性扩展与可靠性等能力，将这些能力从中心延申到边缘侧，则能解决边缘计算大部分的问题，这也是大部分企业的选择的道路。但是这又带来了另外一个问题，管理kubernetes是一项艰巨的任务，何况在边缘计算场景中，边缘节点分布较为分散且数量巨大，这就为边缘计算场景下kuberntes的维护工作带来了更大的挑战。

故如何实现在边缘计算场景下快速高效的对问题进行诊断，满足边缘计算场景下问题的快速诊断定位需求是目前亟待解决的技术问题。

发明内容

本发明是针对上述现有技术的不足，提供一种实用性强的基于AI的问题诊断系统。

本发明进一步的技术任务是提供一种设计合理，安全适用的基于AI的问题诊断方法。

本发明解决其技术问题所采用的技术方案是：

一种基于AI的问题诊断系统，包括问题分析器模块、问题分类模块、数据存储模块、AI模块和告警通知模块；

所述问题分析器模块作为守护进程部署在边缘侧kubernetes集群的各个边缘节点中，实时收集和分析集群中的问题；

所述问题分类模块对问题分析器模块收集的问题进行分类汇总；

所述部署在云端，为时序数据库，用来存储问题分类模块采集的事件信息；

所述AI模块部署在云端，内置kubernetes相关问题的预训练模型；

所述告警通知模块用于将事件信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给运维人员。

进一步的，所述问题分析器模块内置的分析器，包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer和pvcAnalyzer，分别对集群中的节点、容器、工作负载、服务、持久化存储声明的事件信息进行收集和分析。

进一步的，所述nodeAnalyzer检查kubernetes集群中的节点信息，并检查与节点运行状况、cpu、内存和存储容量相关的所有问题；

所述podAnalyzer检查Pod所关联的相关配置，检查所有的可能导致Pod崩溃或资源不足的问题；

所述deploymentAnalyzer检查无状态工作负载的相关配置情况，并检查所有可能导致资源不足或过度使用的所有问题；

所述statefulsetAnalyzer检查有状态工作负载的相关配置情况，并检查所有可能导致资源不足或过度使用的所有问题；

所述serviceAnalyzer检查服务的参数配置情况，并检查所有可能导致服务不可用或性能下降的问题；

所述pvcAnalyzer检查pvc的配置信息，并检查所有可能导致数据丢失或其它存储相关的问题。

进一步的，所述问题分类模块对问题分析器模块收集的问题进行分类汇总，并根据不同的对象和不同的命名空间进行区分，问题归类后发送到存储模块进行存储，并触发AI模块进行后续的问题诊断处理。

进一步的，所述AI模块内置的预训练模型为一个自然语言处理模型，根据预训练的知识和模型能力，对收集的相关资源对象的事件进行回答；

如果预训练模型无法解答相关问题，调用AI提供者的相关接口来获取解决方案，并对返回的解决方案进行评估和验证。

进一步的，所述告警通知模块用于将事件信息以及解决方案通过邮件、短信或者企业微信订阅号等多种方式推送给运维人员，并提醒运维人员快速响应，运维人员处理告警后针对某个或者某些告警做恢复告警处理。

一种基于AI的问题诊断方法，具有如下步骤：

S1、问题分析器模块运行所用的分析器；

S2、上述分析器提取出来的事件错误信息发送到问题分类模块；

S3、云端的数据存储模块以时间序列把问题分析器模块上传的数据存储到时序数据库中，并触发AI模块的相应操作；

S4、AI模块循环获取数据存储模块的错误信息，通过自然语言处理提取错误信息中的关键词，使用提取的关键词通过内置的kubernetes问题的预训练模型获取解决方案，则通过外部的AI提供者的SDK去调用外部的AI提供的相关接口来获取解决方案；

S5、告警通知模块对AI模块处理后的错误信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给预先设置的相关人员。

进一步的，在步骤S1中，包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer、pvcAnalyzer；

所述nodeAnalyzer负责获取所有的node对象，然后针对每个node获取对象的事件，并将错误信息提取出来；

所述podAnalyzer负责获取所有的pod对象，然后针对每个pod获取对象的事件，并将错误信息提取出来；

所述deploymentAnalyzer负责获取所有的deployment对象，然后针对每个deployment获取对象的事件，并将错误信息提取出来；

所述statefulsetAnalyzer负责获取所有的statefulset对象，然后针对每个statefulset获取对象的事件，并将错误信息提取出来；

serviceAnalyzer负责获取所有的service对象，然后针对每个service获取该对象的事件，并将错误信息提取出来；

pvcAnalyzer负责获取所有的pvc对象，然后针对每个pvc获取该对象的事件，并将错误信息提取出来。

进一步的，在步骤S4中，所述AI模块循环获取数据存储模块的错误信息，通过自然语言处理提取错误信息中的关键词，使用提取的关键词通过内置的kubernetes问题的预训练模型获取解决方案，如果内置的预训练模型获取不到解决方案，则通过外部的AI提供者的SDK去调用外部的AI提供的相关接口来获取解决方案；

若明确是有效的解决方案，则直接把解决方案通过告警通知模块反馈到相关人员；

若未明确是有效的解决方案，则使用其它的外部AI提供者的相关接口，做进一步的检索分析。

进一步的，在步骤S5中，告警通知模块对AI模块处理后的错误信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给预先设置的相关人员，并提醒相关人员进行响应和处理，相关人员处理告警通知后针对某个或某些告警通知做恢复处理。

本发明的一种基于AI的问题诊断系统及方法和现有技术相比，具有以下突出的有益效果：

本发明基于AI解决边缘计算场景下kubernetes相关问题，可以帮助用户更好的使用和维护kubernetes，提高了边缘计算场景下kubernetes问题诊断的准确率，加快问题解决和学习的速度，提升了边缘计算场景下问题诊断的自动化水平，降低了边缘计算场景下kubernetes的运维成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1是一种基于AI的问题诊断系统的框架示意图；

附图2是一种基于AI的问题诊断方法的流程示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

下面给出一个最佳实施例：

如图1所示，本实施例中的一种基于AI的问题诊断系统，包括问题分析器模块、问题分类模块、数据存储模块、AI模块和告警通知模块；

其中，问题分析器模块作为守护进程部署在边缘侧kubernetes集群的各个边缘节点中，实时收集和分析集群中的问题；

问题分析器模块是一组内置的分析器，包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer、pvcAnalyzer，分别对集群中的节点、容器、工作负载、服务、持久化存储声明的事件信息进行收集和分析。

其中，nodeAnalyzer检查kubernetes集群中的节点信息，并检查与节点运行状况、cpu、内存和存储容量相关的所有问题；

podAnalyzer检查Pod所关联的相关配置，检查所有的可能导致Pod崩溃或资源不足等问题；

deploymentAnalyzer检查无状态工作负载的相关配置情况，并检查所有可能导致资源不足或过度使用的所有问题；

statefulsetAnalyzer检查有状态工作负载的相关配置情况，并检查所有可能导致资源不足或过度使用的所有问题；

serviceAnalyzer检查服务的参数配置情况，并检查所有可能导致服务不可用或性能下降的问题；

pvcAnalyzer检查pvc的配置信息，并检查所有可能导致数据丢失或其它存储相关的问题。

问题分类模块对问题分析器模块收集的问题进行分类汇总，并根据不同的对象和不同的命名空间进行区分，问题归类后发送到存储模块进行存储，并触发AI模块进行后续的问题诊断处理。

数据存储模块通常部署在云端，为时序数据库，用来存储问题分类模块采集的事件信息，提供了根据时间和存储空间自动分表和基于时序查询数据等功能，支持频繁查询和高频插入，较少的删除和修改操作。

AI模块部署在云端，内置kubernetes相关问题的预训练模型，此预训练模型是一个自然语言处理模型，根据预训练的知识和模型能力，对收集的相关资源对象的事件进行回答，此模型可以通过不断的学习来提高问题诊断的准确性。

如果此预训练模型无法解答相关问题，可以调用AI提供者的相关接口来获取解决方案，并对返回的解决方案进行评估和验证，从而加快问题解决的速度和提高问题诊断的准确性。

告警通知模块用于将事件信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给运维人员。并提醒运维人员快速响应，运维人员处理告警后可以针对某个或者某些告警做恢复告警处理。

基于上述系统，本实施例中的一种基于AI的问题诊断方法，具有如下步骤：

S1、问题分析器模块运行所用的分析器；

包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer、pvcAnalyzer。

nodeAnalyzer负责获取所有的node对象，然后针对每个node获取该对象的事件，并将错误信息提取出来；

podAnalyzer负责获取所有的pod对象，然后针对每个pod获取该对象的事件，并将错误信息提取出来；

deploymentAnalyzer负责获取所有的deployment对象，然后针对每个deployment获取该对象的事件，并将错误信息提取出来；

statefulsetAnalyzer负责获取所有的statefulset对象，然后针对每个statefulset获取改对象的事件，并将错误信息提取出来；

一方面，问题分类器模块根据对象类型、对象所属命名空间、错误类型三个维度进行分类。

另一方面，根据事件错误信息消除其中的噪音，并发现当前边缘计算环境中潜在的问题，经过上述操作得到的结果通过云边数据通道传输到云端数据存储模块。

S3、云端的数据存储模块以时间序列把问题分析器模块上传的数据存储到时序数据库中，并触发AI模块的相应操作。

S4、AI模块循环获取数据存储模块的错误信息，通过自然语言处理提取错误信息中的关键词，使用提取的关键词通过内置的kubernetes问题的预训练模型获取解决方案，则通过外部的AI提供者的SDK去调用外部的AI提供的相关接口来获取解决方案。

上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明权利要求书记载的技术方案且任何所属技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于AI的问题诊断系统，其特征在于，包括问题分析器模块、问题分类模块、数据存储模块、AI模块和告警通知模块；

所述问题分析器模块内置的分析器，包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer和pvcAnalyzer，分别对集群中的节点、容器、工作负载、服务、持久化存储声明的事件信息进行收集和分析；

所述nodeAnalyzer检查kubernetes集群中的节点信息，并检查与节点运行状况、cpu、内存和存储容量相关的所有问题；

所述pvcAnalyzer检查pvc的配置信息，并检查所有可能导致数据丢失或其它存储相关的问题；

所述问题分类模块对问题分析器模块收集的问题进行分类汇总，并根据不同的对象和不同的命名空间进行区分，问题归类后发送到存储模块进行存储，并触发AI模块进行后续的问题诊断处理；

AI模块内置的预训练模型为一个自然语言处理模型，根据预训练的知识和模型能力，对收集的相关资源对象的事件进行回答；

如果预训练模型无法解答相关问题，调用AI提供者的相关接口来获取解决方案，并对返回的解决方案进行评估和验证；

所述告警通知模块用于将事件信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给运维人员，并提醒运维人员快速响应，运维人员处理告警后针对某个或者某些告警做恢复告警处理。

2.一种基于AI的问题诊断方法，其特征在于，具有如下步骤：

S1、问题分析器模块运行所用的分析器；

包括nodeAnalyzer、podAnalyzer、deploymentAnalyzer、statefulsetAnalyzer、serviceAnalyzer、pvcAnalyzer；

pvcAnalyzer负责获取所有的pvc对象，然后针对每个pvc获取该对象的事件，并将错误信息提取出来；

S4、所述AI模块循环获取数据存储模块的错误信息，通过自然语言处理提取错误信息中的关键词，使用提取的关键词通过内置的kubernetes问题的预训练模型获取解决方案，如果内置的预训练模型获取不到解决方案，则通过外部的AI提供者的SDK去调用外部的AI提供的相关接口来获取解决方案；

若未明确是有效的解决方案，则使用其它的外部AI提供者的相关接口，做检索分析；

S5、告警通知模块对AI模块处理后的错误信息以及解决方案通过邮件、短信或者企业微信订阅号的方式推送给预先设置的相关人员，并提醒相关人员进行响应和处理，相关人员处理告警通知后针对某个或某些告警通知做恢复处理。