CN114257495A

CN114257495A - 一种云平台计算节点异常自动处置系统

Info

Publication number: CN114257495A
Application number: CN202111351240.2A
Authority: CN
Inventors: 李子乾; 唐振营; 王虎; 赵伟; 金中超; 宋灿; 杨睿; 杨自兴
Original assignee: State Grid Co ltd Customer Service Center
Current assignee: State Grid Co ltd Customer Service Center
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-03-29

Abstract

本发明属于运维领域，公开了一种云平台计算节点异常自动处置系统，包括采集模块：采集智能运维的数据；访问异常发现模块：判断是否存在日志溢出，如果存在日志溢出则为异常状态；异常原因分析模块：判断异常的原因；消息报送模块：将异常状态对应的计算节点数据及异常的原因报送至运维人员；处置模块：对异常情况进行自动处置或者人工处置；服务状态验证模块：判断处置模块处置后的计算节点是否可以重启；总结模块：记录异常的原因及对应的处置方式。本发明能够对计算节点出现异常的各种原因进行分析，并且根据分析的异常原因采取不同的解决方案，从而实现对部分异常原因的自动处置，减少运维人员的工作量，提高异常处理的效率。

Description

一种云平台计算节点异常自动处置系统

技术领域

本发明属于运维管理技术领域，尤其是一种云平台计算节点异常自动处置系统。

背景技术

国网的智能运维平台主要用于实现数据归集、全量监控、数据分析和智能调度等运维调度要求。在数据归集方面，目前已经归集95598核心业务系统和95598呼叫平台主机、中间件、数据库以及网络数据。网上国网内外网完成主机、数据库、微服务以及网络设备的数据归集。

云服务是基于互联网的相关服务的增加、使用和交互模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。

在云计算领域中为了提供高可用的虚拟化服务，需要尽可能地保持计算节点的服务状态。而当计算节点故障不能提供服务时，需要对问题的原因进行排查以便尽快恢复服务，目前计算节点不能正常服务时，需要由运维人员对问题的原因进行排查，由此可能出现排查较慢，不能及时对问题进行解决，另外还可能会增加运维人员的工作量。针对上述问题，目前并没有相应的解决方案。

发明内容

发明目的：提供一种云平台计算节点异常自动处置系统，以解决现有技术存在的上述问题。

技术方案：一种云平台计算节点异常自动处置系统，包括：

采集模块：通过ELK途径将计算节点数据采集到智能运维的数据归集平台，并通过数据归集平台将数据传递至访问异常发现模块；

访问异常发现模块：通过将计算节点数据对应的系统日志的大小和云平台的内存大小进行比对，判断是否存在日志溢出，如果存在日志溢出则为异常状态；

异常原因分析模块：通过CPU使用率、MEM使用率、文件系统使用率和网络连通性方面判断异常的原因，并将异常的原因和对应的计算节点数据发送至处置模块；

消息报送模块：将异常状态对应的计算节点数据及异常的原因报送至运维人员；

处置模块：根据异常原因分析模块分析的异常原因对异常情况进行自动处置或者人工处置，同时将该计算节点置为异常状态；

服务状态验证模块：根据网络、服务、宿主机状态信息判断处置模块处置后的计算节点是否可以重启；

总结模块：记录异常的原因及对应的处置方式。

进一步的：访问异常发现模块包括内存分析模块和异常比对模块，其中：

内存分析模块：用于分析计算节点数据对应的系统日志的大小；

异常比对模块：用于根据系统日志的大小和实际的云平台内存大小进行比对，判断是否存在内存溢出，如果存在内存溢出，则为异常状态。

通过该技术方案，能够实现通过分析计算节点数据对应的系统日志的大小实现对是否存在内存溢出的判断，从而发现计算节点异常问题。

进一步的：异常原因分析模块包括CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块和网络连通性分析模块，其中网络连通性分析模块用于分析云平台所在服务器的网络连通性，且

CPU使用率分析模块和MEM使用率分析模块连接，MEM使用率分析模块和文件系统使用率分析模块连接，文件系统使用率分析模块和网络连通性分析模块连接；

CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块和网络连通性分析模块均与处置模块连接。

通过该技术方案，能够依次实现对CPU使用率、MEM使用率、文件系统使用率的分析，且发现问题时可以直接将问题传递至处置模块，便于处置模块对相应的问题进行处置。

进一步的：CPU使用率分析模块用于分析云平台的CPU使用率，CPU使用率的阈值为80%，当CPU使用率超过80%时即为CPU异常。

进一步的：MEM使用率分析模块用于分析云平台的MEM使用率，MEM使用率的阈值为80%，当MEM使用率超过80%时即为MEM异常。

进一步的：文件系统使用率分析模块用于分析云平台的文件系统使用率，文件系统使用率的阈值为80%，当文件系统使用率超过80%时即为文件系统异常。

进一步的：处置模块包括自动处置模块，CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块均与自动处置模块连接，自动处置模块用于在CPU异常、MEM异常或者文件系统异常的情况下，按照从前到后的顺序删除数据，从而降低CPU、MEM或者文件系统的使用率。

通过该技术方案，处置模块能够对异常原因分析模块分析出的各种不同的异常原因进行处理，从而加快处理的进度，提升异常处理的效率。

进一步的：处置模块还包括人工处置模块，人工处置模块与网络连通性分析模块连接，用于在网络连通性异常的情况下切换网络或者重启网络。

进一步的：服务状态验证模块包括依次连接的CPU使用率验证模块、MEM使用率验证模块、文件系统使用率验证模块、网络连通性验证模块和判断模块；

当CPU使用率、MEM使用率和文件系统使用率均小于设定的阈值，且网络处于连通状态的情况下，则判断模块判断计算节点可以重启。

本发明公开了一种云平台计算节点异常自动处置系统，具有如下有益效果：

本发明能够对计算节点出现异常的各种原因进行分析，并且根据分析的异常原因采取不同的解决方案，从而实现对部分异常原因的自动处置，减少运维人员的工作量，提高异常处理的效率。

附图说明

图1是本发明的一种云平台计算节点异常自动处置系统的系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种云平台计算节点异常自动处置系统，包括采集模块、访问异常发现模块、异常原因分析模块、消息报送模块、处置模块、服务状态验证模块和总结模块，其中，采集模块与异常访问发现模块连接，异常访问发现模块与异常原因分析模块连接，异常访问发现模块和异常原因分析模块均与消息报送模块连接，异常原因分析模块与处置模块连接，处置模块与服务状态验证模块连接，服务状态验证模块与总结模块连接，各模块的主要功能如下。

采集模块：通过ELK途径将计算节点数据采集到智能运维的数据归集平台，并通过数据归集平台将数据传递至访问异常发现模块。

访问异常发现模块：通过将计算节点数据对应的系统日志的大小和云平台的内存大小进行比对，判断是否存在日志溢出，如果存在日志溢出则为异常状态；访问异常发现模块具体包括内存分析模块和异常比对模块，其中内存分析模块用于分析计算节点数据对应的系统日志的大小；异常比对模块：用于根据系统日志的大小和实际的云平台内存大小进行比对，判断是否存在内存溢出，如果存在内存溢出，则为异常状态，在具体比对判断中，如果计算节点对应的系统日志的内存大于云平台的内存，会存在内存溢出的情况，反之则没有内存溢出，存在内存溢出的情况下，即可以认为存在异常。

异常原因分析模块：通过CPU使用率、MEM使用率、文件系统使用率和网络连通性方面判断异常的原因，并将异常的原因和对应的计算节点数据发送至处置模块；其中，异常原因分析模块包括CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块和网络连通性分析模块，其中网络连通性分析模块用于分析云平台所在服务器的网络连通性，CPU使用率分析模块用于分析服务器的CPU使用率，MEM使用率分析模块用于分析服务器的MEM使用率，文件系统使用率分析模块用于分析文件系统的使用率；且CPU使用率分析模块和MEM使用率分析模块连接，MEM使用率分析模块和文件系统使用率分析模块连接，文件系统使用率分析模块和网络连通性分析模块连接，该设计可以实现当通过访问异常发现模块发现存在访问的异常时，异常原因分析模块采用按照CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块和网络连通性分析模块的顺序逐步判断是否存在异常，且CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块和网络连通性分析模块均与处置模块连接，当存在异常时，CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块或者网络连通性分析模块即可以将各自的异常的原因发送至处置模块，从而可以便于处置模块对不同的异常原因进行处置。

消息报送模块：将异常状态对应的计算节点数据及异常的原因报送至运维人员；消息报送模块将异常数据及异常原因报送至运维人员，从而可以便于运维人员及时了解计算节点的工作状态。

处置模块：根据异常原因分析模块分析的异常原因对异常情况进行自动处置或者人工处置，同时将该计算节点置为异常状态；处置模块具体包括自动处置模块和人工处置模块，其中CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块均与自动处置模块连接，当CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块分析出各自当前的使用率超过特定的阈值时，则自动处置模块启动，按照从前到后的顺序删除CPU、MEM或者文件系统的数据，从而降低CPU、MEM或者文件系统的使用率；人工处置模块与网络连通性分析模块连接，人工处置模块用于在网络连通性异常的情况下通过人工对网络进行切换，例如将网络更换至可用网络或者对网络进行重启等。通过对不同的异常原因采取自动处置或者人工处置从而可以提高对异常情况处置的效率，降低运维人员的工作量。

服务状态验证模块：根据网络、服务、宿主机状态信息判断处置模块处置后的计算节点是否可以重启；服务状态验证模块包括依次连接的CPU使用率验证模块、MEM使用率验证模块、文件系统使用率验证模块、网络连通性验证模块和判断模块，其中CPU使用率验证模块用于验证CPU的使用率，MEM使用率验证模块用于验证MEM使用率，文件系统使用率验证模块用于验证文件系统使用率，网络连通性验证模块用于验证网络的连通性，当CPU使用率、MEM使用率和文件系统使用率均小于设定的阈值，且网络处于连通状态的情况下，则判断模块判断计算节点可以重启，从而可以实现对计算节点的重启。

总结模块：记录异常的原因及对应的处置方式，通过总结归纳模块可以方便查看历史异常的异常原因及对应的处置方式，从而便于对异常数据进行多维度（现象、原因、处置方式等）归类，导出报表。

在上述实施例的基础上，CPU使用率分析模块用于分析云平台的CPU使用率，CPU使用率的阈值为80%，当CPU使用率超过80%时即为CPU异常。

在上述实施例的基础上，MEM使用率分析模块用于分析云平台的MEM使用率，MEM使用率的阈值为80%，当MEM使用率超过80%时即为MEM异常。

在上述实施例的基础上，文件系统使用率分析模块用于分析云平台的文件系统使用率情况，文件系统使用率的阈值为80%，当文件系统使用率超过80%时即表示文件系统异常。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

Claims

1.一种云平台计算节点异常自动处置系统，其特征在于，包括：

总结模块：记录异常的原因及对应的处置方式。

2.根据权利要求1所述的一种云平台计算节点异常自动处置系统，其特征在于：访问异常发现模块包括内存分析模块和异常比对模块，其中：

3.根据权利要求2所述的一种云平台计算节点异常自动处置系统，其特征在于：异常原因分析模块包括CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块和网络连通性分析模块，其中网络连通性分析模块用于分析云平台所在服务器的网络连通性，且

4.根据权利要求3所述的一种云平台计算节点异常自动处置系统，其特征在于：CPU使用率分析模块用于分析云平台的CPU使用率，CPU使用率的阈值为80%，当CPU使用率超过80%时即为CPU异常。

5.根据权利要求3所述的一种云平台计算节点异常自动处置系统，其特征在于：

MEM使用率分析模块用于分析云平台的MEM使用率，MEM使用率的阈值为80%，当MEM使用率超过80%时即为MEM异常。

6.根据权利要求3所述的一种云平台计算节点异常自动处置系统，其特征在于：

文件系统使用率分析模块用于分析云平台的文件系统使用率，文件系统使用率的阈值为80%，当文件系统使用率超过80%时即为文件系统异常。

7.根据权利要求3所述的一种云平台计算节点异常自动处置系统，其特征在于：处置模块包括自动处置模块，CPU使用率分析模块、MEM使用率分析模块、文件系统使用率分析模块均与自动处置模块连接，自动处置模块用于在CPU异常、MEM异常或者文件系统异常的情况下，按照从前到后的顺序删除数据，从而降低CPU、MEM或者文件系统的使用率。

8.根据权利要求7所述的一种云平台计算节点异常自动处置系统，其特征在于：处置模块还包括人工处置模块，人工处置模块与网络连通性分析模块连接，用于在网络连通性异常的情况下切换网络或者重启网络。

9.根据权利要求1所述的一种云平台计算节点异常自动处置系统，其特征在于：服务状态验证模块包括依次连接的CPU使用率验证模块、MEM使用率验证模块、文件系统使用率验证模块、网络连通性验证模块和判断模块；