CN114860384A

CN114860384A - 数据处理方法、装置和服务器

Info

Publication number: CN114860384A
Application number: CN202210513923.1A
Authority: CN
Inventors: 段春阳
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-08-05

Abstract

本说明书提供了数据处理方法、装置和服务器。具体实施前，可以预先在Ansible平台存储目录文件集和运维脚本集；具体实施时，在第一服务器接收到关于目标集群的自动巡检请求后，先根据自动巡检请求，从目录文件集中确定出与目标集群对应的目标目录文件；同时，从运维脚本集中确定出与目标集群对应的目标运维脚本；再根据目标目录文件，确定并根据目标集群中容器云组件的业务类型，将目标集群中的容器云组件划分成多个业务组；并自动确定出与业务组相匹配的目标巡检任务；再通过Ansible平台利用目标运维脚本和目标目录文件，自动对目标集群的多个业务组分别执行相匹配的目标巡检任务，以自动且高效地实现对平台集群的运维巡检。

Description

数据处理方法、装置和服务器

技术领域

本说明书属于云计算技术领域，尤其涉及数据处理方法、装置和服务器。

背景技术

在云计算技术领域，常常需要对云计算平台中的集群进行巡检维护。

基于现有方法，大多利用KubeEye(一种集群自动巡检工具)通过调用集群的API接口来完成对集群的巡检。上述方法具体实施时，往往需要对API接口进行大量调用，导致存在巡检效率较低，无法较好地兼容不同平台集群的技术问题。

针对上述技术问题，目前尚未提出有效的解决方案。

发明内容

本说明书提供了一种数据处理方法、装置和服务器，能够较好地兼容不同的容器云平台的集群，减少对API接口调用的依赖，自动且高效地完成目标集群的运维巡检，得到准确度较高的巡检结果。

本说明书提供了一种数据处理方法，所述方法应用于第一服务器，所述第一服务器部署于Ansible平台，所述Ansible平台存储有目录文件集和运维脚本集，所述方法包括：

接收关于目标集群的自动巡检请求；

根据所述自动巡检请求，从目录文件集中确定出与目标集群对应的目标目录文件，从运维脚本集中确定出与目标集群对应的目标运维脚本；

根据所述目标目录文件，确定出目标集群中的容器云组件的业务类型；

根据容器云组件的业务类型，将目标集群中的容器云组件划分成多个业务组；并确定出与多个业务组中的各个业务组相匹配的目标巡检任务；其中，同一个业务组中的容器云组件的业务类型相同；

通过Ansible平台利用所述目标运维脚本和所述目标目录文件，对所述目标集群的多个业务组分别执行相匹配的目标巡检任务，以得到关于目标集群的巡检结果。

在一个实施例中，目标集群包括部署于容器云平台的kubernetes集群。

在一个实施例中，所述目标目录文件包含有目标集群中的各个容器云组件的业务类型，以及各个容器云组件的IP地址。

在一个实施例中，根据容器云组件的业务类型，将目标集群中的容器云组件划分成多个业务组，包括：

根据目标目录文件，将业务类型相同的容器云组件的IP地址划分进相同的业务组，以得到多个业务组。

在一个实施例中，所述目标巡检任务包括以下至少之一：容器状态检测、告警信息检测、磁盘使用率检测、DNS健康检测、证书有效期检测、ETCD数据备份检测。

在一个实施例中，在接收关于目标集群的自动巡检请求之前，所述方法还包括：

接收第二服务器发送的目标目录文件；

根据所述目标目录文件生成相应的目标运维脚本。

在一个实施例中，在得到关于目标集群的巡检结果之后，所述方法还包括：

将所述巡检结果发送至第二服务器；其中，所述巡检结果包括以下至少之一：目标集群的资源使用情况、目标集群中是否存在故障，以及故障影响范围。

本说明书还提供了一种数据处理方法，所述方法应用于第二服务器，所述方法包括：

检测是否满足自动巡检条件；

在确定满足自动巡检条件的情况下，向第一服务器发送所生成的关于目标集群的自动巡检请求；其中，所述第一服务器部署于Ansible平台，所述Ansible平台至少存储有与目标集群对应的目标目录文件和目标运维脚本；所述第一服务器响应所述目标巡检请求，根据所述目标目录文件和目标运维脚本将目标集群中的容器云组件划分成多个业务组，并对多个业务组分别执行相匹配的目标巡检任务，以得到关于目标集群的巡检结果；

根据所述巡检结果，进行相应的数据处理。

在一个实施例中，检测是否满足自动巡检条件，包括：

检测KubeEye的API调用是否异常；

在确定KubeEye的API调用异常的情况下，确定满足自动巡检条件。

在一个实施例中，检测是否满足自动巡检条件，还包括：

检测距离上一次自动巡检的时间间隔是否达到预设的时间间隔；

在确定距离上一次自动巡检的时间间隔达到预设的时间间隔的情况下，确定满足自动巡检条件。

在一个实施例中，所述方法还包括：

采集目标集群中的各个容器云组件的特征参数和IP地址；

调用预设的分类模型通过处理各个容器云组件的特征参数，确定各个容器云组件的业务类型；

根据各个容器云的业务类型和IP地址，配置与目标集群对应的目标目录文件；并将所述目标目录文件发送至第一服务器。

在一个实施例中，根据所述巡检结果，进行相应的数据处理，包括：

根据所述巡检结果，在确定目标集群存在故障的情况下，根据故障影响范围，确定故障等级；

根据故障等级，对目标集群中的故障进行相应处理。

本说明书还提供了一种数据处理装置，应用于第一服务器，所述第一服务器部署于Ansible平台，所述Ansible平台存储有目录文件集和运维脚本集，所述装置包括：

接收模块，用于接收关于目标集群的自动巡检请求；

第一确定模块，用于根据目标集群的自动巡检请求，从目录文件集中确定出与目标集群对应的目标目录文件，从运维脚本集中确定出与目标集群对应的目标运维脚本；

第二确定模块，用于根据所述目标目录文件，确定出目标集群中的容器云组件的业务类型；

第三确定模块，用于根据容器云组件的业务类型，将目标集群中的容器云组件划分成多个业务组；并确定出与多个业务组中的各个业务组相匹配的目标巡检任务；其中，同一个业务组中的容器云组件的业务类型相同；

巡检模块，用于通过Ansible平台利用所述目标运维脚本和所述目标目录文件，对所述目标集群的多个业务组分别执行相匹配的目标巡检任务，以得到关于目标集群的巡检结果。

本说明书还提供了一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现所述数据处理方法的相关步骤。

本说明书还提供了一种计算机程序产品，包含有计算机程序，所述计算机程序被处理器执行时实现所述数据处理方法的相关步骤。

基于本说明书提供的数据处理方法、装置和服务器，具体实施前，可以预先在Ansible平台存储包含有目标目录文件的目录文件集和包含有目标运维脚本的运维脚本集；具体实施时，当Ansible平台侧的第一服务器接收到关于目标集群的自动巡检请求后，可以先根据自动巡检请求，从目录文件集中确定出与目标集群对应的目标目录文件；同时，从运维脚本集中确定出与目标集群对应的目标运维脚本；再根据目标目录文件，确定并利用目标集群中的容器云组件的业务类型，将目标集群中的容器云组件划分成多个业务组；进一步，确定出与多各个业务组相匹配的目标巡检任务；再通过Ansible平台利用目标运维脚本和目标目录文件，调用Ansible平台上的多个模块对目标集群的多个业务组分别执行相匹配的目标巡检任务。从而能够较好地兼容不同的容器云平台的集群，有效减少对API接口调用依赖，自动且高效地完成不同平台集群的运维巡检，得到准确度较高的巡检结果。

附图说明

为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书的一个实施例提供的数据处理方法的流程示意图；

图2是应用本说明书实施例提供的数据处理方法的系统的结构组成的一个实施例的示意图；

图3是本说明书的另一个实施例提供的数据处理方法的流程示意图；

图4是本说明书的一个实施例提供的服务器的结构组成示意图；

图5是本说明书的一个实施例提供的数据处理装置的结构组成示意图；

图6是本说明书的另一个实施例提供的数据处理装置的结构组成示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

参阅图1所示，本说明书实施例提供了一种数据处理方法，其中，该方法具体应用于第一服务器一侧，所述第一服务器部署于Ansible平台，所述Ansible平台存储有目录文件集和运维脚本集。该方法具体实施时，可以包括以下内容：

S101：接收关于目标集群的自动巡检请求；

S102：根据所述自动巡检请求，从目录文件集中确定出与目标集群对应的目标目录文件，从运维脚本集中确定出与目标集群对应的目标运维脚本；

S103：根据所述目标目录文件，确定出目标集群中的容器云组件的业务类型；

S104：根据容器云组件的业务类型，将目标集群中的容器云组件划分成多个业务组；并确定出与多个业务组中的各个业务组相匹配的目标巡检任务；其中，同一个业务组中的容器云组件的业务类型相同；

S105：通过Ansible平台利用所述目标运维脚本和所述目标目录文件，对所述目标集群的多个业务组分别执行相匹配的目标巡检任务，以得到关于目标集群的巡检结果。

在一些实施例中，参阅图2所示，上述数据处理方法具体可以应用与第一服务器一侧。其中，上述第一服务器具体可以部署于Ansible平台。

上述Ansible平台具体可以理解为一种基于Ansible框架，轻量化的运维管理平台。上述Ansible框架基于Python开发，集合了众多运维工具(例如，puppet、cfengine、chef、func、fabric等)优点，能够实现了批量系统配置、批量程序部署、批量运行命令等功能。

进一步，上述Ansible平台可以基于模块工作，Ansible平台本身没有批量部署的能力，真正具有批量部署能力的是Ansible平台上所运行的模块。

此外，上述Ansible平台可以基于SSH协议(Secure Shell，一种创建在应用层和传输层基础上的安全协议，为计算机的shell提供安全的传输和使用环境)来和远程主机进行通讯，不需要在远程主机上另外安装client或agents，能够有效地减少对API接口的调用依赖。

在一些实施例中，上述Ansible平台具体可以存储有预先准备好的目录文件集和运维脚本集。其中，上述目录文件集可以包含有与多个平台集群分别对应的目录文件。上述运维脚本集可以包含有与多个平台集群分别对应的运维脚本，或者上述运维脚本集还可以只包含有一个通用的运维脚本。关于目录文件和运维脚本，后续将另做具体说明。

在一些实施例中，上述自动巡检请求具体可以为第二服务器在检测到满足触发条件的情况下生成并发送的。此外，上述自动巡检请求还可以是第一服务器基于业务方的预先设置的配置数据定期生成的。

在一些实施例中，参阅图2所示，上述第二服务器具体可以理解为部署于有巡检需求的业务方一侧的服务器。例如，上述第二服务器可以为部署于有巡检需求的用户一侧的服务器。

在本实施例中，所述第一服务器、第二服务器具体可以包括一种能够实现数据传输、数据处理等功能的后台负责数据处理的服务器。具体的，所述第一服务器、第二服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者，所述第一服务器、第二服务器也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件程序。在本实施例中，并不具体限定所述第一服务器、第二服务器所包含的服务器的数量。所述第一服务器、第二服务器具体可以为一个服务器，也可以为几个服务器，或者，由若干服务器形成的服务器集群。

在一些实施例中，第二服务器在检测到满足自动巡检条件的情况下，生成并向第一服务器发送关于目标集群的自动巡检请求。

其中，所述自动巡检请求具体可以携带有所针对的目标集群的集群标识。

所述目标集群具体可以包括部署于容器云平台的kubernetes集群。

其中，上述容器云平台具体可以理解为使用容器化技术的云计算平台。在上述容器云平台中，可以将相关的业务功能以及该业务功能执行所依赖的运行环境打包成容器，以便后续调用和执行。

上述kubernetes集群具体可以理解为计算、存储和网络资源的集合，kubernetes可以利用这些资源运行各种基于容器的应用。在上述kubernetes集群中，负责工作的单位可以记为容器云组件(可以记为pod)。其中，每个容器云组件可以包含一个或者多个容器。具体运行时，容器云组件中的容器会作为一个整体被调度到一个运算节点上运行。

需要说明的是，随着微服务架构的应用和推广，容器化平台承载的容器变得越来越小，数量变得越来越多，并且有许多容器的生存时间往往较短。因此在对这类容器云平台的集群进行维护时，常常要求能够在较短的时间内及时了解这些容器之间的相互依赖、业务执行情况等信息。而基于现有方法往往很难实现上述要求。

还需要说明的是，上述所列举的目标集群只是一种示意性说明。具体实施时，根据具体的应用场景和处理需求，上述目标集群还可以包括其他平台的其他类型的集群。对此，本说明书不作限定。

在一些实施例中，具体实施时，第二服务器可以按照以下方式检测是否满足自动巡检条件：检测KubeEye的API调用是否异常；在确定KubeEye的API调用异常的情况下，确定满足自动巡检条件。

在本实施例中，第二服务器在确定API调用正常，或者当前API调用压力较小的情况下，可以利用KubeEye通过调用相应的API接口，完成自动巡检。相反，第二服务器在确定API调用异常，或者当前API调用压力较大的情况下，为了避免进一步增加API调用压力，触发通过Ansible平台来完成自动巡检，以针对性地减少对API调用。

在一些实施例中，具体实施时，第二服务器还可以按照以下方式检测是否满足自动巡检条件：检测距离上一次自动巡检的时间间隔是否达到预设的时间间隔；在确定距离上一次自动巡检的时间间隔达到预设的时间间隔的情况下，确定满足自动巡检条件。

其中，上述预设的间隔可以根据平台业务的周期性要求灵活设置。例如，上述预设的时间间隔可以为一天或一周等。

在本实施例中，第二服务器可以每间隔预设的时间间隔，触发通过Ansible平台来进行自动巡检，以与平台的业务周期相适配。

在一些实施例中，上述自动巡检请求具体可以携带有与目标集群相对应的集群标识。其中，上述集群标识具体可以为目标集群，以及该目标集群所在平台的名称、编号或者地址等信息的组合。

在一些实施例中，第一服务器在接收到自动巡检请求后，可以从自动巡检请求中提取出集群标识；进一步可以根据集群标识查询目录文件集找到与该集群标识相对应的目录文件作为与目标集群对应的目标目录文件；类似的，可以根据集群标识查询运维脚本集找到与该集群标识对应的运维脚本作为与目标集群对应的目标运维脚本。

在一些实施例中，所述目标目录文件包含有目标集群中的各个容器云组件的业务类型，以及各个容器云组件的IP地址。

其中，上述业务类型也可以理解为容器云组件在平台运行时的角色类型。具体的，上述业务类型可以包括以下所列举的一种或多种：决策、数据库、流量监管、工作等。当然，需要说明的是，上述所列举的业务类型只是一种示意性说明。具体实施时，根据具体的应用场景和处理需求，上述业务类型还可以包括其他的业务类型。对此，本说明书不作限定。

在一些实施例中，上述目标目录文件具体可以为第二服务器预先配置好并提供给第一服务器存储于Ansible平台的。上述目标脚本文件具体可以为第二服务器预先准备好并提供给第一服务器的脚本文件；也可以为第一服务器基于目标目录文件专门生成的脚本文件；还可以为一种通用的脚本文件。其中，上述目标脚本文件具体可以为shell脚本文件。

在一些实施例中，具体实施前，第二服务器可以按照以下方式预先配置好目标脚本文件：

S1：采集目标集群中的各个容器云组件的特征参数和IP地址；

S2：调用预设的分类模型通过处理各个容器云组件的特征参数，确定各个容器云组件的业务类型；

S3：根据各个容器云的业务类型和IP地址，配置与目标集群对应的目标目录文件。

在一些实施例中，上述特征参数具体可以包括容器云组件的运行状态参数、资源使用参数、运行结果参数等。上述IP地址与容器云组件一一对应。

上述预设的分类模型具体可以理解为预先训练好的，能够基于容器云组件的特征参数，预测出该容器云组件的业务类型的神经网络模型。

在一些实施例中，具体实施时，第二服务器可以将所采集到的容器云组件的特征参数作为模型输入，输入至预先训练好的预设的分类模型中，并运行该预设的分类模型处理上述特征参数，以输出对应的处理结果。进而可以根据处理结果，确定该容器云组件的业务类型。

在得到平台中各个容器云组件的业务类型之后，第二服务器可以组合所述容器云组件的业务类型，以及容器云组件的IP地址，得到对应的目标目录文件；并将该目标目录文件发送给第一服务器。

在具体的配置目标目录文件时，第二服务器还可以根据容器云组件的业务类型，结合具体的巡检需求，将平台中的多个容器云组件的IP地址划分到多个不同的业务组；其中，每个业务组包含有属于相同业务类型的一个或多个容器云组件的IP地址。进一步，可以将不同业务组所对应的业务类型，以及不同业务组所包含的容器云组件的IP地址也写入目标目录文件；再将该目标目录文件发送给第一服务器。基于上述目标目录文件，第一服务器可以不需要再另外进行分组操作，提高了巡检效率。

在一些实施例中，具体实施前，可以按照以下方式训练得到预设的业务分类模型：获取平台的历史日志记录；从平台的历史日志记录中，提取出各个容器云组件的特征参数，作为样本数据；根据该平台中容器云的业务类型对上述样本数据进行标注，得到标注后的样本数据；利用标注后的样本数据进行模型训练，以得到预设的分类模型。

在一些实施例中，上述根据容器云组件的业务类型，将目标集群中的容器云组件划分成多个业务组，具体实施时，可以包括：根据目标目录文件，将业务类型相同的容器云组件的IP地址划分进相同的业务组，以得到多个业务组。

其中，每一个业务组对应一种业务类型，每一个业务组包含有属于所对应的业务类型的一个或多个容器云组件的IP地址。

在一些实施例中，Ansible平台中还可以预先配置有多个预设的巡检任务，以及巡检任务与业务类型的匹配关系。其中，上述预设的巡检任务、巡检任务与业务类型的匹配关系可以是第一服务器预先对大量集群的巡检记录进行学习和归纳所得到的。此外，Ansible平台还可以通过第一服务器接收用户提供的自定义巡检任务，以及关于自定义巡检任务的匹配规则。相应的，第一服务器可以将上述自定义巡检任务作为一种预设的巡检任务存储于Ansible平台。

在一些实施例中，上述确定出与多个业务组中的各个业务组相匹配的目标巡检任务，具体实施时，可以包括：根据巡检任务与业务类型的匹配关系，从多个预设的巡检任务中找到与业务组所对应的业务类型相匹配的预设的巡检任务作为与该业务组相匹配的目标巡检任务。

在一些实施例中，上述自动巡检请求还可以携带有定制化的巡检要求；相应的，第一服务器在确定目标巡检任务时，可以根据巡检任务与业务类型的匹配关系，同时结合定制化的巡检要求，针对每一个业务组，找到一个或多个相匹配的预设的巡检任务进行组合，以得到与该业务组匹配的目标巡检任务。从而可以满足更加多样化的巡检需求。

在一些实施例中，上述目标巡检任务具体可以包括以下至少之一：容器状态检测、告警信息检测、磁盘使用率检测、DNS健康检测、证书有效期检测、ETCD数据备份检测等。

当然，需要说明的是，上述所列举的目标巡检任务只是一种示意性说明。具体实施时，根据具体情况和巡检需求，还可以包括其他类型的巡检任务，例如，日志导出检测、日志清理检测、信息筛选检测等。

在一些实施例中，具体实施前，第一服务器可以预先获取并在Ansible平台中存储针对目标集群的目标巡检脚本。

具体的，在接收关于目标集群的自动巡检请求之前，所述方法还可以包括以下内容：接收第二服务器发送的目标目录文件；根据所述目标目录文件生成相应的目标运维脚本。

具体实施时，第一服务器在接收到第二服务器发送的目标目录文件之后，可以先确定出该目录文件中所包含的容器云组件的业务类型，并确定出与各个容器云组件的业务类型相匹配的目标巡检任务；根据目标巡检任务，获取并组合与目标巡检任务相对应的模板脚本代码，以得到与该目标文件对应的目标运维脚本。进一步，可以将该目标运维脚本存入运维脚本集中，并在该运维脚本集中建立目标运维脚本与目标集群的集群标识之间的匹配关系。

在一些实施例中，第一服务器也可以只在Ansible平台中存储一个通用的运维脚本；并在Ansible平台上的各个模块上部署与预设的巡检任务相关的代码和调用接口。这样第一服务器不需要针对每个目录文件单独配置对应的运维脚本；在需要对某个目录文件所对应的集群进行巡检时，只需要根据该目录文件，确定该集群所包含的业务类型，就可以通过通用的运维脚本，根据业务类型确定并调用相应的模块对该集群中的不同业务组进行自动巡检运维。

在一些实施例中，上述目标运维脚本还可以是第二服务器根据目标目录文件生成，并连同该目标目录文件一同发送给第一服务器。相应的，第一服务器可以接收并将该目标运维脚本保存在Ansible平台的运维脚本集中。

在一些实施例中，上述通过Ansible平台利用所述目标运维脚本和所述目标目录文件，对所述目标集群的多个业务组分别执行相匹配的目标巡检任务，以得到关于目标集群的巡检结果，具体实施时，可以包括：第一服务器通过Ansible平台上基于目标目录文件以并行的方式执行目标运维脚本，以通过Ansible平台上的多个模块同时对目标集群中的多个业务组分别批量执行相匹配的目标巡检任务，以提高巡检效率，快速地得到关于该目标集群的巡检结果。

在一些实施例中，在得到关于目标集群的巡检结果之后，所述方法具体实施时，还可以包括以下内容：将所述巡检结果发送至第二服务器；其中，所述巡检结果包括以下至少之一：目标集群的资源使用情况、目标集群中是否存在故障，以及故障影响范围。

相应的，第一服务器可以根据巡检结果进行相应的数据处理。

具体的，例如，根据巡检结果，在确定目标集群中不存在故障时，第二服务器可以不作处理，继续维持当前平台上的目标集群的运行。根据巡检结果，在确定目标集群中存在故障时，可以根据巡检结果，、获取诸如故障影响范围、故障程度、故障类型等故障关联信息；再根据故障关联信息，确定出故障等级。检测故障等级是否大于预设的故障等级阈值，在确定故障等级小于等于预设的故障等级阈值的情况下，可以查询并利用本地预存的故障处理方案，自行对当前平台上的目标集群所存在的故障进行针对性的处理，以消除故障，维护平台上目标集群的运行安全。在确定故障等级大于预设的故障等级阈值的情况下，可以生成警报提示，并将该警报提示发送至负责运维的技术人员，以及时地请求进行人工故障处理，以便及时地消除第二服务器无法自行解决的故障，保证平台上的目标集群的运行安全。

由上可见，基于本说明书实施例提供的数据处理方法，具体实施前，可以预先在Ansible平台存储目录文件集和运维脚本集；具体实施时，当Ansible平台侧的第一服务器接收到来自第二服务器发起的关于目标集群的自动巡检请求后，先根据自动巡检请求，从目录文件集中确定出与目标集群对应的目标目录文件；同时，从运维脚本集中确定出与目标集群对应的目标运维脚本；再根据目标目录文件，确定并根据目标集群中的容器云组件的业务类型，将目标集群中的容器云组件划分成多个业务组；并确定出与多各个业务组相匹配的目标巡检任务；再通过Ansible平台利用目标运维脚本和目标目录文件，对目标集群的多个业务组分别执行相匹配的目标巡检任务。从而可以较好地兼容不同的容器云平台的集群，有效减少对API接口调用的压力，自动且高效地完成不同平台集群的运维巡检，得到准确度较高的巡检结果。

参阅图3所示，本说明书实施例还提供了一种数据处理方法。其中，该方法应用于第二服务器一侧，具体实施时，可以包括以下内容：

S301：检测是否满足自动巡检条件；

S302：在确定满足自动巡检条件的情况下，向第一服务器发送所生成的关于目标集群的自动巡检请求；其中，所述第一服务器部署于Ansible平台，所述Ansible平台至少存储有与目标集群对应的目标目录文件和目标运维脚本；所述第一服务器响应所述目标巡检请求，根据所述目标目录文件和目标运维脚本将目标集群中的容器云组件划分成多个业务组，并对多个业务组分别执行相匹配的目标巡检任务，以得到关于目标集群的巡检结果；

S303：根据所述巡检结果，进行相应的数据处理。

在一些实施例中，上述第一服务器具体可以为部署于有巡检需求的业务方一侧的服务器。

在一些实施例中，上述检测是否满足自动巡检条件，具体实施时，可以包括：检测KubeEye的API调用是否异常；在确定KubeEye的API调用异常的情况下，确定满足自动巡检条件。

在一些实施例中，检测是否满足自动巡检条件，具体实施时，还可以包括：检测距离上一次自动巡检的时间间隔是否达到预设的时间间隔；在确定距离上一次自动巡检的时间间隔达到预设的时间间隔的情况下，确定满足自动巡检条件。

在一些实施例中，所述方法具体实施时，还可以包括：采集目标集群中的各个容器云组件的特征参数和IP地址；调用预设的分类模型通过处理各个容器云组件的特征参数，确定各个容器云组件的业务类型；根据各个容器云的业务类型和IP地址，配置与目标集群对应的目标目录文件；并将所述目标目录文件发送至第一服务器。

其中，上述IP地址与容器云组件一一对应。

在一些实施例中，上述根据所述巡检结果，进行相应的数据处理，具体实施时，可以包括：根据所述巡检结果，在确定目标集群存在故障的情况下，根据故障影响范围，确定故障等级；根据故障等级，对目标集群中的故障进行相应处理。

由上可见，基于本说明书实施例提供的数据处理方法，可以较好地兼容不同的容器云平台的集群，有效减少对API接口调用的压力，自动且高效地完成不同平台集群的运维巡检，得到准确度较高的巡检结果。

本说明书实施例还提供一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：接收关于目标集群的自动巡检请求；根据所述自动巡检请求，从目录文件集中确定出与目标集群对应的目标目录文件，从运维脚本集中确定出与目标集群对应的目标运维脚本；根据所述目标目录文件，确定出目标集群中的容器云组件的业务类型；根据容器云组件的业务类型，将目标集群中的容器云组件划分成多个业务组；并确定出与多个业务组中的各个业务组相匹配的目标巡检任务；其中，同一个业务组中的容器云组件的业务类型相同；通过Ansible平台利用所述目标运维脚本和所述目标目录文件，对所述目标集群的多个业务组分别执行相匹配的目标巡检任务，以得到关于目标集群的巡检结果。

为了能够更加准确地完成上述指令，参阅图4所示，本说明书实施例还提供了另一种具体的服务器，其中，所述服务器包括网络通信端口401、处理器402以及存储器403，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。

其中，所述网络通信端口401，具体可以用于接收关于目标集群的自动巡检请求。

所述处理器402，具体可以用于根据所述自动巡检请求，从目录文件集中确定出与目标集群对应的目标目录文件，从运维脚本集中确定出与目标集群对应的目标运维脚本；根据所述目标目录文件，确定出目标集群中的容器云组件的业务类型；根据容器云组件的业务类型，将目标集群中的容器云组件划分成多个业务组；并确定出与多个业务组中的各个业务组相匹配的目标巡检任务；其中，同一个业务组中的容器云组件的业务类型相同；通过Ansible平台利用所述目标运维脚本和所述目标目录文件，对所述目标集群的多个业务组分别执行相匹配的目标巡检任务，以得到关于目标集群的巡检结果。

所述存储器403，具体可以用于存储相应的指令程序。

在本实施例中，所述网络通信端口401可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的端口，也可以是负责进行FTP数据通信的端口，还可以是负责进行邮件数据通信的端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

在本实施例中，所述处理器402可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中，所述存储器403可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

本说明书实施例还提供了另一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：检测是否满足自动巡检条件；在确定满足自动巡检条件的情况下，向第一服务器发送所生成的关于目标集群的自动巡检请求；其中，所述第一服务器部署于Ansible平台，所述Ansible平台至少存储有与目标集群对应的目标目录文件和目标运维脚本；所述第一服务器响应所述目标巡检请求，根据所述目标目录文件和目标运维脚本将目标集群中的容器云组件划分成多个业务组，并对多个业务组分别执行相匹配的目标巡检任务，以得到关于目标集群的巡检结果；根据所述巡检结果，进行相应的数据处理。

本说明书实施例还提供了一种基于上述数据处理方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：接收关于目标集群的自动巡检请求；根据所述自动巡检请求，从目录文件集中确定出与目标集群对应的目标目录文件，从运维脚本集中确定出与目标集群对应的目标运维脚本；根据所述目标目录文件，确定出目标集群中的容器云组件的业务类型；根据容器云组件的业务类型，将目标集群中的容器云组件划分成多个业务组；并确定出与多个业务组中的各个业务组相匹配的目标巡检任务；其中，同一个业务组中的容器云组件的业务类型相同；通过Ansible平台利用所述目标运维脚本和所述目标目录文件，对所述目标集群的多个业务组分别执行相匹配的目标巡检任务，以得到关于目标集群的巡检结果。

在本实施例中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施例中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

本说明书实施例还提供了一种计算机程序产品，包含有计算机程序，所述计算机程序被处理器执行时实现以下步骤：接收关于目标集群的自动巡检请求；根据所述自动巡检请求，从目录文件集中确定出与目标集群对应的目标目录文件，从运维脚本集中确定出与目标集群对应的目标运维脚本；根据所述目标目录文件，确定出目标集群中的容器云组件的业务类型；根据容器云组件的业务类型，将目标集群中的容器云组件划分成多个业务组；并确定出与多个业务组中的各个业务组相匹配的目标巡检任务；其中，同一个业务组中的容器云组件的业务类型相同；通过Ansible平台利用所述目标运维脚本和所述目标目录文件，对所述目标集群的多个业务组分别执行相匹配的目标巡检任务，以得到关于目标集群的巡检结果。

本说明书实施例还提供了另一种计算机程序产品，包含有计算机程序，所述计算机程序被处理器执行时实现以下步骤：检测是否满足自动巡检条件；在确定满足自动巡检条件的情况下，向第一服务器发送所生成的关于目标集群的自动巡检请求；其中，所述第一服务器部署于Ansible平台，所述Ansible平台至少存储有与目标集群对应的目标目录文件和目标运维脚本；所述第一服务器响应所述目标巡检请求，根据所述目标目录文件和目标运维脚本将目标集群中的容器云组件划分成多个业务组，并对多个业务组分别执行相匹配的目标巡检任务，以得到关于目标集群的巡检结果；根据所述巡检结果，进行相应的数据处理。

参阅图5所示，在软件层面上，本说明书实施例还提供了一种数据处理装置，该装置应用于第一服务器，所述第一服务器部署于Ansible平台，所述Ansible平台存储有目录文件集和运维脚本集，所述装置具体可以包括以下结构模块：

接收模块501，具体可以用于接收关于目标集群的自动巡检请求；

第一确定模块502，具体可以用于根据目标集群的自动巡检请求，从目录文件集中确定出与目标集群对应的目标目录文件，从运维脚本集中确定出与目标集群对应的目标运维脚本；

第二确定模块503，具体可以用于根据所述目标目录文件，确定出目标集群中的容器云组件的业务类型；

第三确定模块504，具体可以用于根据容器云组件的业务类型，将目标集群中的容器云组件划分成多个业务组；并确定出与多个业务组中的各个业务组相匹配的目标巡检任务；其中，同一个业务组中的容器云组件的业务类型相同；

巡检模块505，具体可以用于通过Ansible平台利用所述目标运维脚本和所述目标目录文件，对所述目标集群的多个业务组分别执行相匹配的目标巡检任务，以得到关于目标集群的巡检结果。

在一些实施例中，目标集群具体可以包括部署于容器云平台的kubernetes集群。

在一些实施例中，所述目标目录文件具体可以包含有目标集群中各个容器云组件的业务类型，以及各个容器云组件的IP地址。

在一些实施例中，上述第三确定模块504具体实施时，可以按照以下方式根据容器云组件的业务类型，将目标集群中的容器云组件划分成多个业务组：根据目标目录文件，将业务类型相同的容器云组件的IP地址划分进相同的业务组，以得到多个业务组。

在一些实施例中，所述目标巡检任务具体可以包括以下至少之一：容器状态检测、告警信息检测、磁盘使用率检测、DNS健康检测、证书有效期检测、ETCD数据备份检测等。

在一些实施例中，在接收关于目标集群的自动巡检请求之前，所述装置具体实施时，还可以用于接收第二服务器发送的目标目录文件；根据所述目标目录文件生成相应的目标运维脚本。

在一些实施例中，在得到关于目标集群的巡检结果之后，所述装置具体还可以用于将所述巡检结果发送至第二服务器；其中，所述巡检结果包括以下至少之一：目标集群的资源使用情况、目标集群中是否存在故障，以及故障影响范围。

参阅图6所示，本说明书实施例还提供了另一种数据处理装置，应用于第二服务器，具体可以包括以下结构模块：

检测模块601，具体可以用于检测是否满足自动巡检条件；

发送模块602，具体可以用于在确定满足自动巡检条件的情况下，向第一服务器发送所生成的关于目标集群的自动巡检请求；其中，所述第一服务器部署于Ansible平台，所述Ansible平台至少存储有与目标集群对应的目标目录文件和目标运维脚本；所述第一服务器响应所述目标巡检请求，根据所述目标目录文件和目标运维脚本将目标集群中的容器云组件划分成多个业务组，并对多个业务组分别执行相匹配的目标巡检任务，以得到关于目标集群的巡检结果；

处理模块603，具体可以用于根据所述巡检结果，进行相应的数据处理。

在一些实施例中，上述检测模块601具体可以按照以下方式检测是否满足自动巡检条件：检测KubeEye的API调用是否异常；在确定KubeEye的API调用异常的情况下，确定满足自动巡检条件。

在一些实施例中，上述检测模块601具体还可以按照以下方式检测是否满足自动巡检条件：检测距离上一次自动巡检的时间间隔是否达到预设的时间间隔；在确定距离上一次自动巡检的时间间隔达到预设的时间间隔的情况下，确定满足自动巡检条件。

在一些实施例中，所述装置具体实施时，还可以用于采集目标集群中的各个容器云组件的特征参数和IP地址；调用预设的分类模型通过处理各个容器云组件的特征参数，确定各个容器云组件的业务类型；根据各个容器云的业务类型和IP地址，配置与目标集群对应的目标目录文件；并将所述目标目录文件发送至第一服务器。

在一些实施例中，所述处理模块603具体实施时，可以按照以下方式根据所述巡检结果，进行相应的数据处理：根据所述巡检结果，在确定目标集群存在故障的情况下，根据故障影响范围，确定故障等级；根据故障等级，对目标集群中的故障进行相应处理。

需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

由上可见，基于本说明书实施例提供的数据处理装置，能够较好地兼容不同的容器云平台的集群，有效减少对API接口调用的压力，自动且高效地完成不同平台集群的运维巡检，得到准确度较高的巡检结果。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种数据处理方法，其特征在于，所述方法应用于第一服务器，所述第一服务器部署于Ansible平台，所述Ansible平台存储有目录文件集和运维脚本集，所述方法包括：

接收关于目标集群的自动巡检请求；

2.根据权利要求1所述的方法，其特征在于，目标集群包括部署于容器云平台的kubernetes集群。

3.根据权利要求2所述的方法，其特征在于，所述目标目录文件包含有目标集群中的各个容器云组件的业务类型，以及各个容器云组件的IP地址。

4.根据权利要求3所述的方法，其特征在于，根据容器云组件的业务类型，将目标集群中的容器云组件划分成多个业务组，包括：

5.根据权利要求1所述的方法，其特征在于，所述目标巡检任务包括以下至少之一：容器状态检测、告警信息检测、磁盘使用率检测、DNS健康检测、证书有效期检测、ETCD数据备份检测。

6.根据权利要求1所述的方法，其特征在于，在接收关于目标集群的自动巡检请求之前，所述方法还包括：

接收第二服务器发送的目标目录文件；

根据所述目标目录文件生成相应的目标运维脚本。

7.根据权利要求1所述的方法，其特征在于，在得到关于目标集群的巡检结果之后，所述方法还包括：

8.一种数据处理方法，其特征在于，所述方法应用于第二服务器，所述方法包括：

检测是否满足自动巡检条件；

在确定满足自动巡检条件的情况下，向第一服务器发送所生成的关于目标集群的自动巡检请求；其中，所述第一服务器部署于Ansible平台，所述Ansible平台至少存储有与目标集群对应的目标目录文件和目标运维脚本；所述第一服务器响应目标巡检请求，根据所述目标目录文件和目标运维脚本将目标集群中的容器云组件划分成多个业务组，并对多个业务组分别执行相匹配的目标巡检任务，以得到关于目标集群的巡检结果；

根据所述巡检结果，进行相应的数据处理。

9.根据权利要求8所述的方法，其特征在于，检测是否满足自动巡检条件，包括：

检测KubeEye的API调用是否异常；

10.根据权利要求9所述的方法，其特征在于，检测是否满足自动巡检条件，还包括：

11.根据权利要求8所述的方法，其特征在于，所述方法还包括：

采集目标集群中的各个容器云组件的特征参数和IP地址；

12.根据权利要求11所述的方法，其特征在于，根据所述巡检结果，进行相应的数据处理，包括：

根据故障等级，对目标集群中的故障进行相应处理。

13.一种数据处理装置，其特征在于，应用于第一服务器，所述第一服务器部署于Ansible平台，所述Ansible平台存储有目录文件集和运维脚本集，所述装置包括：

接收模块，用于接收关于目标集群的自动巡检请求；

14.一种服务器，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至7，或8至12中任一项所述方法的步骤。

15.一种计算机程序产品，其特征在于，包含有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7，或8至12中任一项所述方法的步骤。