CN112069154B

CN112069154B - etcd分布式数据库自动运维方法及相关装置

Info

Publication number: CN112069154B
Application number: CN202010984851.XA
Authority: CN
Inventors: 鲁满; 李彤; 白佳乐; 沈一帆
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2023-08-29
Anticipated expiration: 2040-09-18
Also published as: CN112069154A

Abstract

本申请实施例提供一种etcd分布式数据库自动运维方法及相关装置，可用于人工智能技术领域，方法包括：基于流水线编排方式获取与目标etcd分布式数据库运维模式对应的至少一个目标任务装置，其中，所述目标etcd分布式数据库运维模式包括：故障节点迁移模式和/或横向扩容模式；将所述目标etcd分布式数据库运维模式对应的运维信息发送至所述目标任务装置，以使所述目标任务装置根据所述运维信息对etcd分布式数据库执行对应的运维处理。本申请能够可靠且准确地实现故障节点迁移以及横向扩容的区别化运维过程，且能够有效提高运维过程的效率、自动化程度及智能化程度，进而能够有效提高etcd分布式数据库的运行可靠性及稳定性。

Description

etcd分布式数据库自动运维方法及相关装置

技术领域

本申请涉及数据处理技术领域，特别涉及人工智能技术领域，具体涉及etcd分布式数据库自动运维方法及相关装置。

背景技术

随着Kubernetes开源社区的发展，etcd分布式数据库作为一款轻量级的、强一致性的分布式Key/Value键值对存储系统，具有安全稳定、支持快速写入、数据强一致性等优点，正广泛应用于Kubernetes集群对象存储、容器配置注册与服务发现等。由于etcd数据库作为云上核心节点，对低延迟、高吞吐也有较高要求，所以架构设计上会考虑将其部署在传统服务器上，节点数量一般3台到7台不等组成etcd集群。

随着容器技术成熟发展，云上容器数呈快速增长的趋势，向etcd存储系统读写数据的频率也随之增高，生产运维面临着较大的压力。目前基于传统服务器上etcd节点故障处理、节点横向扩容等运维场景主要依靠人工运维方式，存在着运维整体耗时较久、手工操作存在极高风险、对运维人员素质有较高要求等缺点；还有的etcd系统运维方式采用目标节点发生故障时删除目标键值，并生成故障信号的手段，以便于重新选举目标节点，然而，该种方式虽然在识别故障节点时相较于传统方式更为便捷，但对于故障节点的处理仍需要人工操作处理且并不适用于节点横向扩容等其他场景，也就是说，现有的etcd系统运维方式存在自动化程度低且无法根据运维场景自动进行区别化处理的问题，无法满足对突发状况下快速恢复集群、保障云上容器稳定对外服务的要求。

发明内容

针对现有技术中的问题，本申请提供一种etcd分布式数据库自动运维方法及相关装置，能够可靠且准确地实现故障节点迁移以及横向扩容的区别化运维过程，且能够有效提高运维过程的效率、自动化程度及智能化程度，进而能够有效提高etcd分布式数据库的运行可靠性及稳定性。

为解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种etcd分布式数据库自动运维方法，包括：

基于流水线编排方式获取与目标etcd分布式数据库运维模式对应的至少一个目标任务装置，其中，所述目标etcd分布式数据库运维模式包括：故障节点迁移模式和/或横向扩容模式；

将所述目标etcd分布式数据库运维模式对应的运维信息发送至所述目标任务装置，以使所述目标任务装置根据所述运维信息对etcd分布式数据库执行对应的运维处理。

进一步地，所述基于流水线编排方式获取与目标etcd分布式数据库运维模式对应的至少一个目标任务装置，包括：

获取目标模式标识和etcd分布式数据库运维模式对应的运维信息；

若所述目标模式标识为故障节点迁移模式标识，且所述运维信息包括故障节点地址及登陆信息，则根据故障节点迁移模式标识确定所述目标etcd分布式数据库运维模式为故障节点迁移模式；

根据所述故障节点迁移模式标识、故障节点地址及登陆信息，建立与所述故障节点迁移模式对应的故障迁移装置以作为当前的目标任务装置，并与该目标任务装置建立连接。

若所述目标模式标识为横向扩容模式标识，且所述运维信息包括横向扩容节点数量，则根据所述横向扩容模式标识确定所述目标etcd分布式数据库运维模式为横向扩容模式；

根据所述横向扩容模式标识及横向扩容节点数量，建立与所述横向扩容模式对应的横向扩容装置以作为当前的目标任务装置，并与该目标任务装置建立连接。

进一步地，所述故障迁移装置用于根据接收的所述运维信息获取对应的安装介质和配置文件，基于该安装介质和配置文件为当前的目标服务器搭建etcd服务以形成目标节点，并应用所述目标节点替换所述etcd分布式数据库中的故障节点。

进一步地，所述横向扩容装置用于根据接收的所述运维信息获取对应的安装介质和配置文件，基于该安装介质和配置文件为当前的目标服务器搭建etcd服务以形成目标节点，并在所述etcd分布式数据库中添加与所述横向扩容节点数量对应的所述目标节点。

进一步地，在所述目标任务装置根据所述运维信息对etcd分布式数据库执行对应的运维处理之后，还包括：

对所述etcd分布式数据库进行集群服务健康状态验证和数据一致性验证，并在所述etcd分布式数据库通过所述集群服务健康状态验证和数据一致性验证后，输出对应的运维任务状态信息，其中，所述运维任务状态信息包含有故障迁移结果信息和/或横向扩容结果信息。

进一步地，还包括：

基于流水线编排方式获取用于进行数据备份及应急恢复处理的应急恢复装置，其中，该应急恢复装置用于周期性存储所述etcd分布式数据库的备份数据；

相对应的，若所述etcd分布式数据库未完全通过所述集群服务健康状态验证和数据一致性验证，则向所述应急恢复装置发送应急恢复指令，以使该应急恢复装置根据接收的应急恢复指令对所述etcd分布式数据库进行应急恢复。

进一步地，还包括：

所述应急恢复装置还用于在周期性获取的etcd分布式数据库备份数据中选取一个节点作为当前的主节点并创建单节点的etcd集群，将其他节点加入到该etcd集群中并完成各个节点之间的数据同步；对所述etcd集群进行集群健康状况及数据一致性验证，并在验证成功后输出对应的应急恢复信息。

进一步地，在所述基于流水线编排方式获取与目标etcd分布式数据库运维模式对应的至少一个目标任务装置之前，还包括：

自前台交互装置接收数据库运维指令，其中，该数据库运维指令中包含有所述目标模式标识和etcd分布式数据库运维模式对应的运维信息。

第二方面，本申请提供一种总体调度装置，包括：

流水线编排模块，用于基于流水线编排方式获取与目标etcd分布式数据库运维模式对应的至少一个目标任务装置，其中，所述目标etcd分布式数据库运维模式包括：故障节点迁移模式和/或横向扩容模式；

自动运维模块，用于将所述目标etcd分布式数据库运维模式对应的运维信息发送至所述目标任务装置，以使所述目标任务装置根据所述运维信息对etcd分布式数据库执行对应的运维处理。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的etcd分布式数据库自动运维方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的etcd分布式数据库自动运维方法。

第五方面，本申请提供一种故障迁移装置，应用所述的总体调度装置根据故障节点迁移模式标识、故障节点地址及登陆信息构建而得，所述故障迁移装置包括：

故障信息接收模块，用于接收所述总体调度装置发送的运维信息；

故障迁移模块，用于根据接收的所述运维信息获取对应的安装介质和配置文件，基于该安装介质和配置文件为当前的目标服务器搭建etcd服务以形成目标节点，并应用所述目标节点替换所述etcd分布式数据库中的故障节点。

进一步地，所述故障迁移装置还包括：

故障恢复验证模块，用于在应用所述目标节点替换所述etcd分布式数据库中的故障节点之后，对所述etcd分布式数据库进行集群服务健康状态验证和数据一致性验证，并在所述etcd分布式数据库通过所述集群服务健康状态验证和数据一致性验证后，输出对应的运维任务状态信息，其中，所述运维任务状态信息包含有故障迁移结果信息。

第六方面，本申请提供一种横向扩容装置，应用所述的总体调度装置根据横向扩容模式标识及横向扩容节点数量构建而得，所述横向扩容装置包括：

扩容信息接收模块，用于接收所述总体调度装置发送的运维信息；

横向扩容装置模块，用于根据接收的所述运维信息获取对应的安装介质和配置文件，基于该安装介质和配置文件为当前的目标服务器搭建etcd服务以形成目标节点，并在所述etcd分布式数据库中添加与所述横向扩容节点数量对应的所述目标节点。

进一步地，所述横向扩容装置还包括：

横向扩容验证模块，用于在应用所述目标节点替换所述etcd分布式数据库中的故障节点之后，对所述etcd分布式数据库进行集群服务健康状态验证和数据一致性验证，并在所述etcd分布式数据库通过所述集群服务健康状态验证和数据一致性验证后，输出对应的运维任务状态信息，其中，所述运维任务状态信息包含有横向扩容结果信息。

第七方面，本申请提供一种应急恢复装置，应用所述的总体调度装置基于流水线编排方式构建而得，所述应急恢复装置包括：

定期备份模块，用于周期性存储所述etcd分布式数据库的备份数据；

恢复指令接收模块，用于接收所述总体调度装置发送的应急恢复指令；

强制恢复模块，用于在周期性获取的etcd分布式数据库备份数据中选取一个节点作为当前的主节点并创建单节点的etcd集群，将其他节点加入到该etcd集群中并完成各个节点之间的数据同步；对所述etcd集群进行集群健康状况及数据一致性验证，并在验证成功后输出对应的应急恢复信息。

第八方面，本申请提供一种前台交互装置，包括：

指令生成模块，用于接收用户录入的目标模式标识和etcd分布式数据库运维模式对应的运维信息，并生成对应的数据库运维指令；

指令发送模块，用于向所述的总体调度装置发送所述数据库运维指令。

第九方面，本申请提供一种etcd分布式数据库自动运维系统，包括：

所述的总体调度装置；

所述的故障迁移装置；

所述的横向扩容装置；

所述的应急恢复装置；

以及，所述的前台交互装置；

其中，所述总体调度装置分别与所述故障迁移装置、横向扩容装置、应急恢复装置和前台交互装置通信连接。

由上述技术方案可知，本申请提供的一种etcd分布式数据库自动运维方法及相关装置，方法包括：基于流水线编排方式获取与目标etcd分布式数据库运维模式对应的至少一个目标任务装置，其中，所述目标etcd分布式数据库运维模式包括：故障节点迁移模式和/或横向扩容模式；将所述目标etcd分布式数据库运维模式对应的运维信息发送至所述目标任务装置，以使所述目标任务装置根据所述运维信息对etcd分布式数据库执行对应的运维处理，通过设置故障节点迁移模式及横向扩容模式，能够使得本申请提供的etcd分布式数据库自动运维方法能够处理故障节点迁移以及横向扩容的运维场景；通过基于流水线编排方式在预设的多个自动化任务模块中选择至少一个作为当前的目标任务模块，解决了现有的运维方式无法根据运维场景自动进行区别化处理的问题；通过将所述目标etcd分布式数据库运维模式对应的运维信息发送至对应的目标任务模块，以使所述目标任务模块根据所述运维信息对etcd分布式数据库执行对应的运维处理，能够有效提高etcd系统运维过程的自动化程度和智能化程度，进而能够解决在etcd单节点发生故障、集群性能压力偏高等突发场景下，人工运维手段效率低下且风险较高的问题，进而能够有效提高etcd分布式数据库的运行可靠性及稳定性，满足集群对应急恢复的需要，提升生产运维水平。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中的etcd分布式数据库自动运维方法的第一种流程示意图。

图2是本申请实施例中的etcd分布式数据库自动运维方法中步骤100的第一种流程示意图。

图3是本申请实施例中的etcd分布式数据库自动运维方法中步骤100的第二种流程示意图。

图4是本申请实施例中的etcd分布式数据库自动运维方法的第二种流程示意图。

图5是本申请实施例中的etcd分布式数据库自动运维方法的第三种流程示意图。

图6是本申请实施例中的etcd分布式数据库自动运维方法的第四种流程示意图。

图7是本申请实施例提供的总体调度装置的结构示意图。

图8是本申请实施例提供的故障迁移装置的结构示意图。

图9是本申请实施例提供的横向扩容装置的结构示意图。

图10是本申请实施例提供的应急恢复装置的结构示意图。

图11是本申请实施例提供的前台交互装置的结构示意图。

图12是本申请实施例中的电子设备的结构示意图。

图13是本申请应用实例提供的etcd分布式数据库自动运维系统的结构示意图。

图14是本申请应用实例提供的前台交互装置1内部结构示意图。

图15是本申请应用实例提供的总体调度装置2内部结构示意图。

图16是本申请应用实例提供的故障迁移装置3内部结构示意图。

图17是本申请应用实例提供的横向扩容装置4的内部组成图。

图18是本申请应用实例提供的应急恢复装置5的内部组成图。

图19是本申请应用实例提供的etcd自动化运维完整实现流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请公开的etcd分布式数据库自动运维方法和相关装置可用于人工智能技术领域，也可用于除人工智能技术领域之外的任意领域，本申请公开的etcd分布式数据库自动运维方法和装置的应用领域不做限定。

考虑到现有的etcd系统运维方式存在自动化程度低且无法根据运维场景自动进行区别化处理的问题，无法满足对突发状况下快速恢复集群、保障云上容器稳定对外服务的要求，需要提供一种自动化、安全可靠的运维方案，为解决在etcd单节点发生故障、集群性能压力偏高等突发场景下，人工运维手段效率低下且风险较高的问题，满足集群对重要数据定期备份及应急恢复的需要，提升生产运维水平，本申请提供一种基于传统服务器的etcd分布式数据库自动运维方法。在故障迁移场景下，支持编排流水线自动搭建etcd节点，并替换故障节点，验证集群健康状态及数据一致性，保障整个迁移替换过程快速可靠，同时提供应急恢复机制，在迁移过程如遇到数据损坏或者集群整体故障等场景，支持按照最新备份数据进行数据恢复，减少对外服务影响。在集群访问压力偏高进行横向扩容场景下，支持编排流水线新加入若干台etcd节点到集群中，同时提供集群健康状态及数据一致性验证机制，发现异常情况及时恢复，保障整个横向扩容期间对应用保持透明。

基于上述内容，本申请还提供一种用于实现本申请一个或多个实施例中提供的etcd分布式数据库自动运维方法的总体调度装置，该总体调度装置可以应用服务器实现，且该服务器可以与至少一个客户端设备之间通信连接，可以理解的是，所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。

在一种实际应用情形中，前述的总体调度装置进行etcd分布式数据库自动运维的部分可以在如上述内容的服务器中执行，也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器，用于进行etcd分布式数据库自动运维的具体处理。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。例如，通信单元可以将etcd分布式数据库运维模式和etcd分布式数据库运维模式对应的运维信息发送至服务器。通信单元还可以接收服务器返回的运维处理结果。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

上述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

本申请提供的etcd分布式数据库自动运维方法、总体调度装置、电子设备和计算机可读存储介质，通过设置故障节点迁移模式及横向扩容模式，能够使得本申请提供的etcd分布式数据库自动运维方法能够处理故障节点迁移以及横向扩容的运维场景；通过基于流水线编排方式获取与目标etcd分布式数据库运维模式对应的至少一个目标任务装置，解决了现有的运维方式无法根据运维场景自动进行区别化处理的问题；通过将所述目标etcd分布式数据库运维模式对应的运维信息发送至所述目标任务装置，以使所述目标任务装置根据所述运维信息对etcd分布式数据库执行对应的运维处理，能够有效提高etcd系统运维过程的自动化程度和智能化程度，进而能够解决在etcd单节点发生故障、集群性能压力偏高等突发场景下，人工运维手段效率低下且风险较高的问题，进而能够有效提高etcd分布式数据库的运行可靠性及稳定性，满足集群对应急恢复的需要，提升生产运维水平。

具体通过下述各个实施例及应用实例分别进行详细说明。

为了解决现有的etcd系统运维方式存在自动化程度低且无法根据运维场景自动进行区别化处理的问题，本申请提供一种执行主体为总体调度装置的etcd分布式数据库自动运维方法的实施例，参见图1，所述etcd分布式数据库自动运维方法具体包含有如下内容：

步骤100：基于流水线编排方式获取与目标etcd分布式数据库运维模式对应的至少一个目标任务装置，其中，所述目标etcd分布式数据库运维模式包括：故障节点迁移模式和/或横向扩容模式。

在步骤100中，共存在三种情形，其一为：基于故障节点迁移模式获取与目标etcd分布式数据库运维模式对应的用于执行故障节点迁移任务的目标任务装置，其二为：基于横向扩容模式获取与目标etcd分布式数据库运维模式对应的用于执行横向扩容任务的目标任务装置，其三为，若故障节点迁移模式包括故障节点迁移模式和横向扩容模式，也就是同时接收到针对etcd分布式数据库的故障节点迁移和横向扩容指令时，所述总体调度装置分别获取与目标etcd分布式数据库运维模式对应的用于执行故障节点迁移任务的目标任务装置，以及，与目标etcd分布式数据库运维模式对应的用于执行横向扩容任务的目标任务装置。

可以理解的是，所述流水线编排方式是指在由多类任务组合编排而形成的流水线，一个流水线可以是完全自动化执行，也可以中间加入了人工干预节点，在人工干预处理后再继续朝下执行。比如流水线中到了测试部署完成后，可以到测试环境人工验证环节，只有人工验证通过再流转到迁移发布到生产环境动作任务。

步骤200：将所述目标etcd分布式数据库运维模式对应的运维信息发送至所述目标任务装置，以使所述目标任务装置根据所述运维信息对etcd分布式数据库执行对应的运维处理。

从上述描述可知，本申请实施例提供的etcd分布式数据库自动运维方法，通过设置故障节点迁移模式及横向扩容模式，能够使得本申请提供的etcd分布式数据库自动运维方法能够处理故障节点迁移以及横向扩容的运维场景；通过基于流水线编排方式获取与目标etcd分布式数据库运维模式对应的至少一个目标任务装置，解决了现有的运维方式无法根据运维场景自动进行区别化处理的问题；通过将所述目标etcd分布式数据库运维模式对应的运维信息发送至所述目标任务装置，以使所述目标任务装置根据所述运维信息对etcd分布式数据库执行对应的运维处理，能够有效提高etcd系统运维过程的自动化程度和智能化程度，进而能够解决在etcd单节点发生故障、集群性能压力偏高等突发场景下，人工运维手段效率低下且风险较高的问题，进而能够有效提高etcd分布式数据库的运行可靠性及稳定性，满足集群对应急恢复的需要，提升生产运维水平。

为了提供步骤100的故障节点迁移的具体实现方式，在本申请提供的etcd分布式数据库自动运维方法的一个实施例中，参见图2，所述步骤100在故障节点迁移场景下的实现方式具体包含有如下内容：

步骤111：获取目标模式标识和etcd分布式数据库运维模式对应的运维信息。

步骤112：若所述目标模式标识为故障节点迁移模式标识，且所述运维信息包括故障节点地址及登陆信息，则根据故障节点迁移模式标识确定所述目标etcd分布式数据库运维模式为故障节点迁移模式。

步骤113：根据所述故障节点迁移模式标识、故障节点地址及登陆信息，建立与所述故障节点迁移模式对应的故障迁移装置以作为当前的目标任务装置，并与该目标任务装置建立连接。

具体来说，可以根据执行任务清单首先为新节点搭建etcd服务，更新etcd节点配置，验证服务搭建正常后，调用leader节点将新节点加入集群，同时将故障节点从集群成员中去除，验证整个集群健康状态和各节点数据一致性，连接总体调度装置返回执行结果信息。

从上述描述可知，本申请实施例提供的etcd分布式数据库自动运维方法，能够根据故障节点迁移的运维场景对etcd分布式数据库自动组装连接用于进行故障节点迁移处理的故障迁移装置，进而能够有效提高etcd分布式数据库中故障节点迁移的效率、自动化程度及智能化程度。

基于上述内容，在本申请提供的etcd分布式数据库自动运维方法的一个实施例中，所述故障迁移装置用于根据接收的所述运维信息获取对应的安装介质和配置文件，基于该安装介质和配置文件为当前的目标服务器搭建etcd服务以形成目标节点，并应用所述目标节点替换所述etcd分布式数据库中的故障节点。

从上述描述可知，本申请实施例提供的etcd分布式数据库自动运维方法，能有效提高故障迁移过程的效率、自动化程度及智能化程度。

为了提供步骤100的横向扩容的具体实现方式，在本申请提供的etcd分布式数据库自动运维方法的一个实施例中，参见图3，所述步骤100在横向扩容场景下的实现方式具体包含有如下内容：

步骤121：获取目标模式标识和etcd分布式数据库运维模式对应的运维信息。

步骤122：若所述目标模式标识为横向扩容模式标识，且所述运维信息包括横向扩容节点数量，则根据所述横向扩容模式标识确定所述目标etcd分布式数据库运维模式为横向扩容模式。

步骤123：根据所述横向扩容模式标识及横向扩容节点数量，建立与所述横向扩容模式对应的横向扩容装置以作为当前的目标任务装置，并与该目标任务装置建立连接。

具体来说，可以根据执行任务清单为新节点搭建etcd服务，更新etcd节点配置，验证服务搭建正常后，调用leader节点将新节点逐一加入集群中，等待一定数据同步时间后，验证整个集群健康状态和各节点数据一致性，直到集群节点总数符合预期数量后，连接总体调度装置返回执行结果信息。

从上述描述可知，本申请实施例提供的etcd分布式数据库自动运维方法，能够根据横向扩容的运维场景对etcd分布式数据库自动组装连接用于进行横向扩容处理的横向扩容装置，进而能够有效提高etcd分布式数据库中横向扩容的效率、自动化程度及智能化程度。

基于上述内容，在本申请提供的etcd分布式数据库自动运维方法的一个实施例中，所述横向扩容装置用于根据接收的所述运维信息获取对应的安装介质和配置文件，基于该安装介质和配置文件为当前的目标服务器搭建etcd服务以形成目标节点，并在所述etcd分布式数据库中添加与所述横向扩容节点数量对应的所述目标节点。

从上述描述可知，本申请实施例提供的etcd分布式数据库自动运维方法，能有效提高横向扩容过程的效率、自动化程度及智能化程度。

为了进步提高数据库自动运维的有效性及可靠性，在本申请提供的etcd分布式数据库自动运维方法的一个实施例中，参见图4，在所述步骤200之后还具体包含有如下内容：

步骤300：对所述etcd分布式数据库进行集群服务健康状态验证和数据一致性验证；

步骤400：在所述etcd分布式数据库通过所述集群服务健康状态验证和数据一致性验证后，输出对应的运维任务状态信息，其中，所述运维任务状态信息包含有故障迁移结果信息和/或横向扩容结果信息。

从上述描述可知，本申请实施例提供的etcd分布式数据库自动运维方法，通过验证集群健康状态及数据一致性，保障整个迁移替换过程快速可靠。

为了进步提高数据库自动运维的可靠性，在本申请提供的etcd分布式数据库自动运维方法的一个实施例中，参见图5，在所述步骤100和200的执行过程中之后还具体包含有如下内容：

步骤010：基于流水线编排方式获取用于进行数据备份及应急恢复处理的应急恢复装置，其中，该应急恢复装置用于周期性存储所述etcd分布式数据库的备份数据；

相对应的，在所述步骤300之后还可以具体包含有如下内容：

步骤500：若所述etcd分布式数据库未完全通过所述集群服务健康状态验证和数据一致性验证，则向所述应急恢复装置发送应急恢复指令，以使该应急恢复装置根据接收的应急恢复指令对所述etcd分布式数据库进行应急恢复。

从上述描述可知，本申请实施例提供的etcd分布式数据库自动运维方法，能够定期备份数据库数据，进而能够有效提高etcd分布式数据库的运行可靠性及稳定性；并通过提供应急恢复机制，在迁移过程如遇到数据损坏或者集群整体故障等场景，支持按照最新备份数据进行数据恢复，减少对外服务影响。

为了提供应急恢复后也进行健康验证的处理方式，在本申请提供的etcd分布式数据库自动运维方法的一个实施例中，所述应急恢复装置还用于在周期性获取的etcd分布式数据库备份数据中选取一个节点作为当前的主节点并创建单节点的etcd集群，将其他节点加入到该etcd集群中并完成各个节点之间的数据同步；对所述etcd集群进行集群健康状况及数据一致性验证，并在验证成功后输出对应的应急恢复信息。

从上述描述可知，本申请实施例提供的etcd分布式数据库自动运维方法，能够有效保障应急恢复结果的有效性，进而能够有效提高etcd分布式数据库的运行可靠性及稳定性；并通过提供应急恢复机制，在迁移过程如遇到数据损坏或者集群整体故障等场景，支持按照最新备份数据进行数据恢复，减少对外服务影响。

为了提高运维用户的客户体验，在本申请提供的etcd分布式数据库自动运维方法的一个实施例中，参见图6，在所述步骤100之前还具体包含有如下内容：

步骤020：自前台交互装置接收数据库运维指令，其中，该数据库运维指令中包含有所述目标模式标识和etcd分布式数据库运维模式对应的运维信息。

从上述描述可知，本申请实施例提供的etcd分布式数据库自动运维方法，能够根据用户指令对etcd分布式数据库进行个性化运维处理，进而能够有效提高运维用户的客户体验。

从软件层面来说，为了解决现有的etcd系统运维方式存在自动化程度低且无法根据运维场景自动进行区别化处理的问题，本申请提供一种用于执行所述etcd分布式数据库自动运维方法中全部或部分内容的总体调度装置的实施例，参见图7，所述总体调度装置具体包含有如下内容：

流水线编排模块1100，用于基于流水线编排方式获取与目标etcd分布式数据库运维模式对应的至少一个目标任务装置，其中，所述目标etcd分布式数据库运维模式包括：故障节点迁移模式和/或横向扩容模式；

自动运维模块1200，用于将所述目标etcd分布式数据库运维模式对应的运维信息发送至所述目标任务装置，以使所述目标任务装置根据所述运维信息对etcd分布式数据库执行对应的运维处理。

本申请提供的总体调度装置的实施例具体可以用于执行上述实施例中的etcd分布式数据库自动运维方法的实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

从上述描述可知，本申请实施例提供的总体调度装置，通过设置故障节点迁移模式及横向扩容模式，能够使得本申请提供的etcd分布式数据库自动运维方法能够处理故障节点迁移以及横向扩容的运维场景；通过基于流水线编排方式获取与目标etcd分布式数据库运维模式对应的至少一个目标任务装置，解决了现有的运维方式无法根据运维场景自动进行区别化处理的问题；通过将所述目标etcd分布式数据库运维模式对应的运维信息发送至所述目标任务装置，以使所述目标任务装置根据所述运维信息对etcd分布式数据库执行对应的运维处理，能够有效提高etcd系统运维过程的自动化程度和智能化程度，进而能够解决在etcd单节点发生故障、集群性能压力偏高等突发场景下，人工运维手段效率低下且风险较高的问题，进而能够有效提高etcd分布式数据库的运行可靠性及稳定性，满足集群对应急恢复的需要，提升生产运维水平。

为了提供故障节点迁移的具体实现方式，在本申请提供的总体调度装置的一个实施例中，所述流水线编排模块1100在故障节点迁移场景下的实现方式具体用于执行如下内容：

从上述描述可知，本申请实施例提供的总体调度装置，能够根据故障节点迁移的运维场景对etcd分布式数据库自动组装连接用于进行故障节点迁移处理的故障迁移装置，进而能够有效提高etcd分布式数据库中故障节点迁移的效率、自动化程度及智能化程度。

基于上述内容，在本申请提供的总体调度装置的一个实施例中，所述故障迁移装置用于根据接收的所述运维信息获取对应的安装介质和配置文件，基于该安装介质和配置文件为当前的目标服务器搭建etcd服务以形成目标节点，并应用所述目标节点替换所述etcd分布式数据库中的故障节点。

从上述描述可知，本申请实施例提供的总体调度装置，能有效提高故障迁移过程的效率、自动化程度及智能化程度。

为了提供横向扩容的具体实现方式，在本申请提供的总体调度装置的一个实施例中，所述流水线编排模块1100在横向扩容场景下的实现方式具体用于执行如下内容：

从上述描述可知，本申请实施例提供的总体调度装置，能够根据横向扩容的运维场景对etcd分布式数据库自动组装连接用于进行横向扩容处理的横向扩容装置，进而能够有效提高etcd分布式数据库中横向扩容的效率、自动化程度及智能化程度。

基于上述内容，在本申请提供的总体调度装置的一个实施例中，所述横向扩容装置用于根据接收的所述运维信息获取对应的安装介质和配置文件，基于该安装介质和配置文件为当前的目标服务器搭建etcd服务以形成目标节点，并在所述etcd分布式数据库中添加与所述横向扩容节点数量对应的所述目标节点。

从上述描述可知，本申请实施例提供的总体调度装置，能有效提高横向扩容过程的效率、自动化程度及智能化程度。

为了进步提高数据库自动运维的有效性及可靠性，在本申请提供的总体调度装置的一个实施例中，总体调度装置还具体用于执行有如下内容：

从上述描述可知，本申请实施例提供的总体调度装置，通过验证集群健康状态及数据一致性，保障整个迁移替换过程快速可靠。

为了进步提高数据库自动运维的可靠性，在本申请提供的总体调度装置的一个实施例中，总体调度装置还具体用于执行如下内容：

相对应的，在所述步骤300之后还可以具体包含有如下内容：

从上述描述可知，本申请实施例提供的总体调度装置，能够定期备份数据库数据，进而能够有效提高etcd分布式数据库的运行可靠性及稳定性；并通过提供应急恢复机制，在迁移过程如遇到数据损坏或者集群整体故障等场景，支持按照最新备份数据进行数据恢复，减少对外服务影响。

为了提供应急恢复后也进行健康验证的处理方式，在本申请提供的总体调度装置的一个实施例中，所述应急恢复装置还用于在周期性获取的etcd分布式数据库备份数据中选取一个节点作为当前的主节点并创建单节点的etcd集群，将其他节点加入到该etcd集群中并完成各个节点之间的数据同步；对所述etcd集群进行集群健康状况及数据一致性验证，并在验证成功后输出对应的应急恢复信息。

从上述描述可知，本申请实施例提供的总体调度装置，能够有效保障应急恢复结果的有效性，进而能够有效提高etcd分布式数据库的运行可靠性及稳定性；并通过提供应急恢复机制，在迁移过程如遇到数据损坏或者集群整体故障等场景，支持按照最新备份数据进行数据恢复，减少对外服务影响。

为了提高运维用户的客户体验，在本申请提供的总体调度装置的一个实施例中，总体调度装置还具体用于执行如下内容：

从上述描述可知，本申请实施例提供的总体调度装置，能够根据用户指令对etcd分布式数据库进行个性化运维处理，进而能够有效提高运维用户的客户体验。

基于上述的etcd分布式数据库自动运维方法，本申请还提供一种故障迁移装置，所述故障迁移装置应用所述的总体调度装置根据故障节点迁移模式标识、故障节点地址及登陆信息构建而得，参见图8，所述故障迁移装置具体包含有如下内容：

故障信息接收模块2100，用于接收所述总体调度装置发送的运维信息。

故障迁移模块2200，用于根据接收的所述运维信息获取对应的安装介质和配置文件，基于该安装介质和配置文件为当前的目标服务器搭建etcd服务以形成目标节点，并应用所述目标节点替换所述etcd分布式数据库中的故障节点。

从上述描述可知，本申请实施例提供的故障迁移装置，能够根据故障节点迁移的运维场景对etcd分布式数据库自动组装连接用于进行故障节点迁移处理的故障迁移装置，进而能够有效提高etcd分布式数据库中故障节点迁移的效率、自动化程度及智能化程度。

在所述故障迁移装置的实施例中，参见图8，所述故障迁移装置还包括：

故障恢复验证模块2300，用于在应用所述目标节点替换所述etcd分布式数据库中的故障节点之后，对所述etcd分布式数据库进行集群服务健康状态验证和数据一致性验证，并在所述etcd分布式数据库通过所述集群服务健康状态验证和数据一致性验证后，输出对应的运维任务状态信息，其中，所述运维任务状态信息包含有故障迁移结果信息。

从上述描述可知，本申请实施例提供的故障迁移装置，通过验证集群健康状态及数据一致性，保障整个迁移替换过程快速可靠。

基于上述的etcd分布式数据库自动运维方法，本申请还提供一种横向扩容装置，所述横向扩容装置应用所述的总体调度装置根据横向扩容模式标识及横向扩容节点数量构建而得，参见图9，所述横向扩容装置具体包含有如下内容：

扩容信息接收模块3100，用于接收所述总体调度装置发送的运维信息；

横向扩容装置模块3200，用于根据接收的所述运维信息获取对应的安装介质和配置文件，基于该安装介质和配置文件为当前的目标服务器搭建etcd服务以形成目标节点，并在所述etcd分布式数据库中添加与所述横向扩容节点数量对应的所述目标节点。

从上述描述可知，本申请实施例提供的横向扩容装置，能够根据横向扩容的运维场景对etcd分布式数据库自动组装连接用于进行横向扩容处理的横向扩容装置，进而能够有效提高etcd分布式数据库中横向扩容的效率、自动化程度及智能化程度。

在所述横向扩容装置的实施例中，参见图9，所述横向扩容装置还包括：

横向扩容验证模块3300，用于在应用所述目标节点替换所述etcd分布式数据库中的故障节点之后，对所述etcd分布式数据库进行集群服务健康状态验证和数据一致性验证，并在所述etcd分布式数据库通过所述集群服务健康状态验证和数据一致性验证后，输出对应的运维任务状态信息，其中，所述运维任务状态信息包含有横向扩容结果信息。

从上述描述可知，本申请实施例提供的横向扩容装置，通过验证集群健康状态及数据一致性，保障整个迁移替换过程快速可靠。

基于上述的etcd分布式数据库自动运维方法，本申请还提供一种应急恢复装置，所述应急恢复装置应用所述的总体调度装置基于流水线编排方式构建而得，参见图10，所述应急恢复装置具体包含有如下内容：

定期备份模块4100，用于周期性存储所述etcd分布式数据库的备份数据；

恢复指令接收模块4200，用于接收所述总体调度装置发送的应急恢复指令；

强制恢复模块4300，用于在周期性获取的etcd分布式数据库备份数据中选取一个节点作为当前的主节点并创建单节点的etcd集群，将其他节点加入到该etcd集群中并完成各个节点之间的数据同步；对所述etcd集群进行集群健康状况及数据一致性验证，并在验证成功后输出对应的应急恢复信息。

从上述描述可知，本申请实施例提供的应急恢复装置，能够定期备份数据库数据，进而能够有效提高etcd分布式数据库的运行可靠性及稳定性；并通过提供应急恢复机制，在迁移过程如遇到数据损坏或者集群整体故障等场景，支持按照最新备份数据进行数据恢复，减少对外服务影响，能够有效保障应急恢复结果的有效性，进而能够有效提高etcd分布式数据库的运行可靠性及稳定性；并通过提供应急恢复机制，在迁移过程如遇到数据损坏或者集群整体故障等场景，支持按照最新备份数据进行数据恢复，减少对外服务影响。

基于上述的etcd分布式数据库自动运维方法，本申请还提供一种前台交互装置，参见图11，所述前台交互装置具体包含有如下内容：

指令生成模块5100，用于接收用户录入的目标模式标识和etcd分布式数据库运维模式对应的运维信息，并生成对应的数据库运维指令；

指令发送模块5200，用于所述的总体调度装置发送所述数据库运维指令。

从上述描述可知，本申请实施例提供的前台交互装置，能够根据用户指令对etcd分布式数据库进行个性化运维处理，进而能够有效提高运维用户的客户体验。

从硬件层面来说，为了解决现有的etcd系统运维方式存在自动化程度低且无法根据运维场景自动进行区别化处理的问题，本申请提供一种用于实现所述前台交互装置、总体调度装置、故障迁移装置、横向扩容装置或者应急恢复装置中的全部或部分内容的电子设备的实施例。

图12为本申请实施例的电子设备9600的系统构成的示意框图。如图12所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图12是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在一实施例中，etcd分布式数据库自动运维功能可以被集成到中央处理器中。

在另一个实施方式中，总体调度装置可以与中央处理器9100分开配置，例如可以将总体调度装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现etcd分布式数据库自动运维功能。

如图12所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图12中所示的所有部件；此外，电子设备9600还可以包括图12中没有示出的部件，可以参考现有技术。

如图12所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

本申请的实施例还提供能够实现上述实施例中的etcd分布式数据库自动运维方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的前台交互装置、总体调度装置、故障迁移装置、横向扩容装置或者应急恢复装置的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

基于前述的前台交互装置、总体调度装置、故障迁移装置、横向扩容装置或者应急恢复装置的实施例，本申请还提供一种etcd分布式数据库自动运维系统，参见图13，所述etcd分布式数据库自动运维系统具体包含有如下内容：

前台交互装置1、总体调度装置2、故障迁移装置3、横向扩容装置4、应急恢复装置5。前台交互装置1与总体调度装置2相连；总体调度装置2与故障迁移装置3、横向扩容装置4相连、应急恢复装置5相连。

前台交互装置1：用于与用户进行交互，将用户输入信息传递给总体调度装置2，主要包含运维模式选择(故障迁移/横向扩容)、etcd服务器地址、服务器root权限用户密码、横向扩容节点数量。待运维任务执行完成后，与总体调度装置2连接，获取运维任务执行结果，展示到前台提醒用户。

总体调度装置2：从前台交互装置1中读取用户配置信息，主要包含运维模式选择、服务器地址、服务器用户密码、横向扩容数量，然后该装置会与远程etcd服务器建立连接，并根据运维模式采取相应的执行逻辑，连接故障迁移装置3或者横向扩容装置4。待执行逻辑完成后，从故障迁移装置3或者横向扩容装置4获取任务执行结果，连接前台交互装置。如果执行结果异常，则同时连接应急恢复装置5进行应急恢复。

故障迁移装置3：具体实施故障迁移的动作。根据总体调度装置2中分配的执行任务清单，首先会为新节点搭建etcd服务，更新etcd节点配置，验证服务搭建正常后，调用leader节点将新节点加入集群，同时将故障节点从集群成员中去除，验证整个集群健康状态和各节点数据一致性，连接总体调度装置返回执行结果信息。

横向扩容装置4：具体实施横向节点扩容的动作。根据总体调度装置2中分配的执行任务清单，首先会为新节点搭建etcd服务，更新etcd节点配置，验证服务搭建正常后，调用leader节点将新节点逐一加入集群中，等待一定数据同步时间后，验证整个集群健康状态和各节点数据一致性，直到集群节点总数符合预期数量后，连接总体调度装置返回执行结果信息。

应急恢复装置5：定期执行数据备份到本地磁盘。根据总体调度装置2中分配的执行任务清单，首先会从磁盘获取备份数据，以集群中一台etcd节点作为leader节点强制创建单节点集群，验证集群状态通过后，将其他节点逐一加入集群中，等待一定数据同步时间后，验证整个集群健康状态和各节点数据一致性，待集群节点总数恢复后，连接总体调度装置返回执行结果信息。

从上述描述可知，本申请实施例提供的etcd分布式数据库自动运维系统，通过设置故障节点迁移模式及横向扩容模式，能够使得本申请提供的etcd分布式数据库自动运维方法能够处理故障节点迁移以及横向扩容的运维场景；通过基于流水线编排方式获取与目标etcd分布式数据库运维模式对应的至少一个目标任务装置，解决了现有的运维方式无法根据运维场景自动进行区别化处理的问题；通过将所述目标etcd分布式数据库运维模式对应的运维信息发送至所述目标任务装置，以使所述目标任务装置根据所述运维信息对etcd分布式数据库执行对应的运维处理，能够有效提高etcd系统运维过程的自动化程度和智能化程度，进而能够解决在etcd单节点发生故障、集群性能压力偏高等突发场景下，人工运维手段效率低下且风险较高的问题，进而能够有效提高etcd分布式数据库的运行可靠性及稳定性，满足集群对应急恢复的需要，提升生产运维水平。

在所述etcd分布式数据库自动运维系统的实施例中，参见图14，所述前台交互装置1包括参数配置单元11、运维任务状态展示单元12，其中：

参数配置单元11：用于提供给用户录入运维任务所需参数，包括运维模式选择(故障迁移/横向扩容)、etcd节点ip地址、服务器登录用户和密码、横向扩容节点数量，并将用户录入参数传递给总体调度装置2。

运维任务状态展示单元12：从总体调度装置2获取运维任务状态信息，以前台界面的形式展示给用户，包括整个运维任务执行结果、集群健康状况、整体耗时。

在所述etcd分布式数据库自动运维系统的实施例中，参见图15，所述总体调度装置2包括批量控制单元21和编排流水线单元22，其中：

批量控制单元21：用于与远程etcd服务器建立安全认证，批量更新服务器配置获得授权，然后批量与etcd服务器建立连接，执行逻辑单元并获取执行结果信息。

编排流水线单元22：连接参数配置单元11获取运维任务执行参数，调用批量控制单元执行逻辑单元，根据运维任务执行参数组装连接故障迁移装置3、横向扩容装置4和应急恢复装置5，按顺序执行完各组件后，与运维任务状态展示单元12连接返回结果信息。

在所述etcd分布式数据库自动运维系统的实施例中，参见图16，所述故障迁移装置3包括etcd服务搭建单元31、etcd集群成员替换单元32和健康验证单元33。其中：

etcd服务搭建单元31：用于从文件服务器获取etcd安装介质和配置，下载到etcd服务器，完成etcd服务安装和参数文件更新。

etcd集群成员替换单元32：从集群leader节点控制集群成员信息，将新节点替换老节点作为集群中一员，更新集群中所有成员配置信息，并重启etcd服务。

健康验证单元33：包含服务健康状态验证和数据一致性验证，其中服务健康状态验证包括整个etcd集群的健康状态验证、集群间通信状态验证以及各成员节点etcd服务进程运行状态验证，数据一致性验证包括各节点数量总量一致性验证、对外数据查询接口验证。健康验证失败时，连接总体调度装置返回失败信息。

在所述etcd分布式数据库自动运维系统的实施例中，参见图17，所述横向扩容装置4包括etcd服务搭建单元41、etcd集群成员添加单元42和健康验证单元43，其中：

etcd服务搭建单元41：用于从文件服务器获取etcd安装介质和配置，下载到etcd服务器，完成etcd服务安装和参数文件更新。

etcd集群成员添加单元42：从集群leader节点控制集群成员信息，逐个新增集群成员，更新集群中所有成员配置信息，并重启etcd服务。

健康验证单元43：包含服务健康状态验证和数据一致性验证，其中服务健康状态验证包括整个etcd集群的健康状态验证、集群间通信状态验证以及各成员节点etcd服务进程运行状态验证，数据一致性验证包括各节点数量总量一致性验证、对外数据查询接口验证。健康验证失败时，连接总体调度装置返回失败信息。

在所述etcd分布式数据库自动运维系统的实施例中，参见图18，所述应急恢复装置5包括定期数据备份单元51、强制恢复单元52和健康验证单元53，其中：

定期数据备份单元51：按照一定时间周期进行数据备份，定期执行脚本将etcd数据库中数据备份到磁盘空间，按备份时间管理数据，超过有效期备份数据自动删除。

强制恢复单元52：以原集群中一台etcd节点作为leader节点，获取最新备份数据，强制创建一个单节点的etcd集群，更新其他成员配置信息，重启etcd服务后依次加入到新的etcd集群中。

健康验证单元53：包含服务健康状态验证和数据一致性验证，其中服务健康状态验证包括整个etcd集群的健康状态验证、集群间通信状态验证以及各成员节点etcd服务进程运行状态验证，数据一致性验证包括各节点数量总量一致性验证、对外数据查询接口验证。健康验证失败时，连接总体调度装置返回失败信息。

基于上述前台交互装置1、总体调度装置2、故障迁移装置3、横向扩容装置4和应急恢复装置5的实施例，所述基于传统服务器的etcd分布式数据库自动运维方法包括如下步骤：

步骤1)：前台交互装置，支持用户在前台录入etcd节点ip地址、服务器登录用户和密码、横向扩容节点数量等参数，用户可以选择故障迁移或者横向扩容模式，并触发总体调度装置。待总体调度装置执行结束后返回运维任务状态信息给前台交互装置，展示结果信息。

步骤2)：总体调度装置，连接前台交互装置的参数配置单元，获取服务器信息，远程与服务器建立连接，并根据从前台交互装置获取的运维模式，连接步骤3)故障迁移装置或者步骤4)横向扩容装置。执行结束后连接步骤1)前台交互装置返回执行结果。

步骤3)：故障迁移装置，在新节点上搭建etcd服务，更改etcd节点配置，实现集群成员替换，将新节点加入etcd集群同时将故障节点从集群中剔除，然后对集群健康状况及数据一致进行验证。如果验证不通过，则通过总体调度装置连接步骤5)应急恢复装置进行应急处理，否则验证通过时则连接步骤2)总体调度装置返回执行结果。

步骤4)：横向扩容装置，在新节点上搭建etcd服务，修改etcd节点配置，将新节点加入etcd集群中，对集群健康状况及数据一致性进行验证。如果验证不通过，则连接步骤5)应急恢复装置进行应急处理，否则验证通过则连接步骤2)总体调度装置返回执行结果。

步骤5)：应急恢复装置，定期进行数据备份，在总体调度装置连接后，按照备份数据选择其中一台etcd节点作为leader节点，创建单节点的etcd集群，然后依次将其他节点加入到集群中并完成数据间同步，对集群健康状况及数据一致性进行验证，验证结果返回给总体调度装置。

参见图19，本申请提供的请求处理流程方法，其步骤如下：

步骤S101：用户配置运维信息，启动总体调度装置，即用户通过前台交互装置1配置运维任务信息，启动总体调度装置2，并传入配置信息。

步骤S102：总体调度装置，即总体调度装置2判断用户录入的运维模式。

步骤S103：故障迁移，即用户如果配置为故障迁移模式，连接故障迁移装置3。

步骤S104：横向扩容，即用户如果配置为横向扩容模式，连接横向扩容装置4。

步骤S105：集群健康及数据一致性验证，即通过集群健康验证，获取故障迁移装置3或者横向扩容装置4执行结果，判断运维任务是否执行成功。

步骤S106：运维任务执行结果返回前台交互装置，任务结束，即运维任务如果执行成功，则连接前台交互装置1返回结果信息，运维任务结束。

步骤S107：连接应急恢复装置执行恢复操作，即运维任务如果执行失败，则连接应急恢复装置5执行应急恢复操作。

步骤S108：总体调度装置2获取应急恢复装置5执行结果，即总体调度装置2获取应急恢复装置5执行结果，连接前台交互装置1返回结果信息，运维任务结束。

从上述描述可知，为解决在etcd单节点发生故障、集群性能压力偏高等突发场景下，人工运维手段效率低下且风险较高的问题，本申请提供了一种基于传统服务器的etcd分布式数据库自动运维方法，提升了运维效率和安全可靠性。在整个运维过程中，通过健康验证探测集群服务健康状况及各节点数据一致性，如果验证发现异常情况可以及时恢复集群，使etcd集群对外服务基本不受影响。通过支持集群对重要数据定期备份，保障了应急恢复场景下数据的完整性，降低了运维风险。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种etcd分布式数据库自动运维方法，其特征在于，包括：

将所述目标etcd分布式数据库运维模式对应的运维信息发送至所述目标任务装置，以使所述目标任务装置根据所述运维信息对etcd分布式数据库执行对应的运维处理；

其中，所述基于流水线编排方式获取与目标etcd分布式数据库运维模式对应的至少一个目标任务装置，包括：获取目标模式标识和etcd分布式数据库运维模式对应的运维信息；若所述目标模式标识为故障节点迁移模式标识，且所述运维信息包括故障节点地址及登陆信息，则根据故障节点迁移模式标识确定所述目标etcd分布式数据库运维模式为故障节点迁移模式；根据所述故障节点迁移模式标识、故障节点地址及登陆信息，建立与所述故障节点迁移模式对应的故障迁移装置以作为当前的目标任务装置，并与该目标任务装置建立连接；

其中，所述基于流水线编排方式获取与目标etcd分布式数据库运维模式对应的至少一个目标任务装置，包括：获取目标模式标识和etcd分布式数据库运维模式对应的运维信息；若所述目标模式标识为横向扩容模式标识，且所述运维信息包括横向扩容节点数量，则根据所述横向扩容模式标识确定所述目标etcd分布式数据库运维模式为横向扩容模式；根据所述横向扩容模式标识及横向扩容节点数量，建立与所述横向扩容模式对应的横向扩容装置以作为当前的目标任务装置，并与该目标任务装置建立连接；

其中，在所述基于流水线编排方式获取与目标etcd分布式数据库运维模式对应的至少一个目标任务装置之前，还包括：自前台交互装置接收数据库运维指令，其中，该数据库运维指令中包含有所述目标模式标识和etcd分布式数据库运维模式对应的运维信息。

2.根据权利要求1所述的etcd分布式数据库自动运维方法，其特征在于，所述故障迁移装置用于根据接收的所述运维信息获取对应的安装介质和配置文件，基于该安装介质和配置文件为当前的目标服务器搭建etcd服务以形成目标节点，并应用所述目标节点替换所述etcd分布式数据库中的故障节点。

3.根据权利要求2所述的etcd分布式数据库自动运维方法，其特征在于，所述横向扩容装置用于根据接收的所述运维信息获取对应的安装介质和配置文件，基于该安装介质和配置文件为当前的目标服务器搭建etcd服务以形成目标节点，并在所述etcd分布式数据库中添加与所述横向扩容节点数量对应的所述目标节点。

4.根据权利要求1所述的etcd分布式数据库自动运维方法，其特征在于，在所述目标任务装置根据所述运维信息对etcd分布式数据库执行对应的运维处理之后，还包括：

5.根据权利要求4所述的etcd分布式数据库自动运维方法，其特征在于，还包括：

6.根据权利要求5所述的etcd分布式数据库自动运维方法，其特征在于，还包括：

7.一种总体调度装置，其特征在于，包括：

自动运维模块，用于将所述目标etcd分布式数据库运维模式对应的运维信息发送至所述目标任务装置，以使所述目标任务装置根据所述运维信息对etcd分布式数据库执行对应的运维处理；

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6任一项所述的etcd分布式数据库自动运维方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6任一项所述的etcd分布式数据库自动运维方法。

10.一种故障迁移装置，其特征在于，应用权利要求7所述的总体调度装置根据故障节点迁移模式标识、故障节点地址及登陆信息构建而得，所述故障迁移装置包括：

11.根据权利要求10所述的故障迁移装置，其特征在于，所述故障迁移装置还包括：

12.一种横向扩容装置，其特征在于，应用权利要求7所述的总体调度装置根据横向扩容模式标识及横向扩容节点数量构建而得，所述横向扩容装置包括：

13.根据权利要求12所述的横向扩容装置，其特征在于，所述横向扩容装置还包括：

14.一种应急恢复装置，其特征在于，应用权利要求7所述的总体调度装置基于流水线编排方式构建而得，所述应急恢复装置包括：

15.一种前台交互装置，其特征在于，包括：

指令发送模块，用于向权利要求7所述的总体调度装置发送所述数据库运维指令。

16.一种etcd分布式数据库自动运维系统，其特征在于，包括：

如权利要求7所述的总体调度装置；

如权利要求10或11所述的故障迁移装置；

如权利要求12或13所述的横向扩容装置；

如权利要求14所述的应急恢复装置；

以及，如权利要求15所述的前台交互装置；