CN112306761A

CN112306761A - 一种面向多业务不停机检修的运维保障方法及系统

Info

Publication number: CN112306761A
Application number: CN202011083689.0A
Authority: CN
Inventors: 王逸兮; 饶强; 廖荣涛; 徐静进; 叶宇轩; 胡欢君; 刘芬; 冯浩; 余铮; 代荡荡; 王敬靖; 陈家璘; 龙霏; 徐焕
Original assignee: State Grid Corp of China SGCC
Current assignee: State Grid Corp of China SGCC
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2021-02-02

Abstract

本申请实施例公开了一种面向多业务不停机检修的运维保障方法，包括：基于工作机的系统架构建立分布式保障机运维系统、监控管理系统以及迁移管理系统，分布式保障机运维系统为物理服务器内部搭建的虚拟系统，虚拟系统创建多台保障机，工作机为受运维保障的业务系统，保障机与工作机形成一对一的保障模式；监控管理系统实时监控工作机的数据状态以及业务运行状态；迁移管理系统根据数据状态将工作机的数据信息以及系统信息实时同步镜像到工作机对应的保障机中；分布式保障机运维系统根据业务运行状态触发工作机与工作机对应的保障机的高可用切换以使业务不中断。用于工作机发生业务中断时，实现工作机与保障机的自动切换，保障业务系统连续不中断。

Description

一种面向多业务不停机检修的运维保障方法及系统

技术领域

本申请实施例涉及网络运维技术领域，尤其涉及一种面向多业务不停机检修的运维保障方法及系统。

背景技术

电力信息系统关乎电力交易业务的正常进行，用户的日常访问量大。当前的运维保障系统都采用高可用集群技术，各应用服务器都是虚拟机并采用了虚拟化集群，当虚拟化平台的共享存储或者虚拟化平台的物理节点如果出现故障，会出现只有单台服务器在支持业务运行或者所有节点同时瘫痪的情况。虽然有时可以进行自动故障迁移，但是迁移过去的虚拟机的都必须进行重新启动才能使用，大大影响系统的业务连续性。

为了满足用户日常访问量大的需求，系统在业务连续性、数据保护和运行维护方面面临着较大的考验。

发明内容

本申请实施例提供了一种面向多业务不停机检修的运维保障方法及系统，当监视到工作机中业务中断时，实现工作机与保障机的自动切换，从而保障业务系统连续不中断。

本申请第一方面提供一种面向多业务不停机检修的运维保障方法，包括：

基于工作机的系统架构建立分布式保障机运维系统、监控管理系统以及迁移管理系统，所述分布式保障机运维系统为物理服务器内部搭建的虚拟系统，所述虚拟系统创建多台保障机，所述工作机为受运维保障的业务系统，所述保障机与所述工作机形成一对一的保障模式；

所述监控管理系统实时监控所述工作机的数据状态以及业务运行状态；

所述迁移管理系统根据所述数据状态将所述工作机的数据信息以及系统信息实时同步镜像到所述工作机对应的保障机中；

所述分布式保障机运维系统根据所述业务运行状态触发所述工作机与所述工作机对应的保障机的高可用切换以使业务不中断。

可选的，所述分布式保障机运维系统根据所述业务运行状态触发所述工作机与所述工作机对应的保障机的高可用切换以使业务不中断包括：

所述分布式保障机运维系统根据所述业务运行状态通过配置监控脚本的方式进行触发所述工作机与所述工作机对应的保障机的高可用切换以使业务不中断；

所述高可用切换包括自动切换和手动切换。

可选的，所述迁移管理系统根据所述数据状态将所述工作机的数据信息以及系统信息实时同步镜像到所述工作机对应的保障机中包括：所述迁移管理系统根据所述数据状态将所述工作机的数据信息以及系统信息通过CDP数据连续保障模式实时同步镜像到所述工作机对应的保障机中。

可选的，所述分布式保障机运维系统根据所述业务运行状态通过配置监控脚本的方式触发所述工作机与所述工作机对应的保障机的高可用切换以使业务不中断包括：若所述工作机的业务运行状态发生异常，所述分布式保障机运维系统通过配置监控脚本的方式触发所述工作机与所述工作机对应的保障机的高可用切换，所述工作机对应的保障机启动备用业务系统以使业务不中断。

可选的，所述分布式保障机运维系统根据所述业务运行状态通过配置监控脚本的方式触发所述工作机与所述工作机对应的保障机的高可用切换以使业务不中断包括：若所述工作机的运行状态正常，所述工作机对应的保障机启动热备状态。

可选的，所述分布式保障机运维系统根据所述业务运行状态通过配置监控脚本的方式触发所述工作机与所述工作机对应的保障机的高可用切换以使业务不中断包括：若所述工作机的业务运行状态修复正常，所述工作机对应的保障机退出备用业务系统，以使所述工作机继续执行业务。

可选的，所述迁移管理系统根据所述数据状态将所述工作机的数据信息以及系统信息通过CDP数据连续保障模式实时同步镜像到所述工作机对应的保障机中包括：

当所述监控系统监测到所述工作机的数据读取失败时，所述迁移管理系统根据所述工作机对应的保障机中的数据信息以及系统信息通过CDP数据连续保障模式将所述工作机的数据信息及系统信息即时恢复到最新状态。

所述迁移管理系统将工作机中的数据信息以及系统信息通过CDP数据连续保障模式实时复制到所述工作机对应的保障机的存储空间，并记录所述工作机的数据变化日志及数据变化信息。

所述迁移管理系统将工作机中的数据信息以及系统信息通过CDP日志文件中的修改记录对所述工作机进行数据CDP恢复。

本申请第二方面提供一种面向多业务不停机检修的运维保障系统，包括：

分布式保障机运维模块，所述分布式保障机运维模块基于工作机的系统架构建立，与所述工作机系统形成一对一的保障模式，所述工作机为受保障的业务系统；

监控管理模块，用于实时监控所述工作机的数据状态以及业务运行状态；

迁移管理模块，用于根据所述数据状态将所述工作机的数据信息以及系统信息实时同步镜像到所述工作机对应的保障机中；

所述分布式保障机运维模块用于根据所述业务运行状态触发所述工作机与所述工作机对应的保障机的高可用切换以使业务不中断。

本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上保存有程序，所述程序在计算机上执行时执行如前述第一方面以及第一方面的任意可选的方法。

在以上技术方案中，保障机与工作机之间形成一对一的保障模式，一台服务器同时能够保障多套业务系统，实时监控工作机的数据状态以及运行状态，对工作机的数据信息以及系统信息实时备份，保障工作机的数据信息和系统环境与保障机的数据信息和系统环境保持一致，当监视到工作机中业务中断时，实现工作机与保障机的自动切换，从而保障业务系统连续不中断。

附图说明

图1为本申请实施例中面向多业务不停机检修的运维保障方法一个实施例结构示意图；

图2为本申请实施例中面向多业务不停机检修的运维保障方法另一个实施例结构示意图；

图3为本申请实施例中面向多业务不停机检修的运维保障系统的一个实施例保障模式示意图；

图4为本申请实施例中面向多业务不停机检修的运维保障系统另一个实施例保障模式示意图；

图5为本申请实施例中面向多业务不停机检修的运维保障系统一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1，请参阅图1，本申请中面向多业务不停机检修的运维保障方法一个实施例包括：

101、基于工作机的系统架构建立分布式保障机运维系统、监控管理系统以及迁移管理系统，所述分布式保障机运维系统为物理服务器内部搭建的虚拟系统，所述虚拟系统创建多台保障机，所述工作机为受运维保障的业务系统，所述保障机与所述工作机形成一对一的保障模式；

具体的，在现有的电力信息系统体系结构上，建立面向多业务运维保障系统，整个系统不存在集中管理控制节点，节点之间直接通过内部高效的分布式协议完成相互通信。运维保障系统由运维保障系统软件及若干物理服务器组成，每台用于保障的物理服务器内部搭建虚拟系统，可创建多台虚拟机。采用每台虚拟机去保障一套业务系统的模式，实现一台服务器能够保障多套业务系统的能力。这些虚拟机我们称为保障机，受保障的业务系统称为工作机。保障物理服务器的操作系统及虚拟环境运行正常，为后续针对工作机搭建一对一的保障机做好准备。

102、所述监控管理系统实时监控所述工作机的数据状态以及业务运行状态；

具体的，多业务运维保障系统提供一个统一的保障管理监控系统，由该系统统一对整个保障环境进行管理，包括工作机、保障机、保障规则进行管理，对全场工作机的保障状态进行统一监控等。保障机实时监控工作机的数据状态以及业务运行状态，能够监视到工作机中会导致业务中断的情况，如物理故障或系统故障引起的宕机、业务系统的进程或服务异常终止。

103、所述迁移管理系统根据所述数据状态将所述工作机的数据信息以及系统信息实时同步镜像到所述工作机对应的保障机中；

具体的，迁移管理系统根据所述数据状态将所述工作机的数据信息以及系统信息实时同步镜像到所述工作机对应的保障机中。对于文件或目录的同步，首先保障机对工作机的文件数据进行一次全量镜像同步。全量镜像同步完成后，保障机对工作机的数据变化动态实时监控，即当在工作机捕获到I/O数据的变化时，将变化的数据传递到保障机并写入磁盘。由此实现了保障机对工作机的数据的实时同步。

104、所述分布式保障机运维系统根据所述业务运行状态触发所述工作机与所述工作机对应的保障机的高可用切换以使业务不中断。

具体的，通过监控管理系统监测工作机的业务运行状态，根据所述业务运行状态触发所述工作机与所述工作机对应的保障机的高可用切换以使业务不中断，由此实现当工作机宕机时，保障机能够具备运行业务系统的能力。

实施例2，请参阅图2，本申请中面向多业务不停机检修的运维保障方法另一个实施例包括：

201、基于工作机的系统架构建立分布式保障机运维系统、监控管理系统以及迁移管理系统，所述分布式保障机运维系统为物理服务器内部搭建的虚拟系统，所述虚拟系统创建多台保障机，所述工作机为受运维保障的业务系统，所述保障机与所述工作机形成一对一的保障模式；

202、所述监控管理系统实时监控所述工作机的数据状态以及业务运行状态；

本实施例中的步骤201至步骤202与前述实施例中步骤101至步骤102类似，此处不再赘述。

203、所述迁移管理系统根据所述数据状态将所述工作机的数据信息以及系统信息通过CDP数据连续保障模式实时同步镜像到所述工作机对应的保障机中；

具体的，迁移管理系统根据所述数据状态将所述工作机的数据信息以及系统信息通过CDP数据连续保障模式实时同步镜像到所述工作机对应的保障机中，并通过CDP恢复功能将数据恢复到删除前或篡改前的状态。

204、所述分布式保障机运维系统根据所述业务运行状态通过配置监控脚本的方式进行触发所述工作机与所述工作机对应的保障机的高可用切换以使业务不中断。

具体的，通过监控管理系统监测工作机的业务运行状态，保障系统预留接口，能够通过配置监控脚本的方式，实现对某些工作机的业务系统中的特殊场景的监控，以及触发高可用切换以使业务不中断，由此实现当工作机宕机时，保障机能够具备运行业务系统的能力。

高可用切换模式包括自动切换和手动切换，具体的，当达到切换条件时，业务IP自动漂移到保障机，保障机自动启动备用业务系统，实现了业务的自动接管。或者当运维人员认为工作机已经失效，可通过人工手动切换保障机的IP为业务IP，并手动启动保障机的业务系统。

可选的，若所述工作机的业务运行状态发生异常，所述分布式保障机运维系统通过配置监控脚本的方式触发所述工作机与所述工作机对应的保障机的高可用切换，所述工作机对应的保障机启动备用业务系统以使业务不中断。

可选的，若所述工作机的运行状态正常，所述工作机对应的保障机启动热备状态。

可选的，若所述工作机的业务运行状态修复正常，所述工作机对应的保障机退出备用业务系统，以使所述工作机继续执行业务。

请参阅图3和图4，保障机实时监控工作机的运行状态，能够监视到工作机中会导致业务中断的情况，如物理故障或系统故障引起的宕机、业务系统的进程或服务异常终止。同时，保障系统预留接口，能够通过配置监控脚本的方式，实现对某些工作机的业务系统中的特殊场景的监控，以及触发高可用切换。

保障机与工作机形成一对一的保障模式。工作机正常运行时，保障机处于热备状态；当工作机业务系统运行异常，不能对外正常提供业务时，保障机立刻接管工作机的业务系统，负责对外提供服务；当工作机修复后，保障系统退出接管，业务系统回切到工作机执行。

可选的，当所述监控系统监测到所述工作机的数据读取失败时，所述迁移管理系统根据所述工作机对应的保障机中的数据信息以及系统信息通过CDP数据连续保障模式将所述工作机的数据信息及系统信息即时恢复到最新状态。

可选的，所述迁移管理系统将工作机中的数据信息以及系统信息通过CDP数据连续保障模式实时复制到所述工作机对应的保障机的存储空间，并记录所述工作机的数据变化日志及数据变化信息。

可选的，所述迁移管理系统将工作机中的数据信息以及系统信息通过CDP日志文件中的修改记录对所述工作机进行数据CDP恢复。

具体的，当开启CDP数据连续保护模式后，可保障针对病毒、人为误操作等原因所导致的数据误篡改、误删除，可通过CDP恢复功能将数据恢复到删除前或篡改前的状态。对工作机的关键数据实时复制到保障机的存储空间。可开启CDP连续数据保护功能，连续记录工作机的数据变化日志及数据；如果当工作机的数据由于某些原因无法读取时，可通过保障系统将数据恢复到最新状态。还可通过CDP数据日志列表中数据文件的修改记录，可选择一个确定的时间点进行数据恢复。

实施例5，请参阅图5，本申请中面向多业务不停机检修的运维保障系统一个实施例包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种面向多业务不停机检修的运维保障方法，其特征在于，包括：

2.根据权利要求1所述的运维保障方法，其特征在于，所述分布式保障机运维系统根据所述业务运行状态触发所述工作机与所述工作机对应的保障机的高可用切换以使业务不中断包括：

所述高可用切换包括自动切换和手动切换。

3.根据权利要求1所述的运维保障方法，其特征在于，所述迁移管理系统根据所述数据状态将所述工作机的数据信息以及系统信息实时同步镜像到所述工作机对应的保障机中包括：所述迁移管理系统根据所述数据状态将所述工作机的数据信息以及系统信息通过CDP数据连续保障模式实时同步镜像到所述工作机对应的保障机中。

4.根据权利要求2所述的运维保障方法，其特征在于，所述分布式保障机运维系统根据所述业务运行状态通过配置监控脚本的方式触发所述工作机与所述工作机对应的保障机的高可用切换以使业务不中断包括：若所述工作机的业务运行状态发生异常，所述分布式保障机运维系统通过配置监控脚本的方式触发所述工作机与所述工作机对应的保障机的高可用切换，所述工作机对应的保障机启动备用业务系统以使业务不中断。

5.根据权利要求2所述的运维保障方法，其特征在于，所述分布式保障机运维系统根据所述业务运行状态通过配置监控脚本的方式触发所述工作机与所述工作机对应的保障机的高可用切换以使业务不中断包括：若所述工作机的运行状态正常，所述工作机对应的保障机启动热备状态。

6.根据权利要求2所述的运维保障方法，其特征在于，所述分布式保障机运维系统根据所述业务运行状态通过配置监控脚本的方式触发所述工作机与所述工作机对应的保障机的高可用切换以使业务不中断包括：若所述工作机的业务运行状态修复正常，所述工作机对应的保障机退出备用业务系统，以使所述工作机继续执行业务。

7.根据权利要求3所述的运维保障方法，其特征在于，所述迁移管理系统根据所述数据状态将所述工作机的数据信息以及系统信息通过CDP数据连续保障模式实时同步镜像到所述工作机对应的保障机中包括：

8.根据权利要求3所述的运维保障方法，其特征在于，所述迁移管理系统根据所述数据状态将所述工作机的数据信息以及系统信息通过CDP数据连续保障模式实时同步镜像到所述工作机对应的保障机中包括：

9.根据权利要求3所述的运维保障方法，其特征在于，所述迁移管理系统根据所述数据状态将所述工作机的数据信息以及系统信息通过CDP数据连续保障模式实时同步镜像到所述工作机对应的保障机中包括：

10.一种面向多业务不停机检修的运维保障系统，其特征在于，包括：