CN107729184B

CN107729184B - 一种系统组件服务自愈方法

Info

Publication number: CN107729184B
Application number: CN201710991095.1A
Authority: CN
Inventors: 熊梦; 谭思敏; 季统凯
Original assignee: G Cloud Technology Co Ltd
Current assignee: G Cloud Technology Co Ltd
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2021-07-30
Anticipated expiration: 2037-10-23
Also published as: CN107729184A

Abstract

本发明涉及系统故障恢复技术领域，特别是一种系统组件服务自愈方法。本发明是对系统组件服务进行分类，设置每一类服务的检测和修复方法；根据节点角色，一键自定义节点上自愈程序配置文件的系统组件服务；启动自愈程序读取配置文件进行组件服务缓存；自愈程序定时检测各个组件的服务状态并做修复操作。本发明有效保障了各角色节点的系统组件服务的正常运行；可以用于系统组件服务的监测、修复。

Description

一种系统组件服务自愈方法

技术领域

本发明涉及系统故障恢复技术领域，特别是一种系统组件服务自愈方法。

背景技术

在分布式多组件服务的大型系统中，由于系统规模大、组件多而导致系统在运行过程中很难维护。针对此，通常都会另外开发一套专门的运维管理系统，这种系统一般的实现方法都是控制节点上启动控制程序并采取数据库记录各个节点上分布式组件服务的详细信息。然后在每个节点上面运行一个代理程序定时收集组件服务的状态信息并网络通信到控制程序；控制程序记录数据库并调度下发服务修复指令到代理程序；代理程序执行修复指令修复组件服务。这种方式通用性强，也具有较强的集中可控性，但是存在如下不足：

1、组件服务的状态监控和修复都需要经过网络通信传输，会造成一定的时延；

2、对于一些只需要进行组件服务状态监控和简单修复操作的分布式系统的自愈，此种运维管理系统显得太过复杂，不灵活。

发明内容

本发明解决的技术问题在于提出了一种系统组件服务自愈方法，实现了针对大型分布式多组件服务系统的简单故障自动恢复，实现方法灵活且具有一定的通用性，也避免了复杂故障自动恢复运维管理系统的臃肿和网络通信时延。

本发明解决上述技术问题的技术方案是：

所述的方法包括如下步骤：

(1)对系统组件服务进行分类，设置每一类服务的监测和修复方法；

(2)根据节点角色，自定义节点上自愈程序配置文件的系统组件服务；

(3)启动自愈程序读取配置文件进行组件服务缓存；

(4)自愈程序定时检测各个组件的服务状态并做修复操作。

所述的分类按照大型系统各个服务的启动方式、监测方式进行分组操作；

所述分组操作包括在自愈程序中定义每一组的服务自愈基类；

所述自愈基类包括组件服务的状态监测和修复方法。

所述的节点角色是在大型分布式多组件服务的系统中，根据每个节点上运行的组件服务不同而定义为不同的角色；

所述的自愈程序配置文件至少包括有组件服务类别、组件服务名称；组件服务类别决定组件服务监控过程和修复过程中执行的监控和修复操作类型；组件服务名称决定监控和修复过程中具体的组件服务参数。

所述的定义组件程序配置文件包括有执行脚本程序，并通过传递组件服务参数进行配置文件定义。

所述的自愈程序是一个独立于大型分布式多组件系统的软件程序，运行在各个分布式节点上，负责对组件服务的状态监控和异常修复操作；

所述的状态监控包括判断组件服务进程是否处于正常运行状态；

所述的异常修复操作包括重启组件服务。

本发明方案的有益效果如下：

1、本发明提供一种系统组件的自愈方法，可以实现大型分布式多组件服务系统的故障监控和自动修复。

2、本发明的方法较专门的系统故障恢复系统具有简单轻巧、灵活可配的特性。

3、本发明的方法具有一定的通用性，同时避免了额外的网络通信所带来的时延。

附图说明

下面结合附图对本发明进一步说明：

图1为本发明方法的流程图。

具体实施方式

本发明提出一种系统组件服务的自愈方法，可以实现大型分布式多组件服务系统的故障监控和自动修复。

请参见图1为本发明实施例所提供方法的流程图。下面以G-Cloud云平台的组件服务自愈为例分别对其各个流程具体实现进行描述。

在G-Cloud云平台上存在很多组件服务，其中一些组件服务都是通过systemctl来管理，则定义这些组件服务为systemctl类服务，相应的指定SystemctlPollster功能子类进行状态监控和指定SystemctlCure功能子类进行修复；另外存在tomcat组件服务也可以定义为tomcat类服务，相应的指定TomcatPollster功能子类进行状态监控和指定TomcatCure功能子类进行修复，其他类服务类似。

(2)根据节点角色，一键自定义节点上自愈程序配置文件的系统组件服务；

在G-Cloud云平台上存在三种角色的节点：控制节点、网络节点和计算节点。这三种角色的节点所启动的组件服务各不相同，其中以虚拟网络组件服务为例，在控制节点中启动的组件服务为neutron-server；在网络节点中启动的组件服务为neutron-l3-agent、neutron-dhcp-agent、neutron-openvswitch-agent和openvswitch；在计算节点中启动的组件服务为neutron-openvswitch-agent和openvswitch。

在自愈组件的配置文件中可以配置各类组件服务的相关配置定义三种角色的节点，并在各自角色节点下定义相应的服务，以网络节点为例，部分配置如下所示：

##----------------tomcat--------------------

-name:tomcat.service

pollster:grest.cure.pollster.tomcat.TomcatPollster

cure:grest.cure.processor.tomcat.TomcatCure

##----------------neutron---------------------

-name:neutron-dhcp-agent.service

pollster:grest.cure.pollster.systemctl.SystemcltPollster

cure:grest.cure.processor.systemctl.SystemctlCure

-name:neutron-openvswitch-agent.service

pollster:grest.cure.pollster.systemctl.SystemcltPollster

cure:grest.cure.processor.systemctl.SystemctlCure

-name:neutron-l3-agent.service

pollster:grest.cure.pollster.systemctl.SystemcltPollster

cure:grest.cure.processor.systemctl.SystemctlCure

-name:neutron-lbaas-agent.service

pollster:grest.cure.pollster.systemctl.SystemcltPollster

cure:grest.cure.processor.systemctl.SystemctlCure

-name:openvswitch.service

pollster:grest.cure.pollster.systemctl.SystemcltPollster

cure:grest.cure.processor.systemctl.SystemctlCure

cure_mode:self

cure_related_components:neutron-openvswitch-agent.service

其中的xxxPollster为组件服务的监控子类，xxxCure为组件服务的自动修复子类。

(3)启动自愈程序读取配置文件进行组件服务缓存；

自愈程序中的自愈基类如下：

根据组件服务的分类进一步定义各个分类的自愈子类，如下设置SystemctlCure子类用于自动重启systemctl类的组件服务：

如下，设置TomcatCure子类完成tomcat组件服务的自动重启操作：

所有的自愈子类都继承自自愈基类CureBase，并各自实现自愈方法cure()，其中自愈方法中定义了各类组件服务的统一恢复方式。

(4)自愈程序定时检测各个组件的服务状态并做修复操作。

启动自愈程序后，自愈程序定时线程读取配置文件，然后针对各自角色节点配置的组件服务监控子类进行定时监控，当发现状态异常时，调用相应的修复子类进行自动修复操作。

以上描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出实质性创造所获得的方案，都属于本发明保护的范围。

Claims

1.一种系统组件服务自愈方法，其特征在于：所述的方法实现大型分布式多组件服务系统的故障监控和自动修复，包括如下步骤：

（1）对系统组件服务进行分类，设置每一类服务的监测和修复方法；

所述的分类按照大型系统各个服务的启动方式、监测方式进行分组操作；所述分组操作包括在自愈程序中定义每一组的服务自愈基类；所述自愈基类包括组件服务的状态监测和修复方法；根据组件服务的分类进一步定义各个分类的自愈子类，所有的自愈子类都继承自自愈基类，并各自实现自愈方法，其中自愈方法中定义了各类组件服务的统一恢复方式；自愈子类至少包括：监控子类、修复子类、自动重启子类；

（2）在大型分布式多组件服务的系统中，根据每个节点上运行的组件服务不同而定义节点为不同的节点角色，根据节点角色，自定义节点上自愈程序配置文件的系统组件服务；

所述的自愈程序配置文件至少包括有组件服务类别、组件服务名称；组件服务类别决定组件服务监控过程和修复过程中执行的监控和修复操作类型；组件服务名称决定监控和修复过程中具体的组件服务参数；

（3）启动自愈程序读取自愈程序配置文件进行组件服务缓存；

（4）自愈程序定时检测各个组件的服务状态并做修复操作；

启动自愈程序后，自愈程序定时线程读取自愈程序配置文件，然后针对各自节点角色配置的组件服务监控子类进行定时监控，当发现状态异常时，调用相应的修复子类进行自动修复操作。

2.根据权利要求1所述的一种系统组件服务自愈方法，其特征在于，所述的自愈程序配置文件包括有执行脚本程序，并通过传递组件服务参数进行配置文件定义。