CN110659159A

CN110659159A - 一种服务进程运行监控方法、装置、设备及存储介质

Info

Publication number: CN110659159A
Application number: CN201910839105.9A
Authority: CN
Inventors: 刘相乐; 姜洪正
Original assignee: Suzhou Wave Intelligent Technology Co Ltd
Current assignee: Suzhou Wave Intelligent Technology Co Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2020-01-07

Abstract

本发明公开了一种服务进程运行监控方法，应用于存储系统的任意一个节点，该方法包括：在达到设定的探测触发条件时，调用第一守护进程对服务进程的运行状态进行探测；如果探测到服务进程的运行状态出现异常，则通过第一守护进程对服务进程进行重启操作，以使服务进程恢复至正常运行状态。应用本发明实施例所提供的技术方案，先通过第一守护进程对服务进程进行重启操作，使得在存储系统的业务出现问题之前，及时对服务进程进行处理，将服务进程快速恢复至正常运行状态，避免影响存储系统业务的正常进行，使得存储系统业务不中断，使得在用户层面感知不到问题的存在。本发明还公开了一种服务进程运行监控装置、设备及存储介质，具有相应技术效果。

Description

一种服务进程运行监控方法、装置、设备及存储介质

技术领域

本发明涉及计算机应用技术领域，特别是涉及一种服务进程运行监控方法、装置、设备及存储介质。

背景技术

随着计算机技术的快速发展，存储系统，如NAS(Network Attached Storage，网络附属存储)集群存储系统在各行业的应用范围越来越广泛。存储系统的正常运行依赖于服务进程，如提供文件共享的服务进程的运行状态正常与否。存储系统的特性要求这类进程必须长期稳定运行。但由于系统环境的原因或者软件本身设计的原因，在长期运行之后，服务进程可能进入不正常的状态，比如进入死锁状态。

一旦出现这样的问题，就需要通过软件修改进行解决，软件修改需要一定的时间，在这个过程中，因为服务进程不可用，很可能会导致存储系统的业务无法正常进行。

发明内容

本发明的目的是提供一种服务进程运行监控方法、装置、设备及存储介质，以在服务进程出现异常时，能够保证存储系统的业务的正常进行。

为解决上述技术问题，本发明提供如下技术方案：

一种服务进程运行监控方法，应用于存储系统的任意一个节点，所述方法包括：

在达到设定的探测触发条件时，调用第一守护进程对服务进程的运行状态进行探测；

如果探测到所述服务进程的运行状态出现异常，则通过所述第一守护进程对所述服务进程进行重启操作，以使所述服务进程恢复至正常运行状态。

在本发明的一种具体实施方式中，所述通过所述第一守护进程对所述服务进程进行重启操作，包括：

将所述服务进程的服务端口加入防火墙；

收集所述服务进程的日志信息；

关闭所述服务进程；

启动所述服务进程；

将所述服务进程的服务端口从所述防火墙中放开。

在本发明的一种具体实施方式中，在所述关闭所述服务进程之后、所述启动所述服务进程之前，还包括：

检查所述服务进程所依赖的资源状态是否正常；

如果正常，则执行所述启动所述服务进程的步骤；

如果不正常，则对所述服务进程所依赖的资源状态进行恢复，并重复执行所述检查所述服务进程所依赖的资源状态是否正常的步骤。

在本发明的一种具体实施方式中，还包括：

在所述通过所述第一守护进程对所述服务进程进行重启操作的过程中，在所述第一守护进程执行每一步操作之前，均将相应操作信息记录到集群属性中；

在所述第一守护进程对所述服务进程的重启操作完成后，删除所述集群属性中记录的操作信息。

在本发明的一种具体实施方式中，还包括：

在所述第一守护进程意外关闭被启动后，查询所述集群属性中记录的操作信息；

如果所述集群属性中记录的操作信息为针对本节点的操作信息，则基于所述集群属性中记录的操作信息，继续通过所述第一守护进程对所述服务进程进行重启操作；

如果所述集群属性中记录的操作信息不是针对本节点的操作信息，则确定所述集群属性中记录的操作信息所针对的节点是否已下线，且本节点为对应活跃节点；

如果是，则基于所述集群属性中记录的操作信息，进行回滚操作。

在本发明的一种具体实施方式中，在探测到所述服务进程的运行状态出现异常时，在所述通过所述第一守护进程对所述服务进程进行重启操作之前，还包括：

确定当前时刻与上一次对所述服务进程进行重启操作的时刻的时间间隔是否大于设定阈值；

如果是，则执行所述通过所述第一守护进程对所述服务进程进行重启操作的步骤。

在本发明的一种具体实施方式中，还包括：

在所述第一守护进程运行过程中，通过第二守护进程对所述第一守护进程的运行状态进行监测；

在监测过程中，如果所述第一守护进程意外关闭，则通过所述第二守护进程启动所述第一守护进程。

一种服务进程运行监控装置，应用于存储系统的任意一个节点，所述装置包括：

探测模块，用于在达到设定的探测触发条件时，调用第一守护进程对服务进程的运行状态进行探测；

恢复模块，用于如果探测到所述服务进程的运行状态出现异常，则通过所述第一守护进程对所述服务进程进行重启操作，以使所述服务进程恢复至正常运行状态。

一种服务进程运行监控设备，应用于存储系统的任意一个节点，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一项所述服务进程运行监控方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述服务进程运行监控方法的步骤。

应用本发明实施例所提供的技术方案，存储系统的任意一个节点在达到设定的探测触发条件时，调用第一守护进程对服务进程的运行状态进行探测，如果探测到服务进程的运行状态出现异常，则可以通过第一守护进程对服务进程进行重启操作，以使服务进程恢复至正常运行状态。在服务进程出现异常时，虽然最终需要通过软件修改等方式进行解决，但先通过第一守护进程对服务进程进行重启操作，使得在存储系统的业务出现问题之前，及时对服务进程进行处理，将服务进程快速恢复至正常运行状态，避免影响存储系统业务的正常进行，使得存储系统业务不中断，使得在用户层面感知不到问题的存在。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种服务进程运行监控方法的实施流程图；

图2为本发明实施例中一种服务进程运行监控装置的结构示意图；

图3为本发明实施例中一种服务进程运行监控设备的结构示意图。

具体实施方式

本发明的核心是提供一种服务进程运行监控方法，该方法可以应用于存储系统的任意一个节点。存储系统可以由多个节点构成，每个节点中均可运行服务进程，以提供文件共享等服务。在本发明实施例中，存储系统的每个节点中均设置有第一守护进程，第一守护进程对服务进程进行守护，以在服务进程的运行状态出现异常时，能够通过重启等操作使服务进程恢复至正常运行状态。以使存储系统业务不中断，使得在用户层面感知不到问题的存在。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1所示，为本发明实施例所提供的一种服务进程运行监控方法的实施流程图，该方法可以包括以下步骤：

S110：在达到设定的探测触发条件时，调用第一守护进程对服务进程的运行状态进行探测。

在本发明实施例中，存储系统的每一节点中均运行有服务进程和第一守护进程。服务进程在运行过程中，可能会进入不正常的状态。在达到设定的探测触发条件时，可以调用第一守护进程对服务进程的运行状态进行探测，可以通过向服务进程发送探测消息对服务进程进行探测。

探测触发条件具体可以是时间条件，如在达到设定的第一时间间隔时认为达到了探测触发条件，周期性地进行探测。探测触发条件还可以是指令条件，如在接收到探测指令时认为达到了探测触发条件。具体的探测触发条件可以根据实际情况进行设定和调整，本发明实施例对此不做限制。

在实际应用中，可以对于节点中的每个服务进程均配置相应的第一守护进程进行守护，还可以配置一个第一守护进程对多个服务进程进行守护。

S120：如果探测到服务进程的运行状态出现异常，则通过第一守护进程对服务进程进行重启操作，以使服务进程恢复至正常运行状态。

在本发明实施例中，调用第一守护进程对服务进程的运行状态进行探测，如果探测到服务进程的运行状态正常，则可以不做任何操作，如果探测到服务进程的运行状态出现异常，则可以通过第一守护进程对服务进程进行重启操作，以使服务进程重启后能够恢复至正常运行状态。

在实际应用中，可以通过向服务进程发送探测消息对服务进程进行探测。如果服务进程没有响应，则可以确定服务进程的运行状态出现异常，或者，结合CPU、内存的占用率等系统特征确定服务进程的运行状态是否正常，以减少误判情况的发生。

在本发明的一种具体实施方式中，可以通过以下步骤通过第一守护进程对服务进程进行重启操作：

步骤一：将服务进程的服务端口加入防火墙；

步骤二：收集服务进程的日志信息；

步骤三：关闭服务进程；

步骤四：启动服务进程；

步骤五：将服务进程的服务端口从防火墙中放开。

为便于描述，将上述五个步骤结合起来进行说明。

在探测到服务进程的运行状态出现异常时，可以先将服务进程的服务端口加入防火墙，使得客户端新发起的请求暂时被阻塞，以争取恢复服务进程的时间，同时避免客户端应用有错误发生。然后收集服务进程的日志信息，以防止服务进程被重启后日志信息丢失。关闭服务进程，启动服务进程，将服务进程的服务端口从防火墙中放开。至此服务进程的重启操作已经完成。

在关闭服务进程之后，启动服务进程之前，还可以先检查服务进程所依赖的资源状态是否正常，如果正常，则执行启动服务进程的步骤，如果不正常，则可以对服务进程所依赖的资源状态进行恢复，并重复执行检查服务进程所依赖的资源状态是否正常的步骤，以便能够正常启动服务进程，并使得启动后的服务进程能够正常运行。

应用本发明实施例所提供的方法，存储系统的任意一个节点在达到设定的探测触发条件时，调用第一守护进程对服务进程的运行状态进行探测，如果探测到服务进程的运行状态出现异常，则可以通过第一守护进程对服务进程进行重启操作，以使服务进程恢复至正常运行状态。在服务进程出现异常时，虽然最终需要通过软件修改等方式进行解决，但先通过第一守护进程对服务进程进行重启操作，使得在存储系统的业务出现问题之前，及时对服务进程进行处理，将服务进程快速恢复至正常运行状态，避免影响存储系统业务的正常进行，使得存储系统业务不中断，使得在用户层面感知不到问题的存在。

在本发明的一个实施例中，该方法还可以包括以下步骤：

第一个步骤：在通过第一守护进程对服务进程进行重启操作的过程中，在第一守护进程执行每一步操作之前，均将相应操作信息记录到集群属性中；

第二个步骤：在第一守护进程对服务进程的重启操作完成后，删除集群属性中记录的操作信息。

为便于描述，将上述两个步骤结合起来进行说明。

在通过第一守护进程对服务进程进行重启操作的过程中，第一守护进程需要执行多个操作，如前面实施例所提到的将服务进程的服务端口加入防火墙、关闭服务服务进程等操作。在第一守护进程执行每一步操作之前，均将相应操作信息记录到集群属性中。如在将服务进程的服务端口加入防火墙之前，先将该操作信息记录到集群属性中。集群属性是存储系统中所有节点都可以看到的。

在第一守护进程执行每一步操作之前，均将相应操作信息记录到集群属性中，这样，在第一守护进程意外关闭被启动后，通过集群属性中记录的操作信息，可以知道之前的操作进行到哪一步，还有哪些恢复工作需要做。可以防止对服务进程的重启操作过程被打断而导致服务进程无法再正常执行，无法再提供服务。

在第一守护进程意外关闭被启动后，可以先查询集群属性中记录的操作信息。如果集群属性中记录的操作信息为针对本节点的操作信息，则可以基于集群属性中记录的操作信息，继续通过第一守护进程对服务进程进行重启操作，如果集群属性中记录的操作信息不是针对本节点的操作信息，则可以确定集群属性中记录的操作信息所针对的节点是否已下线，且本节点为对应活跃节点，如果是，则可以基于集群属性中记录的操作信息，进行回滚操作。

可以理解的是，第一守护进程在运行过程中，也可能因为一些原因被意外关闭，可以通过其他进程或者手动触发方式再次启动第一守护进程。第一守护进程意外关闭被启动后，可以先查询集群属性中记录的操作信息，确定有无操作信息，如果有，则可以进一步确定该操作信息是否是针对本节点的，如果是，则可以基于该操作信息继续对服务进程进行重启操作，确保服务进程可以恢复正常运行状态。如果该操作信息不是针对本节点的，则可以进一步判断其所针对的节点是否存在，即是否已下线，如果已下线，则再判断其所针对的节点的资源是否已经漂移到本节点，即本节点是否为对应活跃节点，如果是，则可以基于该操作信息，进行回滚操作，以恢复对存储系统的修改等操作。

在集群属性中，会记录操作信息所针对的节点的信息、资源漂移到的节点的信息等信息。

在第一守护进程对服务进程的重启操作完成后，可以删除集群属性中记录的操作信息。

在本发明的一个实施例中，在探测到服务进程的运行状态出现异常时，在通过第一守护进程对服务进程进行重启操作之前，该方法还可以包括以下步骤：

确定当前时刻与上一次对服务进程进行重启操作的时刻的时间间隔是否大于设定阈值；如果是，则执行通过第一守护进程对服务进程进行重启操作的步骤。

在本发明实施例中，在探测到服务进程的运行状态出现异常时，可以先确定当前时刻与上一次对服务进程进行重启操作的时刻的时间间隔是否大于设定阈值，如果不大于，则有可能在服务进程在上一次被执行重启操作后尚未完全启动完成，如果在这个过程中，服务进程再次被执行重启操作，很可能会出现异常情况。为避免这种情况的发生，本发明实施例在确定当前时刻与上一次对服务进程进行重启操作的时刻的时间间隔大于设定阈值时，才会执行通过第一守护进程对服务进程进行重启操作的步骤。

在本发明的一个实施例中，该方法还可以包括以下步骤：

步骤一：在第一守护进程运行过程中，通过第二守护进程对第一守护进程的运行状态进行监测；

步骤二：在监测过程中，如果第一守护进程意外关闭，则通过第二守护进程启动第一守护进程。

在本发明实施例中，第一守护进程会涉及到对服务进程的启动和关闭以及在恢复服务进程正常状态过程中可能涉及的其他操作，需要保证一个完整的重启过程是原子操作，即整个操作需要被完全执行完成。如果对服务进程的重启操作执行到一半被意外打断，可能会出现服务进程被关闭却没有被启动等异常情况，从而导致业务无法访问。因此，本发明实施例在第一守护进程运行过程中，通过第二守护进程对第一守护进程的运行状态进行监测，在监测过程中，如果第一守护进程意外关闭，则通过第二守护进程启动第一守护进程，以及时将第一守护进程拉起来并继续完成剩下的重启操作。

在实际应用中，存储系统中具有某些服务进程在上层应用的超时时间内阻塞并不会造成业务中断的特点，本发明实施例使用一个守护进程对服务进程发送探测消息，探测服务进程是否正常，当服务进程未及时响应探测时，再结合其他现象，如资源占用率等确定服务进程出现异常，进而及时处理异常情况并重启服务进程，使得在上层应用所能感知到的超时时间内将下层的服务异常及时处理掉，保证服务进程的正常运行，整个过程对上层应用是透明的。

相应于上面的方法实施例，本发明实施例还提供了一种服务进程运行监控装置，应用于存储系统的任意一个节点，下文描述的一种服务进程运行监控装置与上文描述的一种服务进程运行监控方法可相互对应参照。

参见图2所示，该装置包括：

探测模块210，用于在达到设定的探测触发条件时，调用第一守护进程对服务进程的运行状态进行探测；

恢复模块220，用于如果探测到服务进程的运行状态出现异常，则通过第一守护进程对服务进程进行重启操作，以使服务进程恢复至正常运行状态。

应用本发明实施例所提供的装置，存储系统的任意一个节点在达到设定的探测触发条件时，调用第一守护进程对服务进程的运行状态进行探测，如果探测到服务进程的运行状态出现异常，则可以通过第一守护进程对服务进程进行重启操作，以使服务进程恢复至正常运行状态。在服务进程出现异常时，虽然最终需要通过软件修改等方式进行解决，但先通过第一守护进程对服务进程进行重启操作，使得在存储系统的业务出现问题之前，及时对服务进程进行处理，将服务进程快速恢复至正常运行状态，避免影响存储系统业务的正常进行，使得存储系统业务不中断，使得在用户层面感知不到问题的存在。

在本发明的一种具体实施方式中，恢复模块220，具体用于：

将服务进程的服务端口加入防火墙；

收集服务进程的日志信息；

关闭服务进程；

启动服务进程；

将服务进程的服务端口从防火墙中放开。

在本发明的一种具体实施方式中，恢复模块，还用于：

在关闭服务进程之后、启动服务进程之前，检查服务进程所依赖的资源状态是否正常；

如果正常，则执行启动服务进程的步骤；

如果不正常，则对服务进程所依赖的资源状态进行恢复，并重复执行检查服务进程所依赖的资源状态是否正常的步骤。

在本发明的一种具体实施方式中，还包括：

记录模块，用于在通过第一守护进程对服务进程进行重启操作的过程中，在第一守护进程执行每一步操作之前，均将相应操作信息记录到集群属性中；

删除模块，用于在第一守护进程对服务进程的重启操作完成后，删除集群属性中记录的操作信息。

在本发明的一种具体实施方式中，还包括启动操作模块，用于：

在第一守护进程意外关闭被启动后，查询集群属性中记录的操作信息；

如果集群属性中记录的操作信息为针对本节点的操作信息，则基于集群属性中记录的操作信息，继续通过第一守护进程对服务进程进行重启操作；

如果集群属性中记录的操作信息不是针对本节点的操作信息，则确定集群属性中记录的操作信息所针对的节点是否已下线，且本节点为对应活跃节点；

如果是，则基于集群属性中记录的操作信息，进行回滚操作。

在本发明的一种具体实施方式中，还包括间隔确定模块，用于：

在探测到服务进程的运行状态出现异常时，在通过第一守护进程对服务进程进行重启操作之前，确定当前时刻与上一次对服务进程进行重启操作的时刻的时间间隔是否大于设定阈值；

如果是，则执行通过第一守护进程对服务进程进行重启操作的步骤。

在本发明的一种具体实施方式中，还包括守护模块，用于：

在第一守护进程运行过程中，通过第二守护进程对第一守护进程的运行状态进行监测；

在监测过程中，如果第一守护进程意外关闭，则通过第二守护进程启动第一守护进程。

相应于上面的方法实施例，本发明实施例还提供了一种服务进程运行监控设备，应用于存储系统的任意一个节点，如图3所示，该设备包括：

存储器310，用于存储计算机程序；

处理器320，用于执行计算机程序时实现上述服务进程运行监控方法的步骤。

相应于上面的方法实施例，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述服务进程运行监控方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种服务进程运行监控方法，其特征在于，应用于存储系统的任意一个节点，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述第一守护进程对所述服务进程进行重启操作，包括：

将所述服务进程的服务端口加入防火墙；

收集所述服务进程的日志信息；

关闭所述服务进程；

启动所述服务进程；

将所述服务进程的服务端口从所述防火墙中放开。

3.根据权利要求2所述的方法，其特征在于，在所述关闭所述服务进程之后、所述启动所述服务进程之前，还包括：

检查所述服务进程所依赖的资源状态是否正常；

如果正常，则执行所述启动所述服务进程的步骤；

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，在探测到所述服务进程的运行状态出现异常时，在所述通过所述第一守护进程对所述服务进程进行重启操作之前，还包括：

7.根据权利要求1至6之中任一项所述的方法，其特征在于，还包括：

8.一种服务进程运行监控装置，其特征在于，应用于存储系统的任意一个节点，所述装置包括：

9.一种服务进程运行监控设备，其特征在于，应用于存储系统的任意一个节点，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述服务进程运行监控方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述服务进程运行监控方法的步骤。