CN112035326A

CN112035326A - 基于集群节点互检的异常节点任务处理方法及装置

Info

Publication number: CN112035326A
Application number: CN202010915491.8A
Authority: CN
Inventors: 田阔
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-12-04

Abstract

本发明公开了一种基于集群节点互检的异常节点任务处理方法及装置，其中，该方法包括：由集群中的各个节点服务器定时更新数据库的心跳时刻；当集群中任意一个节点服务器更新数据库的心跳时刻后，由该节点服务器获取集群中其他各个节点服务器更新数据库的心跳时刻；由该节点服务器判断其他各个节点服务器更新数据库的心跳时刻与当前时刻的间隔时长是否超过预设时长，并将间隔时长超过预设时长的其他任意一个节点服务器确定为异常节点服务器；将异常节点服务器上执行的任务，切换到正常节点服务器上。本发明利用集群节点互检的方式，能够及时发现集群中的异常节点服务器，进而将异常节点服务器上的任务切换到正常节点服务器上，保证任务的正常进行。

Description

基于集群节点互检的异常节点任务处理方法及装置

技术领域

本发明涉及分布式集群系统领域，尤其涉及一种基于集群节点互检的异常节点任务处理方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在分布式集群架构的业务系统中，由于各个节点执行不同的任务，当集群中某个节点出现宕机，且没有被及时处理，会导致宕机节点上的任务不能被正常执行，从而影响到整个业务系统的正常运行。

因而，如何及时发现集群中出现宕机的节点，将宕机节点的任务切换到其他正常的节点上执行，以确保集群节点的任务正常运行，显得尤为重要。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例中提供了一种基于集群节点互检的异常节点任务处理方法，用以解决现有技术中由人工监控集群中的宕机节点并对宕机节点上的任务进行切换处理的方式，无法及时发现集群中出现宕机的节点，难以确保集群节点的任务正常运行的技术问题，该方法包括：由集群中的各个节点服务器定时更新数据库的心跳时刻；当集群中任意一个节点服务器更新数据库的心跳时刻后，由该节点服务器获取集群中其他各个节点服务器更新数据库的心跳时刻；由该节点服务器判断其他各个节点服务器更新数据库的心跳时刻与当前时刻的间隔时长是否超过预设时长，并将间隔时长超过预设时长的其他任意一个节点服务器确定为异常节点服务器；将异常节点服务器上执行的任务，切换到正常节点服务器上。

本发明实施例中还提供了一种基于集群节点互检的异常节点任务处理装置，用以解决现有技术中由人工监控集群中的宕机节点并对宕机节点上的任务进行切换处理的方式，无法及时发现集群中出现宕机的节点，难以确保集群节点的任务正常运行的技术问题，该装置包括：数据库心跳时刻更新模块，用于由集群中的各个节点服务器定时更新数据库的心跳时刻；服务器参数信息获取模块，用于当集群中任意一个节点服务器更新数据库的心跳时刻后，由该节点服务器获取集群中其他各个节点服务器更新数据库的心跳时刻；异常节点服务器检测模块，用于由该节点服务器判断其他各个节点服务器更新数据库的心跳时刻与当前时刻的间隔时长是否超过预设时长，并将间隔时长超过预设时长的其他任意一个节点服务器确定为异常节点服务器；任务切换模块，用于将异常节点服务器上执行的任务，切换到正常节点服务器上。

本发明实施例中还提供了一种计算机设备，用以解决现有技术中由人工监控集群中的宕机节点并对宕机节点上的任务进行切换处理的方式，无法及时发现集群中出现宕机的节点，难以确保集群节点的任务正常运行的技术问题，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述基于集群节点互检的异常节点任务处理方法。

本发明实施例中还提供了一种计算机可读存储介质，用以解决现有技术中由人工监控集群中的宕机节点并对宕机节点上的任务进行切换处理的方式，无法及时发现集群中出现宕机的节点，难以确保集群节点的任务正常运行的技术问题，该计算机可读存储介质存储有执行上述基于集群节点互检的异常节点任务处理方法的计算机程序。

本发明实施例中，由集群中的各个节点服务器定时更新数据库的心跳时刻，当集群中任意一个节点服务器更新数据库的心跳时刻后，由该节点服务器获取集群中其他各个节点服务器更新数据库的心跳时刻，进而由该节点服务器判断其他各个节点服务器更新数据库的心跳时刻与当前时刻的间隔时长是否超过预设时长，并将间隔时长超过预设时长的其他任意一个节点服务器确定为异常节点服务器，最后将异常节点服务器上执行的任务，切换到正常节点服务器上，与现有技术中由人工监控集群中的宕机节点并对宕机节点上的任务进行切换处理的技术方案相比，本发明实施例利用集群节点互检方式，能够及时发现集群中出现异常的节点服务器，进而将异常节点服务器上执行的任务切换到正常节点服务器上，以保证任务的正常进行。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中提供的一种基于集群节点互检的异常节点任务处理方法流程图；

图2为本发明实施例中提供的一种可选的基于集群节点互检的异常节点任务处理方法流程图；

图3为本发明实施例中提供的一种基于集群节点互检的异常节点任务处理方法的具体实现流程图；

图4为本发明实施例中提供的一种基于集群节点互检的异常节点任务处理装置示意图；

图5为本发明实施例中提供的一种可选的基于集群节点互检的异常节点任务处理装置示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

本发明实施例中提供了一种基于集群节点互检的异常节点任务处理方法，图1为本发明实施例中提供的一种基于集群节点互检的异常节点任务处理方法流程图，如图1所示，该方法包括如下步骤：

S101，由集群中的各个节点服务器定时更新数据库的心跳时刻。

需要说明的是，本发明实施例中的集群可以是但不限于执行分布式任务的集群，集群中的每个节点服务器执行不同的任务。

在具体实施时，上述S101可以通过如下步骤来实现：启动集群中各个节点服务器上的定时器，使得各个节点服务器定时更新数据库的心跳时刻。数据库心跳检测方法，是在数据库中创建一个数据表，该数据表中包含一个存储时间戳的心跳字段，心跳检测时，会将心跳检测时的时间戳更新到数据表的心跳字段。

S102，当集群中任意一个节点服务器更新数据库的心跳时刻后，由该节点服务器获取集群中其他各个节点服务器更新数据库的心跳时刻。

具体地，集群中的每个节点服务器都会定时更新数据库的心跳时刻，并在每次更新数据库的心跳时刻后，获取集群中其他节点服务器更新数据库的心跳时刻，以便检测出长时间段内未更新数据库心跳时刻的节点服务器，则该节点服务器很可能发生异常。

S103，由该节点服务器判断其他各个节点服务器更新数据库的心跳时刻与当前时刻的间隔时长是否超过预设时长，并将间隔时长超过预设时长的其他任意一个节点服务器确定为异常节点服务器。

具体地，上述S103中预设时长可以是根据具体应用场景预先设置的一个时间段，例如，1分钟、5分钟等。由于集群中每个节点服务器都会与集群中除该节点外的其他节点进行互检，以检测出长时间段内未更新数据库心跳时刻的节点服务器，将该节点服务器确定为异常节点服务器。

S104，将异常节点服务器上执行的任务，切换到正常节点服务器上。

具体地，在上述S104中，在根据更新数据库心跳时刻的间隔时长，检测出异常节点服务器后，可以将异常节点服务器上执行的任务，切换到集群中的正常节点服务器上，以便异常节点服务器上的任务正常进行。

由上可知，本发明实施例中提供的基于集群节点互检的异常节点任务处理方法，由集群中的各个节点服务器定时更新数据库的心跳时刻，当集群中任意一个节点服务器更新数据库的心跳时刻后，由该节点服务器获取集群中其他各个节点服务器更新数据库的心跳时刻，进而由该节点服务器判断其他各个节点服务器更新数据库的心跳时刻与当前时刻的间隔时长是否超过预设时长，并将间隔时长超过预设时长的其他任意一个节点服务器确定为异常节点服务器，最后将异常节点服务器上执行的任务，切换到正常节点服务器上。

通过本发明实施例中提供的基于集群节点互检的异常节点任务处理方法，利用集群节点互检方式，能够及时发现集群中出现异常的节点服务器，进而将异常节点服务器上执行的任务切换到正常节点服务器上，以保证任务的正常进行。

由于集群中的每个节点服务器都需要设置唯一标识，来区分集群中执行不同任务的各个节点服务器，因而，在一个实施例中，如图2所示，本发明实施例中提供的基于集群节点互检的异常节点任务处理方法还可以包括如下步骤：

S201，为集群中各个节点服务器配置唯一的服务器标识；

S202，将各个节点服务器的服务器标识，存储到数据库中；

S203，通过配置数据库中各个待执行任务与各个节点服务器标识的对应关系，将各个待执行任务分配到各个节点服务器上。

可选地，基于上述实施例，在将异常节点服务器上执行的任务切换到正常节点服务器上的时候，可以通过如下方式来实现：

S204，将数据库中异常节点服务器上执行的任务对应的服务器标识，更改为正常节点服务器的服务器标识。

图3为本发明实施例中提供的一种基于集群节点互检的异常节点任务处理方法的具体实现流程图，如图3所示，包括如下步骤：

①根据业务要求(例如，银行业务系统中的合约种类)，将待执行任务合理分配到集群中不同节点的服务器，确保每个任务只能在一台服务器上执行。在具体实施时，可以通过更改数据库中执行各个任务的服务器标识，将待执行的各个任务分配到不同节点的服务器上。当集群为分布式集群的情况下，可以将待执行任务拆分为多个子任务，分配到不同节点的服务器上。

②集群中的各个节点服务器根据数据库中存储的任务与服务器标识的对应关系，执行各自的任务(确保一个待执行任务在一个服务器上执行)。

③启动各个节点服务器上的定时器，定时(例如，每分钟)更新服务器上数据库的心跳时刻，每次更新后，获取其他节点服务器更新数据库的心跳时刻，与当前时刻进行时间差值计算，得到间隔时长，根据间隔时长，判断其他节点的工作状态是否发生异常。若间隔时长小于或等于预设时长(例如，不超过5分钟)，则确定节点服务器工作正常；若间隔时长大于预设时长，则确定节点服务器工作异常。

在一个实施例中，每个节点服务器自己的心跳时间后，可以通过读取JVM配置好的其他节点服务器参数信息，获取其他节点服务器的心跳时刻。

④通过更新数据库中分配到异常节点服务器上执行任务的服务器标识，将异常节点服务器上执行的任务切换到正常节点服务器上，以便常节点服务器上执行的任务可以继续正常执行。

可见，本发明实施例中，在确定集群中每台服务器的唯一标识后，使得每个服务器根据各自的唯一标识，执行各自的任务，启动各个服务器上的定时器，更新服务器上数据库的心跳时刻，并更新心跳时间后，检查其他服务器心跳是否超时，若发现心跳超时的异常节点服务器，更新任务到正常节点服务器中，使得异常节点服务器上的任务切换到正常节点服务器上继续执行。

基于同一发明构思，本发明实施例中还提供了一种基于集群节点互检的异常节点任务处理装置，如下面的实施例所述。由于该装置解决问题的原理与上述基于集群节点互检的异常节点任务处理方法相似，因此该装置的实施可以参见上述基于集群节点互检的异常节点任务处理方法的实施，重复之处不再赘述。

图4为本发明实施例中提供的一种基于集群节点互检的异常节点任务处理装置示意图，如图4所示，该装置包括：数据库心跳时刻更新模块41、服务器参数信息获取模块42、异常节点服务器检测模块43和任务切换模块44。

其中，数据库心跳时刻更新模块41，用于由集群中的各个节点服务器定时更新数据库的心跳时刻；服务器参数信息获取模块42，用于当集群中任意一个节点服务器更新数据库的心跳时刻后，由该节点服务器获取集群中其他各个节点服务器更新数据库的心跳时刻；异常节点服务器检测模块43，用于由该节点服务器判断其他各个节点服务器更新数据库的心跳时刻与当前时刻的间隔时长是否超过预设时长，并将间隔时长超过预设时长的其他任意一个节点服务器确定为异常节点服务器；任务切换模块44，用于将异常节点服务器上执行的任务，切换到正常节点服务器上。

由上可知，本发明实施例中提供的基于集群节点互检的异常节点任务处理装置，由集群中的各个节点服务器通过数据库心跳时刻更新模块41定时更新数据库的心跳时刻；当集群中任意一个节点服务器更新数据库的心跳时刻后，由该节点服务器通过服务器参数信息获取模块42获取集群中其他各个节点服务器更新数据库的心跳时刻；由该节点服务器通过异常节点服务器检测模块43判断其他各个节点服务器更新数据库的心跳时刻与当前时刻的间隔时长是否超过预设时长，并将间隔时长超过预设时长的其他任意一个节点服务器确定为异常节点服务器；最后通过任务切换模块44将异常节点服务器上执行的任务，切换到正常节点服务器上。

在一个实施例中，如图5所示，本发明实施例中提供的基于集群节点互检的异常节点任务处理装置还可以包括：服务器标识配置模块45，用于为集群中各个节点服务器配置唯一的服务器标识；服务器标识存储模块46，用于将各个节点服务器的服务器标识，存储到数据库中；任务分配模块47，用于通过配置数据库中各个待执行任务与各个节点服务器标识的对应关系，将各个待执行任务分配到各个节点服务器上。

可选地，基于上述实施例，上述任务切换模44块还用于将数据库中异常节点服务器上执行的任务对应的服务器标识，更改为正常节点服务器的服务器标识。

在一个实施例中，数据库心跳时刻更新模块41还用于启动集群中各个节点服务器上的定时器，使得各个节点服务器定时更新数据库的心跳时刻。

本发明实施例还提供一种计算机设备，用以解决现有技术中由人工监控集群中的宕机节点并对宕机节点上的任务进行切换处理的方式，无法及时发现集群中出现宕机的节点，难以确保集群节点的任务正常运行的技术问题，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述基于集群节点互检的异常节点任务处理方法。

本发明实施例还提供一种计算机可读存储介质，用以解决现有技术中由人工监控集群中的宕机节点并对宕机节点上的任务进行切换处理的方式，无法及时发现集群中出现宕机的节点，难以确保集群节点的任务正常运行的技术问题，该计算机可读存储介质存储有执行上述基于集群节点互检的异常节点任务处理方法的计算机程序。

综上所述，本发明实施例中提供了一种基于集群节点互检的异常节点任务处理方法、装置、计算机设备及计算机可读存储介质，建立服务器集群节点互检机制。集群中各个节点服务器定时更新自己的心跳时刻，同时检测其他节点服务器的心跳时刻是否超时，从而及时发现异常的节点服务器，将异常节点服务器上的任务切换到正常节点服务器上，与现有技术中由人工监控集群中的宕机节点并对宕机节点上的任务进行切换处理的技术方案相比，本发明实施例基于集群节点互检的方式，能够及时发现集群中出现异常的节点，进而将异常节点的任务分配到其他正常节点进行处理，保证任务正常进行，避免造成任务挤压，影响客户交易。

本发明实施例，能够实现但不限于如下技术效果：①快速响应：当服务器出现异常，能够快速响应。将异常服务器任务及时更新到其中的某台正常服务器中；②实时性：对于服务器出现异常情况，能够快速处理，正常服务器能够迅速接管异常服务器任务。可以将影响降到最低；③安全性：不会因为服务器异常，而导致任务不能继续执行。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于集群节点互检的异常节点任务处理方法，其特征在于，包括：

由集群中的各个节点服务器定时更新数据库的心跳时刻；

当集群中任意一个节点服务器更新数据库的心跳时刻后，由该节点服务器获取集群中其他各个节点服务器更新数据库的心跳时刻；

由该节点服务器判断其他各个节点服务器更新数据库的心跳时刻与当前时刻的间隔时长是否超过预设时长，并将间隔时长超过预设时长的其他任意一个节点服务器确定为异常节点服务器；

将异常节点服务器上执行的任务，切换到正常节点服务器上。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

为集群中各个节点服务器配置唯一的服务器标识；

将各个节点服务器的服务器标识，存储到数据库中；

通过配置数据库中各个待执行任务与各个节点服务器标识的对应关系，将各个待执行任务分配到各个节点服务器上。

3.如权利要求2所述的方法，其特征在于，将异常节点服务器上执行的任务，切换到正常节点服务器上，包括：

将数据库中异常节点服务器上执行的任务对应的服务器标识，更改为正常节点服务器的服务器标识。

4.如权利要求1至3任一项所述的方法，其特征在于，由集群中的各个节点服务器定时更新数据库的心跳时刻，包括：

启动集群中各个节点服务器上的定时器，使得各个节点服务器定时更新数据库的心跳时刻。

5.一种基于集群节点互检的异常节点任务处理装置，其特征在于，包括：

数据库心跳时刻更新模块，用于由集群中的各个节点服务器定时更新数据库的心跳时刻；

服务器参数信息获取模块，用于当集群中任意一个节点服务器更新数据库的心跳时刻后，由该节点服务器获取集群中其他各个节点服务器更新数据库的心跳时刻；

异常节点服务器检测模块，用于由该节点服务器判断其他各个节点服务器更新数据库的心跳时刻与当前时刻的间隔时长是否超过预设时长，并将间隔时长超过预设时长的其他任意一个节点服务器确定为异常节点服务器；

任务切换模块，用于将异常节点服务器上执行的任务，切换到正常节点服务器上。

6.如权利要求5所述的装置，其特征在于，所述装置还包括：

服务器标识配置模块，用于为集群中各个节点服务器配置唯一的服务器标识；

服务器标识存储模块，用于将各个节点服务器的服务器标识，存储到数据库中；

任务分配模块，用于通过配置数据库中各个待执行任务与各个节点服务器标识的对应关系，将各个待执行任务分配到各个节点服务器上。

7.如权利要求6所述的装置，其特征在于，所述任务切换模块还用于将数据库中异常节点服务器上执行的任务对应的服务器标识，更改为正常节点服务器的服务器标识。

8.如权利要求5至7任一项所述的装置，其特征在于，所述数据库心跳时刻更新模块还用于启动集群中各个节点服务器上的定时器，使得各个节点服务器定时更新数据库的心跳时刻。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一项所述基于集群节点互检的异常节点任务处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至4任一项所述基于集群节点互检的异常节点任务处理方法的计算机程序。