CN113742173A

CN113742173A - 多设备集群的控制方法、设备主控装置及可读存储介质

Info

Publication number: CN113742173A
Application number: CN202111003234.8A
Authority: CN
Inventors: 魏齐良; 杨世增
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-12-03
Anticipated expiration: 2041-08-30
Also published as: CN113742173B

Abstract

本申请提供了一种多设备集群的控制方法、设备主控装置及可读存储介质，其中，设备包括存储器和主控装置，主控装置与存储器进行通信连接，控制方法包括：每一主控装置监测其他设备的工作状态；当监测到其他设备的工作出现故障时，设置一镜像控制单元接管出现故障的其他设备的主控装置；镜像控制单元与出现故障的其他设备的存储器通信连接，进行数据交互。因此，本申请能够在其中一个设备出现故障时，由其他设备设置镜像控制单元接管该设备上的业务处理，实现故障设备的业务和主控装置的业务隔离，在保证该出现故障的设备的业务连续进行的同时，增加各设备间的独立性，使得故障设备的业务和主控装置的业务均不受影响，从而保证多设备集群的性能。

Description

多设备集群的控制方法、设备主控装置及可读存储介质

技术领域

本申请涉及计算机集群技术领域，特别是涉及一种多设备集群的控制方法、设备主控装置及可读存储介质。

背景技术

计算机集群(cluster)是一组计算机作为一个整体向用户提供一组网络资源。这些单个的计算机系统就是计算机集群的节点(node)。一个理想的计算机集群是：用户从来不会意识到集群系统底层的节点，在用户角度，计算机集群是一个整体系统，而非多个单独的计算机系统。并且计算机集群系统的管理员可以随意增加和删改集群系统的节点。

由于计算机集群中的每一个节点均可独立完成一个业务需求。因此在计算机集群工作时，必须保证所有节点均处于正常的工作状态。现有技术中，在其中一个节点出现故障时，将会控制一计算机节点接管故障节点的业务。但是接管的计算机节点要在原有的业务上增量处理故障节点的业务，会影响原有计算机节点的业务处理，影响计算机集群的性能和用户体验。

发明内容

本申请主要解决的技术问题是提供一种多设备集群的控制方法、设备主控装置及可读存储介质，能够在其中一个设备出现故障时，其他设备通过业务隔离的方式接管该设备上的业务处理，保证设备集群的性能和业务的连续性。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种多设备集群的控制方法，设备包括存储器和主控装置，所述主控装置与所述存储器进行通信连接，所述控制方法包括：

所述每一所述主控装置监测其他设备的工作状态；

当监测到所述其他设备的工作出现故障时，设置一镜像控制单元接管出现故障的所述其他设备的主控装置；

所述镜像控制单元与出现故障的所述其他设备的存储器通信连接，进行数据交互。

其中，所述每一所述主控装置监测其他设备的工作状态的步骤包括：

每一所述主控装置监测相邻的所述其他设备的工作状态。

其中，每一所述主控装置监测其他设备的工作状态的步骤包括：

每一所述主控装置监测所述其他设备的主控装置的工作状态。

其中，每一所述主控装置监测所述其他设备的主控装置的工作状态的步骤包括：

每一所述主控装置向其所监测的主控装置发送监测信号，并判断在预设时间内是否接收到被监测的所述主控装置的反馈信号；

若判断的结果为是，则监测到所述其他设备的主控装置正常工作；

若判断的结果为否，则监测到所述其他设备的主控装置出现故障。

其中，镜像控制单元与出现故障的所述其他设备的存储器连接之后进一步包括：

继续监测出现故障的主控装置的工作状态。

其中，控制方法还包括：

在监测到出现故障的主控装置已经恢复正常工作状态后，停止镜像控制单元的工作，使得恢复正常工作状态的主控装置与对应的存储器进行通信连接，并且将所述镜像控制单元接管的业务转交给所述恢复正常工作状态的主控装置。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种基于多设备集群中的设备主控装置，所述设备包括存储器和主控装置，所述主控装置与所述存储器进行通信连接，其中，所述主控装置包括：

监测模块，用于监测其他设备的工作状态；

设置模块，用于当所述监测模块监测到所述其他设备的工作出现故障时，设置一镜像控制单元接管出现故障的所述其他设备的主控装置；

通信模块，用于控制所述镜像控制单元与出现故障的所述其他设备的存储器通信连接，进行数据交互。

其中，所述监测模块监测相邻的所述其他设备的工作状态。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种基于多设备集群中的设备主控装置，包括处理器以及存储器，所述处理器耦合所述存储器，所述存储器存储有计算机程序，所述处理器在工作时执行所述计算机程序以实现上述的方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述的方法。

本申请的有益效果是：区别于现有技术的情况，本申请提供一种多设备集群的控制方法、设备主控装置及可读存储介质，其中，设备包括存储器和主控装置，主控装置与存储器进行通信连接，控制方法包括：每一主控装置监测其他设备的工作状态；当监测到其他设备的工作出现故障时，设置一镜像控制单元接管出现故障的其他设备的主控装置；镜像控制单元与出现故障的其他设备的存储器通信连接，进行数据交互。因此，本申请能够在其中一个设备出现故障时，由其他设备设置镜像控制单元接管该设备上的业务处理，实现了将故障设备的业务和主控装置的业务隔离，在保证该出现故障的设备的业务连续进行的同时，增加了各设备间的独立性，使得故障设备的业务和主控装置的业务均不受影响，从而保证多设备集群的性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本申请实施例提供一种多设备集群的结构示意图；

图2是本申请实施例提供一种多设备集群的控制方法的流程图；

图3是本申请实施例提供另一种多设备集群的结构示意图；

图4是本申请实施例中多设备集群出现故障时的一种结构示意图；

图5是本申请实施例提供的一种基于多设备集群中的设备主控装置的结构示意图；

图6是本申请实施例提供的另一种基于多设备集群中的设备主控装置的结构示意图；

图7是本申请提供的计算机可读存储介质实施例的示意框图。

具体实施方式

下面结合附图和实施例，对本申请作进一步的详细描述。特别指出的是，以下实施例仅用于说明本申请，但不对本申请的范围进行限定。同样的，以下实施例仅为本申请的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

请参阅图1，图1是本申请实施例提供的一种多设备集群的结构示意图。如图1所示，本实施例的多设备集群10包括多个设备101。多个设备101相互独立的执行各自的业务。比如有的设备101执行拉流功能，有的设备101执行推流业务，有的设备101执行存储业务，有的设备101执行转发业务等等。

在多设备集群10中，每个设备101均包括存储器1011和主控装置1012。多设备101的存储器1011之间通过预先设置的协议进行级联。在实际应用中，存储器1011是相对独立的，每个存储器1011只需为同属一设备101的主控装置1012服务。存储器1011在实际应用中，可为硬盘等具有存储功能的介质。

主控装置1012是设备101执行业务的处理器，其主要通过访问存储器1011来完成业务的处理。在正常应用中，每个设备101的主控装置1012也是独立执行业务的。

由于设备101之间的工作是相互独立的，并且通常情况下，设备101处理的业务也是独立分开的。因此若存在设备101出现故障的情况下，该设备101处理的业务就会受到影响。甚至在其中一设备101断电等场景下，也会影响业务的处理。本申请基于上述问题提出了一种多设备集群的控制方案，在设备101出现工作故障时，由其他正常的设备101接管出现故障的设备101的业务，保证业务的正常连续进行，从而保证多设备集群的性能。具体的控制方案请参阅下文详述。

请参阅图2，图2是本申请实施例提供一种多设备集群的控制方法的流程图。如图2所示，本实施例的控制方法包括以下步骤：

步骤S1：每一主控装置监测其他设备的工作状态。

本步骤中，主控装置可根据预先设置好的规则监测其他设备的工作状态。具体监测方案将在下文详细介绍。

步骤S2：当监测到其他设备的工作出现故障时，设置一镜像控制单元接管出现故障的其他设备的主控装置。

镜像控制单元具有该出现故障的设备处理业务的能力，是该出现故障的设备的镜像。

步骤S3：镜像控制单元与出现故障的其他设备的存储器通信连接，进行数据交互。

因此，本申请实施例能够在其中一个设备出现故障时，由其他设备设置镜像控制单元接管该设备上的业务处理，镜像控制单元和主控装置的控制单元独立分别处理故障设备的业务和该主控装置原有的业务，实现了将故障设备的业务和主控装置的业务隔离，保证该出现故障的设备的业务连续进行的同时，增加了各设备间的独立性，使得故障设备的业务和主控装置的业务均不受影响，从而保证多设备集群的性能。

在步骤S1中，主控装置监测其他设备的工作状态的技术方案可包括以下几种：

第一种：每一主控装置监测相邻的其他设备的工作状态。例如图1中，对于位置A的设备，位置B的设备与之相邻，则位置A的设备的主控装置监测位置B的设备的工作状态；对于位置B的设备，位置A的设备和位置C的设备均与之相邻，则位置B的设备的主控装置监测位置A和位置C的设备的工作状态；依次类推，位置N-1的设备的主控装置监测位置N的设备和位置N-2的设备的工作状态，位置N的设备的主控装置监测位置N-1的设备的工作状态。

第二种：每一主控装置监测距离最近的其他设备的工作状态。在该种监测方案中，根据距离直接决定监测的对象，有可能存在漏网之鱼，则在开始监测时候可进一步结合广播方式来实现集群的全网监测。请进一步参阅图3，图3是本申请实施例提供的另一种多设备集群的结构示意图。如图3所示，对于位置A，其与位置B、C、D、E的距离均相等，均为H，则位置A的设备同时监测位置B、C、D、E的设备的工作状态。但是对于位置B、C、D、E的设备，其均有比位置A更近的相邻设备，该种情况下若仅通过距离的远近来作为监测的条件，则出现位置A的设备无法被监控的情况。本实施例为了解决该问题，提出结合广播的方式进行，即每一设备将自己监测到的设备向集群的其他设备进行广播，由此每一设备均可知道多设备集群中还存在哪些设备未被监测到，再进一步按照距离最近原则将监测未被监测的设备，以实现全网设备均被监测。

在实际应用中，由于业务主要是主控装置执行才得以完成，因此步骤S1的每一个主控装置监测的是其他设备的主控装置的工作状态。具体而言，每一主控装置向其所监测的主控装置发送监测信号，并判断在预设时间内是否接收到被监测的主控装置的反馈信号，若判断的结果为是，则监测到其他设备的主控装置正常工作，若判断的结果为否，则监测到其他设备的主控装置出现故障。也就是通过主控设备的心跳监测来完成监测。

在步骤S2和步骤S3中，镜像控制单元的设置可包括以下方案：首先判断监测的设备是否在执行任务，若监测的设备当前处于空闲状态，则可直接将监测的设备的主控装置作为镜像控制单元，与被监测的设备(即出现故障的设备)的存储器通信连接，进行数据交互。在该方案中，若监测的设备接到业务处理的指令时，将变成工作状态，则将设置一部分的主控装置资源来执行业务处理，保证出现故障的设备业务可以继续执行。

若监测的设备当前也在执行业务，则将监测的设备的主控装置一分为二，设置成两部分，一部分用于作为镜像控制单元与被监测的设备(即出现故障的设备)的存储器通信连接，以接管出现故障的设备的主控装置执行其业务，另一部分与自身的存储器通信连接，以执行自身的业务。其中，镜像控制单元可通过分配主控装置的CPU线程的方式得到。具体请一并参阅图4所示。

在进程的分配中，可通过平等分配的CUP资源的方式，也可以通过设置业务优先级的方式进行。在优先级的方式中，具体可通过以下方案实现：

第一：可手动输入特定指令来设置正常工作状态的设备对应的业务和出现故障的设备对应的业务的优先级，以控制正常工作状态的设备的主控装置根据优先级来执行。

第二：可使用另一特定指令不断的暂停优先级较低的业务对应的进程，以控制进程所占用处理能力不超过特定限制。

第三：使用特定的功能组件来控制CPU的进程，特定的功能组件可提供限制进程资源消耗的机制。

应当理解，也可以省略判断监测的设备当前是否工作的步骤，直接将监测的设备的主控装置一分为二设置成两部分分别执行对应的业务。

应理解，在监测的设备的主控装置设置镜像控制单元与出现故障的其他设备的存储器连接之后，该监测的设备继续监测出现故障的主控装置的工作状态。若监测到出现故障的主控装置已经恢复正常工作状态，则停止镜像控制单元的工作，使得恢复正常工作状态的主控装置与对应的存储器进行通信连接，进一步的，将镜像控制单元接管的业务转交给恢复正常工作状态的主控装置，由此恢复正常状态的主控装置将保存镜像控制单元接管的历史业务，同时也将执行新的业务。在新业务与历史业务存在关联时，可更加便捷快速地作出处理。

因此，本申请实施例在将各业务资源分别配置给设备独立执行以实现业务资源隔离的同时，在设备出现故障时，其他正常工作的设备可通过设置镜像控单元的方式接管出现故障的设备与出现故障的设备的存储器通信以继续执行对应的业务。可实现多设备集群中多设备之间的管理，增加管理的灵活性，以及增加设备的存储器的高可用性，保证了多设备集群的场景，设备的主控装置在任意场景下，出现问题都可以保障业务的不中断。设备间可靠性大大提高。

应理解，前文所述的控制方法均可通过多设备集群中的设备的主控装置实现，在实际应用中，主控装置是独立的硬件设备。以下将介绍该主控装置的结构。

请参阅图5，图5是本申请实施例提供的一种基于多设备集群中的设备主控装置的结构示意图。如图5所示，基于多设备集群中的设备主控装置50包括：

监测模块501，用于监测其他设备的工作状态。

设置模块502，用于当所述监测模块监测到所述其他设备的工作出现故障时，设置一镜像控制单元接管出现故障的所述其他设备的主控装置。

通信模块503，用于控制所述镜像控制单元与出现故障的所述其他设备的存储器通信连接，进行数据交互。

可选的，监测模块501监测相邻的其他设备的工作状态。

例如图1中，对于位置A的设备，位置B的设备与之相邻，则位置A的设备的监测模块501监测位置B的设备的工作状态；对于位置B的设备，位置A的设备和位置C的设备均与之相邻，则位置B的设备的监测模块501监测位置A和位置C的设备的工作状态；依次类推，位置N-1的设备的监测模块501监测位置N的设备和位置N-2的设备的工作状态，位置N的设备的监测模块501监测位置N-1的设备的工作状态。

可选的，监测模块501监测距离最近的其他设备的工作状态。在该种监测方案中，根据距离直接决定监测的对象，有可能存在漏网之鱼，则在开始监测时候可进一步结合广播方式来实现集群的全网监测。请进一步参阅图3，图3是本申请实施例提供的另一种多设备集群的结构示意图。如图3所示，对于位置A，其与位置B、C、D、E的距离均相等，均为H，则位置A的设备的监测模块501同时监测位置B、C、D、E的设备的工作状态。但是对于位置B、C、D、E的设备，其均有比位置A更近的相邻设备，该种情况下若仅通过距离的远近来作为监测的条件，则出现位置A的设备无法被监控的情况。本实施例为了解决该问题，提出结合广播的方式进行，即每一设备的监测模块501将自己监测到的设备向集群的其他设备进行广播，由此每一设备均可知道多设备集群中还存在哪些设备未被监测到，再进一步按照距离最近原则将监测未被监测的设备，以实现全网设备均被监测。

可选的，监测模块501监测其他设备的主控装置的工作状态。

可选的，监测模块501其所监测的主控装置发送监测信号，并判断在预设时间内是否接收到被监测的所述主控装置的反馈信号，若判断的结果为是，则监测到所述其他设备的主控装置正常工作，若判断的结果为否，则监测到所述其他设备的主控装置出现故障。

可选的，在镜像控制单元与出现故障的所述其他设备的存储器连接之后，监测模块501继续监测出现故障的主控装置的工作状态。

可选的，在监测模块501监测到出现故障的主控装置已经恢复正常工作状态后，通信模块503停止镜像控制单元的工作，使得恢复正常工作状态的主控装置与对应的存储器进行通信连接，并且将所述镜像控制单元接管的业务转交给所述恢复正常工作状态的主控装置。

本申请实施例还提供另一种基于多设备集群中的设备主控装置，用于执行前文所述的控制方法。请参阅图6，图6是本申请实施例提供的另一种基于多设备集群中的设备主控装置的结构示意图。如图6所示，基于多设备集群中的设备主控装置包括处理器610及存储器620，存储器620存储有计算机程序，处理器610与存储器620耦合，处理器610在工作时执行该计算机程序以实现上述任一实施例中的控制方法。

其中，处理器610还可以称为CPU(Central Processing Unit，中央处理单元)。处理器610可能是一种集成电路芯片，具有信号的处理能力。处理器610还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器，但不仅限于此。

参阅图7，图7是本申请提供的计算机可读存储介质实施例的示意框图，本实施例中的计算机可读存储介质存储有计算机程序410，该计算机程序410能够被处理器执行以实现上述任一实施例中的控制方法。

可选的，该可读存储介质可以是U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

综上所述，本申请实施例的每一主控装置监测其他设备的工作状态；当监测到其他设备的工作出现故障时，设置一镜像控制单元接管出现故障的其他设备的主控装置；镜像控制单元与出现故障的其他设备的存储器通信连接，进行数据交互。因此，在将各业务资源分别配置给设备独立执行以实现业务资源隔离的同时，在设备出现故障时，其他正常工作的设备可接管出现故障的设备与出现故障的设备的存储器通信以继续执行对应的业务。可实现多设备集群中多设备之间的管理，增加管理的灵活性，以及增加设备的存储器的高可用性，保证了多设备集群的场景，设备的主控装置在任意场景下出现问题，都可以保障业务的不中断。设备间可靠性大大提高。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种多设备集群的控制方法，其特征在于，所述设备包括存储器和主控装置，所述主控装置与所述存储器进行通信连接，所述控制方法包括：

每一所述主控装置监测其他设备的工作状态；

2.根据权利要求1所述的控制方法，其特征在于，所述每一所述主控装置监测其他设备的工作状态的步骤包括：

每一所述主控装置监测相邻的所述其他设备的工作状态。

3.根据权利要求1或2所述的控制方法，其特征在于，所述每一所述主控装置监测其他设备的工作状态的步骤包括：

4.根据权利要求1或2所述的控制方法，其特征在于，所述每一所述主控装置监测所述其他设备的主控装置的工作状态的步骤包括：

5.根据权利要求4所述的控制方法，其特征在于，所述镜像控制单元与出现故障的所述其他设备的存储器连接之后进一步包括：

继续监测出现故障的主控装置的工作状态。

6.根据权利要求5所述的控制方法，其特征在于，所述控制方法还包括：

7.一种基于多设备集群中的设备主控装置，其特征在于，所述设备包括存储器和所述主控装置，所述主控装置与所述存储器进行通信连接，其中，所述主控装置包括：

监测模块，用于监测其他设备的工作状态；

8.根据权利要求7所述的主控装置，其特征在于，所述监测模块监测相邻的所述其他设备的工作状态。

9.一种基于多设备集群中的设备主控装置，其特征在于，所述包括处理器以及存储器，所述处理器耦合所述存储器，所述存储器存储有计算机程序，所述处理器在工作时执行所述计算机程序以实现如权利要求1～6任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行以实现如权利要求1～6任一项所述的方法。