CN100362481C

CN100362481C - 多处理器设备单元主备保护方法

Info

Publication number: CN100362481C
Application number: CNB2005100297080A
Authority: CN
Inventors: 郑铭
Original assignee: Shanghai Huawei Technologies Co Ltd
Current assignee: Shanghai Huawei Technologies Co Ltd
Priority date: 2005-09-15
Filing date: 2005-09-15
Publication date: 2008-01-16
Anticipated expiration: 2025-09-15
Also published as: CN1862499A

Abstract

本发明涉及通信设备的主备保护技术，公开了一种多处理器设备单元主备保护方法，使得当一个处理器故障时，该设备单元内其它正常处理器中的业务不会中断。本发明中，将各设备单元的对等处理器设置在主备保护组内，当一个处理器发生异常时仅对相应的保护组进行单处理器倒换。每一个设备单元设一个主控处理器，该处理器异常时倒换整个设备单元。如果要求所有活动的处理器必须处于同一设备单元，可以有两种方法：一种是仅配置主控处理器主备保护组，另一种是在任何处理器异常时都触发所有保护组的倒换。

Description

多处理器设备单元主备保护方法

技术领域

本发明涉及通信设备的主备保护技术，特别涉及多处理器设备单元主备保护方法。

背景技术

目前，系统可用性的最高指标是五个九，即99.999％的系统可用性(相当于一年5分钟停用)。要达到这个指标，传统的解决方案是构建一套十分稳定的设备和系统。但是，这样的系统非常昂贵、升级发展都很困难，并且系统稳定性十分依赖制造商的软硬件配置。随着通信网络朝多元化服务、包交换数据的方向发展，快速发展的市场客户需求和商家设备功能的性能发展缓慢之间出现了矛盾。客户要求商家在很短时间内能提供功能齐全、可用性极好的产品，先前的基于“系统可用性”的设备已经无法满足市场要求。因此，“系统可用性”的概念已经扩大到“服务可用性”的范畴。

所谓的服务可用性并不要求系统和设备具有很高的稳定性(如99.999％，一年5分钟停用)，只要求系统提供的服务不中断就可以了。通常采用多个相互协作的设备来达到这个服务可用性指标(99.999％一年5分钟停用)。比如说，当某个设备发生故障停用后，系统中可以让另一个功能相同或者相似的设备代替发生故障的设备，继续提供先前的服务，也就是进行主备倒换。将一些需要高可用性的设备配置成主备方式，在主设备故障时自动进行主备倒换，用原来的备用设备继续提供服务，是常用的达到服务可用性指标的方式。按照“主设备数量+备设备数量”划分，备份类型有1+1、N+1、N+M等几种。

设备中的电子零件都是镶在大小各异的印刷板电路(Printed CircuitBoard，简称“PCB”)上的，除了固定各种小零件外，PCB的主要功能是提供上头各项零件的相互电气连接。在通信系统的基站控制器中，某些设备单元的硬件PCB上有多个CPU子系统。在软件设计中，一般可将各CPU子系统独立使用，每个CPU子系统都有独立的对外通信能力。通过一定的算法，将业务分布到不同的进程上，实现负荷分担。对这种多CPU的设备单元，需要设计合适的主备方案以提供更高的服务可用性。

当设备单元中有多个CPU子系统时，配置与该设备单元同类型的冗余设备作为备份设备，与原来的设备单元形成主备设备。当主设备单元上的任一CPU或几个CPU发生故障时，就自动发生主备倒换。也就是将备用设备单元上的各CPU替代原来主用设备单元上对应的CPU，继续提供先前的服务。

在实际应用中，上述方案存在以下问题：当主设备发生故障，进行主备倒换时，也就是在切换过程中，可能会中断正在提供的服务，扩大了故障的影响范围，降低了该设备的可用性。比如说，主设备中的某些CPU正在参与处理某项语音服务，此时主设备因为该设备中的其他CPU故障而自动发生主备倒换，那么原本正在提供的会话服务可能会被中断。

造成这种情况的主要原因在于，当主设备单元上的任一CPU或几个CPU发生故障时，就自动发生设备单元级的主备倒换。设备单元级的主备倒换是将备用设备单元上的所有CPU替代原来主用设备单元上所有的对应CPU来继续提供先前的服务。即使原来主用设备上的部分CPU是正常工作的，也会被强迫倒换，使原来可正常提供的服务被迫中断。

发明内容

有鉴于此，本发明的主要目的在于提供一种多处理器设备单元主备保护方法，使得当一个处理器故障时，该设备单元内其它正常处理器中的业务不会中断。

为实现上述目的，本发明提供了一种多处理器设备单元主备保护方法，包含以下步骤：

将至少两个设备单元的对等处理器上的主控进程配置为主备保护组；

当监控进程发现当前活动的处理器的主控进程异常时，触发该处理器所在保护组内的单处理器倒换。

其中，所述监控进程通过心跳检测发现当前活动的处理器的主控进程的异常。

此外在所述方法中，所述设备单元的硬件支持异地状态上报，所述监控进程通过上报的状态发现当前活动的处理器的主控进程的异常。

此外在所述方法中，每个所述设备单元中还包含一个主控处理器，其中运行管理所在设备单元的操作和管理主控进程；

当操作和管理主控进程发生异常时，倒换该主控处理器所在的整个设备单元。

此外在所述方法中，如果用于监视所述主控处理器的看门狗定时器发生超时，则判定所述操作和管理主控进程发生异常。

此外在所述方法中，所述设备单元中的硬件中包含远程复位或倒换接口，当监控进程发现所述操作和管理主控进程发生异常时，通过远程复位或倒换接口倒换发生异常的设备单元。

此外在所述方法中，如果要求所有活动的处理器必须处于同一设备单元，可仅将主控处理器配置为主备保护组，将主控处理器上的进程作为其它处理器上主控进程的监控进程，当该监控进程发现其它处理器异常时，倒换该主控处理器所在的整个设备单元。

此外在所述方法中，如果要求所有活动的处理器必须处于同一设备单元，可在所述监控进程发现当前活动的处理器的主控进程异常时，触发所有的保护组同时进行单处理器的倒换。

此外在所述方法中，所述监控进程运行于被监控的进程所在设备单元之外的设备单元上。

此外在所述方法中，所述处理器可以是中央处理器或数字信号处理器。

通过比较可以发现，本发明的技术方案与现有技术的主要区别在于，将各设备单元的对等处理器设置在主备保护组内，当一个处理器发生异常时仅对相应的保护组进行单处理器倒换。

每一个设备单元设一个主控处理器，该处理器异常时倒换整个设备单元。

如果要求所有活动的处理器必须处于同一设备单元，可以有两种方法：一种是仅配置主控处理器主备保护组，另一种是在任何处理器异常时都触发所有保护组的倒换。

这种技术方案上的区别，带来了较为明显的有益效果，即提高了服务可用性。这是因为非主控处理器的异常只触发组内倒换，只是将故障处理器倒换到另一个设备单元中的对等处理器，被中断的只是该故障处理器的业务，而故障处理器所在的设备单元中其它正常处理器的业务不会中断，所以总体的服务可用性得到了提高。

保证了每个设备单元管理的可靠性。主控处理器中运行有管理整个设备单元的O&M进程，如果主控处理器发生异常，则整个设备单元的管理会同时出现问题。因为本发明在主控处理器发生异常时倒换整个设备单元，所以运行业务的设备单元一定是处于良好管理中的。

只要在本发明基本方案的基础上采用一定的配置方式就可以方便地完成设备单元级的倒换，相比只能进行设备单元级倒换的现有技术，本发明的功能更强、更为灵活。

附图说明

图1是根据本发明第一实施例的多处理器设备单元主备配置方法流程图；

图2是根据本发明第一、第二、第四实施例的配置主备保护组示意图；

图3是根据本发明第二实施例的多处理器设备单元主备配置方法流程图；

图4是根据本发明第三实施例的多处理器设备单元主备配置方法流程图；

图5是根据本发明第三实施例的配置主备保护组示意图；

图6是根据本发明第四实施例的多处理器设备单元主备配置方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

本发明通过在监控节点上设置监控进程来监控设备单元上每个处理器主控进程的运行状况。当监控进程发现非主控处理器的主控进程异常，也就是该处理器出现故障时，通过该进程仅倒换故障的处理器，其它正常的处理器不发生倒换，继续提供服务，从而提高系统服务可用性。同时，在设备单元的主控处理器上设置一个进程作为整个设备单元的操作和管理主控进程。当操作和管理主控进程故障时，为保证设备单元的管理功能，必须倒换整个设备单元。

在以下各实施例中所提到的处理器可以是中央处理器(CentralProcessing Unit，简称“CPU”)或数字信号处理器(Digital Signal Processor，简称“DSP”)。

本发明的第一实施例如图1所示，在步骤110中，在设备单元中除主控处理器(主控处理器的说明见步骤120)外的每个处理器上，指定一个主控进程。同时，在另一个设备单元(监控节点)上设置与每一个主控进程相对应的监控进程。监控进程用来监控该主控进程的健康状况，也就是监控该主控进程是否异常。监控进程通过主控进程的运行情况从而得知该处理器是否出现故障。一般有两种监控方法：

a).通过心跳检测，保持监控和被监控进程间心跳。一旦被监控进程心跳丢失，认为被监控进程故障。所谓的心跳检测，其实是一种错误检测的机制，就是在设备单元间保持着间歇的信号，也叫做心跳信号。在两个对等系统之间通过一条路径进行周期性的握手，如果连续没有收到心跳信号到了一定的数目，就说明该路径或者该系统出现了故障。

b).硬件支持异地状态上报。比如通过特殊的传感器或检测线，使得设备单元故障可在监控节点上感知和上报。监控节点软件可据此判断被监控进程故障。

监控进程之所以要在主控进程所在设备单元之外的另一个设备单元上，是因为监控一个组内的所有处理器，一般要选一个可靠性高的设备单元。

接着，进入步骤120，在设备单元的主控处理器中设置操作和管理主控进程，用来保证整个设备单元的管理功能。其中，主控处理器是设备单元原本就包含的一个处理器。

在步骤130中，将至少两个设备单元的对等处理器上的主控进程配置为主备保护组。如图2所示，有N个设备单元：设备单元1，设备单元2，...设备单元N。每个设备单元上有4个处理器：处理器0，处理器1，处理器2，处理器3。设备单元1至设备单元N上的处理器0都是对等处理器，所以可以将处理器0上的主控进程配置为主备保护组1。同理，可以配置主备保护组2，主备保护组3以及主备保护组4。

接着，进入步骤140，判断设备单元中主控处理器的操作和管理主控进程是否出现异常，该判断可以通过看门狗定时器来实现。所述的看门狗定时器是一种装置或电子卡，每隔一段时间，系统就要对该定时器作一定操作，比如说对该定时器清零。如果一个电子系统出现故障并且该系统不能自动恢复，那么该系统无法对看门狗定时器作预定操作，看门狗定时器就要在一定时间段之后(超时后)作出特殊的操作，在本实施例中该特殊操作是触发本设备单元的倒换。如果设备单元中主控处理器的操作和管理主控进程出现异常，则说明设备单元中的主控处理器出现故障，为了保证整个设备单元的管理功能，进入步骤150，触发整个设备单元的倒换；如果设备单元中主控处理器的操作和管理主控进程正常，则进入步骤160。

在步骤150中，使整个设备单元进行倒换。由于在步骤140中，是通过看门狗定时器来判断主控处理器的操作和管理主控进程是否出现异常，如果出现了异常，看门狗定时器就会在一定时间段之后作出特殊的操作。所以，只要将该特殊操作设定为设备单元的主备倒换，就可以达到当设备单元中主控处理器的操作和管理主控进程出现异常，就触发整个设备单元进行主备倒换的目的。

在步骤160中，判断设备单元中除主控处理器外其他处理器的主控进程是否出现异常。由于在步骤110中已经设置了监控进程来监控处理器中的主控进程，并且介绍了监控方法，所以，只要根据监控结果就可以得知设备单元中除主控处理器外其他处理器的主控进程是否出现异常。如果主控进程出现异常，也就是该处理器出现故障，则进入步骤170。

在步骤170中，当监控进程发现当前活动的处理器的主控进程异常时，触发该处理器所在保护组内的单处理器倒换。举例来说，在如图2所示的主备保护组中，如果监控进程发现设备单元1中处理器1的主控进程出现异常，就仅对主备保护组2进行主备倒换，将设备单元1中的处理器1倒换成设备单元2中的处理器1，设备单元1中的处理器0、处理器2、处理器3继续原来的活动，并不会被设备单元1中处理器1的故障所影响。

其实，本实施例中的步骤110与步骤120并没有先后关系，完全可以先设置主控处理器中的操作和管理主控进程，再对其他处理器设置主控进程与监控进程。

本实施例通过配置单处理器保护组，仅对出现故障的处理器进行单处理器倒换，使得原来正常工作的处理器不被影响，提高了服务可用性。

本发明的第二实施例如图3所示，在步骤310中，在设备单元中的每个处理器上，指定一个主控进程。在主控处理器上，指定的是操作和管理主控进程。同时，在另一个设备单元(监控节点)上设置与每一个主控进程相对应的监控进程。监控进程用来监控该主控进程的健康状况。监控方法在步骤110中已作说明，在此不再赘述。本步骤与步骤110基本相同，不同之处仅在于，在本步骤中，对设备单元中的每一个处理器中的主控进程，包括主控处理器上的O&M主控进程，都要设置相应的监控进程，而在步骤110中，主控处理器上的O&M主控进程是通过看门狗定时器来监控的。

在步骤320中，将至少两个设备单元的对等处理器上的主控进程配置为主备保护组。该步骤与步骤130完全相同。

接着，进入步骤330，判断设备单元中主控处理器的O&M主控进程是否出现异常。由于在步骤310中已经设置了监控进程来监控主控处理器中的O&M主控进程，并且介绍了监控方法，所以，只要根据监控结果就可以得知设备单元中主控处理器的O&M主控进程是否出现异常。如果O&M主控进程出现异常，也就是主控处理器出现故障，则进入步骤340；否则，进入步骤350。

在步骤340中，触发整个设备单元的倒换。假如设备单元主备保护组的配置如图2所示，其中，处理器0是设备单元的主控处理器。那么，当监控进程发现处理器0的操作和管理主控进程发生异常时，就通过远程复位或倒换接口倒换处理器0发生异常的设备单元。

在步骤350中，判断设备单元中除主控处理器外其他处理器的主控进程是否出现异常。由于在步骤310中已经设置了监控进程来监控处理器中的主控进程，并且介绍了监控方法，所以，只要根据监控结果就可以得知设备单元中除主控处理器外其他处理器的主控进程是否出现异常。如果主控进程出现异常，也就是该处理器出现故障，则进入步骤360。

在步骤360中，当监控进程发现当前活动的处理器的主控进程异常时，触发该处理器所在保护组内的单处理器倒换。该步骤与步骤170完全相同。

本实施例完全可以达到与第一实施例相同的作用效果。

本发明的第三实施例如图4所示，在步骤410中，在设备单元中的每个处理器上，指定一个主控进程。在主控处理器上，指定的是操作和管理主控进程。同时，在主控处理器上设置监控进程，监控设备单元中除主控处理器之外的每一个处理器的主控进程。另外，在另一个设备单元(监控节点)上设置主控处理器中操作和管理主控进程的监控进程。监控方法在步骤110中已说明，在此不再赘述。

接着，进入步骤420，仅配置主控处理器的主备保护组。比如说，处理器0是设备单元中的主控处理器，那么就仅配置处理器0的主备保护组，如图5所示。配置方法在步骤130中已说明，在此不再赘述。

接着，进入步骤430，判断设备单元中所有处理器的主控进程是否异常。由于在步骤410中已经设置了监控进程来监控主控进程的健康状况，所以，只要根据监控结果就可以得知设备单元中所有处理器的主控进程是否异常。如果发现异常，就进入步骤440。

在步骤440中，触发整个设备单元的倒换。当监控节点上的监控进程发现主控处理器上的主控进程发生异常时，主动触发主控处理器所在保护组的主备倒换。如果主控处理器上的监控进程发现设备单元中其他处理器的主控进程出现异常，就通知主控处理器的监控进程，主动触发主控处理器所在保护组的主备倒换。

本实施例其实是在第一、第二实施例的基础上稍做改动，实现设备单元级的倒换。

本发明的第四实施例如图6所示，在步骤610中，设置设备单元中所有处理器的主控进程与监控进程。本步骤与步骤310完全相同，在此不再赘述。

在步骤620中，将至少两个设备单元的对等处理器上的主控进程配置为主备保护组。本步骤与步骤130完全相同。

接着，进入步骤630，判断设备单元中所有处理器的主控进程是否异常。由于在步骤610中已经设置了监控进程来监控主控进程的健康状况，所以，只要根据监控结果就可以得知设备单元中所有处理器的主控进程是否异常。如果发现异常，就进入步骤640。

在步骤640中，触发所有保护组的倒换。也就是说，只要监控进程发现任意一个活动的处理器出现故障，就触发所有保护组的倒换，也就是整个设备单元的倒换。

本实施例实现的也是设备单元级的倒换。

虽然通过参照本发明的某些优选实施例，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种多处理器设备单元主备保护方法，每个设备单元包括至少两个处理器，其特征在于，包含以下步骤：

将至少两个设备单元的对等处理器上的主控进程配置为主备保护组，得到至少两个主备保护组；

通过监控进程对当前活动的处理器的主控进程进行监控，当该监控进程发现当前活动的处理器的主控进程异常时，触发该处理器所在保护组内的单处理器倒换。

2.根据权利要求1所述的多处理器设备单元主备保护方法，其特征在于，所述监控进程通过心跳检测发现当前活动的处理器的主控进程的异常。

3.根据权利要求1所述的多处理器设备单元主备保护方法，其特征在于，所述设备单元的硬件支持异地状态上报，所述监控进程通过上报的状态发现当前活动的处理器的主控进程的异常。

4.根据权利要求1所述的多处理器设备单元主备保护方法，其特征在于，每个所述设备单元中还包含一个主控处理器，其中运行管理所在设备单元的操作和管理主控进程；

5.根据权利要求4所述的多处理器设备单元主备保护方法，其特征在于，通过看门狗定时器对所述主控处理器进行监视，如果用于监视所述主控处理器的看门狗定时器发生超时，则判定所述操作和管理主控进程发生异常。

6.根据权利要求4所述的多处理器设备单元主备保护方法，其特征在于，所述设备单元中的硬件中包含远程复位或倒换接口，当监控进程发现所述操作和管理主控进程发生异常时，通过远程复位或倒换接口倒换发生异常的设备单元。

7.根据权利要求4所述的多处理器设备单元主备保护方法，其特征在于，如果要求所有活动的处理器必须处于同一设备单元，可仅将主控处理器配置为主备保护组，将主控处理器上的进程作为其它处理器上主控进程的监控进程，当该监控进程发现所述主控处理器所在的同一设备单元内的其它处理器异常时，倒换该主控处理器所在的整个设备单元。

8.根据权利要求1所述的多处理器设备单元主备保护方法，其特征在于，如果要求所有活动的处理器必须处于同一设备单元，可在所述监控进程发现当前活动的处理器的主控进程异常时，触发所有的保护组同时进行单处理器倒换。

9.根据权利要求1至7中任一项所述的多处理器设备单元主备保护方法，其特征在于，所述监控进程运行于被监控的进程所在设备单元之外的设备单元上。

10.根据权利要求1至7中任一项所述的多处理器设备单元主备保护方法，其特征在于，所述处理器可以是中央处理器或数字信号处理器。