CN101453354A

CN101453354A - 一种基于atca架构的高可用性系统

Info

Publication number: CN101453354A
Application number: CNA2007101712910A
Authority: CN
Inventors: 李�杰; 张奇智; 孙刚
Original assignee: Shanghai B Star Co Ltd
Current assignee: Shanghai B Star Co Ltd
Priority date: 2007-11-29
Filing date: 2007-11-29
Publication date: 2009-06-10

Abstract

本发明涉及一种基于ATCA架构的高可用性系统，从底层至高层依次包括通讯驱动层、成员组通讯系统层、分布式控制接口层、应用服务层。与现有技术相比，本发明的灵活性、动态化、基于组件式的高可用性系统模型的结构可以极大地提高系统的无故障持续工作能力，充分满足基于ATCA架构系统的电信级99.999％的高可靠性和高可用性要求，大大优于传统集中式单点控制型的高可用系统可持续服务能力。

Description

一种基于ATCA架构的高可用性系统

技术领域

本发明涉及计算机通讯系统，特别是涉及一种基于ATCA架构的高可用性系统

背景技术

基于ATCA的高级电信计算架构的系统，虽然在硬件设计上就考虑了系统的高可用性要求，但是要达到电信级99.999％的高可用性，除了硬件设计上采用冗余设计模型，软件设计上同样要采用一些提高系统可用性的措施来保证系统的高可用性。大多数的系统不能很好的处理由于系统失效所引起的运行系统的配置改变，而需要通过频繁的强制性的故障点检测机制来保障系统的可用性，这样势必影响运行任务的效率，甚至要通过完全重新启动相关的系统服务或者整个机器才能使系统重新正常工作。共享会话信息和状态信息的冗余硬件设备使得物理链路的冗余成为可能。

在电信级要求的系统设备中，不可能在系统服务失效之前，提前确定问题的原因并采取相应的预防措施。事实上，由于系统通常都是比较庞大和复杂，评估通常都是通过计算中断的平均小时数来预估和统计的。通过调整、调度安排资源情况以及意外事件(诸如节点设备失效)的自适应能力，及时有效地传送和获取系统的这些重要信息可以提高系统的管理能力。目前在基于ATCA的高级电信计算架构系统中对待这种失效问题通常采取的解决方案就是失效容忍或间隙恢复法(Gap Recovery)和反转恢复法(Rollback Recovery)。然而，大多数系统并不能有效地解决由于失效问题引起的运行系统配置改变，而需要完全重新启动必要的系统服务甚至是整个机器设备。高可用性力图通过预防措施避免意外的失效问题发生。高可用性措施目前主要是集中解决单节点服务的连续正常工作的情况，而我们需要将这些努力进一步扩展到基于ATCA高级电信计算架构的整个系统环境的所有共同协作的设备节点和服务上。

有很多种实现高可用性服务的技术，其中主要包括主/从型热备份技术、不对称式主/主型热备份技术和对称式主/主型热备份技术。主/从型热备份技术遵循上述失效模型。各个服务任务的状态都定期的保存到某些稳定的共享存储介质中或通过网络发送给相关的热备份组件。当服务失效时，热备份的系统设备就可以根据所得到系统最近的或当前状态信息接管系统服务。这种方式会引起由于系统恢复或者系统根据获得的旧的系统备份状态信息回滚到系统从前的某个状态下而导致的短暂服务中断。不对称式主/主型热备份技术比主/从型热备份技术更加有效的提高系统的可靠性、可用性和可服务性。在这个模型下，多个设备节点提供相同的服务，但是缺乏协作，即当一个主用设备在故障发生的情况下，其他主用设备接管服务来保证服务连续可用从而提高系统不间断服务能力，然而由于在所有参与互备份的设备间缺乏协作能力，不能智能的同步主用设备间的状态和控制信息，而使得其仅仅适合有限的应用场合。对称式主/主型热备份技术通常由两个或多个运行相同服务的设备协同工作来保障系统提供连续服务能力。这种技术可以使用分布式的控制机制或扩展虚拟同步机制来维护一套公共的全局性的系统状态信息。对称式主/主型热备份模型在吞吐能力、服务可用性能力和服务响应能力等许多方面都更加出色，但也明显要复杂的多。目前的大多数不同架构的系统在集成过程中都存在类似的缺乏高可用性问题，例如大多数系统设计时都采用单点失效和单点控制的集中式控制方式。当单点失效或单点控制节点一旦出现故障问题，不可避免的将影响整个系统，从而导致整个或部分系统的重启。

发明内容

本发明所要解决的问题就是为了克服上述现有技术存在的缺陷而提供一种适用于主/从型热备份技术、不对称式主/主型热备份技术和对称式主/主型热备份技术的基于ATCA架构的高可用性系统。

本发明的目的可以通过以下技术方案来实现：一种基于ATCA架构的高可用性系统，其特征在于，从底层至高层依次包括通讯驱动层、成员组通讯系统层、分布式控制接口层、应用服务层；

所述的通讯驱动层至少封装有适配于底层硬件的驱动、网络通讯协议、消息服务模块和链路故障检测模块；以及包括一通讯API应用程序接口；所述的消息服务模块通过该接口为层与层之间以及各个模块之间提供单播、组播的消息服务；

所述的成员组通讯系统层至少封装有组成员管理模块、外部故障检测模块，以及一组播机制和成员组内的组播消息算法，并且为多个热备份的从设备提供状态信息一致性复制服务；

所述的分布式控制接口层至少封装有分布式控制模块、状态机控制模块、Checkpoint服务模块、消息模块和分布式虚拟同步数据库，以及一动态竞选机制；并且该层包括有标准服务接口，该接口对应于不同的应用特性；

所述的应用服务层封装有各种供用户定制的应用服务，该层通过分布式控制接口层调用成员组通讯系统层。

所述的消息服务模块包括用于相同节点上的不同任务或不同节点间的消息队列，以及用于当节点失效时对消息的失效处理。

所述的每条消息队列对应至少一路通讯。

所述的失效处理为：当链路故障检测模块检测到主用活动节点失效后，对应消息队列关闭，如果其中消息还未使用，则由备用节点接收并处理该消息，直到备用节点倒换生效后，删除该消息。

所述的分布式控制接口层采用内存、文件、状态机和数据库的接口作为确定性对称式应用的服务接口，采用分布式控制接口和远程过程调用接口作为不确定性非对称式应用的服务接口，所述的应用服务层中的应用服务通过对应的接口运行于所有主用的活动节点上，并且维护一个全局性的状态信息，每个活动节点都以相同的顺序接收状态的改变并维护一致的状态信息。

所述的状态机控制模块的用于保证应用服务的流程对于成员组通讯系统中的每个节点都是确定，当流程结束时，检查在系统中的状态信息是否符合仲裁规则，若符合，则更新信息到分布式虚拟同步数据库，否则，状态更新信息无效。

所述的Checkpoint服务获取每个活动节点的Checkpoint数据，并生成一份复制，通过通讯驱动层提供的消息服务发送到相应的备用节点上；当某个节点由于故障引起失效，则从备用节点上获取相应的Checkpoint数据，并将失效节点恢复回来。

所述的高可用系统通过动态选举机制来完成主用节点间的状态同步或主用节点间的倒换，该动态选举机制包括以下步骤：

A.交换所有节点的内部状态信息，该内部状态信息包括不明确会话集合信息、更新会话信息、历史主用活动节点信息；

B.通过不明确会话信息学习及解析更新会话信息，各节点与其他节点完成状态信息同步；

C.判断节点是否可以成为新主用活动节点。

所述的应用服务包括系统监控服务、文件服务、时间服务、日志服务。

所述的通讯驱动层、成员组通讯系统层、分布式控制接口层和应用服务层均采用共享库、静态库或插件技术，以接受其他提供不同特性具有相同服务功能的模块层的替换。

与现有技术相比，本发明提出的灵活性、动态化、基于组件式的高可用性系统模型的结构可以极大地提高系统的无故障持续工作能力，充分满足基于ATCA架构系统的电信级99.999％的高可靠性和高可用性要求，大大优于传统集中式单点控制型的高可用系统可持续服务能力；本发明出于性能上考虑主要是针对对称式主/主型高可用系统，但由于模型架构的灵活、动态和组件化的特点，本设计模型同样可以支持其他高可用性系统架构设计，其中通讯驱动层模块允许系统无缝地实现对不同硬件设备提供商所提供的网络技术和相关的底层网络协议的支持，大大提高了系统的互通性和互操作性，降低系统集成成本；即插即用型、基于组件式的成员组通讯系统层提供可根据实际需要替换现有成员组通讯解决方案的灵活通用平台，大大提高了系统的灵活性；而且分布式控制接口层提供适应于不同系统应用属性的应用程序接口API，增强了系统的易用性和易维护性；特别是动态选举机制和checkpoint模块、分布式控制模块以及状态机控制模块共同完成主用节点间的状态同步功能和主用节点间的协作，从而确保了系统的持续不间断的工作能力的极大提高；采用本方法可以在不升级硬件的条件下，仅仅通过软件设计满足基于ATCA架构的电信级系统设备在不会对系统效率和系统性能产生较大影响的前提下，大大地降低产品成本，缩短系统研发周期，极大地提高了系统的高可用性要求，产生重大的经济效益。

附图说明

图1为本发明的层次结构示意图；

图2为本发明的动态选举算法流程图；

图3为本发明的不明确会话信息学习算法流程图；

图4为本发明的节点会话更新信息解析算法的接受规则流程图；

图5为本发明的节点会话更新信息解析算法的拒绝规则流程图；

图6为本发明的判断当前视图V是否可以形成主用活动节点的算法流程图；

图7为本发明的判断集合X是否是集合Y的胜出团体的算法流程图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1～图7所示，一种基于ATCA架构的高可用性系统，从底层至高层依次包括通讯驱动层、成员组通讯系统层、分布式控制接口层、应用服务层；

所述的消息服务模块包括用于相同节点上的不同任务或不同节点间的消息队列，以及用于当节点失效时对消息的失效处理；所述的每条消息队列对应至少一路通讯；所述的失效处理为：当链路故障检测模块检测到主用活动节点实效后，对应消息队列关闭，如果其中消息还未使用，则由备用节点接收并处理该消息，直到备用节点倒换生效后，删除该消息；所述的分布式控制接口层采用内存、文件、状态机和数据库的接口作为确定性对称式应用的服务接口，采用分布式控制接口和远程过程调用接口作为不确定性非对称式应用的服务接口，所述的应用服务层中的应用服务通过对应的接口运行于所有主用的活动节点上，并且维护一个全局性的状态信息，每个活动节点都以相同的顺序接收状态的改变并维护一致的状态信息；所述的状态机控制模块的用于保证应用服务的流程对于成员组通讯系统中的每个节点都是确定，当流程结束时，检查在系统中的状态信息是否符合仲裁规则，若符合，则更新信息到分布式虚拟同步数据库，否则，状态更新信息无效；所述的Checkpoint服务获取每个活动节点的Checkpoint数据，并生成一份复制，通过通讯驱动层提供的消息服务发送到相应的备用节点上；当某个节点由于故障引起失效，则从备用节点上获取相应的Checkpoint数据，并将失效节点恢复回来；所述的高可用系统通过动态选举机制来完成主用节点间的状态同步或主用节点间的倒换，该动态选举机制包括以下步骤：

C.判断节点是否可以成为新主用活动节点。

为了提供这种适用于基于ATCA架构的主/主型热备份高可用性系统，我们首先要提出一种灵活的、模块化的和可动态装卸载的高可用性组件框架模型结构。为了符合ATCA高级电信计算架构平台的系统要求，我们的高可用性框架模型结构由四个主要的层次构成：通讯驱动层、成员组通讯系统层、分布式控制接口层和应用服务层。

其中最低层的通讯驱动层提供各种适配底层硬件所对应的网络协议模块，可以为上层提供单播和组播消息服务能力，同时也提供相关的失效检测机制。成员组通讯系统层提供组成员管理、外部故障检测和可靠的组播机制和成员组内的组播消息算法。分布式控制接口层建立一个成员组系统和应用服务层之间的通道，为应用服务层提供更易于调用成员组通讯系统层的一个标准服务接口以及分布式控制、状态机控制、checkpoint模块、消息模块和动态选举机制模块等丰富功能。应用服务层包括各种为用户定制的服务应用程序，例如系统监控模块、文件服务模块、日志服务模块和时间服务模块。

这个高可用性框架本身就是基于组件化的独立模块组成。各个逻辑层之间以及各个模块之间都是通过消息服务模块提供的同步和异步消息机制来进行通讯的。每一层都可以由其他提供不同特性具有相同服务功能的模块层所替换。这种框架允许软件模块使用共享库、静态库或插件技术来实现模块的替换。下面详细介绍各个层。

(1)通讯驱动层

目前ATCA高级电信计算架构系统支持许多种网络技术，例如Ethernet、Infiniband、StarFabric、PCI Express、RapidIO等多种交换协议。我们的高可用性框架可以支持ATCA硬件提供商所支持的各种网络技术以及现存的协议标准。利用通讯驱动层可以在高可用节点设备之间建立起有效的通讯机制，以便使这些设备通过分布式控制接口层来更好的为上层应用服务提供网络通讯服务。

使用通讯驱动层来适配不同的网络技术并抽象出统一的通讯API应用程序接口，可以提高系统的互换性和互操作性，这一概念并非新东西。例如Open HPI就是使用这种基于组件化的框架的概念和封装通讯驱动层的概念来实现抽象底层硬件的共性，实现ATCA系统的互换性和互操作性。

消息服务模块指的是缓存的消息传递系统，可以提供相同节点上不同任务或不同节点间消息队列。一条消息队列允许多对一的通讯。当消息队列关闭时，如果消息还没有使用，消息服务模块必须保留消息到使用完为止。即当主用活动节点失效后，备用节点负责接收并处理相应的消息，直到备用节点倒换生效后，消息服务模块才彻底删除此消息。这种设计才能使得系统具有更高的可用性。本模块可以在应用层实现，但是出于效率和性能要求的考虑，笔者强烈建议通过动态内核模块加载的形式实现，并将其放在模型中的通讯驱动层。

此外，目前通讯驱动层仅仅提供处理原始数据报文的接口，高层协议主要在成员组通讯系统层来进行管理的。这一层主要借鉴和参考RMIX框架模型，提供动态的、支持系统异构性(诸如字节序和高级协议等)、可重新配置的通讯框架。

(2)成员组通讯系统层

成员组通讯系统层包含所有必要的协议和业务，这些协议和业务都是服务于主/主型热备份高可用性框架，并且通过分布式控制接口层为上层应用服务提供组成员间通讯服务的，同时也适合于主/从型热备份高可用性系统等其他高可用性系统模型中为多个热备份的从设备提供状态信息一致性复制服务。成员组通讯系统层也提供组成员管理、外部故障监测、可靠的组播机制和成员组内的组播消息算法。本层有许多第三方中间件和开源中间件项目可供参考，例如SA论坛中AIS应用接口说明书中AMF高可用性管理框架就可以作为参考模型。由于不是本说明书的重点，故不作详细讨论。

(3)分布式控制接口层

分布式控制接口层所支持的应用程序接口API要基于应用特性实现。确定性对称式应用可以使用内存、文件、状态机和数据库的接口实现，不确定性非对称式应用可以使用分布式控制接口和远程过程调用(RPC)接口实现。这些应用属性完全基于成员组通讯系统层的要求，例如任务调度的批处理程序在一个集群系统中的所有主用的活动节点上运行，并且维护着一个全局性的状态信息。每个活动节点都会以相同的顺序接收这些状态的改变并维护一致的状态信息。任务调度请求信息送达到这些活动节点中的任意一个，导致了状态信息改变，其他的活动节点也将以相同的顺序接收到这些请求。利用控制状态机机制，保证任务调度程序的流程对于成员组通讯系统中的每个节点都是确定的。当流程结束时，检查在系统中的状态信息是否符合仲裁规则，若符合，则更新信息到分布式虚拟同步数据库，否则认为状态更新信息无效。

Checkpoint服务模块为系统提供追加记录数据检测点的功能。当系统中某个节点由于故障而引起失效时，系统可以将失效节点从数据故障点重新恢复回来。这种checkpoint服务主要用于获取失效前的检测数据并从失效前的记录状态继续运行，从而减小故障所产生的影响。Checkpoint数据是全局有效的，系统中的每个活动节点的checkpoint数据都会生成一份复制通过消息服务模块发送到相应的备用节点上，以防止此活动节点的失效而导致系统相关服务的中断。

本系统实现高可用性的关键在于通过本说明书中提到的动态选举机制来实现主用节点间的状态同步功能或主用节点间的倒换功能，从而保证了系统的持续不间断的工作。由于模型中的各个主用节点设备间始终进行着协作和状态信息的同步，所以系统在故障发生时，不会存在数据和状态控制信息丢失的问题，极大地提高了系统的高可用性要求。

下面详细介绍一下动态选举算法。为了确保系统的高可用性顺利执行，每个节点必须维护相当数量的本地状态信息。这些状态信息我们通常称为会话信息。会话信息只不过是一组数据，通过对这些信息的学习、解析和基于指定选举规则的计算，从而选举出系统主用活动节点，保证系统服务的连续高可用性。先介绍一下算法中会用到的一些基本概念和关键字：

节点的初始化状态视图(initial view)，表明算法开始时的所有节点状态信息。所有节点看到的初始化视图信息都是一致的。我们用W表示。

历史主用活动节点(oldMaster)，系统在没有新的会话信息更新前根据动态选举机制选出的主用活动节点，

根据给定节点q产生的会话更新信息(recentFormed(q))选举出的主用活动节点p。初始时，所有的节点项会话信息等于上述中初始化视图信息W。

节点的不明确会话信息集合(ambiguousSessions)。这些是所有节点的不明确会话信息集合列表。

会话序列号(sessionNumber)，初始为0，用于对新会话的计数。

布尔型标志状态位(inMaster)表示本节点当前状态是否是主用活动节点状态。

无论何时系统的拓扑连接发生改变，新视图中的节点就会开始两轮消息确认流程。节点在第一轮消息时，交换所有节点的内部状态信息，主要发送各自节点的不明确会话集合信息(ambiguousSessions)和历史主用活动节点信息(oldMaster)等。如果当前节点根据动态选举算法的仲裁规则准备试图成为当前视图会话的主用活动节点，就要发送第二轮消息。如果第二轮消息被所有节点成功接收到，那么当前节点就成功成为主用活动节点。如果第二轮消息没有成功接收到，可能是由于其他连接的变化，那么试图成为主用活动节点的节点就再次形成不确定状态，重新开始新的一轮选举。

下面是动态选举算法流程图(图2)和不明确会话信息学习算法(图3)、会话更新信息解析算法(图4、图5)、判断当前视图V是否可以形成主用活动节点算法(图6)、判断集合X是否是集合Y的胜出团体(SUCCESSFULQUORUM)算法(图7)四个动态选举算法中主要流程算法的流程图。节点的解析规则允许节点在拓扑连接变化而被隔离后，再次和其他节点取得连接时，其依然能够根据解析规则来更新内部状态信息，并且节点能够学习到连接中断期间的会话信息。

一旦算法完成了同其他节点的状态信息同步之后，算法开始决定当前节点是否成为当前视图状态信息下的新主用活动节点。主要是通过节点从所有接收到的不明确会话信息中学习各节点的状态更新信息，然后根据会话状态更新信息的解析规则，就可以最终判断出当前节点是否能够成为当前视图状态下的主用活动节点。主用活动节点的确定机制主要是依赖于动态选举原理来完成。这就是通过图7中说明的团体胜出(SUCCESSFULQUORUM)算法确定的。即选举结果主要是根据历史主用活动节点(oldMaster)和所有的不明确会话信息集合(ambiguousSessions)依据选举策略算法规则来决定当前节点是否可以成为新的视图信息下的新主用活动节点。如果多个主用节点同时声明自己要成为主用活动节点，那么就要根据其他信息来决定谁将成为新主用活动节点。习惯上，人们根据节点的IP地址或节点名称来选择，通常选择节点IP地址小的或节点名称的字典排序靠前的节点成为最终的主用活动节点。

(4)应用服务层

本说明书中涉及的高可用性框架由于底层设计方面的灵活和强大功能，故可以提供很多不同类型的应用，支持各种不同的计算场合的需要。这些应用包括：系统监控服务、文件系统服务、日志服务、名字服务、时间服务等用户定制的各种服务。

Claims

1.一种基于ATCA架构的高可用性系统，其特征在于，从底层至高层依次包括通讯驱动层、成员组通讯系统层、分布式控制接口层、应用服务层；

2.根据权利要求1所述的一种基于ATCA架构的高可用性系统，其特征在于，所述的消息服务模块包括用于相同节点上的不同任务或不同节点间的消息队列，以及用于当节点失效时对消息的失效处理。

3.根据权利要求2所述的一种基于ATCA架构的高可用性系统，其特征在于，所述的每条消息队列对应至少一路通讯。

4.根据权利要求2所述的一种基于ATCA架构的高可用性系统，其特征在于，所述的失效处理为：当链路故障检测模块检测到主用活动节点失效后，对应消息队列关闭，如果其中消息还未使用，则由备用节点接收并处理该消息，直到备用节点倒换生效后，删除该消息。

5.根据权利要求1所述的一种基于ATCA架构的高可用性系统，其特征在于，所述的分布式控制接口层采用内存、文件、状态机和数据库的接口作为确定性对称式应用的服务接口，采用分布式控制接口和远程过程调用接口作为不确定性非对称式应用的服务接口，所述的应用服务层中的应用服务通过对应的接口运行于所有主用的活动节点上，并且维护一个全局性的状态信息，每个活动节点都以相同的顺序接收状态的改变并维护一致的状态信息。

6.根据权利要求5所述的一种基于ATCA架构的高可用性系统，其特征在于，所述的状态机控制模块的用于保证应用服务的流程对于成员组通讯系统中的每个节点都是确定，当流程结束时，检查在系统中的状态信息是否符合仲裁规则，若符合，则更新信息到分布式虚拟同步数据库，否则，状态更新信息无效。

7.根据权利要求1所述的一种基于ATCA架构的高可用性系统，其特征在于，所述的Checkpoint服务获取每个活动节点的Checkpoint数据，并生成一份复制，通过通讯驱动层提供的消息服务发送到相应的备用节点上；当某个节点由于故障引起失效，则从备用节点上获取相应的Checkpoint数据，并将失效节点恢复回来。

8.根据权利要求1所述的一种基于ATCA架构的高可用性系统，其特征在于，所述的高可用系统通过动态选举机制来完成主用节点间的状态同步或主用节点间的倒换，该动态选举机制包括以下步骤：

C.判断节点是否可以成为新主用活动节点。

9.根据权利要求1所述的一种基于ATCA架构的高可用性系统，其特征在于，所述的应用服务包括系统监控服务、文件服务、时间服务、日志服务。

10.根据权利要求1所述的一种基于ATCA架构的高可用性系统，其特征在于，所述的通讯驱动层、成员组通讯系统层、分布式控制接口层和应用服务层均采用共享库、静态库或插件技术，以接受其他提供不同特性具有相同服务功能的模块层的替换。