CN101136729B - 一种实现高可用性的方法、系统和装置 - Google Patents

一种实现高可用性的方法、系统和装置 Download PDF

Info

Publication number
CN101136729B
CN101136729B CN2007101519275A CN200710151927A CN101136729B CN 101136729 B CN101136729 B CN 101136729B CN 2007101519275 A CN2007101519275 A CN 2007101519275A CN 200710151927 A CN200710151927 A CN 200710151927A CN 101136729 B CN101136729 B CN 101136729B
Authority
CN
China
Prior art keywords
nucleon
nuclear
nucleon system
work
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007101519275A
Other languages
English (en)
Other versions
CN101136729A (zh
Inventor
尹树成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN2007101519275A priority Critical patent/CN101136729B/zh
Publication of CN101136729A publication Critical patent/CN101136729A/zh
Application granted granted Critical
Publication of CN101136729B publication Critical patent/CN101136729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种实现高可用性的方法,设置承载有多核处理器和外设的功能实体,在所述多核处理器的核之间设置冗余关系,当前工作的核使用所述外设执行业务处理,该方法还包括:针对所述当前工作的核进行故障检测;在所述故障检测结果为无法使用时,根据所述冗余关系,使用其他核资源继续执行业务处理。本发明还提供了一种实现高可用性的系统和装置。应用本发明,可以充分利用多核处理器中的多核资源,避免核资源的浪费。

Description

一种实现高可用性的方法、系统和装置
技术领域
本发明涉及满足可靠性并提升系统资源利用率的技术,特别涉及一种在多核架构下实现高可用性(High Availability,HA)的方法、系统和装置。
背景技术
HA技术是满足可靠性并提升系统资源利用率的一种技术,包括冗余、故障检测和容错等具体的实现技术。下面,简要介绍这几种具体的实现技术。
第一、冗余包括为主用设备设置备用设备,或者为主用资源设置冗余资源等,冗余的目的在于出现故障时,保证为用户提供的服务不被中断。冗余的方式可以有如下两种:第一种,采用在设备之间设置主备关系,在正常情况下使用主用设备提供业务,如果主用设备中的器件出现故障但不影响主用设备的正常使用,则对故障器件进行故障隔离,如果主用设备中的器件出现故障导致主用设备无法正常使用,则倒换到备用设备提供业务;第二种,设备之间不设置主备关系,而将所有设备统一看作资源池,将资源池中的一部分作为正常业务处理所需的资源,而另一部分作为冗余资源,当出现故障的正常业务处理所需的资源多于冗余资源时,通信设备的处理能力将低于系统规格。例如:在通信系统中,通过设备级别的冗余或通信链路级别的冗余,提供备份通信通道,当网络中出现设备瘫痪或链路中断时,通信网络仍然可以利用备份的通信通道为用户提供规定的服务。
第二、故障检测是识别一个系统发生了不期望的故障或征兆的过程,可以通过直接观察的方法检测,也可以通过推断的方法进行检测。其中,直接观察法是将在特定场合和/或时间条件下的多种事件,与故障之间建立关联关系进行故障检测;而推断法是通过观察系统的其他行为来推断出故障。
上述直接观察的方法和推断的方法,又可以由硬件故障检测法和软件故障检测法具体实现。硬件故障检测方法包括:数值范围检查(如温度、电压)、数据正确性检查(如奇偶校验)、时间检查(如心跳检测)、用户直观检查(如告警、声光显示)等。软件故障检测方法包括:软件测试法、软件校验和检查法、函数调用返回状态码检查法、超时检测法、模块内建诊断法等。
第三、容错指根据故障检测的结果,对故障进行处理的过程,包括故障隔离和倒换等。以为系统中的主备倒换方式为例,当故障检测结果是主用设备中出现了一部分故障,但并不影响主用设备的整体运行,此时容错为对主用设备中的故障部分进行故障隔离,当故障检测结果是主用设备出现了关键性故障,以至于主用设备无法正常使用,此时容错为从主用设备倒换到备用设备,使用备用设备继续提供服务。
目前,已存在多种实现HA的方案,下面以通信领域为例说明。
在通信领域中,通信设备以单板为基本实现单元,即通信设备由多个实现不同功能的单板组成。上述单板中又包括中央处理器(CPU)、随机存储器(RAM)和外围器件等,其中RAM和外围器件等CPU以外的装置,可以统称为外设。图1为现有技术通信设备中实现HA的架构示意图,该方案中以单板为最小粒度进行冗余,同样地,冗余的具体方式也可以包括主备方式和/或资源池的方式.
图1所示是一种较为简单的情况,在系统包括多个单板的情况下,也可以采用N+K主备模式,即设置N个主用单板,对应设置K个备用单板,当N大于或小于K时,可以采取第三方故障检测,而当N等于K时,可以采用第三方故障检测,也可以采用主备用单板相互进行故障检测的方法;或者,可以采用N+M资源池冗余方式,其中N代表正常业务处理所需的资源,而M代表冗余资源。
目前已出现的一种多核CPU,多个核可以通过直连架构直接连接到内存、输入/输出(I/O)和缓存等外设,相对于单核CPU,将大幅度减少内存延时的问题,因此多核技术在通信领域开始广泛应用,如何利用多核技术,使实现HA的方案在满足可靠性的基础上提供最佳成本,也成为备受关注的问题。
如果将多核CPU应用于图1所示的实现HA的方案中,虽然可以保证可靠性,但由于冗余的基本粒度为单板,当单板发生倒换时,CPU中的多核资源可能并没有全部得到利用。由于多核CPU的成本为通信、电子设备的主要成本,又由于上述在实现HA时造成的资源浪费,使得现有技术中实现HA的方案成本较高。
发明内容
本发明实施例提供一种实现HA的方法,该方法能够在满足可靠性的同时避免对核资源的浪费。
本发明实施例提供一种实现HA的系统,该系统能够在满足可靠性的同时避免对核资源的浪费。
本发明实施例提供一种实现HA的装置,该装置在满足可靠性的同时避免对核资源的浪费。
本发明实施例提供一种实现高可用性的方法,设置承载有多核处理器和多套独立外设的功能实体,每套独立外设对应多核处理器中的一个核,所述每套独立外设与对应的核组成核子系统;在所述核子系统之间设置冗余关系,当前工作的核子系统使用所述外设执行业务处理,该方法还包括:
对所述当前工作的核子系统进行故障检测;
在所述故障检测结果为无法使用时,根据所述冗余关系,使用其他核子系统资源继续执行业务处理。
本发明实施例提供一种实现高可用性的系统,该系统包括:故障处理单元和功能实体;
所述功能实体,包括多核处理器及多套独立外设,每套独立外设对应多核处理器中的一个核,所述每套独立外设与对应的核组成核子系统;所述核子系统之间具有冗余关系,所述核子系统用于使用所述外设执行业务处理;
所述故障处理单元包括:核子系统故障检测模块和处理模块;
所述核子系统故障检测模块,用于对当前工作的核子系统进行故障检测;
所述核子系统故障检测模块,用于在所述故障检测结果为无法使用时,根据所述冗余关系,使用其他核子系统继续执行业务处理。
本发明实施例提供一种实现高可用性的装置,该装置包括至少一个功能实体;
所述功能实体包括多核处理器和多套独立外设,每套独立外设对应多核处理器中的一个核,所述每套独立外设与对应的核组成核子系统;所述核子系统之间具有冗余关系;
所述装置中当前工作的核子系统,用于执行业务处理;
所述装置中的其他核子系统,用于在所述当前工作的核子系统无法使用时,按照所述冗余关系,继续执行业务处理。
可见,本发明实施例实现HA的方法、系统和装置,以多核处理器中的核为基本粒度进行冗余,并且针对核进行故障检测,当检测到当前工作的核无法正常使用时,根据核级冗余关系,使用其他核继续执行业务处理,因此充分利用了多核处理器中的多核资源,避免了核资源的浪费。
附图说明
图1为现有技术通信设备中实现HA的架构示意图;
图2为本发明实施例实现HA的方法流程图;
图3为本发明实施例实现HA的系统结构示意图;
图4为本发明实施例实现HA的系统第一种较佳实施方式的结构示意图;
图5为本发明实施例实现HA的系统第二种较佳实施方式的结构示意图;
图6为本发明实施例提供的第一种具体应用实例的架构示意图;
图7为本发明实施例提供的第二种具体应用实例的架构示意图。
具体实施方式
为使本发明实施例的目的和优点更加清楚,下面结合附图对本发明实施例作进一步的详细说明。
首先,介绍本发明实施例实现HA的方法,图2为本发明实施例实现HA的方法流程图,在流程开始之前,设置承载有多核处理器和外设的功能实体,在所述多核处理器的核之间设置冗余关系,当前工作的核使用所述外设执行业务处理,该流程包括:
步骤201:针对所述当前工作的核进行故障检测。
步骤202:在所述故障检测结果为无法使用时,按照所述核之间的冗余关系,使用其他核资源继续执行业务处理。
本发明实施例实现HA的方法,以多核处理器中的核为基本粒度进行冗余,并且针对核进行故障检测,当检测到当前工作的核无法使用时,根据核级冗余关系,使用其他核资源继续执行业务处理,因此充分利用了多核处理器中的多核资源,避免了核资源的浪费,从而节约了成本。
上述设置的外设可以为多套独立外设,每套独立外设对应多核处理器中的一个核,并且每套独立外设与对应的核组成核子系统。在这种情况下,步骤201中针对当前工作的核子系统进行故障检测,而步骤202中将根据冗余关系,使用其他核子系统继续执行业务处理。
针对上述核子系统的这种情况,多核处理器的核之间设置的冗余关系可以为:设置主用核子系统和对应的备用核子系统,为更好的保证可靠性,所述主用核子系统和备用核子系统位于不同的功能实体上,这种设置情况下,当前工作的核为主用核子系统,而步骤202中所述使用其他核继续执行业务处理为,从主用核子系统倒换到备用核子系统继续执行业务处理,如果步骤202中故障检测结果为当前工作的核子系统出现故障,但不影响正常使用时,还可以对出现的故障的部分进行隔离;或使用核子系统组成功能实体共享的资源池,在所述资源池中设置业务处理所需的正常核子系统资源,和冗余核子系统资源,在这种设置情况下,步骤202中使用其他核继续执行业务处理为,对当前工作的核子系统进行故障隔离后,使用资源池中的其他核子系统继续执行业务处理。
上述设置的外设还可以为多套公用外设,每套公用外设对应一个功能实体。在这种情况下,可以在功能实体之间设置冗余关系,步骤201中在对当前工作的核进行故障检测的同时,可以进一步包括:针对当前工作的核所在的功能实体上的公用外设进行故障检测;而在步骤202中,当所述针对功能实体进行故障检测的结果为,该功能实体上的公用外设无法使用时,根据功能实体间的冗余关系,使用其他功能实体继续处理业务。因此,在这种情况下,相当于设置了两个冗余的级别,即功能实体级别和核级别,是一种结合使用的情况。
针对上述设置公用外设的情况,多核处理器的核之间设置的冗余关系可以为:设置主用核和对应的备用核,为更好的保证可靠性,所述主用核和备用核位于不同的功能实体上,在这种情况下,当前工作的核为主用核,步骤202中所述使用其他核继续执行业务处理为,从主用核倒换到备用核继续执行业务处理,如果步骤202中故障检测结果为当前工作的核出现故障,但不影响正常使用时,还可以对出现的故障的部分进行隔离;或使用核组成功能实体共享的资源池,在所述资源池中设置业务处理所需的正常核资源和冗余核资源,在这种设置情况下,步骤202中使用其他核继续执行业务处理为,对当前工作的核进行故障隔离后,使用资源池中的其他核继续执行业务处理。
在对本发明实施例功能实体中的外设实施不同的设置方法时,可以将外设设置为针对核的独立外设,为每个核设置独立的核子系统,即每个核可以使用对应的独立外设执行业务处理,从而使核的结构更加独立,针对核级的冗余提高了可靠性;也可以将外设设置为针对功能实体的公用外设,而每个核不再具有独立的子系统,需要使用所述公用外设执行业务处理,并结合核级和功能实体级的冗余方式,相对于单纯功能实体级的冗余,更充分的利用了多核处理器中的多核资源,节约了成本。
本发明实施例实现HA的方法中,故障检测可以使用本领域技术人员公知的常识进行,例如直接观察的方法和推断的方法,当功能实体中的多核处理器没有完全损坏时,可以采用接收多核处理器上报故障的方式,当然也可以使用主动对故障进行检测的方式,这并非本发明实施例讨论的重点,这里不再赘述。
其次,介绍本发明实施例实现HA的系统,图3为本发明实施例实现HA的系统结构示意图,该系统包括:故障处理单元和承载有多核处理器及外设的功能实体;所述多核处理器的核之间具有冗余关系。
故障处理单元,用于对多核处理器中当前工作的核进行故障检测;在所述故障检测结果为无法正常使用时,根据所述冗余关系,使用其他核继续执行业务处理。
多核处理器中的核,用于使用所述外设执行业务处理。
本发明实施例实现HA的系统,以多核处理器中的核为基本粒度进行冗余,并且针对核进行故障检测,当检测到当前工作的核无法正常使用时,根据核级冗余关系,使用其他核继续执行业务处理,因此充分利用了多核处理器中的多核资源,从而节约了成本。
本发明实施例实现HA的系统中,可以根据具体应用场景以及对可靠性的不同要求,包括个数不等的功能实体。
下面介绍基于图3所示的本发明实施例实现HA的系统的两种较佳实施方式。
图4为本发明实施例实现HA的系统的第一种较佳实施方式,在图3所示的系统结构中,功能实体承载的外设包括多套独立外设,即至少两套独立外设,每套独立外设对应多核处理器中的一个核。上述每套独立外设与对应的核组成核子系统。多核处理器之间的冗余关系设置,可以与本发明实施例实现HA的方法中已介绍的,针对核子系统的设置方法相同。
而故障处理单元包括:核子系统故障检测模块和处理模块。
核子系统故障检测模块,用于对当前工作的核子系统进行故障检测。
处理模块,用于在所述核子系统故障检测模块得出的检测结果为无法正常使用时,根据所述冗余关系,执行使用其他核子系统。
在所述冗余关系包括主用核子系统和备用核子系统时,即冗余关系为主备关系,上述故障处理单元中的处理模块包括:第一故障隔离模块和第一执行模块。
第一故障隔离模块,用于在所述核子系统故障检测模块得出的检测结果为,当前工作的核子系统出现故障,但不影响使用时,对出现故障的部分进行隔离。
第一执行模块,用于在所述核子系统故障检测模块得出的检测结果为,当前工作的核子系统无法使用时,倒换到备用核子系统。
在所述冗余关系为资源池时,上述故障处理单元中的执行模块包括:第二故障隔离模块和第二执行模块。
第二故障隔离模块,用于在所述核子系统故障检测模块得出的检测结果为,当前工作的核子系统出现故障,但不影响核子系统的使用时,对出现故障的部分进行隔离。
第二执行模块,用于在所述核子系统故障检测模块得出的检测结果为,当前工作的核子系统无法使用时,对当前工作的核子系统进行故障隔离后,执行使用资源池中的其他核子系统。
在图4所示的第一种较佳实施方式中,为每个核设置了独立的核子系统,即每个核可以使用对应的独立外设,执行业务处理,从而使核的结构更加独立,从而提高了可靠性。
图5为本发明实施例实现HA的系统的第二种较佳实施方式,图5只示出了系统中包括一个功能实体的情况,该功能实体承载的外设为公用外设,该功能实体上的多核处理器中的核可以访问并使用上述公用外设,来执行业务处理,如果当前工作的核出现故障无法使用,则可以按照核之间的冗余关系,使用该功能实体上其他核资源继续执行业务处理,其他核资源也使用与当前工作的核相同的公用外设继续执行业务处理。而多核处理器的核之间的冗余关系设置,可以与本发明实施例实现HA的方法中,已介绍的针对公用外设的设置方法相同。实际上系统中可以包括多个与故障处理单元相连的功能实体,即可以包括至少两个功能实体,每个功能实体上具有一套能被自身多核处理器中的核使用的公用外设。系统中的多个功能实体之间也可以设置冗余关系。
而故障处理单元包括:核故障检测模块、功能实体故障检测模块和处理模块。
核故障检测模块,用于对当前工作的核进行故障检测。
功能实体故障检测模块,用于对当前工作的核所在的功能实体上的公用外设进行故障检测。
处理模块,用于在所述核故障检测模块得出的检测结果,为所述核无法使用时,根据所述核之间的冗余关系,使用其他核继续执行业务处理;在所述功能实体故障检测模块得出的检测结果,为所述功能实体上的公用外设无法使用时,根据所述功能实体之间的冗余关系,使用其他功能实体继续执行业务处理。
在本较佳实施方式中,核级和功能实体级的冗余方式可以不同,例如核级采用资源池方式,而功能实体级可以采用主备方式。
在核级冗余关系包括主用核和备用核、功能实体级冗余关系也包括主用功能实体和备用功能实体时,上述处理模块中包括:第一核级故障隔离模块、第一核级执行模块、第一功能实体级故障隔离模块和第一功能实体级执行模块。
第一核级故障隔离模块,用于在所述核故障检测模块得出的检测结果为,当前工作的核出现故障,但不影响使用时,对出现故障的部分进行隔离。
第一核级执行模块,用于在所述核故障检测模块得出的检测结果为,当前工作的核无法使用时,倒换到备用核。
第一功能实体级故障隔离模块,用于在所述功能实体故障检测模块得出的检测结果为,当前工作的核所在的功能实体上的公用外设出现故障,但不影响使用时,对出现故障的部分进行隔离。
第一功能实体级执行模块,用于在所述功能实体故障检测模块得出的检测结果为,当前工作的核所在的功能实体上的公用外设无法使用时,执行倒换到备用功能实体。
在核级冗余关系包括核资源池、功能实体级冗余关系也包括资源池时,处理模块中包括:第二核级故障隔离模块、第二核级执行模块、第二功能实体级故障隔离模块和第二功能实体级执行模块。
第二核级故障隔离模块,用于在所述核故障检测模块得出的检测结果为,当前工作的核出现故障,但不影响核的使用时,对出现故障的部分进行隔离。
第二核级执行模块,用于在所述核故障检测模块得出的检测结果为,当前工作的核无法使用时,对当前工作的核进行故障隔离后,执行使用核资源池中的其他核。
第二功能实体级故障隔离模块,用于在所述功能实体故障检测模块得出的检测结果为,当前工作的核所在的功能实体上的公用外设出现故障,但不影响使用时,将出现故障的部分隔离。
第二功能实体级执行模块,用于在功能实体故障检测模块得出的检测结果为,当前工作的核所在的功能实体上的公用外设无法使用时,对功能实体进行隔离后,执行使用功能实体资源池中的其他功能实体。
在核级冗余关系包括资源池、功能实体级冗余关系包括主用功能实体和备用功能实体时,处理模块中包括:第三核级故障隔离模块、第三核级执行模块、第三功能实体级故障隔离模块和第三功能实体级执行模块。
第三核级故障隔离模块和第三核级执行模块的功能,与第二核级故障隔离模块和第二核级执行模块的功能相同。
而第三功能实体级故障隔离模块和第三功能实体级执行模块的功能,与第一功能实体级故障隔离模块和第一功能实体级执行模块的功能相同。
在核级冗余关系包括主备方式、功能实体级冗余关系包括资源池时,处理模块中包括:第四核级故障隔离模块、第四核级执行模块、第四功能实体级故障隔离模块和第四功能实体级执行模块。
第四核级故障隔离模块和第四核级执行模块的功能,与第一核级故障隔离模块和第一核级执行模块的功能相同。
而第四功能实体级故障隔离模块和第三功能实体级执行模块的功能,与第二功能实体级故障隔离模块和第二功能实体级执行模块的功能相同。
在图5所示的第二种较佳实施方式中,功能实体具有公用外设,多核处理器中的核使用自身所在功能实体上的公用外设执行业务处理,当功能实体能够使用时,采取核级的冗余方式,而当功能实体无法使用时,再考虑功能实体级的冗余方式,相当于结合了核级的冗余方式和功能实体级的冗余方式,相对于单纯功能实体级的冗余方式,充分利用了多核处理器中的多核资源,节约了成本。
上述本发明实施例提供的实现HA的系统中,除故障处理单元之外的部分,可以作为本发明实施例提供的实现HA的装置,即该装置包括至少一个承载有多核处理器及外设的功能实体,并且多核处理器的核之间具有冗余关系。多核处理器中当前工作的核,用于执行业务处理,而多核处理器中其他的核,用于在当前工作的核无法使用时,继续执行业务处理。
本发明实施例实现HA的方法、系统和装置,根据实际的应用领域不同,可以有不同的应用实例。例如在通信领域中,功能实体为通信设备中常用的单板,针对为核设置独立的核子系统这种情况,除了核子系统中完成主要业务处理的独立外设外,还可以包括单板级、用于与单板外部通信的公用外设;而针对设置功能实体上的公用外设这种情况,除了单板上完成主要业务处理的公用外设之外,还可以为核设置简单的外围器件组成核子系统。
下面结合本发明实施例实现HA的方法和系统,以具体的应用领域为背景,分别举出几种具体的应用实例。
图6为本发明实施例提供的第一种应用实例的架构图,在本应用实例中,以通信领域为应用背景,针对通信设备单板中的单板级公用外设较少的情况,例如单板级的公用外设只包括单板与外部通信的接口。
在通信设备中设置两块承载有多核处理器的单板,这两块单板分别具有单板级的公用外设,这些公用外设为单板与外部的通信接口,并可以通过总线实现全互连结构,即可通过总线同时与多核处理器中的多个核连接,每个核都可以对等的访问这些公用外设;以多核处理器中的每个核为中心,设置多个独立的核子系统,在核子系统中设置独立内存、接口装置等独立外设。基于上述结构,核子系统完成在单板内部的业务处理,并通过单板级的公用外设与单板外部通信,从而实现完整的功能。
在冗余方式的设置方面,根据通信领域将业务处理分为信令面、业务面和操作维护面的情况,分别为不同面设置不同的冗余方式。其中在信令面可以采用核级备份的方式进行冗余,即设置两个核子系统互为备份并分布在两块单板上;在业务面可以采用核级资源池的方式进行冗余,即两块单板共享由核子系统组成的资源池,将一部分核子系统作为业务处理所需的资源,而另一部分核子系统作为冗余资源,在这种冗余方式中,不再区分主备用;而在操作维护面可以采用核级主备加资源池的方式进行冗余。除了上述对不同平面采用的具体冗余方式外,还可以根据实际需要采用其他冗余方式,例如操作维护面也可以只采用核级主备的冗余方式。在图6中,以实心菱形表示主用核子系统,以实心圆形表示备用核子系统,分别示出了三种不同的冗余方式。
基于图6所示的架构,具体实现HA时可以包括:
在信令面,以主用核子系统为中心进行故障检测,如果该主用核子系统中的关键部件,例如内存出现故障,则发起以主用核子系统为中心的倒换,即倒换到备用核子系统处理业务;如果出现故障的为主用核子系统中的其他部件,不影响主用核子系统的正常运行,则对出现故障的部件进行隔离。
在业务面,以当前使用的核子系统为中心进行故障检测,如果当前使用的核子系统中的关键部件出现故障,则倒换到其他的冗余核子系统继续执行业务处理;如果出现故障的为当前使用的核子系统中的其他部件,不影响当前使用的核子系统的正常运行,则对出现故障的部件进行隔离。
上述在业务面采用的核资源池的冗余,可以采用N+M的冗余方式,即N个核子系统为业务处理所需的资源,而M个核子系统为冗余资源,当M为0时表示系统不冗余,而M>1时,如果出现故障无法正常运行的核子系统数量小于M,则系统的处理能力不会降低,如果出现故障无法正常运行的核子系统数量大于M时,处理能力低于系统规格。
在操作维护面,可以使用核级主备加资源池的冗余方式,具体方法是结合信令面和业务面的方法,例如,一种具体的实施方式可以为,当前工组的核存在备用核时,倒换到备用核,或者也可以使用与当前工作的核处于同一资源池中的其他核,这里不再赘述。
上述在不同平面实现HA的实施步骤,均可以由本发明实施例提供的系统中的相应模块完成。
在本发明实施例实现HA的方法第一种具体应用实例中,采用了为每个核设置核子系统的方式,使每个核子系统处于独立的状态,又由于单板级的公用外设为对外通信接口,并通过总线实现全互连结构,而这种总线结构的故障几率是非常低的,因此基于这种硬件平台结构的核级故障隔离与倒换,可以在保证节约资源的前提下实现HA;另外,针对不同的平面采用不同的冗余方式,使冗余方式更加灵活。
图6所示架构为一种较为简单的情况,当单板数量大于两块时,在信令面或操作控制面采用核级主备的冗余方式时,可以采取N+K备份,即N个主用核级子系统,K个备用核级子系统,类似的,K个备用核级子系统最好和N个主用核级子系统分布在不同的单板之上,以最好的保证可靠性。
图7为本发明实施例提供的第二种应用实例的架构图,在本应用实例中,以通信领域为应用背景,针对单板级公用外设较多,例如单板级公用外设包括内存、单板对外通信接口、单板内部接口装置等的情况。
在通信设备中设置四个承载有多核处理器的功能实体,即设置四块承载有多核处理器的单板,这四块单板分别具有单板级公用外设,这些公用外设通过总线实现全互连结构,即可同时与多核处理器中的多个核连接,每个核都可以对等的访问这些公用外设;以多核处理器中的每个核为中心,设置多个独立的核子系统,在核子系统中设置处理业务所需的外围器件;位于同一单板上的核级子系统组成单板子系统。基于上述设计,本应用实例与第一种应用实例的区别在于,核子系统中为核设置的部件较为简单,在完成单板内的业务处理时,核子系统需要主要使用单板级公用外设,例如内存等,因此是一种弱化了独立核子系统的情况。
冗余方式的设置方面,采用分层管理方式,在单板级的管理层次中,以单板为中心进行故障检测,而在核级的管理层次中,以核子系统为中心进行故障检测。在核级的管理层次中,仍将业务处理分为信令面、业务面和操作维护面,在信令面可以采用核级备份的方式进行冗余,即设置两个核子系统互为备份并分布在两块单板上;在业务面可以采用核级资源池进行冗余,将一部分核子系统作为业务处理所需的资源,而另一部分核子系统作为冗余资源,在这种冗余方式中,不再区分主备用;而在操作维护面可以采用核级主备加资源池的方式进行冗余。在单板级的管理层次中,使用的冗余方式可以与核级管理层次的不同,例如当核级管理层次中使用资源池的冗余方式时,单板级管理层次中可以使用主备的冗余方式。在图4中,以实心菱形表示主用核子系统,以实心圆形表示备用核子系统,示出了核级管理层次的几种不同冗余方式,还示出了单板级的主备冗余方式,其中主用单板单元中包括两块单板,备用单板单元中也包括两块单板。
基于图7所示的架构,本应用实例中实现HA时可以包括:
在单板级管理层次,以单板为中心进行故障检测,当单板中出现故障的部件不影响整个单板的正常运行时,可以对出现故障的部件进行隔离,而如果单板中出现故障的部件为关键部件,影响了单板的正常运行,则进行单板级倒换,即使用备用单板处理业务。
在核级管理层次,针对核级子系统进行故障检测,当核级子系统出现故障的部件不影响整个核级子系统的正常运行时,可以对出现故障的部件进行隔离,而如果核级子系统出现故障的部件为关键部件,影响了核级子系统的正常运行,则按照核级管理中各个平面的不同冗余方式进行处理。例如在信令面,可以进行核级倒换,即使用备用核子系统处理业务,在业务面,可以使用其他冗余的核子系统处理业务,而在操作维护面,可以进行核级倒换结合使用其他冗余的核子系统处理业务。
同样地,上述在不同平面实现HA的实施步骤,均可以由本发明实施例提供的系统中的相应模块完成。
本发明实施例提供的第二种应用实例中,考虑单板级公用外设较多的情况,除考虑核子系统级别的冗余外,还考虑单板级别的冗余,既解决单板级公用外设较多需要单板级冗余的问题,同时又兼顾了单板级冗余中存在的资源浪费问题,在单板级的冗余中最大限度的节省了资源。
上面所举的两个应用实例,仅以通信领域为应用背景,在其他技术领域,例如电子设备应用领域,当需要考虑实现HA时,同样可以使用本发明实施例提供的方法和系统,例如在架构、冗余方式的设计方面,都可以使用和本发明实施例提供的相同方式。
综上所述,以上仅为本实施例的较佳实施例而已,并非用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种实现高可用性的方法,其特征在于,设置承载有多核处理器和多套独立外设的功能实体,每套独立外设对应多核处理器中的一个核,所述每套独立外设与对应的核组成核子系统;在所述核子系统之间设置冗余关系,当前工作的核子系统执行业务处理,该方法还包括:
对所述当前工作的核子系统进行故障检测;
在所述故障检测结果为无法使用时,根据所述冗余关系,使用其他核子系统继续执行业务处理。
2.如权利要求1所述的方法,其特征在于,所述在核子系统之间设置冗余关系为:设置主用核子系统和备用核子系统,所述主用核子系统和备用核子系统位于不同的功能实体上;所述当前工作的核子系统为主用核子系统,所述使用其他核子系统继续执行业务处理为:倒换到备用核子系统继续执行业务处理;
或者,所述在核子系统之间设置冗余关系为:使用核子系统组成功能实体共享的资源池;所述使用其他核子系统继续执行业务处理为:对当前工作的核子系统进行故障隔离后,使用资源池中的其他核子系统继续执行业务处理。
3.如权利要求1所述的方法,其特征在于,对所述当前工作的核子系统进行故障检测之后进一步包括:
在所述故障检测结果为当前工作的核子系统出现故障,但不影响使用时,对出现故障的部分进行故障隔离。
4.如权利要求1所述的方法,其特征在于,所述业务处理包括:信令面处理、业务面处理和操作维护面处理;
针对所述信令面处理,所述在核子系统之间设置冗余关系为:设置主用核子系统和备用核子系统,所述主用核子系统和备用核子系统位于不同的功能实体上;
针对所述业务面处理,所述在核子系统之间设置冗余关系为:使用核子系统组成功能实体共享的资源池;
针对所述操作维护面处理,所述在核子系统之间设置冗余关系为:设置主用核子系统和备用核子系统,并使用核子系统组成功能实体共享的资源池。
5.一种实现高可用性的系统,其特征在于,该系统包括:故障处理单元和功能实体;
所述功能实体,包括多核处理器及多套独立外设,每套独立外设对应多核处理器中的一个核,所述每套独立外设与对应的核组成核子系统;所述核子系统之间具有冗余关系,所述核子系统用于执行业务处理;
所述故障处理单元包括:核子系统故障检测模块和处理模块;
所述核子系统故障检测模块,用于对当前工作的核子系统进行故障检测;
所述核子系统故障检测模块,用于在所述故障检测结果为无法使用时,根据所述冗余关系,使用其他核子系统继续执行业务处理。
6.如权利要求5所述的系统,其特征在于,所述冗余关系包括主用核子系统和备用核子系统;所述处理模块中包括第一故障隔离模块和第一执行模块;
所述第一故障隔离模块,用于在所述核子系统故障检测模块得出的检测结果为,当前工作的核子系统出现故障,但不影响使用时,对出现故障的部分进行隔离;
所述第一执行模块,用于在所述核子系统故障检测模块得出的检测结果为,当前工作的核子系统无法使用时,倒换到备用核子系统。
7.如权利要求5所述的系统,其特征在于,所述冗余关系为核子系统资源池;所述处理模块中包括第二故障隔离模块和第二执行模块;
第二故障隔离模块,用于在所述核子系统故障检测模块得出的检测结果为,当前工作的核子系统出现故障,但不影响核子系统的使用时,对出现故障的部分进行隔离;
第二执行模块,用于在所述核子系统故障检测模块得出的检测结果为,当前工作的核子系统无法使用时,对当前工作的核子系统进行故障隔离后,执行使用资源池中的其他核子系统。
8.一种实现高可用性的装置,其特征在于,该装置包括至少一个功能实体;
所述功能实体包括多核处理器和多套独立外设,每套独立外设对应多核处理器中的一个核,所述每套独立外设与对应的核组成核子系统;所述核子系统之间具有冗余关系;
所述装置中当前工作的核子系统,用于执行业务处理;
所述装置中的其他核子系统,用于在所述当前工作的核子系统无法使用时,按照所述冗余关系,继续执行业务处理。
CN2007101519275A 2007-09-20 2007-09-20 一种实现高可用性的方法、系统和装置 Active CN101136729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101519275A CN101136729B (zh) 2007-09-20 2007-09-20 一种实现高可用性的方法、系统和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101519275A CN101136729B (zh) 2007-09-20 2007-09-20 一种实现高可用性的方法、系统和装置

Publications (2)

Publication Number Publication Date
CN101136729A CN101136729A (zh) 2008-03-05
CN101136729B true CN101136729B (zh) 2011-08-03

Family

ID=39160588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101519275A Active CN101136729B (zh) 2007-09-20 2007-09-20 一种实现高可用性的方法、系统和装置

Country Status (1)

Country Link
CN (1) CN101136729B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937370B (zh) * 2010-08-16 2013-02-13 中国科学技术大学 一种在fcmp上支持系统级资源分配和任务调度的方法及装置
CN102843246B (zh) * 2011-06-20 2017-06-16 中兴通讯股份有限公司 倒换系统测试评估方法和装置
CN102231126B (zh) * 2011-07-28 2013-09-04 大唐移动通信设备有限公司 一种实现多核处理器中核间备份的方法及系统
DE102013217601A1 (de) * 2013-09-04 2015-03-05 Robert Bosch Gmbh Verfahren zum Notbetrieb eines Multicore-Prozessors eines Steuergeräts eines Kraftfahrzeugs
CN104657240B (zh) * 2013-11-18 2018-08-21 华为技术有限公司 多内核操作系统的失效控制方法及装置
CN104283718B (zh) * 2014-10-27 2018-01-12 新华三技术有限公司 网络设备及用于网络设备的硬件故障诊断方法
CN105607974A (zh) * 2015-12-18 2016-05-25 西安电子科技大学 高可靠性多核处理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003050624A1 (de) * 2001-12-11 2003-06-19 Continental Teves Ag & Co. Ohg Mehrkerniges redundantes kontrollrechnersystem, rechnerverbund für sicherheitskritische anwendungen in kraftfahrzeugen sowie dessen verwendung
CN1729456A (zh) * 2002-12-19 2006-02-01 英特尔公司 高可靠性处理器的片上机制
WO2007099181A1 (es) * 2006-02-28 2007-09-07 Intel Corporation Mejora de la fiabilidad de un procesador de muchos nucleos

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003050624A1 (de) * 2001-12-11 2003-06-19 Continental Teves Ag & Co. Ohg Mehrkerniges redundantes kontrollrechnersystem, rechnerverbund für sicherheitskritische anwendungen in kraftfahrzeugen sowie dessen verwendung
CN1729456A (zh) * 2002-12-19 2006-02-01 英特尔公司 高可靠性处理器的片上机制
WO2007099181A1 (es) * 2006-02-28 2007-09-07 Intel Corporation Mejora de la fiabilidad de un procesador de muchos nucleos

Also Published As

Publication number Publication date
CN101136729A (zh) 2008-03-05

Similar Documents

Publication Publication Date Title
CN101136729B (zh) 一种实现高可用性的方法、系统和装置
KR920003497B1 (ko) 억세스 손실 처리용 시스템 및 그 보호방법
US7516352B2 (en) Isolating a drive from disk array for diagnostic operations
US20080115012A1 (en) Method and infrastructure for detecting and/or servicing a failing/failed operating system instance
JP2002082844A (ja) ハードウェア・デバイスを管理する方法、システムおよびコンピュータ・プログラム・プロダクト
CN102364448A (zh) 一种计算机故障管理系统的容错方法
CN104391777B (zh) 基于Linux操作系统的云平台及其运行监控方法和装置
CN106789306A (zh) 通信设备软件故障检测收集恢复方法和系统
CN110069361A (zh) 用于tpm故障切换的方法和装置
CN110351149A (zh) 一种维护网络数据转发平面的方法及装置
CN104283718B (zh) 网络设备及用于网络设备的硬件故障诊断方法
JPH11203157A (ja) 冗長装置
CN100538647C (zh) 多核处理器的业务流处理方法及多核处理器
CN115617550A (zh) 处理设备、控制单元、电子设备、方法和计算机程序
CN109032901A (zh) 一种远程带外ssd的监控方法、装置及受控终端
US20070055480A1 (en) System and method for self-diagnosis in a controller
CN105009086A (zh) 一种实现处理器切换的方法、计算机和切换装置
CN101458624B (zh) 可编程逻辑器件的加载方法、处理器和装置
CN109358982B (zh) 硬盘自愈装置、方法以及硬盘
US20060195558A1 (en) Redundant manager modules
IE53855B1 (en) A security system for a distributed control exchange
CN101000536A (zh) 显示芯片共享方法
CN110275120B (zh) 应用于数据中心的电源故障监测方法、系统及终端设备
JPH03179538A (ja) データ処理システム
TW200307200A (en) Multiple fault location in a series of devices

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant