CN1409494A - 在冗余体系结构通信系统中提供故障检测和结构切换的系统及方法 - Google Patents

在冗余体系结构通信系统中提供故障检测和结构切换的系统及方法 Download PDF

Info

Publication number
CN1409494A
CN1409494A CN02141919A CN02141919A CN1409494A CN 1409494 A CN1409494 A CN 1409494A CN 02141919 A CN02141919 A CN 02141919A CN 02141919 A CN02141919 A CN 02141919A CN 1409494 A CN1409494 A CN 1409494A
Authority
CN
China
Prior art keywords
data path
fault
now
relevant
redundant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN02141919A
Other languages
English (en)
Inventor
威廉·沙勒
弗兰科伊斯·迈克尔蒂特奇安
陈希
丹·格拉费勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ALCATEL CORP
Nokia Canada Inc
Original Assignee
ALCATEL CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ALCATEL CORP filed Critical ALCATEL CORP
Publication of CN1409494A publication Critical patent/CN1409494A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/552Prevention, detection or correction of errors by ensuring the integrity of packets received through redundant connections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0609Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on severity or priority
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/15Interconnection of switching modules
    • H04L49/1515Non-blocking multistage, e.g. Clos
    • H04L49/1523Parallel switch fabric planes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

提供了一种为通信设备在现用数据路径和冗余数据路径间选择路由数据路径的系统和方法,系统和方法具体实施为:第一步,监控发生在现用数据路径和冗余数据路径中的故障,检测到故障后,第二步,与门限相比估计故障的严重性。更进一步,如果故障严重性超过门限且故障与现用数据路径有关,则从现用数据路径到冗余数据路径切换路由数据路径。如果故障严重性超过门限且故障与冗余数据路径有关,则从冗余数据路径至现用数据路径切换通信路由数据路径。

Description

在冗余体系结构通信系统中提供故障 检测和结构切换的系统及方法
技术领域
本发明涉及一种在检测和分析一条或多条数据路径中的故障后提供通信设备中通信路径切换的系统及方法。
背景技术
许多通信交换和路由器系统体系结构提供冗余通信能力,新泽西州Murray Hill的朗讯科技已基于其推出的MSC25000 MultiservicePacket Core Switch(朗讯科技的商标)宣布了一种冗余系统,英格兰伦敦的Marconi上市公司以其BXR48000路由器(Marconi上市公司的商标)宣布了一种冗余系统。
路由器系统中的冗余可有两种水平。第一水平在用于通信交换的单一机架(shelf)内提供冗余,其中,两个或更多模块为在同一机架上的另一通信模块提供冗余通信能力;第二水平的冗余在交换矩阵卡外提供结构冗余,包括安装在各输入/输出(I/O)机架上的结构接口卡(fabric interface card-FIC)、连接各I/O机架的高速机架间连接(HISL)电缆和安装在交换机架中的交换接入卡(Switch AccessCards-SACs)。
另外,任何结构冗余的实现在执行完全数据路径切换时须遵从Bellcore标准,现用的Bellcore标准规定在任何交换结构中切换必须在检测到故障后60ms内完成。另外,差错的软件检测应在20ms内发生(非Bellcore规范)。
提供结构冗余的现有技术系统不提供追踪交换结构中差错位置的灵活方法,也不提供故障在何处发生的指示以及交换机制如何应对故障。
另外,现有技术冗余系统不能使特定结构隔离以防止该结构引起结构切换。
另外,现有技术系统不提供从控制路径隔离或机架控制器重置自动恢复的机制。
因此,需要能改善现有技术系统性能的提供交换冗余的系统和方法。
发明内容
第一方面,提供了一种为通信设备在现用数据路径和冗余数据路径间选择路由数据路径的方法。该方法包括第一步:监控发生于现用数据路径和冗余数据路径的故障,检测到故障后;第二步:与门限相比估计故障的严重性。进一步,如果故障严重性超过门限且故障与现用数据路径有关,则该方法从现用数据路径至冗余数据路径切换路由数据路径。如果故障严重性超过门限且故障与冗余数据路径有关,则该方法用有关故障信息更新与冗余数据路径有关的健康分值。
方法第一步可确定故障是否为现用数据路径第一故障,第二步,如果故障是第一故障,将严重性设为门限之上。
第二方面,提供一种为通信设备在现用数据路径和冗余数据路径间选择路由数据路径的方法。该方法包括第一步,监控发生在现用数据路径的第一故障,检测到第一故障后,第二步,切换路由数据路径至冗余数据路径,第三步,监控发生于现用数据路径和冗余数据路径的随后故障,第四步,追踪现用数据路径和冗余数据路径中随后故障和任何以前故障并与门限相比估计随后故障和任何以前故障,进一步,如果超过门限且随后故障与现用数据路径有关,该方法从现用数据路径至冗余数据路径切换通信路由数据路径。
方法在第一步可监控现用数据路径故障并在现用数据路径中检测到每一故障后产生第一故障报告。此外,第一步可监控冗余数据路径故障并在冗余数据路径检测到每一故障后产生第二故障报告。
方法第四步还可从第一监控模块接收第一故障报告并更新现用数据路径第一故障报告,从第二监控模块接收第二故障报告,更新冗余数据路径第二故障报告,并产生第一故障报告和第二故障报告的比较值以鉴别现用数据路径和冗余数据路径哪一个更为健康。
该方法可清除较早故障,并更新第一和第二故障报告以去除较早故障。
该方法可使第一和第二故障报告应用各自的数据结构,各自包含各报告故障要素的入口。
该方法可近乎同时通过现用数据路径和冗余数据路径发送数据,另外,切换路由数据路径后,该方法会在通信设备一个出口点引起路由数据路径切换。
该方法在设备中可用出口点作为出口线卡。
该方法可通过故障检测单元从一个驱动器接收故障消息来执行第一步和第三步,该驱动器和与故障消息有关的通信设备中一个物理位置有关。
该方法可使故障检测单元为故障消息去抖动(debouncing)并向与该物理位置相关联的故障分析单元报告故障消息。
该方法可使故障检测单元为每一故障消息应用一状态机来去抖动故障消息。
该方法可使故障分析单元执行第二步。
该方法可使故障检测单元应用全局数据存储与每一故障消息有关的信息。
对一给定故障消息,该方法可使故障检测单元访问全局数据,以允许启动与给定故障相关的状态机。
在第三步,该方法可使故障检测单元建议结构选择单元有关随后故障的情况,结构选择单元执行第四步。
该方法可使结构选择单元位于通信设备的中央位置。
该方法可使结构选择单元为每一随后故障和任何以前故障指配一故障权值。
第三方面,提供了一种为通信设备在现用数据路径和冗余数据路径间选择路由数据路径的方法,该方法包括监控发生于现用数据路径或冗余数据路径中的事件。而且,检测到事件后,如果事件发生于现用数据路径,该方法更新与现用数据路径中第一组部件有关的第一状态,如果事件发生于冗余数据路径,该方法更新与冗余数据路径中第二组部件有关的第二状态。此外,该方法与至少一个失败门限相比评估第一状态和第二状态,并根据评估选择路由数据路径。
第四方面,提供一种交换机,该交换机在第一结构中第一数据路径和第二结构中第二数据路径间提供路由,包括作为现用数据路径的第一数据路径,作为现用数据路径冗余数据路径的第二数据路径,与第一和第二数据路径相关联的故障检测单元,与故障检测单元相关联的故障分析单元,与故障分析单元相关联的结构选择单元。此外,故障检测系统监控发生于现用数据路径和冗余数据路径中的故障,检测到故障后,故障分析单元将故障与门限相比估计严重性,如果故障严重性超过门限且故障与现用数据路径有关,结构选择单元将路由数据路径从现用数据路径切换至冗余数据路径。
第五方面,提供一种交换机,该交换机在第一结构中第一数据路径和第二结构中第二数据路径间提供路由数据路径,包括作为现用数据路径的第一数据路径,作为现用数据路径冗余数据路径的第二数据路径,与第一和第二数据路径相关联的故障检测单元,与故障检测单元相关联的故障分析单元,与故障分析单元相关联的结构选择单元。此外,故障检测单元监控发生于现用数据路径中的第一故障,检测到第一故障后,结构选择单元切换路由数据路径至冗余数据路径。故障检测单元也监控发生于现用数据路径和冗余数据路径的随后故障,故障分析单元跟踪并向结构选择单元报告随后故障,结构选择单元将随后故障及任何前故障与门限相比,评估现用数据路径和冗余数据路径中随后故障及任前故障的严重性,如果故障严重性超过门限且随后故障与现用数据路径有关,结构选择单元将路由数据路径从现用数据路径切换至冗余数据路径。
该交换机还使故障检测单元监控现用数据路径中的故障,向故障分析单元建议有关现用数据路径中故障的情况,监控冗余数据路径中的故障,向故障分析单元建议有关冗余数据路径中故障的情况。故障分析单元还产生现用数据路径中故障的第一故障报告并提供给结构选择单元,产生冗余数据路径中故障的第二故障报告提供给结构选择单元。
该交换机还可使结构选择单元产生第一故障报告和第二故障报告的比较值以鉴别现用数据路径和冗余数据路径哪一个更为健康。
本发明的其它方面,可提供上述方面的各种组合及子集。
附图说明
通过下面对其具体实施方案和只是以举例的方式阐明了本发明原理的附图的描述,本发明的上述方面及其它方面会更为明显,附图中,各部件标以参考数字(其中,单独部件有唯一字母后缀)。
图1为应用体现本发明的交换机的通信网络方框图;
图2A为图1的交换机部件方框图;
图2B为图2A交换机部件和连接方框图;
图2C为图2B的交换机部件间业务流方框图;
图3为图1交换机软件部件方框图;
图4为图1交换机的故障检测单元的差错检测位置方框图;
图5为图1交换机的故障检测单元方框图;
图6A为图5所示交换机的故障检测单元的状态机方框图;
图6B为与图6A故障检测单元相关联的物理和逻辑差错表方框图;
图7为图1交换机的故障分析单元方框图;
图8为图7故障分析单元状态机方框图;
图9A为图1交换机的结构选择单元一状态机方框图;
图9B为图1交换机的结构选择单元另一状态机方框图;
图9C为图1交换机的结构选择单元另一状态机方框图;
图9D为图1交换机的结构选择单元另一状态机方框图;以及
图10为被图9A结构选择单元所监控的结构的分值表方框图。
具体实施方式
下述说明和描述的实施方案以提供本发明原理的具体实施方案的一个实例、或多个实例、所举实例是用于解释,并不限制原理和发明。下述描述中,相同的部分在全部说明和附图中使用相同的各自参考数字。1.0系统基本特征
简要地,实施方案系统提供一经路由系统或利用冗余数据交换结构或数据路径的通信交换来处理数据通信的系统,系统连续估计路由系统内部数据路径的健康程度,代表性地,一条数据路径被选做现用数据路径,另一数据路径作为现用数据路径的冗余数据路径,经估计,系统决定是否以及何时将内部数据路径从一条数据路径转至另一数据路径。
对实施方案而言,有两种类型的交换,当现用数据路径和冗余数据路径最近无错运行,随后在任一路径检测到第一差错时,执行第一类型的交换,如果第一差错发生在现用数据路径,执行交换,第一类型的交换有必要在Bellcore时间标准内完成,实施方案提供用于处理第一差错交换的具体硬件和软件,在检测到第一差错后在清除所有以前差错之前随后又检测到另一差错时,执行第二类型的交换,对这些随后的差错,实施方案确定哪一结构更健康,必要时转至更健康的结构。
在检测差错和开始交换中,系统提供五种基本特征:
1、结构故障检测
在多机架系统中,系统在每一机架控制器上实时执行结构冗余交换,机架上局部监控系统使数据路径故障的及早检测成为可能,每一结构链路所有的部件和交换核心作为一个整体进行差错检测。
2、结构切换
系统遵从Bellcore标准提供结构切换,如,GR-1110-CORE。特别地,当两个结构都被认为处于良好运行状态时,如果沿着现用数据路径在任何部件上检测到第一故障,则开始到冗余数据路径的交换,系统采用软件模块监控数据路径硬件检测故障中断。当从任一结构中检测到第一故障,系统触发硬件电路,如果故障发生在好的结构上,该电路执行在Bellcore标准时间内至冗余结构的切换,这在本说明中称为“快速切换”,因此,系统确保发生在交换结构或结构接口的单一故障不会中断任一结构链路上的通信流。
3、多故障恢复
检测到多故障后,系统决定哪一个交换结构更为健康,如更能处理数据通信,不管其被检测到的故障,系统估计在两个交换结构中检测到的多故障条件,从中选择更为健康的结构。
4、结构选择规则
估计多故障过程中,定义了一套结构选择规则用于系统在检测到新的故障时处理新故障并更新代表结构总的健康状况的分值,对每一结构上每种故障条件分配了不同的权值,结构选择单元跟踪一结构的所有故障并给所有故障计分,结构选择单元运行于中央位置。
5、结构维护
系统操作员通过一连于系统的终端控制结构冗余操作。2.0系统体系结构
以下为与实施方案有关的交换机相关联的网络描述。
参见图1,示出通信网络100,网络100允许设备102A,102B,102C通过网络云106与设备104A和104B通信,在网络云106的边沿,交换机108是设备102A,102B,102C与网络云106的连接点,在网络云106,一些交换110A,110B,110C连接形成网络云106的通信链路,再后依次为从网络云106到设备104A和104B的连接。
交换机108合并了实施方案的冗余交换结构体系结构,一些术语诸如“路由交换”、“通信交换”、“通信设备”、“交换”及其它一些技术用语可用于描述交换机108,而且,描述实施方案的交换机108时,此处描述的系统和方法可适用于任何交换系统,包括交换110A,110B,110C。
参见图2A和2B,交换机108是多协议链路系统,可用同一交换结构处理ATM信元和IP通信,本实施方案中,交换机108只是通过向多机架交换系统中插入另外的机架,允许以14.4Gbps的步进,从50Gbps到450Gbps的结构容量。
交换机108是多机架交换系统,使单架技术的高度重利用成为可能,交换机108包括两交换机架200A和200B、控制综合体202a、外围机架204A...204O(共15个外围机架),交换机108内各机架和部件通过数据链路互相通信,交换机架200A和200B提供信元交换能力,外围204提供I/O,允许设备的连接,如用户界内设备(CPE)102A,102B,102C连至交换机108,控制综合体202a是一带控制卡的独立机架,为交换机108提供中央管理。
通信链路使交换机架200、外围机架204和控制综合体202a彼此交换数据和状态信息成为可能,高速机架间链路(High Speed InterShelf Links-HISL)206和控制业务链路(Control Service Links-CSLs)208将外围机架204A上的控制综合体202连至交换机架200A和200B,HISLs206也将交换机架200连至外围机架204,CSLs208连接控制综合体202和其它外围机架204A...204O。
终端210连至交换机108并运行控制软件,允许操作者修改和控制交换机108的操作。
每交换机架200A和200B包括一交换结构核心214和至多32个交换存取卡(Switch Access Cards-SAC)212,每SAC 212到和从核心214提供14.4Gbps的信元吞吐量,每SAC 212通过外围机架204上的结构接口卡218与结构的其余通信。
有两种类型的外围机架204,第一类型是高速外围机架(HighSpeed Peripheral Shelf-HSPS),以外围机架204A为代表,外围机架204A包括高速线处理(High Speed Line Processing-HLPC)卡220,I/O卡222,高速结构接口卡(High Speed Fabric InterfaceCards-HFIC)218以及接入两冗余高速机架控制器(High Speed ShelfControllers-HSC)卡224,第二类型是外围机架(Peripheral Shelf-PS),以外围机架204B为代表,包括线处理卡226,I/O卡222和外围结构接口卡(Peripheral Fabric Interface Cards-PFIC)218和216,PFIC被配置为双结构接口卡(Dual Fabric Interface Cards-DFIC)或方结构接口卡(Quad Fabric Interface Cards-QFIC),外围机架204B也有至两机架控制器224的通路。
控制机架202包括一对总的冗余控制卡,一对冗余draft间连接(inter-draft connection-ICON)卡,一ICON-I/O卡,一用于各控制卡的控制互连(Control Interconnect Card-CIC)卡和一工具卡(Facilities Card-FAC card),ICON卡互连控制机架和系统中另一机架上所有的外围机架控制器,FAC提供系统定时用外部时钟接口,CIC提供于控制卡通信的技术(craft)接口。
图2C说明了交换机108冗余结构的各方面,约定应用如下参考数字,有两种结构,A和B,因此所有与结构A相关联的部件都带有后缀A,同样,所有与结构B相关联的部件都带有后缀B,每结构有一入口路径和一出口路径,所有与入口路径有关联的部件另标后缀(I),所有与出口路径有关联的部件另标后缀(E)。
冗余交换机架200A和200B从与交换机108入口端相连的设备102a接收数据流,通过各自结构处理数据流,并向出口方向传送数据流到正确的出口端,任何可在机架200A上传送的数据流也可被机架200B处理。
每一个交换机架200的每一个核心214有6个交换矩阵卡(switching matrix cards-SMX)226,每个SMX 226对通过输入流收到的数据提供可选择的输出流,对一个交换机架200,6 SMX 226卡集合建立一个非分块32×32HISL交换路径结构核心,到和来自所有SAC卡212的信元交换发生在6 SMX 226卡,在实施方案中,为提供一个可使用的交换核心,一个交换机架200必须配备所有6 SMX 226卡。
各交换核心214也有一交换调度程序卡(Switching SchedulerCard-SCH)228,通过定义、指派和处理交换机架200的交换结构处理的数据通信的仲裁多优先级来为交换机架200提供通信交换的集中仲裁,因此,优先级的应用允许交换机108提供多用户定义的服务质量,必须配置SCH 228以建立操作交换核心。
交换机架200有一交换机架控制器(Switching ShelfController-SSC)卡230,提供一负责配置、监控和维护交换机架200内所有部件的集中单元,SSC 230控制交换机108的SACs 212、SMXS226、SCH228、一报警面板(未示出)和风扇控制模块(未示出),也提供时钟信号发生和到交换机架200内所有交换设备的时钟信号分配,由于其中心位置,SSC 230被认为是交换结构的一部分,结果,SSC 230内的任何失败会触发结构切换,SSC 230经一内部冗余控制业务连路(Control Service Link-CSL)208与控制卡202通信。
交换机108以如下方式处理冗余数据路径交换。
入口外围机架204(I)从设备102在线处理卡(Line ProcessingCard-LPC)226(I)接收入口数据通信,226(I)运送该数据通信至结构接口卡218A和218B,FIC 218A与结构A和机架200A相关联,FIC 218B与结构B和机架200B相关联,因此,外围机架204A大体上同时向结构A和结构B提供通信,可能会在PS 204(I)有一些处理和设备交换时延阻止数据通信向结构A和结构B的绝对同时传输,例如,假设结构A为现用结构,结构B为冗余结构。
从FIC 218A,数据通信经HISL 206A(I)发送到机架200A,从FIC 218B,冗余数据通信经HISL 206B(I)发送到机架200B,在机架200A,入口SACs 212A(I)接收数据通信并传输至核心214A,SSC 230提供交换机架的所有部件的时钟和处理器控制,一旦通信经核心214A发送,通信沿着出口方向发送至出口SACs212A(E),SACs212A(E)在HISL 206A(E)上传输通信至出口外围机架204A(E)。
在出口,外围机架204A(E),FIC 218A(E)接收通信并传送至LPC226E,LPC 226E接着将通信送出交换机108,在机架200B,对从入口FIC 218B(I)接收经HISL 206 B(I)的通信发生相同的操作。
注意在出口外围机架200(E)从结构A和结构B的LPC 226(E)接收两路通信流,因此,LPC 226(E)只是基于对两结构状态的分析选择从哪一结构接收通信,因此,在现用结构中检测到故障事件中,交换机108可迅速准换至冗余结构而不会引起最初由现用结构处理的数据通信的丢失,这是因为相同的通信已同时经冗余路径传送。
本说明余下部分描为满足交换需要述涉及现用结构和冗余结构中故障检测和评估的系统和方法。3.0交换机108部件详述
参见图3,示出了交换机108中结构故障检测、结构切换、多故障发现部件和部件间交互作用的各方面,交换机108利用不同硬件和软件部件控制I/O机架控制器224、交换机架控制器230和控制综合体202。
对各I/O机架控制器224、控制综合体202和交换机架控制器230,硬件和软件部件聚合在三个相关层,每一层只和其相邻层通信,每一邻层向其邻居提供接口和功能提取。
最底层是设备层302,设备层302是交换机108中与物理部件的接口,设备层302中软件部件监控各物理部件中状态的变化,如差错或差错的清除,并向上一层-资源层304相应部件报告该变化,因此,有一与各部件局部相关的驱动器,即一个用于可能会发生在各机架控制器224、控制卡202和SSC 230的各差错的驱动器。
中间层是资源层304,对每一驱动器,资源层304中一软件模块从驱动层302的驱动器接收未经处理的状态数据,进行处理并传送差错信息至顶层,对驱动层302的部件,故障检测单元308与各驱动器局部相关,即用于可能会发生在各机架控制器224、控制卡202和SSC230的各差错,故障检测单元308接收并处理来自驱动器的信息,接着传送报告至故障分析单元310,故障分析单元310也位于资源层304,故障分析单元310确定差错是否为现用结构中第一差错,如果是则开始结构切换,如果不是则更新顶层的管理功能。
顶层是管理层306,监视整个交换机108的所有管理功能,由于此为中枢功能,管理层306只有控制综合体202提供功能性,管理层306接收来自资源层304所有模块的所有经处理的差错,确定结构是否被交换,结构选择单元312提供一个总的“缺点”引擎,在中枢位置估计每一结构的健康状况,控制结构的交换。
尽管各模块已被定义且紧邻其适当的资源层304,仍有可能有其它实施方案,该实施方案中故障处理与故障的物理位置没有如此紧密的关联,如处理可在一个中央位置进行。
下面依次说明交换机(如上所述)五个特征的更多方面:
3.1故障检测单元308
参见图3,故障检测单元308位于各控制器的资源层304,各故障检测单元308监控与其控制器相关联的故障,任何检测到的故障被接收消除似是而非的差错信号,接收信号相似于接收硬件交换信号,故障检测单元308也服务于结构差错统计(fabric error statistics-FES)及差错分析和纠正(error analysis and correction-EAC)模块,故障检测单元308也提供无需被结构分析单元310接收的设备状态,每1秒更新FES,维护用于EAC询问的聚集差错记录表。
参见图4,沿着整个结构数据路径,所有差错检测单元308A、308B、308C在标号1到7的七个位置上检测和接收差错,表A给出了由各差错检测单元308监控的七个差错位置的概要:
表A
  位于     监控卡 差错收集点
SSC故障检测   SSC   32 SAC,6 SMX,1 SCH   3,4,5,7
HSC故障检测   HSC   16 HFIC   1,2,6
PSC故障检测   PSC   2 PFIC   1,2,6
CC故障检测   CC   2 PFIC   1,2,6
参见图5,示出了故障检测单元308的更多方面,有两层与故障检测单元308有关,通用层(generic layer)500包括一系列模块,被各故障检测单元308所用处理差错信息,因此,通用层500可被几个故障检测单元所用,平台特定层502包括用于检测和报告与各I/O机架控制器卡224、控制器卡202和SSC230相关联的具体差错的软件和设备。
差错必须被设备层302的适当的硬件和软件模块所检测,接着被故障检测单元308所处理,向故障分析单元310报告差错以进行进一步的处理。
所有差错被与具体控制器的各潜在失败点相关联的驱动器检测,因此,FIC驱动器504a每10ms询问接口卡的故障,SAC/核心驱动器504b是中断驱动驱动器,其从SAC卡或核心系统按差错(或清除差错)标志接收中断信号,驱动器504a和504b也位于驱动层302。
有三主要的接口和分析部件与各故障检测单元308相关联,首先,驱动器504检测和向故障检测单元报告差错,差错可能是物理的或逻辑的,逻辑差错可从多个卡上的多个物理差错聚集,物理差错是从驱动器检测到的差错,物理差错基于物理差错表511被映射为存储于全局数据区506的逻辑差错,其次,全局数据区506维护有关检测到的逻辑差错的信息,允许涉及所有逻辑差错的信息的中枢处理,全局数据区506由驱动器的中断业务要求(interrupt service requests-ISRs)语境中的驱动器更新功能所更新,差错事件调度功能510通过用逻辑差错表507作为查找处理全局数据506,逻辑差错表507允许用检测到差错的逻辑槽号、端口号和差错号来识别506中的差错比特,对中断驱动驱动器504b,一差错中断驱动器更新功能被中断语境调用来设置全局数据506,一事件被发送至故障检测任务,差错事件调度功能在故障检测任务的语境中被调用来更新相应的状态机,对消息驱动驱动器,检测到差错后,驱动器504a向消息事件调度功能508发布一条消息,通过调用消息驱动器更新功能设置全局数据506有关差错信息,调度功能508也调用差错事件调度功能510使相应于差错的状态机509被更新,一个状态机509与各差错有关并分析检测到的差错,各状态机也接收检测到的差错信号,稍后将提供状态机操作的进一步特定。
为映射驱动器信息至全局数据506,必须向物理差错表511提供物理槽号和端口号,在物理差错表511存储多对一映射/聚集信息,为检查状态机差错或全局数据506中声明的前向状态,必须用逻辑槽号、端口号和差错号驱动差错检测单元308中相应的状态机。
未经处理的差错掩蔽表513也被提供使一对一映射成为可能,用于掩蔽来自状态机的所有依赖硬件比特,表513保存物理已注册差错的未经处理的差错比特掩蔽,该表只是从状态机掩蔽差错功能512基于一对多映射算法更新,一对多映射比特被更新后,所有非零比特通过设备驱动器接口被读和写至硬件寄存器。
差错事件调度功能510也拷贝存储在全局数据506中的信息到差错分布缓冲器518,该缓冲器存储差错秒和差错记录模块信息,为用差错秒信息更新FES模块(外部),每秒钟调用FES模块接口功能报告差错分布缓冲器518中被声明的差错信息,存储在逻辑差错表507中的差错ID用作差错识别。
差错记录表516保存一聚合单元-每个卡最近8秒丢弃差错状态历史,对照SAC逻辑位置(位置1-位置32)交换核心214状态被保存,为更新差错记录表516,差错分布缓冲器518中的逻辑差错和存储在逻辑差错表507中的差错记录掩蔽聚合在一起。
状态机差错状态位图表520为所有状态机的差错状态提供一中央数据结构,提供单一检测点以确定哪些状态机实际上处于差错状态,对各状态机,其在位图表520中相应比特被用来指示差错的发生。
故障检测单元308中也定义了几种功能,这些功能为软件所用控制系统,说明如下:
首先,任务配置功能522初始化状态机偏移ID表,配置状态机,初始化状态机差错状态位图表520,建立逻辑差错表507和物理差错表506。
第二,定时器调度功能525要求根据未经处理的差错掩蔽表513进行的所有被掩蔽的差错的更新,以其持续差错状态或间断差错状态驱动状态机以清除差错,推进差错分布缓冲器518中差错数据通过适当的接口至信元丢弃差错记录模块528和秒模块526,从驱动器要求所有被掩蔽差错的更新。
第三,状态机掩蔽差错功能512更新单独状态机的未经处理的差错掩蔽表513,当状态机处于“NR”和“PE”状态(稍后说明)时中断被屏蔽(失效),该功能将一对多映射应用于状态机的逻辑差错,也调用掩蔽差错要求更新功能524发送比特掩蔽受影响的项目至适当的设备驱动器。
第四,掩蔽差错要求更新功能524向事件驱动驱动器和消息驱动驱动器提供通用接口,该功能从用于单独状态机的状态机掩蔽差错功能512和用于每秒一次更新被掩蔽差错的定时器调度功能522被调用,消息事件调度功能508和差错事件调度功能510提供通过状态机处理差错消息和事件的入口点。
第五,差错事件调度功能510从全局数据区506取回逻辑差错比特,更新差错分布缓冲器并驱动受影响的状态机,实施方案中,在中断驱动和消息驱动平台上都被提供,对消息驱动平台,被消息事件调度功能调用的差错消息处理器所调用,消息事件调度功能为送至故障检测任务的所有消息提供入口点,不同的消息由相应的消息处理器功能处理。
因此可知故障检测单元308提供一中央化的灵活的系统从多种差错位置检测故障,特别地,通过增加新的驱动器检测差错、更新全局物理差错表511和逻辑差错表507靠适当位置和端口适当识别和分类新故障、增加一新的状态机处理新驱动器产生的差错消息来容易地进行对报告差错的修改。
3.1.1状态机509
参见图6,示出了状态机509的构成,作为典型的状态图,状态机509存在于几种状态之一,收到激励后在状态间变迁,状态用圆表示,激励用箭头表示。
如上所述,为每种类型的差错和各端口各位置提供状态机,因此,交换机108中每个控制器状态机总数是位置数、每位置端口数加上每端口差错数,每状态机有一头部描述差错识别、差错位置和接收门限,头部中定义的位置是逻辑槽号,状态机数据类型中定义的槽号是物理槽号,该号在卡重置/拆卸和释放时被检查。
表B给出了图6中示出的事件和状态间变迁概述,事件发生后,每一状态在执行动作“An”前测试断言“Pn”,移向另一状态“Sn”。
                                                   表B
事件                                         状态初始状态为S1
  S 602NRNot Ready   S 604PEPersistentError   S 608NENo Error   S 610IEIntermittentError   S 612WAWait ForActivity
E1-Card Unlensh   P5:A1→S604!P5:→S612
E2-Card NotUnleashed   →S 612   A2→S 602   A2→S 602   A2→S 602   A2→S 602
E3-GlobalHeartheat TimerExpiry   P4:A5→S604!P4&P2:A3→S 608!P4&!P2:A4→S 604   P1:A8→S608!P1:A4→S4
E4-Error   A5→S 604   P3:A6A7→S 604!P3:A5A7→S 610   P3:A6→S 604!P3:A5→S610
E5-Gain Activity   A9→S 608
下面是对如6中状态和事件的说明,Not Ready(NR)(未准备好)状态602是系统600的初始状态,指示卡未被释放,NR状态602根据状态机509是否运行在现用控制器上可退到Persistent Error(PE)(持续差错)状态604或Wait for Activity(WA)(等待行为)状态612。
当在现用控制器上运行时,卡被释放后进入PE状态604,确保系统600在卡或整个系统联机时已达到稳定,PE状态604在清除任何差错前提供一20秒期限,同样,故障分析单元在系统启动的一段宽限期之后开始估计结构缺点值。
PE状态604从下述三种状态进入:
1、卡被释放后从NR状态602进入;
2、当在第一个时间间隔期满之前在IE状态610检测到的差错数大于Debounce NotSevere(去抖动不严重)门限时,从IntermittentError(IE)(间断差错)状态610进入;
3、当系统检测到一有DebounceSevere(去抖动严重)门限值差错时,从No Error(无差错)状态608进入。
计数器跟踪第一和第二时间间隔,计数器在每次全局定时器期满时增加。
“Debounce severe”和“debounce not severe”是在差错被确定为持续差错之前检测到的差错数门限,一些差错可从NE状态608变迁到PE状态604,而其余差错在被变迁到PE状态604之前可能被接收。
在PE状态604,差错的设备级中断是失效的,在第二个时间间隔期满之前检测到差错时状态机509处于PE状态604,否则,第二个时间间隔期满后状态机509变迁到NE状态608,当状态机509处于NE状态608,检测到差错后,根据差错被设置为Debounce NotSevere还是DebounceSevere,状态机509移至IE状态610或PE状态604。
在IE状态610,当在第一个时间间隔期满之前差错超过DebounceNotSevere门限,状态机509变迁至PE状态604,否则,在第一个时间间隔期满后状态机509变迁至NE状态608。
当卡被释放且状态机509运行在非现用机架控制器,进入Waitingfor Activity(WA)状态612。
因所有的状态机实例共享全局heartbeat定时器,对那些不处在差错状态(NR状态602,NE状态608和WA状态612)的状态机实例,则全局定时器被忽略,在实施方案中heartbeat定时器为1秒,每当全局heartbeat定时器期满,heartbeat定时器调度功能执行三种行为:首先,驱动相应于在状态机未经处理差错掩蔽状态表510中设置一比特位的所有差错的状态机509,用差错清除计数器跟踪差错清除,其次,传送差错分布换缓冲器518中的差错数据至差错秒模块526和差错记录模块528,第三,触发所有的在状态机未经处理差错掩蔽状态表510中设置有比特位的所有差错的更新。
3.1.2差错类型
参见表C,如下为实施方案中追踪的物理寄存器差错和逻辑差错实例,如上所述,SSC 232处理在所有32个SACs 208上所有32个端口,在交换机架200A,有32个SACs 208,一个SCH 230和6个SMX卡228,故障检测单元308传递其它物理状态如“line card to OOBmagic packet”,SCH 230和SMX236物理位置33-39上差错映射到物理位置1-32(SAC),因此,32个逻辑位置包括有关物理位置33-39的差错。
                                                           表C
逻辑槽号 差错名/故障ID     丟弃信元 门限 物理设备/卡 物理槽号 描  述
1-32  CRC on Ingress SCH SCI     √     1  SCH     33  Ingress SCH SCI
 CRC on Ingress SMX SCI 1     √     2  Xbar 1,2/SMX     34  Ingress SMX SCI 1
 CRC on Ingress SMX SCI 2     √     2  Xbar 1,2/SMX     35  Ingress SMX SCI 2
 CRC on Ingress SMX SCI 3     √     2  Xbar 1,2/SMX     36  Ingress SMX SCI 3
 CRC on Ingress SMX SCI 4     √     2  Xbar 1,2/SMX     37  Lngress SMX SCI 4
 CRC on Ingress SMX SCI 5     √     2  Xbar 1,2/SMX     38  Ingress SMX SCI 5
 CRC on Ingress SMX SCI 6     √     2  Xbar 1,2/SMX     39  Ingress SMX SCI 6
 SCH SCI link down     √     1  Port Processo-SCH     33  SCH SCI
 SMX SCI 1 link down     √     1  Dataslice 1,7-xbarl,2     34  SMX SCI 1
 SMX SCI 2 link down     √     1  Dataslice 3,9-xbarl,2     35  SMX SCI 2
 SMX SCI 3 link down     √     1  Dataslice 5,11-xbarl,2     36  SMX SCI 3
 SMX SCI 4 link down     √     1  Dataslice 2,8-xbarl,2     37  SMX SCI 4
 SMX SCI 5 link down     √     1  Dataslice 4,10-xbarl,2     38  SMX SCI 5
 SMX SCI 6 link down     √     1  Dataslice 6,12-xbrl,2     39  SMX SCI 6
 Magic Packet CRC     1  Port Processor/SAC 1-32  Ingress FI port
 Grant Empty Queue     √     1  Port Processor/SAC  Ingress FI port
实施方案中,各故障检测单元用软件实现,软件在与各机架有关的处理器上运行,软件用C语言实现。
3.1.3驱动器接口
中断驱动驱动器和消息驱动驱动器是实施方案中实现的两种类型的驱动器。
参见图5,对任交换机架差错,通过调用驱动器更新功能,一事件从中断驱动驱动器ISR发送至故障检测单元308,功能提供三参数,即一指向包含检测到寄存器差错比特数据结构的指针,一检测到差错的设备的标识,槽号,ISR可用于同一位置多设备产生的多个中断,所有注册的设备中断被核对,相应的全局数据项目被更新,在调用驱动器更新功能之前驱动器掩蔽所有驱动器全局中断发送事件至故障检测单元。
故障检测单元差错事件调度功能510检查全局数据506并驱动相应于差错的状态机,在调度功能结尾,不掩蔽全局中断。
发生在接口卡的差错由消息驱动驱动器检测,为消息驱动差错提供故障检测单元,每一接口卡上有包括各种设备的多个端口,每一接口卡有多至20个逻辑端口,当故障检测单元接收与其中之一设备有关的差错消息时,其通过消息驱动器更新功能更新全局数据506并用中断驱动故障检测单元调用差错事件调度功能510。
3.1.4故障检测单元308的初始化
如下为故障检测单元308初始化的说明,启动时,不同机架上的所有状态机被初始化,所有状态机的初始状态为“not ready”,在初始状态,所有设备的中断是失效的。
检测到一个差错后,驱动器的ISR掩蔽差错中断并调用驱动器更新功能,驱动器更新功能执行如下步骤:
1、根据包括在物理差错表511中的映射信息,一个所报告差错到全局数据区的多对一映射,在全局数据区506,适当设定了索引当前更新的位置位图字段和其它指明差错和状态更新的标志。
2、一差错事件被送至故障检测单元以通报全局数据区中逻辑差错的有效性。
收到差错事件后,故障检测单元308调用差错事件调度功能处理全局数据区中的差错信息,依靠全局数据区中的索引位置位图字段,差错事件调度功能不经状态机向故障分析单元报告结构状态,差错事件调度功能也保存状态机差错位图到差错分布缓冲器相应项目,当进入相应于设置比特的所有状态机后,功能清除所有项目字段。
3.1.5差错表和差错映射算法说明
故障检测单元308中所有的操作和算法是基于物理差错表511和逻辑差错表507的定义,物理差错表提供把物理差错映射到逻辑差错的信息,逻辑差错表包括把逻辑差错映射回物理差错的信息。
参见图6B,物理差错表511和逻辑差错表507是分别以物理差错域和逻辑差错域中的槽号和端口号为索引的2维数组。
物理差错表项目614包括物理寄存器数目字段616和指向物理寄存器描述数组618的指针,物理寄存器描述数组的每一项目保存寄存器上差错数字段620和指向物理差错描述数组622的指针,物理差错描述数组的每一项目存储所有必需的多对一映射信息,如目的逻辑槽号和端口号、物理差错的差错比特掩蔽、把比特映射到全局数据区506的差错比特掩蔽等。
逻辑差错表项目624包括逻辑差错数字段626和指向逻辑差错描述数组628的指针,逻辑差错描述数组的每一项目保存逻辑差错ID字段630、相应状态机差错门限字段632、物理差错相关性数目字段634、指向物理差错相关性数组636的指针,因此,可描述一逻辑差错与多物理差错的关系,物理差错相关性数组每项目的内容提供用于中断掩蔽目的的所有将逻辑差错映射回物理差错必需的信息,包括最初物理槽号和端口号、物理寄存器号、物理差错掩蔽。
根据建立的物理差错表511存在从物理差错域到逻辑差错域的多对一映射,下述多对一映射算法用于从设备驱动器到逻辑差错映射故障信息。
对物理差错描述表和物理寄存器描述表中定义的各物理寄存器上的差错
从物理差错描述表项目logSlotNum字段取得逻辑槽号
if(逻辑槽号为非零),then
    /*寄存器上差错需被交叉位置映射*/
      目标逻辑槽号=逻辑槽号;
      if(physSlotNum-eFirstSmxSIotNum>=0),then
                 目标逻辑差错比特(位置)根据取自物理差错描
             述表项目中定义的映射掩蔽字段左机架
             (physSlotNum-eFirstSmxSlotNum)比特的比特掩蔽
             来设定
         otherwise
                 目标逻辑差错比特(位置)根据物理差错描述表
             项目中定义的映射掩蔽字段来设定
otherwise
      目标逻辑槽号=物理槽号;
          目标逻辑差错比特(位置)根据物理差错描述静态表项
      目中定义的映射掩蔽字段来设定
    目标逻辑端口号=物理段口号;/*通常,不需要交叉端口映射*/
根据建立的逻辑差错表507有一从逻辑差错域到物理差错域的一对多映射,下述一对多映射算法用于映射逻辑差错到驱动器中断寄存器数据。
对逻辑差错描述表中定义的各逻辑差错项
对由逻辑差错项目指向的物理差错相关性数组的各项目
if逻辑差错为从不同位置映射来的交叉位置(如origPhySlotNum!=0),then
        物理槽号=最初物理槽号;
    otherwise
        物理槽号=逻辑槽号;
    物理端口号等于逻辑段口号;
    物理寄存器号等于物理差错相关性数组项目physRegNum字
段;
    物理差错相关性数组项目的phyErrMask字段应用于由物理
槽号、端口号和寄存器号标识的物理寄存器缓冲器(如在未经处
理的差错掩蔽表中)。
3.2故障分析单元310
故障分析单元310从各种来源接收结构状态更新,然而,主要的来源是故障检测单元308,接收结构状态更新后,故障分析单元310建议主结构选择单元312对具体的结构部件是增加还是减少缺点,缺点调整的量由结构选择单元312来确定,故障分析单元310也通过CSL208更新结构的健康状况并调用用于结构状态更新接收的已注册功能,故障分析单元310和故障检测单元以同样的优先级运行,这样语境交换保持至最少,故障检测单元308直接调用故障分析单元310。
实施方案中故障分析单元310也在软件上运行,该软件在处理故障检测单元软件的同一处理器上,也可在交换机108的其它位置运行,故障分析单元软件用C实现。
参见图7,有四个部件与故障分析单元310有关:故障管理器702,通知器704,已注册功能模块706,版本选择器708,下面依次描述:
故障管理器702的主要任务是当检测到最初的错误后激活机构加速从现用结构到冗余结构的交换,故障分析单元310通过一内部故障管理器功能-该功能决定其负责的结构是否健康-经CSL 208上E1信令链路开始交换,通过设置CSL 208上结构的健康状况,可进行快速的结构切换,然而,控制结构决定电路主控制器的结构选择单元312最终控制是否进行快速结构切换,当通过经CSL 208更新结构动作电路发现最初结构故障时,快速结构切换自动失效,如果系统无故障且检测到故障的结构当时为现用结构,更新结构动作决定电路会导致快速结构切换,所有的结构故障清除后,快速交换会自动由结构选择单元312恢复,因此,会防止多故障分析单元执行快速交换,有一与交换有关的时间优先级值,第一个机架报告差错会要求交换许可;故障管理器702的第二个任务是开始已注册功能706,收到具体故障后必须执行“具体情况”时需要已注册功能706,因为配置了不同的结构选择和系统变化,系统启动或运行时可初始化这些已注册功能,这使故障管理器702有能力动态变化其行为。
故障管理器702也从各子系统聚集故障并分类,提供至通知器704通知缺点。
参见图8,如下为故障管理器702操作描述,首先,在入口点800收到故障并分类。
检查“参考表”缺点字段以确定故障是否可开始交换,这发生在分类阶段802,如果该字段指示可开始交换则调用交换功能804,因此,从现用结构到冗余结构的交换可从此开始,实施方案中,交换信号最终控制LPC 226(E)选择哪一结构,如果字段被设置为假,不调用交换功能804,下一步,故障管理器702调用与每步806中提出或清除的故障涉及的已注册功能806,估计已注册功能806的结果,如果返回的值为假,故障不视为缺点故障处理停止,如果已注册功能返回值为真且调用交换功能,则故障管理器建议通知器704是提出还是清除故障,如果功能返回真值且未执行交换,故障管理器每步808调用交换功能,下一步,通知器被告知是提出还是清除故障,如果结构选择单元必须每步810被更新则发送消息至多机架结构,在该点,处理结束故障管理器702返回至状态800。
对故障处理,故障分析单元310主要从故障检测单元308每当故障进入或离开PE状态604时接收其结构信息,故障可由能检测结构问题的其它子系统清除,一系统范围的参考表被用于确定如何处理各种故障,该表被合并于故障管理器702由故障id索引,其字段如下:
1、类别:故障管理器组分成差错位置类别使多机架结构可确定缺点,类别为:卡、机架、核心、输入端口和输出端口。
2、缺点:此布尔字段确定故障是否为缺点并送至通知器704以发送到结构选择单元判断是否为缺点,若字段为假,故障分析单元必须利用已注册功能作最后决定,如果已注册功能返回真值,则故障为缺点,故障符合交换条件。
3、已注册功能:该字段是指向当遇到相应故障时所调用功能的指针,该功能返回布尔值指示故障是否为缺点。
为处理已注册功能,当检测或清除具体故障时,任务需执行具体情况行为,已注册功能模块用于提供具体情况行为,为调用已注册功能,须提供位置ID、端口号和故障ID,已注册功能返回布尔值指示故障是否为缺点是否符合快速交换条件,如果故障是缺点也符合快速交换条件,代表性地,已注册功能返回假值,设置全局数据或向任务发送事件消息,已注册功能也将一些故障和其它信息相关联以确定故障是否比为缺点是否符合交换条件。
结构选择单元312可防止当通过给结构确定电路加上结构越权更新CSL 208上结构健康状况时单独机架控制器的故障管理器702影响结构行为,因为是所有结构故障有完整标签的唯一实体。
除了交换机架的所有平台上,故障管理器702须确定是否更新A或B的结构健康状况,用FIC位置ID确定故障结构,奇数FIC位置被分配到结构A,偶数FIC位置被分配到结构B,系统中无缺点时,通过控制综合体202给机架控制器上故障分析单元310结构选择控制使交换机构有效,用缺点引擎处理后来的故障,其补偿电路结构选择输出。清除所有的故障后,多机架结构允许结构切换再次发生。
故障管理器702也向通知器704提供分类的故障信息,如果必要的话,通知器704发送该信息至结构选择单元以决定是否为缺点,通知器704提供如下功能:
1、决定应何时提出还是清除缺点。维护一用于各缺点实体的故障计数器,故障计数器从1到0,通过发送消息至多机架结构模块缺点被清除,故障计数器从0到1,缺点被提出且发送消息至多机架结构模块,每当检测到或清除故障时故障计数器被调整,检测到故障时计数器增加,清除故障时计数器减少。
2、当CSL连通性被恢复或控制器变为活跃时,触发刷新操作。
3、跟踪相应的FI链路以确定其是有效还是无效,一端口当其相应FI链路无效时快速交换和缺点交换是无效的,无效端口的故障仍被跟踪但不被缺点引擎利用也不影响结构状况。
4、跟踪卡是否被释放,这确定卡及其部件是否被判定,如,只有如果卡被释放,卡移动和重置指示才被评判,此信息同通知器状态表中故障计数器一起被维护。
版本选择器708确保对故障分析子系统有一致的功能接口不管是50Gbps还是450Gbps具体子系统,模块对故障分析单元版本允许相同功能名称和接口的应用。
3.3结构选择单元312
结构选择单元312从所有I/O机架控制器上故障分析单元,控制综合体和交换机架接收结构A和B结构故障信息,结构选择单元利用“缺点”引擎存储和计算故障的缺点,每当结构选择单元收到故障信息便记录到缺点引擎;接着缺点引擎被询问更新后的缺点数,如果缺点值已改变,结构选择单元确定缺点交换能否发生是否必要,也确定“FAST”是否有效,“FAST”是只取首字母的缩写词“Fast ActivitySwitch”(快速行为交换),结构A或B的缺点数为非零则FAST无效,两个结构的缺点数都为零则FAST有效。
结构选择单元312处理如下任务:
1、处理被迫交换,用户交换的网络管理要求,报告现用结构,提供结构状态信息;
2、当故障发生时用从故障分析单元收到的更新来更新缺点引擎数据结构;
3、缺点交换;
4、使FAST结构切换有效或无效;
5、提出或清除相关结构警报;
6、当交换结构相关卡于运行中时通报结构分析单元;
7、提供结构选择封锁和容限期防止交换;
参见图9A、9B、9C,结构选择单元以如下三步执行基于缺点的交换。
图9A说明当结构选择单元提出/清除故障时发生的情况,结构选择单元被通报故障变化,故障信息存储于缺点引擎,下一步是核实是否未上结构封锁以进行下一步,封锁是一种用于防止如果存在一定的条件而进行结构切换的机构,封锁忽略缺点数,如果未上封锁,结构选择单元从缺点引擎获取结构A和结构B的缺点数,如果缺点数不相等且缺点数较低的结构不是现用结构则发生交换。
图9B说明结构封锁被清除的效果,当结构选择单元收到封锁清除,其核实是否有其它封锁以进行下一步,如果没有其它封锁则从缺点引擎计算得到结构A和结构B的缺点数,如果缺点数不等且缺点数较低的结构不是现用结构则发生交换。
图9C说明当HISL有效或无效时采取的步骤,结构选择单元收到HISL有效/无效后将管理变化应用到链路上所有缺点对象,当HISL无效,缺点引擎忽略该链路上所有部件缺点数,如果HISL有效,该HISL缺点数可累积作为结构健康状况的一部分,一旦发生管理变化及未上封锁,结构选择单元从缺点引擎获取结构A和结构B的缺点数,如果缺点数不等且缺点数较低的结构不是现用结构则发生交换。
参见图9d,为跟踪结构的健康状况,应用缺点引擎数据结构跟踪各结构被提出或清除故障908的缺点值904,缺点引擎数据结构包括缺点管理器910和缺点对象902,两个数据结构分别维护交换结构A和结构B的缺点分值,缺点引擎为所有结构部件负责提供有组织的缺点系统,缺点引擎也应用基于优先级的算法提供一个代表结构健康状况的总的缺点数以解决一些缺点被抑制的情况,缺点引擎具体表达在软件中,该软件执行在控制综合体机架上一处理器上,实施方案中,缺点引擎软件用C++实现。
当逻辑上代表交换结构的应用模块对象被创建时数据结构被动态装配,当配置这些应用模块时缺点对象被加入缺点引擎,缺点引擎以分层为基础组织缺点对象,当给出一新的缺点对象,缺点引擎确定该对象属于哪层并将其插入缺点管理器,缺点对象包括故障信息,缺点管理器包括较低层缺点对象目录,缺点管理器执行管理包括缺点对象的目录功能,如增加和移动对象,以及执行需应用到包含在目录中部件的命令,如累积缺点数。
通过询问结构A和结构B缺点引擎缺点数,结构选择单元可确定哪一结构更为健康,实施方案中,缺点数低的被认为是更为健康的交换结构,缺点引擎数据结构的层次如下:
      1、交换机架(最高层)
      2、交换核心
      3、卡
      4、输入FI端口/输出FI端口(最低层)
缺点引擎以层次基础存储,允许抑制较低级缺点的有效方法,下述情况需缺点抑制:
1、当缺点对象被标为故障,包含在其缺点管理器中的缺点不被累积作为结构缺点数的一部分,否则被包含的缺点管理器累积缺点数。
2、当缺点被标记为无效,其缺点数及其缺点管理器的缺点数被忽略。
参见图10,以数据结构1000说明了运行中结构A缺点引擎的一个可模仿缺点分值,该实例也图解各层次以及说明如何执行缺点抑制,数据结构1000的头部是头节点1010,1010有结构A标识符字段1002及结构A中累积的缺点分值字段1004,头节点1010连于节点1012,1012是层次中交换机架部分,节点1012连于节点1014,1014是核心部分,节点1014连于1016a,1016b和1018,这些节点代表卡部分,最后卡级节点连于端口级节点,各节点1012,1014,1016a,1016b,1018,1020(a-d)代表结构A中唯一部件,注意,双结构接口卡(DualFabric Interface Card-DFIC)有两端口,这样有两缺点对象,图10中有5结构部件报告差错1014,1016b,1018,1020a和1020c,因此,各部件已被加入结构1000,部件差错被清除后分值被清除,所示结构总缺点分值是7500,缺点节点1014抑制更低级缺点,该值将与结构B的缺点分值对比,无论哪一结构有更低分值,则该结构更为健康,将作为现用结构,如果核心故障1014将清除,更低级分值和将被累积,缺点数为6+12+3=21,因1018有故障,节点1020c的分值被忽略。
技术熟练者会意识到实施方案已定义提供系统特定功能性的几种模块,然而,在其它实施方案中,功能性可分解在模块中,甚至是在与其它模块相比与功能性没有更紧密关系的模块中,如故障分析单元310处理的一些操作可由结构选择单元312处理,反之亦然。
技术熟练者会察觉到可对本实施方案做各种特定修正,所有这些都在本发明的范围内。

Claims (23)

1、一种为通信设备在现用数据路径和冗余数据路径间选择路由数据路径的方法,该方法包括:
(1)监控发生在所述现用数据路径和所述冗余数据路径中的故障;
(2)检测到所述故障后,与门限相比估计所述故障的严重性;如果所述故障的所述严重性超过所述门限:
(2.1)如果所述故障与所述现用数据路径相关,从所述现用数据路径到所述冗余数据路径切换所述路由数据路径;
(2.2)如果所述故障与所述冗余数据路径有关,用与所述故障有关分值更新与所述冗余数据路径有关的健康分值。
2、如权利要求1所述的方法,其中,
所述步骤(1)包括确定所述故障是否为所述现用数据路径第一故障;以及
对于所述步骤(2),如果所述故障为所述第一故障,设置所述严重性为所述门限之上。
3、一种为通信设备在现用数据路径和冗余数据路径间选择路由数据路径的方法,所述方法包括以下步骤:
(1)监控发生在所述现用数据路径中的第一故障;
(2)检测到所述第一故障后,切换所述路由数据路径至所述冗余数据路径;
(3)监控发生在所述现用数据路径和所述冗余数据路径中的随后的故障;
(4)采用任何以前故障跟踪现用数据路径和冗余数据路径中的所述随后故障,并采用所述任何以前故障与门限相比估计所述随后故障;以及
(5)如果超出所述门限且所述随后故障与所述现用数据路径有关,从现用数据路径到所述冗余数据路径切换所述通信的所述路由。
4、如权利要求3所述的方法,其中,
所述步骤(1)还包括:
(1.1)在所述现用数据路径中监控所述现用数据路径故障,在所述现用数据路径中检测到每一个所述故障后,产生第一故障报告;
(1.2)在所述冗余数据路径中监控所述冗余数据路径故障,在所述冗余数据路径中检测到每一个所述故障后,产生第二故障报告;
5、如权利要求4所述的方法,其中,
所述步骤(4)还包括:
(4.1)从第一监控模块接收所述第一故障报告,更新所述现用数据路径第一故障报告;
(4.2)从第二监控模块接收所述第二故障报告,更新所述冗余数据路径第二故障报告;以及
(4.3)产生所述第一和第二故障报告的比较值以确定所述现用数据路径和冗余数据路径哪一个更为健康。
6、如权利要求5所述的方法,其中,
较早故障被清除;以及
所述第一和第二故障报告被更新以除去所述较早故障。
7、如权利要求6所述的方法,其中,所述第一和第二故障报告利用各自的数据结构,每一个包括报告所述故障的各要素的入口。
8、如权利要求6所述的方法,其中,
数据几乎同时经过所述现用数据路径和所述冗余数据路径发送;以及
所述路由数据路径切换后,引起所述路由数据路径在所述通信设备中一个出口点的所述交换。
9、如权利要求8所述的方法,其中所述出口点是所述通信设备中一出口线卡。
10、如权利要求9所述的方法,其中,
所述步骤(1)和(3)由一个故障检测单元从一个驱动器接收故障消息来实施,该驱动器与所述故障消息相关的所述通信设备中一个物理位置有关。
11、如权利要求10所述的方法,其中,
所述故障检测单元给所述故障消息去抖动,报告所述故障消息至与所述物理位置相关的一个故障分析单元。
12、如权利要求11所述的方法,其中,
所述故障检测单元为每一所述故障消息利用一个状态机去抖动所述故障消息。
13、如权利要求11所述的方法,其中所述故障分析单元执行所述步骤(2)。
14、如权利要求12所述的方法,其中所述故障检测单元利用全局数据存储与每一个所述故障消息有关的信息。
15、如权利要求14所述的方法,其中,对一给定故障消息,所述故障检测单元访问所述全局数据以允许启动与所述给定故障有关的状态机。
16、如权利要求15所述的方法,其中,
对所述步骤(3),所述故障检测单元建议一个结构选择单元有关所述随后故障情况;以及
所述结构选择单元执行所述步骤(4)。
17、如权利要求16所述的方法,其中所述结构选择单元位于所述通信设备中的中央位置。
18、如权利要求17所述的方法,其中,所述结构选择单元给所述随后故障和所述任何以前故障中每一个分配多个故障权重值中的一个。
19、一种为通信设备在现用数据路径和冗余数据路径间选择路由数据路径的方法,所述方法包括:
(1)监控所述现用数据路径或所述冗余数据路径中事件的发生;
(2)检测到所述事件后,
(2.1)如果所述事件发生在所述现用数据路径,更新所述现用数据路径中与第一部件集合有关的第一状态;
(2.2)如果所述事件发生在所述冗余数据路径,更新所述冗余数据路径中与第二部件集合有关的第二状态;
(3)与至少一个失败门限对比,对所述第一状态和第二状态进行估计;以及
(4)根据所述估计选择所述路由数据路径。
20、一种在第一结构中第一数据路径和第二结构中第二数据路径间提供路由数据路径的交换机,该交换机包括:
作为现用数据路径的所述第一数据路径;
作为所述现用数据路径的冗余数据路径的所述第二数据路径;
与所述第一和第二数据路径相关的故障检测单元;
与所述故障检测单元相关的故障分析单元;
与所述故障分析单元相关的结构选择单元,
其中,
所述故障检测系统监控发生在所述现用数据路径和所述冗余数据路径中的故障;
检测到所述故障后,所述故障分析单元通过与门限相比估计所述故障的严重性;以及
如果所述故障的所述严重性超过所述门限,
如果所述故障与所述现用数据路径有关,所述结构选择单元从
所述现用数据路径至所述冗余数据路径切换所述路由数据路径。
21、一种在第一结构中第一数据路径和第二结构中第二数据路径间提供路由数据路径的交换机,该交换机包括:
作为现用数据路径的所述第一数据路径;
作为所述现用数据路径的冗余数据路径的所述第二数据路径;
与所述第一和第二数据路径相关的故障检测单元;
与所述故障检测单元相关的故障分析单元;
与所述故障分析单元相关的结构选择单元,
其中,
所述故障检测单元监控发生在所述现用数据路径中的第一故障;
检测到所述第一故障后,所述结构选择单元切换所述路由数据路径至所述冗余数据路径;
所述故障检测单元监控发生在所述现用数据路径和所述冗余数据路径中的随后故障;
所述故障分析单元跟踪并向所述结构选择单元报告所述随后故障;
所述结构选择单元根据现用和冗余数据路径的任何以前故障来估计所述随后故障,并根据所述任何以前故障与门限相比估计所述随后故障;以及
如果超过所述门限且所述随后故障与所述现用数据路径有关,所述结构选择单元从现用数据路径到所述冗余数据路径切换所述路由数据路径。
22、如权利要求21所述的交换机,其中,
所述故障检测单元还
      监控所述现用数据路径中的故障,建议所述故障分析单元
  有关所述现用数据路径中的所述故障情况;
      监控所述冗余数据路径中的故障,建议所述故障分析单元
  有关所述现用数据路径中的所述故障情况;
以及,
所述故障分析单元还
      产生所述现用数据路径中所述故障的第一故障报告并向
  所述结构选择单元提供该报告;
      产生所述冗余数据路径中所述故障的第二故障报告并向
  所述结构选择单元提供该报告;
23、如权利要求22所述的交换机,其中,所述结构选择单元还产生所述第一和第二故障报告的对比值,以确认所述现用数据路径和冗余数据路径哪一个更为健康。
CN02141919A 2001-09-27 2002-08-27 在冗余体系结构通信系统中提供故障检测和结构切换的系统及方法 Pending CN1409494A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/963,520 US7085225B2 (en) 2001-09-27 2001-09-27 System and method for providing detection of faults and switching of fabrics in a redundant-architecture communication system
US09/963,520 2001-09-27

Publications (1)

Publication Number Publication Date
CN1409494A true CN1409494A (zh) 2003-04-09

Family

ID=25507347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN02141919A Pending CN1409494A (zh) 2001-09-27 2002-08-27 在冗余体系结构通信系统中提供故障检测和结构切换的系统及方法

Country Status (5)

Country Link
US (1) US7085225B2 (zh)
EP (1) EP1298862B1 (zh)
CN (1) CN1409494A (zh)
AT (1) ATE423416T1 (zh)
DE (1) DE60231177D1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100341339C (zh) * 2003-11-07 2007-10-03 华为技术有限公司 一种链路故障恢复方法
CN100524124C (zh) * 2005-12-27 2009-08-05 株式会社东芝 冗余监管控制系统及其冗余切换方法
CN103326943A (zh) * 2012-03-23 2013-09-25 日电(中国)有限公司 数据流重路由方法和控制器
CN106873356A (zh) * 2015-12-11 2017-06-20 重庆川仪自动化股份有限公司 可自动恢复冗余的冗余控制系统及其冗余自动恢复方法
CN113110258A (zh) * 2021-05-21 2021-07-13 华自科技股份有限公司 一种控制系统及控制装置的冗余切换方法
CN113472641A (zh) * 2020-03-31 2021-10-01 中国电信股份有限公司 链路控制方法、装置、系统、协同业务编排器及存储介质

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8880709B2 (en) 2001-09-12 2014-11-04 Ericsson Television Inc. Method and system for scheduled streaming of best effort data
US7619886B2 (en) * 2001-09-27 2009-11-17 Alcatel-Lucent Canada Inc. Method and apparatus for providing a common support services infrastructure for a network element
US7710866B2 (en) * 2001-09-27 2010-05-04 Alcatel-Lucent Canada Inc. Method and apparatus for optimization of redundant link usage in a multi-shelf network element
JP2003124979A (ja) * 2001-10-10 2003-04-25 Nec Corp 交換機におけるセレクタおよび回線冗長方法およびそのシステム
CA2415598A1 (en) * 2002-01-11 2003-07-11 Nec Corporation Multiplex communication system and method
US7061942B2 (en) * 2002-05-31 2006-06-13 Skystream Networks Inc. Apparatus for redundant multiplexing and remultiplexing of program streams and best effort data
US7835265B2 (en) * 2002-10-31 2010-11-16 Conexant Systems, Inc. High availability Ethernet backplane architecture
US8867335B2 (en) * 2002-11-12 2014-10-21 Paradyne Corporation System and method for fault isolation in a packet switching network
CN1310481C (zh) * 2003-05-21 2007-04-11 华为技术有限公司 实现应用特性双机备份的方法
US7376133B2 (en) * 2003-10-16 2008-05-20 Alcatel-Lucent System and method for providing communications in a network using a redundant switching architecture
US7558192B1 (en) * 2004-05-03 2009-07-07 Cisco Technology, Inc. Method to increase system availability of critical hardware components
JP2006065440A (ja) * 2004-08-25 2006-03-09 Evolium Sas プロセス管理システム
CN100444534C (zh) * 2004-09-06 2008-12-17 中兴通讯股份有限公司 通讯系统中多数据区的冗余备份方法及装置
US7613107B2 (en) 2004-11-02 2009-11-03 Alcatel Lucent Protection switch logging methods and systems
GB2421661A (en) * 2004-12-24 2006-06-28 Ote S P A Self-diagnosis of faults in radio system with redundancy units
US7711978B1 (en) * 2004-12-30 2010-05-04 Symantec Operating Corporation Proactive utilization of fabric events in a network virtualization environment
CN101094125A (zh) 2006-06-23 2007-12-26 华为技术有限公司 在atca/atca300扩展交换带宽的交换结构
US7730029B2 (en) * 2006-09-15 2010-06-01 Alcatel Lucent System and method of fault tolerant reconciliation for control card redundancy
JP4688765B2 (ja) * 2006-09-20 2011-05-25 富士通株式会社 ネットワークの冗長方法及び中位スイッチ装置
US20090109859A1 (en) * 2007-10-31 2009-04-30 At&T Knowledge Ventures, Lp Method and System for Detecting a Fault Condition Based on Failed IGMP Join Attempts
US20090271663A1 (en) * 2008-04-24 2009-10-29 Vining Robert G Providing detailed program state information for error analysis
JP4682255B2 (ja) * 2009-03-11 2011-05-11 富士通株式会社 経路制御装置、経路制御方法及び経路制御プログラム
US8031045B1 (en) 2009-05-14 2011-10-04 Viewteq Corp. Apparatus and method for an A/B RF redundant sensing switch
US20110069608A1 (en) * 2009-09-22 2011-03-24 Miller Gary M System for providing backup programming at radio or television transmitter
US10015084B2 (en) * 2010-08-10 2018-07-03 International Business Machines Corporation Storage area network path management
US9209894B2 (en) * 2010-12-03 2015-12-08 International Business Machines Corporation Clearing a fault condition over a fibre channel path
CN104781792B (zh) * 2012-11-07 2016-06-29 Abb技术有限公司 判断在工业控制系统中的故障的冗余设备单元和方法,工业控制系统和包括冗余设备单元的工业系统
CN103576600A (zh) * 2013-10-23 2014-02-12 北京和隆优化科技股份有限公司 一种基于plc的优化站无扰安全切换方法
US9172600B1 (en) * 2013-12-31 2015-10-27 Symantec Corporation Efficient I/O error analysis and proactive I/O failover to alternate paths for InfiniBand channel
CN104320466B (zh) * 2014-10-29 2017-12-01 侯荣涛 一种通信系统子系统局数据存储结构以及局数据更新方法
US11422185B2 (en) 2020-06-30 2022-08-23 Nxp Usa, Inc. System and method for testing critical components on system-on-chip
US11175340B1 (en) 2021-02-15 2021-11-16 Nxp B.V. System and method for managing testing and availability of critical components on system-on-chip
CN114039695A (zh) * 2021-12-24 2022-02-11 浙江中控技术股份有限公司 冗余网络的时间同步方法、冗余网络系统及设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4517639A (en) * 1982-05-13 1985-05-14 The Boeing Company Fault scoring and selection circuit and method for redundant system
EP0453607B1 (de) 1990-04-27 1994-09-07 Siemens Aktiengesellschaft Verfahren und Schaltungsanordnung zur Reduzierung des Verlustes von Nachrichtenpaketen, die über eine Paketvermittlungseinrichtung übertragen werden
US5477531A (en) * 1991-06-12 1995-12-19 Hewlett-Packard Company Method and apparatus for testing a packet-based network
SE516073C2 (sv) 1993-02-15 2001-11-12 Ericsson Telefon Ab L M Sätt för hantering av redundanta väljarplan i paketväljare och paketväljare för utförande av sättet
JP3623997B2 (ja) 1994-12-28 2005-02-23 富士通株式会社 デジタル交換機間中継方式及びデジタル交換機
US6188666B1 (en) * 1998-04-28 2001-02-13 At&T Corp. Restoration method for multiplexed circuits
US7002908B1 (en) 2000-02-28 2006-02-21 Telefonaktiebolaget Lm Ericsson (Publ) Interconnection link redundancy in a modular switch node
US6798740B1 (en) * 2000-03-13 2004-09-28 Nortel Networks Limited Method and apparatus for switch core health monitoring and redundancy

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100341339C (zh) * 2003-11-07 2007-10-03 华为技术有限公司 一种链路故障恢复方法
CN100524124C (zh) * 2005-12-27 2009-08-05 株式会社东芝 冗余监管控制系统及其冗余切换方法
CN103326943A (zh) * 2012-03-23 2013-09-25 日电(中国)有限公司 数据流重路由方法和控制器
CN106873356A (zh) * 2015-12-11 2017-06-20 重庆川仪自动化股份有限公司 可自动恢复冗余的冗余控制系统及其冗余自动恢复方法
CN106873356B (zh) * 2015-12-11 2023-06-13 重庆川仪自动化股份有限公司 可自动恢复冗余的冗余控制系统及其冗余自动恢复方法
CN113472641A (zh) * 2020-03-31 2021-10-01 中国电信股份有限公司 链路控制方法、装置、系统、协同业务编排器及存储介质
CN113472641B (zh) * 2020-03-31 2023-07-07 中国电信股份有限公司 链路控制方法、装置、系统、协同业务编排器及存储介质
CN113110258A (zh) * 2021-05-21 2021-07-13 华自科技股份有限公司 一种控制系统及控制装置的冗余切换方法
CN113110258B (zh) * 2021-05-21 2022-04-05 华自科技股份有限公司 一种控制系统及控制装置的冗余切换方法

Also Published As

Publication number Publication date
US20030112746A1 (en) 2003-06-19
DE60231177D1 (de) 2009-04-02
ATE423416T1 (de) 2009-03-15
US7085225B2 (en) 2006-08-01
EP1298862A2 (en) 2003-04-02
EP1298862A3 (en) 2005-01-05
EP1298862B1 (en) 2009-02-18

Similar Documents

Publication Publication Date Title
CN1409494A (zh) 在冗余体系结构通信系统中提供故障检测和结构切换的系统及方法
CN101983494B (zh) 自动化功率拓扑发现
US7287193B2 (en) Methods, systems, and media to correlate errors associated with a cluster
WO2008060015A1 (en) System and method for management of performance fault using statistical analysis
CN101026494A (zh) 便于通信环境内的事件管理和分析的方法和系统
CN101056184A (zh) 网络系统和通信装置
CN1409560A (zh) 通信系统中提供结构活动交换控制的系统
EP2437430A1 (en) Method and system for switching main/standby boards
CN107003926B (zh) 故障信息提供服务器、故障信息提供方法
CN1330821A (zh) 用于确定计算机网络拓扑结构的方法
JP4679314B2 (ja) 障害通報の通知方法およびシステム
CA2369351A1 (en) System and method for providing error analysis and correlation in a network element
CN113923609B (zh) 基于多个短信通道的短信分发方法、装置以及电子设备
CN110659147B (zh) 一种基于模块自检行为的自修复方法和系统
CN1862499A (zh) 多处理器设备单元主备保护方法
US20090062954A1 (en) Method and system for auto-dispatching lots in photolithography process
US10205630B2 (en) Fault tolerance method for distributed stream processing system
JP5271761B2 (ja) 障害対処方法及び装置
CN107451039A (zh) 一种对集群中执行设备评价的方法和设备
US8295472B2 (en) System and method for incorporating customer hang-ups and web submissions into a phonecall-based support workflow
CN1728609A (zh) 一种检测多框设备连接方式的方法
Visscher et al. The value of relatives with phenotypes but missing genotypes in association studies for quantitative traits
CN114936685A (zh) 一种可修件多级库存优化方法及装置
CN101192962A (zh) 电信网管系统中涉及粘滞值的告警产生和恢复方法
TWI733261B (zh) 配置雲服務的方法及系統

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication