CN101652960A - 网关设备中的故障检测和缓解机构 - Google Patents

网关设备中的故障检测和缓解机构 Download PDF

Info

Publication number
CN101652960A
CN101652960A CN200780052709A CN200780052709A CN101652960A CN 101652960 A CN101652960 A CN 101652960A CN 200780052709 A CN200780052709 A CN 200780052709A CN 200780052709 A CN200780052709 A CN 200780052709A CN 101652960 A CN101652960 A CN 101652960A
Authority
CN
China
Prior art keywords
notice
network
equipment
classification
gateway device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200780052709A
Other languages
English (en)
Inventor
基斯·R·布罗尔曼
巴里·J·韦伯
阿伦·M·史密斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of CN101652960A publication Critical patent/CN101652960A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/66Arrangements for connecting between networks having differing types of switching systems, e.g. gateways
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/091Measuring contribution of individual network components to actual service level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection

Abstract

一种能够检测并缓解与网关设备相关联的故障状况的方法。根据示例性实施例,所述方法包括:接收关于与网关设备的操作相关联的服务的第一通知(440);确定所述第一通知的类别(510);基于所述第一通知的类别初始化定时间隔(520);和如果在所述定时间隔期满之前未接收到与所述第一通知相同类别的第二通知,则提供错误消息(530)。如果在所述定时间隔期满之前接收到与所述第一通知相同类别的第二通知,则认为所述网关设备正在正常地操作。

Description

网关设备中的故障检测和缓解机构
相关申请的交叉引用
本申请要求按照35U.S.C.§119、于2007年4月23日向美国提交的临时申请60/925,792的利益。
技术领域
本实施例通常涉及可被用来为多住宅单元(MDU,multi-dwelling unit)提供服务的网关设备,更具体地,涉及用于检测并缓解(mitigating)与所述网关设备相关联的故障状况(failure condition)的机构。
背景技术
用于提供诸如卫星电视服务之类的服务的系统已经得以运用,该系统采用一种对单个位置(例如,多住宅建筑或公寓)中的多用户操作的需求进行补充的结构。用于诸如MDU安装(installation)之类的安装的系统的布置,通常包括通过本地网络连接到中央设备的客户端设备、或者连接到服务提供商的网络的网关设备。由于硬件或软件导致的给定网关设备内的故障可能会发生并这导致系统性能和来自用户的服务呼叫的恶化。
检测并缓解给定网关设备内的软件模块故障的一种途径包括使用看门狗监视器。这种看门狗监视器例如可以是基于每线程进行设置,以便监视一个或多个执行线程,并且指示线程故障(即,微级别故障检测)。在许多情况下,更复杂的软件模块由多执行线程和未被监视的第三方对象模块组成,并且它也可以使用传输控制协议/因特网协议(TCP/IP)堆栈的服务。
在这些更复杂的模块中,每线程看门狗监视器途径可能不足以检测整体软件模块的故障或者软件功能点的丢失(loss)。
因此,需要一种改进的机构来检测和缓解与网关设备相关联的故障状况。此处描述的本实施例解决这一和/或其它问题,并且提供了一种检测跨过一个或多个网关设备的硬件和软件模块故障的宏级别能力。
发明内容
根据本公开的一方面,公开了一种用于检测网关设备中的故障的方法。根据示例性实施例,所述方法包括步骤:接收关于与网络操作相关联的服务的第一通知(announcement);确定所述第一通知的类别;基于所述第一通知的类别初始化定时间隔;和如果在所述定时间隔期满之前未接收到与所述第一通知相同类别的第二通知,则提供错误消息。
根据本公开的另一方面,公开了一种网关设备。根据示例性实施例,所述网关设备包括:网络接口,用于接收关于与所述网络的操作相关联的服务的第一通知;和处理器,用于确定所述第一通知的类别,基于所述第一通知的类别初始化定时间隔,并且如果在所述定时间隔期满之前未接收到与所述第一通知相同类别的第二通知,则提供错误消息。
根据本公开的另一方面,公开了另一种设备。根据示例性实施例,所述设备包括:用于接收关于与网络操作相关联的服务的第一网络通知的部件;和用于确定所述第一网络通知的源和所述第一网络通知的类型、初始化定时间隔、并且如果在所述定时间隔期满之前未接收到来自所述第一网络通知的源且与所述第一通知相同类型的第二通知则提供错误消息的部件。
附图说明
通过参考结合附图进行的下列实施例的描述,本实施例的上述和其它特征和优点、以及获得它们的方式将变得更加明显并且所述公开将更好理解,其中:
图1是图解使用本公开的实施例的示例性系统的方框图;
图2是图解图1的网关设备之一的相关部分的方框图;
图3是图解图1的网关设备之一的示例性实施例的方框图;和
图4展示了图解使用本公开实施例的示例性方法的流程图的一部分。
图5展示了图解使用本公开实施例的示例性方法的流程图的另一部分。
图6展示了图解使用本公开实施例的示例性方法的流程图的另一部分。
此处展示的范例图解了本公开的优选实施例,并且所述范例并不应当被理解为以任何方式限制实施例的范围。
具体实施方式
上述的实施例主要针对多住宅单元中发现的安装系统。该实施例也可被用来并应用于任意网络信息分发系统,该系统采用头端(head-end)或者网关接口经由数据网络将内容提供到客户端设备、机顶盒、或者接收电路。例如,使用对在飞机或公共汽车乘客娱乐分发系统中工作的本领域的普通技术人员来说已知的技术,修改所述的实施例。
现在参考附图,且更具体地参考图1,示出了一种使用本公开实施例的示例性系统100。如图1所示,示例性系统100包括一个或多个系统头端(未示出)、网关设备10、总配线架(MDF)20、诸如因特网30的网络、网络操作中心(NOC)40、中介配线架(IDF)50和客户端设备(未示出)。根据示例性实施例,图1展示了可在MDU中采用的一种典型系统,使用以太网网络或者其它类型的网络,例如同轴电缆、数字用户线(DSL)、电力线网络或者无线技术。
在图1中,每个网关设备10可操作性地耦接到系统头端(即,服务提供商),例如,卫星、陆地、电缆、因特网和/或其它类型的广播系统的头端,且与该系统头端进行通信。根据示例性实施例,每个网关设备10接收包括来自系统头端的音频和/或视频内容的多个信号,转换接收到的信号的信号格式,并且随后基于各个住宅单元中的用户做出的请求,经由MDF 20和IDF 50通过网络以诸如因特网协议(IP)格式之类的格式,将合适的数据流发送到客户端设备(例如,机顶盒、电视机等等)。如现有技术中已知的,MDF 20和IDF 50操作为切换和路由设备。给定MDU安装中包含的网关设备10、MDF 20和IDF 50的数目可以根据设计选择而改变。每个IDF 50例如可以服务存在于给定楼层的客户端设备和/或MDU的其它定义的部分。尽管系统100此处被示出并描述为是使用特定网络格式的以太网交换网络,但是本领域的普通技术人员将会理解本公开的原理也可应用于其它类型的网络(例如,使用同轴电缆、数字用户线(DSL)、电力线联网和/或无线技术的网络)以及大量的可能网络格式。
重要的需注意的是,多于一个网关设备10可以连接到同一系统服务提供商头端。由于单个网关设备10的尺寸或性能的设计限制,可能需要多个网关设备10,以便接收和分发来自服务提供商的所有可用内容。而且,网关设备10可以包括彼此之间进行连接和通信的能力,其与对MDF 20进行的本地网络连接无关或者相关。
如图1中所示,MDF 20可操作来经由因特网30或者其它合适的网络连接而耦接到NOC 40并且与其进行通信。根据示例性实施例,MDF 20可操作来接收与网关设备10的操作状态相关的通知消息,并且将所述通知消息传送到NOC 40。在这些通知消息之一表示一个网关设备10的操作性问题(例如,硬件和/或软件模块故障等等)的情况下,则可以采取合适的动作(例如,服务调用、新软件下载、不需操作员介入重新启动故障的网关设备,等等)来识别和解决该问题。根据本公开的原理,每个网关设备10可操作来检测自身和/或其它网关设备10所存在的操作性问题,并且经由MDF 20和因特网30将所述通知消息提供给NOC 40。以这种方式,本公开有利地能够检测和缓解例如在MDU网络中使用的网关设备10中的故障状况。
参考图2,示出了图解图1的一个网关设备10的相关部分的方框图。图2的网关设备10包括I/O块12、处理器14和存储器16。为了描述清楚,在图2中不示出与网关设备10相关联的一些传统元件,例如某些控制信号、电源信号和/或其它元件。
I/O块12可操作来执行网关设备10的I/O功能。根据示例性实施例,I/O块12可操作来从一个或多个头端信号源(例如,卫星、陆地、线缆、因特网和/或其它信号源)以模拟和/或数字格式接收诸如音频、视频和/或数据信号之类的信号。I/O块12也可操作来将信号输出到所述一个或多个头端信号源。I/O块12也可操作来将信号传送到MDF 20并从MDF 20接收信号。在示例性实施例中,I/O块12包括用于接收包含音频和视频内容的广播信号的信号接口以及用于在包括MDF 20的本地网络上以数据信号的形式传送和接收信号的网络接口。数据信号可以包括表示被网关设备10处理的音频和视频内容的信号和由网关设备10生成的网络通知。
处理器14可操作来执行网关设备10的各种信号处理和控制功能。根据示例性实施例,处理器14可操作来处理由I/O块12接收的音频、视频和/或数据信号,以便以适于传送到客户端设备且被该客户端设备处理的格式来替代那些信号。
处理器14也可操作来根据本公开的原理执行软件代码,该软件代码使能与一个或多个网关设备10(包括自身)相关联的操作性问题(例如,硬件和/或软件模块故障,等等)的检测和缓解。在优选实施例中,处理器37是微处理器,其可操作来执行用于在接收到关于通知的信息之后确定通知的类别的软件代码。处理器14进一步执行基于通知的类别初始化定时间隔的代码,并且如果在该定时间隔期满之前未接收到关于与先前接收到的通知相同类别的第二通知的信息,则提供错误消息。此处将在后面提供关于处理器14的这一方面的更多细节。处理器14也可操作来执行和/或使能网关设备10的其它功能,包括但不限于,处理经由用户输入设备(未示出)进行的用户输入,生成包括通知消息的输出,从存储器16读取数据和将数据写入存储器16,和/或其它操作。
存储器16耦接到处理器14并且执行网关设备10的数据存储功能。根据示例性实施例,存储器16存储数据,包括但不限于,软件代码、一个或多个数据表、预定义的通知消息、用户设置数据和/或其它数据。
网关设备10可被配置来接收大量的不同类型的广播信号,包括多个卫星信号。网关设备10也可被配置来生成多个网络数据信号,包含在广播信号中提供的音频和视频内容,并且被配置来经由连接到网关设备10的网络将网络数据信号提供到客户端设备。
现在参考图3,示出了示例性卫星网关设备300的方框图。卫星网关设备300类似于图1中描述的网关设备10。如图示,卫星网关设备300包括电源340、两个前端341a和341b以及后端352。电源340可以是可配置来使得前端341a、341b以及后端352执行下述功能的大量工业标准AC或DC电源中的任意一个。
卫星网关设备300也可以包括两个前端341a和341b。在一个实施例中,前端341a和341b中的每一个可被配置来接收从1∶2分离器326a-326d提供的两个信号。例如,前端341a可以接收来自1∶2分离器326a的两个信号,并且前端341b可以接收来自1∶2分离器326b的两个信号。
前端341a和341b然后可以进一步使用1∶4分离器342a、342b、342c和342d来细分信号。一旦被细分,则信号可被传递到双调谐器链路(dual tunerlink)的四个存储体(bank)344a、344b、344c和344d。存储体344a-344d内的双调谐器链路中的每一个可被配置来调谐到被那个单独双调谐器链路接收的信号内的两个服务,以便生成一个或多个传输流。双调谐器链路344a、344b、344c和344d中的每一个将传输流传送到低电压差分信号(“LVDS”)驱动器348a、348b、348c和348d中的一个。LVDS驱动器348a-348d可被配置来放大传输信号用以传送到后端352。在替换的实施例中,代替LVDS驱动器348a-348d,可以使用不同形式的差分驱动器和/或放大器。其它实施例可以采用串行化所有传输信号(serialization)到一起用于路由到后端352。
如图示的,前端341a、314b也可以包括微处理器46a和46b。在一个实施例中,微处理器346a、346b控制和/或中继命令到双调谐器链路的存储体344a-344d和1∶4分离器342a-342d。微处理器346a、346b可以包括例如由ST微电子公司制造的ST10微处理器。在其它实施例中,可以使用不同的处理器或者可以从后端352中的处理器衍生控制。微处理器346a、346b可以耦接到LVDS接收机和发送机模块350a和350b。LVDS接收机/发送机模块350a、350b有助于微处理器346a、346b与后端352上的组件之间的通信,如将在下面进一步描述的。
接着转向后端352,后端352包括LVDS接收机354a、354b、354c和354d,它们被配置来接收由LVDS驱动器348a-348d发送的传输流信号。后端352也包括LVDS接收机/发送机模块356a和356b,它们被配置来与LVDS接收机/发送机模块350a、350b进行通信。
如图示,LVDS接收机354a-354d和LVDS接收机/发送机356a、356b被配置来与控制器或者传输处理器358a和358b进行通信。在一个实施例中,传输处理器358a、358b被配置来接收由前端341a、341b中的双调谐器链路产生的传输流。传输处理器358a、358b也可被配置来将传输流重新打包为可以经由先前描述的本地网络多播的因特网协议(IP)分组。例如,传输处理器358a、358b可以将广播协议分组重新打包为IP协议分组,并且随后将IP地址上的这些IP分组多播到一个或多个客户端设备。
传输处理器358a、358b也可以耦接到总线362,例如32位、66MHz外周部件互连(“PCI”)总线。通过总线362,传输处理器358a、358b可以与其它控制器或者网络处理器370、以太网接口384、和/或扩展插槽366进行通信。网络处理器370可被配置来从本地网络接收对服务的请求并且指导传输处理器358a、358b来多播所请求的服务。另外,网络处理器370也可以通过接收来自客户端设备的请求、维护当前部署的服务的列表、和匹配或分配接收资源用以将这些服务提供给STB 22a-22n,来管理包含音频和视频内容的数据信号的操作和分发。网络处理器也可以通过由网关设备10提供的网络相关通知的接收、监视、和/或处理,来管理网络状态。在一个实施例中,网络处理器是由因特尔公司制造的IXP425,并且执行用于在接收到关于通知的信息之后确定网络通知的类别的软件代码。处理器14进一步执行用于基于通知的类别来初始化定时间隔的代码,并且如果在定时间隔期满之前未接收到关于与先前接收的通知相同类别的第二网络通知的信息,则提供错误消息。尽管未图示,但是网络处理器370也可被配置来将状态数据发送到卫星网关设备300的前面板(front panel)或者通过调试端口支持卫星网关设备300的调试或监视。
如图示,传输处理器358a、358b经由总线362耦接到以太网接口368。在一个实施例中,以太网接口368是吉比特以太网接口,其提供到本地网络的铜线或光纤接口。在其它实施例中,可以使用诸如在数字家庭网络应用中使用的那些接口之类的其它接口。另外,总线362也可以耦接到扩展插槽,例如PCI扩展插槽,以便能够升级或扩展卫星网关设备300。
传输处理器358a、358b也可以耦接到主机总线64。在一个实施例中,主机总线364是16比特数据总线,其将传输处理器358a、358b连接到调制解调器372,该调制解调器可被配置来经由公共服务电话网络(PSTN)28来进行通信。在替换的实施例中,调制解调器372也可以耦接到总线362。
网络处理器370也可以包含用于存储关于卫星网关设备300的操作的各个方面的信息的存储器。存储器可以驻留于网络处理器370内或者可以位于其外部,尽管未示出。存储器可被用来存储状态信息,例如关于定时器的信息和网络通知、以及接收源的调谐信息。
重要的需注意的是,传输处理器358a、358b、网络处理器370和微处理器346a、346b可被包含在能够执行卫星网关设备300的操作所必需的任意或所有控制功能的一个更大的处理器或者处理器单元中。所述控制功能的一些或全部也可被分发到其它块,并且不影响卫星网关设备300的主要操作。
参考图4到图6,示出了图解使用本公开的实施例的示例性方法的流程图。为了示例和解释目的,将参考图1的系统100以及图2的网关设备10的元件来描述图4到图6的方法。参考图1的卫星网关20的元件可以等同地描述图4到图6的方法。同样为了示例和解释目的,将参考仅一个网关设备10来主要描述图4到图6的步骤。然而,实际上,期望给定MDU安装中的每个网关设备10将分离地并独立地执行图4到图6的步骤。图4到图6的步骤仅仅是示例性的,并且往往并不以任何方式限制本实施例。
在步骤410,方法开始。根据示例性实施例,只要使能用于检测和缓解与一个或多个网关设备10相关联的操作性问题(例如,硬件和/或软件模块故障,等等)的特征,方法开始于步骤410。为了示例解释的目的,假设最初使能这一特征。
在步骤420,网关设备10对表格和所有定时器清零。根据示例性实施例,每个网关设备10在存储器16中存储用于与一个或多个网关设备10(包括自身)相关联的操作性问题(例如,硬件和/或软件模块故障,等等)的检测和缓解的表。根据这一示例性实施例,每个网关设备10根据预先定义的协议,例如运送会话描述协议(SDP)的会话通知协议(session announcementprotocol,SAP),周期性地发送和重新发送通知。SAP和SDP两者都是现有技术中已知的。存在各种类型或类别的通知(包括与网络可用性、代理调制解调器主机可用性、客户机设备软件可用性相关的通知)或者其它类型的与应用相关的事项。对于由网关设备10接收的每个独特SAP分组SDP有效载荷,存储器16中的上述表存储:(i)发送网关设备10的IP地址(即,网关设备10的识别符),(ii)SAP通知的类型或类别,(iii)媒体标题(其对应于第(ii)项),以及(iv)分组到达的时间。对于每个网关设备10和通知的类型或类别,处理器14维持相应的定时器。在步骤420,处理器14对存储器16中的上述表和被用来检测和缓解操作性问题的所有其相应内部定时器清零。这些内部定时器是处理器14的故障检测模块的一部分。
在步骤430,网关设备10收听所有类型的通知。根据示例性实施例,在步骤430,在处理器14的控制下,网关设备10监视由它自己以及由任意或所有其它有效网关设备10发出的SAP通知。在步骤430,网关设备10例如可以在处理器14的控制下监视特定的IP地址,以便收听通知。
在步骤440,进行关于网关设备10是否接收到通知的确定。根据示例性实施例,处理器14检测是否从其它网关设备10或者自身接收到通知,从而在步骤440进行确定。如果在步骤440的确定是肯定的,则处理流程前进到“C”(请参考图5),如此后将描述的。可替换地,如果在步骤440的确定是否定的,则处理流程前进到步骤450,在步骤450进行关于任何定时器是否期满的确定。根据示例性实施例,处理器14检查它的内部定时器(即,步骤420处清零的那些),以便进行在步骤450的确定。如图4中所示,处理流程也从“D”前进到步骤450(请参考图5),如此后将描述的。
重要的需注意的是,代替使用处理器14中的内部定时器,大量维持或监视时间间隔的方法也是可能的。例如,定时器可以是连接到石英(crystal)的外部时钟电路、对现有持续时间信号取样的取样电路、或者在处理器14上运行的软件算法。
如果在步骤450的确定是肯定的,则处理流程前进到“E”(请参考图6),如此后将描述的。可替换地,如果在步骤450的确定是否定的,则处理流程前进到步骤460,在步骤460进行关于表重设是否被请求的确定。根据示例性实施例,在步骤420中提到的存储器16中的表可以通过网络管理员或者其它授权个体不时地被人工地重置,和/或可以基于用户设置来自动地重置。因此,处理器14通过检测该表是否必需被重置来在步骤460进行确定。
如果在步骤460的确定是肯定的,则处理流程循环回到步骤420,如由“A”所示。可替换地,如果在步骤460的确定是否定的,则处理流程前进到步骤470,在步骤470进行关于是否使能用于检测和缓解与一个或多个网关设备10(包括自身)相关联的操作性问题(例如,硬件和/或软件模块故障,等等)的特征的确定。根据示例性实施例,本公开的这一特征可以通过网络管理员或其它授权个体人工地开启(即,使能)和关闭(即,禁用)。因此,处理器14通过检测这一特征是否被使能来进行步骤470的确定。如果在步骤470的确定是肯定的,则处理流程循环回到步骤430,如由“B”所示。可替换地,如果在步骤470的确定是否定的,则处理流程前进到步骤480,在步骤480方法结束。
现在参考图5,“C”(即,图4的步骤440的肯定确定)前进到步骤510,在步骤510进行关于在步骤440接收到的通知是否表示来自特定网关设备10的新类型或类别的通知的确定。根据示例性实施例,处理器14通过检查存储器16中的上述表的条目来进行步骤510的确定。如先前所述的,与网络可用性、代理调制解调器主机可用性、客户机设备软件可用性相关的通知、或者其它类型的应用相关的事项可以表示不同类型或类别的通知。
如果在步骤510的确定是肯定的,则处理流程前进到步骤520,在步骤520,网关设备10创建新的表条目并且初始化用于特定网关设备10的相应定时器和通知的类型或类别。根据示例性实施例,处理器14通过在存储器16中创建新的表条目并且内部地初始化相应定时器来执行步骤520。从步骤520,处理流程前进到步骤530,在步骤530,网关设备10在处理器14的控制下(经由MDF 20和因特网30)将通知消息发送到NOC 40,以便指示已经创建了新的表条目并且已经初始化了相应的定时器。
返回参考步骤510,如果此处的确定是否定的,则处理流程前进到步骤550,在步骤550,进行关于相应的定时器是否期满的确定。根据示例性实施例,处理器14通过检测与特定网关设备10以及在步骤440接收到的通知的类型或类别相对应的其内部定时器是否期满来进行步骤550的确定。
如果在步骤550的确定是肯定的,则处理流程前进到步骤530,在步骤530,网关设备10在处理器14的控制下将错误通知消息(经由MDF 20和因特网30)发送到NOC 40,以便指示与特定网关设备10和通知的类型或类别相对应的定时器已经期满。换句话说,如果在步骤550的确定是肯定的,则在步骤530发送的错误通知消息也表示在相应定时器期满之前网关设备10还未接收到与先前从特定网关设备10接收的通知相同类型或类别的第二或随后通知。因此,这一错误通知消息向NOC 40通知与可应用的网关设备10相关联的潜在操作性问题,并且考虑将要采取的校正动作。
从步骤530或者如果在步骤550的确定是否定的,则处理流程前进到步骤540,在步骤540,网关设备10开始或者重置相应的定时器。根据示例性实施例,处理器14通过开始或重置相应的定时器来执行步骤540。从步骤540,处理流程循环回到步骤450(请参考图4),如由“D”表示的。
现在参考图6,“E”(即,图4的步骤450的肯定确定)前进到步骤610,在步骤610,进行关于最后通知消息是否是针对特定网关设备10以及通知的类型或类别发送的第一通知消息的确定,或者进行关于自从针对特定网关设备10以及通知的类型或类别发送了最后通知消息以来是否已经过去一段时间,例如10分钟的确定。根据示例性实施例,处理器14使用内部维持的定时信息来进行步骤610的确定。
重要的需注意的是,通知的每种类型或类别可以使用不同的时间段,进一步改善本公开的操作。例如,网络可用性通知通常具有近似两秒的重复时间段,而网络时间通知具有近似十二小时的重复时间段。
如果在步骤610的确定是肯定的,则处理流程前进到步骤620,在步骤620,网关设备10在处理器14的控制下将通知消息(经由MDF 20和因特网30)发送到NOC 40,以便指示在步骤610确定的状况。从步骤620或者如果在步骤610的确定是否定的,则处理流程前进到步骤630,在步骤630,进行关于是否已经处理了存储器16中的所有期满的表条目的确定。根据示例性实施例,处理器14使用内部维持的状态信息来进行在步骤630的确定。
如果在步骤630的确定是肯定的,则处理流程循环返回到步骤430(请参考图4),如由“B”所示。可替换地,如果在步骤630的确定是否定的,则处理流程前进到步骤640,在步骤640,处理下一期满的表条目。从步骤640,处理流程循环回到步骤610。
如上所述,图4到图6的流程图提供了用于检测和缓解与网关设备10相关联的故障状况的机构。总之,每个有效网关设备10周期性地重新发送它的通知。处理器14的故障检测模块包括一组定时器,也就是,对于网关设备10与唯一的通知类型/媒体标题(例如,[GW1id,通知类型1],[GW1id,通知类型2],...[GW3id,通知类型1],[GW3id,通知类型2]...)的每个组合是一个定时器。根据本实施例的原理,当从特定网关设备10接收到新的通知类型/媒体标题时,在存储器16中的表中放置与特定网关设备10和通知类型/媒体标题对应的条目,并且开始用于该条目的定时器。如果在从特定网关设备10接收到那种类型/媒体标题的另一通知之前所述定时器期满,则采取动作(例如,将通知消息发送到NOC 40,启动服务呼叫、新的软件下载、不需操作员介入重新启动有故障的网关设备,等等),以便指示/解决所述问题。所述通知消息可以包括包含有故障的网关设备10的IP地址以及有故障的服务的服务信息。一旦定时器期满,可以周期性地重新发送系统通知,直到再次接收到来自特定网关设备10的通知或者故障检测模块被重置或者管理性地被禁用。
网关设备10无法接收其它网关设备10的通知可以表示发送网关设备10的硬件(例如,电源、网络接口等等)的故障或者负责其提供的服务的一个或多个其软件模块的故障。网关设备10无法接收它自己的通知可以表示负责其提供的服务的一个或多个其软件模块的故障。在安装三个或更多个网关设备10时,系统通知消息是冗余的,从而提高了所述通知的可靠性。例如,两个操作性网关设备10可以检测来自有故障的第三网关设备10的一个或多个通知的丢失,并且每个网关设备10将表示这一事实的通知消息发送到NOC40。
也是重要的需注意的是,本实施例主要地涵盖了网关设备10的故障检测,但是也可以结合故障缓解使用。而且,所公开的实施例在检测和缓解方案中描述使用SAP通知。SAP通知是用户数据报分组(UDP),其包含SAP(请求注解(RFC)2974)有效载荷,自身包含SDP(RFC 2327)有效载荷,并且在公知的多播IP地址上被每个有效网关设备10发送。SAP通知的每一类别广告服务提供,并且提供关于它的性能以及如何访问服务的细节。例如,当前的SAP通知包括网络可用性、代理调制解调器主机可用性、客户机设备软件可用性和网络时间。
关于在操作期间对于硬件或软件故障需要监视处理的系统的操作,本公开的实施例描述并提供了一些优点。这些优点包括但不限于:自我监视性能,其可以给予网络监视器更多关于系统的状态和标准IP消息的使用的信息,例如SAP通知,以便不仅传达了系统状态,从而网络上的任何人可以告知行为状态并且表示网络设备是否可工作,还可以传达其它重要的消息和信息。而且,所述消息的使用可以允许远程系统监视器的轮询或者可以允许有关故障的信息将被优先地发送。而且,由处理器14维持的间隔定时器的各种间隔超时值可被远程地设置,并且可以远程地配置通知类型。一旦生成通知消息,该消息就可被发送到多个操作员指定的NCO目的地。
如此处所描述的,本公开的实施例涉及一种已经开发的故障监视技术,从而可以检测并报告多个网关系统中的硬件和软件故障。在单个网关系统中,所述方式支持关键(key)软件模块的故障检测。除了别的以外,本公开的实施例还解决多网关设备安装中的各种类别的问题,包括以下事实:如果它们的通信接口硬件已发生故障,则具有非冗余电源的网关设备10不能检测它们自己的电源故障,以及网关设备10不能报告它们自己的故障。而且,当涉及多线程、第三方对象代码等时,本公开的实施例也可以使用简单的基于看门狗监视器的途径来解决单个或多个网关安装中的与检测突变软件模块故障相关的问题类别。而且,尽管初始的实现方式或者在网关设备10之间或者在本地网络上仅广播SAP通知,但是也可以开发这种实现方式的延伸,甚至利用其它类型的网络通知,从而这些通知可被发送到NOC 40。
尽管本公开已经被描述为具有优选设计,但是在本公开的精神和范畴内可以进一步修改本实施例。因此,本应用意欲涵盖使用其一般原理的公开的任意变动、使用或改编。而且,本应用意欲涵盖如落入实施例所属并且落入所附权利要求的限制之内的现有技术中已知或惯例实践内的本公开的那些偏差。

Claims (18)

1.一种用于检测网关设备中的故障的方法,包括步骤:
接收关于与网络的操作相关联的服务的第一通知(340);
确定所述第一通知的类别(410);
基于所述第一通知的类别初始化定时间隔(420);和
如果在所述定时间隔期满之前未接收到所述第一通知的类别的第二通知,则提供错误消息(430)。
2.如权利要求1所述的方法,其中所述第一通知包括网络可用性通知、代理调制解调器主机可用性通知、和客户端设备软件可用性通知中的至少一个。
3.如权利要求1所述的方法,其中所述第一通知使用会话通知协议。
4.如权利要求1所述的方法,其中如果在所述定时间隔期满之前接收到与所述第一通知相同类别的第二通知,则所述网关设备正常地操作。
5.如权利要求1所述的方法,其中所述类别包括用于第一通知的源设备识别。
6.如权利要求1所述的方法,还包括步骤:
存储包括所确定的类别和与所确定的类别相关联的定时间隔的信息。
7.一种设备(10),包括:
网络接口(12),用于连接到数据网络,可操作来接收关于与所述数据网络的操作相关联的服务的第一通知;和
连接到所述网络接口的处理器(14),可操作来确定所述第一通知的类别,基于所述第一通知的类别初始化定时间隔,并且如果在所述定时间隔期满之前未接收到与所述第一通知相同类别的第二通知,则提供错误消息。
8.如权利要求7所述的设备(10),其中所述第一通知包括网络可用性通知、代理调制解调器主机可用性通知、和客户端设备软件可用性通知中的至少一个。
9.如权利要求7所述的设备(10),其中所述第一通知使用会话通知协议。
10.如权利要求7所述的设备(10),其中如果在所述定时间隔期满之前接收到与所述第一通知相同类别的第二通知,则所述设备正常地操作。
11.如权利要求7所述的设备(10),其中所述类别包括用于第一通知的源设备识别。
12.如权利要求7所述的设备(10),其中所述设备还包括连接到所述处理器的信号接口,可操作来接收经由广播网络提供的包含音频和视频内容的信号。
13.如权利要求7所述的设备(10),其中所述设备是与所述数据网络连接的多个网关设备的一个。
14.如权利要求7所述的设备(10),还包括:
存储器,用于存储包括类别和与类别相关联的定时间隔的信息。
15.一种设备(10),包括:
用于接收关于与网络的操作相关联的服务的第一网络通知的部件(12);和
用于确定所述第一网络通知的源和所述第一网络通知的类型、初始化定时间隔、并且如果在所述定时间隔期满之前未接收到来自所述第一网络通知的源且与所述第一通知相同类型的第二通知则提供错误消息的部件(14)。
16.如权利要求15所述的设备(10),其中所述第一通知包括网络可用性通知、代理调制解调器主机可用性通知、和客户端设备软件可用性通知中的至少一个。
17.如权利要求15所述的设备(10),其中所述第一通知使用会话通知协议。
18.如权利要求15所述的设备(10),其中所述设备还包括:
用于接收经由广播网络提供的包含音频和视频内容的多个信号的部件;和
用于使用所述网络传送音频和视频内容的部件。
CN200780052709A 2007-04-23 2007-12-19 网关设备中的故障检测和缓解机构 Pending CN101652960A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US92579207P 2007-04-23 2007-04-23
US60/925,792 2007-04-23

Publications (1)

Publication Number Publication Date
CN101652960A true CN101652960A (zh) 2010-02-17

Family

ID=39598420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200780052709A Pending CN101652960A (zh) 2007-04-23 2007-12-19 网关设备中的故障检测和缓解机构

Country Status (9)

Country Link
US (1) US20100142381A1 (zh)
EP (1) EP2156608A1 (zh)
JP (1) JP5349457B2 (zh)
KR (1) KR101459170B1 (zh)
CN (1) CN101652960A (zh)
BR (1) BRPI0721534A2 (zh)
MX (1) MX2009011514A (zh)
RU (1) RU2463718C2 (zh)
WO (1) WO2008133670A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669402A (zh) * 2018-09-25 2019-04-23 平安普惠企业管理有限公司 异常监控方法、设备、装置及计算机可读存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120057473A1 (en) * 2010-09-02 2012-03-08 Public Wireless, Inc. Fault diagnostics for improved quality of service
KR101417402B1 (ko) * 2012-11-12 2014-07-08 현대자동차주식회사 차량 네트워크에서의 게이트웨이 오류 대처 장치 및 그 방법
US10263836B2 (en) 2014-03-24 2019-04-16 Microsoft Technology Licensing, Llc Identifying troubleshooting options for resolving network failures
CA2982147A1 (en) * 2017-10-12 2019-04-12 Rockport Networks Inc. Direct interconnect gateway
CN111490900B (zh) * 2020-03-30 2022-12-16 中移(杭州)信息技术有限公司 网关故障定位方法、装置和网关设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63260329A (ja) * 1987-04-17 1988-10-27 Hitachi Ltd 通信網の障害検知・診断システム
CA2268819A1 (en) * 1996-10-15 1998-04-23 Siemens Aktiengesellschaft Method of handling service connections in a communication network
FI105993B (fi) * 1997-08-20 2000-10-31 Nokia Mobile Phones Ltd Menetelmä ja järjestelmä radiotiedonsiirtoverkon hallitsemiseksi ja radioverkko-ohjain
US6678840B1 (en) * 2000-08-31 2004-01-13 Hewlett-Packard Development Company, Lp. Fault containment and error recovery in a scalable multiprocessor
CA2392942C (en) * 2001-07-10 2010-03-16 Tropic Networks Inc. Protection system and method for resilient packet ring (rpr) interconnection
WO2004021614A1 (ja) * 2002-08-28 2004-03-11 Fujitsu Limited 受信パストレース検出装置
US7664292B2 (en) * 2003-12-03 2010-02-16 Safehouse International, Inc. Monitoring an output from a camera
US7644317B1 (en) * 2004-06-02 2010-01-05 Cisco Technology, Inc. Method and apparatus for fault detection/isolation in metro Ethernet service
US8004965B2 (en) * 2004-09-28 2011-08-23 Nec Corporation Redundant packet switching system and system switching method of redundant packet switching system
US8068432B2 (en) * 2004-11-12 2011-11-29 Hewlett-Packard Development Company, L.P. Priority-based network fault analysis
KR101193098B1 (ko) * 2005-01-05 2012-10-22 톰슨 라이센싱 게이트웨이 서버에서 수신 자원을 할당하기 위한 방법과시스템
KR100666953B1 (ko) * 2005-02-28 2007-01-10 삼성전자주식회사 링크 오류 복구를 위한 네트워크 시스템 및 방법
US7907514B2 (en) * 2005-09-29 2011-03-15 Cisco Technology, Inc. MGCP fallback mechanism enhancement
JP4372078B2 (ja) * 2005-10-04 2009-11-25 株式会社東芝 ゲートウェイ装置
CN100387036C (zh) * 2006-07-14 2008-05-07 清华大学 边界网关协议中失效路由的快速清除方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669402A (zh) * 2018-09-25 2019-04-23 平安普惠企业管理有限公司 异常监控方法、设备、装置及计算机可读存储介质
CN109669402B (zh) * 2018-09-25 2022-08-19 平安普惠企业管理有限公司 异常监控方法、设备、装置及计算机可读存储介质

Also Published As

Publication number Publication date
MX2009011514A (es) 2009-11-09
RU2463718C2 (ru) 2012-10-10
WO2008133670A1 (en) 2008-11-06
US20100142381A1 (en) 2010-06-10
BRPI0721534A2 (pt) 2014-02-18
JP5349457B2 (ja) 2013-11-20
JP2010527533A (ja) 2010-08-12
KR101459170B1 (ko) 2014-11-07
RU2009142983A (ru) 2011-05-27
EP2156608A1 (en) 2010-02-24
KR20100015823A (ko) 2010-02-12

Similar Documents

Publication Publication Date Title
CN101617512B (zh) 在非指定路由器处接收多播业务
CN101960852B (zh) 用于在媒体递送系统中提供冗余的系统、方法
US7778158B2 (en) Method and apparatus of load sharing and improving fault tolerance in an interactive video distribution system
US9015781B2 (en) Methods and apparatuses for providing load balanced signal distribution
CN101652960A (zh) 网关设备中的故障检测和缓解机构
US7869369B2 (en) Cable modem location analyzing device
US20230247723A1 (en) Enterprise content gateway
US20130308639A1 (en) Robust multicast broadcasting
KR20080059349A (ko) 위성 게이트웨이 장애를 보상하기 위한 시스템과 방법
JP2010114855A (ja) ホームネットワークシステム
US20030023877A1 (en) System and method of managing data transmission loads
US7487531B1 (en) Method and apparatus of load sharing and improving fault tolerance in an interactive video distribution system
US20150304229A9 (en) Method and system for allocating receiving resources in a gateway server
KR101193098B1 (ko) 게이트웨이 서버에서 수신 자원을 할당하기 위한 방법과시스템
JP2015518670A (ja) Iptvストリームの不能または障害の連続的な検出
KR20160010225A (ko) 멀티 박스 및 멀티 박스의 장애를 관리하는 방법
WO2012093927A1 (en) System and method for tracking active clients in wireless multicast network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100217