JP2014504392A - ネットワーク要素のサービス回復のための方法およびシステム - Google Patents

ネットワーク要素のサービス回復のための方法およびシステム Download PDF

Info

Publication number
JP2014504392A
JP2014504392A JP2013539899A JP2013539899A JP2014504392A JP 2014504392 A JP2014504392 A JP 2014504392A JP 2013539899 A JP2013539899 A JP 2013539899A JP 2013539899 A JP2013539899 A JP 2013539899A JP 2014504392 A JP2014504392 A JP 2014504392A
Authority
JP
Japan
Prior art keywords
end server
client
network element
downstream network
recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013539899A
Other languages
English (en)
Other versions
JP5550793B2 (ja
Inventor
バウアー,エリック
ユースタス,ダニエル,ダブリュ.
アダムス,ランディ,スーザン
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2014504392A publication Critical patent/JP2014504392A/ja
Application granted granted Critical
Publication of JP5550793B2 publication Critical patent/JP5550793B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/12Arrangements for detecting or preventing errors in the information received by using return channel
    • H04L1/16Arrangements for detecting or preventing errors in the information received by using return channel in which the return channel carries supervisory signals, e.g. repetition request signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1034Reaction to server failures by a load balancer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q3/00Selecting arrangements
    • H04Q3/0016Arrangements providing connection between exchanges
    • H04Q3/0062Provisions for network management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Hardware Redundancy (AREA)

Abstract

ネットワーク要素の回復のための方法およびシステムが提供される。1つの形態では、フロントエンド・サーバは、バックエンド・サーバによって返されたエラーまたは利用不可能性のメッセージをインテリジェントにプロキシし、フロントエンド・サーバの障害をシミュレートする。少なくとも1つの形態では、フロントエンド・サーバはまた、代替システムまたはサイトにサービスを回復するためにクライアントを指示することによって、クライアントにとって、より優れたサービス可用性、信頼性、および/または経験の質が保証されることを決定するための知能またはロジックを含む。

Description

本発明は、ネットワーク要素のサービス回復のための方法およびシステムに関する。本発明は、詳細には、ネットワーク・クライアントのサービス回復の分野に関し、したがって、それを特に参照して記述するが、本発明は、他の分野および用途でも有用であることを理解されるであろう。
背景として、現在のシステムの多くは、バックエンド・データベース・サーバと対話するフロントエンドのウェブ・サーバなど、複数のネットワーク要素を統合することによって実装されている。これらのシステムが重要なサービスを提供する場合、多くの場合、特に、ネットワーキング装置または設備の障害、または装置をホスティングしているサイトが利用不可能またはアクセス不能になる他の外的要因によるイベントの後に、サービス可用性を最大限にするために、これらは複数のサイトで複製されている。クライアント・デバイス(たとえばウェブ・ブラウザ)に面するフロントエンド・マシンの障害(たとえば深刻な利用不可能性/非応答性)をクライアントによって自動的に検出し、サービスを代替サイトに自動的に回復するようにクライアントをトリガーできる一方、バックエンド・サーバの障害は、通常、クライアント始動の回復をトリガーしない。たとえば、電子商取引サイトをサポートするデータベース・サーバが利用不可能な場合、通常の実装では、単にクライアントに、サイトは一時的に利用できないので、後で再び試みることを伝えるウェブページを返すだけである。したがって、現在の標準的な技法は、(クライアントと直接的に通信しないバックエンド要素の障害について)複雑で複数の要素のソリューションが記述的なエラーをクライアントに返すことである。
バックエンド・サーバ(データベースなど)に障害が発生した場合、従来の戦略は、地理的に分散された冗長システムを活用することである。その際に、フロントエンド・サーバ(たとえばウェブ・サーバ)は、地理的にリモートにあるサイト上の冗長データベース・サーバにサービスを回復する。しかし、このために、2つの地理的にリモートにあるサイト間でメッセージが送信される。これらのサイトが遠く離れていて、ウェブ・サーバとデータベースとの間で必要とされるメッセージが多くある場合は、これによって、ウェブ・サーバの応答時間が著しく増加し、サイト間でかなりの帯域幅を使用する可能性がある。したがって、このソリューションでは、要素がリモート・サイトに位置する場合、遅延およびネットワーク・トラフィックが増加する場合がある。
ネットワーク要素のサービス回復のための方法およびシステムが提供される。現在の標準的な技法は、自動的なサービス回復をトリガーするためにエラーを操作するのではなく、(クライアントと直接的に通信しないバックエンド要素の障害について)複雑で複数の要素のソリューションが記述的なエラーをクライアントに返すことである。十分に記述的なエラーは、一部の区分のユーザにとって有益であるが、他の多くのユーザは、むしろ自分たちのために(スマート)クライアント・デバイスが自動的にサービスを回復させることを望む。
一実施形態では、本方法は、フロントエンド・サーバによって、ダウンストリームのネットワーク要素のエラーまたは利用不可能性を検出するステップと、クライアントに応答コードを送信して、クライアントがサービスを代替フロントエンド・サーバにリダイレクトするか、または代替フロントエンド・サーバで回復するようにトリガーするステップとを含む。
別の実施形態では、フロントエンド・サーバはウェブ・サーバである。
別の実施形態では、ダウンストリーム・ネットワーク要素はデータベース・サーバである。
別の実施形態では、方法は、クライアントとフロントエンド・サーバとの間のセッションをサスペンドすることをさらに含む。
別の実施形態では、検出は、ダウンストリーム・ネットワーク要素からメッセージを受信するステップ、またはタイムアウトした応答タイマを検出するステップのうちの1つを含む。
別の実施形態では、本方法は、フロントエンド・サーバによって、ダウンストリーム・ネットワーク要素のエラーまたは利用不可能性を検出するステップと、要素回復またはクラスタ回復を実行するべきかどうかを決定するステップと、要素回復が決定された場合、フロントエンド・サーバによって、障害が発生したダウンストリーム・ネットワーク要素に対応する代替ダウンストリーム・ネットワーク要素に切り替えるステップと、クラスタ回復が決定された場合、フロントエンド・サーバによってクライアントに応答コードを送信して、クライアントが代替の冗長フロントエンド・サーバにサービスをリダイレクトするか、または代替の冗長フロントエンド・サーバで回復するようにトリガーするステップとを含む。
別の実施形態では、フロントエンド・サーバはウェブ・サーバである。
別の実施形態では、ダウンストリーム・ネットワーク要素はデータベース・サーバである。
別の実施形態では、方法は、クライアントとフロントエンド・サーバとの間のセッションをサスペンドすることをさらに含む。
別の実施形態では、検出は、ダウンストリーム・ネットワーク要素からメッセージを受信するステップ、またはタイムアウトした応答タイマを検出するステップのうちの1つを含む。
別の実施形態では、決定はデータ・トラフィックに基づいている。
別の実施形態では、本システムは、ダウンストリーム・ネットワーク要素のエラーまたは利用不可能性を検出し、クライアントに応答コードを送信して、クライアントがサービスを代替フロントエンド・サーバにリダイレクトするか、または代替フロントエンド・サーバで回復するようにトリガーするフロントエンド・サーバの制御モジュールを含む。
別の実施形態では、フロントエンド・サーバはウェブ・サーバである。
別の実施形態では、ダウンストリーム・ネットワーク要素はデータベース・サーバである。
別の実施形態では、フロントエンド・サーバは、ダウンストリーム・ネットワーク要素からメッセージを受信することによって、またはタイムアウトした応答タイマを検出することによってエラーを検出する。
別の態様では、クライアント、フロントエンド・サーバ、ダウンストリーム・ネットワーク要素、代替フロントエンド・サーバ、および代替ダウンストリーム・ネットワーク要素は、IMS要素である。
別の実施形態では、本システムは、ダウンストリーム・ネットワーク要素のエラーまたは利用不可能性を検出し、要素回復またはクラスタ回復を実行するべきかどうかを決定し、要素回復が決定された場合、フロントエンド・サーバによって、障害が発生したダウンストリーム・ネットワーク要素に対応する代替ダウンストリーム・ネットワーク要素に切り替え、クラスタ回復が決定された場合、フロントエンド・サーバによって、クライアントに応答コードを送信して、クライアントがサービスを代替フロントエンド・サーバにリダイレクトするか、または代替フロントエンド・サーバで回復するようにトリガーするフロントエンド・サーバの制御モジュールを含む。
別の実施形態では、フロントエンド・サーバはウェブ・サーバである。
別の実施形態では、ダウンストリーム・ネットワーク要素はデータベース・サーバである。
別の実施形態では、フロントエンド・サーバは、ダウンストリーム・ネットワーク要素からメッセージを受信することによって、またはタイムアウトした応答タイマを検出することによってエラーを検出する。
別の実施形態では、フロントエンド・サーバの検出はデータ・トラフィックに基づいている。
別の実施形態では、クライアント、フロントエンド・サーバ、ダウンストリーム・ネットワーク要素、代替フロントエンド・サーバ、および代替ダウンストリーム・ネットワーク要素は、IMS要素である。
本発明の適用性のさらなる範囲は、以下に提供する詳細な説明から明白になるであろう。しかし、本発明の精神および範囲内の様々な変更形態および修正形態を当業者に明白にするため、詳細な説明および特定の例は、本発明の好適な実施形態を示しているが、例示を目的としてのみ提供されるものであることを理解されたい。
ここで、本発明の実施形態による装置および/または方法の一部の実施形態について、例示のみを目的として、添付図面に関して記述する。
本記載の実施形態を組み込むことができる例示的なシステムのブロック図である。 図1のシステムの例示的な動作を示すブロック図である。 図1のシステムの例示的な動作を示すブロック図である。 本記載の実施形態による例示的な方法を示すフローチャートである。 本記載の実施形態による例示的な方法を示すフローチャートである。
本記載の実施形態によると、ネットワークのダウンストリーム要素に障害がある、または利用不可能な場合には、静的なエラー記述または他の端末の応答をクライアントに単に返すだけでなく、フロントエンド・サーバ(たとえばウェブ・サーバ)は、動作可能なシステム/サイト(たとえば冗長または代替の経路またはクラスタ)への自動回復またはリダイレクションを試みるようにクライアントをトリガーする。目的は、障害が発生したまたは利用不可能なサーバが修理または回復される間、より長いサービス停止を回避するために、利用可能なシステム/サイトにサービスを自動的に回復またはリダイレクトすることである。
この点で、本記載の実施形態によると、フロントエンド・サーバは、バックエンド・サーバ(つまり、典型的には直接的にクライアントと対話しないダウンストリーム・サーバ)によって返されたエラー・メッセージをインテリジェントにプロキシし、フロントエンドから遠ざけるようにサービスをリダイレクトするために、状況をシミュレートまたは詐称する(たとえばサーバの障害または過負荷状態)。少なくとも1つの形態では、フロントエンド・サーバはまた、サービスを回復するためにクライアントを代替(つまり地理的に冗長な)システムまたはサイトにリダイレクトすることで、クライアントにとって、より優れたサービス可用性/信頼性/経験の質のうちの少なくとも1つが保証されることを決定するための知能またはロジックを含む。
概して、アプリケーション・プロトコルは全体的には、異なるタイプの応答コードをサポートし、その一部は本質的に終端または記述的であり(たとえば、ウェブページが見つからない、ユーザは許可されていない、ゲートウェイに障害があるなど)、その一部は、同じかまたは異なるサーバへの回復動作を取るようにクライアントをトリガーすることができる(たとえば、一時的に移動、サービスが利用不可能、混み合っている、再試行など)。本記載の実施形態によると、フロントエンド・サーバは、バックエンド・システムからの潜在的に回復可能なエラーまたは欠陥を、クライアントに対して返された応答コードなどのメッセージにマッピングする。これらのマッピングされた応答コードは、代替システム/サイトへのそれらの要求を再試行するようにクライアントをトリガーする。したがって、本記載の実施形態によると、ウェブ・サーバ・フロントエンドが、データベース・サーバの障害または利用不可能な状態を、たとえば、クライアントが表示するべきエラー・ウェブページにマッピングするのではなく、フロントエンド・ウェブ・サーバが、クライアントに完全に動作可能なシステム/サイトにサービスを回復またはリダイレクトさせる状況(たとえば障害)をシミュレートする。
本記載の実施形態を実施するために使用するコードまたはメッセージの例として、上に参照した応答コードのタイプは、用途によって異なる場合があることを理解されたい。たとえば、ダウンストリーム障害がフロントエンド・サーバによって検出された場合、503 Service Unavailableコードなど、深刻な問題を示すコードは、フロントエンド・サーバによって目的変更(repurpose)され、それ自身の障害をシミュレートするためにフロントエンド・サーバによってクライアントに伝送されて、切替えをトリガーすることができる。同様に、ダウンストリーム過負荷状態(またはダウンストリーム要素を利用不可能にする他の状態)が検出された場合、フロントエンド・サーバは、302 Moved Temporarilyコードなど、リダイレクション応答をクライアントに伝送して、代替クラスタへのリダイレクションをトリガーすることができる。
さらに他の例では、フロントエンド・サーバは、障害または利用不可能な他の状態を含む利用不可能なすべての状況において、302 Moved Temporarilyコードなど、リダイレクション応答を伝送することができる。このシナリオでは、本記載の実施形態を実施するために、深刻な問題(上記の503 Service Unavailableコードなど)を示すコードを使用する必要性がなくなる。
さらに他の例では、503 Service Unavailableコードなど、深刻な問題を示すコードは、障害または利用不可能な他の状態を含む、利用不可能なすべての状況で、フロントエンド・サーバによって目的変更され、それ自身の障害をシミュレートするためにフロントエンド・サーバによってクライアントに伝送されて、切替えをトリガーすることができる。
ここで、図示しているものが例示的な実施形態を示すことのみを目的とするものであり、特許請求の主題を限定することを目的とするものではない図面を参照すると、図1は、本記載の実施形態を組み込むことができるシステム100を示す図である。図示したように、システム100は、サービス「B」を提供する機能エンティティと通信状態にある、またはセッションを実行しているネットワーク要素またはクライアントA(102)を含む。この機能エンティティは、ネットワーク要素またはサーバB1(104)、およびネットワーク要素またはサーバB2(108)を含む。示したサービスBを提供する機能エンティティは、サービス「C」を提供する機能エンティティと通信する。この機能エンティティは、ネットワーク要素またはサーバC1(106)およびネットワーク要素またはサーバC2(110)を含む。図示するように、これらの要素C1およびC2は、要素B1およびB2に対してダウンストリームである。
さらに、各ネットワーク要素は、たとえば制御モジュール103、105、107、109、および111など、制御モジュールを含むことが示されている。制御モジュールは、ネットワーク要素に機能を提供し、いくつかの実施形態では、本記載の実施形態の機能を実現するために適切なルーチンを収容しかつ/または実行するものと理解される。たとえば、フロントエンド・サーバB1(104)は、少なくとも1つの形態において、図2〜図5に関連して以下に記述される方法を含んだ本記載の実施形態による方法に対応するルーチンを実行するように動作可能な制御モジュール105を含む。
図示の構成では、それぞれネットワーク要素B1およびC1に対して、ネットワーク要素B2およびC2は、代替の冗長要素(代替要素または冗長要素とも呼ぶ)として働くことを理解されたい。この点において、そのような代替サーバもしくは冗長サーバまたは代替の冗長サーバは、それが対応するプライマリ・サーバを必ずしも正確に複製しないことを理解されたい。また、参照しやすくするために、(たとえばB1およびC1について)1つの対応する代替の冗長要素だけが本明細書に示されているが、ネットワーク要素は、2つ以上の対応する代替の冗長要素を有することができることを理解されたい。図示するように、要素B1およびC1は、地理的に近い要素のクラスタを形成し、要素B2およびC2は、地理的に近い要素のクラスタを形成する。少なくとも1つの例示的な形態では、ネットワーク要素B1およびB2は、ウェブ・サーバなどのフロントエンド・サーバとして機能する一方、ネットワーク要素C1およびC2は、データベース・サーバなどのバックエンド・サーバとして機能する。単一のフロントエンド・サーバ(B1またはB2)が示されているが(参照しやすくするため)、ソリューションでは、必ずしも単一のフロントエンド・サーバだけである必要はないことを理解されたい。複雑なサービス(たとえばIPテレビのヘッドエンド)は、サーバ一式全体にわたって実装することができ、論理上、より幅広いソリューション内にあるシステムのより小さなクラスタへと整理することも可能であり得る。それらのより小さなクラスタのそれぞれは、フロントエンド・サーバとして働くシステムを有することもあり得る。これは、異なるフロントエンド・サーバを備えたより大きなクラスタ内にフロントエンド・サーバを備えた、より小さなクラスタを有する再帰的なケースを含む。
もちろん、IPマルチメディア・サブシステム(IMS)要素を含む、他のタイプのネットワーク要素を使用することもできる。また、セッション開始プロトコル(SIP)を含む、様々な信号プロトコルを使用できることを理解されたい。またさらに、ネットワーク要素は、ある目的のためにはクライアントとして、しかし別の目的のためにはサーバとして働くことを理解されたい。したがって、示された構成は、単に例として理解するべきである。また、これと同じように、図1は、冗長要素C1およびC2を含むが、冗長要素D1およびD2、E1およびE2…など(図示せず)も、システムにある場合があることを理解されたい。少なくとも1つの形態において、主要な要素(B1、C1など)のすべては、1つのサイトの第1のクラスタ(クラスタ1)に位置すると想定され、少なくとも1つの形態において、冗長要素(B2、C2など)のすべては、第2のサイトの第2のクラスタ(クラスタ2)に位置すると想定される。
典型的には、クライアントと直接対話するクラスタの「エッジ」要素の障害からの回復オプションは1つだけある(たとえば、「B1」に障害が発生した場合、クライアントは「B2」に回復する必要がある)。しかし、本記載の実施形態によると、エッジ内の要素の障害に対して2つの回復オプションがある。この点において、場合によっては、より速くより優れた回復を可能にするために、要素のクラスタを回復グループへと整理することができる。
図2を参照すると、要素回復をシステムに使用する技術が示されている。この点において、非エッジ要素C1の障害は、要素C2への要素B1の切替えによって回復することができる。理想的には、要素B1が、障害を十分に速く検出し、要素C2を用いて十分なセッション・コンテキストを回復するため、回復はクライアントAにとって透過的である。分かるように、要素A1は、依然経路150で要素B1と通信するが、要素B1は、経路152で要素C2と通信する。
図3を参照すると、クラスタ回復をシステムに使用する技術が示されている。この点では、非エッジ要素C1の障害または利用不可能性は、クラスタ1から離れてクラスタ2にクライアントAを切り替える、またはリダイレクトすることによって、回復または対処することができる。この場合、クライアントAは、要素B2へのサービスの再確立に明示的に関係している。要素C1の障害または利用不可能性は、要素C1の障害または利用不可能性に応じて、要素B1によってクライアントAに返される深刻な応答コード(たとえば、503 Service Unavailableまたは302 Moved Temporarilyなどのリダイレクション応答)を介してクライアントAに明示的に通信され、クライアントAは、代替クラスタへの回復を開始することが期待される。この場合、回復の後に、クライアントAは、経路160で要素B2と通信し、要素B2は、経路162で要素C2と通信する。クラスタ回復において、エッジおよび/または他の要素は、自身で回復を試みるのではなく、クライアント(たとえばクライアントA)に障害または利用不可能応答を明示的にプロキシして戻すことに注意されたい。次に、クライアントは、代替クラスタにリダイレクトするか切り替える。さらに、暗黙的な障害(たとえばタイムアウト期限切れ、ハートビートの損失)は、同様に、クライアントにプロキシして戻される適切な明示的な障害へと変換されるため、クライアントは、サービスをリダイレクトまたは切り替えることができる。
要素回復とクラスタ回復との違いは、ソリューションの様々な要素において異なるように見える可能性があることに注意されたい。たとえば、要素B1が、図2のC1からC2への要素回復を実行する間、クライアントAは、回復動作が取られたことを認識しない。同様に、図3のサイト1からサイト2へのクラスタ回復は、クライアントAには、B1の明白な障害の後に、単にB2への要素回復として見える可能性がある。
本記載の実施形態は、様々なやり方で実施できることを理解されたい。たとえば、本記載の実施形態の方法は、受信するエラーまたは他の応答に対するクラスタ回復技術を実行するフロントエンド・サーバの機能を含むことができる。さらなる実施形態では、フロントエンド・サーバは、また、要素回復またはクラスタ回復を特定のエラーまたは応答の検出に関して実施するべきかどうかについて決定を行うために、ロジックを実行するか、または知能を有することができる。いずれの場合でも、本記載の実施形態による方法は、様々なやり方でシステムにおいて実現できることが理解されるであろう。この点において、様々なソフトウェア・ルーチンまたはハードウェア構成を使用することができる。たとえば、本出願の方法を実行するソフトウェア・ルーチンは、フロントエンド・サーバB1(104)の制御モジュール105など、フロントエンド・サーバの制御モジュールによって収容かつ/または実行することができる。もちろん、そのようなルーチンはまた、適切なネットワーク要素においてネットワーク内で分散することができ、その一部は図1に図示していない。
したがって、ここで図4を参照すると、本記載の実施形態による方法200が示されている。方法200は、ダウンストリーム・ネットワーク要素からのエラーまたは利用不可能性を検出することを含む(202)。そのような検出は、様々な従来のやり方で達成できる場合がある。たとえば、明示的なメッセージまたは暗黙的なインジケータの受信時(たとえば応答タイマのタイムアウト)に、エラーまたは利用不可能性を検出できる場合がある。検出時に、フロントエンド・サーバは、クラスタ回復技術を実行する。すなわち、フロントエンド・サーバは、システムにおいて代替の冗長フロントエンド・サーバにクライアントが切り替えることをトリガーするために、障害またはリダイレクトのメッセージをクライアントに送信する(204)。障害またはリダイレクトのメッセージは、様々な形態を取ることができる(たとえば、503 Service Unavailableまたは302 Moved Temporarilyなどのリダイレクション応答)。このようにして、フロントエンド・サーバは、サービスを障害または利用不可能な状態をシミュレートするため、クライアントは、冗長経路に完全に切り替えるか、または冗長経路にリダイレクトする(たとえば、代替の冗長フロントエンド・サーバに切り替えることで、代替クラスタに切り替える)。また、クライアントとオリジナルのフロントエンド・サーバとの間のセッションは、クライアントが代替サーバにサービスをリダイレクトすることを優先してサスペンドされる(206)。いくつかの実施形態では、過負荷のサーバは、過負荷の短い期間の間に、代替サーバに少数のサービス要求を単にリダイレクトすることができる。したがって、プライマリ・サーバは、クライアントのトラフィックの大部分を運び続けるが、(過負荷の短い期間の間に品質低下したサービスを伝達するのではなく)サービスの合格品質を保証するために、少数のトランザクションが他のサーバによって扱われる。
上記のように、フロントエンド・サーバは、また、クラスタ回復または要素回復を使用する適切さを決定するためにロジックまたは知能を含むことができる。この点において、図5を参照すると、方法300が示されている。方法300は、ダウンストリーム・ネットワーク要素におけるエラーまたは利用不可能性の検出時に開始される(402)。そのようなエラー検出は、様々な従来のやり方で達成できる場合がある。たとえば、明示的なメッセージまたは暗黙的なインジケータの受信時(たとえば応答タイマのタイムアウト)に、エラーまたは利用不可能性を検出できる場合がある。この時点で、フロントエンド・サーバは回復戦略を決定する(304)。もちろん、少なくとも1つの形態において、フロントエンド・サーバは、要素回復プロセスまたはクラスタ回復プロセスが実行されるかどうかを決定する。この決定は、様々なやり方で達成できる場合がある。たとえば、フロントエンド・サーバは、障害が発生したか、または利用不可能なサーバと交換するデータの量(またはデータ・トラフィック)を考慮に入れることができる。データ交換速度(またはデータ・トラフィック)が比較的低い場合、適応的に、または定期的に設定できるしきい値に基づいて、またはサブルーチンの実行に基づいて、フロントエンド・サーバは、要素回復がシステムのためにより良いことを決定することができる。他の状況では、同様の基準に基づいて、フロントエンド・サーバは、クラスタ回復が実行されることを決定することができる。
要素回復プロセスが決定される場合、フロントエンド・サーバは、障害が発生したネットワーク要素に対応する代替の冗長なネットワーク要素と通信するために単に切り替える(306)。フロントエンド・サーバは、クライアントとのセッションを継続する(308)。
しかし、クラスタ回復が実行されることをフロントエンド・サーバが304で決定する場合、フロントエンド・サーバは、クライアントに障害またはリダイレクトのメッセージを送信する(310)。障害またはリダイレクトのメッセージは、様々な形態を取ることができる(たとえば、503 Service Unavailableまたは302 Moved Temporarilyなどのリダイレクション応答)。もちろん、上記のように、障害またはリダイレクトのメッセージは、冗長な代替のサーバ経路またはクラスタにクライアントがリダイレクトするようにトリガーする。クライアントとフロントエンド・サーバとの間のセッションは、サスペンドされる(312)。上記のように、一部の変形形態では、過負荷のサーバは、過負荷の短い期間の間に、代替サーバに少数のサービス要求を単にリダイレクトすることができる。したがって、プライマリ・サーバは、クライアントのトラフィックの大部分を運び続けるが、(過負荷の短い期間の間に品質低下したサービスを伝達するのではなく)サービスの合格品質を保証するために、少数のトランザクションが他のサーバによって扱われる。
本記載の実施形態の他の変形形態では、3つ以上の要素(たとえばD1/D2、E1/E2など)によるソリューションは、一部の要素障害は要素回復を通じて緩和され、一部はクラスタ回復を通じて緩和されるハイブリッド回復戦略を展開させる。そのようなシナリオでは、図5に示すものに類似した方法を利用することができる。さらに、回復クラスタは、サイト上のすべてのソリューション要素の一式より小さい場合があるため、サイト1の他の要素がサービスを伝達し続ける間に、サイト1の1つの要素の障害は、サイト2の要素の小さな回復クラスタへと一部のサービスを回復できる場合がある。
本記載の実施形態は、特定の例示を用いて示すことができる。この点において、クラスタ回復の優先事項の1つは、最初にローカル・サーバに、ローカル・サーバのいずれも利用可能でない場合はリモート・サーバに、そのサービス要求を送信するように各要素を構成することである。これを達成する1つの方法は、完全修飾ドメイン名(FQDN)プールの各サーバに優先度を割り当てることを可能にする、DNS SRVレコードを用いることである。この構成を用いると、要素に障害が発生し、サービスがリモート・サイトへ切り替えられる場合、その要素はリモート・サイトにある他の要素にそれ自身の要求を送信する。同じサイト内に発生する要素間のほとんどの通信を用いると、遅延は、簡単な要素の切替えほどには増加しない。
上記の例では、C1/C2サーバのFQDNは、このように実装することができる。典型的には、クライアントがサーバB2にフェイルオーバーした場合、サーバB2は、ローカル・サーバC2を自動的に使用する。しかし、クライアントがサーバB1を使用していて、サーバC1に障害が発生するか、または利用不可能になった場合、サーバB1は、サーバC2にその要求を送信し始める。このトラフィックは、地理的にリモートにあるサイト間で流れ、追加の帯域幅が使用され、これらの要求の遅延が増加する。本記載の実施形態によるクラスタのフェイルオーバーを実行するために、たとえば、Cサーバの障害を別に扱うために(本明細書に記述したように)、サーバB1には特別なソフトウェア・ロジックが必要である。サーバC1の障害を検出した後、サーバB1は、代替サーバへの回復またはリダイレクションを開始するようにトリガーするために規定されたクライアントに応答コードを明示的に返す必要がある。たとえば、クライアントとB1との間のプロトコルがSIPである場合、B1サーバは、リモート・サイトへのクライアントのフェイルオーバーをトリガーするために、「503 Service Unavailable」または「302 Moved Temporarily」応答を返すことができる。
様々な上記方法のステップは、プログラムされたコンピュータ(たとえば、制御モジュール103、105、107、109、または111)によって実行できることを当業者なら容易に理解されるであろう。本明細書において、一部の実施形態は、また、機械またはコンピュータで読取り可能、およびエンコード装置で実行可能またはコンピュータで実行可能なプログラム命令である、たとえば、デジタル・データ記憶メディアなど、プログラム記憶装置を包含することを意図するものであり、前記命令は、上記の方法のステップの一部またはすべてを実行する。プログラム記憶装置は、たとえば、デジタル・メモリ、磁気ディスクや磁気テープなどの磁気記憶メディア、ハードドライブ、または光学的に読取り可能なデジタル・データ記憶メディアなどでもよい。また、実施形態は、上記方法の前記ステップを実行するようにプログラムされたコンピュータを包含することを意図するものである。
さらに、ネットワーク要素、クライアント、またはサーバと記載された任意の機能ブロックを含む、図に示す様々な要素の機能は、専用ハードウェア、およびソフトウェアを実行することができ、適切なソフトウェアに関連するハードウェアの使用を通じて提供することができる。プロセッサによって提供される場合、機能は、単一の専用プロセッサによって、単一の共有プロセッサによって、またはその一部を共有することができる、複数の個別のプロセッサによって提供することができる。さらに、「プロセッサ」、「コントローラ」、または「コントローラ・モジュール」という用語の明示的な使用は、ソフトウェアを実行できるハードウェアを排他的に指すものと解釈するべきではなく、デジタル・シグナル・プロセッサ(DSP)ハードウェア、ネットワーク・プロセッサ、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、ソフトウェアを格納するための読取り専用メモリ(ROM)、ランダム・アクセス・メモリ(RAM)、および不揮発性記憶装置を限定することなく、暗黙的に含むことができる。従来型および/またはカスタムの他のハードウェアも含むことができる。同様に、図に示すいずれのスイッチも概念のみを示すものである。それらの機能は、プログラム・ロジックの動作を通じて、専用ロジックを通じて、プログラム制御および専用ロジックの対話を通じて、または手動でも、実行することができ、文脈からより明確に理解されるように、特定の技術を実装者が選択可能である。
上記の記述は、本発明の特定の実施形態の開示を単に提供するものであり、それに限定することを目的として意図するものではない。そのため、本発明は上記の実施形態だけに限定されない。むしろ、当業者なら本発明の範囲に入る代替実施形態を着想し得ることが認識されるであろう。

Claims (10)

  1. ダウンストリーム・ネットワーク要素に接続されたフロントエンド・サーバとのセッションを実行するように動作可能なクライアントと、代替ダウンストリーム・ネットワーク要素に接続された少なくとも1つの代替フロントエンド・サーバとを含んだネットワークにおけるネットワーク要素のサービス回復のための方法であって、
    フロントエンド・サーバによって、ダウンストリーム・ネットワーク要素のエラーまたは利用不可能性を検出するステップと、
    応答コードを前記クライアントに送信して、前記クライアントがサービスを代替フロントエンド・サーバにリダイレクトするか、または代替フロントエンド・サーバで回復するようにトリガーするステップと
    を含む方法。
  2. 前記クライアントと前記フロントエンド・サーバとの間の前記セッションをサスペンドするステップをさらに含む請求項1に記載の方法。
  3. 前記検出するステップは、前記ダウンストリーム・ネットワーク要素からメッセージを受信するステップ、またはタイムアウトした応答タイマを検出するステップのうちの1つを含む請求項1に記載の方法。
  4. ダウンストリーム・ネットワーク要素に接続されたフロントエンド・サーバとのセッションを実行するように動作可能なクライアントと、代替ダウンストリーム・ネットワーク要素に接続された少なくとも1つの代替フロントエンド・サーバとを含んだネットワークにおけるネットワーク要素のサービス回復のための方法であって、
    前記フロントエンド・サーバによって、ダウンストリーム・ネットワーク要素のエラーまたは利用不可能性を検出するステップと、
    要素回復またはクラスタ回復を実行するべきかどうかを決定するステップと、
    要素回復が決定された場合、前記フロントエンド・サーバによって、前記障害が発生したまたは利用不可能なダウンストリーム・ネットワーク要素に対応する代替ダウンストリーム・ネットワーク要素に切り替えるステップと、
    クラスタ回復が決定された場合、前記フロントエンド・サーバによって応答コードを前記クライアントに送信して、前記クライアントがサービスを代替フロントエンド・サーバにリダイレクトするか、または代替フロントエンド・サーバで回復するかをトリガーするステップと
    を含む方法。
  5. 前記クライアントと前記フロントエンド・サーバとの間の前記セッションをサスペンドするステップをさらに含む請求項4に記載の方法。
  6. 前記検出するステップは、前記ダウンストリーム・ネットワーク要素からメッセージを受信するステップ、またはタイムアウトした応答タイマを検出するステップのうちの1つを含む請求項4に記載の方法。
  7. ダウンストリーム・ネットワーク要素に接続されたフロントエンド・サーバとのセッションを実行するように動作可能なクライアントと、代替ダウンストリーム・ネットワーク要素に接続された少なくとも1つの代替フロントエンド・サーバとを含んだネットワークにおけるネットワーク要素のサービス回復のためのシステムであって、
    ダウンストリーム・ネットワーク要素のエラーまたは利用不可能性を検出し、応答コードを前記クライアントに送信して、前記クライアントがサービスを代替フロントエンド・サーバにリダイレクトするか、または代替フロントエンド・サーバで回復するようにトリガーするフロントエンド・サーバの制御モジュール
    を備えるシステム。
  8. 前記ダウンストリーム・ネットワーク要素からメッセージを受信すること、またはタイムアウトした応答タイマを検出することによって前記フロントエンド・サーバは、前記エラーまたは利用不可能性を検出する請求項7に記載のシステム。
  9. ダウンストリーム・ネットワーク要素に接続されたフロントエンド・サーバとのセッションを実行するように動作可能なクライアントと、代替ダウンストリーム・ネットワーク要素に接続された少なくとも1つの代替フロントエンド・サーバとを含んだネットワークにおけるネットワーク要素のサービス回復のためのシステムであって、
    ダウンストリーム・ネットワーク要素のエラーまたは利用不可能性を検出し、要素回復またはクラスタ回復を実行するべきかどうかを決定し、要素回復が決定された場合、前記フロントエンド・サーバによって、前記障害が発生したまたは利用不可能なダウンストリーム・ネットワーク要素に対応する代替ダウンストリーム・ネットワーク要素に切り替え、クラスタ回復が決定された場合、前記フロントエンド・サーバによって応答コードを前記クライアントに送信して、前記クライアントがサービスを代替フロントエンド・サーバにリダイレクトするか、または代替フロントエンド・サーバで回復するかをトリガーするフロントエンド・サーバの制御モジュール
    を備えるシステム。
  10. 前記フロントエンド・サーバは、前記ダウンストリーム・ネットワーク要素からメッセージを受信すること、またはタイムアウトした応答タイマを検出することによって前記エラーまたは利用不可能性を検出する請求項9に記載のシステム。
JP2013539899A 2010-11-17 2011-11-09 ネットワーク要素のサービス回復のための方法およびシステム Expired - Fee Related JP5550793B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/948,452 US9130967B2 (en) 2010-11-17 2010-11-17 Method and system for network element service recovery
US12/948,452 2010-11-17
PCT/US2011/059918 WO2012067910A1 (en) 2010-11-17 2011-11-09 Method and system for network element service recovery

Publications (2)

Publication Number Publication Date
JP2014504392A true JP2014504392A (ja) 2014-02-20
JP5550793B2 JP5550793B2 (ja) 2014-07-16

Family

ID=45065963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013539899A Expired - Fee Related JP5550793B2 (ja) 2010-11-17 2011-11-09 ネットワーク要素のサービス回復のための方法およびシステム

Country Status (6)

Country Link
US (1) US9130967B2 (ja)
EP (1) EP2641385A1 (ja)
JP (1) JP5550793B2 (ja)
KR (1) KR101513863B1 (ja)
CN (1) CN103222253B (ja)
WO (1) WO2012067910A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004462A (ja) * 2014-06-18 2016-01-12 株式会社Nttドコモ データベースシステム及び運用切替方法
JP7209784B1 (ja) 2021-08-23 2023-01-20 三菱電機株式会社 冗長化システム及び冗長化方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856585B2 (en) * 2011-08-01 2014-10-07 Alcatel Lucent Hardware failure mitigation
US8935561B2 (en) * 2012-02-23 2015-01-13 City University Of Hong Kong Progressive network recovery
GB2499822B (en) * 2012-02-29 2020-01-08 Metaswitch Networks Ltd Failover processing
US9344458B2 (en) * 2012-07-16 2016-05-17 eZuce, Inc. Providing unified communications services
CN103118055A (zh) * 2012-10-10 2013-05-22 中兴通讯股份有限公司 一种多媒体接入的方法和设备
KR102296903B1 (ko) * 2015-02-25 2021-09-01 에스케이플래닛 주식회사 클라우드 스트리밍 서비스 시스템의 에러 복구 장치 및 방법
CN105099754B (zh) * 2015-05-29 2018-05-11 新华三技术有限公司 网络设备以及用于网络设备交互的方法
US11573947B2 (en) * 2017-05-08 2023-02-07 Sap Se Adaptive query routing in a replicated database environment
US10901874B2 (en) * 2018-05-18 2021-01-26 Sony Interactive Entertainment LLC Shadow testing
US10691582B2 (en) 2018-05-29 2020-06-23 Sony Interactive Entertainment LLC Code coverage
US11297032B2 (en) * 2019-02-08 2022-04-05 ColorTokens, Inc. Method for detecting user migration from enterprise network to non-enterprise network and a device thereof
EP3847843A4 (en) * 2019-05-20 2021-11-24 Samsung Electronics Co., Ltd. METHODS AND SYSTEMS FOR RECOVERING NETWORK ELEMENTS IN A COMMUNICATION NETWORK
KR102247247B1 (ko) * 2019-06-05 2021-05-03 주식회사 티맥스티베로 데이터베이스 관리 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003022259A (ja) * 2001-07-06 2003-01-24 Mitsubishi Electric Corp クライアントサーバ制御システム
JP2006228243A (ja) * 2006-03-28 2006-08-31 Fujitsu Ltd サーバ装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182139B1 (en) * 1996-08-05 2001-01-30 Resonate Inc. Client-side resource-based load-balancing with delayed-resource-binding using TCP state migration to WWW server farm
US6421688B1 (en) * 1999-10-20 2002-07-16 Parallel Computers Technology, Inc. Method and apparatus for database fault tolerance with instant transaction replication using off-the-shelf database servers and low bandwidth networks
US6625750B1 (en) * 1999-11-16 2003-09-23 Emc Corporation Hardware and software failover services for a file server
US6560717B1 (en) 1999-12-10 2003-05-06 Art Technology Group, Inc. Method and system for load balancing and management
US7574499B1 (en) * 2000-07-19 2009-08-11 Akamai Technologies, Inc. Global traffic management system using IP anycast routing and dynamic load-balancing
US7035921B1 (en) * 2000-11-14 2006-04-25 Hewlett-Packard Development Company, L.P. Method of and apparatus for providing web service using a network of servers
CN1154270C (zh) * 2001-07-06 2004-06-16 华为技术有限公司 移动通讯系统中无线业务的计费网关多重重定向实现方法
US7987501B2 (en) * 2001-12-04 2011-07-26 Jpmorgan Chase Bank, N.A. System and method for single session sign-on
US7152180B2 (en) 2002-12-06 2006-12-19 Ntt Docomo, Inc. Configurable reliable messaging system
JP4294353B2 (ja) * 2003-03-28 2009-07-08 株式会社日立製作所 ジョブ管理機能を有するストレージ系障害管理方法及び装置
US20050193257A1 (en) * 2004-02-06 2005-09-01 Matsushita Avionics Systems Corporation System and method for improving network reliability
WO2006017102A2 (en) 2004-07-13 2006-02-16 Teneros, Inc. Transparent service provider
US8266473B2 (en) 2005-03-10 2012-09-11 Telecom Italia S.P.A. Disaster recovery architecture
US20060271812A1 (en) * 2005-05-26 2006-11-30 David Horton Systems and methods for providing redundant application servers
JP4939102B2 (ja) * 2006-04-21 2012-05-23 株式会社日立製作所 ネットワークブート計算機システムの高信頼化方法
US7434096B2 (en) * 2006-08-11 2008-10-07 Chicago Mercantile Exchange Match server for a financial exchange having fault tolerant operation
EP2109827B1 (en) 2007-02-15 2015-06-24 Tyco Electronics Subsea Communications Llc Distributed network management system and method
US8201016B2 (en) 2007-06-28 2012-06-12 Alcatel Lucent Heartbeat distribution that facilitates recovery in the event of a server failure during a user dialog

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003022259A (ja) * 2001-07-06 2003-01-24 Mitsubishi Electric Corp クライアントサーバ制御システム
JP2006228243A (ja) * 2006-03-28 2006-08-31 Fujitsu Ltd サーバ装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016004462A (ja) * 2014-06-18 2016-01-12 株式会社Nttドコモ データベースシステム及び運用切替方法
JP7209784B1 (ja) 2021-08-23 2023-01-20 三菱電機株式会社 冗長化システム及び冗長化方法
JP2023030364A (ja) * 2021-08-23 2023-03-08 三菱電機株式会社 冗長化システム及び冗長化方法

Also Published As

Publication number Publication date
CN103222253A (zh) 2013-07-24
CN103222253B (zh) 2016-03-16
KR20130088172A (ko) 2013-08-07
KR101513863B1 (ko) 2015-04-21
US20120124413A1 (en) 2012-05-17
EP2641385A1 (en) 2013-09-25
US9130967B2 (en) 2015-09-08
JP5550793B2 (ja) 2014-07-16
WO2012067910A1 (en) 2012-05-24

Similar Documents

Publication Publication Date Title
JP5550793B2 (ja) ネットワーク要素のサービス回復のための方法およびシステム
US8239705B2 (en) Method and apparatus for managing communication services for user endpoint devices
JP5872731B2 (ja) クラスタの複数のノードのそれぞれに対してリンクの障害の検出を伝えるためのコンピュータ実装方法、非一時的なコンピュータ可読媒体およびコンピュータシステム
JP2010531618A (ja) リアルタイムプロトコルストリームマイグレーション
EP1955506B1 (en) Methods, systems, and computer program products for session initiation protocol (sip) fast switchover
US20140359340A1 (en) Subscriptions that indicate the presence of application servers
KR20130096297A (ko) 중복 서버 구성에서의 클라이언트 복구 전략을 위한 방법 및 시스템
EP1847110A2 (en) Resilient registration with a call manager
WO2013015777A1 (en) Transferring a conference session between conference servers due to failure
CN102177690A (zh) 在电信网络中提供镇静服务的方法、系统和计算机可读介质
US20140006630A1 (en) Session initiation protocol (sip) for message throttling
US20160050102A1 (en) Mechanism for rapid network failure detection for faster switch-over in server-to-server applications
CN106797330A (zh) 用于监测内容递送网络(cdn)的方法、业务监测器(tm)、请求路由器(rr)和系统
CN101702712B (zh) 一种探测技术与语音呼叫备份联动方法及装置
US8930768B2 (en) System and method of failover for an initiated SIP session
US9749825B2 (en) Connection-oriented messaging and signaling in mobile heath networks
WO2014117612A1 (zh) 一种消息异步容错方法、装置及设备
JP2005301436A (ja) クラスタシステムおよびクラスタシステムにおける障害回復方法
EP2815549B1 (en) Method and apparatus for improved handling of ims node blacklisting
CN113163029B (zh) 网络会话账号部署方法、装置、终端、服务器及存储介质
WO2020222683A1 (en) Load balancing systems and methods
CN104009873A (zh) 网络小型计算机系统接口的处理方法及装置
Kim On SIP Server Clusters and the Migration to Cloud Computing Platforms
CN113595760A (zh) 一种系统故障的处理方法和装置
CN118353809A (zh) 一种全局负载均衡实现快速检测切换服务的方法与系统

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140422

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140520

R150 Certificate of patent or registration of utility model

Ref document number: 5550793

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees