JP2017509262A - ネットワーク障害のトラブルシューティング・オプションの識別 - Google Patents

ネットワーク障害のトラブルシューティング・オプションの識別 Download PDF

Info

Publication number
JP2017509262A
JP2017509262A JP2016558574A JP2016558574A JP2017509262A JP 2017509262 A JP2017509262 A JP 2017509262A JP 2016558574 A JP2016558574 A JP 2016558574A JP 2016558574 A JP2016558574 A JP 2016558574A JP 2017509262 A JP2017509262 A JP 2017509262A
Authority
JP
Japan
Prior art keywords
alarm
failure
troubleshooting
network
operator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016558574A
Other languages
English (en)
Other versions
JP6959736B2 (ja
JP2017509262A5 (ja
Inventor
ジャイン,ナヴェンデュ
ポタラジュ,ラフル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2017509262A publication Critical patent/JP2017509262A/ja
Publication of JP2017509262A5 publication Critical patent/JP2017509262A5/ja
Application granted granted Critical
Publication of JP6959736B2 publication Critical patent/JP6959736B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0686Additional information in the notification, e.g. enhancement of specific meta-data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0876Aspects of the degree of configuration automation
    • H04L41/0886Fully automatic configuration

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)
  • Debugging And Monitoring (AREA)

Abstract

ここに記載するものは、データ・センターのオペレータに対して、データ・センターにおける障害に関する補助を提供することに関する様々な技術である。アラームが受信され、該アラームの内容に基づき障害デバイスが識別される。アラームの障害状況は、障害デバイスが呈することがある障害症状にマッピングされ、該障害症状を軽減するために以前に用いられたトラブルシューティング・オプションが履歴データから読み出される。ラベルがそれぞれトラブルシューティング・オプションに割り当てられ、ここで、ラベルは、当該ラベルの割り当て有られたトラブルシューティング・オプションが、障害症状を軽減するであろう確率を示すものである。

Description

[0001]データ・センターはコンピューティング・デバイスを集めたもの(collection)であり、これらコンピューティング・デバイスは、ネットワークを通じて互いに通信し、コンピューティング・サービス及びデータ・ストレージ・サービスの一方又は双方を1人又は複数のエンド・ユーザに提供するように共同して動作し、ここで、1人のエンド・ユーザは個人や企業等でありうる。従って、データ・センターは、多数のコンピューティング・デバイスと、ルータ、リルータ(re−routers)、スイッチ、ゲートウェイ、ファイアウォール、仮想プライベート・ネットワーク(VPN)、ブリッジ等の多数のネットワーク・インフラストラクチャ・デバイスと、コンピューティング・デバイスとネットワーク・インフラストラクチャ・デバイスとの間の通信リンクと、ネットワーク・インフラストラクチャ・デバイス間の通信リンクとを含む。上述のサービスを提供するとき、データは、ネットワークを通じて、データ・センター内のコンピューティング・デバイス間で伝送される。ネットワーク・インフラストラクチャ・デバイスは、ネットワークを流れるトラフィックを方向付けるように構成されている。
[0002]従来のデータ・センターにおいて、ネットワーク・インフラストラクチャ・デバイスは、比較的高価な傾向のあるハイエンド・デバイスを含む。しかしながら、最近、データ・センターに関連した資本コストを削減するために、データ・センターは、多数のコモディティ(例えば、オフザシェルフ)ネットワーク・インフラストラクチャ・デバイスを含むように構成されるようになった。これらコモディティ・デバイスは、「ハイエンド」デバイスよりもコストを低くする一方で、ハイエンド・デバイスよりも幾分信頼性が低い傾向があり、その結果、中断のないサービスを保証するためのデータ・センターのオペレータの負荷が増大している。しかしながら、データ・センター内のネットワーク・インフラストラクチャ・デバイスは、多数の異なるメーカー(manufacturer)によって製造されることがあること、データ・センター内のコンピューティング・デバイス及びネットワーク・デバイスの一方又は双方に、異なるオペレーティング・システムがインストールされる場合があること、メーカーは、同じタイプのデバイスの異なるモデルを作成する場合があること等により、ネットワーク障害の解決は、複雑で、従って時間のかかる場合がある。従って、従来のデータ・センターにおいては著しい量の多様性(heterogeneity)がある。
[0003]比較的大規模なデータ・センターにおいて、エンド・ユーザに約束されたコンピューティング・サービス及びストレージ・サービスが(例えばサービス・レベル・アグリーメントにおいて)満たされることを保証するために、オペレーション・チームが雇用される。従って、ネットワーク・デバイス(例えば、コンピューティング・デバイス又はネットワーク・インフラストラクチャ・デバイス)がアラームを発生させたとき、そのアラームは、オペレーション・チームのオペレータがモニタするオペレータ・コンソールに向けられる。オペレータは、アラームを再検討し、個人の知識と経験(及び場合によっては何らかの静的ガイドライン)に基づいて、アラームが示す障害を、(原因を突き止めるというよりも)単に軽減させること又は(問題の根本的原因を突き止めることにより)修正することの何れかをしようと、トラブルシューティング及びデバッグを行う。このアプローチは、比較的小規模なデータ・センターでは適切でありうるが、当該アプローチはスケールしない。例えば、データ・センターは、数十万ものコンピューティング・デバイスと数千ものネットワーク・インフラストラクチャ・デバイスを含むようにスケーリングされる。特定のイベントが生じたとき、多数のアラームが、データ・センター内のデバイスにより比較的短い時間に発生する可能性がある。オペレータは、これらアラームを解析し、どのアラームについて最初に対処すべきかの優先順位を付け、次に、典型的には、(事前に定められた人間が作成したガイドラインにより行われる可能性のある)トライアルアンドエラー・アプローチを用いて優先順位が高いと信じられるアラームに対処しなければならない。可能性あるネットワーク問題の比較的高い複雑さにより、オペレータは、トラブルシューティングの長期にわたる時間ウィンドウを必要とする場合があり、このことは、サービス・ダウンタイムを生じさせることがある。
[0004]以下は、ここにより詳細に記載する主題事項の概要である。この概要により請求項の範囲を限定する意図はない。
[0005]ここに記載するものは、データ・センターにおけるネットワーク障害を解決するために用いることが可能な、可能性あるトラブルデューティング・オプション及び解決ステップの識別に関する様々な技術である。これらトラブルシューティング・オプション及び解決ステップはオペレータに提供され、オペレータは、当該トラブルシューティング・オプション及び解決ステップを消費し、提供されたトラブルシューティング・オプション及び解決ステップを用いてネットワーク障害を解決することが可能である。ここに更に記載するものは、データ・センター内のデバイスが発生させたアラームに基づいてネットワーク障害に優先順位を付けることに関する様々な技術であり、アラームのトリアージ(triaging alarms)を手助けするよう、オペレータには優先順位の付けられたリストを表面化する(surfaced)ことが可能である。
[0006]データ・センターは、ネットワーク接続された複数のコンピューティング・デバイスを含み、データは、これらコンピューティング・デバイス間を、ネットワーク・リンクを通じて、特に、ルータ、コルータ(co−routers)、スイッチ、ロード・バランサ、ファイアウォール、仮想プライベート・ネットワーク(VPN)等の複数のネットワーク・インフラストラクチャ・デバイスによって伝送することができる。コンピューティング・デバイス及びネットワーク・インフラストラクチャ・デバイスの一方又は双方(集合的に「デバイス」という。)は、ネットワーク障害を示すアラームを発生させるように構成することができる。例えば、スイッチは、該スイッチと別のデバイスとの間のリンクのダウンを検出したときに、アラームを発生させるように構成することができる。アラームは受信され、アラームがアクション可能な(actionable)ネットワーク・イベント(例えば、解決すべきネットワーク障害)を示すかどうかの判定がなされる。アラームが解決可能なネットワーク障害を示すと判定されると、障害状況及び関連するテレメトリ・データを、特に、以下の(1)〜(5)のうちの1以上について経験した、観測された症状のセットにマッピングすることが可能である:(1)障害デバイス又はリンク;(2)障害デバイスのプラットフォーム;(3)ネットワーク・トポロジにおいて障害デバイスに近傍のデバイス;(4)障害デバイスとプロパティを共有するデバイス;(5)障害デバイスと同じデータ・センター内のデバイス。従って、少なくとも1つの症状(例えば、「デバイス・ダウン」、「リンク・フラッピング」、「高いCPU利用率」、…)を障害デバイス又はリンクについて識別することが可能である。
[0007]障害デバイス又はリンクについて症状を識別することに応答して、ネットワーク障害を解決する可能性のある複数の推奨トラブルシューティング・オプションを識別することが可能である。これらトラブルシューティング・オプションは、障害デバイス又はリンク、障害デバイスのタイプ、障害デバイスのプラットフォーム等に関するネットワーク障害を解決するために、過去に観測された以前のトラブルシューティング・オプションに基づくことが可能である。トラブルシューティング・オプションは、ぞれぞれ、割り当てられたラベルを有することが可能であり、これらラベルは、そのトラブルシューティング・オプションが、オペレータにより採用された(taken)ときに、アラームが示すネットワーク障害を解決するであろう確率をそれぞれ示すものである。ラベルは、障害デバイス又はリンク、障害デバイスのタイプ、障害デバイスのプラットフォーム等に関してとられた(undertaken)ときの、トラブルシューティング・オプションの過去の成功又は失敗に基づいて識別することが可能である。従って、オペレータには、ネットワーク障害を解決するためのトラブルシューティング・オプションと、これらトラブルシューティング・オプションにそれぞれ割り当てられたラベルとのリストを提供することが可能であり、これらラベルは、そのトラブルシューティング・オプションがネットワーク障害を解決するであろう確率をそれぞれ示すものである。更に、オペレータは、(例えばドメイン・エキスパートにより提供される経験又は知識からの)ドメイン知識を、トラブルシューティング・オプションの確率と組み合わせて用いて、障害を解決するために行うアクションのシーケンスを決定することが可能である。
[0008]更に、トラブルシューティング・オプションのリスト内の1つのトラブルシューティング・オプションについて、オペレータに複数のデバッギング・ステップを提示することが可能であり、これらデバッギング・ステップには、デバッギング・ステップがネットワーク障害を直すであろう確率をそれぞれ示すラベルを割り当てることが可能である。非限定的な例において、ネットワーク・インフラストラクチャ・デバイスは、ダウンストリーム・ネットワーク・インフラストラクチャ・デバイスがハートビート・リクエストにリプライしていないことを示すアラームを出力することが可能である。このアラームを受信し、当該アラームにおける障害状況を以前に観測された症状「デバイス・ダウン」にマッピングすることが可能である。そのような症状について、それぞれの障害を解決する確率によりランク付けされた以下の3つのトラブルシューティング・オプションをオペレータに提示することが可能である:(1)「ケーブルをチェックせよ」;(2)「電源をチェックせよ」;(3)「ネットワーク・カードをチェックせよ」。これらトラブルシューティング・オプションに割り当てられたラベルは、第1のトラブルシューティング・オプションがネットワーク障害を解決する可能性が最も高く、第2のトラブルシューティング・オプションがネットワーク障害を解決する可能性が2番目に高く、第3のトラブルシューティング・オプションがネットワーク障害を解決する可能性が3番目に高いことを示すことが可能である。更に、トラブルシューティング・オプションのリスト内の1つのトラブルシューティング・オプションについて、少なくとも1つのデバッギング・ステップをオペレータに提供することが可能である。例えば、トラブルシューティング・オプション「ケーブルをチェックせよ」について、2つの可能性あるデバッギング・ステップをオペレータに提示することが可能である。各デバッギング・ステップには、当該デバッギング・ステップがネットワーク障害を解決するであろう確率を示すラベルをそれぞれ割り当てることができる。例えば、「ケーブルを付け直せ(reseat)」及び「ケーブルを清掃せよ」のデバッギング・ステップをデバッギング・ステップとして提示することができ、第1のデバッギング・ステップは、第2のデバッギング・ステップよりもネットワーク障害を直す可能性が高いものとして示すことができる。可能性を示すものは、障害デバイス若しくはリンク又は障害デバイス若しくはリンクに関係したリンク若しくはデバイスについてデータ・センターのオペレータにより以前にとられた、観測されたデバッギング・ステップに基づいて計算された確率の関数であることができる。
[0009]データドリブン・アプローチを用いて、トラブルシューティング・オプション及びデバッギング・ステップを識別し、トラブルシューティング・オプション及びデバッギング・ステップにそれぞれのラベルを割り当てることができる。例えば、オペレータが、ネットワーク障害を、あるトラブルシューティング・オプション及び対応するデバッギング・ステップにより解決すると、オペレータは、症状が正しく識別されていたかを示すフィードバックを提供することができ、どのトラブルシューティング・オプションが選択されたかを識別することができ、どのデバッグ・オプションを用いてネットワーク障害を解決したかを識別することができる。従って、(障害デバイス又はリンク、障害デバイスのタイプ、障害デバイスのプラットフォーム等に関する)異なるアラームを後で受信したときに、障害状況を症状に適切にマッピングすることができ、トラブルシューティング・オプション及びデバッギング・ステップにそれぞれ割り当てられたラベルを、このフィードバックに基づき更新することができる。従って、時間が経過するにつれ、トラブルシューティング・オプション及びデバッギング・ステップの的確さ(accuracy)を向上させることができる。
[0010]更に、ここに記載するであろうように、複数のアラームをただ1つの(singular)ネットワーク障害を表すようにグループ化することができ、ネットワーク障害に優先順位を付けることができる。即ち、低レベル・ネットワーク・アラームを分離して扱う代わりに、ただ1つのネットワーク障害を表すようにアラームを互いに相関させる(グループ化する)ことができる。一例に従うと、このグループ化は以下の3つの基準に基づくことができる:(1)時間;第1のデバイスが発生させた第1のアラームは、第1のデバイス又は同じインターフェース上の第2のデバイスが直近に(recently in time)発生させた第2のアラームとグループ化することができる;(2)場所;第1のアラームは、ネットワークにおいて第1のデバイスの近傍である(例えば、階層的ネットワーク・トポロジにおいて1〜2ホップ上流であるか下流である)第2のデバイスが発生させた第2のアラームとグループ化することができる;(3)冗長グループ;第1のアラームは、(例えば、フェールオーバ・プロトコルに関連する問題を示す可能性のある)第1のデバイスと同じ冗長グループ内の第2のデバイスが発生させた第2のアラームとグループ化することができる。ネットワーク障害を表すアラームのグループ化は、現在のネットワーク障害のカテゴリ化及びランク付けのために用いることができ、それにより、大きなビジネス上の影響を生じさせるであろうネットワーク障害に、低いビジネス上の影響を生じさせるネットワーク障害よりも高い優先順位を付けることが可能である。
[0011]上記概要は、ここに論じるシステム及び方法の一方又は双方の幾つかの態様の基礎的な理解を提供するための、単純化された概要を表している。この概要は、ここに論じるシステムおよび方法の一方又は双方の外延的な要旨ではない。鍵となる/クリティカルな要素を識別することも、当該システム及び方法の一方又は双方の範囲の輪郭を描くことも意図していない。その唯一の目的は、後に提示するより詳細な記載の前置きとしての、単純化された形態の幾つかの概念を提示することにある。
データ・センターの例示の部分を図解している。 例示のデータ・センターのアーキテクチャを図解している。 例示の解決システムの機能ブロック・ダイアグラムであり、例示の解決システムは、データ・センター内のネットワーク・デバイスが発生させたアラームを受信し、アラームの受信に応答してトラブルシューティング・オプション及びデバッギング・ステップを出力する。 解決システムに含まれる例示の解決識別(identifier)コンポーネントの機能ブロック図である。 例示の障害履歴テーブルである。 アラームが示すネットワーク障害を解決するための、可能性あるトラブルシューティング・オプション及びデバッギング・ステップを描写した例示のグラフィカル・ユーザ・インターフェースである。 解決システムにオプションで含まれる例示のアラーム優先順位付け(prioritizer)コンポーネントを図解している。 トラブルシューティング・オプションを出力するための例示の技法を図解したフロー・ダイアグラムであり、このトラブルシューティング・オプションは、ネットワーク・デバイスが発生させたアラームにより示されるネットワーク障害を解決するためのものである。 最初に関係アラームをグループ化し、次にネットワーク障害のランク付けされたリストを出力するための例示の技法を図解したフロー・ダイアグラムである。 データ・センターに関する履歴データをオペレータのフィードバックに基づいて更新するための例示の技法を図解したフロー・ダイアグラムである。 例示のコンピューティング・システムである。
[0023]データ・センターにおけるネットワーク障害の解決に関する様々な技術を、図面を参照してこれから記載し、一貫して同様の参照番号は同様の要素を参照するように使用している。以下の記載において、説明の目的で、1つ又は複数の態様の深い理解を提供するために、多数の特定の詳細を記載する。しかしながら、そのような態様は、これら特定の詳細を伴わずに実施されうることは明らかであろう。他の例では、1つ又は複数の態様の記載を手助けするために、ブロック・ダイアグラムの形態において周知の構成及びデバイスを示している。更に、あるシステム・コンポーネントにより実行されるものとして記載された機能は、複数のコンポーネントにより実行されうることを理解されたい。同様に、例えば、1つのコンポーネントは、複数のコンポーネントにより実行されるものとして記載された機能を実行するように構成することができる。
[0024]更にまた、用語「又は(若しくは)」は、排他的な(exclusive)「又は(若しくは)」ではなく両立的な(inclusive)「又は(若しくは)」を意味することを意図している。即ち、そうでないと特定されない場合、又は、文脈から明らかでない場合、フレーズ「XはA又はBを用いる」は、自然な両立的順列(natural inclusive permutations)のうちの何れかを意味することを意図している。即ち、フレーズ「XはA又はBを用いる」は、以下の場合の何れかにより満たされる:XはAを用いる;XはBを用いる;XはA及びBの双方を用いる。更に、本願及び添付の請求項において用いられる1つを表す冠詞(the articles “a” and “an”)は、そうでないと特定されない場合、又は、文脈から単数形を指示することが明らかでない場合、一般的に、「1つ又は複数」を意味すると解釈すべきである。
[0025]更に、ここに使用されている用語「コンポーネント」及び「システム」は、コンピュータ実行可能命令とともに構成されたコンピュータ可読データ・ストレージを包含することを意図しており、コンピュータ実行可能命令は、プロセッサにより実行されると、ある機能を実行させるものである。コンピュータ実行可能命令は、ルーチン、関数等を含むことがある。また、コンポーネント又はシステムは、単一のデバイスに局在していることも、幾つかのデバイスに分散していることもあることを理解されたい。更に、ここに使用されている用語「例示の」は、何かの図解又は例として機能するものを意味することを意図しており、好適なものを示すことを意図していない。
[0026]今、図1を参照すると、例示のデータ・センター100の一部(以下、データ・センター100という。)が図解されている。データ・センター100は、エンド・ユーザ102にサービスを提供するよう構成されており、そのようなサービスはコンピュート・サービス及びストレージ・サービスの一方又は双方であることができ、エンド・ユーザ102は個人、企業等であることができる。一例において、データ・センター100は、特定の企業が所有する企業データ・センターであり、企業に対してコンピュート及びストレージ・サービスを提供することができる。そのようなシチュエーションにおいて、エンド・ユーザ102は企業において働く個人、企業の部署等であることができる。別の例において、データ・センター100は第1の会社により運営され、エンド・ユーザ102は第2の会社であることができる(例えば、第1の会社は、データ・ストレージ及びコンピューティング・リソースを第2の会社にリースする)。また別の例において、データ・センター100は会社によって運営されてよく、エンド・ユーザ102は個人であってよい。データ・センター100により提供することが可能な例示のコンピューティング・サービス及びストレージ・サービスの一方又は双方は、電子メール・サービス、サーチ・サービス、ストレージ、オンライン・サービス等を含むことができる。一例において、エンド・ユーザ102は、コンピューティング・デバイス103を操作し、コンピューティング・デバイス103によりデータをデータ・センター100に送信し、データをデータ・センター100から受信することができ、コンピューティング・デバイス103は、デスクトップ・コンピューティング・デバイス、モバイル・コンピューティング・デバイス(例えば、ラップトップ・コンピューティング・デバイス、携帯電話、スレート・コンピューティング・デバイス、ウェアラブル・コンピューティング・デバイス等)、サーバ等を含むがこれらに限定されない任意の適切なタイプのコンピューティング・デバイスであることができる。
[0027]データ・センター100は、複数のコンピューティング・デバイス104〜110を含み、コンピューティング・デバイス104〜110は、サーバ、専用ストレージ・デバイス等を含んでよい。コンピューティング・デバイス104〜110は、アクション(例えば、データの記憶、データの処理及びデータの伝送のうちの1以上)を、エンド・ユーザ102のコンピューティング・デバイス103からのリクエストに基づいて行うように構成されている。例えば、エンド・ユーザ102は、第1のコンピューティング・デバイス104のストレージ内のコンテンツのサーチの実行をリクエストすることができ、第1のコンピューティング・デバイス104は、データ・センター100によるリクエストの受信に応答して、サーチを実行しサーチ結果を出力するように構成することができる。別の例において、第2のコンピューティング・デバイス106は、サーチ・エンジン・インデックスの一部を記憶することができ、サーチ・エンジン・インデックスの一部をデータ・センター100(又は別のデータ・センター)内の別のコンピューティング・デバイスに、コンピューティング・デバイス103からのそれを行うリクエストの受信に応答して送信するように構成することができる。
[0028]データ・センター100は、複数のネットワーク・インフラストラクチャ・デバイス114〜120を更に含む。ネットワーク・インフラストラクチャ・デバイス114〜120は、データ・センター100内のコンピューティング・デバイス104〜110のうちのコンピューティング・デバイス間のデータの伝送を手助けし、データ・センター間のデータの伝送を手助けし、エンド・ユーザ102により操作されるコンピューティング・デバイス103とコンピューティング・デバイス104〜110との間のデータの伝送を手助けするように構成される。図1に描写された例示のデータ・センター100において、ネットワーク・インフラストラクチャ・デバイス114〜120は、2つのスイッチ114及び116と、ルータ118と、ファイアウォール120とを含む。データ・センター100内のデバイス(ここで、「デバイス」は、コンピューティング・デバイス及びネットワーク・インフラストラクチャ・デバイスを集合的に参照している)は、ネットワーク・リンクにより互いに通信するように結合している。従って、例えば、第1のコンピューティング・デバイス104はスイッチ114と第1のネットワーク・リンクにより通信するように結合され、第2のコンピューティング・デバイス106はスイッチ114と第2のネットワーク・リンクにより通信するように結合され、スイッチ114はルータ118と第3のネットワーク・リンクにより通信するように結合される、等である。データ・センター100は比較的小さな数のデバイスを含むものとして示されているが、あるデータ・センターは、数千ものコンピューティング・デバイス及び数千ものネットワーク・インフラストラクチャ・デバイスを含む場合があることは理解されたい。更に、ネットワーク・インフラストラクチャ・デバイス114〜120は、ハードウエア及びソフトウエアベースのデバイスの一方又は双方を含むことができる。例えば、ルータ118は、コンピューティング・デバイスにより実行されるソフトウエアベースのルータであってよい。同様に、ファイアウォール120は、ハードウエア・ルータ又はコンピューティング・デバイスにおいて実行されるソフトウエア・ファイアウォールであってよい。
[0029]コンピューティング・デバイス104〜110及びネットワーク・インフラストラクチャ・デバイス114〜120のうちの1以上は、複数のアラームを、あるそれぞれのイベントが検出されたときに出力するように構成することができる。例えば、ルータ118は、ハートビート・リクエスト(例えば、メッセージに対するリプライのリクエスト)を特定のコンピューティング・デバイスに向けて出力し、ハートビートの送信から閾値時間内に1つ又は複数の応答を受信できないときに、アラームを出力するように構成することができる。別の例において、データ・センター100の内部で動いている分散プロセスのセット(「ランナー」又は「ウォッチドッグ」という。)又はデータ・センター100の外部で動いている分散処理のセットは、ハートビート・リクエストをサービス、サーバ又はコンピューティング・デバイスに、このサービス、サーバ又はコンピューティング・デバイスがエンド・ユーザの視点から利用可能であることを保証するための合成(synthetic)マイクロ・トランザクションのセットを実行することに加えて周期的に送る(例えば、メール・サービスが適正に動いていることをチェックするための小さなテスト・メールを送る)ことができる。ハートビート・リクエストに対する応答を受信しないときに、アラームを発生させることができる。従って、アラームは、ネットワーク障害、例えば、コンピューティング・デバイスがダウンしているか又はルータ118と特定のコンピューティング・デバイスとの間のネットワーク・リンクがダウンしていることを示すことができる。別の例において、スイッチ114は、スイッチ114を通過するデータ・ボリュームが事前に定められた閾値に達したときに、アラームを発生させるように構成することができる。
[0030]解決システム122は、コンピューティング・デバイス104〜110及びネットワーク・インフラストラクチャ・デバイス114〜120のうちの1以上が発生させたアラームを受信し、ネットワーク・オペレータ126が用いるオペレータ・ステーション124にデータを出力して、少なくとも1つのアラームが示すネットワーク障害の解決においてネットワーク・オペレータ126を補助する。ここにより詳細に記載するであろうように、解決システム122は、ネットワーク障害を、受信した少なくとも1つのアラームに基づいて識別することができ、このネットワーク障害の解決のために複数の可能性あるトラブルシューティング・オプションを識別することができる。トラブルシューティング・オプションは、オペレータが行うことのできる高レベル・チェック、例えば、「ネットワーク・カードをチェックせよ」、「ケーブルをチェックせよ」等として把握することができる。更に、解決システム122は、それぞれのラベルをトラブルシューティング・オプションに割り当てることが可能であり、ここで、ラベルは、ネットワーク・オペレータ126によってとられたときにそのトラブルシューティング・オプションがネットワーク障害を解消するであろう確率をそれぞれ示すものである。ここにより詳細に記載するであろうように、解決システム122は、トラブルシューティング・オプション及びそれぞれのラベルを、ネットワーク・オペレータ126(又はデータ・センター100のオペレーション・チームの他のオペレータ)により類似のネットワーク障害(例えば、類似の症状を伴うネットワーク障害)を解決するためにとられた以前のトラブルシューティング・オプションに基づいて識別することができる。
[0031]従って、オペレータ126には、ネットワーク障害を解決するためにオペレータ126が進める(step through)ことが可能なトラブルシューティング・オプションの優先順位の付けられたリストが提供される。更にまた、1つのトラブルシューティング・オプションは、割り当てられた1つ又は複数のデバッギング・ステップを有することができ、1つのデバッギング・ステップは、(トラブルシューティング・オプションと比較して)より粒度の細かい命令を、オペレータ126に、ネットワーク障害を解決するために提供する。一例において、オペレータ126が特定のトラブルシューティング・オプションを選んだときに、デバッギング・ステップのリストをオペレータ126に提示することができる。更に、各デバッギング・ステップは、割り当てられたそれぞれのラベルを有することができ、ここで、ラベルは、(トラブルシューティング・オプションが正しいオプションであると仮定して)当該デバッギング・オプションが、識別されたネットワーク障害を解決するであろう確率を示すものである。オペレータ126の観点から、オペレータ126にはトラブルシューティング・オプションのリストが提供され、オペレータ126はそのリストから特定のトラブルシューティング・オプション(例えば、ネットワーク障害を解決する最高の確率に関連するトラブルシューティング・オプション)を選択することが可能であり、次に、確率の順にデバッギング・ステップを実行することが可能である。加えて、オペレータ126には、トラブルシューティング・オプション及びデバッギング・ステップの一方若しくは双方がとられた回数、並びに、トラブルシューティング・オプション及びデバッギング・ステップの一方若しくは双方が成功した回数の一方又は双方を示すカウントを更に提供することができる。例えば、2つのトラブルシューティング・オプションに、等しい確率(例えば、50%)を割り当てることができる。しかしながら、第1のトラブルシューティング・オプションに割り当てられた第1のラベルは、そのトラブルシューティング・オプションが2回とられ、1回成功したことを示すことができる一方、第2のトラブルシューティング・オプションに割り当てられた第2のラベルは、そのトラブルシューティング・オプションが1,000回選択され、500回成功したことを示すことができる。オペレータ126がネットワーク障害を解決すると、オペレータ126は、(もしあれば)どのトラブルシューティング・オプション及び(もしあれば)どのデバッギング・ステップがネットワーク障害を解決したのかについてのフィードバックを解決システム122に提供することができる。このフィードバックを、解決システム122は、後のアラームを受信したときに用いることができ、トラブルシューティング・オプション、デバッギング・ステップ及び対応するラベルは、このフィードバックに基づくことができる。従って、解決システム122は、データドリブン・アプローチを用いてネットワーク障害解決命令をオペレータに提供する。
[0032]解決システム122は、オペレータ126に対してネットワーク障害に優先順位を付け、それによってネットワーク障害がトリアージされる(triaged)ように更に構成することができる。当業者には理解されるであろうように、幾つかのネットワーク障害は、他のネットワーク障害よりも、利益、データスループット等に関して大きな影響を有する。解決システム122は、アラームを、コンピューティング・デバイス104〜110及びネットワーク・インフラストラクチャ・デバイス114〜120のうちの1以上から受信し、ただ1つのネットワーク障害を表すようにそのアラームを少なくとも1つの他のアラームとグループ化するように更に構成することができる。従って、オペレータ126が低ベルの独立したアラームを分析することに代えて、オペレータ126にはネットワーク障害の高レベル表現を提供することができる。更に、解決システム122は、互いに関してネットワーク障害に優先順位を付け、それによって、オペレータ126が、最も高い影響を有するネットワーク障害を最初にトラブルシューティングし、続いてより低い影響を有するネットワーク障害をトラブルシューティングするように仕向けることが可能である。
[0033]解決システム122は、データ・センター100に含まれるものとして示されているが、データ・センター100の外部にあるコンピューティング・デバイス上で実行してもよいことを理解されたい。例えば、データ・センター100は、全ての集められたネットワーク・アラームを、解決システム122を実行する外部デバイスに送信するように構成されたコンピューティング・デバイスを含んでいてよい。更にまた、解決システム122は、1つのコンピューティング・デバイス上で実行されるか又は複数のコンピューティング・デバイスにわたって分散することができることを理解されたい。また別の例において、解決システム122は仮想マシン(VM)において実行することができ、このVMは、1つのコンピューティング・デバイス上で実行されるか又は(データ・センター100の内部であるか若しくは外部にある)複数のコンピューティング・デバイスにわたって分散することができる。
[0034]今、図2を参照すると、例示の(部分的な)データ・センター・アーキテクチャ200が図解されており、データ・センター・アーキテクチャ200はデータ・センター100を含むことが可能である。データ・センター・アーキテクチャ200は例であり、フラット・ネットワーク/Closトポロジー等の他のトポロジーの変形がデータ・センター100を含んでいてよく、当該変形を添付の請求項はカバーすることが意図されていることを理解されたい。データ・センター・アーキテクチャ200は、複数のトップ・オブ・ラック(ToR)スイッチ202〜208を含む。複数のラックマウント・サーバ(図示せず)のそれぞれをToRスイッチ202〜208のうちの各ToRスイッチに接続する(か又はデュアルホーム(dual−homed)である)ことができる。
[0035]また、アーキテクチャ200は、主アグリゲーション・スイッチ210及びバックアップ・アグリゲーション・スイッチ212を含み、ToRスイッチ202〜208のうちの各ToRスイッチは、主アグリゲーション・スイッチ210及び(冗長にするために)バックアップ・アグリゲーション・スイッチ212に接続される。実際、あるデータ・センターは主アグリゲーション・スイッチ及びバックアップ・アグリゲーション・スイッチの幾つかのペアを含み、アグリゲーション・スイッチの各冗長ペアは、幾つかの(例えば、数十の)ToRスイッチからのトラフィックを集約する。アーキテクチャ200は、主アグリゲーション・スイッチ210に接続されたロード・バランサ214〜216の第1の冗長ペアと、バックアップ・アグリゲーション・スイッチ212に接続されたロード・バランサ218及び220の第2の冗長ペアとを含んでいてよい。ロード・バランサ214〜220は、ユーザ・リクエストを処理するサーバの、(例えば、DNSを通じてクライアントにさらされる)スタティックIPアドレスとダイナミックIPアドレスとのマッピングを行うことができる。
[0036]アーキテクチャ200は、主アクセス・ルータ222及びバックアップ・アクセス・ルータ224を更に含む。主アグリゲーション・スイッチ210、バックアップ・アグリゲーション・スイッチ212、主アクセス・ルータ222及びバックアップ・アクセス・ルータ224は冗長グループを形成することができる。アーキテクチャ200を有するデータ・センターにおいて、デバイス及びリンクの冗長グループは、ネットワーク障害を隠すのに用いることができる。アグリゲーション・スイッチ210〜212は、(ToR202〜208から集約された)トラフィックをアクセス・ルータ222〜224に転送する。また、アーキテクチャ200は、主コア・ルータ226及びバックアップ・コア・ルータ228を含み、主コア・ルータ226及びバックアップ・コア・ルータ228の各々は、アクセス・ルータ222〜224の双方に接続されている。主アクセス・ルータ222、バックアップ・アクセス・ルータ224、主コア・ルータ226及びバックアップ・コア・ルータ228は、別の冗長グループを形成する。例えば、アクセス・ルータ222〜224は、最大で数千のサーバからの集約されたトラフィックをルーティングし、このトラフィックをコア・ルータ226〜228にルーティングする。コア・ルータ226〜228は、データ・センター・ネットワークの残り及びインターネット230に接続される。
[0037]例示の実施形態において、(例えばToRスイッチ202〜208に結合された)アーキテクチャにおけるサーバは、複数の仮想ローカル・エリア・ネットワーク(VLAN)に分割して、オーバーヘッドを制限し、ネットワークにおいてホストされる様々なアプリケーションを隔離することができる。データ・センター・トポロジの各レイヤにおいて(ToRスイッチのサブセットを除外する場合がある)、冗長性(1:1の冗長性)をネットワーク・トポロジに構築して、障害を軽減することができる。更に、ルータ及びスイッチに加えて、アーキテクチャ200は、ロード・バランサ、ファイアウォール等のミドル・ボックスを含むことができる。以上のことから、コンピューティング・デバイス104〜110は、アーキテクチャ200におけるサーバ・コンピューティング・デバイスであることができ、スイッチ114〜116はアグリゲーション・スイッチであることができ、ルータ118はアクセス・ルータ又はコア・ルータであることができる、等を確認することができる。
[0038今、図3を参照すると、解決システム122の機能ブロック・ダイアグラムが図解されている。上で示したように、解決システム122は、データ・センター100内の複数のデバイスが様々な時点で発生させたアラームを受信することが可能である。解決システム120は、データ・センター100内のデバイスが発生させたアラームを受信するアラーム受信(receiver)コンポーネント302を含む。解決識別(identifier)コンポーネント304は、アラーム受信コンポーネント302と通信し、アラーム受信コンポーネント302が受信したアラームがアクション可能ネットワーク障害(例えば、オペレータ126がトラブルシューティング及びデバッギングを介して解決可能なネットワーク障害)を示すかを確認するように構成されている。一例に従うと、ルータ118が発生させたアラームは、ルータ118がスイッチ116と通信できないことを示すことができ、このことは、転じて、(例えば)以下の何れかを示すことがある:(1)ルータの故障;(2)スイッチのダウン;(3)ルータ118とスイッチ116との間のネットワーク・リンクに関するケーブルの緩み、等。これらは、オペレータ126が解決可能な、アクション可能ネットワーク障害である。
[0039]解決システム122は、データ・ストア306を含むか又はデータ・ストア306へのアクセスを有することができ、データ・ストア306は履歴データ308を含む。以下でより詳細に記載するであろうように、履歴データ306は、データ・センター100内のデバイス及びリンクについての「障害履歴テーブル」を含むことができ、あるデバイス又はリンクについての障害履歴テーブルは、障害症状を含む、当該デバイス又はリンクの過去の障害を記載した情報、最近の障害回数、ある閾値の期間にわたる障害の回数、構成の変更等を含むことができる。
[0040]動作において、アラーム受信コンポーネント302は、障害状況を含むアラームを受信する。障害状況は、アラームが発生した時間、障害症状を呈するデバイス又はリンクのアイデンティティ、アラームを発生させたデバイスのアイデンティティ、検出されたイベントに対応するインターフェースの識別、障害症状を呈するデバイス又はリンクを含むデータ・センターのアイデンティティ等を含むことができる。解決識別コンポーネント304は、上記アラーム(及びオプションで他に受信したアラーム)に基づいて、当該アラームがアクション可能ネットワーク障害を示すと判定することができ、障害デバイス又はリンクをアラームの内容に基づいて更に識別する(例えば、アラームを発生させたデバイスは障害デバイスでない場合がある)ことが可能である。解決識別コンポーネント304は、アラームにおいて示された障害状況及び関連するテレメトリ・データを、履歴データ308に含まれる以前に観測された障害症状のセットにマッピングすることができる。一例において、障害デバイス又はリンクは、障害症状を以前に呈していた場合があり、障害のデバイスと同じタイプのデバイスは、障害症状を以前に呈していた場合があり、障害デバイスとプラットフォームを共有するデバイスは、障害症状を以前に呈していた場合があり、ネットワークにおける(例えば、障害デバイスから1〜2ホップ上流又は下流の)近傍デバイスは、障害症状を以前に呈していた場合がある、等。アラームの障害状況が症状にマッピングできない場合、静的ガイドラインがオペレータ126には表面化されることが更に予期される。
[0041]観測された症状がマッピングを介して識別されることに応答して、解決識別コンポーネント304は、履歴データ308にわたる統計的分析を行い、オペレータ126がネットワーク障害を解決するために用いるための、複数の推奨されるトラブルシューティング・オプション、及び、トラブルシューティング・オプションにそれぞれ対応するデバッギング・ステップを識別することができる。更に、トラブルシューティング・オプション及び関連するデバッギング・ステップは、各々、確実性によりランク付けすることができ、それによって、ネットワーク問題を解決するのに最高の確実性を有するトラブルシューティング・オプション及びデバッギング・ステップが、オペレータ126に対して最も目立つように提示される。
[0042]例えば、解決識別コンポーネント304は、スイッチ116が発生させたネットワーク・アラームが、データ・センター100内の第3のコンピューティング・デバイス108がハートビート・リクエストに応答しないことを示すと判定することができ、データ・センター100内の第3のコンピューティング・デバイス108がハートビート・リクエストに応答しないことは、例えば、第3のコンピューティング・デバイス108(又はデータ・センター100内若しくは別のデータ・センター内の他のデバイス)について以前に観測された以下の障害症状にマッピングすることができる:(1)「リンク・フラッピング」;(2)「デバイス・ダウン」。解決識別コンポーネント304により識別されたこのような症状の各々について、解決識別コンポーネント304は、当該症状を有するネットワーク障害を解決するために以前に実行されたと示された、履歴データ308におけるトラブルシューティング・オプション及び対応するデバッギング・ステップを識別することができる。更に、解決識別コンポーネント304は、ラベルをトラブルシューティング・オプション及びデバッギング・ステップに割り当てることができ、これらラベルは、当該トラブルシューティング・オプション及びデバッギング・ステップがネットワーク障害を軽減するであろう確率をそれぞれ示すものである。症状、トラブルシューティング・オプション、デバッギング・ステップ及びラベルの識別を手助けする履歴データ308内のデータの例示の構成は、後で更に詳細に記載する。
[0043]例示の実施形態において、解決識別コンポーネント304は、次に、症状、トラブルシューティング・オプション、デバッギング・ステップ及び対応するラベルをオペレータ126に出力することができる。実用的には、次に、オペレータ126に、各症状についてのトラブルシューティング・オプション及び解決ステップの優先順位の付けられたリストが提供され、各症状は、(アクション可能ネットワーク障害を示す)受信したアラームの障害状況にマッピングされたものである。次に、オペレータ126は、トラブルシューティング・オプション及びデバッギング・ステップに、該トラブルシューティング・オプション及びデバッギング・ステップに割り当てられたラベルに基づく順番で進むことができ、ネットワーク障害の比較的有効な解決をもたらすことになる。
[0044]別の例示の実施形態において、解決識別コンポーネント304は、少なくとも1つのトラブルシューティング・オプション及び少なくとも1つのデバッギング・ステップを識別することができ、データ・センター100内のデバイスに、当該少なくとも1つのトラブルシューティング・オプションを選択させ、当該少なくとも1つのデバッギング・ステップを実行させる信号を、オペレータ126の介在なしに送信することができる。非限定的な例において、解決識別コンポーネント304は、比較的高い確率で、スイッチ116を再起動することが、観測されるネットワーク障害症状を緩和するであろうと判定することができる。解決識別コンポーネント304は、オペレータ126にアラームを表面化するか又はそうではなくオペレータの介在を要求することなく、スイッチ116に、スイッチ116を再起動させる信号を送信することができる。
[0045]一例において、解決識別コンポーネント304は、以下の(1)〜(5)の1以上であるとき、トラブルシューティング・オプション及びデバッギング・ステップをオペレータ126に表面化する前に、ネットワーク障害を自動的に解決しようと試みることができる:(1)あるトラブルシューティング・オプション及びデバッギング・ステップがネットワーク障害を解決する計算された確率が、事前に定められた確率の閾値(例えば、0.9)よりも高い;(2)上記トラブルシューティング・オプション及びデバッギング・ステップがネットワーク障害を解決する計算された確率が、トラブルシューティング・オプション及びデバッギング・ステップがネットワーク障害を解決する最も高いk個の確率(例えば、ネットワーク障害を解決する可能性の最も高い3つのトラブルシューティング・オプション及びデバッギング・ステップ)のうちの1つである;(3)自動的なトラブルシューティング・オプションの選択及びデバッギング・ステップの実行が冗長障害を生じさせない;(4)自動的なトラブルシューティング・オプションの選択及びデバッギング・ステップの実行がある閾値時間(例えば、1分)を越えない;(5)自動的なトラブルシューティング・オプションの選択及びデバッギング・ステップの実行が、データ・センター100を流れるトラフィックの比較的大きなボリュームの輸送を手助けするデバイスを除去しない。自動的にデバッグ・オプションを選択しデバッギング・ステップを実行するときを判定する他のファクターもまた予期される。
[0046]解決識別コンポーネント304は、ネットワーク障害に関する追加データをオペレータ126に表面化するように更に構成することができる。例えば、解決識別コンポーネント304は、履歴データ308にクエリを行い様々な次元にまたがり障害データを集約することができる。一例において、(例えば、障害デバイスであると識別されたか又はそうではなくオペレータ126によって識別された)特定の障害デバイス又はリンクに関して、解決識別コンポーネント304は、(例えば、閾値の履歴時間ウィンドウにわたる)デバイス又はリンクが障害を起こした回数、デバイス又はリンクが障害を起こす、データ・センター100内の他のデバイス又はリンクが障害を起こす頻度に対する頻度、デバイスが障害を起こす、データ・センター100内の同じタイプの他のデバイスが障害を起こす頻度に対する頻度等を示すデータを出力することができる。
[0047]別の例において、オペレータ126は、特定のデバイス・タイプ、プラットフォーム又はデータ・センターに関する情報のリクエストを説明する(set forth)ことができ、解決識別コンポーネント304は、障害データを様々なパラメータにまたがり集約して、障害情報をオペレータ126に対して表面化することができる。非限定的な例において、オペレータ126からのデバイス・プラットフォームについての情報のリクエストを受信することに応答して、解決識別コンポーネント304は、そのプラットフォームにおいて最も頻繁に障害を起こすデバイスを識別するデータ、そのプラットフォームのデバイス障害の他のプラットフォームに対する頻度、様々なタイプのデバイスの障害の互いに対する頻度等を出力することができる。
[0048]また別の例において、オペレータ126は、特定のデバイスまたはデバイスのタイプではなく、データ・センターの次元/軸についての情報を表面化することをリクエストすることができる。例えば、オペレータ126は、データ・センター100内の最も頻繁に故障するデバイスの識別をリクエストすることができ、解決識別コンポーネント304は、データ・センター100内の最も頻繁に障害を起こすデバイスのリストを返すことができる。同様に、オペレータ126は、データ・センター100内の最も安定なデバイスの識別をリクエストすることができ、解決識別コンポーネント304は、データ・センター100内の最も稀に障害を起こすデバイスのリストを返すことができる。履歴データ308の構成は、様々な次元/軸についての情報の集約を手助けする。
[0049]また、解決システム122はフィードバック・コンポーネント312を含むことができ、フィードバック・コンポーネント312は、特に、障害デバイスについて観測された症状、障害デバイスが発生させたネットワーク障害を直すために取られた、トラブルシューティング・オプション及びデバッギング・ステップのうちの1以上についてのフィードバックをオペレータ126から受信するように構成される。次に、フィードバック・コンポーネント312は、オペレータ126からの入力を受けることに応答して、履歴データ308(例えば、障害デバイスについての履歴の障害テーブル)を更新するように構成されてよい。従って、解決システム122が後でアラームを受信したとき、解決識別コンポーネント304は、オペレータ126の最近の観測に基づく更新された障害症状、トラブルシューティング・オプション、デバッギング・ステップ及びラベルのうちの1以上を出力することができる。
[0050]解決システム122は、オプションで、イベント優先順位付け(prioritizer)コンポーネント314を含むことができ、イベント優先順位付けコンポーネント314は、オペレータ126への提示のためにアクション可能ネットワーク障害に優先順位を付けるものである。例えば、(例えば、オペレーティング・システムのパッチのロールアウトによる)特定の時間ウィンドウの間に、データ・センター100内の多数のデバイスがアラームを発生させることがあり、従来、オペレータ126が、大きなボリュームのアラームをパースしてどのアラームがアクション可能ネットワーク障害を表すのかを決定し、ネットワーク障害に更に優先順位を付ける必要があった。イベント優先順位付けコンポーネント314は、オペレータ126の負担を、ただ1つのネットワーク障害を表す幾つかのアラームを相関させ、(例えばネットワーク障害の影響の関数として)ネットワーク障害に優先順位を付けることにより軽減する。
[0051]ネットワーク障害に優先順位を付けることに関係して、データ・ストア306はネットワーク・グラフ310を含み、ネットワーク・グラフ310はデータ・センター100の階層的ネットワーク・トポロジを表すものであり、イベント優先順位付けコンポーネント314は、ネットワーク・グラフ310に基づいてネットワーク障害に優先順位を付けることができる。例えば、(ネットワーク・グラフ308において識別される)ネットワーク階層のトップに近いデバイスによって生じたネットワーク障害は、サービス停止の高いリスクをもたらし、従って、ネットワーク階層においてより低いデバイスにより生じたネットワーク障害よりも高く優先順位を付けることができる。別の例において、イベント優先順位付けコンポーネント312は、それぞれのネットワーク障害により影響を受けるであろうプロパティの数(又は高いビジネス・インテリジェンス影響のリスクを有する単一のプロパティ)の関数として、ネットワーク障害に優先順位を付けることができる。
[0052]今、図4を参照すると、解決識別コンポーネント304の機能ブロック・ダイアグラムが描写されている。解決識別コンポーネント304は、データ・センター100内のデバイスが発生させたアラーム400を受信する。例えば、デバイスは、コンピューティング・デバイス104〜110のうちの1つであるか又はネットワーク・インフラストラクチャ・デバイス114〜120のうちの1つであってよい。図4に示された例において、アラーム400は、以下の複数の障害状況を含む:(1)デバイスがアラームを発生させたときを示すタイムスタンプ;(2)デバイスから発生したアラームを一意に識別するアラームID;(3)アラームを発生させたデバイスを識別するデバイスID;(4)障害を受けている特定のポート又はネットワーク・リンクを識別するインターフェース・リンク;(5)障害に関するより詳細なものを提供するマシン生成のテキストを含み、アラーム400を発生させたデバイスにより出力されるイベント記述。アラーム400の内容は、図4に示されここに記載されたものとは異なる場合があることは理解されたい。
[0053]解決識別コンポーネント304は、アラーム400を受信し、例示の実施形態において、アラームがアクション可能ネットワーク障害を示すかを判定することができる。より詳細には、解決識別コンポーネント304は、アラーム400を分析し、アラーム400がアクション可能ネットワーク障害を表すと識別することができ、(例えばデバイスID及びネットワーク・グラフ310の一方又は双方に基づき)障害デバイス又はリンクを更に識別することができる障害識別コンポーネント402を含む。例えば、アラーム400を発生させたデバイス(発生デバイス)は適正に動作しているが、アラームを発生させたデバイスに(例えば、アラーム400において識別されるインターフェース・リンクによって)接続されたネットワーク・インフラストラクチャ・デバイス(障害デバイス)に障害が発生していることがある。一例において、アラーム400におけるイベント記述は、デバイスIDにより識別されるデバイスが特定のネットワーク・リンクを通じたハートビート・リクエストに応答しないことを示すことができる。
[0054]更に、障害識別コンポーネント402は、アラーム400に、アラームにより示されるネットワーク障害の深刻度を示すメタデータを割り当てることができる。一例において、障害識別コンポーネント402が障害デバイス又はリンクを識別することに応答して、障害識別コンポーネント402は、デバイス又はリンクに障害が発生したことにより生じたトラフィック損失を識別することができる。例えば、障害識別コンポーネント402は、複数の事前に定められた値のうちの1つをアラーム400に、アラーム400により表されるイベントにより生じたであろうトラフィック損失のボリュームに基づき割り当てることができる。従って、障害識別コンポーネント402は、ネットワーク・アラームの深刻度を表すために、「高」、「中」又は「低」のうちの1つをアラーム400に割り当てることができる。一例に従うと、この値は、デバイス障害履歴テーブル及びリンク障害履歴テーブルの一方又は双方に置くことができる。
[0055]更に、障害識別コンポーネント402は、データ・センター100における冗長性に関係するリスクを示す値をアラーム400に割り当てることができる。例えば、この値は、アラーム400により表される障害が冗長グループ内のトラフィック損失を生じさせるかを示すことができる。冗長性が有効でトラフィック損失が最小であるイベントについて、トラブルシューティング・オプションを自動的に選択しデバッギング・ステップを自動的に行って、アラーム400により表される障害イベントの自動トリアージをする(auto−triage)ことができる。例示の値は、「冗長性は成功」、「冗長性に障害」又は「冗長性が危険」を含むことができ、「冗長性が危険」は、障害デバイス又はリンクがシングル・レッグド(single legged)であることを示すことができる。
[0056]解決識別コンポーネント304は、マッパ・コンポーネント404を更に含む。障害識別コンポーネント402が障害デバイス又はリンクを識別することに応答して、マッパ・コンポーネント404は、履歴データ308にアクセスし、アラーム400(又はネットワーク障害を表す相関するアラームのグループ)において示される障害状況(及び関連テレメトリ・データ)を、履歴データ308において表された少なくとも1つの以前に観測された症状にマッピングすることが可能である。
[0057]履歴データ308の例示の構成に関してより詳細にいうと、履歴データ308は、複数のデバイス障害履歴テーブル406〜408と、複数のリンク障害履歴テーブル410〜412とを含むことができ、デバイス障害履歴テーブル406〜408の各障害履歴テーブルは、データ・センター100内のそれぞれのデバイスについてのものであり、リンク障害履歴テーブル410〜412の各障害履歴テーブルは、データ・センター100内のそれぞれのリンクについてのものである。オプションで、履歴データ308は、他のデータ・センター内のデバイス/リンクについての障害履歴テーブルを含むことができる。更に、履歴データ308は集中型のものとして示されているが、障害履歴テーブル406〜412は、多数のストレージ・デバイスにわたり分散させることができることは理解されよう。
[0058]第1のデバイス障害履歴テーブル406は、データ・センター100内の第1のデバイスについての履歴障害情報を含むことができる。この障害情報は以下のものを含むことができるが、これらに限定されない:(1)第1のデバイスのアイデンティティ、第1のデバイスの製造業者、第1のデバイスのタイプ、第1のデバイスのモデル、第1のデバイスのプラットフォーム、等を含む、第1のデバイスを記載したデータ;(2)時間にわたる第1のデバイスの可用性(及び最近の障害から経過した時間量);(3)第1のデバイスを通過したトラフィック、第1のデバイスの現在のCPU及びメモリの使用率、時間にわたる第1のデバイスのCPU使用率、時間にわたる第1のデバイスのメモリ使用率、第1のデバイスの接続数、等のネットワーク・モニタリング・データ;(4)第1のデバイスに対してなされた設定変更を示すデータ;(5)第1のデバイスについての観測される障害症状、障害症状を軽減するために以前に用いられたトラブルシューティング・オプション、及び、障害症状を解決するために以前にとられたデバッギング・ステップ;(6)第1のデバイス上で行われたハードウエア及びソフトウエアの変更;(7)デバイスに関して履歴上作業したエンジニア及びオペレータのアイデンティティ;(8)第1のデバイスに関してなされた保証のないコンポーネントの交換の数。n番目のデバイスの障害履歴テーブル408は、同様の情報を含むことができる。ざっと図5を見ると、例示の障害履歴テーブル500の内容が図解されている。
[0059]第1のリンク障害履歴テーブル410は、データ・センター内の第1のリンクについての履歴障害データを含むことができる。この障害情報は以下のものを含むことができるが、これらに限定されない:(1)第1のリンクのアイデンティティ、第1のリンクを介して接続されたデバイス、当該デバイス/リンクの製造業者、当該デバイスのプラットフォーム、等を含む、第1のリンクを記載したデータ;(2)時間にわたる第1のリンクの可用性(及び最近の障害から経過した時間量);(3)リンクを通過する現在のトラフィック、リンクを通過した履歴上のトラフィック、等を含むネットワーク・モニタリング・データ;(4)リンクを介して結合されたデバイスの設定変更を示すデータ;(5)リンクについて観測される障害症状、障害症状を軽減するために以前に用いられたトラブルシューティング・オプション、及び、障害症状を解決するために以前にとられたデバッギング・ステップ;(6)リンクを介して接続されたデバイス上で行われたハードウエア及びソフトウエアの変更;(7)リンクのタイプ、例えば銅か光か;(8)リンク容量、等。n番目のリンク障害履歴テーブル412は、同様の情報を含むことができる。
[0068]従って、マッパ・コンポーネント408は、アラーム400を受信し、アラーム400における障害状況を、デバイス障害履歴テーブル406〜408又はリンク障害履歴テーブル410〜412のうちの少なくとも1つにおいて識別される障害デバイスについて観測される少なくとも1つの症状にマッピングすることができる。例えば、マッパ・コンポーネント404は、最初に障害デバイスの障害履歴テーブルにアクセスし、障害状況が障害デバイスについて以前に観測された障害症状にマッピングされるかを確認することができる。次に、マッパ・コンポーネント404は、ネットワーク内の近傍デバイス並びに障害デバイスと同じタイプ及びモデルの一方若しくは双方の一方又は双方にサーチを広げて、アラーム400において示される障害症状にマッピングされる以前に観測された障害症状を識別することができる。非限定的な例において、マッパ・コンポーネント404はアラーム400の障害状況を以前に観測された以下の症状にマッピングすることができる:(1)「デバイス・ダウン」;(2)障害デバイスについての障害履歴テーブルにおいて識別された、障害デバイスについての「リンク・フラッピング」。
[0061]解決識別コンポーネント304はラベル割り当て(assignor)コンポーネント414を更に含み、ラベル割り当てコンポーネント414は、履歴データ308において識別される、マッパ・コンポーネント404によって識別されたネットワーク障害症状を解決するために以前にとられたトラブルシューティング・オプションを識別する。ラベル割り当てコンポーネント414はラベルをそれぞれのトラブルシューティング・オプションに更に割り当て、ラベルは、そのトラブルシューティング・オプションがネットワーク障害症状を軽減するであろう確率を示すものである。
[0062]例示の実施形態において、ラベル割り当てコンポーネント414は、最初に、障害デバイスのデバイス障害履歴テーブル(又は障害リンクについてのリンク障害履歴テーブル)をサーチして、観測された症状及びデバイスについて何らかのトラブルシューティング・オプション及びデバッギング・ステップの一方又は双方が以前にとられたかを確認することができる。障害デバイス及びリンクの一方又は双方が比較的大量のトラブルシューティング及びデバッギングにさらされるとき、ラベル割り当てコンポーネント414は、履歴データ308において更にサーチを行う必要はない場合がある。例えば、デバイスを再起動するトラブルシューティング・オプションが、障害デバイスにより呈された障害症状を以前に(及び高い確実性で)軽減したことを、障害デバイスについての障害履歴テーブルが示すときに、ラベル割り当てコンポーネント414は、他のデバイスの他の障害履歴テーブルの内容を分析することなくトラブルシューティング・オプションを出力することができる。代替として、障害デバイスについての障害履歴テーブルが、障害デバイスは以前に症状を呈していなかった(又は症状を稀に呈していた)ことを示すときに、ラベル割り当てコンポーネント414は、次に、ネットワーク・トポロジにおける近傍デバイス、同じ製造業者のデバイス、同じタイプのデバイス、等の他のデバイスの障害履歴テーブルをサーチすることができる。履歴データ308の障害履歴テーブル406〜412におけるサーチにより、ラベル割り当てコンポーネント414は、以前に成功したトラブルシューティング・オプション及びデバッギング・ステップ並びにそれぞれの確実性ラベルを、障害症状を解決するために識別することが可能である。
[0063]解決識別コンポーネント304は、トラブルシューティング・オプション、デバッギング・ステップ及び対応するラベルを出力する出力コンポーネント416を更に含むことができる。一例において、出力コンポーネント416は、当該トラブルシューティング・オプション、デバッギング・ステップ及びラベルを、オペレータ126が用いるコンピューティング・デバイス124のディスプレイに出力することができる。別の例において、出力コンポーネント416は、トラブルシューティング・オプション、デバッギング・ステップ及びラベルを、異なるコンピューティング・デバイスに送信することができる。また別の例において、出力コンポーネント416は、オペレータの介在なく、トラブルシューティング・オプションが自動的に選択され、デバッギング・ステップが自動的に実行されるようにすることができる。
[0064]トラブルシューティング・オプション及びデバッギング・ステップの出力に加えて、出力コンポーネント416はまた、(障害デバイス又はリンクについて)、オペレータ126に提示するための要約の障害履歴テーブルを出力することができる。このことは、オペレータ126に、以前のデバイス又はリンクの障害に関する履歴上の文脈を提供することが可能である。例えば、解決識別は、データ・センター100内のデバイス及びリンクの一方又は双方についての要約の障害履歴テーブルを維持することができ、例示の要約の障害履歴テーブルは、以下のものを含むことができるが、これらに限定されない:(1)デバイス又はリンクの名前;(2)デバイス又はリンクの他のデバイス又はリンクに対する障害レートについて示すもの(例えば、デバイス又はリンクが上位k個の問題デバイスであるかについて示すもの);(3)デバイス又はリンクに対してなされた最近の変更(例えば、ハードウエア、ソフトウエア及び設定のうちの1以上の変更);(4)デバイス又はリンクが障害を最後に起こしたときからの時間量;(5)最近選択されたトラブルシューティング・オプション及びトラブルシューティングを行ったオペレータの一方又は双方。
[0065]今、図6を参照すると、オペレータ126が用いるコンピューティング・デバイス124のディスプレイに提示される例示のグラフィカル・ユーザ・インターフェース600が図解されている。グラフィカル・ユーザ・インターフェース600は、解決識別コンポーネント304によって生成することができる。このグラフィカル・ユーザ・インターフェースはフィールド602を含み、フィールド602は、障害識別コンポーネント402により識別された障害デバイス又はそうではなくオペレータ126が興味のあるデバイスの何れかに関する以下の情報をオペレータ126に提示するものである:(1)障害デバイスの名前;(2)障害デバイスのモデル;(3)障害デバイスを含むデータ・センターのアイデンティティ;(4)障害デバイスのプロパティ;(5)障害デバイスのタイプ;(6)最近のハードウエア変更及び最近のソフトウエア変更;(7)これら変更をより詳細に記載したチケットに対するリンク。
[0066]グラフィカル・ユーザ・インターフェース600は追加でフィールド604を含み、フィールド604は、受信したアラーム(例えば、アラーム400)の内容にマッピングされた、以前に観測された症状を図解するものである。図6に示されるように、例示の症状は「リンク・フラッピング」及び「デバイス・ダウン」を含むことが可能である。また、フィールド604は、観測された症状ごとに、複数の可能性あるトラブルシューティング・オプションを含む。例えば、「デバイス・ダウン」のシステムについて、以下のトラブルシューティング・オプションがフィールド604に表示される:(1)「ケーブルをチェックせよ」;(2)「電源をチェックせよ」;(3)「ネットワーク・カードをチェックせよ」。これらトラブルシューティング・オプションは割り当てられたそれぞれのラベルを有し、これらラベルは、それぞれのトラブルシューティング・オプションが対応する障害症状を軽減するであろう確率を示すものである。例えば、「ケーブルをチェックせよ」というトラブルシューティング・オプションには、当該トラブルシューティング・オプションに対応する少なくとも1つのデバッギング・ステップの利用を通じて障害症状「デバイス・ダウン」をトラブルシューティングすることが、60%の確率で問題を軽減するであろうことを示すが割り当てられる。同様に、「電源をチェックせよ」というトラブルシューティング・オプションには、当該トラブルシューティング・オプションに対応する1又は複数のデバッギング・ステップを実行することが、25%の確率で障害症状を軽減する結果となるであろうことを示すラベルを割り当てることができる。
[0067]確認したように、各トラブルシューティング・オプションは、それに対応する少なくとも1つのデバッギング・ステップを有している。例えば、トラブルシューティング・オプション「ケーブルをチェックせよ」は、それに対応する(グラフィカル・ユーザ・インターフェース600に図解される)以下の2つのデバッギング・ステップを有している:(1)「ケーブルを付け直せ」;(2)「ケーブルを清掃せよ」。また、これらデバッギング・ステップには、(親となるトラブルシューティング・オプションが選択されたときに)それら解決ステップが障害症状を解決するであろうそれぞれの確率を示すラベルが割り当てられる。
[0068]更に、あるデバッギング・ステップは、それらデバッギング・ステップの実行においてオペレータ126を補助するための、割り当てられた更なる命令を有することができる。例えば、「ネットワーク・カードを交換せよ」というデバッギング・ステップに対して、オペレータ126に、上述の解決ステップに隣接して位置する、グラフィカル・ユーザ・インターフェース600におけるグラフィカル・アイコン606をオペレータが選択することに応答して、更なる命令を提示することができる。これは、オペレータ126に、ネットワーク・カードを交換することについての追加の情報を提供するポップアップ・ウィンドウ607(又は別のウィンドウ)を表示する結果となりうる。この追加の情報は、例示の実施形態において、当該追加の情報に割り当てられたハイパーリンクを有することができ、オペレータ126によるハイパーリンクの選択は、オペレータに追加の情報を案内する(direct)ことができる。
[0079]グラフィカル・ユーザ・インターフェース600は、様々なフィールド608〜612を更に含むことができ、フィールド608〜612は、障害デバイスの様々なオペレーティング・パラメータを表すグラフィカル・データ(例えば、グラフ)を含むことができる。例えば、フィールド608は、障害デバイスを特定の時間ウィンドウにわたり通過するトラフィック量を図解するグラフを描写することができ、フィールド610は、障害デバイスのある時間ウィンドウにわたる可用性を表すグラフを描写することができ、フィールド612は、障害デバイスに障害が発生したと観測された時点を図解するグラフを描写することができる。
[0070]また、グラフィカル・ユーザ・インターフェース600は、オペレータ126からのフィードバックを受けることを手助けする特徴を含むことができる。例えば、グラフィカル・ユーザ・インターフェース600にボタン614を含めることができ、ボタン614は、選択されるとオペレータ126にウィンドウ616を提示するものであり、ウィンドウ126は、オペレータ126からの入力を受ける(be populated by operator 126)ことが可能な幾つかのフィールドを含むものである。このことは、オペレータ126が、障害デバイスをトラブルシューティングする際に観測される症状、障害デバイスをトラブルシューティングする際にオペレータ126により用いられるトラブルシューティング・オプション及び障害デバイスをトラブルシューティングする際にオペレータ126によりとられるデバッギング・ステップを識別することを可能にする。
[0071]また、グラフィカル・ユーザ・インターフェース600は、データ・センター100の一部のトポロジカル・ビューを表すグラフィカル・オブジェクト618を含むことができ、フィールド602において識別されるデバイスは、グラフィカル・オブジェクト618のセンター・グラフィカル・アイコン620として表すことができ、フィールド602において識別されるデバイスから1ホップのデバイスは、(例えば、グラフィカル・アイコン間の、それらの間のリンクを表す接続と共に)セントラル・グラフィカル・アイコン620を囲むグラフィカル・アイコン622〜634により表すことができる。更にまた、グラフィカル・アイコン620〜634は、グラフィカル・アイコン620〜634が表わすそれぞれのデバイスのタイプを示すように色分けすることができる。別の例において、グラフィカル・オブジェクト618のグラフィカル・アイコン620〜634は、これらグラフィカル・アイコンが表わすデバイスのタイプを示すそれぞれの形状を有することができる。例えば、四角形のグラフィカル・アイコンはコア・ルータを表すことができ、円形のグラフィカル・アイコンはVPNを表すことができる、等である。グラフィカル・オブジェクト618のグラフィカル・アイコン620〜634は選択可能であることができ、グラフィカル・アイコンの選択は、当該グラフィカル・アイコンが表わすデバイスについての情報が、フィールド602(及びグラフィカル・ユーザ・インターフェース600の他のフィールド)に記載されるようにする。また別の例において、グラフィカル・アイコンの形状は、当該アイコンが表わすデバイスのタイプを表すことができ、グラフィカル・アイコンの色は、デバイスのメーカーを表すことができる。他の変形も予期される。
[0072]今、図7を参照すると、イベント優先順位付けコンポーネント312の例示の描写が図解されている。イベント優先順位付けコンポーネント312は、データ・センター100のデバイスが発生させたアラームを受信することができる。イベント優先順位付けコンポーネント312は、アラーム関連付け(correlator)コンポーネント700を含んでおり、アラーム関連付けコンポーネント700は、アラームをそれぞれのグループに関連付け、これらグループは、それぞれのネットワーク障害を表すものである。例示の実施形態において、アラーム関連付けコンポーネント700は、アラームを受信すると、履歴データ308における検索を実行して、受信したアラームに関係しうる最近のアラームを識別することができる。例えば、アラーム関連付けコンポーネント700は、(例えば、ある閾値履歴時間ウィンドウ、例えば最近30分、にわたり)同じデバイスが発生した以前のアラーム及び同じインターフェースについて発生した以前のアラームの一方又は双方について、履歴データ308を検索することができる。例示の実施形態において、アラーム関連付けコンポ―ネント700は、受信したアラームを、閾値時間ウィンドウ内で同じデバイスにより発生した他のアラーム及び同じインターフェースについて発生した他のアラームの一方又は双方とグループ化することが可能である。別の例において、アラーム発生(generator)コンポーネント700は、受信したアラームを、ネットワーク・トポロジにおいて近傍のデバイスが発生させた少なくとも1つのアラームとグループ化することができる(ここで、アラーム関連付けコンポーネント700は、ネットワーク・グラフ310の分析を通じて近傍のデバイスを識別する)。例えば、アラーム関連付けコンポーネント700は、アラームを、階層的ネットワーク・トポロジにおいて障害デバイスの1〜2ホップ上流又は下流にある近傍のデバイスに関して発生し、受信したアラームが発生したときから閾値時間内に発生したアラームとグループ化することができる。更に、アラーム関連付けコンポーネント700は、受信したアラームを、(例えば、ファイルオーバ・プロトコルにともなう問題を図解する)関連付けられうる(アラームを発生させたデバイスを有する)ネットワーク冗長グループ内の1つ又は複数のデバイスが発生させた少なくとも1つの他のアラームとグループ化することができる。アラームのグループがただ1つのネットワーク障害を表すことができ、アラームの異なるグループが異なるネットワーク障害を表すことができることが確認されよう。
[0073]アラーム関連付けコンポーネント700の動作に関してより詳細にいうと、受信したアラームごとに、アラーム関連付けコンポーネント700は、アラームを(もし存在すれば)プライオリティ・イベント又はトラブル・チケットとマッチさせることを試みることができる。例えば、アラーム関連付けコンポーネント700は、以下の様々なフィールドに関するマッチングを行うことができる:(1)ネットワーク・デバイス及びインターフェースの一方又は双方の名前。デバイス名は、典型的にはaa−bb−cc−ddのようにコードされ、ここで、aaはデータ・センターであり、bbはプラットフォーム名であり、ccはホストされるサービスまたはアプリケーションであり、ddはアラームを発生させたデバイスのデプロイ(deployment)に関係した論理番号である;(2)デバイスのタイプ;(3)エラー・メッセージ;(4)イベント通知時間。文字列ベースのフィールド(デバイス名やエラー・メッセージ)を比較するために、アラーム関連付けコンポーネント700は、様々な文字列マッチング・アルゴリズム(例えば、編集距離、エイホ−コラシック・パターン・マッチング、レーベンシュタイン距離等)を用いることができる。このことは、(通知時間に関する閾値を設定することに基づいて)アラームの直近の過去における可能性あるマッチとのマッチングを可能にする。第2に、アラーム関連付けコンポーネント700は、近傍デバイスにて発生した障害に基づくマッチングを行うことができる。近傍は、ネットワーク・グラフ310をリンク・レベル接続性に基づき分析することにより決定される。第3に、アラーム関連付けコンポーネント700は、ネットワーク・デバイスのタイプ−例えば、同じデータ・センター又は複数のデータ・センターにまたがるロード・バランサにわたる構成バグは、大きな関連付けられた障害を引き起こす−に基づくマッチを行うことができる。
[0074]また、イベント優先順位付けコンポーネント312は、トラブルシューティングのためにアラーム(障害イベント)のグルーピングをランク付けするランク付け(ranker)コンポーネント702を含む。ランク付けコンポーネント702は、イベントに優先順位を付けて、データ・センター100及びデータ・センター100の顧客の一方又は双方へのネガティブな影響を最小化するように構成することができる。例えば、ランク付けコンポーネント702は、ネットワーク階層のトップに近く、従ってサービス停止の比較的高いリスクをもたらす障害デバイスに基づいてイベントに優先順位を付けることができる。別の例において、ランク付けコンポーネント702は、デバイスの障害により影響を受けうるプロパティの数の関数としてイベントに優先順位を付けることができる。更に、単一のプロパティの影響が、ランク付けコンポーネント702に、イベントに比較的高い優先順位を割り当てさせることがある。別の例において、ランク付けコンポーネント702は、障害デバイスにより運ばれるトラフィックの量に基づきイベントに優先順位を付けることができる。また別の例において、ランク付けコンポーネント702は、データ・センター100を通過するトラフィックに関する影響−例えば、デバイスの障害がトラフィックの著しい損失を引き起こす場合がある−に基づきイベントに優先順位を付けることができる。更に別の例において、ランク付けコンポーネント702は、可能性ある冗長性障害に基づきイベントに優先順位をつけることができる。例えば、デバイス内の又はデバイス間の冗長性によりマスクされない障害イベントは、比較的高くランク付けすることができる。最後に、ランク付けコンポーネント702は、シングル・レッグド・デバイスにより引き起こされるか又はシングル・レッグド・デバイスに影響を与える障害イベントに優先順位を付けることができる。例えば、フェール・オーバは成功した場合に関するが、冗長性障害を引き起こす危険をもたらすイベントは、比較的高くランク付けすることができる。従って、イベント優先順位付けコンポーネント312の出力は、優先順位の付けられたイベントのリストであり、それによって、オペレータ126はネットワーク障害に優先順位を付けて、ホストされるアプリケーション及びサービスに関する影響を最小化することができる。
[0075]図8〜10は、ネットワーク障害を解決することに関する例示の技法(methodology)を図解している。これら技法は、あるシーケンスで実行される一連のアクトとして示され記載されているものの、これら技法は、シーケンスの順番により限定されないことが理解されたい。例えば、幾つかのアクトは、ここに記載されているものとは異なる順番で発生することができる。更に、あるアクトは別のアクトと同時に発生することができる。更に、場合によっては、ここに記載する技法を実施するのに全てのアクトが必要ない場合がある。
[0076]更に、ここに記載するアクトは、1つ又は複数のプロセッサにより実施されるか、1つ又は複数のコンピュータ可読媒体に記憶されるか又はそれら双方であることができるコンピュータ実行可能命令でありうる。コンピュータ実行可能命令は、ルーチン、サブルーチン、プログラム、実行スレッド等のうちの1以上を含むことができる。更にまた、技法のアクトの結果を、コンピュータ可読媒体に記憶する、ディスプレイ・デバイスに表示する等の1以上をすることができる。
[0077]今、図8を参照すると、ネットワーク障害をトラブルシューティングする際に用いる複数のトラブルシューティング・オプションを出力するための例示の技法800を図解するフロー・ダイアグラムが図解されている。技法800は802において開始し、804において、ネットワーク障害を示すアラームを受信する。アラームはデータ・センターのデバイスが発生させたものであり、このデバイスは、コンピューティング・デバイス又はネットワーク・インフラストラクチャ・デバイスであることができる。アラームは、特に、障害を起こしたと信じられるデバイス、アラームを発生させたデバイス、影響を受ける障害デバイスのインターフェース、アラームが発生したときを示すタイムスタンプ等のデータを識別することが可能である。
[0078]806において、アラームの受信に応答して、障害デバイス及び障害リンクの一方又は双方が識別される。障害デバイスは、アラームを発生させたデバイスであるか又はアラームを発生させたデバイスと通信するデバイスでありうる。障害デバイスがアラームを発生させたとき、そのことは、デバイス全体が故障したことを必ずしも意味しないことを理解されたい。むしろ、アラームは、デバイスのリンクのうちの1つが故障した、デバイスのCPU利用率が事前に定められた閾値を越えた、メモリ利用率が事前に定められた閾値を越えた等を示すことがある。808において、障害デバイスの識別に応答して、アラームにおいて示される障害状況が、履歴上観測された障害症状にマッピングされ、障害症状は、障害デバイス、障害デバイスに関係したデバイス等により呈された以前に観測されたものでありうる。上に示したように、障害履歴テーブルをそれぞれのネットワーク・デバイスについて維持することができ、これらテーブルは、アラームにおける障害状況を可能性ある障害症状にマッピングすることを手助けする。
[0079]810において、識別された障害症状について複数のトラブルシューティング・オプションが識別され、これらトラブルシューティング・オプションは、障害症状を直すための可能性ある解決を示すものである。更に、トラブルシューティング・オプションは割り当てられたそれぞれのラベルを有することができ、これらラベルは、トラブルシューティング・オプションが障害症状を直す確率を示すものである。ラベルは、確率又はより控えめな(discreet)ラベル(例えば、高確実性、中確実性、低確実性等)であることができる。812において、複数のトラブルシューティング・オプション及びそれらのそれぞれのラベルは、オペレータがネットワーク障害を解決するのに用いるための出力である。上に記したように、ラベルは、オペレータによってとられたときに、トラブルシューティング・オプションがネットワーク障害をそれぞれ軽減するであろう確実性を示すことができる。技法800は、814において完了する。
[0080]今、図9を参照すると、アラームをグループ化してネットワーク障害を識別し、ネットワーク障害に優先順位を付けるのを手助けする例示の技法900が図解されている。技法900は902において開始し、904において、ネットワーク障害を示すアラームが受信される。906において、アラームの受信に応答して、データベースにクエリが発行される。このクエリは、アラームの発生した時間、アラームを発行したデバイスのタイプ及びネットワークの階層におけるデバイスの位置に基づくものである。908において、クエリの発行に応答して、第2のアラームを含む、クエリに基づく結果が受信される。910において、アラームは第2のアラームとグループ化され、912において、アラームのランク付けされたリストが、アラームの第2のアラームとのグルーピングに基づき出力される。技法900は914において完了する。
[0081]今、図10を参照すると、トラブルシューティング・オプション及びデバッギング・ステップの一方又は双方についてのフィードバックを受信し、これらトラブルシューティング・オプション及びデバッギング・ステップの一方又は双方に対応する確率を、フィードバックに基づき更新するための技法1000が図解されている。技法1000は1002において開始し、1004において、オペレータからのフィードバックが受信される。フィードバックは、以下のものを識別することができる:(1)(例えば、デバイスのタイプ、デバイスのプラットフォーム、ネットワーク・トポロジにおけるデバイスの位置等を含む)障害の起きたネットワーク・デバイス又はリンク;(2)障害の症状;(3)障害を軽減するためにオペレータによってとられるトラブルシューティング・オプションのアイデンティティ;(4)トラブルシューティング・オプションが成功裏に障害を軽減したかどうかを示すもの(indication);(5)障害を軽減するためにオペレータによって実行されるデバッギング・ステップのアイデンティティ;(6)デバッギング・ステップが成功裏に障害を軽減したかどうかを示すもの。
[0082]1006において、ネットワーク障害を記載する履歴データが、フィードバックに基づき更新される。より詳細には、デバイス障害履歴テーブル及びリンク障害履歴テーブルの一方又は双方を、受信したフィードバックに基づき更新することができる。1008において、履歴データの更新に続き、アラームが受信され、1010において、履歴データがアラームに基づきクエリされる。例えば、履歴データを、幾つかの次元(例えば、デバイスID、デバイスのタイプ、デバイスのプラットフォーム、リンクID等)についてクエリすることができる。1012において、アラームが示すネットワーク障害を軽減する可能性のあるトラブルシューティング・オプション及びデバッギング・ステップの一方又は双方についての確率が(例えばリアルタイムに又はオフラインで)計算される。そのような確率は、オペレータからのフィードバックに基づくことができ、それによって、更なるフィードバックを受信するにつれて、確率は時間にわたり改善される。更に、オペレータが、デバイスに関して以前に用いられたことのないトラブルシューティング・オプションをとった場合、この新しいトラブルシューティング・オプションで履歴データ及び確率の一方又は双方を更新することができ、この新しいトラブルシューティング・オプションは、類似のアラームが発生したときに後で示される(surfaced)。技法1000は1014において完了する。
[0083]今、図11を参照すると、例示のコンピューティング・デバイス1100の高レベル図が図解されており、例示のコンピューティング・デバイス1100は、ここに開示したシステム及び技法に従って用いることのできるものである。例えば、コンピューティング・デバイス1100は、データ・センターにおける障害症状を直すためのトラブルシューティング・オプション及びデバッギング・ステップの出力をサポートするシステムにおいて用いることができる。別の例として、コンピューティング・デバイス1100は、オペレータのためにネットワーク障害に優先順位を付けることをサポートするシステムにおいて用いることができる。コンピューティング・デバイス1100は、メモリ1104に記憶された命令を実行する少なくとも1つのプロセッサ1102を含む。命令は、例えば、上述した1つ又は複数のコンポーネントが実行するものとして記載した機能を実施するための命令であるか、又は、上述した方法のうちの1つ又は複数を実施するための命令であってよい。プロセッサ1102は、メモリ1104に、システム・バス1106によりアクセスすることができる。実行可能命令を記憶することに加えて、メモリ1104は、障害履歴テーブル、ネットワーク・グラフ等も記憶することができる。
[0084]コンピューティング・デバイス1100は、更に、プロセッサ1102がシステム・バス1106によりアクセス可能なデータ・ストア1108を含む。データ・ストア1108は、実行可能命令、障害履歴テーブル等を含むことができる。また、コンピューティング・デバイス1100は、外部デバイスがコンピューティング・デバイス1100と通信することを可能にする入力インターフェース1110も含む。例えば、入力インターフェース1110は、外部コンピュータ・デバイス、ユーザ等から命令を受信するために用いることができる。また、コンピューティング・デバイス1100は、コンピューティング・デバイス1100を1つ又は複数の外部デバイスとインターフェースする出力インターフェース1112を含む。例えば、コンピューティング・デバイス1100は、テキスト、イメージ等を出力インターフェース1112により表示することができる。
[0085]コンピューティング・デバイス1100と入力インターフェース1110及び出力インターフェース1112を介して通信する外部デバイスは、ユーザが相互作用可能な任意のタイプのユーザ・インターフェースを実質的に提供する環境に含まれる場合があることが予期される。ユーザ・インターフェースのタイプの例は、グラフィカル・ユーザ・インターフェース、ナチュラル・ユーザ・インターフェース等を含む。例えば、グラフィカル・ユーザ・インターフェースは、キーボード、マウス、リモコン等の入力デバイスを用いてユーザからの入力を受け入れ、ディスプレイ等の出力デバイス上で出力を提供することができる。更に、ナチュラル・ユーザ・インターフェースは、ユーザが、コンピューティング・デバイス1100と、キーボード、マウス、リモコン等の入力デバイスによって課される制約のない手法で相互作用することを可能にすることができる。むしろ、ナチュラル・ユーザ・インターフェースは、音声認識、タッチ及びスタイラス認識、スクリーン上のジェスチャ及びスクリーンに隣接したジェスチャの双方の認識、エア・ジェスチャ、ヘッド及びアイ・トラッキング、音声会話(voice and speech)、視覚、タッチ、ジェスチャ、人工知能(machine intelligence)等に依存することができる。
[0086]更に、1つのシステムとして図解しているものの、コンピューティング・デバイス1100は分散システムでありうることが理解されよう。従って、例えば、幾つかのデバイスは、ネットワーク接続により通信することがあり、コンピューティング・デバイス900が実行するものとして記載したタスクを全体として実行することがある。
[0087]ここに記載した様々な機能は、ハードウエアで、ソフトウエアで又はそれらの組み合わせで実現することができる。ソフトウエアで実現した場合、機能は、1つ若しくは複数の命令若しくはコードとしてコンピュータ可読媒体上に記憶されるか又はコンピュータ可読媒体を通じて伝送されることがありうる。コンピュータ可読媒体はコンピュータ可読ストレージ媒体を含む。コンピュータ可読ストレージ媒体は、コンピュータがアクセス可能な任意の利用可能なストレージ媒体であることができる。限定することなく例示すると、そのようなコンピュータ可読ストレージ媒体は、RAM、ROM、EEPROM、CD−ROMその他の光ディスク・ストレージ、磁気ディスク・ストレージその他の磁気ストレージ・デバイス、又は、命令若しくはデータ構造の形式の所望のプログラム・コードを運ぶか若しくは記憶するために用いることができ、コンピュータがアクセス可能な任意の他の媒体を含むことができる。ここに使用するディスク(disk and disc)は、コンパクト・ディスク(CD)、レーザー・ディスク、光ディスク、デジタル・バーサタイル・ディスク(DVD)、フロッピー・ディスク及びブルーレイ・ディスク(BD)を含み、ここで、ディスク(disks)は、通常、データを磁気的に再生するものであり、ディスク(discs)は、通常、レーザを用いてデータを光学的に再生するものである。更に、伝播される信号は、コンピュータ可読ストレージ媒体の範囲に含まれない。また、コンピュータ可読媒体は通信媒体を含み、通信媒体は、コンピュータ・プログラムをある場所から別の場所へと伝送することを手助けする任意の媒体を含むものである。接続は、例えば、通信媒体でありうる。例えば、ソフトウエアが、ウェブサイト、サーバその他リモート・ソースから、同軸ケーブル、光ファイバ・ケーブル、ツイスト・ペア、デジタル加入者回線(DSL)、又は、赤外線、無線、マイクロ波等のワイヤレス技術を用いて伝送される場合、上記同軸ケーブル、光ファイバ・ケーブル、ツイスト・ペア、DSL、又は、赤外線、無線、マイクロ波等のワイヤレス技術は、通信媒体の定義に含まれる。上述したものの組み合わせもまた、コンピュータ可読媒体の範囲に含まれるべきである。
[0088]代替として又は追加として、ここに記載した機能を、少なくとも部分的に、1つ又は複数のハードウエア・ロジック・コンポーネントにより実行することができる。限定することなく例示すると、使用可能なハードウエア・ロジック・コンポーネントの例示のタイプは、フィールドプログラマブル・ゲート・アレイ(FPGA)、プログラム固有集積回路(ASIC)、プログラム固有スタンダード・プロダクト(ASSP)、システムオンチップ・システム(SOC)、結合プログラム可能論理回路(CPLD)等を含む。
[0089]上に記載してきたことは、1つ又は複数の実施形態の例を含む。むろん、上述の態様を記載する目的で、上記デバイス又は技法の考えられるあらゆる修正及び代替を記載することは不可能であるが、当業者であれば、様々な態様の多くの更なる修正及び変形が可能であることを認識可能である。従って、記載した態様は、添付した特許請求の範囲の精神及び範囲に入る全てのそのような代替、修正及び変形を含むことを意図している。更にまた、発明の詳細な説明又は特許請求の範囲の何れかにおいて用語「含む(include)」を用いる限りにおいて、当該用語は、用語「含む(comprising)」が、請求項におけるトランジショナル・ワード(transitional word)として用いられる際に「含む(comprising)」が解釈されるときと同様の手法において両立的であることを意図している。

Claims (10)

  1. アラームを受信するステップであって、前記アラームは、ネットワーク障害を示す障害状況を含む、ステップと、
    前記アラームの受信に応答して、履歴データにアクセスするステップであって、前記履歴データは、前記ネットワーク障害の障害症状と、前記ネットワーク障害を軽減するために以前にとられたトラブルシューティング・オプションとを含む、ステップと、
    前記アラームの前記障害状況を、前記履歴データにおける前記障害症状にマッピングするステップと、
    前記アラームの前記障害状況の前記障害症状へのマッピングに応答して、前記トラブルシューティング・オプションを識別するステップと、
    前記トラブルシューティング・オプションにそれぞれのラベルを割り当てるステップであって、前記ラベルは、前記トラブルシューティング・オプションが前記障害症状を軽減するであろうそれぞれの確率を示す、ステップと、
    複数の前記トラブルシューティング・オプションと、それらのそれぞれのラベルとを出力するステップと
    を含む方法。
  2. 請求項1に記載の方法であって、
    フィードバックをオペレータから受信するステップであって、前記フィードバックは、前記障害症状が軽減され、前記トラブルシューティング・オプションのうちの第1のトラブルシューティング・オプションが前記障害症状を軽減するために用いられたというものである、ステップと、
    前記履歴データを前記フィードバックに基づき更新するステップと
    を更に含む方法。
  3. 請求項1に記載の方法であって、
    前記アラームの受信に応答して、前記ネットワーク障害を引き起こした障害デバイスを識別するステップであって、前記アラームの前記障害状況の前記履歴データにおける前記障害症状への前記マッピングは、前記障害デバイスの前記識別に基づき、前記トラブルシューティング・オプションの前記識別は、前記障害デバイスの前記識別に基づく、ステップと
    を更に含む方法。
  4. 請求項3に記載の方法であって、前記履歴データは、前記障害デバイスについてのデバイス障害履歴テーブルを含み、前記デバイス障害履歴テーブルは、前記障害デバイスが以前に呈した障害症状を含み、前記障害症状は、前記障害デバイスが以前に呈した障害症状に含まれ、前記障害履歴テーブルは、前前記障害デバイスが以前に呈した前記障害症状についての前記トラブルシューティング・オプションを更に含む、方法。
  5. 請求項1に記載の方法であって、
    前記トラブルシューティング・オプションからの1つのトラブルシューティング・オプションの選択を受信するステップと、
    前記1つのトラブルシューティング・オプションの前記選択を受信することに応答して、デバッギング・ステップを表示するステップであって、前記デバッギング・ステップは、前記ネットワーク障害を解決するための命令を含む、ステップと
    を更に含む方法。
  6. 請求項1に記載の方法であって、
    前記複数のトラブルシューティング・オプションと、それらのそれぞれのラベルとを出力することに応答して、前記データ・センター内のデバイスに信号を送信するステップであって、前記信号は、前記トラブルシューティング・オプションのうちの1つのトラブルシューティング・オプションを、オペレータの介在なく実行させる、ステップ
    を更に含む方法。
  7. 請求項1に記載の方法であって、前記それぞれの確率を、前記トラブルシューティング・オプションがとられたと前記履歴データにおいて示された回数と、前記トラブルシューティング・オプションがそれぞれのネットワーク障害を成功裏に解決したと示された回数とに基づいて計算するステップを更に含む方法。
  8. データ・センターにおけるネットワーク障害の解決を手助けする解決システムであって、該解決システムは、
    プロセッサと、
    前記プロセッサにより実行される複数のコンポーネントを含むメモリと
    を備え、前記複数のコンポーネントは、
    アラームを受信するアラーム受信コンポーネントであって、前記アラームは前記データ・センターにおけるネットワーク障害を示す、前記アラーム受信コンポーネントと、
    前記アラーム受信コンポーネントによる前記アラームの受信に応答して、前記ネットワーク障害を解決するためのトラブルシューティング・オプションを出力する解決識別コンポーネントであって、前記トラブルシューティング・オプションは、それぞれに割り当てられたラベルを有し、該ラベルは、前記トラブルシューティング・オプションが、前記データ・センターのオペレータにより実行されたときに、前記ネットワーク障害を解決するであろう確実性を示す、前記解決識別コンポーネントと
    を含む、解決システム。
  9. 請求項8に記載の解決システムであって、前記解決識別コンポーネントは、前記ラベルを、前記トラブルシューティング・オプションに関するオペレータのフィードバックに基づき決定する、解決システム。
  10. 請求項8に記載の解決システムであって、前記アラームはネットワーク・インフラストラクチャ・デバイスが発生させ、該ネットワーク・インフラストラクチャ・デバイスは、スイッチと、ルータと、リルータと、ゲートウェイと、ハブと、ブリッジとのうちの1つである、解決システム。
JP2016558574A 2014-03-24 2015-03-19 ネットワーク障害のトラブルシューティング・オプションの識別 Active JP6959736B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/223,995 2014-03-24
US14/223,995 US10263836B2 (en) 2014-03-24 2014-03-24 Identifying troubleshooting options for resolving network failures
PCT/US2015/021360 WO2015148234A1 (en) 2014-03-24 2015-03-19 Identifying troubleshooting options for resolving network failures

Publications (3)

Publication Number Publication Date
JP2017509262A true JP2017509262A (ja) 2017-03-30
JP2017509262A5 JP2017509262A5 (ja) 2018-04-19
JP6959736B2 JP6959736B2 (ja) 2021-11-05

Family

ID=52988406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016558574A Active JP6959736B2 (ja) 2014-03-24 2015-03-19 ネットワーク障害のトラブルシューティング・オプションの識別

Country Status (6)

Country Link
US (2) US10263836B2 (ja)
EP (1) EP3123666B1 (ja)
JP (1) JP6959736B2 (ja)
CN (1) CN106165345B (ja)
RU (1) RU2682018C2 (ja)
WO (1) WO2015148234A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022259496A1 (ja) * 2021-06-10 2022-12-15 日本電信電話株式会社 分析装置、分析方法、および、分析プログラム

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10791148B2 (en) * 2013-04-29 2020-09-29 Moogsoft Inc. System in communication with a managed infrastructure
US10263836B2 (en) 2014-03-24 2019-04-16 Microsoft Technology Licensing, Llc Identifying troubleshooting options for resolving network failures
US9465685B2 (en) * 2015-02-02 2016-10-11 International Business Machines Corporation Identifying solutions to application execution problems in distributed computing environments
US20160274962A1 (en) * 2015-03-19 2016-09-22 Alcatel-Lucent Usa Inc. Self-Tuning Troubleshooting Scripts
US10374904B2 (en) 2015-05-15 2019-08-06 Cisco Technology, Inc. Diagnostic network visualization
US10536357B2 (en) 2015-06-05 2020-01-14 Cisco Technology, Inc. Late data detection in data center
US9967158B2 (en) 2015-06-05 2018-05-08 Cisco Technology, Inc. Interactive hierarchical network chord diagram for application dependency mapping
US10142353B2 (en) 2015-06-05 2018-11-27 Cisco Technology, Inc. System for monitoring and managing datacenters
US10728085B1 (en) * 2015-09-15 2020-07-28 Amazon Technologies, Inc. Model-based network management
US10193742B2 (en) * 2015-10-29 2019-01-29 Kodacloud Inc. Selecting a corrective action for a network connection problem based on historical data
CN106834149B (zh) * 2015-12-03 2019-10-29 中国科学院沈阳应用生态研究所 成刚菌属嗜甲基短杆菌及其在降解磺酰脲除草剂的应用
US10291648B2 (en) * 2015-12-22 2019-05-14 At&T Intellectual Property I, L.P. System for distributing virtual entity behavior profiling in cloud deployments
CN107040395B (zh) * 2016-02-03 2019-11-15 腾讯科技(深圳)有限公司 一种告警信息的处理方法、装置和系统
US10073753B2 (en) * 2016-02-14 2018-09-11 Dell Products, Lp System and method to assess information handling system health and resource utilization
CN107171820B (zh) * 2016-03-08 2019-12-31 北京京东尚科信息技术有限公司 信息传输、发送、获取方法和装置
US10169133B2 (en) * 2016-04-26 2019-01-01 Juniper Networks, Inc. Method, system, and apparatus for debugging networking malfunctions within network nodes
US10289438B2 (en) 2016-06-16 2019-05-14 Cisco Technology, Inc. Techniques for coordination of application components deployed on distributed virtual machines
US10708183B2 (en) 2016-07-21 2020-07-07 Cisco Technology, Inc. System and method of providing segment routing as a service
US10972388B2 (en) 2016-11-22 2021-04-06 Cisco Technology, Inc. Federated microburst detection
US10469603B2 (en) * 2016-12-08 2019-11-05 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Using a historical record of actions taken by a group of users to identify responsive actions in a computing system
US10331507B2 (en) * 2016-12-21 2019-06-25 Mastercard International Incorporated Systems and methods for real time computer fault evaluation
WO2018127304A1 (en) * 2017-01-04 2018-07-12 Telefonaktiebolaget Lm Ericsson (Publ) Apparatus and method for network incident troubleshooting
US11329864B2 (en) * 2017-01-13 2022-05-10 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Remote computing system event resolution
US10275296B2 (en) * 2017-01-24 2019-04-30 Wipro Limited Method and system for resolving one or more errors in an enterprise storage system
US10708152B2 (en) 2017-03-23 2020-07-07 Cisco Technology, Inc. Predicting application and network performance
US10523512B2 (en) 2017-03-24 2019-12-31 Cisco Technology, Inc. Network agent for generating platform specific network policies
US10250446B2 (en) 2017-03-27 2019-04-02 Cisco Technology, Inc. Distributed policy store
US10764141B2 (en) 2017-03-27 2020-09-01 Cisco Technology, Inc. Network agent for reporting to a network policy system
US10594560B2 (en) 2017-03-27 2020-03-17 Cisco Technology, Inc. Intent driven network policy platform
US10873794B2 (en) 2017-03-28 2020-12-22 Cisco Technology, Inc. Flowlet resolution for application performance monitoring and management
CN113766035B (zh) * 2017-03-28 2023-05-23 创新先进技术有限公司 一种业务受理及共识的方法及装置
US10680887B2 (en) 2017-07-21 2020-06-09 Cisco Technology, Inc. Remote device status audit and recovery
CN107204883B (zh) * 2017-07-27 2020-09-08 北京小米移动软件有限公司 网络故障处理方法及装置
US10379934B2 (en) * 2017-07-31 2019-08-13 Oracle International Corporation System and method of providing post error analysis for instances of applications in cloud service environments on a per user basis
US11010238B2 (en) * 2017-08-01 2021-05-18 Hitachi, Ltd. Management system of storage system
US10771314B2 (en) * 2017-09-15 2020-09-08 Accenture Global Solutions Limited Learning based incident or defect resolution, and test generation
US10554501B2 (en) 2017-10-23 2020-02-04 Cisco Technology, Inc. Network migration assistant
US10523541B2 (en) 2017-10-25 2019-12-31 Cisco Technology, Inc. Federated network and application data analytics platform
US10594542B2 (en) 2017-10-27 2020-03-17 Cisco Technology, Inc. System and method for network root cause analysis
US11233821B2 (en) 2018-01-04 2022-01-25 Cisco Technology, Inc. Network intrusion counter-intelligence
US10574575B2 (en) 2018-01-25 2020-02-25 Cisco Technology, Inc. Network flow stitching using middle box flow stitching
US10798015B2 (en) 2018-01-25 2020-10-06 Cisco Technology, Inc. Discovery of middleboxes using traffic flow stitching
US10826803B2 (en) 2018-01-25 2020-11-03 Cisco Technology, Inc. Mechanism for facilitating efficient policy updates
US10999149B2 (en) 2018-01-25 2021-05-04 Cisco Technology, Inc. Automatic configuration discovery based on traffic flow data
US11128700B2 (en) 2018-01-26 2021-09-21 Cisco Technology, Inc. Load balancing configuration based on traffic flow telemetry
US10628283B2 (en) * 2018-03-12 2020-04-21 Bank Of America Corporation Deployment tool that corrects deployment errors
US10838948B2 (en) * 2018-04-30 2020-11-17 Hewlett Packard Enterprise Development Lp Switch configuration troubleshooting
US10904070B2 (en) * 2018-07-11 2021-01-26 Cisco Technology, Inc. Techniques and interfaces for troubleshooting datacenter networks
US10769006B2 (en) * 2018-07-31 2020-09-08 Cisco Technology, Inc. Ensemble risk assessment method for networked devices
US11200142B2 (en) * 2018-10-26 2021-12-14 International Business Machines Corporation Perform preemptive identification and reduction of risk of failure in computational systems by training a machine learning module
US11200103B2 (en) 2018-10-26 2021-12-14 International Business Machines Corporation Using a machine learning module to perform preemptive identification and reduction of risk of failure in computational systems
US10824528B2 (en) 2018-11-27 2020-11-03 Capital One Services, Llc Techniques and system for optimization driven by dynamic resilience
US10282248B1 (en) * 2018-11-27 2019-05-07 Capital One Services, Llc Technology system auto-recovery and optimality engine and techniques
CA3073463C (en) * 2019-02-21 2023-11-28 Sandvine Corporation System and method for providing a network traffic portal
US11743105B2 (en) 2019-06-03 2023-08-29 Hewlett Packard Enterprise Development Lp Extracting and tagging text about networking entities from human readable textual data sources and using tagged text to build graph of nodes including networking entities
CN110247821B (zh) * 2019-06-04 2022-10-18 平安科技(深圳)有限公司 一种故障检测方法及相关设备
US10917288B2 (en) * 2019-06-25 2021-02-09 Bank Of America Corporation Adaptive edge-shift for enterprise contingency operations
US11294755B2 (en) * 2019-07-05 2022-04-05 Dell Products L.P. Automated method of identifying troubleshooting and system repair instructions using complementary machine learning models
US10691528B1 (en) * 2019-07-23 2020-06-23 Core Scientific, Inc. Automatic repair of computing devices in a data center
US11275664B2 (en) * 2019-07-25 2022-03-15 Dell Products L.P. Encoding and decoding troubleshooting actions with machine learning to predict repair solutions
TWI725552B (zh) * 2019-09-24 2021-04-21 旺捷智能感知股份有限公司 機台病灶分析系統及具有機台病灶分析功能之穿戴式電子裝置
US11144038B2 (en) * 2019-09-27 2021-10-12 Rockwell Automation Technologies, Inc. System and method for industrial automation troubleshooting
US10686645B1 (en) 2019-10-09 2020-06-16 Capital One Services, Llc Scalable subscriptions for virtual collaborative workspaces
US11477077B1 (en) * 2019-10-30 2022-10-18 United Services Automobile Association (Usaa) Change management system with monitoring, alerting, and trending for information technology environment
CN112910781B (zh) * 2019-12-04 2022-12-06 中国电信股份有限公司 网络故障切换方法、装置、系统和存储介质
US10904383B1 (en) * 2020-02-19 2021-01-26 International Business Machines Corporation Assigning operators to incidents
US11283671B2 (en) * 2020-02-28 2022-03-22 Hewlett Packard Enterprise Development Lp Handling issues reported by network devices
US11501222B2 (en) 2020-03-20 2022-11-15 International Business Machines Corporation Training operators through co-assignment
US11204824B1 (en) 2020-06-19 2021-12-21 Accenture Global Solutions Limited Intelligent network operation platform for network fault mitigation
EP3926891B1 (en) * 2020-06-19 2024-05-08 Accenture Global Solutions Limited Intelligent network operation platform for network fault mitigation
CN112118248B (zh) * 2020-09-11 2022-06-14 苏州浪潮智能科技有限公司 云平台虚拟机异常流量检测方法、装置、虚拟机及系统
US11593669B1 (en) * 2020-11-27 2023-02-28 Amazon Technologies, Inc. Systems, methods, and apparatuses for detecting and creating operation incidents
US11627032B2 (en) * 2020-11-30 2023-04-11 At&T Intellectual Property I, L.P. Data-powered shipwright for network cloud maintenance
CN112508129A (zh) * 2020-12-22 2021-03-16 珠海格力智能装备有限公司 设备的异常处理方法及装置
US11388039B1 (en) * 2021-04-09 2022-07-12 International Business Machines Corporation Identifying problem graphs in an information technology infrastructure network
US11677615B2 (en) * 2021-04-23 2023-06-13 Fortinet, Inc. Systems and methods for incorporating automated remediation into information technology incident solutions
JP7339298B2 (ja) * 2021-05-27 2023-09-05 株式会社日立製作所 情報処理システム及び方法並びに装置
CN114418292A (zh) * 2021-12-14 2022-04-29 国电南瑞南京控制系统有限公司 一种系统级停电检修计划标准工期计算体系的构建方法
US20240179061A1 (en) * 2022-04-18 2024-05-30 Rakuten Mobile, Inc. System and method for auto-commissioning of network device
US12088347B2 (en) * 2022-04-22 2024-09-10 Bank Of America Corporation Intelligent monitoring and repair of network services using log feeds provided over Li-Fi networks
CN115934390A (zh) * 2022-11-10 2023-04-07 梅赛德斯-奔驰集团股份公司 处理应用程序崩溃的方法、系统和运行应用程序的设备
US11870648B1 (en) * 2023-05-22 2024-01-09 Saudi Arabian Oil Company System and method for systematically managing network devices

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221295A (ja) * 1995-02-13 1996-08-30 Mitsubishi Electric Corp 障害支援装置
JPH08288944A (ja) * 1995-04-18 1996-11-01 Hitachi Ltd 通信設備管理システム
JPH09307550A (ja) * 1996-05-10 1997-11-28 Hitachi Ltd ネットワークシステム監視装置
JPH10312321A (ja) * 1997-05-12 1998-11-24 Hitachi Ltd オンラインシステム障害解析方法
JP2005196770A (ja) * 2004-12-22 2005-07-21 Seiko Epson Corp ユーザサポート
JP2006085538A (ja) * 2004-09-17 2006-03-30 Nec Fielding Ltd 復旧支援方法及び復旧支援システム並びに復旧支援用プログラム
JP2010045624A (ja) * 2008-08-13 2010-02-25 Fujitsu Ltd 保守システム
JP2010049551A (ja) * 2008-08-22 2010-03-04 Toshiba Corp 障害監視装置および障害監視方法
JP2010072834A (ja) * 2008-09-17 2010-04-02 Fujitsu Ltd 障害対処プログラム及び障害対処装置

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2103744C1 (ru) * 1994-10-06 1998-01-27 Третьяков Сергей Александрович Система тревожной сигнализации
US5881048A (en) * 1996-11-25 1999-03-09 Mci Communication Corporation Method and apparatus for determining maximum network failure spans forrestoration
US6470386B1 (en) * 1997-09-26 2002-10-22 Worldcom, Inc. Integrated proxy interface for web based telecommunications management tools
FI107312B (fi) 1997-10-14 2001-06-29 Nokia Networks Oy Verkonvalvontamenetelmä tietoliikenneverkkoa varten
EP1190342A2 (en) * 1999-05-24 2002-03-27 Aprisma Management Technologies, Inc. Service level management
US7660240B2 (en) * 2002-11-21 2010-02-09 Huawei Technologies Co., Ltd. Method of achieving the network link status penetrate
CN100433642C (zh) * 2005-03-15 2008-11-12 华为技术有限公司 一种故障定位和故障排除方法和系统
US7669085B2 (en) * 2005-04-15 2010-02-23 Microsoft Corporation Method and apparatus for performing wireless diagnostics and troubleshooting
JP4626852B2 (ja) * 2005-07-11 2011-02-09 日本電気株式会社 通信網の障害検出システム、通信網の障害検出方法及び障害検出プログラム
US8437246B1 (en) 2005-12-30 2013-05-07 At&T Intellectual Property Ii, L.P. Method and apparatus for providing internet protocol call signaling network assurance
US20080181100A1 (en) * 2007-01-31 2008-07-31 Charlie Chen-Yui Yang Methods and apparatus to manage network correction procedures
JP5349457B2 (ja) * 2007-04-23 2013-11-20 トムソン ライセンシング ゲートウエイ装置において障害を検出する方法及び装置
US8041663B2 (en) 2008-02-27 2011-10-18 International Business Machines Corporation Method for predicting problematic configurations and recommending safe configurations
JP4502037B2 (ja) * 2008-04-02 2010-07-14 トヨタ自動車株式会社 故障診断用情報生成装置及びシステム
US8332690B1 (en) 2008-06-27 2012-12-11 Symantec Corporation Method and apparatus for managing failures in a datacenter
US7962472B2 (en) 2008-09-29 2011-06-14 International Business Machines Corporation Self-optimizing algorithm for real-time problem resolution using historical data
CN102055604B (zh) * 2009-11-05 2012-12-05 中国移动通信集团山东有限公司 一种故障定位方法及其系统
CN102143008A (zh) 2010-01-29 2011-08-03 国际商业机器公司 用于数据中心的诊断故障事件的方法及装置
US8365009B2 (en) 2010-09-10 2013-01-29 Microsoft Corporation Controlled automatic healing of data-center services
US8560474B2 (en) 2011-03-07 2013-10-15 Cisco Technology, Inc. System and method for providing adaptive manufacturing diagnoses in a circuit board environment
US8806550B1 (en) * 2011-11-01 2014-08-12 TV2 Consulting, LLC Rules engine for troubleshooting video content delivery network
WO2013071125A1 (en) 2011-11-11 2013-05-16 Level 3 Communications, Llc Systems and methods for automatic replacement and repair of communications network devices
US20130232382A1 (en) 2012-03-01 2013-09-05 Microsoft Corporation Method and system for determining the impact of failures in data center networks
US9178778B2 (en) * 2012-03-23 2015-11-03 Avaya Inc. System and method for end-to-end RTCP
GB2500740B (en) * 2012-03-23 2014-07-09 Avaya Inc System and method for end-to-end RTCP
US9824403B2 (en) * 2012-08-17 2017-11-21 International Business Machines Corporation Measuring problems from social media discussions
US9026851B2 (en) * 2012-09-05 2015-05-05 Wipro Limited System and method for intelligent troubleshooting of in-service customer experience issues in communication networks
US9628362B2 (en) * 2013-02-05 2017-04-18 Cisco Technology, Inc. Learning machine based detection of abnormal network performance
US9411787B1 (en) * 2013-03-15 2016-08-09 Thousandeyes, Inc. Cross-layer troubleshooting of application delivery
EP3000254B1 (en) * 2013-05-22 2022-05-11 Vivo Mobile Communication Co., Ltd. Fault tracking in a telecommunications system
US9274902B1 (en) * 2013-08-07 2016-03-01 Amazon Technologies, Inc. Distributed computing fault management
US9443196B1 (en) * 2013-09-30 2016-09-13 Emc Corporation Method and apparatus for problem analysis using a causal map
US10263836B2 (en) 2014-03-24 2019-04-16 Microsoft Technology Licensing, Llc Identifying troubleshooting options for resolving network failures
US10142353B2 (en) * 2015-06-05 2018-11-27 Cisco Technology, Inc. System for monitoring and managing datacenters
US10102054B2 (en) * 2015-10-27 2018-10-16 Time Warner Cable Enterprises Llc Anomaly detection, alerting, and failure correction in a network
KR102036470B1 (ko) * 2016-01-18 2019-10-24 비아비 솔루션즈 아이엔씨. 이동 통신 신호의 왜곡 또는 손상의 검출 방법 및 장치
US9888397B1 (en) * 2016-09-16 2018-02-06 Verizon Patent And Licensing Inc. Intelligent network analytics architecture

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221295A (ja) * 1995-02-13 1996-08-30 Mitsubishi Electric Corp 障害支援装置
JPH08288944A (ja) * 1995-04-18 1996-11-01 Hitachi Ltd 通信設備管理システム
JPH09307550A (ja) * 1996-05-10 1997-11-28 Hitachi Ltd ネットワークシステム監視装置
JPH10312321A (ja) * 1997-05-12 1998-11-24 Hitachi Ltd オンラインシステム障害解析方法
JP2006085538A (ja) * 2004-09-17 2006-03-30 Nec Fielding Ltd 復旧支援方法及び復旧支援システム並びに復旧支援用プログラム
JP2005196770A (ja) * 2004-12-22 2005-07-21 Seiko Epson Corp ユーザサポート
JP2010045624A (ja) * 2008-08-13 2010-02-25 Fujitsu Ltd 保守システム
JP2010049551A (ja) * 2008-08-22 2010-03-04 Toshiba Corp 障害監視装置および障害監視方法
JP2010072834A (ja) * 2008-09-17 2010-04-02 Fujitsu Ltd 障害対処プログラム及び障害対処装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022259496A1 (ja) * 2021-06-10 2022-12-15 日本電信電話株式会社 分析装置、分析方法、および、分析プログラム

Also Published As

Publication number Publication date
US10263836B2 (en) 2019-04-16
RU2016137896A3 (ja) 2018-09-19
WO2015148234A1 (en) 2015-10-01
US20150271008A1 (en) 2015-09-24
JP6959736B2 (ja) 2021-11-05
CN106165345A (zh) 2016-11-23
EP3123666B1 (en) 2017-06-28
BR112016020189A8 (pt) 2021-06-29
RU2682018C2 (ru) 2019-03-14
CN106165345B (zh) 2019-11-26
EP3123666A1 (en) 2017-02-01
RU2016137896A (ru) 2018-03-28
BR112016020189A2 (pt) 2017-08-15
US11057266B2 (en) 2021-07-06
US20190215236A1 (en) 2019-07-11

Similar Documents

Publication Publication Date Title
US11057266B2 (en) Identifying troubleshooting options for resolving network failures
EP3467657B1 (en) Smart priority system for enterprise alerts
US11269718B1 (en) Root cause detection and corrective action diagnosis system
CN113328872B (zh) 故障修复方法、装置和存储介质
US9071535B2 (en) Comparing node states to detect anomalies
US11042476B2 (en) Variability system and analytics for continuous reliability in cloud-based workflows
KR100714157B1 (ko) 컴퓨터 기반 방법, 컴퓨터 판독 가능 기록 매체 및 데이터 처리 시스템
US10462027B2 (en) Cloud network stability
US12040935B2 (en) Root cause detection of anomalous behavior using network relationships and event correlation
CN110178121B (zh) 一种数据库的检测方法及其终端
US20160179598A1 (en) System and method of visualizing historical event correlations in a data center
JP5542398B2 (ja) 障害の根本原因解析結果表示方法、装置、及びシステム
AU2016213726A1 (en) Core network analytics system
US11531581B2 (en) Event root cause identification for computing environments
US9860109B2 (en) Automatic alert generation
US20220230114A1 (en) Automatically identifying and correcting erroneous process actions using artificial intelligence techniques
US20170168884A1 (en) Generic alarm correlation by means of normalized alarm codes
US20180196708A1 (en) System management apparatus and system management method
US20210194752A1 (en) Alarm prioritization in a 5g telco network
US10466984B2 (en) Identifying and associating computer assets impacted by potential change to a particular computer asset
US11356317B2 (en) Alarm prioritization in a 5G telco network
JP2016072668A (ja) 影響範囲特定装置、影響範囲特定方法、及びプログラム
BR112016020189B1 (pt) Método e sistema de resolução que facilita resolução de falhas de rede em centro de dados
US20240193029A1 (en) Method and system for automatically selecting and executing solutions on the target application
US20220414618A1 (en) Management and aggregation of ticket data from multiple sources

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180307

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190618

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200326

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20200326

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200403

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20200406

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20200703

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20200707

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20201111

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20210217

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20210407

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20210811

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20210909

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20210909

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211008

R150 Certificate of patent or registration of utility model

Ref document number: 6959736

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250