JP2021141582A

JP2021141582A - 障害回復方法および障害回復装置、ならびに記憶媒体

Info

Publication number: JP2021141582A
Application number: JP2021030333A
Authority: JP
Inventors: ユミン・シエ; Yuming Xie; リアン・ジャン; Liang Zhang; ウェイ・ソン; Wei Song; レイ・ジャン; Lei Zhang
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-02-29
Filing date: 2021-02-26
Publication date: 2021-09-16
Anticipated expiration: 2041-02-26
Also published as: CN113328872A; US11706079B2; JP7293270B2; EP3873033A1; US20210273844A1; CN113328872B

Abstract

【課題】ネットワーク障害回復の比較的低い効率に対処するための、障害回復方法及び障害回復装置並びに記憶媒体を提供する。【解決手段】方法は、ターゲットネットワークのネットワーク構成情報および異常イベント情報を取得する。ネットワーク構成情報は、ターゲットネットワークのネットワークトポロジー及びターゲットネットワーク上の複数のネットワークデバイスのデバイス情報を含む。デバイス情報は、インターフェース構成情報、プロトコル構成情報及びサービス構成情報のうちの1つ又は複数を含む。方法はさらに、ネットワーク構成情報および異常イベント情報に基づいて、ターゲットネットワークの障害の考えられる根本原因を特定する。障害の考えられる根本原因は、対応する障害回復計画を決定するために使用する。【選択図】図２

Description

本出願は、インターネット技術の分野に関し、特に、障害回復方法および障害回復装置、ならびに記憶媒体に関する。

ネットワーク障害とは、正常なサービスを提供できないか、またはハードウェアの問題、ソフトウェアの脆弱性、もしくはその他の原因によりサービス品質が低下する状態である。一般的なネットワーク障害には、主に、物理層障害、データリンク層障害、ネットワーク層障害、イーサネット障害、広域ネットワーク障害、伝送制御プロトコル（transmission control protocol（TCP））／インターネットプロトコル（Internet protocol（IP））障害、サーバ障害、その他のサービス障害などが含まれる。

現在、ネットワーク障害回復は、主に、運営保守担当者によって、警報監視に重点を置いて行われている。具体的には、監視担当者が、警報監視によって障害を発見し、チケットをディスパッチする。チケットがディスパッチされた後、保守担当者は、管理機能、ログ解析、および専門家の経験を使用して障害診断を行う。障害が特定された後、保守担当者は、緊急回復措置を選択および評価し、最終的にネットワーク障害回復を行う。

しかしながら、ネットワーク規模の増大とともに、警報の数も指数関数的に、一日あたり数百万単位ですら増加している。運営保守担当者が大量の警報の中で障害を特定することは非常に困難である。この場合、障害特定に多くの時間と労力を要し、それによって、診断までの平均時間（mean time to diagnose（MTTD））が延長され、ネットワーク障害回復の効率が比較的低くなる。

本出願では、関連技術におけるネットワーク障害回復の比較的低い効率に対処するために、障害回復方法および障害回復装置、ならびに記憶媒体を提供する。この技術的解決策は以下のとおりである。

第1の態様によれば、障害回復方法が提供される。方法では、ターゲットネットワークのネットワーク構成情報および異常イベント情報が取得され、ネットワーク構成情報は、ターゲットネットワークのネットワークトポロジーおよびターゲットネットワーク上の複数のネットワークデバイスのデバイス情報を含み、デバイス情報は、インターフェース構成情報、プロトコル構成情報、およびサービス構成情報のうちの1つまたは複数を含み、ネットワーク構成情報および異常イベント情報に基づいて、ターゲットネットワークの障害の考えられる根本原因が特定され、障害の考えられる根本原因は、対応する障害回復計画を決定するために使用される。

任意選択で、デバイス情報は、ルーティングエントリおよび／または転送エントリをさらに含む。

本出願では、障害検出がネットワーク構成情報に基づいて自動的に実施され、それに応じて障害回復計画を自動的に与えることができるので、ネットワーク障害回復の精度および効率を大幅に向上させることができる。

任意選択で、ネットワーク構成情報および異常イベント情報に基づいてターゲットネットワークの障害の考えられる根本原因を特定するステップは、ターゲットネットワークの障害の考えられる根本原因を取得するためにネットワーク構成情報および異常イベント情報を根本原因特定モデルに入力するステップを含む。

本出願では、障害の考えられる根本原因を、ネットワーク構成情報に基づいて異常イベント情報から、根本原因特定モデルを使用して、解析を通じて、自動的に取得することができ、それによって、障害の考えられる根本原因を特定する速度および精度が向上する。

1つの可能な実施態様では、ネットワーク構成情報および異常イベント情報に基づいてターゲットネットワークの障害の考えられる根本原因を特定するステップの後に、方法は、障害の考えられる根本原因を制御デバイスに送信するステップと、障害の考えられる根本原因に対応する、制御デバイスによって送信される精度マーキングを受信するステップであって、精度マーキングが、障害の考えられる根本原因が正確であることを確認するために使用される、ステップと、根本原因特定モデルを更新するために使用される訓練サンプルを生成するステップであって、訓練サンプルが、ネットワーク構成情報および異常イベント情報を含み、訓練サンプルのラベルが障害の考えられる根本原因である、ステップとをさらに含む。

本出願では、ネットワーク障害回復中に、自動根本原因フィードバックが実施されて、根本原因特定モデルを自動的に最適化するので、根本原因特定モデルの性能を絶えず向上させることができ、根本原因特定モデルの出力結果の精度を向上させることができる。

1つの可能な実施態様では、ネットワーク構成情報および異常イベント情報に基づいてターゲットネットワークの障害の考えられる根本原因を特定するステップの後に、方法は、障害の考えられる根本原因に対応する障害回復計画を取得するステップと、ネットワーク障害の障害回復計画の有効性が判断された後、根本原因特定モデルを更新するために使用される訓練サンプルを生成するステップであって、訓練サンプルが、ネットワーク構成情報および異常イベント情報を含み、訓練サンプルのラベルが障害の考えられる根本原因である、ステップとをさらに含む。

任意選択で、ターゲットネットワークのネットワーク構成情報および異常イベント情報を取得するステップは、ターゲットネットワークのネットワーク構成情報およびネットワーク状況情報を取得するステップと、ネットワーク構成情報に基づいてネットワーク状況情報におけるターゲットネットワークの異常イベント情報を特定するステップとを含む。

任意選択で、ネットワーク構成情報に基づいてネットワーク状況情報におけるターゲットネットワークの異常イベント情報を特定するステップは、異常イベント情報を取得するためにネットワーク構成情報およびネットワーク状況情報を異常特定モデルに入力するステップを含む。ネットワーク状況情報は、ログ、警報、主要性能指標（key performance indicator）KPI値、およびデータ・フロー・リンク・セットアップ・パケットの異常状況のうちの1つまたは複数を含む。

本出願では、異常イベント情報を、ネットワーク構成情報に基づいてネットワーク状況情報において、異常特定モデルを使用して、クラスタ解析を通じて、自動的に特定することができ、それによって、異常イベント情報を発見する速度および精度が向上する。

任意選択で、障害の考えられる根本原因に対応する障害レベルが、障害の考えられる根本原因と障害レベルとの間の対応関係からさらに取得されてもよい。その場合障害レベルが表示され得るので、当業者は、現在のネットワーク障害の重大度を適時に知ることができる。

第2の態様によれば、障害回復装置が提供される。装置は、第1の態様の障害回復方法における動作を実施する機能を有する。障害回復装置は、少なくとも1つのモジュールを含む。少なくとも1つのモジュールは、第1の態様で提供される障害回復方法を実施するように構成される。

第3の態様によれば、障害回復装置が提供される。障害回復装置の構造は、プロセッサとメモリとを含む。メモリは、障害回復装置が第1の態様で提供される障害回復方法を行うのを支援するプログラムを格納し、第1の態様の障害回復方法を実施するために使用されるデータを格納するように構成される。プロセッサは、メモリに格納されたプログラムを実行するように構成される。障害回復装置は、通信バスをさらに含み得る。通信バスは、プロセッサとメモリとの間の接続を確立するように構成される。

第4の態様によれば、コンピュータ可読記憶媒体が提供される。コンピュータ可読記憶媒体は、命令を格納する。命令がコンピュータ上で動作すると、コンピュータは、第1の態様の障害回復方法を行うことができるようになる。

第5の態様によれば、命令を含むコンピュータプログラム製品が提供される。コンピュータプログラム製品がコンピュータ上で動作すると、コンピュータは、第1の態様の障害回復方法を行うことができるようになる。

第6の態様によれば、障害回復方法が提供される。方法では、解析デバイスによって送信された、ターゲットネットワークの障害の考えられる根本原因が受信され、障害の考えられる根本原因は、ネットワーク構成情報および異常イベント情報に基づいて解析デバイスによって特定され、ネットワーク構成情報は、ターゲットネットワークのネットワークトポロジーおよびターゲットネットワーク上の複数のネットワークデバイスのデバイス情報を含み、デバイス情報は、インターフェース構成情報、プロトコル構成情報、およびサービス構成情報のうちの1つまたは複数を含み、障害の考えられる根本原因に対応する決定された障害回復計画が取得される。

任意選択で、解析デバイスによって送信された、ターゲットネットワークの障害の考えられる根本原因が受信された後、障害の考えられる根本原因に対応する障害回復計画がさらに取得されてもよく、ネットワーク障害の障害回復計画の有効性が判断された後、障害の考えられる根本原因に対応する精度マーキングが生成され、精度マーキングは、障害の考えられる根本原因が正確であることを確認するために使用され、障害の考えられる根本原因に対応する精度マーキングは、解析デバイスに送信される。

本出願では、ネットワーク障害回復中に、自動根本原因フィードバックが実施されて、根本原因特定モデルおよび／または異常特定モデルを自動的に最適化するので、根本原因特定モデルおよび／または異常特定モデルの性能を絶えず向上させることができ、根本原因特定モデルおよび／または異常特定モデルの出力結果の精度を向上させることができる。

任意選択で、方法は、障害の考えられる根本原因と障害レベルとの間の対応関係から、障害の考えられる根本原因に対応する障害レベルを取得するステップをさらに含む。その場合障害レベルが表示され得るので、当業者は、現在のネットワーク障害の重大度を適時に知ることができる。

第7の態様によれば、障害回復装置が提供される。装置は、第6の態様の障害回復方法における動作を実施する機能を有する。障害回復装置は、少なくとも1つのモジュールを含む。少なくとも1つのモジュールは、第6の態様で提供される障害回復方法を実施するように構成される。

第8の態様によれば、障害回復装置が提供される。障害回復装置の構造は、プロセッサとメモリとを含む。メモリは、障害回復装置が第6の態様で提供される障害回復方法を行うのを支援するプログラムを格納し、第6の態様の障害回復方法を実施するために使用されるデータを格納するように構成される。プロセッサは、メモリに格納されたプログラムを実行するように構成される。障害回復装置は、通信バスをさらに含み得る。通信バスは、プロセッサとメモリとの間の接続を確立するように構成される。

第9の態様によれば、コンピュータ可読記憶媒体が提供される。コンピュータ可読記憶媒体は、命令を格納する。命令がコンピュータ上で動作すると、コンピュータは、第6の態様の障害回復方法を行うことができるようになる。

第10の態様によれば、命令を含むコンピュータプログラム製品が提供される。コンピュータプログラム製品がコンピュータ上で動作すると、コンピュータは、第6の態様の障害回復方法を行うことができるようになる。

第2の態様、第3の態様、第4の態様、および第5の態様によって達成される技術的効果は、第1の態様における対応する技術的手段によって達成されるものと同様である。第7の態様、第8の態様、第9の態様、および第10の態様によって達成される技術的効果は、第6の態様における対応する技術的手段によって達成されるものと同様である。ここでは詳細を再度説明しない。

本出願の一実施形態による運営保守システムの概略図である。本出願の一実施形態による障害回復方法の流れ図である。本出願の一実施形態による別の障害回復方法の流れ図である。本出願の一実施形態による別の障害回復方法の流れ図である。本出願の一実施形態によるコンピュータデバイスの概略構造図である。本出願の一実施形態による障害回復装置の概略構造図である。本出願の一実施形態による別の障害回復装置の概略構造図である。

本出願の目的、技術的解決策、および利点をより明確にするために、以下で、添付の図面を参照して本出願の実施態様を詳細にさらに説明する。

本出願の実施形態を詳細に説明する前に、本出願の実施形態におけるシステムアーキテクチャを説明する。

図1は、本出願の一実施形態による運営保守システムの概略図である。図1を参照すると、運営保守システムは、解析デバイス101と、制御デバイス102とを含む。

解析デバイス101は、無線ネットワークまたは有線ネットワークを介してネットワークデバイスと通信し得る。制御デバイス102は、無線ネットワークまたは有線ネットワークを介してネットワークデバイスと通信し得る。解析デバイス101は、無線ネットワークまたは有線ネットワークを介して制御デバイス102と通信し得る。

ネットワークデバイスはデータ転送機能を有することができ、例えば、ネットワークデバイスは、スイッチ、ルータ、または別のデバイスであり得る。ネットワークデバイスは解析デバイス101と情報を交換することができ、例えば、ネットワークデバイスは、データ収集能力について折衝し、データを報告し得る。

解析デバイス101は、第1の解析部および第2の解析部を含み得る。第1の解析部と第2の解析部とは、2つの構成要素として1つの物理デバイスに組み込まれていてもよく、または2つの独立したユニットとして2つの物理デバイスに別々に配置されていてもよい。第1の解析部は、障害を発見するように構成され、第2の解析部は、障害を特定するように構成される。

制御デバイス102は、解析デバイス101およびネットワークデバイスと情報を交換し得る。制御デバイス102は、解析デバイス101によって特定された障害に基づいて障害回復計画を策定し、障害回復計画をネットワークデバイスに配信する。例えば、制御デバイスは、アクセスコントローラ（access controller（AC））であり得る。

以下で、ネットワークデバイス、解析デバイス101、および制御デバイス102の機能を詳細に説明する。

（1）ネットワークデバイス：
ネットワークデバイスは、データ収集能力について解析デバイス101と折衝する。データ収集能力は、データ収集期間、データ収集精度、データ圧縮アルゴリズム、データ暗号化アルゴリズムなどを含み得る。

ネットワークデバイスは、ターゲットネットワークのネットワーク構成情報およびネットワーク状況情報を収集し、その情報を解析デバイス101に報告する。ネットワーク構成情報は、ターゲットネットワークのネットワークトポロジーおよびターゲットネットワーク上の複数のネットワークデバイスのデバイス情報を含む。デバイス情報は、インターフェース構成情報、プロトコル構成情報（例えば、オープン・ショーテスト・パス・ファースト（open shortest path first（OSPF））構成情報）、およびサービス構成情報のうちの1つまたは複数を含み、ルーティングエントリおよび／または転送エントリなどをさらに含み得る。ネットワーク状況情報は、ログ、警報、主要性能指標（KPI）値、データ・フロー・リンク・セットアップ・パケットの異常状況などを含み得る。

（2）解析デバイス101：
解析デバイス101は、障害検出を行う、すなわち、ネットワーク構成情報に基づいてターゲットネットワークの障害の考えられる根本原因を特定し、障害の考えられる根本原因を制御デバイス102に送信するように構成される。

第1の解析部は、障害を発見する、すなわち、異常イベント情報を発見するように構成される。具体的には、第1の解析部は、ネットワーク構成情報に基づいてネットワーク状況情報におけるターゲットネットワークの異常イベント情報を特定し、障害発見結果（すなわち、異常イベント情報）を第2の解析部に送信し得る。

第2の解析部は、障害を特定する、すなわち、障害の考えられる根本原因を特定するように構成される。具体的には、第2の解析部は、ネットワーク構成情報および異常イベント情報に基づいてターゲットネットワークの障害の考えられる根本原因を特定し、障害特定結果（すなわち、障害の考えられる根本原因）を制御デバイス102に送信し得る。

制御デバイス102：
制御デバイス102は、障害の考えられる根本原因に基づいて障害回復計画を取得し、障害回復計画をネットワークデバイスに配信する。ネットワークデバイスは、障害回復計画に従ってネットワーク障害回復を行う。加えて、制御デバイス102は、さらに障害レベルを自動的に判断したり、障害回復計画のサービスに及ぼす影響を解析したりもし得る。

以下で、本出願の実施形態で提供される障害回復方法を詳細に説明する。

図2は、本出願の一実施形態による障害回復方法の流れ図である。方法は、図1に示される運営保守システムに適用される。図2を参照すると、方法は以下のステップを含む。

ステップ201：ターゲットネットワークのネットワーク構成情報およびネットワーク状況情報を取得する。

ターゲットネットワークは、ネットワーク障害検出が行われる必要があるネットワークであることに留意されたい。ネットワーク構成情報は、ターゲットネットワークのネットワークトポロジーおよびターゲットネットワーク上の複数のネットワークデバイスのデバイス情報を含む。デバイス情報は、インターフェース構成情報、プロトコル構成情報（例えば、オープン・ショーテスト・パス・ファースト（OSPF）構成情報）、およびサービス構成情報のうちの1つまたは複数を含み、ルーティングエントリおよび／または転送エントリなどをさらに含み得る。これについては本出願のこの実施形態では限定されない。

加えて、ネットワーク状況情報は、ログ、警報、KPI値（レイテンシ、スループット、パケット損失率、ポート利用率、転送されたバイト数などを含む）、データ・フロー・リンク・セットアップ・パケットの異常状況などのうちの1つまたは複数を含み得る。これについては本出願のこの実施形態では限定されない。

さらに、ネットワーク状況情報は、第1のタイプのネットワーク状況情報および第2のタイプのネットワーク状況情報を含み得る。第1のタイプのネットワーク状況情報は、ネットワーク例外が原因で生成される可能性があり、すなわち、第1のタイプのネットワーク状況情報自体が比較的異常な情報であり、第1のタイプのネットワーク状況情報は、通常、冗長な情報を含む。例えば、第1のタイプのネットワーク状況情報は、警報またはデータ・フロー・リンク・セットアップ・パケットの異常状況であり得る。大量の警報は、通常、多くの冗長な警報、例えば、ネットワーク障害に関連しない警報や、繰り返しの警報を含む。警報がネットワーク障害に関連しているかどうかは、警報タイプを使用して判断され得る。データ・フロー・リンク・セットアップ・パケットの大量の異常状況は、通常、データ・フロー・リンク・セットアップ・パケットの多くの冗長な異常状況、例えば、データ・フロー・リンク・セットアップ・パケットの繰り返しの異常状況を含む。第2のタイプのネットワーク状況情報は、ネットワークが異常であるときには著しく変化し、ネットワークが正常であるときには比較的安定しており、すなわち、第2のタイプのネットワーク状況情報は、例外が発生していることを指示する情報を含み得る。ネットワークが異常であるときには、第2のタイプのネットワーク状況情報が、例外が発生していることを指示する情報を含む可能性は比較的高い。ネットワークが正常であるときには、第2のタイプのネットワーク状況情報が、例外が発生していることを指示する情報を含む可能性は比較的低い。例えば、第2のタイプのネットワーク状況情報は、ログまたはKPI値であり得る。ログは、例外ログ、例えば、一般的ではないタイプのログを含み得る。KPI値は、異常なKPI値、例えば、突然変化する（例えば、突然増加したり、突然減少したりする）KPI値を含み得る。

ネットワーク構成情報とネットワーク状況情報の両方が、ネットワークデバイスによって運営保守システムに能動的に報告され得る。ネットワーク構成情報は、ネットワークデバイスによって定期的に収集および報告され得る。ネットワーク状況情報は、ネットワークデバイスによってリアルタイムで収集および報告され得る。

ネットワークデバイスがネットワーク構成情報およびネットワーク状況情報を運営保守システムに正常に報告するのに役立つように、ステップ201の前に、ネットワークデバイスと運営保守システムとは、データ収集能力について事前に折衝し得る。データ収集能力は、データの収集および伝送に関連した規則であってもよく、例えば、データ収集能力は、データ収集期間、データ収集精度、データ圧縮アルゴリズム、およびデータ暗号化アルゴリズムを含み得る。

ネットワークデバイスと運営保守システムとは、データ収集能力について複数の方法で折衝し得る。1つの可能な方法では、運営保守システムは、データの収集および伝送に関連した規則を事前構成し、その規則をネットワークデバイスに配信することができ、ネットワークデバイスはその規則を同期的に構成するので、ネットワークデバイスは、続いて規則に従って運営保守システムにネットワーク構成情報およびネットワーク状況情報を報告し得る。当然ながら、ネットワークデバイスと運営保守システムとは、代替として、データ収集能力について別の方法で折衝してもよい。これについては本出願のこの実施形態では限定されない。

ステップ202：ネットワーク構成情報に基づいてネットワーク状況情報におけるターゲットネットワークの異常イベント情報を特定する。

ネットワークデバイスは、通常、大量のネットワーク状況情報を報告することに留意されたい。そのネットワーク状況情報のごく一部が、ネットワーク障害に実際に関連する異常イベント情報であり得る。したがって、ネットワーク障害に実際に関連する異常イベント情報が、まず、ネットワーク状況情報から抽出される必要がある。

例えば、異常イベント情報は、以下の表1において示され得る。

表1の各行は、1つの異常イベント情報を記録するために使用される。表1の時刻は、異常イベント情報が収集される時刻であり得る。表1の場所は、異常イベント情報を収集するインターフェースまたはデバイスの識別子であり得る（例えば、識別子は、インターネットプロトコル（Internet Protocol、IP）アドレスであり得る）。表1の名前は、異常イベント情報の情報名であり、異常イベント情報を一意に識別するために使用される。

表1は、本出願のこの実施形態における異常イベント情報を説明するための例として使用されているにすぎず、表1は、本出願のこの実施形態に対する限定を構成するものではないことに留意されたい。

具体的には、異常イベント情報を取得するためにネットワーク構成情報およびネットワーク状況情報が異常特定モデルに入力され得る。あるいは、ネットワーク状況情報における第1のタイプのネットワーク状況情報について、異常イベント情報を取得するためにネットワーク構成情報に基づいて第1のタイプのネットワーク状況情報に対して集約解析が行われてもよく、ネットワーク状況情報における第2のタイプのネットワーク状況情報について、異常イベント情報を取得するためにネットワーク構成情報および第2のタイプのネットワーク状況情報が異常特定モデルに入力され得る。あるいは、第2のタイプのネットワーク状況情報における任意のネットワーク状況情報について、ネットワーク状況情報が事前設定閾値よりも大きいときに、ネットワーク状況情報は異常イベント情報であると判断され得る。当然ながら、ターゲットネットワークの異常イベント情報は、代替として、別の方法でネットワーク構成情報に基づいてネットワーク状況情報において判断されてもよい。これについては本出願のこの実施形態では限定されない。

第1のタイプのネットワーク状況情報に対して集約解析が行われた後、第1のタイプのネットワーク状況情報における冗長な情報を除外することができ、それによって、ネットワーク状況情報の量が大幅に削減されることに留意されたい。第1のタイプのネットワーク状況情報における冗長な情報が除外された後、残りのネットワーク状況情報は、後で根本原因を特定するために使用することができる異常イベント情報である。

集約解析は、複数の方法でネットワーク構成情報に基づいて第1のタイプのネットワーク状況情報に対して行われ得る。1つの可能な方法では、第1のタイプのネットワーク状況情報におけるネットワーク状況情報間の類似性がネットワーク構成情報に基づいて判断され、類似性がより高いネットワーク状況情報が1つのネットワーク状況情報に集約され得る。別の可能な方法では、第1のタイプのネットワーク状況情報においてネットワーク状況情報によって反映されるネットワーク例外がネットワーク構成情報と一致するかどうかが判断され、一致しないネットワーク状況情報が削除され得る。当然ながら、集約解析は、代替として、別の方法でネットワーク構成情報に基づいて第1のタイプのネットワーク状況情報に対して行われてもよい。これについては本出願のこの実施形態では限定されない。

異常特定モデルは、ネットワーク状況情報における異常イベント情報を特定するために使用されることに留意されたい。異常特定モデルには教師なしアルゴリズムまたは教師ありアルゴリズムが使用され得る。例えば、動的ベースラインに基づく異常検出などの教師なしアルゴリズムが使用され得るか、または決定木や畳み込みニューラルネットワークなどの教師ありアルゴリズムが使用され得る。異常特定モデルは、様々なネットワーク構成下での異常イベント情報を含む多数のサンプルを使用した訓練を通じて取得され得る。例えば、複数の訓練サンプルが事前に決定され得る。複数の訓練サンプルのうちの任意の1つについて、訓練サンプルのサンプルデータは、ネットワーク構成情報およびネットワーク状況情報を含み、ネットワーク状況情報は、ネットワーク構成情報によって指示されるターゲットネットワークに関して収集される。訓練サンプルのサンプルラベルは、ネットワーク状況情報における異常イベント情報である。次いで、複数の訓練サンプルは、モデルの訓練を行って異常特定モデルを取得するために使用され得る。具体的には、モデルの訓練を行うために、複数の訓練サンプルのサンプルデータが入力として使用され、複数の訓練サンプルのサンプルラベルが予期される出力として使用され得る。

加えて、ネットワーク構成情報およびネットワーク状況情報が異常特定モデルに入力された後、異常特定モデルは、ネットワーク状況情報から、ネットワーク構成情報によって指示されるターゲットネットワーク上で生成される可能性が非常に高い異常イベント情報を抽出し、異常イベント情報を出力し得る。

本出願のこの実施形態では、異常イベント情報を、ネットワーク構成情報に基づいてネットワーク状況情報において、異常特定モデルを使用して、クラスタ解析を通じて、自動的に特定することができ、それによって、異常イベント情報を発見する速度および精度が向上することに留意されたい。

本出願のこの実施形態では、ターゲットネットワークのネットワーク構成情報および異常イベント情報は、ステップ201およびステップ202を使用して取得され得ることに留意されたい。当然ながら、ターゲットネットワークのネットワーク構成情報および異常イベント情報は、代替として、別の方法で取得されてもよい。これについては本出願のこの実施形態では限定されない。ターゲットネットワークのネットワーク構成情報および異常イベント情報が取得された後、それに応じて障害特定が行われ得る。具体的なプロセスは以下のとおりである。

ステップ203：ネットワーク構成情報および異常イベント情報に基づいて、ターゲットネットワークの障害の考えられる根本原因を特定する。

障害の考えられる根本原因は、真の障害点から生じるネットワーク状況情報であり得ることに留意されたい。ネットワーク規模の増大とともに、異常イベント情報の量も指数関数的に、一日あたり数百万単位ですら増加している。しかしながら、真の障害点から生じる異常イベント情報の量は、実際には、1000未満か、または100未満の場合さえもある。したがって、後で障害の考えられる根本原因に基づいてネットワーク保守を正確に行うことができるように、障害の考えられる根本原因が大量の異常イベント情報において特定される必要がある。

加えて、障害の考えられる根本原因は、対応する障害回復計画を決定するために使用され、障害回復計画は、ネットワーク障害回復に使用され得る。障害の考えられる根本原因は、異常イベント情報における1つの異常イベント情報であり得るか、または異常イベント情報に基づく推測によって取得され得る。

例えば、障害の考えられる根本原因は以下の表2において示され得る。

表2の各行は、障害の考えられる根本原因を記録するために使用される。表2の時刻は、障害の考えられる根本原因が収集される時刻であり得る。表2の場所は、障害の考えられる根本原因を収集するインターフェースまたはデバイスの識別子であり得る（例えば、識別子はIPアドレスであり得る）。表2の名前は、障害の考えられる根本原因の根本原因名であり、障害の考えられる根本原因を一意に識別するために使用される。障害の考えられる根本原因の根本原因名は、障害の考えられる根本原因の情報名であり得る。あるいは、障害の考えられる根本原因の根本原因名は、障害の考えられる根本原因によって指示される真の障害点を反映することができる名前であってもよい。例えば、障害の考えられる根本原因の根本原因名は、レイヤ2ループ障害であり得る。

表2は、本出願のこの実施形態における障害の考えられる根本原因を説明するための例として使用されているにすぎず、表2は、本出願のこの実施形態に対する限定を構成するものではないことに留意されたい。

具体的には、ターゲットネットワークの障害の考えられる根本原因は、複数の方法でネットワーク構成情報および異常イベント情報に基づいて特定され得る。例えば、障害の考えられる根本原因は、エキスパートルール、障害伝播図、またはニューラルネットワークを使用して特定され得る。1つの可能な方法では、ターゲットネットワークの障害の考えられる根本原因を取得するためにネットワーク構成情報および異常イベント情報が根本原因特定モデルに入力され得る。

根本原因特定モデルは、異常イベント情報における障害の考えられる根本原因を特定するために使用されることに留意されたい。根本原因特定モデルには教師なしアルゴリズムまたは教師ありアルゴリズムが使用され得る。例えば、相関解析、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、またはディープニューラルネットワークが使用され得る。根本原因特定モデルは、様々なネットワーク構成下での根本原因を含む多数のサンプルを使用した訓練を通じて取得され得る。例えば、複数の訓練サンプルが事前に決定され得る。複数の訓練サンプルのうちの任意の1つについて、訓練サンプルのサンプルデータは、ネットワーク構成情報および異常イベント情報を含み、異常イベント情報は、ネットワーク構成情報によって指示されるターゲットネットワークに関して収集される。訓練サンプルのサンプルラベルは、異常イベント情報における障害の考えられる根本原因である。次いで、複数の訓練サンプルは、モデルの訓練を行って根本原因特定モデルを取得するために使用され得る。具体的には、モデルの訓練を行うために、複数の訓練サンプルのサンプルデータが入力として使用され、複数の訓練サンプルのサンプルラベルが予期される出力として使用され得る。

加えて、ネットワーク構成情報および異常イベント情報が根本原因特定モデルに入力された後、根本原因特定モデルは、異常イベント情報から、ネットワーク構成情報によって指示されるターゲットネットワーク上の真の障害点から生じる可能性が非常に高い異常イベント情報を抽出し、抽出された異常イベント情報を、ターゲットネットワークの障害の考えられる根本原因として出力し得る。

本出願のこの実施形態では、障害の考えられる根本原因を、ネットワーク構成情報に基づいて異常イベント情報から、根本原因特定モデルを使用して、解析を通じて、自動的に取得することができ、それによって、障害の考えられる根本原因を特定する速度および精度が向上することに留意されたい。

さらに、ステップ203でターゲットネットワークの障害の考えられる根本原因が取得された後、それに応じてネットワーク障害回復が行われ得る。具体的には、以下の2つの可能な方法が含まれ得る。

第1の可能な方法：障害の考えられる根本原因に対応する障害回復計画を取得する。具体的には、障害の考えられる根本原因に対応する障害回復計画は、障害の考えられる根本原因と障害回復計画との間の対応関係から取得され得る。

障害の考えられる根本原因と障害回復計画との間の対応関係は事前に設定され得ることに留意されたい。対応関係では、障害の各考えられる根本原因に対応する障害回復計画が、障害の考えられる根本原因に対応する真の障害点の回復に使用される。回復は、ポート、ボード、またはデバイスを再起動する、構成を変更するなどによる回復を含み得るが、これに限定されない。このようにして、障害の考えられる根本原因に基づく対応関係から障害回復計画を迅速に取得することができるので、障害回復の効率および精度を向上させることができる。

本出願のこの実施形態では、障害回復計画と障害回復に関連したその他の情報の両方を取得することができることに留意されたい。例えば、障害レベルが自動的に判断されてもよく、サービスに及ぼす障害回復計画の影響が解析されてもよい。

一例では、障害の考えられる根本原因が取得された後、障害の考えられる根本原因に対応する障害レベルが、障害の考えられる根本原因と障害レベルとの間の対応関係から取得され得る。その場合障害レベルが表示され得るので、当業者は、現在のネットワーク障害の重大度を適時に知ることができる。

障害の考えられる根本原因と障害レベルとの間の対応関係は事前に設定され得ることに留意されたい。対応関係では、障害の各考えられる根本原因に対応する障害レベルが、障害の考えられる根本原因に対応する真の障害点の障害の重大度を指示するために使用される。

一例では、障害回復計画が取得された後、障害回復計画が実施された後にサービス性能に及ぼされる影響が、ネットワーク構成情報に基づいて判断され得るか、または障害回復計画が実施された後にサービス性能に及ぼされる影響が、ネットワーク構成情報および障害の考えられる根本原因に基づいて判断され得る。

障害回復計画が実施された後にサービス性能に及ぼされる影響が判断された後、障害回復計画が実施された後にサービス性能に及ぼされる影響が表示され得るので、当業者は、サービス性能に及ぼされる障害回復計画の影響を適時に知り、それに応じてネットワーク障害回復に比較的適した障害回復計画をさらに選択して、サービス性能に及ぼす影響を比較的小さくしてネットワーク障害回復を実施できるようにし得ることに留意されたい。

障害回復計画が実施された後にサービス性能に及ぼされる影響は、複数の方法でネットワーク構成情報に基づいて判断され得る。例えば、障害回復計画が実施された後にサービス性能に及ぼされる影響を取得するために、ネットワーク構成情報および障害回復計画が第1の影響解析モデルに入力され得る。当然ながら、障害回復計画が実施された後にサービス性能に及ぼされる影響は、代替として、別の方法でネットワーク構成情報に基づいて判断されてもよい。これについては本出願のこの実施形態では限定されない。

加えて、第1の影響解析モデルは、障害回復計画が実施された後にサービス性能に及ぼされる影響を解析するために使用される。第1の影響解析モデルには教師なしアルゴリズムまたは教師ありアルゴリズムが使用され得る。例えば、相関解析、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、またはディープニューラルネットワークが使用され得る。第1の影響解析モデルは、障害回復計画が様々なネットワーク構成の下で実施された後に引き起こされたサービスの影響を含む多数のサンプルを使用した訓練を通じて取得され得る。例えば、複数の訓練サンプルが事前に決定され得る。複数の訓練サンプルの任意の1つについて、訓練サンプルのサンプルデータはネットワーク構成情報および障害回復計画を含む。訓練サンプルのサンプルラベルは、サービス性能に及ぼす影響であり、サービス性能に及ぼす影響は、障害回復計画がネットワーク構成情報によって指示されるターゲットネットワークに対して実施された後に収集される。次いで、複数の訓練サンプルは、モデルの訓練を行って第1の影響解析モデルを取得するために使用され得る。具体的には、モデルの訓練を行うために、複数の訓練サンプルのサンプルデータが入力として使用され、複数の訓練サンプルのサンプルラベルが予期される出力として使用され得る。

加えて、ネットワーク構成情報および障害回復計画が第1の影響解析モデルに入力された後、第1の影響解析モデルは、障害回復計画がネットワーク構成情報によって指示されるターゲットネットワークに対して実施された後にサービス性能に及ぼされる影響を解析し、次いで解析結果を出力し得る。

障害回復計画が実施された後にサービス性能に及ぼされる影響は、複数の方法でネットワーク構成情報および障害の考えられる根本原因に基づいて判断され得る。例えば、障害回復計画が実施された後にサービス性能に及ぼされる影響を取得するために、ネットワーク構成情報、障害の考えられる根本原因、および障害回復計画が第2の影響解析モデルに入力され得る。当然ながら、障害回復計画が実施された後にサービス性能に及ぼされる影響は、代替として、別の方法でネットワーク構成情報および障害の考えられる根本原因に基づいて判断されてもよい。これについては本出願のこの実施形態では限定されない。

加えて、第2の影響解析モデルは、障害回復計画が実施された後にサービス性能に及ぼされる影響を解析するために使用される。第2の影響解析モデルには教師なしアルゴリズムまたは教師ありアルゴリズムが使用され得る。例えば、相関解析、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、またはディープニューラルネットワークが使用され得る。第2の影響解析モデルは、障害回復計画が様々なネットワーク構成および障害の様々な考えられる根本原因の下で実施された後に引き起こされたサービスの影響を含む多数のサンプルを使用した訓練を通じて取得され得る。例えば、複数の訓練サンプルが事前に決定され得る。複数の訓練サンプルの任意の1つについて、訓練サンプルのサンプルデータはネットワーク構成情報、障害の考えられる根本原因、および障害回復計画を含む。訓練サンプルのサンプルラベルは、サービス性能に及ぼす影響であり、サービス性能に及ぼす影響は、ターゲットネットワークに障害の考えられる根本原因があるときに、障害回復計画がネットワーク構成情報によって指示されるターゲットネットワークに対して実施された後に収集される。次いで、複数の訓練サンプルは、モデルの訓練を行って第2の影響解析モデルを取得するために使用され得る。具体的には、モデルの訓練を行うために、複数の訓練サンプルのサンプルデータが入力として使用され、複数の訓練サンプルのサンプルラベルが予期される出力として使用され得る。

加えて、ネットワーク構成情報、障害の考えられる根本原因、および障害回復計画が第2の影響解析モデルに入力された後、第2の影響解析モデルは、ネットワーク構成情報によって指示されるターゲットネットワークに障害の考えられる根本原因があるときに、障害回復計画が実施された後にサービス性能に及ぼされる影響を解析し、次いで解析結果を出力し得る。

さらに、障害回復計画が取得された後、障害回復計画はさらに実施され得る。例えば、障害回復計画は、当業者によって手動で実施され得るか、または運営保守システムによって自動的に実施され得る。

1つの可能な方法では、障害回復計画がまず表示され、障害回復計画についての確認命令が受け取られると、障害回復計画がネットワークデバイスに送信され、ネットワークデバイスが障害回復計画に従ってネットワーク障害回復を行う。このようにして、障害回復計画が当業者から確認が取得された後に実施されるので、ネットワーク障害回復はより正確である。

確認命令は、障害回復計画が実施されるべきことを確認するために使用される。確認命令は、当業者によってトリガされてもよく、当業者は、クリック操作、ジェスチャー操作、音声操作、または体性感覚操作などの操作を使用して確認命令をトリガし得る。例えば、計画実施ボタンが管理インターフェース上に表示されてもよく、当業者は、計画実施ボタンをクリックすることによって確認命令をトリガし得る。

別の可能な方法では、障害回復計画がネットワークデバイスに直接送信され、ネットワークデバイスが障害回復計画に従ってネットワーク障害回復を行う。このようにして、障害回復計画が取得された後、障害回復計画が直接実施され得るので、ネットワーク障害回復の効率を向上させることができる。

さらに別の可能な方法では、障害の考えられる根本原因に対応する障害レベルが事前設定レベルよりも大きい場合、障害回復計画がネットワークデバイスに送信され、ネットワークデバイスが障害回復計画に従ってネットワーク障害回復を行う。

事前設定レベルは事前に設定され得る。障害の考えられる根本原因に対応する障害レベルが事前設定レベルよりも大きい場合、これはネットワーク障害が比較的重大であることを指示する。したがって、この場合、ネットワークデバイスは、ネットワークの正常な運営を保証するために、障害回復計画に従ってできるだけ早くネットワーク障害回復を行うよう指示され得る。

さらに別の可能な方法では、障害の考えられる根本原因に対応する障害レベルが事前設定レベル以下である場合、障害回復計画が表示され、障害回復計画についての確認命令が受け取られると、障害回復計画がネットワークデバイスに送信され、ネットワークデバイスが障害回復計画に従ってネットワーク障害回復を行う。このようにして、ネットワーク障害がさほど重大ではない場合、当業者から確認が取得され、次いで障害回復計画が実施されるので、ネットワーク障害回復はより正確である。

本出願のこの実施形態では、障害回復計画が実施された後のワンクリックロールバックの機能がさらに設定され得ることに留意されたい。具体的には、障害回復計画についての取消命令が受け取られると、障害回復計画がネットワークデバイスに送信された後に、ネットワークデバイスに障害回復計画の実施を取り消すよう指示するためにネットワークデバイスに取消メッセージが送信され得る。このようにして、障害回復計画を都合よく実施し、取り消すことができるので、ネットワーク障害回復がより柔軟である。

取消命令は、障害回復計画の実施を取り消すために使用される。取消命令は、当業者によってトリガされてもよく、当業者は、クリック操作、ジェスチャー操作、音声操作、または体性感覚操作などの操作を使用して取消命令をトリガし得る。例えば、計画取消ボタンが管理インターフェース上に表示されてもよく、当業者は、計画取消ボタンをクリックすることによって取消命令をトリガし得る。

さらに、ネットワーク障害の障害回復計画の有効性が判断された後、根本原因特定モデルを更新するために使用される訓練サンプルがさらに生成され得る。訓練サンプルは、ネットワーク構成情報および異常イベント情報を含む。障害の考えられる根本原因が異常イベント情報である場合、訓練サンプルのラベルは障害の考えられる根本原因であり、または障害の考えられる根本原因が異常イベント情報に基づく推測によって取得される場合、訓練サンプルのラベルは、障害の考えられる根本原因を推測するために使用される異常イベント情報である。

ネットワーク障害の障害回復計画の有効性を判断することは、障害回復計画が実施される前にネットワーク障害の障害回復計画の有効性を推定することであり得るか、または障害回復計画が実際に実施された後のネットワーク障害の回復状況に基づいてネットワーク障害の障害回復計画の有効性を判断することであり得ることに留意されたい。

加えて、ネットワーク障害の障害回復計画の有効性が判断された後、それは障害の考えられる根本原因がターゲットネットワーク上で実際に生成されることを指示する。したがって、ネットワーク構成情報、異常イベント情報、および障害の考えられる根本原因は、根本原因特定モデルを更新する訓練サンプルを生成するために使用され得る。このようにして、ネットワーク障害回復中に、自動根本原因フィードバックが実施されて、根本原因特定モデルを自動的に最適化するので、根本原因特定モデルの性能を絶えず向上させることができ、根本原因特定モデルの出力結果の精度を向上させることができる。

さらに、ネットワーク障害の障害回復計画の有効性が判断された後、異常特定モデルを更新するために使用される訓練サンプルがさらに生成され得る。訓練サンプルは、ネットワーク構成情報およびネットワーク状況情報を含む。障害の考えられる根本原因が異常イベント情報である場合、訓練サンプルのラベルは障害の考えられる根本原因であり、または障害の考えられる根本原因が異常イベント情報に基づく推測によって取得される場合、訓練サンプルのラベルは、障害の考えられる根本原因を推測するために使用される異常イベント情報である。

ネットワーク障害の障害回復計画の有効性が判断された後、それは障害の考えられる根本原因がターゲットネットワーク上で実際に生成されることを指示することに留意されたい。したがって、ネットワーク構成情報、ネットワーク状況情報、および障害の考えられる根本原因は、異常特定モデルを更新する訓練サンプルを生成するために使用され得る。このようにして、ネットワーク障害回復中に、自動根本原因フィードバックが実施されて、異常特定モデルを自動的に最適化するので、異常特定モデルの性能を絶えず向上させることができ、異常特定モデルの出力結果の精度を向上させることができる。

第2の可能な方法：障害の考えられる根本原因を制御デバイスに送信し、障害の考えられる根本原因に対応する、制御デバイスによって送信される精度マーキングを受信し、精度マーキングが、障害の考えられる根本原因が正確であることを確認するために使用され、根本原因特定モデルを更新するために使用される訓練サンプルを生成し、訓練サンプルが、ネットワーク構成情報および異常イベント情報を含む。

障害の考えられる根本原因が異常イベント情報である場合、訓練サンプルのラベルは障害の考えられる根本原因であり、または障害の考えられる根本原因が異常イベント情報に基づく推測によって取得される場合、訓練サンプルのラベルは、障害の考えられる根本原因を推測するために使用される異常イベント情報である。

障害の考えられる根本原因に対応する精度マーキングが受信された後、障害の考えられる根本原因は正確であると判断され得ることに留意されたい。したがって、ネットワーク構成情報、異常イベント情報、および障害の考えられる根本原因は、根本原因特定モデルを更新する訓練サンプルを生成するために使用され得る。このようにして、ネットワーク障害回復中に、自動根本原因フィードバックが実施されて、根本原因特定モデルを自動的に最適化するので、根本原因特定モデルの性能を絶えず向上させることができ、根本原因特定モデルの出力結果の精度を向上させることができる。

さらに、障害の考えられる根本原因に対応する、制御デバイスによって送信される精度マーキングが受信された後、異常特定モデルを更新するために使用される訓練サンプルがさらに生成され得る。訓練サンプルは、ネットワーク構成情報およびネットワーク状況情報を含む。

このようにして、ネットワーク障害回復中に、自動根本原因フィードバックが実施されて、異常特定モデルを自動的に最適化するので、異常特定モデルの性能を絶えず向上させることができ、異常特定モデルの出力結果の精度を向上させることができる。

以下で、制御デバイスが障害の考えられる根本原因を受信した後の処理プロセスを説明する。

具体的には、障害の考えられる根本原因を受信した後、制御デバイスは、障害の考えられる根本原因と障害回復計画との間の対応関係から、障害の考えられる根本原因に対応する障害回復計画を取得し得る。

本出願のこの実施形態では、制御デバイスは、障害回復計画と、障害回復に関連したその他の情報の両方を取得し得ることに留意されたい。例えば、制御デバイスは、障害レベルを自動的に判断し、サービスに及ぼす障害回復計画の影響を解析し得る。

一例では、制御デバイスは、障害の考えられる根本原因と障害レベルとの間の対応関係から、障害の考えられる根本原因に対応する障害レベルを取得し、次いで障害レベルを表示し得るので、当業者は、現在のネットワーク障害の重大度を適時に知ることができる。

一例では、制御デバイスは、ネットワーク構成情報に基づいて、障害回復計画が実施された後にサービス性能に及ぼされる影響を判断し得るか、またはネットワーク構成情報および障害の考えられる根本原因に基づいて、障害回復計画が実施された後にサービス性能に及ぼされる影響を判断し得る。

さらに、障害回復計画を取得した後、制御デバイスは、障害回復計画をさらに実施し得る。例えば、障害回復計画は、当業者によって手動で実施され得るか、または運営保守システムによって自動的に実施され得る。具体的な実施態様は、前述の第1の可能な方法と同じであり、本出願のこの実施形態では再度詳細に説明しない。

本出願のこの実施形態では、障害回復計画が実施された後のワンクリックロールバックの機能がさらに設定され得ることに留意されたい。具体的には、制御デバイスが、障害回復計画をネットワークデバイスに送信した後に障害回復計画の取消命令を受け取る場合、制御デバイスは、ネットワークデバイスに障害回復計画の実施を取り消すよう指示するためにネットワークデバイスに取消メッセージを送信し得る。このようにして、障害回復計画を都合よく実施し、取り消すことができるので、ネットワーク障害回復がより柔軟である。

さらに、ネットワーク障害の障害回復計画の有効性を判断した後、制御デバイスは、障害の考えられる根本原因に対応する精度マーキングをさらに生成し得る。

ネットワーク障害の障害回復計画の有効性が判断された後、それは障害の考えられる根本原因がターゲットネットワーク上で実際に生成されることを指示することに留意されたい。したがって、障害の考えられる根本原因の精度がマークされ得る。

本出願の本実施形態では、ターゲットネットワークのネットワーク構成情報および異常イベント情報が取得され、ネットワーク構成情報は、ターゲットネットワークのネットワークトポロジーおよびターゲットネットワーク上の複数のネットワークデバイスのデバイス情報を含み、デバイス情報は、インターフェース構成情報、プロトコル構成情報、およびサービス構成情報のうちの1つまたは複数を含み、次いでネットワーク構成情報および異常イベント情報に基づいて、ターゲットネットワークの障害の考えられる根本原因が特定され、障害の考えられる根本原因は、対応する障害回復計画を決定するために使用される。このようにして、障害検出がネットワーク構成情報に基づいて自動的に実施され、それに応じて障害回復計画を自動的に与えることができるので、ネットワーク障害回復の精度および効率を大幅に向上させることができる。

理解を容易にするために、以下で、図3Aおよび図3Bに関連する例を使用して、前述の障害回復方法を説明する。図3Aおよび図3Bを参照すると、障害回復方法の具体的なプロセスは以下のとおりである。

（1）ネットワークデバイスが、データ収集能力について解析デバイスの第1の解析部と折衝する。

（2）ネットワークデバイスが第1の解析部にターゲットネットワークのネットワーク構成情報およびネットワーク状況情報を報告する。

（3）第1の解析部が、ネットワーク構成情報に基づいてネットワーク状況情報におけるターゲットネットワークの異常イベント情報を特定する。具体的には、異常特定モデルが異常イベント情報を抽出するために使用され得る。

（4）第1の解析部が、解析デバイスの第2の解析部に異常イベント情報を送信する。

（5）第2の解析部が、ネットワーク構成情報および異常イベント情報に基づいてターゲットネットワークの障害の考えられる根本原因を特定する。具体的には、根本原因特定モデルが障害の考えられる根本原因を特定するために使用され得る。

（6）第2の解析部が、制御デバイスに障害の考えられる根本原因を送信する。

（7）制御デバイスが、障害の考えられる根本原因に基づいて障害回復計画を取得し、障害の考えられる根本原因に対応する障害レベルを取得し、ネットワーク構成情報に基づいて、障害回復計画が実施された後にサービス性能に及ぼされる影響を判断する。

（8）制御デバイスが、ネットワークデバイスに障害回復計画を配信する。

（9）制御デバイスが、障害の考えられる根本原因に対応する精度マーキングを生成し、第2の解析部に障害の考えられる根本原因に対応する精度マーキングを送信する。

（10）第2の解析部が、根本原因特定モデルを更新するために使用される訓練サンプルを生成する。訓練サンプルは、ネットワーク構成情報および異常イベント情報を含む。訓練サンプルのラベルは、障害の考えられる根本原因である。訓練サンプルは、根本原因特定モデルを更新するために使用される。

（11）第2の解析部が、第1の解析部に障害の考えられる根本原因に対応する精度マーキングを送信する。

（12）第1の解析部が、異常特定モデルを更新するために使用される訓練サンプルを生成する。訓練サンプルは、ネットワーク構成情報およびネットワーク状況情報を含む。訓練サンプルのラベルは、障害の考えられる根本原因である。訓練サンプルは、異常特定モデルを更新するために使用される。

図4は、本出願の一実施形態によるコンピュータデバイスの概略構造図である。図1に示される運営保守システムは、このコンピュータデバイスで実施され得る。図4を参照すると、コンピュータデバイスは、少なくとも1つのプロセッサ401と、通信バス402と、メモリ403と、少なくとも1つの通信インターフェース404とを含む。

プロセッサ401は、マイクロプロセッサ（中央処理装置（central processing unit（CPU））などを含む）もしくは特定用途向け集積回路（application−specific integrated circuit（ASIC））であり得るか、または本出願の解決策におけるプログラムの実行を制御するように構成された1つまたは複数集積回路であり得る。

通信バス402は、前述の構成要素間で情報を伝送するための通信路を含み得る。

メモリ403は、読取り専用メモリ（read−only memory（ROM））、ランダムアクセスメモリ（random access memory（RAM））、電気的消去書込み可能読取り専用メモリ（electrically erasable programmable read−only memory（EEPROM））、光ディスク（コンパクトディスク読取り専用メモリ（compact disc read−only memory（CD−ROM））、コンパクトディスク、レーザディスク、デジタル多用途ディスク、ブルーレイディスクなどを含む）、磁気ディスク記憶媒体もしくは別の磁気記憶デバイス、または命令もしくはデータ構造の形態の予期されるプログラムコードを搬送もしくは格納するように構成することができ、コンピュータがアクセスすることができる任意の他の媒体であり得る。しかしながら、これは本明細書における限定を構成するものではない。メモリ403は独立して存在していてもよく、通信バス402を使用してプロセッサ401に接続される。あるいは、メモリ403はプロセッサ401と一体化されていてもよい。

通信インターフェース404は、送受信機のような任意の装置を使用して別のデバイスまたは通信ネットワーク、例えば、イーサネット、無線アクセスネットワーク（radio access network（RAN））、もしくは無線ローカルエリアネットワーク（wireless local area network（WLAN））と通信するように構成される。

具体的な実施態様において、一実施形態では、プロセッサ401は、1つまたは複数のCPU、例えば、図4に示されるCPU0およびCPU1を含み得る。

具体的な実施態様において、一実施形態では、コンピュータデバイスは、複数のプロセッサ、例えば、図4に示されるプロセッサ401およびプロセッサ405を含み得る。プロセッサは各々、シングルコアプロセッサであり得るか、またはマルチコアプロセッサであり得る。プロセッサはこの場合、データ（例えば、コンピュータプログラム命令）を処理するように構成された1つまたは複数のデバイス、回路、および／または処理コアであり得る。

具体的な実施態様において、一実施形態では、コンピュータデバイスは、出力デバイス406と入力デバイス407とをさらに含み得る。出力デバイス406は、プロセッサ401と通信し、複数の方法で情報を表示し得る。例えば、出力デバイス406は、液晶ディスプレイ（liquid crystal display（LCD））、発光ダイオード（light emitting diode（LED））表示装置、ブラウン管（cathode ray tube（CRT））表示装置、またはプロジェクタ（projector）であり得る。入力デバイス407は、プロセッサ401と通信し、複数の方法でユーザ入力を受け取り得る。例えば、入力デバイス407は、マウス、キーボード、タッチスクリーンデバイス、または感知デバイスであり得る。

コンピュータデバイスは、汎用コンピュータデバイスまたは専用コンピュータデバイスであり得る。具体的な実施態様において、コンピュータデバイスは、デスクトップコンピュータ、ポータブルコンピュータ、ネットワークサーバ、パームトップコンピュータ、携帯電話、タブレットコンピュータ、無線端末デバイス、通信デバイス、または組込み式デバイスであり得る。コンピュータデバイスのタイプは、本出願のこの実施形態では限定されない。

メモリ403は、本出願の解決策を実行するためのプログラムコード410を格納するように構成され、プロセッサ401は、メモリ403に格納されたプログラムコード410を実行するように構成される。コンピュータデバイスは、プロセッサ401と、メモリ403に格納されたプログラムコード410とを使用して、図2の実施形態で提供される障害回復方法を実施し得る。

図5は、本出願の一実施形態による障害回復装置の概略構造図である。障害回復装置は、コンピュータデバイスの一部または全部になるように、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせによって実施され得る。コンピュータデバイスは、図4に示されるコンピュータデバイスであり得る。図5を参照すると、装置は、第1の取得モジュール501と、特定モジュール502とを含む。

第1の取得モジュール501は、ターゲットネットワークのネットワーク構成情報および異常イベント情報を取得するように構成される。ネットワーク構成情報は、ターゲットネットワークのネットワークトポロジーおよびターゲットネットワーク上の複数のネットワークデバイスのデバイス情報を含む。デバイス情報は、インターフェース構成情報、プロトコル構成情報、およびサービス構成情報のうちの1つまたは複数を含む。

特定モジュール502は、ネットワーク構成情報および異常イベント情報に基づいてターゲットネットワークの障害の考えられる根本原因を特定するように構成される。障害の考えられる根本原因は、対応する障害回復計画を決定するために使用される。

任意選択で、特定モジュール502は、
ターゲットネットワークの障害の考えられる根本原因を取得するためにネットワーク構成情報および異常イベント情報を根本原因特定モデルに入力するように構成される。

任意選択で、装置は、
障害の考えられる根本原因を制御デバイスに送信するように構成された送信モジュールと、
障害の考えられる根本原因に対応する、制御デバイスによって送信される精度マーキングを受信するように構成された受信モジュールであって、精度マーキングが、障害の考えられる根本原因が正確であることを確認するために使用される、受信モジュールと、
根本原因特定モデルを更新するために使用される訓練サンプルを生成するように構成された第1の生成モジュールであって、訓練サンプルが、ネットワーク構成情報および異常イベント情報を含み、訓練サンプルのラベルが障害の考えられる根本原因である、第1の生成モジュールと
をさらに含む。

任意選択で、装置は、
障害の考えられる根本原因に対応する障害回復計画を取得するように構成された第2の取得モジュールと、
ネットワーク障害の障害回復計画の有効性が判断された後、根本原因特定モデルを更新するために使用される訓練サンプルを生成するように構成された第2の生成モジュールであって、訓練サンプルが、ネットワーク構成情報および異常イベント情報を含み、訓練サンプルのラベルが障害の考えられる根本原因である、第2の生成モジュールと
をさらに含む。

任意選択で、第1の取得モジュール501は、
ターゲットネットワークのネットワーク構成情報およびネットワーク状況情報を取得するように構成された取得部と、
ネットワーク構成情報に基づいてネットワーク状況情報におけるターゲットネットワークの異常イベント情報を特定するように構成された特定部と
を含む。

任意選択で、特定部は、
異常イベント情報を取得するためにネットワーク構成情報およびネットワーク状況情報を異常特定モデルに入力する
ように構成される。

任意選択で、ネットワーク状況情報は、ログ、警報、主要性能指標KPI値、およびデータ・フロー・リンク・セットアップ・パケットの異常状況のうちの1つまたは複数を含む。

任意選択で、装置は、
障害の考えられる根本原因と障害レベルとの間の対応関係から、障害の考えられる根本原因に対応する障害レベルを取得するように構成された第3の取得モジュール
をさらに含む。

本出願の本実施形態では、ネットワーク構成情報およびネットワーク状況情報が取得された後に、異常イベント情報を取得するためにネットワーク構成情報に基づいてネットワーク状況情報に対して異常検出が行われる。次いで、障害の考えられる根本原因を取得するためにネットワーク構成情報に基づいて異常イベント情報に対して根本原因解析が行われる。最後に、障害の考えられる根本原因に基づいて障害回復計画が取得される。障害回復計画は、ネットワーク障害回復に使用される。このようにして、障害発見および障害特定が、ネットワーク構成情報に基づいて自動的に実施され、障害回復計画がそれに応じて自動的に与えられるので、ネットワーク障害回復の精度および効率を大幅に向上させることができる。

図6は、本出願の一実施形態による障害回復装置の概略構造図である。障害回復装置は、コンピュータデバイスの一部または全部になるように、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせによって実施され得る。コンピュータデバイスは、図4に示されるコンピュータデバイスであり得る。図6を参照すると、装置は、受信モジュール601であって、
受信モジュール601が、解析デバイスによって送信された、ターゲットネットワークの障害の考えられる根本原因を受信し、障害の考えられる根本原因が、ネットワーク構成情報および異常イベント情報に基づいて解析デバイスによって特定され、ネットワーク構成情報が、ターゲットネットワークのネットワークトポロジーおよびターゲットネットワーク上の複数のネットワークデバイスのデバイス情報を含み、デバイス情報が、インターフェース構成情報、プロトコル構成情報、およびサービス構成情報のうちの1つまたは複数を含む、ように構成される、受信モジュール601と、
障害の考えられる根本原因に対応する決定された障害回復計画を取得するように構成された第1の取得モジュール602と
を含む。

任意選択で、装置は、
障害の考えられる根本原因に対応する障害回復計画を取得するように構成された第2の取得モジュールと、
ネットワーク障害の障害回復計画の有効性が判断された後、障害の考えられる根本原因に対応する精度マーキングを生成するように構成された生成モジュールであって、精度マーキングが、障害の考えられる根本原因が正確であることを確認するために使用される、生成モジュールと、
解析デバイスに、障害の考えられる根本原因に対応する精度マーキングを送信するように構成された送信モジュールと
をさらに含む。

前述の実施形態で提供される障害回復装置において、前述の機能モジュールの分割は説明のための例とみなされることに留意されたい。実際には、機能は、必要に応じて実装のために様々な機能モジュールに割り振られ得る。具体的には、装置の内部構造が上記の機能の全部または一部を実装するために様々な機能モジュールに分割される。加えて、前述の実施形態で提供される障害回復装置と障害回復方法の実施形態とは同じ概念に属する。障害回復装置の具体的な実施プロセスに関する詳細については、方法実施形態を参照されたい。ここでは詳細を再度説明しない。

前述の実施形態の全部または一部が、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせによって実施され得る。実施形態を実施するためにソフトウェアが使用される場合、実施形態は完全に、または部分的にコンピュータプログラム製品の形で実施され得る。コンピュータプログラム製品は、1つまたは複数のコンピュータ命令を含む。コンピュータ命令がロードされ、コンピュータ上で実行されると、本出願の実施形態による手順または機能の全部または一部が生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、またはその他のプログラマブル装置であり得る。コンピュータ命令は、コンピュータ可読記憶媒体に格納され得るか、またはコンピュータ可読記憶媒体から別のコンピュータ可読記憶媒体に転送され得る。例えば、コンピュータ命令は、ウェブサイト、コンピュータ、サーバ、またはデータセンタから別のウェブサイト、コンピュータ、サーバ、またはデータセンタに、有線（例えば、同軸ケーブル、光ファイバ、もしくはデジタル加入者線（digital subscriber line（DSL）））または無線（例えば、赤外線、電波、およびマイクロ波など）方式で伝送され得る。コンピュータ可読記憶媒体は、コンピュータによってアクセス可能な任意の使用可能な媒体、または1つもしくは複数の使用可能な媒体を統合した、サーバやデータセンタなどのデータ記憶装置であり得る。使用可能な媒体は、磁気媒体（例えば、フロッピーディスク、ハードディスク、または磁気テープ）、光媒体（例えば、デジタル多用途ディスク（digital versatile disc（DVD）））、半導体媒体（例えば、ソリッドステートドライブ（solid−state drive（SSD）））などであり得る。

以上の説明は、本出願の実施形態の単なる実施態様にすぎず、本出願を限定するためのものではない。本出願の趣旨および原理から逸脱することなくなされるあらゆる改変、等価の置換、または改善は、本出願の保護範囲内に含まれるべきである。

101 解析装置／解析デバイス
102 制御装置／制御デバイス
401 プロセッサ
402 通信バス
403 メモリ
404 通信インターフェース
405 プロセッサ
406 出力デバイス
407 入力デバイス
410 プログラムコード
501 第1の取得モジュール
502 特定モジュール
601 受信モジュール
602 第1の取得モジュール

Claims

障害回復方法であって、前記方法が、
ターゲットネットワークのネットワーク構成情報および異常イベント情報を取得するステップであって、前記ネットワーク構成情報が、前記ターゲットネットワークのネットワークトポロジーおよび前記ターゲットネットワーク上の複数のネットワークデバイスのデバイス情報を含み、前記デバイス情報が、インターフェース構成情報、プロトコル構成情報、およびサービス構成情報のうちの1つまたは複数を含む、ステップと、
前記ネットワーク構成情報および前記異常イベント情報に基づいて、前記ターゲットネットワークの障害の考えられる根本原因を特定するステップであって、前記障害の前記考えられる根本原因が、対応する障害回復計画を決定するために使用される、ステップと
を含む、障害回復方法。
前記デバイス情報が、ルーティングエントリおよび／または転送エントリをさらに含む、請求項1に記載の方法。
前記ネットワーク構成情報および前記異常イベント情報に基づいて前記ターゲットネットワークの障害の考えられる根本原因を特定する前記ステップが、
前記ターゲットネットワークの前記障害の前記考えられる根本原因を取得するために前記ネットワーク構成情報および前記異常イベント情報を根本原因特定モデルに入力するステップ
を含む、請求項1または2に記載の方法。
前記ネットワーク構成情報および前記異常イベント情報に基づいて前記ターゲットネットワークの障害の考えられる根本原因を特定する前記ステップの後に、前記方法が、
前記障害の前記考えられる根本原因を制御デバイスに送信するステップと、
前記障害の前記考えられる根本原因に対応する、前記制御デバイスによって送信される精度マーキングを受信するステップであって、前記精度マーキングが、前記障害の前記考えられる根本原因が正確であることを確認するために使用される、ステップと、
根本原因特定モデルを更新するために使用される訓練サンプルを生成するステップであって、前記訓練サンプルが、前記ネットワーク構成情報および前記異常イベント情報を含み、前記訓練サンプルのラベルが前記障害の前記考えられる根本原因である、ステップと
をさらに含む、請求項1から3のいずれか一項に記載の方法。
前記ネットワーク構成情報および前記異常イベント情報に基づいて前記ターゲットネットワークの障害の考えられる根本原因を特定する前記ステップの後に、前記方法が、
前記障害の前記考えられる根本原因に対応する前記障害回復計画を取得するステップと、
ネットワーク障害の前記障害回復計画の有効性が判断された後、根本原因特定モデルを更新するために使用される訓練サンプルを生成するステップであって、前記訓練サンプルが、前記ネットワーク構成情報および前記異常イベント情報を含み、前記訓練サンプルのラベルが前記障害の前記考えられる根本原因である、ステップと
をさらに含む、請求項1から3のいずれか一項に記載の方法。
ターゲットネットワークのネットワーク構成情報および異常イベント情報を取得する前記ステップが、
前記ターゲットネットワークの前記ネットワーク構成情報およびネットワーク状況情報を取得するステップと、
前記ネットワーク構成情報に基づいて前記ネットワーク状況情報における前記ターゲットネットワークの前記異常イベント情報を特定するステップと
を含む、請求項1から5のいずれか一項に記載の方法。
前記ネットワーク構成情報に基づいて前記ネットワーク状況情報における前記ターゲットネットワークの前記異常イベント情報を特定する前記ステップが、
前記異常イベント情報を取得するために前記ネットワーク構成情報および前記ネットワーク状況情報を異常特定モデルに入力するステップ
を含む、請求項6に記載の方法。
前記ネットワーク状況情報が、ログ、警報、主要性能指標KPI値、およびデータ・フロー・リンク・セットアップ・パケットの異常状況のうちの1つまたは複数を含む、請求項6または7に記載の方法。
前記方法が、
障害の考えられる根本原因と障害レベルとの間の対応関係から、前記障害の前記考えられる根本原因に対応する障害レベルを取得するステップ
をさらに含む、請求項1から8のいずれか一項に記載の方法。
障害回復方法であって、前記方法が、
解析デバイスによって送信された、ターゲットネットワークの障害の考えられる根本原因を受信するステップであって、前記障害の前記考えられる根本原因が、ネットワーク構成情報および異常イベント情報に基づいて前記解析デバイスによって特定され、前記ネットワーク構成情報が、前記ターゲットネットワークのネットワークトポロジーおよび前記ターゲットネットワーク上の複数のネットワークデバイスのデバイス情報を含み、前記デバイス情報が、インターフェース構成情報、プロトコル構成情報、およびサービス構成情報のうちの1つまたは複数を含む、ステップと、
前記障害の前記考えられる根本原因に対応する決定された障害回復計画を取得するステップと
を含む、障害回復方法。
解析デバイスによって送信された、ターゲットネットワークの障害の考えられる根本原因を受信する前記ステップの後に、前記方法が、
前記障害の前記考えられる根本原因に対応する前記障害回復計画を取得するステップと、
ネットワーク障害の前記障害回復計画の有効性が判断された後、前記障害の前記考えられる根本原因に対応する精度マーキングを生成するステップであって、前記精度マーキングが、前記障害の前記考えられる根本原因が正確であることを確認するために使用される、ステップと、
前記解析デバイスに、前記障害の前記考えられる根本原因に対応する前記精度マーキングを送信するステップと
をさらに含む、請求項10に記載の方法。
前記方法が、
障害の考えられる根本原因と障害レベルとの間の対応関係から、前記障害の前記考えられる根本原因に対応する障害レベルを取得するステップ
をさらに含む、請求項10または11に記載の方法。
障害回復装置であって、前記装置が、
ターゲットネットワークのネットワーク構成情報および異常イベント情報を取得するように構成された第1の取得モジュールであって、前記ネットワーク構成情報が、前記ターゲットネットワークのネットワークトポロジーおよび前記ターゲットネットワーク上の複数のネットワークデバイスのデバイス情報を含み、前記デバイス情報が、インターフェース構成情報、プロトコル構成情報、およびサービス構成情報のうちの1つまたは複数を含む、第1の取得モジュールと、
前記ネットワーク構成情報および前記異常イベント情報に基づいて、前記ターゲットネットワークの障害の考えられる根本原因を特定するように構成された特定モジュールであって、前記障害の前記考えられる根本原因が、対応する障害回復計画を決定するために使用される、特定モジュールと
を含む、障害回復装置。
前記デバイス情報が、ルーティングエントリおよび／または転送エントリをさらに含む、請求項13に記載の装置。
前記特定モジュールが、
前記ターゲットネットワークの前記障害の前記考えられる根本原因を取得するために前記ネットワーク構成情報および前記異常イベント情報を根本原因特定モデルに入力する
ように構成される、請求項13または14に記載の装置。
前記装置が、
前記障害の前記考えられる根本原因を制御デバイスに送信するように構成された送信モジュールと、
前記障害の前記考えられる根本原因に対応する、前記制御デバイスによって送信される精度マーキングを受信するように構成された受信モジュールであって、前記精度マーキングが、前記障害の前記考えられる根本原因が正確であることを確認するために使用される、受信モジュールと、
根本原因特定モデルを更新するために使用される訓練サンプルを生成するように構成された第1の生成モジュールであって、前記訓練サンプルが、前記ネットワーク構成情報および前記異常イベント情報を含み、前記訓練サンプルのラベルが前記障害の前記考えられる根本原因である、第1の生成モジュールと
をさらに含む、請求項13から15のいずれか一項に記載の装置。
前記装置が、
前記障害の前記考えられる根本原因に対応する前記障害回復計画を取得するように構成された第2の取得モジュールと、
ネットワーク障害の前記障害回復計画の有効性が判断された後、根本原因特定モデルを更新するために使用される訓練サンプルを生成するように構成された第2の生成モジュールであって、前記訓練サンプルが、前記ネットワーク構成情報および前記異常イベント情報を含み、前記訓練サンプルのラベルが前記障害の前記考えられる根本原因である、第2の生成モジュールと
をさらに含む、請求項13から15のいずれか一項に記載の装置。
前記第1の取得モジュールが、
前記ターゲットネットワークの前記ネットワーク構成情報およびネットワーク状況情報を取得するように構成された取得部と、
前記ネットワーク構成情報に基づいて前記ネットワーク状況情報における前記ターゲットネットワークの前記異常イベント情報を特定するように構成された特定部と
を含む、請求項13から17のいずれか一項に記載の装置。
前記特定部が、
前記異常イベント情報を取得するために前記ネットワーク構成情報および前記ネットワーク状況情報を異常特定モデルに入力する
ように構成される、請求項18に記載の装置。
前記ネットワーク状況情報が、ログ、警報、主要性能指標KPI値、およびデータ・フロー・リンク・セットアップ・パケットの異常状況のうちの1つまたは複数を含む、請求項18または19に記載の装置。
前記装置が、
障害の考えられる根本原因と障害レベルとの間の対応関係から、前記障害の前記考えられる根本原因に対応する障害レベルを取得するように構成された第3の取得モジュール
をさらに含む、請求項13から20のいずれか一項に記載の装置。
障害回復装置であって、前記装置が、
解析デバイスによって送信された、ターゲットネットワークの障害の考えられる根本原因を受信するように構成された受信モジュールであって、前記障害の前記考えられる根本原因が、ネットワーク構成情報および異常イベント情報に基づいて前記解析デバイスによって特定され、前記ネットワーク構成情報が、前記ターゲットネットワークのネットワークトポロジーおよび前記ターゲットネットワーク上の複数のネットワークデバイスのデバイス情報を含み、前記デバイス情報が、インターフェース構成情報、プロトコル構成情報、およびサービス構成情報のうちの1つまたは複数を含む、受信モジュールと、
前記障害の前記考えられる根本原因に対応する決定された障害回復計画を取得するように構成された第1の取得モジュールと
を含む、障害回復装置。
前記装置が、
前記障害の前記考えられる根本原因に対応する前記障害回復計画を取得するように構成された第2の取得モジュールと、
ネットワーク障害の前記障害回復計画の有効性が判断された後、前記障害の前記考えられる根本原因に対応する精度マーキングを生成するように構成された生成モジュールであって、前記精度マーキングが、前記障害の前記考えられる根本原因が正確であることを確認するために使用される、生成モジュールと、
前記解析デバイスに、前記障害の前記考えられる根本原因に対応する前記精度マーキングを送信するように構成された送信モジュールと
をさらに含む、請求項22に記載の装置。
前記装置が、
障害の考えられる根本原因と障害レベルとの間の対応関係から、前記障害の前記考えられる根本原因に対応する障害レベルを取得するように構成された第3の取得モジュール
をさらに含む、請求項22または23に記載の装置。
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体が命令を格納し、前記命令がコンピュータ上で動作すると、前記コンピュータが請求項1から9または請求項10から12のいずれか一項に記載の方法を行うことができるようになる、コンピュータ可読記憶媒体。