JP2018025968A

JP2018025968A - 復旧制御システム及び方法

Info

Publication number: JP2018025968A
Application number: JP2016157459A
Authority: JP
Inventors: 健太川上; Kenta Kawakami; 兼三奥田; Kenzo Okuda; 利幸倉橋; Toshiyuki Kurahashi; 安川　正祥; Masanaga Yasukawa; 正祥安川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-08-10
Filing date: 2016-08-10
Publication date: 2018-02-15
Anticipated expiration: 2036-08-10
Also published as: JP6607572B2

Abstract

【課題】自動的且つ効率的な復旧処理を行うとともに、システム全体の安定性を向上させることができる復旧制御システム及び方法を提供する。
【解決手段】復旧制御装置３００は、障害の発生原因及び発生装置を特定してアプリケーションによるユーザ端末に対するサービス提供を継続するよう障害発生装置を復旧制御する復旧制御部と、復旧制御部による復旧制御処理のトリガ及びその復旧処理内容を関連づけて復旧制御履歴として記憶する復旧制御履歴記憶部とを備え、復旧制御部は、復旧制御履歴記憶部に記憶された復旧制御履歴に基づき復旧制御アルゴリズムを構成して障害発生装置の復旧制御を行う。
【選択図】図１

Description

本発明は、仮想化されたネットワークにおいて、障害が発生した際に自動的に復旧するシステムに関する。

近年、ネットワーク機能仮想化が注目されている（非特許文献１，２参照）。ネットワーク機能仮想化のメリットとしては、保守運用の自動化の一つとして、障害が発生した際に自動的に復旧できること（オートヒーリング）が期待されている。

既存のオートヒーリング（非特許文献３参照）では、主にハードウェア故障をターゲットとしており、障害が発生した場合に、他の物理サーバに同一の仮想サーバを構築する手法が一般的であった。

また、オートヒーリングにおいて、ネットワークデータ分析を行う事でネットワークの状態を可視化し、復旧手順の検討に利用する手法が提案されている（非特許文献４参照）。

また、ネットワークネットワーク内外から得られる装置ログ、トラフィック、トラブルチケットなどのデータ分析、およびネットワーク故障対応の迅速化・正確化・省力化に取り組む手法が提案されている（非特許文献５，６参照）。

下西英之, "ネットワーク機能仮想化（ＮＦＶ）概要", [online], [平成28年7月14日検索], インターネット<URL:http://www.e-side.co.jp/okinawaopendays/2014/document/12_shimonishi.pdf> "Network Functions Virtualisation (NFV); Management and Orchestration", ETSI GS NFV-MAN 001 V1.1.1, 2014-12 木内道男, "ＮＦＶ導入を左右する保守のしやすさ；鍵となるＥ２Ｅのオーケストレーション", [online], [平成28年7月14日検索], インターネット<URL:http://www.ric.co.jp/expo/ngns2014/extract/nec.html> T. Kimura, K. Ishibashi, T. Mori, H. Sawada, T. Toyono, K. Nishimatsu, A. Watanabe, A. Shimoda, and K. Shiomoto, "Spatio-temporal factorization of log data for understanding network events," Proc. of IEEE INFOCOM 2014, pp.610 -618, 2014 石橋圭介, "将来ネットワークの実現に向けたＡｎａｌｙｔｉｃｓ−ｂａｓｅｄオペレーション", [online], [平成28年7月14日検索], インターネット<URL:http://www.ntt.co.jp/journal/1507/files/jn201507024.pdf> 石橋圭介, 林孝典, 塩本公平, "機械学習・データ分析によるネットワーク設計・運用高度化", [online], [平成28年7月14日検索], インターネット<URL:http://www.ntt.co.jp/journal/1512/files/jn201512029.pdf>

しかし従来の各手法では、障害発生時の復旧に関して下記のような課題がある。

課題１：障害復旧フローの作成には人手作業の蓄積が必要
既存手法（非特許文献３〜６）は、故障対応時に運用者が記録するトラブルチケットログが必要であり、そもそも人手作業を前提としているため完全な保守運用の自動化は出来ていない。

課題２：故障の未然抑止は不可
既存手法（非特許文献３〜６）では，故障発生した後の復旧処理をターゲットとしており、故障が発生する前に、事前に何らかの対処を行い、故障を未然に抑止する、といった事は不可能であった。

また、非特許文献６では，障害発生確率を予測する事が提唱されているが、故障発生確率に基づいて、どのような対処が必要か、といった未然抑止の概念までは未検討である。

課題３：仮想化構成は固定的であり状況の変化に応じた自動最適化は不可
既存手法（非特許文献３〜６）では、仮想化構成（ハードウェア・ホストＯＳ・ハイパーバイザー・ゲストＯＳ・アプリケーションからなる構成）は固定的となっており、状況の変化に応じて自動的に切り替える事は不可能である。そのため、特定のレイヤ、例えばゲストＯＳにバグが発生し、動作が不安定となった場合に、システム全体の安定性が低下するといった事態に対処する事が不可能であった。

上記課題を解決するために、本願発明は、仮想化環境が構築され該仮想化環境上でアプリケーションが動作するサーバ装置と、専用物理装置として構成されたネットワーク装置とを備え、前記サーバ装置の前記アプリケーションがユーザ端末にサービスを提供する仮想化されたネットワークにおいて、該ネットワークで発生した障害を復旧制御装置により復旧させる障害復旧システムであって、前記復旧制御装置は、前記障害の発生原因及び発生装置を特定して前記アプリケーションによる前記ユーザ端末に対するサービス提供を継続するよう障害発生装置を復旧制御する復旧制御手段と、復旧制御手段による復旧制御処理のトリガ及びその復旧処理内容を関連づけて復旧制御履歴として記憶する復旧制御履歴記憶部とを備え、前記復旧制御手段は、前記復旧制御履歴記憶部に記憶された復旧制御履歴に基づき復旧制御アルゴリズムを構成して障害発生装置の復旧制御を行うことを特徴とする。

また、本願発明は、前記復旧制御装置は、更に、前記復旧制御履歴記憶部に記憶された復旧制御履歴を解析して再起動により復旧する障害が定常的に発生しているサーバ装置又はネットワーク装置及びその障害発生周期を算出し、該サーバ装置又はネットワーク装置の次回障害発生時期を予測し、次回障害発生時期の到来前に該サーバ装置又はネットワーク装置を再起動するよう制御する再起動制御手段を備えたことを特徴とする。

また、本願発明は、前記代替サーバ装置は、ハードウェア層・ホストＯＳ層・仮想化環境層・ゲストＯＳ層・アプリケーション層からなる階層構造を有し、前記代替ネットワーク装置は、ハードウェア層・ファームウェア層からなら階層構造を有し、前記復旧制御手段は、１つ以上の層において障害発生装置と同等の機能を提供する代替構成を障害発生装置の代替として使用するよう制御し、前記復旧制御装置は、更に、前記復旧制御履歴記憶部に記憶された代替構成による復旧処理についての復旧制御履歴に基づき通常の構成におけるサーバ装置及びネットワーク装置の安定性を導出し、安定性の低いサーバ装置又はネットワーク装置の通常の構成を代替構成に変更するよう制御する構成変更手段を備えたことを特徴とする。

本発明によれば、復旧制御履歴情報に基づき自動的且つ効率的な復旧処理のパターンを得ることができるので処理効率が向上する。また、障害発生に先んじてサーバ装置やネットワーク装置の再起動が自動的に行われるので、システム全体の安定性が向上する。さらに、サーバ装置やネットワーク装置の構成が自動的により安定性の高い代替構成に変更されるので、システム全体の安定性が向上する。

本発明の概要を説明するシステム構成図復旧制御装置の構成図代替構成を説明する図自動復旧のパターンを説明する図障害復旧フローの自動最適化を説明する図故障の未然防止を説明する図構成の自動最適化を説明する図

本発明の一実施の形態に係る障害復旧システムについて図面を参照して説明する。図１は本発明の概要を説明するシステム構成図である。

本発明において障害復旧の対象とする仮想化されたネットワークは、ＮＦＶ（Network Functions Virtualisation）技術によりネットワーク機能が仮想化されたものを想定しており、図１に示すように、サーバ装置１００と、ネットワーク装置２００と、ユーザ端末１０とを備えている。

サーバ装置１００は、汎用物理サーバ装置上に仮想化環境が構築されており、さらに当該仮想化環境上にアプリケーションが動作する。本発明では、図１に示すように、サーバ装置１００は、下層から順に、ハードウェア層・ホストＯＳ層・ハイパーバイザー層・ゲストＯＳ層・アプリケーション層が形成されているものとして取り扱う。なお、ここでのレイヤは、ＯＳＩ（Open Systems Interconnection）参照モデルの７階層とは異なるものである点に留意されたい。すなわち、本発明においてサーバ装置１００で動作するアプリケーションは、ＯＳＩ参照モデルのアプリケーション層だけでなくネットワーク層やトランスポート層などの階層に対応するものも含まれる点に留意されたい。例えば、サーバ装置１００としては、ユーザ宅内の通信設備（ＣＰＥ（Customer Premises Equipment））を仮想化してネットワーク側に配置したｖＣＰＥなどが想定され、ファイヤウォール・ルータなどの各種ネットワーク機能を提供するものが挙げられる。

ネットワーク装置２００は、サーバ装置１００とユーザ端末１０との間の通信経路を形成する装置の１つであり、専用物理装置として実装されたものである。本発明では、ネットワーク装置２００は、下層から順に、ハードウェア層・ファームウェア層が形成されているものとして取り扱う。なお、ここでのレイヤは、サーバ装置１００と同様に、ＯＳＩ参照モデルとは異なるものである点に留意されたい。ネットワーク装置２００の具体例としては、専用物理装置としてのファイヤウォールやルータやＬ２スイッチなどが挙げられる。

また、本発明では、１つ以上のサーバ装置１００及び１つ以上のネットワーク装置２００により１つのサイトを構成し、さらに１つ以上のサイトによりプラットフォームを構成しているものとする。プラットフォームの配備位置としては、典型的には、インターネット上の所謂「クラウド」としてデータセンタ内に配備されたり、ユーザ端末がインターネットに接続するためのアクセスネットワーク（キャリアネットワーク）内のデータセンタ内に配備されたりする。プラットフォームの管理者は、プラットフォーム内において物理的な装置の増強等が可能であるものとする。

本発明では、復旧制御装置３００によりネットワークで生じた障害を自動的且つ効率的に復旧させるとともに障害発生を未然に防止してシステムの安定性を維持することを目的とする。復旧制御装置３００のネットワーク上での配備位置は不問である。

本発明のポイントは、（１）障害復旧フローの自動最適化、（２）故障の未然防止、（３）構成の自動最適化、という３つの要素を有する。

上記（１）障害復旧フローの自動最適化は、「自動制御のトリガ」と「自動復旧のパターン」の対応関係をＤＢとして保持しておき、制御アルゴリズムを自動的に再構成して、自動復旧までの間隔（「トライ＆エラー」の「エラー」の頻度）を減らすものである。

上記（２）故障の未然防止は、「再起動して復旧」したパターンが定常的に発生する場合は、その事象が再発する間隔を記録しておき、事前に自動的に再起動を行う事で、故障を未然に防止するものである。

上記（３）構成の自動最適化は、代替構成の方が基本構成よりも安定性が高い場合は、代替構成を基本構成に徐々に変更する事で、システム全体の安定性を維持するものである。

図２に復旧制御装置３００の構成図を示す。図２に示すように、復旧制御装置３００は、ネットワークの復旧制御を行う復旧制御部３１０と、復旧制御部３１０による復旧制御処理の履歴を記憶する復旧制御履歴記憶部３２０と、サーバ装置１００又はネットワーク装置２００を再起動させることにより障害発生を未然に防止する再起動制御部３３０と、サーバ装置１００又はネットワーク装置２００の通常の構成（基本構成）を代替構成に変更するよう制御する構成変更制御部３４０とを備える。

復旧制御部３１０は、正常性試験の結果情報及びトラヒック情報に基づき障害発生原因及び障害発生箇所を特定し、復旧処理を行う。記正常性試験は、ユーザ端末１０・サーバ装置１００・ネットワーク装置２００で定常的に実施されるものであり、復旧制御部３１０は、ユーザ端末１０・サーバ装置１００・ネットワーク装置２００から正常性試験結果情報を受信・記憶する。

上記の正常性試験としては、（Ａ）アプリケーション正常性試験、（Ｂ）通信路正常性試験、を定常的に行い、その試験結果は復旧制御装置３００に通知されるものとする。前記（Ａ）アプリケーション正常試験は、例えばＤＮＳ（Domain Name System）問合せ自動送信試験などが挙げられ、（Ａ１）ユーザ端末１０・サーバ装置１００間での試験、（Ａ２）サーバ装置１００での単体試験が含まれる。また、前記（Ｂ）通信路正常性試験は、例えばＰＩＮＧによる疎通確認試験などが挙げられ、（Ｂ１）ユーザ端末１０・サーバ装置１００間での試験、（Ｂ２）隣接する装置間での試験、（Ｂ３）ネットワーク装置２００単体での試験、（Ｂ４）サーバ装置１００単体での試験が含まれる。

また、上記のトラヒック情報はサーバ装置１００及びネットワーク装置２００から定期的に収集され、復旧制御装置３００に通知されるものとする。トラヒック情報としては、（Ｃ１）ネットワーク装置２００単体のトラヒック情報（例えば各インタフェースの入力パケットや出力パケットなど）、（Ｃ２）サーバ装置１００単体のトラヒック情報（例えば各インタフェースの入力パケットや出力パケットなど）が含まれる。

また、上記の「代替構成」について説明する。障害の形態として、各レイヤにおけるバグが発生した場合に、単純にその装置全体の再起動等の処理を行っても障害から復旧できないパターンが想定される。その様なパターンでもサービスを継続するために、障害発生前における構成を基本構成として、各レイヤ単位で、基本構成とは異なる種別の構成を用いる。これを代替構成と呼ぶ。ここで、「異なる種別の構成」とは、障害発生前における装置の当該レイヤにおいて同等の機能を提供するものであるが、異なる実装のものであり、異なる製品だけでなく、同一製品だが異なるバージョンやリビジョンのものも含んでよい。

ただし、全てのバリエーションの構成を準備すると、構成が爆発的に増加する可能性がある。このため、図３に示すように、１レイヤのみ変更した構成（（ｉ）〜（ｖ））と、全てを入れ替えた構成（（ｖｉ））を用意する。なお、図３では、ハッチングをかけたレイヤが「異なる種別の構成」である。

本発明における障害発生の原因と障害箇所の特定並びに復旧方法の考え方について図４の表に示す。本発明では、トラヒック情報に基づき、障害発生の原因が内的要因であるか外的要因であるかを判定している。内的要因とはサーバ装置１００又はネットワーク装置２００或いはその通信路に原因があることを意味し、外的要因はトラヒックの急増に原因があることを意味する。内的要因の障害については、再起動により復旧するか否か、またその装置及びレイヤごとに発生箇所が分類でき、それぞれの分類に対して復旧方法が定められる。また、外的要因の障害については、急増したトラヒックの正常か異常か、またその装置毎に、さらに短期的なものか長期的なものかによって分類でき、それぞれの分類に対して、復旧方法が定められる。

内的要因についての復旧方法としては、サーバ装置１００やネットワーク装置２００を再起動したり、代替構成で起動したりすることが挙げられる。ここで再起動は、サーバ装置１００やネットワーク装置２００のレイヤ単位での再起動を行うことができる。また、代替構成についても、サーバ装置１００やネットワーク装置２００のレイヤ単位での代替構成を用いることができる。

外的要因についての復旧方法としては、トラヒックを所定の待避サイトに向けるようネットワーク装置２００等を制御したり、プラットフォーム管理者に物理的装置増設要求を通知したり、サーバ装置１００及び／又はネットワーク装置２００を自動的に増加させるように制御処理したりすることが挙げられる。なお、なお、サーバ装置１００の増加制御処理とは、既設の汎用物理サーバ装置上にアプリケーションが動作するようにインストール処理や設定処理を行うことによりサーバ装置１００として機能させることを意味する。また、ネットワーク装置２００の増加制御処理とは、既設の専用物理装置に設定処理を行うことによりネットワーク装置２００として機能させることを意味する。

復旧制御処理の開始となる契機（トリガ）としては、アラーム発生、ユーザ申告、定期的な正常性試験が挙げられる。ここで、「アラーム発生」は、サーバ装置１００やネットワーク装置２００等の機器が備えている既存の障害検知システムによる障害発生の警告を契機とするものである。また「ユーザ申告」は、ユーザ端末１０のユーザやその他の利用者等からの申告を契機とするものである。また、「定常的な正常性試験」は、ユーザ端末１０・サーバ装置１００・ネットワーク装置２００から受信した正常性試験結果の内容（典型的には、障害が生じたとの内容）を契機とするものである。

本実施の形態に係る復旧制御部３１０は、図５に示すように、自動制御の契機と、これにより実施した復旧制御部３１０による自動復旧処理パターンとの対応関係を復旧制御履歴として復旧制御履歴記憶部３２０に記憶・蓄積する。そして、復旧制御部３１０は、該復旧制御履歴に基づき制御アルゴリズムを自動的に再構成して、自動復旧までの間隔（「トライ＆エラー」の「エラー」の頻度）を減らすことを特徴とする。具体的には、復旧制御部３１０は、自動制御のトリガが新たに発生した場合、過去に自動復旧した実績が一定の閾値を超える復旧パターンが存在する場合は、それを優先的に実施する。

また、本実施の形態では、「再起動して復旧」した復旧パターンが定常的に発生する場合は、その事象が再発する間隔を記録しておき、再起動を自動的に行う事で故障を未然に防止する。このため復旧制御部３１０は、図６に示すように、事象発生の統計情報（図６の例では発生間隔の平均値・最小値・最大値及び発生回数）を復旧制御履歴記憶部３２０に保持しておく。そして、再起動制御部３３０は、最小値より少ない間隔で自動的に再起動する事で故障を未然に防止する。すなわち、再起動制御部３３０は、復旧制御履歴記憶部３２０に記憶されている復旧制御履歴を解析して、再起動により復旧する障害が定常的に発生しているサーバ装置１００又はネットワーク装置２００及びその障害発生周期を算出し、該サーバ装置１００又はネットワーク装置２００の次回障害発生時期を予測し、次回障害発生時期の到来前に該サーバ装置１００又はネットワーク装置２００を再起動するよう制御する。

また、本実施の形態では、サーバ装置１００又はネットワーク装置２００において代替構成での復旧の回数が一定の閾値を超える場合は、「基本構成」での安定性が低下したと判断し、通常の構成（基本構成）を「代替構成」に徐々に変更することにより、システム全体の安定性を向上させる。このため復旧制御部３１０は、図７に示すように、代替構成にて復旧したパターンの回数を復旧制御履歴記憶部３２０に記録しておく。そして、構成変更制御部３４０は、代替構成での復旧の回数が一定の閾値を超える場合は、通常の構成（基本構成）を「代替構成」に徐々に変更するよう制御する。

以上のように本実施の形態に係る障害復旧システムでは、復旧制御履歴情報に基づき自動的且つ効率的な復旧処理のパターンを得ることができるので処理効率が向上する。また、障害発生に先んじてサーバ装置１００やネットワーク装置２００の再起動が自動的に行われるので、システム全体の安定性が向上する。さらに、サーバ装置１００やネットワーク装置２００の構成が自動的により安定性の高い代替構成に変更されるので、システム全体の安定性が向上する。

より具体的には、前記ポイント（１）では、障害復旧フローの自動最適化を行っているので、すなわち、障害復旧に関して未知の状況についても自動的に対処を行い、それらのログを蓄積し自動的に最適化を行うので、人手作業を完全に不要とすることができる。これにより前述の課題１を解決することができる。

また、前記ポイント（２）では、故障の未然防止を図っているので、すなわち、故障の発生する確率が高まった場合に予め対処を行っているので、実際に故障が発生しサービス断となる事態を予め抑止し、サービス可用性を高める事ができる。これにより前述の課題２を解決することができる。

また、前記ポイント（３）では、構成の自動最適化を図っているので、すなわち、ソフトウェアバグ等で仮想化構成における特定のレイヤの安定性が低下した際に、そのレイヤについて代替構成に自動的に切り替えられるので、システム全体の安定性を維持することができる。これにより前述の課題３を解決することができる。

以上本発明の一実施の形態について詳述したが、本発明はこれに限定されるものではない。例えば、上記実施の形態では代替構成として、組み合わせ数の増大を防止するため、１つのレイヤを代替構成としたもの及び全てのレイヤの構成を代替構成としたものを用いたが、任意の組み合わせであってもよい。

１０…ユーザ端末
１００…サーバ装置
２００…ネットワーク装置
３００…復旧制御装置
３１０…復旧制御部
３２０…復旧制御履歴記憶部
３３０…再起動制御部
３４０…構成変更制御部

Claims

仮想化環境が構築され該仮想化環境上でアプリケーションが動作するサーバ装置と、専用物理装置として構成されたネットワーク装置とを備え、前記サーバ装置の前記アプリケーションがユーザ端末にサービスを提供する仮想化されたネットワークにおいて、該ネットワークで発生した障害を復旧制御装置により復旧させる障害復旧システムであって、
前記復旧制御装置は、前記障害の発生原因及び発生装置を特定して前記アプリケーションによる前記ユーザ端末に対するサービス提供を継続するよう障害発生装置を復旧制御する復旧制御手段と、復旧制御手段による復旧制御処理のトリガ及びその復旧処理内容を関連づけて復旧制御履歴として記憶する復旧制御履歴記憶部とを備え、
前記復旧制御手段は、前記復旧制御履歴記憶部に記憶された復旧制御履歴に基づき復旧制御アルゴリズムを構成して障害発生装置の復旧制御を行う
ことを特徴とする障害復旧システム。
前記復旧制御装置は、更に、
前記復旧制御履歴記憶部に記憶された復旧制御履歴を解析して再起動により復旧する障害が定常的に発生しているサーバ装置又はネットワーク装置及びその障害発生周期を算出し、該サーバ装置又はネットワーク装置の次回障害発生時期を予測し、次回障害発生時期の到来前に該サーバ装置又はネットワーク装置を再起動するよう制御する再起動制御手段を備えた
ことを特徴とする請求項１記載の障害復旧システム。
前記代替サーバ装置は、ハードウェア層・ホストＯＳ層・仮想化環境層・ゲストＯＳ層・アプリケーション層からなる階層構造を有し、
前記代替ネットワーク装置は、ハードウェア層・ファームウェア層からなら階層構造を有し、
前記復旧制御手段は、１つ以上の層において障害発生装置と同等の機能を提供する代替構成を障害発生装置の代替として使用するよう制御し、
前記復旧制御装置は、更に、
前記復旧制御履歴記憶部に記憶された代替構成による復旧処理についての復旧制御履歴に基づき通常の構成におけるサーバ装置及びネットワーク装置の安定性を導出し、安定性の低いサーバ装置又はネットワーク装置の通常の構成を代替構成に変更するよう制御する構成変更手段を備えた
ことを特徴とする請求項１又は２記載の障害復旧システム。
仮想化環境が構築され該仮想化環境上でアプリケーションが動作するサーバ装置と、専用物理装置として構成されたネットワーク装置とを備え、前記サーバ装置の前記アプリケーションがユーザ端末にサービスを提供する仮想化されたネットワークにおいて、該ネットワークで発生した障害を復旧制御装置により復旧させる障害復旧方法であって、
前記復旧制御装置の復旧制御手段が、前記障害の発生原因及び発生装置を特定して前記アプリケーションによる前記ユーザ端末に対するサービス提供を継続するよう障害発生装置を復旧制御するとともに、復旧制御処理のトリガ及びその復旧処理内容を関連づけて復旧制御履歴として復旧制御履歴記憶部に記憶し、
前記復旧制御手段は、前記復旧制御の際には、前記復旧制御履歴記憶部に記憶された復旧制御履歴に基づき復旧制御アルゴリズムを構成して障害発生装置の復旧制御を行う
ことを特徴とする障害復旧方法。