JP2023184059A

JP2023184059A - 推定装置、推定方法、および推定プログラム

Info

Publication number: JP2023184059A
Application number: JP2022097970A
Authority: JP
Inventors: 里奈上野; Rina Ueno; 貴也井出; Takaya Ide; 貴志爲重; Takashi Tameshige; 峰義増田; Mineyoshi Masuda; ヤナバックフース; Backhus Jana
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2023-12-28

Abstract

【課題】障害推定モデルの監視対象への適用性を検証すること。【解決手段】推定装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有し、前記プロセッサは、監視対象から得られた第１監視データと、前記第１監視データに対する第１障害検出結果と、を取得する取得処理と、前記監視対象の障害を推定する障害推定モデルに前記第１監視データを入力することにより第１障害推定結果を算出する推定処理と、前記第１障害推定結果と前記第１障害検出結果とに基づいて、前記障害推定モデルが前記監視対象に適用可能かを示す指標値を算出する算出処理と、を実行する。【選択図】図５

Description

本発明は、障害に関する情報を推定する推定装置、推定方法、および推定プログラムに関する。

下記特許文献１は、障害要因を推定する障害要因推定装置を開示する。この障害要因推定装置は、障害要因を人工的に対象システムへ入力することで対象システムに障害を発生させる障害要因挿入部と、障害が発生している状態の対象システムにおいて観測されるデータを取得する前処理部と、障害要因とデータとの関係性を分類器に学習させる分類器学習部と、を有する。障害要因推定部は、運用中の対象システムの障害時に得られる観測データ（障害データ）を入力として、学習済みの分類器を用いて障害要因を推定する。

特開２０２１－１２８５３８号公報

しかしながら、上述した特許文献１では、分類器が対象システムに適用可能かを示す指標値を算出する点については、考慮されていない。

本発明は、障害推定モデルの監視対象への適用性を検証することを目的とする。

本願において開示される発明の一側面となる推定装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する推定装置であって、前記プロセッサは、監視対象から得られた第１監視データと、前記第１監視データに対する第１障害検出結果と、を取得する取得処理と、前記監視対象の障害を推定する障害推定モデルに前記第１監視データを入力することにより第１障害推定結果を算出する推定処理と、前記第１障害推定結果と前記第１障害検出結果とに基づいて、前記障害推定モデルが前記監視対象に適用可能かを示す指標値を算出する算出処理と、を実行することを特徴とする。

本発明の代表的な実施の形態によれば、障害推定モデルの監視対象への適用性を検証することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

図１は、実施例１にかかる推定システムのシステム構成例を示す説明図である。図２は、コンピュータのハードウェア構成例を示すブロック図である。図３は、推定システムによる障害テストシーケンス例を示すシーケンス図である。図４は、障害マップＤＢの一例を示す説明図である。図５は、推定装置の処理手順例を示すフローチャートである。図６は、図５に示した障害推定モデルの適用性検証処理（ステップＳ５０１）の詳細な処理手順例を示すフローチャートである。図７は、適用率リストの一例を示す説明図である。図８は、図５に示した障害推定モデルの追加学習処理（ステップＳ５０３）の詳細な処理手順例を示すフローチャートである。図９は、障害推定モデルの追加学習処理（ステップＳ５０３）における選択障害ＩＤの学習データセットの取得例を示すシーケンス図である。図１０は、推定装置の表示画面例を示す説明図である。図１１は、実施例２にかかる推定システムのシステム構成例を示す説明図である。図１２は、データストアの一例を示す説明図である。図１３は、障害テスト履歴ＤＢの一例を示す説明図である。図１４は、実施例２にかかる障害推定モデルの適用性検証処理（ステップＳ５０１）の詳細な処理手順例を示すフローチャートである。図１５は、図１４に示した優先順位決定処理（ステップＳ１４００）の詳細な処理手順例を示すフローチャートである。図１６は、図１５に示した差分によるポイント付与処理（ステップＳ１５０１）の詳細な処理手順例を示すフローチャートである。図１７は、図１５に示した障害テスト履歴によるポイント付与処理（ステップＳ１５０２）の詳細な処理手順例を示すフローチャートである。

＜システム構成例＞
図１は、実施例１にかかる推定システムのシステム構成例を示す説明図である。推定システム１００は、監視対象Ｔ１～Ｔｎ（ｎは１以上の整数）と、障害テスト装置１０１と、監視装置１０２と、推定装置１０３と、を有する。監視対象Ｔｉ、障害テスト装置１０１、監視装置１０２、および推定装置１０３は、インターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などのネットワーク１１０を介して通信可能に接続される。障害テスト装置１０１、監視装置１０２、および推定装置１０３の少なくとも２つは、１台のコンピュータで実現してもよい。

監視対象Ｔｉ（ｉは１≦ｉ≦ｎを満たす整数）は、監視対象によって障害の有無を監視されるコンピュータである。監視対象Ｔｉは、１以上のマイクロサービスＭｉ１、Ｍｉ２、Ｍｉ３、…（これらを区別しない場合は、マイクロサービスＭｉと表記する。）を有する。マイクロサービスＭｉは、監視対象Ｔｉが実行するソフトウェアであり、１以上のインスタンスで構成される。障害テスト装置１０１は、障害の有無をテストするコンピュータである。監視装置１０２は、監視対象Ｔｉを監視するコンピュータである。推定装置１０３は、監視対象Ｔｉの障害を推定するコンピュータである。推定装置１０３は、障害マップＤＢ１３０を有する。障害マップＤＢ１３０は、監視対象Ｔｉごとの障害マップを記憶するデータベースである。障害マップＤＢ１３０は、ネットワーク１１０を介して推定装置１０３からアクセス可能な他のコンピュータに存在してもよい。

＜コンピュータのハードウェア構成例＞
図２は、コンピュータのハードウェア構成例を示すブロック図である。コンピュータ２００は、プロセッサ２０１と、記憶デバイス２０２と、入力デバイス２０３と、出力デバイス２０４と、通信インターフェース（通信ＩＦ）２０５と、を有する。プロセッサ２０１、記憶デバイス２０２、入力デバイス２０３、出力デバイス２０４、および通信ＩＦ２０５は、バス２０６により接続される。プロセッサ２０１は、コンピュータ２００を制御する。記憶デバイス２０２は、プロセッサ２０１の作業エリアとなる。また、記憶デバイス２０２は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス２０２としては、たとえば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュメモリがある。入力デバイス２０３は、データを入力する。入力デバイス２０３としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナ、マイク、センサがある。出力デバイス２０４は、データを出力する。出力デバイス２０４としては、たとえば、ディスプレイ、プリンタ、スピーカがある。通信ＩＦ２０５は、ネットワーク１１０と接続し、データを送受信する。

＜障害テストシーケンス例＞
図３は、推定システム１００による障害テストシーケンス例を示すシーケンス図である。障害テスト装置１０１は、障害テストコード３０１および障害推定モデル３０２を推定装置１０３に送信する（ステップＳ３０１）。障害テストコード３０１は、監視データが入力されると障害の有無を検出する関数の集合である。監視データとは、監視対象の挙動を示すデータであり、たとえば、監視対象Ｔｉ内のマイクロサービスＭｉのインスタンスごとのＣＰＵ使用率、メモリ使用量、ディスクＩＯＰＳ（Ｉｎｐｕｔ／ＯｕｔｐｕｔＰｅｒＳｅｃｏｎｄ）、受信リクエスト数、アラート数などがある。障害推定モデル３０２は、障害を推定する学習モデルであり、具体的には、たとえば、決定木やランダムフォレスト、ニューラルネットワークにより構成される。障害推定モデル３０２は、監視対象Ｔｉごとに存在する。

監視対象Ｔｉは、ＣＰＵ使用率やメモリ使用量といった監視データ（ここでは、事前監視データと称す）を監視装置１０２に送信する（ステップＳ３０２）。監視装置１０２は、監視対象Ｔｉからの事前監視データを推定装置１０３に送信する（ステップＳ３０３）。

推定装置１０３は、第１障害要因データを生成する（ステップＳ３０４）。第１障害要因データとは、監視対象Ｔｉに意図的に障害を発生させるための設定データである。具体的には、たとえば、推定装置１０３は、事前監視データを障害テストコード３０１に入力して関数ごとに障害の有無を検出する。そして、推定装置１０３は、各関数により障害の発生の有無を判定し、障害が発生した場合、特定の事前監視データの値を障害を誘発する値に設定することで、第１障害要因データを生成する。第１障害要因データを生成する際には、障害を再現するためにユーザが作成したスクリプトが用いられてもよく、既存の負荷試験ツール、障害要因挿入ツールが用いられてもよい。

推定装置１０３は、第１障害要因データを監視対象Ｔｉに送信する（ステップＳ３０５）。監視対象Ｔｉは、第１障害要因データを取り込んでマイクロサービスＭｉの処理を実行し、その時の監視データ（第１監視データ）を監視装置１０２に送信する（ステップＳ３０６）。

監視装置１０２は、第１監視データを用いて、障害が監視対象Ｔｉのいずれかのインスタンスで発生したか否か、発生したとすればどのインスタンスでどのような種類の障害が発生したかを検出し、検出した場合は第１障害検出結果を出力する（ステップＳ３０７）。監視装置１０２は、指定期間内で検出された第１障害検出結果および第１監視データを推定装置１０３に送信する（ステップＳ３０８）。

推定装置１０３は、第１監視データを加工する（ステップＳ３０９）。具体的には、たとえば、推定装置１０３は、第１監視データを統計処理（たとえば、平均化）することで特徴量を抽出する。統計処理で得た特徴量には、たとえば、インスタンスごとの平均ＣＰＵ使用率、平均メモリ使用量、平均ディスクＩＯＰＳ、分間受信リクエスト数、分間アラート数がある。推定装置１０３は、第１障害検出結果および加工済み第１監視データを第１学習データセットとして障害マップＤＢ１３０に登録する（ステップＳ３１０）。つぎに、障害マップＤＢ１３０について説明する。

＜障害マップＤＢ１３０＞
図４は、障害マップＤＢ１３０の一例を示す説明図である。障害マップＤＢ１３０は、監視対象Ｔ１～Ｔｎの障害マップテーブル４００－１～４００－ｎを有する。障害マップテーブル４００－ｉは、ある指定期間における障害検出結果４０１と加工済み監視データ４０２とを有する。障害検出結果４０１および加工済み監視データ４０２は、ステップＳ３１０において、登録される。

障害検出結果４０１は、障害ＩＤ４１１と、障害４１２と、発生場所４１３と、を含む。障害ＩＤ４１１は、障害を一意に特定する識別情報である。障害４１２は、障害ＩＤ４１１で特定される障害の種類を示す。発生場所４１３は、障害４１２が発生したインスタンスである。

加工済み監視データ４０２は、監視データ（図３の例では、第１監視データ）の各特徴量を加工した加工済み特徴量の集合である。具体的には、たとえば、加工済み監視データ４０２は、ある指定期間における平均ＣＰＵ使用率４２１、平均メモリ使用量４２２、平均ディスクＩＯＰＳ４１３、分間受信リクエスト数４２４、分間アラート数４２５を含む。

図４に示した障害マップテーブル４００－ｉでは、ある指定期間における障害検出結果４０１と加工済み監視データ４０２と示したが、複数の指定期間分の障害検出結果４０１と加工済み監視データ４０２とを保持していてもよい。

＜推定装置１０３の処理手順例＞
図５は、推定装置１０３の処理手順例を示すフローチャートである。推定装置１０３は、障害推定モデル３０２の適用性検証処理を実行する（ステップＳ５０１）。障害推定モデル３０２の適用性検証処理（ステップＳ５０１）の詳細については、図６で後述するが、障害推定モデル３０２の適用性検証処理（ステップＳ５０１）により障害ＩＤ４１１ごとの適用率が算出される。

つぎに、推定装置１０３は、すべての障害ＩＤ４１１の適用率がしきい値以上であるか否かを判断する（ステップＳ５０２）。すべての障害ＩＤ４１１の適用率がしきい値以上でない場合（ステップＳ５０３：Ｎｏ）、障害推定モデル３０２の追加学習処理を実行し（ステップＳ５０３）、ステップＳ５０１に戻る。ステップＳ５０１では、障害推定モデル３０２の追加学習処理（ステップＳ５０３）後の障害推定モデル３０２を用いて、障害推定モデル３０２の適用性検証処理（ステップＳ５０１）が再実行される。

すべての障害ＩＤ４１１の適用率がしきい値以上である場合（ステップＳ５０２：Ｙｅｓ）、推定装置１０３は、一連の処理を終了する。

＜障害推定モデル３０２の適用性検証処理（ステップＳ５０１）＞
図６は、図５に示した障害推定モデル３０２の適用性検証処理（ステップＳ５０１）の詳細な処理手順例を示すフローチャートである。障害推定モデル３０２の適用性検証処理（ステップＳ５０１）は、監視対象Ｔｉごとに実行される。

推定装置１０３は、障害マップテーブル４００－ｉに未選択の障害ＩＤ４１１があるか否かを判断する（ステップＳ６０１）。未選択の障害ＩＤ４１１がある場合（ステップＳ６０１：Ｙｅｓ）、推定装置１０３は、未選択の障害ＩＤ４１１を１つ選択する（ステップＳ６０２）。

推定装置１０３は、選択障害ＩＤ４１１の未選択エントリがあるか否かを判断する（ステップＳ６０３）。未選択エントリがある場合（ステップＳ６０３：Ｙｅｓ）、推定装置１０３は、選択障害ＩＤ４１１の未選択エントリを１つ選択する（ステップＳ６０４）。そして、推定装置１０３は、選択障害ＩＤ４１１の選択エントリの加工済み監視データ４０２を障害推定モデル３０２に入力して、選択エントリの障害推定結果を出力する（ステップＳ）。そして、ステップＳ６０３に戻る。

未選択エントリがない場合（ステップＳ６０３：Ｎｏ）、推定装置１０３は、選択障害ＩＤ４１１の適用率を算出して（ステップＳ６０６）、ステップＳ６０１に戻る。未選択障害ＩＤ４１１がない場合（ステップＳ６０１：Ｎｏ）、推定装置１０３は、障害推定モデル３０２の適用性検証処理（ステップＳ５０１）を終了して、ステップＳ５０２に移行する。

ここで、適用率の算出（ステップＳ６０６）について説明する。適用率とは、監視対象Ｔｉの障害推定モデル３０２が監視対象Ｔｉにどの程度適用可能かを示す指標である。具体的には、たとえば、適用率は、監視対象Ｔｉについて、選択障害ＩＤ４１１の障害検出結果４０１と、選択障害ＩＤ４１１の加工済み監視データ４０２を障害推定モデル３０２に入力した結果得られる障害推定結果と、が一致したか否かを示す指標値である。たとえば、適用率の分母が、その障害ＩＤ４１１のエントリ数であり、適用率の分子が、その障害ＩＤ４１１のエントリ数のうち障害推定結果がその障害ＩＤ４１１と一致したエントリ数である。

たとえば、選択障害ＩＤ４１１が「１」（Ｓｅｒｖｅｒｄｏｗｎ）であるとする。また、そのエントリ数が１０（すなわち、加工済み監視データ４０２が１０個）であるとする。この１０個の加工済み監視データ４０２の各々を障害推定モデル３０２に入力した結果、障害ＩＤ４１１が「１」である障害推定結果が６個出力されたとする。この場合、適用率は、６／１０となる。

図７は、適用率リスト７００の一例を示す説明図である。適用率リスト７００は、障害ＩＤ４１１ごとの適用率７０１の一覧データである。たとえば、ステップＳ５０２のしきい値が０．５である場合、図７では、すべての障害ＩＤ４１１の適用率７０１が０．５以上ではないため、障害推定モデル３０２の追加学習処理（ステップＳ５０３）が実行される。

＜障害推定モデル３０２の追加学習処理（ステップＳ５０３）＞
図８は、図５に示した障害推定モデル３０２の追加学習処理（ステップＳ５０３）の詳細な処理手順例を示すフローチャートである。ステップＳ５０２：Ｎｏのあと、推定装置１０３は、追加学習対象の未選択障害ＩＤ４１１があるか否かを判断する（ステップＳ８０１）。追加学習対象の障害ＩＤ４１１とは、適用率７０１がしきい値以上でない障害ＩＤ４１１である。

追加学習対象の未選択障害ＩＤ４１１がある場合（ステップＳ８０１：Ｙｅｓ）、推定装置１０３は、追加学習対象の障害ＩＤ４１１を１つ選択する（ステップＳ８０２）。推定装置１０３は、選択障害ＩＤ４１１の学習データセット（障害検出結果４０１および加工済み監視データ４０２）を取得する（ステップＳ８０３）。選択障害ＩＤ４１１の学習データセットの取得（ステップＳ８０３）の詳細については、図９で後述する。

推定装置１０３は、障害推定モデル３０２を選択障害ＩＤ４１１の学習データセットで追加学習を実行し、障害推定モデル３０２を更新する（ステップＳ８０４）。そして、ステップＳ８０１に戻る。追加学習対象の未選択障害ＩＤ４１１がない場合（ステップＳ８０１：Ｎｏ）、推定装置１０３は、障害推定モデル３０２の追加学習処理（ステップＳ５０３）を終了して、ステップＳ５０１に移行する。

図９は、障害推定モデル３０２の追加学習処理（ステップＳ５０３）における選択障害ＩＤ４１１の学習データセットの取得例を示すシーケンス図である。推定装置１０３は、第１障害要因データと同様な方法で、第２障害要因データを生成する（ステップＳ９０４）。第２障害要因データとは、監視対象Ｔｉに意図的に障害を発生させるための設定データである。具体的には、たとえば、推定装置１０３は、事前監視データ（第１監視データでもよい）を追加学習対象の障害ＩＤ４１１に関する障害テストコード３０１に入力して監視対象Ｔｉでのその障害４１２の発生の有無を検出する。そして、推定装置１０３は、障害４１２の発生の有無により、特定の事前監視データ（第１監視データでもよい）の値を障害を誘発する値に設定することで、第２障害要因データを生成する。

推定装置１０３は、第２障害要因データを監視対象Ｔｉに送信する（ステップＳ９０５）。監視対象Ｔｉは、第２障害要因データを取り込んでマイクロサービスＭｉの処理を実行し、その時の監視データ（第２監視データ）を監視装置１０２に送信する（ステップＳ９０６）。

監視装置１０２は、第２監視データを用いて、障害が監視対象Ｔｉのいずれかのインスタンスで発生したか否か、発生したとすればどのインスタンスでどのような種類の障害が発生したかを検出し、検出した場合は第２障害検出結果を出力する（ステップＳ９０７）。監視装置１０２は、指定期間内で検出された第２障害検出結果および第２監視データを推定装置１０３に送信する（ステップＳ９０８）。

推定装置１０３は、第２監視データを加工する（ステップＳ９０９）。具体的には、たとえば、推定装置１０３は、第２監視データを統計処理（たとえば、平均化）により特徴量を抽出する。推定装置１０３は、第２障害検出結果および加工済み第２監視データを第２学習データセットとして障害マップＤＢ１３０の障害検出結果４０１および加工済み監視データ４０２に登録する（ステップＳ９１０）。

図８のステップＳ８０３では、推定装置１０３は、ステップＳ９１０で登録された第２学習データセットを取得することになる。

＜表示画面＞
図１０は、推定装置１０３の表示画面例を示す説明図である。表示画面１０００は、障害推定結果１００１と、監視領域１００２と、を表示する。障害推定結果１００１は、障害ＩＤ４１１と障害４１２と発生場所４１３と適用率７０１とを関連付けた情報である。監視領域１００２は、監視装置からアラートが上がった日付時刻の監視データを表示する領域である。

このように、実施例１によれば、障害推定モデル３０２の監視対象Ｔｉへの適用性を検証することができる。具体的には、たとえば、監視対象Ｔｉの障害推定モデル３０２がどの障害４１２に適用可能であるかを特定することができる。また、適用可能でない障害４１２について障害推定モデル３０２を追加学習することで、どの障害４１２にも適用可能な障害推定モデル３０２に更新することができる。したがって、監視対象Ｔｉに対する障害推定精度の向上を図ることができる。

つぎに、実施例２について説明する。実施例２では、障害推定モデル３０２の適用性検証処理（ステップＳ５０１）において、障害４１２に適用性検証の優先順位を設定する例である。実施例２では、実施例１を中心に説明するため、実施例１と同一構成には同一符号を付し、その説明を省略する。

＜システム構成例＞
図１１は、実施例２にかかる推定システム１００のシステム構成例を示す説明図である。実施例２では、推定装置１０３は、データストア１１０１と障害テスト履歴ＤＢ１１０２とを有する。

図１２は、データストア１１０１の一例を示す説明図である。データストア１１０１は、監視対象ＩＤ１２０１と監視対象構成情報１２０２とを有する。監視対象ＩＤ１２０１は、監視対象Ｔｉを一意に特定する識別情報である。監視対象構成情報１２０２は、マイクロサービスＩＤ１２０３とマイクロサービス構成情報１２０４とを有する。マイクロサービスＩＤ１２０３は、マイクロサービスＭｉを一意に特定する識別情報である。マイクロサービス構成情報１２０４は、インスタンスＩＤ１２０５と、カスタマイズ前構成ファイル１２０６と、カスタマイズ後構成ファイル１２０７と、差分情報１２０８と、を有する。

インスタンスＩＤ１２０５は、インスタンスを一意に特定する識別情報である。カスタマイズ前構成ファイル１２０６は、インスタンスＩＤ１２０５で特定されるインスタンスのカスタマイズ前の構成ファイルである。カスタマイズ後構成ファイル１２０７は、インスタンスＩＤ１２０５で特定されるインスタンスのカスタマイズ後の構成ファイルである。差分情報１２０８は、カスタマイズ前構成ファイル１２０６とカスタマイズ後構成ファイル１２０７との差分を示す情報である。インスタンスの構成ファイルのカスタマイズや差分情報１２０８の取得は、監視対象Ｔｉで行われ、監視対象Ｔｉからデータストア１１０１に反映される。

図１３は、障害テスト履歴ＤＢ１１０２の一例を示す説明図である。障害テスト履歴ＤＢ１１０２は、障害ＩＤ４１１と、適用性検証失敗監視対象数１３００と、を有する。適用性検証失敗監視対象数１３００は、障害ＩＤ４１１で特定される障害４１２について、障害推定モデル３０２の適用性検証処理（ステップＳ５０１）で失敗した監視対象Ｔｉの数である。ここで、障害推定モデル３０２の適用性検証処理（ステップＳ５０１）の失敗とは、適用率７０１がしきい値よりも小さいことを示す。適用性検証失敗監視対象数１３００は、障害推定モデル３０２の適用性検証処理（ステップＳ５０１）の実行により更新される。

図１４は、実施例２にかかる障害推定モデル３０２の適用性検証処理（ステップＳ５０１）の詳細な処理手順例を示すフローチャートである。推定装置１０３は、ステップＳ６０１の実行に先立って、監視対象Ｔｉごとに優先順位決定処理を実行する（ステップＳ１４００）。優先順位決定処理（ステップＳ１４００）は、障害ＩＤ４１１に優先順位を付与する処理であり、図１５で後述する。

また、未選択の障害ＩＤ４１１がある場合（ステップＳ６０１：Ｙｅｓ）、推定装置１０３は、優先順位が高い未選択障害ＩＤ４１１を１つ選択し（ステップＳ１４０２）、ステップＳ６０３に移行する。

図１５は、図１４に示した優先順位決定処理（ステップＳ１４００）の詳細な処理手順例を示すフローチャートである。推定装置１０３は、差分によるポイント付与処理（ステップＳ１５０１）を実行し、障害テスト履歴によるポイント付与処理を実行し（ステップＳ１５０２）、障害ＩＤ４１１ごとにポイントを合算する（ステップＳ１５０３）。障害推定モデル３０２による推定精度が低いほどポイントが高くなり、ポイントが高いほど優先順位が高くなる。

図１６は、図１５に示した差分によるポイント付与処理（ステップＳ１５０１）の詳細な処理手順例を示すフローチャートである。推定装置１０３は、監視対象ＩＤ１２０１の監視対象構成情報１２０２を取得する（ステップＳ１６０１）。推定装置１０３は、選択監視対象構成情報１２０２について、未選択マイクロサービスＩＤ１２０３があるか否かを判断する（ステップＳ１６０２）。未選択マイクロサービスＩＤ１２０３がある場合（ステップＳ１６０２：Ｙｅｓ）、推定装置１０３は、選択監視対象構成情報１２０２の未選択のマイクロサービス構成情報１２０４を１つ選択する（ステップＳ１６０３）。

推定装置１０３は、選択マイクロサービス構成情報１２０４に未選択のインスタンスＩＤ１２０５があるか否かを判断する（ステップＳ１６０４）。未選択のインスタンスＩＤ１２０５がある場合（ステップＳ１６０４：Ｙｅｓ）、推定装置１０３は、選択マイクロサービス構成情報１２０４の未選択のインスタンスＩＤ１２０５を１つ選択する（ステップＳ１６０５）。

推定装置１０３は、選択インスタンスＩＤ１２０５について差分情報１２０８があるか否かを判断する（ステップＳ１６０６）。差分情報１２０８がない場合（ステップＳ１６０６：Ｎｏ）、ステップＳ１６０４に戻る。一方、差分情報１２０８がある場合（ステップＳ１６０６：Ｙｅｓ）、選択インスタンスＩＤ１２０５のインスタンスが発生場所４１３となる障害ＩＤ４１１を障害マップＤＢ１３０から検出する（ステップＳ１６０７）。推定装置１０３は、検出障害ＩＤ４１１に１ポイント付与する（ステップＳ１６０８）。そして、ステップＳ１６０４に戻る。

ステップＳ１６０４において、未選択のインスタンスＩＤ１２０５がない場合（ステップＳ１６０４：Ｎｏ）、ステップＳ１６０２に戻る。ステップＳ１６０２において、未選択マイクロサービスＩＤ１２０３がない場合（ステップＳ１６０２：Ｎｏ）、推定装置１０３は、差分によるポイント付与処理（ステップＳ１５０１）を終了し、ステップＳ１５０２に移行する。このように、差分があるインスタンスが発生場所４１３となる障害ＩＤ４１１ほど、ポイント数が大きくなり、適用性検証の優先順位が高くなる。

図１７は、図１５に示した障害テスト履歴によるポイント付与処理（ステップＳ１５０２）の詳細な処理手順例を示すフローチャートである。推定装置１０３は、障害テスト履歴ＤＢ１１０２を読み込む（ステップＳ１７０１）。推定装置１０３は、適用性検証失敗監視対象数１３００に応じて障害ＩＤ４１１にポイント付与する（ステップＳ１７０２）。具体的には、たとえば、推定装置１０３は、適用性検証失敗監視対象数１３００が大きいほど障害推定モデル３０２の推定精度が低いため、付与するポイント数が大きくなり、適用性検証の優先順位が高くなる。

このように、優先順位の高い障害４１２、すなわち、障害推定モデル３０２の推定精度が低い障害４１２から順次適用性検証を実行することができる。

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

１００推定システム
１０１障害テスト装置
１０２監視装置
１０３推定装置
２０１プロセッサ
２０２記憶デバイス
３０１障害テストコード
３０２障害推定モデル
４０１障害検出結果
４０２監視データ
４１２障害
４１３発生場所
７００適用率リスト
７０１適用率
１３０障害マップＤＢ
Ｔｉ監視対象

Claims

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する推定装置であって、
前記プロセッサは、
監視対象から得られた第１監視データと、前記第１監視データに対する第１障害検出結果と、を取得する取得処理と、
前記監視対象の障害を推定する障害推定モデルに前記第１監視データを入力することにより第１障害推定結果を算出する推定処理と、
前記第１障害推定結果と前記第１障害検出結果とに基づいて、前記障害推定モデルが前記監視対象に適用可能かを示す指標値を算出する算出処理と、
を実行することを特徴とする推定装置。
請求項１に記載の推定装置であって、
前記指標値は、前記第１障害推定結果と前記第１障害検出結果との一致度に関する指標値である、
ことを特徴とする推定装置。
請求項１に記載の推定装置であって、
前記算出処理では、前記プロセッサは、前記第１障害検出結果における障害の種類ごとに、前記指標値を算出する、
ことを特徴とする推定装置。
請求項１に記載の推定装置であって、
前記プロセッサは、
前記指標値がしきい値以上であるか否かを判定する判定処理と、
前記判定処理によって前記指標値がしきい値以上でないと判定された場合、前記障害推定モデルを追加学習する追加学習処理と、
を実行することを特徴とする推定装置。
請求項４に記載の推定装置であって、
前記取得処理では、前記プロセッサは、前記指標値が前記しきい値以上ではない障害の種類について、前記監視対象から得られた第２監視データと、前記第２監視データに対する第２障害検出結果と、を取得し、
前記追加学習処理では、前記プロセッサは、前記第２監視データおよび前記第２障害検出結果を前記障害推定モデルに入力することにより、前記障害推定モデルを追加学習する、
ことを特徴とする推定装置。
請求項１に記載の推定装置であって、
前記プロセッサは、
前記第１障害検出結果の障害の種類ごとに前記第１障害検出結果の優先順位を決定する決定処理を実行し、
前記推定処理では、前記プロセッサは、前記決定処理によって決定された優先順位に従って、前記第１障害推定結果を算出する、
ことを特徴とする推定装置。
請求項６に記載の推定装置であって、
前記決定処理では、前記プロセッサは、前記障害の種類にポイントを付与し、前記ポイントに基づいて、前記第１障害検出結果の優先順位を決定する、
ことを特徴とする推定装置。
請求項７に記載の推定装置であって、
前記決定処理では、前記プロセッサは、前記監視対象が実行する処理の実体の変更箇所が前記第１障害検出結果の発生場所である前記障害の種類に前記ポイントを付与する、
ことを特徴とする推定装置。
請求項７に記載の推定装置であって、
前記プロセッサは、
前記障害の種類ごとの前記指標値がしきい値よりも小さかった前記監視対象の数に基づいて、前記障害の種類にポイントを付与する、
ことを特徴とする推定装置。
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する推定装置が実行する推定方法であって、
前記プロセッサは、
監視対象から得られた第１監視データと、前記第１監視データに対する第１障害検出結果と、を取得する取得処理と、
前記監視対象の障害を推定する障害推定モデルに前記第１監視データを入力することにより第１障害推定結果を算出する推定処理と、
前記第１障害推定結果と前記第１障害検出結果とに基づいて、前記障害推定モデルが前記監視対象に適用可能かを示す指標値を算出する算出処理と、
を実行することを特徴とする推定方法。
プロセッサに、
監視対象から得られた第１監視データと、前記第１監視データに対する第１障害検出結果と、を取得する取得処理と、
前記監視対象の障害を推定する障害推定モデルに前記第１監視データを入力することにより第１障害推定結果を算出する推定処理と、
前記第１障害推定結果と前記第１障害検出結果とに基づいて、前記障害推定モデルが前記監視対象に適用可能かを示す指標値を算出する算出処理と、
を実行させることを特徴とする推定プログラム。