JP7496481B1

JP7496481B1 - プロセス管理装置およびプロセス管理方法

Info

Publication number: JP7496481B1
Application number: JP2024020792A
Authority: JP
Inventors: 純柿島
Original assignee: Internet Initiative Japan Inc
Current assignee: Internet Initiative Japan Inc
Priority date: 2024-02-15
Filing date: 2024-02-15
Publication date: 2024-06-06
Anticipated expiration: 2044-02-15

Abstract

【課題】マルチスレッド処理およびシングルスレッド処理が実行されるプロセスで障害が発生した場合、マルチスレッド処理およびシングルスレッド処理のどちらで障害が発生しているのかを容易に特定することを目的とする。【解決手段】プロセス管理装置１は、第２のスレッドに含まれる複数のスレッド２１ａの各々に通知された障害情報の回数を観測データとして取得する第１取得部１０と、観測データに基づいて、第１のスレッドで障害が発生している条件のもと第２のスレッドに含まれる複数のスレッド２１ａの各々で障害情報が通知される確率を、ベイズ推定モデルの尤度関数として設定する設定部１１と、設定された尤度関数の値に基づいて、第１のスレッドで障害が発生しているか否かを判定する判定部１２と、判定部１２による判定結果を提示する提示部１４とを備える。【選択図】図１

Description

本発明は、プロセス管理装置およびプロセス管理方法に関する。

従来から、ＣＰＵの処理負荷を分散させるために、同一のプロセスでシングルスレッド処理およびマルチスレッド処理を実行するプログラムが用いられている。

また、従来から、プログラムの実行単位であるプロセスにおいて、複数のスレッドが正常に稼働しているかを監視し、プロセスおよびスレッドが異常な状態に陥った場合は、この障害を検出する技術が知られている。例えば、特許文献１は、関数フックを利用した各スレッドの生存情報により、ソースコードの有無にかかわらず、各スレッドに対する障害の有無を監視する技術を開示している。

しかし、特許文献１が開示する技術では、あるプロセスにおいて障害が発生した場合、複数のスレッドのうち障害が発生したスレッドを検出するが、マルチスレッド処理に係るスレッドで障害が発生したのか、あるいはシングルスレッド処理に係るスレッドで障害が発生したのかを特定することはできない。そのため、プロセス障害の解析が困難となる場合がある。

特開２０１４－１８２５６１号公報

このように、従来の技術によれば、マルチスレッド処理およびシングルスレッド処理が実行されるプロセスで障害が発生した場合、マルチスレッド処理およびシングルスレッド処理のどちらで障害が発生しているのかを容易に特定することが困難であった。

本発明は、上述した課題を解決するためになされたものであり、マルチスレッド処理およびシングルスレッド処理が実行されるプロセスで障害が発生した場合、マルチスレッド処理およびシングルスレッド処理のどちらで障害が発生しているのかを容易に特定することを目的とする。

上述した課題を解決するために、本発明に係るプロセス管理装置は、１つのスレッドを含む第１のスレッドと、複数のスレッドを含む第２のスレッドとが実行されるプロセスの管理を行うプロセス管理装置であって、前記第２のスレッドに含まれる前記複数のスレッドの各々に通知された障害情報の回数を観測データとして取得するように構成された第１取得部と、前記観測データに基づいて、前記第１のスレッドで障害が発生している条件のもと前記第２のスレッドに含まれる前記複数のスレッドの各々で前記障害情報が通知される確率を、ベイズ推定モデルの尤度関数として設定するように構成された設定部と、設定された前記尤度関数の値に基づいて、前記第１のスレッドで障害が発生しているか否かを判定するように構成された判定部と、前記判定部による判定結果を提示するように構成された提示部とを備える。

また、本発明に係るプロセス管理装置において、さらに、前記尤度関数を未知の入力として、学習済みの機械学習モデルに与え、前記学習済みの機械学習モデルの演算を行って、前記第１のスレッドで障害が発生したことを示す第１分類クラス、および前記第２のスレッドで障害が発生したことを示す第２分類クラスを含む分類クラスに分類するように構成された分類部を備え、前記提示部は、前記分類部による分類結果を提示してもよい。

上述した課題を解決するために、本発明に係るプロセス管理装置は、さらに、前記尤度関数と、前記判定結果によって示される前記分類クラスとが関連付けられた学習用データを取得するように構成された第２取得部と、前記学習用データに基づいて、前記尤度関数と前記分類クラスとの関係を、機械学習モデルを用いて学習するように構成された学習部と、前記学習部により構築された前記学習済みの機械学習モデルを記憶するように構成された記憶部と、を備え、前記分類部は、前記記憶部から前記学習済みの機械学習モデルを読み出して、前記学習済みの機械学習モデルの演算を行なってもよい。

上述した課題を解決するために、本発明に係るプロセス管理方法は、１つのスレッドを含む第１のスレッドと、複数のスレッドを含む第２のスレッドとが実行されるプロセスの管理を行うプロセス管理方法であって、前記第２のスレッドに含まれる前記複数のスレッドの各々に通知された障害情報の回数を観測データとして取得する第１取得ステップと、前記観測データに基づいて、前記第１のスレッドで障害が発生している条件のもと前記第２のスレッドに含まれる前記複数のスレッドの各々で前記障害情報が通知される確率を、ベイズ推定モデルの尤度関数として設定する設定ステップと、設定された前記尤度関数の値に基づいて、前記第１のスレッドで障害が発生しているか否かを判定する判定ステップと、前記判定ステップでの判定結果を提示する提示ステップとを備える。

また、本発明に係るプロセス管理方法において、さらに、前記尤度関数を未知の入力として、学習済みの機械学習モデルに与え、前記学習済みの機械学習モデルの演算を行って、前記第１のスレッドで障害が発生したことを示す第１分類クラス、および前記第２のスレッドで障害が発生したことを示す第２分類クラスを含む分類クラスに分類する分類ステップを備え、前記提示ステップは、前記分類ステップでの分類結果を提示してもよい。

また、本発明に係るプロセス管理方法において、さらに、前記尤度関数と、前記判定結果によって示される前記分類クラスとが関連付けられた学習用データを取得する第２取得ステップと、前記学習用データに基づいて、前記尤度関数と前記分類クラスとの関係を、機械学習モデルを用いて学習する学習ステップと、前記学習ステップで構築された前記学習済みの機械学習モデルを記憶部に記憶する記憶ステップと、を備え、前記分類ステップは、前記記憶部から前記学習済みの機械学習モデルを読み出して、前記学習済みの機械学習モデルの演算を行ってもよい。

本発明によれば、観測データに基づいて、第１のスレッドで障害が発生している条件のもと前記第２のスレッドに含まれる複数のスレッドの各々に障害情報が通知される確率を、ベイズ推定モデルの尤度関数として設定し、設定された尤度関数の値に基づいて、プロセス障害が、第１のスレッドで発生した障害に起因するか否かを判定する。そのため、マルチスレッド処理およびシングルスレッド処理が実行されるプロセスで障害が発生した場合、マルチスレッド処理およびシングルスレッド処理のどちらで障害が発生しているのかを容易に特定することができる。

図１は、本発明の第１の実施の形態に係るプロセス管理装置を含むプロセス管理システムの構成を示すブロック図である。図２は、第１の実施の形態に係るプロセス管理装置のハードウェア構成を示すブロック図である。図３は、第１の実施の形態に係るプロセス管理装置の動作を示すフローチャートである。図４は、第２の実施の形態に係るプロセス管理装置の構成を示すブロック図である。図５は、第２の実施の形態に係るプロセス管理装置が備える学習部を説明するための図である。図６は、第２の実施の形態に係るプロセス管理装置の動作を示すフローチャートである。

以下、本発明の好適な実施の形態について、図１から図６を参照して詳細に説明する。

［第１の実施の形態］
図１は、本発明の第１の実施の形態に係るプロセス管理装置１を備えるプロセス管理システムの構成を示すブロック図である。本実施の形態に係るプロセス管理システムは、１つのプロセスが、シングルスレッド処理を実行する１つのスレッド２１ｂを含む第１のスレッドと、マルチスレッド処理を実行する複数のスレッド２１ａを含む第２のスレッドとを備える場合に、そのプロセスで発生した障害が、第１のスレッドで発生した障害であるのか、あるいは、第２のスレッドで発生した障害であるのかを特定する。

［プロセス管理システムの構成］
図１に示すように、本実施の形態に係るプロセス管理システムは、プロセス管理装置１、および情報処理装置２を備える。プロセス管理装置１と情報処理装置２とは、例えば、バス１０１を介して接続されている。

情報処理装置２は、ＣＰＵ２０、メモリ２１、ストレージ２２、通信インターフェース２３、および入出力Ｉ／Ｏ２４を備える。情報処理装置２で用いられるソフトウェアは、例えば、オペレーティングシステム（ＯＳ）上で動作するアプリケーションプログラムにより構成される。情報処理装置２では、ＯＳがプロセス２１０と、プロセス２１０内の複数のスレッド２１ａ、２１ｂとを生成する。本実施の形態では、ＯＳは、プロセス２１０内に、マルチスレッド処理を実行する複数のスレッド２１ａ、およびシングルスレッド処理を実行するスレッド２１ｂを生成する。また、本実施の形態では、マルチスレッド処理を実行する複数のスレッド２１ａは、ｎ個（ｎは正の整数）生成される。

ここで、プロセスはプログラムの実行単位であり、スレッドはＣＰＵの割り当て実行単位である。１つのプロセスには、１以上のスレッドが含まれ、当該スレッドがＣＰＵで実行される単位となる。したがって、ソフトウェアを構成する機能ブロックであるアプリケーションがプロセスに相当し、プロセス内の処理ブロックがスレッドに相当する。

メモリ２１は、ＯＳおよびアプリケーションやサービスを構成するプロセス２１０が読み込まれＣＰＵ２０によって実行される。また、メモリ２１には、プロセス２１０で発生した障害情報を記録する障害ログ２１１が構成される。

プロセス２１０は、１つのスレッド２１ｂを含む第１のスレッドと、複数のスレッド２１ａを含む第２のスレッドとで構成される。第１のスレッドがシングルスレッド処理を実行し、第２のスレッドがマルチスレッド処理を実行する。図１の例では、１つのプロセス２１０内で、シングルスレッド処理の第１のスレッドおよびマルチスレッド処理の第２のスレッドは、共有メモリや同じデータ構造にアクセスして連携する。

例えば、情報処理装置２がＷｅｂサーバである場合、シングルスレッド処理を実行するスレッド２１ｂは新しいリクエストを受け付けてリクエストの管理や基本的なリクエスト情報の処理などを行うことができる。さらに、マルチスレッド処理を実行する複数のスレッド２１ａは、図示されないシングルスレッド処理を実行するスレッド２１ｃから渡されたリクエストに対して、それぞれ独立に処理を行い、異なるクライアントからのリクエストを同時に処理することができる。さらに、図１に示すシングルスレッド処理を実行するスレッド２１ｂでは、マルチスレッド処理に係る複数のスレッド２１ａが各リクエストの処理を終えた結果を、まとめてクライアントに応答することができる。

本実施の形態では、プロセス２１０内のシングルスレッド処理を実行するスレッド２１ｂまたはマルチスレッド処理を実行する複数のスレッド２１ａで発生した障害に起因したプロセス障害を管理対象とする。したがって、シングルスレッド処理のスレッド２１ｂまたはマルチスレッド処理の複数のスレッド２１ａの異常動作等の障害に起因しないプロセス障害は管理の対象とされない。例えば、プロセス２１０における、ファイルの書き込みエラー、プロセス間の通信の問題等に起因するプロセス障害は管理の対象とされない。

プロセス２１０で発生した障害情報は、障害ログ２１１に記録される。また、障害ログ２１１に記録されたプロセスの識別情報、プロセス障害の詳細やタイムスタンプを含む障害情報は、ストレージ２２に記憶される。あるいは、プロセス２１０を監視する図示されない監視ツールやデバッグツールが、プロセス２１０を監視し、障害を検知した際に、通知を行うことができる。

プロセス２１０内のスレッド２１ａ、２１ｂで発生する障害として、例えば、スレッド２１ａ、２１ｂ内で発生した例外や、適切に例外処理がされない場合、および致命的なエラー発生によりスレッド２１ａ、２１ｂがクラッシュする場合などが含まれる。また、複数のスレッド２１ａ、２１ｂ間で発生するデッドロックや、同時に共有データにアクセスすることで生ずるデータ競合、スレッド２１ａ、２１ｂのスケジューリングの問題などが挙げられる。

プロセス２１０内のスレッド２１ａ、２１ｂのうち、例えば、スレッド２１ｂで障害が発生すると、スレッド２１ｂは、メッセージキューを介して障害情報をメッセージにして、キューを投入する。障害情報には、発生した障害に関する情報や発生元のスレッドを識別する情報を含まれる。また、障害が発生していない他のスレッド２１ａは、定期的に自己のメッセージキューを監視し、新しいメッセージとしてスレッド２１ｂからの障害情報の通知が到着した場合には、取り出した障害情報のメッセージに応じた対処を実行する。さらに、スレッド２１ａが他のスレッド２１ｂから障害情報をメッセージとして受けた場合には、障害ログ２１１において、障害情報の通知を受けたスレッド２１ａの識別情報、タイムスタンプ、およびメッセージの内容などを含むイベント情報が記録される。また、障害ログ２１１には、障害情報のメッセージを送ったスレッド２１ｂの識別情報、タイムスタンプ、およびメッセージの内容等を含む情報が記録される。

スレッド２１ａ、２１ｂに障害情報が通知されるといった場合には、スレッド２１ａ、２１ｂがメッセージキューを介して他のスレッドから障害情報のメッセージを受け取るイベントに加えて、エラーが発生したスレッド２１ａ、２１ｂが障害情報をメッセージとしてメッセージキューに挿入するイベントを含むことができる。すなわち、障害の発生に応じて障害情報のメッセージのやり取りが発生し、障害ログ２１１に記録されたスレッド２１ａ、２１ｂを識別できる情報と、障害情報のメッセージに関する情報と、タイムスタンプとが関連付けられた情報などによって、各スレッド２１ａ、２１ｂで障害情報の通知が発生したことが把握される。

このように、本実施の形態では、プロセス２１０内で、マルチスレッド処理を実行する複数のスレッド２１ａ、およびシングルスレッド処理を実行するスレッド２１ｂに障害情報が通知され、プロセス障害が発生した場合、マルチスレッド処理に係る複数のスレッド２１ａ側で発生した障害であるのか、あるいはシングルスレッド処理を実行するスレッド２１ｂで発生した障害であるのかを特定する。

［プロセス管理装置の機能ブロック］
プロセス管理装置１は、第１取得部１０、設定部１１、判定部１２、第１記憶部１３、および提示部１４を備える。プロセス管理装置１は、１つのスレッド２１ｂを含む第１のスレッドおよび複数のスレッド２１ａを含む第２のスレッドを備えるプロセス２１０の管理を行う。

第１取得部１０は、第２のスレッドに含まれる複数のスレッド２１ａの各々に通知された障害情報の回数を観測データとして取得する。具体的には、第１取得部１０は、情報処理装置２の障害ログ２１１から、設定された期間においてマルチスレッド処理を実行する複数のスレッド２１ａの各々に通知された障害情報の回数を取得することができる。あるいは、第１取得部１０は、情報処理装置２のストレージ２２に格納された障害ログ２１１の情報を取得することができる。第１取得部１０は、障害ログ２１１が記憶する、スレッド２１ａの識別情報と、障害情報のメッセージに関する情報と、タイムスタンプとが関連付けられた情報から、各スレッド２１ａに通知された障害情報の回数を取得することができる。

例えば、１回の障害情報が１ｍｓにわたって通知される場合、第１取得部１０は、設定された期間として、１０００ｍｓの間に各スレッド２１ａで障害情報が何回通知されたかをカウントすることができる。

第１取得部１０は、さらに、設定された期間でスレッド２１ｂに障害情報の通知が発生した回数を取得することができる。具体的には、第１取得部１０は、障害ログ２１１に記憶されている、シングルスレッド処理を実行するスレッド２１ｂの識別情報と、障害情報のメッセージに関する情報と、タイムスタンプとが関連付けられた情報から、設定された期間でスレッド２１ｂに障害情報の通知が発生した回数を取得することができる。

設定部１１は、観測データに基づいて、第１のスレッドであるシングルスレッド処理のスレッド２１ｂで障害が発生している条件のもとマルチスレッド処理の第２のスレッドに含まれる複数のスレッド２１ａの各々で障害情報が通知される確率を、ベイズ推定モデルの尤度関数として設定する。設定部１１は、１～ｎ個までのマルチスレッド処理に係る複数のスレッド２１ａの各々について、尤度関数Ｐ（Ｙ_ｉ｜Ｘ）＝（障害情報の通知回数）／（設定された期間、例えば、１０００ｍｓ）により求めることができる。上記（障害情報の通知回数）は、（障害情報の発生回数）×（障害情報の通知間隔）で計算される。例えば、１ｍｓ間隔の障害情報の通知が２００回発生する場合、尤度関数Ｐ（Ｙ_ｉ｜Ｘ）は、（２００×１ｍｓ）／（１０００ｍｓ）で求められる。

本実施の形態で用いるベイズ推定モデルは、シングルスレッド処理を行うスレッド２１ｂで障害が発生している確率を事前分布Ｐ（Ｘ）とし、事前分布Ｐ（Ｘ）に対して尤度関数Ｐ（Ｙ_ｉ｜Ｘ）で更新した確率分布を事後分布Ｐ（Ｘ｜Ｙ）とする。事後分布Ｐ（Ｘ｜Ｙ）は、シングルスレッド処理を行うスレッド２１ｂおよびマルチスレッド処理を行う複数のスレッド２１ａとの間で障害情報が通知されている条件のもと、シングルスレッド処理を行うスレッド２１ｂで障害が発生している確率である。このように、ベイズ推定モデルは、ある条件における事象の確率を、既知の確率と観測データから求める確率モデルである。以下、ベイズ推定モデルのパラメータについて説明する。

ベイズ推定モデルでは、まず、事象Ｘを、ある原因となった事象とする。また、事象Ｙを、原因により起きたと想定される事象とする。事象Ｘ、Ｙは確率変数として扱われる。具体的には、事象Ｘは、シングルスレッド処理を行うスレッド２１ｂで障害が発生している事象、事象Ｙは、シングルスレッド処理を行うスレッド２１ｂおよびマルチスレッド処理を行う複数のスレッド２１ａで障害情報が通知されている事象として定義される。

本実施の形態では、事象Ｙは、特に、マルチスレッド処理を行うｎ個のスレッド２１ａの各々についての事象Ｙ＝｛Ｙ_１，Ｙ_２，…，Ｙ_ｎ－１，Ｙ_ｎ｝として定義され、各スレッド２１ａで障害情報の通知が発生している事象が用いられる。

事象Ｘが発生する確率分布Ｐ（Ｘ）を、観測データが与えられる前のパラメータの分布である事前分布として仮定することができる。また、事象Ｙが発生する確率分布Ｐ（Ｙ）である、シングルスレッド処理を行うスレッド２１ｂおよびマルチスレッド処理を行う複数のスレッド２１ａに障害情報が通知されている確率分布は、周辺尤度として表される。

尤度関数Ｐ（Ｙ_ｉ｜Ｘ）は、観測データの表現方法であり、パラメータの値が条件付けされているときに、観測データＹがどれだけモデルから発生しやすいかを表す。具体的には、シングルスレッド処理を行うスレッド２１ｂで障害が発生している条件のもとマルチスレッド処理を行う複数のスレッド２１ａにおいて障害情報が通知される確率として表される。本実施の形態では、尤度関数Ｐ（Ｙ_ｉ｜Ｘ）は、第１取得部１０によって取得された観測データに基づいて設定される。より詳細には、前述したように、マルチスレッド処理を行う複数のスレッド２１ａの各々について、（障害情報の通知回数）／（設定された期間、例えば、１０００ｍｓ）により得られる値Ｐ（Ｙ_ｉ｜Ｘ）を尤度関数Ｐ（Ｙ｜Ｘ）として用いる。上記（障害情報の通知回数）は、障害情報の発生回数に障害情報の通知間隔（例えば、１ｍｓ）を掛けた値により求められる。

ベイズ推定では、ベイズの定理を利用して、尤度関数、事前分布、および観測データから得られる情報を反映させ、事象Ｙが発生した条件のもと、事象Ｘが発生する確率である事後分布Ｐ（Ｘ｜Ｙ）を推定することができる。この場合、事後分布Ｐ（Ｘ｜Ｙ）は、マルチスレッド処理を行う複数のスレッド２１ａで障害情報が通知された条件のもと、シングルスレッド処理を行うスレッド２１ｂで障害が発生している確率分布である。本実施の形態では、次式（１）のベイズの定理に基づいた、次式（２）で表されるベイズ推定式を用いる。

上式（１）の分母にＰ（Ｙ）＝Σ_ＸＰ（Ｙ｜Ｘ）Ｐ（Ｘ）を代入すると、次式（２）で表される。

上式（１）のベイズの定理、および上式（２）のベイズ推定式では、一般に、訓練データのデータ数Ｎが十分に大きい場合（Ｎ→∞）には、尤度関数Ｐ（Ｙ｜Ｘ）が事前分布Ｐ（Ｘ）より支配的になる。すなわち、事後分布Ｐ（Ｘ｜Ｙ）と尤度関数Ｐ（Ｙ｜Ｘ）との関係は、次式（３）で表される。
Ｐ（Ｘ｜Ｙ）≒Ｐ（Ｙ｜Ｘ）・・・（３）

本実施の形態では、上式（１）のベイズの定理、および上式（２）のベイズ推定式に基づいた単純ベイズにより、尤度関数Ｐ（Ｙ｜Ｘ）が設定される。

単純ベイズは、クラス分類の結果が確率として得られる生成モデルの一つである。単純ベイズでは、目的変数が与えられた際、説明変数間の条件付き独立を仮定する。具体的には、事後分布Ｐ（Ｘ｜Ｙ）である、事象Ｙの条件のもとの事象Ｘの確率分布において、Ｙは説明変数であり、Ｘはクラスを表す目的変数を示す。したがって、Ｙを入力すると各クラスＸの確率として、シングルスレッド処理を行うスレッド２１ｂで障害が発生している確率、および発生していない確率が出力される。

本実施の形態では、上式（３）より、設定部１１は尤度関数Ｐ（Ｙ｜Ｘ）の事象Ｘを説明変数、および事象Ｙを目的変数として考える。事象Ｙは、ｎ個の多次元変数の集合であるＹ＝｛Ｙ_１，Ｙ_２，…，Ｙ_ｎ－１，Ｙ_ｎ｝で与えられ、各変数Ｙ_ｉは、ｙ_１，ｙ_２，…，ｙ_ｎ－１，ｙ_ｎの値を持つ。すなわち、各変数Ｙ_ｉは、マルチスレッド処理を行う複数のスレッド２１ａの各々で障害情報が通知されていることを示す。前述したように、変数Ｙ_ｉは、それぞれ独立していると仮定され、尤度関数Ｐ（Ｙ｜Ｘ）は次式（４）の確率の積で表すことができる。

判定部１２は、設定部１１により設定された尤度関数Ｐ（Ｙ｜Ｘ）の値に基づいて、シングルスレッド処理を行うスレッド２１ｂでの障害の発生の有無を判定する。判定部１２は、事前に設定されたしきい値を用いて、スレッド２１ｂでの障害の発生の有無を判定することができる。しきい値は、任意の値（例えば、ｎ個のマルチスレッド処理に係るスレッド２１ａの場合に、０．８^ｎ）を設定することができる。この場合、判定部１２は、尤度関数Ｐ（Ｙ｜Ｘ）の値が設定されたしきい値を超えた場合に、シングルスレッド処理のスレッド２１ｂで障害が発生したと判定する。しきい値を超えない場合には、判定部１２は、マルチスレッド処理側の複数のスレッド２１ａで障害が発生したと判定することができる。なお、しきい値は、例えば、別途行われる障害ログの解析で特定された実際の障害発生箇所に基づいて、値を調整することができる。

第１記憶部１３は、上式（１）から（４）のベイズ推定モデルを記憶する。

提示部１４は、判定部１２による判定結果を提示する。提示部１４は、例えば、図示されないネットワークを介して外部のサーバに判定結果を提示することができる。また、提示部１４は、判定結果を表示装置１０７に出力させることができる。

［プロセス管理装置のハードウェア構成］
次に、上述した機能を有するプロセス管理装置１を実現するハードウェア構成の一例について、図２を用いて説明する。

図２に示すように、プロセス管理装置１は、例えば、バス１０１を介して接続されるプロセッサ１０２、主記憶装置１０３、通信インターフェース１０４、補助記憶装置１０５、入出力Ｉ／Ｏ１０６を備えるコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。また、プロセス管理装置１は、バス１０１を介して接続される表示装置１０７を備えることができる。

主記憶装置１０３には、プロセッサ１０２が各種制御や演算を行うためのプログラムが予め格納されている。プロセッサ１０２と主記憶装置１０３とによって、図１に示した第１取得部１０、設定部１１、判定部１２などプロセス管理装置１の各機能が実現される。

通信インターフェース１０４は、プロセス管理装置１と各種外部電子機器との間をネットワーク接続するためのインターフェース回路である。

補助記憶装置１０５は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。補助記憶装置１０５には、記憶媒体としてハードディスクやフラッシュメモリなどの半導体メモリを使用することができる。

補助記憶装置１０５は、プロセス管理装置１が実行するベイズ推定プログラムを格納するプログラム格納領域を有する。補助記憶装置１０５によって、図１で説明した第１記憶部１３が実現される。さらには、例えば、上述したデータやプログラムなどをバックアップするためのバックアップ領域などを有していてもよい。

入出力Ｉ／Ｏ１０６は、外部機器からの信号を入力したり、外部機器へ信号を出力したりする入出力装置である。

表示装置１０７は、有機ＥＬディスプレイや液晶ディスプレイなどによって構成され、提示部１４を実現する。

なお、プロセス管理装置１は、情報処理装置２と一体的な構成とすることができる。この場合、プロセス管理装置１は、プロセッサ１０２、主記憶装置１０３、通信インターフェース１０４、補助記憶装置１０５、および入出力Ｉ／Ｏ１０６を、情報処理装置２と共有する。

［プロセス管理装置の動作］
次に、上述した構成を有するプロセス管理装置１の動作を、図３のフローチャートを参照して説明する。以下では、情報処理装置２のプロセス２１０において、シングルスレッド処理を行うスレッド２１ｂおよびマルチスレッド処理を行う複数のスレッド２１ａで障害情報が通知され、プロセス障害が発生しているものとする。

まず、第１取得部１０は、情報処理装置２の障害ログ２１１から、マルチスレッド処理を行う複数のスレッド２１ａの各々に通知された障害情報の回数を観測データとして取得する（ステップＳ１）。第１取得部１０は、情報処理装置２から、設定された期間にｎ個のスレッド２１ａの各々に通知された障害情報の回数を取得することができる。

次に、設定部１１は、ステップＳ１で取得された観測データに基づいて、シングルスレッド処理を行うスレッド２１ｂで障害が発生している条件のもとマルチスレッド処理を行う複数のスレッド２１ａにおいて障害情報が通知される確率を、ベイズ推定モデルの尤度関数Ｐ（Ｙ｜Ｘ）として設定する（ステップＳ２）。本実施の形態では、設定部１１は、ステップＳ１で取得された観測データに基づいて、マルチスレッド処理を行う複数のスレッド２１ａの各々について、（障害情報の通知回数）／（設定された期間、例えば、１０００ｍｓ）により得られる値Ｐ（Ｙ_ｉ｜Ｘ）を尤度関数Ｐ（Ｙ｜Ｘ）として設定する。１ｍｓ間隔で障害情報が通知され、２００回の障害情報が発生する場合、上記の（障害情報の通知回数）は２００回×１ｍｓとなる。さらに、この場合、尤度関数Ｐ（Ｙ｜Ｘ）は、２００×１ｍｓ／１０００ｍｓで求められる。

ベイズ推定モデルは、シングルスレッド処理を行うスレッド２１ｂで障害が発生している確率を事前分布Ｐ（Ｘ）とし、事前分布Ｐ（Ｘ）に対して尤度関数Ｐ（Ｙ_ｉ｜Ｘ）で更新した事後分布Ｐ（Ｘ｜Ｙ）を、シングルスレッド処理のスレッド２１ｂで障害が発生している条件のもとマルチスレッド処理の複数のスレッド２１ａの各々で障害情報が通知される確率として定義する。

設定部１１は、上式（２）のベイズ推定式に基づいた単純ベイズ、および上式（３）の近似関係Ｐ（Ｘ｜Ｙ）≒Ｐ（Ｙ｜Ｘ）より、尤度関数Ｐ（Ｙ｜Ｘ）の事象Ｘを説明変数、および事象Ｙ＝｛Ｙ_１，Ｙ_２，…，Ｙ_ｎ－１，Ｙ_ｎ｝を目的変数として考える。各変数Ｙ_ｉは、マルチスレッド処理の各スレッド２１ａで障害情報が通知されていることを示す。

設定部１１は、変数Ｙ_ｉがそれぞれ独立しているとの仮定から、上式（４）の確率の積で表された尤度関数Ｐ（Ｙ｜Ｘ）に、マルチスレッド処理の、１～ｎ個までのスレッド２１ａの各々に対応する尤度関数Ｐ（Ｙ_ｉ｜Ｘ）の値を代入する。

次に、判定部１２は、ステップＳ２で設定された尤度関数Ｐ（Ｙ｜Ｘ）の値が、事前に設定されたしきい値を超えた場合に、シングルスレッド処理のスレッド２１ｂで障害が発生したと判定し、しきい値を超えない場合には、マルチスレッド処理の複数のスレッド２１ａ側で障害が発生したと判定する（ステップＳ３）。判定部１２が判定処理で用いるしきい値は、例えば、後日別途に行われる、実際の障害ログの解析結果により特定された障害発生箇所の情報に基づいて調整することができる。

その後、提示部１４は、ステップＳ３での判定結果を提示する（ステップＳ４）。例えば、提示部１４は、図示されないネットワークを介して、外部のサーバ等に判定結果が示す、障害発生箇所の情報を送出することができる。

以上説明したように、第１の実施の形態に係るプロセス管理装置１によれば、観測データに基づいて、シングルスレッド処理のスレッド２１ｂで障害が発生している条件のもとマルチスレッド処理の複数のスレッド２１ａで障害情報が通知されている確率を、ベイズ推定モデルの尤度関数Ｐ（Ｙ｜Ｘ）として設定し、設定された尤度関数Ｐ（Ｙ｜Ｘ）に基づいてシングルスレッド処理のスレッド２１ｂで障害が発生しているか否かを判定する。そのため、マルチスレッド処理およびシングルスレッド処理が実行されるプロセスで障害が発生した場合、シングルスレッド処理において障害が発生しているのかを特定することができる。

［第２の実施の形態］
次に、本発明の第２の実施の形態について説明する。なお、以下の説明では、上述した第１の実施の形態と同じ構成については同一の符号を付し、その説明を省略する。

第１の実施の形態では、単純ベイズに基づいて、観測データから設定された尤度関数Ｐ（Ｙ｜Ｘ）に基づいてシングルスレッド処理のスレッド２１ｂでの障害の発生の有無を判定する場合について説明した。これに対して、第２の実施の形態では、判定部１２による判定結果を学習用データとして用いて機械学習モデルを学習させた学習済みの機械学習モデルを用いて、シングルスレッド処理のスレッド２１ｂ、およびマルチスレッド処理のスレッド２１ａのどちらで障害が発生したのかを分類する。

［プロセス管理装置の機能ブロック］
図４は、本実施の形態に係るプロセス管理装置１Ａの構成を示すブロック図である。プロセス管理装置１Ａは、第１学習装置１－１および第２学習装置１－２を備える。第１学習装置１－１は、第１取得部１０、設定部１１、判定部１２、第１記憶部１３、および提示部１４を備える。第１学習装置１－１は、第１の実施の形態に係るプロセス管理装置１の機能ブロックに対応する。第２学習装置１－２は、第２記憶部１５（記憶部）、第２取得部１６、学習部１７、および分類部１８を備える。本実施の形態は第２学習装置１－２を備える点で第１の実施の形態とは構成が異なる。以下、第１の実施の形態と異なる構成を中心に説明する。

第２記憶部１５は、尤度関数Ｐ（Ｙ｜Ｘ）と、判定部１２による判定結果によって示される分類クラスとを関連付けた学習用データを記憶する。尤度関数Ｐ（Ｙ｜Ｘ）は、設定部１１が設定した、観測データに基づいてシングルスレッド処理のスレッド２１ｂで障害が発生している条件のもと、マルチスレッド処理の複数のスレッド２１ａで障害情報が通知されている確率である。

本実施の形態では、マルチスレッド処理の１～ｎ個までのスレッド２１ａの各々について、（障害情報の通知回数）／（設定された期間、例えば、１０００ｍｓ）により得られる値Ｐ（Ｙ_ｉ｜Ｘ）を尤度関数Ｐ（Ｙ｜Ｘ）として用いる。より詳細には、１ｍｓ間隔で障害情報が通知される場合、上記（障害情報の通知回数）は、（障害情報の発生回数）×（通知間隔の１ｍｓ）により求められる。例えば、１０００ｍｓ間隔で２００回の障害情報が発生した場合、２００×１ｍｓ／１０００ｍｓが尤度関数Ｐ（Ｙ｜Ｘ）の値となる。

第２記憶部１５が尤度関数Ｐ（Ｙ_ｉ｜Ｘ）と関連付けて記憶する分類クラスは、第１学習装置１－１が備える判定部１２の判定結果、すなわちシングルスレッド処理のスレッド２１ｂでの障害の発生、およびマルチスレッド処理の複数のスレッド２１ａ側での障害の発生をそれぞれ第１分類クラス、および第２分類クラスとした分類クラスである。分類クラスは、尤度関数Ｐ（Ｙ_ｉ｜Ｘ）に対して与えられる正解ラベルである。

なお、第２記憶部１５は、判定部１２による判定結果が、実際の障害発生箇所と異なる場合には、正しい障害発生箇所を示す正解ラベルを尤度関数Ｐ（Ｙ_ｉ｜Ｘ）に付した学習用データを記憶する。例えば、判定部１２による判定結果としてシングルスレッド処理のスレッド２１ｂで障害が発生しているという結果が得られた後に、別途、障害ログの解析が行われ、実際の障害発生箇所がマルチスレッド処理の複数のスレッド２１ａ側であったことが判明したとする。この場合、第２記憶部１５は、尤度関数Ｐ（Ｙ_ｉ｜Ｘ）に対して、第１分類クラスではなく、第２分類クラスを正解ラベルとして付与した学習用データを記憶する。

第２取得部１６は、尤度関数Ｐ（Ｙ_ｉ｜Ｘ）と分類クラスとが関連付けられている学習用データを第２記憶部１５から取得する。より具体的には、第２取得部１６は、第２記憶部１５に一定数の学習用データが蓄積された場合に、学習用データを取得する構成とすることができる。また、第２取得部１６は、学習済み機械学習モデルを用いた推論処理で用いる未知の入力を取得する。具体的には、第２取得部１６は、第１学習装置１－１が備える設定部１１が設定した、マルチスレッド処理のｎ個のスレッド２１ａの各々に対応する尤度関数Ｐ（Ｙ_ｉ｜Ｘ）を、未知の入力として取得することができる。

学習部１７は、学習用データに基づいて、尤度関数Ｐ（Ｙ_ｉ｜Ｘ）と分類クラスとの関係を機械学習モデルにより学習する。図５は、本実施の形態における機械学習モデルとして用いるニューラルネットワークの構造を示す模式図である。ニューラルネットワークは、入力層ｘ、隠れ層ｈ、出力層ｙからなる多層構造を用いることができる。入力層ｘの各入力ノードには、第１学習装置１－１の設定部１１によって設定された尤度関数Ｐ（Ｙ_ｉ｜Ｘ）が与えられる。入力層ｘへ与えらえる入力信号は、マルチスレッド処理のｎ個のスレッド２１ａの各々に対応する尤度関数Ｐ（Ｙ_１｜Ｘ），Ｐ（Ｙ_２｜Ｘ），・・・，Ｐ（Ｙ_ｎ－１｜Ｘ），Ｐ（Ｙ_ｎ｜Ｘ）の値である。

図５に示すニューラルネットワークは、入力層ｘに与えられた、マルチスレッド処理のｎ個のスレッド２１ａの各々に対応する尤度関数Ｐ（Ｙ_ｉ｜Ｘ）に対して、入力の重み付け総和に活性化関数を適用し、しきい値処理により決定された出力を出力層ｙに渡す。図５に示すように、入力ノードの数は、マルチスレッド処理を行うスレッド２１ａの数に対応するｎ個が設けられる。

出力層ｙの各出力ノードは、第１分類クラスおよび第２分類クラスからなる二値分類のクラスを示す。出力層ｙは、各クラスに属する確率を出力することができる。図５の例に示すように、第１分類クラスとして「シングルスレッド処理のスレッド２１ｂで障害が発生」、および第２分類クラスとして「マルチスレッド処理の複数のスレッド２１ａで障害が発生」とすることができる。

学習部１７は、マルチスレッド処理の各スレッド２１ａに対応する尤度関数Ｐ（Ｙ_ｉ｜Ｘ）が入力として与えられた時の出力が、学習用データのラベルに示される分類クラスの値となるように、ノード間の結線の重みｗを調整する。学習部１７は、例えば、誤差逆伝搬などを利用して、与えた入力値に対して、得られた出力値を比較し、それぞれの重みｗの誤差を調べて逆方向に伝搬していき、最終的に重みｗなどのパラメータを決定することができる。このような学習処理を経て、学習部１７は、学習済みのニューラルネットワークを構築する。

学習部１７によって構築された学習済みのニューラルネットワークは、第２記憶部１５に記憶される。

図４に戻り、分類部１８は、尤度関数Ｐ（Ｙ_ｉ｜Ｘ）を未知の入力として学習済みの機械学習モデルに与え、学習済みの機械学習モデルの演算を行って、第１分類クラスおよび第２分類クラスを含む分類クラスに分類する。分類部１８は、第２取得部１６が取得した尤度関数Ｐ（Ｙ_ｉ｜Ｘ）を未知の入力として学習済みの機械学習モデルに与える。尤度関数Ｐ（Ｙ_ｉ｜Ｘ）は、ベイズ推定モデルを用いた学習を行う第１学習装置１－１の設定部１１によって設定された確率分布である。また、第１分類クラスは、シングルスレッド処理のスレッド２１ｂで障害が発生したことを示し、第２分類クラスは、マルチスレッド処理の複数のスレッド２１ａのいずれかで障害が発生したことを示す。

分類部１８は、未知の入力に対して、学習済みの重みｗなどのパラメータの積和演算および活性化関数によるしきい値処理を行って分類結果を出力する。分類部１８による分類結果は、提示部１４によって提示される。分類結果は、図示されないネットワークを介して外部のサーバ等に送出することができる。

［プロセス管理装置の動作］
上述した構成を有するプロセス管理装置１Ａの動作について、図６のフローチャートを参照して説明する。図６に示すステップＳ１からステップＳ４までの処理は、第１学習装置１－１によって実行され、第１の実施の形態で説明したプロセス管理装置１の動作に係る処理と同様である。以下、ステップＳ１０以降の処理について説明する。

ステップＳ４での判定処理の後、第２記憶部１５は、尤度関数Ｐ（Ｙ_ｉ｜Ｘ）に分類クラスを関連付けた学習用データを記憶する（ステップＳ１０）。学習用データを構成する尤度関数Ｐ（Ｙ_ｉ｜Ｘ）はステップＳ２で設定された値であり、分類クラスはステップＳ４の判定結果に対応する値である。より詳細には、学習用データは、マルチスレッド処理のｎ個のスレッド２１ａの各々に対応する尤度関数Ｐ（Ｙ_ｉ｜Ｘ）に対して、ステップＳ４での判定結果が示す分類クラスを正解ラベルとして付したデータである。

なお、ステップＳ１０で記憶される学習用データの分類クラスは、ステップＳ４での判定結果に対して、別途行われる障害ログの詳細な解析結果により、正しい障害発生箇所に対応する分類クラスが反映された値である。次に、第２取得部１６は、設定された数の学習用データが第２記憶部１５に蓄積された場合（ステップＳ１１：ＹＥＳ）、第２記憶部１５から学習用データを取得する（ステップＳ１２）。

一方、ステップＳ１０において第２記憶部１５に設定された数の学習用データが蓄積されていない場合（ステップＳ１１：ＮＯ）、ステップＳ１からステップＳ４までの処理が繰り返される。その後、学習部１７は、ステップＳ１２で取得した学習用データを用いて、尤度関数Ｐ（Ｙ_ｉ｜Ｘ）と分類クラスとの関係を、機械学習モデルを用いて学習する（ステップＳ１３）。ステップＳ１３で構築された学習済みの機械学習モデルは、第２記憶部１５に記憶される。

次に、分類部１８は、ステップＳ１３で構築された学習済みの機械学習モデルを第２記憶部１５から読み出して、分類処理を行う（ステップＳ１４）。分類部１８は、第２取得部１６が取得した尤度関数Ｐ（Ｙ_ｉ｜Ｘ）を未知の入力として学習済みの機械学習モデルに与え、学習済みの機械学習モデルの演算を行って分類クラスを出力する。

その後、提示部１４は、ステップＳ１４で得られた分類結果を提示する（ステップＳ１５）。例えば、提示部１４は、図示されないネットワークを介して外部のサーバに分類結果を送出することができる。分類結果は、未知の入力に対する分類クラスを示す。具体的には、シングルスレッド処理のスレッド２１ｂおよびマルチスレッド処理の複数のスレッド２１ｂに障害情報が通知された場合に、シングルスレッド処理のスレッド２１ｂで障害が発生したことを示す第１分類クラスに属するか、あるいは、マルチスレッド処理の複数のスレッド２１ａ側で障害が発生したことを示す第２分類クラスに属するのかが示される。

以上説明したように、第２の実施の形態に係るプロセス管理装置１Ａによれば、第１学習装置１－１で得られた判定結果を学習用データとして用いて、第２学習装置１－２が尤度関数Ｐ（Ｙ_ｉ｜Ｘ）と分類クラスとの関係を学習した学習済み機械学習モデルを構築する。したがって、例えば、サービス開始からの経過時間が比較的短いような場合において、少ない観測データしか取得できない場合には、ベイズ推定モデルを利用した判定処理を行うことができる。一方において、一定数以上の学習用データが蓄積された場合には、教師あり学習を行う機械学習モデルを学習して分類処理を行うことができる。そのため、サービスの開始から時間の経過に沿って適した学習処理を行うことができる。さらには、より精度の高い分類処理によってマルチスレッド処理およびシングルスレッド処理を含むプロセス２１０のプロセス障害が発生した際に、障害発生箇所を容易に特定することができる。

なお、上述の実施の形態では、第１学習装置１－１と第２学習装置１－２とが同じ装置に設けられている構成を例示した。しかし、第１学習装置１－１と第２学習装置１－２とは、それぞれ別個の装置として構成することができる。この場合、第１学習装置１－１、および第２学習装置１－２はそれぞれ図２で説明したハードウェア構成を有することができる。

また、上述の実施の形態では、情報処理装置２がＷｅｂサーバであり、マルチスレッド処理とシングルスレッド処理とを含むプロセスを実行するプログラムで発生した障害の発生箇所がマルチスレッド処理側であるかシングルスレッド処理側であるかを特定する場合を例に挙げて説明した。しかし、情報処理装置２が実行するプログラムは、１つのプロセスでマルチスレッド処理とシングルスレッド処理とが組み合わされたものであれば、例えば、複数のクエリやトランザクションを処理するデータベースサーバや、ユーザからのリクエストを処理するアプリケーションサーバやミドルウェアなどが含まれる。その他にも、リアルタイム処理が求められる組込みシステムや産業制御システムの処理プログラムが含まれる。さらには、５Ｇなどの通信規格のコアネットワーク内に設けられて通信制御を行うコアネットワーク装置の通信制御プログラムに適用される。

また、上述した実施の形態では、機械学習モデルとして、入力層、隠れ層、および出力層からなるニューラルネットワークを例示した。ニューラルネットワークは、教師あり学習により分類問題を扱うモデルであれば、例えば、隠れ層を多層化した深層学習モデルとすることができる。その他にも、機械学習モデルとして、ＳＶＭ、決定木、ランダムフォレスト、ロジスティック回帰などを用いることができる。

以上、本発明のプロセス管理装置およびプロセス管理方法における実施の形態について説明したが、本発明は説明した実施の形態に限定されるものではなく、請求項に記載した発明の範囲において当業者が想定し得る各種の変形を行うことが可能である。

１、１Ａ…プロセス管理装置、１－１…第１学習装置、１－２…第２学習装置、１０…第１取得部、１１…設定部、１２…判定部、１３…第１記憶部、１４…提示部、１５…第２記憶部、１６…第２取得部、１７…学習部、１８…分類部、２…情報処理装置、２０…ＣＰＵ、２１…メモリ、２１０…プロセス、２１ａ、２１ｂ…スレッド、２１１…障害ログ、２２…ストレージ、１０１…バス、１０２…プロセッサ、１０３…主記憶装置、２３、１０４…通信インターフェース、１０５…補助記憶装置、２４、１０６…入出力Ｉ／Ｏ、１０７…表示装置。

Claims

１つのスレッドを含む第１のスレッドと、複数のスレッドを含む第２のスレッドとが実行されるプロセスの管理を行うプロセス管理装置であって、
前記第２のスレッドに含まれる前記複数のスレッドの各々に通知された障害情報の回数を観測データとして取得するように構成された第１取得部と、
前記観測データに基づいて、前記第１のスレッドで障害が発生している条件のもと前記第２のスレッドに含まれる前記複数のスレッドの各々で前記障害情報が通知される確率を、ベイズ推定モデルの尤度関数として設定するように構成された設定部と、
設定された前記尤度関数の値に基づいて、前記第１のスレッドで障害が発生しているか否かを判定するように構成された判定部と、
前記判定部による判定結果を提示するように構成された提示部と
を備えるプロセス管理装置。
請求項１に記載のプロセス管理装置において、
さらに、前記尤度関数を未知の入力として、学習済みの機械学習モデルに与え、前記学習済みの機械学習モデルの演算を行って、前記第１のスレッドで障害が発生したことを示す第１分類クラス、および前記第２のスレッドで障害が発生したことを示す第２分類クラスを含む分類クラスに分類するように構成された分類部を備え、
前記提示部は、前記分類部による分類結果を提示する
ことを特徴とするプロセス管理装置。
請求項２に記載のプロセス管理装置において、
さらに、前記尤度関数と、前記判定結果によって示される前記分類クラスとが関連付けられた学習用データを取得するように構成された第２取得部と、
前記学習用データに基づいて、前記尤度関数と前記分類クラスとの関係を、機械学習モデルを用いて学習するように構成された学習部と、
前記学習部により構築された前記学習済みの機械学習モデルを記憶するように構成された記憶部と、
を備え、
前記分類部は、前記記憶部から前記学習済みの機械学習モデルを読み出して、前記学習済みの機械学習モデルの演算を行う
ことを特徴とするプロセス管理装置。
１つのスレッドを含む第１のスレッドと、複数のスレッドを含む第２のスレッドとが実行されるプロセスの管理を行う、コンピュータによって実行されるプロセス管理方法であって、
前記第２のスレッドに含まれる前記複数のスレッドの各々に通知された障害情報の回数を観測データとして取得する第１取得ステップと、
前記観測データに基づいて、前記第１のスレッドで障害が発生している条件のもと前記第２のスレッドに含まれる前記複数のスレッドの各々で前記障害情報が通知される確率を、ベイズ推定モデルの尤度関数として設定する設定ステップと、
設定された前記尤度関数の値に基づいて、前記第１のスレッドで障害が発生しているか否かを判定する判定ステップと、
前記判定ステップでの判定結果を提示する提示ステップと
を備えるプロセス管理方法。
請求項４に記載のプロセス管理方法において、
さらに、前記尤度関数を未知の入力として、学習済みの機械学習モデルに与え、前記学習済みの機械学習モデルの演算を行って、前記第１のスレッドで障害が発生したことを示す第１分類クラス、および前記第２のスレッドで障害が発生したことを示す第２分類クラスを含む分類クラスに分類する分類ステップを備え、
前記提示ステップは、前記分類ステップでの分類結果を提示する
ことを特徴とするプロセス管理方法。
請求項５に記載のプロセス管理方法において、
さらに、前記尤度関数と、前記判定結果によって示される前記分類クラスとが関連付けられた学習用データを取得する第２取得ステップと、
前記学習用データに基づいて、前記尤度関数と前記分類クラスとの関係を、機械学習モデルを用いて学習する学習ステップと、
前記学習ステップで構築された前記学習済みの機械学習モデルを記憶部に記憶する記憶ステップと、
を備え、
前記分類ステップは、前記記憶部から前記学習済みの機械学習モデルを読み出して、前記学習済みの機械学習モデルの演算を行う
ことを特徴とするプロセス管理方法。