JP7329162B1

JP7329162B1 - 情報処理装置および情報処理方法

Info

Publication number: JP7329162B1
Application number: JP2023078382A
Authority: JP
Inventors: 純柿島
Original assignee: Internet Initiative Japan Inc
Current assignee: Internet Initiative Japan Inc
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-08-17
Anticipated expiration: 2043-05-11

Abstract

【課題】プログラムの動作異常が発生した場合に、動作異常の原因を容易に特定することを目的とする。
【解決手段】
プログラムの実行単位であるプロセス内の複数のスレッドの実行状態の遷移を記録するための変数を設定するように構成された設定部１０と、プログラムの実行に応じて記録された、複数のスレッドの実行状態の遷移を示す変数の値を取得するように構成された取得部１３と、取得部１３によって取得された、複数のスレッドの実行状態の遷移を示す変数の値を未知の入力として学習済みの分類器に与え、学習済みの分類器の演算を行って、プログラムの動作異常の原因に関する分類クラスを出力するように構成された分類部１４と、分類部１４が出力した分類クラスに基づいて、プログラムの動作異常の原因を提示するように構成された提示部１６とを備える。
【選択図】図１

Description

本発明は、情報処理装置および情報処理方法に関し、特に、プログラムの動作異常を特定する技術に関する。

近年、高機能なシステムやサービスを提供するために、ソフトウェアに対する要求は高度化および複雑化している。高機能なシステムに実装されるソフトウェアは、膨大なソースコードを有するプログラムで構成され、マルチスレッド処理などの並列化によって、プログラムの実行は一層複雑化している。

運用中のシステムでプロセス障害や動作異常等が発生すると、プログラムにおいて障害や動作異常の原因となっている箇所を特定するのに時間を要する。障害を復旧するまでに長時間を要する場合には、サービス断が長時間にわたり、ユーザに与える影響が多大となる。

従来から、プロセス実行中にシステム障害やプログラムの異常処理により、処理を継続できないようなエラーが発生し、プログラムが強制終了された場合、システム内のコア（ｃｏｒｅ）ファイルにメモリ状態をダンプ（ｄｕｍｐ）する構成が知られている。例えば、特許文献１は、ハードディスクに出力されたｃｏｒｅファイルをデバッガに読み込ませてエラーが発生した場所や、そのときの変数の値等を事後的に解析する技術を開示している。

しかし、特許文献１に開示された技術では、プログラムの動作異常が発生した原因とエラーが発生した場所をログ情報からでは特定できないため、ソースコードをさらに解析することで原因とエラーが発生した場所を特定しなければならなかった。

特開２００５－３０１５７０号公報

このように、従来の技術では、プログラムの動作異常が発生した場合に、動作異常の原因を容易に特定することができなかった。

本発明は、上述した課題を解決するためになされたものであり、プログラムの動作異常が発生した場合に、動作異常の原因を容易に特定することを目的とする。

上述した課題を解決するために、本発明に係る情報処理装置は、プログラムの実行単位であるプロセス内の複数のスレッドの実行状態の遷移を記録するための変数を設定するように構成された設定部と、前記プログラムの実行に応じて記録された、前記複数のスレッドの前記実行状態の遷移を示す変数の値を取得するように構成された取得部と、前記取得部によって取得された、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値を未知の入力として学習済みの分類器に与え、前記学習済みの分類器の演算を行って、前記プログラムの動作異常の原因に関する分類クラスを出力するように構成された分類部と、前記分類部が出力した前記分類クラスに基づいて、前記プログラムの前記動作異常の原因を提示するように構成された提示部とを備える。

また、本発明に係る情報処理装置において、さらに、前記取得部によって取得された、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値に基づいて、前記プログラムにおける前記動作異常の発生箇所を特定するように構成された特定部を備え、前記提示部は、特定された前記動作異常の前記発生箇所を示す情報を提示するように構成されていてもよい。

また、本発明に係る情報処理装置において、さらに、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値に対して予め設定された前記動作異常の原因を正解ラベルとして付した教師データを用いて、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値と、前記動作異常の原因との関係を学習し、前記学習済みの分類器を構築するように構成された学習部を備えていてもよい。

また、本発明に係る情報処理装置において、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値は、前記複数のスレッドのうちの第１スレッドが、第１実行状態において第１命令を実行した後に、または並行して、第２スレッドが第２命令を実行する第２実行状態へ遷移したことを示す第１の値、および、前記第１スレッドが前記第１命令を実行することができないため、前記第１スレッドの前記第１実行状態が正常に終了せず、前記第２実行状態へ遷移しなかったことを示す第２の値のいずれかを含んでいてもよい。

また、本発明に係る情報処理装置において、前記特定部は、前記取得部によって取得された、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値が前記第２の値を含む場合に、前記第２の値によって示される、正常に終了しなかった前記第１実行状態において前記第１スレッドが実行することができなかった前記第１命令が、前記プログラムにおける前記動作異常の前記発生箇所に対応すると特定してもよい。

上述した課題を解決するために、本発明に係る情報処理方法は、プログラムの実行単位であるプロセス内の複数のスレッドの実行状態の遷移を記録するための変数を設定する第１ステップと、前記プログラムの実行に応じて記録された、前記複数のスレッドの前記実行状態の遷移を示す変数の値を取得する第２ステップと、前記第２ステップで取得された、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値を未知の入力として学習済みの分類器に与え、前記学習済みの分類器の演算を行って、前記プログラムの動作異常の原因に関する分類クラスを出力する第３ステップと、前記第３ステップで出力された前記分類クラスに基づいて、前記プログラムの前記動作異常の原因を提示する第４ステップとを備える。

また、本発明に係る情報処理方法において、さらに、前記第２ステップで取得された、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値に基づいて、前記プログラムにおける前記動作異常の発生箇所を特定する第５ステップを備え、前記第４ステップは、特定された前記動作異常の前記発生箇所を示す情報を提示してもよい。

また、本発明に係る情報処理方法において、さらに、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値に対して予め設定された前記動作異常の原因を正解ラベルとして付した教師データを用いて、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値と、前記動作異常の原因との関係を学習し、前記学習済みの分類器を構築する第６ステップを備えていてもよい。

また、本発明に係る情報処理方法において、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値は、前記複数のスレッドのうちの第１スレッドが、第１実行状態において第１命令を実行した後に、または並行して、第２スレッドが第２命令を実行する第２実行状態へ遷移したことを示す第１の値、および、前記第１スレッドが前記第１命令を実行することができないため、前記第１スレッドの前記第１実行状態が正常に終了せず、前記第２実行状態へ遷移しなかったことを示す第２の値のいずれかを含んでいてもよい。

また、本発明に係る情報処理方法において、前記第５ステップは、前記第２ステップで取得された、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値が前記第２の値を含む場合に、前記第２の値によって示される、正常に終了しなかった前記第１実行状態において前記第１スレッドが実行することができなかった前記第１命令が、前記プログラムにおける前記動作異常の前記発生箇所に対応すると特定してもよい。

本発明によれば、プログラムの実行に応じて記録された、複数のスレッドの実行状態の遷移を示す変数の値を未知の入力として学習済みの分類器に与え、学習済みの分類器の演算を行って、プログラムの動作異常の原因に関する分類クラスを出力する。そのため、プログラムの動作異常が発生した場合に、動作異常の原因を容易に特定することができる。

図１は、本発明の実施の形態に係る情報処理装置を含む情報処理システムの構成を示すブロック図である。図２は、本実施の形態に係る情報処理装置の概要を説明するための図である。図３は、本実施の形態に係る情報処理装置のハードウェア構成を示すブロック図である。図４は、本実施の形態に係る学習部による学習処理を説明するための図である。図５は、本実施の形態に係る情報処理装置の動作を示すフローチャートである。図６は、本実施の形態に係る情報処理装置の動作を示すフローチャートである。

以下、本発明の好適な実施の形態について、図１から図６を参照して詳細に説明する。以下の説明では、一例として、５Ｇなどの所定の通信規格に準拠するコアネットワークが備える、通信制御を行うコアネットワーク装置２において実行されるプログラムを、情報処理装置１の処理対象とする。しかし、情報処理装置１が動作異常の原因を特定するプログラムを実装する装置は、コアネットワーク装置２に限定されない。

［情報処理システムの構成］
まず、本発明の実施の形態に係る情報処理装置１を備える情報処理システムの概要について説明する。図１に示すように、情報処理システムは、情報処理装置１と、コアネットワーク装置２とを備え、情報処理装置１とコアネットワーク装置２とは、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどのネットワークＮＷを介して接続されている。

本実施の形態に係る情報処理システムは、コアネットワーク装置２のコンピュータ上で実行されるプログラムの動作異常の原因を推論し、プログラムにおける動作異常の発生箇所を特定する。コアネットワーク装置２は、５Ｇコアネットワーク内に設けられて通信制御を行う。

コアネットワーク装置２は、プロセッサ、主記憶装置、通信インターフェース、補助記憶装置、および入出力Ｉ／Ｏを備えるコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。コアネットワーク装置２は、例えば、Ｌｉｎｕｘ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）等の汎用マルチタスクＯＳを適用した装置である。

コアネットワーク装置２のコンピュータ上で実行されるプログラムは、マルチスレッドのプロセスを含む。プログラムの実行単位であるプロセスは、ＯＳによって管理され、プログラム内で利用される変数および状態を保持し、一つ以上のスレッドから構成される。

スレッドは、ＣＰＵから見たプログラムの実行単位であり、各ＣＰＵコアに１つのスレッドが割り当てられる。ＯＳは、各プロセスに独立したメモリ領域を割り当てるため、通常各プロセスでメモリ領域は共有しない。一方、スレッドは、プロセス内の同じメモリ領域を共有する。

本実施の形態では、動作異常を推論する対象のプログラムは、１つのプロセスをマルチスレッドとシングルスレッドとの組み合わせにより実行する場合を一例として説明するが、プロセスはマルチプロセスであってもよい。

また、本実施の形態において、スレッドの状態とは、スレッドに割り当てられたＣＰＵコアの状態、各種変数値を保持しているメモリの状態を示す。スレッドの実行状態の遷移とは、プロセス内で命令を逐次または並列もしくは並行実行していく際に、スレッドがソースコードに従って所定の１以上の命令を実行する状態遷移をいう。

例えば、スレッドはＣＰＵコアが命令を実行するために必要なメモリ空間を確保して命令を実行する。このスレッドが命令を実行すると、ＣＰＵは次に実行する命令のアドレスを計算し、同じスレッドまたは、別のスレッドに切り替わって次の命令が実行される。このようなスレッドの状態の遷移を、実行状態の遷移という。

スレッドが正常動作している場合においては、スレッドが所定の命令を実行した後、例えば、逐次同一もしくは別のスレッド、または同時に実行する別のスレッドが次の命令を実行する。一方において、スレッドに動作異常が発生した場合には、スレッドが正常に終了せず、次の命令を実行できない状態となる。このように本実施の形態では、スレッドの実行状態の遷移は、正常動作における状態遷移、または、何らかの動作異常によりスレッドが所定の命令をすべて実行できず、次の実行状態へ遷移できなかった状態遷移を示す。

また、本実施の形態では、スレッドの各実行状態で実行される命令から、対応するソースコードの位置を特定することができる。ここで、ソースコードとは、プログラミング言語で記述されたテキストまたはテキストファイル等の文字列からなるコンピュータに対する命令をいう。ソースコードは、プログラムの構造や動作を定義し、スレッドで実行する関数やクラスなどの命令が記述されている。スレッドの生成は、ソースコードにおいて予め明示することができる。なお、スレッドは、実際にはソースコードをマシンコードに変換した命令を実行する。

図２は、プログラムにおけるマルチスレッドおよびシングルスレッドの各スレッドの状態Ｓ_１，Ｓ_２，・・・，Ｓ_ｔ－１，Ｓ_ｔを模式的に示した図である。図２において、状態Ｓ_１，Ｓ_２，Ｓ_ｔは、シングルスレッドの動作における各実行状態を示している。各状態Ｓ_１～Ｓ_ｔにおいて、スレッドは、所定の１以上の命令を実行する。また、破線で囲まれた状態Ｓ_３，・・・，Ｓ_ｔ－１およびＳ_３’，・・・，Ｓ_ｔ－１’は、マルチスレッドの動作における各状態を示している。マルチスレッドにおいて四角で囲まれた状態Ｓ_３，・・・，Ｓ_ｔ－１およびＳ_３’，・・・，Ｓ_ｔ－１’はそれぞれトランザクションを構成する。

例えば、プログラムにおいてプロセスが正常動作している場合、プロセス内の各スレッドの実行により、状態Ｓ_１，Ｓ_２，・・・，Ｓ_ｔ－１，Ｓ_ｔへと順番に、あるいは並行して実行状態が遷移していく。一方、何らかの動作異常が発生すると、あるスレッドの実行状態から次の実行状態へ遷移しない。なお、本実施の形態では、プログラムあるいはプロセスの正常動作、および動作異常といった場合に、特に、プロセス内のスレッドの動作を指すものとする。

スレッドの動作異常の例として、図２に示すデッドロックＥ２が挙げられる。マルチスレッドにおけるデッドロックとは、２つ以上のスレッドが互いにブロックし合い、それぞれのスレッドが、他方が終了するのを待機する動作異常である。デッドロックは、マルチスレッドにおいてメモリの排他制御の順序性を適切に行わないことにより発生する。

スレッドの動作異常の別の例としては、図２に示すヒープ・エラーＥ１が挙げられる。ヒープ・エラーは、プログラムが利用するメモリ領域であるヒープ領域の開放が不適切に行われることにより発生する動作異常である。つまり、ヒープ・エラーとは、ハッシュ関数を使ってメモリハントをする場合に、異なるプロセスで同一メモリ番号を使用することで発生する。その他にも、スタックオーバーフロー、無限ループ、スターベーション等が挙げられ、本実施の形態に係る情報処理装置１は、事前に設定されたスレッドにおける既知の動作異常の原因を推論する。

コアネットワーク装置２において、デッドロックＥ２やヒープ・エラーＥ１などのスレッドの動作異常が発生すると、スレッドの実行状態は遷移できず、プロセスは強制終了する。プロセスの強制終了を示すシグナルは、ネットワークＮＷを介して、情報処理装置１へ送出される。情報処理装置１は、プロセスの強制終了シグナルを契機として、対象プロセス内の複数のスレッドの実行状態の遷移を示す変数の値に基づいて、動作異常の原因を推論し、かつ、プログラムにおける動作異常の発生箇所を特定する。

［情報処理装置の機能ブロック］
図１に示すように、情報処理装置１は、設定部１０、学習部１１、記憶部１２、取得部１３、分類部１４、特定部１５、および提示部１６を備える。

設定部１０は、プログラムの実行単位であるプロセス内の複数のスレッドの実行状態の遷移を記録するための変数を設定する。設定部１０が設定する変数の値には、例えば、複数のスレッドのうちの第１スレッドが、第１実行状態において第１命令を実行した後に、または並行して、第２スレッドが次の第２命令を実行する第２実行状態へ遷移したことを示す第１の値を含む。さらに、変数の値には、第１スレッドが第１命令を実行することができないため、第１スレッドの第１実行状態は正常に終了せず、第２実行状態へ遷移しなかったことを示す第２の値を含む。

具体的には、設定部１０は、対象プログラムのソースコードにおいて、所定の１以上の命令ごとに、スレッドによる実行状態の遷移を記録するフラグを設定することができる。各実行状態を定義する所定の１以上の命令は、任意に設定することができ、例えば、スレッド間の実行順序、または、ソースコードの記述順序等に応じて設定することができる。

例えば、図２に示すように、プロセスが正常動作している場合において、スレッドが実行されて状態Ｓ_１から規定の状態Ｓ_２に遷移する。これは、例えば、スレッド間の実行順序に応じて、第１スレッドが第１命令を実行する状態Ｓ_１から、第２スレッドが第２命令を実行する状態Ｓ_２に遷移することを示す。このような正常動作において、設定部１０は、状態Ｓ_１のフラグ値が「１」（第１の値）となるようにフラグを定義することができる。

一方、何らかの動作異常が発生した場合においては、第１スレッドが第１命令を実行することができないため、状態Ｓ_１が正常に終了せず、状態Ｓ_１から、第２スレッドが第２命令を実行する次の状態Ｓ_２に遷移しない。この場合には、設定部１０は、状態Ｓ_１のフラグ値が「０」（第２の値）となるようにフラグを定義する。

例えば、図２に示すように、プロセス内の各スレッドが正常動作している場合、スレッドの状態Ｓ_１～Ｓ_ｔまでのフラグの値は「１」となる。

例えば、図２に示すように、マルチスレッドの区間において、デッドロックＥ２が生じている場合、状態Ｓ_３，Ｓ_３’，・・・，Ｓ_ｔ－１，Ｓ_ｔ－１’のフラグ値はそれぞれ「０」となる。そして、後続のスレッドの状態Ｓ_ｔのフラグ値も「０」となる。一方、デッドロックＥ２が生ずる以前のシングルスレッドの区間における状態Ｓ_１，Ｓ_２のフラグ値は正常動作を示す「１」である。

また、図２に示すように、状態Ｓ_１から状態Ｓ_２に遷移するシングルスレッドの区間においてヒープ・エラーＥ１が生じている場合を例示する。この場合、スレッドは、状態Ｓ_１から状態Ｓ_２へ遷移できなかったため、状態Ｓ_１のフラグ値は「０」、およびその後の状態Ｓ_２のフラグ値も「０」となる。さらに、後続のマルチスレッド区間を含むすべてのスレッドの状態Ｓ_３，Ｓ_３’，・・・，Ｓ_ｔ－１，Ｓ_ｔ－１’，Ｓ_ｔのフラグ値も「０」となる。

学習部１１は、プログラムにおけるプロセス内の複数のスレッドの実行状態の遷移を示すフラグ値に対して予め設定された動作異常の原因を正解ラベルとして付した教師データを用いて、複数のスレッドの実行状態の遷移を示すフラグ値と、動作異常の原因との関係を学習し、学習済みの分類器を構築する。

図４は、学習部１１が学習する分類器の一例として用いるニューラルネットワーク構造を示す模式図である。図４に示すように、分類器として、例えば、ニューラルネットワーク構造の機械学習モデルを採用し、入力層、隠れ層、および出力層のノードの数、隠れ層のレイヤ数等を設定する。学習部１１は、動作異常の原因を推論するプログラムにおけるプロセス内のスレッドの実行状態の遷移のステップ数１～ｔに対応した、入力層の入力ノード数を設ける。出力層のノード数は、分類クラスに応じたノード数とすることができる。

図４に示すように、入力層の各ノードは、上から順にスレッドの実行状態Ｓ_１～Ｓ_ｔにそれぞれ対応する。隠れ層ｈのレイヤ数、およびニューラルネットワークのノード間の結合の疎密を含む分類器のサイズや要素は、十分な推論精度が得られる設計であれば限定されず、例えば、ノード間の結合として全結合あるいはスパース化した構造であってもよい。

学習部１１は、教師データとして、後述する取得部１３によってコアネットワーク装置２から取得されたスレッドの実行状態の遷移を示すフラグ値の実データを用いることができる。また、学習部１１によって設定される出力層の分類クラスは、分類する動作異常の原因の数に応じて、２クラスまたは多クラス分類など任意に設定することができる。

図４に示すニューラルネットワークは、入力層ｘに与えられた複数のスレッドの実行状態の遷移を示すフラグ値に対して、入力の重み付け総和に活性化関数を適用し、閾値処理により決定された出力を出力層ｙに渡す。出力層の各出力ノードは、動作異常の原因に関する分類クラスを示す。また、出力層ｙは、入力データが分類クラスに属する確率を出力することができる。

学習部１１は、複数のスレッドの実行状態の遷移を示すフラグ値を入力として与えたときの出力が、教師データのラベルに示される動作異常の原因を示す値となるように、ノード間の結線の重みｗを調整する。学習部１１は、例えば、誤差逆伝搬などを利用して、与えた入力値に対して、得られた出力値を比較し、それぞれの重みｗの誤差を調べて逆方向に伝搬していき、最終的に重みｗなどのパラメータを決定することができる。このような学習処理を経て、学習部１１は、学習済みの分類器を構築する。

記憶部１２は、学習部１１によって構築された、学習済みの分類器、つまり学習済みのパラメータを記憶する。本実施の形態では、記憶部１２は、ニューラルネットワークの学習済み重みを記憶する。なお、記憶部１２は、学習前の分類器についても記憶している。

取得部１３は、コアネットワーク装置２から、対象のプログラムにおけるプロセス内の複数のスレッドの実行状態の遷移を示すフラグ値を取得する。スレッドの実行状態の遷移を示すフラグ値は、設定部１０によって設定されたフラグの値である。なお、取得部１３は、コアネットワーク装置２からプロセスの強制終了シグナルを受信したことを契機として、複数のスレッドの実行状態の遷移を示すフラグ値を取得することができる。

分類部１４は、取得部１３が取得した、複数のスレッドの実行状態の遷移を示すフラグ値を未知の入力として学習済みの分類器に与え、学習済みの分類器の演算を行って、プロセスの動作異常の原因に関する分類クラスを出力する。図４の例では、分類部１４は、分類クラスとして、例えば、予め設定された「正常動作」、「ヒープ・エラー」、および「デッドロック」のいずれかの値を出力することができる。

特定部１５は、取得部１３によって取得された、複数のスレッドの実行状態の遷移を示すフラグ値に基づいて、プログラムにおける動作異常の発生箇所を特定する。取得部１３によって取得された、複数のスレッドの実行状態の遷移を示すフラグ値は、学習済み分類器への各入力ノードへの入力値である。

例えば、特定部１５は、取得部１３によって取得された、複数のスレッドの実行状態の遷移を示すフラグ値が「０」を含む場合に、フラグ値「０」によって示される、正常に終了しなかった第１実行状態（例えば、状態Ｓ_１）において第１スレッドが実行することができなかった第１命令のソースコード上の位置が、プログラムにおける動作異常の発生箇所であると特定する。

具体的には、図２は、分類結果がヒープ・エラーＥ１であった場合に、スレッドの状態Ｓ_１のフラグ値が「０」、すなわち状態Ｓ_１から状態Ｓ_２に遷移できなかったことを示している。この場合、スレッドの状態Ｓ_１で示される実行状態のステップに対応するソースコードの位置において、ヒープ・エラーＥ１が発生したことを特定することができる。つまり、ソースコードにおいて、スレッドの状態Ｓ_１のフラグが設けられている位置を、ヒープ・エラーＥ１の発生箇所と特定することができる。

提示部１６は、分類部１４が出力した分類クラスに基づいて、プログラムの動作異常の原因を提示する。また、提示部１６は、特定部１５によって特定された、ソースコードにおける動作異常の発生箇所を提示する。提示部１６は、例えば、ネットワークＮＷを介して、外部のサーバ等に分類結果および特定結果を送信することができる。あるいは、提示部１６は、コアネットワーク装置２に対して、分類結果および特定結果を送出してもよい。

［情報処理装置のハードウェア構成］
次に、上述した機能を有する情報処理装置１を実現するハードウェア構成の一例について、図３を用いて説明する。

図２に示すように、情報処理装置１は、例えば、バス１０１を介して接続されるプロセッサ１０２、主記憶装置１０３、通信インターフェース１０４、補助記憶装置１０５、入出力Ｉ／Ｏ１０６を備えるコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。

主記憶装置１０３には、プロセッサ１０２が各種制御や演算を行うためのプログラムが予め格納されている。プロセッサ１０２と主記憶装置１０３とによって、図１に示した設定部１０、学習部１１、分類部１４、特定部１５など情報処理装置１の各機能が実現される。

通信インターフェース１０４は、情報処理装置１と各種外部電子機器との間をネットワーク接続するためのインターフェース回路である。

補助記憶装置１０５は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。補助記憶装置１０５には、記憶媒体としてハードディスクやフラッシュメモリなどの半導体メモリを使用することができる。

補助記憶装置１０５は、情報処理装置１が実行する情報処理プログラムを格納するプログラム格納領域を有する。また、補助記憶装置１０５は、分類器の学習を行うための学習プログラムを格納する領域を有する。補助記憶装置１０５によって、図１で説明した記憶部１２が実現される。さらには、例えば、上述したデータやプログラムなどをバックアップするためのバックアップ領域などを有していてもよい。

入出力Ｉ／Ｏ１０６は、外部機器からの信号を入力したり、外部機器へ信号を出力したりする入出力装置である。

［情報処理装置の動作］
次に、上述した構成を有する情報処理装置１の動作を、図５および図６のフローチャートを参照して説明する。図５は、情報処理装置１による学習処理を示すフローチャートである。図６は、情報処理装置１による、学習済みの分類器を用いた分類処理および特定処理を示すフローチャートである。

まず、図５に示すように、設定部１０は、コアネットワーク装置２において実行されるプログラムのプロセス内の複数のスレッドの実行状態の遷移を記録するためのフラグを設定する（ステップＳ１）。具体的には、設定部１０は、事前に動作異常の原因を推論する対象のプログラムのソースコードにおいて、所定の１以上の命令ごとにスレッドの実行状態の遷移を記録するフラグを設定することができる。設定部１０は、例えば、スレッド間の実行順序に応じて、各スレッドが実行する命令ごとに、スレッドの実行状態の遷移を定義することができる。

次に、学習部１１は、プロセス内の複数のスレッドの実行状態の遷移を示すフラグ値に対して、予め設定された動作異常の原因を正解ラベルとして付したデータを教師データとして、複数のスレッドの実行状態の遷移を示すフラグ値と、動作異常の原因との関係を学習し、学習済みの分類器を構築する（ステップＳ２）。

例えば、学習部１１は、複数のスレッドの実行状態の遷移を示すフラグ値に対して、「正常動作」、「ヒープ・エラー」、および「デッドロック」等、シングルスレッド、およびマルチスレッドのそれぞれで発生し得る動作異常の原因を正解ラベルとして付した教師データを用いることができる。

次に、学習部１１によって構築された学習済みの分類器、すなわち、学習済みのパラメータを、記憶部１２に記憶させる（ステップＳ３）。

次に、図６に示すフローチャートを参照して、分類処理および特定処理を説明する。まず、取得部１３は、プロセス内の複数のスレッドの実行状態の遷移を示すフラグ値を取得する（ステップＳ１０）。取得部１３は、コアネットワーク装置２から強制終了シグナルを受信したことを契機として、複数のスレッドの実行状態の遷移を示すフラグ値を、ネットワークＮＷを介してコアネットワーク装置２から取得することができる。

次に、分類部１４は、記憶部１２から学習済みのパラメータをロードする（ステップＳ１１）。続いて、分類部１４は、ステップＳ１０で取得部１３が取得した、複数のスレッドの実行状態の遷移を示すフラグ値を未知の入力として学習済みの分類器に与え、学習済み分類器の演算を行って、プロセスの動作異常の原因に関する分類クラスを出力する（ステップＳ１２）。例えば、分類部１４は、分類クラスとして、「正常動作」、「ヒープ・エラー」、「デッドロック」等を示す値を出力する。

次に、提示部１６は、ステップＳ１２で出力された分類クラスを提示する（ステップＳ１３）。例えば、提示部１６は、ネットワークＮＷを介して外部のサーバ等に推論された動作異常の原因を送出することができる。

次に、特定部１５は、ステップＳ１０で取得され、学習済みの分類器に入力値として与えられた、複数のスレッドの実行状態の遷移を示すフラグ値に基づいて、プログラムにおいて動作異常の発生箇所を特定する（ステップＳ１４）。例えば、特定部１５は、状態Ｓ_１～Ｓ_ｔのフラグ値のうち、次の実行状態へ遷移できなかったことを示すフラグ値「０」が含まれている場合に、フラグ値「０」を有する状態Ｓ_１～Ｓ_ｔのうち、最も若いインデックス番号の状態に対応する命令の位置を、動作異常の発生箇所と特定することができる。

例えば、スレッドの状態Ｓ_１のフラグ値は「１」であり、状態Ｓ_２のフラグ値は「０」であり、かつ、状態Ｓ_３以降のフラグ値が「０」である場合において、分類結果として得られた分類クラスが「ヒープ・エラー」である場合を考える。この場合、ヒープ・エラーが、スレッドの状態Ｓ_２に対応する命令の実行中に発生したため、状態Ｓ_３以降の動作に遷移できなかったことがわかる。したがって、特定部１５は、ソースコードにおいてスレッドの状態Ｓ_２に対応する命令が記述された箇所を、ヒープ・エラーの発生箇所として特定する。

次に、提示部１６は、ステップＳ１４で特定された動作異常の発生箇所を示す情報を提示する（ステップＳ１５）。例えば、提示部１６は、動作異常の発生箇所を示す情報を、ネットワークＮＷを介して外部のサーバ等に送出することができる。

以上説明したように、本実施の形態に係る情報処理装置１によれば、複数のスレッドの実行状態の遷移を示すフラグ値を未知の入力として学習済みの分類器に与え、学習済みの分類器の演算を行って、プログラムの動作異常の原因に関する分類クラスを出力する。したがって、プログラムの動作異常が発生した場合に、動作異常の原因を容易に特定することができる。

また、本実施の形態に係る情報処理装置１によれば、複数のスレッドの実行状態の遷移を示すフラグ値を参照することで、プログラムにおけるソースコード上の動作異常の発生箇所を容易かつ速やかに特定することができる。

なお、上述した実施の形態では、分類器としてニューラルネットワークを用いる場合について説明した。しかし、分類器は、上述したニューラルネットワークモデルの他、ロジスティック回帰などの識別器を用いることができる。ロジスティック回帰を用いた場合には、各分類クラスを予測できる確率値を分類クラス数だけ得ることができる。その他にも、分類器として、ＳＶＭ、ナイーブベイズ、ランダムフォレスト、決定木等、さらにニューラルネットワークを多層化したディープラーニングを用いてもよい。

また、上述した実施の形態では、学習処理を行う学習部１１および分類処理を行う分類部１４の両方の機能部が情報処理装置１に搭載される場合について説明した。しかし、学習部１１および分類部１４は同一のハードウェア構成として設けられている場合の他、複数のサーバ等によって、学習処理と分類処理とをネットワークＮＷ上の別のサーバ等により分散することもできる。

以上、本発明の情報処理装置および情報処理方法における実施の形態について説明したが、本発明は説明した実施の形態に限定されるものではなく、請求項に記載した発明の範囲において当業者が想定し得る各種の変形を行うことが可能である。

１…情報処理装置、２…コアネットワーク装置、１０…設定部、１１…学習部、１２…記憶部、１３…取得部、１４…分類部、１５…特定部、１６…提示部、１０１…バス、１０２…プロセッサ、１０３…主記憶装置、１０４…通信インターフェース、１０５…補助記憶装置、１０６…入出力Ｉ／Ｏ、ＮＷ…ネットワーク。

Claims

プログラムの実行単位であるプロセス内の複数のスレッドの実行状態の遷移を記録するための変数を設定するように構成された設定部と、
前記プログラムの実行に応じて記録された、前記複数のスレッドの前記実行状態の遷移を示す変数の値を取得するように構成された取得部と、
前記取得部によって取得された、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値を未知の入力として学習済みの分類器に与え、前記学習済みの分類器の演算を行って、前記プログラムの動作異常の原因に関する分類クラスを出力するように構成された分類部と、
前記分類部が出力した前記分類クラスに基づいて、前記プログラムの前記動作異常の原因を提示するように構成された提示部と
を備える情報処理装置。
請求項１に記載の情報処理装置において、
さらに、前記取得部によって取得された、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値に基づいて、前記プログラムにおける前記動作異常の発生箇所を特定するように構成された特定部を備え、
前記提示部は、特定された前記動作異常の前記発生箇所を示す情報を提示するように構成されている
ことを特徴とする情報処理装置。
請求項２に記載の情報処理装置において、
さらに、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値に対して予め設定された前記動作異常の原因を正解ラベルとして付した教師データを用いて、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値と、前記動作異常の原因との関係を学習し、前記学習済みの分類器を構築するように構成された学習部を備える
ことを特徴とする情報処理装置。
請求項３に記載の情報処理装置において、
前記複数のスレッドの前記実行状態の遷移を示す前記変数の値は、前記複数のスレッドのうちの第１スレッドが、第１実行状態において第１命令を実行した後に、または並行して、第２スレッドが第２命令を実行する第２実行状態へ遷移したことを示す第１の値、および、前記第１スレッドが前記第１命令を実行することができないため、前記第１スレッドの前記第１実行状態が正常に終了せず、前記第２実行状態へ遷移しなかったことを示す第２の値のいずれかを含む
ことを特徴とする情報処理装置。
請求項４に記載の情報処理装置において、
前記特定部は、前記取得部によって取得された、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値が前記第２の値を含む場合に、前記第２の値によって示される、正常に終了しなかった前記第１実行状態において前記第１スレッドが実行することができなかった前記第１命令が、前記プログラムにおける前記動作異常の前記発生箇所に対応すると特定する
ことを特徴とする情報処理装置。
プログラムの実行単位であるプロセス内の複数のスレッドの実行状態の遷移を記録するための変数を設定する第１ステップと、
前記プログラムの実行に応じて記録された、前記複数のスレッドの前記実行状態の遷移を示す変数の値を取得する第２ステップと、
前記第２ステップで取得された、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値を未知の入力として学習済みの分類器に与え、前記学習済みの分類器の演算を行って、前記プログラムの動作異常の原因に関する分類クラスを出力する第３ステップと、
前記第３ステップで出力された前記分類クラスに基づいて、前記プログラムの前記動作異常の原因を提示する第４ステップと
を備える情報処理方法。
請求項６に記載の情報処理方法において、
さらに、前記第２ステップで取得された、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値に基づいて、前記プログラムにおける前記動作異常の発生箇所を特定する第５ステップを備え、
前記第４ステップは、特定された前記動作異常の前記発生箇所を示す情報を提示する
ことを特徴とする情報処理方法。
請求項７に記載の情報処理方法において、
さらに、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値に対して予め設定された前記動作異常の原因を正解ラベルとして付した教師データを用いて、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値と、前記動作異常の原因との関係を学習し、前記学習済みの分類器を構築する第６ステップを備える
ことを特徴とする情報処理方法。
請求項８に記載の情報処理方法において、
前記複数のスレッドの前記実行状態の遷移を示す前記変数の値は、前記複数のスレッドのうちの第１スレッドが、第１実行状態において第１命令を実行した後に、または並行して、第２スレッドが第２命令を実行する第２実行状態へ遷移したことを示す第１の値、および、前記第１スレッドが前記第１命令を実行することができないため、前記第１スレッドの前記第１実行状態が正常に終了せず、前記第２実行状態へ遷移しなかったことを示す第２の値のいずれかを含む
ことを特徴とする情報処理方法。
請求項９に記載の情報処理方法において、
前記第５ステップは、前記第２ステップで取得された、前記複数のスレッドの前記実行状態の遷移を示す前記変数の値が前記第２の値を含む場合に、前記第２の値によって示される、正常に終了しなかった前記第１実行状態において前記第１スレッドが実行することができなかった前記第１命令が、前記プログラムにおける前記動作異常の前記発生箇所に対応すると特定する
ことを特徴とする情報処理方法。