JP7434925B2

JP7434925B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP7434925B2
Application number: JP2020009086A
Authority: JP
Inventors: 武早坂
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-01-23
Filing date: 2020-01-23
Publication date: 2024-02-21
Anticipated expiration: 2040-01-23
Also published as: JP2021117577A

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関する。

特許文献１に記載されている情報処理装置は、複数のプロセスを並列に実行する際に、プロセス間の通信にて通信待ち合わせが発生した場合、通信待ち合わせ時間、データ転送時間等を測定し、所定のファイルに記憶する。その場合、特許文献１に記載されている情報処理装置は、通信待ち合わせ開始時刻、通信待ち合わせ終了時刻、およびデータ転送終了時刻を採取し、各時刻の差分から通信待ち合わせ時間とデータ転送時間を算出する。さらに、特許文献１に記載されている情報処理装置は、データ転送後にデータサイズや通信相手プロセス情報等のその他の情報を採取してそのファイルに記憶する。

特開２００９－１９９１２１号公報

特許文献１に記載されている情報処理装置は、プロセス間のデータ転送後に通信相手プロセス情報等のその他の情報を採取して所定のファイルに記憶する。そのため、例えば待ち合わせ時間の開始時と終了時で内容が変化する情報があった場合に、その内容の変化を記憶することができないという課題があった。

本発明は、上記課題を解決する情報処理装置、情報処理方法およびプログラムを提供することを目的とする。

上記課題を解決するため本発明の一態様は、複数の処理単位を並列して処理する装置であって、前記複数の処理単位のうちの自己の処理単位が、他の処理単位が読み出し可能である前記自己の処理単位の記憶領域に前記自己の処理単位の動作状態に係る情報（以下、動作情報）を記憶する動作情報記憶部と、前記自己の処理単位と前記他の処理単位との間で所定の条件が成立するまでに時間差がある場合に、前記時間差の開始時と終了時とにおいて、前記他の処理単位の記憶領域から前記他の処理単位の前記動作情報を読み出し、前記動作情報のうちの少なくとも一部を所定の記憶部に記憶する情報取得部と、を含み、前記自己の処理単位の前記記憶領域と前記他の処理単位の前記記憶領域とは、互いに異なる、情報処理装置である。

また、本発明の一態様は、複数の処理単位を並列して処理する方法であって、前記複数の処理単位のうちの自己の処理単位において、他の処理単位が読み出し可能である前記自己の処理単位の記憶領域に前記自己の処理単位の動作状態に係る情報（以下、動作情報）を記憶するステップと、前記自己の処理単位と前記他の処理単位との間で所定の条件が成立するまでに時間差がある場合に、前記時間差の開始時と終了時とにおいて、前記他の処理単位の記憶領域から前記他の処理単位の前記動作情報を読み出し、前記動作情報のうち少なくとも一部を所定の記憶部に記憶するステップと、を含み、前記自己の処理単位の前記記憶領域と前記他の処理単位の前記記憶領域とは、互いに異なる、情報処理方法である。

また、本発明の一態様は、複数の処理単位を並列して処理する際に、前記複数の処理単位のうちの自己の処理単位において、他の処理単位が読み出し可能である前記自己の処理単位の記憶領域に前記自己の処理単位の動作状態に係る情報（以下、動作情報）を記憶するステップと、前記自己の処理単位と前記他の処理単位との間で所定の条件が成立するまでに時間差がある場合に、前記時間差の開始時と終了時とにおいて、前記他の処理単位の記憶領域から前記他の処理単位の前記動作情報を読み出し、前記動作情報のうち少なくとも一部を所定の記憶部に記憶するステップと、をコンピュータに実行させ、前記自己の処理単位の前記記憶領域と前記他の処理単位の前記記憶領域とは、互いに異なる、プログラムである。

本発明の各態様によれば、並列処理に係る待ち合わせ時間の開始時と終了時に応じた情報を記憶することができる。

本発明に係る情報処理装置の一実施形態の基本的構成例を示すブロック図である。本発明の第１実施形態に係る情報処理装置の機能的構成例を示すブロック図である。図２に示すノード１－１の動作例を示すフローチャートである。本発明の第２実施形態に係る情報処理装置の機能的構成例を示すブロック図である。図４に示すノード１－１の動作例を示すフローチャートである。本発明の一実施形態による情報処理装置の最小構成を示す図である。本発明の一実施形態による最小構成の情報処理装置の処理フローを示す図である。

以下、図面を参照して本発明の実施形態について説明する。なお、各図において同一または対応する構成には同一の符号を用いて説明を適宜省略する。

＜実施形態の基本的構成例＞
図１は、本発明の一実施形態に係る情報処理装置の基本的構成例を示すブロック図である。図１に示す情報処理装置１０は、サーバ、パーソナルコンピュータ、タブレット端末等のコンピュータ、あるいはそのコンピュータと周辺装置とから構成することができる。また、情報処理装置１０は、情報処理装置１０を構成するコンピュータ（あるいはコンピュータと周辺装置）が有する１または複数のＣＰＵ（中央処理装置）、主記憶装置、補助記憶装置等の記憶装置、入出力装置、通信装置等のハードウェアと、１または複数のＣＰＵが実行するプログラム等のソフトウェアとの組み合わせで構成される機能的構成として、処理ユニット（処理単位）２０と処理ユニット２１を有する。処理ユニット２０と処理ユニット２１は１つの処理を分散して並列して処理する機能的構成であり、例えば、分散並列プログラムの場合のプロセスとそのプロセスを実行するハードウェアとの組み合わせ、共有並列プログラムの場合のスレッド（あるいはタスク（以下省略））とそのスレッドを実行するハードウェアとの組み合わせ等に対応する。本実施形態において、情報処理装置１０は、複数の処理ユニット２０および２１を並列して処理する装置である。なお、情報処理装置１０は、３以上の複数の処理ユニットを含んでいてもよい。

処理ユニット２０は、動作情報記憶部２０－１と、動作情報２０－３を記憶する記憶領域２０－２と、情報取得部２０－４と、記憶部２０－５とを含む。また、処理ユニット２１は、動作情報記憶部２１－１と、動作情報２１－３を記憶する記憶領域２１－２と、情報取得部２１－４と、記憶部２１－５とを含む。処理ユニット２０と処理ユニット２１は基本的構成は同一である。すなわち、動作情報記憶部２０－１と動作情報記憶部２１－１、記憶領域２０－２と記憶領域２１－２、動作情報２０－３と動作情報２１－３、情報取得部２０－４と情報取得部２１－４、そして、記憶部２０－５と記憶部２１－５は、それぞれ、互いに対応し、また、基本的構成が互いに同一である。以下、処理ユニット２０について主に説明し、処理ユニット２１についての説明は適宜省略する。なお、処理ユニット２０と処理ユニット２１は、例えばユーザプログラムを含み、ユーザプログラムの構成要素として図示してない他の１または複数の機能的構成を含む。なお、記憶部２０－５と記憶部２１－５は、同一の構成（１つの記憶部）であってもよい。

動作情報記憶部２０－１は、他の処理ユニット２１が直接読み出し可能な記憶領域２０－２に、自己の処理ユニット２０の動作状態に係る情報（動作情報２０－３）を記憶する。記憶領域２０－２は、自己の処理ユニット２０がデータを読み書き可能な領域であり、かつ、他の処理ユニット２１がデータを直接読み出し可能な領域である。ここで、他の処理ユニット２１が直接読み出し可能とは、例えば、処理ユニット２０と処理ユニット２１間のデータ転送用のプログラムを実行することなく、他の処理ユニット２１が例えばメモリ読み出し用コマンドやレジスタ読み出し用コマンドを実行することで読み出すことができる、という意味である。また、動作情報２０－３は、例えば、実行カウンタ（ＰＣ（プログラムカウンタ）等）の値、性能カウンタの値（実行命令数、メモリアクセス回数、分岐予測成功率、キャッシュメモリヒット率等）、実行中のユーザルーチン、ユーザルーチンの呼び出し履歴の情報等を含む。なお、動作情報記憶部２０－１が記憶領域２０－２に動作情報２０－３を記憶する動作やタイミングに限定はない。

情報取得部２０－４は、他の処理ユニット２１で所定の条件が成立するまでに所定の待ち合わせ時間が発生した場合に、その待ち合わせ時間の開始時と終了時に他の処理ユニット２１の記憶領域２１－２から他の処理ユニット２１の動作情報２１－３を読み出し、読み出した動作情報２１－３に応じた情報を所定の記憶部２０－５に記憶する。ここで、所定の条件が成立するとは、例えば、自己の処理ユニット２０が他の処理ユニット２１に対する通信を行おうと待機している場合に、他の処理ユニット２１が自己の処理ユニット２０との間の通信を行える状態になったこと（あるいは状態であったこと）である。あるいは、所定の条件が成立するとは、例えば、自己の処理ユニット２０が他の処理ユニット２１と同期を成立させようとする場合に、他の処理ユニット２１が自己の処理ユニット２０と同期を成立できる状態になったこと（あるいは状態であったこと）である。所定の待ち合わせ時間は、例えば、所定の条件の成否を少なくとも１回判断するのに要する時間より長い待機時間である。また、動作情報２１－３に応じた情報とは、動作情報２１－３そのもの、または動作情報２１－３に基づいて生成した情報である。動作情報２１－３に基づいて生成した情報は、例えば、動作情報２１－３が数値情報を含む場合に、開始時の数値と終了時の数値の差分を表す情報である。

上述したように、図１に示す情報処理装置１０では、処理ユニット２０において、情報取得部２０－４が、他の処理ユニット２１で所定の条件が成立するまでに所定の待ち合わせ時間が発生した場合に、その待ち合わせ時間の開始時と終了時に記憶領域２１－２から他の処理ユニット２１の動作情報２１－３を読み出し、読み出した動作情報２１－３に応じた情報を所定の記憶部２０－５に記憶する。また、処理ユニット２１においては、情報取得部２１－４が、他の処理ユニット２０で所定の条件が成立するまでに所定の待ち合わせ時間が発生した場合に、その待ち合わせ時間の開始時と終了時に記憶領域２０－２から他の処理ユニット２０の動作情報２０－３を読み出し、読み出した動作情報２０－３に応じた情報を所定の記憶部２１－５に記憶する。以上の構成によれば、並列処理に係る待ち合わせ時間の開始時と終了時に応じた情報を記憶部２０－５および２１－５に記憶することができる。

また、情報処理装置１０では、動作情報記憶部２０－１が、他の処理ユニット２１が読み出し可能な記憶領域２０－２に自己の処理ユニット２０の動作状態に係る情報である動作情報２０－３を記憶する。また、動作情報記憶部２１－１が、他の処理ユニット２０が読み出し可能な記憶領域２１－２に自己の処理ユニット２１の動作情報２１－３を記憶する。この構成によれば、情報取得部２０－４および２１－４は、他の処理ユニット２１および２０の動作情報２１－３および２０－３を効率的に読み出すことができる。

なお、記憶領域２０－２が自己の処理ユニット２０における実行中のユーザルーチンおよびユーザルーチンの呼び出し履歴を格納するスタック領域を含んでいてもよい。この場合、実行中のユーザルーチンおよびユーザルーチンの呼び出し履歴は、動作情報２０－３に含まれる。また、記憶領域２１－２が自己の処理ユニット２１における実行中のユーザルーチンおよびユーザルーチンの呼び出し履歴を格納するスタック領域を含んでいてもよい。この場合、実行中のユーザルーチンおよびユーザルーチンの呼び出し履歴は、動作情報２１－３に含まれる。また、この場合、情報取得部２０－４は、他の処理ユニット２１における実行中のユーザルーチンおよびユーザルーチンの呼び出し履歴を含む動作情報２１－３を直接読み出すことができる。また、この場合、情報取得部２１－４は、他の処理ユニット２１における実行中のユーザルーチンおよびユーザルーチンの呼び出し履歴を含む動作情報２１－３を直接読み出すことができる。

また、動作情報２０－３および２１－３は、処理ユニット２０および２１の動作状態に応じて変化する数値情報を含んでいてもよい。この場合、情報取得部２０－４および２１－４は、例えば、待ち合わせ時間の開始時の数値情報と終了時の数値情報の差分を記憶部２０－５または２１－５に記憶することができる。

＜第１実施形態＞
次に、図２および図３を参照して、本発明の第１実施形態について説明する。図２は、本発明の第１実施形態に係る情報処理装置の構成例をノード１－１として示すブロック図である。ここで、ノードとは、通信ネットワークを構成するコンピュータ、端末、通信装置等の構成要素を論理的（あるいは機能的）に表現したものである。この場合、図２に示す複数のノード１－１は、ノード間インタコネクト１－７で接続されたクラスタシステム１００を構成している。また、図３は、図２に示す各ノード１－１の動作例を示すフローチャートである。

図２に示す各ノード１－１は、サーバ、パーソナルコンピュータ、タブレット端末等のコンピュータ、あるいはそのコンピュータと周辺装置とを用いて構成することができる。また、各ノード１－１は、複数のＣＰＵコア１－３と、それら全てのＣＰＵコア１－３からアクセス可能な共有メモリ１－６を有している。この場合、ＣＰＵコア１－３はそれぞれ１つのプロセス１－２を処理し、各ノード１－１は複数のＣＰＵコア１－３を用いて複数のプロセス１－２を並列処理する。

第１実施形態において、複数のプロセス１－２は、分散並列プログラムを構成する。各プロセス１－２は、そのプロセスを実行するＣＰＵコア１－３と、共有メモリ１－６に確保されたプロセスメモリ１－５を備える。

各ＣＰＵコア１－３は、実行カウンタ（ＰＣ：プログラムカウンタ等）、および、性能カウンタ（実行命令数、メモリアクセス回数、分岐予測成功率、キャッシュメモリヒット率等を格納する記憶領域）を有している。これらを称して実行カウンタおよび性能カウンタ群１－４とする。各ＣＰＵコア１－３は、他ＣＰＵコア１－３の実行カウンタおよび性能カウンタ群１－４へアクセスする手段を有する。また、各ＣＰＵコア１－３は、他の各ＣＰＵコア１－３に割り当てられた各プロセスメモリ１－５にアクセスする手段を有する。

次に、図３を参照して、図２に示す各ノード１－１の動作例として、プロセス間通信処理について説明する。図３に示す処理は、あるノード１－１が実行しているプロセス１－２（第１プロセスとする）が、他のノード１－１が実行しているプロセス１－２（第２プロセスとする）との間でデータ転送処理を行うときに実行される。図３に示すプロセス間通信処理では、第１プロセスが最初に通信対象の第２プロセスとの間で通信が可能か否かを判定する（３－１）。通信可能である場合（３－１で「真」の場合）、第１プロセスは、第１プロセスと第２プロセスとの間でデータ転送処理（３－１０）を行い、プロセス間通信処理を完了する。この場合、通信待合せは発生しないため、プロファイル情報の採取は行われない。

３－１において、通信対象の第２プロセスとの間でまだ通信が行えない状況と判定された場合（３－１で「偽」の場合）、通信待合せとなる。通信待合せ処理では、第１プロセスは、通信待合せを開始した時刻（Ｔ０）を参照する（３－２）。その後、第１プロセスは、現在時刻（Ｔ１）を参照しつつ、あらかじめ定めた一定時間を経過するまで（Ｔ１－Ｔ０＞一定時間となるまで）通信可能か否かの判定を続ける（３－３、３－４、３－５）。ここで、一定時間とは、通信処理時間と比較して十分小さな時間とする。

一定時間以内に通信可能となった場合は（３－３で「真」の場合は）、データ転送処理３－１０へと移行する。この場合、通信待合せは発生しているが、その通信待ちは十分小さいため、プロファイル情報の採取は行わない。

３－５において、待ち時間が一定時間を超えた場合（３－５で「真」の場合は）、第１プロセスは、プロファイル情報の採取を行う（３－６）。ここで、第１プロセスは、プロファイル情報として、通信相手の第２プロセスのメモリを参照し、そのスタック領域から、実行中のユーザルーチン、および、ユーザルーチンの呼び出し履歴の情報を得る。また、第１プロセスは、第２プロセスの性能カウンタ情報を採取する。

その後、第１プロセスは、通信可能となるまで待合せを継続し（３－７）、通信可能となった後、プロファイル情報の採取を行う（３－８）。続いて、第１プロセスは、３－９において、採取したプロファイル情報を例えば図示していない所定の記憶部に保存する。ここで、第１プロセスが、第２プロセス（および第１プロセス）が実行中のユーザルーチンおよび呼び出し履歴、さらに、３－６と３－８で採取した性能カウンタの差分を算出し、例えば図示していない所定の記憶部に保存する。図３に示すプロセス間通信処理では、性能カウンタの差分を採用することにより、当該プロセスが通信待合せを行っている間、通信相手プロセスがどの様な処理を行っていたかを判断することができる。第１プロセスは、最後にデータ転送処理３－１０を行い、プロセス間通信処理を完了する。

なお、実行カウンタおよび性能カウンタ群１－４とプロセスメモリ１－５への情報の書き込み（更新）は、例えば、プロセス１－２内の所定のプログラム、ノード１－１内でプロセス１－２等の実行を管理するオペレーティングシステム、ＣＰＵ１－３を制御するファームウェアやハードウェア等によって行うことができる。

第１実施形態によれば、分散並列処理に係るプロセス間通信処理における通信待ち合わせ時間の開始時と終了時にプロファイル情報と性能カウンタ情報を取得し、それらの情報やそれらの情報の差分を記憶するので、開始時と終了時に応じた情報を記憶することができる。

なお、第１実施形態における各構成と図１に示す各構成との対応関係は次のとおりである。図２に示すノード１－１が、図１に示す情報処理装置１０に対応する。図２に示すプロセス１－２が、図１に示す処理ユニット２０および２１に対応する。図２に示す実行カウンタおよび性能カウンタ群１－４とプロセスメモリ１－５が、図１に示す記憶領域２０－２および２１－２に対応する。図３に示す（３－６）、（３－８）および（３－９）の処理を実行するプロセス１－２内の構成（プログラム）が、図１に示す情報取得部２０－４および２１－４に対応する。図２に示す実行カウンタおよび性能カウンタ群１－４とプロセスメモリ１－５に記憶される情報（あるいは図３に示す（３－６）および（３－８）で採取される情報）が、図１に示す動作情報２０－３および２１－３に対応する。図３に示す（３－９）でプロファイル情報を保存する際の保存先が、図１に示す記憶部２０－５および２１－５に対応する。図２に示すノード１－１が有する実行カウンタおよび性能カウンタ群１－４とプロセスメモリ１－５に所定の情報を書き込む構成（プロセス１－２内のプログラム等）が、図１に示す動作情報記憶部２０－１および２１－１に対応する。

＜第２実施形態＞
次に、図４および図５を参照して、本発明の第２実施形態について説明する。図４は、本発明の第２実施形態に係る情報処理装置の構成例をノード１－１として示すブロック図である。また、図５は、図４に示すノード１－１の動作例を示すフローチャートである。

図４に示すノード１－１は、図２に示すノード１－１に対応する構成であり、サーバ、パーソナルコンピュータ、タブレット端末等のコンピュータ、あるいはそのコンピュータと周辺装置とを用いて構成することができる。また、ノード１－１は、複数のＣＰＵコア１－３と、それら全てのＣＰＵコア１－３からアクセス可能な共有メモリ１－６を有している。また、各ＣＰＵコア１－３はそれぞれ実行カウンタおよび性能カウンタ群１－４を有している。図４に示すノード１－１、ＣＰＵコア１－３、実行カウンタおよび性能カウンタ群１－４、および共有メモリ１－６の各構成は、図２に示す同一の符号を付けた各構成と同一である。

なお、第２実施形態において、複数のスレッド２－２から構成されるプロセス２－１は、共有並列プログラムを構成する。また、各スレッド２－２は、各ＣＰＵコア１－３によって実行され、共有メモリ１－６に確保されたプロセスメモリ２－３と、他のスレッド２－２を処理するＣＰＵコア１－３が有する実行カウンタおよび性能カウンタ群１－４とにアクセスすることができる。

次に、図５を参照して、図４に示すノード１－１の動作例として、スレッド間同期処理について説明する。図５に示す処理は、プロセス２－１のあるスレッド２－２（第１スレッドとする）が、他のスレッド２－２（第２スレッドとする）との間で同期を成立させるときに実行される。図５に示すスレッド間同期処理では、第１スレッドが、最初に同期対象の第２スレッドとの間で同期が成立しているか否かを判定する（４－１）。同期が成立している場合（４－１で「真」の場合）、第１スレッドはスレッド間同期処理を完了する。この場合、同期待合せは発生しないため、プロファイル情報の採取は行われない。

４－１において、同期対象の第２スレッドとの間でまだ同期が成立していないと判定された場合（４－１で「偽」の場合）、同期待合せとなる。同期待合せ処理では、第１スレッドは、同期待合せを開始した時刻（Ｔ０）を参照する（４－２）。その後、第１スレッドは、現在時刻（Ｔ１）を参照しつつ、あらかじめ定めた一定時間を経過するまで（Ｔ１－Ｔ０＞一定時間となるまで）同期成立か否かの判定を続ける（４－３、４－４、４－５）。ここで、一定時間とは、同期処理時間と比較して十分小さな時間とする。

一定時間以内に通信可能となった場合は（４－３で「真」の場合は）、第１スレッドはスレッド間同期処理を完了する。この場合、同期待合せは発生しているが、その同期待ちは十分小さい（一定時間以内の）ため、プロファイル情報の採取は行わない。

４－５において、待ち時間が一定時間を超えた場合（４－５で「真」の場合は）、第１スレッドは、プロファイル情報の採取を行う（４－６）。ここで、第１スレッドは、プロファイル情報として、同期相手の第２スレッドのメモリを参照し、そのスタック領域から、実行中のユーザルーチン、および、ユーザルーチンの呼び出し履歴の情報を得る。また、第１スレッドは、第２スレッドの性能カウンタ情報を採取する。

その後、第１スレッドは、同期が成立するまで待合せを継続し（４－７）、同期が成立した後、プロファイル情報の採取を行う（４－８）。続いて、第１プロセスは、４－９において、採取したプロファイル情報を例えば図示していない所定の記憶部に保存する。ここで、第１スレッドは、第２スレッド（および第１スレッド）が実行中のユーザルーチンおよび呼び出し履歴、さらに、４－６と４－８で採取した性能カウンタの差分を算出し、例えば図示していない所定の記憶部に保存する。図５に示すスレッド間同期処理では、性能カウンタの差分を採用することにより、当該スレッド（第１スレッド）が同期待合せを行っている間、同期対象スレッド（第２スレッド）がどの様な処理を行っていたかを判断することができる。第１スレッドは、４－９の後、スレッド間同期処理を完了する。

第２実施形態によれば、共有並列処理に係るスレッド間同期処理における同期待ち合わせ時間の開始時と終了時にプロファイル情報と性能カウンタ情報を取得し、それらの情報やそれらの情報の差分を記憶するので、開始時と終了時に応じた情報を記憶することができる。

なお、第２実施形態における各構成と図１に示す構成との対応関係は次のとおりである。図４に示すノード１－１が、図１に示す情報処理装置１０に対応する。図４に示すプロセス２－１が有するスレッド２－２が、図１に示す処理ユニット２０および２１に対応する。図４に示す実行カウンタおよび性能カウンタ群１－４とプロセスメモリ２－３が、図１に示す記憶領域２０－２および２１－２に対応する。図５に示す（４－６）および、（４－８）および（４－９）の処理を実行するスレッド２－２内の構成（プログラム）が、図１に示す情報取得部２０－４および２１－４に対応する。図４に示す実行カウンタおよび性能カウンタ群１－４とプロセスメモリ２－３に記憶される情報（あるいは図５に示す（４－６）および（４－８）で採取される情報）が、図１に示す動作情報２０－３および２１－３に対応する。図５に示す（４－９）でプロファイル情報を保存する際の保存先が、図１に示す記憶部２０－５および２１－５に対応する。図４に示すノード１－１が有する実行カウンタおよび性能カウンタ群１－４とプロセスメモリ２－３に所定の情報を書き込む構成（スレッド２－２内のプログラム等）が、図１に示す動作情報記憶部２０－１および２１－１に対応する。

＜第１実施形態と第２実施形態の他の効果等＞
上述したように、第１実施形態および第２実施形態では、分散並列プログラム（ＭＰＩ（ＭｅｓｓａｇｅＰａｓｓｉｎｇＩｎｔｅｒｆａｃｅ；メッセージパッシングインターフェース）プログラム等）、あるいは、共有並列プログラム（ＯｐｅｎＭＰ（ＯｐｅｎＭｕｌｔｉＰｒｏｃｅｓｓｉｎｇ）プログラム等）の実行において、分散並列プログラムの場合はプロセス間通信処理中に通信待合せが発生した場合、共有並列プログラムの場合はスレッド（あるいはタスク）間の同期待合せが発生した場合、さらに、それら通信待合せ、あるいは、同期待合せが一定時間以上継続した事を契機として、通信相手プロセス、あるいは、同期待合せ対象スレッドのプロファイル情報を採取する。この構成によれば、情報採取用の追加処理コードよる影響（実行命令数の増加、メモリアクセスの増加、分岐予測の成功率の変動、キャッシュメモリのヒット率およびミス率の挙動の変動）が無く、したがって、ユーザプログラムの挙動を正確に表現するプロファイル情報を採取することが出来る。また、情報採取用に追加資源（ＣＰＵコア、メモリなど）が不要であり、したがって、ユーザプログラムの実行を妨げない。また、通信待合わせ、あるいは、同期待合せの要因となる処理（すなわち、通信相手プロセスの処理内容、あるいは、同期待ちスレッドの処理内容）について、ピンポイントで情報を採取することができる。また、通信待合せ、あるいは、同期待合せの処理中に情報採取を行うため、ユーザプログラム実行性能に影響を与えない。

なお、第１実施形態と第２実施形態は、例えば、分散並列プログラムの最適化および高速化を目的としたプロファイリングや、共有並列プログラムの最適化および高速化を目的としたプロファイリング等に適用することができる。

図６は、本発明の一実施形態による情報処理装置の最小構成を示す図である。
図７は、本発明の一実施形態による最小構成の情報処理装置の処理フローを示す図である。
情報処理装置１０は、複数の処理ユニット（処理単位）を並列して処理する装置であって、図６に示すように、処理ユニット２０は、動作情報記憶部２０－１と、情報取得部２０－４とを含む。
動作情報記憶部２０－１は、他の処理単位が読み出し可能な記憶領域に自己の処理単位の動作状態に係る情報（以下、動作情報）を記憶する（ステップＳ７－１）。
情報取得部２０－４は、他の処理単位で所定の条件が成立するまでに所定の待ち合わせ時間が発生した場合に、その待ち合わせ時間の開始時と終了時に記憶領域から他の処理単位の動作情報を読み出し、読み出した動作情報に応じた情報を所定の記憶部に記憶する（ステップＳ７－２）。

以上、この発明の実施形態について図面を参照して説明してきたが、具体的な構成は上記実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。

また、上記実施形態でコンピュータが実行するプログラムの一部または全部は、コンピュータ読取可能な記憶媒体や通信回線を介して頒布することができる。

１－１ノード
１－２、２－１プロセス
１－３ＣＰＵコア
１－４実行カウンタおよび性能カウンタ群
１－５、２－３プロセスメモリ
１－６共有メモリ
１－７ノード間インタコネクト
２－２スレッド
１０情報処理装置
２０、２１処理ユニット（処理単位）
２０－１、２１－１動作情報記憶部
２０－２、２１－２記憶領域
２０－３、２１－３動作情報
２０－４、２１－４情報取得部
２０－５、２１－５記憶部

Claims

複数の処理単位を並列して処理する装置であって、
前記複数の処理単位のうちの自己の処理単位が、
他の処理単位が読み出し可能である前記自己の処理単位の記憶領域に前記自己の処理単位の動作状態に係る情報（以下、動作情報）を記憶する動作情報記憶部と、
前記自己の処理単位と前記他の処理単位との間で所定の条件が成立するまでに時間差がある場合に、前記時間差の開始時と終了時とにおいて、前記他の処理単位の記憶領域から前記他の処理単位の前記動作情報を読み出し、前記動作情報のうちの少なくとも一部を所定の記憶部に記憶する情報取得部と、を含み、
前記自己の処理単位の前記記憶領域と前記他の処理単位の前記記憶領域とは、互いに異なる、情報処理装置。
前記記憶領域が、前記自己の処理単位における実行中のユーザルーチンおよび前記ユーザルーチンの呼び出し履歴を格納するスタック領域を含み、
前記情報取得部が、他の前記処理単位における前記実行中のユーザルーチンおよび前記ユーザルーチンの呼び出し履歴を含む前記動作情報を読み出す
請求項１に記載の情報処理装置。
前記動作情報が、前記処理単位の動作状態に応じて変化する数値情報を含み、
前記情報取得部は、前記開始時の前記数値情報と前記終了時の前記数値情報の差分を前記記憶部に記憶する
請求項１または２に記載の情報処理装置。
前記処理単位が、プロセスまたはスレッドである
請求項１から３のいずれか１項に記載の情報処理装置。
前記他の処理単位が、前記自己の処理単位が読み出し可能である前記他の処理単位の記憶領域に前記他の処理単位の動作情報を記憶する動作情報記憶部を備える、請求項１に記載の情報処理装置。
複数の処理単位を並列して処理する方法であって、
前記複数の処理単位のうちの自己の処理単位において、
他の処理単位が読み出し可能である前記自己の処理単位の記憶領域に前記自己の処理単位の動作状態に係る情報（以下、動作情報）を記憶するステップと、
前記自己の処理単位と前記他の処理単位との間で所定の条件が成立するまでに時間差がある場合に、前記時間差の開始時と終了時とにおいて、前記他の処理単位の記憶領域から前記他の処理単位の前記動作情報を読み出し、前記動作情報のうち少なくとも一部を所定の記憶部に記憶するステップと、を含み、
前記自己の処理単位の前記記憶領域と前記他の処理単位の前記記憶領域とは、互いに異なる、情報処理方法。
複数の処理単位を並列して処理する際に、
前記複数の処理単位のうちの自己の処理単位において、
他の処理単位が読み出し可能である前記自己の処理単位の記憶領域に前記自己の処理単位の動作状態に係る情報（以下、動作情報）を記憶するステップと、
前記自己の処理単位と前記他の処理単位との間で所定の条件が成立するまでに時間差がある場合に、前記時間差の開始時と終了時とにおいて、前記他の処理単位の記憶領域から前記他の処理単位の前記動作情報を読み出し、前記動作情報のうち少なくとも一部を所定の記憶部に記憶するステップと、をコンピュータに実行させ、
前記自己の処理単位の前記記憶領域と前記他の処理単位の前記記憶領域とは、互いに異なる、プログラム。