JP7048890B2 - 情報処理装置、情報収集プログラム及び情報収集方法 - Google Patents

情報処理装置、情報収集プログラム及び情報収集方法 Download PDF

Info

Publication number
JP7048890B2
JP7048890B2 JP2018093706A JP2018093706A JP7048890B2 JP 7048890 B2 JP7048890 B2 JP 7048890B2 JP 2018093706 A JP2018093706 A JP 2018093706A JP 2018093706 A JP2018093706 A JP 2018093706A JP 7048890 B2 JP7048890 B2 JP 7048890B2
Authority
JP
Japan
Prior art keywords
information
processes
communication
load
stores
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018093706A
Other languages
English (en)
Other versions
JP2019200517A (ja
Inventor
滉一 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018093706A priority Critical patent/JP7048890B2/ja
Publication of JP2019200517A publication Critical patent/JP2019200517A/ja
Application granted granted Critical
Publication of JP7048890B2 publication Critical patent/JP7048890B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、情報処理装置、情報収集プログラム及び情報収集方法に関する。
近年、HPC(High Performance Computing)等において用いられるファームウエアを搭載する組み込み機器(以下、コントローラとも呼ぶ)は、従来よりも低コストでの製造が要求されている。そのため、このような組み込み機器には、製造コストを抑制する必要性から、各種処理を行うために最低限必要なメモリのみが搭載される場合がある(例えば、特許文献1及び2参照)。
特開2015-001755号公報 特開2009-075992号公報
ここで、上記のようなファームウエアによって生成されたプロセスにおいて障害が発生した場合、障害の調査を行う担当者(以下、単に担当者とも呼ぶ)は、例えば、コントローラ内で動作するオペレーティングシステム(以下、OSとも呼ぶ)から出力されるコアダンプを参照することにより、発生した障害の原因究明を行う。
しかしながら、例えば、コントローラに搭載されているメモリの量が不十分であり、コアダンプを保存することができない場合、コントローラ(コントローラで動作するOS)は、コアダンプの生成及び保存を行うことができない。
また、コントローラにおけるコアダンプの生成は、その処理負担からコントローラにおける他の処理の動作に影響を及ぼす場合がある。そのため、例えば、他の処理の動作にリアルタイム性が要求されている場合、コントローラは、十分な量のメモリが搭載されている場合であってもコアダンプの生成を行うことができない。
そのため、担当者は、これらの場合、コアダンプを参照することができず、発生した障害の原因究明を行うことができない。
そこで、一つの側面では、本発明は、障害の原因究明を行うことを可能とする情報処理装置、情報収集プログラム及び情報収集方法を提供することを目的とする。
実施の形態の一態様では、ファームウエアによって生成される複数のプロセスに関する情報を収集する情報処理装置は、複数のプロセスのうちの第1プロセスにおける障害の発生を検知した場合、複数のプロセスによる処理負荷の状態を示す負荷情報を記憶した記憶部を参照し、複数のプロセスに、負荷状態が所定の状態である第2プロセスが存在するか否かを判定する負荷判定部と、第2プロセスが存在すると判定した場合、複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、複数のプロセスに対応する動作情報のうち、第1プロセス及び第2プロセスの動作情報を出力する情報出力部と、を有する。
一つの側面によれば、障害の原因究明を行うことを可能とする。
図1は、コントローラ1の構成を説明する図である。 図2は、コントローラ1におけるハードウエア13の構成を示す図である。 図3は、コントローラ1の機能のブロック図である。 図4は、第1の実施の形態における情報収集処理の概略を説明するフローチャート図である。 図5は、第1の実施の形態における情報収集処理の概略を説明する図である。 図6は、第1の実施の形態における情報収集処理の概略を説明する図である。 図7は、第1の実施の形態における情報収集処理の概略を説明する図である。 図8は、第1の実施の形態における情報収集処理の詳細を説明するフローチャート図である。 図9は、第1の実施の形態における情報収集処理の詳細を説明するフローチャート図である。 図10は、第1の実施の形態における情報収集処理の詳細を説明するフローチャート図である。 図11は、第1の実施の形態における情報収集処理の詳細を説明するフローチャート図である。 図12は、第1の実施の形態における情報収集処理の詳細を説明するフローチャート図である。 図13は、第1の実施の形態における情報収集処理の詳細を説明するフローチャート図である。 図14は、第1の実施の形態における情報収集処理の詳細を説明するフローチャート図である。 図15は、退避情報151の具体例を説明する図である。 図16は、退避情報151の具体例を説明する図である。 図17は、退避情報151の具体例を説明する図である。 図18は、退避情報151の具体例を説明する図である。 図19は、負荷情報141の具体例を説明する図である。 図20は、通信情報142の具体例を説明する図である。
[情報処理システムの構成]
図1は、コントローラ1の構成を説明する図である。
図1に示すコントローラ1(以下、情報処理装置1とも呼ぶ)は、物理マシン100内に取り付けられた組み込み機器である。図1に示すコントローラ1では、CPUやメモリ等のハードウエア13と各種プログラムとが有機的に協働することによって、OS11やファームウエア12として動作する。
図1に示すファームウエア12では、例えば、物理マシン100のハードウエア(図示しない)の動作を制御するためのプロセスPSa、プロセスPSb及びプロセスPSc(以下、これらを総称して単にプロセスPSとも呼ぶ)が動作している。そして、各プロセスPSは、例えば、物理マシン100のハードウエアの動作を制御するための各種処理の実行に応じて、その実行状態を示す動作情報131を情報格納領域130に出力(記憶)する。
ここで、プロセスPSa、プロセスPSb及びプロセスPScのうちのいずれかにおいて所定の障害が発生した場合、OS11は、障害が発生したプロセスPSの強制終了を行う前に、コアダンプの生成を行う。これにより、担当者は、発生した障害の原因究明を行う際に、生成されたコアダンプの参照を行うことが可能になる。
しかしながら、例えば、コントローラ1に搭載されているメモリの量が不十分であり、コアダンプを保存することができない場合、OS11は、コアダンプの生成を行うことができない。
また、コントローラ1におけるコアダンプの生成は、膨大な時間を要するため、コントローラ1において実行される他の処理に影響を及ぼす場合がある。したがって、動作のリアルタイム性が要求されている場合、OS11は、十分な量のメモリが搭載されている場合であってもコアダンプの生成を行うことができない。
そのため、担当者は、これらの場合、コアダンプを参照することができず、発生した障害の原因究明を行うことができない。
そこで、本実施の形態におけるコントローラ1は、ファームウエア12によって生成されたプロセスPS(以下、第1プロセスPS1とも呼ぶ)における障害の発生を検知した場合、各プロセスPSによる処理負荷の状態を示す負荷情報を記憶した記憶部を参照し、ファームウエア12によって生成されたプロセスPSに、負荷状態が所定の状態であるプロセスPS(以下、第2プロセスPS2)が存在するか否かを判定する。
そして、第2プロセスPS2が存在すると判定した場合、コントローラ1は、各プロセスPSの動作状態を示す動作情報131を記憶した記憶部を参照し、各プロセスPSに対応する動作情報131のうち、第1プロセスPS1及ぶ第2プロセスPS2の動作情報131を出力する。
すなわち、ファームウエア12は、第1プロセスPS1における障害の発生を検知した場合、OS11によるコアダンプの生成に代わって、ファームウエア12が定常的に出力している動作情報131の一部を収集する。
これにより、コントローラ1は、コアダンプを生成することができない場合であっても、コアダンプに含まれる情報の少なくとも一部に相当する情報である情報を出力することが可能になる。そのため、担当者は、OS11がコアダンプを生成できない場合であっても、第1プロセスPS1において発生した障害の原因究明を行うことが可能になる。
また、ファームウエア12は、例えば、障害が発生した第1プロセスPS1の動作がOS11によって停止される前に、動作情報131の出力を行う。
これにより、コントローラ1は、障害が発生した第1プロセスPS1が動作を停止する前の状態に対応する動作情報131を、第1プロセスが動作を停止した後の動作情報131等によって上書きされる前に出力することが可能になる。そのため、担当者は、第1プロセスPS1において発生した障害の原因究明を精度良く行うことが可能になる。
さらに、ファームウエア12は、例えば、ファームウエア12によって生成されたプロセスPSのうち、第1プロセスPS1及び第1プロセスPS1と関連性が高いと判定できる第2プロセスPS2の動作情報131の出力を行う。
これにより、コントローラ1は、動作情報131の収集を行うために、障害の発生に伴う後続処理の実行を待機させる時間を短縮することが可能になる。そのため、コントローラ1は、動作情報131の収集が他の処理に及ぼす影響を抑えることが可能になる。
[コントローラのハードウエア構成]
次に、コントローラ1におけるハードウエア13の構成について説明する。図2は、コントローラ1におけるハードウエア13の構成を示す図である。
ハードウエア13は、プロセッサであるCPU101と、メモリ102と、外部インターフェース(I/Oユニット)103と、記憶媒体104とを有する。各部は、バス105を介して互いに接続される。
記憶媒体104は、例えば、各プロセスPSの動作情報131の一部を収集する処理(以下、情報収集処理とも呼ぶ)を行うためのプログラム110を記憶するプログラム格納領域(図示しない)を有する。また、記憶媒体104は、例えば、情報収集処理を行う際に用いられる情報を記憶する情報格納領域130(以下、記憶部130とも呼ぶ)、情報格納領域140(以下、記憶部140とも呼ぶ)及び情報格納領域150(以下、記憶部150とも呼ぶ)を有する。なお、記憶媒体104は、例えば、HDD(Hard Disk Drive)であってよい。
CPU101は、記憶媒体104からメモリ102にロードされたプログラム110を実行して情報収集処理を行う。
外部インターフェース103は、例えば、図1で説明した物理マシン100のハードウエア等と通信を行う。
[コントローラの機能]
次に、コントローラ1の機能について説明を行う。図3は、コントローラ1の機能のブロック図である。
コントローラ1は、CPU101やメモリ102等のハードウエア13とプログラム110とが有機的に協働することにより、ファームウエア12の機能として、情報管理部111と、障害検知部112と、負荷判定部113と、通信判定部114と、情報出力部115とを含む各種機能を実現する。なお、以下、情報管理部111、障害検知部112、負荷判定部113、通信判定部114及び情報出力部115を総称して情報収集部110とも呼ぶ。
そして、コントローラ1は、図3に示すように、動作情報131と、負荷情報141と、通信情報142と、退避情報151とを記憶する。具体的に、コントローラ1は、動作情報131を情報格納領域130に記憶する。また、コントローラ1は、負荷情報141と、通信情報142とを情報格納領域140に記憶する。さらに、コントローラ1は、退避情報151を情報格納領域150に記憶する。
情報管理部111は、例えば、ファームウエア12によって生成された各プロセスPSが、物理マシン100のハードウエアの動作を制御するための各種処理を実行するごとに、実行した処理の内容を示す動作情報131を生成する。そして、情報管理部111は、生成した動作情報131を情報格納領域130に記憶する。
また、情報管理部111は、ファームウエア12によって生成された各プロセスPSの負荷状態を示す負荷情報141を生成する。そして、情報管理部111は、生成した負荷情報141を情報格納領域140に記憶する。
さらに、情報管理部111は、ファームウエア12によって生成されたプロセスPS間における通信の状態を示す通信情報142を生成する。そして、情報管理部111は、生成した通信情報142を情報格納領域140に記憶する。
障害検知部112は、ファームウエア12によって生成されたプロセスPSにおける障害の発生を検知する。具体的に、障害検知部112は、障害が発生したプロセスPSから、障害が発生したことを示す通知(以下、障害発生通知とも呼ぶ)を受け付けるまで待機する。
負荷判定部113は、例えば、障害検知部112が障害発生通知を受け付けた場合、負荷情報131を記憶した情報格納領域130を参照し、ファームウエア12によって生成されたプロセスPSに、負荷状態が所定の状態である第2プロセスPS2が存在するか否かを判定する。具体的に、負荷判定部113は、例えば、CPU101に過半以上の負荷をかけている第2プロセスPS2が存在するか否かを判定する。
通信判定部114は、例えば、第2プロセスPS2が存在しないと負荷判定部113によって判定された場合、プロセスPS間における通信の状態を示す通信情報142を記憶した情報格納領域130を参照し、ファームウエア12によって生成されたプロセスPSに、障害が発生したことを障害検知部112が検知した第1プロセスPS1と通信中であるプロセスPS(以下、第3プロセスPS3とも呼ぶ)が存在するか否かを判定する。
情報出力部115は、例えば、第2プロセスが存在すると負荷判定部113によって判定された場合、動作情報131を記憶した情報格納領域130を参照し、各プロセスPSに対応する動作情報131のうち、第1プロセスPS1及ぶ第2プロセスPS2の動作情報131を出力する。具体的に、情報出力部115は、この場合、第1プロセスPS1及ぶ第2プロセスPS2の動作情報131を、退避情報151として情報格納領域150に記憶(退避)する。
また、情報出力部115は、例えば、第2プロセスが存在しないと負荷判定部113によって判定された場合であって、第3プロセスが存在すると通信判定部114によって判定された場合、動作情報131を記憶した情報格納領域130を参照し、各プロセスPSに対応する動作情報131のうち、第1プロセスPS1及び第3プロセスPS3の動作情報131を出力する。具体的に、情報出力部115は、この場合、第1プロセスPS1及ぶ第3プロセスPS3の動作情報131を、退避情報151として情報格納領域150に記憶(退避)する。
[第1の実施の形態の概略]
次に、第1の実施の形態の概略について説明する。図4は、第1の実施の形態における情報収集処理の概略を説明するフローチャート図である。また、図5から図7は、第1の実施の形態における情報収集処理の概略を説明する図である。
ファームウエア12は、図4に示すように、第1プロセスPS1における障害の発生を検知するまで待機する(S1のNO)。
そして、第1プロセスPS1における障害の発生を検知した場合(S1のYES)、ファームウエア12は、複数のプロセスPSによる処理負荷の状態を示す負荷情報141を記憶した情報格納領域130を参照し、複数のプロセスPSに、負荷状態が所定の状態である第2プロセスPS2が存在するか否かを判定する(S2)。
具体的に、ファームウエア12(情報収集部110)は、例えば、図5に示すように、プロセスPSaからの障害発生通知を受け付けることによってプロセスPSaにおける障害の発生を検知した場合、負荷状態が所定の状態であるプロセスPSが存在するか否かを判定する。
その結果、第2プロセスPS2が存在すると判定した場合(S3のYES)、ファームウエア12は、複数のプロセスPSの動作状態を示す動作情報131を記憶した情報格納領域130を参照し、複数のプロセスPSに対応する動作情報131のうち、第1プロセスPS1及ぶ第2プロセスPS2の動作情報131を出力する(S4)。
一方、第2プロセスPS2が存在しないと判定した場合(S3のNO)、ファームウエア12は、S4の処理を行わない。
具体的に、例えば、図5に示すように、負荷状態が所定の状態であるプロセスPScが存在すると判定した場合、ファームウエア12は、図6に示すように、障害が発生したプロセスPSa及び負荷状態が所定の状態であるプロセスPScについての動作情報131を、退避情報151として情報格納領域150に退避する。
その後、退避情報151の退避が完了した後、OS11は、図7に示すように、障害が発生したプロセスPSaを終了させる。
すなわち、ファームウエア12は、第1プロセスPS1における障害の発生を検知した場合、OS11によるコアダンプの生成に代わって、ファームウエア12が定常的に出力している動作情報131の一部を収集する。
これにより、コントローラ1は、コアダンプを生成することができない場合であっても、コアダンプに含まれる情報の少なくとも一部に相当する情報である情報を出力することが可能になる。そのため、担当者は、OS11がコアダンプを生成できない場合であっても、第1プロセスPS1において発生した障害の原因究明を行うことが可能になる。
また、ファームウエア12は、例えば、障害が発生した第1プロセスPS1の動作がOS11によって停止される前に、動作情報131の出力を行う。
これにより、コントローラ1は、障害が発生した第1プロセスPS1が動作を停止する前の状態に対応する動作情報131を、第1プロセスPS1が動作を停止した後の動作情報131によって上書きされる前に出力することが可能になる。そのため、担当者は、第1プロセスPS1において発生した障害の原因究明を精度良く行うことが可能になる。
さらに、ファームウエア12は、例えば、ファームウエア12によって生成されたプロセスPSのうち、第1プロセスPS1及び第1プロセスPS1と関連性が高いと判定できる第2プロセスPS2の動作情報131の出力を行う。
これにより、コントローラ1は、動作情報131の収集を行うために、障害の発生に伴う後続処理の実行を待機させる時間を短縮することが可能になる。そのため、コントローラ1は、動作情報131の収集が他の処理に及ぼす影響を抑えることが可能になる。
[第1の実施の形態の詳細]
次に、第1の実施の形態の詳細について説明する。図8から図14は、第1の実施の形態における情報収集処理の詳細を説明するフローチャート図である。また、図15から図20は、第1の実施の形態における情報収集処理の詳細を説明する図である。
[負荷情報を参照する場合の情報収集処理]
初めに、負荷情報141を参照することによって行われる情報収集処理の詳細について説明を行う。
ファームウエア12の障害検知部112は、図8に示すように、プロセスPSのうちのいずれかから障害発生通知を受け付けるまで待機する(S11のNO)。
そして、障害発生通知を受け付けた場合(S11のYES)、障害検知部112は、例えば、OS11に対し、S11の処理で受け付けた障害発生通知を送信したプロセスPS(第1プロセスPS1)を終了させる処理の実行を中止する旨の指示を送信する(S12)。
続いて、情報管理部111は、例えば、S11の処理で受け付けた障害発生通知に含まれるプロセスIDを取得する(S13)。具体的に、情報管理部111は、S11の処理で受け付けた障害発生通知を送信したプロセスのプロセスIDを取得する。
その後、ファームウエア12の情報管理部111は、情報格納領域130に記憶された動作情報131のうち、S13の処理で取得したプロセスIDに対応する情報を特定する(S14)。
そして、ファームウエア12の情報出力部115は、S14の処理で特定した情報を退避情報151として出力(退避)する(S15)。具体的に、情報出力部115は、情報格納領域130に記憶された動作情報131のうち、S13の処理で取得したプロセスIDに対応する情報を、情報格納領域130とは異なる領域である情報格納領域150に退避する。
すなわち、情報出力部115は、OS11が障害発生通知を送信したプロセスPSを終了する前に、動作情報131の退避を行う。
これにより、コントローラ1は、障害が発生したプロセスPS1が動作を停止する前の状態に対応する動作情報131を、そのプロセスPSが動作を停止した後の動作情報131によって上書きされる前に出力することが可能になる。そのため、担当者は、第1プロセスPS1において発生した障害の原因究明を精度良く行うことが可能になる。以下、退避情報151(動作情報131の一部)の具体例について説明を行う。
[退避情報の具体例]
図15から図18は、退避情報151の具体例を説明する図である。具体的に、図15は、障害発生通知を送信したプロセスPSの起動に用いられたコマンドラインを示す第1退避情報151aの具体例を説明する図である。また、図16は、障害発生通知を送信したプロセスPSに関連する実行可能ファイル及びライブラリファイルのメモリマップを示す第2退避情報151bの具体例を説明する図である。また、図17は、障害発生通知を送信したプロセスPSの状態(メモリ102の使用状態)を示す第3退避情報151cの具体例を説明する図である。さらに、図18は、障害発生通知を送信したプロセスPSの待ち状態を示す第4退避情報151dの具体例を説明する図である。
なお、以下、S11の処理において、「プロセス名」が「PSa」であって「プロセスID」が「3515」であるプロセスPSから障害発生通知が送信されたものとして説明を行う。
[第1退避情報の具体例]
初めに、第1退避情報151aの具体例について説明を行う。
図15に示す第1退避情報151aは、第1退避情報151aに含まれる各情報を識別する「項番」と、障害発生通知を送信したプロセスPSの起動に用いられたコマンドラインのファイルパスが設定される「内容」とを項目として有する。
具体的に、図15に示す第1退避情報151aにおいて、「項番」が「1」である情報には、「内容」として「/user/local/bin/XXXXX」が設定されている。
[第2退避情報の具体例]
次に、第2退避情報151bの具体例について説明を行う。
図16に示す第2退避情報151bは、第2退避情報151bに含まれる各情報を識別する「項番」と、障害発生通知を送信したプロセスPSに関連する実行可能ファイル及びライブラリファイルのメモリマップの内容(各ファイルの格納位置やアクセス権等を含む情報)が設定される「内容」とを項目として有する。
具体的に、図16に示す第2退避情報151bにおいて、「項番」が「1」である情報には、「内容」として「08048000-08056000 r-xp 00000000 03:0c 64593 /usr/sbin/gpm」が設定され、「項番」が「2」である情報には、「内容」として「08056000-08058000 rw-p 0000d000 03:0c 64593 /usr/sbin/gpm」が設定され、「項番」が「3」である情報には、「内容」として「08058000-0805b000 rwxp 00000000 00:00 0」が設定されている。
また、図16に示す第2退避情報151bにおいて、「項番」が「4」である情報には、「内容」として「40000000-40013000 r-xp 00000000 03:0c 4165 /lib/ld-2.2.4.so」が設定され、「項番」が「5」である情報には、「内容」として「40013000-40015000 rw-p 00012000 03:0c 4165 /lib/ld-2.2.4.so」が設定され、「項番」が「6」である情報には、「内容」として「4001f000-40135000 r-xp 00000000 03:0c 45494 /lib/ld-2.2.4.so」が設定されている。
さらに、図16に示す第2退避情報151bにおいて、「項番」が「7」である情報には、「内容」として「40135000-4013e000 rw-p 00115000 03:0c 45494 /lib/ld-2.2.4.so」が設定され、「項番」が「8」である情報には、「内容」として「4013e000-40142000 rw-p 00000000 00:00 0」が設定されている。図16に含まれる他の情報についての説明は省略する。
[第3退避情報の具体例]
次に、第3退避情報151cの具体例について説明を行う。
図17に示す第3退避情報151cは、第3退避情報151cに含まれる各情報を識別する「項番」と、障害発生通知を送信したプロセスPSの状態の項目名が設定される「項目名」と、障害発生通知を送信したプロセスPSの状態を示す情報が設定される「内容」とを項目として有する。
具体的に、図17に示す第3退避情報151cにおいて、「項番」が「1」である情報には、「項目名」として、障害発生通知を送信したプロセスPSの現在の動作状態を示す「State」が設定され、「内容」として「Sleeping」が設定されており、「項番」が「2」である情報には、「項目名」として、障害発生通知を送信したプロセスPSのIDを示す「Tgid」が設定され、「内容」として「3515」が設定されている。
また、図17に示す第3退避情報151cにおいて、「項番」が「3」である情報には、「項目名」として、障害発生通知を送信したプロセスPSの親プロセスPSのIDを示す「PPid」が設定され、「内容」として「3452」が設定されており、「項番」が「4」である情報には、「項目名」として、障害発生通知を送信したプロセスPSのトレースを行っているプロセスのIDを示す「TracerPid」が設定され、「内容」として「0」が設定されている。
さらに、図17に示す第3退避情報151cにおいて、「項番」が「5」である情報には、「項目名」として、メモリ102における仮想メモリサイズを示す「VmSize」が設定され、「内容」として「7896(KB)」が設定されており、「項番」が「6」である情報には、「項目名」として、メモリ102における実メモリ上に存在するページサイズを示す「VmRSS」が設定され、「内容」として「6316(KB)」が設定されている。図17に含まれる他の情報についての説明は省略する。
[第4退避情報の具体例]
次に、第4退避情報151dの具体例について説明を行う。
図18に示す第4退避情報151dは、第4退避情報151dに含まれる各情報を識別する「項番」と、障害発生通知を送信したプロセスPSが発生を待っているイベントを示す情報が設定される「内容」とを項目として有する。
具体的に、図18に示す第4退避情報151dにおいて、「項番」が「1」である情報には、「内容」として「poll_schedule_timeout」が設定されている。
なお、S14の処理において出力される退避情報151は、図15から図18で説明した情報の他、例えば、障害発生通知を送信したプロセスPSに対応するメモリ102内のページの内容を示す情報等を含むものであってよい。
図8に戻り、ファームウエア12の負荷判定部113は、ファームウエア12によって生成された各プロセスPSの負荷を示す負荷情報141を取得する(S16)。具体的に、負荷判定部113は、例えば、CPU101等にアクセスすることによって負荷情報141の取得を行う。そして、情報管理部111は、例えば、S16の処理において負荷判定部113が取得した負荷情報141を情報格納領域140に記憶する。以下、負荷情報141の具体例について説明を行う。
[負荷情報の具体例]
次に、負荷情報141の具体例について説明を行う。図19は、負荷情報141の具体例を説明する図である。
図19に示す負荷情報141は、負荷情報141に含まれる各情報を識別する「項番」と、プロセスIDが設定される「プロセスID」と、「プロセスID」に対応するプロセスPSのプロセス名が設定される「プロセス名」と、「プロセスID」に対応するプロセスPSによるCPU101の使用率が設定される「CPU使用率」とを項目として有する。
具体的に、図19に示す負荷情報141において、「項番」が「1」である情報には、「プロセスID」として「3515」が設定され、「プロセス名」として「PSa」が設定され、「CPU使用率」として「12(%)」が設定されている。
また、図19に示す負荷情報141において、「項番」が「2」である情報には、「プロセスID」として「3821」が設定され、「プロセス名」として「PSb」が設定され、「CPU使用率」として「53(%)」が設定されている。図19に含まれる他の情報についての説明は省略する。
図9に戻り、負荷判定部113は、負荷が所定の状態であるプロセスPS(第2プロセスPS2)が存在するか否かを判定する(S21)。
具体的に、負荷判定部113は、例えば、図19で説明した負荷情報141を参照し、「CPU使用率」に「50(%)」以上の値が設定されている情報が存在するか否かを判定する。
その結果、負荷が所定の状態であるプロセスPSが存在すると判定した場合(S21のYES)、情報管理部111は、S16の処理で取得した負荷情報141を参照し、S21の処理で存在すると判定したプロセスPSに対応するプロセスIDを取得する(S22)。
具体的に、図19で説明した負荷情報141において、「プロセスID」が「3821」である情報(「項番」が「2」である情報)の「CPU使用率」には、「53(%)」が設定されている。そのため、情報管理部111は、S22の処理において、例えば、「3821」を取得する。
続いて、情報管理部111は、情報格納領域130に記憶された動作情報131のうち、S22の処理で取得したプロセスIDに対応する情報を特定する(S23)。
すなわち、情報管理部111は、S22の処理において取得したプロセスIDに対応するプロセスPSについての退避情報151(例えば、図15から図18で説明した退避情報151と同様の情報)を特定する。
その後、情報出力部115は、S23の処理で特定した情報を退避情報151として出力する(S24)。
そして、情報出力部115は、例えば、OS11に対し、S11の処理で受け付けた障害発生通知を送信したプロセスPSを終了させる処理の実行を再開する旨の指示を送信する(S25)。なお、情報出力部115は、S21の処理において、負荷が所定の状態であるプロセスPSが存在しないと判定した場合についても同様に(S21のNO)、S25の処理を行う。
すなわち、情報出力部115は、例えば、ファームウエア12によって生成された全てのプロセスPSの動作情報131ではなく、障害発生通知を送信したプロセスPS(第1プロセスPS1)と、障害発生通知を受け付けた際に高負荷であったプロセスPS(第2プロセスPS2)についての動作情報131の出力を行う。
これにより、コントローラ1は、動作情報131の収集を行うために、障害の発生に伴う後続処理の実行を待機させる時間を短縮することが可能になる。そのため、コントローラ1は、動作情報131の収集が他の処理に及ぼす影響を抑えることが可能になる。
[通信情報を参照する場合の情報収集処理]
次に、通信情報142を参照することによって行われる情報収集処理の詳細について説明を行う。
障害検知部112は、図10に示すように、プロセスPSのうちのいずれかから障害発生通知を受け付けるまで待機する(S31のNO)。
そして、障害発生通知を受け付けた場合(S31のYES)、障害検知部112は、例えば、OS11に対し、S31の処理で受け付けた障害発生通知を送信したプロセスPS(第1プロセスPS1)を終了させる処理の実行を中止する旨の指示を送信する(S32)。
続いて、情報管理部111は、例えば、S31の処理で受け付けた障害発生通知に含まれるプロセスIDを取得する(S33)。
その後、情報管理部111は、情報格納領域130に記憶された動作情報131のうち、S33の処理で取得したプロセスIDに対応する情報を特定する(S34)。
そして、情報出力部115は、S34の処理で特定した情報を退避情報151として出力(退避)する(S35)。
さらに、ファームウエア12の通信判定部114は、情報格納領域140に記憶された通信情報142を参照し、S33の処理で取得したプロセスIDに対応するプロセスPSと通信中であるプロセスPSが存在するか否かを判定する(S36)。
ここで、通信情報142は、例えば、各プロセスPSがそれぞれ生成して予め情報格納領域140に記憶するものであってよい。
具体的に、各プロセスPSは、例えば、自プロセスPSの動作の開始に応じて、自プロセスPSのプロセスID及びプロセス名を含む情報を通信情報142として情報格納領域140に記憶するものであってよい。また、各プロセスPSは、例えば、他のプロセスPSとの通信を開始したことに応じて、自プロセスPSと通信を開始した他のプロセスPSのプロセスID及びプロセス名を含む情報を通信情報142として情報格納領域140に記憶するものであってよい。また、各プロセスPSは、例えば、他のプロセスPSとの通信が終了したことに応じて、自プロセスPSとの通信が終了した他のプロセスPSのプロセスID及びプロセス名を含む通信情報142を情報格納領域140から削除するものであってよい。さらに、各プロセスPSは、例えば、自プロセスPSの動作の終了に応じて、自プロセスPSのプロセスID及びプロセス名を含む通信情報142を情報格納領域140から削除するものであってよい。以下、通信情報142の具体例について説明を行う。
[通信情報の具体例]
図20は、通信情報142の具体例を説明する図である。具体的に、図20は、S31の処理で受け付けた障害発生通知を送信したプロセスPSが記憶した通信情報142の具体例を説明する図である。
図20に示す通信情報142は、通信情報142に含まれる各情報を識別する「項番」と、プロセスIDが設定される「プロセスID」と、「プロセスID」に対応するプロセスPSのプロセス名が設定される「プロセス名」とを項目として有する。
具体的に、図20に示す通信情報142において、「項番」が「1」である情報には、「プロセスID」として「3515」が設定され、「プロセス名」として「PSa」が設定されている。また、図20に示す通信情報142において、「項番」が「2」である情報には、「プロセスID」として「3156」が設定され、「プロセス名」として「PSd」が設定されている。さらに、図20に示す通信情報142において、「項番」が「3」である情報には、「プロセスID」として「3091」が設定され、「プロセス名」として「PSf」が設定されている。
すなわち、図20に示す通信情報142は、S31の処理で受け付けた障害発生通知を送信したプロセスPS(プロセスIDが「3515」であるプロセスPS)と通信中であったプロセスPSのプロセスIDが、「3156」及び「3091」であったことを示している。
図11に戻り、通信判定部114は、S31の処理で受け付けた障害発生通知を送信したプロセスPSと通信中であると判定したプロセスPS(第3プロセスPS3)が存在するか否かを判定する(S41)。
その結果、S31の処理で受け付けた障害発生通知を送信したプロセスPSと通信中であると判定したプロセスPSが存在すると判定した場合(S41のYES)、情報管理部111は、情報格納領域140に記憶された通信情報142を参照し、S41の処理で存在すると判定したプロセスPSに対応するプロセスIDを取得する(S42)。
続いて、情報管理部111は、情報格納領域130に記憶された動作情報131のうち、S42の処理で取得したプロセスIDに対応する情報を特定する(S43)。
すなわち、情報管理部111は、S42の処理において取得したプロセスIDに対応するプロセスについての退避情報151(例えば、図15から図18で説明した退避情報151と同様の情報)を特定する。
その後、情報出力部115は、S43の処理で特定した情報を退避情報151として出力する(S44)。
そして、情報出力部115は、例えば、OS11に対し、S31の処理で受け付けた障害発生通知を送信したプロセスPSを終了させる処理の実行を再開する旨の指示を送信する(S45)。なお、情報出力部115は、S41の処理において、S31の処理で受け付けた障害発生通知を送信したプロセスPSと通信中であったと判定したプロセスPSが存在しないと判定した場合についても同様に(S41のNO)、S45の処理を行う。
すなわち、情報出力部115は、ファームウエア12によって生成された全てのプロセスPSの動作情報131ではなく、障害発生通知を送信したプロセスPS(第1プロセスPS1)と、障害発生通知を送信したプロセスPSと通信を行っていたプロセスPS(第3プロセスP3)についての動作情報131の出力を行う。
これにより、コントローラ1は、動作情報131の収集を行うために、障害の発生に伴う後続処理の実行を待機させる時間を短縮することが可能になる。そのため、コントローラ1は、動作情報131の収集が他の処理に及ぼす影響を抑えることが可能になる。
[負荷情報及び通信情報を参照する場合の情報収集処理]
次に、負荷情報141及び通信情報142を参照することによって行われる情報収集処理の詳細について説明を行う。
障害検知部112は、図12に示すように、プロセスPSのうちのいずれかから障害発生通知を受け付けるまで待機する(S51のNO)。
そして、障害発生通知を受け付けた場合(S51のYES)、障害検知部112は、例えば、OS11に対し、S51の処理で受け付けた障害発生通知を送信したプロセスPS(第1プロセスPS1)を終了させる処理の実行を中止する旨の指示を送信する(S52)。
続いて、情報管理部111は、例えば、S51の処理で受け付けた障害発生通知に含まれるプロセスIDを取得する(S53)。
そして、情報管理部111は、情報格納領域130に記憶された動作情報131のうち、S53の処理で取得したプロセスIDに対応する情報を特定する(S54)。
その後、ファームウエア12の情報出力部115は、S14の処理で特定した情報を退避情報151として出力(退避)する(S55)。
次に、負荷判定部113は、ファームウエア12によって生成された各プロセスPSの負荷を示す負荷情報141を取得する(S56)。そして、情報管理部111は、例えば、S56の処理において負荷判定部113が取得した負荷情報141を情報格納領域140に記憶する。
その後、負荷判定部113は、図13に示すように、負荷が所定の状態であるプロセスPS(第2プロセスPS2)が存在するか否かを判定する(S61)。
その結果、負荷が所定の状態であるプロセスPSが存在すると判定した場合(S61のYES)、情報管理部111は、S56の処理で取得した負荷情報141を参照し、S61の処理で存在すると判定したプロセスPSに対応するプロセスIDを取得する(S62)。
続いて、情報管理部111は、情報格納領域130に記憶された動作情報131のうち、S62の処理で取得したプロセスIDに対応する情報を特定する(S63)。
その後、情報出力部115は、S63の処理で特定した情報を退避情報151として出力する(S64)。
そして、情報出力部115は、例えば、OS11に対し、S11の処理で受け付けた障害発生通知を送信したプロセスPSを終了させる処理の実行を再開する旨の指示を送信する(S65)。
一方、S61の処理において、負荷が所定の状態であるプロセスPSが存在しないと判定した場合(S61のNO)、通信判定部114は、図14に示すように、S51の処理で受け付けた障害発生通知を送信したプロセスPSと通信中であったと判定したプロセスPS(第3プロセスPS3)が存在するか否かを判定する(S71)。
その結果、S51の処理で受け付けた障害発生通知を送信したプロセスPSと通信中であったと判定したプロセスPSが存在すると判定した場合(S71のYES)、情報管理部111は、情報格納領域140に記憶された通信情報142を参照し、S71の処理で存在すると判定したプロセスPSに対応するプロセスIDを取得する(S72)。
続いて、情報管理部111は、情報格納領域130に記憶された動作情報131のうち、S72の処理で取得したプロセスIDに対応する情報を特定する(S73)。
その後、情報出力部115は、S73の処理で特定した情報を退避情報151として出力する(S74)。
そして、S74の処理の後、または、S71の処理において障害発生通知を送信したプロセスPSと通信中であったと判定したプロセスPSが存在しないと判定した場合(S71のNO)、情報出力部115は、S65の処理を行う。
すなわち、情報出力部115は、S75の処理において、障害発生通知を受け付けた際に高負荷であったプロセスPSについての動作情報131と、障害発生通知を送信したプロセスPSと通信を行っていたプロセスPSについての動作情報131とのうち、発生した障害の原因究明を行う際により有効であると判断できる情報の出力を行う。
これにより、コントローラ1は、動作情報131の収集を行うために、障害の発生に伴う後続処理の実行を待機させる時間を短縮しながら、発生した障害の原因究明を行うために有用な情報の出力を行うことが可能になる。
このように、本実施の形態におけるコントローラ1は、ファームウエア12によって生成された第1プロセスPS1における障害の発生を検知した場合、各プロセスPSによる処理負荷の状態を示す負荷情報141を記憶した情報格納領域140を参照し、ファームウエア12によって生成されたプロセスPSに、負荷状態が所定の状態である第2プロセスPS2が存在するか否かを判定する。
そして、第2プロセスPS2が存在すると判定した場合、コントローラ1は、各プロセスPSの動作状態を示す動作情報131を記憶した情報格納領域130を参照し、各プロセスPSに対応する動作情報131のうち、第1プロセスPS1及ぶ第2プロセスPS2の動作情報131を出力する。
すなわち、ファームウエア12は、第1プロセスPS1における障害の発生を検知した場合、OS11によるコアダンプの生成に代わって、ファームウエア12が定常的に出力している動作情報131の一部を収集する。
これにより、コントローラ1は、コアダンプを生成することができない場合であっても、コアダンプに含まれる情報の少なくとも一部に相当する情報である情報を出力することが可能になる。そのため、担当者は、OS11がコアダンプを生成できない場合であっても、第1プロセスPS1において発生した障害の原因究明を行うことが可能になる。
また、ファームウエア12は、例えば、障害が発生した第1プロセスPS1の動作がOS11によって停止される前に、動作情報131の出力を行う。
これにより、コントローラ1は、障害が発生した第1プロセスPS1が動作を停止する前の状態に対応する動作情報131を、第1プロセスPS1が動作を停止した後の動作情報131によって上書きされる前に出力することが可能になる。そのため、担当者は、第1プロセスPS1において発生した障害の原因究明を精度良く行うことが可能になる。
さらに、ファームウエア12は、例えば、ファームウエア12によって生成されたプロセスPSのうち、第1プロセスPS1及び第1プロセスPS1と関連性が高いと判定できる第2プロセスPS2の動作情報131のみの出力を行う。
これにより、コントローラ1は、動作情報131の収集を行うために、障害の発生に伴う後続処理の実行を待機させる時間を短縮することが可能になる。そのため、コントローラ1は、動作情報131の収集が他の処理に及ぼす影響を抑えることが可能になる。
なお、コントローラ1は、第1プロセスPS1における障害の発生を検知した場合、各プロセスPSに対応する動作情報131のうち、第1プロセスPS1の動作情報131を出力するものであってもよい。すなわち、コントローラ1は、第1プロセスPS1における障害の発生を検知した場合であっても、第2プロセスPS2の動作情報131の出力を行わないものであってもよい。
これにより、コントローラは、障害の発生に伴う後続処理の実行を待機させる時間をより短縮することが可能になる。
以上の実施の形態をまとめると、以下の付記のとおりである。
(付記1)
ファームウエアによって生成される複数のプロセスに関する情報を収集する情報処理装置であって、
前記複数のプロセスのうちの第1プロセスにおける障害の発生を検知した場合、前記複数のプロセスによる処理負荷の状態を示す負荷情報を記憶した記憶部を参照し、前記複数のプロセスに、負荷状態が所定の状態である第2プロセスが存在するか否かを判定する負荷判定部と、
前記第2プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第2プロセスの前記動作情報を出力する情報出力部と、を有する、
ことを特徴とする情報処理装置。
(付記2)
付記1において、
前記所定の状態は、負荷状態を示す値が閾値以上である状態である、
ことを特徴とする情報処理装置。
(付記3)
付記2において、
前記負荷状態を示す値は、前記複数のプロセスが動作するCPUの使用率である、
ことを特徴とする情報処理装置。
(付記4)
付記1において、
前記情報処理装置は、前記ファームウエアが動作するコンピュータである、
ことを特徴とする情報処理装置。
(付記5)
付記4において、
前記情報出力部は、前記情報処理装置において動作するオペレーティングシステムに対し、前記第1プロセス及び前記第2プロセスの前記動作情報を出力するまで、前記判定する処理において障害の発生が検知された前記第1プロセスの動作を停止させない旨の指示を行う、
ことを特徴とする情報処理装置。
(付記6)
付記1において、さらに、
前記第2プロセスが存在しないと判定した場合、前記複数のプロセス間における通信の状態を示す通信情報を記憶した記憶部を参照し、前記複数のプロセスに、前記第1プロセスと通信中である第3プロセスが存在するか否かを判定する通信判定部を有し、
前記情報出力部は、前記第3プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第3プロセスの前記動作情報を出力する、
ことを特徴とする情報処理装置。
(付記7)
付記6において、
前記複数のプロセスのそれぞれは、自プロセスと他プロセスとの間において新たな通信を開始した場合、開始した前記新たな通信に関する情報を前記通信情報に追加し、
前記複数のプロセスのそれぞれは、自プロセスと他プロセスとの間において行われていた通信を終了した場合、終了した前記通信に関する情報を前記通信情報から削除する、
ことを特徴とする情報処理装置。
(付記8)
ファームウエアによって生成される複数のプロセスに関する情報を収集する情報処理装置であって、
前記複数のプロセスのうちの第1プロセスにおける障害の発生を検知した場合、前記複数のプロセス間における通信の状態を示す通信情報を記憶した記憶部を参照し、前記複数のプロセスに、前記第1プロセスと通信中である第3プロセスが存在するか否かを判定する通信判定部と、
前記第3プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第3プロセスの前記動作情報を出力する情報出力部と、を有する、
ことを特徴とする情報処理装置。
(付記9)
ファームウエアによって生成される複数のプロセスに関する情報を収集する処理をコンピュータに実行させる情報収集プログラムであって、
前記複数のプロセスのうちの第1プロセスにおける障害の発生を検知した場合、前記複数のプロセスによる処理負荷の状態を示す負荷情報を記憶した記憶部を参照し、前記複数のプロセスに、負荷状態が所定の状態である第2プロセスが存在するか否かを判定し、
前記第2プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第2プロセスの前記動作情報を出力する、
処理を前記コンピュータに実行させることを特徴とする情報収集プログラム。
(付記10)
付記9において、さらに、
前記第2プロセスが存在しないと判定した場合、前記複数のプロセス間における通信の状態を示す通信情報を記憶した記憶部を参照し、前記複数のプロセスに、前記第1プロセスと通信中である第3プロセスが存在するか否かを判定する、
処理を前記コンピュータに実行させ、
前記出力する処理では、前記第3プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第3プロセスの前記動作情報を出力する、
ことを特徴とする情報収集プログラム。
(付記11)
ファームウエアによって生成される複数のプロセスに関する情報を収集する処理をコンピュータに実行させる情報収集プログラムであって、
前記複数のプロセスのうちの第1プロセスにおける障害の発生を検知した場合、前記複数のプロセス間における通信の状態を示す通信情報を記憶した記憶部を参照し、前記複数のプロセスに、前記第1プロセスと通信中である第3プロセスが存在するか否かを判定し、
前記第3プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第3プロセスの前記動作情報を出力する、
処理を前記コンピュータに実行させることを特徴とする情報収集プログラム。
(付記12)
ファームウエアによって生成される複数のプロセスに関する情報を収集する情報収集方法であって、
前記複数のプロセスのうちの第1プロセスにおける障害の発生を検知した場合、前記複数のプロセスによる処理負荷の状態を示す負荷情報を記憶した記憶部を参照し、前記複数のプロセスに、負荷状態が所定の状態である第2プロセスが存在するか否かを判定し、
前記第2プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第2プロセスの前記動作情報を出力する、
ことを特徴とする情報収集方法。
(付記13)
付記12において、さらに、
前記第2プロセスが存在しないと判定した場合、前記複数のプロセス間における通信の状態を示す通信情報を記憶した記憶部を参照し、前記複数のプロセスに、前記第1プロセスと通信中である第3プロセスが存在するか否かを判定し、
前記出力する工程では、前記第3プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第3プロセスの前記動作情報を出力する、
ことを特徴とする情報収集方法。
(付記14)
ファームウエアによって生成される複数のプロセスに関する情報を収集する情報収集方法であって、
前記複数のプロセスのうちの第1プロセスにおける障害の発生を検知した場合、前記複数のプロセス間における通信の状態を示す通信情報を記憶した記憶部を参照し、前記複数のプロセスに、前記第1プロセスと通信中である第3プロセスが存在するか否かを判定し、
前記第3プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第3プロセスの前記動作情報を出力する、
ことを特徴とする情報収集方法。
1:コントローラ 11:OS
12:ファームウエア 13:ハードウエア
130:情報格納領域 131:動作情報
PSa:プロセス PSb:プロセス
PSc:プロセス

Claims (12)

  1. ファームウエアによって生成される複数のプロセスに関する情報を収集する情報処理装置であって、
    前記複数のプロセスのうちの第1プロセスにおける障害の発生を検知した場合、前記複数のプロセスによる処理負荷の状態を示す負荷情報を記憶した記憶部を参照し、前記複数のプロセスに、負荷状態が所定の状態である第2プロセスが存在するか否かを判定する負荷判定部と、
    前記第2プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第2プロセスの前記動作情報を出力する情報出力部と、を有する、
    ことを特徴とする情報処理装置。
  2. 請求項1において、
    前記所定の状態は、負荷状態を示す値が閾値以上である状態である、
    ことを特徴とする情報処理装置。
  3. 請求項2において、
    前記負荷状態を示す値は、前記複数のプロセスが動作するCPUの使用率である、
    ことを特徴とする情報処理装置。
  4. 請求項1において、
    前記情報処理装置は、前記ファームウエアが動作するコンピュータである、
    ことを特徴とする情報処理装置。
  5. 請求項4において、
    前記情報出力部は、前記情報処理装置において動作するオペレーティングシステムに対し、前記第1プロセス及び前記第2プロセスの前記動作情報を出力するまで、前記判定する処理において障害の発生が検知された前記第1プロセスの動作を停止させない旨の指示を行う、
    ことを特徴とする情報処理装置。
  6. 請求項1において、さらに、
    前記第2プロセスが存在しないと判定した場合、前記複数のプロセス間における通信の状態を示す通信情報を記憶した記憶部を参照し、前記複数のプロセスに、前記第1プロセスと通信中である第3プロセスが存在するか否かを判定する通信判定部を有し、
    前記情報出力部は、前記第3プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第3プロセスの前記動作情報を出力する、
    ことを特徴とする情報処理装置。
  7. 請求項6において、
    前記複数のプロセスのそれぞれは、自プロセスと他プロセスとの間において新たな通信を開始した場合、開始した前記新たな通信に関する情報を前記通信情報に追加し、
    前記複数のプロセスのそれぞれは、自プロセスと他プロセスとの間において行われていた通信を終了した場合、終了した前記通信に関する情報を前記通信情報から削除する、
    ことを特徴とする情報処理装置。
  8. ファームウエアによって生成される複数のプロセスに関する情報を収集する情報処理装置であって、
    前記複数のプロセスのうちの第1プロセスにおける障害の発生を検知した場合、前記複数のプロセス間における通信の状態を示す通信情報を記憶した記憶部を参照し、前記複数のプロセスに、前記第1プロセスと通信中である第3プロセスが存在するか否かを判定する通信判定部と、
    前記第3プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第3プロセスの前記動作情報を出力する情報出力部と、を有する、
    ことを特徴とする情報処理装置。
  9. ファームウエアによって生成される複数のプロセスに関する情報を収集する処理をコンピュータに実行させる情報収集プログラムであって、
    前記複数のプロセスのうちの第1プロセスにおける障害の発生を検知した場合、前記複数のプロセスによる処理負荷の状態を示す負荷情報を記憶した記憶部を参照し、前記複数のプロセスに、負荷状態が所定の状態である第2プロセスが存在するか否かを判定し、
    前記第2プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第2プロセスの前記動作情報を出力する、
    処理を前記コンピュータに実行させることを特徴とする情報収集プログラム。
  10. ファームウエアによって生成される複数のプロセスに関する情報を収集する処理をコンピュータに実行させる情報収集プログラムであって、
    前記複数のプロセスのうちの第1プロセスにおける障害の発生を検知した場合、前記複数のプロセス間における通信の状態を示す通信情報を記憶した記憶部を参照し、前記複数のプロセスに、前記第1プロセスと通信中である第3プロセスが存在するか否かを判定し、
    前記第3プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第3プロセスの前記動作情報を出力する、
    処理を前記コンピュータに実行させることを特徴とする情報収集プログラム。
  11. ファームウエアによって生成される複数のプロセスに関する情報を収集する情報収集方法であって、
    前記複数のプロセスのうちの第1プロセスにおける障害の発生を検知した場合、前記複数のプロセスによる処理負荷の状態を示す負荷情報を記憶した記憶部を参照し、前記複数のプロセスに、負荷状態が所定の状態である第2プロセスが存在するか否かを判定し、
    前記第2プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第2プロセスの前記動作情報を出力する、
    ことを特徴とする情報収集方法。
  12. ファームウエアによって生成される複数のプロセスに関する情報を収集する情報収集方法であって、
    前記複数のプロセスのうちの第1プロセスにおける障害の発生を検知した場合、前記複数のプロセス間における通信の状態を示す通信情報を記憶した記憶部を参照し、前記複数のプロセスに、前記第1プロセスと通信中である第3プロセスが存在するか否かを判定し、
    前記第3プロセスが存在すると判定した場合、前記複数のプロセスの動作状態を示す動作情報を記憶した記憶部を参照し、前記複数のプロセスに対応する前記動作情報のうち、前記第1プロセス及び前記第3プロセスの前記動作情報を出力する、
    ことを特徴とする情報収集方法。
JP2018093706A 2018-05-15 2018-05-15 情報処理装置、情報収集プログラム及び情報収集方法 Active JP7048890B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018093706A JP7048890B2 (ja) 2018-05-15 2018-05-15 情報処理装置、情報収集プログラム及び情報収集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018093706A JP7048890B2 (ja) 2018-05-15 2018-05-15 情報処理装置、情報収集プログラム及び情報収集方法

Publications (2)

Publication Number Publication Date
JP2019200517A JP2019200517A (ja) 2019-11-21
JP7048890B2 true JP7048890B2 (ja) 2022-04-06

Family

ID=68612147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018093706A Active JP7048890B2 (ja) 2018-05-15 2018-05-15 情報処理装置、情報収集プログラム及び情報収集方法

Country Status (1)

Country Link
JP (1) JP7048890B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010152838A (ja) 2008-12-26 2010-07-08 Ricoh Co Ltd 画像形成装置、制御方法、およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0553882A (ja) * 1991-08-26 1993-03-05 Nec Corp メモリダンプ収集方式
KR20080022889A (ko) * 2006-09-08 2008-03-12 삼성전자주식회사 임베디드 시스템에서 디버깅 파일 생성 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010152838A (ja) 2008-12-26 2010-07-08 Ricoh Co Ltd 画像形成装置、制御方法、およびプログラム

Also Published As

Publication number Publication date
JP2019200517A (ja) 2019-11-21

Similar Documents

Publication Publication Date Title
JP5440273B2 (ja) スナップショット管理方法、スナップショット管理装置、及びプログラム
US9229840B2 (en) Managing traces to capture data for memory regions in a memory
US8719639B2 (en) Virtual machine control program, virtual machine control system, and dump capturing method
US11157373B2 (en) Prioritized transfer of failure event log data
JPWO2006075397A1 (ja) インストール方法、プログラム、周辺機器及びシステム
CN109308242B (zh) 一种动态监控方法、装置、设备和存储介质
JP5942509B2 (ja) バッチ処理システム
CN114564284B (zh) 虚拟机的数据备份方法、计算机设备及存储介质
EP2645635A1 (en) Cluster monitor, method for monitoring a cluster, and computer-readable recording medium
EP2733613B1 (en) Controller and program
US8245085B2 (en) Dump output control apparatus and dump output control method
CN111124761B (zh) 一种设备重启方法、装置、设备及介质
US20150286548A1 (en) Information processing device and method
JP6428005B2 (ja) 情報処理装置,情報処理方法及び情報処理プログラム
JP7048890B2 (ja) 情報処理装置、情報収集プログラム及び情報収集方法
GB2517195A (en) Computer system productivity monitoring
CN107203451A (zh) 用于在存储系统中处理故障的方法及设备
US9411666B2 (en) Anticipatory protection of critical jobs in a computing system
CN103890713A (zh) 用于管理处理系统内的寄存器信息的装置及方法
CN111130856A (zh) 一种服务器配置方法、系统、设备及计算机可读存储介质
JP4883492B2 (ja) 仮想マシン管理システムおよび計算機、並びに、プログラム
US20210103508A1 (en) 2-phase sync replication recovery to optimize recovery point objective (rpo)
JP5791524B2 (ja) Os動作装置及びos動作プログラム
CN117033084B (zh) 虚拟机备份方法、装置、电子设备及存储介质
CN109213446B (zh) 写缓存模式的切换方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220307

R150 Certificate of patent or registration of utility model

Ref document number: 7048890

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150