JP2014182676A - ログ採取装置、演算装置、およびログ採取方法 - Google Patents

ログ採取装置、演算装置、およびログ採取方法 Download PDF

Info

Publication number
JP2014182676A
JP2014182676A JP2013057552A JP2013057552A JP2014182676A JP 2014182676 A JP2014182676 A JP 2014182676A JP 2013057552 A JP2013057552 A JP 2013057552A JP 2013057552 A JP2013057552 A JP 2013057552A JP 2014182676 A JP2014182676 A JP 2014182676A
Authority
JP
Japan
Prior art keywords
log
operation log
unit
log collection
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013057552A
Other languages
English (en)
Inventor
Takahiro Misaki
貴裕 三崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013057552A priority Critical patent/JP2014182676A/ja
Publication of JP2014182676A publication Critical patent/JP2014182676A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】障害発生箇所を初期状態に戻す前に、障害発生箇所に保存されている障害ログを採取できるログ採取装置を提供する。
【解決手段】動作ログを記憶する動作ログ記憶部を有する演算部が正常動作しているか否か監視する監視手段2と、監視手段2が演算部が正常動作していないと判定した場合に、動作ログ記憶部に記憶されている動作ログをDMA転送によって取得する動作ログ採取手段3とを備える。監視手段2は、ウォッチドッグタイマを用いて演算部が正常動作しているか否か監視してもよい。監視手段2は、複数の演算部を監視してもよい。
【選択図】図11

Description

本発明は、演算部の動作ログを採取するログ採取装置、ログ採取装置を備える演算装置、およびログ採取方法に関する。
演算装置で障害が発生した場合、演算装置の管理者は、障害要因を解析するために演算装置に保存されている障害ログのデータを採取する。
演算プログラムを実行し、演算装置として稼働しているプロセッサは、障害が発生した時に障害ログを外部に転送する。しかし、プロセッサ自体の動作が停止し反応を示さなくなる(以下、ストールという。)状態になるなど、プロセッサが障害ログの転送処理を実行できない場合、管理者は、障害解析に必要なログを採取できない。その結果、障害の原因究明は困難となる。
また、障害ログを採取する前にプロセッサが初期状態に戻されると、プロセッサ内部のRAM(Random Access Memory)も初期状態に戻される。RAMが初期状態に戻されるとRAMの内部に格納されている障害ログが消えてしまうので、管理者は、プロセッサを初期状態に戻した後に障害ログを採取できない。
また、組み込み装置において障害が発生した場合、障害対応において、障害が発生してから装置を初期状態に戻し回復させるまでの時間をどれだけ短くできるかが課題となる。装置を回復させるまでの時間を短くするため、管理者には、障害解析に必要なログを採取する時間も短縮することが求められる。
障害解析に必要なログを取得する方法としてフラッシュROM(Read Only Memory)に保存したり、低速な診断バスで転送したりする方法を使用した場合、ログを取得する時間は長くなってしまう。その場合、ログの取得時間を短くするために、管理者は採取するログを制限しなければならない。
特許文献1には、WDT(Watch Dog Timer)を用いてオペレーティングシステムに障害が発生したことを検知した場合、障害発生時のメモリ情報を採取することで障害解析を可能とするサーバシステムが記載されている。
特許第5120664号公報
しかし、特許文献1に記載されたサーバシステムは、WDTによりストール状態を検出した場合、ハードウェアを初期状態に戻した後にメモリに保持されたデータを採取する。よって、ハードウェアにメモリの制御部が含まれている場合、ハードウェアが初期状態に戻されることに伴いメモリも初期状態に戻されてしまうため、障害解析に必要なログを採取できない。
そこで、本発明は、障害発生箇所を初期状態に戻す前に、障害発生箇所に保存されている障害ログを採取できるログ採取装置、演算装置、およびログ採取方法を提供する。
本発明によるログ採取装置は、動作ログを記憶する動作ログ記憶部を有する演算部が正常動作しているか否か監視する監視手段と、監視手段が演算部が正常動作していないと判定した場合に、動作ログ記憶部に記憶されている動作ログをDMA転送によって取得する動作ログ採取手段とを備えることを特徴とする。
本発明による演算装置は、動作ログを記憶する動作ログ記憶部を有する演算部と、演算部が正常動作しているか否か監視する監視手段と、監視手段が演算部が正常動作していないと判断した場合に、動作ログ記憶部に記憶されている動作ログをDMA転送によって取得する動作ログ採取手段とを含むログ採取装置とを備えることを特徴とする。
本発明によるログ採取方法は、動作ログを記憶する動作ログ記憶部を有する演算部が正常動作しているか否か監視し、演算部が正常動作していないと判断した場合に、動作ログ記憶部に記憶されている動作ログをDMA転送によって取得することを特徴とする。
本発明によれば、障害発生箇所を初期状態に戻す前に、障害発生箇所に保存されている障害ログを採取できる。
本発明によるログ採取装置の第1の実施形態の構成例を示すシステム構成図である。 本発明によるログ採取装置の第1の実施形態の構成例を示すシステム構成図である。 プロセッサ110の第1の実施形態の構成例を示すブロック図である。 ログ採取装置120の第1の実施形態の構成例を示すブロック図である。 プロセッサ110の第1の実施形態の演算処理の動作を示すフローチャートである。 ログ採取装置120の第1の実施形態のログ採取処理の動作を示すフローチャートである。 本発明によるログ採取装置の第2の実施形態の構成例を示すシステム構成図である。 プロセッサ110の第2の実施形態の構成例を示すブロック図である。 ログ採取装置120の第2の実施形態のログ採取処理の動作を示すフローチャートである。 本発明によるログ採取装置の第3の実施形態の構成例を示すシステム構成図である。 本発明によるログ採取装置の概要を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。図1は、本発明によるログ採取装置の第1の実施形態の構成例を示すシステム構成図である。
図1に示すログ採取装置である演算装置100は、プロセッサ110と、ログ採取装置120と、補助記憶装置140と、主記憶装置150とを備えている。
プロセッサ110は、補助記憶装置140と、主記憶装置150とそれぞれ外部バス130、外部バス131で接続されている。また、プロセッサ110は、ログ採取装置120とPCI Express(以下、PCIeという。)バス170で接続されている。
プロセッサ110は、プログラムを実行した際の動作ログを主記憶装置150に保存する。また、プロセッサ110は、プログラム実行中に所定の周期でログ採取装置120に信号を出力する。ログ採取装置120が有する、プロセッサ110が正常かどうかを常に監視するタイマであるWDTは、その信号によって初期状態に戻される。
ログ採取装置120は、高速にアクセスできる記憶デバイスとDMA(Direct Memory Access)機構とを備える。ログ採取装置120は、WDTを使用してプロセッサ110の障害を検出する機能を有する。プロセッサ110の障害を検出した場合、ログ採取装置120は、DMA機構内のDMAコントローラを起動し、主記憶装置150からプロセッサ110の動作ログを高速に採取する。
このように、ログ採取装置120がプロセッサ110の状態を監視しプロセッサ110が動作不能となったときにプロセッサ110の動作ログを採取することによって、演算装置100の管理者は、プロセッサ110が動作不能な場合でもプロセッサ110を初期状態に戻すことなく、障害解析に有用なデータを高速に採取できる。
また、CPU(Central Processing Unit)を介さずに記憶デバイスとの間で直接データ転送を行うDMA機構を使用することでより高速に障害ログを採取できるため、演算装置100の管理者は、障害が発生してから初期状態に戻し回復させるまでの時間を短縮できる。また、ログ採取時間を短縮するための採取ログの限定も行なわずに済むので、管理者は、初期状態に戻す時間を延ばさずにより多くのログを採取できる。
外部バス130は、プロセッサ110と補助記憶装置140とを接続している。外部バス131は、プロセッサ110と主記憶装置150とを接続している。
補助記憶装置140は、プロセッサ110が実行するプログラムを記憶する機能を有する。補助記憶装置140として、不揮発性のRAMが使用される。不揮発性のRAMは、例えば、フラッシュROMである。
フラッシュROMであればアクセス速度が遅いため、補助記憶装置140によるデータの読み出し速度およびデータの書き込み速度は遅くなる。しかし、フラッシュROMは不揮発性メモリであるため、プロセッサ110の電源が停止されたり、プロセッサ110自体が初期状態に戻されたりしても、補助記憶装置140の内部に保存されたデータは失われない。
主記憶装置150は、プロセッサ110がプログラムを実行した時の動作ログを記憶する機能を有する。この動作ログを参照すると、演算装置100の管理者は、プロセッサ110が直前に実行した処理内容を知ることができる。また、動作ログは常に固定のアドレス番地を使用するため、障害が発生した時、障害解析に求められるデータが保存されているメモリ領域は固定化されている。
主記憶装置150として、揮発性のRAMが使用される。揮発性のRAMは、例えば、DDR(Double−Data−Rate) RAMである。DDR RAMであればアクセス速度が速いため、主記憶装置150は、データの読み出しおよびデータの書き込みを高速に行うことができる。しかし、DDR RAMは揮発性メモリであるため、プロセッサ110の電源が停止されたり、プロセッサ110自体が初期状態に戻されたりすると、主記憶装置150の内部に保存されたデータは失われる。
主記憶装置150がDDR RAMである場合、図2に示すように、主記憶装置150は、演算プログラムが使用する演算プログラム使用領域と、演算プログラムの動作ログを格納する動作ログ格納領域に分けて使用される。演算プログラム使用領域には、プロセッサ110が実行するプログラムがコピーされる。動作ログ格納領域には、プロセッサ110がプログラムを実行した時の動作ログが記憶される。
補助記憶装置140が記憶するプログラムには、演算装置100を初期状態に戻す初期化プログラムと、演算処理を実行する演算プログラムとが含まれる。初期化プログラムは、演算装置100に電源が投入された後に一回だけ実行される。演算プログラムは、プロセッサ110が演算処理を実行する間に繰り返し読み出され、実行される。
補助記憶装置140がフラッシュROMであり、主記憶装置150がDDR RAMである場合、一回のみ実行される初期化プログラムは、DDR RAMへはコピーされず、フラッシュROMから読み出されて実行される。これに対して、繰り返し実行される演算プログラムは、アクセス速度が速いDDR RAMにコピーされた上、実行される。
PCIeバス170は、PCI Expressによるデータ転送方式でデータ転送を行う入出力シリアルインタフェースである。PCIeバス170は、拡張バスの一種である。
次に、プロセッサ110の詳細な構成を図3を参照して説明する。図3は、プロセッサ110の第1の実施形態の構成例を示すブロック図である。
図3に示すプロセッサ110は、プロセッサコア111と、PCIeコントローラ112と、フラッシュコントローラ113と、メモリコントローラ114と、PIC(Programmable Interrupt Controller)116とを含む。なお、各部は内部バス115により接続されている。
プロセッサコア111は、プロセッサ110の演算処理部としての役割を有する。プロセッサコア111は、PCIeコントローラ112とPCIeバス170を介して、ログ採取装置120に信号を出力できる。プロセッサコア111は、プログラム実行中に所定の周期でログ採取装置120へ信号を出力し、ログ採取装置120が有するWDTを初期状態に戻す。
PCIeコントローラ112は、PCIeバス170を介した外部の装置との通信を制御する機能を有する。
また、PCIeコントローラ112は、プロセッサ110の内部バス115の制御部として動作してもよい。このとき、PCIeコントローラ112は、メモリコントローラ114を経由し、主記憶装置150からのデータの読み出し、または主記憶装置150へのデータの書き込みを行うことができる。すなわち、ログ採取装置120は、PCIeバス170を介してPCIeコントローラ112と通信することによって、主記憶装置150にアクセスできる。
フラッシュコントローラ113は、配下に接続された補助記憶装置140への入出力を制御する機能を有する。メモリコントローラ114は、配下に接続された主記憶装置150への入出力を制御する機能を有する。
PIC116は、プロセッサコア111に割り込みを出力する機能を有する。PIC116から割り込みを入力すると、プロセッサコア111は、実行中の処理を中断する。次いで、プロセッサコア111は、PIC116の内部情報から入力した割り込みの要因を調べ、要因に応じた処理を実行する。
例えば、メモリコントローラ114で障害が発生すると、PIC116は、プロセッサコア111に割り込みを出力する。割り込みを出力することで、PIC116は、プロセッサコア111に障害が発生したことを通知する。割り込みを入力したプロセッサコア111は、実行中の処理を中断する。
次いで、プロセッサコア111は、PIC116の内部情報を参照し、メモリコントローラ114で障害が発生したことを認識する。プロセッサコア111は、メモリコントローラ114の内部情報を障害ログとして主記憶装置150に残すなどの処理を実行する。
次に、ログ採取装置120の詳細な構成を図4を参照して説明する。図4は、ログ採取装置120の第1の実施形態の構成例を示すブロック図である。
図4に示すログ採取装置120は、入出力部121と、記憶部122と、DMA機構123とを含む。なお、ログ採取装置120は、プログラミング可能なLSI(Large Scale Integration)であるFPGA(Field Programmable Gate Array)から構成されていてもよい。
FPGAから構成されている場合、ログ採取装置120は、PCIeバスに接続可能なPCIeカードでもよい。ログ採取装置120の機能を有するPCIeカードは、PCIeスロットを有する既存のシステムに容易に追加される。
入出力部121は、PCIeバス170を介して、プロセッサ110と接続する機能を有する。また、入出力部121は、WDTの機能を有する。入出力部121は、PCIeバス170を介したプロセッサコア111からの信号を入力する。
プロセッサコア111で障害が発生した場合、プロセッサコア111からの信号の出力が所定の周期を超えて途絶える。よって、WDTはタイムアウトする。入出力部121は、WDTのタイムアウトによって、プロセッサ110のストール状態を検出できる。なお、WDTがタイムアウトするまでの時間(所定時間)は、所定の周期よりもやや長い時間である。
記憶部122は、プロセッサ110から採取された動作ログを保存する機能を有する。記憶部122は、例えば、RAMである。RAMは、高速にアクセスできる記憶デバイスである。
DMA機構123は、CPUを介さずに記憶部122との間で直接データ転送を行う機能を有する。DMA機構123は、データ転送処理を行うDMAコントローラを有する。プロセッサ110のストール状態が検出されたときに、DMA機構123は、DMAコントローラを起動する。起動されたDMAコントローラは、主記憶装置150からプロセッサ110の動作ログを高速に採取する。
以下、本発明による動作を説明する。なお、下記の説明において、主記憶装置150はDDR RAM、補助記憶装置140はフラッシュROMである。
最初に、本実施形態におけるプロセッサ110による演算処理の動作を図5を参照して説明する。図5は、プロセッサ110の第1の実施形態の演算処理の動作を示すフローチャートである。
演算装置100の電源が投入された場合、または演算装置100を初期状態に戻す指示命令が入力された場合、プロセッサコア111は、フラッシュコントローラ113を介して補助記憶装置140に記憶されている初期化プログラムを実行する。初期化プログラムを実行することによって、プロセッサコア111は、プロセッサ110の内部を初期状態に戻す(ステップS101)。
PCIeコントローラ112の初期設定が完了した後、ログ採取装置120は、プロセッサ110の内部にアクセス可能となる。また、メモリコントローラ114の初期設定が完了した後、プロセッサ110およびログ採取装置120は、主記憶装置150にアクセス可能となる。
メモリコントローラ114が初期状態に戻された後、プロセッサコア111は、補助記憶装置140に記憶されている演算プログラムを、メモリコントローラ114を介して主記憶装置150にコピーする(ステップS102)。
プロセッサコア111は、主記憶装置150に保存された演算プログラムを実行することによって、演算処理を開始する(ステップS103)。以後、プロセッサコア111は、演算処理が終了するまで演算プログラムを実行する(ステップS104)。
プロセッサコア111は、演算処理の実行中、演算プログラムの動作情報を動作ログとして主記憶装置150の動作ログ格納領域に保存する(ステップS105)。
プロセッサコア111は、演算処理の実行中、所定の周期が経過したか否か確認する(ステップS106)。所定の周期が経過していない場合(ステップS106のNo)、プロセッサコア111は、ステップS108に処理を進める。
所定の周期が経過した場合(ステップS106のYes)、プロセッサコア111は、WDTを初期状態に戻すためにログ採取装置120に信号を出力する(ステップS107)。
プロセッサコア111は、演算処理が終了したかどうか確認する(ステップS108)。演算処理が終了していない場合(ステップS108のNo)、プロセッサコア111は、継続して演算プログラムを実行する(ステップS104)。演算処理が終了した場合(ステップS108のYes)、プロセッサコア111は、処理を終了する。
次に、本実施形態におけるログ採取装置120によるログ採取処理の動作を図6を参照して説明する。図6は、ログ採取装置120の第1の実施形態のログ採取処理の動作を示すフローチャートである。
演算装置100の電源が投入された場合、または演算装置100を初期状態に戻す指示命令が入力された場合、プロセッサコア111は、フラッシュコントローラ113を介して補助記憶装置140に記憶されている初期化プログラムを実行する。初期化プログラムを実行することによって、プロセッサコア111は、ログ採取装置120の内部を初期状態に戻す(ステップS201)。
入出力部121は、WDTがタイムアウトしたかどうか確認する処理を繰り返し実行する(ステップS202)。
WDTがタイムアウトした場合、すなわちプロセッサコア111からの信号の出力が無くなってから所定時間が経過した場合(ステップS202のYes)、入出力部121は、DMA機構123にWDTがタイムアウトしたことを通知する。通知を受けたDMA機構123は、DMAコントローラを起動する。
起動されたDMAコントローラは、主記憶装置150の動作ログ格納領域に保存されている動作ログを、メモリコントローラ114、PCIeコントローラ112、PCIeバス170を介して記憶部122に高速に転送する(ステップS203)。動作ログを転送した後、ログ採取装置120は、処理を終了する。
本実施形態のログ採取装置を使用する場合、プロセッサにおいて障害が発生しプロセッサがストール状態になった場合においても、ログ採取装置がプロセッサ内部に保存されている動作ログを採取するため、管理者は、障害要因の特定に役立つ動作ログを消滅させることなく確実に保存できる。
本実施形態のログ採取装置を使用する場合、ログ採取装置は動作ログの採取にDMAを使用するため、管理者は、短時間でログの採取を完了できる。プロセッサの回復までに行なわなければならないログの採取が短時間で完了するため、管理者は、採取する動作ログを制限せずに済む。
実施形態2.
次に、本発明の第2の実施形態を説明する。図7は、本発明によるログ採取装置の第2の実施形態の構成例を示すシステム構成図である。
第1の実施形態の構成例と異なる点として、第2の実施形態の構成例では、プロセッサ110にPCIeバス171を介して、PCIeカード160が接続されている。
PCIeカード160は、プロセッサ110とPCI Expressで接続される機能を有していればどのようなインタフェースカードでもよい。PCIeカード160は、ネットワークインタフェースカードや、ホストバスアダプタなどである。
図8は、プロセッサ110の第2の実施形態の構成例を示すブロック図である。第1の実施形態の構成例と異なる点として、第2の実施形態の構成例では、プロセッサ110にPCIeコントローラ117が含まれている。PCIeコントローラ117は、PCIeバス171を介したPCIeカード160との通信を制御する機能を有する。
プロセッサコア111がストール状態でない時にPCIeカード160で障害が発生すると、PIC116は、プロセッサコア111に割り込みを出力する。割り込みを入力したプロセッサコア111は、PCIeコントローラ117やPCIeカード160の内部情報を読み込む。プロセッサコア111は、読み込んだ内部情報をログとして主記憶装置150に保存する。
PCIeカードは、ベースアドレスレジスタなどのアドレス割り当てのためのレジスタを有している。PCIeカードのベースアドレスにオフセット値を加えた値をPCIeカードにアクセスするためのベースアドレスとして設定することによって、PCIeカードにアクセス可能なデバイスは、PCIeカード内のレジスタやRAMを、Memory−mapped I/O(以下、MMIOという。)により主記憶装置のアドレス空間にマッピングできる。
マッピングされるレジスタは、PCIeカードにより異なる。しかし、一般的にはPCIeカードの各種の状況を示すレジスタがマッピングされる。よって、主記憶装置のアドレス空間にマッピングされたレジスタのメモリダンプを取得すると、管理者は、ダンプ取得時のPCIeカードの内部状況や、PCIeカードの動作内容などを知ることができる。すなわち、レジスタのメモリダンプは、プロセッサがストール状態となった原因の解明に役立つ。
ログ採取装置120は、プロセッサ110にPCIeカードが組み込まれていれば、プロセッサ110がストール状態になった時、常にPCIeカードのレジスタのメモリダンプも採取する。上記の理由から、PCIeカードのレジスタのメモリダンプを採取することによって、管理者は、プロセッサ110がストール状態になった原因がPCIeカードにあるか否か確認できる。このように、メモリダンプの採取は、ストール状態となった原因の解析に役立つ可能性がある。
次に、本実施形態におけるログ採取装置120によるログ採取処理の動作を図9を参照して説明する。図9は、ログ採取装置120の第2の実施形態のログ採取処理の動作を示すフローチャートである。
ステップS301〜ステップS303の各処理は、第1の実施形態のログ採取処理の動作におけるステップS201〜ステップS203の各処理と同様であるため、説明を省略する。
動作ログが転送された後、入出力部121は、プロセッサ110にPCIeカードが接続されているか否か確認する(ステップS304)。PCIeカードが接続されていない場合(ステップS304のNo)、ログ採取装置120は、処理を終了する。
PCIeカードが接続されている場合(ステップS304のYes)、入出力部121は、DMA機構123にPCIeカードが接続されていることを通知する。通知を受けたDMA機構123は、DMAコントローラを起動する。
起動されたDMAコントローラは、MMIOにより主記憶装置150のアドレス空間にPCIeカードのレジスタをマッピングする。そして、DMAコントローラは、マッピングされたPCIeカードのレジスタのメモリダンプを取得する。
DMAコントローラは、取得したメモリダンプを通常の動作ログの転送時と同様に、メモリコントローラ114、PCIeコントローラ112、PCIeバス170を介して記憶部122に高速に転送する(ステップS305)。メモリダンプを転送した後、ログ採取装置120は、処理を終了する。
なお、本発明の第2の実施形態における演算装置100の演算処理の動作の説明は、第1の実施形態における説明と同様であるため省略する。
本実施形態のログ採取装置を使用する場合、主記憶装置に保存された動作ログだけでなく、MMIOによりメインメモリのアドレス空間にマッピングされたPCIeカードのレジスタのメモリダンプも採取できる。その結果、管理者は、プロセッサの動作ログとPCIeカードのレジスタのメモリダンプを用いて、プロセッサがストール状態になった原因の発生箇所を切り分けることができる。
実施形態3.
次に、本発明の第3の実施形態を説明する。図10は、本発明によるログ採取装置の第3の実施形態の構成例を示すシステム構成図である。
第1の実施形態の構成例と異なる点として、第2の実施形態の構成例では、ログ採取装置120にPCIeスイッチ180が接続されている。PCIeスイッチ180には、プロセッサと主記憶装置から構成される組が、PCIeバス171〜17nを介して複数接続されている。
図10に示すようにPCIeスイッチ180に複数の組を接続できるため、管理者は、1つのログ採取装置120に対して、n個のプロセッサとm個の主記憶装置とを割当てることができる。なお、プロセッサと主記憶装置との数は一致していなくてもよい。
また、図10に示すように、PCIeスイッチ180には、PCIeバス172を介してPCIeカード160が接続されていてもよい。PCIeスイッチ180に接続されるPCIeカードは、2枚以上でもよい。PCIeスイッチ180にPCIeカードが接続されている場合、DMA機構123は、MMIOによりマッピングされたPCIeカードのレジスタ情報を採取する。
なお、本発明の第3の実施形態における演算装置100の演算処理の動作およびログ採取装置120のログ採取処理の動作の説明は、第2の実施形態における説明と同様であるため省略する。
次に、本発明の概要を説明する。図11は、本発明によるログ採取装置の概要を示すブロック図である。本発明によるログ採取装置1は、動作ログを記憶する動作ログ記憶部(例えば、主記憶装置150)を有する演算部(例えば、プロセッサ110)が正常動作しているか否か監視する監視手段2(例えば、入出力部121)と、監視手段2が演算部が正常動作していないと判定した場合に、動作ログ記憶部に記憶されている動作ログをDMA転送によって取得する動作ログ採取手段3(例えば、DMA機構123)とを備える。
そのような構成により、このログ採取装置を使用する場合、使用するユーザは、障害発生箇所を初期状態に戻す前に、障害発生箇所に保存されている障害ログを採取できる。
また、監視手段2は、ウォッチドッグタイマを用いて演算部が正常動作しているか否か監視してもよい。
そのような構成により、このログ採取装置を使用する場合、使用するユーザは、演算部が故障しているか否かを定期的に確認できる。
また、監視手段2は、複数の演算部を監視してもよい。
そのような構成により、このログ採取装置を使用する場合、使用するユーザは、複数の演算部を含む装置において、各演算部が故障した場合にも、故障した演算部に保存されている各障害ログを採取できる。
1 ログ採取装置
2 監視手段
3 動作ログ採取手段
100 演算装置
110〜n10 プロセッサ
111 プロセッサコア
112、117 PCI Expressコントローラ(PCIeコントローラ)
113 フラッシュコントローラ
114 メモリコントローラ
115 内部バス
116 PIC
120 ログ採取装置
121 入出力部
122 記憶部
123 DMA機構
130、131 外部バス
140 補助記憶装置
150〜m50 主記憶装置
160 PCI Expressカード(PCIeカード)
170〜17n PCI Expressバス(PCIeバス)
180 PCI Expressスイッチ(PCIeスイッチ)

Claims (8)

  1. 動作ログを記憶する動作ログ記憶部を有する演算部が正常動作しているか否か監視する監視手段と、
    前記監視手段が前記演算部が正常動作していないと判定した場合に、前記動作ログ記憶部に記憶されている動作ログをDMA転送によって取得する動作ログ採取手段とを備える
    ことを特徴とするログ採取装置。
  2. 監視手段は、ウォッチドッグタイマを用いて演算部が正常動作しているか否か監視する
    請求項1記載のログ採取装置。
  3. 監視手段は、複数の演算部を監視する
    請求項1または請求項2記載のログ採取装置。
  4. 動作ログを記憶する動作ログ記憶部を有する演算部と、
    前記演算部が正常動作しているか否か監視する監視手段と、前記監視手段が前記演算部が正常動作していないと判断した場合に、前記動作ログ記憶部に記憶されている動作ログをDMA転送によって取得する動作ログ採取手段とを含むログ採取装置とを備える
    ことを特徴とする演算装置。
  5. 演算装置は、定期的に信号を出力し、
    監視手段は、前記信号が出力されない期間が所定期間を超えたときに前記演算部が正常動作していないと判定する
    請求項4記載の演算装置。
  6. 複数の演算部とログ採取装置とがバスで接続され、
    監視手段は、前記バスを介して前記複数の演算部を監視する
    請求項4または請求項5記載の演算装置。
  7. 動作ログを記憶する動作ログ記憶部を有する演算部が正常動作しているか否か監視し、
    前記演算部が正常動作していないと判断した場合に、前記動作ログ記憶部に記憶されている動作ログをDMA転送によって取得する
    ことを特徴とするログ採取方法。
  8. バスを介して複数の演算部を監視する
    請求項7記載のログ採取方法。
JP2013057552A 2013-03-21 2013-03-21 ログ採取装置、演算装置、およびログ採取方法 Pending JP2014182676A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013057552A JP2014182676A (ja) 2013-03-21 2013-03-21 ログ採取装置、演算装置、およびログ採取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013057552A JP2014182676A (ja) 2013-03-21 2013-03-21 ログ採取装置、演算装置、およびログ採取方法

Publications (1)

Publication Number Publication Date
JP2014182676A true JP2014182676A (ja) 2014-09-29

Family

ID=51701306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013057552A Pending JP2014182676A (ja) 2013-03-21 2013-03-21 ログ採取装置、演算装置、およびログ採取方法

Country Status (1)

Country Link
JP (1) JP2014182676A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021128396A (ja) * 2020-02-12 2021-09-02 富士通クライアントコンピューティング株式会社 情報処理システム、情報処理装置およびプログラム
US11461157B2 (en) 2016-12-13 2022-10-04 Nec Platforms, Ltd. Peripheral device, method, and recording medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11461157B2 (en) 2016-12-13 2022-10-04 Nec Platforms, Ltd. Peripheral device, method, and recording medium
JP2021128396A (ja) * 2020-02-12 2021-09-02 富士通クライアントコンピューティング株式会社 情報処理システム、情報処理装置およびプログラム

Similar Documents

Publication Publication Date Title
US9720797B2 (en) Flash memory controller, data processing system with flash memory controller and method of operating a flash memory controller
US10089212B2 (en) Memory system, information processing system, and host device outputting debugging information through a host interface
CN107357666B (zh) 一种基于硬件保护的多核并行系统处理方法
US10025741B2 (en) System-on-chip, mobile terminal, and method for operating the system-on-chip
US9092453B2 (en) Monitoring device, information processing apparatus, and monitoring method
JP5120664B2 (ja) サーバシステム及びクラッシュダンプ採取方法
US10474618B2 (en) Debug data saving in host memory on PCIE solid state drive
US8924779B2 (en) Proxy responder for handling anomalies in a hardware system
US8122176B2 (en) System and method for logging system management interrupts
US10157005B2 (en) Utilization of non-volatile random access memory for information storage in response to error conditions
JP2014182676A (ja) ログ採取装置、演算装置、およびログ採取方法
KR102550886B1 (ko) 시스템 온 칩 및 그 동작 방법
CN115576734B (zh) 一种多核异构日志存储方法和系统
JP4558376B2 (ja) コントローラ
US20130238884A1 (en) Computer-readable recording medium storing memory dump program, information processing apparatus, and memory dump method
US11971789B2 (en) Systems, methods, and apparatus for crash recovery in storage devices
US20130318310A1 (en) Processor processing method and processor system
JP6256087B2 (ja) ダンプシステムおよびダンプ処理方法
CN103235921A (zh) 一种计算机系统
JP2015130023A (ja) 情報記録装置、情報処理装置、情報記録方法、及び情報記録プログラム
JP2013025440A (ja) 情報処理装置および障害処理方法
TWI793774B (zh) 固態硬碟裝置的除錯方法及裝置以及電腦程式產品
CN114328345B (zh) 控制信息的处理方法、装置以及计算机可读存储介质
JP2010056744A (ja) 情報処理装置、画像形成装置及びプログラム
WO2015147829A1 (en) System and method of run-time continuous memory check for embedded systems