JP2017004329A - 処理装置、dsp基板、及び動作エラー原因特定方法 - Google Patents

処理装置、dsp基板、及び動作エラー原因特定方法 Download PDF

Info

Publication number
JP2017004329A
JP2017004329A JP2015118873A JP2015118873A JP2017004329A JP 2017004329 A JP2017004329 A JP 2017004329A JP 2015118873 A JP2015118873 A JP 2015118873A JP 2015118873 A JP2015118873 A JP 2015118873A JP 2017004329 A JP2017004329 A JP 2017004329A
Authority
JP
Japan
Prior art keywords
dsp
dsps
unit
data bus
monitoring unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015118873A
Other languages
English (en)
Inventor
憲之 小川
Noriyuki Ogawa
憲之 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015118873A priority Critical patent/JP2017004329A/ja
Publication of JP2017004329A publication Critical patent/JP2017004329A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Retry When Errors Occur (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】1つの処理ユニットに複数のプロセッサが実装される場合であっても、動作エラーの原因を容易に特定できるようにする。【解決手段】処理ユニット130(DSP基板)は、タスクの実行に使用される内部データバスD2に接続された複数のプロセッサ(DSP)134−1〜134−nと、複数のプロセッサそれぞれと異なる信号線L1〜Lnで接続され、内部データバスには接続されておらず、複数のプロセッサそれぞれから信号線を介して情報を取得する監視部135と、を備える。監視部から取得した情報に基づいて、複数のプロセッサの中から動作エラーを起こしたプロセッサを特定する。【選択図】図2

Description

本発明の実施形態は、処理装置、DSP基板、及び動作エラー原因特定方法に関する。
複数の処理ユニット(例えば、プロセッサがそれぞれ実装された複数の基板)が協働して1つのタスクを実行する処理装置が知られている。このような処理装置は、メモリアクセスエラーやフリーズ等の動作エラーが発生したとしても、どの処理ユニットが動作エラーの原因か容易に特定できる。
特開2008−139986号公報
1つの処理ユニットに複数のプロセッサが実装されることがある。多くの場合、動作エラーの原因となった処理ユニットは、エラー発生時、ユニット内の全てのプロセッサが動作を停止する。また、人が立ち入ることができない極めてシビアな環境に処理装置を置くことがある。この場合、そもそもエラー発生時に人がユニット内部を確認することは困難である。1つの処理ユニットに複数のプロセッサが実装された場合、どのプロセッサが動作エラーの原因か特定するのは困難である。
処理ユニット単独で動作させたときは問題なく動作しても、複数の処理ユニットを同時に動作させたときは問題が発生することがある。この場合、処理ユニット内のどの部分が動作エラーの原因か特定することが重要になるが、上述したように、1つの処理ユニットに複数のプロセッサが実装された場合、どのプロセッサが動作エラーの原因か特定するのは困難である。動作エラーの原因が特定できない場合、処理装置の改善は困難になる。
本発明が解決しようとする課題は、1つの処理ユニットに複数のプロセッサが実装される場合であっても、動作エラーの原因を容易に特定できるようにすることである。
実施形態の処理装置は、協働して1つのタスクを実行する複数の処理ユニットを備える処理装置であって、前記複数の処理ユニットは、それぞれ、前記複数の処理ユニットがそれぞれ内部に有する内部データバスに接続された複数のプロセッサと、前記複数のプロセッサそれぞれと異なる信号線で接続され、前記複数のプロセッサが接続された前記内部データバスには接続されておらず、前記複数のプロセッサそれぞれから前記信号線を介して情報を取得する監視部と、を備える。
実施形態のDSP基板は、外部データバスで制御部と接続され、前記制御部の制御に基づいて処理を実行する複数のDSP基板を備える処理装置に搭載されるDSP基板であって、前記DSP基板の内部にある内部データバスに接続された複数のDSP(Digital Signal Processor)と、前記外部データバス及び前記内部データバスと直接的或いは間接的に接続され、前記制御部と前記DSPとの通信を中継する中継部と、前記複数のDSPそれぞれと異なる信号線で接続され、前記中継部と前記複数のDSPとを接続する前記内部データバスには接続されておらず、前記複数のDSPそれぞれから前記信号線を介して情報を取得する監視部と、を備える。
また、実施形態の動作エラー原因特定方法は、外部データバスで制御部と接続され、前記制御部の制御に基づいて処理を実行する複数のDSP基板を備える処理装置であって、前記複数のDSP基板は、それぞれ、前記複数のDSP基板がそれぞれ内部に有する内部データバスに接続された複数のDSP(Digital Signal Processor)と、前記外部データバス及び前記内部データバスと直接的或いは間接的に接続され、前記制御部と前記DSPとの通信を中継する中継部と、前記複数のDSPそれぞれと異なる信号線で接続され、前記中継部と前記複数のDSPとを接続する前記内部データバスには接続されておらず、前記複数のDSPそれぞれから前記信号線を介して情報を取得する監視部と、を備える処理装置の動作エラーの原因を特定する方法であって、前記監視部から前記複数のDSPそれぞれの情報を取得し、前記監視部から取得した情報に基づいて、前記複数のプロセッサの中から前記動作エラーを起こした前記プロセッサを特定する。
実施形態の処理装置のブロック図である。 図1に示す処理装置が備えるDSP基板のブロック図である。 演算実行処理のフローチャートである。 監視処理のフローチャートである。 DSPリセット処理のフローチャートである。
以下、本実施形態について図面を参照しながら説明する。なお、図中、同一または同等の部分には同一の符号を付す。
本実施形態の処理装置は、協働して1つのタスクを実行する複数の処理ユニットを備えた装置である。タスクとは、ユーザから見たひとまとまりの仕事のことである。例えば、タスクとは、気象レーダーや気象衛星で収集したデータの解析処理、アンテナで受信した電波の周波数解析処理、移動体が撮像した画像の解析処理等のことである。処理装置100は、1つのタスクを複数の処理ユニットに分散して処理する。
本実施形態では、処理ユニットはDSP基板であるものとする。DSP基板とは、複数のDSP(Digital Signal Processor)が実装された基板のことである。DSP基板はDSPカードあるいはDSPボードと言い換えることもできる。
DSPは、信号処理に特化したプロセッサである。DSPは、デジタルフィルタ処理やFFT(Fast Fourier Transform)等の信号処理を高速に行うことができる。複数のDSPにそれぞれ固定の信号処理を割り当て、各DSPに分散して1つの信号処理を実行させることで、処理装置は、高速かつ低消費電力で処理結果を得ることができる。低消費電力で処理結果を得ることができるので、処理装置は、シビアな温度条件下で使用される処理装置(例えば、航空機に設置される処理装置や山頂に設置される処理装置)にも適用可能である。
以下、本実施形態の処理装置100の機器構成について説明する。図1は処理装置100のブロック図である。処理装置100は、通信インタフェース110と、制御部120と、複数のDSP基板(DSP基板130−1、130−2、・・・・、130−M)と、を備える。以下の説明では、複数のDSP基板(DSP基板130−1〜130−M)の1つ1つを単にDSP基板130と呼ぶ。処理装置100は、内部にデータバスD1を有する。データバスD1には、通信インタフェース110、制御部120、及び複数のDSP基板130が接続されている。
データバスD1は、DSP基板130の外部に配置されたデータバス(以下、外部データバスという。)である。データバスD1は、例えば、16MHzのシステムクロックで動作するVME(Versa Module Eurocard)バスである。通信インタフェース110、制御部120、及び複数のDSP基板130は、データバスD1を介して通信を行う。
通信インタフェース110は、外部の装置と通信を行うための通信インタフェースである。通信インタフェース110は、外部の装置からユーザの命令等を受信し、制御部120に送信する。また、通信インタフェース110は、処理装置100の処理結果等を制御部120から受信し、外部の装置に送信する。
制御部120は、プロセッサ等から構成される。制御部120は、1つのマイクロプロセッサから構成されていてもよいし、複数のマイクロプロセッサから構成されていてもよい。また、制御部120は汎用プロセッサが実装されたCPU(Central Processing Unit)基板であってもよい。CPU基板はCPUカードあるいはCPUボードと言い換えることができる。
制御部120は、不図示のROM(Read Only Memory)やRAM(Random Access Memory)に格納されているプログラムに従って動作することで、処理装置100の各部を制御する。また、制御部120は、通信インタフェース110を介して受信したユーザの命令に従って、デジタルフィルタ処理やFFT等の処理を行う。この処理は、制御部120がDSP基板130を制御することにより実現する。
DSP基板130は、複数のDSPが実装された基板である。上述したように、処理装置100は複数のDSP基板130を備える。本実施形態では、DSP基板130は全て同じ構成である。図2は、DSP基板130のブロック図である。DSP基板130は、中継部131と、記憶部132と、記憶部133と、複数のDSP(DSP134−1〜DSP134−n)と、監視部135と、通信部136と、温度計測部137と、を備える。以下の説明では、DSP基板130に実装された複数のDSP(DSP134−1〜DSP134−n)1つ1つを単にDSP134と呼ぶ。
DSP基板130には、基板内データバス(以下、内部データバスという。)として、データバスD2と、データバスD3と、データバスD4と、が配置されている。データバスD2〜D4は、例えば、DSP基板130にプリントされた信号線である。データバスD2〜D4は、いずれも中継部131に接続されている。データバスD2には複数のDSP134が接続されており、データバスD3には記憶部133が接続されている。また、データバスD4には監視部135、通信部136、及び温度計測部137が接続されている。
データバスD2は、DSP134が計算データの送受信に使用する計算データ送受信用のデータバスである。データバスD2は高速データバス、例えば、システムクロックが100MHz以上のデータバスとすることが望ましい。一例として、データバスD2は、システムクロックが125MHzのデータバスである。これにより、DSP134は、他のDSP134若しくは記憶部133と高速にデータのやり取りができる。
中継部131は、バスプロトコルの変換機能と、データバス間の通信の中継機能と、を備えた集積回路である。中継部131は、例えば、FPGA(Field Programmable Gate Array)にハードウェアロジックをプログラミングすることによって制作される。中継部131には、データバスD2〜D4に加えてデータバスD1が接続されている。また、中継部131には記憶部132が接続されている。
データバスD2〜D4には、それぞれ、バスリセット用の信号線が含まれている。中継部131は、バスリセット用の信号線をアサートすることで、データバスD2〜D4に接続された各デバイスをリセットすることができる。例えば、中継部131は、データバスD2のバスリセット用信号線をアサートすることで、データバスD2に接続された全てのDSP134を初期状態に戻すことができる。
なお、通信部136及び温度計測部137は、バスリセット用信号線がアサートされた後、ネゲートされるのを待つことなく動作を開始するよう構成されている。そのため、中継部131がバスリセット用信号線のアサートしている間は、中継部131以外のデバイス(例えば、監視部135)が、通信部136及び温度計測部137を、中継部131と競合することなく、排他的に使用することができる。以下の説明では、バスリセット用信号線のアサート、ネゲート、或いはその双方をバスリセットと呼ぶ。なお、バスリセットの方式はバスリセット用信号線のアサート、ネゲートに限定されない。既知の様々な方式を使用可能である。
記憶部132は、DSP134のワークメモリである。記憶部132は、DRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)等のデータ読み書き可能な記憶装置から構成される。なお、中継部131と記憶部133との間は、データバスD2以上の通信速度のデータバスで接続されている。
記憶部133は、フラッシュメモリ等の不揮発性メモリから構成される。記憶部133には、複数のDSP134それぞれのプログラムが格納されている。
DSP134は、信号処理に特化したプロセッサである。DSP134は、いずれもデータバスD2に接続されている。DSP134はDMA(Direct Memory Access)コントローラを内蔵している。そのため、DSP134はCPUを介さずに、直接、メモリ(記憶部132、及び記憶部133)にアクセス可能である。DSP134は、記憶部133に格納されているプログラムに従って動作することで、後述の演算実行処理を含む種々の動作を実現する。
DSP134は、DSP起動ステータス及びメモリ診断ステータスを出力可能に構成されている。DSP起動ステータスとは、DSP134自身の起動が成功したか否かを示す起動情報が含まれる情報のことである。また、メモリ診断ステータスとは、DSP134の演算実行に使用するメモリ(例えば、記憶部132)に、DSP134が正常にアクセスできるか否かを示す判別結果が含まれる情報のことである。DSP134は、DSP起動ステータスおよびメモリ診断ステータスを後述の信号線L1〜Lnを介して監視部135に送信する。
監視部135は、DSP基板130が動作エラーを起こした場合に、その原因特定を容易にするために設けられたプロセッサである。動作エラーとは、装置あるいはデバイスがユーザの想定外の動作することである。例えば、動作エラーとは、フリーズ、起動失敗、メモリアクセスエラー、デッドロック、想定範囲外のデータの出力、エラーコードの出力、1つのプロセッサによるデータバスの長時間の占有等のことである。
監視部135は、DSP134が接続された内部データバス(すなわちデータバスD2)には接続されていない。そのため、動作エラーを起こしたDSP134にデータバスD2が占有されたり、ウォッチドッグタイマ等の監視機能によりデータバスD2が中継部131によりバスリセットされたりしたとしても、監視部135はその影響を受けることなく動作し続けることができる。
監視部135は、使用可能温度範囲を広くするため、1チップICとなっている。なお、監視部135は、使用可能温度範囲をさらに広くするため、大きなプロセスルールで設計されたマイクロプロセッサであることが望ましい。例えば、監視部135は、プロセスルールが100nm以上のマイクロプロセッサであることが望ましい。一例として、監視部135は、プロセスルールが1μm以上の8ビットの汎用マイクロプロセッサである。これにより監視部135は、シビアな使用環境でDSP134が停止したとしても、動作し続けることができる。
監視部135は、複数のDSP134のそれぞれと異なる信号線で接続されている。監視部135とDSP134−1は信号線L1で接続されており、監視部135とDSP134−2は信号線L2で接続されており、・・・・・・、監視部135とDSP134−nは信号線Lnで接続されている。これにより、監視部135は、複数のDSP134の1つが動作エラーで停止したとしても、他のDSP134と通信し続けることができる。
なお、信号線L1〜Lnは、それぞれ、1本の信号線で構成されていてもよいし、複数の信号線で構成されていてもよい。信号線L1〜Lnは、例えば、監視部135のGPIO(General Purpose Input/output)ポートに接続されている。以下の説明では複数の信号線(信号線L1〜Ln)1つ1つを単に信号線Lと呼ぶ。複数のDSP134は、それぞれ、信号線Lを介して、監視部135に起動ステータスおよびメモリ診断ステータスを送信する。
また、監視部135は、中継部131と信号線で接続されている。監視部135は、信号線を介して中継部131にバスリセットを命令する。中継部131は、監視部135からバスリセットの命令を受け取ると、内部データバス(データバスD2〜D4)をバスリセットする。
監視部135は、内部にメモリ135aを備えている。メモリ135aは、フラッシュメモリ等のデータ読み書き可能な不揮発性メモリである。メモリ135aには、DSP134から送信された情報等、ユーザが動作エラーの解析に使用する情報が格納される。また、メモリ135aには、監視部135を動作させるためのプログラムも格納される。監視部135は、メモリ135aに格納されているプログラムに従って動作することで、後述の監視処理を含む種々の動作を実現する。
通信部136は、DSP基板130上の各部品(例えば、中継部131及び監視部135)が外部の装置に情報を出力するために使用される通信インタフェースである。通信部136は、例えば、UART(Universal Asynchronous Receiver-Transmitter)から構成される。通信部136は、中継部131及び監視部135の制御に従って、ユーザが操作する外部の装置に情報を出力する。
温度計測部137は、DSP基板130の温度を計測する温度センサである。温度計測部137は、例えば、サーミスタから構成される。温度計測部137は、計測結果取得した温度情報を監視部135に送信する。また、温度計測部137は、温度情報を、中継部131を介して、制御部120に送信することも可能である。
次にこのような構成を有する処理装置100の動作について説明する。処理装置100の動作は、DSP134それぞれが実行する「演算実行処理」と、監視部135が実行する「監視処理」と、に分けられる。最初に演算実行処理を説明する。
DSP基板130への電源の投入やデータバスD2のバスリセット等により、DSP134が初期状態となると、DSP134は演算実行処理を開始する。以下、図3のフローチャートを参照して演算実行処理を説明する。
DSP134は、ブートローダ等を実行させることにより、記憶部133からプログラムをロードする(ステップS11)。そして、DSP134はロードしたプログラムに従って起動する。起動の際、DSP134は、起動処理が開始したことを、信号線Lを介して、監視部135に通知するよう構成されていてもよい。監視部135は、DSP134から起動開始の通知を受け取ったら、通知を受け取った時刻を起動時間情報としてメモリ135aに保存してもよい。なお、起動時間情報は現在時刻の情報であってもよいし、監視部135が起動してからの経過時間の情報であってもよい。
次に、DSP134は起動が成功したか否か判別する。例えば、DSP134は、起動が成功したか否を、プログラムに組み込まれた起動処理が最終ステップまで実行されたか否かにより判別してもよい。そして、DSP134は、その判別結果に基づいて、起動が成功したか否かを示す起動情報を生成する。
起動情報の形式は任意である。一例として、起動情報は、起動成功の場合が“1”、起動失敗の場合が“0”のテキスト情報である。DSP134は、生成した起動情報をDSP起動ステータスとして監視部135に送信する(ステップS12)。このとき、DSP134は、監視部135がDSP起動ステータスを確実に受け取れるように、DSP起動ステータスを繰り返し信号線Lに出力するよう構成されていてもよい。
続いて、DSP134は、記憶部132に正常にアクセスできるか否か判別する。例えば、DSP134は、記憶部132に正常にアクセスできるか否かを、記憶部132にデータをリードライトすることにより判別する。具体的には、DSP134は、以下の手順により記憶部132に正常にアクセスできるか否かを判別する。
まず、DSP134は、ランダムデータ等の予め定められたデータを記憶部132にライトする。その後、DSP134は、ライトしたデータを記憶部132からリードする。そして、DSP134はライトデータとリードデータとを比較する。比較の結果、両データが一致している場合には、DSP134は記憶部132に正常にアクセスできると判別し、両データが一致していない場合には、DSP134は記憶部132に正常にアクセスできないと判別する。
判別結果の形式は任意である。一例として、判別結果は、正常の場合が“1”、正常でない場合が“0”のテキスト情報である。DSP134は、判別結果をメモリ診断ステータスとして監視部135に送信する(ステップS13)。このとき、DSP134は、監視部135がメモリ診断ステータスを確実に受け取れるように、メモリ診断ステータスを繰り返し信号線Lに出力するよう構成されていてもよい。DSP起動ステータスも繰り返し出力するのであれば、DSP134は、メモリ診断ステータスとDSP起動ステータスを交互に出力してもよい。
続いて、DSP134は、制御部120の制御に従って演算を実行する(ステップS14)。演算結果は、逐次、記憶部132或いは制御部120に送信される。なお、DSP134は、動作エラーを起こしたら、動作エラーの原因を示すエラー情報を監視部135に送信する。エラー情報は、例えば、DSP134を動作させるプログラムに組み込まれたエラーコード(例えば、例外処理実行時に出力するようプログラムされたエラーコード)であってもよい。エラー情報は信号線Lを介して監視部135に送信される。
続いて、DSP134は、制御部120から演算の終了命令を受信したか判別する(ステップS15)。終了命令を受信していない場合(ステップS14:No)、DSP134はステップS14に戻る。終了命令を受信している場合(ステップS14:Yes)、DSP134は終了処理を実行する(ステップS16)。
次に、監視処理を説明する。DSP基板130に電源が投入されると、監視部135は監視処理を開始する。以下、図4のフローチャートを参照して監視処理を説明する。
監視部135はメモリ135aからプログラムをロードする(ステップS21)。監視部135はロードしたプログラムに従って起動する。
次に、監視部135はDSPリセット処理を開始する(ステップS22)。以下、図5のフローチャートを参照してDSPリセット処理を説明する。
まず、監視部135は、中継部131に対してバスリセットを命令する(ステップS221)。中継部131は、監視部135からバスリセットの命令を受け取ると、内部データバス(データバスD2〜D4)のバスリセット用信号線をアサートする。アサートに伴い、内部データバスに接続された各デバイスは初期状態に戻る。
監視部135は、温度計測部137から温度情報を取得する(ステップS222)。監視部135は、温度情報にタイムスタンプを関連付け、メモリ135aに保存する。タイムスタンプは現在時刻であってもよいし、監視部135が起動してからの経過時間であってもよい。
続いて、監視部135は、メモリ135aに格納されている情報を、通信部136を介して、外部の装置に出力する(ステップS223)。メモリ135aに温度情報が格納されているのであれば、監視部135は温度情報を外部の装置に出力する。また、メモリ135aにDSP134の起動時間情報が保存されているのであれば、監視部135は起動時間情報を外部の装置に出力する。
続いて、監視部135は、中継部131に対してバスリセットの解除を命令する(ステップS224)。中継部131は、監視部135からバスリセットの解除命令を受け取ると、内部データバスのバスリセット用信号線をネゲートする。ネゲートに伴い、DSP134は上述の演算実行処理を開始する。
図4に戻り、監視部135は、DSP起動ステータスを複数のDSP134のそれぞれから受け取る(ステップS23)。この際、監視部135は、複数のDSP134それぞれから送信された各DSP起動ステータスがどのDSP134のものか判別できるようにするため、DSP起動ステータスにDSP134の識別情報を付す。識別情報は、134−1、134−2、・・・・、134−n等の数値であってもよいし、A、B、C、・・・・等の記号であってもよい。監視部135は、識別情報を付したDSP起動ステータスをメモリ135aに保存する。
監視部135は、ステップS23で取得したDSP起動ステータスに基づいて、全てのDSP134の起動が成功しているか判別する(ステップS24)。起動が成功していないDSP134が1つでもある場合(ステップD24:No)、ステップS22(DSPリセット処理)に戻る。
ステップS23で収集されたDSP起動ステータスは、DSPリセット処理のステップS223で、ユーザが操作する外部の装置に出力される。ユーザはDSP起動ステータスに基づいて動作エラーの原因を判別する。例えば、ユーザはDSP起動ステータスとそのDSP起動ステータスに付されている識別情報とを確認することで、どのDSP134が起動を失敗しているか判別する。あるいは、ユーザは、監視部135から取得したDSP起動ステータスに基づいて、DSP起動ステータスを取得できていないDSP134を特定する。そして、ユーザはDSP起動ステータスを取得できていないDSP134を起動が失敗したDSP134として特定する。なお、どのDSP134が起動を失敗しているかは、ユーザではなく外部の装置がDSP起動ステータスに基づき判別してもよい。
全てのDSP134の起動が成功している場合(ステップS24:Yes)、監視部135は、メモリ診断ステータスを複数のDSP134のそれぞれから受け取る(ステップS25)。この際、監視部135は、複数のDSP134それぞれから送信された各メモリ診断ステータスがどのDSP134のものか判別できるようにするため、メモリ診断ステータスにDSP134の識別情報を付す。監視部135は、識別情報を付したメモリ診断ステータスをメモリ135aに保存する。
監視部135は、ステップS25で取得したメモリ診断ステータスに基づいて、全てのDSP134が記憶部132に正常にアクセスできているか判別する(ステップS26)。正常にアクセスできていないDSP134が1つでもある場合(ステップD26:No)、ステップS22に戻る。
ステップS24で収集されたメモリ診断ステータスは、DSPリセット処理のステップS223で、ユーザが操作する外部の装置に出力される。ユーザはメモリ診断ステータスに基づいて動作エラーの原因を判別する。より具体的には、ユーザはメモリ診断ステータスとそのメモリ診断ステータスに付されている識別情報とを確認することで、どのDSP134がメモリアクセスを失敗しているか判別する。なお、どのDSP134がメモリアクセスを失敗しているかは、ユーザではなく外部の装置がメモリ診断ステータスに基づき判別してもよい。
全てのDSP134が記憶部132に正常にアクセスできている場合(ステップS26:Yes)、監視部135はDSP134が演算実行処理を終了するまで、DSP134の監視を継続する(ステップS27)。具体的には、監視部135は、DSP134からエラー情報が送信されるのを待機する。そして、監視部135は、エラー情報を受信した場合には、エラー情報に動作エラーを起こしたDSP134の識別情報を関連付け、メモリ135aに格納する。このとき、監視部135は、温度計測部137から温度情報を取得し、取得した温度情報をエラー情報に関連付け、メモリ135aに格納してもよい。
また、監視部135は、エラー情報に識別情報を関連付け、通信部136を介して外部の装置に出力してもよい。ユーザはそのエラー情報に付された識別情報に基づいて、動作エラーを起こしたDSP134を特定してもよい。そして、ユーザはエラー情報に基づいて動作エラーの内容を特定してもよい。
本実施形態によれば、DSP基板130にはそれぞれDSP134を監視する監視部135が実装されている。監視部135は、複数のDSP134それぞれと異なる信号線L1〜Lnと接続されており、しかも、DSP134が接続されたデータバスD2には接続されていない。そのため、監視部135はDSP134の1つが動作エラーで停止したとしても、その停止の影響を受けることなく動作を継続できる。したがって、ユーザはDSP基板130が動作エラーを起こして停止したとしても、DSP134の状態を知ることができるので、動作エラーを起こしたDSP134等、動作エラーの原因を容易に知ることができる。
また、監視部135は、DSP起動ステータスおよびメモリ診断ステータスを取得するよう構成されているので、ユーザは動作エラーの内容が起動の失敗かメモリアクセスの失敗かを容易に知ることができる。
また、中継部131は、DSP134が接続された内部データバスD2をバスリセット可能に構成されている。そして、監視部135は、複数のDSP134の中に起動が失敗したDSP134がある場合には、中継部131に対して内部データバスD2をバスリセットするよう命令している。これにより、起動失敗のDSP134を含めDSP134は起動を再チャレンジするので、DSP基板130は起動失敗により停止状態に陥る確率が少なくなる。その結果、処理装置100をよりシビアな環境で操作させることができる。
また、監視部135は、複数のDSP134の中に起動が失敗したDSP134がある場合には、中継部131に対して内部データバスD2のバスリセットを命令している。これにより、メモリアクセス失敗のDSP134を含めDSP134は起動からやり直すので、DSP基板130はメモリアクセス失敗により停止状態に陥る確率が少なくなる。その結果、処理装置100をよりシビアな環境で操作させることができる。
DSP基板130にはそれぞれ温度計測部137が実装されている。そして、監視部135は、複数のDSP134の中に、起動失敗若しくはメモリアクセス失敗のDSP134がある場合には、中継部131にバスリセットを命令するとともに、温度計測部137が計測した温度情報を取得する。これにより、ユーザは動作エラー発生時のDSP基板130の温度を知ることができるので、動作エラーの解析を容易にすることができる。
上述の実施形態は一例を示したものであり、種々の変更及び応用が可能である。
例えば、上述の実施形態では、処理装置100が備える処理ユニットはDSP基板130であるものとして説明したが、処理ユニットはDSP基板に限定されない。例えば、処理ユニットは、DSP以外のプロセッサ(例えば、汎用のマイクロプロセッサ)が実装された基板(ボード或いはカード)であってもよい。
また、上述の実施形態では、処理装置100が複数のDSP基板130は全て同じ構成であるものとして説明したが、DSP基板130の構成は異なっていてもよい。例えば、DSP基板130が備えるDSP134の数は基板毎に異なっていてもよい。
また、上述の実施形態では、監視部135は、メモリ135aに格納された情報(例えば、起動時間情報、DSP起動ステータス(起動情報)、メモリ診断ステータス(判別結果)、エラー情報、温度情報等。以下、エラー解析情報という。)を自発的に外部の装置に出力するよう構成されていたが、監視部135は、外部の装置からの要求に応じてエラー解析情報を出力するよう構成されていてもよい。
また、監視部135はエラー解析情報を外部に出力せず、メモリ135aに格納するだけであってもよい。この場合、ユーザは、メモリ135aから、直接、エラー解析情報を抽出してもよい。また、監視部135はメモリ135aにエラー解析情報を格納せずに外部の装置に出力するよう構成されていてもよい。
また、上述の実施形態では、DSP134はワークメモリとなる記憶部132にデータバスD2及び中継部131を介して間接的に接続されていた。しかし、記憶部132はデータバスD2に接続されていてもよいし、DSP134それぞれに1つずつ直接接続されていてもよい。
また、上述の実施形態では、中継部131はデータバスD1およびデータバスD2と直接接続されるものとして説明した。しかし、中継部131はデータバスD1およびデータバスD2と間接的に接続されていてもよい。例えば、DSP基板130は、DSP基板130を処理装置100のデータバスD1から着脱可能にする不図示の接続インタフェースを備え、中継部131はその接続インタフェースを介してデータバスD1と接続されていてもよい。また、DSP基板130は、データバスの中継機能を備えた不図示のデバイス(例えば、ブリッジ)を備え、中継部131はそのデバイスを介してデータバスD2と接続されていてもよい。
また、上述の実施形態では中継部131は、FPGAにハードウェアロジックをプログラミングすることによって構成されるものとして説明したが、中継部131は汎用プロセッサにソフトウェアを動作させることにより構成してもよい。
本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことが出来る。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100…処理装置
110…通信インタフェース
120…制御部
130、130−1〜130−M…DSP基板
131…中継部
132、133…記憶部
134、134−1〜134−n…DSP
135…監視部
135a…メモリ
136…通信部
137…温度計測部
D1〜D4…データバス
L、L1〜Ln…信号線

Claims (10)

  1. 協働して1つのタスクを実行する複数の処理ユニットを備える処理装置であって、
    前記複数の処理ユニットは、それぞれ、
    前記複数の処理ユニットがそれぞれ内部に有する内部データバスに接続された複数のプロセッサと、
    前記複数のプロセッサそれぞれと異なる信号線で接続され、前記複数のプロセッサが接続された前記内部データバスには接続されておらず、前記複数のプロセッサそれぞれから前記信号線を介して情報を取得する監視部と、を備える、
    処理装置。
  2. 外部データバスで制御部と接続され、前記制御部の制御に基づいて処理を実行する複数のDSP基板を備える処理装置であって、
    前記複数のDSP基板は、それぞれ、
    前記複数のDSP基板がそれぞれ内部に有する内部データバスに接続された複数のDSP(Digital Signal Processor)と、
    前記外部データバス及び前記内部データバスと直接的或いは間接的に接続され、前記制御部と前記DSPとの通信を中継する中継部と、
    前記複数のDSPそれぞれと異なる信号線で接続され、前記中継部と前記複数のDSPとを接続する前記内部データバスには接続されておらず、前記複数のDSPそれぞれから前記信号線を介して情報を取得する監視部と、を備える、
    処理装置。
  3. 前記監視部は、前記DSP基板の起動時に前記複数のDSPそれぞれから、前記信号線を介して、起動が成功したか否かを示す起動情報を取得する、
    請求項2に記載の処理装置。
  4. 前記中継部は、前記複数のDSPが接続された前記内部データバスをバスリセットすることが可能であり、
    前記監視部は、
    前記起動情報に基づいて、前記信号線で接続された前記複数のDSPの中に起動が失敗した前記DSPがあるか否か判別し、
    起動が失敗した前記DSPがある場合に、前記中継部に対して、前記複数のDSPが接続された前記内部データバスのバスリセットを命令し、
    前記複数のDSPは、前記内部データバスがバスリセットされた場合には、起動を最初から実行し直す、
    請求項3に記載の処理装置。
  5. 前記複数のDSP基板は、それぞれ、
    前記複数のDSPと直接的或いは間接的に接続された記憶部を備え、
    前記複数のDSPは、それぞれ、前記記憶部に正常にアクセスできるか否か判別し、その判別結果を前記信号線に出力し、
    前記監視部は、前記複数のDSPから前記判別結果を取得する、
    請求項2乃至4のいずれか1項に記載の処理装置。
  6. 前記複数のDSP基板は、それぞれ、
    前記監視部に温度情報を出力する温度計測部、を備え、
    前記監視部は、前記温度計測部から前記温度情報を取得する、
    請求項2乃至5のいずれか1項に記載の処理装置。
  7. 前記複数のDSP基板は、それぞれ、
    前記監視部と接続され、前記監視部から受信した情報を前記DSP基板の外部に出力する通信部、を備え、
    前記監視部は、前記複数のDSPそれぞれから前記信号線を介して取得した情報を、前記通信部を介して、前記DSP基板の外部に出力する、
    請求項2乃至6のいずれか1項に記載の処理装置。
  8. 前記複数のDSP基板は、それぞれ、
    前記監視部と接続され、前記監視部から受信した情報を記憶する不揮発性メモリ、を備え、
    前記監視部は、前記複数のDSPそれぞれから前記信号線を介して取得した情報を、前記不揮発性メモリに出力する、
    請求項2乃至7のいずれか1項に記載の処理装置。
  9. 外部データバスで制御部と接続され、前記制御部の制御に基づいて処理を実行する複数のDSP基板を備える処理装置に搭載されるDSP基板であって、
    前記DSP基板の内部にある内部データバスに接続された複数のDSP(Digital Signal Processor)と、
    前記外部データバス及び前記内部データバスと直接的或いは間接的に接続され、前記制御部と前記DSPとの通信を中継する中継部と、
    前記複数のDSPそれぞれと異なる信号線で接続され、前記中継部と前記複数のDSPとを接続する前記内部データバスには接続されておらず、前記複数のDSPそれぞれから前記信号線を介して情報を取得する監視部と、を備える、
    DSP基板。
  10. 外部データバスで制御部と接続され、前記制御部の制御に基づいて処理を実行する複数のDSP基板を備える処理装置であって、前記複数のDSP基板は、それぞれ、前記複数のDSP基板がそれぞれ内部に有する内部データバスに接続された複数のDSP(Digital Signal Processor)と、前記外部データバス及び前記内部データバスと直接的或いは間接的に接続され、前記制御部と前記DSPとの通信を中継する中継部と、前記複数のDSPそれぞれと異なる信号線で接続され、前記中継部と前記複数のDSPとを接続する前記内部データバスには接続されておらず、前記複数のDSPそれぞれから前記信号線を介して情報を取得する監視部と、を備える処理装置の動作エラーの原因を特定する方法であって、
    前記監視部から前記複数のDSPそれぞれの情報を取得し、
    前記監視部から取得した情報に基づいて、前記複数のDSPの中から前記動作エラーを起こした前記DSPを特定する、
    動作エラー原因特定方法。
JP2015118873A 2015-06-12 2015-06-12 処理装置、dsp基板、及び動作エラー原因特定方法 Pending JP2017004329A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015118873A JP2017004329A (ja) 2015-06-12 2015-06-12 処理装置、dsp基板、及び動作エラー原因特定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015118873A JP2017004329A (ja) 2015-06-12 2015-06-12 処理装置、dsp基板、及び動作エラー原因特定方法

Publications (1)

Publication Number Publication Date
JP2017004329A true JP2017004329A (ja) 2017-01-05

Family

ID=57752775

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015118873A Pending JP2017004329A (ja) 2015-06-12 2015-06-12 処理装置、dsp基板、及び動作エラー原因特定方法

Country Status (1)

Country Link
JP (1) JP2017004329A (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0271336A (ja) * 1988-09-06 1990-03-09 Nec Corp プロセッサの障害状態監視方式
JP2002312333A (ja) * 2001-04-12 2002-10-25 Mitsubishi Electric Corp マルチプロセッサ初期化/並行診断方法
JP2009020573A (ja) * 2007-07-10 2009-01-29 Toshiba Corp Dspカード試験装置
JP2010244174A (ja) * 2009-04-02 2010-10-28 Toshiba Corp Dspカード試験装置およびdspカード試験装置における故障異常情報のモニタ方法
WO2012046293A1 (ja) * 2010-10-04 2012-04-12 富士通株式会社 障害監視装置、障害監視方法及びプログラム
JP2013025440A (ja) * 2011-07-19 2013-02-04 Hitachi Ltd 情報処理装置および障害処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0271336A (ja) * 1988-09-06 1990-03-09 Nec Corp プロセッサの障害状態監視方式
JP2002312333A (ja) * 2001-04-12 2002-10-25 Mitsubishi Electric Corp マルチプロセッサ初期化/並行診断方法
JP2009020573A (ja) * 2007-07-10 2009-01-29 Toshiba Corp Dspカード試験装置
JP2010244174A (ja) * 2009-04-02 2010-10-28 Toshiba Corp Dspカード試験装置およびdspカード試験装置における故障異常情報のモニタ方法
WO2012046293A1 (ja) * 2010-10-04 2012-04-12 富士通株式会社 障害監視装置、障害監視方法及びプログラム
JP2013025440A (ja) * 2011-07-19 2013-02-04 Hitachi Ltd 情報処理装置および障害処理方法

Similar Documents

Publication Publication Date Title
US9367446B2 (en) Computer system and data recovery method for a computer system having an embedded controller
US9514846B2 (en) Memory module status indication
US20150220411A1 (en) System and method for operating system agnostic hardware validation
US20080046706A1 (en) Remote Monitor Module for Computer Initialization
US20100251022A1 (en) Integrated circuit, debugging circuit, and debugging command control method
EP3167371B1 (en) A method for diagnosing power supply failure in a wireless communication device
US10691562B2 (en) Management node failover for high reliability systems
US10762029B2 (en) Electronic apparatus and detection method using the same
US7725806B2 (en) Method and infrastructure for recognition of the resources of a defective hardware unit
US20200264924A1 (en) Electronic device and control method thereof
US11003778B2 (en) System and method for storing operating life history on a non-volatile dual inline memory module
JP6352627B2 (ja) コンピュータシステム及びその動作方法
JP2017004329A (ja) 処理装置、dsp基板、及び動作エラー原因特定方法
CN104182290A (zh) 除错装置及除错方法
US20170192917A1 (en) Systems and methods for hardware arbitration of a communications bus
JP2004302731A (ja) 情報処理装置および障害診断方法
JP4558376B2 (ja) コントローラ
US10289467B2 (en) Error coordination message for a blade device having a logical processor in another system firmware domain
CN107301037B (zh) 操作系统内核的加载方法和装置
CN111061603B (zh) 可记录自检数据的主板和计算机、自检数据的记录方法
JP7324637B2 (ja) コンピュータ装置及び再起動方法
US9405629B2 (en) Information processing system, method for controlling information processing system, and storage medium
CN113010303A (zh) 一种处理器间的数据交互方法、装置以及服务器
JP2019191942A (ja) 制御装置および機能検査方法
JP2014182676A (ja) ログ採取装置、演算装置、およびログ採取方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20170907

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20170908

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180314

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190709