JP2008003646A - 不良モジュール検出方法および信号処理装置 - Google Patents

不良モジュール検出方法および信号処理装置 Download PDF

Info

Publication number
JP2008003646A
JP2008003646A JP2006169524A JP2006169524A JP2008003646A JP 2008003646 A JP2008003646 A JP 2008003646A JP 2006169524 A JP2006169524 A JP 2006169524A JP 2006169524 A JP2006169524 A JP 2006169524A JP 2008003646 A JP2008003646 A JP 2008003646A
Authority
JP
Japan
Prior art keywords
module
communication
counting
defective
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006169524A
Other languages
English (en)
Inventor
Tomoko Osaki
智子 大崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006169524A priority Critical patent/JP2008003646A/ja
Priority to US11/544,780 priority patent/US20080008166A1/en
Publication of JP2008003646A publication Critical patent/JP2008003646A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)

Abstract

【課題】本発明は、相互に通信を行なう複数のモジュールを有する信号処理装置における不良モジュールを検出する不良モジュール検出方法に関し、不良モジュールを容易に検出する。
【解決手段】通信障害の発生を監視して、通信障害が発生する度に、今回の通信に関与したモジュールの通信障害発生数を加算することにより、モジュールごとの通信障害発生数を計数する計数ステップと、計数ステップで得られたモジュールごとの計数値に基づいて不良モジュールを検出する検出ステップとを有する。
【選択図】 図3

Description

本発明は、相互に通信を行なう複数のモジュールを有する信号処理装置、およびその信号処理装置における不良モジュールを検出する不良モジュール検出方法に関する。
例えば通信の分野において信号の伝送を担う信号伝送装置等には、相互に通信を行なう複数のプロセッサモジュールを備えたFT(フォールトトレラント:耐故障に優れている)機能を有するマルチプロセッサシステムが搭載されている。
図1は、FT機能を有するマルチプロセッサシステムの一例を示す図である。
この図1に示すマルチプロセッサシステム10には、複数(ここではn+1個)のプロセッサモジュール(PM)11_0,11_1,…,11_nと、二重化されたシステム制御モジュール(SCM)12_0,12_1と、二重化された共用メモリモジュール(SSM)13_0,13_1と、二重化されたシステムバス14_0,14_1と、二重化されたメンテナンスバス15_0,15_1と、二重化された通信アダプタ16_0,16_1を備えている。
複数のPM11_0,11_1,…,11_nは、システムバス14_0,14_1を介して相互に通信を行ないながら、このマルチプロセッサシステム10における信号処理を分担して実行する。このマルチプロセッサシステム10における信号処理の内容は、如何なる内容であってもよく、ここでは、その信号処理の内容には触れないものとする。二重化されたSCM12_0,12_1は、PM間通信の監視やこのマルチプロセッサシステム10の全体の制御を担っている。これらのSCM12_0,12_1は、相互に連絡をとりながら各メンテナンスバス15_0,15_1を介してこのマルチプロセッサシステム10の各部の制御を行なっている。
また、二重化されたSSM13_0,13_1は、一方のマスタSSM13_0への書き込みがもう一方のスレーブSSM13_1にも記録され、データを二重化して保存するものである。ただしマスタSSM13_0が故障したときは、ソフトウェア制御により、もう一方のスレーブSSM13_1がマスタSSMとなり業務を継続する。
さらに、二重化された通信アダプタ16_0,16_1は、上位のホスト(図示せず)との間の通信を担っている。
この図1に示すようなマルチプロセッサシステム10の場合、各要素が二重化あるいは多重化されているため、故障に対する耐性に優れている。
しかしながら、図1に示すようなマルチプロセッサシステム10においては、あるPMが例えば他のPMに対してアクセスしてタイムアウトやパリティエラーが発生しても故障箇所を特定するのが困難であるという問題がある。
このため従来は、故障情報を記録しておいてその故障情報から被疑箇所を推定し、推定した部品を保守部品と交換するなどにより被疑箇所を切り分けたり、専用のテストプログラムを実行させて切り分けるなどの手法を用いていたが、推定に誤りがあって故障から回復させることができず、さらに別の箇所について保守部品を交換する必要を生じるなど非効率的である。また、故障が間欠的なものであると、専用のテストプログラムを実行させるためにシステムの電源を一旦切断すると二度と再現しなくなり、推定で被疑部品を交換せざるを得ず、極めて不確実な対応が採られることになる。
特許文献1には、バスを監視してバス上の信号値を記録する履歴記憶手段を設けることが提案されており、特許文献2には、バス監視機構を設けエラーを検出した場合にエラー情報を送出することが提案されている。
しかしながら履歴情報が残っていたりエラー情報の通知を受けても、上記のとおり、例えば送信側と受信側のどちらが不良なのか切り分けが難しいなど、故障箇所の特定は困難である。
特開平7−230432号公報 特開昭57−168318号公報
本発明は、上記事情に鑑み、相互に通信を行なう複数のモジュールを有する信号処理装置において不良モジュールを容易に検出する不良モジュール検出方法、および、不良モジュールを容易に検出する手段を有する信号処理装置を提供することを目的とする。
上記目的を達成する本発明の信号処理装置は、相互に通信を行なう複数のモジュールを有する信号処理装置における不良モジュールを検出する不良モジュール検出方法において、
通信障害の発生を監視して、通信障害が発生した際に、今回の通信に関与したモジュールの通信障害発生数をモジュールごとに計数する計数ステップと、
計数ステップで得られたモジュールごとの計数値に基づいて不良モジュールを検出する検出ステップとを有することを特徴とする。
本発明の不良モジュール検出方法は、障害が発生した通信に関与したモジュールの通信障害発生数を各モジュールごとに計数しておいて、その計数値に基づいて不良モジュールを検出するものであり、不良モジュールを容易に切り分けることができる。
ここで、本発明の不良モジュール検出方法において、上記信号処理装置が、複数のモジュール相互間で通信を行なうための通信路を複数備えたものであって、
上記計数ステップが、通信障害発生数を、モジュールごと、かつ、通信路ごとに計数するステップであってもよい。
こうすることにより、不良モジュールを一層明確に切り分けることができる。
さらに、本発明の不良モジュール検出方法において、上記検出ステップは、通信不良発生数が所定数を越えるモジュールの使用を停止させた上で信号処理装置の稼動を続行させ、そのモジュールの使用停止後の通信障害発生数が所定数を下回ることをもって、そのモジュールを不良モジュールとするものであることが好ましい。
具体的には、例えばこのような手法を採用することにより、不良モジュールを容易かつ確実に検出することができる。
さらに、本発明の不良モジュール検出方法において、上記計数ステップが、モジュールごとの通信障害発生の計数値を、繰り返し発生する所定のタイミングごとにクリアして、新たに計数を開始するものであることが好ましい。
このようにして計数を繰り返すことで、不良の発生状況の把握が一層容易となる。
また、上記目的を達成する本発明の信号処理装置は、相互に通信を行なう複数のモジュールを有する信号処理装置において、
通信障害の発生を監視して、通信障害発生に応じて、通信に関与したモジュールの通信障害発生数をモジュールごとに計数する計数部と、
上記計数部で得られたモジュールごとの計数値に基づいて不良モジュールを検出する検出部とを有することを特徴とする。
尚、本発明の信号処理装置には、上記の本発明の不良モジュール検出方法の各種態様を実施する構成を有する各種態様の信号処理装置の全てが含まれる。
以上のとおり、本発明によれば、不良モジュールを容易に検出することができる。
以下、本発明の実施形態について説明する。
ここでは、図1を、そのまま、本発明の信号処理装置の一実施形態としてのマルチプロセッサシステムとして流用して説明する。
この図1は、基本的には、前述したとおりであるが、一部補足しておく。複数のPM11_0,11_1,…,11_nは、ホルトさせて再起動することにより信号処理を分担しない待機状態となり、さらに、このシステムから切り離すことにより、物理的にはそこに存在するもののこのシステムからは一切見えない状態とすることができる。待機状態にあるPMは、このシステムの信号処理を分担する現用のPMに復帰することができる。
またSCM12_0,12_1は、マスタ/スレーブの二重化で構成され、予測制御等のシステム制御機能とバス制御機能とを持ち、マスタSCM12−0が故障したときはスレーブSCM12−1がマスタSCMとなって業務を継続する。また、SCM12_0,12_1は、PM11_0,11_1,…,11_nにアクセスしたりSCM相互間でアクセスするための専用のメンテナンスバス15_0,15_1を有する。
図2は、各PMの各システムバスごとの通信障害発生回数を記録したテーブルの一例を示す図である。
このテーブルは、SSM13_0,13_1内に領域が用意されている。
SCM12_0,12_1は、PM間通信を監視し、通信の異常を認識したら、メンテナンスバス15_0,15_1を介して、図2に示すテーブル中の、発信元のPMと受信先のPMの、今回の通信において使用したシステムバス側の欄に、それぞれ1を加算することにより、そのテーブルを更新する。またPM11_0,11_1,…,11_nも、他のPMとの通信の失敗時に、図2のテーブル中の自PMと受信先のPMの、今回の通信に使用したシステムバス側の欄に、両系のシステムバス14_0,14_1を使用して1を加算する。
SCM12_0,12_1は、図2に示すテーブルの内容を一定時間Tmsごとにチェックし、図2のテーブルの内容を、SSM内のログエリアに格納し、異常の回数が規定回数(m回)以上のPMがあった場合には、そのPMをホルト/再起動する。そうすると、当該PMは、再起動後は待機PMとなり、それまで待機PMとなっていたPMが現用PMに復帰して業務が継続される。
ホルトの対象となるPMが同時に複数台あった場合は、最若番のPMをホルト/再起動する。当該PMを再起動後、SCMは図2のテーブルを0クリアする。
SCMは、上記のPMのホルト/再起動後の図2のテーブルの内容のチェック時、異常の回数が規定以上となっているホルト対象のPMがない場合は、前回のホルト/再起動したPMが障害要因と判断してシステムから切り離す(再びホルト/再起動させない)。あるPMをホルト/再起動したにもかかわらず、まだ異常の回数が規定以上のPMがあった場合(システムバスの故障が復旧していない場合)は、図2のテーブルでホルトの対象となる別のPMのホルト/再起動を行なう。
図2のテーブルのチェックにより全てのPMに対してホルト/再起動しても、異常の回数が規定以上発生する場合は、SCM自身が障害要因と判断する。ログ領域のログを参照し、異常発生回数の多いシステムバスに接続されたSCMをシステムより切り離し、上位のホストに向けて、切り離した被疑部品と保守部品との交換をオペレータに指示するための通知を行なう。
図3は、SCMで実行される、上記の処理を示したフローチャートである。
PM間通信がチェックされ(ステップS1)、異常の有無が検出される(ステップS2)。通信異常が検出されると、図2に示す、SSM内のテーブルの、送信側PM、受信側PMの双方であって、今回の通信に使用したシステムバスに対応する欄の数値が1ずつ加算される(ステップS3)。
上記のステップS1〜S3を繰り返し、規定時間Tmsが経過すると(ステップS4)、図2に示す、SSM内のPM通信結果を示すテーブルがチェックされる(ステップS5)。ここでは、そのテーブルの内容がSCM内のログエリア内に格納され(ステップS6)、SSM内のPM間通信結果(図2のテーブル)が0クリアされた上で(ステップS7)、ステップS5でのチェック効果に基づいて以下の処理がなされる。
すなわち異常発生回数が規定回数以上のPMの存在が判定され(ステップS8)、異常発生回数が規定回数以上のPMが今回は存在しないときは、過去において異常発生回数が多かったことから既に、ホルト/再起動により待機PMとなっているPMが存在するか否かが判定され(ステップS9)、過去のホルト/再起動により待機PMとなっているPMが存在するときはそのPMがシステムより切り離され(ステップS10)、上位のホストに向けてそのPMをシステムより切り離したことが通知される(ステップS14)。ステップS9において過去にホルト/再起動されたPMが存在しないと判定されたときは、ステップS1に戻りPM間通信チェックが続行される。
ステップS8において、異常発生回数が規定回数以上のPMが存在すると判定されると、既に、異常発生回数が規定回数以上のPMのうちの全てのPMを一旦ホルト/再起動させたかどうか、すなわち、未だ待機状態に移行していない現用のままのPMが存在しないかどうかが判定され(ステップS11)、未だ待機状態になっていないPMをホルト/再起動により待機PMとし(ステップS12)、その旨がホストに報告され(ステップS14)、PM間通信チェックに戻る。ステップS11で、既に全てのPMが一旦は待機PMとなっていた場合、すなわち、どのPMを待機PMに移行させても通信異常の発生が収束しなかったときは、今度は、異常回数の多いシステムバスに接続されたSCMがホルトされ(ステップS13)、その旨ホストに報告される(ステップS14)。
上記の実施形態を実施する前の、図1に示すような従来のシステムの場合、例えば、バス障害が発生したとき、障害が発生したバスを閉塞して使用出来ないようにすることで、システムとしてはもう一方のバスを使用して運用を維持することが出来る。しかしながら、以降の故障による影響の拡大を回避するためには故障箇所の特定と故障部品の交換が必要であるため、運用終了後等に改めて専用のテストプログラム等を使用して故障箇所の切り分けを実施する必要があった。
また、故障が間欠の場合、システムの電源をオフ/オンすることで発生しなくなる可能性が高く、切り分けのために一旦システムの電源をオフしてしまうと二度と再現しないことが殆どであった。従って、残っているロギング情報から、推定により被疑部品を特定して交換するなど、不確実な対処をせざるを得ない場合があった。
これに対し、上記の実施形態によると、障害が発生した時点でシステムを停止させることなく、被疑部品の切り分けと自動復旧の確率が向上するというメリットがある。
尚、本発明は、マルチプロセッサモジュールを通信に利用したシステムのみに適用されるものではなく、分野を問わず適用することができる。
FT機能を有するマルチプロセッサシステムの一例を示す図である。 各PMの各システムバスごとの通信障害発生回数を記録したテーブルの一例を示す図である。 SCMで実行されるフローチャートである。
符号の説明
10 マルチプロセッサシステム
11_0,11_1,…,11_n プロセッサモジュール(PM)
12_0,12_1 システム制御モジュール(SCM)
13_0,13_1 共用メモリモジュール(SSM)
14_0,14_1 システムバス
15_0,15_1 メンテナンスバス
16_0,16_1 通信アダプタ

Claims (5)

  1. 相互に通信を行なう複数のモジュールを有する信号処理装置における不良モジュールを検出する不良モジュール検出方法において、
    通信障害の発生を監視して、通信障害が発生した際に、今回の通信に関与したモジュールの通信障害発生数をモジュールごとに計数する計数ステップと、
    前記計数ステップで得られたモジュールごとの計数値に基づいて不良モジュールを検出する検出ステップとを有することを特徴とする不良モジュール検出方法。
  2. 前記信号処理装置が、前記複数のモジュール相互間で通信を行なうための通信路を複数備えたものであって、
    前記計数ステップが、通信障害発生数を、モジュールごと、かつ、通信路ごとに計数するステップであることを特徴とする請求項1記載の不良モジュール検出方法。
  3. 前記検出ステップが、通信不良発生数が所定数を越えるモジュールの使用を停止させた上で前記信号処理装置の稼動を続行させ、該モジュールの使用停止後の通信障害発生数が所定数を下回ることをもって、該モジュールを不良モジュールとして検出するステップであることを特徴とするものであることを特徴とする請求項1記載の不良モジュール検出方法。
  4. 前記計数ステップが、モジュールごとの通信障害発生の計数値を、繰り返し発生する所定のタイミングごとにクリアして、新たに計数を開始するものであることを特徴とする請求項1記載の不良モジュール検出方法。
  5. 相互に通信を行なう複数のモジュールを有する信号処理装置において、
    通信障害の発生を監視して、通信障害発生に応じて、通信に関与したモジュールの通信障害発生数をモジュールごとに計数する計数部と、
    前記計数部で得られたモジュールごとの計数値に基づいて不良モジュールを検出する検出部とを備えたことを特徴とする信号処理装置。
JP2006169524A 2006-06-20 2006-06-20 不良モジュール検出方法および信号処理装置 Withdrawn JP2008003646A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006169524A JP2008003646A (ja) 2006-06-20 2006-06-20 不良モジュール検出方法および信号処理装置
US11/544,780 US20080008166A1 (en) 2006-06-20 2006-10-10 Method of detecting defective module and signal processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006169524A JP2008003646A (ja) 2006-06-20 2006-06-20 不良モジュール検出方法および信号処理装置

Publications (1)

Publication Number Publication Date
JP2008003646A true JP2008003646A (ja) 2008-01-10

Family

ID=38919065

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006169524A Withdrawn JP2008003646A (ja) 2006-06-20 2006-06-20 不良モジュール検出方法および信号処理装置

Country Status (2)

Country Link
US (1) US20080008166A1 (ja)
JP (1) JP2008003646A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101963097A (zh) * 2010-08-19 2011-02-02 江苏省新华中自动化设备有限公司 发电机组自动化的全屏显示器
JP2014137806A (ja) * 2013-01-18 2014-07-28 Fujitsu Ltd 故障通知装置、故障通知方法、及び故障通知プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110017719A (ko) * 2009-08-14 2011-02-22 삼성전자주식회사 비디오 부호화 방법 및 장치, 비디오 복호화 방법 및 장치

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4569015A (en) * 1983-02-09 1986-02-04 International Business Machines Corporation Method for achieving multiple processor agreement optimized for no faults
US4610013A (en) * 1983-11-08 1986-09-02 Avco Corporation Remote multiplexer terminal with redundant central processor units
US5155729A (en) * 1990-05-02 1992-10-13 Rolm Systems Fault recovery in systems utilizing redundant processor arrangements
US5491787A (en) * 1994-08-25 1996-02-13 Unisys Corporation Fault tolerant digital computer system having two processors which periodically alternate as master and slave
US5627962A (en) * 1994-12-30 1997-05-06 Compaq Computer Corporation Circuit for reassigning the power-on processor in a multiprocessing system
US5682470A (en) * 1995-09-01 1997-10-28 International Business Machines Corporation Method and system for achieving collective consistency in detecting failures in a distributed computing system
US6510529B1 (en) * 1999-09-15 2003-01-21 I-Bus Standby SBC backplate
US6711700B2 (en) * 2001-04-23 2004-03-23 International Business Machines Corporation Method and apparatus to monitor the run state of a multi-partitioned computer system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101963097A (zh) * 2010-08-19 2011-02-02 江苏省新华中自动化设备有限公司 发电机组自动化的全屏显示器
JP2014137806A (ja) * 2013-01-18 2014-07-28 Fujitsu Ltd 故障通知装置、故障通知方法、及び故障通知プログラム

Also Published As

Publication number Publication date
US20080008166A1 (en) 2008-01-10

Similar Documents

Publication Publication Date Title
EP1703401B1 (en) Information processing apparatus and control method therefor
TWI529624B (zh) Method and system of fault tolerance for multiple servers
JP2008097164A (ja) 複数の機能要素から構成されるシステムの故障監視方法
US7953016B2 (en) Method and system for telecommunication apparatus fast fault notification
US20140298076A1 (en) Processing apparatus, recording medium storing processing program, and processing method
US20080010494A1 (en) Raid control device and failure monitoring method
JP2008003646A (ja) 不良モジュール検出方法および信号処理装置
US7624305B2 (en) Failure isolation in a communication system
CN112650620B (zh) 一种存在主从关系的双机冷备份自主冗余方法
US8451019B2 (en) Method of detecting failure and monitoring apparatus
CN102624537B (zh) 一种数据恢复系统及方法
JP2009003592A (ja) コンピュータの異常検出・復旧方式
JP2009252006A (ja) コンピュータシステムにおけるログ管理システム、ログ管理方法
JP2007028118A (ja) ノード装置の故障判断方法
CN116737462A (zh) 一种数据处理方法、系统、装置及介质
JP2010165136A (ja) 冗長化制御装置
KR101448013B1 (ko) 항공기용 다중 컴퓨터의 고장 허용 장치 및 방법
JP2008152552A (ja) 計算機システム及び障害情報管理方法
JP2016212506A (ja) 情報処理システム、制御装置および制御プログラム
JP2009110218A (ja) 仮想化スイッチおよびそれを用いたコンピュータシステム
CN110321261B (zh) 一种监控系统及监控方法
KR20140140719A (ko) 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법
JP5951520B2 (ja) 多重系処理システム
JP2015106226A (ja) 二重化システム
JP2009075719A (ja) 冗長構成装置及びその自己診断方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090901