JP2006259869A - マルチプロセッサシステム - Google Patents

マルチプロセッサシステム Download PDF

Info

Publication number
JP2006259869A
JP2006259869A JP2005073300A JP2005073300A JP2006259869A JP 2006259869 A JP2006259869 A JP 2006259869A JP 2005073300 A JP2005073300 A JP 2005073300A JP 2005073300 A JP2005073300 A JP 2005073300A JP 2006259869 A JP2006259869 A JP 2006259869A
Authority
JP
Japan
Prior art keywords
failure
information
processor
history information
bus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005073300A
Other languages
English (en)
Inventor
Kunio Yamaguchi
邦男 山口
Naoki Kawasaki
直樹 河崎
Mitsuhiro Noyama
光弘 野山
Shinji Kawamoto
真嗣 川本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005073300A priority Critical patent/JP2006259869A/ja
Priority to EP05254408A priority patent/EP1703395A2/en
Priority to US11/192,190 priority patent/US20060212754A1/en
Publication of JP2006259869A publication Critical patent/JP2006259869A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】 複数のプロセッサ2_1〜2_nが管理プロセッサ1によって管理され、バス制御装置4によって共有メモリ3へのアクセスが制御されるマルチプロセッサシステムに関し、或るプロセッサで障害が発生したとき、障害発生に至るまでの全プロセッサの連携動作の解析を可能にする。
【解決手段】 管理プロセッサ1又はバス制御装置4が、システム起動時に同期化された時刻情報を各プロセッサ2_1〜2_nに与え、各プロセッサ2_1〜2_nが、該時刻情報に関連付けて自己の走行履歴情報を収集する。また、各プロセッサ2_1〜2_nは、障害検出したとき、自己の走行履歴情報を停止すると共に他のプロセッサへ該障害検出を通知することにより、その走行履歴情報を停止させる。各プロセッサ2_1〜2_nは、自己の走行履歴情報の収集を停止した後、該走行履歴情報を共有メモリ3以外に設けた不揮発性メモリ13に格納する。
【選択図】 図1

Description

本発明は、マルチプロセッサシステムに関し、特に移動通信システムの無線ネットワーク制御装置内に設けられた、複数の呼処理プロセッサが管理プロセッサによって管理されるマルチプロセッサシステムに関するものである。
現在の移動通信システムの呼処理では、携帯電話サービスの拡大、及び無線ネットワークにおける音声・画像等の膨大なデータ通信の普及に伴う急激な高トラヒック化への追従が要求されおり、図6に示す様な構成で呼処理を実施している。
図中の無線ネットワーク制御装置103は、移動機101と情報の送受信を行っている基地局102_1〜102_3(符号「102」で総称することがある。)の制御及び発着信接続制御等を行い、また基地局102側と固定ネットワークに接続されているATM交換機104とのユーザー信号のプロトコル変換を行っている。この無線ネットワーク制御装置103は、図示のように、基地局回線終端装置1031と、ATMパケット通話路制御装置1032と呼処理制御信号終端装置1033と呼処理装置1034と交換機回線終端装置1035とで構成されている。この内の呼処理装置1034は、基地局102の制御、発着信接続制御及びプロトコル終端を行う為に、マルチプロセッサシステムを構成して呼処理を行うことが一般的である。
以下にマルチプロセッサ構成を備えた呼処理装置の従来技術を図7に示す構成例と、図8に示す動作シーケンスを参照して説明する。
このマルチプロセッサシステムの呼処理装置は、管理プロセッサ1とn個の呼処理プロセッサ2_1〜2_n(以下、符号「2」で総称することがある。)と共有メモリ3とバス制御装置4とハードディスク5とが共有バス6を介して接続され、管理プロセッサ1が各呼処理プロセッサ2の状態管理を行っている。プロセッサ1及び2は、各々、バスI/F部11とCPU12とバスブリッジ14と各IOデバイス(レジスタ等)15と個別メモリ16とで構成されている。
障害発生時には障害解析用の情報収集のため、障害発生FOに係る、例えば呼処理プロセッサ2_1は管理プロセッサ1へ障害検出通知を行う(ステップS21)。また障害発生FOの呼処理プロセッサ2_1では自プロセッサ搭載のソフトウェアが各IOデバイス15の情報を収集し(ステップS22)、その情報を共通バス6及びバスI/F部31を通じて共有メモリ3の障害情報格納エリア32中の自己のエリアに格納する(ステップS23)。
障害発生FOを検出した呼処理プロセッサ2_1から共有メモリ3への障害情報の格納(ステップS23)完了後に、その通知(ステップS24)を受けた管理プロセッサ1では、自分が搭載しているソフトウェアにより共有メモリ3内の障害情報の読み取りを行い(ステップS25)、その情報をバスI/F部51を介してハードディスク5に保存する(ステップS26)ことで障害情報の収集を可能として来た。
このような障害情報収集機能をハードウェアで実施した場合、複数枚の呼処理プロセッサ2に同時に障害が発生した場合、各々が互いに障害発生状況を監視していないので、障害情報の収集が停止されず、障害情報を共有メモリ3の自己の呼処理プロセッサエリアへ吐き出す際に情報の上書きが発生する。これを防止するために障害発生状況を監視している管理プロセッサ1のソフトウェアでシーケンスを組み、障害情報を収集している。
一方、各モジュールのプロセッサの使用率が50%以下となるようにデータベースを割り当て、障害となったモジュールの半導体ファイル装置からチェックポイントデータベースを読み出し、チェックポイント時点後のログ情報に従ってデータベースを復元し、障害となったモジュールのトランザクション処理を再開する高信頼化システムおよび装置がある(例えば、特許文献1参照。)。
また、複数のユニットを接続するバスにおけるバストレース回路であって、同一のユニットから特定のトランザクションが所定回数リトライされたことを検知し、検知に基づいてバスが疑バス障害状態であると認識し、疑バス障害認識の時直前の所定数のバストレースを保存する機能と、疑バス障害認識後に発生するバストレースをも保存する機能と、を具備し、バストレースを保存するメインバストレースメモリとサブバストレースメモリとを設け、疑バス障害認識の時直前の所定数のバストレースをサブバストレースメモリに保存する情報処理装置がある(例えば、特許文献2参照。)。
また、障害検出回路は入出力バスで障害を検出すると、その障害に対応するビットを“1”としたデータを出力し、レジスタには、停止信号をメモリ制御回路に出力すべき障害に対応するビットを“1”としたデータが保持されており、アンド回路は、検出回路からのデータとレジスタからのデータとのビットごとのアンドをとり、アンドが成立したビットが一組でもあると、オア回路は停止信号を制御回路に出力すると共に、メモリ制御回路は、常時バスからアドレス、データならびに制御信号を取り込んで記憶しているが、停止信号が入力されると、信号の取り込みを停止し、障害発生の前の一定期間に入出力バスから取り込んだ情報処理を保持する情報処理装置のバス監視回路がある(例えば、特許文献3参照。)。
また、システムバスに接続して、障害検出に必要なバス情報をトレースするバストレース装置において、トレースデータを保存するバストレースメモリとして、2メモリブロック方式のDRAMからなる大容量トレースメモリと高速とレースメモリを備え、バストレース制御回路は、SVP4から設定されたトレースの開始と停止の条件に応じてトレース動作を制御し、トレースメモリの書き込み動作を制御するバストレース装置及びバストレース方法がある(例えば、特許文献4参照。)。
また、データ処理装置の内部動作に関する情報(以下、単に内部情報ということがある)と、該データ処理装置に外部から入力される情報{主記憶装置からの情報、或いは、入出力装置からの情報}との時間関係を明確にしながら、諸内部情報、有効な外部からの入力情報のみを記録することができるヒストリー記録装置がある(例えば、特許文献5参照。)。
また、中央処理装置、主記憶装置と、少なくとも一つの周辺制御装置をシステムバスで接続して構成した情報処理システムと、当該システム内に生じた障害を検出する診断装置を具える情報処理装置において、前記中央処理装置または前記主記憶装置のいずれかにシステムバストレース手段を設けると共に、前記診断装置内にも前記システムバス上の情報をトレースするシステムバストレース手段を設け、前記システムに一次障害が発生したときにその障害情報を前記中央処理装置または前記主記憶装置のいずれかに設けたシステムバストレース手段でトレースし、その後二次障害が発生した場合に当該二次障害の障害情報を前記診断装置内に設けたシステムバストレース手段によってトレースする情報処理装置がある(例えば、特許文献6参照。)。
また、書き込まれた順を記憶している不揮発性記憶装置と、現在発生した障害をチェックするチェック回路により、すでに不揮発性記憶装置に書き込まれているデータを書き込むことなく障害処理を行うことにより、不揮発性記憶装置に書き込む時間を減らし、復旧までの時間を短縮するコンピュータシステムにおける障害情報収集方式がある(例えば、特許文献7参照。)。
また、マルチプロセッサシステムにおいて、障害検出時の障害情報採取にあたって、障害発生を検出した一のプロセッサから、他のプロセッサに対して、障害情報採取を指示を送出し、前記複数のプロセッサの各々でそれぞれ障害情報採取を独立に行い、該障害情報をファイル装置にそれぞれ格納し、前記他のプロセッサは障害情報採取が完了した際に前記一のプロセッサにその旨を通知し、前記一のプロセッサでは、前記複数のプロセッサの全ての情報採取完了を持って再起動を行うマルチプロセッサシステムにおける障害情報のパラレルダンプ採取方法および方式がある(例えば、特許文献8参照。)。
特開平8-278909号公報 特開2004-54685号公報 特開平5-94384号公報 特開平8-263328号公報 特許第2707879号公報 特開2001-256081号公報 特開2001-337849号公報 特開平11-338838号公報
図7に示した共有メモリ型マルチプロセッサのように管理プロセッサのソフトウェアでシーケンスを組んで障害発生状況を監視している障害情報の収集方式では、以下のような課題がある。
(1)障害を検出した呼処理プロセッサ以外の呼処理プロセッサについては、障害発生時のIOデバイスの情報(障害情報)を収集しないため、全プロセッサの連携動作の解析が困難である。
(2)障害検出を契機に障害情報を収集するため、障害に至る以前の情報が取れず、障害解析が困難になる。
(3)収集した障害情報を共通バスを通じて共有メモリに格納するため、共通バスが障害となった場合には障害情報が共有メモリに格納できない。
(4)障害によりハードディスク等の外部記憶装置に保存出来なかった場合、障害に係るIOデバイスのレジスタ等に蓄えられている情報がリセットなどでクリアされてしまう。
(5)ソフトウェアによって障害情報の収集が行われるため、ソフトウェアの暴走等により、該ソフトウェアが起動しなかったり、あるいは収集した障害情報の信用度が低い。
従って本発明は、上記の課題に鑑みてなされたもので、或るプロセッサで障害が発生したとき、障害発生に至るまでの全プロセッサの連携動作の解析を可能にしたマルチプロセッサシステムを提供することを目的とする。
図1は、本発明に係るマルチプロセッサシステムを、図7の従来例と同様に、移動通信システムの呼処理装置に適用した例を概略的に示し、図7と比較すると、各プロセッサ内部のバスI/F部11中に障害情報収集部111と走行履歴情報収集部112とを設けている。
まず、本発明に係るマルチプロセッサシステムは、システム電源投入時、もしくはシステム再開時等のシステム起動時に、管理プロセッサ1が全プロセッサ2に、同期化された、各プロセッサに共通の時刻情報を与える。各プロセッサ2では、走行履歴情報収集部112が、該時刻情報に関連付けてCPUバス20上の走行履歴情報の収集(トレース)を常時実施することで、障害発生前の情報の収集を行うことができる。
また、各プロセッサ2は、障害検出したとき、自分の走行履歴情報を停止すると共に他のプロセッサへ該障害検出を通知することにより、その走行履歴情報を停止させることができる。
さらに本発明では、管理プロセッサ1と各プロセッサ2_1〜2_nを障害発生通知線7でマルチ接続することで、障害が発生したプロセッサで検出した障害発生通知を他の正常なプロセッサに通知することができる。
このように、障害発生通知線7を介して通知された他プロセッサの障害発生を契機に自プロセッサの走行履歴情報の収集を停止する機能を具備することで、他プロセッサの障害発生時点における正常プロセッサの走行履歴情報の上書きを防止することができる。
また、各プロセッサは、自分の走行履歴情報の収集を停止した後、該走行履歴情報を共有メモリ以外に設けた不揮発性メモリに格納することができる。
これにより、共通メモリに障害が発生しても走行履歴情報を確実に収集することが可能となる。
上記の走行履歴情報には、R/W種別、走行アドレス、R/Wデータ、全プロセッサ間で同期された時刻情報、及びプロセッサの種別を示す機能番号が含まれる。
これらの情報について、常時、走行履歴情報を収集して不揮発性メモリに走行履歴情報を格納し、障害発生時は走行履歴情報の収集停止と上書きの禁止を実現することで、障害発生後のプロセッサの交換やシステムリセットによる再起動や、電源をオフした場合においても障害情報をクリアせずに、障害発生に至るまでの状態について複数個のプロセッサで連携して動作の解析を可能とする。
本発明により以下のような効果が得られる。
(1)走行履歴情報を、全プロセッサ間で同期化された時刻情報と関連付けて収集するため、障害発生に至るまでの全プロセッサの連携動作の解析が可能になる。
(2) ハードウェアがソフトウェアの走行アドレスを常時トレースすることで、障害発生に至るまでのソフトウェア走行履歴を取得でき、障害発生前の動作を解析することが可能となる。
(3)収集した障害情報は各プロセッサ内の不揮発性メモリにハードウェアが自律で格納するため、共通バスが障害となった場合でも確実に障害情報が取得でき、また、電源オフもしくはシステムリセットをしても情報を保持することができる。
(4) ソフトウェアが走行不能になった場合でも、障害情報を確実に収集する事が可能になり、収集した情報データの吸い出しが可能であり、より解析出来る障害データのパターンが増える。
(5) ハードウェア自律による障害情報の収集は、再起動時のみ動作する為、正常時の動作(性能等)には影響を与えない。
図2は、図1に概略的に示した本発明に係るマルチプロセッサシステムを具体的に示したもので、図1と同様に移動通信システム内の呼処理装置に適用した場合の実施例を示している。
この実施例では、共通バス6と時刻情報通知線8により、管理プロセッサ1、呼処理プロセッサ2_1〜2_n、共有メモリ3、バス制御装置4、及びハードディスク5をマルチ接続とし、また障害情報通知線7で各プロセッサ1及び2をマルチ接続している。
また、管理プロセッサ1においては、マスタ時刻カウンタ40を備え、各呼処理プロセッサ2は、図1に示したように、バスI/F部11中に、障害発生通知線7に双方向ドライバ10を介して接続された障害情報収集部111と共通バス6に接続された走行履歴情報収集部112を有すると共に、時刻情報通知線8に直列接続された時刻カウンタ同期部113とローカル時刻カウンタ114と時刻付与部115を備えている。この時刻付与部115は、走行履歴情報収集部112に接続され、さらにメモリI/F部17を介してフラッシュメモリ等の不揮発性メモリ13に接続されると共にシリアルI/F部18にも接続されている。
また、障害情報収集部111は走行履歴情報収集部112に接続され、さらにCPU12及びウォッチドッグタイマ(WDT)監視部19に接続されている。CPU12も走行履歴情報収集部112に接続され、さらにCPUバス20を経由してバスブリッジ14に接続されている。バスブリッジ14はIOデバイス(レジスタ等)15及びローカルメモリ16に接続されている。
次に、図3に示した動作シーケンス図を参照して、図2に示した実施例の動作を説明する。
まず、システム電源投入時、もしくはシステム再開時等の再起動時に管理プロセッサ1内部のマスタ時刻カウンタ40から時刻情報通知線8を介して各プロセッサ2へマスタ時刻を通知する。なお、マスタ時刻カウンタ40はバス制御装置4内に設置してもよい。
時刻情報を検出した(ステップS1)各プロセッサ2は、各プロセッサ2間で同期化された時刻情報を持つ為にそれぞれのバスI/F部11の時刻カウンタ同期部113において時刻情報の同期化を行い、ローカル時刻カウンタ114にて時刻のカウント開始を行う(ステップS2)。
この後、各プロセッサ2内部では常時各々のCPUバス20上の情報を走行履歴情報収集部112で収集開始(ステップS3)し、時刻付与部115に走行履歴情報を送り、この走行履歴情報に時刻付与部115で時刻情報を付加することで、図4に示す走行履歴情報フォーマットに変換し(ステップS4)、メモリI/F部17内のライトバッファ(図示せず)に一度バッファリングしてから不揮発性メモリ13に常時格納する(ステップS5)。
次に呼処理プロセッサ2_1において障害が発生した場合の情報収集動作について示す。
まずCPU12がハードウェア障害又はソフトウェア障害による障害発生FOを検出したとき、又はウォッチドッグタイマ監視部19がタイムアウトしたとき(ステップS6)、障害検出割込ITRが障害情報収集部111に与えられ(ステップS7)、障害情報収集命令が与えられる。障害情報収集命令を受けたプロセッサ2_1の障害情報収集部111は、他のプロセッサ2_2〜2_nに対して障害発生通知線7を介して障害情報収集命令(障害通知信号)を与える(ステップS8)。
また、CPU12は、自分の走行履歴情報収集部112に対して走行履歴情報の収集停止命令を行う。走行履歴情報の収集停止命令を受けた走行履歴情報収集部112では、CPUバス20上の走行履歴情報の収集を停止する(ステップS9)。なお、この時点で障害が発生した時点までの走行履歴情報収集は完了している。
走行履歴情報収集後、障害情報収集部111は走行履歴情報収集部112を介して、CPUバス20から自分の各IOデバイス15、バスブリッジ14、及びCPU12の障害情報を収集する(ステップS10)。収集した障害情報(IOデバイス15、バスブリッジ14、及びCPU20の障害情報)及びバスI/F部11の障害情報は、走行履歴情報収集部112から時刻付与部115に送られ、時刻情報が付与されて、メモリI/F部17内のライトバッファに一度バッファリングした後、不揮発性メモリ13に格納される(ステップS11)。なお、障害情報収集は、CPUバス20とは別のバス(I/F)を使用してもよい。
一方、障害発生プロセッサ(ここでは呼処理プロセッサ2_1)からの障害情報収集命令の通知を障害発生通知線7を介して受けた呼処理プロセッサ2_1は、双方向ドライバ10を介して障害情報収集部111から走行履歴情報収集部112に対し走行履歴情報収集停止命令を通知する。走行履歴情報収集停止命令を受けた走行履歴情報収集部112ではCPUバス20上の走行履歴情報の走行履歴情報収集を停止する(ステップS9)。
走行履歴情報収集停止後、障害情報収集部111は走行履歴情報収集部112を介して、CPUバス20上において自分の各IOデバイス15、バスブリッジ14、及びCPU20の障害情報を収集する(ステップS10)。収集した障害情報及びバスI/F部11の障害情報は、走行履歴情報収集部112から時刻付与部115に送られ、時刻情報が付与され、メモリI/F部17内のライトバッファに一度バッファリングした後、不揮発性メモリ13に格納される(ステップS11)。この場合も、障害情報収集は、CPUバス20とは別のバスI/Fを使用してもよい。
さらに、他のプロセッサ2_3〜2_nについても同様の処理を実行する。
このように全プロセッサ2_1〜2_nについて時刻情報が付与された走行履歴情報の収集を停止し、障害情報を不揮発性メモリ13に格納することで、障害発生プロセッサの障害発生以前の走行履歴データの取得を可能にし、それ以外の正常プロセッサについても障害発生時の動作状況を解析することが可能となる。
すなわち、各プロセッサ2内の不揮発性メモリ13の情報は、各プロセッサ2に設けられたシリアル(I/F部18)ポートやイーサネット(登録商標)インターフェースなどからメモリI/F部17を介し、読み出す事が可能である。また、不揮発性メモリ13を取り外してデータを読み出す事も可能である。
これにより、共有メモリ3共通バス6に障害があった場合でも、障害解析が可能となる。これは共通バス3や障害があった場合に障害情報を収集できなかった既存の問題を解決している。
次に、これらの処理を行うことで得られた障害情報を、図5に示した障害情報収集例を参照して説明する。
まず最初に各プロセッサ2の最終時刻の走行履歴情報を確認(A)することで、走行履歴情報収集が停止していることが分かる。
次に障害の起こった呼処理プロセッサ2_1について確認を実施すると、「0x56AAAAA0」を「リード」した時(B)にR/Wデータのデータ化け(C)が発生してこれを契機に暴走していることが分かる。また暴走後に或る程度の時間分の走行履歴情報収集を実施していることから、この呼処理プロセッサ2_1の障害要因はWDTタイムアウトと判断できる。
次に呼処理プロセッサ2_1に障害が発生したときの他のプロセッサ2_2〜2_nの走行履歴情報収集を確認する。例えば、呼処理プロセッサ2_2に着目すると、共有メモリ3に「ライト」した値とその後の時刻に呼処理プロセッサ2_1が同一アドレスから「リード」した値(C)とが異なっていることが分かり、他の呼処理プロセッサ(ここでは呼処理プロセッサ2_nで代表する。)の情報を確認すると、呼処理プロセッサ2_2が共有メモリ3の「0x56AAAAA0」に「ライト」した以降、呼処理プロセッサ2_1が「リード」するまでに、そのアドレスのデータを書き換えている呼処理プロセッサが存在しないこと(D)が分かる。
以上のように呼処理プロセッサ内に蓄えられる情報A〜Dについて時間情報から解析できる。今回例として挙げた障害では呼処理プロセッサ2_1が「0x56AAAAA0」を「リード」アクセスした際にデータが化け、その結果ソフトが暴走したところまでの解析を可能にした。
この他にもWDTタイムアウトまでに共有メモリ上の同一アドレスのデータに対して各プロセッサにて同じデータ誤りがあった場合は、共有メモリ上のデータ破壊、もしくは共通バス障害による不適切なデータの取得が考えられるという解析も可能である。
本発明に係るマルチプロセッサシステムを概略的に示したブロック図である。 本発明に係るマルチプロセッサシステムの一実施例を示したブロック図である。 図2に示した実施例の動作シーケンス図である。 本発明で使用する走行履歴情報のフォーマット図である。 本発明における障害収集情報収集例を示した図である。 本発明が適用される移動通信システムの一般的な構成例を示したブロック図である。 移動通信システムにおける呼処理装置の従来例を示したブロック図である。 図7に示した従来例の動作シーケンス図である。
符号の説明
1 管理プロセッサ
2, 2_1〜2_n 呼処理プロセッサ
3 共有メモリ
4 バス制御装置
5 ハードディスク
6 共通バス
7 障害発生通知線
8 時刻情報通知線
11 バスI/F部
12 CPU
13 不揮発性メモリ
14 バスブリッジ
15 IOデバイス
17 メモリI/F部
19 WDT監視部
20 CPUバス
40 マスタ時刻カウンタ
101 移動機
102_1〜3 基地局
103 無線ネットワーク制御装置
1034 呼処理装置
104 ATM交換機
112 走行履歴情報収集部
111 障害情報収集部
113 時刻カウンタ同期部
114 ローカル時刻カウンタ
115 時刻付与部
ITR 障害検出割込み
図中、同一符号は同一又は相当部分を示す。

Claims (5)

  1. 複数のプロセッサが管理プロセッサによって管理され、バス制御装置によって共有メモリへのアクセスが制御されるマルチプロセッサシステムにおいて、
    該管理プロセッサ又は該バス制御装置が、システム起動時に同期化された時刻情報を各プロセッサに与え、
    各プロセッサが、該時刻情報に関連付けて自己の走行履歴情報を収集する、
    ことを特徴としたマルチプロセッサシステム。
  2. 請求項1において、
    各プロセッサは、障害検出したとき、自己の走行履歴情報の収集を停止すると共に他のプロセッサへ該障害検出を通知することにより、前記他のプロセッサの走行履歴情報の収集を停止させることを特徴としたマルチプロセッサシステム。
  3. 請求項2において、
    該障害検出の通知が、障害検出通知線を介して行われることを特徴としたマルチプロセッサシステム。
  4. 請求項2において、
    各プロセッサは、自己の走行履歴情報の収集を停止した後、該走行履歴情報を共有メモリ以外に設けた不揮発性メモリに格納することを特徴としたマルチプロセッサシステム。
  5. 請求項1において、
    該走行履歴情報が、該時刻情報に加えて、リード/ライト種別、走行アドレス、リード/ライト・データ、及びプロセッサの種別を含むことを特徴としたマルチプロセッサシステム。
JP2005073300A 2005-03-15 2005-03-15 マルチプロセッサシステム Withdrawn JP2006259869A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005073300A JP2006259869A (ja) 2005-03-15 2005-03-15 マルチプロセッサシステム
EP05254408A EP1703395A2 (en) 2005-03-15 2005-07-14 Multiprocessor system with a management processor
US11/192,190 US20060212754A1 (en) 2005-03-15 2005-07-29 Multiprocessor system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005073300A JP2006259869A (ja) 2005-03-15 2005-03-15 マルチプロセッサシステム

Publications (1)

Publication Number Publication Date
JP2006259869A true JP2006259869A (ja) 2006-09-28

Family

ID=36617023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005073300A Withdrawn JP2006259869A (ja) 2005-03-15 2005-03-15 マルチプロセッサシステム

Country Status (3)

Country Link
US (1) US20060212754A1 (ja)
EP (1) EP1703395A2 (ja)
JP (1) JP2006259869A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009123108A (ja) * 2007-11-16 2009-06-04 Toshiba Tec Corp 情報処理装置
JP2009230206A (ja) * 2008-03-19 2009-10-08 Toshiba Corp 情報処理装置及び情報処理方法
JP2010205194A (ja) * 2009-03-06 2010-09-16 Fujitsu Ltd 制御回路、情報処理装置及び情報処理装置の制御方法
JP2011070655A (ja) * 2009-08-24 2011-04-07 Toshiba Corp 情報処理装置、メモリダンプシステムおよびメモリダンプ方法
JP2014048785A (ja) * 2012-08-30 2014-03-17 Nec Computertechno Ltd 障害トレース装置、障害トレースシステム、障害トレース方法、及び、障害トレースプログラム
JP2014182720A (ja) * 2013-03-21 2014-09-29 Fujitsu Ltd 情報処理システム、情報処理装置及び障害処理方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510596B1 (en) 2006-02-09 2013-08-13 Virsec Systems, Inc. System and methods for run time detection and correction of memory corruption
US7823013B1 (en) 2007-03-13 2010-10-26 Oracle America, Inc. Hardware data race detection in HPCS codes
US8396937B1 (en) * 2007-04-30 2013-03-12 Oracle America, Inc. Efficient hardware scheme to support cross-cluster transactional memory
US7856421B2 (en) * 2007-05-18 2010-12-21 Oracle America, Inc. Maintaining memory checkpoints across a cluster of computing nodes
JP5174784B2 (ja) * 2009-11-06 2013-04-03 株式会社日立製作所 処理装置、処理制御システム、およびその制御方法
JP2016534479A (ja) 2013-09-12 2016-11-04 ヴァーセック・システムズ・インコーポレーテッドVirsec Systems,Inc. マルウェアのランタイム中の自動検出
AU2015279923B9 (en) 2014-06-24 2018-01-25 Virsec Systems, Inc. System and methods for automated detection of input and output validation and resource management vulnerability
AU2015279920B2 (en) * 2014-06-24 2018-03-29 Virsec Systems, Inc. Automated root cause analysis of single or N-TIERED applications
JP6580430B2 (ja) * 2015-09-11 2019-09-25 ルネサスエレクトロニクス株式会社 センサ制御装置、センサシステム、及び、橋梁監視システム
WO2017218872A1 (en) 2016-06-16 2017-12-21 Virsec Systems, Inc. Systems and methods for remediating memory corruption in a computer application

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4502116A (en) * 1982-11-17 1985-02-26 At&T Bell Laboratories Multiple processor synchronized halt test arrangement
US4616335A (en) * 1983-06-30 1986-10-07 International Business Machines Corporation Apparatus for suspending a system clock when an initial error occurs
US4907150A (en) * 1986-01-17 1990-03-06 International Business Machines Corporation Apparatus and method for suspending and resuming software applications on a computer
US5056091A (en) * 1990-03-15 1991-10-08 Hewlett-Packard Company Method for handling errors detected in a computer system
GB2268817B (en) * 1992-07-17 1996-05-01 Integrated Micro Products Ltd A fault-tolerant computer system
JP3085899B2 (ja) * 1995-06-19 2000-09-11 株式会社東芝 マルチプロセッサシステム
US5678003A (en) * 1995-10-20 1997-10-14 International Business Machines Corporation Method and system for providing a restartable stop in a multiprocessor system
US6021261A (en) * 1996-12-05 2000-02-01 International Business Machines Corporation Method and system for testing a multiprocessor data processing system utilizing a plurality of event tracers
US6144887A (en) * 1996-12-09 2000-11-07 Denso Corporation Electronic control unit with reset blocking during loading
US6094729A (en) * 1997-04-08 2000-07-25 Advanced Micro Devices, Inc. Debug interface including a compact trace record storage
JP3608915B2 (ja) * 1997-09-22 2005-01-12 富士通株式会社 マルチプロセッシングシステムの性能評価方法および装置並びにマルチプロセッシングシステムの性能評価プログラムを格納した記憶媒体
US6493837B1 (en) * 1999-07-16 2002-12-10 Microsoft Corporation Using log buffers to trace an event in a computer system
US6539500B1 (en) * 1999-10-28 2003-03-25 International Business Machines Corporation System and method for tracing
US6621815B1 (en) * 1999-11-18 2003-09-16 Sprint Communications Company L.P. Communication interface system
US6684346B2 (en) * 2000-12-22 2004-01-27 Intel Corporation Method and apparatus for machine check abort handling in a multiprocessing system
US7134116B1 (en) * 2001-04-30 2006-11-07 Mips Technologies, Inc. External trace synchronization via periodic sampling
US6857084B1 (en) * 2001-08-06 2005-02-15 Lsi Logic Corporation Multiprocessor system and method for simultaneously placing all processors into debug mode
US7017084B2 (en) * 2001-09-07 2006-03-21 Network Appliance Inc. Tracing method and apparatus for distributed environments
US7107487B2 (en) * 2002-04-12 2006-09-12 Lenovo (Singapore) Pte Ltd. Fault tolerant sleep mode of operation
EP1359507A1 (en) * 2002-04-29 2003-11-05 Hewlett-Packard Company Data processing system and method
GB2389432B (en) * 2002-06-07 2005-09-07 Advanced Risc Mach Ltd Instruction tracing in data processing systems
IL151251A0 (en) * 2002-08-14 2003-04-10 Elta Systems Ltd Parallel processing platform with synchronous system halt-resume
US7080283B1 (en) * 2002-10-15 2006-07-18 Tensilica, Inc. Simultaneous real-time trace and debug for multiple processing core systems on a chip
US7003620B2 (en) * 2002-11-26 2006-02-21 M-Systems Flash Disk Pioneers Ltd. Appliance, including a flash memory, that is robust under power failure
US7000092B2 (en) * 2002-12-12 2006-02-14 Lsi Logic Corporation Heterogeneous multi-processor reference design
US7168002B2 (en) * 2003-04-25 2007-01-23 International Business Machines Corporation Preservation of error data on a diskless platform
US7111196B2 (en) * 2003-05-12 2006-09-19 International Business Machines Corporation System and method for providing processor recovery in a multi-core system
US7152186B2 (en) * 2003-08-04 2006-12-19 Arm Limited Cross-triggering of processing devices
US7162666B2 (en) * 2004-03-26 2007-01-09 Emc Corporation Multi-processor system having a watchdog for interrupting the multiple processors and deferring preemption until release of spinlocks
US7669190B2 (en) * 2004-05-18 2010-02-23 Qlogic, Corporation Method and system for efficiently recording processor events in host bus adapters
US9038070B2 (en) * 2004-09-14 2015-05-19 Synopsys, Inc. Debug in a multicore architecture
US20060184837A1 (en) * 2005-02-11 2006-08-17 International Business Machines Corporation Method, apparatus, and computer program product in a processor for balancing hardware trace collection among different hardware trace facilities

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009123108A (ja) * 2007-11-16 2009-06-04 Toshiba Tec Corp 情報処理装置
JP2009230206A (ja) * 2008-03-19 2009-10-08 Toshiba Corp 情報処理装置及び情報処理方法
JP2010205194A (ja) * 2009-03-06 2010-09-16 Fujitsu Ltd 制御回路、情報処理装置及び情報処理装置の制御方法
JP2011070655A (ja) * 2009-08-24 2011-04-07 Toshiba Corp 情報処理装置、メモリダンプシステムおよびメモリダンプ方法
JP2014048785A (ja) * 2012-08-30 2014-03-17 Nec Computertechno Ltd 障害トレース装置、障害トレースシステム、障害トレース方法、及び、障害トレースプログラム
JP2014182720A (ja) * 2013-03-21 2014-09-29 Fujitsu Ltd 情報処理システム、情報処理装置及び障害処理方法

Also Published As

Publication number Publication date
US20060212754A1 (en) 2006-09-21
EP1703395A2 (en) 2006-09-20

Similar Documents

Publication Publication Date Title
JP2006259869A (ja) マルチプロセッサシステム
US11010273B2 (en) Software condition evaluation apparatus and methods
CN102761439B (zh) Pon接入系统中基于看门狗的异常检测记录装置及方法
US7865782B2 (en) I/O device fault processing method for use in virtual computer system
US8245077B2 (en) Failover method and computer system
CN102880527B (zh) 一种基板管理控制器的数据恢复方法
US20140298076A1 (en) Processing apparatus, recording medium storing processing program, and processing method
WO2016101177A1 (zh) 计算机设备内存的检测方法和计算机设备
CN102929761A (zh) 一种应对崩溃性错误的系统及方法
US8880957B2 (en) Facilitating processing in a communications environment using stop signaling
CN116724297A (zh) 一种故障处理方法、装置及系统
CN105868038B (zh) 内存错误处理方法及电子设备
CN111858187A (zh) 一种电子设备及业务切换方法、装置
CN115599617A (zh) 总线检测方法、装置、服务器及电子设备
JP4495248B2 (ja) 情報処理装置、障害処理方法
CN101119233A (zh) 获取设备运行状态的方法、装置及系统
CN115202803A (zh) 一种故障处理方法及装置
CN108037942B (zh) 一种嵌入式设备的自适应数据恢复与更新方法及装置
WO2024066589A1 (zh) 一种硬件故障上报的处理方法及其相关设备
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
CN111083719A (zh) 一种网元容量弹性调整的方法、装置和存储介质
CN113330411B (zh) 一种存储控制器和数据搬迁监测方法
CN111190632B (zh) 一种实现服务器bmc双活的方法及装置
CN115904773A (zh) 一种内存故障信息收集方法、装置及存储介质
CN116560936A (zh) 异常监测方法、协处理器及计算设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080220

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090227