JP2006259869A

JP2006259869A - マルチプロセッサシステム

Info

Publication number: JP2006259869A
Application number: JP2005073300A
Authority: JP
Inventors: Kunio Yamaguchi; 邦男山口; Naoki Kawasaki; 直樹河崎; Mitsuhiro Noyama; 光弘野山; Shinji Kawamoto; 真嗣川本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-03-15
Filing date: 2005-03-15
Publication date: 2006-09-28
Also published as: US20060212754A1; EP1703395A2

Abstract

【課題】複数のプロセッサ2_1〜2_nが管理プロセッサ1によって管理され、バス制御装置4によって共有メモリ3へのアクセスが制御されるマルチプロセッサシステムに関し、或るプロセッサで障害が発生したとき、障害発生に至るまでの全プロセッサの連携動作の解析を可能にする。
【解決手段】管理プロセッサ1又はバス制御装置4が、システム起動時に同期化された時刻情報を各プロセッサ2_1〜2_nに与え、各プロセッサ2_1〜2_nが、該時刻情報に関連付けて自己の走行履歴情報を収集する。また、各プロセッサ2_1〜2_nは、障害検出したとき、自己の走行履歴情報を停止すると共に他のプロセッサへ該障害検出を通知することにより、その走行履歴情報を停止させる。各プロセッサ2_1〜2_nは、自己の走行履歴情報の収集を停止した後、該走行履歴情報を共有メモリ3以外に設けた不揮発性メモリ13に格納する。
【選択図】図１

Description

本発明は、マルチプロセッサシステムに関し、特に移動通信システムの無線ネットワーク制御装置内に設けられた、複数の呼処理プロセッサが管理プロセッサによって管理されるマルチプロセッサシステムに関するものである。

現在の移動通信システムの呼処理では、携帯電話サービスの拡大、及び無線ネットワークにおける音声・画像等の膨大なデータ通信の普及に伴う急激な高トラヒック化への追従が要求されおり、図6に示す様な構成で呼処理を実施している。

図中の無線ネットワーク制御装置103は、移動機101と情報の送受信を行っている基地局102_1〜102_3（符号「102」で総称することがある。）の制御及び発着信接続制御等を行い、また基地局102側と固定ネットワークに接続されているATM交換機104とのユーザー信号のプロトコル変換を行っている。この無線ネットワーク制御装置103は、図示のように、基地局回線終端装置1031と、ATMパケット通話路制御装置1032と呼処理制御信号終端装置1033と呼処理装置1034と交換機回線終端装置1035とで構成されている。この内の呼処理装置1034は、基地局102の制御、発着信接続制御及びプロトコル終端を行う為に、マルチプロセッサシステムを構成して呼処理を行うことが一般的である。

以下にマルチプロセッサ構成を備えた呼処理装置の従来技術を図7に示す構成例と、図8に示す動作シーケンスを参照して説明する。

このマルチプロセッサシステムの呼処理装置は、管理プロセッサ1とn個の呼処理プロセッサ2_1〜2_n（以下、符号「2」で総称することがある。）と共有メモリ3とバス制御装置4とハードディスク5とが共有バス6を介して接続され、管理プロセッサ1が各呼処理プロセッサ2の状態管理を行っている。プロセッサ1及び2は、各々、バスI/F部11とCPU12とバスブリッジ14と各IOデバイス（レジスタ等）15と個別メモリ16とで構成されている。

障害発生時には障害解析用の情報収集のため、障害発生FOに係る、例えば呼処理プロセッサ2_1は管理プロセッサ1へ障害検出通知を行う（ステップS21）。また障害発生FOの呼処理プロセッサ2_1では自プロセッサ搭載のソフトウェアが各IOデバイス15の情報を収集し（ステップS22）、その情報を共通バス6及びバスI/F部31を通じて共有メモリ3の障害情報格納エリア32中の自己のエリアに格納する（ステップS23）。

障害発生FOを検出した呼処理プロセッサ2_1から共有メモリ3への障害情報の格納（ステップS23）完了後に、その通知（ステップS24）を受けた管理プロセッサ1では、自分が搭載しているソフトウェアにより共有メモリ3内の障害情報の読み取りを行い（ステップS25）、その情報をバスI/F部51を介してハードディスク5に保存する（ステップS26）ことで障害情報の収集を可能として来た。

このような障害情報収集機能をハードウェアで実施した場合、複数枚の呼処理プロセッサ2に同時に障害が発生した場合、各々が互いに障害発生状況を監視していないので、障害情報の収集が停止されず、障害情報を共有メモリ3の自己の呼処理プロセッサエリアへ吐き出す際に情報の上書きが発生する。これを防止するために障害発生状況を監視している管理プロセッサ1のソフトウェアでシーケンスを組み、障害情報を収集している。

一方、各モジュールのプロセッサの使用率が50％以下となるようにデータベースを割り当て、障害となったモジュールの半導体ファイル装置からチェックポイントデータベースを読み出し、チェックポイント時点後のログ情報に従ってデータベースを復元し、障害となったモジュールのトランザクション処理を再開する高信頼化システムおよび装置がある（例えば、特許文献1参照。）。

また、複数のユニットを接続するバスにおけるバストレース回路であって、同一のユニットから特定のトランザクションが所定回数リトライされたことを検知し、検知に基づいてバスが疑バス障害状態であると認識し、疑バス障害認識の時直前の所定数のバストレースを保存する機能と、疑バス障害認識後に発生するバストレースをも保存する機能と、を具備し、バストレースを保存するメインバストレースメモリとサブバストレースメモリとを設け、疑バス障害認識の時直前の所定数のバストレースをサブバストレースメモリに保存する情報処理装置がある（例えば、特許文献2参照。）。

また、障害検出回路は入出力バスで障害を検出すると、その障害に対応するビットを“1”としたデータを出力し、レジスタには、停止信号をメモリ制御回路に出力すべき障害に対応するビットを“1”としたデータが保持されており、アンド回路は、検出回路からのデータとレジスタからのデータとのビットごとのアンドをとり、アンドが成立したビットが一組でもあると、オア回路は停止信号を制御回路に出力すると共に、メモリ制御回路は、常時バスからアドレス、データならびに制御信号を取り込んで記憶しているが、停止信号が入力されると、信号の取り込みを停止し、障害発生の前の一定期間に入出力バスから取り込んだ情報処理を保持する情報処理装置のバス監視回路がある（例えば、特許文献3参照。）。

また、システムバスに接続して、障害検出に必要なバス情報をトレースするバストレース装置において、トレースデータを保存するバストレースメモリとして、2メモリブロック方式のDRAMからなる大容量トレースメモリと高速とレースメモリを備え、バストレース制御回路は、SVP4から設定されたトレースの開始と停止の条件に応じてトレース動作を制御し、トレースメモリの書き込み動作を制御するバストレース装置及びバストレース方法がある（例えば、特許文献4参照。）。

また、データ処理装置の内部動作に関する情報（以下、単に内部情報ということがある）と、該データ処理装置に外部から入力される情報｛主記憶装置からの情報、或いは、入出力装置からの情報｝との時間関係を明確にしながら、諸内部情報、有効な外部からの入力情報のみを記録することができるヒストリー記録装置がある（例えば、特許文献5参照。）。

また、中央処理装置、主記憶装置と、少なくとも一つの周辺制御装置をシステムバスで接続して構成した情報処理システムと、当該システム内に生じた障害を検出する診断装置を具える情報処理装置において、前記中央処理装置または前記主記憶装置のいずれかにシステムバストレース手段を設けると共に、前記診断装置内にも前記システムバス上の情報をトレースするシステムバストレース手段を設け、前記システムに一次障害が発生したときにその障害情報を前記中央処理装置または前記主記憶装置のいずれかに設けたシステムバストレース手段でトレースし、その後二次障害が発生した場合に当該二次障害の障害情報を前記診断装置内に設けたシステムバストレース手段によってトレースする情報処理装置がある（例えば、特許文献6参照。）。

また、書き込まれた順を記憶している不揮発性記憶装置と、現在発生した障害をチェックするチェック回路により、すでに不揮発性記憶装置に書き込まれているデータを書き込むことなく障害処理を行うことにより、不揮発性記憶装置に書き込む時間を減らし、復旧までの時間を短縮するコンピュータシステムにおける障害情報収集方式がある（例えば、特許文献7参照。）。

また、マルチプロセッサシステムにおいて、障害検出時の障害情報採取にあたって、障害発生を検出した一のプロセッサから、他のプロセッサに対して、障害情報採取を指示を送出し、前記複数のプロセッサの各々でそれぞれ障害情報採取を独立に行い、該障害情報をファイル装置にそれぞれ格納し、前記他のプロセッサは障害情報採取が完了した際に前記一のプロセッサにその旨を通知し、前記一のプロセッサでは、前記複数のプロセッサの全ての情報採取完了を持って再起動を行うマルチプロセッサシステムにおける障害情報のパラレルダンプ採取方法および方式がある（例えば、特許文献8参照。）。
特開平8-278909号公報特開2004-54685号公報特開平5-94384号公報特開平8-263328号公報特許第2707879号公報特開2001-256081号公報特開2001-337849号公報特開平11-338838号公報

図7に示した共有メモリ型マルチプロセッサのように管理プロセッサのソフトウェアでシーケンスを組んで障害発生状況を監視している障害情報の収集方式では、以下のような課題がある。

(1)障害を検出した呼処理プロセッサ以外の呼処理プロセッサについては、障害発生時のIOデバイスの情報（障害情報）を収集しないため、全プロセッサの連携動作の解析が困難である。

(2)障害検出を契機に障害情報を収集するため、障害に至る以前の情報が取れず、障害解析が困難になる。

(3)収集した障害情報を共通バスを通じて共有メモリに格納するため、共通バスが障害となった場合には障害情報が共有メモリに格納できない。

(4)障害によりハードディスク等の外部記憶装置に保存出来なかった場合、障害に係るIOデバイスのレジスタ等に蓄えられている情報がリセットなどでクリアされてしまう。

(5)ソフトウェアによって障害情報の収集が行われるため、ソフトウェアの暴走等により、該ソフトウェアが起動しなかったり、あるいは収集した障害情報の信用度が低い。

従って本発明は、上記の課題に鑑みてなされたもので、或るプロセッサで障害が発生したとき、障害発生に至るまでの全プロセッサの連携動作の解析を可能にしたマルチプロセッサシステムを提供することを目的とする。

図１は、本発明に係るマルチプロセッサシステムを、図7の従来例と同様に、移動通信システムの呼処理装置に適用した例を概略的に示し、図7と比較すると、各プロセッサ内部のバスI/F部11中に障害情報収集部111と走行履歴情報収集部112とを設けている。

まず、本発明に係るマルチプロセッサシステムは、システム電源投入時、もしくはシステム再開時等のシステム起動時に、管理プロセッサ1が全プロセッサ2に、同期化された、各プロセッサに共通の時刻情報を与える。各プロセッサ2では、走行履歴情報収集部112が、該時刻情報に関連付けてCPUバス20上の走行履歴情報の収集（トレース）を常時実施することで、障害発生前の情報の収集を行うことができる。

また、各プロセッサ2は、障害検出したとき、自分の走行履歴情報を停止すると共に他のプロセッサへ該障害検出を通知することにより、その走行履歴情報を停止させることができる。

さらに本発明では、管理プロセッサ1と各プロセッサ2_1〜2_nを障害発生通知線7でマルチ接続することで、障害が発生したプロセッサで検出した障害発生通知を他の正常なプロセッサに通知することができる。

このように、障害発生通知線7を介して通知された他プロセッサの障害発生を契機に自プロセッサの走行履歴情報の収集を停止する機能を具備することで、他プロセッサの障害発生時点における正常プロセッサの走行履歴情報の上書きを防止することができる。

また、各プロセッサは、自分の走行履歴情報の収集を停止した後、該走行履歴情報を共有メモリ以外に設けた不揮発性メモリに格納することができる。

これにより、共通メモリに障害が発生しても走行履歴情報を確実に収集することが可能となる。

上記の走行履歴情報には、R/W種別、走行アドレス、R/Wデータ、全プロセッサ間で同期された時刻情報、及びプロセッサの種別を示す機能番号が含まれる。

これらの情報について、常時、走行履歴情報を収集して不揮発性メモリに走行履歴情報を格納し、障害発生時は走行履歴情報の収集停止と上書きの禁止を実現することで、障害発生後のプロセッサの交換やシステムリセットによる再起動や、電源をオフした場合においても障害情報をクリアせずに、障害発生に至るまでの状態について複数個のプロセッサで連携して動作の解析を可能とする。

本発明により以下のような効果が得られる。

(1)走行履歴情報を、全プロセッサ間で同期化された時刻情報と関連付けて収集するため、障害発生に至るまでの全プロセッサの連携動作の解析が可能になる。

(2) ハードウェアがソフトウェアの走行アドレスを常時トレースすることで、障害発生に至るまでのソフトウェア走行履歴を取得でき、障害発生前の動作を解析することが可能となる。

(3)収集した障害情報は各プロセッサ内の不揮発性メモリにハードウェアが自律で格納するため、共通バスが障害となった場合でも確実に障害情報が取得でき、また、電源オフもしくはシステムリセットをしても情報を保持することができる。

(4) ソフトウェアが走行不能になった場合でも、障害情報を確実に収集する事が可能になり、収集した情報データの吸い出しが可能であり、より解析出来る障害データのパターンが増える。

(5) ハードウェア自律による障害情報の収集は、再起動時のみ動作する為、正常時の動作（性能等）には影響を与えない。

図2は、図1に概略的に示した本発明に係るマルチプロセッサシステムを具体的に示したもので、図1と同様に移動通信システム内の呼処理装置に適用した場合の実施例を示している。

この実施例では、共通バス6と時刻情報通知線8により、管理プロセッサ1、呼処理プロセッサ2_1〜2_n、共有メモリ3、バス制御装置4、及びハードディスク5をマルチ接続とし、また障害情報通知線7で各プロセッサ1及び2をマルチ接続している。

また、管理プロセッサ1においては、マスタ時刻カウンタ40を備え、各呼処理プロセッサ2は、図1に示したように、バスI/F部11中に、障害発生通知線7に双方向ドライバ10を介して接続された障害情報収集部111と共通バス6に接続された走行履歴情報収集部112を有すると共に、時刻情報通知線8に直列接続された時刻カウンタ同期部113とローカル時刻カウンタ114と時刻付与部115を備えている。この時刻付与部115は、走行履歴情報収集部112に接続され、さらにメモリI/F部17を介してフラッシュメモリ等の不揮発性メモリ13に接続されると共にシリアルI/F部18にも接続されている。

また、障害情報収集部111は走行履歴情報収集部112に接続され、さらにCPU12及びウォッチドッグタイマ（WDT）監視部19に接続されている。CPU12も走行履歴情報収集部112に接続され、さらにCPUバス20を経由してバスブリッジ14に接続されている。バスブリッジ14はIOデバイス（レジスタ等）15及びローカルメモリ16に接続されている。

次に、図3に示した動作シーケンス図を参照して、図2に示した実施例の動作を説明する。

まず、システム電源投入時、もしくはシステム再開時等の再起動時に管理プロセッサ1内部のマスタ時刻カウンタ40から時刻情報通知線8を介して各プロセッサ2へマスタ時刻を通知する。なお、マスタ時刻カウンタ40はバス制御装置4内に設置してもよい。

時刻情報を検出した（ステップS1）各プロセッサ2は、各プロセッサ2間で同期化された時刻情報を持つ為にそれぞれのバスI/F部11の時刻カウンタ同期部113において時刻情報の同期化を行い、ローカル時刻カウンタ114にて時刻のカウント開始を行う（ステップS2）。

この後、各プロセッサ2内部では常時各々のCPUバス20上の情報を走行履歴情報収集部112で収集開始（ステップS3）し、時刻付与部115に走行履歴情報を送り、この走行履歴情報に時刻付与部115で時刻情報を付加することで、図4に示す走行履歴情報フォーマットに変換し（ステップS4）、メモリI/F部17内のライトバッファ（図示せず）に一度バッファリングしてから不揮発性メモリ13に常時格納する（ステップS5）。

次に呼処理プロセッサ2_1において障害が発生した場合の情報収集動作について示す。

まずCPU12がハードウェア障害又はソフトウェア障害による障害発生FOを検出したとき、又はウォッチドッグタイマ監視部19がタイムアウトしたとき（ステップS6）、障害検出割込ITRが障害情報収集部111に与えられ（ステップS7）、障害情報収集命令が与えられる。障害情報収集命令を受けたプロセッサ2_1の障害情報収集部111は、他のプロセッサ2_2〜2_nに対して障害発生通知線7を介して障害情報収集命令（障害通知信号）を与える（ステップS8）。

また、CPU12は、自分の走行履歴情報収集部112に対して走行履歴情報の収集停止命令を行う。走行履歴情報の収集停止命令を受けた走行履歴情報収集部112では、CPUバス20上の走行履歴情報の収集を停止する（ステップS9）。なお、この時点で障害が発生した時点までの走行履歴情報収集は完了している。

走行履歴情報収集後、障害情報収集部111は走行履歴情報収集部112を介して、CPUバス20から自分の各IOデバイス15、バスブリッジ14、及びCPU12の障害情報を収集する（ステップS10）。収集した障害情報（IOデバイス15、バスブリッジ14、及びCPU20の障害情報）及びバスI/F部11の障害情報は、走行履歴情報収集部112から時刻付与部115に送られ、時刻情報が付与されて、メモリI/F部17内のライトバッファに一度バッファリングした後、不揮発性メモリ13に格納される（ステップS11）。なお、障害情報収集は、CPUバス20とは別のバス（I/F）を使用してもよい。

一方、障害発生プロセッサ（ここでは呼処理プロセッサ2_1）からの障害情報収集命令の通知を障害発生通知線7を介して受けた呼処理プロセッサ2_1は、双方向ドライバ10を介して障害情報収集部111から走行履歴情報収集部112に対し走行履歴情報収集停止命令を通知する。走行履歴情報収集停止命令を受けた走行履歴情報収集部112ではCPUバス20上の走行履歴情報の走行履歴情報収集を停止する（ステップS9）。

走行履歴情報収集停止後、障害情報収集部111は走行履歴情報収集部112を介して、CPUバス20上において自分の各IOデバイス15、バスブリッジ14、及びCPU20の障害情報を収集する（ステップS10）。収集した障害情報及びバスI/F部11の障害情報は、走行履歴情報収集部112から時刻付与部115に送られ、時刻情報が付与され、メモリI/F部17内のライトバッファに一度バッファリングした後、不揮発性メモリ13に格納される（ステップS11）。この場合も、障害情報収集は、CPUバス20とは別のバスI/Fを使用してもよい。

さらに、他のプロセッサ2_3〜2_nについても同様の処理を実行する。

このように全プロセッサ2_1〜2_nについて時刻情報が付与された走行履歴情報の収集を停止し、障害情報を不揮発性メモリ13に格納することで、障害発生プロセッサの障害発生以前の走行履歴データの取得を可能にし、それ以外の正常プロセッサについても障害発生時の動作状況を解析することが可能となる。

すなわち、各プロセッサ2内の不揮発性メモリ13の情報は、各プロセッサ2に設けられたシリアル（I/F部18）ポートやイーサネット（登録商標）インターフェースなどからメモリI/F部17を介し、読み出す事が可能である。また、不揮発性メモリ13を取り外してデータを読み出す事も可能である。

これにより、共有メモリ３共通バス6に障害があった場合でも、障害解析が可能となる。これは共通バス3や障害があった場合に障害情報を収集できなかった既存の問題を解決している。

次に、これらの処理を行うことで得られた障害情報を、図5に示した障害情報収集例を参照して説明する。

まず最初に各プロセッサ2の最終時刻の走行履歴情報を確認（A）することで、走行履歴情報収集が停止していることが分かる。

次に障害の起こった呼処理プロセッサ2_1について確認を実施すると、「0x56AAAAA0」を「リード」した時（B）にR/Wデータのデータ化け（C）が発生してこれを契機に暴走していることが分かる。また暴走後に或る程度の時間分の走行履歴情報収集を実施していることから、この呼処理プロセッサ2_1の障害要因はWDTタイムアウトと判断できる。

次に呼処理プロセッサ2_1に障害が発生したときの他のプロセッサ2_2〜2_nの走行履歴情報収集を確認する。例えば、呼処理プロセッサ2_2に着目すると、共有メモリ3に「ライト」した値とその後の時刻に呼処理プロセッサ2_1が同一アドレスから「リード」した値（C）とが異なっていることが分かり、他の呼処理プロセッサ（ここでは呼処理プロセッサ2_nで代表する。）の情報を確認すると、呼処理プロセッサ2_2が共有メモリ3の「0x56AAAAA0」に「ライト」した以降、呼処理プロセッサ2_1が「リード」するまでに、そのアドレスのデータを書き換えている呼処理プロセッサが存在しないこと（D）が分かる。

以上のように呼処理プロセッサ内に蓄えられる情報A〜Dについて時間情報から解析できる。今回例として挙げた障害では呼処理プロセッサ2_1が「0x56AAAAA0」を「リード」アクセスした際にデータが化け、その結果ソフトが暴走したところまでの解析を可能にした。

この他にもWDTタイムアウトまでに共有メモリ上の同一アドレスのデータに対して各プロセッサにて同じデータ誤りがあった場合は、共有メモリ上のデータ破壊、もしくは共通バス障害による不適切なデータの取得が考えられるという解析も可能である。

本発明に係るマルチプロセッサシステムを概略的に示したブロック図である。本発明に係るマルチプロセッサシステムの一実施例を示したブロック図である。図２に示した実施例の動作シーケンス図である。本発明で使用する走行履歴情報のフォーマット図である。本発明における障害収集情報収集例を示した図である。本発明が適用される移動通信システムの一般的な構成例を示したブロック図である。移動通信システムにおける呼処理装置の従来例を示したブロック図である。図７に示した従来例の動作シーケンス図である。

符号の説明

1 管理プロセッサ
2, 2_1〜2_n 呼処理プロセッサ
3 共有メモリ
4 バス制御装置
5 ハードディスク
6 共通バス
7 障害発生通知線
8 時刻情報通知線
11 バスＩ/Ｆ部
12 CPU
13 不揮発性メモリ
14 バスブリッジ
15 IOデバイス
17 メモリI/F部
19 WDT監視部
20 CPUバス
40 マスタ時刻カウンタ
101 移動機
102_1〜3 基地局
103 無線ネットワーク制御装置
1034 呼処理装置
104 ATM交換機
112 走行履歴情報収集部
111 障害情報収集部
113 時刻カウンタ同期部
114 ローカル時刻カウンタ
115 時刻付与部
ITR 障害検出割込み
図中、同一符号は同一又は相当部分を示す。

Claims

複数のプロセッサが管理プロセッサによって管理され、バス制御装置によって共有メモリへのアクセスが制御されるマルチプロセッサシステムにおいて、
該管理プロセッサ又は該バス制御装置が、システム起動時に同期化された時刻情報を各プロセッサに与え、
各プロセッサが、該時刻情報に関連付けて自己の走行履歴情報を収集する、
ことを特徴としたマルチプロセッサシステム。
請求項１において、
各プロセッサは、障害検出したとき、自己の走行履歴情報の収集を停止すると共に他のプロセッサへ該障害検出を通知することにより、前記他のプロセッサの走行履歴情報の収集を停止させることを特徴としたマルチプロセッサシステム。
請求項２において、
該障害検出の通知が、障害検出通知線を介して行われることを特徴としたマルチプロセッサシステム。
請求項２において、
各プロセッサは、自己の走行履歴情報の収集を停止した後、該走行履歴情報を共有メモリ以外に設けた不揮発性メモリに格納することを特徴としたマルチプロセッサシステム。
請求項１において、
該走行履歴情報が、該時刻情報に加えて、リード/ライト種別、走行アドレス、リード/ライト・データ、及びプロセッサの種別を含むことを特徴としたマルチプロセッサシステム。