JP5099222B2 - 情報処理装置、転送回路及び情報処理装置のエラー制御方法 - Google Patents

情報処理装置、転送回路及び情報処理装置のエラー制御方法 Download PDF

Info

Publication number
JP5099222B2
JP5099222B2 JP2010514316A JP2010514316A JP5099222B2 JP 5099222 B2 JP5099222 B2 JP 5099222B2 JP 2010514316 A JP2010514316 A JP 2010514316A JP 2010514316 A JP2010514316 A JP 2010514316A JP 5099222 B2 JP5099222 B2 JP 5099222B2
Authority
JP
Japan
Prior art keywords
circuit
error
packet
configuration change
transfer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010514316A
Other languages
English (en)
Other versions
JPWO2009144824A1 (ja
Inventor
康弘 黒田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2009144824A1 publication Critical patent/JPWO2009144824A1/ja
Application granted granted Critical
Publication of JP5099222B2 publication Critical patent/JP5099222B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • H04L41/0816Configuration setting characterised by the conditions triggering a change of settings the condition being an adaptation, e.g. in response to network events

Description

本発明は、演算処理回路を含む複数の制御回路と、複数の制御回路相互間のデータ転送を実行する転送回路と、複数の制御回路及び転送回路を管理制御する管理制御回路とを有し、複数の制御回路で計算処理を実行する情報処理装置、転送回路及び情報処理装置のエラー制御方法に関する。
従来、情報処理装置としては、複数のシステムボード(以下、単にSBと称する)と、複数のSBと接続し、複数のSB相互間のデータ転送を実行するクロスバボード(以下、単にXBBと称する)と、複数のSB及びXBBを管理制御するシステムコントロールファシリティ(以下、単にSCFと称する)とを有し、複数のSBで計算処理を実行する技術が知られている。
また、SBは、複数のCPU(Central Processing Unit)と、データ入出力の制御を司る入出力制御部と、様々な情報を記憶するメモリと、SB全体を監視制御するシステムコントローラ(以下、単にSCと称する)と、XBBとのインタフェースを司るXBBインタフェース等とを有するものである。
また、従来の情報処理装置としては、複数の機器を管理する管理装置において、複数の機器で同一エラーが発生し、エラー発生を管理装置に通知する際、同一エラーの重複通知を破棄する技術や、複数の機器を管理する管理装置がエラー通知を各機器に通知する際、エラー発生中の機器にエラー通知を行わない技術が知られている。
また、従来の情報処理装置としては、複数の計算機と、複数の計算機間を相互に疎結合する計算機結合網とを有し、複数の計算機の何れかで障害が発生した場合、障害が発生した計算機を計算機結合網から切り離す技術が知られている。
特開2003−162430号公報 特開2006−190029号公報 特開平7−152697号公報
上記従来の情報処理装置では、例えばXBB等の転送回路に接続する複数のSB等の制御回路の何れかでエラーが発生した場合、エラー発生の制御回路がエラー報告を管理制御回路に通知することで、管理制御回路では、エラー報告に基づき、エラー発生の制御回路を認識することができる。
また、上記従来の情報処理装置では、転送回路から制御回路を切り離す運用構成の変更、すなわち構成変更指示を検出すると、転送回路から切り離す制御回路へのアクセスを停止し、制御回路内部のキャッシュ内容を保持した後、転送回路から制御回路を切り離す構成変更処理を実行することで構成変更を実現することができる。
しかしながら、上記従来の情報処理装置では、例えば構成変更処理実行中の制御回路にエラーが発生した場合、管理制御回路では、エラー報告に基づき、エラー発生の制御回路を認識することになるが、構成変更処理完了後はエラー発生の制御回路が転送回路から切り離されてしまうことになる。その結果、上記従来の情報処理装置では、構成変更処理実行中の制御回路にエラーが発生した場合、構成変更処理実行中のシステム構成と構成変更処理完了後のシステム構成とが異なるため、システム構成の差異で安定したエラー検出制御を確保することができないといった事態が考えられる。
そこで、本発明は上記点に鑑みてなされたものであり、その目的とするところは、構成変更処理実行完了後の構成変更処理に関わる制御回路を除いたシステム構成でエラー検出制御を実行することで、同一システム構成下で安定したエラー検出制御を確保することができる情報処理装置、転送回路及び情報処理装置のエラー制御方法を提供することにある。
開示装置は、複数の制御回路と、複数の制御回路相互間のデータ転送を実行する転送回路と、前記複数の制御回路及び前記転送回路を管理制御する管理制御回路とを有する情報処理装置であって、前記制御回路及び前記転送回路は、エラー発生を検出すると、エラー報告を前記管理制御回路に通知するエラー報告部と、前記エラー発生を検出すると、エラー通知データを発信するエラー発信部とを有し、前記転送回路は、前記エラー通知データを受信すると、受信したエラー通知データを、前記制御回路及び前記転送回路の内、前記エラー通知データを発信した回路以外の回路に転送する転送制御部を有し、前記管理制御回路は、前記エラー報告を受け付けると、前記エラー報告に基づき、前記エラー発生部位に対して復旧処理を実行する復旧処理実行部と、前記制御回路に関わる構成変更指示を検出すると、前記構成変更指示に対応した構成変更処理を実行する構成変更処理実行部と、前記構成変更処理実行部にて前記構成変更処理の実行中は前記エラー報告の受付を保留する報告受付保留部と、前記構成変更処理実行部にて前記構成変更処理実行中の前記制御回路から受信した前記エラー通知データを破棄すべく、前記転送回路を制御すると共に、前記構成変更処理実行中の前記制御回路に対する前記エラー通知データの転送を抑止すべく、前記転送回路を制御する転送回路制御部とを有することを要件とする。
また、開示回路は、複数の制御回路を管理制御する管理制御回路に管理制御され、前記複数の制御回路相互間のデータ転送を実行する転送回路であって、エラー発生を示すエラー通知データを受信すると、前記エラー通知データを発信した回路以外の他の回路に対して、受信したエラー通知データを転送する転送制御部を有し、前記転送制御部は、前記管理制御回路にて構成変更処理実行中の前記制御回路から受信した前記エラー通知データを破棄すると共に、前記構成変更処理実行中の前記制御回路に対する、前記構成変更処理実行中の前記制御回路以外の回路からの前記エラー通知データの転送を抑止することを要件とする。
また、開示方法は、複数の制御回路と、複数の制御回路相互間のデータ転送を実行する転送回路と、前記複数の制御回路及び前記転送回路を管理制御する管理制御回路とを有する情報処理装置のエラー制御方法であって、エラー発生を検出すると、エラー報告を前記管理制御回路に通知する前記制御回路及び前記転送回路側のエラー報告ステップと、前記エラー発生を検出すると、エラー通知データを発信する前記制御回路及び前記転送回路側のエラー通知ステップと、前記エラー通知データを受信すると、受信したエラー通知データを、前記制御回路及び前記転送回路の内、前記エラー通知データを発信した回路以外の回路に転送する前記転送回路側の転送制御ステップと、前記エラー報告を受け付けると、前記エラー報告に基づき、前記エラー発生部位に対して復旧処理を実行する前記管理制御回路側の復旧処理実行ステップと、前記制御回路に関わる構成変更指示を検出すると、前記構成変更指示に対応した構成変更処理を実行する前記管理制御回路側の構成変更処理実行ステップと、前記構成変更処理実行ステップにて前記構成変更処理の実行中は前記エラー報告の受付を保留する前記管理制御回路側の報告受付保留ステップと、前記構成変更処理実行ステップにて前記構成変更処理実行中の前記制御回路から受信した前記エラー通知データを破棄すべく、前記転送回路を制御すると共に、前記構成変更処理実行中の前記制御回路に対する前記エラー通知データの転送を抑止すべく、前記転送回路を制御する前記管理制御回路側の転送回路制御ステップとを含むことを要件とする。
開示装置によれば、構成変更処理実行中にエラーが発生したとしても、構成変更処理実行完了後の構成変更処理に関わる制御回路を除いたシステム構成でエラー検出制御を実行することで、同一システム構成下で安定したエラー検出制御を確保することができる。
また、開示回路によれば、構成変更処理実行中にエラーが発生したとしても、構成変更処理実行完了後の構成変更処理に関わる制御回路を除いたシステム構成でエラー検出制御を実行することで、同一システム構成下で安定したエラー検出制御を確保することができる。
また、開示方法によれば、構成変更処理実行中にエラーが発生したとしても、構成変更処理実行完了後の構成変更処理に関わる制御回路を除いたシステム構成でエラー検出制御を実行することで、同一システム構成下で安定したエラー検出制御を確保することができる。
図1は、本実施の形態を示す情報処理装置内部の概略構成を示すブロック図である。 図2は、第1XBB内部の概略構成を示すブロック図である。 図3は、第1XBB内部の内部クロスバ内部の概略構成を示すブロック図である。 図4は、PPパケット(リクエストパケット)のフォーマット構成を示す説明図である。 図5は、PPパケット(応答パケット)のフォーマット構成を示す説明図である。 図6は、BCパケット(リクエストパケット)のフォーマット構成を示す説明図である。 図7は、BCパケット(応答パケット)のフォーマット構成を示す説明図である。 図8は、エラー通知パケットのフォーマット構成を示す説明図である。 図9は、情報処理装置の要部であるSBのSC内部、XBBのSCFI内部及びSCF内部の概略構成を示すブロック図である。 図10は、XBBの入力パケット解析部内部の概略構成を示すブロック図である。 図11は、XBBの外部出力BCパケット解析部(内部出力BCパケット解析部)内部の概略構成を示すブロック図である。 図12は、入力パケット設定処理に関わる入力パケット解析部内部の処理動作を示すフローチャートである。 図13は、外部出力パケット設定処理に関わる外部出力BCパケット解析部内部の処理動作を示すフローチャートである。 図14は、内部出力パケット設定処理に関わる内部出力BCパケット解析部内部の処理動作を示すフローチャートである。 図15は、第1SB内部でレベル2のエラーが発生した場合の情報処理装置内部の動作を示す説明図である。 図16は、エラー復旧処理に関わるSCF内部の処理動作を示すフローチャートである。 図17は、構成変更処理に関わるSCF内部の処理動作を示すフローチャートである。 図18は、第1SBの構成変更処理実行中、例えば切り離し中に第1SB内にレベル2のエラーが発生した場合に関わる情報処理装置の動作を示す説明図である。 図19は、第1SBの構成変更処理実行中、例えば切り離し中に同一パーティション内の第2SB内にレベル2のエラーが発生した場合に関わる情報処理装置の動作を示す説明図である。 図20は、第3SBの構成変更処理実行中、例えば切り離し中に異なるパーティション内の第1SB内にレベル3のエラーが発生した場合に関わる情報処理装置の動作を示す説明図である。
以下、図面に基づき本実施形態の一例に係る情報処理装置、転送回路及び情報処理装置のエラー制御方法に関わる実施の形態について説明する。
図1は、本実施の形態を示す情報処理装置内部の概略構成を示すブロック図である。
図1に示す情報処理装置1は、複数のSB10と、複数のSB10と接続し、複数のSB10相互間のパケット転送を実行する複数のXBB20と、複数のSB10及び複数のXBB20を管理制御するSCF30とを有している。
SB10は、例えば2個のCPU11と、データ入出力の制御を司る入出力制御部12と、様々な情報を記憶するメモリ13と、SB10全体を監視制御するSC14と、XBB20との通信インタフェースを司るXBBインタフェース15とを有している。
情報処理装置1は、例えば第1SB10A、第2SB10B、第3SB10C、第4SB10D、第5SB10E、第6SB10F、第7SB10G及び第8SB10Hの合計8個のSB10を内蔵しているものとする。
XBB20は、SB10相互のパケット転送を実行するXBB制御回路21を内蔵し、XBB制御回路21は、SB10内のSC14との間でパケットを送受信するものである。
情報処理装置1は、例えば第1XBB20A及び第2XBB20Bの合計2個のXBBを内蔵しているものとする。
第1XBB20Aは、第1SB10A、第2SB10B、第3SB10C及び第4SB10Dと接続すると共に、第2XBB20Bと接続し、第1SB10A、第2SB10B、第3SB10C、第4SB10D及び第2XBB20B間のパケット転送を実現するものである。
また、第2XBB20Bは、第5SB10E、第6SB10F、第7SB10G及び第8SB10Hと接続すると共に、第1XBB20Aと接続し、第5SB10E、第6SB10F、第7SB10G、第8SB10H及び第1XBB20A間のパケット転送を実現するものである。
第1XBB20A及び第2XBB20Bは、SB10からのパケットを受信すると、パケットのヘッダにある宛先IDに基づき、受信したパケットをSB10又はXBB20に転送するものである。
第1XBB20A及び第2XBB20B間は、複数のSB10の内、任意のSB10から、任意のSB10以外の全SB10に対してパケットをブロードキャスト(以下、単にBCと称する)で一斉送信するためのBCバス41と、SB10同士でパケットを一対一のポイントトゥポイント(以下、単にPPと称する)で個別送信するためのPPバス42とを配置している。
また、8個のSB10は、例えば2つのパーティションA,Bに分割し、一方のパーティションAでは、第1SB10A、第2SB10B,第5SB10E及び第6SB10Fを管理すると共に、他方のパーティションBでは、第3SB10C、第4SB10D、第7SB10G及び第8SB10Hを管理するものである(図15参照)。
また、SCF30は、制御線2を通じて各SB10及び各XBB20を管理制御するものである。
図2は、第1XBB20A内部の概略構成を示すブロック図である。尚、図2においては、第1SB10A、第2SB10B、第3SB10C及び第4SB10Dを収容接続する第1XBB20A内部の概略構成について説明するが、第5SB10E、第6SB10F、第7SB10G及び第8SB10Hを収容接続する第2XBB20Bについても、ほぼ同一の構成であるため、同一符号を付すことで、その重複する構成及び動作の説明については省略する。
図2に示す第1XBB20Aは、自装置に収容接続するSB10(第1SB10A,第2SB10B、第3SB10C及び第4SB10D)毎に、接続先のSB10からの入力パケットを解析する入力パケット解析部51と、入力パケット解析部51の解析結果に基づき、入力パケットとしてBCパケットを受付設定するBC用入力キュー52と、入力パケット解析部51の解析結果に基づき、入力パケットとしてPPパケットを受付設定するPP用入力キュー53とを有している。
入力パケット解析部51は、接続先のSB10からの入力パケットを受信すると、入力パケットのオペレーションコード(以下、単にOPCDと称する)を解析し、解析結果に基づき、パケット種別がBCパケットの場合、入力パケットをBCパケットとしてBC用入力キュー52に設定するものである。
また、入力パケット解析部51は、接続先のSB10からの入力パケットを受信すると、入力パケットのOPCDを解析し、パケット種別がPPパケットの場合、入力パケットをPPパケットとしてPP用入力キュー53に設定するものである。
尚、第1XBB20Aは、収容接続するSB10(第1SB10A,第2SB10B、第3SB10C及び第4SB10D)毎に、入力パケット解析部51、BC用入力キュー52及びPP用入力キュー53を配置しているものとする。
また、第1XBB20Aは、接続先のSB10からBC用入力キュー52、後述するBCセレクタ61及びFIFO63経由でBCパケットを受信すると、収容接続するSB10からのBCパケットを解析する内部出力BCパケット解析部54と、第2XBB20BからBCバス41経由でBCパケットを受信すると、第2XBB20Bで収容接続するSB10からのBCパケットを解析する外部出力パケットBC解析部55とを有している。
尚、第1XBB20Aは、収容接続するSB10(第1SB10A,第2SB10B、第3SB10C及び第4SB10D)毎に、内部出力BCパケット解析部54及び外部出力BCパケット解析部55を配置しているものとする。
また、第1XBB20Aは、収容接続するSB10毎に配置したPP用入力キュー53から収容接続するSB10に対してPPパケットを転送するための内部クロスバ56と、第2XBB20Bに収容接続するSB10からPPバス42経由でPPパケットを受信すると、PPパケットを解析する出力PPパケット解析部57とを有している。
また、第1XBB20Aは、内部出力BCパケット解析部54又は外部出力BCパケット解析部55からのBCパケットを接続先のSB10への出力パケットとして受付設定するBC用出力キュー58と、内部クロスバ56又は出力PPパケット解析部57からのPPパケットを接続先のSB10への出力パケットとして受付設定するPP用出力キュー59とを有している。
尚、第1XBB20Aは、収容接続するSB10(第1SB10A,第2SB10B、第3SB10C及び第4SB10D)毎に、BC用出力キュー58及びPP用出力キュー59を配置しているものとする。
BC用出力キュー58は、例えば多ポートRAM(Random Access Memory)を利用して内部出力BCパケット解析部54及び外部出力BCパケット解析部55からのBCパケットを同時設定することができるものとする。
PP用出力キュー59は、例えば多ポートRAMを利用して出力PPパケット解析部57及び内部クロスバ56からのPPパケットを同時設定することができるものとする。
また、第1XBB20Aは、収容接続するSB10(第1SB10A,第2SB10B、第3SB10C及び第4SB10D)毎に、BC用出力キュー58又はPP用出力キュー59で受付設定したパケットを接続先のSB10に択一的に出力する出力セレクタ60を有している。
また、第1XBB20Aは、収容接続するSB10毎に配置したBC用入力キュー52にて受付設定したBCパケットを択一的に出力するBCセレクタ61と、収容接続するSB10毎に配置したPP用入力キュー53にて受付設定したPPパケットを択一的に出力するPPセレクタ62とを有している。
BCセレクタ61は、択一的に出力したBCパケットをBCバス41経由で第2XBB20Bに転送すると共に、FIFO(First In First Out:先入れ先出し)63を通じてBCパケットにレイテンシを持たせ、レイテンシを持たせたBCパケットを、収容接続するSB10毎に配置した内部出力BCパケット解析部54に順次転送するものである。
また、BCセレクタ61は、同一宛先に対する複数のBCパケットを同時入力した場合、LRU(Least Recently Used)等の優先制御アルゴリズムに基づき、第2XBB20B側のBCバス41及びFIFO63に対して択一的に出力するものである。
また、FIFO63は、BCセレクタ61からのBCパケットが第1XBB20A内のBC用出力キュー58及び第2XBB20B側のBC用出力キュー58に同時に到達するように時間調整するものである。
また、PPセレクタ62は、択一的に出力したPPパケットをPPバス42経由で第2XBB20Bに転送出力するものである。
また、第1XBB20Aは、SCF30と通信接続すると共に、SCF30の指示に基づき、第1XBB20A全体を制御するSCF用インタフェース制御部(以下、単にSCFIと称する)64を有している。
図3は、第1XBB20A内部の内部クロスバ56内部の概略構成を示すブロック図である。尚、第2XBB20B内部の内部クロスバ56は、図3に示す第1XBB20A内部の内部クロスバ56と同一構成であるため、同一符号を付すことで、その重複する構成及び動作の説明については省略する。
図3に示す内部クロスバ56は、接続先のSB10毎に配置したPP用入力キュー53毎に接続する入力ポート56Aと、接続先のSB10毎に配置したPP用出力キュー59毎に接続する出力ポート56Bと、入力ポート56A毎に入力したPPパケットを択一的に出力ポート56Bに出力するセレクタ56Cとを有している。
図4は、PPパケット(リクエストパケット)のフォーマット構成を示す説明図である。
図4に示すPPパケット(リクエストパケット)は、プリアンブル部及び、可変長のユーザデータを格納するデータ部を含むフィールドを有している。
プリアンブル部は、パケット種別を示すOPCDと、パケットの送信元を示す送信元ID(以下、単にSIDと称する)と、パケットの宛先を示す宛先ID(以下、単にTIDと称する)と、パケットのパケット長(以下、単にPLNGと称する)と、パケットを識別するパケットID(以下、単にPIDと称する)とを有している。
PPパケット(リクエストパケット)は、メモリ13へのストアデータの転送や、入出力制御部12へのアクセスを要求するためのパケットである。また、PPパケット(リクエストアドレス)のデータ部には、ストアアドレス及びストアデータ、入力出力制御部12へのアクセスアドレス及びユーザデータを格納している。
図5は、PPパケット(応答パケット)のフォーマット構成を示す説明図である。
図5に示すPPパケット(応答パケット)のプリアンブル部は、PPパケット(リクエストパケット)と同様に、リクエストパケットに対応するOPCD,SID,TID,PLNG及びPIDを有している。さらに、PPパケット(応答パケット)は、リクエストパケットの要求の成否を示すリターンコード(以下、単にRTCDと称する)と、PPパケット(応答パケット)の応答送信元を示す応答送信元ID(以下、単にRSIDと称する)と、応答パケットを識別する応答パケットID(以下、単にRPIDと称する)とを有している。
図6は、BCパケット(リクエストパケット)のフォーマット構成を示す説明図である。
図6に示すBCパケット(リクエストパケット)のプリアンブル部は、PPパケットと同様に、OPCD、SID,PLNG及びPIDを有している。BCパケット(リクエストパケット)は、キャッシュラインの同期を確保するためのキャッシュスヌープ等を要求する際に使用するものである。さらに、BCパケットは、スヌープアドレスを格納するアドレス格納部のフィールドを備えている。
図7は、BCパケット(応答パケット)のフォーマット構成を示す説明図である。
図7に示すBCパケット(応答パケット)のプリアンブル部は、BCパケット(リクエストパケット)と同様に、BCパケット(リクエストパケット)に対応付けたOPCD、SID,PLNG及びPIDの他に、RTCD,RSID及びRPIDを有している。そして、RTCDには、キャッシュステート(hit,miss−hit,exclusive,share)等を示すコードを格納しているものである。
図8は、エラー通知パケットのフォーマット構成を示す説明図である。
図8に示すエラー通知パケットは、OPCD及びSIDの他に、エラー検出部位のエラー規模を示すエラーレベル(以下、単にERLVと称する)と、エラー検出部位のパーティションを識別するパーティションID(以下、単にPTIDと称する)と、エラー検出部位のユニットタイプを示すエラーユニット種別(以下、単にEUTYと称する)と、エラー検出部位のユニットを識別するエラーユニットID(以下、単にEUIDと称する)とを有している。
エラー検出部位としては、EUTY及びEUIDに基づき、XBB20及びSB10の他に、SB10内のCPU11、入出力制御部12、メモリ13、SC14及びXBBインタフェース15をも識別できるものである。
ERLVは、例えばレベル1、レベル2及びレベル3の3段階で構成し、レベル1は、CPU11、入出力制御部12及びメモリ13等のSB10内部規模でのエラーが該当するものである。
また、レベル2は、SC14内部の共通部位、例えばCPU11、入出力制御部12及びメモリ13以外の共用バッファや制御部等の故障時にSB10全体に影響を与えるような部位、すなわちパーティション規模でのエラーが該当するものである。また、レベル3は、XBB20内部の複数のパーティションを含むシステム全体規模でのエラーが該当するものである。
図9は、情報処理装置1の要部であるSB10のSC14内部、XBB20のSCFI64内部及びSCF30内部の概略構成を示すブロック図である。
図9に示すSB10内部のSC14では、エラー発生を検出すると、自己をエラー報告回路としてエラー報告を制御線2経由でSCF30に通知するエラー報告部71を有している。
エラー報告部71は、エラー発生の検出結果に基づき、エラー検出部位及びERLVを含むエラー報告を制御線2経由でSCF30に通知するものである。
また、SC14は、エラー発生を検出すると、自己をエラー報告回路としてエラー通知パケットを、複数のSB10の内、エラー報告回路以外の他のSB10に対して、XBB20経由で発信すると共に、他のエラー報告回路からのエラー通知パケットを受信するエラー通知パケット送受信部72を有している。
エラー通知パケット送受信部72は、エラー検出部位及びERLVを含むエラー通知パケットを生成し、生成したエラー通知パケットをエラー報告回路以外の他のSB10にXBB20経由で発信するものである。
また、SC14は、XBB20経由でエラー報告回路からのエラー通知パケットを受信すると、エラー抑止モードに設定するエラー抑止モード設定部73を有している。
エラー抑止モード設定部73は、エラー通知パケットを受信すると、受信したエラー通知パケットのエラー検出部位及びERLVに基づき、エラー検出部位での余計なエラー検出動作を抑止するものである。
図9に示すXBB20内部のSCFI64は、エラー報告回路からのエラー通知パケットを受信すると、エラー通知パケットのSID及びPTIDに基づきエラー通知パケットを転送するエラー通知パケット転送部81と、エラー通知パケット転送部81を通じてエラー報告回路からのエラー通知パケットを転送すると、エラー抑止モードを設定するエラー抑止モード設定部82とを有している。
エラー通知パケット転送部81は、図2に示す入力パケット解析部51、内部出力BCパケット解析部54及び外部出力BCパケット解析部55を制御することで、エラー通知パケットの破棄又は転送を実行するものである。
エラー抑止モード設定部82は、エラー通知パケット転送部81を通じてエラー報告回路から受信したエラー通知パケットを転送すると、転送したエラー通知パケットのエラー検出部位及びERLVに基づき、ERLVに応じたエラー検出部位の余計なエラー検出動作、例えばエラー検出部位のSB10に対応したBC用出力キュー58及びPP用出力キュー59等の周辺部位でのエラー検出動作を抑止するものである。
尚、XBB20は、ERLVがレベル1又は2の場合、例えばエラー検出部位がSB10の場合にはエラー検出部位のSB10のみに接続する関連部位のエラー検出動作を抑止するものである。また、XBB20は、ERLVがレベル3の場合、XBB20内部の共通部位のエラー検出動作を抑止するものである。
また、SCFI64は、エラー発生を検出すると、自己をエラー報告回路としてエラー報告を制御線2経由でSCF30に通知するエラー報告部83と、エラー発生を検出すると、自己をエラー報告回路としてエラー通知パケットを、複数のSB10の内、エラー報告回路以外の他のSB10及び他のXBB20に対して発信するエラー通知パケット発信部84とを有している。
エラー報告部83は、エラー発生の検出結果に基づき、エラー検出部位及びERLVを含むエラー報告を制御線2経由でSCF30に通知するものである。
エラー通知パケット発信部84は、エラー発生の検出結果に基づき、エラー検出部位及びERLVを含むエラー通知パケットを生成し、生成したエラー通知パケットをBCセレクタ61経由で他のSB10に転送発信するものである。
また、図9に示すSCF30は、制御線2経由でエラー報告回路からのエラー報告を受け付けるエラー報告受付部91と、エラー報告受付部91を通じてエラー報告を受け付けると、受け付けたエラー報告に基づき、エラー発生部位に対するエラー復旧処理を実行する復旧処理実行部92とを有している。
復旧処理実行部92は、エラー報告受付部91を通じてエラー報告を受け付けると、エラー報告に含まれるエラー検出部位及びERLVに応じてエラーログを収集すると共に、収集したエラーログに基づきエラー発生部位を特定し、特定したエラー発生部位の縮退処理を実行するものである。尚、エラー発生部位に対する縮退処理において、例えばパーティション内にCPU11やメモリ13がなくなる、すなわち、パーティションとして成立しなくなるような縮退処理を実行するか否かは設定によるものとする。
さらに復旧処理実行部92は、エラー発生部位の縮退処理を実行した後、エラー発生部位のリセット処理及び初期設定処理を実行し、その後、該当部位のCPU11及び入出力制御部12等の起動を開始するものである。
また、SCF30は、復旧処理実行部92にてエラー発生部位に対するエラー復旧処理が完了すると、現在設定中のSB10及びXBB20のエラー抑止モードを制御線2経由で解除するモード解除部93と、例えばSB10に関わる構成変更指示を検出する構成変更検出部94と、構成変更指示を検出すると、構成変更指示に対応した構成変更処理を実行する構成変更処理実行部95とを有している。
構成変更検出部94は、構成変更、例えば第1XBB20Aから第1SB10Aを切り離す構成変更指示を検出するものである。
構成変更処理実行部95は、例えば第1XBB20A及び第1SB10A間の接続を切り離す構成変更指示を検出すると、制御線2経由で、第1SB10A内部のCPU11、入出力制御部12、メモリ13、SC14及びXBBインタフェース15へのアクセスを停止し、CPU11のキャッシュ内容を他のメモリに記憶した後、第1SB10Aを第1XBB20Aから切り離すインタフェース切断処理を実行するものである。
また、SCF30は、制御線2経由でXBB20内のSCFI64を制御するXBB制御部96と、SCF30全体を制御するSCF制御部97とを有している。
XBB制御部96は、XBB20内のSCFI64を制御することで、XBB20内のパケット転送を制御するものである。
また、SCF制御部97は、構成変更処理実行部95にて構成変更処理実行中にエラーが発生した場合、構成変更処理の実行が完了するまで、エラー報告回路からのエラー報告の受付を保留するエラー報告受付保留部97Aを有している。
また、XBB制御部96は、SB10の構成変更処理実行中にエラーが発生した場合、構成変更処理の実行が完了するまで、構成変更処理実行中のSB10から受信したエラー通知パケットを破棄すべく、XBB20に対して破棄フラグを設定するものである。その結果、XBB20は、設定中の破棄フラグに基づき、エラー通知パケットを転送制御するものである。
また、XBB制御部96は、SB10の構成変更処理実行中にエラーが発生した場合、構成変更処理の実行が完了するまで、構成変更処理実行中のSB10へのエラー通知パケットの転送を抑止すべく、XBB20に対して転送抑止フラグを設定するものである。その結果、XBB20は、設定中の転送抑止フラグに基づき、エラー通知パケットを転送制御するものである。
図10は、XBB20の入力パケット解析部51内部の概略構成を示すブロック図である。尚、1個のパケットは、例えば所定個数(n個)のパケット長で構成するものである。
図10に示す入力パケット解析部51は、接続先のSB10からパケットを受信すると、受信したパケットのパケット種別を識別するパケット種別識別回路101と、破棄フラグの設定有無を示す破棄フラグ設定回路102とを有している。
パケット種別識別回路101は、接続先のSB10からのパケットを受信すると、受信したパケットのOPCDに基づき、パケット種別を識別出力するデコード回路101Aを有している。尚、デコード回路101Aは、パケット種別がPPパケットの場合、PP出力からHレベルを出力すると共に、パケット種別がBCパケットの場合、BC出力からHレベルを出力すると共に、パケット種別がエラー通知パケットの場合、ER出力からHレベルを出力するものである。
破棄フラグ設定回路102は、破棄フラグを設定する破棄フラグ設定レジスタ102Aと、破棄フラグ設定レジスタ102Aに設定中の破棄フラグをERLVに応じて選択出力するフラグセレクタ102Bとを有している。
また、入力パケット解析部51は、パケット種別識別回路101の識別結果に応じたBC用入力キュー52又はPP用入力キュー53に、接続先のSB10から受信したパケットを設定する入力キュー設定回路103と、BC用入力キュー52又はPP用入力キュー53に設定するタイミングを監視し、設定タイミングの場合にHレベルを出力する入力キュータイミング監視回路104とを有している。
入力キュー設定回路103は、デコード回路101AのBC出力からのHレベル及び、入力キュータイミング監視回路104(後述する第1ゼロ判定回路104C)からのHレベルに応じてHレベルを出力する第1AND回路103Aと、デコード回路101AのPP出力からのHレベル及び、入力キュータイミング監視回路104(後述する第1ゼロ判定回路104C)からのHレベルに応じて、PP用入力キュー53に接続先のSB10からのパケットを設定指示するHレベルを出力する第2AND回路103Bとを有している。
また、入力キュー設定回路103は、フラグセレクタ102Bの選択出力がない場合にHレベルを出力する第1NOT回路103Cと、デコード回路101AのER出力からのHレベル、第1NOT回路103CからのHレベル及び入力キュータイミング監視回路104(後述する第1ゼロ判定回路104C)からのHレベルに応じてHレベルを出力する第3AND回路103Dとを有している。
また、入力キュー設定回路103は、第1AND回路103A又は第3AND回路103DからのHレベルに応じて、BC用入力キュー52に接続先のSB10からのパケットを設定指示するHレベルを出力する第1OR回路103Eを有している。
入力キュータイミング監視回路104は、接続先のSB10からのパケットを受信すると、残りパケット長を−1減算する第1減算回路104Aと、デコード回路101AのBC出力又はER出力のHレベルに応じてHレベルを出力する第2OR回路104Bとを有している。
また、入力キュータイミング監視回路104は、残りパケット長が0の場合に、残りパケット長はなく、パケット途中ではないものと判断し、第1AND回路103A、第2AND回路103B及び第3AND回路103DにHレベルを出力する第1ゼロ判定回路104Cを有している。
また、入力キュータイミング監視回路104は、第1減算回路104Aの減算結果、第2OR回路104BからのHレベル及び、第1ゼロ判定回路104CからのHレベルに応じて第1減算回路104Aの減算結果を出力する第4AND回路104Dと、残りパケット長が0以外の場合にHレベルを出力する第1ゼロ以外判定回路104Eと、残りパケット長を−1減算し、減算結果を出力する第2減算回路104Fとを有している。
また、入力キュータイミング監視回路104は、第1ゼロ以外判定回路104EからのHレベル及び第2減算回路104Fからの減算結果に応じて減算結果を出力する第5AND回路104Gと、第4AND回路104Dからの減算結果又は第5AND回路104Gからの減算結果を出力する第3OR回路104Hとを有している。
また、入力キュータイミング監視回路104は、第3OR回路104Hからの減算出力を残りパケット長としてカウントする第1カウンタ回路104Iを有し、第1カウンタ回路104Iは、カウント結果としての残りパケット長を第1ゼロ判定回路104C、第1ゼロ以外判定回路104E及び第2減算回路104Fに入力するものである。
入力パケット解析部51は、接続先SB10からのパケットを受信すると、受信したパケットがPPパケットの場合、第2AND回路103Bを通じてデコード回路101AからのPP出力のHレベル及び第1ゼロ判定回路104CからのHレベルに応じて、受信したパケットをPP用入力キュー53に設定するものである。
また、入力パケット解析部51は、接続先SB10からのパケットを受信すると、受信したパケットがBCパケットの場合、第1AND回路103A及び第1OR回路103Eを通じてデコード回路101AからのBC出力のHレベル及び第1ゼロ判定回路104CからのHレベルに応じて、受信したパケットをBC用入力キュー52に設定するものである。
また、入力パケット解析部51は、接続先SB10からのパケットを受信すると、受信したパケットがエラー通知パケットの場合、第3AND回路103D及び第1OR回路103Eを通じて、デコード回路101AからのER出力のHレベル、第1ゼロ判定回路104CからのHレベル、第1NOT回路103CからのHレベルに応じて、受信したパケットをBC用入力キュー52に設定するものである。
また、入力パケット解析部51は、受信したパケットがエラー通知パケットの場合、第3AND回路103D及び第1OR回路103Eを通じて、デコード回路101AからのER出力のHレベル及び第1ゼロ判定回路104CからのHレベルを入力したとしても、第1NOT回路103CからのLレベルを入力した場合、受信したパケットをBC用入力キュー52に設定することなく、破棄するものである。尚、第1NOT回路103CからのLレベルは、破棄フラグが設定中の場合に出力するものである。
図11は、XBB20の外部出力BCパケット解析部55(内部出力BCパケット解析部54)内部の概略構成を示すブロック図である。
図11に示す外部出力BCパケット解析部55は、BCバス41経由で他のXBB20からパケットを受信すると、受信したパケットのパケット種別を識別するパケット種別識別回路121と、転送抑止フラグの設定有無を示す転送抑止フラグ設定回路122とを有している。
パケット種別識別回路121は、他のXBB20からのパケットを受信すると、受信したパケットのOPCDに基づき、パケット種別を識別出力するデコード回路121Aを有している。尚、デコード回路121Aは、パケット種別がBCパケットの場合、BC出力からHレベルを出力すると共に、パケット種別がエラー通知パケットの場合、ER出力からHレベルを出力するものである。
転送抑止フラグ設定回路122は、転送抑止フラグを設定する転送抑止フラグ設定レジスタ122Aと、転送抑止フラグ設定レジスタ122Aに設定中の転送抑止フラグをERLVに応じて選択出力するフラグセレクタ122Bとを有している。
また、外部出力BCパケット解析部55は、パケット種別識別回路121の識別結果に応じたBC用出力キュー58に、他のXBB20から受信したパケットを設定する出力キュー設定回路123を有している。
また、外部出力BCパケット解析部55は、BC用出力キュー56に設定するタイミングを監視し、設定タイミングの場合にHレベルを出力する出力キュータイミング監視回路124と、他のXBB20から受信したパケットが接続先のSB10と同一パーティションであるか否かを判定し、同一パーティションの場合にHレベルを出力する同一パーティション判定回路125とを有している。
出力キュー設定回路123は、デコード回路121AのBC出力からのHレベル及び、出力キュータイミング監視回路124(後述する第2ゼロ判定回路124C)からのHレベルに応じてHレベルを出力する第6AND回路123Aと、デコード回路121AのER出力からのHレベル及び、出力キュータイミング監視回路124(後述する第2ゼロ判定回路124C)からのHレベルに応じてHレベルを出力する第7AND回路123Bとを有している。
出力キュー設定回路123は、ERLVがレベル3以上であるか否かを判定し、ERLVがレベル3以上の場合にHレベルを出力するERLV判定回路123Cと、ERLV判定回路123CからのHレベル又は、同一パーティション判定回路125(後述するコンパレータ回路125B)からのHレベルに応じてHレベルを出力する第4OR回路123Dとを有している。
また、出力キュー設定回路123は、フラグセレクタ122Bの選択出力がない場合にHレベルを出力する第2NOT回路123Eと、第6AND回路123AからのHレベル及び、同一パーティション判定回路125(後述するコンパレータ回路125B)からのHレベルに応じて、BCパケットをBC用出力キュー58に設定すべく、Hレベルを出力する第8AND回路123Fとを有している。
また、出力キュー設定回路123は、第7AND回路123BからのHレベル、第4OR回路123DからのHレベル及び第2NOT回路123EからのHレベルに応じて、エラー通知パケットをBC用出力キュー58に設定すべく、Hレベルを出力する第9AND回路123Gと、第8AND回路123FからのHレベル又は第9AND回路123GからのHレベルに応じて、他のXBB20から受信したパケットをBC用出力キュー58に設定指示するHレベルを出力する第5OR回路123Hとを有している。
出力キュータイミング監視回路124は、BCバス41経由で他のXBB20からのパケットを受信すると、残りパケット長を−1減算する第3減算回路124Aと、残りパケット長が0の場合に、残りパケット長はなく、パケット途中ではないものと判断し、第6AND回路123A及び第7AND回路123BにHレベルを出力する第2ゼロ判定回路124Cとを有している。
また、出力キュータイミング監視回路124は、第3減算回路124Aの減算結果、デコード回路121AのBC出力からのHレベル及び、第2ゼロ判定回路124CからのHレベルに応じて第3減算回路124Aの減算結果を出力する第10AND回路124Dと、残りパケット長が0以外の場合にHレベルを出力する第2ゼロ以外判定回路124Eと、残りパケット長を−1減算し、減算結果を出力する第4減算回路124Fとを有している。
また、出力キュータイミング監視回路124は、第2ゼロ以外判定回路124EからのHレベル及び第4減算回路124Fからの減算結果に応じて減算結果を出力する第11AND回路124Gと、第10AND回路124Dからの減算結果又は第11AND回路124Gからの減算結果を出力する第6OR回路124Hとを有している。
また、出力キュータイミング監視回路124は、第6OR回路124Hからの減算出力を残りパケット長としてカウントする第2カウンタ回路124Iを有し、第2カウンタ回路124Iは、カウント結果としての残りパケット長を第2ゼロ判定回路124C、第2ゼロ以外判定回路124E及び第4減算回路124Fに入力するものである。
また、同一パーティション判定回路125は、この外部出力BCパケット解析部55の接続先のSB10と他のSB10とのパーティション関係を管理するパーティションテーブル125Aと、パーティションテーブル125Aのテーブル内容に基づき、BCバス41経由で他のXBB20から受信したパケットのSID及び接続先のSB10が同一パーティションであるか否かを判定し、同一パーティションである場合にHレベルを出力するコンパレータ回路125Bとを有している。
外部出力BCパケット解析部55は、BCバス41経由で他のXBB20からのパケットを受信すると、受信したパケットがBCパケットの場合、第8AND回路123F及び第5OR回路123Hを通じて第6AND回路123AからのHレベル及びコンパレータ回路125BからのHレベルに応じて、受信したパケットをBC用出力キュー58に設定するものである。
また、外部出力BCパケット解析部55は、BCバス41経由で他のXBB20からのパケットを受信すると、受信したパケットがエラー通知パケットの場合、第9AND回路123G及び第5OR回路123Hを通じて第7AND回路123BからのHレベル、第2NOT回路123EからのHレベル及び第4OR回路123DからのHレベルに応じて、受信したパケットをBC用出力キュー58に設定するものである。
また、外部出力BCパケット解析部55は、受信したパケットがエラー通知パケットの場合、第9AND回路123G及び第5OR回路123Hを通じて第7AND回路123B及び第4OR回路123DからのHレベルを入力したとしても、第2NOT回路123EからのLレベルを入力した場合、受信したパケットをBC用入力キュー52に設定することなく、破棄する、すなわち転送抑止するものである。尚、第2NOT回路123EからのLレベルは、転送抑止フラグが設定中の場合に出力するものである。
尚、図11においては、BCバス41経由で他のXBB20からパケットを受信する外部出力BCパケット解析部55について説明したが、FIFO63経由でパケットを受信する内部出力BCパケット解析部54についても、外部出力BCパケット解析部55の内部構成とほぼ同一の構成であるため、その重複する構成及び動作の説明については省略する。
次に、本実施の形態を示す情報処理装置1の動作について説明する。図12は、入力パケット設定処理に関わる入力パケット解析部51内部の処理動作を示すフローチャートである。
図12に示す入力パケット設定処理は、XBB20に収容接続するSB10からのパケットを受信すると、受信したパケットを解析し、解析結果に基づき所定の宛先にパケットを転送する入力パケット解析部51側の処理である。
図12においてXBB20内部の入力パケット解析部51は、収容接続するSB10からパケットを受信すると、受信したパケットのOPCDに基づきパケット種別を解析し、パケット種別がBCパケットであるか否かを判定する(ステップS11)。
入力パケット解析部51は、パケット種別がBCパケットの場合(ステップS11肯定)、受信したBCパケットをBC用入力キュー52に設定し(ステップS12)、図12の処理動作を終了する。
また、入力パケット解析部51は、パケット種別がBCパケットでない場合(ステップS11否定)、パケット種別がPPパケットであるか否かを判定する(ステップS13)。
入力パケット解析部51は、パケット種別がPPパケットの場合(ステップS13肯定)、受信したPPパケットをPP用入力キュー53に設定し(ステップS14)、図12の処理動作を終了する。
また、入力パケット解析部51は、パケット種別がPPパケットでない場合(ステップS13否定)、パケット種別がエラー通知パケットであるか否かを判定する(ステップS15)。
また、入力パケット解析部51は、パケット種別がエラー通知パケットでない場合(ステップS15否定)、受信したパケットを破棄し(ステップS16)、図12の処理動作を終了する。
また、入力パケット解析部51は、パケット種別がエラー通知パケットの場合(ステップS15肯定)、破棄フラグが設定中であるか否かを判定する(ステップS17)。尚、破棄フラグの設定の有無は、入力パケット解析部51の接続先のSB10に対する構成変更処理を実行する場合に、SCF30のXBB制御部96側で設定するものである。
また、入力パケット解析部51は、破棄フラグが設定中である場合(ステップS17肯定)、接続先のSB10が構成変更処理実行中のSB10と判断し、構成変更処理実行中のSB10から受信したエラー通知パケットを破棄し(ステップS18)、図12の処理動作を終了する。
また、入力パケット解析部51は、破棄フラグが設定中でない場合(ステップS17否定)、接続先のSB10から受信したエラー通知パケットをERLVに応じた他のSB10に転送すべく、受信したエラー通知パケットをBC用入力キュー52に設定し(ステップS19)、図12の処理動作を終了する。
その結果、SCFI64内部のエラー抑止モード設定部82は、BC用入力キュー52へのエラー通知パケットの設定に応じてエラー通知パケットを他のSB10に転送すると、エラー通知パケットのERLVに基づきエラー抑止モードに設定するものである。
図12に示す入力パケット設定処理によれば、接続先のSB10毎に入力パケット解析部51を配置し、接続先のSB10からのパケットを受信すると、受信したパケットがBCパケットの場合、BCパケットをBC用入力キュー52に設定すると共に、受信したパケットがPPパケットの場合、PPパケットをPP用入力キュー53に設定することができる。
また、入力パケット設定処理では、接続先のSB10毎に入力パケット解析部51を配置し、接続先のSB10からのパケットを受信すると、受信したパケットがエラー通知パケットの場合、破棄フラグが設定中であるか否かを判定し、破棄フラグが設定中の場合、接続先のSB10が構成変更処理実行中のSB10と判断し、構成変更処理実行中のSB10からのエラー報告回路としてのエラー通知パケットを破棄するようにした。その結果、構成変更処理実行中のSB10でエラーが発生した場合には、構成変更処理実行中のSB10以外のSB10及びXBB20では、構成変更処理実行中のSB10からのエラー通知パケットを無視することになるため、エラー抑止モードに移行することもない。
図13は、外部出力パケット設定処理に関わる外部出力BCパケット解析部55内部の処理動作を示すフローチャートである。
図13に示す外部出力パケット設定処理は、BCバス41経由でパケットを受信すると、受信したパケットを解析し、解析結果に基づき、所定の宛先にパケットを転送する外部出力BCパケット解析部55側の処理である。
XBB20内部のSB10毎に配置した外部出力BCパケット解析部55は、BCバス41経由で受信したパケットのOPCDを解析し、パケット種別がBCパケットであるか否かを判定する(ステップS21)。
外部出力BCパケット解析部55は、パケット種別がBCパケットの場合(ステップS21肯定)、受信したBCパケットが同一パーティション内のSB10からのBCパケットであるか否かを判定する(ステップS22)。尚、外部出力BCパケット解析部55は、BCパケット内のSID及び、パーティションテーブルのテーブル内容に基づき、受信したBCパケットが同一パーティションであるか否かを判定するものである。
外部出力BCパケット解析部55は、受信したBCパケットが同一パーティション内のSB10からのBCパケットの場合(ステップS22肯定)、受信したBCパケットをBC用出力キュー58に設定する(ステップS23)。その結果、BC用出力キュー58は、出力セレクタ60経由で接続先のSB10にBCパケットを転送することになる。
外部出力BCパケット解析部55は、受信したBCパケットが同一パーティション内のSB10からのBCパケットでない場合(ステップS22否定)、受信したBCパケットを破棄し(ステップS24)、図13の処理動作を終了する。
外部出力BCパケット解析部55は、ステップS21にて受信したパケットのパケット種別がBCパケットでない場合(ステップS21否定)、受信したパケットのパケット種別がエラー通知パケットであるか否かを判定する(ステップS25)。
外部出力BCパケット解析部55は、受信したパケットのパケット種別がエラー通知パケットでない場合(ステップS25否定)、受信したパケットを破棄し(ステップS26)、図13の処理動作を終了する。
外部出力BCパケット解析部55は、受信したパケットのパケット種別がエラー通知パケットの場合(ステップS25肯定)、受信したエラー通知パケットのERLVはレベル3であるか否かを判定する(ステップS27)。
外部出力BCパケット解析部55は、エラー通知パケットのERLVがレベル3でない場合(ステップS27否定)、すなわちERLVがレベル1又は2と判断し、エラー通知パケットが同一パーティション内のSB10からのエラー通知パケットであるか否かを判定する(ステップS27A)。尚、外部出力BCパケット解析部55は、エラー通知パケット内のSID及び、パーティションテーブルのテーブル内容に基づき、受信したエラー通知パケットが同一パーティションのエラー通知データであるか否かを判定するものである。
外部出力BCパケット解析部55は、受信したエラー通知パケットが同一パーティション内のエラー通知パケットの場合(ステップS27A肯定)、転送抑止フラグが設定中であるか否かを判定する(ステップS28)。尚、転送抑止フラグの設定の有無は、外部出力BCパケット解析部55の接続先のSB10に対して構成変更処理を実行する場合に、SCF30のXBB制御部96側で設定するものである。
外部出力BCパケット解析部55は、転送抑止フラグが設定中である場合(ステップS28肯定)、接続先のSB10が構成変更処理実行中のSB10と判断し、構成変更処理実行中のSB10へ転送するエラー通知パケットを破棄し(ステップS29)、図13の処理動作を終了する。
また、外部出力BCパケット解析部55は、受信したエラー通知パケットのERLVがレベル3の場合(ステップS27肯定)、転送抑止フラグが設定中であるか否かを判定すべく、ステップS28に移行する。
また、外部出力BCパケット解析部55は、受信したエラー通知パケットが同一パーティション内のエラー通知パケットでない場合(ステップS27A否定)、接続先のSB10へ転送するエラー通知パケットを破棄すべく、ステップS29に移行する。
また、外部出力BCパケット解析部55は、転送抑止フラグが設定中でない場合(ステップS28否定)、接続先のSB10に対してエラー通知パケットを転送すべく、受信したエラー通知パケットをBC用出力キュー58に設定し(ステップS30)、図13の処理動作を終了する。
その結果、SCFI64内部のエラー抑止モード設定部82は、BC用出力キュー58のエラー通知パケットの設定に応じてエラー通知モードを接続先のSB10に転送すると、エラー通知パケットのERLVに基づきエラー抑止モードに設定するものである。さらに、接続先のSB10のエラー抑止モード設定部73では、BC用出力キュー58を通じてエラー通知パケットを受信すると、エラー抑止モードを設定するものである。
図13に示す外部出力パケット設定処理によれば、BCバス41経由でBCパケットを受信すると、受信したBCパケットが同一パーティション内のBCパケットの場合、受信したBCパケットを同一パーティション内のSB10に転送すると共に、受信したBCパケットが同一パーティション内のBCパケットでない場合、受信したBCパケットを破棄するようにしたので、同一パーティション内のSB10に対してのみ、BCパケットを転送することができる。
また、外部出力パケット設定処理では、BCバス41経由でエラー通知パケットを受信すると、受信したエラー通知パケットが同一パーティション内のエラー通知パケットであっても、転送抑止フラグが設定中であるか否かを判定し、転送抑止フラグが設定中の場合には、接続先のSB10が構成変更処理実行中のSB10と判断し、構成変更処理実行中のSB10へのエラー通知パケットを転送抑止、例えば破棄するようにした。その結果、SB10の構成変更処理実行中にエラーが発生したとしても、構成変更処理実行中のSB10へのエラー通知パケットの転送を抑止することで、構成変更処理実行中のSB10では、構成変更処理実行中のエラー通知パケットを無視することになるため、エラー抑止モードに移行することもない。
図14は、内部出力パケット設定処理に関わる内部出力BCパケット解析部54内部の処理動作を示すフローチャートである。
図14に示す内部出力パケット設定処理は、FIFO63経由でパケットを内部受信すると、受信したパケットを解析し、解析結果に基づき、内部の所定の宛先にパケットを転送する内部出力BCパケット解析部54側の処理である。
XBB20に収容接続するSB10毎に配置した内部出力BCパケット解析部54は、接続先のSB10からBCセレクタ61経由で受信したパケットのOPCDを解析し、パケット種別がBCパケットであるか否かを判定する(ステップS31)。
内部出力BCパケット解析部54は、パケット種別がBCパケットの場合(ステップS31肯定)、受信したBCパケットが同一パーティション内のSB10からのBCパケットであるか否かを判定する(ステップS32)。尚、内部出力BCパケット解析部54は、BCパケット内のSID及び、パーティションテーブルのテーブル内容に基づき、受信したBCパケットが同一パーティションであるか否かを判定するものである。
内部出力BCパケット解析部54は、受信したBCパケットが同一パーティション内のSB10からのBCパケットの場合(ステップS32肯定)、受信したBCパケットをBC用出力キュー58に設定する(ステップS33)。その結果、BC用出力キュー58は、出力セレクタ60経由で接続先のSB10にBCパケットを転送することになる。
内部出力BCパケット解析部54は、受信したBCパケットが同一パーティション内のSB10からのBCパケットでない場合(ステップS32否定)、受信したBCパケットを破棄し(ステップS34)、図14の処理動作を終了する。
内部出力BCパケット解析部54は、ステップS31にて受信したパケットのパケット種別がBCパケットでない場合(ステップS31否定)、受信したパケットのパケット種別がエラー通知パケットであるか否かを判定する(ステップS35)。
内部出力BCパケット解析部54は、受信したパケットのパケット種別がエラー通知パケットでない場合(ステップS35否定)、受信したパケットを破棄し(ステップS36)、図14の処理動作を終了する。
内部出力BCパケット解析部54は、受信したパケットのパケット種別がエラー通知パケットの場合(ステップS35肯定)、受信したエラー通知パケットのERLVがレベル3であるか否かを判定する(ステップS37)。
内部出力BCパケット解析部54は、ERLVがレベル3でない場合(ステップS37否定)、すなわちレベル1又は2と判断し、受信したエラー通知パケットが同一パーティション内のSB10からのエラー通知パケットであるか否かを判定する(ステップS37A)。尚、内部出力BCパケット解析部54は、エラー通知パケット内のSID及び、パーティションテーブルのテーブル内容に基づき、受信したエラー通知パケットが同一パーティションのエラー通知データであるか否かを判定するものである。
内部出力BCパケット解析部54は、受信したエラー通知パケットが同一パーティション内のエラー通知パケットの場合(ステップS37A肯定)、転送抑止フラグが設定中であるか否かを判定する(ステップS38)。尚、転送抑止フラグの設定の有無は、内部出力BCパケット解析部54の接続先のSB10に対して構成変更処理を実行する場合に、SCF30のXBB制御部96側で設定するものである。
内部出力BCパケット解析部54は、転送抑止フラグが設定中である場合(ステップS38肯定)、接続先のSB10が構成変更処理実行中のSB10と判断し、構成変更処理実行中のSB10へ転送するエラー通知パケットを破棄し(ステップS39)、図14の処理動作を終了する。
内部出力BCパケット解析部54は、ステップS37にて受信したエラー通知パケットのERLVがレベル3の場合(ステップS37肯定)、転送抑止フラグが設定中であるか否かを判定すべく、ステップS38に移行する。
また、内部出力BCパケット解析部54は、受信したエラー通知パケットが同一パーティション内のエラー通知パケットでない場合(ステップS37A否定)、接続先のSB10へ転送するエラー通知パケットを破棄すべく、ステップS39に移行する。
また、内部出力BCパケット解析部54は、転送抑止フラグが設定中でない場合(ステップS38否定)、接続先のSB10に対してエラー通知パケットを転送すべく、受信したエラー通知パケットをBC用出力キュー58に設定し(ステップS40)、図14の処理動作を終了する。
その結果、SCFI64内部のエラー抑止モード設定部82は、BC用出力キュー58のエラー通知パケットの設定に応じて接続先のSB10にエラー通知パケットを転送すると、エラー通知パケットのERLVに基づきエラー抑止モードに設定するものである。さらに、接続先のSB10内部のエラー抑止モード設定部73は、BC用出力キュー58を通じてエラー通知パケットを受信すると、エラー抑止モードを設定するものである。
図14に示す内部出力パケット設定処理によれば、FIFO63経由でBCパケットを受信すると、受信したBCパケットが同一パーティション内のBCパケットの場合、受信したBCパケットを同一パーティション内のSB10に転送すると共に、受信したBCパケットが同一パーティション内のBCパケットでない場合、受信したBCパケットを破棄するようにしたので、同一パーティション内のSB10に対してのみ、BCパケットを転送することができる。
また、内部出力パケット設定処理によれば、FIFO63経由でエラー通知パケットを受信すると、受信したエラー通知パケットが同一パーティション内のエラー通知パケットであっても、転送抑止フラグが設定中であるか否かを判定し、転送抑止フラグが設定中の場合には、接続先のSB10が構成変更処理実行中のSB10と判断し、構成変更処理実行中のSB10へのエラー通知パケットを転送抑止、例えば破棄するようにした。その結果、SB10の構成変更処理実行中にエラーが発生したとしても、構成変更処理実行中のSB10へのエラー通知パケットの転送を抑止することで、構成変更処理実行中のSB10では、構成変更処理実行中のエラー通知パケットを無視することになるため、エラー抑止モードに移行することもない。
図15は、第1SB10A内部でレベル2のエラーが発生した場合の情報処理装置1内部の動作を示す説明図である。
図15に示す第1SB10A内部のSC14は、例えばレベル2のエラー発生を検出すると、エラー報告部71を通じてエラー報告を制御線2経由でSCF30に通知する。
また、第1SB10A内部のSC14は、レベル2のエラー発生を検出すると、エラー通知パケット送受信部72を通じて、レベル2のエラー通知パケットを生成し、生成したレベル2のエラー通知パケットを、接続する第1XBB20A側の入力パケット解析部51に通知する。
第1SB10Aを接続先とする入力パケット解析部51は、第1SB10Aからのレベル2のエラー通知パケットを受信すると、破棄フラグが設定中であるか否かを判定し、破棄フラグが設定中でない場合には、受信したエラー通知パケットを、第1SB10Aを接続先とするBC用入力キュー52に設定する。その結果、第1XBB20Aは、BC用入力キュー52にエラー通知パケットを設定すると、エラー通知パケットのレベル2に応じて、エラー検出部位のエラー検出動作を抑止するエラー抑止モードを設定することになる。
第1SB10Aを接続先とするBC用入力キュー52は、設定した第1SB10Aからのレベル2のエラー通知パケットを、BCセレクタ61及びBCバス41経由で第2XBB20B内の各外部出力BCパケット解析部55に転送すると共に、BCセレクタ61及びFIFO63経由で第1XBB20A内部の各内部出力BCパケット解析部54に転送する。
まず、第2XBB20B側の第5SB10E及び第6SB10Fを接続先とする各外部出力BCパケット解析部55は、第1XBB20A経由で第1SB10からレベル2のエラー通知パケットを受信すると、第1SB10Aとパーティションが同一のため、受信したレベル2のエラー通知パケットをBC用出力キュー58及び出力セレクタ60経由で第5SB10E及び第6SB10Fに転送することになる。
その結果、第2XBB20Bのエラー抑止モード設定部82は、BC用出力キュー58にエラー通知パケットを設定して、エラー通知パケットを第5SB10E及び第6SB10Fに転送すると、エラー通知パケットのレベル2に応じて、エラー検出部位のエラー検出動作を抑止するエラー抑止モードを設定することになる。また、第5SB10E及び第6SB10Fのエラー抑止モード設定部73は、第1SB10Aからのレベル2のエラー通知パケットを受信すると、エラー検出部位のエラー検出動作を抑止するエラー抑止モードに設定することになる。
また、第2XBB20B側の第7SB10G及び第8SB10Hを接続先とする各外部出力BCパケット解析部55は、第1XBB20A経由で第1SB10からレベル2のエラー通知パケットを受信すると、第1SB10Aとパーティションが異なるため、受信したエラー通知パケットを破棄することになる。
尚、第7SB10G及び第8SB10Hを接続先とする外部出力BCパケット解析部55は、レベル3のエラー通知パケットを受信した場合、受信したエラー通知パケットを破棄することなく、エラー通知パケットをBC用出力キュー58及び出力セレクタ60経由で第7SB10G及び第8SB10Hに転送するものである。
また、第1XBB20A側の第2SB10Bを接続先とする内部出力BCパケット解析部54は、BCセレクタ61及びFIFO63経由で第1SB10Aのレベル2のエラー通知パケットを受信すると、第1SB10Aとパーティションが同一のため、エラー通知パケットをBC用出力キュー58及び出力セレクタ60経由で第2SB10Bに転送することになる。
その結果、第2SB10Bのエラー抑止モード設定部73は、第1SB10Aからのレベル2のエラー通知パケットを受信すると、エラー検出部位のエラー検出動作を抑止するエラー抑止モードに設定することになる。
また、第1XBB20A側の第3SB10C及び第4SB10Dを接続先とする内部出力BCパケット解析部54は、BCセレクタ61及びFIFO63経由で第1SB10Aのレベル2のエラー通知パケットを受信すると、第1SB10Aとパーティションが異なるため、第1SB10Aからのエラー通知パケットを破棄することになる。
尚、第3SB10C及び第4SB10Dを接続先とする内部出力BCパケット解析部54は、レベル3のエラー通知パケットを受信した場合、受信したエラー通知パケットを破棄することなく、エラー通知パケットをBC用出力キュー58及び出力セレクタ60経由で第3SB10C及び第4SB10Dにも転送するものである。
その結果として、第1SB10Aでは、レベル2のエラー発生を検出すると、制御線2経由でエラー報告をSCF30に通知すると共に、レベル2のエラー通知パケットを、第1SB10Aと同一パーティション内のSB10、例えば第1XBB20A経由で第2SB10B、第1XBB20A及び第2XBB20B経由で第5SB10E及び第6SB10Fに転送することになる。
そして、第2SB10B、第5SB10E、第6SB10F、第1XBB20A及び第2XBB20Bは、第1SB10Aからのレベル2エラー通知パケットを受信することで、エラー抑止モードを設定することになる。
また、第1SB10Aでは、例えばレベル3のエラー発生を検出した場合、制御線2経由でエラー報告をSCF30に通知すると共に、レベル3のエラー通知パケットを、第1XBB20A及び第2XBB20B経由で全SB10に転送するものである。
その結果、全SB10及び全XBB20は、第1SB10Aのエラー通知パケットを受信すると、エラー抑止モードを設定することになる。
また、SCF30側の復旧処理実行部92は、第1SB10Aからのレベル2のエラー報告を受け付けると、エラー報告に関わるERLV及びエラー検出部位に基づきエラーログを収集し、収集結果に基づきエラー発生部位を特定し、特定したエラー発生部位に対してエラー復旧処理を実行する。
SCF30側のモード解除部93は、復旧処理実行部92にてエラー発生部位に対するエラー復旧処理が完了すると、第1XBB20A、第2XBB20B、第2SB10B、第5SB10E及び第6SB10Fに設定中のエラー抑止モードを制御線2経由で解除することになる。
次に、エラー報告を受け付けたSCF30の動作について説明する。図16は、エラー復旧処理に関わるSCF30内部の処理動作を示すフローチャートである。
図16に示すエラー復旧処理は、制御線2経由でエラー報告回路からエラー報告を受け付けると、このエラー報告に基づくERLV及びエラー検出部位からエラー発生部位を特定し、特定したエラー発生部位に対してエラー復旧処理を実行するための処理である。
図16において復旧処理実行部92は、エラー報告受付部91を通じて、制御線2経由でエラー報告を受け付けると、エラー報告に基づき、エラー検出部位のエラーログを収集し(ステップS51)、エラー報告に基づき、ERLVを識別する(ステップS52)。
復旧処理実行部92は、ERLVを認識し、ERLVがレベル1の場合、エラー検出部位をエラー発生部位とし、エラー発生部位の縮退が可能ならば縮退処理を実行し(ステップS53)、エラー発生部位のパーティションに対する回復のためのリセット処理を実行する(ステップS54)。尚、エラー発生部位のパーティションに対する回復のためのリセット処理を実行する場合、例えば複数のパーティションに所属するSB10を収容接続するXBB20の場合は、エラー発生部位のパーティション以外のパーティションに収容接続するSB10に影響を与えないように部分的なリセット処理を実行するものである。
復旧処理実行部92は、エラー発生部位のパーティションに対する、回復のためのリセット処理を実行すると、エラー発生部位の初期設定を実行し(ステップS55)、エラー発生部位のパーティション内の全SB10内のCPU11及び入出力制御部12を起動する(ステップS56)。
モード解除部93は、ステップS56にてエラー発生部位のパーティション内の全SB10内のCPU11及び入出力制御部12を起動すると、エラー発生部位のパーティション内の全SB10及びXBB20に設定中のエラー抑止モードを、モード解除部93を通じて解除し(ステップS57)、図16の処理動作を終了する。
また、復旧処理実行部92は、ステップS52にてERLVがレベル2の場合、エラー検出部位のSB10と同一パーティション内の全SB10及びXBB20のエラーログを収集し(ステップS58)、エラーログの収集結果に基づき、エラー発生部位を特定し(ステップS59)、エラー発生部位の縮退が可能なら縮退処理を実行し(ステップS60)、エラー発生部位のパーティションに対する、回復のためのリセット処理を実行すべく、ステップS54に移行する。
また、復旧処理実行部92は、ステップS52にてERLVがレベル3の場合、システム内の全SB10及び全XBB20のエラーログを収集し(ステップS61)、エラーログの収集結果に基づき、エラー発生部位を特定する(ステップS62)。
また、復旧処理実行部92は、ステップS62にてエラー発生部位を特定すると、エラー発生部位の縮退が可能ならば縮退処理を実行し(ステップS63)、システム全体に対する回復のためのリセット処理を実行する(ステップS64)。
復旧処理実行部92は、ステップS64にてシステム全体のリセット処理を実行すると、システム全体の初期設定を実行し(ステップS65)、システム内部の全SB10内の全CPU11及び全入出力制御部12を起動し(ステップS66)、システム内部の全SB10及び全XBB20に設定中のエラー抑止モードを、モード解除部93を通じて解除し(ステップS67)、図16の処理動作を終了する。
図16に示すエラー復旧処理では、制御線2経由でエラー報告を受け付けると、エラー報告に基づきエラー検出部位及びERLVを認識し、エラー検出部位及びERLVに応じたエラー発生部位を特定し、特定したエラー発生部位に対する縮退処理、リセット処理、初期設定処理及び起動処理を実行すると共に、設定中のSB10及びXBB20のエラー抑止モードを解除するようにした。その結果、エラー復旧処理によれば、エラー発生部位を復旧することができると共に、設定中のエラー抑止モードを解除することができる。
次に、SCF30の構成変更処理に関わる動作について説明する。図17は、構成変更処理に関わるSCF30内部の処理動作を示すフローチャートである。
図17に示す構成変更処理は、システム運用構成の変更指示、例えばパーティションAに所属する第1SB10Aを第1XBB20Aから切り離す構成変更指示に応じて、第1XBB20Aから第1SB10Aを切り離す構成変更処理を実行するための処理である。
図17においてSCF30内部の構成変更処理実行部95は、構成変更検出部94にて構成変更指示を検出すると、構成変更指示に応じた、例えば切り離すSB10からSCF30への割り込みマスクを閉じる(ステップS70)。
SCF制御部97側のエラー報告受付保留部97Aは、構成変更処理実行部95を通じて切り離すSB10からSCF30への割り込みマスクを閉じると、制御線2経由でのエラー報告の受付を保留設定したことになる(ステップS71)。
SCF制御部97側のXBB制御部96は、エラー報告の受付を保留設定すると、切り離すSB10を接続先とするXBB20内部の入力パケット解析部51に対して破棄フラグを設定する(ステップS72)。尚、切り離すSB10を接続先とする入力パケット解析部51は、破棄フラグの設定に応じて接続先のSB10からのエラー通知パケットを破棄するものである。
また、XBB制御部96は、切り離すSB10と接続する入力パケット解析部51に対して破棄フラグを設定すると、切り離すSB10へのエラー通知パケットを転送抑止する転送抑止フラグを、切り離すSB10に接続先とするXBB20内の外部出力BCパケット解析部55及び内部出力BCパケット解析部54に設定する(ステップS73)。
さらに、構成変更処理実行部95は、パーティション内のOSに対して切り離すSB10内のCPU11、入出力制御部12、メモリ13、SC14及びXBBインタフェース15の使用中止を指示すると(ステップS74)、パーティション内のOSから使用中止に対する処理完了通知を受信したか否かを判定する(ステップS75)。
構成変更処理実行部95は、処理完了通知を受信した場合(ステップS75肯定)、切り離すSB10内のCPU11のキャッシュの掃き出しを指示し(ステップS76)、切り離すSB10内のCPU11及び入出力制御部12を停止状態にする(ステップS77)。
構成変更処理実行部95は、切り離すSB10内のCPU11及び入出力制御部12を停止状態にすると、全XBB20の内部出力BCパケット解析部54及び外部出力BCパケット解析部55内部のパーティションテーブルから、切り離すSB10を削除すべく、パーティションテーブルを書き換える(ステップS78)。
さらに、構成変更処理実行部95は、残りの全SB10のSC14内のパーティションテーブル(図示せず)も同様に書き換え(ステップS79)、切り離すSB10側のインタフェース切断を該当するXBB20及びSC14に指示する(ステップS80)。この結果、今後、XBB20では、切り離すSB10を接続先とする出力セレクタ60でパケットを破棄することになる。
構成変更処理実行部95は、切り離すSB10のインタフェース切断を該当するXBB20及びSC14に指示すると、パーティションのOSに対してSB削除完了を通知する(ステップS81)。尚、OS側は、SB削除完了を受信すると、SCF30に対する各種処理を依頼するものである。
SCF制御部97は、パーティションのOSに対してSB削除完了を通知すると、構成変更処理が完了したものと判断し、ステップS71にてエラー報告の受付保留を解除する(ステップS82)。
さらに、SCF制御部97側のXBB制御部96は、エラー報告の受付保留を解除すると、ステップS72にて設定した入力パケット解析部51の破棄フラグを解除すると共に、ステップS73にて設定した内部出力BCパケット解析部54及び外部出力BCパケット解析部55の転送抑止フラグを解除し(ステップS83)、図17の処理動作を終了する。
また、構成変更処理実行部95は、ステップS75にて処理完了通知を受信しなかった場合(ステップS75否定)、処理完了通知を受信するまでステップS75の監視動作を実行するものである。
図17に示す構成変更処理では、例えばXBB20からSB10を切り離す構成変更指示を検出すると、SCF30側にエラー報告の受付を保留する受付保留を設定すると共に、構成変更処理実行中のSB10からのエラー通知パケットを破棄する破棄フラグを、構成変更処理実行中のSB10を接続先とするXBB20側の入力パケット解析部51に設定する。さらに、構成変更処理では、構成変更処理実行中のSB10へのエラー通知パケットの転送を抑止する転送抑止フラグを、構成変更処理実行中のSB10を接続先とするXBB20側の内部出力BCパケット解析部54及び外部出力BCパケット解析部55に設定するようにした。
その結果、構成変更処理実行中にエラーが発生したとしても、構成変更処理実行中のSB10からのエラー通知パケットを破棄すると共に、構成変更処理実行中のSB10へのエラー通知パケットの転送を抑止することができる。
尚、構成変更処理実行中のSB10においては破棄フラグ及び転送抑止フラグを設定するようにしたが、例えば構成変更処理実行中のSB10に対して破棄フラグ及び転送抑止フラグを設定しなかった場合に、構成変更処理実行中のSB10がエラー発生を検出した場合、エラー報告をSCF30に通知すると共に、エラー通知パケットをXBB20経由で各SB10に転送通知することになる。その結果、エラー通知パケットを受信したXBB20及びSB10は、エラー抑止モードに移行してしまうことになる。
しかしながら、SCF30側では、エラー報告回路としてのSB10の構成変更処理が完了してしまうと、エラー報告回路としてのSB10を認識することができないため、他のSB10及びXBB20に対して設定中のエラー抑止モードを解除することができない。このまま、SB10及びXBB20は、エラー抑止モードを設定したままだと、その後にエラーが発生したとしても、エラー発生を検出することができないといった事態も考えられる。
そこで、図17に示す構成変更処理によれば、構成変更処理実行中のSB10に対して破棄フラグを設定するようにしたので、構成変更処理実行中のSB10からのエラー通知パケットを破棄することで、構成変更処理実行中のSB10以外の他のSB10及びXBB20に対してエラー通知パケットが到達しないため、エラー抑止モードに移行することもなくなる。その結果、エラー抑止モードが解除されずに放置されたまま、エラー発生を検出することができなくなるような事態を回避することができる。
また、構成変更処理実行中のSB10に対して破棄フラグ及び転送抑止フラグを設定しなかった場合に、例えば構成変更処理実行中のSB10以外のSB10でエラー発生を検出した場合、エラー報告をSCF30に通知すると共に、構成変更処理実行中のSB10を含む他のSB10及びXBB20に対してエラー報告回路であるSB10からのエラー通知パケットを転送することになる。その結果、エラー通知パケットを受信したXBB20及びSB10は、エラー抑止モードに移行することになる。
しかしながら、SCF30側では、エラー報告回路としてのSB10に対する復旧処理が完了すると、設定中のエラー抑止モードを解除することになるが、SCF30側では、構成変処理実行中のSB10に対する構成変更処理が完了すると、構成変更完了後のSB10を認識することができないため、構成変更処理完了後のSB10に設定中のエラー抑止モードを解除することができない。その結果、SB10の構成復帰時にエラー抑止モードを解除する余計な処理が必要になるといった事態も考えられる。
そこで、図17に示す構成変更処理によれば、構成変更処理実行中のSB10に対して転送抑止フラグを設定するようにしたので、構成変更処理実行中のSB10へのエラー通知パケットの転送を抑止することで、構成変更処理実行中のSB10に対してエラー通知パケットが到達することはないため、エラー抑止モードに移行することはなく、構成変更処理完了後のSB10による構成復帰時にエラー抑止モードを解除する余計な処理を実行する必要もなくなる。
図18は、第1SB10Aの構成変更処理実行中、例えば切り離し中に第1SB10A内にレベル2のエラーが発生した場合に関わる情報処理装置1の動作を示す説明図である。
図18に示すSCF30側のSCF制御部97は、構成変更検出部94を通じて第1SB10Aの切り離しに関わる構成変更指示を検出すると、エラー報告受付保留部97Aを通じてエラー報告の受付を制御線2経由で保留設定することになる。
SCF制御部97側のXBB制御部96は、エラー報告の受付を保留設定すると、構成変更処理実行中の第1SB10Aを接続先とする第1XBB20A内部の入力パケット解析部51に対して破棄フラグを設定する。
さらに、XBB制御部96は、構成変更処理実行中の第1SB10Aを接続先とする入力パケット解析部51に対して破棄フラグを設定すると、第1SB10Aへのエラー通知パケットを転送抑止する転送抑止フラグを、第1SB10Aを接続先とする第1XBB20A内の外部出力BCパケット解析部55及び内部出力BCパケット解析部54に設定する。
構成変更処理実行中の第1SB10Aは、例えばレベル2のエラー発生を検出すると、エラー報告を制御線2経由でSCF30に通知することになるが、SCF30側では、受付保留設定中のため、第1SB10Aからのエラー報告の受付を保留することになる。
また、構成変更処理実行中の第1SB10Aは、レベル2のエラー発生を検出すると、レベル2のエラー通知パケットを、第1SB10Aを接続先とする第1XBB20A内の入力パケット解析部51に通知する。
しかしながら、第1SB10Aを接続先とする入力パケット解析部51では、破棄フラグが設定中であるため、第1SB10Aから受信したレベル2のエラー通知パケットを破棄することになる。尚、第1SB10Aに接続する入力パケット解析部51は、第1SB10Aから受信したレベル2のエラー通知パケットを破棄することで、第1SB10Aからのレベル2のエラー通知パケットが他のSB10及びXBB20に到達しないため、これらSB10及びXBB20はエラー抑止モードに移行しないことになる。
その後、SCF30では、第1SB10Aに対する構成変更処理が完了すると、受付保留設定を解除すると共に、第1SB10Aを接続先とする第1XBB20A内の入力パケット解析部51に設定中の破棄フラグを解除すると共に、第1SB10Aを接続先とする第1XBB20A内の内部出力BCパケット解析部54及び外部出力BCパケット解析部55に設定中の転送抑止フラグを解除することになる。
また、SCF30では、第1SB10Aに対する構成変更処理が完了すると、第1SB10Aがエラー発生部位であっても、第1SB10Aはシステム構成から切り離されたことで、第1SB10Aに対するエラー復旧処理を実行しなくても、問題はなく、しかも、第1SB10Aからのエラー通知パケットが他のSB10やXBB20に到達しなかったことで、エラー抑止モードに移行することがないため、無駄なエラー抑止モードの設定や解除に関わる処理負担を軽減することができる。
その結果、情報処理装置1では、図18に示すように、構成変更処理実行中の第1SB10Aにエラーが発生したとしても、第1SB10Aを接続先とする第1XBB20A側の入力パケット解析部51に設定中の破棄フラグに基づき、第1SB10Aからのレベル2のエラー通知パケットを破棄するようにしたので、構成変更処理実行中の第1SB10Aからのレベル2のエラー通知パケットを同一パーティション内の第1XBB20A、第2XBB20A、第2SB10B、第5SB10E及び第6SB10Fに通知してエラー抑止モードに設定してしまうような事態を回避することができる。
図18に示す情報処理装置1によれば、構成変更処理実行中の第1SB10Aにレベル2のエラーが発生した場合、構成変更処理が完了するまで、第1SB10Aからのエラー報告の受付を保留すると共に、構成変更処理が完了するまで、第1SB10Aと接続する第1XBB20A側の入力パケット解析部51に対して、第1SB10Aからのレベル2のエラー通知パケットを破棄する破棄フラグを設定するようにしたので、構成変更処理実行中の第1SB10Aのエラー発生の検出に伴うエラー通知パケットの転送によって無駄なエラー抑止モードを設定してしまうような事態を回避し、その結果、その設定を解除する処理負担を軽減することができる。
図19は、第1SB10Aの構成変更処理実行中、例えば切り離し中に同一パーティション内の第2SB10B内にレベル2のエラーが発生した場合に関わる情報処理装置1の動作を示す説明図である。
図19に示すSCF30側のSCF制御部97は、構成変更検出部94を通じて第1SB10Aの切り離しに関わる構成変更指示を検出すると、エラー報告受付保留部97Aを通じてエラー報告の受付を制御線2経由で保留設定することになる。
SCF制御部97側のXBB制御部96は、エラー報告の受付を保留設定すると、構成変更処理実行中の第1SB10Aを接続先とする第1XBB20A内部の入力パケット解析部51に対して破棄フラグを設定する。
さらに、XBB制御部96は、構成変更処理実行中の第1SB10Aを接続先とする入力パケット解析部51に対して破棄フラグを設定すると、第1SB10Aへのエラー通知パケットを転送抑止する転送抑止フラグを、第1SB10Aを接続先とする第1XBB20A内の外部出力BCパケット解析部55及び内部出力BCパケット解析部54に設定する。
第2SB10Bは、同一パーティション内の第1SB10Aに対する構成変更処理実行中に、例えばレベル2のエラー発生を検出すると、エラー報告を制御線2経由でSCF30に通知する。SCF30側では、受付保留設定中のため、第2SB10Bからのエラー報告の受付を保留することになる。
また、第2SB10Bは、第1SB10Aに対する構成変更処理実行中に、レベル2のエラー発生を検出すると、レベル2のエラー通知パケットを、第2SB10Bを接続先とする第1XBB20A内の入力パケット解析部51に通知する。
第2SB10Bを接続先とする入力パケット解析部51は、第2SB10Bからレベル2のエラー通知パケットを受信すると、受信したレベル2のエラー通知パケットをBC用入力キュー52に設定する。
BC用入力キュー52は、設定したレベル2のエラー通知パケットをBCセレクタ61及びFIFO63経由で、第1SB10A、第3SB10C及び第4SB10Dの各内部出力BCパケット解析部54に転送すると共に、設定したレベル2のエラー通知パケットをBCセレクタ61及びBCバス41経由で第2XBB20Bに転送する。
第3SB10C及び第4SB10Dを接続先とする内部出力BCパケット解析部54は、第2SB10Bからのレベル2のエラー通知パケットを受信すると、第2SB10Bと同一パーティションであるか否かを判定し、同一パーティションでないために、第2SB10Bからのレベル2のエラー通知パケットを破棄することになる。
また、第1SB10Aを接続先とする内部出力BCパケット解析部54は、第2SB10Bからのレベル2のエラー通知パケットを受信すると、第2SB10Bと同一パーティションであるため、本来ならレベル2のエラー通知パケットをBC出力キュー58に設定して出力セレクタ60経由で第1SB10Aに転送することになる。
しかしながら、第1SB10Aを接続先とする内部出力BCパケット解析部54は、転送抑止フラグを設定中のため、第2SB10Bからのレベル2のエラー通知パケットを破棄することになる。その結果、第1SB10Aでは、第2SB10Bからのエラー通知パケットが到達しないため、エラー抑止モードに移行しないことになる。
また、第2XBB20Bでは、BCバス41を通じて第1XBB20A経由で第2SB10Bからのレベル2のエラー通知パケットを受信すると、受信したレベル2のエラー通知パケットを第5SB10E、第6SB10F、第7SB10G及び第8SB10Hを接続先とする外部出力BCパケット解析部55に通知する。
第7SB10G及び第8SB10Hを接続先とする外部出力BCパケット解析部55は、第2SB10Bからのレベル2のエラー通知パケットを受信すると、第2SB10Bと同一パーティションであるか否かを判定し、同一パーティションではないため、第2SB10Bからのレベル2のエラー通知パケットを破棄することになる。
また、第5SB10E及び第6SB10Fを接続先とする外部出力BCパケット解析部55は、第2SB10Bからのレベル2のエラー通知パケットを受信すると、第2SB10Bと同一パーティションであるため、第2SB10Bからのレベル2のエラー通知パケットを、BC用出力キュー58及び出力セレクタ60経由で第5SB10E及び第6SB10Fに転送することになる。その結果、第5SB10E及び第6SB10Fでは、第2SB10Bからのエラー通知パケットに応じてエラー抑止モードに移行することになる。
第1XBB20Aでは、第1SB10Aの構成変更処理実行中に、第2SB10Bでレベル2のエラーが発生した場合、第2SB10Bと同一パーティション内の構成変更処理実行中の第1SB10へのエラー通知パケットの転送を抑止することになる。
また、第1XBB20A及び第2XBB20Bでは、第2SB10Bと同一パーティション内の第5SB10E及び第6SB10Fにレベル2のエラー通知パケットを転送することで、第2SB10Bからのエラー通知パケットに応じてエラー抑止モードに移行することになる。
その後、SCF30では、第1SB10Aに対する構成変更処理が完了すると、受付保留設定を解除すると共に、第1SB10Aを接続先とする第1XBB20A内の入力パケット解析部51に設定中の破棄フラグを解除すると共に、第1SB10Aを接続先とする第1XBB20A内の内部出力BCパケット解析部54及び外部出力BCパケット解析部55に設定中の転送抑止フラグを解除することになる。
SCF30では、第1SB10Aに対する構成変更処理が完了すると、復旧処理実行部92を通じて第2SB10Bのエラー発生部位に対するエラー復旧処理を実行し、このエラー復旧処理を実行した後、モード解除部93を通じて第1XBB20A、第2XBB20B、第5SB10E及び第6SB10Fに対するエラー抑止モードの設定を解除することになる。
その結果、情報処理装置1では、図19に示すように、第1SB10Aに対する構成変更処理実行中に、第2SB10Bにエラーが発生したとしても、第1SB10Aを接続先とする第1XBB20A側の内部出力BCパケット解析部54及び外部出力BCパケット解析部55に設定中の転送抑止フラグに基づき、第1SB10Aに対する第2SB10Bからのレベル2のエラー通知パケットの転送を抑止するようにしたので、第2SB10Bからのレベル2のエラー通知パケットの転送に応じて、構成変更処理実行中の第1SB10Aがエラー抑止モードに設定してしまうような事態を回避することができる。
図19に示す情報処理装置1によれば、第1SB10Aに対する構成変更処理実行中に、第1SB10Aと同一パーティション内の第2SB10Bにレベル2のエラーが発生した場合、構成変更処理が完了するまで、第2SB10Bからのエラー報告の受付を保留すると共に、構成変更処理が完了するまで、第1SB10Aを接続先とする第1XBB20A側の内部出力BCパケット解析部54及び外部出力BCパケット解析部55に対して、第1SB10Aへのレベル2のエラー通知パケットの転送を抑止する転送抑止フラグを設定するようにしたので、エラー通知パケットの転送に応じて、構成変更処理実行中の第1SB10Aがエラー抑止モードに設定してしまうような事態を回避し、その結果、第1SB10Aの構成復帰に際してのエラー抑止モードの解除に関わる処理負担を軽減することができる。
図20は、第3SB10Cの構成変更処理実行中、例えば切り離し中に異なるパーティション内の第1SB10A内にレベル3のエラーが発生した場合に関わる情報処理装置1の動作を示す説明図である。
図20に示すSCF30側のSCF制御部97は、構成変更検出部94を通じて第3SB10Cの切り離しに関わる構成変更指示を検出すると、エラー報告受付保留部97Aを通じてエラー報告の受付を制御線2経由で保留設定することになる。
SCF制御部97側のXBB制御部96は、エラー報告の受付を保留設定すると、構成変更処理実行中の第3SB10Cを接続先とする第1XBB20A内部の入力パケット解析部51に対して破棄フラグを設定する。
さらに、XBB制御部96は、構成変更処理実行中の第3SB10Cを接続先とする入力パケット解析部51に対して破棄フラグを設定すると、第3SB10Cへのエラー通知パケットを転送抑止する転送抑止フラグを、第3SB10Cを接続先とする第1XBB20A内の外部出力BCパケット解析部55及び内部出力BCパケット解析部54に設定する。
第1SB10Aは、異なるパーティション内の第3SB10Cに対する構成変更処理実行中に、例えばレベル3のエラー発生を検出すると、エラー報告を制御線2経由でSCF30に通知する。SCF30側では、受付保留設定中のため、第1SB10Aからのエラー報告の受付を保留することになる。
また、第1SB10Aは、第3SB10Cに対する構成変更処理実行中に、レベル3のエラー発生を検出すると、レベル3のエラー通知パケットを、第1SB10Aを接続先とする第1XBB20A内の入力パケット解析部51に通知することになる。
第1SB10Aを接続先とする入力パケット解析部51は、第1SB10Aからレベル3のエラー通知パケットを受信すると、受信したレベル3のエラー通知パケットをBC用入力キュー52に設定する。
BC用入力キュー52は、設定したレベル3のエラー通知パケットをBCセレクタ61及びFIFO63経由で、第2SB10B、第3SB10C及び第4SB10Dの各内部出力BCパケット解析部54に転送すると共に、設定したレベル3のエラー通知パケットをBCセレクタ61及びBCバス41経由で第2XBB20Bに転送する。
第3SB10Cを接続先とする内部出力BCパケット解析部54は、第1SB10Aからのレベル3のエラー通知パケットを受信すると、転送抑止フラグが設定中であるため、第1SB10Aからのレベル3のエラー通知パケットを破棄することになる。
また、第2SB10B及び第4SB10Dの内部出力BCパケット解析部54は、第1SB10Aからのレベル3のエラー通知パケットを受信すると、第1SB10Aと同一パーティションであるか否かに関係なく、第1SB10Aからレベル3のエラー通知パケットをBC出力キュー58に設定して出力セレクタ60経由で第2SB10B及び第4SB10Dに転送することになる。その結果、第2SB10B及び第4SB10Dでは、第1SB10Aからのエラー通知パケットの到達に応じてエラー抑止モードに移行することになる。
また、第2XBB20Bでは、第1XBB20AからBCバス41経由で第1SB10Aからのレベル3のエラー通知パケットを受信すると、受信したレベル3のエラー通知パケットを、第5SB10E、第6SB10F、第7SB10G及び第8SB10Hを接続先とする外部出力BCパケット解析部55に通知する。
また、第5SB10E、第6SB10F、第7SB10G及び第8SB10Hを接続先とする外部出力BCパケット解析部55は、第1SB10Aからのレベル3のエラー通知パケットを受信すると、第1SB10Aと同一パーティションであるか否かに関係なく、第1SB10Aからのレベル3のエラー通知パケットを、BC用出力キュー58及び出力セレクタ60経由で、第5SB10E、第6SB10F、第7SB10G及び第8SB10Hに転送することになる。その結果、第5SB10E、第6SB10F、第7SB10G及び第8SB10Hでは、第1SB10Aからのエラー通知パケットの到達に応じてエラー抑止モードに移行することになる。
第1XBB20Aでは、第3SB10Cの構成変更処理実行中に、第1SB10Aでレベル3のエラーが発生した場合、第1SB10Aと異なるパーティション内の構成変更処理実行中の第3SB10Cに対する、第1SB10Aからのレベル3のエラー通知パケットの転送を抑止する。
さらに、第1XBB20A及び第2XBB20Bでは、第1SB10Aと同一パーティション内の第2SB10B、第5SB10E及び第6SB10F、異なるパーティション内の第4SB10D、第7SB10G及び第8SB10Hにレベル3のエラー通知パケットを転送するようにした。その結果、第1XBB20A及び第2XBB20Bでは、第1SB10Aからのエラー通知パケットに応じてエラー抑止モードに移行することになる。
その後、SCF30では、第3SB10Cに対する構成変更処理が完了すると、受付保留設定を解除すると共に、第3SB10Cを接続先とする第1XBB20A内の入力パケット解析部51に設定中の破棄フラグを解除すると共に、第3SB10Aを接続先とする第1XBB20A内の内部出力BCパケット解析部54及び外部出力BCパケット解析部55に設定中の転送抑止フラグを解除することになる。
SCF30では、第3SB10Cに対する構成変更処理が完了すると、復旧処理実行部92を通じて第1SB10Aのエラー発生部位、システム全体に対するエラー復旧処理を実行し、このエラー復旧処理を実行した後、モード解除部93を通じて第1XBB20A、第2XBB20B、第2SB10B、第4SB10D、第5SB10E、第6SB10F、第7SB10G及び第8SB10Hに対するエラー抑止モードの設定を解除することになる。
その結果、情報処理装置1では、図20に示すように、第3SB10Cに対する構成変更処理実行中に、異なるパーティション内の第1SB10Aにレベル3のエラーが発生したとしても、第3SB10Cを接続先とする第1XBB20A側の内部出力BCパケット解析部54及び外部出力BCパケット解析部55に設定中の転送抑止フラグに基づき、第3SB10Cに対する第1SB10Aからのレベル3のエラー通知パケットの転送を抑止するようにしたので、第1SB10Aからのレベル3のエラー通知パケットの転送に応じて構成変更処理実行中の第3SB10Cがエラー抑止モードに設定してしまうような事態を回避することができる。
図20に示す情報処理装置1では、第3SB10Cに対する構成変更処理実行中に、異なるパーティション内の第1SB10Aにレベル3のエラーが発生した場合、構成変更処理が完了するまで、第1SB10Aからのエラー報告の受付を保留すると共に、構成変更処理が完了するまで、第3SB10Cを接続先とする第1XBB20A側の内部出力BCパケット解析部54及び外部出力BCパケット解析部55に対して、第3SB10Cに対する、レベル3のエラー通知パケットの転送を抑止する転送抑止フラグを設定するようにした。その結果、エラー通知パケットの転送に応じて、構成変更処理実行中の第3SB10Cがエラー抑止モードに移行してしまうような事態を回避し、さらに、第3SB10Cの構成復帰に際してのエラー抑止モードの解除に関わる処理負担を軽減することができる。
本実施の形態では、SB10に関わる構成変更処理実行中はエラー報告の受付を保留すると共に、構成変更処理の実行が完了するまで、構成変更処理実行中のSB10から受信したエラー通知データを破棄すべく、構成変更処理実行中のSB10を接続先とするXBB20側の入力パケット解析部51に破棄フラグを設定するようにした。従って、本実施の形態によれば、構成変更処理実行中のSB10にエラーが発生したとしても、構成変更処理実行中のSB10からのエラー通知パケットを破棄することで、構成変更処理実行中のSB10以外の他のSB10及びXBB20に対してエラー通知パケットが到達しないため、エラー抑止モードに移行することもなくなる。その結果、エラー抑止モードが解除されずに放置されたまま、エラー発生を検出することができなくなるような事態を回避することができるため、安定したエラー検出制御を確保することができる。
また、本実施の形態では、SB10に関わる構成変更処理実行中はエラー報告の受付を保留すると共に、構成変更処理の実行が完了するまで、構成変更処理実行中のSB10へのエラー通知データの転送を抑止すべく、構成変更処理実行中のSB10を接続先とするXBB20側の内部出力パケット解析部54及び外部出力パケット解析部55に転送抑止フラグを設定するようにした。従って、本実施の形態によれば、構成変更処理実行中のSB10へのエラー通知パケットの転送を抑止することで、構成変更処理実行中のSB10に対してエラー通知パケットが到達することはないため、構成変更処理実行中のSB10は、エラー抑止モードに移行することはなく、構成復帰時にエラー抑止モードを解除するような余計な処理を実行する必要もなく、安定したエラー検出制御を確保することができる。
尚、上記実施の形態においては、複数のSB10及び複数のXBB20をパーティション単位で分割し、例えば図19に示すように第1SB10Aの構成変更処理実行中に同一パーティション内の第2SB10Bにエラーが発生した場合、構成変更処理実行中の第1SB10Aに対する、第2SB10Bからのエラー通知パケットを第1XBB20A側で破棄し、第2SB10Bからのエラー通知パケットを第2SB10Bと同一パーティション内の第5SB10E及び第6SB10Fに対して第1XBB20A及び第2XBB20B経由で通知するようにした。
しかしながら、パーティション分割がない場合には、構成変更処理実行中の第1SB10A及びエラー報告回路である第2SB10B以外の全SB、すなわち第3SB10C、第4SB10D、第5SB10E、第6SB10F、第7SB10G及び第8SB10Hに対して第1XBB20A及び第2XBB20B経由で、第2SB10Bからのエラー通知パケットを通知するものである。この場合、第3SB10C、第4SB10D、第5SB10E、第6SB10F、第7SB10G及び第8SB10Hの他に、第1XBB20A及び第2XBB20Aでは、エラー抑止モードに移行することになる。
そして、SCF30は、第1SB10Aの構成変更処理実行完了後に、制御線2経由で第2SB10Bから受付保留中のエラー報告の受付を開始し、エラー報告に基づきエラー発生部位に対するエラー復旧処理を実行した後、第1XBB20A、第2XBB20A、第3SB10C、第4SB10D、第5SB10E、第6SB10F、第7SB10G及び第8SB10Hに設定中のエラー抑止モードを解除することになることは言うまでもない。
また、上記実施の形態においては、例えばXBB20からSB10を切り離す構成変更を例に挙げて説明したが、SB10内部のCPU11やメモリ12等の個数を変更するような場合の構成変更にも対応可能であって、同様の効果が得られることは言うまでもない。
また、上記実施の形態においては、図16に示すエラー復旧処理のステップS54にて回復のためのリセット処理を実行する際、ERLVがレベル1の場合でもエラー発生部位のSB10を含むパーティション全体に対してリセット処理を実行するようにしたが、エラー発生部位のSB10全体又はSB10内部のエラー発生部位に対する部分リセット処理を実行するようにしても良いことは言うまでもない。
また、上記実施の形態においては、SCF30が構成変更処理実行中のSB10からのエラー通知パケットを破棄する破棄フラグ及び、構成変更処理実行中のSB10に対するエラー通知パケットの転送を抑止する転送抑止フラグをXBB20に設定するようにしたが、例えば構成変更処理実行中のSB10に対して破棄フラグ及び転送抑止フラグを設定するようにしても良く。
この場合、破棄フラグ及び転送抑止フラグ設定中のSB10では、エラー発生に伴うエラー通知パケットを破棄すると共に、他のエラー報告回路からのエラー通知パケットを受信したとしても、受信したエラー通知パケットを破棄してエラー抑止モードに移行しないようにしたので、同様の効果が得られることは言うまでもない。
以上、本実施の形態について説明したが、本実施の形態によって本情報処理装置、転送回路及び情報処理装置のエラー制御方法の技術的思想の範囲が限定されるものではなく、請求の範囲に記載した技術的思想の範囲を逸脱しない限り、各種様々な実施形態が実施可能であることは言うまでもない。また、本実施の形態に記載した効果は、これに限定されるものではない。
また、本実施の形態で説明した各種処理の内、自動的に行われるものとして説明した処理の全部又は一部を手動で行うことも可能であることは勿論のこと、その逆に、手動で行われるものとして説明した処理の全部又は一部を自動で行うことも可能であることは言うまでもない。また、本実施の形態で説明した処理手順、制御手順、具体的名称、各種データやパラメータを含む情報についても、特記した場合を除き、適宜変更可能であることは言うまでもない。
また、図示した各装置の各構成要素は機能概念的に記載したものであって、必ずしも物理的に図示のように構成されるものではなく、その各装置の具体的な態様は図示のものに限縮されるものでは到底ないことは言うまでもない。
さらに、各装置で行われる各種処理機能は、CPU(Central Processing Unit)(又はMPU(Micro Processing Unit)、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上、又は同CPU(又はMPU、MCU等のマイクロ・コンピュータ)で解析実行するプログラム上、又はワイヤードロジックによるハードウェア上で、その全部又は任意の一部を実行するようにしても良いことは言うまでもない。
1 情報処理装置
10 SB
14 SC
20 XBB
30 SCF
64 SCFI
71 エラー報告部
72 エラー通知パケット送受信部
73 エラー抑止モード設定部
81 エラー通知パケット転送部
82 エラー抑止モード設定部
83 エラー報告部
84 エラー通知パケット発信部
91 エラー報告受付部
92 復旧処理実行部
93 モード解除部
94 構成変更検出部
95 構成変更処理実行部
96 XBB制御部
97 SCF制御部
97A エラー報告受付保留部

Claims (11)

  1. 複数の制御回路と、複数の制御回路相互間のデータ転送を実行する転送回路と、前記複数の制御回路及び前記転送回路を管理制御する管理制御回路とを有する情報処理装置であって、
    前記制御回路及び前記転送回路は、
    エラー発生を検出すると、エラー報告を前記管理制御回路に通知するエラー報告部と、
    前記エラー発生を検出すると、エラー通知データを発信するエラー発信部と
    を有し、
    前記転送回路は、
    前記エラー通知データを受信すると、受信したエラー通知データを、前記制御回路及び前記転送回路の内、前記エラー通知データを発信した回路以外の回路に転送する転送制御部を有し、
    前記管理制御回路は、
    前記エラー報告を受け付けると、前記エラー報告に基づき、前記エラー発生部位に対して復旧処理を実行する復旧処理実行部と、
    前記制御回路に関わる構成変更指示を検出すると、前記構成変更指示に対応した構成変更処理を実行する構成変更処理実行部と、
    前記構成変更処理実行部にて前記構成変更処理の実行中は前記エラー報告の受付を保留する報告受付保留部と、
    前記構成変更処理実行部にて前記構成変更処理実行中の前記制御回路から受信した前記エラー通知データを破棄すべく、前記転送回路を制御すると共に、前記構成変更処理実行中の前記制御回路に対する前記エラー通知データの転送を抑止すべく、前記転送回路を制御する転送回路制御部と
    を有することを特徴とする情報処理装置。
  2. 前記構成変更処理実行部は、
    前記複数の制御回路の内、任意回路に関わる構成変更指示を検出すると、前記構成変更処理を実行し、
    前記転送回路制御部は、
    前記構成変更処理実行中の前記任意回路に対する、前記制御回路及び前記転送回路の内、前記任意回路以外の回路から受信した前記エラー通知データの転送を抑止すべく、前記転送回路を制御し、
    前記復旧処理実行部は、
    前記構成変更処理実行部にて前記任意回路に関わる構成変更処理の実行が完了すると、前記報告受付保留部にて受付保留中の前記エラー報告の受付を開始することを特徴とする請求項1記載の情報処理装置。
  3. 前記管理制御回路は、
    前記複数の制御回路及び転送回路を複数のパーティション単位で分割し、パーティション毎に所属する前記制御回路及び前記転送回路を管理制御し、
    前記転送回路側の前記転送制御部は、
    前記エラー通知データを受信すると、前記エラー通知データを発信した回路と同一パーティションに所属する前記制御回路及び前記転送回路の内、前記エラー通知データを発信した回路以外の回路に転送することを特徴とする請求項1記載の情報処理装置。
  4. 前記構成変更処理実行部は、
    前記複数の制御回路の内、任意回路に関わる構成変更指示を検出すると、前記構成変更処理を実行し、
    前記転送回路制御部は、
    前記構成変更処理実行部にて前記構成変更処理実行中の前記任意回路に対する、前記任意回路と同一パーティションに所属する前記制御回路及び前記転送回路の内、前記任意回路以外の回路から受信した前記エラー通知データの転送を抑止すべく、前記転送回路を制御し、
    前記復旧処理実行部は、
    前記構成変更処理実行部にて前記任意回路に関わる構成変更処理の実行が完了すると、前記報告受付保留部にて受付保留中の前記エラー報告の受付を開始することを特徴とする請求項3記載の情報処理装置。
  5. 前記制御回路及び前記転送回路は、
    前記エラー通知データを受信すると、前記エラー発生部位のエラー検出を抑止するエラー抑止モードを設定するモード設定部を有し、
    前記管理制御回路は、
    前記復旧処理実行部にて前記エラー発生部位の復旧処理が完了すると、前記設定中のエラー抑止モードを解除するモード解除部を有することを特徴とする請求項1〜4の何れか一つに記載の情報処理装置。
  6. 複数の制御回路を管理制御する管理制御回路に管理制御され、前記複数の制御回路相互間のデータ転送を実行する転送回路であって、
    エラー発生を示すエラー通知データを受信すると、前記エラー通知データを発信した回路以外の他の回路に対して、受信したエラー通知データを転送する転送制御部を有し、
    前記転送制御部は、
    前記管理制御回路にて構成変更処理実行中の前記制御回路から受信した前記エラー通知データを破棄すると共に、前記構成変更処理実行中の前記制御回路に対する、前記構成変更処理実行中の前記制御回路以外の回路からの前記エラー通知データの転送を抑止することを特徴とする転送回路。
  7. 複数の制御回路と、複数の制御回路相互間のデータ転送を実行する転送回路と、前記複数の制御回路及び前記転送回路を管理制御する管理制御回路とを有する情報処理装置のエラー制御方法であって、
    エラー発生を検出すると、エラー報告を前記管理制御回路に通知する前記制御回路及び前記転送回路側のエラー報告ステップと、
    前記エラー発生を検出すると、エラー通知データを発信する前記制御回路及び前記転送回路側のエラー通知ステップと、
    前記エラー通知データを受信すると、受信したエラー通知データを、前記制御回路及び前記転送回路の内、前記エラー通知データを発信した回路以外の回路に転送する前記転送回路側の転送制御ステップと、
    前記エラー報告を受け付けると、前記エラー報告に基づき、前記エラー発生部位に対して復旧処理を実行する前記管理制御回路側の復旧処理実行ステップと、
    前記制御回路に関わる構成変更指示を検出すると、前記構成変更指示に対応した構成変更処理を実行する前記管理制御回路側の構成変更処理実行ステップと、
    前記構成変更処理実行ステップにて前記構成変更処理の実行中は前記エラー報告の受付を保留する前記管理制御回路側の報告受付保留ステップと、
    前記構成変更処理実行ステップにて前記構成変更処理実行中の前記制御回路から受信した前記エラー通知データを破棄すべく、前記転送回路を制御すると共に、前記構成変更処理実行中の前記制御回路に対する前記エラー通知データの転送を抑止すべく、前記転送回路を制御する前記管理制御回路側の転送回路制御ステップと
    を含むことを特徴とする情報処理装置のエラー制御方法。
  8. 前記構成変更処理実行ステップは、
    前記複数の制御回路の内、任意回路に関わる構成変更指示を検出すると、前記構成変更処理を実行し、
    前記転送回路制御ステップは、
    前記構成変更処理実行中の前記任意回路に対する、前記制御回路及び前記転送回路の内、前記任意回路以外の回路から受信した前記エラー通知データの転送を抑止すべく、前記転送回路を制御し、
    前記復旧処理実行ステップは、
    前記構成変更処理実行ステップにて前記任意回路に関わる構成変更処理の実行が完了すると、前記報告受付保留ステップにて受付保留中の前記エラー報告の受付を開始することを特徴とする請求項7記載の情報処理装置のエラー制御方法。
  9. 前記管理制御回路は、
    前記複数の制御回路及び転送回路を複数のパーティション単位で分割し、パーティション毎に所属する前記制御回路及び前記転送回路を管理制御し、
    前記転送制御ステップは、
    前記エラー通知データを受信すると、前記エラー通知データを発信した回路と同一パーティションに所属する前記制御回路及び前記転送回路の内、前記エラー通知データを発信した回路以外の回路に転送することを特徴とする請求項7記載の情報処理装置のエラー制御方法。
  10. 前記構成変更処理実行ステップは、
    前記複数の制御回路の内、任意回路に関わる構成変更指示を検出すると、前記構成変更処理を実行し、
    前記転送回路制御ステップは、
    前記構成変更処理実行ステップにて前記構成変更処理実行中の前記任意回路に対する、前記任意回路と同一パーティションに所属する前記制御回路及び前記転送回路の内、前記任意回路以外の回路から受信した前記エラー通知データの転送を抑止すべく、前記転送回路を制御し、
    前記復旧処理実行ステップは、
    前記構成変更処理実行ステップにて前記任意回路に関わる構成変更処理の実行が完了すると、前記報告受付保留ステップにて受付保留中の前記エラー報告の受付を開始することを特徴とする請求項9記載の情報処理装置のエラー制御方法。
  11. 前記エラー通知データを受信すると、前記エラー発生部位のエラー検出を抑止するエラー抑止モードを設定する前記制御回路及び前記転送回路側のモード設定ステップと、
    前記復旧処理実行ステップにて前記エラー発生部位の復旧処理が完了すると、前記設定中のエラー抑止モードを解除する前記管理制御回路側のモード解除ステップと
    を含むことを特徴とする請求項7〜10の何れか一つに記載の情報処理装置のエラー制御方法。
JP2010514316A 2008-05-30 2008-05-30 情報処理装置、転送回路及び情報処理装置のエラー制御方法 Expired - Fee Related JP5099222B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/060069 WO2009144824A1 (ja) 2008-05-30 2008-05-30 情報処理装置、転送回路及び情報処理装置のエラー制御方法

Publications (2)

Publication Number Publication Date
JPWO2009144824A1 JPWO2009144824A1 (ja) 2011-09-29
JP5099222B2 true JP5099222B2 (ja) 2012-12-19

Family

ID=41376723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010514316A Expired - Fee Related JP5099222B2 (ja) 2008-05-30 2008-05-30 情報処理装置、転送回路及び情報処理装置のエラー制御方法

Country Status (3)

Country Link
US (1) US8042008B2 (ja)
JP (1) JP5099222B2 (ja)
WO (1) WO2009144824A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5163306B2 (ja) * 2008-06-19 2013-03-13 富士通セミコンダクター株式会社 動的再構成回路およびデータ送信制御方法
JP5441389B2 (ja) * 2008-10-14 2014-03-12 キヤノン株式会社 電気機器およびプログラム
US8990631B1 (en) * 2011-03-03 2015-03-24 Netlogic Microsystems, Inc. Packet format for error reporting in a content addressable memory
JP2014048730A (ja) * 2012-08-29 2014-03-17 Fujitsu Ltd 情報処理装置及び制御方法
JP6698320B2 (ja) * 2015-11-16 2020-05-27 日立オートモティブシステムズ株式会社 処理装置および車両制御システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07262146A (ja) * 1994-03-17 1995-10-13 Hitachi Ltd 並列プロセッサシステムの通信制御方法
JP2004062535A (ja) * 2002-07-29 2004-02-26 Nec Corp マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
JP2005190038A (ja) * 2003-12-25 2005-07-14 Hitachi Ltd プロセッサの診断処理方法および診断処理プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152697A (ja) 1993-11-30 1995-06-16 Hitachi Ltd 疎結合計算機システム
US6725317B1 (en) * 2000-04-29 2004-04-20 Hewlett-Packard Development Company, L.P. System and method for managing a computer system having a plurality of partitions
US7370239B2 (en) * 2001-05-31 2008-05-06 Fisher-Rosemount Systems, Inc. Input/output device with configuration, fault isolation and redundant fault assist functionality
JP2003162430A (ja) 2001-11-27 2003-06-06 Mitsubishi Electric Corp 障害情報管理装置および障害情報管理方法
US7225363B2 (en) * 2002-03-18 2007-05-29 Sun Microsystems, Inc. Method and apparatus for abandoning an interrupted task
US7392445B2 (en) * 2003-09-11 2008-06-24 International Business Machines Corporation Autonomic bus reconfiguration for fault conditions
US7356678B2 (en) * 2004-01-12 2008-04-08 Hewlett-Packard Development Company, L.P. Security measures in a partitionable computing system
JP2006190029A (ja) 2005-01-05 2006-07-20 Canon Inc ネットワークデバイス管理装置及び方法
JP4555713B2 (ja) * 2005-03-17 2010-10-06 富士通株式会社 エラー通知方法及び情報処理装置
US7827442B2 (en) * 2006-01-23 2010-11-02 Slt Logic Llc Shelf management controller with hardware/software implemented dual redundant configuration
JP5080140B2 (ja) * 2007-06-13 2012-11-21 株式会社日立製作所 I/oデバイス切り替え方法
JP5217647B2 (ja) * 2008-06-04 2013-06-19 富士通株式会社 情報処理装置および情報処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07262146A (ja) * 1994-03-17 1995-10-13 Hitachi Ltd 並列プロセッサシステムの通信制御方法
JP2004062535A (ja) * 2002-07-29 2004-02-26 Nec Corp マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
JP2005190038A (ja) * 2003-12-25 2005-07-14 Hitachi Ltd プロセッサの診断処理方法および診断処理プログラム

Also Published As

Publication number Publication date
US8042008B2 (en) 2011-10-18
JPWO2009144824A1 (ja) 2011-09-29
WO2009144824A1 (ja) 2009-12-03
US20110072298A1 (en) 2011-03-24

Similar Documents

Publication Publication Date Title
JP5099222B2 (ja) 情報処理装置、転送回路及び情報処理装置のエラー制御方法
CN103370911B (zh) 流通信系统
JP5549574B2 (ja) 並列計算機システム、同期装置、並列計算機システムの制御方法
CN100451975C (zh) 实现多核cpu进行报文联合处理的系统及方法
US10007629B2 (en) Inter-processor bus link and switch chip failure recovery
JPH1049507A (ja) 並列計算機
US20180307520A1 (en) Information processing apparatus and method for shifting buffer
JP4815284B2 (ja) パケット転送装置
TWI410084B (zh) 於負載平衡網路環境中之智慧型故障排除
JP3807614B2 (ja) マルチリンク通信システムにおけるパケットの順序制御方法
JP5408620B2 (ja) データ分散管理システム及びデータ分散管理方法
US5594868A (en) Processor unit for a parallel processor system discards a received packet when a reception buffer has insufficient space for storing the packet
JP2011128989A (ja) データ処理装置、データ処理方法、及びプログラム
JP6139857B2 (ja) データ処理装置、入力制御装置、及び制御方法
JP5104773B2 (ja) データ転送システム、データ転送装置およびデータ転送方法
JP4901777B2 (ja) ネットワーク中継装置およびネットワーク中継方法
KR100995621B1 (ko) 에러 제어 장치
US8832349B2 (en) Server system and dynamic maintenance method for crossbar board
US20080271024A1 (en) Information processing apparatus, information processing system and information processing method for processing tasks in parallel
JP5429902B2 (ja) 通信システム、通信方法、及び通信プログラム
JP6558167B2 (ja) 通信装置、制御方法
JP2006178786A (ja) マルチノードシステム、ノード装置、ノード間クロスバスイッチ及び障害処理方法
JP2019176366A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2019168739A (ja) 並列計算システム
JP2017187973A (ja) 並列処理装置及び通信制御方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120910

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5099222

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees