JP6357879B2 - システムおよび障害処理方法 - Google Patents

システムおよび障害処理方法 Download PDF

Info

Publication number
JP6357879B2
JP6357879B2 JP2014110314A JP2014110314A JP6357879B2 JP 6357879 B2 JP6357879 B2 JP 6357879B2 JP 2014110314 A JP2014110314 A JP 2014110314A JP 2014110314 A JP2014110314 A JP 2014110314A JP 6357879 B2 JP6357879 B2 JP 6357879B2
Authority
JP
Japan
Prior art keywords
switch
failure
communication standard
information
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014110314A
Other languages
English (en)
Other versions
JP2015225522A (ja
Inventor
努 長岡
努 長岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2014110314A priority Critical patent/JP6357879B2/ja
Publication of JP2015225522A publication Critical patent/JP2015225522A/ja
Application granted granted Critical
Publication of JP6357879B2 publication Critical patent/JP6357879B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Bus Control (AREA)

Description

本発明は、システムおよび障害処理方法に関する。
特許文献1には、少なくとも1つ以上のサーバを有するサーバシャーシと、PCIeスイッチが搭載されたIOスロット拡張装置とが、PCIeケーブルにて接続されている計算機システムにおいて、前記サーバは、演算部と、記憶部と、インタフェースとを有し、前記IOスロット拡張装置は、PCIeスイッチと、前記PCIeスイッチと接続されたIOスロット拡張装置コントローラと、前記PCIeスイッチと接続されたPCIカードスロットとを有し、前記PCIカードスロットには、HBA及びHBAポートを有するPCIカードが搭載され、前記HBAは、前記HBAポート毎に割り当てられた識別子を保持する識別子エリア有し、前記PCIeスイッチは、PCIeスイッチレジスタを有し、前記IOスロット拡張装置コントローラは、前記PCIカードスロットに搭載される前記PCIカードが有する前記HBAポートに割り当てた識別子を管理する割り当て識別子テーブルと、PCIeスイッチレジスタ更新制御部とを有し、前記PCIeスイッチレジスタ更新制御部は、前記IOスロット拡張装置の電源投入を受けて、前記IOスロット拡張装置コントローラが有する前記割り当て識別子テーブルを、前記PCIeスイッチレジスタの前記識別子格納エリアに複製し、前記インタフェースが有するHBA識別子更新制御部は、前記サーバの電源投入を受けて、前記PCIeケーブルを介して、前記PCIeスイッチレジスタの前記識別子格納エリアに複製された割り当て識別子テーブルを取得し、前記取得した割り当て識別子テーブルを、前記サーバの前記記憶部に保存し、前記記憶部に保存した割り当て識別子テーブルから、前記PCIカードスロットと前記PCIカード上のHBAポートとに対応した割り当て識別子を参照し、前記HBAの前記識別子エリアに記録されている識別子を、前記記憶部に保存した割り当て識別子テーブルから参照した割り当て識別子に更新することを特徴とする計算機システムが開示されている。
特開2012−150623号公報
本発明の課題は、システムを構成する部位に障害が発生した場合において、システム全体の動作停止を招くことなく障害が発生した部位を停止させることが可能なシステムおよび障害処理方法を提供することである。
上記目的を達成するために、請求項1に記載のシステムは、システム全体を制御する制御手段と、前記制御手段とPCI Expressの通信規格で通信がなされるスイッチと、前記スイッチとPCI Expressの通信規格で通信がなされるデバイスと、前記スイッチと予め定められた通信規格で通信がなされ、かつ前記デバイスの障害の有無を監視するとともに、障害が検知された場合に前記予め定められた通信規格による通信を介して前記スイッチを制御するための情報を前記スイッチに送信することにより、前記スイッチからPCI Expressの通信規格による通信を介して前記制御手段に前記障害に関する情報が転送されることを抑止する監視部と、を含むものである。
また、請求項2に記載の発明は、請求項1に記載の発明において、前記監視部と前記デバイスとは予め定められた信号を伝送する伝送路で接続され、前記監視部は、前記予め定められた通信規格による通信を介して前記スイッチを制御するための情報を前記スイッチに送信した後前記伝送路を介して前記デバイスを停止させる信号を送信するものである。
また、請求項3に記載の発明は、請求項2に記載の発明において、前記監視部が前記予め定められた通信規格による通信を介して前記スイッチを制御するための情報を前記スイッチに送信した後前記伝送路を介して前記デバイスを停止させる信号を送信する前に、前記監視部は予め定められたログ情報を前記デバイスに収集させPCI Expressの通信規格による通信を介して前記制御手段に送信させるものである。
また、請求項4に記載の発明は、請求項1〜請求項3のいずれか1項に記載の発明において、前記スイッチを制御するための情報は、前記スイッチのレジスタ情報を記憶するPCI Expressで規格化されているコンフィグレーションレジスタに記憶されているAERレジスタのUncorrectable Error MASKを有効にするための情報であるものである。
また、請求項5に記載の発明は、請求項1〜請求項4のいずれか1項に記載の発明において、前記予め定められた通信規格がICの通信規格であるものである。
また、請求項6に記載の発明は、請求項1〜請求項5のいずれか1項に記載の発明において、前記デバイスは自己の温度を制御する温度制御部を備え、前記デバイスの障害が前記温度制御部の障害であるものである。
一方、上記目的を達成するために、請求項7に記載の障害処理方法は、スイッチとPCI Expressの通信規格で通信がなされるデバイスの障害の有無を監視するとともに前記スイッチと予め定められた通信規格で通信がなされる監視部により前記デバイスの障害を検知するステップと、前記監視部が前記予め定められた通信規格による通信を介して前記スイッチを制御するための情報を前記スイッチに送信するステップと、前記スイッチを制御するための情報により、前記スイッチからPCI Expressの通信規格による通信を介して、システム全体を制御する制御手段に前記障害に関する情報が転送されることを抑止するステップと、を含むものである。
請求項1および請求項7に記載の発明によれば、システムを構成する部位に障害が発生した場合において、システム全体の動作停止を招くことなく障害が発生した部位が停止される、という効果が得られる。
請求項2に記載の発明によれば、監視部により、予め定められた通信規格による通信を介してスイッチを制御するための情報をスイッチに送信した後伝送路を介してデバイスを停止させない場合と比較して、障害の発生したデバイスがシステムから切り離される、という効果が得られる。
請求項3に記載の発明によれば、監視部が予め定められた通信規格による通信を介してスイッチを制御するための情報をスイッチに送信した後伝送路を介してデバイスを停止させる信号を送信する前に、監視部が予め定められたログ情報をデバイスに収集させPCI Expressの通信規格による通信を介して制御手段に送信させない場合と比較して、デバイスの停止前に制御手段により障害内容等のログ情報が取得される、という効果が得られる。
請求項4に記載の発明によれば、スイッチを制御するための情報をスイッチのレジスタ情報を記憶するPCI Expressで規格化されているコンフィグレーションレジスタに記憶されているAERレジスタのUncorrectable Error MASKを有効にするための情報としない場合と比較して、より簡易にシステムダウンが抑止される、という効果が得られる。
請求項5に記載の発明によれば、予め定められた通信規格としてICの通信規格を用いない場合と比較して、より汎用的な通信路を介してスイッチを制御するための情報がスイッチに送信される、という効果が得られる。
請求項6に記載の発明によれば、デバイスの障害をデバイス自身の温度制御部の障害としない場合と比較して、デバイスの過剰な温度上昇が抑止される、という効果が得られる。
実施の形態に係るコンピュータの構成の一例を示す概略構成図である。 実施の形態に係るアクセラレータ基板の構成の一例を示す概略構成図である。 従来技術に係るコンピュータの障害発生時の動作を説明するための図である。 実施の形態に係るコンピュータの障害処理方法の手順を説明するための図である。 実施の形態に係るコンピュータの障害発生時の動作を説明するための図である。 実施の形態に係るPCIeスイッチのコンフィグレーションレジスタ、AERレジスタを説明するための図である。
以下、図面を参照して、本発明の実施の形態について詳細に説明する。以下の説明では、本発明に係るシステムを、画像形成装置等に付随して設けられる画像処理等を実行するコンピュータに適用した形態を例示して説明する。画像形成装置によって画像形成される画像は、通常画像形成装置のCPU(中央演算処理装置)で動作するソフトウエアで処理され、画像形成装置の画像形成部に供給される。
他方、高速の画像形成装置においては、ソフトウエアによる処理とは別に画像処理機能専用に特化したハードウエア(デバイス:以下、「デバイス」とは、例えばASICのような専用回路に限らず、そのような専用回路を搭載したプリント配線基板のことも「デバイス」と記すことがある。)を設けて、つまり専用のハードウエアを拡張して処理を加速化する場合がある。その場合、画像形成装置とは別に、画像処理のためのハードウエアを拡張したコンピュータを備える場合がある。以下に述べる本実施の形態に係るシステムの説明では、本発明をそのようなコンピュータに適用した形態を例示して説明する。
ハードウエアを拡張する手段としてはUSB(Universal Serial Bus)等種々適用されるが、本実施の形態に係るコンピュータでは、PCI Express(登録商標)(Peripheral Component Interconnect Express、以下「PCIe」と表記する場合がある)の通信規格によりハードウエアを拡張した形態を例示して説明する。つまり、本実施の形態に係るコンピュータでは、コンピュータの内部において該コンピュータを構成する各部位の少なくとも一部が、PCIeの通信規格を介して接続されている。なお、本実施の形態におけるコンピュータとは、ハードウエアとオペレーティングシステム(以下、「OS」という場合がある)とを含む概念であり、OSの制御の下で動作するハードウエアを意味する。
ここで、PCIeの通信規格では、データの伝送を行なう機器の間が2.5Gbps(bit per second)や5.0Gbpsでデータ伝送可能な一対のシリアル伝送路によりポイントツーポイントで接続されており、データ通信網としてはルートコンプレックスを頂点とした木(ツリー)構造により構成されている。PCIeの通信規格では、レーンを複数並列化することによりデバイス間でのデータ伝送の高速化が図られるようになっている。また、PCIeの通信規格では、接続された各機器間のデータ伝送はパケットを用いて実行される。
図1は、本実施の形態に係るシステムとしてのコンピュータ10の構成の一例を示す概略構成図である。図1に示すように、コンピュータ10は、メインCPU12、DDR(Double Data Rate)メモリ14、ルートコンプレックス(図1では、「Root Complex」と表記)16、アクセラレータ基板20、22を含んで構成されている。なお、コンピュータ10には、図1に示す構成の他に画像形成装置と接続するための基板等も備えられているが、図示を省略している。
図1に示すように、本実施の形態に係るコンピュータ10では、木構造の最上位に位置するルートコンプレックス16に、装置全体の動作を司るメインCPU12と、メインCPU12の各種処理等において用いられるシステムメモリとしてのDDRメモリ14が接続されている。メインCPU12には、コンピュータ10の全体を統括して制御するOSが搭載されている。
また、ルートコンプレックス16には、たとえば画像の圧縮、伸長等の画像処理機能を実現するために用いられるデバイスとしてのアクセラレータ基板20、22が接続されている。ルートコンプレックスとは、PCIeの通信規格による通信路を介して接続されたPCIe規格準拠の各デバイスのコンフィグレーション空間から各デバイスの設定情報を読み出し、各デバイスの各々へのアドレス空間の割り当ておよび当該各デバイスの各々へのデータの転送を制御する通信装置である。本実施の形態に係るコンピュータ10のルートコンプレックス16は、アクセラレータ基板20、22へのアドレス空間の割り当ておよびデータの転送、すなわちパケットの転送等を制御している。
図1に示すように、アクセラレータ基板20は、PCIeスイッチ(図1では、「PCIe Switch」と表記)18、およびPCIeスイッチ18に接続されたN個のDRP(Dynamically Reconfigurable Processor、
動的再構成可能なプロセッサ)28−1〜DRP28−NおよびDDRメモリ30−1〜DDRメモリ30−Nを含んで構成されている。なお、以下においては、DRP28−1〜DRP−Nの各々を区別しない場合には「DRP28」と表記し、DDRメモリ30−1〜DDRメモリ30−Nの各々を区別しない場合には「DDRメモリ30」と表記する。
PCIeスイッチ18は、2つ以上のポートを接続し、ポート間でのパケットのルーティングを行う通信装置である。つまり、PCIeスイッチ18は、ルートコンプレックス16、DRP28の各々の間のデータの転送、すなわちパケットの転送を制御する。また、PCIeスイッチ18は、後述するように、自己の情報や状態を記憶するコンフィグレーションレジスタを備えている。
また、本実施の形態に係るPCIeスイッチ18はAER(Advanced Error Reporting)機能を備え、たとえばコンピュータ10内で障害が発生した場合には、当該障害に関する情報がAERレジスタに記録される。AERレジスタとは、
PCIeの通信規格のオプションとして規格化された32ビットのレジスタであり、上記コンフィグレーションレジスタの一部を構成している。
DRP28は画像処理機能を実行するプロセッサであり、DRP28にはハードウエアとしての専用回路とともに、画像処理の制御等を実行するファームウエア(以下、「FW」という場合がある)が搭載されている。また、DDRメモリ30は該FWの実行等において用いられるメモリである。
アクセラレータ基板22もアクセラレータ基板20と同様にPCIeスイッチ24を備え、該PCIeスイッチ24にも、DRP等の画像処理機能を実行する部材(図示省略)が接続されている。なお、本実施の形態に係るコンピュータ10では、2枚のアクセラレータ基板20、22がルートコンプレックス16に接続された形態を例示して説明するが、これに限られず、アクセラレータ基板は、必要とされる画像処理の能力等に応じて3枚以上設けてもよい。
図2は、本実施の形態に係るアクセラレータ基板20のより詳細な構成を示す構成図である。図2に示すように、アクセラレータ基板20は、PCIeスイッチ18、DRP28−1、28−2、CPLD(Complex Programmable Logic Device)32、ファン(図2では、「FAN」と表記)34、温度センサ(図2では、「TEMP」と表記)36を含んで構成されている。なお、図2に示すアクセラレータ基板20では、PCIeスイッチ18に2個のDRPが接続された形態を例示しており、また、図1におけるDDRメモリ14、30、ルートコンプレックス16の図示を省略している。
図2に示すファン34は、アクセラレータ基板20上に実装されたDRP28−1(以下、単に、「DRP28」と表記する)を冷却するためのファンであり、発熱体としてのDRP28の温度上昇を抑制している。温度センサ36は、DRP28に接してまたはDRP28の周囲に配置されており、DRP28の温度を検出している。
CPLD32は、主として、温度センサ36により検出した温度に基づいてDRP28の温度が予め定められた範囲に収まるようにファン34を制御している。また、CPLD32は、ファン34の異常、つまりファン34の動作停止等の障害の発生を監視している。つまり、CPLD32は、ファン34の動作を制御することによりDRP28の温度を制御するとともに、ファン34における障害の発生を監視する監視・制御部として機能している。
アクセラレータ基板20では、メインCPU12とPCIeスイッチ18との間、PCIeスイッチ18とDRP28との間がPCIeインタフェースを介して接続されている、つまりPCIeの通信路によって接続されている。また、DRP28とCPLD32との間、CPLD32とファン34との間、およびCPLD32と温度センサ36との間は、CMOSインタフェース、TTLインタフェース等のレベル(振幅)信号によるインタフェースを介して接続されている、つまりレベル信号を伝送する伝送路で接続されている。本実施の形態に係るアクセラレータ基板20では、一例として、CMOSインタフェースによる伝送路を採用している。
図2に示すように、本実施の形態に係るコンピュータ10では、一般的なPCIeインタフェースのみを介する接続とは異なり、PCIeスイッチ18とCPLD32との間がIC(Inter−Integrated Circuit)の通信規格による通信路で接続されている。したがって、PCIeスイッチ18とCPLD32との間において、
PCIeインタフェースを介する通信および上記伝送路による信号伝送とは別の経路で通信がなされる。ICの通信規格による通信路の詳細に関しては後述する。
ところで、予め定められた通信規格によりハードウエアを拡張した場合において、何らかの方法によりハードウエア自身の重大な障害(たとえば、ハードウエアの過剰な温度上昇の恐れ等)を検知した場合、メインCPU等の上位システムに当該障害を通知した後当該ハードウエアを即座にリセット(停止)させたい場合も生ずる。しかしながら、従来技術に係るシステムにおいては、障害の発生したハードウエアを即座に停止させると、OSがハングアップし、システムダウンが発生する場合があった。
上記のようなシステムダウンが発生する場合の一例を、図3を参照して説明する。図3は、従来技術に係るコンピュータ10において障害が発生時した場合の動作を説明するための図である。
図3に示す従来技術に係るコンピュータ10のアクセラレータ基板20aは、図2に示す本実施の形態に係るアクセラレータ基板20におけるICの通信規格による通信路を削除したものなので、同じ構成には同じ符号を付してその説明を省略する。また、以下では、発生した障害がファン34の動作停止である場合を例示して説明する。なお、図3に示す[1]〜[5]は、以下に示すステップ[1]〜[5]の動作が発生する位置に対応している。
[1]:CPLD32がファン34の動作停止(以下、「Fan−Fail」という場合がある)を検知する。
[2]:CPLD32がDRP28にFan−Failを通知する。
[3]:DRP28のFWがメインCPU12に、つまり上位システムとしてのOSにFan−Failを通知する。
[4]:CPLD32がDRP28をリセットする、すなわち動作を停止させる。ファン34の動作が停止したのでDRP28の温度制御が不能となり、DRP28の温度が異常に上昇する恐れがあるからである。
[5]:メインCPU12が訂正不可能なエラー(以下、「Uncorrectable Error」という場合がある)を内容とするパケットを受信することにより、OSがハングアップする(メインCPU12が停止し、システムダウンが発生する)。
ここで、ステップ[5]において、OSがハングアップする理由について説明する。
DRP28とPCIeスイッチ18との間では、通常PCIeインタフェース上のパケットを送信、受信しながらお互いの存在を確認している。しかしながら、DRP28がリセットされるとPCIeインタフェース上のパケットの送信、受信が突然できなくなる(DRP28とPCIeスイッチ18との間でリンク切れが発生する)ことにより、PCIeスイッチ18がダウンストリーム(下り)方向において不在を検知する、つまり、いわゆるSurprise Down Errorを検知する。
PCIeスイッチ18がSurprise Down Errorを検知すると、PCIeスイッチ18によってUncorrectable Errorを内容とするパケットがメインCPU12に転送される。Uncorrectable Errorは、発生したエラーがハードウエアにより訂正することができない場合に発生するエラーであり、
また処理方法も不明であるためOSがハングアップする。
以上のように、従来技術に係るアクセラレータ基板20aでは、障害が発生するとOSがハングアップする場合がある。OSがハングアップするとコンピュータ10の動作が停止するのみならず、コンピュータ10内に接続されている各機器のログ(コンピュータ10内の処理内容、発生した警告等の履歴)情報の収集もできなくなる。したがって、OSがハングアップした原因等も明らかにすることができず、対処方法も不明となる。
そこで、本発明では、障害を検知したデバイスが、PCIeの通信規格による通信路とは別の通信路であるICの通信規格による通信路を介して当該障害に基づく情報をPCIeスイッチに送信し、当該障害に基づく情報によってPCIeスイッチのAERレジスタのUncorrectable Error MASKを強制的に書き換えてMASKを有効にするようにした。このことにより、PCIeスイッチからUncorrectable Errorメッセージパケットが上位システムに転送されないので、OSのハングアップあるいはシステムダウンが回避される。
つぎに、図4ないし図6を参照して、本実施の形態に係るシステムとしてのコンピュータ10においてファン34の動作停止の障害(Fan−Fail)が発生した場合の障害処理方法、およびコンピュータ10の動作について説明する。
図4は、本実施の形態に係るコンピュータ10においてFan−Failが発生した場合の障害処理方法の手順を示しており、図5は、該障害処理方法の各ステップに対応する動作が発生するコンピュータ10内の部位を示している。つまり、図5の[1]〜[5]は、図4に示すステップS1〜S5の各々に対応している。
図4および図5を参照して、ステップS1では、CPLD32が、CMOSインタフェースによる伝送路を介して、ファン34のFan−Failを検知する。
つぎのステップS2では、CPLD32が、CMOSインタフェースによる伝送路を介して、DRP28にFan−Failを通知する。
つぎのステップS3では、CPLD32がICポートを介して、PCIeスイッチ18の対応するAERレジスタのUncorrectable Error MASKレジスタを強制的に書き換えてMASKを有効にする。具体的には、Uncorrectable Error MASKのAERレジスタ内のアドレス(たとえば、0xFBC)を指定して書き換え情報を送信し、Uncorrectable Error MASKに強制的にオールFを書き込む。このことにより、PCIeスイッチ18によるUncorrectable ErrorメッセージパケットのメインCPU12への転送が禁止される。
ここで、図6を参照して、AERレジスタについてより詳細に説明する。図6は、本実施の形態に係るPCIeスイッチ18の構成の一例を示す図である。
図6に示すように、PCIeスイッチ18は、複数(図6に示す例では3つ)のポートP1、P2、P3(以下、総称する場合は「ポートP」という)を備え、ポートごとにPCIeコンフィグレーションレジスタ(以下、単にコンフィグレーションレジスタという場合がある)C1、C2、C3(以下、総称する場合は「コンフィグレーションレジスタC」という)を備えている。また、上述したように、PCIeスイッチ18は、CPLD32との通信を行うためのICの通信規格のインタフェース40を備えている。
複数のポートPの各々は、障害が発生した場合に当該障害を検知して、コンフィグレーションレジスタCに障害情報を記録する。より具体的には、コンフィグレーションレジスタCの一部であるAERレジスタに障害情報を記録する。ここで、障害情報とは、障害の内容を示す情報であり、たとえば、ポートPに接続されているデバイスとのリンク切れが発生した場合には、AERレジスタにSurprise Down Errorが記録される。また、複数のポートの各々は、訂正不可能なエラーに対応する障害を検知した場合には、Uncorrectable ErrorメッセージパケットをメインCPU12宛てに送信する。
再び図4および図5を参照し、つぎのステップS4では、DRP28のFWが、PCIeインタフェースを介して、OSにFan−Failを通知する。
つぎのステップS5では、CPLD32が、CMOSインタフェースによる伝送路を介して、DRP28をリセットする、すなわち動作を停止させる。この際、ステップS3で、PCIeスイッチ18のAERレジスタのUncorrectable Error MASKが有効にされているので、メインCPU12にUncorrectable Errorメッセージパケットが転送されることはない。なお、本実施の形態に係るコンピュータ10が通常に動作している状態では、Uncorrectable Error MASKは無効にされている、つまり、Uncorrectable ErrorメッセージパケットがメインCPU12宛てに送信される状態となっている。
以上の手順により、DRP28がシステムから切り離され、ファン34の動作停止に起因するDRP28の温度上昇が回避される。しかもCPU12がUncorrectable Errorパケットを受信することがないので、OSがハングアップする(システムがダウンする)こともない。
ここで、上記実施の形態では、DRP28をリセットする場合について説明したが、DRP28のリセットに加えてログ情報を収集するステップを加えてもよい。この場合、上記ステップS4とステップS5との間に、たとえば、「DRP28のFWが必要なログを収集し、上位システムとしてのメインCPU12に送付する」というステップを加えればよい。
また、上記実施の形態では、ステップS3で、CPLD32がICポートを使って、PCIeスイッチ18の対応するAERレジスタのUncorrectable Error MASKレジスタを強制的に書き換えてMASKを有効にする形態を例示して説明したが、これに限られない。たとえば、メインCPU12にPCIeスイッチ18のレジスタ書き換え用のドライバをインストールしておき、メインCPU12がUncorrectable Error MASKレジスタを書き換えてもよい。この場合、メインCPU12が書き換えを完了した後、あるいは加えてログ情報を収集した後、レジスタ書き換え、ログ情報収集が完了したことをCPLD32に通知し、CPLD32はその後DRP28をリセットするようにすればよい。
なお、上記実施の形態では、本発明を画像処理等を実行するコンピュータにおいて、温度制御に関する障害が発生した場合の形態を例示して説明したが、これに限られず、他の機器における当該機器の重大な障害、たとえば画像形成装置のレーザによる描画部分のレーザ出力に異常が発生した場合の形態等に適用してもよい。
また、上記実施の形態では、ファン34が動作を停止した場合を障害として検知する形態を例示して説明したが、これに限られず、たとえば温度センサ36の温度が予め定められた閾値を越えたことを障害として検知する形態に適用してもよい。
10 コンピュータ
12 メインCPU
14、30 DDRメモリ
16 ルートコンプレックス
20、20a、22 アクセラレータ基板
18、24 PCIeスイッチ
28 DRP
32 CPLD
34 ファン
36 温度センサ
40 ICインタフェース
C1、C2、C3 コンフィグレーションレジスタ
P1、P2、P3 ポート

Claims (7)

  1. システム全体を制御する制御手段と、
    前記制御手段とPCI Expressの通信規格で通信がなされるスイッチと、
    前記スイッチとPCI Expressの通信規格で通信がなされるデバイスと、
    前記スイッチと予め定められた通信規格で通信がなされ、かつ前記デバイスの障害の有無を監視するとともに、障害が検知された場合に前記予め定められた通信規格による通信を介して前記スイッチを制御するための情報を前記スイッチに送信することにより、前記スイッチからPCI Expressの通信規格による通信を介して前記制御手段に前記障害に関する情報が転送されることを抑止する監視部と、
    を含むシステム。
  2. 前記監視部と前記デバイスとは予め定められた信号を伝送する伝送路で接続され、
    前記監視部は、前記予め定められた通信規格による通信を介して前記スイッチを制御するための情報を前記スイッチに送信した後前記伝送路を介して前記デバイスを停止させる信号を送信する
    請求項1に記載のシステム。
  3. 記監視部が前記予め定められた通信規格による通信を介して前記スイッチを制御するための情報を前記スイッチに送信した後前記伝送路を介して前記デバイスを停止させる信号を送信する前に、前記監視部は予め定められたログ情報を前記デバイスに収集させPCI Expressの通信規格による通信を介して前記制御手段に送信させ
    求項2に記載のシステム。
  4. 前記スイッチを制御するための情報は、前記スイッチのレジスタ情報を記憶するPCI Expressで規格化されているコンフィグレーションレジスタに記憶されているAERレジスタのUncorrectable Error MASKを有効にするための情報である
    請求項1〜請求項3のいずれか1項に記載のシステム。
  5. 前記予め定められた通信規格がICの通信規格である
    請求項1〜請求項4のいずれか1項に記載のシステム。
  6. 前記デバイスは自己の温度を制御する温度制御部を備え、前記デバイスの障害が前記温度制御部の障害である
    請求項1〜請求項5のいずれか1項に記載のシステム。
  7. スイッチとPCI Expressの通信規格で通信がなされるデバイスの障害の有無を監視するとともに前記スイッチと予め定められた通信規格で通信がなされる監視部により前記デバイスの障害を検知するステップと、
    前記監視部が前記予め定められた通信規格による通信を介して前記スイッチを制御するための情報を前記スイッチに送信するステップと、
    前記スイッチを制御するための情報により、前記スイッチからPCI Expressの通信規格による通信を介して、システム全体を制御する制御手段に前記障害に関する情報が転送されることを抑止するステップと、
    を含む障害処理方法。
JP2014110314A 2014-05-28 2014-05-28 システムおよび障害処理方法 Active JP6357879B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014110314A JP6357879B2 (ja) 2014-05-28 2014-05-28 システムおよび障害処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014110314A JP6357879B2 (ja) 2014-05-28 2014-05-28 システムおよび障害処理方法

Publications (2)

Publication Number Publication Date
JP2015225522A JP2015225522A (ja) 2015-12-14
JP6357879B2 true JP6357879B2 (ja) 2018-07-18

Family

ID=54842213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014110314A Active JP6357879B2 (ja) 2014-05-28 2014-05-28 システムおよび障害処理方法

Country Status (1)

Country Link
JP (1) JP6357879B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109032062A (zh) * 2018-08-29 2018-12-18 郑州云海信息技术有限公司 一种pcie切换芯片

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726055B (zh) * 2017-10-31 2021-01-12 华为技术有限公司 检测PCIe芯片异常的方法及计算机设备
CN116932274B (zh) * 2023-09-19 2024-01-09 苏州元脑智能科技有限公司 异构计算系统和服务器系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5151580B2 (ja) * 2008-03-14 2013-02-27 日本電気株式会社 コンピュータシステムおよびバス制御装置
JP5281942B2 (ja) * 2009-03-26 2013-09-04 株式会社日立製作所 計算機およびその障害処理方法
US9086945B2 (en) * 2011-09-01 2015-07-21 Dell Products, Lp System and method to correlate errors to a specific downstream device in a PCIe switching network

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109032062A (zh) * 2018-08-29 2018-12-18 郑州云海信息技术有限公司 一种pcie切换芯片

Also Published As

Publication number Publication date
JP2015225522A (ja) 2015-12-14

Similar Documents

Publication Publication Date Title
JP4558519B2 (ja) 情報処理装置およびシステムバス制御方法
JP5953573B2 (ja) ペリフェラル・コンポーネント・インターコネクト・エクスプレス・エンドポイントデバイスにアクセスするためのコンピュータシステム、方法、および装置
JP6427979B2 (ja) 原因特定方法、原因特定プログラム、情報処理システム
JP5915086B2 (ja) 切替制御装置、切替制御方法、情報処理装置および切替制御プログラム
JP4961997B2 (ja) ストレージ装置、ストレージ装置の制御方法、及びストレージ装置の制御プログラム
JP6007152B2 (ja) 通信システム及び通信システムの冗長化の方法
JP2006195821A (ja) 情報処理システムの制御方法、情報処理システム、ダイレクトメモリアクセス制御装置、プログラム
RU2614569C2 (ru) Стойка с функцией автоматического восстановления и способ автоматического восстановления для этой стойки
JP6357879B2 (ja) システムおよび障害処理方法
CN114880266B (zh) 故障处理的方法、装置、计算机设备和存储介质
WO2017072904A1 (ja) 計算機システム、及び、障害検知方法
JP5332257B2 (ja) サーバシステム、サーバ管理方法、およびそのプログラム
CN114296995B (zh) 一种服务器自主修复bmc的方法、系统、设备及存储介质
JP2009026182A (ja) プログラム実行システム及び実行装置
JP2009217435A (ja) 制御方法、情報処理装置及びストレージシステム
CN113434324A (zh) 异常信息获取方法、系统、设备及存储介质
JP6962243B2 (ja) コンピュータシステム
JP2015053555A (ja) データ転送装置、およびデータ転送方法
US10599510B2 (en) Computer system and error isolation method
JP6303405B2 (ja) 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法
US9740641B2 (en) Information processing device, I/O system, and I/O control method
WO2018156438A1 (en) Securing an unprotected hardware bus
JP6112205B2 (ja) 情報処理システム、装置、方法及びプログラム
US20210064108A1 (en) Information processing system
JP6579255B1 (ja) 情報処理システム、および中継装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180313

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180522

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180604

R150 Certificate of patent or registration of utility model

Ref document number: 6357879

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350