JP6379905B2

JP6379905B2 - 制御装置および制御方法

Info

Publication number: JP6379905B2
Application number: JP2014187836A
Authority: JP
Inventors: 松井　秀樹; 秀樹松井; 邦明藤井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-09-16
Filing date: 2014-09-16
Publication date: 2018-08-29
Anticipated expiration: 2034-09-16
Also published as: US9626153B2; US20160077799A1; JP2016062166A

Description

本発明は、制御装置および制御方法に関する。

ＰＣＩｅ（Peripheral Component Interconnect Express）は、リンクの状態を管理するために、ＬＴＳＳＭ（Link Training and Status State Machine）という機能を備える。ＬＴＳＳＭにおいては、ＰＨＹ（physical layer：物理層）において送受信したパケットを監視して、予め定義した複数の状態間で動作状態（ＬＴＳＳＭステート）を遷移させることでリンクの状態を管理する。

ＰＣＩｅスイッチにおいては、リンクパートナーの突然抜去や電源断によって発生するノイズ等により、ＰＨＹのＬＴＳＳＭステートが異常な状態に遷移し、復帰せずに留まり続けることがある。
この場合、ＬＴＳＳＭが異常であるためＰＣＩｅスイッチが正しく動作することができず、リンクダウンした事をソフトウェアレイヤに通知する事が出来ない。また、本来であれば、リンクダウンした先のデバイスに対するアクセスはＰＣＩｅスイッチがＵＲ（Unsupported Request）で応答すべきであるが、ＬＴＳＳＭが異常なため、自身のバッファにキューを積み続けてしまう。その結果バッファがフルになり（詰まり）、ブロッキングが発生する事で、最終的にはルートコンプレックス（Root Complex）であるＣＰＵ（Central Processing Unit）のバッファフルとなり、ハングアップに至る。

図５はＰＣＩｅスイッチを備える従来の電子装置の構成を示す図である。
図５に示す電子装置１０００は、ボード（Board）１１００，１２００を備え、ボード１２００はボード１１００のコネクタ１３００に脱着可能に接続されている。
例えば、ボード１１００はストレージ装置のＣＭ（Controller Module）であり、ボード１２００はＣＡ（Channel Adapter）である。以下、ボード１１００およびボード１２００を、それぞれボード＃１，ボード＃２という場合がある。

ボード１１００は、ＣＰＵ１００１，ＦＰＧＡ（Field-Programmable Gate Array）１００２およびスイッチ１００３を備える。
ＣＰＵ１００１は、種々の制御や演算を行なう処理装置である。このＣＰＵ１００１はスイッチ１００３を介してボード１２００と通信可能に接続されている。
ＣＰＵ１００１にはバッファ１０１１が備えられており、スイッチ１００３に送信されるデータ（パケット）がこのバッファ１０１１に格納される。バッファ１０１１は、複数のデータ格納領域を備え、送信されるデータがこれらの複数のデータ格納領域に、順次格納され、例えば、ＦＩＦＯ（First In, First Out）で処理される。

また、ＣＰＵ１００１にはＦＰＧＡ１００２が接続されている。ＦＰＧＡ１００２は、任意に構成を設定できる集積回路であり、予め行なわれた設定に応じて種々の機能を実現する。例えば、ＦＰＧＡ１００２は、ＣＰＵ１００１がハングアップの状態に陥ると、ＣＰＵ１００１に対してリセット信号を出力することにより、システムリセットを行なう。
スイッチ１００３はデータ伝送を中継する。スイッチ１００３は、複数のポートを備え、これらのポートにデータの送信元や送信先となる機器が接続される。例えば、スイッチ１００３の一つのポートにはＣＰＵ１００１が接続され、また、他のポートにはボード１２００のスイッチ１２０１が接続されている。

スイッチ１００３のポートにはそれぞれバッファ１０１３が備えられ、ポートを介して送受信されるデータが格納される。スイッチ１００３においても、各バッファ１０１３は、複数のデータ格納領域を備え、これらの複数のデータ格納領域に、送信されるデータが順次格納され、例えば、ＦＩＦＯで処理される。
以下、便宜上、スイッチ１００３において、ボード１２００のスイッチ１２０１と接続されるポートのバッファ１０１３をバッファ＃１といい、ＣＰＵ１００１と接続されるポートのバッファ１０１３をバッファ＃２という。

また、ＣＰＵ１００１において、スイッチ１０１３と接続されるポートのバッファ１０１１をバッファ＃３という。
ボード１２００は、スイッチ１２０１を備え、このスイッチ１２０１はコネクタ１３００を介してスイッチ１００３と接続される。
ＰＣＩｅスイッチを備える従来の電子装置においてＣＰＵハングアップが生じる過程を、図６示すフローチャート（ステップＡ１〜Ａ６）に従って説明する。

ボード１１００はボード１２００と接続された状態において正常動作している。この状態において、突然、ボード１２００がコネクタ１３００から取り外されると（ステップＡ１）、スイッチ１００３においては、ＬＴＳＳＭステートが異常状態に遷移し、復帰せずに留まり続ける状態が生じる場合がある（ステップＡ２）。
ボード１１００のスイッチ１００３においては、ボード１２００に対してデータ送信を行なうことができないので、切断されたリンクパートナーであるスイッチ１２０１に対するデータでバッファ＃１がバッファフルの状態となる（ステップＡ３）。

また、スイッチ１００３においては、バッファ＃１に対してデータを送信できないので、バッファ＃２がバッファフルの状態となる（ステップＡ４）。さらに、これにより、ＣＰＵ１００１において、スイッチ１００３に対してデータ送信を行なうことができないので、バッファ＃３がバッファフルの状態となり（ステップＡ５）、ＣＰＵ１００１がハングアップする（ステップＡ６）。

なお、ＣＰＵ１００１がハングアップすると、ＦＰＧＡ１００２がこれを検知し、ＣＰＵ１００１に対してリセット信号を出力し、システムリセットを行なう。

特開２０１３−６１８４１号公報

しかしながら、このような従来の電子装置において、ＣＰＵのリセットを行なうと、装置の再起動に時間がかかりダウンタイムが長くなるという課題がある。
１つの側面では、本発明は、装置を短時間で復旧させることを目的とする。

このため、この制御装置は、電子部品が接続される接続部と、データを処理する処理装置と、送信もしくは受信するデータを格納するバッファを備え、前記処理装置と前記電子部品とのデータ通信を中継する中継部と、前記処理装置の停止状態を検知する停止状態検知部と、前記中継部の前記バッファのバッファフル状態を検知するバッファフル検知部と、前記停止状態検知部により前記処理装置の停止状態が検知され、且つ、前記バッファフル検知部により前記バッファのバッファフル状態が検知されると、前記中継部のみをリセットするリセット処理部とを備える。

一実施形態によれば、装置を短時間で復旧させることができる。

実施形態の一例としての制御装置の構成を模式的に示す図である。実施形態の一例としての制御装置の機能構成を示す図である。実施形態の一例としての制御装置におけるスイッチのリセット処理を説明するシーケンス図である。実施形態の一例としての制御装置におけるコレクタブルエラー発生時の処理を説明するフローチャートである。ＰＣＩｅスイッチを備える従来の電子装置の構成を示す図である。ＰＣＩｅスイッチを備える従来の電子装置においてＣＰＵハングアップが生じる過程を説明するフローチャートである。

以下、図面を参照して本制御装置および制御方法に係る実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形（実施形態及び各変形例を組み合わせる等）して実施することができる。又、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

図１は実施形態の一例としての制御装置の構成を模式的に示す図、図２はその機能構成を示す図である。
図１に示す制御装置１は、ボード（Board）１０，２０を備える。ボード１０，２０は基板装置であり、例えば、ボード１０はストレージ装置のＣＭであり、ボード２０はＣＡである。以下、ボード１０およびボード２０を、それぞれボード＃１，ボード＃２という場合がある。

ボード１０は、ＣＰＵ１１，ＦＰＧＡ１２，スイッチ１３，ＭＰＵ（Micro-Processing Unit）１４および監視チップ１５を備える。また、ボード１０にはコネクタ（接続部）３０が備えられ、このコネクタ３０に後述するボード２０が脱着可能に取り付けられる。
ＣＰＵ１１は、種々の制御や演算を行なう処理装置である。このＣＰＵ１１はＰＣＩｅバスを介してスイッチ１３と接続され、また、このスイッチ１３を介してボード２０と通信可能に接続される。

ＣＰＵ１１にはバッファ１１１が備えられており、スイッチ１３に送信されるデータ（パケット）がこのバッファ１１１に格納される。バッファ１１１は、複数のデータ格納領域を備え、送信されるデータがこれらの複数のデータ格納領域に、順次格納され、例えば、ＦＩＦＯで処理される。以下、このＣＰＵ１１に備えられたバッファ１１１をバッファ＃３という場合がある。

ＣＰＵ１１は、プログラムを実行することにより、種々の機能を実現する処理装置であり、例えば、図２に示すように、ＷＤＴ（WatchDog Timer）処理部２１として機能する。
ＣＰＵ１１において、このＷＤＴ処理部２１としての機能を実現するためのプログラムは、例えばフレキシブルディスク，ＣＤ（ＣＤ−ＲＯＭ，ＣＤ−Ｒ，ＣＤ−ＲＷ等），ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−ＲＡＭ，ＤＶＤ−Ｒ，ＤＶＤ＋Ｒ，ＤＶＤ−ＲＷ，ＤＶＤ＋ＲＷ，ＨＤＤＶＤ等），ブルーレイディスク，磁気ディスク，光ディスク，光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク，光ディスク，光磁気ディスク等の記憶装置（記録媒体）に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。

ＷＤＴ処理部２１としての機能を実現する際には、内部記憶装置（本実施形態では図示しないＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory））に格納されたプログラムがコンピュータのマイクロプロセッサ（本実施形態ではＣＰＵ１１）によって実行される。このとき、記録媒体に記録されたプログラムをコンピュータが読み取って実行するようにしてもよい。

ＷＤＴ処理部２１は、後述するＦＰＧＡ１２に備えられたＷＤＴレジスタ２２に定期的に書き込み（ウォッチドッグライト）を発行する。これにより、後述するＭＰＵ１４は、ＣＰＵ１１が正常に動作していると認識することができる。以下、ＷＤＴレジスタ２２にウォッチドッグライトを行なうことを、ウォッチドッグ更新という場合がある。
また、ＷＤＴ処理部２１は、後述するＭＰＵ１４（ＦＰＧＡ１２）からＷＤ更新指示を受信すると、この指示に応じてＷＤＴレジスタ２２に対するウォッチドッグライトを発行する。

また、ＣＰＵ１１は後述するスイッチ１３（ＬＴＳＳＭ処理部２８）からＬＴＳＳＭの異常の通知を受信すると、ポートディセーブル（Port Disable）を発行することで、ＬＴＳＳＭステートのリセットを行なう機能を備える。ＬＴＳＳＭステートをリセットすることにより、後述するスイッチ１３のバッファ１３１がクリア（解放処理）される。
ＦＰＧＡ１２は、任意に構成を設定できる集積回路であり、予め行なわれた設定に応じて種々の機能を実現する。

例えば、ＦＰＧＡ１２は、後述するＭＰＵ１４からＷＤ更新指示を受信すると、この指示に従い、ＣＰＵ１１に対してＷＤ更新指示を送信する。ＦＰＧＡ１２は、例えば、ＮＭＩ（Non-Maskable Interrupt）をＣＰＵ１１に対して入力することで、ＷＤ更新指示を通知する。
また、ＦＰＧＡ１２は、ＭＰＵ１４からシステムリセット指示を受信すると、本制御装置１のシステムリセットを行なう。なお、ＦＰＧＡ１２によるシステムリセットは、既知の手法を用いて実現することができ、その詳細な説明は省略する。

さらに、ＦＰＧＡ１２は、ＭＰＵ１４からスイッチリセット指示を受信すると、スイッチ１３に対してスイッチリセット信号を出力することで、スイッチ１３を単体でリセットさせる。具体的には、ＦＰＧＡ１２は、スイッチ１３の図示しないリセットポートにスイッチリセット信号を入力することで、スイッチ１３をリセットさせる。
また、ＦＰＧＡ１２は、ＷＤＴレジスタ２２およびバッファフルレジスタ２３を備える。ＷＤＴレジスタ２２に格納される値は、前述したＣＰＵ１１（ＷＤＴ処理部２１）により定期的に行なわれるウォッチドッグライトにより更新される。これにより、後述するＭＰＵ１４のＷＤ監視部２４は、このＷＤＴレジスタ２２の値を確認することで、ＷＤＴ処理部２１によるウォッチドッグ更新が行なわれているか否かを確認することができる。

バッファフルレジスタ２３には、スイッチ１３のバッファ＃２とＣＰＵ１１のバッファ＃３とのいずれかにおいてバッファフルが発生したこと（バッファフル状態）を示すフラグが設定される。このバッファフルレジスタ２３のフラグは、後述する監視チップ１５のバッファ状態監視部２７により設定される。
後述するＭＰＵ１４は、このバッファフルレジスタ２３の値を参照することで、スイッチ１３のバッファ＃２とＣＰＵ１１のバッファ＃３とのいずれかにおいてバッファフル状態となっているか否かを確認することができる。

スイッチ１３は、ＰＣＩｅプロトコルに従ってデータ伝送を中継する中継装置（中継部）であり、いわゆるＰＣＩｅスイッチである。
スイッチ１３は、複数のポートを備え、これらのポートにデータの送信元や送信先となる機器が接続される。図１に示す例においては、スイッチ１３にポートＰ１〜Ｐ３の３つのポートが備えられており、ポートＰ１には、ボード２０のスイッチ２０１が接続されている。また、ポートＰ２にはＣＰＵ１１が接続されている。

また、各ポートＰ１〜Ｐ３にはそれぞれバッファ１３１が備えられ、ポートを介して送信されるデータが格納される。以下、ポートＰ１に備えられるバッファ１３１をバッファ１３１−１という。同様に、ポートＰ２，Ｐ３に備えられるバッファ１３１をそれぞれ、バッファ１３１−２，１３１−３という。
以下、バッファを示す符号としては、複数のバッファのうち１つを特定する必要があるときには符号１３１−１〜１３１−３を用いるが、任意のバッファを指すときには符号１３１を用いる。

各バッファ１３１は、それぞれ複数のデータ格納領域を備え、これらの複数のデータ格納領域に、送受信されるデータが順次格納され、例えば、ＦＩＦＯで処理される。
以下、便宜上、スイッチ１３において、特にバッファ１３１−１，１３１−２をそれぞれバッファ＃１，＃２という場合がある。
また、スイッチ１３においては、図示しないリセットポートに、ＦＰＧＡ１２からスイッチリセット信号が入力されると、スイッチ１３単体のリセットが行なわれる。スイッチ１３のリセットが行なわれると、スイッチ１３に備えられた各バッファ１３１がクリアされる。

また、スイッチ１３は、ＣＰＵ等の図示しないプロセッサを備え、このプロセッサがプログラムを実行することでエラー検知部２９およびＬＴＳＳＭ処理部２８として機能する。
プロセッサにおいて、これらのエラー検知部２９およびＬＴＳＳＭ処理部２８としての機能を実現するためのプログラムは、例えばフレキシブルディスク，ＣＤ（ＣＤ−ＲＯＭ，ＣＤ−Ｒ，ＣＤ−ＲＷ等），ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−ＲＡＭ，ＤＶＤ−Ｒ，ＤＶＤ＋Ｒ，ＤＶＤ−ＲＷ，ＤＶＤ＋ＲＷ，ＨＤＤＶＤ等），ブルーレイディスク，磁気ディスク，光ディスク，光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク，光ディスク，光磁気ディスク等の記憶装置（記録媒体）に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。

エラー検知部２９およびＬＴＳＳＭ処理部２８としての機能を実現する際には、内部記憶装置（本実施形態では図示しないＲＡＭやＲＯＭ）に格納されたプログラムがコンピュータのマイクロプロセッサ（本実施形態ではプロセッサ）によって実行される。このとき、記録媒体に記録されたプログラムをコンピュータが読み取って実行するようにしてもよい。

エラー検知部２９は、ＰＣＩｅ通信におけるエラーの発生を検知する機能を備え、例えば、コレクタブルエラー（Correctable Error）や、アンコレクタブルエラー（Uncorrectable Error）の発生を検知する。
例えば、ＰＣＩｅ通信により接続されたリンクパートナ（ボード＃２等）が突然、抜去や電源断された場合には、物理層での切断が発生し、これによりコレクタブルエラーが発生することが経験的にわかっている。

エラー検知部２９は、コレクタブルエラーの発生を検知すると、ＣＰＵ１１に通知を行なう。
ＬＴＳＳＭ処理部２８は、ＬＴＳＳＭステートに関する処理を行なう。
ＣＰＵ１１は、エラー検知部２９からコレクタブルエラー発生の通知を受信すると、これを契機にＬＴＳＳＭステートの確認をＬＴＳＳＭ処理部２８に行なう。なお、一般に、ＰＣＩｅにおける通常動作状態においては、ＬＴＳＳＭステートはＬ０となる。

ＬＴＳＳＭ処理部２８は、ＬＴＳＳＭステートの状態をＣＰＵ１１に通知する。ＬＴＳＳＭステートがＬ０（通常動作状態）以外の場合、すなわちＰＣＩｅのリンク状態に何らかの異常が生じている場合、ＣＰＵ１１はＬＴＳＳＭの異常を検知する。
ＣＰＵ１１はスイッチ１３（ＬＴＳＳＭ処理部２８）から通知されたＬＴＳＳＭの状態よりリンク異常を検知し、ポートディセーブルを発行することで、ＬＴＳＳＭステートのリセットを行なう。ＬＴＳＳＭステートをリセットすることにより、後述するスイッチ１３のバッファ１３１はクリア（解放処理）される。

これにより、ＣＰＵ１１は、スイッチ１３においてコレクタブルエラーが発生すると、このスイッチ１３の通信状態を確認し、通信状態に異常が検知された場合（ＬＴＳＳＭステートがＬ０）に、当該スイッチ１３のポート無効化処理を行なうポート無効化処理部として機能する。
なお、ＣＰＵ１１がＬＴＳＳＭステートのリセットを行なう前に、ＣＰＵ１１のバッファ１１１がバッファフルの状態になると、これによりＣＰＵ１１がハングアップする場合がある。

監視チップ１５は、ＣＰＵ１１とスイッチ１３のポートＰ２とを接続する通信経路（ＰＣＩｅバス）上に配置される回路装置である。この監視チップ１５は、ＣＰＵ１１とスイッチ１３との間で授受されるデータ（パケット）を監視して、ＣＰＵ１１のバッファ＃３やスイッチ１３のバッファ＃２の状態を監視する監視装置として機能する。
ここで、ＰＣＩｅはシリアルバスであり、全二重方式を採用しておりパケットの送信側および受信側の経路がそれぞれ存在する。ＰＣＩｅバス上で送受信されるパケットには、データのリード／ライトなどの処理を扱うＴＬＰ（Transaction Layer Packet）のほかに、ＰＣＩｅリンクの管理などを行なうパケットがある。いずれのパケットも同じ経路（シリアルバス）を利用して送受信される。

ＰＣＩｅ規格に従うデータ送受信装置（以下、ＰＣＩｅ装置という）は、ＴＬＰのデータを上位のシステムに伝えるために一時的に蓄えておく受信バッファを備える。上述したバッファ１１１やバッファ１３１がこの受信バッファとして機能する。
ＰＣＩｅでは、この受信バッファの空き情報を用いてフロー制御が行なわれる。即ち、受信側のＰＣＩｅ装置がＴＬＰを受信すると、一時的に受信バッファに蓄え、その後、受信バッファ内のＴＬＰのデータが上位のシステムに伝えられて受信バッファに空きが生じると、受信バッファの空き情報をフロー制御情報として送信側のＰＣＩｅ装置に伝える。この送信側のＰＣＩｅ装置は、受信したフロー制御情報に応じてＴＬＰの送信量を制御する。ＰＣＩｅでは、このフロー制御情報をUpdateFCDLLP(Update Flow Control Data Link Layer Packet)というパケットで伝えている。以下、UpdateFC DLLPをＵｐｄａｔｅＦＣパケットという。すなわち、ＵｐｄａｔｅＦＣパケットは、受信バッファ１１１，１３１の使用状況（空き状況：バッファ状態）を通知するバッファ状態情報として機能する。ＵｐｄａｔｅＦＣパケットに更新がない場合には、受信バッファ１１１，１３１に詰まりが生じている、つまり、バッファフルの状態であると考えられる。

監視チップ１５は、ＣＰＵ１１とスイッチ１３とを接続するＰＣＩｅ信号線上に、例えば、ＵｐｄａｔｅＦＣパケットをスヌープ（ｓｎｏｏｐ）する電子回路チップとして、リピータのように接続・配置される。この監視チップ１５は、バッファ状態監視部２７としての機能を備える。
バッファ状態監視部２７は、ＣＰＵ１１とスイッチ１３との間で授受されるＵｐｄａｔｅＦＣパケットを監視し、一定時間、ＵｐｄａｔｅＦＣパケットの更新が無い場合に、これらのＣＰＵ１１とスイッチ１３との少なくともいずれかにおいてバッファフル状態が生じていると判断する。

例えば、監視チップ１５は、受信したＵｐｄａｔｅＦＣパケットを格納する格納部を備え、所定時間経過毎にＵｐｄａｔｅＦＣパケットを受信し、この格納部に格納する。
そして、バッファ状態監視部２７は、ＵｐｄａｔｅＦＣパケットを受信すると、格納部に格納されている先に受信したＵｐｄａｔｅＦＣパケットと、この受信したＵｐｄａｔｅＦＣパケットとを比較する。これにより、バッファ状態監視部２７は、ＵｐｄａｔｅＦＣパケットが更新されたか否かを判断する。

また、バッファ状態監視部２７は、ＵｐｄａｔｅＦＣパケットが更新されていないと判断した場合に、この更新されていない状態が一時的なものではなく、所定時間継続して生じていることを確認する。例えば、ＵｐｄａｔｅＦＣパケットが更新されていないことを検知された場合に、所定時間経過後に、再度、確認を行なう。
バッファ状態監視部２７は、ＵｐｄａｔｅＦＣパケットが更新されていないと判断した場合に、バッファフル状態が発生していることを検知する。従って、バッファ状態監視部２７は、ＣＰＵ１１とスイッチ１３との間で通信されるＵｐｄａｔｅＦＣパケットに基づいてバッファ１３１のバッファフル状態を検知するバッファフル検知部として機能する。

そして、バッファ状態監視部２７は、バッファフル状態が生じ、且つ、このバッファフル状態が所定時間継続していると判断した場合に、スイッチ１３におけるバッファフルの発生をＦＰＧＡ１２およびＭＰＵ１４に通知する。
具体的には、バッファ状態監視部２７は、バッファフルの発生を検知すると、ＦＰＧＡ１２のバッファフルレジスタ２３に、バッファフル状態が発生したことを示す値（フラグ）を設定する。後述するＭＰＵ１４は、このＦＰＧＡ１２のバッファフルレジスタ２３を参照することにより、バッファフルの発生を検知する。すなわち、バッファ状態監視部２７はＦＰＧＡ１２を介してＭＰＵ１４に対してスイッチ１３におけるバッファフルの発生を通知する。

以下、バッファ状態監視部２７（監視チップ１５）が、ＦＰＧＡ１２を介してＭＰＵ１４に対して行なう、スイッチ１３におけるバッファフルの発生の通知を、バッファフル通知という場合がある。
また、スイッチ１３は、ＰＣＩｅ通信においてエラーの発生を検知する機能を備えており、例えば、コレクタブルエラーや、アンコレクタブルエラーの発生を検知する。これらのコレクタブルエラーや、アンコレクタブルエラーの発生検知は既知の手法を用いて実現できるものであり、その説明は省略する。

スイッチ１３は、例えば、コレクタブルエラーの発生を検知すると、ＣＰＵ１１に対して通知を行なう。
スイッチ１３からコレクタブルエラーの発生を通知されたＣＰＵ１１は、前述の如く、これを契機に、ＬＴＳＳＭステートの確認を行なう。
ＭＰＵ１４は、プログラムを実行することにより、種々の機能を実現する処理装置であり、例えば、図２に示すように、ＷＤ監視部２４，ＷＤ更新指示部２５およびリセット制御部２６として機能する。

なお、ＭＰＵ１４において、これらのＷＤ監視部２４，ＷＤ更新指示部２５およびスイッチリセット制御部２６としての機能を実現するためのプログラムは、例えばフレキシブルディスク，ＣＤ（ＣＤ−ＲＯＭ，ＣＤ−Ｒ，ＣＤ−ＲＷ等），ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−ＲＡＭ，ＤＶＤ−Ｒ，ＤＶＤ＋Ｒ，ＤＶＤ−ＲＷ，ＤＶＤ＋ＲＷ，ＨＤＤＶＤ等），ブルーレイディスク，磁気ディスク，光ディスク，光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク，光ディスク，光磁気ディスク等の記憶装置（記録媒体）に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。

ＷＤ監視部２４，ＷＤ更新指示部２５およびスイッチリセット制御部２６としての機能を実現する際には、内部記憶装置（本実施形態では図示しないＲＡＭやＲＯＭ）に格納されたプログラムがコンピュータのマイクロプロセッサ（本実施形態ではＭＰＵ１４）によって実行される。このとき、記録媒体に記録されたプログラムをコンピュータが読み取って実行するようにしてもよい。

ＷＤ監視部２４は、ＦＰＧＡ１２のＷＤＴレジスタ２２の値を定期的に監視し、ＷＤＴレジスタ２２が更新されているか否かを確認する。すなわち、ＷＤ監視部２４は、ＣＰＵ１１のＷＤＴ処理部２１によるウォッチドッグを監視することで、ＣＰＵ１１が正常しているかを確認する。
すなわち、ＷＤ監視部２４は、ＣＰＵ１１の停止状態（ハングアップ状態）を検知する停止状態検知部として機能する。

なお、このＷＤ監視部２４がＷＤＴレジスタ２２を監視する間隔は、ＣＰＵ１１のＷＤＴ処理部２１がＷＤＴレジスタ２２にウォッチドッグライトを行なう間隔よりも長いことが望ましい。
ＷＤ監視部２４は、所定時間経過毎に読み出したＷＤＴレジスタ２２の値をメモリ等の所定の記憶領域に記憶し、新たに読み出したＷＤＴレジスタ２２の値を、記憶されている先に読み出したＷＤＴレジスタ２２の値と比較する。これにより、ＷＤ監視部２４は、ＷＤＴレジスタ２２が更新されているか否かを確認する。

ＷＤ監視部２４は、ＷＤＴレジスタ２２の更新が行なわれていないことを検知すると、ＷＤ更新指示部２５に通知を行なう。
ＷＤ更新指示部（更新指示部）２５は、ＷＤ監視部２４からＷＤＴレジスタ２２の更新が行なわれていないことを通知されると、ＦＰＧＡ１２を介して、ＣＰＵ１１のＷＤＴ処理部２１に対して、ＷＤ更新指示を送信する。すなわち、ＭＰＵ１４は、ＦＰＧＡ１２に対して、ＷＤ更新指示を通知し、ＦＰＧＡ１２はこの指示に従って、ＣＰＵ１１に対してＷＤ更新指示を通知する。

このようにＷＤ更新指示部２５からＣＰＵ１１にＷＤ更新指示を行なってもＣＰＵ１１からウォッチドッグ更新が行なわれない場合に、ＣＰＵ１１がなんらかの理由でハングアップした状態となっていると判断することができる。
リセット制御部２６は、本制御装置１におけるリセット処理を制御する。例えば、リセット制御部２６は、ＦＰＧＡ１２に対してシステムリセット指示を送信することで、ＦＰＧＡ１２に、本制御装置１のシステムリセットを行なわせる。

また、リセット制御部２６は、ＦＰＧＡ１２に対してスイッチリセット指示を送信することで、ＦＰＧＡ１２に、スイッチ１３を単体でリセットさせる。
前述の如く、ＣＰＵ１１からウォッチドッグ更新が行なわれない場合には、一見、ＣＰＵ１１がハングアップした状態にあるように見える。しかしながら、スイッチ１３におけるバッファフル状態が検出されている場合には、ＣＰＵ１１は、そのバッファ＃３がバッファフル状態となったことを原因として一時的にハングアップの状態となっていると考えられる。この場合、ＣＰＵ１１のバッファ＃３をクリアすることでＣＰＵ１１は動作復帰可能である。

リセット制御部２６がスイッチ１３を単体でリセットさせることにより、スイッチ１３のバッファ１３１がクリアされ、また、スイッチ１３とＣＰＵ１１との間にリンクダウンが発生し、ＣＰＵ１１のバッファ１１１のデータは破棄される。すなわち、ＣＰＵ１１のバッファ＃３がクリアされ、ＣＰＵ１１の一時的なハングアップ状態が解消される。
リセット制御部２６は、ＷＤ監視部２４によりＣＰＵ１１のハングアップ状態（停止状態）が検知され、且つ、バッファ状態監視部２７によりバッファ１３１のバッファフル状態が検知されると、スイッチ１３をリセットするリセット処理部として機能するのである。

上述の如く構成された実施形態の一例としての制御装置１におけるスイッチ１３のリセット処理を、図３に示すシーケンス図に従って説明する。以下においては、スイッチ１３おいてＬＴＳＳＭ異常が発生した例を示し、この際、スイッチ１３のＬＴＳＳＭステートはＬ０ではないものとする。
スイッチ１３において、ＬＴＳＳＭ異常が発生すると（符号Ｂ１参照）、コレクタブルエラーが検知される（符号Ｂ２参照）。スイッチ１３は、コレクタブルエラーの検出をＣＰＵ１１に通知する（符号Ｂ３参照）。

ＣＰＵ１１は、スイッチ１３を介してボード＃２に対してデータ送付を行なう（符号Ｂ４参照）。スイッチ１３においては、バッファ＃１がバッファフル状態となり（符号Ｂ５参照）、その後、バッファ＃２もバッファフル状態となる（符号Ｂ６参照）。
また、ＣＰＵ１１においては、バッファ＃３がバッファフル状態となり（符号Ｂ９参照）、ＣＰＵ１１がハングアップした状態となる（ＣＰＵハング：符号Ｂ１０参照）。ＣＰＵ１１がハングアップすると、ＬＴＳＳＭ処理部２８へのＬＴＳＳＭステートの確認を行なうことができず、またＷＤＴ処理部２１によるウォッチドッグ更新を行なうこともできない（符号Ｂ１１参照）。

さて、スイッチ１３においてバッファ＃２がバッファフル状態になると、スイッチ１３とＣＰＵ１１との間で授受されるＵｐｄａｔｅＦＣパケットはバッファフルを示すものとなる。
監視チップ１５は、ＵｐｄａｔｅＦＣパケットを参照して、ＰＣＩｅ経路においてバッファフル状態が生じ、且つ、このバッファフル状態が所定時間継続していることを検知すると（符号Ｂ７参照）、ＦＰＧＡ１２のバッファフルレジスタ２３にフラグを設定することでＭＰＵ１４に通知（バッファフル通知）を行なう（符号Ｂ８参照）。

ＭＰＵ１４は、ＦＰＧＡ１２のバッファフルレジスタ２３にフラグが設定されたことを検知することで、バッファフルの発生通知を認識する（符号Ｂ１３参照）。
また、ＭＰＵ１４においては、ＷＤ監視部２４が、ＦＰＧＡ１２のＷＤＴレジスタ２２の値を定期的に監視し、ＷＤＴレジスタ２２が更新されているか否かを確認する（符号Ｂ１４参照）。この確認の結果、ＷＤＴレジスタ２２の更新が行なわれていないことを検知すると、ＷＤ監視部２４は、ＷＤ更新指示部２５に通知を行なう。

ＷＤ更新指示部２５は、ＷＤ監視部２４からＷＤＴレジスタ２２の更新が行なわれていないことを通知されると、ＦＰＧＡ１２を介して、ＣＰＵ１１のＷＤＴ処理部２１に対して、ＷＤ更新指示を送信する（符号Ｂ１５参照）。このＷＤ更新指示を受信したＦＰＧＡ１２は、ＮＭＩをＣＰＵ１１に対して入力することで、ＷＤ更新指示を通知する。
ただし、この時点において、ＣＰＵ１１はハングアップした状態であるので、このＷＤ更新指示を受信してもウォッチドッグ更新を行なうことはできない（符号Ｂ１２参照）。

また、ＭＰＵ１４において、リセット制御部２６は、監視チップ１５からバッファフル通知が行なわれており、且つ、ＷＤ更新指示部２５によるＷＤ更新指示を行なってもＣＰＵ１１からウォッチドッグ更新が行なわれないことを確認する（符号Ｂ１６参照）。
このように、スイッチ１３においてバッファフル状態が生じており、且つ、ＷＤ更新指示を行なってもＣＰＵ１１からウォッチドッグ更新が行なわれない場合には、リセット制御部２６は、バッファ＃３のバッファ詰まり（バッファフル状態）を原因としてＣＰＵ１１が一時的にハングアップ状態となっていると認識する（符号Ｂ１７参照）。

リセット制御部２６は、スイッチ１３に対してスイッチリセット指示を送信する（符号Ｂ１８参照）。このスイッチリセット指示によりスイッチ１３がリセットされ（符号Ｂ１９参照）、このスイッチ１３のバッファ＃１，＃２はクリアされる（符号Ｂ２０参照）。
また、スイッチ１３をリセットすることにより、スイッチ１３とＣＰＵ１１との間にリンクダウンが発生し、ＣＰＵ１１のバッファ１１１のデータは破棄される。すなわち、ＣＰＵ１１のバッファ＃３がクリアされ（符号Ｂ２１参照）、ＣＰＵ１１が復旧する（符号Ｂ２２参照）。

次に、上述の如く構成された実施形態の一例としての制御装置１におけるコレクタブルエラー発生時の処理を、図４に示すフローチャート（ステップＣ１〜Ｃ１０）に従って説明する。
ステップＣ１において、スイッチ１３のエラー検知部２９がコレクタブルエラーの発生を検知すると、ステップＣ２において、ＬＴＳＳＭ処理部２８がＬＴＳＳＭステートを確認する。この確認の結果、ＬＴＳＳＭステートがＬ０である場合には（ステップＣ２の“ＬＴＳＳＭがＬ０ステート”ルート参照）、正常動作中であるとして、本制御装置１の動作を継続して行なう。

一方、ＬＴＳＳＭステートがＬ０以外である場合には（ステップＣ２の“ＬＴＳＳＭがＬ０以外”ルート参照）、ステップＣ３において、ＣＰＵ１１がポートディセーブルを発行する。このポートディセーブルの発行によりＬＴＳＳＭがリセットされた場合には（ステップＣ３の“ＬＴＳＳＭリセットされる”ルート参照）、例えばスイッチ１３のポートＰ１がディセーブルの状態となる。これにより、ボード＃２が抜去状態となり、本制御装置１は継続して動作を行なうことができる。

また、ポートディセーブルを発行してもＬＴＳＳＭがリセットされない場合には（ステップＣ３の“発行してもＬＴＳＳＭがリセットされない”ルート参照）、ステップＣ５に移行する。ステップＣ５において、ＭＰＵ１４のＷＤ監視部２４がＦＰＧＡ１２のＷＤＴレジスタ２２を確認することでＣＰＵ１１によるウォッチドッグ更新が行なわれているか否かを確認する。

なお、監視チップ１５からＦＰＧＡ１２のバッファフルレジスタ２３にバッファフル状態が発生したことを示す値（フラグ）が設定された場合、すなわち、スイッチ１３によるバッファフル通知が行なわれた場合にも（ステップＣ４）、このステップＣ５の処理に移行する。
ウォッチドッグ更新が行なわれている場合には（ステップＣ５の“更新”ルート参照）、ボード＃２が抜去状態で、本制御装置１は継続して動作を行なう。

また、ウォッチドッグ更新が行なわれていない場合には（ステップＣ５の“未更新”ルート参照）、ステップＣ６において、ＷＤ更新指示部２５は、ＦＰＧＡ１２を介して、ＣＰＵ１１のＷＤＴ処理部２１に対して、ＷＤ更新指示を送信する。
ステップＣ７において、ＭＰＵ１４のＷＤ監視部２４が、ウォッチドッグ更新が行なわれているか否かを、再度、確認する。

ウォッチドッグ更新が行なわれている場合には（ステップＣ７の“更新”ルート参照）、ボード＃２が抜去状態で、本制御装置１は継続して動作を行なう。
また、ウォッチドッグ更新が行なわれていない場合には（ステップＣ７の“未更新”ルート参照）、ステップＣ８において、監視チップ１５からのバッファフル通知が行なわれているか否かを確認する。すなわち、ＦＰＧＡ１２のバッファフルレジスタ２３に、監視チップ１５によりバッファフル状態が発生したことを示す値（フラグ）が設定されているか否かを確認する。

この確認の結果、バッファフル状態が発生したことを示すフラグが設定されていない場合（ステップＣ８の“無し”ルート参照）、ステップＣ９に移行する。
ステップＣ９においては、リセット制御部２６が、ＦＰＧＡ１２に対してシステムリセット指示を送信することで、ＦＰＧＡ１２に、本制御装置１のシステムリセットを行なわせる。これにより、本制御装置１の再起動が行なわれる。

また、ＦＰＧＡ１２のバッファフルレジスタ２３にバッファフル状態が発生したことを示すフラグが設定されている場合（ステップＣ８の“有り”ルート参照）、ステップＣ１０に移行する。
ステップＣ１０においては、リセット制御部２６が、ＦＰＧＡ１２に対してスイッチリセット指示を送信することで、ＦＰＧＡ１２に、スイッチ１３を単体でリセットさせる。これにより、ボード＃２が抜去状態となり、本制御装置１は継続して動作を行なうことができる。

このように、本発明の一実施形態としての制御装置１によれば、ＣＰＵ１１とスイッチ１３のポートＰ２とを接続するＰＣＩｅバス上に配置された監視チップ１５が、同バス上で送受信されるＵｐｄａｔｅＦＣパケットを監視することでバッファフルの状態を検知する。
そして、ＣＰＵ１１によるウォッチドッグ更新が行なわれない場合であっても、監視チップ１５よりバッファフル通知が行なわれている場合には、リセット制御部２６が、ＦＰＧＡ１２に対してスイッチリセット指示を送信することで、ＦＰＧＡ１２に、スイッチ１３を単体でリセットさせる。

これにより、スイッチ１３のバッファ１３１がクリアされ、また、スイッチ１３とＣＰＵ１１との間にリンクダウンが発生し、ＣＰＵ１１のバッファ１１１のデータは破棄される。すなわち、ＣＰＵ１１のバッファ＃３がクリアされ、ＣＰＵ１１の一時的なハングアップ状態が解消される。
従って、ＣＰＵ１１の電源を落とさずに装置を復旧させることができ、業務への影響を最小限に抑えることができる。

そして、開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
例えば、上述した実施形態においては、監視チップ１５は、ＣＰＵ１１とスイッチ１３とを接続するＰＣＩｅ信号線上にリピータのように接続・配置されているが、これに限定されるものではない。すなわち、同様の機能を、スイッチ１３やＣＰＵ１１，ＦＰＧＡ１２のいずれかに備えて実現してもよい。また、この際、監視チップ１５としての機能は、電子回路として実現する代わりに、プロセッサがプログラムを実行することにより実現してもよく、種々変形して実施することができる。

また、上述した実施形態においては、ボード１０がストレージ装置のＣＭであり、ボード２０がＣＡである例を示しているが、これに限定されるものではなく、他の装置であってもよい。
さらに、上述した実施形態においては、スイッチ１３がＰＣＩｅスイッチであり、ＰＣＩｅプロトコルに従った通信システムでのデータ伝送の例について示しているが、これに限定されるものではなく、他の通信プロトコルに適用してもよい。例えば、ＳＡＳ（Serial Attached Small Computer System Interface）やＦＣ（Fibre Channel）等の通信システムに適用してもよい。

また、上述した実施形態においては、例えばスイッチ１３に３つのポートＰ１〜Ｐ３が備えられているが、これに限定されるものではなく、種々変形して実施することができる。すなわち、スイッチ１３が２つもしくは４つ以上のポートを備えてもよく、種々変形して実施することができる。
また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。

以上の実施形態に関し、更に以下の付記を開示する。
（付記１）
電子部品が接続される接続部と、
データを処理する処理装置と、
送信もしくは受信するデータを格納するバッファを備え、前記処理装置と前記電子部品とのデータ通信を中継する中継部と、
前記処理装置の停止状態を検知する停止状態検知部と、
前記中継部の前記バッファのバッファフル状態を検知するバッファフル検知部と、
前記停止状態検知部により前記処理装置の停止状態が検知され、且つ、前記バッファフル検知部により前記バッファのバッファフル状態が検知されると、前記中継部をリセットするリセット処理部と
を備えることを特徴とする、制御装置。

（付記２）
前記バッファフル検知部が、
前記処理装置と前記中継装置とを接続する通信経路上に配置され、前記処理装置と前記中継部との間で通信されるバッファ状態情報に基づいて、前記バッファのバッファフル状態を検知することを特徴とする、付記１記載の制御装置。

（付記３）
前記停止状態検知部が、
前記処理装置により更新される更新情報を参照することで、前記処理装置の停止状態を検知することを特徴とする、付記１または２記載の制御装置。
（付記４）
前記処理装置に対して前記更新情報の更新指示を送信する更新指示部を備えることを特徴とする、付記３記載の制御装置。

（付記５）
前記停止状態検知部が前記処理装置の停止状態を検知した場合に、前記バッファフル検知部が前記バッファの状態を確認することを特徴とする、付記１〜４のいずれか１項に記載の制御装置。
（付記６）
前記中継部においてコレクタブルエラーが発生すると、当該中継部の通信状態を確認し、前記通信状態に異常が検知された場合に、前記中継部のポート無効化処理を行なうポート無効化処理部をそなえ、
前記ポート無効化処理部が前記中継部のポート無効化処理を行なっても、前記中継部の通信状態が回復しない場合に、
前記停止状態検知部が前記処理装置の停止状態を検知し、バッファフル検知部が前記中継部の前記バッファのバッファフル状態を検知することを特徴とする、付記１〜５のいずれか１項に記載の制御装置。

（付記７）
電子部品が接続される接続部と、
データを処理する処理装置と、
送信もしくは受信するバッファを備え、前記処理装置と前記電子部品とのデータ通信を中継する中継部とを備える制御装置において、
前記処理装置の停止状態を検知する処理と、
前記中継部の前記バッファのバッファフル状態を検知する処理と、
前記処理装置の停止状態が検知され、且つ、前記バッファのバッファフル状態が検知されると、前記中継部をリセットする処理と
を備えることを特徴とする、制御方法。

（付記８）
前記処理装置と前記中継部との間で通信されるバッファ状態情報に基づいて、前記バッファのバッファフル状態を検知することを特徴とする、付記７記載の制御方法。
（付記９）
前記処理装置により更新される更新情報を参照することで、前記処理装置の停止状態を検知することを特徴とする、付記７または８記載の制御方法。

（付記１０）
前記処理装置に対して前記更新情報の更新指示を送信する処理を備えることを特徴とする、付記９記載の制御方法。
（付記１１）
前記処理装置の停止状態を検知した場合に、前記バッファの状態を確認することを特徴とする、付記７〜１０のいずれか１項に記載の制御方法。

（付記１２）
前記中継部においてコレクタブルエラーが発生すると、当該中継部の通信状態を確認する処理と、
前記通信状態に異常が検知された場合に、前記中継部のポート無効化処理を行なう処理と、
前記中継部のポート無効化処理を行なっても、前記中継部の通信状態が回復しない場合に、
前記処理装置の停止状態の検知および前記中継部の前記バッファのバッファフル状態の検知を行なうことを特徴とする、付記７〜１１のいずれか１項に記載の制御方法。

１制御装置
１０，２０ボード
１１ＣＰＵ（処理装置）
１２ＦＰＧＡ
１３，２０１スイッチ
１４ＭＰＵ
１５監視チップ
２１ＷＤＴ処理部
２２ＷＤＴレジスタ
２３バッファフルレジスタ
２４ＷＤ監視部
２５ＷＤ更新指示部
２６リセット制御部
２７バッファ状態監視部
２８ＬＴＳＳＭ処理部
２９エラー検知部
１１１，１３１−１〜１３１−３，１３１バッファ
Ｐ１，Ｐ２，Ｐ３ポート
３０コネクタ（接続部）

Claims

電子部品が接続される接続部と、
データを処理する処理装置と、
送信もしくは受信するデータを格納するバッファを備え、前記処理装置と前記電子部品とのデータ通信を中継する中継部と、
前記処理装置の停止状態を検知する停止状態検知部と、
前記中継部の前記バッファのバッファフル状態を検知するバッファフル検知部と、
前記停止状態検知部により前記処理装置の停止状態が検知され、且つ、前記バッファフル検知部により前記バッファのバッファフル状態が検知されると、前記中継部のみをリセットするリセット処理部と
を備えることを特徴とする、制御装置。
前記バッファフル検知部が、
前記処理装置と前記中継部とを接続する通信経路上に配置され、前記処理装置と前記中継部との間で通信されるバッファ状態情報に基づいて、前記バッファのバッファフル状態を検知することを特徴とする、請求項１記載の制御装置。
前記停止状態検知部が、
前記処理装置により更新される更新情報を参照することで、前記処理装置の停止状態を検知することを特徴とする、請求項１または２記載の制御装置。
前記処理装置に対して前記更新情報の更新指示を送信する更新指示部を備えることを特徴とする、請求項３記載の制御装置。
前記停止状態検知部が前記処理装置の停止状態を検知した場合に、前記バッファフル検知部が前記バッファの状態を確認することを特徴とする、請求項１〜４のいずれか１項に記載の制御装置。
前記中継部においてコレクタブルエラーが発生すると、当該中継部の通信状態を確認し、前記通信状態に異常が検知された場合に、前記中継部のポート無効化処理を行なうポート無効化処理部をそなえ、
前記ポート無効化処理部が前記中継部のポート無効化処理を行なっても、前記中継部の通信状態が回復しない場合に、
前記停止状態検知部が前記処理装置の停止状態を検知し、バッファフル検知部が前記中継部の前記バッファのバッファフル状態を検知することを特徴とする、請求項１〜５のいずれか１項に記載の制御装置。
電子部品が接続される接続部と、
データを処理する処理装置と、
送信もしくは受信するデータを格納するバッファを備え、前記処理装置と前記電子部品とのデータ通信を中継する中継部とを備える制御装置において、
前記処理装置の停止状態を検知する処理と、
前記中継部の前記バッファのバッファフル状態を検知する処理と、
前記処理装置の停止状態が検知され、且つ、前記バッファのバッファフル状態が検知されると、前記中継部のみをリセットする処理と
を備えることを特徴とする、制御方法。