JP2014071576A - ストレージ制御装置,プログラマブル論理回路の復旧処理方法及び制御プログラム - Google Patents

ストレージ制御装置,プログラマブル論理回路の復旧処理方法及び制御プログラム Download PDF

Info

Publication number
JP2014071576A
JP2014071576A JP2012215904A JP2012215904A JP2014071576A JP 2014071576 A JP2014071576 A JP 2014071576A JP 2012215904 A JP2012215904 A JP 2012215904A JP 2012215904 A JP2012215904 A JP 2012215904A JP 2014071576 A JP2014071576 A JP 2014071576A
Authority
JP
Japan
Prior art keywords
communication
host
fpga
soft error
communication device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012215904A
Other languages
English (en)
Other versions
JP6011210B2 (ja
Inventor
Yasuhiro Ogasawara
康寛 小笠原
Shigeru Akiyama
茂 秋山
Tsukasa Matsuda
司 松田
Hitoshi Kosokabe
仁志 香曽我部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012215904A priority Critical patent/JP6011210B2/ja
Priority to US13/942,761 priority patent/US9342407B2/en
Publication of JP2014071576A publication Critical patent/JP2014071576A/ja
Application granted granted Critical
Publication of JP6011210B2 publication Critical patent/JP6011210B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • G06F11/1423Reconfiguring to eliminate the error by reconfiguration of paths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】プログラマブル論理回路のソフトエラーを効率的に解消できるようにする。
【解決手段】プログラマブル論理回路103が備える設定情報用メモリのソフトエラーを検出する検出部115と、ソフトエラーを検出すると、通信装置10と上位装置2との通信パスの状態をビジー状態に変移させる通信制御部113と、プログラマブル論理回路103の設定情報用メモリの修復処理を行なう修復処理部116とを備える。
【選択図】図1

Description

本発明は、ストレージ制御装置,プログラマブル論理回路の復旧処理方法及び制御プログラムに関する。
デジタル回路の回路設計を電気的に変更可能なデバイスとして、FPGA(Field Programmable Gate Array;プログラマブル論理回路)が知られている。FPGAは、多数の論理ゲートを有するLSI(Large Scale Integration circuit)である。FPGAは、論理ゲート間の論理関係と接続関係とを記述したコンフィグレーションデータを、FPGAが備えるコンフィグレーションRAM(Random Access Memory)に書き込むことで、所定の論理回路として機能する。
種々の電子機器の回路部品にFPGAを用いることにより、設計に従って回路部品を製造する場合より短期間で回路設計を実装することができる。
また、FPGAは、コンフィグレーションデータを変更することでハードウェアを変更することなく容易に回路設計を変更できるので、電子機器を始めとして様々な製品で利用されている。FPGAは、例えば、ストレージ制御装置に搭載されるCA(Channel Adapter)にも用いられている。
さて、FPGAにおいては、コンフィグレーションRAMにエラーが発生する場合がある。このようなコンフィグレーションRAMで発生するエラーには、回路そのものがダメージを受ける「ハードエラー」と、宇宙線等の放射線によりRAM内のデータが破壊される「ソフトエラー」とがある。
コンフィグレーションRAMに「ハードエラー」が発生した場合には、FPGAそのものの交換が必要となるが、「ソフトエラー」が発生した場合は、FPGAをリコンフィグレーションすることにより復旧が可能である。
例えば、CAにFPGAを用いたストレージ装置においては、CAのFPGAにソフトエラーが発生した場合に、CAをハードリセットしてリブートすることで、FPGAのソフトエラー状態から復旧させる。
図7(a),(b)は従来のストレージ制御装置におけるFPGAのソフトエラー発生時の処理を説明する図、図8はそのシーケンス図である。
図7(a)に示すように、ホスト1010とストレージ装置1020とを備えたストレージシステム1000において、ストレージ装置1020のCA1021においてFPGAにソフトエラーが検出された場合の従来の処理を説明する。なお、図7(b)及び図8中において、カッコ付き数字は対応する処理を示している。
ストレージ装置1020はCA1021及びCM(Controller Module)1022を備え、CA1021はホスト1010のチャネル(CH)1012と接続されている。CH1012は、例えば、ファイバチャネルインタフェースである。この図7,図8に示す例においては、ホスト1010とストレージ装置1020とは光ファイバケーブルで接続されている。
FPGAのソフトエラーが検出されると、先ず、(1)CA1021においてハードリセットが行なわれ、CA1021の電源が遮断される。これにより、(2) ホスト1010とストレージ装置1020との接続が遮断され、ホスト1010のCH1012において、ストレージ装置1020との間に通信断(光切れ)が検出される。
ホスト1010のOS(Operating System)1011においては、CH1012の光切れの検出に基づき、(3)ストレージ装置1020との間のパス切れを認識する。
CM1022は、(4)CA1021がハードリセットしたため故障したと判断し、CA1021を使用不可の状態に設定するとともに、故障通知を出力する。この故障通知を受けて装置の保守作業員(CE;Customer Engineer)が派遣され、例えば、CA1021のボード交換作業が行なわれる。
CM1022は、(5)CA1021をリブート(再起動)させて組み込む。その後、(6)オペレータが、ホスト1010を操作して、パスをオンラインさせる処理(パスオンライン処理)を行なうことで、ホスト1010とストレージ装置1020とのパスが復旧し、ストレージシステム1000が使用可能な状態になる。
このような従来のFPGAのソフトエラー発生時の復旧方法によれば、(3) ストレージ装置1020との間のパス切れが認識されてから、(6)パスオンライン処理が実行されるまでの間は、ホスト1010とCA1021との間のパスを使用することができない。
特開2012−14353号公報
しかしながら、このような従来のストレージシステムにおいては、ホスト1010とストレージ装置1020との間のパスを復旧させるために、CAリブート完了後(符号(5)参照)に、オペレータがパスのオンライン処理作業を行なう必要がある。これにより、ストレージシステム1000の復旧を迅速に行なうことができず、又、煩雑であるという課題がある。
また、前述の如く、CM1022からCA1021の故障が判定され故障通知(符号(4)参照)が行なわれた場合に、この故障通知により装置の保守作業員が派遣され、CA1021のボード交換作業が行なわれる場合がある。しかしながら、FPGAのソフトエラーはFPGAのハードウェアそのものには異常はないので、このボード交換は不要な作業であり非効率的である。
1つの側面では、本発明は、プログラマブル論理回路のソフトエラーを効率的に解消できるようにすることを目的とする。
なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本発明の他の目的の1つとして位置付けることができる。
このため、このストレージ制御装置は、通信装置により上位装置に接続され、記憶装置に対するデータアクセスを制御するストレージ制御装置であって、プログラマブル論理回路が備える設定情報用メモリのソフトエラーを検出する検出部と、前記通信装置と前記上位装置との通信パスの状態をビジー状態に変移させる通信制御部と、前記プログラマブル論理回路の前記設定情報用メモリの修復処理を行なう修復処理部とを備え、前記検出部がソフトエラーを検出すると、前記通信制御部は、前記通信装置と前記上位装置との通信パスの状態をビジー状態に変移させる。
また、このストレージ制御装置は、通信装置により上位装置に接続され、記憶装置に対するデータアクセスを制御するストレージ制御装置であって、プログラマブル論理回路が備える設定情報用メモリのソフトエラーを検出する検出部と、前記通信装置を管理する管理装置に対して前記通信装置を監視対象から除外する処理を行なう処理部と、前記プログラマブル論理回路の前記設定情報用メモリの修復処理を行なう修復処理部とを備え、前記検出部がソフトエラーを検出すると、前記処理部は、前記通信装置と前記上位装置との通信パスの状態をビジー状態に変移させる。
さらに、このプログラマブル論理回路の復旧処理方法は、プログラマブル論理回路が備える設定情報用メモリのソフトエラーを検出する処理と、前記ソフトエラーを検出すると、通信装置と上位装置との通信パスの状態をビジー状態に変移させる処理と、前記プログラマブル論理回路の前記設定情報用メモリの修復処理を行なう処理とを備える。
また、この制御プログラムは、プログラマブル論理回路が備える設定情報用メモリのソフトエラーを検知し、前記ソフトエラーを検知すると、通信装置と上位装置との通信パスの状態をビジー状態に変移させ、前記プログラマブル論理回路の前記設定情報用メモリの修復処理を行なう処理をコンピュータに実行させる。
一実施形態によれば、プログラマブル論理回路に発生したソフトエラーを効率的に解消することができる。
実施形態の一例としてのストレージシステムの機能構成を模式的に示す図である。 実施形態の一例としてのストレージシステムのハードウェア構成を模式的に示す図である。 実施形態の一例としてのストレージシステムにおけるFPGAのソフトエラー発生時の処理の概要を説明する図である。 実施形態の一例としてのストレージシステムにおけるFPGAのソフトエラー発生時の処理の概要を説明するシーケンス図である。 実施形態の一例としてのストレージシステムにおけるFPGAのソフトエラー発生時の詳細な処理を示すシーケンス図である。 本実施形態の一例としてのストレージシステムにおけるFPGAのリコンフィグレーション処理を説明するフローチャートである。 (a),(b)は従来のストレージ装置におけるFPGAのソフトエラー発生時の処理を説明する図である。 従来のストレージ装置におけるFPGAのソフトエラー発生時の処理を説明するシーケンス図である。
以下、図面を参照して本ストレージ制御装置,プログラマブル論理回路の復旧処理方法及び制御プログラムに係る実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。又、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
図1は実施形態の一例としてのストレージシステム1の機能構成を模式的に示す図、図2はそのハードウェア構成を模式的に示す図である。
本ストレージシステム1は、図2に示すように、ストレージ装置100をそなえ、1以上(図1に示す例では1つ)のホスト2に対して通信可能に接続されている。
ホスト2は、例えば、サーバ機能をそなえたコンピュータ(情報処理装置,上位装置)であり、ストレージ装置100との間において、コマンドやレスポンス等の各種データを送受信する。
ホスト2は、図2に示すように、CPU(Central Processing Unit)21及びチャネル(CH)22を備える。CPU21は、種々の制御や演算を行なう処理装置であり、図示しないメモリ等に格納されたOSやプログラムを実行することにより、種々の機能を実現する。
このホスト2は、ストレージ装置100に対してリード/ライト等のディスクアクセスコマンドを送信することにより、ストレージ装置100が提供する記憶領域にデータの書き込みや読出しを行なう。
チャネル22は、ストレージ装置100と通信可能に接続するネットワークインタフェースである。図2に示す例においては、チャネル22は、ストレージ装置100に備えられた光モジュール105と通信線51(ホストパス)を介して接続されている。
ストレージ装置100は、ホスト2に対して記憶領域を提供するものであり、ホスト2と通信線51を介して相互に通信可能に接続されている。
このストレージ装置100は、図2に示すように、ストレージ制御装置200及びHDD(Hard Disk Drive;記憶装置)30をそなえる。
ストレージ装置100は、ホスト2に接続されるとともに、図示しないドライブエンクロージャ等が接続される。
HDD30は、データを読み書き可能に格納する記憶装置であり、ホスト2から受信したデータを記憶可能な記憶部として機能する。なお、図1,図2中においては、便宜上、ストレージ装置100に1つのHDD30を示しているが、これに限定されるものではなく、2つ以上のHDD30をそなえてもよい。そして、ストレージ装置100は、これらの複数のHDD30を組み合わせて、冗長化された1つのストレージとして管理する、RAID(Redundant Arrays of Inexpensive Disks)装置であってもよい。
ストレージ制御装置200は、ホスト2からディスクアクセスコマンドやデータを受信し、このディスクアクセスコマンドに基づきHDD30に対するディスクアクセス(リード/ライト)を行なう。ストレージ制御装置200は、図2に示すように、チャネルアダプタ(以下CAという)10a,10b及びコントローラモジュール(以下CMという)20を備える。CA10a,10b及びCM20は、通信線52を介して相互に通信可能に接続されている。
CM20は、ストレージ装置100内の動作を制御するコントローラ(制御装置,管理装置)であり、ホスト2からのリード/ライト等のコマンドを受け取り、種々の制御を行なう。CM20はCA10a,10bを介してホスト2に接続される。又、CM20は通信線53を介してHDD30に接続されている。そして、CM20は、ホスト2から送信されるリード/ライト等のコマンドを受信し、HDD30の制御を行なう。
CM20は、図2に示すように、CPU201や図示しないメモリ等を備える。そして、このCPU21がメモリ等に格納された制御プログラムを実行することにより、図1に示すように、CA管理部211としての機能を実現する。
CA管理部211は、CA10a,10bを管理し、CA10a,10bが正常に動作しているか否かを監視する。CA管理部211は、CA10a,10bにおいて何らかの異常を検知すると、そのCA10a,10bを使用不可の状態に設定するとともに、外部に対して故障通知を出力する。又、CA管理部211は、CA10a,10bを再起動させる機能も備える。なお、CA管理部211による、これらのCA10a,10bの監視や使用不可の設定、故障通知の出力、再起動等の機能は、既知の手法により実現することができ、その詳細な説明は省略する。
また、CA管理部211は、後述するリコンフィグレーション通知部114からFPGAのリコンフィグレーション開始のステータス信号(FPGAリコンフィグレーション開始通知)を通知されると、その通知元のCA10を監視対象から除外して、そのCA10のステータスを使用不可の状態に設定する。これにより、CM20からそのCA10に対してアクセスすることができなくなる。又、この際、CA管理部211は外部に対する故障通知は行なわない。
さらに、CA管理部211は、後述するリコンフィグレーション通知部114からFPGAのリコンフィグレーション終了のステータス信号(FPGAリコンフィグレーション完了通知)を通知されると、その通知元のCA10を監視対象に含めて、そのCA10のステータスを使用可能の状態に設定する。これにより、CM20からそのCA10に対してアクセスすることができるようになる。又、この際においても、CA管理部211は外部に対する故障通知は行なわない。
また、CM20は、ストレージ装制御置200における一般的なCMとしての機能を備えている。例えば、CM20は、ストレージ装置100のHDD30等のリソースを管理するリソース管理機能や、複数の記憶装置間等におけるデータのコピーを制御するコピー制御機能等を備える。なお、これらのコピー制御機能やリソース管理機能は既知の技術であり、その詳細な説明は省略する。
CA10a,10bは、ホスト2等と通信可能に接続するインタフェースコントローラ(通信アダプタ;通信装置)である。CA10a,10bは、ホスト2等から送信されたデータを受信したり、CM20から出力するデータをホスト2等に送信する。すなわち、CA10a,10bは、ホスト2等の外部装置との間でのデータの入出力(I/O)を制御する。CA10a,10bは同様の構成を備えている。なお、図1,図2中においては、便宜上、CA10aについてのみ、その機能構成やハードウェア構成を図示している。以下、CAを示す符号としては、複数のCAのうち1つを特定する必要があるときには符号10a,10bを用いるが、任意のCAを指すときには符号10を用いる。
CA10は、図2に示すように、CPU101,PLD(Programmable Logic Device)102,FPGA103,PCIe(Peripheral Components Interconnect Express)スイッチ(PCIe SW)104及び光モジュール105,105を備える。又、これらの他、CA10は図示しないメモリ等も備える。
光モジュール105,105は、ホスト2との間で光通信を行なうインタフェースモジュールであり、CA10a,10bにそれぞれ1以上(図2に示す例では2つ)備えられている。光モジュール105,105は、それぞれホスト2のチャネル22と通信線51を介して接続されている。
FPGA103は、プログラマブル論理回路であり、多数の論理ゲートを有するLSIである。FPGA103は、このFPGA103が備える図示しないコンフィグレーションRAM(Random Access Memory;設定情報用メモリ)に格納されたコンフィグレーションデータに従って論理回路としての機能を実現する。
さらに、FPGA103は、ホスト2との光モジュール105を介したインターフェース用のプロトコル制御及びデータ操作を行なう機能も備える。
PLD102は、プログラム可能な論理デバイスである。このPLD102は、FPGA103のコンフィグレーションを実現する機能を備えており、コンフィグレーションRAMのデータを、図示しないROM(Read Only Memory)等に格納されたコンフィグレーションデータ(回路データ)をセットする。
また、PLD102は、コンフィグレーションRAMに既に書き込まれているコンフィグレーションデータを、ROM等に格納されたコンフィグレーションデータを用いて書き換えるリコンフィグレーション機能を備える。これにより、ソフトエラーが生じたFPGA103を復旧させることができる。すなわち、このPLD102は、図1に示すコンフィグレーション処理部(修復処理部)116としての機能を実現する。PLD102による、FPGA103のコンフィグレーション及びリコンフィグレーションは、後述するCPU101の制御部117(コンフィグレーション処理制御部)からの指示に従って行なわれる。
さらに、PLD102は、ホスト2に対して、UD(unconditional-disconnect)シーケンスを送出状態に設定し、又、UDシーケンスの送出状態を解除する機能を備える。PLD102は、後述するCPU101の指示に従って、ホスト2に対してUDシーケンス信号(通信制御信号)の送信を開始(送出状態の設定)する。具体的には、PLD102は、UDシーケンス送出信号を送出状態で固定する。
CA10は、ホスト2(ホストI/F)に対してUDシーケンス信号を送信することによりコネクションリカバリ状態に移行する。このコネクションリカバリ状態においては、ホスト2からCA10(ストレージ装置100)に対してI/Oコマンドを出力できなくなり、いわゆるビジー状態となる。
また、PLD102は、後述するCPU101の制御部117(UDシーケンス送出制御部)からの指示に従い、UDシーケンス信号の送信を停止(送出状態の解除)する。具体的には、PLD102は、送出状態となっているUDシーケンス送出信号の出力を停止させることで、送出状態を解除(固定解除)する。
UDシーケンス信号を受信したホスト2は、UDシーケンス信号の応答として、UDシーケンス信号の送信元のCA10に対してUDR(unconditional-disconnect-response)シーケンス信号を送信する。ホスト2は、UDシーケンス信号の送信状態が解除されるまでUDRシーケンス信号の出力を行なう。これにより、ホスト2とCA10との間のホストパスがビジー状態になる。
本ストレージシステム1においては、専用のプロトコルチップ等を備えることなくホストパスをビジー状態に変移させることができる。ホストパスビジー状態となると、ホスト2はホストパスのパス切れを認識することがない。
また、UDシーケンス信号の送出状態を固定/解除することにより、ホストパスのビジー状態を短時間で容易に設定/解除することができる。
PLD102による、これらのUDシーケンス信号の送出や解除は、後述するCPU101の制御部117(UDシーケンス送出制御部)からの指示に従って行なわれる。
なお、UDシーケンス送出状態の設定や解除は既知の手法で実現することができ、その詳細な説明は省略する。UDシーケンスについては、例えば、SBCON(Single-Byte Command Code Sets Connection architecture)やESCON(Enterprise System Connection;登録商標)に規定されている。更に、PLD102は、インターフェイス制御機能も備える。
このように、PLD102は、図1に示す、UDシーケンス送出部(第1通信制御部,第2通信制御部)113としての機能を実現する。
さらに、PLD102は、FPGA103のソフトエラーを検出する機能を備える。PLD102は、例えば、CRC(Cyclic Redundancy Check)エラー検出機能を用いることによりFPGA103のソフトエラーを検出する。なお、このPLD102によるFPGA103のソフトエラー検出の機能は、既知の種々の手法により実現され、その詳細な説明は省略する。すなわち、このPLD102は、図1に示す検出部115としての機能を実現する。PLD102は、FPGA103のソフトエラーを検出するとCPU101に対して割り込み(PLD割り込み)信号を出力することにより通知する。
また、PLD102は、CM20に対して、FPGAリコンフィグレーション開始通知(第1通知信号)やFPGAリコンフィグレーション完了通知(第2通知信号)を出力する。
FPGAリコンフィグレーション開始通知は、FPGA103のリコンフィグレーションを開始することを通知する信号である。このFPGAリコンフィグレーション開始通知としては、例えば、CAポート(図示省略)の初期化が完了したことをCM20に通知するために用いられる「Adapter Ready Assert」信号等を転用することができる。
前述の如く、FPGAリコンフィグレーション開始通知を受信したCM20は、その通知元のCA10を監視対象から除外して、そのCA10を使用不可の状態に設定する。これにより、CM20からそのCA10に対してアクセスすることができなくなる。又、この際、CA管理部211は外部に対する故障通知は行なわない。
また、CM20は、FPGAリコンフィグレーション完了通知を受信すると、その通知元のCA10を監視対象に含めて、そのCA10を使用可能の状態に設定する。これにより、CM20からそのCA10に対してアクセスすることができるようになる。
FPGAリコンフィグレーション完了通知は、FPGA103のリコンフィグレーションが完了したことを通知する信号である。このFPGAリコンフィグレーション完了通知としては、例えば、CAポートのリセット等でCA10が使用できなくなったことをCM20に通知するために用いられる「Adapter Ready Deassert」信号等を転用することができる。すなわち、PLD102は、図1に示すFPGAリコンフィグレーション通知部(第1処理部,第2処理部,処理部)114としての機能を実現する。
PLD102による、これらのFPGAリコンフィグレーション開始通知及びFPGAリコンフィグレーション完了通知の出力は、後述するCPU101の制御部117(FPGAリコンフィグレーション通知制御部)からの指示に従って行なわれる。
PCIeスイッチ104は、PCIeバスを介して通信を行なうインタフェースモジュールである。
メモリは、ROM及びRAMを含む記憶装置である。メモリのROMには、CA10の制御に係るソフトウェアプログラム(制御プログラム)やこのプログラム用のデータ類が書き込まれている。メモリ上のソフトウェアプログラムは、CPU101に適宜読み込まれて実行される。又、メモリのRAMは、一次記憶メモリあるいはワーキングメモリとして利用される。
CPU101は、種々の制御や演算を行なう処理装置であり、メモリに格納された制御プログラムを実行することにより、種々の機能を実現する。すなわち、CPU101は、図1に示す、CCW(Channel Command Word)コマンド処理部111,CCWコマンド発行部112及び制御部117として機能する。
CCWコマンド処理部111は、ホスト2等から発行されるCCWについて、このCCWに応じた処理を行なう。例えば、CCWコマンド処理部111は、ホスト2から受信したCCWに基づいて、HDD30に対するIO処理を行なう。CCWコマンド発行部112は、例えば、HDD30に対してCCWを発行する。
なお、これらのCCWコマンド処理部111及びCCWコマンド発行部112としての機能は、既知の種々の手法により実現され、その詳細な説明は省略する。
制御部117は、PLD102及びFPGA103に対して、それぞれの機能を実現させる制御を行なう。
例えば、制御部(検知部)117は、PLD102(検出部115)から、FPGA103のソフトエラーを検出した旨の割り込み信号が入力されことで、FPGA103のソフトエラーを検知する。制御部117は、FPGA103のソフトエラーを検知すると、PLD102(UDシーケンス送出部113)に対して、UDシーケンス信号の送出開始を指示する。又、制御部117は、PLD102に対してUDシーケンス信号の送出開始を指示した後、FPGA103のリコンフィグレーションが完了し、CM20との間で正常に通信が行なわれることを確認すると、PLD102(UDシーケンス送出部113)に対して、UDシーケンス信号の送出停止を指示する。すなわち、制御部117は、PLD102(UDシーケンス送出部113)によるUDシーケンス信号の送信や停止を制御するUDシーケンス送出制御部として機能する。
また、制御部117は、PLD102(FPGAリコンフィグレーション通知部114)に対して、CM20へのFPGAリコンフィグレーション開始通知やFPGAリコンフィグレーション完了通知の送信を指示する。すなわち、制御部117は、PLD102(FPGAリコンフィグレーション通知部114)によるFPGAリコンフィグレーション開始通知及びFPGAリコンフィグレーション完了通知の送信を制御するFPGAリコンフィグレーション通知制御部として機能する。
さらに、制御部117は、PLD102(コンフィグレーション処理部116)に対して、FPGA103のリコンフィグレーションを実施させる指示を行なう。すなわち、制御部117は、PLD102(コンフィグレーション処理部116)によるFPGA103のリコンフィグレーションを制御するリコンフィグレーション処理制御部として機能する。
また、制御部117は、FPGA103に対してDMA(Direct Memory Access)転送の停止や開始を指示する機能も備える。FPGA103にDMA転送を停止させることにより、CA10とCM20との間においてI/F処理が実施されないようになる。
すなわち、制御部117は、検出部115がソフトエラーを検出すると、CM20に対してデータ転送処理を停止させる転送抑止部としても機能する。
なお、上述の如き、CM20におけるCA管理部211等としての機能や、CA10におけCCWコマンド処理部111,CCWコマンド発行部112及び制御部117としての機能を実現するためのプログラムは、例えばフレキシブルディスク,CD(CD−ROM,CD−R,CD−RW等),DVD(DVD−ROM,DVD−RAM,DVD−R,DVD+R,DVD−RW,DVD+RW,HD DVD等),ブルーレイディスク,磁気ディスク,光ディスク,光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。
CA管理部211やCCWコマンド処理部111,CCWコマンド発行部112及び制御部117等としての機能を実現する際には、内部記憶装置(本実施形態では図示しないメモリ)に格納されたプログラムがコンピュータのマイクロプロセッサ(本実施形態ではCPU21,101)によって実行される。このとき、記録媒体に記録されたプログラムをコンピュータが読み取って実行するようにしてもよい。
なお、本実施形態において、コンピュータとは、ハードウェアとオペレーティングシステムとを含む概念であり、オペレーティングシステムの制御の下で動作するハードウェアを意味している。又、オペレーティングシステムが不要でアプリケーションプログラム単独でハードウェアを動作させるような場合には、そのハードウェア自体がコンピュータに相当する。ハードウェアは、少なくとも、CPU等のマイクロプロセッサと、記録媒体に記録されたコンピュータプログラムを読み取るための手段とをそなえており、本実施形態においては、CA10やCM20がコンピュータとしての機能を有しているのである。
上述の如く構成された実施形態の一例としてのストレージシステム100におけるFPGAのソフトエラー発生時の処理の概要を、図3及び図4を用いて説明する。なお、図3は本ストレージシステム100におけるFPGAのソフトエラー発生時の処理の概要を説明する図、図4はそのシーケンス図である。なお、図3及び図4中において、カッコ付き数字は対応する処理を示している。
CA10のFPGA103にソフトエラーが発生すると、検出部115がこのソフトエラーを検出する。
(1)CA10においては、CPU101(制御部117)は、CM20とのI/F処理を全て終結させ、FPGA103に対してDMA転送の停止を指示する。FPGA103は、このDMA転送停止指示に基づき、DMA転送を停止する。これにより、CA10とCM20との間で新たなI/F処理が実施されないようになる。
(2)その後、PLD102(FPGAリコンフィグレーション通知部114)が、CM20に対して、FPGAリコンフィグレーション開始通知を送信する。
(3)FPGAリコンフィグレーション開始通知を受信したCM20は、CA10を使用不可の状態にし、監視対象から除外する。これにより、CM20からこのCA10に対して通信を行なわれないようにする。CM20は、CA10についての故障通知(CA故障通知)は行なわずに、FPGAリコンフィグレーション完了通知を待つ。
(4)CA10において、PLD102(UDシーケンス送出部113)は、UDシーケンス信号を送出状態に設定することによりコネクションリカバリ状態にして、ホストパスをビジー状態に変移させる。UDシーケンス信号を受信したホスト2はパス切れを認識することはない。
(5)CA10において、PLD102(コンフィグレーション処理部116)が、FPGA103のリコンフィギュレーションを行ない、レジスタの初期化やメモリのリフレッシュ等を行なう。
(6)その後、PLD102(FPGAリコンフィグレーション通知部114)は、CM20に対してFPGAリコンフィグレーション完了通知を送信することにより、FPGA103のリコンフィギュレーションが完了したことを通知する。
(7)FPGAリコンフィグレーション完了通知を受信したCM20は、CA10を使用可能な状態に戻す。これにより、CM20からFPGAリコンフィグレーション完了通知の送信元のCA10に対して通信を行なうことが可能となる。
(8) また、PLD102(UDシーケンス送出部113)は、UDシーケンス送出状態を解除することにより、ホストパスのビジー状態を解除する。ホストパスのビジー状態が解除されたことにより、ホスト2とストレージ装置100との間において、通信線51を介してデータ処理が可能となる。
図5は実施形態の一例としてのストレージシステム1におけるFPGA103のソフトエラー発生時の詳細な処理を示すシーケンス図である。
ストレージ装置100のCA10においてFPGA103のソフトエラーが発生すると(符号A1参照)、PLD102(検出部115)がCPU101に対してPLD割り込みを発生させる。これにより、CPU101はFPGA103のソフトエラーを認識(検知)する。
CA10において、CPU101(制御部117)は、FPGA103に対してDMA転送の停止を指示する。又、CPU101(制御部117)は、UDシーケンス信号を送出状態にして、PLD102(UDシーケンス送出部113)に対して、UDシーケンス信号の送出固定設定を依頼する。
これにより、PLD102(UDシーケンス送出部113)は、ホスト2に対してUDシーケンス信号を送出し、コネクションリカバリ状態となる。ホスト2は、UDシーケンス信号の応答としてUDRシーケンス信号をCA10に送出する。
図5に示す例においては、PLD102は、SEQ#0としてホスト2のCH#0に対してUDシーケンス信号を送出し、ホスト2のCH#0からUDRシーケンス信号が送出されている(符号A2−1参照)。又、PLD102は、SEQ#1としてホスト2のCH#1に対してUDシーケンス信号を送出し、ホスト2のCH#1からUDRシーケンス信号が送出されている(符号A2−2参照)。
これらのUDシーケンス信号及びUDRシーケンス信号の送受信は、UDシーケンス信号送出固定が解除されるまで繰り返し行なわれる。
また、CA10において、CPU101(FPGAリコンフィグレーション通知部114)は、CM20に対して、FPGAリコンフィグレーション開始通知を行なう。
図5に示す例においては、CPU101は、SEQ#0としてホスト2のCH#0に対するUDシーケンス信号/UDRシーケンス信号の送受信の開始後に、ポート(Port)#0のFPGA103のFPGAリコンフィグレーション開始通知を送信している(符号A2−3参照)。又、CPU101は、SEQ#1としてホスト2のCH#1に対するUDシーケンス信号/UDRシーケンス信号の送受信の開始後に、ポート#1のFPGA103のFPGAリコンフィグレーション開始通知を送信している(符号A2−4参照)。
CM20においては、FPGAリコンフィグレーション開始通知を契機に、CA10の切り離しを行なう(符号A3参照)。すなわち、CA10を監視対象から除外する。
CA10において、CPU101がPLD102(コンフィグレーション処理部116)に対して、FPGA103のリコンフィグレーションを実施させる。FPGA103のリコンフィグレーションが完了すると、コンフィグレーション処理部116は、CPU101に対して、FPGA103のコンフィグレーション完了確認を通知する(符号A4参照)。
その後、CA10において、CPU101(FPGAリコンフィグレーション通知部114)は、CM20に対して、FPGAリコンフィグレーション完了通知を行なう。
図5に示す例においては、CPU101は、ポート#0,#1のそれぞれについて、FPGA103のFPGAリコンフィグレーション完了通知をCM20に送信している(符号A5参照)。
CM20においては、FPGAリコンフィグレーション完了通知を契機に、CA10の組み込み処理を行なう(符号A6参照)。すなわち、CA10を監視対象に設定する。
CA10において、CPU101は、PLD102(UDシーケンス送出部113)に対して、UDシーケンス信号の送出固定解除を依頼する(符号A7参照)。 図5に示す例においては、PLD102は、SEQ#0,#1のそれぞれについて、UDシーケンス信号の送出固定解除を依頼している。
その後、CA10において、PLD102は、ホスト2に対して、UDシーケンス信号に代えて通常の処理のフレーム送出を行なう。
次に、本実施形態の一例としてのストレージシステム1におけるFPGA103のリコンフィグレーション処理を、図6に示すフローチャート(ステップS1〜S14)に従って説明する。
先ず、ステップS1において、CA10のCPU101(制御部117)は、CM20とのI/F処理を全て終結させる指示を行なう。制御部117は、FPGA103に対してDMA転送の停止を指示し、FPGA103は、このDMA転送停止指示に基づき、DMA転送を停止する。
ステップS2において、CA10のCPU101(制御部117)は、CM20とのI/F処理が全て終結したかを確認する。CM20とのI/F処理が全て終結した場合には(ステップS2のYESルート参照)、ステップS3において、CPU101は、FPGA103に対してDMA転送の停止を指示し、DMA転送を停止させる。
また、ステップS4において、CPU101がPLD102(FPGAリコンフィグレーション通知部114)に対して、FPGAリコンフィグレーション開始通知を指示する。この指示に従い、FPGAリコンフィグレーション通知部114は、CM20に対して、FPGAリコンフィグレーション開始通知を送信する。
FPGAリコンフィグレーション開始通知を受信したCM20は、CA10を使用不可の状態にする。これにより、CM20からCA10に対する通信が抑止され、CM20においては、CA10との間で通信エラーが検出されることがない。
ステップS5において、CPU101(制御部117)は、CM20の応答が正常であるか否かを確認する。CM20の応答が正常な場合には(ステップS5のYESルート参照)、ステップS6において、CPU101は、PLD102(UDシーケンス送出部113)をUDシーケンス信号送出状態に設定させる。この指示に従い、UDシーケンス送出部113は、UDシーケンス信号を送出状態に設定し、これにより、ホストパスをビジー状態にする。ホストパスがビジー状態においては、ホスト2はパス切れを認識することはない。
ステップS7において、CA10のPLD102(コンフィグレーション処理部116)は、FPGA103のリコンフィギュレーションを行なう。
ステップS8において、CPU101(制御部117)は、FPGA103のリコンフィグレーションが完了したかを確認する。FPGAリコンフィグレーションが完了すると(ステップS8のYESルート参照)、ステップS9において、CPU101(制御部117)は、PLD102(FPGAリコンフィグレーション通知部114)に、CM20に対してFPGAリコンフィグレーションの完了を通知させる。FPGAリコンフィグレーション通知部114は、CM20に対してFPGAリコンフィグレーション完了通知を送信する。
その後、ステップS10において、CPU101(制御部117)は、CM20の応答が正常であるか否かを、再度、確認する。CM20の応答が正常な場合には(ステップS10のYESルート参照)、ステップS11において、CPU101(制御部117)は、PLD102(UDシーケンス送出部113)をUDシーケンス信号送出状態から解除させる。この指示に従い、UDシーケンス送出部113は、UDシーケンス送出状態を解除し、ホストパスのビジー状態を解除する。ホストパスのビジー状態が解除されたことにより、ホスト2とストレージ装置100との間において、通信線51を介してデータ処理が可能となる。これにより、FPGA103のリコンフィグレーション処理は終了する。
一方、CM20とのI/F処理が全て終結していない場合には(ステップS2のNOルート参照)、ステップS12において、CPU101(制御部117)は、CM20とのI/F処理を終結させる指示がタイムアウトとなったか否かを確認する。
CM20とのI/F処理を終結させる指示がタイムアウトとなっていない場合には(ステップS12のNOルート参照)、ステップS2に戻る。CM20とのI/F処理を終結させる指示がタイムアウトとなった場合には(ステップS12のYESルート参照)、ステップS14において、CPU101(制御部117)は、CM20に対してエラー通知を行なう。エラー通知を受信したCM20はCA10をハードリセットしてリブートすることで、FPGAのソフトエラー状態から復旧させ、処理を終了する。
また、ステップS8において、FPGAリコンフィグレーションが完了していない場合には(ステップS8のNOルート参照)、ステップS13において、CPU101(制御部117)は、FPGA103のリコンフィグレーション処理がタイムアウトしたかを判断部13する。FPGA103のリコンフィグレーションを開始してから所定時間を経過してもリコンフィグレーション処理が完了していない、すなわち、タイムアウトが発生した場合には(ステップS13のYESルート参照)、ステップS14に移行する。又、ステップS5,S10において、CM20の正常に応答していないと判断された場合にも(ステップS5,S10のNOルート参照)、ステップS14に移行する。
リコンフィグレーション処理がタイムアウトしていない場合には(ステップS13のNOルート参照)、ステップS8に戻る。
このように、実施形態の一例としてのストレージシステム1によれば、FPGA103に発生したソフトエラーを効率的に解消することができる。
すなわち、FPGA103のリコンフィギュレーションを行なう際に、PLD102(UDシーケンス送出部113)がホスト2に対してUDシーケンス信号を送出状態とする。又、この際、CA10をハードリセットする必要もない。これにより、ホスト2がUDRシーケンス信号を応答し、ホスト2とCA10との間のホストパスがビジー状態になり、ホスト2がホストパスのパス切れを認識することを抑止する。従って、活性でFPGA103のリコンフィグレーションを行なっても、ホスト2がホストパスのパス切れを認識することがない。すなわち、オペレータや保守作業員がホストパスのオンライン処理作業を行なう必要がなく、FPGA103のリコンフィグレーション後に速やかに本ストレージシステム1を復旧させることができる。又、ホスト2からオペレータ等にエラー通知がされないので、オペレータ等の作業工数を低減することができ効率的である。
また、FPGA103のリコンフィギュレーションを行なう際に、PLD102(コンフィグレーション処理部116)が、CM20に対して、FPGAリコンフィグレーション開始通知を行なう。FPGAリコンフィグレーション開始通知を受信したCM20は、CA10を監視対象から除外して使用不可の状態に設定する。これにより、活性でFPGA103のリコンフィグレーションを行なっても、CM20がCA10(FPGA103)のエラーを検知することがなく、CM20からCA10の故障通知の発行が抑止される。又、FPGA103のリコンフィグレーションを行なう際に、CA10においては、CPU101(制御部117)は、CM20とのI/F処理を全て終結させるので、CA10とCM20との間で新たなI/F処理が実施されない。これによっても、CM20がFPGA103のリコンフィグレーション中にCA10のエラーを検知することがない。
すなわち、CM20からオペレータや保守作業員等にエラー通知がされないので、保守作業員等が、実際には不要なCA10等の部品交換作業を行なうことも抑止することができ、効率的であり、又、経済的である。
また、CA10のハードリセットを行なわないので、ホストパスのオンライン処理作業を行なう必要がなく、FPGA103のリコンフィグレーション後に速やかに本ストレージシステム1を復旧させることができる。
FPGA103のリコンフィグレーション時において、ホスト2やCM20がCA10のエラーを検知する数が低減されるので、本ストレージシステム1における故障発生率を低下させることもできる。
UDシーケンス送出部113がUDシーケンス信号をホスト2に送出状態にすることで、ホストパスをビジー状態にする。これにより、例えば、ホストI/F処理に専用のプロトコルチップを備えない装置においても実現することができ、汎用性が高い。
また、ホストパスのビジー状態を、UDシーケンス信号の送出状態を解除することで解消させることができる。又、ホストパスのビジー状態の解消をオペレータ等が介在することなく実現することができる。すなわち、処理を単純化することができ利便性が高く、又、処理時間を短縮することができる。
FPGA103において発生したソフトエラーの解消を短時間で実現することができ、システムの運用効率を向上させることができる。
また、FPGA103のソフトエラーを、活性でFPGA103のリコンフィギュレーションを行なうことにより復旧することが可能となり利便性が高い。
さらに、FPGA103のリコンフィグレーションを行なう際に、CA10−CM20間のDMA転送を停止させたり、又、CM20に対して、FPGAリコンフィグレーション開始通知やFPGAリコンフィグレーション完了通知を送信する。これにより、ホストI/Fアクセス処理を担当するCA10と、ディスクアクセス処理を担当するCM20とが分かれていても、活性でFPGAリコンフィギュレーション処理により復旧することが可能となる。
そして、開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
例えば、上述した実施形態においては、CA10において、PLD102(UDシーケンス送出部113)は、UDシーケンス信号を送出状態に設定することにより、ホストパスをビジー状態にしているが、これに限定されるものではない。CA10からホスト2に対してUDシーケンス信号を送出する手法に代えて、他の手法を用いてホストパスをビジー状態にしてもよく、適宜変更して実施することができる。
また、上述した実施形態においては、ストレージ制御装置200のCA10に備えられたFPGA103のソフトエラーを解消するためのFPGAリコンフィグレーションについて示している。しかしながら、これに限定されるものではなく、種々の情報処理装置に備えられたFPGAのリコンフィグレーションに適用してもよい。
また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
通信装置により上位装置に接続され、記憶装置に対するデータアクセスを制御するストレージ制御装置であって、
プログラマブル論理回路が備える設定情報用メモリのソフトエラーを検出する検出部と、
前記通信装置と前記上位装置との通信パスの状態を変移させる通信制御部と、
前記プログラマブル論理回路の前記設定情報用メモリの修復処理を行なう修復処理部と、
を備え、
前記検出部がソフトエラーを検出すると、前記通信制御部は、前記通信装置と前記上位装置との通信パスの状態をビジー状態に変移させることを特徴とする、ストレージ制御装置。
(付記2)
前記通信制御部が、前記通信装置から前記上位装置に対して通信制御信号の送信を開始することにより、前記通信装置と前記上位装置との通信パスの状態をビジー状態に変移させることを特徴とする、付記1記載のストレージ制御装置。
(付記3)
前記検出部がソフトエラーを検出すると、前記上位装置と通信する前記通信装置を管理する制御装置に対して前記通信装置を監視対象から除外する処理を行なう第1処理部と、
前記修復処理部による前記設定情報用メモリの修復処理の完了後に、前記制御装置に対して前記通信装置を監視対象にさせる処理を行なう第2処理部と
を備えることを特徴とする、付記1又は2記載のストレージ制御装置。
(付記4)
通信装置により上位装置に接続され、記憶装置に対するデータアクセスを制御するストレージ制御装置であって、
プログラマブル論理回路が備える設定情報用メモリのソフトエラーを検出する検出部と、
前記通信装置を管理する管理装置に対して前記通信装置を監視対象から除外する処理を行なう処理部と、
前記プログラマブル論理回路の前記設定情報用メモリの修復処理を行なう修復処理部とを備え、
前記検出部がソフトエラーを検出すると、前記処理部は、前記管理装置に対して前記通信装置を監視対象から除外する処理を行なうことを特徴とする、ストレージ制御装置。
(付記5)
前記検出部が前記ソフトエラーを検出すると、前記処理部は、前記制御装置に対して第1通知信号を送信することにより、前記通信装置を前記制御装置において監視対象から除外し、
前記修復処理部が前記修復処理が完了すると、前記処理部は、前記通信装置から前記制御装置に対して第2通知信号を送信することにより、前記通信装置を前記制御装置において監視対象に設定することを特徴とする、付記4記載のストレージ制御装置。
(付記6)
前記検出部が前記ソフトエラーを検出すると、前記制御装置に対してデータ転送処理を停止させる転送抑止部を備えることを特徴とする、付記3〜5のいずれか1項に記載のストレージ制御装置。
(付記7)
プログラマブル論理回路が備える設定情報用メモリのソフトエラーを検出する処理と、
前記ソフトエラーを検出すると、通信装置と上位装置との通信パスの状態をビジー状態に変移させる処理と、
前記プログラマブル論理回路の前記設定情報用メモリの修復処理を行なう処理と
を備えることを特徴とする、プログラマブル論理回路の復旧処理方法。
(付記8)
前記通信装置から前記上位装置に対して通信制御信号の送信を開始することにより、前記通信装置と前記上位装置との通信パスの状態をビジー状態に変移させることを特徴とする、付記7記載のプログラマブル論理回路の復旧方法。
(付記9) 前記ソフトエラーを検出すると、前記上位装置と通信する前記通信装置を管理する制御装置において、前記通信装置を監視対象から除外する処理と、
前記修復処理が完了すると、前記制御装置において前記通信装置を監視対象とする処理と
を備えることを特徴とする、付記7又は8記載のプログラマブル論理回路の復旧処理方法。
(付記10)
プログラマブル論理回路が備える設定情報用メモリのソフトエラーを検出する処理と、
上位装置と通信する通信装置を管理する制御装置において、前記通信装置を監視対象から除外する処理と、
前記プログラマブル論理回路の前記設定情報用メモリの修復処理を行なう処理と、
を備え、
前記ソフトエラーを検出すると、前記制御装置において前記通信装置を監視対象から除外する処理を行なう
ことを特徴とする、プログラマブル論理回路の復旧処理方法。
(付記11)
前記ソフトエラーを検出すると、前記通信装置から前記制御装置に対して第1通知信号を送信する処理と、
前記第1通知信号に基づき、前記制御装置において前記通信装置を監視対象から除外する処理と、
前記修復処理が完了すると、前記通信装置から前記制御装置に対して第2通知信号を送信する処理と、
前記第2通知信号に基づき、前記制御装置において前記通信装置を監視対象に設定する処理と
を備えることを特徴とする、付記10記載のプログラマブル論理回路の復旧処理方法。
(付記12)
前記ソフトエラーを検出すると、前記制御装置に対してデータ転送処理を停止させる処理を備えることを特徴とする、付記9〜11のいずれか1項に記載のプログラマブル論理回路の復旧処理方法。
(付記13)
プログラマブル論理回路が備える設定情報用メモリのソフトエラーを検知し、
前記ソフトエラーを検知すると、通信装置と上位装置との通信パスの状態をビジー状態に変移させ、
前記プログラマブル論理回路の前記設定情報用メモリの修復処理を行なう、
処理をコンピュータに実行させることを特徴とする制御プログラム。
(付記14)
前記通信装置から前記上位装置に対して通信制御信号の送信を開始することにより、前記通信装置と前記上位装置との通信パスの状態をビジー状態に変移させることを特徴とする、付記13記載の制御プログラム。
(付記15)
前記ソフトエラーを検知すると、前記上位装置と通信する前記通信装置を管理する制御装置において、前記通信装置を監視対象から除外させ、
前記設定情報用メモリの修復処理の完了後に、前記制御装置において前記通信装置を監視対象にさせることを特徴とする、付記13又は14記載の制御プログラム。
(付記16)
プログラマブル論理回路が備える設定情報用メモリのソフトエラーを検知し、
前記ソフトエラーを検知すると、上位装置と通信する通信装置を管理する制御装置において、前記通信装置を監視対象から除外し、
前記プログラマブル論理回路の前記設定情報用メモリの修復処理を行なう、
処理をコンピュータに実行させることを特徴とする、制御プログラム。
(付記17)
前記ソフトエラーを検知すると、前記制御装置に対して第1通知信号を送信することにより、前記通信装置を前記制御装置において監視対象から除外させ、
前記修復処理が完了すると、前記通信装置から前記制御装置に対して第2通知信号を送信することにより、前記通信装置を制御装置において監視対象に設定させる
ことを特徴とする、付記16記載の制御プログラム。
(付記18)
前記ソフトエラーを検知すると、前記制御装置に対してデータ転送処理を停止させる
ことを特徴とする、付記15〜17のいずれか1項に記載の制御プログラム。
(付記19)
プログラマブル論理回路が備える設定情報用メモリのソフトエラーを検知し、
前記ソフトエラーを検知すると、通信装置と上位装置との通信パスの状態をビジー状態に変移させ、
前記プログラマブル論理回路の前記設定情報用メモリの修復処理を行なう、
処理をコンピュータに実行させることを特徴とする制御プログラムを記録したコンピュータ読取可能な記録媒体。
(付記20)
前記通信装置から前記上位装置に対して通信制御信号の送信を開始することにより、前記通信装置と前記上位装置との通信パスの状態をビジー状態に変移させることを特徴とする、付記19記載の制御プログラムを記録したコンピュータ読取可能な記録媒体。
1 ストレージシステム
2 ホスト(上位装置)
10,10a,10b CA(通信装置)
20 CM(制御装置,管理装置)
21,101,201 CPU
22 チャネル
30 HDD
51,52 通信線
102 PLD
103 FPGA(プログラマブル論理回路)
104 PCIeスイッチ
105 光モジュール
111 CCWコマンド処理部
112 CCWコマンド発行部
113 UDシーケンス送出部(第1通信制御部,第2通信制御部)
114 リコンフィグレーション通知部(処理部,第1処理部,第2処理部)
115 検出部
116 コンフィグレーション処理部(修復処理部)
117 制御部(転送抑止部)
200 ストレージ制御装置
211 CA管理部

Claims (10)

  1. 通信装置により上位装置に接続され、記憶装置に対するデータアクセスを制御するストレージ制御装置であって、
    プログラマブル論理回路が備える設定情報用メモリのソフトエラーを検出する検出部と、
    前記通信装置と前記上位装置との通信パスの状態を変移させる通信制御部と、
    前記プログラマブル論理回路の前記設定情報用メモリの修復処理を行なう修復処理部と、
    を備え、
    前記検出部がソフトエラーを検出すると、前記通信制御部は、前記通信装置と前記上位装置との通信パスの状態をビジー状態に変移させ
    ることを特徴とする、ストレージ制御装置。
  2. 前記通信制御部が、前記通信装置から前記上位装置に対して通信制御信号の送信を開始することにより、前記通信装置と前記上位装置との通信パスの状態をビジー状態に変移させることを特徴とする、請求項1記載のストレージ制御装置。
  3. 前記検出部がソフトエラーを検出すると、前記上位装置と通信する前記通信装置を管理する制御装置に対して前記通信装置を監視対象から除外する処理を行なう第1処理部と、
    前記修復処理部による前記設定情報用メモリの修復処理の完了後に、前記制御装置に対して前記通信装置を監視対象にさせる処理を行なう第2処理部と
    を備えることを特徴とする、請求項1又は2記載のストレージ制御装置。
  4. 通信装置により上位装置に接続され、記憶装置に対するデータアクセスを制御するストレージ制御装置であって、
    プログラマブル論理回路が備える設定情報用メモリのソフトエラーを検出する検出部と、
    前記通信装置を管理する管理装置に対して前記通信装置を監視対象から除外する処理を行なう処理部と、
    前記プログラマブル論理回路の前記設定情報用メモリの修復処理を行なう修復処理部と、
    を備え、
    前記検出部がソフトエラーを検出すると、前記処理部は、前記管理装置に対して前記通信装置を監視対象から除外する処理を行なう
    ことを特徴とする、ストレージ制御装置。
  5. 前記検出部が前記ソフトエラーを検出すると、前記処理部は、前記制御装置に対して第1通知信号を送信することにより、前記通信装置を前記制御装置において監視対象から除外し、
    前記修復処理部が前記修復処理が完了すると、前記処理部は、前記通信装置から前記制御装置に対して第2通知信号を送信することにより、前記通信装置を前記制御装置において監視対象に設定することを特徴とする、請求項4記載のストレージ制御装置。
  6. 前記検出部が前記ソフトエラーを検出すると、前記制御装置に対してデータ転送処理を停止させる転送抑止部を備えることを特徴とする、請求項3〜5のいずれか1項に記載のストレージ制御装置。
  7. プログラマブル論理回路が備える設定情報用メモリのソフトエラーを検出する処理と、
    前記ソフトエラーを検出すると、通信装置と上位装置との通信パスの状態をビジー状態に変移させる処理と、
    前記プログラマブル論理回路の前記設定情報用メモリの修復処理を行なう処理と
    を備えることを特徴とする、プログラマブル論理回路の復旧処理方法。
  8. 前記通信装置から前記上位装置に対して通信制御信号の送信を開始することにより、前記通信装置と前記上位装置との通信パスの状態をビジー状態に変移させることを特徴とする、請求項7記載のプログラマブル論理回路の復旧方法。
  9. プログラマブル論理回路が備える設定情報用メモリのソフトエラーを検知し、
    前記ソフトエラーを検知すると、通信装置と上位装置との通信パスの状態をビジー状態に変移させ、
    前記プログラマブル論理回路の前記設定情報用メモリの修復処理を行なう、
    処理をコンピュータに実行させることを特徴とする制御プログラム。
  10. 前記通信装置から前記上位装置に対して通信制御信号の送信を開始することにより、前記通信装置と前記上位装置との通信パスの状態をビジー状態に変移させることを特徴とする、請求項9記載の制御プログラム。
JP2012215904A 2012-09-28 2012-09-28 ストレージ制御装置,プログラマブル論理回路の復旧処理方法及び制御プログラム Active JP6011210B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012215904A JP6011210B2 (ja) 2012-09-28 2012-09-28 ストレージ制御装置,プログラマブル論理回路の復旧処理方法及び制御プログラム
US13/942,761 US9342407B2 (en) 2012-09-28 2013-07-16 Storage control apparatus and computer-readable recording medium recorded with control program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012215904A JP6011210B2 (ja) 2012-09-28 2012-09-28 ストレージ制御装置,プログラマブル論理回路の復旧処理方法及び制御プログラム

Publications (2)

Publication Number Publication Date
JP2014071576A true JP2014071576A (ja) 2014-04-21
JP6011210B2 JP6011210B2 (ja) 2016-10-19

Family

ID=50386443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012215904A Active JP6011210B2 (ja) 2012-09-28 2012-09-28 ストレージ制御装置,プログラマブル論理回路の復旧処理方法及び制御プログラム

Country Status (2)

Country Link
US (1) US9342407B2 (ja)
JP (1) JP6011210B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015194179A (ja) * 2014-03-31 2015-11-05 マツダ株式会社 変速機のブレーキ装置
JP2015194177A (ja) * 2014-03-31 2015-11-05 マツダ株式会社 変速機のブレーキ装置
KR20160011087A (ko) * 2014-07-21 2016-01-29 한국전자통신연구원 디지털 연산 회로의 기능 복구 장치 및 방법
WO2017002157A1 (ja) * 2015-06-29 2017-01-05 株式会社日立製作所 計算機システム及び計算機システムの制御方法
US9621167B2 (en) 2015-04-21 2017-04-11 Nec Corporation Logic circuit and method for controlling a setting circuit
JP2023114680A (ja) * 2022-02-07 2023-08-18 Necプラットフォームズ株式会社 多重化回路装置及びエラー修復方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10270709B2 (en) 2015-06-26 2019-04-23 Microsoft Technology Licensing, Llc Allocating acceleration component functionality for supporting services
US9645871B2 (en) * 2013-05-24 2017-05-09 Hitachi, Ltd. Soft-error-rate calculating device
US10511478B2 (en) 2015-04-17 2019-12-17 Microsoft Technology Licensing, Llc Changing between different roles at acceleration components
US9792154B2 (en) 2015-04-17 2017-10-17 Microsoft Technology Licensing, Llc Data processing system having a hardware acceleration plane and a software plane
US10198294B2 (en) 2015-04-17 2019-02-05 Microsoft Licensing Technology, LLC Handling tenant requests in a system that uses hardware acceleration components
US10296392B2 (en) 2015-04-17 2019-05-21 Microsoft Technology Licensing, Llc Implementing a multi-component service using plural hardware acceleration components
US9983938B2 (en) * 2015-04-17 2018-05-29 Microsoft Technology Licensing, Llc Locally restoring functionality at acceleration components
JP6745586B2 (ja) * 2015-04-28 2020-08-26 株式会社ソニー・インタラクティブエンタテインメント プログラマブルデバイス、情報処理装置、およびプログラマブルデバイスにおける処理回路の制御方法
JP6489954B2 (ja) * 2015-06-19 2019-03-27 ルネサスエレクトロニクス株式会社 半導体装置及びその制御方法
US10216555B2 (en) 2015-06-26 2019-02-26 Microsoft Technology Licensing, Llc Partially reconfiguring acceleration components
CN106843435A (zh) * 2016-12-21 2017-06-13 深圳市紫光同创电子有限公司 一种用于可编程逻辑器件的芯片复位电路及方法
US20220321403A1 (en) * 2021-04-02 2022-10-06 Nokia Solutions And Networks Oy Programmable network segmentation for multi-tenant fpgas in cloud infrastructures

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05134966A (ja) * 1991-11-13 1993-06-01 Fujitsu Ltd フアイル制御装置のパツチ処理方法
JPH11237957A (ja) * 1998-02-23 1999-08-31 Fujitsu Ltd 磁気ディスク制御装置およびそのファームウェア活性交換方法
US6629166B1 (en) * 2000-06-29 2003-09-30 Intel Corporation Methods and systems for efficient connection of I/O devices to a channel-based switched fabric
US20070050689A1 (en) * 2005-08-23 2007-03-01 Takahiro Sasakura Storage system comprising logical circuit configured in accordance with information in memory on PLD

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6104211A (en) * 1998-09-11 2000-08-15 Xilinx, Inc. System for preventing radiation failures in programmable logic devices
US7596744B1 (en) * 2006-02-24 2009-09-29 Lattice Semiconductor Corporation Auto recovery from volatile soft error upsets (SEUs)
JP5014899B2 (ja) * 2007-07-02 2012-08-29 ルネサスエレクトロニクス株式会社 再構成可能デバイス
JP2009065547A (ja) * 2007-09-07 2009-03-26 Hitachi Ltd 半導体集積回路装置及びその半導体集積回路装置を備えるストレージ装置
US8117497B1 (en) * 2008-11-17 2012-02-14 Xilinx, Inc. Method and apparatus for error upset detection and correction
JP2010152508A (ja) 2008-12-24 2010-07-08 Fujitsu Ltd 制御装置、ディスクアレイ装置および制御方法
JP5499950B2 (ja) 2010-06-30 2014-05-21 富士通株式会社 制御装置、情報処理装置、制御プログラム、及び制御方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05134966A (ja) * 1991-11-13 1993-06-01 Fujitsu Ltd フアイル制御装置のパツチ処理方法
JPH11237957A (ja) * 1998-02-23 1999-08-31 Fujitsu Ltd 磁気ディスク制御装置およびそのファームウェア活性交換方法
US6240470B1 (en) * 1998-02-23 2001-05-29 Fujitsu Limited Magnetic disk control unit, and firmware active-interchange method therefor
US6629166B1 (en) * 2000-06-29 2003-09-30 Intel Corporation Methods and systems for efficient connection of I/O devices to a channel-based switched fabric
US20070050689A1 (en) * 2005-08-23 2007-03-01 Takahiro Sasakura Storage system comprising logical circuit configured in accordance with information in memory on PLD
JP2007058419A (ja) * 2005-08-23 2007-03-08 Hitachi Ltd Pld上のメモリ内の情報に従って構築される論理回路を備えたストレージシステム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015194179A (ja) * 2014-03-31 2015-11-05 マツダ株式会社 変速機のブレーキ装置
JP2015194177A (ja) * 2014-03-31 2015-11-05 マツダ株式会社 変速機のブレーキ装置
US10385931B2 (en) 2014-03-31 2019-08-20 Mazda Motor Corporation Transmission brake device
KR20160011087A (ko) * 2014-07-21 2016-01-29 한국전자통신연구원 디지털 연산 회로의 기능 복구 장치 및 방법
KR102175403B1 (ko) 2014-07-21 2020-11-06 한국전자통신연구원 디지털 연산 회로의 기능 복구 장치 및 방법
US9621167B2 (en) 2015-04-21 2017-04-11 Nec Corporation Logic circuit and method for controlling a setting circuit
WO2017002157A1 (ja) * 2015-06-29 2017-01-05 株式会社日立製作所 計算機システム及び計算機システムの制御方法
JPWO2017002157A1 (ja) * 2015-06-29 2018-03-29 株式会社日立製作所 計算機システム及び計算機システムの制御方法
JP2023114680A (ja) * 2022-02-07 2023-08-18 Necプラットフォームズ株式会社 多重化回路装置及びエラー修復方法

Also Published As

Publication number Publication date
US20140095928A1 (en) 2014-04-03
US9342407B2 (en) 2016-05-17
JP6011210B2 (ja) 2016-10-19

Similar Documents

Publication Publication Date Title
JP6011210B2 (ja) ストレージ制御装置,プログラマブル論理回路の復旧処理方法及び制御プログラム
US10027532B2 (en) Storage control apparatus and storage control method
JP5511960B2 (ja) 情報処理装置、及びデータの転送方法
JP5147824B2 (ja) Raidストレージ・システム、これを動作させる方法及びプログラム
JP6379905B2 (ja) 制御装置および制御方法
US8583863B2 (en) Storage system
JP6455302B2 (ja) バス通信システム
JP6307847B2 (ja) 情報処理装置,制御装置及び制御プログラム
JP2006338626A (ja) ディスクアレイ装置及びその制御方法
US9501372B2 (en) Cluster system including closing a bus using an uncorrectable fault upon a fault detection in an active server
US9507664B2 (en) Storage system including a plurality of storage units, a management device, and an information processing apparatus, and method for controlling the storage system
JP5982909B2 (ja) 制御装置、ストレージ装置、ストレージ装置の試験方法及びストレージ装置の試験プログラム
US20160239371A1 (en) System and method for peripheral bus device failure management
US8099634B2 (en) Autonomic component service state management for a multiple function component
JP2015114873A (ja) 情報処理装置および監視方法
US9940211B2 (en) Resource system management
JP2015162000A (ja) 情報処理装置,制御装置及びログ情報収集方法
US20150046601A1 (en) Network system, maintenance work management method, processing apparatus, and non-transitory computer-readable recording medium recording program
US8352661B1 (en) Data storage systems having seamless software upgrades
JP6582523B2 (ja) ストレージ装置、制御装置、制御プログラム
US9838285B2 (en) Connection monitoring device and connection monitoring method
EP2851801B1 (en) Computer system, control method for computer system and coupling module
US10977107B2 (en) Apparatus and method to control a storage device
US11074144B2 (en) Active firmware replacement in storage system and in storage controller, and computer-readable recording medium having stored therein program for active firmware replacement in controlling storage
US10762026B2 (en) Information processing apparatus and control method for suppressing obstacle

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150604

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160905

R150 Certificate of patent or registration of utility model

Ref document number: 6011210

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150