JP6428048B2 - 通信システム,異常制御装置および異常制御方法 - Google Patents
通信システム,異常制御装置および異常制御方法 Download PDFInfo
- Publication number
- JP6428048B2 JP6428048B2 JP2014170263A JP2014170263A JP6428048B2 JP 6428048 B2 JP6428048 B2 JP 6428048B2 JP 2014170263 A JP2014170263 A JP 2014170263A JP 2014170263 A JP2014170263 A JP 2014170263A JP 6428048 B2 JP6428048 B2 JP 6428048B2
- Authority
- JP
- Japan
- Prior art keywords
- communication
- buffer
- abnormality
- value
- communication device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006854 communication Effects 0.000 title claims description 242
- 238000004891 communication Methods 0.000 title claims description 242
- 230000005856 abnormality Effects 0.000 title claims description 235
- 238000000034 method Methods 0.000 title claims description 66
- 239000000872 buffer Substances 0.000 claims description 242
- 230000005540 biological transmission Effects 0.000 claims description 81
- 230000001629 suppression Effects 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 34
- 230000002159 abnormal effect Effects 0.000 description 28
- 238000007726 management method Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 14
- 238000012544 monitoring process Methods 0.000 description 13
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000004044 response Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 102100033041 Carbonic anhydrase 13 Human genes 0.000 description 2
- 101000867860 Homo sapiens Carbonic anhydrase 13 Proteins 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0823—Errors, e.g. transmission errors
- H04L43/0847—Transmission error
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/12—Arrangements for detecting or preventing errors in the information received by using return channel
- H04L1/16—Arrangements for detecting or preventing errors in the information received by using return channel in which the return channel carries supervisory signals, e.g. repetition request signals
- H04L1/18—Automatic repetition systems, e.g. Van Duuren systems
- H04L1/1829—Arrangements specially adapted for the receiver end
- H04L1/1835—Buffer management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0659—Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/149—Network analysis or design for prediction of maintenance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Communication Control (AREA)
- Maintenance And Management Of Digital Transmission (AREA)
- Debugging And Monitoring (AREA)
Description
図11は従来のストレージ装置に備えられるCMの構成を示す図である。
この図11に示す例においては、ストレージ装置に備えられる2つのCM300−1,300−2を示している。
CM300は、CA(Channel Adapter)313,CPU(Central Processing Unit)311およびPCIeスイッチ312を備える。CA313は図示しないホスト装置等と通信可能に接続するインタフェースコントローラである。
例えば、CM300−1のCPU311はポート401Cを備え、このポート401Cを介してPCIeスイッチ312と接続されている。また、CM300−2のCPU311はポート401Fを備え、このポート401Fを介してPCIeスイッチ312と接続されている。
PCIeスイッチ312は、複数のポートを備え、これらのポートにデータの送信元や送信先となる機器が接続される。図11に示す例においては、CM300−1のPCIeスイッチ312にポート401B,401Aの2つのポートが備えられており、ポート401Aには、他のCM300−2のPCIeスイッチ312が接続されている。また、ポート401BにはCPU311が接続されている。
以下、ポートを示す符号としては、複数のポートのうち1つを特定する必要があるときには符号401A〜401Fを用いるが、任意のポートを指すときには符号401を用いる。
さて、PCIe経路上において、1箇所以上のバッファが詰まってしまうと、そこにはそれ以上のデータを格納できなくなるため、通信処理の停滞を引き起こす。
このような場合には、送信回路Tx−Aのバッファがいずれ詰まることとなり、その結果、CM#0のPCIeスイッチ312において、ポート401Bの受信回路Rx−Bからポート401Aの送信回路Tx−Aにデータを送信できなくなる。そして、PCIe通信経路においてバッファ詰まりが伝播し、最終的に、CPU311の送信回路Tx−Cのバッファが詰まり、CM#0がハング状態となる。
例えば、図11中に符号P02で示すように、CM#1のPCIeスイッチ312のポート401Dの送信回路Tx−Dが、送信先であるポート401Aの受信回路Rx−Aに対してデータを送信したが、この受信回路Rx−Aがデータを処理できない異常が発生した場合である。
しかし、この場合には、ポート401Aの受信回路Rx−Aとポート401Dの送信回路Tx−Dとの両方が故障個所として考えられ、被疑CMがCM#0であるかCM#1であるか特定できない。
1つの側面では、本発明は、異常発生箇所を容易に特定できるようにすることを目的とする。
本実施形態のストレージ装置1は、図1に示すように、複数(図1に示す例では2つ)のCM(制御装置)10−1,10−2、PCIeバス(通信路)30、および図示しない記憶装置を備える。
以下、CM10−1をCM#0と、CM10−2をCM#1という場合がある。
また、以下、特定のCMを指す場合は、「CM10−1」、「CM#0」、「CM10−2」または「CM#1」と表記するが、任意のCMを指す場合は、「CM10」と表記する。
CM10は種々の制御を行なう制御装置であり、図示しないホスト装置からのストレージアクセス要求(アクセス制御信号)に従って、各種制御を行ない、例えば、記憶装置に対するデータのリード/ライトの制御を行なう。
これらのCPU11、スイッチ12およびCA13は、例えば、PCIeの規格に従ったバス(PCIeバス)を介して接続されている。
CA13は、図示しないホスト装置とCM#0とを通信可能に接続するインタフェースコントローラである。CA13は、ポート100Hを備え、このポート100Hを介してCPU11と通信可能に接続されている。
CPU11は、種々の制御や演算を行なう処理装置であり、図示しないメモリに格納されたOSやプログラムを実行することにより、種々の機能を実現する。CPU11は、当該CPU11が備えられるCM10における各種制御を行なう上位制御装置として機能する。
また、CPU11は、後述する異常制御部(異常制御装置)14から割り込み信号線15を介して割り込み信号(抑制モード通知)が入力されると、CM10内におけるバッファ使用量を低減する抑制モードに移行する制御を行なう。
スイッチ12は、PCIeプロトコルに従ってデータ伝送を中継する中継装置であり、いわゆるPCIeスイッチである。以下、スイッチ12をPCIeスイッチ(PCIeSW)という場合がある。
これらのCPU11、スイッチ12およびCA13が、例えば、バス線を介して接続され、PCIeの規格に従って通信可能に接続されている。
なお、図中、既述の符号と同一の符号は同様の部分を示しているので、その詳細な説明は省略する。
また、CPU11はポート100F,100Iを備え、ポート100Fを介してスイッチ12と、また、ポート100Iを介してCA13と、それぞれ通信可能に接続される。
スイッチ12は、ポート100D,100Eを備え、ポート100Dには、他のCM10(CM#0)のスイッチ12が、また、ポート100EにはCPU11が、それぞれ接続されている。
各ポート100は、それぞれ送信回路Txと受信回路Rxとを備える。なお、ポート100Aに備えられる送信回路Txを符号Tx−Aで表し、ポート100Aに備えられる受信回路Rxを符号Rx−Aで表す。同様に、ポート100B〜100Jに備えられる各送信回路Txをそれぞれ符号Tx−B〜Tx−Jで表し、ポート100B〜100Jに備えられる各受信回路Rxをそれぞれ符号Rx−B〜Rx−Jで表す。
クレジット値に基づくフロー制御においては、受信側のパケットの処理状態に応じてパケットの送信を制御する。この受信側におけるパケットの処理状況を示す情報としてクレジット値が用いられ、送信側では、このクレジット値に応じてデータを送信する。すなわち、クレジット値は、受信バッファにおけるデータ量を管理する情報(フロー制御用情報)として機能する。
ここで、レジスタIngにはIngress クレジット値が格納される。Ingress クレジット値は、各ポート100内の送信回路Txおよび受信回路Rxへ受信されるデータを一時格納するバッファの使用量を管理するバッファ管理情報(クレジット情報)である。
異常制御部14は、CM#0,#1内の各ポート100内部に備えられた各レジスタIng,Egのクレジット値に基づき、ポート100内におけるバッファフル(バッファ枯渇)の発生の予兆を検知し、バッファフルの発生を阻止する。以下、バッファフルの発生の予兆を検知することを、バッファフルの発生を予測するという。
従って、異常制御部14は、PCIeスイッチ12間を接続するPCIeバス30における異常発生箇所を特定する異常制御装置として機能する。
また、異常制御部14は、他CM10の異常制御部14と通信線40を介して通信可能に接続されている。以下、CM#0の異常制御部14とCM#1の異常制御部14との間で行なわれる通信をLSI間通信という場合がある。
すなわち、CM#0に備えられた異常制御部14は、当該CM#0における各クレジット値の収集を行ない、CM#1に備えられた異常制御部14は、当該CM#1における各クレジット値の収集を行なう。
同様に、CM#1に備えられた異常制御部14は、CM#0の異常制御部14に対して、LSI間通信を介してクレジット値の収集指示を送信する。これに応じて、CM#0の異常制御部14は、CM#0における各クレジット値の収集を行ない、CM#1の異常制御部14に対して、LSI間通信を介して、収集したクレジット値を送信する。
ここで、アラーム閾値Taは、後述するバッファフル予測部142がバッファフル発生の予兆を判断する際に用いる閾値である。このアラーム閾値Taは、ユーザが任意に設定してもよく、また、本ストレージシステム1におけるバッファ使用量実績に基づき、システムが決定してもよい。
また、アラーム閾値Taとして、過去のバッファ使用量平均値(Bave)に所定量のマージンを付加(例えば、+10%)した値を用いてもよい。例えば、付加するマージンが+10%である場合には、アラーム閾値Ta=Bave×1.1として求められる。
例えば、アラーム解除閾値Tacとして、各ポート100に備えられたバッファの許容最大量(Bmax)に対する所定割合の値を用いることができる。例えば、この所定割合として50%を用いる場合には、アラーム解除閾値Tac=Bmax×0.5として求められる。
なお、アラーム解除閾値Tacから減算する所定量を、本ストレージシステム1におけるバッファ使用量実績に基づいて決定してもよい。例えば、システムがバッファ使用量実績から推測した割合が5%である場合には、アラーム解除閾値Tac=アラーム閾値Ta×0.95として求められる。
アラーム閾値Taおよびアラーム解除閾値Tacは、例えば、図示しない外部メモリに予め設定値として格納しておき、異常制御部14の起動時に、このメモリから読み出し、閾値記憶部146に格納する。また、これらの閾値は、異常制御部14の起動時にCPU11等の他のデバイスから異常制御部14の閾値記憶部146にライトしてもよい。
バッファ管理情報取得部141は、CM#0,CM#1上に備えられる各デバイスの全てのポート100のレジスタIng,Egのクレジット値を読み出す。
具体的には、CM#0に備えられた異常制御部14において、バッファ管理情報取得部141は、CM#0上に備えられる各デバイスの全てのポート100のレジスタIng,Egのクレジット値を読み出す。また、CM#1に備えられた異常制御部14において、バッファ管理情報取得部141は、CM#1上に備えられる各デバイスの全てのポート100のレジスタIng,Egのクレジット値を読み出す。
また、各異常制御部14において取得されたクレジット値は、LSI間通信を介して他の異常制御部14にも送信される。
バッファフル予測部142は、バッファ管理情報取得部141が取得した各レジスタIng,Egのクレジット値を、予め設定されたアラーム閾値Ta(第1の閾値)と比較し、いずれかのクレジット値がアラーム閾値Taを超えた場合に、バッファフル発生の予兆を検知する。すなわち、バッファフルの発生を予測する。以下、クレジット値がアラーム閾値Taを超えることをアラーム閾値オーバーという場合がある。
具体的には、抑制処理部145は、割り込み信号線15を介して同一CM10内のCPU11に対してアラーム閾値オーバーを示す割り込み信号(抑制モード通知)を入力する。抑制処理部145は、この抑制モード通知ととともに、閾値オーバーが検知されたポート100を特定する情報をCPU11に通知する。
異常判定部143は、上述したバッファフル予測部142により、バッファフルの発生が予測された場合に、当該バッファフルが、過負荷により生じたものであるのか、ハードウェア故障等の何等かの発生した異常によるものであるかを判定する。
異常判定部143は、これらの一定間隔で取得したクレジット値を、それぞれアラーム解除閾値Tacと比較する。
そして、異常判定部143は、これらの一定間隔をおいて取得した複数のクレジット値が全てアラーム解除閾値Tac以下である場合に、バッファの使用量が低下したと判定し、当該ポート100においてバッファフル発生の懸念が解消したと判断する。
また、一定間隔をおいて取得した複数のクレジット値において、1つでもアラーム解除閾値Tacよりも大きい場合(以下、判定NGという場合がある)には、再度、一定間隔でのクレジット値の取得を行ない、アラーム解除閾値Tacとの比較を行なう。抑制モード下での更なる時間の経過により、バッファ使用量が低下することが期待されるからである。
また、上述した各レジスタIng,Egのクレジット値とアラーム解除閾値Tacとの比較の結果が、所定回数(例えば、5回)以上、連続して判定NGであった場合には、タイムアウトであると判断する。すなわち、タイムアウトと判断された状態は、CPU11がバッファ使用量を抑制する抑制モードでの動作を所定時間以上継続して実施しても、バッファの使用量が低下していない状態であると言える。
異常判定部143は、クレジット値の継時的な監視結果に基づいて、バッファフル発生の懸念が解消していないと判断するのである。
CPU11がバッファ使用量を抑制する抑制モードで動作して所定時間経過しても、バッファフル発生の懸念が解消しない場合には、本CM10のいずれかの部位においてハードウェア故障が発生しており、これによりデータ処理が停滞し、バッファの使用量が増大していると判断することができる。
すなわち、異常判定部143は、バッファフル予測部142によりバッファフルの発生が予測されたポート100に対して、所定時間経過後に取得したこのポート100におけるクレジット値をアラーム解除閾値Tacと比較し、クレジット値がアラーム解除閾値Tacよりも大きいことを検知した場合に、このポート100に関連する異常の発生を判定する。
特定部144は、異常判定部143によりハードウェア故障が発生していると判断された場合に、その異常発生箇所を特定する。
図2は実施形態の一例としてのストレージ装置1の特定部144による異常発生箇所の特定方法を説明するための図であり、PCIeバス30を介して接続される2つのポート100の構成を模式的に示す。すなわち、この図2においては、異常予測ポート対の構成を示している。
また、この図2に示す例においては、便宜上、送信回路Tx−A、受信回路Rx−D、送信回路Tx−Dおよび受信回路Rx−Aを、それぞれ回路I、回路II、回路IIIおよび回路IVと表している。
同様に、CM#1において、受信回路Rx−Dに備えられたレジスタIng,Egに格納されている各値をそれぞれ符号c,dで表し、送信回路Tx−Dに備えられたレジスタIng,Egに格納されている各値をそれぞれ符号e,fで表している。
(a)異常経路の特定
特定部144は、バッファフル予測部142によりクレジット値がアラーム閾値Taを超えたことが検知された異常予測ポート100について、当該ポート100に備えられる送信回路Txおよび受信回路Rxの各クレジット値に基づき、異常が発生している通信経路を特定する。
(b)故障発生箇所の特定
また、特定部144は、特定した異常経路に含まれるレジスタIng,Egの各クレジット値に基づき、異常が発生し保守作業対象とすべきCM10、すなわち被疑CM10を特定する。
例えば、図2に示す例において、通信経路30bに異常が生じていると判断した場合に、特定部144は、送信回路Tx−DのレジスタEgのクレジット値fと、受信回路Rx−AのレジスタIngのクレジット値gとを比較する。
すなわち、特定部144は、異常経路を構成する、送信回路TxのレジスタEgのクレジット値と、受信回路RxのレジスタIngのクレジット値との大小関係に基づいて被疑CM10の特定を行なう。
また、f<gの場合には、送信回路Tx−Dが受信回路Rx−Aでのデータ処理が完了した旨の通知を受け取ったが、受信回路Rx−Aにおいて、レジスタIngのクレジットが使用中のままになっていると判断できる。従って、CM#0が被疑CMとなる。
(i)受信回路Rx−Aにおいて、レジスタIngのバッファ(h)がデータを受信できたが、それを処理できないケース
このケースでは、受信回路Rx−Aに異常が発生していると考えられ、CM#0が故障していると考えられる。
このケースでは、送信回路Tx−Dに異常が発生しており、CM#1が故障している場合と、CM10間の通信経路30bに何らかの異常が発生している場合とが考えられる。
このように、f>gの場合には、CM#0,#1および通信経路30bのいずれもが異常発生箇所であると考えられ、被疑CM10の特定はできない。
また、特定部144によって特定された被疑CM10に対しては、切り離し処理やリブート処理が行なわれる。なお、CM10の切り離しやリブートは既知の手法を用いて実現することができ、その説明は省略する。
ステップA1において、異常制御部14は、CM10に備えられたデバイスの各ポート100のレジスタIng,Egのクレジット値を定期的に読み出し、バッファフルの発生の懸念がないかを確認する。すなわち、異常制御部14は、各ポートのレジスタIng,Egのクレジット値を監視する。本処理の詳細は、図4を用いて後述する。
その後、ステップA1においてバッファフル予測部142によりバッファフルの発生が予測されたポート100について、異常判定部143がクレジット値の継時的な監視を行なう(ステップA3)。異常判定部143は、クレジット値を監視することで、バッファフル発生のおそれが解消したか否かを判断する。本処理の詳細は、図6を用いて後述する。
一方、クレジット値の継時的な監視の結果、バッファフル発生の懸念が解消されない場合には(ステップA3の“タイムアウト”ルート参照)、異常判定部143はハードウェア故障が生じていると判断し、ステップA5において、特定部144が、異常発生箇所の特定(切り分け)を行なう。
本ストレージ装置1においては、バッファフル発生が予測された時点、すなわち、バッファフルが実際に発生する前に、ハードウェア故障の発生を判断して、被疑CM10を特定し、その切り離し処理等を行なう。
ステップB1において、PCIeデバイスの全てのポート100に対して、アラーム閾値Taおよびアラーム解除閾値Tacが決定される。これらのアラーム閾値Taおよびアラーム解除閾値Tacは、ユーザが任意に設定してもよく、また、異常制御部14が過去の使用実績に基づいて算出してもよい。
ステップB3において、バッファ管理情報取得部141が、システム内の全PCIeポート100のレジスタIng,Egからクレジット値を定期的に読み出す。なお、このクレジット値の採取間隔は、ユーザによって任意に決定してよい。例えば、伝送路毎にその伝送速度によって間隔を変更してもよく、全ポート100に対して一律共通の間隔を設定してもよい。
この比較の結果、リードしたクレジット値がアラーム閾値Ta以下である場合には(ステップB4の“リード結果≦アラーム閾値”ルート参照)、全てのポート100のバッファに空きが十分にあると判断され、ステップB3に戻る。
ステップB5において、バッファフル予測部142は、リードしたクレジット値がアラーム閾値Taよりも大きいこと(以下、閾値オーバーという場合がある)が検知されたポートを特定する。以下、CM1#1のPCIeスイッチ12のポート100Dにおいてアラーム閾値オーバーが検知された例について示す。
次に、実施形態の一例としてのストレージ装置1における抑制モードへの移行処理を、図5に示すフローチャート(ステップC1〜C3)に従って説明する。
また、抑制処理部145は、他CM(例えばCM#0)の異常制御部14に対して、アラーム閾値オーバーを検知した旨の通知をLSI間通信を介して行なう(ステップC2)。この通知を受けたCM#0の異常制御部14の抑制処理部145は、同一CM#0内のCPU(上位制御装置)11に対して、割り込み信号線15を介して割り込み信号(抑制モード通知)を送信する。
次に、実施形態の一例としてのストレージ装置1における異常判定部143によるクレジット値の継時的な監視処理を、図6に示すフローチャート(ステップD1〜D5)に従って説明する。
ステップD1において、異常判定部143は、バッファフル予測部142によりバッファフルの予兆が検知されたポート100について、当該ポート100に含まれる各レジスタIng,Egのクレジット値の監視を開始する。
ステップD3において、各リード結果をアラーム解除閾値Tacと比較する。この比較の結果、1つでもアラーム解除閾値Tacよりも大きいクレジット値が検出された場合には(ステップD3の“判定NG”ルート参照)、ステップD2に戻り、再度、一定間隔でのクレジットの取得を行なう。
ステップD4において、CM#1の異常制御部14は、当該CM#1における上位制御装置(CPU11)に、バッファ使用量回復を示す割り込み通知を行なう。
なお、異常判定部143によりタイムアウトが判定された後の処理については、図8を用いて後述する。
以下においては、CM#1の異常制御部14からバッファ使用量回復を示す割り込み通知が送信された場合について例示する。
CM#1のCPU11が異常制御部14からバッファ使用量回復を示す割り込み通知を受信すると(ステップE1)、このCPU11は、他CM10(CM#0)のCPU11に抑制モードを解除することを通知する(ステップE2)。この通知は例えばPCIeバス30を介して行なわれる。なお、この抑制モードの解除の通知は、PCIeバス30を介して行なうことに限定されるものではなく、種々変形して実施することができる。例えば、LSI間通信を用いて抑制モードの解除の通知を行なってもよい。
次に、実施形態の一例としてのストレージ装置1における特定部144による異常経路の特定方法を、図2を参照しながら、図8に示すフローチャート(ステップF1〜F8)に従って説明する。
ステップF1において、CM#0,#1の各異常制御部14(特定部144)は、異常判定部143によりタイムアウトが判定された(図6のステップD5参照)異常予測ポート100を含む異常予測ポート対に関して、異常経路の特定を開始する。
ここで、図2に示す例においては、CM#0の異常制御部14のバッファ管理情報取得部141が、ポートAの送信回路Tx−A(回路I)および受信回路Rx−A(回路IV)のレジスタIng,Egのクレジット値(a,b,g,h)をリードする。また、CM#1の異常制御部14のバッファ管理情報取得部141が、ポートDの送信回路Tx−D(回路III)および受信回路Rx−D(回路II)のレジスタIng,Egのクレジット値(c,d,e,f)をリードする。
一方、PCIeバス30の第2方向経路30bに接続された、送信回路Tx−Dもしくは受信回路Rx−AのレジスタIng,Egのクレジット値(e,f,g,h)がアラーム閾値Taを超えている場合には(ステップF3の“「III−IV」側のリード結果がアラーム閾値を超えているとき”ルート参照)、ステップF6に移行する。すなわち、特定部144は、CM#1からCM#0への第2方向経路30bに関して異常個所があると判定する。
また、PCIeバス30の第1方向経路30aに接続された、送信回路Tx−Aもしくは受信回路Rx−DのレジスタIng,Egのクレジット値(a,b,h,g)と、第2方向経路30bに接続された、送信回路Tx−Dもしくは受信回路Rx−AのレジスタIng,Egのクレジット値(e,f,g,h)の両方がアラーム閾値Taを超えている場合には(ステップF3の“「I−II」側と「III−IV」側の両方でアラーム閾値を超えているとき”ルート参照)、ステップF8に移行する。すなわち、異常経路が不明であるとして、段階的な異常経路特定を行なう。なお、この段階的な異常経路特定手法の詳細は、図10を用いて後述する。
なお、以下においては、CM#1からCM#0への第2方向経路30bに関して異常個所が生じた例について示す。また、以下の例においては、CM#0が主として処理を行なうものであり、CM#1が従として処理を行なうものとする。
例えば、CM#1の異常制御部14は、CM#0の異常制御部14に、CM#0に備えられた回路I,IVのクレジット値(a,b,g,h)のリード指示を送信する。
例えば、CM#0の異常制御部14が、CM#1の異常制御部14に、CM#1に備えられた回路II,IIIのクレジット値(c,d,e,f)のリード指示を送信する。
なお、上記例においては、最初にCM#1の異常制御部14からCM#0の異常制御部14にリード指示を送信しているが、先にCM#0の異常制御部14からCM#1の異常制御部14にリード指示を送信してもよく、種々変形して実施することができる。また、いずれのCM10の異常制御部14から他方の異常制御部14にリード指示を送信するかを、ユーザが任意に設定してもよい。
ステップG4において、CM#1の異常制御部14が、CM#0の異常制御部14に、CM#1に備えられた回路II,IIIのクレジット値(c,d,e,f)のリード結果を送信する。すなわち、従として処理を行なう一方のCM10の異常制御部14が、リードしたクレジット値を、主として処理を行なう他方の異常制御部14に送信する。
ステップG6において、主として処理を行なうCM10の異常制御部14の特定部144が、異常経路を構成する送信回路TxのレジスタEgのクレジット値と、受信回路RxのレジスタIngのクレジット値とを比較する。
この比較の結果、回路IIIのクレジット値fが回路IVのクレジット値g以下の場合には(ステップG6の“「III−f」=「IV−g」or「III−f」<「IV−g」のとき”ルート参照)、特定部144はCM#0を被疑CMと判定する(ステップG9)。
一方、回路IIIのクレジット値fが回路IVのクレジット値gよりも大きい場合には(ステップG6の“「III−f」>「IV−g」のとき”ルート参照)、被疑CMを特定することができない(ステップG7)。
なお、上述したステップG6における比較・判定方法には、以下の(a),(b)に示す2種類の手法のうちいずれを用いてもよい。
ステップG3において一定間隔を置いてリードした複数のクレジット値について、ステップG6において行なった複数の比較結果において、同一結果数が最も多い結果を最終的な比較結果として採用する。
例えば、ステップG3においてクレジット値のリードを3回行なった場合に、「III−f」<「IV−g」という結果を2回取得し、「III−f」>「IV−g」という結果を1回取得したとする。このような場合には、取得回数が多い「III−f」<「IV−g」という結果を最終的な比較結果として採用する。
ステップG3において一定間隔を置いてリードした複数のクレジット値について、ステップG6において行なった複数の比較結果において、同一結果が所定回数(例えば3回)以上連続して得られるまで、ステップG3〜G6の処理を繰り返し行なう。
なお、予め設定された規定時間を経過しても、同一結果が連続して得られない(結果が安定しない)場合には、上記(a)時間重視の手法で判定してもよく、また、被疑CMを特定することができない(ステップG7参照)と判定し、ステップG8に移行してもよい。
前述した図8のステップF3の比較結果において、「I−II」側と「III−IV」側の両方でアラーム閾値を超えている場合には、異常経路が不明であるとして、以下に示す段階的な異常経路特定を行なう。
この特定処理の結果、被疑CM10を特定できた場合には(ステップH1の“被疑箇所特定が可能”ルート参照)、ステップH2において、被疑CM10に対する切り離し処理やリブート処理が行なわれる。
この特定処理の結果、被疑CM10を特定できた場合には(ステップH3の“被疑箇所特定が可能”ルート参照)、ステップH4において、被疑CM10に対する切り離し処理やリブート処理が行なわれる。
このように、実施形態の一例としてのストレージ装置1によれば、バッファ管理情報取得部141がCM10内の各ポート100に備えられた各レジスタIng,Egのクレジット値をリードし、これらのクレジット値に基づき、バッファフル予測部142が各バッファのバッファフルの発生を予測する。
これにより、バッファフルの発生を回避することができ、バッファフル(クレジット枯渇)によるマシンダウンの発生を阻止することができる。
またこの際、抑制処理部145が、CPU11に対して割り込み信号線15を介した割り込み通知により抑制モード通知を行なうことで、バッファ使用量抑制モードに迅速に移行させることができる。これにより、バッファ詰まりが実際に発生する前に被疑CM10を切り離すことができ、システムダウンを抑止することができる。
また、特定部144が、バッファフル予測部142によりクレジット値がアラーム閾値Taを超えたことが検知された異常予測ポート100について、当該ポート100に備えられる送信回路Txおよび受信回路Rxの各クレジット値に基づき、異常が発生している通信経路を特定する。これにより、異常発生箇所の特定を容易に行なうことができる。
そして、開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
また、上述した実施形態においては、LSIとして構成した異常制御部14をCM10に搭載しているが、これに限定されるものではなく、種々変形して実施することができる。例えば、異常制御部14としての機能をCPU11等のプロセッサがプログラムを実行することにより実現してもよい。また、異常制御部14としての各機能をCPU11やPCIeスイッチ12等の他の機器に搭載してもよい。
すなわち、CM#0に備えられた異常制御部14がCM#1における各クレジット値の収集を行なってもよく、CM#1に備えられた異常制御部14がCM#0における各クレジット値の収集を行なってもよい。
また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。
以上の実施形態に関し、更に以下の付記を開示する。
送受信されるデータを格納するバッファをそれぞれ有する第1の通信装置と第2の通信装置とを通信路を介して接続される通信システムであって、
前記第1の通信装置および前記第2の通信装置のそれぞれから、前記バッファの使用状況を示すバッファ使用状況情報を取得する取得部と、
取得した前記バッファ使用状況情報に基づいて、前記通信路における異常発生箇所を特定する特定部とを備えることを特徴とする通信システム。
前記取得部が、
前記バッファ使用状況情報として、前記第1の通信装置および前記第2の通信装置の通信ポートに備えられた各記憶部に格納されたクレジット情報を読み出すことを特徴とする、付記1記載の通信システム。
前記通信路が複数の通信経路を備えて構成され、
前記特定部が、
前記第1の通信装置および前記第2の通信装置において、前記通信経路毎に備えられる前記記憶部に格納された前記クレジット情報に基づき、前記複数の通信経路の中から異常発生箇所に相当する通信経路を特定することを特徴とする、付記2記載の通信システム。
前記特定部が、
前記複数の通信経路のうちいずれか1つの通信経路に関する前記クレジット情報が第1閾値より大きい場合に、当該第1閾値よりも大きいクレジット情報を格納する前記記憶部に対応する通信経路を、異常発生箇所に相当する通信経路として特定することを特徴とする、付記3記載の通信システム。
前記特定部が、
前記異常発生箇所に相当する通信経路として特定された前記通信経路について、受信側の前記記憶部に格納された前記クレジット情報が、送信側の前記記憶部に格納された前記クレジット情報以上である場合に、前記第1の通信装置および前記第2の通信装置のうち受信側の前記記憶部を備える通信装置が異常発生箇所であると特定することを特徴とする、付記4記載の通信システム。
前記特定部が、
2つ以上の前記通信経路において前記クレジット情報が前記第1閾値より大きい場合に、
前記2つ以上の通信経路に対して、値が大きいクレジット情報を格納する前記記憶部に対応する通信経路から優先して、受信側の前記記憶部に格納された前記クレジット情報の値が、送信側の前記記憶部に格納された前記クレジット情報の値以上であるか否かを判定し、
受信側の前記記憶部に格納された前記クレジット情報が、送信側の前記記憶部に格納された前記クレジット情報以上である場合に、前記第1の装置および前記第2の装置のうち受信側の前記記憶部を備える通信装置が異常発生箇所であると特定することを特徴とする、付記4または5記載の通信システム。
前記取得部によって取得された前記各クレジット情報に基づき、前記各バッファにおけるバッファフルの発生を予測するバッファフル予測部と、
前記バッファフル予測部が前記バッファフルの発生を予測すると、制御装置をバッファ使用量を抑制する動作モードに移行させる、バッファ使用抑制処理部と
を備えることを特徴とする、付記2〜6のいずれか1項に記載の通信システム。
前記異常判定部が、
前記バッファフル予測部により、前記バッファフルの発生が予測されたポートに含まれる前記クレジット情報を前記第2の閾値と複数回比較し、前記クレジット情報が所定回数連続して前記第2の閾値以下であることを検知した場合に、前記バッファフルの発生のおそれが解消したと判断することを特徴とする、付記8記載の通信システム。
送受信されるデータを格納するバッファをそれぞれ有する第1の通信装置と第2の通信装置とを接続する通信路における異常発生箇所を特定する異常制御装置であって、
前記第1の通信装置および前記第2の通信装置のそれぞれから、送受信される前記データを格納するバッファの使用状況を示すバッファ使用状況情報を取得する取得部と、
取得した前記バッファ使用状況情報に基づいて、前記通信路における異常発生箇所を特定する特定部とを備えることを特徴とする異常制御装置。
前記取得部が、
前記バッファ使用状況情報として、前記第1の通信装置および前記第2の通信装置の通信ポートに備えられた各記憶部に格納されたクレジット情報を読み出すことを特徴とする、付記10記載の異常制御装置。
前記通信路が複数の通信経路を備えて構成され、
前記特定部が、
前記第1の通信装置および前記第2の通信装置において、前記通信経路毎に備えられる前記記憶部に格納された前記クレジット情報に基づき、前記複数の通信経路の中から異常発生箇所に相当する通信経路を特定することを特徴とする、付記11記載の異常制御装置。
前記特定部が、
前記複数の通信経路のうちいずれか1つの通信経路に関する前記クレジット情報が第1閾値より大きい場合に、当該第1閾値よりも大きいクレジット情報を格納する前記記憶部に対応する通信経路を、異常発生箇所に相当する通信経路として特定することを特徴とする、付記12記載の異常制御装置。
前記特定部が、
前記異常発生箇所に相当する通信経路として特定された前記通信経路について、受信側の前記記憶部に格納された前記クレジット情報が、送信側の前記記憶部に格納された前記クレジット情報以上である場合に、前記第1の通信装置および前記第2の通信装置のうち受信側の前記記憶部を備える通信装置が異常発生箇所であると特定することを特徴とする、付記13記載の異常制御装置。
前記特定部が、
2つ以上の前記通信経路において前記クレジット情報が前記第1閾値より大きい場合に、
前記2つ以上の通信経路に対して、値が大きいクレジット情報を格納する前記記憶部に対応する通信経路から優先して、受信側の前記記憶部に格納された前記クレジット情報の値が、送信側の前記記憶部に格納された前記クレジット情報の値以上であるか否かを判定し、
受信側の前記記憶部に格納された前記クレジット情報が、送信側の前記記憶部に格納された前記クレジット情報以上である場合に、前記第1の通信装置および前記第2の通信装置のうち受信側の前記記憶部を備える通信装置が異常発生箇所であると特定することを特徴とする、付記13または14記載の異常制御装置。
前記取得部によって取得された前記各クレジット情報に基づき、前記各バッファにおけるバッファフルの発生を予測するバッファフル予測部と、
前記バッファフル予測部が前記バッファフルの発生を予測すると、制御装置をバッファ使用量を抑制する動作モードに移行させる、バッファ使用抑制処理部と
を備えることを特徴とする、付記11〜15のいずれか1項に記載の異常制御装置。
前記バッファフル予測部により前記バッファフルの発生が予測された前記通信ポートに対して、所定時間経過後に取得した当該通信ポートにおける前記クレジット情報を、所定の第2の閾値と比較し、前記クレジット情報が前記第2の閾値よりも大きいことを検知した場合に、前記通信ポートに関連する異常の発生を判定する異常判定部を備えることを特徴とする、付記16記載の異常制御装置。
前記異常判定部が、
前記バッファフル予測部により、前記バッファフルの発生が予測されたポートに含まれる前記クレジット情報を前記第2の閾値と複数回比較し、前記クレジット情報が所定回数連続して前記第2の閾値以下であることを検知した場合に、前記バッファフルの発生のおそれが解消したと判断することを特徴とする、付記17記載の異常制御装置。
送受信されるデータを格納するバッファをそれぞれ有する第1の通信装置と第2の通信装置とを接続する通信路における異常発生箇所を特定する異常制御方法であって、
前記第1の通信装置および前記第2の通信装置のそれぞれから、前記バッファの使用状況を示すバッファ使用状況情報を取得する処理と、
取得した前記バッファ使用状況情報に基づいて、前記通信路における異常発生箇所を特定する処理を備えることを特徴とする異常制御方法。
前記バッファ使用状況情報として、前記第1の通信装置および前記第2の通信装置の通信ポートに備えられた各記憶部に格納されたクレジット情報を読み出すことを特徴とする、付記19記載の異常制御方法。
10−1,10−2,10 CM
11 CPU
12 スイッチ(第1の通信装置,第2の通信装置)
13 CA
14 異常制御部(異常制御装置)
15 割り込み信号線
30 PCIeバス(通信路)
30a 第1方向経路,通信経路
30b 第2方向経路,通信経路
141 バッファ管理情報取得部
142 バッファフル予測部
143 異常判定部
144 特定部
145 抑制処理部
146 閾値記憶部
100A〜100J,100 ポート
Claims (7)
- 送受信されるデータを格納するバッファをそれぞれ有する第1の通信装置と第2の通信装置とを複数の通信経路を備えて構成された通信路を介して接続される通信システムであって、
前記第1の通信装置および前記第2の通信装置のそれぞれから、前記バッファの使用状況を示すバッファ使用状況情報を取得する取得部と、
取得した前記バッファ使用状況情報に基づいて、前記通信路における異常発生箇所を特定する特定部とを備え、
前記取得部が、
前記バッファ使用状況情報として、前記第1の通信装置および前記第2の通信装置の通信ポートにおいて前記通信経路毎に備えられた各記憶部に格納されたバッファ使用量を読み出し、
前記特定部が、
前記第1の通信装置および前記第2の通信装置において、前記通信経路毎に備えられる前記記憶部に格納された前記バッファ使用量に基づき、
前記複数の通信経路のうちいずれか1つの通信経路に関する前記バッファ使用量の値が第1閾値より大きい場合に、当該第1閾値よりも大きいバッファ使用量の値を格納する前記記憶部に対応する通信経路を、異常発生箇所に相当する通信経路として特定し、
前記異常発生箇所に相当する通信経路として特定された前記通信経路について、受信側の前記記憶部に格納された前記バッファ使用量の値が、送信側の前記記憶部に格納された前記バッファ使用量の値以上である場合に、前記第1の通信装置および前記第2の通信装置のうち受信側の前記記憶部を備える通信装置が異常発生箇所であると特定する
ことを特徴とする通信システム。 - 前記特定部が、
2つ以上の前記通信経路において前記バッファ使用量の値が前記第1閾値より大きい場合に、
前記2つ以上の通信経路に対して、値が大きいバッファ使用量を格納する前記記憶部に対応する通信経路から優先して、受信側の前記記憶部に格納された前記バッファ使用量の値が、送信側の前記記憶部に格納された前記バッファ使用量の値以上であるか否かを判定
し、
受信側の前記記憶部に格納された前記バッファ使用量の値が、送信側の前記記憶部に格納された前記バッファ使用量の値以上である場合に、前記第1の通信装置および前記第2の通信装置のうち受信側の前記記憶部を備える通信装置が異常発生箇所であると特定することを特徴とする、請求項1記載の通信システム。 - 前記取得部によって取得された前記各バッファ使用量に基づき、前記各バッファにおけるバッファフルの発生を予測するバッファフル予測部と、
前記バッファフル予測部が前記バッファフルの発生を予測すると、制御装置をバッファ使用量を抑制する動作モードに移行させる、バッファ使用抑制処理部と
を備えることを特徴とする、請求項1または2に記載の通信システム。 - 前記バッファフル予測部により前記バッファフルの発生が予測された前記通信ポートに対して、所定時間経過後に取得した当該通信ポートにおける前記バッファ使用量を、所定の第2の閾値と比較し、前記バッファ使用量の値が前記第2の閾値よりも大きいことを検知した場合に、前記通信ポートに関連する異常の発生を判定する異常判定部を備えることを特徴とする、請求項3記載の通信システム。
- 前記異常判定部が、
前記バッファフル予測部により、前記バッファフルの発生が予測されたポートに含まれる前記バッファ使用量の値を前記第2の閾値と複数回比較し、前記バッファ使用量の値が所定回数連続して前記第2の閾値以下であることを検知した場合に、前記バッファフルの発生のおそれが解消したと判断することを特徴とする、請求項4記載の通信システム。 - 送受信されるデータを格納するバッファをそれぞれ有する第1の通信装置と第2の通信装置とを接続する複数の通信経路を備えて構成された通信路における異常発生箇所を特定する異常制御装置であって、
前記第1の通信装置および前記第2の通信装置のそれぞれから、送受信される前記データを格納するバッファの使用状況を示すバッファ使用状況情報を取得する取得部と、
取得した前記バッファ使用状況情報に基づいて、前記通信路における異常発生箇所を特定する特定部とを備え、
前記取得部が、
前記バッファ使用状況情報として、前記第1の通信装置および前記第2の通信装置の通信ポートにおいて前記通信経路毎に備えられた各記憶部に格納されたバッファ使用量を読み出し、
前記特定部が、
前記第1の通信装置および前記第2の通信装置において、前記通信経路毎に備えられる前記記憶部に格納された前記バッファ使用量に基づき、
前記複数の通信経路のうちいずれか1つの通信経路に関する前記バッファ使用量の値が第1閾値より大きい場合に、当該第1閾値よりも大きいバッファ使用量の値を格納する前記記憶部に対応する通信経路を、異常発生箇所に相当する通信経路として特定し、
前記異常発生箇所に相当する通信経路として特定された前記通信経路について、受信側の前記記憶部に格納された前記バッファ使用量の値が、送信側の前記記憶部に格納された前記バッファ使用量の値以上である場合に、前記第1の通信装置および前記第2の通信装置のうち受信側の前記記憶部を備える通信装置が異常発生箇所であると特定する
ことを特徴とする異常制御装置。 - 送受信されるデータを格納するバッファをそれぞれ有する第1の通信装置と第2の通信装置とを接続する複数の通信経路を備えて構成された通信路における異常発生箇所を特定する異常制御方法であって、
前記第1の通信装置および前記第2の通信装置のそれぞれから、前記バッファの使用状況を示すバッファ使用状況情報を取得する処理と、
取得した前記バッファ使用状況情報に基づいて、前記通信路における異常発生箇所を特定する処理とを備え、
前記バッファ使用状況情報として、前記第1の通信装置および前記第2の通信装置の通信ポートにおいて前記通信経路毎に備えられた各記憶部に格納されたバッファ使用量を読み出し、
前記第1の通信装置および前記第2の通信装置において、前記通信経路毎に備えられる前記記憶部に格納された前記バッファ使用量に基づき、
前記複数の通信経路のうちいずれか1つの通信経路に関する前記バッファ使用量の値が第1閾値より大きい場合に、当該第1閾値よりも大きいバッファ使用量の値を格納する前記記憶部に対応する通信経路を、異常発生箇所に相当する通信経路として特定し、
前記異常発生箇所に相当する通信経路として特定された前記通信経路について、受信側の前記記憶部に格納された前記バッファ使用量の値が、送信側の前記記憶部に格納された前記バッファ使用量の値以上である場合に、前記第1の通信装置および前記第2の通信装置のうち受信側の前記記憶部を備える通信装置が異常発生箇所であると特定する
ことを特徴とする異常制御方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014170263A JP6428048B2 (ja) | 2014-08-25 | 2014-08-25 | 通信システム,異常制御装置および異常制御方法 |
US14/809,737 US10009245B2 (en) | 2014-08-25 | 2015-07-27 | Communication system, failure control device, and failure control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014170263A JP6428048B2 (ja) | 2014-08-25 | 2014-08-25 | 通信システム,異常制御装置および異常制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016046702A JP2016046702A (ja) | 2016-04-04 |
JP6428048B2 true JP6428048B2 (ja) | 2018-11-28 |
Family
ID=55349251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014170263A Active JP6428048B2 (ja) | 2014-08-25 | 2014-08-25 | 通信システム,異常制御装置および異常制御方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10009245B2 (ja) |
JP (1) | JP6428048B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9699815B2 (en) * | 2015-09-28 | 2017-07-04 | Hirschmann Automation And Control Gmbh | Systems and methods for automatic wireless coupling |
US9866467B1 (en) * | 2016-09-19 | 2018-01-09 | Capital One Services, Llc | Systems and methods for automated determination of network device transiting data attributes |
WO2020145956A1 (en) * | 2019-01-09 | 2020-07-16 | Hewlett-Packard Development Company, L.P. | Data link changes based on requests |
WO2021198784A1 (en) * | 2020-04-03 | 2021-10-07 | Mobileye Vision Technologies Ltd. | A multi-part compare and exchange operation |
US11190588B2 (en) * | 2020-04-28 | 2021-11-30 | International Business Machines Corporation | Host initiated link reset in a storage area network |
US20230078787A1 (en) * | 2021-09-16 | 2023-03-16 | International Business Machines Corporation | Executing a host initiated link reset in a storage area network |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08139737A (ja) * | 1994-11-14 | 1996-05-31 | Nec Corp | 輻輳制御方式 |
JP2964937B2 (ja) | 1996-01-08 | 1999-10-18 | 日本電気株式会社 | 適応クレジット制御型転送方法 |
JP2000183873A (ja) | 1998-12-11 | 2000-06-30 | Fujitsu Ltd | データ転送方法 |
US20050108444A1 (en) * | 2003-11-19 | 2005-05-19 | Flauaus Gary R. | Method of detecting and monitoring fabric congestion |
JP4648082B2 (ja) * | 2005-05-17 | 2011-03-09 | 富士通株式会社 | 装置障害自律診断システム |
JP2008288740A (ja) | 2007-05-16 | 2008-11-27 | Panasonic Corp | データ通信方法 |
JP4294723B2 (ja) * | 2007-08-28 | 2009-07-15 | パナソニック株式会社 | ネットワーク制御装置、方法、及びプログラム |
JP5024027B2 (ja) * | 2007-12-21 | 2012-09-12 | 日本電気株式会社 | 通信品質監視装置、通信品質監視システム、通信品質監視方法及びそのプログラム |
US8196151B1 (en) * | 2008-06-03 | 2012-06-05 | Sprint Communications Company L.P. | Detecting queue problems using messages entering and leaving a queue during a time period |
JP2011217329A (ja) * | 2010-04-02 | 2011-10-27 | Nec Corp | フロー制御システム、及びフロー制御方法 |
JP5669197B2 (ja) * | 2011-02-16 | 2015-02-12 | Kddi株式会社 | ネットワーク障害検出装置、方法およびプログラム |
JP6051617B2 (ja) * | 2012-06-28 | 2016-12-27 | 富士通株式会社 | 制御装置、ストレージ装置、制御方法及び制御プログラム |
JP5962493B2 (ja) * | 2012-12-20 | 2016-08-03 | 富士通株式会社 | プログラム、情報処理装置およびオブジェクト送信方法 |
US9674098B2 (en) * | 2013-07-02 | 2017-06-06 | Intel Corporation | Credit flow control for ethernet |
-
2014
- 2014-08-25 JP JP2014170263A patent/JP6428048B2/ja active Active
-
2015
- 2015-07-27 US US14/809,737 patent/US10009245B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20160057038A1 (en) | 2016-02-25 |
US10009245B2 (en) | 2018-06-26 |
JP2016046702A (ja) | 2016-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6428048B2 (ja) | 通信システム,異常制御装置および異常制御方法 | |
US7536584B2 (en) | Fault-isolating SAS expander | |
EP2052326B1 (en) | Fault-isolating sas expander | |
US7673185B2 (en) | Adaptive SAS PHY configuration | |
US7904744B2 (en) | Data storage using multiple protocols | |
US9626153B2 (en) | Control device and control method | |
US10127095B2 (en) | Seamless automatic recovery of a switch device | |
JP2006195821A (ja) | 情報処理システムの制御方法、情報処理システム、ダイレクトメモリアクセス制御装置、プログラム | |
TW201640243A (zh) | 控制系統、及中繼裝置 | |
EP2677430A1 (en) | Relay device, connection management method, and information communication system | |
US10298520B2 (en) | Relay apparatus | |
US20140298076A1 (en) | Processing apparatus, recording medium storing processing program, and processing method | |
JP2009217475A (ja) | ストレージシステム,ストレージ装置,ストレージシステムの制御方法および制御プログラム | |
CN103793300B (zh) | 一种双机热备系统中快速主备切换装置和主备切换方法 | |
EP1890439B1 (en) | Data processing management apparatus, mode management apparatus and mode management method | |
JP2007067540A (ja) | 二重系系切替装置 | |
US8745448B2 (en) | Storage system, storage control apparatus and method for failure recovery | |
JP2006277646A (ja) | 障害解析システム及び方法並びにプログラム | |
JP2011108006A (ja) | ディスクアレイ装置の故障診断システム、故障診断方法、故障診断プログラムおよびディスク装置 | |
JP2010245589A (ja) | 通信システム、通信装置、被疑箇所の特定方法及びプログラム | |
CN114756489A (zh) | 用于诊断数据的直接存储器访问(dma)引擎 | |
JP2009110218A (ja) | 仮想化スイッチおよびそれを用いたコンピュータシステム | |
CN113961491A (zh) | 数据发送方法、装置、路由设备及计算机可读存储介质 | |
JP4100633B2 (ja) | 制御装置、記憶装置、制御方法、およびプログラム | |
US9246848B2 (en) | Relay apparatus, storage system, and method of controlling relay apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170511 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180320 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180724 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181002 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181015 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6428048 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |