JP2000148655A - 情報処理システムの制御方法 - Google Patents

情報処理システムの制御方法

Info

Publication number
JP2000148655A
JP2000148655A JP10323372A JP32337298A JP2000148655A JP 2000148655 A JP2000148655 A JP 2000148655A JP 10323372 A JP10323372 A JP 10323372A JP 32337298 A JP32337298 A JP 32337298A JP 2000148655 A JP2000148655 A JP 2000148655A
Authority
JP
Japan
Prior art keywords
path
paths
error
information transfer
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10323372A
Other languages
English (en)
Inventor
Tomotaka Sano
智隆 佐野
Makoto Asari
誠 浅利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Advanced Digital Inc
Original Assignee
Hitachi Ltd
Hitachi Video and Information System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Video and Information System Inc filed Critical Hitachi Ltd
Priority to JP10323372A priority Critical patent/JP2000148655A/ja
Publication of JP2000148655A publication Critical patent/JP2000148655A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 冗長化または多重化等のために設けられた複
数のパスの障害時のパス閉塞切り替え操作による全パス
閉塞を回避する。 【解決手段】 ディスク制御装置100と記憶装置群1
70との間を複数のパス0〜nからなる入出力パス28
0を介して接続した構成において、エラー検出回路15
0で検出されたパス0〜nの各々のエラー回数(A)を
カウンタ回路140で個別に計数し、メモリ120に設
定された閉塞条件閾値Bと各パスのエラー回数(A)を
比較器130で大小判定し、A>Bの時に当該パスを閉
塞して他パスに切り替えるパス切り替え制御において、
健全なパスの残数減少に応じて、メモリ120に設定さ
れる閉塞条件閾値Bの値を漸増させてパス閉塞条件を緩
和することで、パス0〜nの全閉塞によるシステムダウ
ンを回避する。また累積エラー回数やエラー頻度のより
少ない残パスを優先的に選択し、パス障害を起きにくく
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報処理システム
の制御技術に関し、特に、冗長化あるいは多重化された
複数の情報転送経路を備えたディスクサブシステム等の
情報処理システム等に適用して有効な技術に関する。
【0002】
【従来の技術】情報処理システムでは、情報転送経路
(パス)の冗長化や多重化によって、並列転送によるデ
ータ転送性能の向上や耐故障性能の向上を実現すること
が行われている。
【0003】たとえば、近年の記憶サブシステムでは、
高性能化の要求に呼応して制御装置の大規模化や内部パ
ス幅の拡大、パス数の増大によるデータ転送の高速化が
なされてきた。パス数を増大させた場合にはパス障害の
発生件数も比例して増えるため、パス障害に対処するた
めの有効な制御方式が必要となる。
【0004】このため、従来、たとえば、特開昭61−
104126号公報に開示された「ディスクサブシステ
ムへのエラーリトライ方式」の技術では、ホストコンピ
ュータシステムとディスクサブシステムとの間のパス、
ディスクサブシステムとディスク装置との間のパスにお
いて障害が発生した場合、パス毎にエラー件数をエラー
カウンタでカウントアップし、カウント値が、設定され
た閾値を越えるとパス閉塞を行うとともに、代替パスが
ある場合は閉塞したパスから代替パスへと切り替える制
御方式が提案されていた。
【0005】
【発明が解決しようとする課題】しかしながら、上述の
従来技術のように、パス毎に障害の起きた回数をカウン
トし、ある一定の値をこえたパスに関しては一律にパス
閉塞を行う制御の場合では、断続的なエラー現象による
パス障害の場合でもエラー数の合計がある値を越えた時
点でパス閉塞に至るため、最終的に全パス閉塞に追い込
まれシステムダウンとなるケースが増えることが懸念さ
れる、という技術的課題がある。
【0006】本発明の目的は、多重化または冗長化され
た複数の情報転送経路の全閉塞によるシステムダウンを
確実に回避することが可能な情報処理システムの制御技
術を提供することにある。
【0007】本発明の他の目的は、多重化または冗長化
された複数の情報転送経路が断続的なエラーにて全閉塞
に至ることによるシステムダウンを確実に回避すること
が可能な情報処理システムの制御技術を提供することに
ある。
【0008】本発明の他の目的は、多重化または冗長化
された複数の情報転送経路におけるエラー発生状況に応
じた多様なエラー判定により、複数の情報転送経路が全
閉塞に至ることによるシステムダウンを確実に回避する
ことが可能な情報処理システムの制御技術を提供するこ
とにある。
【0009】本発明の他の目的は、多重化または冗長化
された複数の情報転送経路の障害時の切り替え操作を最
適化して、切り替え後の情報転送経路の信頼性を向上さ
せることが可能な情報処理システムの制御技術を提供す
ることにある。
【0010】
【課題を解決するための手段】本発明では、多重化また
は冗長化された複数の情報転送経路を備えた情報処理シ
ステムの制御において、個々の情報転送経路の閉塞を決
定するための閉塞条件を、残りの健全な情報転送経路の
数の大小に応じて変化させるようにしたものである。
【0011】また、残りの健全な情報転送経路の数の減
少に応じて閉塞条件を緩和することで全ての情報転送経
路が閉塞に至ることを回避する時、閉塞条件の緩和に応
じて、障害検出の検出基準をより厳格化したり、エラー
訂正能力を強化するものである。
【0012】より具体的には、情報処理システムの一例
として記憶サブシステムに適用するとき、パス障害に対
する制御システムにおいて、1つ以上のホストコンピュ
ータシステムとディスクサブシステムとの間のパスと、
ディスクサブシステムと1つ以上のディスク装置との間
のパスの状態を集中管理しているマイクロプロセッサ
が、各パスの閉塞条件としてのエラー閾値を設定し、エ
ラー件数がエラー閾値を越えたパスは閉塞状態となり、
マイクロプロセッサに閉塞状態が報告される。マイクロ
プロセッサは報告されたパス閉塞情報を元に新たなエラ
ー閾値を設定し、残りのパス数が少ない場合にはエラー
閾値を上げて閉塞条件を緩和する制御を行う。あるい
は、使用中における単位時間当たりのエラー発生回数を
監視してパス閉塞条件とする。この結果、断続的な障害
等による全パス閉塞に起因するシステムダウン等を回避
する制御が可能となる。
【0013】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照しながら詳細に説明する。
【0014】図1は本発明の一実施の形態である情報処
理システムの制御方法が実施されるディスクサブシステ
ムの構成の一例を示す概念図である。
【0015】本実施の形態のディスクサブシステムは、
マイクロプロセッサ部110、メモリ120、エラー検
出回路150、カウンタ回路140、比較器130、タ
イマ190、セレクタ回路160等を含むディスク制御
装置100と、このディスク制御装置100の配下の記
憶装置群170から構成されている。ディスク制御装置
100と配下の記憶装置群170の間は冗長化された複
数のパス0〜nからなる入出力パス280を介して接続
されている。
【0016】マイクロプロセッサ部110はパス情報保
持部112と、中央処理装置180と記憶装置群170
との間で、上位側のアクセスパス220(アクセスパス
2)、下位側のアクセスパス210(アクセスパス
1)、セレクタ回路160、冗長化された入出力パス2
80、等を経由してデータ転送を行うためのデータ転送
制御部111および制御に必要な演算回路113を含ん
でいる。
【0017】なお、図1の構成例では、簡単のため、デ
ィスク制御装置100と配下の記憶装置群170との間
の入出力パス280を冗長化(多重化)した場合を例示
しているが、ディスク制御装置100の内部のアクセス
パス210(アクセスパス1)や、中央処理装置180
とディスク制御装置100との間を接続するアクセスパ
ス220(アクセスパス2)を冗長化(多重化)しても
よいことはいうまでもない。
【0018】パス情報保持部112には、たとえば図6
に例示されるように、1つ以上の複数のパスの各々に関
する個別情報として、パスID112aと、各パスにつ
いて閉塞中か否かを示す情報としての閉塞フラグ112
b(フラグ値:0=使用可能、1=閉塞中)と、パス選
択時に検出されたエラーの累積数を示す数値情報として
のエラー累積値112cと、パス選択中に検出されたエ
ラー数を単位時間毎に計数した数値情報としてのエラー
頻度112dと、個々のパスが選択された回数を示す数
値情報としての累積選択回数112eが、各パス毎に格
納されている。このパス情報保持部112に格納された
情報は、インタフェース270を介してデータ転送制御
部111に読出され、後述のようなパスの選択操作での
優先順位の決定等に用いられる。
【0019】メモリ120はマイクロプロセッサ部11
0により書き替え可能なメモリであり、マイクロプロセ
ッサ部110から設定される、パス閉塞時の閉塞条件で
ある数値情報を保持し、この数値情報をメモリ出力24
0(以下、閉塞条件閾値B)として出力する機能を持
つ。
【0020】エラー検出回路150はマイクロプロセッ
サ部110によって設定された検出基準設定200に応
じた多様な厳格度にてエラー訂正やエラー検出を行い、
記憶装置群170に繋がるn+1本の入出力パス280
(パス0〜n)上において障害発生した場合にはエラー
検出パルス290を出力する機能を持つ。
【0021】すなわち、エラー検出回路150は、当該
エラー検出回路150の内部に備えられた所望のエラー
訂正機能で回復可能なエラーの場合には、当該エラーを
検出してもエラー検出パルス290の出力を抑止した
り、内部でのエラー訂正の可否に関係なくエラー検出毎
にエラー検出パルス290を出力する、等のようにエラ
ー検出の厳格度を、検出基準設定200による指示に応
じて多様に設定することが可能となっている。
【0022】カウンタ回路140は各パス専用のカウン
タ回路140−0〜140−nを持ち、エラー検出回路
150より出力されるエラー検出パルス290を選択的
に計数するカウンタ回路であり、そのカウンタ回路出力
230はパス選択信号300にて選択されているパスに
対応したカウンタ回路の値(230a〜230
c,....)を、カウンタ出力Aとして、比較器13
0に出力する。またカウンタ回路出力230(エラー発
生回数A)はマイクロプロセッサ部110にも与えら
れ、そのまま、パス情報保持部112にエラー累積値1
12cとして記憶されたり、あるいは演算回路113に
て任意のタイミングにおける単位時間内のエラー発生頻
度を計算するために用いられ、計算結果がパス情報保持
部112にエラー頻度112dとして記憶される。
【0023】比較器130はメモリ出力240(閉塞条
件閾値B)と、カウンタ回路140のカウンタ回路出力
230(各パス毎のエラー発生回数A)とを比較する比
較器である。
【0024】タイマ190はある時間間隔で割り込み信
号等のパルス信号をマイクロプロセッサ部110に出力
する回路である。
【0025】セレクタ回路160は、マイクロプロセッ
サ部110の指示にて、中央処理装置180と記憶装置
群170との間のデータ転送を行う一つのパスを複数の
入出力パス280(パス0〜n)の中から選択する回路
であり、後述のように、マイクロプロセッサ部110の
パス情報保持部112より得られる各種のパス情報か
ら、特定の条件のパスを優先して選択する機能を持つ。
【0026】図2は、パス上にエラーが発生したときの
本実施の形態の制御方法の動作例を示すタイミングチャ
ートであり、図7および図9は、この動作例を示すフロ
ーチャートである。
【0027】マイクロプロセッサ部110の中のデータ
転送制御部111より出力するパス選択信号300によ
りセレクタ回路160はパス0からパスnの中から1本
のパスを選択してアクセスパス1とを接続し、マイクロ
プロセッサ部110と記憶装置群170と間のデータの
送受信を開始する(ステップ501、ステップ502、
ステップ503)。
【0028】この送受信において入出力パス280が電
気的な外乱の影響を受けたり、接続状態に不良が生じた
りした場合、正しいデータの転送が行われず、エラー検
出回路150においてデータの誤りを検出する。エラー
検出方法としては、たとえばデータ情報コードに冗長コ
ードを付加して検査するパリティチェック、CRC、L
RC、ECC等を用いることができる。
【0029】パス上でデータにエラーが発生すると図2
に示すエラー検出パルス290が時刻t0、t1、t2
・・・・・に出力され、現在選択されているパスが0だ
ったとするとカウンタ回路140(パス0用)に選択的
にエラー検出パルス290が入力され、それに伴ってカ
ウンタ回路(パス0用)の出力230aは(N−3)、
(N−2)、(N−1)・・・・のようにカウントアッ
プ動作を行う。メモリ出力240(閉塞条件閾値B)
は、最初、システムが起動した直後にマイクロプロセッ
サ部110からインタフェース260を用いて書き込ま
れた設定値Nが用いられ、比較器130に閉塞条件閾値
Bとして入力される。時刻t4で発生したエラー検出パ
ルス290によりカウンタ回路(パス0用)の出力23
0aはNから(N+1)に変化し、それと同時に比較器
出力250はメモリ出力240よりカウンタ回路(パス
0用)の出力230a(エラー発生回数A)の方が大き
くなったことを検出して0から1に変化する(ステップ
504)。
【0030】マイクロプロセッサ部110は比較器出力
250が1になったことでパス0を閉塞し、パス情報保
持部112のパスID112aが0のエントリの閉塞フ
ラグ112bに登録(閉塞フラグを1に)する(ステッ
プ505)。パス閉塞数は0個から1個になる。
【0031】一度閉塞したパスはパステストを行い、テ
ストがクリアされれば閉塞が解除されるが、他のパスが
使用可能であれば閉塞したままである。なお、このパス
テストに合格して閉塞が解除されたパスが発生し残パス
数が増えた場合には、閉塞条件閾値Bを元の厳格さに戻
す方向に変化させることもできる。またそれに対応した
エラー検出条件を緩和する方向に変化させることもでき
る。
【0032】続いてパスの選択がパス0からパス1に選
択し直され、時刻t5、t6でエラー検出パルス290
が発生し、カウンタ回路140(パス1用)に選択的に
入力されカウンタ回路(パス1用)の出力230bは
(N−1)、N、(N+1)のようにカウントアップ動
作し時刻t6において比較器130はメモリ出力240
(閉塞条件閾値B)よりカウンタ回路(パス1用)の出
力230b(エラー発生回数A)の方が大きくなったこ
とを検出して0から1に変化する。
【0033】パス0が選択されていたときと同様にマイ
クロプロセッサ部110は比較器出力250が1になっ
たことでパス1を閉塞し、パス情報保持部112のパス
ID112aが1のエントリの閉塞フラグ112bに登
録(閉塞フラグを1に)する。パス閉塞数は1個から2
個になる。
【0034】その後、使用可能なパスを選択し直してデ
ータの転送を続行し選択されたパス上で(N+1)個以
上のエラーが起こりエラー検出パルス290がパスに対
応するカウンタ回路140に入力されたらマイクロプロ
セッサ部110は当該パスを閉塞していきパスの閉塞数
がM個になったときマイクロプロセッサ部110は使用
可能なパス残り数が減ってきたことを検知すると(ステ
ップ701、ステップ702)、時刻t8でマイクロプ
ロセッサ部110はインタフェース260を介してメモ
リ120の値(閉塞条件閾値B)をNから(N+m)に
内容を書き換える(ステップ703)。mの値は使用可
能なパスの数に応じて変化させてもよく、使用可能なパ
スの数が減少していく過程で数段階のステップでメモリ
120の内容を更新していく方法をとってもよい。
【0035】時刻t9ではパスがLに選択されておりエ
ラー検出パルス290は選択的にカウンタ回路(パスL
用)に入力されカウンタ回路(パスL用)出力230c
は時刻t10においてNから(N+1)に変化するが、
メモリ出力240(閉塞条件閾値B)は時刻t8に(N
+m)に変更(緩和)されているから比較器出力250
は0のまま変化せずカウンタ回路(パスL用)は以降、
時刻t13までカウントアップ動作をした後の時刻t1
4に出力するエラー検出パルス290によりカウンタ回
路(パスL用)の出力230cは(N+m)から(N+
m+1)に変化し、メモリ出力240の値である(N+
m)よりも大きくなるので比較器出力250は0から1
に変化し、マイクロプロセッサ部110は比較器出力2
50が1になったことでパスLを閉塞し、パス情報保持
部112のパスID112aがLのエントリの閉塞フラ
グ112bに登録(閉塞フラグを1に)する。パス閉塞
数はM個から(M+1)個になる。
【0036】このように閉塞パスが増加していく過程で
マイクロプロセッサ部110は使用可能なパス残り数を
監視し、メモリ120(閉塞条件閾値B)の値をパス閉
塞が起こりづらい方向に緩和していく(ステップ70
0:図9の処理)。これにより、全てのパスを一律な判
定条件で閉塞する場合のように入出力パス280(パス
0〜n)の全てが一定の割合のエラー発生によって閉塞
してしまうことによるシステムダウンを回避することが
できる。
【0037】一定の割合で発生するエラーによってマイ
クロプロセッサ部110がパスを閉塞していきメモリ1
20の値を段階的に増大させると、増大後にデータ転送
するため選択されたパスは閉塞しづらくなると同時にパ
ス閉塞させるまでにパス上に発生するエラーの許容数を
増大させてしまう可能性がある。全パス閉塞を回避する
ことはできたとしても、その結果、データの品質を劣化
させてしまうことは決して好ましくはない。
【0038】次に図3のタイミングチャートおよび図9
のフローチャートを参照してエラー検出回路150にお
けるデータの検出基準をより厳格にして、パスの信頼性
の低下およびデータの品質劣化を防ぐ方法の一例につい
て説明する。
【0039】エラー検出パルス290aはマイクロプロ
セッサ部110からの検出基準設定200がゆるい設定
になっているときの出力状況を示したものであり、エラ
ー検出パルス290bはマイクロプロセッサ部110か
らの検出基準設定200が厳しい設定になっているとき
の出力状況を示したものである。同一の品質のデータが
転送された場合両者のエラー検出数を同一時間で見ると
時刻t0から時刻t4までの時間にエラー検出パルス2
90aは5回の出力パルスがあり、一方、時刻t5から
時刻t13までの時間にエラー検出パルス290bは9
回の出力パルスがあり、パス閉塞条件の緩和に応じてエ
ラー検出回路150の検出基準をより厳格化した設定に
なっている方が多くのエラーを検出する。
【0040】すなわち、本実施の形態の場合には、図9
のステップ703でパス閉塞条件を緩和した後、さらに
残パス数が所定の閾値yよりも小さくなった段階で(ス
テップ704)、エラー検出回路150でのエラー検出
条件をより厳格化する(ステップ705)。この厳格化
は、検出基準設定200を介した指示により、たとえ
ば、以前(図3の時刻t4以前)は、エラー検出回路1
50が内部のエラー訂正能力にて回復可能なエラーが発
生した場合は、エラー発生とみなさずにエラー検出パル
ス290の出力する動作を抑止していたものを、厳格化
後(図3の時刻t5以降)には、エラーとみなしてエラ
ー検出パルス290をカウンタ回路140に出力する動
作を行わせることで可能である。
【0041】メモリ出力aにはNなる値が設定されてい
たとすると時刻t4でカウンタ回路出力aはNから(N
+1)に変化することで比較器出力aは0から1に変化
しデータ転送に選択されていたパスは閉塞される。メモ
リ出力aが(N+4)だったとすると時刻t4で比較器
出力aは0から1に変化せず時刻t4よりさらに後の時
刻において選択されていたパスは閉塞することになる。
メモリ出力bには(N+4)なる値が設定されていたと
すると時刻t13でカウンタ回路出力bは(N+4)か
ら(N+5)に変化することで比較器出力bは0から1
に変化しデータ転送に選択されていたパスは閉塞され
る。
【0042】このように、エラー検出回路150におけ
るエラーの検出基準を、ステップ703の比較器130
における閉塞判定条件の緩和後に、ステップ705で厳
しくすることで、メモリ120の設定値を増大させて閉
塞条件閾値Bを緩和したことによりマイクロプロセッサ
部110がパスを閉塞するに至るまでの時間が極端に延
びてパスの信頼性が低下してしまうことを防ぐことが可
能になる。
【0043】一方、パス上に発生するエラーの起こり方
にはパスの接続状態が不良になりこの状態が回復するこ
となく連続してエラーが検出され続ける定常的なエラー
と、一時的にパスの接続状態は不良になるがすぐにもと
の良好な状態に復帰したり、あるいは一時的にパスが電
気的な外乱を受けたりしたような場合にエラーの発生頻
度が時間的に変動する断続的なエラーとがある。あるパ
スが選択されてデータ転送をおこなっているときに連続
してエラーが検出され続ける定常的なエラーが起こった
場合、当該パスは明らかに不良であるから閉塞すること
が必要であるが、エラーの発生頻度が時間的に変動する
断続的なエラーの場合にはエラーがたまたま集中的に発
生しているときのエラー数を計数して当該パスを閉塞す
ることは必ずしも正しくない。
【0044】図4のタイミングチャートおよび図8、図
9のフローチャートを参照して、パス上に起こったエラ
ーが定常的なエラーなのか断続的なエラーなのかを区別
してパス閉塞条件に反映する方法の一例について説明す
る。
【0045】タイマ190はt0、t1、t2の一定の
時間間隔でタイマパルスを出力し、マイクロプロセッサ
部110に入力しその間選択パスは固定していることと
する(ステップ601、ステップ602、ステップ60
3)。現在選択されているパス上で発生したエラーの個
数を計数する当該パスに対応したカウンタ回路出力23
0を時刻t0に出力するタイマパルスによってマイクロ
プロセッサ部110に格納した値aがN(図8のOC)
だったとし時刻t1に出力するタイマパルスによってマ
イクロプロセッサ部110に格納した値がb(N+m
0)(図8のCC)であった場合(ステップ604、ス
テップ605、ステップ609)、マイクロプロセッサ
部110の演算回路では格納した値aと格納した値がb
の差の絶対値(図8のΔC)を計算してエラー頻度m0
なる値を獲得する(ステップ606)。
【0046】マイクロプロセッサ部110の演算回路1
13では予めマイクロプラグラム上に判定用の閾値Yが
準備されていて前記動作で得られたm0(ΔC)と判定
用の閾値Yとを比較判定し(ステップ607)、マイク
ロプロセッサ判定に示すようにm0>Yであればパスの
閉塞を行う(ステップ608)。ただしY≧m0であれ
ばパス閉塞せず、現在のエラーカウント(CC)を次の
判定に備えてOCに格納する(ステップ609)。
【0047】前記動作で得られたm0(ΔC)は時刻t
0から時刻t1の時間内に発生したエラーの個数を表わ
すが、パス上に起こったエラーが断続的なエラーであれ
ばエラーが一時的に密に起きているときとそうでないと
きが繰り返すので、図8のような処理にて単位時間に発
生したエラー数を計算すればエラー発生頻度が得られ、
その頻度は小さい値を示すことになる。
【0048】同様にして時刻t2に出力するタイマパル
スによってマイクロプロセッサ部110に格納した値c
が(N+m1)(図8のCC)だったとするとマイクロ
プロセッサ部110の演算回路113では、前回格納し
た値b(図8のOC)と今回の値c(図8のCC)の差
の絶対値を計算して(m1−m0)なる値(ΔC)を獲
得する。ここでマイクロプロセッサ部110の演算回路
113では前記動作で得られた(m1−m0)(すなわ
ちΔC)と判定用の値Yとを比較判定し、m1−m0>
Yであればマイクロプロセッサ判定に示すようにパスの
閉塞を行う。
【0049】また、このエラー頻度によるパス閉塞判定
の場合にも、必要に応じて、図8のステップ700(図
9の)のような処理にて、残パス数の減少に応じてパ
ス閉塞判定条件を緩和する、操作を行うこともできる。
【0050】エラー頻度に基づくパス閉塞方法として
は、上述の説明で述べたように1回の比較判定で閉塞さ
せる方法(図8のステップ607)に限らず、たとえ
ば、このステップ607の判定結果を蓄積し、2回以上
比較判定が真になったら閉塞させる方法、あるいは2回
以上連続で比較判定が真になったら閉塞させる方法、そ
の中でもある回数のタイマパルスに渡って低いエラー発
生頻度が続いたら、過去の比較判定が真になった回数を
リセットして再カウントする方法、等の多様な判定方法
がマイクロプロセッサ部110にて実行されるマイクロ
プラグラムにより実現できる。
【0051】次にマイクロプロセッサ部110の中のパ
ス情報保持部112の内容を利用した最適パス選択の方
法の一例を図5を参照して説明する。
【0052】上述の図6にて説明したように、パス情報
保持部112はデータパスが選択されたときの当該パス
の管理情報を記録する部位であり、情報データの内容と
しては、図2で説明で用いた各パスに対応した各エラー
カウンタの値(エラー累積値112c)、図4で説明で
用いた各パスに対応した各エラー頻度の値(エラー頻度
112d)、さらに、各パスがこれまでに選択された回
数を示す累積選択回数112e等の各種情報が各パス毎
に記録されていて、これらの各情報はパスが新たに選択
されるたびに当該パスに関係する部分の内容が逐次更新
されていく。
【0053】本実施の形態の場合、図5に例示されるよ
うに、セレクタ回路160は内部に最小値判定回路16
0aを持っていてパス情報保持部112の格納内容の各
パスに対応した複数のエラー累積値112cの中から最
小のものを選び、SW制御0、SW制御1、・・・・S
W制御nを用いて、このエラー累積値112cが最小の
値のパスがアクセスパス210と連結されるようSWを
閉じデータ転送を開始する。
【0054】複数のパスの中から、対応したエラー累積
値112cの値が最小のものを選ぶ操作は新たなデータ
転送を開始するとき、それまでの転送で検出したエラー
発生回数のより少ないパスを選択することでパスの中で
通信状態が最も良好なものを選択するという意味を持
ち、そのパスを使用してデータの転送を行った場合エラ
ーの発生が他のパスに比べてもより少なくなり、信頼性
が高まる見込みがあるということを意味する。
【0055】その他に、セレクタ回路160は内部に最
小値判定回路160aで用いる判定条件としてパス情報
保持部112の内容の各パスに対応したエラー頻度11
2dの値を利用する方法が考えられる。最小値判定回路
160aにより各パスのエラー頻度112dの値の中か
ら最小のものを選ぶ操作は、新たなデータ転送を開始す
るとき、それまでの転送で検出したエラー発生頻度のよ
り少ないパスを選択することでパスの中で通信状態が最
も良好なものを選択するという意味を持ち、そのパスを
使用してデータの転送を行った場合にエラーの発生頻度
が他のパスに比べてもより少なくなり、信頼性が高まる
見込みがある見込みがあるということを意味する。
【0056】さらに他の方法として、セレクタ回路16
0は内部に最小値判定回路160aで用いる判定条件と
してパス情報保持部112の内容のうち各パスの累積選
択回数112eを利用することも考えられる。最小値判
定回路160aにより複数の残パスから、累積選択回数
112eの値が最小のものを選ぶ操作は、新たなデータ
転送を開始するとき、それまでの累積選択回数112e
のより少ないパスを選択することで残パスの各々の使用
回数を平均化するという意味を持ち、入出力パス280
を構成するデータラインの物理的な劣化を考慮した場
合、各パスを均等に使用することでパスの寿命がより長
くなるという効果が期待できる。
【0057】以上説明したように、本実施の形態の情報
処理システムの制御方法によれば、ディスクサブシステ
ムを構成するディスク制御装置100から記憶装置群1
70へ繋がる1つ以上のパス、または中央処理装置18
0からディスク制御装置100へ繋がる1つ以上のパス
上において断続的な障害が発生した場合、全てのパスを
全閉塞させないようにするため、閉塞条件であるエラー
閾値の設定を残パス数を考慮して変化させる。この操作
によって、使用可能なパス数が少ない場合にはエラー閾
値を上げてデータ保障を厳しくすることにより容易に全
パス閉塞を起させないパス制御を行うことが可能とな
る。
【0058】またエラー発生頻度を調べることで断続的
な障害と定常的な障害とを切り分けて無制限にパス閉塞
を防ぐことがないようにすることが可能である。
【0059】さらに本実施の形態によると、エラー累積
回数とエラー頻度の情報に基づいてエラー発生のより少
ないパスを優先的に使用するようなパス選択を行うこと
でパス障害が起こる確率が減少してパスの信頼性を向上
させることが可能である。
【0060】以上本発明者によってなされた発明を実施
の形態に基づき具体的に説明したが、本発明は前記実施
の形態に限定されるものではなく、その要旨を逸脱しな
い範囲で種々変更可能であることはいうまでもない。
【0061】たとえば、情報処理システムとしては、上
述の実施の形態で例示されたディスクサブシステムに限
らず、冗長化または多重化された複数の情報転送経路を
備えたシステムに広く適用することが可能である。
【0062】
【発明の効果】本発明の情報処理システムの制御方法に
よれば、多重化または冗長化された複数の情報転送経路
の全閉塞によるシステムダウンを確実に回避することが
できる、という効果が得られる。
【0063】また、多重化または冗長化された複数の情
報転送経路が断続的なエラーにて全閉塞に至ることによ
るシステムダウンを確実に回避することができる、とい
う効果が得られる。
【0064】また、多重化または冗長化された複数の情
報転送経路におけるエラー発生状況に応じた多様なエラ
ー判定により、複数の情報転送経路が全閉塞に至ること
によるシステムダウンを確実に回避することができる、
という効果が得られる。
【0065】また、多重化または冗長化された複数の情
報転送経路の障害時の切り替え操作を最適化して、切り
替え後の情報転送経路の信頼性を向上させることができ
る、という効果が得られる。
【図面の簡単な説明】
【図1】本発明の一実施の形態である情報処理システム
の制御方法が実施されるディスクサブシステムの構成の
一例を示す概念図である。
【図2】本発明の一実施の形態である情報処理システム
の制御方法の動作例を示すタイミングチャートである。
【図3】本発明の一実施の形態である情報処理システム
の制御方法の動作例を示すタイミングチャートである。
【図4】本発明の一実施の形態である情報処理システム
の制御方法の動作例を示すタイミングチャートである。
【図5】本発明の一実施の形態である情報処理システム
の制御方法が実施されるディスクサブシステムの構成の
一部をさらに詳細に例示した概念図である。
【図6】本発明の一実施の形態である情報処理システム
の制御方法が実施されるディスクサブシステムの構成の
一部をさらに詳細に例示した概念図である。
【図7】本発明の一実施の形態である情報処理システム
の制御方法の動作例を示すフローチャートである。
【図8】本発明の一実施の形態である情報処理システム
の制御方法の動作例を示すフローチャートである。
【図9】本発明の一実施の形態である情報処理システム
の制御方法の動作例を示すフローチャートである。
【符号の説明】
100…ディスク制御装置、110…マイクロプロセッ
サ部、111…データ転送制御部、112…パス情報保
持部、112a…パスID、112b…閉塞フラグ、1
12c…エラー累積値、112d…エラー頻度、112
e…累積選択回数、113…演算回路、120…メモ
リ、130…比較器、140…カウンタ回路、150…
エラー検出回路、160…セレクタ回路、160a…最
小値判定回路、170…記憶装置群、180…中央処理
装置、190…タイマ、200…検出基準設定、21
0,220…アクセスパス、230…カウンタ回路出力
(エラー発生回数A)、240…メモリ出力(閉塞条件
閾値B)、250…比較器出力、260,270…イン
タフェース、280…入出力パス(情報転送経路)、2
90…エラー検出パルス、300…パス選択信号。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 浅利 誠 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立画像情報システム内 Fターム(参考) 5B014 EA04 EB04 GD05 GD18 GD23 GD32 GD35 HC13 5B034 AA04 BB15 CC05 DD01

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数の情報転送経路から少なくとも一つ
    を任意に選択し、当該情報転送経路を用いた情報転送を
    行う情報処理システムの制御方法であって、 個々の前記情報転送経路の障害検出を行い障害の程度を
    閉塞条件にて判定することにより前記情報転送経路を閉
    塞するとき、残りの使用可能な前記情報転送経路の数に
    大小に応じて、前記閉塞条件を変化させることを特徴と
    する情報処理システムの制御方法。
  2. 【請求項2】 請求項1記載の情報処理システムの制御
    方法において、 残りの使用可能な前記情報転送経路の数の減少に応じて
    前記閉塞条件を緩和することで全ての前記情報転送経路
    が閉塞に至ることを回避する時、前記閉塞条件の緩和に
    応じて、前記障害検出の検出基準をより厳格化するか、
    またはエラー訂正能力を強化することを特徴とする情報
    処理システムの制御方法。
  3. 【請求項3】 請求項1記載の情報処理システムの制御
    方法において、 前記閉塞条件として、個々の前記情報転送経路毎に計測
    された累積エラー発生回数を判定する閾値を用いる第1
    の方法、 前記閉塞条件として、個々の前記情報転送経路毎に計測
    された単位時間当たりのエラー発生回数を判定する閾値
    を用いる第2の方法、 前記情報転送経路の選択に際して、累積エラー発生回数
    が最小の前記情報転送経路を選択する第3の方法、 前記情報転送経路の選択に際して、過去に選択された回
    数が最小の前記情報転送経路を選択する第4の方法、 のいずれかの方法を用いることを特徴とする情報処理シ
    ステムの制御方法。
JP10323372A 1998-11-13 1998-11-13 情報処理システムの制御方法 Pending JP2000148655A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10323372A JP2000148655A (ja) 1998-11-13 1998-11-13 情報処理システムの制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10323372A JP2000148655A (ja) 1998-11-13 1998-11-13 情報処理システムの制御方法

Publications (1)

Publication Number Publication Date
JP2000148655A true JP2000148655A (ja) 2000-05-30

Family

ID=18154035

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10323372A Pending JP2000148655A (ja) 1998-11-13 1998-11-13 情報処理システムの制御方法

Country Status (1)

Country Link
JP (1) JP2000148655A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007157089A (ja) * 2005-12-09 2007-06-21 Fujitsu Ltd ストレージ仮想化装置およびそれを用いたコンピュータシステム
JP2008269570A (ja) * 2007-01-30 2008-11-06 Hewlett-Packard Development Co Lp コンピュータ構成においてデバイスのクリティカル性を判断する方法及びシステム
JP2009205316A (ja) * 2008-02-27 2009-09-10 Fujitsu Ltd ディスクアレイ装置、ディスクアレイ制御方法及びディスクアレイ制御装置
JP2009294758A (ja) * 2008-06-03 2009-12-17 Hitachi Ltd 仮想計算機システム及びホストバスアダプタ用ドライバプログラム
JP2012037969A (ja) * 2010-08-04 2012-02-23 Fujitsu Ltd ストレージシステム、制御装置および制御方法
JP2014191401A (ja) * 2013-03-26 2014-10-06 Fujitsu Ltd 処理装置、制御プログラム、及び制御法
CN107949831A (zh) * 2015-09-08 2018-04-20 株式会社东芝 多重化处理系统、多重化处理方法以及程序
US11169882B2 (en) 2018-07-06 2021-11-09 Fujitsu Limited Identification of a suspect component causing an error in a path configuration from a processor to IO devices

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4486921B2 (ja) * 2005-12-09 2010-06-23 富士通株式会社 ストレージ仮想化装置およびそれを用いたコンピュータシステム
US7467258B2 (en) 2005-12-09 2008-12-16 Fujitsu Limited Storage virtualizer and computer system using the same
JP2007157089A (ja) * 2005-12-09 2007-06-21 Fujitsu Ltd ストレージ仮想化装置およびそれを用いたコンピュータシステム
JP2008269570A (ja) * 2007-01-30 2008-11-06 Hewlett-Packard Development Co Lp コンピュータ構成においてデバイスのクリティカル性を判断する方法及びシステム
JP4726915B2 (ja) * 2007-01-30 2011-07-20 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. コンピュータ構成においてデバイスのクリティカル性を判断する方法及びシステム
JP4542163B2 (ja) * 2008-02-27 2010-09-08 富士通株式会社 ディスクアレイ装置、ディスクアレイ制御方法及びディスクアレイ制御装置
JP2009205316A (ja) * 2008-02-27 2009-09-10 Fujitsu Ltd ディスクアレイ装置、ディスクアレイ制御方法及びディスクアレイ制御装置
JP2009294758A (ja) * 2008-06-03 2009-12-17 Hitachi Ltd 仮想計算機システム及びホストバスアダプタ用ドライバプログラム
JP2012037969A (ja) * 2010-08-04 2012-02-23 Fujitsu Ltd ストレージシステム、制御装置および制御方法
US8850255B2 (en) 2010-08-04 2014-09-30 Fujitsu Limited Storage system control apparatus and control method for utilizing a relay unit of an abnormal control unit
JP2014191401A (ja) * 2013-03-26 2014-10-06 Fujitsu Ltd 処理装置、制御プログラム、及び制御法
CN107949831A (zh) * 2015-09-08 2018-04-20 株式会社东芝 多重化处理系统、多重化处理方法以及程序
CN107949831B (zh) * 2015-09-08 2021-03-16 株式会社东芝 多重化处理系统、多重化处理方法以及程序
US11169882B2 (en) 2018-07-06 2021-11-09 Fujitsu Limited Identification of a suspect component causing an error in a path configuration from a processor to IO devices

Similar Documents

Publication Publication Date Title
EP2060924B1 (en) Failure predicting circuit and method, and semiconductor integrated circuit
US8862944B2 (en) Isolation of faulty links in a transmission medium
US7124332B2 (en) Failure prediction with two threshold levels
US7007191B2 (en) Method and apparatus for identifying one or more devices having faults in a communication loop
US9009523B2 (en) Method and apparatus for isolating a fault in a controller area network
US20110010482A1 (en) Self-Healing Chip-to-Chip Interface
US20100076728A1 (en) A failure diagnosis system for cooling fans, a failure diagnosis device for cooling fans, a failure diagnosis method for cooling fans, a computer readable medium therefor and a cooling device
US7779306B1 (en) Method for automatically diagnosing hardware faults in a data storage system
US10592332B2 (en) Auto-disabling DRAM error checking on threshold
US9189330B2 (en) Stale data detection in marked channel for scrub
US20140053014A1 (en) Handling intermittent recurring errors in a network
JP2000148655A (ja) 情報処理システムの制御方法
US20230136274A1 (en) Ceph Media Failure and Remediation
CN109726062B (zh) 代理服务器的下线方法和控制服务器
US20130080822A1 (en) Proactively removing channel paths in error from a variable scope of i/o devices
US20130191685A1 (en) Per-rank channel marking in a memory system
US20150258999A1 (en) Method and apparatus for isolating a fault-active controller in a controller area network
US11770328B2 (en) Network including data integrity monitoring
CN115904772A (zh) PCIe链路的错误确定方法、装置、设备及存储介质
CN115454703A (zh) 一种慢盘隔离控制方法及装置、设备、存储介质
US8407527B1 (en) Diagnosing hardware faults in a data storage system
US7765343B2 (en) Method and system for robust elastic FIFO (EFIFO) in a port bypass controller
US6701481B2 (en) Recording apparatus, recording system and error notification method
US7424652B2 (en) Method and apparatus for detection of transmission unit loss and/or replication
EP4250678A1 (en) Cut-through latency and network fault diagnosis with limited error propagation