JP2020038512A - ストレージ装置およびプログラム - Google Patents
ストレージ装置およびプログラム Download PDFInfo
- Publication number
- JP2020038512A JP2020038512A JP2018165580A JP2018165580A JP2020038512A JP 2020038512 A JP2020038512 A JP 2020038512A JP 2018165580 A JP2018165580 A JP 2018165580A JP 2018165580 A JP2018165580 A JP 2018165580A JP 2020038512 A JP2020038512 A JP 2020038512A
- Authority
- JP
- Japan
- Prior art keywords
- storage device
- iom
- relay module
- control unit
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0727—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2002—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
- G06F11/2005—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication controllers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2002—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
- G06F11/2007—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
- G06F11/201—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media between storage system components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3027—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a bus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3485—Performance evaluation by tracing or monitoring for I/O devices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/16—Handling requests for interconnection or transfer for access to memory bus
- G06F13/1668—Details of memory controller
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
ここで、異常が検出された中継モジュールの配下の記憶装置への冗長パスが有る場合、一方のパスに接続される中継モジュールに異常が検出されても、他方のパスに接続される中継モジュールを介して記憶装置へアクセスできる。よって、冗長パスが有る場合は、中継モジュールに異常が検出された際に、該中継モジュールの通信をコントローラから即時に切り離してもよい。
[第1の実施の形態]
第1の実施の形態について図1を用いて説明する。図1はストレージ装置の構成の一例を示す図である。ストレージ装置1は、記憶装置1a、中継モジュール1bおよび制御部1cを含む。
〔ステップS1〕制御部1cは、中継モジュールの異常監視を行い、中継モジュールに発生している異常を検出したとする(以下、異常が検出された中継モジュールを異常中継モジュールと呼ぶ場合がある)。
〔ステップS5a〕制御部1cは、異常中継モジュールとの通信の切り離しを行う際の閾値時間を変更し、閾値時間のタイムカウントを開始する。
〔ステップS3b〕制御部1cは、異常中継モジュール1b1を介した記憶装置1aへのアクセス診断を行う。なお、制御部1cと記憶装置1aの間には、異常中継モジュール1b1のみで接続されており、冗長パスは存在していない。
〔ステップS5b〕制御部1cは、異常中継モジュールとの通信の切り離しを行う際の閾値時間を変更し、閾値時間のタイムカウントを開始する。ステップS5bでは冗長パスが無い場合なので、制御部1cは、閾値時間t2(>t1)を選択してカウントを開始する。
このように、制御部1cは、記憶装置1aへの冗長パスが無い場合の閾値時間t2を、冗長パスが有る場合の閾値時間t1よりも長くして、冗長パスが無い場合のアクセス失敗時における異常中継モジュールとの通信の切り離しを、冗長パスが有る場合のアクセス失敗時における切り離しよりも遅く実行する。
[第2の実施の形態]
次に第2の実施の形態について説明する。まず、システム構成について説明する。図2はストレージシステムの構成の一例を示す図である。ストレージシステム2は、記憶装置を多重化したRAID(Redundant Array of Inexpensive Disks)を有する構成のシステムである。ストレージシステム2は、CE(Controller Enclosure)20およびDE(Disc Enclosure)31、32、33を備える。
DE31は、IOM(Input Output Module)31a、31b、記憶装置(ディスク)31cおよびCPLD(Complex Programmable Logic Device)31dを含む。DE32は、IOM32a、32b、記憶装置32cおよびCPLD32dを含み、DE33は、IOM33a、33b、記憶装置33cおよびCPLD33dを含む。
以降、第2の実施の形態について詳しく説明する。図3はCMのハードウェア構成の一例を示す図である。CM10は、プロセッサ100によって装置全体が制御されている。すなわち、プロセッサ100は、CM10の制御部として機能し、さらにIOCの機能を実現する。
さらにまた、入出力インタフェース102は、周辺機器を接続するための通信インタフェースとしても機能する。例えば、入出力インタフェース102は、レーザ光等を利用して、光ディスクに記録されたデータの読み取りを行う光学ドライブ装置を接続することができる。光ディスクには、Blu−rayDisc(登録商標)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(Rewritable)等がある。
図4はCMの機能ブロックの一例を示す図である。CM10は、インタフェース部11、制御部12および記憶部13を備える。インタフェース部11は、DEや他装置とのインタフェース制御を行う。
IOM異常監視処理部12aは、DE内のIOMの異常監視をI2Cインタフェースにもとづいて監視する。コマンド発行部12bは、IOM異常監視処理部12aによってIOMの異常が検出された場合、異常が検出されたIOM(異常IOM)を介して、異常IOMの配下の記憶装置にアクセス診断をするためのコマンドを発行する。コマンドとしては、例えば、記憶装置からデータを読み出す際のディスク読み出し(Disk Read)コマンドが使用される。
タイマ管理部12dは、タイマ12d1(冗長パス有りで使用)と、タイマ12d2(冗長パス無しで使用)の2つのタイマ機能を有し、タイマの時間設定(閾値時間の設定)およびタイマ駆動等の制御を行う。
IOM運用継続判定処理部12eは、アクセス診断時にアクセスが失敗した場合、冗長パスの有無に応じて異なる閾値時間を用いて、異常IOMとの通信の切り離しを行う。
図5は平均応答時間管理テーブルの一例を示す図である。平均応答時間管理テーブル13aは、項目として、診断箇所(被疑箇所)、平均応答時間、タイムアウト時間および規定時間を有する。
図7、図8はデータパスの冗長数の一例を示す図である。ストレージシステムが冗長化構成をとる場合、ディスクの実装方法によって、データパスは例えば、2重化または4重化のいずれかの冗長数となる。
図9は制御部の全体動作を示すフローチャートである。
〔ステップS11〕制御部12は、I2Cインタフェースを介したIOM異常監視処理を行う。IOMの異常が検出されない場合は、ステップS12へ処理が進み、IOMの異常が検出された場合は、ステップS13へ処理が進む。
図10は平均応答時間の取得動作を示すフローチャートである。
〔ステップS12c〕制御部12は、ディスク読み出しコマンドの平均応答時間を、上述の計算式を用いて算出する。
図11はディスク読み出しコマンド発行処理の動作を示すフローチャートである。
〔ステップS12b−2〕制御部12は、記憶装置に対する通常の読み出しI/O処理を行う。
〔ステップS12b−5〕制御部12は、ディスク読み出しコマンドのキューイングはせずに(実行待ちなし)、ディスク読み出しコマンドを発行する。
〔ステップS13a−2〕制御部12は、被疑対象のIOMに接続されている記憶装置から、ディスク読み出しコマンドによるデータ読み出しが正常に実行できたか否かを判定する。
〔ステップS13a−5〕制御部12は、タイマ12d1がタイムアウトしたか否かを判定する。タイムアウトした場合はステップS13a−6へ処理が進み、タイムアウトしない場合はタイムカウントを続ける。
〔ステップS13b−1〕制御部12は、ディスク読み出しコマンドを発行する。
〔ステップS13b−5〕制御部12は、タイマ12d2がタイムアウトしたか否かを判定する。タイムアウトした場合はステップS13b−6へ処理が進み、タイムアウトしない場合はタイムカウントを続ける。
以上説明したように、本発明によれば、異常が検出されたIOMの配下の記憶装置にアクセス診断を行い、アクセスが失敗した場合、記憶装置への冗長パスの有無に応じて時間長の異なる閾値時間を変更し、変更した閾値時間の経過後にIOMの通信を切り離す。
上記で説明した本発明のストレージ装置1およびCM10の処理機能は、コンピュータによって実現することができる。この場合、ストレージ装置1およびCM10が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
1a 記憶装置
1b、1b2 中継モジュール
1b1 異常中継モジュール
1c 制御部
t1 冗長パスが有る場合の閾値時間
t2 冗長パスが無い場合の閾値時間
Claims (5)
- 記憶装置と、
前記記憶装置へのアクセスを中継する中継モジュールと、
前記中継モジュールの異常監視を行って異常を検出した場合、前記中継モジュールを介した前記記憶装置へのアクセス診断を行い、アクセスの失敗を検出した場合に、前記アクセスの失敗を検出してから前記切り離しを実行するまでの閾値時間を前記記憶装置への冗長パスの有無に応じて変更する制御部と、
を有するストレージ装置。 - 前記制御部は、
前記記憶装置への前記冗長パスが有る場合に第1の閾値時間を選択し、前記冗長パスが無い場合に前記第1の閾値時間よりも長い第2の閾値時間を選択する請求項1記載のストレージ装置。 - 前記制御部は、前記アクセス診断を行う場合、前記記憶装置からデータを読み出すための読み出しコマンドを発行し、前記記憶装置からデータが正常に読み出し可能か否かによりアクセス成否を判定する請求項1記載のストレージ装置。
- 前記制御部は、前記記憶装置へ入出力アクセスする際に用いられる第1のインタフェースよりも高速な、前記中継モジュールに接続されている第2のインタフェースを用いて、前記中継モジュールの異常監視を行う請求項1記載のストレージ装置。
- 記憶装置へのアクセスを中継する中継モジュールの異常監視を行い、
前記中継モジュールの異常監視を行って異常を検出した場合、前記中継モジュールを介した前記記憶装置へのアクセス診断を行い、
アクセスの失敗を検出した場合に、前記アクセスの失敗を検出してから前記切り離しを実行するまでの閾値時間を前記記憶装置への冗長パスの有無に応じて変更する、
処理をコンピュータに実行させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018165580A JP7132499B2 (ja) | 2018-09-05 | 2018-09-05 | ストレージ装置およびプログラム |
US16/551,810 US20200073751A1 (en) | 2018-09-05 | 2019-08-27 | Storage apparatus and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018165580A JP7132499B2 (ja) | 2018-09-05 | 2018-09-05 | ストレージ装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020038512A true JP2020038512A (ja) | 2020-03-12 |
JP7132499B2 JP7132499B2 (ja) | 2022-09-07 |
Family
ID=69641228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018165580A Active JP7132499B2 (ja) | 2018-09-05 | 2018-09-05 | ストレージ装置およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20200073751A1 (ja) |
JP (1) | JP7132499B2 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02307118A (ja) * | 1989-05-22 | 1990-12-20 | Nec Corp | データ記憶装置 |
JP2007280258A (ja) * | 2006-04-11 | 2007-10-25 | Hitachi Ltd | 記憶制御装置 |
WO2014006701A1 (ja) * | 2012-07-04 | 2014-01-09 | 富士通株式会社 | 情報処理装置、アクセス制御プログラム、およびアクセス制御方法 |
JP2014191401A (ja) * | 2013-03-26 | 2014-10-06 | Fujitsu Ltd | 処理装置、制御プログラム、及び制御法 |
JP2016212474A (ja) * | 2015-04-30 | 2016-12-15 | 富士通株式会社 | 制御装置、ストレージシステムおよびプログラム |
JP2018005826A (ja) * | 2016-07-08 | 2018-01-11 | 富士通株式会社 | 制御装置、及びストレージ装置 |
-
2018
- 2018-09-05 JP JP2018165580A patent/JP7132499B2/ja active Active
-
2019
- 2019-08-27 US US16/551,810 patent/US20200073751A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02307118A (ja) * | 1989-05-22 | 1990-12-20 | Nec Corp | データ記憶装置 |
JP2007280258A (ja) * | 2006-04-11 | 2007-10-25 | Hitachi Ltd | 記憶制御装置 |
WO2014006701A1 (ja) * | 2012-07-04 | 2014-01-09 | 富士通株式会社 | 情報処理装置、アクセス制御プログラム、およびアクセス制御方法 |
JP2014191401A (ja) * | 2013-03-26 | 2014-10-06 | Fujitsu Ltd | 処理装置、制御プログラム、及び制御法 |
JP2016212474A (ja) * | 2015-04-30 | 2016-12-15 | 富士通株式会社 | 制御装置、ストレージシステムおよびプログラム |
JP2018005826A (ja) * | 2016-07-08 | 2018-01-11 | 富士通株式会社 | 制御装置、及びストレージ装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7132499B2 (ja) | 2022-09-07 |
US20200073751A1 (en) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6826714B2 (en) | Data gathering device for a rack enclosure | |
US7313717B2 (en) | Error management | |
US7650532B2 (en) | Storage system | |
US8443237B2 (en) | Storage apparatus and method for controlling the same using loopback diagnosis to detect failure | |
US8402189B2 (en) | Information processing apparatus and data transfer method | |
US8392756B2 (en) | Storage apparatus and method of detecting power failure in storage apparatus | |
US8677181B2 (en) | Storage apparatus and method of detecting power failure in storage apparatus | |
US7669084B2 (en) | Method for self-diagnosing remote I/O enclosures with enhanced FRU callouts | |
US7865767B2 (en) | Storage system and method for copying data to plurality of sites | |
US20040221198A1 (en) | Automatic error diagnosis | |
US20070214318A1 (en) | Disk array system and fault-tolerant control method for the same | |
US8667337B2 (en) | Storage apparatus and method of controlling the same | |
US20070016901A1 (en) | Storage system and automatic renewal method of firmware | |
JP2005339216A (ja) | 記憶制御システム | |
US9575855B2 (en) | Storage apparatus and failure location identifying method | |
JP2013073289A (ja) | 多重化システム、データ通信カード、状態異常検出方法、及びプログラム | |
JP2015114873A (ja) | 情報処理装置および監視方法 | |
US20100064164A1 (en) | Autonomic Component Service State Management for a Multiple Function Component | |
US11640377B2 (en) | Event-based generation of context-aware telemetry reports | |
US7290180B2 (en) | Method to use an alternate I/O debug path | |
US10642705B2 (en) | Storage system and storage method | |
JP7132499B2 (ja) | ストレージ装置およびプログラム | |
JP6996602B1 (ja) | Bmc、サーバシステム、装置安定度判定方法及びプログラム | |
CN112015600A (zh) | 日志信息处理系统、日志信息处理方法及装置和交换机 | |
US20080010547A1 (en) | Storage system and method for automatic restoration upon loop anomaly |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210610 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20210614 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20210614 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220808 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7132499 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |