JP5748932B2 - 計算機システム及び非同期リモートレプリケーションの分析を支援する方法 - Google Patents
計算機システム及び非同期リモートレプリケーションの分析を支援する方法 Download PDFInfo
- Publication number
- JP5748932B2 JP5748932B2 JP2015511138A JP2015511138A JP5748932B2 JP 5748932 B2 JP5748932 B2 JP 5748932B2 JP 2015511138 A JP2015511138 A JP 2015511138A JP 2015511138 A JP2015511138 A JP 2015511138A JP 5748932 B2 JP5748932 B2 JP 5748932B2
- Authority
- JP
- Japan
- Prior art keywords
- history information
- delay time
- storage device
- volume
- primary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1873—Versioning file systems, temporal file systems, e.g. file system supporting different historic versions of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2056—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
- G06F11/2071—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring using a plurality of controllers
- G06F11/2074—Asynchronous techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3034—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
- G06F11/3419—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
- G06F11/3433—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/273—Asynchronous replication or reconciliation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/81—Threshold
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/855—Details of asynchronous mirroring using a journal to transfer not-yet-mirrored changes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0653—Monitoring storage devices or systems
Description
本発明は、計算機システム及び非同期リモートレプリケーションの分析を支援する方法に関する。
ITシステムダウンによる業務停止やデータロスは、企業に多大な影響を与える。自然災害などの不測の事態に備えたディザスタリカバリ(DR)は重要である。DRシステムは、正サイトのデータを、遠隔地にある副サイトに非同期に複製する。これを、非同期リモートレプリケーション呼ぶ。
同期リモートレプリケーションは、ホストから正サイトのストレージ装置(正ストレージ装置)へのライトアクセスにおいて、副サイトのストレージ装置(副ストレージ装置)へのデータ複製を完了した後、ホストに書き込み完了を通知する。書き込み完了通知時に、正サイトと副サイトのデータは一致する。
一方、非同期リモートレプリケーションは、正ストレージ装置におけるデータの書き込みが完了すると、副ストレージ装置へのデータの複製の完了を待つことなく、ホストに書き込み完了を通知する。非同期リモートレプリケーションを使用する環境では、正ストレージ装置によるデータの格納と副ストレージ装置へのデータ複製との間で遅延が発生し、副ストレージ装置のデータが正ストレージ装置のデータよりも古いという事象が生じる。
正サイトのシステムがダウンしたときに失われるデータの最大許容時間の指標を、RPO(Recovery Point Objective:目標復旧ポイント)という。また、システムダウンから復旧までに必要となる時間の指標をRTO(Recovery Time Objective:目標復旧タイム)という。
これらの値は企業の存続に係わるため、SLA(Service Level Agreement)として注目される値である。非同期リモートレプリケーションは、SLAにおける上記指標に対する要求を満たすことが必要である。
非同期リモートレプリケーションは、例えば、データの順序保証技術を用いて、適宜、データを非同期に正ストレージ装置から副ストレージ装置に転送する。正ストレージ装置と副ストレージ装置との間のデータ書き込みの遅延時間は、時刻と共に変化するシステムの負荷によって変化する。例えば、特許文献1は、非同期リモートレプリケーションにおける遅延時間の計算方法を開示する。
遅延時間の一例を説明する。ホストは、正ストレージ装置へデータを書き込む。正ストレージ装置は、正ボリュームへホストから受信したデータを書き込む。正ストレージ装置は、ホストからのデータを副ストレージ装置に転送する。データ転送において、正ストレージ装置及び副ストレージ装置は、それぞれ、ジャーナルボリュームと呼ばれるボリュームにデータを一旦格納する。
例えば、正ストレージ装置において8:00に書き込まれたデータが、8:08において副ストレージ装置に書き込まれたとする。この遅延時間は8分である。また、このケースにおいて、8:08において復旧可能なデータは、8:00までに正ストレージ装置に書き込まれたデータである(復旧可能時刻は8:00)。このように、非同期リモートレプリケーションにおいては、正ストレージ装置へのデータ書き込みに対して、副ストレージ装置へのデータ書き込みが遅延する。
非同期リモートレプリケーションシステムにおいて、正サイトで障害が発生したときに、どの時刻のデータまで副ストレージ装置に複製されているかを示す指標である遅延時間を小さくすることが求められる。さらに、遅延時間が長くなったときに、その原因を短時間に容易に調べられることが求められている。
非同期リモートレプリケーションは、正ボリュームのデータを、正ジャーナルボリューム、副ジャーナルボリュームを経て、副ボリュームに複製する。そのため、後段のステップでの書き込み/読み出しに関連する遅延が、前段のステップに波及するという特徴がある。
遅延時間増加の要因を特定するためには、ユーザは、非同期リモートレプリケーションに関連する物理リソースの負荷の履歴情報と、遅延時間の履歴情報を取得して、それらの関連を分析することが必要である。しかし、ユーザが独自に、上記情報を取得及び分析する場合、遅延時間増加の原因を特定するまでに多くの時間を必要とする。従って、ユーザによる非同期リモートレプリケーションにおける遅延時間の分析を適切に支援することができる技術が望まれる。
本発明の一態様は、管理システムと、正ボリューム及び正ジャーナルボリュームを含む正ストレージ装置と、ネットワークを介して前記正ストレージ装置と通信し、副ボリューム及び副ジャーナルボリュームを含む副ストレージ装置と、を含む計算機システムである。前記正ストレージ装置は、前記正ボリュームに格納するデータの複製データを前記正ジャーナルボリュームに書き込み、前記正ジャーナルボリュームからデータを読み出して前記ネットワークに出力する。前記副ストレージ装置は、前記ネットワークから受信したデータを、キャッシュを介して前記副ジャーナルボリュームに書き込み、前記副ジャーナルボリュームから読み出したデータを、キャッシュを介して前記副ボリュームに書き込む。前記管理システムは、前記副ボリュームへデータを書き込む第1のステップと、前記副ジャーナルボリュームへデータを書き込む第2のステップと、前記正ジャーナルボリュームからデータを読み出す第3のステップと、前記ネットワークによりデータを伝送する第4のステップと、から選択された、少なくとも一つのステップの指定と、分析期間の指定と、を受け付ける。前記管理システムは、前記指定された少なくとも一つのステップのそれぞれに対応するリソースの前記分析期間における負荷の履歴情報と、前記分析期間における前記正ストレージ装置と前記副ストレージ装置との間のデータ複製における遅延時間の履歴情報と、を取得する。前記管理システムは、前記指定された少なくとも一つのステップのそれぞれについて、前記分析期間における前記負荷の履歴情報と前記遅延時間の履歴情報とを一つのグラフにおいて表示する。
本発明の一態様によれば、ユーザによる非同期リモートレプリケーションにおける遅延時間の分析を適切に支援することができる。
以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。特に説明がない場合、各図において共通の構成については同一の参照符号が付されている。
本実施形態は、ストレージシステムにおいて実行される非同期リモートレプリケーションのユーザによる分析を支援するシステム及び方法を開示する。本実施形態のシステムは、非同期リモートレプリケーションの遅延時間の履歴情報と、非同期リモートレプリケーションに関連する物理リソースの負荷の履歴情報を収集し、それらの履歴情報を同一の分析グラフにおいて表示する。これにより、ユーザは、遅延時間の変化と関連物理リソースの負荷の変化との間の因果関係を視覚的に把握することができる。
本実施形態のシステムは、非同期リモートレプリケーションを複数のステップに分け、各ステップの分析グラフを用意する。これにより、ユーザは、遅延時間が増加した原因をより容易に特定することができる。システムは、ユーザからの分析グラフを表示するステップの任意選択、及び、分析グラフが表示する履歴の期間の指定を受け付け、少なくとも一つのステップの分析グラフを表示する。これにより、ユーザ環境や運用方法に応じて、ユーザにとって分析しやすい分析グラフを表示することができる。
図1Aは、本実施形態の計算機システムの構成例を示すブロック図である。計算機システムは、非同期リモートレプリケーションシステム及び業務サーバ400を含む。非同期リモートレプリケーションシステムは、クライアント端末100、ストレージ管理サーバ200、負荷情報管理サーバ300、ストレージ装置610、710を含む。これら装置のそれぞれの数は、設計に依存する。クライアント端末100、ストレージ管理サーバ200及び負荷情報管理サーバ300は、管理システムを構成する。一つの計算機により管理システムを構成してもよい。
正ストレージ装置610及び副ストレージ装置710は、それぞれ、正サイト600及び副サイト700に設置されている。ストレージ装置610、710は、正ストレージ装置610から副ストレージ装置710への、非同期リモートレプリケーション機能を有する。副サイト700は、正サイト600から物理的に離れた位置にあり、正ストレージ装置610が被災した場合に、副ストレージ装置710に複製されている(バックアップされている)データが利用される。
説明の便宜上、図1Aの例において、ストレージ装置610の正ボリューム(正データボリュームとも呼ぶ)のデータがストレージ装置710の副ボリューム(副データボリュームとも呼ぶ)に複製される。
しかし、ストレージ装置710の正ボリュームのデータがストレージ装置610の副ボリュームに複製されてもよい。一つのコピーペアの観点から、正ボリュームを格納するストレージ装置が正ストレージ装置であり、副ボリュームを格納するストレージ装置が副ストレージ装置である。正サイト及び副サイトについても同様である。
ストレージ管理サーバ200、負荷情報管理サーバ300、業務サーバ400及びストレージ装置610、710は、データネットワーク502により接続されている。データネットワーク502は、データ通信用ネットワークであって、本構成においては、SAN(Storage Area Network)である。データネットワーク502は、データ通信用のネットワークであればSAN以外のネットワークでもよく、例えばIPネットワークでもよい。
クライアント端末100、ストレージ管理サーバ200、負荷情報管理サーバ300及び業務サーバ400は、管理ネットワーク501で接続されている。管理ネットワーク501は、本構成においては、IPネットワークである。管理ネットワーク501は、管理データ通信用のネットワークであればIPネットワーク以外のネットワークでもよく、例えばSANでもよい。データネットワーク502及び管理ネットワーク501は、同一のネットワークであってもよい。
業務サーバ400は、ユーザの業務を行うサーバであり、プロセッサ(図1AにおいてCPUと表記)401及びメモリ402の他、不図示の不揮発性二次記憶装置並びにストレージインタフェース(I/F)及び管理I/Fを含み、各々が接続されている。プロセッサ401は、メモリ402に格納されたプログラムに従って動作する。二次記憶装置に格納されているプログラム及びデータが、メモリ402にロードされる。ストレージI/Fは、データネットワーク502に接続し、管理I/Fは、管理ネットワーク501に接続する。
業務サーバ400において、ユーザ業務で使用される業務アプリケーションプログラム403が動作している。業務サーバ400は、ネットワーク502を介してストレージ装置610、710にアクセスできる。例えば、業務サーバ400は、通常、正ストレージ装置610のボリュームにアクセス(読み出し及び書き込みの上位概念)し、正ストレージ装置610へのアクセスできない場合に、副ストレージ装置710にアクセスする。
クライアント端末100は、管理者(ユーザ)がストレージシステムを管理するための端末である。クライアント端末100は、プログラムに従って動作するプロセッサ(CPU)101、プログラムを格納するメモリ102、管理用表示デバイス103、入力デバイス106の他、不図示の不揮発性二次記憶装置及び管理ネットワーク501に接続するIFを含む。
管理者は、クライアント端末100のユーザインタフェースを使用して、システムを管理する。管理者は、クライアント端末100を使用して、管理ネットワーク501を介してストレージ管理サーバ200及び他の装置と通信する。
管理用表示デバイス103は、典型的には液晶表示装置であり、入力デバイス106は典型的にはキーボード及びマウスである。管理者は、管理用表示デバイス103において必要な情報を取得し、入力デバイス106により必要な情報を入力できる。管理用表示デバイス103は、例えば、ストレージ管理プログラム203による各種操作を行うための入力受付画像104及び出力画像105を表示する。クライアント端末100は、GUIプログラム、例えば、ブラウザプログラムを使用して、管理者にGUIを提供する。使用するプログラムは、どのようなプログラムでもよい。
負荷情報管理サーバ300は、ストレージ装置610、710を含むストレージシステムにおける様々な物理リソースの負荷情報を収集し、管理するサーバ計算機である。負荷情報管理サーバ300は、プロセッサ(CPU)301、メモリ302の他、不図示の不揮発性二次記憶装置並びにストレージI/F及び管理I/Fを含み、各々が接続されている。プロセッサ301は、メモリ302に格納されたプログラムに従って動作する。二次記憶装置に格納されているプログラム及びデータが、メモリ302にロードされる。
図1Aにおいて、メモリ302は、負荷情報管理プログラム303及び負荷履歴情報データベース(DB)304を格納している。負荷情報管理プログラム303は、SAN502を介して、ストレージ装置610、710からリソースの負荷情報を、逐次、収集する。負荷履歴情報DB304は、負荷情報管理プログラム303により収集したされた負荷履歴情報を格納する。
収集される負荷情報は、例えば、プロセッサの稼動率、業務サーバ400からの書き込み転送率、IOPS、レスポンスタイム、キャッシュの書き込み待ち率、ポート転送率、ボリュームの使用率、キャッシュの使用率などを含む。負荷情報管理プログラム303は、ストレージ管理サーバ200からの要求に応じて、収集した負荷履歴情報を送信する。
ストレージ管理サーバ200は、ストレージ装置610、710を管理するためのサーバ計算機である。ストレージ管理サーバ200は、プロセッサ(CPU)201、メモリ202の他、不図示の不揮発性二次記憶装置並びにストレージI/F及び管理I/Fを含み、各々が接続されている。プロセッサ201は、メモリ202に格納されたプログラムに従って動作する。二次記憶装置に格納されているプログラム及びデータが、メモリ202にロードされる。
図1Aにおいて、メモリ202は、ストレージ管理プログラム203及びDB207を格納している。ストレージ管理プログラム203は、クライアント端末100を使用する管理者からの指示に基づいた各種操作を実行する。ストレージ管理プログラム203は、ストレージ装置610、710を管理及び制御するプログラムである。ストレージ管理プログラム203は、遅延時間分析プログラム204、情報管理プログラム205及びコピーペア管理プログラム206を含む。
コピーペア管理プログラム206は、ストレージシステム(ストレージ装置610、710)におけるコピーペアを制御、管理する。コピーペア管理プログラム206は、クライアント端末100からの要求に従い、ストレージ装置610、710とSAN502を介して通信し、ストレージ装置610、710におけるコピーペアの作成、削除及びそれらの状態変更等の操作を行う。コピーペア管理プログラム206は、コピーペアを管理する管理情報を有する。
コピーペアは、ストレージ装置610における一つのボリューム(正ボリューム)とストレージ装置710における一つボリューム(副ボリューム)からなるペアである。一つの正ボリュームが一つの副ボリュームのみとペアを構成するほか、一つの正ボリュームが、複数の副ボリュームと複数のペアを構成することができる。
コピーペア管理プログラム206は、それ自体が有する情報及びストレージ装置610、710内の制御プログラムから取得したコピーペア構成の情報からGUI画像を生成し、クライアント端末100に送信する。後述する非同期リモートレプリケーションにおける遅延時間は、コピーペア管理プログラム206により計算される。
情報管理プログラム205は、SAN501を介してストレージ装置610、710から、そして、管理ネットワーク501を介して負荷情報管理サーバ300から、本実施形態に係る非同期リモートレプリケーション分析に必要な情報を収集する。情報管理プログラム205は、さらに、コピーペア管理プログラム206からも必要な情報を収集する。情報管理プログラム205は、収集した情報をストレージ管理サーバ200内のDB207に格納する。DB207に格納される情報については後述する。
遅延時間分析プログラム204は、管理者が非同期リモートレプリケーションにおける遅延時間を分析するためのGUI画像を生成し、管理者に提示する。遅延時間分析プログラム204は、非同期リモートレプリケーションの複数のステップそれぞれにおける遅延時間の時間変化とリソース負荷の時間変化との関係を示すグラフを生成し、クライアント端末100を使用して管理者に提示する。これにより、管理者の遅延時間の分析を支援する。
遅延時間分析プログラム204は、さらに、遅延時間分析のためのウィザードGUIを提供する。遅延時間分析プログラム204は、複数のステップそれぞれの遅延時間とリソース負荷の時間変化の関係を示すグラフに対する管理者からの入力を受け付け、管理者の入力情報に応じて、遅延時間を増加させている原因の推定結果及びその対策についての指針を提示する。これにより、管理者による遅延時間分析をより効果的に支援することができる。遅延時間分析プログラム204の動作の詳細は後述する。
ストレージ装置610、710は、1又は複数のリモートパス(ストレージ間ネットワーク)805を介して通信する。特に、非同期レプリケーションのデータは、リモートパス805により伝送される。ストレージ装置610はポート621により、ストレージ装置710はポート721によりリモートパス805に接続する。一つのリモートパス805が、1又は複数のポートペア(1又は複数の通信ライン)を含むことができる。
図1Bは、ネットワークにより接続するストレージ装置610、710を含むストレージシステムの構成例を模式的に示している。正ストレージ装置610は、複数のプロセッサ611、複数のキャッシュ612、複数のメモリ620、不揮発性記憶ドライブ群720の他、不図示の複数IFを含む。各プロセッサ611、各キャッシュ612及び各メモリ620は、論理区分された物理リソースである。
例えば、一つのプロセッサは、1又は複数のプロセッサチップから構成される又は時分割された1又は複数のプロセッサチップの割当てられた部分である。一つのキャッシュは、例えば、1若しくは複数のメモリチップからなる、又は、一つ若しくは複数のメモリチップの一部から構成されることができる。一つのキャッシュの記憶領域は連続したアドレスで管理することができる。論理区分された物理リソースの境界は、チップ境界とは必ずしも一致しない。物理リソースの論理区分は広く知られた技術であり詳細を省略する。
同様に、副ストレージ装置710は、複数のプロセッサ711、複数のキャッシュ712、複数のメモリ720、不揮発性記憶ドライブ群721の他、不図示の複数IFを含む。各プロセッサ711、各キャッシュ712及び各メモリ720は、論理区分された物理リソースである。
ストレージ装置610、710は、制御プログラム613、713に従って動作する。制御プログラム613、713は複数のモジュールを含み、各モジュールは、当該モジュールを実行するプロセッサ611、711に割り当てられているメモリ620、720に格納されている。
図1Bの例において、ストレージ装置610、710は、二つのコピーグループ614、617を含む。コピーグループは、1又は複数のコピーペア及び1又は複数の正、副ジャーナルボリュームを含むグループである。管理者は、コンシステンシを望むコピーペアを同一のコピーグループに含める。
正ストレージ装置610は、コピーグループA614に含まれる、複数の正ボリューム615及び一つの正ジャーナルボリューム616を含む。さらに、正ストレージ装置610は、コピーグループB617に含まれる、複数の正ボリューム618及び一つの正ジャーナルボリューム619を含む。コピーグループに含まれる正ボリュームは一つのみでもよいし、複数の正ジャーナルボリュームが一つのコピーグループに含まれていてもよい。
正ボリューム615、618は論理ボリュームであって、業務サーバ400及び管理サーバ200、300が認識できる論理的な記憶領域である。正ジャーナルボリューム616、619は、それぞれ、正ボリューム615、618への書き込み更新データを一時的に格納する論理的な記憶領域である。
例えば、記憶ドライブ群720における複数の記憶ドライブ(不揮発性記憶媒体を有するデバイス)がRIAD(Redundant Arrays of Independent Disks)グループを構成し、RAIDグループにおける一部の記憶領域が、一つのボリュームに割り当てられる。これは、副ストレージ装置710において同様である。記憶ドライブは、例えば、ハードディスクドライブ又はSSD(Solid State Drive)である。
副ストレージ装置710は、コピーグループA614に含まれる、複数の副ボリューム715及び一つの副ジャーナルボリューム716を含む。さらに、副ストレージ装置710は、コピーグループB617に含まれる、複数の副ボリューム718及び一つの副ジャーナルボリューム719を含む。コピーグループに含まれる副ボリュームは一つのみでもよいし、複数の副ジャーナルボリュームが一つのコピーグループに含まれていてもよい。
副ボリューム715、718は論理ボリュームであって、業務サーバ400及び管理サーバ200、300が認識できる論理的な記憶領域である。副ジャーナルボリューム716、719は、それぞれ、副ボリューム715、718への書き込み更新データを一時的に格納する論理的な記憶領域である。
正ストレージ装置610と副ストレージ装置710とは、ストレージ間ネットワーク(リモートパス)850により通信可能に接続している。正ストレージ装置610と副ストレージ装置710とは、ボリュームの非同期リモートレプリケーションを実行する。非同期リモートレプリケーションは、正ストレージ装置610におけるキャッシュ又は正ボリュームへのデータ書き込み後、副ボリュームへの書き込み完了前に、データ書き込み完了通知を業務サーバ400に通知する。
管理者による分析の対象である、本実施形態の非同期レプリケーションの例を説明する。一例として、正ボリューム615へのデータ書き込みに対応する非同期リモートレプリケーションの例を、図2のフローチャートを参照して説明する。以下の説明において、正、副データボリューム及び正、副ジャーナルボリュームのそれぞれには、プロセッサ及びキャッシュが割り当てられている。
正ストレージ装置610は、業務サーバ400から、正ボリューム615へのライトコマンド及びライトデータを、SAN502を介して受信する。正ストレージ装置610の制御プログラム613は、受信したデータを、正ボリューム615に割り当てられているキャッシュ612に書き込む(S101)。
正ボリューム615に割り当てられているプロセッサ611は、制御プログラム613に従って、キャッシュ612内のデータを正ボリューム615に書き込む(S102)。正ジャーナルボリューム616に割り当てられているプロセッサ611は、キャッシュ612内の同データを正ジャーナルボリューム616に書き込む(S102)。本明細書において、正ジャーナルボリューム616に格納されるエントリを、ジャーナルと呼ぶ。ジャーナルは、ユーザデータ及びアドレス情報に加え、その識別子であるシーケンシャル番号を含む。
副ストレージ装置710の制御プログラム713は、正ストレージ装置610に対して、正ジャーナルボリューム616内のジャーナル(ユーザデータ)を、副ストレージ装置710へ転送するよう要求する(S104)。このステップS104は、他のステップと非同期に実行される。
正ストレージ装置610の制御プログラム613は、副ストレージ装置710からのジャーナル転送コマンドに応答して、正ジャーナルボリューム616のジャーナルを副ストレージ装置710に送信する。具体的には、正ジャーナルボリューム616に割り当てられたプロセッサ611は、正ジャーナルボリューム616からジャーナルを、正ジャーナルボリューム616に割り当てられているキャッシュ612に読み出す(S105)。
さらに、正ジャーナルボリューム616に割り当てられたプロセッサ611又はそれとは異なるプロセッサ611は、キャッシュ612内のジャーナルを、リモートパス805を介して、副ストレージ装置710に送信する(S106)。
副ストレージ装置710の制御プログラム713は、正ストレージ装置610から転送されたジャーナルを、副ジャーナルボリューム716に割り当てられているキャッシュ712に書き込む(S107)。副ジャーナルボリューム716に割り当てられているプロセッサ711又はそれと異なるプロセッサ711が、転送されたジャーナルをキャッシュ712に書き込む。
副ジャーナルボリューム716に割り当てられているプロセッサ711は、キャッシュ712に格納されているジャーナルを、副ジャーナルボリューム716に書き込む(S108)。
副ジャーナルボリューム716に割り当てられているプロセッサ711は、副ジャーナルボリューム716に格納されているジャーナルを、当該ジャーナルを格納すべき副ボリューム715に割り当てられているキャッシュ712に読み出す(S109)。副ジャーナルボリューム716と各副ボリューム715に割り当てられているキャッシュは同一又は異なる。プロセッサ711(制御プログラム713)は、ジャーナルのアドレス情報から、当該ジャーナルのユーザデータを格納する副ボリューム715を特定することができる。
ジャーナルを格納すべき副ボリューム715に割り当てられているプロセッサ711は、キャッシュ712に格納されているジャーナル内のユーザデータを、ジャーナルが指定する副ボリューム715内のアドレスに書き込む(S110)。副ストレージ装置710は、副ボリュームへのユーザデータの書込みが完了すると、副ジャーナルボリューム716内のジャーナルを消去し、さらに、正ストレージ装置610に対して、正ジャーナルボリューム616内のジャーナルの消去及び次のジャーナル転送の要求を行う。
このように、本実施形態のボリュームレプリケーションは、正ストレージ装置610から副ストレージ装置710へのジャーナルの転送による非同期リモートレプリケーションである。非同期リモートレプリケーションは、コピーペアを構成するデータボリューム間で行われる。
非同期リモートレプリケーションは、副ボリュームへの複製順序を、正ボリュームへのデータ書き込み順序(データ更新順序)に一致させる。順序の一致は、コピーグループにおいて維持される。正ストレージ装置610におけるコピーグループの正ボリュームへのデータ書き込み順序が、対応する副ストレージ装置710におけるコピーグループでの副ボリュームへのデータ書き込み順序(複製順序)に一致する。
例えば、正ボリューム615への全てのデータの書き込み順序は、副ボリューム715への全てのデータの書き込み順序と一致する。本実施形態のシステムは、ジャーナルにシーケンシャル番号を付与する。シーケンシャル番号は、コピーグループにおいて一意であり、正ボリュームへの書き込み順序を示す。ストレージ装置610、710及び管理サーバ200、300は、ジャーナルのシーケンシャル番号を参照することで、コピーグループ内でのそのジャーナルを識別し、さらに、その順番を知ることができる。
上述のように、プログラムはプロセッサによって実行されることで、定められた処理を行う。従って、本実施形態においてプログラムを主語とする説明は、プロセッサを主語とした説明でもよい。若しくは、プログラムが実行する処理は、そのプログラムが動作する装置(例えば、ストレージ装置610、710、ストレージ管理サーバ200、負荷情報管理サーバ300又はクライアント端末100)及びシステムが行う処理である。
プロセッサは、プログラムに従って動作することによって、所定の機能を実現する機能部(手段)として動作する。さらに、プロセッサは、各プログラムが実行する複数の処理のそれぞれを実現する機能部(手段)としても動作する。プロセッサを含む装置及びシステムは、これらの機能部(手段)を含む装置及びシステムである。
本実施形態において、システムが使用する情報は、データ構造に依存せずどのようなデータ構造で表現されていてもよい。例えば、テーブル、リスト、データベース又はキューから適切に選択したデータ構造体が、情報を格納することができる。システムが使用する情報は、データ記憶デバイスにおける記憶領域に格納される。さらに、各情報の内容を説明する際に、識別情報、識別子、名、ID、番号等の表現を用いるが、これらについてはお互いに置換が可能である。
以下において、ストレージ管理サーバ200がDB207内に格納している情報を説明する。DB207は、管理者による非同期リモートレプリケーションの分析を支援するために遅延時間分析プログラム204が使用する情報を格納する。以下の説明において、DB207が格納している情報は、図1A及び図1Bのストレージシステム構成とは異なるストレージシステムについての情報である。
ストレージ管理サーバ200の情報管理プログラム205は、DB207に格納する情報を収集し、管理する。具体的には、情報管理プログラム205は、ストレージ装置610、710にアクセスし、それらの制御プログラム613、713が持つ情報を収集し、DB207に格納する。収集された情報は、ジャーナルボリューム情報テーブル160、ボリューム情報テーブル170、ネットワーク情報テーブル180、ポート情報テーブル190、プロセッサ情報テーブル250、キャッシュ情報テーブル260に格納される。これらの詳細は後述する。
情報管理プログラム205は、ストレージ管理サーバ200のコピーペア管理プログラム206から、コピーペア構成情報及びリモートレプリケーションに関する遅延時間の情報を取得し、DB207に格納する。情報は、コピーペア情報テーブル150及び遅延時間履歴情報テーブル370に格納される。これらの詳細は後述する。
負荷情報管理サーバ300の負荷情報管理プログラム303は、ストレージ装置610、710にアクセスし、それらの制御プログラム613、713から、ストレージ装置610、710上のリソースの様々な負荷情報の履歴を収集し、負荷情報管理サーバ300上の負荷履歴情報DB304に格納する。
ストレージ管理サーバ200の情報管理プログラム205は、負荷情報管理サーバ300の負荷情報管理プログラム303を介して、負荷履歴情報DB304から、遅延時間の分析に必要な情報を取得して、DB207に格納する。収集された情報は、ジャーナルボリューム負荷履歴情報テーブル270、ボリューム負荷履歴情報テーブル280、ポート負荷履歴情報テーブル290、プロセッサ負荷履歴情報テーブル350、キャッシュ負荷履歴情報テーブル360に格納される。これらの詳細は後述する。
情報管理プログラム205は、収集した負荷履歴情報における時刻を標準時に変換して、DB207に格納する。これにより、二つのリモートサイトのタイムゾーンが異なる場合にも、非同期リモートレプリケーションの分析に使用される全てのグラフにおいて、共通の時間軸において適切に値を表示することができる。なお、遅延時間分析プログラム204が、DB207から取得した情報において時刻を標準時に変換してもよい。標準時は、予め設定される任意の基準時である。
以下において、上記各テーブルの構成例を説明する。各テーブルにおいて、識別子は本システム内において一意である。図3は、コピーペアの情報を格納する、コピーペア情報テーブル150の構成例を示している。コピーペア情報テーブル150は、コピーペアカラム151、コピーグループカラム152、正ストレージ装置カラム153、副ストレージ装置カラム154、正ジャーナルボリュームカラム155、副ジャーナルボリュームカラム156、正ボリュームカラム157、副ボリュームカラム158を有する。
コピーペアカラム151は、コピーペアの識別子を格納する。コピーグループカラム152は、コピーペアが含まれるコピーグループの識別子を格納する。正ストレージ装置カラム153は、コピーペアの正ボリュームを含む正ストレージ装置の識別子を格納する。副ストレージ装置カラム154は、コピーペアの副ボリュームを含む副ストレージ装置の識別子を格納する。
正ジャーナルボリュームカラム155は、コピーペアにおけるデータ複製において使用される正ジャーナルボリュームの識別子を格納する。正ジャーナルボリュームカラム155は、コピーペアにおけるデータ複製において使用される副ジャーナルボリュームの識別子を格納する。正ボリュームカラム157は、コピーペアの正ボリュームの識別子を格納する。副ボリュームカラム158は、コピーペアの副ボリュームの識別子を格納する。
図4は、ジャーナルボリュームについての情報を格納するジャーナルボリューム情報テーブル160の構成例を示す。ジャーナルボリューム情報テーブル160は、ジャーナルボリュームカラム161、ストレージ装置カラム162、関連プロセッサカラム163、関連キャッシュカラム164を有する。
ジャーナルボリュームカラム161は、ジャーナルの識別子を格納する。ストレージ装置カラム162は、ジャーナルボリュームを含むストレージ装置の識別子を格納する。関連プロセッサカラム163は、ジャーナルボリュームに割り当てられており、ジャーナルボリュームのデータ書き込み及び読み出しを行うプロセッサの識別子を格納する。関連キャッシュカラム164は、ジャーナルボリュームに割り当てられ、ジャーナルボリュームのデータを一時的に格納するキャッシュの識別子を格納する。
図5は、データボリューム(正、副ボリューム)の情報を格納する、ボリューム情報テーブル170の構成例を示す。ボリューム情報テーブル170は、ボリュームカラム171、ストレージ装置カラム172、関連プロセッサカラム173、関連キャッシュカラム174を有する。ボリュームカラム171は、正ボリュームの識別子及び副ボリュームの識別子を格納する。
ストレージ装置カラム172は、ボリュームを含むストレージ装置の識別子を格納する。関連プロセッサカラム173は、ボリュームに割り当てられており、ボリュームのデータ書き込み及び読み出しを行うプロセッサの識別子を格納する。関連キャッシュカラム174は、ボリュームに割り当てられ、ボリュームのデータを一時的に格納するキャッシュの識別子を格納する。
図6は、ストレージ間ネットワークの情報を格納する、ネットワーク情報テーブル180の構成例を示す。ネットワーク情報テーブル180は、リモートパスカラム181、正ストレージ装置カラム182、コピーグループカラム183を有する。
リモートパスカラム181は、リモートパスの識別子を格納する。正ストレージ装置カラムは、リモートパスに接続する正ストレージ装置の識別子を格納する。コピーグループカラム183は、リモートパスを使用するコピーグループの識別子を格納する。本例において、1又は複数のコピーグループが一つのリモートパスを使用し、一つのコピーグループは一つのリモートパスのみを使用する。
図7は、ポート情報テーブル190の構成例を示す。ポート情報テーブル190は、ポートカラム191、ストレージ装置カラム192、関連リモートパスカラム193を有する。ポートカラム191はポートの識別子を格納する。ストレージ装置カラム192は、ポートが実装されているストレージ装置の識別子を格納する。関連リモートパスカラム193は、ポートが割り当てられているリモートパスの識別子を格納する。
図8は、プロセッサ情報テーブル250の構成例を示す。プロセッサ情報テーブル250は、プロセッサカラム251及びストレージ装置カラム252を有する。プロセッサカラム251はプロセッサの識別子を格納し、ストレージ装置カラム252は、プロセッサが実装されているストレージ装置の識別子を格納する。
図9は、キャッシュ情報テーブル260の構成例を示す。キャッシュ情報テーブル260は、キャッシュカラム261及びストレージ装置カラム262を有する。キャッシュカラム261はキャッシュの識別子を格納し、ストレージ装置カラム262は、キャッシュが実装されているストレージ装置の識別子を格納する。
図10は、ジャーナルボリューム負荷履歴情報テーブル270の構成例を示す。ジャーナルボリューム負荷履歴情報テーブル270は、ジャーナルボリュームの負荷の履歴を格納する。ジャーナルボリューム負荷履歴情報テーブル270は、時刻カラム271、ジャーナルボリュームカラム272、使用率カラム273を有する。時刻カラム271は時刻の値を格納する。ジャーナルボリュームカラム272は、正ジャーナルボリュームの識別子及び副ジャーナルボリュームの識別子を格納する。
使用率カラム273は、当該時刻における当該ジャーナルボリュームの使用率を示す値を格納する。使用率は、ジャーナルボリュームの容量(c)に対する、当該ジャーナルボリュームに格納されているデータ量(d)の割合(d/c)で表される。使用率カラム273は、例えば、当該時刻の使用率又は当該時刻より前の規定時間における使用率の平均値を格納してもよい。
図11はボリューム負荷履歴情報テーブル280の構成例を示す。ボリューム負荷履歴情報テーブル280は、正ボリュームの負荷の履歴を格納する。ボリューム負荷履歴情報テーブル280は、時刻カラム281、ボリュームカラム282、書き込み転送率カラム283を有する。
時刻カラム281、ボリュームカラム282は、それぞれ、時刻及び正ボリュームの識別子を格納する。書き込み転送率カラム283は、当該時刻における当該正ボリュームへの書き込み転送率(ホストからの書き込み転送率)。格納される書き込み転送率の値(データ転送率)は、例えば、当該時刻より前の規定時間における書き込みデータ量を当該規定時間で割った値である。
図12はポート負荷履歴情報テーブル290の構成例を示す。ポート負荷履歴情報テーブル290は、時刻カラム291、ポートカラム292及びポート転送率カラム293を有する。時刻カラム291は時刻の値を格納する。ポートカラム292は、各リモートパスの一方のポートの識別子を格納する。本例においては、ポートカラム292は、正ストレージ装置のポートの識別子を格納している。
ポートカラム292は、正ストレージ装置又は副ストレージ装置のポートの識別子を格納する。ポート転送率カラム293は、当該時刻、当該ポートにおけるデータ転送率を示す値を格納する。ポート転送率カラム293の値は、例えば、当該時刻より前の規定時間における転送量を当該規定時間で割った値である。
図13はプロセッサ負荷履歴情報テーブル350の構成例を示す。プロセッサ負荷履歴情報テーブル350は、時刻カラム351、プロセッサカラム352、稼働率カラム353を有する。時刻カラム351、プロセッサカラム352は、それぞれ、時刻及びプロセッサの識別子を格納する。稼働率カラム353は、当該時刻における当該プロセッサの稼働率の値を格納する。格納される稼働率の値は、例えば、当該時刻の稼働率又は当該時刻より前の規定時間における稼働率の平均値でもよい。
図14はキャッシュ負荷履歴情報テーブル360の構成例を示す。キャッシュ負荷履歴情報テーブル360は、時刻カラム361、キャッシュカラム362、書き込み待ち率カラム363を有する。時刻カラム361、キャッシュカラム362は、それぞれ、時刻及びキャッシュの識別子を格納する。書き込み待ち率カラム363は、当該時刻における当該キャッシュの書き込み待ち率の値を格納する。格納される書き込み待ち率の値は、例えば、当該時刻の書き込み待ち率又は当該時刻より前の規定時間における書き込み待ち率の平均値でもよい。
書き込み待ち率は、キャッシュ容量に対する、キャッシュにおいてボリューム(RAIDグループ)へ書き込むべきデータ量の割合を示す。データを書き込むべきボリュームは、正、副ボリューム(データボリューム)又はジャーナルボリュームである。ボリュームに書き込むべきデータ量をd、キャッシュ容量をcとすると、データ書き込み待ち率は、d/cで表される。一つのキャッシュが複数のボリュームに割り当てられている場合、cは割り当てられている全てのボリュームに書き込むべきデータの量を示す。
図15は遅延時間履歴情報テーブル370の構成例を示す。遅延時間履歴情報テーブル370は、時刻カラム371、コピーグループカラム372、遅延時間カラム373を有する。時刻カラム371及びコピーグループカラム372は、それぞれ、時刻及びコピーグループの識別子を格納する。遅延時間カラム373は、当該時刻における当該コピーグループの書き込み遅延時間の値を格納する。
遅延時間は、正ストレージ装置610への書き込み時刻と副ストレージ装置710への書き込み時刻との間の差を表す。遅延時間履歴情報テーブル370に格納する遅延時間値の算出方法は、複数の算出方法の中から選択することができる。
例えば、正ストレージ装置への書き込み時刻は、ホストによるライトコマンド発行時刻、ホストからのライトコマンド(ライトデータを含む)受信時刻、正ボリュームへの書き込み時刻、正ジャーナルボリュームへの書き込み時刻等で表すことができる。副ストレージ装置への書き込み時刻は、例えば、正ジャーナルボリュームからの読み出し時刻、副ジャーナルボリュームへの書き込み時刻、副ボリュームへの書き込み時刻等で表すことができる。
管理者は、システム及び非同期リモートレプリケーションの分析に適切な書き込み時刻を表す値を選択することができる。上記例において、ライトコマンド発行時刻はホストにより決定されライトコマンドにそれを示す情報が含まれる。その他の時刻は、正ストレージ装置及び副ストレージ装置が計測することができる。正ストレージ装置及び副ストレージ装置は、ジャーナルの書き込み時刻を決定し、管理テーブルにおいて管理する。ジャーナルは、例えば、コピーグループ識別子とシーケンシャル番号により識別することができる。
上述のように、コピーペア管理プログラム206は、遅延時間を算出する。コピーペア管理プログラム206は、正、副ストレージ装置の制御プログラムから、各ジャーナルについて、正ストレージ装置への書き込み時刻及び副ストレージ装置への書き込み時刻の情報を取得する。コピーペア管理プログラム206は、取得した情報を、算出した各ジャーナルの書き込み遅延時間と共に管理する。二つのサイトのタイムゾーンが違う場合、コピーペア管理プログラム206は、例えば、時刻を標準時刻に変換して遅延時間を算出する。
遅延時間履歴情報テーブル370における一つのエントリの遅延時間は、例えば、コピーグループ内において、当該時刻又はその直前の副ストレージ装置又正ストレージ装置への書き込み時刻を示すジャーナルの遅延時間を示す。遅延時間履歴情報テーブル370における一つエントリは、複数のジャーナルの遅延時間の平均値を示してもよい。
ストレージ管理サーバ200は、管理者(ユーザ)に対して、非同期リモートレプリケーションにおける遅延時間の分析を支援するための情報を提示する。具体的には、ストレージ管理サーバ200は、上記非同期リモートレプリケーションにおける四つのステップにおけるグラフを、クライアント端末100において表示することができる。
四つのステップにおけるグラフは、遅延時間の時間変化を示すラインと共に、各ステップに対して予め決められている1又は複数のメトリック(物理リソースに対する負荷)の時間変化のラインを表示する。
図16は、上記四つのステップ及び各ステップにおけるグラフが表示可能なメトリック(物理リソースの負荷)を示している。グラフが表示されるステップは、副ボリュームへの書き込みステップ(図2におけるS110)、副ジャーナルボリュームへの書き込みステップ(S108)、正ジャーナルボリュームからの読み出しステップ(S105)、そしてリモートパスによる転送ステップ(S106)である。
各ステップにおいて表示可能なメトリックは、各ステップのボリューム又はリモートパスに関連する物理リソースの値である。例えば、副ボリュームへの書き込みステップのグラフが図示可能なメトリックは、副ボリュームに割り当てられているキャッシュ及びプロセッサそれぞれの書き込み待ち率及び稼働率である。
副ジャーナルボリュームへの書き込みステップのグラフが表示可能なメトリックは、副ジャーナルボリュームに割り当てられているキャッシュ及びプロセッサそれぞれの書き込み待ち率及び稼働率、並びに、副ジャーナルボリューム使用率である。
正ジャーナルボリュームからの読み出しステップのグラフが図示可能なメトリックは、正ジャーナルボリュームに割り当てられているプロセッサの稼働率及び正ジャーナルボリューム使用率である。
リモートパスによるデータ転送のステップのグラフが図示可能なメトリックは、リモートパスにおける転送率及びリモートパスを使用する全ての正ボリュームへのホストからの書き込み転送率の合計である。
各ステップのグラフが表示可能なメトリックは、上記メトリックの一部でもよい。例えば、副ジャーナルボリュームへの書き込みステップのグラフは、副ジャーナルボリューム使用率を表示不能でもよく、正ジャーナルボリュームからの読み出しステップのグラフは正ジャーナルボリューム使用率を表示不能でもよく、リモートパスデータ転送ステップは、書き込み転送率を表示不能でもよい。
ストレージ管理サーバ200の遅延時間分析プログラム204は、管理者からの指定に従って、DB207からグラフ画像を生成するために必要な情報を収集する。例えば、管理者は、分析を行うコピーグループ、分析を行う遅延時間履歴の期間、そしてグラフを表示するステップを指定することができる。
遅延時間分析プログラム204は、収集した情報を使用してグラフ画像データを生成し、クライアント端末100に送信する。クライアント端末100は、受信したデータからグラフ画像を生成し、管理用表示デバイス103により表示する。
ここで、管理者による各ステップにおける分析方法(グラフの利用方法)の一例を説明する。副ボリュームへの書き込みステップにおいて、プロセッサ稼働率及びキャッシュの書き込み待ち率がそれぞれの閾値以上である場合、プロセッサの負荷が高いためにキャッシュから副ボリュームへのデータ書き込みが遅延している可能性がある。遅延時間が増加する直前にこの事象が起きている場合、管理者は、当該事象が遅延時間増加の原因と推定することができる。
副ボリュームへの書き込みステップにおいて、プロセッサ稼働率は小さいが、キャッシュの書き込み待ち率が閾値以上である場合、副ボリュームつまりRAIDグループの負荷が高いためにキャッシュから副ボリュームへのデータ書き込みが遅延している可能性がある。遅延時間が増加する直前にこの事象が起きている場合、管理者は、当該事象が遅延時間増加の原因と推定することができる。若しくは、管理者は、キャッシュ容量が不足していることが原因であると推定できる。
副ジャーナルボリュームへの書き込みステップについても、副ボリュームへの書き込みステップにおける分析と同様の手法を適用することができる。また、副ジャーナルボリューム使用率の情報は、正ストレージ装置からのデータ転送量と副ストレージ装置における副ボリュームへの書き込み量との関係を示す。管理者は、その値から、副ストレージ装置における副ボリュームへのデータ書き込みの遅延の有無を知ることができる。
正ジャーナルボリュームからの読み出しステップにおいて、プロセッサ稼働率が閾値を超えている場合プロセッサの負荷が高いためにキャッシュから副ボリュームへのデータ書き込みが遅延している可能性がある。
リモートパスデータ転送ステップにおいて、書き込み転送率及びリモートパス転送率がそれぞれの閾値以上である場合、ホストI/Oの増加により、リモートパスで転送すべきデータ量が許容量を超えている可能性がある。書き込み転送率が小さく、リモートパス転送率が閾値以上である場合、リモートパスにおいて何らかの障害が発生している可能性がある。管理者、書き込み転送率を参照せず、リモートパス転送率のみからも、同様の方法で、原因を推定することができる。
このように、各ステップの分析グラフが上記各メトリックを表示可能であることで、管理者の遅延時間の分析を支援するための適切な情報を提供することができる。
図17Aから図17Eを参照して、遅延時間分析プログラム204による処理例を説明する。図17Aは、遅延時間分析プログラム204による処理例のフローチャートであり、図17B〜図17Eは、それぞれ、図17Aのフローチャートにおけるステップの詳細を示す。
図17Aにおいて、遅延時間分析プログラム204は、非同期リモートレプリケーションにおける遅延時間の分析において、対象となるコピーグループの識別子を取得する(S201)。遅延時間分析プログラム204は、さらに、遅延時間の分析において対象となる期間(分析期間)を示す情報を取得する(S202)。分析期間は、例えば、標準時により指定される又は遅延時間分析プログラム204は、指定された分析期間を、標準時による分析期間に変換する。
遅延時間分析プログラム204は、さらに、グラフを表示するように指定されたステップ(非同期リモートレプリケーションにおける上記四つのステップの一部又は全て)を示す情報を取得する(S205)。
上記ステップS201からS203において、管理者は、クライアント端末100において、上記情報を入力する。具体的には、管理者は、分析すべきコピーグループ、分析すべき期間、そしてグラフを表示する非同期リモートレプリケーションにおけるステップを指定する情報を、クライアント端末100のユーザIFにより入力する。クライアント端末100は、入力された情報をストレージ管理サーバ200に送信する。
管理者は、例えば、分析期間を、遅延時間の履歴における期間開始日時及び期間終了日時により指定する。管理者は、非同期リモートレプリケーションにおける上記四つのステップから、任意の数の任意のステップを選択することができる。デフォルト設定は、例えば、全てのステップの選択である。
グラフを表示するステップとして、副ボリュームへの書き込みステップが指定されている場合(S204:Y)、遅延時間分析プログラム204は、指定された分析期間における、指定されているコピーグループの副ボリュームに関連するリソースの負荷履歴情報を取得する(S205)。
グラフを表示するステップとして、副ジャーナルボリュームへの書き込みステップが指定されている場合(S206:Y)、遅延時間分析プログラム204は、指定された分析期間における、指定されているコピーグループの副ジャーナルボリュームに関連するリソースの負荷履歴情報を取得する(S207)。
グラフを表示するステップとして、正ジャーナルボリュームからの読み出しステップが指定されている場合(S208:Y)、遅延時間分析プログラム204は、指定された分析期間における、指定されているコピーグループの正ジャーナルボリュームに関連するリソースの負荷履歴情報を取得する(S209)。
グラフを表示するステップとして、リモートパスによる転送ステップが指定されている場合(S210:Y)、遅延時間分析プログラム204は、指定された分析期間における、指定されているコピーグループのリモートパスに関連するリソースの負荷履歴情報を取得する(S211)。
ステップS205、207、209、210の詳細は後述する。遅延時間分析プログラム204は、さらに、分析期間の遅延時間情報を取得する(S212)。具体的には、遅延時間分析プログラム204は、遅延時間履歴情報テーブル370を参照し、指定されたコピーグループの、指定された分析期間における遅延時間の情報を取得する。
遅延時間分析プログラム204は、上記ステップで取得したリソースの負荷履歴の情報及び遅延時間の情報を使用して、指定された各ステップのグラフの画像を生成し、クライアント端末100の管理用表示デバイス103によって表示する(S213)。
図17Bのフローチャートを参照して、ステップS205の詳細を説明する。遅延時間分析プログラム204は、コピーペア情報テーブル150を参照し、指定されたコピーグループに含まれるコピーペアの副ボリュームを特定する(S301)。
遅延時間分析プログラム204は、ボリューム情報テーブル170を参照し、特定した副ボリュームに割り当てられているプロセッサを特定する(S302)。遅延時間分析プログラム204は、指定されている分析期間と特定したプロセッサの情報を元に、プロセッサ負荷履歴情報テーブル350を参照して、プロセッサ稼働率の履歴情報を取得する(S303)。
遅延時間分析プログラム204は、ボリューム情報テーブル170を参照し、特定した副ボリュームに割り当てられているキャッシュを特定する(S304)。遅延時間分析プログラム204は、指定されている分析期間と特定したキャッシュの情報を元に、キャッシュ負荷履歴情報テーブル360を参照して、書き込み待ち率の履歴情報を取得する(S305)。
図17Cのフローチャートを参照して、ステップS207の詳細を説明する。遅延時間分析プログラム204は、コピーペア情報テーブル150を参照し、指定されたコピーグループに含まれる副ジャーナルボリュームを特定する(S401)。
遅延時間分析プログラム204は、指定されている分析期間と特定した副ジャーナルボリュームの情報を元に、ジャーナルボリューム負荷履歴情報テーブル270を参照して、使用率の履歴情報を取得する(S402)。
遅延時間分析プログラム204は、ジャーナルボリューム情報テーブル160を参照し、特定した副ジャーナルボリュームに割り当てられているプロセッサを特定する(S403)。遅延時間分析プログラム204は、指定されている分析期間と特定したプロセッサの情報を元に、プロセッサ負荷履歴情報テーブル350を参照して、プロセッサ稼働率の履歴情報を取得する(S404)。
遅延時間分析プログラム204は、ジャーナルボリューム情報テーブル160を参照し、特定した副ボリュームに割り当てられているキャッシュを特定する(S405)。遅延時間分析プログラム204は、指定されている分析期間と特定したキャッシュの情報を元に、キャッシュ負荷履歴情報テーブル360を参照して、書き込み待ち率の履歴情報を取得する(S406)。
図17Dのフローチャートを参照して、ステップS209の詳細を説明する。遅延時間分析プログラム204は、コピーペア情報テーブル150を参照し、指定されたコピーグループに含まれる正ジャーナルボリュームを特定する(S501)。
遅延時間分析プログラム204は、指定されている分析期間と特定した正ジャーナルボリュームの情報を元に、ジャーナルボリューム負荷履歴情報テーブル270を参照して、使用率の履歴情報を取得する(S502)。
遅延時間分析プログラム204は、ジャーナルボリューム情報テーブル160を参照し、特定した正ジャーナルボリュームに割り当てられているプロセッサを特定する(S503)。遅延時間分析プログラム204は、指定されている分析期間と特定したプロセッサの情報を元に、プロセッサ負荷履歴情報テーブル350を参照して、プロセッサ稼働率の履歴情報を取得する(S504)。
図17Eのフローチャートを参照して、ステップS211の詳細を説明する。遅延時間分析プログラム204は、ネットワーク情報テーブル180を参照し、指定されたコピーグループが利用するリモートパスを特定する(S601)。
遅延時間分析プログラム204は、ポート情報テーブル190を参照して、特定下リモートパスに含まれるポートを特定する(S602)。遅延時間分析プログラム204は、指定された分析期間及び特定したポートの情報を元に、ポート負荷履歴情報テーブル290を参照して、ポート転送量の履歴情報を取得する(S603)。
遅延時間分析プログラム204は、ネットワーク情報テーブル180を参照し、特定したリモートパスを利用する全てのコピーグループを特定する(S604)。遅延時間分析プログラム204は、コピーペア情報テーブル150を参照し、特定した全てのコピーペアの正ボリュームを特定する(S605)。遅延時間分析プログラム204は、特定した全ての正ボリュームの情報を元に、ボリューム負荷履歴情報テーブル280を参照して、書き込み転送率の履歴情報を取得する(S606)
以下において、非同期リモートレプリケーションにおける遅延時間分析のための表示画像(グラフ)を説明する。遅延時間分析プログラム204は、遅延時間と物理リソースの負荷の時間変化を示すグラフを表示する。管理者は、グラフを参照することで、遅延時間を増加させる原因となっているリソースを短時間で、適切に特定することができる。
図18Aは、非同期リモートレプリケーション分析のための画像表示についての、管理者による設定画像1800の一例を示す。上述のように、管理者は、管理用表示デバイス103上の設定画像1800において、遅延時間の分析を行うためにグラフを表示するコピーグループ、分析を行う遅延時間履歴の期間、グラフを表示する非同期リモートレプリケーションにおけるステップを指定することができる。遅延時間分析プログラム204は設定画像1800のデータをクライアント端末100に送信する。
設定画像1800において、分析対象コピーグループはプルダウンメニューにより、分析対象ステップはラジオボタンにより選択される。管理者が、入力デバイス106により設定ボタン1801を選択すると、クライアント端末100は、遅延時間分析プログラム204に当該選択及び指定されているコピーグループを通知し、図18Bに示す分析期間設定画像1850のデータを受信する。
分析期間設定画像1850は、指定されたコピーグループの遅延時間の時間変化を示すグラフ1860を含む。横軸は時刻(日時)を示し縦軸は遅延時間を示す。遅延時間分析プログラム204は、指定されたコピーグループの遅延時間履歴情報を遅延時間履歴情報テーブル370から取得して、当該グラフ画像1860を生成することができる。
管理者は、ポインタ1851、1852によってグラフ上の日時を示すことで、分析期間(開始日時及び終了日時)を指定することができる。管理者は、セクション1853において数値により分析期間を指定することができる。ボタン1854が選択されると、指定分析期間が確定される。指定された分析期間は、表示する全てのステップのグラフに適用される。これにより、管理者による遅延時間の分析に必要な情報を適切に表示することができる。
クライアント端末100(GUIプログラム)は、管理者により指定されたコピーグループの識別子、分析期間及びグラフ表示する分析ステップの識別子を、ストレージ管理サーバ200に送信する(図17AにおけるステップS201〜S203に対応)。
図19は、遅延時間分析のための画像1900の一例を示している。画像1900は、非同期リモートレプリケーションにおける上記四つのステップの全てのグラフを図示している。例えば、画像1900は、管理者が上記四つのステップを選択する又はデフォルト設定に従って表示される。
画像1900は、副ボリュームの書き込みステップのグラフ1901、副ジャーナルボリュームの書き込みステップのグラフ1902、正ジャーナルボリュームからの読み出しステップのグラフ1903、リモートパスによるデータ転送ステップのグラフ1904を含む。
図19において、セクション1905は、指定された分析対象のコピーグループ及び分析期間を示している。分析期間は表示される全てのグラフに対して共通である。グラフ1901〜1904のそれぞれにおいて、横軸は時刻を示し、左縦軸はメトリックの値を示し、右縦軸は遅延時間の値を示す。同時に表示されている全てのグラフ1901〜1904が表示する分析期間は一致している。
期間設定ボタン1906が選択されると、クライアント端末100は、図18Bに示す分析期間設定画像1850を表示する。管理者は、分析期間設定画像1850において、分析期間を再指定することができる。クライアント端末100は、再指定された分析期間の情報をストレージ管理サーバ200に送信し、遅延時間分析プログラム204は、図17AにおけるステップS204〜S213を実行する。
ビュー設定ボタン1907が選択されると、クライアント端末100は、ビュー設定画像(不図示)を遅延時間分析プログラム204から受信し、表示する。管理者は、当該画像において、画像1900におけるグラフの配列(列数及び行数)を指定することができる。クライアント端末100はビュー設定情報をストレージ管理サーバ200に送信し、遅延時間分析プログラム204は、ビュー設定情報に従って生成したグラフ画像データをクライアント端末100に送信する。
画像1900において、いずれかのグラフの拡大ボタンが選択されると、選択されたグラフのみが、拡大され、表示される。例えば、副ボリュームへの書き込みステップのグラフ画像1901において拡大ボタン1908が選択されると、クライアント端末100は、図20に示すグラフ画像2000を拡大表示する。
画像2000は、副ボリュームへの書き込みステップのグラフを図示する。グラフの横軸は時刻(日時)を示し、左縦軸は書き込み待ち率を示し、右縦軸は遅延時間を示す。ライン2001は遅延時間の時間変化を示す。ライン2002、2003は、それぞれ、副ボリュームSVOL_A、SVOL_Bの書き込み待ち率の時間変化を示す。副ボリュームSVOL_A、SVOL_Bは、指定されたコピーグループXに含まれる全副ボリュームである。
ライン2004は遅延時間の閾値を示し、ライン2005は書き込み待ち率の閾値を示す。これら閾値は、管理者又はシステム提供者によって予め設定されている。各閾値は、遅延時間及びメトリックそれぞれの分析の基準値である。閾値を測定値と共に表示することによって、管理者は基準となる閾値と測定値とを比較することができ、当該測定値の悪化の状態を容易に判定することができる。
さらに、管理者は、遅延時間とメトリックの時間変化を比較し、それぞれが閾値を超える時刻を比較することで当該メトリックが示すリソースが遅延時間悪化の原因であるかを判定することができる。
管理者は、プルダウンセクション2006において、遅延時間の時間変化と共にグラフに表示するメトリックを選択することができる。図16に示すように、副ボリュームへの書き込みステップについてのグラフは、書き込み待ち率の他、プロセッサ稼働率の時間変化を表示することができる。プロセッサ稼働率は、選択されているコピーグループの副ボリュームのそれぞれに割り当てられているプロセッサの稼働率である。
クライアント端末100は、遅延時間分析プログラム204から、セクション2006で選択される測定値の組み合わせの各グラフ画像のデータを前もって取得している。クライアント端末100のGUI画像プログラム(例えばブラウザプログラム)は、セクション2006において表示するメトリックが選択されると、当該選択されたメトリックと遅延時間の時間変化を同時に示すグラフを表示する。
セクション2006は、遅延時間と一つのみのメトリックとを同時表示する選択肢のみを提供してもよい。例えば、副ボリュームへの書き込みステップのグラフにおいては、「書き込み待ち率×遅延時間」、「プロセッサ稼働率×遅延時間」の選択肢のみが提供される。複数メトリックのラインが重なることで、グラフが見にくくなることを避けることができる。
グラフのGUI画像は、さらに、遅延時間と複数のメトリックとを同時に表示する選択肢を提供してもよい。例えば、セクション2006は、「書き込み待ち率×プロセッサ稼働率×遅延時間」の選択肢を提供してもよい。各グラフは、表示されている遅延時間及びメトリックの閾値も同時に表示する。なお、グラフは閾値(基準値)を表示しなくともよい。以上の点は、他のグラフのGUI画像について同様である。
分析期間設定ボタン2007が選択されると、クライアント端末100は、図18に示す分析期間設定画像1850を表示し、管理者からの分析期間設定の再入力を受け付ける。再設定された分析期間は、他のステップのグラフにも適用される。画像2000において縮小ボタン2008が選択されると、クライアント端末100は、図19に示すように、選択されている全てのステップのグラフを図示する画像を表示する。
図20の例は、コピーグループに含まれる全ての副ボリュームのメトリック時間変化を表示するが、管理者に選択された一部の副ボリュームのメトリック時間変化のみを表示してもよい。クライアント端末100は、ポインタによってグラフにおいて選択されたラインを、他のラインよりも顕となるように表示してもよい。
図19の画像1901〜1904において、詳細が省略されているが、画像1901は、画像2000と同様の画像構成を有している。管理者は、画像2000を参照して説明した操作を、画像1901においても行うことができる。画像1901は、画像2000と異なる画像構成を有していてもよい。これらの点は、他の画像1902〜1904についても同様である。
図21は、正ジャーナルボリュームからの読み出しステップのグラフの、拡大された画像2100の例を図示している(図19における拡大ボタン1909の選択)。以下では、図20における副ボリュームへの書き込みステップのグラフ画像2000との相違を主に説明する。
グラフ画像2100において、横軸は時刻(日時)を示し、左縦軸はプロセッサ稼働率を示し、右縦軸は遅延時間を示す。ライン2101は遅延時間の時間変化を示す。ライン2102は、プロセッサ_Aの稼働率の時間変化を示す。ライン2103は遅延時間の閾値を示し、ライン2104はプロセッサ稼働率の閾値を示す。
プロセッサ_Aは、指定されたコピーグループXに含まれる全副ボリュームに割り当てられているプロセッサである。本例では、全ての副ボリュームに同一のプロセッサ_Aが割り当てられている。異なるプロセッサが割り当てられている場合、それらの稼働率の時間変化が表示される。クライアント端末100は、図20を参照して説明した操作と同様の画像2100上の操作を受け付ける。
クライアント端末100は、副ジャーナルボリュームへの書き込みステップのグラフ1902及びリモートパスによるデータ転送のグラフ1904についても、上記他のステップのグラフと同様の操作を受け付ける。
図16を参照して説明したように、副ジャーナルボリュームへの書き込みステップのグラフが表示可能なメトリックは、以下の通りである。一つは、指定されたコピーグループの副ジャーナルボリュームに割り当てられているキャッシュ書き込み待ち率である。他の一つは、指定されたコピーグループの副ジャーナルボリュームに割り当てられているプロセッサの稼動率である。他の一つは、指定されたコピーグループの副ジャーナルボリュームの使用率である。
リモートパスによるデータ転送のグラフが表示可能なメトリックは、以下の通りである。一つは指定されたコピーグループが使用するリモートパスのデータ転送率である。他の一つは、上記リモートパスを使用する全ての正ボリュームの書き込み転送率の合計値である。
以下において、ソフトウェアウィザードによる遅延時間分析のためのGUIを説明する。遅延時間分析プログラム204は、非同期リモートレプリケーションにおける上記四つのステップのグラフを順次表示し、各グラフについての管理者による分析結果の入力を受け付ける。遅延時間分析プログラム204は、管理者により入力された各グラフの分析結果から、遅延時間を悪化させている原因の分析結果を管理者に提示する。これにより、管理者による遅延時間分析を、より効果的に支援することができる。特に、遅延時間分析に不慣れな管理者にとって有用である。
具体的に説明する。図22は、ウィザードGUIにおける遅延時間分析プログラム204による処理例を示すフローチャートである。まず、遅延時間分析プログラム204は、分析対象のコピーグループ及び分析期間を示す情報を取得する(S701)。具体的には、クライアント端末100は設定画像を表示し、当該設定画像に対するユーザ入力を遅延時間分析プログラム204に送信する。
次に、遅延時間分析プログラム204は、副ボリュームへの書き込みステップの分析用グラフ画像を表示し、さらに、当該画像に対するユーザ入力を取得する(S702)。次に、遅延時間分析プログラム204は、副ジャーナルボリュームへの書き込みステップの分析用グラフ画像を表示し、さらに、当該画像に対するユーザ入力を取得する(S703)。
次に、遅延時間分析プログラム204は、正ジャーナルボリュームからの読み出しステップの分析用グラフ画像を表示し、さらに、当該画像に対するユーザ入力を取得する(S704)。次に、遅延時間分析プログラム204は、リモートパスによるデータ転送ステップの分析用グラフ画像を表示し、さらに、当該画像に対するユーザ入力を取得する(S705)。最後に、遅延時間分析プログラム204は、全ステップにおけるユーザ入力に応じた遅延時間分析結果を表示する(S706)。
図17Aのフローチャートと同様に、本フローチャートにおいて、遅延時間分析プログラム204が画像データを生成し、クライアント端末100が画像を表示する。クライアント端末100は、管理者による表示画像に対する入力を受け付け、遅延時間分析プログラム204に送信する。遅延時間分析プログラム204は、指定された分析期間における、指定されたコピーグループの各ステップのグラフを生成し、表示する。
このように、副ボリュームへの書き込みステップから遡る順序で四つのステップの分析用グラフ順次表示することで、管理者によるリモートレプリケーション分析の理解が容易となる。また、副ストレージ装置の分析を正ストレージ装置及びリモートパスの分析の前に行うことで、遅延時間の悪化が、副ストレージ装置からのジャーナル転送要求の遅延に起因するか、データ転送自体の遅延に起因するものかを特定しやすい。
図23は、ウィザードにおける、副ボリュームへの書き込みステップの分析用GUI画像2300の例を示す。図22におけるステップS702において、クライアント端末100は、遅延時間分析プログラム204から受信したデータによる画像2300を表示する。画像2300が表示するグラフは、図20に図示するグラフと同一である。
管理者は、セクション2301において、グラフに表示するメトリックを選択する。管理者は、表示されているグラフを参照し、その分析結果をセクション2302において入力する。
図23の例において、管理者は、いずれかのキャッシュの書き込み待ち率の時間変化が遅延時間の悪化の原因となっていると判断すると、当該キャッシュをセクション2302で選択する。管理者は、グラフにおける、閾値、遅延時間の時間変化、メトリック測定値の時間変化の関係から、メトリックの各測定の時間変化が遅延時間悪化の原因となっているか判断する。
管理者はセクション2301に表示されている全てのメトリック、つまり、キャッシュ書き込み待ち率及びプロセッサ稼働率について分析結果を入力する。クライアント端末100は、管理者により入力された当該ステップについての分析結果を遅延時間分析プログラム204に送信する。
画像2300において「NEXT」ボタン2304が選択されると、クライアント端末100は、遅延時間分析プログラム204から受信したデータにより、副ジャーナルボリュームへの書き込みステップの分析用GUI画像(不図示)を表示する(S703)。「BACK」ボタン2303が選択されると、クライアント端末100は、一つ前の画像を表示する。
副ジャーナルボリュームへの書き込みステップの分析用GUI画像(不図示)における分析が終了し、「NEXT」ボタンが選択されると、クライアント端末100は、遅延時間分析プログラム204から受信したデータにより、正ジャーナルボリュームからの読み出しステップの分析用GUI画像を表示する(S704)。当該GUI画像は、図23を参照した上記説明及び図24を参照する下記説明と同様に、図16に示す正ジャーナルボリュームからの読み出しステップにおける遅延時間とメトリックとの間の関係を示す。
図24は、正ジャーナルボリュームからの読み出しステップの分析用GUI画像2400の例を示す。画像2400が表示するグラフは、図21に図示するグラフと同一である。管理者は、セクション2401において、グラフに表示するメトリックを選択する。管理者は、表示されているグラフを参照し、その分析結果をセクション2402において入力する。
図24の例において、管理者は、プロセッサの稼働率の時間変化が遅延時間の悪化の原因となっていると判断すると、当該プロセッサをセクション2402で選択する。例えば、遅延時間が閾値に達した時刻の直前において、プロセッサ稼働率が閾値に達している場合、プロセッサ稼働率の増加が遅延時間の増加を引き起こしていると推定できる。
画像2400において「NEXT」ボタン2404が選択されると、クライアント端末100は、遅延時間分析プログラム204から受信したデータにより、リモートパスデータ転送ステップの分析用GUI画像(不図示)を表示する(S705)。当該GUI画像は、図23及び図24を参照した説明と同様に、図16に示すリモートパスデータ転送ステップにおける遅延時間とメトリックとの間の関係を示す。
図25は、遅延時間分析プログラム204による分析結果画像2500の例を示す。遅延時間分析プログラム204は、クライアント端末100から、管理者による各ステップの分析結果の情報を取得し、四つのステップ全体を通じた遅延時間の悪化の原因を推定しさらに、その推定原因に対する対策例を決定する。
分析結果画像2500において、分析対象概要セクション2501は、分析対象のコピーグループ及び分析期間を示す。分析結果概要セクション2502は、各ステップにおいて管理者により指摘された問題の数を示す。各ステップの問題の数は、例えば、各ステップの分析用GUI画像において管理者に問題があると選択されたリソースの数である。例えば、図23において、セクション2302において問題のあるリソースが選択される。
セクション2503は、遅延時間分析プログラム204により決定された遅延時間悪化の推定原因及びそれらに対する対策例を示す。遅延時間分析プログラム204は、管理者による各ステップの分析結果に対して、推定原因及び対策を対応付けるマッピングテーブルを有している。
図26は、マッピングテーブル390の構成例を示す。遅延時間分析プログラム204は、各ボリューム及びリモートパスについて、当該マッピングテーブルを参照して、管理者による分析結果から、遅延時間悪化の推定原因及び対策を決定する。
本実施形態の理解を容易とするため、図26のマッピングテーブル390は、本来のマッピングテーブルが有する情報内容を示す。マッピングテーブル390は、ステップカラム391、マークされたメトリックカラム392、原因カラム393、対策カラム394を有する。マークされたメトリックカラム392は、管理者によって選択された問題となるメトリックである。
原因カラム393、対策カラム394は、それぞれ、遅延時間悪化の推定原因及びそれに対する対策の内容を示す。なお、例えば、実際のマッピングテーブル390の原因カラム393及び対策カラム394は、画像に表示する文章を格納している。
以上、本実施形態によれば、ディザスタリカバリシステムのSLA(Service Level Agreement)維持のためのRPO監視業務において、RPO(Recovery Point Objective)悪化の指標となる遅延時間の増加要因を容易に分析するための情報を提供し、ユーザのRPO監視業務の負荷を低減することができる。
なお、本発明は上記例に限定されるものではなく、様々な変形例が含まれる。例えば、上記例において、システムは、分析グラフを表示するコピーグループの選択を受け付けるが、コピーペアの選択を受け付けるように構成されていてもよい。なお、一つのコピーペアからなるコピーグループの選択は、コピーペアの選択に対応する。
上記システムにおいて各装置が実行する処理の分担は一例に過ぎず、一つの処理の一部を他の装置が実行してもよい。例えば、ストレージ管理サーバ200による分析グラフGUI画像表示のための処理の一部を、クライアント端末100が実行してもよい。
このほか、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実効することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
Claims (14)
- 管理システムと、
正ボリューム及び正ジャーナルボリュームを含む正ストレージ装置と、
ネットワークを介して前記正ストレージ装置と通信し、副ボリューム及び副ジャーナルボリュームを含む副ストレージ装置と、を含み、
前記正ストレージ装置は、
前記正ボリュームに格納するデータの複製データを前記正ジャーナルボリュームに書き込み、
前記正ジャーナルボリュームからデータを読み出して前記ネットワークに出力し、
前記副ストレージ装置は、
前記ネットワークから受信したデータを、キャッシュを介して前記副ジャーナルボリュームに書き込み、
前記副ジャーナルボリュームから読み出したデータを、キャッシュを介して前記副ボリュームに書き込み、
前記管理システムは、
前記副ボリュームへデータを書き込む第1のステップと、前記副ジャーナルボリュームへデータを書き込む第2のステップと、前記正ジャーナルボリュームからデータを読み出す第3のステップと、前記ネットワークによりデータを伝送する第4のステップと、から選択された少なくとも一つのステップの指定と、分析期間の指定と、を受け付け、
前記指定された少なくとも一つのステップのそれぞれに対応するリソースの前記分析期間における負荷の履歴情報と、前記分析期間における前記正ストレージ装置と前記副ストレージ装置との間のデータ複製における遅延時間の履歴情報と、を取得し、
前記指定された少なくとも一つのステップのそれぞれについて、前記分析期間における前記負荷の履歴情報と前記遅延時間の履歴情報とを一つのグラフにおいて表示する、計算機システム。 - 請求項1に記載の計算機システムであって、
前記第1のステップが指定された場合に、前記管理システムは、
前記副ストレージ装置が備えるプロセッサの稼働率及び前記副ストレージ装置が備えるキャッシュの書込み待ち率のそれぞれの履歴情報を取得し、
前記稼働率の履歴情報及び前記書込み待ち率の履歴情報のうちの少なくとも一つと前記遅延時間の履歴情報とを、一つのグラフにおいて表示する、計算機システム。 - 請求項1に記載の計算機システムであって、
前記第2のステップが指定された場合に、前記管理システムは、
前記副ストレージ装置が備えるプロセッサの稼働率、前記副ストレージ装置が備えるキャッシュの書込み待ち率及び前記副ジャーナルボリュームの使用率のそれぞれの履歴情報を取得し、
前記稼働率の履歴情報、前記書込み待ち率の履歴情報及び前記使用率の履歴情報のうちの少なくとも一つと前記遅延時間の履歴情報とを、一つのグラフにおいて表示する、計算機システム。 - 請求項1に記載の計算機システムであって、
前記第3のステップが指定された場合に、前記管理システムは、
前記正ストレージ装置が備えるプロセッサの稼働率及び、前記正ジャーナルボリュームの使用率のそれぞれの履歴情報を取得し、
前記稼働率の履歴情報及び前記使用率の履歴情報のうちの少なくとも一つと前記遅延時間の履歴情報とを、一つのグラフにおいて表示する、計算機システム。 - 請求項1に記載の計算機システムであって、
前記第4のステップが指定された場合に、前記管理システムは、
前記正ストレージ装置と前記副ストレージ装置との間のリモートパスを流れるデータの転送率及びホストから前記正ストレージ装置へのデータ書込み転送率のそれぞれの履歴情報を取得し、
前記リモートパスの転送率の履歴情報及び前記書き込み転送率の履歴情報のうちの少なくとも一つと前記遅延時間の履歴情報とを、一つのグラフにおいて表示する、計算機システム。 - 請求項1に記載の計算機システムであって、
前記第1のステップから前記第4のステップのうちの複数のステップが指定され、当該指定された複数のステップのうちの一つのステップに対する前記分析期間が変更された場合、前記管理システムは、前記指定された複数のステップにおける他のステップに対する前記分析期間を前記変更された分析期間に一致させる、計算機システム。 - 請求項1に記載の計算機システムであって、
前記管理システムは、
前記第1のステップから前記第4のステップのそれぞれのステップについて、リソースの負荷の履歴情報と遅延時間の履歴情報とを示すグラフを表示し、
前記第1のステップから前記第4のステップのそれぞれのステップについてのユーザ分析結果の入力を受け付け、
前記入力されたユーザ分析結果から、前記遅延時間の増加の原因を推定し、
前記推定した原因に対する対策を決定して、前記推定した原因と共に表示する、計算機システム。 - 正ストレージ装置と、ネットワークを介して前記正ストレージ装置と通信する副ストレージ装置とを含むストレージシステムにおける非同期リモートレプリケーションの、ユーザによる分析を、管理システムが支援する方法であって、
前記正ストレージ装置は、
正ボリュームに格納するデータの複製データを正ジャーナルボリュームに書き込み、
前記正ジャーナルボリュームからデータを読み出して前記ネットワークに出力し、
前記副ストレージ装置は、
前記ネットワークから受信したデータを、キャッシュを介して副ジャーナルボリュームに書き込み、
前記副ジャーナルボリュームから読み出したデータを、キャッシュを介して副ボリュームに書き込み、
前記方法は、
前記管理システムが、前記副ボリュームへデータを書き込む第1のステップと、前記副ジャーナルボリュームへデータを書き込む第2のステップと、前記正ジャーナルボリュームからデータを読み出す第3のステップと、前記ネットワークによりデータを伝送する第4のステップと、から選択された少なくとも一つのステップの指定と、分析期間の指定と、を受け付け、
前記管理システムが、前記指定された少なくとも一つのステップのそれぞれに対応するリソースの前記分析期間における負荷の履歴情報と、前記分析期間における前記正ストレージ装置と前記副ストレージ装置との間のデータ複製における遅延時間の履歴情報と、を取得し、
前記管理システムが、前記指定された少なくとも一つのステップのそれぞれについて、前記分析期間における前記負荷の履歴情報と前記遅延時間の履歴情報とを一つのグラフにおいて表示する、ことを含む、方法。 - 請求項8に記載の方法であって、
前記第1のステップが指定された場合に、
前記管理システムが、前記副ストレージ装置が備えるプロセッサの稼働率及び前記副ストレージ装置が備えるキャッシュの書込み待ち率のそれぞれの履歴情報を取得し、
前記管理システムが、前記稼働率の履歴情報及び前記書込み待ち率の履歴情報のうちの少なくとも一つと前記遅延時間の履歴情報とを、一つのグラフにおいて表示する、方法。 - 請求項8に記載の方法であって、
前記第2のステップが指定された場合に、
前記管理システムが、前記副ストレージ装置が備えるプロセッサの稼働率、前記副ストレージ装置が備えるキャッシュの書込み待ち率及び前記副ジャーナルボリュームの使用率のそれぞれの履歴情報を取得し、
前記管理システムが、前記稼働率の履歴情報、前記書込み待ち率の履歴情報及び前記使用率の履歴情報のうちの少なくとも一つと前記遅延時間の履歴情報とを、一つのグラフにおいて表示する、方法。 - 請求項8に記載の方法であって、
前記第3のステップが指定された場合に、
前記管理システムが、前記正ストレージ装置が備えるプロセッサの稼働率及び、前記正ジャーナルボリュームの使用率のそれぞれの履歴情報を取得し、
前記管理システムが、前記稼働率の履歴情報及び前記使用率の履歴情報のうちの少なくとも一つと前記遅延時間の履歴情報とを、一つのグラフにおいて表示する、方法。 - 請求項8に記載の方法であって、
前記第4のステップが指定された場合に、
前記管理システムが、前記正ストレージ装置と前記副ストレージ装置との間のリモートパスを流れるデータの転送率及びホストから前記正ストレージ装置へのデータ書込み転送率のそれぞれの履歴情報を取得し、
前記管理システムが、前記リモートパスの転送率の履歴情報及び前記書き込み転送率の履歴情報のうちの少なくとも一つと前記遅延時間の履歴情報とを、一つのグラフにおいて表示する、方法。 - 請求項8に記載の方法であって、
前記第1のステップから前記第4のステップのうちの複数のステップが指定され、当該指定された複数のステップのうちの一つのステップに対する前記分析期間が変更された場合、前記管理システムが、前記指定された複数のステップにおける他のステップに対する前記分析期間を前記変更された分析期間に一致させる、方法。 - 請求項8に記載の方法であって、
前記管理システムが、前記第1のステップから前記第4のステップのそれぞれのステップについて、リソースの負荷の履歴情報と遅延時間の履歴情報とを示すグラフを表示し、
前記管理システムが、前記第1のステップから前記第4のステップのそれぞれのステップについてのユーザ分析結果の入力を受け付け、
前記管理システムが、前記入力されたユーザ分析結果から、前記遅延時間の増加の原因を推定し、
前記管理システムが、前記推定した原因に対する対策を決定して、前記推定した原因と共に表示する、方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2013/062573 WO2014178104A1 (ja) | 2013-04-30 | 2013-04-30 | 計算機システム及び非同期リモートレプリケーションの分析を支援する方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5748932B2 true JP5748932B2 (ja) | 2015-07-15 |
JPWO2014178104A1 JPWO2014178104A1 (ja) | 2017-02-23 |
Family
ID=51843257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015511138A Active JP5748932B2 (ja) | 2013-04-30 | 2013-04-30 | 計算機システム及び非同期リモートレプリケーションの分析を支援する方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9886451B2 (ja) |
JP (1) | JP5748932B2 (ja) |
WO (1) | WO2014178104A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015151258A1 (ja) * | 2014-04-03 | 2015-10-08 | 株式会社日立製作所 | 非同期リモートコピーを行うリモートコピーシステムを含んだ計算機システムの管理システム及び管理方法 |
US9218407B1 (en) | 2014-06-25 | 2015-12-22 | Pure Storage, Inc. | Replication and intermediate read-write state for mediums |
WO2016162916A1 (ja) * | 2015-04-06 | 2016-10-13 | 株式会社日立製作所 | 管理計算機およびリソース管理方法 |
WO2017077583A1 (ja) * | 2015-11-02 | 2017-05-11 | 株式会社日立製作所 | ストレージシステムを含む情報システム及びストレージシステムにおける性能劣化予測方法 |
WO2018189847A1 (ja) * | 2017-04-12 | 2018-10-18 | 株式会社日立製作所 | ストレージ装置およびキャッシュメモリ管理方法 |
US10007695B1 (en) * | 2017-05-22 | 2018-06-26 | Dropbox, Inc. | Replication lag-constrained deletion of data in a large-scale distributed data storage system |
JP6878369B2 (ja) * | 2018-09-03 | 2021-05-26 | 株式会社日立製作所 | ボリューム配置管理装置、ボリューム配置管理方法、及びボリューム配置管理プログラム |
US11061601B2 (en) * | 2019-04-30 | 2021-07-13 | Rubrik, Inc. | Systems and methods for continuous data protection |
US11126508B2 (en) * | 2019-04-30 | 2021-09-21 | Rubrik, Inc. | Systems and methods for continuous data protection |
US11086727B2 (en) * | 2019-04-30 | 2021-08-10 | Rubrik, Inc. | Systems and methods for continuous data protection |
US11500664B2 (en) | 2019-04-30 | 2022-11-15 | Rubrik, Inc. | Systems and method for continuous data protection and recovery by implementing a set of algorithms based on the length of I/O data streams |
US11663089B2 (en) | 2019-04-30 | 2023-05-30 | Rubrik, Inc. | Systems and methods for continuous data protection |
US11609775B2 (en) | 2019-04-30 | 2023-03-21 | Rubrik, Inc. | Systems and methods for continuous data protection comprising storage of completed I/O requests intercepted from an I/O stream using touch points |
US11663092B2 (en) | 2019-04-30 | 2023-05-30 | Rubrik, Inc. | Systems and methods for continuous data protection |
CN112423004B (zh) * | 2020-11-05 | 2024-02-06 | 深圳Tcl新技术有限公司 | 视频数据传输方法、装置、发送端以及存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5274805A (en) * | 1990-01-19 | 1993-12-28 | Amalgamated Software Of North America, Inc. | Method of sorting and compressing data |
US5809224A (en) * | 1995-10-13 | 1998-09-15 | Compaq Computer Corporation | On-line disk array reconfiguration |
JP2003006020A (ja) * | 2001-06-26 | 2003-01-10 | Hitachi Ltd | 複製データベースアクセス装置とそのアクセス方法 |
US7161615B2 (en) * | 2001-11-30 | 2007-01-09 | Pelco | System and method for tracking objects and obscuring fields of view under video surveillance |
JP2006236019A (ja) * | 2005-02-25 | 2006-09-07 | Hitachi Ltd | データコピー方式の切替方法 |
US20060277384A1 (en) * | 2005-06-01 | 2006-12-07 | Hitachi, Ltd. | Method and apparatus for auditing remote copy systems |
JP4690783B2 (ja) * | 2005-06-08 | 2011-06-01 | 株式会社日立製作所 | ボリューム管理システムおよびその方法 |
US20070022135A1 (en) * | 2005-07-25 | 2007-01-25 | Dale Malik | Systems and methods for organizing and annotating an information search |
JP4843294B2 (ja) * | 2005-11-04 | 2011-12-21 | 株式会社日立製作所 | 計算機システム及び管理計算機 |
US8489919B2 (en) * | 2008-11-26 | 2013-07-16 | Arizona Board Of Regents | Circuits and methods for processors with multiple redundancy techniques for mitigating radiation errors |
JP5199464B2 (ja) * | 2009-01-20 | 2013-05-15 | 株式会社日立製作所 | ストレージシステム及びストレージシステムの制御方法 |
US8286030B1 (en) * | 2009-02-09 | 2012-10-09 | American Megatrends, Inc. | Information lifecycle management assisted asynchronous replication |
JP4845982B2 (ja) * | 2009-03-05 | 2011-12-28 | 株式会社日立製作所 | 情報処理装置、及びストレージシステムから取得した構成情報の管理方法 |
DE102009031923A1 (de) * | 2009-07-07 | 2011-01-13 | Sones Gmbh | Verfahren zum Verwalten von Datenobjekten |
JP5684640B2 (ja) * | 2011-04-22 | 2015-03-18 | 株式会社日立ソリューションズ | 仮想環境管理システム |
WO2013058846A1 (en) * | 2011-10-18 | 2013-04-25 | Dotloop, Llc | Systems, methods and apparatus for form building |
US8903764B2 (en) * | 2012-04-25 | 2014-12-02 | International Business Machines Corporation | Enhanced reliability in deduplication technology over storage clouds |
WO2015056352A1 (ja) * | 2013-10-18 | 2015-04-23 | 株式会社日立製作所 | ファイル管理方法 |
-
2013
- 2013-04-30 WO PCT/JP2013/062573 patent/WO2014178104A1/ja active Application Filing
- 2013-04-30 JP JP2015511138A patent/JP5748932B2/ja active Active
- 2013-04-30 US US14/427,639 patent/US9886451B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2014178104A1 (ja) | 2014-11-06 |
JPWO2014178104A1 (ja) | 2017-02-23 |
US20150248407A1 (en) | 2015-09-03 |
US9886451B2 (en) | 2018-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5748932B2 (ja) | 計算機システム及び非同期リモートレプリケーションの分析を支援する方法 | |
JP5159421B2 (ja) | ストレージシステム及び管理装置を用いたストレージシステムの管理方法 | |
US9298633B1 (en) | Adaptive prefecth for predicted write requests | |
US9524101B2 (en) | Modeling workload information for a primary storage and a secondary storage | |
US9218252B1 (en) | Techniques for performing data validation | |
US9807170B2 (en) | Storage management calculator, and storage management method | |
US9442765B2 (en) | Identifying shared physical storage resources having possibility to be simultaneously used by two jobs when reaching a high load | |
US20150081871A1 (en) | Actively responding to data storage traffic | |
JP4609848B2 (ja) | 負荷分散コンピュータシステム、経路設定プログラム及びその方法 | |
US8250284B2 (en) | Adaptive memory allocation of a second data storage volume based on an updated history of capacity of a first data volume | |
US10108517B1 (en) | Techniques for data storage systems using virtualized environments | |
JP2006040026A (ja) | 負荷分散コンピュータシステム、経路設定プログラム及びその方法 | |
CN116261715A (zh) | 用于工作负载平衡的技术 | |
US10133505B1 (en) | Cooperative host and data storage system services for compression and encryption | |
US11422704B2 (en) | Adapting service level policies for external latencies | |
US20170220275A1 (en) | Computer system and management program | |
JP7191059B2 (ja) | ストレージシステムおよびストレージシステムの分析方法 | |
US11294591B2 (en) | Apparatus configured to create extended configuration proposal of storage system including multiple notes | |
US20180052715A1 (en) | Computer system including server storage system | |
JP2019020816A (ja) | 分散コンピューティングシステムにおけるデータをリカバリする方法およびシステム | |
JP2004264970A (ja) | プログラム、情報処理装置、及び情報処理装置におけるログデータの出力方法 | |
US10469411B1 (en) | Dynamic application scaling | |
US11513684B1 (en) | Data storage system management techniques and metrics | |
WO2015151258A1 (ja) | 非同期リモートコピーを行うリモートコピーシステムを含んだ計算機システムの管理システム及び管理方法 | |
US20160004584A1 (en) | Method and computer system to allocate actual memory area from storage pool to virtual volume |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20150413 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150512 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5748932 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |