JP2005056200A - データ管理方法、ディスク記憶装置およびディスク記憶システム - Google Patents

データ管理方法、ディスク記憶装置およびディスク記憶システム Download PDF

Info

Publication number
JP2005056200A
JP2005056200A JP2003287067A JP2003287067A JP2005056200A JP 2005056200 A JP2005056200 A JP 2005056200A JP 2003287067 A JP2003287067 A JP 2003287067A JP 2003287067 A JP2003287067 A JP 2003287067A JP 2005056200 A JP2005056200 A JP 2005056200A
Authority
JP
Japan
Prior art keywords
disk storage
data
storage device
disk
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003287067A
Other languages
English (en)
Inventor
Tetsuya Abe
哲也 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003287067A priority Critical patent/JP2005056200A/ja
Priority to US10/769,303 priority patent/US7418549B2/en
Publication of JP2005056200A publication Critical patent/JP2005056200A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0866Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches for peripheral storage systems, e.g. disk cache
    • G06F12/0868Data transfer between cache memory and other subsystems, e.g. storage devices or host systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0605Improving or facilitating administration, e.g. storage management by facilitating the interaction with a user or administrator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/28Using a specific disk cache architecture
    • G06F2212/283Plural cache memories
    • G06F2212/284Plural cache memories being distributed

Abstract

【課題】 ディスクアレイシステムを構成するディスク記憶装置を管理する専用の装置などを設けることなく、ディスク記憶装置自体が、自律してデータの転送を行い、ディスク記憶装置間でデータの格納を補完することのできるディスク記憶システムを提供する。
【解決手段】 ホストコンピュータ1と接続するディスク記憶装置であって、少なくとも2つの他のディスク記憶装置と接続され、他のディスク記憶装置との間でのデータの転送処理を実行するデータ転送手段を有し、データ転送手段で転送処理したデータの管理情報を保有するコネクトアダプタ部100を備えた。
【選択図】 図1



Description

本発明は、データを分割して複数の磁気ドライブに格納するディスク記憶装置を複数接続したディスク記憶システムに関し、特に、ディスク記憶装置間におけるデータの転送技術に関する。
銀行、証券、電話会社等に代表される大企業では、従来、各所に分散していたコンピュータおよびストレージを、データセンターの中に集中化してコンピュータシステムおよびストレージシステム構成することにより、コンピュータシステムおよびストレージシステムの運用、保守、管理に要する費用を削減する傾向にあり、特に、大型/ハイエンドのストレージシステムには、数百台以上のホストコンピュータへ接続するためのチャネルインタフェースのサポート(コネクティビティ)、数百テラバイト以上の記憶容量のサポートが要求されている。
その上で、さらに情報化社会の進歩は処理する通信、データの量は急速な増加が止まることを知らない。しかし予測のできないデータ量の増加は、物理的な拡張はストレージシステムの運用、保守、管理に要するコストと手間を増加させている。
そこで、昨今、ストレージプールとして、ユーザーのニーズにより様々なニーズに応える自由なシステム構成が求められ、その中には複数のストレージ間の空き容量を有効に使うようにバーチャルボリュームを構築することも求められている。
また、保守のためにも、高信頼な構成モジュールと、クラスタシステム、これらを組み合わせるシステム構築技術による、高可用システムや、また、客ニーズに応じたシステムの構築を可能とし、増設や構成変更にも容易に対応できるフレキシビリティ等などの拡張性と共にトータルストレージ容量を圧縮したり、増設や構成変更を容易化する運用性が求められている。
従来、例えば、図23に示すように、スイッチルータを介して、複数のホストコンピュータとディスク記憶装置を接続したり、図24に示すように、ファイバチャネルを介して、複数のホストコンピュータとディスク記憶装置を接続するものがあった(例えば、特許文献1参照)。
特開2000−339098号公報
現状では、ボリュームの拡張はユーザー側で設定を変更、修正して初めて成立するが、OSやミドルウェアに制限されてしまうのはオープン性を損ないユーザーの拡張性を低くしてしまい、また、オンタイムでも柔軟な動的な変更をするには、記憶装置側で自律的にできる方が、運用面でコストが小さい。
しかしながら、図23に示すような、従来のディスクアレイシステムでは、ホストコンピュータとディスク記憶装置の対応は基本的に1対1であり、1台のディスク記憶装置が障害になりデータを格納できなくなったり、容量不足でデータの格納ができなくなってしまった場合は、それぞれの装置で保守を実施しなくてはならず、ホストコンピュータ側で、別装置にアドレスを変更してデータ格納場所を変える必要があるという問題があり、また、図24に示すような構成であっても、突発的なアクシデントによってデータセンターが麻痺することを防ぐために、バーチャルボリュームのバックアップを取ったり、リストアしたりすることディザスタ・リカバリが求められているが、増加するディスク記憶装置群とそれを管理するマネージメント装置、あるいはストレージスイッチをあらたに設けることは管理運用コストの増大と管理の複雑化を余儀なくされてしまうという問題があった。
そこで、本発明の目的は、ディスク記憶システムを構成するディスク記憶装置を管理する専用の装置などを設けることなく、ディスク記憶装置自体が、自律してデータの転送を行い、ディスク記憶装置間でデータの格納を補完することのできるディスク記憶システムを提供することにある。
本発明によるデータ管理方法は、ホストコンピュータと接続する複数のホストインターフェースと、データを格納するディスク装置に接続するディスクインターフェースと、データを一時的に格納し、ホストインターフェースおよびディスクインターフェースから共通にアクセスできるキャッシュメモリと、ホストインターフェース、ディスクインターフェースおよびキャッシュメモリを接続するスイッチ手段とを含む複数のディスク記憶装置を有するディスク記憶システムにおけるデータ管理方法であって、複数のディスク記憶装置のそれぞれが、ディスク記憶装置間を接続するインターフェース内に、複数のディスク記憶装置の情報を保有し、複数の各ディスク記憶装置自体が、複数のディスク記憶装置間でのデータの転送処理を実行し、この転送処理したデータの管理情報を、各ディスク記憶装置のインターフェース内に保有するものである。
また、本発明によるディスク記憶装置は、ホストコンピュータと接続する複数のホストインターフェースと、データを格納するディスク装置に接続するディスクインターフェースと、データを一時的に格納し、ホストインターフェースおよびディスクインターフェースから共通にアクセスできるキャッシュメモリと、ホストインターフェース、ディスクインターフェースおよびキャッシュメモリを接続するスイッチ手段とを含むディスク記憶装置であって、少なくとも2つの他のディスク記憶装置と接続され、他のディスク記憶装置との間でのデータの転送処理を実行するデータ転送手段を有し、他のディスク記憶装置及び他のディスク記憶装置以降に接続された複数のディスク記憶装置の情報とデータ転送手段で転送処理したデータの管理情報を保有するインターフェースを備えたものである。
また、本発明によるディスク記憶システムは、ホストコンピュータと接続する複数のホストインターフェースと、データを格納するディスク装置に接続するディスクインターフェースと、データを一時的に格納し、ホストインターフェースおよびディスクインターフェースから共通にアクセスできるキャッシュメモリと、ホストインターフェース、ディスクインターフェースおよびキャッシュメモリを接続するスイッチ手段とを含む複数のディスク記憶装置を有するディスク記憶システムであって、複数のディスク記憶装置は、それぞれ、複数のディスク記憶装置間でのデータの転送処理を実行するデータ転送手段を有し、複数のディスク記憶装置の情報およびデータ転送手段で転送処理したデータの管理情報を保有するインターフェースを備え、複数のディスク記憶装置をインターフェースを介してループ状に接続するものである。
本発明によれば、ディスク記憶システムを構成するディスク記憶装置を管理する専用の装置などを設けることなく、ディスク記憶装置間でデータの格納を補完することができ、データ量の増加にすぐ対応できないディスク記憶装置を他のディスク記憶装置が容量を間借りさせることでサービスの劣化を低減させことができる。
また、本発明によれば、ディスク記憶装置間でアドレスとデータを順繰り渡していくこともでき、ディスク記憶装置間に特別なスイッチを設けなくとも、各ディスク記憶装置が中継しながらデータ転送を行うことができる。
また、本発明によれば、ディスク記憶装置間は独自のプロトコルでホストに影響させずに実施でき、各ディスク記憶装置が協調しつつもなるべく独立にホストコンピュータからの要求に応えることができ、運用コストの安い比較的容易なストレージプールを実現することが可能である。
また、本発明によれば、ディスク記憶装置が中継装置として動作した際、通過データをモニターし、複製データや、転送ログを分散化して保存することでバックアップの軽量化の効果を期待できる。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。
図1は本発明の一実施の形態によるディスク記憶システムの一例を示す構成図、図2はディスク記憶システムを構成するディスク記憶装置の一例を示す構成図である。
図1において、ディスク記憶システムは、ホストコンピュータ1に接続された複数のディスク記憶装置10を、チェーンリンク20により接続している。
ディスク記憶装置10とチェーンリンク20との間は、ディスク記憶装置10のコネクタアダプタ部100をI/F制御部として装置外勘合部120を介して接続している。
また、装置外勘合部120は、コネクタアダプタ部100の保守時や使用不可の時は、チェーンリンク20をバイパスする機能を持たせており、装置外勘合部120をあらかじめ設置しておき、ディスク記憶装置10を増設するまでバイパスしておくという使い方もでき、ディスク記憶装置10の増減設をしやすくできるようにしている。
また、各ディスク記憶装置10のコネクトアダプタ部100は、装置外勘合部120を介して、両隣のディスク記憶装置10と結ぶチェーンリンク20のそれぞれと接続し、チェーンリンク20は、全体として少なくとも2系統の経路を持つように配置している。これは、ディスク記憶装置10間のチェーンリンク20の1つが障害のときでも、経路を換えてアクセスできるようにするためであり、本実施の形態では複数のディスク記憶装置10間でデータを中継させて転送することによりチェーンリンク20の障害に対応している。
図2において、ディスク記憶装置10は、ホストコンピュータ1と接続する2つのホストインターフェースであるインターフェース部(ホストアダプタ部)2と、磁気ディスク群6と接続する4つのディスクインターフェースであるインターフェース部(ディスクアダプタ部)3を有している。各磁気ディスク群6がそれぞれ2つのディスクアダプタ部3に接続しているのは、どちらかのディスクアダプタ部3の故障時でもディスクへのアクセスが可能なように2つの経路のパスを設けるためである。
また、ホストアダプタ部2とディスクアダプタ部3は、スイッチ手段であるスイッチ部5を介して、キャッシュメモリ部4と内部パスを通して接続している。
スイッチ部5が2つ存在するのは、2つ以上の経路があることによる転送帯域(性能)向上と、どちらかのスイッチ部5が故障してもキャッシュメモリ部4へアクセスできるようにである。
また、キャッシュメモリ部4は、内部に複数のメモリモジュールを内蔵し、ホストコンピュータ1より、磁気ディスク群6への書き込み要求が発生した場合に、ホストアダプタ部2が磁気ディスク群6へ記録する書き込みデータを一時的に格納するために使う。
また、ホストコンピュータ1が読み出し要求をした場合は、キャッシュメモリ部4上にデータがあれば、磁気ディスク群6から読み出さずにホストアダプタ部2がキャッシュメモリ部4上からデータをホストコンピュータ1に転送し、応答時間を短くする。
また、ディスクアダプタ部3は、ホストアダプタ部2に呼応し、磁気ディスク群6よりキャッシュメモリ部4へのデータの格納(ステージング)を行い、あるいはキャッシュメモリ部4より磁気ディスク群6へのデータの格納(デステージング)を行う。
また、ディスクアダプタ部3は、データを複数のブロックに分散して磁気ディスク群6の中の複数のディスクに格納する制御も実施でき、また、データに対するパリティ冗長データを生成させて磁気ディスク群6の中に格納し、復元することもできる。これは一般的にいうディスクアレイ(RAID)技術のことを指す。
以上の構成要素は、単独に設置するディスク記憶装置の基本要素であり、本実施の形態では、ディスク記憶装置間を接続するための要素である、インターフェースとなるコネクトアダプタ部100を新たに設置し、スイッチ部5のパスをコネクトアダプタ部100に接続させるようにスイッチ部を拡張し、コネクトアダプタ部100からスイッチ部5を介してキャッシュメモリ部4にデータをアクセスできるようにし、また、コネクトアダプタ部100は、装置外勘合部120を介してチェーンリンク20に接続されている。
次に、本実施の形態のディスク記憶装置10のスイッチ部5およびコネクトアダプタ部100の詳細について説明する。
図3はスイッチ部の一例を示す構成図、図4はコネクトアダプタ部100の一例を示す構成図、図5はコネクトアダプタ部100内の装置外勘合部120の一例を示す構成図である。
図3において、スイッチ部5は、ホストアダプタ部2、ディスクアダプタ部3、コネクトアダプタ部100からつながるパスに接続するパスIF部501とキャッシュメモリ部4からつながるパスに接続するパスIF部501と、両者間を互いに接続するセレクタ504と、パケットバッファ503と、データのエラーチェック回路部502とホストアダプタ部2、ディスクアダプタ部3、コネクトアダプタ部100の各アダプタ部から送出されたアドレス及びコマンドを解析するアドレス/コマンド解析部506と、データ転送制御部505を有する。
データ転送制御部505は、制御線でキャッシュメモリ部4に接続され、内部のアービタ507により、アドレス/コマンド解析部506で解析したアダプタ側に接続するパスからのアクセス要求のアービトレーション(調停)を行い、セレクタ504の切り替えを行う。
パケットバッファ503は、アダプタ側のパスとキャッシュメモリ側のパスでデータ転送速度に差がある場合、速度差を吸収するために、転送するデータの一部または全部をバッファリングする。
アドレス/コマンド解析部506は、アドレス及びコマンドを格納するバッファと、アドレス抽出部と、コマンド抽出部を有しており(図示せず)、アドレス/コマンド解析部506は各アダプタパスごと、それぞれに割り当てられたバッファに、アドレス、コマンドを格納する。アドレス抽出部及びコマンド抽出部では、アクセスするキャッシュパスを割り出し、データ転送制御部505内のアービタ507へ切り替え要求(リクエスト)送出する。
もし、複数のアダプタが1つのキャッシュメモリに対してアクセス要求をしている場合は、リクエストに対してアービトレーション(調停)を行い、アダプタ側のパスとキャッシュ側のパスの接続切り替えを実施する。
なお、このアービトレーション(調停)は優先度(プライオリティー)の制御により、各アダプタに対するパス接続のバランスを調整することも可能である。
図4において、コネクトアダプタ部100はそれぞれをチェーンリンク20で接続される。なお、チェーンリンク20を実施する物理的な接続はケーブルの場合もあれば、無線の場合もあり得る。無線の場合は送信するコネクトアダプタ部100の送受信回路を無線変換することにより実施可能である。この例では、2つのチェーンリンク20が装置外勘合部120を介してコネクトアダプタ部100に接続している。
装置外勘合部120の内部には、図5に示されるようなバイパススイッチ121によって、ディスク記憶装置10が動作可能な場合に出力されるアライブ信号出力回路117からのアライブ信号30がアサートされていない際は、片方のチェーンリンク20からもう片方のチェーンリンク20へ出力をバイパスする。これはディスク記憶装置10の故障の場合、そのディスク記憶装置10あるいはコネクトアダプタ部100を保守交換する際でも、中継経路が切断せずに次の中継装置へデータを送るためである。
なお、コネクトアダプタ部100を複数実装させ、装置外勘合部120内のバイパススイッチ121を複数実装することにより、ディスク記憶装置10間に複数のチェーンリンク20を設けて、接続できるように実装を拡張することも可能である。
また、装置外勘合部120に接続するパスにつながるパケットバッファ107とディスク記憶装置10内部のスイッチ部5に接続するパスにつながるパスIF部108と、両者を互いに接続するセレクタ109と、チェーンリンク20側のデータのエラーチェックをする入力と出力のエラーチェック回路部105と、スイッチ側パスのデータのエラーチェックをする入力と出力のエラーチェック回路部106と、データ転送手段であるデータ転送制御部110がある。
このデータ転送制御部110は、チェーンリンク20から他のディスク記憶装置10より転送されるアドレス及びコマンドを解析するアドレス解析手段であるアドレス解析部111、アービタ112、アドレス変換手段であるアドレス変換部113、メモリ114、マイクロプロセッサ115を有している。
なお、データ転送制御部110をスイッチ部5と同じプリント基板に実装するようにしてもよく、また、データ転送制御部110のアドレス変換部113をスイッチ部5に実装するようにしてもよい。
なお、本実施の形態のディスク記憶システムは、図1に示した接続構成だけではなく、例えば、図6に示すような、複数のディスク記憶装置10の間を、スイッチを経由して切り替える構成でもよい。このスイッチはあくまでもチェーンリンク20の別形態であり、各ディスク記憶装置10同士の接続を切り替えるものである。
また、図1に示した接続構成を発展させて、図7に示すように、複数のディスク記憶装置10を接続してもよい。これは、各ディスク記憶装置10の四方にコネクタアダプタ部100を配置し、それぞれをチェーンリンク20で接続するものであり、縦のリンクと横のリンクが織り目のように緻密に接続し、ディスク記憶装置10の集合体を成すものである。
次に、本実施の形態のディスク記録システムの動作の概略について説明する。
図8はディスク記録システムの動作の概略を説明するための説明図、図9はホストの認識する論理ボリュームと実態の磁気ディスクの物理ボリュームとの関係を説明するための説明図、図10は自分のディスク記憶装置内部のボリュームの所有者が誰であるかを管理する管理マップを示す図、図11は装置内論理アドレス(LU番号)を説明するための説明図である。
図23や図24に示すような従来のディスク記憶システムでは、接続するためのルータースイッチや、ホストと各装置を接続するインターフェースの故障により、システムはダウンし多大な被害を受け、また、ディスク記憶装置の制御はホスト側で管理されることにより装置の増設時にはホスト側の設定が必要であるが、本実施の形態における図1、図6、図7に示すような構成においては、ホスト側に対して構成の設定を求めることなく運用が可能である。
つまり、図8に示すように、ホストコンピュータAは接続するディスクコントローラAに接続できる磁気ディスクが、実線と点線を合わせた磁気ディスク群と認知しているが、ディスク記憶装置10自身の管理により、実体としてはディスク記憶装置10の各アダプタなどからなるディスクコントローラA、B、C、Dを結ぶチェーンリンク20を介して、ディスクコントローラCの配下の増設ディスクにアクセスされるように動作する。
このように実体の記憶デバイスのボリュームとホストの認識する論理ボリュームを仮想化することによってホスト側に障害時の切り替え設定や、増設による論理パーテーションの設定の労力を減らすことが可能となる。
また、図9に示すように、ホストコンピュータ1が管理している論理ボリューム自体は、実体として接続するディスク記憶装置10の容量以上の仮想ボリュームを持ち、ホストコンピュータ1側の設定をすることなく、各ディスク記憶装置10が融通しあうことで容量分のアクセスをホストコンピュータ1にサービスすることが可能である。
この際、各ディスク記憶装置10において、自分のディスク記憶装置10内部のボリュームの所有者が誰であるかを管理しなければならない。
本実施の形態では、図10に示すような管理情報である管理マップを各ディスク記憶装置10内に保有している。これはホストコンピュータ1から指定されるホスト論理アドレス(LU番号:論理ユニット番号)に対応した自装置の論理アドレスとそのBLK(例として512バイト)単位に管理元装置IDとプロテクト情報をテーブルにし、アクセスするデータをマッピングしている。
図11に示すように、装置内論理アドレス(LU番号)はディスクアレイ構成のように複数のドライブをストライプに物理アドレスを持つことが多い。なお、図1、図2、図6、図7に示す各ディスク記憶装置10に存在する磁気ディスク群6は物理的にはその場所、場所で構成等が異なることもある。
次に、本実施の形態のディスク記録システムの動作の詳細について説明する。
図12はディスク記憶装置のコネクトアダプタ間のプロトコルフェーズを示す図、図13はチェーンリンク上のパケットのフォーマットの一例を示す図、図14は装置間データアドレスフォーマットを示す図、図15は装置間データアドレスマップを示す図、図16は送られたデータの宛先が自分でない場合に次にホッピングする動作を説明するための説明図、図17は当初受信先装置において自分の装置のディスクに空きがない場合、あるいは障害がおこった場合にアドレスを変換して次に中継する動作を説明するための説明図、図18は保管用ストレージに退避するケースを説明するための説明図である。
通常時、つまりホストコンピュータ1から要求されるデータを格納する磁気ディスク群6が自装置にマッピングされるときは、ホストコンピュータ1からの格納要求に対しては自装置内にて処理ができる。しかし自装置外、すなわち他の装置へマッピングされるデータのアクセス要求がきた場合、他の装置に転送し対象の装置が応答する動作を行う。
まず、ホストコンピュータ1から受け付けたデータはまずキャッシュメモリ部4に保管される。そして、デステージさせるディスクエリアがないと認識した場合、コネクトアダプタ部100は、キャッシュメモリ部4に一時に格納されているデータを装置外に転送する。
コネクトアダプタ部100間の転送について、プロトコルはとくに規定はしないし、I/Fを選択すればいいが、ここでは一例として、図12示すようなプロトコルフェーズを示す。アドレス・コマンドフェーズ、データフェーズ、メッセージ(REQ,MAP_UPDATE)フェーズである。
送信元のディスク記憶装置10から受信先のディスク記憶装置10の間を中継装置となるディスク記憶装置10が、それぞれのフェーズごとにデータを順番に渡していく。その際、転送開始のREQのメッセージ、転送終了のSTATUSメッセージの間にアドレス・コマンド、データを送信する。図12に示す例ではライト時のデータ方向であるがリードの際はデータ808の方向が、反対になる。
また、コネクトアダプタ部100は、受信するデータパケットが、どのフェーズのデータでどこが発信元で送信先なのかを常にポーリングしている。そのためデータパケットのフォーマットのヘッダに装置アドレス情報とフェーズ・コマンド情報を載せ、プロトコルを監視させる。このチェーンリンク20上のパケットのフォーマットの例を図13に示す。
このとき転送先アドレスはチェーンリンク20でつながる装置の中のアドレスとなる。コネクトアダプタ部100からのデータを中継するためには、データの責任元、つまり送信元の装置のアドレスと、格納先の装置のアドレスをこのコネクトアダプタ部100のデータ転送制御部110は認識しなくてはいけない。このアドレスのフォーマットは、図14に示す装置間データアドレスフォーマット1111の例のように、ホストコンピュータ1からデータの識別IDと宛先である受信先アドレス、送信元である送信元アドレスを構成させ、これをデータ転送制御部110は解析する。
送信元の装置アドレスは、その装置をチェーンリンク20の中で特定する装置IDとその装置内において管理される装置内論理アドレスがあり、これに対応する受信先の装置の装置アドレスにも、装置IDと装置内論理アドレスがある。装置IDはチェーンリンク20でつながる装置各個が固有で定められている。
また、アドレス解析部111は、転送元の装置のアドレスと転送先装置のアドレスをチェックし、すなわち、装置IDを抽出して、そのIDを元に、図4に示す信号(2)より入力される転送先のアドレスが(A)他の装置に対するアドレスの場合、(B)自分の装置に対するアドレスの場合かをまず判断する。
ここで、アドレス解析部111で判断された(A)と(B)の場合の動作について説明する。
まず、(A)の場合は、送信元とは別のリンクで接続しているディスク記憶装置10へホッピングして中継をする。すなわち、図16に示す中継装置1101の動作となる。
まず、ホストから責任元である送信元装置1100にデータがライト要求がある(ステップ1)。そして、データは送信元装置1100のホストアダプタ部2より、キャッシュメモリ部4に一度、バッファリングされる(ステップ2)。
そして、ディスクへのデステージが不可であるため(ステップ3)、そのデータはコネクトアダプタ部100により受信先装置1102へ装置の外へライト要求として転送する(ステップ4)。ここで送信元装置1100と受信先装置1102のチェーンリンク20の中間に位置する中継装置1101は、送信元装置1100からのデータを一時的に受信することになる。
そして、中継装置1101では、図13に示されたプロトコルパケットのヘッダ部にある送信先装置IDが自分でないことを解析し、となりの装置へ中継しなければならないと判断する。すなわち、中継装置1101では、データを受信し(ステップ5)、アドレスを解析し(ステップ6)、データ送信を実施する(ステップ7)。
そして、受信先装置1102はデータを受信し(ステップ8)、自分の装置に格納できると判断して、データをキャッシュメモリ部4に一旦格納し(ステップ9)、装置内部論理アドレスをアロケートしたら、マップ更新情報を送信元装置1100宛てに発信する(ステップ10)。
その後、装置内部のディスクの物理アドレスを割り当てて、キャッシュメモリ部4よりディスクへデステージングする(ステップ13)。マップ更新情報は各中継装置のホッピングを経て(ステップ11)、送信元装置1100にたどりつき(ステップ12)、送信元のアドレスマップが正しく受信先装置1102に更新される。なおリードの場合は中継にてアドレスの張り替えはない。
なお、ステップ6での具体的な内部の動作としては、図4において、データ転送制御部110により、2つのパケットバッファ107間をセレクタ109を介しアドレスを転送し、装置外勘合部120を介し別の装置へ転送(ホッピング)する。
そして、スイッチバイパス部116のセレクト信号(図4中の(1))を切り替え、
次にくるデータレコードをバイパスさせて次の装置に中継させるという動作を行う。
また、(B)の場合、すなわちアドレスの送信先の装置IDが自分の装置IDと一致した場合は、送信元アドレスをキーにメモリ114に格納される、図15に示す装置間データアドレスマップ1000をサーチし、該当するデータアドレスが登録されているかを確認する。
この装置間データアドレスマップ1000は、借用させている装置における格納先アドレス1010とその本来データの管理している管理元アドレス1020を実際のホスト論理IDをキーに参照される。すなわち管理元アドレス1020の装置ID1004が自分の装置のIDであれば、自分が他の装置に間借りしたデータのアドレスマップの場合であり、また別のケース、格納先アドレス1010の装置IDが自分の装置IDであれば、自分の装置に間借りしているデータのアドレスマップの情報と認識する。
コマンドがライトの場合は、装置間データアドレスマップ1000でホスト論理ID1001をサーチし、格納先アドレスの装置内論理アドレスが登録されていなければ、新規に割り当てられる。
また、コマンドがリードの場合は装置間データアドレスマップ1000をサーチして得られた装置内論理アドレスより、別の装置内の論理・物理アドレス変換テーブルにて物理アドレスに変換して、キャッシュメモリ部4にある場合はキャッシュメモリの物理アドレスから、あるいはキャッシュメモリ部4に存在しない場合はディスクアダプタ部3を介して磁気ディスクの物理アドレスから取り出し、コネクトアダプタ部100より、要求元、すなわちデータの本来の管理元アドレスの装置へデータを送信する。
なお、論理アドレスの単位は、論理ボリュームで管理してもよく、あるいは、ブロック単位や複数ブロックの領域単位でもよい。ただしブロック単位にすれば管理テーブルが大きくなり、論理ボリュームにすれば、膨大なデータを装置外にアクセスすることになる。
図10、図11に示す論理アドレスの例では、LU番号とブロックアドレスにより構成され、RAID構成を加味した論理―物理変換により、物理アドレスに変換され格納される。
次に、データの宛先が自分の装置であり、自分がデータを引き受ける場合の動作について説明する。
まず、データを引き受けられるディスク格納領域があることを確認し、新たに装置内論理アドレスをアロケートする。なお、装置内論理アドレスは、最終的にディスクアダプタ部3により、磁気ディスク群6に対する装置内物理アドレスに変換され、マッピングされることになる。
具体的にはマッピングテーブルを持つ方法や、計算アルゴリズムにより配置をきめる方法などが考えられ、すなわち、装置内論理アドレスをアロケートしたことに呼応して磁気ディスク群6への装置内物理アドレスもマッピングされる。
以上により、アドレスをマッピングしたら、アドレスをキャッシュメモリ部4へ転送する。キャッシュメモリ部4への転送アドレスは装置内の論理アドレスに変換される。この変換についてはデータ転送制御部110内のアドレス変換部113が行い論理アドレスからキャッシュメモリ上への物理アドレスへ変換され、図4に示す(4)に出力される。
スイッチ部5は、その装置内物理アドレスにより内部のデータパスをコネクトアダプタ部100と指定されるキャッシュメモリ部4へ接続を切り替える。次に、コネクトアダプタ部100はデータフェーズのパケットを受信し、これをキャッシュメモリ部4へ一時格納する。
そして、キャッシュメモリ部4よりディスクアダプタ部3が、装置内物理アドレスへデステージングを行い、データが磁気ディスク群6へ格納される。
また、キャッシュメモリ部4へデータを一時、格納した段階でコネクトアダプタ部100は、マップ更新のメッセージフェーズをパケットの中のヘッダ情報にある宛先装置IDを送信元装置のIDにして、次の装置へ転送する。その場合のパケットのヘッダ以外の他の部分すなわちデータには、アドレスのマップ情報が加えられ転送される。またNGの場合は、図13に示すフェーズIDはFF:メッセージアボートとなり、障害情報をデータとして送信する。
これらのメッセージは、各装置のチェーンリンク20を中継され、転送先の装置は受信して、自分のメモリのアドレスマップに対して更新をかける。中継をしている装置に対してはアドレスマップの情報の更新はない。自分に関連しない場合はホッピングするだけである。
次に、自分の装置内の磁気ディスク群6にデータの格納領域がない場合の動作について説明する。
自分の装置内の磁気ディスク群6に格納領域がなかった場合は、自分の装置に格納できない以上は他の装置へ転送し、それを送信元に通知する方針を採択することになる。
よって、このとき受信されたアドレスフェーズのパケットの中のアドレス情報をとなりへ中継すればよく、そこにある転送先の装置アドレスをとなりの装置、あるいは任意の装置にスワップさせる必要がある。
任意の装置を優先的にスワップさせる方針は、図4に示すマイクロプロセッサ115のマイクロプログラムにより、アドレス変換部113へ固定のアドレスへスワップさせる指示をすればよいし、それ以外の指示をしない場合にはとなりの装置IDを採択すればよい。
図4に示すデータ転送制御部110は内部のアドレス変換部113より、アドレスをとなりのアドレスへの張り替え(スワップ)を完了させる。
まず、図17に示すように、当初受信先装置1201は、送信元装置1200より、データ要求とデータを受信したが(ステップ21)、データを格納できないことがわかり(ステップ22,ステップ23)、アドレスを別の受信先装置へ張り替え(ステップ24)、で送信する(ステップ25)。
そして、中継装置を経て(中継装置の動きは図16を参照)、最終受信先装置1202はデータを受信し(ステップ26)、自分の装置に格納できると判断して、データをキャッシュメモリ部4に一旦格納し(ステップ27)、装置内部論理アドレスをアロケートしたら、マップ更新情報を送信元装置1200宛てに発信する(ステップ28)。
その後、装置内部のディスクの物理アドレスを割り当てて、キャッシュメモリ部4より磁気ディスク群6へデステージングする(ステップ31)。マップ更新情報は各中継装置1101のホッピングを経て(ステップ29)、送信元装置1200にたどりつき、送信元のアドレスマップが正しく最終受信先装置に更新される(ステップ30)。なお、リードの場合は中継にてアドレスの張り替えはない。
よって、図16に示すようにホッピング中継を実施し、要求の送信元装置1100と受信先装置1102がデータを中継装置1101の複数を経てやりとりする。なお、任意の装置アドレスを決定する具体的な方法については、後述する。
次に、他の装置にデータが入らない場合の動作について説明する。
まずは、他の装置にデータが入らない場合でNGを報告するケースでは、中継装置1101を多重に経由した結果、引き取りが実施されない場合については、ループを辿って送信元にデータが返されることになる。あるいは、データの代わりにNGのメッセージが送信元の装置が最初に送信した隣の装置とはリング上にて別の側にあるとなりの装置、すなわち送信元の一つ手前の中継装置によって送られなくてはならない。
これは、図17に示すステップ30の代わりに自分の宛先でデータが返信されるか、NGメッセージが送信されるかにより、中継先NGを知る。
この場合、データはディスク格納されないためホストコンピュータ1からのリクエストをそれ以上受けることはデータ保証上不可であり、容量不足をシステムで支えることが不可となる。
また、他の装置にデータが入らない場合で保管用ストレージに退避するケースでは、容量不足をシステムで支えることが不可となるような場合を想定し、たとえば、図18に示すように、バックアップ用のテープストレージ60や通常のディスクより性能は劣るがより廉価で容量の大きいディスクストレージ61等を用意し、送信元への1つ手前の最終受信先装置1202は送信元装置1200にエラーを返さずに、バックアップ用のテープストレージ60やディスクストレージ61等にアドレスを張り替え、送信する(ステップ40)。
そして、バックアップ用のテープストレージ60やディスクストレージ61等はこれを受信し(ステップ41)、データを格納する(ステップ42)。そして、バックアップ用のテープストレージ60やディスクストレージ61等からもコネクトアダプタ部100による受信の報告を受けそれを送信元の装置に送る(ステップ43)。
そして、そのデータは送信元装置1200にたどりつき、送信元のアドレスマップが正しくバックアップ用のテープストレージ60やディスクストレージ61等に更新される(ステップ44)。
この際、テープストレージや廉価ディスクストレージに格納したことは、図15の装置ID1004の例に示す、種別により区別し、送信元へ情報を送ることができる。
また、ホストの接続しない、ホストアダプタ機能のない保管用のディスク筐体をあらかじめ、ループ内に何台か接続させて、ループ内で共用できる予備のディスク容量をあらかじめ準備しておく運用も考えられる。そして次にリードする際には保管ストレージを選択することにより各ディスクコントローラ(DKC)の中継の時間を減らすことができるが、頻繁なアクセスを実施されるデータならば次回は、他のデータとスワップさせるよう送信元の装置でその処理を実施する。その際は後述する、装置間コピー機能を使用してもよい。
また、他の装置にデータが入らない場合で別のループへ転送するケースでは、例えば、図7に示すような接続構成において、ひとつの装置が、複数のコネクトアダプタとそれに接続するループを持つことにより、転送先の装置を他のループの接続するコネクトアダプタ部100を通して転送することが可能である。
いま、図7の中、例(00,2)で示されるコネクトアダプタ部100は装置No.=‘00’でコネクタNo.2のロケーションで表される。装置00から装置‘11’へ転送したい場合には、(00,3)−(01,1)−(01,4)−(11,2)と装置‘01’の内部のスイッチ部5を介してコネクトアダプタ部100同士の中継が可能となる。また別のルートとして装置‘10’を経由してもよく、その際は(00,4)−(10,2)−(10,3)−(11,1)と転送する。
次に、任意の装置にアドレスをスワップさせる場合の相手装置の決定方法について説明する。
まず、特定装置IDを決定する方法としては、アドレスを優先的に任意の装置にスワップさせる方針についていくつか例を示す。
ひとつは、アドレスマップに存在する他装置IDを選択する方針である。これは実績を考慮した選択であり、故障等の情報が事前にわからない場合最も確実な選択である。
さらに特定の装置との供与関係ができた場合は、ステージングされたキャッシュ上のデータの効率が上がりリード時の性能が出ることが予想される。
もうひとつは反対にアドレスマップに存在しない、格納実績のない他装置IDを選択するという方針もある。これは最初の方法だと、集中的にある装置に依存してしまい結果、その装置の容量も不足してしまうことを危惧し、逆に分散化させるという方針である。分散化した配置により、より多くの容量の交替装置の選択ができる。この方針の欠点は分散化することにより複数の装置渡りしているデータのリードアクセスの場合、それぞれのデータをそれぞれの装置でステージするオーバーヘッドがかかる。分散化した配置により、より多くの容量の交替装置の選択ができる。
さらにひとつは、ある特定のグループIDのリストを予め作成しておき、これに従って分散化させるという選択である。ある特定のグループの選択のため、各装置の残容量や負荷状態のパラメータ値を集めリスト化するということも考えられる。
負荷状態と残容量の問い合わせには、図13におけるフェーズID部のメッセージオプション1と送信先IDを“FFFF”にしてブロードキャスト発信をすることを、負荷状態コールと定義したときに、各装置はメッセージを中継する際にデータ部に自分のID+負荷状態指数を表記し、順順につないで送信元に返し、これを送信元がマイクロプロセッサ115が解析してリスト化をして、プロセッサ下のメモリにリストを保管する。
残容量の問い合わせについても、メッセージオプション2と送信先ID“FFFF”の組み合わせにより、残容量コールを定義し、負荷状態コールと同様、情報を入手しリスト化する。
各装置は、あらかじめ設定されている論理デバイス以外に未定義のディスクあるいは未使用の論理デバイスを管理しておき、その使用可能な容量を通知する。
上記リストを残容量、負荷状態についてソートし、残容量にて評価指数の大きいベスト4を選出してグループ化し、その中でデータをホッピングする宛先を選定したりあるいは負荷状態の指数について小さいもの順位のベスト4を選出してグループ化し、その中のデータを選定する方法が考えられる。
また、ロケーションとループ情報による制約条件で転送先を決定する方法としては、前述した特定装置のリストによる検索では、あらかじめ接続可能な装置の情報を全て持つ(あるいは特定グループ範囲の装置の情報を持つ)ことが前提となる。
図1に示すような1重ループでは比較的に容易に考えられるが、実際の装置構成としては、複数のコネクトアダプタ部100と複数のチェーンリンク20が想定される。
図7に示した例では、各装置の4方にコネクトアダプタ部100とリンクによる4つのループに接続させた装置の配置図であった。この装置群の情報をすべてが持つことは望ましいが、膨大な情報量となり、全体の構成の拡大に合わせて拡張するのは現実的ではない。
よって、装置間でデータの授受をする装置群の情報を各装置が管理し、効率のよいターゲット(送信先)の選定をして、中継する装置ごとにその都度、選択を委ねて、最終的に送信先を報告する方法をしている。
中継装置は、自分のコネクトアダプタ部100に接続するループの情報を管理し、距離の近い他装置のアダプタを選んだり、アクセス制限の条件リストにより中継先を選定する方法がある。
この場合、障害情報、空き容量情報、アクセス許可情報等のパラメータで決定される制約条件の装置リストをもとにしてもよく、その情報はメッセージ通信により、装置間にて情報のコミニケーションをとり入力される。
次に、この転送先の決定動作の具体例について説明する。
図19は転送先の決定動作の具体例を説明するための説明図である。
まず、図19に示す装置‘00’がデータを他装置に転送したい場合、接続したことのある装置‘20’、装置‘21’、装置‘22’に転送しようと装置を選ぶ。
(1)例えば、空き領域がある装置で近い(通信距離と接続料金の安い)ターゲットのリストの中でこの3つの装置の順位で一番が装置‘22’だったとする。
そして、装置‘22’をターゲットアドレスとし、(2)自分のループの中で一番近い装置に転送をする。
すなわち、(00,4)からループ接続した(10,2)に接続し、装置‘10’はそのループの中継をして装置‘02’へ転送する。
そして、(02,4)に転送された後、装置‘02’は別ループへ内部のスイッチ部5を通って、(02,1)を選択して、(3)別ループへつなぐこともできるが、そのループ上は負荷が大きい、あるいは同じループ転送の方が効率がいいという判断から、この場合は選択せず、そのまま(12,2)へ転送する。
また、装置‘12’はターゲットである装置‘22’に、(4)近いコネクトアダプタ部100へ内部のスイッチ部5を経て、(12,4)へ転送し、ターゲットの装置‘22’はこれを(22,2)を経て受信し、格納ができることから自分の装置へ格納し、受け取ったことを装置‘00’へ転送する。
次に、中継装置となるディスク記憶装置の転送における付加機能について説明する。
図20は中継時に中継装置がデータをモニターする動作を説明するための説明図、図21は中継装置がモニターしたデータを別ボリュームにして登録する動作を説明するための説明図、図22は受信先データを他の装置にスワップさせる動作を説明するための説明図である。
まず、中継装置がデータをモニターする機能としては、図20に示すように、まず、送信元装置1300よりデータを中継装置1301が受信する(ステップ51)。
そして、データを受信した中継装置1301がアドレスを解析し(ステップ52)、装置IDが自分でないことで、本来は、データをホッピングさせて送信する(ステップ54)だけだが、この機能の際にはキャッシュメモリ部4へ書き込みも並行して実施する(ステップ53)。また、装置内部論理アドレスにアロケートする。
そして、磁気ディスク群6へキャッシュメモリ部4からデステージングする(ステップ55)。
ステップ53とステップ54を並行して実行する方法としては、例えば図4に示すセレクタ109の出力を送信方向のパケットバッファ107と内部パスI/F部108に両方、開くことで実施できる。このモニターデータはたとえば中継装置1301のひとつがデータをロストした場合でも来歴をたどり、送信元装置1300よりリトライせずに、途中の中継装置1301からデータをもう一度取り出して再度送信することにも使用できる。
またデータチェックコードを複数の装置でチェックすることが可能である。また、ログデータとして、各中継装置1301で小量に分散化してデータをもつことも可能である。
また、中継装置がモニターしたデータを別ボリュームにして登録する機能としては、もし、モニターしたデータをマスターデータのコピーとして管理する場合、どの中継装置1301がコピーを格納したかを責任元の送信元装置に知らせなくてはならない。
それは、図21に示すように、図20に示す処理のモニターの各ステップに加えて、メッセージ(アドレス更新)を実施し、その中のマップに、図15に示す格納先アドレス1010のうちの識別子1003に、例えば、複製先装置を示す識別子‘02’を指定して送り(ステップ60)、送信元装置1300は、受信先装置1302のアドレス更新のメッセージを合わせてアドレスマップに追記させておく(ステップ61)。また、この複製先のデータを別のボリュームにしたてたい場合には、ホスト側でホスト論理IDを別のものに更新することで、記憶装置内のアドレスマップも更新を計れば実現可能である。
また、受信先データを他の装置にスワップさせる機能(装置間コピー)としては、他装置に格納しているデータを能動的に別装置に移動したいという場合(例えば、ネットワークのトラフィックや課金の変動で違う装置群に指定したいという場合など)は、管理元装置より、データの装置間のコピーが可能である(移動の場合はコピー後に、元データを廃棄する)。
まず、図22に示すように、管理元装置1400より、送信先装置1402にあるデータを中継装置兼受信装置1401へコピーしたい場合は、管理元装置1400から発行される図13に示すコマンドヘッダでフェーズIDを“20:装置間転送”と指定され、図14に示す装置間データアドレスフォーマット1111内において、受信先アドレスを中継装置兼受信装置1401のアドレスに、そして送信先アドレスを送信先装置1402のアドレスに指定されたコマンドを受信する(ステップ71)。
そして、中継装置兼受信装置1401のコネクトアダプタ部100が受け取り(ステップ72)、送信先装置1402へコマンドを転送し(ステップ73)、送信先装置1402がコマンドを受け取り、装置間コピーと解析し(ステップ74)、自装置内の管理元装置1400の指定のデータを磁気ディスク群6より読み出し(ステップ75)、キャッシュメモリ部4を介してリードして(ステップ76)、中継装置兼受信装置1401へ転送する(ステップ77)。
そして、中継装置兼受信装置1401は受信し、データをキャッシュメモリ部4に一旦格納し(ステップ78)、これを自装置内の領域に格納し(ステップ79)、格納した結果を管理元装置1400へ転送し(ステップ80)、ステップ81、ステップ82を経て管理元装置1400は総置換コピー完了を確認する(ステップ83)。
また、この際、中継装置兼受信装置1401より管理元装置1400へ逆方向に転送して完了を報告してもよい(転送先は中継装置兼受信装置1401が決めてよい)。
この装置間コピーをサポートすることにより、分散して広がったデータをなるべく意図的な配置に再配置することが可能となり、より柔軟なデータ管理が可能となる。
以上のように、本実施の形態では、ディスク記憶装置自体が自律して、複数のディスク記憶装置間でのデータの転送処理を実行し、そのデータの管理情報を、各ディスク記憶装置内に保有しているので、ディスク記憶システムを構成するディスク記憶装置を管理する専用の装置などを設けることなく、ディスク記憶装置間でデータの格納を補完することができ、データ量の増加にすぐ対応できないディスク記憶装置を他のディスク記憶装置が容量を間借りさせることでサービスの劣化を低減させことが可能である。
また、ディスク記憶装置間でアドレスとデータを順繰り渡していくこともでき、ディスク記憶装置間に特別なスイッチを設けなくとも、各ディスク記憶装置が中継しながらデータ転送を行うことが可能である。
また、ディスク記憶装置間は独自のプロトコルでホストに影響させずに実施でき、各ディスク記憶装置が協調しつつもなるべく独立にホストコンピュータからの要求に応えることができ、運用コストの安い比較的容易なストレージプールを実現することが可能である。
また、ディスク記憶装置が中継装置として動作した際、通過データをモニターし、複製データや、転送ログを分散化して保存することでバックアップの軽量化の効果を期待することが可能である。
また、複数のディスク記憶装置内のデータの管理を行うマスターサーバや、複数のディスク記憶装置内に記憶されるデータを蓄積してディスク記憶装置からのリクエストによりデータを出力する蓄積装置などを設ける必要がないため、マスターサーバや蓄積装置などを管理するための管理運用コストを低減させることが可能となる。
なお、本実施の形態では、ディスク記憶装置が自律している例を記載したが、本発明はディスク記憶装置に限られることなく、複数のスイッチやその他の情報処理装置が相互に接続して自律するものであってもよく、これらはディスク記憶装置に含まれるものである。
その場合のスイッチやその他の情報処理装置の各々は、本実施の形態のディスク記憶装置と類似の構成及び動作をすることとなる。
本発明の一実施の形態によるディスク記憶システムの一例を示す構成図である。 本発明の一実施の形態によるディスク記憶システムを構成するディスク記憶装置の一例を示す構成図である。 本発明の一実施の形態によるスイッチ部の一例を示す構成図である。 本発明の一実施の形態によるコネクトアダプタ部の一例を示す構成図である。 本発明の一実施の形態によるコネクトアダプタ部内の装置外勘合部の一例を示す構成図である。 本発明の一実施の形態によるディスク記憶システムの、他の接続構成を示す構成図である。 本発明の一実施の形態によるディスク記憶システムの、他の接続構成を示す構成図である。 本発明の一実施の形態によるディスク記録システムの動作の概略を説明するための説明図である。 本発明の一実施の形態によるホストの認識する論理ボリュームと実態の磁気ディスクの物理ボリュームとの関係を説明するための説明図である。 本発明の一実施の形態による自分のディスク記憶装置内部のボリュームの所有者が誰であるかを管理する管理マップを示す図である。 本発明の一実施の形態による装置内論理アドレス(LU番号)を説明するための説明図である。 本発明の一実施の形態によるディスク記憶装置のコネクトアダプタ間のプロトコルフェーズを示す図である。 本発明の一実施の形態によるチェーンリンク上のパケットのフォーマットの一例を示す図である。 本発明の一実施の形態による装置間データアドレスフォーマットを示す図である。 本発明の一実施の形態による装置間データアドレスマップを示す図である。 本発明の一実施の形態による送られたデータの宛先が自分でない場合に次にホッピングする動作を説明するための説明図である。 本発明の一実施の形態による当初受信先装置において自分の装置のディスクに空きがない場合、あるいは障害がおこった場合にアドレスを変換して次に中継する動作を説明するための説明図である。 本発明の一実施の形態による保管用ストレージに退避するケースを説明するための説明図である。 本発明の一実施の形態による転送先の決定動作の具体例を説明するための説明図である。 本発明の一実施の形態による中継時に中継装置がデータをモニターする動作を説明するための説明図である。 本発明の一実施の形態による中継装置がモニターしたデータを別ボリュームにして登録する動作を説明するための説明図である。 本発明の一実施の形態による受信先データを他の装置にスワップさせる動作を説明するための説明図である。 従来のディスク記憶システムを示す構成図である。 従来のディスク記憶システムを示す構成図である。
符号の説明
1…ホストコンピュータ、10…ディスク記憶装置、2…ホストアダプタ部、3…ディスクアダプタ部、5…スイッチ部、4…キャッシュメモリ部、6…磁気ディスク群、20…チェーンリンク、100…コネクトアダプタ部、107…パケットバッファ、108…パスIF部、109…セレクタ、110…データ転送制御部、111…アドレス解析部、112…アービタ、113…アドレス変換部、114…メモリ、115…マイクロプロセッサ、120…装置外勘合部、121…バイパススイッチ、123…セレクタ、501…パスIF部、502…エラーチェック回路部、503…パケットバッファ、504…セレクタ、505…データ転送制御部、506…アドレス/コマンド解析部、507…アービタ。

Claims (19)

  1. ホストコンピュータと接続する複数のホストインターフェースと、データを格納するディスク装置に接続するディスクインターフェースと、前記データを一時的に格納し、前記ホストインターフェースおよび前記ディスクインターフェースから共通にアクセスできるキャッシュメモリと、前記ホストインターフェース、前記ディスクインターフェースおよび前記キャッシュメモリを接続するスイッチ手段とを含む複数のディスク記憶装置を有するディスク記憶システムにおけるデータ管理方法であって、
    前記複数のディスク記憶装置のそれぞれが、前記ディスク記憶装置間を接続するインターフェース内に、前記複数のディスク記憶装置の情報を保有し、
    前記複数の各ディスク記憶装置自体が、前記複数のディスク記憶装置間でのデータの転送処理を実行し、この転送処理したデータの管理情報を、前記各ディスク記憶装置の前記インターフェース内に保有することを特徴とするデータ管理方法。
  2. 請求項1記載のデータ管理方法において、
    前記複数のディスク記憶装置間でのデータの転送処理は、前記ホストコンピュータからのデータ要求または他のディスク記憶装置からのデータ要求を解析し、その解析結果及び前記管理情報に基づいて実行されることを特徴とするデータ管理方法。
  3. 請求項1または2記載のデータ管理方法において、
    前記複数のディスク記憶装置間でのデータの転送処理を実行する際、前記データのアドレスを転送先のディスク記憶装置のアドレスに張り替えて転送処理を実行することを特徴とするデータ管理方法。
  4. 請求項1、2または3記載のデータ管理方法において、
    前記複数のディスク記憶装置間でのデータの転送処理を実行する際、転送するデータをキャッシュメモリに格納し、第1の転送先のディスク記憶装置が障害のとき、前記キャッシュメモリに格納したデータのアドレスを、第2の転送先のディスク記憶装置のアドレスに張り替えて転送処理を実行することを特徴とするデータ管理方法。
  5. 請求項3または4記載のデータ管理方法において、
    前記転送されたデータを前記ディスク記憶装置内のディスク装置に格納したとき、そのデータの管理情報を前記データを格納したディスク記憶装置から、転送元のディスク記憶装置へ通知することを特徴とするデータ管理方法。
  6. 請求項1、2、3、4または5記載のデータ管理方法において、
    前記複数のディスク記憶装置間でのデータの転送処理は、前記ディスク記憶装置内のディスク装置の格納領域の状態に基づいて実行されることを特徴とするデータ管理方法。
  7. ホストコンピュータと接続する複数のホストインターフェースと、データを格納するディスク装置に接続するディスクインターフェースと、前記データを一時的に格納し、前記ホストインターフェースおよび前記ディスクインターフェースから共通にアクセスできるキャッシュメモリと、前記ホストインターフェース、前記ディスクインターフェースおよび前記キャッシュメモリを接続するスイッチ手段とを含むディスク記憶装置であって、
    少なくとも2つの他のディスク記憶装置と接続され、前記他のディスク記憶装置との間でのデータの転送処理を実行するデータ転送手段を有し、前記他のディスク記憶装置及び前記他のディスク記憶装置以降に接続された複数のディスク記憶装置の情報と前記データ転送手段で転送処理したデータの管理情報を保有するインターフェースを備えたことを特徴とするディスク記憶装置。
  8. 請求項7記載のディスク記憶装置において、
    前記データ転送手段は、前記データのアドレスを解析するアドレス解析手段を含み、前記ホストコンピュータからのデータ要求または前記他のディスク記憶装置からのデータ要求を前記アドレス解析手段により解析し、その解析結果及び前記管理情報に基づいて、データの転送処理を実行することを特徴とするディスク記憶装置。
  9. 請求項8記載のディスク記憶装置において、
    前記データ転送手段は、前記データのアドレスを変換するアドレス変換手段を含み、前記ホストコンピュータからのデータ要求または前記インターフェースに接続された第1のディスク記憶装置からのデータ要求を前記アドレス解析手段により解析し、その解析結果及び前記管理情報に基づいて、アドレス変換手段により前記データのアドレスを前記インターフェースに接続された第2のディスク記憶装置のアドレスに張り替えて転送処理を実行することを特徴とするディスク記憶装置。
  10. 請求項8または9記載のディスク記憶装置において、
    前記データ転送手段は、前記他のディスク記憶装置との間でのデータの転送処理を実行する際、転送するデータを前記キャッシュメモリに格納し、前記インターフェースに接続された第1の転送先のディスク記憶装置が障害のとき、前記キャッシュメモリに格納したデータのアドレスを、前記インターフェースに接続された第2の転送先のディスク記憶装置のアドレスに張り替えて転送処理を実行することを特徴とするディスク記憶装置。
  11. 請求項9または10記載のディスク記憶装置において、
    前記データ転送手段は、前記他のディスク記憶装置から転送されたデータを前記ディスク記憶装置内のディスク装置に格納したとき、そのデータの管理情報を転送元のディスク記憶装置へ通知することを特徴とするディスク記憶装置。
  12. 請求項7、8、9、10または11記載のディスク記憶装置において、
    前記データ転送手段は、前記ディスク記憶装置内のディスク装置の格納領域に基づいて、データの転送処理を実行することを特徴とするディスク記憶装置。
  13. 請求項7、8、9、10、11または12記載のディスク記憶装置において、
    前記データ転送手段と前記スイッチ手段を同じプリント基板に実装したことを特徴とするディスク記憶装置。
  14. 請求項9、10、11または12記載のディスク記憶装置において、
    前記アドレス変換手段を前記スイッチ手段に実装したことを特徴とするディスク記憶装置。
  15. ホストコンピュータと接続する複数のホストインターフェースと、データを格納するディスク装置に接続するディスクインターフェースと、前記データを一時的に格納し、前記ホストインターフェースおよび前記ディスクインターフェースから共通にアクセスできるキャッシュメモリと、前記ホストインターフェース、前記ディスクインターフェースおよび前記キャッシュメモリを接続するスイッチ手段とを含む複数のディスク記憶装置を有するディスク記憶システムであって、
    前記複数のディスク記憶装置は、それぞれ、前記複数のディスク記憶装置間でのデータの転送処理を実行するデータ転送手段を有し、前記複数のディスク記憶装置の情報および前記データ転送手段で転送処理したデータの管理情報を保有するインターフェースを備え、
    前記複数のディスク記憶装置を前記インターフェースを介してループ状に接続することを特徴とするディスク記憶システム。
  16. 請求項15記載のディスク記憶システムにおいて、
    前記複数のディスク記憶装置のデータ転送手段は、前記データのアドレスを解析するアドレス解析手段および前記データのアドレスを変換するアドレス変換手段を含み、
    前記複数のディスク記憶装置のデータ転送手段は、それぞれ、
    前記アドレス解析手段により、隣のディスク記憶装置からのデータ要求が自分のディスク記憶装置に対する要求でないとアドレス解析された場合は、別の隣のディスク記憶装置へデータを中継し、
    前記アドレス解析手段により、隣のディスク記憶装置からのデータ要求が自分のディスク記憶装置に対する要求であるとアドレス解析された場合は、自分のディスク記憶装置のドライブ装置にデータをアクセスできるかどうかを認知し、自分のディスク記憶装置のドライブ装置にデータをアクセスできる場合は、前記データを格納または取り出しを実施し、要求元のディスク記憶装置に管理情報を通知し、自分のディスク記憶装置のドライブ装置にデータをアクセスできない場合は、前記データのアドレスを張り替えて別の隣の装置へデータを中継することを特徴とするディスク記憶システム。
  17. 請求項16記載のディスク記憶システムにおいて、
    前記複数のディスク記憶装置のデータ転送手段は、それぞれ、データのアドレスを張り替える場合は、ループ内の任意のディスク記憶装置のアドレスへアドレスを張り替えることを特徴とするディスク記憶システム。
  18. 請求項17記載のディスク記憶システムにおいて、
    前記複数のディスク記憶装置のデータ転送手段は、それぞれ、あらかじめ用意したリストのグループを指定して前記ループ内の任意の装置を選択することを特徴とするディスク記憶システム。
  19. 請求項16、17または18記載のディスク記憶システムにおいて、
    前記複数のディスク記憶装置のインターフェースに装置外勘合部を接続し、前記装置外勘合部を介して、前記複数のディスク記憶装置をループ状に接続し、
    前記ディスク記憶装置または前記ディスク記憶装置のインターフェースが故障した際、前記装置外勘合部により、隣のディスク記憶装置と別の隣のディスク記憶装置の接続をバイパスすることを特徴とするディスク記憶システム。
JP2003287067A 2003-08-05 2003-08-05 データ管理方法、ディスク記憶装置およびディスク記憶システム Withdrawn JP2005056200A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003287067A JP2005056200A (ja) 2003-08-05 2003-08-05 データ管理方法、ディスク記憶装置およびディスク記憶システム
US10/769,303 US7418549B2 (en) 2003-08-05 2004-01-30 Storage system with disk array controllers that independently manage data transfer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003287067A JP2005056200A (ja) 2003-08-05 2003-08-05 データ管理方法、ディスク記憶装置およびディスク記憶システム

Publications (1)

Publication Number Publication Date
JP2005056200A true JP2005056200A (ja) 2005-03-03

Family

ID=34113996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003287067A Withdrawn JP2005056200A (ja) 2003-08-05 2003-08-05 データ管理方法、ディスク記憶装置およびディスク記憶システム

Country Status (2)

Country Link
US (1) US7418549B2 (ja)
JP (1) JP2005056200A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007042008A (ja) * 2005-08-05 2007-02-15 Hitachi Ltd 記憶制御方法及び記憶制御システム
JP2007122463A (ja) * 2005-10-28 2007-05-17 Fujitsu Ltd 仮想ストレージシステム制御装置、仮想ストレージシステム制御プログラム、仮想ストレージシステム制御方法
JP2012134709A (ja) * 2010-12-21 2012-07-12 Toshiba Corp コンテンツ送受信装置、コンテンツ送受信方法およびコンテンツ送受信プログラム
JP2017182286A (ja) * 2016-03-29 2017-10-05 日本電気株式会社 ストレージ管理システムおよびストレージ管理方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4713902B2 (ja) * 2005-03-01 2011-06-29 株式会社日立製作所 ストレージシステム
JP2006285597A (ja) * 2005-03-31 2006-10-19 Nec Corp 統合ストレージシステム、システム起動方法、およびそのプログラム
JP4740763B2 (ja) * 2006-02-15 2011-08-03 株式会社日立製作所 ストレージシステム及びストレージコントローラ
JP5089896B2 (ja) * 2006-03-17 2012-12-05 株式会社日立製作所 マイクロプロセッサの負荷分散機能を備えたストレージシステム
JP2007293738A (ja) * 2006-04-27 2007-11-08 Hitachi Ltd ストレージシステムおよびストレージシステムの情報処理方法
JP4918824B2 (ja) * 2006-08-18 2012-04-18 富士通株式会社 メモリコントローラおよびメモリ制御方法
US7702953B2 (en) * 2007-01-04 2010-04-20 International Business Machines Corporation Storage management in cascaded replication of data
US7827439B2 (en) * 2007-09-28 2010-11-02 Symantec Corporation System and method of redundantly storing and retrieving data with cooperating storage devices
US7941697B2 (en) * 2008-12-30 2011-05-10 Symantec Operating Corporation Failure handling using overlay objects on a file system using object based storage devices
US8164936B2 (en) * 2009-10-14 2012-04-24 Seagate Technology Llc Switched memory devices
CN105138283A (zh) * 2015-08-11 2015-12-09 北京百度网讯科技有限公司 计算机磁盘、用于计算机磁盘的数据管理方法及装置
CN116192346B (zh) * 2023-02-23 2023-10-27 武汉思创云科技有限公司 一种具有备用通道的计算机数据传输系统

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5155845A (en) * 1990-06-15 1992-10-13 Storage Technology Corporation Data storage system for providing redundant copies of data on different disk drives
US5544347A (en) * 1990-09-24 1996-08-06 Emc Corporation Data storage system controlled remote data mirroring with respectively maintained data indices
JP2550239B2 (ja) * 1991-09-12 1996-11-06 株式会社日立製作所 外部記憶装置システム
JP2831602B2 (ja) * 1995-01-13 1998-12-02 富士通株式会社 圧縮データ管理装置及び圧縮データ管理方法
US5548712A (en) 1995-01-19 1996-08-20 Hewlett-Packard Company Data storage system and method for managing asynchronous attachment and detachment of storage disks
JP3686457B2 (ja) * 1995-08-31 2005-08-24 株式会社日立製作所 ディスクアレイサブシステム
US5680640A (en) * 1995-09-01 1997-10-21 Emc Corporation System for migrating data by selecting a first or second transfer means based on the status of a data element map initialized to a predetermined state
US6101497A (en) * 1996-05-31 2000-08-08 Emc Corporation Method and apparatus for independent and simultaneous access to a common data set
US6477627B1 (en) * 1996-05-31 2002-11-05 Emc Corporation Method and apparatus for mirroring data in a remote data storage system
JP3671595B2 (ja) * 1997-04-01 2005-07-13 株式会社日立製作所 複合計算機システムおよび複合i/oシステム
JPH10320261A (ja) 1997-05-19 1998-12-04 Matsushita Electric Ind Co Ltd ファイル蓄積管理システム
JPH1173713A (ja) 1997-08-29 1999-03-16 Matsushita Electric Ind Co Ltd データ保存システム
JPH1185710A (ja) * 1997-09-16 1999-03-30 Toshiba Corp サーバ装置およびファイル管理方法
US6421711B1 (en) * 1998-06-29 2002-07-16 Emc Corporation Virtual ports for data transferring of a data storage system
US7107395B1 (en) * 1998-12-31 2006-09-12 Emc Corporation Apparatus and methods for operating a computer storage system
US6209002B1 (en) * 1999-02-17 2001-03-27 Emc Corporation Method and apparatus for cascading data through redundant data storage units
US6453354B1 (en) * 1999-03-03 2002-09-17 Emc Corporation File server system using connection-oriented protocol and sharing data sets among data movers
US6484229B1 (en) * 1999-03-05 2002-11-19 Hitachi, Ltd. Magnetic disk apparatus
US6640278B1 (en) * 1999-03-25 2003-10-28 Dell Products L.P. Method for configuration and management of storage resources in a storage network
US6446141B1 (en) * 1999-03-25 2002-09-03 Dell Products, L.P. Storage server system including ranking of data source
US6553408B1 (en) * 1999-03-25 2003-04-22 Dell Products L.P. Virtual device architecture having memory for storing lists of driver modules
US6697367B1 (en) * 2000-06-12 2004-02-24 Emc Corporation Multihop system calls
JP2002014777A (ja) * 2000-06-29 2002-01-18 Hitachi Ltd データ移行方法並びにプロトコル変換装置及びそれを用いたスイッチング装置
US6766430B2 (en) * 2000-07-06 2004-07-20 Hitachi, Ltd. Data reallocation among storage systems
US6457109B1 (en) * 2000-08-18 2002-09-24 Storage Technology Corporation Method and apparatus for copying data from one storage system to another storage system
JP3578075B2 (ja) * 2000-10-13 2004-10-20 日本電気株式会社 ディスクアレイ制御装置及びディスクアレイ制御方法
US20020194428A1 (en) * 2001-03-30 2002-12-19 Intransa, Inc., A Delaware Corporation Method and apparatus for distributing raid processing over a network link
US6662282B2 (en) * 2001-04-17 2003-12-09 Hewlett-Packard Development Company, L.P. Unified data sets distributed over multiple I/O-device arrays
JP4060552B2 (ja) * 2001-08-06 2008-03-12 株式会社日立製作所 記憶装置システム、および、記憶装置システムの構成方法
US20030105931A1 (en) * 2001-11-30 2003-06-05 Weber Bret S. Architecture for transparent mirroring
JP2003248605A (ja) * 2002-02-26 2003-09-05 Hitachi Ltd ストレージシステム、主記憶システム、副記憶システム、及びそのデータ複写方法
US6954839B2 (en) * 2002-03-13 2005-10-11 Hitachi, Ltd. Computer system
JP2003296034A (ja) * 2002-04-08 2003-10-17 Hitachi Ltd ディスクサブシステムとその制御方法
JP4014923B2 (ja) * 2002-04-30 2007-11-28 株式会社日立製作所 共有メモリ制御方法および制御システム
JP2003345642A (ja) 2002-05-22 2003-12-05 Hitachi Ltd ストレージシステム、ディスク装置、オブジェクト管理サーバ、及びそのデータアクセス方法
JP4189171B2 (ja) * 2002-05-24 2008-12-03 株式会社日立製作所 ディスク制御装置
JP2004013367A (ja) * 2002-06-05 2004-01-15 Hitachi Ltd データ記憶サブシステム
JP4483168B2 (ja) * 2002-10-23 2010-06-16 株式会社日立製作所 ディスクアレイ制御装置
US6957303B2 (en) * 2002-11-26 2005-10-18 Hitachi, Ltd. System and managing method for cluster-type storage
JP4107083B2 (ja) * 2002-12-27 2008-06-25 株式会社日立製作所 高可用ディスク制御装置とその障害処理方法及び高可用ディスクサブシステム
US7085958B2 (en) * 2003-01-17 2006-08-01 International Business Machines Corporation System and method for isolating a faulty switch, storage device or SFP in a daisy-chained configuration

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007042008A (ja) * 2005-08-05 2007-02-15 Hitachi Ltd 記憶制御方法及び記憶制御システム
JP2007122463A (ja) * 2005-10-28 2007-05-17 Fujitsu Ltd 仮想ストレージシステム制御装置、仮想ストレージシステム制御プログラム、仮想ストレージシステム制御方法
JP4550717B2 (ja) * 2005-10-28 2010-09-22 富士通株式会社 仮想ストレージシステム制御装置、仮想ストレージシステム制御プログラム、仮想ストレージシステム制御方法
US7913042B2 (en) 2005-10-28 2011-03-22 Fujitsu Limited Virtual storage system control apparatus, virtual storage system control program and virtual storage system control method
JP2012134709A (ja) * 2010-12-21 2012-07-12 Toshiba Corp コンテンツ送受信装置、コンテンツ送受信方法およびコンテンツ送受信プログラム
US8719439B2 (en) 2010-12-21 2014-05-06 Kabushiki Kaisha Toshiba Content transmitting and receiving device, content transmitting and receiving method, and content transmitting and receiving program product
JP2017182286A (ja) * 2016-03-29 2017-10-05 日本電気株式会社 ストレージ管理システムおよびストレージ管理方法

Also Published As

Publication number Publication date
US7418549B2 (en) 2008-08-26
US20050033912A1 (en) 2005-02-10

Similar Documents

Publication Publication Date Title
JP4338068B2 (ja) ストレージシステム
US7577812B2 (en) Storage controlling unit
US6757753B1 (en) Uniform routing of storage access requests through redundant array controllers
US6654831B1 (en) Using multiple controllers together to create data spans
US8340087B2 (en) Storage subsystem
US6732104B1 (en) Uniform routing of storage access requests through redundant array controllers
US7774641B2 (en) Storage subsystem and control method thereof
US8312233B2 (en) Storage system that is connected to external storage
JP4508612B2 (ja) クラスタ型ストレージシステム及びその管理方法
US7181578B1 (en) Method and apparatus for efficient scalable storage management
US6886054B2 (en) Storage system, switch, storage medium having a program, storage system management method to manage data frames output from a switch to storage locations using correspondence data in a switch
JP4528551B2 (ja) ストレージシステム
JP4014923B2 (ja) 共有メモリ制御方法および制御システム
JP4790372B2 (ja) ストレージのアクセス負荷を分散する計算機システム及びその制御方法
JP2005056200A (ja) データ管理方法、ディスク記憶装置およびディスク記憶システム
US6922762B2 (en) Clustering storage system
US20060041777A1 (en) Method and apparatus for seamless management for disaster recovery
JP4786255B2 (ja) ストレージシステム及び記憶制御方法
US7984260B2 (en) Storage system provided with a plurality of controller modules
JP2005275829A (ja) ストレージシステム
JPWO2008136075A1 (ja) ストレージ管理プログラム、ストレージ管理装置およびストレージ管理方法
JP2002366398A (ja) クラスタ構成記憶システム
CN100495312C (zh) 存储控制系统及其处理节点
JP2004145497A (ja) ディスクアレイ制御装置
US7493443B2 (en) Storage system utilizing improved management of control information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060705

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090601