JP4163298B2 - 記憶システムへのデータ書き込み方法 - Google Patents

記憶システムへのデータ書き込み方法 Download PDF

Info

Publication number
JP4163298B2
JP4163298B2 JP23586298A JP23586298A JP4163298B2 JP 4163298 B2 JP4163298 B2 JP 4163298B2 JP 23586298 A JP23586298 A JP 23586298A JP 23586298 A JP23586298 A JP 23586298A JP 4163298 B2 JP4163298 B2 JP 4163298B2
Authority
JP
Japan
Prior art keywords
log
disk
data
writing
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP23586298A
Other languages
English (en)
Other versions
JPH11119919A (ja
Inventor
ダグラス・エル・ヴォイグト
ドン・エル・ブルケス
キルク・エー・ハンソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of JPH11119919A publication Critical patent/JPH11119919A/ja
Application granted granted Critical
Publication of JP4163298B2 publication Critical patent/JP4163298B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/12Formatting, e.g. arrangement of data block or words on the record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B19/00Driving, starting, stopping record carriers not specifically of filamentary or web form, or of supports therefor; Control thereof; Control of operating function ; Driving both disc and head
    • G11B19/02Control of operating function, e.g. switching from recording to reproducing
    • G11B19/12Control of operating function, e.g. switching from recording to reproducing by sensing distinguishing features of or on records, e.g. diameter end mark
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/002Programmed access in sequence to a plurality of record carriers or indexed parts, e.g. tracks, thereof, e.g. for editing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/20Disc-shaped record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B2220/00Record carriers by type
    • G11B2220/40Combinations of multiple record carriers
    • G11B2220/41Flat as opposed to hierarchical combination, e.g. library of tapes or discs, CD changer, or groups of record carriers that together store one title
    • G11B2220/415Redundant array of inexpensive disks [RAID] systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は一般的にはデータ記憶システムに関し、特にディスクアレイ記憶システムのためのトランザクションログ( transaction log)管理に関する。
【0002】
【従来の技術】
コンピュータシステムの速度、信頼性および処理能力は絶えず進歩し続けている。その結果、コンピュータはより複雑で高度なアプリケーションを処理することができる。コンピュータの改良にともなって、大量記憶および入出力(I/O)装置の性能に対する要求も高くなる。したがって、進歩し続けるコンピュータシステムに性能上つりあう大量記憶システムを設計することが常に必要とされている。
【0003】
本発明は特にディスクアレイ型の大量記憶装置に関する。ディスクアレイデータ記憶システムは単一の大量記憶システムを形成するように構成され、統合された多数の記憶ディスクドライブ装置を有する。大量記憶システムには、コスト、性能および利用可能性という3つの主要な設計評価基準がある。メガバイトあたりのコストが低く、入出力性能が高く、データの利用可能性が高いメモリ装置を製作することが最も望ましい。“利用可能性"とは、記憶システムに記憶されたデータにアクセスする能力のことであり、またなんらかの故障があった場合に連続動作を保証する能力のことをいう。通常、データの利用可能性は冗長性を用いて提供され、この場合データあるいはデータ間の関係が複数の場所に記憶される。冗長データの記憶には、“ミラー"法および“パリティ"法の2つの一般的な方法がある。
【0004】
【発明が解決しようとする課題】
ディスクアレイデータ記憶システムの設計にあたって発生する問題の1つは、システムの誤りあるいは故障の場合における記憶されたデータの正確なマッピング情報の保持の問題に関係するものである。これは前記の冗長データ記憶法のいずれかあるいはその両方を用いるシステムについていえることである。したがって、ディスクアレイマッピング情報の管理において、誤りから回復する目的のためには、最近変更されたマッピング情報がディスク上に確実に記憶されるようにする必要がある場合が多い。このディスク書き込みの必要性は、(i)時間に基づいた頻度状態の更新、(ii)ログページ・フルが状態、あるいは(iii)特定のホストによる要求等のいくつかの理由で発生する。一般的には、最近のマッピング情報の変更は、ディスクアレイ機能の性能対して最適化されたデータ構造内におけるランダムな場所に蓄積され、さらに他のデータ構造より高速にディスクに書き込む(ポストする( post ))ことができるログに順次蓄積される。この技術はトランザクション処理技術においては周知である。しかし、ポストの必要性が進行中の他のディスク読み出しあるいは書き込み動作と同時に発生してシステム内に入出力の競合が生じるという問題が発生する場合がある。かかる入出力競合は、特にポストが頻繁に発生する場合にシステム上の重要な性能を阻害することが多い。これはディスクにログを1回ポストするには複数の入出力事象が必然的に発生するためである。たとえば、通常、ログページはまず無効と表示される(すなわち、更新が必要である)。次に、ログページはディスクにコピーされ、その後有効と表示される。最後に、冗長システムでは、冗長ログページがディスクにコピーされる。
【0005】
以上のことから、また増大し続ける計算速度および管理対象となる膨大な情報量から、ディスクアレイシステム等の性能の改善が常に必要とされている。
【0006】
したがって、本発明はディスクアレイマッピング情報の管理システムの性能を向上させることを目的とする。また、複数の利用可能な記憶ディスクから選択された任意の最も使用頻度の低いディスクへのログ書き込みを管理および分散してログ入出力と進行中の他の入出力との間におけるディスクアクセスの競合を低減することによって、ディスクログ書き込みのシステム性能を改善し、さらにシステムの誤り又は故障時に記録を確実に回復可能にすることを目的とする。
【0007】
【課題を解決するための手段】
本発明による記憶システムへの書き込み方法は、コンピュータによって行われる、複数の記憶媒体(12)を有する記憶システム(10)への書き込み方法であって、
(a)第1のトランザクションログを記憶媒体(12)に書き込む第1の要求を示す第1の基準を検出することと、
(b)第1の要求に応じて、第1のトランザクションログを、最低使用頻度の記憶媒体であるかないかにかかわらず、記憶媒体(12)に書き込むことと、
(c)第2のトランザクションログを記憶媒体(12)に強制引出し的に書き込む要求を含む第2の要求であって、第2のトランザクションログを記憶媒体(12)に書き込む第2の要求を示す第2の基準を検出することと、
(d)複数の記憶媒体(12)から最低使用頻度の記憶媒体を選択することと、
(e)第2の要求に応じて、第2のトランザクションログを選択された最低使用頻度の記憶媒体へ書き込むこととを含むことを特徴とする。
また、本発明による記憶システムは、
(a)データ記録(110)を保持する第1のメモリ(55)と、
(b)第1のメモリに接続された複数の記憶媒体(12)と、
(c)第1のメモリ(55)の状態を検出する手段(16)と、
(d)第1のメモリにおける第1の検出された状態に応答して第1の記憶管理基準にしたがって記憶媒体(12)にデータ記録を書き込む手段(16)と、
(e)第1のメモリにおける第2の検出された状態に応答して第2の記憶管理基準にしたがって記憶媒体(12)にデータ記録を書き込む手段(16)と
を含み、
第1の記憶管理基準は、最低使用頻度の記憶媒体であるかないかにかかわらず、記憶媒体(12)への書き込みを示す基準を含み、第2の記憶管理基準は、複数の記憶媒体における最低使用頻度の記憶媒体への書き込みを示す基準を含み、第1のメモリ(55)における第1の検出された状態は、第1のメモリの一部がデータ記録で満たされていることを示す状態を含み、第1のメモリ(55)における第2の検出された状態は、第1のメモリにおいて所定の部分がデータ記録で満たされる前に、第1のメモリ(55)内のデータ記録を複数の記憶媒体(12)に強制引出し的に書き込む要求を示す状態を含むことを特徴とする。
【0008】
一実施形態における本発明の原理によれば、ディスクドライブ等の複数の記憶媒体を有する記憶システムにおいて、第1メモリに記憶されたトランザクションログが、2つの異なるログ領域に選択的にポストされる。詳細には、第1メモリのトランザクションログのページ・フル状態が検出されると、ポストは " ディスクログ " 領域に対して行なわれる。ポスト要求がトランザクションログのページ・フル状態が検出される前に発生すると、ポストはただちに " ステージングログ " 領域の最も使用頻度の低いディスクに対して行なわれる。
他の原理によれば、"ディスクログ"へのポストは通常の記憶システム管理技術およびデータ冗長性技術を用いて行なわれる。一方、"ステージングログ"領域へのポストは、ステージングログのデータが記憶媒体上で冗長な状態で保持されることのないように通常の記憶システムデータ管理および冗長性技術を用いずに行なわれる。冗長性はトランザクションログがステージングログ領域にコピーされることに加えて第1メモリに残ることによって維持される。
【0009】
ステージングログ領域は複数の記憶媒体のそれぞれに確保されたスペースを含み、かかる確保されたスペースは各記憶媒体上で論理的に分離された部分に分割される。この構成によって、ステージングログへのポストを確保された部分の間で“トグルする( toggle )"ことができる。したがって、2つの連続するステージングログポストによって、どのディスクが最も使用頻度が低いかにかかわりなく確保された領域の同じ部分が重ね書きされることはない。
【0010】
他の原理によれば、記憶媒体上のログ領域にポストされるデータ記録にシーケンス番号およびディスク群番号が割り当てられる。ディスクログ領域およびステージングログ領域からのデータの回復においては、シーケンス番号およびディスク群番号が参照されて完全なトランザクションログが適正に再構築される。
【0011】
本発明の他の目的、利点および機能は以下の説明から明らかになるであろう。
【0012】
【発明の実施の形態】
図1には、本発明の分散書き込みディスクログ法を用いたデータ記憶システム10のブロック図を示す。図示する例では、データ記憶システム10は階層的ディスクアレイ11を含むディスクアレイデータ記憶システムである。本発明は非階層的アレイ(図示せず)にも適用可能である。ディスクアレイ11はRAID(Redundant Array of Independent Disks)記憶システムを実施するための複数の記憶ディスク12を含む。データ記憶システム10はディスクアレイ11に結合され記憶ディスク12との間のデータ転送を調整するディスクアレイコントローラ14を含み、さらにRAID管理システム16を含む。RAID管理システム16は本発明の分散書き込みディスクログ法を実行する手段を含む。
【0013】
本明細書においては、“ディスク"とは自己の記憶故障を検出することのできる任意の不揮発性のランダムアクセス可能・書き換え可能な大量記憶装置である。ディスクには、回転磁気ディスクおよび光ディスクとソリッドステートディスクの両方あるいは(PROM、EPROMおよびEEPROM等の)不揮発性電子記憶素子を含む。“ディスクアレイ"という用語は、ディスクと、ディスクを1つあるいはそれ以上のホストコンピュータに接続するのに要するハードウエアと、物理的ディスクの動作を制御しそれらをホスト動作環境に1つあるいはそれ以上の仮想ディスクとして提示するのに必要な管理ソフトウエアの集合である。“仮想ディスク"は管理ソフトウエアによってディスクアレイ中に実現される抽象的存在である。
【0014】
“RAID"という用語はその物理的記憶容量の一部が記憶容量の残りの部分に記憶されたユーザデータに関する冗長な情報の記憶に用いられるディスクアレイを意味する。この冗長情報によって、このアレイを構成するディスクの1つあるいはこのアレイへのアクセス経路が故障した場合にユーザデータを再生することができる。RAIDシステムについては、ミネソタ州Lino LakesのREID Advisory Boardから1993年6月9日に刊行された“The RAID Book: A Source Book for RAID Technology"に詳細に説明されている。RAIDシステムを本発明との関係において例示するが、本発明は非RAIDシステムにも適用可能であることはいうまでもない。
【0015】
ディスクアレイコントローラ14は、small computer system interface(SCSI)等の1つあるいはそれ以上のインターフェースバス13を介してディスクアレイ11に結合されている。RAID管理システム16はインターフェースプロトコル15によってディスクアレイコントローラ14に操作的に結合されている。RAID管理システム16は図示するように別個の要素として(すなわちソフトウエアあるいはファームウエアとして)実施することもでき、あるいはディスクアレイコントローラ14内あるいはホストコンピュータ内に構成して、ディスクの記憶および信頼性レベルの制御、さまざまな信頼性の記憶装置レベル間でのデータ転送、および本発明の分散書き込みディスクロギングの実施を行なうデータ管理手段を提供することもできる。また、データ記憶システム10は入出力インターフェースバス17を介してホストコンピュータ(図示せず)に結合されている。
【0016】
図示するシステムでは、ディスクアレイコントローラ14はディスクアレイコントローラ“A"14Aおよびディスクアレイコントローラ“B"14Bからなるデュアルコントローラとして実施される。デュアルコントローラ14Aおよび14Bは一方のコントローラが動作不能となったとき連続的なバックアップと冗長性を供給することによって信頼性を向上させる。しかし、本発明の方法は単一のコントローラあるいは他のアーキテクチャで実施することができる。実際に、本発明は完全で正確なディスクログの維持がデュアルコントローラ環境におけるよりも重要である単一コントローラアーキテクチャにおいて特に有益である。
【0017】
階層的ディスクアレイ11は物理的記憶スペースと1つあるいはそれ以上の仮想記憶スペースを含む異なる記憶スペースとして特徴付けることができる。たとえば、ディスクアレイ11内の記憶ディスク12は、複数のディスク20のミラーグループ18および複数のディスク24のパリティグループ22に構成されるものとして概念化することができる。記憶装置のかかる諸相はマッピング技術を用いて関係付けられる。たとえば、ディスクアレイの物理的記憶スペースは記憶領域をさまざまなデータ信頼性レベルに応じて区分した仮想記憶スペースにマップすることができる。仮想記憶スペース内の領域の一部をミラーすなわちRAIDレベル1の第1の信頼性の記憶レベルに割り当て、他の領域をパリティすなわちRAIDレベル5の第2の信頼性の記憶レベルに割り当てることができる。かかる領域は同じディスクあるいは別々のディスク上に構成することができ、また任意の組み合わせのディスク上に構成することもできる。
【0018】
データ記憶システム10はディスクアレイ11のマッピングに用いる仮想マッピング情報の永続的な記憶を可能とするメモリマップ記憶域21を含む。このメモリマップ記憶域はディスクアレイの外部にあり、好適にはディスクアレイコントローラ14に常駐する。メモリマッピング情報は異なるビュー( view )の間でさまざまなマッピング構成が変化するにつれてディスクアレイコントローラ14あるいはRAID管理システム16によって連続的あるいは定期的に更新することができる。
【0019】
好適には、メモリマップ記憶域21はそれぞれディスクアレイコントローラ“A"14Aおよびディスクアレイコントローラ“B"14Bに設けられた2つの不揮発性RAM( Non-Volatile RAM )21Aおよび21Bとして実施される。これら2つのNVRAM21Aおよび21Bはメモリマッピング情報の冗長記憶を可能とする。仮想マッピング情報はミラー冗長性技術によってNVRAM21AおよびNVRAM21Bの両方に複製され記憶される。これによって、NVRAM21Aをオリジナルのマッピング情報の記憶にのみ用い、NVRAM21Bを冗長マッピング情報の記憶にのみ用いることができる。
【0020】
図示するように、ディスクアレイ11は複数の記憶ディスク12を有する。記憶ディスク12上の冗長性の管理はRAID管理システム16によって統御される。ユーザすなわちホストアプリケーションプログラムから見た際、アプリケーションレベルの仮想ビューによって記憶ディスク12上の利用可能な記憶スペースを示す1つの大きな記憶容量を表わすことができる。RAID管理システム16はこの物理的記憶スペース上でのRAID領域の構成を動的に変更することができる。その結果、RAIDレベル仮想ビュー内のRAID領域のディスクへのマッピングおよびフロントエンド仮想ビューのRAIDビューへのマッピングは一般的にはある変化の状態ということになる。NVRAM21AおよびNVRAM21B内のメモリマップ記憶域は、RAID管理システム16によるRAID領域のディスクへのマッピングに用いられる現在のマッピング情報および2つの仮想ビューの間でのマッピングに用いられる情報を保持する。RAID管理システムはRAIDレベルのマッピングを動的に変更するとき、メモリマップ記憶域のマッピング情報をかかる変更を反映するように更新する。
【0021】
しかし、ディスクアレイに用いられるRAID機構すなわちデータ記憶機構にかかわりなく、メモリマップ記憶域21は一般的にはシステムの使用時全体を通じて常に変化する状態にあることは明らかである。したがって、メモリマップログ記録がメモリに保持され、RAID管理システム16によってメモリからディスクに絶えずポストされ、NVRAM21の損失時にかかる記録が確実に回復されるようにする。よって、本発明は複数の利用可能な記憶ディスク12から選択された任意の最も使用頻度の低いディスクへのログ書き込みを管理および分散してログ入出力と進行中の他の入出力との間におけるディスクアクセスの競合を低減することによってディスクログ書き込みのシステム性能を改善するものである。一般的には、これはログの新しい部分を保持するために各記憶ディスク12上に“ステージングログ"領域を確保することによって行なわれる。そして、トランザクションログメモリのページがいっぱいになる前にポスト要求が発生した場合、ポストは最も使用頻度の低いディスクに確保された“ステージングログ"領域にほとんど即時に実行される。続いて、ログの回復が必要である場合、すべての記憶ディスク12からの断片がまとめられて単一の完全なイメージが形成される。
【0022】
図2は、本発明の分散ログ書き込みディスクログ法を示すブロック図である。NVRAMマップ45はデータ記憶システム10に用いられるデータが記憶されるディスクアレイコントローラ14A/14B(図1)上における不揮発性のメモリマップ記憶域21の部分集合を表わす。ディスクマップ50はディスクアレイ11に(冗長的に)属するNVRAMマップ45の従来のディスクマップイメージである。ディスクマップ50へのNVRAMマップ45の定期的記憶(ポスト)によって誤り訂正を行なうために、NVRAMマップ45の内容の冗長コピーをディスクに維持する手段が提供される。一般的には、ディスクマップ50へのNVRAMマップ45のポストは、通常のシステム処理および入出力競合状態下で可能である際に(RAID管理システム16による制御のもとに)バックグラウンド処理として実行される。よって、ディスクマップ50へのNVRAMマップ45データのポストは、入出力およびディスクスペースに関する通常のシステム競合の影響を受け、したがってポストが実際にいつ発生するかについては不確定要素がある。
【0023】
RAMログイメージ(RLI)55もまた不揮発性メモリ21の部分集合である。あるいはこれは別個の(好適には不揮発性の)メモリとすることもできる。RLI55はNVRAMマップ45内で発生するインクリメンタルな変化を迅速に記憶/記録するのに用いられる。一実施形態では、RLI55は16(図ではN)のアドレス指定可能な64Kバイトページを含むが、他の構成も可能である。その後RAID管理システム16からの要求があった際、RLI55に記憶されたインクリメンタルな変化はディスクログ60あるいはディスクステージングログ65にポストされる。
【0024】
いくつかの要因によって、RAID管理システム16にRLI55からディスクログ60あるいはディスクステージングログ65へのデータのポスト要求を行なう。たとえば、一実施形態では、RLIが“ページ・フル"状態になった際、ディスクログ60への“排出( flush)"ポスト要求が発生する。“排出"ポスト要求が発生すると、RLI55からのトランザクションログデータのフル・ページがディスクログ60に書き込まれる。一方、(i)時間に基づく頻度の要求が発生するか、(ii)ある特定のホスト要求を受けた場合に、ディスクステージングログ65への“強制引出し"ポスト要求が発生する。“強制引出し"ポスト要求が発生すると、RLI55から1つあるいはそれ以上のトランザクションログデータのフル・ブロックがディスクステージングログ65に書き込まれる。この1つあるいはそれ以上のブロックには、前に完全に書き込まれておらず、また未書き込みの1つあるいはそれ以上のトランザクションログ記録を含む(現在のページ内の)ブロックが含まれる。ディスクログ60に“排出"ポストで書き込みされるページおよびディスクステージングログ65に“強制引出し" ポストで書き込みされるブロックをここではRLI55の“未書き込み"データと称する(ただし、“排出" ポストで書き込みされたページはそれ以前にディスクステージングログ65に“強制引出し" ポストで書き込みされた記録を含む場合がある)。いずれの場合にも、(ディスクログ60あるいはディスクステージングログ65への)かかるポストによって、(RLI55で捕捉された)NVRAMマップ45の変化が、ディスクマップ50が更新されていない際にNVRAM21に損失が生じた場合においての、誤り回復目的のためにディスクアレイ11に確実に記憶されることを保証する。
【0025】
ディスクログ60はディスクアレイ11(図1)上に常駐するRLI55の従来と同様のディスクイメージである。好適には、ディスクログ60はRLI55と同様に多数のデータページを記憶することができる。図示するように、ディスクログ60にはデータ記憶用のNのページが示され、また従来と同様に、連続的あるいは円形にリンクすることができる。ディスクログ60は(図1の)通常のデータ冗長性機構を用いてディスクアレイ11上に記憶および管理される。したがって、ディスクログ60へのRLI55における“未書き込み"内容の“排出"ポストは通常の入出力状態で発生し、ディスクアクセスおよびスペースのためのシステム入出力競合の影響を受ける。ディスクログ60は一般的にはディスクマップ50より頻繁に更新されるが、ディスクログ60は(RLI55中で捕捉された)NVRAMマップ45へのインクリメンタルな変化のみを保持するのに対して、ディスクマップ50は(最終更新時の)NVRAMマップ45の完成イメージを保持する。
【0026】
ディスクステージングログ65はディスクアレイ11(図1)のディスクの各部分を表わす確保されたステージング領域70、75、80、85、90、95、100および105を含む。上述したように、一実施形態では、ディスクステージングログ65は指定された事象の発生時あるいは“ページ・フル"状態以外の時にRLI55の内容の記憶に用いられる。しかし、このポスト基準には当業者には明らかなようにシステム設計の変更および/またはユーザによる優先的な指示に合わせて自由度を持たせることができる。いずれの場合にも、(“ページ・フル"状態以外の)RAID管理システム16によって要求された所定の事象が発生した場合、RLI55はその“未書き込みの"内容をディスクステージングログ65のディスク1〜Mのうち最も使用頻度の低いディスクに“強制引出し"する。最低使用頻度のディスクはディスクアレイ11のディスク1〜Mの入出力動作をモニターすることによって検出される。
【0027】
基本的には、最低使用頻度のディスクへRLI55を“強制引出し"することによって、時間の経過とともにディスクアレイ全体にトランザクションログの分散書き込みが実行される。これは、所定の単一のディスクログ60へのRLI55のページ・フル“排出"とは対照的である。パリティ冗長機構を用いる場合、ディスクログ60は実際には複数のディスクに分散させることができるが基本的には“単一の"すなわち“非分散の"ディスクログである。これは(冗長コピーを考えなければ)1つのディスクドライブ上で1つの基底アドレスのみを用いてログ全体をアドレス指定/アクセスすることができるためである。
【0028】
最低使用頻度のディスクが選択されるため、“強制引出し"ポストが(進行中の他のシステム呼び出し/書き込み入出力動作との)入出力競合が低減された状態で発生するという利点がある。したがって、ディスクマップ50あるいはディスクログ60のポストとは異なり、ディスクステージングログ65へのこの分散書き込みは一般的にはただちに(あるいは、少なくともより迅速に)完了する。さらに、“強制引出し"ポストは一般的には転送される未書き込みブロックが最小限であるため“排出"ポストより高速である。
【0029】
ディスクログ60とは異なり、ディスクステージングログ65はRLI55のインクリメンタルな変化をディスクアレイ11全体にわたって分散した非冗長的な態様で保持する。これは、ディスクステージングログ65に発生する書き込みがRAID管理システム16の通常の冗長性機構から除外されることから非冗長的である。したがって、ディスクステージングログ65へのポストにおいて発生する入出力ステップはディスクログ60の場合に比べて少なくとも1ステップ少ない。トランザクションログはステージングログ領域にコピーされることに加えて第1メモリ(RLI55)にも残るため、“強制引出し"ポスト後にも冗長性が維持される。
【0030】
一実施形態では、ディスクアレイ11のディスク1〜Mはそれぞれ分散されたログの記憶のために確保された専用のスペース量を有する。たとえば、図示するそれぞれのディスク上には2つの64Kバイトページ70/75、80/85、90/95および100/105が確保される。ディスクステージングログポスト処理中の故障の場合に発生する可能性のある有効データの重ね書き(および損失)を防止するために、それぞれのディスク上に少なくとも2つのページが確保される。すなわち、RLI55はディスクステージングログ65への書き込み(ポスト/強制引出し)を奇数および偶数ページに交互に実行する(スワッピングすなわちトグル)。たとえば、最初の書き込みでは、RLI55は最低使用頻度のディスクに確保された偶数番号のページ70、80、90あるいは100にポストを行なう。次に発生する書き込みにおいては、RLI55は最低使用頻度のディスクの奇数番号ページ75、85、95あるいは105にポストする。これによって、システムはデータの完全性の別のレベルを保証され、続いて発生するポストにおいて最後にポストされたデータの重ね書きの可能性(すなわち、同じ最低使用頻度ディスクが連続して選択される場合の重ね書き)が防止される。
【0031】
図3から図6は、ある時間における本発明のディスクステージングログの状態を示すブロック図である。本発明の分散書き込みディスクステージング動作の例をさらに詳細に説明するために、RLI55のログイメージページ57の一部、およびディスクステージングログ65の各ページ70〜105の一部を示す。すなわち、図3から図6にはそれぞれRLI55からの異なるポストに応答してディスクステージングログ65の状態時間における異なるスナップショットを示す。RLI55のログイメージページ57およびディスクステージングログ65の各ページ70〜105は破線によって3つの512バイトブロック(すなわち部分)B1、B2およびB3に(論理的に)分割されているものとして示されている。説明を簡略化するために、それぞれの64Kバイトページ中の全ブロックではなく3つのブロックのみを示す。(RLI55の)ログイメージページ57を本説明および図では“LI"で示す。さらに、ディスクステージングログ65中の各ディスクをそれぞれ“D1〜DM"で示し、各ディスク中に確保される2つのページをそれぞれ“P1"あるいは“P2"で示す。
【0032】
図3において、論理標識である事象/時刻T1は(図1のRAID管理システム16の要求によって)ある特定の事象が発生してRLI55におけるログイメージページ57の未書き込みデータのディスクステージングログ65への“強制引出し"ポストが開始されるある所定の時点を反映している。事象/時刻T1はさらにその所定の時点においてRLIのログイメージページ57にログデータがどれだけ“フル"かを示す位置を同定する。ポストが要求されると、論理標識である事象/時刻T1によって同定される(RLI55におけるログイメージページ57の)未書き込みデータの全ブロックがポストされる。512バイトデータブロックは(この例では任意のシステム設計条件に対する)最小ポストサイズであるため全てのブロックがポストされる。
【0033】
したがって、たとえば、事象/時刻T1の発生時にRLI55はログイメージページ57の(事象/時刻T1で示される位置)“未書き込みの"内容をディスクステージングログ65の最低使用頻度のディスク1〜Mにおけるページ70〜105の1つに(後に詳述する“トグル"状態で)ポスト( post )する。すなわち、ログイメージページ57のブロック“1"(LIB1)は“未書き込み"でしかも完全にフルであるためその全体がポストされ、またログイメージのブロック“2"(LIB2)も“未書き込み"であるためこれもその全体がポストされる(ただし、ログデータは事象/時刻T1まではLIB2の一部しか満たしていない)。ディスク2が最低使用頻度のディスクとして検出され、ポストがディスクステージングログ65の偶数ページ番号から開始されるものと(便宜上)仮定すると、ログイメージページ57はそのブロック内容LIB1およびLIB2をディスクステージングログ65におけるディスクD2のページP2に対応するブロックB1およびB2(すなわち、D2P2B1およびD2P2B2)にポストする。したがって、ブロックD2P2B1は(反転ビデオ水平線の形態で示す)すべての有効データを含み、ブロックD2P2B2は時刻T1が示す位置までの部分的有効データを含み、ブロックD2P2B2の残りの部分には(クロスハッチで示す)無効データすなわち“ドント・ケア( don't care )"データが含まれる。
【0034】
図4に示すように、第2の事象/時刻T2はRAID管理システム16がRLI55によるそのデータのポストを再度要求する時点を同定する。この例では、時刻T1および時刻T2の間に記憶されたログイメージページ57のデータ(すなわち、“未書き込み"データ)をディスクステージングログ65にポストしなければならない(これは、まだページ・フル状態になっていないためである)。(しかし、事象/時刻T2以前にログイメージページ57がすべてトランザクションデータで満たされている場合、RLI55はログイメージページ57の一部をディスクステージングログ65にポストするよりむしろその全体をディスクログ60にポストする。)ディスク1が最低使用頻度のディスクであり、書き込み入出力がフルブロックサイズでのみ発生すると仮定すると、LIB2がすべてD1P1B2に書き込まれる。このとき、奇数ページP1(75)が書き込まれ、前述したページ“トグル"(スワッピング)データ保護技術が実行される。無効データ(すなわち、そのブロックサイズ内にあって指定された時刻T2より後のデータ)をここでもクロスハッチで示す。
【0035】
図5にはRLI55に対してページ・フル状態になる前にデータのポストが要求される第3の事象/時刻T3を示す。この例では、時刻T2と時刻T3との間に記憶されたログイメージページ57のデータ(“未書き込み"データ)をポストしなければならない。したがって、この例ではディスク3(D3)が最低使用頻度のディスクであると仮定すると、LIB2のすべてがD2P2B2にポストされ、LIB3のすべてがD3P2B3にポストされる。この場合も、ページスワッピングを行なうために、“偶数の"ページP2(90)がこのとき書き込まれる。
【0036】
図6にはRLI55に対してページ・フル状態になる前にデータのポストが再度要求される第4の事象/時刻T4を示す。この例では、時刻T3と時刻T4との間に記憶されたログイメージページ57の“未書き込み"データをポストしなければならない。したがって、この例ではディスク1(D1)が最低使用頻度のディスクであると仮定すると、LIB3のすべてがD1P1B3に強制引出しされる。
【0037】
図3〜図6からわかるように、最低使用頻度のディスクに対して書き込みが行なわれるだけでなくディスクに対する冗長書き込みが発生しないことからシステムの入出力性能に対する全体的影響が低減される。冗長性はログデータがディスク(ディスクステージングログ65)上に書き込まれ、しかもRLI55にも残ることによって維持される。さらに、一実施形態において、ディスクステージングログ65への“強制引出し"はRLI55がページ・フル状態になる前の事象について発生し、RLI55のページ・フル状態が検出された場合、RLI55からディスクログ60(図2)への“排出"が発生することに注意しなければならない。
【0038】
図7には、分散書き込み用のデータ記録110の構成を示すブロック図である。RLI55(およびディスクログ60およびディスクステージングログ65)内のデータの各512バイトブロック(セクタ)はそれぞれ1つあるいはそれ以上のデータ記録110を有し、データ記録110はブロックの境界にまたがっている場合もある。説明の目的上、データ記録110は簡略化した形態で示す。すなわち、記録に用いられる可能性のあるすべてのフィールドをここでは図示しない。しかし、データ記録110は少なくとも記録の長さを同定する長さ標識115、ディスクステージングログ65からデータを回復するための記録の順序付けを同定するためのシーケンス番号120、トランザクションログに関係付けられたディスク群を同定するディスク群識別子125、記憶される実際のログデータを保持する本体130、およびデータ確認用のチェックサム135を含む。
【0039】
シーケンス番号120はトランザクションログに新たな記録が追加されるたびに順次インクリメントされる生成番号である。チェックサム135はデータ記録110全体のチェックサムであり、トランザクションログの回復中に記録の状態を確認するために用いられる。ディスク群識別子125はRLI55に関係付けられたディスク群の現在のインスタンス( instance )の任意の識別子であり、トランザクションログの回復中に“陳腐化した"(すなわち無効な)ディスクステージングログ65データが使用されていないことを保証するために用いられる。すなわち、回復中に、記録はそのディスク群識別子125がディスクの現在のインスタンスに一致する場合に有効と認識され、ディスク群識別子125がディスク群の現在のインスタンスに一致しない場合無効と認識される。たとえば、他のディスク群からディスクドライブがスワップされた場合に陳腐化した記録あるいは有効な記録が発生する。この場合、各記録に関係付けられたディスク群識別子によって、トランザクションログ回復処理はその新たなディスク関係付けられたあらゆる陳腐化データを認識し、その使用を避けることができる。つまり、記録のディスク群識別子は現在のディスク群インスタンスに一致しなければならない。
【0040】
図8は分散書き込みディスクログの処理フローを示すブロック図であり、本発明におけるログトランザクションの管理のために(図1の)RAID管理システム16内で実施される処理の相互関係を示す。これらの処理は、好適にはファームウエアで実行される。アプリケーション150(たとえば図1のRAID管理システム16)がNVRAMマップ45(図2)を操作する際、この操作動作を同定するデータ記録110がログ管理155の制御に追加され、RAMログイメージ55(図2)に記録される。記録はいくつかの鍵となる事象の1つが発生するまで絶えず追加される。RLI55中の現在のページがフルになると、ログ管理155がデータ管理160に制御を渡し、データ管理160がディスクドライバ165とインターフェースで連結してこのフルページの内容をディスクアレイ11のディスクログ60に冗長ポストすることによってそのフルになったページが“排出される"。RLI55中の現在のページがフルではないがログ管理155がその事象をディスクアレイ11のディスクステージング65への“強制引出し"ポストの要求として検出すると、ログ管理155はデータ管理プログラムを迂回してディスクドライバ165と直接インターフェースで連結してそのデータをディスクアレイに“強制引出し"する。“強制引出し"ポストの発生後に冗長コピーは書き込まれない。
【0041】
ここで、すべての図面を参照して、なんらかのメモリ故障あるいはシステム故障のためにログの回復が必要である場合、ディスクログ60およびディスクステージングログ65に記憶されたインクリメンタルなログデータの回復のためにいくつかのステップが発生する。まず、ディスクログ60のすべてのフルページがRLI55にコピーされてログデータができるだけ多く再構築される。しかし、ページ59のような非フルページの場合ディスクステージングログ65にデータが残っている可能性があり、これもRLI55にコピーしなければならない。したがって、ディスク1〜M上のディスクステージングログ65の全ページ70〜105からのログデータの断片をまとめて1つの完全なイメージにしてRLI55にコピーしなければならない。
【0042】
ディスクステージングログ65からのこの回復に備えて、RLI55を走査してディスクログ60に書き込まれた最後の(最も新しい)記録を示すシーケンス番号120を有する記録を発見する。この走査にあたってはログの循環性とシーケンス番号のラッピングの両方を考慮しなければならない。ディスクステージングログ65内に最後に書き込まれたものに続く次のシーケンス番号(記録)がある場合これを発見しなければならない。したがって、ディスクステージングログ65を次に走査して(RLI55に次に回復すべき記録を示す)次のシーケンス番号を有する記録を発見する。ディスクステージングログ65内で次の記録(シーケンス番号)が発見されると、そのディスク群識別子125をチェックして、その記録がディスク群の現在のインスタンスに属するものであることを確認する。さらに、その記録のチェックサム135を評価してその記録の完全性を判定する。完全である場合、その記録がRLI55にコピーされ、トランザクションログ回復処理が続行される。図6に示す例では、ブロックD2P2B1の最初の記録はこの第1ステップの回復基準を満足する。
【0043】
続いて、ディスクステージングログ65を再度走査して、次の連続シーケンス番号を有する次の記録を探す。前に発見された記録の長さ標識115から、次の記録が前に発見された記録の長さ標識115によって記述されるオフセットで始まることがわかる。したがって、そのオフセットで始まり、適当な連続シーケンス番号120を有し、適当なディスク群識別子125を有し、チェックサム135による有効性分析を満足する次の記録が発見されるまですべてのディスクステージングログ65が探索される。図6の例では、ブロックD2P2B1内の第2の記録(視覚的には識別不能)がこの回復基準を満足する。かかる記録が発見されると、その記録がRLI55にコピーされる。
【0044】
一般的には、(i)(次の連続シーケンス番号によって同定される)次の連続する記録を発見し、(ii)そのディスク群識別子を検証し、(iii)そのチェックサムを検証するこの処理全体が、かかる回復基準のそれぞれを満足するすべての記録が発見されるまでディスクステージングログ65全体に対して継続的に反復される。さらに例を挙げれば、たとえば図6において、D2P2B1およびD2P2B2(反転ビデオ水平線で示される)中に同定される有効な記録のそれぞれがまずその順序でRLI55に回復される。すると、D1P1B2あるいはD3P2B2内で発見されるいかなる有効な記録も次の回復ステップを満足する。たとえば、次の有効な記録がまずD3P2B2の前にD1P1B2内で発見された場合、D1P1B2内のすべての有効な記録がRLI55に(順次一度に1つずつ)コピーされ、D1P1B2内で発見されなかった残りの有効記録は続いてD3P2B2内で発見され、D3P2B3の有効記録に続く。一方、次の有効な記録が(D1P1B2ではなく)D3P2B2内で発見された場合、これらの有効記録はすべてRLI55にコピーされ、次にD3P2B3の有効記録がRLI55にコピーされる。その後にのみD1P1B3内で発見された最終有効記録が処理され、RLI55にコピーされる。この最終記録はディスクステージングログ65内の他のいかなる記録にも次の連続シーケンス番号が発見されない際に、ディスクステージングログ65から回復されることは明らかである。
【0045】
図示する例では、ディスクログ60およびディスクステージングログ65からRLI55へのログ回復がこれで完了する。したがって、図8に示すように、ログ管理155が(現在はRLI55にある)回復された記録をアプリケーション150(図1のRAID管理システム16)の制御に返して、ログ回復が完了し、アプリケーション150がNVRAMマップ45をトランザクションログ回復処理を開始させたシステム誤り/故障の前の状態に戻すためにRLI55に示されるログ変更の実行に着手可能であることを示す。
【0046】
ディスクアレイ内の複数のディスクに対する分散書き込み動作を用いてディスクログ書き込み性能を向上させる方法および装置の実施形態を上に説明した。当業者には当該技術分野のさまざまなソフトウエア、ファームウエアおよび/またはハードウエアのうち任意のものを用いて容易に実施されることは明らかであろう。さらに、本発明をその具体的実施形態の参照により説明したが、本発明の精神と範囲から逸脱することなく他の代替実施形態および実施方法あるいは変更形態の使用が可能であることは明らかであろう。
【0047】
以下に本発明の実施の形態を要約する。
【0048】
1. 複数の記憶媒体(12)を有する記憶システム(10)への書き込み方法であって、
(a)前記記憶システム(10)への書き込み要求を示す基準の検出と、
(b)前記複数の記憶媒体(12)から最低使用頻度の記憶媒体の選択と、
(c)前記選択された最低使用頻度の媒体へのデータの書き込みと
を含むことを特徴とする記憶システムへのデータ書き込み方法。
【0049】
2. 前記複数の記憶媒体(12)はランダムアクセス記憶媒体である上記1に記載の記憶システムへのデータ書き込み方法。
【0050】
3. 前記最低使用頻度の記憶媒体は入出力動作に基づいて選択される上記1または2に記載の記憶システムへのデータ書き込み方法。
【0051】
4. 前記検出される基準は前記記憶媒体(12)へのトランザクションログ(55)の強制引出しポスト要求を含む上記1、2または3に記載の記憶システムへのデータ書き込み方法。
【0052】
5. 前記強制引出しポスト要求は前記トランザクションログ(55)の指定された部分(57)がデータで満たされていることが検出される前に発生する上記4記載の記憶システムへのデータ書き込み方法。
【0053】
6. 前記データは前記選択された最低使用頻度の記憶媒体に非冗長に書き込まれる請求項1に記載の記憶システムへのデータ書き込み方法。
【0054】
7. 前記データは前記書き込まれるデータの順序を示す標識(120)を含む上記1に記載の記憶システムへのデータ書き込み方法。
【0055】
8. 前記記憶媒体(12)はそれぞれ前記最低使用頻度の記憶媒体が選択された際の書き込みのためにのみ使用されるよう確保された領域(65)を含む上記1記載の記憶システムへのデータ書き込み方法。
【0056】
9. 前記確保された領域は少なくとも2つのサブ領域(70、75、80、85、95、100、105)を含み、最低使用頻度の記憶媒体を選択する第1の事象の発生時に前記サブ領域の1つに対して書き込みが行なわれ、最低使用頻度記憶媒体を選択する次の事象の発生時に他方のサブ領域への書き込みが行なわれ、それによって同じ最低使用頻度記憶媒体が二度連続して選択される場合にも次の連続する書き込みにおいて直前に書き込まれたサブ領域に対して重ね書きが生じないことを特徴とする上記8記載の記憶システムへのデータ書き込み方法。
【0057】
10. 記憶システム(10)であって、
(a)データ記録(110)を保持する第1メモリ(55)と、
(b)前記第1メモリに接続された複数の記憶媒体(12)と、
(c)前記第1メモリ(55)の状態を検出する手段(16)と、
(d)前記第1メモリにおける第1の検出された状態に応答して第1の記憶管理基準にしたがって前記記憶システム(10)に前記データ記録を書き込む手段(16)と、
(e)前記第1メモリにおける第2の検出された状態に応答して第2の記憶管理基準にしたがって前記記憶システム(10)に前記データ記録を書き込む手段(16)を含み、
前記第2の記憶管理基準は前記複数の記憶媒体における最低使用頻度の記憶媒体への書き込みを含む記憶システム。
【0058】
11. 前記第1メモリ(55)における前記第1の検出された状態は、前記第1メモリの一部が前記データ記録で満たされていることを示す状態を含む上記10記載の記憶システム。
【0059】
12. 前記第1の記憶管理基準は前記複数の記憶媒体(12)上の前記データ記録の冗長性の維持を含む上記10記載の記憶システム。
【0060】
13. 前記第1メモリにおける前記第2の検出された状態は、前記第1メモリにおいて所定の部分が前記データ記録で満たされる前に前記第1メモリ(55)内の前記データ記録を前記複数の記憶媒体(12)に強制引出し的に書き込む要求を示す状態を含む上記10記載の記憶システム。
【0061】
14. 前記第2の記憶管理基準は前記複数の記憶媒体(12)上において前記データ記録の冗長性を維持しないことを含む上記10記載の記憶システム。
【0062】
15. 前記最低使用頻度の記憶媒体は前記データ記録の書き込みのために確保された少なくとも2つのサブ領域(70、75、80、85、90、95、100、105)を含む上記10記載の記憶システム。
【0063】
【発明の効果】
本発明によれば、複数の利用可能な記憶ディスクから選択された任意の最も使用頻度の低いディスクへのログ書き込みを管理および分散してログ入出力と進行中の他の入出力との間におけるディスクアクセスの競合を低減することによって、ディスクログ書き込みのシステム性能を改善でき、且つ、システムの誤り又は故障時に記録を確実に回復することができる。
【0064】
【図面の簡単な説明】
【図1】本発明の分散書き込みディスクログ法を用いたデータ記憶システムのブロック図である。
【図2】本発明の分散ログ書き込みディスクログ法を示すブロック図である。
【図3】ある時間における本発明のディスクステージングログの状態を示すブロック図である。
【図4】図3の状態以後の、他の時間における本発明のディスクステージングログの状態を示すブロック図である。
【図5】図4の状態以後の、他の時間における本発明のディスクステージングログの状態を示すブロック図である。
【図6】図5の状態以後の、他の時間における本発明のディスクステージングログの状態を示すブロック図である。
【図7】分散書き込み用のデータ記録の構成を示すブロック図である。
【図8】分散書き込みディスクログの処理フローを示すブロック図である。
【符号の説明】
1,2,3,M ディスク
10 データ記憶システム
11 ディスクアレイ
12 記憶ディスク
14 ディスクアレイコントローラ
14A ディスクアレイコントローラA
14B ディスクアレイコントローラB
16 RAID管理システム
18 ミラーグループ
21 メモリマップ記憶域
21A,21B NVRAM
22 パリティグループ
45 NVRAMマップ
50 ディスクマップ
55 RAMログイメージ(RLI)
60 ディスクログ
65 ディスクステージングログ
110 データ記録
115 長さ標識
120 シーケンス番号
125 ディスク群識別子
130 本体
135 チェックサム
150 アプリケーション
155 ログ管理
160 データ管理
165 ディスクドライバ

Claims (12)

  1. コンピュータによって行われる、複数の記憶媒体を有する記憶システムへの書き込み方法であり、メモリに格納されているトランザクションログを、前記複数の記憶媒体に設けられたディスクステージングログ、および、前記ディスクステージングログとは異なるディスクログの2つの領域のうちのいずれか一方の領域に書き込む方法であって、
    前記トランザクションログを格納しているメモリがページフルの状態になると、前記ディスクログに前記トランザクションログを書き込むことと、
    前記メモリに格納されているトランザクションログの強制引出し要求に応じて、前記ディスクステージングログを構成する記憶媒体のうち、アクセス頻度が最低の記憶媒体(以下、最低使用頻度の記憶媒体)に前記トランザクションログを書き込むことと、
    を含むことを特徴とする記憶システムへのデータ書き込み方法。
  2. 前記複数の記憶媒体は、ランダムアクセス記憶媒体であることを特徴とする請求項1に記載の記憶システムへのデータ書き込み方法。
  3. 前記最低使用頻度の記憶媒体を選択することは、入出力動作に基づいて当該の選択が行われることを特徴とする請求項1または2に記載の記憶システムへのデータ書き込み方法。
  4. 前記強制引出し的に書き込む要求は、前記トランザクションログを格納しているメモリがページフルの状態になる前に発生することを特徴とする請求項1、2または3に記載の記憶システムへのデータ書き込み方法。
  5. 前記トランザクションログは、前記選択された最低使用頻度の記憶媒体に非冗長に書き込まれることを特徴とする請求項1に記載の記憶システムへのデータ書き込み方法。
  6. 前記トランザクションログは、前記書き込まれるトランザクションログの順序を示す標識を含むことを特徴とする請求項1に記載の記憶システムへのデータ書き込み方法。
  7. 前記記憶媒体はそれぞれ、前記最低使用頻度の記憶媒体が選択された際の書き込みのためにのみ使用されるように確保された領域を含むことを特徴とする請求項1に記載の記憶システムへのデータ書き込み方法。
  8. 前記確保された領域は、少なくとも2つのサブ領域を含み、
    最低使用頻度の記憶媒体が選択される最初の事象の発生時に前記サブ領域の1つに対して書き込みが行なわれ、
    最低使用頻度記憶媒体が選択される次の事象の発生時に他方のサブ領域への書き込みが行なわれ、
    それによって、同じ最低使用頻度記憶媒体が二度連続して選択された場合であっても、次の連続する書き込みにおいて直前に書き込まれたサブ領域に対して重ね書きが生じないことを特徴とする請求項7に記載の記憶システムへのデータ書き込み方法。
  9. 記憶システムであって、
    (a)データ記録を保持する第1のメモリと
    (b)前記第1のメモリに接続され、ディスクステージングログ、および、前記ディスクステージングログとは異なるディスクログが設けられる複数の記憶媒体と
    (c)前記第1のメモリの状態を検出する手段と
    (d)前記第1のメモリがページフルの状態であることが検出されると、前記ディスクログに前記データ記録を書き込む手段と
    (e)前記第1のメモリに保持されている前記データ記録の強制引出し要求に応じて、前記ディスクステージングログを構成する記憶媒体のうち、アクセス頻度が最低の記憶媒体(以下、最低使用頻度の記憶媒体)に前記データ記録を書き込む手段と
    を含むことを特徴とする記憶システム。
  10. 前記第1のメモリがページフルの状態であることが検出された時に、前記ディスクログに前記データ記録を書き込む手段は、前記複数の記憶媒体上の前記データ記録の冗長性を維持することを特徴とする請求項9記載の記憶システム。
  11. 前記第1のメモリに保持されている前記データ記録の強制引出し要求に応じて、前記最低使用頻度の記憶媒体に前記データ記録を書き込む手段は、前記複数の記憶媒体上において前記データ記録の冗長性を維持しないことを特徴とする請求項9記載の記憶システム。
  12. 前記最低使用頻度の記憶媒体は、前記データ記録の書き込みのために確保された少なくとも2つのサブ領域を含むことを特徴とする請求項9記載の記憶システム。
JP23586298A 1997-08-26 1998-08-21 記憶システムへのデータ書き込み方法 Expired - Fee Related JP4163298B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/920-120 1997-08-26
US08/920,120 US6055604A (en) 1997-08-26 1997-08-26 Forced transaction log posting using a least busy storage media without maintaining redundancy of the transaction log

Publications (2)

Publication Number Publication Date
JPH11119919A JPH11119919A (ja) 1999-04-30
JP4163298B2 true JP4163298B2 (ja) 2008-10-08

Family

ID=25443201

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23586298A Expired - Fee Related JP4163298B2 (ja) 1997-08-26 1998-08-21 記憶システムへのデータ書き込み方法

Country Status (4)

Country Link
US (1) US6055604A (ja)
EP (1) EP0899731B1 (ja)
JP (1) JP4163298B2 (ja)
DE (1) DE69833815T2 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2344196B (en) * 1998-11-26 2003-03-05 Ibm Data processing apparatus,method and computer program with optimized key-pointing operation for log record storage
US6553509B1 (en) * 1999-07-28 2003-04-22 Hewlett Packard Development Company, L.P. Log record parsing for a distributed log on a disk array data storage system
US6820182B1 (en) * 2000-10-18 2004-11-16 International Business Machines Corporation Support for exhaustion recovery in a data processing system with memory mirroring
US6996580B2 (en) * 2001-06-22 2006-02-07 International Business Machines Corporation System and method for granular control of message logging
US7055056B2 (en) * 2001-11-21 2006-05-30 Hewlett-Packard Development Company, L.P. System and method for ensuring the availability of a storage system
US6782450B2 (en) * 2001-12-06 2004-08-24 Raidcore, Inc. File mode RAID subsystem
US6922752B2 (en) * 2002-08-23 2005-07-26 Hewlett-Packard Development Company, L.P. Storage system using fast storage devices for storing redundant data
JP2005157825A (ja) * 2003-11-27 2005-06-16 Hitachi Ltd 障害復旧機能を有する計算機システム、および、障害復旧方法
US7467266B2 (en) * 2003-08-05 2008-12-16 International Business Machines Corporation Snapshot management method apparatus and system
US7451167B2 (en) * 2003-10-24 2008-11-11 Network Appliance, Inc. Verification of file system log data using per-entry checksums
JP4477370B2 (ja) * 2004-01-30 2010-06-09 株式会社日立製作所 データ処理システム
US7502954B1 (en) * 2004-05-26 2009-03-10 Emc Corporation High availability data storage system
US20060257188A1 (en) * 2005-05-13 2006-11-16 Microsoft Corporation Check printing system
JP2007086972A (ja) * 2005-09-21 2007-04-05 Hitachi Ltd ストレージシステム、二重化制御方法、及びプログラム
WO2008021402A2 (en) * 2006-08-17 2008-02-21 Wms Gaming Inc. Storing data in wagering game systems
US7523288B2 (en) * 2006-09-06 2009-04-21 Microsoft Corporation Dynamic fragment mapping
US7765361B2 (en) * 2006-11-21 2010-07-27 Microsoft Corporation Enforced transaction system recoverability on media without write-through
US8627135B2 (en) * 2010-08-14 2014-01-07 Teradata Us, Inc. Management of a distributed computing system through replication of write ahead logs
JP6035909B2 (ja) 2012-06-29 2016-11-30 富士通株式会社 ストレージシステムおよびストレージシステムの制御方法
US9507733B2 (en) 2013-06-21 2016-11-29 Microsoft Technology Licensing, Llc Cache destaging for virtual storage devices
WO2015030758A1 (en) 2013-08-29 2015-03-05 Hewlett-Packard Development Company, L.P. Separating storage transaction logs
US10089013B2 (en) * 2013-11-07 2018-10-02 Datrium, Inc. System and method for managing a non-volatile storage resource as a shared resource in a distributed system
US9411695B2 (en) 2013-12-04 2016-08-09 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Provisioning memory in a memory system for mirroring
US20170262367A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Multi-rank collision reduction in a hybrid parallel-serial memory system
US11171671B2 (en) * 2019-02-25 2021-11-09 Samsung Electronics Co., Ltd. Reducing vulnerability window in key value storage server without sacrificing usable capacity

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4633387A (en) * 1983-02-25 1986-12-30 International Business Machines Corporation Load balancing in a multiunit system
US5239649A (en) * 1989-10-30 1993-08-24 International Business Machines Corporation Channel path load balancing, through selection of storage volumes to be processed, for long running applications
US5481694A (en) * 1991-09-26 1996-01-02 Hewlett-Packard Company High performance multiple-unit electronic data storage system with checkpoint logs for rapid failure recovery
US5499367A (en) * 1991-11-15 1996-03-12 Oracle Corporation System for database integrity with multiple logs assigned to client subsets
US5416915A (en) * 1992-12-11 1995-05-16 International Business Machines Corporation Method and system for minimizing seek affinity and enhancing write sensitivity in a DASD array

Also Published As

Publication number Publication date
EP0899731A3 (en) 2000-10-11
EP0899731A2 (en) 1999-03-03
US6055604A (en) 2000-04-25
DE69833815D1 (de) 2006-05-11
DE69833815T2 (de) 2006-12-07
JPH11119919A (ja) 1999-04-30
EP0899731B1 (en) 2006-03-15

Similar Documents

Publication Publication Date Title
JP4163298B2 (ja) 記憶システムへのデータ書き込み方法
US6553509B1 (en) Log record parsing for a distributed log on a disk array data storage system
KR100211790B1 (ko) 직접 액세스 저장 장치에서 데이터 압축을 위한 디렉토리 재 구축 방법 및 장치
US7107486B2 (en) Restore method for backup
US7523356B2 (en) Storage controller and a system for recording diagnostic information
US6738863B2 (en) Method for rebuilding meta-data in a data storage system and a data storage system
JP3316500B2 (ja) 移動されたデータの完全性を維持しながらraidセットにおけるドライブ数の拡張
EP1128267A1 (en) Disk storage system having redundant solid state data storage devices
US7464322B2 (en) System and method for detecting write errors in a storage device
CN111506251B (zh) 数据处理方法、装置、smr存储系统及存储介质
US20040044705A1 (en) Optimized disk repository for the storage and retrieval of mostly sequential data
US8041891B2 (en) Method and system for performing RAID level migration
JPH08123629A (ja) 階層データ記憶装置のデータ損失を監視する方法
JPH06332623A (ja) アレイ型記録装置及び記録装置
US8862819B2 (en) Log structure array
US5396620A (en) Method for writing specific values last into data storage groups containing redundancy
US20020083263A1 (en) DASD-free non-volatile updates
JP3687111B2 (ja) 記憶装置システムおよび記憶装置の制御方法
JP2005284816A (ja) ディスクアレイシステム
JP3669103B2 (ja) 記憶装置および記憶装置サブシステム
US11573729B2 (en) Storage device and storage control method
JPH1185589A (ja) 情報記憶装置および同装置に適用される管理データ再構築方法
JP3614886B2 (ja) ファイルシステム
JP3615250B2 (ja) ディスクアレイ装置
JP3275492B2 (ja) 連動型ディスク装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050816

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080304

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080624

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080724

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees