JPH05225019A - 複数コンピュータ・データ共用システムにおける共用記憶の障害からのデータベースの回復方法 - Google Patents

複数コンピュータ・データ共用システムにおける共用記憶の障害からのデータベースの回復方法

Info

Publication number
JPH05225019A
JPH05225019A JP4269199A JP26919992A JPH05225019A JP H05225019 A JPH05225019 A JP H05225019A JP 4269199 A JP4269199 A JP 4269199A JP 26919992 A JP26919992 A JP 26919992A JP H05225019 A JPH05225019 A JP H05225019A
Authority
JP
Japan
Prior art keywords
data structure
page
log
data
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4269199A
Other languages
English (en)
Other versions
JPH0827750B2 (ja
Inventor
Chandrasekaran Mohan
チャンドラスカラン・モハン
Inderpal S Narang
インダーパル・エス・ナラング
James Z Teng
ジェイムス・ズィー・テング
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH05225019A publication Critical patent/JPH05225019A/ja
Publication of JPH0827750B2 publication Critical patent/JPH0827750B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1471Saving, restoring, recovering or retrying involving logging of persistent data for recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/825Indexing scheme relating to error detection, to error correction, and to monitoring the problem or solution involving locking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/87Monitoring of transactions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99938Concurrency, e.g. lock management in shared database
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99951File or database maintenance
    • Y10S707/99952Coherency, e.g. same view to multiple users
    • Y10S707/99953Recoverability

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 複数コンピュータ・データ共用システムにお
ける共用記憶の障害から効率良く迅速にデータの回復を
図る。 【構成】 データベース・システムは更新頁を高速の共
用電子記憶16に書込み、他のデータベース・システム
は共用記憶に書込まれた頁を最初永続性記憶域22に書
込まずに変更のために取得するが、該頁はキャストアウ
ト処理で永続性記憶域22に書込まれ、共用記憶16の
障害からのデータベースの回復はデータベース・システ
ムのトランザクション・ログの共用体に供給されたと
き、障害時において、その前に共用記憶にあった頁に対
する変更のログ記録を発見した点を設定する回復境界の
判別により境界が定められ、障害からの回復のため永続
性記憶域から得られた頁バージョンに対し、ログ記録を
供給することを特徴とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は故障又は障害発生後先書
込みロギング・タイプのトランザクション基本データベ
ース・システムを一致状態に回復する方法に関する。
【0002】
【従来の技術】この発明方法は複数の独立に実行するデ
ータベース・システムが永続性直接アクセス記憶域から
得られたデータをキャッシュする電子記憶を共用するよ
うにした複数システム環境において実施される。データ
ベース・システムはすべてトランザクション基本であ
り、先書込みプロトコルに基づくトランザクション・ロ
グを使用する。
【0003】以下、本発明の背景技術について例示す
る。 1.ハダールほかにより1989年9月7日に出願され
た米国特許出願第07/406,186号“先書込みロ
ギング・タイプのトランザクション指向システムのサブ
ページ並行性制御及び部分トランザクション・ロールバ
ックの管理方法”。
【0004】2.モハンほかによるIBM研究報告RJ
6649に記載の“ARIES:先書込みロギングを使
用した極細分性ロッキング及び部分ロールバックを支持
するトランザクションの回復方法”。
【0005】3.モハンほかにより1990年12月1
4日に出願された米国特許出願第07/627,315
号“共用キャッシュからデータを除去する非ブロッキン
グ直列化”。
【0006】4.リンズィの「分散データベースにおけ
る“単一及び複数サイト回復機能”」(ケンブリッジ大
学紙1980年、ドラハンほかの編集)。
【0007】5.アール・エー・クラスによるIBMシ
ステム・ジャーナル(Vol.23,No.2,198
4年)に記載の“IBMデータベース2のデータ回
復”。
【0008】システム・リスタートにおける回復のため
のログの保持及び媒体障害からのデータベースの回復に
先書込みプロトコルを使用するトランザクション指向デ
ータベース・システムは先行技術に十分記述されてい
る。前述のハダール出願、及びIBM研究報告は、両方
共、単調に増分するログ順序番号をログ記録に割当てる
先書込みロギング・システムを開示し、選択されたログ
順序番号に従ってデータベースが常駐する場合にシステ
ム障害又は媒体障害の発生後、回復動作を境界付ける方
法を記述している。
【0009】リンズィ文献はログを基礎とした回復を記
述している。モハンほかによる特許出願は、複数の独立
に実行するデータベース・システムが効率良いシステム
内アクセスのためにデータをキャッシュし、更新データ
を永久記憶域にステージング・バックする共用記憶域を
使用するようにした複数システム・データ共用環境を記
述している。クラスはデータベースに影響する障害が発
生したときに進行中のトランザクションに適応するデー
タ回復方式を開示している。
【0010】トランザクション基本データベース・シス
テム管理は公知であり、デートによる“データベース・
システムの概要”(アジソン・ウェスレイ出版社、19
86年)のような購入可能な文献により理解することが
できる。トランザクション基本データベース管理システ
ムは、本質的に回復可能なデータ資源の一致性状態を他
の一致性状態に変換する際のトランザクション実行工程
を記録する永続性記憶域に記憶されているシステム・ロ
グを使用する。
【0011】ログされるトランザクション工程はデータ
資源の使用又は変更に反映することができる。データ資
源の変更に反映するログされた活動はデータの再構成
(“回復”)のための基礎を形成する。複数フェーズ・
トランザクション処理は開始(BEGIN)オペレーシ
ョンと、コミット(COMMIT)又は打切り(ABO
RT)オペレーションのどちらかを有する終了オペレー
ションとを伴うトランザクションを始動する。コミット
・オペレーションは、新たな一致点に達したこと、及び
トランザクションによって行われるすべての更新が永久
に行われなければならないことを意味する。打切りオペ
レーションは、障害が発生したこと、及び打切りの点ま
で行われた変更はやり直し(“ロール・バック”)され
なければならないことを意味する。
【0012】先書込みロギングは変更したデータ構造が
永久記憶域にある前のバージョンのデータ構造の代りに
置きかえられる前に、データ構造に対する変更を表わす
トランザクション・ログ記録のログへの入力を要求する
プロトコルである。
【0013】トランザクション・ログにおけるトランザ
クション進行の記録は本質的に1列又は1順次の記録の
形式をとる。各ログ記録はその列における独自の位置を
有する。列の各位置は単調に変化する順序で割当てられ
るログ順序番号(LSN)によって固有的に識別され
る。LSNを割当てる従来の方法は本来ある最初の点か
らの経過時間の測定値である“タイムスタンプ”を使用
することである。
【0014】従って、マイクロ秒/ミリ秒/秒/分/時
/日クロックはタイムスタンプの形式のログ順序番号を
供給することができる。障害はデータベースに対する突
発的な割込み又はアクセスの防止を引起こすかもしれな
い。これらの状況下で、データは“一致性状態”に“回
復”されなければならない。
【0015】トランザクション・ログ記録は、データに
対して行われたすべての変化に反映し、障害発生のとき
にデータに作用する全トランザクションの状況に反映す
るから、上記の目的のために使用される。トランザクシ
ョン・ログ記録は、データベースを一致性状態に回復す
るためデータベースに供給された情報を含む。先行技術
の挑戦はデータベースを一致性状態に導くに必要な回復
作業量の境界を定めることであった。
【0016】回復境界を設定するため、ログ順序番号を
使用する方式は先行技術に数個存在する。これらの方式
は必要な回復作業量を最少にするため境界前部を“移動
する”方法を含む。データ・バージョンは作業用記憶域
と永続性記憶域間のデータベース・システムにおいて連
続的にスワップされるので、境界ログ順序番号は、その
背後にはトランザクションによって行われる変化が永続
性記憶域内にあるというトランザクション・ログ点の方
へ移動する。
【0017】まだ永続性記憶域に入力していないかもし
れない変化を有するログ記録が境界前部から見い出され
る。この先行技術は、データベース管理システム(DB
MS)のバッファ管理機能が如何に境界LSNを保持
し、移動するかを示す。
【0018】データベース管理システムは障害発生時に
おけるリスタートを支援するためチェックポイント処理
手順を周期的に実行する。チェックポイント処理手順は
トランザクションのオペレーションと同じ方法でトラン
ザクション・ログに記録される。チェックポイント・ロ
グ記録は現行境界LSN、チェックポイントが取られた
ときに活動であったトランザクション、チェックポイン
トにおいて“ダーティ”(dirty) であった頁、現行トラ
ンザクションによって保持された排他的ロック、等を含
む。
【0019】障害発生の場合、リスタート処理手順は障
害を発生したシステムをリスタートさせるために呼出さ
れる。リスタート処理手順はトランザクション・ログに
記録された最後のチェックポイントの最初の記録に対す
る索引を含む制御ブロックの永続性記憶域のアドレスを
受信する。チェックポイントの記録は一致性状態及びこ
の回復に必要なログ記録に対し回復されなければならな
いデータ構造の識別に使用される。境界LSNはキー要
素である。
【0020】記憶媒体の障害の場合、モハンほかの“A
RIES”文献はその32頁及び次頁において、媒体回
復の再実行点において回復が境界付けられるかもしれな
いということを記載している。回復可能な実体のイメー
ジがロードされ、再実行走査が開始され、媒体再実行点
からスタートする。この回復点は回復可能な実体のイメ
ージが永久記憶域に複写されたときに前方に移動する。
【0021】先書込みロギング・タイプのトランザクシ
ョン指向システムを基礎とする先行技術のリスタート及
び回復処理手順はデータベース・システムの高速且つ効
率良く信頼性のあるオペレーションを保証する。しか
し、今日まで、これらのプロトコルは単一システムの使
用のために開発されてきた。
【0022】最近、多種独立実行データベース管理シス
テムがトランス−システム・データ・キャッシュ用共用
電子記憶を使用するようにした複数システム・データ共
用アーキテクチャが提案された。下記の米国特許出願
は、それぞれ、永続性記憶域用共用記憶にデータを導く
非ブロッキング処理と、共用記憶から永続性記憶域にデ
ータを戻す非ブロッキング処理とを提称している。それ
らは1990年12月14日提出の米国特許出願第07
/628,211号、及び1990年12月14日提出
の米国特許出願第07/627,315号である。
【0023】この複数システム・アーキテクチャの共用
記憶は、他のものの間で、共用記憶のデータの記憶域を
管理し、共用記憶にアクセスする管理ロジックの形の高
度な知能を所有する。それはリスタート/回復容量を管
理ロジックに含めることができることを主張する。又、
管理ロジックはチェックポイントを取り、記録するべき
能力を有する。しかし、それは共用記憶がキャッシュと
してのみ機能することを意図している。その点に関し、
データはデータベース管理システムによって永続性記憶
域から共用記憶に導入される。
【0024】しかしながら、データはアクセスされ、デ
ータベース管理システムのバッファのトランザクション
によって局所的に変更される。変更されたデータはデー
タベース管理システムによる高速アクセスのため共用記
憶にキャッシュされ、データは共用記憶を通してそれを
ステージングすることによってのみ永続性記憶域に戻さ
れる。従って、データは共用記憶において変更されない
ので、共用記憶管理ロジックにおけるトランザクション
及びロギング処理の大きな簡素化を期待することができ
る。
【0025】共用記憶の障害の場合、回復の境界を定め
ることによって、障害発生のときに記憶内にあるデータ
を効果的且つ急速に回復するよう挑戦した。共用記憶の
管理ロジックはトランザクションに役立たないので、そ
れは現在共用記憶に対する回復境界の保持に対して意味
を持たない。
【0026】
【発明が解決しようとする課題】先行技術において、媒
体障害からのデータの回復はデータベース及びトランザ
クション・ログのイメージの複写(又はダンプ)を使用
することによって実行することができる。障害が発生し
たときに、イメージの複写が交換する媒体に挿入され、
ログ記録が供給される。しかし、この処理は、データベ
ースのイメージ複写が数日/数週間古いかもしれず、ロ
グ走査の量が数日/数週間分あるかもしれないので、非
常に時間がかかるという欠点を有する。
【0027】従って、本発明の目的は、共用記憶と、永
続性データ記憶域と、永続性記憶域及び共用記憶に接続
され、トランス−システム・データ・キャッシュのため
に共用記憶を使用する先書込みロギング・タイプの複数
の独立して実行すトランザクション指向データベースシ
ステムとを含む複数コンピュータ・データ共用システム
における共用記憶の障害から効率良くデータを回復する
方法を開発することである。
【0028】本発明の関連する目的は、共用記憶のデー
タの回復の境界を定めるため個々のデータベース管理シ
ステムのトランザクション・ログ・データを使用する方
法を提供することである。
【0029】
【課題を解決するための手段】本発明は以下の如く構成
してその目的を達成した。すなわち、各データベース・
システムは共用記憶のデータ構造に含まれていないデー
タベース・システムにおけるデータ構造に対する最早期
の変更を記録するログ記録のログ順序位置にほぼ等しい
システム順序値を確かめ、
【0030】各データベース・システムにおいて、該デ
ータベース・システムにおいて変更された各データ構造
に対し、該データ構造に対する変更を記録したログ記録
のログ順序位置に大体等しい順序値を供給し、
【0031】共用記憶の各データ構造につき、データベ
ース・システムにより供給された順序値に基づき、永続
性記憶域からデータ構造が得られた後に発生したデータ
構造の最早期の変更のログ記録のログ順序位置に対応す
る構造順序値を確かめ、
【0032】システム及びデータ構造順序値から最早期
のシステム及び構造順序値に対応する共用記憶に対する
回復境界を確かめることを特徴とする。
【0033】更に、本発明は、共用高速電子記憶(S
S)と、低速直接アクセス・データ記憶機能又は直接ア
クセス記憶機能(DAS)と、前記共用電子記憶及び直
接アクセス記憶機能に接続された複数のコンピュータ実
施データベース・システムと、直接アクセス記憶機能に
記憶されたデータ構造を含むデータベースとを含む複数
コンピュータ・データ共用システムにおいて;
【0034】各データベース・システムは、前記直接ア
クセス記憶機能からデータ構造を入手し、即時アクセス
のためデータ構造を局所に記憶し、前記局所に記憶した
データ構造を変更し、データ構造を前記共用電子記憶に
記憶し、前記共用電子記憶から移動するようにしたトラ
ンザクション基本知能を含む前記共用電子記憶の障害か
らデータベースを回復する方法であって;各ログ記録が
それぞれの順序の場所を表示する個有の順序値を含む1
列のログ記録を含むトランザクション・ログを各データ
ベース・システムのために保持し、
【0035】各データベース・システムにおいて、デー
タベース・システムによって行われた最早期の変更のロ
グ記録の順序値に大体等しいシステム順序値を前記共用
電子記憶に記憶された如何なるバージョンのデータ構造
にも含まれていない局所記憶データ構造に保持し、
【0036】各データ構造を変更し前記共用電子記憶に
記憶するため、前記直接アクセス記憶機能からデータ構
造を入手した後、前記データ構造に対しデータベース・
システムによって行われた最早期の変更のログ記録に対
応する構造順序値を保持し、
【0037】順序値がデータベース・システムにおいて
又は前記共用電子記憶内に局所的に記憶された如何なる
データ構造に対しても行われる最早期の変更のログ記録
に対応するようなシステム順序値及び構造順序値をとる
ことによって回復順序値を周期的に判別する各工程を含
み、
【0038】前記共用電子記憶の障害発生の場合:トラ
ンザクション・ログのすべてを組合せ、組合わされたロ
グから前記直接アクセス記憶機能のため対応するログ記
録が回復順序値の後に続く順序値と共に存在する該直接
アクセス記憶機能のデータベース構造を識別し、
【0039】回復順序値に後続する順序値を伴うログ記
録に存在する変更を前記識別されたデータ構造に供給す
る各工程を含むことを特徴とする。
【0040】
【実施例】以下、添付図に基づき本発明の実施例を詳細
に説明する。図1は本発明を実施する複数システム環境
を例示した説明図である。図1の複数システム環境下に
おいて、複数のプロセッサ10,12,13の各プロセ
ッサはそれぞれ互いに独立してデータベース管理システ
ムを実行する。希望する単位の記憶及び転送に対応する
データ構造から成るデータベースは、例えば、直接アク
セス記憶装置(DASD)14,15から成る永続性記
憶域に記憶される。
【0041】以下、直接アクセス記憶装置は直接アクセ
ス記憶機能(DAS)と称し、記憶及び転送の単位は頁
とみなされる。共用電子記憶(SS)16は管理ロジッ
ク17によって管理される共用電子メモリーを含む。図
1において、共用電子記憶16は電子メモリーから成
る。共用電子記憶16は、又不揮発性電子記憶域でよ
い。
【0042】データベース管理システムの各々は共用電
子記憶16に対する、及び直接アクセス記憶機能(DA
S)の各構成成分に対する独立の接続を有する。
【0043】独立に実行するデータベース管理システム
(DBMS)の各々は先書込みロギングタイプのトラン
ザクション指向システムであることが望ましい。各デー
タベース管理システムの場合に対する先書込みロギング
・プロトコルは永続性記憶域ログ18,19,20のそ
れぞれ1つに支援される。又、永続性記憶域ロギング資
源22がデータベース管理システムに対して用意され、
共用電子記憶チェックポイントを記録する。
【0044】各プロセッサ10,12,13はクロック
又は刻時成分を含む。図1の複数システム環境は、シス
テム・クロック同期機能24を含み、各プロセッサ・ク
ロックがタイムスタンプの連続単調に増加する順次を与
えることができる。かかるシステム・クロック同期機能
はIBM ES/900コンピュータに対して使用可能
であり、IBMシスプレックス・タイマ(SYSPLE
X TIMER)9037と呼ばれる。
【0045】故に、共用電子記憶16の障害発生後のデ
ータ回復中、全トランザクション・ログ18,19,2
0の共用体のログ記録はデータベース管理システムのす
べてに亘り、時間順序となる。この点につき、トランザ
クション・ログ18,19,20の各々のトランザクシ
ョン・ログ記録はタイムスタンプの形式のログ順序番号
(LSN)である順序の索引単位を有し、経過時間によ
って割出される順序に並べられる。
【0046】図1に例示する複数システム環境下におい
て、共用電子記憶16に対する読出及び書込I/0時間
は低速直接アクセス・データ記憶機能装置14,15の
それらより等級は良い。低速直接アクセス・データ記憶
機能装置がディスクであると仮定すると、データベース
管理システムのいずれでも、ディスクから独自に制御す
る局所バッファに頁を読出し、該頁を変更し、それを共
用電子記憶16に書込むことができる。
【0047】その書込みはディスク15,16の1つに
対する書込みより相当短い時間で達成することができる
ので、変更された頁は共用電子記憶に書込まれる。他の
如何なるシステムでも共用電子記憶16から最新バージ
ョンのこれら頁を読出すことができるので、共用電子記
憶16は複数システム環境において変更した頁に対し有
効な一致性を与えることができる。共用電子記憶16は
キャッシュを通す記憶ではなく、キャッシュに入る記憶
であることが好ましい。それに関し、キャッシュに入る
記憶の更新された頁は共用電子記憶16に書込まれたと
きは直接アクセス記憶機能には書込まれない。
【0048】故に、頁の最も最新のバージョンは、キャ
ッシュ・ヒットがある場合に共用電子記憶16に存在す
る。直接アクセス記憶機能の成分は共用電子記憶16に
接続されない。データベース・システムの1以上のロジ
ックは共用電子記憶16の変更した頁を直接アクセス記
憶機能に複写する責任を有する成分を含む。事実、本発
明は、頁がデータベース管理システムにより直接アクセ
ス記憶機能から得られ、変更されると、それは共用電子
記憶16を通してステージされることにより直接アクセ
ス記憶機能に戻されることができるのみであるというこ
とを意図する。
【0049】共用電子記憶16に対する管理ポリシーは
新たな頁のための場所を作るため、記憶内容を継続的に
監視して古い頁を直接アクセス記憶機能に返送すること
を要求する。これを“キャストアウト”(Castout)と称
する。直接アクセス記憶機能は共用電子記憶16に接続
されないため、頁をキャストアウトする制御機構はデー
タベース管理システムに存在する。
【0050】とかくするうちに、頁が直接アクセス記憶
機能からデータベース管理システムを通して導入される
と、ある時間共用電子記憶16に滞在することができ
る。頁は直接アクセス記憶機能にキャストアウトされる
前に同じデータベース管理システムか又は異なるデータ
ベース管理システムによって数回変更することができ
る。前述の特許出願第627,315号は共用電子記憶
16からデータをキャストアウトするための非ブロッキ
ング直列化方法を開示している。
【0051】前述及び後述の説明において、データベー
ス・システムの転送及び記憶の単位は頁である。事実、
本発明は、図1の環境はその転送及び記憶の単位に対し
如何なる適当なデータ構造を使用することもできる。
【0052】図2は本発明を理解するに必要なある構造
的特徴を詳細に例示する図である。特に、共用電子記憶
16は頁を共用する共用キャツシュ30を形成するアド
レス可能な電子メモリー資源を有する。参照番号31に
よりかかる頁の1つを表示する。管理ロジック17は複
数の項目又は挿入項目を有する登録簿32を保持する。
かかる挿入項目の1つは参照番号34で例示する。挿入
項目34は共用記憶30に対するデータ記憶の管理が要
求される制御情報を含む複数フィールド制御データ構造
である。
【0053】本発明において、登録簿32の挿入項目に
対する索引は共用キャッシュ30に現在又は過去に記憶
されたかもしれないそれぞれの頁を個有的に識別する頁
名によって行われる。挿入項目34に対する頁名フィー
ルドは参照番号35によって示される。挿入項目34の
他のフィールドは頁31を記憶する共用キャッシュ・ア
ドレス場所を指示する頁アドレス36用フィールドと、
変更ビット(CB)フィールド37と、キャストアウト
・ロック(COL)フィールド38と、タイムスタンプ
(TS)フィールド39とを含む。
【0054】図2に例示するように、プロセッサ10,
12の独立に実行するシステムの各々は、それぞれのデ
ータベース・システムの制御の下にデータベースのデー
タを記憶するため、それぞれ局所バッファ101,12
0を含む。図に示してはいないが、データベース・シス
テムは分散ロック管理プロトコルによって頁に対する更
新を順序化するということができる。頁に対する更新を
行う場合、データベース・システムは更新に対するログ
記録を書込む。
【0055】ログ記録は、プロセッサ・クロックによっ
て供給されたタイムスタンプをそれらに供給することに
よりログ順序番号(LSN)が与えられる。この点に関
し、プロセッサ10のデータベース管理システムに対す
るトランザクション・ログをより詳細に例示する。ログ
18のログ記録の順序は、タイムスタンプSiが供給さ
れたEND CHECKPOINT記録から開始する部分を含む。後
続するものはタイムスタンプi+1を支持する記録から
開始する1列のトランザクション記録である。BEGIN
CHECKPOINT記録はタイムスタンプjを持つ。
【0056】共用電子記憶16の管理ロジック17は共
用キャッシュ30に対する頁の記憶及び読出しが本質的
に要求される。頁は共用キャッシュ30において変更さ
れないが、図に示すデータ共用構造のDMBSによる有
効なアクセスのためにそこに記憶される。
【0057】本発明 本発明において、共用電子記憶16の障害によって影響
を受けたデータベースはすべて、データベースの直接ア
クセス記憶機能バージョンを使用することにより、及び
データベースを使用するすべてのデータベース管理シス
テムのトランザクション・ログの共用体のログ記録の組
合せ順序を直接アクセス記憶機能バージョンに供給する
ことによって記録することができる。回復に対する基本
的方法として、データベースの直接アクセス記憶機能バ
ージョンを使用することにより、その回復時間は、例え
ば、データベースの前にダンプした複写の使用に基づく
回復時間と比較して相当削減される。
【0058】これは、ログ記録の数が相当少なくなった
が故にログ・データに対する読出I/0の数を減少し、
ログ記録を供給する頁数が少なくなったが故に頁に対す
る読出及び書込I/0の数を削減するからである。その
上、走査されるログ・データは典型的に活動状態のトラ
ンザクション・ログに見出される。これらログは直接ア
クセス記憶機能装置の1つに存在させることが期待され
る(ログの保管と対比する。ログはテープに記憶させる
ことができる)。
【0059】次に、ここに例示する環境下において、発
明動作の理解のため、それをテーブル1−6及び図3−
8を参照して説明する。以下の説明において、データベ
ース管理システムは個別のシステムであるとみなされ、
それぞれプロセッサ10,12,…13において実行す
るよう、S1,S2,…SNで表示される。
【0060】図3におけるプロセッサ10のシステムS
1はそのバッファ101において局所的に記憶される頁
をリストする構造40を保有する。構造40は、その1
つが参照番号40aで示されるような複数の挿入項目を
含む。それら各挿入項目としては、局所バッファの頁を
指名する頁名フィールド41と、頁の開始アドレスに対
するポインタを含む頁アドレス・フィールド42と、変
更ビット(CB)フィールド43と、タイムスタンプ
(t0 )フィールド44とを含む。
【0061】構造40は、共用電子記憶16に対し、ま
だ外部化されていないバージョンに変更されたS1の局
所バッファに頁がリストされている“ダーティ頁”(dir
ty page)リストの形で存在する。各ダーティ頁に対する
タイムスタンプ・フィールド44は、頁の状態が“クリ
ーン”(Clean)から“ダーティ”に変化したとき、シス
テムS1において作られた頁に対する最初の変更のため
のトランザクション・ログ記録のタイムスタンプに対応
するタイムスタンプ値t0 を含む。
【0062】頁の状態は、バッファの頁が直接アクセス
記憶機能か又は共用電子記憶16と同一である限り、デ
ータベース管理システムにより“クリーン”であるとみ
なされる。従って、タイムスタンプ44の値は、共用電
子記憶が頁を持たなかったときには頁に対する変更のト
ランザクション・ログ記録は共用電子記憶又は直接アク
セス記憶機能から最後に入手されるので、その前に頁に
対する変更のトランザクション・ログ記録がないトラン
ザクション・ログ順序の値を表示する。
【0063】データベース管理システムS1はダーティ
頁リストのタイムスタンプ・フィールドからシステム・
タイムスタンプ(system-timestamp)を計算する。この
処理はテーブル1の“システム・タイムスタンプ”に例
示され、データベース管理システム・チェックポイント
のような循環する事象に応答してトリガされる。処理が
そのようにトリガされ、データベース管理システム・チ
ェックポイント中、ダーティ頁リスト40がダーティ頁
リストの最小タイムスタンプにセットされるものと仮定
する。
【0064】従って、システム・タイムスタンプの値は
共用電子記憶16にまだ外部化されていないそのバッフ
ァのすべての更新に対するデータベース管理システムの
トランザクション・ログにおけるログ記録の最早期発生
タイムスタンプである。新たなシステム・タイムスタン
プ値を計算するとき、現行値は新たな値と置換えられる
まで有効である。
【0065】テーブル1(及びテーブル2−6)は多数
のコンピュータ言語の1つのソース・コードに対し公知
の技術を使用する削減可能な擬似コードのリスティング
である。かかるソース・コードはディジタル・コンピュ
ータで実行可能である。
【0066】テーブル1はシステム・タイムスタンプの
計算の好ましい実施例を例示する。テーブル1の処理
は、ステップ101において、それがトリガされる前に
トランザクション・ログに書込まれた最後のBEGIN-CHEC
KPOINTログ記録タイムスタンプに対して行われる初期化
である。ステップ102〜105は本質的にシステムS
1に対するシステム・タイムスタンプ値としてステップ
107において割当てられたBEGIN-CHECKPOINTタイムス
タンプとダーティ頁リストのタイムスタンプとを含むグ
ループから最小値を選択する。処理手順は、計算された
値が周期的に前方に移動することを保証する各チェック
ポイントを通し、データベース管理システムにおいて実
行される。
【0067】図3はシステム・タイムスタンプのリスト
45を例示する。リストの各番号はそれぞれのデータベ
ース管理システムのシステム・タイムスタンプ値に対応
し、テーブル1に例示するように、データベース管理シ
ステムの各チェックポイントにおけるそれに対応するデ
ータベース管理システムによって更新される。
【0068】テーブル2において、擬似コードは頁に対
するタイムスタンプ値をセットするため、及び特定の頁
に対するダーティ頁リスト項目のタイムスタンプ・フィ
ールドt0 への挿入項目に対する最初のタイムスタンプ
値を選択するために供給される。テーブル2は、データ
ベース管理システムがその局所実行トランザクションの
1つに対応し、データベース管理システムにおいて、局
所的に変更されるべき頁Pを読出すということを想定す
る。
【0069】ステップ201は、データベース管理シス
テムにおいて行われる他の更新と共にその更新を順序化
するため、要求トランザクションによって、トランザク
ション・レベル・ロックを獲得することを保証する。ス
テップ203においては、データベース管理システムに
対するデータベース管理システムのアクセスを順序化す
るべき頁において、排他的システム間ロックが獲得され
る。ステップ203は、局所的に記憶された(緩衝され
た)頁が有効であることを保証する。
【0070】複数システム・データ共用環境下におい
て、局所的にキャッシュされた頁の複写は、それが他の
システムによって行われた最新の更新を含まない場合、
“無効”とすることができる。該頁の最新の複写を取出
すことによって、該頁の局所複写は“有効”とされる。
先行技術においては、システムが頁を更新したとき、他
のシステムで局所的にキャッシュされた複写を無効にす
るべきシステムのために数個の機構が用いられる。
【0071】例えば、カールほかに対して1984年1
0月30日に発行された米国特許第4,480,304
号“複数プロセッサ、多重プログラミング、共用データ
環境におけるシステム、サブシステム、及び通信障害に
対するロック保存用方法及び手段”を参照するとよい。
トランザクションによる頁の変更に続き、変更の活動記
録は、ステップ204において、ログ記録のタイムスタ
ンプと共にログに記録される。それに関連して、頁に対
する最新の更新を記述するログ記録のタイムスタンプに
対応する頁タイムスタンプが変更される。
【0072】このタイムスタンプは前述の米国特許出願
第406,186号に記載の回復実行のために必要であ
る。ステップ205において、頁Pがクリーンであった
場合、そのCBフィールドはリセットされる。この事例
においては、CBフィールドはセットされ(頁Pを共用
電子記憶16に対してクリーン状態からダーティ状態に
変更した)、変更操作に対する最初のログ記録のタイム
スタンプは該頁に対するt0 フィールドに挿入される。
【0073】他の場合、すなわち、頁がダーティであっ
た場合(CBフィールドのセットにより示す)、ステッ
プ207において、その頁に対する早期のタイムスタン
プが既にセットされていたので、ダーティ頁リストの頁
項目に対する活動は取られない。頁タイムスタンプ値の
設定に続き、頁はシステム内ラッチの解放によって解放
される(ステップ208)。頁が共用電子記憶16に対
して“クリーン”とされた後、ステップ209におい
て、システム間ロックが解放される。
【0074】テーブル2のロジックは頁が共用電子記憶
16に書込まれる前ではなく、頁が変更されたときに実
行される。テーブル3は変更した頁を共用電子記憶に書
込む処理手順及びそのダーティ頁リスト項目のタイムス
タンプ・フィールドの値を変更した頁と共に転送する処
理手順の例示的擬似コードの導入を含む。
【0075】便宜上、テーブル3の処理手順は流れ図の
形式で図4にも例示する。テーブル3及び図4は局所バ
ッファから共用電子記憶16に頁を書込む操作を実証す
る。これは“頁書込み”操作と称し、そのパラメータ・
リストは頁名(P)、頁のCB(変更ビット)フィール
ド値、頁を位置付ける局所記憶のアドレス(バッファ・
アドレス)、及び頁のダーティ頁リスト項目のタイムス
タンプ・フィールドの値に対するタイムスタンプ・パラ
メータ(TS)のセット等を含む。
【0076】頁書込処理を開始するため、要求データベ
ース管理システムはコマンド・パラメータを頁に対する
ダーティ頁リストに見い出された値にセットする。頁は
データベース管理システムにおいて変更されたものと仮
定すると、CB(変更ビット)パラメータがセットされ
(それは単一ビット値であると仮定する)、t0 フィー
ルドの値はTSに対し複写される。これは図4のステッ
プ46に当る。ステップ47以後は共用電子記憶16に
おいてテーブル3に対応し、共用電子記憶16の管理ロ
ジックによって取られる活動を表わす。
【0077】頁書込要求及び関連するパラメータ・リス
トをデータベース管理システムから受信すると、共用電
子記憶登録簿32はPパラメータ値によって識別された
頁に対応する挿入項目を取り出す。かかる挿入項目が存
在しない場合は、ステップ302〜307において、挿
入項目が初期化され、そのCB値がセットされ、そのT
Sフィールドが対応する頁書込パラメータの値にセット
される。これは図4のサブシーケンス(副順次)48に
例示する。登録簿の挿入項目の作成に続き、頁書込コマ
ンドを実行し、共用電子記憶16に頁が書込まれる。
【0078】頁書込要求を受けたときに、Pに対する登
録簿の挿入項目が存在するものと仮定すると、図4の決
定ステップ47から肯定出口が取られ、頁Pに対する登
録簿の挿入項目が検査されて頁が既にダーティとしてマ
ークされていたか否かが判断される。それに関し、図4
の決定ステップ49の結果はCBフィールドとCOLフ
ィールドの組合せ関係によって異なる。
【0079】CBフィールドがリセットされ、COLフ
ィールドが0にセットされていると、挿入項目のCB及
びTSフィールドは頁書込パラメータ・リストに渡され
た値に限定される。しかし、CBフィールドがセットさ
れているか又はCOLフィールドが0でない場合は、頁
はダーティと推定され、共用電子記憶登録簿の挿入項目
のTSフィールドは変更されない。テーブル3のステッ
プ318,319において、共用電子記憶登録簿の挿入
項目のCBフィールドはリセットされるが、COLフィ
ールドが0でないという条件の場合、頁は再びダーティ
とマークされる。
【0080】このサブシーケンスの重要性はキャストア
ウト処理手順に関し、以下で説明する。頁書込処理手順
は、すべての場合、共用電子記憶16の共用キャッシュ
に頁を書込み、発生データベース管理システムに対し応
答を戻して終了する。
【0081】以上、挿入項目に対するタイムスタンプを
共用電子記憶登録簿32に供給することに関し十分説明
したように、本発明はリスト45に見い出されたシステ
ム・タイムスタンプのすべて、及び共用電子記憶登録簿
32のTSフィールドの頁タイムスタンプのすべての最
小の共用体を取ることによって、共用電子記憶16に対
する回復境界を設定するに十分であり、非常に簡単とな
る。しかし、頁が共用電子記憶16から直接アクセス記
憶機能に戻されると、回復境界は前方に押出され、他の
場合、回復境界は超古となり、共用電子記憶16の障害
からの回復には莫大な資源の追加時間が必要となる。
【0082】頁が直接アクセス記憶機能にキャストアウ
トされると、直接アクセス記憶機能の頁バージョンは、
最新のキャストアウトを必要とした後に頁に対する変更
に反映するログ記録がその頁を回復するため単にその最
新状態に供給されるということで、十分最新である。す
なわち、その頁に対する回復境界はそれがキャストアウ
トされた後、それに対して変更が行われた限りにおいて
のみ拡張される。この認識に従い、共用電子記憶登録簿
の頁に対するタイムスタンプ・フィールドはキャストア
ウト処理に応答して“プッシュ”(更新)可能であると
いうことを発明者が認めた。
【0083】キャストアウト処理 図1に例示した環境下におけるキャストアウト処理は前
述で引用した米国特許出願第627,315号によって
理解することができる。便宜上、この処理は図5乃至図
7に従い簡単に説明する。
【0084】共用電子記憶16の任務は並行性及び可用
性を増加することであるから、その管理ロジックはキャ
ストアウトされた頁に対する読出及び書込アクセスを可
能にする。同時に、頁のキャストアウトはキャストアウ
ト処理を通して共用電子記憶16に入力された頁のより
現行のバージョンを喪失させないということを保証す
る。その目的に対して2つのコマンド、すなわち“キャ
ストアウトに対する読出”、及び“キャストアウト・ロ
ックのロック解除”が利用される。
【0085】キャストアウト処理はデータベース管理シ
ステムにより管理ロジック17に発行された最初のコマ
ンド“キャストアウトに対する読出”を使用する。この
コマンドは頁Pに対して処理するキャストアウトを開始
する。このコマンドと共に管理ロジック17に送られた
パラメータ・リストはデータベース管理システムの識
別、頁の識別、及び共用電子記憶16から頁が転送され
るべきデータベース管理システムのバッファ・アドレス
を含む。
【0086】頁を受信すると、データベース管理システ
ムは頁を直接アクセス記憶機能に書込む。直接アクセス
記憶機能 I/0が終了した後、データベース管理シス
テムは“キャストアウト・ロックのロック解除”コマン
ドを発行する。キャストアウト・ロックのロック解除コ
マンドはデータベース管理システム及び頁を識別し、管
理ロジック17に供給されて、直接アクセス記憶機能に
対する頁の書込みに成功したということを知らせる。
【0087】“キャストアウトに対する読出”コマンド
の処理は図5に例示する。最初、管理ロジック17は、
頁Pに対するデータベース管理システムS1からの“キ
ャストアウトに対する読出”コマンドの受信に応答して
そこから移動するであろう“待ち状態”50にある。該
コマンドの受信に応答して管理ロジックは頁Pに対する
登録簿の挿入項目のCOLフィールドをチェックする。
【0088】フィールドが空の場合(値0で示すのが好
ましい)、管理ロジック17は決定ステップ52から肯
定出口をとり、ステップ53において頁Pに対する登録
簿の挿入項目のCBフィールドを0にセットし、ステッ
プ54において、要求データベース管理システムの識別
(SI)を挿入項目のCOLフィールドに入力する。次
に、管理ロジック17は頁Pの複写を特定のデータベー
ス管理システム・バッファ・アドレスに戻し、(ステッ
プ55)、待ち状態(ステップ58)に進む。この点に
おいて、データベース管理システムS1はそのバッファ
に書かれた頁Pのバージョンを直接アクセス記憶機能に
書込むためのI/0処理を開始する。
【0089】決定工程52からの否定出口は他のシステ
ムがキャストアウト操作を導入する可能性を与え、その
場合、COLフィールドは0ではなく、ステップ52の
否定出口からステップ56に進められる。この場合、管
理ロジック17はステップ52において与えられていた
コマンドを拒否し、待ち状態(ステップ58)に戻る。
【0090】図6は“キャストアウト・ロックのロック
解除”コマンドを処理する管理ロジックを例示する。最
初、管理ロジック17は待ち状態60にある。ステップ
61において、データベース管理システムからキャスト
アウト・ロックのロック解除コマンドを受信すると、ロ
ジックはキャストアウト・ロックコマンドに対する前の
読出しを受諾し、管理ロジックは頁PのCOLフィール
ド項目とデータベース管理システムのID(SI)とを
比較する。両値が等しいと、要求システムはキャストア
ウトに対する読出コマンドに従いキャストアウト処理を
開始したシステムであるということを示す。
【0091】両値が等しいと、決定ステップ62から肯
定出口が取られ、ステップ63においてCOLフィール
ドが0にセットされ、ステップ65において管理ロジッ
クは待ち状態に入る。COL値とシステムID値とが等
しくない場合、ソフトウェア誤りの可能性と判断し、決
定ステップ62の否定出口からステップ64のコマンド
拒否へ進み、再び待ち状態ステップ65に進む。
【0092】図7は図5及び図6に示すコマンドの使用
によって予めキャストアウトされた頁の削除のための処
理を示す。それに関し、“削除”は登録簿の挿入項目の
除去及び挿入項目によって指定されたキャッシュ・スペ
ースの割当てを意味する。必然的に、ダーティ頁に対す
る削除処理はキャストアウト・ロックに対する読出/キ
ャストアウト・ロックのロック解除シーケンスの終了、
及びそれに続くキャストアウト頁Pの削除によって行わ
れる。
【0093】図8はキャストアウト処理中に他のデータ
ベース管理システムによって更新された頁の削除処理に
対してキャストアウト処理を行う方法を例示する。
【0094】図7において、登録簿の挿入項目が作成さ
れなければならず且つ解放(又はフリー)項目が使用可
能でないときには、削除処理は管理ロジック17の内部
において呼出され、共用キャッシュ30から頁Pを削除
する(ステップ66)。削除処理はまず頁Pに対する登
録簿の挿入項目のCBフィールドを検査し(ステップ6
7)、次にCOLフィールド項目を検査する(ステップ
68)。
【0095】決定ステップ67において、変更ビットが
セットされた場合、描写される推論は、共用キャッシュ
の頁Pのバージョンと直接アクセス記憶機能のバージョ
ンとは一致性がなく、削除の場合、キャストアウト処理
は直接アクセス記憶機能に対する共用キャッシュ・バー
ジョンの書込みを待たなければならないということであ
る。この場合、決定ステップ67から否定出口が取ら
れ、削除のために他の頁が選ばれる。決定ステップ68
において、キャストアウト処理は開始したが、まだ終了
していなかったという可能性についてチェックする。
【0096】この場合、COLフィールドは0でなく、
削除処理はステップ68の否定出口から出て終了する。
決定ステップ67及び68の否定出口はステップ70に
結合され、削除のために他の頁が選ばれる。両ステップ
67,68の各々からの出口が肯定出口であると仮定す
ると、共用キャッシュと直接アクセス記憶機能バージョ
ンとの間の一致性の条件とキャストアウト処理の完了と
は合致し、頁Pに対する登録簿の挿入項目はステップ6
9において登録簿32から削除される。この時点におい
て、適当なキャッシュ管理ポリシーが呼出され、頁Pに
割当てられたキャッシュ空間をスチールする。
【0097】テーブル4は頁に対する登録簿タイムスタ
ンプが如何に“プッシュ”(更新)されるかを例示す
る。ステップ401において、キャストアウトに対する
読出コマンドを発行するよう準備するデータベース管理
システムはパラメータt1 の値をリスト45に保持され
ているシステム・タイムスタンプの最小値にセットす
る。この値は、共用電子記憶16に対してまだ転送され
ていなかった局所で緩衝された頁に対して行われたすべ
ての更新は更新のすべてを捕獲するだけ十分に早く境界
を設定するタイムスタンプに含まれるということを保証
する。この値は、キャストアウト・ロックに対する読出
コマンドを発行するとき、及び直接アクセス記憶機能に
頁を書込む間、データベース管理システムにおいて維持
される。
【0098】テーブルのステップ404において、パラ
メータt1 はキャストアウト・ロックのロック解除コマ
ンドと共に管理ロジックの1つに送られたパラメータ・
リストに含まれる。COLのロック解除処理中、管理ロ
ジック17は共用電子記憶登録簿32の識別された頁に
対する挿入項目のために索引し、そのCOLフィールド
を0にセットし、TSに対する現行値がt1 よりも低い
場合タイムスタンプ・フィールドTSをt1 を通過した
値にセットする。他の場合、TSに対する値は変更しな
い。これは図6のキャストアウト・ロック解除処理を示
すステップ63aに例示する。
【0099】共用電子記憶16の障害に対する回復境界
はテーブル5に記載されている処理手順に従って確めら
れる。テーブル5において、この値を計算する擬似コー
ド(“回復タイムスタンプ”と称する)は、この好まし
い実施例では、複数のデータベース管理システムのうち
の1データベース管理システムに割当てられた責任はリ
スト45のシステム・タイムスタンプの最小値であるt
1 の値を計算することであるということを示す。
【0100】管理ロジック17はCBフィールドが0で
ないCOL値(すなわち、頁は変化する)にセットされ
るすべての挿入項目のTSフィールドの値を供給するよ
うその登録簿32を走査する。又、管理ロジック17は
その登録簿32を走査して、CBフィールドがセットさ
れている全挿入項目のTSフィールドに含まれている値
のセットの最小値を判別する。この値は管理ロジックの
パラメータt2 に割当てられる。2つの値t1 及びt2
と共に、回復タイムスタンプは、ステップ503におい
て、2つの値の最小値を取ることによって確かめられ
る。
【0101】図8はテーブル5を実現するための好まし
い実施例を示す。図8において、t1 及びt2 を判別す
るためのロジックはプロセッサ10で実行するデータベ
ース管理システムに存在する。管理ロジック17はその
登録簿32の走査を処理し、TS値を適切に計算するた
め、それをデータベース管理システムに転送する。従っ
て、回復タイムスタンプ・パラメータ79の現在値はデ
ータベース管理システムの制御下にあるとして図8に例
示する。
【0102】この配置は、回復タイムスタンプを計算す
るため、データベース管理システムが管理ロジックに対
し登録簿読出コマンドを発行するということを意図する
ものである。それに応答して、管理ロジックは適当なT
S値をデータベース管理システムに転送する。このコマ
ンドは、管理ロジック17が短い時間で共用電子記憶登
録簿32全体を走査することができないかもしれないた
め、複数回呼出すことができる。
【0103】その場合、リスタート・トークン(TK
N)は走査を再開する場合、データベース管理システム
に戻される。それに関し、リスタート・トークンが0の
場合、管理ロジック17は開始から変更ビットをセット
すると共に登録簿の挿入項目の読出を開始し、他の場
合、リスタート・トークン値から開始する。それは、そ
のサイズが登録簿読出コマンドのパラメータ・リストに
明示されているデータベース管理システムの制御の下
に、バッファに入るだけ多くのTS値を該バッファに戻
す。
【0104】又、管理ロジックはt2 を計算し、1つの
値のみを戻すことが可能である。管理ロジックにより値
が戻されたとき、登録簿の走査が終了しなかった場合に
は、リスタート・トークンも戻され、他の場合、管理ロ
ジック17からの戻りは登録簿の終りを表示する。ブロ
ック79は、データベース管理システムが図1に示すチ
ェックポイント・ファイル22の回復タイムスタンプを
記憶するということを意味する(図8)。
【0105】テーブル6は共用電子記憶16の障害から
のデータの回復を例示し、それは上記の参考特許出願第
406,186号に記載のもののような適当な回復ルー
チンが存在するものとみなす。それに関し、テーブル6
は共用電子記憶16の障害のため、それからのデータ回
復を実行するに必要なデータ・セットを判別する擬似コ
ードを供給する。
【0106】テーブル6のステップ601において、デ
ータ・セットを共用するデータベース管理システムすべ
てのトランザクション・ログはタイムスタンプ順に組合
わされる。データ・セットは、例えば、組合わされたロ
グを走査することによって識別される。ログ記録が行わ
れたすべてのデータ・セットは、回復タイムスタンプか
ら開始して、“回復保留中”がマークされる(ステップ
602)。“回復保留中”はデータが選択不可能である
ことを示す。ステップ603において、ステップ602
で識別されたデータ・セットは組合わされたログ及び直
接アクセス記憶機能の複写を使用して回復される。
【0107】回復は、頁の直接アクセス記憶機能バージ
ョンのタイムスタンプがログ記録のそれより小さい場合
にのみ供給される組合わされたログからのログ記録と共
に、異なるデータ・セットに対して並行に行うことがで
きる。回復された頁は直接アクセス記憶機能に書き戻さ
れる。各データ・セットが回復すると、回復保留中の表
示が除去され、データ・セットが使用可能となる。
【0108】共用電子記憶16の回復中、新トランザク
ションは“回復保留中”とマークされたデータベースを
割振るべき許可が否定された状態で動作を実行する。共
用電子記憶16の障害を知ったときに現在実行している
トランザクションは2つのカテゴリに入る。第1の場
合、トランザクションは回復保留中データベースの全頁
を変更しなかったかもしれない。これらのトランザクシ
ョンに対してはアクセスできないため、共用電子記憶1
6に対するそれ以上の要求は否定される。
【0109】第2の場合、トランザクションは回復保留
中とマークされたデータ・セットの頁を変更したトラン
ザクションを含む。これらトランザクションは中止さ
れ、データベース管理システムはどのトランザクション
がその進行において変更されたか頁を説明するため、補
償ログ記録を書込む。
【0110】全補償ログ記録のログ・ファイルに対する
書込みを許可するため、共用電子記憶16の回復は、す
べての不完全なトランザクションがコミット又は中止さ
れた後においてのみ、開始される。最高タイミスタンプ
は、これらログ記録が書込まれたときに、これらログ記
録(記憶が失敗した後に書込まれる)は回復処理におい
て含まれるということを保証するために注釈される。
【0111】直接アクセス記憶機能からの回復の利点 データの高い使用可能性は重要なユーザの要求である。
共用電子記憶16が典型的に信頼性のある装置であった
としても、共用電子記憶16が故障したときにはデータ
の回復を行わなければならない。ユーザは高度に使用可
能なデータのために、変更したデータの複写を選択する
かもしれない。しかし、これは他の共用電子記憶16の
余分なコストと他の書込みのメインライン・オーバーヘ
ッドとを必要とする。
【0112】本発明による直接アクセス記憶機能からの
データ回復のアプローチはそれらの余分な準備を必要と
しない。又、共用記憶の両複写が失敗しても、本発明は
直接アクセス記憶機能からのデータ回復が可能である。
その上、複写選択の場合、共用記憶が信頼性のある装置
であるという事実に鑑み、ユーザは極端に稀な状況にお
ける使用可能性を、複写から生ずる余分なメインライン
・コストのため、断念することを選択するかもしれな
い。
【0113】直接アクセス記憶機能からの回復はデータ
ベースのイメージ複写からの回復より更に効果的であ
る。それは、データの直接アクセス記憶機能バージョン
はイメージ複写のそれよりも現行的であるから、下記の
ような利点を含む。すなわち、回復保留中とマークされ
たデータ・セットのサブセットのみを回復する必要があ
るのみである。そのサブセットは、故障したときに共用
電子記憶16にあった変更頁のみから成る。これは直接
アクセス記憶機能とのI/0活動を減少するものであ
る。
【0114】回復のために走査するべきログの量はイメ
ージ複写から回復するためのそれより相当少い。キャス
トアウト処理の発生頻度に妥当性があれば、保存ログは
必要としない。ログの組合せはイメージ複写からの回復
と比較してログ・データの量が相当少い。
【0115】以上、本発明の好ましい実施例を説明した
が、本発明はそれに限定するものではなく、本発明の理
念及び範囲内で多くの変化、変更が可能であることは明
らかである。
【0116】
【発明の効果】本発明は、以上説明したように構成した
ことにより、障害発生時におけるデータ回復の境界を限
定してI/0活動を減少し、更にイメージの複写を必要
としない等により、共用記憶の障害から効率よくデータ
を回復することができるため、余分なコストを必要とせ
ず、迅速なデータ回復が可能となった。
【0117】テーブル1 データ共用複合体の各データベース管理システムのメン
バーに対するシステム・タイムスタンプを計算するため
の擬似コード。 101 新システム・タイムスタンプ(new-system-tim
estamp)を開始チェックポイント(begin-checkpoint)
ログ記録のデータベース管理システム・タイムスタンプ
に初期化する。 /= 開始チェックポイント・ログ記録は =/ /= この処理がトリガされる前に =/ /= 書込まれた。 =/
【0118】102 バッファ・プールで各ダーティ頁
を循環する /= データベース管理システムはまだ外部化 =/ /= されていないダーティ頁のリストを =/ /= 共用電子記憶に保持する。 =/ 103 ダーティ頁のタイムスタンプが新システム・タ
イムスタンプより小さい場合、 /= 各ダーティ頁に対し、そのタイムスタンプは =/ /= 頁の状態をクリーンからダーティに =/ /= 変化させる最初の更新ログ記録 =/ /= のタイムスタンプである。 =/
【0119】104 新システム・タイムスタンプ=ダ
ーティ(DIRTY)頁タイムスタンプ。 /= このDIRTY頁に対する =/ /= ログの変更をカバーするため =/ /= システム・タイムスタンプを更新する必要がある。 =/ 105 ELSE。 /= なにもしない。 =/ 106 END。 107 システム・タイムスタンプ=新システム・タイ
ムスタンプ。 /= 現在、現行システム・タイムスタンプ =/ /= は新システム・タイムスタンプに =/ /= 直ちに移動した。 =/
【0120】テーブル2 頁更新操作中、頁タイムスタンプ値をデータベース管理
システム・メインラインにセットするための擬似コー
ド。 201 頁Pに対する更新がデータベース管理システム
内で順序的に実行されることを保証するため、システム
内頁ラッチを獲得する。 202 頁Pを変更するため、1つのデータベース管理
システムのみが実行可能であることを保証するために、
システム内頁ロックを排他的モードで獲得する。 203 現在バッファ付頁Pは、有効頁であることを保
証又は緩衝する。 /= 有効でない場合、頁Pを共用電子記憶から更生する =/ /= 共用電子記憶にない場合、それを低速直接アクセス・=/ /= データ記憶機能から更生する =/
【0121】204 頁及びログを更新する。回復に対
する頁の更新はログ記録のタイムスタンプを使用する。 /= 各データベース管理システムのログ記録は =/ /= 関連するタイムスタンプ値を有する。 =/ 205 頁Pがクリーン(CLEAN)状態であった場
合、 /= PはCLEANの状態からDIRTYの状態に =/ /= 変換されるべき実行可能である。 =/ 206 頁タイムスタンプ(t0 )=この更新操作に対
するログ記録のタイムスタンプ。
【0122】207 ELSE。 /= タイムスタンプ値はこの頁のために既に =/ /= セットされていたので何もしない。 =/ 208 システム内頁ラッチを解放する。 209 頁がクリーンになった後、システム間頁ロック
を解放する。
【0123】テーブル3 共用電子記憶に対する頁書込み中、共用電子記憶にある
頁タイムスタンプを操作する擬似コード(P,CB=
1,バッファ・アドレス,TS=t0 )。 301 頁Pに対する共用電子記憶登録簿の挿入項目が
存在しない場合、 /= 頁P登録簿の挿入項目は共用電子記憶から =/ /= エイジアウトされた。 =/ 302 DO。
【0124】303 Pに対する登録簿の挿入項目
を割当て、初期化する。 304 CB=1をセットする。 /= Pを共用電子記憶のダーティ頁とマークする。 =/ 305 TS=t0 をセットする。 /= パスする頁タイムスタンプを受諾する。 =/ 306 書込コマンドが与えられたデータを受諾す
る。 307 END。
【0125】308 ELSE 309 Pに対する登録簿の挿入項目が存在し、そ
れが変更していない場合、 /= すなわち、CB=0 及び COL=0 =/ 310 DO 311 CB−1をセットする。 /= Pをダーティ頁とマークする。 =/ 312 TS=t0 をセットする。 /= パスした頁タイムスタンプを受諾する。 =/ 313 書込コマンドが与えられたデータを
受諾する。 314 END
【0126】315 ELSE 316 /= Pに対する登録簿の挿入項目が存在し、 =/ /= それは既にダーティであった。 =/ /= すなわち、CB=1 又は COL=1 =/ 317 DO /= t0 がまだ共用電子記憶から低速直接アクセス・デー=/ /= タ記憶機能に外部化 =/ /= される前に更新が行われたため、 =/ /= t0 を受諾することができない。非0の =/ /= COLフィールドは頁のキャストアウトが進行中 =/ /= であり、未終了であることを意味する。 =/
【0127】318 CB=0 の場合 /= COLは頁のキャストアウトが進行中であること =/ /= を表示する非0でなければならない。 =/ 319 CB=1 にセットする。 /= 再び頁Pをダーティとマークする。 =/ 320 ELSE 321 書込コマンドが与えられたデータを受諾す
る。 322 END
【0128】テーブル4 頁キャストアウト操作中、頁Pに対する共用電子記憶の
頁タイムスタンプを操作する擬似コード。 401 データベース管理システムは t1 =MINを
セットする(データ共用複合体の全データベース管理シ
ステムに対するシステム・タイムスタンプ)。 /= 各データベース管理システムに対し、システム・タイ=/ /= ムスタンプはテーブル1にあるように保持される。 =/ /= システム間/内ロッキングは頁キャストアウト操 =/ /= 作中捕獲されないので、t1 は共用電子記憶に対しま=/ /= だ外部化されなかった全更新をカバーする =/ /= ために使用される。 =/
【0129】402 頁Pに対する“キャストアウトの
ための読出”を実行するよう共用電子記憶に通知する。 /= CB=0 及びCOL=0をセットし、データを共用=/ /= 電子記憶からキャストアウト・バッファに転送する。=/ 403 データベース管理システムは頁Pをキャストア
ウト・バッファからディスクに書込む。 404 “キャストアウト・ロックのロック解除”を実
行し、t1 を新頁タイムスタンプとしてパスするよう共
用電子記憶に通知する。 /= COL=0 をセットし、登録簿の挿入項目の =/ /= 値がt1 より低い場合、TS=t1 をセットする =/
【0130】テーブル5 共用電子記憶の回復タイムスタンプを計算するための擬
似コード。 501 データベース管理システムは t1 =MINを
セットする(データ共用複合体の全データベース管理シ
ステムに対するシステム・タイムスタンプ)。 /= 各データベース管理システムに対するシステム・タ =/ /= イムスタンプがテーブル1にあるように保持される。=/
【0131】502 データベース管理システムは共用
電子記憶の変更した頁すべてのうちの最小タイムスタン
プを取得し、このタイムスタンプをt2 に記憶するよう
に登録簿共用電子記憶読出コマンドを発行する。 /= データベース管理システムはt2 の値を計算するため=/ /= このコマンドを1回以上発行するかもしれない。 =/ 503 回復タイムスタンプ =MINをセットする
(t1 ,t2 )。
【0132】テーブル6 共用電子記憶障害のため、データセットに対し論理回復
保留をセットするための擬似コード。 600 データセットを共用する全データベース管理シ
ステムのログを終了し組合わせるため共用記憶を使用す
るトランザクションを持つ。
【0133】 /= 組合せはタイムスタンプ順に行われる。 =/ 601 回復タイムスタンプから開始して全共用DEM
システムの組合せログ(S)を走査する。 602 共用記憶に対しデータベース・ロギング活動を
持ったデータセットに対し“回復保留”をセットする。 /= 保留は、データセットが回復する =/ /= まで使用不可能であること =/ /= を意味する。 =/ 603 各データセットを回復し、“回復保留”状態を
リセットする。
【図面の簡単な説明】
【図1】本発明を実施する複数システム環境を示す説明
【図2】本発明の実施に必要な図1の環境の構造的特徴
を詳細に示す説明図
【図3】システム順序番号の累積を示す説明図
【図4】共用記憶がそこに記憶されたデータに対する構
造順序を維持する方法を例示した流れ図
【図5】キャストアウト操作中構造順序番号を共用記憶
にプッシュする方法を例示した流れ図
【図6】キャストアウト操作中構造順序番号を共用記憶
にプッシュする方法を例示した流れ図
【図7】キャストアウト操作中構造順序番号を共用記憶
にプッシュする方法を例示した流れ図
【図8】システム及び構造順序番号からの共用記憶回復
順序番号の導出を例示した説明図
【符号の説明】
10,12,13 プロセッサ 14,15 直接アクセス記憶装置 16 共用電子記憶 17 管理ロジック 18,19,20 永続性記憶域ログ 22 永続性記憶域ロギング資源 24 システム・クロック同期機能 30 共用キャッシュ 31 頁 32 登録簿 34 挿入項目 35,41 頁名フィールド 36,42 頁アドレス・フィールド 37,43 変更ビット・フィールド 38 キャストアウト・ロック・フィールド 39,44 タイムスタンプ・フィールド 101,120 局所バッファ 40 構造 40a 挿入項目
フロントページの続き (72)発明者 インダーパル・エス・ナラング アメリカ合衆国95070、カリフォルニア州、 サラトガ、セラ・オークス・コート、 13778番地 (72)発明者 ジェイムス・ズィー・テング アメリカ合衆国95120、カリフォルニア州、 サン・ジョーゼ、マッコール・ドライブ、 6964番地

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 共用電子記憶と、低速直接アクセス・デ
    ータ記憶機能と、前記共用電子記憶及び低速直接アクセ
    ス・データ記憶機能に接続され独立して実行する複数の
    データベース・システムと、前記低速直接アクセス・デ
    ータ記憶機能にデータを含むデータベースとを含み、各
    前記データベース・システムは、更に、 前記低速直接アクセス・データ記憶機能からデータ構造
    を取得し、前記データ構造を局所的に変更し、他のデー
    タベース・システムによるアクセスのため前記データ構
    造を前記共用電子記憶に挿入するトランザクション基本
    手段と、 データ構造に対して行われる変更に対応する1列の記録
    をログに入力するログおよびトランザクション手段と、 順序化することができる異なるデータベース・システム
    からのログ記録とを含むようにした複数コンピュータ・
    データ共用システムにおいて、 各データベース・システムにつき、前記共用電子記憶に
    挿入された如何なるデータ構造にも含まれていないデー
    タベース・システムにおけるデータ構造に対する最早期
    の変更を記録するログ記録のログ順序位置に概略等しい
    システム順序値を確かめ、 各データベース・システムにおいて、前記データベース
    ・システムにおいて変更された各データ構造に対し、前
    記データ構造に対する最早期の変更を記録するログ記録
    のログ順序位置に等しいか小さい値の順序値を供給し、 前記共用電子記憶の各データ構造につき、前記データベ
    ース・システムにより供給された順序値に基づき、前記
    データ構造が前記低速直接アクセス・データ記憶機能か
    ら得られた後に発生した前記データ構造の最早期の変更
    のログ記録のログ順序位置に対応する構造順序値を確か
    め、 前記システム及びデータ構造の順序値から最早期のシス
    テム及びデータ構造値に対応する回復境界を確かめる各
    工程を含み、 共用電子記憶の障害からデータベースを回復する機械実
    行可能なトランザクション・ログ境界の保持方法。
  2. 【請求項2】 共用高速電子記憶と、低速直接アクセス
    ・データ記憶機能と、前記共用電子記憶及び低速直接ア
    クセス・データ記憶機能に接続された複数のコンピュー
    タ実行データベース・システムと、前記低速直接アクセ
    ス・データ記憶機能に記憶されたデータ構造を含むデー
    タベースとを含み、更に各前記データベース・システム
    は、 前記低速直接アクセス・データ記憶機能からデータ構造
    を取得し、 既時アクセスのためデータ構造を局所的に記憶し、 前記局所的に記憶されたデータ構造を変更し、 前記共用電子記憶から及びに対しデータ構造を記憶し、
    及び前記共用電子記憶からデータ構造を移動する各工程
    を実行するトランザクション基本手段を含むようにした
    複数コンピュータ・データ共用システムにおいて、 各データベース・システムにつき、各々が順次その場所
    を示す個有の順序値を含む1列のログ記録を有するトラ
    ンザクション・ログを保持し、 各データベース・システムにおいて、データベース・シ
    ステムによって行われた最早期の変更のログ記録の順序
    値に概略等しいシステム順序値を前記共用電子記憶に記
    憶された如何なるデータ構造にも含まれていない局所的
    に記憶されたデータ構造に保持し、 変更され前記共用電子記憶に記憶された各データ構造に
    対し、前記データ構造が前記低速直接アクセス・データ
    記憶機能から得られた後にデータベース・システムによ
    って前記データ構造に対して行われた最早期の変更のロ
    グ記録に対応する構造順序値を保持し、 データベース・システム又は前記共用電子記憶に局所的
    に記憶されているデータ構造に対して行われた最早期の
    変更のログ記録に対応する順序値を前記システム順序値
    及び構造順序値から取ることにより回復順序値を周期的
    に判別する各工程を含み、 前記共用電子記憶に障害発生の場合、 前記トランザクション・ログすべての共用体に対し、対
    応するログ記録が回復順序値に続く順序値と共に存在す
    る前記低速直接アクセス・データ記憶機能のデータ構造
    を識別し、 前記回復順序値に続く順序値と共にログ記録の変更を前
    記識別されたデータ構造に適用する各工程を含むことを
    特徴とする共用電子記憶の障害からのデータベースの回
    復方法。
  3. 【請求項3】 前記システム順序値を保持する工程は、 データベース・システムにおいて変更した各局所的に記
    憶したデータ構造に対し、前記データ構造を局所的に記
    憶した後前記データベースにおいて前記データ構造に対
    して行われた最早期の変更に対応するログ記録の順序値
    を前記データベース・システムにリストし、 前記データベース・システムのトランザクション・ログ
    のログ記録の順序に従い最早期に発生した順序値を前記
    リストした順序値から周期的に選択する各工程を含むこ
    とを特徴とする請求項2記載の方法。
  4. 【請求項4】 前記システム順序値、前記構造順序値、
    前記回復境界はログ記録タイムスタンプであることを特
    徴とする請求項1記載の方法。
  5. 【請求項5】 前記システムは、更に単調に変化するタ
    イムスタンプの順次を供給する手段を含み、前記トラン
    ザクション・ログを保持する工程は順序値としてタイム
    スタンプをログ記録に供給する工程を含むことを特徴と
    する請求項2記載の方法。
  6. 【請求項6】 回復順序値に続く順序値と共に対応する
    ログ記録を持たないデータ構造を前記低速直接アクセス
    ・データ記憶機能にアクセスすることを前記データベー
    ス・システムに許可する工程を含むことを特徴とする請
    求項2記載の方法。
JP4269199A 1991-11-08 1992-09-14 複数コンピュータ・データ共用システムにおける共用記憶の障害からのデータベースの回復方法 Expired - Lifetime JPH0827750B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US790241 1991-11-08
US07/790,241 US5280611A (en) 1991-11-08 1991-11-08 Method for managing database recovery from failure of a shared store in a system including a plurality of transaction-based systems of the write-ahead logging type

Publications (2)

Publication Number Publication Date
JPH05225019A true JPH05225019A (ja) 1993-09-03
JPH0827750B2 JPH0827750B2 (ja) 1996-03-21

Family

ID=25150067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4269199A Expired - Lifetime JPH0827750B2 (ja) 1991-11-08 1992-09-14 複数コンピュータ・データ共用システムにおける共用記憶の障害からのデータベースの回復方法

Country Status (4)

Country Link
US (1) US5280611A (ja)
EP (1) EP0541381B1 (ja)
JP (1) JPH0827750B2 (ja)
DE (1) DE69221259T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006023889A (ja) * 2004-07-07 2006-01-26 Hitachi Ltd リモートコピーシステム及び記憶装置システム
JP2013513147A (ja) * 2009-12-04 2013-04-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報システムにおける変換データの高スループット・高信頼性の複製

Families Citing this family (138)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5065311A (en) * 1987-04-20 1991-11-12 Hitachi, Ltd. Distributed data base system of composite subsystem type, and method fault recovery for the system
US5537574A (en) * 1990-12-14 1996-07-16 International Business Machines Corporation Sysplex shared data coherency method
US5408653A (en) * 1992-04-15 1995-04-18 International Business Machines Corporation Efficient data base access using a shared electronic store in a multi-system environment with shared disks
US5398331A (en) * 1992-07-08 1995-03-14 International Business Machines Corporation Shared storage controller for dual copy shared data
JP2842738B2 (ja) * 1992-08-25 1999-01-06 富士通株式会社 オンライン処理システム
US5815656A (en) * 1992-09-23 1998-09-29 International Business Machines Corporation Method of validating memory structures in data processing systems
US5530855A (en) * 1992-10-13 1996-06-25 International Business Machines Corporation Replicating a database by the sequential application of hierarchically sorted log records
US5822781A (en) * 1992-10-30 1998-10-13 Intel Corporation Sector-based storage device emulator having variable-sized sector
WO1994012943A1 (en) * 1992-12-03 1994-06-09 Frost Frank E System of unique number assignment and genealogical data retrieval
US5485607A (en) * 1993-02-05 1996-01-16 Digital Equipment Corporation Concurrency-control method and apparatus in a database management system utilizing key-valued locking
JPH06266597A (ja) * 1993-03-11 1994-09-22 Fujitsu Ltd ログ取得方式
US5581750A (en) * 1993-03-15 1996-12-03 International Business Machines Corporation System and method for improving data recovery performance
US5544359A (en) * 1993-03-30 1996-08-06 Fujitsu Limited Apparatus and method for classifying and acquiring log data by updating and storing log data
US5870764A (en) * 1993-05-12 1999-02-09 Apple Computer, Inc. Method of managing a data structure for concurrent serial and parallel revision of a work
US5455946A (en) * 1993-05-21 1995-10-03 International Business Machines Corporation Method and means for archiving modifiable pages in a log based transaction management system
US5553279A (en) * 1993-10-08 1996-09-03 International Business Machines Corporation Lossless distribution of time series data in a relational data base network
US5613113A (en) * 1993-10-08 1997-03-18 International Business Machines Corporation Consistent recreation of events from activity logs
US5590318A (en) * 1993-11-18 1996-12-31 Microsoft Corporation Method and system for tracking files pending processing
GB2284494B (en) * 1993-11-26 1998-09-09 Hitachi Ltd Distributed shared memory management system
JP2735479B2 (ja) * 1993-12-29 1998-04-02 株式会社東芝 メモリ・スナップショット方法及びメモリ・スナップショット機能を持つ情報処理装置
US5546579A (en) * 1994-05-02 1996-08-13 International Business Machines Corporation Page refreshing procedure using two locking granularities to ensure cache coherency in a multisystem database processing environment having a high-speed shared electronic store
US5574902A (en) * 1994-05-02 1996-11-12 International Business Machines Corporation Efficient destaging of updated local cache pages for a transaction in a multisystem and multiprocess database management system with a high-speed shared electronic store
US5659682A (en) * 1994-06-16 1997-08-19 International Business Machines Corporation Scheme to determine completion of directory operations for server recovery
US5751992A (en) * 1994-09-23 1998-05-12 International Business Machines Corporation Computer program product for continuous destaging of changed data from a shared cache in a multisystem shared disk environment wherein castout interest is established in a hierarchical fashion
US5634096A (en) * 1994-10-31 1997-05-27 International Business Machines Corporation Using virtual disks for disk system checkpointing
SE506534C2 (sv) * 1995-06-15 1998-01-12 Ericsson Telefon Ab L M Sätt att bestämma innehåll i restaureringslogg
US5720029A (en) * 1995-07-25 1998-02-17 International Business Machines Corporation Asynchronously shadowing record updates in a remote copy session using track arrays
JP3647512B2 (ja) * 1995-08-04 2005-05-11 富士通株式会社 広域ワークフローシステムの保守方式
US5692182A (en) * 1995-10-05 1997-11-25 International Business Machines Corporation Bufferpool coherency for identifying and retrieving versions of workfile data using a producing DBMS and a consuming DBMS
US5956504A (en) * 1996-03-04 1999-09-21 Lucent Technologies Inc. Method and system for compressing a data stream in a database log so as to permit recovery of only selected portions of the data stream
US6647510B1 (en) * 1996-03-19 2003-11-11 Oracle International Corporation Method and apparatus for making available data that was locked by a dead transaction before rolling back the entire dead transaction
US7415466B2 (en) * 1996-03-19 2008-08-19 Oracle International Corporation Parallel transaction recovery
US5850507A (en) * 1996-03-19 1998-12-15 Oracle Corporation Method and apparatus for improved transaction recovery
US5870762A (en) * 1996-09-26 1999-02-09 Lee; Paul Error detection and recovery of database files
KR100198805B1 (ko) * 1996-11-22 1999-06-15 정선종 분석 단계에서 트랜잭션 테이블 초기화 기법을 이용한 댕글링 트랜잭션 발생 방지 방법
KR100212447B1 (ko) * 1996-11-22 1999-08-02 정선종 재수행 단계에서 종료한 트랜잭션 처리 기법을 이용한 댕글링 트랜잭션 발생 방지 방법
US5781912A (en) * 1996-12-19 1998-07-14 Oracle Corporation Recoverable data replication between source site and destination site without distributed transactions
US6125368A (en) * 1997-02-28 2000-09-26 Oracle Corporation Fault-tolerant timestamp generation for multi-node parallel databases
US5933838A (en) * 1997-03-10 1999-08-03 Microsoft Corporation Database computer system with application recovery and recovery log sequence numbers to optimize recovery
US6076095A (en) * 1997-03-28 2000-06-13 International Business Machines Corporation Method of one system of a multisystem environment taking over log entries owned by another system
US6125393A (en) * 1997-03-28 2000-09-26 International Business Machines Corporation System of compressing the tail of a sparse log stream of a multisystem environment
US5966708A (en) * 1997-03-28 1999-10-12 International Business Machines Tail compression of a log stream using a scratch pad of logically deleted entries
US5920875A (en) * 1997-03-28 1999-07-06 International Business Machines Corporation Tail compression of a sparse log stream of a computer system
US5999935A (en) * 1997-03-28 1999-12-07 International Business Machines Corporation Tail compression of a sparse log stream of a multisystem environment
US6108667A (en) 1997-03-28 2000-08-22 International Business Machines Corporation System of compressing a log stream using a scratch pad of logically deleted entries
US5956735A (en) * 1997-03-28 1999-09-21 International Business Machines Corporation System of compressing the tail of a sparse log stream of a computer system
US6286011B1 (en) * 1997-04-30 2001-09-04 Bellsouth Corporation System and method for recording transactions using a chronological list superimposed on an indexed list
US5953728A (en) * 1997-07-25 1999-09-14 Claritech Corporation System for modifying a database using a transaction log
US6389482B1 (en) 1997-08-28 2002-05-14 International Business Machines Corp. Dynamic transitioning from a local pipe to a cross-system pipe
US5931955A (en) * 1997-12-15 1999-08-03 At&T Corp Method and generic automatic database recovery
US6353836B1 (en) 1998-02-13 2002-03-05 Oracle Corporation Method and apparatus for transferring data from the cache of one node to the cache of another node
US7200623B2 (en) * 1998-11-24 2007-04-03 Oracle International Corp. Methods to perform disk writes in a distributed shared disk system needing consistency across failures
US7930278B2 (en) * 1998-02-13 2011-04-19 Oracle International Corporation Methods to perform disk writes in a distributed shared disk system needing consistency across failures
US6732123B1 (en) * 1998-02-23 2004-05-04 International Business Machines Corporation Database recovery to any point in time in an online environment utilizing disaster recovery technology
US6182086B1 (en) * 1998-03-02 2001-01-30 Microsoft Corporation Client-server computer system with application recovery of server applications and client applications
US6173292B1 (en) 1998-03-04 2001-01-09 International Business Machines Corporation Data recovery in a transactional database using write-ahead logging and file caching
US6092085A (en) * 1998-03-24 2000-07-18 International Business Machines Corporation Method and system for improved database disaster recovery
US6119128A (en) * 1998-03-30 2000-09-12 International Business Machines Corporation Recovering different types of objects with one pass of the log
US7013305B2 (en) 2001-10-01 2006-03-14 International Business Machines Corporation Managing the state of coupling facility structures, detecting by one or more systems coupled to the coupling facility, the suspended state of the duplexed command, detecting being independent of message exchange
US6295610B1 (en) 1998-09-17 2001-09-25 Oracle Corporation Recovering resources in parallel
US7065540B2 (en) * 1998-11-24 2006-06-20 Oracle International Corporation Managing checkpoint queues in a multiple node system
US6539495B1 (en) 1999-02-22 2003-03-25 International Business Machines Corporation Method, system and program products for providing user-managed duplexing of coupling facility cache structures
US6438654B1 (en) 1999-02-22 2002-08-20 International Business Machines Corporation Castout processing for duplexed cache structures
US7774469B2 (en) * 1999-03-26 2010-08-10 Massa Michael T Consistent cluster operational data in a server cluster using a quorum of replicas
US6609214B1 (en) 1999-08-23 2003-08-19 International Business Machines Corporation Method, system and program products for copying coupling facility structures
US6317744B1 (en) 1999-08-23 2001-11-13 International Business Machines Corporation Method, system and program products for browsing fully-associative collections of items
US6542970B1 (en) 1999-08-23 2003-04-01 International Business Machines Corporation Method, system and program products for copying coupling facility list structures
US6546466B1 (en) 1999-08-23 2003-04-08 International Business Machines Corporation Method, system and program products for copying coupling facility cache structures
US6594667B2 (en) 1999-08-23 2003-07-15 International Business Machines Corporation Method, system and program products for modifying coupling facility structures
US6546414B1 (en) 1999-08-23 2003-04-08 International Business Machines Corporation Method, system and program products for copying coupling facility lock structures
US6266783B1 (en) 1999-08-23 2001-07-24 International Business Machines Corporation System-managed rebuild of coupling facility structures
US6584554B1 (en) 1999-08-23 2003-06-24 International Business Machines Corporation Directed allocation of coupling facility structures
US6636941B1 (en) * 2000-01-18 2003-10-21 International Business Machines Corporation Enhanced stable disk storage
US6526417B1 (en) 2000-01-25 2003-02-25 International Business Machines Corporation System and method for change accumulation unmerged update reduction
US6963875B2 (en) * 2000-03-23 2005-11-08 General Atomics Persistent archives
US7043504B1 (en) 2000-04-10 2006-05-09 International Business Machines Corporation System and method for parallel primary and secondary backup reading in recovery of multiple shared database data sets
US6594676B1 (en) 2000-04-10 2003-07-15 International Business Machines Corporation System and method for recovery of multiple shared database data sets using multiple change accumulation data sets as inputs
US6567928B1 (en) * 2000-05-23 2003-05-20 International Business Machines Corporation Method and apparatus for efficiently recovering from a failure in a database that includes unlogged objects
US6643672B1 (en) * 2000-07-31 2003-11-04 Hewlett-Packard Development Company, Lp. Method and apparatus for asynchronous file writes in a distributed file system
US6668262B1 (en) 2000-11-09 2003-12-23 Cisco Technology, Inc. Methods and apparatus for modifying a database
US6850938B1 (en) 2001-02-08 2005-02-01 Cisco Technology, Inc. Method and apparatus providing optimistic locking of shared computer resources
US7895173B1 (en) 2001-06-27 2011-02-22 Microsoft Corporation System and method facilitating unified framework for structured/unstructured data
US7136883B2 (en) * 2001-09-08 2006-11-14 Siemens Medial Solutions Health Services Corporation System for managing object storage and retrieval in partitioned storage media
US6868512B1 (en) * 2002-08-27 2005-03-15 Advanced Micro Devices, Inc. Fault detection system with real-time database
US20040059706A1 (en) * 2002-09-25 2004-03-25 International Business Machines Corporation System and method for providing concurrent usage and replacement of non-native language codes
DE10393571T5 (de) * 2002-10-23 2005-12-22 Onaro, Boston Verfahren und System zum Validieren logischer End-to-End-Zugriffspfade in Storage Area Netzwerken
JP4393762B2 (ja) * 2002-12-19 2010-01-06 株式会社日立製作所 データベース処理方法及び装置並びにその処理プログラム
JP4290975B2 (ja) * 2002-12-19 2009-07-08 株式会社日立製作所 データベース処理方法及び装置並びにその処理プログラム及びディザスタリカバリ方法及びシステム
US20040193612A1 (en) * 2003-03-31 2004-09-30 Chang William I. System and method for testing, monitoring, and tracking distributed transactions using a search engine
JP4301849B2 (ja) * 2003-03-31 2009-07-22 株式会社日立製作所 情報処理方法及びその実施システム並びにその処理プログラム並びにディザスタリカバリ方法およびシステム並びにその処理を実施する記憶装置およびその制御処理方法
US7111136B2 (en) * 2003-06-26 2006-09-19 Hitachi, Ltd. Method and apparatus for backup and recovery system using storage based journaling
US7398422B2 (en) * 2003-06-26 2008-07-08 Hitachi, Ltd. Method and apparatus for data recovery system using storage based journaling
US20050044333A1 (en) * 2003-08-19 2005-02-24 Browning James V. Solid-state information storage device
US7577807B2 (en) * 2003-09-23 2009-08-18 Symantec Operating Corporation Methods and devices for restoring a portion of a data store
US7409587B2 (en) * 2004-08-24 2008-08-05 Symantec Operating Corporation Recovering from storage transaction failures using checkpoints
US7991748B2 (en) * 2003-09-23 2011-08-02 Symantec Corporation Virtual data store creation and use
US7296008B2 (en) * 2004-08-24 2007-11-13 Symantec Operating Corporation Generation and use of a time map for accessing a prior image of a storage device
US7904428B2 (en) * 2003-09-23 2011-03-08 Symantec Corporation Methods and apparatus for recording write requests directed to a data store
US7577806B2 (en) * 2003-09-23 2009-08-18 Symantec Operating Corporation Systems and methods for time dependent data storage and recovery
US7730222B2 (en) * 2004-08-24 2010-06-01 Symantec Operating System Processing storage-related I/O requests using binary tree data structures
US7239581B2 (en) * 2004-08-24 2007-07-03 Symantec Operating Corporation Systems and methods for synchronizing the internal clocks of a plurality of processor modules
US7725760B2 (en) * 2003-09-23 2010-05-25 Symantec Operating Corporation Data storage system
US7287133B2 (en) * 2004-08-24 2007-10-23 Symantec Operating Corporation Systems and methods for providing a modification history for a location within a data store
US7631120B2 (en) * 2004-08-24 2009-12-08 Symantec Operating Corporation Methods and apparatus for optimally selecting a storage buffer for the storage of data
US7827362B2 (en) * 2004-08-24 2010-11-02 Symantec Corporation Systems, apparatus, and methods for processing I/O requests
US7447710B2 (en) * 2003-12-11 2008-11-04 Sybase, Inc. Database system providing self-tuned parallel database recovery
US20050131735A1 (en) * 2003-12-15 2005-06-16 Degeorge Michael P. Computerized system and method for identifying and storing time zone information in a healthcare environment
US7039661B1 (en) 2003-12-29 2006-05-02 Veritas Operating Corporation Coordinated dirty block tracking
US7111139B2 (en) * 2004-03-02 2006-09-19 Hitachi, Ltd. Data synchronization of multiple remote storage
JP4452533B2 (ja) 2004-03-19 2010-04-21 株式会社日立製作所 システムおよび記憶装置システム
DE102004028166A1 (de) * 2004-06-09 2006-01-05 Krämer, Alexander, Dr. Verfahren zur Konstruktion einer Systemvernetzung
JP2006004031A (ja) * 2004-06-16 2006-01-05 Hitachi Ltd データ処理方法およびシステム並びにストレージ装置方法およびその処理プログラム
JP5060485B2 (ja) 2005-09-27 2012-10-31 オナロ インコーポレイテッド 複製データの可用性及び最新性を検証するための方法及びシステム。
US7823153B1 (en) 2005-09-30 2010-10-26 Symantec Corporation System and method for detecting and logging in-line synchronization primitives in application program code
US7930684B2 (en) * 2005-10-12 2011-04-19 Symantec Operating Corporation System and method for logging and replaying asynchronous events
US7536583B2 (en) * 2005-10-14 2009-05-19 Symantec Operating Corporation Technique for timeline compression in a data store
US7761732B2 (en) * 2005-12-07 2010-07-20 International Business Machines Corporation Data protection in storage systems
US8117600B1 (en) 2005-12-29 2012-02-14 Symantec Operating Corporation System and method for detecting in-line synchronization primitives in binary applications
US8296269B2 (en) * 2006-05-12 2012-10-23 Oracle International Corporation Apparatus and method for read consistency in a log mining system
US7953698B2 (en) * 2006-08-03 2011-05-31 Sybase, Inc. Replication system with methodology for replicating stored procedure calls
US8826032B1 (en) 2006-12-27 2014-09-02 Netapp, Inc. Systems and methods for network change discovery and host name resolution in storage network environments
US8332860B1 (en) 2006-12-30 2012-12-11 Netapp, Inc. Systems and methods for path-based tier-aware dynamic capacity management in storage network environments
US9042263B1 (en) 2007-04-06 2015-05-26 Netapp, Inc. Systems and methods for comparative load analysis in storage networks
KR100926880B1 (ko) * 2007-05-21 2009-11-16 엔에이치엔(주) Dbms에서의 데이터 복제 방법 및 시스템
US8108356B2 (en) * 2007-12-24 2012-01-31 Korea Advanced Institute Of Science And Technology Method for recovering data in a storage system
US8185505B1 (en) * 2008-06-20 2012-05-22 Emc Corporation Techniques for processing recovery points
JP5439014B2 (ja) * 2009-04-10 2014-03-12 株式会社日立製作所 データ処理システム、その処理方法、及び計算機
US8510334B2 (en) * 2009-11-05 2013-08-13 Oracle International Corporation Lock manager on disk
US8627135B2 (en) 2010-08-14 2014-01-07 Teradata Us, Inc. Management of a distributed computing system through replication of write ahead logs
US8688645B2 (en) * 2010-11-30 2014-04-01 Netapp, Inc. Incremental restore of data between storage systems having dissimilar storage operating systems associated therewith
US9767178B2 (en) 2013-10-30 2017-09-19 Oracle International Corporation Multi-instance redo apply
US10152396B2 (en) 2014-05-05 2018-12-11 Oracle International Corporation Time-based checkpoint target for database media recovery
US9563521B2 (en) * 2014-07-21 2017-02-07 Oracle International Corporation Data transfers between cluster instances with delayed log file flush
US10185736B2 (en) 2015-04-27 2019-01-22 Microsoft Technology Licensing, Llc Replicable differential store data structure
WO2019171133A1 (en) * 2018-03-07 2019-09-12 Pratik Sharma Grouping dependent database transactions for recovery
US10613578B2 (en) 2018-03-22 2020-04-07 Clock Synchronization Clock synchronization
US11188516B2 (en) 2018-08-24 2021-11-30 Oracle International Corproation Providing consistent database recovery after database failure for distributed databases with non-durable storage leveraging background synchronization point
US11977532B2 (en) 2020-03-31 2024-05-07 International Business Machines Corporation Log record identification using aggregated log indexes

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4480304A (en) * 1980-10-06 1984-10-30 International Business Machines Corporation Method and means for the retention of locks across system, subsystem, and communication failures in a multiprocessing, multiprogramming, shared data environment
CS262105B1 (en) * 1987-02-13 1989-02-10 Zdenek Kotrba Carding device
US5043866A (en) * 1988-04-08 1991-08-27 International Business Machines Corporation Soft checkpointing system using log sequence numbers derived from stored data pages and log records for database recovery
US4945474A (en) * 1988-04-08 1990-07-31 Internatinal Business Machines Corporation Method for restoring a database after I/O error employing write-ahead logging protocols
JP3312652B2 (ja) * 1989-06-09 2002-08-12 富士通株式会社 マルチプロセッサアーキテクチャでのデータベース管理方式
US5170480A (en) * 1989-09-25 1992-12-08 International Business Machines Corporation Concurrently applying redo records to backup database in a log sequence using single queue server per queue at a time

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006023889A (ja) * 2004-07-07 2006-01-26 Hitachi Ltd リモートコピーシステム及び記憶装置システム
JP2013513147A (ja) * 2009-12-04 2013-04-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報システムにおける変換データの高スループット・高信頼性の複製
US9002802B2 (en) 2009-12-04 2015-04-07 International Business Machines Corporation High throughput, reliable replication of transformed data in information systems

Also Published As

Publication number Publication date
EP0541381B1 (en) 1997-07-30
JPH0827750B2 (ja) 1996-03-21
DE69221259D1 (de) 1997-09-04
US5280611A (en) 1994-01-18
EP0541381A2 (en) 1993-05-12
EP0541381A3 (en) 1993-12-15
DE69221259T2 (de) 1998-02-12

Similar Documents

Publication Publication Date Title
JPH05225019A (ja) 複数コンピュータ・データ共用システムにおける共用記憶の障害からのデータベースの回復方法
US5485608A (en) Methods and apparatus for updating information in a computer system using logs and state identifiers
US5524205A (en) Methods and apparatus for optimizing undo log usage
US7266669B2 (en) File system with file management function and file management method
JP2505112B2 (ja) トランザクション管理方法
JP2559959B2 (ja) 複数の非同期的プロセスによりレコードを更新する方法
US5778388A (en) Method of processing a synchronization point in a database management system to assure a database version using update logs from accumulated transactions
US5850507A (en) Method and apparatus for improved transaction recovery
US5845292A (en) System and method for restoring a distributed checkpointed database
US5966706A (en) Local logging in a distributed database management computer system
JP3763992B2 (ja) データ処理装置及び記録媒体
US6647510B1 (en) Method and apparatus for making available data that was locked by a dead transaction before rolling back the entire dead transaction
US7933927B2 (en) Method and apparatus for building index of source data
EP0506321A2 (en) Accessing data in a transaction-oriented system
EP1320802A2 (en) A method and system for highly-parallel logging and recovery operation in main-memory transaction processing systems
GB2256952A (en) Computer transaction processing
EP0295424B1 (en) Method for managing subpage concurrency control and partial transaction rollback in a transaction-oriented system of the write-ahead logging type
Rahm Recovery concepts for data sharing systems
Kumar et al. Database recovery
US20060059209A1 (en) Crash recovery by logging extra data
Hisgen et al. New-value logging in the Echo replicated file system
Rastogi et al. Distributed multi-level recovery in main-memory databases
JPH0820996B2 (ja) データアクセスシステム
Sauer et al. A novel recovery mechanism enabling fine-granularity locking and fast, REDO-only recovery
Bhattacharyya Database Management Systems

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040406