JP3877519B2 - システム回復方法およびその実施計算機システム並びにその処理プログラムを記録した記録媒体 - Google Patents

システム回復方法およびその実施計算機システム並びにその処理プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3877519B2
JP3877519B2 JP2000381623A JP2000381623A JP3877519B2 JP 3877519 B2 JP3877519 B2 JP 3877519B2 JP 2000381623 A JP2000381623 A JP 2000381623A JP 2000381623 A JP2000381623 A JP 2000381623A JP 3877519 B2 JP3877519 B2 JP 3877519B2
Authority
JP
Japan
Prior art keywords
log information
standby
history
execution
output buffer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000381623A
Other languages
English (en)
Other versions
JP2002183088A (ja
JP2002183088A5 (ja
Inventor
孝寿 岩本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Hitachi Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd, Hitachi Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP2000381623A priority Critical patent/JP3877519B2/ja
Priority to US10/012,437 priority patent/US20020078207A1/en
Publication of JP2002183088A publication Critical patent/JP2002183088A/ja
Publication of JP2002183088A5 publication Critical patent/JP2002183088A5/ja
Priority to US11/282,717 priority patent/US20060089975A1/en
Application granted granted Critical
Publication of JP3877519B2 publication Critical patent/JP3877519B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component

Description

【0001】
【発明の属する技術分野】
本発明はシステム停止に伴なう高速な回復処理を必要とするオンライン処理システムに関し、特に多量の更新トランザクションが発生するオンラインデータベースシステム等のオンライン処理システムに適用して有効な技術に関するものである。
【0002】
【従来の技術】
従来の一般的なオンラインシステムの回復方法では、実行オンラインシステムが障害によって停止した場合の回復処理の為に、システムの回復に必要な履歴情報であるログ情報を実行オンラインシステムで外部記憶装置上のログファイルに記憶し、実行オンラインシステムに障害が発生すると、待機オンラインシステムがそのログ情報を読み出してシステムの回復に必要な処理を実行していた。
【0003】
この高速化の技術として、例えば特開昭62−57030号公報に記載のものが知られており、その概要は、ホストコンピュータ間で共用する外部記憶装置上のログ情報を、障害の発生前から待機オンラインシステムで読み込み、待機オンラインシステムが実行オンラインシステムの停止以前にその処理を追跡することによって障害が発生した場合のログ情報の読み込み量を減らすものである。
【0004】
また、特開平2−77943号公報に記載の様に、ログ情報を実行オンラインシステムでホストコンピュータ間で共用する外部記憶装置上のログファイルに記憶すると共に、ホストコンピュータ間で共用する拡張記憶装置にも同時に記憶し、実行オンラインシステムに障害が発生した後の待機オンラインシステムでのシステム回復処理においては、この拡張記憶装置からログ情報を読み込むことで、外部記憶装置からのログ情報の読み込みを無くす方法が知られている。
【0005】
更に、特開平10−49418号公報に記載の様に、実行オンラインシステムのログ情報を通信により待機オンラインシステムに転送して、障害による切り替えが発生する前に待機オンラインシステムで追跡処理を実施することにより、障害が発生した後の回復を高速化する方法が知られている。
【0006】
【発明が解決しようとする課題】
しかしながら、特開昭62−57030号公報に記載の技術は、障害による待機オンラインシステムへの切り替えが発生した後に、チェックポイント以降のログ情報を外部記憶装置上のログファイルから入力する必要があり、チェックポイントの間隔によっては膨大なログ情報を読み込むことになって高速なシステム回復の実現を妨げる大きな要因となっていた。一方、障害による切り替えが発生した後の読み込むログ情報の量を減らす為にチェックポイントの間隔を狭めると、実行オンラインシステムでのオーバヘッドを高めてしまう問題がある。
【0007】
また、特開平2−77943号公報に記載の技術は、ログ情報の読み込みは高速化しているものの、特開昭62−57030号公報に記載の技術と同様に、障害による待機オンラインシステムへの切り替えが発生した後に、チェックポイント以降のログ情報を読み込む必要があり、チェックポイントの間隔によっては膨大なログ情報を読み込むことになって高速なシステム回復の実現を妨げる大きな要因となっていた。一方、障害による切り替えが発生した後の読み込むログ情報の量を減らす為にチェックポイントの間隔を狭めると、実行オンラインシステムでのオーバヘッドを高めてしまう問題がある。
【0008】
また、特開平10−49418号公報に記載の技術は、実行オンラインシステムのログ情報を通信により待機オンラインシステムへ転送して、障害による切り替えが発生する前に待機オンラインシステムでの追跡処理を実施しているが、更新履歴のログ情報のみを用いて追跡処理を行っている為、実行オンラインシステムで行われたインデクスへの参照等の参照処理の結果が待機オンラインシステムのメモリ上に反映されておらず、障害による切り替えが発生した場合にインデクス検索等の参照処理の効率が低下するという問題がある。更にログファイルやデータベース等の外部記憶装置を共用していない為、外部記憶装置が2倍必要となるという問題があり、また待機オンラインシステム側での障害等により一旦冗長構成が崩れると、冗長構成に戻す際の整合化の為にトランザクションの実行を一時中断する必要がある為、24時間365日連続運転が実現できないという問題がある。
【0009】
本発明の目的は上記問題を解決し、実行オンラインシステムの障害発生時に待機オンラインシステムへの切り替えを高速に行うことが可能な技術を提供することにある。
【0010】
本発明の他の目的は待機オンラインシステム内の入出力バッファの内容を実行オンラインシステム内の入出力バッファの内容に一致させる為のログ情報の転送負荷を軽減することが可能な技術を提供することにある。
【0011】
本発明の他の目的は待機オンラインシステムが障害や保守の後に再稼働した場合に、実行オンラインシステムでの業務処理の実行に影響を与えることなくホットスタンバイ状態の再確立を行うことが可能な技術を提供することにある。
【0012】
【課題を解決するための手段】
本発明は、実行オンラインシステムで障害が発生した場合に業務処理を待機オンラインシステムに切り替えて続行するオンライン処理システムにおいて、実行オンラインシステムで障害が発生した場合に、実行オンラインシステムの入出力バッファの内容に予め一致させておいた待機オンラインシステムの入出力バッファを用いて待機オンラインシステムで業務処理を続行させるものである。
【0013】
本発明では、実行オンラインシステムの稼働中に実行オンラインシステムで行われた参照処理の履歴を示す参照履歴と更新処理の履歴を示す更新履歴とを表すログ情報を待機オンラインシステムに転送し、前記ログ情報を受け取った待機オンラインシステムでは、その転送されたログ情報に従って、実行オンラインシステムの入出力バッファで行われた参照処理及び更新処理に相当する処理を待機オンラインシステムの入出力バッファに対して行い、待機オンラインシステム内の入出力バッファの内容を実行オンラインシステム内の入出力バッファの内容に一致させる追跡処理を実施する。
【0014】
また、業務処理を実行中の実行オンラインシステムの稼動状態を監視し、実行オンラインシステムの障害を検知した場合には、前記追跡処理の行われた入出力バッファを用いて前記業務処理を待機オンラインシステムで続行させる。
【0015】
前記の様に本発明によれば、障害による待機オンラインシステムへの切り替えが発生した後の外部記憶装置上のログファイルからのログ情報の入力を無くしつつ、実行オンラインシステムでのオーバヘッドが少ないオンラインシステムの回復方法を実現することができる。
【0016】
以上の様に本発明のオンライン処理システムによれば、実行オンラインシステムで障害が発生した場合に、実行オンラインシステムの入出力バッファの内容に予め一致させておいた待機オンラインシステムの入出力バッファを用いて待機オンラインシステムで業務処理を続行させるので、実行オンラインシステムの障害発生時に待機オンラインシステムへの切り替えを高速に行うことが可能である。
【0017】
【発明の実施の形態】
以下に実行オンラインシステムで障害が発生した場合に業務処理を待機オンラインシステムに切り替えて続行する一実施形態のオンライン処理システムについて説明する。
【0018】
図1は本実施形態のオンライン処理システムの概略構成を示す図である。図1に示す様に本実施形態のホストコンピュータ10は、モニタ処理部11と、ログ出力処理部15と、ログ転送処理部16とを有している。
【0019】
モニタ処理部11は、モニタ処理部21との間で相互監視の為の制御電文を交換し合うことにより相手システムの稼働状態を監視する処理部である。ログ出力処理部15は、ログI/Oバッファ14に格納されているログ情報を実行オンラインシステム12及び待機オンラインシステム22で共用される記憶装置に出力する処理部である。
【0020】
ログ転送処理部16は、実行オンラインシステム12で行われた参照処理の履歴を示す参照履歴と更新処理の履歴を示す更新履歴とを表すログ情報を待機オンラインシステム22に転送する処理部である。
【0021】
ホストコンピュータ10をモニタ処理部11、ログ出力処理部15及びログ転送処理部16として機能させる為のプログラムは、CD−ROM等の記録媒体に記録され磁気ディスク等に格納された後、メモリにロードされて実行されるものとする。なお前記プログラムを記録する記録媒体はCD−ROM以外の他の記録媒体でも良い。
【0022】
ホストコンピュータ20は、モニタ処理部21と、追跡処理部27とを有している。モニタ処理部21は、モニタ処理部11との間で相互監視の為の制御電文を交換し合うことにより、業務処理を実行中の実行オンラインシステム12の稼動状態を監視し、実行オンラインシステム12の障害を検知した場合に、追跡処理の行われたデータベースI/Oバッファ23を用いて前記業務処理を待機オンラインシステム22で続行させる処理部である。
【0023】
追跡処理部27は、前記転送されたログ情報に従って、待機オンラインシステム22内のデータベースI/Oバッファ23の内容を実行オンラインシステム12内のデータベースI/Oバッファ13の内容に一致させる追跡処理を実施する処理部である。
【0024】
ホストコンピュータ20をモニタ処理部21及び追跡処理部27として機能させる為のプログラムは、CD−ROM等の記録媒体に記録され磁気ディスク等に格納された後、メモリにロードされて実行されるものとする。なお前記プログラムを記録する記録媒体はCD−ROM以外の他の記録媒体でも良い。
【0025】
本実施形態のオンライン処理システムは、実行オンライン側のホストコンピュータ10と、実行オンライン側のモニタ処理部11と、実行オンライン側の実行オンラインシステム12(例えばデータベース管理システム)と、待機オンライン側のホストコンピュータ20と、待機オンライン側のモニタ処理部21と、待機オンライン側の待機オンラインシステム22(例えばデータベース管理システム)とを有している。
【0026】
また、実行オンライン側の実行オンラインシステム12と待機オンライン側の待機オンラインシステム22とで共用する不揮発な記憶装置(一般には磁気ディスク装置)上にはログ情報31を格納するログファイル30やデータベース40を有している。
【0027】
更に、本実施形態のオンライン処理システムは、実行オンラインシステム12がデータベース40とのレコードの入出力に使用するデータベースI/Oバッファ13と、実行オンラインシステム12がログファイル30とのログ情報の入出力に使用するログI/Oバッファ14と、待機オンラインシステム22がデータベース40とのレコードの入出力に使用するデータベースI/Oバッファ23と、待機オンラインシステム22がログファイル30とのログ情報の入出力に使用するログI/Oバッファ24とを有している。
【0028】
また、実行オンラインシステム12がログI/Oバッファ14に格納されているログ情報をログファイル30に出力するログ出力処理部15と、実行オンラインシステム12がログI/Oバッファ14に格納されているログ情報を待機オンラインシステム22のログ情報受信バッファ25に転送するログ転送処理部16と、転送されたログ情報に従って、実行オンラインシステム12での業務処理と並行して待機システムでの追跡処理を実施する追跡処理部27と、モニタ処理部11とモニタ処理部21間で相互監視の為の制御電文(Alive電文)を交換しあう為の通信媒体50と、実行オンラインシステム12から待機オンラインシステム22へのログ情報の転送の為の通信媒体51と、待機オンラインシステム22でログファイル30上のログ情報31を入力する為のログI/Oバッファ24とを有している。
【0029】
ここで、通信媒体50と通信媒体51は物理的に一つでも良いが、ログ情報の転送トラフィックが高くなった場合の制御信号の電送遅延による誤動作を防ぐ為に、本実施形態では別々の通信媒体としている。
【0030】
更に、データベースI/Oバッファ13、ログI/Oバッファ14、データベースI/Oバッファ23、ログI/Oバッファ24やログ情報受信バッファ25は、それぞれ一つであっても良いが、性能・信頼性を確保する為に、それぞれ複数面のバッファを持ってバッファリングを行う。
【0031】
また図1では実行オンラインシステム12にログ出力処理部15及びログ転送処理部16を示し、待機オンラインシステム22には追跡処理部27を示しているが、実行オンラインシステム12と待機オンラインシステム22とでは、実装している機能に違いはなく、実行系になるか待機系になるかによって振る舞いが変わるだけであるものとする。
【0032】
よって、ホストコンピュータ10で障害が発生してトランザクションの実行権がホストコンピュータ20に切り替わり、待機オンラインシステム22がトランザクションサービスを開始したら、待機オンラインシステム22が実行系になり、ホストコンピュータ10の障害復旧後は、実行オンラインシステム12が待機系になる。
【0033】
図2は本実施形態の実行オンラインシステム12及び待機オンラインシステム22の処理手順を示すフローチャートである。図2に示す様に本実施形態の実行オンラインシステム12は、起動されるとまず初期設定処理を行う(ステップ122)。
【0034】
この初期設定処理では、処理プログラムのロード、各種の定義情報や実行パラメタの取り込み、仮想記憶上の制御テーブルの作成、データベースのオープン、トランザクション実行空間(実行プロセスとも呼ぶ)の起動等を行い、更に、ログファイルの終端にあるログ情報の検出・記憶を行う。ここでは、更に待機オンラインシステム22とのログ情報転送に関わるバッファの確保・ページ固定・バッファの位置情報の交換等を行う。オンラインシステムでは、この他に端末との通信セッションの確立や切り替え準備等も行われるが、本実施形態の範囲外である為、図1及び図2には示されていない。
【0035】
一方、待機オンラインシステム22でも、待機システムとしての同様な初期設定を行う(ステップ222)。この時点で、モニタ処理部11とモニタ処理部21による相互監視状態が開始される。
【0036】
相互監視状態が開始されると、実行オンラインシステム12では業務トランザクションの処理を行う(ステップ123)。
【0037】
参照処理または更新処理を行う業務トランザクションで取得されたログ情報124が待機オンラインシステム22に転送されると、待機オンラインシステム22では、ログ情報124に従ってメモリ中でトランザクション状態やデータベースのレコードの参照及び更新状態を追跡する(ステップ223)。このとき、ログファイル30やデータベース40は実行オンラインシステム12から更新される為、待機オンラインシステム22では、これらの外部記憶装置への書き込みは行わずに、データベースのインデクスの参照状態やレコードの更新状態の追跡さえも、メモリ中のデータベースI/Oバッファ23上でだけ実施する。
【0038】
実行オンラインシステム12に障害が発生すると(ステップ125)、モニタ処理部11またはモニタ処理部21が障害を検知して、業務トランザクションの実行権を待機オンラインシステム22に切り替える(ステップ126)。
【0039】
実行オンラインシステム12だけの障害に留まっている場合は、モニタ処理部11が障害を検知してモニタ処理部21に通知する。ホストコンピュータ10全体に障害が及んでモニタ処理部11さえ正常に稼動できない場合は、モニタ処理部11からモニタ処理部21への制御電文(Alive電文)が途切れる為、モニタ処理部21が自発的に相手システムである実行オンラインシステム12の障害を検知する。
【0040】
待機オンラインシステム22への切り替えが発生すると、未処理のログ情報124の追跡の完了を待ち合わせた後(ステップ224)、新たな業務トランザクションのサービスを開始する(ステップ225)と共に、並行して未完了トランザクションのロールバック(後退復帰)を行う(ステップ226)。
【0041】
図3は本実施形態の業務トランザクション処理の処理手順を示すフローチャートである。図3を用いて、図2のステップ123の業務トランザクション処理を説明する。
【0042】
トランザクションが開始されると、トランザクションの開始を示すログをログI/Oバッファ14にバッファリングする(ステップ1231)。次に、データベースI/Oバッファ13上でレコードの参照や更新を行う(ステップ1232)と共に、レコードの参照ログや更新ログをログI/Oバッファ14にバッファリングする(ステップ1233)。一つのトランザクションでのデータベースレコードの参照や更新が完了すると、トランザクション終了ログをログI/Oバッファ14にバッファリングし(ステップ1234)、ログファイル30へ未出力のログ情報を強制的に出力する(ステップ1235)。
【0043】
ここで、ステップ1232において、データベースI/Oバッファ13に存在していないデータへの参照が行われた場合に、ステップ1233でその参照ログをログI/Oバッファ14にバッファリングするものとし、ログ情報の出力や転送に必要な負荷を軽減させても良い。
【0044】
図4は本実施形態のログ情報のバッファリング処理の処理手順を示すフローチャートである。図4を用いて、図3のステップ1231、ステップ1233及びステップ1234のログ情報のバッファリング処理を説明する。
【0045】
まず、現在のバッファリング先となっているログI/Oバッファに空きがあるか調べる(ステップ12311)。空きがあれば、該ログI/Oバッファにログ情報を格納する(ステップ12315)。
【0046】
空きがなければ、他のログI/Oバッファに空きがあるか調べる(ステップ12312)。ここで、空きが見つかれば、そのログI/Oバッファを新たなバッファリング先として設定して(ステップ12314)、ログ情報を格納する(ステップ12315)。
【0047】
空きのログI/Oバッファが一つもない場合は、空きができるのを待ち合わせる(ステップ12313)。ここで、空きのログI/Oバッファが一つも無かった場合に、動的に新たなログI/Oバッファを確保する方法もあるが、メモリ不足を引き起こして障害の引き金になる可能性がある為、本実施形態では採用しない。
【0048】
図5は本実施形態の未出力ログの強制出力処理の処理手順を示すフローチャートである。図5を用いて、図3のステップ1235における未出力ログの強制出力処理を説明する。
【0049】
まず、現在のバッファリング先となっているログI/Oバッファを、“空き無し”の状態にして該ログI/Oバッファへの新たなバッファリングを抑止する(ステップ12351)。
【0050】
次に、ログファイル30へまだ出力していないログI/Oバッファを順次出力する(ステップ12352)。この出力は外部記憶装置へのI/O動作が完了するまで制御が戻らない同期書き込み方式でも、I/O動作の完了を待たない非同期書き込み方式でも良いが、本実施形態では、待機オンラインシステム22へのログ情報の転送処理が実行オンラインシステム12のトランザクションへ与える影響を無くす為に、非同期書き込み方式を採用する。
【0051】
ログファイル30への書き込みの完了を待っている間に、前記ステップ12352で対象にしたログI/Oバッファの内容を、通信媒体51を介して待機オンラインシステム22のログ情報受信バッファ25に直接書き込む(ステップ12353)。この書き込み位置等の情報は、前記のステップ122で示した初期設定時点及び前記のステップ123で示した前回の書き込み時の返信情報で把握しておくものとする。
【0052】
ここで、待機オンラインシステム22が稼動していない場合は、前記ステップ12353は失敗するが、実行オンラインシステム12側では成功したものとして扱う。この不整合状態は、待機オンラインシステム22に切り替える際に、その時点の最新のログ情報受信バッファ25のログまでの差分をログファイル30から読み込んで追い付かせることで解消させる。この処理によって、シーソーゲームの様に、実行系と待機系が頻繁に切り替わった場合であっても自動的に追随することができる。
【0053】
次に、前記ステップ12352のI/O動作の完了を待ち合わせる(ステップ12354)。前記ステップ12352及びステップ12353の両方が完了したログI/Oバッファを空きバッファとする(ステップ12355)。
【0054】
図6は本実施形態の追跡処理の処理手順を示すフローチャートである。図6を用いて、図2のステップ223の追跡処理を説明する。
【0055】
まず、待機オンラインシステム22の初期設定処理222時点で記憶したログファイルの終端にあるログ情報と、ログ情報受信バッファ25に送られてきたログ情報を比べる(ステップ22301)。
【0056】
ログ情報が不連続(具体的には、ログファイルの世代番号及びログレコードの集合体であるログブロックの通番からなる番号が不連続であり、途中のブロックが抜けている状態)であれば、ログファイル30からログ情報31を入力して、ログ情報受信バッファ25の時点まで追い付かせる(ステップ22302)。ここでの追い付き処理の具体的な方法は、後述のステップ22303〜ステップ22308と同様である。
【0057】
次に、ログ情報受信バッファ25に格納された個々のログ情報を順次調べ、トランザクションの開始ログや終了ログの様にトランザクションの状態の変更を記録したログであれば(ステップ22303)、メモリ中のトランザクション毎の管理情報を更新する(ステップ22304)。
【0058】
データベースのレコードの参照ログまたは更新ログであれば(ステップ22305)、データベースI/Oバッファ23に該当するページがあるかを調べ(ステップ22306)、データベースI/Oバッファ23に該レコードのページがなければデータベース40からデータベースI/Oバッファ23に該レコードのページを読み込む(ステップ22307)。次に、該ログが更新ログの場合にはその内容に従ってデータベースI/Oバッファ23上でレコードを更新する(ステップ22308)。
【0059】
これらステップ22303〜ステップ22308の処理を、ログ情報受信バッファ25にある全てのログ情報に対して繰り返す(ステップ22309)。
【0060】
次に、モニタ処理部11またはモニタ処理部21から障害の検知が通知されているかを確認し、自システムが待機システムのままかどうかを調べる(ステップ22310)。待機システムのままであれば、ログ情報の受信を待って(ステップ22313)、前記ステップ22303〜ステップ22308の処理を繰り返す。一方、モニタ処理部11またはモニタ処理部21による障害の検知により実行システムへの切り替えが指示されていれば、実行システムとして業務トランザクション処理を実行する。
【0061】
以上説明した様に本実施形態のオンライン処理システムによれば、実行オンラインシステムで障害が発生した場合に、実行オンラインシステムの入出力バッファの内容に予め一致させておいた待機オンラインシステムの入出力バッファを用いて待機オンラインシステムで業務処理を続行させるので、実行オンラインシステムの障害発生時に待機オンラインシステムへの切り替えを高速に行うことが可能である。
【0062】
また本実施形態のオンライン処理システムによれば、実行オンラインシステムの入出力バッファに存在していないデータへの参照処理が行われた場合にその参照履歴をログ情報として待機オンラインシステムに転送するので、待機オンラインシステム内の入出力バッファの内容を実行オンラインシステム内の入出力バッファの内容に一致させる為のログ情報の転送負荷を軽減することが可能である。
【0063】
また本実施形態のオンライン処理システムによれば、追跡処理の行われたログ情報と実行オンラインシステムから転送されたログ情報とが連続していない場合に、その間のログ情報を記憶装置から読み出して、待機オンラインシステム内の入出力バッファの追付き処理を行うので、待機オンラインシステムが障害や保守の後に再稼働した場合に、実行オンラインシステムでの業務処理の実行に影響を与えることなくホットスタンバイ状態の再確立を行うことが可能である。
【0064】
【発明の効果】
本発明によれば実行オンラインシステムで障害が発生した場合に、実行オンラインシステムの入出力バッファの内容に予め一致させておいた待機オンラインシステムの入出力バッファを用いて待機オンラインシステムで業務処理を続行させるので、実行オンラインシステムの障害発生時に待機オンラインシステムへの切り替えを高速に行うことが可能である。
【図面の簡単な説明】
【図1】本実施形態のオンライン処理システムの概略構成を示す図である。
【図2】本実施形態の実行オンラインシステム12及び待機オンラインシステム22の処理手順を示すフローチャートである。
【図3】本実施形態の業務トランザクション処理の処理手順を示すフローチャートである。
【図4】本実施形態のログ情報のバッファリング処理の処理手順を示すフローチャートである。
【図5】本実施形態の未出力ログの強制出力処理の処理手順を示すフローチャートである。
【図6】本実施形態の追跡処理の処理手順を示すフローチャートである。
【符号の説明】
10…ホストコンピュータ、12…実行オンラインシステム、13…データベースI/Oバッファ、14…ログI/Oバッファ、20…ホストコンピュータ、22…待機オンラインシステム、23…データベースI/Oバッファ、24…ログI/Oバッファ、25…ログ情報受信バッファ、30…ログファイル、31…ログ情報、40…データベース、50及び51…通信媒体、11…モニタ処理部、15…ログ出力処理部、16…ログ転送処理部、21…モニタ処理部、27…追跡処理部、124…ログ情報。

Claims (7)

  1. 実行システムで障害が発生した場合に業務処理を待機システムに切り替えて続行するシステム回復方法において、
    実行システムで行われた参照処理の履歴を示す参照履歴と更新処理の履歴を示す更新履歴とを表すログ情報を待機システムに転送するステップと、
    前記転送されたログ情報に従って、待機システム内の入出力バッファの内容を実行システム内の入出力バッファの内容に一致させる追跡処理を実施するステップと、
    業務処理を実行中の実行システムの稼動状態を監視し、実行システムの障害を検知した場合に、前記追跡処理の行われた入出力バッファを用いて前記業務処理を待機システムで続行させるステップとを有し、
    前記ログ情報として待機システムに転送される参照履歴は、実行システムの入出力バッファに存在していないデータへの参照処理の履歴を示すものであることを特徴とするシステム回復方法。
  2. 実行システム及び待機システムで共用される記憶装置に前記ログ情報を出力するステップと、前記追跡処理の行われたログ情報と実行システムから転送されたログ情報とが連続していない場合に、その間のログ情報を前記記憶装置から読み出し、その読み出したログ情報及び前記転送されたログ情報に従って、待機システム内の入出力バッファの内容を実行システム内の入出力バッファの内容に一致させるステップとを有することを特徴とする請求項1に記載されたシステム回復方法。
  3. 実行システムで障害が発生した場合に業務処理を待機システムに切り替えて続行する計算機システムにおいて、
    実行システムで行われた参照処理の履歴を示す参照履歴と更新処理の履歴を示す更新履歴とを表すログ情報を待機システムに転送するログ転送処理部と、
    前記転送されたログ情報に従って、待機システム内の入出力バッファの内容を実行システム内の入出力バッファの内容に一致させる追跡処理を実施する追跡処理部と、
    業務処理を実行中の実行システムの稼動状態を監視し、実行システムの障害を検知した場合に、前記追跡処理の行われた入出力バッファを用いて前記業務処理を待機システムで続行させるモニタ処理部とを備え、
    前記ログ情報として待機システムに転送される参照履歴は、実行システムの入出力バッファに存在していないデータへの参照処理の履歴を示すものであることを特徴とする計算機システム。
  4. 実行システムで障害が発生した場合に業務処理を待機システムに切り替えて続行するシステム回復方法を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体において、
    前記プログラムは、実行システムで行われた参照処理の履歴を示す参照履歴と更新処理の履歴を示す更新履歴とを表すログ情報を待機システムに転送するステップと、
    前記転送されたログ情報に従って、待機システム内の入出力バッファの内容を実行システム内の入出力バッファの内容に一致させる追跡処理を実施するステップと、
    業務処理を実行中の実行システムの稼動状態を監視し、実行システムの障害を検知した場合に、前記追跡処理の行われた入出力バッファを用いて前記業務処理を待機システムで続行させるステップとを有し、
    前記ログ情報として待機システムに転送される参照履歴は、実行システムの入出力バッファに存在していないデータへの参照処理の履歴を示すものであるシステム回復方法を実現させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
  5. 実行システム及び待機システムで共用される記憶装置に前記ログ情報を出力するステップと、前記追跡処理の行われたログ情報と実行システムから転送されたログ情報とが連続していない場合に、その間のログ情報を前記記憶装置から読み出し、その読み出したログ情報及び前記転送されたログ情報に従って、待機システム内の入出力バッファの内容を実行システム内の入出力バッファの内容に一致させるステップとを有する システム回復方法を実現させるためのプログラムを記録したことを特徴とする請求項4に記載されたコンピュータ読み取り可能な記録媒体。
  6. 実行システムで障害が発生した場合に業務処理を待機システムに切り替えて続行するシステム回復方法において、
    実行システムで行われた参照処理の履歴を示す参照履歴と更新処理の履歴を示す更新履歴とを表すログ情報を待機システムに転送するステップと、
    前記転送されたログ情報に従って、待機システム内の入出力バッファの内容を実行システム内の入出力バッファの内容に一致させる追跡処理を実施するステップとを有し、
    前記ログ情報として待機システムに転送される参照履歴は、実行システムの入出力バッファに存在していないデータへの参照処理の履歴を示すものであることを特徴とするシステム回復方法。
  7. 実行システム及び待機システムで共用される記憶装置に前記ログ情報を出力するステップと、前記追跡処理の行われたログ情報と実行システムから転送されたログ情報とが連続していない場合に、その間のログ情報を前記記憶装置から読み出し、その読み出したログ情報及び前記転送されたログ情報に従って、待機システム内の入出力バッファの内容を実行システム内の入出力バッファの内容に一致させるステップとを有することを特徴とする請求項6に記載されたシステム回復方法。
JP2000381623A 2000-12-15 2000-12-15 システム回復方法およびその実施計算機システム並びにその処理プログラムを記録した記録媒体 Expired - Fee Related JP3877519B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2000381623A JP3877519B2 (ja) 2000-12-15 2000-12-15 システム回復方法およびその実施計算機システム並びにその処理プログラムを記録した記録媒体
US10/012,437 US20020078207A1 (en) 2000-12-15 2001-12-12 Online system recovery system, method and program
US11/282,717 US20060089975A1 (en) 2000-12-15 2005-11-21 Online system recovery system, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000381623A JP3877519B2 (ja) 2000-12-15 2000-12-15 システム回復方法およびその実施計算機システム並びにその処理プログラムを記録した記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2006258953A Division JP2007018534A (ja) 2006-09-25 2006-09-25 オンラインシステム回復方法及びその実施装置並びにその処理プログラムを記録した記録媒体

Publications (3)

Publication Number Publication Date
JP2002183088A JP2002183088A (ja) 2002-06-28
JP2002183088A5 JP2002183088A5 (ja) 2004-08-26
JP3877519B2 true JP3877519B2 (ja) 2007-02-07

Family

ID=18849590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000381623A Expired - Fee Related JP3877519B2 (ja) 2000-12-15 2000-12-15 システム回復方法およびその実施計算機システム並びにその処理プログラムを記録した記録媒体

Country Status (2)

Country Link
US (2) US20020078207A1 (ja)
JP (1) JP3877519B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007018534A (ja) * 2006-09-25 2007-01-25 Hitachi Ltd オンラインシステム回復方法及びその実施装置並びにその処理プログラムを記録した記録媒体

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6948008B2 (en) * 2002-03-12 2005-09-20 Intel Corporation System with redundant central management controllers
US8121978B2 (en) * 2002-11-15 2012-02-21 Sybase, Inc. Database system providing improved methods for data replication
US7457829B2 (en) * 2003-06-23 2008-11-25 Microsoft Corporation Resynchronization of multiple copies of a database after a divergence in transaction history
US7299378B2 (en) * 2004-01-15 2007-11-20 Oracle International Corporation Geographically distributed clusters
JP4368716B2 (ja) * 2004-03-25 2009-11-18 Necエレクトロニクス株式会社 通信回路および通信方法
US7281153B2 (en) * 2004-04-14 2007-10-09 International Business Machines Corporation Apparatus, system, and method for transactional peer recovery in a data sharing clustering computer system
US7870426B2 (en) * 2004-04-14 2011-01-11 International Business Machines Corporation Apparatus, system, and method for transactional peer recovery in a data sharing clustering computer system
JP4490745B2 (ja) * 2004-06-29 2010-06-30 株式会社日立製作所 ホットスタンバイシステム
US7788665B2 (en) 2006-02-28 2010-08-31 Microsoft Corporation Migrating a virtual machine that owns a resource such as a hardware device
JP4946459B2 (ja) * 2007-01-26 2012-06-06 三菱電機株式会社 衛星搭載用制御装置
JP5201133B2 (ja) * 2007-04-09 2013-06-05 富士通株式会社 二重化システム、システム制御方法およびシステム制御プログラム
JP2009211620A (ja) * 2008-03-06 2009-09-17 Hitachi Information Systems Ltd 仮想環境複製方法とシステムおよびプログラム
JP5028304B2 (ja) * 2008-03-11 2012-09-19 株式会社日立製作所 仮想計算機システム及びその制御方法
JP5703860B2 (ja) * 2011-03-09 2015-04-22 日本電気株式会社 フォールトトレラントシステム、メモリ制御方法、及びプログラム
JP5702652B2 (ja) * 2011-04-05 2015-04-15 日本電信電話株式会社 メモリ同期方法及び運用系の仮想マシン及び待機系の仮想マシン及びメモリ同期プログラム
JP6248747B2 (ja) * 2014-03-28 2017-12-20 富士通株式会社 情報処理装置、制御方法および制御プログラム
US9870266B2 (en) * 2015-07-30 2018-01-16 Nasdaq, Inc. Background job processing framework
JP6553125B2 (ja) * 2017-06-20 2019-07-31 株式会社東芝 データベースサーバ、データベース管理方法、およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4740969A (en) * 1986-06-27 1988-04-26 Hewlett-Packard Company Method and apparatus for recovering from hardware faults
JPS6375963A (ja) * 1986-09-19 1988-04-06 Hitachi Ltd システム回復方式
JPH01147727A (ja) * 1987-12-04 1989-06-09 Hitachi Ltd オンラインプログラムの障害回復方法
US5307481A (en) * 1990-02-28 1994-04-26 Hitachi, Ltd. Highly reliable online system
US5136498A (en) * 1990-09-26 1992-08-04 Honeywell Inc. Method for enacting failover of a 1:1 redundant pair of slave processors
JP3085085B2 (ja) * 1994-05-09 2000-09-04 三菱電機株式会社 データアクセス装置及び分散データベースシステム
US5987621A (en) * 1997-04-25 1999-11-16 Emc Corporation Hardware and software failover services for a file server
US6014757A (en) * 1997-12-19 2000-01-11 Bull Hn Information Systems Inc. Fast domain switch and error recovery in a secure CPU architecture
US6311288B1 (en) * 1998-03-13 2001-10-30 Paradyne Corporation System and method for virtual circuit backup in a communication network
JP3763992B2 (ja) * 1999-03-30 2006-04-05 富士通株式会社 データ処理装置及び記録媒体
US6742136B2 (en) * 2000-12-05 2004-05-25 Fisher-Rosemount Systems Inc. Redundant devices in a process control system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007018534A (ja) * 2006-09-25 2007-01-25 Hitachi Ltd オンラインシステム回復方法及びその実施装置並びにその処理プログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2002183088A (ja) 2002-06-28
US20020078207A1 (en) 2002-06-20
US20060089975A1 (en) 2006-04-27

Similar Documents

Publication Publication Date Title
JP3877519B2 (ja) システム回復方法およびその実施計算機システム並びにその処理プログラムを記録した記録媒体
JP4301849B2 (ja) 情報処理方法及びその実施システム並びにその処理プログラム並びにディザスタリカバリ方法およびシステム並びにその処理を実施する記憶装置およびその制御処理方法
US7529950B2 (en) Information processing system, control method for information processing system, and storage system
EP3726365B1 (en) Data processing method and device
US9383928B2 (en) Replication techniques with content addressable storage
EP2062139B1 (en) Method for improving transfer of event logs for replication of executing programs
JP4282030B2 (ja) データ二重化制御方法および二重化した記憶サブシステム
WO2018010501A1 (zh) 全局事务标识gtid的同步方法、装置及系统、存储介质
JP5365128B2 (ja) 一括登録されるデータに係る情報システム、方法、およびプログラム
US10983709B2 (en) Methods for improving journal performance in storage networks and devices thereof
JPH10326220A (ja) ファイルシステムおよびファイル管理方法
CN110413689B (zh) 一种内存数据库的多节点数据同步方法与装置
WO2022033269A1 (zh) 数据处理的方法、设备及系统
JPH10133927A (ja) コンピュータシステムおよびファイル管理方法
JP2008310591A (ja) クラスタシステム、計算機、および障害回復方法
JP2007018534A (ja) オンラインシステム回復方法及びその実施装置並びにその処理プログラムを記録した記録媒体
CN113296899A (zh) 基于分布式系统的事务主机、事务从机及事务处理方法
JP7073737B2 (ja) 通信ログ記録装置、通信ログ記録方法、および、通信ログ記録プログラム
US10656867B2 (en) Computer system, data management method, and data management program
JPH1185594A (ja) リモートコピー用情報処理システム
JP4305328B2 (ja) コンピュータシステム及びそれを用いた系切り替え制御方法
JP2003099208A (ja) ディスクアレイ間データ転送方法及びディスクアレイシステム
JP6802304B2 (ja) ストレージ制御装置、ストレージ制御システム、ストレージ制御方法、及び、ストレージ制御プログラム
JP4193754B2 (ja) データ二重化方法とプログラム
JP2856150B2 (ja) トランザクション履歴記録システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061031

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101110

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101110

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111110

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111110

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131110

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees