JP2001331351A - 計算機システム、及びその障害回復方法並びにダンプ取得方法 - Google Patents

計算機システム、及びその障害回復方法並びにダンプ取得方法

Info

Publication number
JP2001331351A
JP2001331351A JP2000152676A JP2000152676A JP2001331351A JP 2001331351 A JP2001331351 A JP 2001331351A JP 2000152676 A JP2000152676 A JP 2000152676A JP 2000152676 A JP2000152676 A JP 2000152676A JP 2001331351 A JP2001331351 A JP 2001331351A
Authority
JP
Japan
Prior art keywords
storage device
virtual
computer system
processing unit
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000152676A
Other languages
English (en)
Inventor
Hirofumi Nagasuga
弘文 長須賀
Masahiro Kiyoi
雅広 清井
Yuri Hiraiwa
友理 平岩
Masaya Ichikawa
正也 市川
Hideki Masuda
秀樹 益田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000152676A priority Critical patent/JP2001331351A/ja
Priority to US09/640,017 priority patent/US6615364B1/en
Publication of JP2001331351A publication Critical patent/JP2001331351A/ja
Priority to US10/464,483 priority patent/US6952793B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

(57)【要約】 【課題】仮想記憶の情報を取得する必要のある計算機シ
ステムの障害時に、障害の発生からシステムの再立ち上
げ、業務の再開に至るまでに必要とされる時間を短縮す
る。 【構成】補助記憶装置710の代替となる副補助記憶装
置720を設けておく。障害の発生時には、主記憶情報
取得処理440により主記憶400内のダンプ情報をダ
ンプファイル810に取得した後、切り替え処理450
により補助記憶装置を副補助記憶装置720に切り替え
て再立ち上げ処理を実施する。その後、正補助記憶装置
710に保持されている仮想記憶情報をダンプファイル
810に出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、計算機システムの
障害発生時に、障害要因を究明するために必要とされる
情報を収集するためのシステムダンプの取得方法に関す
る。
【0002】
【従来の技術】近年、プロセッサ性能の向上に伴い、一
つの計算機で実行されるプログラムの処理量、並びに、
取り扱われるデータの量は増大する一方である。より効
率的な処理を一つの計算機システム上で実行するために
は、大量のデータを主記憶装置上に直接配置したり、大
量のデータを仮想記憶上に展開する必要がある。このよ
うなことを実現するためには、主記憶装置のアドレスを
表現できるサイズや、仮想記憶のアドレスを表現するサ
イズを拡張する必要がある。
【0003】このような主記憶サイズの拡張や、仮想記
憶サイズの拡張に伴い、システムに異常が発生した際
に、その原因を究明するために取得される情報(以降、
このような情報をダンプ情報と記述する)の量も増大す
る。
【0004】ダンプ情報が増大するにつれ、ダンプ情報
の取得に要する時間も長くなる。これが要因となって、
障害発生後システムを再び立ち上げるための再立ち上げ
処理の開始時期も遅れる。この結果、最終的には、通常
の処理の再開が遅延することになるという問題が生じ
る。
【0005】このような、障害発生時におけるシステム
の再立ち上げの遅延を回避するための技術として、例え
ば、特開平7−234808号公報、あるいは、特開平
10−333944号公報に開示される技術が知られて
いる。
【0006】特開平7−234808号公報には、二重
化された主記憶装置を有する計算機システムのダンプ取
得方法が開示されている。ここに開示された方法では、
システムに異常が発生した場合、二重化された主記憶装
置の一方に保持されるメモリ情報がダンプ情報として取
得される。そして、他方のメモリを利用してシステムの
再立ち上げを行うことで、システムの再立ち上げが遅延
することを防止している。
【0007】一方、特開平10−333944号公報に
開示された技術では、システムの再立ち上げのための操
作に先行して、再立ち上げの処理においてオペレーティ
ングシステムの中核部がロードされるメモリ領域のダン
プ情報が採取される。この後、システムの再立ち上げを
行うプログラムと、ダンプ情報が取得されていない領域
から順次ダンプ情報を取得するプログラムとが並行して
実行される。再立ち上げを行うプログラムは、再立ち上
げのために使用しようとするメモリ領域のダンプ情報が
取得されていなければ、その領域を使用する前にそこに
保持されている情報をダンプしながら再立ち上げを行
う。特開平10−333944号公報に開示された技術
では、これによりシステムの再立ち上げに要する時間の
増大を防止している。
【0008】
【発明が解決しようとする課題】上述した技術によれ
ば、障害発生時に、主記憶装置上に存在している情報が
ダンプ情報として出力される。しかし、仮想記憶管理を
採用した計算機システムでは、システムに異常が発生し
た場合、補助記憶装置にページアウトされているデータ
もダンプ情報として採取しなければならないケースが発
生する。
【0009】仮想記憶管理を採用した計算機システムで
は、仮想記憶の領域の一部が、外部記憶装置に出力(こ
れをページアウトという)されていて、その仮想記憶の
領域を参照、あるいは、更新するときにその領域を主記
憶装置上に入力(これをページインという)してアクセ
スする場合がある。上述した従来技術では、ページアウ
トにより主記憶装置上に配置されていないダンプ情報の
取得については、考慮がされていない。
【0010】すなわち、上述した従来技術では、計算機
システムに異常が発生したときに、仮想記憶全体の情報
を取得するには、外部記憶装置にページアウトされてい
るダンプ情報の取得が完了するまで、計算機システムの
再立ち上げをすることができない。
【0011】本発明の目的は、計算機システムに異常が
発生した場合に、仮想記憶全体の情報を取得するにあた
って、異常発生からシステムの再立ち上げ、業務の再開
に至るまでに必要とされる時間を短縮することにある。
【0012】
【課題を解決するための手段】上述した目的を達成する
ために、本発明によれば、処理ユニットと、この処理ユ
ニットに接続された主記憶装置とを有する計算機と、計
算機に接続された外部記憶装置とを有し、処理ユニット
が利用する仮想的な記憶装置の領域を主記憶装置上にマ
ッピングすることで実現される仮想記憶を利用する計算
機システムにいおて、計算機システムに障害が発生した
ことに応答して、主記憶装置に保持されたデータがダン
プファイルに出力される。この後、主記憶装置から追い
出される仮想記憶のページの内容を保持するための補助
記憶装置として使われる外部記憶装置が、障害の発生前
に使用されていた第1の外部記憶装置から他の第2の外
部記憶装置に切り替えられる。そして、第2の外部記憶
装置を補助記憶装置として計算機システムの再立ち上げ
が行われる。
【0013】また、本発明の他の観点からは、処理ユニ
ットと、主記憶装置と、処理ユニットにより実行される
プログラムが利用する仮想記憶の領域であって、主記憶
装置から追い出された領域の内容を保持するための補助
記憶装置として利用される第1及び第2の外部記憶装置
と、処理ユニットと第1及び第2の記憶装置との間に介
在し、処理ユニット上で実行されるプログラムによる仮
想記憶のページング操作に伴う補助記憶のアクセス要求
に応答して、第1及び第2の外部記憶装置の内、補助記
憶装置として設定されている一方外部記憶装置をアクセ
スし、処理ユニット上で実行中の処理に異常が発生した
ことに応答して補助記憶装置として使用する外部記憶装
置の設定を一方の外部記憶装置から他方の外部記憶装置
に切り替える切り替え装置とを有する計算機システムが
提供される。
【0014】
【発明の実施の形態】図1は、本発明の一実施形態にお
ける計算機システムの概略構成を示すブロック図であ
る。
【0015】本実施形態の計算機システムは、計算機1
00と磁気ディスク装置に代表される外部記憶装置60
0、700(710、720)、800を有して構成さ
れる。
【0016】記憶装置計算機100は、各種演算を行う
ためのプロセッサ(CPU)200と主記憶装置400
を有する。CPU200は、仮想記憶をアクセスする際
に使われるアドレス変換テーブルの先頭の実アドレスな
ど、各種の制御情報を保持するための制御レジスタや、
演算時に利用する汎用レジスタ等からなるレジスタ群3
00をその構成要素として含む。
【0017】外部記憶装置600は、定義ファイル61
0を格納している。定義ファイル610には、補助記憶
装置として利用される外部記憶装置の識別情報など、計
算機システムを運用するときに、オペレーティングシス
テムなどが必要とする各種のパラメータが格納されてい
る。外部記憶装置700は、補助記憶装置として利用さ
れる外部記憶装置でる。本実施形態では、補助記憶装置
として、通常の運用時に補助記憶装置として使われる正
補助記憶装置710と、代替用の補助記憶装置として使
われる副補助記憶装置720とを含む。定義ファイル6
10には、正補助記憶装置として外部記憶装置710の
識別子、副補助記憶装置として外部記憶装置720の識
別子が定義されている。外部記憶装置800は、ダンプ
ファイル810を有している。ダンプファイル810に
は、システムに異常が発生したときに、主記憶装置40
0上のダンプ情報を含め、計算機システム全体のダンプ
情報が格納される。
【0018】主記憶装置400には、予め定められた領
域にレジスタ退避エリア410が設けられている。レジ
スタ退避エリア410は、システムの運用時に何らかの
障害が発生したとき、レジスタ群300の各レジスタに
保持されている内容を退避するために用いられる。主記
憶装置400に保持される構成情報420は、現時点で
補助記憶装置として利用されている外部記憶装置の識別
子を含む情報である。また、主記憶装置400には、C
PU200により実行されるプログラムとして実現され
る補助記憶利用処理430、主記憶情報取得処理44
0、及び切り替え処理450が格納される。
【0019】補助記憶利用処理430は、構成情報42
0に含まれている、現時点で補助記憶装置として利用さ
れている外部記憶装置の識別子を獲得し、その外部記憶
装置を利用してページング処理を実施する。ページング
処理とは、主記憶装置400の利用率が高くなり、空き
領域が少なくなったときなどに、利用頻度の少ない領域
のデータを補助記憶装置に出力したり、CPU200が
アクセスしようとした仮想記憶上の領域が補助記憶装置
上に出力されている場合に、その領域を主記憶装置40
0上に入力する処理をいう。
【0020】主記憶情報取得処理440は、システムに
異常が発生したときに、主記憶装置400に保持されて
いる内容を0番地から昇順に取得し、ダンプファイル8
10へ出力する。切り替え処理450は、主記憶情報取
得処理440の終了後に呼び出されて実行される。切り
替え処理450は、構成情報420から、その時点で補
助記憶装置として利用されている外部記憶装置700の
識別子を取得し、計算機システムの再立ち上げの際に、
副補助記憶装置720が正補助記憶装置として使われる
よう外部記憶装置の識別子を設定し直す。これにより、
計算機システムの再立ち上げ後に、障害発生時点まで正
補助記憶装置として使われていた外部記憶装置710が
補助記憶装置として利用されることを防ぐ。
【0021】図2は、仮想アドレスから実アドレスへの
変換の方法と、仮想記憶と主記憶との関係を説明する説
明図である。
【0022】仮想記憶900は、一定のサイズ単位に区
切られている。この区切られた単位は、一般にページと
呼ばれる。図において、仮想記憶900は、n+1のペ
ージから構成されている。各ページは、先頭が0ページ
であり、順に1ページ、2ページ、…、nページであ
る。仮想記憶900の領域は、ページ単位に主記憶装置
400、または、正補助記憶装置710に配置される。
【0023】主記憶装置400の領域も、仮想記憶90
0のページと同じサイズの領域に区切られている。仮想
記憶900のページサイズと主記憶装置400のページ
サイズを同一とすることで、仮想記憶900のページと
主記憶装置400上に配置されたページを容易に対応づ
けることができる。
【0024】アドレス変換テーブル500は、仮想記憶
900の各ページが、主記憶装置400、または補助記
憶装置710のどの領域に配置されているか管理する。
アドレス変換テーブル500は、主記憶装置400の連
続した領域に設けられており、仮想記憶900の各ペー
ジに対応したn+1個のエントリを持つ。本実施形態で
は、仮想記憶900の各ページの順番とアドレス変換テ
ーブル500の各エントリの順番は対応している。例え
ば、仮想記憶900のm番目のページ(m−1ページ)
に対応するアドレス変換テーブル900のエントリは、
先頭からm番目のエントリである。アドレス変換テーブ
ル900の先頭エントリの実アドレスは、レジスタ群3
00内の1つのレジスタである制御レジスタ310に保
持される。
【0025】図3は、アドレス変換テーブルの一つのエ
ントリの内容を示すデータ構成図である。アドレス変換
テーブル500の各エントリは、そこに保持される情報
として、無効ビット510、実アドレス520、及びペ
ージアウト先アドレス530を有する。
【0026】無効ビット510は、実アドレス520が
有効か無効かを示している。無効ビット510に「1」
がセットされているとき実アドレス520は無効であ
る。つまり、このエントリに対応する仮想記憶900の
ページは、利用されていないか、あるいは、正補助記憶
装置710のページアウト先アドレス530で示される
領域にページアウトされている。
【0027】一方、無効ビット510が「0」がセット
されているとき、実アドレス520は、有効であり、こ
のエントリに対応する仮想記憶900のページは、実ア
ドレス520で示される記憶装置400の領域に保持さ
れる。例えば、図2に示すように、アドレス変換テーブ
ルm−1ページに対応するエントリの実アドレス520
に「Q」、mページに対応するエントリの実アドレス5
20に「Q+a」(aは1ページのサイズ)、m+1ペ
ージに対応するエントリの実アドレス520に「P」が
設定されており、これらのエントリの無効ビットが
「0」であるとする。この場合、仮想記憶900のm−
1、mページは、主記憶の実アドレスQから始まる連続
した領域に、m+1ページは、実アドレスPから始まる
領域に配置されていることになる。
【0028】図4は、仮想記憶情報取得処理の概要図で
ある。
【0029】仮想記憶情報取得処理6000は、主記憶
情報取得処理440によってダンプファイル801に出
力されたレジスタ退避領域の内容及びアドレス変換テー
ブルの内容、並びに、計算機システムに異常が発生した
ときに補助記憶装置として使われていた外部記憶装置7
10に保持されている内容を入力情報として処理を行
う。仮想記憶情報取得処理6000は、これらの情報に
基づいて、計算機システムに異常が発生したときに補助
記憶装置710にページアウトされていた仮想記憶90
0のページデータを取得し、ダンプファイル801に出
力する。
【0030】仮想記憶情報取得処理6000は、主記憶
情報取得処理440による処理が終了した後、それまで
処理が行われていた計算機上で実行されてもよく、ある
いは、他の計算機上で実行されてもかまわない。
【0031】図5は、計算機システムに異常が発生した
ときに行われる計算機システムの再立ち上げ処理の流れ
を示すフローチャートである。
【0032】補助記憶利用処理430による仮想記憶を
用いた処理の実行中に計算機システムに異常が発生する
と、主記憶情報取得処理440が起動され、ダンプ情報
の取得が開始される(ステップ5000)。続いて、レ
ジスタ群300の内容が、主記憶装置400のレジスタ
退避エリア410に退避される(ステップ5010)。
この後、主記憶情報取得処理440は、主記憶装置40
0のアドレス「0」から順にその内容を読み出し、ダン
プファイル810に格納していく(ステップ502
0)。
【0033】主記憶装置400の内容のダンプファイル
810への出力が完了した後、今度は、切り替え処理4
50が起動される(ステップ5030)。切り替え処理
450は、構成情報420を参照し、補助記憶装置とし
て使用されていた外部記憶装置710の識別子を副補助
記憶装置である外部記憶装置720の識別子に変更す
る。なお、システムの際立ち上げの際、構成情報420
が定義ファイル610の内容に基づいて再度作成される
ような場合には、定義ファイル610内に設定されてい
る補助記憶装置に関する情報を更新する(ステップ50
40)。
【0034】以上の処理が完了した後、計算機システム
の再立ち上げ処理が開始される(ステップ5050)。
【0035】図6は、仮想記憶情報取得処理460の処
理の流れを示すフローチャートである。この処理は、計
算機システムの再立ち上げ処理におけるステップ504
0の処理の後、他の計算機システム上で実施される。
【0036】仮想記憶情報取得処理460は、起動され
ると、ダンプファイル810から主記憶装置400上に
あったレジスタ退避領域410の内容のうち、制御レジ
スタ310に保持されていたアドレス変換テーブル50
0の起点実アドレスを取得する。ダンプファイル810
には、異常が発生した時点における主記憶装置400の
内容がアドレス順に保持されている。従って、主記憶装
置400上でのレジスタ退避領域410のアドレスが予
め与えられていれば、容易に各レジスタの内容を得るこ
とができる(ステップ6000)。
【0037】仮想記憶情報取得処理460は、取得した
実アドレスに基づいて、アドレス変換テーブル500の
内容をダンプファイル810から取得する(ステップ6
010)。続いて、仮想記憶情報取得処理460は、操
作対象となる仮想記憶900のページとして先頭のペー
ジをセットする。すなわち、アドレス変換テーブル50
0の最初のエントリを操作対象とする(ステップ602
0)。
【0038】仮想記憶情報取得処理460は、操作対象
となっているアドレス変換テーブル500のエントリの
無効ビット510の状態を調べ、対応する仮想記憶90
0のページが、異常発生の時点で主記憶装置400に配
置されていたか、補助記憶装置に配置されていたか判別
する(ステップ6030)。
【0039】無効ビット510が「1」で、対象として
いる仮想記憶900のページが補助記憶装置に配置され
ていた場合、ページアウト先アドレス530に基づいて
補助記憶装置から該当するページの内容を読み出し、ダ
ンプファイル810に出力する。このとき、仮想記憶情
報取得処理460は、ダンプファイル810に出力する
ダンプ情報に、仮想記憶900内でのアドレスを付加す
る。これにより、出力されたダンプ情報が、仮想記憶9
00のどのページのデータであるか判別できるようにな
る(ステップ6040)。
【0040】ステップ6030において、無効ビット5
10が「0」のとき、異常発生時に該当するページの内
容は主記憶装置400に配置されており、ステップ50
20の処理により既にダンプファイル810に格納され
ている。従ってこの場合は、そのまま次の処理に進む。
【0041】次に、仮想記憶情報取得処理460は、操
作対象のエントリが最終エントリであるか判別する(ス
テップ6050)。操作対象のエントリが最終エントリ
でない場合は、操作対象を次のエントリとしてステップ
6030の処理に戻り、仮想記憶情報の取得を継続する
(ステップ6060)。操作対象のエントリが最終エン
トリであれば、全てのダンプ情報の取得が終了してお
り、処理を終了する。
【0042】本実施形態によれば、計算機システムに異
常が発生した際、補助記憶装置として使われる外部記憶
装置を、それまで補助記憶装置として用いられていた外
部記憶装置から他の外部記憶装置に切り替えて、計算機
システムの再立ち上げが行われる。このため、補助記憶
装置にページアウトされた仮想記憶の内容をダンプ情報
として取得する以前に計算機システムの再立ち上げを行
うことが可能となり、異常の発生から再立ち上げまでの
間に要する時間を短くすることができる。また、任意の
時点でお仮想記憶情報取得処理を実施させることがで
き、計算機システムの運用の柔軟性を向上させることが
できる。
【0043】なお、本実施形態では、仮想記憶情報取得
処理を別の計算機システム上で実施しているが、例え
ば、再立ち上げの後、通常の処理が行われているバック
グラウンドで仮想記憶情報取得処理を実施させることも
可能である。このようにすることで、仮想記憶情報を取
得するために別の計算機システムを用意する必要性をな
くすことができる。
【0044】図7は、本発明の第2の実施形態における
計算機システムの概略構成を示すブロック図である。
【0045】本実施形態の計算機システムは、計算機1
00により実行される切り替え処理に換えて、補助記憶
装置として使用される外部記憶装置を切り替えるための
切り替え装置1000を有する。他の部分については、
上述した第1の実施形態と同様に構成される。なお図で
は、切り替え装置1000は、計算機100の外部に接
続されているが、計算機100に内蔵される形で設けら
れていてもよい。
【0046】本実施形態の定義ファイル610には、補
助記憶装置として、外部記憶装置700が用いられるこ
とが定義されている。また、定義ファイル610には、
外部記憶装置700が、外部装置710と720からな
り、通常のシステム稼働時に用いる外部記憶装置が外部
記憶装置710であることを示す情報を有している。
【0047】定義ファイル610の内容は、計算機シス
テムを立ち上げるときに、構成情報420の一部として
主記憶装置400の所定の領域にローディングされる。
計算機システムの通常の稼働時、補助記憶利用処理43
0は、ページングの必要が生じると、構成情報420を
参照して補助記憶装置700を対象として、ページング
のための入出力要求を切り替え装置1000に発行す
る。切り替え装置1000は、外部記憶装置700への
入出力要求を受けると、通常時における補助記憶装置
(ここでは、外部記憶装置710)に対して入出力要求
を発行する。
【0048】計算機システムに障害が発生すると、CP
U200は、切り替え装置1000に対し、障害の発生
を通知する。この通知を受けると、切り替え装置100
0は、構成情報420を参照し、外部記憶装置720を
補助記憶装置として利用するように設定の切り替えを行
う。これにより、システムの再立ち上げ後は、補助記憶
利用処理430から発行されるページングのための入出
力要求に応答して、外部記憶装置720に対してその要
求を発行する。
【0049】本実施形態では、補助記憶利用処理側で正
副いずれの補助記憶装置を利用するかを意識することな
くページング操作を実施し、切り替え装置により補助記
憶装置として利用する外部記憶装置を切り替えている。
これによっても第1の実施形態と同様に、障害発生時に
おける補助記憶装置内に存在するダンプ情報の取得を、
計算機システムの再立ち上げ後に実施することが可能と
なり、再立ち上げまでの時間を短くすることが可能とな
る。補助記憶措置内のダンプ情報の取得は、切り替え装
置による補助記憶装置として利用する外部記憶装置の切
り替えの後、障害発生前に補助記憶装置として利用され
ていた外部記憶装置を他の計算機システムに接続し、そ
の計算機システム上で実施すればよい。
【0050】なお、本実施形態において、切り替え装置
による外部記憶装置の切り替えは、障害の発生を通知す
る信号をCPUから受けて行っているが、端末装置を介
したシステム運用者からの指示に従って行うようにして
もかまわない。
【0051】以上説明した実施形態によれば、仮想記憶
管理を用いた計算機システムにおいて、主記憶装置上の
ダンプ情報を取得した後、直ちにシステムの再立ち上げ
処理を開始することができる。この結果、障害の発生か
らシステムの再立ち上げまでに要する時間、すなわち、
システムの停止時間を短縮することができる。
【0052】また、業務を行っている計算機システムと
は異なる計算機システムを用いて仮想記憶上のダンプ情
報を取得することができ、計算機システム運用の柔軟性
を向上させることができる。
【0053】
【発明の効果】本発明によれば、計算機システムにおけ
る障害の発生時に、障害の発生からシステムの再立ち上
げ、業務の再開に至るまでに必要とされる時間を短縮す
ることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態における計算機システムの
概略構成を示すブロック図である。
【図2】仮想アドレスから実アドレスへの変換の方法
と、仮想記憶と主記憶との関係を説明する説明図であ
る。
【図3】アドレス変換テーブルの一つのエントリの内容
を示すデータ構成図である。
【図4】仮想記憶情報取得処理の概要図である。
【図5】計算機システムの再立ち上げ処理の流れを示す
フローチャートである。
【図6】仮想記憶情報取得処理の流れを示すフローチャ
ートである。
【図7】第2の実施形態における計算機システムの概略
構成を示すブロック図である。
【符号の説明】
100・・・計算機、200・・・CPU、400・・・主記憶
装置、410・・・レジスタ退避エリア、420・・・構成情
報、430・・・補助記憶装置利用処理、440・・・主記憶
情報取得処理、450・・・切り替え処理、460・・・仮想
記憶情報取得処理、500・・・アドレス変換テーブル、
610・・・定義ファイル、710・・・正補助記憶装置、7
20・・・副補助記憶装置、810・・・ダンプファイル、9
00・・・仮想記憶。
フロントページの続き (72)発明者 平岩 友理 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 市川 正也 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 (72)発明者 益田 秀樹 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 Fターム(参考) 5B005 JJ01 MM31 RR02 5B042 GA25 GA34 MA09 MC07

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】処理ユニットと、該処理ユニットに接続さ
    れた主記憶装置とを有する計算機と、該計算機に接続さ
    れた外部記憶装置とを有し、前記処理ユニットが利用す
    る仮想的な記憶装置の領域を前記主記憶装置上にマッピ
    ングすることで実現される仮想記憶を利用する計算機シ
    ステムの障害回復方法にいおて、 前記計算機システムに障害が発生したことに応答して、
    前記主記憶装置に保持されたデータをダンプファイルに
    出力し、 前記処理ユニットが、前記主記憶装置から追い出される
    前記仮想記憶のページの内容を保持するための補助記憶
    装置として使用する外部記憶装置を判別するための定義
    情報に設定された識別子を、前記障害の発生前に使用し
    ていた第1の外部記憶装置を示す識別子から他の第2の
    外部記憶装置を示す識別子に変更し、 変更された前記定義情報に基づいて前記第2の外部記憶
    装置を補助記憶装置として前記計算機システムの再立ち
    上げを行うことを特徴とする計算機システムにおける障
    害回復方法。
  2. 【請求項2】前記障害回復方法は、さらに、前記ダンプ
    ファイルへの出力処理に先行して、前記処理ユニット内
    のレジスタの内容を前記主記憶装置の所定の領域に退避
    するステップを含むことを特徴とする請求項1記載の障
    害回復方法。
  3. 【請求項3】前記障害回復方法は、さらに、前記第1の
    外部記憶装置に保持されている前記仮想記憶のページの
    内容を読み出し、読み出した仮想記憶のページを前記ダ
    ンプファイルに出力するステップを含むことを特徴とす
    る請求項1記載の障害回復方法。
  4. 【請求項4】前記仮想記憶のページを前記ダンプファイ
    ルに出力するステップは、前記障害が発生した計算機と
    は異なる計算機で実施されることを特徴とする請求項3
    記載の障害回復方法。
  5. 【請求項5】前記仮想記憶のページを前記ダンプファイ
    ルに出力するステップは、 前記ダンプファイルから前記仮想的な記憶装置の領域を
    前記主記憶装置の領域にマッピングするためのアドレス
    変換テーブルを取得するステップと、 該アドレス変換テーブルに基づいて、前記第1の記憶装
    置にページアウトされている前記仮想的な記憶装置の領
    域の内容を判別するステップを含むことを特徴とする請
    求項3記載の障害回復方法。
  6. 【請求項6】前記仮想記憶のページを前記ダンプファイ
    ルに出力するステップは、前記再立ち上げ処理、及び、
    前記再立ち上げ処理に続いて実施される前記計算機シス
    テム上での業務処理と並行して実施されることを特徴と
    する請求項3記載の障害回復方法。
  7. 【請求項7】処理ユニットと、 主記憶装置と、 前記処理ユニットにより実行されるプログラムが利用す
    る仮想記憶の領域であって、前記主記憶装置から追い出
    された領域の内容を保持するための補助記憶装置として
    利用される第1及び第2の外部記憶装置と、 前記処理ユニットと前記第1及び第2の記憶装置との間
    に介在し、前記処理ユニット上で実行されるプログラム
    による前記仮想記憶のページング操作に伴う補助記憶の
    アクセス要求に応答して、前記第1及び第2の外部記憶
    装置の内、補助記憶装置として設定されている一方外部
    記憶装置をアクセスし、前記処理ユニット上で実行中の
    処理に異常が発生したことに応答して前記補助記憶装置
    として使用する外部記憶装置の設定を前記一方の外部記
    憶装置から他方の外部記憶装置に切り替える切り替え装
    置とを有する計算機システム。
  8. 【請求項8】前記計算機システムは、さらに、ダンプ情
    報が記録されるダンプファイルを保持した第3の外部記
    憶装置を備え、前記異常の発生に応答して、前記主記憶
    装置に保持された内容のダンプ情報を前記ダンプファイ
    ルに出力する手段と、前記出力が完了したことに応答し
    て、システムの再立ち上げを実施する手段とを有するこ
    とを特徴とする請求項7記載の計算機システム。
  9. 【請求項9】前記出力手段と、前記再立ち上げを実施す
    る手段は、前記処理ユニットにより実行されるプログラ
    ム処理として実現されることを特徴とする請求項8記載
    の計算機システム。
  10. 【請求項10】処理ユニットと、該処理ユニットに接続
    された主記憶装置とを有する計算機と、該計算機に接続
    された外部記憶装置とを有し、前記処理ユニットが利用
    する仮想的な記憶装置の領域を前記主記憶装置上にマッ
    ピングすることで実現される仮想記憶を利用する計算機
    システムにおけるダンプ情報の取得方法にいおて、 前記主記憶装置に保持されたデータをダンプファイルに
    出力し、 前記処理ユニットが、前記主記憶装置から追い出される
    前記仮想記憶のページの内容を保持するための補助記憶
    装置として使用する外部記憶装置を判別するための定義
    情報に設定された識別子を、それまで使用していた第1
    の外部記憶装置の識別子から他の第2の外部記憶装置の
    識別子に変更し、 変更された前記定義情報に基づいて前記第2の外部記憶
    装置を補助記憶装置として前記計算機システムを稼働さ
    せた後、前記第1の外部記憶装置に保持される前記仮想
    記憶のページの内容を読み出して、前記ダンプファイル
    へ出力することを特徴とする計算機システムにおけるダ
    ンプ情報の取得方法。
  11. 【請求項11】前記ダンプ情報の取得方法は、さらに、
    前記ダンプファイルへの出力処理に先行して、前記処理
    ユニット内のレジスタの内容を前記主記憶装置の所定の
    領域に退避するステップを含むことを特徴とする請求項
    10記載の障害回復方法。
  12. 【請求項12】前記仮想記憶のページを前記ダンプファ
    イルに出力するステップは、 前記ダンプファイルから前記仮想的な記憶装置の領域を
    前記主記憶装置の領域にマッピングするためのアドレス
    変換テーブルを取得するステップと、 該アドレス変換テーブルに基づいて、前記第1の記憶装
    置にページアウトされている前記仮想的な記憶装置の領
    域の内容を判別するステップを含むことを特徴とする請
    求項11記載の障害回復方法。
JP2000152676A 2000-05-18 2000-05-18 計算機システム、及びその障害回復方法並びにダンプ取得方法 Pending JP2001331351A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2000152676A JP2001331351A (ja) 2000-05-18 2000-05-18 計算機システム、及びその障害回復方法並びにダンプ取得方法
US09/640,017 US6615364B1 (en) 2000-05-18 2000-08-17 Computer system and methods for acquiring dump information and system recovery
US10/464,483 US6952793B2 (en) 2000-05-18 2003-06-19 Computer system and methods for acquiring dump information and system recovery

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000152676A JP2001331351A (ja) 2000-05-18 2000-05-18 計算機システム、及びその障害回復方法並びにダンプ取得方法

Publications (1)

Publication Number Publication Date
JP2001331351A true JP2001331351A (ja) 2001-11-30

Family

ID=18658071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000152676A Pending JP2001331351A (ja) 2000-05-18 2000-05-18 計算機システム、及びその障害回復方法並びにダンプ取得方法

Country Status (2)

Country Link
US (2) US6615364B1 (ja)
JP (1) JP2001331351A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227766A (ja) * 2010-04-21 2011-11-10 Hitachi Ltd 記憶手段の管理方法、仮想計算機システムおよびプログラム
JPWO2013030939A1 (ja) * 2011-08-29 2015-03-23 富士通株式会社 情報処理装置、メモリダンプ採取方法、及びプログラム

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7028056B1 (en) * 2000-04-14 2006-04-11 Microsoft Corporation Method and arrangements for generating debugging information following software failures
JP2002259201A (ja) * 2001-03-02 2002-09-13 Hitachi Ltd 計算機システムの起動方法
US6779132B2 (en) * 2001-08-31 2004-08-17 Bull Hn Information Systems Inc. Preserving dump capability after a fault-on-fault or related type failure in a fault tolerant computer system
US6687799B2 (en) * 2002-01-31 2004-02-03 Hewlett-Packard Development Company, L.P. Expedited memory dumping and reloading of computer processors
EP1359507A1 (en) * 2002-04-29 2003-11-05 Hewlett-Packard Company Data processing system and method
SE525128C8 (sv) * 2003-03-26 2005-08-03 Systemok Ab En anordning för att återställa åtminstone en av filer, mappar och applikationsassocierade filer i en dator till ett tidigare tillstånd
GB0318384D0 (en) * 2003-08-06 2003-09-10 Ibm A storage controller and a method for recording diagnostic information
US7318174B2 (en) * 2005-04-05 2008-01-08 International Business Machines Corporation Systems, methods, and computer readable medium for analyzing memory
KR100640490B1 (ko) * 2005-08-05 2006-10-30 삼성전자주식회사 이동성을 보장하는 다중 사용자 지원 멀티미디어 컨텐츠제공 시스템과 그 제공 방법
JP4322240B2 (ja) * 2005-09-15 2009-08-26 株式会社日立製作所 再起動方法、システム及びプログラム
US7788537B1 (en) * 2006-01-31 2010-08-31 Emc Corporation Techniques for collecting critical information from a memory dump
US20080127182A1 (en) * 2006-11-29 2008-05-29 Newport William T Managing Memory Pages During Virtual Machine Migration
US8127099B2 (en) * 2006-12-26 2012-02-28 International Business Machines Corporation Resource recovery using borrowed blocks of memory
US7823006B2 (en) * 2007-05-29 2010-10-26 Microsoft Corporation Analyzing problem signatures
US8280974B2 (en) * 2007-07-31 2012-10-02 Hewlett-Packard Development Company, L.P. Migrating workloads using networked attached memory
US8041877B2 (en) * 2008-06-09 2011-10-18 International Business Machines Corporation Distributed computing utilizing virtual memory having a shared paging space
US8019966B2 (en) * 2008-06-09 2011-09-13 International Business Machines Corporation Data sharing utilizing virtual memory having a shared paging space
US9317356B2 (en) * 2013-10-15 2016-04-19 Globalfoundries Inc. Device state capture during operating system dump
JP6221702B2 (ja) * 2013-12-05 2017-11-01 富士通株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
CN104750605B (zh) * 2013-12-30 2018-08-14 伊姆西公司 将内核对象信息包括在用户转储中
CN105930224B (zh) * 2016-06-28 2019-06-25 Oppo广东移动通信有限公司 转储操作控制方法、装置及终端

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59168998A (ja) 1983-03-16 1984-09-22 Fujitsu Ltd 記憶情報の複写方式
JPH02166533A (ja) 1988-12-21 1990-06-27 Hitachi Ltd メモリダンプ処理システムおよびその処理方法
US5363502A (en) * 1990-06-08 1994-11-08 Hitachi, Ltd. Hot stand-by method and computer system for implementing hot stand-by method
JPH06236284A (ja) * 1991-10-21 1994-08-23 Intel Corp コンピュータシステム処理状態を保存及び復元する方法及びコンピュータシステム
JPH07234808A (ja) 1994-02-24 1995-09-05 Toshiba Corp システムダンプ採取方式
US5680540A (en) * 1995-01-31 1997-10-21 Bell Usa, L.P. Suspend-to-disk system for removable hard drive
US5819024A (en) * 1995-07-11 1998-10-06 Hitachi, Ltd. Fault analysis system
US5905888A (en) * 1997-02-19 1999-05-18 On Spec Electronic, Inc. Bootable redundant hard disk attached to a PC's parallel port with rom-address auto-detect and configure during BIOS scan
JPH10333944A (ja) 1997-05-30 1998-12-18 Nec Software Ltd メモリダンプ採取方式
US6543010B1 (en) * 1999-02-24 2003-04-01 Hewlett-Packard Development Company, L.P. Method and apparatus for accelerating a memory dump

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227766A (ja) * 2010-04-21 2011-11-10 Hitachi Ltd 記憶手段の管理方法、仮想計算機システムおよびプログラム
JPWO2013030939A1 (ja) * 2011-08-29 2015-03-23 富士通株式会社 情報処理装置、メモリダンプ採取方法、及びプログラム

Also Published As

Publication number Publication date
US6615364B1 (en) 2003-09-02
US20030212922A1 (en) 2003-11-13
US6952793B2 (en) 2005-10-04

Similar Documents

Publication Publication Date Title
JP2001331351A (ja) 計算機システム、及びその障害回復方法並びにダンプ取得方法
CN100483347C (zh) 具有快速重启的存储器转储生成
JP4385215B2 (ja) スナップショットシミュレーション機能を有するディスクアレイ装置
JP2006331378A (ja) フラッシュメモリ保存システム
JP2012252576A (ja) 情報処理装置、起動方法およびプログラム
JP2002140227A (ja) メモリ圧縮管理デバイス
US7010725B2 (en) Method and apparatus for getting dump of a computer system
JP2007334403A (ja) 計算機システム障害対応方式及び計算機システム障害対応方法
JP4322240B2 (ja) 再起動方法、システム及びプログラム
CN115705152A (zh) 使用存储器内日志在非易失性存储器装置中的元数据管理
JP5057887B2 (ja) データ更新装置及びデータ更新方法及びデータ更新プログラム
JP2010108253A (ja) 不揮発性メモリを主記憶に用いた装置
JP2001034508A (ja) メモリダンプ採取方法及びその実施装置並びにその処理プログラムを記録した記録媒体
US20060198314A1 (en) Processing device, failure recovery method therefor, and failure restoration method
CN115268767A (zh) 数据处理方法以及装置
JP2001290677A (ja) 高速ダンプ採取方法
CN115705153A (zh) 有条件更新和延迟的查找
JPH10333944A (ja) メモリダンプ採取方式
JP2004280140A (ja) メモリダンプ実行方式,方法,およびプログラム
JP2003316647A (ja) ページングシステム、ページング方法、および、ページングプログラム
JP4023441B2 (ja) コンピュータシステム及びプログラム
JP4910785B2 (ja) 電子機器、電子機器の電源制御プログラムおよび電源制御方法
JP2001229053A (ja) ダンプ取得機構を備えた計算機
JP2003330737A (ja) 計算機システム
JPH10340215A (ja) データバックアップ方式

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060313

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060417

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060808

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061006

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20061120

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20061222