JP2001142731A - 情報処理システム及びそれに用いるデータコピーを伴う障害処理方式 - Google Patents

情報処理システム及びそれに用いるデータコピーを伴う障害処理方式

Info

Publication number
JP2001142731A
JP2001142731A JP32623199A JP32623199A JP2001142731A JP 2001142731 A JP2001142731 A JP 2001142731A JP 32623199 A JP32623199 A JP 32623199A JP 32623199 A JP32623199 A JP 32623199A JP 2001142731 A JP2001142731 A JP 2001142731A
Authority
JP
Japan
Prior art keywords
memory
systems
copy
information processing
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP32623199A
Other languages
English (en)
Other versions
JP3351469B2 (ja
Inventor
Koji Otani
孝司 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP32623199A priority Critical patent/JP3351469B2/ja
Publication of JP2001142731A publication Critical patent/JP2001142731A/ja
Application granted granted Critical
Publication of JP3351469B2 publication Critical patent/JP3351469B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 情報処理装置間でのメモリコピー実行中であ
っても運用を続行するためにメモリアクセスを可能と
し、システムの資源を有効活用可能な高信頼性の情報処
理システムを提供する。 【解決手段】 シングルOSは障害系Aの情報処理装置
1のメモリ11のデータを他系(系B,系C,系D)の
メモリ21,31,41に割り振ってコピーするため
に、他系(系B,系C,系D)に必要分のメモリ領域を
確保した後、他系(系B,系C,系D)に確保したメモ
リ領域のデータをそれぞれ他の外部記憶装置にスワップ
アウトする。障害系Aの情報処理装置1のメモリコピー
対象となるアドレスとコピー先系のメモリ領域のアドレ
スとがシステム管理装置6に登録される。他系(系B,
系C,系D)ではメモリ領域が縮退された形態で運用が
続行される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は情報処理システム及
びそれに用いるデータコピーを伴う障害処理方式に関
し、特に複数の系からなる情報処理システムに関する。
【0002】
【従来の技術】従来、この主の情報処理システムとして
は、図5に示すように、予備系を用いたホットスタンバ
イシステムがある。
【0003】図5において、運用系の情報処理装置7及
び待機系の情報処理装置8はネットワーク9を介して接
続されており、それぞれメモリ71,81と、プロセッ
サ72,82と、メモリコントローラ73,83と、障
害検出/処理ユニット74,84と、ファイル装置7
5,85とを備えている。
【0004】運用系の情報処理装置7は自系に障害が発
生すると、運用系と同じまたはそれ以上のメモリ容量を
搭載した待機系の情報処理装置8へメモリデータをコピ
ーし、メモリコピー完了後に待機系が運用を引き継ぐこ
とで、システムダウンすることなく運用を続行するよう
にしている。
【0005】尚、上記のような情報処理システムについ
ては、特開平11−073278号公報、特開平10−
320272号公報、特開平10−275134号公
報、特開平9−128354号公報等に開示されてい
る。
【0006】
【発明が解決しようとする課題】しかしながら、従来の
ホットスタンバイシステムでは、運用系の情報処理装置
の運用中に、メモリを使った運用をすることができない
待機系の情報処理装置を用意しなければならず、信頼性
システムを構築する上で、利用効率の悪い高コストとい
うデメリットを背負うという問題がある。
【0007】また、運用系の情報処理装置に障害が発生
し、待機系の情報処理装置にメモリデータのコピーを行
っている最中は処理を中断しなければならないため、シ
ステムとして停止している時間が長くなってしまうとい
う問題がある。
【0008】そこで、本発明の目的は上記の問題点を解
消し、情報処理装置間でのメモリコピー実行中であって
も運用を続行するためにメモリアクセスを可能にするこ
とができ、システムの資源を有効活用することができる
高信頼性の情報処理システム及びそれに用いるデータコ
ピーを伴う障害処理方式を提供することにある。
【0009】
【課題を解決するための手段】本発明による情報処理シ
ステムは、プロセッサ及びメモリが物理的に複数の系に
分散配置された分散共有メモリ方式の情報処理システム
であって、1つの系に障害が発生した場合に当該障害系
の交換保守に備えて前記障害系のメモリデータを他の複
数の系のメモリにそれぞれ一部づつコピーする手段と、
前記障害系のメモリデータを他の複数の系のメモリにそ
れぞれ一部づつコピーする際にデータコピー実行中でも
前記障害系のメモリアクセスを許すとともにデータ保証
性を維持しながら運用を続行する手段とを備えている。
【0010】本発明によるデータコピーを伴う障害処理
方式は、プロセッサ及びメモリが物理的に複数の系に分
散配置された分散共有メモリ方式の情報処理システムの
データコピーを伴う障害処理方式であって、1つの系に
障害が発生した場合に当該障害系の交換保守に備えて前
記障害系のメモリデータを他の複数の系のメモリにそれ
ぞれ一部づつコピーするステップと、前記障害系のメモ
リデータを他の複数の系のメモリにそれぞれ一部づつコ
ピーする際にデータコピー実行中でも前記障害系のメモ
リアクセスを許すとともにデータ保証性を維持しながら
運用を続行するステップとを備えている。
【0011】すなわち、本発明の情報処理システムは、
シングルOS(OperatingSystem)上で
動作し、プロセッサ及びメモリが物理的に複数の系に分
散配置された分散共有メモリ方式の情報処理システムに
おいて、1つの系に障害が発生した場合に、障害系の交
換保守に備えて障害系のメモリデータを他の複数の系の
メモリに一部づつコピーする際に、データコピー実行中
でも障害系のメモリアクセスを許すと共に、データ保証
性を維持しながら運用を続行可能とすることを特徴とし
ている。
【0012】具体的に、本発明の情報処理システムで
は、シングルOSが障害系Aのメモリデータを他系(系
B,系C,系D)のメモリに割り振ってコピーするため
に、他系(系B,系C,系D)に必要分のメモリ領域を
確保した後、運用系である他系(系B,系C,系D)に
確保したメモリ領域のデータをそれぞれ他の外部記憶装
置にスワップアウトする。
【0013】障害系Aのメモリコピー対象となるアドレ
スとコピー先系のメモリ領域のアドレスとをシステム管
理装置に登録する。運用系である他系(系B,系C,系
D)はメモリ領域が縮退された形態で運用を続行する。
【0014】その後に、運用系である他系(系B,系
C,系D)は障害系Aのメモリデータのうち自系に割り
当てられたメモリ領域のデータを自系内に確保したメモ
リ領域へデータコピーを開始する。
【0015】一方、メモリコピーの開始にあたっては運
用系である他系(系B,系C,系D)から障害系Aのメ
モリへのアクセスはシステム管理装置において、ライト
ならば障害系A及びコピー先の系の2つの系に対してマ
ルチライトするようルーティング先を選択し、リードな
らばメモリコピー中であれば障害系Aのみにリードする
よう、メモリコピーが完了したらコピー先の系へリード
するようルーティング先を選択する。
【0016】このようにすることで、メモリコピー対象
のデータ保証性を維持する。障害系Aを保守部品の系A
と交換後、上記と同様な手法でメモリコピーして障害前
の状態に復帰する。
【0017】このようにして、本発明では、運用系であ
る他系(系B,系C,系D)のメモリ領域を一時的に一
部を分割し、分割した各系のメモリ領域に障害系Aのメ
モリデータの割り当て分をそれぞれコピーすることで、
運用系以外に予備用のメモリ領域を用意する必要がな
く、また、メモリコピー中に運用系である他系(系B,
系C,系D)から障害系Aのメモリデータに対するアク
セスが発生しても各系のメモリコントローラにてデータ
保証するためのメモリアクセスのルーティング制御を行
うことで、メモリコピー中における処理の続行が可能と
なる。
【0018】
【発明の実施の形態】次に、本発明の一実施例について
図面を参照して説明する。図1は本発明の一実施例によ
る情報処理システムの構成を示すブロック図である。図
1においては、本発明の一実施例として4つの系からな
る分散共有メモリ方式の情報処理システムを示してお
り、そのシステムにおけるある系Aの情報処理装置1で
障害が発生した場合の概略を示している。
【0019】図1において、系Aの情報処理装置1と系
Bの情報処理装置2と系Cの情報処理装置3と系Dの情
報処理装置4とはそれぞれ高速ネットワーク5を介して
系間のメモリアクセスを行う。
【0020】系Aの情報処理装置1と系Bの情報処理装
置2と系Cの情報処理装置3と系Dの情報処理装置4と
はそれぞれメモリ11,21,31,41と、プロセッ
サ12,22,32,42と、メモリコントローラ1
3,23,33,43と、障害検出/処理ユニット1
4,24,34,44と、I/O(入出力)処理ユニッ
ト15,25,35,45と、ファイル装置16,2
6,36,46とを備えて構成されている。
【0021】メモリコントローラ13,23,33,4
3は系Aの情報処理装置1、系Bの情報処理装置2、系
Cの情報処理装置3、系Dの情報処理装置4それぞれの
メモリアドレス領域の情報を格納し、メモリアクセスの
ルーティング制御を行う。
【0022】ある系でプロセッサが故障した際に、当該
系を交換修理する過程において当該系上のメモリデータ
へのアクセスを許したままシングルOS(図示せず)が
運用を続行する障害処理に関して以下に説明する。
【0023】例えば、系Aの情報処理装置1のプロセッ
サ12に障害が発生すると、障害処理検出/処理ユニッ
ト14にてその障害が検出され、システム管理装置6経
由でシングルOSに障害発生が通知される。
【0024】シングルOSは障害が発生した系Aの情報
処理装置1のトランザクション発行元である全てのプロ
セッサ12及び全てのI/O(入出力装置)(図示せ
ず)を切離し、系Aの情報処理装置1内はメモリアクセ
ス部10のみが運用を続行し、他系(系B,系C,系
D)からのメモリアクセスを許す。
【0025】シングルOSは障害系Aの情報処理装置1
のメモリデータを他系(系B,系C,系D)のメモリに
割り振ってコピーするために、他系(系B,系C,系
D)に必要分のメモリ領域を確保した後、運用系である
他系(系B,系C,系D)に確保したメモリ領域のデー
タをそれぞれ他の外部記憶装置にスワップアウトする。
【0026】この時、障害系Aの情報処理装置1のメモ
リコピー対象となるアドレスとコピー先系のメモリ領域
のアドレスとがシステム管理装置6に登録される。運用
系である他系(系B,系C,系D)ではメモリ領域が縮
退された形態で運用が続行される。
【0027】その後に、運用系である他系(系B,系
C,系D)は障害系Aの情報処理装置1のメモリデータ
のうち自系に割り当てられたメモリ領域のデータを自系
内に確保したメモリ領域へデータコピーを開始する。
【0028】一方、メモリコピーの開始にあたっては運
用系である他系(系B,系C,系D)から障害系Aの情
報処理装置1のメモリへのアクセスは、システム管理装
置6において、ライトなら障害系Aの情報処理装置1及
びコピー先の系の2つの系に対してマルチライトするよ
うにルーティング先を選択し、リードならメモリコピー
中であれば障害系Aの情報処理装置1のみにリードする
ように、メモリコピーが完了したらコピー先の系へリー
ドするようにルーティング先を選択する。
【0029】このようにすることで、メモリコピー対象
のデータ保証性を維持する。障害系Aの情報処理装置1
を保守部品の系Aの情報処理装置1と交換後、上記と同
様な手法でメモリコピーして障害前の状態に復帰する。
【0030】このようにして、本発明では、運用系であ
る他系(系B,系C,系D)のメモリ領域を一時的に一
部を分割し、分割した各系のメモリ領域に障害系Aの情
報処理装置1のメモリデータの割り当て分をそれぞれコ
ピーすることで、運用系以外に予備用のメモリ領域を用
意する必要がなく、また、メモリコピー中に運用系であ
る他系(系B,系C,系D)から障害系Aの情報処理装
置1のメモリデータに対するアクセスが発生しても各系
のメモリコントローラ23,33,43にてデータ保証
するためのメモリアクセスのルーティング制御を行うこ
とで、メモリコピー中における処理の続行が可能とな
る。
【0031】図2は本発明の一実施例による情報処理シ
ステムにおける障害発生時の動作を示す動作遷移該略図
であり、図3は図1のメモリコントローラ23のリード
トランザクションの動作例を示す図であり、図4は図1
のメモリコントローラ23のライトトランザクションの
動作例を示す図である。
【0032】図3及び図4において、メモリコントロー
ラ23はアドレス変換テーブル23aと、ルーティング
セレクタ23bと、メモリ完了フラグ23cとを備えて
いる。尚、図示していないが、他のメモリコントローラ
13,33,43も上記のメモリコントローラ23と同
様の構成とする。
【0033】これら図1〜図4を参照して本発明の一実
施例による情報処理システムにおける障害発生時の動作
について説明する。尚、本実施例では系Aの情報処理装
置1のプロセッサ12に障害が発生したものとする。
【0034】シングルOSは系Aの情報処理装置1のメ
モリ領域110を3つのセクション111,112,1
13に分割し、セクション111,112,113のデ
ータを運用系である他系(系B,系C,系D)のメモリ
領域へそれぞれコピーするためのメモリ領域の割り当て
を行う。
【0035】この時、シングルOSは割り当てを行う
系、つまり運用を続行する運用系である他系(系B,系
C,系D)のメモリ領域、例えば系Bの情報処理装置2
のメモリ領域210のうちできるだけアクセス頻度が低
い領域に対してセクション111に相当するメモリ領域
211をコピー対象領域に割り当てる。
【0036】同様に、系Cの情報処理装置3、系Dの情
報処理装置4のメモリ領域310,410に対してもメ
モリコピー領域311,411をコピー対象領域に割り
当てる。
【0037】次に、シングルOSは上記の割り当てた運
用系である他系(系B,系C,系D)のメモリ領域を使
用しているプロセスを終わらせ、当該メモリ領域へはメ
モリアクセスしないようにする。シングルOSは運用系
である他系(系B,系C,系D)に対してコピー対象の
メモリ領域211,311,411のデータを各系のフ
ァイル装置26,36,46にそれぞれスワップアウト
(swap out)させる。
【0038】スワップアウトが完了したら、シングルO
Sはシステムのメモリ領域を管理しているメモリ管理テ
ーブルから運用系である他系(系B,系C,系D)のメ
モリコピー対象領域211,311,411を除いた値
に変更する。例えば、系Bでは自系のメモリ領域210
からメモリコピー対象領域211を除いた領域を系Bの
情報処理装置2の新しいメモリ領域212に変更する。
【0039】メモリ管理テーブルの変更が完了したら、
シングルOSはシステム管理装置6へ変更完了を通知
し、システム管理装置6はシステム全体に対して一時的
にトランザクション発行の抑止を行い、抑止前に発行さ
れた仕掛かり中のトランザクションが全て完了したら、
系Bの情報処理装置2のメモリコントローラ23に対し
て自系のメモリ領域をシングルOSが変更した領域に変
更させ、障害系Aの情報処理装置1のメモリコピー対象
となるセクション111のアドレスとコピー先のメモリ
領域211のアドレスとをアドレス変換テーブル23a
に登録させることでルーティング情報を変更する。
【0040】同様に、系Cの情報処理装置3、系Dの情
報処理装置4に対しても自系のメモリ領域310,41
0を新しいメモリ領域312,412に変更し、ルーテ
ィング情報を変更する。
【0041】運用系である他系(系B,系C,系D)の
設定全てが完了した後、システム管理装置6はシステム
に対してトランザクション発行抑止を解除し、運用系で
ある他系(系B,系C,系D)ではメモリ領域が縮退さ
れた形態で運用が続行されることとなる。
【0042】システム管理装置6はトランザクション発
行防止を解除したことをシングルOSに通知すると、シ
ングルOSは運用系である他系(系B,系C,系D)の
プロセッサ22,32,42に対してメモリコピー処理
用に少なくとも各系から1つ以上のプロセッサをアロケ
ートし、そのアロケートされたプロセッサを用いて障害
系Aの情報処理装置1のメモリデータをそれぞれ自系に
コピーするようにトランザクションを発行する。
【0043】メモリコピートランザクションはその実行
中、障害系Aの情報処理装置1のコピー対象データのア
ドレスに対して他からアクセスできないように排他制御
をかけることによってデータ保証性を維持する。
【0044】運用系である他系(系B,系C,系D)
は、障害系Aの情報処理装置1のセクション111,1
12,113のデータを運用系である他系(系B,系
C,系D)のメモリコピー領域211,311,411
にメモリコピーを実行する。
【0045】メモリコピー対象のデータが運用系である
他系(系B,系C,系D)にリードされ、障害系Aの情
報処理装置1にライトバックされる時に、ライトバック
・トランザクションは必ずメモリコントローラ23,3
3,43を経由する。
【0046】系Bの情報処理装置2から障害系Aの情報
処理装置1へのライトバック・トランザクションに対し
てメモリコントローラ23内のアドレス変換テーブル2
3aは障害系Aの情報処理装置1のアドレス以外にコピ
ー先の系Bの情報処理装置2のアドレスを生成し、2つ
の系にルーティングさせる[図2<step1>参
照]。
【0047】メモリデータコピーを含め系Bの情報処理
装置2から障害系Aの情報処理装置1のメモリ11への
アクセスはライト・トランザクションとリード・トラン
ザクションとでメモリコントローラ23を通過する時に
ルーティングが異なる。
【0048】コマンド230がライトの場合、アドレス
変換テーブル23aを引いて障害系Aの情報処理装置1
のアドレス「AD113」及びコピー先の系Dの情報処
理装置4のアドレス「AD113+γ」の2つの系に対
してマルチライトするようルーティングセレクタ23b
はルーティング先を選択する(図4参照)。
【0049】コマンド230がリードの場合もアドレス
変換テーブル23aを引くが、メモリコピー完了フラグ
23cを参照してメモリコピー中であれば、障害系Aの
情報処理装置1のアドレス「AD113」のみにリード
するように、またメモリコピーが完了していれば、コピ
ー先の系Dの情報処理装置4のアドレス「AD113+
γ」へリードするように、ルーティングセレクタ23b
はルーティング先を選択する(図3参照)。このように
することで、メモリコピー対象のデータ保証性を維持す
る。
【0050】システム管理装置6はメモリコピー完了通
知をOSから受けると、システム全体に対して一時的に
トランザクション発行の抑止を行う。トランザクション
抑止前に発行された仕掛かり中のトランザクションが全
て完了したら、システム管理装置6は運用系である他系
(系B,系C,系D)各々のメモリコントローラ23,
33,43のメモリコピー完了フラグをアサートし、上
記のリプライは運用系から返すようにルーティングの変
更を行い、アドレス変換テーブルの障害系Aのアドレス
を無効化する。
【0051】その後、システム管理装置6は障害系Aの
情報処理装置1を論理的に切離し、運用系である他系
(系B,系C,系D)に対してトランザクション抑止を
解除する。保守員は論理的に切離した障害系Aの情報処
理装置1を保守部品の系Aの情報処理装置1(図示せ
ず)と物理的に交換する。
【0052】システム管理装置6はシステムに物理的に
組込まれた保守部品の系Aの情報処理装置1を、論理的
に切離された状態で初期化を行う[図2<step2>
参照]。
【0053】保守部品の系Aの情報処理装置1の初期化
が完了したら、システム管理装置6は再度、運用系であ
る他系(系B,系C,系D)に対して一時的に全トラン
ザクション発行の抑止をかける。
【0054】全トランザクション抑止中、システム内で
仕掛かり中のトランザクションが全て完了したら、シス
テム管理装置6は保守部品の系Aの情報処理装置1を論
理的に運用系に組込み、また運用系である他系(系B,
系C,系D)各々のアドレス変換テーブル23a,33
a,43a(アドレス変換テーブル33a,43aは図
示せず)に保守部品の系Aの情報処理装置1のメモリコ
ピー対象となるセクション111のアドレスを再登録す
る。
【0055】その後、システム管理装置6は運用系であ
る他系(系B,系C,系D)に対してトランザクション
抑止を解除する。また、システム管理装置6はシングル
OSに対してトランザクション抑止解除を通知すると、
シングルOSは運用系である他系(系B,系C,系D)
に対してメモリコピー用に再度プロセッサをアロケート
し、障害系Aからコピーしたメモリ領域211,31
1,411のデータを保守部品の系Aの情報処理装置1
へ再コピーして書戻すトランザクションを発行する。
【0056】運用系である他系(系B,系C,系D)
は、メモリ領域211,311,411のデータを保守
部品の系Aの情報処理装置1のセクション111,11
2,113にメモリコピーを開始する[図2<step
3>参照]。
【0057】システム管理装置6は運用系である他系
(系B,系C,系D)各々のメモリコントローラ23,
33,43に対して再度ルーティングの変更を行うこと
で、メモリコピー中にメモリコピー対象データ(アドレ
ス「AD113」)に対するリードが起きた場合、通過
時に系Dの情報処理装置4のアドレス「AD113+
γ」へリードするようにルーティングセレクタ23bは
ルーティング先を選択する。
【0058】メモリコピーが完了したら、システム管理
装置6は運用系である他系(系B,系C,系D)各々の
メモリコントローラ23,33,43のメモリコピー完
了フラグをアサートするとともに、保守部品の系Aの情
報処理装置1のアドレス「AD113」へリードするよ
うにルーティングの変更を行う[図3参照]。
【0059】システム管理装置6は再度システム全体に
対して一時的にトランザクション発行の抑止を行う。抑
止前に発行された仕掛かり中のトランザクションが全て
完了したら、システム管理装置6は運用系である他系
(系B,系C,系D)各々のメモリコントローラ23,
33,43に対して自系のメモリ領域をシングルOSが
変更する領域に変更させ、アドレス変換テーブル23
a,33a,43a中のメモリ領域211,311,4
11のアドレスを無効化し、ルーティング先は保守部品
の系Aの情報処理装置1のみに変更する。
【0060】全系の設定完了後、システム管理装置6は
システムに対してトランザクション発行抑止を解除す
る。シングルOSはメモリコピー用にアロケートしてい
た運用系である他系(系B,系C,系D)のプロセッサ
22,32,42をそれぞれ通常運転処理用に戻し、シ
ステムのメモリ領域を管理しているメモリ管理テーブル
を運用系である他系(系B,系C,系D)のメモリコピ
ー対象領域211,311,411を加えた値に変更す
る[図2<step3>参照]。このようにすることに
よって、システムでは障害発生前のフルメモリ構成に戻
って運用が続行される。
【0061】以上詳細に実施例の構成について述べた
が、図1のプロセッサ、メモリ、障害検出/処理ユニッ
ト、ファイル装置に関しては、当業者にとってよく知ら
れており、また本発明とは直接関係しないので、その詳
細な構成及び動作についての説明は省略する。尚、上記
実施例では、最初のメモリコピー後に保守部品の系を交
換しないで、縮退運転のまま処理を続行してもよい。
【0062】このように、ホットスタンバイシステムや
多重化システムのような予備の情報処理装置の系を用意
しなくてもメモリのデータ保証が可能なため、低コスト
かつシステム資源の有効活用を維持したままで、高信頼
性の情報処理システムを構築することができる。
【0063】また、障害が発生しても他系とのメモリア
クセス部が正常動作可能であれば、運用を停止せずにデ
ータの保証を維持したままシステムの運用を続行するこ
とができる。
【0064】
【発明の効果】以上説明したように本発明によれば、プ
ロセッサ及びメモリが物理的に複数の系に分散配置され
た分散共有メモリ方式の情報処理システムにおいて、1
つの系に障害が発生した場合に当該障害系の交換保守に
備えて障害系のメモリデータを他の複数の系のメモリに
それぞれ一部づつコピーし、障害系のメモリデータを他
の複数の系のメモリにそれぞれ一部づつコピーする際に
データコピー実行中でも障害系のメモリアクセスを許す
とともにデータ保証性を維持しながら運用を続行するこ
とによって、情報処理装置間でのメモリコピー実行中で
あっても運用を続行するためにメモリアクセスを可能に
することができ、システムの資源を有効活用することが
できるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例による情報処理システムの構
成を示すブロック図である。
【図2】本発明の一実施例による情報処理システムにお
ける障害発生時の動作を示す動作遷移該略図である。
【図3】図1のメモリコントローラのリードトランザク
ションの動作例を示す図である。
【図4】図1のメモリコントローラのライトトランザク
ションの動作例を示す図である。
【図5】従来例によるホットスタンバイシステムの構成
を示すブロック図である。
【符号の説明】
1〜4 情報処理装置 5 高速ネットワーク 6 システム管理装置 11,21,31,41 メモリ 12,22,32,42 プロセッサ 13,23,33,43 メモリコントローラ 14,24,34,44 障害検出/処理ユニット 15,25,35,45 I/O処理ユニット 16,26,36,46 ファイル装置 23a アドレス変換テーブル 23b ルーティングセレクタ 23c メモリ完了フラグ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 15/177 678 G06F 15/177 678A

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 プロセッサ及びメモリが物理的に複数の
    系に分散配置された分散共有メモリ方式の情報処理シス
    テムであって、1つの系に障害が発生した場合に当該障
    害系の交換保守に備えて前記障害系のメモリデータを他
    の複数の系のメモリにそれぞれ一部づつコピーする手段
    と、前記障害系のメモリデータを他の複数の系のメモリ
    にそれぞれ一部づつコピーする際にデータコピー実行中
    でも前記障害系のメモリアクセスを許すとともにデータ
    保証性を維持しながら運用を続行する手段とを有するこ
    とを特徴とする情報処理システム。
  2. 【請求項2】 前記障害系のメモリデータを前記他の複
    数の系のメモリに割り振ってコピーする際に前記他の複
    数の系に前記コピーに必要なメモリ領域を確保する手段
    を含むことを特徴とする請求項1記載の情報処理システ
    ム。
  3. 【請求項3】 前記他の複数の系に確保したメモリ領域
    のデータをそれぞれ他の外部記憶装置にスワップアウト
    する手段を含むことを特徴とする請求項2記載の情報処
    理システム。
  4. 【請求項4】 前記障害系のメモリコピー対象となるア
    ドレスと前記他の複数の系に確保したメモリ領域のコピ
    ー先のアドレスとを登録する手段を含むことを特徴とす
    る請求項2または請求項3記載の情報処理システム。
  5. 【請求項5】 前記他の複数の系は、前記他の複数の系
    に確保したメモリ領域が縮退された形態で運用を続行す
    るようにしたことを特徴とする請求項2から請求項4の
    いずれか記載の情報処理システム。
  6. 【請求項6】 前記メモリデータのコピーの開始にあた
    って前記他の複数の系から前記障害系のメモリへのアク
    セスがライトの時に前記障害系及び前記コピー先の系の
    2つの系に対してマルチライトするようルーティング先
    を選択する手段を含むことを特徴とする請求項2から請
    求項5のいずれか記載の情報処理システム。
  7. 【請求項7】 前記メモリデータのコピーの開始にあた
    って前記他の複数の系から前記障害系のメモリへのアク
    セスがリードの時に前記メモリコピー中であれば前記障
    害系のみにリードしかつ前記メモリコピーが完了してい
    れば前記コピー先の系へリードするようルーティング先
    を選択する手段を含むことを特徴とする請求項2から請
    求項6のいずれか記載の情報処理システム。
  8. 【請求項8】 プロセッサ及びメモリが物理的に複数の
    系に分散配置された分散共有メモリ方式の情報処理シス
    テムのデータコピーを伴う障害処理方式であって、1つ
    の系に障害が発生した場合に当該障害系の交換保守に備
    えて前記障害系のメモリデータを他の複数の系のメモリ
    にそれぞれ一部づつコピーするステップと、前記障害系
    のメモリデータを他の複数の系のメモリにそれぞれ一部
    づつコピーする際にデータコピー実行中でも前記障害系
    のメモリアクセスを許すとともにデータ保証性を維持し
    ながら運用を続行するステップとを有することを特徴と
    する障害処理方式。
  9. 【請求項9】 前記障害系のメモリデータを前記他の複
    数の系のメモリに割り振ってコピーする際に前記他の複
    数の系に前記コピーに必要なメモリ領域を確保するステ
    ップを含むことを特徴とする請求項8記載の障害処理方
    式。
  10. 【請求項10】 前記他の複数の系に確保したメモリ領
    域のデータをそれぞれ他の外部記憶装置にスワップアウ
    トするステップを含むことを特徴とする請求項9記載の
    障害処理方式。
  11. 【請求項11】 前記障害系のメモリコピー対象となる
    アドレスと前記他の複数の系に確保したメモリ領域のコ
    ピー先のアドレスとを登録するステップを含むことを特
    徴とする請求項9または請求項10記載の障害処理方
    式。
  12. 【請求項12】 前記他の複数の系は、前記他の複数の
    系に確保したメモリ領域が縮退された形態で運用を続行
    するようにしたことを特徴とする請求項9から請求項1
    1のいずれか記載の障害処理方式。
  13. 【請求項13】 前記メモリデータのコピーの開始にあ
    たって前記他の複数の系から前記障害系のメモリへのア
    クセスがライトの時に前記障害系及び前記コピー先の系
    の2つの系に対してマルチライトするようルーティング
    先を選択するステップを含むことを特徴とする請求項9
    から請求項12のいずれか記載の障害処理方式。
  14. 【請求項14】 前記メモリデータのコピーの開始にあ
    たって前記他の複数の系から前記障害系のメモリへのア
    クセスがリードの時に前記メモリコピー中であれば前記
    障害系のみにリードしかつ前記メモリコピーが完了して
    いれば前記コピー先の系へリードするようルーティング
    先を選択するステップを含むことを特徴とする請求項9
    から請求項13のいずれか記載の障害処理方式。
JP32623199A 1999-11-17 1999-11-17 情報処理システム及びそれに用いるデータコピーを伴う障害処理方式 Expired - Fee Related JP3351469B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32623199A JP3351469B2 (ja) 1999-11-17 1999-11-17 情報処理システム及びそれに用いるデータコピーを伴う障害処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32623199A JP3351469B2 (ja) 1999-11-17 1999-11-17 情報処理システム及びそれに用いるデータコピーを伴う障害処理方式

Publications (2)

Publication Number Publication Date
JP2001142731A true JP2001142731A (ja) 2001-05-25
JP3351469B2 JP3351469B2 (ja) 2002-11-25

Family

ID=18185463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32623199A Expired - Fee Related JP3351469B2 (ja) 1999-11-17 1999-11-17 情報処理システム及びそれに用いるデータコピーを伴う障害処理方式

Country Status (1)

Country Link
JP (1) JP3351469B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007328595A (ja) * 2006-06-08 2007-12-20 Nec Corp サーバシステムおよびそのシステムにおける同期化方法
JP2010186303A (ja) * 2009-02-12 2010-08-26 Nec Corp 情報処理システム及びその処理方法
JP2012533831A (ja) * 2009-07-21 2012-12-27 ヴイエムウェア インク クラウドコンピューティング・ベースの仮想計算機・ファイルシステムにおいてディスク画像を複製するシステム及び方法
CN104750658A (zh) * 2013-12-27 2015-07-01 英特尔公司 辅助式一致共享存储器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266685A (ja) * 1993-03-15 1994-09-22 Toshiba Corp 分散形制御システム
JPH07160651A (ja) * 1993-12-08 1995-06-23 Nec Corp システムデータのバックアップ方式
JPH09101914A (ja) * 1995-10-05 1997-04-15 Kokusai Electric Co Ltd データ退避システム
JPH09128354A (ja) * 1995-11-07 1997-05-16 Hitachi Ltd 多重化コンピュータシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266685A (ja) * 1993-03-15 1994-09-22 Toshiba Corp 分散形制御システム
JPH07160651A (ja) * 1993-12-08 1995-06-23 Nec Corp システムデータのバックアップ方式
JPH09101914A (ja) * 1995-10-05 1997-04-15 Kokusai Electric Co Ltd データ退避システム
JPH09128354A (ja) * 1995-11-07 1997-05-16 Hitachi Ltd 多重化コンピュータシステム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007328595A (ja) * 2006-06-08 2007-12-20 Nec Corp サーバシステムおよびそのシステムにおける同期化方法
JP2010186303A (ja) * 2009-02-12 2010-08-26 Nec Corp 情報処理システム及びその処理方法
JP2012533831A (ja) * 2009-07-21 2012-12-27 ヴイエムウェア インク クラウドコンピューティング・ベースの仮想計算機・ファイルシステムにおいてディスク画像を複製するシステム及び方法
CN104750658A (zh) * 2013-12-27 2015-07-01 英特尔公司 辅助式一致共享存储器
JP2015127949A (ja) * 2013-12-27 2015-07-09 インテル・コーポレーション 支援型コヒーレント共有メモリ
US9372752B2 (en) 2013-12-27 2016-06-21 Intel Corporation Assisted coherent shared memory
US10229024B2 (en) 2013-12-27 2019-03-12 Intel Corporation Assisted coherent shared memory

Also Published As

Publication number Publication date
JP3351469B2 (ja) 2002-11-25

Similar Documents

Publication Publication Date Title
US20050132249A1 (en) Apparatus method and system for fault tolerant virtual memory management
US5437022A (en) Storage controller having additional cache memory and a means for recovering from failure and reconfiguring a control unit thereof in response thereto
EP0447736B1 (en) Multiprocessor system having distributed shared resources and dynamic and selective global data replication and method therefor
US7644252B2 (en) Multi-processor system and memory accessing method
JP6195834B2 (ja) トランザクショナルミドルウェアマシン環境においてトランザクションレコードを永続化するためのシステムおよび方法
US7734842B2 (en) Computer-implemented method, apparatus, and computer program product for managing DMA write page faults using a pool of substitute pages
JP2008269142A (ja) ディスクアレイ装置
JP2780372B2 (ja) デイスク制御装置のキヤツシユ組込制御方法
JPH05508506A (ja) 耐障害性回路網ファイルシステム
JPS5845682A (ja) Lruエラ−処理方式
CN102725746B (zh) 对分布式计算机系统中内存的管理方法和装置
JP3351469B2 (ja) 情報処理システム及びそれに用いるデータコピーを伴う障害処理方式
US20230161714A1 (en) Method and system for direct memory access
US20080313413A1 (en) Method and Device for Insuring Consistent Memory Contents in Redundant Memory Units
US7472221B1 (en) Mirrored memory
US7302526B1 (en) Handling memory faults for mirrored memory
JPH01213732A (ja) データ処理システム
JP2008047029A (ja) ストレージシステム及びキャッシュの冗長化方法とコンピュータプログラム
JP3161319B2 (ja) マルチプロセッサシステム
JP3425355B2 (ja) 多重書き込み記憶装置
JPS629929B2 (ja)
JP2713528B2 (ja) 記憶装置容量の無中断拡張方法
JPH0217550A (ja) マルチプロセッサシステムの障害処理方式
WO2000049792A1 (en) System for hot standby of a telephone switching matrix
Sicola The architecture and design of HS-series StorageWorks Array Controllers

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees