JP6175958B2 - メモリダンプ方法及びプログラム、並びに、情報処理装置 - Google Patents

メモリダンプ方法及びプログラム、並びに、情報処理装置 Download PDF

Info

Publication number
JP6175958B2
JP6175958B2 JP2013156069A JP2013156069A JP6175958B2 JP 6175958 B2 JP6175958 B2 JP 6175958B2 JP 2013156069 A JP2013156069 A JP 2013156069A JP 2013156069 A JP2013156069 A JP 2013156069A JP 6175958 B2 JP6175958 B2 JP 6175958B2
Authority
JP
Japan
Prior art keywords
partition
system board
unit
dump
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013156069A
Other languages
English (en)
Other versions
JP2015026291A (ja
Inventor
甫 荻野
甫 荻野
健祐 石田
健祐 石田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013156069A priority Critical patent/JP6175958B2/ja
Priority to US14/313,272 priority patent/US9436536B2/en
Priority to EP14174720.4A priority patent/EP2829974A3/en
Publication of JP2015026291A publication Critical patent/JP2015026291A/ja
Application granted granted Critical
Publication of JP6175958B2 publication Critical patent/JP6175958B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、メモリダンプの実行技術に関する。
業務処理を実行するシステムにおいて異常が発生した場合には、異常の原因を特定するため、異常が発生した際にメモリ上にあるデータをハードディスク等の他の記憶媒体に保存する。この処理はメモリダンプと呼ばれる。メモリダンプを実行している間は、メモリダンプの実行対象のメモリを使用することができないので、システムがダウンするか或いは業務処理の処理性能が低下することになる。
メモリダンプを実行する際に生じる業務処理への影響を低減することに関して、以下のような技術が存在する。具体的には、システム内の特定のパーティションにおいて異常が発生した場合に、異常が発生したパーティションをシャットダウンする。そして、そのパーティションに含まれるセル(このセルは、システムボードに相当する)と予備のセルとを入れ替え、異常が発生したパーティションを再起動する。一方、異常が発生したパーティションから外されたセルのメモリに対してはメモリダンプを実行し、メモリダンプによって取得したデータ(以下、ダンプデータと呼ぶ)をディスクに保存する。このようにすることで、システムのダウンタイムを短縮しつつメモリダンプを実行できるようになる。
しかし、上記の従来技術は、1つのシステムボードを含むパーティションにおいて異常が発生することを想定しており、複数のシステムボードを含むパーティションにおいて異常が発生することを想定していない。従って、上記の従来技術を、複数のシステムボードを含むパーティションに対して適用すると、使用されているメモリ領域の一部におけるデータしか保存することができず、原因の解析が困難になる。
特許第4645837号公報
従って、本発明の目的は、1つの側面では、複数のシステムボードを含むパーティションにおいて異常が発生した場合に、ダンプデータを漏れなく取得するための技術を提供することである。
本発明に係るメモリダンプ方法は、第1のパーティションに含まれる複数のシステムボードのうちいずれかのシステムボードに異常が発生した場合、第1のパーティションに含まれていない予備のシステムボードを含む第2のパーティションを生成し、第1のパーティションに含まれる複数のシステムボードの各々についてメモリダンプを実行し、ダンプデータを取得し、メモリダンプが実行された後に、第1のパーティションに含まれるシステムボードのうち異常が発生したシステムボード以外のシステムボードを第2のパーティションに追加する処理を含む。
複数のシステムボードを含むパーティションにおいて異常が発生した場合に、ダンプデータを漏れなく取得できるようになる。
図1は、第1の実施の形態に係るシステムの概要を示す図である。 図2は、管理ユニットの機能ブロック図である。 図3は、管理データ格納部に格納されるパーティションテーブルの一例を示す図である。 図4は、管理データ格納部に格納されるリザーブデータの一例を示す図である。 図5は、業務処理を開始する際に実行する処理の処理フローである。 図6は、運用中のパーティションにおいてエラーが発生した場合に実行する処理の処理フローである。 図7は、運用中のパーティションにおいてエラーが発生した場合に実行する処理の処理フローである。 図8は、本実施の形態の処理シーケンスを示す図である。 図9は、本実施の形態におけるダンプデータの取得を説明するための図である。 図10は、本実施の形態におけるダンプデータの取得を説明するための図である。 図11は、本実施の形態におけるダンプデータの取得を説明するための図である。 図12は、本実施の形態におけるダンプデータの取得を説明するための図である。 図13は、本実施の形態の方法を用いない場合におけるダンプデータの取得を説明するための図である。 図14は、本実施の形態の方法を用いない場合におけるダンプデータの取得を説明するための図である。 図15は、本実施の形態の方法を用いない場合におけるダンプデータの取得を説明するための図である。 図16は、第2の実施の形態に係るシステムの概要を示す図である。 図17は、運用中のパーティションにおいてエラーが発生した場合に実行する処理の処理フローである。 図18は、運用中のパーティションにおいてエラーが発生した場合に実行する処理の処理フローである。
[実施の形態1]
図1に、第1の実施の形態に係るシステムの概要を示す。第1の実施の形態においては、例えばLAN(Local Area Network)であるネットワーク3に、サーバ1と管理端末5とが接続されている。サーバ1は、業務処理を実行する。管理端末5は、管理者によって操作される端末である。管理者は、管理端末5を操作することによって、サーバ1による業務処理が問題が無く行われているか監視する。
サーバ1は、システムボード(メインボード又はマザーボードとも呼ばれる)S1乃至S4と、モジュール間でデータを中継するI/Oスイッチ110と、ハードディスクドライブ或いはPCI(Peripheral Component Interconnect)スロット等のデバイスを含むI/O(Input/Output)ユニットU1乃至U4と、管理ユニット130とを有する。
システムボードS1は、例えばハードディスク等の記憶媒体に設けられた、メモリダンプによって得られたダンプデータを格納するダンプデータ格納部100と、BIOS(Basic Input/Output System)におけるプログラムであるメモリダンププログラム101と、DIMM(Dual Inline Memory Module)102と、CPU(Central Processing Unit)103と、I/Oコントローラ104とを有する。なお、システムボードS2乃至S4の構成はシステムボードS1の構成と同様である。
I/OユニットU1は、例えばハードディスク等の記憶媒体に設けられた、OS1200のプログラムを格納するデータ格納部120と、例えばPCIスロットであるスロット121乃至124と、スロット121に接続されたSAS(Serial Attached SCSI(Small Computer System Interface))カード125と、スロット122に接続されたLANカード126とを有する。なお、I/OユニットU2乃至U4の構成はI/OユニットU1の構成と同様である。
図2に、管理ユニット130の機能ブロック図を示す。管理ユニット130は、異常検出部1301と、コンソール制御部1302と、メモリダンプ制御部1303と、第1管理部1305、第2管理部1306、管理データ格納部1307、追加部1308及び除去部1309を含むパーティション管理部1304とを有する。
異常検出部1301は、サーバ1において発生した異常を検出する。コンソール制御部1302は、管理端末5からの要求に対する処理等を実行する。メモリダンプ制御部1303は、BIOSにおけるメモリダンププログラム101の実行を制御する。
第1管理部1305及び第2管理部1306は、サーバ1において生成されるパーティションの管理を行う。追加部1308は、ホットスワップ(Hot Swap)によってモジュールをパーティションに追加する(この処理は、ホットアッド(Hot Add)と呼ばれる)。除去部1309は、ホットスワップによってモジュールをパーティションから削除する(この処理は、ホットリムーヴ(Hot Remove)と呼ばれる)。
図3に、管理データ格納部1307に格納されるパーティションテーブルの一例を示す。図3の例では、パーティションの識別情報と、パーティションに含まれるモジュールの識別情報とが格納される。
図4に、管理データ格納部1307に格納されるリザーブテーブルの一例を示す。図4の例では、リザーブテーブルには、サーバ1内におけるいずれのパーティションにも割り当てられていない、予備のモジュールの識別情報が格納される。
次に、図5乃至図12を用いて、第1の実施の形態におけるサーバ1の動作について説明する。まず、図5を用いて、サーバ1が業務処理を開始する際に実行する処理について説明する。
サーバ1における第1管理部1305は、複数のシステムボードを含むパーティション1を生成する(図5:ステップS51)。例えば、システムボードS1、システムボードS2、システムボードS3、I/OユニットU1、I/OユニットU2、I/OユニットU3及びI/OユニットU4を含むパーティション1を生成する。なお、第1管理部1305は、パーティション1についてのデータを管理データ格納部1307におけるパーティションテーブルに格納する。
第1管理部1305は、パーティション1に含まれていないシステムボードを予備のシステムボードに設定する(ステップS53)。例えば、システムボードS4を予備のシステムボードに設定する。なお、第1管理部1305は、予備のシステムボードについてのデータを管理データ格納部1307におけるリザーブテーブルに格納する。
第1管理部1305は、パーティション1の電源を入れる(ステップS55)。そして処理を終了する。ステップS55が終了すると、I/OユニットU1におけるOS1200が起動する。OS1200及びOS1200上で処理を実行するアプリケーションプログラムのデータは、システムボードS1のDIMM102、システムボードS2のDIMM102及びシステムボードS3のDIMM102に格納される。
以上のような処理を実行すれば、複数のシステムボードによる業務処理が開始する。
次に、図6及び図7を用いて、運用中のパーティションにおいてエラーが発生した場合の処理について説明する。
まず、異常検出部1301は、パーティション1に含まれるシステムボードにおいて発生したエラーを検出する(図6:ステップS11)。例えば、システムボード1において発生したエラーを検出する。異常検出部1301は、異常を検出したことをパーティション管理部1304に通知する。
パーティション管理部1304における除去部1309は、パーティション1に含まれるI/Oユニットをホットリムーヴによってパーティション1から外す(ステップS13)。例えば、I/OユニットU1、I/OユニットU2、I/OユニットU3及びI/OユニットU4をパーティション1から外す。ホットリムーヴは、OSを停止せずにモジュールをパーティションから外す処理である。なお、除去部1309は、管理データ格納部1307におけるパーティションテーブルに格納されているパーティション1についてのデータを、I/Oユニットの外しを反映するように更新する。
第1管理部1305は、管理データ格納部1307におけるリザーブテーブルに登録されている予備のシステムボード及びパーティション1から外されたI/Oユニットを含む新たなパーティション2を生成する(ステップS15)。例えば、システムボードS4、I/OユニットU1、I/OユニットU2、I/OユニットU3及びI/OユニットU4を含むパーティション2を生成する。なお、第1管理部1305は、パーティション2についてのデータを管理データ格納部1307におけるパーティションテーブルに格納する。
第1管理部1305は、パーティション2の電源を入れる(ステップS17)。これにより、パーティション2に含まれるいずれかのI/OユニットにおけるOS1200が起動し、業務処理が再開する。
メモリダンプ制御部1303は、BIOSにおけるメモリダンププログラム101によってパーティション1についてメモリダンプを実行する。そして、メモリダンプ制御部1303は、パーティション1に含まれるシステムボードのダンプデータ格納部100に、メモリダンプの実行により得られたダンプデータを格納する(ステップS19)。例えば、システムボードS1のダンプデータ格納部100にダンプデータを格納する。ステップS19の処理によって、異常発生時に使用されていたDIMM102上のデータを漏れなく取得できる。処理は端子Aを介して図7のステップS21に移行する。
図7の説明に移行し、メモリダンプ制御部1303は、メモリダンププログラム101に問い合わせを行うことにより、メモリダンプが完了したか判断する(ステップS21)。なお、メモリダンプ制御部1303による問い合わせは、例えば定期的に行われる。
メモリダンプが完了していない場合(ステップS21:Noルート)、ステップS21の処理を再度実行する。メモリダンプが完了した場合(ステップS21:Yesルート)、メモリダンプ制御部1303は、パーティション管理部1304に、メモリダンプが完了したことを通知する。
パーティション管理部1304における第2管理部1306は、パーティション1の電源を切る(ステップS23)。また、第2管理部1306は、パーティション1に含まれるシステムボードをパーティション1から外す(ステップS25)。例えば、システムボードS1、システムボードS2及びシステムボードS3をパーティション1から外す。なお、第2管理部1306は、管理データ格納部1307におけるパーティションテーブルに格納されているパーティション1についてのデータを、システムボードの外しを反映するように更新する。
追加部1308は、ステップS25において外されたシステムボードのうちエラーが発生していないシステムボードを、ホットアッドによりパーティション2に追加する(ステップS27)。例えば、システムボードS2及びシステムボードS3をホットアッドによりパーティション2に追加する。そして処理を終了する。
以上のような処理を実行すれば、異常発生時に使用されていたメモリ領域からダンプデータを漏れなく取得できるようになる。また、古いパーティションに含まれるシステムボードのうち異常が発生していないシステムボードを新しいパーティションに追加することにより、業務処理の処理性能が低下したままになるのを防ぐことができる。
図8に、本実施の形態の処理シーケンスを示す。本処理シーケンスには、管理ユニット130、パーティション1及びパーティション2における処理が示されている。なお、図8において、システムボードをSBと略し、I/OユニットをIOUと略している。
管理ユニット130は、パーティション1を生成し、パーティション1の設定をする。設定に関するデータは、管理データ格納部1307におけるパーティションテーブルに格納される。また、管理ユニット130は、予備のシステムボードの設定をする。設定に関するデータは、管理データ格納部1307におけるリザーブテーブルに格納される。
管理ユニット130は、パーティション1の電源を入れる。これに応じ、パーティション1においてOSが起動し、運用が開始される。
運用開始後、パーティション1のシステムボード1において異常が発生したとする。管理ユニット130は、パーティション1において発生した異常を検出する。
管理ユニット130は、パーティション1に含まれるI/Oユニットをホットリムーヴによってパーティション1から外す。これにより、パーティション1にはI/Oユニットが残っておらず、システムボードが残ることになる。
管理ユニット130は、パーティション1に含まれるシステムボードのDIMM102について、BIOSにおけるメモリダンププログラム101を実行する。これにより、パーティション1においてメモリダンプが開始する。メモリダンプと並行して、管理ユニット130は、予備のシステムボード及びパーティション1から外されたI/Oユニットを含むパーティションを生成する。そして、管理ユニット130は、パーティション2の電源を入れる。これに応じ、パーティション2においてOSが起動し、運用が開始される。
パーティション1におけるメモリダンプが終了すると、管理ユニット130がメモリダンプの終了を検出する。
管理ユニット130は、パーティション1の電源を切る。そして、管理ユニット130は、パーティション1からシステムボードS1、システムボードS2及びシステムボードS3を外す。
管理ユニット130は、異常が発生していないシステムボードであるシステムボードS2及びシステムボードS3をホットアッドによりパーティション2に組み込む。
なお、本処理シーケンスにおいては、メモリダンプの実行を開始した後にパーティション2の運用を開始しているが、図6の例のように、パーティション2の運用を開始した後にメモリダンプの実行を開始してもよい。
以上のように、本実施の形態によれば、業務処理への影響を低減しつつ、ダンプデータを漏れなく取得できるようになる。
図9乃至図12を用いて、本実施の形態におけるダンプデータの取得をより具体的に説明する。図9乃至図12にはサーバ1の構成が示されている。但し、図を見やすくするため、構成を簡略化している。
図9においては、パーティション1が運用中である。パーティション1は、システムボード1と、システムボード2と、システムボード3と、I/Oユニットとを含む。パーティション1において使用されるメモリ空間は、システムボード1におけるDIMM102と、システムボード2におけるDIMM102と、システムボード3におけるDIMM102とに及ぶ。これらのDIMM102には、OS或いはOS上で実行されるアプリケーションプログラムのデータが格納される。システムボード4は予備のシステムボードであり、いずれのパーティションにも割り当てられていない。
図10においては、システムボード1で異常が発生している。異常発生時においては、システムボード1におけるDIMM102と、システムボード2におけるDIMM102と、システムボード3におけるDIMM102とにデータが存在するため、これらのデータに対してメモリダンプが実行されることになる。異常検出部1301が異常を検出すると、パーティションを切り替えるための処理が実行される。
図11においては、新たにパーティション2が生成され、パーティション2の運用が開始されている。パーティション2は、システムボード4と、I/Oユニットとを含む。パーティション1は運用中ではない。パーティション1に割り当てられていたI/Oユニットは、パーティション1からホットリムーヴによって外され、パーティション2に割り当てられている。一方、システムボード1におけるDIMM102、システムボード2におけるDIMM102及びシステムボード3におけるDIMM102に対してはメモリダンプが実行され、ダンプデータがシステムボード1のダンプデータ格納部100に格納される。
図12においては、パーティション2が運用中である。パーティション2には、パーティション1に含まれていたシステムボードのうち異常が発生していないシステムボードであるシステムボード2及びシステムボード3がホットアッドにより追加されている。パーティション2において使用されるメモリ空間は、システムボード2におけるDIMM102と、システムボード3におけるDIMM102と、システムボード4におけるDIMM102とに及ぶ。これらのDIMM102には、OS或いはOS上で実行されるアプリケーションプログラムのデータが格納される。パーティション1は電源をオフにされ、異常が発生したシステムボード1はいずれのパーティションにも割り当てられていない。システムボード1のダンプデータ格納部100にはダンプデータが格納されており、ダンプデータは異常の解析に供される。
以上のようにすれば、パーティションに複数のシステムボードが含まれる場合であっても、メモリ上のデータの一部を取得し損ねるようなことはなく、ダンプデータを漏れなく取得できるようになる。また、パーティション1に異常が発生したことに伴いパーティション2による処理に移行したとしても、処理能力が大幅に低下することを抑制でき、また、処理の停止時間を最小限にすることができる。すなわち、業務処理への影響を軽減できるようになる。
なお、パーティション2の運用開始時はシステムボードの数が少ないため、業務処理の処理性能は低下する。しかし、メモリダンプの終了後にシステムボードの数は元の数である3と同じになるため、処理性能は元に戻る。
図13乃至図15を用いて、本実施の形態の方法を用いない場合におけるダンプデータの取得を説明する。
図13においては、パーティション1が運用中である。パーティション1は、システムボード1と、システムボード2と、システムボード3と、I/Oユニットとを含む。パーティション1において使用されるメモリ空間は、システムボード1におけるDIMM102と、システムボード2におけるDIMM102と、システムボード3におけるDIMM102とに及ぶ。これらのDIMM102には、OS或いはOS上で実行されるアプリケーションプログラムのデータが格納される。システムボード4は予備のシステムボードであり、いずれのパーティションにも割り当てられていない。
図14においては、システムボード1で異常が発生している。異常発生時においては、システムボード1におけるDIMM102と、システムボード2におけるDIMM102と、システムボード3におけるDIMM102とにデータが存在する。
本実施の形態の方法を用いない場合、図15に示すように、パーティション1において使用されていたメモリ空間の一部におけるデータしか取得することができない。図15においては、パーティション1に割り当てられていたシステムボード2及びシステムボード3に対してはメモリダンプが実行されることなくパーティション2に組み入れられている。パーティション2は運用中であり、システムボード2のDIMM102及びシステムボード3のDIMM102上のデータは書き換えられているため、異常発生時においてシステムボード2のDIMM102及びシステムボード3のDIMM102上に存在したデータはもはや存在しない。従って、システムボード1におけるDIMM102上のデータしか取得することができない。このようにして取得したダンプデータを利用しても、異常の原因を正確に特定することができない。
[実施の形態2]
図16に、第2の実施の形態に係るシステムの概要を示す。第2の実施の形態においては、ダンプデータ格納部128がI/Oユニットに設けられており、システムボードにはダンプデータ格納部100は設けられていない。その他の点は、第1の実施の形態と同様である。
次に、図17及び図18を用いて、第2の実施の形態におけるサーバ1の動作について説明する。業務処理を開始する際に実行する処理は第1の実施の形態と同じであるので、運用中のパーティションにおいてエラーが発生した場合の処理について説明する。
まず、異常検出部1301は、パーティション1に含まれるシステムボードにおいて発生したエラーを検出する(図17:ステップS31)。例えば、システムボード1において発生したエラーを検出する。異常検出部1301は、異常を検出したことをパーティション管理部1304に通知する。
パーティション管理部1304における除去部1309は、パーティション1に含まれるI/Oユニットをホットリムーヴによってパーティション1から外す(ステップS33)。例えば、I/OユニットU1、I/OユニットU2及びI/OユニットU3をパーティション1から外す。なお、除去部1309は、管理データ格納部1307におけるパーティションテーブルに格納されているパーティション1についてのデータを、I/Oユニットの外しを反映するように更新する。
第1管理部1305は、管理データ格納部1307におけるリザーブテーブルに登録されている予備のシステムボード及びパーティション1から外されたI/Oユニットを含む新たなパーティション2を生成する(ステップS35)。例えば、システムボードS4、I/OユニットU1、I/OユニットU2及びI/OユニットU3を含むパーティション2を生成する。なお、第1管理部1305は、パーティション2についてのデータを管理データ格納部1307におけるパーティションテーブルに格納する。
第1管理部1305は、パーティション2の電源を入れる(ステップS37)。これにより、パーティション2に含まれるいずれかのI/OユニットにおけるOS1200が起動し、業務処理が再開する。
メモリダンプ制御部1303は、BIOSにおけるメモリダンププログラム101によってパーティション1についてメモリダンプを実行する。そして、メモリダンプ制御部1303は、パーティション1に含まれるI/Oユニットのダンプデータ格納部128に、メモリダンプの実行により得られたダンプデータを格納する(ステップS39)。例えば、I/OユニットU4のダンプデータ格納部128にダンプデータを格納する。ステップS39の処理によって、異常発生時に使用されていたDIMM102上のデータを漏れなく取得できる。処理は端子Bを介して図18のステップS41に移行する。
図18の説明に移行し、メモリダンプ制御部1303は、メモリダンププログラム101に問い合わせを行うことにより、メモリダンプが完了したか判断する(ステップS41)。なお、メモリダンプ制御部1303による問い合わせは、例えば定期的に行われる。
メモリダンプが完了していない場合(ステップS41:Noルート)、ステップS41の処理を再度実行する。メモリダンプが完了した場合(ステップS41:Yesルート)、メモリダンプ制御部1303は、パーティション管理部1304に、メモリダンプが完了したことを通知する。
パーティション管理部1304における第2管理部1306は、パーティション1の電源を切る(ステップS43)。また、第2管理部1306は、パーティション1に含まれるシステムボード及びI/Oユニットをパーティション1から外す(ステップS45)。例えば、システムボードS1、システムボードS2、システムボードS3及びI/OユニットU4をパーティション1から外す。なお、第2管理部1306は、管理データ格納部1307におけるパーティションテーブルに格納されているパーティション1についてのデータを、システムボード及びI/Oユニットの外しを反映するように更新する。
追加部1308は、ステップS45において外されたシステムボードのうちエラーが発生していないシステムボードを、ホットアッドによりパーティション2に追加する(ステップS47)。例えば、システムボードS2及びシステムボードS3をホットアッドによりパーティション2に追加する。
第2管理部1306は、ステップS45において外されたI/Oユニットのダンプデータ格納部128からダンプデータを取り出し(ステップS49)、図示しない他のディスク装置等に格納する。取り出されたダンプデータは、原因の解析に供される。
追加部1308は、ステップS45において外されたI/Oユニットをパーティション2にホットアッドで追加する(ステップS51)。そして処理を終了する。
以上のような処理を実行すれば、システムボードにダンプデータ格納部を設けず、I/Oユニットにダンプデータ格納部を設ける場合であっても、ダンプデータを漏れなく取得できるようになる。
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明したサーバ1の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。
また、上で説明した各テーブルの構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
なお、上で述べた例においては、管理ユニット130とシステムボードとが同じサーバの中にあるが、システムボードを搭載したサーバとは別のサーバに管理ユニット130を設けてもよい。
以上述べた本発明の実施の形態をまとめると、以下のようになる。
本実施の形態の第1の態様に係る情報処理装置は、(A)第1のパーティションに含まれる複数のシステムボードのうちいずれかのシステムボードに異常が発生した場合、第1のパーティションに含まれていない予備のシステムボードを含む第2のパーティションを生成する第1処理部と、(B)第1のパーティションに含まれる複数のシステムボードの各々についてメモリダンプを実行し、ダンプデータを取得する第2処理部と、(C)第2処理部によりメモリダンプが実行された後に、第1のパーティションに含まれるシステムボードのうち異常が発生したシステムボード以外のシステムボードを第2のパーティションに追加する第3処理部とを有する情報処理装置。
このようにすれば、パーティションに複数のシステムボードが含まれる場合であっても、メモリ上のデータの一部を取得し損ねるようなことはなく、ダンプデータを漏れなく取得できるようになる。また、第1のパーティションに異常が発生したことに伴い第2のパーティションによる処理に移行したとしても、処理能力が大幅に低下することを抑制でき、また、処理の停止時間を最小限にすることができる。すなわち、業務処理への影響を軽減できるようになる。
また、上で述べた第1のパーティションには、データの入力及び出力を行うためのモジュールがさらに含まれてもよい。そして、(D)データの入力及び出力を行うためのモジュールを、ホットスワップによって第1のパーティションから外す第4処理部をさらに有し、上で述べた第1処理部は、(a1)第4処理部によって第1のパーティションから外されたモジュールと予備のシステムボードとを含む第2のパーティションを生成してもよい。このようにすれば、第1のパーティションの電源がオンである状態においてモジュールの移設を行えるので、第2のパーティションのモジュールが不十分である時間を短縮できるようになる。
また、上で述べた第3処理部は、(c1)第1のパーティションに含まれるシステムボードのうち異常が発生したシステムボード以外のシステムボードを、ホットスワップによって第2のパーティションに追加してもよい。このようにすれば、第2のパーティションの電源がオンである状態においてシステムボードの移設を行えるようになる。
また、(E)第1のパーティションの電源を切ると共に、第1のパーティションに含まれるシステムボードのうち異常が発生したシステムボード以外のシステムボードを、第1のパーティションから外す第5処理部をさらに有してもよい。このようにすれば、第1のパーティションからシステムボードを外す際に問題が発生することを防止できるようになる。
また、上で述べた第2処理部は、(b1)取得されたダンプデータを、複数のシステムボードのうちのいずれかのシステムボードが有する記憶部又はデータの入力及び出力を行うためのモジュールが有する記憶部に格納してもよい。このようにすれば、取得されたダンプデータを異常の解析等に利用できるようになる。
本実施の形態の第2の態様に係るメモリダンプ方法は、(F)第1のパーティションに含まれる複数のシステムボードのうちいずれかのシステムボードに異常が発生した場合、第1のパーティションに含まれていない予備のシステムボードを含む第2のパーティションを生成し、(G)第1のパーティションに含まれる複数のシステムボードの各々についてメモリダンプを実行し、ダンプデータを取得し、(H)メモリダンプが実行された後に、第1のパーティションに含まれるシステムボードのうち異常が発生したシステムボード以外のシステムボードを第2のパーティションに追加する処理を含む。
なお、上記方法による処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
第1のパーティションに含まれる複数のシステムボードのうちいずれかのシステムボードに異常が発生した場合、前記第1のパーティションに含まれていない予備のシステムボードを含む第2のパーティションを生成する第1処理部と、
前記第1のパーティションに含まれる複数のシステムボードの各々についてメモリダンプを実行し、ダンプデータを取得する第2処理部と、
前記第2処理部によりメモリダンプが実行された後に、前記第1のパーティションに含まれるシステムボードのうち前記異常が発生したシステムボード以外のシステムボードを前記第2のパーティションに追加する第3処理部と、
を有する情報処理装置。
(付記2)
前記第1のパーティションには、データの入力及び出力を行うためのモジュールがさらに含まれ、
前記データの入力及び出力を行うためのモジュールを、ホットスワップによって前記第1のパーティションから外す第4処理部
をさらに有し、
前記第1処理部は、
前記第4処理部によって前記第1のパーティションから外されたモジュールと前記予備のシステムボードとを含む第2のパーティションを生成する
ことを特徴とする付記1記載の情報処理装置。
(付記3)
前記第3処理部は、
前記第1のパーティションに含まれるシステムボードのうち前記異常が発生したシステムボード以外のシステムボードを、ホットスワップによって前記第2のパーティションに追加する
ことを特徴とする付記1又は2記載の情報処理装置。
(付記4)
前記第1のパーティションの電源を切ると共に、前記第1のパーティションに含まれるシステムボードのうち前記異常が発生したシステムボード以外のシステムボードを、前記第1のパーティションから外す第5処理部
をさらに有する付記1乃至3のいずれか1つ記載の情報処理装置。
(付記5)
前記第2処理部は、
取得された前記ダンプデータを、前記複数のシステムボードのうちのいずれかのシステムボードが有する記憶部又は前記データの入力及び出力を行うためのモジュールが有する記憶部に格納する
ことを特徴とする付記2記載の情報処理装置。
(付記6)
第1のパーティションに含まれる複数のシステムボードのうちいずれかのシステムボードに異常が発生した場合、前記第1のパーティションに含まれていない予備のシステムボードを含む第2のパーティションを生成し、
前記第1のパーティションに含まれる複数のシステムボードの各々についてメモリダンプを実行し、ダンプデータを取得し、
前記メモリダンプが実行された後に、前記第1のパーティションに含まれるシステムボードのうち前記異常が発生したシステムボード以外のシステムボードを前記第2のパーティションに追加する、
処理をコンピュータに実行させるためのメモリダンププログラム。
(付記7)
第1のパーティションに含まれる複数のシステムボードのうちいずれかのシステムボードに異常が発生した場合、前記第1のパーティションに含まれていない予備のシステムボードを含む第2のパーティションを生成し、
前記第1のパーティションに含まれる複数のシステムボードの各々についてメモリダンプを実行し、ダンプデータを取得し、
前記メモリダンプが実行された後に、前記第1のパーティションに含まれるシステムボードのうち前記異常が発生したシステムボード以外のシステムボードを前記第2のパーティションに追加する、
処理をコンピュータが実行するメモリダンプ方法。
1 サーバ S1,S2,S3,S4 システムボード
100,128 ダンプデータ格納部 101 メモリダンププログラム
102 DIMM 103 CPU
104 I/Oコントローラ 110 I/Oスイッチ
U1,U2,U3,U4 I/Oユニット
120 データ格納部 1200 OS
121,122,123,124 スロット 125 SASカード
126 LANカード 130 管理ユニット
1301 異常検出部 1302 コンソール制御部
1303 メモリダンプ制御部 1304 パーティション管理部
1305 第1管理部 1306 第2管理部
1307 管理データ格納部 1308追加部
1309 除去部 3 ネットワーク
5 管理端末

Claims (5)

  1. 第1のパーティションに含まれる複数のシステムボードのうちいずれかのシステムボードに異常が発生した場合、前記第1のパーティションに含まれていない予備のシステムボードを含み且つ前記第1のパーティションの処理を代わりに実行する第2のパーティションを生成する第1処理部と、
    前記第1のパーティションに含まれる複数のシステムボードの各々についてメモリダンプを実行し、ダンプデータを取得する第2処理部と、
    前記第2処理部により前記メモリダンプが実行された後に、前記第1のパーティションに含まれる複数のシステムボードのうち前記異常が発生したシステムボード以外のシステムボードを前記第2のパーティションに追加する第3処理部と、
    を有する情報処理装置。
  2. 前記第1のパーティションには、データの入力及び出力を行うためのモジュールがさらに含まれ、
    前記データの入力及び出力を行うためのモジュールを、ホットスワップによって前記第1のパーティションから外す第4処理部
    をさらに有し、
    前記第1処理部は、
    前記第4処理部によって前記第1のパーティションから外されたモジュールと前記予備のシステムボードとを含み且つ前記第1のパーティションの処理を代わりに実行する前記第2のパーティションを生成する
    ことを特徴とする請求項1記載の情報処理装置。
  3. 前記第3処理部は、
    前記第1のパーティションに含まれる複数のシステムボードのうち前記異常が発生したシステムボード以外のシステムボードを、ホットスワップによって前記第2のパーティションに追加する
    ことを特徴とする請求項1又は2記載の情報処理装置。
  4. 第1のパーティションに含まれる複数のシステムボードのうちいずれかのシステムボードに異常が発生した場合、前記第1のパーティションに含まれていない予備のシステムボードを含み且つ前記第1のパーティションの処理を代わりに実行する第2のパーティションを生成し、
    前記第1のパーティションに含まれる複数のシステムボードの各々についてメモリダンプを実行し、ダンプデータを取得し、
    前記メモリダンプが実行された後に、前記第1のパーティションに含まれる複数のシステムボードのうち前記異常が発生したシステムボード以外のシステムボードを前記第2のパーティションに追加する、
    処理をコンピュータに実行させるためのメモリダンププログラム。
  5. 第1のパーティションに含まれる複数のシステムボードのうちいずれかのシステムボードに異常が発生した場合、前記第1のパーティションに含まれていない予備のシステムボードを含み且つ前記第1のパーティションの処理を代わりに実行する第2のパーティションを生成し、
    前記第1のパーティションに含まれる複数のシステムボードの各々についてメモリダンプを実行し、ダンプデータを取得し、
    前記メモリダンプが実行された後に、前記第1のパーティションに含まれる複数のシステムボードのうち前記異常が発生したシステムボード以外のシステムボードを前記第2のパーティションに追加する、
    処理をコンピュータが実行するメモリダンプ方法。
JP2013156069A 2013-07-26 2013-07-26 メモリダンプ方法及びプログラム、並びに、情報処理装置 Expired - Fee Related JP6175958B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013156069A JP6175958B2 (ja) 2013-07-26 2013-07-26 メモリダンプ方法及びプログラム、並びに、情報処理装置
US14/313,272 US9436536B2 (en) 2013-07-26 2014-06-24 Memory dump method, information processing apparatus, and non-transitory computer-readable storage medium
EP14174720.4A EP2829974A3 (en) 2013-07-26 2014-06-27 Memory dump method, information processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013156069A JP6175958B2 (ja) 2013-07-26 2013-07-26 メモリダンプ方法及びプログラム、並びに、情報処理装置

Publications (2)

Publication Number Publication Date
JP2015026291A JP2015026291A (ja) 2015-02-05
JP6175958B2 true JP6175958B2 (ja) 2017-08-09

Family

ID=51062686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013156069A Expired - Fee Related JP6175958B2 (ja) 2013-07-26 2013-07-26 メモリダンプ方法及びプログラム、並びに、情報処理装置

Country Status (3)

Country Link
US (1) US9436536B2 (ja)
EP (1) EP2829974A3 (ja)
JP (1) JP6175958B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10251027B2 (en) * 2016-12-15 2019-04-02 Wisconsin Alumni Ressarch Foundation Navigation system tracking high-efficiency indoor lighting fixtures
JP6885093B2 (ja) * 2017-02-16 2021-06-09 富士通株式会社 伝送路監視装置及び伝送路の監視方法
CN113641686B (zh) * 2021-10-19 2022-02-15 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、存储介质及程序产品

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0472861B1 (en) * 1990-08-31 1995-09-20 International Business Machines Corporation Method and apparatus for cross-partition control in a partitioned process environment
US6199179B1 (en) * 1998-06-10 2001-03-06 Compaq Computer Corporation Method and apparatus for failure recovery in a multi-processor computer system
JP3794151B2 (ja) * 1998-02-16 2006-07-05 株式会社日立製作所 クロスバースイッチを有する情報処理装置およびクロスバースイッチ制御方法
JP2000305815A (ja) 1999-04-15 2000-11-02 Nec Corp 二重化情報処理装置、メモリダンプ方法、およびコンピュータ読み取り可能な記録媒体
US6684343B1 (en) * 2000-04-29 2004-01-27 Hewlett-Packard Development Company, Lp. Managing operations of a computer system having a plurality of partitions
US6574748B1 (en) * 2000-06-16 2003-06-03 Bull Hn Information Systems Inc. Fast relief swapping of processors in a data processing system
JP4465824B2 (ja) * 2000-07-06 2010-05-26 富士電機システムズ株式会社 コントローラシステム
JP3891004B2 (ja) * 2002-02-26 2007-03-07 日本電気株式会社 情報処理システム及び該システムの制御方法並びにプログラム
US7275180B2 (en) * 2003-04-17 2007-09-25 International Business Machines Corporation Transparent replacement of a failing processor
US20080294839A1 (en) 2004-03-29 2008-11-27 Bell Michael I System and method for dumping memory in computer systems
US20050240806A1 (en) 2004-03-30 2005-10-27 Hewlett-Packard Development Company, L.P. Diagnostic memory dump method in a redundant processor
JP4320314B2 (ja) 2005-08-05 2009-08-26 株式会社日立製作所 計算機システム、同期化処理方法、およびプログラム
JP4322240B2 (ja) 2005-09-15 2009-08-26 株式会社日立製作所 再起動方法、システム及びプログラム
JP4645837B2 (ja) * 2005-10-31 2011-03-09 日本電気株式会社 メモリダンプ方法、コンピュータシステム、およびプログラム
US7657776B2 (en) * 2006-09-20 2010-02-02 Hewlett-Packard Development Company, L.P. Containing machine check events in a virtual partition
JP5068056B2 (ja) * 2006-10-11 2012-11-07 株式会社日立製作所 障害回復方法、計算機システム及び管理サーバ
US7831857B2 (en) * 2006-10-31 2010-11-09 Hewlett-Packard Development Company, L.P. Method and system for recovering from operating system crash or failure
US7877358B2 (en) * 2006-11-21 2011-01-25 Microsoft Corporation Replacing system hardware
JP4923990B2 (ja) * 2006-12-04 2012-04-25 株式会社日立製作所 フェイルオーバ方法、およびその計算機システム。
JP5251165B2 (ja) * 2008-02-27 2013-07-31 日本電気株式会社 情報処理システム、リソース診断方法、および診断管理プログラム
EP2360594B1 (en) * 2008-11-27 2014-12-17 Fujitsu Limited Information processing apparatus, processing unit switching method, and processing unit switching program
WO2011004441A1 (ja) * 2009-07-10 2011-01-13 富士通株式会社 メモリダンプ機能を有するサーバおよびメモリダンプ取得方法
JP5515766B2 (ja) * 2010-01-20 2014-06-11 富士通株式会社 情報処理装置、情報処理装置のハードウェア設定方法及びそのプログラム
US8677374B2 (en) * 2011-09-14 2014-03-18 International Business Machines Corporation Resource management in a virtualized environment

Also Published As

Publication number Publication date
EP2829974A3 (en) 2015-12-23
JP2015026291A (ja) 2015-02-05
EP2829974A2 (en) 2015-01-28
US20150033083A1 (en) 2015-01-29
US9436536B2 (en) 2016-09-06

Similar Documents

Publication Publication Date Title
US9575785B2 (en) Cluster system and method for providing service availability in cluster system
US7865782B2 (en) I/O device fault processing method for use in virtual computer system
JP6288275B2 (ja) 仮想化基盤管理装置、仮想化基盤管理システム、仮想化基盤管理方法、及び、仮想化基盤管理プログラム
US20130219224A1 (en) Job continuation management apparatus, job continuation management method and job continuation management program
JP7002358B2 (ja) 情報処理システム、情報処理装置、情報処理装置のbios更新方法、及び情報処理装置のbios更新プログラム
JP6175958B2 (ja) メモリダンプ方法及びプログラム、並びに、情報処理装置
JP5352027B2 (ja) 計算機システムの管理方法及び管理装置
JP2007080012A (ja) 再起動方法、システム及びプログラム
JP5949540B2 (ja) 情報処理装置、及び記憶情報解析方法
JP6079777B2 (ja) 管理装置、データ取得方法およびデータ取得プログラム
JP2008097156A (ja) 記憶制御装置、記憶制御方法および記憶制御プログラム
JP6160688B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
US20150281000A1 (en) Management system and device
JP2017041110A (ja) マルチコンピュータシステム,管理装置および管理プログラム
JP6429813B2 (ja) 計算機システム
JP5921306B2 (ja) 情報処理装置および情報処理方法およびプログラム
JP2007148536A (ja) Ram診断装置および方法
JP2011018187A (ja) 試験方法、試験プログラム、試験装置、及び試験システム
JP5832408B2 (ja) 仮想計算機システム及びその制御方法
JP2009266117A (ja) Usbメモリ装置、及び、それを用いたプラグインアプリケーションシステム
JP5439736B2 (ja) コンピュータ管理システム、コンピュータシステムの管理方法、及びコンピュータシステムの管理プログラム
JP2017146695A (ja) 通信設定方法、通信設定プログラム、情報処理装置および情報処理システム
JP2017151511A (ja) 情報処理装置、動作ログ取得方法および動作ログ取得プログラム
JP6981098B2 (ja) 復旧制御装置、復旧制御システム、復旧制御方法、及び、復旧制御プログラム
JP2021144567A (ja) 制御装置、制御システムおよびデータ復旧方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170626

R150 Certificate of patent or registration of utility model

Ref document number: 6175958

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees