JP2008262438A - ディスクアレイ装置およびトランスポート制御用プロセッサコアの障害情報データ採取方法 - Google Patents

ディスクアレイ装置およびトランスポート制御用プロセッサコアの障害情報データ採取方法 Download PDF

Info

Publication number
JP2008262438A
JP2008262438A JP2007105489A JP2007105489A JP2008262438A JP 2008262438 A JP2008262438 A JP 2008262438A JP 2007105489 A JP2007105489 A JP 2007105489A JP 2007105489 A JP2007105489 A JP 2007105489A JP 2008262438 A JP2008262438 A JP 2008262438A
Authority
JP
Japan
Prior art keywords
processor core
transport control
core
memory
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007105489A
Other languages
English (en)
Other versions
JP4945774B2 (ja
Inventor
Masaru Kawada
大 川田
Osamu Kimura
修 木村
Koji Yamaguchi
浩二 山口
Kazuo Nakajima
一雄 中嶋
Chikashi Maeda
親志 前田
Yuji Noda
祐司 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007105489A priority Critical patent/JP4945774B2/ja
Publication of JP2008262438A publication Critical patent/JP2008262438A/ja
Application granted granted Critical
Publication of JP4945774B2 publication Critical patent/JP4945774B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】マルチコアプロセッサを備えたディスクアレイ装置において,トランスポート制御用のプロセッサコアの障害発生時に,障害情報データを採取する技術を提供する。
【解決手段】トランスポートコア112の障害発生が検出されると,障害情報格納ルーチン150は,トランスポートファームウェア障害情報をメモリ120に退避し,その退避領域をメモリ管理テーブル122で格納対象領域,不揮発対象領域に設定する。また,トランスポートファームウェア障害判定フラグ121を“1”に設定し,CM100を再起動する。再起動時に,トランスポートファームウェア障害判定フラグ121が“1”であれば,パワーオンルーチン160は障害情報格納ルーチン150に処理を渡す。障害情報格納ルーチン150は,メモリ管理テーブル122で格納対象領域に設定されたメモリ120上の領域のデータを障害情報データとしてシステムディスク200に格納する。
【選択図】図1

Description

本発明は,ディスクアレイ装置に搭載されたプロセッサの障害発生時にそのメモリダンプデータを採取する技術に関するものであり,特にマルチコアプロセッサにおいて,その1つのプロセッサコアがトランスポート制御用のプロセッサコアであり,そのトランスポート制御用のプロセッサコアに障害が発生した場合に,そのトランスポート制御用プロセッサコアの障害情報を含むメモリダンプデータを採取することが可能となるディスクアレイ装置およびトランスポート制御用プロセッサコアの障害情報データ採取方法に関するものである。
近年,情報インフラが発達したことにより,取り扱うデータ量が日々増加し続けている情報化社会において,高信頼,高可用性に富んだ情報システムを実現することが要求されている。このような情報システムを実現するため,常時大容量のデータアクセス,データバックアップ可能なディスクアレイ装置が,急速に普及している。
急速な普及にともない,著しく性能向上したディスクアレイ装置には,多数の装置コンポーネントが搭載されており,それらのコンポーネントは複雑に関連している。そのため,何らかの問題が発生した場合に,その原因箇所を特定することや影響範囲を認識することなどに,多大な資源や時間,労力がかかるようになってきている。そのため,限られた資源や時間の中で,問題発生原因に関する有用な障害情報データ(CPUメモリのメモリダンプデータ等)を採取することが必要とされる。
図7は,故障発生時の障害情報データの採取を説明するための図である。ディスクアレイ装置50において,CM(Controller Module )500(a,b)は,ホストI/O制御や装置保守制御などストレージシステム全体を管理するコンポーネントである。CPU510(a,b)は,CM500(a,b)を制御するプロセッサである。エキスパンダ(Expander)700(a,b)は,ディスク(Disk)600(a,b)が搭載されるDE(Drive Enclosure )の監視・制御を行うコンポーネントである。図示されたディスク600(a,b)のうち,ディスク600bは,あらかじめシステムディスクとして設定されているものとする。
なお,図7のディスクアレイ装置50では,説明を簡単にするために,CM500,ディスク600等のコンポーネントが2つずつしか記載されていないが,実際には様々なコンポーネントが冗長化されて複雑に関連している。
例えば,CM500bのCPU510bにおいて障害が発生すると,CPU510bは,通常状態から障害情報格納状態に遷移する。障害情報格納状態では,障害情報格納機能によって,CPU510bのメモリ520上のメモリダンプ対象データ525を,問題発生原因に関する有用な障害情報データ610として,自動的にシステムディスク(ディスク600b)に格納する。
障害要因がファーム要因(ソフトウェア要因)であれば,障害情報データ610の格納後に,障害が発生したCM500bをリセットし,自動組込みする制御が働く。この制御により,障害が発生したCM500bは復旧し,動作可能な通常状態となる。
システムディスク(ディスク600b)に格納された障害情報データ610は,ディスクアレイ装置50に接続された保守用のパソコン(保守PC800)などで採取することができる。例えば,ディスクアレイ装置50が設置された現場において,CM500bに障害が発生した場合,現場のCE(Customer Engineer )やSE(System Engineer )は,ディスクアレイ装置50に保守PC800を接続し,保守用のCGI画面を介して,ディスクアレイ装置50のシステムディスク(ディスク600b)に格納された障害情報データ610を,保守PC800のディスク801に採取する。採取された障害情報データ610は,開発元に発信され,障害解析が行われる。
なお,障害情報データの採取に関する技術が記載された文献としては,例えば特許文献1,特許文献2などがある。
特許文献1には,障害時における障害解析を迅速に行うために,オペレーションシステムとは切り離されたモジュールであるメモリダンプルーチンを処理装置上に用意し,ダンプスイッチが押下された場合には,メモリ上にデータを残したまま処理装置を再起動してダンプルーチンを実行し,メモリダンプを採取する技術が記載されている。
特許文献2には,障害発生時のコンピュータシステムの停止時間を短縮するために,ダンプ採取の対象となる被ダンプ採取プロセッサのダンプデータを,退避プロセッサの記憶装置上に一時退避し,ダンプデータの出力を待たずに被ダンプ採取プロセッサを再起動し,退避プロセッサの記憶装置上のダンプデータを外部記憶装置に出力する技術が記載されている。
特開2000−137630号公報 特開2001−34508号公報
図8は,本発明の課題を説明する図である。近年,1つのパッケージに複数のプロセッサコアが集積されたマルチコアプロセッサが普及してきている。マルチコアプロセッサにおいては,それぞれのプロセッサコアは,他のプロセッサコアに影響されることなく,独立に機能する。図8において,CM500bのCPU510bは,2つのプロセッサコア(アプリケーションコア(Application Core)511,トランスポートコア(Transport Core)512)を備えるデュアルコアプロセッサであるものとする。
CPU510bにおいて,アプリケーションコア511は,ホストI/O制御に関するRAID制御やコピー制御機能,装置保守制御などストレージシステム全体を管理するアプリケーションファームウェア(Application Firmware)が載せられたプロセッサコアである。トランスポートコア512は,ホストインタフェースやディスクインタフェースにおけるSAS/SATAや,FC(Fibre Channel )のトランスポート層プロトコルを司るトランスポートファームウェア(Transport Firmware)が載せられたプロセッサコアである。
アプリケーションコア511で障害が発生した場合には,図7で説明した場合と同様に,アプリケーションコア511が,通常状態から障害情報格納状態に遷移し,障害情報格納機能によって,メモリダンプ対象データ525を障害情報データ610としてシステムディスク(ディスク600b)に格納する。このときのデータ転送は,トランスポートコア512が制御する。
トランスポートコア512で障害が発生した場合には,アプリケーションコア511が通常状態から障害情報格納状態に遷移し,障害情報格納機能によって,障害が発生したトランスポートコア512からその障害情報をメモリ520に吸い出し,そのトランスポートコア512の障害情報を含むメモリダンプ対象データ525を障害情報データ610としてシステムディスク(ディスク600b)に格納しようとする。
しかし,この場合には,データ転送を制御するトランスポートコア512に障害が発生しているため,障害情報格納機能を備えたアプリケーションコア511からシステムディスク(ディスク600b)にアクセスできず,トランスポートコア512の障害情報を含むメモリダンプ対象データ525をシステムディスク(ディスク600b)に転送できない可能性が高い。
このように,マルチコアプロセッサ構成において,その1つのプロセッサコアがトランスポート制御用のプロセッサコアである場合に,そのトランスポート制御用のプロセッサコアに障害が発生すると,メモリ上のメモリダンプ対象データを障害情報格納用のシステムディスクに転送できない問題が発生する可能性がある。
なお,上記の特許文献1に記載された技術は,シングルプロセッサシングルコア構成におけるメモリダンプ採取の技術である。また,上記の特許文献2に記載された技術は,コンピュータシステムの停止時間を短縮することを目的とし,マルチプロセッサ構成において,すべてのプロセッサがシステム管理プロセッサ,ダンプデータ退避プロセッサ,障害プロセッサ,関連プロセッサになり得る構成となっており,その目的や装置構成が異なる。
すなわち,上記の特許文献1,特許文献2に記載された技術には,マルチコアプロセッサ構成における特定のトランスポート制御用のプロセッサコアに障害が発生するという概念がなく,上記の特許文献1,特許文献2に記載された技術では,上記の問題を解決することはできない。
本発明は,上記の問題点の解決を図り,マルチコアプロセッサを備えるディスクアレイ装置において,その1つのプロセッサコアがトランスポート制御用のプロセッサコアである場合に,そのトランスポート制御用のプロセッサコアで障害が発生しても,そのトランスポート制御用のプロセッサコアの障害情報を含むメモリダンプデータを,問題発生原因に関する有用な障害情報データとして自動的にシステムディスクに格納することが可能となる技術を提供することを目的とする。
本発明は,上記の課題を解決するために,マルチコアプロセッサ構成において,トランスポート制御用プロセッサコアの障害発生時に,そのトランスポート制御用プロセッサコアの障害情報をメモリ上の不揮発対象領域でありかつ格納対象領域である領域に退避し,再起動後に,トランスポート制御用プロセッサコアの障害情報が退避された領域を含むメモリ上の格納対象領域のデータを,問題発生原因に関する有用な障害情報データとして,トランスポート制御用プロセッサコアを介して自動的にシステムディスクに格納することを特徴とする。
具体的には,本発明は,1つのプロセッサコアがトランスポート制御用プロセッサコアであり,トランスポート制御用プロセッサコア以外の少なくとも1つのプロセッサコアが障害情報データ採取機能を有するプロセッサコアであるマルチコアプロセッサと,マルチコアプロセッサのメモリと,メモリから採取されたメモリダンプデータを障害情報データとして格納するシステムディスクとを備えたディスクアレイ装置であって,マルチコアプロセッサの再起動時にデータが初期化されないメモリの不揮発対象領域には,メモリを領域ごとに管理する情報であり,少なくとも不揮発対象領域か否かを示す情報と障害発生時にデータが採取される格納対象領域であるか否かを示す情報とを有するメモリ管理情報と,トランスポート制御用プロセッサコアの障害か否かを示す情報とが記憶され,障害情報データ採取機能を有するプロセッサコアは,トランスポート制御用プロセッサコアの障害発生時に,メモリの不揮発対象領域でありかつ格納対象領域である領域に,トランスポート制御用プロセッサコアの障害情報を退避する手段と,トランスポート制御用プロセッサコアの障害か否かを示す情報にトランスポート制御用プロセッサコアの障害である旨を設定し,マルチコアプロセッサを再起動する手段と,再起動時に,トランスポート制御用プロセッサコアの障害か否かを示す情報がトランスポート制御用プロセッサコアの障害である旨を示している場合に,メモリ管理情報で格納対象領域に設定されているメモリの領域に記録されたデータを採取し,トランスポート制御用プロセッサコアを介して,システムディスクに格納する手段とを備えることを特徴とする。
これにより,マルチコアプロセッサを備えるディスクアレイ装置において,その1つのプロセッサコアがトランスポート制御用のプロセッサコアである場合に,そのトランスポート制御用のプロセッサコアで障害が発生しても,そのトランスポート制御用のプロセッサコアの障害情報を含むメモリダンプデータを,問題発生原因に関する有用な障害情報データとして自動的にシステムディスクに格納することができるようになる。
また,本発明は,上記のディスクアレイ装置において,トランスポート制御用プロセッサコアの障害情報を退避する手段は,トランスポート制御用プロセッサコアの障害情報を退避するメモリ上の領域を動的に確保し,確保された領域をメモリ管理情報に不揮発対象領域かつ格納対象領域として登録し,確保された領域にトランスポート制御用プロセッサコアの障害情報を退避することを特徴とする。
これにより,メモリにあらかじめトランスポート制御用プロセッサコアの障害情報を退避する領域を設定しておく必要がないので,通常動作時にメモリ領域を有効に活用することができるようになる。
本発明により,マルチコアプロセッサを備えるディスクアレイ装置において,その1つのプロセッサコアがトランスポート制御用のプロセッサコアである場合に,そのトランスポート制御用のプロセッサコアで障害が発生しても,そのトランスポート制御用のプロセッサコアの障害情報を含むメモリダンプデータを,問題発生原因に関する有用な障害情報データとして,トランスポート制御用のプロセッサコアを介して自動的にシステムディスクに格納することが可能となる。
以下,本発明の実施の形態について,図を用いて説明する。
図1は,本発明の実施の形態によるディスクアレイ装置の構成例を示す図である。図1に示すディスクアレイ装置10は,特にCM100の1つに着目した構成となっている。ディスクアレイ装置10において,CM100およびCM100’は,ホストI/O制御や装置保守制御などストレージシステム全体を管理するコンポーネントである。CPU110は,CM100を制御するプロセッサである。エキスパンダ300は,ディスク(図示省略)が搭載されるDE(図示省略)の監視・制御を行うコンポーネントである。なお,図1のディスクアレイ装置10の例では,説明を簡単にするために,CM100等の一部のコンポーネントしか記載されていないが,実際には様々なコンポーネントが冗長化されて複雑に関連した構成となっている。
システムディスク200は,障害発生時に採取された障害情報データを,ディスクアレイ装置10内部で格納するディスクである。システムディスク200として専用のディスクが用意されていてもよいし,ユーザホストからのデータが格納されるディスクの一部領域があらかじめシステムディスク200領域として設定されていてもよい。
CM100において,CPU110は,アプリケーションコア111とトランスポートコア112の2つのプロセッサコアを持つデュアルコアプロセッサである。アプリケーションコア111は,ホストI/O制御に関するRAID制御やコピー制御機能,装置保守制御などストレージシステム全体を管理するアプリケーションファームウェア130が載せられたプロセッサコアである。トランスポートコア112は,ホストインタフェースやディスクインタフェースにおけるSAS/SATAや,FCのトランスポート層プロトコルを司るトランスポートファームウェア170が載せられたプロセッサコアである。
アプリケーションファームウェア130は,通常ルーチン140,障害情報格納ルーチン150,パワーオンルーチン160を持つ。通常ルーチン140は,CM100の通常動作時に実行されているプログラムである。障害情報格納ルーチン150は,CPU110の障害発生時に実行されるプログラムである。パワーオンルーチン160は,CM100の起動時や再起動時に実行されるプログラムである。
CPU110のメモリ120には,トランスポートファームウェア障害判定フラグ121と,メモリ管理テーブル122が記憶されている。トランスポートファームウェア障害判定フラグ121は,CM100の起動時に,その起動がトランスポートファームウェアの障害発生による再起動か否かを示すフラグである。ここでは,“1”がトランスポートファームウェアの障害発生による再起動を示し,“0”がそれ以外を示す。メモリ管理テーブル122は,メモリ120の管理情報が記録されたテーブルである。
図2は,メモリ管理テーブルの例を示す図である。メモリ管理テーブル122は,メモリ120を領域ごとに管理するためのテーブルであり,CM100の起動時に,メモリディスクリプタをもとに構築される。メモリディスクリプタでは,メモリ120上に割り当てる必要がある領域のサイズ等が指示されている。
メモリ管理テーブル122は,テーブル番号,プールネーム(Pool name ),アロケートアドレス(Allocate address),アロケートサイズ(Allocate size ),格納フラグ,不揮発フラグ等の情報を持つ。
テーブル番号は,メモリ管理テーブル122の各レコードに割り当てられた識別番号である。プールネームは,そのメモリ領域の名称を示す。アロケートアドレスは,そのメモリ領域のアドレスを示す。アロケートサイズは,そのメモリ領域のサイズを示す。
格納フラグは,そのメモリ領域がシステムディスク200への格納対象領域であるか否かを示す情報である。ここでは,“1”がシステムディスク200への格納対象領域であることを示し,“0”がシステムディスク200への格納対象領域でないことを示す。システムディスク200への格納対象領域に指定されたメモリ領域のデータは,障害発生時に,障害情報データとしてシステムディスク200に転送される。
不揮発フラグは,そのメモリ領域が不揮発対象領域であるか否かを示す情報である。ここでは,“1”が不揮発対象領域であることを示し,“0”が不揮発対象領域でないことを示す。不揮発対象領域に指定されたメモリ領域は,トランスポートファームウェアの障害発生によるCM100の再起動時には初期化されず,データが保持される。逆に,不揮発対象領域に指定されていないメモリ領域は,トランスポートファームウェアの障害発生によるCM100の再起動時でも,初期化される。
図2に示すメモリ管理テーブルにおいて,プールネーム“SYS−MEM−DESC”のメモリ領域が,メモリ管理テーブル122の領域である。図2に示すように,プールネーム“SYS−MEM−DESC”の不揮発フラグは“1”であるので,トランスポートファームウェアの障害発生によるCM100の再起動時に初期化されない。すなわち,トランスポートファームウェアの障害発生によるCM100の再起動時には,メモリディスクリプタから新たにメモリ管理テーブル122を構築し直さず,再起動前のメモリ管理テーブル122がそのまま残ることになる。なお,特に図2には示されていないが,トランスポートファームウェア障害判定フラグ121が記録された領域も,不揮発対象領域に指定される。
図3は,アプリケーションファームウェアの各ルーチンの機能構成例を示す図である。障害情報格納ルーチン150は,障害情報格納状態通知処理部151,トランスポートファームウェア障害情報退避処理部152,CM再起動処理部153,障害情報データ格納処理部154を備える。
障害情報格納状態通知処理部151は,他のCM100’やエキスパンダ300に,自CM100のアプリケーションコア111が通常状態から障害情報格納状態に遷移したことを通知する処理を行う。トランスポートファームウェア障害情報退避処理部152は,トランスポートファームウェア170に障害が発生したときに,その障害情報をメモリ120に退避する処理を行う。CM再起動処理部153は,CM100を再起動するための処理を行う。障害情報データ格納処理部154は,メモリ120の格納対象領域のデータを,障害情報データとしてシステムディスク200に格納する処理を行う。
パワーオンルーチン160は,トランスポートファームウェア障害判定処理部161を備える。トランスポートファームウェア障害判定処理部161は,CM100の起動が,トランスポートファームウェア170の障害発生による再起動か否かを判定する処理を行う。
ここで,図1から図3を用いて,本実施の形態によるトランスポートファームウェアの障害発生時の一連の動作の例を説明する。
トランスポートコア112におけるトランスポートファームウェア170の障害発生を検出したアプリケーションコア111は,通常状態から障害情報格納状態に遷移する。すなわち,アプリケーションコア111は,通常ルーチン140の処理を停止し,障害情報格納ルーチン150を起動する。障害情報格納ルーチン150の障害情報格納状態通知処理部151は,自CM100のアプリケーションコア111が障害情報格納状態となったことを,他のCM100’やエキスパンダ300等に通知する。
CM100のアプリケーションコア111が障害情報格納状態となったことを他のCM100’やエキスパンダ300等に通知する理由は,他のCM100’やエキスパンダ300では,CM100からの応答がなくなると,CM100にハードウェア要因による障害が発生した可能性があると判断し,その危険性を回避するために応答がないCM100の切り離しを行ってしまうからである。ソフトウェア要因の障害が発生したCM100が障害情報格納状態になれば,その障害情報データの格納中に,他のCM100’やエキスパンダ300から切り離されることはない。
障害が発生したCM100のアプリケーションコア111は,インターナルバスによる制御によって,障害が発生したトランスポートコア112からトランスポートファームウェア障害情報を採取し,メモリ120上に退避する。すなわち,障害情報格納ルーチン150のトランスポートファームウェア障害情報退避処理部152は,メモリ120上の退避領域を指定する情報を含むトランスポートファームウェア障害情報の採取指示を,トランスポートコア112に送る。
図2に示すメモリ管理テーブル122において,プールネーム“TFW−INFO”が,トランスポートファームウェア障害情報の退避領域を示している。図2に示すように,プールネーム“TFW−INFO”の不揮発フラグは“1”であるので,トランスポートファームウェア障害情報の退避領域は,トランスポートファームウェアの障害発生によるCM100の再起動時に初期化されない。また,プールネーム“TFW−INFO”の格納フラグは“1”であるので,そのメモリ領域に退避されたトランスポートファームウェア障害情報は,障害情報データとしてシステムディスク200に格納される。
メモリ120上のトランスポートファームウェア障害情報を退避する領域は,あらかじめ設定されていてもよいし,動的に確保するようにしてもよい。トランスポートファームウェア障害情報を退避する領域をあらかじめ設定しておく場合には,メモリディスクリプタで指示しておけばよい。
トランスポートファームウェア障害情報を退避する領域を動的に確保する場合には,障害情報格納ルーチン150のトランスポートファームウェア障害情報退避処理部152が,メモリ管理テーブル122を参照し,ファストブート(Fastboot)等の制御に影響を及ぼさず,システムディスク200への格納対象領域になっていない(格納フラグが“0”)メモリ120上の領域を確保し,トランスポートファームウェア障害情報を退避する領域とする。このとき,メモリ管理テーブル122にトランスポートファームウェア障害情報を退避する領域のレコードを生成し,その格納フラグ,不揮発フラグをともに“1”に設定する。
障害情報格納ルーチン150のCM再起動処理部153は,メモリ120上の不揮発対象領域のトランスポートファームウェア障害判定フラグ121を“1”に設定し,他のCM100’やエキスパンダ300に自CM100のリセットを依頼する。リセットの依頼を受けた他のCM100’やエキスパンダ300は,リセットの依頼を行った障害発生CM100をリセットする。
リセットを受けた障害発生CM100では,アプリケーションコア111,トランスポートコア112がそれぞれ再起動する。このとき,アプリケーションコア111は,ファストブート起動を行う。ファストブート起動により,メモリ管理テーブル122で不揮発対象領域(不揮発フラグが“1”)に指定されたメモリ120上の領域のデータが,初期化されずに残された状態でCM100を起動することができる。
パワーオンルーチン160のトランスポートファームウェア障害判定処理部161は,問題発生原因に関する有用な障害情報が触られない起動の早い段階で,トランスポートファームウェア障害判定フラグ121を確認し,トランスポートファームウェア障害判定フラグ121が“1”である場合には,それを“0”にした後,障害情報格納ルーチン150をトランスポートファームウェア障害の旨で呼び出す。なお,トランスポートファームウェア障害判定フラグが“0”であった場合には,通常のパワーオン処理の後,通常ルーチン140を呼び出す。
トランスポートコア112がリセットされ,動作可能な状態となっているため,アプリケーションコア111は,システムディスク200にアクセスすることができる。障害情報格納ルーチン150の障害情報データ格納処理部154は,トランスポートファームウェア障害によるCM100の再起動を確認すると,メモリ管理テーブル122を参照し,格納フラグが“1”であるメモリ領域に保持されているメモリ120上のデータを,障害情報データとしてシステムディスク200に格納する。このときシステムディスク200に格納されるデータには,トランスポートファームウェア障害情報が含まれている。
なお,障害がアプリケーションファームウェアの通常ルーチン140で発生した場合には,障害情報格納ルーチン150において,トランスポートファームウェア障害情報の退避や,CM100の再起動を行わずに,障害情報データ格納処理部154が,メモリ管理テーブル122で格納フラグが“1”であるメモリ領域に保持されているメモリ120上のデータを,障害情報データとしてシステムディスク200に格納する。
以下,図4〜図6のフローチャートを用いて,本実施の形態におけるトランスポートファーム障害発生時の一連の処理の流れを説明する。
図4は,アプリケーションコアによるトランスポートファームウェア障害発生時における障害情報格納処理フローチャート(1)である。図4のフローチャートに示す処理は,障害情報データのシステムディスク200への格納のための準備段階の処理である。
アプリケーションコア111は,トランスポートファームウェア170の障害発生を検出すると(ステップS10),それまでの通常状態から障害情報格納状態に遷移する(ステップS11)。このとき,自らが障害情報格納状態であることを,他のCM100’やエキスパンダ300等に通知する(ステップS12)。
メモリ管理テーブル122を参照し,他の制御に影響がなく,格納フラグが“0”であるメモリ120上の領域を,トランスポートファームウェア障害情報退避領域として確保し(ステップS13),確保された領域を,格納フラグ“1”,不揮発フラグ“1”でメモリ管理テーブル122に登録する(ステップS14)。トランスポートファームウェア障害情報を,トランスポートコア112からトランスポートファームウェア障害情報退避領域に退避する(ステップS15)。
トランスポートファームウェア障害判定フラグ121を“1”に設定し(ステップS16),自CM100をファストブートで再起動する(ステップS17)。
図5は,アプリケーションコアによるトランスポートファームウェア障害発生時における障害情報格納処理フローチャート(2)である。図5のフローチャートに示す処理は,CM100再起動段階の処理である。実際には,さまざまな初期化処理が行われるが,ここでは,トランスポートファームウェア障害判定処理についてのみ説明する。
アプリケーションコア111は,ファストブート起動が行われると,初期化処理の比較的早い段階で,トランスポートファームウェア障害判定フラグ121を確認する(ステップS20)。トランスポートファームウェア障害判定フラグ121が“1”でなければ(ステップS21),通常通りの初期化処理を行い,通常ルーチン140に移る。トランスポートファームウェア障害判定フラグ121が“1”であれば(ステップS21),トランスポートファームウェア障害判定フラグ121を“0”に設定し(ステップS22),その他必要な初期化処理を行い,障害情報格納ルーチン150に移る。
図6は,アプリケーションコアによるトランスポートファームウェア障害発生時における障害情報格納処理フローチャート(3)である。図6のフローチャートに示す処理は,トランスポートファームウェア障害情報を含む障害情報データのシステムディスク200への格納段階の処理である。
アプリケーションコア111は,CM100再起動後に障害情報格納ルーチン150の動作に移ると,メモリ管理テーブル122を確認し(ステップS30),メモリ120上の格納フラグが“1”に設定されているメモリ領域のデータを,システムディスク200に格納する(ステップS31)。
以上,本発明の実施の形態について説明したが,本発明はこれに限るものではない。例えば,本実施の形態では,1つのプロセッサコアがトランスポート制御用のプロセッサコアであるデュアルコアプロセッサ構成について説明したが,1つのプロセッサコアがトランスポート制御用のプロセッサコアである3つ以上のプロセッサコアを持つマルチコアプロセッサ構成であってもよい。
本発明の実施の形態によるディスクアレイ装置の構成例を示す図である。 メモリ管理テーブルの例を示す図である。 アプリケーションファームウェアの各ルーチンの機能構成例を示す図である。 アプリケーションコアによるトランスポートファームウェア障害発生時における障害情報格納処理フローチャート(1)である。 アプリケーションコアによるトランスポートファームウェア障害発生時における障害情報格納処理フローチャート(2)である。 アプリケーションコアによるトランスポートファームウェア障害発生時における障害情報格納処理フローチャート(3)である。 故障発生時の障害情報データの採取を説明するための図である。 本発明の課題を説明する図である。
符号の説明
10 ディスクアレイ装置
100,100’ CM
110 CPU
111 アプリケーションコア
112 トランスポートコア
120 メモリ
121 トランスポートファームウェア障害判定フラグ
122 メモリ管理テーブル
130 アプリケーションファームウェア
140 通常ルーチン
150 障害情報格納ルーチン
151 障害情報格納状態通知処理部
152 トランスポートファームウェア障害情報退避処理部
153 CM再起動処理部
154 障害情報データ格納処理部
160 パワーオンルーチン
161 トランスポートファームウェア障害判定処理部
170 トランスポートファームウェア
200 システムディスク
300 エキスパンダ

Claims (4)

  1. 1つのプロセッサコアがトランスポート制御用プロセッサコアであり,トランスポート制御用プロセッサコア以外の少なくとも1つのプロセッサコアが障害情報データ採取機能を有するプロセッサコアであるマルチコアプロセッサと,マルチコアプロセッサのメモリと,メモリから採取されたメモリダンプデータを障害情報データとして格納するシステムディスクとを備えたディスクアレイ装置であって,
    前記マルチコアプロセッサの再起動時にデータが初期化されない前記メモリの不揮発対象領域には,前記メモリを領域ごとに管理する情報であり,少なくとも不揮発対象領域か否かを示す情報と障害発生時にデータが採取される格納対象領域であるか否かを示す情報とを有するメモリ管理情報と,前記トランスポート制御用プロセッサコアの障害か否かを示す情報とが記憶され,
    前記障害情報データ採取機能を有するプロセッサコアは,
    前記トランスポート制御用プロセッサコアの障害発生時に,前記メモリの不揮発対象領域でありかつ格納対象領域である領域に,前記トランスポート制御用プロセッサコアの障害情報を退避する手段と,
    前記トランスポート制御用プロセッサコアの障害か否かを示す情報に前記トランスポート制御用プロセッサコアの障害である旨を設定し,前記マルチコアプロセッサを再起動する手段と,
    再起動時に,前記トランスポート制御用プロセッサコアの障害か否かを示す情報が前記トランスポート制御用プロセッサコアの障害である旨を示している場合に,前記メモリ管理情報で格納対象領域に設定されている前記メモリの領域に記録されたデータを採取し,前記トランスポート制御用プロセッサコアを介して,前記システムディスクに格納する手段とを備える
    ことを特徴とするディスクアレイ装置。
  2. 請求項1に記載されたディスクアレイ装置において,
    前記トランスポート制御用プロセッサコアの障害情報を退避する手段は,前記トランスポート制御用プロセッサコアの障害情報を退避する前記メモリ上の領域を動的に確保し,確保された領域を前記メモリ管理情報に不揮発対象領域かつ格納対象領域として登録し,確保された領域に前記トランスポート制御用プロセッサコアの障害情報を退避する
    ことを特徴とするディスクアレイ装置。
  3. 1つのプロセッサコアがトランスポート制御用プロセッサコアであり,トランスポート制御用プロセッサコア以外の少なくとも1つのプロセッサコアが障害情報データ採取機能を有するプロセッサコアであるマルチコアプロセッサと,マルチコアプロセッサのメモリと,メモリから採取されたメモリダンプデータを障害情報データとして格納するシステムディスクとを備え,マルチコアプロセッサの再起動時にデータが初期化されないメモリの不揮発対象領域には,メモリを領域ごとに管理する情報であり,少なくとも不揮発対象領域か否かを示す情報と障害発生時にデータが採取される格納対象領域であるか否かを示す情報とを有するメモリ管理情報と,トランスポート制御用プロセッサコアの障害か否かを示す情報とが記憶されたディスクアレイ装置におけるトランスポート制御用プロセッサコアの障害情報データ採取方法であって,
    前記障害情報データ採取機能を有するプロセッサコアが,
    前記トランスポート制御用プロセッサコアの障害発生時に,前記メモリの不揮発対象領域でありかつ格納対象領域である領域に,前記トランスポート制御用プロセッサコアの障害情報を退避する過程と,
    前記トランスポート制御用プロセッサコアの障害か否かを示す情報に前記トランスポート制御用プロセッサコアの障害である旨を設定し,前記マルチコアプロセッサを再起動する過程と,
    再起動時に,前記トランスポート制御用プロセッサコアの障害か否かを示す情報が前記トランスポート制御用プロセッサコアの障害である旨を示している場合に,前記メモリ管理情報で格納対象領域に設定されている前記メモリの領域に記録されたデータを採取し,前記トランスポート制御用プロセッサコアを介して,前記システムディスクに格納する過程とを有する
    ことを特徴とするトランスポート制御用プロセッサコアの障害情報データ採取方法。
  4. 請求項3に記載されたトランスポート制御用プロセッサコアの障害情報データ採取方法において,
    前記トランスポート制御用プロセッサコアの障害情報を退避する過程では,前記トランスポート制御用プロセッサコアの障害情報を退避する前記メモリ上の領域を動的に確保し,確保された領域を前記メモリ管理情報に不揮発対象領域かつ格納対象領域として登録し,確保された領域に前記トランスポート制御用プロセッサコアの障害情報を退避する
    ことを特徴とするトランスポート制御用プロセッサコアの障害情報データ採取方法。
JP2007105489A 2007-04-13 2007-04-13 ディスクアレイ装置およびトランスポート制御用プロセッサコアの障害情報データ採取方法 Active JP4945774B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007105489A JP4945774B2 (ja) 2007-04-13 2007-04-13 ディスクアレイ装置およびトランスポート制御用プロセッサコアの障害情報データ採取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007105489A JP4945774B2 (ja) 2007-04-13 2007-04-13 ディスクアレイ装置およびトランスポート制御用プロセッサコアの障害情報データ採取方法

Publications (2)

Publication Number Publication Date
JP2008262438A true JP2008262438A (ja) 2008-10-30
JP4945774B2 JP4945774B2 (ja) 2012-06-06

Family

ID=39984856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007105489A Active JP4945774B2 (ja) 2007-04-13 2007-04-13 ディスクアレイ装置およびトランスポート制御用プロセッサコアの障害情報データ採取方法

Country Status (1)

Country Link
JP (1) JP4945774B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8887145B2 (en) 2010-07-02 2014-11-11 Fujitsu Limited Storage device and configuration-information storing method
JP2016045746A (ja) * 2014-08-25 2016-04-04 日本電気株式会社 周辺制御処理装置、情報処理システム及びログ格納方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137630A (ja) * 1998-11-04 2000-05-16 Nec Corp メモリダンプシステム及びその方法
JP2001034508A (ja) * 1999-07-22 2001-02-09 Hitachi Ltd メモリダンプ採取方法及びその実施装置並びにその処理プログラムを記録した記録媒体
JP2001160840A (ja) * 1999-10-01 2001-06-12 Lucent Technol Inc 通信システムおよび通信システムにおける方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137630A (ja) * 1998-11-04 2000-05-16 Nec Corp メモリダンプシステム及びその方法
JP2001034508A (ja) * 1999-07-22 2001-02-09 Hitachi Ltd メモリダンプ採取方法及びその実施装置並びにその処理プログラムを記録した記録媒体
JP2001160840A (ja) * 1999-10-01 2001-06-12 Lucent Technol Inc 通信システムおよび通信システムにおける方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8887145B2 (en) 2010-07-02 2014-11-11 Fujitsu Limited Storage device and configuration-information storing method
JP2016045746A (ja) * 2014-08-25 2016-04-04 日本電気株式会社 周辺制御処理装置、情報処理システム及びログ格納方法

Also Published As

Publication number Publication date
JP4945774B2 (ja) 2012-06-06

Similar Documents

Publication Publication Date Title
US8135985B2 (en) High availability support for virtual machines
US8977906B2 (en) Checkpoint debugging using mirrored virtual machines
JP4489802B2 (ja) マルチcpuコンピュータおよびシステム再起動方法
US7689859B2 (en) Backup system and method
US7574627B2 (en) Memory dump method, memory dump program and computer system
EP2800303B1 (en) Switch method, device and system for virtual application dual machine in cloud environment
JP6034990B2 (ja) サーバ制御方法及びサーバ制御装置
US20130238882A1 (en) Multi-core processor system, monitoring control method, and computer product
US8762648B2 (en) Storage system, control apparatus and control method therefor
US20080209423A1 (en) Job management device, cluster system, and computer-readable medium storing job management program
US20150149815A1 (en) Bios failover update with service processor having direct serial peripheral interface (spi) access
US8219851B2 (en) System RAS protection for UMA style memory
WO2013094048A1 (ja) 試験サーバ、情報処理システム、試験プログラムおよび試験方法
US9448889B2 (en) BIOS failover update with service processor
US9448808B2 (en) BIOS update with service processor without serial peripheral interface (SPI) access
JP4903244B2 (ja) 計算機システム及び障害復旧方法
KR20170068373A (ko) 메모리 데이터 보호 메커니즘을 갖는 전자 시스템 및 그것의 동작 방법
JP2007133544A (ja) 障害情報解析方法及びその実施装置
US10346269B2 (en) Selective mirroring of predictively isolated memory
US20080195836A1 (en) Method or Apparatus for Storing Data in a Computer System
JP6599725B2 (ja) 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム
US10296218B2 (en) Update control method, update control apparatus, and storage medium
JP4945774B2 (ja) ディスクアレイ装置およびトランスポート制御用プロセッサコアの障害情報データ採取方法
CN102968358A (zh) 一种软raid1部署系统的快速恢复方法
JP5078592B2 (ja) フェイルオーバーを行わせる方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4945774

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150