JP4945774B2 - Failure information data collection method for disk array device and transport control processor core - Google Patents
Failure information data collection method for disk array device and transport control processor core Download PDFInfo
- Publication number
- JP4945774B2 JP4945774B2 JP2007105489A JP2007105489A JP4945774B2 JP 4945774 B2 JP4945774 B2 JP 4945774B2 JP 2007105489 A JP2007105489 A JP 2007105489A JP 2007105489 A JP2007105489 A JP 2007105489A JP 4945774 B2 JP4945774 B2 JP 4945774B2
- Authority
- JP
- Japan
- Prior art keywords
- processor core
- transport control
- core
- memory
- control processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
本発明は,ディスクアレイ装置に搭載されたプロセッサの障害発生時にそのメモリダンプデータを採取する技術に関するものであり,特にマルチコアプロセッサにおいて,その1つのプロセッサコアがトランスポート制御用のプロセッサコアであり,そのトランスポート制御用のプロセッサコアに障害が発生した場合に,そのトランスポート制御用プロセッサコアの障害情報を含むメモリダンプデータを採取することが可能となるディスクアレイ装置およびトランスポート制御用プロセッサコアの障害情報データ採取方法に関するものである。 The present invention relates to a technique for collecting memory dump data when a failure of a processor mounted on a disk array device occurs. Particularly in a multi-core processor, one processor core is a processor core for transport control. When a failure occurs in the transport control processor core, the disk array device and the transport control processor core can collect memory dump data including failure information of the transport control processor core. The present invention relates to a method for collecting failure information data.
近年,情報インフラが発達したことにより,取り扱うデータ量が日々増加し続けている情報化社会において,高信頼,高可用性に富んだ情報システムを実現することが要求されている。このような情報システムを実現するため,常時大容量のデータアクセス,データバックアップ可能なディスクアレイ装置が,急速に普及している。 In recent years, with the development of information infrastructure, in an information society where the amount of data handled has been increasing every day, it is required to realize an information system with high reliability and high availability. In order to realize such an information system, disk array devices capable of always accessing large amounts of data and backing up data are rapidly spreading.
急速な普及にともない,著しく性能向上したディスクアレイ装置には,多数の装置コンポーネントが搭載されており,それらのコンポーネントは複雑に関連している。そのため,何らかの問題が発生した場合に,その原因箇所を特定することや影響範囲を認識することなどに,多大な資源や時間,労力がかかるようになってきている。そのため,限られた資源や時間の中で,問題発生原因に関する有用な障害情報データ(CPUメモリのメモリダンプデータ等)を採取することが必要とされる。 With the rapid spread, disk array devices with significantly improved performance are equipped with a large number of device components, and these components are complicatedly related. For this reason, when any problem occurs, it takes a lot of resources, time, and labor to identify the cause and recognize the range of influence. Therefore, it is necessary to collect useful fault information data (such as memory dump data of the CPU memory) regarding the cause of the problem within a limited resource and time.
図7は,故障発生時の障害情報データの採取を説明するための図である。ディスクアレイ装置50において,CM(Controller Module )500(a,b)は,ホストI/O制御や装置保守制御などストレージシステム全体を管理するコンポーネントである。CPU510(a,b)は,CM500(a,b)を制御するプロセッサである。エキスパンダ(Expander)700(a,b)は,ディスク(Disk)600(a,b)が搭載されるDE(Drive Enclosure )の監視・制御を行うコンポーネントである。図示されたディスク600(a,b)のうち,ディスク600bは,あらかじめシステムディスクとして設定されているものとする。
FIG. 7 is a diagram for explaining collection of failure information data when a failure occurs. In the
なお,図7のディスクアレイ装置50では,説明を簡単にするために,CM500,ディスク600等のコンポーネントが2つずつしか記載されていないが,実際には様々なコンポーネントが冗長化されて複雑に関連している。
In the
例えば,CM500bのCPU510bにおいて障害が発生すると,CPU510bは,通常状態から障害情報格納状態に遷移する。障害情報格納状態では,障害情報格納機能によって,CPU510bのメモリ520上のメモリダンプ対象データ525を,問題発生原因に関する有用な障害情報データ610として,自動的にシステムディスク(ディスク600b)に格納する。
For example, when a failure occurs in the
障害要因がファーム要因(ソフトウェア要因)であれば,障害情報データ610の格納後に,障害が発生したCM500bをリセットし,自動組込みする制御が働く。この制御により,障害が発生したCM500bは復旧し,動作可能な通常状態となる。
If the failure factor is a firmware factor (software factor), after the
システムディスク(ディスク600b)に格納された障害情報データ610は,ディスクアレイ装置50に接続された保守用のパソコン(保守PC800)などで採取することができる。例えば,ディスクアレイ装置50が設置された現場において,CM500bに障害が発生した場合,現場のCE(Customer Engineer )やSE(System Engineer )は,ディスクアレイ装置50に保守PC800を接続し,保守用のCGI画面を介して,ディスクアレイ装置50のシステムディスク(ディスク600b)に格納された障害情報データ610を,保守PC800のディスク801に採取する。採取された障害情報データ610は,開発元に発信され,障害解析が行われる。
The
なお,障害情報データの採取に関する技術が記載された文献としては,例えば特許文献1,特許文献2などがある。
Note that, for example,
特許文献1には,障害時における障害解析を迅速に行うために,オペレーションシステムとは切り離されたモジュールであるメモリダンプルーチンを処理装置上に用意し,ダンプスイッチが押下された場合には,メモリ上にデータを残したまま処理装置を再起動してダンプルーチンを実行し,メモリダンプを採取する技術が記載されている。
In
特許文献2には,障害発生時のコンピュータシステムの停止時間を短縮するために,ダンプ採取の対象となる被ダンプ採取プロセッサのダンプデータを,退避プロセッサの記憶装置上に一時退避し,ダンプデータの出力を待たずに被ダンプ採取プロセッサを再起動し,退避プロセッサの記憶装置上のダンプデータを外部記憶装置に出力する技術が記載されている。
図8は,本発明の課題を説明する図である。近年,1つのパッケージに複数のプロセッサコアが集積されたマルチコアプロセッサが普及してきている。マルチコアプロセッサにおいては,それぞれのプロセッサコアは,他のプロセッサコアに影響されることなく,独立に機能する。図8において,CM500bのCPU510bは,2つのプロセッサコア(アプリケーションコア(Application Core)511,トランスポートコア(Transport Core)512)を備えるデュアルコアプロセッサであるものとする。
FIG. 8 is a diagram illustrating the problem of the present invention. In recent years, multi-core processors in which a plurality of processor cores are integrated in one package have become widespread. In a multi-core processor, each processor core functions independently without being influenced by other processor cores. In FIG. 8, it is assumed that the
CPU510bにおいて,アプリケーションコア511は,ホストI/O制御に関するRAID制御やコピー制御機能,装置保守制御などストレージシステム全体を管理するアプリケーションファームウェア(Application Firmware)が載せられたプロセッサコアである。トランスポートコア512は,ホストインタフェースやディスクインタフェースにおけるSAS/SATAや,FC(Fibre Channel )のトランスポート層プロトコルを司るトランスポートファームウェア(Transport Firmware)が載せられたプロセッサコアである。
In the
アプリケーションコア511で障害が発生した場合には,図7で説明した場合と同様に,アプリケーションコア511が,通常状態から障害情報格納状態に遷移し,障害情報格納機能によって,メモリダンプ対象データ525を障害情報データ610としてシステムディスク(ディスク600b)に格納する。このときのデータ転送は,トランスポートコア512が制御する。
When a failure occurs in the
トランスポートコア512で障害が発生した場合には,アプリケーションコア511が通常状態から障害情報格納状態に遷移し,障害情報格納機能によって,障害が発生したトランスポートコア512からその障害情報をメモリ520に吸い出し,そのトランスポートコア512の障害情報を含むメモリダンプ対象データ525を障害情報データ610としてシステムディスク(ディスク600b)に格納しようとする。
When a failure occurs in the
しかし,この場合には,データ転送を制御するトランスポートコア512に障害が発生しているため,障害情報格納機能を備えたアプリケーションコア511からシステムディスク(ディスク600b)にアクセスできず,トランスポートコア512の障害情報を含むメモリダンプ対象データ525をシステムディスク(ディスク600b)に転送できない可能性が高い。
However, in this case, since a failure has occurred in the
このように,マルチコアプロセッサ構成において,その1つのプロセッサコアがトランスポート制御用のプロセッサコアである場合に,そのトランスポート制御用のプロセッサコアに障害が発生すると,メモリ上のメモリダンプ対象データを障害情報格納用のシステムディスクに転送できない問題が発生する可能性がある。 In this way, in a multi-core processor configuration, if that processor core is a processor core for transport control, if a failure occurs in that transport control processor core, the memory dump target data in the memory will fail. Problems that cannot be transferred to the system disk for storing information may occur.
なお,上記の特許文献1に記載された技術は,シングルプロセッサシングルコア構成におけるメモリダンプ採取の技術である。また,上記の特許文献2に記載された技術は,コンピュータシステムの停止時間を短縮することを目的とし,マルチプロセッサ構成において,すべてのプロセッサがシステム管理プロセッサ,ダンプデータ退避プロセッサ,障害プロセッサ,関連プロセッサになり得る構成となっており,その目的や装置構成が異なる。
The technique described in
すなわち,上記の特許文献1,特許文献2に記載された技術には,マルチコアプロセッサ構成における特定のトランスポート制御用のプロセッサコアに障害が発生するという概念がなく,上記の特許文献1,特許文献2に記載された技術では,上記の問題を解決することはできない。
That is, the techniques described in
本発明は,上記の問題点の解決を図り,マルチコアプロセッサを備えるディスクアレイ装置において,その1つのプロセッサコアがトランスポート制御用のプロセッサコアである場合に,そのトランスポート制御用のプロセッサコアで障害が発生しても,そのトランスポート制御用のプロセッサコアの障害情報を含むメモリダンプデータを,問題発生原因に関する有用な障害情報データとして自動的にシステムディスクに格納することが可能となる技術を提供することを目的とする。 The present invention solves the above problems, and in a disk array device having a multi-core processor, when that one processor core is a processor core for transport control, a failure occurs in the processor core for transport control. Provides a technology that can automatically store memory dump data including failure information of the processor core for transport control in the system disk as useful failure information data regarding the cause of the failure The purpose is to do.
本発明は,上記の課題を解決するために,マルチコアプロセッサ構成において,トランスポート制御用プロセッサコアの障害発生時に,そのトランスポート制御用プロセッサコアの障害情報をメモリ上の不揮発対象領域でありかつ格納対象領域である領域に退避し,再起動後に,トランスポート制御用プロセッサコアの障害情報が退避された領域を含むメモリ上の格納対象領域のデータを,問題発生原因に関する有用な障害情報データとして,トランスポート制御用プロセッサコアを介して自動的にシステムディスクに格納することを特徴とする。 In order to solve the above problems, the present invention provides a multi-core processor configuration in which, when a failure occurs in the transport control processor core, the failure information of the transport control processor core is stored in a non-volatile target area on the memory. After saving to the target area and restarting, the data of the storage target area on the memory including the area where the fault information of the transport control processor core was saved is used as useful fault information data regarding the cause of the problem. It is characterized by being automatically stored in a system disk via a transport control processor core.
具体的には,本発明は,1つのプロセッサコアがトランスポート制御用プロセッサコアであり,トランスポート制御用プロセッサコア以外の少なくとも1つのプロセッサコアが障害情報データ採取機能を有するプロセッサコアであるマルチコアプロセッサと,マルチコアプロセッサのメモリと,メモリから採取されたメモリダンプデータを障害情報データとして格納するシステムディスクとを備えたディスクアレイ装置であって,マルチコアプロセッサの再起動時にデータが初期化されないメモリの不揮発対象領域には,メモリを領域ごとに管理する情報であり,少なくとも不揮発対象領域か否かを示す情報と障害発生時にデータが採取される格納対象領域であるか否かを示す情報とを有するメモリ管理情報と,トランスポート制御用プロセッサコアの障害か否かを示す情報とが記憶され,障害情報データ採取機能を有するプロセッサコアは,トランスポート制御用プロセッサコアの障害発生時に,メモリの不揮発対象領域でありかつ格納対象領域である領域に,トランスポート制御用プロセッサコアの障害情報を退避する手段と,トランスポート制御用プロセッサコアの障害か否かを示す情報にトランスポート制御用プロセッサコアの障害である旨を設定し,マルチコアプロセッサを再起動する手段と,再起動時に,トランスポート制御用プロセッサコアの障害か否かを示す情報がトランスポート制御用プロセッサコアの障害である旨を示している場合に,メモリ管理情報で格納対象領域に設定されているメモリの領域に記録されたデータを採取し,トランスポート制御用プロセッサコアを介して,システムディスクに格納する手段とを備えることを特徴とする。 Specifically, the present invention provides a multi-core processor in which one processor core is a transport control processor core and at least one processor core other than the transport control processor core is a processor core having a fault information data collection function. A disk array device comprising a multi-core processor memory and a system disk that stores memory dump data collected from the memory as failure information data, and the nonvolatile memory is not initialized when the multi-core processor is restarted The target area is information for managing the memory for each area, and includes at least information indicating whether or not the target area is a nonvolatile target area and information indicating whether or not the target area is a storage target area from which data is collected when a failure occurs. Management information and transport control process A processor core that stores information indicating whether or not there is a failure of the Sacore and has a failure information data collection function is an area that is a non-volatile target area and a storage target area when a failure occurs in the transport control processor core. In addition, the means for saving the failure information of the transport control processor core and the information indicating whether or not there is a failure of the transport control processor core are set as the failure of the transport control processor core. If the information indicating whether there is a failure in the transport control processor core at the time of restart indicates that the transport control processor core has failed, the memory management information indicates the storage target area. Collect the data recorded in the memory area set for the transport control process. Via Sakoa, characterized in that it comprises a means for storing the system disk.
これにより,マルチコアプロセッサを備えるディスクアレイ装置において,その1つのプロセッサコアがトランスポート制御用のプロセッサコアである場合に,そのトランスポート制御用のプロセッサコアで障害が発生しても,そのトランスポート制御用のプロセッサコアの障害情報を含むメモリダンプデータを,問題発生原因に関する有用な障害情報データとして自動的にシステムディスクに格納することができるようになる。 As a result, in a disk array device having a multi-core processor, when one processor core is a processor core for transport control, even if a failure occurs in the processor core for transport control, the transport control is performed. Memory dump data including failure information of the processor core for the system can be automatically stored on the system disk as useful failure information data relating to the cause of the problem.
また,本発明は,上記のディスクアレイ装置において,トランスポート制御用プロセッサコアの障害情報を退避する手段は,トランスポート制御用プロセッサコアの障害情報を退避するメモリ上の領域を動的に確保し,確保された領域をメモリ管理情報に不揮発対象領域かつ格納対象領域として登録し,確保された領域にトランスポート制御用プロセッサコアの障害情報を退避することを特徴とする。 Further, according to the present invention, in the above disk array apparatus, the means for saving the fault information of the transport control processor core dynamically secures an area on the memory for saving the fault information of the transport control processor core. The reserved area is registered in the memory management information as a nonvolatile target area and a storage target area, and the fault information of the transport control processor core is saved in the reserved area.
これにより,メモリにあらかじめトランスポート制御用プロセッサコアの障害情報を退避する領域を設定しておく必要がないので,通常動作時にメモリ領域を有効に活用することができるようになる。 As a result, there is no need to previously set an area for saving fault information of the processor core for transport control in the memory, so that the memory area can be effectively used during normal operation.
本発明により,マルチコアプロセッサを備えるディスクアレイ装置において,その1つのプロセッサコアがトランスポート制御用のプロセッサコアである場合に,そのトランスポート制御用のプロセッサコアで障害が発生しても,そのトランスポート制御用のプロセッサコアの障害情報を含むメモリダンプデータを,問題発生原因に関する有用な障害情報データとして,トランスポート制御用のプロセッサコアを介して自動的にシステムディスクに格納することが可能となる。 According to the present invention, in a disk array device having a multi-core processor, when one processor core is a processor core for transport control, even if a failure occurs in the processor core for transport control, the transport Memory dump data including failure information of the control processor core can be automatically stored in the system disk via the transport control processor core as useful failure information data relating to the cause of the problem.
以下,本発明の実施の形態について,図を用いて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は,本発明の実施の形態によるディスクアレイ装置の構成例を示す図である。図1に示すディスクアレイ装置10は,特にCM100の1つに着目した構成となっている。ディスクアレイ装置10において,CM100およびCM100’は,ホストI/O制御や装置保守制御などストレージシステム全体を管理するコンポーネントである。CPU110は,CM100を制御するプロセッサである。エキスパンダ300は,ディスク(図示省略)が搭載されるDE(図示省略)の監視・制御を行うコンポーネントである。なお,図1のディスクアレイ装置10の例では,説明を簡単にするために,CM100等の一部のコンポーネントしか記載されていないが,実際には様々なコンポーネントが冗長化されて複雑に関連した構成となっている。
FIG. 1 is a diagram showing a configuration example of a disk array device according to an embodiment of the present invention. The
システムディスク200は,障害発生時に採取された障害情報データを,ディスクアレイ装置10内部で格納するディスクである。システムディスク200として専用のディスクが用意されていてもよいし,ユーザホストからのデータが格納されるディスクの一部領域があらかじめシステムディスク200領域として設定されていてもよい。
The
CM100において,CPU110は,アプリケーションコア111とトランスポートコア112の2つのプロセッサコアを持つデュアルコアプロセッサである。アプリケーションコア111は,ホストI/O制御に関するRAID制御やコピー制御機能,装置保守制御などストレージシステム全体を管理するアプリケーションファームウェア130が載せられたプロセッサコアである。トランスポートコア112は,ホストインタフェースやディスクインタフェースにおけるSAS/SATAや,FCのトランスポート層プロトコルを司るトランスポートファームウェア170が載せられたプロセッサコアである。
In the
アプリケーションファームウェア130は,通常ルーチン140,障害情報格納ルーチン150,パワーオンルーチン160を持つ。通常ルーチン140は,CM100の通常動作時に実行されているプログラムである。障害情報格納ルーチン150は,CPU110の障害発生時に実行されるプログラムである。パワーオンルーチン160は,CM100の起動時や再起動時に実行されるプログラムである。
The
CPU110のメモリ120には,トランスポートファームウェア障害判定フラグ121と,メモリ管理テーブル122が記憶されている。トランスポートファームウェア障害判定フラグ121は,CM100の起動時に,その起動がトランスポートファームウェアの障害発生による再起動か否かを示すフラグである。ここでは,“1”がトランスポートファームウェアの障害発生による再起動を示し,“0”がそれ以外を示す。メモリ管理テーブル122は,メモリ120の管理情報が記録されたテーブルである。
The memory 120 of the
図2は,メモリ管理テーブルの例を示す図である。メモリ管理テーブル122は,メモリ120を領域ごとに管理するためのテーブルであり,CM100の起動時に,メモリディスクリプタをもとに構築される。メモリディスクリプタでは,メモリ120上に割り当てる必要がある領域のサイズ等が指示されている。
FIG. 2 is a diagram illustrating an example of a memory management table. The memory management table 122 is a table for managing the memory 120 for each area, and is constructed based on the memory descriptor when the
メモリ管理テーブル122は,テーブル番号,プールネーム(Pool name ),アロケートアドレス(Allocate address),アロケートサイズ(Allocate size ),格納フラグ,不揮発フラグ等の情報を持つ。 The memory management table 122 has information such as a table number, a pool name (Pool name), an allocate address (Allocate address), an allocate size (Allocate size), a storage flag, and a nonvolatile flag.
テーブル番号は,メモリ管理テーブル122の各レコードに割り当てられた識別番号である。プールネームは,そのメモリ領域の名称を示す。アロケートアドレスは,そのメモリ領域のアドレスを示す。アロケートサイズは,そのメモリ領域のサイズを示す。 The table number is an identification number assigned to each record in the memory management table 122. The pool name indicates the name of the memory area. The allocate address indicates the address of the memory area. The allocate size indicates the size of the memory area.
格納フラグは,そのメモリ領域がシステムディスク200への格納対象領域であるか否かを示す情報である。ここでは,“1”がシステムディスク200への格納対象領域であることを示し,“0”がシステムディスク200への格納対象領域でないことを示す。システムディスク200への格納対象領域に指定されたメモリ領域のデータは,障害発生時に,障害情報データとしてシステムディスク200に転送される。
The storage flag is information indicating whether or not the memory area is a storage target area for the
不揮発フラグは,そのメモリ領域が不揮発対象領域であるか否かを示す情報である。ここでは,“1”が不揮発対象領域であることを示し,“0”が不揮発対象領域でないことを示す。不揮発対象領域に指定されたメモリ領域は,トランスポートファームウェアの障害発生によるCM100の再起動時には初期化されず,データが保持される。逆に,不揮発対象領域に指定されていないメモリ領域は,トランスポートファームウェアの障害発生によるCM100の再起動時でも,初期化される。
The nonvolatile flag is information indicating whether or not the memory area is a nonvolatile target area. Here, “1” indicates that it is a non-volatile target area, and “0” indicates that it is not a non-volatile target area. The memory area designated as the non-volatile target area is not initialized when the
図2に示すメモリ管理テーブルにおいて,プールネーム“SYS−MEM−DESC”のメモリ領域が,メモリ管理テーブル122の領域である。図2に示すように,プールネーム“SYS−MEM−DESC”の不揮発フラグは“1”であるので,トランスポートファームウェアの障害発生によるCM100の再起動時に初期化されない。すなわち,トランスポートファームウェアの障害発生によるCM100の再起動時には,メモリディスクリプタから新たにメモリ管理テーブル122を構築し直さず,再起動前のメモリ管理テーブル122がそのまま残ることになる。なお,特に図2には示されていないが,トランスポートファームウェア障害判定フラグ121が記録された領域も,不揮発対象領域に指定される。
In the memory management table shown in FIG. 2, the memory area of the pool name “SYS-MEM-DESC” is the area of the memory management table 122. As shown in FIG. 2, since the nonvolatile flag of the pool name “SYS-MEM-DESC” is “1”, it is not initialized when the
図3は,アプリケーションファームウェアの各ルーチンの機能構成例を示す図である。障害情報格納ルーチン150は,障害情報格納状態通知処理部151,トランスポートファームウェア障害情報退避処理部152,CM再起動処理部153,障害情報データ格納処理部154を備える。
FIG. 3 is a diagram illustrating a functional configuration example of each routine of the application firmware. The failure
障害情報格納状態通知処理部151は,他のCM100’やエキスパンダ300に,自CM100のアプリケーションコア111が通常状態から障害情報格納状態に遷移したことを通知する処理を行う。トランスポートファームウェア障害情報退避処理部152は,トランスポートファームウェア170に障害が発生したときに,その障害情報をメモリ120に退避する処理を行う。CM再起動処理部153は,CM100を再起動するための処理を行う。障害情報データ格納処理部154は,メモリ120の格納対象領域のデータを,障害情報データとしてシステムディスク200に格納する処理を行う。
The failure information storage state
パワーオンルーチン160は,トランスポートファームウェア障害判定処理部161を備える。トランスポートファームウェア障害判定処理部161は,CM100の起動が,トランスポートファームウェア170の障害発生による再起動か否かを判定する処理を行う。
The power-on
ここで,図1から図3を用いて,本実施の形態によるトランスポートファームウェアの障害発生時の一連の動作の例を説明する。 Here, an example of a series of operations when a failure occurs in the transport firmware according to the present embodiment will be described with reference to FIGS.
トランスポートコア112におけるトランスポートファームウェア170の障害発生を検出したアプリケーションコア111は,通常状態から障害情報格納状態に遷移する。すなわち,アプリケーションコア111は,通常ルーチン140の処理を停止し,障害情報格納ルーチン150を起動する。障害情報格納ルーチン150の障害情報格納状態通知処理部151は,自CM100のアプリケーションコア111が障害情報格納状態となったことを,他のCM100’やエキスパンダ300等に通知する。
The application core 111 that has detected the failure of the
CM100のアプリケーションコア111が障害情報格納状態となったことを他のCM100’やエキスパンダ300等に通知する理由は,他のCM100’やエキスパンダ300では,CM100からの応答がなくなると,CM100にハードウェア要因による障害が発生した可能性があると判断し,その危険性を回避するために応答がないCM100の切り離しを行ってしまうからである。ソフトウェア要因の障害が発生したCM100が障害情報格納状態になれば,その障害情報データの格納中に,他のCM100’やエキスパンダ300から切り離されることはない。
The reason that the application core 111 of the
障害が発生したCM100のアプリケーションコア111は,インターナルバスによる制御によって,障害が発生したトランスポートコア112からトランスポートファームウェア障害情報を採取し,メモリ120上に退避する。すなわち,障害情報格納ルーチン150のトランスポートファームウェア障害情報退避処理部152は,メモリ120上の退避領域を指定する情報を含むトランスポートファームウェア障害情報の採取指示を,トランスポートコア112に送る。
The application core 111 of the
図2に示すメモリ管理テーブル122において,プールネーム“TFW−INFO”が,トランスポートファームウェア障害情報の退避領域を示している。図2に示すように,プールネーム“TFW−INFO”の不揮発フラグは“1”であるので,トランスポートファームウェア障害情報の退避領域は,トランスポートファームウェアの障害発生によるCM100の再起動時に初期化されない。また,プールネーム“TFW−INFO”の格納フラグは“1”であるので,そのメモリ領域に退避されたトランスポートファームウェア障害情報は,障害情報データとしてシステムディスク200に格納される。
In the memory management table 122 shown in FIG. 2, the pool name “TFW-INFO” indicates a save area for transport firmware failure information. As shown in FIG. 2, since the nonvolatile flag of the pool name “TFW-INFO” is “1”, the save area for the transport firmware failure information is not initialized when the
メモリ120上のトランスポートファームウェア障害情報を退避する領域は,あらかじめ設定されていてもよいし,動的に確保するようにしてもよい。トランスポートファームウェア障害情報を退避する領域をあらかじめ設定しておく場合には,メモリディスクリプタで指示しておけばよい。 The area for saving the transport firmware failure information on the memory 120 may be set in advance or may be dynamically secured. When an area for saving the transport firmware failure information is set in advance, it may be indicated by a memory descriptor.
トランスポートファームウェア障害情報を退避する領域を動的に確保する場合には,障害情報格納ルーチン150のトランスポートファームウェア障害情報退避処理部152が,メモリ管理テーブル122を参照し,ファストブート(Fastboot)等の制御に影響を及ぼさず,システムディスク200への格納対象領域になっていない(格納フラグが“0”)メモリ120上の領域を確保し,トランスポートファームウェア障害情報を退避する領域とする。このとき,メモリ管理テーブル122にトランスポートファームウェア障害情報を退避する領域のレコードを生成し,その格納フラグ,不揮発フラグをともに“1”に設定する。
When the area for saving the transport firmware fault information is dynamically secured, the transport firmware fault information save processing
障害情報格納ルーチン150のCM再起動処理部153は,メモリ120上の不揮発対象領域のトランスポートファームウェア障害判定フラグ121を“1”に設定し,他のCM100’やエキスパンダ300に自CM100のリセットを依頼する。リセットの依頼を受けた他のCM100’やエキスパンダ300は,リセットの依頼を行った障害発生CM100をリセットする。
The CM
リセットを受けた障害発生CM100では,アプリケーションコア111,トランスポートコア112がそれぞれ再起動する。このとき,アプリケーションコア111は,ファストブート起動を行う。ファストブート起動により,メモリ管理テーブル122で不揮発対象領域(不揮発フラグが“1”)に指定されたメモリ120上の領域のデータが,初期化されずに残された状態でCM100を起動することができる。
In the
パワーオンルーチン160のトランスポートファームウェア障害判定処理部161は,問題発生原因に関する有用な障害情報が触られない起動の早い段階で,トランスポートファームウェア障害判定フラグ121を確認し,トランスポートファームウェア障害判定フラグ121が“1”である場合には,それを“0”にした後,障害情報格納ルーチン150をトランスポートファームウェア障害の旨で呼び出す。なお,トランスポートファームウェア障害判定フラグが“0”であった場合には,通常のパワーオン処理の後,通常ルーチン140を呼び出す。
The transport firmware failure
トランスポートコア112がリセットされ,動作可能な状態となっているため,アプリケーションコア111は,システムディスク200にアクセスすることができる。障害情報格納ルーチン150の障害情報データ格納処理部154は,トランスポートファームウェア障害によるCM100の再起動を確認すると,メモリ管理テーブル122を参照し,格納フラグが“1”であるメモリ領域に保持されているメモリ120上のデータを,障害情報データとしてシステムディスク200に格納する。このときシステムディスク200に格納されるデータには,トランスポートファームウェア障害情報が含まれている。
Since the transport core 112 is reset and in an operable state, the application core 111 can access the
なお,障害がアプリケーションファームウェアの通常ルーチン140で発生した場合には,障害情報格納ルーチン150において,トランスポートファームウェア障害情報の退避や,CM100の再起動を行わずに,障害情報データ格納処理部154が,メモリ管理テーブル122で格納フラグが“1”であるメモリ領域に保持されているメモリ120上のデータを,障害情報データとしてシステムディスク200に格納する。
If the failure occurs in the
以下,図4〜図6のフローチャートを用いて,本実施の形態におけるトランスポートファーム障害発生時の一連の処理の流れを説明する。 Hereinafter, a flow of a series of processing when a transport farm failure occurs in the present embodiment will be described using the flowcharts of FIGS.
図4は,アプリケーションコアによるトランスポートファームウェア障害発生時における障害情報格納処理フローチャート(1)である。図4のフローチャートに示す処理は,障害情報データのシステムディスク200への格納のための準備段階の処理である。
FIG. 4 is a failure information storage processing flowchart (1) when a transport firmware failure occurs by the application core. The process shown in the flowchart of FIG. 4 is a preparatory process for storing failure information data in the
アプリケーションコア111は,トランスポートファームウェア170の障害発生を検出すると(ステップS10),それまでの通常状態から障害情報格納状態に遷移する(ステップS11)。このとき,自らが障害情報格納状態であることを,他のCM100’やエキスパンダ300等に通知する(ステップS12)。
When the application core 111 detects the occurrence of a failure in the transport firmware 170 (step S10), the application core 111 transits from the normal state until then to the failure information storage state (step S11). At this time, it notifies the other CM 100 ', the
メモリ管理テーブル122を参照し,他の制御に影響がなく,格納フラグが“0”であるメモリ120上の領域を,トランスポートファームウェア障害情報退避領域として確保し(ステップS13),確保された領域を,格納フラグ“1”,不揮発フラグ“1”でメモリ管理テーブル122に登録する(ステップS14)。トランスポートファームウェア障害情報を,トランスポートコア112からトランスポートファームウェア障害情報退避領域に退避する(ステップS15)。 By referring to the memory management table 122, an area on the memory 120 that has no influence on other controls and whose storage flag is “0” is secured as a transport firmware failure information save area (step S13), and the secured area Are registered in the memory management table 122 with the storage flag “1” and the nonvolatile flag “1” (step S14). The transport firmware failure information is saved from the transport core 112 to the transport firmware failure information saving area (step S15).
トランスポートファームウェア障害判定フラグ121を“1”に設定し(ステップS16),自CM100をファストブートで再起動する(ステップS17)。
The transport firmware
図5は,アプリケーションコアによるトランスポートファームウェア障害発生時における障害情報格納処理フローチャート(2)である。図5のフローチャートに示す処理は,CM100再起動段階の処理である。実際には,さまざまな初期化処理が行われるが,ここでは,トランスポートファームウェア障害判定処理についてのみ説明する。
FIG. 5 is a failure information storage processing flowchart (2) when a transport firmware failure occurs by the application core. The process shown in the flowchart of FIG. 5 is a process in the
アプリケーションコア111は,ファストブート起動が行われると,初期化処理の比較的早い段階で,トランスポートファームウェア障害判定フラグ121を確認する(ステップS20)。トランスポートファームウェア障害判定フラグ121が“1”でなければ(ステップS21),通常通りの初期化処理を行い,通常ルーチン140に移る。トランスポートファームウェア障害判定フラグ121が“1”であれば(ステップS21),トランスポートファームウェア障害判定フラグ121を“0”に設定し(ステップS22),その他必要な初期化処理を行い,障害情報格納ルーチン150に移る。
When the fast boot activation is performed, the application core 111 checks the transport firmware
図6は,アプリケーションコアによるトランスポートファームウェア障害発生時における障害情報格納処理フローチャート(3)である。図6のフローチャートに示す処理は,トランスポートファームウェア障害情報を含む障害情報データのシステムディスク200への格納段階の処理である。
FIG. 6 is a failure information storage processing flowchart (3) when a transport firmware failure occurs by the application core. The process shown in the flowchart of FIG. 6 is a process of storing failure information data including transport firmware failure information in the
アプリケーションコア111は,CM100再起動後に障害情報格納ルーチン150の動作に移ると,メモリ管理テーブル122を確認し(ステップS30),メモリ120上の格納フラグが“1”に設定されているメモリ領域のデータを,システムディスク200に格納する(ステップS31)。
When the application core 111 moves to the operation of the failure
以上,本発明の実施の形態について説明したが,本発明はこれに限るものではない。例えば,本実施の形態では,1つのプロセッサコアがトランスポート制御用のプロセッサコアであるデュアルコアプロセッサ構成について説明したが,1つのプロセッサコアがトランスポート制御用のプロセッサコアである3つ以上のプロセッサコアを持つマルチコアプロセッサ構成であってもよい。 Although the embodiment of the present invention has been described above, the present invention is not limited to this. For example, in the present embodiment, the dual core processor configuration in which one processor core is a processor core for transport control has been described. However, three or more processors in which one processor core is a processor core for transport control. A multi-core processor configuration having a core may be used.
10 ディスクアレイ装置
100,100’ CM
110 CPU
111 アプリケーションコア
112 トランスポートコア
120 メモリ
121 トランスポートファームウェア障害判定フラグ
122 メモリ管理テーブル
130 アプリケーションファームウェア
140 通常ルーチン
150 障害情報格納ルーチン
151 障害情報格納状態通知処理部
152 トランスポートファームウェア障害情報退避処理部
153 CM再起動処理部
154 障害情報データ格納処理部
160 パワーオンルーチン
161 トランスポートファームウェア障害判定処理部
170 トランスポートファームウェア
200 システムディスク
300 エキスパンダ
10
110 CPU
111 Application Core 112 Transport Core 120
Claims (4)
前記マルチコアプロセッサの再起動時にデータが初期化されない前記メモリの不揮発対象領域には,前記メモリを領域ごとに管理する情報であり,少なくとも不揮発対象領域か否かを示す情報と障害発生時にデータが採取される格納対象領域であるか否かを示す情報とを有するメモリ管理情報と,前記トランスポート制御用プロセッサコアの障害か否かを示す情報とが記憶され,
前記障害情報データ採取機能を有するプロセッサコアは,
前記トランスポート制御用プロセッサコアの障害発生時に,前記メモリの不揮発対象領域でありかつ格納対象領域である領域に,前記トランスポート制御用プロセッサコアの障害情報を退避する手段と,
前記トランスポート制御用プロセッサコアの障害か否かを示す情報に前記トランスポート制御用プロセッサコアの障害である旨を設定し,前記マルチコアプロセッサを再起動する手段と,
再起動時に,前記トランスポート制御用プロセッサコアの障害か否かを示す情報が前記トランスポート制御用プロセッサコアの障害である旨を示している場合に,前記メモリ管理情報で格納対象領域に設定されている前記メモリの領域に記録されたデータを採取し,前記トランスポート制御用プロセッサコアを介して,前記システムディスクに格納する手段とを備える
ことを特徴とするディスクアレイ装置。 A multi-core processor in which one processor core is a processor core for transport control and at least one processor core other than the transport control processor core is a processor core having a fault information data collection function; a memory of the multi-core processor; and a memory A disk array device comprising a system disk for storing memory dump data collected from as fault information data,
The non-volatile target area of the memory whose data is not initialized when the multi-core processor is restarted is information for managing the memory for each area, and at least information indicating whether or not the non-volatile target area and data are collected when a failure occurs Memory management information having information indicating whether or not the storage target area is to be stored, and information indicating whether or not the transport control processor core is faulty,
The processor core having the failure information data collection function is:
Means for saving failure information of the transport control processor core in a non-volatile target area and a storage target area of the memory when a failure occurs in the transport control processor core;
Means for setting in the information indicating whether or not the transport control processor core is faulty, a fault of the transport control processor core, and restarting the multi-core processor;
When the information indicating whether or not the transport control processor core is faulty indicates that the transport control processor core is faulty at the time of restart, the memory management information sets the storage target area. Means for collecting data recorded in the memory area and storing the data in the system disk via the transport control processor core.
前記トランスポート制御用プロセッサコアの障害情報を退避する手段は,前記トランスポート制御用プロセッサコアの障害情報を退避する前記メモリ上の領域を動的に確保し,確保された領域を前記メモリ管理情報に不揮発対象領域かつ格納対象領域として登録し,確保された領域に前記トランスポート制御用プロセッサコアの障害情報を退避する
ことを特徴とするディスクアレイ装置。 The disk array device according to claim 1,
The means for saving failure information of the transport control processor core dynamically secures an area on the memory for saving the failure information of the transport control processor core, and the reserved area is the memory management information. A disk array device, wherein the failure information of the processor core for transport control is saved in a reserved area.
前記障害情報データ採取機能を有するプロセッサコアが,
前記トランスポート制御用プロセッサコアの障害発生時に,前記メモリの不揮発対象領域でありかつ格納対象領域である領域に,前記トランスポート制御用プロセッサコアの障害情報を退避する過程と,
前記トランスポート制御用プロセッサコアの障害か否かを示す情報に前記トランスポート制御用プロセッサコアの障害である旨を設定し,前記マルチコアプロセッサを再起動する過程と,
再起動時に,前記トランスポート制御用プロセッサコアの障害か否かを示す情報が前記トランスポート制御用プロセッサコアの障害である旨を示している場合に,前記メモリ管理情報で格納対象領域に設定されている前記メモリの領域に記録されたデータを採取し,前記トランスポート制御用プロセッサコアを介して,前記システムディスクに格納する過程とを有する
ことを特徴とするトランスポート制御用プロセッサコアの障害情報データ採取方法。 A multi-core processor in which one processor core is a processor core for transport control and at least one processor core other than the transport control processor core is a processor core having a fault information data collection function; a memory of the multi-core processor; and a memory A system disk that stores memory dump data collected from the system as failure information data, and the data is not initialized when the multi-core processor is restarted. Memory management information having at least information indicating whether it is a non-volatile target area and information indicating whether it is a storage target area from which data is collected when a failure occurs, and whether there is a fault in the transport control processor core Display information A fault information data collection process of the transport controller processor cores in the array device,
A processor core having the failure information data collection function;
A process of saving failure information of the transport control processor core in a non-volatile target area and a storage target area of the memory when a failure occurs in the transport control processor core;
Setting the information indicating whether or not the transport control processor core is faulty as a fault of the transport control processor core and restarting the multi-core processor;
When the information indicating whether or not the transport control processor core is faulty indicates that the transport control processor core is faulty at the time of restart, the memory management information sets the storage target area. And collecting the data recorded in the memory area and storing the data in the system disk via the transport control processor core. Fault information of the transport control processor core Data collection method.
前記トランスポート制御用プロセッサコアの障害情報を退避する過程では,前記トランスポート制御用プロセッサコアの障害情報を退避する前記メモリ上の領域を動的に確保し,確保された領域を前記メモリ管理情報に不揮発対象領域かつ格納対象領域として登録し,確保された領域に前記トランスポート制御用プロセッサコアの障害情報を退避する
ことを特徴とするトランスポート制御用プロセッサコアの障害情報データ採取方法。 In the failure information data collection method of the transport control processor core according to claim 3,
In the process of saving fault information of the transport control processor core, an area on the memory for saving the fault information of the transport control processor core is dynamically secured, and the reserved area is assigned to the memory management information A failure control data collection method for a transport control processor core, wherein the failure information of the transport control processor core is saved in a reserved area.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007105489A JP4945774B2 (en) | 2007-04-13 | 2007-04-13 | Failure information data collection method for disk array device and transport control processor core |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007105489A JP4945774B2 (en) | 2007-04-13 | 2007-04-13 | Failure information data collection method for disk array device and transport control processor core |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008262438A JP2008262438A (en) | 2008-10-30 |
JP4945774B2 true JP4945774B2 (en) | 2012-06-06 |
Family
ID=39984856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007105489A Active JP4945774B2 (en) | 2007-04-13 | 2007-04-13 | Failure information data collection method for disk array device and transport control processor core |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4945774B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012014574A (en) | 2010-07-02 | 2012-01-19 | Fujitsu Ltd | Storage device, configuration information storage method and configuration information storage program |
JP6524621B2 (en) * | 2014-08-25 | 2019-06-05 | 日本電気株式会社 | Peripheral control processing device, information processing system and log storage method |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000137630A (en) * | 1998-11-04 | 2000-05-16 | Nec Corp | Memory dump system and method therefor |
JP2001034508A (en) * | 1999-07-22 | 2001-02-09 | Hitachi Ltd | Memory dump collection method and its execution device, and recording medium recording memory dump collection program |
EP1089506A3 (en) * | 1999-10-01 | 2002-04-24 | Lucent Technologies Inc. | Apparatus and method for integrated telecommunications |
-
2007
- 2007-04-13 JP JP2007105489A patent/JP4945774B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008262438A (en) | 2008-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8135985B2 (en) | High availability support for virtual machines | |
US8074222B2 (en) | Job management device, cluster system, and computer-readable medium storing job management program | |
US9158628B2 (en) | Bios failover update with service processor having direct serial peripheral interface (SPI) access | |
US9043656B2 (en) | Securing crash dump files | |
US9335998B2 (en) | Multi-core processor system, monitoring control method, and computer product | |
US8201020B2 (en) | Method apparatus and system for a redundant and fault tolerant solid state disk | |
EP2800303B1 (en) | Switch method, device and system for virtual application dual machine in cloud environment | |
US8762648B2 (en) | Storage system, control apparatus and control method therefor | |
JP6034990B2 (en) | Server control method and server control apparatus | |
US9448889B2 (en) | BIOS failover update with service processor | |
US9448808B2 (en) | BIOS update with service processor without serial peripheral interface (SPI) access | |
US20070220350A1 (en) | Memory dump method, memory dump program and computer system | |
US20100083250A1 (en) | Virtual machine system, and method for managing thereof | |
US8219851B2 (en) | System RAS protection for UMA style memory | |
JP4903244B2 (en) | Computer system and failure recovery method | |
WO2006082657A1 (en) | Multi cpu computer and system restart method | |
JP2007133544A (en) | Failure information analysis method and its implementation device | |
US20080195836A1 (en) | Method or Apparatus for Storing Data in a Computer System | |
JP6599725B2 (en) | Information processing apparatus, log management method, and computer program | |
US20180059950A1 (en) | Selective mirroring of predictively isolated memory | |
JP2007080012A (en) | Rebooting method, system and program | |
US10296218B2 (en) | Update control method, update control apparatus, and storage medium | |
JP4945774B2 (en) | Failure information data collection method for disk array device and transport control processor core | |
JP6802484B2 (en) | Storage controller, storage control program and storage control method | |
JP5078592B2 (en) | How to perform a failover |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120210 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150316 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4945774 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |