JP4945774B2 - Failure information data collection method for disk array device and transport control processor core - Google Patents

Failure information data collection method for disk array device and transport control processor core Download PDF

Info

Publication number
JP4945774B2
JP4945774B2 JP2007105489A JP2007105489A JP4945774B2 JP 4945774 B2 JP4945774 B2 JP 4945774B2 JP 2007105489 A JP2007105489 A JP 2007105489A JP 2007105489 A JP2007105489 A JP 2007105489A JP 4945774 B2 JP4945774 B2 JP 4945774B2
Authority
JP
Japan
Prior art keywords
processor core
transport control
core
memory
control processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007105489A
Other languages
Japanese (ja)
Other versions
JP2008262438A (en
Inventor
大 川田
修 木村
浩二 山口
一雄 中嶋
親志 前田
祐司 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007105489A priority Critical patent/JP4945774B2/en
Publication of JP2008262438A publication Critical patent/JP2008262438A/en
Application granted granted Critical
Publication of JP4945774B2 publication Critical patent/JP4945774B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は,ディスクアレイ装置に搭載されたプロセッサの障害発生時にそのメモリダンプデータを採取する技術に関するものであり,特にマルチコアプロセッサにおいて,その1つのプロセッサコアがトランスポート制御用のプロセッサコアであり,そのトランスポート制御用のプロセッサコアに障害が発生した場合に,そのトランスポート制御用プロセッサコアの障害情報を含むメモリダンプデータを採取することが可能となるディスクアレイ装置およびトランスポート制御用プロセッサコアの障害情報データ採取方法に関するものである。   The present invention relates to a technique for collecting memory dump data when a failure of a processor mounted on a disk array device occurs. Particularly in a multi-core processor, one processor core is a processor core for transport control. When a failure occurs in the transport control processor core, the disk array device and the transport control processor core can collect memory dump data including failure information of the transport control processor core. The present invention relates to a method for collecting failure information data.

近年,情報インフラが発達したことにより,取り扱うデータ量が日々増加し続けている情報化社会において,高信頼,高可用性に富んだ情報システムを実現することが要求されている。このような情報システムを実現するため,常時大容量のデータアクセス,データバックアップ可能なディスクアレイ装置が,急速に普及している。   In recent years, with the development of information infrastructure, in an information society where the amount of data handled has been increasing every day, it is required to realize an information system with high reliability and high availability. In order to realize such an information system, disk array devices capable of always accessing large amounts of data and backing up data are rapidly spreading.

急速な普及にともない,著しく性能向上したディスクアレイ装置には,多数の装置コンポーネントが搭載されており,それらのコンポーネントは複雑に関連している。そのため,何らかの問題が発生した場合に,その原因箇所を特定することや影響範囲を認識することなどに,多大な資源や時間,労力がかかるようになってきている。そのため,限られた資源や時間の中で,問題発生原因に関する有用な障害情報データ(CPUメモリのメモリダンプデータ等)を採取することが必要とされる。   With the rapid spread, disk array devices with significantly improved performance are equipped with a large number of device components, and these components are complicatedly related. For this reason, when any problem occurs, it takes a lot of resources, time, and labor to identify the cause and recognize the range of influence. Therefore, it is necessary to collect useful fault information data (such as memory dump data of the CPU memory) regarding the cause of the problem within a limited resource and time.

図7は,故障発生時の障害情報データの採取を説明するための図である。ディスクアレイ装置50において,CM(Controller Module )500(a,b)は,ホストI/O制御や装置保守制御などストレージシステム全体を管理するコンポーネントである。CPU510(a,b)は,CM500(a,b)を制御するプロセッサである。エキスパンダ(Expander)700(a,b)は,ディスク(Disk)600(a,b)が搭載されるDE(Drive Enclosure )の監視・制御を行うコンポーネントである。図示されたディスク600(a,b)のうち,ディスク600bは,あらかじめシステムディスクとして設定されているものとする。   FIG. 7 is a diagram for explaining collection of failure information data when a failure occurs. In the disk array device 50, a CM (Controller Module) 500 (a, b) is a component that manages the entire storage system, such as host I / O control and device maintenance control. The CPU 510 (a, b) is a processor that controls the CM 500 (a, b). The expanders 700 (a, b) are components that monitor and control a DE (Drive Enclosure) on which the disks 600 (a, b) are mounted. Of the illustrated disks 600 (a, b), the disk 600b is set in advance as a system disk.

なお,図7のディスクアレイ装置50では,説明を簡単にするために,CM500,ディスク600等のコンポーネントが2つずつしか記載されていないが,実際には様々なコンポーネントが冗長化されて複雑に関連している。   In the disk array device 50 of FIG. 7, only two components such as the CM 500 and the disk 600 are shown for simplicity of explanation, but in reality, various components are made redundant and complicated. Related.

例えば,CM500bのCPU510bにおいて障害が発生すると,CPU510bは,通常状態から障害情報格納状態に遷移する。障害情報格納状態では,障害情報格納機能によって,CPU510bのメモリ520上のメモリダンプ対象データ525を,問題発生原因に関する有用な障害情報データ610として,自動的にシステムディスク(ディスク600b)に格納する。   For example, when a failure occurs in the CPU 510b of the CM 500b, the CPU 510b transitions from the normal state to the failure information storage state. In the failure information storage state, the memory dump target data 525 on the memory 520 of the CPU 510b is automatically stored in the system disk (disk 600b) as useful failure information data 610 regarding the cause of the problem by the failure information storage function.

障害要因がファーム要因(ソフトウェア要因)であれば,障害情報データ610の格納後に,障害が発生したCM500bをリセットし,自動組込みする制御が働く。この制御により,障害が発生したCM500bは復旧し,動作可能な通常状態となる。   If the failure factor is a firmware factor (software factor), after the failure information data 610 is stored, the CM 500b in which the failure has occurred is reset and automatically controlled. By this control, the CM 500b where the failure has occurred is restored and becomes in a normal state where it can operate.

システムディスク(ディスク600b)に格納された障害情報データ610は,ディスクアレイ装置50に接続された保守用のパソコン(保守PC800)などで採取することができる。例えば,ディスクアレイ装置50が設置された現場において,CM500bに障害が発生した場合,現場のCE(Customer Engineer )やSE(System Engineer )は,ディスクアレイ装置50に保守PC800を接続し,保守用のCGI画面を介して,ディスクアレイ装置50のシステムディスク(ディスク600b)に格納された障害情報データ610を,保守PC800のディスク801に採取する。採取された障害情報データ610は,開発元に発信され,障害解析が行われる。   The failure information data 610 stored in the system disk (disk 600b) can be collected by a maintenance personal computer (maintenance PC 800) connected to the disk array device 50. For example, when a failure occurs in the CM 500b at the site where the disk array device 50 is installed, a CE (Customer Engineer) or SE (System Engineer) at the site connects the maintenance PC 800 to the disk array device 50 for maintenance. The failure information data 610 stored in the system disk (disk 600b) of the disk array device 50 is collected in the disk 801 of the maintenance PC 800 via the CGI screen. The collected failure information data 610 is transmitted to the developer for failure analysis.

なお,障害情報データの採取に関する技術が記載された文献としては,例えば特許文献1,特許文献2などがある。   Note that, for example, Patent Document 1 and Patent Document 2 are documents that describe techniques related to collection of failure information data.

特許文献1には,障害時における障害解析を迅速に行うために,オペレーションシステムとは切り離されたモジュールであるメモリダンプルーチンを処理装置上に用意し,ダンプスイッチが押下された場合には,メモリ上にデータを残したまま処理装置を再起動してダンプルーチンを実行し,メモリダンプを採取する技術が記載されている。   In Patent Document 1, a memory dump routine, which is a module separated from the operation system, is prepared on a processing device in order to quickly analyze a failure at the time of a failure, and when a dump switch is pressed, There is described a technique for collecting a memory dump by restarting a processing apparatus while leaving data on and executing a dump routine.

特許文献2には,障害発生時のコンピュータシステムの停止時間を短縮するために,ダンプ採取の対象となる被ダンプ採取プロセッサのダンプデータを,退避プロセッサの記憶装置上に一時退避し,ダンプデータの出力を待たずに被ダンプ採取プロセッサを再起動し,退避プロセッサの記憶装置上のダンプデータを外部記憶装置に出力する技術が記載されている。
特開2000−137630号公報 特開2001−34508号公報
In Patent Document 2, in order to reduce the stop time of the computer system when a failure occurs, dump data of a dumped processor to be dumped is temporarily saved on a storage device of the save processor, and dump data A technique is described in which the dumped processor is restarted without waiting for output, and dump data on the storage device of the save processor is output to an external storage device.
JP 2000-137630 A JP 2001-34508 A

図8は,本発明の課題を説明する図である。近年,1つのパッケージに複数のプロセッサコアが集積されたマルチコアプロセッサが普及してきている。マルチコアプロセッサにおいては,それぞれのプロセッサコアは,他のプロセッサコアに影響されることなく,独立に機能する。図8において,CM500bのCPU510bは,2つのプロセッサコア(アプリケーションコア(Application Core)511,トランスポートコア(Transport Core)512)を備えるデュアルコアプロセッサであるものとする。   FIG. 8 is a diagram illustrating the problem of the present invention. In recent years, multi-core processors in which a plurality of processor cores are integrated in one package have become widespread. In a multi-core processor, each processor core functions independently without being influenced by other processor cores. In FIG. 8, it is assumed that the CPU 510b of the CM 500b is a dual-core processor having two processor cores (Application Core 511, Transport Core 512).

CPU510bにおいて,アプリケーションコア511は,ホストI/O制御に関するRAID制御やコピー制御機能,装置保守制御などストレージシステム全体を管理するアプリケーションファームウェア(Application Firmware)が載せられたプロセッサコアである。トランスポートコア512は,ホストインタフェースやディスクインタフェースにおけるSAS/SATAや,FC(Fibre Channel )のトランスポート層プロトコルを司るトランスポートファームウェア(Transport Firmware)が載せられたプロセッサコアである。   In the CPU 510b, the application core 511 is a processor core on which application firmware (Application Firmware) for managing the entire storage system such as RAID control related to host I / O control, copy control function, and device maintenance control is mounted. The transport core 512 is a processor core on which SAS / SATA in the host interface and the disk interface, and transport firmware (Transport Firmware) that controls the FC (Fibre Channel) transport layer protocol are mounted.

アプリケーションコア511で障害が発生した場合には,図7で説明した場合と同様に,アプリケーションコア511が,通常状態から障害情報格納状態に遷移し,障害情報格納機能によって,メモリダンプ対象データ525を障害情報データ610としてシステムディスク(ディスク600b)に格納する。このときのデータ転送は,トランスポートコア512が制御する。   When a failure occurs in the application core 511, as in the case described with reference to FIG. 7, the application core 511 transits from the normal state to the failure information storage state, and the memory dump target data 525 is stored by the failure information storage function. The failure information data 610 is stored in the system disk (disk 600b). The data transfer at this time is controlled by the transport core 512.

トランスポートコア512で障害が発生した場合には,アプリケーションコア511が通常状態から障害情報格納状態に遷移し,障害情報格納機能によって,障害が発生したトランスポートコア512からその障害情報をメモリ520に吸い出し,そのトランスポートコア512の障害情報を含むメモリダンプ対象データ525を障害情報データ610としてシステムディスク(ディスク600b)に格納しようとする。   When a failure occurs in the transport core 512, the application core 511 transits from the normal state to the failure information storage state, and the failure information storage function stores the failure information in the memory 520 from the transport core 512 in which the failure has occurred. The memory dump target data 525 including the failure information of the transport core 512 is dumped and stored in the system disk (disk 600b) as the failure information data 610.

しかし,この場合には,データ転送を制御するトランスポートコア512に障害が発生しているため,障害情報格納機能を備えたアプリケーションコア511からシステムディスク(ディスク600b)にアクセスできず,トランスポートコア512の障害情報を含むメモリダンプ対象データ525をシステムディスク(ディスク600b)に転送できない可能性が高い。   However, in this case, since a failure has occurred in the transport core 512 that controls data transfer, the application core 511 having the failure information storage function cannot access the system disk (disk 600b), and the transport core There is a high possibility that memory dump target data 525 including 512 failure information cannot be transferred to the system disk (disk 600b).

このように,マルチコアプロセッサ構成において,その1つのプロセッサコアがトランスポート制御用のプロセッサコアである場合に,そのトランスポート制御用のプロセッサコアに障害が発生すると,メモリ上のメモリダンプ対象データを障害情報格納用のシステムディスクに転送できない問題が発生する可能性がある。   In this way, in a multi-core processor configuration, if that processor core is a processor core for transport control, if a failure occurs in that transport control processor core, the memory dump target data in the memory will fail. Problems that cannot be transferred to the system disk for storing information may occur.

なお,上記の特許文献1に記載された技術は,シングルプロセッサシングルコア構成におけるメモリダンプ採取の技術である。また,上記の特許文献2に記載された技術は,コンピュータシステムの停止時間を短縮することを目的とし,マルチプロセッサ構成において,すべてのプロセッサがシステム管理プロセッサ,ダンプデータ退避プロセッサ,障害プロセッサ,関連プロセッサになり得る構成となっており,その目的や装置構成が異なる。   The technique described in Patent Document 1 is a technique for collecting a memory dump in a single processor single core configuration. In addition, the technique described in Patent Document 2 described above aims to reduce the stop time of a computer system. In a multiprocessor configuration, all processors are a system management processor, a dump data saving processor, a faulty processor, and a related processor. The purpose and device configuration are different.

すなわち,上記の特許文献1,特許文献2に記載された技術には,マルチコアプロセッサ構成における特定のトランスポート制御用のプロセッサコアに障害が発生するという概念がなく,上記の特許文献1,特許文献2に記載された技術では,上記の問題を解決することはできない。   That is, the techniques described in Patent Document 1 and Patent Document 2 do not have the concept that a failure occurs in a specific transport control processor core in a multi-core processor configuration. The technique described in 2 cannot solve the above problem.

本発明は,上記の問題点の解決を図り,マルチコアプロセッサを備えるディスクアレイ装置において,その1つのプロセッサコアがトランスポート制御用のプロセッサコアである場合に,そのトランスポート制御用のプロセッサコアで障害が発生しても,そのトランスポート制御用のプロセッサコアの障害情報を含むメモリダンプデータを,問題発生原因に関する有用な障害情報データとして自動的にシステムディスクに格納することが可能となる技術を提供することを目的とする。   The present invention solves the above problems, and in a disk array device having a multi-core processor, when that one processor core is a processor core for transport control, a failure occurs in the processor core for transport control. Provides a technology that can automatically store memory dump data including failure information of the processor core for transport control in the system disk as useful failure information data regarding the cause of the failure The purpose is to do.

本発明は,上記の課題を解決するために,マルチコアプロセッサ構成において,トランスポート制御用プロセッサコアの障害発生時に,そのトランスポート制御用プロセッサコアの障害情報をメモリ上の不揮発対象領域でありかつ格納対象領域である領域に退避し,再起動後に,トランスポート制御用プロセッサコアの障害情報が退避された領域を含むメモリ上の格納対象領域のデータを,問題発生原因に関する有用な障害情報データとして,トランスポート制御用プロセッサコアを介して自動的にシステムディスクに格納することを特徴とする。   In order to solve the above problems, the present invention provides a multi-core processor configuration in which, when a failure occurs in the transport control processor core, the failure information of the transport control processor core is stored in a non-volatile target area on the memory. After saving to the target area and restarting, the data of the storage target area on the memory including the area where the fault information of the transport control processor core was saved is used as useful fault information data regarding the cause of the problem. It is characterized by being automatically stored in a system disk via a transport control processor core.

具体的には,本発明は,1つのプロセッサコアがトランスポート制御用プロセッサコアであり,トランスポート制御用プロセッサコア以外の少なくとも1つのプロセッサコアが障害情報データ採取機能を有するプロセッサコアであるマルチコアプロセッサと,マルチコアプロセッサのメモリと,メモリから採取されたメモリダンプデータを障害情報データとして格納するシステムディスクとを備えたディスクアレイ装置であって,マルチコアプロセッサの再起動時にデータが初期化されないメモリの不揮発対象領域には,メモリを領域ごとに管理する情報であり,少なくとも不揮発対象領域か否かを示す情報と障害発生時にデータが採取される格納対象領域であるか否かを示す情報とを有するメモリ管理情報と,トランスポート制御用プロセッサコアの障害か否かを示す情報とが記憶され,障害情報データ採取機能を有するプロセッサコアは,トランスポート制御用プロセッサコアの障害発生時に,メモリの不揮発対象領域でありかつ格納対象領域である領域に,トランスポート制御用プロセッサコアの障害情報を退避する手段と,トランスポート制御用プロセッサコアの障害か否かを示す情報にトランスポート制御用プロセッサコアの障害である旨を設定し,マルチコアプロセッサを再起動する手段と,再起動時に,トランスポート制御用プロセッサコアの障害か否かを示す情報がトランスポート制御用プロセッサコアの障害である旨を示している場合に,メモリ管理情報で格納対象領域に設定されているメモリの領域に記録されたデータを採取し,トランスポート制御用プロセッサコアを介して,システムディスクに格納する手段とを備えることを特徴とする。   Specifically, the present invention provides a multi-core processor in which one processor core is a transport control processor core and at least one processor core other than the transport control processor core is a processor core having a fault information data collection function. A disk array device comprising a multi-core processor memory and a system disk that stores memory dump data collected from the memory as failure information data, and the nonvolatile memory is not initialized when the multi-core processor is restarted The target area is information for managing the memory for each area, and includes at least information indicating whether or not the target area is a nonvolatile target area and information indicating whether or not the target area is a storage target area from which data is collected when a failure occurs. Management information and transport control process A processor core that stores information indicating whether or not there is a failure of the Sacore and has a failure information data collection function is an area that is a non-volatile target area and a storage target area when a failure occurs in the transport control processor core. In addition, the means for saving the failure information of the transport control processor core and the information indicating whether or not there is a failure of the transport control processor core are set as the failure of the transport control processor core. If the information indicating whether there is a failure in the transport control processor core at the time of restart indicates that the transport control processor core has failed, the memory management information indicates the storage target area. Collect the data recorded in the memory area set for the transport control process. Via Sakoa, characterized in that it comprises a means for storing the system disk.

これにより,マルチコアプロセッサを備えるディスクアレイ装置において,その1つのプロセッサコアがトランスポート制御用のプロセッサコアである場合に,そのトランスポート制御用のプロセッサコアで障害が発生しても,そのトランスポート制御用のプロセッサコアの障害情報を含むメモリダンプデータを,問題発生原因に関する有用な障害情報データとして自動的にシステムディスクに格納することができるようになる。   As a result, in a disk array device having a multi-core processor, when one processor core is a processor core for transport control, even if a failure occurs in the processor core for transport control, the transport control is performed. Memory dump data including failure information of the processor core for the system can be automatically stored on the system disk as useful failure information data relating to the cause of the problem.

また,本発明は,上記のディスクアレイ装置において,トランスポート制御用プロセッサコアの障害情報を退避する手段は,トランスポート制御用プロセッサコアの障害情報を退避するメモリ上の領域を動的に確保し,確保された領域をメモリ管理情報に不揮発対象領域かつ格納対象領域として登録し,確保された領域にトランスポート制御用プロセッサコアの障害情報を退避することを特徴とする。   Further, according to the present invention, in the above disk array apparatus, the means for saving the fault information of the transport control processor core dynamically secures an area on the memory for saving the fault information of the transport control processor core. The reserved area is registered in the memory management information as a nonvolatile target area and a storage target area, and the fault information of the transport control processor core is saved in the reserved area.

これにより,メモリにあらかじめトランスポート制御用プロセッサコアの障害情報を退避する領域を設定しておく必要がないので,通常動作時にメモリ領域を有効に活用することができるようになる。   As a result, there is no need to previously set an area for saving fault information of the processor core for transport control in the memory, so that the memory area can be effectively used during normal operation.

本発明により,マルチコアプロセッサを備えるディスクアレイ装置において,その1つのプロセッサコアがトランスポート制御用のプロセッサコアである場合に,そのトランスポート制御用のプロセッサコアで障害が発生しても,そのトランスポート制御用のプロセッサコアの障害情報を含むメモリダンプデータを,問題発生原因に関する有用な障害情報データとして,トランスポート制御用のプロセッサコアを介して自動的にシステムディスクに格納することが可能となる。   According to the present invention, in a disk array device having a multi-core processor, when one processor core is a processor core for transport control, even if a failure occurs in the processor core for transport control, the transport Memory dump data including failure information of the control processor core can be automatically stored in the system disk via the transport control processor core as useful failure information data relating to the cause of the problem.

以下,本発明の実施の形態について,図を用いて説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は,本発明の実施の形態によるディスクアレイ装置の構成例を示す図である。図1に示すディスクアレイ装置10は,特にCM100の1つに着目した構成となっている。ディスクアレイ装置10において,CM100およびCM100’は,ホストI/O制御や装置保守制御などストレージシステム全体を管理するコンポーネントである。CPU110は,CM100を制御するプロセッサである。エキスパンダ300は,ディスク(図示省略)が搭載されるDE(図示省略)の監視・制御を行うコンポーネントである。なお,図1のディスクアレイ装置10の例では,説明を簡単にするために,CM100等の一部のコンポーネントしか記載されていないが,実際には様々なコンポーネントが冗長化されて複雑に関連した構成となっている。   FIG. 1 is a diagram showing a configuration example of a disk array device according to an embodiment of the present invention. The disk array device 10 shown in FIG. 1 has a configuration that focuses on one of the CMs 100 in particular. In the disk array device 10, the CM 100 and the CM 100 'are components that manage the entire storage system, such as host I / O control and device maintenance control. The CPU 110 is a processor that controls the CM 100. The expander 300 is a component that monitors and controls a DE (not shown) on which a disk (not shown) is mounted. In the example of the disk array device 10 in FIG. 1, only a part of the components such as the CM 100 is described for the sake of simplicity, but in reality, various components are redundantly related in a complicated manner. It has a configuration.

システムディスク200は,障害発生時に採取された障害情報データを,ディスクアレイ装置10内部で格納するディスクである。システムディスク200として専用のディスクが用意されていてもよいし,ユーザホストからのデータが格納されるディスクの一部領域があらかじめシステムディスク200領域として設定されていてもよい。   The system disk 200 is a disk that stores failure information data collected when a failure occurs in the disk array device 10. A dedicated disk may be prepared as the system disk 200, or a partial area of the disk in which data from the user host is stored may be set as the system disk 200 area in advance.

CM100において,CPU110は,アプリケーションコア111とトランスポートコア112の2つのプロセッサコアを持つデュアルコアプロセッサである。アプリケーションコア111は,ホストI/O制御に関するRAID制御やコピー制御機能,装置保守制御などストレージシステム全体を管理するアプリケーションファームウェア130が載せられたプロセッサコアである。トランスポートコア112は,ホストインタフェースやディスクインタフェースにおけるSAS/SATAや,FCのトランスポート層プロトコルを司るトランスポートファームウェア170が載せられたプロセッサコアである。   In the CM 100, the CPU 110 is a dual core processor having two processor cores, an application core 111 and a transport core 112. The application core 111 is a processor core on which application firmware 130 for managing the entire storage system such as RAID control related to host I / O control, copy control function, and device maintenance control is mounted. The transport core 112 is a processor core on which the SAS / SATA in the host interface and the disk interface and the transport firmware 170 that controls the FC transport layer protocol are mounted.

アプリケーションファームウェア130は,通常ルーチン140,障害情報格納ルーチン150,パワーオンルーチン160を持つ。通常ルーチン140は,CM100の通常動作時に実行されているプログラムである。障害情報格納ルーチン150は,CPU110の障害発生時に実行されるプログラムである。パワーオンルーチン160は,CM100の起動時や再起動時に実行されるプログラムである。   The application firmware 130 has a normal routine 140, a failure information storage routine 150, and a power-on routine 160. The normal routine 140 is a program that is executed during the normal operation of the CM 100. The failure information storage routine 150 is a program that is executed when a failure occurs in the CPU 110. The power-on routine 160 is a program that is executed when the CM 100 is started or restarted.

CPU110のメモリ120には,トランスポートファームウェア障害判定フラグ121と,メモリ管理テーブル122が記憶されている。トランスポートファームウェア障害判定フラグ121は,CM100の起動時に,その起動がトランスポートファームウェアの障害発生による再起動か否かを示すフラグである。ここでは,“1”がトランスポートファームウェアの障害発生による再起動を示し,“0”がそれ以外を示す。メモリ管理テーブル122は,メモリ120の管理情報が記録されたテーブルである。   The memory 120 of the CPU 110 stores a transport firmware failure determination flag 121 and a memory management table 122. The transport firmware failure determination flag 121 is a flag indicating whether or not the activation of the CM 100 is a restart due to a failure of the transport firmware. Here, “1” indicates a restart due to the occurrence of a failure in the transport firmware, and “0” indicates the other. The memory management table 122 is a table in which management information of the memory 120 is recorded.

図2は,メモリ管理テーブルの例を示す図である。メモリ管理テーブル122は,メモリ120を領域ごとに管理するためのテーブルであり,CM100の起動時に,メモリディスクリプタをもとに構築される。メモリディスクリプタでは,メモリ120上に割り当てる必要がある領域のサイズ等が指示されている。   FIG. 2 is a diagram illustrating an example of a memory management table. The memory management table 122 is a table for managing the memory 120 for each area, and is constructed based on the memory descriptor when the CM 100 is activated. In the memory descriptor, the size of an area that needs to be allocated on the memory 120 is instructed.

メモリ管理テーブル122は,テーブル番号,プールネーム(Pool name ),アロケートアドレス(Allocate address),アロケートサイズ(Allocate size ),格納フラグ,不揮発フラグ等の情報を持つ。   The memory management table 122 has information such as a table number, a pool name (Pool name), an allocate address (Allocate address), an allocate size (Allocate size), a storage flag, and a nonvolatile flag.

テーブル番号は,メモリ管理テーブル122の各レコードに割り当てられた識別番号である。プールネームは,そのメモリ領域の名称を示す。アロケートアドレスは,そのメモリ領域のアドレスを示す。アロケートサイズは,そのメモリ領域のサイズを示す。   The table number is an identification number assigned to each record in the memory management table 122. The pool name indicates the name of the memory area. The allocate address indicates the address of the memory area. The allocate size indicates the size of the memory area.

格納フラグは,そのメモリ領域がシステムディスク200への格納対象領域であるか否かを示す情報である。ここでは,“1”がシステムディスク200への格納対象領域であることを示し,“0”がシステムディスク200への格納対象領域でないことを示す。システムディスク200への格納対象領域に指定されたメモリ領域のデータは,障害発生時に,障害情報データとしてシステムディスク200に転送される。   The storage flag is information indicating whether or not the memory area is a storage target area for the system disk 200. Here, “1” indicates that the storage target area is in the system disk 200, and “0” indicates that the storage target area is not in the system disk 200. Data in the memory area specified as the storage target area in the system disk 200 is transferred to the system disk 200 as fault information data when a fault occurs.

不揮発フラグは,そのメモリ領域が不揮発対象領域であるか否かを示す情報である。ここでは,“1”が不揮発対象領域であることを示し,“0”が不揮発対象領域でないことを示す。不揮発対象領域に指定されたメモリ領域は,トランスポートファームウェアの障害発生によるCM100の再起動時には初期化されず,データが保持される。逆に,不揮発対象領域に指定されていないメモリ領域は,トランスポートファームウェアの障害発生によるCM100の再起動時でも,初期化される。   The nonvolatile flag is information indicating whether or not the memory area is a nonvolatile target area. Here, “1” indicates that it is a non-volatile target area, and “0” indicates that it is not a non-volatile target area. The memory area designated as the non-volatile target area is not initialized when the CM 100 is restarted due to a failure of the transport firmware, and data is retained. Conversely, a memory area that is not designated as a non-volatile target area is initialized even when the CM 100 is restarted due to a failure of the transport firmware.

図2に示すメモリ管理テーブルにおいて,プールネーム“SYS−MEM−DESC”のメモリ領域が,メモリ管理テーブル122の領域である。図2に示すように,プールネーム“SYS−MEM−DESC”の不揮発フラグは“1”であるので,トランスポートファームウェアの障害発生によるCM100の再起動時に初期化されない。すなわち,トランスポートファームウェアの障害発生によるCM100の再起動時には,メモリディスクリプタから新たにメモリ管理テーブル122を構築し直さず,再起動前のメモリ管理テーブル122がそのまま残ることになる。なお,特に図2には示されていないが,トランスポートファームウェア障害判定フラグ121が記録された領域も,不揮発対象領域に指定される。   In the memory management table shown in FIG. 2, the memory area of the pool name “SYS-MEM-DESC” is the area of the memory management table 122. As shown in FIG. 2, since the nonvolatile flag of the pool name “SYS-MEM-DESC” is “1”, it is not initialized when the CM 100 is restarted due to a failure of the transport firmware. In other words, when the CM 100 is restarted due to the failure of the transport firmware, the memory management table 122 before the restart remains as it is without reconstructing the memory management table 122 from the memory descriptor. Although not particularly shown in FIG. 2, the area in which the transport firmware failure determination flag 121 is recorded is also designated as the non-volatile target area.

図3は,アプリケーションファームウェアの各ルーチンの機能構成例を示す図である。障害情報格納ルーチン150は,障害情報格納状態通知処理部151,トランスポートファームウェア障害情報退避処理部152,CM再起動処理部153,障害情報データ格納処理部154を備える。   FIG. 3 is a diagram illustrating a functional configuration example of each routine of the application firmware. The failure information storage routine 150 includes a failure information storage state notification processing unit 151, a transport firmware failure information save processing unit 152, a CM restart processing unit 153, and a failure information data storage processing unit 154.

障害情報格納状態通知処理部151は,他のCM100’やエキスパンダ300に,自CM100のアプリケーションコア111が通常状態から障害情報格納状態に遷移したことを通知する処理を行う。トランスポートファームウェア障害情報退避処理部152は,トランスポートファームウェア170に障害が発生したときに,その障害情報をメモリ120に退避する処理を行う。CM再起動処理部153は,CM100を再起動するための処理を行う。障害情報データ格納処理部154は,メモリ120の格納対象領域のデータを,障害情報データとしてシステムディスク200に格納する処理を行う。   The failure information storage state notification processing unit 151 performs processing for notifying the other CM 100 ′ and the expander 300 that the application core 111 of the own CM 100 has transitioned from the normal state to the failure information storage state. The transport firmware failure information saving processing unit 152 performs processing for saving the failure information in the memory 120 when a failure occurs in the transport firmware 170. The CM restart processing unit 153 performs processing for restarting the CM 100. The failure information data storage processing unit 154 performs processing for storing the data in the storage target area of the memory 120 in the system disk 200 as failure information data.

パワーオンルーチン160は,トランスポートファームウェア障害判定処理部161を備える。トランスポートファームウェア障害判定処理部161は,CM100の起動が,トランスポートファームウェア170の障害発生による再起動か否かを判定する処理を行う。   The power-on routine 160 includes a transport firmware failure determination processing unit 161. The transport firmware failure determination processing unit 161 determines whether or not the activation of the CM 100 is a restart due to the occurrence of a failure in the transport firmware 170.

ここで,図1から図3を用いて,本実施の形態によるトランスポートファームウェアの障害発生時の一連の動作の例を説明する。   Here, an example of a series of operations when a failure occurs in the transport firmware according to the present embodiment will be described with reference to FIGS.

トランスポートコア112におけるトランスポートファームウェア170の障害発生を検出したアプリケーションコア111は,通常状態から障害情報格納状態に遷移する。すなわち,アプリケーションコア111は,通常ルーチン140の処理を停止し,障害情報格納ルーチン150を起動する。障害情報格納ルーチン150の障害情報格納状態通知処理部151は,自CM100のアプリケーションコア111が障害情報格納状態となったことを,他のCM100’やエキスパンダ300等に通知する。   The application core 111 that has detected the failure of the transport firmware 170 in the transport core 112 transitions from the normal state to the failure information storage state. That is, the application core 111 stops the processing of the normal routine 140 and starts the failure information storage routine 150. The failure information storage state notification processing unit 151 of the failure information storage routine 150 notifies the other CM 100 ′, the expander 300, and the like that the application core 111 of the own CM 100 has entered the failure information storage state.

CM100のアプリケーションコア111が障害情報格納状態となったことを他のCM100’やエキスパンダ300等に通知する理由は,他のCM100’やエキスパンダ300では,CM100からの応答がなくなると,CM100にハードウェア要因による障害が発生した可能性があると判断し,その危険性を回避するために応答がないCM100の切り離しを行ってしまうからである。ソフトウェア要因の障害が発生したCM100が障害情報格納状態になれば,その障害情報データの格納中に,他のCM100’やエキスパンダ300から切り離されることはない。   The reason that the application core 111 of the CM 100 is in the failure information storage state is notified to the other CM 100 ′, the expander 300, etc. The other CM 100 ′, the expander 300, etc. This is because it is determined that a failure due to hardware factors may have occurred, and the CM 100 that does not respond is disconnected in order to avoid the risk. If the CM 100 in which a software-caused failure occurs enters the failure information storage state, the CM 100 'and the expander 300 are not disconnected while the failure information data is being stored.

障害が発生したCM100のアプリケーションコア111は,インターナルバスによる制御によって,障害が発生したトランスポートコア112からトランスポートファームウェア障害情報を採取し,メモリ120上に退避する。すなわち,障害情報格納ルーチン150のトランスポートファームウェア障害情報退避処理部152は,メモリ120上の退避領域を指定する情報を含むトランスポートファームウェア障害情報の採取指示を,トランスポートコア112に送る。   The application core 111 of the CM 100 in which the failure has occurred collects the transport firmware failure information from the transport core 112 in which the failure has occurred, and saves it in the memory 120 under the control of the internal bus. That is, the transport firmware failure information save processing unit 152 of the failure information storage routine 150 sends a transport firmware failure information collection instruction including information specifying a save area on the memory 120 to the transport core 112.

図2に示すメモリ管理テーブル122において,プールネーム“TFW−INFO”が,トランスポートファームウェア障害情報の退避領域を示している。図2に示すように,プールネーム“TFW−INFO”の不揮発フラグは“1”であるので,トランスポートファームウェア障害情報の退避領域は,トランスポートファームウェアの障害発生によるCM100の再起動時に初期化されない。また,プールネーム“TFW−INFO”の格納フラグは“1”であるので,そのメモリ領域に退避されたトランスポートファームウェア障害情報は,障害情報データとしてシステムディスク200に格納される。   In the memory management table 122 shown in FIG. 2, the pool name “TFW-INFO” indicates a save area for transport firmware failure information. As shown in FIG. 2, since the nonvolatile flag of the pool name “TFW-INFO” is “1”, the save area for the transport firmware failure information is not initialized when the CM 100 is restarted due to a failure of the transport firmware. . Further, since the storage flag of the pool name “TFW-INFO” is “1”, the transport firmware failure information saved in the memory area is stored in the system disk 200 as failure information data.

メモリ120上のトランスポートファームウェア障害情報を退避する領域は,あらかじめ設定されていてもよいし,動的に確保するようにしてもよい。トランスポートファームウェア障害情報を退避する領域をあらかじめ設定しておく場合には,メモリディスクリプタで指示しておけばよい。   The area for saving the transport firmware failure information on the memory 120 may be set in advance or may be dynamically secured. When an area for saving the transport firmware failure information is set in advance, it may be indicated by a memory descriptor.

トランスポートファームウェア障害情報を退避する領域を動的に確保する場合には,障害情報格納ルーチン150のトランスポートファームウェア障害情報退避処理部152が,メモリ管理テーブル122を参照し,ファストブート(Fastboot)等の制御に影響を及ぼさず,システムディスク200への格納対象領域になっていない(格納フラグが“0”)メモリ120上の領域を確保し,トランスポートファームウェア障害情報を退避する領域とする。このとき,メモリ管理テーブル122にトランスポートファームウェア障害情報を退避する領域のレコードを生成し,その格納フラグ,不揮発フラグをともに“1”に設定する。   When the area for saving the transport firmware fault information is dynamically secured, the transport firmware fault information save processing unit 152 of the fault information storage routine 150 refers to the memory management table 122 and performs fast boot or the like. The area on the memory 120 that is not a storage target area in the system disk 200 (storage flag is “0”) is secured and the transport firmware fault information is saved. At this time, a record of an area for saving the transport firmware failure information is generated in the memory management table 122, and both the storage flag and the non-volatile flag are set to “1”.

障害情報格納ルーチン150のCM再起動処理部153は,メモリ120上の不揮発対象領域のトランスポートファームウェア障害判定フラグ121を“1”に設定し,他のCM100’やエキスパンダ300に自CM100のリセットを依頼する。リセットの依頼を受けた他のCM100’やエキスパンダ300は,リセットの依頼を行った障害発生CM100をリセットする。   The CM restart processing unit 153 of the failure information storage routine 150 sets the transport firmware failure determination flag 121 of the nonvolatile target area on the memory 120 to “1”, and resets the own CM 100 to another CM 100 ′ or the expander 300. Request. The other CM 100 ′ or the expander 300 that has received the reset request resets the faulty CM 100 that has requested the reset.

リセットを受けた障害発生CM100では,アプリケーションコア111,トランスポートコア112がそれぞれ再起動する。このとき,アプリケーションコア111は,ファストブート起動を行う。ファストブート起動により,メモリ管理テーブル122で不揮発対象領域(不揮発フラグが“1”)に指定されたメモリ120上の領域のデータが,初期化されずに残された状態でCM100を起動することができる。   In the faulty CM 100 that has received the reset, the application core 111 and the transport core 112 are restarted. At this time, the application core 111 performs fast boot activation. The fast boot activation may activate the CM 100 in a state where the data in the area on the memory 120 designated as the non-volatile target area (non-volatile flag is “1”) in the memory management table 122 remains without being initialized. it can.

パワーオンルーチン160のトランスポートファームウェア障害判定処理部161は,問題発生原因に関する有用な障害情報が触られない起動の早い段階で,トランスポートファームウェア障害判定フラグ121を確認し,トランスポートファームウェア障害判定フラグ121が“1”である場合には,それを“0”にした後,障害情報格納ルーチン150をトランスポートファームウェア障害の旨で呼び出す。なお,トランスポートファームウェア障害判定フラグが“0”であった場合には,通常のパワーオン処理の後,通常ルーチン140を呼び出す。   The transport firmware failure determination processing unit 161 of the power-on routine 160 confirms the transport firmware failure determination flag 121 at an early stage of activation when the useful failure information regarding the cause of the problem is not touched. If 121 is “1”, it is set to “0” and then the failure information storage routine 150 is called to indicate that the transport firmware has failed. If the transport firmware failure determination flag is “0”, the normal routine 140 is called after the normal power-on process.

トランスポートコア112がリセットされ,動作可能な状態となっているため,アプリケーションコア111は,システムディスク200にアクセスすることができる。障害情報格納ルーチン150の障害情報データ格納処理部154は,トランスポートファームウェア障害によるCM100の再起動を確認すると,メモリ管理テーブル122を参照し,格納フラグが“1”であるメモリ領域に保持されているメモリ120上のデータを,障害情報データとしてシステムディスク200に格納する。このときシステムディスク200に格納されるデータには,トランスポートファームウェア障害情報が含まれている。   Since the transport core 112 is reset and in an operable state, the application core 111 can access the system disk 200. When the failure information data storage processing unit 154 of the failure information storage routine 150 confirms the restart of the CM 100 due to a transport firmware failure, the failure information data storage processing unit 154 refers to the memory management table 122 and holds it in the memory area whose storage flag is “1”. The stored data on the memory 120 is stored in the system disk 200 as failure information data. At this time, the data stored in the system disk 200 includes transport firmware failure information.

なお,障害がアプリケーションファームウェアの通常ルーチン140で発生した場合には,障害情報格納ルーチン150において,トランスポートファームウェア障害情報の退避や,CM100の再起動を行わずに,障害情報データ格納処理部154が,メモリ管理テーブル122で格納フラグが“1”であるメモリ領域に保持されているメモリ120上のデータを,障害情報データとしてシステムディスク200に格納する。   If the failure occurs in the normal routine 140 of the application firmware, the failure information storage routine 150 does not save the transport firmware failure information or restart the CM 100 in the failure information storage routine 150. The data on the memory 120 held in the memory area whose storage flag is “1” in the memory management table 122 is stored in the system disk 200 as failure information data.

以下,図4〜図6のフローチャートを用いて,本実施の形態におけるトランスポートファーム障害発生時の一連の処理の流れを説明する。   Hereinafter, a flow of a series of processing when a transport farm failure occurs in the present embodiment will be described using the flowcharts of FIGS.

図4は,アプリケーションコアによるトランスポートファームウェア障害発生時における障害情報格納処理フローチャート(1)である。図4のフローチャートに示す処理は,障害情報データのシステムディスク200への格納のための準備段階の処理である。   FIG. 4 is a failure information storage processing flowchart (1) when a transport firmware failure occurs by the application core. The process shown in the flowchart of FIG. 4 is a preparatory process for storing failure information data in the system disk 200.

アプリケーションコア111は,トランスポートファームウェア170の障害発生を検出すると(ステップS10),それまでの通常状態から障害情報格納状態に遷移する(ステップS11)。このとき,自らが障害情報格納状態であることを,他のCM100’やエキスパンダ300等に通知する(ステップS12)。   When the application core 111 detects the occurrence of a failure in the transport firmware 170 (step S10), the application core 111 transits from the normal state until then to the failure information storage state (step S11). At this time, it notifies the other CM 100 ', the expander 300, etc. that it is in the failure information storage state (step S12).

メモリ管理テーブル122を参照し,他の制御に影響がなく,格納フラグが“0”であるメモリ120上の領域を,トランスポートファームウェア障害情報退避領域として確保し(ステップS13),確保された領域を,格納フラグ“1”,不揮発フラグ“1”でメモリ管理テーブル122に登録する(ステップS14)。トランスポートファームウェア障害情報を,トランスポートコア112からトランスポートファームウェア障害情報退避領域に退避する(ステップS15)。   By referring to the memory management table 122, an area on the memory 120 that has no influence on other controls and whose storage flag is “0” is secured as a transport firmware failure information save area (step S13), and the secured area Are registered in the memory management table 122 with the storage flag “1” and the nonvolatile flag “1” (step S14). The transport firmware failure information is saved from the transport core 112 to the transport firmware failure information saving area (step S15).

トランスポートファームウェア障害判定フラグ121を“1”に設定し(ステップS16),自CM100をファストブートで再起動する(ステップS17)。   The transport firmware failure determination flag 121 is set to “1” (step S16), and the own CM 100 is restarted by fast boot (step S17).

図5は,アプリケーションコアによるトランスポートファームウェア障害発生時における障害情報格納処理フローチャート(2)である。図5のフローチャートに示す処理は,CM100再起動段階の処理である。実際には,さまざまな初期化処理が行われるが,ここでは,トランスポートファームウェア障害判定処理についてのみ説明する。   FIG. 5 is a failure information storage processing flowchart (2) when a transport firmware failure occurs by the application core. The process shown in the flowchart of FIG. 5 is a process in the CM 100 restart stage. In practice, various initialization processes are performed, but only the transport firmware failure determination process will be described here.

アプリケーションコア111は,ファストブート起動が行われると,初期化処理の比較的早い段階で,トランスポートファームウェア障害判定フラグ121を確認する(ステップS20)。トランスポートファームウェア障害判定フラグ121が“1”でなければ(ステップS21),通常通りの初期化処理を行い,通常ルーチン140に移る。トランスポートファームウェア障害判定フラグ121が“1”であれば(ステップS21),トランスポートファームウェア障害判定フラグ121を“0”に設定し(ステップS22),その他必要な初期化処理を行い,障害情報格納ルーチン150に移る。   When the fast boot activation is performed, the application core 111 checks the transport firmware failure determination flag 121 at a relatively early stage of the initialization process (step S20). If the transport firmware failure determination flag 121 is not “1” (step S21), the normal initialization process is performed, and the process proceeds to the normal routine 140. If the transport firmware failure determination flag 121 is “1” (step S21), the transport firmware failure determination flag 121 is set to “0” (step S22), other necessary initialization processing is performed, and failure information is stored. Move on to routine 150.

図6は,アプリケーションコアによるトランスポートファームウェア障害発生時における障害情報格納処理フローチャート(3)である。図6のフローチャートに示す処理は,トランスポートファームウェア障害情報を含む障害情報データのシステムディスク200への格納段階の処理である。   FIG. 6 is a failure information storage processing flowchart (3) when a transport firmware failure occurs by the application core. The process shown in the flowchart of FIG. 6 is a process of storing failure information data including transport firmware failure information in the system disk 200.

アプリケーションコア111は,CM100再起動後に障害情報格納ルーチン150の動作に移ると,メモリ管理テーブル122を確認し(ステップS30),メモリ120上の格納フラグが“1”に設定されているメモリ領域のデータを,システムディスク200に格納する(ステップS31)。   When the application core 111 moves to the operation of the failure information storage routine 150 after restarting the CM 100, the application core 111 checks the memory management table 122 (step S30), and stores the memory area in which the storage flag on the memory 120 is set to “1”. Data is stored in the system disk 200 (step S31).

以上,本発明の実施の形態について説明したが,本発明はこれに限るものではない。例えば,本実施の形態では,1つのプロセッサコアがトランスポート制御用のプロセッサコアであるデュアルコアプロセッサ構成について説明したが,1つのプロセッサコアがトランスポート制御用のプロセッサコアである3つ以上のプロセッサコアを持つマルチコアプロセッサ構成であってもよい。   Although the embodiment of the present invention has been described above, the present invention is not limited to this. For example, in the present embodiment, the dual core processor configuration in which one processor core is a processor core for transport control has been described. However, three or more processors in which one processor core is a processor core for transport control. A multi-core processor configuration having a core may be used.

本発明の実施の形態によるディスクアレイ装置の構成例を示す図である。It is a figure which shows the structural example of the disk array apparatus by embodiment of this invention. メモリ管理テーブルの例を示す図である。It is a figure which shows the example of a memory management table. アプリケーションファームウェアの各ルーチンの機能構成例を示す図である。It is a figure which shows the function structural example of each routine of application firmware. アプリケーションコアによるトランスポートファームウェア障害発生時における障害情報格納処理フローチャート(1)である。It is a failure information storage processing flowchart (1) at the time of transport firmware failure occurrence by an application core. アプリケーションコアによるトランスポートファームウェア障害発生時における障害情報格納処理フローチャート(2)である。It is a failure information storage process flowchart (2) at the time of transport firmware failure by an application core. アプリケーションコアによるトランスポートファームウェア障害発生時における障害情報格納処理フローチャート(3)である。It is a failure information storage process flowchart (3) at the time of transport firmware failure by an application core. 故障発生時の障害情報データの採取を説明するための図である。It is a figure for demonstrating collection of the failure information data at the time of failure occurrence. 本発明の課題を説明する図である。It is a figure explaining the subject of this invention.

符号の説明Explanation of symbols

10 ディスクアレイ装置
100,100’ CM
110 CPU
111 アプリケーションコア
112 トランスポートコア
120 メモリ
121 トランスポートファームウェア障害判定フラグ
122 メモリ管理テーブル
130 アプリケーションファームウェア
140 通常ルーチン
150 障害情報格納ルーチン
151 障害情報格納状態通知処理部
152 トランスポートファームウェア障害情報退避処理部
153 CM再起動処理部
154 障害情報データ格納処理部
160 パワーオンルーチン
161 トランスポートファームウェア障害判定処理部
170 トランスポートファームウェア
200 システムディスク
300 エキスパンダ
10 Disk array device 100, 100 'CM
110 CPU
111 Application Core 112 Transport Core 120 Memory 121 Transport Firmware Failure Determination Flag 122 Memory Management Table 130 Application Firmware 140 Normal Routine 150 Failure Information Storage Routine 151 Failure Information Storage Status Notification Processing Unit 152 Transport Firmware Failure Information Save Processing Unit 153 CM Restart processing unit 154 Fault information data storage processing unit 160 Power-on routine 161 Transport firmware fault determination processing unit 170 Transport firmware 200 System disk 300 Expander

Claims (4)

1つのプロセッサコアがトランスポート制御用プロセッサコアであり,トランスポート制御用プロセッサコア以外の少なくとも1つのプロセッサコアが障害情報データ採取機能を有するプロセッサコアであるマルチコアプロセッサと,マルチコアプロセッサのメモリと,メモリから採取されたメモリダンプデータを障害情報データとして格納するシステムディスクとを備えたディスクアレイ装置であって,
前記マルチコアプロセッサの再起動時にデータが初期化されない前記メモリの不揮発対象領域には,前記メモリを領域ごとに管理する情報であり,少なくとも不揮発対象領域か否かを示す情報と障害発生時にデータが採取される格納対象領域であるか否かを示す情報とを有するメモリ管理情報と,前記トランスポート制御用プロセッサコアの障害か否かを示す情報とが記憶され,
前記障害情報データ採取機能を有するプロセッサコアは,
前記トランスポート制御用プロセッサコアの障害発生時に,前記メモリの不揮発対象領域でありかつ格納対象領域である領域に,前記トランスポート制御用プロセッサコアの障害情報を退避する手段と,
前記トランスポート制御用プロセッサコアの障害か否かを示す情報に前記トランスポート制御用プロセッサコアの障害である旨を設定し,前記マルチコアプロセッサを再起動する手段と,
再起動時に,前記トランスポート制御用プロセッサコアの障害か否かを示す情報が前記トランスポート制御用プロセッサコアの障害である旨を示している場合に,前記メモリ管理情報で格納対象領域に設定されている前記メモリの領域に記録されたデータを採取し,前記トランスポート制御用プロセッサコアを介して,前記システムディスクに格納する手段とを備える
ことを特徴とするディスクアレイ装置。
A multi-core processor in which one processor core is a processor core for transport control and at least one processor core other than the transport control processor core is a processor core having a fault information data collection function; a memory of the multi-core processor; and a memory A disk array device comprising a system disk for storing memory dump data collected from as fault information data,
The non-volatile target area of the memory whose data is not initialized when the multi-core processor is restarted is information for managing the memory for each area, and at least information indicating whether or not the non-volatile target area and data are collected when a failure occurs Memory management information having information indicating whether or not the storage target area is to be stored, and information indicating whether or not the transport control processor core is faulty,
The processor core having the failure information data collection function is:
Means for saving failure information of the transport control processor core in a non-volatile target area and a storage target area of the memory when a failure occurs in the transport control processor core;
Means for setting in the information indicating whether or not the transport control processor core is faulty, a fault of the transport control processor core, and restarting the multi-core processor;
When the information indicating whether or not the transport control processor core is faulty indicates that the transport control processor core is faulty at the time of restart, the memory management information sets the storage target area. Means for collecting data recorded in the memory area and storing the data in the system disk via the transport control processor core.
請求項1に記載されたディスクアレイ装置において,
前記トランスポート制御用プロセッサコアの障害情報を退避する手段は,前記トランスポート制御用プロセッサコアの障害情報を退避する前記メモリ上の領域を動的に確保し,確保された領域を前記メモリ管理情報に不揮発対象領域かつ格納対象領域として登録し,確保された領域に前記トランスポート制御用プロセッサコアの障害情報を退避する
ことを特徴とするディスクアレイ装置。
The disk array device according to claim 1,
The means for saving failure information of the transport control processor core dynamically secures an area on the memory for saving the failure information of the transport control processor core, and the reserved area is the memory management information. A disk array device, wherein the failure information of the processor core for transport control is saved in a reserved area.
1つのプロセッサコアがトランスポート制御用プロセッサコアであり,トランスポート制御用プロセッサコア以外の少なくとも1つのプロセッサコアが障害情報データ採取機能を有するプロセッサコアであるマルチコアプロセッサと,マルチコアプロセッサのメモリと,メモリから採取されたメモリダンプデータを障害情報データとして格納するシステムディスクとを備え,マルチコアプロセッサの再起動時にデータが初期化されないメモリの不揮発対象領域には,メモリを領域ごとに管理する情報であり,少なくとも不揮発対象領域か否かを示す情報と障害発生時にデータが採取される格納対象領域であるか否かを示す情報とを有するメモリ管理情報と,トランスポート制御用プロセッサコアの障害か否かを示す情報とが記憶されたディスクアレイ装置におけるトランスポート制御用プロセッサコアの障害情報データ採取方法であって,
前記障害情報データ採取機能を有するプロセッサコアが,
前記トランスポート制御用プロセッサコアの障害発生時に,前記メモリの不揮発対象領域でありかつ格納対象領域である領域に,前記トランスポート制御用プロセッサコアの障害情報を退避する過程と,
前記トランスポート制御用プロセッサコアの障害か否かを示す情報に前記トランスポート制御用プロセッサコアの障害である旨を設定し,前記マルチコアプロセッサを再起動する過程と,
再起動時に,前記トランスポート制御用プロセッサコアの障害か否かを示す情報が前記トランスポート制御用プロセッサコアの障害である旨を示している場合に,前記メモリ管理情報で格納対象領域に設定されている前記メモリの領域に記録されたデータを採取し,前記トランスポート制御用プロセッサコアを介して,前記システムディスクに格納する過程とを有する
ことを特徴とするトランスポート制御用プロセッサコアの障害情報データ採取方法。
A multi-core processor in which one processor core is a processor core for transport control and at least one processor core other than the transport control processor core is a processor core having a fault information data collection function; a memory of the multi-core processor; and a memory A system disk that stores memory dump data collected from the system as failure information data, and the data is not initialized when the multi-core processor is restarted. Memory management information having at least information indicating whether it is a non-volatile target area and information indicating whether it is a storage target area from which data is collected when a failure occurs, and whether there is a fault in the transport control processor core Display information A fault information data collection process of the transport controller processor cores in the array device,
A processor core having the failure information data collection function;
A process of saving failure information of the transport control processor core in a non-volatile target area and a storage target area of the memory when a failure occurs in the transport control processor core;
Setting the information indicating whether or not the transport control processor core is faulty as a fault of the transport control processor core and restarting the multi-core processor;
When the information indicating whether or not the transport control processor core is faulty indicates that the transport control processor core is faulty at the time of restart, the memory management information sets the storage target area. And collecting the data recorded in the memory area and storing the data in the system disk via the transport control processor core. Fault information of the transport control processor core Data collection method.
請求項3に記載されたトランスポート制御用プロセッサコアの障害情報データ採取方法において,
前記トランスポート制御用プロセッサコアの障害情報を退避する過程では,前記トランスポート制御用プロセッサコアの障害情報を退避する前記メモリ上の領域を動的に確保し,確保された領域を前記メモリ管理情報に不揮発対象領域かつ格納対象領域として登録し,確保された領域に前記トランスポート制御用プロセッサコアの障害情報を退避する
ことを特徴とするトランスポート制御用プロセッサコアの障害情報データ採取方法。
In the failure information data collection method of the transport control processor core according to claim 3,
In the process of saving fault information of the transport control processor core, an area on the memory for saving the fault information of the transport control processor core is dynamically secured, and the reserved area is assigned to the memory management information A failure control data collection method for a transport control processor core, wherein the failure information of the transport control processor core is saved in a reserved area.
JP2007105489A 2007-04-13 2007-04-13 Failure information data collection method for disk array device and transport control processor core Active JP4945774B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007105489A JP4945774B2 (en) 2007-04-13 2007-04-13 Failure information data collection method for disk array device and transport control processor core

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007105489A JP4945774B2 (en) 2007-04-13 2007-04-13 Failure information data collection method for disk array device and transport control processor core

Publications (2)

Publication Number Publication Date
JP2008262438A JP2008262438A (en) 2008-10-30
JP4945774B2 true JP4945774B2 (en) 2012-06-06

Family

ID=39984856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007105489A Active JP4945774B2 (en) 2007-04-13 2007-04-13 Failure information data collection method for disk array device and transport control processor core

Country Status (1)

Country Link
JP (1) JP4945774B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014574A (en) 2010-07-02 2012-01-19 Fujitsu Ltd Storage device, configuration information storage method and configuration information storage program
JP6524621B2 (en) * 2014-08-25 2019-06-05 日本電気株式会社 Peripheral control processing device, information processing system and log storage method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137630A (en) * 1998-11-04 2000-05-16 Nec Corp Memory dump system and method therefor
JP2001034508A (en) * 1999-07-22 2001-02-09 Hitachi Ltd Memory dump collection method and its execution device, and recording medium recording memory dump collection program
EP1089506A3 (en) * 1999-10-01 2002-04-24 Lucent Technologies Inc. Apparatus and method for integrated telecommunications

Also Published As

Publication number Publication date
JP2008262438A (en) 2008-10-30

Similar Documents

Publication Publication Date Title
US8135985B2 (en) High availability support for virtual machines
US8074222B2 (en) Job management device, cluster system, and computer-readable medium storing job management program
US9158628B2 (en) Bios failover update with service processor having direct serial peripheral interface (SPI) access
US9043656B2 (en) Securing crash dump files
US9335998B2 (en) Multi-core processor system, monitoring control method, and computer product
US8201020B2 (en) Method apparatus and system for a redundant and fault tolerant solid state disk
EP2800303B1 (en) Switch method, device and system for virtual application dual machine in cloud environment
US8762648B2 (en) Storage system, control apparatus and control method therefor
JP6034990B2 (en) Server control method and server control apparatus
US9448889B2 (en) BIOS failover update with service processor
US9448808B2 (en) BIOS update with service processor without serial peripheral interface (SPI) access
US20070220350A1 (en) Memory dump method, memory dump program and computer system
US20100083250A1 (en) Virtual machine system, and method for managing thereof
US8219851B2 (en) System RAS protection for UMA style memory
JP4903244B2 (en) Computer system and failure recovery method
WO2006082657A1 (en) Multi cpu computer and system restart method
JP2007133544A (en) Failure information analysis method and its implementation device
US20080195836A1 (en) Method or Apparatus for Storing Data in a Computer System
JP6599725B2 (en) Information processing apparatus, log management method, and computer program
US20180059950A1 (en) Selective mirroring of predictively isolated memory
JP2007080012A (en) Rebooting method, system and program
US10296218B2 (en) Update control method, update control apparatus, and storage medium
JP4945774B2 (en) Failure information data collection method for disk array device and transport control processor core
JP6802484B2 (en) Storage controller, storage control program and storage control method
JP5078592B2 (en) How to perform a failover

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4945774

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150