JP2015162000A - 情報処理装置,制御装置及びログ情報収集方法 - Google Patents

情報処理装置,制御装置及びログ情報収集方法 Download PDF

Info

Publication number
JP2015162000A
JP2015162000A JP2014035549A JP2014035549A JP2015162000A JP 2015162000 A JP2015162000 A JP 2015162000A JP 2014035549 A JP2014035549 A JP 2014035549A JP 2014035549 A JP2014035549 A JP 2014035549A JP 2015162000 A JP2015162000 A JP 2015162000A
Authority
JP
Japan
Prior art keywords
log information
information
processing
unit
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014035549A
Other languages
English (en)
Inventor
友三 桑折
Yuzo Kuwaori
友三 桑折
進之介 松田
Shinnosuke Matsuda
進之介 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014035549A priority Critical patent/JP2015162000A/ja
Priority to US14/611,295 priority patent/US20150242266A1/en
Publication of JP2015162000A publication Critical patent/JP2015162000A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]

Abstract

【課題】処理装置の動作不能状態においても監視対象装置のログ情報の収集を確実に行なう。
【解決手段】制御装置10は、処理装置12における障害発生を監視する監視部111と、監視部111が障害発生を検知した場合に、監視対象装置14からログ情報を採取する情報採取部112と、情報採取部112が採取したログ情報を第1記憶装置13に格納する第1格納処理部114aと、を備える。
【選択図】図1

Description

本発明は、情報処理装置,制御装置及びログ情報収集方法に関する。
ストレージ装置が備えるController Module(CM)には、CM内部のCentral Processing Unit(CPU)がCM内部のデバイスにおけるログ情報を収集するものが知られている。このようなCMにおいて、デバイスやバスに異常が発生した場合には、収集したログ情報を解析することによって被疑箇所を特定することができる。
図9は、従来例としてのストレージ装置が備えるCMにおけるログ情報収集処理を例示する図である。
図9においては、ストレージ装置が備える2つのCM(CM#0,#1)30を示している。
以下、2つのCMのうち1つを特定する必要があるときには「CM#0」又は「CM#1」と表記するが、任意のCMを指すときには「CM30」と表記する。
CM30は、Field-Programmable Gate Array(FPGA)31,CPU32及びNon-Volatile Random Access Memory(NVRAM;不揮発性メモリ)33を備える。
また、CM#0は、FPGA31,CPU32及び不揮発性メモリ33に加えて、3つのデバイス34(デバイス#0〜#2)及びスイッチ(SW)35を備える。
以下、3つのデバイスのうち1つを特定する必要があるときには「デバイス#0」,「デバイス#1」又は「デバイス#2」と表記するが、任意のデバイスを指すときには「デバイス34」と表記する。
CM#0のFPGA31とCM#1のFPGA31とは、FPGA間通信により互いに通信可能に接続される。また、各CM30において、FPGA31とCPU32とは例えばバス線を介して互いに通信可能に接続され、FPGA31と不揮発性メモリ33とも例えばバス線を介して互いに通信可能に接続される。
CM#0においては、CPU32は3つの高速Interface(IF)321及び低速IF322を備え、各デバイス34は高速IF341及び低速IF342を備える。そして、CPU32の各高速IF321と各デバイス34の高速IF341とは、データ通信用高速バスによって互いに通信可能に接続される。また、CPU32の低速IF322と各デバイス34の低速IF342とは、SW35を介して、ログ採取用低速バスによって互いに通信可能に接続される。
CM#0のCPU32は、ログ情報採取処理においてマスターとなり、ログ採取用低速バスを介してスレーブとしてのデバイス34にアクセスすることにより、デバイス34からログ情報を採取する。そして、採取されたログ情報は、障害発生時の原因解析等に利用される。
特開平10−207742号公報 特開平5−165657号公報
図9に示す例においては、CM#0のCPU32の高速IF321とデバイス#0の高速IF341との間のデータ通信用高速バスで障害が発生している(符号C1参照)。そして、発生した障害がCPU32に伝搬し、CPU32がハングアップ状態になっている(符号C2参照)。
このように、CPU32がハングアップ状態になった場合には、CPU32はログ採取用低速バスを介してデバイス34からログ情報を採取できないため、被疑箇所が特定できないという課題がある。
1つの側面では、本発明は、処理装置の動作不能状態においても監視対象装置のログ情報の収集を確実に行なうことを目的とする。
なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本発明の他の目的の1つとして位置付けることができる。
このため、この情報処理装置は、監視対象装置と通信可能に接続される制御装置を有する情報処理装置であって、前記制御装置は、処理装置における障害発生を監視する監視部と、前記監視部が前記障害発生を検知した場合に、前記監視対象装置からログ情報を採取する情報採取部と、前記情報採取部が採取した前記ログ情報を第1記憶装置に格納する第1格納処理部と、を備える。
開示の情報処理装置によれば、処理装置の動作不能状態においても監視対象装置のログ情報の収集を確実に行なうことができる。
実施形態の一例としてのストレージシステムの機能構成を模式的に示す図である。 実施形態の一例としてのストレージ装置が備えるFPGAの詳細な機能構成を模式的に示す図である。 実施形態の一例としてのストレージ装置が備えるCMにおけるログ情報収集処理を例示する図である。 実施形態の一例としてのストレージ装置におけるログ情報送受信処理を説明する図である。 実施形態の一例としてのストレージ装置が使用するパケットを例示する図である。 実施形態の一例としてのストレージ装置が使用するパケットを例示する図である。 実施形態の一例としてのストレージ装置におけるログ情報収集処理を示すフローチャートである。 実施形態の一例としてのストレージ装置におけるログ情報収集処理を例示するシーケンス図である。 従来例としてのストレージ装置が備えるCMにおけるログ情報収集処理を例示する図である。
以下、図面を参照して情報処理装置,制御装置及びログ情報収集方法に係る一実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。
また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
以下、図中において、同一の各符号は同様の部分を示しているので、その説明は省略する。
〔A〕実施形態の一例
〔A−1〕システム構成
図1は、実施形態の一例としてのストレージシステムの機能構成を模式的に示す図である。
本実施形態の一例におけるストレージシステム100は、図1に示すように、ストレージ装置(情報処理装置)1及びサーバ装置2を備え、これらのストレージ装置1とサーバ装置2とは、例えばLocal Area Network(LAN)によって互いに通信可能に接続される。
サーバ装置2は、例えば、サーバ機能を備えたコンピュータである。図1に示す例においては、1つのサーバ装置2を備えているが、2つ以上のサーバ装置2を備えることとしても良い。
ストレージ装置1は、後述する複数の記憶装置21を搭載し、サーバ装置2に対して記憶領域を提供する装置であり、例えばRedundant Arrays of Inexpensive Disks(RAID)を用いて複数の記憶装置21にデータを分散し、冗長化した状態で保存する。本実施形態の一例におけるストレージ装置1は、複数(図示する例では2つ)のCM10(CM#0,CM#1;制御装置)及びDisk Enclosure(DE)20を備える。
以下、2つのCMのうち1つを特定する必要があるときには「CM#0」又は「CM#1」と表記するが、任意のCMを指すときには「CM10」と表記する。
本ストレージ装置1は、2つのCM10を備える冗長構成とすることにより、プライマリとしてのCM10(例えばCM#0)が異常状態となった場合においてもセカンダリとしてのCM10(例えばCM#1)により継続して動作することができる。
DE20は、冗長化のためにCM#0,#1のそれぞれとアクセスパスで通信可能に接続されており、複数(図示する例では4つ)の記憶装置21を備える。
記憶装置21は、データを読み書き可能に格納する既知の装置であり、例えば、Hard Disk Drive(HDD)やSolid State Drive(SSD)である。これらの記憶装置21は、互いに同様の機能構成を備える。
CM10は、種々の制御を行なう制御装置であり、サーバ装置2からのストレージアクセス要求(アクセス制御信号:以下、ホストI/Oという)に従って、各種制御を行なう。本実施形態の一例におけるCM10は、FPGA11,CPU(処理装置)12,不揮発性メモリ(NVRAM,第1記憶装置,第2記憶装置)13,デバイス(監視対象装置)14,メモリ16,Input/Output Controller(IOC)17及びエキスパンダ18を備える。
IOC17は、CPU12とDE20との間のデータ転送を実施し、例えば、専用チップとして構成される。
エキスパンダ18は、CM10とDE20とを中継する装置であり、ホストI/Oに基づくデータ転送を行なう。すなわち、CM10は、本ストレージ装置1に備えられた各記憶装置21に対して、エキスパンダ18を介してアクセスする。
デバイス14は、CM10に備えられる種々の装置である。図1に示す例においては、簡単のためCM10が1つのデバイス14のみを備えているが、CM10は複数のデバイス14を備えても良い。また、デバイス14はCM10のオンボードに備えられても良いし、Peripheral Component Interconnect(PCI)カード等の種々のアドインカードをデバイス14とすることによってCM10と通信可能に接続されても良い。
不揮発性メモリ13は、例えばNANDフラッシュメモリやSerial Advanced Technology Attachment Solid State Drive(SATA SSD)であり、CM10への電力供給が停止してもデータを保持し続ける。本実施形態の一例において、不揮発性メモリ13は、デバイス14から採取したログ情報(システム情報)を格納する。
メモリ16は、Read Only Memory(ROM)及びRandom Access Memory(RAM)を含む記憶装置である。メモリ16のROMには、Basic Input/Output System(BIOS)等のプログラムが書き込まれている。メモリ16上のソフトウェアプログラムは、CPU12に適宜読み込まれて実行される。また、メモリ16のRAMは、例えばDouble-Data-Rate3 Synchronous Dynamic Random Access Memory(DDR3 SDRAM)であり、一次記録メモリあるいはワーキングメモリとして利用される。
CPU12は、種々の制御や演算を行なう処理装置であり、メモリ16に格納されたOperating System(OS)やプログラムを実行することにより、種々の機能を実現する。
なお、種々の機能を実現するためのプログラムは、例えばフレキシブルディスク,CD(CD−ROM,CD−R,CD−RW等),DVD(DVD−ROM,DVD−RAM,DVD−R,DVD+R,DVD−RW,DVD+RW,HD DVD等),ブルーレイディスク,磁気ディスク,光ディスク,光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータはその記録媒体から図示しない読取装置を介してプログラムを読み取って内部記録装置または外部記録装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信経路を介してコンピュータに提供してもよい。
種々の機能を実現する際には、内部記憶装置(本実施形態ではメモリ16)に格納されたプログラムがコンピュータのマイクロプロセッサ(本実施形態ではCPU12)によって実行される。このとき、記録媒体に記録されたプログラムをコンピュータが読み取って実行してもよい。
FPGA11は、任意に構成を設定できる集積回路であり、図1に示すように、監視部111,情報採取部112,第1格納処理部113a,第2格納処理部113b,送信部114a,受信部114b及び再起動処理部115として機能する。本実施形態の一例において、CM#0のFPGA11とCM#1のFPGA11とは、例えばFPGA間通信によって通信可能に接続される。
監視部111は、同一CM10上のCPU12を監視し、CPU12において発生した障害を検知する。
情報採取部112は、監視部111がCPU12における障害発生を検知した場合に、デバイス14からログ情報を採取する。
第1格納処理部113aは、情報採取部112が採取したログ情報を不揮発性メモリ13に格納する。
FPGA11(CM10)は、例えば、Non-Maskable Interrupt(NMI;処理装置強制割り込み)処理とソフトウェアリセット(ソフトリセット)処理とハードウェアリセット(ハードリセット)処理とを含む図示しない複数種類のリカバリ処理機能を備える。そして、FPGA11(CM10)は、例えば各リカバリ処理を行なう複数のタイミングにおいて、情報採取部112によるログ情報の採取と、第1格納処理部113aによるログ情報の格納とを、繰り返し行なう。つまり、不揮発性メモリ13は、各リカバリ処理に係る複数のログ情報を格納する。
送信部114aは、情報採取部112が採取したログ情報を他のCM10に送信する。例えば、CM#0の送信部114aは、情報採取部112が採取したログ情報をFPGA間通信によってCM#1に送信する。具体的には、送信部114aは、CPU12のハングアップ(動作不能状態)が確定した後に、不揮発性メモリ13に格納された複数のログ情報を送信する。なお、送信部114aによるログ情報送信処理の詳細については、図4を用いて後述する。
受信部114bは、他のCM10が送信したログ情報を受信する。例えば、CM#1の受信部114bは、FPGA間通信によってCM#0が送信したログ情報を受信する。
第2格納処理部113bは、受信部114bが受信したログ情報を不揮発性メモリ13に格納する。
再起動処理部115は、送信部114aがログ情報を他のCM10に送信した後に、当該再起動処理部115が備えられた(自系の)CM10を再起動させる。なお、再起動処理部115は、障害が発生した箇所(被疑箇所)及び障害が伝搬した箇所である自系のデバイス14及びCPU12のみを再起動させても良い。
図2は、実施形態の一例としてのストレージ装置が備えるFPGAの詳細な機能構成を模式的に示す図である。
図2に示すFPGA11は、Low Pin Count bus(LPC)111−1,Watch Dog Timeout(WDT)111−2,Inter-Integrated Circuit(I2C)112,NVRAM Interface(NIF)113,Communication(COM)114−1及びProtocol Interface(PIF)114−2の各モジュールを備える。
LPC111−1及びWDT111−2は、図1に示した監視部111としての機能に相当する。
LPC111−1は、CPU12がFPGA11にアクセスするためのインタフェース制御を行なう。
WDT111−2は、Watch Dog Timeout 1(WDTO[1])111a,WDTO[2]111b,WDTO[3]111c及びレジスタ111dの各モジュールを備える。CPU12は、LPC111−1を経由して、例えば1バイトのレジスタ111dに定期的に書き込み(ウォッチドックライト)を発行する。これにより、WDT111−2は、CPU12が正常に動作していると認識する。
WDTO[1]111aは、レジスタ111dへの書き込みが所定時間ない(ウォッチドックタイム[1]が満了した)場合に、CPU12に対してNMIを発行し、I2C112に対してログ情報採取のリクエストを発行する。
WDTO[2]111bは、レジスタ111dへの書き込みが所定時間ない(ウォッチドックタイム[2]が満了した)場合に、CPU12に対してソフトウェアリセット(ソフトリセット)の指示を発行し、I2C112に対してログ情報採取のリクエストを発行する。
WDTO[3]111cは、レジスタ111dへの書き込みが所定時間ない(ウォッチドックタイム[3]が満了した)場合に、CPU12に対してハードウェアリセット(ハードリセット)の指示を発行し、I2C112に対してログ情報採取のリクエストを発行する。
以下、WDTO[1]111a,WDTO[2]111b及びWDTO[3]111cのリクエストによって採取されるログ情報をログ情報[1],ログ情報[2]及びログ情報[3]とそれぞれいう。
I2C112は、図1に示した情報採取部112としての機能に相当し、Request(REQ)112a,Finite State Machine(FSM)112b,IF112c及びレジスタ112dの各モジュールを備える。
REQ112aは、WDTO[1]111a,WDTO[2]111b又はWDTO[3]111cによるログ情報採取のリクエストをトリガとして、ログ情報採取リクエスト制御を行なう。
FSM112bは、REQ112aによるログ情報採取リクエスト制御に基づき、スイッチ15(SW;図3を用いて後述)のON/OFFの切り替えを行ない、データリードサイクルの状態管理を行なう。つまり、FSM112bは、スイッチ制御を行ない、FPGA11がI2C制御を行なうための経路を有効にする。
IF112cは、I2Cインタフェース制御を行なう。具体的には、IF112cは、1つ又は複数(図3を用いて後述する例では3つ)のデバイス14から例えば1キロバイトのログ情報[1]〜[3]をそれぞれ採取する。
そして、I2C112は、IF112cを介して各デバイス14から採取したログ情報を例えば32バイトのレジスタ112dに順次格納し、格納したログ情報を例えば8バイト単位でNIF113に順次転送する。
NIF113は、図1に示した第1格納処理部113a及び第2格納処理部113bとしての機能に相当する。NIF113は、NVRAM(不揮発性メモリ)制御を行ない、REQ113−1及びIF113−2の各モジュールを備える。
REQ113−1は、NVRAM13に対する書き込み/読み出しのリクエストを受け付ける。REQ113−1が受付可能なリクエストの種類には、例えば、Write from OwnCM(I2C),Write from OtherCM(COM),Write to OtherCM(COM)及びRead from CPUがある。
Write from OwnCM(I2C)は、自系のCM10においてI2C112を介して各デバイス14から採取されたログ情報[1]〜[3]をNVRAM13に格納するリクエストである。Write from OtherCM(COM)は、他系のCM10からCOM114−1を介して受信したログ情報[1]〜[3]をNVRAM13に格納するリクエストである。Write to OtherCM(COM)は、自系のCM10において採取されたログ情報[1]〜[3]を他系のCM10に転送するリクエストである。そして、Read from CPUは、自系のCPU12からLPC111−1を介してNVRAM13が格納する種々のデータを読み出すリクエストである。
つまり、REQ113−1がWrite from OwnCM(I2C)を受け付ける場合には、NIF113は、図1に示した第1格納処理部113aとして機能する。そして、NIF113は、I2C112からログ情報[1]〜[3]を受信すると、NVRAM13に対する書き込みを開始する。一方、REQ113−1がWrite from OtherCM(COM)を受け付ける場合には、NIF113は、図1に示した第2格納処理部113bとして機能する。そして、NIF113は、COM114−1からログ情報[1]〜[3]を受信すると、NVRAM13に対する書き込みを開始する。また、全てのログ情報[1]〜[3]についての採取及びNVRAM13に対する書き込みが完了すると、NIF113はWrite to OtherCM(COM)を受け付ける。そして、NIF113は、NVRAM13からログ情報[1]〜[3]を読み出し、他系(正常系)への送信を開始する。
IF113−2は、NVRAMインタフェース制御を行なう。NIF113は、IF113−2を介してログ情報[1]〜[3]の読み書きをNVRAM13に対して行なう。
COM114−1は、他系コミュニケーション制御を行ない、Transmission Controller(TCTL)114a及びReceive Controller(RCTL)114bの各モジュールを備える。
TCTL114aは、図1に示した送信部114aとしての機能に相当し、トランスファ制御を行なう。具体的には、TCTL114aは、NIF113から受信したログ情報[1]〜[3]をPIF114−2を介して他系のCM10に転送する。図2に示す例において、TCTL114aは、ログ情報[1]〜[3]を送信データ(TX DATA)信号とし、クロック(CLK)信号とともに送信する。
RCTL114bは、図1に示した受信部114bとしての機能に相当し、レシーバ制御を行なう。具体的には、RCTL114bは、他系のCM10からPIF114−2を介して受信したログ情報[1]〜[3]をNIF113に転送する。図2に示す例において、RCTL114bは、ログ情報[1]〜[3]を含む受信データ(RX DATA)信号をクロック(CLK)信号とともに受信する。
PIF114−2は、他系通信プロトコルインタフェース制御を行なう。他系通信プロトコルインタフェース制御で用いられるパケットについては、図5及び図6を用いて後述する。
そして、FPGA11は、図1に示した再起動処理部115としての機能に相当するモジュール(不図示)を備える。当該モジュールは、他系(正常系)へのログ情報[1]〜[3]の送信が完了すると、自系のCM10を再起動させる。
図3は、実施形態の一例としてのストレージ装置が備えるCMにおけるログ情報収集処理を例示する図である。
図3においては、本実施形態の一例としてのストレージ装置1が備えるCM#0及びCM#1を例示している。また、図3に示す例においては、CM#0を異常系とし、CM#1を正常系とする。
図3においては、簡単のため、CM#1が備えるデバイス14,メモリ16,IOC17及びエキスパンダ18の図示を省略している。また、CM#1が備えるメモリ16,IOC17及びエキスパンダ18の図示も省略し、CM#1は3つのデバイス(デバイス#0〜#2,監視対象装置)14及びスイッチ(SW)15を備えることとしている。
以下、3つのデバイスのうち1つを特定する必要があるときには「デバイス#0」,「デバイス#1」又は「デバイス#2」と表記するが、任意のデバイスを指すときには「デバイス14」と表記する。
CM#0のFPGA11とCM#1のFPGA11とは、FPGA間通信により互いに通信可能に接続される。また、各CM10において、FPGA11とCPU12とは例えばバス線を介して互いに通信可能に接続され、FPGA11と不揮発性メモリ13とも例えばバス線を介して互いに通信可能に接続される。
CM#0においては、CPU12は、Peripheral Component Interconnect Express(PCIe)やSerial Attached Small computer system interface(SAS)等の3つの高速IF121及び低速IF122を備える。また、各デバイス14は、高速IF141及び低速IF142を備える。そして、CPU12の各高速IF121と各デバイス14の高速IF141とは、データ通信用高速バスによって互いに通信可能に接続される。また、CPU12の低速IF122と各デバイス14の低速IF142とは、SW15を介して、ログ採取用低速バスによって互いに通信可能に接続される。更に、FPGA11と各デバイス14の低速IF142とも、SW15を介して、ログ採取用低速バスによって互いに通信可能に接続される。
図3に示す例においては、CM#0のCPU12の高速IF121とデバイス#0の高速IF141との間のデータ通信用高速バスで障害が発生している(符号A1参照)。そして、発生した障害がCPU12に伝搬し、CPU12がハングアップ状態になっている(符号A2参照)。このように、CPU12がハングアップ状態になった場合には、CPU12によるログ採取用低速バスを用いたログ情報収集処理が実行できなくなり、デバイス14からログ情報を採取できない。
そこで、本実施形態の一例においては、CPU12におけるハングアップが発生した場合に、ハードウェアであるFPGA11がログ情報の採取を自動実行し、採取したログ情報を正常系のCM#1に送信する。
具体的には、FPGA11は、CPU12における異常発生を検知し、CPU12と各デバイス14とをログ採取用低速バスで接続しているSW15の経路をFPGA11と各デバイス14とが接続されるように切り替える(符号A3参照)。言い換えれば、FPGA11は、図2を用いて説明したウォッチドックタイム[1]〜[3]のいずれかが満了した場合に、SW15を操作してCPU12をログ採取用低速バスから切断する。
FPGA11は、各デバイス14からログ情報を採取し(符号A4参照)、採取したログ情報を不揮発性メモリ13に格納する(符号A5参照)。言い換えれば、FPGA11は、ログ情報採取処理においてマスターとなり、ログ採取用低速バスを介してスレーブとしてのデバイス14にアクセスすることにより、デバイス14からログ情報を採取する。
ここで、CM#0のCPU12においては異常が発生しているため、FPGA11によって採取されたログ情報を異常系のCM#0で直ちに解析することはできない。そこで、FPGA11は、ウォッチドックタイムアウトから復帰した(CPU12の正常作動を認識した)場合や、CPU12のハングアップが確定した場合に、採取したログ情報を不揮発性メモリ13から読み出す。そして、FPGA11は、不揮発性メモリ13から読み出したログ情報を正常起動している他系のCM#1にFPGA間通信を用いて送信する(符号A6参照)。
正常系のCM#1のFPGA11は、異常系のCM#0から送信されたログ情報を受信し、不揮発性メモリ13に格納し(符号A7参照)、ログ情報の受信完了を自系のCPU12に通知する。
CM#1のCPU12は、FPGA11を介して自系の不揮発性メモリ13からログ情報を読み出し(符号A8参照)、読み出したログ情報を装置ログとして例えばメモリ16(図3には不図示)に格納する。
図4は、実施形態の一例としてのストレージ装置におけるログ情報送受信処理を説明する図である。
図4においては、本実施形態の一例としてのストレージ装置1が備えるCM#0及びCM#1の機能構成のうち一部を例示している。具体的には、図1に示した各CM10が備える機能構成のうち、FPGA11及び不揮発性メモリ(NVRAM)13のみを示している。また、各CM10のFPGA11においては、図2に示したFPGA11が備える機能構成のうち、NIF113及びCOM114−1のみを示している。
図4に示す例においては、COM114−1は、図2に示したTCTL114a及びRCTL114bに加えて、バッファ(BUF)[0]114c及びBUF[1]114dを備える。言い換えれば、COM114−1の一部は、図4に示すように、Block Buffer(BBUF)として機能する。
異常系のFPGA11のNIF113は、Write to OtherCM(COM)を受け付けると、NVRAM13からログ情報を読み出し、COM114−1のBUF[0]114cに格納する(符号B1参照)。NVRAM13から読み出されるログ情報は、例えば、データ(DT)が8ビット(1バイト)であり、アドレス(AD)が24ビット(3バイト)である。
BUF[0]114cは、格納したログ情報をTCTL114aに転送する(符号B2参照)。
TCTL114aは、ログ情報を図5及び図6を用いて後述するパケットとして正常系のFPGA11宛てに送信する(符号B3)。TCTL114aは、TX_DATAとしてパケットを送信し、TX_CLKとしてクロック信号を送信する。
正常系のFPGA11のRCTL114bは、異常系のFPGA11が送信したパケットを受信し、ログ情報としてBUF[1]114dに格納する(符号B4参照)。RCTL114bは、RX_DATAとしてパケットを受信し、RX_CLKとしてクロック信号を受信する。
BUF[1]114dは格納したログ情報をNIF113に転送し、NIF113はWrite from OtherCM(COM)を受け付けることによってログ情報をNVRAM13に格納する(符号B5参照)。NVRAM13に書き込まれるログ情報は、例えば、データ(DT)が8ビット(1バイト)であり、アドレス(AD)が24ビット(3バイト)である。
図5及び図6は、実施形態の一例としてのストレージ装置が使用するパケットを例示する図である。
本実施形態の一例におけるログ情報送受信処理に用いるパケットは、図5に示すように、64ビット(8バイト)で定義される。具体的には、63〜60ビットがStart Of Frame(SOF)であり、59〜52ビットがPacket ID(PID)であり、51〜44ビットがSerial ID(SID)であり、43〜12ビットがPayload(送信データ)であり、11〜4ビットが Cyclic Redundancy Check(CRC;保護コード)であり、3〜0ビットがEnd Of Frame(EOF)である。
図5に示すように、SOFには“1111”が設定される。また、図5に示すようにPIDの59〜56ビットにはそれぞれ“0”が設定され、図6に示すようにPIDの55〜52ビットには“00”〜“0c”が設定される。更に、図6に示すように、SIDには“0x00”〜“0xFF”が設定される。
図5に示すように、Payloadは領域(4)〜(1)に分割され、領域(4)〜(1)はPayloadにおける31〜24,23〜16,15〜8及び7〜0ビットにそれぞれ対応する。そして、図6に示すように、PIDが“00”〜“03”の場合には、Payloadの領域(4)にログ情報[1]に関する1キロバイトのデータが格納される。また、PIDが“04”〜“07”の場合にはPayloadの領域(4)にログ情報[2]に関する1キロバイトのデータが格納され、PIDが“08”〜“0C”の場合にはPayloadの領域(4)にログ情報[3]に関する1キロバイトのデータが格納される。更に、Payloadの領域(3)は拡張(Reserve)領域であり、Payloadの領域(2)及び(1)にはNVRAM13におけるアドレスが設定される。
図5に示す6つの両矢印はCRC演算単位であり、各CRC演算単位におけるCRC演算結果がCRCに設定される。そして、図5に示すように、EOFには“0000”が設定される。
なお、本実施形態の一例におけるログ情報送受信処理に用いるパケットの転送性能は、図6に示すように、1.0msである。
〔A−2〕動作
上述の如く構成された実施形態の一例としてのストレージ装置におけるログ情報収集処理を図7に示すフローチャート(ステップS1〜S16)に従って説明する。
WDT111−2は、CPU12からレジスタ111dに対する定期的な書き込みを検知するできないことにより、CPU12における障害発生を検知する(ステップS1)。
WDTO[1]111aは、ウォッチドックタイム[1]をカウントする(ステップS2)。
CPU12からレジスタ111dに対する書き込みが所定時間(例えば5秒)以内にあった場合には(ステップS2の“カウントクリア”ルート参照)、ウォッチドックタイム[1]のカウントをクリアしてステップS2に戻る。つまり、ウォッチドックタイム[1]のカウントを繰り返し行なう。
一方、CPU12からレジスタ111dに対する書き込みがない状態で所定時間(例えば5秒)経過した場合には(ステップS2の“5秒”ルート参照)、WDTO[1]111aは、CPU12に対してNMIを発行する(ステップS3)。
I2C112は、各デバイス14(例えば図3に示したデバイス#0〜#2)からのログ情報[1]の採取(ダンプ[1])を開始する(ステップS4)。
CPU12は、リカバリを実行する(ステップS5)。
リカバリによってCPU12が復帰した場合には(ステップS5の“復帰”ルート参照)、TCTL114aはFPGA間通信によって採取したログ情報[1]を他系のFPGA11に送信するとともに(ステップS15)、ステップS1に戻り待機する。
一方、リカバリに失敗した場合には(ステップS5の“リカバリ失敗”ルート参照)、WDTO[2]111bは、ウォッチドックタイム[2]をカウントする(ステップS6)。
CPU12からレジスタ111dに対する書き込みが所定時間(例えば5秒)以内にあった場合には(ステップS6の“カウントクリア”ルート参照)、ウォッチドックタイム[2]のカウントをクリアしてステップS6に戻る。つまり、ウォッチドックタイム[2]のカウントを再開する。
一方、CPU12からレジスタ111dに対する書き込みがない状態で所定時間(例えば5秒)経過した場合には(ステップS6の“5秒”ルート参照)、WDTO[2]111bは、CPU12に対してソフトウェアリセットの指示を発行する(ステップS7)。
I2C112は、各デバイス14(例えば図3に示したデバイス#0〜#2)からのログ情報[2]の採取(ダンプ[2])を開始する(ステップS8)。
CPU12は、リカバリを実行する(ステップS9)。
リカバリによってCPU12が復帰した場合には(ステップS9の“復帰”ルート参照)、TCTL114aはFPGA間通信によって採取したログ情報[1]及び[2]を他系のFPGA11に送信するとともに(ステップS15)、ステップS1に戻り待機する。
一方、リカバリに失敗した場合には(ステップS9の“リカバリ失敗”ルート参照)、WDTO[3]111cは、ウォッチドックタイム[3]をカウントする(ステップS10)。
CPU12からレジスタ111dに対する書き込みが所定時間(例えば10秒)以内にあった場合には(ステップS10の“カウントクリア”ルート参照)、ウォッチドックタイム[3]のカウントをクリアしてステップS10に戻る。つまり、ウォッチドックタイム[3]のカウントを再開する。
一方、CPU12からレジスタ111dに対する書き込みがない状態で所定時間(例えば10秒)経過した場合には(ステップS10の“10秒”ルート参照)、WDTO[3]111cは、CPU12に対してハードウェアリセットの指示を発行する(ステップS11)。
I2C112は、各デバイス14(例えば図3に示したデバイス#0〜#2)からのログ情報[3]の採取(ダンプ[3])を開始する(ステップS12)。
CPU12は、リカバリを実行する(ステップS13)。
リカバリによってCPU12が復帰した場合には(ステップS13の“復帰”ルート参照)、TCTL114aはFPGA間通信によって採取したログ情報[1],[2]及び[3]を他系のFPGA11に送信するとともに(ステップS15)、ステップS1に戻り待機する。
一方、リカバリに失敗した場合には(ステップS13の“リカバリ失敗”ルート参照)、FPGA11は、CPU12のハングアップが確定したと判断する(ステップS14)。
そして、TCTL114aは採取したログ情報[1],[2]及び[3]をFPGA間通信によって他系のFPGA11に送信するとともに(ステップS15)、FPGA11はファームウェア処理によって自系のCM10をDC−OFF状態にする(ステップS16)。つまり、FPGA11は、自系のCM10を再起動する。なお、FPGA11は、障害が発生した箇所(被疑箇所)及び障害が伝搬した箇所である自系のデバイス14及びCPU12のみを再起動させても良い。
次に、上述の如く構成された実施形態の一例としてのストレージ装置におけるログ情報収集処理を図8に例示するシーケンス図(ステップS21〜S51)に従って説明する。
図8に示すCM#0及びCM#1は図3に示したCM#0及びCM#1とそれぞれ同様の機能構成を備え、CM#0が異常系であり、CM#1が正常系である。
CM#0のCPU12は、FPGA11に対して定期的にウォッチドックライトを行なう。FPGA11のWDTO[1]111a,WDTO[2]111b及びWDTO[3]111cは、CPU12からのウォッチドックライトによりCPU12が正常に作動しているとそれぞれ認識する(ステップS21〜S23)。
ここで、デバイス#1において異常が発生し(ステップS24)、発生した異常がCPU12に伝搬する(ステップS25)。
FPGA11のWDTO[1]111aは、ウォッチドックタイム[1]の満了により、CPU12に対してNMIを発行する(ステップS26)。
FPGA11のI2C112は、SW15を切り替えることにより、FPGA11と各デバイス14との経路をONにする(ステップS27)。
FPGA11のI2C112は、デバイス#0〜#2からログ情報[1]を採取する(ステップS28〜S30)。
FPGA11のNIF113は、採取したログ情報[1]をNVRAM13に格納する(ステップS31)。
FPGA11のI2C112は、SW15を切り替えることにより、FPGA11と各デバイス14との経路をOFFにする(ステップS32)。
FPGA11のWDTO[2]111bは、ウォッチドックタイム[2]の満了により、CPU12に対してソフトウェアリセットを指示する(ステップS33)。
FPGA11のI2C112は、SW15を切り替えることにより、FPGA11と各デバイス14との経路をONにする(ステップS34)。
FPGA11のI2C112は、デバイス#0〜#2からログ情報[2]を採取する(ステップS35〜S37)。
FPGA11のNIF113は、採取したログ情報[2]をNVRAM13に格納する(ステップS38)。
FPGA11のI2C112は、SW15を切り替えることにより、FPGA11と各デバイス14との経路をOFFにする(ステップS39)。
FPGA11のWDTO[3]111bは、ウォッチドックタイム[3]の満了により、CPU12に対してハードウェアリセットを指示する(ステップS40)。
FPGA11のI2C112は、SW15を切り替えることにより、FPGA11と各デバイス14との経路をONにする(ステップS41)。
FPGA11のI2C112は、デバイス#0〜#2からログ情報[3]を採取する(ステップS42〜S44)。
FPGA11のNIF113は、採取したログ情報[3]をNVRAM13に格納する(ステップS45)。
FPGA11のI2C112は、SW15を切り替えることにより、FPGA11と各デバイス14との経路をOFFにする(ステップS46)。
FPGA11は、CPU12のハングアップが確定したと判断する(ステップS47)。
FPGA11のTCTL114aは、採取したログ情報[1],[2]及び[3]をNVRAM13から読み出し、正常系であるCM#1のFPGA11に送信する(ステップS48)。
CM#1のFPGA11は、受信したログ情報[1],[2]及び[3]をNVRAM13に格納する(ステップS49)。
CM#0のFPGA11は、自系のCM#0を再起動する(ステップS50)。なお、FPGA11は、障害が発生した箇所(被疑箇所)及び障害が伝搬した箇所である自系のデバイス14及びCPU12のみを再起動させても良い。
CM#1のCPU12は、NVRAM13からエラーログを採取する(ステップS51)。
〔A−3〕効果
このように、本実施形態の一例におけるストレージ装置(情報処理装置)1によれば、以下の効果を奏することができる。
情報採取部112は、監視部111が処理装置12における障害発生を検知した場合に、監視対象装置14からログ情報を採取する。そして、第1格納処理部113aは、情報採取部112が採取したログ情報を記憶装置13に格納する。これにより、処理装置12の動作不能状態においても監視対象装置14のログ情報の収集を確実に行なうことができる。また、制御装置10における障害復旧後や記憶装置13の取り外し後に、記憶装置13に格納されたログ情報が解析することができる。
送信部114aは、情報採取部112が採取したログ情報を他の制御装置10に送信する。そして、他の制御装置10の第2格納処理部113bは、送信部114aが送信したログ情報を記憶装置13に格納する。これにより、正常系の制御装置10においてログ情報の解析を直ちに開始することができる。また、異常系の制御装置10について、障害発生の被疑箇所を特定するために、異常系の制御装置10を回収し、測定機器に取り付け、処理装置12の動作不能状態を再現させ、手動でログ情報を採取する必要がない。つまり、被疑箇所の特定に要する工数や時間,コストを削減することができ、被疑箇所の特定が容易になる。更に、異常系及び正常系の制御装置10の記憶装置13にログ情報が二重化されて格納されるため、ログ情報収集処理における信頼性を向上することができる。
再起動処理部115は、送信部114aがログ情報を他の制御装置10に送信した後に、処理装置12及び監視対象装置14を再起動させる。これにより、異常系の制御装置10における再起動によって記憶装置13に格納したログ情報が消失した場合においても、正常系の制御装置10においてログ情報を解析することができる。
処理装置強制割り込み処理とソフトウェアリセット処理とハードウェアリセット処理とを実行する複数のタイミングにおいて、情報採取部112によるログ情報の採取と、第1格納処理部113aによるログ情報の格納とを、繰り返し行なう。これにより、各リカバリ処理後における監視対象装置14の状態を示すログ情報[1]〜[3]を採取することができ、被疑箇所の特定が容易になる。
〔B〕変形例
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
上述した実施形態の一例においては、異常系のFPGA11は、全てのログ情報[1]〜[3]をNVRAM13に格納した後に、ログ情報[1]〜[3]を正常系のFPGA11に転送することとしたが(例えば図8のステップS48参照)、これに限定されるものではない。
本実施形態の変形例においては、異常系のFPGA11は、各ログ情報[1]〜[3]をNVRAM13に格納した直後(例えば、図8のステップS31,S38及びS45の直後)に、各ログ情報[1]〜[3]を正常系のFPGA11に逐次転送する。
そして、異常系のFPGA11は、CPU12のハングアップが確定した後(例えば図8のステップS47の後)に、全てのログ情報[1]〜[3]の転送が完了したことを示す完了通知を正常系のFPGA11に送信する。
このように、本実施形態の変形例におけるストレージ装置(情報処理装置)1によっても、上述した実施形態の一例と同様の効果を奏することができる他、以下の効果を奏することができる。
各ログ情報[1]〜[3]を上述した実施形態の一例における場合よりも早く正常系のCM10に送信することができ、正常系のCM10は、ログ情報の解析を早期に開始することができ、他系のCM10で異常が発生したことを示すアラート等を迅速に発行することができる。
〔C〕付記
(付記1)
監視対象装置と通信可能に接続される制御装置を有する情報処理装置であって、
前記制御装置は、
処理装置における障害発生を監視する監視部と、
前記監視部が前記障害発生を検知した場合に、前記監視対象装置からログ情報を採取する情報採取部と、
前記情報採取部が採取した前記ログ情報を第1記憶装置に格納する第1格納処理部と、
を備えることを特徴とする、情報処理装置。
(付記2)
当該情報処理装置は、複数の制御装置を備え、
前記制御装置は、前記情報採取部が採取した前記ログ情報を前記複数の制御装置のうち他の制御装置に送信する送信部
を備え、
前記他の制御装置は、前記送信部が送信した前記ログ情報を第2記憶装置に格納する第2格納処理部
を備えることを特徴とする、付記1に記載の情報処理装置。
(付記3)
前記送信部は、前記処理装置の動作不能状態が確定した後に、前記ログ情報を前記他の制御装置に送信する、
ことを特徴とする、付記2に記載の情報処理装置。
(付記4)
前記制御装置は、
前記送信部が前記ログ情報を前記他の制御装置に送信した後に、前記処理装置及び前記監視対象装置を再起動させる再起動処理部
を備えることを特徴とする、付記2又は3に記載の情報処理装置。
(付記5)
前記制御装置は、
複数のタイミングにおいて、前記情報採取部による前記ログ情報の採取と、前記第1格納処理部による前記ログ情報の格納とを、繰り返し行なう、
ことを特徴とする、付記1〜4のいずれか1項に記載の情報処理装置。
(付記6)
前記制御装置は、
処理装置強制割り込み処理とソフトウェアリセット処理とハードウェアリセット処理とを含む複数種類のリカバリ処理機能を備え、
各リカバリ処理を行なうタイミングを前記複数のタイミングとする、
ことを特徴とする、付記5に記載の情報処理装置。
(付記7)
監視対象装置と通信可能に接続される制御装置であって、
処理装置における障害発生を監視する監視部と、
前記監視部が前記障害発生を検知した場合に、前記監視対象装置からログ情報を採取する情報採取部と、
前記情報採取部が採取した前記ログ情報を第1記憶装置に格納する第1格納処理部と、
を備えることを特徴とする、制御装置。
(付記8)
前記情報採取部が採取した前記ログ情報を当該制御装置と通信可能に接続される他の制御装置に送信する送信部
を備えることを特徴とする、付記7に記載の制御装置。
(付記9)
前記送信部は、前記処理装置の動作不能状態が確定した後に、前記ログ情報を前記他の制御装置に送信する、
ことを特徴とする、付記8に記載の制御装置。
(付記10)
前記送信部が前記ログ情報を前記他の制御装置に送信した後に、前記処理装置及び前記監視対象装置を再起動させる再起動処理部
を備えることを特徴とする、付記8又は9に記載の制御装置。
(付記11)
複数のタイミングにおいて、前記情報採取部による前記ログ情報の採取と、前記第1格納処理部による前記ログ情報の格納とを、繰り返し行なう、
ことを特徴とする、付記7〜10のいずれか1項に記載の制御装置。
(付記12)
処理装置強制割り込み処理とソフトウェアリセット処理とハードウェアリセット処理とを含む複数種類のリカバリ処理機能を備え、
各リカバリ処理を行なうタイミングを前記複数のタイミングとする、
ことを特徴とする、付記11に記載の制御装置。
(付記13)
監視対象装置と通信可能に接続される制御装置を有する情報処理装置におけるログ情報収集方法であって、
前記制御装置は、
処理装置における障害発生を監視し、
前記障害発生を検知した場合に、前記監視対象装置からログ情報を採取し、
採取した前記ログ情報を第1記憶装置に格納する、
ことを特徴とする、ログ情報収集方法。
(付記14)
当該情報処理装置は、複数の制御装置を備え、
前記制御装置は、採取した前記ログ情報を前記複数の制御装置のうち他の制御装置に送信し、
前記他の制御装置は、前記制御装置から送信された前記ログ情報を第2記憶装置に格納する、
ことを特徴とする、付記13に記載のログ情報収集方法。
(付記15)
前記制御装置は、
前記処理装置の動作不能状態が確定した後に、前記ログ情報を前記他の制御装置に送信する、
ことを特徴とする、付記14に記載のログ情報収集方法。
(付記16)
前記制御装置は、
前記ログ情報を前記他の制御装置に送信した後に、前記処理装置及び前記監視対象装置を再起動させる、
ことを特徴とする、付記14又は15に記載のログ情報収集方法。
(付記17)
前記制御装置は、
複数のタイミングにおいて、前記ログ情報の採取と、前記ログ情報の格納とを、繰り返し行なう、
ことを特徴とする、付記13〜16のいずれか1項に記載のログ情報収集方法。
(付記18)
前記制御装置は、
処理装置強制割り込み処理とソフトウェアリセット処理とハードウェアリセット処理とを含む複数種類のリカバリ処理機能を備え、
各リカバリ処理を行なうタイミングを前記複数のタイミングとする、
ことを特徴とする、付記17に記載のログ情報収集方法。
100 ストレージシステム
1 ストレージ装置(情報処理装置)
10 CM(制御装置)
11 FPGA
111 監視部
111−1 LPC
111−2 WDT
111a WDTO[1]
111b WDTO[2]
111c WDTO[3]
111d レジスタ
112 情報採取部(I2C)
112a REQ
112b FSM
112c IF
112d レジスタ
113 NIF
113a 第1格納処理部
113b 第2格納処理部
113−1 REQ
113−2 IF
114−1 COM
114a 送信部(TCTL)
114b 受信部(RCTL)
114c BUF[0]
114d BUF[1]
114−2 PIF
12 CPU(処理装置)
121 高速IF
122 低速IF
13 不揮発性メモリ(NVRAM;第1記憶装置,第2記憶装置)
14 デバイス(監視対象装置)
141 高速IF
142 低速IF
15 SW
16 メモリ
17 IOC
18 エキスパンダ
20 DE
21 記憶装置
2 サーバ装置
30 CM
31 FPGA
32 CPU
321 高速IF
322 低速IF
33 不揮発性メモリ
34 デバイス
341 高速IF
342 低速IF
35 SW

Claims (8)

  1. 監視対象装置と通信可能に接続される制御装置を有する情報処理装置であって、
    前記制御装置は、
    処理装置における障害発生を監視する監視部と、
    前記監視部が前記障害発生を検知した場合に、前記監視対象装置からログ情報を採取する情報採取部と、
    前記情報採取部が採取した前記ログ情報を第1記憶装置に格納する第1格納処理部と、
    を備えることを特徴とする、情報処理装置。
  2. 当該情報処理装置は、複数の制御装置を備え、
    前記制御装置は、前記情報採取部が採取した前記ログ情報を前記複数の制御装置のうち他の制御装置に送信する送信部
    を備え、
    前記他の制御装置は、前記送信部が送信した前記ログ情報を第2記憶装置に格納する第2格納処理部
    を備えることを特徴とする、請求項1に記載の情報処理装置。
  3. 前記送信部は、前記処理装置の動作不能状態が確定した後に、前記ログ情報を前記他の制御装置に送信する、
    ことを特徴とする、請求項2に記載の情報処理装置。
  4. 前記制御装置は、
    前記送信部が前記ログ情報を前記他の制御装置に送信した後に、前記処理装置及び前記監視対象装置を再起動させる再起動処理部
    を備えることを特徴とする、請求項2又は3に記載の情報処理装置。
  5. 前記制御装置は、
    複数のタイミングにおいて、前記情報採取部による前記ログ情報の採取と、前記第1格納処理部による前記ログ情報の格納とを、繰り返し行なう、
    ことを特徴とする、請求項1〜4のいずれか1項に記載の情報処理装置。
  6. 前記制御装置は、
    処理装置強制割り込み処理とソフトウェアリセット処理とハードウェアリセット処理とを含む複数種類のリカバリ処理機能を備え、
    各リカバリ処理を行なうタイミングを前記複数のタイミングとする、
    ことを特徴とする、請求項5に記載の情報処理装置。
  7. 監視対象装置と通信可能に接続される制御装置であって、
    処理装置における障害発生を監視する監視部と、
    前記監視部が前記障害発生を検知した場合に、前記監視対象装置からログ情報を採取する情報採取部と、
    前記情報採取部が採取した前記ログ情報を第1記憶装置に格納する第1格納処理部と、
    を備えることを特徴とする、制御装置。
  8. 監視対象装置と通信可能に接続される制御装置を有する情報処理装置におけるログ情報収集方法であって、
    前記制御装置は、
    処理装置における障害発生を監視し、
    前記障害発生を検知した場合に、前記監視対象装置からログ情報を採取し、
    採取した前記ログ情報を第1記憶装置に格納する、
    ことを特徴とする、ログ情報収集方法。
JP2014035549A 2014-02-26 2014-02-26 情報処理装置,制御装置及びログ情報収集方法 Pending JP2015162000A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014035549A JP2015162000A (ja) 2014-02-26 2014-02-26 情報処理装置,制御装置及びログ情報収集方法
US14/611,295 US20150242266A1 (en) 2014-02-26 2015-02-02 Information processing apparatus, controller, and method for collecting log data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014035549A JP2015162000A (ja) 2014-02-26 2014-02-26 情報処理装置,制御装置及びログ情報収集方法

Publications (1)

Publication Number Publication Date
JP2015162000A true JP2015162000A (ja) 2015-09-07

Family

ID=53882306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014035549A Pending JP2015162000A (ja) 2014-02-26 2014-02-26 情報処理装置,制御装置及びログ情報収集方法

Country Status (2)

Country Link
US (1) US20150242266A1 (ja)
JP (1) JP2015162000A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170139605A1 (en) * 2015-11-17 2017-05-18 Fujitsu Limited Control device and control method
JP2018005586A (ja) * 2016-07-04 2018-01-11 三菱電機株式会社 組み込み装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG11201602367WA (en) * 2014-01-10 2016-05-30 Hitachi Ltd Redundant system and redundant system management method
US11537545B2 (en) * 2020-07-31 2022-12-27 Nxp Usa, Inc. Deadlock condition avoidance in a data processing system with a shared slave

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5600785A (en) * 1994-09-09 1997-02-04 Compaq Computer Corporation Computer system with error handling before reset
US5596716A (en) * 1995-03-01 1997-01-21 Unisys Corporation Method and apparatus for indicating the severity of a fault within a computer system
US6697973B1 (en) * 1999-12-08 2004-02-24 International Business Machines Corporation High availability processor based systems
US6622260B1 (en) * 1999-12-30 2003-09-16 Suresh Marisetty System abstraction layer, processor abstraction layer, and operating system error handling
JP4529767B2 (ja) * 2005-04-04 2010-08-25 株式会社日立製作所 クラスタ構成コンピュータシステム及びその系リセット方法
US7555671B2 (en) * 2006-08-31 2009-06-30 Intel Corporation Systems and methods for implementing reliability, availability and serviceability in a computer system
US7895371B2 (en) * 2007-03-09 2011-02-22 Kabushiki Kaisha Toshiba System and method for on demand logging of document processing device status data
US8806509B2 (en) * 2007-12-04 2014-08-12 Netapp, Inc. Retrieving diagnostics information in an N-way clustered raid subsystem
US8612382B1 (en) * 2012-06-29 2013-12-17 Emc Corporation Recovering files in data storage systems
JP6056509B2 (ja) * 2013-01-30 2017-01-11 富士通株式会社 情報処理装置および情報処理装置の制御方法
US8990642B2 (en) * 2013-02-22 2015-03-24 International Business Machines Corporation Managing error logs in a distributed network fabric
US9384076B2 (en) * 2013-12-27 2016-07-05 Intel Corporation Allocating machine check architecture banks
US9519532B2 (en) * 2014-01-20 2016-12-13 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Handling system interrupts with long-running recovery actions

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170139605A1 (en) * 2015-11-17 2017-05-18 Fujitsu Limited Control device and control method
JP2017091456A (ja) * 2015-11-17 2017-05-25 富士通株式会社 制御装置、制御プログラムおよび制御方法
JP2018005586A (ja) * 2016-07-04 2018-01-11 三菱電機株式会社 組み込み装置

Also Published As

Publication number Publication date
US20150242266A1 (en) 2015-08-27

Similar Documents

Publication Publication Date Title
JP6011210B2 (ja) ストレージ制御装置,プログラマブル論理回路の復旧処理方法及び制御プログラム
JP5079080B2 (ja) ストレージ・エリア・ネットワーク内の障害に対応するデータを収集する方法及びコンピュータ・プログラム
JP4723290B2 (ja) ディスクアレイ装置及びその制御方法
TWI229796B (en) Method and system to implement a system event log for system manageability
TWI632462B (zh) 開關裝置及偵測積體電路匯流排之方法
US20080201616A1 (en) Redundant storage controller system with enhanced failure analysis capability
US8832501B2 (en) System and method of processing failure
US10027532B2 (en) Storage control apparatus and storage control method
US8924779B2 (en) Proxy responder for handling anomalies in a hardware system
KR20180071941A (ko) 관리 컨트롤러 및 관리 컨트롤러를 포함하는 섀시의 동작 방법
US20140122421A1 (en) Information processing apparatus, information processing method and computer-readable storage medium
JP5910444B2 (ja) 情報処理装置、起動プログラム、および起動方法
US20170139605A1 (en) Control device and control method
JP2004326775A (ja) 分散ノード環境におけるfru障害分離のための機構
JP2015162000A (ja) 情報処理装置,制御装置及びログ情報収集方法
JP6540202B2 (ja) 情報処理システム、制御装置および制御プログラム
US9507677B2 (en) Storage control device, storage apparatus, and computer-readable recording medium having storage control program stored therein
JP5440073B2 (ja) 情報処理装置,情報処理装置の制御方法および制御プログラム
CN116724297A (zh) 一种故障处理方法、装置及系统
US8880957B2 (en) Facilitating processing in a communications environment using stop signaling
CN113342593B (zh) 用以进行全快闪存储器阵列伺服器的高可用性管理的方法与设备
JP2005135063A (ja) 情報処理装置及び情報処理装置の時計異常検出プログラム
CN117389790B (zh) 可恢复故障的固件检测系统、方法、存储介质及服务器
US20200073751A1 (en) Storage apparatus and recording medium