JP6737701B2 - 周辺装置、ホスト装置、保守装置、情報処理システム、方法およびプログラム - Google Patents

周辺装置、ホスト装置、保守装置、情報処理システム、方法およびプログラム Download PDF

Info

Publication number
JP6737701B2
JP6737701B2 JP2016240864A JP2016240864A JP6737701B2 JP 6737701 B2 JP6737701 B2 JP 6737701B2 JP 2016240864 A JP2016240864 A JP 2016240864A JP 2016240864 A JP2016240864 A JP 2016240864A JP 6737701 B2 JP6737701 B2 JP 6737701B2
Authority
JP
Japan
Prior art keywords
failure
peripheral device
failure information
information
host device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016240864A
Other languages
English (en)
Other versions
JP2018097558A (ja
Inventor
理仁 深沢
理仁 深沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2016240864A priority Critical patent/JP6737701B2/ja
Priority to US16/463,890 priority patent/US11461157B2/en
Priority to PCT/JP2017/044195 priority patent/WO2018110452A1/ja
Publication of JP2018097558A publication Critical patent/JP2018097558A/ja
Application granted granted Critical
Publication of JP6737701B2 publication Critical patent/JP6737701B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、周辺装置に関連する障害を処理する技術に関する。
情報処理システムにおいて周辺装置に関連する障害が発生した場合、早期復旧のため、障害に関する情報を取得することが重要となる。
情報処理システムにおける障害に関する情報を取得する技術の一例が、特許文献1に記載されている。この関連技術は、プロセッサが正常に動作しているか否かを監視する。そして、この関連技術は、プロセッサが正常に動作しなくなったとき、プロセッサの動作ログが保存されている主記憶装置から、DMA(Direct Memory Access)転送により動作ログを取得する。
また、周辺装置に関連する障害に関する情報を取得する技術の他の一例が、特許文献2に記載されている。この関連技術は、PCI(Peripheral Component Interconnect)デバイスとホスト装置との間を接続するPCIボックスに、障害通知部と、不揮発性メモリとを配置する。また、障害通知部は、監視装置にも接続される。そして、障害通知部は、PCIデバイスの障害を検知すると、PCIデバイスから障害に関する情報を取得して不揮発性メモリに保存し、エラーを監視装置に通知する。監視装置は、エラーの通知に応じて、PCIボックスに配置された不揮発性メモリから障害に関する情報を読み出す。
特開2014−182676号公報 特開2014−48782号公報
しかしながら、上述の関連技術には、以下の課題がある。
周辺装置に関連する障害は、周辺装置のリセットにより自動で復旧可能な場合がある。自動で障害から復旧することにより、復旧までの時間がより短くなる。しかしながら、周辺装置は、リセットされると障害に関する情報を失ってしまう。
特許文献1に記載された関連技術は、プロセッサがリセットされる前に障害に関する情報を取得するために、DMA転送を用いている。しかしながら、DMAの経路に障害が発生した場合、この関連技術は、障害に関する情報を取得することができない。また、この関連技術は、プロセッサがリセットされる前に障害に関する情報を取得するものの、プロセッサの障害を復旧することに関しては記載されていない。
また、特許文献2に記載された関連技術は、PCIデバイスをリセットしても、PCIボックスに障害に関する情報が保存されているものの、PCIボックスという特別なハードウェア要素を必要とする。また、この関連技術は、PCIデバイスの障害に関する情報を取得するものの、PCIデバイスの障害を復旧することに関しては記載されていない。
本発明は、上述の課題を解決するためになされたものである。すなわち、本発明は、周辺装置に関連する障害が発生した場合に、障害に関する情報の取得をより確実にしながら、障害の復旧までに要する時間をより短縮する技術を提供することを目的とする。
本発明の周辺装置は、情報を記憶する記憶手段と、自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知する障害検出手段と、前記障害の発生の通知後に、前記ホスト装置から前記障害に関する障害情報を要求された場合、前記障害情報を前記ホスト装置に送信し、前記ホスト装置から前記障害情報の要求がない場合、前記記憶手段に前記障害情報を保存し、保存した障害情報を前記ホスト装置から要求された場合、前記記憶手段から前記障害情報を読み込んで前記ホスト装置に送信する障害情報処理手段と、前記ホスト装置から初期化を指示された場合、前記指示に応じて自装置を初期化し、前記障害情報が前記記憶手段に保存された場合、前記保存後に自装置を初期化する初期化手段と、を備える。
また、本発明のホスト装置は、上述の周辺装置から前記障害の発生を通知された場合、前記周辺装置に対して前記障害情報を要求し、前記障害情報の取得後に前記周辺装置に対して初期化を指示する第1の障害情報取得手段と、前記周辺装置の初期化を検出した場合、前記障害情報を未だ取得していなければ、前記周辺装置に対して前記障害情報を要求して取得する第2の障害情報取得手段と、を備える。
また、本発明の保守装置は、上述の周辺装置に備えられた保守装置接続手段を介して前記記憶手段に接続されると、前記障害情報を前記記憶手段から読み込んで取得する第3の障害情報取得手段を備える。
また、本発明の情報処理システムは、上述の周辺装置と、上述のホスト装置と、を備える。
また、本発明の方法は、周辺装置が、自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知し、前記ホスト装置が、前記障害の発生の通知に応じて、前記周辺装置に対して前記障害に関する障害情報を要求し、前記周辺装置が、前記要求に応じて、前記障害情報を前記ホスト装置に送信し、前記ホスト装置が、前記障害情報の取得後に前記周辺装置に初期化を指示し、前記周辺装置が、前記初期化の指示に応じて自装置を初期化し、前記周辺装置が、前記障害の発生を前記ホスト装置に通知後、前記ホスト装置から前記障害情報の要求がない場合、記憶手段に前記障害情報を保存し、前記保存後に自装置を初期化し、前記ホスト装置が、前記周辺装置の初期化を検出した場合、前記障害情報を未だ取得していなければ、前記周辺装置に前記障害情報を要求し、前記周辺装置が、前記要求に応じて、前記障害情報を前記記憶手段から読み込んで前記ホスト装置に送信する。
また、本発明の他の方法は、周辺装置が、自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知し、前記障害の発生の通知後に前記ホスト装置から前記障害に関する障害情報を要求された場合、前記障害情報を前記ホスト装置に送信し、前記ホスト装置から初期化を指示された場合、前記指示に応じて自装置を初期化し、前記障害の発生の通知後に前記ホスト装置から前記障害情報の要求がない場合、記憶手段に前記障害情報を保存し、前記保存後に自装置を初期化し、保存した障害情報を前記ホスト装置から要求された場合、前記記憶手段から前記障害情報を読み込んで前記ホスト装置に送信する。
また、本発明のプログラムは、自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知するステップと、前記障害の発生の通知後に前記ホスト装置から前記障害に関する障害情報を要求された場合、前記障害情報を前記ホスト装置に送信するステップと、前記ホスト装置から初期化を指示された場合、前記指示に応じて自装置を初期化するステップと、前記障害の発生の通知後に前記ホスト装置から前記障害情報の要求がない場合、記憶手段に前記障害情報を保存し、前記保存後に自装置を初期化するステップと、保存した障害情報を前記ホスト装置から要求された場合、前記記憶手段から前記障害情報を読み込んで前記ホスト装置に送信するステップと、を周辺装置に実行させる。
本発明は、周辺装置に関連する障害が発生した場合に、障害に関する情報の取得をより確実にしながら、障害の復旧までに要する時間をより短縮する技術を提供することができる。
本発明の第1の実施の形態としての情報処理システムの構成を示すブロック図である。 本発明の第1の実施の形態としての情報処理システムのハードウェア構成の一例を示す図である。 本発明の第1の実施の形態において周辺装置に障害が発生した際の情報処理システムの動作を説明するフローチャートである。 本発明の第1の実施の形態において周辺装置が初期化された際の情報処理システムの動作を説明するフローチャートである。 本発明の第1の実施の形態において周辺装置に障害が発生するがホスト装置との接続バスには障害がない場合の情報処理システムの処理の流れを説明するシーケンス図である。 本発明の第1の実施の形態において周辺装置において少なくともホスト装置との接続バスに障害が発生した場合の情報処理システムの処理の流れを説明するシーケンス図である。 本発明の第2の実施の形態としての情報処理システムの構成を示すブロック図である。 本発明の第2の実施の形態としての情報処理システムのハードウェア構成の一例を示す図である。 本発明の第2の実施の形態において周辺装置に障害が発生した際の情報処理システムの動作を説明するフローチャートである。 本発明の第2の実施の形態において周辺装置が初期化に成功した場合の情報処理システムの動作を説明するフローチャートである。 本発明の第2の実施の形態において周辺装置が初期化に失敗した場合の情報処理システムの動作を説明するフローチャートである。 本発明の第2の実施の形態において周辺装置において少なくともホスト装置との接続バスに障害が発生し初期化に成功する場合の情報処理システムの処理の流れを説明するシーケンス図である。 本発明の第2の実施の形態において周辺装置において少なくともホスト装置との接続バスに障害が発生し初期化にも失敗する場合の情報処理システムの処理の流れを説明するシーケンス図である。 本発明の第3の実施の形態としての周辺装置の構成を示すブロック図である。 本発明の第3の実施の形態において自装置に障害が発生した際の周辺装置の動作を説明するフローチャートである。 本発明の第3の実施の形態において自装置を初期化後の周辺装置の動作を説明するフローチャートである。 本発明の第4の実施の形態としてのホスト装置の構成を示すブロック図である。 本発明の第4の実施の形態において周辺装置から障害の発生が通知された際のホスト装置の動作を説明するフローチャートである。 本発明の第4の実施の形態において周辺装置が初期化された際のホスト装置の動作を説明するフローチャートである。 本発明の第5の実施の形態としての保守装置の構成を示すブロック図である。 本発明の第5の実施の形態において周辺装置が接続された際の保守装置の動作を説明するフローチャートである。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(第1の実施の形態)
本発明の第1の実施の形態としての情報処理システム1の機能ブロック構成を図1に示す。図1において、情報処理システム1は、周辺装置100と、ホスト装置200とを備える。周辺装置100は、記憶部101と、障害検出部102と、障害情報処理部103と、初期化部104とを有する。また、ホスト装置200は、第1の障害情報取得部201と、第2の障害情報取得部202とを有する。また、周辺装置100およびホスト装置200は、通信可能に接続される。
ここで、情報処理システム1は、図2に示すようなハードウェア要素によって構成可能である。図2において、周辺装置100は、プロセッサ1001と、タイマおよびメモリを含むマイクロコントローラ1002と、不揮発性メモリ1003と、周辺装置接続インタフェース1004とを含む。プロセッサ1001は、周辺装置100の運用時の処理を主に行う。例えば、プロセッサ1001は、GPGPU(general purpose graphic processing unit)であってもよい。マイクロコントローラ1002は、周辺装置100における障害発生時の処理を主に行う。周辺装置接続インタフェース1004は、バス90を介してホスト装置200に接続するインタフェースである。例えば、バス90は、PCI(Peripheral Component Interconnect)バスであってもよい。このようなハードウェア構成において、周辺装置100の記憶部101は、不揮発性メモリ1003によって構成される。また、周辺装置100のその他の各機能ブロックは、プロセッサ1001およびマイクロコントローラ1002によって構成される。
また、図2において、ホスト装置200は、CPU(Central Processing Unit)2001、メモリ2002、および、周辺装置接続インタフェース2004を含む。メモリ2002は、RAM(Random Access Memory)、ROM(Read Only Memory)、補助記憶装置(ハードディスク等)等によって構成される。周辺装置接続インタフェース2004は、バス90を介して周辺装置100に接続するインタフェースである。例えば、前述のように、周辺装置接続インタフェース2004は、PCIバスに接続するインタフェースであってもよい。このようなハードウェア構成において、ホスト装置200の各機能ブロックは、メモリ2002に格納されるコンピュータ・プログラムを読み込んで実行するCPU2001によって構成される。
なお、情報処理システム1を構成する各装置およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
次に、周辺装置100の機能ブロックの詳細について説明する。
記憶部101は、情報を記憶する。詳細には、記憶部101は、後述の障害情報処理部103の制御の基に障害情報を記憶する。
障害検出部102は、自装置に関連する障害を検出すると、障害の発生をホスト装置200に通知する。通知は、例えば、バス90を介した割り込み信号の送信によって行われる。
障害情報処理部103は、障害の発生の通知後に、ホスト装置200から障害情報を要求された場合、障害情報をホスト装置200に送信する。ここで、障害情報は、周辺装置100において、障害の発生時に収集可能な障害に関する情報であるものとする。
また、障害情報処理部103は、障害の発生を通知後に、ホスト装置200から障害情報の要求がない場合、記憶部101に障害情報を保存する。例えば、バス90に障害が発生している場合、周辺装置100からホスト装置200への障害の発生の通知は不達となり、ホスト装置200から障害情報の要求がないことになる。
例えば、障害情報処理部103は、障害の発生の通知後にタイマを起動して所定時間をカウントしてもよい。この場合、障害情報処理部103は、タイマのカウントが満了するまでにホスト装置200からの要求を受信した場合は、障害情報をホスト装置200に送信する処理を行えばよい。また、この場合、障害情報処理部103は、タイマのカウントが満了するまでにホスト装置200からの要求を受信しなかった場合は、障害情報を記憶部101に保存する処理を行えばよい。
また、障害情報処理部103は、記憶部101に保存した障害情報をホスト装置200から要求された場合、記憶部101から障害情報を読み込んでホスト装置200に送信する。
初期化部104は、ホスト装置200に障害情報を送信後に、ホスト装置200から初期化を指示された場合、指示に応じて自装置を初期化する。また、初期化部104は、障害情報が記憶部101に保存された場合、保存後に自装置を初期化する。
次に、ホスト装置200の機能ブロックの詳細について説明する。
第1の障害情報取得部201は、周辺装置100から障害の発生を通知された場合、周辺装置100に対して障害情報を要求する。また、第1の障害情報取得部201は、障害情報の取得後に、周辺装置100に対して初期化を指示する。初期化の指示は、例えば、バス90を介したリセット信号の送信により行われる。
第2の障害情報取得部202は、周辺装置100が初期化に成功した場合、未だ障害情報を取得していなければ、周辺装置100に対して障害情報を要求して取得する。具体的には、第2の障害情報取得部202は、周辺装置100が初期化されたことを検出すると、障害情報を取得済みであるか否かを判断する。そして、第2の障害情報取得部202は、障害情報を取得済みでないと判断した場合に、周辺装置100に対して障害情報を要求してもよい。
以上のように構成された情報処理システム1の動作について、図面を参照して説明する。
まず、周辺装置100に関連する障害が発生した際の情報処理システム1の動作を図3に示す。なお、図3において、左図はホスト装置200の動作を示し、右図は周辺装置100の動作を示す。
まず、周辺装置100の障害検出部102は、自装置に関連する障害を検出した場合(ステップA1でYes)、障害の発生をホスト装置200に通知する(ステップA2)。
次に、ホスト装置200の第1の障害情報取得部201は、障害の発生の通知を受信すると、周辺装置100に対して障害情報を要求する(ステップB1)。
次に、周辺装置100の障害情報処理部103は、障害情報の要求を受信すると(ステップA3でYes)、障害情報をホスト装置200に送信する(ステップA4)。
そして、ホスト装置200の第1の障害情報取得部201は、障害情報を取得すると(ステップB2)、周辺装置100に対して初期化を指示する(ステップB3)。
次に、周辺装置100の初期化部104は、初期化の指示に応じて、自装置を初期化する(ステップA5)。
また、周辺装置100から障害の発生をホスト装置200に通知後に、ホスト装置200から障害情報の要求がない場合(ステップA3でNo)について説明する。これは、例えば、前述のように、バス90における障害の発生等により、ステップA2での障害の発生の通知が、ホスト装置200に到達しない等の要因による。
この場合、周辺装置100の障害情報処理部103は、発生した障害に関する障害情報を、記憶部101に記憶する(ステップA6)。
そして、初期化部104は、自装置を初期化する(ステップA7)。
以上で、情報処理システム1は、周辺装置100に関連する障害が発生した際の動作を終了する。
次に、周辺装置100が初期化された際の情報処理システム1の動作を図4に示す。なお、図4において、左図はホスト装置200の動作を示し、右図は周辺装置100の動作を示す。
まず、ホスト装置200の第2の障害情報取得部202は、周辺装置100が初期化されたことを検出すると(ステップB11でYes)、障害情報を既に取得しているか否かを判断する(ステップB12)。
ここで、障害情報を既に取得している場合(ステップB12でYes)、情報処理システム1は、動作を終了する。
一方、障害情報を未だ取得していない場合(ステップB12でNo)、第2の障害情報取得部202は、周辺装置100に対して障害情報を要求する(ステップB13)。
次に、周辺装置100の障害情報処理部103は、障害情報の要求を受信すると、障害情報を記憶部101から読み込んでホスト装置200に送信する(ステップA11)。
次に、ホスト装置200の第2の障害情報取得部202は、障害情報を取得する(ステップB14)。
以上で、情報処理システム1は、周辺装置100が初期化された際の動作を終了する。
次に、情報処理システム1において、運用中に周辺装置100に関連する障害が発生した際の処理シーケンスについて、図面を参照して説明する。
まず、周辺装置100に関連する障害が発生した際に、バス90が正常である場合の処理シーケンスを図5に示す。
まず、周辺装置100に関連する障害が発生すると、周辺装置100の障害検出部102は、その障害を検出する(ステップA1)。
次に、障害検出部102は、ホスト装置200に対して、障害の発生を通知する(ステップA2)。
次に、ホスト装置200の第1の障害情報取得部201は、障害の発生の通知を受信すると、周辺装置100に対して、バス90を介して、障害情報を要求する(ステップB1)。
次に、周辺装置100の障害情報処理部103は、障害情報の要求を受信すると(ステップA3でYes)、ホスト装置200に対して、障害情報を送信する(ステップA4)。
次に、ホスト装置200の第1の障害情報取得部201は、障害情報を取得後(ステップB2)、周辺装置100に対して、バス90を介して初期化を指示する(ステップB3)。
そして、周辺装置100の初期化部104は、指示に応じて初期化を実行する(ステップA5)。
これにより、ホスト装置200は、障害情報を取得した上で、周辺装置100を自動で復旧させることができる。
次に、周辺装置100に関連する障害が発生した際に、バス90が正常でない場合の処理シーケンスを図6に示す。
まず、周辺装置100に関連する障害が発生すると、周辺装置100の障害検出部102は、その障害を検出する(ステップA1)。
次に、障害検出部102は、ホスト装置200に対して、障害の発生を通知する(ステップA2)。しかしながら、バス90が正常でないため、通知は不達となる。
次に、障害情報処理部103は、障害の発生の通知後、所定時間をカウントするようタイマを起動する。そして、障害情報処理部103は、タイマが満了するまでに、ホスト装置200から障害情報の要求がないと判断する(ステップA3でNo)。
次に、障害情報処理部103は、障害情報を記憶部101に保存する(ステップA6)。
次に、初期化部104は、自装置を初期化する(ステップA7)。
次に、ホスト装置200の第2の障害情報取得部202は、周辺装置100が初期化され(ステップB11でYes)、障害情報を未だ取得していない(ステップB12でNo)と判断する。
そこで、第2の障害情報取得部202は、周辺装置100に対して、バス90を介して、障害情報を要求する(ステップB13)。
次に、周辺装置100の障害情報処理部103は、障害情報の要求を受信すると、障害情報を記憶部101から読み込んでホスト装置200に送信する(ステップA11)。
次に、ホスト装置200の第2の障害情報取得部202は、障害情報を取得する(ステップB14)。
これにより、周辺装置100は自動で復旧した上で、ホスト装置200に対して障害情報を提供することができる。
次に、本発明の第1の実施の形態の効果について述べる。
本発明の第1の実施の形態としての情報処理システムは、周辺装置に関連する障害が発生した場合に、障害に関する情報の取得をより確実にしながら、障害の復旧までに要する時間をより短縮することができる。
その理由について説明する。本実施の形態では、周辺装置が、記憶部と、障害検出部と、障害情報処理部と、初期化部とを有する。また、ホスト装置が、第1の障害情報取得部と、第2の障害情報取得部とを有する。そして、周辺装置の障害検出部が、自装置に関連する障害を検出すると、障害の発生をホスト装置に通知する。通知に応じて、ホスト装置の第1の障害情報取得部が、周辺装置に対して障害情報を要求する。要求に応じて、周辺装置の障害情報処理部が、障害情報をホスト装置に送信する。そして、ホスト装置の第1の障害情報取得部が、障害情報の取得後に、周辺装置に初期化を指示する。指示に応じて、周辺装置の初期化部が、自装置を初期化するからである。また、周辺装置の障害情報処理部が、障害の発生をホスト装置に通知後、ホスト装置から障害情報の要求がない場合、記憶部に障害情報を保存し、保存後に自装置を初期化する。そして、ホスト装置の第2の障害情報取得部が、周辺装置が初期化に成功した後、障害情報を未だ取得していなければ、周辺装置に障害情報を要求する。そして、要求に応じて、周辺装置の障害情報処理部が、障害情報を記憶部から読み込んでホスト装置に送信するからである。
このように、本実施の形態は、情報処理システムの運用中に、周辺装置に関連する障害が発生した際に、周辺装置との通信が可能であるか否かに関わらず、周辺装置を自動で復旧させながらも、障害情報を確実に取得する。
また、本実施の形態は、ホスト装置と、周辺装置とによって構成される。このため、本実施の形態は、特許文献2に記載された関連技術のように、ホスト装置と周辺装置との間に特別なハードウェア要素を必要とせずに、周辺装置の保守性を高めるという効果も奏している。
(第2の実施の形態)
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第1の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
まず、本発明の第2の実施の形態における情報処理システム2の構成を図7に示す。図7において、情報処理システム2は、周辺装置120と、ホスト装置220と、保守装置320とを有する。ここで、周辺装置120およびホスト装置220は、運用時に通信可能に接続されている。周辺装置120および保守装置320は、運用時には接続されていなくてもよく、周辺装置120に関連する障害の発生に関連して、必要に応じて接続される。
周辺装置120は、本発明の第1の実施の形態における周辺装置100に対して、障害情報処理部103に替えて障害情報処理部123を有し、さらに保守装置接続部124を有する点が異なる。ホスト装置220は、本発明の第1の実施の形態におけるホスト装置200に対して、第2の障害情報取得部202に替えて第2の障害情報取得部222を有する点が異なる。保守装置320は、第3の障害情報取得部321を有する。
ここで、情報処理システム2は、図8に示すようなハードウェア要素によって構成可能である。図8において、周辺装置120は、図2を参照して説明した周辺装置100と同一のハードウェア要素に加えて、周辺装置接続インタフェース1005を含んで構成される。周辺装置接続インタフェース1005は、バス91を介して保守装置320に接続するインタフェースである。また、周辺装置接続インタフェース1005は、バス92を介して記憶部101に接続される。このようなハードウェア構成において、保守装置接続部124は、バス92および周辺装置接続インタフェース1005によって構成される。なお、周辺装置接続インタフェース1005は、周辺装置接続インタフェース1004とは異なる規格の接続インタフェースであってよい。
また、図8において、ホスト装置220は、図2を参照して説明したホスト装置200と同一のハードウェア要素によって構成される。
また、図8において、保守装置320は、CPU3001、メモリ3002、および、周辺装置接続インタフェース3005を含む。メモリ3002は、RAM、ROM、補助記憶装置等によって構成される。周辺装置接続インタフェース3005は、バス91を介して周辺装置120の周辺装置接続インタフェース1005に接続するインタフェースである。このようなハードウェア構成において、保守装置320の機能ブロックは、メモリ3002に格納されるコンピュータ・プログラムを読み込んで実行するCPU3001によって構成される。
なお、情報処理システム2を構成する各装置およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
次に、周辺装置120の機能ブロックのうち、本発明の第1の実施の形態と異なる機能ブロックについて説明する。
障害情報処理部123は、本発明の第1の実施の形態における障害情報処理部103と同様に構成されることに加えて、次のように構成される。すなわち、障害情報処理部123は、障害の発生を通知後にホスト装置220から障害情報の要求がない場合、記憶部101に障害情報を保存する際に、障害情報が未取得であることを表すフラグを併せて保存する。フラグは、障害情報がホスト装置220または保守装置320によって未取得であるか否かを表す情報である。以降、障害情報が未取得であることを表す場合に、フラグがオンであるとも記載する。また、障害情報が未取得であることを表すフラグを保存することを、フラグをオンにするとも記載する。また、障害情報が取得済みであることを表す場合に、フラグがオフであるとも記載する。また、障害情報が取得済みであることを表すフラグを保存することを、フラグをオフにするとも記載する。
また、障害情報処理部123は、ホスト装置220の要求に応じて、記憶部101に記憶されたフラグを送信する。また、障害情報処理部123は、ホスト装置220の指示に応じて、記憶部101に記憶されたフラグをオフにする。
また、障害情報処理部123は、記憶部101に保存した障害情報をホスト装置220から要求された場合、記憶部101から障害情報を読み込んでホスト装置220に送信する。
保守装置接続部124は、記憶部101を保守装置320に接続する。
次に、ホスト装置220の機能ブロックのうち、本発明の第2の実施の形態と異なる機能ブロックについて説明する。
第2の障害情報取得部222は、本発明の第1の実施の形態における第2の障害情報取得部202と同様に構成されることに加えて、次のように構成される。すなわち、第2の障害情報取得部222は、周辺装置120が初期化されたことを検出すると、周辺装置120の記憶部101のフラグに基づいて、障害情報が未取得であるか否かを判断する。そして、第2の障害情報取得部222は、フラグがオンの場合に、周辺装置120に対して、障害情報を要求する。また、第2の障害情報取得部222は、障害情報を取得後、記憶部101のフラグをオフにするよう周辺装置120に対して指示する。
次に、保守装置320の機能ブロックについて説明する。
第3の障害情報取得部321は、保守装置接続部124を介して周辺装置120の記憶部101に接続されると、記憶部101から障害情報を取得する。
ここで、典型的には、保守装置320は、周辺装置120が初期化に失敗した場合に、保守装置接続部124を介して周辺装置120の記憶部101に接続される。そして、第3の障害情報取得部321は、周辺装置120に接続されたことを検出すると、保守装置接続部124を介して記憶部101からフラグを読み出し、読み出したフラグに基づいて、障害情報が未取得であるか否かを判断する。そして、第3の障害情報取得部321は、フラグがオンの場合に、周辺装置120の記憶部101から障害情報を読み出して取得する。また、第3の障害情報取得部321は、障害情報を取得後、保守装置接続部124を介して記憶部101にアクセスし、フラグをオフにする。
以上のように構成された情報処理システム2の動作について、図面を参照して説明する。
まず、周辺装置120に関連する障害が発生した際の情報処理システム2の動作を図9に示す。図9において、情報処理システム2の動作は、図3を参照して説明した情報処理システム1の動作と略同様である。ただし、周辺装置120が、障害の発生をホスト装置220に通知後に、ホスト装置220から障害情報の要求がない場合に、ステップA6の代わりにステップA26を実行する点が異なる。
すなわち、この場合、障害情報処理部123は、記憶部101に障害情報を保存することに加えて、フラグをオンにする(ステップA26)。
その後、初期化部104は、本発明の第1の実施の形態と同様に、自装置を初期化する(ステップA7)。
以上で、周辺装置120に関連する障害が発生した際の情報処理システム2の動作の説明を終了する。
次に、周辺装置120が初期化に成功した後の情報処理システム2の動作を図10に示す。ここでは、周辺装置120の初期化が成功し、ホスト装置220との正常な通信が可能な状態を想定する。
まず、ホスト装置220の第2の障害情報取得部222は、周辺装置120が初期化されたことを検出すると(ステップB11でYes)、周辺装置120に対して、フラグを要求する(ステップB21)。
次に、周辺装置120の障害情報処理部123は、要求に応じて、記憶部101からフラグを読み込んで、ホスト装置220に対して送信する(ステップA21)。
次に、ホスト装置220の第2の障害情報取得部222は、フラグがオンであるか否かを判断する(ステップB22)。
ここで、フラグがオンでない場合(ステップB22でNo)、情報処理システム2は、動作を終了する。
一方、フラグがオンである場合(ステップB22でYes)について説明する。この場合、ホスト装置220および周辺装置120は、本発明の第1の実施の形態と同様にステップB13、A11、B14を実行する。これにより、ホスト装置220は、障害情報を周辺装置120から取得する。
次に、ホスト装置220の第2の障害情報取得部222は、周辺装置120に対して、フラグをオフにするよう指示する(ステップB25)。
次に、周辺装置120の障害情報処理部123は、記憶部101に記憶されたフラグをオフにする(ステップA22)。
以上で、情報処理システム2は、周辺装置120が初期化に成功した後の動作を終了する。
次に、周辺装置120が初期化に失敗した後の情報処理システム2の動作を図11に示す。ここでは、周辺装置120が、保守装置320に接続された状態を想定する。なお、周辺装置120が保守装置320に接続されるのは、典型的には、周辺装置120の初期化が失敗してホスト装置220との通信が正常に行われなかった場合である。このような場合、例えば、周辺装置120は、ホスト装置220から取り外されて保守装置320に接続される。
図11では、まず、保守装置320の第3の障害情報取得部321は、周辺装置120に接続されたことを検出すると(ステップC21でYes)、保守装置接続部124を介して記憶部101からフラグを取得する(ステップC22)。
次に、第3の障害情報取得部321は、取得したフラグがオンであるか否かを判断する(ステップC23)。
ここで、フラグがオンでない場合(ステップC23でNo)、情報処理システム2は、動作を終了する。
一方、フラグがオンである場合(ステップC23でYes)について説明する。この場合、第3の障害情報取得部321は、保守装置接続部124を介して記憶部101から障害情報を取得する(ステップC24)。
次に、第3の障害情報取得部321は、保守装置接続部124を介して記憶部101にアクセスし、フラグをオフにする(ステップC25)。
以上で、情報処理システム2は、周辺装置120が初期化に失敗した後の動作を終了する。
次に、情報処理システム2において、運用中に周辺装置120に関連する障害が発生した際の処理シーケンスについて、図面を参照して説明する。
なお、周辺装置120に関連する障害が発生した際に、バス90が正常である場合の処理シーケンスは、図5を参照して説明した本発明の第1の実施の形態における情報処理システム1の処理シーケンスと同様であるため、説明を省略する。
ここでは、まず、少なくとも周辺装置120をホスト装置220に接続するバス90に関連する障害が発生した後、周辺装置120の自動での復旧に成功する場合の処理シーケンスを図12に示す。
図12において、情報処理システム2の処理シーケンスは、ステップA1〜A3まで、図6を参照して説明した本発明の第1の実施の形態としての情報処理システム1と同様である。これにより、周辺装置120は、ホスト装置220に対して障害の発生を通知後、タイマを起動し、タイマが満了するまでに、ホスト装置220から周辺装置120に障害情報の要求がないと判断する。
そして、周辺装置120の障害情報処理部123は、記憶部101に障害情報を保存するとともに、フラグをオンにする(ステップA26)。
次に、初期化部104は、自装置を初期化する(ステップA7)。
次に、ホスト装置220の第2の障害情報取得部222は、周辺装置120が初期化されると(ステップB11でYes)、周辺装置120のフラグを要求する(ステップB21)。周辺装置120からは、オンを表すフラグが送信される(ステップA21、ステップB22でYes)。
以降、情報処理システム2の処理シーケンスは、ステップB13、A11、B14まで、図6を参照して説明した本発明の第1の実施の形態としての情報処理システム1と同様である。これにより、ホスト装置220は、障害情報を取得する。
そして、第2の障害情報取得部222は、周辺装置120に対して、フラグをオフにするよう指示する(ステップB25)。
次に、周辺装置120の障害情報処理部123は、フラグをオフにする(ステップA22)。
これにより、周辺装置120は自動で復旧した上で、ホスト装置220に対して障害情報を提供することができる。
次に、情報処理システム2において、少なくとも周辺装置120をホスト装置220に接続するバス90に関連する障害が発生した後、周辺装置120の自動での復旧に失敗する場合の処理シーケンスを図13に示す。
図13において、情報処理システム2の処理シーケンスは、ステップA1〜A3、A26、A7まで、図12を参照して説明した自動での復旧に成功する場合の処理シーケンスと同様である。これにより、周辺装置120は、障害情報およびフラグ(オン)を記憶部101に保存後、初期化を試みる。
ここで、初期化に失敗したことを想定する。そして、周辺装置120が、保守装置320に接続されたとする。
そこで、保守装置320の第3の障害情報取得部321は、周辺装置120が接続されると(ステップC21でYes)、保守装置接続部124を介して記憶部101からフラグを取得する(ステップC22)。このとき、取得したフラグはオンである(ステップC23でYes)。
そこで、第3の障害情報取得部321は、保守装置接続部124を介して記憶部101から障害情報を取得する(ステップC24)。
そして、第3の障害情報取得部321は、保守装置接続部124を介して記憶部101にアクセスし、フラグをオフにする(ステップC25)。
その後、典型的には、周辺装置120は、修理されることが期待される。
これにより、周辺装置120は、バス90が正常でなく、自動での復旧に失敗した場合も、保守装置320に対して障害情報を提供することができる。
次に、本発明の第2の実施の形態の効果について述べる。
本発明の第2の実施の形態としての情報処理システムは、周辺装置に関連する障害が発生した場合に、障害の復旧までに要する時間をより短縮するための自動復旧に成功する場合も失敗する場合も、障害に関する情報をより確実に取得することができる。
その理由について説明する。本実施の形態では、本発明の第1の実施の形態と同様の構成に加えて、周辺装置が、記憶部を保守装置に接続する保守装置接続部を有するからである。そして、保守装置が、初期化に失敗した周辺装置の記憶部に保守装置接続部を介して接続されると、第3の障害情報取得部が、記憶部から障害情報を取得するからである。
また、さらなる理由について説明する。本実施の形態では、周辺装置の障害情報処理部は、記憶部に障害情報を保存する際に、障害情報が未取得であることを表すフラグを併せて保存する。そして、ホスト装置の第2の障害情報取得部、または、保守装置の第3の障害情報取得部が、周辺装置から障害情報を取得する処理を、フラグに基づき障害情報が未取得であると判断した場合に実行するからである。
このように、本実施の形態は、情報処理システムの運用中に、周辺装置に関連する障害が発生した際に、周辺装置の自動での復旧が成功するか失敗するかに関わらず、ホスト装置または保守装置によって、障害情報を確実に取得することができる。
(第3の実施の形態)
次に、本発明の実施の形態の最小構成の周辺装置10について、図面を参照して説明する。まず、周辺装置10の機能ブロック構成を図14に示す。図14において、周辺装置10は、記憶部11と、障害検出部12と、障害情報処理部13と、初期化部14とを有する。周辺装置10は、ホスト装置に接続されている。
記憶部11は、情報を記憶する。
障害検出部12は、自装置に関連する障害を検出すると、障害の発生をホスト装置に通知する。
障害情報処理部13は、障害の発生の通知後に、ホスト装置から障害情報を要求された場合、障害情報をホスト装置に送信する。
また、障害情報処理部13は、障害の発生を通知後に、ホスト装置から障害情報の要求がない場合、記憶部11に障害情報を保存する。
また、障害情報処理部13は、記憶部11に保存した障害情報をホスト装置から要求された場合、記憶部11から障害情報を読み込んでホスト装置に送信する。
初期化部14は、ホスト装置に障害情報を送信後に、ホスト装置から初期化を指示された場合、指示に応じて自装置を初期化する。また、初期化部14は、障害情報が記憶部11に保存された場合、保存後に自装置を初期化する。
以上のように構成された周辺装置10の動作について、図面を参照して説明する。
まず、自装置に関連する障害が発生した際の周辺装置10の動作を図15に示す。
まず、障害検出部12は、自装置に関連する障害を検出した場合(ステップA101でYes)、障害の発生をホスト装置に通知する(ステップA102)。
次に、障害情報処理部13は、ホスト装置から障害情報の要求を受信したか否かを判断する(ステップA103)。
ここで、障害情報の要求を受信した場合(ステップA103でYes)、障害情報処理部13は、障害情報をホスト装置に送信する(ステップA104)。
そして、初期化部14は、ホスト装置からの指示に応じて、自装置を初期化する(ステップA105)。
一方、障害情報の要求を受信しなかった場合(ステップA103でNo)、障害情報処理部13は、障害情報を記憶部11に記憶する(ステップA106)。
そして、初期化部14は、自装置を初期化する(ステップA107)。
以上で、周辺装置10は、自装置に関連する障害が発生した際の動作を終了する。
次に、周辺装置10が初期化された後の動作を図16に示す。
ここでは、障害情報処理部13は、ホスト装置から障害情報の要求を受信すると、記憶部11から障害情報を読み込んでホスト装置に送信する(ステップA111)。
以上で、周辺装置10は、初期化された後の動作を終了する。
次に、本発明の第3の実施の形態の効果について述べる。
本発明の第3の実施の形態としての周辺装置は、自装置に関連する障害が発生した場合に、障害に関する情報をより確実に外部に提供しながら、障害の復旧までに要する時間をより短縮することができる。
その理由について説明する。本実施の形態の周辺装置では、障害検出部が、自装置に関連する障害を検出すると、障害の発生をホスト装置に通知する。そして、通知先のホスト装置から障害情報の要求があった場合、障害情報処理部が、障害情報をホスト装置に送信する。そして、初期化部が、ホスト装置の指示に応じて、自装置を初期化する。また、障害の発生をホスト装置に通知後、通知先のホスト装置から障害情報の要求がない場合、障害情報処理部が、記憶部に障害情報を保存し、保存後に自装置を初期化する。そして、障害情報処理部が、ホスト装置から障害情報を要求された場合、記憶部から障害情報を読み込んでホスト装置に送信するからである。
このように、本実施の形態の周辺装置は、自装置に関連する障害が発生した際に、ホスト装置との通信が可能であるか否かに関わらず、障害情報をより確実に外部に提供するとともに自装置を初期化により復旧する。
(第4の実施の形態)
次に、本発明の実施の形態の最小構成のホスト装置20について、図面を参照して説明する。まず、ホスト装置20の機能ブロック構成を図17に示す。図17において、ホスト装置20は、第1の障害情報取得部21と、第2の障害情報取得部22とを有する。また、ホスト装置20は、周辺装置に接続される。
第1の障害情報取得部21は、周辺装置から障害の発生を通知された場合、周辺装置に対して障害情報を要求する。また、第1の障害情報取得部21は、障害情報の取得後に、周辺装置に対して初期化を指示する。
第2の障害情報取得部22は、周辺装置が初期化に成功した場合、未だ障害情報を取得していなければ、周辺装置に対して障害情報を要求して障害情報を取得する。
以上のように構成されたホスト装置20の動作について、図面を参照して説明する。
まず、周辺装置から障害の発生を通知された際のホスト装置20の動作を図18に示す。
まず、第1の障害情報取得部21は、障害の発生の通知を受信すると、周辺装置に対して障害情報を要求する(ステップB101)。
次に、第1の障害情報取得部21は、周辺装置から送信された障害情報を取得する(ステップB102)。
次に、第1の障害情報取得部21は、周辺装置に対して初期化を指示する(ステップB103)。
以上で、ホスト装置20は、周辺装置から障害の発生を通知された際の動作を終了する。
次に、周辺装置が初期化された際のホスト装置20の動作を図19に示す。
まず、第2の障害情報取得部22は、周辺装置が初期化されたことを検出すると(ステップB111でYes)、障害情報を既に取得しているか否かを判断する(ステップB112)。
ここで、障害情報を既に取得している場合(ステップB112でYes)、ホスト装置20は、動作を終了する。
一方、障害情報を未だ取得していない場合(ステップB112でNo)、第2の障害情報取得部22は、周辺装置に対して障害情報を要求する(ステップB113)。
次に、第2の障害情報取得部22は、周辺装置から送信された障害情報を取得する(ステップB114)。
以上で、ホスト装置20は、周辺装置が初期化された際の動作を終了する。
次に、本発明の第4の実施の形態の効果について述べる。
本発明の第4の実施の形態としてのホスト装置は、周辺装置に関連する障害が発生した場合に、障害に関する情報をより確実に取得しながら、障害の復旧までに要する時間をより短縮することができる。
その理由について説明する。本実施の形態のホスト装置では、第1の障害情報取得部が、周辺装置から障害の発生を通知されると、周辺装置に対して障害情報を要求する。そして、第1の障害情報取得部が、障害情報の取得後に、周辺装置に初期化を指示する。また、第2の障害情報取得部が、周辺装置の初期化を検出した場合、障害情報を未だ取得していなければ、周辺装置に障害情報を要求して取得するからである。
このように、本実施の形態のホスト装置は、周辺装置の運用中に周辺装置に関連する障害が発生した際に、周辺装置との通信が可能であるか否かに関わらず、周辺装置を自動で復旧させながらも、障害情報を取得することができる。
(第5の実施の形態)
次に、本発明の実施の形態の最小構成の保守装置30について、図面を参照して詳細に説明する。まず、保守装置30の機能ブロック構成を図20に示す。図20において、保守装置30は、第3の障害情報取得部31を有する。また、保守装置30は、周辺装置に備えられた保守装置接続部を介して、周辺装置の記憶部に接続可能となっている。
第3の障害情報取得部31は、保守装置接続部を介して、周辺装置の記憶部から障害情報を取得する。
以上のように構成された保守装置30の動作を図21に示す。
図21では、まず、第3の障害情報取得部31は、保守装置接続部を介して周辺装置の記憶部に接続されたことを検出すると(ステップC101でYes)、周辺装置の記憶部から障害情報を取得する(ステップC102)。
なお、周辺装置が保守装置30に接続されるのは、典型的には、周辺装置に関連する障害が発生後、周辺装置の初期化が失敗した場合である。このような場合、例えば、周辺装置は、ホスト装置から取り外されて保守装置30に接続される。
以上で、保守装置30は、動作を終了する。
次に、本発明の第5の実施の形態の効果について述べる。
本発明の第5の実施の形態としての保守装置は、障害が発生した後に自動での復旧に失敗した周辺装置から、障害に関する情報を確実に取得することができる。
その理由について説明する。本実施の形態では、第3の障害情報取得部が、初期化に失敗した周辺装置に備えられた保守装置接続部に接続されると、保守装置接続部を介して周辺装置の記憶部から障害情報を取得するからである。
なお、上述した本発明の第1の実施の形態において、周辺装置が、PCIバスによりホスト装置に接続されるPCIデバイスである例について説明した。ただし、本発明の各実施の形態において、周辺装置をホスト装置に接続する規格は、これに限定されない。
また、上述した本発明の第1の実施の形態において、周辺装置が、GPGPUを搭載した装置である例について説明した。ただし、本発明の各実施の形態において、周辺装置に搭載されるプロセッサは、GPGPUに限定されない。例えば、周辺装置は、ネットワークコントローラやサウンドコントローラ等を搭載した装置であってもよい。
また、上述した本発明の第2および第5の実施の形態において、保守装置は、運用中に障害が発生して自動での復旧に失敗した周辺装置に接続される例について説明した。これに限らず、保守装置は、その他の状態の周辺装置に接続されてもよい。
また、上述した本発明の第3の実施の形態では、ホスト装置の第2の障害情報取得部および保守装置の第3の障害情報取得部が、周辺装置の記憶部に障害情報と共に記憶されたフラグに基づいて、障害情報を未取得であるか否かを判断する例について説明した。これに限らず、本発明の各実施の形態において、第2および第3の障害情報取得部は、その他の情報を用いて障害情報を未取得であるか否かを判断してもよい。例えば、第2および第3の障害情報取得部は、自装置に障害情報が保存済みであるか否かに基づいて、障害情報を未取得であるか否かを判断してもよい。
また、上述した本発明の各実施の形態において、各機能ブロックが、メモリに記憶されたコンピュータ・プログラムを実行するプロセッサによって実現される例を中心に説明した。これに限らず、各機能ブロックの一部、全部、または、それらの組み合わせが専用のハードウェアにより実現されていてもよい。
また、上述した本発明の各実施の形態において、各フローチャートを参照して説明した各装置の動作を、本発明のコンピュータ・プログラムとしてコンピュータ装置の記憶装置(記憶媒体)に格納しておく。そして、係るコンピュータ・プログラムをプロセッサが読み出して実行するようにしてもよい。そして、このような場合において、本発明は、係るコンピュータ・プログラムのコードあるいは記憶媒体によって構成される。
また、上述した本発明の各実施の形態は、適宜組み合わせて実施されることが可能である。
また、本発明は、上述した各実施の形態に限定されず、様々な態様で実施されることが可能である。
また、上述した各実施の形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
情報を記憶する記憶手段と、
自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知する障害検出手段と、
前記障害の発生の通知後に、前記ホスト装置から前記障害に関する障害情報を要求された場合、前記障害情報を前記ホスト装置に送信し、前記ホスト装置から前記障害情報の要求がない場合、前記記憶手段に前記障害情報を保存し、保存した障害情報を前記ホスト装置から要求された場合、前記記憶手段から前記障害情報を読み込んで前記ホスト装置に送信する障害情報処理手段と、
前記ホスト装置から初期化を指示された場合、前記指示に応じて自装置を初期化し、前記障害情報が前記記憶手段に保存された場合、前記保存後に自装置を初期化する初期化手段と、
を備えた周辺装置。
(付記2)
前記記憶手段を保守装置に接続する保守装置接続手段をさらに備えることを特徴とする付記1に記載の周辺装置。
(付記3)
付記1または付記2に記載の周辺装置から前記障害の発生を通知された場合、前記周辺装置に対して前記障害情報を要求し、前記障害情報の取得後に前記周辺装置に対して初期化を指示する第1の障害情報取得手段と、
前記周辺装置の初期化を検出した場合、前記障害情報を未だ取得していなければ、前記周辺装置に対して前記障害情報を要求して取得する第2の障害情報取得手段と、
を備えたホスト装置。
(付記4)
付記2に記載の周辺装置の前記記憶手段に前記保守装置接続手段を介して接続されると、前記障害情報を前記記憶手段から読み込んで取得する第3の障害情報取得手段を備えた保守装置。
(付記5)
付記1または付記2に記載の周辺装置と、
付記3に記載のホスト装置と、
を備えた情報処理システム。
(付記6)
付記2に記載の周辺装置と、
付記3に記載のホスト装置と、
付記4に記載の保守装置と、
を備えた情報処理システム。
(付記7)
前記障害情報処理手段は、前記記憶手段に前記障害情報を保存する際に、前記障害情報が未取得であることを表すフラグを併せて保存することを特徴とする付記1または付記2に記載の周辺装置。
(付記8)
前記第2の障害情報取得手段は、付記7に記載の周辺装置から前記障害情報を取得する処理を、前記フラグに基づき前記障害情報が未取得であると判断した場合に実行することを特徴とする付記3に記載のホスト装置。
(付記9)
前記第3の障害情報取得手段は、付記2に従属する付記7に記載の周辺装置から前記障害情報を取得する処理を、前記フラグに基づき前記障害情報が未取得であると判断した場合に実行することを特徴とする付記4に記載の保守装置。
(付記10)
周辺装置が、自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知し、
前記ホスト装置が、前記障害の発生の通知に応じて、前記周辺装置に対して前記障害に関する障害情報を要求し、
前記周辺装置が、前記要求に応じて、前記障害情報を前記ホスト装置に送信し、
前記ホスト装置が、前記障害情報の取得後に前記周辺装置に初期化を指示し、
前記周辺装置が、前記初期化の指示に応じて自装置を初期化し、
前記周辺装置が、前記障害の発生を前記ホスト装置に通知後、前記ホスト装置から前記障害情報の要求がない場合、記憶手段に前記障害情報を保存し、前記保存後に自装置を初期化し、
前記ホスト装置が、前記周辺装置の初期化を検出した場合、前記障害情報を未だ取得していなければ、前記周辺装置に前記障害情報を要求し、
前記周辺装置が、前記要求に応じて、前記障害情報を前記記憶手段から読み込んで前記ホスト装置に送信する方法。
(付記11)
前記周辺装置が、前記記憶手段に前記障害情報を保存後に自装置を初期化して初期化に失敗した場合、
保守装置が、前記周辺装置に備えられた保守装置接続手段を介して前記記憶手段に接続されると、前記障害情報を前記記憶手段から読み込んで取得する付記10に記載の方法。
(付記12)
周辺装置が、
自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知し、
前記障害の発生の通知後に前記ホスト装置から前記障害に関する障害情報を要求された場合、前記障害情報を前記ホスト装置に送信し、
前記ホスト装置から初期化を指示された場合、前記指示に応じて自装置を初期化し、
前記障害の発生の通知後に前記ホスト装置から前記障害情報の要求がない場合、記憶手段に前記障害情報を保存し、前記保存後に自装置を初期化し、
保存した障害情報を前記ホスト装置から要求された場合、前記記憶手段から前記障害情報を読み込んで前記ホスト装置に送信する方法。
(付記13)
自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知するステップと、
前記障害の発生の通知後に前記ホスト装置から前記障害に関する障害情報を要求された場合、前記障害情報を前記ホスト装置に送信するステップと、
前記ホスト装置から初期化を指示された場合、前記指示に応じて自装置を初期化するステップと、
前記障害の発生の通知後に前記ホスト装置から前記障害情報の要求がない場合、記憶手段に前記障害情報を保存し、前記保存後に自装置を初期化するステップと、
保存した障害情報を前記ホスト装置から要求された場合、前記記憶手段から前記障害情報を読み込んで前記ホスト装置に送信するステップと、
を周辺装置に実行させるプログラム。
(付記14)
付記13に記載のプログラムを実行する周辺装置から前記障害の発生を通知された場合、前記周辺装置に対して前記障害情報を要求し、前記障害情報の取得後に前記周辺装置に対して初期化を指示する第1の障害情報取得ステップと、
前記周辺装置の初期化を検出した場合、前記障害情報を未だ取得していなければ、前記周辺装置に対して前記障害情報を要求して取得する第2の障害情報取得ステップと、
をホスト装置に実行させるプログラム。
(付記15)
付記13に記載のプログラムを実行する周辺装置の前記記憶手段に、前記周辺装置に備えられた保守装置接続手段を介して接続されると、前記障害情報を前記記憶手段から読み込んで取得する第3の障害情報取得ステップを保守装置に実行させるプログラム。
1、2 情報処理システム
10、100、120 周辺装置
11、101 記憶部
12、102 障害検出部
13、103、123 障害情報処理部
14、104 初期化部
124 保守装置接続部
20、200、220 ホスト装置
21、201 第1の障害情報取得部
22、202、222 第2の障害情報取得部
30、320 保守装置
31、321 第3の障害情報取得部
90、91、92 バス
1001 プロセッサ
1002 マイクロコントローラ
1003 不揮発性メモリ
1004、1005 周辺装置接続インタフェース
1005 周辺装置接続インタフェース
2001、3001 CPU
2002、3002 メモリ
2004、3005 周辺装置接続インタフェース

Claims (9)

  1. 情報を記憶する記憶手段と、
    自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知する障害検出手段と、
    前記障害の発生の通知後に、前記ホスト装置から前記障害に関する障害情報を要求された場合、前記障害情報を前記ホスト装置に送信し、前記ホスト装置から前記障害情報の要求がない場合、前記記憶手段に前記障害情報を保存し、保存した障害情報を前記ホスト装置から要求された場合、前記記憶手段から前記障害情報を読み込んで前記ホスト装置に送信する障害情報処理手段と、
    前記ホスト装置から初期化を指示された場合、前記指示に応じて自装置を初期化し、前記障害情報が前記記憶手段に保存された場合、前記保存後に自装置を初期化する初期化手段と、
    を備えた周辺装置。
  2. 前記記憶手段を保守装置に接続する保守装置接続手段をさらに備えることを特徴とする請求項1に記載の周辺装置。
  3. 請求項1または請求項2に記載の周辺装置から前記障害の発生を通知された場合、前記周辺装置に対して前記障害情報を要求し、前記障害情報の取得後に前記周辺装置に対して初期化を指示する第1の障害情報取得手段と、
    前記周辺装置の初期化を検出した場合、前記障害情報を未だ取得していなければ、前記周辺装置に対して前記障害情報を要求して取得する第2の障害情報取得手段と、
    を備えたホスト装置。
  4. 請求項1または請求項2に記載の周辺装置と、
    請求項3に記載のホスト装置と、
    を備えた情報処理システム。
  5. 前記障害情報処理手段は、前記記憶手段に前記障害情報を保存する際に、前記障害情報が未取得であることを表すフラグを併せて保存することを特徴とする請求項1または請求項2に記載の周辺装置。
  6. 周辺装置が、自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知し、
    前記ホスト装置が、前記障害の発生の通知に応じて、前記周辺装置に対して前記障害に関する障害情報を要求し、
    前記周辺装置が、前記要求に応じて、前記障害情報を前記ホスト装置に送信し、
    前記ホスト装置が、前記障害情報の取得後に前記周辺装置に初期化を指示し、
    前記周辺装置が、前記初期化の指示に応じて自装置を初期化し、
    前記周辺装置が、前記障害の発生を前記ホスト装置に通知後、前記ホスト装置から前記障害情報の要求がない場合、記憶手段に前記障害情報を保存し、前記保存後に自装置を初期化し、
    前記ホスト装置が、前記周辺装置の初期化を検出した場合、前記障害情報を未だ取得していなければ、前記周辺装置に前記障害情報を要求し、
    前記周辺装置が、前記要求に応じて、前記障害情報を前記記憶手段から読み込んで前記ホスト装置に送信する方法。
  7. 前記周辺装置が、前記記憶手段に前記障害情報を保存後に自装置を初期化して初期化に失敗した場合、
    保守装置が、前記周辺装置に備えられた保守装置接続手段を介して前記記憶手段に接続されると、前記障害情報を前記記憶手段から読み込んで取得する請求項6に記載の方法。
  8. 周辺装置が、
    自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知し、
    前記障害の発生の通知後に前記ホスト装置から前記障害に関する障害情報を要求された場合、前記障害情報を前記ホスト装置に送信し、
    前記ホスト装置から初期化を指示された場合、前記指示に応じて自装置を初期化し、
    前記障害の発生の通知後に前記ホスト装置から前記障害情報の要求がない場合、記憶手段に前記障害情報を保存し、前記保存後に自装置を初期化し、
    保存した障害情報を前記ホスト装置から要求された場合、前記記憶手段から前記障害情報を読み込んで前記ホスト装置に送信する方法。
  9. 自装置に関連する障害を検出すると、前記障害の発生をホスト装置に通知するステップと、
    前記障害の発生の通知後に前記ホスト装置から前記障害に関する障害情報を要求された場合、前記障害情報を前記ホスト装置に送信するステップと、
    前記ホスト装置から初期化を指示された場合、前記指示に応じて自装置を初期化するステップと、
    前記障害の発生の通知後に前記ホスト装置から前記障害情報の要求がない場合、記憶手段に前記障害情報を保存し、前記保存後に自装置を初期化するステップと、
    保存した障害情報を前記ホスト装置から要求された場合、前記記憶手段から前記障害情報を読み込んで前記ホスト装置に送信するステップと、
    を周辺装置に実行させるプログラム。
JP2016240864A 2016-12-13 2016-12-13 周辺装置、ホスト装置、保守装置、情報処理システム、方法およびプログラム Active JP6737701B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016240864A JP6737701B2 (ja) 2016-12-13 2016-12-13 周辺装置、ホスト装置、保守装置、情報処理システム、方法およびプログラム
US16/463,890 US11461157B2 (en) 2016-12-13 2017-12-08 Peripheral device, method, and recording medium
PCT/JP2017/044195 WO2018110452A1 (ja) 2016-12-13 2017-12-08 周辺装置、ホスト装置、保守装置、情報処理システム、方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016240864A JP6737701B2 (ja) 2016-12-13 2016-12-13 周辺装置、ホスト装置、保守装置、情報処理システム、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2018097558A JP2018097558A (ja) 2018-06-21
JP6737701B2 true JP6737701B2 (ja) 2020-08-12

Family

ID=62558710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016240864A Active JP6737701B2 (ja) 2016-12-13 2016-12-13 周辺装置、ホスト装置、保守装置、情報処理システム、方法およびプログラム

Country Status (3)

Country Link
US (1) US11461157B2 (ja)
JP (1) JP6737701B2 (ja)
WO (1) WO2018110452A1 (ja)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04649A (ja) * 1990-04-18 1992-01-06 Nec Corp リモートチャネル装置の障害情報転送方式
JP3208885B2 (ja) * 1993-01-11 2001-09-17 富士ゼロックス株式会社 障害監視システム
JP3107521B2 (ja) * 1996-11-28 2000-11-13 株式会社日立製作所 プリンタ制御装置
JP2001147828A (ja) * 1999-11-24 2001-05-29 Nec Corp 二重化構成装置の制御方式と制御方法
JP2002024071A (ja) * 2000-07-07 2002-01-25 Toshiba Corp 情報処理装置、データバックアップ方法、データバックアッププログラムが記憶された記憶媒体
JP2002229816A (ja) * 2001-01-31 2002-08-16 Fujitsu Ltd 障害情報取得システム
JP2007207014A (ja) * 2006-02-02 2007-08-16 Nec Corp 電子装置および保守情報の採取方法
US8108737B2 (en) * 2009-10-05 2012-01-31 Sandforce, Inc. System, method, and computer program product for sending failure information from a serial ATA (SATA) solid state drive (SSD) to a host device
JP2012069032A (ja) * 2010-09-27 2012-04-05 Hitachi Cable Ltd 情報処理装置
JP2012168907A (ja) * 2011-02-17 2012-09-06 Nec Corp 相互監視システム
JP2014048782A (ja) 2012-08-30 2014-03-17 Fujitsu Ltd 情報処理装置、及び情報処理装置の障害処理方法
JP6066748B2 (ja) * 2013-01-29 2017-01-25 三菱重工業株式会社 システム管理装置およびシステム
JP2014182676A (ja) 2013-03-21 2014-09-29 Nec Corp ログ採取装置、演算装置、およびログ採取方法
JP6055810B2 (ja) * 2014-11-14 2016-12-27 京セラドキュメントソリューションズ株式会社 障害管理システム、障害管理サーバー、および障害管理プログラム

Also Published As

Publication number Publication date
WO2018110452A1 (ja) 2018-06-21
US11461157B2 (en) 2022-10-04
US20190324839A1 (en) 2019-10-24
JP2018097558A (ja) 2018-06-21

Similar Documents

Publication Publication Date Title
JP4458119B2 (ja) マルチプロセッサシステム及びその制御方法
US8489932B2 (en) Server system and crash dump collection method
JP4558519B2 (ja) 情報処理装置およびシステムバス制御方法
US8930931B2 (en) Information processing apparatus using updated firmware and system setting method
CN103491134B (zh) 一种监控容器的方法、装置与代理服务系统
JP2006195821A (ja) 情報処理システムの制御方法、情報処理システム、ダイレクトメモリアクセス制御装置、プログラム
JP5609242B2 (ja) 情報処理装置及びメモリダンプ採取方法
CN109358982B (zh) 硬盘自愈装置、方法以及硬盘
JP5327105B2 (ja) バックアップシステム
JP6737701B2 (ja) 周辺装置、ホスト装置、保守装置、情報処理システム、方法およびプログラム
CN115904793B (zh) 一种基于多核异构系统的内存转存方法、系统及芯片
JP2006285384A (ja) プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法
KR102030461B1 (ko) 복수의 프로세서 오류 감지 시스템 및 그 방법
JP6357879B2 (ja) システムおよび障害処理方法
CN108664361B (zh) Pcie非透明通道修复方法及装置
US9405629B2 (en) Information processing system, method for controlling information processing system, and storage medium
JP4633553B2 (ja) デバッグシステム、デバッグ方法およびプログラム
JP6256087B2 (ja) ダンプシステムおよびダンプ処理方法
US10768940B2 (en) Restoring a processing unit that has become hung during execution of an option ROM
JP2012190132A (ja) 情報処理装置
JP5437848B2 (ja) 監視システム
US10108499B2 (en) Information processing device with watchdog timer
JP7303083B2 (ja) 動作監視装置、動作監視方法、動作監視プログラム及び動作監視システム
JP6232877B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP5716396B2 (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200716

R150 Certificate of patent or registration of utility model

Ref document number: 6737701

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150