JP6897145B2 - 情報処理装置、情報処理システム及び情報処理装置制御方法 - Google Patents

情報処理装置、情報処理システム及び情報処理装置制御方法 Download PDF

Info

Publication number
JP6897145B2
JP6897145B2 JP2017032628A JP2017032628A JP6897145B2 JP 6897145 B2 JP6897145 B2 JP 6897145B2 JP 2017032628 A JP2017032628 A JP 2017032628A JP 2017032628 A JP2017032628 A JP 2017032628A JP 6897145 B2 JP6897145 B2 JP 6897145B2
Authority
JP
Japan
Prior art keywords
information
failure
unit
failure information
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017032628A
Other languages
English (en)
Other versions
JP2018136882A (ja
Inventor
淳司 三木
淳司 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017032628A priority Critical patent/JP6897145B2/ja
Priority to US15/876,261 priority patent/US10664339B2/en
Publication of JP2018136882A publication Critical patent/JP2018136882A/ja
Application granted granted Critical
Publication of JP6897145B2 publication Critical patent/JP6897145B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0784Routing of error reports, e.g. with a specific transmission path or data flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、情報処理装置、情報処理システム及び情報処理装置制御方法に関する。
近年、ネットワークにより接続された多数のコンピュータを用いて大規模なジョブを分散実行するグリッドコンピューティングなどの分散処理装置に関する技術開発が進められている。このような分散処理装置では、CPU(Central Processing Unit)の通信に光伝送が広く用いられる。
分散処理装置は、CPU間通信での伝送異常を検知した場合、伝送制御部及び光送受信モジュールが有するレジスタに格納されたレジスタ情報を採取してログ情報として記憶領域に保存する。光送受信モジュールには、例えば、光電気変換部をコネクタに内蔵したAOC(Active Optical Cable)が使用される。また、レジスタ情報には、電圧、温度、ベンダコード、シリアルナンバーなどが含まれる。さらに、レジスタ情報には、光信号の通信途絶及びデータ信号によるクロックの同期不良などを表す情報といった障害情報が含まれる。
障害発生時のログ情報は保守箇所を特定する際に重要な情報であり、レジスタ情報に含まれる障害情報は、取りこぼし無く網羅的に採取されることが好ましい。AOCのレジスタに障害情報が反映されてからCPUがAOCの障害情報をAOCのレジスタから障害情報を採取するには時間誤差が発生する。そこで、AOCは、CPUにより読み出されるまでレジスタに格納されたレジスタ情報を保持しておく。そして、CPUにより読み出された後に、AOCは、レジスタをクリアする。
AOCが有するレジスタのうちの障害情報を格納するアラームレジスタは、障害情報の種類に応じて複数配置され、それぞれ1バイトずつ割り当てられる。そして、レジスタの読み出し単位は、1バイト単位である。このようなレジスタは、1バイト単位の読み出し契機クリア方式レジスタと呼ばれ、共通規格としてAOCなどのアラームレジスタとして採用されることが多い。
ここで、AOCは、複数のチャネルを有し、複数のCPUのそれぞれに各チャネルが割り当てられる場合がある。これに対して、AOCのアラームレジスタは、各チャネルにビットが割り当てられたビットマップを有し、1バイトのアラームレジスタの中に、複数チャネル分の情報が保持される。CPUは、信号の伝送異常を検出すると割込み処理により、AOCのアラームレジスタから障害情報を取得する。同一AOCを共有する複数のCPUのそれぞれが信号の伝送異常を検出すると、1つのAOCに対して複数回の障害情報の読み出しが施行される。
このような障害情報の取得技術として、複数の対象を監視し、新たなイベント情報を収集した場合にCPUによる読み出しが行われていない既存のイベント情報と合わせて保持する従来技術がある。
特開2008−90505号公報
しかしながら、CPUがAOCのアラームレジスタに格納された障害情報を1度読み出すことによって、複数のCPUに対応する障害情報が読み出された後、複数のCPUに対応する障害情報がまとめてクリアされる。この場合、1つのCPUが障害情報を読み出した場合、その後にアラームレジスタはクリアされるため、他のCPUに対応する障害情報が失われているおそれがある。そのため、保守管理者は、他のCPUの障害の発生を把握できず、適切な保守を実行することが困難になる。
また、収集した新たなイベント情報と既存のイベント情報とを合わせて保持する従来技術を用いても、読み出すCPUが複数の場合には、あるCPUが障害情報を読み出した場合には障害情報はクリアされ、他のCPUが障害情報を取得することは困難である。
さらに、このような状況が発生する場合への対処方法として、障害情報を読み出したCPUが読み出した障害情報を全て保持し、他のCPUは、障害を解析する場合に障害情報を読み出したCPUが保持する情報を用いる方法が考えられる。しかし、この方法では、他のCPUが解析する情報量が増加し、障害解析にかかるコストが増加するおそれがある。
また、他の対処方法として、レジスタの読み出し単位を1ビット単位に変更する方法が考えられる。しかし、その場合共通仕様とは異なる特別仕様のAOCを開発することになり、開発工程の増加やそれによるコストの増加が発生する。
開示の技術は、上記に鑑みてなされたものであって、保守を容易にする情報処理装置、情報処理システム及び情報処理装置制御方法を提供することを目的とする。
本願の開示する情報処理装置、情報処理システム及び情報処理装置制御方法の一つの態様において、演算器は複数存在する。第1格納部は、各前記演算器による通信において発生した障害に関する第1サイズの障害情報を記憶する。管理部は、前記第1サイズの前記障害情報を複数含む第2サイズの単位で前記障害情報を前記第1格納部から読み出し、読み出した前記障害情報を前記第1格納部から削除する。情報取得部は、前記管理部により前記第2サイズの単位で読み出された前記障害情報を第2格納部に格納する。情報通知部は、前記第2格納部から前記第1サイズの単位で前記障害情報を読み出し、読み出した前記障害情報が示す障害が発生した通信に対応する前記演算器に、読み出した前記障害情報を通知する。
1つの側面では、本発明は、保守を容易にすることができる。
図1は、実施例に係る分散処理システムの構成図である。 図2は、メインボードの構成図である。 図3は、AOCのブロック図である。 図4は、制御ICのブロック図である。 図5は、先頭のCPUによるレジスタの読み出し手順を説明するための図である。 図6は、後続のCPUによるレジスタの読み出し手順を説明するための図である。 図7は、制御ICのハードウェア構成図である。 図8は、障害情報読み出し処理のフローチャートである。
以下に、本願の開示する情報処理装置、情報処理システム及び情報処理装置制御方法の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する情報処理装置、情報処理システム及び情報処理装置制御方法が限定されるものではない。
図1は、実施例に係る分散処理システムの構成図である。本実施例に係る分散処理システム100は、情報処理システムである。分散処理システム100は、サーバ1及びサーバ2を有する。そして、サーバ1とサーバ2とは、光ケーブル3を用いて相互に信号の送受信を行う。
サーバ1は、メインボード10、ハードディスク11及び電源12を有する。サーバ2は、メインボード20、ハードディスク21及び電源22を有する。図1において太線は電力供給経路を表す。また、各部を繋ぐ細線は信号伝送経路を表す。このサーバ1及び2が、「情報処理装置」の一例にあたる。
メインボード10及び20は、演算処理や通信処理を行う機能を有する。メインボード10とメインボード20とは、光ケーブル3で接続される。メインボード10とメインボード20とは、光ケーブル3を介して信号の送受信を行う。
ハードディスク11及び21は、補助記憶媒体であり、OS(Operating System)やアプリケーションなどの各種プログラムを記憶する。ハードディスク11は、メインボード10によりデータの読み書きが行われる。また、ハードディスク21は、メインボード20によりデータの読み書きが行われる。
電源12は、メインボード10及びハードディスク11を含むサーバ1の各部に電力を供給する。また、電源22は、メインボード20及びハードディスク21を含むサーバ2の各部に電力を供給する。
光ケーブル3は、本実施例では、8つのチャネルを有する。そして、本実施例では、CPU103及び104が信号を送信するチャネルとして、光ケーブル3のチャネルが2つずつ割り当てられる。また、CPU103及び104が信号を受信するチャネルとして、光ケーブル3のチャネルが2つずつ割り当てられる。
次に、図2を参照して、メインボード10及び20について詳細に説明する。図2は、メインボードの構成図である。メインボード10は、AOC101、制御IC(Integrated Circuit)102、並びに、CPU103及び104を有する。また、メインボード20は、AOC201、制御IC202、並びに、CPU203及び204を有する。メインボード10の各部とメインボード20の各部とは、それぞれ同じ機能を有するので、以下の説明では、メインボード10を例に説明する。
AOC101とAOC201とは、光ケーブル3で接続される。ここで、実際には、AOC101、AOC201及び光ケーブル3を含む部材が、1つのAOCである。すなわち、AOC101及び201は、AOCの端末部である。ただし、ここでは、端末部を、AOC101及び201という。
AOC101は、CPU103及び104のそれぞれと、信号受信用のバス及び信号送信用のバスで接続される。また、AOC101は、制御IC102とレジスタアクセスバスにより接続される。
AOC101では、AOC101を駆動させるドライバがメインボード10から供給される電力を各回路に供給する。AOC101は、AOC201との間での信号の送受信の制御及び信号の送受信における障害の検出などを行う。図3は、AOCのブロック図である。
AOC101は、通信制御部111、アラーム検出部112、障害情報送信部113及びアラームレジスタ114を有する。通信制御部111、アラーム検出部112及び障害情報送信部113は、演算処理回路及び記憶回路を有するICなどで実現される。
アラームレジスタ114は、1バイト単位の読み出し契機クリア方式レジスタである。アラームレジスタ114は、光ケーブル3の各チャネルにビットが割り当てられたビットマップを有する。本実施例では、アラームレジスタ114は、4つのビットを有する。アラームレジスタ114の第1ビットは、CPU103の2つの送信チャネルに割り当てられる。また、アラームレジスタ114の第2ビットは、CPU103の2つの受信チャネルに割り当てられる。また、アラームレジスタ114の第3ビットは、CPU104の2つの送信チャネルに割り当てられる。また、アラームレジスタ114の第4ビットは、CPU104の2つの受信チャネルに割り当てられる。そして、アラームレジスタ114から読み出される1バイトのデータにおける障害情報を表す4ビットの領域は予め決められている。アラームレジスタ114では、ビットの値が1であれば障害発生を示す障害情報があることを表し、ビットの値が0であれば障害発生を示す障害情報が無いことを表す。
このアラームレジスタ114が、「第1格納部」の一例にあたる。また、各障害情報のサイズである、1ビットが「第1サイズ」の一例にあたる。さらに、アラームレジスタ114からのデータの読み出し単位である1バイトが、「第2サイズ」の一例にあたる。
通信制御部111は、図示はしていないが、例えば、CDR(Clock Data Recovery)、I2C(Inter Integrated Circuit)コントローラ(登録商標)、VCSEL(Vertical Cavity Surface Emitting Laser)及びレンズブロックを有する。
通信制御部111は、I2Cコントローラにより、アラームレジスタ114を含む内部レジスタの制御を行う。内部レジスタには、アラームレジスタ114の他に、CDRとVCELの機能制御を行うレジスタなども含まれる。通信制御部111のI2Cコントローラは、メインボード10上のCPU103及び104からアクセスを受ける。通信制御部111は、I2Cコントローラを用いて、各CPU103及び104から指定された光通信に用いるパラメータなどを内部レジスタに格納する。
通信制御部111は、CPU103又は104からAOC201への送信信号を受信する。そして、通信制御部111は、VCSELを用いて、送信信号を電気信号から光信号に変換する。その後、通信制御部111は、光信号に変換した送信信号をレンズブロックを用いて光ケーブル3に入射する。また、通信制御部111は、光ケーブル3を介してAOC201から送信された信号を受信する。そして、通信制御部111は、受信信号をVCSELを用いて、光信号から電気信号に変換する。通信制御部111は、内部レジスタに格納されたパラメータを用いてVCSELの動作を制御する。
通信制御部111は、CDRを用いて、電気信号に変換した受信信号の波形からクロック抽出を行う。その後、通信制御部111は、抽出したクロックで受信信号を同期させる。そして、通信制御部111は、同期させた受信信号を信号の宛先であるCPU103又は104へ出力する。通信制御部111は、内部レジスタに格納されたパラメータを用いてCDRの動作を制御する。
さらに、通信制御部111は、光通信処理の履歴情報をアラームレジスタ114に格納する。履歴情報には、光通信において障害が発生した場合の障害情報が含まれる。また、通信制御部111は、光通信において障害が発生した場合、障害を通知するアラームを発生する。例えば、通信制御部111は、CDRによる信号からのクロック抽出に失敗した場合、CDRによる信号からのクロック抽出における障害を通知するアラームを発生する。
アラーム検出部112は、通信制御部111が実行する通信処理を監視し、アラームが発生したか否かを検出する。アラームの発生を検出した場合、アラーム検出部112は、障害が発生した光通信を行うCPU103又は104に対して障害発生の割り込み通知を送信する。このアラーム検出部112が、「検出部」の一例にあたる。
障害情報送信部113は、障害情報の読み出し要求を制御IC102から受信する。次に、障害情報送信部113は、各チャネルに対応する4ビットの障害情報を含む1バイトのデータをアラームレジスタ114から取得する。そして、障害情報送信部113は、取得した1バイトのデータをレジスタアクセスバスを介して制御IC102へ送信する。その後、障害情報送信部113は、アラームレジスタ114をクリアする。これにより、アラームレジスタ114は、障害情報が格納されていない状態になる。
ここで、本実施例では、障害情報送信部113がアラームレジスタ114をクリアしたが、例えば、障害情報送信部113がアラームレジスタ114から障害情報を読み出した後に、通信制御部111がアラームレジスタ114をクリアする構成でもよい。
CPU103は、通信制御部111を介してCPU203又は204と通信を行う。そして、CPU103は、光通信において伝送異常を検出した場合、障害情報の読み出し要求を制御IC102へ送信する。
また、CPU103は、AOC101のアラーム検出部112から障害発生の割込み通知を受信する。障害発生の割込み通知を受信すると、CPU103は、障害情報の読み出し要求を制御IC102へ送信する。CPU104は、CPU103と同様の動作を行う。CPU103及び104が、「演算器」の一例にあたる。
制御IC102は、障害情報を収集しCPU103又はCPU104により障害情報が読み出されるまで保持する回路である。図4は、制御ICのブロック図である。
制御IC102は、情報取得部121、障害情報バッファ122及び情報通知部123を有する。
障害情報バッファ122は、1ビット単位でのデータの読み出しが可能な記憶領域を有する。障害情報バッファ122には、アラームレジスタ114に格納された4ビットの障害情報が格納される。障害情報バッファ122は、アラームレジスタ114と同様に、ビットの値が1であれば障害発生を示す障害情報があることを表し、ビットの値が0であれば障害発生を示す障害情報が無いことを表す。この障害情報バッファ122が、「第2格納部」の一例にあたる。
情報取得部121は、障害情報の読み出し要求をCPU103又は104から受信する。そして、情報取得部121は、AOC101に対して障害情報の読み出し要求を送信する。その後、情報取得部121は、障害情報の読み出し要求に対する応答として、アラームレジスタ114から読み出された1バイトの情報を取得する。情報取得部121は、アラームレジスタ114から読み出された1バイトの情報における予め決められた障害情報を表す4ビットの位置からデータを取得する。
次に、情報取得部121は、障害情報バッファ122が保持する障害情報を取得する。そして、情報取得部121は、アラームレジスタ114から読み出された障害情報の各ビットの値とそれに対応する障害情報バッファ122から取得した障害情報の各ビットの値との論理和を取得する。その後、情報取得部121は、障害情報の各ビットの論理和の値を各チャネルの障害を表す障害情報として障害情報バッファ122へ格納する。さらに、情報取得部121は、障害情報の読み出し要求の要求元であるCPU103又は104の識別情報を情報通知部123へ通知する。
情報通知部123は、障害情報バッファ122に格納された4ビットの障害情報の各ビットがCPU103又はCPU104何れに対応するかを予め記憶する。例えば、情報通知部123は、障害情報バッファ122に格納された4ビットの障害情報のうち第1及び第2ビットがCPU103に対応するビットであり、第3及び第4ビットがCPU104に対応するビットであると記憶する。
情報通知部123は、障害情報の読み出し要求の要求元であるCPU103又は104の識別情報の通知を情報取得部121から受信する。次に、情報通知部123は、受信した識別情報で示されるCPU103又は104に対応する障害情報を障害情報バッファ122に格納された4ビットの障害情報から取得する。そして、情報通知部123は、取得した障害情報を障害情報の読み出し要求の要求元であるCPU103又は104へ送信する。
その後、情報通知部123は、障害情報バッファ122に格納された4ビットの障害情報のうちCPU103又は104へ送信した障害情報をクリアする。これにより、障害情報バッファ122に格納された4ビットの障害情報のうち、既にCPU103又は104により取得された障害情報がクリアされ、まだ取得されていない障害情報が残される。
次に、図5及び6を参照して、レジスタの読み出し手順をまとめて説明する。図5は、先頭のCPUによるレジスタの読み出し手順を説明するための図である。図6は、後続のCPUによるレジスタの読み出し手順を説明するための図である。
ここでは、アラームレジスタ114がビット41〜44を有し、障害情報バッファ122がビット51〜54を有する場合で説明する。ビット41及び51は、CPU103の信号送信用のチャネルが割り当てられたビットである。また、ビット42及び52は、CPU103の信号受信用のチャネルが割り当てられたビットである。また、ビット43及び53は、CPU104の信号送信用のチャネルが割り当てられたビットである。また、ビット44及び54は、CPU104の信号受信用のチャネルが割り当てられたビットである。
まず、状態301に示すように、障害情報バッファ122には、既にビット52及び54に障害情報が格納されている。さらに、アラームレジスタ114には、ビット41及び43に障害情報が格納されている。すなわち、CPU103及び104の両方の通信における障害情報が、アラームレジスタ114に格納されている。
状態301で、CPU103から送信された障害情報の読み出し要求を制御IC102が受信した場合を説明する。障害情報送信部113が障害情報の読み出し要求を制御IC102から受けると、障害情報送信部113は、アラームレジスタ114から障害情報を取得する。そして、障害情報送信部113は、アラームレジスタ114から取得した障害情報を情報取得部121へ送信する。その後、障害情報送信部113は、アラームレジスタ114をクリアするので、アラームレジスタ114は、状態302の状態になる。
情報取得部121は、ビット41の値が1、ビット42の値が0、ビット43の値が1、ビット44の値が0である障害情報を障害情報送信部113から取得する。さらに、情報取得部121は、状態301に示すビット51の値が0、ビット52の値が1、ビット53の値が0、ビット54の値が1である障害情報を障害情報バッファ122から取得する。そして、情報取得部121は、ビット41とビット51との論理和、ビット42とビット52との論理和、ビット43とビット53との論理和、ビット44とビット54との論理和を計算する。その後、情報取得部121は、算出した各論理和の値を障害情報バッファ122に格納する。この場合、状態302に示すようにビット51〜54の全ての値が1になる。
次に、情報通知部123は、CPU103の識別情報を情報取得部121から受信する。そして、情報通知部123は、障害情報バッファ122に格納された障害情報のうちCPU103に対応するビット51及び52の値を取得する。そして、情報通知部123は、取得した値をCPU103へ出力する。この場合、CPU103は、状態303における読出値130に示す値を取得する。ここで、本実施例では、情報通知部123は、CPU103に対応するビット以外のビットの値を0として4ビットの障害情報をCPU103へ送信するものとする。これにより、CPU103は、自己の通信において障害が発生したことを検出できる。
次に、情報通知部123は、値を取得したビット51及び52をクリアする。これにより、障害情報バッファ122では、状態304のように、CPU103に対応するビット51及び52の値が0となり、CPU104に対応するビット53及び54の値は維持される。すなわち、CPU104の通信における障害情報はクリアされない。
次に、状態304以降に障害が発生していない場合、図6の状態305に示すように、アラームレジスタ114は、ビット41〜44の全ての値が0のままである。すなわち、アラームレジスタ114には、CPU104の障害情報は格納されていない。しかし、障害情報バッファ122は、ビット53及び54の値が1であり、CPU104の障害情報を保持した状態である。
そして、状態305で、CPU104から送信された障害情報の読み出し要求を制御IC102が受信する。その後、障害情報送信部113が障害情報の読み出し要求を制御IC102から受けると、障害情報送信部113は、アラームレジスタ114から障害情報を取得する。ただし、アラームレジスタ114は、図5の状態302でクリアされた後の変化がないため、障害情報送信部113は、ビット41〜44の値としてすべて0を取得する。そして、障害情報送信部113は、アラームレジスタ114から取得した障害情報を情報取得部121へ送信する。その後、障害情報送信部113は、アラームレジスタ114をクリアする。ただし、アラームレジスタ114は、図5の状態302でクリアされた後の変化がないため、すでにビット41〜44の値は全て0であるので、状態306のようにそのままの状態となる。
情報取得部121は、ビット41〜44の全ての値が0である障害情報を障害情報送信部113から取得する。さらに、情報取得部121は、状態306に示すビット51の値が0、ビット52の値が0、ビット53の値が1、ビット54の値が1である障害情報を障害情報バッファ122から取得する。そして、情報取得部121は、ビット41とビット51との論理和、ビット42とビット52との論理和、ビット43とビット53との論理和、ビット44とビット54との論理和を計算する。その後、情報取得部121は、算出した各論理和の値を障害情報バッファ122に格納する。この場合、状態307に示すようにビット51〜54の全ての値が保持される。すなわち、CPU104に対応する障害情報は保持される。
次に、情報通知部123は、CPU104の識別情報を情報取得部121から受信する。そして、情報通知部123は、障害情報バッファ122に格納された障害情報のうちCPU104に対応するビット53及び54の値を取得する。そして、情報通知部123は、取得した値をCPU104へ出力する。この場合、CPU104は、状態307における読出値140に示す値を取得する。ここで、本実施例では、情報通知部123は、CPU104に対応するビット以外のビットの値を0として4ビットの障害情報をCPU104へ送信するものとする。これにより、CPU104は、自己の通信において障害が発生したことを検出できる。
次に、情報通知部123は、値を取得したビット53及び54をクリアする。これにより、障害情報バッファ122では、状態308のように、CPU104に対応するビット53及び54の値が0となる。すなわち、状態304におけるクリアと合わせてCPU103及び104の両方の通信における障害情報がすべてクリアされる。
ここで、本実施例では、障害情報として4ビットの情報を用いて説明したが、CPU103及び104との対応が明確であれば障害情報は4ビットに限らない。たとえば、8チャネルそれぞれに異なるビットを割当てて障害情報を8ビットの情報としてもよい。
次に、制御IC102のハードウェア構成について説明する。図7は、制御ICのハードウェア構成である。制御IC102は、制御回路91、バッファレジスタ92、CPU用IF93及び94、並びに、AOC用IF95を有する。
バッファレジスタ92は、障害情報バッファ122の機能を実現する。CPU用IF93及び94は、CPU103及び104と通信を行うためのインタフェースである。また、AOC用IF95は、AOC101が有するアラームレジスタ114に格納された情報を取得するためのインタフェースである。
制御回路91は、バッファレジスタ92、CPU用IF93及び94、並びに、AOC用IF95とバスで接続される。制御回路91は、CPU用IF93及び94を介してCPU103及び104と通信を行う。
制御回路91は、図4に例示した情報取得部121及び情報通知部123の機能を実現するためのプログラムを含む各種プログラムを予め有する。そして、制御回路91は、保持する各種プログラムを読み出して実行することで、図4に例示した情報取得部121及び情報通知部123の機能を実現する。
次に、図8を参照して、本実施例に係るサーバ1における障害情報読み出し処理の流れを説明する。図8は、障害情報読み出し処理のフローチャートである。ここでは、CPU103が実行する通信において障害が発生した場合で説明する。
情報通知部123及び情報取得部121は、障害情報バッファ122のレジスタアドレスとCPU103及び104の識別情報を対応させて記憶する(ステップS1)。これにより、情報通知部123及び情報取得部121は、障害情報バッファ122における障害情報が格納される4ビットのそれぞれがCPU103又は104の何れに対応するかを把握する。
次に、AOC101の通信制御部111とAOC201とは、光ケーブル3を用いて光通信処理を実行する(ステップS2)。
次に、アラーム検出部112は、通信制御部111によるアラームを検出したか否かを判定する(ステップS3)。アラームを検出した場合(ステップS3:肯定)、アラーム検出部112は、アラームが発生した通信を行うCPU103に割り込み通知を送信し(ステップS4)、ステップS6へ進む。
これに対して、アラームを検出しない場合(ステップS3:否定)、CPU103及び104は、実行する光通信において伝送異常を検出したか否かを判定する(ステップS5)。伝送異常が発生していない場合(ステップS5:否定)、処理はステップS3へ戻る。これに対して、伝送異常を検出した場合(ステップS5:肯定)、処理はステップS6へ進む。
CPU103は、割込み通知を受信した場合又は伝送異常を検出した場合、障害情報の読み出し要求を制御IC102へ送信する(ステップS6)。制御IC102は、障害情報の読み出し要求を障害情報送信部113へ送信する。
障害情報送信部113は、障害情報の読み出し要求を受信すると、アラームレジスタ114から障害情報を読み出す。その後、障害情報送信部113は、アラームレジスタ114をクリアする(ステップS7)。次に、障害情報送信部113は、障害情報を情報取得部121へ送信する。
次に、情報取得部121は、アラームレジスタ114から読み出された障害情報を障害情報送信部113から取得する。また、情報取得部121は、障害情報バッファ122に格納された障害情報の既存値を障害情報バッファ122から読み出す。そして、情報取得部121は、アラームレジスタ114から読み出された障害情報の取得値と障害情報バッファ122から読み出した障害情報の既存値の論理和を求める。その後、情報取得部121は、求めた論理和の値を障害情報バッファ122へ格納する(ステップS8)。
情報通知部123は、障害情報の読み出し要求の送信元であるCPU103の識別情報を情報取得部121から取得する。そして、情報通知部123は、CPU103に対応する障害情報を障害情報バッファ122から読み出す。その後、情報通知部123は、障害情報の読み出し要求の送信元のCPU103へ、CPU103に対応する障害情報を送信する(ステップS9)。
その後、情報通知部123は、CPU103へ送信した障害情報を障害情報バッファ122からクリアする(ステップS10)。
CPU103は、障害情報を情報通知部123から受信する。そして、CPU103は、アラームレベルが高いか否かを判定する(ステップS11)。ここで、アラームレベルが高いアラームは予め決められており、CPU103及び104は、アラームレベルが高いアラームの情報を予め記憶する。アラームレベルが高くない場合(ステップS11:否定)、処理は、ステップS2に戻る。
これに対して、アラームレベルが高い場合(ステップS11:肯定)、CPU103は、障害の内容をモニタなどに表示するなどして障害を報知する(ステップS12)。
分散処理システム100の管理者は、放置された障害の情報を確認して、AOC101の保守を行う(ステップS13)。
保守完了後、情報通知部123は、障害情報バッファ14を全てクリアする(ステップS14)。
その後、サーバ1は、分散処理システム100の管理者からの運用停止の指示の有無などから、運用を停止するか否かを判定する(ステップS15)。運用を停止しない場合(ステップS15:否定)、処理は、ステップS2に戻る。これに対して、運用を停止する場合(ステップS15:肯定)、サーバ1は、障害情報読み出し処理を停止する。
以上に説明したように、本実施例に係るサーバは、AOCのレジスタに格納された障害情報を1ビット単位で読み出せるバッファに既存の障害情報を残して格納し、障害情報の読み出し要求の送信元のCPUに応じた障害情報のみを読み出してクリアする。これにより、複数のCPUから障害情報の読出し要求が発生した場合にも、各CPUに対して対応する障害情報を送信することができ、確実に管理者に障害情報を提供することができる。したがって、管理者は障害情報を確認して適切な保守を行うことができ、保守を容易にすることができる。
また、本実施例に係るサーバは、共通規格に準拠したAOCを使用しているため、製造工程の増大や製造及び保守のコストの増加を抑えることができる。
1,2 サーバ
3 光ケーブル
10,20 メインボード
11,21 ハードディスク
12,22 電源
100 分散処理システム
101,201 AOC
102,202 制御IC
103,104,203,204 CPU
111 通信制御部
112 アラーム検出部
113 障害情報送信部
114 アラームレジスタ
121 情報取得部
122 障害情報バッファ
123 情報通知部

Claims (7)

  1. 複数の演算器と、
    各前記演算器が実行する通信において発生した障害に関する第1サイズの障害情報を記憶する第1格納部と、
    前記第1サイズの前記障害情報を複数含む第2サイズの単位で前記障害情報を前記第1格納部から読み出し、読み出した前記障害情報を前記第1格納部から削除する管理部と、
    前記管理部により前記第2サイズの単位で読み出された前記障害情報を第2格納部に格納する情報取得部と、
    前記第2格納部から前記第1サイズの単位で前記障害情報を読み出し、読み出した前記障害情報が示す障害が発生した通信に対応する前記演算器に、読み出した前記障害情報を通知する情報通知部と
    を備えたことを特徴とする情報処理装置。
  2. 前記情報通知部は、読み出した前記障害情報を前記第2格納部から削除することを特徴とする請求項1に記載の情報処理装置。
  3. 各前記演算器による前記通信を制御し、且つ、前記障害情報を含む前記通信に関する情報を前記第1格納部に格納する通信制御部をさらに備えたことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記演算器は、自己が行う通信において障害が発生した場合に前記障害情報の読出要求を前記情報取得部へ送信し、
    前記情報取得部は、前記演算器から前記読出要求を受信した場合に、前記読出要求の送信元の前記演算器が行った通信に関する前記障害情報の読み出しを前記管理部へ指示し、
    前記管理部は、前記情報取得部からの前記障害情報の読み出しの指示を受けた場合、前記読出要求の送信元の前記演算器が行った通信に関する前記障害情報を前記第1格納部から読み出す
    ことを特徴とする請求項1〜3のいずれか一つに記載の情報処理装置。
  5. 前記演算器による通信における障害の発生を検出した場合、障害が発生した通信を行った前記演算器に障害の発生を通知する検出部をさらに備え、
    前記演算器は、自己が行う通信における障害の発生を検出した場合及び前記検出部からの障害発生の通知を受信した場合、前記障害情報の読出要求を前記情報取得部へ送信する
    ことを特徴とする請求項1〜4のいずれか一つに記載の情報処理装置。
  6. 複数の情報処理装置を有する情報処理システムであって、
    各前記情報処理装置は、
    他の情報処理装置の演算器と通信を行う複数の演算器と、
    各前記演算器による通信において発生した障害に関する第1サイズの障害情報を記憶する第1格納部と、
    前記第1サイズの前記障害情報を複数含む第2サイズの単位で前記障害情報を前記第1格納部から読み出し、読み出した前記障害情報を前記第1格納部から削除する管理部と、
    前記管理部により前記第2サイズの単位で読み出された前記障害情報を第2格納部に格納する情報取得部と、
    前記第2格納部から前記第1サイズの単位で前記障害情報を読み出し、読み出した前記障害情報が示す障害が発生した通信に対応する前記演算器に、読み出した前記障害情報を通知する情報通知部と
    を備えたことを特徴とする情報処理システム。
  7. 各演算器による通信において発生した障害に関する第1サイズの障害情報を第1記憶装置に記憶させ、
    前記第1サイズの前記障害情報を複数含む第2サイズの単位で前記障害情報を前記第1記憶装置から読み出し、
    読み出した前記障害情報を前記第1記憶装置から削除し、
    前記第2サイズの単位で読み出された前記障害情報を第2記憶装置に格納させ、
    前記第2記憶装置から前記第1サイズの単位で前記障害情報を読み出し、
    読み出した前記障害情報が示す障害が発生した通信に対応する前記演算器に、読み出した前記障害情報を通知する
    処理をコンピュータに実行させることを特徴とする情報処理装置制御方法。
JP2017032628A 2017-02-23 2017-02-23 情報処理装置、情報処理システム及び情報処理装置制御方法 Active JP6897145B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017032628A JP6897145B2 (ja) 2017-02-23 2017-02-23 情報処理装置、情報処理システム及び情報処理装置制御方法
US15/876,261 US10664339B2 (en) 2017-02-23 2018-01-22 Information processing apparatus, information processing system, and information processing apparatus control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017032628A JP6897145B2 (ja) 2017-02-23 2017-02-23 情報処理装置、情報処理システム及び情報処理装置制御方法

Publications (2)

Publication Number Publication Date
JP2018136882A JP2018136882A (ja) 2018-08-30
JP6897145B2 true JP6897145B2 (ja) 2021-06-30

Family

ID=63167231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017032628A Active JP6897145B2 (ja) 2017-02-23 2017-02-23 情報処理装置、情報処理システム及び情報処理装置制御方法

Country Status (2)

Country Link
US (1) US10664339B2 (ja)
JP (1) JP6897145B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7367495B2 (ja) * 2019-11-29 2023-10-24 富士通株式会社 情報処理装置および通信ケーブルログ情報採取方法
CN113454613B (zh) * 2020-10-30 2022-08-09 华为技术有限公司 信息传输方法、控制装置、电磁信号收发装置及信号处理设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3263323B2 (ja) * 1996-11-15 2002-03-04 富士通株式会社 伝送装置の監視方法
JP4308695B2 (ja) * 2004-03-30 2009-08-05 富士通株式会社 インタフェース収容ボード
JP2008090505A (ja) 2006-09-29 2008-04-17 Fujitsu Ltd イベント保持回路
JP4573884B2 (ja) * 2008-06-18 2010-11-04 三菱電機株式会社 車載電子制御装置の電源異常検出回路
JP6056509B2 (ja) * 2013-01-30 2017-01-11 富士通株式会社 情報処理装置および情報処理装置の制御方法
WO2014147802A1 (ja) * 2013-03-21 2014-09-25 富士通株式会社 情報処理装置、資源割当方法、及びプログラム
JP6023388B2 (ja) * 2014-10-15 2016-11-09 株式会社フジクラ 光受信器、アクティブ光ケーブル、及び、光受信器の制御方法
JP6458494B2 (ja) * 2014-12-26 2019-01-30 富士通株式会社 情報処理装置、情報処理システムおよび通信装置

Also Published As

Publication number Publication date
US20180239663A1 (en) 2018-08-23
US10664339B2 (en) 2020-05-26
JP2018136882A (ja) 2018-08-30

Similar Documents

Publication Publication Date Title
US7844866B2 (en) Mechanism to report operating system events on an intelligent platform management interface compliant server
JP6333410B2 (ja) 障害処理方法、関連装置、およびコンピュータ
US9043527B2 (en) PCI express channel implementation in intelligent platform management interface stack
US9971640B2 (en) Method for error logging
US9697167B2 (en) Implementing health check for optical cable attached PCIE enclosure
US20140281758A1 (en) On-site visualization of component status
US9806959B2 (en) Baseboard management controller (BMC) to host communication through device independent universal serial bus (USB) interface
US20190180791A1 (en) Chassis monitoring system and chassis monitoring method
CN117389790B (zh) 可恢复故障的固件检测系统、方法、存储介质及服务器
JP6897145B2 (ja) 情報処理装置、情報処理システム及び情報処理装置制御方法
US20100064164A1 (en) Autonomic Component Service State Management for a Multiple Function Component
US9916273B2 (en) Sideband serial channel for PCI express peripheral devices
JP2014048782A (ja) 情報処理装置、及び情報処理装置の障害処理方法
US8819484B2 (en) Dynamically reconfiguring a primary processor identity within a multi-processor socket server
US9430306B2 (en) Anticipatory protection of critical jobs in a computing system
CN115543872A (zh) 一种设备管理方法、装置及计算机存储介质
US8886888B2 (en) Storage system
US10452464B1 (en) Automatic human configuration error detection for reoccurring events
US9838285B2 (en) Connection monitoring device and connection monitoring method
EP2851801B1 (en) Computer system, control method for computer system and coupling module
US9639438B2 (en) Methods and systems of managing an interconnection
CN114020561B (zh) 故障上报方法、系统、装置、计算机设备及存储介质
US20180012042A1 (en) Banner notification in locked host monitor
JP2006235665A (ja) コマンドテスタ
US8606973B1 (en) Managing monitored conditions in adaptors in a multi-adaptor system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210524

R150 Certificate of patent or registration of utility model

Ref document number: 6897145

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150