JP5422490B2 - 計算機システム及びi/o故障カード特定方法 - Google Patents

計算機システム及びi/o故障カード特定方法 Download PDF

Info

Publication number
JP5422490B2
JP5422490B2 JP2010126429A JP2010126429A JP5422490B2 JP 5422490 B2 JP5422490 B2 JP 5422490B2 JP 2010126429 A JP2010126429 A JP 2010126429A JP 2010126429 A JP2010126429 A JP 2010126429A JP 5422490 B2 JP5422490 B2 JP 5422490B2
Authority
JP
Japan
Prior art keywords
card
information
computer
management
pci
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010126429A
Other languages
English (en)
Other versions
JP2011253332A (ja
Inventor
美穂 岩永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010126429A priority Critical patent/JP5422490B2/ja
Publication of JP2011253332A publication Critical patent/JP2011253332A/ja
Application granted granted Critical
Publication of JP5422490B2 publication Critical patent/JP5422490B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、計算機システムにおけるI/O故障カードの特定に関するものである。
現代のインターネット社会では、計算機システムを用いて24時間365日対応したサービス提供が主流である。そのため、計算機に障害が発生した場合、できるだけ短時間で障害から復旧し、サービス提供を再開することが求められている。
計算機に障害が発生すると、保守員が障害原因を調査する。障害原因が部品の故障の場合、正常な保守部品と交換し、計算機を再起動する必要がある。障害復旧までの時間を短くするためには、故障した部品の位置を速やかに特定する必要がある。
一方、非特許文献1によると、計算機のI/Oカードを接続するインタフェースとして、PCI Expressが一般に普及している。従来は、PCI Express対応I/Oカードスロットが計算機内に存在していたが、近年では、計算機外に接続して、PCI Express対応I/Oカードスロットを拡張するI/Oカード拡張装置も存在する。
「改訂新版」PCI Express入門講座、株式会社電波新聞社、2008年発行、14ページ〜23ページ
従来、PCI Express対応I/Oカードスロットが計算機内に存在する場合には、I/Oカードスロット位置と、OSが取得するバス番号、デバイス番号、ファンクション番号が1対1に対応していた。OS上のアプリケーションは、I/Oカード故障を検出すると、故障したI/Oカードのバス番号、デバイス番号、ファンクション番号を管理PCに通知していた。そこで、保守員は、管理PCに表示されたバス番号、デバイス番号、ファンクション番号からI/Oカードスロット位置を特定し、I/Oカードを交換することができていた。
一方、I/Oカード拡張装置を計算機に接続する場合には、計算機との接続状態によって、I/Oカードスロット位置と、OSが取得するバス番号、デバイス番号、ファンクション番号の対応付けが変化する。このため、OS上のアプリケーションがI/Oカード故障を検出し、故障したI/Oカードのバス番号、デバイス番号、ファンクション番号を管理PCに通知しても、この通知内容をみた保守員は、このバス番号、デバイス番号、ファンクション番号からI/Oカードスロット位置を特定することが出来ず、速やかなI/Oカードの交換ができなかった。
本発明は、I/Oカード拡張装置を計算機に接続する場合にも、I/Oカードスロット位置をシステムが特定し、特定したI/Oカードスロット位置を表示するI/O故障カード特定方法提供することを目的とする。
上記課題を解決するために、本発明に係る計算機システムおよびI/O故障カード特定方法は、第一の通信制御部及び第一の記憶部を有する管理PCと、第一のI/Oカードスロット及び第二の通信制御部を有する計算機と、スイッチ、前記スイッチと接続された第二のI/Oカードスロット、及び第三の通信制御部を有するI/Oカード拡張装置とを備え、前記第一の通信制御部が前記第二の通信制御部及び前記第三の通信制御部と接続されている。そして、前記第一のI/Oカードスロットのうち少なくとも1つには、接続モジュールが搭載され、前記計算機は、前記接続モジュールと接続される前記スイッチを介して、前記I/Oカード拡張装置の前記第二のI/Oカードスロットと接続され、前記第一の記憶部には、前記計算機の固有情報と前記I/Oカード拡張装置の固有情報とが管理される管理情報が保持されている。そして、前記I/Oカードの故障発生情報の前記管理PCに対する入力を契機に、前記管理PCから前記故障発生情報の送信元へ故障通知制御要求を出力し、前記管理PCから出力された前記故障通知御要求に基き、故障したI/Oカードを搭載する前記送信元のI/Oカードスロットを特定する。
本発明によれば、計算機及び計算機に接続されたI/Oカード拡張装置のI/Oカードスロット位置を特定することができる。そして、特定したI/Oカードスロット位置を表示するので、保守員が表示情報に基き速やかなI/Oカード交換をすることができる。
実施例1の計算機システムのブロック図。 実施例1の本発明におけるPCI内蔵デバイス情報。 実施例1におけるPCI管理情報。 実施例1の故障サーバ情報。 実施例1の故障サーバ情報画面。 実施例1の計算機のI/Oカード状態判定命令列のフローチャート。 実施例1の計算機の光源制御命令列のフローチャート。 実施例1のI/Oカード拡張装置のI/Oカード状態判定命令列のフローチャート。 実施例1のI/Oカード拡張装置の光源制御命令列のフローチャート。 実施例1のサーバ状態判定命令列のフローチャート。 実施例1の光源制御命令列のフローチャート。 実施例2の計算機システムのブロック図。 実施例2のPCI内蔵デバイス情報。 実施例2のPCI管理情報。 実施例2のサーバ接続情報。 実施例2のサーバ管理情報。 実施例2の計算機のI/Oカード状態判定命令列のフローチャート。 実施例2のサーバ管理情報作成命令列のフローチャート。 実施例2の光源制御命令列のフローチャート。
<実施例1>
以下、本発明を適用した第1の形態を、図面に基づいて詳細に説明する。
図1は、本発明を適用する計算機システムのブロック図の例である。
図1において、計算機100は、CPU101と、光源制御部103と、光源104と、ディスク制御部105と、メモリ106と、通信制御部108と、1つまたは複数のI/Oカードスロット102と、ストレージ109を有する。
I/Oカードスロット102はCPU101に接続され、I/Oカードを搭載することができる。I/Oカードスロット102に、PCI Express接続モジュール114を搭載することで、I/Oカード拡張装置200に接続することができる。光源104は光源制御部103に接続される。メモリ106は、PCI管理情報107を格納する。ストレージ109はディスク制御部105に接続され、OS110とI/Oカード状態判定命令列111と光源制御命令列112とPCI内蔵デバイス情報113を格納する。
I/Oカード拡張装置200は、PCI Expressスイッチ201と、CPU202と、光源制御部203と、不揮発メモリ204と、通信制御部207と、1つまたは複数のI/Oカードスロット208を有する。
I/Oカードスロット208は、PCI Expressスイッチ201を介してCPU202に接続され、I/Oカードを搭載することができる。各I/Oカードスロット208内の光源210は、光源制御部203に接続される。不揮発メモリ204は、I/Oカード状態判定命令列205と光源制御命令列206を格納する。
管理PC300は、通信制御部301と、CPU302と、ディスク制御部303と、メモリ304と、ストレージ306を有する。メモリ304は、故障サーバ情報305を格納する。ストレージ306は、ディスク制御部303に接続され、OS307と、サーバ状態判定命令列308と、光源制御命令列309を格納する。
計算機100の通信制御部108と、I/Oカード拡張装置200の通信制御部207と、管理PC300の通信制御部301は、ネットワークを介して接続される。
図2は、本発明におけるPCI内蔵デバイス情報113の例である。
PCI内蔵デバイス情報113は、計算機100に内蔵されているPCIデバイスについて、行番号と、バス番号と、デバイス番号と、ファンクション番号と、そのPCIデバイスの接続元のPCIデバイスが存在する場合には、接続元のPCIデバイスの行番号と、内蔵か外付けを示す搭載位置を格納する。PCI内蔵デバイス情報113に格納されるPCIデバイスはすべて内蔵デバイスであるため、搭載位置には、内蔵を記録する。
図3は、本発明におけるPCI管理情報107の例である。
PCI管理情報107は、計算機100に接続されているPCIデバイスについて、行番号と、バス番号と、デバイス番号と、ファンクション番号と、そのPCIデバイスの接続元のPCIデバイスが存在する場合には、接続元のPCIデバイスの行番号と、内蔵か外付けを示す搭載位置を格納する。
図4は、本発明における故障サーバ情報305の例である。
故障サーバ情報305は、I/Oカード故障を検出した計算機300のIPアドレスと、バス番号と、デバイス番号と、ファンクション番号と、管理PC300が計算機100から故障通知を受けた受信時刻と、故障したI/Oカードの搭載位置と、I/Oカード故障を検出したI/Oカード拡張装置200のIPアドレスと、故障したI/Oカードのスロット位置と、管理PC300がI/Oカード拡張装置200から故障通知を受けた受信時刻を格納する。ここで、I/Oカードの故障とは、I/Oカードが正常に動作出来ない状態のことを意味する。
図5は、本発明における故障サーバ情報画面400の例である。
故障サーバ情報画面400は、管理PC300に表示される画面であり、故障サーバ情報305の情報と、光源の状態を表示する。
図6は、本発明における計算機100のI/Oカード状態判定命令列111のフローチャートの例である。
ステップ601では、OSからPCIデバイスのバス番号、デバイス番号、ファンクション番号一覧を取得し、PCI管理情報107に格納する。
ステップ602では、PCI内蔵デバイス情報113と照合し、PCI内蔵デバイス情報113に含まれるPCIデバイスには「内蔵」、それ以外のPCIデバイスには「外付け」をPCI管理情報107に格納する。
ステップ603では、I/Oカードの状態を検出する。ここで、I/Oカードの状態は、I/Oカードのデバイスドライバにより常に確認されている。I/Oカードのデバイスドライバは、I/Oカードが故障したことを検出すると、故障内容や故障時刻をログに記録する。この故障内容や故障時刻を記録されたログは、例えば計算機100に保存されている。そこで、このログを参照することで、I/Oカードの状態を検出している。
ステップ604では、検出した状態が正常か故障かを判断する。具体的には、I/Oカードのデバイスドライバが、I/Oカードが正常に動作できる状態かどうかを判断する。(なお、個々のデバイスの正常か故障かの判断基準は、各デバイスドライバの仕様により異なる。)正常の場合にはステップ603へ進み、故障の場合はステップ605へ進む。
ステップ605では、故障を検出したI/OカードのPCI管理情報107を管理PC300へ送信し、ステップ603へ進む。
図7は、本発明における計算機100の光源制御命令列112のフローチャートの例である。
ステップ701では、管理PC300から光源制御コマンドを受信する。
ステップ702では、光源制御コマンドが点灯か消灯かを判断し、点灯の場合にはステップ703へ、消灯の場合にはステップ704へ進む。
ステップ703では、光源制御部103に計算機100の光源104を点灯するコマンドを発行する。
ステップ704では、光源制御部103に計算機100の光源104を消灯するコマンドを発行する。
図8は、本発明におけるI/Oカード拡張装置200のI/Oカード状態判定命令列205のフローチャートの例である。
ステップ801では、I/Oカードの状態を検出する。
ステップ802では、検出した状態が正常か故障かを判断する。正常の場合にはステップ801へ進み、故障の場合はステップ803へ進む。
ステップ803では、故障を検出したI/Oカードのスロット位置情報を管理PC300へ送信し、ステップ801へ進む。
図9は、本発明におけるI/Oカード拡張装置200の光源制御命令列206のフローチャートの例である。
ステップ901では、管理PC300から光源制御コマンドとスロット位置情報を受信する。
ステップ902では、光源制御コマンドが点灯か消灯かを判断し、点灯の場合にはステップ903へ、消灯の場合にはステップ904へ進む。
ステップ903では、光源制御部203にI/Oカード拡張装置200の受信したスロット位置の光源210を点灯するコマンドを発行し、ステップ901へ進む。
ステップ904では、光源制御部203にI/Oカード拡張装置200の受信したスロット位置の光源210を消灯するコマンドを発行し、ステップ901へ進む。
図10は、本発明におけるサーバ状態判定命令列308のフローチャートの例である。
ステップ1001では、管理PC300に故障サーバ情報画面400を表示する。
ステップ1002では、計算機100またはI/Oカード拡張装置200からの情報を受信する。
ステップ1003では、受信時刻を保持する。なお、保持する時刻は、計算機およびI/O拡張装置からの送信時刻であってもよい。ただし、計算機およびI/O拡張装置の装置内時刻は、管理PC内の装置内時刻と、必ずしも一致するとは限らない。したがって、管理PCが受信した受信時刻を保持したほうが、より正確に制御できる。
ステップ1004では、情報の送信元を判断する。送信元が計算機100の場合には、ステップ1005へ進み、送信元がI/Oカード拡張装置200の場合には、ステップ1011へ進む。
ステップ1005では、故障サーバ情報305から、直近に記録されたI/Oカード拡張装置情報を探す。
ステップ1006では、直近のI/Oカード拡張装置情報の行に計算機情報が記録されているかを判断する。記録されていない場合はステップ1007へ進み、記録されている場合はステップ1008へ進む。
ステップ1007では、直近のI/Oカード拡張装置情報の行に受信したPCI管理情報と受信時刻を記録し、ステップ1015へ進む。
ステップ1008では、新規の行に受信したPCI管理情報と受信時刻を記録する。
ステップ1009では、記録したPCI管理情報の搭載位置を判断する。搭載位置が外付けの場合はステップ1001へ進み、搭載位置が内蔵の場合はステップ1010へ進む。
ステップ1010では、記録した行のI/Oカード拡張装置情報に「なし」を記録し、ステップ1015へ進む。
ステップ1011では、故障サーバ情報305から、直近に記録された計算機情報を探す。
ステップ1012では、直近の計算機情報の行にI/Oカード拡張装置情報が記録されているかを判断する。記録されていない場合はステップ1013へ進み、記録されている場合はステップ1014へ進む。
ステップ1013では、直近のI/Oカード拡張装置情報の行に受信したスロット位置情報と受信時刻を記録し、ステップ1015へ進む。
ステップ1014では、新規の行に受信したスロット位置情報と受信時刻を記録し、ステップ1015へ進む。
ステップ1015では、受信時刻を記録した行の情報を光源制御要求(点灯要求)として、管理PC30で実行される光源制御命令列309へ送信し、ステップ1001へ進む。
図11は、本発明における光源制御命令列309のフローチャートの例である。
ステップ1101では、管理PC30で実行されるサーバ状態判定命令列308からの光源制御要求を待つ。
ステップ1102では、光源制御要求を判断する。光源制御要求が点灯の場合はステップ1111へ進み、光源制御要求が消灯の場合はステップ1112へ進む。
ステップ1111では、光源制御要求に計算機情報があるかどうかを判断する。計算機情報がある場合はステップ1103に進み、計算機情報がない場合はステップ1105に進む。
ステップ1103では、計算機情報のIPアドレスに光源点灯要求を送信する。
ステップ1104では、計算機情報の行にI/Oカード拡張装置情報が記録されているかを判断する。I/Oカード拡張装置情報が記録されている場合はステップ1105へ進み、I/Oカード拡張装置情報が記録されていない場合はステップ1106へ進む。
ステップ1105では、I/Oカード拡張装置のIPアドレスに光源点灯要求を送信する。
ステップ1106では、故障サーバ情報画面400の光源状態を点灯に変更し、ステップ1101へ進む。
ステップ1112では、光源制御要求に計算機情報があるかどうかを判断する。計算機情報がある場合はステップ1107に進み、計算機情報がない場合はステップ1109に進む。
ステップ1107では、計算機情報のIPアドレスに光源消灯要求を送信する。
ステップ1108では、計算機情報の行にI/Oカード拡張装置情報が記録されているかを判断する。I/Oカード拡張装置情報が記録されている場合はステップ1109へ進み、I/Oカード拡張装置情報が記録されていない場合はステップ1110へ進む。
ステップ1109では、I/Oカード拡張装置のIPアドレスに光源消灯要求を送信する。
ステップ1110では、故障サーバ情報画面400の光源状態を消灯に変更し、ステップ1101へ進む。
本発明を適用した実施例1の計算機システムでは、管理PCがディスク制御部を有し、計算機からのPCI管理情報とI/Oカード拡張装置からのスロット位置情報とに基づいて、管理PCの通信制御部がI/Oカード拡張装置の光源制御部を点灯することができるので、バス・デバイス・ファンクション番号からI/Oカードスロット位置を特定することが可能となり、従来ではなし得なかった速やかなI/Oカード交換が可能となる。
<実施例2>
以下、本発明を実施するための第2の形態を図面に基づいて詳細に説明する。
図12は、本発明を適用する計算機システムのブロック図の例である。
図12において、計算機1300は、CPU101と、光源制御部103と、光源104と、ディスク制御部105と、メモリ106と、通信制御部108と、1つまたは複数のI/Oカードスロット102と、ストレージ109を有する。
I/Oカードスロット102はCPU101に接続され、I/Oカードを搭載することができる。I/Oカードスロット102に、PCI Express接続モジュール114を搭載することで、I/Oカード拡張装置1400に接続することができる。光源104は光源制御部103に接続される。メモリ106は、PCI管理情報1201を格納する。ストレージ109はディスク制御部105に接続され、OS110とI/Oカード状態判定命令列1202と光源制御命令列112とPCI内蔵デバイス情報1203を格納する。
I/Oカード拡張装置1400は、PCI Expressスイッチ201と、CPU202と、光源制御部203と、不揮発メモリ204と、通信制御部207と、1つまたは複数のI/Oカードスロット208を有する。
I/Oカードスロット208はPCI Expressスイッチ201を介してCPU202に接続され、I/Oカード209を搭載することができる。各I/Oカードスロット208内の光源210は、光源制御部203に接続される。不揮発メモリ204は、光源制御命令列206を格納する。
管理PC1500は、通信制御部301と、CPU302と、ディスク制御部303と、メモリ304と、ストレージ306を有する。メモリ304は、サーバ接続情報1204と、サーバ管理情報1205を格納する。ストレージ306は、ディスク制御部303に接続され、OS307と、サーバ管理情報作成命令列1206と、光源制御命令列1207を格納する。
計算機1300の通信制御部108と、I/Oカード拡張装置1400の通信制御部207と、管理PC1500の通信制御部301は、ネットワークを介して接続される。
図13は、本発明におけるPCI内蔵デバイス情報1203の例である。
PCI内蔵デバイス情報1203は、計算機1300に内蔵されているPCIデバイスについて、行番号と、バス番号と、デバイス番号と、ファンクション番号と、そのPCIデバイスの接続元のPCIデバイスが存在する場合には、接続元のPCIデバイスのバス番号と、計算機1300のI/Oカードスロットに搭載されたI/Oカードの場合には、計算機スロット番号を格納する。
図14は、本発明におけるPCI管理情報1201の例である。
PCI管理情報1201は、計算機1300に接続されているPCIデバイスについて、行番号と、バス番号と、デバイス番号と、ファンクション番号と、そのPCIデバイスの接続元のPCIデバイスが存在する場合には、接続元のPCIデバイスのバス番号を格納する。
図15は、本発明におけるサーバ接続情報1204の例である。
サーバ接続情報1204は、I/Oカード拡張装置1400が接続された計算機1300について、行番号と、計算機1300のIPアドレスと、I/Oカード拡張装置が接続された計算機スロット番号と、I/Oカード拡張装置のIPアドレスと、I/Oカード拡張装置のスロット番号と、サーバ管理情報作成命令列1206で使用する割り当て済みフラグを格納する。
図16は、本発明におけるサーバ管理情報1205の例である。
サーバ管理情報1205は、管理PC1500が管理する計算機1300に接続されたPCIデバイスについて、行番号と、計算機1300のIPアドレスと、バス番号と、デバイス番号と、ファンクション番号と、そのPCIデバイスの接続元のPCIデバイスが存在する場合には、接続元のPCIデバイスのバス番号と、I/Oカード拡張装置が接続された計算機スロット番号と、I/Oカード拡張装置のIPアドレスと、I/Oカード拡張装置のスロット番号を格納する。
図17は、本発明における計算機1300のI/Oカード状態判定命令列1202のフローチャートの例である。
ステップ1701では、OSからPCIデバイスのバス番号、デバイス番号、ファンクション番号一覧を取得し、PCI管理情報1201に格納する。
ステップ1702では、I/Oカードの状態を検出する。
ステップ1703では、検出した状態が正常か故障かを判断する。正常の場合にはステップ1702へ進み、故障の場合には、ステップ1704へ進む。
ステップ1704では、故障を検出したI/OカードのPCI管理情報1201を管理PC1500へ送信し、ステップ1702へ進む。
図18は、本発明におけるサーバ管理情報作成命令列1206のフローチャートの例である。
ステップ1801では、サーバ接続情報1204の計算機IPアドレスに指定された計算機1300からPCI内蔵デバイス情報1203とPCI管理情報1201を取得する。
ステップ1802では、PCI管理情報1201の行番号を0とする。
ステップ1803では、PCI管理情報1201の行番号の情報を1行読む。
ステップ1804では、PCI管理情報1201の行番号の情報が存在するかどうかを判断する。PCI管理情報1201の行番号の情報が存在する場合にはステップ1805へ進み、PCI管理情報1201の行番号の情報が存在しない場合には処理を終了する。
ステップ1805では、サーバ管理情報1205に、計算機IPアドレスと、PCI管理情報1201のバス番号と、デバイス番号と、ファンクション番号と、接続元バス番号を記録する。
ステップ1806では、記録したバス番号、デバイス番号、ファンクション番号がPCI内蔵デバイス情報1203に含まれるかどうかを判断する。含まれる場合にはステップ1807へ進み、含まれない場合にはステップ1810へ進む。
ステップ1807では、PCI内蔵デバイス情報1203の計算機スロット番号をサーバ管理情報1205に記録する。
ステップ1808では、サーバ管理情報1205のI/Oカード拡張装置IPアドレスとI/Oカード拡張装置スロット番号に「なし」を記録する。
ステップ1809では、PCI管理情報1201の行番号を1増加し、ステップ1803に進む。
ステップ1810では、接続元バス番号が、PCI内蔵デバイス情報1203のバス番号に含まれるかを調べる。
ステップ1811では、調べた結果を判断する。接続元バス番号が、PCI内蔵デバイス情報1203のバス番号に含まれる場合にはステップ1815へ進み、接続元バス番号が、PCI内蔵デバイス情報1203のバス番号に含まれない場合には、ステップ1812に進む。
ステップ1812では、サーバ管理情報1205に、接続元のバス番号と同じバス番号を含む行を探す。
ステップ1813では、ステップ1812で探した行の計算機スロット番号と、I/Oカード拡張装置IPアドレスと、I/Oカード拡張装置スロット番号を、サーバ管理情報1205に記録する。
ステップ1814では、PCI管理情報1201の行番号を1増加し、ステップ1803に進む。
ステップ1815では、PCI内蔵デバイス情報1203の該当する行の計算機スロット番号を調べる。
ステップ1816では、サーバ接続情報1204に、該当する計算機IPアドレス、計算機スロット番号が含まれる行があるかを判断する。含まれる場合はステップ1819へ進み、含まれない場合はステップ1817へ進む。
ステップ1817では、サーバ管理情報1205に計算機スロット番号を記録し、I/Oカード拡張装置IPアドレスと、I/Oカード拡張装置スロット番号に「なし」を記録する。
ステップ1818では、PCI管理情報1201の行番号を1増加し、ステップ1803に進む。
ステップ1819では、サーバ接続情報1204の割り当て済みフラグが未で、最小のI/Oカード拡張装置スロット番号の行を探す。
ステップ1820では、計算機スロット番号を記録し、I/Oカード拡張装置IPアドレスと、I/Oカード拡張装置スロット番号を、サーバ管理情報1205に記録する。
ステップ1821では、サーバ接続情報1204の該当する行の割り当て済みフラグに「済み」を記録する。ステップ1822では、PCI管理情報1201の行番号を1増加し、ステップ1803に進む。
図19は、本発明における光源制御命令列1207のフローチャートの例である。
ステップ1901では、計算機1300からの、故障I/OカードのPCI管理情報を取得する。
ステップ1906では、PCI管理情報が取得できたかどうかを判断し、取得できた場合はステップ1902に進み、取得できない場合はステップ1901に進む。
ステップ1902では、ステップ1901の情報送信元である計算機のIPアドレスに、光源点灯要求を送信する。
ステップ1903では、サーバ管理情報1205から、計算機のIPアドレスと故障I/OカードのPCI管理情報を含む行を探す。
ステップ1904では、ステップ1903で探した行に、I/Oカード拡張装置のIPアドレスが含まれるかどうかを判断する。含まれる場合にはステップ1905へ進み、含まれない場合にはステップ1901へ進む。
ステップ1905では、I/Oカード拡張装置のIPアドレスに、光源点灯要求を送信する。
本発明を適用した実施例2の計算機システムでは、管理PCがディスク制御部を有し、I/Oカード拡張装置のPCI構成情報を予め全て持っているので、計算機からのPCI管理情報に基づいて、管理PCのディスク制御部のサーバ管理情報作成命令列により、バス・デバイス・ファンクション番号からI/Oカードスロット位置を特定することが可能となり、従来ではなしえなかった速やかなI/Oカード交換が可能となる。
100 計算機、101 CPU、102 I/Oカードスロット、103 光源制御部、104 光源、105 ディスク制御部、106 メモリ、107 PCI管理情報、108 通信制御部、109 ストレージ、110 OS、111 I/Oカード状態判定命令列、112 光源制御命令列、113 PCI内蔵デバイス情報、114 PCI Express接続モジュール、200 I/Oカード拡張装置、201 PCI Expressスイッチ、202 CPU、203 光源制御部、204 不揮発メモリ、205 I/Oカード状態判定命令列、206 光源制御命令列、207 通信制御部、208 I/Oカードスロット、209 I/Oカード、210 光源、300 管理PC、301 通信制御部、302 CPU、303 ディスク制御部、304 メモリ、305 故障サーバ情報、306 ストレージ、307 OS、308 サーバ状態判定命令列、309 光源制御命令列、1201 PCI管理情報、1202 I/Oカード状態判定命令列、1203 PCI内蔵デバイス情報、1204 サーバ接続情報、1205 サーバ管理情報、1206 サーバ管理情報作成命令列、1207 光源制御命令列
1300 計算機、1400 I/Oカード拡張装置、1500 管理PC

Claims (15)

  1. 第一の通信制御部及び第一の記憶部を有する管理PCと、第一のI/Oカードスロット及び第二の通信制御部を有する計算機と、スイッチ、前記スイッチと接続された第二のI/Oカードスロット、及び第三の通信制御部を有するI/Oカード拡張装置とを備え、前記第一の通信制御部が前記第二の通信制御部及び前記第三の通信制御部と接続された計算機システムにおけるI/Oカード故障特定方法であって、
    前記第一のI/Oカードスロットのうち少なくとも1つには、接続モジュールが搭載され、
    前記計算機は、前記接続モジュールと接続される前記スイッチを介して、前記I/Oカード拡張装置の前記第二のI/Oカードスロットと接続され、
    前記第一の記憶部には、前記計算機の固有情報と前記I/Oカード拡張装置の固有情報とが管理される管理情報が保持され、
    前記I/Oカードの故障発生情報の前記管理PCに対する入力を契機に、
    前記管理PCから前記故障発生情報の送信元へ故障通知制御要求を出力し、
    前記管理PCから出力された前記故障通知御要求に基き、故障したI/Oカードを搭載する前記送信元のI/Oカードスロットを特定することを特徴とするI/Oカード故障特定方法。
  2. 前記管理情報は、I/Oカード故障の発生した計算機の固有情報と、I/Oカード故障の発生したI/Oカード拡張装置の固有情報とを管理する故障サーバ情報あり、
    前記I/Oカードの故障発生情報の前記管理PCに対する入力を契機に、
    前記管理PCにおける前記故障発生情報の受信時刻または送信元における前記故障発生情報の送信時刻の何れか一方の時刻を保持し、
    前記送信元が前記計算機である場合、
    前記故障サーバ情報から、記録時刻が最新であるI/Oカード拡張装置の固有情報を検索し、
    前記記録時刻が最新であるI/Oカード拡張装置の固有情報に関連する計算機の固有情報の記録の有無を判定し、
    関連する計算機の固有情報の記録が有る場合、前記計算機の固有情報及び前記保持した時刻を、新たな情報として前記故障サーバ情報に記録し、
    関連する計算機の固有情報の記録が無い場合、前記計算機の固有情報及び前記保持した時刻を、前記記録時刻が最新であるI/Oカード拡張装置の固有情報に対応づけて前記故障サーバ情報に記録し、
    前記送信元が前記I/Oカード拡張装置である場合、
    前記故障サーバ情報から、記録時刻が最新である計算機の固有情報を検索し、
    前記記録時刻が最新である計算機の固有情報に関連するI/Oカード拡張装置の固有情報の記録の有無を判定し、
    関連するI/Oカード拡張装置の固有情報の記録が有る場合、前記I/Oカード拡張装置の固有情報及び前記保持した時刻を、新たな情報として前記故障サーバ情報に記録し、
    関連するI/Oカード拡張装置の固有情報の記録が無い場合、前記I/Oカード拡張装置の固有情報及び前記保持した時刻を、前記記録時刻が最新である計算機の固有情報に対応づけて前記故障サーバ情報に記録し、
    前記故障サーバに記録した前記時刻に関する情報を故障通知制御要求に含めて、前記故障発生情報の送信元へ出力することを特徴とする請求項1記載のI/Oカード故障特定方法。
  3. 前記I/Oカード故障の発生した計算機の固有情報は、計算機のIPアドレス、バス番号、デバイス番号及びファンクション番号を含み、
    前記I/Oカード故障の発生したI/Oカード拡張装置の固有情報は、I/Oカード拡張装置のIPアドレス、故障したI/Oカードの搭載位置、及び故障したI/Oカードのスロット位置を含むことを特徴とする請求項2記載のI/Oカード故障特定方法。
  4. 前記スイッチは、PCI Expressスイッチであり、
    前記接続モジュールは、PCI Express接続モジュールであることを特徴とする請求項2記載のI/Oカード故障特定方法。
  5. 前記計算機はPCI管理情報、及びPCI内蔵デバイス情報を有し、
    前記PCI管理情報には、前記計算機に接続されているPCIデバイスについて、行番号、バス番号、デバイス番号、ファンクション番号、前記PCIデバイスの接続元のPCIデバイスが存在する場合には接続元のPCIデバイスの行番号、及び搭載位置の情報が格納されており、
    前記PCI内蔵デバイス情報には、前記計算機に内蔵されているPCIデバイスについて、行番号、バス番号、デバイス番号、ファンクション番号、前記PCIデバイスの接続元のPCIデバイスが存在する場合には接続元のPCIデバイスの行番号、搭載位置が内蔵という情報が格納されていること
    を特徴とする請求項4記載のI/Oカード故障特定方法。
  6. 前記故障通知制御要求は、光源点灯要求であり、
    前記管理PCから出力された前記光源点灯要求に基き、故障したI/Oカードを搭載する前記計算機のI/Oカードスロットの光源を点灯し、
    前記管理PCから出力された前記光源点灯要求に基き、故障したI/Oカードを搭載する前記I/Oカード拡張装置のI/Oカードスロットの光源を点灯することを特徴とする請求項2記載のI/Oカード故障特定方法。
  7. 前記I/Oカードの故障発生情報の前記管理PCに対する入力を契機に、
    前記故障発生情報を前記管理PCへ出力した計算機に対し、前記管理PCから故障通知制御要求を出力し、
    前記管理PCから出力された前記故障通知御要求に基き、故障したI/Oカードを搭載する前記計算機のI/Oカードスロットを特定し、
    前記故障通知制御要求を入力された計算機の固有情報を、前記第一の記憶部に保持される管理情報から検索し、
    前記検索により発見した管理情報における計算機の固有情報に関連する前記I/Oカード拡張装置の固有情報の有無を判断し、
    前記関連するI/Oカード拡張装置の固有情報がない場合、
    新たなI/Oカードの故障発生情報の前記管理PCへの入力を待ち、
    前記関連するI/Oカード拡張装置の固有情報がある場合、
    前記固有情報を有するI/Oカード拡張装置に対し、前記管理PCから前記故障通知制御要求を出力し、
    前記管理PCから出力された故障通知御要求に基き、故障したI/Oカードを搭載する前記I/Oカード拡張装置のI/Oカードスロットを特定することを特徴とする請求項1記載のI/Oカード故障特定方法。
  8. 前記スイッチは、PCI Expressスイッチであり、
    前記接続モジュールは、PCI Express接続モジュールであることを特徴とする請求項7記載のI/Oカード故障特定方法。
  9. 前記計算機はPCI管理情報、及びPCI内蔵デバイス情報を有し、
    前記PCI管理情報には、前記計算機に接続されているPCIデバイスについて、行番号、バス番号、デバイス番号、ファンクション番号、及び前記PCIデバイスの接続元のPCIデバイスが存在する場合には接続元のPCIデバイスのバス番号が格納され、
    前記PCI内蔵デバイス情報には、前記計算機に内蔵されているPCIデバイスについて、行番号、バス番号、デバイス番号、ファンクション番号、前記PCIデバイスの接続元のPCIデバイスが存在する場合には接続元のPCIデバイスのバス番号、及び前記計算機のI/Oカードスロットに搭載されたI/Oカードの場合には計算機スロット番号が格納されていること
    を特徴とする請求項8記載のI/Oカード故障特定方法。
  10. 前記管理PCは、
    前記計算機から取得したPCI管理情報及びPCI内蔵デバイス情報に基づき、サーバ管理情報を生成し、
    前記サーバ管理情報には、前記管理PCが管理する前記計算機に接続された前記PCIデバイスについて、行番号、前記計算機のIPアドレス、バス番号、デバイス番号、ファンクション番号、前記PCIデバイスの接続元のPCIデバイスが存在する場合には接続元のPCIデバイスのバス番号、I/Oカード拡張装置が接続された計算機スロット番号、I/Oカード拡張装置のIPアドレス、及びI/Oカード拡張装置のスロット番号が格納されていることを特徴とする請求項9記載のI/Oカード故障特定方法。
  11. 前記故障通知制御要求は、光源点灯要求であり、
    前記管理PCから出力された前記光源点灯要求に基き、故障したI/Oカードを搭載する前記計算機のI/Oカードスロットの光源を点灯し、
    前記管理PCから出力された前記光源点灯要求に基き、故障したI/Oカードを搭載する前記I/Oカード拡張装置のI/Oカードスロットの光源を点灯することを特徴とする請求項7記載のI/Oカード故障特定方法。
  12. 第一の通信制御部及び第一の記憶部を有する管理PCと、第一のI/Oカードスロット及び第二の通信制御部を有する計算機と、スイッチ、前記スイッチと接続された第二のI/Oカードスロット、及び第三の通信制御部を有するI/Oカード拡張装置とを備え、前記第一の通信制御部が前記第二の通信制御部及び前記第三の通信制御部と接続された計算機システムにおいて、
    前記第一のI/Oカードスロットのうち少なくとも1つには、接続モジュールが搭載され、
    前記計算機は、前記接続モジュールと接続される前記スイッチを介して、前記I/Oカード拡張装置の前記第二のI/Oカードスロットと接続され、
    前記第一の記憶部には、前記計算機の固有情報と前記I/Oカード拡張装置の固有情報とが管理される管理情報が保持され、
    前記管理PCは、前記I/Oカードの故障発生情報の前記管理PCに対する入力を契機に、
    前記故障発生情報の送信元へ故障通知制御要求を出力し、
    前記送信元は、前記管理PCから出力された前記故障通知御要求に基き、故障したI/Oカードを搭載するI/Oカードスロットを特定することを特徴とする計算機システム。
  13. 前記管理情報は、I/Oカード故障の発生した計算機の固有情報と、I/Oカード故障の発生したI/Oカード拡張装置の固有情報とを管理する故障サーバ情報であり、
    前記I/Oカードの故障発生情報の前記管理PCに対する入力を契機に、前記管理PCは、
    前記管理PCにおける前記故障発生情報の受信時刻または送信元における前記故障発生情報の送信時刻の何れか一方の時刻を保持し、
    前記送信元が前記計算機である場合、
    前記故障サーバ情報から、記録時刻が最新であるI/Oカード拡張装置の固有情報を検索し、
    前記記録時刻が最新であるI/Oカード拡張装置の固有情報に関連する計算機の固有情報の記録の有無を判定し、
    関連する計算機の固有情報の記録が有る場合、前記計算機の固有情報及び前記保持した時刻を、新たな情報として前記故障サーバ情報に記録し、
    関連する計算機の固有情報の記録が無い場合、前記計算機の固有情報及び前記保持した時刻を、前記記録時刻が最新であるI/Oカード拡張装置の固有情報に対応づけて前記故障サーバ情報に記録し、
    前記送信元が前記I/Oカード拡張装置である場合、
    前記故障サーバ情報から、記録時刻が最新である計算機の固有情報を検索し、
    前記記録時刻が最新である計算機の固有情報に関連するI/Oカード拡張装置の固有情報の記録の有無を判定し、
    関連するI/Oカード拡張装置の固有情報の記録が有る場合、前記I/Oカード拡張装置の固有情報及び前記保持した時刻を、新たな情報として前記故障サーバ情報に記録し、
    関連するI/Oカード拡張装置の固有情報の記録が無い場合、前記I/Oカード拡張装置の固有情報及び前記保持した時刻を、前記記録時刻が最新である計算機の固有情報に対応づけて前記故障サーバ情報に記録し、
    前記故障サーバに記録した前記時刻に関する情報を故障通知制御要求に含めて、前記故障発生情報の送信元へ出力することを特徴とする請求項12記載の計算機システム。
  14. 前記I/Oカードの故障発生情報の前記管理PCに対する入力を契機に、前記管理PCは、
    前記故障発生情報を前記管理PCへ出力した計算機に対し、前記管理PCから故障通知制御要求を出力し、
    前記管理PCから出力された前記故障通知御要求に基き、故障したI/Oカードを搭載する前記計算機のI/Oカードスロットを特定し、
    前記故障通知制御要求を入力された計算機の固有情報を、前記第一の記憶部に保持される管理情報から検索し、
    前記検索により発見した管理情報における計算機の固有情報に関連する前記I/Oカード拡張装置の固有情報の有無を判断し、
    前記関連するI/Oカード拡張装置の固有情報がない場合、
    新たなI/Oカードの故障発生情報の、前記管理PCへの入力を待ち、
    前記関連するI/Oカード拡張装置の固有情報がある場合、
    前記固有情報を有するI/Oカード拡張装置に対し、前記管理PCから前記故障通知制御要求を出力し、
    前記管理PCから出力された故障通知御要求に基き、故障したI/Oカードを搭載する前記I/Oカード拡張装置のI/Oカードスロットを特定することを特徴とする請求項12記載の計算機システム。
  15. 前記管理PCは、状態を判定するためのサーバ状態判定命令列を有することを特徴とする請求12記載の計算機システム。
JP2010126429A 2010-06-02 2010-06-02 計算機システム及びi/o故障カード特定方法 Expired - Fee Related JP5422490B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010126429A JP5422490B2 (ja) 2010-06-02 2010-06-02 計算機システム及びi/o故障カード特定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010126429A JP5422490B2 (ja) 2010-06-02 2010-06-02 計算機システム及びi/o故障カード特定方法

Publications (2)

Publication Number Publication Date
JP2011253332A JP2011253332A (ja) 2011-12-15
JP5422490B2 true JP5422490B2 (ja) 2014-02-19

Family

ID=45417231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010126429A Expired - Fee Related JP5422490B2 (ja) 2010-06-02 2010-06-02 計算機システム及びi/o故障カード特定方法

Country Status (1)

Country Link
JP (1) JP5422490B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014076842A1 (ja) 2012-11-19 2014-05-22 富士通株式会社 情報処理装置、プログラムおよびログ出力方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06242984A (ja) * 1993-02-16 1994-09-02 Nec Field Service Ltd コンピュータの障害処理装置
US7257659B2 (en) * 2003-12-31 2007-08-14 Intel Corporation Method for signaling PCI/PCI-X standard hot-plug controller (SHPC) command status
JP2006268515A (ja) * 2005-03-24 2006-10-05 Nec Corp Pciカ−ド障害管理方式
JP5096905B2 (ja) * 2007-12-20 2012-12-12 株式会社日立製作所 サーバ装置及びそのリンク回復処理方法

Also Published As

Publication number Publication date
JP2011253332A (ja) 2011-12-15

Similar Documents

Publication Publication Date Title
US9760468B2 (en) Methods and arrangements to collect data
US9513998B2 (en) Management of microcode errors in a storage operation
US20150263909A1 (en) System and method for monitoring a large number of information processing devices in a communication network
WO2009110111A1 (ja) サーバ装置及びサーバ装置の異常検知方法及びサーバ装置の異常検知プログラム
US8914495B2 (en) Automatically detecting and locating equipment within an equipment rack
TW201709081A (zh) 自動修復映像檔的方法及伺服器系統
US20150169310A1 (en) Maintaining firmware
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
JP2016085728A (ja) デバイス故障後のコンソールメッセージ回収方法およびシステム
CN108964977B (zh) 节点异常处理方法及系统,存储介质和电子设备
US9160867B2 (en) Information processing system for preventing job process from being redundantly performed, information processing apparatus, and program
US9454485B2 (en) Sharing local cache from a failover node
JP5422490B2 (ja) 計算機システム及びi/o故障カード特定方法
CN110764962A (zh) 日志处理方法和装置
US10956038B2 (en) Non-volatile memory drive partitions within microcontrollers
US9594622B2 (en) Contacting remote support (call home) and reporting a catastrophic event with supporting documentation
JP2014006772A (ja) 故障監視型通信機器、通信機器用故障監視記録方法、及びそのプログラム
WO2019241199A1 (en) System and method for predictive maintenance of networked devices
JPWO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
US8655845B2 (en) Reducing duplicate information when reporting system incidents
WO2019144555A1 (zh) 容灾数据的在线同步装置、方法及计算机可读存储介质
US20090282229A1 (en) Conditional inclusion of resources in a computer system configuration
JP2017151511A (ja) 情報処理装置、動作ログ取得方法および動作ログ取得プログラム
US10997012B2 (en) Identifying defective field-replaceable units that include multi-page, non-volatile memory devices
Eldor Stability Issues in On-Premises Kafka Data Centers

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120417

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131004

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131125

LAPS Cancellation because of no payment of annual fees