JP2006268515A - Pciカ−ド障害管理方式 - Google Patents

Pciカ−ド障害管理方式 Download PDF

Info

Publication number
JP2006268515A
JP2006268515A JP2005086453A JP2005086453A JP2006268515A JP 2006268515 A JP2006268515 A JP 2006268515A JP 2005086453 A JP2005086453 A JP 2005086453A JP 2005086453 A JP2005086453 A JP 2005086453A JP 2006268515 A JP2006268515 A JP 2006268515A
Authority
JP
Japan
Prior art keywords
failure
pci
information
pci card
card
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005086453A
Other languages
English (en)
Inventor
Hideo Iwama
英夫 岩間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005086453A priority Critical patent/JP2006268515A/ja
Publication of JP2006268515A publication Critical patent/JP2006268515A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

【課題】情報処理装置においてのPCIカ−ド関連のインタ−フェ−ス障害は、障害箇所特定が困難であり、被疑PCIカ−ドの予測交換にて様子見/交換せず様子見と言う処置が行われることが多い。
【解決手段】本発明は、情報処理装置のサ−ビスプロセッサが過去に検出した不良PCIカ−ド及び被疑PCIカ−ドのPCIカ−ド情報(ベンダID/デバイスID/シリアルNo)と障害内容/PCIロケ−ションを自動で取得/管理することによって、次に同様の障害が発生した時にオペレ−タに警告通知し障害解析に役立てることを特徴とする。
【選択図】 図1

Description

本発明はPCIBOXで発生した障害管理に関し、特に、被疑の対象となる障害情報を一括して取得し記憶するPCIカード障害管理方式に関する。
従来は、情報処理装置においてPCIカ−ド関連のインタ−フェ−ス障害が発生した場合、不良PCIカ−ド及び被疑PCIカ−ドのPCIカ−ド情報(ベンダID/デバイスID/シリアルNo)を障害デ−タとしてサ−ビスプロセッサにて取得/管理することを実施していなかった。関連マップ記憶部107は、物理カードを階層化したオブジェクト機能関連マップを記憶する。
特許文献1には、以下の記載がある。
障害検出部は、通信装置内のある物理カードの障害を検出する。障害解析部は、障害情報保持部に障害情報を書き込む。タイマ監視部は、所定時間の計測を開始する。所定時間中、障害解析部は、障害検出を受け取り、障害情報を書き込む。所定時間が終了すると、障害解析部は、オブジェクト機能関連マップと障害情報とを用いて、根本となる障害の特定を行う。障害通知出力部は、特定された根本障害に関する情報をネットワーク管理装置に送信する。
特開2002−125006
特許文献1では、障害の発生箇所を特定する技術について記載されている。ところが実際には障害が発生してもどの箇所で発生した障害かを特定できない場合がある。本発明は障害の発生箇所が特定できない場合、関連する被疑障害箇所をすべて記憶することにより、発生箇所が特定できない障害についての管理を行うPCIカード障害管理方式を提供するものである。これによって次に障害が発生した場合、過去に同類の障害が発生していたかどうか瞬時に判断することが可能となり、過去の同類障害を検出し、また過去の障害との比較を行うことを可能とするものである。
本発明の第1のPCIカード障害管理方式は、少なくとも1つ以上のPCIスロットを持つPCIBOXを接続する情報処理装置において、PCIカ−ド関連のインタ−フェ−ス障害が発生した場合、前記PCIBOXの障害に関連する被疑対象となるPCIカ−ドを特定する情報とPCIカードを装着するPCIスロットのロケーション情報を取得して前記情報処理装置に障害情報として記憶することを特徴とする。
本発明の第2のPCIカード障害管理方式は、前記第1のPCIカード障害管理方式に於いて、前記障害情報は、PCIカ−ドのベンダIDとデバイスIDとシリアルNo情報と、前記PCIカードの装着されたPCIスロットのロケ−ション情報と、障害内容を特定する情報と、を含むことを特徴とする。
本発明の第3のPCIカード障害管理方式は、前記第1のPCIカード障害管理方式に於いて、障害が発生すると発生した障害の障害情報と記憶された障害情報とを比較して一致すると、障害情報の発生回数をカウントアップすることを特徴とする。
本発明の第4のPCIカード障害管理方式は、前記第1のPCIカード障害管理方式に於いて、ネットワークに接続した他の情報処理装置で発生したPCIカード関連のインターフェース障害についての障害情報を受信しその記憶を行うことを特徴とする。
第一の効果は、障害発生時に自動で過去の全障害デ−タを参照するので過去の障害を見逃すことがなくなる。
第二の効果は、瞬時に過去の障害との比較を行うことができるので従来より解析時間の短縮となる。
第三の効果は、同障害が過去に発生したことがあるのか/偏りがあるか、同PCIロケ−ション/同PCIカ−ドで過去に障害が何回発生しているのか/偏りがあるか等、より豊富な障害情報を得ることが出来るので被疑部品の範囲をより絞り込むことができる。
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
PCIカ−ド関連のインタ−フェ−ス障害が発生した場合、サ−ビスプロセッサが被疑PCIカ−ドのベンダID/デバイスID/シリアルNo情報、PCIカードの装着されたPCIスロットのロケ−ション情報、障害内容を取得し、サ−ビスプロセッサが管理をする。サービスプロセッサは、パーソナルコンピュータ、サーバ等の情報処理装置である。以降、PCIカ−ド関連の障害が発生すると、最初の発生時と同様にサ−ビスプロセッサは被疑PCIカードのベンダID/デバイスID/シリアルNo情報、PCIスロットのロケ−ション情報、障害内容を取得する。取得した情報をサ−ビスプロセッサが管理する過去の障害デ−タと比較を行い、過去に同じPCIカ−ド又はPCIスロットのロケ−ションで障害が発生していた場合は、操作端末を通じてオペレ−タに過去の障害デ−タと共に警告通知する。
障害が発生した場合、必ずしもどのPCIカードで障害が発生したかを特定できない場合がある。そのため本発明ではPCIBOXで発生した障害箇所が特定できない場合、装着されているすべてのPCIカードの情報とその装着されたロケーション情報も併せて採取するようにしている。
さらに、PCIスロットにPCIカ−ドを追加した場合、サ−ビスプロセッサは追加したPCIカ−ドのベンダID/デバイスID/シリアルNo情報を取得し、サ−ビスプロセッサが管理している障害デ−タ情報と比較し、追加したPCIカ−ドがこの情報処理装置で過去に障害のあったPCIカ−ドと同種かどうかをベンダIDとデバイスIDの比較によって判別する。
尚、ベンダIDとデバイスIDとシリアルNoによってPCIカード自体を特定することができる。ベンダIDとデバイスIDによってPCIカードの製品種別を識別できる。その結果、過去に障害が発生したことがあるPCIカ−ドであれば、その旨を操作端末を通じてオペレ−タに警告通知する。
次に、本発明を実施するための最良の形態の動作について図面を参照して説明する。
図1は、本発明の構成を示すブロック図であり、PCIBOX100、サ−ビスプロセッサ200、操作端末300、他のサービスプロセッサ200を接続するネットワーク400にて構成される。
PCIBOX100は、PCI制御部110により制御されるPCIスロット121/122/123/124のPCIスロットを持ち、例えばPCIスロット#1 121にはSCSIカ−ド131、PCIスロット#2 122にはLANカ−ド132が搭載されているものとする。
サ−ビスプロセッサ200は、情報処理装置であり、PCIBOX100に搭載されているPCI制御部110よりPCIスロット121/122/123/124のロケ−ション及びPCIスロット121/122/123/124に実装されるPCIカ−ドのベンダID/デバイスID/シリアルNoを取得する。
尚、サービスプロセッサ200は、ネットワーク400に接続された他のサービスプロセッサについても他のサービスプロセッサからの障害情報を受信して記憶した障害情報と比較し、不一致時の登録を行うものである。比較して一致した場合、発生回数をカウントアップし、この回数を他のサービスプロセッサに通知する。
またサ−ビスプロセッサ200は、PCIBOX100に搭載されているPCI制御部110よりPCIカ−ド関連の障害の検出及び障害内容の取得をする。
サ−ビスプロセッサ200は、障害デ−タ格納部210、比較部220を持つ。障害データ格納部210は磁気ディスク装置やROM等の不揮発性の記憶手段であって、取得したPCIカ−ド情報(ベンダID/デバイスID/シリアルNo)、PCIスロットロケ−ション情報、障害内容を格納する。
比較部220は障害データ格納部210の情報とPCI制御部110より受け取る新たな障害情報との比較を行う。
図1を参照して実施例の動作を説明する。
このサービスプロセッサ200で初めてとなる障害(PCIスロット#1 121に搭載されるSCSIカ−ド131及びPCIスロット#2 122に搭載されるLANカ−ド132が被疑対象のカードとする。)が発生し、被疑対象のPCIカードが特定できない場合、サービスプロセッサ200は、関連するすべての構成要素についての情報を取得する。この場合、PCI制御部110に対してPCIスロット#1 121に搭載される被疑SCSIカ−ド131のベンダID/デバイスID/シリアルNo情報、PCIスロット#1 121のロケ−ション情報、障害内容を取得するよう指示する。
それを受けたPCI制御部110は、被疑SCSIカ−ド131のベンダID/デバイスID/シリアルNo情報、PCIスロット#1 121のロケ−ション情報、障害内容を取得する。
同様にしてPCI制御部110は、被疑LANカ−ド132のベンダID/デバイスID/シリアルNo情報、PCIスロット#2 122のロケ−ション情報、障害内容についても取得する。
取得後、PCI制御部110は取得した被疑SCSIカ−ド131のベンダID/デバイスID/シリアルNo情報、PCIスロット#1 121のロケ−ション情報、障害内容及び被疑LANカ−ド132のベンダID/デバイスID/シリアルNo情報、PCIスロット#2 122のロケ−ション情報、障害内容をサービスプロセッサ200の比較部220に送る。
その後、サービスプロセッサ200は、比較部220に障害データ格納部210より障害データを送る。それを受けた比較部220はPCI制御部110より受けとった被疑SCSIカ−ド131のベンダID/デバイスID/シリアルNo情報、PCIスロット#1 121のロケ−ション情報及び被疑LANカ−ド132のベンダID/デバイスID/シリアルNo情報、PCIスロット#2 122のロケ−ション情報と障害データ格納部210から受け取ったデータについてPCIスロットロケーション、ベンダID/デバイスID/シリアルNoの比較を行う。比較の結果が一致すると一致した障害内容についての発生回数を1カウントアップする。被疑対象が複数のPCIカードやスロットに跨る場合は、すべての被疑対象をカウントアップするようにしても良い。障害の発生回数が、予め設定した閾値を越える場合、操作端末にその旨を表示する。
今回が初めての障害の場合、障害データ格納部210から受け取ったデータに情報がないため過去の障害との一致しないので比較部220は、不一致の報告をサービスプロセッサ200に行う。サービスプロセッサ200は比較部220がPCI制御部110より受けとった被疑SCSIカ−ド131のベンダID/デバイスID/シリアルNo情報、PCIスロット#1 121のロケ−ション情報、障害内容、及び被疑LANカ−ド132のベンダID/デバイスID/シリアルNo情報、PCIスロット#2 122のロケ−ション情報、障害内容を障害データ格納部210に送り障害データとして登録し管理する。
その後、PCIカ−ド関連の障害が再び発生した場合、サービスプロセッサ200は、PCI制御部110に対して被疑PCIカ−ドのベンダID/デバイスID/シリアルNo情報、被疑PCIカードが搭載されているPCIスロットのロケ−ション情報、障害内容を取得するよう指示する。
それを受けたPCI制御部110は、被疑PCIカ−ドのベンダID/デバイスID/シリアルNo情報、被疑PCIカードが搭載されているPCIスロットのロケ−ション情報、障害内容を取得し、その情報をサービスプロセッサ200の比較部220に送る。
その後、サービスプロセッサ200は、比較部220に障害データ格納部210より全障害データを送る。それを受けた比較部220はPCI制御部110より受けとった被疑PCIカ−ドのベンダID/デバイスID/シリアルNo情報、被疑PCIカードが搭載されているPCIスロットのロケ−ション情報と障害データ格納部210から受け取ったデータについてPCIスロットロケーション、ベンダID/デバイスID/シリアルNoの比較を行い、過去に同じPCIカ−ド及びPCIロケ−ションで障害が発生していた場合、サービスプロセッサ200は、操作端末300を通じてオペレ−タに過去の障害デ−タと共に警告通知する。
比較後、サービスプロセッサ200は、比較部220がPCI制御部110より受けとった被疑PCIカ−ドのベンダID/デバイスID/シリアルNo情報、PCIスロットのロケ−ション情報、障害内容を障害データ格納部210に送り障害データとして管理する。
本発明の他の実施例について図1を参照して説明する。
PCIスロット#3 123にPCIカ−ドを追加した場合、サービスプロセッサ200は、PCI制御部110に対してPCIスロット#3 123に追加したPCIカ−ドのベンダID/デバイスID/シリアルNo情報を取得するよう指示する。それを受けたPCI制御部110は、PCIスロット#3 123に追加したPCIカ−ドのベンダID/デバイスID/シリアルNo情報を取得し、その情報をサービスプロセッサ200の比較部220に送る。
その後、サービスプロセッサ200は、比較部220に障害データ格納部210より全障害データを送る。それを受けた比較部220はPCI制御部110より受けとったPCIスロット#3 123に追加したPCIカ−ドのベンダID/デバイスID/シリアルNo情報と障害データ格納部210から受け取ったデータについてベンダID/デバイスID/シリアルNoの比較を行い、PCIスロット#3 123に追加したPCIカ−ドがこの情報処理装置で過去に障害のあったPCIカ−ドかどうか判別する。その結果、過去に障害が発生したことがあるPCIカ−ドであれば、その旨を操作端末300を通じてオペレ−タに警告通知する。このことにより保守交換等で過去に障害のあったPCIカ−ドの再実装による繰り返し障害を未然に防ぐことが可能となる。
情報処理装置で使用されるPCIカードの障害管理に使用することができる。
本発明の実施例の構成を表すブロック図である。
符号の説明
100 PCIBOX
110 PCI制御部
200 サービスプロセッサ
210 障害データ格納部
220 比較部
300 操作端末
400 ネットワーク

Claims (4)

  1. 少なくとも1つ以上のPCIスロットを持つPCIBOXを接続する情報処理装置において、PCIカ−ド関連のインタ−フェ−ス障害が発生した場合、前記PCIBOXの障害に関連する被疑対象となるPCIカ−ドを特定する情報とPCIカードを装着するPCIスロットのロケーション情報を取得して前記情報処理装置に障害情報として記憶することを特徴とするPCIカード障害管理方式。
  2. 前記障害情報は、PCIカ−ドのベンダIDとデバイスIDとシリアルNo情報と、前記PCIカードの装着されたPCIスロットのロケ−ション情報と、障害内容を特定する情報と、を含むことを特徴とする請求項1記載のPCIカード障害管理方式。
  3. 障害が発生すると発生した障害の障害情報と記憶された障害情報とを比較して一致すると、障害情報の発生回数をカウントアップすることを特徴とする請求項1記載のPCIカード障害管理方式。
  4. ネットワークに接続した他の情報処理装置で発生したPCIカード関連のインターフェース障害についての障害情報を受信しその記憶を行うことを特徴とする請求項1記載のPCIカード障害管理方式。
JP2005086453A 2005-03-24 2005-03-24 Pciカ−ド障害管理方式 Withdrawn JP2006268515A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005086453A JP2006268515A (ja) 2005-03-24 2005-03-24 Pciカ−ド障害管理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005086453A JP2006268515A (ja) 2005-03-24 2005-03-24 Pciカ−ド障害管理方式

Publications (1)

Publication Number Publication Date
JP2006268515A true JP2006268515A (ja) 2006-10-05

Family

ID=37204405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005086453A Withdrawn JP2006268515A (ja) 2005-03-24 2005-03-24 Pciカ−ド障害管理方式

Country Status (1)

Country Link
JP (1) JP2006268515A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009151565A (ja) * 2007-12-20 2009-07-09 Hitachi Ltd サーバ装置及びそのリンク回復処理方法
JP2009151407A (ja) * 2007-12-19 2009-07-09 Nec Computertechno Ltd 障害処理方式、及び、障害処理方法
JP2009282663A (ja) * 2008-05-21 2009-12-03 Nec Computertechno Ltd 診断システム、診断プロセッサ、診断方法、及びプログラム
JP2009294758A (ja) * 2008-06-03 2009-12-17 Hitachi Ltd 仮想計算機システム及びホストバスアダプタ用ドライバプログラム
JP2011253332A (ja) * 2010-06-02 2011-12-15 Hitachi Ltd 計算機システム及びi/o故障カード特定方法
CN111813588A (zh) * 2020-06-01 2020-10-23 北京百卓网络技术有限公司 一种计算机硬盘故障定位方法、装置、设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009151407A (ja) * 2007-12-19 2009-07-09 Nec Computertechno Ltd 障害処理方式、及び、障害処理方法
JP4716197B2 (ja) * 2007-12-19 2011-07-06 エヌイーシーコンピュータテクノ株式会社 障害処理方式、及び、障害処理方法
JP2009151565A (ja) * 2007-12-20 2009-07-09 Hitachi Ltd サーバ装置及びそのリンク回復処理方法
JP2009282663A (ja) * 2008-05-21 2009-12-03 Nec Computertechno Ltd 診断システム、診断プロセッサ、診断方法、及びプログラム
JP2009294758A (ja) * 2008-06-03 2009-12-17 Hitachi Ltd 仮想計算機システム及びホストバスアダプタ用ドライバプログラム
JP2011253332A (ja) * 2010-06-02 2011-12-15 Hitachi Ltd 計算機システム及びi/o故障カード特定方法
CN111813588A (zh) * 2020-06-01 2020-10-23 北京百卓网络技术有限公司 一种计算机硬盘故障定位方法、装置、设备及存储介质
CN111813588B (zh) * 2020-06-01 2024-03-19 北京百卓网络技术有限公司 一种计算机硬盘故障定位方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN104202201B (zh) 一种日志处理方法、装置及终端
US10866852B2 (en) Image based fault state determination
US20170147453A1 (en) Communication bus with baseboard management controller
US8286034B2 (en) Accurate fault status tracking of variable access sensors
JP2006268515A (ja) Pciカ−ド障害管理方式
CN112732477A (zh) 一种带外自检故障隔离的方法
CN107705472B (zh) 一种用于开票的时空定位模块、云端开票系统及方法
JP2007323193A (ja) 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP2008090504A (ja) コンピュータ保守支援システム及び解析サーバ
CN102609350A (zh) 一种服务器内存故障报警方法
CN106650281B (zh) 一种数据处理方法、系统、服务器和客户端
JP2006268208A (ja) 故障診断回路とこの故障診断回路を備えた情報処理装置、故障診断システム及び故障診断プログラム
CN110874311A (zh) 数据库检测方法、装置、计算机设备和存储介质
JP2010015246A (ja) 故障情報分析管理システム
CN112927791A (zh) 设备管理装置、设备管理系统以及设备管理方法
CN110457194A (zh) 电子设备稳定性预警方法、系统、装置、设备和存储介质
CN108023783A (zh) 网络设备监控系统及方法
CN106133699A (zh) 故障通知装置、故障通知方法以及程序
JP2010176623A (ja) 管理装置および管理システムおよび管理プログラム
CN110381498B (zh) Sim卡池、服务器、用于sim卡池告警的方法和系统
JP5380386B2 (ja) 機器情報管理システム及び方法
JP2003131905A (ja) 管理サーバシステム
JP2006201890A (ja) プログラム異常対策装置
JP2009282737A (ja) 設備情報管理装置
JP5311027B2 (ja) 障害診断装置および障害診断プログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080603