JP2002215261A - 計算機システムのクロック切替方式および方法 - Google Patents

計算機システムのクロック切替方式および方法

Info

Publication number
JP2002215261A
JP2002215261A JP2001014789A JP2001014789A JP2002215261A JP 2002215261 A JP2002215261 A JP 2002215261A JP 2001014789 A JP2001014789 A JP 2001014789A JP 2001014789 A JP2001014789 A JP 2001014789A JP 2002215261 A JP2002215261 A JP 2002215261A
Authority
JP
Japan
Prior art keywords
clock
card
failure
information
cards
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001014789A
Other languages
English (en)
Other versions
JP3479842B2 (ja
Inventor
Takahito Matsuhashi
孝人 松橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001014789A priority Critical patent/JP3479842B2/ja
Publication of JP2002215261A publication Critical patent/JP2002215261A/ja
Application granted granted Critical
Publication of JP3479842B2 publication Critical patent/JP3479842B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】クロック障害が発生した場合に、人手の介入な
しで、被疑のクロックカードを検出し、クロックの供給
元を現用のクロックカードから待機のクロックカードに
切り替えることにある。 【解決手段】カード内に障害が発生すると、サービスプ
ロセッサ196は、各カードから収集した障害情報を基
に同一カードでの同一の障害によるカード交換後に未交
換の履歴情報があるかを交換履歴テーブルから検索して
検出した場合には、クロックの供給元をクロックカード
110に切り替える。また、カード内に障害が発生する
と、サービスプロセッサ196は、各カードから収集し
た障害情報を基に被疑個所として複数のカードを検出す
る場合において、障害情報を基に該当する障害情報が登
録されているかを障害伝播情報テーブルから検索して登
録されていない場合には、クロックの供給元をクロック
カード110に切り替える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、計算機システムの
クロック切替方式および方法に関し、特に、複数のカー
ドから構成される計算機システムでのカード内の障害発
生時における計算機システムのクロック切替方式および
方法に関する。
【0002】
【従来の技術】今日の企業情報システムにおいては、イ
ンターネットの普及に伴い、より高度なミッションクリ
ティカル性が要求されている。この様な企業情報システ
ムの中核をなす計算機システムへの可用性の要求は、非
常に高くなっている。また、企業情報システムで使用さ
れる計算機システムは、従来のメインフレーム主体のシ
ステムから、UNIX(登録商標)に代表されるような
オープンシステムに移行しつつあり、より安価なシステ
ムで高可用性システムの構築が求められている。
【0003】このように、より安いコストでミッション
クリティカル性を実現するために、1つの解決策とし
て、システムのクロックカードとして、通常運用のため
の現用クロックカードと故障したときの予備のための待
機クロックカードとを有し、現用クロックカードが故障
した場合に予備クロックカードに切り替えるような制御
を行う計算機システムが必要となる。
【0004】ところが、通常、上記の様な構成だけの計
算機システムでは、システムのクロック障害が発生した
場合、システム全体が共通に、このクロックを使用して
いるので、クロック障害の影響がシステム全体に波及
し、例えば、CPUカードや、メモリカード、IOカー
ドなどに影響が及び、上記の複数のカードでの障害が検
出される場合が多い。
【0005】計算機システム内で障害が発生した場合
は、サービスプロセッサなどが上記カードが保持してい
る障害情報を収集して、被疑箇所を特定するが、クロッ
ク障害の多くの場合では、計算機システム内の複数のカ
ードが、自分が障害を検出したという障害情報を保持し
ているために、真の障害のあるカードを検出することが
できないため、保守員が、各カードが保持している障害
情報を基に、これらのカードを順番に交換し、直らない
場合に、最終的に保守員の判断でクロック障害だと推定
し、クロックカードを交換するという方法をとってい
る。
【0006】
【発明が解決しようとする課題】しかしながら、上記の
ような従来技術では、クロックカード以外のカードが障
害であると判断されることが多く、被疑箇所がクロック
であると特定することが難しいという問題点がある。確
かに、クロックカードそのものが、自分が障害を検出し
たという情報をもつケースもあるが、実際はクロック自
身で検出が出来ないような障害が大部分であり、この障
害のケースが特に問題である。
【0007】また、上記のような従来技術では、クロッ
ク障害が発生してシステムが停止した場合には、クロッ
クカードの交換までに長時間を要し、また人手による判
断が入るために、システムが回復するまでに長時間を要
し、その間のシステム停止により、ユーザ業務の運用に
大きな影響を及ぼすという問題点がある。
【0008】本発明の目的は、上記問題点を鑑み、クロ
ック障害が発生した場合に、人手の介入なしで、被疑の
クロックカードを検出し、クロックの供給元を現用のク
ロックカードから待機のクロックカードに切り替えるこ
とにある。
【0009】
【課題を解決するための手段】上記の目的を達成するた
めに、本発明の計算機システムのクロック切替方式は、
現用のクロック供給元である現用のクロックカードと、
前記クロック供給元の待機として使用する待機のクロッ
クカードと、前記クロック供給元からクロックを受ける
複数のカードとを備える計算機システムのクロック切替
方式において、計算機システムの障害を検出する障害検
出手段と、検出した障害の被疑箇所を指摘する被疑箇所
指摘手段と、前記被疑箇所指摘手段が被疑箇所として複
数のカードを指摘したときに前記クロックカードを含む
カードから収集した障害情報を基にクロック障害かどう
かを判定するクロック障害判定手段と、前記クロック障
害判定手段の判定に基づいて前記クロック供給元を前記
現用のクロックカードから前記待機のクロックカードに
切り替えるクロック切替手段とを有することを特徴とし
ている。
【0010】更に、前記被疑個所指摘手段は、前記クロ
ックカードを含むカードの障害発生時の交換履歴を記録
した履歴テーブルに同一カードでの同一の障害によるカ
ード交換後に未交換の履歴情報があるかどうかを検索す
る手段を有し、前記履歴情報を検出した場合に、前記ク
ロック障害判定手段は、前記現用のクロックカードをク
ロック障害による被疑個所として指摘する手段を有する
ことを特徴としている。
【0011】更に、前記被疑箇所指摘手段が被疑箇所と
して複数のカードを指摘したときに、前記クロック障害
判定手段は、収集する障害情報に該当する伝播カードの
障害情報一覧を予め登録した障害伝播情報テーブルに対
して前記各カードから収集した障害情報を基に検索する
手段を有することを特徴としている。
【0012】また、本発明の第1の計算機システムのク
ロック切替方法は、現用のクロック供給元である現用の
クロックカードと、前記クロック供給元の待機として使
用する待機のクロックカードと、前記クロック供給元か
らクロックを受ける複数のカードとを備える計算機シス
テムのクロック切替方法であって、前記カードの障害を
管理するサービスプロセッサを準備し、前記サービスプ
ロセッサは、前記クロックカードを含むカードの障害発
生時の交換履歴を記録した履歴テーブルを記憶部に準備
し、前記クロックカードを含むカードに障害が発生する
と、前記各カードから障害種別コードを含む障害情報を
収集し、前記障害情報を基に同一カードでの同一の障害
によるカード交換後に未交換の履歴情報があるかどうか
を履歴テーブルから検索し、前記同一カードでの同一の
障害によるカード交換後に未交換の履歴情報を検出した
場合には、前記現用のクロックカードをクロック障害に
よる被疑カードとして検出し、前記クロック供給元を前
記現用のクロックカードから前記待機のクロックカード
に切り替えることを特徴としている。
【0013】また、本発明の第2の計算機システムのク
ロック切替方法は、現用のクロック供給元である現用の
クロックカードと、前記クロック供給元の待機として使
用する待機のクロックカードと、前記クロック供給元か
らクロックを受ける複数のカードとを備える計算機シス
テムのクロック切替方法であって、前記カードの障害を
管理するサービスプロセッサを準備し、前記サービスプ
ロセッサは、障害種別コードに該当する伝播カードの障
害情報一覧を予め登録した障害伝播情報テーブルを記憶
部に準備し、前記クロックカードを含むカードに障害が
発生すると、前記各カードから障害種別コードを含む障
害情報を収集し、前記収集した障害情報から被疑箇所と
して複数のカードを検出する場合には、障害伝播情報テ
ーブルに対して前記収集した障害情報を基に該当する障
害情報が登録されているかどうかを検索し、前記該当す
る障害情報が登録されていない場合には、前記現用のク
ロックカードをクロック障害による被疑カードとして検
出し、前記クロック供給元を前記現用のクロックカード
から前記待機のクロックカードに切り替えることを特徴
としている。
【0014】更に、上記の第1または第2の計算機シス
テムのクロック切替方法において、前記サービスプロセ
ッサは、前記現用のクロックカードをクロック障害によ
る被疑カードとして検出した場合には、表示部にクロッ
クカードを切り替えたことと被疑個所を示す前記クロッ
クカードとを表示することを特徴としている。
【0015】
【発明の実施の形態】次に、本発明の第1の実施の形態
について、図面を参照して説明する。図1を参照する
と、本実施の形態における計算機システム10は、現用
のクロックカード100と、待機のクロックカード11
0と、CPUカード120,130と、I/Oカード1
40,150と、メモリカード160,170と、シス
テムバス180と、クロック供給パス190,195
と、サービスプロセッサ196と、クロック切替部19
8と、診断用パス197とから構成される。
【0016】クロックカード100は、クロック供給パ
ス190を用いて、CPUカード120、CPUカード
130、I/Oカード140、I/Oカード150、メ
モリカード160、およびメモリカード170にクロッ
クを供給している。
【0017】クロックカード110は、クロック供給パ
ス195を用いて、CPUカード120、CPUカード
130、I/Oカード140、I/Oカード150、メ
モリカード160、およびメモリカード170にクロッ
クを供給している。
【0018】CPUカード120、CPUカード13
0、I/Oカード140、I/Oカード150、メモリ
カード160、およびメモリカード170は、システム
バス180に接続され、お互いにコマンドやデータの送
受信を行っている。
【0019】また、計算機システム10には、サービス
プロセッサ196が、診断用パス197を介して、クロ
ックカード100、クロックカード110、CPUカー
ド120、CPUカード130、I/Oカード140、
I/Oカード150、メモリカード160、およびメモ
リカード170に接続されている。なお、診断用パス1
97にはサービスプロセッサ196内部のクロックが入
っており、診断プロセッサ196は各カードに障害情報
の保持のためにクロックを供給している。
【0020】図1には、カード100〜170は、図示
していない障害情報格納レジスタをそれぞれ有してお
り、サービスプロセッサ196は、診断パス197経由
で、この各カードの障害情報格納レジスタにアクセス
し、各カードの障害情報の収集を行う。この場合の各カ
ードの障害情報格納レジスタ(障害が発生していない場
合はオール0)は、診断用パスから供給されるクロック
で各カード内で発生するハードウェアによる障害情報を
格納する。
【0021】この場合、障害情報が障害情報格納レジス
タに格納されると、カード内の障害検出信号が発生し、
診断用パス197上の障害検出信号に出力される。診断
用パス197上の障害検出信号には、各カード内の障害
検出信号がオープンコレクタ回路を介して出力されるよ
うになっており、カード内の障害検出信号は各カードか
ら発生する障害検出信号とORされた状態で出力される
ことになる。すなわち、いずれかのカード内の障害情報
格納レジスタに障害情報が格納されると、診断用パス1
97上の障害検出信号がオンになり、サービスプロセッ
サ196に障害を検出したことを通知することになる。
【0022】サービスプロセッサ196は、クロック切
替装置198に接続され、現用クロックカード100と
待機クロックカード110との切替制御を行う。更に、
サービスプロセッサ196は、図示していない記憶部
に、障害発生時における装置交換の履歴を示す装置交換
履歴テーブルのエリアを、障害発生時における障害種別
コード(障害情報格納レジスタの内容)によるメッセー
ジへの変換および伝播カードの障害情報を示す障害情報
伝播テーブルのエリアを、それぞれ割り付けている。装
置交換履歴テーブルは、保守者が障害発生によるカード
の交換または交換しないで障害情報を無視したときに、
履歴として追加される。障害情報伝播テーブルは、予
め、シミュレーションにより作成されたものであり、シ
ステム構築時に予め設定されている。
【0023】通常運用時には、CPUカード120、C
PUカード130、I/Oカード140、I/Oカード
150、メモリカード160、およびメモリカード17
0の各カードは、現用のクロックカード100からのク
ロックをクロック供給パス190を介して使用してい
る。この場合、待機のクロックカード110は、クロッ
クをクロック供給パス195に発生していない。なお、
カード120〜170内において、現用のクロックおよ
び待機のクロックの各カード内部への供給回路は、クロ
ック供給パス190からのクロックとクロック供給パス
195からのクロックのOR回路となっている。
【0024】次に、図1〜図4を参照して、本発明の第
1の実施の形態の動作、すなわち、クロック切替の処理
について説明する。障害が発生すると、計算機システム
10は、動作を停止し、計算機システム10内の現用の
クロックカード100、待機のクロックカード110、
CPUカード120、CPUカード130、I/Oカー
ド140、I/Oカード150、メモリカード160、
およびメモリカード170は、その時点の各カードの状
態を障害情報格納レジスタに格納する。この時、各障害
情報格納レジスタには、そのカード自身が障害を検出し
た(ハードウェア障害の検出)ならば、サービスプロセ
ッサ196からの供給クロックにより自分が障害を検出
したという情報が保持される(図2のステップS1〜S
3)。
【0025】すると、診断用パス197上の障害検出信
号がオンになり、サービスプロセッサ196に対して障
害検出したことを通知する。
【0026】障害検出信号がオンになることによりサー
ビスプロセッサ196は、診断パス197を介して、各
カードが保持している障害情報格納レジスタから障害情
報(アクセスしたときのカード名と障害情報格納レジス
タの内容を含む)を収集し、解析を開始する(図2のス
テップS11)。この場合、サービスプロセッサ196
は、収集した情報のうち障害情報格納レジスタに障害が
発生した情報が入っていない場合(例えば、障害コード
がオール0)は無視する。また、サービスプロセッサ
は、収集する毎に障害情報コードが有効(障害コードが
オール0になっていない)な場合には、そのアクセスし
たカードが障害の被疑カードであることを検出する。
【0027】被疑カードの絞込みを行うために、サービ
スプロセッサ196が収集した障害情報を分析する際
に、装置交換履歴テーブルの検索および解析を行うこと
になるが、この装置交換履歴テーブルを用いてもクロッ
ク障害の可能性ありと判断しない場合には、更に、障害
情報の解析を行う。ただ一つだけのカード、例えばCP
Uカード120のみが、自分が障害を検出したという障
害情報を有している場合には、サービスプロセッサ19
6は、CPUカード120の障害であると判断し、現用
のクロックカード100の障害とは判断しない。一方、
サービスプロセッサ196が収集した障害情報を分析す
る際に、複数枚のカードが、自分が障害を検出したとい
う障害情報を有している場合には、現用クロックカード
100が障害である可能性が考えられるので、サービス
プロセッサ196は、障害情報伝播テーブルを用いて検
索を開始する。
【0028】すなわち、このステップS11以降の詳細
な分析ステップにおいては、サービスプロセッサ196
が、直前に同様な障害が発生したかという情報や、自分
が障害を検出したという情報を保持しているカードの組
み合わせを分析して、現用のクロックカード100が障
害である可能性があるかどうかを判断することになる。
【0029】ステップS11で収集した障害情報の解析
におけるサービスプロセッサ196の判断について、更
に、図3および図4を中心に参照して詳細に説明する。
サービスプロセッサ196は、クロックカード障害の可
能性があるかどうかを判断するために、サービスプロセ
ッサ196内の記憶部に装置交換履歴テーブル、障害伝
搬情報テーブルの領域を確保している。
【0030】装置交換履歴テーブルの一例を図3に、障
害伝搬情報テーブルの一例を図4に、それぞれ示す。以
下にクロック障害の可能性があるどうか判断する際に、
サービスプロセッサ196がどのように各テーブルを使
用するかを説明する。
【0031】図3を参照すると、サービスプロセッサ1
96が記憶部に保持している障害発生時の装置交換履歴
テーブルである。図3の場合、シリアル番号0005の
障害が2000年10月25日の11時15分21秒に
発生し、シリアル番号0006の障害が、2000年1
0月25日の11時25分30秒に発生していることが
記録されている。また、シリアル番号0005の障害で
は被疑カードがCPU1だったので、CPU1のカード
を交換したことも記録されている。しかし、シリアル番
号0006の障害(カードを交換したときと同じ障害種
別コード)では、シリアル番号0005の障害で交換し
たばかりのCPU1のカードが再度被疑となっているこ
とが記録されている。サービスプロセッサ196は、シ
リアル番号0005と、シリアル番号0006の情報と
から、シリアル番号0005の障害での交換後の運用で
再度同様の障害すなわちシリアル番号0006の障害が
発生したのは、CPU1の障害ではなく、現用クロック
100の障害の可能性があると判断する。すなわち、サ
ービスプロセッサ196は、被疑カードおよび障害識別
コードを基に装置交換履歴テーブルを古い順に検索し、
交換したもの(交換カード欄にカード名が表示)で一致
するものがあれば、更に検索を進める。更に、一致する
ものがあって、交換カード欄が未交換になっていれば、
サービスプロセッサ196は、クロック障害の可能性あ
りと判断する(図2のステップS12〜S13)。
【0032】ステップS13において、クロック障害の
可能性ありと判断すると、サービスプロセッサ196
は、クロック切替部198に対して、クロックカード1
00からのクロック供給をクロックカード110からの
クロック供給に切り替える指示を出す。すると、クロッ
クカード100は、クロックの発生を中止し、クロック
カード110は、クロック供給パス195を介してクロ
ックを各カードに発生する。更に、サービスプロセッサ
196は、図示していない表示部にクロックカードを切
り替えたことと被疑個所を示すクロックカード100と
を表示する。更に、サービスプロセッサ196は、装置
交換履歴テーブルにシリアル番号、日付、時刻、被疑カ
ード、障害種別コード、交換カード(未交換と表示)を
情報とする1アイテムを追加する(図2のステップS1
7)。従って、保守者は、メッセージが表示されること
により、「クロック障害の発生によるクロックカードの
交換が必要である」と判断することができる。
【0033】サービスプロセッサ196は、クロックカ
ードの切替および被疑クロックカードの指摘を行った
後、システムを再立上げ、運用を再開する。この場合、
切り替わったクロックカード110が現用系となる(図
2のステップS18)。
【0034】一方、ステップS13において、サービス
プロセッサ196がクロック障害の可能性がないと判断
した場合には、複数のカードで障害が発生しているかを
各カードから収集した障害情報から判断する。複数のカ
ードで障害が発生していると判断した場合には、サービ
スプロセッサ196は、記憶部に保持している障害伝搬
情報テーブルを検索し、解析を行う。図4を参照する
と、簡単のためにMEM、I/O、CPUの各装置の障
害が他の装置に伝搬する障害について例示している。図
4の番号1の例では、MEM装置のアドレスデコード部
の障害の場合、CPUカード、I/Oカードに障害が伝
搬し、それぞれのカードでタイムアウトを検出する事を
示している。図4の番号2の例は、I/O装置のDMA
処理部の障害の場合、MEMカードに障害が伝搬し、タ
イムアウトを検出する事を示している。図4の3の例は
CPU装置のシステムバスインターフェースエラー障害
の場合、MEMカード、I/Oカードに障害が伝搬し、
インターフェースエラーを検出する事を示している。サ
ービスプロセッサ196は、複数のカードが自分が障害
を検出したという情報を保持していた場合には、障害情
報伝搬テーブルを検索し、収集した全ての障害情報のパ
ターン(障害識別コード)が障害情報伝搬テーブル内の
障害識別コード欄の情報と一致するものがあるかを調べ
る。一致するパターンが1つでも無い場合には、サービ
スプロセッサ196は、現用のクロックカード100の
障害の可能性があると判断する。複数のカードで障害が
発生していると判断した場合でも、障害識別コード欄の
情報と一致するものがあれば、サービスプロセッサ19
6は、一致により検出した識別コードが障害情報伝播テ
ーブル内の伝播カードでの障害識別コード欄の情報と一
致するものがないかをチェックする。伝播カードでの障
害識別コード欄の情報と一致するものがあり、そのとき
に該当する障害伝播情報テーブル内の障害識別コード
が、先程検出した障害識別コードと一致するものがあれ
ば、そのときの障害伝播情報テーブル内の装置欄に対応
するカードが被疑カードとなる。複数のカードで障害が
発生していると判断した場合でも、このような手順で、
サービスプロセッサ196は、先程検出した障害識別コ
ードを全て調べ、一致するものがあれば、ステップS1
9にジャンプする(図2のステップS14〜S16)。
【0035】従って、複数のカードでの障害が発生した
場合に、予めシミュレーションで作成した障害伝播情報
テーブルを使用してカードの絞込みを行っているため、
クロック系以外の障害については被疑カードを当てる可
能性は非常に高い。また、クロック系に関する障害コー
ドは、予期しない現象が起こるため、シミュレーション
で起こりえない予期しない障害コードのパターンが複数
となって発生することが多く、障害伝播情報テーブルを
使用することは、クロックカード(クロック系の障害)
の障害が起こったときに、障害伝播情報テーブルに障害
コードが載っていないどうかを検索することで、クロッ
クカードの障害として検出することができる。
【0036】このように、図2のステップS16におい
て、現用のクロックカード100の障害の可能性がある
と判断した場合には、サービスプロセッサ196は、ク
ロック切替部198を介してシステムクロックの供給元
を現用のクロックカード100から待機のクロックカー
ド110に切替え、システムの再立ち上げを行い、運用
を再開する(ステップS17,S18)。
【0037】一方、ステップS14またはS16におい
て、詳細な分析の結果、現用のクロックカード100の
障害の可能性が無いと判断した場合には、検出した障害
カードと障害種別コードに対応したメッセージを表示部
に表示する。保守者は、表示部に表示されたメッセージ
にしたがって、カード等の交換を行い、再立上げが必要
であれば、再起動を行うと、サービスプロセッサ196
は、システムの再立ち上げを行う(ステップS15,S
16,S19,S20、S18)。
【0038】なお、ステップS19において、保守者
が、カードの交換を行って、図示していない入力部(例
えば、キーボード)から交換したカードを入力すると、
サービスプロセッサ196は、装置交換履歴テーブルに
シリアル番号、日付、時刻、被疑カード、障害種別コー
ド、交換カード(入力したカード名)を情報とする1ア
イテムを追加する。保守者がカード交換を行わないで再
立上げ等の処理を行った場合には、サービスプロセッサ
196は、装置交換履歴テーブルにシリアル番号、日
付、時刻、被疑カード、障害種別コード、交換カード
(未交換と表示)を情報とする1アイテムを追加する。
【0039】また、ステップS17またはステップS1
9で指摘されたカードを後で交換した場合でも、入力部
から装置交換履歴テーブルに追加することができる。こ
の場合のサービスプロセッサ196は、特定のコマンド
(例えば、カード交換ログ入力コマンド)を入力する
と、障害発生時の日時、未交換の被疑カード、障害種別
コード一覧が表示され、選択することにより、交換カー
ドを入力すると、入力した日時に変わると共に、装置交
換履歴テーブルの該当するシリアル番号にある日付、時
刻、交換カードを情報とする内容を変更する。
【0040】なお、上記の説明において、障害種別コー
ドにカード識別コードを含めないで検索するようにした
が障害コードに含めても良い。この場合、障害識別コー
ドは、例えば、障害識別コードの上位をカード識別コー
ド(カードの実装位置に対応)にし、残りを障害発生に
よるパターンに振当てる。
【0041】次に、本発明の第2の実施の形態につい
て、図面を参照して説明する。図5を参照すると、本実
施の形態における計算機システム20は、現用のクロッ
クカード200と、待機のクロックカード210と、C
PUカード220,230と、I/Oカード240,2
50と、メモリカード260,270と、システムバス
180と、クロック供給パス290と、サービスプロセ
ッサ196と、クロック切替部298と、診断用パス1
97とから構成される。
【0042】第2の実施の形態における計算機システム
20は、クロックの供給方法が第1の実施の形態と相違
する。そのため、第2の実施の形態におけるCPUカー
ド220,230、I/Oカード240,250、メモ
リカード260,270は、クロック供給パス290か
ら受けるだけであるため、第1の実施の形態のカードの
ようにクロック信号のOR回路を持たない点で相違す
る。また、クロックカード200およびクロックカード
210からクロック切替部298を介してクロックをク
ロック供給パスに載せている点で第1の実施の形態と相
違している。この場合、サービスプロセッサ196が、
例えば、クロックカード200からクロックカード21
0への切替を行う場合は、クロック切替部298にクロ
ック切替指示を出すことにより、クロックカード210
から発生されるクロックがクロック供給パス290に出
力することになる。
【0043】次に、図2〜図5を参照して、本発明の第
2の実施の形態の動作について説明する。この場合の動
作は、クロック切替部298へのクロックの切替方法を
除き、本発明の第1の実施の形態で説明した動作と、実
質的には同じなので説明を省略する。
【0044】
【発明の効果】上記に説明したように、本発明は、障害
が発生した場合に計算機システム内のカードが保持して
いる障害情報をサービスプロセッサが収集し、複数のカ
ードが自分自身が障害であるという障害情報を保持して
いる場合には、クロックカードの障害の可能性があるか
どうかを各カードから収集した障害情報を基に判定し、
クロック障害の可能性があると予測される場合には、そ
のクロックカードを正常なクロックカードに切り替える
ことによりシステムの停止時間を短縮することができる
という効果がある。
【0045】また、本発明は、クロック障害が発生した
場合に計算機システム内のカードが保持している障害情
報をサービスプロセッサが収集し、同一カードでの同一
障害によるカード交換後に未交換の履歴情報があるかど
うかを履歴テーブルから検索することでクロック障害の
判定を行って、正常なクロックカードに切り替えるよう
にしているため、クロックカードの疑いが非常に高くな
り、更に、システムの停止時間を短縮することができる
という効果がある。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成を示すシステ
ムのブロック図である。
【図2】図1または図5のカード内で障害を検出した場
合における各カードおよびサービスプロセッサの動作を
示すフローチャートである。
【図3】図1または図5のサービスプロセッサが保持し
ている装置交換履歴テーブルのフォーマットを示す構成
図である。
【図4】図1または図5のサービスプロセッサが保持し
ている障害伝播情報テーブルのフォーマットを示す構成
図である。
【図5】本発明の第2の実施の形態の構成を示すシステ
ムのブロック図である。
【符号の説明】
10,20 計算機システム 100,110,200,210 クロックカード 120,130,220,230 CPUカード 140,150,240,250 I/Oカード 160,170,260,270 メモリカード 180 システムバス 190,195,290 クロック供給パス 196 サービスプロセッサ 197 診断用パス 198,298 クロック切替部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 現用のクロック供給元である現用のクロ
    ックカードと、前記クロック供給元の待機として使用す
    る待機のクロックカードと、前記クロック供給元からク
    ロックを受ける複数のカードとを備える計算機システム
    のクロック切替方式において、計算機システムの障害を
    検出する障害検出手段と、検出した障害の被疑箇所を指
    摘する被疑箇所指摘手段と、前記被疑箇所指摘手段が被
    疑箇所として複数のカードを指摘したときに前記クロッ
    クカードを含むカードから収集した障害情報を基にクロ
    ック障害かどうかを判定するクロック障害判定手段と、
    前記クロック障害判定手段の判定に基づいて前記クロッ
    ク供給元を前記現用のクロックカードから前記待機のク
    ロックカードに切り替えるクロック切替手段とを有する
    ことを特徴とする計算機システムのクロック切替方式。
  2. 【請求項2】 前記被疑個所指摘手段は、前記クロック
    カードを含むカードの障害発生時の交換履歴を記録した
    履歴テーブルに同一カードでの同一の障害によるカード
    交換後に未交換の履歴情報があるかどうかを検索する手
    段を有し、前記履歴情報を検出した場合に、前記クロッ
    ク障害判定手段は、前記現用のクロックカードをクロッ
    ク障害による被疑個所として指摘する手段を有すること
    を特徴とする請求項1記載の計算機システムのクロック
    切替方式。
  3. 【請求項3】 前記被疑箇所指摘手段が被疑箇所として
    複数のカードを指摘したときに、前記クロック障害判定
    手段は、収集する障害情報に該当する伝播カードの障害
    情報一覧を予め登録した障害伝播情報テーブルに対して
    前記各カードから収集した障害情報を基に検索する手段
    を有することを特徴とする請求項1記載の計算機システ
    ムのクロック切替方式。
  4. 【請求項4】 現用のクロック供給元である現用のクロ
    ックカードと、前記クロック供給元の待機として使用す
    る待機のクロックカードと、前記クロック供給元からク
    ロックを受ける複数のカードとを備える計算機システム
    のクロック切替方法であって、前記カードの障害を管理
    するサービスプロセッサを準備し、前記サービスプロセ
    ッサは、前記クロックカードを含むカードの障害発生時
    の交換履歴を記録した履歴テーブルを記憶部に準備し、
    前記クロックカードを含むカードに障害が発生すると、
    前記各カードから障害種別コードを含む障害情報を収集
    し、前記障害情報を基に同一カードでの同一の障害によ
    るカード交換後に未交換の履歴情報があるかどうかを履
    歴テーブルから検索し、前記同一カードでの同一の障害
    によるカード交換後に未交換の履歴情報を検出した場合
    には、前記現用のクロックカードをクロック障害による
    被疑カードとして検出し、前記クロック供給元を前記現
    用のクロックカードから前記待機のクロックカードに切
    り替えることを特徴とする計算機システムのクロック切
    替方法。
  5. 【請求項5】 現用のクロック供給元である現用のクロ
    ックカードと、前記クロック供給元の待機として使用す
    る待機のクロックカードと、前記クロック供給元からク
    ロックを受ける複数のカードとを備える計算機システム
    のクロック切替方法であって、前記カードの障害を管理
    するサービスプロセッサを準備し、前記サービスプロセ
    ッサは、障害種別コードに該当する伝播カードの障害情
    報一覧を予め登録した障害伝播情報テーブルを記憶部に
    準備し、前記クロックカードを含むカードに障害が発生
    すると、前記各カードから障害種別コードを含む障害情
    報を収集し、前記収集した障害情報から被疑箇所として
    複数のカードを検出する場合には、障害伝播情報テーブ
    ルに対して前記収集した障害情報を基に該当する障害情
    報が登録されているかどうかを検索し、前記該当する障
    害情報が登録されていない場合には、前記現用のクロッ
    クカードをクロック障害による被疑カードとして検出
    し、前記クロック供給元を前記現用のクロックカードか
    ら前記待機のクロックカードに切り替えることを特徴と
    する計算機システムのクロック切替方法。
  6. 【請求項6】 前記サービスプロセッサは、前記現用の
    クロックカードをクロック障害による被疑カードとして
    検出した場合には、表示部にクロックカードを切り替え
    たことと被疑個所を示す前記クロックカードとを表示す
    ることを特徴とする請求項4または5記載の計算機シス
    テムのクロック切替方法。
JP2001014789A 2001-01-23 2001-01-23 計算機システムのクロック切替方式および方法 Expired - Fee Related JP3479842B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001014789A JP3479842B2 (ja) 2001-01-23 2001-01-23 計算機システムのクロック切替方式および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001014789A JP3479842B2 (ja) 2001-01-23 2001-01-23 計算機システムのクロック切替方式および方法

Publications (2)

Publication Number Publication Date
JP2002215261A true JP2002215261A (ja) 2002-07-31
JP3479842B2 JP3479842B2 (ja) 2003-12-15

Family

ID=18881434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001014789A Expired - Fee Related JP3479842B2 (ja) 2001-01-23 2001-01-23 計算機システムのクロック切替方式および方法

Country Status (1)

Country Link
JP (1) JP3479842B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127217A (ja) * 2004-10-29 2006-05-18 Hitachi Ltd 計算機システムおよび計算機システムの制御方法
JP2008152552A (ja) * 2006-12-18 2008-07-03 Hitachi Ltd 計算機システム及び障害情報管理方法
JP2009151407A (ja) * 2007-12-19 2009-07-09 Nec Computertechno Ltd 障害処理方式、及び、障害処理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127217A (ja) * 2004-10-29 2006-05-18 Hitachi Ltd 計算機システムおよび計算機システムの制御方法
JP2008152552A (ja) * 2006-12-18 2008-07-03 Hitachi Ltd 計算機システム及び障害情報管理方法
JP2009151407A (ja) * 2007-12-19 2009-07-09 Nec Computertechno Ltd 障害処理方式、及び、障害処理方法
JP4716197B2 (ja) * 2007-12-19 2011-07-06 エヌイーシーコンピュータテクノ株式会社 障害処理方式、及び、障害処理方法

Also Published As

Publication number Publication date
JP3479842B2 (ja) 2003-12-15

Similar Documents

Publication Publication Date Title
CN100451977C (zh) 检测错误和预报潜在故障的系统以及方法
US7716520B2 (en) Multi-CPU computer and method of restarting system
US6574748B1 (en) Fast relief swapping of processors in a data processing system
US6687849B1 (en) Method and apparatus for implementing fault-tolerant processing without duplicating working process
TWI337304B (en) Method for fast system recovery via degraded reboot
US7370238B2 (en) System, method and software for isolating dual-channel memory during diagnostics
CN1645389B (zh) 用于实现高可用性系统的远程企业管理的系统和方法
CN100394394C (zh) 容错双工计算机系统及其控制方法
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
US7587626B2 (en) Intelligent hotspare or “SmartSpare” drive with pre-emptive drive rebuild
CN107783844A (zh) 一种计算机程序运行异常检测方法、装置和介质
CN101154170A (zh) 信息处理设备及其控制设备、控制方法和控制程序
JPS6375963A (ja) システム回復方式
US7774532B2 (en) Processing device, failure recovery method therefor, and failure restoration method
CN112506693A (zh) 一种记录异常信息的方法、装置、存储介质和电子设备
JP2002215261A (ja) 計算機システムのクロック切替方式および方法
KR0133337B1 (ko) 타켓 시스템 이중화 운용관리 장치 및 방법
US7533297B2 (en) Fault isolation in a microcontroller based computer
JP2006072492A (ja) システム制御装置、システム制御方法およびシステム制御プログラム
JP2014120123A (ja) 情報処理装置及び情報処理方法
JP2004062470A (ja) マルチプロセッサの切り替え方式
CN115344327B (zh) 应用模块的切换方法、装置、电子设备及可读存储介质
JP3448197B2 (ja) 情報処理装置
JPH10326201A (ja) 分散バッチジョブ処理システムおよびその障害時におけるジョブの自動再起動方法
JPH1040091A (ja) プログラム制御装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030902

LAPS Cancellation because of no payment of annual fees