JP5911096B2 - データ処理システム、データ処理システムの被疑解析方法、被疑解析プログラム - Google Patents

データ処理システム、データ処理システムの被疑解析方法、被疑解析プログラム Download PDF

Info

Publication number
JP5911096B2
JP5911096B2 JP2012048933A JP2012048933A JP5911096B2 JP 5911096 B2 JP5911096 B2 JP 5911096B2 JP 2012048933 A JP2012048933 A JP 2012048933A JP 2012048933 A JP2012048933 A JP 2012048933A JP 5911096 B2 JP5911096 B2 JP 5911096B2
Authority
JP
Japan
Prior art keywords
transaction
buffer
information
data processing
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012048933A
Other languages
English (en)
Other versions
JP2013186524A (ja
Inventor
泰彦 田邉
泰彦 田邉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2012048933A priority Critical patent/JP5911096B2/ja
Publication of JP2013186524A publication Critical patent/JP2013186524A/ja
Application granted granted Critical
Publication of JP5911096B2 publication Critical patent/JP5911096B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、複数のノードの間でデータ転送を行うようにしたデータ処理システム、データ処理システムの被疑解析方法、被疑解析プログラムに関するもので、特に、タイムアウト障害が発生した場合の被疑解析に係わる。
CPU(Central Processing Unit)とI/O(Input / Output)を有する複数のノードの間でデータ転送を行うようにしたデータ処理システムが知られている(例えば特許文献1)。このようなデータ処理システムには、障害の発生を検知する被疑解析プログラムが設けられる。障害が発生した場合には、被疑解析プログラムは、システムログに基づいて障害の発生している部位を特定する。被疑が特定できたら、保守員は、特定された部位の保守、点検を行うことで、障害の普及に対処する。システムログとはハードウェア上にあるトランザクション情報、装置情報などのデータであり、障害情報も含まれる。
特開2005−285042号公報
上述のように、通常、CPUとI/Oを有する複数のノードの間でデータ転送を行うようにしたデータ処理システムの被疑解析プログラムは、システムログに基づいて障害の発生している部位を特定している。
しかしながら、システムログによる解析を行う被疑解析プログラムでは、タイムアウト障害に対して、障害の発生している部位を正確に特定することは難しい。タイムアウト障害とは、CPUなどから発行されるリクエストが時間内に完了しなかった(あるトランザクションが目的の場所に届かず、リプライが無かった)場合に発生する障害である。タイムアウト障害は、一般に知られるECC(Error Correcting Code)やCRC(Cyclic Redundancy Check)チェックエラーと違い、発生した場合、故障箇所を特定するのが難しい。
上述の課題を鑑み、本発明は、タイムアウト障害が発生したときに、故障箇所を確実に特定できるようにしたデータ処理システム、データ処理システムの被疑解析方法、被疑解析プログラムを提供することを目的とする。
上述の課題を鑑み、本発明に係るデータ処理システムは、複数のノード間でデータ転送を行うようにしてデータ処理システムであって、各ノード中の各バッファの格納状態を検出するトランザクション測定手段と、タイムアウト障害が発生した場合に、障害情報を含むシステムログの情報と前記トランザクション測定手段の計測値からつまりが発生しているバッファを特定し、被疑の部位に関連付けてタイムアウトが検出されたトランザクションの行き先とつまりが発生しているバッファの識別情報とを格納する対応表を参照して、被疑の部位を特定する被疑解析手段とを備えることを特徴とする。
本発明に係る被疑解析方法は、複数のノード間でデータ転送を行うようにしてデータ処理システムの被疑解析方法であって、障害情報を含むシステムログの情報と各ノード中の各バッファの格納状態の情報を取得し、タイムアウト障害が発生した場合に、前記システムログの情報と前記取得された格納状態からつまりが発生しているバッファを特定し、被疑の部位に関連付けてタイムアウトが検出されたトランザクションの行き先とつまりが発生しているバッファの識別情報とを格納する対応表を参照して、前記特定されたバッファに基づいて被疑の部位を特定することを特徴とする。
複数のノード間でデータ転送を行うようにしてデータ処理システムの被疑解析プログラムであって、障害情報を含むシステムログの情報と各ノード中の各バッファの格納状態の情報を取得するステップと、タイムアウト障害が発生した場合に、前記システムログの情報と前記取得された格納状態からつまりが発生しているバッファを特定するステップと、被疑の部位に関連付けてタイムアウトが検出されたトランザクションの行き先とつまりが発生しているバッファの識別情報とを格納する対応表を参照して、前記特定されたバッファに基づいて被疑の部位を特定するステップとを含むことを特徴とする。
本発明によれば、各ノード中の各バッファの格納状態を検出するトランザクション測定回路を設けるようにしている。これにより、タイムアウト障害が発生した場合に、システムログと共にこのトランザクション測定回路の計測値を取得することで、タイムアウト障害が発生したときの被疑解析を確実に行うことができる。
トランザクション測定回路の一例のブロック図である。 トランザクション測定回路の説明に用いるフローチャートである。 トランザクション測定回路の説明に用いるタイミング図である。 データ処理システムの基本構成を示すブロック図である。 データ処理システム内の構成を示すブロック図である。 障害発生から復旧までの手順を示すフローチャートである。 トランザクション測定回路を設けた場合のデータ処理システム内の構成を示すブロック図である。 トランザクション測定回路を設けた場合の障害発生から復旧までの手順を示すフローチャートである。 トランザクション測定用カウンタの閾値の説明図である。 各FIFOカウンタの容量の説明図である。 被疑に加える条件の説明図である。 トランザクション測定用カウンタのカウント値の一例の説明図である。 本発明によるデータ処理システムの基本構成を示す概略ブロック図である。
以下、本発明の実施の形態について図面を参照しながら説明する。本発明では、図1に示すようなトランザクション測定回路1を用いて、FIFO(First In First Out)バッファ2の格納状態(詰まり度)を検出し、これにより、タイムアウト障害が発生したときにも、被疑の部位を精度良く特定できるようにしている。
図1に示すように、トランザクション測定回路1は、トランザクション情報保持レジスタ11と、トランザクション測定用カウンタ12と、クリア信号生成回路13と、インクリメントイネーブル信号生成回路14と、ホールド信号生成回路15とから構成される。
トランザクション情報保持レジスタ11は、FIFOバッファ2に入力されるトランザクション情報を保持する。トランザクション測定用カウンタ12は、FIFOバッファ2にトランザクションが入力されてから、そのトランザクションがFIFOバッファ2から出力されるまでのクロック数をカウントすることで、FIFOバッファ2の格納状態(詰まり度)を測定する。クリア信号生成回路13は、トランザクション情報保持レジスタ11が保持している情報とFIFOバッファ2からの出力とを比較し、トランザクション情報保持レジスタ11が保持している情報とFIFOバッファ2からの出力とが一致したらトランザクション情報保持レジスタ11をクリアすると共に、トランザクション測定用カウンタ12をリセットするためのクリア信号を生成する。インクリメントイネーブル信号生成回路14は、トランザクション情報保持レジスタ11に情報が保持されている場合に、トランザクション測定用カウンタ412のカウントアップを有効にするイネーブル信号を生成する。ホールド信号生成回路15は、トランザクション情報保持レジスタ11に情報が保持されている場合に(not ALL”0”)、トランザクション情報保持レジスタ11にその情報をホールドさせる。
図2は、このようなトランザクション測定回路1の動作を示すフローチャートである。
図2において、トランザクション測定回路1は、FIFOバッファ2にトランザクション入力があると(ステップS1 Yes)、トランザクション情報保持レジスタ11がクリア状態(ALL”0”)か否かを判定し(ステップS2)、クリア状態でなければ(ステップS2 No)、ホールド信号生成回路15により、トランザクション情報保持レジスタ11の情報をホールドする(ステップS3)。
トランザクション情報保持レジスタ11がクリア状態の場合には(ステップS2 Yes)、トランザクション情報保持レジスタ11は、FIFOバッファ2に入力されるトランザクションを取り込む(ステップS4)。トランザクション情報保持レジスタ11に情報が取り込まれると(not ALL”0”)、インクリメントイネーブル信号生成回路14は、トランザクション測定用カウンタ12にイネーブル信号を供給し、トランザクション測定用カウンタ12は、クリア信号生成回路13からクリア信号が出力されるまで、クロックを計数し、カウント値をインクリメントする(ステップS5)。このとき、クリア信号生成回路13は、トランザクション情報保持レジスタ11の情報とFIFOバッファ2からの出力トランザクションとを比較しており(ステップS6)、トランザクション情報保持レジスタ11の情報とFIFOバッファ2からの出力トランザクションとが一致するまで、トランザクション測定用カウンタ12は、クロックをカウントする。このトランザクション測定用カウンタ12のカウント値がFIFOバッファ2の格納状態(詰まり度)の検出値となる。トランザクション情報保持レジスタ11の情報とFIFOバッファ2からの出力トランザクションとが一致すると(ステップS6 Yes)、クリア信号生成回路13はクリア信号を出力し、トランザクション情報保持レジスタ11をクリアし(ステップS7)、トランザクション測定用カウンタ12をリセットする(ステップS8)。これによりFIFOバッファ2に入力される新規トランザクションを再度測定できるようになる。
図3は、このようなトランザクション測定回路1の動作を示すタイミング図である。
図3において、時刻t0以前では、図3(D)に示すように、トランザクション情報保持レジスタ11がクリア状態(ALL”0”)であったとする。トランザクション情報保持レジスタ11がクリア状態のときには、トランザクション情報保持レジスタ11は、FIFOバッファ2の入力データ(図3(B))を取り込む。時刻t0では、図3(B)に示すように、FIFOバッファ2にはデータData0が入力される。このため、図3(D)に示すように、時刻t1でこのData0がトランザクション情報保持レジスタ11に取り込まれ、時刻t1から、トランザクション情報保持レジスタ11の出力はデータData0となる。
インクリメントイネーブル信号生成回路14は、トランザクション情報保持レジスタ11の出力が”0”以外のときには、インクリメントイネーブル信号を出力する。よって、時刻t1からトランザクション情報保持レジスタ11の出力がデータData0となると、図3(F)に示すように、インクリメントイネーブル信号生成回路14からインクリメントイネーブル信号が出力される。インクリメントイネーブル信号生成回路14からインクリメントイネーブル信号が出力されている間、トランザクション測定用カウンタ12は、クロック(図3(A))をカウントする。これにより、図3(E)に示すように、時刻t2で、トランザクション測定用カウンタ12は1つインクリメントされる。
時刻t3で、FIFOバッファ2からデータData0が出力されると、FIFOバッファ2の出力データ(Data0)(図3(C))と、トランザクション情報保持レジスタ11に保持されているデータ(Data0)(図3(D))とが一致する。このため、図3(G)に示すように、クリア信号生成回路13からクリア信号が出力される。このクリア信号により、時刻t4で、トランザクション情報保持レジスタ11がクリア状態(ALL”0”)になると共に、トランザクション測定用カウンタ12がリセットされる。
時刻t4で、図3(D)に示すように、トランザクション情報保持レジスタ11がクリア状態になると、トランザクション情報保持レジスタ11は、FIFOバッファ2の入力データ(図3(B))を取り込む。時刻t4では、図3(B)に示すように、FIFOバッファ2にはデータData3が入力される。このため、図3(D)に示すように、時刻t5でこのData3がトランザクション情報保持レジスタ11に取り込まれ、時刻t5から、トランザクション情報保持レジスタ11の出力はデータData3となる。
インクリメントイネーブル信号生成回路14は、トランザクション情報保持レジスタ11の出力が”0”以外のときには、インクリメントイネーブル信号を出力する。よって、時刻t5からトランザクション情報保持レジスタ11の出力がデータData3となると、図3(F)に示すように、インクリメントイネーブル信号生成回路14からインクリメントイネーブル信号が出力される。インクリメントイネーブル信号生成回路14からインクリメントイネーブル信号が出力されている間、トランザクション測定用カウンタ12は、クロック(図3(A))をカウントする。これにより、図3(E)に示すように、トランザクション測定用カウンタ12の値は、時刻t6で”1”になり、時刻t7で”2”になり、時刻t8で”3”になる。
時刻t9で、FIFOバッファ2からデータData3が出力されると、FIFOバッファ2の出力データ(Data3)(図3(C))と、トランザクション情報保持レジスタ11に保持されているデータ(Data3)(図3(D))とが一致する。このため、図3(G)に示すように、クリア信号生成回路13からクリア信号が出力される。このクリア信号により、時刻t10で、トランザクション情報保持レジスタ11がクリア状態(ALL”0”)になると共に、トランザクション測定用カウンタ12がリセットされる。
このように、図1に示すようなトランザクション測定回路1は、トランザクション測定用カウンタ12のカウント値から、FIFOバッファ2の格納状態(詰まり度)を検出できる。すなわち、図3において、時刻t4でのFIFOバッファ2の入力データ(Data3)は、時刻t9でFIFOバッファ2から出力される。このように、FIFOバッファ2にトランザクションが入力されてから、トランザクションが出力されるまでの時間(クロック数)がトランザクション測定用カウンタ12で計数される。このトランザクション測定用カウンタ12のカウント値がFIFOバッファ2の容量より大きくなったときには、FIFOバッファ2が詰まっており、障害が発生する可能性が高い。
次に、このようなトランザクション測定回路を利用して、タイムアウト障害での故障部位を特定する処理について説明する。
図4は、CPUとI/Oを有する複数のノードの間でデータ転送を行うようにしたデータ処理システムの基本構成を示すものである。図4において、ノード100は、CPU101及び102と、I/O104及び105と、ノードコントローラ103とを備えている。ノード110は、CPU111及び112と、I/O114及び115と、ノードコントローラ113とを備えている。ノード100のノードコントローラ103と、ノード110のノードコントローラ113とは、ノード間経路120を介して接続されている。ノード100及び110は、ネットワークを構成する端末である。また、ノードコントローラ103及び113は、各ノード内の情報をコントロールするためのコントローラである。
また、図5に示すようにノードコントローラ103内にはルーティングバッファ202と、FIFOバッファ200、201、203、204が設けられる。FIFOバッファ200及び201とルーティングバッファ202とは共通経路207で接続される。FIFOバッファ203及び204と、ルーティングバッファ202とは共通経路208で接続されている。ここで、共通経路とは、異なる行き先のトランザクションが1つの経路を共通して使うことができる経路である。また、I/O104及び105にはFIFOバッファ205及び206が設けられる。
同様に、ノードコントローラ113内には、ルーティングバッファ212と、FIFOバッファ210、211、213、214が設けられる。FIFOバッファ210及び211と、ルーティングバッファ212とは共通経路217で接続される。FIFOバッファ213及び214と、ルーティングバッファ212とは共通経路218で接続されている。また、I/O114及び115にはFIFOバッファ215及び216が設けられる。
ルーティングバッファ202及び212は、トランザクション毎の行き先に出力する機能を有したバッファである。
上記の構成においてCPUからI/Oまでトランザクションが到達するまでの基本動作について説明する。先ず、CPU101からI/O105にトランザクションが届くまでの経路を説明する。
CPU101から出されたトランザクションは、先ず、FIFOバッファ200に格納される。次に、先読み先出し制御によりFIFOバッファ200から出力されたトランザクションは、共通経路207を経由して、ルーティングバッファ202へ格納される。ルーティングバッファ202は、トランザクションの行き先を判断し、行き先がI/O105であることが分かるため、トランザクションはルーティングバッファ202により共通経路208を経由して、FIFOバッファ204へ格納される。FIFOバッファ204から出力されたトランザクションは、I/O105のFIFOバッファ206へ格納され、I/O105に到達する。
次に、CPU102からI/O115にトランザクションが届くまでの経路を説明する。
CPU102から出されたトランザクションは、先ず、FIFOバッファ201に格納される。次に、先読み先出し制御によりFIFOバッファ201から出力されたトランザクションは、共通経路207を経由してルーティングバッファ202へ格納される。ルーティングバッファ202はトランザクションの行き先を判断し、行き先がI/O115であることが分かるため、トランザクションはルーティングバッファ202によりノード間経路120を経由して、ノード110側のルーティングバッファ212へ格納される。ルーティングバッファ212は、トランザクションの行き先を再度判断し、行き先がI/O115であることが分かるため、トランザクションはルーティングバッファ212より共通経路218を経由して、FIFOバッファ214へ格納される。FIFOバッファ214から出力されたトランザクションはI/O115のFIFOバッファ216へ格納され、I/O115に到達する。
次に、障害発生時のサーバの動作について説明する。
図6は、障害発生から復旧までの手順を示すフローチャートである。図6に示すように、先ず、障害が発生すると、マネージメントファームウェアは、システムログ採取を行う(ステップS101)。システムログとはハードウェア上にあるトランザクション情報、装置情報などのデータであり、障害情報も含まれる。
次に、被疑解析プログラムは、システムログを解析し(ステップS102)、故障被疑を指摘、特定する(ステップS103)。被疑解析プログラムとはシステムログの障害情報から、故障箇所を特定するためのプログラムである。被疑が特定できたところで、保守員が保守を行い(ステップS104)、通常運用状態に復旧させる。また被疑は1つだけでなく、障害に関連する部位・経路を考慮して複数指定している場合が多い。
このような構成のデータ処理システムでは、タイムアウト障害が発生した場合に、被疑を特定することが難しい。このことについて、以下に説明する。
タイムアウト障害が発生したときの例として、ここでは、例えば、CPU102でI/O105行きトランザクションのタイムアウト障害を検出した場合について説明する。
CPU102で障害が発生すると、マネージメントファームウェアはシステムログを採取する(ステップS1)。採取されたログは被疑解析プログラムにより解析される(ステップS2)。このとき被疑解析プログラムはログからCPU102でタイムアウト障害が発生したことと、タイムアウトしたトランザクションの行き先がI/O105であることが判断できるので、「障害を検出した箇所(CPU102)」と「タイムアウトしたトランザクションの行き先(I/O105)」を被疑として指摘することになる。なお、行き先を被疑として指摘していたのはトランザクションの行き先で故障が起きた可能性を示すためである。
しかしながら、CPU102のタイムアウト障害の要因がI/O105の故障でなかった場合、被疑解析プログラムが示す被疑(今回の例の場合CPU102とI/O105)の保守を行っても、再度障害が発生する可能性がある。
例えば図5に示すFIFOバッファ203、205が先行トランザクションにより詰まってしまい、I/O105への共通経路208が使用できなかったことでCPU102のタイムアウト障害が発生したのであれば、トランザクションを処理しきれていないI/O104が故障した可能性もある。
図1に示したようなトランザクション測定回路を用いると、このような構成のデータ処理システムでタイムアウト障害が発生した場合に、被疑を特定することができる。
図7は、CPUとI/Oを有する複数のノードの間でデータ転送を行うようにしたデータ処理システムにおいて、図1に示したようなトランザクション測定回路を用いることで、タイムアウト障害が発生した場合に被疑を特定できるようにしたものである。
図7において、FIFOバッファ200、201、203、204、205、206、210、211、213、214、215、216に対して、トランザクション測定回路300、301、303、304、305、306、310、311、313、314、315、316がそれぞれ設けられる。これらトランザクション測定回路300、301、303、304、305、306、310、311、313、314、315、316としては、図1に示した構成のものが用いられる。他の構成については、図4に示した 構成と同様である。
図8は、図7に示すように、FIFOバッファに対してトランザクション測定回路を設けた場合の障害発生から復旧までの手順を示すフローチャートである。
図8において、障害が発生すると、マネージメントファームウェアは、システムログ採取を行う(ステップS201)。また、マネージメントファームウェアは、トランザクション測定回路300、301、303、304、305、306、310、311、313、314、315、316から、FIFOの詰まり具合を示す値(トランザクション測定用カウンタ12のカウント値)をログとして採取し(ステップS202)、ログ解析を開始する(ステップS203)。そして、被疑解析プログラムは、タイムアウト障害が発生しているか否かを判定する(ステップS204)。タイムアウト障害が発生しているか否かは、トランザクションに対するリプライがあったか否かにより判定できる。
タイムアウト障害ではないと判定された場合(ステップS204 No)、被疑解析プログラムは、通常のログ解析により(ステップS205)、ステップS201で採取されたシステムログを基に、故障被疑を指摘、特定する(ステップS210)。そして、被疑が特定できたところで、保守員が保守を行い(ステップS211)、通常運用状態に復旧させる。
タイムアウト障害であると判定された場合(ステップS204 Yes)、被疑解析プログラムは、タイムアウトしたトランザクションの行き先解析を行った後(ステップS206)、ステップS202で解析したトランザクション測定回路300、301、303、304、305、306、310、311、313、314、315、316のトランザクション測定用カウンタのカウント値から、FIFOバッファ200、201、203、204、205、206、210、211、213、214、215、216の詰まり具合を解析する(ステップS207)。
そして、被疑解析プログラムは、被疑に追加する条件に一致しているか否かを判定する(ステップS208)。被疑に追加する条件は、各トランザクション測定回路300、301、303、304、305、306、310、311、313、314、315、316のトランザクション測定用カウンタのカウント値が図9に示すような各閾値を超えているか否かの判定結果に基づいて、図11に示すような条件と照合することで行われる。
つまり、各トランザクション測定回路300、301、303、304、305、306、310、311、313、314、315、316のトランザクション測定用カウンタのカウント値は、各FIFOバッファ200、201、203、204、205、206、210、211、213、214、215、216の詰まり具合を示している。各トランザクション測定用カウンタのカウント値がそれぞれのFIFOバッファの容量を超えているような場合には、FIFOバッファが詰まり、障害が発生する可能性が高い。このことから、トランザクション測定用カウンタのカウント値は、各FIFOバッファの容量に応じて設定される。
ここでは、FIFOバッファ200、201、203、204、205、206、210、211、213、214、215、216の容量が図10に示すようになっているとする。この場合、各トランザクション測定回路300、301、303、304、305、306、310、311、313、314、315、316のトランザクション測定用カウンタのカウント値の閾値は、図9に示すように、各FIFOの容量に”1”を加えた数とされている。
FIFOバッファが詰まっているときに、どの経路に障害が生じるかは、予め、解析できる。図11に示す条件は、これに基づいて、追加する被疑の条件を設定したものである。
ステップS208では、被疑解析プログラムは、各トランザクション測定回路300、301、303、304、305、306、310、311、313、314、315、316のトランザクション測定用カウンタのカウント値と、図9に示すような閾値とを比較し、この判定結果に基づいて、図11に示すような被疑に追加する条件と、タイムアウトが検出されたトランザクションの行き先とを照合して、条件に一致するか否かを判定する。
被疑解析プログラムは、被疑に追加する条件に一致していると判定すると(ステップS208 Yes)、被疑を追加する(ステップS209)。そして、被疑解析プログラムは、故障部位を特定し(ステップS210)、被疑が特定できたところで、保守員が保守を行い(ステップS211)、通常運用状態に復旧させる。
なお、被疑に追加する条件に一致していなければ(ステップS208 No)、通常のログ解析を行い(ステップS205)、その結果から、故障部位を特定し(ステップS210)、被疑が特定できれば、保守員が保守を行い(ステップS211)、通常運用状態に復旧させる。
このように、本実施形態では、FIFOバッファ200、201、203、204、205、206、210、211、213、214、215、216に対して、トランザクション測定回路300、301、303、304、305、306、310、311、313、314、315、316が設けられる。これらトランザクション測定回路300、301、303、304、305、306、310、311、313、314、315、316により、FIFOバッファ200、201、203、204、205、206、210、211、213、214、215、216の詰まり具合が検出でき、このFIFOバッファの詰まり具合の情報を用いることで、タイムアウト障害が発生したときにも、被疑の部位を確実に判定できる。
例えば、前述と同様に、CPU102でI/O105へ行くトランザクションのタイムアウト障害を検出した場合を説明する。
本実施形態では、図8に示したように、CPU102で障害が発生すると、マネージメントファームウェアはシステムログを採取する(ステップS201)。このとき、マネージメントファームウェアは、トランザクション測定回路300、301、303、304、305、306、310、311、313、314、315、316のログも採取する(ステップS202)。被疑解析プログラムは、採取されたログの解析を開始し(ステップS203)、タイムアウト障害が発生しているか否かを判定する(ステップS204)。ここでは、I/O105へのトランザクションのタイムアウト障害を検出したので、被疑解析プログラムは、タイムアウト障害が発生したと判定する(ステップS204 Yes)。
タイムアウト障害と判断された場合には、被疑解析プログラムは、先ず通常のタイムアウトしたトランザクションの行き先解析を行う(ステップS206)。解析結果からI/O105へ行くトランザクションがタイムアウトしたことが分かるため、被疑解析プログラムは、I/O105を被疑に追加する。次に、被疑解析プログラムは、FIFOバッファの詰まり具合を解析する(ステップS207)。被疑解析プログラムは、トランザクション測定回路300、301、303、304、305、306、310、311、313、314、315、316のトランザクション測定用カウンタのカウント値と、図9に示した各トランザクション測定用カウンタ閾値とを比較して、FIFOバッファの詰まり具合を判定する。前述したように、図9に示した閾値は、図10に示すFIFOバッファ200、201、203、204、205、206、210、211、213、214、215、216の容量に”1”を加えた数である。トランザクション測定回路300、301、303、304、305、306、310、311、313、314、315、316のトランザクション測定用カウンタのカウント値がこれらの閾値を超えていれば、それに対応するFIFOバッファ200、201、203、204、205、206、210、211、213、214、215、216が詰まっていると判定できる。
ここで、トランザクション測定回路300、301、303、304、305、306、310、311、313、314、315、316のトランザクション測定用カウンタのカウント値が、図12に示すようになっていたとする。このとき、図12と図9とを比較すると、FIFOバッファ203のトランザクション測定用カウンタのカウント値”12”がその閾値”11”を超えており、また、FIFOバッファ205のトランザクション測定用カウンタのカウント値”12”がその閾値”11”を超えている。他のFIFOバッファのトランザクション測定用カウンタのカウント値は閾値を超えていない。
したがって、被疑解析プログラムは、FIFOバッファ203とFIFOバッファ205でバッファの詰まりが発生していると判定する。被疑解析プログラムは、この解析結果を基に、図11に示した対応表に従って、被疑を追加する(ステップS209)。この場合、図11に示す対応表から、FIFOバッファ203とFIFOバッファ205でバッファの詰まりが発生しているのは、No2の場合に該当し、図11の対応表から、被疑に追加するのは、CPU101からI/O105に行くトランザクションである。前述のように、CPU102でI/O105へ行くトランザクションのタイムアウト障害を検出しており、これは、被疑に追加する条件に一致する。
この場合、被疑解析プログラムは、以上の解析を行い、被疑としてタイムアウト障害が発生したCPU102、タイムアウトしたトランザクションの行き先であるI/O105、タイムアウト障害の一因であると考えられるI/O104を故障部位として特定する(ステップS210)。
次に、他の例として、CPU102でI/O114行きトランザクションのタイムアウトを検出した場合について説明する。
上述と同様に、CPU102で障害が発生するとマネージメントファームウェアは、システムログを採取する(ステップS201)。このときマネージメントファームウェアは、トランザクション測定用回路のログも採取する(ステップS202)。採取されたログは、被疑解析プログラムにより解析される(ステップS203)。そして、被疑解析プログラムは、ログ解析でタイムアウト障害であるか否かを判断する(ステップS204)。
ここでは、CPU102でI/O114行きトランザクションのタイムアウトを検出したので、マネージメントファームウェアは、タイムアウト障害が発生したと判定する。
タイムアウト障害と判断された場合には、被疑解析プログラムは、先ず、通常のタイムアウトしたトランザクションの行き先解析を行う(ステップS206)。この解析結果からI/O114行きのトランザクションがタイムアウトしたことが分かるため、被疑解析プログラムは、I/O114を被疑に追加する。次にバッファの詰まり具合を解析する(ステップS207)。
被疑解析プログラムは、図9に示すバッファが詰まっていると判断する基準となる閾値と、採取されたトランザクション測定回路のカウント値とを比較する。ここで、各FIFOバッファ200、201、203、204、205、206、210、211、213、214、215、216に対応するトランザクション測定回路300、301、303、304、305、306、310、311、313、314、315、316内のトランザクション測定用カウンタのカウント値は、図12に示すような値であったとする。このときバッファが詰まっていると被疑解析プログラムで判断されるのは、閾値を超えているFIFOバッファ203と205となる。
被疑解析プログラムは、この解析結果を基に、図11を参照し、被疑を追加するかどうか判断する(ステップS208)。上述のように、ここでは、CPU102でI/O114行きトランザクションのタイムアウトを検出している。図11におけるNo7がCPU102からI/O114行きのトランザクションのタイムアウトの場合に詰まっているバッファである。図11におけるNo7では、FIFOバッファ214、216が詰まっているとなっているが、各FIFOのトランザクション測定用カウンタのカウント値から詰まっていると判定されたバッファは、FIFOバッファ203と205であり、両者は一致していない。
このように、この場合には、被疑に追加する条件に一致しないため被疑の追加は行わない。これはトランザクションの行き先(通過経路)と関係がないバッファの詰まりであったためであり、かつI/O114の故障の可能性が高いことを示している。被疑解析プログラムは、以上結果から、被疑としてタイムアウト障害が発生したCPU102、タイムアウトしたトランザクションの行き先であるI/O114のみを故障部位として特定する(ステップS210)。
図13は、本発明によるデータ処理システムの基本構成を示す概略ブロック図である。
上述した実施形態では、本発明によるデータ処理システムの一実施形態として図7に示す構成について説明したが、本発明によるデータ処理システムの基本構成は、図13に示すとおりである。
すなわち、本発明によるデータ処理システム1001は、各ノード中の各バッファ1003の格納状態を検出するトランザクション測定手段1002と、タイムアウト障害が発生した場合に、システムログ1004と共に前記トランザクション測定手段1002の計測値を取得し、前記システムログ1004の結果と前記トランザクション測定手段1002の計測値を基に、被疑の部位を特定する被疑解析手段1005とを備えることを特徴とする。
上述した各処理部の動作は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
複数のノード間でデータ転送を行うようにしてデータ処理システムであって、
各ノード中の各バッファの格納状態を検出するトランザクション測定手段と、
タイムアウト障害が発生した場合に、障害情報を含むシステムログの情報と前記トランザクション測定手段の計測値からバッファの格納状態の情報を取得し、前記システムログの情報と前記バッファの格納状態の情報を基に、被疑の部位を特定する被疑解析手段と
を備えることを特徴とするデータ処理システム。
(付記2)
前記トランザクション測定手段は、バッファにトランザクションが入力されてから、当該入力トランザクションと同一のトランザクションが前記バッファから出力されるまでのクロック数を計数することを特徴とする付記1に記載のデータ処理システム。
(付記3)
前記被疑解析手段は、前記バッファの格納状態の情報と閾値とを比較し、前記閾値を超える格納状態のバッファに障害が発生した場合に想定される部位を解析して、被疑を追加することを特徴とする付記1又は2に記載のデータ処理システム。
(付記4)
前記閾値は、前記バッファの容量に基づいて設定することを特徴とする付記3に記載のデータ処理システム。
(付記5)
複数のノード間でデータ転送を行うようにしてデータ処理システムの被疑解析方法であって、
障害情報を含むシステムログの情報と各ノード中の各バッファの格納状態の情報を取得し、
タイムアウト障害が発生した場合に、前記システムログの情報と前記各バッファの格納状態の情報を基に被疑の部位を特定する
ことを特徴とするデータ処理システムの被疑解析方法。
(付記6)
バッファにトランザクションが入力されてから、当該入力トランザクションと同一のトランザクションが前記バッファから出力されるまでのクロック数を計数することで、各ノード中の各バッファの格納状態の情報を取得する
ことを特徴とする付記5に記載のデータ処理システムの被疑解析方法。
(付記7)
複数のノード間でデータ転送を行うようにしてデータ処理システムの被疑解析プログラムであって、
障害情報を含むシステムログの情報と各ノード中の各バッファの格納状態の情報を取得するステップと、
タイムアウト障害が発生した場合に、前記システムログの情報と前記各バッファの格納状態の情報を基に被疑の部位を特定するステップと
を含むことを特徴とするデータ処理システムの被疑解析プログラム。
(付記8)
各ノード中の各バッファの格納状態の情報を取得するステップでは、バッファにトランザクションが入力されてから、当該入力トランザクションと同一のトランザクションが前記バッファから出力されるまでのクロック数を計数する
ことを特徴とする付記7に記載のデータ処理システムの被疑解析プログラム。
(付記9)
バッファに入力されるトランザクション情報を取り込んで保持するトランザクション保持レジスタと、
前記トランザクション保持レジスタにトランザクションが取り込まれてから、前記トランザクション保持レジスタに取り込まれたトランザクションと同様のトランザクションが前記バッファから出力されるまで、クロックをカウントするトランザクション測定用カウンタとを備え、
前記トランザクション測定用カウンタのカウント値により前記バッファの格納状態を計測する
ことを特徴とするトランザクション測定回路。
11:トランザクション情報保持レジスタ
12:トランザクション測定用カウンタ
13:クリア信号生成回路
14:インクリメントイネーブル信号生成回路
15:ホールド信号生成回路
200、201、203、204、205、206、210、211、213、214、215、216:FIFOバッファ
300、301、303、304、305、306、310、311、313、314、315、316:トランザクション測定回路

Claims (8)

  1. 複数のノード間でデータ転送を行うようにしてデータ処理システムであって、
    各ノード中の各バッファの格納状態を検出するトランザクション測定手段と、
    タイムアウト障害が発生した場合に、障害情報を含むシステムログの情報と前記トランザクション測定手段の計測値からつまりが発生しているバッファを特定し、被疑の部位に関連付けてタイムアウトが検出されたトランザクションの行き先とつまりが発生しているバッファの識別情報とを格納する対応表を参照して、被疑の部位を特定する被疑解析手段とを備えることを特徴とするデータ処理システム。
  2. 前記トランザクション測定手段は、バッファにトランザクションが入力されてから、当該入力トランザクションと同一のトランザクションが前記バッファから出力されるまでのクロック数を計数することを特徴とする請求項1に記載のデータ処理システム。
  3. 前記被疑解析手段は、前記バッファの格納状態の情報と閾値とを比較し、前記閾値を超える格納状態のバッファに障害が発生した場合に想定される部位を解析して、被疑を追加することを特徴とする請求項1又は2に記載のデータ処理システム。
  4. 前記閾値は、前記バッファの容量に基づいて設定することを特徴とする請求項3に記載のデータ処理システム。
  5. 複数のノード間でデータ転送を行うようにしてデータ処理システムの被疑解析方法であって、
    障害情報を含むシステムログの情報と各ノード中の各バッファの格納状態の情報を取得し、
    タイムアウト障害が発生した場合に、前記システムログの情報と前記取得された格納状態からつまりが発生しているバッファを特定し、
    被疑の部位に関連付けてタイムアウトが検出されたトランザクションの行き先とつまりが発生しているバッファの識別情報とを格納する対応表を参照して、前記特定されたバッファに基づいて被疑の部位を特定する
    ことを特徴とするデータ処理システムの被疑解析方法。
  6. バッファにトランザクションが入力されてから、当該入力トランザクションと同一のトランザクションが前記バッファから出力されるまでのクロック数を計数することで、各ノード中の各バッファの格納状態の情報を取得する
    ことを特徴とする請求項5に記載のデータ処理システムの被疑解析方法。
  7. 複数のノード間でデータ転送を行うようにしてデータ処理システムの被疑解析プログラムであって、
    障害情報を含むシステムログの情報と各ノード中の各バッファの格納状態の情報を取得するステップと、
    タイムアウト障害が発生した場合に、前記システムログの情報と前記取得された格納状態からつまりが発生しているバッファを特定するステップと、
    被疑の部位に関連付けてタイムアウトが検出されたトランザクションの行き先とつまりが発生しているバッファの識別情報とを格納する対応表を参照して、前記特定されたバッファに基づいて被疑の部位を特定するステップと
    を含むことを特徴とするデータ処理システムの被疑解析プログラム。
  8. 各ノード中の各バッファの格納状態の情報を取得するステップでは、バッファにトランザクションが入力されてから、当該入力トランザクションと同一のトランザクションが前記バッファから出力されるまでのクロック数を計数する
    ことを特徴とする請求項7に記載のデータ処理システムの被疑解析プログラム。
JP2012048933A 2012-03-06 2012-03-06 データ処理システム、データ処理システムの被疑解析方法、被疑解析プログラム Active JP5911096B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012048933A JP5911096B2 (ja) 2012-03-06 2012-03-06 データ処理システム、データ処理システムの被疑解析方法、被疑解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012048933A JP5911096B2 (ja) 2012-03-06 2012-03-06 データ処理システム、データ処理システムの被疑解析方法、被疑解析プログラム

Publications (2)

Publication Number Publication Date
JP2013186524A JP2013186524A (ja) 2013-09-19
JP5911096B2 true JP5911096B2 (ja) 2016-04-27

Family

ID=49387934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012048933A Active JP5911096B2 (ja) 2012-03-06 2012-03-06 データ処理システム、データ処理システムの被疑解析方法、被疑解析プログラム

Country Status (1)

Country Link
JP (1) JP5911096B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021809A (zh) * 2017-12-19 2018-05-11 北京明朝万达科技股份有限公司 一种数据处理方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176477A (ja) * 2007-01-17 2008-07-31 Hitachi Ltd 計算機システム
JP5505966B2 (ja) * 2010-02-25 2014-05-28 エヌイーシーコンピュータテクノ株式会社 障害管理システム及び方法

Also Published As

Publication number Publication date
JP2013186524A (ja) 2013-09-19

Similar Documents

Publication Publication Date Title
US10296408B2 (en) Operation management apparatus, operation management method, and program
JP5874936B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP6183450B2 (ja) システム分析装置、及び、システム分析方法
JP4573179B2 (ja) 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP6183449B2 (ja) システム分析装置、及び、システム分析方法
JP5446894B2 (ja) ネットワーク管理支援システム、ネットワーク管理支援装置、ネットワーク管理支援方法およびプログラム
JP5495310B2 (ja) 情報処理装置、障害解析方法及び障害解析プログラム
US9009537B2 (en) Diagnostic data capture in a computing environment
JP5911096B2 (ja) データ処理システム、データ処理システムの被疑解析方法、被疑解析プログラム
JP4449929B2 (ja) トランザクション装置、遅延障害検出装置及び方法、並びにプログラム
US10009151B2 (en) Packet storage method, information processing apparatus, and non-transitory computer-readable storage medium
JP4559974B2 (ja) 管理装置及び管理方法及びプログラム
US9690639B2 (en) Failure detecting apparatus and failure detecting method using patterns indicating occurrences of failures
JP2017211806A (ja) 通信の監視方法、セキュリティ管理システム及びプログラム
EP3812940A1 (en) Vulnerability analyzer
JP5958987B2 (ja) 情報処理装置、故障診断制御装置、故障判定方法、故障判定プログラム
JP5679347B2 (ja) 障害検知装置、障害検知方法、及びプログラム
US9830403B2 (en) Communication apparatus, and CAM failure diagnosis method
KR20180035835A (ko) 확률적 프로세서 모니터링
JPWO2019022207A1 (ja) イベント監視システム、端末装置、監視サーバ、イベント監視方法および記録媒体
CN115509906A (zh) 软件缺陷检测方法、装置、设备和存储介质
KR101527149B1 (ko) 중복 패킷을 방지하는 패킷 처리 방법 및 그 장치
KR101415363B1 (ko) 작은 메모리를 이용해서 스프레드를 근사하는 알고리즘
CN115543689A (zh) 一种数据恢复方法、系统、设备及存储介质
CN115865723A (zh) 基于分布式系统应用的全链路健康体检方法、终端及介质

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20140804

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151013

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160324

R150 Certificate of patent or registration of utility model

Ref document number: 5911096

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150