JP2009003856A - 品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法 - Google Patents

品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法 Download PDF

Info

Publication number
JP2009003856A
JP2009003856A JP2007166328A JP2007166328A JP2009003856A JP 2009003856 A JP2009003856 A JP 2009003856A JP 2007166328 A JP2007166328 A JP 2007166328A JP 2007166328 A JP2007166328 A JP 2007166328A JP 2009003856 A JP2009003856 A JP 2009003856A
Authority
JP
Japan
Prior art keywords
time
load information
event
information
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007166328A
Other languages
English (en)
Other versions
JP4507260B2 (ja
Inventor
Tooru Kashiwa
徹 柏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information Systems Ltd
Original Assignee
Hitachi Information Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information Systems Ltd filed Critical Hitachi Information Systems Ltd
Priority to JP2007166328A priority Critical patent/JP4507260B2/ja
Publication of JP2009003856A publication Critical patent/JP2009003856A/ja
Application granted granted Critical
Publication of JP4507260B2 publication Critical patent/JP4507260B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】品質障害に対して、負荷情報と設定・イベント情報を関連させた障害発生傾向を確認できる機能を持たせることにより、管理者の原因切り分け作業を容易にする。
【解決手段】複数クライアントPC101がネットワーク102を介して接続された対象サーバ103内に、サーバ負荷情報を定期的に取得するサーバ負荷情報収集部S101と、サーバに対して行われた設定・イベント情報を登録する業務/イベント情報登録部S102と、負荷情報および設定・イベント情報からユーザ(管理者など)が指定した条件に従って発生傾向を導出するタイムテーブル生成部S103と、画面上に表示されたタイムテーブルに対応した各時刻のサーバ負荷情報を確認できるタイムテーブル詳細確認部S104と、負荷情報テーブル106と、イベントテーブル107と、タイムテーブルファイル108とを備える。
【選択図】図1

Description

本発明は、サーバ管理業務において、品質障害(例えば、CPU使用率やメモリ使用率の増加などのパフォーマンス低下等)が発生した場合に、その原因を切り分けるため、品質障害の発生傾向を自動的に調べて、これをユーザ(管理者など)に把握させ、原因切り分けを容易にさせることが可能な品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法に関する。
従来の技術においては、サーバの品質障害の原因切り分けシステムとして、主に下記のようなシステムが用いられていた。
すなわち、通常時には、必要最小限の稼動情報項目について収集しておき、異常と判断した場合には、その稼動情報項目に対応して予め関連付けられている項目について稼動情報を追加収集するシステムである。例えば、特開平8−65302号公報(特許文献1参照)に記載のネットワーク稼動情報収集システムにおいては、限定項目に対応して各ネットワークの構成要素の稼動情報を収集する稼動情報収集部と、この稼動情報収集部で収集した稼動情報に基づいて、各構成要素の稼動状況の正常または異常を限定項目別に判定するとともに、異常状態と判定したときには、異常状態の限定項目に関連する関連項目を抽出する稼動情報解析部とを設けている。
特開平8−65302号公報
一般的に、サーバにおいて品質障害が発生した場合、収集した負荷情報と直近で実施した設定・イベント情報を照合して、それらの関連性を考慮しながら、原因を切り分けていく。
しかし、上記の作業では大量のデータを取り扱うため、収集した情報の管理が煩雑であり、なおかつ、サーバ上で動作しているシステムに精通している者でないと、切り分けが極めて難かしい。収集方法については、上記のような幾つかのシステムも提案され、解決が図られているが、従来の技術では以下のような問題点があった。
例えば、上記特許文献1の方法では、障害が発生し異常を検知した場合に、詳細情報を収集するため、有用な情報のみ収集されるが、実施した設定・イベント情報との照合機能は実装されていないため、原因の切り分け作業は依然として管理者が一から十まで全て行う必要があった。
(目的)
本発明の目的は、品質障害に対して、負荷情報と設定・イベント情報を関連させた障害発生傾向を確認できる機能を持たせることにより、管理者の原因切り分け作業を容易にすることが可能な品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法を提供することである。
本発明に係る発生傾向把握および原因切り分けシステムは、サーバ負荷情報を定期的に取得するサーバ負荷情報収集部と、サーバに対して行われた設定・イベント情報を登録する業務/イベント情報登録部と、負荷情報および設定・イベント情報からユーザ(管理者など)が指定した条件に従って発生傾向を導出するタイムテーブル生成部と、画面上に表示されたタイムテーブルに対応した各時刻のサーバ負荷情報を確認できるタイムテーブル詳細確認部とを設けることにより、上記目的を解決する。
本発明によれば、障害原因切り分けシステムが負荷情報からだけでなく、設定・イベント情報からも原因切り分けが可能になる。さらに、負荷情報と設定・イベント情報を組み合わせた条件設定により、多角度の原因追求が可能になり、潜在的な障害も発見できる可能性がある。なお、アウトプットとしても、発生傾向がCSV形式のファイルだけでなく、視覚的にも分かり易い画面で確認できるため、切り分け作業が格段に容易となる。
以下、本発明の実施例を、図面により詳細に説明する。
図1は、本発明の一実施例に係る原因切り分けシステムの全体構成図である。
本実施例に係る原因切り分けシステムは、複数のクライアントPC101にインターネット102を介して接続された対象サーバ103があり、このサーバ103に原因切り分けシステム104が設置される。原因切り分けシステム104には、サーバ負荷情報収集部S101、業務/イベント情報登録部S102、タイムテーブル生成部S103、および、タイムテーブル詳細確認部S104の各ソフトウェア記憶部が設けられる。その他に、ハードウェアとして、負荷情報テーブル106、イベントテーブル107およびタイムテーブルファイル108が設けられる。なお、図において、破線は入力情報、太線(実線)は出力情報である。
図2は、図1における業務/イベント情報登録部のツールである画面例を示す図である。
業務/イベント情報登録部S102によりイベントテーブル107に登録するためには、管理者等により図2に示す画面から入力する必要がある。
業務イベント名201、実施期間202〜203を入力するとともに、実施周期(毎日204、毎週206、曜日207、毎月〜日208、1回のみ209のいずれかを入力し、実施時刻210〜211および反映対象としての反映212または無視213のいずれかを入力する。そして、入力後に登録214をクリックするか、または誤りなどの場合にはキャンセル215をクリックする。
図3は、図1におけるタイムテーブル生成部のツールである画面例を示す図である。
タイムテーブル生成部S103により生成したテーブルをタイムテーブルファイル108に記憶するためには、図3に示す画面から入力する必要がある。
生成期間301〜302を入力するとともに、生成期間の周期として、毎日303、毎週304の〜曜日305、毎月306の〜日307のうちのいずれかを入力する。次に、優先業務・イベント名308、優先プロセス名310、CPU使用率312〜313(%)、メモリ使用率315〜316(%)、検査対象とするヒット率318(%)を入力した後、これらの比重(優先業務・イベント名、優先プロセス名、CPU使用率、メモリ使用率の各%)を入力し、最後に生成319をクリックするか、または、誤り等があればキャンセル320をクリックする。
図7は、図2の画面から入力することにより、生成されたイベントテーブルのデータ例を示す図である。
業務/イベント情報登録部S102から登録されたイベント情報は、イベントテーブル107に書き込まれることにより、登録される。
このテーブル107には、業務イベント名ごとの番号、業務イベント名、開始日、終了日、周期、開始時刻、終了時刻、対象フラグ(反映、無視)が登録される。
図8は、図3の画面から入力することにより、生成されたタイムテーブルのデータ例を示す図である。
タイムテーブル生成部S103により生成されたタイムテーブルは、CSV形式のタイムテーブルファイル108に集められる。
このテーブルには、何時何分(0:00.〜23:50.)で示す時刻と、1(有効)か0(無効)かのフラグが記録される。
次に、図1の各部の動作について、詳細に説明する。
(サーバ負荷情報収集部)
図9は、図1におけるサーバ負荷情報収集部S101の処理動作を示すフローチャートである。
サーバ負荷情報収集部S101は、スケジューラソフト(タスクジューラ、JP1/AJS2など)を利用し、ある一定間隔で繰り返し実行されるものとする。実行間隔は任意の間隔で構わないが、実行間隔が短いほど精度が上がるため短くした方がよい。本例においては、実行間隔を10分に設定する。
まず、現在時刻を出力するOSコマンドを実行して処理開始時刻を取得し、時刻を変数A1に格納する(901)。次に、負荷情報を出力するOSコマンド(例えばvmstat,topなど)を実行し、CPU使用率、メモリ使用率および占有率の高いプロセス上位5種を変数A2に格納する。なお、占有率の高いプロセス上位については、本例においては5種としたが、任意の数で構わない(902)。
続いて、負荷情報テーブル106への接続を確立し(903)、ステップ(901)で取得した変数A1およびステップ902で取得した変数A2を負荷情報テーブルに登録する(904)。
最後に、負荷情報テーブルへの接続を切断し(905)、処理を終了する。
(業務/イベント情報登録部)
図10は、業務/イベント情報登録部S102の処理動作を示すフローチャートである。
業務/イベント情報登録部S102は、ユーザ(管理者など)のPC101から図2の業務/イベント情報入力ツールを使用して行われ、ツールの登録ボタン213がクリックされると処理が起動する。業務/イベント情報登録はユーザが必要と判断したタイミング(業務イベントが実施された際など)で随時行う処理のため、業務/イベント情報登録部S102は不定期の処理となる。
まず、イベントテーブル107への接続を確立する(1001)。
次に、業務/イベント情報入力ツールにてユーザが入力した以下の情報をイベントテーブル107へ登録する(1002)。ユーザが入力した情報とは、図7に示すように、業務イベント名、実施期間の開始日および終了日、実施周期、実施開始時刻および終了時刻、対象フラグである。例えば、『2006年11月1日から2007年1月3日まで毎週水曜日10:00〜12:00の間で伝票登録が実施され、タイムテーブル生成の際に反映したい情報』となる場合には、イベントテーブルにはそれぞれ『伝票登録』、『2006/11/1』、『2007/1/3』、『月』、『10:00』、『12:00』、『反映』が限納される。なお、図2の実施期間の終了203が空欄で、終了日が定まっていない場合には、終了日に『−』を格納する。
最後に、イベントテーブルへの接続を切断し(1003)、処理を終了する。
(タイムテーブル生成部)
図11は、図1におけるタイムテーブル生成部の処理動作を示すフローチャートである。
タイムテーブル生成部S103は、ユーザのPC101から図3に示すタイムテーブル生成ツールを使用して行われ、ツールの生成ボタン312がクリックされると、処理が起動する。タイムテーブル生成は、ユーザがタイムテーブルを必要と判断したタイミングで随時行う処理のため、タイムテーブル生成部S103は不定期の処理となる。
まず、負荷情報テーブル106およびイベントテーブル107への接続を確立する(1101)。次に、ユーザが入力した生成期間301、302および生成期間の周期303〜307より、生成期間の全対象日数を計算し(1102)、変数C1に格納する。例えば、生成期間が2006年12月1日から2006年12月31日で、生成期間の周期が毎週水曜日であった場合の全対象日数は4日、すなわちC1=4となる。
続いて、処理前の準備として、ステップ1104以降の処理結果を格納するためのタイムテーブル用配列を定義する。一例で言うと、1日(24時間)をサーバ情報負荷収集部S101の起動間隔で除した値分、すなわち1440(分)÷10(分)=144個格納できる配列を生成する。なお、1440は24時間を分で表わした値である。
以降では、この配列をTIMECOLと呼び、配列のN番目をTIMECOL〔N〕で表す。なお、この先、本配列は各時刻におけるヒット率を格納するために利用し、TIMECOL〔1〕は0:00におけるヒット率、TIMECOL〔2〕は0:10におけるヒット率、・・・、TIMECOL〔144〕は23:50におけるヒット率というように各時刻に対応する。
次に、各条件におけるヒット率の計算処理に移る。まず、優先業務・イベント名のヒット率から計算する。ユーザが入力した優先業務・イベント名308が空欄でなく、かつ、優先業務・イベント名の比重309が0以上か否か判断する(1104)。判断結果がFALSEであった場合には、ステップ1105からステップ1109の処理を飛ばし、ステップ1110の処理に移る。一方、判断結果がTRUEであった場合には、ヒット件数をカウントする(1106)。このヒット件数のカウントについて詳述すると、まずユーザが入力した生成期間301,302と生成期間の周期303〜307より対象日を算出する。例えば、生成期間が2006年12月1日から2006年12月31日で、生成期間の周期が毎週水曜日であった場合、対象日として、6日、13日、20日、27日が算出される。
その後、イベントテーブルにおいて、優先業務・イベント名308をキーに検索し、抽出したレコードに対して、以下の条件を満たすレコードが何件あるか算出し、結果の件数をヒット条件として変数C2に格納する(1106)。ここでの条件とは、対象日が実行日(開始日〜終了日内にあり、周期も合致)であること、カウンタ時刻が開始時刻〜終了時刻内にあること、対象フラグが『反映』となっていることである。なお、カウンタ時刻とは、カウンタ変数CTに対応する時刻のことであり、本例においてはCT=1の場合には0:00、CT=2の場合には0:10というような時刻を表している。本例では、サーバ情報負荷収集部の起動間隔が10分であるため、0:00、0:10、・・・23:40、23:50までの値が入る。ヒット件数算出の例として、対象日『12月6日』で業務イベント名が『伝票登録』であった場合で説明すると、次のようになる。
まず業務イベント名をキーにイベントテーブル107を検索する。次に、該当取得レコードから開始日、終了日、周期を用いて、12月6日が含まれるか否かを判断する。本データ例では、開始日が11月1日であり、終了日が2007年1月3日であり、周期が水曜であるので、12月6日は基準を満たすため、次の判断に移る。次の判定では、カウンタ時刻が開始時刻と終了時刻の間、すなわち10:00〜12:00に入るかを判断する。CT=1の場合、カウンタ時刻は、0:00であるため、基準を満たさないので、ヒット件数は0となり、変数C2には0が格納される。続いて、以下の式に基づいてヒット率を求める(1107)。ここでヒット率を求める計算式は、『ヒット率=C2(ヒット件数)÷C1(全対象日数)×(比重(309)÷100)』である。ステップ1107で求めたヒット率の値をステップ1103で生成したタイムテーブル用配列TIMECOL〔CT〕に格納する(1108)。以上のステップ1106から1108の処理をタイムテーブル用配列の数だけ処理を繰り返す。本例では、サーバ情報負荷収集部の起動間隔が10分であるため、CTが1から114になるまで計144回処理を繰り返す(ループA)。
引き続き、優先プロセス名のヒット率の計算処理に移る。ユーザが入力した優先プロセス名310が空欄でなく、かつ、優先プロセス名の比重311が0以上か否かを判断する(1110)。判断結果がFALSEであった場合には、ステップ1111からステップ1115の処理を飛ばし、ステップ1116の処理へ移る。判断結果がTRUEであった場合には、ヒット件数をカウントする(1112)。このヒット件数のカウントについて詳述すると、まず、ユーザが入力した生成期間301,302と生成期間の周期303〜307より対象日を算出する。例えば、生成期間が2006年12月1日から2006年12月31日で、生成期間の周期が毎週水曜日であった場合、対象日として、6日、13日、20日、27日が算出される。
その後、対象日のカウンタ時刻に取得した情報を確認し、負荷情報テーブルの動作プロセス#1〜#5に、優先プロセス名310が含まれているかを確認する。最終的に条件に合致したレコード数をヒット件数として変数C3に格納する。なお、カウンタ時刻については、ステップ1106で説明したものと同じものである。ヒット件数算出の例として、対象日『12月6日、13日、20日、27日』、優先プロセス名が『A.exe』、カウンタ変数CT=1であった場合で説明すると、まず各対象日において、カウンタ時刻0:00に取得した負荷情報を負荷情報テーブル106から検索する。次に、検索結果として得られた4つのレコードに対して、動作プロセス#1〜#5に、優先プロセス名310が含まれているかを確認する。
図6は、負荷情報テーブルのデータ例を示す図である。
サーバ負荷情報収集部S101により収集された負荷情報は、負荷情報テーブルに書き込まれる。
図6に示す例では、12月6日0:00と12月13日0:00の2件が『A.exe』を含んでいるので、ヒット数は2となり、変数c3に2を格納する。続いて、以下の式に基づいてヒット率を求める(1113)。ここで、ヒット率を求める計算式は『ヒット率=(C3(ヒット件数)÷C1(全対象日数)×(比重(311)÷100)』である。ステップ1113で求めたヒット率の値を元々配列TIMECOL〔CT〕に格納されていた値に加えて格納する(1114)。以上のステップ1112から1114の処理をタイムテーブル用配列の数だけ処理を繰り返す。本例では、サーバ情報負荷収集部の起動間隔が10分であるため、CTが1から144になるまで計144回処理を繰り返す(ループB)。
引き続き、CPU使用率のヒット率の計算処理に移る。ユーザが入力したCPU使用率312,313が空欄でなく、かつ、CPU使用率の比重314が0以上か否かを判断する(1116)。判断結果がFALSEであった場合には、ステップ1117からステップ1121の処理を飛ばし、ステップ1122の処理へ移る。判断結果がTRUEであった場合には、ヒット件数をカウントする(1118)。このヒット件数のカウントについて詳述すると、まずユーザが入力した生成期間301,302と生成期間の周期303〜307より対象日を算出する。例えば、生成期間が2006年12月1日から2006年12月31日で、生成期間の周期が毎週水曜日であった場合、対象日として、6日、13日、20日、27日が算出される。
その後、対象日のカウンタ時刻に取得した情報を確認し、負荷情報テーブルのCPU使用率が、入力値312〜313の範囲内に含まれているかを確認する。最終的に条件に合致したレコード数をヒット件数として変数C4に格納する。なお、カウンタ時刻については、ステップ1106で説明したものと同じものである。ヒット件数算出の例として、対象日『12月6日、13日、20日、27日』、ユーザ入力値が『10%〜30%』、カウンタ変数CT=1であった場合で説明すると、まず各対象日において、カウンタ時刻0:00に取得した負荷情報を負荷情報テーブル106から検索する。
次に、検索結果として得られた4つのレコードに対して、CPU使用率が10%〜30%となっているかを確認する。図6に示す例では、12月6日0:00、12月13日0:00、12月20日0:00の3件がCPU使用率10%〜30%を満たしているので、ヒット件数は3となり、変数C4に3を格納する。続いて、以下の式に基づいてヒット率を求める(1119)。ここで、ヒット率を求める計算式は『ヒット率=(C4(ヒット件数)÷C1(全対象日数)×(比重(314)÷100)』である。ステップ1119で求めたヒット率の値を元々配列TIMECOL〔CT〕に格納されていた値に加えて格納する(1120)。以上のステップ1118から1120の処理をタイムテーブル用配列の数だけ処理を繰り返す。本例では、サーバ情報負荷収集部の起動期間が10分であるため、CTが1から144になるまで計144回処理を繰り返す(ループC)。
引き続き、メモリ使用率のヒット率の計算処理に移る。ユーザが入力したメモリ使用率315、316が空欄でなく、かつ、メモリ使用率の比重317が0以上か否かを判断する(1122)。判断結果がFALSEであった場合には、ステップ1123からステップ1127の処理を飛ばし、ステップ1128の処理に移る。判断結果がTRUEであった場合には、ヒット件数をカウントする(1124)。このヒット件数のカウントについて詳述すると、まず、ユーザが入力した生成期間301、302と生成期間の周期303〜307より対象日を算出する。例えば、生成期間が2006年12月1日から2006年12月31日で、生成期間の周期が毎週水曜日であった場合、対象日として、6日、13日、20日、27日が算出される。
その後、対象日のカウンタ時刻に取得した情報を確認し、負荷情報テーブルのメモリ使用率が、入力値315〜316の範囲内に含まれているかを確認する。最終的に条件に合致したレコード数をヒット件数として変数C5に格納する。なお、カウンタ時刻についてはステップ1106で説明したものと同じものである。ヒット件数算出の例として、対象日『12月6日、13日、20日、27日』、ユーザ入力値が『50%〜100%』、カウンタ変数CT=1であった場合で説明すると、まず各対象日において、カウンタ時刻0:00に取得した負荷情報を負荷情報テーブル106から検索する。次に、検索結果として得られた4つのレコードに対して、メモリ使用率が50%〜100%となっているか否かを確認する。図6に示す例では、12月27日0:00のみ50%〜100%を満たしているので、ヒット率は1となり、変数C5に1を格納する。続いて、以下の式に基づいてヒット率を求める(1125)。ここで、ヒット率を求める計算式は『C5(ヒット件数)÷C1(全対象日数))×(比重(317)÷100)』である。ステップ1125で求めたヒット率の値を元々配列TIMECOL〔CT〕に格納されていた値に加えて格納する(1126)。以上のステップ1124から1126の処理をタイムテーブル用配列の数だけ処理を繰り返す。本例では、サーバ情報負荷収集部の起動間隔が10分であるため、CTが1から144になるまで計144回処理を繰り返す。
最後に、負荷情報テーブルおよびイベントテーブルへの接続を切断し(1128)、タイムテーブルの生成処理を行う。タイムテーブルは、以下のようにして生成される。まず、各時刻におけるヒット率が検査対象とするヒット率(図3で入力された318)以上となっているか、条件文『TIMECOL〔CT〕≧(図3の318の入力値÷100)』によって確認する(1130)。判断結果がTRUEであった場合には、タイムテーブル用配列RESULTCOLに0を入力する(1132)。その後、タイムテーブルファイルに、時刻、カンマ、タイムテーブル用配列、改行コードの順で出力する(1133)。
例えば、CT=1の場合で、条件判断がTRUEの場合には、『0:00,1(改行コード)』をタイムテーブルファイルに出力する。これらステップ1130からステップ1133までの処理は、CTをカウントアップして各時刻において行う。本例では、サーバ情報負荷収集部の起動間隔が10分であるため、CTが1から144になるまで処理を繰り返す。
図4は、タイムテーブルの画面の画面例を示す図である。
図11におけるステップ1133でタイムテーブルファイルに出力し、ループEを終了した後(1134)、図4のタイムテーブル画面を呼び出す(1135)。
その後、以下のようにして、画面上にタイムテーブルの内容を表示させる。まず、条件6『RESULTCOL〔CT〕=1』によって、該当時間が検査対象となっているかを確認する(1136)。FALSEであった場合には(ステップ1137)、図4の枠401において、該当時刻に対応する箇所の色を変更する。例えば、CT=1の場合で、条件判断がTRUEの場合には、0:00に該当する左から1番目(CT番目)の枠の色を変更する(1138)。
これらのステップ1136からステップ1137までの処理はCTをカウントアップし、各時刻において行う。本例では、サーバ情報負荷収集部の起動間隔が10分であるため、CTが1から144になるまで、計144回処理を繰り返す。これで、ループEは終了となる(1139)。
(タイムテーブル詳細確認部)
図12は、タイムテーブル詳細確認部(S104)の処理動作を示すフローチャートである。また、図5は、詳細確認画面の画面例を示す図である。
タイムテーブル詳細確認部は、図4のタイムテーブル画面において、時刻枠401をクリックした際に表示される画面である図5において、確認ボタン511がクリックされると、処理が起動する。なお、図5の初期画面では、対象日欄501に昨日の日付、対象時刻欄502には図4の時刻枠401に対応する時刻が、画面起動とともに入力される。例えば、2007年1月16日に、図4において、時刻枠401の上段左から2つ目の枠をクリックして、図5を表示させた場合、対象日欄501には、『2007/01/15』
対象時刻欄502には、『0:10』が入力された状態で、図5が表示される。
まず、負荷情報テーブル106への接続を確立する(1201)。
次に、負荷情報テーブル106の取得日時列において、対象日欄501および対象時刻欄502と合致する情報があるかを検索し、取得した情報を変数D1に格納する(1202)。ここで、取得した情報とは、CPU使用率、メモリ使用率、動作プロセス#1、動作プロセス#2、動作プロセス#3、動作プロセス#4、動作プロセス#5である。
最後に、負荷情報テーブルへの接続を切断し(1203)、ステップ1202で取得した変数D1の情報を図5上の対応欄503〜510に出力させて(1204)、処理を終了する。
本発明の一実施例に係るサーバ負荷傾向把握システムの全体構成図である。 図1におけるサーバ管理者PCで表示される業務/イベント情報入力ツールの画面例を示す図である。 図1におけるサーバ管理者PCで表示されるタイムテーブル生成ツールの画面例を示す図である。 図1におけるサーバ管理者PCで表示されるタイムテーブル画面の画面例を示す図である。 図1におけるサーバ管理者PCで表示される詳細確認画面の画面例を示す図である。 図1における負荷情報テーブルの内容を示す図である。 図1におけるイベントテーブルの内容を示す図である。 図1におけるタイムテーブルファイルの内容を示す図である。 図1におけるサーバ負荷情報収集部(S101)の処理動作を示すフローチャートである。 図1における業務/イベント情報登録部(S102)の処理動作を示すフローチャートである。 図1におけるサーバ負荷情報収集部(S103)の処理動作を示すフローチャートである。 図1におけるタイムテーブル詳細確認部(S104)の処理動作を示すフローチャートである。
符号の説明
101 サーバ管理者が管理しているクライアントPC
102 ネットワーク
103 対象サーバ
104 負荷傾向把握システム
105 データベース
106 負荷情報テーブル
107 イベントテーブル
108 タイムテーブルファイル(CSV形式ファイル)
S101 サーバ負荷情報収集部(プログラム)
S102 業務/イベント情報登録部(プログラム)
S103 タイムテーブル生成部(プログラム)
S104 タイムテーブル詳細確認部(プログラム)

Claims (7)

  1. サーバ管理業務におけるCPU使用率、メモリ使用率の増加を含む品質障害の原因切り分けを行う発生傾向把握および原因切り分けシステムにおいて、
    対象となるサーバの負荷情報をデータベースに登録するサーバ負荷情報収集部と、
    該サーバに負荷を与える可能性のある業務名およびメンテナンス作業名および作業開始・終了時刻をデータベースに登録する業務・イベント情報登録部と、
    前記負荷の情報および業務・イベント情報より品質障害の発生傾向を表すタイムテーブルを生成するタイムテーブル生成部とを備えることを特徴とする品質障害における発生傾向把握および原因切り分けシステム。
  2. 請求項1に記載の品質障害における発生傾向把握および原因切り分けシステムにおいて、
    前記データベースは、負荷情報テーブルとイベントテーブルとタイムテーブルであることを特徴とする品質障害における発生傾向把握および原因切り分けシステム。
  3. 請求項1に記載の品質障害における発生傾向把握および原因切り分けシステムにおいて、
    前記各処理部およびデータベースに加えて、負荷情報テーブルの取得日時列において、対象日欄および対象時刻欄と合致する情報があるか否かを検索し、取得するためのタイムテーブル詳細確認部を備えることを特徴とする品質障害における発生傾向把握および原因切り分けシステム。
  4. 発生傾向把握および原因切り分けシステムによりタイムテーブルを生成するタイムテーブル生成方法において、
    タイムテーブル生成部は、負荷情報テーブルおよびイベントテーブルへの接続を確立し、
    ユーザにより入力された生成期間および生成期間の周期から、生成期間の全対象日数を計算し、
    優先業務・イベント名のヒット率、優先プロセス名のヒット率、CPU使用率のヒット率、メモリ使用率のヒット率の順序で各々を計算し、
    前記負荷情報テーブルおよびイベントテーブルへの接続を切断した後に、タイムテーブルの生成処理を行うことを特徴とするタイムテーブル生成方法。
  5. 発生傾向把握および原因切り分けシステムにより負荷情報を収集するサーバ負荷情報収集方法において、
    サーバ負荷情報収集部は、スケジューラソフトを利用して、ある一定間隔で繰り返し実行することにより、まず、現在時刻を出力するOSコマンドを実行して、処理開始時刻を取得して、該時刻をメモリに格納し、
    負荷情報を出力するOSコマンドを実行して、CPU使用率、メモリ使用率および占有率の高いプロセス上位数種類を前記メモリに格納し、
    負荷情報テーブルへの接続を確立した後、前記メモリに格納された情報を該負荷情報テーブルに登録することを特徴とするサーバ負荷情報収集方法。
  6. 発生傾向把握および原因切り分けシステムにより業務・イベント情報を登録する業務・イベント情報登録方法において、
    業務・イベント情報登録部は、イベントテーブルへの接続を確立した後、業務・イベント情報入力画面からユーザが入力した業務イベント名、実施期間の開始日および終了日、実施周期、実施開始時刻および終了時刻、対象フラグの各情報を前記イベントテーブルに書き込むことを特徴とする業務・イベント情報登録方法。
  7. 発生傾向把握および原因切り分けシステムによりタイムテーブルを確認するタイムテーブル詳細確認方法において、
    タイムテーブル詳細確認部は、負荷情報テーブルへの接続を確立した後、前記負荷情報テーブルの取得日時列に対して、対象日欄および対象時刻欄と合致するCPU使用率、メモリ使用率、動作プロセスを含む情報があるか否かを検索し、その結果、取得した情報をメモリに格納することを特徴とするタイムテーブル詳細確認方法。
JP2007166328A 2007-06-25 2007-06-25 品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法 Expired - Fee Related JP4507260B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007166328A JP4507260B2 (ja) 2007-06-25 2007-06-25 品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007166328A JP4507260B2 (ja) 2007-06-25 2007-06-25 品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法

Publications (2)

Publication Number Publication Date
JP2009003856A true JP2009003856A (ja) 2009-01-08
JP4507260B2 JP4507260B2 (ja) 2010-07-21

Family

ID=40320148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007166328A Expired - Fee Related JP4507260B2 (ja) 2007-06-25 2007-06-25 品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法

Country Status (1)

Country Link
JP (1) JP4507260B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034208A (ja) * 2009-07-30 2011-02-17 Hitachi Ltd 異常検出方法、装置、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0471041A (ja) * 1990-07-11 1992-03-05 Nec Corp 性能評価用データ抽出装置
JPH06222963A (ja) * 1992-11-27 1994-08-12 Nec Corp 高負荷資源評価システム
JP2000235499A (ja) * 1999-02-15 2000-08-29 Fujitsu Ltd システム運用管理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0471041A (ja) * 1990-07-11 1992-03-05 Nec Corp 性能評価用データ抽出装置
JPH06222963A (ja) * 1992-11-27 1994-08-12 Nec Corp 高負荷資源評価システム
JP2000235499A (ja) * 1999-02-15 2000-08-29 Fujitsu Ltd システム運用管理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034208A (ja) * 2009-07-30 2011-02-17 Hitachi Ltd 異常検出方法、装置、及びプログラム

Also Published As

Publication number Publication date
JP4507260B2 (ja) 2010-07-21

Similar Documents

Publication Publication Date Title
US8151141B1 (en) Resolution of computer operations problems using fault trend analysis
JP6782778B2 (ja) データ処理方法及び装置
US8219548B2 (en) Data processing method and data analysis apparatus
CN108647357B (zh) 数据查询的方法及装置
JP2009181536A (ja) ソフトウェアの障害管理装置、テスト管理装置、ならびにそれらのプログラム
JP5223413B2 (ja) Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム
CN102576328A (zh) 系统操作管理装置、系统操作管理方法和程序存储介质
EP2648105B1 (en) Database performance analysis
JPH04218845A (ja) アプリケーション イベント収集方法
JP5614843B2 (ja) ソフトウェア設計・運用統合管理システム
JP2011076161A (ja) インシデント管理システム
US9727663B2 (en) Data store query prediction
JP5856906B2 (ja) 業務課題分析支援システム
JP2009181496A (ja) ジョブ処理システムおよびジョブ管理方法
JP6097666B2 (ja) ジョブ管理システム
JP2009110220A (ja) 監査ログ収集・評価システム、監査ログ収集・評価方法、および、収集・評価コンピュータ
JP4507260B2 (ja) 品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法
JP4865511B2 (ja) サービス管理装置
JP2001337846A (ja) ソフトウエア品質検査支援システム及び方法
JP6920235B2 (ja) 障害影響調査装置および障害影響調査方法
JP4810113B2 (ja) データベースチューニング装置及びデータベースチューニング方法並びにプログラム
CN112184173A (zh) 数据处理方法、装置及电子设备
WO2020070929A1 (ja) プラント機器情報管理システム
JP2011118575A (ja) 障害対策情報取得方法および管理サーバ
JP7227893B2 (ja) 品質評価装置および品質評価方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091009

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100423

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100423

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4507260

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140514

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees