JP2009003856A - 品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法 - Google Patents
品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法 Download PDFInfo
- Publication number
- JP2009003856A JP2009003856A JP2007166328A JP2007166328A JP2009003856A JP 2009003856 A JP2009003856 A JP 2009003856A JP 2007166328 A JP2007166328 A JP 2007166328A JP 2007166328 A JP2007166328 A JP 2007166328A JP 2009003856 A JP2009003856 A JP 2009003856A
- Authority
- JP
- Japan
- Prior art keywords
- time
- load information
- event
- information
- business
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
【解決手段】複数クライアントPC101がネットワーク102を介して接続された対象サーバ103内に、サーバ負荷情報を定期的に取得するサーバ負荷情報収集部S101と、サーバに対して行われた設定・イベント情報を登録する業務/イベント情報登録部S102と、負荷情報および設定・イベント情報からユーザ(管理者など)が指定した条件に従って発生傾向を導出するタイムテーブル生成部S103と、画面上に表示されたタイムテーブルに対応した各時刻のサーバ負荷情報を確認できるタイムテーブル詳細確認部S104と、負荷情報テーブル106と、イベントテーブル107と、タイムテーブルファイル108とを備える。
【選択図】図1
Description
すなわち、通常時には、必要最小限の稼動情報項目について収集しておき、異常と判断した場合には、その稼動情報項目に対応して予め関連付けられている項目について稼動情報を追加収集するシステムである。例えば、特開平8−65302号公報(特許文献1参照)に記載のネットワーク稼動情報収集システムにおいては、限定項目に対応して各ネットワークの構成要素の稼動情報を収集する稼動情報収集部と、この稼動情報収集部で収集した稼動情報に基づいて、各構成要素の稼動状況の正常または異常を限定項目別に判定するとともに、異常状態と判定したときには、異常状態の限定項目に関連する関連項目を抽出する稼動情報解析部とを設けている。
しかし、上記の作業では大量のデータを取り扱うため、収集した情報の管理が煩雑であり、なおかつ、サーバ上で動作しているシステムに精通している者でないと、切り分けが極めて難かしい。収集方法については、上記のような幾つかのシステムも提案され、解決が図られているが、従来の技術では以下のような問題点があった。
本発明の目的は、品質障害に対して、負荷情報と設定・イベント情報を関連させた障害発生傾向を確認できる機能を持たせることにより、管理者の原因切り分け作業を容易にすることが可能な品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法を提供することである。
図1は、本発明の一実施例に係る原因切り分けシステムの全体構成図である。
本実施例に係る原因切り分けシステムは、複数のクライアントPC101にインターネット102を介して接続された対象サーバ103があり、このサーバ103に原因切り分けシステム104が設置される。原因切り分けシステム104には、サーバ負荷情報収集部S101、業務/イベント情報登録部S102、タイムテーブル生成部S103、および、タイムテーブル詳細確認部S104の各ソフトウェア記憶部が設けられる。その他に、ハードウェアとして、負荷情報テーブル106、イベントテーブル107およびタイムテーブルファイル108が設けられる。なお、図において、破線は入力情報、太線(実線)は出力情報である。
業務/イベント情報登録部S102によりイベントテーブル107に登録するためには、管理者等により図2に示す画面から入力する必要がある。
業務イベント名201、実施期間202〜203を入力するとともに、実施周期(毎日204、毎週206、曜日207、毎月〜日208、1回のみ209のいずれかを入力し、実施時刻210〜211および反映対象としての反映212または無視213のいずれかを入力する。そして、入力後に登録214をクリックするか、または誤りなどの場合にはキャンセル215をクリックする。
タイムテーブル生成部S103により生成したテーブルをタイムテーブルファイル108に記憶するためには、図3に示す画面から入力する必要がある。
生成期間301〜302を入力するとともに、生成期間の周期として、毎日303、毎週304の〜曜日305、毎月306の〜日307のうちのいずれかを入力する。次に、優先業務・イベント名308、優先プロセス名310、CPU使用率312〜313(%)、メモリ使用率315〜316(%)、検査対象とするヒット率318(%)を入力した後、これらの比重(優先業務・イベント名、優先プロセス名、CPU使用率、メモリ使用率の各%)を入力し、最後に生成319をクリックするか、または、誤り等があればキャンセル320をクリックする。
業務/イベント情報登録部S102から登録されたイベント情報は、イベントテーブル107に書き込まれることにより、登録される。
このテーブル107には、業務イベント名ごとの番号、業務イベント名、開始日、終了日、周期、開始時刻、終了時刻、対象フラグ(反映、無視)が登録される。
タイムテーブル生成部S103により生成されたタイムテーブルは、CSV形式のタイムテーブルファイル108に集められる。
このテーブルには、何時何分(0:00.〜23:50.)で示す時刻と、1(有効)か0(無効)かのフラグが記録される。
(サーバ負荷情報収集部)
図9は、図1におけるサーバ負荷情報収集部S101の処理動作を示すフローチャートである。
サーバ負荷情報収集部S101は、スケジューラソフト(タスクジューラ、JP1/AJS2など)を利用し、ある一定間隔で繰り返し実行されるものとする。実行間隔は任意の間隔で構わないが、実行間隔が短いほど精度が上がるため短くした方がよい。本例においては、実行間隔を10分に設定する。
まず、現在時刻を出力するOSコマンドを実行して処理開始時刻を取得し、時刻を変数A1に格納する(901)。次に、負荷情報を出力するOSコマンド(例えばvmstat,topなど)を実行し、CPU使用率、メモリ使用率および占有率の高いプロセス上位5種を変数A2に格納する。なお、占有率の高いプロセス上位については、本例においては5種としたが、任意の数で構わない(902)。
続いて、負荷情報テーブル106への接続を確立し(903)、ステップ(901)で取得した変数A1およびステップ902で取得した変数A2を負荷情報テーブルに登録する(904)。
最後に、負荷情報テーブルへの接続を切断し(905)、処理を終了する。
図10は、業務/イベント情報登録部S102の処理動作を示すフローチャートである。
業務/イベント情報登録部S102は、ユーザ(管理者など)のPC101から図2の業務/イベント情報入力ツールを使用して行われ、ツールの登録ボタン213がクリックされると処理が起動する。業務/イベント情報登録はユーザが必要と判断したタイミング(業務イベントが実施された際など)で随時行う処理のため、業務/イベント情報登録部S102は不定期の処理となる。
次に、業務/イベント情報入力ツールにてユーザが入力した以下の情報をイベントテーブル107へ登録する(1002)。ユーザが入力した情報とは、図7に示すように、業務イベント名、実施期間の開始日および終了日、実施周期、実施開始時刻および終了時刻、対象フラグである。例えば、『2006年11月1日から2007年1月3日まで毎週水曜日10:00〜12:00の間で伝票登録が実施され、タイムテーブル生成の際に反映したい情報』となる場合には、イベントテーブルにはそれぞれ『伝票登録』、『2006/11/1』、『2007/1/3』、『月』、『10:00』、『12:00』、『反映』が限納される。なお、図2の実施期間の終了203が空欄で、終了日が定まっていない場合には、終了日に『−』を格納する。
最後に、イベントテーブルへの接続を切断し(1003)、処理を終了する。
図11は、図1におけるタイムテーブル生成部の処理動作を示すフローチャートである。
タイムテーブル生成部S103は、ユーザのPC101から図3に示すタイムテーブル生成ツールを使用して行われ、ツールの生成ボタン312がクリックされると、処理が起動する。タイムテーブル生成は、ユーザがタイムテーブルを必要と判断したタイミングで随時行う処理のため、タイムテーブル生成部S103は不定期の処理となる。
続いて、処理前の準備として、ステップ1104以降の処理結果を格納するためのタイムテーブル用配列を定義する。一例で言うと、1日(24時間)をサーバ情報負荷収集部S101の起動間隔で除した値分、すなわち1440(分)÷10(分)=144個格納できる配列を生成する。なお、1440は24時間を分で表わした値である。
以降では、この配列をTIMECOLと呼び、配列のN番目をTIMECOL〔N〕で表す。なお、この先、本配列は各時刻におけるヒット率を格納するために利用し、TIMECOL〔1〕は0:00におけるヒット率、TIMECOL〔2〕は0:10におけるヒット率、・・・、TIMECOL〔144〕は23:50におけるヒット率というように各時刻に対応する。
サーバ負荷情報収集部S101により収集された負荷情報は、負荷情報テーブルに書き込まれる。
図6に示す例では、12月6日0:00と12月13日0:00の2件が『A.exe』を含んでいるので、ヒット数は2となり、変数c3に2を格納する。続いて、以下の式に基づいてヒット率を求める(1113)。ここで、ヒット率を求める計算式は『ヒット率=(C3(ヒット件数)÷C1(全対象日数)×(比重(311)÷100)』である。ステップ1113で求めたヒット率の値を元々配列TIMECOL〔CT〕に格納されていた値に加えて格納する(1114)。以上のステップ1112から1114の処理をタイムテーブル用配列の数だけ処理を繰り返す。本例では、サーバ情報負荷収集部の起動間隔が10分であるため、CTが1から144になるまで計144回処理を繰り返す(ループB)。
例えば、CT=1の場合で、条件判断がTRUEの場合には、『0:00,1(改行コード)』をタイムテーブルファイルに出力する。これらステップ1130からステップ1133までの処理は、CTをカウントアップして各時刻において行う。本例では、サーバ情報負荷収集部の起動間隔が10分であるため、CTが1から144になるまで処理を繰り返す。
図11におけるステップ1133でタイムテーブルファイルに出力し、ループEを終了した後(1134)、図4のタイムテーブル画面を呼び出す(1135)。
その後、以下のようにして、画面上にタイムテーブルの内容を表示させる。まず、条件6『RESULTCOL〔CT〕=1』によって、該当時間が検査対象となっているかを確認する(1136)。FALSEであった場合には(ステップ1137)、図4の枠401において、該当時刻に対応する箇所の色を変更する。例えば、CT=1の場合で、条件判断がTRUEの場合には、0:00に該当する左から1番目(CT番目)の枠の色を変更する(1138)。
これらのステップ1136からステップ1137までの処理はCTをカウントアップし、各時刻において行う。本例では、サーバ情報負荷収集部の起動間隔が10分であるため、CTが1から144になるまで、計144回処理を繰り返す。これで、ループEは終了となる(1139)。
図12は、タイムテーブル詳細確認部(S104)の処理動作を示すフローチャートである。また、図5は、詳細確認画面の画面例を示す図である。
タイムテーブル詳細確認部は、図4のタイムテーブル画面において、時刻枠401をクリックした際に表示される画面である図5において、確認ボタン511がクリックされると、処理が起動する。なお、図5の初期画面では、対象日欄501に昨日の日付、対象時刻欄502には図4の時刻枠401に対応する時刻が、画面起動とともに入力される。例えば、2007年1月16日に、図4において、時刻枠401の上段左から2つ目の枠をクリックして、図5を表示させた場合、対象日欄501には、『2007/01/15』
対象時刻欄502には、『0:10』が入力された状態で、図5が表示される。
次に、負荷情報テーブル106の取得日時列において、対象日欄501および対象時刻欄502と合致する情報があるかを検索し、取得した情報を変数D1に格納する(1202)。ここで、取得した情報とは、CPU使用率、メモリ使用率、動作プロセス#1、動作プロセス#2、動作プロセス#3、動作プロセス#4、動作プロセス#5である。
最後に、負荷情報テーブルへの接続を切断し(1203)、ステップ1202で取得した変数D1の情報を図5上の対応欄503〜510に出力させて(1204)、処理を終了する。
102 ネットワーク
103 対象サーバ
104 負荷傾向把握システム
105 データベース
106 負荷情報テーブル
107 イベントテーブル
108 タイムテーブルファイル(CSV形式ファイル)
S101 サーバ負荷情報収集部(プログラム)
S102 業務/イベント情報登録部(プログラム)
S103 タイムテーブル生成部(プログラム)
S104 タイムテーブル詳細確認部(プログラム)
Claims (7)
- サーバ管理業務におけるCPU使用率、メモリ使用率の増加を含む品質障害の原因切り分けを行う発生傾向把握および原因切り分けシステムにおいて、
対象となるサーバの負荷情報をデータベースに登録するサーバ負荷情報収集部と、
該サーバに負荷を与える可能性のある業務名およびメンテナンス作業名および作業開始・終了時刻をデータベースに登録する業務・イベント情報登録部と、
前記負荷の情報および業務・イベント情報より品質障害の発生傾向を表すタイムテーブルを生成するタイムテーブル生成部とを備えることを特徴とする品質障害における発生傾向把握および原因切り分けシステム。 - 請求項1に記載の品質障害における発生傾向把握および原因切り分けシステムにおいて、
前記データベースは、負荷情報テーブルとイベントテーブルとタイムテーブルであることを特徴とする品質障害における発生傾向把握および原因切り分けシステム。 - 請求項1に記載の品質障害における発生傾向把握および原因切り分けシステムにおいて、
前記各処理部およびデータベースに加えて、負荷情報テーブルの取得日時列において、対象日欄および対象時刻欄と合致する情報があるか否かを検索し、取得するためのタイムテーブル詳細確認部を備えることを特徴とする品質障害における発生傾向把握および原因切り分けシステム。 - 発生傾向把握および原因切り分けシステムによりタイムテーブルを生成するタイムテーブル生成方法において、
タイムテーブル生成部は、負荷情報テーブルおよびイベントテーブルへの接続を確立し、
ユーザにより入力された生成期間および生成期間の周期から、生成期間の全対象日数を計算し、
優先業務・イベント名のヒット率、優先プロセス名のヒット率、CPU使用率のヒット率、メモリ使用率のヒット率の順序で各々を計算し、
前記負荷情報テーブルおよびイベントテーブルへの接続を切断した後に、タイムテーブルの生成処理を行うことを特徴とするタイムテーブル生成方法。 - 発生傾向把握および原因切り分けシステムにより負荷情報を収集するサーバ負荷情報収集方法において、
サーバ負荷情報収集部は、スケジューラソフトを利用して、ある一定間隔で繰り返し実行することにより、まず、現在時刻を出力するOSコマンドを実行して、処理開始時刻を取得して、該時刻をメモリに格納し、
負荷情報を出力するOSコマンドを実行して、CPU使用率、メモリ使用率および占有率の高いプロセス上位数種類を前記メモリに格納し、
負荷情報テーブルへの接続を確立した後、前記メモリに格納された情報を該負荷情報テーブルに登録することを特徴とするサーバ負荷情報収集方法。 - 発生傾向把握および原因切り分けシステムにより業務・イベント情報を登録する業務・イベント情報登録方法において、
業務・イベント情報登録部は、イベントテーブルへの接続を確立した後、業務・イベント情報入力画面からユーザが入力した業務イベント名、実施期間の開始日および終了日、実施周期、実施開始時刻および終了時刻、対象フラグの各情報を前記イベントテーブルに書き込むことを特徴とする業務・イベント情報登録方法。 - 発生傾向把握および原因切り分けシステムによりタイムテーブルを確認するタイムテーブル詳細確認方法において、
タイムテーブル詳細確認部は、負荷情報テーブルへの接続を確立した後、前記負荷情報テーブルの取得日時列に対して、対象日欄および対象時刻欄と合致するCPU使用率、メモリ使用率、動作プロセスを含む情報があるか否かを検索し、その結果、取得した情報をメモリに格納することを特徴とするタイムテーブル詳細確認方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007166328A JP4507260B2 (ja) | 2007-06-25 | 2007-06-25 | 品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007166328A JP4507260B2 (ja) | 2007-06-25 | 2007-06-25 | 品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009003856A true JP2009003856A (ja) | 2009-01-08 |
JP4507260B2 JP4507260B2 (ja) | 2010-07-21 |
Family
ID=40320148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007166328A Expired - Fee Related JP4507260B2 (ja) | 2007-06-25 | 2007-06-25 | 品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4507260B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011034208A (ja) * | 2009-07-30 | 2011-02-17 | Hitachi Ltd | 異常検出方法、装置、及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0471041A (ja) * | 1990-07-11 | 1992-03-05 | Nec Corp | 性能評価用データ抽出装置 |
JPH06222963A (ja) * | 1992-11-27 | 1994-08-12 | Nec Corp | 高負荷資源評価システム |
JP2000235499A (ja) * | 1999-02-15 | 2000-08-29 | Fujitsu Ltd | システム運用管理装置 |
-
2007
- 2007-06-25 JP JP2007166328A patent/JP4507260B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0471041A (ja) * | 1990-07-11 | 1992-03-05 | Nec Corp | 性能評価用データ抽出装置 |
JPH06222963A (ja) * | 1992-11-27 | 1994-08-12 | Nec Corp | 高負荷資源評価システム |
JP2000235499A (ja) * | 1999-02-15 | 2000-08-29 | Fujitsu Ltd | システム運用管理装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011034208A (ja) * | 2009-07-30 | 2011-02-17 | Hitachi Ltd | 異常検出方法、装置、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4507260B2 (ja) | 2010-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8151141B1 (en) | Resolution of computer operations problems using fault trend analysis | |
JP6782778B2 (ja) | データ処理方法及び装置 | |
US8219548B2 (en) | Data processing method and data analysis apparatus | |
CN108647357B (zh) | 数据查询的方法及装置 | |
JP2009181536A (ja) | ソフトウェアの障害管理装置、テスト管理装置、ならびにそれらのプログラム | |
JP5223413B2 (ja) | Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム | |
CN102576328A (zh) | 系统操作管理装置、系统操作管理方法和程序存储介质 | |
EP2648105B1 (en) | Database performance analysis | |
JPH04218845A (ja) | アプリケーション イベント収集方法 | |
JP5614843B2 (ja) | ソフトウェア設計・運用統合管理システム | |
JP2011076161A (ja) | インシデント管理システム | |
US9727663B2 (en) | Data store query prediction | |
JP5856906B2 (ja) | 業務課題分析支援システム | |
JP2009181496A (ja) | ジョブ処理システムおよびジョブ管理方法 | |
JP6097666B2 (ja) | ジョブ管理システム | |
JP2009110220A (ja) | 監査ログ収集・評価システム、監査ログ収集・評価方法、および、収集・評価コンピュータ | |
JP4507260B2 (ja) | 品質障害における発生傾向把握および原因切り分けシステム、ならびにその方法 | |
JP4865511B2 (ja) | サービス管理装置 | |
JP2001337846A (ja) | ソフトウエア品質検査支援システム及び方法 | |
JP6920235B2 (ja) | 障害影響調査装置および障害影響調査方法 | |
JP4810113B2 (ja) | データベースチューニング装置及びデータベースチューニング方法並びにプログラム | |
CN112184173A (zh) | 数据处理方法、装置及电子设备 | |
WO2020070929A1 (ja) | プラント機器情報管理システム | |
JP2011118575A (ja) | 障害対策情報取得方法および管理サーバ | |
JP7227893B2 (ja) | 品質評価装置および品質評価方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090918 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091009 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100423 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100423 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4507260 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140514 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |