JP2004348640A - Method and system for managing network - Google Patents

Method and system for managing network Download PDF

Info

Publication number
JP2004348640A
JP2004348640A JP2003147663A JP2003147663A JP2004348640A JP 2004348640 A JP2004348640 A JP 2004348640A JP 2003147663 A JP2003147663 A JP 2003147663A JP 2003147663 A JP2003147663 A JP 2003147663A JP 2004348640 A JP2004348640 A JP 2004348640A
Authority
JP
Japan
Prior art keywords
information
operation information
status
monitored machine
monitored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003147663A
Other languages
Japanese (ja)
Inventor
Hajime Hirose
肇 広瀬
Original Assignee
Hitachi Ltd
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, 株式会社日立製作所 filed Critical Hitachi Ltd
Priority to JP2003147663A priority Critical patent/JP2004348640A/en
Publication of JP2004348640A publication Critical patent/JP2004348640A/en
Application status is Pending legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a system for managing a network which enables a user to accurately identify a cause of trouble without having enough operating information. <P>SOLUTION: The system for managing the network comprises acquisition units 121, 131, and 141 for acquiring the operating information of each monitored machine 150, 160, 170, and 180; a database 108 for storing the operating information which stores the operating information acquired by the acquisition units for each monitored machine; a status database 109 that stores the information of a status for each monitored machine classified by each monitored computer to represent whether the operating information is lost for each monitored machine; and a unit 101 for analyzing the operating information which identifies a particular machine as a candidate for being monitored due to a cause to change the utilization of the machine, and displays an identified result by using a correlation analysis on the basis of the status information stored in the status database and the information of the utilization of the monitored machine stored in a machine utilization database. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】 [0001]
【発明の属する技術分野】 BACKGROUND OF THE INVENTION
本発明はネットワーク管理システム及びネットワーク管理方法にかかり、特にコンピュータネットワークに発生したトラブルの原因を特定することのできるネットワーク管理システム及びネットワーク管理方法に関する。 The present invention relates to a network management system and network management method, a network management system and network management method that can particularly identify the cause of the trouble occurred in a computer network.
【0002】 [0002]
【従来の技術】 BACKGROUND OF THE INVENTION
近年、インターネット上で構築されているWebシステム等の安定運用が切望されている。 In recent years, stable operation of the Web system or the like which are built on top of the Internet has been coveted. Webシステム等を構成するコンピュータネットワークシステムは、通常複数のネットワーク機器で構成されており、例えば特許文献1に示されるように、種々の専用ソフトウェアを用いて稼動情報等を取得することによりその状態を監視している。 Computer network system comprising a Web system or the like is constituted by a normal multiple network devices, such as shown in Patent Document 1, its state by acquiring the operation information or the like using a variety of dedicated software We are monitoring. 例えば、Webページのレスポンスが低下した場合においては、管理者は、その原因を前記稼働情報をもとに手作業で調べている。 For example, in the case where the response of the Web page is reduced, the administrator, are investigating manually the cause on the basis of the operation information.
【0003】 [0003]
また、特許文献2には、マルチメディアネットワークにおいて、標準的に取得可能なトラヒック情報を用い、運用サーバへの負荷等の影響を最小限に抑えて、特定サーバが提示する特定アプリケーションの性能劣化要因を分析可能にすることが示されている。 Patent Document 2, in a multimedia network, using a standard manner obtainable traffic information, with minimal impact load or the like into a production server, performance deterioration factors of the particular application which a particular server presents It has been shown to allow analyze.
【0004】 [0004]
また、特許文献3には、管理対象となるシステムの構成要素間の関係について、稼働情報をもとに定量化することにより、性能のボトルネックや障害の原因となる構成要素を絞り込み、原因の特定を早期に実現できるようにしたものが示されている。 Further, Patent Document 3, the relationship between the components of the managed system, by quantifying on the basis of operation information, refine the components causing bottlenecks or failure in performance, caused that to be able to achieve a particular early is shown.
【0005】 [0005]
【特許文献1】 [Patent Document 1]
特開2001−144761号公報【0006】 Japanese Unexamined Patent Publication No. 2001-144761 Publication [0006]
【特許文献2】 [Patent Document 2]
特開2001−195285号公報【0007】 Japanese Unexamined Patent Publication No. 2001-195285 Publication [0007]
【特許文献3】 [Patent Document 3]
特開2002−342182号公報【0008】 Japanese Unexamined Patent Publication No. 2002-342182 Publication [0008]
【発明が解決しようとする課題】 [Problems that the Invention is to Solve
前記特許文献1の方法によれば、Webページのレスポンスが低下するというようなトラブルが発生した場合には、あらかじめ蓄積していた多数のネットワーク機器の稼動情報から、問題の根本原因となっている可能性のあるものを、手作業で調査しなければならない。 According to the method of the Patent Document 1, if a trouble such as that the response of the Web page is reduced occurs is the operation information of the number of network devices that has been previously stored, a root cause of the problem possible things, must be investigated by hand. このような作業は熟練したネットワーク管理者でないと困難な作業である。 Such work is a difficult task and not a skilled network administrator.
【0009】 [0009]
また、特許文献2,3に示す方法では、取得する稼働情報等の情報に欠損が存在する場合前記トラブルの原因を正確に特定することは困難である。 In the method shown in Patent Documents 2 and 3, it is difficult to accurately identify the cause when the trouble deficient in information such as operation information to get there.
【0010】 [0010]
本発明はこれらの問題点に鑑みてなされたもので、稼働情報に欠損がある場合においてもトラブルの原因を正確に特定することのできるネットワーク管理システム及びネットワーク管理方法を提供する。 The present invention has been made in view of these problems, to provide a network management system and network management method that can accurately identify the cause of the trouble even when there is a defect in the operation information.
【0011】 [0011]
【課題を解決するための手段】 In order to solve the problems]
本発明は、上記の課題を解決するために次のような手段を採用した。 The present invention adopts the following means to solve the above problems.
【0012】 [0012]
各被監視マシンの稼働情報を取得する稼働情報取得部と、前記可動情報取得部が取得した被監視マシンの稼働情報を各被監視マシン毎に格納する稼働情報データベースと、各被監視マシン毎の稼働情報の欠損の有無を表すステータス情報を各監視対象計算機毎に格納するステータスデータベースと、前記稼働情報データベースに格納した被監視マシンの稼働情報及びステータスデータベースに格納したステータス情報をもとに特定の被監視マシンの稼働率変化の原因となる被監視マシンの候補を相関分析により特定して表示する稼働情報分析部を備えた。 And operation information obtaining unit that acquires operation information of each monitored machine, and operation information database for storing operating information of the monitored machine movable information acquiring unit acquires each of the monitored machine, for each monitored machine and status database for storing status information indicating the presence or absence of defects in the operation information for each monitoring target computer, the operating information monitored machines stored in the database operation information specific to the basis of the status information stored and the status database with the operation information analysis unit for displaying identify a candidate correlation analysis of the monitored machine causing uptime change the monitored machine.
【0013】 [0013]
【発明の実施の形態】 DETAILED DESCRIPTION OF THE INVENTION
以下、本発明の実施形態を添付図面を参照しながら説明する。 It will be described below with reference to the accompanying drawings embodiments of the present invention. 図1は、本発明の実施形態にかかるネットワーク管理システムを説明する図である。 Figure 1 is a diagram illustrating a network management system according to an embodiment of the present invention. 稼動情報分析計算機100は稼動情報採取計算機120が取得した稼動情報(CPU利用率、メモリ利用率、Webページ応答時間等)を取得し、取得した稼動情報をもとに相関分析等を実施し、コンピュータシステムのトラブル(問題)の原因を探索する。 Operation information analysis computer 100 operating operation information Information collected computer 120 has obtained (CPU utilization, memory utilization, Web page response time, etc.) to get the, conducted correlation analysis or the like based on the acquired operation information, to explore the cause of the trouble of the computer system (problem).
【0014】 [0014]
稼動情報分析計算機100は、分析部101、稼動情報収集部105、画面表示部107、稼動情報データベース108、ステータスデータベース109を備える。 Operation information analysis computer 100 comprises analyzing unit 101, the operation information collecting unit 105, the screen display unit 107, operation information database 108, the status database 109. 分析部101は、実際に分析を実施する部署であり、相関分析部102、危険度計算部103、原因度計算部104を備える。 Analysis unit 101 is a department that carried actual analysis comprises a correlation analysis unit 102, the risk calculator 103, causes calculator 104. 稼動情報収集部105は、稼動情報採取計算機120から定期的に稼動情報を取得する。 Operation information acquisition unit 105 acquires a regular operation information from the operation information collection computer 120. また、前記稼動情報が取得できない場合には、その旨を表すステータスを生成するステータス生成部106を備える。 Further, when the operation information can not be acquired includes a status generation unit 106 for generating a status representing the fact.
【0015】 [0015]
画面表示部107は、分析対象の選択、分析結果の表示及び分析範囲の絞込み等の各種処理に対応した表示を行う。 Screen display unit 107, the selection being analyzed, a display corresponding to various processes, such as narrowing of the display and analysis range of analysis performed. 稼動情報データベース108は、稼動情報採取計算機120から定期的に取得した稼動情報を記憶しておく記憶手段である。 Operation information database 108 is a storage unit from the operation information collection computer 120 stores the regularly acquired operation information. ステータスデータベース109は、稼動情報採取計算機120から抽出した稼動情報に一部欠損があった場合に生成するステータス情報を記憶しておく記憶手段である。 Status database 109 is a storage means for storing the status information generated when there is some defect in the extracted operation information from the operation information collection computer 120. なお、稼動情報分析計算機100は任意の数の稼動情報採取計算機120から稼動情報を取得することが可能である。 Incidentally, the operation information analysis computer 100 can obtain the operation information from the operation information collection computer 120 any number.
【0016】 [0016]
また、稼動情報採取計算機120は、コンピュータネットワーク上で実際に監視対象となる被監視マシン150の稼動情報を採取し、採取した稼動情報分析計算機100からの稼動情報取得要求に答えて、稼動情報を送信する機能を持つ。 Further, operation information collection computer 120, the operation information of the monitored machine 150 actually be monitored over a computer network was taken, in answer to the operation information obtaining request from the collected operation information analysis computer 100, the operation information with the ability to send. また、稼動情報採取計算機120は、稼動情報取得部121、稼動情報採取ツール122を備える。 Further, operation information collection computer 120 includes the operation information obtaining unit 121, the operation information collection tool 122. 稼動情報取得部121は、稼動情報採取ツール122が採取した稼動情報を取得し、稼動情報分析計算機に送信する。 The operation information obtaining unit 121 obtains the operation information operation information collection tool 122 is taken, and transmits the operation information analysis computer. 稼動情報採取ツール122は一般的な市販のネットワーク管理ツールであり、複数の被監視マシン150から稼動情報を採取する。 Operation information collection tool 122 is a common commercial network management tools to collect operating information from a plurality of monitored machines 150.
【0017】 [0017]
被監視マシン150はコンピュータネットワークを構成するネットワーク機器であり、一般的にはルータ、ハブ、スイッチ、ワークステーション、PC等が該当する。 The monitored machine 150 is a network device to configure a computer network, in general routers, hubs, switches, workstations, PC or the like.
【0018】 [0018]
図2は、本発明のネットワーク管理システムを適用するコンピュータネットワークの例を示す図である。 Figure 2 is a diagram illustrating an example of a computer network for applying network management system of the present invention. この例では、Webショッピングモール等を実施する場合に構築される典型的なWebシステムの例である。 In this example, an example of a typical Web system constructed when implementing a Web shopping malls and the like.
【0019】 [0019]
図に示すように、ネットワーク(WAN)210を挟んで、クライアントPC220とWebシステム220を構成する。 As shown, across a network (WAN) 210, configure the client PC220 and Web system 220. Webシステム200は、ファイヤウオール201、ルータ202、Webサーバ203、AP(アプリケーション)サーバ204、205、及びDB(データベース)サーバ206、207、208等のネットワーク機器で構成する。 Web system 200, fire wall 201, the router 202, Web server 203, AP (application) servers 204 and 205, and constitutes a network equipment such as DB (database) server 206, 207, 208.
【0020】 [0020]
各ネットワーク機器の稼動情報は一般的には複数のネットワーク管理アプリケーションによって採取する。 Operation information of the network devices are generally taken by a plurality of network management applications. 図の例の場合では、ネットワーク管理アプリケーションが設置されているマシン(ルータ202,サーバ204等)が稼動情報採取計算機120となる。 In the example shown, the machine to a network management application is installed (the router 202, the server 204, etc.) is operation information collection computer 120.
【0021】 [0021]
図3は、ステータス生成処理を説明する図である。 Figure 3 is a diagram for explaining a status generation process. ステータスは相関分析の欠点を補うために導入した手段であり、相関分析は、二つの異なる稼動情報を比較しその時系列データに相関性があるか(因果関係があるか)を調べる統計学的手法である。 Status is a means introduced to compensate for disadvantages of correlation analysis, statistical methods correlation analysis, to examine whether there is a correlation to the time-series data to compare the two different operating information (or causal) it is.
【0022】 [0022]
相関分析は、その対象とするデータの一部に欠損がある場合には正確な相関分析を行うことができない。 Correlation analysis can not perform accurate correlation analysis if there is defect in a part of the data to its target. ネットワークを構成するネットワーク機器が、トラブルの発生により一時的に停止した場合、停止期間中には稼動情報が採取されなくなる。 Network devices constituting the network, when temporarily stopped by the occurrence of trouble, the operation information is not collected during the suspension period. この場合、一時停止した前記ネットワーク機器あるいはサーバはネットワークのトラブルの原因である可能性が高いにもかかわらず相関分析の対象とすることができない。 In this case, the network device or server pauses can not be the cause of the trouble of the network as a target of high spite correlation analysis.
【0023】 [0023]
本発明ではこの問題を解決するためにステータスという概念を導入している。 The present invention introduces the concept of status in order to solve this problem. ステータスは、稼動情報が採取できている期間には例えば「1」、稼動情報が採取できていない期間には例えば「0」を割り当て、全てのネットワーク機器に対してステータスを稼動情報とは別個に割り当てて蓄積しておく。 Status, the period in which the operation information is be able to be collected, for example, "1", the assignment is, for example, a "0" in the period in which the operation information has not been collected, separately from the status and operation information for all of the network equipment assignment and keep accumulating. そして、相関分析を行う際には、前記稼働情報の外にステータスを参照して行う。 When performing the correlation analysis is performed with reference to the status outside the operation information. これにより、稼動情報が採取できなかったネットワーク機器(トラブルにより停止したネットワーク機器)に対しては、稼働情報に代えてステータスを参照することにより相関分析を実施することが可能となる。 Thus, for the network device operation information could not be collected (network device was stopped by trouble), it is possible to carry out correlation analysis by referring to the status instead of the operation information.
【0024】 [0024]
ステータス生成処理は、稼動情報分析計算機100の稼動情報収集部105のステータス生成部106で行われる。 Status generation processing is executed by the status generator 106 of the operation information collecting unit 105 of the operation information analysis computer 100. まず、ステップ300において、稼動情報収集部105は稼動情報採取計算機120の稼動情報取得部121から稼動情報を取得する。 First, in step 300, the operation information collecting unit 105 acquires operation information from the operation information obtaining unit 121 of the operation information collection computer 120. ステップ301において、採取した稼動情報を時系列に調査し、その時間帯で稼動情報が取得できているかどうかを判定する。 In step 301, to investigate the collected operation information in a time series, it is determined whether or not the operation information in the time zone has been acquired. 稼動情報が取得できていれば、ステップ302においてステータスを1としてステータスデータベース109に格納する。 If operation information if it can be acquired and stored in the status database 109 the status as 1 in step 302. 同時にステップ304において稼動情報自体を稼動情報データベース108に格納する。 Storing the operation information itself in the operation information database 108 in step 304 at the same time. 稼動情報が取得できていなければ、ステップ303においてステータスを0としてステータスデータベース109に格納する。 If operation information has not been acquired, and stores the status database 109 the status as 0 in step 303. この処理を収集した稼動情報がなくなるまで実施する。 The collected operation information this process is carried out until no.
【0025】 [0025]
図4は、ステータス情報のイメージを説明する図である。 Figure 4 is a diagram illustrating an image of the status information. ネットワーク機器あるいはサーバの停止などにより、情報に欠損がある稼働情報400を取得した場合、図3に示すステータス生成処理によりステータスを生成すると、ステータスデータ401が得られる。 Due stop of a network device or the server, when acquiring operation information 400 with missing information and to generate the status by the status generating process shown in FIG. 3, the status data 401 is obtained.
【0026】 [0026]
ステータスは、前述のように監視対象期間のうち、稼動情報が採取できている期間には「1」、稼動情報が採取できていない期間には「0」を割り当てる。 Status, out of the monitored period as described above, "1" in the period in which the operation information is able to collect, assign a "0" in the period in which the operation information has not been collected.
【0027】 [0027]
図に示すように、分析対象とするネットワーク機器等の稼動情報402の変化が、ネットワーク機器等の停止に影響されている場合、ステータスデータ401を用いて、ステータスデータ401と稼動情報402との相関等を分析することにより、稼動情報402の変化の原因を特定することができる。 As shown, the change of the operational information 402, such as a network device to be analyzed is, if it is affected by the stopping of the network devices such as, by using the status data 401, the correlation between the status data 401 and operation information 402 by analyzing the like, it is possible to identify the cause of the change of the operational information 402.
【0028】 [0028]
図5は、稼働率変化の原因となる被監視マシンの候補(原因候補)を相関分析により特定する処理を説明する図である。 Figure 5 is a diagram for explaining the process of identifying the correlation analysis candidates (cause candidate) of the monitored machine causing uptime change.
【0029】 [0029]
まず、ステップ500において、分析対象とする被監視マシンの稼動情報を選択し、分析の期間(時刻範囲)を決定する。 First, in step 500, selects the operation information of the monitored machine to be analyzed, to determine the duration of the analysis (time range). この作業はネットワーク管理者が行う。 This work is network administrator. 前述したように、Webシステムの場合、一般的にはWebページのレスポンス時間等が分析対象となる。 As described above, if the Web system, the response time of the Web page is analyzed in general. 次に、ステップ501において、原因候補として調査するネットワーク機器の範囲を決定する。 Next, in step 501, it determines the range of the network devices to investigate the cause candidate. この作業もネットワーク管理者が行う。 This work also network administrator. なお、確実に原因候補とならない要素はここで調査範囲から外しておく。 It should be noted, does not reliably cause candidate elements is left to remove from here in the survey range.
【0030】 [0030]
ステップ502以降は稼動情報分析計算機100により自動的に行う。 Step 502 thereafter automatically performs the operation information analysis computer 100. まず、ステップ502において原因候補として調査するネットワーク機器の稼動情報に対して、分析対象との相関分析を実施し、0から1の範囲の相関係数を計算する。 First, the operation information of the network devices to investigate the cause candidate in step 502, performing a correlation analysis of the analyte, calculating the correlation coefficient between 0 and 1. この相関係数は大きいほど、分析対象との相関が高いことを表す。 As this correlation coefficient is large, indicating a higher correlation with the analyte. 稼動情報に欠損がある場合には、ステップ503において、ステータスデータベースからステータス情報を取得し、分析対象の稼働率及びステータス情報をもとに相関分析を実施し、相関係数を計算する。 If there is a defect in the operation information, in step 503, to obtain the status information from the status database, the operating rate and the status information of the analyte conducted correlation analysis on the basis of calculating the correlation coefficient. ステップ504において、相関係数の上位幾つか(あらかじめ指定した値で、例えば10個)の稼動情報を、分析対象とした稼動情報に影響を与えた原因候補と決定する。 In step 504, (with pre-specified value, for example 10) upper several correlation coefficients the operation information to determine the cause candidate that influenced the analyte and the operating information.
【0031】 [0031]
図6は、原因候補の原因度の計算処理を説明する図である。 Figure 6 is a diagram for explaining the calculation processing of the cause of the cause candidate. まず、ステップ600において、図4で示す処理により原因候補となったネットワーク機器の稼動情報のしきい値を読み込む。 First, in step 600, it reads the threshold of the operational information of the network device that caused candidate by the processing shown in FIG. なお、しきい値はあらかじめネットワーク管理者が適切に設定しておく。 In addition, the threshold value is pre-network administrator is set properly. ステップ601で原因候補となったネットワーク機器の稼動情報が、分析対象となった期間でどれくらいの期間しきい値を超えていたかを計算し、0〜1の範囲の危険割合を算出する。 Operating information of the network device that caused candidate in step 601, whether or exceeded How long threshold period became analyzed calculated, to calculate the risk ratio in the range of 0-1. 例えば、1時間中の15分間、稼動情報がしきい値を超えていた場合、その稼動情報の危険割合は0.25とする。 For example, 15 minutes in 1 hour, when the operation information exceeds the threshold, the risk ratio of the operation information is set to 0.25. ステップ602において、相関係数と危険割合から原因度を計算する。 In step 602, it calculates the cause of danger ratio and correlation coefficient. 原因度は、((相関係数×α)+(危険割合×(100−α)))/ 100で計算し、0〜1の範囲とする。 Cause degree calculated by ((correlation coefficient × alpha) + (hazard ratio × (100-α))) / 100, in the range of 0-1. なお、αは重み付けの為の係数で0〜100の任意の値を指定可能である。 Incidentally, alpha can be any value between 0 and 100 by a factor for weighting. αを大きくすると、相関の高さを重要視し、αを小さくすると危険割合を重要視していることになる。 Increasing the alpha, the height of the correlation importance, will have been important risk ratio when reducing the alpha.
【0032】 [0032]
図7は、稼動情報データベース108の構成を説明する図である。 Figure 7 is a diagram illustrating the configuration of the operation information database 108. 稼動情報データベースは、各ネットワーク機器の稼動情報を所定時間毎に格納する。 Operation information database stores the operation information of the network devices at predetermined time intervals. 図に示すように、稼動情報として、Webページ応答時間、回線利用率、CPU利用率、キャッシュヒット率等を格納する。 As shown in the figure, as the operation information, Web page response time, and stores the line utilization, CPU utilization, the cache hit rate and the like. なお、稼動情報が取得できていない場合は、値が無い状態となっている。 It should be noted that, if the operation information has not been acquired, and has a value there is no state.
【0033】 [0033]
図8は、ステータスデータベース109の構成を説明する図である。 Figure 8 is a diagram for explaining the configuration of the status database 109. ステータスデータベースは、各ネットワーク機器のステータスを格納する。 Status database stores the status of each network device. ステータスは各ネットワーク機器毎に1つだけ存在し、一定の時間おきに0か1の値を格納する。 Status exists only one for each network device stores 0 or 1 value for a certain time interval.
【0034】 [0034]
図9は、分析結果一覧画面900のイメージ例を説明する図である。 Figure 9 is a diagram for explaining the image example of the analysis result list screen 900. 分析結果一覧画面900は、稼動情報分析計算機100の画面表示部107に表示する。 Analysis result list screen 900 is displayed on the screen display unit 107 of the operation information analysis computer 100. 分析結果一覧画面900は、分析時刻ビュー901、分析対象ビュー902、分析結果ビュー903、グラフ表示ボタン904を備える。 Analysis result list screen 900 includes an analysis time view 901, the analyte view 902, the analysis results view 903, the graph display button 904. 分析時刻ビュー901には、分析の対象範囲(期間)を時刻で表示する。 The analysis time view 901 displays scope of analysis (period) at the time. 分析対象ビュー903には分析対象として指定した稼動情報とその稼動情報を取得したネットワーク機器を表すマシン名を表示する。 The analyzed view 903 to display the machine name that represents the network equipment acquired the operation information and operation information that is specified as the analysis target. 分析結果ビュー903には、最終的な分析結果が表示されるが、原因候補として可能性が高いもの(原因度が大きいもの)から順にリスト表示される。 The analysis results view 903 is the final analysis result is displayed, they are listed in order of most likely cause candidates (those caused large degree). このリストの上位にある稼動情報が、分析対象としたWebページの応答時間が劣化したことの原因となるマシンの稼働情報である可能性が高いと考えらられる。 Operation information that is at the top of this list, the response time of the Web page that was analyzed is possibilities are considered to be high in an operating information of the machine on which the cause of it has deteriorated. 分析結果ビュー903には順位、原因候補名、原因度、相関係数、危険割合が表示される。 Ranking cause candidate name in the analysis results view 903, causes degree of correlation coefficients, risk ratio is displayed. グラフ表示ボタン904を押すと、分析結果グラフ画面が表示される。 Pressing the graph display button 904, the analysis result graph screen.
【0035】 [0035]
図10は、分析結果グラフ画面1000のイメージ例を説明する図である。 Figure 10 is a diagram for explaining the image example of the analysis result graph screen 1000. 分析結果グラフ画面1000は、分析結果一覧画面900のグラフ表示ボタン904を押すと、稼動情報分析計算機100の画面表示部107に表示される。 Analysis result graph screen 1000, press the graph display button 904 of the analysis result list screen 900 is displayed on the screen display unit 107 of the operation information analysis computer 100. 分析結果グラフ画面1000は、グラフビュー1001、グラフ要素ビュー1002、分析時刻ビュー1003を備える。 Analysis result graph screen 1000 includes graph view 1001, chart elements view 1002, the analysis time view 1003. グラフビュー1001は、分析対象および原因候補となった稼動情報のグラフを同時に表示する。 Graph view 1001 displays a graph of the operation information that is analyzed and the cause candidate simultaneously. グラフ要素ビュー1002は表示しているグラフのそれぞれがどの稼動情報のものであるかを表示する。 Chart elements view 1002 displays whether those of which operation information each graph being displayed. 分析時刻ビュー1003には、分析の対象範囲を時刻で表示する。 The analysis time view 1003 displays the scope of analysis at a time.
【0036】 [0036]
以上説明したように、本実施形態によれば、コンピュータシステムにトラブルが発生した場合に、稼働情報に欠損がある場合においてもトラブルの原因を正確に特定し、その原因となっている可能性のあるネットワーク機器をネットワーク管理者に示すことができる。 As described above, according to this embodiment, when a trouble occurs in a computer system, also accurately determine the cause of the trouble in the case where there is a defect in the operation information, the possibility that a the cause It may indicate a certain network device to the network administrator. これにより、ネットワーク管理者は問題点の一次切り分け、及び復旧処理を速やかに行うことができる。 Thus, network administrators isolate primary problems, and the recovery process can be performed quickly. なお、稼動情報分析計算機100及び稼動情報採取計算機120が備える明細書記載の各機能はソフトウエアにより実現することができる。 Each functional specification according to the operation information analysis computer 100 and operation information collecting computer 120 is provided may be realized by software.
【0037】 [0037]
また、前述のように監視対象期間を所定時間毎に分割し、各分割期間のうち、稼動情報が採取できている期間には「1」、稼動情報が採取できていない期間には「0」のステータスデータを割り当てたステータスデータを用いて相関分析を行う。 Also, the monitoring period as described above is divided every predetermined time, among the divided period, the period in which the operation information is made taking "1", the period during which the operation information has not been collected "0" perform correlation analysis using status data assigned the status data. このため、トラブルの発生により一時的に停止したネットワーク機器等(稼働率低下の原因である可能性が高い)を相関分析の対象とすることができる。 Therefore, it is possible to network devices such as temporarily stopping the generation of trouble (most likely the cause of underutilization) subject to the correlation analysis.
【0038】 [0038]
【発明の効果】 【Effect of the invention】
以上説明したように本発明によれば、稼働情報に欠損がある場合においてもトラブルの原因を正確に特定することのできるネットワーク管理システムを提供することができる。 According to the present invention described above, it is possible to provide a network management system that can accurately identify the cause of the trouble even when there is a defect in the operation information.
【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS
【図1】本発明の実施形態にかかるネットワーク管理システムを説明する図である。 1 is a diagram illustrating a network management system according to an embodiment of the present invention.
【図2】本発明のネットワーク管理システムを適用するコンピュータネットワークの例を示す図である。 Is a diagram illustrating an example of a computer network for applying network management system of the present invention; FIG.
【図3】ステータス生成処理を説明する図である。 3 is a diagram illustrating a status generation process.
【図4】ステータス情報のイメージを説明する図である。 FIG. 4 is a diagram illustrating an image of the status information.
【図5】稼働率変化の原因となる被監視マシンの候補を相関分析により特定する処理を説明する図である。 5 is a diagram for explaining the process of identifying the correlation analysis of the candidate of the monitored machine causing uptime change.
【図6】原因候補の原因度の計算処理を説明する図である。 6 is a diagram for explaining the calculation processing of the cause of the cause candidate.
【図7】稼動情報データベース108の構成を説明する図である。 7 is a diagram illustrating the configuration of the operation information database 108.
【図8】ステータスデータベース109の構成を説明する図である。 8 is a diagram illustrating the configuration of a status database 109.
【図9】分析結果一覧画面900のイメージ例を説明する図である。 9 is a diagram illustrating an image example of the analysis result list screen 900.
【図10】分析結果グラフ画面1000のイメージ例を説明する図である。 10 is a diagram for explaining the image example of the analysis result graph screen 1000.
【符号の説明】 DESCRIPTION OF SYMBOLS
101 稼働情報分析計算機102 相関分析部103 危険度計算部104 原因度計算部105 稼働情報収集部106 ステータス生成部107 画面表示部108 稼働情報データベース109 ステータスデータベース110 ネットワーク120,130,140 稼働情報採取計算機121,131,141 稼働情報取得部122,132,142 稼働情報採取ツール150,160,170,180 被監視マシン200 Webシステム201 ファイヤウォール202 ルーター203 Webサーバ204,205 APサーバ206,207,208 DBサーバ210 ネットワーク220 クライアントPC 101 operation information analysis computer 102 correlation analysis unit 103 risk level computation unit 104 causes calculating unit 105 operation information collecting unit 106 status generation unit 107 a screen display unit 108 operation information database 109 the status database 110 the network 120, 130, 140 operating information collected computer 121, 131, 141 operation information acquisition unit 122, 132, 142 operating information collection tool 150,160,170,180 the monitored machine 200 Web system 201 firewall 202 router 203 Web server 204,205 AP server 206,207,208 DB server 210 network 220 client PC

Claims (5)

  1. 各被監視マシンの稼働情報を取得する稼働情報取得部と、 And the operation information acquisition unit to acquire the operation information of each of the monitored machine,
    前記可動情報取得部が取得した被監視マシンの稼働情報を各被監視マシン毎に格納する稼働情報データベースと、 And operation information database for storing operating information of the monitored machine movable information acquiring unit acquires each of the monitored machine,
    各被監視マシン毎の稼働情報の欠損の有無を表すステータス情報を各監視対象計算機毎に格納するステータスデータベースと、 And status database for storing status information indicating the presence or absence of defects in the operation information for each monitored machine for each monitoring target computer,
    前記稼働情報データベースに格納した被監視マシンの稼働情報及びステータスデータベースに格納したステータス情報をもとに特定の被監視マシンの稼働率変化の原因となる被監視マシンの候補を相関分析により特定して表示する稼働情報分析部を備えたことを特徴とするネットワーク管理システム。 Identify and by the operation of the information monitored machines stored in the database operating information and causative correlation analysis candidates of the monitored machine uptime changes in certain of the monitored machine based on the status information stored in the status database network management system characterized by comprising operation information analysis unit for displaying.
  2. 請求項1記載のネットワーク管理システムにおいて、 In the network management system of claim 1, wherein,
    前記分析部は、前記特定の被監視マシンの稼働率変化の原因となる被監視マシンの候補となった計算機の稼働情報を取得し、該稼働情報が示す稼働率が所定の閾値を超えている期間をもとに危険度を計算することを特徴とするネットワーク管理システム。 The analyzing unit acquires the operation information of the candidate became computer of the monitored machine causing uptime change the particular monitored machine operating rate which the operation information indicating exceeds a predetermined threshold value network management system characterized in that to calculate the risk on the basis of the period.
  3. 請求項2記載のネットワーク管理システムにおいて、 The network management system according to claim 2,
    前記分析部は、前記相関分析による相関係数及び前記危険度をもとに原因度を計算することを特徴とするネットワーク管理システム。 The analyzing unit, a network management system and calculates the cause of based on the correlation coefficient and the risk due to the correlation analysis.
  4. 各被監視マシンの稼働情報を取得する工程と、 A step of acquiring the operation information of each of the monitored machine,
    前記可動情報取得部が取得した被監視マシンの稼働情報を各被監視マシン毎に稼働情報データベースに格納する工程と、 And storing the operation information database operating information of the monitored machine movable information acquiring unit acquires each of the monitored machine,
    各被監視マシン毎の稼働情報の欠損の有無を表すステータス情報を各監視対象計算機毎にステータスデータベースに格納する工程と、 And storing the status database status information indicating the presence or absence of defects in the operation information for each monitored machine for each monitoring target computer,
    前記稼働情報データベースに格納した被監視マシンの稼働情報及びステータスデータベースに格納したステータス情報をもとに特定の被監視マシンの稼働率変化の原因となる被監視マシンの候補を相関分析により特定して表示する工程を備えたことを特徴とするネットワーク管理方法。 Identify and by the operation of the information monitored machines stored in the database operating information and causative correlation analysis candidates of the monitored machine uptime changes in certain of the monitored machine based on the status information stored in the status database network management method characterized by comprising the step of displaying.
  5. 請求項4記載のネットワーク管理方法において、 The network management method according to claim 4, wherein,
    前記分析部は、前記特定の被監視マシンの稼働率変化の原因となる被監視マシンの候補となった計算機の稼働情報を取得し、該稼働情報が示す稼働率が所定の閾値を超えている期間をもとに危険度を計算することを特徴とするネットワーク管理方法。 The analyzing unit acquires the operation information of the candidate became computer of the monitored machine causing uptime change the particular monitored machine operating rate which the operation information indicating exceeds a predetermined threshold value network management method characterized by calculating a risk on the basis of the period.
JP2003147663A 2003-05-26 2003-05-26 Method and system for managing network Pending JP2004348640A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003147663A JP2004348640A (en) 2003-05-26 2003-05-26 Method and system for managing network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003147663A JP2004348640A (en) 2003-05-26 2003-05-26 Method and system for managing network

Publications (1)

Publication Number Publication Date
JP2004348640A true JP2004348640A (en) 2004-12-09

Family

ID=33534134

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003147663A Pending JP2004348640A (en) 2003-05-26 2003-05-26 Method and system for managing network

Country Status (1)

Country Link
JP (1) JP2004348640A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007060721A1 (en) * 2005-11-24 2007-05-31 Hewlett-Packard Development Company, L.P. Network administrating device and method of administrating network
WO2010038327A1 (en) * 2008-09-30 2010-04-08 株式会社 日立製作所 Root cause analysis method targeting information technology (it) device not to acquire event information, device and program
JP2010191738A (en) * 2009-02-19 2010-09-02 Hitachi Ltd Failure analysis support system
JP2011258057A (en) * 2010-06-10 2011-12-22 Fujitsu Ltd Analysis program, analysis method, and analyzer
WO2012046293A1 (en) * 2010-10-04 2012-04-12 富士通株式会社 Fault monitoring device, fault monitoring method and program
JP2016006567A (en) * 2014-06-20 2016-01-14 富士通株式会社 Output program, output device and output method
JP2016197450A (en) * 2016-07-25 2016-11-24 日本電気株式会社 Operation management device, operation management system, information processing method, and operation management program

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007060721A1 (en) * 2005-11-24 2007-05-31 Hewlett-Packard Development Company, L.P. Network administrating device and method of administrating network
US8359378B2 (en) 2005-11-24 2013-01-22 Hewlett-Packard Development Company, L.P. Network system and method of administrating networks
WO2010038327A1 (en) * 2008-09-30 2010-04-08 株式会社 日立製作所 Root cause analysis method targeting information technology (it) device not to acquire event information, device and program
CN101981546A (en) * 2008-09-30 2011-02-23 株式会社日立制作所 Root cause analysis method targeting information technology (IT) device not to acquire event information, device and program
US8020045B2 (en) 2008-09-30 2011-09-13 Hitachi, Ltd. Root cause analysis method, apparatus, and program for IT apparatuses from which event information is not obtained
US8479048B2 (en) 2008-09-30 2013-07-02 Hitachi, Ltd. Root cause analysis method, apparatus, and program for IT apparatuses from which event information is not obtained
CN101981546B (en) * 2008-09-30 2015-04-01 株式会社日立制作所 Root cause analysis method targeting information technology (IT) device not to acquire event information, device and program
JP2010086115A (en) * 2008-09-30 2010-04-15 Hitachi Ltd Root cause analysis method targeting information technology (it) device not to acquire event information, device and program
JP2010191738A (en) * 2009-02-19 2010-09-02 Hitachi Ltd Failure analysis support system
JP2011258057A (en) * 2010-06-10 2011-12-22 Fujitsu Ltd Analysis program, analysis method, and analyzer
WO2012046293A1 (en) * 2010-10-04 2012-04-12 富士通株式会社 Fault monitoring device, fault monitoring method and program
JP2016006567A (en) * 2014-06-20 2016-01-14 富士通株式会社 Output program, output device and output method
JP2016197450A (en) * 2016-07-25 2016-11-24 日本電気株式会社 Operation management device, operation management system, information processing method, and operation management program

Similar Documents

Publication Publication Date Title
Garg et al. A methodology for detection and estimation of software aging
Cohen et al. Correlating Instrumentation Data to System States: A Building Block for Automated Diagnosis and Control.
JP4872944B2 (en) Operation management apparatus, the operation management system, information processing method, and the operation management program
US6434513B1 (en) Method of load testing web applications based on performance goal
US20080155548A1 (en) Autonomic logging support
US6694288B2 (en) System and method for automated analysis of load testing results
US6320585B1 (en) Displaying resource performance and utilization information
US20070300215A1 (en) Methods, systems, and computer program products for obtaining and utilizing a score indicative of an overall performance effect of a software update on a software host
US6845474B2 (en) Problem detector and method
JP4528116B2 (en) Method and system for monitoring the application of performance in a distributed environment
US8463899B2 (en) System, method and computer program product for optimized root cause analysis
US7953691B2 (en) Performance evaluating apparatus, performance evaluating method, and program
US20080319731A1 (en) System and method for managing the performance of a computer system based on operational characteristics of the system components
US7502971B2 (en) Determining a recurrent problem of a computer resource using signatures
US8543988B2 (en) Trace processing program, method and system
US20070022327A1 (en) Computer-readable recording medium recording system performance monitoring program, and system performance monitoring method and apparatus
US7984334B2 (en) Call-stack pattern matching for problem resolution within software
JP5274652B2 (en) Method and apparatus for the cause analysis configuration change
JP6224824B2 (en) Determining and monitoring the performance capabilities of the computer resources services
WO2010044797A1 (en) Performance analysis of applications
US8375255B2 (en) Device and method for detecting and diagnosing correlated network anomalies
JP2005216066A (en) Error detection system and method therefor
JP2009505274A (en) System and method for quantitatively evaluating the complexity of configuration of the computing system
WO2003005200A1 (en) Method and system for correlating and determining root causes of system and enterprise events
CN101536002A (en) System and method for process monitoring