JP2008191839A - Abnormality sign detection system - Google Patents

Abnormality sign detection system Download PDF

Info

Publication number
JP2008191839A
JP2008191839A JP2007024207A JP2007024207A JP2008191839A JP 2008191839 A JP2008191839 A JP 2008191839A JP 2007024207 A JP2007024207 A JP 2007024207A JP 2007024207 A JP2007024207 A JP 2007024207A JP 2008191839 A JP2008191839 A JP 2008191839A
Authority
JP
Japan
Prior art keywords
change pattern
operation data
failure
abnormal
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007024207A
Other languages
Japanese (ja)
Other versions
JP4892367B2 (en
Inventor
Akira Sasaki
朗 佐々木
Yoshiyuki Hirakawa
喜之 平川
Hiroyuki Koga
弘之 小賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Electronics Services Co Ltd
Original Assignee
Hitachi Electronics Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Electronics Services Co Ltd filed Critical Hitachi Electronics Services Co Ltd
Priority to JP2007024207A priority Critical patent/JP4892367B2/en
Publication of JP2008191839A publication Critical patent/JP2008191839A/en
Application granted granted Critical
Publication of JP4892367B2 publication Critical patent/JP4892367B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an abnormality sign detection system of a computer for surely detecting an abnormal behavior which cannot be fully captured by failure monitoring using a threshold, that is, the sign of abnormality which has not yet become any failure, and for preventing erroneous detection such as monthly processing or term-end processing by grasping a cycle of a change pattern of operation data, and for reducing erroneous detection by automatically learning a prediction mistake. <P>SOLUTION: This abnormality sign detection system is provided with a monitoring system 10 for monitoring a connected customer computer 3 and collecting operation data. The system normalizes the past operation data of a customer computer 3, obtains a change pattern of the operation data and the cycle of the change pattern, grasps the obtained change pattern and a cycle as a usual state of the customer computer 3, and detects an abnormal state which has not yet become any failure as an abnormality sign as a result of the comparison of the change pattern with the current change pattern. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、コンピュータのシステム異常の兆候を検出するシステムに関し、特にコンピュータにおける障害に至っていない異常の兆候を確実に検出することができるコンピュータの異常兆候検出システムに関する。   The present invention relates to a system for detecting a sign of a computer system abnormality, and more particularly to a computer abnormality sign detection system capable of reliably detecting a sign of an abnormality that has not led to a failure in the computer.

コンピュータを使用する業務では、コンピュータにおける異常検出を、以下の方法で実現しているために、コンピュータに異常が発生した後の検出となってしまう。
(1)コンピュータ業務からの異常メッセージが合った場合
(2)コンピュータ業務が異常終了した場合
(3)リソースおよびコンピュータ業務のしきい値(例えば利用率、業務遅延等)が所定値を越えたことによる異常を検出した場合
In a business using a computer, since the abnormality detection in the computer is realized by the following method, the detection is performed after the abnormality occurs in the computer.
(1) When an abnormal message from the computer business is matched (2) When the computer business is terminated abnormally (3) The thresholds of resources and computer business (for example, utilization rate, business delay, etc.) exceed predetermined values When an abnormality is detected

これに対して、コンピュータのシステム異常の兆候を検出する技術として、特許文献1がある。この技術では、過去に発生した故障事例をグラフ化した故障事例グラフデータとしてデータベース(DB)に蓄積して、現に発生しつつある故障状況を同じくグラフ化した故障発生状況グラフデータを用いてこのDBにアクセスする。これにより、過去に発生した類似の故障事例に対して有効であった対応策を検討して、現在の故障状況への活用を図るものである。
特開2005−222377号公報
On the other hand, Patent Document 1 discloses a technique for detecting a sign of a computer system abnormality. In this technology, failure cases that have occurred in the past are stored in a database (DB) as failure case graph data that is graphed, and this DB is created using failure occurrence state graph data that is also graphed in the same way. To access. As a result, measures that have been effective against similar failure cases that have occurred in the past are studied and utilized in the current failure situation.
JP 2005-222377 A

ところが、上記の特許文献1の技術では、以下の課題がある。
(1)過去の障害発生時のデータのみをグラフ化しているため、コンピュータのシステムが障害に至っていない異常動作については検出することができない。
(2)異なるお客様システムのグラフデータを比較に使用するために、正常動作を障害予兆として誤検出する恐れがある。
(3)システムの処理周期を意識していないために、月次処理や期末処理など比較的長い間隔をあけて実行する処理によるグラフデータの変化を障害予兆として誤検出する恐れがある。
However, the technique disclosed in Patent Document 1 has the following problems.
(1) Since only data at the time of the occurrence of a failure in the past is graphed, it is not possible to detect an abnormal operation in which the computer system has not failed.
(2) Since the graph data of different customer systems are used for comparison, there is a possibility that normal operation is erroneously detected as a sign of failure.
(3) Since the system processing cycle is not conscious, a change in graph data due to processing executed at relatively long intervals such as monthly processing or period-end processing may be erroneously detected as a failure sign.

本発明は、しきい値を使った障害監視では捉えきれないコンピュータの異常挙動、すなわちコンピュータの障害に至っていない異常の兆候を確実に検出することができ、また、稼働データの変化パターンの周期を捉えることにより、月次処理や期末処理などの誤検出しなくなり、予測ミスを自動的に学習することにより、誤検出を減らすことができる異常兆候検出システムを提供することを目的とする。   The present invention can reliably detect abnormal behavior of a computer that cannot be detected by failure monitoring using a threshold value, that is, a sign of an abnormality that has not led to a computer failure. It is an object of the present invention to provide an abnormal sign detection system that can reduce erroneous detection by automatically learning misprediction by preventing misdetection such as monthly processing and period-end processing.

本発明は、接続した顧客コンピュータを監視し稼働データを収集する監視システムを備え、前記監視システムは、前記顧客コンピュータの過去の稼働データを正規化し、前記稼働データの変化パターンと前記変化パターンの周期を求め、求めた変化パターンと前記周期を前記顧客コンピュータのいつもの状態として捉え、前記変化パターンと現在の変化パターンとを比較して、障害には至っていない異常状態を異常兆候として検出する異常兆候検出システムである。   The present invention includes a monitoring system that monitors a connected customer computer and collects operation data, the monitoring system normalizes past operation data of the customer computer, and changes the operation data change pattern and the change pattern cycle. An abnormal sign that detects the abnormal state that has not led to a fault as an abnormal sign by comparing the obtained change pattern and the cycle as the usual state of the customer computer and comparing the change pattern with the current change pattern. It is a detection system.

また、本発明は、前記稼働データの一部を、抽出サイズを伸張させながら切り出して、繰り返しの前記変化パターンを自動的に検出して、前記周期を自動的に検出する異常兆候検出システムである。   Further, the present invention is an abnormal sign detection system in which a part of the operation data is cut out while extending an extraction size, the repeated change pattern is automatically detected, and the cycle is automatically detected. .

そして、本発明は、前記周期が複数存在する場合には、前記周期ごとに前記変化パターンを求めて変化パターンデータベースに保持しておく異常兆候検出システムである。   And this invention is an abnormal sign detection system which calculates | requires the said change pattern for every said period and hold | maintains it in a change pattern database, when the said period exists in multiple numbers.

更に、本発明は、前記変化パターンを作成する際には、3〜10周期前までの前記稼働データの平均を用いる異常兆候検出システムである。   Furthermore, the present invention is an abnormal sign detection system that uses an average of the operation data from 3 to 10 cycles before creating the change pattern.

また、本発明は、前記現在の変化パターンに類似する類似パターンを過去の前記稼働データから探し出して、その直後に発生した障害情報を示すことで、近く発生しうる障害を予想して障害予測結果として通報する異常兆候検出システムである。   In addition, the present invention searches for a similar pattern similar to the current change pattern from the past operation data and indicates failure information that has occurred immediately thereafter, thereby predicting a failure that may occur in the near future, and a failure prediction result It is an abnormal sign detection system to report as.

そして、本発明は、前記障害予測後に実際には障害が発生しなかった場合に、前記変化パターンは誤検出変化パターンとして例外パターンのデータベースに登録して、以後前記誤検出変化パターンを用いて前記異常状態の誤検出を防止する異常兆候検出システムである。   In the present invention, when a failure does not actually occur after the failure prediction, the change pattern is registered in the exception pattern database as a false detection change pattern, and thereafter the false detection change pattern is used to store the change pattern. This is an abnormal sign detection system that prevents erroneous detection of an abnormal state.

本発明によれば、しきい値を使った障害監視では捉えきれない異常挙動、すなわち障害に至っていない異常の兆候を確実に検出することができ、また、月次処理や期末処理などの誤検出しなくなり、そして、誤検出を減らすことができる。   According to the present invention, it is possible to reliably detect abnormal behavior that cannot be detected by failure monitoring using a threshold value, that is, an abnormality sign that has not led to a failure, and erroneous detection such as monthly processing or period-end processing. And false positives can be reduced.

本発明を実施するための最良の形態を説明する。
本発明の異常兆候検出システムの実施例について、図面を用いて説明する。図1は、本発明の異常兆候検出システムの実施例を示している。
The best mode for carrying out the present invention will be described.
Embodiments of the abnormality sign detection system of the present invention will be described with reference to the drawings. FIG. 1 shows an embodiment of the abnormal sign detection system of the present invention.

図1では、異常兆候検出対象であるお客様(顧客)システム(コンピュータシステム)1と、保守サービス会社2側の監視システム10を示しており、監視システム10は、お客様システムを監視し異常兆候を検出する。お客様システム1は、例えば複数のお客様コンピュータ3を有している。お客様コンピュータ3からは、監視システム10の情報収集部11に対し、稼働データなどの情報を供給する。お客様コンピュータ3と情報収集部11との接続は、直接的な接続であっても良いし、インターネットなどの通信網を通じて接続してあっても良い。   FIG. 1 shows a customer (customer) system (computer system) 1 that is a detection target of abnormal signs and a monitoring system 10 on the maintenance service company 2 side. The monitoring system 10 monitors the customer system and detects abnormal signs. To do. The customer system 1 has, for example, a plurality of customer computers 3. The customer computer 3 supplies information such as operation data to the information collecting unit 11 of the monitoring system 10. The connection between the customer computer 3 and the information collecting unit 11 may be a direct connection or may be connected through a communication network such as the Internet.

保守サービス会社2に設置された監視システム10は、情報収集部11と、DB(データベース)12と、管理部13を有する。情報収集部11が得たお客様コンピュータ3の稼働データなどの情報は、DB12に送られる。DB12は、障害データ20、稼働データ21、周期データ22及び例外パターン23を格納する。管理部13は、障害監視部30、異常兆候監視部31及び過去の障害の照合部32を有している。   The monitoring system 10 installed in the maintenance service company 2 includes an information collection unit 11, a DB (database) 12, and a management unit 13. Information such as operation data of the customer computer 3 obtained by the information collecting unit 11 is sent to the DB 12. The DB 12 stores failure data 20, operation data 21, period data 22, and an exception pattern 23. The management unit 13 includes a failure monitoring unit 30, an abnormal sign monitoring unit 31, and a past failure matching unit 32.

監視システム10では、通常行われている検出したしきい値を使った障害監視では捉えきれない異常挙動、すなわち障害に至っていない異常の兆候を検出し、例えば電子メール39により管理者5に対し、お客様コンピュータ3の異常兆候の通知40、予測事象の通知41として通知する。管理者5は、お客様コンピュータ3に異常が生じる前に事前対応処置42を見出すことができるようになっている。これにより、管理者5はお客様コンピュータ3の業務が停止もしくは処理に異常が発生する前に異常の兆候を掴んで、事前に対応することができる。図4は、稼働データDB21の稼働データ21DTの変化例を示しており、月単位と週単位で示している。   The monitoring system 10 detects an abnormal behavior that cannot be detected by the failure monitoring using the detected threshold value that is normally performed, that is, an abnormality sign that has not led to the failure. The client computer 3 is notified as an abnormal sign notification 40 and a predicted event notification 41. The administrator 5 can find the proactive action 42 before an abnormality occurs in the customer computer 3. As a result, the administrator 5 can grasp the sign of abnormality before the operation of the customer computer 3 is stopped or the abnormality occurs in the processing, and can respond in advance. FIG. 4 shows an example of change in the operation data 21DT of the operation data DB 21, and shows the units in months and weeks.

次に、本実施例におけるお客様コンピュータ3の異常の兆候の検出手順の一例について説明する。図2は、本実施例におけるお客様コンピュータ3の異常の兆候の検出手順のフローである。この検出手順は、ステップS1からS13を有している。ステップS1で、監視システム10の情報収集部11がお客様コンピュータ3の稼働データ21DTを受診するまで、管理部13は待機している。ステップS2で、障害監視部30は、お客様コンピュータ3の稼働データ21DTから、繰り返して表されるパターンの「種類」と「周期」を求める。この繰り返して表されるパターンの「種類」と「周期」は、具体例1として図5に例示している。   Next, an example of a procedure for detecting an abnormality sign of the customer computer 3 in the present embodiment will be described. FIG. 2 is a flow of a procedure for detecting a sign of abnormality of the customer computer 3 in the present embodiment. This detection procedure includes steps S1 to S13. In step S1, the management unit 13 is on standby until the information collection unit 11 of the monitoring system 10 receives the operation data 21DT of the customer computer 3. In step S <b> 2, the failure monitoring unit 30 obtains the “type” and “cycle” of the pattern represented repeatedly from the operation data 21 </ b> DT of the customer computer 3. The “type” and “period” of the repeated pattern are illustrated in FIG.

図5(A)は、障害監視部30が、稼働データ21DTの正規化の例を示しており、稼働データ21DTを正規化することで、正規化された稼働データを得て、数字の微妙な揺らぎを丸め込み、コンピュータで比較し易い形に変換する。この正規化された稼働データの正規化の粒度(丸め込み)は、狭い周期のパターンでは細かく、広い周期のパターンでは荒くすることで、マッチング精度を調整する。図5(B)は、障害監視部30が行う変化パターンの自動検出の例を示しており、稼働データの一部を、抽出サイズを伸張させながら切り出して、繰り返しパターンを自動的に検出する。稼働データの抽出サイズ(1)〜(3)は、抽出サイズ(4)の一部なので、繰り返しパターンと見なさない。抽出サイズ(5)は抽出サイズ(4)の2回繰り返しなので、繰り返しパターンとしては、抽出サイズ(4)を採用して、さらに広い範囲の繰り返しパターン検出を続ける。   FIG. 5A illustrates an example in which the failure monitoring unit 30 normalizes the operation data 21DT. By normalizing the operation data 21DT, the normalized operation data is obtained, and the numerical subtlety is obtained. The fluctuation is rounded and converted into a form that can be easily compared with a computer. The normalization granularity (rounding) of the normalized operation data is fine for a narrow cycle pattern and rough for a wide cycle pattern, thereby adjusting the matching accuracy. FIG. 5B shows an example of a change pattern automatic detection performed by the failure monitoring unit 30. A part of the operation data is cut out while expanding the extraction size, and the repeated pattern is automatically detected. The operation data extraction sizes (1) to (3) are a part of the extraction size (4), and thus are not regarded as repetitive patterns. Since the extraction size (5) is repeated twice the extraction size (4), the extraction size (4) is adopted as the repeated pattern, and the detection of the repeated pattern in a wider range is continued.

図5(C)は、障害監視部30が一定の間隔で繰り返されるパターンと周期を求める例を示しており、このとき、例えば過去3〜10周期前までの比較的新しい情報を使うことで、稼働状況の緩やかな変化に追従できるようになる。図5(D)は7日周期パターンの例と、30日周期パターンの例を示しており、これらの繰り返しパターンは周期データ22として登録される。   FIG. 5C shows an example in which the failure monitoring unit 30 obtains a pattern and a cycle that are repeated at regular intervals. At this time, for example, by using relatively new information from the previous 3 to 10 cycles, It will be possible to follow a gradual change in operating conditions. FIG. 5D shows an example of a 7-day cycle pattern and an example of a 30-day cycle pattern, and these repeated patterns are registered as cycle data 22.

図2のステップS3に戻ると、現状の稼働データをパターン化して、各繰り返しパターンの全てと、図6に示す具体例2のようにして照合する。すなわち、図6に示す現状の稼働状況を正規化して正規化データを作成し、正規化データと周期データの例えば7日周期パターン47とを比較する。この比較の結果、マッチするものがある場合には、異常兆候監視部31はステップS4においていつもと同じであると判断して、ステップS1に戻る。そうでなく、この比較の結果1つもマッチしない、すなわち正規化データに異常動作パターンがある場合には、図1の異常兆候監視部31は、異常と判断してステップS5に移る。   Returning to step S3 in FIG. 2, the current operation data is patterned and collated with all the repeated patterns as in the second specific example shown in FIG. That is, the current operation status shown in FIG. 6 is normalized to create normalized data, and the normalized data is compared with, for example, the 7-day cycle pattern 47 of the cycle data. If there is a match as a result of the comparison, the abnormality sign monitoring unit 31 determines that it is the same as usual in step S4, and returns to step S1. Otherwise, if none of the comparison results in matching, that is, if there is an abnormal operation pattern in the normalized data, the abnormal sign monitoring unit 31 in FIG. 1 determines that there is an abnormality, and proceeds to step S5.

ステップS5では、現状の稼働データの正規化データのパターンを、図7に示す具体例3の要領で図1の例外パターン23と照合する。正規化データと例外パターン23を照合し、マッチするものがあれば、ステップS6において過去に誤検出した正常パターンであるとして、現状の稼働データは異常ではないと判断してステップS1に戻る。そうでなく、ステップS5において正規化データのパターンと例外パターン23とが1つもマッチしない場合には、現状の稼働データは異常動作パターンであるとしてステップS7に移る。   In step S5, the normalization data pattern of the current operation data is collated with the exception pattern 23 of FIG. 1 in the manner of the specific example 3 shown in FIG. The normalized data and the exception pattern 23 are collated, and if there is a match, it is determined that the normal pattern has been erroneously detected in the past in step S6 and the current operation data is not abnormal, and the process returns to step S1. Otherwise, if there is no match between the normalized data pattern and the exception pattern 23 in step S5, the current operation data is regarded as an abnormal operation pattern, and the process proceeds to step S7.

ステップS7では、図8の具体例4で示すように、図1の過去の障害の照合部32は、過去の稼働データ21と現在の障害データDB20の障害データの中から、現在の障害データのパターンに類似した類似パターンを探す。ステップS8において、過去に類似した障害データ20のパターンと障害発生記録があると、ステップS10に移り、お客様コンピュータ3で近く発生するおそれがある障害内容と過去の対処方法と、障害発生する予定時刻を、障害予測メール39として管理者5に通知してステップS11に進む。ステップS7において、現在の障害データ20は過去に類似パターンそのものがないか、または類似パターンはあるが障害は発生していない場合には、ステップS9において、お客様コンピュータ3が異常動作していることを、警告メール39により管理者5に通知してステップS11に進む。   In step S7, as shown in the specific example 4 of FIG. 8, the past failure matching unit 32 in FIG. 1 stores the current failure data from the past operation data 21 and the failure data in the current failure data DB 20. Look for similar patterns similar to the pattern. In step S8, if there is a pattern of failure data 20 similar to the past and a failure occurrence record, the process moves to step S10, the failure content that may occur near the customer computer 3, the past countermeasures, and the scheduled failure occurrence time. Is notified to the administrator 5 as the failure prediction mail 39, and the process proceeds to step S11. In step S7, if the current failure data 20 has no similar pattern in the past or there is a similar pattern but no failure has occurred, in step S9, the customer computer 3 is operating abnormally. The administrator 5 is notified by the warning mail 39 and the process proceeds to step S11.

ステップS11では、障害発生予定時間までに障害が発生した、もしくは対策を施した結果通常のパターンに戻った場合には、ステップS12において障害予測が成功したと判断してステップS1に戻る。対策を施していないにもかかわらず障害予定時刻を過ぎても障害が発生せず、その後通常のパターンに戻った場合には、ステップS13において図9の具体例5に示すように、障害予測のミスのパターンを、例外パターン23として自動登録して、この例外パターン23は以後誤検出防止に使用される。   In step S11, when a failure has occurred by the scheduled failure occurrence time or when a normal pattern is returned as a result of taking countermeasures, it is determined in step S12 that failure prediction has been successful and the process returns to step S1. If no failure occurs even after the scheduled failure time has passed even though no countermeasure has been taken, and then the normal pattern is restored, then in step S13, as shown in FIG. A miss pattern is automatically registered as an exception pattern 23, and this exception pattern 23 is used for preventing false detection thereafter.

次に、図3のフローを参照して、お客様コンピュータ3の異常の兆候を自動的に検出する手順について説明する。図3のフローは、ステップS20からS29を有している。ステップS20で、「抽出サイズ」をゼロにセットする。ステップS21で、「抽出サイズ」を+1とすると、ステップS22で、稼働データ21の最新データの位置から過去に遡って「抽出サイズ」分取り出して正規化する。この正規化データを、「仮変化パターン」と呼ぶ。   Next, a procedure for automatically detecting an abnormality sign of the customer computer 3 will be described with reference to the flow of FIG. The flow in FIG. 3 includes steps S20 to S29. In step S20, “extraction size” is set to zero. If “extraction size” is set to +1 in step S21, “extraction size” is extracted from the position of the latest data of the operation data 21 in the past and normalized in step S22. This normalized data is referred to as a “temporary change pattern”.

ステップS23で、稼働データ21を過去に遡って正規化して「仮変化パターン」と比較して、パターンの繰り返し周期を求める。ステップS24で、繰り返しが認められた場合には、「仮変化パターン」を伸張してステップS21に戻って再試行する。そうでなく、繰り返しが認められない場合には、ステップS26において最後に繰り返しが認められた「仮変化パターン」を「変化パターン」として周期データ22として登録する。ステップS27で、「抽出サイズ」が稼働データ21のサイズを超えていない場合には、ステップS28において別の周期を持つパターンを検出するためにステップS21に戻る。「抽出サイズ」が稼働データ21のサイズを超えている場合には、ステップS29において周期パターンの検出を終了する。   In step S23, the operation data 21 is normalized retroactively and compared with the “provisional change pattern” to obtain a pattern repetition period. If the repetition is recognized in step S24, the “temporary change pattern” is expanded and the process returns to step S21 to retry. Otherwise, if the repetition is not recognized, the “temporary change pattern” at which the repetition is finally recognized in step S26 is registered as the “change pattern” as the periodic data 22. If the “extraction size” does not exceed the size of the operation data 21 in step S27, the process returns to step S21 in order to detect a pattern having another period in step S28. If the “extraction size” exceeds the size of the operation data 21, the detection of the periodic pattern is terminated in step S29.

ところで、コンピュータシステムには、実行スケジュールに基づいて処理を実行するバッチ系処理システムがある。本発明の監視システムの実施形態では、このバッチ系処理システムに着目して、その特性に合わせて稼働データのいわゆる「変化パターン」の捉え方を、次の要領で変えている。   Incidentally, computer systems include batch processing systems that execute processing based on an execution schedule. In the embodiment of the monitoring system of the present invention, focusing on this batch processing system, the so-called “change pattern” of operation data is changed in the following manner in accordance with its characteristics.

(1)お客様コンピュータの稼動データ(CPU(中央処理装置)の利用率やアクセス数、トランザクション数など)を日々記録する。 (1) Daily operation data (CPU (central processing unit) usage rate, number of accesses, number of transactions, etc.) of customer computers is recorded.

(2)稼働データを正規化して、稼働データの「変化パターン」とその変化パターンの「周期」を捉える。このとき月次処理などによって変化パターンの周期が複数存在する場合は、周期ごとに変化パターンを求めて変化パターンDBに保持しておく。また、変化パターンを作成するにあたっては、好ましくは3〜10周期前までの稼働データの平均を使うことで、徐々に変化する稼働データの変化状況に対応できるようにする。 (2) Normalize the operation data and capture the “change pattern” of the operation data and the “cycle” of the change pattern. At this time, when there are a plurality of change pattern cycles due to monthly processing or the like, a change pattern is obtained for each cycle and stored in the change pattern DB. Further, when creating the change pattern, it is preferable to use the average of the operation data from 3 to 10 cycles before, so that the change state of the operation data that gradually changes can be dealt with.

(3)現在の稼働データの変化パターンが、変化パターンDBの内容と異なる場合には、“いつもと違う動作”=異常動作であるとみなす。ただし、すでに述べたように、「例外パターンDB23」に類似パターンが記録されている場合には、異常動作とはしない。 (3) If the change pattern of the current operation data is different from the contents of the change pattern DB, it is considered that “unusual operation” = abnormal operation. However, as described above, when a similar pattern is recorded in the “exception pattern DB 23”, no abnormal operation is performed.

(4)お客様コンピュータ3の異常動作を検出した場合には、過去の類似した変化パターンとその直後に発生した障害データを検索して、近く発生しうる障害として管理者5に通知する。 (4) When an abnormal operation of the customer computer 3 is detected, a past similar change pattern and failure data that occurred immediately after that are searched and notified to the administrator 5 as a failure that may occur in the near future.

(5)異常状態と判断したものの、その後お客様コンピュータ3に障害が発生しなかった場合には、誤検出変化パターンとして図1の例外パターン23として登録して、以後この誤検出変化パターンは誤検出防止の用途に使用する。 (5) If the customer computer 3 is determined to be in an abnormal state but no failure has occurred thereafter, it is registered as the exception pattern 23 in FIG. 1 as a false detection change pattern. Used for prevention purposes.

以上説明したように、実施例の異常兆候検出システムでは、お客様コンピュータ3の過去の稼働データを正規化して、稼働データの変化パターンと変化パターンの周期を求め、求めた変化パターンと周期をお客様コンピュータ3のいつもの状態として捉える障害監視部30と、変化パターンと現在の変化パターンとを比較した結果、障害には至っていない異常状態を異常兆候として検出する異常兆候監視部31とを備える。これにより、しきい値を使った障害監視では捉えきれない異常挙動、すなわち障害として検出されない異常挙動(障害に至っていない異常の兆候)を、確実に検出することができる。また、稼働データの変化パターンの周期を捉えることにより、月次処理や期末処理などの誤検出をしなくなり、予測ミスを自動的に学習することにより、誤検出を減らすことができる。   As described above, in the abnormal sign detection system of the embodiment, the past operation data of the customer computer 3 is normalized, the change pattern of the operation data and the cycle of the change pattern are obtained, and the obtained change pattern and cycle are obtained. 3, and a failure monitoring unit 30 that detects the abnormal state as a result of comparing the change pattern and the current change pattern as an abnormality sign. This makes it possible to reliably detect abnormal behavior that cannot be detected by fault monitoring using a threshold value, that is, abnormal behavior that is not detected as a fault (a sign of abnormality that has not led to a fault). Further, by detecting the cycle of the change pattern of the operation data, erroneous detection such as monthly processing and end-of-period processing is eliminated, and erroneous detection can be reduced by automatically learning a prediction error.

また、実施例の異常兆候検出システムでは、稼働データの一部を、抽出サイズを伸張させながら切り出して、繰り返しの前記変化パターンを自動的に検出して、前記周期を自動的に検出する。これにより、稼働データの変化パターンの周期を捉えることにより、例えば月次処理や期末処理などを誤検出しなくなる。   Further, in the abnormal sign detection system of the embodiment, a part of the operation data is cut out while extending the extraction size, the repeated change pattern is automatically detected, and the period is automatically detected. As a result, by capturing the cycle of the change pattern of the operation data, for example, monthly processing or period-end processing is not erroneously detected.

そして、実施例の異常兆候検出システムでは、稼働データの変化パターンと周期を自動的に検出して、周期が複数存在する場合には、周期ごとに変化パターンを求めて変化パターンデータベースに保持しておく。これにより、例えば月次処理などによって周期が複数存在する場合であっても、周期毎に変化パターンを保持しておくことができ、異常の兆候をさらに確実に検出することができる。   In the abnormal sign detection system of the embodiment, the change pattern and cycle of the operation data are automatically detected, and when there are a plurality of cycles, the change pattern is obtained for each cycle and stored in the change pattern database. deep. As a result, even when there are a plurality of periods due to, for example, monthly processing, a change pattern can be held for each period, and an abnormality sign can be detected more reliably.

更に、実施例の異常兆候検出システムは、変化パターンを作成する際には、3〜10周期前までの前記稼働データの平均を用いる。これにより、徐々に変化するお客様コンピュータ3の稼働状態に対応できるようにする。   Furthermore, the abnormal sign detection system according to the embodiment uses the average of the operation data up to 3 to 10 cycles before creating a change pattern. Thereby, it becomes possible to cope with the operating state of the customer computer 3 that gradually changes.

また、実施例の異常兆候検出システムは、現在の変化パターンに類似する類似パターンを過去の稼働データから探し出して、その直後に発生した障害情報を示すことで、近く発生しうる障害を予想して障害予測結果として通報する。これにより、近く発生しうる障害を確実に管理者に知らせることができる。   In addition, the abnormal sign detection system according to the embodiment searches for a similar pattern similar to the current change pattern from past operation data and indicates failure information that has occurred immediately thereafter, thereby predicting a failure that may occur in the near future. Report as a failure prediction result. Thereby, the administrator can be surely notified of a failure that may occur in the near future.

そして、実施例の異常兆候検出システムは、障害予測後に実際には障害が発生しなかった場合に、変化パターンは誤検出変化パターンとして例外パターンのデータベースに登録して、以後誤検出変化パターンを用いて異常状態の誤検出を防止する。これにより、お客様コンピュータ3における異常状態の誤った検出を避けることができる。   In the abnormal sign detection system of the embodiment, when no failure actually occurs after the failure prediction, the change pattern is registered in the exception pattern database as a false detection change pattern, and thereafter the false detection change pattern is used. To prevent false detection of abnormal conditions. Thereby, the erroneous detection of the abnormal state in the customer computer 3 can be avoided.

従来の監視システム等の監視では、コンピュータ業務の異常が発生した後での異常検出やしきい値越えにより以上検出することができるが、業務が正常に稼働している段階では異常につながる兆候を検出することができなかった。これに対して、本発明は、コンピュータ業務の稼働状態を把握して、通常の稼働状態として記憶しておき、過去の稼働状態と現在の稼働状態を比較することで、管理者は業務が停止もしくは処理に異常が発生する前に、異常の兆候を掴んで、事前に対応することができる。   In conventional monitoring systems and other monitoring systems, it is possible to detect abnormalities after a computer business abnormality has occurred or by exceeding the threshold, but when the business is operating normally, there are indications that may lead to an abnormality. It could not be detected. On the other hand, the present invention grasps the operating status of the computer business, stores it as a normal operating status, and compares the past operating status with the current operating status, so that the administrator stops the business. Or, before an abnormality occurs in the process, it is possible to grasp the sign of the abnormality and cope with it in advance.

本発明は、上記実施形態に限定されず、特許請求の範囲を逸脱しない範囲で種々の変形例が採用できる。   The present invention is not limited to the above-described embodiment, and various modifications can be employed without departing from the scope of the claims.

実施例の異常兆候検出システムの説明図。Explanatory drawing of the abnormal sign detection system of an Example. 実施例における兆候検出手順の説明図。Explanatory drawing of the sign detection procedure in an Example. 実施例における自動検出手順の説明図。Explanatory drawing of the automatic detection procedure in an Example. 実施例におけるパターンの説明図。Explanatory drawing of the pattern in an Example. 実施例の異常兆候検出システムにおける具体例1の説明図。Explanatory drawing of the specific example 1 in the abnormal sign detection system of an Example. 実施例の異常兆候検出システムにおける具体例2の説明図。Explanatory drawing of the specific example 2 in the abnormal sign detection system of an Example. 実施例の異常兆候検出システムにおける具体例3の説明図。Explanatory drawing of the specific example 3 in the abnormal sign detection system of an Example. 実施例の異常兆候検出システムにおける具体例4の説明図。Explanatory drawing of the specific example 4 in the abnormal sign detection system of an Example. 実施例の異常兆候検出システムにおける具体例5の説明図。Explanatory drawing of the example 5 in the abnormal sign detection system of an Example.

符号の説明Explanation of symbols

1 お客様システム
2 保守サービス会社
3 お客様コンピュータ
10 監視システム
11 情報収集部
12 データベース(DB)
20 障害データ
21 稼働データ
22 周期データ
23 例外パターン
30 障害監視部
31 異常兆候監視部
32 過去の障害の照合部
40 異常兆候の通知
41 予測事象の通知
5 管理者
1 Customer System 2 Maintenance Service Company 3 Customer Computer 10 Monitoring System 11 Information Collection Unit 12 Database (DB)
20 Failure data 21 Operation data 22 Periodic data 23 Exception pattern 30 Failure monitoring unit 31 Abnormal sign monitoring unit 32 Past failure checking unit 40 Abnormal sign notification 41 Predictive event notification 5 Administrator

Claims (6)

接続した顧客コンピュータを監視し稼働データを収集する監視システムを備え、前記監視システムは、前記顧客コンピュータの過去の稼働データを正規化し、前記稼働データの変化パターンと前記変化パターンの周期を求め、求めた変化パターンと前記周期を前記顧客コンピュータのいつもの状態として捉え、前記変化パターンと現在の変化パターンとを比較して、障害には至っていない異常状態を異常兆候として検出することを特徴とする異常兆候検出システム。   A monitoring system that monitors connected customer computers and collects operation data, wherein the monitoring system normalizes past operation data of the customer computers, obtains a change pattern of the operation data and a period of the change pattern, An abnormal condition characterized by detecting an abnormal state that has not led to a failure as an abnormal sign by comparing the change pattern and the cycle as a normal state of the customer computer and comparing the change pattern with a current change pattern. Sign detection system. 前記稼働データの一部を、抽出サイズを伸張させながら切り出して、繰り返しの前記変化パターンを自動的に検出して、前記周期を自動的に検出する請求項1に記載の異常兆候検出システム。   The abnormal sign detection system according to claim 1, wherein a part of the operation data is cut out while extending an extraction size, the repeated change pattern is automatically detected, and the period is automatically detected. 前記周期が複数存在する場合には、前記周期ごとに前記変化パターンを求めて変化パターンデータベースに保持しておく請求項2に記載の異常兆候検出システム。   The abnormality symptom detection system according to claim 2, wherein when there are a plurality of periods, the change pattern is obtained for each period and stored in a change pattern database. 前記変化パターンを作成する際には、3〜10周期前までの前記稼働データの平均を用いる請求項2又は3に記載の異常兆候検出システム。   The abnormal sign detection system according to claim 2 or 3, wherein an average of the operation data from 3 to 10 cycles before is used when the change pattern is created. 前記現在の変化パターンに類似する類似パターンを過去の前記稼働データから探し出して、その直後に発生した障害情報を示すことで、近く発生しうる障害を予想して障害予測結果として通報する請求項4に記載の異常兆候検出システム。   5. A similar pattern that is similar to the current change pattern is searched from the past operation data, and fault information that occurs immediately after that is indicated, so that a fault that may occur soon is predicted and reported as a fault prediction result. Abnormal sign detection system described in. 前記障害予測後に実際には障害が発生しなかった場合に、前記変化パターンは誤検出変化パターンとして例外パターンのデータベースに登録して、以後前記誤検出変化パターンを用いて前記異常状態の誤検出を防止する請求項5に記載の異常兆候検出システム。   When a failure does not actually occur after the failure prediction, the change pattern is registered in the exception pattern database as a false detection change pattern, and the false detection change pattern is used to detect false detection of the abnormal state thereafter. The abnormal sign detection system according to claim 5 to prevent.
JP2007024207A 2007-02-02 2007-02-02 Abnormal sign detection system Expired - Fee Related JP4892367B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007024207A JP4892367B2 (en) 2007-02-02 2007-02-02 Abnormal sign detection system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007024207A JP4892367B2 (en) 2007-02-02 2007-02-02 Abnormal sign detection system

Publications (2)

Publication Number Publication Date
JP2008191839A true JP2008191839A (en) 2008-08-21
JP4892367B2 JP4892367B2 (en) 2012-03-07

Family

ID=39751898

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007024207A Expired - Fee Related JP4892367B2 (en) 2007-02-02 2007-02-02 Abnormal sign detection system

Country Status (1)

Country Link
JP (1) JP4892367B2 (en)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075817A (en) * 2007-09-20 2009-04-09 Hitachi Ltd Log analyzing method, log storage device, and program
JP2010079811A (en) * 2008-09-29 2010-04-08 Hitachi Ltd Computer system, method of detecting predictor of failure of computer system, and program
JP2010086160A (en) * 2008-09-30 2010-04-15 Nec Corp Fault analysis system, fault analysis method, and program for fault analysis
WO2011108132A1 (en) * 2010-03-02 2011-09-09 株式会社日立製作所 Computer status monitoring device, computer monitoring system and computer status monitoring method
JP2012069076A (en) * 2010-09-27 2012-04-05 Toshiba Corp Evaluation device
JP2012104148A (en) * 2012-01-18 2012-05-31 Toshiba Corp Evaluation unit, evaluation method, evaluation program and recording medium
US8352790B2 (en) 2009-07-30 2013-01-08 Hitachi, Ltd. Abnormality detection method, device and program
JP2014235624A (en) * 2013-06-04 2014-12-15 三菱電機ビルテクノサービス株式会社 Appliance state determination device and program
JP2018500710A (en) * 2014-12-01 2018-01-11 アップテイク テクノロジーズ、インコーポレイテッド Adaptive processing of motion data
JP2019153306A (en) * 2018-03-05 2019-09-12 株式会社東芝 Fault solution prediction system and method
JP2019160314A (en) * 2018-03-06 2019-09-19 株式会社東芝 System and method of prediction of paper jams
CN111092900A (en) * 2019-12-24 2020-05-01 北京北信源软件股份有限公司 Method and device for monitoring abnormal connection and scanning behavior of server
CN111314801A (en) * 2020-02-13 2020-06-19 中国铁道科学研究院集团有限公司铁道建筑研究所 Data acquisition system and method supporting dynamic scheduling

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142746A (en) * 1999-11-11 2001-05-25 Nec Software Chubu Ltd Load monitor device for computer system
JP2003122599A (en) * 2001-10-11 2003-04-25 Hitachi Ltd Computer system, and method of executing and monitoring program in computer system
JP2006146668A (en) * 2004-11-22 2006-06-08 Ntt Data Corp Operation management support apparatus and operation management support program
JP2006178698A (en) * 2004-12-22 2006-07-06 Hitachi Ltd Load state monitoring apparatus and load state monitoring method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142746A (en) * 1999-11-11 2001-05-25 Nec Software Chubu Ltd Load monitor device for computer system
JP2003122599A (en) * 2001-10-11 2003-04-25 Hitachi Ltd Computer system, and method of executing and monitoring program in computer system
JP2006146668A (en) * 2004-11-22 2006-06-08 Ntt Data Corp Operation management support apparatus and operation management support program
JP2006178698A (en) * 2004-12-22 2006-07-06 Hitachi Ltd Load state monitoring apparatus and load state monitoring method

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075817A (en) * 2007-09-20 2009-04-09 Hitachi Ltd Log analyzing method, log storage device, and program
JP2010079811A (en) * 2008-09-29 2010-04-08 Hitachi Ltd Computer system, method of detecting predictor of failure of computer system, and program
JP4572251B2 (en) * 2008-09-29 2010-11-04 株式会社日立製作所 Computer system, computer system failure sign detection method and program
JP2010086160A (en) * 2008-09-30 2010-04-15 Nec Corp Fault analysis system, fault analysis method, and program for fault analysis
US8352790B2 (en) 2009-07-30 2013-01-08 Hitachi, Ltd. Abnormality detection method, device and program
WO2011108132A1 (en) * 2010-03-02 2011-09-09 株式会社日立製作所 Computer status monitoring device, computer monitoring system and computer status monitoring method
JP2012069076A (en) * 2010-09-27 2012-04-05 Toshiba Corp Evaluation device
JP2012104148A (en) * 2012-01-18 2012-05-31 Toshiba Corp Evaluation unit, evaluation method, evaluation program and recording medium
JP2014235624A (en) * 2013-06-04 2014-12-15 三菱電機ビルテクノサービス株式会社 Appliance state determination device and program
JP2018500710A (en) * 2014-12-01 2018-01-11 アップテイク テクノロジーズ、インコーポレイテッド Adaptive processing of motion data
JP2019153306A (en) * 2018-03-05 2019-09-12 株式会社東芝 Fault solution prediction system and method
JP7328770B2 (en) 2018-03-05 2023-08-17 株式会社東芝 Failure solution prediction system and method
JP2019160314A (en) * 2018-03-06 2019-09-19 株式会社東芝 System and method of prediction of paper jams
JP7315341B2 (en) 2018-03-06 2023-07-26 株式会社東芝 Paper jam prediction system
CN111092900A (en) * 2019-12-24 2020-05-01 北京北信源软件股份有限公司 Method and device for monitoring abnormal connection and scanning behavior of server
CN111314801A (en) * 2020-02-13 2020-06-19 中国铁道科学研究院集团有限公司铁道建筑研究所 Data acquisition system and method supporting dynamic scheduling

Also Published As

Publication number Publication date
JP4892367B2 (en) 2012-03-07

Similar Documents

Publication Publication Date Title
JP4892367B2 (en) Abnormal sign detection system
JP5098821B2 (en) Monitoring device and monitoring method for detecting a sign of failure of monitored system
US20160217378A1 (en) Identifying anomalous behavior of a monitored entity
US20080256400A1 (en) System and Method for Information Handling System Error Handling
US9547545B2 (en) Apparatus and program for detecting abnormality of a system
CN103116531A (en) Storage system failure predicting method and storage system failure predicting device
EP3663919B1 (en) System and method of automated fault correction in a network environment
CN101668012B (en) Method and device for detecting security event
JP2015028700A (en) Failure detection device, failure detection method, failure detection program and recording medium
CN109062723A (en) The treating method and apparatus of server failure
US20070180516A1 (en) Unauthorized operation judgment system, unauthorized operation judgment method, and unauthorized operation judgement program
CN105808368A (en) Information security abnormity detection method and system based on random probability distribution
CN114676019B (en) Method, device, equipment and storage medium for monitoring state of central processing unit
CN115794588A (en) Memory fault prediction method, device and system and monitoring server
JP2009276929A (en) Automatic fault handling system
JP5503177B2 (en) Fault information collection device
JP5240709B2 (en) Computer system, method and computer program for evaluating symptom
JP5803246B2 (en) Network operation management system, network monitoring server, network monitoring method and program
CN116483663A (en) Abnormality warning method and device for platform
KR20190104759A (en) System and method for intelligent equipment abnormal symptom proactive detection
JP2014153736A (en) Fault symptom detection method, program and device
JP2009217381A (en) Failure analysis system, failure analysis method, failure analysis server, and failure analysis program
JP5435225B2 (en) Operation management apparatus, operation management method, and program
JP2004086278A (en) Method and system for monitoring device fault
CN113342596A (en) Distributed monitoring method, system and device for equipment indexes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110506

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111129

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111219

R150 Certificate of patent or registration of utility model

Ref document number: 4892367

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141222

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees