JP2011192097A - Failure detection method and information processing system using the same - Google Patents
Failure detection method and information processing system using the same Download PDFInfo
- Publication number
- JP2011192097A JP2011192097A JP2010058618A JP2010058618A JP2011192097A JP 2011192097 A JP2011192097 A JP 2011192097A JP 2010058618 A JP2010058618 A JP 2010058618A JP 2010058618 A JP2010058618 A JP 2010058618A JP 2011192097 A JP2011192097 A JP 2011192097A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- abnormality
- information
- configuration
- operation information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、特に機器のハードウェア構成の追加・削除・更新などによる変更や、機器上で実行されるソフトウェアの追加・削除・更新などによる変更により、機器を構成する稼働構成の変化や、新たな稼働構成の機器の追加に対して、異常の検知を可能とする異常検知方法およびそれを用いた情報処理システムに関する。 In particular, the present invention can be applied to changes in the operating configuration of a device, new changes due to changes due to addition / deletion / update of the hardware configuration of the device, and changes due to addition / deletion / update of software executed on the device. The present invention relates to an abnormality detection method capable of detecting an abnormality with respect to addition of a device having a different operation configuration and an information processing system using the abnormality detection method.
従来、統計的手法を用いた学習により統計モデルを作成し、稼働情報と統計モデルから統計的距離を計算して異常度を求め、設定ファイルで指定したしきい値を使って異常度が異常であるか否かを判断する方法があった(例えば、特許文献1参照)。 Conventionally, a statistical model is created by learning using statistical methods, the statistical distance is calculated from the operation information and the statistical model, the degree of abnormality is obtained, and the degree of abnormality is abnormal using the threshold value specified in the configuration file. There was a method of determining whether or not there is (see, for example, Patent Document 1).
また、従来、機器の種類毎に異常を判定するしきい値を予め設定して、稼働情報が異常か否かを判断する方法があった(例えば、特許文献2参照)。 Conventionally, there has been a method of setting a threshold value for determining an abnormality for each type of device in advance and determining whether or not the operation information is abnormal (see, for example, Patent Document 2).
さらに、従来、異常を検出する正常動作モデルの動的な学習方法があった(例えば、特許文献3参照)。 Furthermore, conventionally, there has been a dynamic learning method of a normal operation model for detecting an abnormality (see, for example, Patent Document 3).
近年、ソフトウェアにより多様な機能を実現するマイクロプロセッサの登場により、マイクロプロセッサが工業、民生を問わずほとんどの機器に搭載されている。マイクロプロセッサの性能向上にともない、実行可能なソフトウェアの規模が大きくなり、より多機能な機器が実現できるようになっている。 In recent years, with the advent of microprocessors that realize various functions by software, microprocessors are installed in almost all devices regardless of industry or consumer. As the performance of microprocessors has improved, the scale of executable software has increased and more multifunctional devices can be realized.
さらに、OS(Operating System)の搭載によりマルチタスク、マルチスレッドによるアプリケーションの実現が可能となり、多種多様なアプリケーションがOS管理下で同時に実行できるようになっている。 Furthermore, by installing an OS (Operating System), it is possible to realize multitasking and multithreaded applications, and various applications can be executed simultaneously under OS management.
例えば、電話・データ通信・ストリーミング放送の統合したマルチメディアサービスを実現するNGN(Next Generation Network、次世代通信網)上で、加入者宅に設置されるHGW(Home Gateway)は、OSGi(Open Services Gateway initiative)フレームワーク技術を利用することで遠隔からアプリケーションの、インストール・起動・停止・アンインストールが可能となり、多様なサービスが実現できる。 For example, an HGW (Home Gateway) installed at a subscriber's home on an NGN (Next Generation Network) that realizes an integrated multimedia service of telephone, data communication, and streaming broadcasting is an OSGi (Open Services). Application (Gateway initiative) framework technology can be used to remotely install, start, stop, and uninstall applications, thereby realizing various services.
このような機器において、ソフトウェアの高機能化の反面、複数のソフトウェアの動作に起因する異常が問題となっている。ソフトウェアの高機能化大規模化に伴い、ユーザ環境の多様化、他社ソフトウェアとの相性、さらに、年々新しくソフトウェアをクラッシュさせる悪意のあるウィルスソフトウェアなど、予想が困難な異常の発生が益々高くなっている。このような背景において、機器の稼働中の異常(障害)を検出することが重要になっている。 In such a device, although software functions are enhanced, anomalies caused by the operation of a plurality of softwares are problematic. As software becomes more sophisticated and larger, the occurrence of abnormalities that are difficult to predict, such as diversified user environments, compatibility with other companies' software, and malicious virus software that crashes new software year by year, is increasing. Yes. In such a background, it is important to detect an abnormality (failure) during operation of the device.
例えば特許文献1において、学習部は、電子機器から受信した機器運用情報を既存の統計モデルを基にして確率分布計算処理を行い新たな統計モデルを作成し、解析部は、機器運用情報と統計モデルから統計的距離を計算して解析結果として各データのスコアを出力し、検知・通知部は、設定ファイルに予め設定されたしきい値以上のスコアが存在するか判断し、設定されたしきい値以上であれば異常があるとして管理者に電子メールで通知するようになっている。
For example, in
例えば特許文献2において、端末監視装置は、端末毎の障害監視情報を読み込み、端末の種類に応じたしきい値を用いて、障害監視情報としきい値を比較することにより障害の予測および検出を行うようになっている。
For example, in
例えば特許文献3において、異常検知装置は、予め静的な解析に基づいて得た解析正常動作モデルを事前に用意し、解析正常動作モデルを用いて異常検知を行い。異常検知の結果を用い、学習に基づく正常動作モデルを用いた異常検知の判定結果を照合させながら正常動作モデルを学習するようになっている。
For example, in
OSGiフレームワークを導入したHGWシステムのような環境では、システムの運用中に新たな機器の追加、機器のハードウェア構成の変更、実行されるアプリケーションの変更など稼働構成が変更される。特定の稼働構成における複数のソフトウェアの動作に関連する異常を予め予想するには、事前に同一の稼働構成において全てのソフトウェアの組合せにおける異常を調べる必要がある。しかしながら、例えば他社が作成したソフトウェアとの組合せにおける異常を全て調べる事は困難である。このため、機器におけるソフトウェアの実行に伴う機器の稼働中の状態の特徴を表す稼働情報から、統計的手法を用いた学習により統計モデルを作成し、稼働情報と統計モデルから統計的距離を計算して異常度を求め、異常度が異常か否かを判断する必要がある。しかしながら、全く新しい稼働構成の機器の稼働情報では、新しい構成の機器の稼働情報を使った学習がされていないため、誤った統計モデルを使って異常度を求め、異常度が異常か否かを誤って判断してしまう。 In an environment such as an HGW system in which the OSGi framework is introduced, an operation configuration such as addition of a new device, change of a hardware configuration of a device, or change of an application to be executed is changed during the operation of the system. In order to predict in advance an abnormality related to the operation of a plurality of software in a specific operation configuration, it is necessary to check in advance an abnormality in a combination of all software in the same operation configuration. However, it is difficult to examine all abnormalities in combination with software created by other companies, for example. For this reason, a statistical model is created by learning using statistical methods from the operational information that represents the characteristics of the operational state of the device associated with the execution of software on the device, and the statistical distance is calculated from the operational information and the statistical model. Therefore, it is necessary to determine the degree of abnormality and determine whether the degree of abnormality is abnormal. However, since the operation information of a device with a completely new operation configuration is not learned using the operation information of a device with a new configuration, the degree of abnormality is obtained using an incorrect statistical model, and whether or not the abnormality degree is abnormal is determined. Make a mistake.
これに対して、特許文献1では、統計的手法を用いた学習により統計モデルを作成し、稼働情報と統計モデルから統計的距離を計算して異常度を求め、設定ファイルで指定したしきい値を使って異常度が異常であるか否かを判断する方法が開示されているものの、新しい構成の機器の稼働情報による異常の判断に必要な構成が記載されていない。
On the other hand, in
特許文献2では、機器の種類毎に異常を判定するしきい値を予め設定して、稼働情報が異常か否かを判断する方法が開示されているものの、統計的手法を用いた学習により統計モデルを作成していないので、事前に全ての機器の種類毎に適切なしきい値を設定するというコストや手間を強いることになる。
Although
特許文献3では、異常を検出する正常動作モデルの動的な学習方法が開示されているものの、予め静的な解析に基づいて得た解析正常動作モデルを用意する必要がある。
Although
図1は、本特許との違いを例示するために特許文献1の主要部の構成を例示するブロック図である。
FIG. 1 is a block diagram illustrating the configuration of the main part of
稼働情報取得手段15は、機器の運用時の稼働情報を収集し、稼働情報データ21に記憶する。学習手段30は、稼働情報データ20から統計的手法を用いた学習を行い、学習された学習データを学習データ40に記憶する。解析手段51は、前記稼働情報から、前記学習データから統計的距離のスコアを出力する。異常判定手段61は、予めしきい値情報71に記憶されたしきい値と前記スコアを比較し、異常か否かを判断する。
The operation information acquisition unit 15 collects operation information during operation of the device and stores it in the
図2は、本特許との違いを例示するために特許文献2の主要部の構成を例示するブロック図である。稼働情報取得手段15は、機器の運用時の稼働情報を収集し、稼働情報データ20に記憶し、稼働情報を出力する。
FIG. 2 is a block diagram illustrating the configuration of the main part of
稼働構成取得手段17は、機器の種類を識別し、予め機器毎のしきい値を記憶したしきい値情報71から、前記稼働情報を収集した機器のしきい値を出力する。異常判定手段61は、前記稼働情報と前記しきい値を比較し、異常か否かを判断する。
The operation
本発明の目的は、機器の稼働構成の変更(ハードウェアおよびソフトウェアの変更、更新、追加、削除など)が必要に応じて随時行われる機器の稼働中の状態の特徴的な変化をとらえた稼働情報を用いた異常検知において、統計モデルを使った異常検知を行いながら機器の稼働情報から統計モデルを学習し、稼働情報と統計モデルから統計的距離を計算して求めた異常度が異常か否か判別するしきい値において、異常検知を行いながら統計モデルの学習量に応じて稼働構成毎のしきい値を学習して異常検知をおこなう異常検出方法および情報処理システムを提供することにある。 The object of the present invention is to change the operating configuration of a device (change, update, addition, deletion, etc. of hardware and software) as needed, and to detect characteristic changes in the operating state of the device. In anomaly detection using information, the statistical model is learned from the operation information of the device while detecting the anomaly using the statistical model, and the degree of abnormality obtained by calculating the statistical distance from the operation information and the statistical model is abnormal. An object of the present invention is to provide an anomaly detection method and an information processing system for detecting anomalies by detecting an anomaly according to the learning amount of a statistical model while detecting anomalies.
本発明の前記目的と新規な特徴は本明細書の記述及び添付図面から明らかになるであろう。 The above objects and novel features of the present invention will become apparent from the description of the present specification and the accompanying drawings.
本願において開示される発明のうち代表的なものについて簡単に説明すれば下記の通りである。 A typical one of the inventions disclosed in the present application will be briefly described as follows.
すなわち、本発明の異常検出方法は、複数の機器の稼働状態を監視し、前記機器の異常を検出する異常検出方法であって、前記稼働状態を示す稼働情報を前記機器から収集し、前記稼働情報を学習して学習結果を記憶する第1の学習ステップと、前記機器の稼働時の構成からなる稼働構成を収集して、前記第1の学習ステップにおいて前記稼働構成に対応した前記機器から収集した前記稼働情報の学習量に応じた前記稼働構成毎のしきい値を学習して稼働構成に対応したしきい値を記憶する第2の学習ステップと、前記機器から収集した前記稼働情報と前記学習結果とを比較して解析し、その内容を異常度として出力する解析ステップと、前記異常度と、前記解析ステップで前記異常度を求めた前記機器と同一の前記稼働構成に対応したしきい値を比較して、前記異常度が異常か否の値を示すかを判断する異常判定ステップとを有することを特徴とする。 That is, the abnormality detection method of the present invention is an abnormality detection method for monitoring an operation state of a plurality of devices and detecting an abnormality of the device, collecting operation information indicating the operation state from the device, and A first learning step for learning information and storing a learning result; and an operating configuration comprising a configuration during operation of the device is collected and collected from the device corresponding to the operating configuration in the first learning step. A second learning step of learning a threshold value corresponding to the operational configuration by learning a threshold value corresponding to the operational configuration according to the learned amount of the operational information, the operational information collected from the device, and the The analysis step of comparing and analyzing the learning result, and outputting the content as an abnormality level, the abnormality level, and the threshold corresponding to the same operation configuration as the device for which the abnormality level was obtained in the analysis step By comparing the values, the abnormality degree and having an abnormality determination step of determining whether indicating the value of the abnormal or not.
また、本発明の情報処理システムは、複数の機器と、前記機器の稼働状態を監視すると共に前記機器の異常を検出する異常監視装置とを備えて成る情報処理システムであって、前記稼働状態を示す稼働情報を前記機器から収集し、前記稼働情報を学習して学習結果を記憶する第1の学習処理部と、前記機器の稼働時の構成からなる稼働構成を収集して、前記第1の学習ステップにおいて前記稼働構成に対応した前記機器から収集した前記稼働情報の学習量に応じた前記稼働構成毎のしきい値を学習して稼働構成に対応したしきい値を記憶する第2の学習処理部と、前記機器から収集した前記稼働情報と前記学習結果とを比較して解析し、その内容を異常度として出力する解析処理部と、前記異常度と、前記解析ステップで前記異常度を求めた前記機器と同一の前記稼働構成に対応したしきい値を比較して、前記異常度が異常か否の値を示すかを判断する異常判定処理部とを前記異常監視装置に備えることを特徴とする。 An information processing system according to the present invention is an information processing system comprising a plurality of devices and an abnormality monitoring device that monitors an operation state of the device and detects an abnormality of the device. A first learning processing unit that collects operation information to be collected from the device, learns the operation information, and stores a learning result; and collects an operation configuration including a configuration at the time of operation of the device, 2nd learning which learns the threshold value for every said operating configuration according to the learning amount of the said operating information collected from the said apparatus corresponding to the said operating configuration in a learning step, and memorize | stores the threshold value corresponding to an operating configuration A processing unit, an analysis processing unit that compares and analyzes the operation information collected from the device and the learning result, and outputs the content as an abnormality level, the abnormality level, and the abnormality level in the analysis step Sought The abnormality monitoring apparatus includes an abnormality determination processing unit that compares a threshold value corresponding to the same operation configuration as the device and determines whether the abnormality degree indicates a value of abnormality. To do.
尚、本発明の情報処理システムにおいては、前記解析処理部と前記異常判定処理部とを前記異常監視装置の代わりに前記機器に備えるよう構成してもよい。 In the information processing system of the present invention, the analysis processing unit and the abnormality determination processing unit may be provided in the device instead of the abnormality monitoring device.
本発明によれば、機器の運用中に稼働情報を使って学習モデルを学習できるので、予め試験環境では検出できない異常の検出が、学習した学習モデルを使うことででき、さらに新設、機能の追加、削除、更新などによる機器の構成が変更されても学習済みの学習モデルを使った異常の判定を誤検出する確率を低減することができる。 According to the present invention, the learning model can be learned using the operation information during operation of the device. Therefore, the abnormality that cannot be detected in advance in the test environment can be detected by using the learned learning model. Even if the configuration of the device is changed due to deletion, update, etc., the probability of erroneously detecting an abnormality determination using a learned learning model can be reduced.
本発明は、運用中に、異なる働構成からなる複数の機器から、機器の稼働中の状態の特徴を表す稼働情報を受信し、稼働情報から統計的な手法を用いた学習を行い、学習データを更新して保存する第1の学習手段と、異なる構成の機器を識別する稼働構成と、第1の学習手段において同一の稼働構成の機器から得た稼働情報を使った学習量から、稼働構成毎のしきい値を更新して保存する第2の学習手段を備えることを特徴とする。 The present invention receives operation information representing characteristics of the operating state of a device from a plurality of devices having different operation configurations during operation, performs learning using a statistical method from the operation information, and learns data The first learning means for updating and storing the operation configuration, the operation configuration for identifying devices having different configurations, and the learning amount using the operation information obtained from the devices having the same operation configuration in the first learning means, A second learning means for updating and storing each threshold value is provided.
さらに、異常度解析手段は、受信した稼働情報と、第1の学習手段が保存した学習データから異常度を算出し、異常度と受信した稼働情報の機器の稼働構成に対応する第2の学習手段が保存したしきい値を比較し、異常度が異常を示す値か否かを判断する異常判定手段を備えることを特徴とする。 Further, the abnormality level analysis means calculates the abnormality degree from the received operation information and the learning data stored by the first learning means, and performs second learning corresponding to the operation configuration of the equipment of the abnormality degree and the received operation information. An abnormality determining means is provided for comparing the threshold values stored by the means and determining whether or not the degree of abnormality is a value indicating abnormality.
以下、本発明の好適な実施の形態について、図面を参照して詳細に説明する。なお、実施の形態を説明する図において、同一部には原則として同一の符号を付し、その繰り返し説明は省略する。 DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, preferred embodiments of the invention will be described in detail with reference to the drawings. Note that in the drawings illustrating the embodiment, the same components are denoted by the same reference symbols in principle, and the repetitive description thereof is omitted.
以下一実施の形態について詳述する。 Hereinafter, an embodiment will be described in detail.
まず、本発明の代表的な実施の形態について、その概要を実施例1として説明する。 First, an outline of a typical embodiment of the present invention will be described as a first embodiment.
本発明の概要を図1と図2に対峙して図3に例示する。図3は、本発明の一実施の形態の概要を例示するブロック図である。 The outline of the present invention is illustrated in FIG. 3 in contrast to FIGS. FIG. 3 is a block diagram illustrating an outline of an embodiment of the present invention.
図3において、稼働情報取得手段15は、任意の数の機器において、動作中に取得できる各種稼働情報を収集し稼働情報データに格納するように動作する。
稼働構成取得手段16は、稼働情報取得手段15と供に、任意の数の機器の構成を示す稼働構成を収集するように動作する。
In FIG. 3, the operation information acquisition unit 15 operates to collect various operation information that can be acquired during operation and store it in operation information data in an arbitrary number of devices.
The operation
学習手段30は、稼働情報データ20の稼働情報から統計的手法を用いて統計モデルを作成し、学習データ40に格納するように動作する。
The
管理手段80は、稼働構成取得手段16で収集された稼働構成情報において稼働構成データ85に未登録の稼働構成情報を稼働構成データに登録するように動作する。
The
しきい値学習手段90は、稼働構成データ85の稼働構成毎に学習手段30で学習に使われた稼働情報の数である学習量を測定し、学習量に応じたしきい値を計算し、求めたしきい値でしきい値データ70を更新するように動作する。
The
異常度解析手段50は、稼働情報取得手段15で収集した稼働情報と学習データ40の統計モデルとの統計的距離を異常度として出力するように動作する。
The abnormality degree analysis unit 50 operates to output the statistical distance between the operation information collected by the operation information acquisition unit 15 and the statistical model of the learning
異常判定手段は、異常度解析手段50の出力である異常度と、しきい値データ70の、異常度を求めた稼働情報を出力した機器の稼働構成に基づくしきい値とを比較し、異常度が異常か否かを示すものか判断するように動作する。
The abnormality determination means compares the abnormality degree output from the abnormality degree analysis means 50 with the threshold value based on the operation configuration of the device that outputs the operation information for which the abnormality degree is obtained, in the
学習処理(600)は、稼働情報データ20、学習手段30、学習データ40を含む。稼働構成登録処理(630)は、管理手段80,稼働構成データ85を含む。しきい値学習処理(640)は、しきい値学習手段90としきい値データ70を含む。異常判定処理(620)は、異常度解析手段50と異常判定手段60を含む。
The learning process (600) includes
次に、学習手段30における統計的手法を用いた学習データ40の作成の一例を、図4を用いて説明する。図4は、データマイニングによる異常度を求める方法の概要を例示する図である。学習データ40は、j個のクラスタωjの情報(平均ベクトルm、標準偏差σ)と、クラスタしきい値Thからなる。図4に例示したj個のクラスタωjは、例えば、データマイニング手法において、データをグループ分けするクラスタ分析方法を利用し、任意の数の機器より収集した稼働情報から例えばp次元の特徴ベクトルxを抽出し、多量の特徴ベクトルからクラスタ分析を行うことで求められる。
Next, an example of creation of learning
クラスタωiのクラスタしきい値を求める方法の一例を、図4と図5を用いて説明する。図5は、クラスタ範囲を求める方法の概要を例示する図である。クラスタしきい値はクラスタ範囲とする。例えば、学習に用いた稼働情報の特徴から求められた特徴ベクトルの分布が、クラスタωiにおいて標準偏差をσiとしてN(mi, σi 2)の正規分布に従うとすれば、図5に例示するようにN(mi, σi 2)の正規分布において、予め設定した棄却率をαとした確率点をクラスタωiにおけるクラスタしきい値とすることができる。 An example of a method for obtaining the cluster threshold value of the cluster ω i will be described with reference to FIGS. 4 and 5. FIG. 5 is a diagram illustrating an outline of a method for obtaining a cluster range. The cluster threshold is the cluster range. For example, if the distribution of feature vectors obtained from the features of the operation information used for learning follows a normal distribution of N (m i , σ i 2 ) with a standard deviation of σ i in cluster ω i , FIG. As illustrated, in the normal distribution of N (m i , σ i 2 ), a probability point with a preset rejection rate α can be set as the cluster threshold value in the cluster ω i .
また、例えば、クラスタωiに属する学習に供する特徴ベクトルの中で、平均値miからの統計的距離が最も遠い特徴ベクトルをクラスタしきい値とすることができる。 Further, for example, among the feature vectors used for learning belonging to the cluster ω i , the feature vector having the longest statistical distance from the average value m i can be set as the cluster threshold value.
次に、異常度解析手段50において、異常度を求める方法の一例を、図4を用いて説明する。図4において、i番目のクラスタをωi、クラスタωiの平均ベクトルをmiとすれば、平均ベクトルmiと特徴ベクトルxとの統計的距離が求まる。この統計的距離が最も平均ベクトルmiに近い値がクラスタωiに属する異常度と判断することができる。 Next, an example of a method for obtaining the degree of abnormality in the degree of abnormality analysis means 50 will be described with reference to FIG. In FIG. 4, .omega.i the i-th cluster, if an average vector of the cluster omega i and m i, statistical distance between the mean vector m i and the feature vector x is obtained. It can be determined that the value of the statistical distance closest to the average vector m i is the degree of abnormality belonging to the cluster ω i .
次に、異常判定手段60において異常か否かを求める方法について図6乃至図12を用いて説明する。 Next, a method for determining whether there is an abnormality in the abnormality determination means 60 will be described with reference to FIGS.
まず、学習済の稼働構成の機器の稼働情報を使用した異常判別方法について図6と図8を用いて説明する。図6は、学習済の稼働構成の機器における稼働情報の特徴ベクトルの遷移の概要を例示する図である。図8は、学習済の稼働構成の機器における正規化された異常度の変化の一例を例示する説明図である。 First, an abnormality determination method using the operation information of the learned operation configuration device will be described with reference to FIGS. 6 and 8. FIG. 6 is a diagram illustrating an outline of the transition of feature vectors of operation information in a learned operation configuration device. FIG. 8 is an explanatory diagram illustrating an example of a change in the normalized degree of abnormality in a device having a learned operation configuration.
図6は説明を簡単にするため2次元の特徴ベクトルを例示する。特徴ベクトルは、図6に例示するように各クラスタ間を遷移する。正常な稼働状態では、稼働情報の特徴ベクトルの分布は各クラスタ範囲内に分布する。しかし、特徴ベクトルが各クラスタ範囲の外に遷移した場合は、クラスタ範囲をクラスタしきい値として稼働情報が異常な状態を示すと判断することができる。 FIG. 6 illustrates a two-dimensional feature vector for ease of explanation. The feature vector transitions between the clusters as illustrated in FIG. In a normal operating state, the distribution of feature vectors of operating information is distributed within each cluster range. However, when the feature vector transitions outside each cluster range, it can be determined that the operation information indicates an abnormal state using the cluster range as a cluster threshold value.
図6の各クラスタしきい値が異なる値のため、異常度が属するクラスタのクラスタしきい値でしきい値が1になるように異常度を正規化し、正規化された異常度を求めることができる。したがって、図8において、正規化された異常度がしきい値1を超える時を異常と判断することができる。
Since each cluster threshold value in FIG. 6 is a different value, it is possible to normalize the abnormality level so that the threshold value becomes 1 with the cluster threshold value of the cluster to which the abnormality level belongs, and obtain the normalized abnormality level. it can. Therefore, in FIG. 8, when the normalized abnormality degree exceeds the
次に、未学習の稼働構成の機器の稼働情報を使用した異常判別方法について図7と図9乃至図12を用いて説明する。図7は、未学習の稼働構成の機器における稼働情報の特徴ベクトルの遷移の概要を例示する図である。図9は、未学習の稼働構成の機器の稼働数の変化の概要を例示する説明図である。図10は、未学習の稼働構成の機器の稼働情報を用いて学習する学習量の変化の概要を例示する説明図である。図11は、未学習の稼働構成の機器の稼働情報から異常と判断するしきい値設定を例示する説明図である。図12は、未学習の稼働構成の機器の稼働情報から異常と判断する他のしきい値設定を例示する説明図である。図7は説明を簡単にするため2次元の特徴ベクトルを例示する。 Next, an abnormality determination method using operation information of an unlearned operation configuration device will be described with reference to FIGS. 7 and 9 to 12. FIG. 7 is a diagram illustrating an outline of the transition of the feature vector of the operation information in an unlearned operation configuration device. FIG. 9 is an explanatory diagram illustrating an overview of changes in the number of operating devices having an unlearned operating configuration. FIG. 10 is an explanatory diagram illustrating an overview of changes in the learning amount that is learned using the operation information of an unlearned operation configuration device. FIG. 11 is an explanatory diagram illustrating threshold setting for determining an abnormality from the operation information of an unlearned operation configuration device. FIG. 12 is an explanatory diagram illustrating another threshold setting for determining an abnormality from the operation information of an unlearned operation configuration device. FIG. 7 illustrates a two-dimensional feature vector for ease of explanation.
未学習の稼働情報を使用して学習した場合、学習前に対して新しいクラスタが追加されることが予想しえる。例えば、未学習の稼働情報より求まる特徴ベクトルは、図7において各クラスタの円の外に遷移する可能性もあり得る。特定の構成における稼働情報に対して未学習の段階では、異常とも新たなクラスタに属することになることもあり得る。 When learning is performed using unlearned operation information, a new cluster can be expected to be added before learning. For example, the feature vector obtained from the unlearned operation information may possibly move outside the circle of each cluster in FIG. In an unlearned stage with respect to the operation information in a specific configuration, both abnormalities may belong to a new cluster.
未学習の稼働構成の機器の稼働数と時刻の関係は、図9に例示することができる。未学習の稼働構成の機器の稼働情報の学習量は、図10に例示するように稼働数の積分で増加する。したがって、稼働構成毎のしきい値の設定方法は、例えば図11に例示するように学習量が少ないときは、予め設定した最大のしきい値とし、学習量が予め指定した値以上になればしきい値を1とすることができる。また、稼働構成毎の他のしきい値の設定方法は、図12に例示するように、しきい値を学習量の引数とする関数として求め、学習量が予め指定した値以上になればしきい値を1とすることができる。 The relationship between the number of operating devices having an unlearned operating configuration and time can be illustrated in FIG. The learning amount of the operation information of the device having the unlearned operation configuration increases as the operation number is integrated as illustrated in FIG. Therefore, the threshold value setting method for each operational configuration is, for example, when the learning amount is small as illustrated in FIG. 11, the maximum threshold value set in advance is set, and the learning amount is equal to or greater than a predetermined value. The threshold can be 1. Further, as shown in FIG. 12, another threshold value setting method for each operation configuration is obtained as a function using the threshold value as an argument of the learning amount, and the learning amount is not less than a predetermined value. The threshold can be 1.
次に、本発明の他の一実施の形態である実施例2に係る情報処理システムの構成を、図13を用いて説明する。図13は、本発明の一実施の形態である情報処理システムの構成を例示するブロック図である。 Next, the configuration of an information processing system according to Example 2, which is another embodiment of the present invention, will be described with reference to FIG. FIG. 13 is a block diagram illustrating a configuration of an information processing system according to an embodiment of this invention.
当該情報処理システムは、インターネット120と、例えばNGN(Next Generation Network)等の加入者線ネットワーク110の双方に接続された加入者線基地局100と、加入者線ネットワークに接続された複数の加入者宅を有する構成となっている。
The information processing system includes a subscriber
加入者線基地局100は、プログラム配信装置101、ゲートウェイ装置102、異常監視装置103、を有する構成となっている。
The subscriber
加入者宅130は、HGW131、センサ装置134、情報家電135、を有する構成となっている。
The
プログラム配信装置101、異常監視装置103は、加入者線ネットワーク110に接続しており、所定の手順にしたがって情報の送受信を行うことができる。
The
ゲートウェイ装置102は、インターネット120と加入者線ネットワーク110の双方に接続しており、インターネット120に接続された機器と、加入者線ネットワーク110に接続された機器との情報の送受信を行うためのゲートウェイとしての機能を有する。
The
HGW131は、加入者線ネットワーク110とホームネットワーク132の双方に接続しており、加入者線ネットワーク110に接続された機器と、ホームネットワーク132に接続された機器との情報の送受信を行うためのゲートウェイとしての機能を有する。
The
センサ装置134、情報家電135は、有線または無線で構成されるホームネットワーク132と接続し、所定の手順にしたがって情報の送受信を行うことができる。
The
次に、本実施例における異常監視装置103とHGW131のハードウェア構成の一例を図14,図15を用いて説明する。図14は、本発明の一実施の形態である異常監視装置103の構成を例示するブロック図である。
Next, an example of the hardware configuration of the
図14において、異常監視装置103は、CPU300、通信IF301、不揮発性記憶装置302、メインメモリ303、不揮発性メモリ304、を有する構成となっており、これらはそれぞれバス305と接続され、所定の手順にしたがって情報の送受信を行うことができる。
In FIG. 14, the
不揮発性メモリ304にはブートプログラムが記憶されており、また、不揮発性記憶装置302には各種プログラムが記憶されている。異常監視装置103が起動すると、不揮発性メモリ304に記憶されたブートプログラムによって不揮発性記憶装置302から各種プログラムがメインメモリ303へと読み出される。CPU300はメインメモリ303に読み出された各種プログラムを実行することにより情報を処理し、通信IF301等による情報の送受信等を行うことができる。
The
不揮発性記憶装置302には、上述のように、CPU300がメインメモリ303に読み出して実行するための各種プログラムが記憶されており、例えばHDD(Hard Disk Drive)、SDD(Solid State Drive)、光ディスク(Optical Disk Drive)等によって実現することができる。通信IF301は、ネットワークカード等により実現することができる。通信IF301は、加入者線ネットワーク110と接続しており、加入者線ネットワーク110と接続する機器との間で情報の送受信を行うことができる。
As described above, the
図15は、本発明の一実施の形態であるHGW131の構成を例示するブロック図である。HGW131は、CPU310、メインメモリ313、不揮発性メモリ314、センサ装置315、異常対策装置316、第1の通信IF311、第2の通信IF312を有する構成となっており、これらはそれぞれバス317と接続され、所定の手順にしたがって情報の送受信を行うことができる。
FIG. 15 is a block diagram illustrating the configuration of the
不揮発性メモリ314にはブートプログラム、各種プログラムが記憶されており、HGW131が起動すると不揮発性メモリ314に記憶されたブートプログラムによって不揮発性メモリ314から各種プログラムがメインメモリ313へと読み出される。CPU310はメインメモリ313に読み出された各種プログラムを実行することにより情報を処理し、第1の通信IF311、第2の通信IF312等による情報の送受信等を行う。
The
センサ装置315は、各種プログラムのCPU310による実行に伴い発生する各種状態の変動を取得することができる。異常対策装置316は、異常の検出または異常の予兆を検出したときに指示により、異常の復旧または異常が起こらないよう対策を行う。
The
第1の通信IF311は、ネットワークカード等により実現することができる。第2の通信IF312は、ネットワークカード等により実現することができる。第1の通信IF311は、加入者線ネットワーク110と接続しており、加入者線ネットワーク110と接続する機器との間で情報の送受信を行うことができる。第2の通信IF312は、ホームネットワーク132と接続しており、ホームネットワーク132に接続する機器との間で情報の送受信を行うことができる。
The first communication IF 311 can be realized by a network card or the like. The second communication IF 312 can be realized by a network card or the like. The first communication IF 311 is connected to the
なお、上述した異常監視装置103およびHGW131の構成は、図14および図15に例示する構成に限定されないことは当然である。例えば、HGW131において、センサ装置315および異常対策装置316は、全てソフトウェアプログラムによって実現され、CPU310で実行されるような場合は、センサ装置315および異常対策装置316を有さない構成となる。この場合、当該ソフトウェアプログラムは不揮発性メモリ314に記憶され、メインメモリ313上に読み出されてCPU310によって実行される。
Naturally, the configurations of the
プログラム配信装置101のハードウェア構成は例示しないが、少なくとも1台以上のコンピュータ(CPU、メインメモリ、不揮発性記憶装置、入力装置、出力装置、通信IF等を含む)から構成されている。不揮発性記憶装置からメインメモリに読み出され、CPUによって実行される各種プログラムは、例えば不揮発性記憶装置に格納された各種プログラムを、例えばOSGiフレームワークの技術を利用してHGW131からの要求により配信するプログラムが実装されている。また、不揮発性記憶装置には、HGW131で実行されるプログラムが記憶される。
Although the hardware configuration of the
ゲートウェイ装置102のハードウェア構成は例示しないが、少なくとも1台以上のコンピュータ(CPU、メインメモリ、不揮発性記憶装置、入力装置、出力装置、通信IF等を含む)から構成されている。不揮発性記憶装置からメインメモリに読み出され、CPUによって実行される各種プログラムは、例えばHGW131とインターネット120との間で各種インターネットプロトコルに従ったデータの送受を仲介するプログラムが実装されている。
Although the hardware configuration of the
情報家電135のハードウェア構成は例示しないが、少なくとも1台以上のコンピュータ(CPU、メインメモリ、不揮発性記憶装置、入力装置、出力装置、通信IF等を含む)から構成されている。不揮発性記憶装置からメインメモリに読み出され、CPUによって実行される各種プログラムは、例えばローカルネットワーク132を経由してHGW131を介してインターネット120上の各種サーバ装置と接続し、サーバ装置が提供する各種サービスを実現するプログラムが実装されている。
Although the hardware configuration of the
センサ装置134のハードウェア構成は例示しないが、少なくとも1台以上のコンピュータ(CPU、メインメモリ、不揮発性メモリ、入力装置、出力装置、通信IF等を含む)から構成されている。不揮発性メモリからメインメモリに読み出され、CPUによって実行される各種プログラムは、例えばローカルネットワーク132を経由してHGW131を介してインターネット120上の各種サーバ装置と接続し、サーバ装置が提供する各種サービスを実現するために必要な温度情報や位置情報など各種情報を取得して送信するプログラムが実装されている。
Although the hardware configuration of the
次に、本発明の一実施の形態である異常監視装置103とHGW131の各部の動作を図16,図17乃至図22のフローチャート図と図31のシーケンス図を用いて説明する。なお、図3は図16の主要な機能を図示したものであり必要に応じて括弧を付して参照する。
Next, the operation of each part of the
図17乃至図22は、図16で説明する主要な処理のフローチャート図であり、図17は、学習処理(610)の動作を例示するフローチャート図である。図18は、稼働構成登録処理(630)の動作を例示するフローチャート図である。図19は、しきい値学習処理(640)の動作を例示するフローチャート図である。図20は、しきい値更新処理(ステップS230)の動作を例示するフローチャート図である。図21は、他のしきい値更新処理(ステップS230)の動作を例示するフローチャート図である。図22は、異常判定処理(620)の動作を例示するフローチャート図である。図31は、図16の動作の流れを例示するシーケンス図である。 FIGS. 17 to 22 are flowcharts of main processes described in FIG. 16, and FIG. 17 is a flowchart illustrating the operation of the learning process (610). FIG. 18 is a flowchart illustrating the operation of the operation configuration registration process (630). FIG. 19 is a flowchart illustrating the operation of the threshold learning process (640). FIG. 20 is a flowchart illustrating the operation of the threshold update process (step S230). FIG. 21 is a flowchart illustrating the operation of another threshold value update process (step S230). FIG. 22 is a flowchart illustrating the operation of the abnormality determination process (620). FIG. 31 is a sequence diagram illustrating the operation flow of FIG.
図23乃至図30は、図16において各部で記憶される主要な情報の一例を例示したものである。図23は、ハード構成情報183を例示する図である。図24は、アプリ情報182を例示する図である。図25は、顧客情報181を例示する図である。図26は、稼働構成データ85の一例を例示する図である。図27は、しきい値データ70を例示する図である。図28は、学習データ40を例示する図である。図29は、機器稼働情報155を例示する図である。図30は、稼働情報データ20を例示する図である。
23 to 30 illustrate an example of main information stored in each unit in FIG. FIG. 23 is a diagram illustrating
HGW131において、稼働アプリ情報140は、予め登録されたアプリケーションを記憶し、実行手段145は、稼働アプリ情報140に登録されたアプリケーションを実行するアプリケーション実行処理(600)を行い、稼働情報収集手段150は、実行手段145で実行されたアプリケーション実行にともなう状態の変化、例えば物理メモリ使用量の変動量、実行スレッド数、割り込みの頻度などの動的な稼働情報を収集し、機器稼働情報155に記憶する、稼働情報収集処理(605)を行う。
In the
機器構成管理手段160は、機器のユーザ情報、ハードウェア構成、ソフトウェア構成、稼働アプリ情報140に登録されたアプリケーションなどの静的な稼働構成を収集し、機器構成情報165に記憶する、稼働構成収集処理(607)を行う。
The device configuration management unit 160 collects a static operation configuration such as an application registered in the user information, hardware configuration, software configuration, and
異常対策実行手段170は、アプリケーション実行時の異常が検知された時に、異常情報175を受信し、例えば機器の再起動や異常源と予想されるアプリケーションの実行を停止する等の異常対策処理(650)を実行する。
The abnormality countermeasure execution means 170 receives the
異常監視装置103において、稼働情報取得手段15は、必要に応じてHGW131から機器稼働情報155を受信し、稼働情報データ20に蓄積する。
In the
構成情報登録処理(630)において、学習手段30は、稼働情報データ20に蓄積された稼働情報が統計的学習に必要な量になるまで待機し(ステップS100)、稼働情報が十分な量となった時、データマイニング等の統計的手法を用いて、蓄積された稼働情報データ20の特徴ベクトルを複数のクラスタに分類し、クラスタ毎の平均、標準偏差、クラスタしきい値からなる新しい統計データを作成し(ステップS110)、新しい統計データで学習データ40を更新する(ステップS120)。
In the configuration information registration process (630), the
稼働構成取得手段16は、必要に応じてHGW131の機器稼働構成165を取得する。
The operation
稼働構成登録処理(630)において、管理手段180は、機器稼働構成165と、予め登録した顧客情報181、アプリ情報182,ハード構成情報183との照合を行い、稼働構成データ85に未登録な機器稼働構成165が取得されるまで待機し(ステップS130)、未登録の機器稼働構成165を稼働構成データ85に追加登録する(ステップS140)。
In the operation configuration registration process (630), the management unit 180 collates the
しきい値学習処理(640)において、しきい値学習手段90は、学習手段30による学習が実行されるまで待機し(ステップS200)、学習手段30による学習が実行されると、学習手段30における稼働構成毎に稼働情報の学習量を計測し(ステップS220)、学習量に応じたしきい値更新処理を実行する(ステップS230)。しきい値データ70の更新が必要な全てのしきい値が更新されるまでステップS220とS230の処理を繰り返す(ステップS210)。
In the threshold value learning process (640), the threshold value learning means 90 waits until learning by the learning means 30 is executed (step S200), and when learning by the learning means 30 is executed, The learning amount of the operation information is measured for each operation configuration (step S220), and threshold value update processing corresponding to the learning amount is executed (step S230). Steps S220 and S230 are repeated until all threshold values that require updating of
しきい値更新処理(ステップS230)の一例を図20のフローチャート図を用いて説明する。しきい値更新処理(ステップS230)は、例えば、予め設定した学習量と比較し(ステップS300)、学習量が設定した値より大きい時はしきい値を基準値の1とし、学習量が小さい時は予め設定した1よりも大きいしきい値Thmaxに設定し、設定したしきい値によりしきい値データ70を更新する(ステップ330)。本動作によりしきい値は、図11に例示するように設定される。
An example of the threshold update process (step S230) will be described with reference to the flowchart of FIG. The threshold update process (step S230) is compared with, for example, a preset learning amount (step S300). When the learning amount is larger than the set value, the threshold is set to 1 as a reference value, and the learning amount is small. The time is set to a threshold value Th max larger than a
他のしきい値更新処理(ステップS230)の一例を図21のフローチャート図を用いて説明する。しきい値更新処理(ステップS230)は、例えば、学習量を引数とするしきい値を求める関数式により仮のしきい値を算出し(ステップS340)、仮のしきい値が基準値1以下の場合は、しきい値を基準値の1に設定し(S360),それ以外の場合は、仮のしきい値をしきい値とし(ステップS370)、設定したしきい値によりしきい値データ70を更新する(ステップS380)。本動作によりしきい値は、図12に例示されるように設定される。
An example of another threshold value update process (step S230) will be described with reference to the flowchart of FIG. In the threshold value update process (step S230), for example, a temporary threshold value is calculated by a function expression for obtaining a threshold value using the learning amount as an argument (step S340), and the temporary threshold value is equal to or less than the
異常判定処理(620)の一例を図22のフローチャート図を用いて説明する。異常判定処理(620)において、異常度解析手段50は、稼働情報取得手段15が機器稼働情報を取得するまで待機し(ステップS400)、機器稼働情報から1件ずつ順次稼働情報を取得し(ステップS405)、取得する稼働情報が無くなればステップS400に戻る。取得した稼働情報から特徴ベクトル抽出し、特徴ベクトルと学習データ40に登録された複数のクラスタの平均との統計的距離を異常度として求め(ステップS410)、異常度が最小となる異常度と、異常度の属するクラスタを求める(ステップS420)。
An example of the abnormality determination process (620) will be described with reference to the flowchart of FIG. In the abnormality determination process (620), the abnormality level analysis unit 50 stands by until the operation information acquisition unit 15 acquires the device operation information (step S400), and sequentially acquires operation information one by one from the device operation information (step S400). S405) If there is no operation information to be acquired, the process returns to step S400. A feature vector is extracted from the acquired operation information, a statistical distance between the feature vector and an average of a plurality of clusters registered in the learning
異常判定手段60は、学習データ40に登録された異常度の属するクラスタのクラスタしきい値より異常度の正規化を行い正規化された異常度を求め(ステップS430)、しきい値データ70から異常度を求めた稼働情報を取得したHGW131と同一の稼働構成におけるしきい値を取得し(ステップS440)、前記正規化された異常度と前記しきい値とを比較し(ステップ450)、正規化された異常度がしきい値より大きいのであれば、異常と判定する(ステップS460)。
The abnormality determination means 60 normalizes the abnormality degree from the cluster threshold value of the cluster to which the abnormality degree registered in the learning
一実施の形態において、異常対策管理手段65は、異常判定手段60で異常と判定された場合、異常と判断された稼働情報含む機器稼働情報155を送信したHGW131に対し、異常の種類に応じた対策方法175を送信する。
In one embodiment, the abnormality countermeasure management unit 65 responds to the type of abnormality to the
また、図16は、1台のHGW131と1台の異常監視装置103からなる構成を例示したが、HGWの数を制限するのもではない。また、異常監視装置103は、本発明の一実施の形態における、学習処理(600)、稼働構成登録処理(630)、しきい値学習処理(640)、異常判定処理(620)を複数のハードウェアで分散して実行することを制限するものではない。
FIG. 16 exemplifies a configuration including one
また、図16は、異常判定処理(620)を異常監視装置103で行うことを例示したが、例えば、図32の他の構成における動作の流れを例示するシーケンス図に示すように、学習データ40としきい値データ70をHGW131に送信することにより、異常判定処理(620)をHGW131で実行してもよい。本発明は、各処理の配置を制限するものではない。
16 illustrates that the abnormality determination process (620) is performed by the
また、一実施の形態において、学習手段30において、学習データ40を作成する方法を例示したが、学習データ40を作成する方法を制限するものではない。
Further, in the embodiment, the method of creating the learning
また、一実施の形態において、学習データ40は、学習手段30により新しい学習データで学習データを更新する方法を例示したが、学習手段30は、学習データ40を参照して学習することも可能であり、また、予め新しい稼働構成に対して別の手段で予め学習データを作成し、学習データ40を更新することも、もちろん可能である。
In the embodiment, the learning
また、一実施の形態において、異常度解析手段50において、異常度を求める方法を例示したが、異常度を求める方法を制限するものではない。 Further, in the embodiment, the method for obtaining the degree of abnormality in the abnormality degree analyzing means 50 is exemplified, but the method for obtaining the degree of abnormality is not limited.
また、一実施の形態において、しきい値学習手段90において、しきい値の値を求める方法を例示したが、しきい値の値を求める方法を制限するものではない。 In the embodiment, the threshold learning means 90 has exemplified the method for obtaining the threshold value, but the method for obtaining the threshold value is not limited.
また、一実施の形態において、クラスタ範囲を求める方法を例示したがクラスタ範囲を求める方法を制限するものではない。 Further, in the embodiment, the method for obtaining the cluster range is illustrated, but the method for obtaining the cluster range is not limited.
また、一実施の形態において、異常度を正規化してしきい値と比較する方法を例示したが、これに限定されず、稼働構成のしきい値と求めた異常度が属するクラスタのクラスタしきい値に応じて、異常度のしきい値を設定してもよい。 Further, in the embodiment, the method of normalizing the degree of abnormality and comparing it with the threshold is exemplified, but the present invention is not limited to this, and the cluster threshold of the cluster to which the threshold of the operating configuration and the obtained degree of abnormality belong. Depending on the value, a threshold value of the degree of abnormality may be set.
また、一実施の形態において、図26に例示する稼働構成の分類は、ハード構成と登録アプリの組合せを例示したが、これに限定されず、例えばハード構成と稼働中のアプリの組合せを単位とする稼働構成でしきい値を設定してもよい。 In the embodiment, the classification of the operation configuration illustrated in FIG. 26 illustrates the combination of the hardware configuration and the registered application. However, the present invention is not limited to this. For example, the combination of the hardware configuration and the active application is a unit. The threshold value may be set in the operating configuration.
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。 As mentioned above, the invention made by the present inventor has been specifically described based on the embodiment. However, the present invention is not limited to the embodiment, and various modifications can be made without departing from the scope of the invention. Needless to say.
以上の説明から明らかなように、機器の運用中に機器から収集した稼働情報を使って学習手段30により学習モデルを学習できるので、予め試験環境では検出できない異常の検出を学習した学習モデルを用いて行うことができ、さらに、しきい値学習手段90を設けることにより、稼働構成毎の学習量に応じて稼働構成毎のしきい値を設定することにより、異常判定手段60において異常度解析手段50が出力する異常度が異常か否か判断するためのしきい値を、異常度を求めた稼働情報を出力した機器と同一の稼働構成を持つ機器から取得した稼働情報を使った学習量に応じて高く設定することができるので、新設、機能の追加、削除、更新などによる機器の構成が変更されても、学習済みの学習モデルを使った異常の判定を誤検出する確率を低減することが可能になる。
As is clear from the above description, since the
15 稼働情報取得手段
16 稼働構成取得手段
20 稼働情報データ
30 学習手段
40 学習データ
50 異常度解析手段
60 異常判定手段
70 しきい値データ
80 管理手段
85 稼働構成データ
90 しきい値学習手段
610 学習処理
620 異常判定処理
630 稼働構成登録処理
640 しきい値学習処理
15 operation information acquisition means 16 operation configuration acquisition means 20
Claims (9)
前記稼働状態を示す稼働情報を前記機器から収集し、前記稼働情報を学習して学習結果を記憶する第1の学習ステップと、
前記機器の稼働時の構成からなる稼働構成を収集して、前記第1の学習ステップにおいて前記稼働構成に対応した前記機器から収集した前記稼働情報の学習量に応じた前記稼働構成毎のしきい値を学習して稼働構成に対応したしきい値を記憶する第2の学習ステップと、
前記機器から収集した前記稼働情報と前記学習結果とを比較して解析し、その内容を異常度として出力する解析ステップと、
前記異常度と、前記解析ステップで前記異常度を求めた前記機器と同一の前記稼働構成に対応したしきい値を比較して、前記異常度が異常か否の値を示すかを判断する異常判定ステップと
を有することを特徴とする異常検出方法。 An abnormality detection method for monitoring an operating state of a plurality of devices and detecting an abnormality of the device,
A first learning step of collecting operating information indicating the operating state from the device, learning the operating information, and storing a learning result;
The threshold for each operating configuration according to the learning amount of the operating information collected from the device corresponding to the operating configuration in the first learning step by collecting the operating configuration consisting of the operating configuration of the device A second learning step of learning a value and storing a threshold corresponding to the operating configuration;
Analyzing the operation information collected from the device in comparison with the learning result, and analyzing the output as the degree of abnormality;
Comparing the abnormality level with a threshold value corresponding to the same operating configuration as the device for which the abnormality level was obtained in the analysis step, and determining whether the abnormality level indicates a value of whether or not the abnormality is abnormal An abnormality detection method comprising: a determination step.
前記第2の学習ステップは、前記第1の学習ステップに同期して、前記しきい値を学習する
ことを特徴とする異常検出方法。 In claim 1,
The abnormality detection method characterized in that the second learning step learns the threshold value in synchronization with the first learning step.
前記解析ステップは、前記第1の学習ステップと前記第2の学習ステップと非同期に異常度を出力する
ことを特徴とする異常検出方法。 In claim 1,
The abnormality detection method characterized in that the analysis step outputs an abnormality degree asynchronously with the first learning step and the second learning step.
前記稼働状態を示す稼働情報を前記機器から収集し、前記稼働情報を学習して学習結果を記憶する第1の学習処理部と、
前記機器の稼働時の構成からなる稼働構成を収集して、前記第1の学習ステップにおいて前記稼働構成に対応した前記機器から収集した前記稼働情報の学習量に応じた前記稼働構成毎のしきい値を学習して稼働構成に対応したしきい値を記憶する第2の学習処理部と、
前記機器から収集した前記稼働情報と前記学習結果とを比較して解析し、その内容を異常度として出力する解析処理部と、
前記異常度と、前記解析ステップで前記異常度を求めた前記機器と同一の前記稼働構成に対応したしきい値を比較して、前記異常度が異常か否の値を示すかを判断する異常判定処理部と
を前記異常監視装置に備える
ことを特徴とする情報処理システム。 An information processing system comprising a plurality of devices and an abnormality monitoring device that monitors an operating state of the devices and detects an abnormality of the devices,
A first learning processing unit that collects operation information indicating the operation state from the device, learns the operation information, and stores a learning result;
The threshold for each operating configuration according to the learning amount of the operating information collected from the device corresponding to the operating configuration in the first learning step by collecting the operating configuration consisting of the operating configuration of the device A second learning processing unit for learning a value and storing a threshold corresponding to the operation configuration;
Analyzing the operation information collected from the device in comparison with the learning result, and outputting the content as an abnormality level;
Comparing the abnormality level with a threshold value corresponding to the same operating configuration as the device for which the abnormality level was obtained in the analysis step, and determining whether the abnormality level indicates a value of whether or not the abnormality is abnormal An information processing system comprising a determination processing unit in the abnormality monitoring device.
前記第2の学習処理部は、前記第1の学習処理部に同期して、前記しきい値を学習する
ことを特徴とする情報処理システム。 In claim 4,
The information processing system, wherein the second learning processing unit learns the threshold value in synchronization with the first learning processing unit.
前記解析処理部は、前記第1の学習処理部と前記第2の学習処理部と非同期に異常度を出力する
ことを特徴とする情報処理システム。 In claim 4,
The information processing system, wherein the analysis processing unit outputs an abnormality degree asynchronously with the first learning processing unit and the second learning processing unit.
前記稼働状態を示す稼働情報を前記機器から収集し、前記稼働情報を学習して学習結果を記憶する第1の学習処理部と、
前記機器の稼働時の構成からなる稼働構成を収集して、前記第1の学習ステップにおいて前記稼働構成に対応した前記機器から収集した前記稼働情報の学習量に応じた前記稼働構成毎のしきい値を学習して稼働構成に対応したしきい値を記憶する第2の学習処理部と
を前記異常監視装置に備え、
前記機器から収集した前記稼働情報と前記学習結果とを比較して解析し、その内容を異常度として出力する解析処理部と、
前記異常度と、前記解析ステップで前記異常度を求めた前記機器と同一の前記稼働構成に対応したしきい値を比較して、前記異常度が異常か否の値を示すかを判断する異常判定処理部と
を前記機器に備える
ことを特徴とする情報処理システム。 An information processing system comprising a plurality of devices and an abnormality monitoring device that monitors an operating state of the devices and detects an abnormality of the devices,
A first learning processing unit that collects operation information indicating the operation state from the device, learns the operation information, and stores a learning result;
The threshold for each operating configuration according to the learning amount of the operating information collected from the device corresponding to the operating configuration in the first learning step by collecting the operating configuration consisting of the operating configuration of the device A second learning processing unit that learns a value and stores a threshold value corresponding to the operating configuration;
Analyzing the operation information collected from the device in comparison with the learning result, and outputting the content as an abnormality level;
Comparing the abnormality level with a threshold value corresponding to the same operating configuration as the device for which the abnormality level was obtained in the analysis step, and determining whether the abnormality level indicates a value of whether or not the abnormality is abnormal An information processing system comprising a determination processing unit in the device.
前記第2の学習処理部は、前記第1の学習処理部に同期して、前記しきい値を学習する
ことを特徴とする情報処理システム。 In claim 7,
The information processing system, wherein the second learning processing unit learns the threshold value in synchronization with the first learning processing unit.
前記解析処理部は、前記第1の学習処理部と前記第2の学習処理部と非同期に異常度を出力する
ことを特徴とする情報処理システム。 In claim 7,
The information processing system, wherein the analysis processing unit outputs an abnormality degree asynchronously with the first learning processing unit and the second learning processing unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010058618A JP2011192097A (en) | 2010-03-16 | 2010-03-16 | Failure detection method and information processing system using the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010058618A JP2011192097A (en) | 2010-03-16 | 2010-03-16 | Failure detection method and information processing system using the same |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011192097A true JP2011192097A (en) | 2011-09-29 |
Family
ID=44796916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010058618A Pending JP2011192097A (en) | 2010-03-16 | 2010-03-16 | Failure detection method and information processing system using the same |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011192097A (en) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014050985A1 (en) | 2012-09-27 | 2014-04-03 | 日東電工株式会社 | System for remotely monitoring household appliance |
WO2014196129A1 (en) * | 2013-06-03 | 2014-12-11 | 日本電気株式会社 | Fault analysis device, fault analysis method, and recording medium |
WO2014208002A1 (en) * | 2013-06-25 | 2014-12-31 | 日本電気株式会社 | System analysis device, system analysis method and system analysis program |
JP2015046133A (en) * | 2013-08-29 | 2015-03-12 | 日本電信電話株式会社 | Controller, computation resources management method, and computation resources management program |
WO2015072085A1 (en) * | 2013-11-12 | 2015-05-21 | 日本電気株式会社 | Log analysis system, log analysis method, and storage medium |
JP2016024790A (en) * | 2014-07-24 | 2016-02-08 | 富士通フロンテック株式会社 | Operation management server, operation program, and server operation method |
JP2016517984A (en) * | 2013-04-11 | 2016-06-20 | オラクル・インターナショナル・コーポレイション | Grasping seasonal trends in Java heap usage, forecasting, anomaly detection, endpoint forecasting |
WO2018150550A1 (en) * | 2017-02-17 | 2018-08-23 | 株式会社日立製作所 | Learning data management device and learning data management method |
JP2018530803A (en) * | 2015-07-14 | 2018-10-18 | サイオス テクノロジー コーポレーションSios Technology Corporation | Apparatus and method for utilizing machine learning principles for root cause analysis and repair in a computer environment |
CN110032495A (en) * | 2019-03-28 | 2019-07-19 | 阿里巴巴集团控股有限公司 | Data exception detection method and device |
US10417111B2 (en) | 2016-05-09 | 2019-09-17 | Oracle International Corporation | Correlation of stack segment intensity in emergent relationships |
US10613960B2 (en) | 2017-07-31 | 2020-04-07 | Mitsubishi Electric Corporation | Information processing apparatus and information processing method |
US10740358B2 (en) | 2013-04-11 | 2020-08-11 | Oracle International Corporation | Knowledge-intensive data processing system |
JP2021018813A (en) * | 2019-07-18 | 2021-02-15 | 株式会社日立製作所 | Method and system for detecting root cause of abnormality in data set |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005182647A (en) * | 2003-12-22 | 2005-07-07 | Nec Corp | Abnormality detector for apparatus |
JP2005250802A (en) * | 2004-03-03 | 2005-09-15 | Toshiba Solutions Corp | Device and program for detecting improper access |
JP2009053862A (en) * | 2007-08-24 | 2009-03-12 | Hitachi Ltd | Information processing system, data format conversion method, and program |
-
2010
- 2010-03-16 JP JP2010058618A patent/JP2011192097A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005182647A (en) * | 2003-12-22 | 2005-07-07 | Nec Corp | Abnormality detector for apparatus |
JP2005250802A (en) * | 2004-03-03 | 2005-09-15 | Toshiba Solutions Corp | Device and program for detecting improper access |
JP2009053862A (en) * | 2007-08-24 | 2009-03-12 | Hitachi Ltd | Information processing system, data format conversion method, and program |
Non-Patent Citations (1)
Title |
---|
中台慎二: "サポートベクターマシンを用いた事例ベース障害検出", 電子情報通信学会技術研究報告, vol. 第108巻、第288号, JPN6013049851, 6 November 2008 (2008-11-06), JP, pages 1 - 6, ISSN: 0002649811 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014050985A1 (en) | 2012-09-27 | 2014-04-03 | 日東電工株式会社 | System for remotely monitoring household appliance |
JP2016517984A (en) * | 2013-04-11 | 2016-06-20 | オラクル・インターナショナル・コーポレイション | Grasping seasonal trends in Java heap usage, forecasting, anomaly detection, endpoint forecasting |
US11468098B2 (en) | 2013-04-11 | 2022-10-11 | Oracle International Corporation | Knowledge-intensive data processing system |
US10740358B2 (en) | 2013-04-11 | 2020-08-11 | Oracle International Corporation | Knowledge-intensive data processing system |
US10333798B2 (en) | 2013-04-11 | 2019-06-25 | Oracle International Corporation | Seasonal trending, forecasting, anomaly detection, and endpoint prediction of thread intensity statistics |
US10205640B2 (en) | 2013-04-11 | 2019-02-12 | Oracle International Corporation | Seasonal trending, forecasting, anomaly detection, and endpoint prediction of java heap usage |
JPWO2014196129A1 (en) * | 2013-06-03 | 2017-02-23 | 日本電気株式会社 | Fault analysis apparatus, fault analysis method, and computer program |
US9612898B2 (en) | 2013-06-03 | 2017-04-04 | Nec Corporation | Fault analysis apparatus, fault analysis method, and recording medium |
WO2014196129A1 (en) * | 2013-06-03 | 2014-12-11 | 日本電気株式会社 | Fault analysis device, fault analysis method, and recording medium |
JPWO2014208002A1 (en) * | 2013-06-25 | 2017-02-23 | 日本電気株式会社 | System analysis apparatus, system analysis method, and system analysis program |
US9658916B2 (en) | 2013-06-25 | 2017-05-23 | Nec Corporation | System analysis device, system analysis method and system analysis program |
WO2014208002A1 (en) * | 2013-06-25 | 2014-12-31 | 日本電気株式会社 | System analysis device, system analysis method and system analysis program |
JP2015046133A (en) * | 2013-08-29 | 2015-03-12 | 日本電信電話株式会社 | Controller, computation resources management method, and computation resources management program |
JPWO2015072085A1 (en) * | 2013-11-12 | 2017-03-16 | 日本電気株式会社 | Log analysis system, log analysis method, and program |
WO2015072085A1 (en) * | 2013-11-12 | 2015-05-21 | 日本電気株式会社 | Log analysis system, log analysis method, and storage medium |
JP2016024790A (en) * | 2014-07-24 | 2016-02-08 | 富士通フロンテック株式会社 | Operation management server, operation program, and server operation method |
JP2018530803A (en) * | 2015-07-14 | 2018-10-18 | サイオス テクノロジー コーポレーションSios Technology Corporation | Apparatus and method for utilizing machine learning principles for root cause analysis and repair in a computer environment |
US10467123B2 (en) | 2016-05-09 | 2019-11-05 | Oracle International Corporation | Compression techniques for encoding stack trace information |
US11144352B2 (en) | 2016-05-09 | 2021-10-12 | Oracle International Corporation | Correlation of thread intensity and heap usage to identify heap-hoarding stack traces |
US11640320B2 (en) | 2016-05-09 | 2023-05-02 | Oracle International Corporation | Correlation of thread intensity and heap usage to identify heap-hoarding stack traces |
US10534643B2 (en) | 2016-05-09 | 2020-01-14 | Oracle International Corporation | Correlation of thread intensity and heap usage to identify heap-hoarding stack traces |
US11614969B2 (en) | 2016-05-09 | 2023-03-28 | Oracle International Corporation | Compression techniques for encoding stack trace information |
US10417111B2 (en) | 2016-05-09 | 2019-09-17 | Oracle International Corporation | Correlation of stack segment intensity in emergent relationships |
US11327797B2 (en) | 2016-05-09 | 2022-05-10 | Oracle International Corporation | Memory usage determination techniques |
US11093285B2 (en) | 2016-05-09 | 2021-08-17 | Oracle International Corporation | Compression techniques for encoding stack trace information |
WO2018150550A1 (en) * | 2017-02-17 | 2018-08-23 | 株式会社日立製作所 | Learning data management device and learning data management method |
JPWO2018150550A1 (en) * | 2017-02-17 | 2019-07-25 | 株式会社日立製作所 | Learning data management apparatus and learning data management method |
US10613960B2 (en) | 2017-07-31 | 2020-04-07 | Mitsubishi Electric Corporation | Information processing apparatus and information processing method |
CN110032495A (en) * | 2019-03-28 | 2019-07-19 | 阿里巴巴集团控股有限公司 | Data exception detection method and device |
CN110032495B (en) * | 2019-03-28 | 2023-08-25 | 创新先进技术有限公司 | Data anomaly detection method and device |
JP2021018813A (en) * | 2019-07-18 | 2021-02-15 | 株式会社日立製作所 | Method and system for detecting root cause of abnormality in data set |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2011192097A (en) | Failure detection method and information processing system using the same | |
CN106462702B (en) | Method and system for acquiring and analyzing electronic forensic data in a distributed computer infrastructure | |
US8601319B2 (en) | Method and apparatus for cause analysis involving configuration changes | |
US7975186B2 (en) | Operations management apparatus, operations management system, data processing method, and operations management program | |
JP5874936B2 (en) | Operation management apparatus, operation management method, and program | |
US20170068581A1 (en) | System and method for relationship based root cause recommendation | |
EP3128433B1 (en) | Log analysis system | |
US10452469B2 (en) | Server performance correction using remote server actions | |
US8661543B2 (en) | Mobile terminal having security diagnosis functionality and method of making diagnosis on security of mobile terminal | |
CN106294219B (en) | Equipment identification and data processing method, device and system | |
JP2018148350A (en) | Threshold determination device, threshold level determination method and program | |
CN110825545A (en) | Cloud service platform anomaly detection method and system | |
WO2015131643A1 (en) | Software detection method and device | |
JP5604312B2 (en) | Anomaly detection method and information processing system using the same | |
JP6223380B2 (en) | Relay device and program | |
WO2020044898A1 (en) | Device status monitoring device and program | |
JP5979185B2 (en) | Operation management apparatus, operation management system, information processing method, and operation management program | |
JP2020038525A (en) | Abnormality detecting device | |
CN113553243A (en) | Remote error detection method | |
JP5590196B2 (en) | Operation management apparatus, operation management system, information processing method, and operation management program | |
JP6892005B2 (en) | Information processing equipment, control methods, and programs | |
JP5679347B2 (en) | Failure detection device, failure detection method, and program | |
JP6775452B2 (en) | Monitoring system, program and monitoring method | |
JP7176295B2 (en) | Determination device, gateway, determination method and determination program | |
JP5371096B2 (en) | Monitoring system, monitoring method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131002 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131206 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140318 |