JP2006059266A - Failure analysis method and device therefor - Google Patents
Failure analysis method and device therefor Download PDFInfo
- Publication number
- JP2006059266A JP2006059266A JP2004242659A JP2004242659A JP2006059266A JP 2006059266 A JP2006059266 A JP 2006059266A JP 2004242659 A JP2004242659 A JP 2004242659A JP 2004242659 A JP2004242659 A JP 2004242659A JP 2006059266 A JP2006059266 A JP 2006059266A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- failure
- network
- component names
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Test And Diagnosis Of Digital Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
Description
本発明は、障害解析方法及びその装置に関し、伝送装置を含むネットワーク構成要素を制御するオペレーションシステムにおける障害発生時の障害解析方法及びその装置に関する。 The present invention relates to a failure analysis method and apparatus, and more particularly, to a failure analysis method and apparatus when a failure occurs in an operation system that controls network components including a transmission apparatus.
従来から、ネットワークを構成する伝送装置やルータ等のネットワーク構成要素をオペレーションシステムで管理し制御することが行われている。 2. Description of the Related Art Conventionally, network components such as transmission devices and routers constituting a network are managed and controlled by an operation system.
図1は、オペレーションシステムの一例のブロック構成図を示す。同図中、オペレーションシステムは、画面表示および操作を行う複数のGUI(Graphic User Interface)端末101〜10Nを有するGUI部10、GUI部10から要求を受け必要な情報を取得/設定し、要求された処理を実行するためのシーケンス管理を行っている制御部12、データベースの制御やネットワーク20を構成する複数の伝送装置221〜22Mに対してコマンド要求などを行う基本部14、伝送装置とオペレーションシステムとの情報の送受信管理を行う通信部16、警報の管理や伝送装置の状態の管理などを行う監視部18などの複数のコンポーネントから構成されている。
FIG. 1 is a block diagram illustrating an example of an operation system. In the figure, the operation system acquires / sets necessary information in response to requests from the
ここで、保守者がGUI端末を用いて制御を行うと、オペレーションシステム内では、最初にGUI部10、次に制御部12、基本部14、通信部16、……と各コンポーネントが順次処理を行う。その際、各コンポーネントでは処理を実施したタイミングで、それぞれが独自に履歴を記録して管理する。
Here, when the maintenance person performs control using the GUI terminal, in the operation system, the
障害が発生した場合には、保守者はGUI部10の履歴を解析し、GUI部10として正常な処理を行っているか、即ち、正常な値を設定し、次のコンポーネントに渡しているかなどを確認する。次に、保守者は制御部12の履歴を解析し、制御部12として正常な処理を行っているかを確認する。このように、処理の流れを追い、GUI部10から通信部16に至るまでの全ての履歴を順に解析することで障害が発生している箇所を特定していた。
When a failure occurs, the maintenance person analyzes the history of the
なお、特許文献1には、故障を申告したユーザサービスを利用する際の設備モデルを作成し、この設備モデルを構成する各サービス構成要素が故障したときの通信シーケンスを生成し、各通信シーケンスと故障申告時の観測情報を比較して故障したサービス構成要素を推定することが記載されている。
In
また、特許文献2には、オペレーションシステムとネットワークエレメント間で送受信される設定命令の手順と運用保守情報を詳細ログデータとして保持するとともに、装置構成情報と設定情報の内容を構成データベース内に蓄積することが記載されている。 Japanese Patent Laid-Open No. 2004-228620 holds the procedure of setting commands transmitted and received between the operation system and the network element and operation maintenance information as detailed log data, and stores the contents of the device configuration information and setting information in the configuration database. It is described.
また、特許文献3には、任意のネットワークエレメントのイベントが他のネットワークエレメントに発生させる様子をモデル化し、あるネットワークエレメントで故障が発生した場合に、故障のイベントから故障伝搬モデルを辿り、故障原因を探索することが記載されている。
従来の技術のような履歴の取得方法では、各々の処理内容の履歴を取得することはできるが、オペレーションシステム全体の処理が記録された履歴を取得することはできない。また、障害発生時に、どの部位で問題が発生しているのかが予め分かっている場合は、履歴を取得しているため解析が容易であるが、どの部位で問題が発生しているのかが予め分からない場合は、全ての履歴を順に解析する必要があり、解析に多大な工数を必要とする。 The history acquisition method as in the prior art can acquire the history of each processing content, but cannot acquire the history in which the processing of the entire operation system is recorded. In addition, when it is known in advance at which part the problem has occurred at the time of failure, it is easy to analyze because the history is acquired, but in which part the problem has occurred in advance When it is not known, it is necessary to analyze all the histories in order, which requires a lot of man-hours for the analysis.
それに加え、各コンポーネントで取得するログ取得フォーマットは、各コンポーネントによって取得したい情報がまちまちで共通化が図れないために、これもまた解析に多大な工数が必要となる要因になっている。また、規模が大きいシステムほど、システムを構成するコンポーネント数は増加するため、取得するログの種類や取得量は増加し、問題解析はより複雑さを増すという問題があった。 In addition, the log acquisition format acquired by each component is a factor that requires a large amount of man-hours for analysis because information to be acquired by each component is mixed and cannot be shared. Further, since the number of components constituting the system increases as the scale of the system increases, the types of logs to be acquired and the acquisition amount increase, and there is a problem that problem analysis increases in complexity.
このような問題が発生している状況は大抵の場合が緊急事態であるため、顧客は早期問題改修を望むために、多くの時間を費やして解析を行うことが許されない場合がほとんどである。 Since the situation where such a problem occurs is an emergency in most cases, in many cases, the customer is not allowed to spend a lot of time for analysis in order to correct the problem early.
本発明は、上記の点に鑑みなされたものであり、オペレーションシステム及びネットワーク構成要素において発生した障害を短時間かつ容易に解析できる障害解析方法及びその装置を提供することを目的とする。 The present invention has been made in view of the above points, and an object of the present invention is to provide a failure analysis method and apparatus that can easily and quickly analyze a failure that has occurred in an operation system and network components.
請求項1に記載の発明は、通信ネットワークシステムを構成する複数のネットワーク構成要素それぞれを制御かつ監視するオペレーションシステムの障害解析方法において、
前記オペレーションシステムの機能毎に、正常に動作した場合の前記オペレーションシステムを構成する複数のコンポーネント及びネットワーク構成要素の処理シーケンスをコンポーネント名及びネットワーク構成要素名の時系列の並びとしてパターン化した正常パターンと、過去に発生した障害におけるコンポーネント名及びネットワーク構成要素名の時系列の並びとしてパターン化した異常パターンを保持しておき、
前記複数のコンポーネント及びネットワーク構成要素がそれぞれ独自に取得している処理の履歴から、障害が発生した機能の処理シーケンスをコンポーネント名及びネットワーク構成要素名の時系列の並びとして抽出し検索パターンを作成し、
前記障害が発生した機能の検索パターンと、前記障害が発生した機能に対応する機能として保持されている前記正常パターン及び異常パターンとを照合して障害解析を行うことにより、オペレーションシステム及びネットワーク構成要素において発生した障害を短時間かつ容易に解析することができる。
The invention according to
For each function of the operation system, a normal pattern in which processing sequences of a plurality of components and network components constituting the operation system when operating normally are patterned as a time series of component names and network component names , Keep the anomaly pattern patterned as a chronological sequence of component names and network component names in past failures,
Create a search pattern by extracting the processing sequence of the function in which the failure occurred from the history of processing acquired independently by each of the plurality of components and network components as a time series of component names and network component names. ,
An operation system and a network component by performing a failure analysis by collating the search pattern of the function in which the failure has occurred with the normal pattern and the abnormal pattern held as a function corresponding to the function in which the failure has occurred Can be analyzed in a short time and easily.
請求項2に記載の発明は、請求項1記載の障害解析方法において、
前記複数のコンポーネント及びネットワーク構成要素がそれぞれ独自に取得している処理の履歴は、処理対象のネットワーク構成要素名、及び取得した日時、及び処理内容のフォーマットを共通化したことにより、検索パターンを容易に作成することができる。
The invention according to
The history of processing that each of the plurality of components and network components has independently acquired can be easily searched by sharing the name of the network component to be processed, the date and time of acquisition, and the format of the processing content. Can be created.
請求項3に記載の発明は、通信ネットワークシステムを構成する複数のネットワーク構成要素それぞれを制御かつ監視するオペレーションシステムの障害解析装置において、
前記オペレーションシステムの機能毎に、正常に動作した場合の前記オペレーションシステムを構成する複数のコンポーネント及びネットワーク構成要素の処理シーケンスをコンポーネント名及びネットワーク構成要素名の時系列の並びとしてパターン化した正常パターンと、過去に発生した障害におけるコンポーネント名及びネットワーク構成要素名の時系列の並びとしてパターン化した異常パターンを保持するパターン保持手段と、
前記複数のコンポーネント及びネットワーク構成要素がそれぞれ独自に取得している処理の履歴から、障害が発生した機能の処理シーケンスをコンポーネント名及びネットワーク構成要素名の時系列の並びとして抽出し検索パターンを作成する検索パターン作成手段と、
前記障害が発生した機能の検索パターンと、前記障害が発生した機能に対応する機能として保持されている前記正常パターン及び異常パターンとを照合して障害解析を行う照合手段を有することにより、オペレーションシステム及びネットワーク構成要素において発生した障害を短時間かつ容易に解析することができる。
According to a third aspect of the present invention, there is provided a failure analysis apparatus for an operation system that controls and monitors each of a plurality of network components constituting a communication network system.
For each function of the operation system, a normal pattern in which processing sequences of a plurality of components and network components constituting the operation system when operating normally are patterned as a time series of component names and network component names A pattern holding means for holding an abnormal pattern patterned as a time-series arrangement of component names and network component names in a failure that has occurred in the past;
A processing pattern of a function in which a failure has occurred is extracted as a time-series sequence of component names and network component names from the processing history independently acquired by each of the plurality of components and network components, and a search pattern is created. Search pattern creation means;
An operation system comprising collating means for collating the search pattern of the function in which the fault has occurred with the normal pattern and the abnormal pattern held as a function corresponding to the function in which the fault has occurred to perform fault analysis In addition, a failure occurring in the network component can be analyzed easily in a short time.
請求項4に記載の発明は、請求項3記載の障害解析装置において、
前記複数のコンポーネント及びネットワーク構成要素がそれぞれ独自に取得している処理の履歴は、処理対象のネットワーク構成要素名、及び取得した日時、及び処理内容のフォーマットを共通化したことにより、検索パターンを容易に作成することができる。
The invention according to
The history of processing that each of the plurality of components and network components has independently acquired can be easily searched by sharing the name of the network component to be processed, the date and time of acquisition, and the format of the processing content. Can be created.
請求項5に記載の発明は、請求項3または4記載の障害解析装置において、
前記照合手段における前記検索パターンと前記正常パターン及び異常パターンとの照合結果が不一致の場合、前記検索パターンを新たな異常パターンとして前記パターン保持手段に追加保持する追加保持手段を有することにより、予め想定することができなかった新たな異常に対しても、それ以降、同じ異常が発生した場合には、迅速な対応が可能となる。
The invention according to
It is assumed in advance by having additional holding means for additionally holding the search pattern as a new abnormal pattern in the pattern holding means when the result of matching between the search pattern and the normal pattern and the abnormal pattern in the matching means does not match. Even if a new abnormality that could not be made occurs thereafter, if the same abnormality occurs, a quick response can be made.
本発明によれば、オペレーションシステム及びネットワーク構成要素において発生した障害を短時間かつ容易に解析できる。 According to the present invention, a failure occurring in an operation system and a network component can be analyzed in a short time and easily.
以下、図面に基づいて本発明の実施形態について説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図2は、本発明の障害解析方法の一実施形態を説明するためのオペレーションシステムを含むブロック構成図を示す。同図中、オペレーションシステムは、画面表示および操作を行う複数のGUI(Graphic User Interface)端末301〜30Nを有するGUI部30、GUI部30から要求を受け必要な情報を取得/設定し、要求された処理を実行するためのシーケンス管理を行っている制御部32、データベースの制御やネットワーク40を構成する複数の伝送装置421〜42Mに対してコマンド要求などを行う基本部34、伝送装置とオペレーションシステムとの情報の送受信管理を行う通信部36、警報の管理や伝送装置の状態の管理などを行う監視部38などの複数のコンポーネントから構成されている。
FIG. 2 shows a block configuration diagram including an operation system for explaining an embodiment of the failure analysis method of the present invention. In the figure, the operation system obtains / sets necessary information in response to requests from the
GUI部30は処理を実施する毎にGUI履歴31に履歴を記録して管理し、制御部32は処理を実施する毎に制御部履歴33に履歴を記録して管理し、基本部34は処理を実施する毎に基本部履歴35に履歴を記録して管理し、通信部36は処理を実施する毎に通信部履歴37に履歴を記録して管理し、監視部38は処理を実施する毎に監視部履歴39に履歴を記録して管理する。また、各伝送装置421〜42Mそれぞれは処理を実施する毎に伝送装置履歴431〜43Mそれぞれに履歴を記録して管理する。
The GUI
この際に、各コンポーネント及び伝送装置は履歴の先頭にヘッダ情報を付加して記録する。図3は、GUI履歴31におけるヘッダの一実施形態を示す。同図中、ヘッダは処理を行った日時と、処理対象の伝送装置番号である対象装置と、どのような処理を行ったかを表わす処理内容が設定されている。なお、各ヘッダの先頭には例えば「###」等のヘッダ識別子が設けられている。制御部履歴33、基本部履歴35、通信部履歴37、監視部履歴39、伝送装置履歴431〜43Mそれぞれのヘッダ情報についても図3のGUI履歴31と同様である。
At this time, each component and transmission apparatus records header information added to the beginning of the history. FIG. 3 shows an embodiment of the header in the
図2に示す履歴解析部44は、例えば障害発生時に、GUI履歴31、制御部履歴33、基本部履歴35、通信部履歴37、監視部履歴39、伝送装置履歴431〜43Mそれぞれをアクセスして処理対象に関するヘッダ情報を抽出して時系列に並べることで検索パターンを作成する。そして、この検索パターンをデータベース46に登録されているシーケンスパターンと照合(マッチング)して正常/異常判定を行う。
The
データベース46には、オペレーションシステムに、システムとして提供している機能(制御)の処理をパターン化したシーケンスパターンが格納されている。シーケンスパターンは、図4に示すように、機能名と、対象装置番号1、対象装置番号2(処理によっては複数の装置に対して制御を行うものも存在するため)、履歴名(コンポーネント名及び伝送装置名)、処理内容、シーケンス番号が記録されており、機能毎に予め生成された正常パターンと、過去に起きた一または複数の異常パターンが格納されている。更に、異常パターンには、問題概要や障害原因や対処方法等を任意に記録できる。
The
履歴解析部44において、検索スパターンが正常パターンと一致した場合には当該機能の処理は正常であり、異常パターンと一致した場合はその異常パターンに記録されている問題概要や障害原因や対処方法等を参照して、保守作業に即座に対応することが可能となる。
In the
ここで、伝送装置421(#1)に対してパッケージを装着して使用可能とするPKG登録を行い正常終了した場合の処理シーケンスを図5に示す。 Here, FIG. 5 shows a processing sequence in the case where PKG registration for enabling use by mounting a package on the transmission device 42 1 (# 1) is performed and the processing is normally completed.
図5において、GUI部30にてPKG登録要求を行う(1)。なお、括弧内はシーケンス番号を示す。次に、制御部32はPKG登録要求のパラメータ設定を行い(2)、このPKG登録要求を基本部34に通知する(3)。基本部34はPKG登録要求を通信部36に通知し(4)、通信部36はPKG登録要求を伝送装置421に通知する(5)。
In FIG. 5, the
伝送装置421はPKG登録を実行し(6)、PKG登録の応答を行う(7)。通信部36はPKG登録応答を基本部34に通知する(8)。基本部34はPKG登録応答を自装置のデータベースに登録を行い(9)、PKG登録応答を制御部32に通知する(10)。制御部32はPKG登録応答をGUI部30に通知し(11)、GUI部30はPKG登録結果の表示を行う(12)。
The
次に、伝送装置421で警報が発生すると(13)、通信部36は警報を基本部34に通知する(14)。基本部34は警報を監視部38に通知し(15)、監視部38は警報を自装置のデータベースに登録を行い(16)、警報をGUI部30に通知する(17)。GUI部30は警報の表示を行う(18)。
Then, when the alarm in the
図5に示す処理シーケンスを実行した場合には、図6に示すシーケンスパターンが生成されて正常パターンとしてデータベース46に格納される。また、図5に示すPKG登録の処理シーケンスを行った場合、GUI部30の履歴は図3の日時(2004/05/06/20:00:00)の3つのレコードに示すようになる。なお、図3においては、伝送装置422(#2)のPKG削除を行ったのち、伝送装置421(#1)のPKG登録を2回連続して行った場合を示している。
When the processing sequence shown in FIG. 5 is executed, the sequence pattern shown in FIG. 6 is generated and stored in the
図7は、履歴解析部44が実行する処理のフローチャートを示す。ステップS10で解析情報を指定する。解析情報としては、対象装置番号と機能名と実施時間(開始日時と終了日時)が入力され、この他に付加情報が指定される場合もある。
FIG. 7 shows a flowchart of processing executed by the
ステップS12で履歴解析部44はGUI履歴31、制御部履歴33、基本部履歴35、通信部履歴37、監視部履歴39、伝送装置履歴431〜43Mそれぞれをアクセスして対象装置が解析情報の対象装置番号と一致し、かつ、日時が解析情報の実施時間(開始日時と終了日時)内にあるヘッダ情報を抽出し、抽出したヘッダ情報の日時が昇順となるよう時系列に並べ、この時系列に並べたヘッダ情報に対応する(即ち、読み出した)履歴名の並びを検索パターンとして抽出する。
In step S12, the
次に、ステップS14で上記検索パターンをデータベース46に格納されている対象装置番号と機能名が対応する正常パターンと照合し、ステップS16で検索パターンが正常パターンと一致したか否かを判別する。ここで検索パターンが正常パターンと一致した場合には、当該対象装置番号と機能名についての実施時間内の処理が正常であるとして、この処理を終了する。
Next, in step S14, the search pattern is compared with a normal pattern corresponding to the target device number and function name stored in the
一方、検索パターンが正常パターンと不一致の場合には、ステップS20でデータベース46に格納されている対象装置番号と機能名が対応する異常パターンの中から1つの異常パターンを選択し、検索パターンを選択した異常パターンと照合し、ステップS22で検索パターンがこの異常パターンと一致したか否かを判別する。ここで検索パターンが異常パターンと一致した場合には、ステップS24で当該異常パターンに記録されている問題概要や障害原因や対処方法等を参照して障害箇所を特定する。
On the other hand, if the search pattern does not match the normal pattern, one abnormal pattern corresponding to the target device number and function name stored in the
また、ステップS22で検索パターンが異常パターンと不一致の場合には、ステップS26でまだ照合を行っていない他の異常パターンがあるか否かを判別し、まだ照合を行っていない他の異常パターンがあればステップS28で他の異常パターンを選択してステップS20に進み、ステップS20〜S26を繰り返す。 If the search pattern does not match the abnormal pattern in step S22, it is determined in step S26 whether or not there is another abnormal pattern that has not been verified, and other abnormal patterns that have not been verified yet. If there is, another abnormal pattern is selected in step S28, the process proceeds to step S20, and steps S20 to S26 are repeated.
ステップS26で照合を行っていない他の異常パターンがない場合にはステップS30で検索パターンを、対象装置番号と機能名が対応する新たな異常パターンとしてデータベース46に格納し処理を終了する。なお、この新たな異常パターンの問題概要や障害原因や対処方法等は新たな異常パターンの更なる解析を行ったのち記録する。
If there is no other abnormal pattern that has not been collated in step S26, the search pattern is stored in the
ここで、データベース46に、伝送装置のPKG登録における正常パターンとして図8(A)に示すパターンが格納され、伝送装置のPKG登録における第1異常パターンとして図8(B)に示すパターンが格納され、伝送装置のPKG登録における第2異常パターンとして図8(C)に示すパターンが格納されているものとする。
Here, the
伝送装置421(#1)のPKG登録を行ったが異常終了したために、履歴解析部44で図7の処理を行い、ステップS12で図9に示す検索パターンが得られた場合、この図9の検索パターンはステップS16で図8(A)の正常パターンと不一致となる。また、ステップS22で図8(B)に示す異常パターンと不一致となるが、再度のステップS22で図8(C)に示す異常パターンと一致する。このため、ステップS24では伝送装置421(#1)にタイムアウト異常が発生した旨の異常診断がなされる。
When the PKG registration of the transmission device 42 1 (# 1) has been performed but terminated abnormally, the
このように、検索パターンと正常または異常パターンとの履歴名同士を順次照合して順次解析を行うことで、パターン内の全ての情報を比較する手間が省け、正常時もしくは障害発生時の識別を高速に行うことが可能となる。 In this way, the history names of the search pattern and the normal or abnormal pattern are sequentially compared and analyzed sequentially, eliminating the need to compare all the information in the pattern and identifying when it is normal or when a failure occurs. It can be performed at high speed.
ところで、対象装置番号と機能名毎の図8(B),(C)に示すような複数の異常パターンについて、保守者が予め優先順位をつける。例えば最優先の優先順位1の異常パターンは3パターン、優先順位2の異常パターンは3パターン、優先順位3の異常パターンは5パターンとする。そして、図7のステップS10で付加情報として優先度nを指定し、ステップS14,S28では優先順位1のものから順に異常パターンを選択し、優先順位が優先度nとなるまで検索パターンと異常パターンとの照合を行い、優先順位が上記優先度nを超えたとき照合を終了する構成とする。
By the way, the maintenance person prioritizes a plurality of abnormal patterns as shown in FIGS. 8B and 8C for each target device number and function name. For example, the
この場合は、図10に示すように、ある対象装置番号と機能名について、20パターンの異常パターンが存在する場合にも、優先度n=2が指定されると、優先順位2までの例えば6パターンの異常パターンが検索パターンと照合される。これによって、照合に用いる異常パターン数を規定することで簡易的な障害解析が可能となる。
In this case, as shown in FIG. 10, even when there are 20 abnormal patterns for a certain target device number and function name, if priority n = 2 is designated, for example, up to
更に、対象装置番号と機能名毎の異常パターンに保守者が予め優先順位をつける代りに、照合によって検索パターンと一致した回数を異常パターン毎にカウントしておく。なお、異常パターンがデータベース46に登録された時点では、そのカウント値は0とする。図7の処理を開始する前に、検索パターンと一致した回数(頻度)が多い異常パターンから順に優先順位をつける。即ち、検索一致頻度が最大の異常パターンに優先順位1を付け、検索一致頻度が2番目の異常パターンに優先順位2を付け、検索一致頻度が3番目の異常パターンに優先順位3を付ける。
Further, instead of the priorities being assigned in advance to the abnormal patterns for each target device number and function name, the number of times that the search pattern matches the search pattern is counted for each abnormal pattern. Note that when the abnormal pattern is registered in the
この場合は、図11に示すように、ある対象装置番号と機能名について、20パターンの異常パターンが存在し、第1異常パターンの照合一致回数が1であり、第2異常パターンの照合一致回数が5であり、第3異常パターンの照合一致回数が2であり、残りの異常パターンの照合一致回数が0の場合、優先度n=3が指定されると、最初に第2異常パターンが検索パターンと照合される。これが不一致の場合には第3異常パターンが検索パターンと照合され、更に不一致のとき第1異常パターンが検索パターンと照合される。 In this case, as shown in FIG. 11, there are 20 abnormal patterns for a certain target device number and function name, the number of matching matches of the first abnormal pattern is 1, and the number of matching matches of the second abnormal pattern. Is 5, the number of matching matches of the third abnormal pattern is 2, and the number of matching matches of the remaining abnormal patterns is 0. If priority n = 3 is designated, the second abnormal pattern is searched first. Matches against a pattern. If this does not match, the third abnormal pattern is checked against the search pattern, and if not, the first abnormal pattern is checked against the search pattern.
このように、照合一致回数が多い、即ち、一致する確率の高い異常パターンから順に検索パターンと照合されるため、障害解析に要する時間を短縮することができる。 In this way, since the number of matching matches is large, that is, matching is performed with the search pattern in order from the abnormal pattern having the highest probability of matching, the time required for failure analysis can be shortened.
本発明によれば、検索パターンが正常パターンと一致すると処理は正常であり、過去に発生し履歴として管理されている異常パターンと一致した場合には、その異常パターンによって障害要因が特定できるので、適切な対処方法を迅速に保守者に通知することができる。その結果、従来では1つの障害あたり保守者が2〜3日の解析時間を費やしていたものが、例えば分オーダで障害解析が可能となる。更に、障害発生時に注入する社内リソースを最小限に抑えるだけでなく、障害の早期解決を希望する顧客要望をも満たすことが可能となる。 According to the present invention, when the search pattern matches the normal pattern, the process is normal, and when the search pattern matches the abnormal pattern that has occurred in the past and is managed as a history, the failure factor can be specified by the abnormal pattern. An appropriate countermeasure can be promptly notified to a maintenance person. As a result, in the past, a maintenance person who spent 2-3 days of analysis time per failure can perform failure analysis on the order of minutes, for example. Furthermore, it is possible not only to minimize the in-house resources injected when a failure occurs, but also to satisfy customer requests for an early solution of the failure.
また、検索パターンが正常パターンと全ての異常パターンと一致しなかった場合においても、この検索パターンを新たなパターンとして保持管理することにより、予め想定することができなかった新たな異常に対しても、それ以降、同じ異常が発生した場合には、迅速な対応が可能となる。 Even if the search pattern does not match the normal pattern and all the abnormal patterns, the search pattern is retained and managed as a new pattern, so that it is possible to deal with new abnormalities that could not be assumed in advance. Thereafter, when the same abnormality occurs, a quick response is possible.
なお、データベース46が請求項記載のパターン保持手段に対応し、ステップS12が検索パターン作成手段に対応し、ステップS14,S20が照合手段に対応し、ステップS30が追加保持手段に対応する。
(付記1)
通信ネットワークシステムを構成する複数のネットワーク構成要素それぞれを制御かつ監視するオペレーションシステムの障害解析方法において、
前記オペレーションシステムの機能毎に、正常に動作した場合の前記オペレーションシステムを構成する複数のコンポーネント及びネットワーク構成要素の処理シーケンスをコンポーネント名及びネットワーク構成要素名の時系列の並びとしてパターン化した正常パターンと、過去に発生した障害におけるコンポーネント名及びネットワーク構成要素名の時系列の並びとしてパターン化した異常パターンを保持しておき、
前記複数のコンポーネント及びネットワーク構成要素がそれぞれ独自に取得している処理の履歴から、障害が発生した機能の処理シーケンスをコンポーネント名及びネットワーク構成要素名の時系列の並びとして抽出し検索パターンを作成し、
前記障害が発生した機能の検索パターンと、前記障害が発生した機能に対応する機能として保持されている前記正常パターン及び異常パターンとを照合して障害解析を行うことを特徴とする障害解析方法。
(付記2)
付記1記載の障害解析方法において、
前記複数のコンポーネント及びネットワーク構成要素がそれぞれ独自に取得している処理の履歴は、処理対象のネットワーク構成要素名、及び取得した日時、及び処理内容のフォーマットを共通化したことを特徴とする障害解析方法。
(付記3)
通信ネットワークシステムを構成する複数のネットワーク構成要素それぞれを制御かつ監視するオペレーションシステムの障害解析装置において、
前記オペレーションシステムの機能毎に、正常に動作した場合の前記オペレーションシステムを構成する複数のコンポーネント及びネットワーク構成要素の処理シーケンスをコンポーネント名及びネットワーク構成要素名の時系列の並びとしてパターン化した正常パターンと、過去に発生した障害におけるコンポーネント名及びネットワーク構成要素名の時系列の並びとしてパターン化した異常パターンを保持するパターン保持手段と、
前記複数のコンポーネント及びネットワーク構成要素がそれぞれ独自に取得している処理の履歴から、障害が発生した機能の処理シーケンスをコンポーネント名及びネットワーク構成要素名の時系列の並びとして抽出し検索パターンを作成する検索パターン作成手段と、
前記障害が発生した機能の検索パターンと、前記障害が発生した機能に対応する機能として保持されている前記正常パターン及び異常パターンとを照合して障害解析を行う照合手段を
有することを特徴とする障害解析装置。
(付記4)
付記3記載の障害解析装置において、
前記複数のコンポーネント及びネットワーク構成要素がそれぞれ独自に取得している処理の履歴は、処理対象のネットワーク構成要素名、及び取得した日時、及び処理内容のフォーマットを共通化したことを特徴とする障害解析装置。
(付記5)
付記3または4記載の障害解析装置において、
前記照合手段における前記検索パターンと前記正常パターン及び異常パターンとの照合結果が不一致の場合、前記検索パターンを新たな異常パターンとして前記パターン保持手段に追加保持する追加保持手段を
有することを特徴とする障害解析装置。
(付記6)
付記3乃至5のいずれか記載の障害解析装置において、
前記パターン保持手段に機能毎に保持されている各異常パターンに予め優先順位を付け、
前記照合手段は、優先順位の高い異常パターンから順に前記検索パターンと照合することを特徴とする障害解析装置。
(付記7)
付記6記載の障害解析装置において、
前記パターン保持手段に機能毎に保持されている各異常パターンに予め優先順位を付け、
前記照合手段は、優先順位の高い異常パターンから順に前記検索パターンと照合し、異常パターンの優先順位が付加情報として指定された優先度より低くなると照合を終了することを特徴とする障害解析装置。
(付記8)
付記3乃至5のいずれか記載の障害解析装置において、
前記パターン保持手段に機能毎に保持されている各異常パターンについて検索パターンとの照合で一致した頻度を保持し、
前記照合手段は、前記頻度の高い異常パターンから順に前記検索パターンと照合することを特徴とする障害解析装置。
(付記9)
付記8記載の障害解析装置において、
前記照合手段は、前記頻度の高い順に各異常パターンに予め優先順位を付け、優先順位の高い異常パターンから順に前記検索パターンと照合し、異常パターンの優先順位が付加情報として指定された優先度より低くなると照合を終了することを特徴とする障害解析装置。
(付記10)
付記3乃至8のいずれか記載の障害解析装置において、
前記パターン保持手段は、各異常パターンに対応した問題概要及び対処方法の少なくともいずれか一方を前記各異常パターンに対応して保持することを特徴とする障害解析装置。
The
(Appendix 1)
In an operation system failure analysis method for controlling and monitoring each of a plurality of network components constituting a communication network system,
For each function of the operation system, a normal pattern in which processing sequences of a plurality of components and network components constituting the operation system when operating normally are patterned as a time series of component names and network component names , Keep the anomaly pattern patterned as a chronological sequence of component names and network component names in past failures,
Create a search pattern by extracting the processing sequence of the function in which the failure occurred from the history of processing acquired independently by each of the plurality of components and network components as a time series of component names and network component names. ,
A failure analysis method, wherein a failure analysis is performed by collating a search pattern of a function in which the failure has occurred with the normal pattern and an abnormal pattern held as a function corresponding to the function in which the failure has occurred.
(Appendix 2)
In the failure analysis method described in
The history of processing acquired independently by each of the plurality of components and network components is a failure analysis characterized by sharing the name of the network component to be processed, the date and time of acquisition, and the format of the processing content. Method.
(Appendix 3)
In an operation system failure analysis apparatus that controls and monitors each of a plurality of network components constituting a communication network system,
For each function of the operation system, a normal pattern in which processing sequences of a plurality of components and network components constituting the operation system when operating normally are patterned as a time series of component names and network component names A pattern holding means for holding an abnormal pattern patterned as a time-series arrangement of component names and network component names in a failure that has occurred in the past;
A processing pattern of a function in which a failure has occurred is extracted as a time-series sequence of component names and network component names from the processing history independently acquired by each of the plurality of components and network components, and a search pattern is created. Search pattern creation means;
It has collation means for collating the search pattern of the function in which the failure has occurred with the normal pattern and the abnormal pattern held as a function corresponding to the function in which the failure has occurred, and performing failure analysis Failure analysis device.
(Appendix 4)
In the failure analysis device according to
The history of processing acquired independently by each of the plurality of components and network components is a failure analysis characterized by sharing the name of the network component to be processed, the date and time of acquisition, and the format of the processing content. apparatus.
(Appendix 5)
In the failure analysis apparatus according to
And an additional holding means for additionally holding the search pattern as a new abnormal pattern in the pattern holding means when the result of matching between the search pattern and the normal pattern and the abnormal pattern in the matching means is inconsistent. Failure analysis device.
(Appendix 6)
In the failure analysis apparatus according to any one of
Prioritize each abnormal pattern held for each function in the pattern holding means,
The failure analysis apparatus characterized in that the collating means collates with the search pattern in order from an abnormal pattern having a high priority.
(Appendix 7)
In the failure analysis apparatus according to
Prioritize each abnormal pattern held for each function in the pattern holding means,
The failure analysis apparatus characterized in that the collating means collates with the search pattern in order from an abnormal pattern having a higher priority, and ends the collation when the priority of the abnormal pattern becomes lower than the priority specified as additional information.
(Appendix 8)
In the failure analysis apparatus according to any one of
Holds the frequency of matching with the search pattern for each abnormal pattern held for each function in the pattern holding means,
The failure analysis apparatus characterized in that the collating unit collates with the search pattern in order from the frequently occurring abnormal pattern.
(Appendix 9)
In the failure analysis apparatus according to
The collating means assigns priorities to the abnormality patterns in the descending order of frequency, collates with the search patterns in descending order of priority, and the priorities of the abnormal patterns are specified according to the priority specified as additional information. A failure analysis device characterized in that the collation is terminated when it becomes low.
(Appendix 10)
In the failure analysis apparatus according to any one of
The failure analysis apparatus, wherein the pattern holding unit holds at least one of a problem summary and a coping method corresponding to each abnormal pattern corresponding to each abnormal pattern.
30 GUI部
301〜30N GUI端末
31 GUI履歴
32 制御部
33 制御部履歴
34 基本部
35 基本部履歴
36 通信部
37 通信部履歴
38 監視部
39 監視部履歴
40 ネットワーク
421〜42M 伝送装置
431〜43M 伝送装置履歴
44 履歴解析部
46 データベース
30
Claims (5)
前記オペレーションシステムの機能毎に、正常に動作した場合の前記オペレーションシステムを構成する複数のコンポーネント及びネットワーク構成要素の処理シーケンスをコンポーネント名及びネットワーク構成要素名の時系列の並びとしてパターン化した正常パターンと、過去に発生した障害におけるコンポーネント名及びネットワーク構成要素名の時系列の並びとしてパターン化した異常パターンを保持しておき、
前記複数のコンポーネント及びネットワーク構成要素がそれぞれ独自に取得している処理の履歴から、障害が発生した機能の処理シーケンスをコンポーネント名及びネットワーク構成要素名の時系列の並びとして抽出し検索パターンを作成し、
前記障害が発生した機能の検索パターンと、前記障害が発生した機能に対応する機能として保持されている前記正常パターン及び異常パターンとを照合して障害解析を行うことを特徴とする障害解析方法。 In an operation system failure analysis method for controlling and monitoring each of a plurality of network components constituting a communication network system,
For each function of the operation system, a normal pattern in which processing sequences of a plurality of components and network components constituting the operation system when operating normally are patterned as a time series of component names and network component names , Keep the anomaly pattern patterned as a chronological sequence of component names and network component names in past failures,
Create a search pattern by extracting the processing sequence of the function in which the failure occurred from the history of processing acquired independently by each of the plurality of components and network components as a time series of component names and network component names. ,
A failure analysis method, wherein a failure analysis is performed by collating a search pattern of a function in which the failure has occurred with the normal pattern and an abnormal pattern held as a function corresponding to the function in which the failure has occurred.
前記複数のコンポーネント及びネットワーク構成要素がそれぞれ独自に取得している処理の履歴は、処理対象のネットワーク構成要素名、及び取得した日時、及び処理内容のフォーマットを共通化したことを特徴とする障害解析方法。 The failure analysis method according to claim 1,
The history of processing acquired independently by each of the plurality of components and network components is a failure analysis characterized by sharing the name of the network component to be processed, the date and time of acquisition, and the format of the processing content. Method.
前記オペレーションシステムの機能毎に、正常に動作した場合の前記オペレーションシステムを構成する複数のコンポーネント及びネットワーク構成要素の処理シーケンスをコンポーネント名及びネットワーク構成要素名の時系列の並びとしてパターン化した正常パターンと、過去に発生した障害におけるコンポーネント名及びネットワーク構成要素名の時系列の並びとしてパターン化した異常パターンを保持するパターン保持手段と、
前記複数のコンポーネント及びネットワーク構成要素がそれぞれ独自に取得している処理の履歴から、障害が発生した機能の処理シーケンスをコンポーネント名及びネットワーク構成要素名の時系列の並びとして抽出し検索パターンを作成する検索パターン作成手段と、
前記障害が発生した機能の検索パターンと、前記障害が発生した機能に対応する機能として保持されている前記正常パターン及び異常パターンとを照合して障害解析を行う照合手段を
有することを特徴とする障害解析装置。 In an operation system failure analysis apparatus that controls and monitors each of a plurality of network components constituting a communication network system,
For each function of the operation system, a normal pattern in which processing sequences of a plurality of components and network components constituting the operation system when operating normally are patterned as a time series of component names and network component names A pattern holding means for holding an abnormal pattern patterned as a time-series arrangement of component names and network component names in a failure that has occurred in the past;
A processing pattern of a function in which a failure has occurred is extracted as a time-series sequence of component names and network component names from the processing history independently acquired by each of the plurality of components and network components, and a search pattern is created. Search pattern creation means;
It has collation means for collating the search pattern of the function in which the failure has occurred with the normal pattern and the abnormal pattern held as a function corresponding to the function in which the failure has occurred, and performing failure analysis Failure analysis device.
前記複数のコンポーネント及びネットワーク構成要素がそれぞれ独自に取得している処理の履歴は、処理対象のネットワーク構成要素名、及び取得した日時、及び処理内容のフォーマットを共通化したことを特徴とする障害解析装置。 The failure analysis apparatus according to claim 3,
The history of processing acquired independently by each of the plurality of components and network components is a failure analysis characterized by sharing the name of the network component to be processed, the date and time of acquisition, and the format of the processing content. apparatus.
前記照合手段における前記検索パターンと前記正常パターン及び異常パターンとの照合結果が不一致の場合、前記検索パターンを新たな異常パターンとして前記パターン保持手段に追加保持する追加保持手段を
有することを特徴とする障害解析装置。
The failure analysis apparatus according to claim 3 or 4,
And an additional holding means for additionally holding the search pattern as a new abnormal pattern in the pattern holding means when the result of matching between the search pattern and the normal pattern and the abnormal pattern in the matching means is inconsistent. Failure analysis device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004242659A JP2006059266A (en) | 2004-08-23 | 2004-08-23 | Failure analysis method and device therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004242659A JP2006059266A (en) | 2004-08-23 | 2004-08-23 | Failure analysis method and device therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006059266A true JP2006059266A (en) | 2006-03-02 |
Family
ID=36106669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004242659A Withdrawn JP2006059266A (en) | 2004-08-23 | 2004-08-23 | Failure analysis method and device therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006059266A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010067048A (en) * | 2008-09-11 | 2010-03-25 | Fujitsu Ltd | Message pattern creation program, method, and device |
JP2011199883A (en) * | 2011-05-12 | 2011-10-06 | Buffalo Inc | Wireless lan access point device, and unauthorized management frame detection method |
US8448025B2 (en) | 2008-03-07 | 2013-05-21 | Nec Corporation | Fault analysis apparatus, fault analysis method, and recording medium |
JP2014102717A (en) * | 2012-11-21 | 2014-06-05 | Mitsubishi Electric Corp | System test support apparatus |
JP5529351B1 (en) * | 2013-03-26 | 2014-06-25 | 三菱電機株式会社 | Engineering tools |
US9612898B2 (en) | 2013-06-03 | 2017-04-04 | Nec Corporation | Fault analysis apparatus, fault analysis method, and recording medium |
JP2018508167A (en) * | 2015-01-26 | 2018-03-22 | ノキア ソリューションズ アンド ネットワークス オサケユキチュア | Signaling set or call analysis and classification |
-
2004
- 2004-08-23 JP JP2004242659A patent/JP2006059266A/en not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8448025B2 (en) | 2008-03-07 | 2013-05-21 | Nec Corporation | Fault analysis apparatus, fault analysis method, and recording medium |
JP2010067048A (en) * | 2008-09-11 | 2010-03-25 | Fujitsu Ltd | Message pattern creation program, method, and device |
JP2011199883A (en) * | 2011-05-12 | 2011-10-06 | Buffalo Inc | Wireless lan access point device, and unauthorized management frame detection method |
JP2014102717A (en) * | 2012-11-21 | 2014-06-05 | Mitsubishi Electric Corp | System test support apparatus |
JP5529351B1 (en) * | 2013-03-26 | 2014-06-25 | 三菱電機株式会社 | Engineering tools |
WO2014155517A1 (en) * | 2013-03-26 | 2014-10-02 | 三菱電機株式会社 | Engineering tool |
CN105051701A (en) * | 2013-03-26 | 2015-11-11 | 三菱电机株式会社 | Selection of redundant storage configuration based on available memory space |
US9612898B2 (en) | 2013-06-03 | 2017-04-04 | Nec Corporation | Fault analysis apparatus, fault analysis method, and recording medium |
JP2018508167A (en) * | 2015-01-26 | 2018-03-22 | ノキア ソリューションズ アンド ネットワークス オサケユキチュア | Signaling set or call analysis and classification |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107451040B (en) | Method and device for positioning fault reason and computer readable storage medium | |
US8219548B2 (en) | Data processing method and data analysis apparatus | |
US20090271351A1 (en) | Rules engine test harness | |
US7756971B2 (en) | Method and system for managing programs in data-processing system | |
JP5223413B2 (en) | IT system troubleshooting device, troubleshooting method and program therefor | |
US8990372B2 (en) | Operation managing device and operation management method | |
CN109669844A (en) | Equipment obstacle management method, apparatus, equipment and storage medium | |
CN110377481B (en) | Log management method, device, equipment and storage medium | |
CN110851324B (en) | Log-based routing inspection processing method and device, electronic equipment and storage medium | |
US9280741B2 (en) | Automated alerting rules recommendation and selection | |
JP2018173703A (en) | Fault analysis apparatus, fault analysis method and fault analysis program | |
CN112463588A (en) | Automatic test system and method, storage medium and computing equipment | |
CN106815137A (en) | Ui testing method and apparatus | |
JP2006059266A (en) | Failure analysis method and device therefor | |
CN108650123B (en) | Fault information recording method, device, equipment and storage medium | |
CN112596723B (en) | Database script generation method, device, equipment and medium | |
CN111752819B (en) | Abnormality monitoring method, device, system, equipment and storage medium | |
US10430300B2 (en) | Predictive analysis, scheduling and observation system for use with loading multiple files | |
JP4886404B2 (en) | Source code modification prioritization system and prioritization method | |
CN110489256B (en) | Downtime positioning and repairing method and system | |
JP2012256143A (en) | Maintenance management system, work priority calculation method and program | |
EP1146426B1 (en) | Dynamic rule sets for generated logs in a network | |
CN115759518A (en) | Usability treatment system based on chaos engineering | |
JP2020035297A (en) | Apparatus state monitor and program | |
Chan et al. | Debugging incidents in Google's distributed systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20071106 |