JP5130968B2 - Fault location identification method - Google Patents

Fault location identification method Download PDF

Info

Publication number
JP5130968B2
JP5130968B2 JP2008067634A JP2008067634A JP5130968B2 JP 5130968 B2 JP5130968 B2 JP 5130968B2 JP 2008067634 A JP2008067634 A JP 2008067634A JP 2008067634 A JP2008067634 A JP 2008067634A JP 5130968 B2 JP5130968 B2 JP 5130968B2
Authority
JP
Japan
Prior art keywords
failure
card
log information
log
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008067634A
Other languages
Japanese (ja)
Other versions
JP2009225131A (en
Inventor
和郡 大島
浩明 丸山
敦史 松倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008067634A priority Critical patent/JP5130968B2/en
Publication of JP2009225131A publication Critical patent/JP2009225131A/en
Application granted granted Critical
Publication of JP5130968B2 publication Critical patent/JP5130968B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Monitoring And Testing Of Exchanges (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、移動通信システムの無線ネットワーク制御装置のように、多数の機能ユニットが回路基板などに集積されたカードから構成される情報処理装置において、各カードで蓄積されているログ情報に基づいて、障害箇所および要因を特定する障害箇所特定方法に関する。   The present invention is based on log information stored in each card in an information processing apparatus composed of cards in which a large number of functional units are integrated on a circuit board or the like, such as a radio network control apparatus of a mobile communication system. The present invention relates to a failure location identification method for identifying failure locations and factors.

例えば、移動通信システムの無線ネットワーク制御装置は、図9に示すように、外部インタフェース部401、セル交換装置402、トランク装置403、No.7信号終端部404、信号終端装置共通部405に加えて、様々な機能を果たす機能ブロック1,2(図9において符号406,407を付して示す)およびこれらを制御する制御処理部408を備えている。また、図9に示した無線ネットワーク制御装置は、保守端末制御部409を介して保守端末410に接続されており、障害が発生した際には、保守作業者により、この保守端末410および保守端末制御部409を介して、ネットワーク制御装置に対する保守作業が行われる。なお、図9に示した保守端末410がこの無線ネットワーク制御装置を介して外部装置とやり取りする制御信号は、端末制御信号終端部411によって終端されている。   For example, as shown in FIG. 9, the radio network control device of the mobile communication system includes an external interface unit 401, a cell switching device 402, a trunk device 403, a No. In addition to the 7 signal termination unit 404 and the signal termination unit common unit 405, functional blocks 1 and 2 (indicated by reference numerals 406 and 407 in FIG. 9) that perform various functions, and a control processing unit 408 that controls them are provided. I have. The wireless network control device shown in FIG. 9 is connected to the maintenance terminal 410 via the maintenance terminal control unit 409. When a failure occurs, the maintenance operator 410 and the maintenance terminal Maintenance work for the network control apparatus is performed via the control unit 409. Note that the control signal that the maintenance terminal 410 shown in FIG. 9 exchanges with an external device via the wireless network control device is terminated by the terminal control signal termination unit 411.

図9に示した外部インタフェース部401、セル交換装置402、トランク装置403、No.7信号終端部404および機能ブロック1,2がそれぞれ集積されたカードは、それぞれ二重化されており、また、これらのカードそれぞれに診断処理部が備えられている。そして、各カードに備えられた診断処理部においてカード内部に障害が検出された際には、アラームが発生し、これに応じて、二重化されたカードの切り替えなどが自動的に行われ、装置全体の可用性の向上が図られている。   The external interface unit 401, the cell switching device 402, the trunk device 403, No. 4 shown in FIG. Each of the cards in which the 7 signal termination unit 404 and the functional blocks 1 and 2 are integrated is duplicated, and each of these cards is provided with a diagnostic processing unit. When a failure is detected inside the card in the diagnostic processing unit provided in each card, an alarm is generated, and in response to this, switching of duplicated cards is automatically performed, and the entire device The improvement of availability has been attempted.

しかしながら、上述したような様々な種類のカードにおいて発生する障害の中には、発生頻度が非常に低い障害や検出自体が極めて困難な障害もある。このような障害の検出処理は、各カードに備えられた診断処理部に組み込まれていない、あるいは、組み込むことができない。このような障害は、発生してもアラームが通知されないことから、サイレント障害と呼ばれている。とはいえ、このようなサイレント障害の影響で、呼制御関連イベントの処理が正常に完了しないことがあり、そのような事象が多発するとサービス品質が低下する。   However, among the failures that occur in various types of cards as described above, there are failures that occur very frequently and failures that are extremely difficult to detect. Such failure detection processing is not incorporated into the diagnostic processing unit provided in each card or cannot be incorporated. Such a failure is called a silent failure because an alarm is not notified even if it occurs. However, due to the influence of such a silent failure, the processing of call control related events may not be completed normally, and the service quality deteriorates when such events occur frequently.

従来は、アラームが発生していないにもかかわらず、呼制御関連イベントの完了率が低下したり、対向ノードとの間の制御ループの切断が繰り返されたりした場合のように、サイレント障害の影響が疑われる場合には、以下のような対処が行われていた。   In the past, the effect of silent failure, such as when the rate of completion of call control-related events decreases or the control loop is repeatedly disconnected from the opposite node, even though no alarm has occurred. In case of doubt, the following measures were taken.

すなわち、問題となる事象にかかわる信号疎通ルートが経由している疑わしいカードを保守作業者が一つずつ予備系に切り替えていき、上述したような事象が回復したか否かを見極めることで、障害が発生したカードを特定するとともに、疑わしいカードからログ情報を収集し、収集したログ情報を解析することで、ユニット内での障害箇所や障害要因を特定する作業を行っていた。   In other words, the maintenance worker switches each suspicious card via the signal communication route related to the problematic event to the standby system one by one, and determines whether or not the above-mentioned event has been recovered. In addition to identifying the card in which the error occurred, log information was collected from the suspicious card, and the collected log information was analyzed to identify the failure location and the cause of the failure in the unit.

このようなサイレント障害は、多種多様なネットワーク機器から構成されたネットワークシステムにおいても認識されており、サイレント障害を検出するための様々な技術が提案されている(特許文献1、2参照)。
特開平9−6571号公報(第4、第6頁、図1) 特開2006−245849号公報
Such a silent failure is also recognized in a network system composed of a wide variety of network devices, and various techniques for detecting the silent failure have been proposed (see Patent Documents 1 and 2).
Japanese Patent Laid-Open No. 9-6571 (4th and 6th pages, FIG. 1) JP 2006-245849 A

ところで、上述したように、保守作業者が二重化されているカードを予備系に切り替える作業と並行してログの収集を行う方法では、予備系への切り替えを実行するカードの選択もログ収集対象とするカードの選択も保守作業者に任されているので、保守作業者の作業負担が大きく、また、保守作業者の知識や経験によって復旧までに要する時間が大きく異なってしまっていた。   By the way, as described above, in the method of collecting logs in parallel with the operation of switching the duplicated card to the standby system by the maintenance worker, the selection of the card for executing the switching to the standby system is also the log collection target. Since the selection of the card to be performed is left to the maintenance worker, the work load on the maintenance worker is heavy, and the time required for the recovery varies greatly depending on the knowledge and experience of the maintenance worker.

このように、障害が発生したカードを予備系に切り替えてシステムを復旧するまでの時間が、保守作業者の技量によって左右されてしまう現状では、最終的にサイレント障害が発生したカード特定されたとしても、必要なログ情報を収集するまでに長い時間が経過してしまう場合がある。このような場合には、サイレント障害が発生したカードに蓄積されているログ情報が、時間の経過に伴って上書きされてしまい、サイレント障害が発生した時点におけるログ情報を収集することができなくなってしまう場合がある。サイレント障害が発生している時点でのログ情報は、障害箇所の特定や障害要因の特定のためにまさに必要な情報であり、このログ情報を収集して解析しないまま、単に予備系への切り替えによってシステムの稼動状態を復旧させたのでは、結果的に、そのカードが抱える課題を放置してしまうことになり、障害の再発を招いてしまう。 Thus, the time to recover the system by switching the card fails protection system at present that would be influenced by the skill of the maintenance worker, the card finally silent failure is identified However, a long time may elapse until necessary log information is collected. In such a case, the log information stored in the card where the silent failure has occurred is overwritten with the passage of time, making it impossible to collect log information when the silent failure occurs. May end up. The log information at the time when the silent failure occurs is exactly necessary information for identifying the location of the failure and the cause of the failure, and simply switching to the standby system without collecting and analyzing this log information. As a result, if the system is restored to the operating state, the problem of the card is left unattended, resulting in the recurrence of the failure.

本発明は、サイレント障害が発生した時点のログ情報を漏れなく収集して解析可能な障害箇所特定方法を提供することを目的とする。   An object of the present invention is to provide a failure location specifying method that can collect and analyze log information when a silent failure occurs without omission.

上述した目的は、以下に開示する障害箇所特定方法によって達成することができる。   The above-described object can be achieved by the failure location method disclosed below.

この障害箇所特定方法の特徴は、複数種類の機能カードから構成されるシステムでの障害事象発生に応じて障害事象発生時のログ情報を収集解析する障害箇所特定方法において、複数の障害事例それぞれに対応して、各障害事例に関連する機能カードを示す情報を収集管理テーブルに登録しておき、障害事象の発生に応じて、障害事象に相当する障害事象例に対応して収集管理テーブルを参照し、登録された情報に基づいてログ収集の対象とする対象カードを選択し、選択された対象カードから障害事例が発生する過程で対象カードに蓄積されるログ情報を収集し、収集したログ情報をこれに含まれるログ情報項目ごとに、障害要因を検出する処理と、検出した障害要因を対象カードごとに集計する処理とを含む解析処理を行い、対象カードごとに各ログ情報項目に対応する異常が発生している可能性を示す評価指標を算出し、評価指標に基づいて切替対象カードを特定する点にある。 The feature of this fault location identification method is that in the fault location identification method that collects and analyzes log information at the time of fault event occurrence according to fault event occurrence in a system consisting of multiple types of function cards, each fault case Correspondingly, information indicating the function card related to each failure case is registered in the collection management table, and when the failure event occurs, the collection management table is referenced corresponding to the failure event example corresponding to the failure event. And select the target card for log collection based on the registered information , collect the log information accumulated in the target card in the process of failure occurrence from the selected target card, and collect the collected log information to each log information item contained therein, it performs a process of detecting a failure factors, the analysis process and a process of aggregation for each target card detected failure factor, target card Abnormality corresponding to the log information item calculates an evaluation index indicating a possibility of the occurrence Doo lies in identifying the target of switching cards based on the evaluation index.

このように構成された障害箇所特定方法では、例えば、これまでの保守作業の過程において、個々の障害事象への関連性が経験的に知られている機能カード(例えば、信号疎通ルートが経由している機能カード)を示す情報が、各障害事例に対応して収集管理テーブルに登録され、ログ情報の収集処理の際に、ログ情報収集対象とすべき機能カードを選択する処理に供される。このように、収集管理テーブルに登録された情報に基づいて、障害事例の発生に応じて選択された機能カードからログ情報を収集することにより、発生した障害に関連する機能カードのログ情報を、選択的に、しかも迅速に収集することができる。これらの機能カードから収集されたログ情報は、障害事象の発生にかかわったサイレント障害が発生しているときの情報を漏れなく含んでいる。したがって、これらのログ情報を、ログ情報項目(例えば、コネクション情報やNG処理履歴情報、CPU使用率など)ごとに解析することにより、各ログ情報項目に対応する観点から、個々の機能カードにおいてサイレント障害などの異常が発生している可能性を示す評価指標が算出される。例えば、このようにして各機能カードに対応して得られた評価指標を比較することにより、コネクション情報の連続性などの観点から異常が発生している可能性の大小を判断し、切替対象カードを特定する処理を支援することができる。   In the fault location identification method configured in this way, for example, in the past maintenance process, a function card (for example, via a signal communication route) whose relevance to each fault event is empirically known. Is registered in the collection management table corresponding to each failure case, and is used for the process of selecting the function card that should be the log information collection target during the log information collection process . In this way, by collecting log information from the function card selected according to the occurrence of the failure case based on the information registered in the collection management table, the log information of the function card related to the failure that has occurred, It can be collected selectively and quickly. The log information collected from these function cards includes information when there is a silent failure related to the occurrence of the failure event. Therefore, by analyzing these log information for each log information item (for example, connection information, NG processing history information, CPU usage rate, etc.), each function card can be silently operated from the viewpoint of corresponding to each log information item. An evaluation index indicating a possibility that an abnormality such as a failure has occurred is calculated. For example, by comparing the evaluation indexes obtained for each function card in this way, it is possible to determine the magnitude of the possibility that an abnormality has occurred from the viewpoint of continuity of connection information, etc. It is possible to support the process of identifying

上述した障害箇所特定方法によれば、発生した障害事例に対応して、適切なカードの適切なログ情報項目に関するログ情報を自動的に収集することにより、サイレント障害の発生箇所および障害要因の特定に必要な情報を、迅速に、しかも、漏れなく収集して解析処理に供することができる。また、収集したログ情報をログ情報項目ごとに解析することで、これらの項目に対応する観点から各機能カードにおいて異常が発生している可能性の大きさを示す評価指標を算出し、切替対象カードの決定処理に供することができる。   According to the failure location identification method described above, the location of the silent failure and the cause of the failure are identified by automatically collecting log information related to the appropriate log information item of the appropriate card in response to the failure case that occurred. It is possible to collect necessary information for the analysis process quickly and without omission. In addition, by analyzing the collected log information for each log information item, an evaluation index indicating the magnitude of the possibility that an abnormality has occurred in each function card is calculated from the perspective corresponding to these items, and the switching target It can be used for card decision processing.

以下、図面に基づいて、本発明の実施形態について詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1に、課題を解決するための手段の項で開示した障害箇所特定方法の一実施形態を示す。   FIG. 1 shows an embodiment of a fault location specifying method disclosed in the section for solving the problem.

なお、図1に示した構成要素のうち、図9に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。   1 that are the same as those shown in FIG. 9 are given the same reference numerals, and descriptions thereof are omitted.

図1に示した無線ネットワーク制御装置は、図9に示した各部に加えて、ログ情報収集部211と、収集管理テーブル212およびログ解析処理部213とからなる障害箇所特定処理部を備えて構成されている。   The radio network control apparatus shown in FIG. 1 includes a failure location specifying processing unit including a log information collection unit 211, a collection management table 212, and a log analysis processing unit 213 in addition to the units shown in FIG. Has been.

図2に、障害箇所特定処理部の詳細構成を示す。   FIG. 2 shows a detailed configuration of the failure location identification processing unit.

図1、図2に示した収集管理テーブル212には、図3(a)に示すように、制御ループ切断や完了率低下などの障害事例(図3においては、障害事例a,b,cとして示す)に対応して、ログ情報を収集するカードの種類を示す対象カード情報が格納されている。各障害事例に対応して格納する対象カード情報は、例えば、障害にかかわる通信経路が経由しているか否かや、これまでの同様の障害事例への対処で障害箇所が検出されたか否かなどに基づいて、予め決定しておくことができる。   In the collection management table 212 shown in FIGS. 1 and 2, as shown in FIG. 3 (a), failure cases such as control loop disconnection and completion rate decrease (in FIG. 3, as failure cases a, b, and c) The target card information indicating the type of card for collecting log information is stored. The target card information stored in correspondence with each failure case is, for example, whether or not the communication path related to the failure is going through, whether or not the failure point has been detected by dealing with the same failure case so far, etc. Can be determined in advance.

図2に示したログ情報収集部211において、収集処理部214は、図1に示した制御処理部408から受け取った事例指定情報に応じて、収集管理テーブル212で示された各カードからログ情報を収集し、ログ格納部215に格納する。   In the log information collection unit 211 illustrated in FIG. 2, the collection processing unit 214 performs log information from each card indicated in the collection management table 212 according to the case designation information received from the control processing unit 408 illustrated in FIG. 1. Are collected and stored in the log storage unit 215.

ここで、各カードでは、個々のカードにおいてログ情報が取得された日時を示すタイムスタンプに対応して、図4に示すように、様々な種類のログ情報項目を含むログ情報が蓄積されている。例えば、図4に示した例では、外部インタフェース部のログ情報は、ログ情報項目として、少なくともコネクション情報、信号廃棄情報、障害履歴、NG処理履歴およびCPU使用率を含んでいる一方、リソース情報は含んでいないことが示されている。したがって、収集処理部214が、収集管理テーブル212で示された各カードからログ情報を収集することにより、それぞれのカードに対応する複数種類のログ情報項目からなるログ情報がログ格納部215に格納される。   Here, in each card, log information including various types of log information items is accumulated corresponding to the time stamp indicating the date and time when the log information was acquired in each card, as shown in FIG. . For example, in the example shown in FIG. 4, the log information of the external interface unit includes at least connection information, signal discard information, failure history, NG processing history, and CPU usage rate as log information items, while resource information is It is shown not to contain. Therefore, when the collection processing unit 214 collects log information from each card indicated by the collection management table 212, log information including a plurality of types of log information items corresponding to each card is stored in the log storage unit 215. Is done.

このようにしてログ格納部215に保持されたログ情報は、項目情報抽出部216を介して、ログ解析処理部213のリンク解析部217と集計処理部218とに渡される。そして、このリンク解析部217および集計処理部218による処理結果に基づいて、特定処理部219により、サイレント障害が発生しているカードが特定される。   The log information held in the log storage unit 215 in this manner is passed to the link analysis unit 217 and the aggregation processing unit 218 of the log analysis processing unit 213 via the item information extraction unit 216. Then, based on the processing results of the link analysis unit 217 and the totalization processing unit 218, the identification processing unit 219 identifies the card in which the silent failure has occurred.

以下、図2に示した障害箇所特定処理部の動作について詳細に説明する。   Hereinafter, the operation of the failure location specifying processing unit shown in FIG. 2 will be described in detail.

図5に、障害箇所特定動作を表す流れ図を示す。   FIG. 5 is a flowchart showing the failure location specifying operation.

例えば、呼制御イベントの完了率の低下が検出された場合や制御ループの切断が頻繁に検出されたときに、検出された障害事例を示す事例指定情報が図1に示した制御処理部408から図2に示した障害箇所特定処理部の収集処理部214に渡される(ステップ301)。例えば、制御ループの切断に関する障害事例aを示す事例指定情報に応じて、収集処理部214により、指定された障害事例aに対応して収集管理テーブル212に登録された対象カード(外部インタフェース部、セル交換装置、機能ブロック1、トランク装置)からログ情報が収集され、収集されたログ情報がログ格納部215に保持される(ステップ302)。   For example, when a decrease in the completion rate of a call control event is detected or when a control loop break is frequently detected, case designation information indicating a detected failure case is obtained from the control processing unit 408 shown in FIG. The data is transferred to the collection processing unit 214 of the failure location identification processing unit shown in FIG. 2 (step 301). For example, according to the case designation information indicating the failure case a relating to the disconnection of the control loop, the collection processing unit 214 registers the target card (external interface unit, Log information is collected from the cell switching device, functional block 1, trunk device), and the collected log information is held in the log storage unit 215 (step 302).

このように、予め、障害事例ごとにログ情報を収集する対象となる対象カードを収集管理テーブル212に登録しておくことにより、障害事例の検出に応じて、即座に、障害事例に関連するカードに蓄積されたログ情報を収集することができる。これにより、必要なログ情報が上書きされてしまう前に、確実にログ情報を収集して解析処理に供することができる。また、障害事例ごとに、ログ収集の対象カードを限定することにより、現実的な容量のメモリなどによって、ログ情報格納部215を実現することができる。なお、収集管理テーブル212に各障害事例に対応して登録する対象カードは、例えば、これまでの障害事例に対処した実績や実験などに基づいて、予め決定しておくことができる。   In this way, by registering in advance the target card for which log information is collected for each failure case in the collection management table 212, the card related to the failure case is immediately detected according to the detection of the failure case. The log information accumulated in can be collected. Thereby, before necessary log information is overwritten, log information can be reliably collected and used for analysis processing. Further, by limiting the log collection target cards for each failure case, the log information storage unit 215 can be realized by a memory having a realistic capacity. Note that the target card to be registered in the collection management table 212 corresponding to each failure case can be determined in advance based on, for example, results or experiments dealing with the previous failure cases.

ところで、本出願人は、障害事例に対処した実績に基づいて、障害事例ごとにこれを引き起こす可能性の高い障害要因およびこれらの障害要因に関連するログ情報項目を特定している。したがって、例えば、図3(b)に示すように、障害事例に対応して、上述した障害要因に関連するログ情報項目を収集管理テーブル212に登録しておき、項目情報抽出部216が、ログ格納部215に格納されたログ情報から、この収集管理テーブル212で示されたログ項目情報を抽出することにより(図5のステップ303)、ログ解析処理部213に障害箇所の特定に必要なログ情報を選択的に渡すことができる。   By the way, the applicant of the present invention specifies a failure factor that is likely to cause each failure case and log information items related to these failure factors based on the results of dealing with the failure case. Therefore, for example, as shown in FIG. 3B, log information items related to the failure factor described above are registered in the collection management table 212 in correspondence with the failure case, and the item information extraction unit 216 performs log By extracting the log item information shown in the collection management table 212 from the log information stored in the storage unit 215 (step 303 in FIG. 5), the log analysis processing unit 213 needs to identify the fault location. Information can be passed selectively.

このようにして、ログ解析処理部213の処理に供するログ情報を予め絞り込んでおくことにより、後述するログ解析処理の効率を向上し、障害箇所を迅速に特定することができる。   In this way, by narrowing down the log information to be used for the processing of the log analysis processing unit 213 in advance, the efficiency of the log analysis processing described later can be improved, and the failure location can be quickly identified.

このとき、項目情報抽出部216は、収集管理テーブル212に基づいてログ格納部215から抽出した各カードのコネクション情報をリンク解析部217に転送し、その他の項目のログ情報を集計処理部218に転送することができる。   At this time, the item information extraction unit 216 transfers the connection information of each card extracted from the log storage unit 215 based on the collection management table 212 to the link analysis unit 217, and the log information of other items to the aggregation processing unit 218. Can be transferred.

例えば、図3(b)に障害事例aに対応して示したように、収集対象項目にコネクション情報が含まれている場合は(図5のステップ304の肯定判定)、その他のログ情報項目についての解析に先立って、コネクション情報に基づくリンク解析処理が行われる(図5のステップ505)。   For example, as shown in FIG. 3B corresponding to the failure case a, when the collection target item includes connection information (affirmative determination in step 304 in FIG. 5), other log information items Prior to the analysis, a link analysis process based on the connection information is performed (step 505 in FIG. 5).

図6に、リンク解析動作を表す流れ図を示す。   FIG. 6 is a flowchart showing the link analysis operation.

図2に示したリンク解析部217は、項目情報抽出部216から受け取った各カードのコネクション情報を、まず、図7に示すように、対象カードごとに時系列に従って配列する(ステップ321)。図7においては、障害事例aに対応する対象カードとして登録された外部インタフェース部、セル交換装置、機能ブロック1およびトランク装置から収集されたコネクション情報が配列された例を示した。   The link analysis unit 217 shown in FIG. 2 first arranges the connection information of each card received from the item information extraction unit 216 in time series for each target card as shown in FIG. 7 (step 321). FIG. 7 shows an example in which connection information collected from the external interface unit, the cell switching device, the function block 1, and the trunk device registered as the target card corresponding to the failure case a is arranged.

次に、リンク解析部217は、上述したようにして配列されたコネクション情報において、各カードで設定された出力仮想チャネルインデックス(VCI)が、リンク先のカードの入力VCIと一致することに着目し、各コネクションのリンクを辿ってリンクの不連続箇所を探索する(ステップ322)。   Next, the link analysis unit 217 pays attention to the fact that the output virtual channel index (VCI) set in each card matches the input VCI of the link destination card in the connection information arranged as described above. The link of each connection is traced to search for a discontinuous portion of the link (step 322).

例えば、図7に太線で示すように、外部インタフェース部のコネクションCに設定された出力VCIから順にリンクを辿っていくと、セル交換装置を経由して機能ブロック1で折り返され、セル交換装置において、出力VCI(55)が割り当てられたにもかかわらず、トランク装置ではリンクが設定されていないことが分かる(図7において、符号「×」を付して示した)。   For example, as shown by a thick line in FIG. 7, when the link is sequentially traced from the output VCI set in the connection C of the external interface unit, the function block 1 returns via the cell switching apparatus, and the cell switching apparatus Although the output VCI (55) is assigned, it can be seen that no link is set in the trunk device (in FIG. 7, this is indicated by a symbol “x”).

このようにしてリンクを辿っていくことにより、図8(a)に示すようなリンクチェック表を作成し、リンクが不連続となっている箇所、すなわち、コネクション情報の異常箇所を障害要因として検出することができる。なお、図8(a)に示した例では、不連続箇所は符号「−」で示した。   By following the link in this way, a link check table as shown in FIG. 8A is created, and the location where the link is discontinuous, that is, the abnormal location of the connection information is detected as a failure factor. can do. In the example shown in FIG. 8A, the discontinuous portion is indicated by “−”.

全てのコネクションについての探索が終了した後に、リンク解析部217により、リンクの不連続箇所の検出度数がカードごとに集計され(ステップ323)、この集計結果が特定処理部219に報告され(ステップ324)、後述する障害箇所の特定処理に供される。   After the search for all the connections is completed, the link analysis unit 217 counts the detection frequencies of the discontinuous portions of the link for each card (step 323), and reports the count result to the specific processing unit 219 (step 324). ), And is used for the failure point identification process described later.

その後、図2に示した集計処理部218により、その他の収集対象項目についての集計処理が行われる。なお、収集対象項目にコネクション情報が含まれていない場合(ステップ304の否定判定)には、上述したリンク解析処理がスキップされ、その他の収集対象項目についての集計処理が開始される。   Thereafter, the aggregation processing unit 218 illustrated in FIG. 2 performs aggregation processing for other items to be collected. When connection information is not included in the collection target item (No determination in step 304), the above-described link analysis processing is skipped, and aggregation processing for other collection target items is started.

集計処理部218は、まず、項目抽出部216から受け取った各対象カードのログ情報をログ情報項目ごとに分類し、更に、例えば、各ログ情報項目のデータ(例えば、CPU使用率を示すデータ)から対応する閾値(例えば、CPU使用率の閾値Thc)を超える値を示すデータを障害要因として検出する(ステップ306)。なお、ログ情報項目の一つであるNG処理履歴のように、ログ情報項目のデータが事象の発生の有無を示している場合に、集計処理部218は、事象の発生を示すデータを障害要因として検出することができる。   The aggregation processing unit 218 first classifies the log information of each target card received from the item extraction unit 216 for each log information item, and further, for example, data of each log information item (for example, data indicating CPU usage rate). From this, data indicating a value exceeding a corresponding threshold value (for example, CPU usage rate threshold value Thc) is detected as a failure factor (step 306). When the log information item data indicates the occurrence of an event as in the case of an NG processing history that is one of the log information items, the aggregation processing unit 218 uses the data indicating the occurrence of the event as a failure factor. Can be detected as

次いで、集計処理部218により、各ログ収集項目について障害要因を検出した度数が対象カードごとに集計され(ステップ307)、この集計結果が特定処理部219による特定処理に供される。


Next, the count processing unit 218 counts the frequency at which the failure factor is detected for each log collection item for each target card (step 307), and the totaled result is subjected to the specifying process by the specifying processing unit 219.


このようにして、例えば、図8(b)に示すように、3つの障害要因(コネクション情報異常、NG処理数、CPU使用率異常)について、4つの対象カード(外部インタフェース部、セル交換装置、機能ブロック1およびトランク装置)ごとに障害要因の検出度数の集計結果が特定処理部219に報告される。   In this way, for example, as shown in FIG. 8 (b), four target cards (external interface unit, cell switching apparatus, The total result of the failure factor detection frequency is reported to the specific processing unit 219 for each functional block 1 and trunk device).

図2に示した特定処理部219は、まず、ログ情報項目ごとに、各対象カードについて得られた検出度数を比較し(ステップ308)、比較結果に基づいて、例えば、検出度数が集中しているカードを障害カードとして特定する(ステップ309)。例えば、各カードでの障害要因それぞれの検出度数と全ての対象カードについての平均値とを比較し、いずれかのカードの検出度数が平均値を大幅に上回っているか否かを判定することで、コネクション情報の異常など障害要因の検出度数が集中しているカードを判別することができる。   The identification processing unit 219 shown in FIG. 2 first compares the detection frequencies obtained for each target card for each log information item (step 308), and based on the comparison result, for example, the detection frequencies are concentrated. A card that is present is identified as a faulty card (step 309). For example, by comparing the detection frequency of each failure factor in each card with the average value for all target cards, and determining whether the detection frequency of any card is significantly higher than the average value, It is possible to determine a card in which the detection frequency of failure factors such as abnormal connection information is concentrated.

例えば、図8(b)に示した例では、トランク装置について検出されたコネクション情報の異常とNG処理数との双方が、それぞれの平均値を上回っていることから、トランク装置に障害要因の検出度数が集中していると判断することができる。また、このとき、検出度数が集中しているとされた障害要因(例えば、コネクション情報の異常)を、このカード(トランク装置)における障害要因として特定することができる。また、各ログ情報項目の検出度数について、あらかじめ閾値を決定しておき、この閾値を超えた検出度数が得られたカードを障害カードとして特定することもできる。   For example, in the example shown in FIG. 8B, since both the abnormality of the connection information detected for the trunk device and the number of NG processes exceed the respective average values, the trunk device detects the failure factor. It can be determined that the frequency is concentrated. At this time, a failure factor (for example, an abnormality in connection information) for which the detection frequency is concentrated can be specified as a failure factor in this card (trunk device). In addition, a threshold value can be determined in advance for the detection frequency of each log information item, and a card having a detection frequency exceeding the threshold value can be specified as a failure card.

このように、図1、図2に示した障害箇所特定処理部によれば、障害事例の発生に応じて、これに関連するカードからログ情報を即座に収集し、これを解析することにより、障害箇所および障害要因を迅速かつ確実に特定することができる。   As described above, according to the failure location identification processing unit shown in FIGS. 1 and 2, according to the occurrence of the failure case, the log information is immediately collected from the card related to the failure case, and the analysis is performed. The location of failure and the cause of failure can be identified quickly and reliably.

特に、信号疎通ルートが経由している各カードから収集されたコネクション情報に基づいて、上述したリンク解析処理を行うことにより、コネクション異常の発生箇所を迅速かつ確実に検出することができる。このようなコネクション異常の検出作業は、人手で行う場合にはきわめて煩雑であることから、この作業を自動化したことにより、障害箇所の特定および障害カードの切り替えを含む復旧作業に要する時間を大幅に短縮することが可能となり、サイレント障害による障害事例の発生がサービスに与える影響を抑制することができる。   In particular, by performing the above-described link analysis processing based on the connection information collected from each card through which the signal communication route passes, it is possible to quickly and reliably detect the occurrence of the connection abnormality. Such connection abnormality detection work is extremely complicated when performed manually, and by automating this work, the time required for recovery work including identification of the fault location and switching of the faulty card is greatly increased. It is possible to shorten the time, and it is possible to suppress the influence on the service of the occurrence of the failure case due to the silent failure.

更に、上述したようにして特定したカード(例えば、トランク装置)についてアラームを検出した旨を制御処理部408に通知して、このカードについてのアラーム処理を起動することにより、サイレント障害が発生したカード迅速なシステムの復旧を図ることができる。   Further, the card that has detected the alarm as described above is notified to the control processing unit 408 that the alarm has been detected for the card (for example, the trunk device), and the alarm processing for this card is started, whereby the card in which the silent failure has occurred. Rapid system recovery can be achieved.

一方、上述したようにして特定されたカードをサイレント障害の発生が疑われる被疑カードとして解析結果とともに制御処理部408に通知するにとどめ、最終的な判断を保守作業者にゆだねることもできる。この場合に、保守作業者は、タイムリーに収集されたログ情報について行われた解析結果を参照しつつ、特定された被疑カードについてアラーム処理を実行するか否かを判断することができる。上述したようにして得られた解析結果は、被疑カードにおいてサイレント障害が発生している可能性を示す明確な指標であるので、これを保守作業者に提供することにより、特定された被疑カードについての最終的な判断を支援し、迅速で正確な判断を促すことができる。   On the other hand, only the card identified as described above is notified to the control processing unit 408 together with the analysis result as a suspected card suspected of generating a silent failure, and the final judgment can be left to the maintenance worker. In this case, the maintenance worker can determine whether or not to execute the alarm process for the identified suspect card while referring to the analysis result performed on the log information collected in a timely manner. Since the analysis result obtained as described above is a clear index indicating the possibility that a silent failure has occurred in the suspect card, by providing this to the maintenance worker, the identified suspect card Can help to make final decisions and encourage quick and accurate decisions.

また更に、図2に示したログ格納部215には、各対象カードから収集された全てのログ情報が保持されているので、上述したようにして、障害カードおよび障害要因が特定された後に、リンク解析部217や集計処理部218による処理対象とならなかったログ情報項目のデータも含めて詳細な解析を行うことにより、サイレント障害が発生したときの障害カードの挙動を調査することも可能である。   Furthermore, since all the log information collected from each target card is held in the log storage unit 215 shown in FIG. 2, after the failure card and the failure factor are identified as described above, It is also possible to investigate the behavior of a failure card when a silent failure occurs by performing detailed analysis including data of log information items that have not been processed by the link analysis unit 217 and the aggregation processing unit 218. is there.

ところで、上述した例のように(図8(b)参照)、コネクション情報の異常が一つのカード(例えば、トランク装置)で集中的に検出された場合には、このカードにおいてコネクション設定にかかわるサイレント障害が発生している可能性が極めて高い。したがって、他のログ情報項目に関する解析結果を待たずに、リンク解析部217によるリンク解析処理に基づいて障害カードの特定が可能である場合は、他のログ情報項目の解析処理を省略して、障害箇所の特定の迅速化を図ることもできる。   By the way, as in the example described above (see FIG. 8B), when abnormal connection information is intensively detected in one card (for example, trunk device), silent connection related to connection setting in this card is performed. It is very likely that a failure has occurred. Therefore, when the failure card can be identified based on the link analysis processing by the link analysis unit 217 without waiting for the analysis result regarding the other log information items, the analysis processing of other log information items is omitted, It is also possible to speed up the identification of the fault location.

また一方、リンク解析処理とその他のログ情報項目についての集計処理とを並行して実行することも可能であり、また、リンク解析処理の結果と、その他のログ情報項目についての解析結果とを総合的に評価し、この評価結果に基づいて障害箇所の特定を行うこともできる。   On the other hand, link analysis processing and aggregation processing for other log information items can be executed in parallel, and the results of link analysis processing and analysis results for other log information items are combined. It is also possible to evaluate the failure and identify the fault location based on the evaluation result.

例えば、図8(c)に示すように、各障害要因(例えば、コネクション情報異常、NG処理数、CPU使用率異常)に重みを設定しておき、各対象カードの障害要因検出度数にそれぞれ対応する重みを乗じた値を積算することにより、各対象カードにおける障害の重大さを表す評価値を求めることができる。このようにして得られた評価値には、上述した複数の障害要因の検出度数と個々の障害要因の重大性が反映されているので、この評価値の大小を比較することにより、障害が発生している可能性が高さを確実に判断することができる。例えば、この評価値に基づいて、障害カードである可能性が高い順に被疑順位を決定し(図8(c)参照)、例えば、最も高い被疑順位が与えられた対象カードを障害カードとして特定することができる。   For example, as shown in FIG. 8C, a weight is set for each failure factor (for example, connection information abnormality, number of NG processes, CPU usage rate abnormality), and corresponds to the failure factor detection frequency of each target card. By accumulating the values multiplied by the weights to be evaluated, an evaluation value representing the severity of the failure in each target card can be obtained. Since the evaluation value obtained in this way reflects the detection frequency of the above-mentioned multiple failure factors and the severity of each failure factor, a failure occurs by comparing the magnitudes of the evaluation values. It is possible to reliably determine the high possibility of being. For example, based on this evaluation value, the suspicion rank is determined in descending order of the possibility of being a failure card (see FIG. 8C), and for example, the target card given the highest suspicion rank is specified as the failure card. be able to.

障害箇所特定方法の実施形態を示す図である。It is a figure which shows embodiment of the failure location identification method. 障害箇所特定処理部の詳細構成を示す図である。It is a figure which shows the detailed structure of a fault location specific process part. 収集管理テーブルの例を示す図である。It is a figure which shows the example of a collection management table. ログ情報の例を示す図である。It is a figure which shows the example of log information. 障害箇所特定動作を表す流れ図である。It is a flowchart showing a failure location specific operation. リンク解析動作を表す流れ図である。It is a flowchart showing link analysis operation. リンク解析処理を説明する図である。It is a figure explaining link analysis processing. ログ情報解析処理を説明する図である。It is a figure explaining log information analysis processing. 無線ネットワーク制御装置の構成例を示す図である。It is a figure which shows the structural example of a wireless network control apparatus.

符号の説明Explanation of symbols

211 ログ情報収集部
212 収集管理テーブル
213 ログ解析処理部
214 収集処理部
215 ログ格納部
216 項目情報抽出部
217 リンク解析部
218 集計処理部
219 特定処理部
401 外部インタフェース(I/F)部
402 セル交換装置
403 トランク装置
404 No.7信号終端部
405 信号終端装置共通部
406 機能ブロック1
407 機能ブロック2
408 制御処理部
409 保守端末制御部
410 保守端末
411 端末制御信号終端部
211 Log Information Collection Unit 212 Collection Management Table 213 Log Analysis Processing Unit 214 Collection Processing Unit 215 Log Storage Unit 216 Item Information Extraction Unit 217 Link Analysis Unit 218 Total Processing Unit 219 Specific Processing Unit 401 External Interface (I / F) Unit 402 Cell Exchange device 403 Trunk device 404 7 signal termination unit 405 signal termination unit common unit 406 functional block 1
407 Function block 2
408 Control processing unit 409 Maintenance terminal control unit 410 Maintenance terminal 411 Terminal control signal termination unit

Claims (5)

複数種類の機能カードから構成されるシステムでの障害事象発生に応じて障害事象発生時のログ情報を収集解析する障害箇所特定方法において、
複数の障害事例それぞれに対応して、各障害事例に関連する機能カードを示す情報を収集管理テーブルに登録しておき、
障害事象の発生に応じて、前記障害事象に相当する障害事象例に対応して前記収集管理テーブルを参照し、登録された情報に基づいてログ収集の対象とする対象カードを選択し、
選択された対象カードから前記障害事例が発生する過程で前記対象カードに蓄積されるログ情報を収集し、
収集したログ情報をこれに含まれるログ情報項目ごとに、障害要因を検出する処理と、検出した障害要因を対象カードごとに集計する処理とを含む解析処理を行い、前記対象カードごとに各ログ情報項目に対応する異常が発生している可能性を示す評価指標を算出し、
前記評価指標に基づいて切替対象カードを特定する
ことを特徴とする障害箇所特定方法。
In a failure location identification method that collects and analyzes log information when a failure event occurs according to the failure event occurrence in a system composed of multiple types of function cards,
Corresponding to each of multiple failure cases, register information indicating the function card related to each failure case in the collection management table,
According to the occurrence of the failure event, refer to the collection management table corresponding to the failure event example corresponding to the failure event, select the target card to be the target of log collection based on the registered information,
Collect log information accumulated in the target card in the process of occurrence of the failure case from the selected target card,
For each log information item included in the collected log information, an analysis process including a process of detecting a failure factor and a process of aggregating the detected failure factors for each target card is performed . Calculate an evaluation index that indicates the possibility of an abnormality corresponding to the information item,
A failure location specifying method, wherein a switching target card is specified based on the evaluation index.
請求項1に記載の障害箇所特定方法において、
前記複数の障害事例それぞれに対応して、収集対象とするログ情報項目を収集管理テーブルに登録しておき、
障害事象の発生に応じて、前記ログ収集対象カードからログ情報を収集する際に、前記収集管理テーブルに登録されたログ情報項目に関する情報を抽出して解析処理に供する
ことを特徴とする障害箇所特定方法。
In the fault location identification method according to claim 1,
In correspondence with each of the plurality of failure cases, log information items to be collected are registered in the collection management table,
When collecting log information from the log collection target card according to the occurrence of a failure event, the information on the log information item registered in the collection management table is extracted and used for analysis processing. Identification method.
請求項1に記載の障害箇所特定方法において、
特定された切替対象カードについてアラーム処理を実行する
ことを特徴とする障害箇所特定方法。
In the fault location identification method according to claim 1,
A fault location identifying method characterized in that alarm processing is executed for the identified switching target card.
請求項1に記載の障害箇所特定方法において、
コネクション情報を含むログ情報を解析する際に、
収集されたログ情報に含まれているコネクション情報を時系列に従って配列し、
前記配列されたコネクション情報で示されるリンクを辿ることにより、リンクが不連続となっている箇所を検出し、
前記リンクの不連続箇所の数をログ収集対象カードごとに集計した結果に基づいて、各ログ収集対象カードのコネクション情報の異常に関する評価指標を求める
ことを特徴とする障害箇所特定方法。
In the fault location identification method according to claim 1,
When analyzing log information including connection information,
Arrange the connection information included in the collected log information according to the time series,
By detecting the link is discontinuous by following the link indicated by the arranged connection information,
A failure location specifying method, comprising: obtaining an evaluation index related to an abnormality in connection information of each log collection target card based on a result of counting the number of discontinuous portions of the link for each log collection target card.
請求項1に記載の障害箇所特定方法において、
切替対象カードを特定する際に、
前記各ログ情報項目に対応して、対応する異常の重要度に応じた重みを与えておき、
ログ収集の対象となった機能カードごとに、算出された評価指標に各ログ情報項目に対応する重みを与えて加算し、
得られた加算結果が最も大きい機能カードを切替対象として選択する
ことを特徴とする障害箇所特定方法。
In the fault location identification method according to claim 1,
When identifying the card to be switched,
Corresponding to each log information item, giving a weight according to the importance of the corresponding abnormality,
For each function card that is the target of log collection, add the weight corresponding to each log information item to the calculated evaluation index,
A fault location identification method, wherein the function card having the largest addition result is selected as a switching target.
JP2008067634A 2008-03-17 2008-03-17 Fault location identification method Expired - Fee Related JP5130968B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008067634A JP5130968B2 (en) 2008-03-17 2008-03-17 Fault location identification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008067634A JP5130968B2 (en) 2008-03-17 2008-03-17 Fault location identification method

Publications (2)

Publication Number Publication Date
JP2009225131A JP2009225131A (en) 2009-10-01
JP5130968B2 true JP5130968B2 (en) 2013-01-30

Family

ID=41241459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008067634A Expired - Fee Related JP5130968B2 (en) 2008-03-17 2008-03-17 Fault location identification method

Country Status (1)

Country Link
JP (1) JP5130968B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5780553B2 (en) * 2012-04-02 2015-09-16 Kddi株式会社 Fault monitoring apparatus and fault monitoring method
JP2014107801A (en) * 2012-11-29 2014-06-09 Fujitsu Ltd Base station and congestion control method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2679670B2 (en) * 1995-03-06 1997-11-19 日本電気株式会社 Network management device
JPH09116626A (en) * 1995-10-20 1997-05-02 Fujitsu Ltd Device for diagnosing and analizing fault

Also Published As

Publication number Publication date
JP2009225131A (en) 2009-10-01

Similar Documents

Publication Publication Date Title
EP3745272B1 (en) An application performance analyzer and corresponding method
CN111010291B (en) Business process abnormity warning method and device, electronic equipment and storage medium
CN106789306B (en) Method and system for detecting, collecting and recovering software fault of communication equipment
WO2010032701A1 (en) Operation management device, operation management method, and operation management program
CN103026344A (en) Fault detection apparatus, a fault detection method and a program recording medium
US20140325276A1 (en) Apparatus, method and storage medium for fault cause extraction utilizing performance values
CN105549508B (en) A kind of alarm method and device merged based on information
CN111722952A (en) Fault analysis method, system, equipment and storage medium of business system
JPWO2018146768A1 (en) Defect factor estimation device and defect factor estimation method
CN111611146B (en) Micro-service fault prediction method and device
KR102472081B1 (en) A System and Method for Monitoring Manufacturing Process
CN100461929C (en) Network device fault detecting method and device
CN114363151A (en) Fault detection method and device, electronic equipment and storage medium
CN107317708B (en) Monitoring method and device for court business application system
JP5130968B2 (en) Fault location identification method
CN105634781B (en) Multi-fault data decoupling method and device
CN113778960A (en) Fault determination method and device for Internet of things system and storage medium
JP6586067B2 (en) Fault location device, fault location method, and fault location program
CN110609761B (en) Method and device for determining fault source, storage medium and electronic equipment
CN111654405B (en) Method, device, equipment and storage medium for fault node of communication link
JP5780553B2 (en) Fault monitoring apparatus and fault monitoring method
CN112363893B (en) Method, equipment and device for detecting time sequence index abnormity
CN109145609A (en) A kind of data processing method and device
CN114884849A (en) CAN bus abnormity detection method and system based on Adaboost
JP2019502969A (en) Method and system for supporting supercomputer maintenance and optimization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120522

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121009

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121022

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees