JP7159596B2 - Optical transmission/reception system, optical communication device, and failure detection method - Google Patents

Optical transmission/reception system, optical communication device, and failure detection method Download PDF

Info

Publication number
JP7159596B2
JP7159596B2 JP2018071355A JP2018071355A JP7159596B2 JP 7159596 B2 JP7159596 B2 JP 7159596B2 JP 2018071355 A JP2018071355 A JP 2018071355A JP 2018071355 A JP2018071355 A JP 2018071355A JP 7159596 B2 JP7159596 B2 JP 7159596B2
Authority
JP
Japan
Prior art keywords
failure
information
optical
optical module
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018071355A
Other languages
Japanese (ja)
Other versions
JP2019186618A (en
Inventor
道明 椎田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018071355A priority Critical patent/JP7159596B2/en
Publication of JP2019186618A publication Critical patent/JP2019186618A/en
Application granted granted Critical
Publication of JP7159596B2 publication Critical patent/JP7159596B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Optical Communication System (AREA)

Description

本発明は、光送受信システム、光通信装置及び故障検出方法に関する。 The present invention relates to an optical transmission/reception system, an optical communication device, and a failure detection method.

従来、フィールドで稼働中のサーバでは、故障検出の方法として以下のような手段が取られている場合がある。例えば、サーバは、1日1回ログ情報を取得し採取したログを情報蓄積領域に格納する。そして、サーバは、収集したログを解析するとともに蓄積して自装置における各部の故障監視を行う。 Conventionally, in servers operating in the field, there are cases where the following measures are taken as failure detection methods. For example, the server acquires log information once a day and stores the collected log in the information storage area. Then, the server analyzes and accumulates the collected logs, and performs failure monitoring of each unit in its own device.

このような故障検出を行う従来のサーバにおいて、光モジュールに関しては故障の予兆を検出した場合に、システムが停止することを防ぐため、故障が発生する前にその光モジュールの保守が行われることが一般的である。そのため、故障の予兆が無い場合には、光モジュールは、保守が行われずにそのまま継続して使用される。さらに、突発的に光モジュールの故障の警告が発せられた場合や故障が発生した場合、そのタイミングで故障の対象と考えられる全ての光モジュールのログが収集される。そして、収集されたログが解析され、その解析結果に基づいて光モジュールの保守が行われる。 In conventional servers that perform such failure detection, in order to prevent the system from stopping when a sign of failure is detected for an optical module, maintenance of the optical module is often performed before the failure occurs. Common. Therefore, if there is no sign of failure, the optical module can continue to be used without maintenance. Furthermore, when an optical module failure warning is suddenly issued or when a failure occurs, the logs of all optical modules considered to be failure targets are collected at that timing. Then, the collected logs are analyzed, and maintenance of the optical module is performed based on the analysis results.

なお、故障検出の技術として、アナログセンサの計測値と設定値とを比較し、状態に応じて異常検出の周期を変更し、異常状態の検出を行う従来技術がある。また、無線通信システムにおいて装置や回線の異常が発生した場合に、運用を停止してシステムの安全性を向上させる従来技術がある。 As a failure detection technique, there is a conventional technique for detecting an abnormal state by comparing a measurement value of an analog sensor and a set value, and changing the period of abnormality detection according to the state. In addition, there is a conventional technique for improving the safety of a system by stopping operation when an abnormality occurs in a device or line in a wireless communication system.

特開平06-168342号公報JP-A-06-168342 特開2009-188766号公報JP 2009-188766 A

しかしながら、従来の光モジュールの故障検出のように故障検出又は警告発生時に光モジュールの詳細ログ情報を収集する方法では、故障検出や警告発生に至るまでの経緯を探る情報が不足する。そのため、光モジュールの故障原因を特定することが困難である。そこで、再現試験による故障原因の特定や過去の故障発生状況に照らして故障原因を特定することが行われる。その場合、例えば、再現試験には作業が長時間に及ぶおそれがあり、故障原因の特定を容易に行うことは困難である。また、過去の故障発生状況からの故障原因の特定には作業者の技術に依存することになり、故障原因の特定が確実に行われないおそれがある。 However, in the conventional method of collecting detailed log information of an optical module when a failure is detected or a warning occurs, there is a lack of information for investigating the circumstances leading up to the failure detection or the occurrence of a warning. Therefore, it is difficult to identify the cause of the failure of the optical module. Therefore, the cause of failure is identified by a reproduction test or in light of past failure occurrence conditions. In that case, for example, the reproduction test may take a long time, and it is difficult to easily identify the cause of the failure. In addition, it depends on the skill of the operator to identify the cause of failure from past failure occurrence situations, and there is a risk that the cause of failure cannot be identified reliably.

そこで、光モジュールの故障原因を特定するために、光モジュールの故障検出に至るまでの経緯をログ情報としてサーバに残す方法が考えられる。この場合、全ての光モジュールについて定期的なログ情報の取得及び蓄積が行われることになり、サーバを制御するプロセッサに負荷がかかるだけでなく、サーバ性能が低下するおそれがあり、容易に実行することは困難である。 Therefore, in order to identify the cause of the failure of the optical module, a method of leaving log information on the server until the failure of the optical module is detected is conceivable. In this case, log information is periodically acquired and accumulated for all optical modules, which not only puts a load on the processor that controls the server, but also may reduce the performance of the server. is difficult.

また、装置の状態に応じて異常検出の周期を変更する従来技術を用いた場合、検出周期を増やしても光モジュールの故障に至るまでの情報を収集することは困難であり、光モジュールの故障原因の特定は難しい。さらに、異常が発生した場合に運用を停止する従来技術を用いても、光モジュールの故障に至るまでの情報を収集することは困難であり、光モジュールの故障原因の特定は難しい。 In addition, when using the conventional technology that changes the abnormality detection cycle according to the state of the device, it is difficult to collect information until the failure of the optical module even if the detection cycle is increased. Determining the cause is difficult. Furthermore, even with the conventional technology of stopping operation when an abnormality occurs, it is difficult to collect information up to the failure of the optical module, and it is difficult to identify the cause of the failure of the optical module.

開示の技術は、上記に鑑みてなされたものであって、光モジュールの故障原因の特定を容易に行う光送受信システム、光通信装置及び故障検出方法を提供することを目的とする。 The disclosed technology has been made in view of the above, and aims to provide an optical transmission/reception system, an optical communication device, and a failure detection method that facilitate identification of the cause of failure of an optical module.

本願の開示する光送受信システム、光通信装置及び故障検出方法の一つの態様において、光送受信システムは、光送信装置、前記光送信装置と光通信路を介して接続される光受信装置、並びに、前記光送信装置及び前記光受信装置を制御する制御装置を有する。前記制御装置は、前記光受信装置が有する光モジュールを含む複数の監視対象の中から1つずつ前記監視対象を選択し、選択した前記監視対象が光モジュールでない場合、選択した前記監視対象に関する第1情報を取得し、選択した前記監視対象の故障予兆及び故障検出を行うログ監視制御部と、前記ログ監視制御部により選択された前記監視対象が光モジュールの場合、選択された前記監視対象である前記光モジュールに関する第1情報を取得し、取得した前記第1情報を基に、前記光モジュールに関する故障予兆を検出する予兆検出部と、前記予兆検出部により故障予兆が検出された場合、前記光モジュールに関する第2情報を取得し、取得した前記第2情報を基に前記光モジュールに関する故障原因の特定を行う特定部を備える。 In one aspect of the optical transmission/reception system, the optical communication device, and the failure detection method disclosed in the present application, the optical transmission/reception system includes an optical transmission device, an optical reception device connected to the optical transmission device via an optical communication path, and A controller for controlling the optical transmitter and the optical receiver is provided. The control device selects the monitoring target one by one from a plurality of monitoring targets including an optical module of the optical receiving device, and if the selected monitoring target is not an optical module, a first monitoring target related to the selected monitoring target is selected. 1. A log monitoring control unit that acquires information and performs failure prediction and failure detection for the selected monitoring target; and if the monitoring target selected by the log monitoring control unit is an optical module, the selected monitoring target a predictor detection unit that acquires first information about a certain optical module and detects a predictor of failure regarding the optical module based on the obtained first information; an identifying unit that obtains second information about the optical module and identifies a cause of failure about the optical module based on the obtained second information.

1つの側面では、本発明は、光モジュールの故障原因の特定を容易に行うことができる。 In one aspect, the present invention can easily identify the cause of failure of an optical module.

図1は、情報処理装置のシステム構成図である。FIG. 1 is a system configuration diagram of an information processing apparatus. 図2は、サービスプロセッサの詳細を表すブロック図である。FIG. 2 is a block diagram showing the details of the service processor. 図3は、収集される光モジュールのRSSIの情報の一例を表す図である。FIG. 3 is a diagram showing an example of collected RSSI information of an optical module. 図4は、収集される光モジュールの温度情報の一例を表す図である。FIG. 4 is a diagram showing an example of collected temperature information of an optical module. 図5は、光モジュールのログ情報として収集されるBERの一例を表す図である。FIG. 5 is a diagram showing an example of BER collected as log information of an optical module. 図6は、監視設定テーブルの一例の図である。FIG. 6 is a diagram of an example of a monitoring setting table. 図7は、閾値テーブルの一例の図である。FIG. 7 is a diagram of an example of a threshold table. 図8は、光素子エラーが通知される場合の判定状態を表す図である。FIG. 8 is a diagram showing a determination state when an optical element error is notified. 図9は、相性問題の発生が通知される場合の判定状態の遷移を表す図である。FIG. 9 is a diagram showing the transition of determination states when the occurrence of a compatibility problem is notified. 図10は、複数ポートエラーが通知される場合の判定状態の遷移を表す図である。FIG. 10 is a diagram showing the transition of determination states when a multi-port error is notified. 図11は、通常状態でのログ監視のフローチャートである。FIG. 11 is a flow chart of log monitoring in a normal state. 図12は、光モジュールの故障予兆の検出処理のフローチャートである。FIG. 12 is a flow chart of detection processing of a sign of failure of an optical module. 図13は、故障原因特定処理のフローチャートである。FIG. 13 is a flowchart of failure cause identification processing.

以下に、本願の開示する光送受信システム、光通信装置及び故障検出方法の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する光送受信システム、光通信装置及び故障検出方法が限定されるものではない。 Embodiments of an optical transmission/reception system, an optical communication device, and a failure detection method disclosed in the present application will be described below in detail with reference to the drawings. The optical transmission/reception system, the optical communication device, and the failure detection method disclosed in the present application are not limited to the following embodiments.

図1は、情報処理装置のシステム構成図である。図1に示すように、情報処理装置1は、サービスプロセッサ10、CPU(Central Processing Unit)グループ21及び22、並びに、出力装置4を有する。この情報処理装置が、「光送受信システム」の一例にあたる。 FIG. 1 is a system configuration diagram of an information processing apparatus. As shown in FIG. 1 , the information processing apparatus 1 includes a service processor 10 , CPU (Central Processing Unit) groups 21 and 22 , and an output device 4 . This information processing device corresponds to an example of an "optical transmission/reception system."

ここで、本実施例では、光通信を行う1対のCPUグループ21及び22を例として記載したが、実際にはいくつ存在してもよい。また、例えば、CPUグループ21が、CPUグループ22以外とも光通信を行ってもよい。ここで、CPUグループ21とCPUグループ22とは同じ機能を有するため、以下ではCPUグループ21を例に説明する。このCPUグループ21及び22が、「光受信装置」及び「光送信装置」の一例にあたる。 Here, in this embodiment, a pair of CPU groups 21 and 22 that perform optical communication has been described as an example, but actually any number of CPU groups may exist. Also, for example, the CPU group 21 may perform optical communication with other than the CPU group 22 . Since the CPU group 21 and the CPU group 22 have the same function, the CPU group 21 will be described below as an example. The CPU groups 21 and 22 correspond to examples of "optical receiver" and "optical transmitter".

CPUグループ21は、CPU211、光モジュール212、レンズブロック213、温度センサ216、送信側ポート217及び受信側ポート218を有する。 The CPU group 21 has a CPU 211 , an optical module 212 , a lens block 213 , a temperature sensor 216 , a transmission side port 217 and a reception side port 218 .

CPU211は、演算処理を行う。CPU211は、CPU221宛てのデータを光モジュール212へ送出する。また、CPU211は、光モジュール212を介して、CPU221から送信されたデータを受信する。CPU211は、受信したデータを演算処理に用いることができる。 The CPU 211 performs arithmetic processing. The CPU 211 sends data addressed to the CPU 221 to the optical module 212 . The CPU 211 also receives data transmitted from the CPU 221 via the optical module 212 . The CPU 211 can use the received data for arithmetic processing.

CPU211と光モジュール212とは、ポート219により接続される。1つのポート219は、4つのチャネルを有する。CPU211と光モジュール212とは、3つの送信用のポート219と3つの受信用のポート219により接続される。すなわち、CPU211は、光モジュール212への電気信号送信のためのチャネルとして12本のチャネルを有する。またCPU211は、光モジュール212からの電気信号受信のためのチャネルとして12本のチャネルを有する。 The CPU 211 and optical module 212 are connected by a port 219 . One port 219 has four channels. The CPU 211 and the optical module 212 are connected by three ports 219 for transmission and three ports 219 for reception. That is, the CPU 211 has 12 channels as channels for electrical signal transmission to the optical module 212 . The CPU 211 also has 12 channels for receiving electrical signals from the optical module 212 .

さらに、CPU211は、図示しないICC(Inter Connect Controller)を有する。また、CPU211は、バス5を介してサービスプロセッサ10の通信部13と接続される。CPU211のICCは、受信した信号のビット当たりのエラー率であるBER(Bit Error Rate)を求める。CPU211は、サービスプロセッサ10からの要求に応じて、ICCにより求められたBERの情報をサービスプロセッサ10へ送信する。 Further, the CPU 211 has an ICC (Inter Connect Controller) (not shown). Also, the CPU 211 is connected to the communication unit 13 of the service processor 10 via the bus 5 . The ICC of the CPU 211 obtains a BER (Bit Error Rate), which is an error rate per bit of the received signal. The CPU 211 transmits BER information obtained by the ICC to the service processor 10 in response to a request from the service processor 10 .

光モジュール212は、電気信号と光信号との変換を行う装置である。光モジュール212は、レンズブロック223、並びに、制御部214及び215を有する。また、光モジュール212は、バス5を介してサービスプロセッサ10の通信部13と接続される。 The optical module 212 is a device that converts between an electrical signal and an optical signal. The optical module 212 has a lens block 223 and controllers 214 and 215 . Also, the optical module 212 is connected to the communication unit 13 of the service processor 10 via the bus 5 .

制御部214は、CPU211から送出された電気信号送信する3つのポート219でCPU211と接続される。すなわち、制御部214は、CPU211との間を12本のチャネルで接続される。制御部214は、CPU211からポート219を介して送られた電気信号を受信する。そして、制御部214は、受信した電気信号を光信号に変換する。その後、制御部214は、光信号をレンズブロック213へ送信する。 The control unit 214 is connected to the CPU 211 through three ports 219 for transmitting electrical signals sent from the CPU 211 . That is, the control unit 214 is connected to the CPU 211 through 12 channels. The control unit 214 receives electrical signals sent from the CPU 211 via the port 219 . The controller 214 then converts the received electrical signal into an optical signal. The controller 214 then transmits the optical signal to the lens block 213 .

制御部215は、CPU211へ電気信号を送る3つのポート219でCPU211と接続される。すなわち、制御部215は、CPU211との間を12本のチャネルで接続される。制御部215は、CPUグループ22から送出された光信号をレンズブロック213から受信する。そして、制御部214は、受信した光信号を電気信号に変換する。その後、制御部215は、電気信号をCPU211へ送信する。また、制御部215は、光信号を受信した場合、受信信号強度であるRSSI(Received Signal Strength Indication)を計測する。そして、光モジュール212は、サービスプロセッサ10からの要求に応じて、制御部215によるRSSIの計測結果をサービスプロセッサ10へ送信する。 The control unit 215 is connected to the CPU 211 through three ports 219 that send electrical signals to the CPU 211 . That is, the control unit 215 is connected to the CPU 211 through 12 channels. The control unit 215 receives optical signals sent from the CPU group 22 from the lens block 213 . The controller 214 then converts the received optical signal into an electrical signal. Then, the control part 215 transmits an electrical signal to CPU211. Also, when receiving an optical signal, the control unit 215 measures RSSI (Received Signal Strength Indication), which is the received signal strength. In response to a request from the service processor 10 , the optical module 212 transmits the result of RSSI measurement by the control unit 215 to the service processor 10 .

レンズブロック213は、CPU211から送出された12チャネルの光信号の入力を制御部214から受ける。そして、レンズブロック213は、取得した光信号を集光し送信側ポート217へ出力する。また、レンズブロック213は、CPU221から送出された21チャネルの光信号の入力を受信側ポート218から受ける。そして、レンズブロック213は、取得した光信号を集光し制御部215へ出力する。 The lens block 213 receives the input of the 12-channel optical signals sent from the CPU 211 from the control unit 214 . The lens block 213 converges the acquired optical signal and outputs it to the transmission side port 217 . Also, the lens block 213 receives the input of the 21-channel optical signals sent from the CPU 221 through the receiving port 218 . The lens block 213 converges the acquired optical signal and outputs it to the controller 215 .

送信側ポート217は、CPUグループ22における受信側ポート228と光ケーブル31により接続される。送信側ポート217は、レンズブロック213から入力された光信号を光ケーブル31を介して受信側ポート228へ送信する。 The transmission side port 217 is connected to the reception side port 228 in the CPU group 22 by the optical cable 31 . The transmission side port 217 transmits the optical signal input from the lens block 213 to the reception side port 228 via the optical cable 31 .

受信側ポート218は、CPUグループ22における送信側ポート227と光ケーブル31により接続される。受信側ポート218は、送信側ポート227から送出された光信号を光ケーブル32を介して受信する。そして、受信側ポート218は、受信した光信号をレンズブロック213へ出力する。 The receiving port 218 is connected to the transmitting port 227 in the CPU group 22 by the optical cable 31 . The receiving port 218 receives the optical signal transmitted from the transmitting port 227 via the optical cable 32 . The receiving port 218 then outputs the received optical signal to the lens block 213 .

温度センサ216は、バス5を介してサービスプロセッサ10に接続される。温度センサ216は、光モジュール212の温度を計測する。そして、温度センサ216は、サービスプロセッサ10からの要求に応じて、光モジュール212の温度の計測結果をサービスプロセッサ10へ送信する。 Temperature sensor 216 is connected to service processor 10 via bus 5 . Temperature sensor 216 measures the temperature of optical module 212 . Then, the temperature sensor 216 transmits the measurement result of the temperature of the optical module 212 to the service processor 10 in response to a request from the service processor 10 .

CPUグループ22は、CPU221、光モジュール222、温度センサ226、送信側ポート227及び受信側ポート228を有する。そして、光モジュール222は、レンズブロック223、並びに、制御部224及び225を有する。そして、CPU221と制御部224及び225とは、それぞれ4チャネルを有する6つのポート229を経由して通信を行う。CPUグループ22の各部は、CPUグループ21の各部と同様に動作する。 The CPU group 22 has a CPU 221 , an optical module 222 , a temperature sensor 226 , a transmission side port 227 and a reception side port 228 . The optical module 222 has a lens block 223 and controllers 224 and 225 . The CPU 221 and the control units 224 and 225 communicate via six ports 229 each having four channels. Each part of the CPU group 22 operates similarly to each part of the CPU group 21 .

サービスプロセッサ10は、制御部11、記憶部12及び通信部13を有する。このサービスプロセッサ10が、「制御装置」の一例にあたる。制御部11は、プロセッサコアなどである。記憶部12は、メモリなどの記憶装置である。通信部13は、CPUグループ21及び22、並びに、出力装置4との通信用のインタフェースである。 The service processor 10 has a control section 11 , a storage section 12 and a communication section 13 . This service processor 10 corresponds to an example of a "control device". The control unit 11 is a processor core or the like. The storage unit 12 is a storage device such as a memory. The communication unit 13 is an interface for communication with the CPU groups 21 and 22 and the output device 4 .

通信部13は、CPUグループ21のCPU211及び光モジュール212、並びに、CPUグループ22のCPU221及び光モジュール222とバス5を介して接続される。また、通信部13は、バス5を介して出力装置4と接続される。 The communication unit 13 is connected to the CPU 211 and the optical module 212 of the CPU group 21 and to the CPU 221 and the optical module 222 of the CPU group 22 via the bus 5 . Also, the communication unit 13 is connected to the output device 4 via the bus 5 .

通信部13は、バス5を介して制御部11から受信したデータを出力装置4へ出力する。また、通信部13は、制御部11から出力されたBERの情報の取得要求をCPU211及び221へ送信する。そして、通信部13は、送信した取得要求への応答としてBERの情報をCPU211及び221から受信する。その後、通信部13は、CPU211及び221におけるBERの情報を制御部11へ出力する。 The communication unit 13 outputs data received from the control unit 11 via the bus 5 to the output device 4 . Further, the communication unit 13 transmits a request for obtaining BER information output from the control unit 11 to the CPUs 211 and 221 . Then, the communication unit 13 receives BER information from the CPUs 211 and 221 as a response to the transmitted acquisition request. After that, the communication unit 13 outputs BER information in the CPUs 211 and 221 to the control unit 11 .

また、通信部13は、制御部11から出力されたRSSIの情報の取得要求を光モジュール212及び222へ送信する。そして、通信部13は、送信した取得要求への応答としてRSSIの情報を光モジュール212及び222から受信する。その後、通信部13は、CPU211及び221におけるRSSIの情報を制御部11へ出力する。 Further, the communication unit 13 transmits a request to acquire the RSSI information output from the control unit 11 to the optical modules 212 and 222 . Then, the communication unit 13 receives RSSI information from the optical modules 212 and 222 as a response to the transmitted acquisition request. After that, the communication unit 13 outputs RSSI information in the CPUs 211 and 221 to the control unit 11 .

また、通信部13は、制御部11から出力された温度情報の取得要求を温度センサ216及び226へ送信する。そして、通信部13は、送信した取得要求への応答としてCPU211及び221の温度情報をそれぞれ温度センサ216及び226から受信する。その後、通信部13は、CPU211及び221の温度情報を制御部11へ出力する。 Further, the communication unit 13 transmits a temperature information acquisition request output from the control unit 11 to the temperature sensors 216 and 226 . Then, the communication unit 13 receives the temperature information of the CPUs 211 and 221 from the temperature sensors 216 and 226, respectively, as a response to the transmitted acquisition request. After that, the communication unit 13 outputs temperature information of the CPUs 211 and 221 to the control unit 11 .

記憶部12は、メモリやハードディスクなどの記憶装置である。記憶部12は、故障予兆及び故障原因特定の処理に用いられる閾値が登録された閾値テーブル121及び詳細なログの監視を実行しているか否かを表す監視設定テーブル122を格納する。閾値テーブル121及び監視設定テーブル122については後で詳細に説明する。 The storage unit 12 is a storage device such as memory or hard disk. The storage unit 12 stores a threshold table 121 in which thresholds used in failure sign and failure cause identification processing are registered, and a monitoring setting table 122 indicating whether or not detailed log monitoring is being performed. The threshold table 121 and monitoring setting table 122 will be described later in detail.

図2は、サービスプロセッサの詳細を表すブロック図である。図2に示すように、制御部11は、ログ監視部111及び障害ログ取得部115を有する。ここで、CPU211及び221はいずれも同様の機能を有するので、以下では、CPU211を例にサービスプロセッサ10の機能について説明する。 FIG. 2 is a block diagram showing the details of the service processor. As shown in FIG. 2 , the control unit 11 has a log monitoring unit 111 and a failure log acquisition unit 115 . Since both the CPUs 211 and 221 have similar functions, the functions of the service processor 10 will be described below using the CPU 211 as an example.

障害ログ取得部115は、正常な状態では、1日に1回ログ情報の収集を通信部13に行う。障害ログ取得部115は、ログ監視制御部112により選択された監視対象のログ情報の取得要求をログ監視制御部112から受ける。そして、障害ログ取得部115は、監視対象に対するログ情報の取得要求を通信部13に送信する。ここで、ログ情報には、例えば、CPU211の負荷率、ファンの回転数及びCPU211の温度などの情報が含まれる。他にも、ログ情報には、CPU211の温度情報、光モジュール212のRSSIの情報及びCPU211におけるBERの情報が含まれる。 In a normal state, the fault log acquisition unit 115 causes the communication unit 13 to collect log information once a day. The failure log acquisition unit 115 receives from the log monitoring control unit 112 an acquisition request for log information of a monitoring target selected by the log monitoring control unit 112 . The failure log acquisition unit 115 then transmits a log information acquisition request for the monitoring target to the communication unit 13 . Here, the log information includes information such as the load factor of the CPU 211, the rotation speed of the fan, and the temperature of the CPU 211, for example. The log information also includes temperature information of the CPU 211 , RSSI information of the optical module 212 , and BER information of the CPU 211 .

例えば、監視対象が光モジュール212の場合、障害ログ取得部115は、以下の情報を取得する。すなわち、障害ログ取得部115は、図3に示すような光モジュール212から送信されたRSSIの情報を通信部13から取得する。図3は、収集される光モジュールのRSSIの情報の一例を表す図である。図3におけるRxCH00~11は、制御部215に繋がる各受信チャネルを表す。すなわち、障害ログ取得部115は、図3に示すように、制御部215に繋がる12本の受信チャネルのそれぞれのRSSIを取得する。 For example, if the target to be monitored is the optical module 212, the failure log acquisition unit 115 acquires the following information. That is, the fault log acquisition unit 115 acquires from the communication unit 13 the RSSI information transmitted from the optical module 212 as shown in FIG. FIG. 3 is a diagram showing an example of collected RSSI information of an optical module. RxCH00 to 11 in FIG. 3 represent reception channels connected to the control unit 215 . That is, as shown in FIG. 3, fault log acquisition section 115 acquires the RSSI of each of the 12 reception channels connected to control section 215 .

また、障害ログ取得部115は、図4に示すような温度センサ216から送信されたCPU211の温度情報を通信部13から取得する。図4は、収集される光モジュールの温度情報の一例を表す図である。図4に示すTx温度は、光モジュール212における送信側ポート217側の温度である。また、Rx温度は、光モジュール212における受信側ポート218側の温度である。すなわち、障害ログ取得部115は、光モジュール212における送信側ポート217側の温度及び受信側ポート218側の温度を取得する。 Further, the fault log acquisition unit 115 acquires temperature information of the CPU 211 transmitted from the temperature sensor 216 as shown in FIG. 4 from the communication unit 13 . FIG. 4 is a diagram showing an example of collected temperature information of an optical module. The Tx temperature shown in FIG. 4 is the temperature on the transmission side port 217 side of the optical module 212 . Also, the Rx temperature is the temperature on the receiving side port 218 side of the optical module 212 . That is, the fault log acquisition unit 115 acquires the temperature on the transmission side port 217 side and the temperature on the reception side port 218 side of the optical module 212 .

また、障害ログ取得部115は、図5に示すようなCPU211のICC(Inter Connect Controller)から送信されたBERの情報を通信部13から取得する。図5は、光モジュールのログ情報として収集されるBERの一例を表す図である。図5におけるポート#1~#3は、CPU211に繋がるポート219のうちの受信側の3つを表す。すなわち、障害ログ取得部115は、受信側のポート219毎にBERを取得する。これらの、障害ログ取得部115に情報を送信する光モジュール212、温度センサ216及びCPU211のICCが情報通知部の一例にあたる。 Further, the fault log acquisition unit 115 acquires from the communication unit 13 BER information transmitted from an ICC (Inter Connect Controller) of the CPU 211 as shown in FIG. FIG. 5 is a diagram showing an example of BER collected as log information of an optical module. Ports #1 to #3 in FIG. 5 represent three of the ports 219 connected to the CPU 211 on the receiving side. That is, the fault log acquisition unit 115 acquires the BER for each port 219 on the receiving side. The optical module 212, the temperature sensor 216, and the ICC of the CPU 211 that transmit information to the failure log acquisition unit 115 correspond to an example of the information notification unit.

それ以外にも、障害ログ取得部115は、光の通過の有無なども取得する。障害ログ取得部115は、取得したログ情報を記憶部12のログ情報蓄積領域に格納する。 In addition to this, the failure log acquisition unit 115 also acquires the presence or absence of passage of light. The failure log acquisition unit 115 stores the acquired log information in the log information accumulation area of the storage unit 12 .

また、後述するように、光モジュール212について障害予兆がなされた場合、障害ログ取得部115は、詳細ログ取得の指示を故障予兆検出部113から受ける。そして、障害ログ取得部115は、ログ取得の周期を1日1回よりも短い周期で監視対象の光モジュール212のログ情報を取得する。例えば、障害ログ取得部115は、1時間に1回の周期で監視対象の光モジュール212のログ情報を取得する。この場合、ログ情報の収集間隔が短くなるので、障害ログ取得部115は、正常の場合より詳細なログ情報を収集しているといえる。そして、取得した監視対象の光モジュール212の詳細ログ情報を詳細ログ格納ポインタで示される記憶部12の詳細ログ格納領域に格納する。その後、障害ログ取得部115は、詳細ログ格納ポインタを1つ進める。このように格納ポインタを進めていくことで、障害ログ取得部115は、詳細ログ情報を記憶部12の中に残しておくことができる。 Further, as will be described later, when a failure sign is given for the optical module 212 , the failure log acquisition unit 115 receives an instruction to acquire a detailed log from the failure sign detection unit 113 . Then, the failure log acquisition unit 115 acquires the log information of the optical module 212 to be monitored at a log acquisition cycle shorter than once a day. For example, the failure log acquisition unit 115 acquires the log information of the optical module 212 to be monitored once every hour. In this case, since the log information collection interval is shortened, it can be said that the fault log acquisition unit 115 collects more detailed log information than in the normal case. Then, the acquired detailed log information of the monitored optical module 212 is stored in the detailed log storage area of the storage unit 12 indicated by the detailed log storage pointer. After that, the failure log acquisition unit 115 advances the detailed log storage pointer by one. By advancing the storage pointer in this way, the failure log acquisition unit 115 can leave the detailed log information in the storage unit 12 .

ログ監視制御部112は、ログ監視制御部112、故障予兆検出部113及び故障原因特定部114を有する。 The log monitoring control unit 112 has a log monitoring control unit 112 , a failure sign detection unit 113 and a failure cause identification unit 114 .

ログ監視制御部112は、監視対象となる部位の中から1つ監視対象を選択する。ログ監視制御部112は、監視対象とする各部位特定するための特定情報を予め記憶する。そして、ログ監視制御部112は、記憶した特定情報で示される部位の中から1つ監視対象を選択する。以下では、ログ監視制御部112が監視対象に選択した部位を「監視対象部位」と言う。ログ監視制御部112は、選択した監視対象部位のログ情報の取得要求を障害ログ取得部115に対して1日1回送る。その後、ログ監視制御部112は、障害ログ取得部115により記憶部12に格納されたログ情報を参照して、監視対象が光モジュール212か否かを判定する。 The log monitoring control unit 112 selects one monitoring target from the parts to be monitored. The log monitoring control unit 112 stores in advance specific information for specifying each part to be monitored. Then, the log monitoring control unit 112 selects one monitoring target from the parts indicated by the stored specific information. Hereinafter, the portion selected as the monitoring target by the log monitoring control unit 112 will be referred to as a “monitoring target portion”. The log monitoring control unit 112 sends a log information acquisition request of the selected monitoring target part to the fault log acquisition unit 115 once a day. After that, the log monitoring control unit 112 refers to the log information stored in the storage unit 12 by the failure log acquisition unit 115 and determines whether or not the optical module 212 is monitored.

監視対象部位が光モジュール212でない場合、ログ監視制御部112は、収集したログ情報が正常か否かを判定する。ログ情報が正常でない場合、ログ監視制御部112は、故障予兆か否かを判定する。例えば、ログ監視制御部112は、故障予兆と判定するための予兆判定閾値及び故障発生と判定するための故障判定閾値を予め有する。そして、ログ監視制御部112は、その閾値と記憶部12に格納されたログ情報が予兆判定閾値を超えるが故障判定閾値を超えない場合、監視対象の部位について故障予兆が発生したと判定する。故障予兆が発生した場合、ログ監視制御部112は、監視対象部位の故障予兆の発生を出力装置4に報知させる。 If the monitored part is not the optical module 212, the log monitoring control unit 112 determines whether the collected log information is normal. If the log information is not normal, the log monitoring control unit 112 determines whether it is a sign of failure. For example, the log monitoring control unit 112 has in advance a sign determination threshold for determining a failure sign and a failure determination threshold for determining that a failure has occurred. If the threshold value and the log information stored in the storage unit 12 exceed the failure determination threshold value but not the failure determination threshold value, the log monitoring control unit 112 determines that a failure symptom has occurred in the part to be monitored. When a failure sign occurs, the log monitoring control unit 112 causes the output device 4 to report the occurrence of the failure sign of the monitoring target part.

また、監視対象部位の状態が故障予兆の状態ではなく且つ故障が発生した状態である場合、ログ監視制御部112は、監視対象部位の故障発生を出力装置4に報知させる。例えば、ログ監視制御部112は、記憶部12に格納されたログ情報が故障判定閾値を超える場合、監視対象部位に故障が発生したと判定する。その場合、ログ監視制御部112は、監視対象部位の故障発生を出力装置4に報知させる。 Further, when the state of the monitoring target part is not a failure sign state but a failure state, the log monitoring control unit 112 causes the output device 4 to notify the failure occurrence of the monitoring target part. For example, when the log information stored in the storage unit 12 exceeds a failure determination threshold, the log monitoring control unit 112 determines that a failure has occurred in the monitored part. In this case, the log monitoring control unit 112 causes the output device 4 to notify the failure occurrence of the monitored part.

これに対して、監視対象部位の状態が故障予兆の状態でも故障発生の状態でもない場合、ログ監視制御部112は、監視対象部位が正常であると判定する。その後、ログ監視制御部112は、次の監視対象を選択する。全ての監視対象のログ情報を取得し終わった場合、ログ監視制御部112は、1日1回のログ情報収集の処理を終了する。この場合、記憶部12に格納された情報は蓄積されてもよいし、監視対象部位の故障予兆及び故障の検出が終わるたびに消去されてもよい。 On the other hand, if the state of the monitored part is neither a failure sign state nor a failure occurrence state, the log monitoring control unit 112 determines that the monitored part is normal. After that, the log monitoring control unit 112 selects the next monitoring target. When log information for all monitored objects has been acquired, the log monitoring control unit 112 ends the process of collecting log information once a day. In this case, the information stored in the storage unit 12 may be accumulated, or may be deleted each time detection of a failure sign and failure of the monitoring target part is completed.

一方、監視対象部位が光モジュール212である場合、ログ監視制御部112は、監視対象部位である光モジュール212の故障予兆の検出の実行を故障予兆検出部113に指示する。その後、ログ監視制御部112は、監視対象の光モジュール212に対する故障予兆の検出処理の終了の通知を故障予兆検出部113から受ける。そして、ログ監視制御部112は、次の監視対象を選択する。 On the other hand, when the monitored part is the optical module 212, the log monitoring control unit 112 instructs the failure sign detection part 113 to detect the failure sign of the optical module 212, which is the monitored part. After that, the log monitoring control unit 112 receives from the failure sign detection unit 113 a notification of the end of the failure sign detection processing for the optical module 212 to be monitored. Then, the log monitoring control unit 112 selects the next monitoring target.

故障予兆検出部113は、監視対象の光モジュール212の故障予兆検出を行う。具体的には、光モジュール212の故障予兆の検出の実行の指示をログ監視制御部112から受ける。そして、故障予兆検出部113は、記憶部12に格納された図6に示す監視設定テーブル122を参照して、指定された光モジュール212について詳細ログ情報を収集中か否かを判定する。図6は、監視設定テーブルの一例の図である。図6における監視設定テーブル122では、フラグの値として1が設定されている場合に、対応するCPUグループ21又は22に詳細ログフラグが設定されている。例えば、監視対象が光モジュール212の場合、故障予兆検出部113は、監視設定テーブル122におけるCPUグループ21の詳細ログフラグを確認する。図3では、CPUグループ21の詳細ログフラグの値が1であることから、故障予兆検出部113は、CPUグループ21は詳細ログ情報の収集中であると判定する。監視対象の光モジュール212の詳細ログ情報を収集中であれば、故障予兆検出部113は、故障予兆処理を終了する。 The failure sign detection unit 113 performs failure sign detection for the optical module 212 to be monitored. Specifically, it receives from the log monitoring control unit 112 an instruction to detect a sign of failure of the optical module 212 . Then, the failure sign detection unit 113 refers to the monitoring setting table 122 shown in FIG. FIG. 6 is a diagram of an example of a monitoring setting table. In the monitoring setting table 122 in FIG. 6, when 1 is set as the flag value, the corresponding CPU group 21 or 22 is set with a detailed log flag. For example, when the monitoring target is the optical module 212 , the failure sign detection unit 113 checks the detailed log flag of the CPU group 21 in the monitoring setting table 122 . In FIG. 3, since the value of the detailed log flag of the CPU group 21 is 1, the failure sign detection unit 113 determines that the CPU group 21 is collecting detailed log information. If the detailed log information of the monitored optical module 212 is being collected, the failure predictor detection unit 113 terminates the failure predictor processing.

これに対して、監視対象の光モジュール212の詳細ログ情報を収集中でなければ、故障予兆検出部113は、図7に示す閾値テーブル121を取得する。図7は、閾値テーブルの一例の図である。さらに、故障予兆検出部113は、記憶部12から記憶部12から監視対象の光モジュール212のログ情報を取得する。そして、故障予兆検出部113は、閾値テーブル121と取得したログ情報とを比較し、温度情報が45度以上、RSSIが-2.0db未満又はBERが1eの9乗以上の少なくとも何れか1つを満たすか否かを判定する。 On the other hand, if the detailed log information of the monitored optical module 212 is not being collected, the failure sign detection unit 113 acquires the threshold table 121 shown in FIG. FIG. 7 is a diagram of an example of a threshold table. Furthermore, the failure sign detection unit 113 acquires the log information of the monitored optical module 212 from the storage unit 12 . Then, the failure sign detection unit 113 compares the threshold table 121 with the acquired log information, and determines that at least one of temperature information is 45 degrees or more, RSSI is less than −2.0 db, or BER is 1e to the 9th power or more. It is determined whether or not the condition is satisfied.

監視対象の光モジュール212のログ情報における値がいずれも閾値テーブル121の予兆閾値の条件を満たさない場合、故障予兆検出部113は、監視対象の光モジュール212は正常であると判定する。そして、故障予兆検出部113は、監視対象の光モジュール212に対する故障予兆の検出処理を終了する。その後、故障予兆検出部113は、監視対象の光モジュール212に対する故障予兆の検出処理の終了をログ監視制御部112に通知する。 When none of the values in the log information of the monitored optical module 212 satisfies the predictor threshold condition of the threshold table 121, the failure predictor detector 113 determines that the monitored optical module 212 is normal. Then, the failure sign detection unit 113 ends the failure sign detection processing for the optical module 212 to be monitored. After that, the failure sign detection unit 113 notifies the log monitoring control unit 112 of the end of the failure sign detection processing for the optical module 212 to be monitored.

監視対象の光モジュール212のログ情報における値のいずれかが閾値テーブル121の予兆閾値の条件を満たした場合、故障予兆検出部113は、監視対象の光モジュール212に故障予兆が発生したと判定する。そして、故障予兆検出部113は、記憶部12に格納された監視設定テーブル122における監視対象の光モジュール212の詳細ログフラグを詳細ログ収集中に設定する。図6では、既に光モジュール212の詳細ログフラグが1であるが、光モジュール212の詳細ログフラグが0であるとすると、故障予兆検出部113は、監視設定テーブル122における光モジュール212の詳細ログフラグを1に設定する。その後、故障予兆検出部113は、監視対象の光モジュール212の故障予兆の発生を出力装置4に報知させる。その後、故障予兆検出部113は、監視対象の光モジュール212の故障予兆の検出処理の終了をログ監視制御部112に通知する。さらに、故障予兆検出部113は、監視対象である光モジュール212の詳細ログ情報の収集を障害ログ取得部115に指示する。 If any of the values in the log information of the monitored optical module 212 satisfies the condition of the predictive threshold in the threshold table 121, the failure predictor detection unit 113 determines that a failure predictor has occurred in the monitored optical module 212. . Then, the failure sign detection unit 113 sets the detailed log flag of the monitored optical module 212 in the monitoring setting table 122 stored in the storage unit 12 to during detailed log collection. In FIG. 6, the detailed log flag of the optical module 212 is already 1, but if the detailed log flag of the optical module 212 is 0, the failure sign detector 113 sets the detailed log flag of the optical module 212 in the monitoring setting table 122 to 1. set to After that, the failure sign detector 113 causes the output device 4 to notify the occurrence of the failure sign of the optical module 212 to be monitored. After that, the failure sign detection unit 113 notifies the log monitoring control unit 112 of the end of the failure sign detection processing of the optical module 212 to be monitored. Furthermore, the failure sign detection unit 113 instructs the failure log acquisition unit 115 to collect detailed log information of the optical module 212 to be monitored.

この故障予兆検出部113が、「予兆検出部」の一例にあたる。そして、ログ情報が「第1情報」の一例にあたり、詳細ログ情報が「第2情報」の一例にあたる。さらに、ログ情報の監視周期である1日1回が、「第1周期」の一例にあたり、詳細ログ情報の監視周期である1時間に1回が、「第2周期」の一例にあたる。詳細ログ情報は、監視間隔の周期がログ情報よりも短いためログ情報より情報量が多いといえる。 The failure portent detection unit 113 corresponds to an example of the "prediction detection unit". The log information corresponds to an example of "first information", and the detailed log information corresponds to an example of "second information". Furthermore, once a day, which is the log information monitoring cycle, is an example of the "first cycle", and once an hour, which is the detailed log information monitoring cycle, is an example of the "second cycle". Since the detailed log information has a shorter monitoring interval than the log information, it can be said that the detailed log information contains more information than the log information.

故障原因特定部114は、記憶部12に格納された監視設定テーブル122を定期的に参照する。例えば、故障原因特定部114は、監視設定テーブル122の詳細ログフラグを1時間に1回確認する。監視設定テーブル122の中に詳細ログ情報の収集中の詳細ログフラグが設定されていない場合、故障原因特定部114は、故障原因特定の処理を終了する。 The failure cause identification unit 114 periodically refers to the monitoring setting table 122 stored in the storage unit 12 . For example, the failure cause identification unit 114 checks the detailed log flag of the monitoring setting table 122 once an hour. If the detailed log flag indicating that detailed log information is being collected is not set in the monitoring setting table 122, the failure cause identification unit 114 terminates the failure cause identification process.

これに対して、監視設定テーブル122において詳細ログの収集中の詳細ログフラグが1つ又はいくつか設定されている場合、故障原因特定部114は、例えば、詳細ログフラグが設定された光モジュール212を詳細監視対象として選択する。 On the other hand, if one or several detailed log flags indicating that detailed logs are being collected are set in the monitoring setting table 122, the failure cause identification unit 114, for example, selects the optical module 212 for which the detailed log flag is set as a detailed log flag. Select to monitor.

次に、故障原因特定部114は、詳細監視対象の光モジュール212の詳細ログ情報を記憶部12から取得する。さらに、故障原因特定部114は、閾値テーブル121を記憶部12から取得する。そして、故障原因特定部114は、詳細監視対象の光モジュール212の詳細ログの値と閾値テーブル121の故障閾値の条件とを比較する。 Next, the failure cause identification unit 114 acquires detailed log information of the optical module 212 to be monitored in detail from the storage unit 12 . Furthermore, the cause-of-failure identification unit 114 acquires the threshold table 121 from the storage unit 12 . Then, the failure cause identification unit 114 compares the detailed log value of the optical module 212 to be monitored in detail with the failure threshold condition of the threshold table 121 .

詳細ログにおけるRSSIの値が-3.0db未満であれば、故障原因特定部114は、発光素子であるVCSEL(Vertical Cavity Surface Emitting Laser)の特性劣化が発生していると判定し、発光素子エラーと決定する。この場合、故障原因特定部114は、詳細監視対象の光モジュール212の発光素子エラーを出力装置4に報知させる。ここで、発光素子エラーに至る要因としては、アイモニタ狭窄やバイアス電流低下による光波形異常及び光出力減衰が考えられる。 If the RSSI value in the detailed log is less than −3.0 db, the failure cause identification unit 114 determines that deterioration in the characteristics of the VCSEL (Vertical Cavity Surface Emitting Laser), which is a light emitting element, has occurred, and an error occurs in the light emitting element. and decide. In this case, the cause-of-failure identifying unit 114 causes the output device 4 to notify the light-emitting element error of the optical module 212 to be monitored in detail. Here, as factors leading to light-emitting element errors, optical waveform abnormalities and optical output attenuation due to eye monitor constriction and bias current reduction are conceivable.

これに対して、詳細ログにおけるRSSIの値が-3.0db以上である場合、故障原因特定部114は、詳細ログにおける温度の値が50℃以上か否かを判定する。詳細ログにおける温度の値が50℃未満の場合、BERの値が1eの6乗以上か否かを判定する。BERの値が1eの6乗以上であれば、故障原因特定部114は、CPU211における受信側の指定時間中に受信されたデジタルデータ信号の総ビット数に対して誤りの発生していたビット数の比率を表すBIT誤り率(Bit Error Rate)の問題と判定する。そして、故障原因特定部114は、発生した異常を相性問題と決定する。この場合、故障原因特定部114は、詳細監視対象の光モジュール212の相性問題の発生を出力装置4に報知させる。ここで、相性問題の発生に至る要因としては、通信の相手側の光モジュール222の不良などの影響が考えられる。例えば、相手側の光モジュール222のBERが1eの10乗といった警告手前の値などの場合に、光モジュール212に異常が発生する場合がある。このような状況は、相手側の光モジュール222が交換された場合などに起こることが考えられる。 On the other hand, if the RSSI value in the detailed log is −3.0 db or more, the failure cause identification unit 114 determines whether the temperature value in the detailed log is 50° C. or more. If the temperature value in the detailed log is less than 50° C., it is determined whether the BER value is 1e to the 6th power or more. If the value of BER is 1e to the 6th power or more, the failure cause identification unit 114 determines the number of bits in which an error occurred with respect to the total number of bits of the digital data signal received during the specified time on the receiving side in the CPU 211. It is determined that the problem is the BIT error rate, which represents the ratio of . Then, the cause-of-failure identification unit 114 determines that the abnormality that has occurred is a compatibility problem. In this case, the cause-of-failure identifying unit 114 causes the output device 4 to notify the occurrence of the compatibility problem of the optical module 212 targeted for detailed monitoring. Here, as a factor leading to the occurrence of the compatibility problem, an influence such as a defect of the optical module 222 on the communication partner side can be considered. For example, when the BER of the optical module 222 on the other side is 1e to the 10th power, which is just before warning, an abnormality may occur in the optical module 212 . Such a situation may occur when the optical module 222 of the other party is replaced.

これに対して、詳細ログにおけるRSSIの値が-3.0db以上である場合、故障原因特定部114は、詳細ログにおける温度の値が50℃以上か否かを判定する。詳細ログにおける温度の値が50℃以上の場合、BERの値が1eの6乗以上か否かを判定する。BERの値が1eの6乗以上であれば、故障原因特定部114は、データ受信を行う制御部215の故障によりポート219の3ポートが故障したと判定し、複数ポートエラーと決定する。この場合、故障原因特定部114は、詳細監視対象の光モジュール212の複数ポートエラーを出力装置4に報知させる。ここで、複数ポートエラーに至る要因としては、デンドライトと呼ばれる銅の成長結晶などによる制御部215が搭載されたフレキシブル基板の配線ショートや同期信号の欠落が考えられる。以下では、故障原因特定部114による発光素子エラー、光モジュール212の相性問題の発生及び複数ポートエラーの通知をまとめて「故障原因通知」と言う。 On the other hand, if the RSSI value in the detailed log is −3.0 db or more, the failure cause identification unit 114 determines whether the temperature value in the detailed log is 50° C. or more. If the temperature value in the detailed log is 50° C. or more, it is determined whether the BER value is 1e to the 6th power or more. If the BER value is 1e to the 6th power or more, the failure cause identification unit 114 determines that 3 ports of the port 219 have failed due to the failure of the control unit 215 that receives data, and determines a multi-port error. In this case, the cause-of-failure identifying unit 114 causes the output device 4 to notify the multiple-port error of the optical module 212 targeted for detailed monitoring. Here, as factors leading to a multiple port error, it is conceivable that wiring shorts of the flexible substrate on which the control unit 215 is mounted due to growth crystals of copper called dendrites or lack of synchronization signals are considered. Hereinafter, the notification of the light-emitting element error, the occurrence of the compatibility problem of the optical module 212, and the multiple port error by the failure cause identification unit 114 will be collectively referred to as "failure cause notification".

この故障原因特定部114が、「特定部」の一例にあたる。そして、1時間に1回の周期で収集された光モジュール212のRSSI及び温度、並びにCPU211のBERが「状態情報」の一例にあたる。 This failure cause identification unit 114 corresponds to an example of the “identification unit”. The RSSI and temperature of the optical module 212 and the BER of the CPU 211, which are collected once per hour, correspond to an example of "status information."

図1に戻って説明を続ける。出力装置4は、情報処理装置1の管理者に情報を提供する。例えば、出力装置4は、モニタやプリンタなどである。出力装置4は、故障予兆の発生や故障原因の情報の報知の指示をサービスプロセッサ10から受ける。そして、出力装置4は、故障予兆の警告及び故障原因の情報などのメッセージをモニタなどに表示させるなどして、管理者に報知する。 Returning to FIG. 1, the description continues. The output device 4 provides information to the administrator of the information processing device 1 . For example, the output device 4 is a monitor, a printer, or the like. The output device 4 receives an instruction from the service processor 10 to report the occurrence of a failure sign and information on the cause of failure. Then, the output device 4 notifies the administrator by displaying a message such as a failure sign warning and failure cause information on a monitor or the like.

次に、図8~10を参照して、各故障原因通知における判定状態の遷移を説明する。図8は、光素子エラーが通知される場合の判定状態の遷移を表す図である。図9は、相性問題の発生が通知される場合の判定状態の遷移を表す図である。図10は、複数ポートエラーが通知される場合の判定状態の遷移を表す図である。 Next, with reference to FIGS. 8 to 10, the transition of determination state in each failure cause notification will be described. FIG. 8 is a diagram showing the transition of determination states when an optical element error is notified. FIG. 9 is a diagram showing the transition of determination states when the occurrence of a compatibility problem is notified. FIG. 10 is a diagram showing the transition of determination states when a multi-port error is notified.

図8に示す光素子エラーが通知される場合について考える。故障予兆検出部113は、光モジュール212が正常な場合、光モジュール212のRSSIが-1.9db以上、温度が45℃未満及びCPU211のBERが1eの9乗未満であると検出する。この場合、光モジュール212は正常であるので、故障予兆検出部113は、故障予兆が発生していないと判定し、故障予兆の検出周期を1日1回のまま維持する。 Consider the case where the optical element error shown in FIG. 8 is notified. When the optical module 212 is normal, the failure sign detector 113 detects that the RSSI of the optical module 212 is -1.9 db or more, the temperature is less than 45° C., and the BER of the CPU 211 is less than 1e to the 9th power. In this case, since the optical module 212 is normal, the failure sign detection unit 113 determines that no failure sign has occurred, and maintains the detection cycle of the failure sign as once a day.

そして、光素子エラーが検出される場合、まず、故障予兆検出部113は、図8の故障予兆の欄のように、光モジュール212のRSSIが-1.9db未満であることを検出する。そして、故障予兆検出部113は、故障予兆の発生と通知するとともに、ログ監視の周期を1時間に1回に変更して詳細ログ情報の収集を開始する。 When an optical element error is detected, the failure sign detector 113 first detects that the RSSI of the optical module 212 is less than -1.9 db, as shown in the failure sign column of FIG. Then, the failure predictor detection unit 113 notifies that a failure predictor has occurred, changes the log monitoring cycle to once an hour, and starts collecting detailed log information.

その後、故障原因特定部114は、詳細ログ情報を用いて光モジュール212の監視を行い、図8の故障検出の欄に記載したように光モジュール212のRSSIが-3.0未満であることを検出する。一方、故障原因特定部114は、温度及びBERについては正常な範囲であることを確認する。そして、故障原因特定部114は、温度及びBERが正常でありRSSIが異常であるという判定結果から、光素子エラーが発生したと判定し報知する。 After that, the failure cause identification unit 114 monitors the optical module 212 using the detailed log information, and detects that the RSSI of the optical module 212 is less than -3.0 as described in the column of failure detection in FIG. To detect. On the other hand, the failure cause identification unit 114 confirms that the temperature and BER are within normal ranges. Then, the failure cause identification unit 114 determines that an optical element error has occurred based on the determination result that the temperature and BER are normal and the RSSI is abnormal, and notifies.

次に、図9に示す光モジュール212の相性問題の発生が通知される場合について考える。故障予兆検出部113は、光モジュール212が正常な場合、図8の場合と同様に、光モジュール212のRSSIが-1.9db以上、温度が45℃未満及びCPU211のBERが1eの9乗未満であると検出する。この場合、光モジュール212は正常であるので、故障予兆検出部113は、故障予兆が発生していないと判定し、故障予兆の検出周期を1日1回のまま維持する。 Next, let us consider the case where the occurrence of the compatibility problem of the optical module 212 shown in FIG. 9 is notified. When the optical module 212 is normal, the failure sign detection unit 113 determines that the RSSI of the optical module 212 is -1.9 db or more, the temperature is less than 45° C., and the BER of the CPU 211 is less than 9th power of 1e, as in the case of FIG. is detected. In this case, since the optical module 212 is normal, the failure sign detection unit 113 determines that no failure sign has occurred, and maintains the detection cycle of the failure sign as once a day.

そして、相性問題が検出される場合、まず、故障予兆検出部113は、図9の故障予兆の欄のように、CPU211のBERが1eの9乗以上であることを検出する。そして、故障予兆検出部113は、故障予兆の発生と通知するとともに、ログ監視の周期を1時間に1回に変更して詳細ログ情報の収集を開始する。 When a compatibility problem is detected, first, the failure sign detection unit 113 detects that the BER of the CPU 211 is 1e to the 9th power or more, as shown in the failure sign column in FIG. Then, the failure predictor detection unit 113 notifies that a failure predictor has occurred, changes the log monitoring cycle to once an hour, and starts collecting detailed log information.

その後、故障原因特定部114は、詳細ログ情報を用いて光モジュール212の監視を行い、図9の故障検出の欄に記載したようにCPU211のBERが1eの6乗以上であることを検出する。一方、故障原因特定部114は、RSSI及び温度については正常な範囲であることを確認する。そして、故障原因特定部114は、RSSI及び温度が正常でありBERが異常であるという判定結果から、光素子エラーが発生したと判定し報知する。 After that, the failure cause identification unit 114 monitors the optical module 212 using the detailed log information, and detects that the BER of the CPU 211 is 1e to the 6th power or more as described in the failure detection column of FIG. . On the other hand, the cause-of-failure identifying unit 114 confirms that the RSSI and temperature are within normal ranges. Then, the cause-of-failure identification unit 114 determines that an optical element error has occurred based on the determination result that the RSSI and temperature are normal and the BER is abnormal, and notifies.

次に、図10に示す光モジュール212の複数ポートエラーが通知される場合について考える。故障予兆検出部113は、光モジュール212が正常な場合、図8の場合と同様に、光モジュール212のRSSIが-1.9db以上、温度が45℃未満及びCPU211のBERが1eの9乗未満であると検出する。この場合、光モジュール212は正常であるので、故障予兆検出部113は、故障予兆が発生していないと判定し、故障予兆の検出周期を1日1回のまま維持する。 Next, let us consider a case where a multi-port error of the optical module 212 shown in FIG. 10 is notified. When the optical module 212 is normal, the failure sign detection unit 113 determines that the RSSI of the optical module 212 is -1.9 db or more, the temperature is less than 45° C., and the BER of the CPU 211 is less than 9th power of 1e, as in the case of FIG. is detected. In this case, since the optical module 212 is normal, the failure sign detection unit 113 determines that no failure sign has occurred, and maintains the detection cycle of the failure sign as once a day.

そして、複数ポートエラーが検出される場合、まず、故障予兆検出部113は、図10の故障予兆の欄のように、光モジュール212の温度が45℃以上でありCPU211のBERが1eの9乗以上であることを検出する。そして、故障予兆検出部113は、故障予兆の発生と通知するとともに、ログ監視の周期を1時間に1回に変更して詳細ログ情報の収集を開始する。 When a multi-port error is detected, the failure sign detector 113 first detects that the temperature of the optical module 212 is 45° C. or higher and the BER of the CPU 211 is 1e to the 9th power, as shown in the failure sign column of FIG. Detect that it is more than Then, the failure predictor detection unit 113 notifies that a failure predictor has occurred, changes the log monitoring cycle to once an hour, and starts collecting detailed log information.

その後、故障原因特定部114は、詳細ログ情報を用いて光モジュール212の監視を行い、図10の故障検出の欄に記載したように光モジュール212の温度が50℃以上でありCPU211のBERが1eの6乗以上であることを検出する。一方、故障原因特定部114は、RSSIについては正常な範囲であることを確認する。そして、故障原因特定部114は、RSSIが正常であり温度及びBERが異常であるという判定結果から、複数ポートエラーが発生したと判定し報知する。 After that, the failure cause identification unit 114 monitors the optical module 212 using the detailed log information, and as described in the column of failure detection in FIG. 1e to the 6th power or more is detected. On the other hand, failure cause identification section 114 confirms that RSSI is within a normal range. Then, based on the determination result that the RSSI is normal and the temperature and BER are abnormal, the failure cause identification unit 114 determines that a multiple port error has occurred and notifies.

次に、図11を参照してログ監視の通常の流れについて説明する。図11は、通常状態でのログ監視のフローチャートである。図11に示したログ監視は、1日1回行われる。ここでは、光モジュール212及び222を区別せずに光モジュール202と言う。 Next, a normal flow of log monitoring will be described with reference to FIG. FIG. 11 is a flow chart of log monitoring in a normal state. The log monitoring shown in FIG. 11 is performed once a day. Here, the optical modules 212 and 222 are referred to as the optical module 202 without distinction.

ログ監視制御部112は、予め決められた部位の中から今回のログ監視処理において未だ判定を行っていない監視対象を1つ選択する(ステップS1)。そして、ログ監視制御部112は、選択した監視対象のログ収集の指示を障害ログ取得部115に通知する。 The log monitoring control unit 112 selects one monitoring target that has not yet been determined in the current log monitoring process from the predetermined parts (step S1). Then, the log monitoring control unit 112 notifies the fault log acquisition unit 115 of an instruction to collect the log of the selected monitoring target.

障害ログ取得部115は、監視対象のログ収集の指示をログ監視制御部112から受ける。そして、障害ログ取得部115は、監視対象についての1日1回のログ情報の収集を行う(ステップS2)。 The failure log acquisition unit 115 receives from the log monitoring control unit 112 an instruction to collect logs to be monitored. Then, the failure log acquisition unit 115 collects log information about the monitoring target once a day (step S2).

その後、障害ログ取得部115は、取得した監視対象部位のログ情報を記憶部12の情報蓄積領域に格納する(ステップS3)。 After that, the failure log acquisition unit 115 stores the acquired log information of the monitoring target part in the information accumulation area of the storage unit 12 (step S3).

故障予兆検出部113は、記憶部12の情報蓄積領域から監視対象部位のログ情報を取得する。そして、故障予兆検出部113は、監視対象が光モジュール202か否かを判定する(ステップS4)。 The failure sign detection unit 113 acquires log information of the monitoring target part from the information accumulation area of the storage unit 12 . Then, the failure sign detection unit 113 determines whether or not the monitored object is the optical module 202 (step S4).

監視対象が光モジュール202でない場合(ステップS4:否定)、故障予兆検出部113は、監視対象部位のログ情報は正常か否かを判定する(ステップS5)。ここで、ログ情報が正常でない、すなわち異常であるとは、収集したログ情報の内のいずれかで異常と判定される場合であり、故障予兆の判定の基準とならない情報の異常も含まれる。ログ情報が正常の場合(ステップS5:肯定)、故障予兆検出部113は、ステップS11へ進む。 If the monitored object is not the optical module 202 (step S4: NO), the failure sign detection unit 113 determines whether or not the log information of the monitored part is normal (step S5). Here, log information is not normal, that is, is abnormal means that any of the collected log information is determined to be abnormal, and includes abnormal information that does not serve as a criterion for determining signs of failure. If the log information is normal (step S5: affirmative), the failure sign detection unit 113 proceeds to step S11.

これに対して、ログ情報に異常がある場合(ステップS5:否定)、故障予兆検出部113は、取得したログ情報を用いて監視対象部位に故障予兆が発生した状態か否かを判定する(ステップS6)。 On the other hand, if there is an abnormality in the log information (step S5: No), the failure sign detection unit 113 uses the acquired log information to determine whether or not a failure sign has occurred in the monitored part ( step S6).

故障予兆の状態である場合(ステップS6:肯定)、故障予兆検出部113は、監視対象部位の故障予兆についての警告を出力装置4に報知させる(ステップS7)。その後、故障予兆検出部113は、ステップS11へ進む。 If there is a failure sign state (step S6: affirmative), the failure sign detection unit 113 causes the output device 4 to issue a warning about the failure sign of the monitoring target portion (step S7). After that, the failure sign detection unit 113 proceeds to step S11.

これに対して、故障予兆の状態でない場合(ステップS6:否定)、故障予兆検出部113は、監視対象部位で故障が発生したか否かを判定する(ステップS8)。ここで、故障予兆の状態でない場合には、故障予兆の状態を超えて既に故障が発生している状態も含まれる。 On the other hand, if there is no failure sign state (step S6: No), the failure sign detection unit 113 determines whether or not a failure has occurred in the monitored part (step S8). Here, when it is not in the failure sign state, it also includes a state in which a failure has already occurred beyond the failure sign state.

故障が発生していない場合(ステップS8:否定)、故障予兆検出部113は、ステップS11へ進む。これに対して、故障が発生した場合(ステップS8:肯定)、故障予兆検出部113は、監視対象部位の故障発生を出力装置4に報知させる(ステップS9)。その後、故障予兆検出部113は、ステップS11へ進む。 If no failure has occurred (step S8: No), the failure sign detection unit 113 proceeds to step S11. On the other hand, if a failure has occurred (step S8: affirmative), the failure sign detection unit 113 causes the output device 4 to notify the failure occurrence of the monitoring target part (step S9). After that, the failure sign detection unit 113 proceeds to step S11.

一方、監視対象が光モジュール202の場合(ステップS4:肯定)、故障予兆検出部113は、光モジュール202についての故障予兆検出処理を実行する(ステップS10)。その後、故障予兆検出部113は、ステップS11へ進む。 On the other hand, if the object to be monitored is the optical module 202 (Yes at step S4), the failure portent detection unit 113 executes failure portent detection processing for the optical module 202 (step S10). After that, the failure sign detection unit 113 proceeds to step S11.

故障予兆検出部113は、ログ監視制御部112に監視対象部位の判定完了を通知する。ログ監視制御部112は、監視対象部位の判定完了の通知を受けて、全ての監視対象のログ情報の取得が完了したか否かを判定する(ステップS11)。 The failure sign detection unit 113 notifies the log monitoring control unit 112 of the completion of determination of the monitoring target part. The log monitoring control unit 112 receives the notification of the completion of the determination of the monitoring target part and determines whether or not acquisition of the log information of all the monitoring targets has been completed (step S11).

ログ情報を取得していない監視対象が存在する場合(ステップS11:否定)、ログ監視制御部112は、ステップS1へ戻る。これに対して、全ての監視対象のログ情報の取得が完了した場合(ステップS11:肯定)、ログ監視制御部112は、その日のログ監視の処理を終了する。 If there is a monitoring target for which log information has not been obtained (step S11: NO), the log monitoring control unit 112 returns to step S1. On the other hand, if acquisition of log information for all monitoring targets has been completed (step S11: affirmative), the log monitoring control unit 112 ends the log monitoring processing for that day.

次に、図12を参照して、光モジュール202の故障予兆の検出処理について説明する。図12は、光モジュールの故障予兆の検出処理のフローチャートである。図12で示した故障予兆の検出処理は、図11におけるステップS10で実行させる処理の一例にあたる。 Next, with reference to FIG. 12, processing for detecting a sign of failure of the optical module 202 will be described. FIG. 12 is a flow chart of detection processing of a sign of failure of an optical module. The failure sign detection process shown in FIG. 12 corresponds to an example of the process executed in step S10 in FIG.

故障予兆検出部113は、監視設定テーブル122を参照して、監視対象の光モジュール202について、詳細ログ情報の収集を行っているか否かを判定する(ステップS101)。詳細ログ情報の収集中の場合(ステップS101:肯定)、故障予兆検出部113は、監視対象の光モジュール202について既に故障予兆が検出されているものとして故障予兆検出処理を終了する。 The failure sign detection unit 113 refers to the monitoring setting table 122 and determines whether or not detailed log information is being collected for the optical module 202 to be monitored (step S101). If the detailed log information is being collected (step S101: Yes), the failure sign detection unit 113 terminates the failure sign detection processing assuming that a failure sign has already been detected for the optical module 202 to be monitored.

一方、詳細ログ情報が未収集の場合(ステップS101:否定)、故障予兆検出部113は、監視対象の光モジュール202の温度及びRSSI並びに対応するCPU211又は221のBERを含むログ情報を記憶部12から収集する(ステップS102)。 On the other hand, if the detailed log information has not been collected (step S101: No), the failure sign detection unit 113 stores the log information including the temperature and RSSI of the monitored optical module 202 and the BER of the corresponding CPU 211 or 221 in the storage unit 12. (step S102).

次に、故障予兆検出部113は、監視対象の光モジュール202の温度と閾値テーブル121に登録された予兆閾値とを比較して、監視対象の光モジュール202の温度が故障予兆温度であるか否かを判定する(ステップS103)。ここで、故障予兆温度とは、故障予兆を示す温度である。 Next, the failure sign detector 113 compares the temperature of the monitored optical module 202 with the sign threshold registered in the threshold table 121 to determine whether the temperature of the monitored optical module 202 is the failure sign temperature. (step S103). Here, the failure sign temperature is a temperature indicating a failure sign.

温度が故障予兆温度でない場合(ステップS103:否定)、故障予兆検出部113は、監視対象の光モジュール202のRSSIと閾値テーブル121に登録された予兆閾値とを比較する。そして、故障予兆検出部113は、監視対象の光モジュール202のRSSIが故障予兆RSSIであるか否かを判定する(ステップS104)。ここで、故障予兆RSSIとは、故障予兆を示すRSSIである。 If the temperature is not the failure portent temperature (step S103: No), the failure portent detector 113 compares the RSSI of the monitored optical module 202 with the portent threshold registered in the threshold table 121. FIG. Then, the failure predictor detection unit 113 determines whether or not the RSSI of the monitored optical module 202 is the failure predictor RSSI (step S104). Here, the failure sign RSSI is an RSSI indicating a failure sign.

RSSIが故障予兆RSSIでない場合(ステップS104:否定)、故障予兆検出部113は、監視対象の光モジュール202に対応するCPU211又は221のBERと閾値テーブル121に登録された予兆閾値とを比較する。そして、故障予兆検出部113は、監視対象の光モジュール202に対応するCPU211又は221のBERが故障予兆BERであるか否かを判定する(ステップS105)。ここで、故障予兆BERとは、故障予兆を示すBERである。 If the RSSI is not the failure predictor RSSI (step S104: No), the failure predictor detector 113 compares the BER of the CPU 211 or 221 corresponding to the optical module 202 to be monitored with the predictor threshold registered in the threshold table 121. Then, the failure portent detector 113 determines whether or not the BER of the CPU 211 or 221 corresponding to the monitored optical module 202 is the failure portent BER (step S105). Here, the failure sign BER is a BER indicating a failure sign.

BERが故障予兆BERでない場合(ステップS105:否定)、故障予兆検出部113は、監視対象の光モジュール202について故障予兆が発生していないと判定して故障予兆検出処理を終了する。 If the BER is not the failure sign BER (step S105: No), the failure sign detection unit 113 determines that no failure sign has occurred in the optical module 202 to be monitored, and terminates the failure sign detection processing.

一方、温度が故障予兆温度である場合(ステップS103:肯定)、RSSIが故障予兆RSSIである場合(ステップS104:肯定)又はBERが故障予兆BERである場合(ステップS105:肯定)、故障予兆検出部113は、次の処理を行う。すなわち、故障予兆検出部113は、監視設定テーブル122において、監視対象の光モジュール202に詳細ログフラグを設定する(ステップS106)。 On the other hand, if the temperature is the failure predictor temperature (step S103: positive), if the RSSI is the failure predictor RSSI (step S104: positive), or if the BER is the failure predictor BER (step S105: positive), the failure predictor is detected. The unit 113 performs the following processing. That is, the failure sign detection unit 113 sets a detailed log flag to the optical module 202 to be monitored in the monitoring setting table 122 (step S106).

その後、故障予兆検出部113は、監視対象の光モジュール202について故障予兆の存在を出力装置4に報知させる(ステップS107)。そして、故障予兆検出部113は、故障予兆検出処理を終了する。 After that, the failure sign detection unit 113 causes the output device 4 to notify the existence of the failure sign regarding the optical module 202 to be monitored (step S107). Then, the failure predictor detection unit 113 terminates the failure predictor detection processing.

次に、図13を参照して故障原因特定部114による故障原因特定処理の流れについて説明する。図13は、故障原因特定処理のフローチャートである。図13で示した故障原因特定処理は、例えば1時間に1回などの1日1回よりも短い周期で定期的に行われる。 Next, the flow of failure cause identification processing by the failure cause identification unit 114 will be described with reference to FIG. FIG. 13 is a flowchart of failure cause identification processing. The cause-of-fault identification process shown in FIG. 13 is periodically performed at a period shorter than once a day, such as once an hour.

故障原因特定部114は、監視対象となる光モジュール202の中から今回の故障原因特定処理において未だ判定を行っていない監視対象の光モジュール202を1つ選択する(ステップS201)。 The failure cause identification unit 114 selects one optical module 202 to be monitored, which has not yet been determined in the current failure cause identification process, from among the optical modules 202 to be monitored (step S201).

次に、故障原因特定部114は、監視設定テーブル122における詳細ログ情報の収集を示す詳細ログフラグを確認して、監視対象の光モジュール202について詳細ログ情報の収集を行っているか否かを判定する(ステップS202)。詳細ログ情報の収集を行っていない場合(ステップS202:否定)、監視対象の光モジュール202には故障予兆が発生していないため、故障原因特定部114は、故障原因特定処理を終了する。 Next, the failure cause identification unit 114 checks the detailed log flag indicating collection of detailed log information in the monitoring setting table 122, and determines whether or not detailed log information is being collected for the optical module 202 to be monitored. (Step S202). If the detailed log information has not been collected (step S202: No), no sign of failure has occurred in the optical module 202 to be monitored, so the failure cause identification unit 114 terminates the failure cause identification process.

これに対して、詳細ログ情報の収集中の場合(ステップS202:肯定)、障害ログ取得部115は、監視対象の光モジュール202の詳細ログ情報を収集し、記憶部12の情報蓄積領域の詳細ログ格納ポインタが示す位置に格納する(ステップS203)。 On the other hand, if the detailed log information is being collected (step S202: affirmative), the fault log acquisition unit 115 collects the detailed log information of the optical module 202 to be monitored, Store at the position indicated by the log storage pointer (step S203).

そして、障害ログ取得部115は、記憶部12の情報蓄積領域における詳細ログ格納ポインタを1つ進める(ステップS204)。 Then, the failure log acquisition unit 115 advances the detailed log storage pointer in the information storage area of the storage unit 12 by one (step S204).

故障原因特定部114は、記憶部12に格納された監視対象の光モジュール202の詳細ログを取得する。そして、故障原因特定部114は、監視対象の光モジュール202のRSSIが-3.0db未満か否かを判定する(ステップS205)。 The failure cause identification unit 114 acquires the detailed log of the monitored optical module 202 stored in the storage unit 12 . Then, the failure cause identification unit 114 determines whether or not the RSSI of the monitored optical module 202 is less than -3.0 db (step S205).

RSSIが-3.0db未満の場合(ステップS205:肯定)、図8に示した状態と同じであり、故障原因特定部114は、監視対象の光モジュール202について光素子エラーを出力装置4に報知させる(ステップS206)。 If the RSSI is less than −3.0 db (Yes at step S205), the state is the same as that shown in FIG. (step S206).

これに対して、RSSIが-3.0以上の場合(ステップS205:否定)、故障原因特定部114は、監視対象の光モジュール202の温度が50℃未満か否かを判定する(ステップS207)。 On the other hand, if the RSSI is -3.0 or more (step S205: No), the failure cause identification unit 114 determines whether the temperature of the monitored optical module 202 is less than 50° C. (step S207). .

温度が50℃以上の場合(ステップS207:否定)、故障原因特定部114は、監視対象の光モジュール202に対応するCPU211又は221のBERが1eの6乗以上か否かを判定する(ステップS208)。 If the temperature is 50° C. or higher (step S207: No), the failure cause identification unit 114 determines whether the BER of the CPU 211 or 221 corresponding to the optical module 202 to be monitored is 1e to the 6th power or higher (step S208). ).

BERが1eの6乗未満の場合(ステップS208:否定)、故障原因特定部114は、監視対象の光モジュール202について光素子エラーを出力装置4に報知させる(ステップS206)。 If the BER is less than 1e to the 6th power (step S208: No), the failure cause identification unit 114 causes the output device 4 to report an optical element error for the optical module 202 to be monitored (step S206).

これに対して、BERが1eの6乗以上の場合(ステップS208:肯定)、図10に示した状態と同じであり、故障原因特定部114は、監視対象の光モジュール202について複数ポートエラーを出力装置4に報知させる(ステップS209)。 On the other hand, if the BER is 1e to the 6th power or more (step S208: affirmative), the state is the same as that shown in FIG. The output device 4 is notified (step S209).

一方、温度が50℃未満の場合(ステップS207:肯定)、故障原因特定部114は、視対象の光モジュール202に対応するCPU211又は221のBERが1eの6乗以上か否かを判定する(ステップS210)。BERが1eの6乗未満の場合(ステップS201:否定)、故障原因特定部114は、監視対象の光モジュール202に故障は発生していないと判定して、ステップS212へ進む。 On the other hand, if the temperature is less than 50° C. (step S207: affirmative), the failure cause identification unit 114 determines whether the BER of the CPU 211 or 221 corresponding to the optical module 202 to be viewed is 1e to the 6th power or more ( step S210). If the BER is less than 1e to the 6th power (step S201: No), the failure cause identification unit 114 determines that no failure has occurred in the optical module 202 to be monitored, and proceeds to step S212.

これに対して、BERが1eの6乗以上の場合(ステップS210:肯定)、図9に示した状態と同じであり、故障原因特定部114は、監視対象の光モジュール202について相性問題の異常が発生していることを出力装置4に報知させる(ステップS211)。 On the other hand, if the BER is 1e to the 6th power or more (step S210: affirmative), the state is the same as that shown in FIG. is generated by the output device 4 (step S211).

その後、故障原因特定部114は、全ての監視対象の光モジュール202の確認が完了したか否かを判定する(ステップS212)。確認が完了していない光モジュール202が存在する場合(ステップS212:否定)、故障原因特定部114は、ステップS201へ進む。 After that, the cause-of-failure identification unit 114 determines whether or not confirmation of all the optical modules 202 to be monitored has been completed (step S212). If there is an optical module 202 for which confirmation has not been completed (step S212: No), the cause-of-failure identifying unit 114 proceeds to step S201.

これに対して、全ての監視対象の光モジュール202の確認が完了した場合(ステップS212:肯定)、故障原因特定部114は、今回の故障原因の特定処理を終了する。 On the other hand, if confirmation of all optical modules 202 to be monitored has been completed (step S212: YES), the failure cause identification unit 114 terminates the current failure cause identification processing.

以上に説明したように、本実施例に係る情報処理装置は、光モジュールの故障予兆を検知した場合に、詳細ログ情報の収集を開始し、詳細ログ情報を用いて光モジュールの故障検出及び故障原因の特定を行う。これにより、管理者は、故障原因の通知を受けて光モジュールの故障原因を把握することができ、再現試験などの煩雑な処理を行わずとも故障原因の特定ができる。また、情報処理装置により故障原因が特定されるため、管理者の判断に依らずに均一な判断結果を得ることができる。さらに、故障予兆が発生した後に詳細ログ情報の収集が行われるので、情報処理装置に係る負荷を軽減することができる。そして、故障予兆発生後には詳細ログ情報が蓄積されるので、管理者は、故障への対応において詳細ログ情報を用いることができ、通常のログ情報を用いた対応よりもより適切な対応を行うことができる。 As described above, the information processing apparatus according to the present embodiment starts collecting detailed log information when a sign of failure of an optical module is detected, and uses the detailed log information to detect and detect failure of the optical module. Identify the cause. As a result, the administrator can grasp the cause of the failure of the optical module by receiving the notification of the cause of the failure, and can identify the cause of the failure without performing complicated processing such as a reproduction test. Further, since the cause of the failure is specified by the information processing device, a uniform determination result can be obtained without relying on the administrator's determination. Furthermore, since detailed log information is collected after a failure sign occurs, the load on the information processing apparatus can be reduced. Since detailed log information is accumulated after the occurrence of a sign of failure, the administrator can use the detailed log information in dealing with the failure, and can take a more appropriate action than using normal log information. be able to.

1 情報処理装置
4 出力装置
5 バス
10 サービスプロセッサ
11 制御部
12 記憶部
13 通信部
21,22 CPUグループ
31,32 光ケーブル
111 ログ監視部
112 ログ監視制御部
113 故障予兆検出部
114 故障原因特定部
115 障害ログ取得部
121 閾値テーブル
122 監視設定テーブル
211,221 CPU
202,212,222 光モジュール
213,223 レンズブロック
214,215,224,225 制御部
216,226 温度センサ
217,227 送信側ポート
218,228 受信側ポート
219,229 ポート
1 information processing device 4 output device 5 bus 10 service processor 11 control unit 12 storage unit 13 communication unit 21, 22 CPU groups 31, 32 optical cable 111 log monitoring unit 112 log monitoring control unit 113 failure sign detection unit 114 failure cause identification unit 115 Fault log acquisition unit 121 Threshold table 122 Monitoring setting table 211, 221 CPU
202, 212, 222 optical module 213, 223 lens block 214, 215, 224, 225 controller 216, 226 temperature sensor 217, 227 transmission side port 218, 228 reception side port 219, 229 port

Claims (8)

光送信装置、前記光送信装置と光通信路を介して接続される光受信装置、並びに、前記光送信装置及び前記光受信装置を制御する制御装置を有する光送受信システムであって、
前記制御装置は、
前記光送信装置が有する光モジュールを含む複数の監視対象の中から1つずつ前記監視対象を選択し、選択した前記監視対象が前記光モジュールでない場合、選択した前記監視対象に関する第1情報を取得し、選択した前記監視対象の故障予兆及び故障検出を行うログ監視制御部と、
前記ログ監視制御部により選択された前記監視対象が前記光モジュールの場合、選択された前記監視対象である前記光モジュールに関する第1情報を取得し、取得した前記第1情報を基に、前記光モジュールに関する故障予兆を検出する予兆検出部と、
前記予兆検出部により故障予兆が検出された場合、前記光モジュールに関する第2情報を取得し、取得した前記第2情報を基に前記光モジュールに関する故障原因の特定を行う特定部と
を備えたことを特徴とする光送受信システム。
An optical transmission/reception system comprising an optical transmission device, an optical reception device connected to the optical transmission device via an optical communication path, and a control device for controlling the optical transmission device and the optical reception device,
The control device is
selecting the monitoring target one by one from a plurality of monitoring targets including an optical module of the optical transmission device, and obtaining first information about the selected monitoring target when the selected monitoring target is not the optical module; a log monitoring control unit that performs failure prediction and failure detection of the selected monitoring target;
When the monitoring target selected by the log monitoring control unit is the optical module, first information about the selected monitoring target optical module is acquired, and based on the acquired first information, the optical module is a sign detection unit that detects a sign of failure related to the module;
an identifying unit that acquires second information about the optical module when the predictor detecting unit detects a failure predictor, and identifies a cause of failure regarding the optical module based on the obtained second information. An optical transmission/reception system characterized by:
前記監視対象である前記光モジュールに関する前記第1情報は、前記光モジュールの状態を表す情報であり、
前記第2情報は、前記光モジュールに関する前記第1情報よりも情報量が多い
ことを特徴とする請求項1に記載の光送受信システム。
the first information about the optical module to be monitored is information representing the state of the optical module;
2. The optical transmission/reception system according to claim 1, wherein said second information has a larger amount of information than said first information regarding said optical module.
前記予兆検出部は、前記監視対象である前記光モジュールに関する前記第1情報を第1周期で収集し、
前記特定部は、前記第1周期よりも短い第2周期で、前記監視対象である前記光モジュールに関する前記第1情報を収集して前記第2情報とする
ことを特徴とする請求項1又は2に記載の光送受信システム。
The sign detection unit collects the first information about the optical module to be monitored in a first period,
3. The specifying unit collects the first information about the optical module to be monitored in a second period shorter than the first period, and uses the information as the second information. The optical transmission/reception system according to .
前記特定部は、前記第2情報に含まれる異なる種類の複数の状態情報と各前記状態情報のそれぞれについて予め決められた閾値とを比較し、個々の比較結果又は各比較結果の組み合わせを基に故障原因の特定を行うことを特徴とする請求項1~3のいずれか一つに記載の光送受信システム。 The specifying unit compares a plurality of different types of status information included in the second information with a predetermined threshold value for each of the status information, and based on individual comparison results or a combination of each comparison result 4. The optical transmission/reception system according to any one of claims 1 to 3, wherein the cause of failure is identified. 光送信装置から送出された光信号を光通信路を用いて受信する光受信装置と、
前記光受信装置が有する光モジュールを含む複数の監視対象の中から1つずつ前記監視対象を選択し、選択した前記監視対象が前記光モジュールでない場合、選択した前記監視対象に関する第1情報を取得し、選択した前記監視対象の故障予兆及び故障検出を行うログ監視制御部と、
前記ログ監視制御部により選択された前記監視対象が前記光モジュールの場合、選択された前記監視対象である前記光モジュールに関する第1情報を取得し、取得した前記第1情報を基に、前記光モジュールに関する故障予兆を検出し、故障予兆を検出した場合、前記光モジュールに関する第2情報を取得し、取得した前記第2情報を基に前記光モジュールに関する故障原因を特定する制御装置からの指示を受けて、前記第1情報又は前記第2情報を前記制御装置へ送信する情報通知部と
を備えたことを特徴とする光通信装置。
an optical receiver that receives an optical signal transmitted from an optical transmitter using an optical communication path;
The monitoring target is selected one by one from a plurality of monitoring targets including an optical module of the optical receiving device, and if the selected monitoring target is not the optical module, first information about the selected monitoring target is obtained. a log monitoring control unit that performs failure prediction and failure detection of the selected monitoring target;
When the monitoring target selected by the log monitoring control unit is the optical module, first information about the selected monitoring target optical module is acquired, and based on the acquired first information, the An instruction from a control device to detect a failure sign relating to an optical module, and to acquire second information relating to the optical module when the failure sign is detected, and to identify a cause of failure relating to the optical module based on the acquired second information. and an information notification unit that receives the first information or the second information and transmits the first information or the second information to the control device.
送信装置と光通信路を介して接続される光受信装置が有する光モジュールを含む複数の監視対象の中から1つずつ前記監視対象を選択し、
選択した前記監視対象が前記光モジュールでない場合、選択した前記監視対象に関する第1情報を取得し、選択した前記監視対象の故障予兆及び故障検出を行い、
選択した前記監視対象が前記光モジュールの場合、選択された前記監視対象である前記光モジュールに関する第1情報を取得し、
取得した前記光モジュールに関する第1情報を基に、前記光モジュールに関する故障の予兆である故障予兆を検出し、
故障予兆があると判定した場合、前記光モジュールに関する第2情報を取得し、
取得した前記第2情報を基に前記光モジュールに関する故障原因の特定を行う
ことを特徴とする故障検出方法。
selecting the monitoring target one by one from among a plurality of monitoring targets including an optical module possessed by an optical receiving device connected to the optical transmitting device via an optical communication path ;
if the selected monitoring target is not the optical module, obtaining first information about the selected monitoring target, performing failure sign and failure detection of the selected monitoring target;
if the selected monitoring target is the optical module, obtaining first information about the optical module that is the selected monitoring target;
detecting a failure sign, which is a sign of failure of the optical module , based on the acquired first information about the optical module;
if it is determined that there is a sign of failure, obtaining second information about the optical module ;
A failure detection method, comprising identifying a cause of a failure related to the optical module based on the obtained second information.
光送信装置、前記光送信装置と光通信路を介して接続される光受信装置、並びに、前記光送信装置及び前記光受信装置を制御する制御装置を有する光送受信システムであって、
前記制御装置は、
前記光受信装置に関する第1情報を取得し、取得した前記第1情報を基に、前記光受信装置に関する故障予兆を検出する予兆検出部と、
前記予兆検出部により故障予兆が検出された場合、少なくとも前記光受信装置の受信信号強度及びビット誤り率の情報を含む第2情報を取得し、前記光受信装置の受信信号強度及びビット誤り率を基に前記光受信装置に関する故障原因の特定を行う特定部と
を備えたことを特徴とする光送受信システム。
An optical transmission/reception system comprising an optical transmission device, an optical reception device connected to the optical transmission device via an optical communication path, and a control device for controlling the optical transmission device and the optical reception device,
The control device is
a sign detection unit that acquires first information about the optical receiving device and detects a failure sign relating to the optical receiving device based on the acquired first information;
When a failure sign is detected by the sign detection unit, second information containing at least information on the received signal strength and bit error rate of the optical receiving device is acquired, and the received signal strength and bit error rate of the optical receiving device are obtained. and an identifying unit that identifies a cause of failure of the optical receiving device based on the optical transmitting and receiving system.
前記特定部は、前記光受信装置の受信信号強度、温度及びビット誤り率の情報を含む前記第2情報を受信し、前記受信信号強度、前記温度、前記ビット誤り率の順に故障原因の判定を行い、故障原因が前記判定順にしたがい相性問題異常、複数ポートエラー又は光素子エラーのいずれであるかを特定する請求項7に記載の光送受信システム。 The identification unit receives the second information including information on the received signal strength, temperature and bit error rate of the optical receiver, and determines the cause of failure in the order of the received signal strength, the temperature and the bit error rate. 8. The optical transmitting/receiving system according to claim 7, wherein the cause of the failure is specified in accordance with the order of determination, any one of a compatibility problem, a multiple port error, and an optical element error.
JP2018071355A 2018-04-03 2018-04-03 Optical transmission/reception system, optical communication device, and failure detection method Active JP7159596B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018071355A JP7159596B2 (en) 2018-04-03 2018-04-03 Optical transmission/reception system, optical communication device, and failure detection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018071355A JP7159596B2 (en) 2018-04-03 2018-04-03 Optical transmission/reception system, optical communication device, and failure detection method

Publications (2)

Publication Number Publication Date
JP2019186618A JP2019186618A (en) 2019-10-24
JP7159596B2 true JP7159596B2 (en) 2022-10-25

Family

ID=68337848

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018071355A Active JP7159596B2 (en) 2018-04-03 2018-04-03 Optical transmission/reception system, optical communication device, and failure detection method

Country Status (1)

Country Link
JP (1) JP7159596B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6954671B2 (en) * 2019-11-14 2021-10-27 Necプラットフォームズ株式会社 Predictive monitoring device, Predictive monitoring method and program
CN111131936B (en) * 2019-12-28 2022-07-08 苏州浪潮智能科技有限公司 Optical module monitoring method, monitoring device, switch and storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014107676A (en) 2012-11-27 2014-06-09 Nec Corp Failure determination device, failure determination method, and failure determination program
JP2016163242A (en) 2015-03-04 2016-09-05 株式会社日立製作所 Data collection system, data collection method, server, and gateway
WO2016170574A1 (en) 2015-04-20 2016-10-27 株式会社日立製作所 Operation management system and operation management method
JP2018010430A (en) 2016-07-12 2018-01-18 富士電機株式会社 Device and system for remotely monitoring control system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09116231A (en) * 1995-10-20 1997-05-02 Fujitsu Ltd Prediction equipment of laser diode deterioration
JP2012090193A (en) * 2010-10-22 2012-05-10 Hitachi Ltd Failure prediction system and communication module using the same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014107676A (en) 2012-11-27 2014-06-09 Nec Corp Failure determination device, failure determination method, and failure determination program
JP2016163242A (en) 2015-03-04 2016-09-05 株式会社日立製作所 Data collection system, data collection method, server, and gateway
WO2016170574A1 (en) 2015-04-20 2016-10-27 株式会社日立製作所 Operation management system and operation management method
JP2018010430A (en) 2016-07-12 2018-01-18 富士電機株式会社 Device and system for remotely monitoring control system

Also Published As

Publication number Publication date
JP2019186618A (en) 2019-10-24

Similar Documents

Publication Publication Date Title
CN108989135B (en) Network equipment fault detection method and device
EP2456127B1 (en) Method, system and apparatus for diagnosing physical downlink failure
JP7159596B2 (en) Optical transmission/reception system, optical communication device, and failure detection method
TW201419773A (en) Read optical power link service for link health diagnostics
EP2464040B1 (en) Protection device and protection method for optical network
CN106411401A (en) Industrial Ethernet switch with optical power detection
JP6640139B2 (en) Failure determination device, control method therefor, program, and optical fiber communication system
EP3138239B1 (en) Method and unit for handling deteriorating hardware
US20080002569A1 (en) Method and apparatus for identifying a fault in a communications link
JP6537345B2 (en) Defect detection system, defect detection method, and production management system
US9021252B2 (en) Encrypted-traffic discrimination device and encrypted-traffic discrimination system
AU2019277439B2 (en) Abnormality detection apparatus, abnormality detection method, and abnormality detection program
JP5722167B2 (en) Fault monitoring determination apparatus, fault monitoring determination method, and program
JP2005175599A (en) Pon system
JP2010245589A (en) Communication system, communication device, method for specifying suspect portion, and program
CN114665987A (en) Antenna health management system based on artificial intelligence
CN108337135B (en) Communication control system, method and device
CN116032362A (en) Health prediction method and equipment for optical network component and optical network system
US11177877B2 (en) Data transfer between electrical-optical devices
JP2011077586A (en) Failure prediction circuit, method, and program
JP5896857B2 (en) Abnormality determination device and abnormality determination method
CN115133983B (en) Communication link determination method, system, device and electronic equipment
JP2009296336A (en) Optical receiver, remote monitoring device and remote monitoring program
CN116545523A (en) Service life prediction method and computing device of optical module
US20190158602A1 (en) Data collecting system based on distributed architecture and operation method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220926

R150 Certificate of patent or registration of utility model

Ref document number: 7159596

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150