JP2017034403A - Device, program and method for estimating service influence cause - Google Patents

Device, program and method for estimating service influence cause Download PDF

Info

Publication number
JP2017034403A
JP2017034403A JP2015151089A JP2015151089A JP2017034403A JP 2017034403 A JP2017034403 A JP 2017034403A JP 2015151089 A JP2015151089 A JP 2015151089A JP 2015151089 A JP2015151089 A JP 2015151089A JP 2017034403 A JP2017034403 A JP 2017034403A
Authority
JP
Japan
Prior art keywords
suspected
flow
test packet
failure
previous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015151089A
Other languages
Japanese (ja)
Other versions
JP6378653B2 (en
Inventor
愛子 尾居
Aiko Oi
愛子 尾居
浩行 大西
Hiroyuki Onishi
浩行 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015151089A priority Critical patent/JP6378653B2/en
Publication of JP2017034403A publication Critical patent/JP2017034403A/en
Application granted granted Critical
Publication of JP6378653B2 publication Critical patent/JP6378653B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a service influence cause estimation device which can appropriately prioritize among two or more suspected faulty points when an abnormal flow affecting a service includes two or more suspected faulty points.SOLUTION: A service influence cause device 1 compares, for each suspected faulty point, a most forward position, which is a most forward position among suspected faulty points in an abnormal flow in a preceding test packet, with a present most forward position of suspected faulty points in a new abnormal flow in a present test packet. The service influence cause device 1 then sets a higher suspected fault degree of the suspected faulty point, in which the present most forward position is ahead of the preceding most forward position, as compared to a suspected fault degree of the suspected faulty point in which the present most forward position is either the same as or behind the previous most forward position.SELECTED DRAWING: Figure 3

Description

本発明は、サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法に関する。   The present invention relates to a service influence cause estimation device, a service influence cause estimation program, and a service influence cause estimation method.

通信ネットワークを介してサービスを提供するのに際して、通信ネットワーク中の故障又は品質劣化が発生している箇所を推定する技術が知られている。   2. Description of the Related Art A technique for estimating a location where a failure or quality degradation occurs in a communication network when providing a service via the communication network is known.

特許文献1には、ユーザからの通信ネットワーク上でのトラブル発生の申告を契機に、利用端末と情報ソース(サーバに相当)の間に配置される複数のサービス構成要素(物理的な設備)からなる設備モデルを生成し、全サービス構成要素が正常な場合の通信シーケンスと、サービス構成要素それぞれが故障した場合の通信シーケンスとを生成し、これらの通信シーケンスと故障申告時における観測情報とを比較することで、故障したサービス構成要素を推定する技術について開示されている(詳細は「第1の比較例」として後述)。   Patent Document 1 describes a plurality of service components (physical facilities) arranged between a use terminal and an information source (corresponding to a server) in response to a report of a trouble occurrence on a communication network from a user. A communication sequence when all service components are normal and a communication sequence when each service component fails are generated, and these communication sequences are compared with observation information at the time of failure declaration. Thus, a technique for estimating a failed service component is disclosed (details will be described later as “first comparative example”).

また、通信ネットワーク上の装置間のパケットをキャプチャし、キャプチャしたパケットを解析することで、ユーザの体感品質に影響を与える種々の特性値(リオーダ幅、トラヒック流量、RTT(Round-Trip Time)、パケットロス、ジッタ、セッション確立率、ウィンドウサイズ、サーバの応答時間)を算出し、その算出した値に基づいて当該特性値の正常性の判定を行い、前記装置間の通信品質劣化の原因箇所を推定する技術も知られている(詳細は「第2の比較例」として後述)。   In addition, by capturing packets between devices on the communication network and analyzing the captured packets, various characteristic values (reorder width, traffic flow, RTT (Round-Trip Time), Packet loss, jitter, session establishment rate, window size, server response time), the normality of the characteristic value is determined based on the calculated values, and the cause of communication quality degradation between the devices is determined. An estimation technique is also known (details will be described later as “second comparative example”).

さらに、非特許文献1には、仮想化された通信ネットワーク機能の選択的利用を可能とする柔軟な経路制御技術であるSFC(Service Function Chaining)技術を用いて、各フローに対し試験パケットを送信し、当該試験パケットが通過した転送機能部(物理/仮想ルータ又は物理/仮想スイッチに相当)及びアプリケーションのIDを、試験パケットが備えるリストにそれぞれ格納し、そのIDが格納されたリストと事前に設定した情報とを比較することで故障箇所を推定する技術について開示されている(詳細は「第3の比較例」として後述)。   Furthermore, Non-Patent Document 1 transmits a test packet to each flow using SFC (Service Function Chaining) technology, which is a flexible route control technology that enables selective use of virtualized communication network functions. Then, the transfer function unit (corresponding to a physical / virtual router or physical / virtual switch) through which the test packet has passed and the ID of the application are respectively stored in a list provided in the test packet, and the list in which the ID is stored A technique for estimating a fault location by comparing with set information is disclosed (details will be described later as “third comparative example”).

しかしながら、前記第1〜第3の比較例の技術では、仮想化設備やアプリケーションソフトといったソフトウェアに故障や劣化が生じていても異常を検出できないこと(特許文献1)、IDを付与できない設備に対しては故障診断ができないこと(非特許文献1)、作業が煩雑になること、装置規模が大規模になること、サービス品質の劣化が生じている場合に原因箇所の推定をすることができないこと等の不具合点が存在する。   However, in the technologies of the first to third comparative examples, it is impossible to detect an abnormality even if a failure or deterioration occurs in software such as virtualization equipment or application software (Patent Document 1), and for equipment that cannot be assigned an ID. Failure diagnosis cannot be performed (Non-Patent Document 1), work is complicated, the scale of the apparatus is large, and the cause cannot be estimated when service quality is deteriorated. There are defects such as.

これに対し、特許文献2には、分岐と端末とで構成されるツリー型のネットワークトポロジにおいて、ある分岐からツリー先端へ向かう全ての仮想側端末の故障が検出された場合に、当該分岐部分が故障箇所であると推定する技術について開示されている。   On the other hand, in Patent Document 2, in a tree-type network topology composed of branches and terminals, when a failure of all virtual terminals from a certain branch to the tip of the tree is detected, the branch part is A technique for estimating a failure location is disclosed.

特開平10−200527号公報Japanese Patent Laid-Open No. 10-200527 特開2006−229421号公報JP 2006-229421 A

Y. Jiang他、"Fault Management in Service Function Chaining"、[online]、2014年10月27日、The Internet Engineering Task Force、[平成27年1月27日検索]、インターネット<URL:https://datatracker.ietf.org/doc/draft-jxc-sfc-fm/?include_text=1>Y. Jiang et al., "Fault Management in Service Function Chaining", [online], October 27, 2014, The Internet Engineering Task Force, [Search January 27, 2015], Internet <URL: https: // datatracker.ietf.org/doc/draft-jxc-sfc-fm/?include_text=1>

しかし、特許文献2に記載の技術では、故障箇所の推定がツリー型のネットワーク構成であることに依存しており、汎用性がない。   However, the technique described in Patent Document 2 is not versatile because it depends on the estimation of the fault location being a tree-type network configuration.

また、通信ネットワーク上でデータが受け渡しされる物理設備及びソフトウェアをサービス構成要素として、一以上のサービス構成要素を用いて構成される複数のフローが正常フローであるか異常フローであるかを判定した際に、サービス影響の原因の可能性がある故障被疑箇所が、異常フロー内に複数含まれる場合がある。
しかし、二以上の故障被疑箇所のうち、どれが実際に故障している可能性がより高いのかが分からないため、例えば故障被疑箇所であるサービス構成要素のID順等で検索順序を決めることとなり、故障箇所の検索及び特定のため作業を効率化することができない。
In addition, using physical facilities and software that transfer data over a communication network as service components, it was determined whether multiple flows configured using one or more service components are normal flows or abnormal flows In some cases, the abnormal flow may include a plurality of suspected faults that may cause service effects.
However, since it is not known which of the two or more suspected failure locations is more likely to actually fail, the search order is determined based on, for example, the ID order of the service component that is the suspected failure location. The work cannot be made more efficient because of the search and identification of the failure location.

本発明は、前記事情に鑑みて創案されたものであり、サービス影響のある異常フローが二以上の故障被疑箇所を備える場合に、二以上の故障被疑箇所間での優先度付けを好適に行うことが可能なサービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法を提供することを目的とする。   The present invention was devised in view of the above circumstances, and in the case where a service-affected abnormal flow includes two or more suspected fault locations, prioritization is suitably performed between the two or more suspected fault locations. It is an object of the present invention to provide a service influence cause estimation device, a service influence cause estimation program, and a service influence cause estimation method.

前記目的を達成するために、本発明のサービス影響原因推定装置は、通信ネットワーク上でデータが受け渡しされる物理設備及びソフトウェアをサービス構成要素として、一以上の前記サービス構成要素を用いて構成される複数のフローに対して試験パケットを前記フローごとに送信するパケット送信部と、前記フローを通過する前記試験パケットのリプライパケットを受信するパケット受信部と、受信した前記リプライパケットに基づいて、前記フローが正常フローであるか異常フローであるかを判定するグループ構成部と、前記異常フローにおいて前記ネットワーク上でのサービス影響の原因となる故障被疑箇所を推定する故障被疑箇所推定部と、を備え、前記故障被疑箇所推定部は、前回の前記試験パケットに関して、前記異常フローに共通する前記サービス構成要素を前記故障被疑箇所と推定し、前回の前記試験パケットに関して、前記故障被疑箇所と推定された前記サービス構成要素が二以上存在するとともに、今回の前記試験パケットに関して、新たに異常フローと判定された前記フローにおいて、前回の前記試験パケットにおいて前記故障被疑箇所と推定された一以上の前記サービス構成要素が含まれる場合に、前回の前記試験パケットにおける異常フローにおける前記故障被疑箇所の最前方位置である前回最前方位置と、今回の前記試験パケットにおける新たな異常フローにおける前記故障被疑箇所の最前方位置である今回最前方位置と、を前記故障被疑箇所ごとに比較し、前記今回最前方位置が前記前回最前方位置よりも前方となる前記故障被疑箇所の故障被疑度を、前記今回最前方位置が前記前回最前方位置と同じ位置又は前記今回最前方位置が前記前回最前方位置よりも後方となる前記故障被疑箇所の故障被疑度よりも高く設定することを特徴とする。   In order to achieve the above object, the service influence cause estimating apparatus of the present invention is configured using one or more of the service components as physical components and software to which data is transferred over a communication network. Based on the received reply packet, a packet transmitting unit that transmits a test packet for each flow to a plurality of flows, a packet receiving unit that receives a reply packet of the test packet that passes through the flow, and the flow A group configuration unit that determines whether the flow is a normal flow or an abnormal flow, and a suspected failure point estimation unit that estimates a suspected failure point that causes a service effect on the network in the abnormal flow, The failure suspected part estimation unit is configured to perform the abnormal flow for the previous test packet. The common service component is estimated as the suspected failure location, and there are two or more service components estimated as the suspected failure location with respect to the previous test packet. In the flow determined to be an abnormal flow, when the previous test packet includes one or more service components estimated as the suspected failure location, the suspected failure location in the abnormal flow in the previous test packet The previous forefront position, which is the forefront position, and the current forefront position, which is the foremost position of the suspected failure location in the new abnormal flow in the current test packet, for each suspected failure location, Suspicious failure of the suspected failure location where the foremost position this time is ahead of the previous forefront position Is set higher than the suspected failure level of the suspected failure location where the current forward position is the same as the previous forward position or the forward current position is behind the forward forward position. To do.

かかる構成によると、前回の試験パケットによる異常フローに二以上の故障被疑箇所があり、かつ、今回の試験パケットで前回の故障被疑箇所を含む新たな異常フローが発生した場合に、故障被疑箇所の最前方位置に応じて故障被疑度を設定するので、二以上の故障被疑箇所間での優先度付けすなわち故障被疑度の設定を好適に行うことができる。   According to such a configuration, when there are two or more suspected fault locations in the abnormal flow of the previous test packet and a new abnormal flow including the previous suspected fault location has occurred in the current test packet, Since the failure suspected degree is set according to the forefront position, prioritization between two or more trouble suspected locations, that is, the failure suspected degree can be suitably set.

前記故障被疑箇所推定部は、前記サービス構成要素間のリンクの長さに基づいて、前記前回最前方位置と前記今回最前方位置とを比較することが望ましい。また、前記故障被疑箇所推定部は、前記試験パケットの各回における前記フローごとの送信時刻の差分に基づいて、前記前回最前方位置と前記今回最前方位置とを比較することが望ましい。   The suspected fault location estimation unit may compare the previous forefront position and the current forefront position based on a link length between the service components. Further, it is desirable that the failure suspected place estimation unit compares the previous forefront position and the current forefront position based on a difference in transmission time for each flow in each time of the test packet.

かかる構成によると、異常フローのリンク長及び/又は試験パケットの送信時刻の差分を考慮して故障被疑箇所の最前方位置を抽出するので、故障被疑度の設定をより好適に行うことができる。   According to such a configuration, the forefront position of the suspected failure location is extracted in consideration of the difference between the link length of the abnormal flow and / or the transmission time of the test packet, so that the suspected failure rate can be set more suitably.

前記故障被疑箇所推定部は、今回の前記試験パケットに関して、新たに異常フローと判定された前記フローにおいて、前回の前記試験パケットにおいて前記故障被疑箇所と推定された前記サービス構成要素が一つのみ含まれる場合には、当該故障被疑箇所の故障被疑度を、前回の前記試験パケットにおいて前記故障被疑箇所と推定されて新たに異常フローと判定された前記フローには含まれない前記故障被疑箇所の故障被疑度よりも高く設定することが望ましい。   The suspected fault location estimation unit includes only one service component that is presumed to be the suspected fault location in the previous test packet in the flow newly determined as an abnormal flow for the current test packet. The failure suspected degree of the suspected failure location is estimated as the suspected failure location in the previous test packet and newly determined as an abnormal flow, the failure of the suspected failure location is not included in the flow. It is desirable to set it higher than the suspicion level.

かかる構成によると、前回の試験パケットによる異常フローに二以上の故障被疑箇所があり、かつ、今回の試験パケットで前回の故障被疑箇所を含む新たな異常フローが発生した場合であって、今回の新たな異常フローに含まれる故障被疑箇所の故障被疑度を、今回の新たな異常フローには含まれない故障被疑箇所の故障被疑度よりも高く設定するので、二以上の故障被疑箇所間での優先度付けすなわち故障被疑度の設定を好適に行うことができる。   According to such a configuration, when there are two or more suspected faults in the abnormal flow of the previous test packet and a new abnormal flow including the previous suspected fault occurs in the current test packet, Since the suspected failure level of the suspected failure included in the new abnormal flow is set higher than the suspected failure rate of the suspected failure not included in the new abnormal flow this time, between two or more suspected failure locations Prioritization, that is, failure suspect level can be suitably set.

また、本発明のサービス影響原因推定プログラムは、コンピュータを、通信ネットワーク上でデータが受け渡しされる物理設備及びソフトウェアをサービス構成要素として、一以上の前記サービス構成要素を用いて構成される複数のフローに対して試験パケットを前記フローごとに送信するパケット送信部、前記フローを通過する前記試験パケットのリプライパケットを受信するパケット受信部、受信した前記リプライパケットに基づいて、前記フローが正常フローであるか異常フローであるかを判定するグループ構成部、及び、前記異常フローにおいて前記ネットワーク上でのサービス影響の原因となる故障被疑箇所を推定する故障被疑箇所推定部、として機能させ、前記故障被疑箇所推定部は、前回の前記試験パケットに関して、前記異常フローに共通する前記サービス構成要素を前記故障被疑箇所と推定し、前回の前記試験パケットに関して、前記故障被疑箇所と推定された前記サービス構成要素が二以上存在するとともに、今回の前記試験パケットに関して、新たに異常フローと判定された前記フローにおいて、前回の前記試験パケットにおいて前記故障被疑箇所と推定された一以上の前記サービス構成要素が含まれる場合に、前回の前記試験パケットにおける異常フローにおける前記故障被疑箇所の最前方位置である前回最前方位置と、今回の前記試験パケットにおける新たな異常フローにおける前記故障被疑箇所の最前方位置である今回最前方位置と、を前記故障被疑箇所ごとに比較し、前記今回最前方位置が前記前回最前方位置よりも前方となる前記故障被疑箇所の故障被疑度を、前記今回最前方位置が前記前回最前方位置と同じ位置又は前記今回最前方位置が前記前回最前方位置よりも後方となる前記故障被疑箇所の故障被疑度よりも高く設定することを特徴とする。   Further, the service influence cause estimation program of the present invention includes a computer, a plurality of flows configured using one or more of the service components as physical components and software for transferring data over a communication network. A packet transmission unit that transmits a test packet for each flow, a packet reception unit that receives a reply packet of the test packet that passes through the flow, and the flow is a normal flow based on the received reply packet Functioning as a group configuration unit that determines whether the flow is an abnormal flow, and a failure suspected location estimation unit that estimates a suspected failure location that causes a service effect on the network in the abnormal flow, and the suspected failure location The estimation unit relates to the previous test packet. The service component common to the flow is estimated as the suspected failure location, and regarding the previous test packet, there are two or more service components estimated as the suspected failure location, and for the current test packet, In the flow that has been newly determined as an abnormal flow, when the previous test packet includes one or more service components estimated as the suspected failure location, the failure in the abnormal flow in the previous test packet The previous forefront position which is the forefront position of the suspected place and the current forefront position which is the forefront position of the suspected place in the new abnormal flow in the current test packet are compared for each of the suspected faults. , Where the suspected failure location is such that the current forefront position is ahead of the previous forefront position. The failure suspect degree is set higher than the failure suspect degree of the suspected failure point where the current forefront position is the same as the previous forefront position or the current forefront position is behind the forefront position of the previous time. It is characterized by.

また、本発明のサービス影響原因推定方法は、通信ネットワーク上でデータが受け渡しされる物理設備及びソフトウェアをサービス構成要素として、一以上の前記サービス構成要素を用いて構成される複数のフローに対して試験パケットを前記フローごとに送信するパケット送信ステップと、前記フローを通過する前記試験パケットのリプライパケットを受信するパケット受信ステップと、受信した前記リプライパケットに基づいて、前記フローが正常フローであるか異常フローであるかを判定するグループ構成ステップと、前記異常フローにおいて前記ネットワーク上でのサービス影響の原因となる故障被疑箇所を推定する故障被疑箇所推定ステップと、を含み、前記故障被疑箇所推定ステップにおいて、前回の前記試験パケットに関して、前記異常フローに共通する前記サービス構成要素を前記故障被疑箇所と推定し、前回の前記試験パケットに関して、前記故障被疑箇所と推定された前記サービス構成要素が二以上存在するとともに、今回の前記試験パケットに関して、新たに異常フローと判定された前記フローにおいて、前回の前記試験パケットにおいて前記故障被疑箇所と推定された一以上の前記サービス構成要素が含まれる場合に、前回の前記試験パケットにおける異常フローにおける前記故障被疑箇所の最前方位置である前回最前方位置と、今回の前記試験パケットにおける新たな異常フローにおける前記故障被疑箇所の最前方位置である今回最前方位置と、を前記故障被疑箇所ごとに比較し、前記今回最前方位置が前記前回最前方位置よりも前方となる前記故障被疑箇所の故障被疑度を、前記今回最前方位置が前記前回最前方位置と同じ位置又は前記今回最前方位置が前記前回最前方位置よりも後方となる前記故障被疑箇所の故障被疑度よりも高く設定することを特徴とする。   Further, the service influence cause estimation method of the present invention uses a physical facility and software for transferring data on a communication network as service components, and a plurality of flows configured using one or more of the service components. A packet transmission step for transmitting a test packet for each flow, a packet reception step for receiving a reply packet of the test packet passing through the flow, and whether the flow is a normal flow based on the received reply packet A suspected failure location estimation step, including: a group configuration step for determining whether the flow is an abnormal flow; and a suspected failure location estimation step for estimating a suspected failure location that causes a service effect on the network in the abnormal flow. In the previous test packet The service component common to the abnormal flow is estimated as the suspected failure location, and there are two or more service components estimated as the suspected failure location with respect to the previous test packet, and the current test packet In the flow newly determined as an abnormal flow, in the previous abnormal flow in the previous test packet when the previous test packet includes one or more service components estimated as the suspected failure location The previous forefront position that is the forefront position of the suspected failure location and the current forefront position that is the forefront position of the suspected failure location in the new abnormal flow in the current test packet for each suspected failure location In comparison, the failure coverage in which the current foremost position is ahead of the previous forefront position is compared. The failure suspected degree of the location is set higher than the suspected failure degree of the suspected failure location in which the current frontmost position is the same position as the previous frontmost position or the current frontmost position is behind the previous frontmost position. It is characterized by doing.

本発明によれば、サービス影響のある異常フローが二以上の故障被疑箇所を備える場合に、二以上の故障被疑箇所間での優先度付けを好適に行うことができる。   According to the present invention, when an abnormal flow having a service influence includes two or more suspected fault locations, prioritization between two or more suspected fault locations can be suitably performed.

本発明の一実施形態にかかるシステムの全体の構成図である。1 is an overall configuration diagram of a system according to an embodiment of the present invention. 本発明の一実施形態にかかるサービス影響原因推定装置のハードウェア構成の概要を示すブロック図である。It is a block diagram which shows the outline | summary of the hardware constitutions of the service influence cause estimation apparatus concerning one Embodiment of this invention. 本発明の一実施形態にかかるサービス影響原因推定プログラムに基づいて中央処理装置が実行する機能を説明する機能ブロック図である。It is a functional block diagram explaining the function which a central processing unit performs based on the service influence cause estimation program concerning one Embodiment of this invention. 本発明の一実施形態にかかるサービス影響原因推定装置の設備情報DBに登録されているデータ構成の説明図である。It is explanatory drawing of the data structure registered into equipment information DB of the service influence cause estimation apparatus concerning one Embodiment of this invention. 本発明の一実施形態にかかるサービス影響原因推定装置のソフトウェア情報DBに登録されているデータ構成の説明図である。It is explanatory drawing of the data structure registered into software information DB of the service influence cause estimation apparatus concerning one Embodiment of this invention. 本発明の一実施形態にかかるフローモデルの一例を示す説明図である。It is explanatory drawing which shows an example of the flow model concerning one Embodiment of this invention. 本発明の一実施形態にかかる試験パケットの例を説明する。An example of a test packet according to an embodiment of the present invention will be described. 本発明の一実施形態にかかる各フローをグループ分けする処理のフローチャートである。It is a flowchart of the process which groups each flow concerning one Embodiment of this invention. 図8のグループ分けにおける判断を示す状態遷移図である。FIG. 9 is a state transition diagram illustrating determination in grouping in FIG. 8. 本発明の一実施形態におけるサービス影響の原因推定処理を説明する説明図である。It is explanatory drawing explaining the cause estimation process of the service influence in one Embodiment of this invention. 本発明の一実施形態において第1原因特定部を用いるか、第2原因特定部を用いるかを選択するためのフローチャートである。It is a flowchart for selecting whether the 1st cause specific part is used in one embodiment of the present invention, or the 2nd cause specific part is used. 本発明の一実施形態におけるサービス影響の原因推定処理の変形例を説明する説明図である。It is explanatory drawing explaining the modification of the cause estimation process of the service influence in one Embodiment of this invention. 本発明の一実施形態におけるサービス影響の原因推定処理の変形例を説明する説明図である。It is explanatory drawing explaining the modification of the cause estimation process of the service influence in one Embodiment of this invention. 本発明の一実施形態におけるサービス影響の原因推定処理の変形例を説明する説明図である。It is explanatory drawing explaining the modification of the cause estimation process of the service influence in one Embodiment of this invention. 本発明の一実施形態における故障被疑度の設定例を説明する説明図である。It is explanatory drawing explaining the example of a setting of failure suspected degree in one Embodiment of this invention. 本発明の一実施形態における故障被疑度の設定例を説明する説明図である。It is explanatory drawing explaining the example of a setting of failure suspected degree in one Embodiment of this invention. 本発明の一実施形態における故障被疑度を設定する処理のフローチャートである。It is a flowchart of the process which sets the failure suspect degree in one Embodiment of this invention. 本発明の一実施形態における故障被疑度の設定例を説明する説明図である。It is explanatory drawing explaining the example of a setting of failure suspected degree in one Embodiment of this invention. 本発明の一実施形態における故障被疑度の設定例を説明する説明図である。It is explanatory drawing explaining the example of a setting of failure suspected degree in one Embodiment of this invention. 第1の比較例の技術内容を説明する説明図である。It is explanatory drawing explaining the technical content of a 1st comparative example. 第2の比較例の技術内容を説明する説明図である。It is explanatory drawing explaining the technical content of the 2nd comparative example. 第3の比較例の技術内容を説明する説明図である。It is explanatory drawing explaining the technical content of the 3rd comparative example.

まず、本実施形態を説明する前に本実施形態に対する比較例を複数例説明する。
[比較例]
(第1の比較例)
本明細書において、サービス品質に「劣化」が生じているとは、ネットワーク管理者側で異常の発生を示すアラームを確認できないような異常が発生している場合であり、サービス品質に「故障」が生じているとは、ネットワーク管理者側で当該アラームを確認できる異常が発生している場合である。
First, before describing the present embodiment, a plurality of comparative examples for the present embodiment will be described.
[Comparative example]
(First comparative example)
In this specification, “degradation” occurs in the service quality when the network administrator has an abnormality in which an alarm indicating the occurrence of the abnormality cannot be confirmed, and “failure” occurs in the service quality. The occurrence of an error occurs when an abnormality that allows the network administrator to confirm the alarm has occurred.

図20は、第1の比較例(特許文献1)の技術内容を説明する説明図である。このネットワークサービス故障診断方法及び装置では、ユーザがサービスを利用する際にその端末と情報ソースとの間に配置される複数のサービス構成要素のそれぞれに関する役割を記述している設備情報データベース(DB)201と、各サービス構成要素に関する正常時及び故障時の動作を記述している設計情報データベース(DB)202とを備えている。設備情報DB201の登録情報の例は符号203で示している。   FIG. 20 is an explanatory diagram for explaining the technical contents of the first comparative example (Patent Document 1). In this network service failure diagnosis method and apparatus, when a user uses a service, a facility information database (DB) that describes roles related to each of a plurality of service components arranged between the terminal and an information source 201 and a design information database (DB) 202 describing operations at the time of normality and failure of each service component. An example of registration information in the facility information DB 201 is indicated by reference numeral 203.

まず、通信ネットワークのユーザ(ユーザA)の申告により、そのユーザIDと利用サービス名で検索を要求すると(S211)、設備情報DB201に基づいて、当該ユーザAのEnd-to-Endの設備モデルを、サービス構成要素(物理的装置)を単位として出力する(S212)。そして、設計情報DB202を参照して、当該設備モデルに基づいて、全サービスの構成要素が正常なときの通信シーケンスを生成する(S213)。また、各サービスの構成要素が故障した際の通信シーケンスを、設計情報DB202を参照して生成する(S214)。   First, when a user of a communication network (user A) declares a search with the user ID and service name used (S211), the end-to-end equipment model of the user A is determined based on the equipment information DB 201. The service component (physical device) is output as a unit (S212). Then, referring to the design information DB 202, based on the equipment model, a communication sequence when the components of all services are normal is generated (S213). In addition, a communication sequence when a component of each service fails is generated with reference to the design information DB 202 (S214).

次に、正常時の通信シーケンス(S213)、異常時の通信シーケンス(S214)と、観測情報(通信システムの保守者の入力した情報)とを比較して、両者に共通の情報が含まれる通信シーケンスを抽出する。そして、各サービス構成要素のうち、本来の役割を果たさなかったサービス構成要素を抽出する(S215,S216)。この例では、S215で、No.48のNIC(Network Interface Controller)の故障時の通信シーケンスが通信シーケンス番号1〜4として示されている。これらは、様々な故障パターンの通信シーケンス例である。また、S216で保守者の入力した情報は、「アラームA」という警告が表示されたこと、「メッセージB」というメッセージ(S214における「ホストからの応答がありません」というメッセージ)が表示されたこと、及び「○○が動かない」とのユーザAからの申告である。
この例では、正常/異常時の通信シーケンスと観測情報との比較により、シーケンス番号1,3で一致し、これを抽出する。そして、シーケンス番号1,3の通信シーケンスにおいて、どのサービス構成要素が本来の役割を果たさないのかを判断して、異常箇所の推定を行う。
Next, the normal communication sequence (S213), the abnormal communication sequence (S214), and the observation information (information input by the maintainer of the communication system) are compared, and the communication includes information common to both. Extract the sequence. And the service component which did not play the original role among each service component is extracted (S215, S216). In this example, in S215, no. Communication sequences at the time of failure of 48 NICs (Network Interface Controllers) are shown as communication sequence numbers 1 to 4. These are examples of communication sequences of various failure patterns. In addition, the information input by the maintenance person in S216 is that the warning “Alarm A” is displayed, the message “Message B” (the message “No response from host” in S214) is displayed, And a declaration from the user A that “XX does not move”.
In this example, the sequence numbers 1 and 3 are matched by the comparison between the normal / abnormal communication sequence and the observation information, and these are extracted. Then, in the communication sequence of sequence numbers 1 and 3, it is determined which service component does not play the original role, and the abnormal part is estimated.

しかしながら、このような第1の比較例は、予め故障時の通信シーケンスを網羅的に用意する必要があるため、作業が煩雑である。また、第1の比較例は、仮想化設備やアプリケーションソフトといったソフトウェアがサービス構成要素の対象外とされている(対象とされているのは物理的装置だけ)ため、例えば、同一サーバ内に複数の仮想化設備やアプリケーションソフトが設定されている場合、これを設備モデルに変換する際に、ある物理的装置に同居して存在する仮想化設備又はアプリケーションソフトなのか、ある物理的装置に単一で存在する仮想化設備又はアプリケーションソフトなのかを区別できないため、人手による1つ1つの確認作業が必要となってしまい、作業が煩雑である。さらに、第1の比較例は、通信シーケンスの異常を判断するものであるため、通信シーケンスは正常だがサービス品質に劣化が生じている場合に、原因となるサービス構成要素を推定できないという不具合もある。   However, in the first comparative example, it is necessary to comprehensively prepare a communication sequence at the time of failure, so that the work is complicated. In the first comparative example, software such as virtualization equipment and application software is excluded from service components (only physical devices are targeted). When the virtual equipment or application software is set, when converting it to an equipment model, the virtual equipment or application software coexisting with a physical device or a single physical device Therefore, it is not possible to distinguish between the virtual equipment and application software existing in the system, so that it is necessary to check each one manually, and the work is complicated. Furthermore, since the first comparative example determines an abnormality in the communication sequence, there is also a problem in that the service component that is the cause cannot be estimated when the communication sequence is normal but the service quality has deteriorated. .

(第2の比較例)
図21は、第2の比較例の技術内容を説明する説明図である。この品質劣化原因推定方法は、図21(a)に示すように、ユーザ端末301とサーバ302がネットワーク303を介して接続されている。そして、ネットワーク303に設けられた品質劣化原因推定装置304がユーザ端末301、サーバ302間のパケットP311をキャプチャし、キャプチャしたパケットP311を解析することで、ユーザの体感品質に影響を与える種々の特性値(リオーダ幅、トラヒック流量、RTT(Round-Trip Time)、パケットロス、ジッタ、セッション確立率、ウィンドウサイズ、サーバの応答時間)を算出し、その算出した値に基づいて特性値の正常性判定を行い、ユーザ端末301、サーバ302間の通信品質劣化の原因箇所を推定するものである。
(Second comparative example)
FIG. 21 is an explanatory diagram for explaining the technical contents of the second comparative example. In this quality degradation cause estimation method, a user terminal 301 and a server 302 are connected via a network 303 as shown in FIG. Then, the quality degradation cause estimation device 304 provided in the network 303 captures the packet P311 between the user terminal 301 and the server 302, and analyzes the captured packet P311. Calculates values (reorder width, traffic flow, RTT (Round-Trip Time), packet loss, jitter, session establishment rate, window size, server response time), and determines the normality of the characteristic value based on the calculated values The cause of communication quality degradation between the user terminal 301 and the server 302 is estimated.

図21(b)は、特性値がセッション確立率の例である場合の判定処理のフローチャートである。特性値がセッション確立率であるときは、まず、品質劣化原因推定装置304は、セッション確立失敗率が所定の閾値より大きいか否か判断する(S321)。大きくないときは(S321のN)、品質劣化原因推定装置304は、ネットワーク303は正常であると判断する(S322)。大きいときは(S321のY)、品質劣化原因推定装置304は、セッション終端装置があるか否か判断する(S323)。セッション終端装置がある場合は(S323のY)、セッション終端装置に異常の原因がある可能性があるので、品質劣化原因推定装置304は、セッション終端装置のログを確認する必要があると判断する(S324)。セッション終端装置がない場合は(S323のN)、品質劣化原因推定装置304は、サーバ302に原因があると判断する(S325)。   FIG. 21B is a flowchart of the determination process when the characteristic value is an example of the session establishment rate. When the characteristic value is the session establishment rate, first, the quality degradation cause estimation device 304 determines whether or not the session establishment failure rate is greater than a predetermined threshold (S321). When it is not large (N in S321), the quality degradation cause estimating apparatus 304 determines that the network 303 is normal (S322). When it is larger (Y in S321), the quality degradation cause estimation device 304 determines whether there is a session termination device (S323). If there is a session termination device (Y in S323), there is a possibility that the session termination device has a cause of abnormality, so the quality degradation cause estimation device 304 determines that it is necessary to check the log of the session termination device. (S324). When there is no session termination device (N in S323), the quality degradation cause estimation device 304 determines that there is a cause in the server 302 (S325).

図21(c)は、特性値がウィンドウサイズの例である場合の判定処理のフローチャートである。特性値がウィンドウサイズであるときは、まず、品質劣化原因推定装置304は、ウィンドウサイズが所定の閾値より小さいか否か判断する(S331)。閾値以上であるときは(S331のN)、品質劣化原因推定装置304は、ネットワーク303は正常であると判断する(S332)。閾値より小さいときは(S331のY)、品質劣化原因推定装置304は、帯域制御装置があるか否か判断する(S333)。帯域制御装置がある場合は(S333のY)、帯域制御装置に異常の原因がある可能性があるので、品質劣化原因推定装置304は、帯域制御装置のログを確認する必要があると判断する(S334)。帯域制御装置がない場合は(S333のN)、品質劣化原因推定装置304は、サーバ302に原因があると判断する(S335)。   FIG. 21C is a flowchart of the determination process when the characteristic value is an example of the window size. When the characteristic value is the window size, first, the quality deterioration cause estimating device 304 determines whether or not the window size is smaller than a predetermined threshold (S331). When it is equal to or greater than the threshold (N in S331), the quality degradation cause estimating apparatus 304 determines that the network 303 is normal (S332). When it is smaller than the threshold value (Y in S331), the quality degradation cause estimation device 304 determines whether there is a bandwidth control device (S333). If there is a bandwidth control device (Y in S333), there is a possibility that the bandwidth control device has a cause of abnormality, so the quality degradation cause estimation device 304 determines that it is necessary to check the log of the bandwidth control device. (S334). When there is no bandwidth control device (N in S333), the quality degradation cause estimation device 304 determines that there is a cause in the server 302 (S335).

しかしながら、このような第2の比較例は、フローごとに、End-to-Endで、ネットワーク303内の個々の装置も含めた原因箇所推定を行う場合に、ネットワーク303内の装置に設けるキャプチャポイントが多くなってしまい、キャプチャしたパケットP311のデータの保存量及び判定処理にかかる負荷が増大してしまうので、作業が煩雑となり、装置規模が大規模になってしまう。このため、通信キャリアといった大規模なネットワークにおいては適用が困難である。   However, such a second comparative example is a capture point provided in a device in the network 303 when the cause location including individual devices in the network 303 is estimated end-to-end for each flow. Since the amount of data stored in the captured packet P311 and the load on the determination process increase, the operation becomes complicated and the apparatus scale becomes large. For this reason, it is difficult to apply in a large-scale network such as a communication carrier.

(第3の比較例)
図22は、第3の比較例の技術内容を説明する説明図である。この仮想化機構を含む故障診断方法は、図22(a)に示すように、ネットワーク401中に、複数台のサーバ402、複数台のスイッチ(ネットワークスイッチ)403が配置されている。検出ノード404は、ネットワーク401中のノードのひとつである。サーバ402は、データ転送を行う転送機能部(仮想スイッチに相当)411と、アプリケーションソフト412とを備えている。SFF1〜SFF3は、各転送機能部411のIDであり、SF1〜SF5は、各アプリケーションソフト412のIDである。
(Third comparative example)
FIG. 22 is an explanatory diagram for explaining the technical contents of the third comparative example. In the failure diagnosis method including this virtualization mechanism, a plurality of servers 402 and a plurality of switches (network switches) 403 are arranged in a network 401 as shown in FIG. The detection node 404 is one of the nodes in the network 401. The server 402 includes a transfer function unit (corresponding to a virtual switch) 411 that performs data transfer, and application software 412. SFF1 to SFF3 are IDs of the transfer function units 411, and SF1 to SF5 are IDs of the application software 412.

本技術は、仮想化されたネットワーク機能の選択的利用を可能とする柔軟な経路制御技術であるSFC(Service Function Chaining)を用いている。検出ノード404は、各フローに対して試験パケットを1つ送信する。この試験パケットは、転送機能部411とアプリケーションソフト412のIDを格納するリストを備えている。試験パケットを受信したサーバ402では、当該試験パケットのリストに自身の転送機能部411のIDを格納し、当該格納後のリストをコピーし、コピーしたリストを送信元の検出ノード404にリプライする。その後、当該コピー元のリストを備えた試験パケットを同一サーバ402のアプリケーションソフト412に転送し、ここでも転送機能部411と同様にリストのコピー、コピーしたリストの送信元の検出ノード404へのリプライが行われる。さらに別のサーバ402に試験パケットが転送される場合も同様である。   This technology uses SFC (Service Function Chaining), which is a flexible route control technology that enables selective use of virtualized network functions. The detection node 404 transmits one test packet for each flow. This test packet includes a list for storing the IDs of the transfer function unit 411 and the application software 412. Upon receiving the test packet, the server 402 stores the ID of its own transfer function unit 411 in the list of the test packet, copies the stored list, and replies the copied list to the detection node 404 of the transmission source. Thereafter, the test packet having the copy source list is transferred to the application software 412 of the same server 402. Here, as with the transfer function unit 411, the list is copied, and the reply is sent to the detection node 404 that is the transmission source of the copied list. Is done. The same applies when the test packet is transferred to another server 402.

図22(b)には、検出ノード404に予め格納されている設定情報421の例を示している。この設定情報421は、あるフローを転送される試験パケットの通過経路の各部のIDを通過する順に上から並べて示している。この例では、IDがSFF1の転送機能部411を備えたサーバ402に試験パケットが転送され、その転送機能部411、アプリケーションソフト412を試験パケットが順次通過した後、IDがSFF2の転送機能部411を備えたサーバ402に試験パケットが転送され、その転送機能部411、アプリケーションソフト412を試験パケットが順次通過する例である。そのため、当該試験パケットが通過する予定の各部のIDを順に示すと、“SFF1→SF1→SFF1→SFF2→SF2→SFF2→SF3→SFF2”となる。   FIG. 22B shows an example of setting information 421 stored in advance in the detection node 404. The setting information 421 is arranged from the top in the order of passing through the ID of each part of the passage route of the test packet to be transferred for a certain flow. In this example, the test packet is transferred to the server 402 having the transfer function unit 411 with the ID SFF1, and after the test packet sequentially passes through the transfer function unit 411 and the application software 412, the transfer function unit 411 with the ID SFF2. In this example, a test packet is transferred to a server 402 equipped with and the test packet sequentially passes through the transfer function unit 411 and application software 412. Therefore, if the IDs of the respective parts that the test packet is scheduled to pass are indicated in order, “SFF1 → SF1 → SFF1 → SFF2 → SF2 → SFF2 → SF3 → SFF2”.

図22(c)は、試験パケットに基づいて、検出ノード404にリプライされたリストの例である。リスト1はIDがSFF1の転送機能部411からリプライされ、リスト2はIDがSF1のアプリケーションソフト412からリプライされ、リスト3はIDがSFF1の転送機能部411からリプライされ、リスト4はIDがSFF2の転送機能部411からリプライされたものである。   FIG. 22C is an example of a list replied to the detection node 404 based on the test packet. List 1 is replied from transfer function unit 411 with ID SFF1, list 2 is replied from application software 412 with ID SF1, list 3 is replied from transfer function unit 411 with ID SFF1, and list 4 has ID SFF2. The transfer function unit 411 is replied.

これらのリストと設定情報421とを比較することにより、各転送機能部411、アプリケーションソフト412のうち、異常が存在する部位はどれであるかを判定することができる。リスト1〜リスト4は、設定情報421と比較すれば、いずれも検出ノード404に正しくリプライされたものであることがわかる。すなわち、リスト1〜リスト4の各最下段のIDは設定情報421中に存在し、当該IDが当該リストのリプライ元であるから、そのリプライ元の転送機能部411又はアプリケーションソフト412は正常に動作していると判定できる。
ここで、仮に、IDがSFF2である転送機能部411に異常が存在していると、最下段にIDのSFF2が記録されたリスト4はリプライされないので、リスト4のリプライの不存在をもって、IDがSFF2である転送機能部411に異常があると判定することになる。
By comparing these lists with the setting information 421, it is possible to determine which part of each transfer function unit 411 and application software 412 has an abnormality. Compared with the setting information 421, it can be seen that List 1 to List 4 are all correctly replied to the detection node 404. That is, the lowest ID of each of the list 1 to the list 4 exists in the setting information 421, and the ID is a reply source of the list, so that the transfer function unit 411 or application software 412 of the reply source operates normally. Can be determined.
Here, if there is an abnormality in the transfer function unit 411 whose ID is SFF2, the list 4 in which the SFF2 of ID is recorded at the bottom is not replied. It is determined that there is an abnormality in the transfer function unit 411 that is SFF2.

しかしながら、このような第3の比較例は、IDを付与可能な転送機能部411及びアプリケーションソフト412のみを異常診断の対象としているため,それ以外のIDを付与できない物理的な装置やソフト的な設備に対しては異常診断ができないという不具合がある。また、転送機能部411及びアプリケーションソフト412のIDが格納されたリストと設定情報421との比較だけでは、サービス品質の劣化が生じている場合に原因箇所の推定をすることができないという不具合もある。   However, in the third comparative example, since only the transfer function unit 411 and the application software 412 that can be assigned IDs are targeted for abnormality diagnosis, other physical devices or software that cannot be assigned other IDs. There is a problem that abnormality diagnosis cannot be performed for equipment. In addition, there is a problem in that the cause location cannot be estimated when the quality of service is deteriorated only by comparing the setting information 421 with the list in which the IDs of the transfer function unit 411 and the application software 412 are stored. .

[実施形態]
次に、第1〜第3の比較例における不具合を解消した本実施形態の技術内容について説明する。
(システム構成の概要)
図1は、本実施形態の全体のシステム構成図である。インターネットなどの通信ネットワーク10上には複数のサーバ11が設置され、これらのサーバ11は、スイッチ(ネットワークスイッチ)12、リンク13を介して接続されている。各サーバ11には、いずれもソフトウェアである仮想スイッチ(vSW)21、アプリケーションソフト(APL)22が用意されている。これらの通信ネットワーク10中の各構成要素には、そのIDを、例えば「ID:sv01」のように図示している。
[Embodiment]
Next, the technical contents of the present embodiment in which the problems in the first to third comparative examples are solved will be described.
(Overview of system configuration)
FIG. 1 is an overall system configuration diagram of the present embodiment. A plurality of servers 11 are installed on a communication network 10 such as the Internet, and these servers 11 are connected via a switch (network switch) 12 and a link 13. Each server 11 is provided with a virtual switch (vSW) 21 and application software (APL) 22 which are all software. The ID of each component in the communication network 10 is illustrated as “ID: sv01”, for example.

サービス影響原因推定装置1は、この例ではサーバ11に接続されて設けられている。しかし、本発明はこれに限定されるものではなく、サービス影響原因推定装置1をサーバ11とは独立させて通信ネットワーク10中に配置してもよい。   In this example, the service influence cause estimation device 1 is provided connected to the server 11. However, the present invention is not limited to this, and the service influence cause estimation device 1 may be arranged in the communication network 10 independently of the server 11.

図2は、サービス影響原因推定装置1のハードウェア構成の概要を示すブロック図である。サービス影響原因推定装置1は、各種演算及び制御を行う中央処理装置(CPU)31と、中央処理装置31の作業領域となる主記憶装置32と、各種データを記憶する補助記憶装置(HDD等)33と、通信ネットワーク10と通信を行う通信インターフェイス(I/F)34とを備えている。補助記憶装置33には、サービス影響原因推定装置1における下記に説明する特徴的な処理を実行するためのプログラムであるサービス影響原因推定プログラム45が格納されている。   FIG. 2 is a block diagram showing an outline of the hardware configuration of the service influence cause estimating apparatus 1. The service influence cause estimation device 1 includes a central processing unit (CPU) 31 that performs various calculations and controls, a main storage device 32 that is a work area of the central processing unit 31, and an auxiliary storage device (HDD or the like) that stores various data. 33 and a communication interface (I / F) 34 that communicates with the communication network 10. The auxiliary storage device 33 stores a service influence cause estimation program 45 that is a program for executing the characteristic processing described below in the service influence cause estimation apparatus 1.

図3は、サービス影響原因推定プログラム45に基づいて中央処理装置31が実行する機能を説明する機能ブロック図である。
すなわち、サービス影響原因推定装置1は、記憶部50と、処理部60と、管理部70とを備えている。
記憶部50には、設備情報データベース(DB)51と、ソフトウェア情報データベース(DB)52とが設けられている。これら各部の詳細な機能は後述する。
処理部60は、後述のフローモデルに関する処理を行う。処理部60には、モデル生成部61と、構成要素抽出方法決定部62と、構成要素抽出部63と、抽出要素格納部64とが設けられている。構成要素抽出部63は、第1原因特定部631と、第2原因特定部632とを備えている。これら各部の詳細な機能は後述する。
FIG. 3 is a functional block diagram for explaining functions executed by the central processing unit 31 based on the service influence cause estimation program 45.
That is, the service influence cause estimation device 1 includes a storage unit 50, a processing unit 60, and a management unit 70.
The storage unit 50 is provided with an equipment information database (DB) 51 and a software information database (DB) 52. Detailed functions of these units will be described later.
The processing unit 60 performs processing related to a flow model described later. The processing unit 60 includes a model generation unit 61, a component element extraction method determination unit 62, a component element extraction unit 63, and an extraction element storage unit 64. The component extraction unit 63 includes a first cause specifying unit 631 and a second cause specifying unit 632. Detailed functions of these units will be described later.

管理部70は、各種データの管理に関する処理を行う。管理部70には、設定情報管理部71と、グループ管理部72と、閾値管理部73と、試験パケット管理部74と、記録部75とが設けられている。グループ管理部72には、グループ構成部721と、グループ格納部722とが設けられている。閾値管理部73は、レスポンスタイム閾値格納部731と、リプライカウント数閾値格納部732と、故障フロー数閾値格納部733と、性能劣化フロー数閾値格納部734とが設けられている。試験パケット管理部74は、試験パケット生成部741と、リスト生成部742と、パケット送信部743と、パケット受信部744と、リプライ格納部745とが設けられている。記録部75は、レスポンスタイム格納部751と、リプライカウント数格納部752と、故障フロー数格納部753と、性能劣化フロー数格納部754とが設けられている。これら各部の詳細な機能は後述する。   The management unit 70 performs processing related to management of various data. The management unit 70 includes a setting information management unit 71, a group management unit 72, a threshold management unit 73, a test packet management unit 74, and a recording unit 75. The group management unit 72 is provided with a group configuration unit 721 and a group storage unit 722. The threshold management unit 73 is provided with a response time threshold storage unit 731, a reply count number threshold storage unit 732, a failure flow number threshold storage unit 733, and a performance degradation flow number threshold storage unit 734. The test packet management unit 74 includes a test packet generation unit 741, a list generation unit 742, a packet transmission unit 743, a packet reception unit 744, and a reply storage unit 745. The recording unit 75 includes a response time storage unit 751, a reply count number storage unit 752, a failure flow number storage unit 753, and a performance deterioration flow number storage unit 754. Detailed functions of these units will be described later.

以下では、サービス影響原因推定装置1が実行する処理であるサービス影響原因推定方法について順次説明する。
(サービス影響原因推定方法の概要)
図4は、設備情報DB51(図3)に登録されているデータ構成の説明図である。設備情報DB51には、フローIDと物理設備IDとが関連付けられて登録される。フローIDは、通信ネットワーク10において、転送装置や通信ケーブル等の物理設備と、仮想マシンや仮想スイッチ等の仮想化された設備及びアプリケーションソフト等のソフトウェアとのうち(図1の例では、サーバ11、スイッチ12、リンク13、仮想スイッチ21、アプリケーションソフト22)の少なくとも1つ以上を用いて構成されるフローを識別する識別子である。物理設備IDは、通信ネットワーク10において、前記各フロー中の物理設備(図1の例では、サーバ11、スイッチ12、リンク13)を識別する識別子である。物理設備IDは、データが流れる物理設備のIDをデータが流れる順番に左から右に連結して示している。
Below, the service influence cause estimation method which is a process which the service influence cause estimation apparatus 1 performs is demonstrated sequentially.
(Outline of service impact cause estimation method)
FIG. 4 is an explanatory diagram of a data configuration registered in the facility information DB 51 (FIG. 3). In the facility information DB 51, a flow ID and a physical facility ID are associated and registered. In the communication network 10, the flow ID is a physical facility such as a transfer device or a communication cable, a virtual facility such as a virtual machine or a virtual switch, and software such as application software (in the example of FIG. 1, the server 11 , The switch 12, the link 13, the virtual switch 21, and the application software 22). The physical facility ID is an identifier for identifying the physical facility (in the example of FIG. 1, the server 11, the switch 12, and the link 13) in each flow in the communication network 10. The physical facility ID indicates the ID of the physical facility through which data flows, connected from left to right in the order in which the data flows.

図5は、ソフトウェア情報DB52(図3)に登録されているデータ構成の説明図である。ソフトウェア情報DB52には、前記のフローIDと、サーバIDと、ソフトウェアIDとが関連付けられて登録される。サーバIDは、サーバ11を識別する識別子である。ソフトウェアIDは、各サーバIDが示すサーバ11に搭載されている仮想マシンや仮想スイッチ等の仮想化された設備及びアプリケーションソフト等のソフトウェア(図1の例では、仮想スイッチ21、アプリケーションソフト22)を識別する識別子である。ソフトウェアIDは、データが流れるソフトウェアのIDをデータが流れる順番に左から右に連結して示している。ソフトウェアIDは、各サーバ11のサーバIDと関連付けられていて、当該サーバIDの示すサーバ11内のソフトウェアのIDのみで示されている。   FIG. 5 is an explanatory diagram of a data configuration registered in the software information DB 52 (FIG. 3). In the software information DB 52, the flow ID, the server ID, and the software ID are associated and registered. The server ID is an identifier for identifying the server 11. The software ID is a virtual facility such as a virtual machine or virtual switch mounted on the server 11 indicated by each server ID, and software such as application software (in the example of FIG. 1, virtual switch 21 and application software 22). It is an identifier to identify. The software ID indicates the ID of the software through which the data flows, concatenated from left to right in the order in which the data flows. The software ID is associated with the server ID of each server 11 and is indicated only by the software ID in the server 11 indicated by the server ID.

図6は、フローモデルの一例を示す説明図である。フローモデルもフローIDが識別子となり、図6においては、フローIDごとのフローモデル例を示している。フローモデルは、モデル生成部61により生成される。すなわち、モデル生成部61は、あるフローIDのフローモデルを作成するに際して、設備情報DB51(図4)とソフトウェア情報DB52(図5)とを参照して、それぞれ対象となるフローIDと関連付けられている、物理設備IDが示す物理設備と、サーバID及びソフトウェアIDが示すソフトウェアとを、データが流れる順番に左から右に連結して示している。すなわち、モデル生成部61は、各フローについてデータが流れる物理設備及びソフトウェアのIDと当該データが流れる順番を特定するモデルである。   FIG. 6 is an explanatory diagram illustrating an example of a flow model. In the flow model, the flow ID is an identifier, and FIG. 6 shows an example of the flow model for each flow ID. The flow model is generated by the model generation unit 61. That is, the model generation unit 61 refers to the facility information DB 51 (FIG. 4) and the software information DB 52 (FIG. 5) when creating a flow model of a certain flow ID, and is associated with each target flow ID. The physical equipment indicated by the physical equipment ID and the software indicated by the server ID and the software ID are shown connected from left to right in the order of data flow. That is, the model generation unit 61 is a model that identifies the physical equipment and software ID through which data flows for each flow and the order in which the data flows.

本実施形態では、処理部60及び管理部70が推定部に相当し、この処理部60及び管理部70の実行する処理により、前記のフローモデル同士を比較して当該比較結果から、通信ネットワーク10上での劣化、故障のようなサービス影響の原因となる物理設備又はソフトウェアを推定するものである。以下では、サービス影響原因推定装置1が実行する詳細な処理、特に、推定部となる処理部60及び管理部70が実行する具体的な処理について説明する。   In the present embodiment, the processing unit 60 and the management unit 70 correspond to an estimation unit, and the processing performed by the processing unit 60 and the management unit 70 compares the flow models with each other and determines the communication network 10 based on the comparison result. It estimates the physical equipment or software that causes the service impact such as deterioration and failure. Below, the detailed process which the service influence cause estimation apparatus 1 performs, especially the specific process which the process part 60 used as an estimation part and the management part 70 perform are demonstrated.

(試験パケット)
通信ネットワーク10上での劣化、故障のようなサービス影響の原因となる物理設備又はソフトウェアを推定するために用いる試験パケットの例を説明する。
まず、リスト生成部742がソフトウェアIDを格納できる、図7(a)に示すようなリストを生成する。このリストには、対象となるフローモデルのフローIDとソフトウェアIDとが、試験パケットが当該ソフトウェアを通過した際に記載される。そして、試験パケット生成部741が、当該リストを備えた試験パケットを生成する。この試験パケットのヘッダには、該当するフローの設備情報DB51及びソフトウェア情報DB52を参照して、当該試験パケットが通過する物理設備の物理設備ID、ソフトウェアのソフトウェアIDが格納されている。
パケット送信部743は、この生成した試験パケットをフローごとに所定時間内に所定数送信する。具体的には、1フローにつき複数個の同一の試験パケットが送信される。
また、パケット送信部743は、同一回(後記するN−1回目、N回目)の試験パケット送信において、全てのフローに対して同時又は段階的に試験パケットを送信する。
(Test packet)
An example of a test packet used for estimating a physical facility or software that causes a service influence such as deterioration or failure on the communication network 10 will be described.
First, the list generation unit 742 generates a list as shown in FIG. 7A in which the software ID can be stored. In this list, the flow ID and software ID of the target flow model are described when the test packet passes through the software. Then, the test packet generation unit 741 generates a test packet having the list. The header of the test packet stores the physical equipment ID of the physical equipment through which the test packet passes and the software ID of the software with reference to the equipment information DB 51 and software information DB 52 of the corresponding flow.
The packet transmitter 743 transmits a predetermined number of the generated test packets for each flow within a predetermined time. Specifically, a plurality of identical test packets are transmitted per flow.
In addition, the packet transmission unit 743 transmits a test packet to all the flows simultaneously or stepwise in the same time (N−1th and Nth times) test packet transmission.

これにより、各フローにおいて、フローモデルの最後の構成要素がリプライパケットを生成し、送信する。リプライパケットには、対応する試験パケットが通過したソフトウェアのIDをそれぞれ格納した、図7(b)に示すようなリストが添付される。リプライパケットはパケット受信部744が受信する。そして、リプライ格納部745は、当該リプライパケットのリストを格納する。
この試験パケットのレスポンスタイムの実測値はレスポンスタイム格納部751に格納され、また、試験パケットのリプライパケットのカウント数はリプライカウント数格納部752に格納される。
Thereby, in each flow, the last component of the flow model generates a reply packet and transmits it. The reply packet is attached with a list as shown in FIG. 7B in which the IDs of the software that have passed the corresponding test packet are stored. The reply packet is received by the packet receiving unit 744. Then, the reply storage unit 745 stores the list of reply packets.
The actually measured value of the response time of the test packet is stored in the response time storage unit 751, and the reply packet count number of the test packet is stored in the reply count number storage unit 752.

(グループ分け)
次に、前記試験パケットの送信の結果に基づいて、各フローをグループ分けする。グループ分けは、まず、異常が存在しないフローと判断する「正常グループ」と、異常が存在するフローと判断する「異常グループ」である「性能劣化グループ」及び「故障グループ」とに分類する。グループ構成部721は、この正常グループ、異常グループ、性能劣化グループのグループ分けを行う。グループ格納部722は、このグループ分けの結果を格納する。また、設定情報管理部71には、設備情報DB51、ソフトウェア情報DB52の登録情報を設定情報として取り込む。
(Grouping)
Next, the flows are grouped based on the result of transmission of the test packet. The grouping is first classified into a “normal group” that is determined as a flow having no abnormality, and a “performance degradation group” and a “failure group” that are “abnormal groups” that are determined as a flow having an abnormality. The group configuration unit 721 performs grouping of the normal group, the abnormal group, and the performance deterioration group. The group storage unit 722 stores the grouping result. In addition, the setting information management unit 71 takes in the registration information of the facility information DB 51 and the software information DB 52 as setting information.

図8は各フローをグループ分けする処理のフローチャートである。本処理では、レスポンスタイム格納部751に格納されている試験パケットのレスポンスタイムの実測値の閾値としてN1,N2(N1<N2)、リプライカウント数格納部752に格納されている試験パケットのリプライパケットのカウント数の閾値としてC1,C2,C3(C1>C2>C3)を用いる。   FIG. 8 is a flowchart of processing for grouping the flows. In this processing, N1 and N2 (N1 <N2) are used as threshold values of the actual measurement values of the response time of the test packet stored in the response time storage unit 751, and the reply packet of the test packet stored in the reply count number storage unit 752 C1, C2, and C3 (C1> C2> C3) are used as the threshold values of the count number.

ここで、レスポンスタイム閾値格納部731に格納されるレスポンスタイムに用いる所定値である閾値N1,N2は、所定時間内に前記のとおり所定の値だけ送信された試験パケットに対するレスポンスタイムについて平均値をとる又は所定の統計的手法を用いることで求めるものである。同様に、リプライカウント数閾値格納部732に格納されるリプライパケットのカウント数に用いる所定値である閾値C1,C2,C3は、所定時間内に前記所定の値だけ送信された試験パケットに対するカウント数の平均値をとる又は所定の統計的手法を用いることで求めるものである。   Here, the thresholds N1 and N2 which are predetermined values used for the response time stored in the response time threshold storage unit 731 are average values for the response times for the test packets transmitted by the predetermined value within the predetermined time as described above. Or by using a predetermined statistical method. Similarly, threshold values C1, C2, and C3, which are predetermined values used for the count number of reply packets stored in the reply count number threshold storage unit 732, are the count numbers for the test packets transmitted by the predetermined value within a predetermined time. It is obtained by taking an average value of or using a predetermined statistical method.

まず、フローごとに図8に示す処理を行う。すなわち、グループ構成部721は、レスポンスタイム格納部751に格納されているレスポンスタイムの実測値が閾値N1より小さいか否かを判断する(S1)。レスポンスタイムの実測値が閾値N1より小さいときは(S1のYes)、グループ構成部721は、リプライカウント数格納部752に格納されているリプライパケットのカウント数が閾値C1以上か否かを判断する(S2)。リプライパケットのカウント数が閾値C1以上であるときは(S2のYes)、グループ構成部721は、リプライ格納部745に格納されているリプライパケットのリストが設定情報管理部71に格納されている設定情報と完全に一致するか否かを判断する(S3)。リプライパケットのリストと設定情報とが完全に一致するときは(S3のYes)、レスポンスが良く、リプライパケットは十分な数が返ってきて、試験パケットは該当するフロー中の物理設備、ソフトウェアを全て正常に経由しているので、グループ構成部721は、そのフローを正常グループに分類する(S4)。   First, the process shown in FIG. 8 is performed for each flow. That is, the group configuration unit 721 determines whether or not the actual response time value stored in the response time storage unit 751 is smaller than the threshold value N1 (S1). When the measured response time value is smaller than the threshold value N1 (Yes in S1), the group configuration unit 721 determines whether the count number of reply packets stored in the reply count number storage unit 752 is greater than or equal to the threshold value C1. (S2). When the count number of reply packets is equal to or greater than the threshold value C1 (Yes in S2), the group configuration unit 721 sets the list of reply packets stored in the reply storage unit 745 stored in the setting information management unit 71. It is determined whether or not the information completely matches (S3). When the list of reply packets and the setting information completely match (Yes in S3), the response is good, a sufficient number of reply packets are returned, and the test packets are all physical equipment and software in the corresponding flow. Since it is normally routed, the group configuration unit 721 classifies the flow into a normal group (S4).

一方、リプライパケットのカウント数が閾値C1を下回ったときは(S2のNo)、グループ構成部721は、S3と同様にリプライ格納部745に格納されているリプライパケットのリストが設定情報管理部71に格納されている設定情報と完全に一致するか否かを判断する(S5)。リプライパケットのリストと設定情報とが完全に一致するときは(S5のYes)、リプライパケットは十分な数が返ってきていないが、試験パケットは該当するフロー中の物理設備、ソフトウェアを全て正常に経由しているので、グループ構成部721は、そのフローを性能劣化グループに分類する(S6)。リプライパケットのリストと設定情報とで一致しないものがあるときは(S5のYes)、リプライパケットは十分な数が返ってきておらず、試験パケットは該当するフロー中の物理設備、ソフトウェアで正常に経由していないものであるので、グループ構成部721は、そのフローを故障グループに分類する(S7)。S3で、リプライパケットのリストと設定情報とで一致しないものがあるときも(S3のNo)、リプライパケットは十分な数が返ってきてはいるが、試験パケットは該当するフロー中の物理設備、ソフトウェアで正常に経由していないものであるので、グループ構成部721は、そのフローを故障グループに分類する(S7)。   On the other hand, when the count number of reply packets falls below the threshold value C1 (No in S2), the group configuration unit 721 displays the list of reply packets stored in the reply storage unit 745 as in the case of S3. It is determined whether or not it completely matches the setting information stored in (S5). When the list of reply packets and the setting information completely match (Yes in S5), a sufficient number of reply packets have not been returned, but the test packets are all normal for the physical equipment and software in the corresponding flow. Since it is routed, the group configuration unit 721 classifies the flow into a performance degradation group (S6). If there is a mismatch between the reply packet list and the setting information (Yes in S5), a sufficient number of reply packets have not been returned, and the test packet has been successfully processed by the physical equipment and software in the corresponding flow. Since it is not via, the group configuration unit 721 classifies the flow into a failure group (S7). Even if there is a mismatch between the reply packet list and the setting information in S3 (No in S3), a sufficient number of reply packets are returned, but the test packet is a physical facility in the corresponding flow, Since it is not normally routed by software, the group configuration unit 721 classifies the flow into a failure group (S7).

レスポンスタイムの実測値が閾値N1以上であるときは(S1のNo)、グループ構成部721は、レスポンスタイムの実測値が閾値N1以上で、かつ、閾値N2未満であるか否かを判断する(S8)。レスポンスタイムの実測値が閾値N1以上で、かつ、閾値N2未満であるときは(S8のYes)、グループ構成部721は、リプライカウント数格納部752に格納されているリプライパケットのカウント数が閾値C2以上か否かを判断する(S9)。リプライパケットのカウント数が閾値C2以上であるときは(S9のYes)、グループ構成部721は、リプライ格納部745に格納されているリプライパケットのリストが設定情報管理部71に格納されている設定情報(記憶部50の情報)と完全に一致するか否かを判断する(S10)。リプライパケットのリストと設定情報とが完全に一致するときは(S10のYes)、レスポンスがそれほど良くはないリプライパケットが複数返ってきており、かつ、試験パケットは該当するフロー中の物理設備、ソフトウェアを全て正常に経由しているので、グループ構成部721は、そのフローを性能劣化グループに分類する(S6)。リプライパケットのリストと設定情報とで一致しないものがあるときは(S10のNo)、レスポンスがそれほど良くはないリプライパケットが複数返ってきており、かつ、試験パケットは該当するフロー中の物理設備、ソフトウェアで正常に経由していないものがあるので、グループ構成部721は、そのフローを故障グループに分類する(S7)。リプライパケットのカウント数が閾値C2未満であるときは(S9のNo)、グループ構成部721は、前記のS3の判断により、正常グループと性能劣化グループとにグループ分けする。   When the measured response time value is equal to or greater than the threshold value N1 (No in S1), the group configuration unit 721 determines whether the measured response time value is equal to or greater than the threshold value N1 and less than the threshold value N2 ( S8). When the measured response time is greater than or equal to the threshold value N1 and less than the threshold value N2 (Yes in S8), the group configuration unit 721 indicates that the count number of reply packets stored in the reply count number storage unit 752 is the threshold value. It is determined whether or not C2 or more (S9). When the count number of reply packets is equal to or greater than the threshold C2 (Yes in S9), the group configuration unit 721 sets the list of reply packets stored in the reply storage unit 745 stored in the setting information management unit 71. It is determined whether or not the information (information in the storage unit 50) completely matches (S10). When the list of reply packets and the setting information completely match (Yes in S10), a plurality of reply packets whose responses are not so good are returned, and the test packet is a physical facility or software in the corresponding flow. Since all are normally routed, the group composition unit 721 classifies the flow into a performance degradation group (S6). If there is a mismatch between the reply packet list and the setting information (No in S10), a plurality of reply packets with poor responses are returned, and the test packet is a physical facility in the corresponding flow, Since there is a software that is not normally routed, the group configuration unit 721 classifies the flow into a failure group (S7). When the count number of reply packets is less than the threshold value C2 (No in S9), the group configuration unit 721 groups into normal groups and performance degradation groups based on the determination in S3.

レスポンスタイムの実測値が閾値N1以上で、かつ、閾値N2未満ではないときは(S8のNo)、グループ構成部721は、レスポンスタイムの実測値が閾値N2以上であるか否かを判断する(S11)。レスポンスタイムの実測値が閾値N2以上であるときは(S11のYes)、リプライパケットのカウント数が閾値C3以上か否かを判断する(S12)。リプライパケットのカウント数が閾値C3以上のときは(S12のYes)、レスポンスが悪いリプライパケットが所定数以上返ってきているので、グループ構成部721は、当該フローを故障グループに分類する(S7)。リプライパケットのカウント数が閾値C3未満のときは(S12のYes)、グループ構成部721は、前記のS10の判断により、性能劣化グループと故障グループとに分類する。
以上のグループ分けの結果は、グループ格納部722に格納される。
When the measured response time value is not less than the threshold value N1 and not less than the threshold value N2 (No in S8), the group configuration unit 721 determines whether or not the measured response time value is not less than the threshold value N2 ( S11). When the measured value of the response time is equal to or greater than the threshold value N2 (Yes in S11), it is determined whether the count number of reply packets is equal to or greater than the threshold value C3 (S12). When the count number of reply packets is equal to or greater than the threshold C3 (Yes in S12), since the reply packets with poor responses have returned a predetermined number or more, the group configuration unit 721 classifies the flow into a failure group (S7). . When the count number of reply packets is less than the threshold value C3 (Yes in S12), the group configuration unit 721 classifies into a performance degradation group and a failure group based on the determination in S10.
The above grouping results are stored in the group storage unit 722.

図9は、図8のグループ分けにおける判断を示す状態遷移図である。正常グループ、性能劣化グループ、故障グループにグループ分けする各判断の項目81〜89において、(1)は前記のレスポンスタイムの判断、(2)は前記のリプライパケットのカウント数の判断、(3)は前記した設定情報とリストの一致性をそれぞれ示している。   FIG. 9 is a state transition diagram showing the determination in the grouping of FIG. In the items 81 to 89 for determining each group into a normal group, a performance degradation group, and a failure group, (1) is a determination of the response time, (2) is a determination of the count number of the reply packet, (3) Indicates the consistency between the setting information and the list.

(サービス影響の原因推定)
構成要素抽出部63は、第1原因特定部631と、第2原因特定部632とを備えている。構成要素抽出部63は、フローモデル同士を比較して当該比較結果から通信ネットワーク10上でのサービス影響の原因となる物理設備又は前記ソフトウェアを推定する。構成要素抽出部63の第1原因特定部631と、第2原因特定部632とは、それぞれ異なる手法で当該推定を行う。
まず、第1原因特定部631は、前記のように分類された性能劣化グループ内又は故障グループ内で各フローについて、フローモデル同士を比較し、共通する要素となる物理設備又はソフトウェアを抽出し、当該抽出した物理設備又はソフトウェアをサービス影響の原因として推定する。
図10(a)の例では、性能劣化グループ内又は故障グループ内で、フローIDがP11とP12のフローモデル同士を比較し、共通する要素となる物理設備IDがps95のスイッチ12を抽出している。
(Estimated cause of service impact)
The component extraction unit 63 includes a first cause specifying unit 631 and a second cause specifying unit 632. The component extraction unit 63 compares the flow models with each other and estimates a physical facility or the software that causes a service influence on the communication network 10 from the comparison result. The first cause identifying unit 631 and the second cause identifying unit 632 of the component extraction unit 63 perform the estimation using different methods.
First, the first cause identifying unit 631 compares the flow models for each flow within the performance degradation group or the failure group classified as described above, and extracts physical equipment or software that is a common element, The extracted physical equipment or software is estimated as a cause of service influence.
In the example of FIG. 10A, the flow models with the flow IDs P11 and P12 are compared within the performance degradation group or the failure group, and the switch 12 with the physical equipment ID ps95 as a common element is extracted. Yes.

第2原因特定部632は、前記のように分類された性能劣化グループ又は故障グループと、正常グループとの間で各フローのフローモデル同士を比較して、共通する物理設備又はソフトウェアはサービス影響の原因の候補から除外し、残った物理設備又はソフトウェアを抽出して、当該抽出した物理設備又はソフトウェアをサービス影響の原因として推定する。   The second cause identifying unit 632 compares the flow models of each flow between the performance degradation group or the failure group classified as described above and the normal group, and the common physical equipment or software has a service impact. The physical equipment or software remaining is excluded from the cause candidates, and the extracted physical equipment or software is estimated as a cause of service influence.

図10(b)の例では、性能劣化グループ又は故障グループのフローIDがP21のフローモデルと、正常グループのフローIDがP22のフローモデルとを比較し、共通の要素である、ソフトウェアIDが“bk2”のアプリケーションソフト22、物理設備IDが“ps95”のスイッチ12を共通するものとして除外し、残った要素である物理設備又はソフトウェアを抽出している。
このようにして、第1原因特定部631又は第2原因特定部632により抽出された構成要素は抽出要素格納部64に格納される。
In the example of FIG. 10B, the flow model whose performance ID is P21 of the performance degradation group or failure group is compared with the flow model whose flow ID is P22 of the normal group, and the software ID which is a common element is “ The application software 22 of “bk2” and the switch 12 whose physical equipment ID is “ps95” are excluded as common, and the physical equipment or software which is the remaining element is extracted.
In this way, the constituent elements extracted by the first cause identifying unit 631 or the second cause identifying unit 632 are stored in the extracted element storage unit 64.

図11は、構成要素抽出部63の第1原因特定部631を用いるか、第2原因特定部632を用いるかを選択するためのフローチャートである。
すなわち、構成要素抽出方法決定部62が図11の処理により、第1原因特定部631を用いるか、第1原因特定部631及び第2原因特定部632の両方を用いるかを選択する。この場合に後述の故障フロー数に関する閾値D1が故障フロー数閾値格納部733に格納されていて、同様に後述の性能劣化フロー数に関する閾値D2が性能劣化フロー数閾値格納部734に格納されていて、本処理では当該各閾値を用いる。
FIG. 11 is a flowchart for selecting whether to use the first cause specifying unit 631 or the second cause specifying unit 632 of the component extraction unit 63.
That is, the component extraction method determination unit 62 selects whether to use the first cause specifying unit 631 or both the first cause specifying unit 631 and the second cause specifying unit 632 by the processing of FIG. In this case, a threshold value D1 related to the failure flow number described later is stored in the failure flow number threshold storage unit 733, and similarly, a threshold value D2 related to the performance deterioration flow number described later is stored in the performance deterioration flow number threshold storage unit 734. In the present process, each threshold value is used.

構成要素抽出方法決定部62は、各フローについて図11の処理を実行する。まず、当該フローが性能劣化グループに分類されているときは(S21のYes)、構成要素抽出方法決定部62は、性能劣化グループに分類されたフローの数である性能劣化フロー数を、その閾値である閾値D1以上であるか否か判断する(S22)。性能劣化フロー数が閾値D1以上であるときは(S22のYes)、構成要素抽出方法決定部62は、第1原因特定部631を使用する(S23)。性能劣化フロー数が閾値D1未満であるときは(S22のNo)、構成要素抽出方法決定部62は、第1原因特定部631を使用した後(S24)、第2原因特定部632を使用する(S25)。   The component extraction method determination unit 62 executes the process of FIG. 11 for each flow. First, when the flow is classified into the performance degradation group (Yes in S21), the component element extraction method determination unit 62 sets the number of performance degradation flows, which is the number of flows classified into the performance degradation group, as a threshold value. It is determined whether or not the threshold value D1 is not less than (S22). When the number of performance degradation flows is equal to or greater than the threshold value D1 (Yes in S22), the component element extraction method determination unit 62 uses the first cause identification unit 631 (S23). When the number of performance degradation flows is less than the threshold value D1 (No in S22), the component extraction method determination unit 62 uses the second cause specifying unit 632 after using the first cause specifying unit 631 (S24). (S25).

一方、該当するフローが故障グループに分類されているときは(S26のYes)、構成要素抽出方法決定部62は、故障グループに分類されたフローの数である故障フロー数を、その閾値である閾値D2以上であるか否か判断する(S27)。故障フロー数が閾値D2以上であるときは(S27のYes)、構成要素抽出方法決定部62は、第1原因特定部631を使用する(S23)。故障フロー数が閾値D2未満であるときは(S27のNo)、構成要素抽出方法決定部62は、第1原因特定部631を使用した後(S24)、第2原因特定部632を使用する(S25)。
以上のように、第1原因特定部631又は第2原因特定部632が使用されて、前記のとおり構成要素となる物理設備又はソフトウェアが抽出されると、その抽出した構成要素をサービス影響の原因の可能性がある特定箇所すなわち故障被疑箇所と推定する(S28)。
On the other hand, when the corresponding flow is classified into the failure group (Yes in S26), the component extraction method determination unit 62 uses the failure flow number that is the number of flows classified into the failure group as the threshold value. It is determined whether or not the threshold value D2 is exceeded (S27). When the number of failure flows is equal to or greater than the threshold value D2 (Yes in S27), the component extraction method determining unit 62 uses the first cause identifying unit 631 (S23). When the number of failure flows is less than the threshold D2 (No in S27), the component extraction method determination unit 62 uses the first cause specifying unit 631 (S24) and then uses the second cause specifying unit 632 ( S25).
As described above, when the first cause specifying unit 631 or the second cause specifying unit 632 is used and the physical equipment or software that is the constituent element is extracted as described above, the extracted constituent element is the cause of the service influence. It is estimated that there is a specific location, that is, a suspected failure location (S28).

(サービス影響の原因推定の変形例)
図12〜図14を参照して前記したサービス影響の原因推定の処理の変形例について説明する。
(Modification of service cause estimation)
A modified example of the service influence cause estimation process described above will be described with reference to FIGS.

図12は、当該変形例を説明する説明図である。図12(a)には、正常グループと故障グループ(性能劣化グループ)のフローモデルの例を示している。本例では、まず、構成要素抽出部63が、前記の性能劣化グループ内又は前記の故障グループ内で、各フローのフローモデル同士を比較し、共通する物理設備又はソフトウェアの数をそれぞれカウントする。図12(b)には、そのカウント結果の例を示している。例えば、ソフトウェアIDが“a1”のアプリケーションソフト22についてはカウント数が“21”、物理設備IDが“vs3”のスイッチ12についてはカウント数が“17”であるという例を示している。   FIG. 12 is an explanatory diagram for explaining the modification. FIG. 12A shows an example of a flow model of a normal group and a failure group (performance degradation group). In this example, first, the component extraction unit 63 compares the flow models of each flow within the performance degradation group or the failure group, and counts the number of common physical facilities or software, respectively. FIG. 12B shows an example of the count result. For example, the count number is “21” for the application software 22 with the software ID “a1”, and the count number is “17” for the switch 12 with the physical facility ID “vs3”.

その後、構成要素抽出部63は、このような比較をした性能劣化グループ又は故障グループと、正常グループとの間で各フローのフローモデル同士を比較し、共通する物理設備又はソフトウェアについては、図12(c)に例示するようにカウントの数を0とする。図12(c)の例では、ソフトウェアIDが“a1”のアプリケーションソフト22については、性能劣化グループ又は故障グループと、正常グループとの間で共通していたのでカウント数が“21”から“0”に変更され、物理設備IDが“vs3”のスイッチ12については、性能劣化グループ又は故障グループと、正常グループとの間で共通していなかったので、カウント数が“17”のままであるという例を示している(いずれも「合計」)。   After that, the component extraction unit 63 compares the flow models of each flow between the performance deterioration group or failure group thus compared and the normal group, and for common physical equipment or software, FIG. As exemplified in (c), the number of counts is set to zero. In the example of FIG. 12C, since the application software 22 having the software ID “a1” is common between the performance deterioration group or the failure group and the normal group, the count number is changed from “21” to “0”. The switch 12 whose physical equipment ID is “vs3” is not common between the performance degradation group or the failure group and the normal group, and therefore the count number remains “17”. Examples are shown (both are “total”).

そして、構成要素抽出部63は、最終的に前記のカウントの数が最大である物理設備又はソフトウェアを抽出し、当該抽出した物理設備又はソフトウェアをサービス影響の原因の可能性がある故障被疑箇所として推定する。図12(c)の例では、カウントの数が最大である物理設備又はソフトウェアは、物理設備IDが“s3”のスイッチ12のカウント数“45”であり、これが「最終結果」となる。そのため、構成要素抽出部63は、物理設備IDが“s3”のスイッチ12が、サービス影響の原因の可能性がある故障被疑箇所として推定する。
このような処理において、最終的に前記のカウントの数が最大である物理設備又はソフトウェアを抽出し、その抽出した物理設備又はソフトウェアが複数個になる場合もある。
Then, the component extraction unit 63 finally extracts the physical facility or software having the maximum number of counts, and sets the extracted physical facility or software as a suspected failure location that may cause a service effect. presume. In the example of FIG. 12C, the physical facility or software having the largest count is the count number “45” of the switch 12 whose physical facility ID is “s3”, which is the “final result”. Therefore, the component extraction unit 63 estimates that the switch 12 with the physical facility ID “s3” is a suspicious location that may cause a service effect.
In such a process, the physical equipment or software having the maximum number of counts may be finally extracted, and the extracted physical equipment or software may be plural.

この場合に、抽出した複数個の物理設備又はソフトウェアについて説明する。まず、図1を参照して前記したように、通信ネットワーク10上の各部にID(物理設備ID、サーバID、ソフトウェアID)が付されている。
これに対して、物理設備ID及びソフトウェアIDとして、当該IDが示す物理設備又はソフトウェアと、当該物理設備又はソフトウェアと親子関係又は接続関係にある他の物理設備、ソフトウェア、又はサーバとの相関関係を示すものを用いるようにする。
In this case, the extracted plurality of physical facilities or software will be described. First, as described above with reference to FIG. 1, IDs (physical facility ID, server ID, and software ID) are assigned to each unit on the communication network 10.
On the other hand, as the physical equipment ID and software ID, the correlation between the physical equipment or software indicated by the ID and the other physical equipment, software, or server that is in a parent-child relationship or connection relationship with the physical equipment or software. Use what is shown.

図13は、図1の例において、物理設備ID、ソフトウェアIDとして、このような相関関係のあるIDを用いた例を示す図である。例えば、物理設備IDが“l1:sv01:s1”であるリンク13において、物理設備IDの“l1”の部分は当該リンク13自体を示しており、これに続く“sv01”の部分は当該スイッチ12と接続関係にあるサーバ11のIDを示し、同様に、“s1”の部分は当該スイッチ12と接続関係にあるスイッチ12のIDを示している。
このような物理設備ID及びソフトウェアIDを用いることで、当該IDから当該IDと親子関係又は接続関係にある他の物理設備、ソフトウェア、又はサーバを認識することができる。
FIG. 13 is a diagram illustrating an example in which such a correlated ID is used as the physical facility ID and the software ID in the example of FIG. For example, in the link 13 whose physical equipment ID is “l1: sv01: s1”, the part “l1” of the physical equipment ID indicates the link 13 itself, and the part “sv01” subsequent thereto is the switch 12. Similarly, the “s1” portion indicates the ID of the switch 12 that is connected to the switch 12.
By using such physical facility ID and software ID, it is possible to recognize other physical facilities, software, or servers that are in a parent-child relationship or connection relationship with the ID from the ID.

図14は、図13のIDを用いて実行する処理の説明図である。この例では、図12の処理で求めた今回の結果が、物理設備ID又はソフトウェアID(の図1の例に相当する部分だけを図14に示している)が、それぞれ“b2”、“vs2”、“l2”の場合の物理設備又はソフトウェアのカウントの数がいずれも“25”である。すなわち、前記のサービス影響の原因である物理設備又はソフトウェアが複数推定された場合である。この場合に、構成要素抽出部63は、今回の当該複数の物理設備又はソフトウェア同士、又は、前回行われた処理で推定された物理設備又はソフトウェアと今回行われた処理で推定された物理設備又はソフトウェアとについて前記の親子関係又は接続関係がある場合に、今回行われて複数推定された物理設備又はソフトウェアのカウントの数に優先度をつける。   FIG. 14 is an explanatory diagram of processing executed using the ID of FIG. In this example, the current result obtained by the processing of FIG. 12 is that the physical equipment ID or software ID (only the part corresponding to the example of FIG. 1 is shown in FIG. 14) is “b2”, “vs2”, respectively. “25” is the number of physical equipment or software counts in the case of “12”. That is, this is a case where a plurality of physical facilities or software that cause the service influence are estimated. In this case, the constituent element extraction unit 63 may connect the plurality of physical facilities or software this time, or the physical facility or software estimated in the process performed last time and the physical facility or software estimated in the process performed this time. When there is the above-described parent-child relationship or connection relationship with software, a priority is given to the number of physical facilities or software counts that have been estimated this time.

図14の例では、ソフトウェアIDが“b2(図13では、“b2:vs2”)”のアプリケーションソフト22と、ソフトウェアIDが“vs2(図13では、“vs2:b1:b2”)”の仮想スイッチ21との間には親子関係(前者が子、後者が親)があるため、親であるソフトウェアIDが“vs2(図13では、“vs2:b1:b2”)”の仮想スイッチ21の優先度を+1だけ上げる。また、物理設備IDが“l2(図13では、“l2:sv02:s1”)”のリンク13の前回の結果と、ソフトウェアIDが“vs2(図13では、“vs2:b1:b2”)”の仮想スイッチ21の今回の結果との間には直接的な接続関係があるため、物理設備IDが“l2(図13では、“l2:sv02:s1”)”のリンク13の影響が波及したと推定し、ソフトウェアIDが“vs2(図13では、“vs2:b1:b2”)”の仮想スイッチ21の今回の結果の優先度を−0.5下げる。
物理設備IDが“s3(図13では、“s3:l4:l5”)”のスイッチ12の前回の結果と、今回の結果との間には、親子関係又は接続関係がないため、当該スイッチ12が単独で故障していると推定し、+1だけ優先度を上げる。
In the example of FIG. 14, the application software 22 whose software ID is “b2 (“ b2: vs2 ”in FIG. 13)” and the virtual whose software ID is “vs2 (“ vs2: b1: b2 ”in FIG. 13)”. Since there is a parent-child relationship with the switch 21 (the former is a child and the latter is a parent), the priority of the virtual switch 21 whose parent software ID is “vs2 (“ vs2: b1: b2 ”in FIG. 13)” Increase the degree by +1. Further, the previous result of the link 13 whose physical equipment ID is “l2 (in FIG. 13,“ l2: sv02: s1 ”) and the software ID is“ vs2 (in FIG. 13, “vs2: b1: b2”) ”. Since there is a direct connection relationship with the current result of the virtual switch 21, the influence of the link 13 whose physical facility ID is “l2 (“ l2: sv02: s1 ”in FIG. 13)” has spread. And the priority of the current result of the virtual switch 21 whose software ID is “vs2 (in FIG. 13,“ vs2: b1: b2 ”)” is lowered by −0.5.
Since there is no parent-child relationship or connection relationship between the previous result of the switch 12 whose physical facility ID is “s3 (“ s3: l4: l5 ”in FIG. 13)” and the current result, the switch 12 Estimate that is alone and raise the priority by +1.

これらの結果、ソフトウェアIDが“b2(図13では、“b2:vs2”)”のアプリケーションソフト22の最終結果は“25”、ソフトウェアIDが“vs2(図13では、“vs2:b1:b2”)”の仮想スイッチ21の最終結果は“25.5”、物理設備IDが“s3(図13では、“s3:l4:l5”)”のスイッチ12の最終結果は“26”となる。   As a result, the final result of the application software 22 whose software ID is “b2 (in FIG. 13,“ b2: vs2 ”) is“ 25 ”, and the software ID is“ vs2 ”(in FIG. 13,“ vs2: b1: b2 ”). The final result of the virtual switch 21 of “)” is “25.5”, and the final result of the switch 12 whose physical equipment ID is “s3 (“ s3: l4: l5 ”in FIG. 13)” is “26”.

以上の処理により、物理設備及びソフトウェアの探索順序は、最終結果の値が大きい物理設備IDが“s3(図13では、“s3:l4:l5)”のスイッチ12、ソフトウェアIDが“vs2(図13では、“vs2:b1:b2)”の仮想スイッチ21、ソフトウェアIDが“b2(図13では、“b2:vs2”)”のアプリケーションソフト22の順番となる。   With the above processing, the physical equipment and software search order is such that the physical equipment ID having the large final result value is “s3 (in FIG. 13,“ s3: l4: l5 ”)” and the software ID is “vs2 (FIG. 13, the virtual switch 21 is “vs2: b1: b2)” and the application software 22 is “b2” (“b2: vs2” in FIG. 13).

以上説明した本実施形態によれば、ソフトウェアの故障や劣化も検出でき、作業が簡易で、装置規模が比較的小規模であり、サービス品質の劣化が生じている原因箇所の推定もできるサービス影響原因推定装置1、サービス影響原因推定プログラム45、及びサービス影響原因推定方法を提供することができる。   According to the present embodiment described above, it is possible to detect software failures and deterioration, the work is simple, the apparatus scale is relatively small, and the cause of the service quality deterioration can be estimated. The cause estimation apparatus 1, the service influence cause estimation program 45, and the service influence cause estimation method can be provided.

<故障被疑度の設定>
続いて、サービス影響原因推定装置1による故障被疑度の設定について説明する。以下の例では、異常フローが初めて検出される回までは、構成要素抽出部63の第1原因特定部631のみが異常フローの故障被疑箇所を推定し、それ以降の回では、構成要素抽出部63の第1原因特定部631及び第2原因特定部632の両方が異常フローの故障被疑箇所を推定する。
<Setting the suspected failure>
Next, the setting of the failure suspect level by the service influence cause estimation device 1 will be described. In the following example, until the first time when the abnormal flow is detected, only the first cause identifying unit 631 of the component extraction unit 63 estimates the suspected fault location of the abnormal flow, and in subsequent times, the component extraction unit Both of the first cause specifying unit 631 and the second cause specifying unit 632 of 63 estimate the failure suspected part of the abnormal flow.

サービス影響原因推定装置1は、前回(N−1回目(Nは2以上の整数))の試験パケットに関して異常に分類された異常フローと、今回(N回目)の試験パケットに関して新たに異常に分類された異常フローと、を用いて、故障被疑箇所と推定されたサービス構成要素の故障被疑度を設定する。
故障被疑度は、当該故障被疑度が高いほど、対応するサービス構成要素がサービス影響の原因である可能性が高いことを示すものである。
サービス影響原因推定装置1は、故障被疑度が高い故障被疑箇所を優先して検索することによって、サービス影響の原因をより迅速に特定することができるようになる。
The service influence cause estimating apparatus 1 classifies abnormal flows that are abnormally classified with respect to the previous (N-1th (N is an integer of 2 or more)) test packet and new abnormalities with respect to the current (Nth) test packet. The failure suspected degree of the service component estimated as the suspected failure location is set using the abnormal flow.
The failure suspicion level indicates that the higher the failure suspicion level is, the higher the possibility that the corresponding service component is the cause of the service influence.
The service influence cause estimation device 1 can identify the cause of service influence more quickly by preferentially searching for a suspected failure location with a high suspected failure rate.

図3に示すように、サービス影響原因推定装置1の試験パケット管理部74は、試験パケット回数格納部746をさらに備える。
試験パケット回数格納部746は、複数のフローに対して送信された試験パケットが何回目のものであるかを示す試験パケット回数を格納する。かかる試験パケット回数は、リプライ格納部745に格納されたリプライパケットとともに他の機能部へ提供され、正常又は異常と分類されたフローが何回目の試験パケットによる分類であるのかが認識可能となっている。
As shown in FIG. 3, the test packet management unit 74 of the service influence cause estimation device 1 further includes a test packet number storage unit 746.
The test packet number storage unit 746 stores the number of test packets indicating the number of test packets transmitted for a plurality of flows. The number of test packets is provided to other functional units together with the reply packet stored in the reply storage unit 745, so that it is possible to recognize the number of test packets classified as normal or abnormal. Yes.

また、処理部60は、故障被疑度を設定するための機能部として、最前方位置抽出部65と、最前方位置格納部66と、最前方位置比較部67と、故障被疑度管理部68と、をさらに備える。   Further, the processing unit 60 is a functional unit for setting the failure suspect degree, and includes a forefront position extraction unit 65, a forefront position storage unit 66, a forefront position comparison unit 67, and a failure suspect degree management unit 68. Are further provided.

最前方位置抽出部65は、モデル生成部61によって生成されたフローモデルと、抽出要素格納部64に格納された抽出要素と、を取得し、取得されたフローモデル及び抽出要素に基づいて、同一の試験パケット回数における故障被疑箇所の最前方位置を抽出する。   The forefront position extraction unit 65 acquires the flow model generated by the model generation unit 61 and the extraction element stored in the extraction element storage unit 64, and is the same based on the acquired flow model and extraction element. The forefront position of the suspected failure location in the number of test packets is extracted.

より詳細には、最前方位置抽出部65は、ある試験パケット回数の試験パケットに関して異常に分類された異常フローにおいて、二以上の故障被疑箇所がある場合に、故障被疑箇所と推定されたサービス構成要素ごとに、最前方位置を抽出する。
また、最前方位置抽出部65は、その後に新たに異常フローが発生し、かつ、新たな異常フローに以前の異常フローの故障被疑箇所が二以上含まれる場合に、新たな異常フローにおける故障被疑箇所の最前方位置を抽出する。
More specifically, the forefront position extraction unit 65 determines a service configuration estimated as a suspected failure location when there are two or more suspected failure locations in an abnormal flow classified abnormally with respect to a test packet having a certain number of test packets. The frontmost position is extracted for each element.
In addition, the forefront position extraction unit 65, when a new abnormal flow occurs after that, and when the new abnormal flow includes two or more suspected fault locations of the previous abnormal flow, Extract the forefront position of the location.

最前方位置格納部66は、最前方位置抽出部65によって抽出された故障被疑箇所の最前方位置を格納する。   The forefront position storage unit 66 stores the forefront position of the suspected failure location extracted by the forefront position extraction unit 65.

最前方位置比較部67は、最前方位置格納部66に格納された前回の試験パケット及び今回の試験パケットの最前方位置を読み出し、前回の試験パケットにおける異常フローにおける故障被疑箇所の最前方位置である前回最前方位置と、今回の試験パケットにおける新たな異常フローにおける故障被疑箇所の最前方位置である今回最前方位置と、を故障被疑箇所ごとに比較し、比較結果を故障被疑度管理部68へ出力する。   The forefront position comparison unit 67 reads the previous test packet and the forefront position of the current test packet stored in the forefront position storage unit 66, and at the forefront position of the suspected failure point in the abnormal flow in the previous test packet. The previous forefront position is compared with the current forefront position of the suspected failure location in the new abnormal flow in the current test packet for each suspected failure location, and the comparison result is compared with the suspected failure degree management unit 68. Output to.

故障被疑度管理部68は、最前方位置比較部67の比較結果に基づいて、前回の試験パケットにおける二以上の故障被疑箇所に関して、故障被疑度を設定する。
より詳細には、故障被疑度管理部68は、今回最前方位置が前回最前方位置よりも前方となる故障被疑箇所の故障被疑度を、今回最前方位置が前回最前方位置と同じ位置又は今回最前方位置が前回最前方位置よりも後方となる故障被疑箇所の故障被疑度よりも高く設定する。
また、故障被疑度管理部68は、今回のパケットに関して、新たに異常フローと判定されたフローにおいて、前回の試験パケットにおいて故障被疑箇所と推定されたサービス構成要素が一つのみ含まれる場合には、当該故障被疑箇所の故障被疑度を、前回の試験パケットにおいて故障被疑箇所と推定されて新たに異常フローと判定されたフローには含まれない故障被疑箇所の故障被疑度よりも高く設定する。
Based on the comparison result of the forefront position comparison unit 67, the failure suspicion degree management unit 68 sets the failure suspicion level for two or more suspected failure locations in the previous test packet.
More specifically, the failure suspect degree management unit 68 indicates the failure suspect degree of the suspected failure place where the current forward position is ahead of the previous forward position, or the current forward position is the same as the previous forward position or the current position. The forefront position is set higher than the suspected failure level of the suspected failure point that is behind the previous forefront position.
In addition, the failure suspected degree management unit 68, in the flow newly determined as an abnormal flow for the current packet, includes only one service component that is estimated as the suspected failure location in the previous test packet. The failure suspect level of the suspected failure location is set to be higher than the suspected failure rate of the suspected failure location that is not included in the flow that is estimated as the suspected failure location in the previous test packet and is newly determined as an abnormal flow.

<故障被疑度の設定例その1:新たな異常フローに二以上の故障被疑度が含まれる場合>
続いて、故障被疑度の設定例について、各フローは、5個のサービス構成要素(図中の○印)を同一長さのリンクで接続したものであり、同一回における試験パケットの送信時刻は全フローに対して同一である場合を例にとって説明する。
<Setting example of failure suspect level 1: Case where two or more failure suspect levels are included in a new abnormal flow>
Subsequently, regarding the example of setting the failure suspect level, each flow is obtained by connecting five service components (circles in the figure) with links of the same length, and the transmission time of the test packet at the same time is A case where the same is applied to all flows will be described as an example.

図15(a)に示すように、前回(N−1回目(Nは2以上の整数))の試験パケットにおいて、グループ構成部721は、フローP01,P02が異常フローであると判定している。また、構成要素抽出部63は、フローP01,P02に共通して含まれるサービス構成要素A,Bを故障被疑箇所として抽出している。なお、図15(a)では、説明を分かりやすくするため、N−1回目では異常フローであると判定されず、N回目に新たに異常フローであると判定されるフローP17も図示されている(後記する図16(a)、図18(a)、図19(a)についても同様)。フローP01,P02及び後記するフローP17において、サービス構成要素A,B以外のサービス構成要素は、それぞれ異なるものとなっている。   As shown in FIG. 15A, in the previous (N-1th (N is an integer of 2 or more)) test packet, the group configuration unit 721 determines that the flows P01 and P02 are abnormal flows. . In addition, the component extraction unit 63 extracts service components A and B included in common in the flows P01 and P02 as suspected failure locations. FIG. 15A also shows a flow P17 that is determined not to be an abnormal flow at the (N-1) th time and is newly determined to be an abnormal flow at the Nth time, for the sake of easy understanding. (The same applies to FIGS. 16A, 18A, and 19A described later). In the flows P01 and P02 and the flow P17 described later, service components other than the service components A and B are different from each other.

フローP01は、故障被疑箇所であるサービス構成要素Bを3番目、故障被疑箇所であるサービス構成要素Aを4番目に備えている。
また、フローP02は、故障被疑箇所であるサービス構成要素Bを3番目、故障被疑箇所であるサービス構成要素Aを5番目に備えている。
したがって、最前方位置抽出部65は、前回の試験パケットにおいて、故障被疑箇所Aの最前方位置AN−1としてフローP01における故障被疑箇所Aの位置を抽出し、故障被疑箇所Bの最前方位置BN−1として、フローP01,P02における故障被疑箇所Bの位置を抽出する。
The flow P01 includes a service component B that is a suspected failure location third and a service component A that is a suspected failure location fourth.
Further, the flow P02 includes a service component B that is a suspected failure location third and a service component A that is a suspected failure location fifth.
Therefore, the forefront position extraction unit 65 extracts the position of the suspected fault location A in the flow P01 as the forefront position AN -1 of the suspected fault location A in the previous test packet, and the forefront position of the suspected fault location B As B N−1 , the position of the suspected failure point B in the flows P01 and P02 is extracted.

続いて、図15(b)に示すように、今回(N回目)の試験パケットにおいて、グループ構成部721は、フローP01,P02に加え、新たにフローP17が異常フローであると判定する。   Subsequently, as illustrated in FIG. 15B, in the current (Nth) test packet, the group configuration unit 721 newly determines that the flow P17 is an abnormal flow in addition to the flows P01 and P02.

フローP17は、故障被疑箇所であるサービス構成要素Aを2番目、故障被疑箇所であるサービス構成要素Bを4番目に備えている。
したがって、最前方位置抽出部65は、今回の試験パケットにおいて、新たな異常フローにおける故障被疑箇所Aの最前方位置Aとして、フローP17における故障被疑箇所Aの位置を抽出し、故障被疑箇所Bの最前方位置Bとして、フローP17における故障被疑箇所Bの位置を抽出する。
The flow P17 includes the service component A that is a suspected failure location second and the service component B that is a suspected failure location fourth.
Thus, the forwardmost position detection portion 65, in this test packet, as the most forward position A N of the failure problem area A in the new abnormal flow, and extracts the position of the fault suspect location A in the flow P17, fault suspect location B as the most forward position B N of extracting the position of the fault suspected place B in the flow P17.

最前方位置比較部67は、故障被疑箇所A,Bのそれぞれに関して、前回と今回の最前方位置を比較し、比較結果を故障被疑度管理部68へ出力する。前回と今回の最前方位置を比較する際には、前回の試験パケットの最初の送信タイミングと今回の試験パケットの最初の送信タイミングとが同位置となるように位置合わせが行われる。   The forefront position comparison unit 67 compares the previous and current forefront positions for each of the suspected failure points A and B, and outputs the comparison result to the suspected failure degree management unit 68. When comparing the forefront position of the previous time and the current time, alignment is performed so that the first transmission timing of the previous test packet and the first transmission timing of the current test packet are the same position.

故障被疑度管理部68は、かかる比較結果に基づいて、故障被疑箇所A,Bに対して故障被疑度を設定する。   The failure suspected degree management unit 68 sets a failure suspected degree for the suspected failure points A and B based on the comparison result.

この例では、故障被疑箇所Aの今回最前方位置Aが前回最前方位置AN−1よりも前方に位置しており、故障被疑箇所Bの今回最前方位置Bが前回最前方位置BN−1よりも後方に位置しているので、故障被疑箇所Aの故障被疑度を故障被疑箇所Bの故障被疑度よりも高く設定する。 In this example, the current foremost position A N of the suspected failure point A is positioned ahead of the previous forefront position A N−1 , and the current foremost position B N of the suspected failure point B is the previous forefront position B. Since it is located behind N-1, the failure suspected degree of the failure suspected place A is set higher than the suspected failure degree of the suspected failure place B.

これは、2番目にサービス構成要素Aが設けられたフローP17が前回の試験パケットでは異常フローに分類されていないことから、試験パケットが2番目のサービス構成要素を通過して4番目のサービス構成要素に到達するまでの間にサービス構成要素Aに故障が発生した可能性が高いと考えられるためである。   This is because the flow P17 in which the second service component A is provided is not classified as an abnormal flow in the previous test packet, so the test packet passes through the second service component and becomes the fourth service configuration. This is because there is a high possibility that a failure has occurred in the service component A before reaching the element.

<故障被疑度の設定例その2:新たな異常フローに故障被疑箇所が一種類のみ含まれる場合>
図16(a)(b)に示すように、N回目の試験パケットで新たに異常フローであると判定されたフローP17が、故障被疑箇所Aのみを備えており故障被疑箇所Bを備えていない場合には、最前方位置の比較が行われることなく、故障被疑度管理部68は、故障被疑箇所Aの故障被疑度を故障被疑箇所Bの故障被疑度よりも高く設定する。
<Setting example of failure suspect level # 2: When only one type of suspected failure is included in a new abnormal flow>
As shown in FIGS. 16A and 16B, the flow P17 that is newly determined to be an abnormal flow in the Nth test packet includes only the suspected failure point A and does not include the suspected failure point B. In this case, the failure suspected degree management unit 68 sets the failure suspected degree of the failure suspected part A higher than the suspected degree of failure of the suspected part B without comparing the forefront position.

これは、新たな異常フローに1つの故障被疑箇所Aのみが含まれる場合には、当該故障被疑箇所Aの今回最前方位置は前回最前方位置よりも前方に位置するようになっており、また、2番目にサービス構成要素Aが設けられたフローP17が前回の試験パケットでは異常フローに分類されていないことから、試験パケットが2番目のサービス構成要素を通過して4番目のサービス構成要素に到達するまでの間にサービス構成要素Aに故障が発生した可能性が高いと考えられるためである。   This is because when the new abnormal flow includes only one suspected failure location A, the current forefront position of the suspected failure location A is positioned ahead of the previous forefront position, and Since the flow P17 in which the second service component A is provided is not classified as an abnormal flow in the previous test packet, the test packet passes through the second service component and becomes the fourth service component. This is because there is a high possibility that a failure has occurred in the service component A before the arrival.

これらの設定例に鑑み、故障被疑度の設定順位(優先度)を高い方から並べると、以下のようになる。
(1)前回の異常フローにも今回の新たな異常フローにも含まれており、今回最前方位置が前回最前方位置よりも前方に位置する故障被疑箇所
(2)前回の異常フローにも今回の新たな異常フローにも含まれており、今回最前方位置が前回最前方位置と同じ位置であるか後方に位置する故障被疑箇所
(3)前回の異常フローに含まれているが今回の新たな異常フローには含まれていない故障被疑箇所
In view of these setting examples, the order of priority (priority) of failure suspect levels is arranged from the higher one as follows.
(1) The previous abnormal flow is included in the new abnormal flow this time, and the suspected failure location where the current frontmost position is ahead of the previous frontmost position (2) This time also in the previous abnormal flow This is also included in the new abnormal flow, and the current forefront position is the same position as the previous forefront position or located at the rear of the suspected failure location (3). Suspected failure that is not included in the abnormal flow

<動作例>
続いて、図17を参照して、サービス影響原因推定装置1による故障被疑度設定方法について説明する。
<Operation example>
Next, with reference to FIG. 17, a failure suspect degree setting method by the service influence cause estimating apparatus 1 will be described.

まず、試験パケット生成部741が試験パケットを生成し、パケット送信部743が、各フローに対して、試験パケットをそれぞれ送信する(ステップS31、パケット送信ステップ)。   First, the test packet generation unit 741 generates a test packet, and the packet transmission unit 743 transmits a test packet to each flow (step S31, packet transmission step).

続いて、パケット受信部744が、リプライパケットを受信し(パケット受信ステップ、設定情報管理部70及び処理部60が、前記した手法に基づいて、各フローを正常フローと異常フローとに分類し、異常フローにおける故障被疑箇所を推定する(ステップS32、グループ構成ステップ、故障被疑箇所推定ステップ)。なお、以降のステップS33〜ステップS46も、本発明の故障被疑箇所推定ステップに相当する。   Subsequently, the packet reception unit 744 receives the reply packet (the packet reception step, the setting information management unit 70 and the processing unit 60 classify each flow into a normal flow and an abnormal flow based on the above-described method, The failure suspected place in the abnormal flow is estimated (step S32, group configuration step, failure suspected place estimating step), and subsequent steps S33 to S46 also correspond to the suspected place of suspected failure of the present invention.

全てのフローが正常フローに分類されており、故障被疑箇所が無い場合(ステップS33でNo、かつ、ステップS34でNo)には、本フロー処理は、ステップS31に戻る。
また、一以上のフローが異常フローに分類されており、かつ、故障被疑箇所であると推定されたサービス構成要素が一つである場合(ステップS33でNo、かつ、ステップS34でYes)には、本フロー処理は、終了する。
この場合には、サービス影響原因推定装置1は、故障被疑箇所であると推定された一のサービス構成要素を検索し、当該サービス構成要素がサービス影響の原因であるか否かの特定を行う。
If all flows are classified as normal flows and there is no suspected failure location (No in step S33 and No in step S34), the flow processing returns to step S31.
Further, when one or more flows are classified as abnormal flows and there is one service component estimated to be a suspected failure location (No in step S33 and Yes in step S34). This flow process ends.
In this case, the service influence cause estimation device 1 searches for one service component that is estimated to be a suspected failure point, and identifies whether the service component is a cause of service influence.

また、一以上のフローが異常フローに分類されており、かつ、故障被疑箇所であると推定されたサービス構成要素が複数である場合(ステップS33でYes)には、最前方位置抽出部24が、各故障被疑箇所において最前方位置を抽出し(ステップS35)、抽出された各故障被疑箇所の最前方位置をパケット送信回数と関連付けて最前方位置格納部66に格納させる。   In addition, when one or more flows are classified as abnormal flows and there are a plurality of service components that are estimated to be suspected faults (Yes in step S33), the forefront position extraction unit 24 Then, the forefront position is extracted at each suspected failure location (step S35), and the forefront position of each of the suspected failure locations is stored in the forefront location storage unit 66 in association with the number of packet transmissions.

ステップS35の実行後、1回目の試験結果(すなわち、試験パケット送信回数1回目における最前方位置の抽出)である場合(ステップS36でYes)には、本フロー処理は、ステップS31に戻る。   If it is the first test result (ie, extraction of the forefront position at the first test packet transmission count) after execution of step S35 (Yes in step S36), the flow processing returns to step S31.

また、ステップS35の実行後、1回目の試験結果ではない場合、すなわち、2回目の試験結果(すなわち、試験パケット送信回数2回目における最前方位置の抽出)である場合(ステップS36でNo)には、グループ構成部721が、前回試験結果と今回試験結果とを比較する(ステップS37)。
詳細には、ステップS37において、グループ構成部721が、今回試験結果における異常フローと、グループ格納部722に格納された前回試験結果における異常フローと、を比較し、今回試験結果において新たに異常フローに分類されたフローがあるか否かを判定する。
Further, after the execution of step S35, when it is not the first test result, that is, when it is the second test result (that is, extraction of the forefront position at the second test packet transmission number) (No in step S36). The group configuration unit 721 compares the previous test result with the current test result (step S37).
Specifically, in step S37, the group configuration unit 721 compares the abnormal flow in the current test result with the abnormal flow in the previous test result stored in the group storage unit 722, and newly adds an abnormal flow in the current test result. It is determined whether or not there is a flow classified as “1”.

影響ありのサービスが新たに検出されていない場合、すなわち、新たに異常フローに分類されたフローがなく、異常フローの数が増えていない場合(ステップS38でNo)には、故障被疑度管理部68は、異常フローの故障被疑箇所に故障被疑度を設定せず(ステップS39)、又は、異常フローの故障被疑箇所の故障被疑度を全て同格に設定し、本フロー処理は終了する。
この場合には、サービス影響原因推定装置1は、故障被疑箇所であると推定された二以上のサービス構成要素の故障被疑度を同格とみなし、これら二以上のサービス構成要素を例えばサービス構成要素のID順等で検索し、当該サービス構成要素がサービス影響の原因であるか否かの特定を行う。
If no affected service has been newly detected, that is, if there is no flow newly classified as an abnormal flow and the number of abnormal flows has not increased (No in step S38), the failure suspect degree management unit 68 does not set the suspected failure level in the suspected failure location of the abnormal flow (step S39) or sets all suspected failure rates of the suspected failure location in the abnormal flow to the same grade, and the flow processing ends.
In this case, the service influence cause estimation device 1 regards the two or more service component elements that are estimated to be a failure suspected place as being equivalent, and regards these two or more service component elements as, for example, service component elements. A search is performed in the order of IDs, etc., and it is specified whether or not the service component is a cause of service influence.

影響ありのサービスが新たに検出された場合、すなわち、新たに異常フローに分類されたフローがあり、異常フローの数が増えている場合(ステップS38でYes)であって、前回の二以上の故障被疑箇所のうち一つのみが新たな異常フローに含まれている場合(ステップS40でNo)には、故障被疑度管理部68は、新たな異常フローに含まれている故障被疑箇所の故障被疑度を、新たな異常フローには含まれていない故障被疑箇所の故障被疑度よりも高く設定し(ステップS41)、本フロー処理は終了する。
ステップS40でNo→ステップS41の流れは、図16で説明した例に該当する。
When an affected service is newly detected, that is, when there is a flow newly classified as an abnormal flow and the number of abnormal flows is increased (Yes in step S38), When only one of the suspected failure locations is included in the new abnormal flow (No in step S40), the failure suspected degree management unit 68 detects a failure in the suspected failure location included in the new abnormal flow. The suspect level is set higher than the suspected failure level of the suspected failure location not included in the new abnormal flow (step S41), and this flow processing ends.
The flow of No → Step S41 in Step S40 corresponds to the example described in FIG.

影響ありのサービスが新たに検出された場合、すなわち、新たに異常フローに分類されたフローがあり、異常フローの数が増えている場合(ステップS38でYes)であって、前回の二以上の故障被疑箇所のうち二以上が新たな異常フローに含まれている場合(ステップS40でYes)には、最前方位置抽出部24が、新たな異常フローに関して各故障被疑箇所において最前方位置を抽出し(ステップS42)、抽出された各故障被疑箇所の最前方位置をパケット送信回数と関連付けて最前方位置格納部66に格納させる。   When an affected service is newly detected, that is, when there is a flow newly classified as an abnormal flow and the number of abnormal flows is increased (Yes in step S38), If two or more of the suspected fault locations are included in the new abnormal flow (Yes in step S40), the forefront position extraction unit 24 extracts the forefront position in each suspected fault location for the new abnormal flow. (Step S42), the forefront position of each extracted suspected failure location is stored in the forefront position storage unit 66 in association with the number of packet transmissions.

続いて、最前方位置比較部67が、新たな異常フローに含まれる故障被疑箇所ごとに、前回最前方位置と今回最前方位置とを比較する(ステップS43)。
新たな異常フローに含まれる故障被疑箇所の全てに関して、今回最前方位置が前回最前方位置と同じ位置か後方に位置する場合(ステップS44でNo)には、故障被疑度管理部68は、新たな異常フローの故障被疑箇所に故障被疑度を設定せず(ステップS46)、又は、新たな異常フローの故障被疑箇所の故障被疑度を全て同格に設定し、本フロー処理は終了する。
Subsequently, the foremost position comparison unit 67 compares the forefront position of the previous time and the forefront position of the current time for each suspected failure part included in the new abnormal flow (step S43).
When all the suspected faults included in the new abnormal flow are located at the same position or the rear as the previous forefront position (No in step S44), the fault suspected degree management unit 68 The suspected failure level is not set for the suspected failure location of the abnormal flow (step S46), or all suspected failure rates of the suspected failure location of the new abnormal flow are set to the same grade, and this flow processing ends.

また、新たな異常フローに含まれる故障被疑箇所に関して、今回最前方位置が前回最前方位置よりも前方に位置するものがある場合(ステップS44でYes)には、故障被疑度管理部68は、今回最前方位置が前回最前方位置よりも前方に位置する故障被疑箇所の故障被疑度を、それ以外の故障被疑箇所の故障被疑度よりも高く設定し(ステップS45)、本フロー処理は終了する。
ステップS40でYes→ステップS42→ステップS44→ステップS45の流れは、図15で説明した例に該当する。
In addition, regarding the suspected failure location included in the new abnormal flow, if there is one where the current forefront position is located ahead of the previous forefront position (Yes in step S44), the suspected failure degree management unit 68 The failure suspected degree of the suspected failure location where the forefront position this time is positioned ahead of the previous forefront position is set higher than the suspected failure rate of the other suspected failure locations (step S45), and this flow processing ends. .
The flow of Yes → Step S42 → Step S44 → Step S45 in Step S40 corresponds to the example described in FIG.

<故障被疑度の設定例その3:リンク長を考慮した最前方位置抽出>
図18に示すように、最前方位置抽出部65は、異常フローのリンク長を考慮して各故障被疑箇所の最前方位置を抽出する構成であってもよい。この場合、モデル生成部61は、リンク長を考慮した各フローのモデルを生成する。
図18の例では、フローP01,P02において、2番目のサービス構成要素と3番目のサービス構成要素との間のリンク長は、通常の4倍に相当する。
また、フローP17において、4番目のサービス構成要素と5番目のサービス構成要素との間のリンク長は、通常の2倍に相当する。
なお、各設定例において、最前方位置の抽出に際して、サービス影響原因推定装置1から最初のサービス構成要素までのリンク長も考慮されている。
<Setting example of failure suspicion # 3: Forefront position extraction considering link length>
As illustrated in FIG. 18, the forefront position extraction unit 65 may be configured to extract the forefront position of each suspected failure location in consideration of the link length of the abnormal flow. In this case, the model generation unit 61 generates a model of each flow in consideration of the link length.
In the example of FIG. 18, in the flows P01 and P02, the link length between the second service component and the third service component corresponds to four times the normal length.
In the flow P17, the link length between the fourth service component and the fifth service component corresponds to twice the normal length.
In each setting example, the link length from the service influence cause estimation device 1 to the first service component is also taken into account when extracting the forefront position.

したがって、図18(b)に示すように、最前方位置比較部67は、故障被疑箇所Aの今回最前方位置Aが前回最前方位置AN−1よりも前方に位置すると判定するとともに、故障被疑箇所Bの今回最前方位置Bが前回最前方位置BN−1よりも前方に位置すると判定する。
この場合には、故障被疑度管理部68は、故障被疑箇所A,Bの故障被疑度を同格に設定する。
Accordingly, as shown in FIG. 18 (b), the forwardmost position comparison unit 67, while determined to be located further forward than the fault suspected place the forwardmost position A N is the last forwardmost position A N-1 current A, It is determined that the current foremost position B N of the suspected failure point B is located ahead of the previous forefront position B N−1 .
In this case, the failure suspect degree management unit 68 sets the failure suspect degrees of the suspected failure points A and B to the same grade.

<故障被疑度の設定例その4:試験パケットの送信時刻の差分(時刻差分)を考慮した最前方位置抽出>
図19に示すように、最前方位置抽出部65は、試験パケットの送信時刻の差分を考慮して各故障被疑箇所の最前方位置を抽出する構成であってもよい。試験パケットの送信時刻の差分は、予め設定された記憶されていてもよく、パケット送信部743が実際に送信した時刻を計時したものであってもよい。
図19の例では、パケット送信部743は、1回の試験パケット送信において、10個のフローを1単位として試験パケットを送信する。そのため、1つ目の単位に含まれるフローP01,P02の試験パケット送信時刻に対して、2つ目の単位に含まれるフローP17の試験パケット送信時刻が時刻差分だけ遅れている。
<Setting Example of Failure Suspiciousness Part 4: Extraction of Forefront Position Considering Difference in Time of Sending Test Packet (Time Difference)>
As illustrated in FIG. 19, the forefront position extraction unit 65 may be configured to extract the forefront position of each suspected failure location in consideration of the difference in the transmission time of the test packet. The difference between the transmission times of the test packets may be stored in advance, or may be the time when the packet transmission unit 743 actually transmits.
In the example of FIG. 19, the packet transmission unit 743 transmits a test packet in units of 10 flows in one test packet transmission. Therefore, the test packet transmission time of the flow P17 included in the second unit is delayed by the time difference with respect to the test packet transmission times of the flows P01 and P02 included in the first unit.

したがって、図19(b)に示すように、最前方位置比較部67は、故障被疑箇所Aの今回最前方位置Aが前回最前方位置AN−1と同じ位置であると判定するとともに、故障被疑箇所Bの今回最前方位置Bが前回最前方位置BN−1よりも後方に位置すると判定する。
この場合には、故障被疑度管理部68は、故障被疑箇所A,Bの故障被疑度を同格に設定する。
Accordingly, as shown in FIG. 19 (b), as well as determined that the forwardmost position comparison unit 67, this forwardmost position A N of the failure suspected place A is the same position as the previous forwardmost position A N-1, It is determined that the current foremost position B N of the suspected failure point B is located behind the previous forefront position B N−1 .
In this case, the failure suspect degree management unit 68 sets the failure suspect degrees of the suspected failure points A and B to the same grade.

本発明の実施形態にかかるサービス影響原因推定装置1は、前回の試験パケットによる異常フローに二以上の故障被疑箇所があり、かつ、今回の試験パケットで前回の故障被疑箇所を含む新たな異常フローが発生した場合に、故障被疑箇所の最前方位置に応じて故障被疑度を設定するので、二以上の故障被疑箇所間での優先度付けすなわち故障被疑度の設定を好適に行うことができる。
また、サービス影響原因推定装置1は、前回の試験パケットによる異常フローに二以上の故障被疑箇所があり、かつ、今回の試験パケットで前回の故障被疑箇所を含む新たな異常フローが発生した場合であって、今回の新たな異常フローに含まれる故障被疑箇所の故障被疑度を、今回の新たな異常フローには含まれない故障被疑箇所の故障被疑度よりも高く設定するので、二以上の故障被疑箇所間での優先度付けすなわち故障被疑度の設定を好適に行うことができる。
The service influence cause estimation device 1 according to the embodiment of the present invention includes a new abnormal flow that includes two or more suspected failure locations in the abnormal flow of the previous test packet and includes the previous suspected failure location in the current test packet. When a failure occurs, the failure suspected degree is set according to the forefront position of the suspected failure place. Therefore, prioritization between two or more suspected failure places, that is, the setting of the suspected failure degree can be suitably performed.
Further, the service influence cause estimating apparatus 1 is a case where there are two or more suspected faults in the abnormal flow of the previous test packet and a new abnormal flow including the previous suspected fault occurs in the current test packet. Because the failure suspect level of the suspected failure location included in the new abnormal flow is set higher than the suspected failure rate of the suspected failure location not included in the new abnormal flow, there are two or more failures. Prioritization between suspected places, that is, failure suspected degree can be suitably set.

また、サービス影響原因推定装置1は、異常フローのリンク長及び/又は試験パケットの送信時刻の差分を考慮して故障被疑箇所の最前方位置を抽出するので、故障被疑度の設定をより好適に行うことができる。   Moreover, since the service influence cause estimation device 1 extracts the forefront position of the suspected failure location in consideration of the difference between the link length of the abnormal flow and / or the transmission time of the test packet, the failure suspect level is more preferably set. It can be carried out.

以上、本発明の実施形態について説明したが、本発明は前記実施形態に限定されず、本発明の要旨を逸脱しない範囲で適宜変更可能である。例えば、図17のフローチャートにおいて、ステップS35の処理を、ステップS33とステップS36との間ではなく、ステップS42と同時(すなわち、ステップS40とステップS44との間)に行う構成であってもよい。
また、今回最前方位置が前回最前方位置よりも前にある故障被疑箇所が複数ある場合に、前方への移動量が大きいほど故障被疑度を高く設定する構成であってもよい。
また、故障被疑度の設定としては、「優先度の有無」や「高低」の2段階、「高中低」の3段階、数値化等が好適に利用可能である。
また、例えば異常フローが初めて検出された回において異常フローと分類されたフローの個数が所定個数以上である場合等には、それ以降の回においても第1原因特定部631のみが異常フローの故障被疑箇所を推定する構成であってもよい。
As mentioned above, although embodiment of this invention was described, this invention is not limited to the said embodiment, In the range which does not deviate from the summary of this invention, it can change suitably. For example, in the flowchart of FIG. 17, the configuration may be such that the process of step S35 is not performed between step S33 and step S36 but simultaneously with step S42 (ie, between step S40 and step S44).
In addition, when there are a plurality of suspected failure locations where the current forefront position is before the forefront position of the previous time, the configuration may be such that the suspected failure level is set higher as the forward movement amount is larger.
Moreover, as the setting of the suspected failure level, two levels of “presence / absence of priority” and “high / low”, three levels of “high, medium and low”, and numerical value can be suitably used.
Further, for example, when the number of flows classified as abnormal flows is equal to or greater than a predetermined number at the time when an abnormal flow is detected for the first time, only the first cause identifying unit 631 fails in the subsequent flow. The structure which estimates a suspected location may be sufficient.

1 サービス影響原因推定装置
45 サービス影響原因推定プログラム
50 記憶部
60 処理部(推定部、故障被疑箇所推定部)
70 管理部(推定部)
721 グループ構成部
743 パケット送信部
744 パケット受信部
746 試験パケット回数格納部(故障被疑箇所推定部)
DESCRIPTION OF SYMBOLS 1 Service influence cause estimation apparatus 45 Service influence cause estimation program 50 Memory | storage part 60 Processing part (estimation part, failure suspected part estimation part)
70 Management Department (Estimation Department)
721 Group configuration part 743 Packet transmission part 744 Packet reception part 746 Test packet number storage part (failure suspected part estimation part)

Claims (6)

通信ネットワーク上でデータが受け渡しされる物理設備及びソフトウェアをサービス構成要素として、一以上の前記サービス構成要素を用いて構成される複数のフローに対して試験パケットを前記フローごとに送信するパケット送信部と、
前記フローを通過する前記試験パケットのリプライパケットを受信するパケット受信部と、
受信した前記リプライパケットに基づいて、前記フローが正常フローであるか異常フローであるかを判定するグループ構成部と、
前記異常フローにおいて前記ネットワーク上でのサービス影響の原因となる故障被疑箇所を推定する故障被疑箇所推定部と、
を備え、
前記故障被疑箇所推定部は、
前回の前記試験パケットに関して、前記異常フローに共通する前記サービス構成要素を前記故障被疑箇所と推定し、
前回の前記試験パケットに関して、前記故障被疑箇所と推定された前記サービス構成要素が二以上存在するとともに、今回の前記試験パケットに関して、新たに異常フローと判定された前記フローにおいて、前回の前記試験パケットにおいて前記故障被疑箇所と推定された一以上の前記サービス構成要素が含まれる場合に、
前回の前記試験パケットにおける異常フローにおける前記故障被疑箇所の最前方位置である前回最前方位置と、今回の前記試験パケットにおける新たな異常フローにおける前記故障被疑箇所の最前方位置である今回最前方位置と、を前記故障被疑箇所ごとに比較し、
前記今回最前方位置が前記前回最前方位置よりも前方となる前記故障被疑箇所の故障被疑度を、前記今回最前方位置が前記前回最前方位置と同じ位置又は前記今回最前方位置が前記前回最前方位置よりも後方となる前記故障被疑箇所の故障被疑度よりも高く設定する
ことを特徴とするサービス影響原因推定装置。
A packet transmission unit that transmits a test packet for each of a plurality of flows configured by using one or more of the service components as physical components and software for transferring data over a communication network. When,
A packet receiver that receives a reply packet of the test packet passing through the flow;
A group configuration unit that determines whether the flow is a normal flow or an abnormal flow based on the received reply packet;
A suspected fault location estimation unit that estimates a suspected fault location that causes a service impact on the network in the abnormal flow;
With
The suspected failure point estimation unit is
With respect to the previous test packet, the service component common to the abnormal flow is estimated as the suspected failure location,
Regarding the previous test packet, there are two or more service components estimated as the suspected failure location, and the previous test packet in the flow newly determined as an abnormal flow for the current test packet. In which one or more of the service components estimated as the suspected failure location are included,
The forefront position of the previous suspected fault location in the abnormal flow in the previous test packet, and the forefront position of the suspected fault location in the new abnormal flow in the current test packet And for each of the suspected failure locations,
The failure suspect level of the suspected failure location where the current forward position is ahead of the previous forward position, the forward current position is the same as the previous forward position, or the forward current position is the previous forward position. A service influence cause estimation device, characterized in that it is set to be higher than the failure suspected degree of the suspected failure location that is behind the front position.
前記故障被疑箇所推定部は、前記サービス構成要素間のリンクの長さに基づいて、前記前回最前方位置と前記今回最前方位置とを比較する
ことを特徴とする請求項1に記載のサービス影響原因推定装置。
2. The service influence according to claim 1, wherein the suspected failure point estimation unit compares the previous forefront position and the current forefront position based on a link length between the service components. Cause estimation device.
前記故障被疑箇所推定部は、前記試験パケットの各回における前記フローごとの送信時刻の差分に基づいて、前記前回最前方位置と前記今回最前方位置とを比較する
ことを特徴とする請求項1又は請求項2に記載のサービス影響原因推定装置。
The suspected fault location estimation unit compares the previous forefront position and the current forefront position based on a difference in transmission time for each flow at each time of the test packet. The service influence cause estimation device according to claim 2.
前記故障被疑箇所推定部は、
今回の前記試験パケットに関して、新たに異常フローと判定された前記フローにおいて、前回の前記試験パケットにおいて前記故障被疑箇所と推定された前記サービス構成要素が一つのみ含まれる場合には、
当該故障被疑箇所の故障被疑度を、前回の前記試験パケットにおいて前記故障被疑箇所と推定されて新たに異常フローと判定された前記フローには含まれない前記故障被疑箇所の故障被疑度よりも高く設定する
ことを特徴とする請求項1に記載のサービス影響原因推定装置。
The suspected failure point estimation unit is
Regarding the test packet of this time, in the flow newly determined as an abnormal flow, when only one service component estimated as the suspected failure location in the previous test packet is included,
The suspected failure level of the suspected failure location is higher than the suspected failure rate of the suspected failure location that is not included in the flow newly estimated as the suspected failure location in the previous test packet. The service influence cause estimation device according to claim 1, wherein the service influence cause estimation device is set.
コンピュータを、
通信ネットワーク上でデータが受け渡しされる物理設備及びソフトウェアをサービス構成要素として、一以上の前記サービス構成要素を用いて構成される複数のフローに対して試験パケットを前記フローごとに送信するパケット送信部、
前記フローを通過する前記試験パケットのリプライパケットを受信するパケット受信部、
受信した前記リプライパケットに基づいて、前記フローが正常フローであるか異常フローであるかを判定するグループ構成部、及び、
前記異常フローにおいて前記ネットワーク上でのサービス影響の原因となる故障被疑箇所を推定する故障被疑箇所推定部、
として機能させ、
前記故障被疑箇所推定部は、
前回の前記試験パケットに関して、前記異常フローに共通する前記サービス構成要素を前記故障被疑箇所と推定し、
前回の前記試験パケットに関して、前記故障被疑箇所と推定された前記サービス構成要素が二以上存在するとともに、今回の前記試験パケットに関して、新たに異常フローと判定された前記フローにおいて、前回の前記試験パケットにおいて前記故障被疑箇所と推定された一以上の前記サービス構成要素が含まれる場合に、
前回の前記試験パケットにおける異常フローにおける前記故障被疑箇所の最前方位置である前回最前方位置と、今回の前記試験パケットにおける新たな異常フローにおける前記故障被疑箇所の最前方位置である今回最前方位置と、を前記故障被疑箇所ごとに比較し、
前記今回最前方位置が前記前回最前方位置よりも前方となる前記故障被疑箇所の故障被疑度を、前記今回最前方位置が前記前回最前方位置と同じ位置又は前記今回最前方位置が前記前回最前方位置よりも後方となる前記故障被疑箇所の故障被疑度よりも高く設定する
ことを特徴とするサービス影響原因推定プログラム。
Computer
A packet transmission unit that transmits a test packet for each of a plurality of flows configured by using one or more of the service components as physical components and software for transferring data over a communication network. ,
A packet receiver for receiving a reply packet of the test packet passing through the flow;
A group configuration unit that determines whether the flow is a normal flow or an abnormal flow based on the received reply packet; and
A suspected fault location estimation unit that estimates a suspected fault location that causes a service impact on the network in the abnormal flow;
Function as
The suspected failure point estimation unit is
With respect to the previous test packet, the service component common to the abnormal flow is estimated as the suspected failure location,
Regarding the previous test packet, there are two or more service components estimated as the suspected failure location, and the previous test packet in the flow newly determined as an abnormal flow for the current test packet. In which one or more of the service components estimated as the suspected failure location are included,
The forefront position of the previous suspected fault location in the abnormal flow in the previous test packet, and the forefront position of the suspected fault location in the new abnormal flow in the current test packet And for each of the suspected failure locations,
The failure suspect level of the suspected failure location where the current forward position is ahead of the previous forward position, the forward current position is the same as the previous forward position, or the forward current position is the previous forward position. A service influence cause estimation program characterized in that it is set higher than the suspected failure level of the suspected failure location that is behind the forward position.
通信ネットワーク上でデータが受け渡しされる物理設備及びソフトウェアをサービス構成要素として、一以上の前記サービス構成要素を用いて構成される複数のフローに対して試験パケットを前記フローごとに送信するパケット送信ステップと、
前記フローを通過する前記試験パケットのリプライパケットを受信するパケット受信ステップと、
受信した前記リプライパケットに基づいて、前記フローが正常フローであるか異常フローであるかを判定するグループ構成ステップと、
前記異常フローにおいて前記ネットワーク上でのサービス影響の原因となる故障被疑箇所を推定する故障被疑箇所推定ステップと、
を含み、
前記故障被疑箇所推定ステップにおいて、
前回の前記試験パケットに関して、前記異常フローに共通する前記サービス構成要素を前記故障被疑箇所と推定し、
前回の前記試験パケットに関して、前記故障被疑箇所と推定された前記サービス構成要素が二以上存在するとともに、今回の前記試験パケットに関して、新たに異常フローと判定された前記フローにおいて、前回の前記試験パケットにおいて前記故障被疑箇所と推定された一以上の前記サービス構成要素が含まれる場合に、
前回の前記試験パケットにおける異常フローにおける前記故障被疑箇所の最前方位置である前回最前方位置と、今回の前記試験パケットにおける新たな異常フローにおける前記故障被疑箇所の最前方位置である今回最前方位置と、を前記故障被疑箇所ごとに比較し、
前記今回最前方位置が前記前回最前方位置よりも前方となる前記故障被疑箇所の故障被疑度を、前記今回最前方位置が前記前回最前方位置と同じ位置又は前記今回最前方位置が前記前回最前方位置よりも後方となる前記故障被疑箇所の故障被疑度よりも高く設定する
ことを特徴とするサービス影響原因推定方法。
A packet transmission step of transmitting a test packet for each of a plurality of flows configured by using one or more of the service components as physical components and software for transferring data on a communication network. When,
A packet receiving step of receiving a reply packet of the test packet passing through the flow;
A group configuration step for determining whether the flow is a normal flow or an abnormal flow based on the received reply packet;
In the abnormal flow, a suspected failure location estimating step for estimating a suspected failure location that causes a service effect on the network;
Including
In the suspected failure point estimation step,
With respect to the previous test packet, the service component common to the abnormal flow is estimated as the suspected failure location,
Regarding the previous test packet, there are two or more service components estimated as the suspected failure location, and the previous test packet in the flow newly determined as an abnormal flow for the current test packet. In which one or more of the service components estimated as the suspected failure location are included,
The forefront position of the previous suspected fault location in the abnormal flow in the previous test packet, and the forefront position of the suspected fault location in the new abnormal flow in the current test packet And for each of the suspected failure locations,
The failure suspected degree of the suspected failure location where the current frontmost position is ahead of the previous frontmost position, the current frontmost position is the same as the previous frontmost position, or the current frontmost position is the previous frontmost position. A service influence cause estimation method, characterized in that it is set to be higher than the failure suspected degree of the suspected failure point located behind the forward position.
JP2015151089A 2015-07-30 2015-07-30 Service impact cause estimation apparatus, service impact cause estimation program, and service impact cause estimation method Active JP6378653B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015151089A JP6378653B2 (en) 2015-07-30 2015-07-30 Service impact cause estimation apparatus, service impact cause estimation program, and service impact cause estimation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015151089A JP6378653B2 (en) 2015-07-30 2015-07-30 Service impact cause estimation apparatus, service impact cause estimation program, and service impact cause estimation method

Publications (2)

Publication Number Publication Date
JP2017034403A true JP2017034403A (en) 2017-02-09
JP6378653B2 JP6378653B2 (en) 2018-08-22

Family

ID=57989015

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015151089A Active JP6378653B2 (en) 2015-07-30 2015-07-30 Service impact cause estimation apparatus, service impact cause estimation program, and service impact cause estimation method

Country Status (1)

Country Link
JP (1) JP6378653B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733563A (en) * 2018-05-18 2018-11-02 平安普惠企业管理有限公司 Business fault treatment method, server-side and the storage medium of application software
CN112835781A (en) * 2019-11-25 2021-05-25 上海哔哩哔哩科技有限公司 Method and device for detecting abnormity of operation function

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004363946A (en) * 2003-06-04 2004-12-24 Ntt Docomo Inc Failure handling system and failure factor specifying method
JP2007124057A (en) * 2005-10-25 2007-05-17 Ntt Communications Kk Apparatus and method for specifying network fault location
US8036121B2 (en) * 2006-08-22 2011-10-11 Nec Corporation Method of estimating quality degradation on network in communication network system
JP2012199928A (en) * 2012-04-18 2012-10-18 Hitachi Ltd Management system and information processing system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004363946A (en) * 2003-06-04 2004-12-24 Ntt Docomo Inc Failure handling system and failure factor specifying method
JP2007124057A (en) * 2005-10-25 2007-05-17 Ntt Communications Kk Apparatus and method for specifying network fault location
US8036121B2 (en) * 2006-08-22 2011-10-11 Nec Corporation Method of estimating quality degradation on network in communication network system
JP2012199928A (en) * 2012-04-18 2012-10-18 Hitachi Ltd Management system and information processing system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
尾居愛子,遠藤大己,森谷高明,大西浩行: "サービスチェイニングにおける故障原因推定法の一検討", 2015年電子情報通信学会総合大会, JPN6018027323, 10 March 2015 (2015-03-10), JP, ISSN: 0003839619 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733563A (en) * 2018-05-18 2018-11-02 平安普惠企业管理有限公司 Business fault treatment method, server-side and the storage medium of application software
CN108733563B (en) * 2018-05-18 2023-04-11 平安普惠企业管理有限公司 Service fault processing method of application software, server and storage medium
CN112835781A (en) * 2019-11-25 2021-05-25 上海哔哩哔哩科技有限公司 Method and device for detecting abnormity of operation function

Also Published As

Publication number Publication date
JP6378653B2 (en) 2018-08-22

Similar Documents

Publication Publication Date Title
US11750483B2 (en) In-line performance monitoring
JP5120784B2 (en) Method for estimating quality degradation points on a network in a communication network system
JP5767617B2 (en) Network failure detection system and network failure detection device
CN104168193B (en) A kind of method and routing device of Virtual Router Redundancy Protocol fault detect
JP5207082B2 (en) Computer system and computer system monitoring method
US20110270957A1 (en) Method and system for logging trace events of a network device
EP2795841B1 (en) Method and arrangement for fault analysis in a multi-layer network
CN113938407B (en) Data center network fault detection method and device based on in-band network telemetry system
CN108270643B (en) Method and equipment for detecting link between Leaf-Spine switches
CN112311580B (en) Message transmission path determining method, device and system and computer storage medium
CN109428785A (en) A kind of fault detection method and device
US20160226714A1 (en) Method and device for monitoring network link and storage medium therefor
CN107026790B (en) A kind of transmission control method and equipment
CN104917641A (en) Method, device and system for testing packet loss
CN110224883A (en) A kind of Grey Fault Diagnosis method applied to telecommunications bearer network
CN104125590A (en) Link fault diagnosis device and method thereof
JP6378653B2 (en) Service impact cause estimation apparatus, service impact cause estimation program, and service impact cause estimation method
Zhang et al. Service failure diagnosis in service function chain
CN102281103A (en) Optical network multi-fault recovering method based on fuzzy set calculation
CN105959129B (en) The method and device of monitoring network failure
JP4464256B2 (en) Network host monitoring device
CN111865667A (en) Network connectivity fault root cause positioning method and device
JP6310405B2 (en) Service impact cause estimation apparatus, service impact cause estimation program, and service impact cause estimation method
JP4169725B2 (en) Packet discard location search method and apparatus
JP5687972B2 (en) Fault link identification system and monitoring route setting method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180727

R150 Certificate of patent or registration of utility model

Ref document number: 6378653

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150