JP6471110B2 - Suspected failure location estimation apparatus, failure location estimation method, and failure location estimation program - Google Patents
Suspected failure location estimation apparatus, failure location estimation method, and failure location estimation program Download PDFInfo
- Publication number
- JP6471110B2 JP6471110B2 JP2016033992A JP2016033992A JP6471110B2 JP 6471110 B2 JP6471110 B2 JP 6471110B2 JP 2016033992 A JP2016033992 A JP 2016033992A JP 2016033992 A JP2016033992 A JP 2016033992A JP 6471110 B2 JP6471110 B2 JP 6471110B2
- Authority
- JP
- Japan
- Prior art keywords
- suspected
- network
- information
- failure
- user terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、通信ネットワーク上における故障被疑箇所を推定する技術に関する。 The present invention relates to a technique for estimating a suspected failure location on a communication network.
本願出願人は、通信ネットワーク上で提供されるE2E(End to End)サービスの性能を評価するために、MIB(Management Information Base)情報を用いて劣化箇所を特定する技術を提案している(特許文献1参照)。 In order to evaluate the performance of an E2E (End to End) service provided on a communication network, the applicant of the present application has proposed a technique for identifying a degradation location using MIB (Management Information Base) information (patent) Reference 1).
しかし、特許文献1に記載の技術は、1事業者内に閉じたE2Eサービスを想定したものであり、他事業者のMIB情報を取得することは困難であるため、複数事業者を跨いだE2Eサービスに対して適用することは困難である。
また、特許文献1に記載の技術は、1事業者内に閉じたE2Eサービスであっても、サービスが大規模な場合には、経路上の全ての装置からMIB情報を収集して解析することは困難である。
However, the technology described in Patent Document 1 assumes an E2E service closed within one operator, and it is difficult to acquire MIB information of other operators. It is difficult to apply to services.
In addition, the technique described in Patent Document 1 collects and analyzes MIB information from all devices on a route even when an E2E service is closed within one service provider when the service is large-scale. It is difficult.
一方、本願出願人は、複数事業者を跨いだE2Eサービスにおいて故障被疑箇所を推定する技術を提案している(特願2015−156626、本願出願時未公開)。
かかる技術では、複数のサービス監視情報に基づいて、障害が発生した通信サービスに最も多く含まれるノードが故障被疑箇所であると推定している。
On the other hand, the applicant of the present application has proposed a technique for estimating a suspected failure location in an E2E service across multiple operators (Japanese Patent Application No. 2015-156626, unpublished at the time of application).
In this technique, it is estimated that a node most frequently included in a communication service in which a failure has occurred is a suspected failure location based on a plurality of service monitoring information.
しかし、かかる技術は、E2Eサービス監視の具体的な手法については言及されていない。また、かかる技術は、単一の故障を対象としており、多重故障には迅速に対応することができない。また、かかる技術は、故障被疑箇所を推定するために、一般的には公開されていないISP網の構成情報(の推定)を必要とする。 However, this technique does not mention a specific method of E2E service monitoring. In addition, such a technique targets a single failure and cannot quickly cope with multiple failures. In addition, such a technique requires (estimated) configuration information of an ISP network that is not generally disclosed in order to estimate a suspected failure location.
本発明は、前記事情に鑑みて創案されたものであり、複数事業者を跨いだE2Eサービスや大規模なE2Eサービスにおいても故障被疑箇所を好適に推定することが可能な故障被疑箇所推定装置、故障被疑箇所推定方法および故障被疑箇所推定プログラムを提供することを課題とする。 The present invention was devised in view of the above circumstances, and a suspected failure location estimating apparatus capable of suitably estimating a suspected failure location even in an E2E service or a large-scale E2E service across multiple operators, It is an object of the present invention to provide a failure suspected place estimation method and a failure suspected place estimation program.
前記課題を解決するために、本発明は、ユーザ端末装置とクラウドネットワーク内のwebサーバ装置との通信ネットワークにおける故障被疑箇所を推定する故障被疑箇所推定装置であって、前記通信ネットワークの各部位におけるwebページ読込に要する時間に関するwebページ読込時間情報と、前記クラウドネットワーク内の応答性に関する応答性情報と、前記webサーバ装置の性能に関する性能情報と、を収集する収集部と、収集された前記webページ読込時間情報、前記応答性情報及び前記性能情報に基づいて、前記通信ネットワークにおける前記故障被疑箇所を推定する推定部と、を備えることを特徴とする。 In order to solve the above-mentioned problem, the present invention is a failure suspected place estimation device that estimates a suspected place in a communication network between a user terminal device and a web server device in a cloud network, a collecting unit that collects web page reading time information relating to the time required for reading the web page, responsiveness information relating to responsiveness in the cloud network, and performance information relating to the performance of the web server device; and the collected web An estimation unit configured to estimate the suspected fault location in the communication network based on page reading time information, the responsiveness information, and the performance information.
かかる構成によると、複数事業者を跨いだE2Eサービスや大規模なE2Eサービスにおいても故障被疑箇所を好適に推定することができる。 According to such a configuration, a suspected failure location can be suitably estimated even in an E2E service or a large-scale E2E service straddling a plurality of operators.
前記通信ネットワークは、前記ユーザ端末装置と前記クラウドネットワークとを通信可能に接続するネットワークを含んでおり、前記収集部は、前記ユーザ端末装置の位置情報を収集し、前記推定部は、前記ネットワークが前記故障被疑箇所であると推定した場合に、収集された前記位置情報に基づいて、前記ネットワーク内における前記故障被疑箇所を絞り込む構成であってもよい。 The communication network includes a network that connects the user terminal device and the cloud network in a communicable manner, the collection unit collects location information of the user terminal device, and the estimation unit The configuration may be such that when it is estimated that the location is the suspected failure location, the suspected failure location in the network is narrowed down based on the collected location information.
かかる構成によると、ネットワークが故障被疑箇所である場合にユーザ端末装置の位置情報に基づいて故障被疑箇所を絞り込むので、故障被疑箇所をより好適に推定することができる。 According to such a configuration, the suspected failure location is narrowed down based on the location information of the user terminal device when the network is the suspected failure location, so that the suspected failure location can be estimated more appropriately.
また、本発明は、ユーザ端末装置とクラウドネットワーク内のwebサーバ装置との通信ネットワークにおける故障被疑箇所を推定する故障被疑箇所推定装置による故障被疑箇所推定方法であって、前記故障被疑箇所推定装置が、前記通信ネットワークの各部位におけるwebページ読込に要する時間に関するwebページ読込時間情報と、前記クラウドネットワーク内の応答性に関する応答性情報と、前記webサーバ装置の性能に関する性能情報と、を収集する収集ステップと、前記故障被疑箇所推定装置が、収集された前記webページ読込時間情報、前記応答性情報及び前記性能情報に基づいて、前記通信ネットワークにおける前記故障被疑箇所を推定する推定ステップと、を含むことを特徴とする。 Moreover, this invention is a failure suspected place estimation method by the failure suspected place estimation apparatus which estimates the suspected place of failure in the communication network of a user terminal device and the web server apparatus in a cloud network, Comprising: Collection for collecting web page reading time information relating to the time required for reading web pages in each part of the communication network, responsiveness information relating to responsiveness in the cloud network, and performance information relating to the performance of the web server device And a step of estimating the suspected fault location in the communication network based on the collected web page reading time information, the responsiveness information, and the performance information. It is characterized by that.
前記通信ネットワークは、前記ユーザ端末装置と前記クラウドネットワークとを通信可能に接続するネットワークを含んでおり、前記収集ステップにおいて、前記故障被疑箇所推定装置が、前記ユーザ端末装置の位置情報を収集し、前記推定ステップにおいて、前記故障被疑箇所推定装置が、前記ネットワークが前記故障被疑箇所であると推定した場合に、収集された前記位置情報に基づいて、前記ネットワーク内における前記故障被疑箇所を絞り込む構成であってもよい。 The communication network includes a network that connects the user terminal device and the cloud network in a communicable manner, and in the collecting step, the failure suspected place estimating device collects position information of the user terminal device, In the estimation step, when the suspected fault location estimating apparatus estimates that the network is the suspected fault location, the suspected fault location in the network is narrowed down based on the collected location information. There may be.
また、本発明は、コンピュータを前記故障被疑箇所推定装置として機能させるAPI連携プログラムとしても具現化可能である。 The present invention can also be embodied as an API cooperation program that causes a computer to function as the suspected failure point estimation apparatus.
本発明によると、複数事業者を跨いだE2Eサービスや大規模なE2Eサービスにおいても故障被疑箇所を好適に推定することができる。 According to the present invention, it is possible to suitably estimate a suspected failure location even in an E2E service or a large-scale E2E service across a plurality of business operators.
続いて、本発明の実施形態について図面を参照して説明する。図1に示すように、本発明の実施形態に係る故障被疑箇所推定装置100は、ユーザ端末装置2とwebサーバ装置70とを接続する通信ネットワーク1における故障被疑箇所を推定する装置である。
Next, embodiments of the present invention will be described with reference to the drawings. As shown in FIG. 1, a suspected failure
通信ネットワーク1は、複数のユーザ端末装置2側のネットワーク3として、ユーザ端末装置2と通信可能に接続される複数のアクセス網20と、アクセス網20と通信可能に接続される複数のISP(Internet Service Provider)網30と、ISP網30と通信可能に接続されるインターネット網40と、を備える。
The communication network 1 is a network 3 on the side of a plurality of user
アクセス網20は、ユーザ端末装置2と最初に接続されるネットワークであり、市町村又は都道府県単位の範囲に敷設されている。ISP網30は、各通信事業者によって管理されているネットワークであり、複数の都道府県に跨る広範囲に敷設されている。ここで、ユーザ端末装置2がwebサーバ装置70との通信を行う際にどのISP網30が用いられるかは、通信事業者ごとに異なるルールによって決定されたり変更されたりする。
The
また、通信ネットワーク1は、webサーバ装置70側のネットワーク構造すなわちクラウドネットワーク4として、インターネット網40と通信可能に接続されるロードバランサ(ELB:Elastic Load Balancer)50と、ロードバランサ50と通信可能に接続されるDC(Data Communication)網60と、DC網60と通信可能に接続される複数のwebサーバ装置70と、を備える。
In addition, the communication network 1 can communicate with a load balancer (ELB: Elastic Load Balancer) 50 and a
また、通信ネットワーク1は、DNS(Domain Name System)サーバ装置80と、IP Geolocation DB(Internet Protocol Geolocation DataBase)装置90と、を備える。
In addition, the communication network 1 includes a DNS (Domain Name System)
DNSサーバ装置80は、アクセス網20、ISP網30又はインターネット網40内に含まれており、ドメイン名とIPアドレスとが関連付けられたデータベースを備え、問い合わせに応じてドメイン名又はIPアドレスを返信する装置である。
The
IP Geolocation DB装置90はインターネット網40内に含まれており、、IPアドレスと当該IPアドレスが付与された装置の名称及び位置情報(緯度、経度等)とが関連付けられたデータベースである。当該データベースにおいて、IPアドレスが付与された装置のホストネーム、当該装置が所属するISP網30のISP名、組織名、座標等がIPアドレスと関連付けられていてもよい。IP Geolocation DB装置90としては、DB−IP、ipinfo.io、MAXMIND等のデータベース装置が利用可能である。
The IP Geolocation
<故障被疑箇所推定装置>
故障被疑箇所推定装置100は、通信ネットワーク1における故障被疑箇所を推定する装置である。故障被疑箇所推定装置100は、CPU(Central Processing Unit)、ROM(Read-Only Memory)、RAM(Random Access Memory)、入出力回路等によって構成されており、機能部として、収集部101と、推定部102と、を備える。
<Sustained failure location estimation device>
The suspected failure
≪収集部≫
収集部101は、故障被疑箇所を推定するために以下の情報を収集(取得)し、収集された情報を推定部102へ出力する。
1.ユーザ端末装置2がwebサーバ装置70にアクセスした際にNavigation Timing API(Application Programming Interface)によって計測したwebページ読込時間情報
2.ユーザ端末装置2がGeolocation APIによって計測した当該ユーザ端末装置2の位置情報
3.ロードバランサ50がCloud Watch APIによって計測したクラウドネットワーク4内の応答性情報
4.webサーバ装置70がCloud Watch APIによって計測したwebサーバ装置70の性能情報
5.IP Geolocation DB装置90に記憶されたwebサーバ装置70の位置情報、及び、ISP情報(例えば、ISP網30の名称すなわちISP名)
≪Collection Department≫
The collection unit 101 collects (acquires) the following information in order to estimate the suspected failure location, and outputs the collected information to the
1. 1. Web page read time information measured by a navigation timing API (Application Programming Interface) when the
ここで、ユーザ端末装置2は、例えば以下に示す3つの手法によって各種の情報を自動収集するためのプログラム(Javascript(登録商標))が挿入されている。
1.webサーバ装置70(webサービス事業者)が予めJavascriptを埋め込んだwebページを用意する。
2.プロキシ等を用意し、プロキシ等を通過する全てのwebページにJavascriptを強制的に挿入する。
3.ユーザに依頼し、Javascriptが埋め込まれたwebページをユーザ端末装置2のブックマークレット等に登録してもらう。
ユーザ端末装置2は、かかるJavascriptの実行によって、webページ読込時間情報、位置情報及びアクセス先のwebサーバ装置70のアクセス先URL(Uniform Resource Locater)を収集し、収集された情報をAjax(Asynchronous JavaScript + XML)等を用いて故障被疑箇所推定装置100へ送信する。
Here, in the
1. A web server device 70 (web service provider) prepares a web page in which Javascript is embedded in advance.
2. Prepare a proxy, etc., and forcibly insert Javascript into all web pages that pass through the proxy.
3. The user is requested to register a web page in which Javascript is embedded in a bookmarklet or the like of the
By executing the Javascript, the
また、収集部101は、収集されたアクセス先URLを用いてDNSサーバ装置80を参照する(nslookup)ことによって、アクセス先URLに対応するアクセス先IPアドレスを取得する。続いて、収集部101は、取得されたアクセス先IPアドレスを用いてIP Geolocation装置を参照することによって、アクセス先IPアドレスに対応するwebサーバ装置70の位置情報、及び、ISP情報を取得する。
The collection unit 101 obtains an access destination IP address corresponding to the access destination URL by referring to the
ユーザ端末装置2がGeolocation APIによって当該ユーザ端末装置2の位置情報を収集する手法としては、位置情報を1回だけ取得するgetCurrentPosition、位置情報を定期的に監視して取得するwatchPosition、及び、watchPositionによる位置情報の監視をクリアするclearWatchのいずれか等が用いられる。
As a method for collecting the location information of the
なお、ユーザ端末装置2の位置情報に関しては、収集部101が、ユーザ端末装置2のIPアドレスを用いてIP Geolocation装置を参照することによっても取得可能である。
Note that the location information of the
<Navigation Timing APIによるwebページ読込時間情報>
Navigation Timing APIは、ユーザ端末装置2がブラウザでwebページを表示する際に、通信ネットワーク1のどこでどれだけの時間がかかっているのかを計測する手法である。図2に示すように、Navigation Timing APIによって計測されるプロセスは、Prompt for unload、redirect、unload、App cache、DNS、TCP、Request、Response、Processing、DOM Content Loaded、loadを含む。
<Web page reading time information by Navigation Timing API>
The Navigation Timing API is a method of measuring where and how long it takes in the communication network 1 when the
ユーザ端末装置2は、Navigation Timing APIによって、webページ読込時間情報として以下に示す時刻情報を計測し、計測結果を故障被疑箇所推定装置100へ送信する。
・startTime(navigationStart):Prompt for unloadの終了時刻
・redirectStart:redirectの開始時刻
・redirectEnd:redirectの終了時刻
・unloadEventStart:unloadの開始時刻
・unloadEventEnd:unloadの終了時刻
・fetchStart:App cacheの開始時刻
・domainLookupStart:DNSサーバ装置80におけるdomainLookupの開始時刻
・domainLookupEnd:DNSサーバ装置80におけるdomainLookupの終了時刻
・connectStart:TCP(Transmission Control Protocol)の接続開始時刻
・secureConnectionStart:TCPのsecureConnectionの開始時刻
・connectEnd:TCPの接続終了時刻
・requestStart:Requestの開始時刻
・responseStart:Responseの開始時刻
・responseEnd:Responseの終了時刻
・domLoading:Processingの開始時刻であり、ブラウザが最初に受け取ったHTML(Hyper Text Markup Language)ドキュメントのバイト解析の開始時刻(HTMLドキュメント自体の読込開始時刻)
・domInteractive:ブラウザがHTMLの解析を完了し、DOM(Document Object Model)構築を完了した時刻(HTMLドキュメントの読込が完了し、非同期に取得することができる画像等のリソースの読込開始時刻)
・domComplete:Processingの終了時刻であり、webページの全てのリソース(画像等)のダウンロードの完了時刻
・domContentLoadedEventStart:DOMContentLoadedの開始時刻
・domContentLoadedEventEnd:DOMContentLoadedの終了時刻
・loadEventStart:loadの開始時刻
・loadEventEnd:loadの終了時刻
The
-StartTime (navigationStart): Prompt for unload end time-redirectStart: redirect start time-redirectEnd: redirect end time-unloadEventStart: unload start time-unloadEventEnd: unload end time-fetchStart: App cache start time-domainLookupStart : DomainLookup start time in
・ DomInteractive: The time when the browser completes the HTML analysis and the DOM (Document Object Model) construction is completed (the reading start time of images and other resources that can be acquired asynchronously when the reading of the HTML document is completed)
-DomComplete: Processing end time, download completion time of all resources (images, etc.) on the web page-domContentLoadedEventStart: DOMContentLoaded start time-domContentLoadedEventEnd: DOMContentLoaded end time-loadEventStart: load start time-loadEventEnd: load End time of
収集部101は、ユーザ端末装置2によって送信されたwebページ読込時間情報(時刻情報)を受信し、受信されたwebページ読込時間情報に基づいて、計測値01〜13(webページ読込時間情報)を算出し、算出された計測値01〜13を推定部102へ出力する。
The collection unit 101 receives the web page reading time information (time information) transmitted by the
計測値01〜13について、図3を参照して説明する。
計測値01は、トータルのwebページ読込時間である。
(計測値01)=(loadEventEnd)−(navigationStart)
計測値01が長い場合には、通信ネットワーク1のどこかに故障が発生しているおそれがある。
計測値02は、redirectに要する時間である。
(計測値02)=(redirectEnd)−(redirectStart)
計測値02が長い場合には、ユーザ端末装置2に故障が発生しているおそれがある。
計測値03は、unloadに要する時間である。
(計測値03)=(unloadEventEnd)−(unloadEventStart)
計測値03が長い場合には、ユーザ端末装置2に故障が発生しているおそれがある。
計測値04は、App cacheに要する時間である。
(計測値04)=(domainLookupStart)−(fetchStart)
計測値04が長い場合には、ユーザ端末装置2に故障が発生しているおそれがある。
計測値05は、DNS(名前解決)に要する時間である。
(計測値05)=(domainLookupEnd)−(domainLookupStart)
計測値05が長い場合には、ユーザ端末装置2、アクセス網20、ISP網30及びDNSサーバ装置80の少なくとも一つに故障が発生しているおそれがある。
The measured values 01 to 13 will be described with reference to FIG.
The measured
(Measured value 01) = (loadEventEnd) − (navigationStart)
If the measured
The measured
(Measured value 02) = (redirectEnd) − (redirectStart)
When the measured
The
(Measured value 03) = (unloadEventEnd) − (unloadEventStart)
When the measured
The measured
(Measured value 04) = (domainLookupStart)-(fetchStart)
When the measured
The measured
(Measured value 05) = (domainLookupEnd)-(domainLookupStart)
When the measured
計測値06は、DNS(名前解決)からTCP-SYN送信までの内部処理に要する時間である。
(計測値06)=(connectStart)−(domainLookupEnd)
計測値06が長い場合には、ユーザ端末装置2に故障が発生しているおそれがある。
計測値07は、TCP接続処理(3-way handshake)に要する時間である。
(計測値07)=(connectEnd)−(connectStart)
計測値07が長い場合には、ユーザ端末装置2、アクセス網20、ISP網30、インターネット網40、DC網60、webサーバ装置70、VM(Vertial Machine)及びwebAPL(APpLication)の少なくとも一つに故障が発生しているおそれがある。ここで、webサーバ装置70は、ハードウェアリソース上に仮想化層として仮想化ソフトウェア(Hypervisor等)が実装されることによって仮想化されており、VM(Vertial Machine)として、1つの管理用仮想マシンと、複数の仮想マシンと、を備える。また、1つのVMにおいて、1つ以上のwebAPLが作動している。
計測値08は、TCP接続完了からHTTPリクエスト送信までの内部処理に要する時間である。
(計測値08)=(requestStart)−(connectEnd)
計測値08が長い場合には、ユーザ端末装置2に故障が発生しているおそれがある。
計測値09は、HTTPリクエスト送信から第一HTTPレスポンス受信までに要する時間である。
(計測値09)=(responseStart)−(requestStart)
計測値09は、ユーザ端末装置2→webAPL→ユーザ端末装置2の往復通過時間である。
計測値09が長い場合には、アクセス網20、ISP網30、インターネット網40、DC網60、webサーバ装置70、VM及びwebAPLの少なくとも一つに故障が発生しているおそれがある。
計測値10は、HTTPリクエスト受信に要する時間である。
(計測値10)=(responseEnd)−(responseStart)
計測値10は、webAPL→ユーザ端末装置2の片道通過時間である。
計測値10が長い場合には、アクセス網20、ISP網30、インターネット網40、DC網60、webサーバ装置70、VM及びwebAPLの少なくとも一つに故障が発生しているおそれがある。
The measured value 06 is the time required for internal processing from DNS (name resolution) to TCP-SYN transmission.
(Measured value 06) = (connectStart)-(domainLookupEnd)
When the measured value 06 is long, there is a possibility that a failure has occurred in the
The measured
(Measured value 07) = (connectEnd) − (connectStart)
When the measured
The measured
(Measured value 08) = (requestStart) − (connectEnd)
When the measured
The measured
(Measured value 09) = (responseStart) − (requestStart)
The measured
When the measured
The measured
(Measured value 10) = (responseEnd) − (responseStart)
The measured
When the
計測値11は、HTTPレスポンス受信完了からHTMLドキュメント読込開始までの内部処理に要する時間である。
(計測値11)=(domLoading)−(responseEnd)
計測値11が長い場合には、ユーザ端末装置2に故障が発生しているおそれがある。
計測値12は、HTMLドキュメント読込に要する時間である。
(計測値12)=(domInteractive)−(domLoading)
計測値12が長い場合には、ユーザ端末装置2に故障が発生しているおそれがある。
計測値13は、(非同期での)画像等読込に要する時間である。
(計測値13)=(domComplete)−(domInteractive)
計測値13が長い場合には、ユーザ端末装置2に故障が発生しているおそれがある。
The
(Measured value 11) = (domLoading) − (responseEnd)
When the measured
The measured
(Measured value 12) = (domInteractive) − (domLoading)
When the measured
The measured
(Measured value 13) = (domComplete) − (domInteractive)
When the measured
<CloudWatch APIによる応答性情報>
CloudWatch APIは、クラウドネットワーク4内の応答性に関する応答性情報を計測する手法である。クラウドネットワーク4内のロードバランサ50は、CloudWatch APIによって、以下に示す応答性情報を計測し、計測結果を故障被疑箇所推定装置100へ送信する。
・Latency(単位:秒):ロードバランサ50がリクエストを送信し、応答を受信するまでの経過時間
<Response information by CloudWatch API>
The CloudWatch API is a method for measuring responsiveness information related to responsiveness in the cloud network 4. The
Latency (unit: seconds): Elapsed time until the
<CloudWatch APIによる性能情報>
また、CloudWatch APIは、webサーバ装置70の性能に関する性能情報を計測する手法である。webサーバ装置(VMすなわちEC2)70は、CloudWatch APIによって、以下に示す性能情報を計測し、計測結果を故障被疑箇所推定装置100へ送信する。
・CPU Utilization(単位:%):割り当てられたEC2コンピュートユニットのうち、現在インスタンス上で使用されているものの比率
・NetworkIn(単位:Byte):指定インスタンスによって受信されたバイト数であり、1インスタンス上の1アプリケーションへのネットワークトラヒック量
・NetworkOut(単位:Byte):指定インスタンスから送信されたバイト数であり、1インスタンス上の1アプリケーションからのネットワークトラヒック量
本実施形態において、webサーバ装置70の性能に関する性能情報は、webサーバ装置70の稼働状態に関する稼働状態情報であるともいえる。
<Performance information by CloudWatch API>
The CloudWatch API is a method for measuring performance information related to the performance of the
-CPU Utilization (unit:%): Ratio of allocated EC2 compute units currently used on the instance-NetworkIn (unit: Byte): Number of bytes received by the specified instance, on one instance Network traffic amount to one application of the network / NetworkOut (unit: Byte): This is the number of bytes transmitted from the specified instance, and the network traffic amount from one application on one instance. In this embodiment, the performance of the
収集部101は、ロードバランサ50によって送信された応答性情報を受信し、受信された応答性情報に基づいて、計測値14〜18(応答性情報)を算出し、算出された計測値14〜18を推定部102へ出力する。
The collection unit 101 receives the responsiveness information transmitted by the
計測値14〜18について、図5を参照して説明する。
計測値14は、ロードバランサ50とwebAPL(VM)間のRTT(Round Trip Time)である。
(計測値14)=(Latency)
計測値14が長い場合には、DC網60、webサーバ装置70、VM及びwebAPLの少なくとも一つに故障が発生しているおそれがある。
計測値15は、webAPLのCPU使用率である。
(計測値15)=(CPU Utilization)
計測値15が大きい場合には、webサーバ装置70、VM及びwebAPLの少なくとも一つに故障が発生しているおそれがある。
計測値16は、webAPLへのネットワークトラヒック流入量である。
(計測値16)=(NetworkIn)
計測値16が急減した場合には、ユーザ端末装置2、アクセス網20、ISP網30、インターネット網40、DC網60、webサーバ装置70及びVMの少なくとも一つに故障が発生している、又は、単にトラヒック量が減少しているおそれがある。
計測値17は、webAPLからのネットワークトラヒック流出量である。
(計測値17)=(NetworkOut)
計測値17が急減した場合には、ユーザ端末装置2、アクセス網20、ISP網30、インターネット網40、DC網60、webサーバ装置70、VM及びwebAPLの少なくとも一つに故障が発生している、又は、単にトラヒック量が減少しているおそれがある。
計測値18は、webAPLにおけるトラヒック処理率である。
(計測値18)=(NetworkOut)/(NetworkIn)
計測値18が小さい場合には、webAPLに故障が発生しているおそれがある。
The measurement values 14 to 18 will be described with reference to FIG.
The measured
(Measured value 14) = (Latency)
When the measured
The measured
(Measured value 15) = (CPU Utilization)
When the measured
The
(Measured value 16) = (NetworkIn)
If the measured
The measured
(Measured value 17) = (NetworkOut)
When the measured
The measured
(Measured value 18) = (NetworkOut) / (NetworkIn)
When the measured
なお、収集部101が各計測値01〜18を算出する手法に代えて、ユーザ端末装置2及びロードバランサ50がそれぞれ各計測値01〜18を算出して故障被疑箇所推定装置100へ送信する構成であってもよい。
Instead of the method in which the collection unit 101 calculates the measured
<Geolocation APIによる位置情報>
Geolocation APIは、ユーザ端末装置2の位置情報を計測する手法である。ユーザ端末装置2は、Geolocation APIによって、図5に示す位置情報を計測し、計測結果を故障被疑箇所推定装置100へ送信する。
・latitude:緯度
・longitude:経度
・altitude:高度
・accuracy:緯度及び経度の誤差
・altitudeAccuracy:高度の誤差
・heading:方角
・speed:速度
<Location information by Geolocation API>
The Geolocation API is a technique for measuring position information of the
・ Latitude: latitude ・ longitude: longitude ・ altitude: altitude ・ accuracy: error in latitude and longitude ・ altitudeAccuracy: error in altitude ・ heading: direction ・ speed: speed
≪推定部≫
推定部102は、収集部101によって収集されて算出された計測値01〜18を取得し、取得された計測値01〜18に基づいて、故障被疑箇所を推定する。また、推定部102は、ネットワーク3が故障被疑箇所であると推定した場合に、収集されたユーザ端末装置2の位置情報に基づいて、ネットワーク3内における故障被疑箇所を絞り込む。かかる故障被疑箇所の推定手法及び絞り込み手法については、以下の動作例で詳細に説明する。
≪Estimation part≫
The
<動作例>
続いて、NavigationTiming API及びCloudWatch APIを用いた故障被疑箇所の推定方法(詳細には、計測値の収集後の閾値判定の方法)の一例について、図7及び図8を参照して説明する。なお、推定部102は、各計測値01〜14を閾値判定することによってE2Eサービスの品質劣化を検出し、各判定結果の組み合わせによって故障被疑箇所を推定する。推定部102は、計測値01〜14ごとの閾値を、過去の計測値に基づいて現在の計測値を最尤推定した推定結果に基づいて設定しており、かかる計測値01〜14ごとの閾値は、推定部102に予め記憶されている。閾値の設定には、各種分布、平均、最頻値(mode)等が利用可能である。すなわち、推定部102は、複数のユーザ端末装置2の計測値の計時変化を監視し、図6(a)に示すように1つのユーザ端末装置2に関する計測値が急増したり、図6(b)に示すように1つのユーザ端末装置2に関する計測値の他の計測値に対するバランスが崩れたりした場合に、故障被疑箇所があると推定する。なお、以下の動作例では、計測値07,17が使用されていないため、これらの計測値07,17の収集を省略することも可能である。
<Operation example>
Next, an example of a method for estimating a suspected fault location using the NavigationTiming API and the CloudWatch API (specifically, a method for determining a threshold value after collecting measurement values) will be described with reference to FIGS. In addition, the
図7に示すように、計測値01が閾値未満である場合(ステップS1でYes)には、E2Eサービスに遅延は発生していないため、推定部102は、サービス正常である(故障被疑箇所なし)と判定する(ステップS2)。
As shown in FIG. 7, when the measured
一方、計測値01が閾値以上である場合(ステップS1でNo)には、E2E(End toEnd)サービスに遅延が発生している。続いて、計測値14が閾値未満である場合(ステップS3でYes)には、クラウドネットワーク4内に遅延は発生していないため、推定部102は、ユーザ端末装置2及びネットワーク3(アクセス網20、ISP網30、インターネット網40及びDNSサーバ装置80)側に故障被疑箇所があると判定する(ステップS4)。
On the other hand, when the measured
一方、計測値14が閾値以上である場合(ステップS3でNo)には、クラウド(ロードバランサ50、DC網60及びwebサーバ装置70)内に遅延が発生しているため、推定部102は、クラウド側に故障被疑箇所があると判定する(ステップS5)。
On the other hand, when the measured
ステップS5の後、計測値15が閾値未満である場合(ステップS11でYes)には、webサーバ装置70、VM(Virtial Machine)及びwebAPL(A Programming Language)は正常であるため、推定部102は、DC網60が故障被疑箇所であると判定する(ステップS12)。
After step S5, when the measured
また、計測値15が閾値以上であり(ステップS11でNo)、計測値16が閾値未満である場合(ステップS13でYes)には、CPU使用率が高く、かつ、webAPLへの流入トラヒック量は増加していないため、推定部102は、webサーバ装置70、VM及びwebAPLの少なくとも一つが故障被疑箇所であると判定する(ステップS14)。
If the measured
また、計測値16が閾値以上であり(ステップS13でNo)、計測値18が閾値未満である場合(ステップS15でYes)には、webAPLへの流入トラヒック量が増加しており、かつ、webAPLの処理率が低下しているため、推定部102は、webAPLが故障被疑箇所であると判定する(ステップS16)。
Further, when the measured
また、計測値15が閾値以上、計測値16が閾値以上、かつ、計測値18が閾値以上である場合(ステップS11,S13,S15でNo)には、CPU使用率が高く、webAPLへの流入トラヒック量が増加し、かつ、webAPLの処理率は正常であるため、推定部102は、サービス正常(ユーザ利用が増加した)と判定する(ステップS17)。
When the measured
なお、ステップS11,S13,S15における閾値判定は、順序を入れ替えて行われてもよく、並列に行われてもよい。 In addition, the threshold determination in steps S11, S13, and S15 may be performed by changing the order, or may be performed in parallel.
また、ステップS4の後、図8に示すように、計測値02〜04,06,08,11〜13のいずれかがそれぞれの閾値未満である場合(ステップS21でYes)には、ユーザ端末装置2内での各処理は正常であるため、推定部102は、アクセス網20、ISP網30、インターネット網40及びDNSサーバ装置80の少なくとも一つが故障被疑箇所であると判定する(ステップS22)。
Further, after step S4, as shown in FIG. 8, when any of the measured
ステップS22の後、計測値05が閾値未満である場合(ステップS23でYes)には、アクセス網20、ISP網30及びDNSサーバ装置80は正常であるため、推定部102は、インターネット網40が故障被疑箇所であると判定する(ステップS24)。
If the measured
また、計測値05が閾値以上であり(ステップS23でNo)、計測値09,10がともにそれぞれの閾値未満である場合(ステップS25でYes)には、アクセス網20及びISP網30は正常であるため、推定部102は、DNSサーバ装置80が故障被疑箇所であると判定する(ステップS26)。
Further, when the measured
一方、計測値05が閾値以上、かつ、計測値09,10の閾値のいずれかがそれぞれの閾値以上である場合(ステップS23,S25でNo)には、アクセス網20及びISP網30が異常であるため、推定部102は、アクセス網20、ISP網30及びインターネット網40の少なくとも一つが故障被疑箇所であると判定する(ステップS27)。
On the other hand, when the measured
また、計測値02〜04,06,08,11〜13の閾値がともにそれぞれの閾値以上である場合(ステップS21でNo)には、ユーザ端末装置2内での処理のいずれかが異常であるため、推定部102は、ユーザ端末装置2が故障被疑箇所であると判定する(ステップS28)。
When the threshold values of the measurement values 02 to 04, 06, 08, and 11 to 13 are both equal to or greater than the respective threshold values (No in step S21), one of the processes in the
なお、ステップS23,S25における閾値判定は、順序を入れ替えて行われてもよく、並列に行われてもよい。 In addition, the threshold determination in steps S23 and S25 may be performed by changing the order, or may be performed in parallel.
また、ステップS27の後に、推定部102は、アクセス網20、ISP網30及びインターネット網40の少なくとも一つが故障被疑箇所であるという判定結果と関連するユーザ端末装置2の位置情報に基づいて、故障被疑箇所を絞り込む(ステップS29)。例えば、推定部102は、当該判定結果が得られたユーザ端末装置2の位置情報が、ある地域に集中している場合には、当該地域に対応するアクセス網20が故障被疑箇所であると推定する。また、推定部102は、当該判定結果が得られたユーザ端末装置2の位置情報が広範囲(例えば、複数(2つ,3つ程度)の都道府県に跨る範囲)にわたる場合には、当該広範囲に対応するISP網30が故障被疑箇所であると推定する。また、推定部102は、前記以外、すなわち、当該判定結果が得られたユーザ端末装置2の位置情報がさらに広範囲にわたる場合には、インターネット網40が故障被疑箇所であると推定する。
In addition, after step S27, the
本発明の実施形態に係る故障被疑箇所推定装置100及び故障被疑箇所推定方法は、webページ読込時間情報(例えば、NavigationTiming APIによって計測)、応答性情報(例えば、CloudWatch APIによって計測)及び性能情報(例えば、CloudWatch APIによって計測)を用いて通信ネットワーク1における故障被疑箇所を推定するので、複数事業者を跨いだE2Eサービスや大規模なE2Eサービスにおいても故障被疑箇所を好適に推定することができる。
また、故障被疑箇所推定装置100及び故障被疑箇所推定方法は、webサービス以外のサービスに関しても、故障被疑箇所において何らかの影響があると間接的に推定することができる。
The suspected failure
Moreover, the failure suspected
また、故障被疑箇所推定装置100及び故障被疑箇所推定方法は、ネットワーク3が故障被疑箇所である場合にユーザ端末装置2の位置情報に基づいて故障被疑箇所を絞り込むので、故障被疑箇所をより好適に推定することができる。
Further, the suspected failure
以上、本発明の実施形態について説明したが、本発明は前記実施形態に限定されず、本発明の要旨を逸脱しない範囲で適宜変更可能である。例えば、ステップS12,S14の後にそれぞれステップS13,S15へ移行するフローとしたり、ステップS24の後にステップS25へ移行するフローとしたりすることによって、多重の故障被疑箇所をより好適に推定することができる。
また、本発明は、コンピュータを故障被疑箇所推定装置100として機能させる故障被疑箇所推定プログラムとしても具現化可能である。
As mentioned above, although embodiment of this invention was described, this invention is not limited to the said embodiment, In the range which does not deviate from the summary of this invention, it can change suitably. For example, multiple suspected fault locations can be estimated more suitably by using a flow that moves to steps S13 and S15 after steps S12 and S14, or a flow that moves to step S25 after step S24. .
The present invention can also be embodied as a suspected failure location estimation program that causes a computer to function as the failure suspected
1 通信ネットワーク
2 ユーザ端末装置
3 ネットワーク
4 クラウドネットワーク
70 webサーバ装置
100 故障被疑箇所推定装置
101 収集部
102 推定部
DESCRIPTION OF SYMBOLS 1
Claims (6)
前記通信ネットワークの各部位におけるwebページ読込に要する時間に関するwebページ読込時間情報と、前記クラウドネットワーク内の応答性に関する応答性情報と、前記webサーバ装置の性能に関する性能情報と、を収集する収集部と、
収集された前記webページ読込時間情報、前記応答性情報及び前記性能情報に基づいて、前記通信ネットワークにおける前記故障被疑箇所を推定する推定部と、
を備えることを特徴とする故障被疑箇所推定装置。 A suspected failure location estimation device for estimating a suspected failure location in a communication network between a user terminal device and a web server device in a cloud network,
A collection unit that collects web page reading time information relating to the time required for web page reading in each part of the communication network, responsiveness information relating to responsiveness in the cloud network, and performance information relating to the performance of the web server device. When,
Based on the collected web page reading time information, the responsiveness information, and the performance information, an estimation unit that estimates the suspected failure location in the communication network;
An apparatus for estimating a suspected fault location, comprising:
前記収集部は、前記ユーザ端末装置の位置情報を収集し、
前記推定部は、前記ネットワークが前記故障被疑箇所であると推定した場合に、収集された前記位置情報に基づいて、前記ネットワーク内における前記故障被疑箇所を絞り込む
ことを特徴とする請求項1に記載の故障被疑箇所推定装置。 The communication network includes a network that connects the user terminal device and the cloud network in a communicable manner,
The collection unit collects position information of the user terminal device,
The said estimation part narrows down the said suspected fault location in the said network based on the collected said positional information, when the said network presumes that it is the said suspected fault location. Failure suspected part estimation device.
前記故障被疑箇所推定装置が、前記通信ネットワークの各部位におけるwebページ読込に要する時間に関するwebページ読込時間情報と、前記クラウドネットワーク内の応答性に関する応答性情報と、前記webサーバ装置の性能に関する性能情報と、を収集する収集ステップと、
前記故障被疑箇所推定装置が、収集された前記webページ読込時間情報、前記応答性情報及び前記性能情報に基づいて、前記通信ネットワークにおける前記故障被疑箇所を推定する推定ステップと、
を含むことを特徴とする故障被疑箇所推定方法。 A suspected fault location estimation method by a suspected fault location estimation device that estimates a suspected fault location in a communication network between a user terminal device and a web server device in a cloud network,
Web page reading time information related to the time required for Web page reading in each part of the communication network, the responsiveness information related to the responsiveness in the cloud network, and the performance related to the performance of the web server device. A collection step for collecting information; and
An estimation step in which the suspected failure location estimation device estimates the suspected failure location in the communication network based on the collected web page reading time information, the responsiveness information, and the performance information;
A suspected failure point estimation method characterized by comprising:
前記収集ステップにおいて、前記故障被疑箇所推定装置が、前記ユーザ端末装置の位置情報を収集し、
前記推定ステップにおいて、前記故障被疑箇所推定装置が、前記ネットワークが前記故障被疑箇所であると推定した場合に、収集された前記位置情報に基づいて、前記ネットワーク内における前記故障被疑箇所を絞り込む
ことを特徴とする請求項3に記載の故障被疑箇所推定方法。 The communication network includes a network that connects the user terminal device and the cloud network in a communicable manner,
In the collecting step, the failure suspected place estimating device collects position information of the user terminal device,
In the estimation step, the suspected fault location estimating apparatus narrows down the suspected fault location in the network based on the collected location information when the network presumes that the network is the suspected fault location. The method for estimating a suspected fault location according to claim 3.
前記通信ネットワークの各部位におけるwebページ読込に要する時間に関するwebページ読込時間情報と、前記クラウドネットワーク内の応答性に関する応答性情報と、前記webサーバ装置の性能に関する性能情報と、を収集する収集部、
収集された前記webページ読込時間情報、前記応答性情報及び前記性能情報に基づいて、前記通信ネットワークにおける前記故障被疑箇所を推定する推定部、
として機能させる故障被疑箇所推定プログラム。 A computer as a suspected failure location estimating device for estimating a suspected failure location in a communication network between a user terminal device and a web server device in a cloud network,
A collection unit that collects web page reading time information relating to the time required for web page reading in each part of the communication network, responsiveness information relating to responsiveness in the cloud network, and performance information relating to the performance of the web server device. ,
Based on the collected web page reading time information, the responsiveness information, and the performance information, an estimation unit that estimates the suspected failure location in the communication network,
Failure suspected part estimation program to function as.
前記収集部は、前記ユーザ端末装置の位置情報を収集し、
前記推定部は、前記ネットワークが前記故障被疑箇所であると推定した場合に、収集された前記位置情報に基づいて、前記ネットワーク内における前記故障被疑箇所を絞り込む
ことを特徴とする請求項5に記載の故障被疑箇所推定プログラム。 The communication network includes a network that connects the user terminal device and the cloud network in a communicable manner,
The collection unit collects position information of the user terminal device,
The said estimation part narrows down the said suspected fault location in the said network based on the collected said positional information, when it presumes that the said network is the said suspected fault location. Failure suspected part estimation program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016033992A JP6471110B2 (en) | 2016-02-25 | 2016-02-25 | Suspected failure location estimation apparatus, failure location estimation method, and failure location estimation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016033992A JP6471110B2 (en) | 2016-02-25 | 2016-02-25 | Suspected failure location estimation apparatus, failure location estimation method, and failure location estimation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017152949A JP2017152949A (en) | 2017-08-31 |
JP6471110B2 true JP6471110B2 (en) | 2019-02-13 |
Family
ID=59739904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016033992A Active JP6471110B2 (en) | 2016-02-25 | 2016-02-25 | Suspected failure location estimation apparatus, failure location estimation method, and failure location estimation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6471110B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11042465B1 (en) * | 2020-09-02 | 2021-06-22 | Coupang Corp. | Systems and methods for analyzing application loading times |
JP7047950B1 (en) | 2021-02-24 | 2022-04-05 | 沖電気工業株式会社 | Processing devices, name resolution servers, terminal devices, methods and programs |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5195953B2 (en) * | 2011-03-02 | 2013-05-15 | 沖電気工業株式会社 | Abnormal link estimation device, abnormal link estimation method, program, and abnormal link estimation system |
JP5655049B2 (en) * | 2012-09-28 | 2015-01-14 | 株式会社富士通エフサス | Determination device, determination method, and determination program |
JP6220625B2 (en) * | 2013-10-10 | 2017-10-25 | 株式会社野村総合研究所 | Delay monitoring system and delay monitoring method |
-
2016
- 2016-02-25 JP JP2016033992A patent/JP6471110B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017152949A (en) | 2017-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8135829B2 (en) | Utilizing a single agent on a non-origin node for measuring the roundtrip response time of web pages with embedded HTML frames | |
JP4651542B2 (en) | Network delay measuring method and apparatus | |
US9766947B2 (en) | Methods and apparatus to monitor server loads | |
US10225167B2 (en) | Method and system for determining page impression in a client-server system | |
CN103067214B (en) | For testing the method for web site performance, client, server and system | |
CN117176711A (en) | Method, apparatus and storage medium for monitoring service | |
WO2018094654A1 (en) | Vpn transmission tunnel scheduling method and device, and vpn client-end server | |
US9503506B2 (en) | Transit-mode-based webpage accessing method, system, and crawler route server | |
EP3609134B1 (en) | Bgp anycast cluster service quality detection method and detection apparatus | |
US20150358225A1 (en) | Method and System For Testing a Broadband Internet Bandwidth | |
US20210184940A1 (en) | Prediction of a performance indicator | |
CN105610995A (en) | Selection method of DNS server, selection device of the DNS server and terminal | |
JP6471110B2 (en) | Suspected failure location estimation apparatus, failure location estimation method, and failure location estimation program | |
US7580365B2 (en) | System and method utilizing a single agent on a non-origin node for measuring the roundtrip response time over a public or private network with HTTP/HTTPS network protocol | |
CN107992416B (en) | Method and device for determining webpage time delay | |
US20230239225A1 (en) | Performace measurement by a user communication device | |
WO2015195407A1 (en) | Method and apparatus for monitoring and determining page load times | |
KR20110057529A (en) | A system of measuring server's response time by using a dummy request tag and the method thereof | |
Al-Sadi et al. | Developing an asynchronous technique to evaluate the performance of SDN HP Aruba switch and OVS | |
Mandalari et al. | Informing protocol design through crowdsourcing: the case of pervasive encryption | |
JP2012093841A (en) | Mediation server, and access analysis method and program by mediation server | |
US20230308392A1 (en) | Linked Packet Tracing for Software Load Balancers | |
JP6787846B2 (en) | Suspected location estimation device and suspected location estimation method | |
JP2018032983A (en) | Terminal device and communication monitoring method | |
Paul et al. | Impact of HTTP object load time on web browsing qoe |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6471110 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |