JP2021196970A

JP2021196970A - 遅延原因特定方法および遅延原因特定プログラム

Info

Publication number: JP2021196970A
Application number: JP2020103985A
Authority: JP
Inventors: 二美飯倉; Futami Iikura; 乾横山; Ken Yokoyama
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2021-12-27
Also published as: EP3926928A1; US20210390005A1

Abstract

【課題】サービスの応答遅延の原因を特定する際の精度を向上させること。【解決手段】遅延原因特定装置は、ＭＳ−ＢにおけるＭＳ−Ｃの応答時間の遅れが検知された場合、ＭＳ−ＢからＭＳ−Ｃへのワークロード間の経路ごとに、ＭＳ−Ｂのスパンの統計値を算出する。遅延原因特定装置は、経路ごとの統計値に基づいて、ＭＳ−Ｂのスパンが有意に長い経路に共通する呼び出し先マイクロサービスのワークロードが存在するか否かを判定する。遅延原因特定装置は、ＭＳ−Ｂのスパンの異常時および正常時における平均値の第１の差と、ＭＳ−ＢにおけるＭＳ−Ｃの応答時間の異常時および正常時における平均値の第２の差とが同じであるか否かを判定する。遅延原因特定装置は、ＭＳ−Ｂのスパンが有意に長い経路に共通するＭＳ−Ｃ２があり、第１の差と第２の差とが同じであると判定した場合に、ＭＳ−Ｃ２に関連するネットワークに遅延があると判定する。【選択図】図１２

Description

本発明は、遅延原因特定方法および遅延原因特定プログラムに関する。

近年、ＩＴ（ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ）システムの開発において、１つのサービスを複数のマイクロサービスに分割し、マイクロサービス間をＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）で接続するアーキテクチャが利用されている。

先行技術としては、複数のサービスに係る送信元側の受信時刻および送信先側の送信時刻を含む通信情報を取得し、送信時刻から遡って所定時間以内の受信時刻を有する送信元候補をサービスごとに抽出し、各サービスの送信元候補に基づき、サービス間の関係を示す関係図を生成するものがある。

特開２０１８−０８１４４０号公報

しかしながら、従来技術では、マイクロサービスアーキテクチャの応答遅延の原因調査において、サービスの応答遅延の原因が、サービスの処理にあるのか、ネットワークにあるのかを特定することが難しい。

一つの側面では、本発明は、サービスの応答遅延の原因を特定する際の精度を向上させることを目的とする。

一つの実施態様では、呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の遅れが検知された場合に、前記呼び出し元マイクロサービスに対応する呼び出し元ワークロードから前記呼び出し先マイクロサービスに対応する複数の呼び出し先ワークロードへの経路ごとに、前記呼び出し元ワークロードの処理時間の統計値を算出し、算出した前記経路ごとの前記統計値に基づいて、前記経路のうちの前記呼び出し元マイクロサービスの処理時間が相対的に長い経路に共通する呼び出し先ワークロードが存在すると判定され、かつ、前記呼び出し元マイクロサービスの処理時間の異常時および正常時における平均値の差と、前記呼び出し元マイクロサービスにおける前記呼び出し先マイクロサービスの応答時間の異常時および正常時における平均値の差とが所定の範囲内であると判定された場合に、前記呼び出し先マイクロサービスに関連するネットワークもしくは呼び出し先マイクロサービスが遅延原因であると判定する、遅延原因特定方法が提供される。

本発明の一側面によれば、サービスの応答遅延の原因を特定する際の精度を向上させることができるという効果を奏する。

図１は、実施の形態にかかる情報処理システム１００のシステム構成例を示す説明図である。図２は、マイクロサービスアーキテクチャの実装例を示す説明図である。図３は、マイクロサービスの具体例を示す説明図である。図４は、トレースとタイマーとの関係を示す説明図である。図５は、遅延原因特定装置１０１のハードウェア構成例を示すブロック図である。図６は、タイマーデータの具体例を示す説明図である。図７は、トレースデータの具体例を示す説明図である。図８は、遅延原因特定装置１０１の機能的構成例を示すブロック図である。図９は、マイクロサービスの応答時間の遅れの検知例を示す説明図である。図１０は、経路別送信元スパン統計表の具体例を示す説明図である。図１１は、マイクロサービスのスパンと応答時間との関係を示す説明図である。図１２は、ワークロード間の経路別のスパンの長さを示す説明図である。図１３は、遅延原因特定装置１０１の第１の遅延原因特定処理手順の一例を示すフローチャート（その１）である。図１４は、遅延原因特定装置１０１の第１の遅延原因特定処理手順の一例を示すフローチャート（その２）である。図１５は、第１の差算出処理の具体的処理手順の一例を示すフローチャートである。図１６は、第２の差算出処理の具体的処理手順の一例を示すフローチャートである。図１７は、遅延原因特定装置１０１の第２の遅延原因特定処理手順の一例を示すフローチャート（その１）である。図１８は、遅延原因特定装置１０１の第２の遅延原因特定処理手順の一例を示すフローチャート（その２）である。図１９は、遅延原因特定装置１０１の第２の遅延原因特定処理手順の一例を示すフローチャート（その３）である。

以下に図面を参照して、本発明にかかる遅延原因特定方法および遅延原因特定プログラムの実施の形態を詳細に説明する。

（実施の形態）
まず、実施の形態にかかる情報処理システム１００のシステム構成例について説明する。情報処理システム１００は、例えば、マイクロサービスアーキテクチャを利用してウェブサービスを提供するコンピュータシステムに適用される。

図１は、実施の形態にかかる情報処理システム１００のシステム構成例を示す説明図である。図１において、情報処理システム１００は、遅延原因特定装置１０１と、複数の処理装置１０２と、ＡＰＭ（ＡｐｐｌｉｃａｔｉｏｎＰｅｒｆｏｒｍａｎｃｅＭｏｎｉｔｏｒｉｎｇ）システム１０３と、分散トレーシングシステム１０４と、運用者端末１０５と、を含む。情報処理システム１００において、遅延原因特定装置１０１、処理装置１０２、ＡＰＭシステム１０３、分散トレーシングシステム１０４および運用者端末１０５は、有線または無線のネットワーク１１０を介して接続される。ネットワーク１１０は、例えば、インターネット、ＬＡＮ、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などである。

遅延原因特定装置１０１は、マイクロサービスの応答遅延の原因を特定するコンピュータである。マイクロサービスは、１つのサービスを機能ごとに分割したアーキテクチャである。例えば、１つのサービスを複数のマイクロサービスに分割することで、機能追加やメンテナンスが行いやすくなり、開発スピードの向上につなげることができる。

処理装置１０２は、マイクロサービスを実行するコンピュータである。処理装置１０２は、例えば、ＶＭ（ＶｉｒｔｕａｌＭａｃｈｉｎｅ）やコンテナを実行可能である。ＶＭは、物理的なコンピュータのハードウェア資源を分割して構築される実行環境で動作する仮想的なコンピュータである。

ＶＭは、例えば、ハイパーバイザによりハードウェア資源を仮想化することにより実現される。コンテナは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）のカーネルを内部で分割して作成されるユーザ空間に相当し、ＯＳのプロセスのひとつとして動作する。マイクロサービスは、例えば、ＶＭやコンテナで実装される。

１つのサービスを分割した複数のマイクロサービスのマイクロサービス間は、ＡＰＩで接続される。また、マイクロサービスは、１または複数のワークロードにより実現される。ワークロードは、マイクロサービスの実体である。ここで、図２を用いて、マイクロサービスアーキテクチャの実装例について説明する。

以下の説明では、任意のマイクロサービス＃を「ＭＳ−＃」と表記する場合がある。

図２は、マイクロサービスアーキテクチャの実装例を示す説明図である。図２において、ノードＮ１〜Ｎ４は、マイクロサービスを実行するコンピュータであり、例えば、処理装置１０２に相当する。マイクロサービスのワークロードは、マイクロサービスの可用性を高めるため、複数のノードに分散される。

例えば、ＭＳ−Ａ１およびＭＳ−Ａ２は、ＭＳ−Ａのワークロードであり、ノードＮ１，Ｎ３に分散して配置されている。また、ＭＳ−Ｂ１およびＭＳ−Ｂ２は、ＭＳ−Ｂのワークロードであり、ノードＮ１，Ｎ２に分散して配置されている。また、ＭＳ−Ｃ１およびＭＳ−Ｃ２は、ＭＳ−Ｃのワークロードであり、ノードＮ２，Ｎ４に分散して配置されている。

図１の説明に戻り、ＡＰＭシステム１０３は、既存のＡＰＭ（アプリケーションパフォーマンス監視）により、アプリケーションの性能を監視するコンピュータシステムである。例えば、ＡＰＭシステム１０３は、ＡＰＭツールにより、マイクロサービスのＡＰＩ呼び出しにかかるメトリクスを収集して、異常を検知する。

メトリクスとしては、例えば、ＡＰＩ呼び出しの単位時間当たりの回数、エラー率、マイクロサービスの応答時間などが収集される。メトリクスは、例えば、処理装置１０２において各マイクロサービスの処理の中で計測される情報をもとに計算され、不図示のエージェントを介して、処理装置１０２からＡＰＭシステム１０３に送信される。

例えば、ＭＳ−ＢからＭＳ−Ｃを呼び出す場合を想定する。この場合、ＭＳ−Ｂの処理の中で、ＡＰＭのタイマーにより、ＭＳ−Ｃにリクエストを送信してから、ＭＳ−Ｃからのレスポンスを受信するまでの時間を計測することで、ＭＳ−Ｂ（呼び出し元）におけるＭＳ−Ｃ（呼び出し先）の応答時間が計測される。

ただし、ＡＰＭのタイマーにより計測された情報は収集時に統計値に変換される。例えば、タイマーにより計測されたＭＳ−Ｃの応答時間は、一旦バッファに記録され、一定時間（例えば、１分）ごとに、バッファに記録された応答時間の統計値（例えば、平均、標準偏差など）が計算されて、ＡＰＭシステム１０３に送信される。

また、呼び出し元マイクロサービスにおいて、呼び出し先マイクロサービスのワークロードを特定することができないことが多い。したがって、ＡＰＭのタイマーにより計測される応答時間は、ワークロード単位の応答時間ではなく、マイクロサービス単位の応答時間となる。

分散トレーシングシステム１０４は、既存の分散トレーシングにより、ワークロード単位のスパン（処理時間）を計測するコンピュータシステムである。スパンは、各ワークロードが、リクエストを受けてからレスポンスを返すまでの時間である。スパンは、例えば、ワークロードを実行する処理装置１０２において計測され、不図示のエージェントを介して、処理装置１０２から分散トレーシングシステム１０４に送信される。

例えば、ＭＳ−Ｂ２からＭＳ−Ｃ２を呼び出す場合を想定する。この場合、ＭＳ−Ｃ２が配置された処理装置１０２（ＶＭ、コンテナ）において、ＭＳ−Ｃ２が呼び出し元のＭＳ−Ｂ２からリクエストを受けてから、呼び出し元のＭＳ−Ｂ２にレスポンスを返すまでの時間を計測することで、ＭＳ−Ｃ２のスパンが計測される。

運用者端末１０５は、サービスの運用者が使用するコンピュータである。例えば、サービスの運用者は、運用者端末１０５において、遅延原因特定装置１０１によって特定されるマイクロサービスの応答遅延の原因を確認することができる。運用者端末１０５は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット端末などである。

なお、遅延原因特定装置１０１、ＡＰＭシステム１０３、分散トレーシングシステム１０４および処理装置１０２は、例えば、クラウドコンピューティングのサーバにより実現される。また、ＡＰＭシステム１０３および分散トレーシングシステム１０４は、同一のサーバにより実現されてもよい。また、ＡＰＭシステム１０３および分散トレーシングシステム１０４は、遅延原因特定装置１０１や、複数の処理装置１０２のいずれかの処理装置１０２により実現されてもよい。

ここで、図３を用いて、１つのサービスを分割したマイクロサービスの具体例を説明する。

図３は、マイクロサービスの具体例を示す説明図である。図３において、ＭＳ−Ａ、ＭＳ−ＢおよびＭＳ−Ｃは、１つのサービスを分割した複数のマイクロサービスの一例である。ＭＳ−Ａ、ＭＳ−ＢおよびＭＳ−Ｃは、クライアントからのリクエストに応じて実行される一連のマイクロサービスである。

図３において、ＭＳ−Ａ、ＭＳ−ＢおよびＭＳ−Ｃは、リクエストに応じて「ＭＳ−Ａ⇒ＭＳ−Ｂ⇒ＭＳ−Ｃ」の順に呼び出される。ここで、ＭＳ−ＢからＭＳ−Ｃの呼び出しに着目し、ＭＳ−ＢのワークロードであるＭＳ−Ｂ２から、ＭＳ−ＣのワークロードであるＭＳ−Ｃ２が呼び出される場合を想定する。

ＭＳ−Ｂ２は、物理サーバ３０１上で動作するＶＭ１で実行される。ＭＳ−Ｃ２は、物理サーバ３０２上で動作するＶＭ２で実行される。物理サーバ３０１，３０２は、図１に示した処理装置１０２に相当する。ＭＳ−Ｂ２，ＭＳ−Ｃ２間の通信経路上には、ＶＭ１に対応する仮想ＳＷ１、物理サーバ３０１，３０２間の物理ＳＷ３０３およびＶＭ２に対応する仮想ＳＷ２が存在する。

ここで、マイクロサービスの障害分析において、トレースを使用して応答遅延の原因調査を行う場合がある。トレースは、１つのサービスを実現する複数のマイクロサービスの各々のマイクロサービスのスパン（ワークロードのスパン）をまとめたものであり、ワークロード単位のスパンの長さを特定可能な情報である。図３の例では、トレースから、ＭＳ−Ｂ２のスパンおよびＭＳ−Ｃ２のスパンを特定することができる。

しかし、分散トレーシングのスパンの伸長だけでは、サービスの応答遅延が、サービスの処理にあるのか、ネットワーク（通信経路）にあるのかを特定することが難しい。ネットワークに問題がある場合、原因箇所としては、仮想ＳＷ、物理サーバ、物理ＳＷなどがありえる。

例えば、ＭＳ−Ｂ２からＭＳ−Ｃ２への通信経路上の仮想ＳＷ２で遅延が起きたとする。この場合、ＭＳ−Ｃ２の処理自体は問題ないため、ＭＳ−Ｃ２のスパンの長さは通常通りとなる。一方、ＭＳ−Ｂ２のスパンは、ＭＳ−Ｂ２の処理自体に問題がなくても、通常より長くなる。このため、スパンの伸長だけをもとに、ＭＳ−Ｂ２を実行している側に問題があると判断してしまうと、遅延原因を特定することが難しくなる。

ここで、ＡＰＭのタイマーでは、呼び出し元マイクロサービスにおける、呼び出し先マイクロサービスの応答時間を計測することができる。分散トレーシングでは、呼び出し先マイクロサービスのワークロードの処理時間を計測することができる。このため、ＡＰＭのタイマーにより計測される呼び出し先マイクロサービスの応答時間と、分散トレーシングにより計測される呼び出し先のワークロードでの処理時間との差分を取ることができれば、通信にかかった時間を得ることができる。

図４は、トレースとタイマーとの関係を示す説明図である。図４において、ＭＳ−Ａ、ＭＳ−ＢおよびＭＳ−Ｃそれぞれの処理時間（スパン）を表すバー４０１，４０２，４０３が時間軸上に示されている。例えば、バー４０３は、ＭＳ−ＣＳｐａｎを表している。ＭＳ−ＣＳｐａｎは、分散トレーシングにより計測されるＭＳ−Ｃの処理時間である。また、ＭＳ−Ｃｔｉｍｅｒは、ＡＰＭのタイマーにより計測されるＭＳ−ＢにおけるＭＳ−Ｃの応答時間である。

このため、ＭＳ−ＣｔｉｍｅｒとＭＳ−ＣＳｐａｎとの差分を取ることができれば、ＭＳ−Ｂ，ＭＳ−Ｃ間の通信経路でかかった時間を得ることができる。しかし、ＡＰＭのタイマーにより計測された情報は収集時に統計値に丸められる。したがって、ＡＰＭのタイマーにより計測される応答時間（例えば、ＭＳ−Ｃｔｉｍｅｒ）は、トレースのスパン（例えば、ＭＳ−ＣＳｐａｎ）と直接比較することができない。

なお、通信経路の遅延を調べる既存手法として、パケットキャプチャの技術を利用するものがある。パケットキャプチャは、通信回線を流れるパケットをキャプチャして、パケットを解析したり、集計したりすることである。しかし、パケットキャプチャを常時行うことはコスト的に難しく、過去に遅延はあったが現在は解消しているといった状況の場合、原因箇所の特定にパケットキャプチャは使えない。

また、通信経路のスイッチなどに保存されるメトリクスを用いて、通信経路の遅延を調べることも考えられる。しかし、スイッチなどに保存されるメトリクスは、サービスの運用者とは異なるインフラの運用者が管理している場合がある。この場合、サービスの運用者は、直接メトリクスを見ることができない。

そこで、本実施の形態では、マイクロサービスの性能監視のために一般的に収集されるＡＰＭタイマーや分散トレーシングのメトリクスを利用して、サービスの応答遅延の原因を特定する際の精度を向上させる遅延原因特定方法について説明する。

（遅延原因特定装置１０１のハードウェア構成例）
図５は、遅延原因特定装置１０１のハードウェア構成例を示すブロック図である。図５において、遅延原因特定装置１０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５０１と、メモリ５０２と、ディスクドライブ５０３と、ディスク５０４と、通信Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）５０５と、可搬型記録媒体Ｉ／Ｆ５０６と、可搬型記録媒体５０７と、を有する。また、各構成部は、バス５００によってそれぞれ接続される。

ここで、ＣＰＵ５０１は、遅延原因特定装置１０１の全体の制御を司る。ＣＰＵ５０１は、複数のコアを有していてもよい。メモリ５０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭがＯＳのプログラムを記憶し、ＲＯＭがアプリケーションプログラムを記憶し、ＲＡＭがＣＰＵ５０１のワークエリアとして使用される。メモリ５０２に記憶されるプログラムは、ＣＰＵ５０１にロードされることで、コーディングされている処理をＣＰＵ５０１に実行させる。

ディスクドライブ５０３は、ＣＰＵ５０１の制御に従ってディスク５０４に対するデータのリード／ライトを制御する。ディスク５０４は、ディスクドライブ５０３の制御で書き込まれたデータを記憶する。ディスク５０４としては、例えば、磁気ディスク、光ディスクなどが挙げられる。

通信Ｉ／Ｆ５０５は、通信回線を通じてネットワーク１１０に接続され、ネットワーク１１０を介して外部のコンピュータ（例えば、図１に示した処理装置１０２、ＡＰＭシステム１０３、分散トレーシングシステム１０４、運用者端末１０５など）に接続される。そして、通信Ｉ／Ｆ５０５は、ネットワーク１１０と装置内部とのインターフェースを司り、外部のコンピュータからのデータの入出力を制御する。

可搬型記録媒体Ｉ／Ｆ５０６は、ＣＰＵ５０１の制御に従って可搬型記録媒体５０７に対するデータのリード／ライトを制御する。可搬型記録媒体５０７は、可搬型記録媒体Ｉ／Ｆ５０６の制御で書き込まれたデータを記憶する。可搬型記録媒体５０７としては、例えば、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）−ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリなどが挙げられる。

なお、遅延原因特定装置１０１は、上述した構成部のほかに、例えば、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、入力装置、ディスプレイ等を有することにしてもよい。また、遅延原因特定装置１０１は、上述した構成部のうち、例えば、ディスクドライブ５０３、ディスク５０４、可搬型記録媒体Ｉ／Ｆ５０６、可搬型記録媒体５０７を有していなくてもよい。

また、図１に示した処理装置１０２、ＡＰＭシステム１０３、分散トレーシングシステム１０４および運用者端末１０５についても、遅延原因特定装置１０１と同様のハードウェア構成により実現することができる。ただし、運用者端末１０５は、上述した構成部のほかに、例えば、入力装置、ディスプレイを有する。

（タイマーデータの具体例）
つぎに、図６を用いて、遅延原因特定装置１０１が用いるタイマーデータの具体例について説明する。タイマーデータは、例えば、ＡＰＭシステム１０３において生成されて、遅延原因特定装置１０１に送信される。

図６は、タイマーデータの具体例を示す説明図である。図６において、タイマーデータ６００は、複数の応答時間データ（例えば、応答時間データ６００−１〜６００−４）を含む。各応答時間データは、ＡＰＭのタイマーにより計測される各マイクロサービスの応答時間に関する統計情報である。

ここで、応答時間データは、ｔｉｍｅｗｉｎｄｏｗ、ｓｅｒｖｉｃｅ、ｍｅａｎ、ｓｔｄｖおよびｍａｘの情報を含む。ｔｉｍｅｗｉｎｄｏｗは、一定時間ごとに区切られた期間を示す。一定時間は、例えば、数秒〜１分程度の時間である。ｓｅｒｖｉｃｅは、マイクロサービスの名称を示す。

ｍｅａｎは、ｔｉｍｅｗｉｎｄｏｗに計測されたマイクロサービスの応答時間の平均を示す。マイクロサービスの応答時間は、例えば、呼び出し元で計測される、呼び出し先のマイクロサービスの応答時間である（例えば、図４参照）。ｓｔｄｖは、ｔｉｍｅｗｉｎｄｏｗに計測されたマイクロサービスの応答時間の標準偏差を示す。ｍａｘは、ｔｉｍｅｗｉｎｄｏｗに計測されたマイクロサービスの応答時間の最大値を示す。

例えば、応答時間データ６００−１は、期間Ｔ１に計測されたＭＳ−Ａの応答時間の平均Ｍａｔ１、標準偏差Ｓａｔ１および最大値Ｍｘａｔ１を示す。

（トレースデータの具体例）
つぎに、図７を用いて、遅延原因特定装置１０１が用いるトレースデータの具体例について説明する。トレースデータは、例えば、分散トレーシングシステム１０４において生成されて、遅延原因特定装置１０１に送信される。

図７は、トレースデータの具体例を示す説明図である。図７において、トレースデータ７００は、複数のスパンデータ（例えば、スパンデータ７００−１〜７００−４）を含む。各スパンデータは、各ワークロードのスパン（処理時間）に関する情報である。

ここで、スパンデータは、ｔｒａｃｅＩＤ、ｓｅｒｖｉｃｅｎａｍｅ、ｗｏｒｋｌｏａｄ、ｓｔａｒｔｔｉｍｅおよびｄｕｒａｔｉｏｎの情報を含む。ｔｒａｃｅＩＤは、トレースを一意に識別する識別子である。トレースは、１つのサービスを実現する複数のマイクロサービスの各々のワークロードのスパンをまとめたものである。ｓｅｒｖｉｃｅｎａｍｅは、トレースに含まれるマイクロサービスの名称である。

ｗｏｒｋｌｏａｄは、マイクロサービスに対応するワークロードの名称である。ｓｔａｒｔｔｉｍｅは、ワークロードが呼び出し元からリクエストを受信した時間（例えば、日時）を示す。ｄｕｒａｔｉｏｎは、ワークロードのスパンの長さを示す（単位：ｍｓｅｃ）。ワークロードのスパンは、ワークロードが、呼び出し元からリクエストを受信してから、呼び出し元にレスポンスを返すまでの処理時間である。

ｔｒａｃｅＩＤが同一のスパンデータ群により一つのトレースが形成される。例えば、ｔｒａｃｅＩＤ「４５６７」のスパンデータ７００−１〜７００−３により一つのトレースが形成される。例えば、スパンデータ７００−１は、ｔｒａｃｅＩＤ「４５６７」のトレースに含まれるＭＳ−ＡのワークロードであるＭＳ−Ａ２のｓｔａｒｔｔｉｍｅ「ｔ１」およびｄｕｒａｔｉｏｎ「ｄ１」を示す。

なお、図示は省略するが、トレースデータには、例えば、１つのサービスを実現する複数のマイクロサービスのマイクロサービス間（ワークロード間）の呼び出し関係を特定可能な情報が含まれている。

（遅延原因特定装置１０１の機能的構成例）
図８は、遅延原因特定装置１０１の機能的構成例を示すブロック図である。図８において、遅延原因特定装置１０１は、検知部８０１と、判断部８０２と、算出部８０３と、第１の条件判定部８０４と、第２の条件判定部８０５と、遅延原因判定部８０６と、出力部８０７と、を含む。具体的には、例えば、検知部８０１〜出力部８０７は、図５に示したメモリ５０２、ディスク５０４、可搬型記録媒体５０７などの記憶装置に記憶されたプログラムをＣＰＵ５０１に実行させることにより、または、通信Ｉ／Ｆ５０５により、その機能を実現する。各機能部の処理結果は、例えば、メモリ５０２、ディスク５０４などの記憶装置に記憶される。

検知部８０１は、呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の遅れを検知する。ここで、呼び出し元マイクロサービスは、１つのサービスを実現する一連のマイクロサービスのうちのいずれかのマイクロサービスである。呼び出し先マイクロサービスは、複数のマイクロサービスのうちの呼び出し元マイクロサービスから呼び出されるマイクロサービスである。

また、マイクロサービスの応答時間の遅れとは、マイクロサービスの応答時間が許容値を超える程度に長い状態である。具体的には、例えば、検知部８０１は、ＡＰＭシステム１０３から呼び出し先マイクロサービスの遅延アラートを受信したことに応じて、その呼び出し先マイクロサービスの応答時間の遅れを検知する。

遅延アラートは、ＡＰＭシステム１０３において、マイクロサービスの応答時間の遅れに関する異常が検知された場合に出力されるアラートである。遅延アラートには、例えば、呼び出し先マイクロサービスおよび呼び出し元マイクロサービスを特定する情報が含まれる。また、遅延アラートには、呼び出し先マイクロサービスの応答時間の遅れが検知された時点を特定する情報が含まれていてもよい。

ここで、図９を用いて、ＡＰＭシステム１０３における、マイクロサービスの応答時間の遅れの検知例について説明する。ここでは、呼び出し元マイクロサービスを「ＭＳ−Ｂ」とし、呼び出し先マイクロサービスを「ＭＳ−Ｃ」とする。

図９は、マイクロサービスの応答時間の遅れの検知例を示す説明図である。図９において、グラフ９００は、ＡＰＭシステム１０３において監視される、単位時間あたりのＭＳ−Ｃの平均応答時間（最大応答時間でもよい）の時間変化を示す折れ線グラフである。ＭＳ−Ｃの平均応答時間は、呼び出し元であるＭＳ−Ｂにおいて計測されたＭＳ−Ｃの応答時間の平均値である。

グラフ９００上の各点（例えば、点９０１〜９０４）は、図６に示したｔｉｍｅｗｉｎｄｏｗあたりのマイクロサービスの応答時間の平均値（最大値でもよい）に相当する。ＡＰＭシステム１０３は、例えば、ＭＳ−Ｃの平均応答時間が閾値Ｘを複数回超えた場合に遅延アラートを出力する。閾値Ｘは、任意に設定可能である（図９中、点線）。

具体的には、例えば、ＡＰＭシステム１０３は、ＭＳ−Ｃの平均応答時間が閾値Ｘを所定回数以上超えた場合に、遅延原因特定装置１０１に遅延アラートを送信してもよい。また、ＡＰＭシステム１０３は、ＭＳ−Ｃの平均応答時間が閾値Ｘを所定回数連続して超えた場合に、遅延原因特定装置１０１に遅延アラートを送信してもよい。所定回数は、任意に設定可能である。

図９の例では、ＭＳ−Ｃの平均応答時間が閾値Ｘを４回連続して超えた場合に、ＡＰＭシステム１０３から遅延原因特定装置１０１に、ＭＳ−Ｃの遅延アラートが送信される。この場合、検知部８０１は、ＡＰＭシステム１０３からＭＳ−Ｃの遅延アラートを受信したことに応じて、遅延アラートから特定される、ＭＳ−Ｂ（呼び出し元）におけるＭＳ−Ｃ（呼び出し先）の応答時間の遅れを検知する。

図８の説明に戻り、判断部８０２は、呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の遅れが検知されたことに応じて、第１の期間における呼び出し先マイクロサービスの処理時間が、第２の期間における呼び出し先マイクロサービスの処理時間に比べて長くなっているか否かを判断する。

ここで、第１の期間は、呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の遅れが検知された期間である。第２の期間は、第１の期間とは異なる期間、すなわち、呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の遅れが検知されていない期間である。

また、マイクロサービスの処理時間は、マイクロサービスが、呼び出し元からリクエストを受信してから、呼び出し元にレスポンスを返すまでの処理時間である。例えば、呼び出し先マイクロサービスの処理時間は、呼び出し先マイクロサービスのワークロードが、呼び出し元マイクロサービスのワークロードからリクエストを受信してから、そのワークロードにレスポンスを返すまでの処理時間である。

以下の説明では、呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の遅れが検知された第１の期間を「異常時間帯」と表記する場合がある。また、呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の遅れが検知されていない第２の期間を「正常時間帯」と表記する場合がある。また、マイクロサービスの処理時間を「マイクロサービスのスパン」と表記する場合がある。

具体的には、例えば、判断部８０２は、呼び出し先マイクロサービスの応答時間の遅れが検知されたことに応じて、ＡＰＭシステム１０３から、呼び出し先マイクロサービスの応答時間の遅れが検知されたときの応答時間データを含むタイマーデータを取得する。タイマーデータは、例えば、図６に示したタイマーデータ６００である。

タイマーデータには、例えば、呼び出し先マイクロサービスの応答時間の遅れが検知された時点を含む所定の時間帯の応答時間データが含まれる。図９に示したグラフ９００を例に挙げると、所定の時間帯は、例えば、点９０１の時刻の数分〜１時間程度前の時刻から、点９０４の時刻までの時間帯である。

また、判断部８０２は、呼び出し先マイクロサービスの応答時間の遅れが検知されたことに応じて、分散トレーシングシステム１０４から、呼び出し先マイクロサービスの応答時間の遅れが検知されたときのスパンデータを含むトレースデータを取得する。トレースデータは、例えば、図７に示したトレースデータ７００である。

トレースデータには、例えば、呼び出し先マイクロサービスの応答時間の遅れが検知された時点を含む所定の時間帯のスパンデータが含まれる。所定の時間帯は、例えば、タイマーデータと同じ時間帯であり、例えば、点９０１の時刻の数十分〜１時間程度前の時刻から、点９０４の時刻までの時間帯である。

つぎに、判断部８０２は、取得したタイマーデータを参照して、呼び出し先マイクロサービスの異常時間帯および正常時間帯を特定する。例えば、タイマーデータ内の各応答時間データに、マイクロサービスの応答時間の平均値（または、最大値）が閾値Ｘを超えていると、ＯＦＦ（０）からＯＮ（１）となるフラグが含まれているとする。

この場合、判断部８０２は、タイマーデータ内の遅れが検知された呼び出し先マイクロサービスの応答時間データのフラグを参照して、フラグがＯＮの時間帯を異常時間帯として特定し、異常時間帯とは異なる時間帯を正常時間帯として特定する。

ただし、判断部８０２が、遅れが検知された呼び出し先マイクロサービスの応答時間の平均値が閾値Ｘを超えているか否かを判断することにしてもよい。閾値Ｘは、例えば、予めメモリ５０２やディスク５０４に記憶されていてもよい。また、判断部８０２は、ＡＰＭシステム１０３に、遅れが検知された呼び出し先マイクロサービスの異常時間帯を問い合わせることにしてもよい。

つぎに、判断部８０２は、取得したトレースデータを参照して、特定した異常時間帯における呼び出し先マイクロサービスの処理時間を算出する。また、判断部８０２は、取得したトレースデータを参照して、特定した正常時間帯における呼び出し先マイクロサービスの処理時間を算出する。

ここで、異常時間帯の開始時刻を「ｔａｓ」とし、異常時間帯の終了時刻を「ｔａｅ」とする。また、以下の説明では、遅れが検知された呼び出し先マイクロサービスを「ＭＳ−Ｃ」とし、呼び出し元マイクロサービスを「ＭＳ−Ｂ」として説明する場合がある。ただし、ＭＳ−ＢからＭＳ−Ｃのみが呼び出されたとする。

この場合、判断部８０２は、例えば、トレースデータ７００から、ｓｅｒｖｉｃｅｎａｍｅが「ＭＳ−Ｃ」であり、「ｓｔａｒｔｔｉｍｅ＞ｔａｓ」かつ「ｓｔａｒｔｔｉｍｅ＜ｔａｅ」のスパンデータを抽出する。ただし、呼び出し先マイクロサービスの応答時間の遅れが検知されたときと同じ呼び出しパターンのスパンデータを対象とする。

すなわち、判断部８０２は、ＭＳ−ＢからＭＳ−Ｃのみが呼び出されたときのスパンデータを対象とする。そして、判断部８０２は、抽出したスパンデータのｄｕｒａｔｉｏｎの平均値を算出することにより、異常時間帯におけるＭＳ−Ｃのスパンの平均Ｄａを算出する。

また、判断部８０２は、トレースデータ７００から、ｓｅｒｖｉｃｅｎａｍｅが「ＭＳ−Ｃ」であり、「ｓｔａｒｔｔｉｍｅ＜ｔａｓ」または「ｓｔａｒｔｔｉｍｅ＞ｔａｅ」のスパンデータを抽出する。ただし、呼び出し先マイクロサービスの応答時間の遅れが検知されたときと同じ呼び出しパターンのスパンデータを対象とする。また、ここで抽出されるスパンデータ数は十分大きいものとする（例えば、１００以上）。

そして、判断部８０２は、抽出したスパンデータのｄｕｒａｔｉｏｎの平均値および標準偏差を算出することにより、正常時間帯におけるＭＳ−Ｃのスパンの平均Ｄｎおよび標準偏差Ｓｎを算出する。つぎに、判断部８０２は、算出した算出結果に基づいて、異常時間帯におけるＭＳ−Ｃのスパンが、正常時間帯におけるＭＳ−Ｃのスパンに比べて長くなっているか否かを判断する。

より詳細に説明すると、例えば、判断部８０２は、「Ｄａ＞Ｄｎ＋３Ｓｎ」の場合に、異常時間帯におけるＭＳ−Ｃのスパンが、正常時間帯におけるＭＳ−Ｃのスパンに比べて長くなっていると判断する。一方、「Ｄａ≦Ｄｎ＋３Ｓｎ」の場合は、判断部８０２は、異常時間帯におけるＭＳ−Ｃのスパンが、正常時間帯におけるＭＳ−Ｃのスパンに比べて長くなっていないと判断する。

遅延原因判定部８０６は、マイクロサービスの応答遅延の原因を判定する。具体的には、例えば、遅延原因判定部８０６は、異常時間帯におけるマイクロサービスのスパンが、正常時間帯における呼び出し先マイクロサービスのスパンに比べて長くなっていると判断された場合、呼び出し先マイクロサービスに遅延（遅延原因）があると判定することにしてもよい。

より詳細に説明すると、例えば、遅延原因判定部８０６は、ＭＳ−Ｂにおける応答時間の遅れが検知されたＭＳ−Ｃについて、異常時間帯におけるスパンが正常時間帯におけるスパンに比べて長くなっている場合、ＭＳ−Ｃに遅延があると判定する。

一方、異常時間帯における呼び出し先マイクロサービスのスパンが、正常時間帯における呼び出し先マイクロサービスのスパンに比べて長くなっていないと判断された場合、呼び出し先マイクロサービスのスパンの長さが正常であるといえる。この場合、遅延原因判定部８０６は、この時点では遅延原因を特定しない。

算出部８０３は、呼び出し元マイクロサービスから呼び出し先マイクロサービスへの経路ごとに、呼び出し元マイクロサービスのスパンに関する統計値を算出する。ここで、経路は、呼び出し元マイクロサービスのワークロードから、呼び出し先マイクロサービスのワークロードへの経路である。

例えば、経路は、呼び出し元マイクロサービスのワークロード（呼び出し元ワークロード）と、呼び出し先マイクロサービスのワークロード（呼び出し先ワークロード）との組み合わせによって特定される。また、呼び出し元マイクロサービスのスパンの統計値は、例えば、スパンの平均、標準偏差および呼び出し回数である。呼び出し回数は、呼び出し元マイクロサービスから呼び出し先マイクロサービスを呼び出した回数である。

例えば、算出部８０３は、呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の遅れが検知された場合に、呼び出し元マイクロサービスに対応する呼び出し元ワークロードから呼び出し先マイクロサービスに対応する複数の呼び出し先ワークロードへの経路ごとに、呼び出し元ワークロードのスパンの統計値を算出する。

具体的には、例えば、算出部８０３は、異常時間帯における呼び出し先マイクロサービスのスパンが、正常時間帯における呼び出し先マイクロサービスのスパンに比べて長くなっていないと判断された場合に、異常時間帯における呼び出し元ワークロードのスパンに基づいて、経路ごとに、呼び出し元ワークロードのスパンの統計値を算出することにしてもよい。

ここで、遅れが検知された呼び出し先マイクロサービスを「ＭＳ−Ｃ」とし、呼び出し元マイクロサービスを「ＭＳ−Ｂ」とする。この場合、算出部８０３は、例えば、トレースデータ７００の異常時間帯のトレースを参照して、ＭＳ−Ｂのワークロードから、ＭＳ−Ｃのワークロードへの経路を特定する。

異常時間帯のトレースは、例えば、ｓｔａｒｔｔｉｍｅが異常時間帯に含まれるスパンデータからなるトレースデータである。ただし、呼び出し先マイクロサービスであるＭＳ−Ｃの応答時間の遅れが検知されたときと同じ呼び出しパターンのスパンデータを対象とする。

例えば、ＭＳ−Ｂのワークロードを「ＭＳ−Ｂ１，ＭＳ−Ｂ２，ＭＳ−Ｂ３」とし、ＭＳ−Ｃのワークロードを「ＭＳ−Ｃ１，ＭＳ−Ｃ２，ＭＳ−Ｃ３」とする。この場合、ＭＳ−ＢのワークロードとＭＳ−Ｃのワークロードとの組み合わせを特定することで、９通りのワークロード間の経路が特定される。

つぎに、算出部８０３は、異常時間帯のトレースを参照して、特定したワークロード間の経路ごとに、ＭＳ−Ｂのワークロードのスパンの統計値を算出する。スパンの統計値は、スパンの平均、標準偏差および呼び出し回数とする。そして、算出部８０３は、算出した算出結果に基づいて、経路別送信元スパン統計表を作成する。

経路別送信元スパン統計表は、呼び出し元マイクロサービスのワークロード（呼び出し元ワークロード）と呼び出し先マイクロサービスのワークロード（呼び出し先ワークロード）との間の経路ごとに、呼び出し元ワークロードのスパンの統計値を示す情報である。ここで、経路別送信元スパン統計表の具体例について説明する。

図１０は、経路別送信元スパン統計表の具体例を示す説明図である。図１０において、経路別送信元スパン統計表１０００は、呼び出し元であるＭＳ−Ｂのワークロードと呼び出し先であるＭＳ−Ｃのワークロードとの間の経路ごとに、ＭＳ−Ｂのワークロードのスパンの統計値を示す情報である。

送信元は、呼び出し元マイクロサービスのワークロードを示す。送信先は、呼び出し先マイクロサービスのワークロードを示す。平均は、ＭＳ−Ｂのワークロードのスパンの平均を示す。標準偏差は、ＭＳ−Ｂのワークロードのスパンの標準偏差を示す。回数は、ＭＳ−ＢのワークロードからＭＳ−Ｃのワークロードの呼び出し回数を示す。

例えば、ＭＳ−Ｂ１からＭＳ−Ｃ１への経路を例に挙げると、ＭＳ−Ｂ１のスパンの平均は「Ｍｍ１１」である。また、ＭＳ−Ｂ１のスパンの標準偏差は「Ｓ１１」である。また、ＭＳ−Ｂ１からＭＳ−Ｃ１の呼び出し回数は「Ｎ１１」である。

図８の説明に戻り、第１の条件判定部８０４は、算出した経路ごとの統計値に基づいて、特定した経路のうち、呼び出し元マイクロサービスのスパンが相対的に長い経路に共通する呼び出し先ワークロードが存在するか否かを判定する。例えば、第１の条件判定部８０４は、呼び出し先マイクロサービスの１つのワークロードに着目し、そのワークロードのときの呼び出し元マイクロサービスのスパンが、他のワークロードのときよりも有意に長いか否かを判断する。

具体的には、例えば、第１の条件判定部８０４は、作成された経路別送信元スパン統計表を参照して、下記式（１）を用いて、呼び出し先マイクロサービスのワークロードごとに統計量ｔを算出する。以下の説明では、着目している呼び出し先マイクロサービスのワークロードを「対象ワークロード」と表記する場合がある。

ただし、上記式（１）中、ｘ〜は、呼び出し先マイクロサービスのワークロードが対象ワークロードのときの呼び出し元マイクロサービスのワークロードのスパンの平均の平均である。＃〜の「〜」は、＃の上に付されたバーを示す。ｙ〜は、呼び出し先マイクロサービスのワークロードが対象ワークロード以外のときの呼び出し元マイクロサービスのワークロードのスパンの平均の平均である。ｓ_xは、呼び出し先マイクロサービスのワークロードが対象ワークロードのときの呼び出し元マイクロサービスのワークロードのスパンの標準偏差の合成を示す。ｓ_yは、呼び出し先マイクロサービスのワークロードが対象ワークロード以外のときの呼び出し元マイクロサービスのワークロードのスパンの標準偏差の合成を示す。ｍは、呼び出し先マイクロサービスのワークロードが対象ワークロードのときの呼び出し回数の合計である。ｎは、呼び出し先マイクロサービスのワークロードが対象ワークロード以外のときの呼び出し回数の合計である。

例えば、対象ワークロードを「ＭＳ−Ｃ２」とする。この場合、ｘ〜は、Ｍｍ１２，Ｍ２２，Ｍｍ３２の平均となる。ｙ〜は、Ｍｍ１２，Ｍ２２，Ｍｍ３２以外のＭｍの平均となる。ｓ_xは、Ｓ１２，Ｓ２２，Ｓ３２の合成である。ｓ_yは、Ｓ１２，Ｓ２２，Ｓ３２以外のＳの合成である。ｍは、Ｎ１２，Ｎ２２，Ｎ３２の合計である。ｎは、Ｎ１２，Ｎ２２，Ｎ３２以外のＮの合計である。

つぎに、第１の条件判定部８０４は、算出した統計量ｔに基づいて、ｔ分布のｐ値を算出する。ここで、ｐ値は、有意確率である。ｐ値は、例えば、Ｔ．ＤＩＳＴ．２Ｔ関数などの既存の表計算ソフトの関数を用いて算出することができる。ｐ値が有意水準より小さければ、ｘ〜とｙ〜とは差がないといえる。

例えば、有意水準を５％とする。この場合、対象ワークロードが「ＭＳ−Ｃ２」のときのｐ値が「ｐ＜０．０５」であれば、ｘ〜とｙ〜とは有意差がないといえる。すなわち、「ｐ＜０．０５」の場合、対象ワークロードが「ＭＳ−Ｃ２」のときの呼び出し元マイクロサービスのスパンが有意に長いとはいえない。

一方、対象ワークロードが「ＭＳ−Ｃ２」のときのｐ値が「ｐ≧０．０５」の場合には、ｘ〜とｙ〜とに有意差があるといえる。すなわち、「ｐ≧０．０５」の場合には、対象ワークロードが「ＭＳ−Ｃ２」のときの呼び出し元マイクロサービスのスパンが有意に長いといえる。

この場合、第１の条件判定部８０４は、呼び出し元マイクロサービス（ＭＳ−Ｂ）のスパンが有意に長い経路に共通する呼び出し先ワークロード（ＭＳ−Ｃ２）が存在すると判定する。ＭＳ−Ｃ２のときの呼び出し元マイクロサービス（ＭＳ−Ｂ）のスパンが有意に長いといえる場合、呼び出し元のマイクロサービスとＭＳ−Ｃ２との間のネットワークまたはＭＳ−Ｃ２が遅延していると推定することができる。

また、呼び出し先マイクロサービスの全ワークロードについて、ｐ値が「ｐ＜０．０５」、すなわち、呼び出し元マイクロサービスのスパンが有意に長いとはいえない場合がある。この場合、第１の条件判定部８０４は、呼び出し元マイクロサービスのスパンが有意に長い経路に共通する呼び出し先マイクロサービスが存在しないと判定する。

第２の条件判定部８０５は、第１の差と第２の差とが、所定の範囲内であるか否かを判定する。ここで、第１の差は、呼び出し元マイクロサービスのスパンの異常時および正常時における平均値の差である。第２の差は、呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の異常時および正常時における平均値の差である。所定の範囲は、任意に設定可能であり、例えば、第１の差と第２の差とが同じであるといえる範囲に設定される。

呼び出し元マイクロサービスのスパンの異常時における平均値は、例えば、異常時間帯における呼び出し元マイクロサービスのスパンから計算される。呼び出し元マイクロサービスのスパンの正常時における平均値は、例えば、正常時間帯における呼び出し元マイクロサービスのスパンから計算される。

また、呼び出し先マイクロサービスの応答時間の異常時における平均値は、例えば、異常時間帯における呼び出し先マイクロサービスの応答時間から計算される。呼び出し先マイクロサービスの応答時間の正常時における平均値は、例えば、正常時間帯における呼び出し先マイクロサービスの応答時間から計算される。

また、第１の条件判定部８０４によって、呼び出し元マイクロサービスのスパンが長い経路に共通する呼び出し先ワークロードが特定されている場合がある。この場合、第２の条件判定部８０５は、経路別送信元スパン統計表を参照して、特定された呼び出し先ワークロードを含む経路を考慮して、呼び出し元マイクロサービスのスパンの異常時における平均値を算出することにしてもよい。

なお、第１の差および第２の差を算出する具体的な処理例については後述する。

第１の差と第２の差とが所定の範囲内であるか否かの判定は、例えば、既存の平均値の検定（両側検定）を用いて行うことができる。具体的には、例えば、第２の条件判定部８０５は、算出した第１の差および第２の差に基づいて、下記式（２）を用いて、第１の差と第２の差とが所定の範囲内であるか否かを判定する。

ただし、上記式（２）中、ｘ〜は、標本平均を示す。μは、母平均を示す。ｎは、標本数を示す。ｓは、標本標準偏差を示す。第２の条件判定部８０５は、例えば、標本平均を第１の差とし、母平均を第２の差とする。標本数は、例えば、第１の差の算出に用いたスパンの数である。標本標準偏差は、例えば、第１の差の算出に用いたスパンから算出される。

つぎに、第２の条件判定部８０５は、算出した統計量ｔに基づいて、ｔ分布のｐ値を算出する。ｐ値が有意水準より小さければ、ｘ〜とμとは差がないといえる。なお、ｐ値は、例えば、Ｔ．ＤＩＳＴ．２Ｔ関数などの既存の表計算ソフトの関数を用いて算出することができる。

例えば、有意水準を５％とする。この場合、ｐ値が「ｐ＜０．０５」であれば、ｘ〜とμとは有意差がないといえる。このため、第２の条件判定部８０５は、「ｐ＜０．０５」の場合、第１の差と第２の差とが同じ（所定範囲内）であると判定する。一方、第２の条件判定部８０５は、「ｐ≧０．０５」の場合、第１の差と第２の差とが同じではない（所定範囲外）であると判定する。

遅延原因判定部８０６は、第１の条件判定部８０４によって共通する呼び出し先ワークロードが存在すると判定され、かつ、第２の条件判定部８０５によって第１の差と第２の差とが所定の範囲内であると判定された場合、呼び出し先マイクロサービスに関連するネットワークもしくは呼び出し先マイクロサービスに遅延があると判定する。

上述したように、遅延原因判定部８０６は、例えば、判断部８０２によって異常時間帯におけるマイクロサービスのスパンが、正常時間帯における呼び出し先マイクロサービスのスパンに比べて長くなっていると判断された場合、呼び出し先マイクロサービスに遅延があると判定する。このため、遅延原因判定部８０６は、例えば、異常時間帯におけるマイクロサービスのスパンが、正常時間帯における呼び出し先マイクロサービスのスパンに比べて長くなっていないと判断されたときに、共通する呼び出し先ワークロードが存在すると判定され、かつ、第１の差と第２の差とが所定の範囲内であると判定された場合、呼び出し先マイクロサービスに関連するネットワークに遅延があると判定する。

また、遅延原因判定部８０６は、第１の条件判定部８０４によって共通する呼び出し先マイクロサービスが存在しないと判定された場合には、呼び出し先マイクロサービスに関連するネットワークに遅延があるとはいえないと判定する。

また、遅延原因判定部８０６は、第２の条件判定部８０５によって第１の差と第２の差とが所定の範囲外であると判定された場合には、呼び出し先マイクロサービスに関連するネットワークに遅延があるとはいえないと判定する。

なお、マイクロサービスの応答遅延の原因の判定例については、図１１を用いて後述する。

出力部８０７は、遅延原因判定部８０６によって判定された判定結果を出力する。出力部８０７の出力形式としては、例えば、メモリ５０２、ディスク５０４などの記憶装置への記憶、通信Ｉ／Ｆ５０５による他のコンピュータへの送信、不図示のディスプレイへの表示、不図示のプリンタへの印刷出力などがある。

具体的には、例えば、出力部８０７は、図１に示した運用者端末１０５に遅延原因判定結果を送信することにしてもよい。ここで、遅延原因判定結果は、マイクロサービスの応答遅延の原因の判定結果を示す情報である。運用者端末１０５において、サービスの運用者は、遅延原因判定結果を参照することで、マイクロサービスの応答遅延の原因を確認することができる。

例えば、呼び出し先マイクロサービスに関連するネットワークに遅延があると判定されたとする。この場合、遅延原因判定結果は、呼び出し先マイクロサービスに関連するネットワークに遅延があることを示す情報となる。また、遅延原因判定結果には、例えば、呼び出し元マイクロサービスのスパンが有意に長い経路に共通する呼び出し先マイクロサービスのワークロードを特定する情報が含まれる。また、遅延原因判定結果には、呼び出し元マイクロサービスのワークロードを特定する情報が含まれていてもよい。

なお、上述した遅延原因特定装置１０１の各機能部は、情報処理システム１００内の複数のコンピュータ（例えば、遅延原因特定装置１０１と処理装置１０２）により実現されることにしてもよい。

（第１の差および第２の差の算出処理例）
ここで、第１の差および第２の差の算出処理例について説明する。まず、第１の差を算出する具体的な処理例について説明する。ただし、遅れが検知された呼び出し先マイクロサービスを「ＭＳ−Ｃ」とし、呼び出し元マイクロサービスを「ＭＳ−Ｂ」とする。

この場合、第２の条件判定部８０５は、トレースデータ７００（図７参照）から、ｓｅｒｖｉｃｅｎａｍｅがＭＳ−Ｂであり、かつ、ｓｔａｒｔｔｉｍｅが異常時間帯に含まれるスパンデータを抽出する。ただし、ＭＳ−Ｃの応答時間の遅れが検知されたときと同じ呼び出しパターン（ＭＳ−Ｂ⇒ＭＳ−Ｃ）のスパンデータを対象とする。つぎに、第２の条件判定部８０５は、抽出したスパンデータのｄｕｒａｔｉｏｎの平均を求めることにより、ＭＳ−Ｂのスパンの異常時における平均値Ｅ（Ｘｄ）を算出する。

また、第２の条件判定部８０５は、トレースデータ７００から、ｓｅｒｖｉｃｅｎａｍｅがＭＳ−Ｂであり、かつ、ｓｔａｒｔｔｉｍｅが正常時間帯に含まれるスパンデータを抽出する。ただし、ＭＳ−Ｃの応答時間の遅れが検知されたときと同じ呼び出しパターン（ＭＳ−Ｂ⇒ＭＳ−Ｃ）のスパンデータを対象とする。つぎに、第２の条件判定部８０５は、抽出したスパンデータのｄｕｒａｔｉｏｎの平均を求めることにより、ＭＳ−Ｂのスパンの正常時における平均値Ｅ（Ｘｎ）を算出する。

そして、第２の条件判定部８０５は、算出した平均値Ｅ（Ｘｄ）から平均値Ｅ（Ｘｎ）を減算することにより、第１の差（Ｅ（Ｘｄ）−Ｅ（Ｘｎ））を算出する。

ただし、ＭＳ−Ｂのスパンが長い経路に共通するＭＳ−Ｃのワークロードが特定されている場合がある。例えば、ＭＳ−Ｂのスパンが有意に長い経路に共通するＭＳ−Ｃのワークロードとして、「ＭＳ−Ｃ２」が特定されているとする。この場合、第２の条件判定部８０５は、ＭＳ−Ｃ２を含む経路を考慮して、ＭＳ−Ｂのスパンの異常時における平均値Ｅ（Ｘｄ）を算出することにしてもよい。

より詳細に説明すると、例えば、第２の条件判定部８０５は、経路別送信元スパン統計表１０００を参照して、下記式（３）および（４）を用いて、ＭＳ−Ｃ２を呼び出す割合ａ１と、ＭＳ−Ｃ２以外を呼び出す割合ａ２とを算出する。

ａ１＝（Ｎ１２＋Ｎ２２＋Ｎ２３）／（Ｎ１１〜Ｎ３３の総和）・・・（３）

ａ２＝１−ａ１・・・（４）

また、第２の条件判定部８０５は、経路別送信元スパン統計表１０００を参照して、ＭＳ−Ｃ２を呼び出すときのＭＳ−Ｂのスパンの平均値ｅ（Ｘｄ）を算出する。ここでは、平均値ｅ（Ｘｄ）は、Ｍｍ１２，Ｍｍ２２，Ｍｍ３２の平均である。

また、第２の条件判定部８０５は、経路別送信元スパン統計表１０００を参照して、ＭＳ−Ｃ２を呼び出さないときのＭＳ−Ｂのスパンの平均値ｅ（Ｘｎ）を算出する。ここでは、平均値ｅ（Ｘｎ）は、Ｍｍ１１，Ｍｍ１３，Ｍｍ２１，Ｍｍ２３，Ｍ３１，Ｍｍ３３の平均である。

そして、第２の条件判定部８０５は、下記式（５）を用いて、ＭＳ−Ｂのスパンの異常時における平均値Ｅ（Ｘｄ）を算出する。

Ｅ（Ｘｄ）＝ａ１×ｅ（Ｘｄ）＋ａ２×ｅ（Ｘｎ）・・・（５）

これにより、ＭＳ−Ｂのスパンが長くなる経路に共通するＭＳ−Ｃ２が特定されている場合には、ＭＳ−Ｃ２を呼び出すときのスパンを異常時のスパン、ＭＳ−Ｃ２以外を呼び出すときのスパンを正常時のスパンと見なして、ＭＳ−Ｂのスパンの異常時における平均値Ｅ（Ｘｄ）を算出することができる。

また、上述した説明では、ＭＳ−Ｂのスパンの正常時における平均値Ｅ（Ｘｎ）を、ｓｔａｒｔｔｉｍｅが正常時間帯に含まれるスパンデータのｄｕｒａｔｉｏｎから算出することにしたが、これに限らない。例えば、ＭＳ−Ｂのスパンの正常時における平均値Ｅ（Ｘｎ）として、異常時間帯におけるＭＳ−Ｃ２を呼び出さないときのＭＳ−Ｂのスパンの平均値ｅ（Ｘｎ）を用いることにしてもよい。すなわち、ＭＳ−Ｂのスパンが長くなる経路に共通するＭＳ−Ｃ２が特定されている場合には、ＭＳ−Ｃ２以外を呼び出すときのスパンを正常時のスパンと見なして、ＭＳ−Ｂのスパンの正常時における平均値Ｅ（Ｘｎ）を求めることにしてもよい。

つぎに、第２の差を算出する具体的な処理例について説明する。ただし、遅れが検知された呼び出し先マイクロサービスを「ＭＳ−Ｃ」とし、呼び出し元マイクロサービスを「ＭＳ−Ｂ」とする。

この場合、第２の条件判定部８０５は、例えば、タイマーデータ６００から、ｓｅｒｖｉｃｅがＭＳ−Ｃであり、かつ、ｔｉｍｅｗｉｎｄｏｗが異常時間帯に含まれる応答時間データを抽出する。つぎに、第２の条件判定部８０５は、抽出した応答時間データのｍｅａｎの平均を求めることにより、呼び出し先マイクロサービスの応答時間の異常時における平均値Ｔｍｄを算出する。

また、第２の条件判定部８０５は、タイマーデータ６００から、ｓｅｒｖｉｃｅがＭＳ−Ｃであり、かつ、ｔｉｍｅｗｉｎｄｏｗが正常時間帯に含まれる応答時間データを抽出する。つぎに、第２の条件判定部８０５は、抽出した応答時間データのｍｅａｎの平均を求めることにより、呼び出し先マイクロサービスの応答時間の正常時における平均値Ｔｍｎを算出する。

そして、第２の条件判定部８０５は、算出した平均値Ｔｍｄから平均値Ｔｍｎを減算することにより、第２の差（Ｔｍｄ−Ｔｍｎ）を算出する。

（マイクロサービスの応答遅延の原因の判定例）
つぎに、図１１および図１２を用いて、マイクロサービスの応答遅延の原因の判定例について説明する。ただし、遅れが検知された呼び出し先マイクロサービスを「ＭＳ−Ｃ」とし、呼び出し元マイクロサービスを「ＭＳ−Ｂ」とする。

図１１は、マイクロサービスのスパンと応答時間との関係を示す説明図である。図１１において、ＭＳ−ＢおよびＭＳ−ＣのスパンＤｂ，Ｄｃを表すバー１１０１，１１０２が時間軸上に示されている。Ｔｃは、ＭＳ−ＢにおけるＭＳ−Ｃの応答時間を示す。

遅延原因判定部８０６は、異常時（ＭＳ−Ｃの応答時間に遅れ）に、正常時に比べて、ＭＳ−ＣのスパンＤｃが長くなっておらず、ＭＳ−ＢのスパンＤｂとＭＳ−ＢにおけるＭＳ−Ｃの応答時間Ｔｃが同じくらい長くなっていれば、ネットワークが遅延原因であると判定する。

一方、異常時（ＭＳ−Ｃの応答時間に遅れ）に、正常時に比べて、ＭＳ−ＣのスパンＤｃが長くなっておらず、ＭＳ−ＢのスパンＤｂとＭＳ−ＢにおけるＭＳ−Ｃの応答時間Ｔｃが同じくらい長くなっていなければ、ネットワークが遅延原因であるとはいえないと判定する。

また、遅延原因判定部８０６は、異常時（ＭＳ−Ｃの応答時間に遅れ）に、正常時に比べて、ＭＳ−ＣのスパンＤｃが長くなっていれば、ＭＳ−Ｃが遅延原因であると判定する。

図１２は、ワークロード間の経路別のスパンの長さを示す説明図である。図１２において、ＭＳ−ＢからＭＳ−Ｃへのワークロード間の経路と、ワークロード間の経路別のスパン（ＭＳ−Ｂのスパン）の長さが示されている。スパン「通常」は、スパンが他の経路と比べて有意に長いとはいえないことを示す。スパン「長い」は、スパンが他の経路と比べて有意に長いことを示す。

図１２の例では、ＭＳ−Ｃのスパンが正常時に比べて長くなっておらず、ＭＳ−Ｂのスパンが長くなっている経路に共通するＭＳ−Ｃ２が存在する。また、ＭＳ−Ｂのスパンの異常時および正常時における平均値の第１の差と、ＭＳ−ＢにおけるＭＳ−Ｃの応答時間の異常時および正常時における平均値の第２の差とが所定の範囲内である。この場合、遅延原因特定装置１０１は、ＭＳ−Ｃ２に関連するネットワークに遅延があると判定する。

また、遅延原因特定装置１０１は、例えば、ＭＳ−Ｃ２に関連するネットワークに遅延があることを示す遅延原因判定結果を運用者端末１０５に送信する。これにより、サービスの運用者は、遅延原因判定結果を参照することで、ＭＳ−Ｃ２に関連するネットワーク（物理ＳＷ、仮想ＳＷなど）に遅延原因があることを特定することができる。

（遅延原因特定装置１０１の遅延原因特定処理手順）
つぎに、遅延原因特定装置１０１の遅延原因特定処理手順について説明する。まず、図１および図１４を用いて、遅延原因特定装置１０１の第１の遅延原因特定処理手順について説明する。第１の遅延原因特定処理では、呼び出し先マイクロサービスが遅延原因であるか否かの判定を行わない場合について説明する。

図１３および図１４は、遅延原因特定装置１０１の第１の遅延原因特定処理手順の一例を示すフローチャートである。図１３のフローチャートにおいて、まず、遅延原因特定装置１０１は、ＡＰＭシステム１０３から呼び出し先マイクロサービスの遅延アラートを受信したか否かを判断する（ステップＳ１３０１）。

ここで、遅延原因特定装置１０１は、遅延アラートを受信するのを待つ（ステップＳ１３０１：Ｎｏ）。そして、遅延原因特定装置１０１は、遅延アラートを受信した場合（ステップＳ１３０１：Ｙｅｓ）、ＡＰＭシステム１０３から、呼び出し先マイクロサービスの応答時間の遅れが検知されたときの応答時間データを含むタイマーデータを取得する（ステップＳ１３０２）。

つぎに、遅延原因特定装置１０１は、分散トレーシングシステム１０４から、呼び出し先マイクロサービスの応答時間の遅れが検知されたときのスパンデータを含むトレースデータを取得する（ステップＳ１３０３）。

そして、遅延原因特定装置１０１は、取得したタイマーデータを参照して、呼び出し先マイクロサービスの異常時間帯および正常時間帯を特定する（ステップＳ１３０４）。つぎに、遅延原因特定装置１０１は、トレースデータから異常時間帯のトレースを抽出する（ステップＳ１３０５）。

そして、遅延原因特定装置１０１は、抽出した異常時間帯のトレースを参照して、呼び出し元マイクロサービスから呼び出し先マイクロサービスへのワークロード間の経路を特定する（ステップＳ１３０６）。つぎに、遅延原因特定装置１０１は、異常時間帯のトレースを参照して、特定したワークロード間の経路ごとに、呼び出し元マイクロサービスのスパンの統計値を算出する（ステップＳ１３０７）。

そして、遅延原因特定装置１０１は、算出した算出結果に基づいて、経路別送信元スパン統計表を作成する（ステップＳ１３０８）。つぎに、遅延原因特定装置１０１は、作成した経路別送信元スパン統計表を参照して、特定した経路のうち、呼び出し元マイクロサービスのスパンが有意に長い経路に共通する呼び出し先ワークロードが存在するか否かを判定する（ステップＳ１３０９）。

ここで、呼び出し先ワークロードが存在しない場合（ステップＳ１３０９：Ｎｏ）、遅延原因特定装置１０１は、呼び出し先ワークロードのネットワークが遅延原因とはいえないと判定して（ステップＳ１３１０）、図１４に示すステップＳ１４０６に移行する。

一方、呼び出し先ワークロードが存在する場合（ステップＳ１３０９：Ｙｅｓ）、遅延原因特定装置１０１は、図１４に示すステップＳ１４０１に移行する。

図１４のフローチャートにおいて、まず、遅延原因特定装置１０１は、呼び出し元マイクロサービスのスパンの異常時および正常時における平均値の第１の差を算出する第１の差算出処理を実行する（ステップＳ１４０１）。なお、第１の差算出処理の具体的な処理手順については、図１５を用いて後述する。

つぎに、遅延原因特定装置１０１は、呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の異常時および正常時における平均値の第２の差を算出する第２の差算出処理を実行する（ステップＳ１４０２）。なお、第２の差算出処理の具体的な処理手順については、図１６を用いて後述する。

つぎに、遅延原因特定装置１０１は、算出した第１の差と第２の差とが所定の範囲内であるか否かを判定する（ステップＳ１４０３）。ここで、第１の差と第２の差とが所定の範囲内であると判定した場合（ステップＳ１４０３：Ｙｅｓ）、遅延原因特定装置１０１は、呼び出し先ワークロードのネットワークもしくは呼び出し先ワークロードが遅延原因であると判定して（ステップＳ１４０４）、ステップＳ１４０６に移行する。

一方、第１の差と第２の差とが所定の範囲内ではないと判定した場合（ステップＳ１４０３：Ｎｏ）、遅延原因特定装置１０１は、呼び出し先ワークロードのネットワークが遅延原因であるとはいえないと判定する（ステップＳ１４０５）。そして、遅延原因特定装置１０１は、遅延原因判定結果を出力して（ステップＳ１４０６）、本フローチャートによる一連の処理を終了する。

これにより、マイクロサービスの応答遅延の原因を特定可能な情報（遅延原因判定結果）を、サービスの運用者等に提供することができる。

つぎに、図１５を用いて、図１４に示したステップＳ１４０１の第１の差算出処理の具体的な処理手順について説明する。

図１５は、第１の差算出処理の具体的処理手順の一例を示すフローチャートである。図１５のフローチャートにおいて、まず、遅延原因特定装置１０１は、取得したトレースデータから、異常時間帯における呼び出し元マイクロサービスのスパンデータを抽出する（ステップＳ１５０１）。そして、遅延原因特定装置１０１は、抽出したスパンデータに基づいて、呼び出し元マイクロサービスのスパンの異常時における平均値を算出する（ステップＳ１５０２）。

つぎに、遅延原因特定装置１０１は、トレースデータから、正常時間帯における呼び出し元マイクロサービスのスパンデータを抽出する（ステップＳ１５０３）。そして、遅延原因特定装置１０１は、抽出したスパンデータに基づいて、呼び出し元マイクロサービスのスパンの正常時における平均値を算出する（ステップＳ１５０４）。

そして、遅延原因特定装置１０１は、算出した異常時における平均値から正常時における平均値を減算することにより、第１の差を算出して（ステップＳ１５０５）、第１の差算出処理を呼び出したステップに戻る。

これにより、呼び出し元マイクロサービスのスパンの異常時および正常時における平均値の差（第１の差）を算出することができる。

つぎに、図１６を用いて、図１４に示したステップＳ１４０２の第２の差算出処理の具体的な処理手順について説明する。

図１６は、第２の差算出処理の具体的処理手順の一例を示すフローチャートである。図１６のフローチャートにおいて、まず、遅延原因特定装置１０１は、取得したタイマーデータから、異常時間帯における呼び出し先マイクロサービスの応答時間データを抽出する（ステップＳ１６０１）。そして、遅延原因特定装置１０１は、抽出した応答時間データに基づいて、呼び出し先マイクロサービスの応答時間の異常時における平均値を算出する（ステップＳ１６０２）。

つぎに、遅延原因特定装置１０１は、タイマーデータから、正常時間帯における呼び出し先マイクロサービスの応答時間データを抽出する（ステップＳ１６０３）。そして、遅延原因特定装置１０１は、抽出した応答時間データに基づいて、呼び出し先マイクロサービスの応答時間の正常時における平均値を算出する（ステップＳ１６０４）。

そして、遅延原因特定装置１０１は、算出した異常時における平均値から、算出した正常時における平均値を減算することにより、第２の差を算出して（ステップＳ１６０５）、第２の差算出処理を呼び出したステップに戻る。

これにより、呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の異常時および正常時における平均値の差（第２の差）を算出することができる。

つぎに、図１７〜図１９を用いて、遅延原因特定装置１０１の第２の遅延原因特定処理手順について説明する。第２の遅延原因特定処理では、呼び出し先マイクロサービスが遅延原因であるか否かの判定を行う場合について説明する。

図１７〜図１９は、遅延原因特定装置１０１の第２の遅延原因特定処理手順の一例を示すフローチャートである。図１７のフローチャートにおいて、まず、遅延原因特定装置１０１は、ＡＰＭシステム１０３から呼び出し先マイクロサービスの遅延アラートを受信したか否かを判断する（ステップＳ１７０１）。

ここで、遅延原因特定装置１０１は、遅延アラートを受信するのを待つ（ステップＳ１７０１：Ｎｏ）。そして、遅延原因特定装置１０１は、遅延アラートを受信した場合（ステップＳ１７０１：Ｙｅｓ）、ＡＰＭシステム１０３から、呼び出し先マイクロサービスの応答時間の遅れが検知されたときの応答時間データを含むタイマーデータを取得する（ステップＳ１７０２）。

つぎに、遅延原因特定装置１０１は、分散トレーシングシステム１０４から、呼び出し先マイクロサービスの応答時間の遅れが検知されたときのスパンデータを含むトレースデータを取得する（ステップＳ１７０３）。

そして、遅延原因特定装置１０１は、取得したタイマーデータを参照して、呼び出し先マイクロサービスの異常時間帯および正常時間帯を特定する（ステップＳ１７０４）。つぎに、遅延原因特定装置１０１は、取得したトレースデータを参照して、特定した異常時間帯における呼び出し先マイクロサービスのスパンの平均値を算出する（ステップＳ１７０５）。

つぎに、遅延原因特定装置１０１は、取得したトレースデータを参照して、特定した正常時間帯における呼び出し先マイクロサービスのスパンの平均値を算出する（ステップＳ１７０６）。そして、遅延原因特定装置１０１は、算出した算出結果に基づいて、異常時間帯における呼び出し先マイクロサービスのスパンが、正常時間帯における呼び出し先マイクロサービスのスパンに比べて長くなっているか否かを判断する（ステップＳ１７０７）。

ここで、呼び出し先マイクロサービスのスパンが長くなっている場合（ステップＳ１７０７：Ｙｅｓ）、遅延原因特定装置１０１は、呼び出し先マイクロサービスが遅延原因であると判定して（ステップＳ１７０８）、図１９に示すステップＳ１９０６に移行する。

一方、呼び出し先マイクロサービスのスパンが長くなっていない場合には（ステップＳ１７０７：Ｎｏ）、遅延原因特定装置１０１は、図１８に示すステップＳ１８０１に移行する。

図１８のフローチャートにおいて、まず、遅延原因特定装置１０１は、トレースデータから異常時間帯のトレースを抽出する（ステップＳ１８０１）。そして、遅延原因特定装置１０１は、抽出した異常時間帯のトレースを参照して、呼び出し元マイクロサービスから呼び出し先マイクロサービスへのワークロード間の経路を特定する（ステップＳ１８０２）。

つぎに、遅延原因特定装置１０１は、異常時間帯のトレースを参照して、特定したワークロード間の経路ごとに、呼び出し元マイクロサービスのスパンの統計値を算出する（ステップＳ１８０３）。そして、遅延原因特定装置１０１は、算出した算出結果に基づいて、経路別送信元スパン統計表を作成する（ステップＳ１８０４）。

つぎに、遅延原因特定装置１０１は、作成した経路別送信元スパン統計表を参照して、特定した経路のうち、呼び出し元マイクロサービスのスパンが有意に長い経路に共通する呼び出し先ワークロードが存在するか否かを判定する（ステップＳ１８０５）。

ここで、呼び出し先ワークロードが存在しない場合（ステップＳ１８０５：Ｎｏ）、遅延原因特定装置１０１は、呼び出し先ワークロードのネットワークが遅延原因とはいえないと判定して（ステップＳ１８０６）、図１９に示すステップＳ１９０６に移行する。

一方、呼び出し先ワークロードが存在する場合（ステップＳ１８０５：Ｙｅｓ）、遅延原因特定装置１０１は、図１９に示すステップＳ１９０１に移行する。

図１９のフローチャートにおいて、まず、遅延原因特定装置１０１は、呼び出し元マイクロサービスのスパンの異常時および正常時における平均値の第１の差を算出する第１の差算出処理を実行する（ステップＳ１９０１）。なお、第１の差算出処理の具体的な処理手順については、図１５で説明した処理手順と同様のため、図示および説明を省略する。

つぎに、遅延原因特定装置１０１は、呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の異常時および正常時における平均値の第２の差を算出する第２の差算出処理を実行する（ステップＳ１９０２）。なお、第２の差算出処理の具体的な処理手順については、図１６で説明した処理手順と同様のため、図示および説明を省略する。

つぎに、遅延原因特定装置１０１は、算出した第１の差と第２の差とが所定の範囲内であるか否かを判定する（ステップＳ１９０３）。ここで、第１の差と第２の差とが所定の範囲内であると判定した場合（ステップＳ１９０３：Ｙｅｓ）、遅延原因特定装置１０１は、呼び出し先ワークロードのネットワークが遅延原因であると判定して（ステップＳ１９０４）、ステップＳ１９０６に移行する。

一方、第１の差と第２の差とが所定の範囲内ではないと判定した場合（ステップＳ１９０３：Ｎｏ）、遅延原因特定装置１０１は、呼び出し先ワークロードのネットワークが遅延原因であるとはいえないと判定する（ステップＳ１９０５）。そして、遅延原因特定装置１０１は、遅延原因判定結果を出力して（ステップＳ１９０６）、本フローチャートによる一連の処理を終了する。

これにより、呼び出し先マイクロサービスが遅延原因であるか否かを含む、マイクロサービスの応答遅延の原因を特定可能な情報（遅延原因判定結果）を、サービスの運用者等に提供することができる。

以上説明したように、実施の形態にかかる遅延原因特定装置１０１によれば、呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の遅れが検知された場合に、呼び出し元マイクロサービスに対応する呼び出し元ワークロードから呼び出し先マイクロサービスに対応する複数の呼び出し先ワークロードへの経路ごとに、呼び出し元ワークロードのスパンの統計値を算出することができる。そして、遅延原因特定装置１０１によれば、算出した経路ごとの統計値に基づいて、経路のうちの呼び出し元マイクロサービスのスパンが相対的に長い経路に共通する呼び出し先ワークロードが存在するか否かを判定することができる。

これにより、ＡＰＭのタイマーを利用してマイクロサービスの応答時間の遅れが検知された際に、遅延原因がネットワークにあるか否かを推定することができる。例えば、呼び出し元マイクロサービスのスパンが長い経路に共通する呼び出し先ワークロードが存在する場合に、遅延原因がネットワークもしくは呼び出し先マイクロサービスにあると推定することができる。

また、遅延原因特定装置１０１によれば、呼び出し元マイクロサービスのスパンの異常時および正常時における平均値の第１の差と、呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の異常時および正常時における平均値の第２の差とが所定の範囲内であるか否かを判定することができる。

これにより、呼び出し元マイクロサービスの処理自体に遅延原因があれば、異常時に呼び出し元マイクロサービスのスパンと呼び出し先マイクロサービスの応答時間とが同じように長くならないことを利用して、ネットワークに遅延があったことを検証することができる。

また、遅延原因特定装置１０１によれば、共通する呼び出し先ワークロードが存在すると判定し、かつ、第１の差と第２の差とが所定の範囲内であると判定した場合に、呼び出し先マイクロサービスに関連するネットワークもしくは呼び出し先マイクロサービスが遅延原因であると判定することができる。

これにより、遅延原因がネットワークにあると推定できる場合に、異常時に呼び出し元マイクロサービスのスパンと呼び出し先マイクロサービスの応答時間とが同じように長くなっていれば、ネットワークもしくは呼び出し先マイクロサービスが遅延原因であると判定することができる。

また、遅延原因特定装置１０１によれば、異常時間帯における呼び出し先マイクロサービスのスパンが、正常時間帯における呼び出し先マイクロサービスのスパンに比べて長くなっているか否かを判断することができる。そして、遅延原因特定装置１０１によれば、呼び出し先マイクロサービスのスパンが長くなっていると判断した場合、呼び出し先マイクロサービスが遅延原因であると判定することができる。ただし、異常時間帯は、呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の遅れが検知された期間である。正常時間帯は、異常時間帯とは異なる期間である。

これにより、ＡＰＭのタイマーを利用してマイクロサービスの応答時間の遅れが検知された際に、呼び出し先マイクロサービスでの処理時間が長くなっていれば、呼び出し先マイクロサービスの処理自体に遅延原因があると判定することができる。

また、遅延原因特定装置１０１によれば、呼び出し先マイクロサービスのスパンが長くなっていないと判断した場合に、異常時間帯における呼び出し元ワークロードのスパンに基づいて、経路ごとに、呼び出し元ワークロードのスパンの統計値を算出することができる。

これにより、ＡＰＭのタイマーを利用してマイクロサービスの応答時間の遅れが検知された際に、呼び出し先マイクロサービスの処理自体に遅延原因がないといえる場合に、遅延原因がネットワークにあるか否かを推定することができる。

また、遅延原因特定装置１０１によれば、共通する呼び出し先ワークロードが存在しないと判定した場合には、呼び出し先マイクロサービスに関連するネットワークが遅延原因ではないと判定することができる。

これにより、ＡＰＭのタイマーを利用してマイクロサービスの応答時間の遅れが検知された際に、呼び出し元マイクロサービスのスパンが長い経路に共通する呼び出し先マイクロサービスが存在しなければ、遅延原因がネットワークにあるとはいえないと判定することができる。

また、遅延原因特定装置１０１によれば、第１の差と第２の差とが所定の範囲内ではないと判定した場合には、呼び出し先マイクロサービスに関連するネットワークが遅延原因ではないと判定することができる。

これにより、異常時に呼び出し元マイクロサービスのスパンと呼び出し先マイクロサービスの応答時間とが同じように長くなっていなければ、遅延原因がネットワークにあるとはいえないと判定することができる。

また、遅延原因特定装置１０１によれば、判定した遅延原因判定結果を出力することができる。

これにより、マイクロサービスの応答遅延の原因を特定可能な情報を、サービスの運用者等に提供することができる。

また、遅延原因特定装置１０１によれば、算出した経路ごとの統計値に基づいて、経路のうちの呼び出し元マイクロサービスのスパンが有意に長い経路に共通する呼び出し先ワークロードが存在するか否かを判定することができる。そして、遅延原因特定装置１０１によれば、共通する呼び出し先ワークロードが存在すると判定し、かつ、第１の差と第２の差とが所定の範囲内であると判定した場合に、共通する呼び出し先ワークロードに関連するネットワークが遅延原因であると判定することができる。

これにより、呼び出し先マイクロサービスのワークロードが複数存在する場合であっても、遅延原因があるネットワークが、どのワークロードのネットワークであるかを特定することができる。

これらのことから、実施の形態にかかる遅延原因特定方法および遅延原因特定プログラムによれば、サービスの応答遅延の原因を特定する際の精度を向上させることができ、マイクロサービスアーキテクチャの応答遅延の原因調査にかかる作業負荷や作業時間を低減させることができる。

また、ＡＰＭのタイマーを利用してマイクロサービスの応答時間の遅れが検知されたタイミングで遅延原因特定処理を開始できるため、リアルタイムな原因調査を行うことが可能となる。また、パケットキャプチャの技術を利用したパケット解析などに比べて、応答遅延の原因調査にかかるコストを削減することができる。また、通信経路のスイッチなどに保存されるメトリクスを直接見ることができない者であっても、性能監視のために一般的に収集されるメトリクスを利用して応答遅延を特定可能となるため、利便性を向上させることができる。

なお、本実施の形態で説明した遅延原因特定方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本遅延原因特定プログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ、ＵＳＢメモリ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本遅延原因特定プログラムは、インターネット等のネットワークを介して配布してもよい。

また、本実施の形態で説明した遅延原因特定装置１０１は、スタンダードセルやストラクチャードＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などの特定用途向けＩＣやＦＰＧＡなどのＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）によっても実現することができる。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の遅れが検知された場合に、前記呼び出し元マイクロサービスに対応する呼び出し元ワークロードから前記呼び出し先マイクロサービスに対応する複数の呼び出し先ワークロードへの経路ごとに、前記呼び出し元ワークロードの処理時間の統計値を算出し、
算出した前記経路ごとの前記統計値に基づいて、前記経路のうちの前記呼び出し元マイクロサービスの処理時間が相対的に長い経路に共通する呼び出し先ワークロードが存在すると判定され、かつ、前記呼び出し元マイクロサービスの処理時間の異常時および正常時における平均値の差と、前記呼び出し元マイクロサービスにおける前記呼び出し先マイクロサービスの応答時間の異常時および正常時における平均値の差とが所定の範囲内であると判定された場合に、前記呼び出し先マイクロサービスに関連するネットワークもしくは呼び出し先マイクロサービスが遅延原因であると判定する、
処理をコンピュータが実行することを特徴とする遅延原因特定方法。

（付記２）前記呼び出し元マイクロサービスにおける前記呼び出し先マイクロサービスの応答時間の遅れが検知された第１の期間における前記呼び出し先マイクロサービスの処理時間が、前記第１の期間とは異なる第２の期間における前記呼び出し先マイクロサービスの処理時間に比べて長くなっているか否かを判断し、
前記呼び出し先マイクロサービスの処理時間が長くなっていると判断した場合、前記呼び出し先マイクロサービスが遅延原因であると判定する、
処理を前記コンピュータが実行することを特徴とする付記１に記載の遅延原因特定方法。

（付記３）前記算出する処理は、
前記呼び出し先マイクロサービスの処理時間が長くなっていないと判断した場合に、前記第１の期間における前記呼び出し元ワークロードの処理時間に基づいて、前記経路ごとに、前記呼び出し元ワークロードの処理時間の統計値を算出する、ことを特徴とする付記２に記載の遅延原因特定方法。

（付記４）前記共通する呼び出し先ワークロードが存在しないと判定した場合、または、前記所定の範囲内ではないと判定した場合には、前記呼び出し先マイクロサービスに関連するネットワークが遅延原因ではないと判定する、処理を前記コンピュータが実行することを特徴とする付記１〜３のいずれか一つに記載の遅延原因特定方法。

（付記５）判定した遅延原因判定結果を出力する、処理を前記コンピュータが実行することを特徴とする付記１〜４のいずれか一つに記載の遅延原因特定方法。

（付記６）算出した前記経路ごとの前記統計値に基づいて、前記経路のうちの前記呼び出し元マイクロサービスの処理時間が有意に長い経路に共通する呼び出し先ワークロードが存在するか否かを判定し、
前記共通する呼び出し先ワークロードが存在すると判定し、かつ、前記所定の範囲内であると判定した場合に、前記共通する呼び出し先ワークロードに関連するネットワークが遅延原因であると判定する、
処理を前記コンピュータが実行することを特徴とする付記２に記載の遅延原因特定方法。

（付記７）前記呼び出し元マイクロサービスにおける前記呼び出し先マイクロサービスの応答時間の遅れが検知された第１の期間および前記第１の期間とは異なる第２の期間それぞれの期間における、前記呼び出し元マイクロサービスの処理時間の平均値の第１の差を算出し、
前記それぞれの期間における、前記呼び出し元マイクロサービスにおける前記呼び出し先マイクロサービスの応答時間の平均値の第２の差を算出する、
処理を前記コンピュータが実行し、
前記所定の範囲内であるか否かを判定する処理は、
算出した前記第１の差と前記第２の差とが、前記所定の範囲内であるか否かを判定する、ことを特徴とする付記１〜６のいずれか一つに記載の遅延原因特定方法。

（付記８）前記呼び出し元マイクロサービスは、サービスを実現する複数のマイクロサービスのうちのいずれかのマイクロサービスであり、
前記呼び出し先マイクロサービスは、前記複数のマイクロサービスのうちの前記呼び出し元マイクロサービスから呼び出されるマイクロサービスである、
ことを特徴とする付記１〜７のいずれか一つに記載の遅延原因特定方法。

（付記９）呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の遅れが検知された場合に、前記呼び出し元マイクロサービスに対応する呼び出し元ワークロードから前記呼び出し先マイクロサービスに対応する複数の呼び出し先ワークロードへの経路ごとに、前記呼び出し元ワークロードの処理時間の統計値を算出し、
算出した前記経路ごとの前記統計値に基づいて、前記経路のうちの前記呼び出し元マイクロサービスの処理時間が相対的に長い経路に共通する呼び出し先ワークロードが存在すると判定され、かつ、前記呼び出し元マイクロサービスの処理時間の異常時および正常時における平均値の差と、前記呼び出し元マイクロサービスにおける前記呼び出し先マイクロサービスの応答時間の異常時および正常時における平均値の差とが所定の範囲内であると判定された場合に、前記呼び出し先マイクロサービスに関連するネットワークもしくは呼び出し先マイクロサービスが遅延原因であると判定する、
処理をコンピュータに実行させることを特徴とする遅延原因特定プログラム。

１００情報処理システム
１０１遅延原因特定装置
１０２処理装置
１０３ＡＰＭシステム
１０４分散トレーシングシステム
１０５運用者端末
１１０ネットワーク
５００バス
５０１ＣＰＵ
５０２メモリ
５０３ディスクドライブ
５０４ディスク
５０５通信Ｉ／Ｆ
５０６可搬型記録媒体Ｉ／Ｆ
５０７可搬型記録媒体
６００タイマーデータ
７００トレースデータ
８０１検知部
８０２判断部
８０３算出部
８０４第１の条件判定部
８０５第２の条件判定部
８０６遅延原因判定部
８０７出力部
１０００経路別送信元スパン統計表

Claims

呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の遅れが検知された場合に、前記呼び出し元マイクロサービスに対応する呼び出し元ワークロードから前記呼び出し先マイクロサービスに対応する複数の呼び出し先ワークロードへの経路ごとに、前記呼び出し元ワークロードの処理時間の統計値を算出し、
算出した前記経路ごとの前記統計値に基づいて、前記経路のうちの前記呼び出し元マイクロサービスの処理時間が相対的に長い経路に共通する呼び出し先ワークロードが存在すると判定され、かつ、前記呼び出し元マイクロサービスの処理時間の異常時および正常時における平均値の差と、前記呼び出し元マイクロサービスにおける前記呼び出し先マイクロサービスの応答時間の異常時および正常時における平均値の差とが所定の範囲内であると判定された場合に、前記呼び出し先マイクロサービスに関連するネットワークもしくは呼び出し先マイクロサービスが遅延原因であると判定する、
処理をコンピュータが実行することを特徴とする遅延原因特定方法。
前記呼び出し元マイクロサービスにおける前記呼び出し先マイクロサービスの応答時間の遅れが検知された第１の期間における前記呼び出し先マイクロサービスの処理時間が、前記第１の期間とは異なる第２の期間における前記呼び出し先マイクロサービスの処理時間に比べて長くなっているか否かを判断し、
前記呼び出し先マイクロサービスの処理時間が長くなっていると判断した場合、前記呼び出し先マイクロサービスが遅延原因であると判定する、
処理を前記コンピュータが実行することを特徴とする請求項１に記載の遅延原因特定方法。
前記算出する処理は、
前記呼び出し先マイクロサービスの処理時間が長くなっていないと判断した場合に、前記第１の期間における前記呼び出し元ワークロードの処理時間に基づいて、前記経路ごとに、前記呼び出し元ワークロードの処理時間の統計値を算出する、ことを特徴とする請求項２に記載の遅延原因特定方法。
前記共通する呼び出し先ワークロードが存在しないと判定した場合、または、前記所定の範囲内ではないと判定した場合には、前記呼び出し先マイクロサービスに関連するネットワークが遅延原因ではないと判定する、処理を前記コンピュータが実行することを特徴とする請求項１〜３のいずれか一つに記載の遅延原因特定方法。
判定した遅延原因判定結果を出力する、処理を前記コンピュータが実行することを特徴とする請求項１〜４のいずれか一つに記載の遅延原因特定方法。
呼び出し元マイクロサービスにおける呼び出し先マイクロサービスの応答時間の遅れが検知された場合に、前記呼び出し元マイクロサービスに対応する呼び出し元ワークロードから前記呼び出し先マイクロサービスに対応する複数の呼び出し先ワークロードへの経路ごとに、前記呼び出し元ワークロードの処理時間の統計値を算出し、
算出した前記経路ごとの前記統計値に基づいて、前記経路のうちの前記呼び出し元マイクロサービスの処理時間が相対的に長い経路に共通する呼び出し先ワークロードが存在すると判定され、かつ、前記呼び出し元マイクロサービスの処理時間の異常時および正常時における平均値の差と、前記呼び出し元マイクロサービスにおける前記呼び出し先マイクロサービスの応答時間の異常時および正常時における平均値の差とが所定の範囲内であると判定された場合に、前記呼び出し先マイクロサービスに関連するネットワークもしくは呼び出し先マイクロサービスが遅延原因であると判定する、
処理をコンピュータに実行させることを特徴とする遅延原因特定プログラム。