JP2020135336A - Monitoring system, and monitoring method, and monitoring program - Google Patents

Monitoring system, and monitoring method, and monitoring program Download PDF

Info

Publication number
JP2020135336A
JP2020135336A JP2019027080A JP2019027080A JP2020135336A JP 2020135336 A JP2020135336 A JP 2020135336A JP 2019027080 A JP2019027080 A JP 2019027080A JP 2019027080 A JP2019027080 A JP 2019027080A JP 2020135336 A JP2020135336 A JP 2020135336A
Authority
JP
Japan
Prior art keywords
monitoring
information
version
performance
baseline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019027080A
Other languages
Japanese (ja)
Other versions
JP7286995B2 (en
Inventor
光洋 中山
Mitsuhiro Nakayama
光洋 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2019027080A priority Critical patent/JP7286995B2/en
Publication of JP2020135336A publication Critical patent/JP2020135336A/en
Application granted granted Critical
Publication of JP7286995B2 publication Critical patent/JP7286995B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To provide a monitoring system capable of saving the users' time of resetting the threshold for monitoring an information system whose version is updated.SOLUTION: A monitoring system 20 includes an update unit 21 that updates a range that is generated on the basis of each performance value of predetermined monitoring items of a plurality of monitoring object devices, namely the range in which excess of the performance value shows abnormal predetermined monitoring item, on the basis of each performance value of one or more monitoring object devices when the versions of one or more, of the plurality of monitoring object devices, are updated.SELECTED DRAWING: Figure 12

Description

本発明は、監視システム、監視方法および監視プログラムに関する。 The present invention relates to monitoring systems, monitoring methods and monitoring programs.

クラウドコンピューティング、DevOps、コンテナ型仮想化技術等の普及により、大規模なサービスや業務システムのバージョンであっても、ユーザの需要が取り込まれた新しいバージョンが容易にリリースされている。すなわち、上記の技術が普及する前よりも、サービス等のバージョンが高頻度で更新されている。 With the spread of cloud computing, DevOps, container-type virtualization technology, etc., new versions that capture user demand are easily released even for large-scale service and business system versions. That is, versions of services and the like are updated more frequently than before the above-mentioned technology became widespread.

サービスの提供者には、ユーザの需要を迅速に取り込むことが求められる。よって、アプリケーションの性能情報を監視することを目的とするソフトウェアにも、監視対象の業務システム等のバージョンが更新される早さに対応することが求められる。 Service providers are required to quickly capture user demand. Therefore, software for monitoring application performance information is also required to respond to the speed at which the version of the business system to be monitored is updated.

バージョンの更新頻度が上記の技術が普及する前よりも高くなかった時期において、ソフトウェアの開発者は、バージョンが更新される度にどのような情報を監視するかを改めて検討し、定義するという対応をとることができた。 When the frequency of version updates was not higher than before the above technologies became widespread, software developers reconsidered and defined what kind of information should be monitored each time a version was updated. I was able to take.

上記の技術が普及し、ユーザが意識しないうちにバージョンが更新されることが多い現在であっても、ソフトウェアが継続して監視できるような対応をとることが、ソフトウェアの開発者には求められる。 Even now that the above technologies have become widespread and versions are often updated without the user's awareness, software developers are required to take measures so that the software can be continuously monitored. ..

例えば、高頻度でバージョンが更新されるサービスを提供する情報システムの性能をソフトウェアで監視する場合、運用管理者は、バージョンが更新される度に逐一監視の内容を設定する。バージョンが更新される度に逐一監視の内容を設定する方法がとられると、総合的には監視の内容の設定に多くの時間がかかる。 For example, when monitoring the performance of an information system that provides a service whose version is updated frequently with software, the operation manager sets the content of monitoring one by one every time the version is updated. If the method of setting the monitoring contents one by one is adopted every time the version is updated, it takes a lot of time to set the monitoring contents as a whole.

情報システムの監視では通常、収集対象の性能情報に対して閾値を設定し、性能情報の閾値の超過を性能の異常として検知する方法が採用される。しかし、閾値を設定せずに情報システムを監視する方法も存在する。 In information system monitoring, a method is usually adopted in which a threshold value is set for the performance information to be collected and an excess of the performance information threshold value is detected as a performance abnormality. However, there are also ways to monitor an information system without setting a threshold.

閾値を設定せずに情報システムを監視する方法として、例えば、特許文献1に記載されているベースライン監視方法がある。特許文献1に記載されているベースライン監視方法は、情報システムにかかる負荷に周期性が存在することに着目する方法である。 As a method of monitoring an information system without setting a threshold value, for example, there is a baseline monitoring method described in Patent Document 1. The baseline monitoring method described in Patent Document 1 is a method focusing on the existence of periodicity in the load applied to the information system.

具体的には、特許文献1に記載されているベースライン監視方法は、所定期間の性能情報を基にベースラインを生成し、生成されたベースラインを閾値の代わりに用いる。ベースラインによる監視において、運用管理者には、バージョンが更新される度に監視における閾値を逐一設定することが求められない。 Specifically, the baseline monitoring method described in Patent Document 1 generates a baseline based on the performance information for a predetermined period, and uses the generated baseline instead of the threshold value. In baseline monitoring, the operations manager is not required to set thresholds for monitoring each time a version is updated.

また、特許文献2には、ベースライン生成の期間を短縮することに着目した管理計算機が記載されている。特許文献2に記載されている管理計算機は、同一のオートスケーリンググループに属する複数の仮想演算部の性能情報をベースラインの生成に利用する。特許文献2に記載されている管理計算機は、複数の性能情報をベースラインの生成に利用するという、ベースラインの学習期間が短くてもベースラインが生成できる方法を提案している。 Further, Patent Document 2 describes a management computer focusing on shortening the period of baseline generation. The management computer described in Patent Document 2 uses the performance information of a plurality of virtual calculation units belonging to the same autoscaling group to generate a baseline. The management computer described in Patent Document 2 proposes a method in which a plurality of performance information is used for generating a baseline, that is, a method capable of generating a baseline even if the learning period of the baseline is short.

また、特許文献3には、バージョンの更新前後に渡る監視の継続性に着目したアプリケーション管理システムが記載されている。特許文献3に記載されているアプリケーション管理システムは、バージョンが更新される前のアプリケーションの性能情報と、バージョンが更新された後のアプリケーションの性能情報とを比較することによって、性能に変化が生じたと思われる項目をユーザに提示する。 Further, Patent Document 3 describes an application management system focusing on the continuity of monitoring before and after updating the version. The application management system described in Patent Document 3 states that the performance has changed by comparing the performance information of the application before the version is updated with the performance information of the application after the version is updated. Present the likely item to the user.

特開2004−164637号公報Japanese Unexamined Patent Publication No. 2004-164637 国際公開第2017/168484号International Publication No. 2017/168844 国際公開第2018/037561号International Publication No. 2018/037561

特許文献1に記載されているベースライン監視方法が使用された場合、ベースラインの再生成には時間がかかるという課題がある。高頻度でバージョンが更新されるようなシステムの運用で採用されても、特許文献1に記載されているベースライン監視方法がバージョンの更新の早さと同じ早さでベースラインを再生成することは困難である。 When the baseline monitoring method described in Patent Document 1 is used, there is a problem that it takes time to regenerate the baseline. Even if it is adopted in the operation of a system in which the version is updated frequently, the baseline monitoring method described in Patent Document 1 may regenerate the baseline as quickly as the version is updated. Have difficulty.

また、特許文献2に記載されている管理計算機は、バージョンの更新を想定していない。一般的に、バージョンが更新されると、情報システムの性能の傾向や負荷状況に変化が生じる可能性が高い。よって、旧バージョンのベースラインがそのまま利用されて監視が行われると、性能の傾向の変化が誤って異常と検知されてしまう恐れがある。 Further, the management computer described in Patent Document 2 does not assume the update of the version. In general, when a version is updated, there is a high possibility that changes will occur in the performance trends and load conditions of information systems. Therefore, if the baseline of the old version is used as it is and monitoring is performed, there is a risk that a change in the performance tendency may be mistakenly detected as an abnormality.

通常、ベースラインの算出方式は、性能情報の平均値と分散を用いる方式である。バージョンが更新される前のベースラインで状態が安定している個所では、分散の幅が小さい。性能の傾向の変化が誤って異常と検知されてしまう理由は、バージョンが更新されて負荷状況が変わった個所の値が旧バージョンのベースラインの範囲を超過し、異常として検知されてしまうリスクが増加するためである。 Usually, the baseline calculation method is a method that uses the average value and variance of the performance information. Where the state is stable at the baseline before the version update, the variance is small. The reason why changes in performance trends are mistakenly detected as abnormal is that there is a risk that the value at the point where the version is updated and the load status changes exceeds the baseline range of the previous version and is detected as abnormal. This is to increase.

上記の問題により、精度が高い監視を継続して行うためには、学習期間が短い特許文献2に記載されている方法が使用される場合であっても、ベースラインを再生成することが求められるという課題がある。すなわち、特許文献2に記載されている方法が使用されても、バージョンの更新の早さと同じ早さでベースラインを再生成することは困難であるという課題は解消されない。 Due to the above problem, in order to continuously perform highly accurate monitoring, it is required to regenerate the baseline even when the method described in Patent Document 2 having a short learning period is used. There is a problem of being able to do it. That is, even if the method described in Patent Document 2 is used, the problem that it is difficult to regenerate the baseline at the same speed as the version update is not solved.

また、特許文献3に記載されているアプリケーション管理システムが使用される場合、ユーザには、新バージョンと旧バージョンとの差異を基に再度監視の設定を行うことが求められる。ユーザが監視の設定を行う場合、操作の誤りの発生や再設定にかかる時間が、例えばDevOpsによる開発を遅らせる要因になる可能性がある。 Further, when the application management system described in Patent Document 3 is used, the user is required to set the monitoring again based on the difference between the new version and the old version. When a user configures monitoring, the time it takes to make an operation error or reconfigure can be a factor that delays development with DevOps, for example.

そこで、本発明は、上述した課題を解決する、バージョンが更新される情報システムの監視用の閾値を利用者が再設定する手間を省くことができる監視システム、監視方法および監視プログラムを提供することを目的とする。 Therefore, the present invention provides a monitoring system, a monitoring method, and a monitoring program that solve the above-mentioned problems and can save the user the trouble of resetting the monitoring threshold value of the information system whose version is updated. With the goal.

本発明による監視システムは、複数の監視対象装置の所定の監視項目の各性能値を基に生成された範囲であって、性能値が超過すると所定の監視項目が異常であると判断される範囲を、複数の監視対象装置のうち1つ以上の監視対象装置の各バージョンがそれぞれ更新されると1つ以上の監視対象装置の各性能値を基に更新する更新部を含むことを特徴とする。 The monitoring system according to the present invention is a range generated based on each performance value of a predetermined monitoring item of a plurality of monitored devices, and a range in which the predetermined monitoring item is determined to be abnormal when the performance value is exceeded. Is characterized by including an update unit that updates based on each performance value of one or more monitored devices when each version of one or more monitored devices among a plurality of monitored devices is updated. ..

本発明による監視方法は、複数の監視対象装置の所定の監視項目の各性能値を基に生成された範囲であって、性能値が超過すると所定の監視項目が異常であると判断される範囲を、複数の監視対象装置のうち1つ以上の監視対象装置の各バージョンがそれぞれ更新されると1つ以上の監視対象装置の各性能値を基に更新することを特徴とする。 The monitoring method according to the present invention is a range generated based on each performance value of a predetermined monitoring item of a plurality of monitored devices, and a range in which the predetermined monitoring item is determined to be abnormal when the performance value is exceeded. Is updated based on each performance value of one or more monitored devices when each version of one or more monitored devices among the plurality of monitored devices is updated.

本発明による監視プログラムは、コンピュータに、複数の監視対象装置の所定の監視項目の各性能値を基に生成された範囲であって、性能値が超過すると所定の監視項目が異常であると判断される範囲を、複数の監視対象装置のうち1つ以上の監視対象装置の各バージョンがそれぞれ更新されると1つ以上の監視対象装置の各性能値を基に更新する更新処理を実行させることを特徴とする。 The monitoring program according to the present invention is a range generated by the computer based on each performance value of predetermined monitoring items of a plurality of monitored devices, and when the performance value is exceeded, it is determined that the predetermined monitoring item is abnormal. When each version of one or more monitored devices among a plurality of monitored devices is updated, an update process for updating the range to be performed is executed based on each performance value of one or more monitored devices. It is characterized by.

本発明によれば、バージョンが更新される情報システムの監視用の閾値を利用者が再設定する手間を省くことができる。 According to the present invention, it is possible to save the user the trouble of resetting the threshold value for monitoring the information system whose version is updated.

本発明による監視システムの第1の実施形態の使用例を示す説明図である。It is explanatory drawing which shows the use example of 1st Embodiment of the monitoring system by this invention. 第1の実施形態の監視システム100の構成例を示すブロック図である。It is a block diagram which shows the configuration example of the monitoring system 100 of 1st Embodiment. 性能情報記憶部109に記憶される性能情報の例を示す説明図である。It is explanatory drawing which shows the example of the performance information stored in the performance information storage unit 109. グループ情報記憶部110に記憶されるグループ情報の例を示す説明図である。It is explanatory drawing which shows the example of the group information stored in the group information storage unit 110. ベースライン記憶部112に記憶されるベースライン情報の例を示す説明図である。It is explanatory drawing which shows the example of the baseline information which is stored in the baseline storage part 112. 構成変更情報記憶部111に記憶される構成変更情報の例を示す説明図である。It is explanatory drawing which shows the example of the configuration change information stored in the configuration change information storage unit 111. ローリングアップデート時のコンテナインスタンス数の変化の例を示す説明図である。It is explanatory drawing which shows the example of the change of the number of container instances at the time of rolling update. 第1の実施形態の監視システム100による通常時の性能異常検知処理の動作を示すフローチャートである。It is a flowchart which shows the operation of the performance abnormality detection processing in a normal time by the monitoring system 100 of 1st Embodiment. 第1の実施形態の監視システム100によるベースライン更新処理の動作を示すフローチャートである。It is a flowchart which shows the operation of the baseline update process by the monitoring system 100 of 1st Embodiment. 第1の実施形態の監視システム100によるバージョン更新時の性能異常検知処理の動作を示すフローチャートである。It is a flowchart which shows the operation of the performance abnormality detection processing at the time of version update by the monitoring system 100 of 1st Embodiment. 本発明による監視システムのハードウェア構成例を示す説明図である。It is explanatory drawing which shows the hardware configuration example of the monitoring system by this invention. 本発明による監視システムの概要を示すブロック図である。It is a block diagram which shows the outline of the monitoring system by this invention.

実施形態1.
[構成の説明]
以下、本発明の実施形態を、図面を参照して説明する。図1は、本発明による監視システムの第1の実施形態の使用例を示す説明図である。
Embodiment 1.
[Description of configuration]
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is an explanatory diagram showing an example of use of the first embodiment of the monitoring system according to the present invention.

図1は、本発明による監視システムと外部のコンポーネントとの関係の概要を示す。図1に示すように、本実施形態の監視システム100は、端末200と、コンテナ管理システム300と、コンテナインスタンス400〜コンテナインスタンス40N(Nは1以上の整数)とそれぞれ通信可能に接続されている。 FIG. 1 shows an outline of the relationship between the monitoring system according to the present invention and an external component. As shown in FIG. 1, the monitoring system 100 of the present embodiment is communicably connected to the terminal 200, the container management system 300, and the container instances 400 to 40N (N is an integer of 1 or more). ..

また、図1に示すように、コンテナ管理システム300は、コンテナインスタンス400〜コンテナインスタンス40Nとそれぞれ通信可能に接続されている。以下、図1に示す各コンポーネントが有する役割を説明する。 Further, as shown in FIG. 1, the container management system 300 is communicably connected to the container instance 400 to the container instance 40N, respectively. Hereinafter, the roles of each component shown in FIG. 1 will be described.

上記の課題を解決するために、本実施形態では、高頻度でバージョンが更新される情報システムに対して、ベースラインによる監視を行う監視システム100が使用される。ベースラインは、既知の技術と同様に、同一のオートスケーリンググループに属するコンテナインスタンスの性能情報の平均と分散が利用されて生成される。 In order to solve the above problems, in the present embodiment, a monitoring system 100 that monitors an information system whose version is updated frequently by a baseline is used. Baselines are generated using the averaging and distribution of performance information for container instances that belong to the same autoscaling group, similar to known techniques.

本実施形態では高頻度にバージョンが更新される環境としてコンテナ型仮想化技術が利用された情報システムが想定されているため、性能情報の取得対象をコンテナインスタンスとして説明する。 In this embodiment, since an information system using the container-type virtualization technology is assumed as an environment in which the version is updated frequently, the acquisition target of the performance information will be described as a container instance.

なお、コンテナ型仮想化技術に依存しない場合、既知の技術と同様に、性能情報の取得対象を仮想演算部としてもよい。本実施形態の監視対象は、コンテナ型の仮想化環境に限らず、物理計算機環境、またはハイパーバイザ型の仮想化環境でもよい。 When it does not depend on the container-type virtualization technology, the acquisition target of the performance information may be the virtual calculation unit as in the known technology. The monitoring target of this embodiment is not limited to the container-type virtual environment, but may be a physical computer environment or a hypervisor-type virtual environment.

また、本実施形態の監視システム100は、バージョンの更新前後に渡って、ベースラインを再生成せずに継続して監視を実行できることを特徴とする。バージョンの更新は、通常コンテナインスタンスで用いられるローリングアップデートによる更新である。 Further, the monitoring system 100 of the present embodiment is characterized in that it can continuously perform monitoring without regenerating the baseline before and after updating the version. The version update is a rolling update that is normally used for container instances.

監視システム100は、ローリングアップデート時に1つずつ起動する新しいバージョンのコンテナインスタンスの性能情報を利用して、旧バージョンのコンテナインスタンスの性能情報を基に生成されたベースラインを逐次更新する。 The monitoring system 100 sequentially updates the baseline generated based on the performance information of the old version container instance by using the performance information of the new version container instance that is started one by one at the time of rolling update.

監視システム100は、バージョンの更新中およびバージョンの更新完了後、逐次更新されたベースラインを使用してコンテナインスタンスを監視することによって、バージョンの更新に合わせてベースラインを再生成せずに済む。 By monitoring the container instance using the sequentially updated baseline during the version update and after the version update is completed, the monitoring system 100 does not have to regenerate the baseline in accordance with the version update.

他にも、本実施形態の監視システム100は、監視対象の情報システムから性能情報を定期的に収集して蓄積する機能と、蓄積された性能情報を基にベースラインを生成する機能と、生成されたベースラインを用いて性能劣化を検知し、運用管理者へ通知する機能とを有する。また、監視システム100は、監視対象の情報システムのバージョンの更新状況を把握するために、構成情報を収集および管理する機能を有する。 In addition, the monitoring system 100 of the present embodiment has a function of periodically collecting and accumulating performance information from the information system to be monitored, and a function of generating a baseline based on the accumulated performance information. It has a function to detect performance deterioration using the baseline and notify the operation manager. Further, the monitoring system 100 has a function of collecting and managing configuration information in order to grasp the update status of the version of the information system to be monitored.

端末200は、監視システム100が提供するコンポーネントの1つである。図1に示すように、端末200は、監視システム100の外部に配置される。 The terminal 200 is one of the components provided by the monitoring system 100. As shown in FIG. 1, the terminal 200 is arranged outside the monitoring system 100.

運用管理者等の監視システム100の利用者は、端末200を介して監視システム100に対する操作、監視システム100が収集した性能情報の参照、および監視システム100が検知した性能劣化の通知の受信等を実行できる。端末200は、監視システム100に対して一般的に利用者から求められる機能を備える。 A user of the monitoring system 100, such as an operation manager, operates the monitoring system 100 via the terminal 200, refers to the performance information collected by the monitoring system 100, receives a notification of performance deterioration detected by the monitoring system 100, and the like. Can be executed. The terminal 200 has a function generally required by the user for the monitoring system 100.

コンテナインスタンス400〜コンテナインスタンス40Nは、監視システム100の監視対象である、1つまたは複数の仮想演算装置である。本実施形態ではコンテナ型仮想化技術の利用が想定されているため、監視対象をコンテナインスタンスとする。 The container instance 400 to the container instance 40N are one or more virtual arithmetic units to be monitored by the monitoring system 100. Since the use of the container-type virtualization technology is assumed in this embodiment, the monitoring target is a container instance.

各コンテナインスタンスにおいて、任意のアプリケーションまたはプログラムが稼働する。監視システム100は、コンテナインスタンス400〜コンテナインスタンス40Nの各性能情報をそれぞれ収集する。 Any application or program runs in each container instance. The monitoring system 100 collects each performance information of the container instance 400 to the container instance 40N.

コンテナ管理システム300は、各コンテナインスタンスの起動、停止、またはオートスケーリング等を実行することによって、各コンテナインスタンスを管理する機能を有する。一般的に、コンテナインスタンスを管理する装置は、オーケストレータ等と呼ばれる。 The container management system 300 has a function of managing each container instance by starting, stopping, autoscaling, or the like of each container instance. Generally, a device that manages a container instance is called an orchestrator or the like.

本実施形態では、コンテナインスタンスを管理する装置を、コンテナ管理システム300とする。コンテナ管理システム300は、各コンテナインスタンスとオートスケーリンググループとをそれぞれ対応付ける情報を有する。 In the present embodiment, the device that manages the container instance is the container management system 300. The container management system 300 has information for associating each container instance with an autoscaling group.

コンテナ管理システム300は、可用性や負荷分散を目的として、所定の機能を有するコンテナインスタンスを複数生成し、生成された数のコンテナインスタンスを維持する機能を有する。また、コンテナ管理システム300は、負荷状況に応じて自動でコンテナインスタンスを増減させるオートスケーリングを行う機能を有する。 The container management system 300 has a function of generating a plurality of container instances having a predetermined function and maintaining the generated number of container instances for the purpose of availability and load distribution. Further, the container management system 300 has a function of performing auto-scaling that automatically increases or decreases the number of container instances according to the load status.

コンテナ管理システム300は、オートスケーリングをオートスケーリンググループごとに行う。本実施形態では、各コンテナインスタンスのバージョンの更新は、オートスケーリンググループごとに行われる。また、ベースラインも、オートスケーリンググループに属する全てのコンテナインスタンスの各性能情報が利用されて生成される。 The container management system 300 performs autoscaling for each autoscaling group. In this embodiment, the version update of each container instance is performed for each autoscaling group. The baseline is also generated by using the performance information of all the container instances belonging to the autoscaling group.

コンテナ管理システム300は、各コンテナインスタンスに対するバージョンの更新要求を受け付け、ローリングアップデートで各コンテナインスタンスのバージョンを更新する。 The container management system 300 receives a version update request for each container instance, and updates the version of each container instance by rolling update.

監視システム100は、コンテナ管理システム300から同一オートスケーリンググループに属するコンテナインスタンスの情報や、コンテナインスタンスの起動状況等を示す情報を収集する。監視システム100は、収集された情報をベースラインの生成や更新に利用する。 The monitoring system 100 collects information on container instances belonging to the same autoscaling group, information indicating the startup status of the container instances, and the like from the container management system 300. The monitoring system 100 uses the collected information to generate and update the baseline.

上述した通り、本実施形態ではコンテナ型仮想化技術が利用された場合を例に説明する。しかし、監視システム100が情報を収集でき、バージョンの更新がローリングアップデートで行われ、また監視対象の仮想演算部の構成情報が監視システム100から取得できれば、監視対象の演算装置は、物理マシンでもよいし、ハイパーバイザ型仮想化技術で生成された仮想マシンでもよい。なお、仮想演算部の構成情報は、バージョンの更新状況を示す情報やオートスケーリンググループの情報である。 As described above, in the present embodiment, a case where the container-type virtualization technology is used will be described as an example. However, if the monitoring system 100 can collect information, the version is updated by rolling update, and the configuration information of the virtual arithmetic unit to be monitored can be acquired from the monitoring system 100, the arithmetic unit to be monitored may be a physical machine. However, it may be a virtual machine generated by the hypervisor type virtualization technology. The configuration information of the virtual calculation unit is information indicating a version update status and information of an autoscaling group.

次に、監視システム100が内部および外部に有するコンポーネント、および各コンポーネントが有する役割を、図2を参照して説明する。図2は、第1の実施形態の監視システム100の構成例を示すブロック図である。 Next, the internal and external components of the monitoring system 100 and the roles of each component will be described with reference to FIG. FIG. 2 is a block diagram showing a configuration example of the monitoring system 100 of the first embodiment.

図2に示すように、監視システム100は、性能情報受付部101と、性能情報処理部102と、性能異常検知部103と、管理情報受付部104と、構成変更管理部105と、グループ情報管理部106と、ベースライン生成部107と、操作受付部108と、性能情報記憶部109と、グループ情報記憶部110と、構成変更情報記憶部111と、ベースライン記憶部112とを含む。 As shown in FIG. 2, the monitoring system 100 includes a performance information reception unit 101, a performance information processing unit 102, a performance abnormality detection unit 103, a management information reception unit 104, a configuration change management unit 105, and group information management. A unit 106, a baseline generation unit 107, an operation reception unit 108, a performance information storage unit 109, a group information storage unit 110, a configuration change information storage unit 111, and a baseline storage unit 112 are included.

性能情報受付部101は、性能情報収集部410〜性能情報収集部41Nがそれぞれ収集した、コンテナインスタンス400〜コンテナインスタンス40Nの各性能情報を受け付ける機能を有する。性能情報受付部101は、受け付けられた各性能情報を性能情報処理部102に渡す。 The performance information receiving unit 101 has a function of receiving each performance information of the container instance 400 to the container instance 40N collected by the performance information collecting unit 410 to the performance information collecting unit 41N, respectively. The performance information reception unit 101 passes each received performance information to the performance information processing unit 102.

性能情報処理部102は、性能情報受付部101から性能情報を受け取り、受け取られた性能情報を所定の第1形式に整形してから性能情報記憶部109に格納する機能を有する。 The performance information processing unit 102 has a function of receiving performance information from the performance information receiving unit 101, shaping the received performance information into a predetermined first format, and then storing the received performance information in the performance information storage unit 109.

性能情報記憶部109は、監視対象の性能情報を、例えばファイルやデータベースで記憶する機能を有する。性能情報記憶部109は、性能情報を後述する図3に示す形式で保持する。また、提供の要求を受けた場合、性能情報記憶部109は、要求対象の性能情報を要求元に提供する。 The performance information storage unit 109 has a function of storing performance information to be monitored, for example, in a file or a database. The performance information storage unit 109 holds the performance information in the format shown in FIG. 3, which will be described later. When the request for provision is received, the performance information storage unit 109 provides the requested performance information to the request source.

性能異常検知部103は、任意のコンテナインスタンスに対して、コンテナインスタンスの性能情報とベースラインの情報とを取得し、コンテナインスタンスの性能値がベースラインの範囲を超過する場合に「性能に異常あり」として端末200へ通知する機能を有する。 The performance abnormality detection unit 103 acquires the performance information of the container instance and the baseline information for any container instance, and when the performance value of the container instance exceeds the baseline range, "there is an abnormality in the performance". It has a function of notifying the terminal 200 as.

また、性能異常検知部103は、ベースラインの範囲(閾値)を超えた値をユーザに通知する。通知されたユーザが異常か否かを判断しやすいように、性能異常検知部103は、ローリングアップデート等が行われるバージョン更新時に、新バージョンのベースラインの範囲と旧バージョンのベースラインの範囲とを合わせてユーザに通知してもよい。 In addition, the performance abnormality detection unit 103 notifies the user of a value that exceeds the baseline range (threshold value). In order to make it easier for the notified user to determine whether or not there is an abnormality, the performance abnormality detection unit 103 determines the range of the baseline of the new version and the range of the baseline of the old version at the time of version update such as rolling update. You may also notify the user.

性能異常検知部103は、例えば以下のように性能に異常があるか否かを判断する。変化の度合いが小さい場合、例えば新バージョンの性能情報の傾向は、旧バージョンの性能情報の傾向に類似する。よって、性能値が閾値を超えたら、異常である可能性が高い。 The performance abnormality detection unit 103 determines whether or not there is an abnormality in the performance as follows, for example. When the degree of change is small, for example, the tendency of the performance information of the new version is similar to the tendency of the performance information of the old version. Therefore, if the performance value exceeds the threshold value, there is a high possibility that it is abnormal.

しかし、変化の度合いが大きい場合、新バージョンの性能情報の傾向が旧バージョンの性能情報の傾向から変化した可能性があるため、異常か否かの判断が困難になる。よって、例えばコンテナインスタンスで閾値を超えた性能値が他にもあるか否かが考慮される。他にも閾値を超えた性能値がある場合、異常である可能性が高い。 However, when the degree of change is large, the tendency of the performance information of the new version may have changed from the tendency of the performance information of the old version, and it becomes difficult to judge whether or not it is abnormal. Therefore, for example, whether or not there are other performance values that exceed the threshold value in the container instance is considered. If there are other performance values that exceed the threshold value, there is a high possibility that it is abnormal.

閾値を超えた性能値が他にない場合、異常か否かを判断することが困難であるため、性能異常検知部103は、例えばローリングアップデートが完了するまで待機する。 If there is no other performance value that exceeds the threshold value, it is difficult to determine whether or not there is an abnormality. Therefore, the performance abnormality detection unit 103 waits until, for example, the rolling update is completed.

管理情報受付部104は、管理情報収集部310が収集した構成情報を受け付ける機能を有する。管理情報受付部104は、バージョン更新等の構成変更の情報を構成変更管理部105へ渡す。また、管理情報受付部104は、稼働中のコンテナインスタンスが属するオートスケーリンググループを示す情報をグループ情報管理部106へ渡す。 The management information receiving unit 104 has a function of receiving the configuration information collected by the management information collecting unit 310. The management information reception unit 104 passes information on configuration changes such as version updates to the configuration change management unit 105. Further, the management information receiving unit 104 passes information indicating an autoscaling group to which the operating container instance belongs to the group information management unit 106.

構成変更管理部105は、管理情報受付部104から渡された構成変更情報を所定の第2形式に整形してから構成変更情報記憶部111に格納する機能を有する。 The configuration change management unit 105 has a function of shaping the configuration change information passed from the management information reception unit 104 into a predetermined second format and then storing it in the configuration change information storage unit 111.

構成変更情報記憶部111は、構成変更情報を、例えばファイルやデータベースで記憶する機能を有する。構成変更情報記憶部111は、構成変更情報を後述する図6に示す形式で保持する。また、提供の要求を受けた場合、構成変更情報記憶部111は、要求対象の構成変更情報を要求元に提供する。 The configuration change information storage unit 111 has a function of storing configuration change information in, for example, a file or a database. The configuration change information storage unit 111 holds the configuration change information in the format shown in FIG. 6, which will be described later. When the request for provision is received, the configuration change information storage unit 111 provides the configuration change information of the request target to the request source.

グループ情報管理部106は、管理情報受付部104から渡されたオートスケーリンググループとコンテナインスタンスとを対応付ける情報であるグループ情報をグループ情報記憶部110に格納する機能を有する。 The group information management unit 106 has a function of storing the group information, which is the information for associating the auto-scaling group and the container instance passed from the management information reception unit 104, in the group information storage unit 110.

グループ情報記憶部110は、グループ情報を、例えばファイルやデータベースで記憶する機能を有する。グループ情報記憶部110は、グループ情報を後述する図4に示す形式で保持する。また、提供の要求を受けた場合、グループ情報記憶部110は、要求対象のグループ情報を要求元に提供する。 The group information storage unit 110 has a function of storing group information in, for example, a file or a database. The group information storage unit 110 holds the group information in the format shown in FIG. 4, which will be described later. When the request for provision is received, the group information storage unit 110 provides the group information of the request target to the request source.

ベースライン生成部107は、性能情報に基づいて、オートスケーリンググループごとにベースラインの内容を示すベースライン情報を生成する機能を有する。ベースライン生成部107は、生成されたベースライン情報をベースライン記憶部112に格納する。 The baseline generation unit 107 has a function of generating baseline information indicating the contents of the baseline for each autoscaling group based on the performance information. The baseline generation unit 107 stores the generated baseline information in the baseline storage unit 112.

ベースライン記憶部112は、ベースライン情報を所定の第3形式で記憶する機能を有する。 The baseline storage unit 112 has a function of storing baseline information in a predetermined third format.

操作受付部108は、端末200から操作を受け付ける機能を有する。受け付けられた操作に従って、操作受付部108は、ベースラインの再生成や閾値の変更等を、監視システム100内の各コンポーネントに指示する。 The operation receiving unit 108 has a function of receiving an operation from the terminal 200. According to the received operation, the operation reception unit 108 instructs each component in the monitoring system 100 to regenerate the baseline, change the threshold value, and the like.

また、図2に示すように、監視システム100の外部に配置されるコンポーネントとして、端末200、管理情報収集部310、および性能情報収集部410〜性能情報収集部41Nがある。端末200、管理情報収集部310、および性能情報収集部410〜性能情報収集部41Nは、いずれも監視システム100が提供するコンポーネントである。 Further, as shown in FIG. 2, as components arranged outside the monitoring system 100, there are a terminal 200, a management information collecting unit 310, and a performance information collecting unit 410 to a performance information collecting unit 41N. The terminal 200, the management information collecting unit 310, and the performance information collecting unit 410 to the performance information collecting unit 41N are all components provided by the monitoring system 100.

端末200は、運用管理者等の監視システム100の利用者がアクセス可能な端末である。端末200は、性能異常検知部103からの通知を受信し、受信された通知の内容を参照する機能と、監視システム100を操作する機能とを有する。 The terminal 200 is a terminal accessible to users of the monitoring system 100 such as an operation manager. The terminal 200 has a function of receiving a notification from the performance abnormality detection unit 103 and referring to the content of the received notification, and a function of operating the monitoring system 100.

端末200が受信した通知を参照した監視システム100の利用者は、コンテナインスタンスにおける性能の異常に対して、コンテナ管理システム300にスケールアウトを実行させる指示を出すという対応をとることができる。 The user of the monitoring system 100 who has referred to the notification received by the terminal 200 can take a measure of instructing the container management system 300 to execute the scale-out in response to the performance abnormality in the container instance.

または、監視システム100の利用者は、監視システム100にベースラインを変更させる、アプリケーションを修正させる等の指示を出すという対応をとることができる。よって、利用者は、アプリケーションの性能劣化や異常による影響を抑止できる。 Alternatively, the user of the monitoring system 100 can take measures such as issuing an instruction to the monitoring system 100 to change the baseline or modify the application. Therefore, the user can suppress the influence of the performance deterioration or abnormality of the application.

管理情報収集部310は、コンテナ管理システム300が保持するコンテナインスタンスの情報を収集する機能を有する。 The management information collection unit 310 has a function of collecting information on the container instance held by the container management system 300.

性能情報収集部410〜性能情報収集部41Nは、各コンテナインスタンスの性能情報をそれぞれ収集する機能を有する。性能情報収集部410〜性能情報収集部41Nは、各コンテナインスタンスの内部に配置されてもよいし、外部に配置されてもよい。 The performance information collecting unit 410 to the performance information collecting unit 41N has a function of collecting performance information of each container instance. The performance information collecting unit 410 to the performance information collecting unit 41N may be arranged inside each container instance or may be arranged outside.

以下、監視システム100内の各記憶部が保持する情報を説明する。図3は、性能情報記憶部109に記憶される性能情報の例を示す説明図である。図3に示すように、性能情報は、収集時刻と、インスタンス名と、CPU(Central Processing Unit)使用率と、メモリ使用量とで少なくとも構成されている。 The information held by each storage unit in the monitoring system 100 will be described below. FIG. 3 is an explanatory diagram showing an example of performance information stored in the performance information storage unit 109. As shown in FIG. 3, the performance information is composed of at least a collection time, an instance name, a CPU (Central Processing Unit) usage rate, and a memory usage amount.

収集時刻は、監視対象のコンテナインスタンスから性能情報が収集された時刻である。また、インスタンス名は、性能情報が収集されたコンテナインスタンスの名称である。インスタンス名は、監視対象を一意に特定できる情報である。 The collection time is the time when the performance information is collected from the container instance to be monitored. The instance name is the name of the container instance for which performance information has been collected. The instance name is information that can uniquely identify the monitoring target.

また、CPU使用率(%)およびメモリ使用量(MB)は、監視対象のコンテナインスタンスから収集された性能値である。なお、監視対象の項目は、CPU使用率およびメモリ使用量以外の項目でもよい。監視対象の項目は、任意で指定される。 The CPU usage rate (%) and memory usage (MB) are performance values collected from the container instance to be monitored. The items to be monitored may be items other than the CPU usage rate and the memory usage amount. Items to be monitored are arbitrarily specified.

性能値を収集する監視対象の項目は、運用管理者が任意に定義できる。ただし、同じオートスケーリンググループに属するコンテナインスタンスに対して、性能値が収集される監視対象の項目の種類は、統一されている。 The items to be monitored for which performance values are collected can be arbitrarily defined by the operation administrator. However, for container instances that belong to the same autoscaling group, the types of monitored items for which performance values are collected are unified.

例えば、図3に示す性能情報におけるCPU使用率とメモリ使用量に関して、運用管理者が端末200を介して「Postgres-v9グループに属するコンテナインスタンスからはメモリ使用量を収集しない」と定義できる。同様に、運用管理者が端末200を介して「nginxグループに属するコンテナインスタンスからはディスク使用率(%)の情報を追加で収集する」と定義できる。 For example, regarding the CPU usage rate and the memory usage amount in the performance information shown in FIG. 3, the operation manager can define that "the memory usage amount is not collected from the container instance belonging to the Postgres-v9 group" via the terminal 200. Similarly, the operation administrator can define that "additional disk usage (%) information is collected from the container instances belonging to the nginx group" via the terminal 200.

しかし、運用管理者は、「CPU使用率を、Nginx-01からは収集するが、Nginx-02からは収集しない」と定義しない。定義しない理由は、ベースラインの生成にあたり、ベースライン生成部107が同一のオートスケーリンググループに属する各コンテナインスタンスの性能情報を利用するためである。 However, the operation manager does not define that "CPU usage is collected from Nginx-01 but not from Nginx-02". The reason for not defining it is that the baseline generation unit 107 uses the performance information of each container instance belonging to the same autoscaling group when generating the baseline.

換言すると、同一のオートスケーリンググループに属するコンテナインスタンスから収集される性能情報が異なると、ベースラインの生成に求められる分だけ性能情報が十分に集まらず、ベースラインの生成に時間がかかるリスクがあるためである。 In other words, if the performance information collected from container instances belonging to the same autoscaling group is different, there is a risk that the performance information will not be collected enough for the baseline generation and it will take time to generate the baseline. Because.

または、特定のコンテナインスタンスから収集された性能情報に偏って生成されたベースラインが利用されると、他のコンテナインスタンスの監視の精度が低下するリスクがあるためである。 Another reason is that if a baseline generated biased toward performance information collected from a specific container instance is used, there is a risk that the accuracy of monitoring of other container instances will decrease.

図4は、グループ情報記憶部110に記憶されるグループ情報の例を示す説明図である。図4に示すように、グループ情報は、グループ名と、インスタンス名とで構成されている。 FIG. 4 is an explanatory diagram showing an example of group information stored in the group information storage unit 110. As shown in FIG. 4, the group information is composed of a group name and an instance name.

グループ名は、上述したオートスケーリングが行われるオートスケーリンググループの名称である。グループ名は、オートスケーリンググループを一意に特定する名称である。 The group name is the name of the auto-scaling group on which the above-mentioned auto-scaling is performed. The group name is a name that uniquely identifies the autoscaling group.

また、インスタンス名は、コンテナインスタンスを一意に特定する名称である。図4に示すインスタンス名は、図3に示すインスタンス名と同一である。 The instance name is a name that uniquely identifies the container instance. The instance name shown in FIG. 4 is the same as the instance name shown in FIG.

図5は、ベースライン記憶部112に記憶されるベースライン情報の例を示す説明図である。図5に示すように、ベースライン情報は、ベースライン時刻と、グループ名と、CPU使用率と、メモリ使用量とで少なくとも構成されている。 FIG. 5 is an explanatory diagram showing an example of baseline information stored in the baseline storage unit 112. As shown in FIG. 5, the baseline information is composed of at least a baseline time, a group name, a CPU usage rate, and a memory usage amount.

ベースライン情報は、情報システムの負荷状況等には周期性が存在するという前提の下で、所定の期間ごとに生成される。図5に示す例では、負荷状況の周期が1週間と想定されている。 Baseline information is generated at predetermined intervals on the premise that there is periodicity in the load status of the information system. In the example shown in FIG. 5, the cycle of the load condition is assumed to be one week.

ベースライン時刻は、性能情報の収集時刻とベースラインとを対応させるための時刻である。図5に示す例では、ベースラインが対応する負荷状況の周期が1週間であるため、ベースライン時刻は、曜日と時刻で表示されている。 The baseline time is a time for associating the collection time of performance information with the baseline. In the example shown in FIG. 5, since the cycle of the load status corresponding to the baseline is one week, the baseline time is displayed by the day of the week and the time.

もしベースラインが対応する負荷状況の周期が1ヶ月であれば、ベースライン時刻は、「○○日 時刻」のように表示される。ベースラインが対応する負荷状況の周期には、任意の周期が指定されてよい。 If the load status cycle supported by the baseline is one month, the baseline time is displayed as "XX day time". Any cycle may be specified for the cycle of the load condition to which the baseline corresponds.

グループ名は、オートスケーリンググループの名称である。図5に示すグループ名は、図4に示すグループ名と同一である。すなわち、ベースラインは、特許文献2に記載されているベースラインと同様に、同一のオートスケーリンググループに属する各コンテナインスタンスに共有される。 The group name is the name of the autoscaling group. The group name shown in FIG. 5 is the same as the group name shown in FIG. That is, the baseline is shared by each container instance belonging to the same autoscaling group, similar to the baseline described in Patent Document 2.

また、CPU使用率およびメモリ使用量は、グループ名が示すオートスケーリンググループに属するコンテナインスタンスに対する、ベースライン時刻におけるベースラインである。ベースラインの計算式は、例えば以下の式である。 In addition, the CPU usage rate and the memory usage amount are baselines at the baseline time for the container instances belonging to the autoscaling group indicated by the group name. The baseline calculation formula is, for example, the following formula.

Figure 2020135336
Figure 2020135336

式(1)の第2項が、図5に示すσ(標準偏差)である。なお、式(1)におけるxiは、グループ名が示すオートスケーリンググループに属する任意のコンテナインスタンスの、ベースライン時刻における性能値である。 The second term of equation (1) is σ (standard deviation) shown in FIG. Note that x i in the equation (1) is a performance value at baseline time of any container instance belonging to the autoscaling group indicated by the group name.

また、式(1)の第1項は、グループ名が示すオートスケーリンググループに属する全てのコンテナインスタンスの、ベースライン時刻における性能値の平均値である。また、nは、グループ名が示すオートスケーリンググループに属するコンテナインスタンスの数である。 The first term of the equation (1) is the average value of the performance values at the baseline time of all the container instances belonging to the autoscaling group indicated by the group name. In addition, n is the number of container instances belonging to the autoscaling group indicated by the group name.

なお、ベースラインの生成対象の項目は、CPU使用率およびメモリ使用量以外の項目でもよい。ベースラインは、図3に示す監視対象の項目毎に生成される。 The items to be generated as the baseline may be items other than the CPU usage rate and the memory usage amount. A baseline is generated for each item to be monitored shown in FIG.

また、バージョン更新時、ベースライン生成部107は、以下の式に従ってベースラインを計算する。 Further, at the time of version update, the baseline generation unit 107 calculates the baseline according to the following formula.

Figure 2020135336
Figure 2020135336

なお、式(2)におけるmは、旧バージョンのコンテナインスタンス数と新バージョンのコンテナインスタンス数の和である。また、式(2)におけるm_oldは、旧バージョンのコンテナインスタンス数である。 In addition, m in the formula (2) is the sum of the number of container instances of the old version and the number of container instances of the new version. Moreover, m_old in the formula (2) is the number of container instances of the old version.

ベースライン生成部107は、グループ情報記憶部110から取得された旧バージョンのグループ情報、および新バージョンのグループ情報を基に、稼働しているコンテナインスタンスの情報を取得する。取得した情報を基に、ベースライン生成部107は、ベースラインを更新する。 The baseline generation unit 107 acquires information on the running container instance based on the group information of the old version and the group information of the new version acquired from the group information storage unit 110. The baseline generation unit 107 updates the baseline based on the acquired information.

なお、式(2)において式(1)と異なる項である((m+m_old)/m)は、1から2の間の値をとる。((m+m_old)/m)は、旧バージョンのコンテナインスタンスが多く稼働しているほど2に近づき、新バージョンのコンテナインスタンスが多く稼働しているほど1に近づく。 The term ((m + m_old) / m), which is a different term from the equation (1) in the equation (2), takes a value between 1 and 2. ((m + m_old) / m) approaches 2 as the number of container instances of the old version is running, and approaches 1 as the number of container instances of the new version is running.

ベースライン生成部107には、ローリングアップデートの序盤は、新バージョンのコンテナインスタンスの性能情報が少なく、旧バージョンのコンテナインスタンスの性能情報が多い状態でベースラインを更新することが求められる。 The baseline generation unit 107 is required to update the baseline in a state where the performance information of the new version container instance is small and the performance information of the old version container instance is large at the beginning of the rolling update.

よって、ベースラインの幅(図5に示すσ)を最大2倍にすることによって、ベースライン生成部107は、新バージョンの性能情報に対する誤検知を抑制する。しかし、明らかな異常値等は、ベースラインの範囲を超過する。すなわち、監視を継続して実行する性能異常検知部103は、性能の異常を検知できる。 Therefore, by doubling the width of the baseline (σ shown in FIG. 5) at the maximum, the baseline generation unit 107 suppresses false detection of the performance information of the new version. However, obvious outliers and the like exceed the baseline range. That is, the performance abnormality detection unit 103 that continuously executes monitoring can detect the performance abnormality.

旧バージョンのコンテナインスタンスが全て停止すると、ベースラインの幅は1倍になる。すなわち、ベースラインの計算式(2)が、通常時の計算式(1)と一致する。旧バージョンのコンテナインスタンスが全て停止した時、新バージョンのコンテナインスタンスの性能情報に基づいたベースラインの更新が完了する。 When all older versions of container instances are shut down, the baseline width is multiplied by 1. That is, the baseline calculation formula (2) matches the normal calculation formula (1). When all the old version container instances are stopped, the baseline update based on the performance information of the new version container instance is completed.

なお、ローリングアップデート等が行われるバージョン更新時にベースラインの計算に使用される計算式は、式(2)以外の計算式でもよい。 The calculation formula used for the baseline calculation at the time of version update in which rolling update or the like is performed may be a calculation formula other than the formula (2).

図6は、構成変更情報記憶部111に記憶される構成変更情報の例を示す説明図である。図6に示すように、構成変更情報は、最終更新時刻と、変更の種類と、旧バージョングループ名と、新バージョングループ名と、旧バージョンインスタンス数と、新バージョンインスタンス数とで構成されている。 FIG. 6 is an explanatory diagram showing an example of configuration change information stored in the configuration change information storage unit 111. As shown in FIG. 6, the configuration change information is composed of the last update time, the type of change, the old version group name, the new version group name, the number of old version instances, and the number of new version instances. ..

旧バージョングループ名は、構成が変更される前のコンテナインスタンスが属するオートスケーリンググループの名称として定義された名称である。また、新バージョングループ名は、構成変更で新たにリリースされるコンテナインスタンスが属するオートスケーリンググループの名称として定義される名称である。 The old version group name is the name defined as the name of the autoscaling group to which the container instance before the configuration change belongs. The new version group name is a name defined as the name of the autoscaling group to which the container instance newly released by the configuration change belongs.

上述したように、グループ名は、オートスケーリンググループを一意に特定する名称である。すなわち、旧バージョングループ名と新バージョングループ名が異なる場合、旧バージョンのコンテナインスタンスが属するオートスケーリンググループと新バージョンのコンテナインスタンスが属するオートスケーリンググループは異なる。 As described above, the group name is a name that uniquely identifies the autoscaling group. That is, when the old version group name and the new version group name are different, the autoscaling group to which the old version container instance belongs and the autoscaling group to which the new version container instance belongs are different.

なお、グループ名でバージョンが区別されないように、構成変更情報が他のバージョンの情報を有してもよい。本実施形態では、図6に示す例のように、グループ名でバージョンが区別される。 Note that the configuration change information may include information on other versions so that the versions are not distinguished by the group name. In this embodiment, as in the example shown in FIG. 6, the versions are distinguished by the group name.

また、旧バージョンインスタンス数は、構成変更処理が開始された後、旧バージョングループ名が示すオートスケーリンググループに属し、かつ稼働しているコンテナインスタンスの数である。 The number of old version instances is the number of container instances that belong to the autoscaling group indicated by the old version group name and are in operation after the configuration change process is started.

また、新バージョンインスタンス数は、構成変更処理が開始された後、新バージョングループ名が示すオートスケーリンググループに属し、かつ稼働しているコンテナインスタンスの数である。 The number of new version instances is the number of container instances that belong to the autoscaling group indicated by the new version group name and are in operation after the configuration change process is started.

図7は、ローリングアップデート時のコンテナインスタンス数の変化の例を示す説明図である。図7に示す黒色の矩形は、稼働しているコンテナインスタンスを表す。また、図7に示す破線の矩形は、停止しているコンテナインスタンスを表す。 FIG. 7 is an explanatory diagram showing an example of a change in the number of container instances at the time of rolling update. The black rectangle shown in FIG. 7 represents a running container instance. The broken line rectangle shown in FIG. 7 represents a stopped container instance.

ローリングアップデートは、システムを停止させずにシステムを更新する方法である。具体的には、ローリングアップデートは、新バージョンのコンテナインスタンスを1つずつ起動し、代わりに旧バージョンのコンテナインスタンスを1つずつ停止する。なお、ローリングアップデートが1度に起動または停止させるコンテナインスタンスの数は、1つに限られない。 Rolling update is a method of updating a system without stopping the system. Specifically, the rolling update starts the new version of container instances one by one and stops the old version of container instances one by one instead. The number of container instances that the rolling update starts or stops at one time is not limited to one.

図7(a)は、更新開始直後のコンテナインスタンスを示す。図7(a)に示すように、ローリングアップデートは、旧バージョンのコンテナインスタンスを1つ停止させた時、新バージョンのコンテナインスタンスを1つだけ稼働させている。 FIG. 7A shows a container instance immediately after the start of update. As shown in FIG. 7A, in the rolling update, when one container instance of the old version is stopped, only one container instance of the new version is running.

図7(b)は、更新終了直前のコンテナインスタンスを示す。図7(b)に示すように、ローリングアップデートは、新バージョンのコンテナインスタンスを4つ起動させた時。旧バージョンのコンテナインスタンスを1つだけ稼働させている。 FIG. 7B shows a container instance immediately before the end of the update. As shown in FIG. 7 (b), the rolling update is when four new version container instances are started. Only one old version of the container instance is running.

上記のように、図6に示す旧バージョンインスタンス数は、図7に示すバージョン更新中に稼働している旧バージョンのコンテナインスタンスの数である。また、図6に示す新バージョンインスタンス数は、図7に示すバージョン更新中に稼働している新バージョンのコンテナインスタンスの数である。 As described above, the number of old version instances shown in FIG. 6 is the number of old version container instances running during the version update shown in FIG. 7. The number of new version instances shown in FIG. 6 is the number of new version container instances running during the version update shown in FIG. 7.

また、変更の種類は、構成変更の種類である。構成変更の種類には、バージョンの更新の他にもスケールアウト、スケールイン、新規追加、および削除等がある。変更の種類には、いずれの情報も指定可能である。本実施形態では、変更の種類は、主にバージョンの更新を意味する。また、最終更新時刻は、構成変更情報が更新された最終時刻である。 The type of change is the type of configuration change. In addition to version updates, the types of configuration changes include scale-out, scale-in, new addition, and deletion. Any information can be specified as the type of change. In this embodiment, the type of change mainly means a version update. The last update time is the last time when the configuration change information is updated.

[動作の説明]
以下、本実施形態の監視システム100の動作を図8〜図10を参照して説明する。
[Explanation of operation]
Hereinafter, the operation of the monitoring system 100 of the present embodiment will be described with reference to FIGS. 8 to 10.

ベースラインを利用した監視システム100の特徴は、バージョン更新時に通常時と異なる方法でベースラインを生成および更新することである。本実施形態の監視システム100は、図8に示すベースラインを利用した性能異常検知処理と、図9に示すバージョン更新時のベースライン更新処理が組み合わせられた処理を行う。 A feature of the monitoring system 100 using the baseline is that the baseline is generated and updated by a method different from the normal time when the version is updated. The monitoring system 100 of the present embodiment performs a process in which the performance abnormality detection process using the baseline shown in FIG. 8 and the baseline update process at the time of version update shown in FIG. 9 are combined.

また、バージョン更新中に新バージョンのコンテナインスタンスに異常を検出した時の処理は、図8に示す処理と異なる。よって、図8に示す処理と異なる部分のみを、図10に示すバージョン更新時の性能異常検知処理を参照して説明する。以下、各処理を説明する。 Further, the process when an abnormality is detected in the container instance of the new version during the version update is different from the process shown in FIG. Therefore, only the part different from the process shown in FIG. 8 will be described with reference to the performance abnormality detection process at the time of version update shown in FIG. Each process will be described below.

最初に、本実施形態の監視システム100のベースラインを利用した性能の異常を検知する動作を図8を参照して説明する。図8は、第1の実施形態の監視システム100による通常時の性能異常検知処理の動作を示すフローチャートである。 First, an operation of detecting a performance abnormality using the baseline of the monitoring system 100 of the present embodiment will be described with reference to FIG. FIG. 8 is a flowchart showing the operation of the performance abnormality detection process in the normal state by the monitoring system 100 of the first embodiment.

最初に、性能情報収集部410〜性能情報収集部41Nは、監視システム100で指定された収集間隔ごとに、監視対象の各コンテナインスタンスからそれぞれ性能情報を収集する(ステップS101)。性能情報は、図3に示す情報を少なくとも含む。 First, the performance information collecting unit 410 to the performance information collecting unit 41N collects performance information from each container instance to be monitored at each collection interval specified by the monitoring system 100 (step S101). The performance information includes at least the information shown in FIG.

性能情報収集部410〜性能情報収集部41Nは、収集された各性能情報を性能情報受付部101に送信する。送信した後、性能情報収集部410〜性能情報収集部41Nは、次の収集のタイミングまで待機する。図8に示す性能異常検知処理は、性能情報の収集を契機に、定期的に実行される。 The performance information collecting unit 410 to the performance information collecting unit 41N transmits each collected performance information to the performance information receiving unit 101. After transmission, the performance information collecting unit 410 to the performance information collecting unit 41N stand by until the next collection timing. The performance abnormality detection process shown in FIG. 8 is periodically executed with the collection of performance information as an opportunity.

次いで、性能情報受付部101は、性能情報収集部410〜性能情報収集部41Nよりそれぞれ受信した各性能情報を、性能情報処理部102に入力する(ステップS102)。 Next, the performance information receiving unit 101 inputs each performance information received from the performance information collecting unit 410 to the performance information collecting unit 41N into the performance information processing unit 102 (step S102).

次いで、性能情報処理部102は、性能情報受付部101から入力された各性能情報を性能情報記憶部109に格納する(ステップS103)。 Next, the performance information processing unit 102 stores each performance information input from the performance information receiving unit 101 in the performance information storage unit 109 (step S103).

各性能情報を性能情報記憶部109に格納した後、性能情報処理部102は、格納した各性能情報を性能異常検知部103に入力する(ステップS104)。 After storing each performance information in the performance information storage unit 109, the performance information processing unit 102 inputs each stored performance information to the performance abnormality detection unit 103 (step S104).

次いで、性能異常検知部103は、性能情報処理部102から各性能情報が入力されると、入力された性能情報に対応するコンテナインスタンスが属するオートスケーリンググループのグループ名を、インスタンス名を基にグループ情報記憶部110に問い合わせる。問い合わせた後、性能異常検知部103は、グループ情報記憶部110からグループ名を取得する(ステップS105)。 Next, when each performance information is input from the performance information processing unit 102, the performance abnormality detection unit 103 groups the group name of the auto scaling group to which the container instance corresponding to the input performance information belongs based on the instance name. Inquire to the information storage unit 110. After making the inquiry, the performance abnormality detection unit 103 acquires the group name from the group information storage unit 110 (step S105).

例えば、コンテナインスタンス「Nginx-01」の性能情報が入力された場合、性能異常検知部103は、コンテナインスタンス「Nginx-01」が属するオートスケ−リンググループをグループ情報記憶部110に問い合わせる。問い合わせた後、性能異常検知部103は、グループ「nginx」に属するという通知をグループ情報記憶部110から受ける。 For example, when the performance information of the container instance "Nginx-01" is input, the performance abnormality detection unit 103 inquires the group information storage unit 110 for the autoscaling group to which the container instance "Nginx-01" belongs. After making an inquiry, the performance abnormality detection unit 103 receives a notification from the group information storage unit 110 that it belongs to the group "nginx".

次いで、性能異常検知部103は、ベースライン記憶部112に格納されたベースライン情報を参照し、グループ名と性能情報の収集時刻が適合するベースライン情報を取得する(ステップS106)。 Next, the performance abnormality detection unit 103 refers to the baseline information stored in the baseline storage unit 112, and acquires the baseline information in which the group name and the collection time of the performance information match (step S106).

例えば、性能情報に含まれる収集時刻(例えば、水曜21時30分)と、グループ情報記憶部110から取得されたグループ名「nginx」を基に、性能異常検知部103は、ベースライン情報を取得する。 For example, the performance abnormality detection unit 103 acquires baseline information based on the collection time included in the performance information (for example, Wednesday 21:30) and the group name “nginx” acquired from the group information storage unit 110. To do.

次いで、性能異常検知部103は、取得されたベースライン情報のベースラインと、性能情報の対応する監視対象の項目の値とを、各性能情報に渡ってそれぞれ比較する(ステップS107)。比較することによって、性能異常検知部103は、各性能情報が示す性能項目に異常があるか否かを判断する(ステップS108)。 Next, the performance abnormality detection unit 103 compares the acquired baseline of the baseline information with the value of the corresponding monitoring target item of the performance information over each performance information (step S107). By comparing, the performance abnormality detection unit 103 determines whether or not there is an abnormality in the performance item indicated by each performance information (step S108).

具体的には、監視対象の項目の値がベースラインの範囲を超えている場合、性能異常検知部103は、監視対象の項目に劣化の兆候や異常があると判断する。例えば、コンテナインスタンス「Nginx-01」のCPU使用率が対応するベースライン情報のCPU使用率「60±3σ」の範囲を超えた場合、性能異常検知部103は、CPU使用率が異常であると判断する。 Specifically, when the value of the item to be monitored exceeds the range of the baseline, the performance abnormality detection unit 103 determines that the item to be monitored has a sign of deterioration or an abnormality. For example, when the CPU usage rate of the container instance "Nginx-01" exceeds the range of the CPU usage rate "60 ± 3σ" of the corresponding baseline information, the performance abnormality detection unit 103 determines that the CPU usage rate is abnormal. to decide.

監視対象の項目に異常がないと判断した場合(ステップS108におけるNo)、監視システム100は、性能異常検知処理を終了する。 When it is determined that there is no abnormality in the item to be monitored (No in step S108), the monitoring system 100 ends the performance abnormality detection process.

監視対象の項目に異常があると判断した場合(ステップS108におけるYes)、性能異常検知部103は、異常があると判断された性能情報を端末200に送信する(ステップS109)。 When it is determined that the item to be monitored has an abnormality (Yes in step S108), the performance abnormality detection unit 103 transmits the performance information determined to be abnormal to the terminal 200 (step S109).

次いで、監視システム100の利用者は、送信された性能情報を参照して、操作受付部108に異常を解消するための操作を端末200を介して入力する(ステップS110)。操作が入力された後、監視システム100は、性能異常検知処理を終了する。 Next, the user of the monitoring system 100 refers to the transmitted performance information and inputs an operation for resolving the abnormality to the operation reception unit 108 via the terminal 200 (step S110). After the operation is input, the monitoring system 100 ends the performance abnormality detection process.

次に、本実施形態の監視システム100のバージョン更新時のベースラインを更新する動作を図9を参照して説明する。図9は、第1の実施形態の監視システム100によるベースライン更新処理の動作を示すフローチャートである。 Next, the operation of updating the baseline at the time of updating the version of the monitoring system 100 of the present embodiment will be described with reference to FIG. FIG. 9 is a flowchart showing the operation of the baseline update process by the monitoring system 100 of the first embodiment.

なお、通常時のベースラインの生成方法は、上述したベースライン生成部107が有する機能に基づいた方法である。図9は、バージョン更新時のベースライン更新処理を示す。図9に示す処理は、コンテナ管理システム300に対するバージョンの更新要求を契機に開始される。 The normal baseline generation method is a method based on the function of the baseline generation unit 107 described above. FIG. 9 shows the baseline update process at the time of version update. The process shown in FIG. 9 is started when a version update request is made to the container management system 300.

コンテナ管理システム300において常時稼働している管理情報収集部310は、コンテナ管理システム300がバージョンの更新要求を受け付けたことを検知する。検知した後、管理情報収集部310は、バージョン更新による構成の変更内容と現在の構成内容とを管理情報受付部104に送信する(ステップS201)。 The management information collecting unit 310, which is always in operation in the container management system 300, detects that the container management system 300 has received the version update request. After the detection, the management information collecting unit 310 transmits the changed content of the configuration due to the version update and the current configuration content to the management information receiving unit 104 (step S201).

次いで、管理情報受付部104は、受信された情報を構成変更情報とグループ情報に分類する。分類した後、管理情報受付部104は、構成変更情報を構成変更管理部105に入力する(ステップS202)。また、管理情報受付部104は、グループ情報をグループ情報管理部106に入力する(ステップS203)。 Next, the management information reception unit 104 classifies the received information into configuration change information and group information. After the classification, the management information receiving unit 104 inputs the configuration change information to the configuration change management unit 105 (step S202). Further, the management information receiving unit 104 inputs the group information to the group information management unit 106 (step S203).

次いで、構成変更管理部105は、入力された構成変更情報を構成変更情報記憶部111に格納する(ステップS204)。次いで、グループ情報管理部106は、入力されたグループ情報をグループ情報記憶部110に格納する(ステップS205)。 Next, the configuration change management unit 105 stores the input configuration change information in the configuration change information storage unit 111 (step S204). Next, the group information management unit 106 stores the input group information in the group information storage unit 110 (step S205).

例えば、グループ情報管理部106は、ローリングアップデートにより起動した新バージョンのコンテナインスタンスのグループ情報をグループ情報記憶部110に追加する。また、グループ情報管理部106は、停止した旧バージョンのコンテナインスタンスのグループ情報をグループ情報記憶部110から削除してもよい。 For example, the group information management unit 106 adds the group information of the new version of the container instance started by the rolling update to the group information storage unit 110. Further, the group information management unit 106 may delete the group information of the stopped old version container instance from the group information storage unit 110.

次いで、構成変更情報記憶部111およびグループ情報記憶部110は、ベースライン生成部107に更新された情報を入力する(ステップS206)。 Next, the configuration change information storage unit 111 and the group information storage unit 110 input the updated information to the baseline generation unit 107 (step S206).

次いで、ベースライン生成部107は、入力された更新された情報を基に、新規で追加されたコンテナインスタンスの性能情報を性能情報記憶部109から取得する(ステップS207)。 Next, the baseline generation unit 107 acquires the performance information of the newly added container instance from the performance information storage unit 109 based on the input updated information (step S207).

次いで、ベースライン生成部107は、取得された性能情報を基に、式(2)を用いてベースライン情報を更新する(ステップS208)。 Next, the baseline generation unit 107 updates the baseline information using the equation (2) based on the acquired performance information (step S208).

次いで、ベースライン生成部107は、更新されたベースライン情報をベースライン記憶部112に格納する(ステップS209)。格納した後、監視システム100は、ベースライン更新処理を終了する。 Next, the baseline generation unit 107 stores the updated baseline information in the baseline storage unit 112 (step S209). After storing, the monitoring system 100 ends the baseline update process.

ベースライン記憶部112は、更新されたベースライン情報を、新バージョンのオートスケーリンググループのベースライン情報として登録する。なお、旧バージョンのコンテナインスタンスが全て停止した場合、ベースライン記憶部112は、旧バージョンのベースライン情報を削除してもよい。 The baseline storage unit 112 registers the updated baseline information as the baseline information of the new version of the autoscaling group. When all the container instances of the old version are stopped, the baseline storage unit 112 may delete the baseline information of the old version.

次に、本実施形態の監視システム100の、図9に示すベースライン更新処理で更新されたバージョン更新時のベースライン情報を利用した、新バージョンのコンテナインスタンスの異常を検知する動作を図10を参照して説明する。 Next, FIG. 10 shows an operation of detecting an abnormality in a new version of the container instance of the monitoring system 100 of the present embodiment by using the baseline information at the time of version update updated by the baseline update process shown in FIG. It will be explained with reference to.

図10は、第1の実施形態の監視システム100によるバージョン更新時の性能異常検知処理の動作を示すフローチャートである。なお、通常時の性能異常検知処理は、図8に示す処理である。 FIG. 10 is a flowchart showing the operation of the performance abnormality detection process at the time of version update by the monitoring system 100 of the first embodiment. The performance abnormality detection process in the normal state is the process shown in FIG.

ステップS301〜ステップS305の各処理は、図8に示すステップS101〜ステップS105の各処理とそれぞれ同様である。 The processes of steps S301 to S305 are the same as the processes of steps S101 to S105 shown in FIG.

次いで、性能異常検知部103は、取得されたグループ名を基に、構成変更情報記憶部111から構成変更情報を取得する(ステップS306)。取得された構成変更情報を基に、性能異常検知部103は、稼働している新バージョンのコンテナインスタンスの数を確認する(ステップS307)。 Next, the performance abnormality detection unit 103 acquires the configuration change information from the configuration change information storage unit 111 based on the acquired group name (step S306). Based on the acquired configuration change information, the performance abnormality detection unit 103 confirms the number of new version container instances in operation (step S307).

新バージョンのコンテナインスタンスが1つしか稼働していない場合、稼働しているコンテナインスタンスが1つ目の新バージョンのコンテナインスタンスである。すなわち、新バージョンのコンテナインスタンスの性能情報で、ベースラインはまだ生成されていない。 If only one new version of the container instance is running, the running container instance is the first new version of the container instance. That is, the performance information of the new version of the container instance has not yet generated a baseline.

よって、新バージョンのコンテナインスタンスが1つしか稼働していない場合(ステップS308におけるNo)、性能異常検知部103は、更新されたベースライン情報を取得対象に変更せず、ステップS310の処理に進む。 Therefore, when only one new version of the container instance is running (No in step S308), the performance abnormality detection unit 103 does not change the updated baseline information to the acquisition target, and proceeds to the process of step S310. ..

新バージョンのコンテナインスタンスが2つ以上稼働している場合(ステップS308におけるYes)、性能異常検知部103は、更新されたベースライン情報を取得対象に変更する(ステップS309)。なお、取得対象に変更されるベースライン情報は、図9に示す処理で更新されたベースライン情報である。 When two or more new version container instances are running (Yes in step S308), the performance abnormality detection unit 103 changes the updated baseline information to the acquisition target (step S309). The baseline information changed to the acquisition target is the baseline information updated by the process shown in FIG.

ステップS310〜ステップS314の各処理は、図8に示すステップS106〜ステップS110の各処理とそれぞれ同様である。 The processes of steps S310 to S314 are the same as the processes of steps S106 to S110 shown in FIG.

なお、ローリングアップデート中、性能値がベースラインの範囲を超えない場合であっても、旧バージョンのベースラインの範囲を超えるようであれば、性能異常検知部103は、異常の可能性があるとしてユーザに通知してもよい。 Even if the performance value does not exceed the baseline range during the rolling update, if it exceeds the baseline range of the previous version, the performance abnormality detection unit 103 considers that there is a possibility of an abnormality. The user may be notified.

[効果の説明]
ローリングアップデートによるバージョン更新中等、新バージョンのコンテナインスタンスの性能を監視する際に旧バージョンのコンテナインスタンスの性能情報が利用されて生成されたベースラインが利用される場合がある。
[Explanation of effect]
When monitoring the performance of a new version of a container instance, such as during a version update by rolling update, the baseline generated by using the performance information of the old version of the container instance may be used.

旧バージョンのベースラインが利用される場合、分散の幅が小さい、安定状態にある時間帯の監視では、新バージョンのコンテナインスタンスの性能の傾向の変化により誤った異常が検知される懸念がある。 When the baseline of the old version is used, there is a concern that false anomalies may be detected due to changes in the performance tendency of the container instance of the new version in monitoring during a stable time period with a small distribution width.

本実施形態の監視システム100は、バージョン更新中、通常時のベースラインの計算に使用される計算式を変更し、使用されるベースラインの分散の幅を広げる。分散の幅を広げることによって、監視システム100は、性能の傾向や負荷状況の変化を誤って検知しないようにする。 During the version update, the monitoring system 100 of the present embodiment changes the calculation formula used for the calculation of the baseline at the normal time, and widens the range of dispersion of the baseline used. By widening the range of distribution, the monitoring system 100 prevents erroneous detection of changes in performance trends and load conditions.

また、単純に分散の幅を広げるだけでは誤った検知を防げても、本来検知された異常が見過ごされてしまうリスクがある。よって、監視システム100は、分散の幅を固定せずに、新バージョンの性能情報がまだ少ない時点や、新バージョンの性能情報が十分集まってきた時点等、ローリングアップデートの進行状況に合わせて更新中のベースラインの分散の幅が動的に変更されるような計算式を用いる。 Moreover, even if erroneous detection can be prevented by simply widening the range of dispersion, there is a risk that the originally detected abnormality will be overlooked. Therefore, the monitoring system 100 is being updated according to the progress of the rolling update, such as when the performance information of the new version is still small or when the performance information of the new version is sufficiently gathered, without fixing the distribution width. Use a formula that dynamically changes the width of the baseline variance of.

以上により、高頻度でバージョンが更新されるような情報システムにおいても、運用管理者は、監視システム100を用いて、バージョンの更新を意識することなくベースラインによる監視を継続して実行できる。かつ、バージョンの更新中であっても、運用管理者は、精度を保ったまま監視を実行できる。 As described above, even in an information system whose version is updated frequently, the operation manager can continuously execute the monitoring by the baseline by using the monitoring system 100 without being aware of the version update. Moreover, even during the version update, the operation manager can perform monitoring while maintaining accuracy.

コンテナ型仮想化技術やDevOps等の普及により、大規模なサービスのバージョンであっても、ユーザの需要が取り込まれた新しいバージョンが容易にリリースされている。すなわち、バージョンの更新と、更新されたバージョンのリリースが以前よりも高頻度で行われている。 With the spread of container-type virtualization technology and DevOps, new versions that capture the needs of users are easily released even for large-scale service versions. That is, version updates and updated versions are released more frequently than before.

本実施形態の監視システム100を利用する運用管理者は、高頻度でバージョンが更新されるような情報システムの監視において、バージョンの更新を契機に監視の再設定を行わずに済む。運用管理者は、異常を誤検知せずに継続して情報システムを監視できる。 The operation manager who uses the monitoring system 100 of the present embodiment does not have to reset the monitoring when the version is updated in the monitoring of the information system whose version is updated frequently. The operation manager can continuously monitor the information system without erroneously detecting an abnormality.

具体的には、高頻度でバージョンが更新される情報システムと情報システムにおいて稼働するアプリケーションの性能状況とをベースラインを用いて監視する監視システム100は、ローリングアップデートによるバージョン更新中にベースラインを自動で更新する。 Specifically, the monitoring system 100, which monitors the information system whose version is updated frequently and the performance status of the application running in the information system using the baseline, automatically performs the baseline during the version update by the rolling update. Update with.

よって、ユーザは、ベースラインの再生成等、バージョンの更新前またはバージョンの更新後にバージョン更新を契機とする作業を実施することなく、継続して情報システムを監視できる。 Therefore, the user can continuously monitor the information system without performing the work triggered by the version update before the version update or after the version update, such as regenerating the baseline.

特許文献3に記載されているアプリケーション管理システムは、バージョンの更新前のアプリケーションの性能情報とバージョンの更新後のアプリケーションの性能情報とを比較し、バージョン更新により性能に変化が生じているメトリクスを抽出する。 The application management system described in Patent Document 3 compares the performance information of the application before the version update with the performance information of the application after the version update, and extracts the metric whose performance is changed by the version update. To do.

特許文献3に記載されているアプリケーション管理システムは、変化の生じているメトリクスの抽出とユーザへのフィードバックを実行できる。しかし、ユーザには、監視や閾値設定の変更等、実行後に措置をとることが求められる。 The application management system described in Patent Document 3 can perform extraction of changing metrics and feedback to the user. However, users are required to take measures after execution, such as monitoring and changing threshold settings.

本実施形態の監視システム100も、バージョン更新の前後に渡る性能情報を利用している。しかし、監視システム100が利用されると、ローリングアップデートによるバージョン更新に伴う性能情報の変化に対する措置をユーザがとらなくても、自動で適切な監視が継続して実行される。 The monitoring system 100 of this embodiment also uses the performance information before and after the version update. However, when the monitoring system 100 is used, appropriate monitoring is automatically and continuously executed even if the user does not take measures against the change in the performance information due to the version update due to the rolling update.

本実施形態の監視システム100は、ベースラインによる監視が可能な情報システムに対して利用可能である。また、監視システム100は、バージョンが高頻度で更新されるクラウドコンピューティング、またはコンテナ型仮想化技術等が利用された情報システムに対してより利用可能である。 The monitoring system 100 of the present embodiment can be used for an information system capable of monitoring by a baseline. In addition, the monitoring system 100 is more available for information systems that utilize cloud computing, container-type virtualization technology, or the like whose version is updated frequently.

以下、本実施形態の監視システム100のハードウェア構成の具体例を説明する。図11は、本発明による監視システムのハードウェア構成例を示す説明図である。 Hereinafter, a specific example of the hardware configuration of the monitoring system 100 of the present embodiment will be described. FIG. 11 is an explanatory diagram showing a hardware configuration example of the monitoring system according to the present invention.

図11に示す監視システム100は、CPU11と、主記憶部12と、通信部13と、補助記憶部14とを備える。また、ユーザが操作するための入力部15や、ユーザに処理結果または処理内容の経過を提示するための出力部16を備えてもよい。 The monitoring system 100 shown in FIG. 11 includes a CPU 11, a main storage unit 12, a communication unit 13, and an auxiliary storage unit 14. Further, an input unit 15 for the user to operate and an output unit 16 for presenting the processing result or the progress of the processing content to the user may be provided.

監視システム100は、図11に示すCPU11が各構成要素が有する機能を提供するプログラムを実行することによって、ソフトウェアにより実現される。 The monitoring system 100 is realized by software when the CPU 11 shown in FIG. 11 executes a program that provides the functions of each component.

すなわち、CPU11が補助記憶部14に格納されているプログラムを、主記憶部12にロードして実行し、監視システム100の動作を制御することによって、各機能がソフトウェアにより実現される。 That is, each function is realized by software by the CPU 11 loading the program stored in the auxiliary storage unit 14 into the main storage unit 12 and executing the program to control the operation of the monitoring system 100.

なお、図11に示す監視システム100は、CPU11の代わりにDSP(Digital Signal Processor)を備えてもよい。または、図11に示す監視システム100は、CPU11とDSPとを併せて備えてもよい。 The monitoring system 100 shown in FIG. 11 may include a DSP (Digital Signal Processor) instead of the CPU 11. Alternatively, the monitoring system 100 shown in FIG. 11 may include the CPU 11 and the DSP together.

主記憶部12は、データの作業領域やデータの一時退避領域として用いられる。主記憶部12は、例えばRAM(Random Access Memory)である。 The main storage unit 12 is used as a data work area or a data temporary storage area. The main storage unit 12 is, for example, a RAM (Random Access Memory).

通信部13は、有線のネットワークまたは無線のネットワーク(情報通信ネットワーク)を介して、周辺機器との間でデータを入力および出力する機能を有する。 The communication unit 13 has a function of inputting and outputting data to and from peripheral devices via a wired network or a wireless network (information communication network).

補助記憶部14は、一時的でない有形の記憶媒体である。一時的でない有形の記憶媒体として、例えば磁気ディスク、光磁気ディスク、CD−ROM(Compact Disk Read Only Memory)、DVD−ROM(Digital Versatile Disk Read Only Memory)、半導体メモリが挙げられる。 The auxiliary storage unit 14 is a non-temporary tangible storage medium. Examples of non-temporary tangible storage media include magnetic disks, magneto-optical disks, CD-ROMs (Compact Disk Read Only Memory), DVD-ROMs (Digital Versatile Disk Read Only Memory), and semiconductor memories.

入力部15は、データや処理命令を入力する機能を有する。入力部15は、例えばキーボードやマウス等の入力デバイスである。 The input unit 15 has a function of inputting data and processing instructions. The input unit 15 is an input device such as a keyboard or a mouse.

出力部16は、データを出力する機能を有する。出力部16は、例えば液晶ディスプレイ装置等の表示装置、またはプリンタ等の印刷装置である。 The output unit 16 has a function of outputting data. The output unit 16 is, for example, a display device such as a liquid crystal display device or a printing device such as a printer.

また、図11に示すように、監視システム100において、各構成要素は、システムバス17に接続されている。 Further, as shown in FIG. 11, in the monitoring system 100, each component is connected to the system bus 17.

補助記憶部14は、例えば性能情報受付部101、性能情報処理部102、性能異常検知部103、管理情報受付部104、構成変更管理部105、グループ情報管理部106、ベースライン生成部107、および操作受付部108を実現するためのプログラムを記憶している。 The auxiliary storage unit 14, for example, is a performance information reception unit 101, a performance information processing unit 102, a performance abnormality detection unit 103, a management information reception unit 104, a configuration change management unit 105, a group information management unit 106, a baseline generation unit 107, and The program for realizing the operation reception unit 108 is stored.

また、性能情報記憶部109、グループ情報記憶部110、構成変更情報記憶部111、およびベースライン記憶部112は、例えば主記憶部12で実現される。また、性能情報受付部101、性能異常検知部103、管理情報受付部104、および操作受付部108は、例えば通信部13で実現される。 Further, the performance information storage unit 109, the group information storage unit 110, the configuration change information storage unit 111, and the baseline storage unit 112 are realized by, for example, the main storage unit 12. Further, the performance information reception unit 101, the performance abnormality detection unit 103, the management information reception unit 104, and the operation reception unit 108 are realized by, for example, the communication unit 13.

なお、監視システム100は、ハードウェアにより実現されてもよい。例えば、監視システム100は、内部に図2に示すような機能を実現するLSI(Large Scale Integration)等のハードウェア部品が含まれる回路が実装されてもよい。 The monitoring system 100 may be realized by hardware. For example, the monitoring system 100 may be equipped with a circuit including hardware components such as an LSI (Large Scale Integration) that realizes the functions shown in FIG.

また、各構成要素の一部または全部は、汎用の回路(circuitry)または専用の回路、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップ(例えば、上記のLSI)によって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。 Further, a part or all of each component may be realized by a general-purpose circuit (circuitry), a dedicated circuit, a processor, or a combination thereof. These may be composed of a single chip (for example, the above LSI), or may be composed of a plurality of chips connected via a bus. A part or all of each component may be realized by a combination of the above-mentioned circuit or the like and a program.

各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。 When a part or all of each component is realized by a plurality of information processing devices and circuits, the plurality of information processing devices and circuits may be centrally arranged or distributedly arranged. For example, the information processing device, the circuit, and the like may be realized as a form in which each of the client and server system, the cloud computing system, and the like is connected via a communication network.

次に、本発明の概要を説明する。図12は、本発明による監視システムの概要を示すブロック図である。本発明による監視システム20は、複数の監視対象装置の所定の監視項目の各性能値を基に生成された範囲(例えば、ベースライン)であって、性能値が超過すると所定の監視項目が異常であると判断される範囲を、複数の監視対象装置のうち1つ以上の監視対象装置の各バージョンがそれぞれ更新されると1つ以上の監視対象装置の各性能値を基に更新する更新部21(例えば、ベースライン生成部107)を含む。 Next, the outline of the present invention will be described. FIG. 12 is a block diagram showing an outline of the monitoring system according to the present invention. The monitoring system 20 according to the present invention is a range (for example, a baseline) generated based on each performance value of a predetermined monitoring item of a plurality of monitored devices, and when the performance value is exceeded, the predetermined monitoring item becomes abnormal. An update unit that updates the range determined to be based on the performance values of one or more monitored devices when each version of one or more monitored devices among a plurality of monitored devices is updated. 21 (for example, baseline generation unit 107) is included.

そのような構成により、監視システムは、バージョンが更新される情報システムの監視用の閾値を利用者が再設定する手間を省くことができる。 With such a configuration, the monitoring system can save the user the trouble of resetting the threshold value for monitoring the information system whose version is updated.

また、監視システム20は、更新された範囲を用いて、各バージョンがそれぞれ更新された1つ以上の監視対象装置を含む複数の監視対象装置の所定の監視項目をそれぞれ監視する監視部(例えば、性能異常検知部103)を含んでもよい。 Further, the monitoring system 20 uses an updated range to monitor a predetermined monitoring item of a plurality of monitored devices including one or more monitored devices for which each version has been updated (for example,). The performance abnormality detection unit 103) may be included.

そのような構成により、監視システムは、高頻度でバージョンが更新される情報システムを、監視の内容を再設定することなく継続して監視できる。 With such a configuration, the monitoring system can continuously monitor the information system whose version is updated frequently without resetting the monitoring contents.

また、監視対象装置は、コンテナインスタンスでもよい。 Further, the monitored device may be a container instance.

そのような構成により、監視システムは、コンテナ型の仮想化環境に対応できる。 With such a configuration, the monitoring system can support a container-type virtual environment.

また、監視部は、同じグループに属する複数のコンテナインスタンスを同一の範囲を用いてそれぞれ監視してもよい。 Further, the monitoring unit may monitor a plurality of container instances belonging to the same group using the same range.

そのような構成により、監視システムは、オートスケーリングが行われるコンテナインスタンスに対応できる。 With such a configuration, the monitoring system can accommodate container instances that are autoscaled.

また、更新部21は、同じグループに属する複数のコンテナインスタンスのうち2つ以上のコンテナインスタンスの各バージョンがそれぞれ更新されると範囲を更新し、監視部は、更新された範囲を用いて複数のコンテナインスタンスをそれぞれ監視してもよい。 Further, the update unit 21 updates the range when each version of two or more container instances among the plurality of container instances belonging to the same group is updated, and the monitoring unit updates the range by using the updated range. You may monitor each container instance.

そのような構成により、監視システムは、バージョンが新しい方のコンテナインスタンスの性能情報を基に監視できる。 With such a configuration, the monitoring system can monitor based on the performance information of the container instance with the newer version.

また、範囲の上限値は、各性能値の平均値に各性能値の標準偏差が加算された値であり、範囲の下限値は、平均値から標準偏差が減算された値であり、更新部21は、1以上2以下の値を標準偏差に乗じることによって範囲を更新してもよい。 Further, the upper limit value of the range is a value obtained by adding the standard deviation of each performance value to the average value of each performance value, and the lower limit value of the range is a value obtained by subtracting the standard deviation from the average value. The range of 21 may be updated by multiplying the standard deviation by a value of 1 or more and 2 or less.

そのような構成により、監視システムは、バージョンが古い方のコンテナインスタンスの性能の異常も漏れなく検知できる。 With such a configuration, the monitoring system can detect all the performance abnormalities of the container instance with the older version.

11 CPU
12 主記憶部
13 通信部
14 補助記憶部
15 入力部
16 出力部
17 システムバス
20、100 監視システム
21 更新部
101 性能情報受付部
102 性能情報処理部
103 性能異常検知部
104 管理情報受付部
105 構成変更管理部
106 グループ情報管理部
107 ベースライン生成部
108 操作受付部
109 性能情報記憶部
110 グループ情報記憶部
111 構成変更情報記憶部
112 ベースライン記憶部
200 端末
300 コンテナ管理システム
310 管理情報収集部
400〜40N コンテナインスタンス
410〜41N 性能情報収集部
11 CPU
12 Main storage unit 13 Communication unit 14 Auxiliary storage unit 15 Input unit 16 Output unit 17 System bus 20, 100 Monitoring system 21 Update unit 101 Performance information reception unit 102 Performance information processing unit 103 Performance abnormality detection unit 104 Management information reception unit 105 Configuration Change management unit 106 Group information management unit 107 Baseline generation unit 108 Operation reception unit 109 Performance information storage unit 110 Group information storage unit 111 Configuration change information storage unit 112 Baseline storage unit 200 Terminal 300 Container management system 310 Management information collection unit 400 ~ 40N Container instance 410-41N Performance information collection unit

Claims (10)

複数の監視対象装置の所定の監視項目の各性能値を基に生成された範囲であって、性能値が超過すると前記所定の監視項目が異常であると判断される範囲を、前記複数の監視対象装置のうち1つ以上の監視対象装置の各バージョンがそれぞれ更新されると前記1つ以上の監視対象装置の各性能値を基に更新する更新部を含む
ことを特徴とする監視システム。
The range generated based on each performance value of the predetermined monitoring items of the plurality of monitored devices, and the range in which the predetermined monitoring item is determined to be abnormal when the performance value is exceeded, is monitored by the plurality of monitoring items. A monitoring system including an update unit that updates each version of one or more monitored devices among the target devices based on each performance value of the one or more monitored devices.
更新された範囲を用いて、各バージョンがそれぞれ更新された1つ以上の監視対象装置を含む複数の監視対象装置の所定の監視項目をそれぞれ監視する監視部を含む
請求項1記載の監視システム。
The monitoring system according to claim 1, further comprising a monitoring unit that monitors predetermined monitoring items of a plurality of monitored devices including one or more monitored devices for which each version has been updated using the updated range.
監視対象装置は、コンテナインスタンスである
請求項2記載の監視システム。
The monitoring system according to claim 2, wherein the monitored device is a container instance.
監視部は、同じグループに属する複数のコンテナインスタンスを同一の範囲を用いてそれぞれ監視する
請求項3記載の監視システム。
The monitoring system according to claim 3, wherein the monitoring unit monitors a plurality of container instances belonging to the same group using the same range.
更新部は、同じグループに属する複数のコンテナインスタンスのうち2つ以上のコンテナインスタンスの各バージョンがそれぞれ更新されると範囲を更新し、
監視部は、更新された範囲を用いて前記複数のコンテナインスタンスをそれぞれ監視する
請求項4記載の監視システム。
The update section updates the range when each version of two or more container instances out of multiple container instances belonging to the same group is updated.
The monitoring system according to claim 4, wherein the monitoring unit monitors each of the plurality of container instances using the updated range.
範囲の上限値は、各性能値の平均値に前記各性能値の標準偏差が加算された値であり、
前記範囲の下限値は、前記平均値から前記標準偏差が減算された値であり、
更新部は、1以上2以下の値を前記標準偏差に乗じることによって前記範囲を更新する
請求項1から請求項5のうちのいずれか1項に記載の監視システム。
The upper limit of the range is a value obtained by adding the standard deviation of each performance value to the average value of each performance value.
The lower limit of the range is a value obtained by subtracting the standard deviation from the average value.
The monitoring system according to any one of claims 1 to 5, wherein the updating unit updates the range by multiplying the standard deviation by a value of 1 or more and 2 or less.
複数の監視対象装置の所定の監視項目の各性能値を基に生成された範囲であって、性能値が超過すると前記所定の監視項目が異常であると判断される範囲を、前記複数の監視対象装置のうち1つ以上の監視対象装置の各バージョンがそれぞれ更新されると前記1つ以上の監視対象装置の各性能値を基に更新する
ことを特徴とする監視方法。
The range generated based on each performance value of the predetermined monitoring items of the plurality of monitored devices, and the range in which the predetermined monitoring item is determined to be abnormal when the performance value is exceeded, is monitored by the plurality of monitoring items. A monitoring method characterized in that when each version of one or more monitored devices among the target devices is updated, each version of the one or more monitored devices is updated based on each performance value of the one or more monitored devices.
更新された範囲を用いて、各バージョンがそれぞれ更新された1つ以上の監視対象装置を含む複数の監視対象装置の所定の監視項目をそれぞれ監視する
請求項7記載の監視方法。
The monitoring method according to claim 7, wherein a predetermined monitoring item of a plurality of monitored devices including one or more monitored devices for which each version has been updated is monitored by using the updated range.
コンピュータに、
複数の監視対象装置の所定の監視項目の各性能値を基に生成された範囲であって、性能値が超過すると前記所定の監視項目が異常であると判断される範囲を、前記複数の監視対象装置のうち1つ以上の監視対象装置の各バージョンがそれぞれ更新されると前記1つ以上の監視対象装置の各性能値を基に更新する更新処理
を実行させるための監視プログラム。
On the computer
The range generated based on each performance value of the predetermined monitoring items of the plurality of monitored devices, and the range in which the predetermined monitoring item is determined to be abnormal when the performance value is exceeded, is monitored by the plurality of monitoring items. A monitoring program for executing an update process that updates each version of one or more monitored devices among the target devices based on the performance values of the one or more monitored devices.
コンピュータに、
更新された範囲を用いて、各バージョンがそれぞれ更新された1つ以上の監視対象装置を含む複数の監視対象装置の所定の監視項目をそれぞれ監視する監視処理を実行させる
請求項9記載の監視プログラム。
On the computer
The monitoring program according to claim 9, wherein a monitoring process for monitoring a predetermined monitoring item of a plurality of monitored devices including one or more monitored devices for which each version has been updated is executed by using the updated range. ..
JP2019027080A 2019-02-19 2019-02-19 Monitoring system, monitoring method and monitoring program Active JP7286995B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019027080A JP7286995B2 (en) 2019-02-19 2019-02-19 Monitoring system, monitoring method and monitoring program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019027080A JP7286995B2 (en) 2019-02-19 2019-02-19 Monitoring system, monitoring method and monitoring program

Publications (2)

Publication Number Publication Date
JP2020135336A true JP2020135336A (en) 2020-08-31
JP7286995B2 JP7286995B2 (en) 2023-06-06

Family

ID=72278643

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019027080A Active JP7286995B2 (en) 2019-02-19 2019-02-19 Monitoring system, monitoring method and monitoring program

Country Status (1)

Country Link
JP (1) JP7286995B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011125138A1 (en) * 2010-04-06 2011-10-13 株式会社日立製作所 Performance monitoring device, method, and program
WO2017168484A1 (en) * 2016-03-28 2017-10-05 株式会社日立製作所 Management computer and performance degradation sign detection method
JP2018056254A (en) * 2016-09-28 2018-04-05 パナソニックIpマネジメント株式会社 Version upgrade method of program in component mounting line

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011125138A1 (en) * 2010-04-06 2011-10-13 株式会社日立製作所 Performance monitoring device, method, and program
WO2017168484A1 (en) * 2016-03-28 2017-10-05 株式会社日立製作所 Management computer and performance degradation sign detection method
JP2018056254A (en) * 2016-09-28 2018-04-05 パナソニックIpマネジメント株式会社 Version upgrade method of program in component mounting line

Also Published As

Publication number Publication date
JP7286995B2 (en) 2023-06-06

Similar Documents

Publication Publication Date Title
US10225333B2 (en) Management method and apparatus
JP5440273B2 (en) Snapshot management method, snapshot management device, and program
WO2019169724A1 (en) Server concurrency control method and device, computer device, and storage medium
US10095598B2 (en) Transaction server performance monitoring using component performance data
EP2523115B1 (en) Operation management device, operation management method, and program storage medium
US9342426B2 (en) Distributed system, server computer, distributed management server, and failure prevention method
US20150358208A1 (en) Component dependency mapping service
US11550628B2 (en) Performing runbook operations for an application based on a runbook definition
JP6387747B2 (en) Information processing apparatus, failure avoidance method, and computer program
JP2012079242A (en) Composite event distribution device, composite event distribution method and composite event distribution program
WO2022199282A1 (en) Thread snapshot parsing method and apparatus, device, and storage medium
US20180278497A1 (en) Systems for monitoring application servers
JP2015191523A (en) Configuration management apparatus, configuration management system, and configuration management program
Huang et al. Metastable failures in the wild
JP6578055B2 (en) Management computer and performance deterioration sign detection method
JP5740338B2 (en) Virtual environment operation support system
JP5623557B2 (en) Method, apparatus, and computer program in a multi-threaded computing environment for collecting diagnostic data
WO2017157111A1 (en) Method, device and system for preventing memory data loss
TWI608377B (en) Monitoring management systems and methods
JP4449929B2 (en) Transaction apparatus, delay fault detection apparatus and method, and program
US9009735B2 (en) Method for processing data, computing node, and system
US10157110B2 (en) Distributed system, server computer, distributed management server, and failure prevention method
JP7286995B2 (en) Monitoring system, monitoring method and monitoring program
CN112817687A (en) Data synchronization method and device
JP7097408B2 (en) Methods, devices, electronic devices and storage media for treating local hotspots

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221018

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230328

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230328

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230405

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230508

R151 Written notification of patent or utility model registration

Ref document number: 7286995

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151