JP2018088075A - 情報システム、情報処理装置、情報処理方法、およびプログラム - Google Patents
情報システム、情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2018088075A JP2018088075A JP2016230327A JP2016230327A JP2018088075A JP 2018088075 A JP2018088075 A JP 2018088075A JP 2016230327 A JP2016230327 A JP 2016230327A JP 2016230327 A JP2016230327 A JP 2016230327A JP 2018088075 A JP2018088075 A JP 2018088075A
- Authority
- JP
- Japan
- Prior art keywords
- processes
- detection
- processor
- performance
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
)の特定は困難になってきている。
前記検出割合に基づいて、前記複数の処理での前記イベントの検出に対する情報量の平均値を計算する第1の計算、または、
前記複数の処理のそれぞれについて、所定時間を隔てた前後で取得された前記イベントの検出割合同士の差分値を求め、前記差分値の絶対値を前記複数の処理について加算した加算値を計算する第2の計算、の少なくとも一方を実行する。
例えば、コンピュータ性能状態の変化、処理状態の変化、あるいは異常を短時間で検知できる。
[比較例の処理]
Processing Unit(CPU)使用量が増加した場合を想定する。図では、業務A、B、Cは、実質的に同一のホストマシン上の物理CPUに割り当てられるため、業務Bの仮想マシンのCPU使用量が増加すると、業務AおよびCに割り当て可能なホストマシン上のCPUリソースが減少する。したがって、業務AおよびCを実行する仮想マシンの性能が低下する。
構成を例示する図である。ここで、性能イベントとは、計算機の性能を監視するために、計算機から取得される計算機のリソースの状態を示す情報、あるいは計算機の様々な処理の実行を示す情報といえる。性能イベントとしては、CPUの1サイクルの完了、CPUの命令実行完了、キャッシュミス、ページフォルト等を例示できる。性能イベントのサンプリングの結果として、CPUの使用率、実行命令数、キャッシュミス、ページフォルト回数等が取得される。
各ノードで同様な処理が動いていることが多い。したがって、HPCでは、このような処理の特性を前提にして、大部分のノード(あるいはプロセス等)とは異なる少数派のノード(あるいはプロセス等)を検出することで問題箇所の特定が可能となること場合がある。
情報(プロファイル情報)が異常検知ととともに提供される。
[実施形態]
<構成>
コンピュータが連携するシステムであってもよい。
仮想CPU番号、ゲストOSに管理されるプロセスID、ページテーブルアドレス、スレッドID、プロセス名、当該プロセスで実行されるアプリケーションプログラム中の関数のアドレス範囲(仮想アドレスの範囲)、関数名等を含む。関数のアドレス範囲、関数名は、プログラムのオブジェクトファイルから取得される。関数のアドレス範囲は、例えば、先頭アドレスと末尾のアドレス、あるいは、先頭アドレスと関数のメモリ上のサイズ等である。
<エントロピーとマンハッタン距離>
<処理手順>
たサンプリングデータに対してプロファイル解析を実行する。ただし、サンプリング期間が1ミリ秒に限定される分けではなく、繰り返し継続する期間が30秒に限定される訳ではない。また、時系列解析としては、本情報システムは、100ミリ秒単位でプロファイル解析していくとする。即ち、30秒間では 30s/100ms= 300回のプロファイル計算となる。
すなわち、物理CPUは、次の直近D秒でのサンプリング結果を取得する(S2)。
算するが、物理CPUは、エントロピーとマンハッタン距離の両方を計算の少なくとも一方を計算するようにしてもよい。S4の処理は、検出割合に基づいて、複数の処理での前記イベントの検出に対する情報量の平均値を計算する第1の計算の一例である。また、S4の処理は、複数の処理のそれぞれについて、所定時間を隔てた前後で取得されたイベントの検出割合同士の差分値を求め、差分値の絶対値を前記複数の処理について加算した加算値を計算する第2の計算の一例である。また、S4の処理では、サンプリング期間D秒(30秒)をC区間(300区間)に区切ったN秒(100ms)ごとに、エントロピーとマンハッタン距離が計算される。したがって、S4の処理は、期待値および加算値の少なくとも一方を所定時間ごとに計算することの一例といえる。
<情報システム全体の処理>
(処理例2)
置の一例ということができる。また、コントローラマシン1のCPUは制御部の一例ということができる。
(処理例3)
<その他の変形例>
まり、C区間に区切ったN秒ごとのサンプリングと並行して、N秒ごとに(A)プロファイル解析、(B)エントロピー値とマンハッタン距離の計算、(C)移動平均と標準偏差の計算を実行するようにしてもよい。このように処理することで、本情報システムは、例えば、N秒(例えば、100ms)ごとに、リアルタイムに情報システムの性能状態が判定できる。
<コンピュータが読み取り可能な記録媒体>
等に固定された記録媒体としても利用可能である。
りも簡易に実現することが望ましく、それらの環境について上記の実施形態を適用することが可能である。
<その他の実施形態>
(付記1)
プロセッサを備え、
前記プロセッサが複数の処理において前記プロセッサの性能に関連するイベントの検出割合を取得し、
前記検出割合に基づいて、前記複数の処理での前記イベントの検出に対する情報量の平均値を計算する第1の計算、または、
前記複数の処理のそれぞれについて、所定時間を隔てた前後で取得された前記イベントの検出割合同士の差分値を求め、前記差分値の絶対値を前記複数の処理について加算した加算値を計算する第2の計算、
の少なくとも一方を実行する情報処理装置。
(付記2)
前記プロセッサは、前記期待値および前記加算値を前記所定時間ごとに計算し、前記所定時間を隔てた前後における前記期待値および前記加算値の少なくとも一方の変化量が許容範囲から逸脱した場合に、異常発生を報知する付記1に記載の情報処理装置。
(付記3)
解析装置と複数のプロセッサを備える情報システムであって、
前記解析装置は、前記複数のプロセッサのそれぞれ複数の処理において検出される前記プロセッサの性能に関連するイベントの検出割合を取得し、
前記検出割合に基づいて、前記複数の処理での前記イベントの検出に対する情報量の平
均値を計算する第1の計算、または、
前記複数の処理のそれぞれについて、所定時間を隔てた前後で取得された前記イベントの検出割合同士の差分値を求め、前記差分値の絶対値を前記複数の処理について加算した加算値を計算する第2計算、
の少なくとも一方を実行する制御部を備える情報システム。
(付記4)
前記制御部は、前記期待値および前記加算値を前記所定時間ごとに計算し、前記所定時間を隔てた前後における前記期待値および前記加算値の少なくとも一方の変化量が許容範囲から逸脱した場合に、異常発生を報知する付記3に記載の情報システム。
(付記5)
プロセッサが、
前記プロセッサの複数の処理において前記プロセッサの性能に関連するイベントの検出割合を取得し、
前記検出割合に基づいて、前記複数の処理での前記イベントの検出に対する情報量の平均値を計算する第1の計算、または、
前記複数の処理のそれぞれについて、所定時間を隔てた前後で取得された前記イベントの検出割合同士の差分値を求め、前記差分値の絶対値を前記複数の処理について加算した加算値を計算する第2の計算、
の少なくとも一方を実行する情報処理方法。
(付記6)
前記プロセッサは、前記期待値および前記加算値を前記所定時間ごとに計算し、前記所定時間を隔てた前後における前記期待値および前記加算値の少なくとも一方の変化量が許容範囲から逸脱した場合に、異常発生を報知する付記5に記載の情報処理方法。
(付記7)
解析装置と複数のプロセッサを備える情報システムにおける情報処理方法であって、
前記解析装置は、前記複数のプロセッサのそれぞれ複数の処理において検出される前記プロセッサの性能に関連するイベントの検出割合を取得し、
前記検出割合に基づいて、前記複数の処理での前記イベントの検出に対する情報量の平均値を計算する第1の計算、または、
前記複数の処理のそれぞれについて、所定時間を隔てた前後で取得された前記イベントの検出割合同士の差分値を求め、前記差分値の絶対値を前記複数の処理について加算した加算値を計算する第2の計算、
の少なくとも一方を実行する情報処理方法。
(付記8)
前記解析装置は、前記期待値および前記加算値を前記所定時間ごとに計算し、前記所定時間を隔てた前後における前記期待値および前記加算値の少なくとも一方の変化量が許容範囲から逸脱した場合に、異常発生を報知する付記7に記載の情報処理方法。
(付記9)
プロセッサに、
前記プロセッサの複数の処理において前記プロセッサの性能に関連するイベントの検出割合を取得させ、
前記検出割合に基づいて、前記複数の処理での前記イベントの検出に対する情報量の平均値を計算する第1の計算、または、
前記複数の処理のそれぞれについて、所定時間を隔てた前後で取得された前記イベントの検出割合同士の差分値を求め、前記差分値の絶対値を前記複数の処理について加算した加算値を計算する第2の計算、
の少なくとも一方の処理を実行させるためのプログラム。
(付記10)
前記プロセッサに、前記期待値および前記加算値を前記所定時間ごとに計算し、前記所定時間を隔てた前後における前記期待値および前記加算値の少なくとも一方の変化量が許
容範囲から逸脱した場合に、異常発生を報知することをさらに実行させるための付記9に記載のプログラム。
(付記11)
解析装置と複数のプロセッサを備える情報システムにおける前記解析装置に、
前記複数のプロセッサのそれぞれ複数の処理において検出される前記プロセッサの性能に関連するイベントの検出割合を取得させ、
前記検出割合に基づいて、前記複数の処理での前記イベントの検出に対する情報量の平均値を計算する第1の計算、または、
前記複数の処理のそれぞれについて、所定時間を隔てた前後で取得された前記イベントの検出割合同士の差分値を求め、前記差分値の絶対値を前記複数の処理について加算した加算値を計算する第2の計算、
の少なくとも一方の処理を実行させるためのプログラム。
(付記12)
前記解析装置に、前記期待値および前記加算値を前記所定時間ごとに計算し、前記所定時間を隔てた前後における前記期待値および前記加算値の少なくとも一方の変化量が許容範囲から逸脱した場合に、異常発生を報知することをさらに実行させるための付記11に記載のプログラム。
2 ホストマシン
Claims (7)
- プロセッサを備え、
前記プロセッサが複数の処理において前記プロセッサの性能に関連するイベントの検出割合を取得し、
前記検出割合に基づいて、前記複数の処理での前記イベントの検出に対する情報量の平均値を計算する第1の計算、または、
前記複数の処理のそれぞれについて、所定時間を隔てた前後で取得された前記イベントの検出割合同士の差分値を求め、前記差分値の絶対値を前記複数の処理について加算した加算値を計算する第2の計算、
の少なくとも一方を実行する情報処理装置。 - 解析装置と複数のプロセッサを備える情報システムであって、
前記解析装置は、前記複数のプロセッサのそれぞれ複数の処理において検出される前記プロセッサの性能に関連するイベントの検出割合を取得し、
前記検出割合に基づいて、前記複数の処理での前記イベントの検出に対する情報量の平均値を計算する第1の計算、または、
前記複数の処理のそれぞれについて、所定時間を隔てた前後で取得された前記イベントの検出割合同士の差分値を求め、前記差分値の絶対値を前記複数の処理について加算した加算値を計算する第2の計算、
の少なくとも一方を実行する制御部を備える情報システム。 - 前記制御部は、前記期待値および前記加算値を前記所定時間ごとに計算し、前記所定時間を隔てた前後における前記期待値および前記加算値の少なくとも一方の変化量が許容範囲から逸脱した場合に、異常発生を報知する請求項2に記載の情報システム。
- プロセッサが、
前記プロセッサの複数の処理において前記プロセッサの性能に関連するイベントの検出割合を取得し、
前記検出割合に基づいて、前記複数の処理での前記イベントの検出に対する情報量の平均値を計算する第1の計算、または、
前記複数の処理のそれぞれについて、所定時間を隔てた前後で取得された前記イベントの検出割合同士の差分値を求め、前記差分値の絶対値を前記複数の処理について加算した加算値を計算する第2の計算、
の少なくとも一方を実行する情報処理方法。 - 解析装置と複数のプロセッサを備える情報システムにおける情報処理方法であって、
前記解析装置は、前記複数のプロセッサのそれぞれ複数の処理において検出される前記プロセッサの性能に関連するイベントの検出割合を取得し、
前記検出割合に基づいて、前記複数の処理での前記イベントの検出に対する情報量の平均値を計算する第1の計算、または、
前記複数の処理のそれぞれについて、所定時間を隔てた前後で取得された前記イベントの検出割合同士の差分値を求め、前記差分値の絶対値を前記複数の処理について加算した加算値を計算する第2の計算、
の少なくとも一方を実行する情報処理方法。 - プロセッサに、
前記プロセッサの複数の処理において前記プロセッサの性能に関連するイベントの検出割合を取得させ、
前記検出割合に基づいて、前記複数の処理での前記イベントの検出に対する情報量の平
均値を計算する第1の計算、または、
前記複数の処理のそれぞれについて、所定時間を隔てた前後で取得された前記イベントの検出割合同士の差分値を求め、前記差分値の絶対値を前記複数の処理について加算した加算値を計算する第2の計算、
の少なくとも一方の処理を実行させるためのプログラム。 - 解析装置と複数のプロセッサを備える情報システムにおける前記解析装置に、
前記複数のプロセッサのそれぞれ複数の処理において検出される前記プロセッサの性能に関連するイベントの検出割合を取得させ、
前記検出割合に基づいて、前記複数の処理での前記イベントの検出に対する情報量の平均値を計算する第1の計算、または、
前記複数の処理のそれぞれについて、所定時間を隔てた前後で取得された前記イベントの検出割合同士の差分値を求め、前記差分値の絶対値を前記複数の処理について加算した加算値を計算する第2の計算、
の少なくとも一方の処理を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016230327A JP6874345B2 (ja) | 2016-11-28 | 2016-11-28 | 情報システム、情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016230327A JP6874345B2 (ja) | 2016-11-28 | 2016-11-28 | 情報システム、情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018088075A true JP2018088075A (ja) | 2018-06-07 |
JP6874345B2 JP6874345B2 (ja) | 2021-05-19 |
Family
ID=62493537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016230327A Active JP6874345B2 (ja) | 2016-11-28 | 2016-11-28 | 情報システム、情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6874345B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008014679A (ja) * | 2006-07-03 | 2008-01-24 | Ritsumeikan | 設備診断方法、設備診断システム及びコンピュータプログラム |
JP2016012193A (ja) * | 2014-06-27 | 2016-01-21 | 富士通株式会社 | 抽出方法、装置、及びプログラム |
-
2016
- 2016-11-28 JP JP2016230327A patent/JP6874345B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008014679A (ja) * | 2006-07-03 | 2008-01-24 | Ritsumeikan | 設備診断方法、設備診断システム及びコンピュータプログラム |
JP2016012193A (ja) * | 2014-06-27 | 2016-01-21 | 富士通株式会社 | 抽出方法、装置、及びプログラム |
Non-Patent Citations (2)
Title |
---|
小島 俊輔 ほか: "エントロピーベースのマハラノビス距離による高速な異常検知手法", 情報処理学会論文誌, vol. 52, no. 2, JPN6020025868, 15 February 2011 (2011-02-15), JP, pages 656 - 668, ISSN: 0004310858 * |
村木 雄二 ほか: "空間を考慮した最近隣法による渋滞予測システムの開発", 2007年度CSテクニカルレポート・システム開発型研究プロジェクト特集号[ONLINE], JPN6020025873, 2007, JP, ISSN: 0004310859 * |
Also Published As
Publication number | Publication date |
---|---|
JP6874345B2 (ja) | 2021-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dean et al. | Ubl: Unsupervised behavior learning for predicting performance anomalies in virtualized cloud systems | |
Tan et al. | Adaptive system anomaly prediction for large-scale hosting infrastructures | |
US10733009B2 (en) | Information processing apparatus and information processing method | |
EP3191964B1 (en) | Memory leak analysis by usage trends correlation | |
Soualhia et al. | Infrastructure fault detection and prediction in edge cloud environments | |
EP2960797B1 (en) | Identification of software phases using machine learning | |
JP2017072882A (ja) | アノマリ評価プログラム、アノマリ評価方法、および情報処理装置 | |
Lu et al. | LADRA: Log-based abnormal task detection and root-cause analysis in big data processing with Spark | |
US20120136909A1 (en) | Cloud anomaly detection using normalization, binning and entropy determination | |
Jarus et al. | Runtime power usage estimation of HPC servers for various classes of real-life applications | |
Zhou et al. | Bigroots: An effective approach for root-cause analysis of stragglers in big data system | |
Yu et al. | A scalable, non-parametric method for detecting performance anomaly in large scale computing | |
JP2010152458A (ja) | 性能測定プログラム及び性能測定方法並びに性能測定機能を有する情報処理装置。 | |
CN106293881B (zh) | 一种基于非一致性i/o访问构架的性能监控器及其监控方法 | |
US20110106519A1 (en) | Simulating an application | |
CN103645961A (zh) | 计算密集型并行任务的异常检测方法及系统 | |
Straesser et al. | Why is it not solved yet? challenges for production-ready autoscaling | |
JPWO2011077533A1 (ja) | 性能データ収集方法、性能データ収集装置及び性能データ管理システム | |
CN112434308A (zh) | 应用漏洞检测方法、装置、电子设备及计算机存储介质 | |
Kadirvel et al. | Fault Management in {Map-Reduce} Through Early Detection of Anomalous Nodes | |
Lagraa et al. | Scalability bottlenecks discovery in mpsoc platforms using data mining on simulation traces | |
Netti et al. | Online fault classification in hpc systems through machine learning | |
JP6874345B2 (ja) | 情報システム、情報処理装置、情報処理方法、およびプログラム | |
Li et al. | Predicting thread profiles across core types via machine learning on heterogeneous multiprocessors | |
Ramos et al. | An accurate tool for modeling, fingerprinting, comparison, and clustering of parallel applications based on performance counters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190807 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200710 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200728 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200924 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210323 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210405 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6874345 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |