JP7416247B2

JP7416247B2 - サーマルスロットリング抑止装置、サーマルスロットリング抑止方法、および、サーマルスロットリング抑止プログラム

Info

Publication number: JP7416247B2
Application number: JP2022532980A
Authority: JP
Inventors: 雅志金子; 晃一原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2024-01-17
Anticipated expiration: 2040-07-03
Also published as: WO2022003932A1; JPWO2022003932A1; US20230289273A1

Description

本発明は、サーマルスロットリング抑止装置、サーマルスロットリング抑止方法、および、サーマルスロットリング抑止プログラムの技術である。

通信システムのような高信頼システムにおいては、システムの性能保証が重要である。
特許文献１には、サービス提供におけるサービスレベル保証（ＳＬＡ：Service Level Agreement）を考慮し、サービス提供における目標性能を保証するＶＭ（Virtual Machine）の性能保証システムが記載されている。このシステムでは、サービスを提供するＶＭに対して割り当てる共有リソースの優先度制御を行うことで、常時所望の性能が得られる。

特開２０１９－１５９６４６号公報

計算機の構成装置であるCPU（Central Processing Unit）、GPU（Graphics Processing Unit）、ストレージの一部には、サーマルスロットリング（ＴＴ：Thermal Throttling）の機能が搭載されており、装置が一定以上の温度に達すると性能を下げて装置を保護する。１台の物理サーバに複数のＶＭを収容する仮想化システムにおいては、サーマルスロットリングを起こしやすいＶＭを特定の物理サーバに集中させないことが重要である。

しかし、各物理サーバにどのような１つ以上のＶＭを動作させるとサーマルスロットリングを引き起こすかは検討されていない。よって、従来の性能などの指標に基づくＶＭのリソース割当技術では、サーマルスロットリングによる性能低下を回避できない。
そのため、特許文献１の性能保証を試みたとしても、特定装置に過度にアクセスが集中したケースや、特定装置の冷却能力が足りないケースでは、サーマルスロットリングが発生しやすくなる。

そこで、本発明は、サーマルスロットリングの発生を抑止できるリソース割当を実現することを主な課題とする。

前記課題を解決するために、本発明のサーマルスロットリング抑止装置は、以下の特徴を有する。
本発明は、各サーバに配置されたＶＭを示すＶＭ配置データのログと、前記各サーバで発生したＴＴを示すＴＴ発生データのログをもとに、ＶＭごとのＴＴを発生させる確率であるＴＴ発生率を計算し、そのＴＴ発生率が前記各サーバで平滑になるように新たなＶＭ配置データを決定する予測部と、
前記予測部が決定した前記新たなＶＭ配置データに従って、前記各サーバにＶＭを配置する管理部とを有することを特徴とする。

本発明によれば、サーマルスロットリングの発生を抑止できるリソース割当を実現することができる。

本実施形態に係わる仮想化システムの構成図である。本実施形態に係わるＶＭ配置データ格納部のテーブルである。本実施形態に係わるＴＴ発生データ格納部のテーブルである。本実施形態に係わる予測装置の計算過程を示すテーブルである。本実施形態に係わる図４のテーブルに、説明箇所を追記したテーブルである。本実施形態に係わる図１の仮想化システムの各装置のハードウェア構成図である。

以下、本発明の一実施形態について、図面を参照して詳細に説明する。

図１は、仮想化システム１００の構成図である。
仮想化システム１００は、１台以上のサーバ１０と、予測装置（サーマルスロットリング抑止装置）２とがネットワークで接続されて構成される。
サーバ１０内の物理リソースとして、ＣＰＵ１２、ストレージ１３、その他の処理装置１４などが搭載される。これらの各物理リソースには、部品の過熱を防ぐためのサーマルスロットリング（ＴＴ）を行うＴＴ処理部１９が備えられている。
サーバ１０内の物理リソース上には、仮想システムとして、１つ以上のＶＭ１１が配置される。

予測装置２は、サーバ１０内のＶＭ１１の配置を制御することで、サーバ１０内のＴＴの発生を抑止する。
そのため、予測装置２は、ＶＭ管理部（管理部）２１と、ＶＭ配置データ格納部２５と、ＴＴ発生予測部（予測部）２２と、ＴＴ発生データ格納部２３と、ＴＴ検知部２４とを有する。

図２は、ＶＭ配置データ格納部２５のテーブルである。
ＶＭ配置データ格納部２５には、各ＶＭ１１をどのサーバ１０に配置（収容）するかというＶＭ配置の情報が、時系列で保存される。つまり、ＶＭ配置データ格納部２５は、ＶＭのＩＤごとに、収容期間を示すタイムスロット開始およびタイムスロット終了と、収容先のサーバ１０を示す収容サーバIDとが対応づけられる。
ＶＭ配置データ格納部２５のＶＭ配置は、ＶＭ管理部２１によるＶＭ配置処理の結果である。

図３は、ＴＴ発生データ格納部２３のテーブルである。
ＴＴ発生データ格納部２３は、サーバ１０ごとに、発生したＴＴの箇所を示す物理リソース（装置ＩＤ）と、各時刻のタイムスロットと、そのタイムスロットにおけるＴＴの発生有無（無＝0／有＝1）とが対応づけられる。
ＴＴ検知部２４は、各サーバ１０のＴＴ発生を検知し、その検知結果を時系列のログデータとしてＴＴ発生データ格納部２３に格納する。

図１に戻り、予測装置２の処理部の説明を続ける。
ＴＴ発生予測部２２は、ＶＭ配置データ格納部２５に格納されているＶＭ配置のログデータと、ＴＴ発生データ格納部２３に格納されているＴＴ発生のログデータとから、ＶＭ配置の組み合わせごとのＴＴを発生させる確率の高さをＴＴ発生率として算出する。ＴＴ発生率は、図４で後記するTT遭遇率TTR[v,p]またはTT要因率TTC[p,v]として具体化される。

そして、ＴＴ発生予測部２２は、複数のサーバ１０上のＶＭ配置によるＴＴ発生率が平滑化されるように、ＶＭ配置を見直す。具体的には、平滑化とは、仮想化システム１００の各サーバ１０のＴＴ発生率を個別に求め、それらのＴＴ発生率の最大値が最小となるようなＶＭ配置を計算することである。なお、ＴＴ発生予測部２２がＶＭ配置を見直す契機は、定期的でもよいし、ＴＴが発生する度でもよい。

ＶＭ管理部２１は、ＶＭ配置データ格納部２５から取得した現在のＶＭ配置を、ＴＴ発生予測部２２が計算したＶＭ配置の見直し案に従って、ＶＭの再配置（収容サーバの変更などの配置制御）を行う。ＶＭ管理部２１は、再配置されたＶＭ配置をＶＭ配置データ格納部２５に書き出す。これにより、特定のサーバ１０のＴＴ発生率が他のサーバ１０よりも過剰に高くならずに、仮想化システム１００全体として安定したサーバ１０の稼働状態を維持できる。

以上、図１～図３を参照して、仮想化システム１００の概要を説明した。以下、図４，図５を参照して、ＴＴ発生率の具体的な計算例を説明する。
図４は、予測装置２の計算過程を示すテーブルである。

ＶＭ稼働期間テーブル３１は、各ＶＭ１１（変数v）が稼働しているタイムスロット数をVM稼働期間VT[v]として示す。VM稼働期間VT[v]は、図２のＶＭ配置データ格納部２５のタイムスロット開始列～タイムスロット終了列の期間である。以下では、図４では説明をわかりやすくするために４つのＶＭ１１（VM0～VM3）のVM稼働期間VT[v]を、全て同じ（VT[0]=VT[1]=VT[2]=VT[3]=6）とする。

ＴＴ発生ログテーブル３２は、サーバ１０（変数s）の物理リソース（変数p）における時刻tでのTTの発生有無を、TT発生ログTT[s,p,t]として示す。TT[s,p,t]＝1ならTTが発生し、TT[s,p,t]＝0ならTTが発生していない。また、ＴＴ発生ログテーブル３２を含む各テーブルでのセルの背景色は、サーバs＝0（ハッチングなし）またはサーバs＝1（ハッチングあり）を示す。
TT発生ログTT[s,p,t]は、図３のＴＴ発生データ格納部２３のTT発生有無列に対応する。

ＶＭ配置テーブル３３は、時刻tでのサーバ（変数s）上に配置されているVMの集合を、VM配置集合VS[s,t]として示す。例えば、時刻t1までは、サーバ（s=0）上には、２つのＶＭ１１（VM0,VM1）が稼働していたが、時刻t2において同じサーバ（s=0）上に新たなＶＭ１１（VM3）が追加されて稼働を開始している。

ＴＴ遭遇ログテーブル３４は、各ＶＭ１１（変数v）が時刻tで物理リソース（変数p）のTTに遭遇したか否かを、TT遭遇ログTTO[v,t,p]（=1なら遭遇した、=0なら遭遇しない）とする。
また、ＴＴ遭遇ログテーブル３４の再右列においては、各ＶＭ１１（変数v）が全てのVM稼働期間VT[v]においてTTに遭遇した割合（0～1の値を取り得る確率）を、TT遭遇率TTR[v,p]とする。

ＴＴ遭遇率テーブル３５の第１行「VM0」～第４行「VM3」は、ＴＴ遭遇ログテーブル３４の値=1のセルについて、ＴＴ遭遇ログテーブル３４のTT遭遇率TTR[v=0,p]のセル値をコピーしたものである。
ＴＴ遭遇率テーブル３５の第５行「Σサーバ１」と第６行「Σサーバ２」は、図５の説明で後記する。

ＴＴ要因率テーブル３６の各時刻の列「t0～t5」は、ＶＭ１１（変数v）が実行した処理が、時刻（変数t）においてサーバ１０（変数s）の物理リソース（変数p）に発生したＴＴの要因になった可能性の高さを、時刻別TT要因率TTCt[s,p,t,v]とする。
ＴＴ要因率テーブル３６の再右列「要因率」は、時刻別TT要因率TTCt[s,p,t,v]を、VM稼働期間VT[v]で正規化した結果を、TT要因率TTC[p,v]とする。

図５は、図４のテーブルに、説明箇所を示す符号１０１～１１１を追記したテーブルである。
符号１０１として、図４で説明したように、４つのＶＭ１１（VM0～VM3）のVM稼働期間VT[v]を、全て同じ（VT[0]=VT[1]=VT[2]=VT[3]=6）とする。符号１０２として、TT発生ログTT[s,p,t]も説明簡略化のため４つのＶＭ１１で全て同じ値とする。
ＴＴ発生予測部２２は、符号１０２のTT発生ログTT[s,p,t]と、符号１０３のVM配置集合VS[s=0,t]とから、符号１０４のTT遭遇ログTTO[v=0,t,p]を求める。

そして、ＴＴ発生予測部２２は、符号１０４のTT遭遇ログTTO[v=0,t,p]を符号１０１のVM稼働期間VT[v]で正規化することで、符号１０５のTT遭遇率TTR[v=0,p]を求める。具体的には、TTR[v,p] ＝ ΣTTO[v,t,p]／VT[v]＝（0+0+1+0+1+1）÷6=0.50である。
このように、VM稼働期間で正規化することで稼働期間が長いVMと短いVMとを対等に比較できる。

なお、TT遭遇率はTTを起こしやすいVMが存在した場合に同じサーバに存在する他のVMの値も上昇してしまうため、本来はＴＴの要因にならないＶＭの値もたまたまＴＴの発生要因となったＶＭと同じサーバに配置された場合に高い数値になってしまう場合がある。そこで、ＴＴ発生率として、TT遭遇率TTR[v=0,p]の代わりに、後記するTT要因率TTC[p,v]を用いてもよい。

符号１０６は、符号１０４の値=1のセルについて、符号１０５のTT遭遇率TTR[v=0,p]のセル値を、ＴＴ遭遇率テーブル３５にコピーしたものである。以下、時刻t2のVM0（v=0）に着目する。
なお、着目するVM0（v=0）と同時刻（t=2）、同一サーバ（s=0）上に共存（同居）するＶＭの集合（ここでは符号１０３により、VM0に加えて、VM1とVM3）を、共存VM集合VP[v,t]とする（符号１０７）。
ＴＴ遭遇率テーブル３５の第５行「Σサーバ１」は、第１行～第４行のセル値のうち、s=0（背景ハッチングなし）の共存VM集合VP[v,t]のセル値の総和（0.50+0.17+0.83=1.50）である（符号１０８）。

ＴＴ発生予測部２２は、以下の式により、ＴＴ遭遇率テーブル３５からＴＴ要因率テーブル３６を計算する。なお、v’は、着目するVM（v=0）である。
TTCt[s,p,t,v] ＝TTR[v,p]／Σ{VP[v,t]∋v’}TTR[v’,p]＝（符号１０６の「0.50」）／（符号１０８の「1.50」）＝（符号１０９の「0.33」）
ＴＴ発生予測部２２は、この式により、サーバ0で時刻t2に発生したＴＴ（符号１０８の「1.50」）の発生要因を、共存VM集合VP[v,t]に属する各VM0,1,3に対する着目するVM0が占める割合として重み付けする。つまり、ＴＴ発生予測部２２は、ＴＴ発生時にＴＴの要因となる可能性が高いVMと、低いVMで、それぞれのTT遭遇率TTRの値の重み付けをする。

そして、ＴＴ発生予測部２２は、VMの稼働期間における構成装置pに対するTT要因率TTC[p,v]を、以下の式により計算する。
TTC[p,v]=Σ{VT[v]∋t}TTCt[s,p,t,v]／VT[v]＝（符号１１０の「0.00+0.00+0.33+0.00+0.83+0.38」）／（符号１０１の「6」）＝符号１１１の「0.18」
これにより、時刻別TT要因率TTCt[s,p,t,v]をVM稼働期間VT[v]で正規化することで、稼働期間が長いVMと短いVMを対等に比較できる。

ＴＴ発生予測部２２は、符号１０５のTT遭遇率TTR[v=0,p]または符号１１１のTT要因率TTC[p,v]をもとに、仮想化システム１００全体でＴＴ発生率が平滑化するように（例えばサーバ毎のＴＴ発生率の和の最大値が最小となるように）、VM配置を新規作成または変更する。以下では、サーバs=0にVM0,VM1,VM2を配置し、サーバs=1にVM3を配置するＶＭ配置の組み合わせが、ともに最適となる。
［TT遭遇率TTRをＴＴ発生率とした場合］サーバs=0のTT遭遇率TTRの和（0.50+0.17+0.33＝1）と、サーバs=1のTT遭遇率TTRの和（0.83）との最大値（=1）が、他のどのVM配置の組み合わせよりも最小となる。
［TT要因率TTCをＴＴ発生率とした場合］サーバs=0のTT遭遇率TTRの和（0.18+0.02+0.10＝0.3）と、サーバs=1のTT遭遇率TTRの和（0.54）との最大値（=0.54）が、他のどのVM配置の組み合わせよりも最小となる。
ＶＭ管理部２１は、ＴＴ発生予測部２２のVM配置の計算結果を、各サーバ１０のＶＭ１１の配置に反映する。

図６は、図１の仮想化システム１００の各装置のハードウェア構成図である。
仮想化システム１００の各装置（サーバ１０と、予測装置２）は、ＣＰＵ９０１と、ＲＡＭ９０２と、ＲＯＭ９０３と、ＨＤＤ９０４と、通信Ｉ／Ｆ９０５と、入出力Ｉ／Ｆ９０６と、メディアＩ／Ｆ９０７とを有するコンピュータ９００として構成される。
通信Ｉ／Ｆ９０５は、外部の通信装置９１５と接続される。入出力Ｉ／Ｆ９０６は、入出力装置９１６と接続される。メディアＩ／Ｆ９０７は、記録媒体９１７からデータを読み書きする。さらに、ＣＰＵ９０１は、ＲＡＭ９０２に読み込んだプログラム（アプリケーションや、その略のアプリとも呼ばれる）を実行することにより、各処理部を制御する。そして、このプログラムは、通信回線を介して配布したり、ＣＤ－ＲＯＭ等の記録媒体９１７に記録して配布したりすることも可能である。

［効果］
本発明は、各サーバ１０に配置されたＶＭを示すＶＭ配置データのログと、各サーバ１０で発生したＴＴを示すＴＴ発生データのログをもとに、ＶＭごとのＴＴを発生させる確率であるＴＴ発生率を計算し、そのＴＴ発生率が各サーバ１０で平滑になるように新たなＶＭ配置データを決定するＴＴ発生予測部２２と、
ＴＴ発生予測部２２が決定した新たなＶＭ配置データに従って、各サーバ１０にＶＭを配置するＶＭ管理部２１とを有することを特徴とする。

これにより、ＴＴを起こしやすいVM（特定構成装置への負荷が高いVM）を特定のサーバ１０に集中させないことで、以下の効果を得られる。
・性能の安定性が求められるシステムにおいて、ＴＴ発生による不意な性能低下を回避できる。
・ＴＴが発生するような過度な高温状態の発生を抑止することで、サーバ１０の装置寿命を延ばすことができる。
一方、比較例として、VMごとの負荷値のログの和が最小となるように負荷分散する方式を考える。この方式では、参照するログの負荷値が一定期間の平均値であるため、突発的な負荷により発生するＴＴの発生抑止には効果が薄い。

本発明は、ＴＴ発生予測部２２が、ＴＴ発生データのログが示す所定の時刻および所定のサーバ１０において発生したＴＴに遭遇したＶＭの度合いを示すＴＴ遭遇率に基づいて、ＴＴ発生率を計算することを特徴とする。

これにより、サーバ１０にどのような負荷をかけるのかなどのＶＭ１１の内部処理が不明なブラックボックスシステムであっても、ＴＴ発生率を計算できる。

本発明は、ＴＴ発生予測部２２が、ＴＴ発生データのログが示す所定の時刻および所定のサーバ１０において発生したＴＴに遭遇したＶＭの度合いを示すＴＴ遭遇率を、同じＴＴに遭遇した他のＶＭとの間で重み付けしたＴＴ要因率に基づいて、ＴＴ発生率を計算することを特徴とする。

これにより、ＴＴを起こしやすいＶＭ１１が存在した場合に同じサーバに存在する他のＶＭ１１の値も上昇してしまう事象を考慮し、それぞれのＶＭ１１に適合した重み付けをすることで、ＴＴを起こしやすいＶＭ１１だけを高いＴＴ発生率として計算できる。

２予測装置（サーマルスロットリング抑止装置）
１０サーバ
１１ＶＭ
１９ＴＴ処理部
１２ＣＰＵ
１３ストレージ
１４処理装置
２１ＶＭ管理部（管理部）
２５ＶＭ配置データ格納部
２２ＴＴ発生予測部（予測部）
２３ＴＴ発生データ格納部
２４ＴＴ検知部
３１ＶＭ稼働期間テーブル
３２ＴＴ発生ログテーブル
３３ＶＭ配置テーブル
３４ＴＴ遭遇ログテーブル
３５ＴＴ遭遇率テーブル
３６ＴＴ要因率テーブル
１００仮想化システム

Claims

各サーバに配置されたＶＭ（Virtual Machine）を示すＶＭ配置データのログと、前記各サーバで発生したＴＴ（Thermal Throttling）を示すＴＴ発生データのログをもとに、ＶＭごとのＴＴを発生させる確率であるＴＴ発生率を計算し、そのＴＴ発生率が前記各サーバで平滑になるように新たなＶＭ配置データを決定する予測部と、
前記予測部が決定した前記新たなＶＭ配置データに従って、前記各サーバにＶＭを配置する管理部とを有することを特徴とする
サーマルスロットリング抑止装置。
前記予測部は、前記ＴＴ発生データのログが示す所定の時刻および所定の前記サーバにおいて発生したＴＴに遭遇したＶＭの度合いを示すＴＴ遭遇率に基づいて、前記ＴＴ発生率を計算することを特徴とする
請求項１に記載のサーマルスロットリング抑止装置。
前記予測部は、前記ＴＴ発生データのログが示す所定の時刻および所定の前記サーバにおいて発生したＴＴに遭遇したＶＭの度合いを示すＴＴ遭遇率を、同じＴＴに遭遇した他のＶＭとの間で重み付けしたＴＴ要因率に基づいて、前記ＴＴ発生率を計算することを特徴とする
請求項１に記載のサーマルスロットリング抑止装置。
サーマルスロットリング抑止装置は、予測部と、管理部とを有しており、
前記予測部は、各サーバに配置されたＶＭを示すＶＭ配置データのログと、前記各サーバで発生したＴＴを示すＴＴ発生データのログをもとに、ＶＭごとのＴＴを発生させる確率であるＴＴ発生率を計算し、そのＴＴ発生率が前記各サーバで平滑になるように新たなＶＭ配置データを決定し、
前記管理部は、前記予測部が決定した前記新たなＶＭ配置データに従って、前記各サーバにＶＭを配置することを特徴とする
サーマルスロットリング抑止方法。
コンピュータを、請求項１ないし請求項３のいずれか１項に記載のサーマルスロットリング抑止装置として機能させるためのサーマルスロットリング抑止プログラム。