JP6602252B2 - リソース管理装置及びリソース管理方法 - Google Patents

リソース管理装置及びリソース管理方法 Download PDF

Info

Publication number
JP6602252B2
JP6602252B2 JP2016081038A JP2016081038A JP6602252B2 JP 6602252 B2 JP6602252 B2 JP 6602252B2 JP 2016081038 A JP2016081038 A JP 2016081038A JP 2016081038 A JP2016081038 A JP 2016081038A JP 6602252 B2 JP6602252 B2 JP 6602252B2
Authority
JP
Japan
Prior art keywords
state
resource
allocation
states
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016081038A
Other languages
English (en)
Other versions
JP2017191485A (ja
Inventor
后宏 水谷
武 井上
暢 間野
修 明石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016081038A priority Critical patent/JP6602252B2/ja
Publication of JP2017191485A publication Critical patent/JP2017191485A/ja
Application granted granted Critical
Publication of JP6602252B2 publication Critical patent/JP6602252B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Description

本開示は、1台のサーバ上にて、仮想化基盤(e.g.ハイパーバイザ)上に起動している複数の仮想マシン(e.g.VM)に対して、各仮想マシン毎に設定されたSLA(Service Level Agreement)や優先度をもとに、刻々と変化する各仮想マシンに対する負荷に対応して、CPUやメモリのリソースを割り当てる手法に関する。
汎用サーバ性能の向上、および、仮想化技術の台頭により、単なるパケット転送機能だけでなく、IDSやファイアウォール、ロードバランサーといった、特殊なハードウェア機器(ミドルボックス)を用いなければ実現できなかった機能が、ソフトウェア化され、汎用サーバ上の仮想マシン(以下VM)にて実現されようとしている。ミドルボックスをVMにて管理することで、ハードウェア機器への設備投資を削減することができるだけでなく、ネットワークの管理ポリシーを変更する場合でも、マイグレーション機能を用いて、VMの移動や複製を行うことで、容易にポリシーを反映できると考えられている[例えば、非特許文献1、2参照。]。こうした利点がある一方、仮想環境を用いたミドルボックスの運用では、その挙動や性能(e.g.スループット)やSLA(Service Level Agreement)が保証されていないという問題点がある[例えば、非特許文献3参照。]。例えば、VMの性能は、割り当てられたリソース(e.g.コア、メモリなど。)以外にも、VMが動作する物理サーバの構造や、他に稼働しているVMの状態、VM毎に設定される優先度に依存することが知られており、VMがどの程度のスループットがどの程度出るか、未知数となっている[例えば、非特許文献4参照。]。また、ミドルボックスを稼働しているVMへのリソース割り当ては慎重に行わなければならないという問題点もある。なぜなら、ミドルボックスは、ネットワークの根幹となる機能であり、VM間のリソース割り当てを正しく行わなければ、ネットワーク全体の可用性に影響を与える可能性がある[例えば、非特許文献5参照。]。例えば、Googleのデータセンタにて、ネットワーク資源割り当てを行うミドルボックスの故障により、最大で40%のユーザに対する複数のサービスが停止した例も存在する[例えば、非特許文献6参照。]。ミドルボックスの仮想化が進むにつれ、膨大な数のミドルボックスが仮想環境下で動作することが予想されている[例えば、非特許文献1参照。]。その運用は人手では到底できなくなってきており、高信頼かつ高可用性を持つ、自律的なリソース割り当て方法が必要であると考えられている。
汎用サーバ上の複数のVMに対して、物理リソース(CPやメモリ)を割り当てる方法は膨大に存在しており、VMのCPU利用率やメモリ使用量に応じたリソース割り当て手法が多数提案されている。中でも、割り当てたリソースと、当該リソース割り当てにて達成されたスープットの関係をマルコフ遷移にて表現することで、強化学習と呼ばれる機械学習を用いて、VMのスループットが高くSLA違反の少ない時に最大値をとる目的関数を全てのVMにて最大化するリソース割り当て手法が発見されており、強化学習を用いたリソース割り当てが注目されるようになった[例えば、非特許文献7、8参照。]。強化学習では、各VMに対するリソース割り当てと、各割り当てにおいて新たな割り当てを行った際のVMのスループットとSLA違反の値(回数)を全て記憶しておく必要があり、各状態における最適な割り当て方法を一意に決定するまでに、膨大な時間と物理メモリが必要となる。
非特許文献7、8の強化学習を用いた手法では、あらかじめ設定された目的関数を各状態にて最大化するために、リソース割り当て状態を入力とし、教師信号としてスループットの変化量やSLA違反率を用いたニューラルネットワークを適用する手法が提案されている[例えば、非特許文献8参照。]。また、当該目的関数を線形モデルや多項式モデルに帰着し、当該モデルの係数をスループットの最大化やSLA違反率を最小化するように最適化する手法を提案されている[例えば、非特許文献9参照。]。これらの手法は、各VMへのリソース割り当て状態とその状態におけるスループット等を記録する必要がないため、省メモリにてリソース割り当ての自動化を達成することができる。しかしながら、全ての状態に対して、高いスループットを達成する保証はなく、特定の状態にて、ミドルボックスの機能停止を起こすようなリソース割り当てを行う可能性がある[例えば、非特許文献10参照。]。これらの可能性を排除するためには、全ての状態におけるリソース割り当て方針を検証する必要があるため、その検証時間が膨大になるという問題がある。
V. Sekar, N. Egi, S. Ratnasamy, M.K. Reiter, and G. Shi, "Design and implementation of a consolidated middlebox architecture," Proceedings of the 9th USENIXConference on Networked Systems Design and Implementation, NSDI’12, Berkeley, CA, USA, pp.323−336, USENIX Association, 2012. A. Gember, P. Prabhu, Z. Ghadiyali, and A. Akella, "Toward software−defined middlebox networking," Proceedings of the 11th ACM Workshop on Hot Topicsin Networks, HotNets−XI, New York, NY, USA, pp.7−12, ACM, 2012. D.Y. Huang, K. Yocum, and A.C.Snoeren, "High−fidelity switch models forsoftware−defined network emulation," Proceedings of the Second ACM SIG−COMM Workshop on Hot Topics in Software Defined Networking, HotSDN ’13,New York, NY, USA, pp.43−48, ACM, 2013. S. Kundu, R. Rangaswami, A. Gulati, M. Zhao, and K. Dutta, "Modeling virtualized applications using machine learning techniques," Proceedings of the 8thACM SIGPLAN/SIGOPS Conference on Virtual Execution Environments, VEE’12, New York, NY, USA, pp.3−14, ACM, 2012. R. Potharaju and N. Jain, "Demystifying the dark side of the middle: A field study of middlebox failures in datacenters," Proceedings of the 2013 conference on Internet measurement conference, pp.9−22, ACM, 2013. P. Gill, N. Jain, and N. Nagappan, "Understanding network failures in data centers: measurement, analysis, and implications," ACM SIGCOMM Computer Communication Review, pp.350−361, ACM, 2011. G. Tesauro, N.K. Jong, R. Das, and M.N. Bennani, "A hybrid reinforcement learning approach to autonomic resource allocation," Autonomic Computing,2006. ICAC’06. IEEE International Conference on, pp.65−73, IEEE, 2006. J. Rao, X. Bu, C.Z. Xu, L. Wang, and G. Yin, "Vconf: A reinforcement learningapproach to virtual machines auto−configuration," Proceedings of the 6th International Conference on Autonomic Computing, ICAC ’09, New York, NY, USA,pp.137−146, ACM, 2009. X. Bu, J. Rao, and C.Z. Xu, "Coordinated self−configuration of virtual machines and appliances using a model−free learning approach," IEEE Transactions on Parallel and Distributed Systems, vol.24, no.4, pp.681−690, 2013. L. Baird et al., "Residual algorithms: Reinforcement learning with function approximation," Proceedings of the twelfth international conference on machinelearning, pp.30−37, 1995. A. Notsu, H. Wada, K. Honda, and H. Ichihashi, "Cell division approach for search space in reinforcement learning," IJCSNS, vol.8, no.6, pp.18−21, 2008. R. Munos and A. Moore, "Variable resolution discretization in optimal control,"Mach. Learn., vol.49, no.2−3, pp.291−323, Nov. 2002. M. Nagayoshi, H. Murao, and H. Tamaki, "A state space filter for reinforcement learning−concept and a design," IEEJ Transactions on Electronics, Informationand Systems, vol.126, pp.832−839, 2006. "VMware News Releases." https://www.vmware.com/company/news/releases/specweb2005. R.S. Sutton and A.G. Barto, Reinforcement learning: An introduction, MITpress Cambridge, 1998. I. Akira and K. Mitsuru, "Speeding up multi−agent reinforcement learning by coarse−graining of perception: Hunter game as an example," IEICE Transations on Information Systems, vol.84, no.3, pp.285−293, mar 2001. T. Benson, A. Akella, and D.A. Maltz, "Network traffic characteristics of data centers in the wild," Proceedings of the 10th ACM SIGCOMM Conference onInternet Measurement, IMC ’10, New York, NY, USA, pp.267−280, ACM, 2010. S. Kundu, R. Rangaswami, K. Dutta, and M. Zhao, "Application performance modeling in a virtualized environment," High Performance Computer Architecture (HPCA), 2009 IEEE 16th International Symposium on, pp.1−10, IEEE,2009.
前記課題を解決するために、本開示は、刻々と変化する各仮想マシンに対する負荷に対応して、CPUやメモリのリソースの割り当てを行うことを目的とする。
本開示に係るリソース管理装置は、強化学習を用いて仮想マシンのリソースを管理するリソース管理装置であって、
仮想マシンへのリソースの割り当てを行う制御を行動とし、該行動によってリソースが割り当てられた割り当て状態における当該仮想マシンの性能に基づく報酬値を用いた強化学習によって、前記割り当て状態における前記制御の評価値である制御評価値を求める状態管理部を備え、
前記状態管理部は、
前記割り当て状態が適当か否かを前記制御評価値に基づいて判定する判定機能と、
適当でないと判定された前記割り当て状態を分割して新たな割り当て状態を生成する分割機能と、
適当であると判定された前記割り当て状態のうちのリソースに対する前記行動が一致する複数の割り当て状態を1つの割り当て状態に集約する集約機能と、
を備え
前記集約機能は、1つのリソースのみが異なる2つの割り当て状態が存在し、前記2つの割り当て状態で異なる前記1つのリソースのうちの一方の割り当て状態のリソースの下限と他方の割り当て状態のリソースの上限とが一致する場合に、前記2つの割り当て状態を1つの割り当て状態に集約する
本開示に係るリソース管理方法は、強化学習を用いて仮想マシンのリソースを管理するリソース管理装置が実行するリソース管理方法であって、
仮想マシンへのリソースの割り当てを行う制御を行動とし、該行動によってリソースが割り当てられた割り当て状態における当該仮想マシンの性能に基づく報酬値を用いた強化学習によって、前記割り当て状態における前記制御の評価値である制御評価値を求める状態管理手順を有し、
前記状態管理手順は、
前記割り当て状態が適当か否かを前記制御評価値に基づいて判定する判定手順と、
適当でないと判定された前記割り当て状態を分割して新たな割り当て状態を生成する分割手順と、
適当であると判定された前記割り当て状態のうちのリソースに対する前記行動が一致する複数の割り当て状態を1つの割り当て状態に集約する集約手順と、
含み、
前記集約手順では、1つのリソースのみが異なる2つの割り当て状態が存在し、前記2つの割り当て状態で異なる前記1つのリソースのうちの一方の割り当て状態のリソースの下限と他方の割り当て状態のリソースの上限とが一致する場合に、前記2つの割り当て状態を1つの割り当て状態に集約する
本開示によれば、サーバの性能に応じたコンパクトな状態表現を行うことができるため、刻々と変化する各仮想マシンに対する負荷に対応して、CPUやメモリのリソースの割り当てを行うことができる。
実施形態に係るリソース管理装置の一例を示す構成図である。 状態の分割の一例を示す。 状態の分割を行った場合の状態の遷移の一例を示す。 状態の集約の一例を示す。 SLA違反率の比較例を示す。 状態数の比較例を示す。 実施形態に係るリソース管理方法を用いた場合の検証時間の測定例を示す。
以下、本開示の実施形態について、図面を参照しながら詳細に説明する。なお、本開示は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本開示は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。
既存手法の問題点は、リソースの割り当て状態を保存しないことに起因するものである。実施形態は、リソース割り当て状態を全て保存する一般的な強化学習を拡張し、状態の分割と集約を用いて、状態数を削減する方法を利用する[例えば、非特許文献11〜13参照。]。
具体的には、各リソース割り当て状態にて最適な再割り当て方針が決定しているかどうか(学習結果が収束しているかどうか)を判定し、収束しているならば、当該状態と類似する収束した状態同士を集約し1つの状態として表現する。また、収束していない状態については、当該状態が複数の状態を包含しているとみなし、状態分割を試みる。状態の分割と集約を繰り返すことにより、サーバの性能に応じたコンパクトな状態表現ができるため、各状態への状態遷移確率を求めたり、リソース割て当てが正しく動作するか、学習が収束しているかどうかを検証することが可能となる。なお、既存手法は、各VMに割り当てられるリソースは独立かつ制約がないことを仮定しているため、リソースに制約がある場合にも適用できるように改良した。
1.実施形態に係る機能の詳細
図1に、実施形態に係るサーバの構成例を示す。実施形態に係るサーバ91は、仮想マシン(VM)を管理するリソース管理装置として機能し、リソース制御部、状態管理部、およびVMの状態DBを備える。リソース制御部、状態管理部、および状態DBは、サーバ91のハイパーバイザ上に設けられる。ハイパーバイザは、任意の仮想化基盤を用いることが可能であり、例えば、Xenが例示できる。
VMの状態DBは、割り当てたコア数やメモリ量に対して、どの程度のスループットが出たか、SLA違反率はどの程度かを記憶している。状態管理部は、概容で述べた状態の分割と集約によって、状態DBに記憶されている状態を制御する。リソース制御部は、状態DBから現在のリソース割り当て状態を読み込み、状態に応じて、各VM81へのリソース割り当てを行う。
実施形態に係るリソース管理装置は、コンピュータを、リソース制御部、状態管理部、および状態DBとして機能させることで実現してもよい。この場合、サーバ91内のCPU(Central Processing Unit)が、記憶部(不図示)に記憶されたコンピュータプログラムを実行することで、各構成を実現する。
2.状態DB
状態DBは、以下の形式で表現される各VMへのリソース割り当て状態をKeyとし、Keyを指定した際に、返り値として、当該状態における制御評価値を出力するデータベースである。Keyとなる状態sは、以下のとおりである。
Figure 0006602252
max はVM1に割り当てられているリソースの上限値を示し、mmin は下限を示しており、CPUリソースに関しても同様に表現を用いる。nは状態sの数であり、合計でn台のVMが稼働していることを示す。なお、各下限が上限を上回ることはないものとしmmin ≦mmax 、cmin ≦cmax 、i≦nを満たしているものとする。初期値として、各リソースの下限値は0、上限値は物理リソースの上限と一致させる(最初の状態数は1)。
返り値となる制御評価値は上記の状態において、各制御指針の評価値を意味している。具体的には、各VMにおけるサーバリソースのパラメータに対して、increase、decrease、nooperationの3つの制御を行う。なお、メモリに対する行動:increaseはメモリを一定単位(e.g.64MB)でVMに対して割り当てすることとし、decreaseは同様の単位でメモリの割り当てを減らすこととする。CPUに対する行動:increaseはコアを1つ単位で割り当てることとし、行動:decreaseはコアの割り当てを同様の単位で減らすこととする。行動:nooperationは、何も行動を起こさないこととする。
なお、各VM81に対するリソース割り当ては、サーバ91の物理リソースの上限(メモリ:M、コア数:C)を超えないものとする。すなわち、次式を満たす範囲にて、リソース制御部はVM81へのリソース割り当てを行うものとする。
Figure 0006602252
なお、nはVMの数、mはVMに割り当てているメモリ量、cはVMに割り当てているCPU数を意味している。
また、各VM81が稼働していることを前提とし、その割り当てリソースは0にならないことにする。即ち、返り値となる評価値は、各VM81における2つのリソースに対して3つの制御の合計6n要素を持つ配列となる。なお、6n個の要素内の値については、状態管理部が更新する。
3.リソース制御部
リソース制御部は、各VM81におけるサーバリソースのパラメータに対して、increase、decrease、nooperationの3つの制御を行う。どのリソースをどのVM81に割り当てるかは、現在のリソース割り当てをKeyとして状態DBに入力し、返り値として得られる各VM81に対するリソース割り当てに対する評価値をもとに決定する。具体的には、返り値として、各VM81における2つのリソースに対して3つの制御の合計6n要素を持つ配列を得て、各要素の値が高い制御ほど高い確率で選択し、当該制御を行うことにする。
4.状態管理部
リソース制御部にて制御を行った後、状態管理部は、各VM81におけるスループットやSLA違反を次の制御を行うまでに観測し、制御後のリソース割り当て状態の制御評価値を更新する。その際、状態DB内に保存されているリソース割り当て状態と当該状態における制御評価値に対して、類似度を計算し、類似性が高い状態同士を一つの状態にまとめることを行う。
最初に、リソース制御後のリソース割り当て状態における制御評価値の更新方法について述べる。制御評価値に対して、状態管理部は、計測したSLA違反率とスループット平均値を利用し、以下の式で表現される報酬値を算出し、更新に利用する。
Figure 0006602252
報酬値は、VMware(登録商標)やIBM(登録商標)が自社サーバの性能を公開する際に利用している性能指標と、各VMの優先度の積によって表現する[例えば、非特許文献14参照。]。wはVM(i≦n)の優先度を示しており、
Figure 0006602252
を満たすものとする。
thrptはVMの単位時間当たりのタスクの完了数を示し、ref_thrptは、最大限のリソースを割り当てた際のスループット、もしくは学習中に得たスループットの最大値を示す。タスクの完了数は、アプリケーションによって異なり、例えば、データベースの役割を持つVM81ではトランザクションの完了数を意味する。エージェントは、行動を実施すると同時に、次の行動までの単位時間当たりの平均スループットを計算し、当該報酬値を用いて、学習を行うものとする。respおよびslaは、1タスクあたりの完了時間と、そのSLAを示しており、respがSLAの値を満たさない場合は、報酬値にペナルティが課される。これらにより、スループットが高く違反が少ない行動ほど高い報酬値が割り当てられるようになる。
次に、上記の式で求めた報酬値をもとに、当該リソース割縦状態における制御評価値を更新する。ここで、時刻tにおけるリソース割り当て状態をs、当該状態における制御方針をa、状態sにおける制御aの評価値(制御評価値)をQ(s,a)とすると、上記で求めた報酬値Rat st,st+1をもとに、以下のように制御評価値を更新する。
Figure 0006602252
α(0<α≦1)は学習率を示し、γ(0<γ≦1)は割引率を示している。αが大きい場合には最新の報酬を重視し、αが1の場合には、過去の報酬を全く考慮しない。また、γは遷移先の状態に対する制御評価値が現在の制御評価値に与える影響を表し、γが0の時は遷移先の状態st+1に対する制御評価値が現在の状態sの制御評価値に依存しない。本更新式は、Q学習[例えば、非特許文献15参照。]と呼ばれており、上記の更新を再帰的に行うことで、最も報酬値を得られることのできる制御の評価値Q(s,a)が、最大になることが理論的にわかっている。
次に、状態DB内に保存されているリソース割り当て状態と当該状態における制御評価値に対して、類似度を計算し、類似性が高い状態同士を一つの状態に集約する方法について述べる。状態管理部は、Q(s,a)の更新後、当該Q(s,a)が十分に学習したかどうかを判定し、当該状態と隣接する状態に対して、類似度を計算し、類似度が高ければ、一つの状態に集約することにする。強化学習では、状態の学習が収束した場合、当該状態の最適行動の制御評価値だけが、突出して高くなる性質がある。一方で、収束していない場合は、各行動の値にバラつきはあるが、どれも突出して高くない値をとる性質がある。本性質を利用し、非特許文献16では、状態sの収束度合いを、sにおける各制御評価値のエントロピーI(s)と、状態sへの遷移回数にて判定している。
具体的な制御評価値のエントロピーI(s)の式は下記の通りである。
Figure 0006602252
状態管理部は、判定機能を有し、判定手順を実行する。もし、状態sへの遷移が十分に行われ、かつ制御評価値のエントロピーI(s)が十分に低ければ、割り当て状態が適当であり、学習は収束していると判定することができる。一方で、状態sへの遷移が十分に行われているにも関わらず、制御評価値のエントロピーI(s)が高い値のままであれば、割り当て状態が適当でなく、状態sの状態表現(リソースの範囲)が正しく設定されていないことになる。
本実施形態でQ学習を用いたが、管理装置に用いる学習は任意である。例えば、Sarsa、TD学習法、Actor−circuit法(例えば、非特許文献15参照。)を用いることができる。
5.状態分割
状態管理部は、分割機能を有し、分割手順を実行する。状態sへの遷移が十分に行われているにも関わらず、制御評価値のエントロピーI(s)が高い場合、当該状態の範囲を分割し、状態を細かく区切る必要がある。状態sの区切り方は、例えば、各範囲を二等分する。これにより、状態sから2の新たな割り当て状態が生成される。例えば、n=2の場合、図2に示すように、学習が収束した状態sから状態sへ移行するに際し、4つの状態R21,R22,R23,R24が生成される。このときの深さは、log|State/2!|で近似されうる。
図3に、状態の遷移の一例を示す。例えば、状態R1は状態R21,R22,R23,R24に分割され、状態R21は状態R31,R32,R33に分割され、状態R24は状態R34,R35に分割される。
分割によって生成された状態の中には、割り当てリソースの下限値が物理リソースを超える範囲を持つ状態が存在する可能性がある。本状態は学習段階で遷移するはずがないため、当状態は生成しないことにする。例えば、図3に示すように、状態R22に割り当てるリソースの下限値が物理リソースを超える範囲を持つ場合、状態R22は生成しない。
なお、生成後の状態が満たすべき条件は以下のとおりである。
Figure 0006602252
これは全VM81に割り当てられたCPUとメモリのリソースの範囲の下限値の総和が、物理リソース以下であるかどうかを判断している。上記の式を満たさなければ、当該状態は破棄されるため、状態数を削減することができる。なお、分割後の状態における各行動のQ値は分割前の状態のQ値と一致させることにする。
6.状態集約
状態管理部は、集約機能を有し、集約手順を実行する。状態sへの遷移が十分に行われ、かつ制御評価値のエントロピーI(s)が十分に低けれれば、当該状態における学習が収束したと判断できる。この時、状態sに隣接する状態で、最適な行動が状態sと一致するものがあれば、両状態を一つの状態に集約する。例えば、図2に示す分割を行ったときに、学習が収束した状態R21及びR22における最適な行動が一致する場合、図4に示すように、状態R21及びR22を1つの状態R25に集約する。
なお、二つの状態s及びs′が隣り合うことの定義は、両状態におけるN−1個のリソースの範囲が一致しており、範囲が一致しない1リソースについて、sにおける当該リソースの下限とs′の当該リソースの上限が一致する、或いは、s′における当該リソースの下限とsの当該リソースの上限が一致することを意味する。
状態sと状態s′を集約し、新たな状態s′′を生成する場合、状態s′′における各行動のQ値は、状態sと状態s′における各行動のQ値の平均値とする。もし、状態sが収束しているにも関わらず、上記の条件を満たす隣接する状態が見つからない場合は、当該状態が出現するまで、状態sを記録しておく。
7.実施形態によって生じる効果
汎用サーバ上にて3台から5台のVM81を運用し、各VMにおけるSLA違反率、生成された状態の数、全状態における収束具合の検証時間をシミュレーションを通して評価した。汎用サーバはメモリ16GBと8コアのCPUを有し、エージェントの各行動は、メモリを128MB単位で割り当てる(削除する)かCPUを1コア単位で割り当てる(削除する)かである。各VMに対するリクエストの到着頻度と、各リクエストに対する処理時間は、実データセンタの解析結果に基づくモデルを利用した[例えば、非特許文献17参照。]。また、割り当てたリソースに応じてスループットが線形で増加するものとし、各VMのSLAは全てのリソースを当該VMに割り当てた際のスループット50%を下回る場合に、SLA違反と見なす[例えば、非特許文献18参照。]。
7.1 SLA Violation
上記の設定を利用し、実施形態の各VM81のSLA違反率を計測した。図5に、SLA違反率の比較結果の一例を示す。なお、非特許文献8のVCONFを同等の設定にてSLA違反率を評価し、その値を比較例として示す。各VMの優先度は、VMの番号が小さいほど高くし、番号の増加と共に各重みが指数的に減少するように設定した。実験結果より、実施形態は、VCONFと類似したSLA違反率となっており、有意な差は見られなかった。なお、SLAの平均違反率は、実施形態のほうが非特許文献8のVCONFと比べ5%−11%程度低かった。
7.2 状態数と検証時間
VMの台数を5台とし、実施形態における2つのパラメータ(収束判定に利用する、遷移回数と制御評価値のエントロピーの閾値)を変化させ、上記と同様の実験を行った。実験終了後に、生成された状態数を計測し、さらに、各状態が収束しているか否かを検証した際に費やした時間を計測した。図6に、生成された状態数の比較結果の一例を示す。図7に、検証時間の計測結果の一例を示す。
遷移回数の閾値を高く設定すればするほど、状態が分割されにくくなるため、状態数は少なくなり(図6)、検証時間も短時間(220秒以下)で済む(図7)ことが分かった。制御評価値のエントロピーの閾値を変化させた結果では、状態数と検証時間がエントロピーの閾値にあまり依存しない結果となった。しかしながら、閾値が0.5の結果では0.9および0.99の結果よりも20秒程度遅かった。
8.検証時間と状態数
VMの台数を5台とし、実施形態における2つのパラメータ(収束判定に利用する、遷移回数とQ値のエントロピーの閾値)を変化させ、上記と同様の実験を行った。実験終了後に、生成された状態数を計測し、さらに、各状態が収束しているか否かを検証した際に費やした時間を計測した(図6及び図7)。遷移回数の閾値を高く設定すればするほど、状態が分割されにくくなるため、状態数は少なくなり検証時間も短時間(220秒以下)で済むことが分かった。Q値のエントロピーの閾値を変化させた結果では、状態数と検証時間がエントロピーの閾値にあまり依存しない結果となった。しかしながら閾値が0.5の結果では0.9および0.99の結果よりも20秒程度遅かった。
本開示は情報通信産業に適用することができる。
81:仮想マシン
91:サーバ

Claims (2)

  1. 強化学習を用いて仮想マシンのリソースを管理するリソース管理装置であって、
    仮想マシンへのリソースの割り当てを行う制御を行動とし、該行動によってリソースが割り当てられた割り当て状態における当該仮想マシンの性能に基づく報酬値を用いた強化学習によって、前記割り当て状態における前記制御の評価値である制御評価値を求める状態管理部を備え、
    前記状態管理部は、
    前記割り当て状態が適当か否かを前記制御評価値に基づいて判定する判定機能と、
    適当でないと判定された前記割り当て状態を分割して新たな割り当て状態を生成する分割機能と、
    適当であると判定された前記割り当て状態のうちのリソースに対する前記行動が一致する複数の割り当て状態を1つの割り当て状態に集約する集約機能と、
    を備え
    前記集約機能は、1つのリソースのみが異なる2つの割り当て状態が存在し、前記2つの割り当て状態で異なる前記1つのリソースのうちの一方の割り当て状態のリソースの下限と他方の割り当て状態のリソースの上限とが一致する場合に、前記2つの割り当て状態を1つの割り当て状態に集約する、リソース管理装置。
  2. 強化学習を用いて仮想マシンのリソースを管理するリソース管理装置が実行するリソース管理方法であって、
    仮想マシンへのリソースの割り当てを行う制御を行動とし、該行動によってリソースが割り当てられた割り当て状態における当該仮想マシンの性能に基づく報酬値を用いた強化学習によって、前記割り当て状態における前記制御の評価値である制御評価値を求める状態管理手順を有し、
    前記状態管理手順は、
    前記割り当て状態が適当か否かを前記制御評価値に基づいて判定する判定手順と、
    適当でないと判定された前記割り当て状態を分割して新たな割り当て状態を生成する分割手順と、
    適当であると判定された前記割り当て状態のうちのリソースに対する前記行動が一致する複数の割り当て状態を1つの割り当て状態に集約する集約手順と、
    含み、
    前記集約手順では、1つのリソースのみが異なる2つの割り当て状態が存在し、前記2つの割り当て状態で異なる前記1つのリソースのうちの一方の割り当て状態のリソースの下限と他方の割り当て状態のリソースの上限とが一致する場合に、前記2つの割り当て状態を1つの割り当て状態に集約する、リソース管理方法。
JP2016081038A 2016-04-14 2016-04-14 リソース管理装置及びリソース管理方法 Active JP6602252B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016081038A JP6602252B2 (ja) 2016-04-14 2016-04-14 リソース管理装置及びリソース管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016081038A JP6602252B2 (ja) 2016-04-14 2016-04-14 リソース管理装置及びリソース管理方法

Publications (2)

Publication Number Publication Date
JP2017191485A JP2017191485A (ja) 2017-10-19
JP6602252B2 true JP6602252B2 (ja) 2019-11-06

Family

ID=60085994

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016081038A Active JP6602252B2 (ja) 2016-04-14 2016-04-14 リソース管理装置及びリソース管理方法

Country Status (1)

Country Link
JP (1) JP6602252B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110944219B (zh) * 2019-11-20 2023-03-14 北京达佳互联信息技术有限公司 资源分配方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
JP2017191485A (ja) 2017-10-19

Similar Documents

Publication Publication Date Title
CN110869909B (zh) 应用机器学习算法来计算健康分数以进行工作负载调度的系统和方法
US10558483B2 (en) Optimal dynamic placement of virtual machines in geographically distributed cloud data centers
US10339152B2 (en) Managing software asset environment using cognitive distributed cloud infrastructure
US20180365072A1 (en) Optimizing resource usage in distributed computing environments by dynamically adjusting resource unit size
US9002893B2 (en) Optimizing a clustered virtual computing environment
JP2018198068A (ja) 分散型クラウドにおける作業負荷移動に基づくプロファイルベースのsla保証
US9582328B1 (en) Allocation of resources in computing environments
US20160300142A1 (en) System and method for analytics-driven sla management and insight generation in clouds
US10346206B2 (en) System, method and computer program product for resource management in a distributed computation system
US20180052714A1 (en) Optimized resource metering in a multi tenanted distributed file system
US9998399B2 (en) Cloud independent tuning service for autonomously managed workloads
CN107645407B (zh) 一种适配QoS的方法和装置
US10834183B2 (en) Managing idle and active servers in cloud data centers
WO2017185303A1 (zh) 一种nfv mano策略描述符的管理方法及装置
US9722947B2 (en) Managing task in mobile device
US11055139B2 (en) Smart accelerator allocation and reclamation for deep learning jobs in a computing cluster
US10243816B2 (en) Automatically optimizing network traffic
US9769022B2 (en) Timeout value adaptation
US20230060623A1 (en) Network improvement with reinforcement learning
Li et al. Research on energy‐saving virtual machine migration algorithm for green data center
JP2018036724A (ja) 仮想マシンのリソース管理方法、サーバ、及びプログラム
JP6602252B2 (ja) リソース管理装置及びリソース管理方法
KR20130090628A (ko) 모바일 클라우드를 위한 온톨로지 기반의 가상 머신 할당 장치 및 그 방법
Garg et al. Heuristic and reinforcement learning algorithms for dynamic service placement on mobile edge cloud
CN112685218B (zh) 用于管理备份系统的方法、装置和计算机程序产品

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20160426

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180612

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190312

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191008

R150 Certificate of patent or registration of utility model

Ref document number: 6602252

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150