JP7251646B2 - 制御装置、方法及びシステム - Google Patents

制御装置、方法及びシステム Download PDF

Info

Publication number
JP7251646B2
JP7251646B2 JP2021550732A JP2021550732A JP7251646B2 JP 7251646 B2 JP7251646 B2 JP 7251646B2 JP 2021550732 A JP2021550732 A JP 2021550732A JP 2021550732 A JP2021550732 A JP 2021550732A JP 7251646 B2 JP7251646 B2 JP 7251646B2
Authority
JP
Japan
Prior art keywords
learning
network
learners
learner
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021550732A
Other languages
English (en)
Other versions
JPWO2021064767A1 (ja
JPWO2021064767A5 (ja
Inventor
亜南 沢辺
孝法 岩井
航生 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021064767A1 publication Critical patent/JPWO2021064767A1/ja
Publication of JPWO2021064767A5 publication Critical patent/JPWO2021064767A5/ja
Application granted granted Critical
Publication of JP7251646B2 publication Critical patent/JP7251646B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、制御装置、方法及びシステムに関する。
通信技術、情報処理技術の進展に伴い様々なサービスがネットワーク上にて提供される状況にある。例えば、ネットワーク上のサーバから動画データが配信され、端末にて当該動画データを再生することや、サーバから工場等に設置されたロボット等を遠隔制御することが行われている。
近年、深層学習(ディープラーニング)に代表される機械学習に関する技術の進展が目覚ましい。例えば、特許文献1には、学習制御システムに関して、不完全情報下でも、学習効率を向上でき、システム全体の最適化を図ることができる技術を提供する、と記載されている。また、特許文献2には、環境から報酬と教師信号とが与えられる場合に、その両方を有効に利用することによって、学習効率を高めることのできる学習装置を提供する、と記載されている。
近年では、機械学習の有用性から、種々の分野への機械学習の適用が検討されている。例えば、チェス等のゲームやロボット等の制御に機械学習を適用することが検討されている。ゲームの運用に機械学習を適用する場合には、ゲーム内のスコアの最大化が報酬に設定され、機械学習の性能が評価される。また、ロボットの制御では、目標動作の実現が報酬に設定され、機械学習の性能が評価される。通常、機械学習(強化学習)では、即時報酬及びエピソード単位の報酬の総和により学習の性能が議論される。
特開2019-046422号公報 特開2002-133390号公報
上記ゲームやロボットを対象とした機械学習では、その状態は比較的簡単に定めることができる。例えば、チェスの場合ではボード上のマス目が状態に設定され、ロボットの制御ではアーム等の離散化された位置(角度)が状態に設定される。
しかし、ネットワークの制御に機械学習を適用する場合には、簡単にネットワークの状態を設定することができない。例えば、ネットワークの状態をスループットで特徴付ける場合を考える。スループットは、時間的に大きく変動する不安定な状況となったり、特定の値に収束している安定な状況となったりする。即ち、ネットワークの状態は安定状態や不安定な状態等、多様なパターンが存在し、ゲームのようにボードのマス目から状態を定めるような画一的な対応はできない。
本発明は、機械学習を用いた効率的なネットワークの制御を実現することに寄与する、制御装置、方法及びシステムを提供することを主たる目的とする。
本発明の第1の視点によれば、それぞれが、ネットワークを制御するための行動を学習する、複数の学習器と、前記複数の学習器のうち成熟した第1の学習器の学習情報に基づいて、前記複数の学習器のうち成熟していない第2の学習器の学習情報を設定する、学習器管理部と、を備える、制御装置が提供される。
本発明の第2の視点によれば、複数の学習器それぞれにおいて、ネットワークを制御するための行動を学習するステップと、前記複数の学習器のうち成熟した第1の学習器の学習情報に基づいて、前記複数の学習器のうち成熟していない第2の学習器の学習情報を設定するステップと、を含む方法が提供される。
本発明の第3の視点によれば、端末と、前記端末と通信するサーバと、前記端末及び前記サーバを含むネットワークを制御する制御装置と、を含み、前記制御装置は、それぞれが、前記ネットワークを制御するための行動を学習する、複数の学習器と、前記複数の学習器のうち成熟した第1の学習器の学習情報に基づいて、前記複数の学習器のうち成熟していない第2の学習器の学習情報を設定する、学習器管理部と、を備える、システムが提供される。
本発明の各視点によれば、機械学習を用いた効率的なネットワークの制御を実現することに寄与する、制御装置、方法及びシステムが提供される。なお、本発明により、当該効果の代わりに、又は当該効果と共に、他の効果が奏されてもよい。
一実施形態の概要を説明するための図である。 一実施形態に係る制御装置の動作の一例を示すフローチャートである。 第1の実施形態に係る通信ネットワークシステムの概略構成の一例を示す図である。 Qテーブルの一例を示す図である。 ニューラルネットワークの構成の一例を示す図である。 強化学習により得られる重みの一例を示す図である。 第1の実施形態に係る制御装置の処理構成の一例を示す図である。 スループットと輻輳レベルを対応付けた情報の一例を示す図である。 スループット、パケットロス率と輻輳レベルを対応付けた情報の一例を示す図である。 特徴量とネットワークの状態を対応付ける情報の一例を示す図である。 行動と制御内容を対応付けたテーブル情報の一例を示す図である。 強化学習実行部の内部構成の一例を示す図である。 学習器管理テーブルの一例を示す図である。 学習器管理部の動作を説明するための図である。 第1の実施形態に係る制御装置の制御モード時の動作の一例を示すフローチャートである。 第1の実施形態に係る制御装置の学習モード時の動作の一例を示すフローチャートである。 第1の実施形態に係る制御装置の学習モード時の動作の一例を示すフローチャートである。 学習器が生成するログの一例を示す図である。 学習器管理部の動作を説明するための図である。 制御装置のハードウェア構成の一例を示す図である。 学習器管理部の動作を説明するための図である。 学習器管理部の動作を説明するための図である。
はじめに、一実施形態の概要について説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、この概要の記載はなんらの限定を意図するものではない。なお、本明細書及び図面において、同様に説明されることが可能な要素については、同一の符号を付することにより重複説明が省略され得る。
一実施形態に係る制御装置100は、複数の学習器101と学習器管理部102を含む(図1参照)。複数の学習器101のそれぞれは、ネットワークを制御するための行動を学習する(図2のステップS01)。学習器管理部102は、複数の学習器101のうち成熟した第1の学習器101の学習情報に基づいて、複数の学習器101のうち成熟していない第2の学習器101の学習情報を設定する(図2のステップS02)。
ネットワークの状態は安定や不安定など多様なパターンが存在するため、単一の学習器で学習する場合、膨大な状態空間が必要となり学習が収束しない可能性がある。そこで、制御装置100は、複数の学習器101を用いてネットワークの状態を制御する行動を学習する。しかし、複数の学習器101を用いる場合、各学習器101における学習進捗に偏りが発生し、未成熟な学習器101(学習が十分進んでいない学習器101)が増加する。そこで、制御装置100は、未成熟な学習器101の学習情報(例えば、Qテーブル、重み)に成熟した学習器101の学習情報を設定し、上記未成熟な学習器101の学習を促進する。その結果、成熟した学習器101を早期に得ることが可能となり、機械学習を用いた効率的なネットワークの制御が実現できる。
以下に具体的な実施形態について、図面を参照してさらに詳しく説明する。
[第1の実施形態]
第1の実施形態について、図面を用いてより詳細に説明する。
図3は、第1の実施形態に係る通信ネットワークシステムの概略構成の一例を示す図である。図3を参照すると、通信ネットワークシステムは、端末10と、制御装置20と、サーバ30と、を含んで構成される。
端末10は、通信機能を有する装置である。端末10には、WEB(ウェブ)カメラ、監視カメラ、ドローン、スマートフォン、ロボット等が例示される。但し、端末10を上記WEBカメラ等に限定する趣旨ではない。端末10は、通信機能を備える任意の装置とすることができる。
端末10は、制御装置20を介してサーバ30と通信する。端末10とサーバ30により様々なアプリケーション、サービスが提供される。
例えば、端末10がWEBカメラの場合には、サーバ30が当該WEBカメラからの画像データを解析し、工場等の資材管理が行われる。例えば、端末10がドローンの場合には、サーバ30からドローンに制御コマンドが送信され、ドローンが荷物等を搬送する。例えば、端末10がスマートフォンの場合には、サーバ30からスマートフォンに向けて動画が配信され、ユーザはスマートフォンを用いて動画を視聴する。
制御装置20は、例えば、プロキシサーバやゲートウェイ等の通信機器であり、端末10とサーバ30からなるネットワークを制御する装置である。制御装置20は、TCP(Transmission Control Protocol)のパラメータ群やバッファ制御に関するパラメータ群の値を変更し、ネットワークを制御する。
例えば、TCPパラメータの制御としては、フローウィンドウサイズの変更が例示される。バッファ制御としては、複数バッファのキュー管理において、最低保証帯域、RED(Random Early Detection)のロス率、ロス開始キュー長、バッファ長に関するパラメータの変更が例示される。
なお、以降の説明において、上記TCPパラメータやバッファ制御に関するパラメータ等、端末10とサーバ30の間の通信(トラヒック)に影響を与えるパラメータを「制御パラメータ」と表記する。
制御装置20は、制御パラメータを変更することで、ネットワークを制御する。制御装置20によるネットワークの制御は、自装置(制御装置20)のパケット転送時に行われてもよいし、端末10やサーバ30に制御パラメータの変更を指示することにより行われてもよい。
TCPセッションが制御装置20により終端される場合には、例えば、制御装置20は、端末10との間で形成されるTCPセッションのフローウィンドウサイズを変更することで、ネットワークを制御する。制御装置20は、サーバ30から受信したパケットを格納するバッファのサイズを変更したり、当該バッファからパケットを読み出す周期を変更したりしてネットワークを制御してもよい。
制御装置20は、ネットワークの制御に「機械学習」を用いる。より具体的には、制御装置20は、強化学習により得られる学習モデルに基づきネットワークを制御する。
強化学習には、種々のバリエーションが存在するが、例えば、制御装置20は、Q学習と称される強化学習の結果得られる学習情報(Qテーブル)に基づきネットワークを制御してもよい。
[Q学習]
以下、Q学習について概説する。
Q学習では、与えられた「環境」における「価値」を最大化するように、「エージェント」を学習させる。当該Q学習をネットワークシステムに適用すると、端末10やサーバ30を含むネットワークが「環境」であり、ネットワークの状態を最良にするように、制御装置20を学習させる。
Q学習では、状態(ステート)s、行動(アクション)a、報酬(リワード)rの3要素が定義される。
状態sは、環境(ネットワーク)がどのような状態にあるかを示す。例えば、通信ネットワークシステムの場合には、トラヒック(例えば、スループット、平均パケット到着間隔等)が状態sに該当する。
行動aは、エージェント(制御装置20)が環境(ネットワーク)に対して取り得る行動を示す。例えば、通信ネットワークシステムの場合には、TCPパラメータ群の設定の変更や機能のオン/オフ等が行動aとして例示される。
報酬rは、ある状態sにおいてエージェント(制御装置20)が行動aを実行した結果、どの程度の評価が得られるかを示す。例えば、通信ネットワークシステムの場合には、制御装置20が、TCPパラメータ群の一部を変更した結果、スループットが上昇すれば正の報酬、スループットが下降すれば負の報酬の様に定められる。
Q学習では、現在時点で得られる報酬(即時報酬)を最大化するのではなく、将来に亘る価値を最大化するように学習が進められる(Qテーブルが構築される)。Q学習におけるエージェントの学習は、ある状態sにおける行動aを採用した時の価値(Q値、状態行動価値)を最大化するように行われる。
Q値(状態行動価値)は、Q(s、a)と表記される。Q学習では、エージェントが行動することによって価値の高い状態に遷移させる行動は、遷移先と同程度の価値を持つことを前提としている。このような前提により、現時点tにおけるQ値は、次の時点t+1のQ値により表現することができる(式(1)参照)。
Figure 0007251646000001
なお、式(1)においてrt+1は即時報酬、Est+1は状態St+1に関する期待値、Eat+1は行動at+1に関する期待値を示す。γは割引率である。
Q学習では、ある状態sにおいて行動aを採用した結果によりQ値を更新する。具体的には、下記の式(2)に従いQ値を更新する。
Figure 0007251646000002
式(2)において、αは学習率と称されるパラメータであり、Q値の更新を制御する。また、式(2)における「max」は状態St+1の取り得る行動aのうち最大値を出力する関数である。なお、エージェント(制御装置20)が行動aを選択する方式には、ε-greedyと称される方式を採用することができる。
ε-greedy方式では、確率εでランダムに行動を選択し、確率1-εで最も価値の高い行動を選択する。Q学習の実行により、図4に示すようなQテーブルが生成される。
[DQNによる学習]
制御装置20は、DQN(Deep Q Network)と称される深層学習(ディープラーニング)を使った強化学習の結果得られる学習モデルに基づきネットワークを制御してもよい。Q学習では、Qテーブルにより行動価値関数を表現しているが、DQNでは、ディープラーニングにより行動価値関数を表現する。DQNでは、最適行動価値関数を、ニューラルネットワークを使った近似関数により算出する。
なお、最適行動価値関数とは、ある状態s時にある行動aを行うことの価値を出力する関数である。
ニューラルネットワークは、入力層、中間層(隠れ層)、出力層を備える。入力層は、状態sを入力する。中間層の各ノードのリンクには、対応する重みが存在する。出力層は、行動aの価値を出力する。
例えば、図5に示すようなニューラルネットワークの構成を考える。図5に示すニューラルネットワークを通信ネットワークシステムに適用すると、入力層のノードは、ネットワークの状態S1~S3に相当する。入力層に入力されたネットワークの状態は、中間層にて重み付けされ、出力層に出力される。
出力層のノードは、制御装置20が取り得る行動A1~A3に相当する。出力層のノードは、行動A1~A3のそれぞれに対応する行動価値関数Q(s、a)の値を出力する。
DQNでは、上記行動価値関数を出力するノード間の結合パラメータ(重み)を学習する。具体的には、下記の式(3)に示す誤差関数を設定しバックプロパゲーションにより学習を行う。
Figure 0007251646000003
DQNによる強化学習の実行により、用意されたニューラルネットワークの中間層の構成に対応した学習情報(重み)が生成される(図6参照)。
ここで、制御装置20の動作モードには、2つの動作モードが含まれる。
第1の動作モードは、学習モデルを算出する学習モードである。制御装置20が「Q学習」を実行することで、図4に示すようなQテーブルが算出される。あるいは、制御装置20が「DQN」による強化学習を実行することで、図6に示すような重みが算出される。
第2の動作モードは、学習モードにて算出された学習モデルを用いてネットワークを制御する制御モードである。具体的には、制御モードの制御装置20は、現在のネットワークの状態sを算出し、当該状態sの場合に取り得る行動aのうち最も価値の高い行動aを選択する。制御装置20は、当該選択された行動aに対応する動作(ネットワークの制御)を実行する。
第1の実施形態に係る制御装置20は、ネットワークの輻輳状態ごとに学習モデルを算出する。例えば、ネットワークの輻輳状態を3段階に区分する場合には、それぞれの輻輳状態に対応する3つの学習モデルが算出される。なお、以降の説明において、ネットワークの輻輳状態を「輻輳レベル」と表記する。
制御装置20は、学習モードにおいて、各輻輳レベルに対応する学習モデル(Qテーブル、重み等の学習情報)を算出する。制御装置20は、複数の学習モデル(輻輳レベルごとの学習モデル)のうち現在の輻輳レベルに相当する学習モデルを選択し、ネットワークの制御を行う。
図7は、第1の実施形態に係る制御装置20の処理構成(処理モジュール)の一例を示す図である。図7を参照すると、制御装置20は、パケット転送部201と、特徴量算出部202と、輻輳レベル算出部203と、ネットワーク制御部204と、強化学習実行部205と、記憶部206と、を含んで構成される。
パケット転送部201は、端末10やサーバ30から送信されたパケットを受信し、当該受信したパケットを対向する装置に転送する手段である。パケット転送部201は、ネットワーク制御部204からの通知された制御パラメータに従い、パケット転送を行う。
例えば、ネットワーク制御部204からフローウィンドウサイズの設定値が通知されると、パケット転送部201は当該通知されたフローウィンドウサイズにてパケット転送を行う。
パケット転送部201は、受信したパケットの複製を特徴量算出部202に引き渡す。
特徴量算出部202は、端末10とサーバ30の間の通信トラヒックを特徴付ける特徴量を算出する手段である。特徴量算出部202は、取得したパケットからネットワーク制御の対象となるトラヒックフローを抽出する。なお、ネットワーク制御の対象となるトラヒックフローは、送信元IP(Internet Protocol)アドレス、宛先IPアドレス、ポート番号等が同一のパケットからなるグループである。
特徴量算出部202は、抽出したトラヒックフローから上記特徴量を算出する。例えば、特徴量算出部202は、スループット、平均パケット到着間隔、パケットロス率、ジッター等を特徴量として算出する。特徴量算出部202は、算出した特徴量を算出時刻と共に記憶部206に格納する。なお、スループット等の算出については既存の技術を用いることができ、且つ、当業者にとって明らかであるのでその詳細な説明を省略する。
輻輳レベル算出部203は、特徴量算出部202が算出した特徴量に基づき、ネットワークの輻輳度合いを示す輻輳レベルを算出する。例えば、輻輳レベル算出部203は、特徴量(例えば、スループット)が含まれる範囲により輻輳レベルを算出してもよい。例えば、輻輳レベル算出部203は、図8に示すようなテーブル情報に基づき輻輳レベルを算出してもよい。
図8の例では、スループットTが、閾値TH1以上、且つ、閾値TH2未満であれば輻輳レベルは「2」と算出される。
輻輳レベル算出部203は、複数の特徴量に基づき輻輳レベルを算出してもよい。例えば、輻輳レベル算出部203は、スループットとパケットロス率を用いて、輻輳レベルを算出してもよい。この場合、輻輳レベル算出部203は、図9に示すようなテーブル情報に基づき輻輳レベルを算出する。例えば、図9の例では、スループットTが「TH11≦T<TH12」の範囲に含まれ、且つ、パケットロス率が「TH21≦L<TH22」の範囲に含まれる場合には、輻輳レベルは「2」と算出される。
輻輳レベル算出部203は、算出した輻輳レベルをネットワーク制御部204、強化学習実行部205に引き渡す。
ネットワーク制御部204は、強化学習実行部205が生成した学習モデルから得られる行動に基づき、ネットワークを制御する手段である。ネットワーク制御部204は、強化学習の結果得られる学習モデルに基づきパケット転送部201に通知する制御パラメータを決定する。その際、ネットワーク制御部204は、複数の学習モデルから1つの学習モデルを選択し、当該選択された学習モデルから得られる行動に基づき、ネットワークを制御する。ネットワーク制御部204は、主に制御モード時に動作するモジュールである。
ネットワーク制御部204は、輻輳レベル算出部203から通知を受けた輻輳レベルに応じた学習モデル(Qテーブル、重み)を選択する。次に、ネットワーク制御部204は、記憶部206から最新の(現在時刻の)特徴量を読み出す。
ネットワーク制御部204は、当該読み出した特徴量から制御対象となっているネットワークの状態を推定(算出)する。例えば、ネットワーク制御部204は、特徴量Fとネットワークの状態を対応付けたテーブル(図10参照)を参照し、現在の特徴量Fに対応するネットワークの状態を算出する。
なお、トラヒックは端末10とサーバ30の間の通信により生じるものであるから、ネットワークの状態は「トラヒックの状態」と捉えることもできる。即ち、本願開示において、「トラヒックの状態」と「ネットワークの状態」は相互に読み替えが可能である。
また、図10には、輻輳レベルとは無関係に特徴量Fからネットワークの状態を算出する場合を示しているが、輻輳レベルごとに特徴量とネットワークの状態が対応付けられていてもよい。
Q学習により学習モデルが構築された場合には、ネットワーク制御部204は、上記輻輳レベルに応じて選択されたQテーブルを参照し、現在のネットワーク状態に対応する各行動(アクション)のうち価値Qが最も高い行動を取得する。例えば、図4の例では、算出されたトラヒックの状態が「状態S1」であり、価値Q(S1、A1)、Q(S1、A2)、Q(S1、A3)のうち価値Q(S1、A1)が最大であれば、行動A1が読み出される。
あるいは、DQNにより学習モデルが構築された場合には、ネットワーク制御部204は、図5に示すようなニューラルネットワークに輻輳レベルに応じて選択された重みを適用する。ネットワーク制御部204は、当該ニューラルネットワークに現在のネットワーク状態を入力し、取り得る行動のうち最も価値の高い行動を取得する。
ネットワーク制御部204は、取得した行動に応じて制御パラメータを決定し、パケット転送部201に設定(通知)する。なお、記憶部206には、行動と制御内容を対応付けたテーブル(図11参照)が格納され、ネットワーク制御部204は、当該テーブルを参照してパケット転送部201に設定する制御パラメータを決定する。
例えば、図11に示すように、制御パラメータの変更内容(更新内容)が制御内容として記載されている場合には、ネットワーク制御部204は、当該変更内容に応じた制御パラメータをパケット転送部201に通知する。
強化学習実行部205は、ネットワークを制御するための行動(制御パラメータ)を学習する手段である。強化学習実行部205は、上記説明したQ学習やDQNによる強化学習を実行し、学習モデルを生成する。強化学習実行部205は、主に学習モード時に動作するモジュールである。
強化学習実行部205は、記憶部206に格納された特徴量から現在時刻tのネットワークの状態sを算出する。強化学習実行部205は、算出した状態sの取り得る行動aのなかから上記ε-greedy方式のような方法で行動aを選択する。強化学習実行部205は、当該選択した行動に対応する制御内容(制御パラメータの更新値)をパケット転送部201に通知する。強化学習実行部205は、上記行動に応じたネットワークの変化に応じて報酬を定める。
例えば、強化学習実行部205は、行動aを起こした結果、スループットが上昇すれば、式(2)や式(3)に記載された報酬rt+1に正の値を設定する。対して、強化学習実行部205は、行動aを起こした結果、スループットが下降すれば、式(2)や式(3)に記載された報酬rt+1に負の値を設定する。
強化学習実行部205は、輻輳レベルごとに学習モデルを生成する。
図12は、強化学習実行部205の内部構成の一例を示す図である。図12を参照すると、強化学習実行部205は、学習器管理部211と、複数の学習器212-1~212-N(Nは正の整数、以下同じ)と、を含んで構成される。
なお、以降の説明において、複数の学習器212-1~212-Nを区別する特段の理由がない場合には、単に「学習器212」と表記する。
学習器管理部211は、学習器212の動作を管理する手段である。
複数の学習器212のそれぞれは、ネットワークを制御するための行動を学習する。学習器212は、輻輳レベルごとに用意される。図12では、対応する輻輳レベルを括弧書きで記載している。
学習器212は、輻輳レベルごとの学習モデル(Qテーブル、ニューラルネットワークに適用する重み)を算出し、記憶部206に格納する。
第1の実施形態では、輻輳レベルごとに用意された各学習器212のQテーブルの構成やニューラルネットワーク構成は同一であるものとする。つまり、輻輳レベルごとに生成されるQテーブルの要素数(状態s、行動aの数)は同一である。また、輻輳レベルごとに生成される重みを記憶する配列の構造は同じである。
例えば、レベル1の学習器212-1に適用する重みを管理する配列の構成と、レベル2の学習器212-2に適用する重みを管理する配列の構成は同一とすることができる。
学習器管理部211は、輻輳レベル算出部203から通知された輻輳レベルに対応する学習器212を選択する。学習器管理部211は、当該選択した学習器212に対して学習開始を指示する。指示を受けた学習器212は、上記説明したQ学習やDQNによる強化学習を実行する。
その際、学習器212は、学習の進捗を示す指標(以下、学習度と表記する)を学習器管理部211に通知する。例えば、学習器212は、Qテーブルの更新回数や重みの更新回数を上記学習度として学習器管理部211に通知する。
学習器管理部211は、取得した学習度に基づいて、各学習器212による学習が十分進んでいるか(当該学習器が適切に判断を下すことができるようになるとされる所定の数の事象から学習パターンを学習しているか)、又は、各学習器212による学習は不十分か、を判定する。なお、本願開示において、学習器212の学習が十分進み成熟した学習情報(Qテーブル、重み)が得られている状況を「学習器は成熟している」と表記する。また、学習器212の学習が不十分であり成熟した学習情報が得られていない状況(未成熟な学習情報が得られている状況)を「学習器は未成熟である」と表記する。
具体的には、学習器管理部211は、学習器212から取得した学習度に対して閾値処理(例えば、取得した値が閾値以上または未満であるかを判定する処理)を実行し、その結果に応じて学習器212の学習状態(学習器212は成熟、未成熟)を判定する。例えば、学習器管理部211は、学習度が閾値以上であれば学習器212は成熟していると判定し、学習度が閾値よりも小さければ学習器212は成熟していないと判定する。
学習器管理部211は、上記学習状態の判定結果を記憶部206に格納された学習器管理テーブル(図13参照)に反映する。
学習器212は輻輳レベルごとに用意されるため、ネットワークの状況によっては学習の進捗に差が生じる。つまり、ε-greedy方式等により選択された行動の結果、ネットワークの状態が変化するが、当該ネットワークの変化(状態遷移)に偏りがあると算出される輻輳レベルにも偏りが生じる。輻輳レベルに偏りが生じれば、特定の学習器212は早期に成熟するが、他の学習器212の学習はほとんど進んでいないといった状況が生じうる。
そこで、学習器管理部211は、制御装置20が学習モードに遷移してから所定期間経過後、又は、所定のタイミングにて、未成熟な学習器212が存在する場合、当該未成熟な学習器212の学習を促進させる。
具体的には、学習器管理部211は、成熟している学習器212のQテーブルや重みを未成熟な学習器212のQテーブルや重みに複製する。その際、学習器管理部211は、各学習器212に割り当てられた輻輳レベルに基づいてQテーブルや重みの複製元となる学習器212を決定する。例えば、学習器管理部211は、輻輳レベルが隣接する学習器212のQテーブルや重みを未成熟な学習器212のQテーブルや重みに複製する。
例えば、図14に示すように、輻輳レベル3の学習器212が未成熟であれば、輻輳レベルが隣接する輻輳レベル2の学習器212のQテーブルや重みが学習器212の重みとして複製される。同様に、輻輳レベル4の学習器212が未成熟であれば、輻輳レベルが隣接する(図14においては右隣)成熟した学習器212のQテーブルや重みが輻輳レベル4の学習器212のQテーブルや重みとして複製される。
第1の実施形態では、輻輳レベル算出部203は、ネットワークの輻輳状態を示す輻輳レベルを算出する。複数の学習器212のそれぞれには輻輳レベルが割り当てられている。学習器管理部211は、複数の学習器212のうち成熟した第1の学習器(例えば、図14の学習器212-2)の学習情報に基づいて、未成熟な第2の学習器(例えば、図14の学習器212-3)の学習情報を設定する。その際、学習器管理部211は、上記第2の学習器に割り当てられた輻輳レベルに基づき、学習情報を設定する第1の学習器を選択する。
第1の実施形態に係る制御装置20の制御モード時の動作をまとめると図15に示すフローチャートのとおりとなる。
制御装置20は、パケットを取得し、特徴量を算出する(ステップS101)。制御装置20は、当該算出された特徴量に基づきネットワークの輻輳レベルを算出する(ステップS102)。制御装置20は、輻輳レベルに応じた学習モデルを選択する(ステップS103)。制御装置20は、上記算出された特徴量に基づきネットワークの状態を特定する(ステップS104)。制御装置20は、ステップS103にて選択された学習モデルを用いて、ネットワークの状態に応じた最も価値の高い行動によりネットワークを制御する(ステップS105)。
なお、制御装置20のネットワーク制御部204は、記憶部206に格納された学習器管理テーブル(図13参照)を参照することで、選択された学習器212が未成熟か否かを確認する。確認の結果、選択された学習器212が未成熟であれば、ネットワーク制御部204は、当該学習器212が生成した学習モデルを使用せず、制御パラメータの変更を実施しなくともよい。あるいは、ネットワーク制御部204は、選択された学習器212の輻輳レベルが隣接する学習器212を選択し、制御パラメータを決定してもよい。但し、この場合には、輻輳レベルに合致していない学習器212から得られる行動が選択されるため、ネットワーク制御部204は、当該行動に対応する制御パラメータの更新を緩やかにしてもよい。具体的には、ネットワーク制御部204は、取得した制御パラメータに1より小さい値を乗算し、制御パラメータの変更に伴うネットワーク変化への影響を抑えてもよい。
第1の実施形態に係る制御装置20の学習モード時の動作をまとめると図16、図17に示すフローチャートのとおりとなる。
図16は、学習モードにおける制御装置20の基本動作の一例を示すフローチャートである。
制御装置20は、パケットを取得し、特徴量を算出する(ステップS201)。制御装置20は、当該算出された特徴量に基づきネットワークの輻輳レベルを算出する(ステップS202)。制御装置20は、輻輳レベルに応じて学習対象の学習器212を選択する(ステップS203)。制御装置20は、選択された学習器212の学習を開始する(ステップS204)。より具体的には、選択された学習器212は、当該学習器212が選択される条件(輻輳レベル)が満足されている間に観測したパケット群(過去に観測したパケットを含むパケット群)を用いて学習する。
図17は、学習モードにおいて制御装置20が定期的又は所定のタイミングにて行う動作の一例を示すフローチャートである。
制御装置20は、所定の周期又は所定のタイミング等で、未成熟な学習器212が存在するか否かを判定する(ステップS301)。制御装置20は、未成熟な学習器212が存在し、輻輳レベルが隣接する学習器212が成熟していれば、当該成熟している学習器212による学習情報(Qテーブル、重み)を未成熟な学習器212の学習情報に複製する(ステップS302)。なお、上記所定の周期は、例えば、1時間ごと、1日ごとのような周期である。また、上記所定のタイミングは、例えば、ネットワークの状態(輻輳レベル)が切り替わる事に伴い、学習対象の学習器212が切り替わるタイミングである。
以上のように、第1の実施形態では、学習器(強化学習器)を複数用意している。その理由は、ネットワークの状態は安定や不安定など多様なパターンが存在するため、単一の学習器で学習する場合、膨大な状態空間が必要となり学習が収束しない可能性があるためである。しかしながら、複数の学習器を用いる場合、学習器間の学習進捗に偏りが発生し、未成熟な学習器(学習が十分進んでいない学習器)が増加する。そのため、学習器間の学習に関する偏りを考慮し、未成熟な学習器に対する効率的な学習方法が必要となる。
第1の実施形態に係る制御装置20は、未成熟な学習器に対して成熟した学習器の学習情報を転移することで学習期間の短縮を実現する。その際、制御装置20は、ネットワーク輻輳レベル間の関連性を考慮し、転移元の学習器を選択することでより正確な転移学習を行う。即ち、輻輳レベルが隣接する学習器が最終的に出力する学習情報(Qテーブル、重み)は多少の違いがあるにしても近い内容となることが想定される。それは、輻輳レベルが隣接するという事実は、各学習器が対象とする環境(ネットワーク)が似ていることを意味し、最適な行動を取るための学習情報もまた似ている(近い)事を示す。そこで、制御装置20は、成熟した学習器が生成した学習情報を未成熟な学習器の学習情報に設定することで、学習開始時から学習器が成熟するまでの時間(学習情報間の距離)を短くしている。その結果、未成熟な学習器に対する効率的な学習が実現される。
[第2の実施形態]
続いて、第2の実施形態について図面を参照して詳細に説明する。
第1の実施形態では、Qテーブルや重みの構成が各学習モデル間で共通であることを前提とした。しかし、輻輳レベルが異なると最適な学習モデルの構造(Qテーブルや重みの構成)が異なる可能性もある。このような場合、第1の実施形態のように、隣接する、成熟した学習器212のQテーブルや重みを未成熟な学習器212のQテーブルや重みに複製(転移、設定)することはできない。
第2の実施形態では、Qテーブルや重みの構成が異なる場合に、未成熟な学習器212の学習を促進することを説明する。
各学習器212は、学習モデルの生成に関するログ情報を算出する。具体的には、各学習器212は、学習に利用したネットワークの状態(ステータス)と行動(アクション)の組をログとして保存する。
例えば、学習器212は、図18に示すようなログを生成し、記憶部206に保存する。図18を参照すると、輻輳レベル1の学習モデルを生成する学習器212-1は、スループットと行動を含むログを生成する。同様に、輻輳レベル3の学習モデルを生成する学習器212-3は、スループットと行動を含むログを生成する。
学習器管理部211は、所定のタイミングで未成熟な学習モデル(Qテーブル、重み)が存在する場合、成熟した学習器212のログを用いて、当該未成熟な学習器212に学習を実行させる。より具体的には、学習器管理部211は、未成熟な学習器212の両隣に位置する学習器212(輻輳レベルが隣同士の学習器)が生成したログを加工し、学習用ログを生成する。
学習器管理部211は、未成熟な学習器212の両隣の学習器212が生成した2つのログのうち、行動が共通するログを抽出する。例えば、図18の例では、2つのログで行動A1、行動A2が共通するので、これらのログが抽出される。
学習器管理部211は、抽出したログのうち、同じ行動のステータスの中央値(平均値)を計算する。図18の例では、行動A1のT11MbpsとT32Mbpsの平均値と、行動A2のT12MbpsとT31Mbpsの平均値と、がそれぞれ計算される。
学習器管理部211は、上記行動とその平均値を学習ログとして生成する。例えば、図18に示すログから、図19に示すような学習用ログが生成される。学習器管理部211は、上記のようにして生成された学習用ログを未成熟な学習器212に渡し、学習させる。例えば、未成熟な学習器212-2は、図19に示す学習用ログを使って学習し、輻輳レベル2に応じた学習情報(Qテーブル、重み)を生成する。
以上のように、第2の実施形態では、複数の学習器212のうち成熟している第1及び第3の学習器(例えば、図18の例ではレベル1、3に対応する学習器)の学習情報に基づいて、第2の学習器(レベル2に対応する学習器)の学習情報を設定する。その結果、各学習器212が生成する学習情報の構成、構造が異なっていても未成熟な学習器の学習を促進できる。
続いて、通信ネットワークシステムを構成する各装置のハードウェアについて説明する。図20は、制御装置20のハードウェア構成の一例を示す図である。
制御装置20は、情報処理装置(所謂、コンピュータ)により構成可能であり、図20に例示する構成を備える。例えば、制御装置20は、プロセッサ311、メモリ312、入出力インターフェイス313及び通信インターフェイス314等を備える。上記プロセッサ311等の構成要素は内部バス等により接続され、相互に通信可能に構成されている。
但し、図20に示す構成は、制御装置20のハードウェア構成を限定する趣旨ではない。制御装置20は、図示しないハードウェアを含んでもよいし、必要に応じて入出力インターフェイス313を備えていなくともよい。また、制御装置20に含まれるプロセッサ311等の数も図20の例示に限定する趣旨ではなく、例えば、複数のプロセッサ311が制御装置20に含まれていてもよい。
プロセッサ311は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)等のプログラマブルなデバイスである。あるいは、プロセッサ311は、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等のデバイスであってもよい。プロセッサ311は、オペレーティングシステム(OS;Operating System)を含む各種プログラムを実行する。
メモリ312は、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)等である。メモリ312は、OSプログラム、アプリケーションプログラム、各種データを格納する。
入出力インターフェイス313は、図示しない表示装置や入力装置のインターフェイスである。表示装置は、例えば、液晶ディスプレイ等である。入力装置は、例えば、キーボードやマウス等のユーザ操作を受け付ける装置である。
通信インターフェイス314は、他の装置と通信を行う回路、モジュール等である。例えば、通信インターフェイス314は、NIC(Network Interface Card)等を備える。
制御装置20の機能は、各種処理モジュールにより実現される。当該処理モジュールは、例えば、メモリ312に格納されたプログラムをプロセッサ311が実行することで実現される。また、当該プログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。記憶媒体は、半導体メモリ、ハードディスク、磁気記録媒体、光記録媒体等の非トランジェント(non-transitory)なものとすることができる。即ち、本発明は、コンピュータプログラム製品として具現することも可能である。また、上記プログラムは、ネットワークを介してダウンロードするか、あるいは、プログラムを記憶した記憶媒体を用いて、更新することができる。さらに、上記処理モジュールは、半導体チップにより実現されてもよい。
なお、端末10、サーバ30も制御装置20と同様に情報処理装置により構成可能であり、その基本的なハードウェア構成は制御装置20と相違する点はないので説明を省略する。
[変形例]
なお、上記実施形態にて説明した通信ネットワークシステムの構成、動作等は例示であって、システムの構成等を限定する趣旨ではない。例えば、制御装置20は、ネットワークを制御する装置と学習モデルを生成する装置に分離されていてもよい。あるいは、学習情報(学習モデル)を記憶する記憶部206は、外部のデータベースサーバ等により実現されてもよい。即ち、本願開示は、学習手段、制御手段、記憶手段等を含むシステムとして実施されてもよい。
上記実施形態では、未成熟な学習器212の学習情報に、輻輳レベルが隣接する学習が成熟した学習器212の学習情報を複製している。しかし、未成熟な学習器212の輻輳レベルに隣接する成熟した学習器212が存在しないこともある。この場合、未成熟な学習器212と成熟した学習器212それぞれの輻輳レベルの距離に応じて、複製する学習情報に重みを付けてもよい。例えば、図21に示すように、学習器212-1、学習器212-2の学習は成熟しており、学習器212-3~212-5が未成熟な場合があり得る。この場合、学習器管理部211は、輻輳レベルが隣接する学習器212-3の学習情報には、学習器212-2の学習情報をそのまま複製する(重み=1)。学習器管理部211は、輻輳レベルが1つ離れている学習器212-4の学習情報には、学習器212-2の学習情報の価値を半分にして複製してもよい(重み=0.5)。同様に、学習器管理部211は、輻輳レベルが2つ離れている学習器212-5の学習情報には、学習器212-2の学習情報の価値を四分の一にして複製してもよい(重み=0.25)。
あるいは、1つの学習器212からの学習情報を未成熟な学習器212の学習情報に複製するのではなく、複数の成熟した学習器212が生成した学習情報が未成熟な学習器212の学習情報に設定されてもよい。その際、学習器管理部211は、輻輳レベルに応じて成熟した学習器212が生成した学習情報の影響度を変更してもよい。例えば、図22に示すように、学習器212-1~212-3が成熟、学習器212-4が未成熟な場合を考える。この場合、学習器管理部211は、輻輳レベルが未成熟な学習器212に近いほど大きな重みを与える加重平均により当該未成熟な学習器212に設定する学習情報を生成してもよい。図22の例では、輻輳レベルが隣接する学習器212-3の学習情報には「0.6」の重み、輻輳レベルが1つ離れる学習器212-2の学習情報には「0.3」の重み、輻輳レベルが2つ離れる学習器212-1の学習情報には「0.1」の重みが与えられている。
図22の例では、未成熟な学習器212の片側(左側、輻輳レベルが小さい側)に成熟した学習器212が存在する場合を説明したが、未成熟な学習器212の両側に成熟した学習器212が存在する場合にも上記と同様に学習情報を生成することもできる。具体的には、未成熟な学習器212の両隣の学習器212が成熟していれば、学習器管理部211は、当該両隣の学習器212による学習情報それぞれに重みを0.5与え、その合計値により学習情報を生成してもよい。
上記実施形態では、制御装置20は、トラヒックフローを制御の対象(制御単位)とする場合について説明した。しかし、制御装置20は、端末10単位、又は、複数の端末10をまとめたグループを制御の対象としてもよい。つまり、同じ端末10であってもアプリケーションが異なればポート番号等が異なり、異なるフローとして扱われる。制御装置20は、同じ端末10から送信されるパケットには同じ制御(制御パラメータの変更)を適用してもよい。あるいは、制御装置20は、例えば、同じ種類の端末10を1つのグループとして扱い、同じグループに属する端末10から送信されるパケットに対して同じ制御を適用してもよい。
上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、例えば各処理を並行して実行する等、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
[付記1]
それぞれが、ネットワークを制御するための行動を学習する、複数の学習器(101、212)と、
前記複数の学習器(101、212)のうち成熟した第1の学習器(101、212)の学習情報に基づいて、前記複数の学習器(101、212)のうち成熟していない第2の学習器(101、212)の学習情報を設定する、学習器管理部(102、211)と、
を備える、制御装置(20、100)。
[付記2]
前記学習器管理部(102、211)は、
前記複数の学習器(101、212)のうち成熟した第1及び第3の学習器(101、212)の学習情報に基づいて、前記第2の学習器(101、212)の学習情報を設定する、付記1に記載の制御装置(20、100)。
[付記3]
前記ネットワークの輻輳状態を示す輻輳レベルを算出する、輻輳レベル算出部をさらに備え、
前記複数の学習器(101、212)それぞれには前記輻輳レベルが割り当てられている、付記1又は2に記載の制御装置(20、100)。
[付記4]
前記学習器管理部(102、211)は、
前記第2の学習器(101、212)に割り当てられた輻輳レベルに基づき、前記学習情報を設定する第1の学習器(101、212)を選択する、付記3に記載の制御装置(20、100)。
[付記5]
前記複数の学習器それぞれが生成した学習モデルから1つの学習モデルを選択し、前記選択された学習モデルから得られる行動に基づき、前記ネットワークを制御する、制御部(204)をさらに備える、付記1乃至4のいずれか一項に記載の制御装置(20、100)。
[付記6]
複数の学習器(101、212)それぞれにおいて、ネットワークを制御するための行動を学習するステップと、
前記複数の学習器(101、212)のうち成熟した第1の学習器(101、212)の学習情報に基づいて、前記複数の学習器(101、212)のうち成熟していない第2の学習器(101、212)の学習情報を設定するステップと、
を含む方法。
[付記7]
前記学習情報を設定するステップは、
前記複数の学習器(101、212)のうち成熟した第1及び第3の学習器(101、212)の学習情報に基づいて、前記第2の学習器(101、212)の学習情報を設定する、付記6に記載の方法。
[付記8]
前記ネットワークの輻輳状態を示す輻輳レベルを算出するステップをさらに含み、
前記複数の学習器(101、212)それぞれには前記輻輳レベルが割り当てられている、付記6又は7に記載の方法。
[付記9]
前記学習情報を設定するステップは、
前記第2の学習器(101、212)に割り当てられた輻輳レベルに基づき、前記学習情報を設定する第1の学習器(101、212)を選択する、付記8に記載の方法。
[付記10]
前記複数の学習器(101、212)それぞれが生成した学習モデルから1つの学習モデルを選択し、前記選択された学習モデルから得られる行動に基づき、前記ネットワークを制御するステップをさらに含む、付記6乃至9のいずれか一項に記載の方法。
[付記11]
端末(10)と、
前記端末(10)と通信するサーバ(30)と、
前記端末(10)及び前記サーバ(30)を含むネットワークを制御する制御装置(20、100)と、
を含み、
前記制御装置(20、100)は、
それぞれが、前記ネットワークを制御するための行動を学習する、複数の学習器(101、212)と、
前記複数の学習器(101、212)のうち成熟した第1の学習器(101、212)の学習情報に基づいて、前記複数の学習器(101、212)のうち成熟していない第2の学習器(101、212)の学習情報を設定する、学習器管理部(102、211)と、
を備える、システム。
[付記12]
前記学習器管理部(102、211)は、
前記複数の学習器(101、212)のうち成熟した第1及び第3の学習器(101、212)の学習情報に基づいて、前記第2の学習器(101、212)の学習情報を設定する、付記11に記載のシステム。
[付記13]
前記ネットワークの輻輳状態を示す輻輳レベルを算出する、輻輳レベル算出部をさらに備え、
前記複数の学習器(101、212)それぞれには前記輻輳レベルが割り当てられている、付記11又は12に記載のシステム。
[付記14]
前記学習器管理部(102、211)は、
前記第2の学習器(101、212)に割り当てられた輻輳レベルに基づき、前記学習情報を設定する第1の学習器(101、212)を選択する、付記13に記載のシステム。
[付記15]
前記複数の学習器(101、212)それぞれが生成した学習モデルから1つの学習モデルを選択し、前記選択された学習モデルから得られる行動に基づき、前記ネットワークを制御する、制御部(204)をさらに備える、付記11乃至14のいずれか一項に記載のシステム。
[付記16]
コンピュータ(311)に、
複数の学習器(101、212)それぞれにおいて、ネットワークを制御するための行動を学習させる処理と、
前記複数の学習器(101、212)のうち成熟した第1の学習器(101、212)の学習情報に基づいて、前記複数の学習器(101、212)のうち成熟していない第2の学習器(101、212)の学習情報を設定する処理と、
を実行させるプログラム。
なお、引用した上記の先行技術文献の各開示は、本書に引用をもって繰り込むものとする。以上、本発明の実施形態を説明したが、本発明はこれらの実施形態に限定されるものではない。これらの実施形態は例示にすぎないということ、及び、本発明のスコープ及び精神から逸脱することなく様々な変形が可能であるということは、当業者に理解されるであろう。
10 端末
20、100 制御装置
30 サーバ
101、212、212-1~212-N 学習器
102、211 学習器管理部
201 パケット転送装置
202 特徴量算出部
203 輻輳レベル算出部
204 ネットワーク制御部
205 強化学習実行部
206 記憶部
311 プロセッサ
312 メモリ
313 入出力インターフェイス
314 通信インターフェイス

Claims (10)

  1. それぞれが、ネットワークを制御するための行動を学習する、複数の学習器と、
    前記複数の学習器のうち成熟した第1の学習器の学習情報に基づいて、前記複数の学習器のうち成熟していない第2の学習器の学習情報を設定する、学習器管理手段と、
    を備え
    前記複数の学習器は、前記ネットワークの状態レベルに応じて学習モデルを算出する、制御装置。
  2. 前記学習器管理手段は、
    前記複数の学習器のうち成熟した第1及び第3の学習器の学習情報に基づいて、前記第2の学習器の学習情報を設定する、請求項1に記載の制御装置。
  3. 複数の学習器それぞれにおいて、ネットワークを制御するための行動を学習するステップと、
    前記複数の学習器のうち成熟した第1の学習器の学習情報に基づいて、前記複数の学習器のうち成熟していない第2の学習器の学習情報を設定するステップと、
    を含み、
    前記複数の学習器は、前記ネットワークの状態レベルに応じて学習モデルを算出する方法。
  4. 前記学習情報を設定するステップは、
    前記複数の学習器のうち成熟した第1及び第3の学習器の学習情報に基づいて、前記第2の学習器の学習情報を設定する、請求項3に記載の方法。
  5. 前記ネットワークの輻輳状態を示す輻輳レベルを算出するステップをさらに含み、
    前記複数の学習器それぞれには前記輻輳レベルが割り当てられている、請求項3又は4に記載の方法。
  6. 前記複数の学習器それぞれが生成した学習モデルから1つの学習モデルを選択し、前記選択された学習モデルから得られる行動に基づき、前記ネットワークを制御するステップをさらに含む、請求項3乃至5のいずれか一項に記載の方法。
  7. 端末と、
    前記端末と通信するサーバと、
    前記端末及び前記サーバを含むネットワークを制御する制御装置と、
    を含み、
    前記制御装置は、
    それぞれが、前記ネットワークを制御するための行動を学習する、複数の学習器と、
    前記複数の学習器のうち成熟した第1の学習器の学習情報に基づいて、前記複数の学習器のうち成熟していない第2の学習器の学習情報を設定する、学習器管理手段と、
    を備え
    前記複数の学習器は、前記ネットワークの状態レベルに応じて学習モデルを算出する、システム。
  8. 前記学習器管理手段は、
    前記複数の学習器のうち成熟した第1及び第3の学習器の学習情報に基づいて、前記第2の学習器の学習情報を設定する、請求項7に記載のシステム。
  9. 前記ネットワークの輻輳状態を示す輻輳レベルを算出する、輻輳レベル算出手段をさらに備え、
    前記複数の学習器それぞれには前記輻輳レベルが割り当てられている、請求項7又は8に記載のシステム。
  10. 前記複数の学習器それぞれが生成した学習モデルから1つの学習モデルを選択し、前記選択された学習モデルから得られる行動に基づき、前記ネットワークを制御する、制御手段をさらに備える、請求項7乃至9のいずれか一項に記載のシステム。
JP2021550732A 2019-09-30 2019-09-30 制御装置、方法及びシステム Active JP7251646B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/038455 WO2021064767A1 (ja) 2019-09-30 2019-09-30 制御装置、方法及びシステム

Publications (3)

Publication Number Publication Date
JPWO2021064767A1 JPWO2021064767A1 (ja) 2021-04-08
JPWO2021064767A5 JPWO2021064767A5 (ja) 2022-06-09
JP7251646B2 true JP7251646B2 (ja) 2023-04-04

Family

ID=75337004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021550732A Active JP7251646B2 (ja) 2019-09-30 2019-09-30 制御装置、方法及びシステム

Country Status (3)

Country Link
US (1) US20220343220A1 (ja)
JP (1) JP7251646B2 (ja)
WO (1) WO2021064767A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4175370A3 (en) * 2021-10-28 2023-08-30 Nokia Solutions and Networks Oy Power saving in radio access network
JP2023165310A (ja) * 2022-05-02 2023-11-15 三菱重工業株式会社 学習装置、学習方法及び学習プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009027303A (ja) 2007-07-18 2009-02-05 Univ Of Electro-Communications 通信装置および通信方法
JP2013106202A (ja) 2011-11-14 2013-05-30 Fujitsu Ltd パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法
JP2018106466A (ja) 2016-12-27 2018-07-05 株式会社日立製作所 制御装置及び制御方法
JP2019041338A (ja) 2017-08-28 2019-03-14 日本電信電話株式会社 無線通信システム、無線通信方法および集中制御局
US20190141113A1 (en) 2017-11-03 2019-05-09 Salesforce.Com, Inc. Simultaneous optimization of multiple tcp parameters to improve download outcomes for network-based mobile applications

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009027303A (ja) 2007-07-18 2009-02-05 Univ Of Electro-Communications 通信装置および通信方法
JP2013106202A (ja) 2011-11-14 2013-05-30 Fujitsu Ltd パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法
JP2018106466A (ja) 2016-12-27 2018-07-05 株式会社日立製作所 制御装置及び制御方法
JP2019041338A (ja) 2017-08-28 2019-03-14 日本電信電話株式会社 無線通信システム、無線通信方法および集中制御局
US20190141113A1 (en) 2017-11-03 2019-05-09 Salesforce.Com, Inc. Simultaneous optimization of multiple tcp parameters to improve download outcomes for network-based mobile applications

Also Published As

Publication number Publication date
WO2021064767A1 (ja) 2021-04-08
JPWO2021064767A1 (ja) 2021-04-08
US20220343220A1 (en) 2022-10-27

Similar Documents

Publication Publication Date Title
Wei et al. Joint optimization of caching, computing, and radio resources for fog-enabled IoT using natural actor–critic deep reinforcement learning
CN111090631B (zh) 分布式环境下的信息共享方法、装置和电子设备
JP7251646B2 (ja) 制御装置、方法及びシステム
Altman et al. The evolution of transport protocols: An evolutionary game perspective
Math et al. Reliable federated learning systems based on intelligent resource sharing scheme for big data internet of things
Hou et al. An intelligent transaction migration scheme for RAFT-based private blockchain in Internet of Things applications
CN112667400A (zh) 边缘自治中心管控的边云资源调度方法、装置及系统
CN113966596A (zh) 用于数据流量路由的方法和设备
Xu et al. An actor-critic-based transfer learning framework for experience-driven networking
JP7259978B2 (ja) 制御装置、方法及びシステム
CN111211984B (zh) 优化cdn网络的方法、装置及电子设备
Jin et al. A congestion control method of SDN data center based on reinforcement learning
CN113992527A (zh) 网络服务功能链在线迁移方法及系统
Tosounidis et al. Deep Q-learning for load balancing traffic in SDN networks
Wei et al. GRL-PS: Graph embedding-based DRL approach for adaptive path selection
CN114090108A (zh) 算力任务执行方法、装置、电子设备及存储介质
Liu et al. ScaleFlux: Efficient stateful scaling in NFV
JP7251647B2 (ja) 制御装置、制御方法及びシステム
Afrasiabi et al. Reinforcement learning-based optimization framework for application component migration in NFV cloud-fog environments
Henna et al. Distributed and collaborative high-speed inference deep learning for mobile edge with topological dependencies
JP7347525B2 (ja) システム、方法及び制御装置
CN115225512B (zh) 基于节点负载预测的多域服务链主动重构机制
CN113672372B (zh) 一种基于强化学习的多边缘协同负载均衡任务调度方法
Vaezpour Deep learning-driven multi-objective dynamic switch migration in software defined networking (SDN)/network function virtualization (NFV)-based 5G networks
CN113170001A (zh) 适配在网关上执行的软件应用程序

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220329

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230306

R151 Written notification of patent or utility model registration

Ref document number: 7251646

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151