JP7251646B2

JP7251646B2 - 制御装置、方法及びシステム

Info

Publication number: JP7251646B2
Application number: JP2021550732A
Authority: JP
Inventors: 亜南沢辺; 孝法岩井; 航生小林
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2023-04-04
Anticipated expiration: 2039-09-30
Also published as: WO2021064767A1; JPWO2021064767A1; US20220343220A1

Description

本発明は、制御装置、方法及びシステムに関する。

通信技術、情報処理技術の進展に伴い様々なサービスがネットワーク上にて提供される状況にある。例えば、ネットワーク上のサーバから動画データが配信され、端末にて当該動画データを再生することや、サーバから工場等に設置されたロボット等を遠隔制御することが行われている。

近年、深層学習（ディープラーニング）に代表される機械学習に関する技術の進展が目覚ましい。例えば、特許文献１には、学習制御システムに関して、不完全情報下でも、学習効率を向上でき、システム全体の最適化を図ることができる技術を提供する、と記載されている。また、特許文献２には、環境から報酬と教師信号とが与えられる場合に、その両方を有効に利用することによって、学習効率を高めることのできる学習装置を提供する、と記載されている。

近年では、機械学習の有用性から、種々の分野への機械学習の適用が検討されている。例えば、チェス等のゲームやロボット等の制御に機械学習を適用することが検討されている。ゲームの運用に機械学習を適用する場合には、ゲーム内のスコアの最大化が報酬に設定され、機械学習の性能が評価される。また、ロボットの制御では、目標動作の実現が報酬に設定され、機械学習の性能が評価される。通常、機械学習（強化学習）では、即時報酬及びエピソード単位の報酬の総和により学習の性能が議論される。

特開２０１９－０４６４２２号公報特開２００２－１３３３９０号公報

上記ゲームやロボットを対象とした機械学習では、その状態は比較的簡単に定めることができる。例えば、チェスの場合ではボード上のマス目が状態に設定され、ロボットの制御ではアーム等の離散化された位置（角度）が状態に設定される。

しかし、ネットワークの制御に機械学習を適用する場合には、簡単にネットワークの状態を設定することができない。例えば、ネットワークの状態をスループットで特徴付ける場合を考える。スループットは、時間的に大きく変動する不安定な状況となったり、特定の値に収束している安定な状況となったりする。即ち、ネットワークの状態は安定状態や不安定な状態等、多様なパターンが存在し、ゲームのようにボードのマス目から状態を定めるような画一的な対応はできない。

本発明は、機械学習を用いた効率的なネットワークの制御を実現することに寄与する、制御装置、方法及びシステムを提供することを主たる目的とする。

本発明の第１の視点によれば、それぞれが、ネットワークを制御するための行動を学習する、複数の学習器と、前記複数の学習器のうち成熟した第１の学習器の学習情報に基づいて、前記複数の学習器のうち成熟していない第２の学習器の学習情報を設定する、学習器管理部と、を備える、制御装置が提供される。

本発明の第２の視点によれば、複数の学習器それぞれにおいて、ネットワークを制御するための行動を学習するステップと、前記複数の学習器のうち成熟した第１の学習器の学習情報に基づいて、前記複数の学習器のうち成熟していない第２の学習器の学習情報を設定するステップと、を含む方法が提供される。

本発明の第３の視点によれば、端末と、前記端末と通信するサーバと、前記端末及び前記サーバを含むネットワークを制御する制御装置と、を含み、前記制御装置は、それぞれが、前記ネットワークを制御するための行動を学習する、複数の学習器と、前記複数の学習器のうち成熟した第１の学習器の学習情報に基づいて、前記複数の学習器のうち成熟していない第２の学習器の学習情報を設定する、学習器管理部と、を備える、システムが提供される。

本発明の各視点によれば、機械学習を用いた効率的なネットワークの制御を実現することに寄与する、制御装置、方法及びシステムが提供される。なお、本発明により、当該効果の代わりに、又は当該効果と共に、他の効果が奏されてもよい。

一実施形態の概要を説明するための図である。一実施形態に係る制御装置の動作の一例を示すフローチャートである。第１の実施形態に係る通信ネットワークシステムの概略構成の一例を示す図である。Ｑテーブルの一例を示す図である。ニューラルネットワークの構成の一例を示す図である。強化学習により得られる重みの一例を示す図である。第１の実施形態に係る制御装置の処理構成の一例を示す図である。スループットと輻輳レベルを対応付けた情報の一例を示す図である。スループット、パケットロス率と輻輳レベルを対応付けた情報の一例を示す図である。特徴量とネットワークの状態を対応付ける情報の一例を示す図である。行動と制御内容を対応付けたテーブル情報の一例を示す図である。強化学習実行部の内部構成の一例を示す図である。学習器管理テーブルの一例を示す図である。学習器管理部の動作を説明するための図である。第１の実施形態に係る制御装置の制御モード時の動作の一例を示すフローチャートである。第１の実施形態に係る制御装置の学習モード時の動作の一例を示すフローチャートである。第１の実施形態に係る制御装置の学習モード時の動作の一例を示すフローチャートである。学習器が生成するログの一例を示す図である。学習器管理部の動作を説明するための図である。制御装置のハードウェア構成の一例を示す図である。学習器管理部の動作を説明するための図である。学習器管理部の動作を説明するための図である。

はじめに、一実施形態の概要について説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、この概要の記載はなんらの限定を意図するものではない。なお、本明細書及び図面において、同様に説明されることが可能な要素については、同一の符号を付することにより重複説明が省略され得る。

一実施形態に係る制御装置１００は、複数の学習器１０１と学習器管理部１０２を含む（図１参照）。複数の学習器１０１のそれぞれは、ネットワークを制御するための行動を学習する（図２のステップＳ０１）。学習器管理部１０２は、複数の学習器１０１のうち成熟した第１の学習器１０１の学習情報に基づいて、複数の学習器１０１のうち成熟していない第２の学習器１０１の学習情報を設定する（図２のステップＳ０２）。

ネットワークの状態は安定や不安定など多様なパターンが存在するため、単一の学習器で学習する場合、膨大な状態空間が必要となり学習が収束しない可能性がある。そこで、制御装置１００は、複数の学習器１０１を用いてネットワークの状態を制御する行動を学習する。しかし、複数の学習器１０１を用いる場合、各学習器１０１における学習進捗に偏りが発生し、未成熟な学習器１０１（学習が十分進んでいない学習器１０１）が増加する。そこで、制御装置１００は、未成熟な学習器１０１の学習情報（例えば、Ｑテーブル、重み）に成熟した学習器１０１の学習情報を設定し、上記未成熟な学習器１０１の学習を促進する。その結果、成熟した学習器１０１を早期に得ることが可能となり、機械学習を用いた効率的なネットワークの制御が実現できる。

以下に具体的な実施形態について、図面を参照してさらに詳しく説明する。

［第１の実施形態］
第１の実施形態について、図面を用いてより詳細に説明する。

図３は、第１の実施形態に係る通信ネットワークシステムの概略構成の一例を示す図である。図３を参照すると、通信ネットワークシステムは、端末１０と、制御装置２０と、サーバ３０と、を含んで構成される。

端末１０は、通信機能を有する装置である。端末１０には、ＷＥＢ（ウェブ）カメラ、監視カメラ、ドローン、スマートフォン、ロボット等が例示される。但し、端末１０を上記ＷＥＢカメラ等に限定する趣旨ではない。端末１０は、通信機能を備える任意の装置とすることができる。

端末１０は、制御装置２０を介してサーバ３０と通信する。端末１０とサーバ３０により様々なアプリケーション、サービスが提供される。

例えば、端末１０がＷＥＢカメラの場合には、サーバ３０が当該ＷＥＢカメラからの画像データを解析し、工場等の資材管理が行われる。例えば、端末１０がドローンの場合には、サーバ３０からドローンに制御コマンドが送信され、ドローンが荷物等を搬送する。例えば、端末１０がスマートフォンの場合には、サーバ３０からスマートフォンに向けて動画が配信され、ユーザはスマートフォンを用いて動画を視聴する。

制御装置２０は、例えば、プロキシサーバやゲートウェイ等の通信機器であり、端末１０とサーバ３０からなるネットワークを制御する装置である。制御装置２０は、ＴＣＰ（Transmission Control Protocol）のパラメータ群やバッファ制御に関するパラメータ群の値を変更し、ネットワークを制御する。

例えば、ＴＣＰパラメータの制御としては、フローウィンドウサイズの変更が例示される。バッファ制御としては、複数バッファのキュー管理において、最低保証帯域、ＲＥＤ（Random Early Detection）のロス率、ロス開始キュー長、バッファ長に関するパラメータの変更が例示される。

なお、以降の説明において、上記ＴＣＰパラメータやバッファ制御に関するパラメータ等、端末１０とサーバ３０の間の通信（トラヒック）に影響を与えるパラメータを「制御パラメータ」と表記する。

制御装置２０は、制御パラメータを変更することで、ネットワークを制御する。制御装置２０によるネットワークの制御は、自装置（制御装置２０）のパケット転送時に行われてもよいし、端末１０やサーバ３０に制御パラメータの変更を指示することにより行われてもよい。

ＴＣＰセッションが制御装置２０により終端される場合には、例えば、制御装置２０は、端末１０との間で形成されるＴＣＰセッションのフローウィンドウサイズを変更することで、ネットワークを制御する。制御装置２０は、サーバ３０から受信したパケットを格納するバッファのサイズを変更したり、当該バッファからパケットを読み出す周期を変更したりしてネットワークを制御してもよい。

制御装置２０は、ネットワークの制御に「機械学習」を用いる。より具体的には、制御装置２０は、強化学習により得られる学習モデルに基づきネットワークを制御する。

強化学習には、種々のバリエーションが存在するが、例えば、制御装置２０は、Ｑ学習と称される強化学習の結果得られる学習情報（Ｑテーブル）に基づきネットワークを制御してもよい。

［Ｑ学習］
以下、Ｑ学習について概説する。

Ｑ学習では、与えられた「環境」における「価値」を最大化するように、「エージェント」を学習させる。当該Ｑ学習をネットワークシステムに適用すると、端末１０やサーバ３０を含むネットワークが「環境」であり、ネットワークの状態を最良にするように、制御装置２０を学習させる。

Ｑ学習では、状態（ステート）ｓ、行動（アクション）ａ、報酬（リワード）ｒの３要素が定義される。

状態ｓは、環境（ネットワーク）がどのような状態にあるかを示す。例えば、通信ネットワークシステムの場合には、トラヒック（例えば、スループット、平均パケット到着間隔等）が状態ｓに該当する。

行動ａは、エージェント（制御装置２０）が環境（ネットワーク）に対して取り得る行動を示す。例えば、通信ネットワークシステムの場合には、ＴＣＰパラメータ群の設定の変更や機能のオン／オフ等が行動ａとして例示される。

報酬ｒは、ある状態ｓにおいてエージェント（制御装置２０）が行動ａを実行した結果、どの程度の評価が得られるかを示す。例えば、通信ネットワークシステムの場合には、制御装置２０が、ＴＣＰパラメータ群の一部を変更した結果、スループットが上昇すれば正の報酬、スループットが下降すれば負の報酬の様に定められる。

Ｑ学習では、現在時点で得られる報酬（即時報酬）を最大化するのではなく、将来に亘る価値を最大化するように学習が進められる（Ｑテーブルが構築される）。Ｑ学習におけるエージェントの学習は、ある状態ｓにおける行動ａを採用した時の価値（Ｑ値、状態行動価値）を最大化するように行われる。

Ｑ値（状態行動価値）は、Ｑ（ｓ、ａ）と表記される。Ｑ学習では、エージェントが行動することによって価値の高い状態に遷移させる行動は、遷移先と同程度の価値を持つことを前提としている。このような前提により、現時点ｔにおけるＱ値は、次の時点ｔ＋１のＱ値により表現することができる（式（１）参照）。

なお、式（１）においてｒ_ｔ＋１は即時報酬、Ｅｓ_ｔ＋１は状態Ｓ_ｔ＋１に関する期待値、Ｅａ_ｔ＋１は行動ａ_ｔ＋１に関する期待値を示す。γは割引率である。

Ｑ学習では、ある状態ｓにおいて行動ａを採用した結果によりＱ値を更新する。具体的には、下記の式（２）に従いＱ値を更新する。

式（２）において、αは学習率と称されるパラメータであり、Ｑ値の更新を制御する。また、式（２）における「ｍａｘ」は状態Ｓ_ｔ＋１の取り得る行動ａのうち最大値を出力する関数である。なお、エージェント（制御装置２０）が行動ａを選択する方式には、ε-ｇｒｅｅｄｙと称される方式を採用することができる。

ε-ｇｒｅｅｄｙ方式では、確率εでランダムに行動を選択し、確率１－εで最も価値の高い行動を選択する。Ｑ学習の実行により、図４に示すようなＱテーブルが生成される。

［ＤＱＮによる学習］
制御装置２０は、ＤＱＮ（Deep Q Network）と称される深層学習（ディープラーニング）を使った強化学習の結果得られる学習モデルに基づきネットワークを制御してもよい。Ｑ学習では、Ｑテーブルにより行動価値関数を表現しているが、ＤＱＮでは、ディープラーニングにより行動価値関数を表現する。ＤＱＮでは、最適行動価値関数を、ニューラルネットワークを使った近似関数により算出する。

なお、最適行動価値関数とは、ある状態ｓ時にある行動ａを行うことの価値を出力する関数である。

ニューラルネットワークは、入力層、中間層（隠れ層）、出力層を備える。入力層は、状態ｓを入力する。中間層の各ノードのリンクには、対応する重みが存在する。出力層は、行動ａの価値を出力する。

例えば、図５に示すようなニューラルネットワークの構成を考える。図５に示すニューラルネットワークを通信ネットワークシステムに適用すると、入力層のノードは、ネットワークの状態Ｓ１～Ｓ３に相当する。入力層に入力されたネットワークの状態は、中間層にて重み付けされ、出力層に出力される。

出力層のノードは、制御装置２０が取り得る行動Ａ１～Ａ３に相当する。出力層のノードは、行動Ａ１～Ａ３のそれぞれに対応する行動価値関数Ｑ（ｓ_ｔ、ａ_ｔ）の値を出力する。

ＤＱＮでは、上記行動価値関数を出力するノード間の結合パラメータ（重み）を学習する。具体的には、下記の式（３）に示す誤差関数を設定しバックプロパゲーションにより学習を行う。

ＤＱＮによる強化学習の実行により、用意されたニューラルネットワークの中間層の構成に対応した学習情報（重み）が生成される（図６参照）。

ここで、制御装置２０の動作モードには、２つの動作モードが含まれる。

第１の動作モードは、学習モデルを算出する学習モードである。制御装置２０が「Ｑ学習」を実行することで、図４に示すようなＱテーブルが算出される。あるいは、制御装置２０が「ＤＱＮ」による強化学習を実行することで、図６に示すような重みが算出される。

第２の動作モードは、学習モードにて算出された学習モデルを用いてネットワークを制御する制御モードである。具体的には、制御モードの制御装置２０は、現在のネットワークの状態ｓを算出し、当該状態ｓの場合に取り得る行動ａのうち最も価値の高い行動ａを選択する。制御装置２０は、当該選択された行動ａに対応する動作（ネットワークの制御）を実行する。

第１の実施形態に係る制御装置２０は、ネットワークの輻輳状態ごとに学習モデルを算出する。例えば、ネットワークの輻輳状態を３段階に区分する場合には、それぞれの輻輳状態に対応する３つの学習モデルが算出される。なお、以降の説明において、ネットワークの輻輳状態を「輻輳レベル」と表記する。

制御装置２０は、学習モードにおいて、各輻輳レベルに対応する学習モデル（Ｑテーブル、重み等の学習情報）を算出する。制御装置２０は、複数の学習モデル（輻輳レベルごとの学習モデル）のうち現在の輻輳レベルに相当する学習モデルを選択し、ネットワークの制御を行う。

図７は、第１の実施形態に係る制御装置２０の処理構成（処理モジュール）の一例を示す図である。図７を参照すると、制御装置２０は、パケット転送部２０１と、特徴量算出部２０２と、輻輳レベル算出部２０３と、ネットワーク制御部２０４と、強化学習実行部２０５と、記憶部２０６と、を含んで構成される。

パケット転送部２０１は、端末１０やサーバ３０から送信されたパケットを受信し、当該受信したパケットを対向する装置に転送する手段である。パケット転送部２０１は、ネットワーク制御部２０４からの通知された制御パラメータに従い、パケット転送を行う。

例えば、ネットワーク制御部２０４からフローウィンドウサイズの設定値が通知されると、パケット転送部２０１は当該通知されたフローウィンドウサイズにてパケット転送を行う。

パケット転送部２０１は、受信したパケットの複製を特徴量算出部２０２に引き渡す。

特徴量算出部２０２は、端末１０とサーバ３０の間の通信トラヒックを特徴付ける特徴量を算出する手段である。特徴量算出部２０２は、取得したパケットからネットワーク制御の対象となるトラヒックフローを抽出する。なお、ネットワーク制御の対象となるトラヒックフローは、送信元ＩＰ（Internet Protocol）アドレス、宛先ＩＰアドレス、ポート番号等が同一のパケットからなるグループである。

特徴量算出部２０２は、抽出したトラヒックフローから上記特徴量を算出する。例えば、特徴量算出部２０２は、スループット、平均パケット到着間隔、パケットロス率、ジッター等を特徴量として算出する。特徴量算出部２０２は、算出した特徴量を算出時刻と共に記憶部２０６に格納する。なお、スループット等の算出については既存の技術を用いることができ、且つ、当業者にとって明らかであるのでその詳細な説明を省略する。

輻輳レベル算出部２０３は、特徴量算出部２０２が算出した特徴量に基づき、ネットワークの輻輳度合いを示す輻輳レベルを算出する。例えば、輻輳レベル算出部２０３は、特徴量（例えば、スループット）が含まれる範囲により輻輳レベルを算出してもよい。例えば、輻輳レベル算出部２０３は、図８に示すようなテーブル情報に基づき輻輳レベルを算出してもよい。

図８の例では、スループットＴが、閾値ＴＨ１以上、且つ、閾値ＴＨ２未満であれば輻輳レベルは「２」と算出される。

輻輳レベル算出部２０３は、複数の特徴量に基づき輻輳レベルを算出してもよい。例えば、輻輳レベル算出部２０３は、スループットとパケットロス率を用いて、輻輳レベルを算出してもよい。この場合、輻輳レベル算出部２０３は、図９に示すようなテーブル情報に基づき輻輳レベルを算出する。例えば、図９の例では、スループットＴが「ＴＨ１１≦Ｔ＜ＴＨ１２」の範囲に含まれ、且つ、パケットロス率が「ＴＨ２１≦Ｌ＜ＴＨ２２」の範囲に含まれる場合には、輻輳レベルは「２」と算出される。

輻輳レベル算出部２０３は、算出した輻輳レベルをネットワーク制御部２０４、強化学習実行部２０５に引き渡す。

ネットワーク制御部２０４は、強化学習実行部２０５が生成した学習モデルから得られる行動に基づき、ネットワークを制御する手段である。ネットワーク制御部２０４は、強化学習の結果得られる学習モデルに基づきパケット転送部２０１に通知する制御パラメータを決定する。その際、ネットワーク制御部２０４は、複数の学習モデルから１つの学習モデルを選択し、当該選択された学習モデルから得られる行動に基づき、ネットワークを制御する。ネットワーク制御部２０４は、主に制御モード時に動作するモジュールである。

ネットワーク制御部２０４は、輻輳レベル算出部２０３から通知を受けた輻輳レベルに応じた学習モデル（Ｑテーブル、重み）を選択する。次に、ネットワーク制御部２０４は、記憶部２０６から最新の（現在時刻の）特徴量を読み出す。

ネットワーク制御部２０４は、当該読み出した特徴量から制御対象となっているネットワークの状態を推定（算出）する。例えば、ネットワーク制御部２０４は、特徴量Ｆとネットワークの状態を対応付けたテーブル（図１０参照）を参照し、現在の特徴量Ｆに対応するネットワークの状態を算出する。

なお、トラヒックは端末１０とサーバ３０の間の通信により生じるものであるから、ネットワークの状態は「トラヒックの状態」と捉えることもできる。即ち、本願開示において、「トラヒックの状態」と「ネットワークの状態」は相互に読み替えが可能である。

また、図１０には、輻輳レベルとは無関係に特徴量Ｆからネットワークの状態を算出する場合を示しているが、輻輳レベルごとに特徴量とネットワークの状態が対応付けられていてもよい。

Ｑ学習により学習モデルが構築された場合には、ネットワーク制御部２０４は、上記輻輳レベルに応じて選択されたＱテーブルを参照し、現在のネットワーク状態に対応する各行動（アクション）のうち価値Ｑが最も高い行動を取得する。例えば、図４の例では、算出されたトラヒックの状態が「状態Ｓ１」であり、価値Ｑ（Ｓ１、Ａ１）、Ｑ（Ｓ１、Ａ２）、Ｑ（Ｓ１、Ａ３）のうち価値Ｑ（Ｓ１、Ａ１）が最大であれば、行動Ａ１が読み出される。

あるいは、ＤＱＮにより学習モデルが構築された場合には、ネットワーク制御部２０４は、図５に示すようなニューラルネットワークに輻輳レベルに応じて選択された重みを適用する。ネットワーク制御部２０４は、当該ニューラルネットワークに現在のネットワーク状態を入力し、取り得る行動のうち最も価値の高い行動を取得する。

ネットワーク制御部２０４は、取得した行動に応じて制御パラメータを決定し、パケット転送部２０１に設定（通知）する。なお、記憶部２０６には、行動と制御内容を対応付けたテーブル（図１１参照）が格納され、ネットワーク制御部２０４は、当該テーブルを参照してパケット転送部２０１に設定する制御パラメータを決定する。

例えば、図１１に示すように、制御パラメータの変更内容（更新内容）が制御内容として記載されている場合には、ネットワーク制御部２０４は、当該変更内容に応じた制御パラメータをパケット転送部２０１に通知する。

強化学習実行部２０５は、ネットワークを制御するための行動（制御パラメータ）を学習する手段である。強化学習実行部２０５は、上記説明したＱ学習やＤＱＮによる強化学習を実行し、学習モデルを生成する。強化学習実行部２０５は、主に学習モード時に動作するモジュールである。

強化学習実行部２０５は、記憶部２０６に格納された特徴量から現在時刻ｔのネットワークの状態ｓを算出する。強化学習実行部２０５は、算出した状態ｓの取り得る行動ａのなかから上記ε-ｇｒｅｅｄｙ方式のような方法で行動ａを選択する。強化学習実行部２０５は、当該選択した行動に対応する制御内容（制御パラメータの更新値）をパケット転送部２０１に通知する。強化学習実行部２０５は、上記行動に応じたネットワークの変化に応じて報酬を定める。

例えば、強化学習実行部２０５は、行動ａを起こした結果、スループットが上昇すれば、式（２）や式（３）に記載された報酬ｒ_ｔ＋１に正の値を設定する。対して、強化学習実行部２０５は、行動ａを起こした結果、スループットが下降すれば、式（２）や式（３）に記載された報酬ｒ_ｔ＋１に負の値を設定する。

強化学習実行部２０５は、輻輳レベルごとに学習モデルを生成する。

図１２は、強化学習実行部２０５の内部構成の一例を示す図である。図１２を参照すると、強化学習実行部２０５は、学習器管理部２１１と、複数の学習器２１２－１～２１２－Ｎ（Ｎは正の整数、以下同じ）と、を含んで構成される。

なお、以降の説明において、複数の学習器２１２－１～２１２－Ｎを区別する特段の理由がない場合には、単に「学習器２１２」と表記する。

学習器管理部２１１は、学習器２１２の動作を管理する手段である。

複数の学習器２１２のそれぞれは、ネットワークを制御するための行動を学習する。学習器２１２は、輻輳レベルごとに用意される。図１２では、対応する輻輳レベルを括弧書きで記載している。

学習器２１２は、輻輳レベルごとの学習モデル（Ｑテーブル、ニューラルネットワークに適用する重み）を算出し、記憶部２０６に格納する。

第１の実施形態では、輻輳レベルごとに用意された各学習器２１２のＱテーブルの構成やニューラルネットワーク構成は同一であるものとする。つまり、輻輳レベルごとに生成されるＱテーブルの要素数（状態ｓ、行動ａの数）は同一である。また、輻輳レベルごとに生成される重みを記憶する配列の構造は同じである。

例えば、レベル１の学習器２１２－１に適用する重みを管理する配列の構成と、レベル２の学習器２１２－２に適用する重みを管理する配列の構成は同一とすることができる。

学習器管理部２１１は、輻輳レベル算出部２０３から通知された輻輳レベルに対応する学習器２１２を選択する。学習器管理部２１１は、当該選択した学習器２１２に対して学習開始を指示する。指示を受けた学習器２１２は、上記説明したＱ学習やＤＱＮによる強化学習を実行する。

その際、学習器２１２は、学習の進捗を示す指標（以下、学習度と表記する）を学習器管理部２１１に通知する。例えば、学習器２１２は、Ｑテーブルの更新回数や重みの更新回数を上記学習度として学習器管理部２１１に通知する。

学習器管理部２１１は、取得した学習度に基づいて、各学習器２１２による学習が十分進んでいるか（当該学習器が適切に判断を下すことができるようになるとされる所定の数の事象から学習パターンを学習しているか）、又は、各学習器２１２による学習は不十分か、を判定する。なお、本願開示において、学習器２１２の学習が十分進み成熟した学習情報（Ｑテーブル、重み）が得られている状況を「学習器は成熟している」と表記する。また、学習器２１２の学習が不十分であり成熟した学習情報が得られていない状況（未成熟な学習情報が得られている状況）を「学習器は未成熟である」と表記する。

具体的には、学習器管理部２１１は、学習器２１２から取得した学習度に対して閾値処理（例えば、取得した値が閾値以上または未満であるかを判定する処理）を実行し、その結果に応じて学習器２１２の学習状態（学習器２１２は成熟、未成熟）を判定する。例えば、学習器管理部２１１は、学習度が閾値以上であれば学習器２１２は成熟していると判定し、学習度が閾値よりも小さければ学習器２１２は成熟していないと判定する。

学習器管理部２１１は、上記学習状態の判定結果を記憶部２０６に格納された学習器管理テーブル（図１３参照）に反映する。

学習器２１２は輻輳レベルごとに用意されるため、ネットワークの状況によっては学習の進捗に差が生じる。つまり、ε-ｇｒｅｅｄｙ方式等により選択された行動の結果、ネットワークの状態が変化するが、当該ネットワークの変化（状態遷移）に偏りがあると算出される輻輳レベルにも偏りが生じる。輻輳レベルに偏りが生じれば、特定の学習器２１２は早期に成熟するが、他の学習器２１２の学習はほとんど進んでいないといった状況が生じうる。

そこで、学習器管理部２１１は、制御装置２０が学習モードに遷移してから所定期間経過後、又は、所定のタイミングにて、未成熟な学習器２１２が存在する場合、当該未成熟な学習器２１２の学習を促進させる。

具体的には、学習器管理部２１１は、成熟している学習器２１２のＱテーブルや重みを未成熟な学習器２１２のＱテーブルや重みに複製する。その際、学習器管理部２１１は、各学習器２１２に割り当てられた輻輳レベルに基づいてＱテーブルや重みの複製元となる学習器２１２を決定する。例えば、学習器管理部２１１は、輻輳レベルが隣接する学習器２１２のＱテーブルや重みを未成熟な学習器２１２のＱテーブルや重みに複製する。

例えば、図１４に示すように、輻輳レベル３の学習器２１２が未成熟であれば、輻輳レベルが隣接する輻輳レベル２の学習器２１２のＱテーブルや重みが学習器２１２の重みとして複製される。同様に、輻輳レベル４の学習器２１２が未成熟であれば、輻輳レベルが隣接する（図１４においては右隣）成熟した学習器２１２のＱテーブルや重みが輻輳レベル４の学習器２１２のＱテーブルや重みとして複製される。

第１の実施形態では、輻輳レベル算出部２０３は、ネットワークの輻輳状態を示す輻輳レベルを算出する。複数の学習器２１２のそれぞれには輻輳レベルが割り当てられている。学習器管理部２１１は、複数の学習器２１２のうち成熟した第１の学習器（例えば、図１４の学習器２１２－２）の学習情報に基づいて、未成熟な第２の学習器（例えば、図１４の学習器２１２－３）の学習情報を設定する。その際、学習器管理部２１１は、上記第２の学習器に割り当てられた輻輳レベルに基づき、学習情報を設定する第１の学習器を選択する。

第１の実施形態に係る制御装置２０の制御モード時の動作をまとめると図１５に示すフローチャートのとおりとなる。

制御装置２０は、パケットを取得し、特徴量を算出する（ステップＳ１０１）。制御装置２０は、当該算出された特徴量に基づきネットワークの輻輳レベルを算出する（ステップＳ１０２）。制御装置２０は、輻輳レベルに応じた学習モデルを選択する（ステップＳ１０３）。制御装置２０は、上記算出された特徴量に基づきネットワークの状態を特定する（ステップＳ１０４）。制御装置２０は、ステップＳ１０３にて選択された学習モデルを用いて、ネットワークの状態に応じた最も価値の高い行動によりネットワークを制御する（ステップＳ１０５）。

なお、制御装置２０のネットワーク制御部２０４は、記憶部２０６に格納された学習器管理テーブル（図１３参照）を参照することで、選択された学習器２１２が未成熟か否かを確認する。確認の結果、選択された学習器２１２が未成熟であれば、ネットワーク制御部２０４は、当該学習器２１２が生成した学習モデルを使用せず、制御パラメータの変更を実施しなくともよい。あるいは、ネットワーク制御部２０４は、選択された学習器２１２の輻輳レベルが隣接する学習器２１２を選択し、制御パラメータを決定してもよい。但し、この場合には、輻輳レベルに合致していない学習器２１２から得られる行動が選択されるため、ネットワーク制御部２０４は、当該行動に対応する制御パラメータの更新を緩やかにしてもよい。具体的には、ネットワーク制御部２０４は、取得した制御パラメータに１より小さい値を乗算し、制御パラメータの変更に伴うネットワーク変化への影響を抑えてもよい。

第１の実施形態に係る制御装置２０の学習モード時の動作をまとめると図１６、図１７に示すフローチャートのとおりとなる。

図１６は、学習モードにおける制御装置２０の基本動作の一例を示すフローチャートである。

制御装置２０は、パケットを取得し、特徴量を算出する（ステップＳ２０１）。制御装置２０は、当該算出された特徴量に基づきネットワークの輻輳レベルを算出する（ステップＳ２０２）。制御装置２０は、輻輳レベルに応じて学習対象の学習器２１２を選択する（ステップＳ２０３）。制御装置２０は、選択された学習器２１２の学習を開始する（ステップＳ２０４）。より具体的には、選択された学習器２１２は、当該学習器２１２が選択される条件（輻輳レベル）が満足されている間に観測したパケット群（過去に観測したパケットを含むパケット群）を用いて学習する。

図１７は、学習モードにおいて制御装置２０が定期的又は所定のタイミングにて行う動作の一例を示すフローチャートである。

制御装置２０は、所定の周期又は所定のタイミング等で、未成熟な学習器２１２が存在するか否かを判定する（ステップＳ３０１）。制御装置２０は、未成熟な学習器２１２が存在し、輻輳レベルが隣接する学習器２１２が成熟していれば、当該成熟している学習器２１２による学習情報（Ｑテーブル、重み）を未成熟な学習器２１２の学習情報に複製する（ステップＳ３０２）。なお、上記所定の周期は、例えば、１時間ごと、１日ごとのような周期である。また、上記所定のタイミングは、例えば、ネットワークの状態（輻輳レベル）が切り替わる事に伴い、学習対象の学習器２１２が切り替わるタイミングである。

以上のように、第１の実施形態では、学習器（強化学習器）を複数用意している。その理由は、ネットワークの状態は安定や不安定など多様なパターンが存在するため、単一の学習器で学習する場合、膨大な状態空間が必要となり学習が収束しない可能性があるためである。しかしながら、複数の学習器を用いる場合、学習器間の学習進捗に偏りが発生し、未成熟な学習器（学習が十分進んでいない学習器）が増加する。そのため、学習器間の学習に関する偏りを考慮し、未成熟な学習器に対する効率的な学習方法が必要となる。

第１の実施形態に係る制御装置２０は、未成熟な学習器に対して成熟した学習器の学習情報を転移することで学習期間の短縮を実現する。その際、制御装置２０は、ネットワーク輻輳レベル間の関連性を考慮し、転移元の学習器を選択することでより正確な転移学習を行う。即ち、輻輳レベルが隣接する学習器が最終的に出力する学習情報（Ｑテーブル、重み）は多少の違いがあるにしても近い内容となることが想定される。それは、輻輳レベルが隣接するという事実は、各学習器が対象とする環境（ネットワーク）が似ていることを意味し、最適な行動を取るための学習情報もまた似ている（近い）事を示す。そこで、制御装置２０は、成熟した学習器が生成した学習情報を未成熟な学習器の学習情報に設定することで、学習開始時から学習器が成熟するまでの時間（学習情報間の距離）を短くしている。その結果、未成熟な学習器に対する効率的な学習が実現される。

［第２の実施形態］
続いて、第２の実施形態について図面を参照して詳細に説明する。

第１の実施形態では、Ｑテーブルや重みの構成が各学習モデル間で共通であることを前提とした。しかし、輻輳レベルが異なると最適な学習モデルの構造（Ｑテーブルや重みの構成）が異なる可能性もある。このような場合、第１の実施形態のように、隣接する、成熟した学習器２１２のＱテーブルや重みを未成熟な学習器２１２のＱテーブルや重みに複製（転移、設定）することはできない。

第２の実施形態では、Ｑテーブルや重みの構成が異なる場合に、未成熟な学習器２１２の学習を促進することを説明する。

各学習器２１２は、学習モデルの生成に関するログ情報を算出する。具体的には、各学習器２１２は、学習に利用したネットワークの状態（ステータス）と行動（アクション）の組をログとして保存する。

例えば、学習器２１２は、図１８に示すようなログを生成し、記憶部２０６に保存する。図１８を参照すると、輻輳レベル１の学習モデルを生成する学習器２１２－１は、スループットと行動を含むログを生成する。同様に、輻輳レベル３の学習モデルを生成する学習器２１２－３は、スループットと行動を含むログを生成する。

学習器管理部２１１は、所定のタイミングで未成熟な学習モデル（Ｑテーブル、重み）が存在する場合、成熟した学習器２１２のログを用いて、当該未成熟な学習器２１２に学習を実行させる。より具体的には、学習器管理部２１１は、未成熟な学習器２１２の両隣に位置する学習器２１２（輻輳レベルが隣同士の学習器）が生成したログを加工し、学習用ログを生成する。

学習器管理部２１１は、未成熟な学習器２１２の両隣の学習器２１２が生成した２つのログのうち、行動が共通するログを抽出する。例えば、図１８の例では、２つのログで行動Ａ１、行動Ａ２が共通するので、これらのログが抽出される。

学習器管理部２１１は、抽出したログのうち、同じ行動のステータスの中央値（平均値）を計算する。図１８の例では、行動Ａ１のＴ１１ＭｂｐｓとＴ３２Ｍｂｐｓの平均値と、行動Ａ２のＴ１２ＭｂｐｓとＴ３１Ｍｂｐｓの平均値と、がそれぞれ計算される。

学習器管理部２１１は、上記行動とその平均値を学習用ログとして生成する。例えば、図１８に示すログから、図１９に示すような学習用ログが生成される。学習器管理部２１１は、上記のようにして生成された学習用ログを未成熟な学習器２１２に渡し、学習させる。例えば、未成熟な学習器２１２－２は、図１９に示す学習用ログを使って学習し、輻輳レベル２に応じた学習情報（Ｑテーブル、重み）を生成する。

以上のように、第２の実施形態では、複数の学習器２１２のうち成熟している第１及び第３の学習器（例えば、図１８の例ではレベル１、３に対応する学習器）の学習情報に基づいて、第２の学習器（レベル２に対応する学習器）の学習情報を設定する。その結果、各学習器２１２が生成する学習情報の構成、構造が異なっていても未成熟な学習器の学習を促進できる。

続いて、通信ネットワークシステムを構成する各装置のハードウェアについて説明する。図２０は、制御装置２０のハードウェア構成の一例を示す図である。

制御装置２０は、情報処理装置（所謂、コンピュータ）により構成可能であり、図２０に例示する構成を備える。例えば、制御装置２０は、プロセッサ３１１、メモリ３１２、入出力インターフェイス３１３及び通信インターフェイス３１４等を備える。上記プロセッサ３１１等の構成要素は内部バス等により接続され、相互に通信可能に構成されている。

但し、図２０に示す構成は、制御装置２０のハードウェア構成を限定する趣旨ではない。制御装置２０は、図示しないハードウェアを含んでもよいし、必要に応じて入出力インターフェイス３１３を備えていなくともよい。また、制御装置２０に含まれるプロセッサ３１１等の数も図２０の例示に限定する趣旨ではなく、例えば、複数のプロセッサ３１１が制御装置２０に含まれていてもよい。

プロセッサ３１１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＤＳＰ（Digital Signal Processor）等のプログラマブルなデバイスである。あるいは、プロセッサ３１１は、ＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）等のデバイスであってもよい。プロセッサ３１１は、オペレーティングシステム（ＯＳ；Operating System）を含む各種プログラムを実行する。

メモリ３１２は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等である。メモリ３１２は、ＯＳプログラム、アプリケーションプログラム、各種データを格納する。

入出力インターフェイス３１３は、図示しない表示装置や入力装置のインターフェイスである。表示装置は、例えば、液晶ディスプレイ等である。入力装置は、例えば、キーボードやマウス等のユーザ操作を受け付ける装置である。

通信インターフェイス３１４は、他の装置と通信を行う回路、モジュール等である。例えば、通信インターフェイス３１４は、ＮＩＣ（Network Interface Card）等を備える。

制御装置２０の機能は、各種処理モジュールにより実現される。当該処理モジュールは、例えば、メモリ３１２に格納されたプログラムをプロセッサ３１１が実行することで実現される。また、当該プログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。記憶媒体は、半導体メモリ、ハードディスク、磁気記録媒体、光記録媒体等の非トランジェント（non-transitory）なものとすることができる。即ち、本発明は、コンピュータプログラム製品として具現することも可能である。また、上記プログラムは、ネットワークを介してダウンロードするか、あるいは、プログラムを記憶した記憶媒体を用いて、更新することができる。さらに、上記処理モジュールは、半導体チップにより実現されてもよい。

なお、端末１０、サーバ３０も制御装置２０と同様に情報処理装置により構成可能であり、その基本的なハードウェア構成は制御装置２０と相違する点はないので説明を省略する。

［変形例］
なお、上記実施形態にて説明した通信ネットワークシステムの構成、動作等は例示であって、システムの構成等を限定する趣旨ではない。例えば、制御装置２０は、ネットワークを制御する装置と学習モデルを生成する装置に分離されていてもよい。あるいは、学習情報（学習モデル）を記憶する記憶部２０６は、外部のデータベースサーバ等により実現されてもよい。即ち、本願開示は、学習手段、制御手段、記憶手段等を含むシステムとして実施されてもよい。

上記実施形態では、未成熟な学習器２１２の学習情報に、輻輳レベルが隣接する学習が成熟した学習器２１２の学習情報を複製している。しかし、未成熟な学習器２１２の輻輳レベルに隣接する成熟した学習器２１２が存在しないこともある。この場合、未成熟な学習器２１２と成熟した学習器２１２それぞれの輻輳レベルの距離に応じて、複製する学習情報に重みを付けてもよい。例えば、図２１に示すように、学習器２１２－１、学習器２１２－２の学習は成熟しており、学習器２１２－３～２１２－５が未成熟な場合があり得る。この場合、学習器管理部２１１は、輻輳レベルが隣接する学習器２１２－３の学習情報には、学習器２１２－２の学習情報をそのまま複製する（重み＝１）。学習器管理部２１１は、輻輳レベルが１つ離れている学習器２１２－４の学習情報には、学習器２１２－２の学習情報の価値を半分にして複製してもよい（重み＝０．５）。同様に、学習器管理部２１１は、輻輳レベルが２つ離れている学習器２１２－５の学習情報には、学習器２１２－２の学習情報の価値を四分の一にして複製してもよい（重み＝０．２５）。

あるいは、１つの学習器２１２からの学習情報を未成熟な学習器２１２の学習情報に複製するのではなく、複数の成熟した学習器２１２が生成した学習情報が未成熟な学習器２１２の学習情報に設定されてもよい。その際、学習器管理部２１１は、輻輳レベルに応じて成熟した学習器２１２が生成した学習情報の影響度を変更してもよい。例えば、図２２に示すように、学習器２１２－１～２１２－３が成熟、学習器２１２－４が未成熟な場合を考える。この場合、学習器管理部２１１は、輻輳レベルが未成熟な学習器２１２に近いほど大きな重みを与える加重平均により当該未成熟な学習器２１２に設定する学習情報を生成してもよい。図２２の例では、輻輳レベルが隣接する学習器２１２－３の学習情報には「０．６」の重み、輻輳レベルが１つ離れる学習器２１２－２の学習情報には「０．３」の重み、輻輳レベルが２つ離れる学習器２１２－１の学習情報には「０．１」の重みが与えられている。

図２２の例では、未成熟な学習器２１２の片側（左側、輻輳レベルが小さい側）に成熟した学習器２１２が存在する場合を説明したが、未成熟な学習器２１２の両側に成熟した学習器２１２が存在する場合にも上記と同様に学習情報を生成することもできる。具体的には、未成熟な学習器２１２の両隣の学習器２１２が成熟していれば、学習器管理部２１１は、当該両隣の学習器２１２による学習情報それぞれに重みを０．５与え、その合計値により学習情報を生成してもよい。

上記実施形態では、制御装置２０は、トラヒックフローを制御の対象（制御単位）とする場合について説明した。しかし、制御装置２０は、端末１０単位、又は、複数の端末１０をまとめたグループを制御の対象としてもよい。つまり、同じ端末１０であってもアプリケーションが異なればポート番号等が異なり、異なるフローとして扱われる。制御装置２０は、同じ端末１０から送信されるパケットには同じ制御（制御パラメータの変更）を適用してもよい。あるいは、制御装置２０は、例えば、同じ種類の端末１０を１つのグループとして扱い、同じグループに属する端末１０から送信されるパケットに対して同じ制御を適用してもよい。

上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、例えば各処理を並行して実行する等、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
［付記１］
それぞれが、ネットワークを制御するための行動を学習する、複数の学習器（１０１、２１２）と、
前記複数の学習器（１０１、２１２）のうち成熟した第１の学習器（１０１、２１２）の学習情報に基づいて、前記複数の学習器（１０１、２１２）のうち成熟していない第２の学習器（１０１、２１２）の学習情報を設定する、学習器管理部（１０２、２１１）と、
を備える、制御装置（２０、１００）。
［付記２］
前記学習器管理部（１０２、２１１）は、
前記複数の学習器（１０１、２１２）のうち成熟した第１及び第３の学習器（１０１、２１２）の学習情報に基づいて、前記第２の学習器（１０１、２１２）の学習情報を設定する、付記１に記載の制御装置（２０、１００）。
［付記３］
前記ネットワークの輻輳状態を示す輻輳レベルを算出する、輻輳レベル算出部をさらに備え、
前記複数の学習器（１０１、２１２）それぞれには前記輻輳レベルが割り当てられている、付記１又は２に記載の制御装置（２０、１００）。
［付記４］
前記学習器管理部（１０２、２１１）は、
前記第２の学習器（１０１、２１２）に割り当てられた輻輳レベルに基づき、前記学習情報を設定する第１の学習器（１０１、２１２）を選択する、付記３に記載の制御装置（２０、１００）。
［付記５］
前記複数の学習器それぞれが生成した学習モデルから１つの学習モデルを選択し、前記選択された学習モデルから得られる行動に基づき、前記ネットワークを制御する、制御部（２０４）をさらに備える、付記１乃至４のいずれか一項に記載の制御装置（２０、１００）。
［付記６］
複数の学習器（１０１、２１２）それぞれにおいて、ネットワークを制御するための行動を学習するステップと、
前記複数の学習器（１０１、２１２）のうち成熟した第１の学習器（１０１、２１２）の学習情報に基づいて、前記複数の学習器（１０１、２１２）のうち成熟していない第２の学習器（１０１、２１２）の学習情報を設定するステップと、
を含む方法。
［付記７］
前記学習情報を設定するステップは、
前記複数の学習器（１０１、２１２）のうち成熟した第１及び第３の学習器（１０１、２１２）の学習情報に基づいて、前記第２の学習器（１０１、２１２）の学習情報を設定する、付記６に記載の方法。
［付記８］
前記ネットワークの輻輳状態を示す輻輳レベルを算出するステップをさらに含み、
前記複数の学習器（１０１、２１２）それぞれには前記輻輳レベルが割り当てられている、付記６又は７に記載の方法。
［付記９］
前記学習情報を設定するステップは、
前記第２の学習器（１０１、２１２）に割り当てられた輻輳レベルに基づき、前記学習情報を設定する第１の学習器（１０１、２１２）を選択する、付記８に記載の方法。
［付記１０］
前記複数の学習器（１０１、２１２）それぞれが生成した学習モデルから１つの学習モデルを選択し、前記選択された学習モデルから得られる行動に基づき、前記ネットワークを制御するステップをさらに含む、付記６乃至９のいずれか一項に記載の方法。
［付記１１］
端末（１０）と、
前記端末（１０）と通信するサーバ（３０）と、
前記端末（１０）及び前記サーバ（３０）を含むネットワークを制御する制御装置（２０、１００）と、
を含み、
前記制御装置（２０、１００）は、
それぞれが、前記ネットワークを制御するための行動を学習する、複数の学習器（１０１、２１２）と、
前記複数の学習器（１０１、２１２）のうち成熟した第１の学習器（１０１、２１２）の学習情報に基づいて、前記複数の学習器（１０１、２１２）のうち成熟していない第２の学習器（１０１、２１２）の学習情報を設定する、学習器管理部（１０２、２１１）と、
を備える、システム。
［付記１２］
前記学習器管理部（１０２、２１１）は、
前記複数の学習器（１０１、２１２）のうち成熟した第１及び第３の学習器（１０１、２１２）の学習情報に基づいて、前記第２の学習器（１０１、２１２）の学習情報を設定する、付記１１に記載のシステム。
［付記１３］
前記ネットワークの輻輳状態を示す輻輳レベルを算出する、輻輳レベル算出部をさらに備え、
前記複数の学習器（１０１、２１２）それぞれには前記輻輳レベルが割り当てられている、付記１１又は１２に記載のシステム。
［付記１４］
前記学習器管理部（１０２、２１１）は、
前記第２の学習器（１０１、２１２）に割り当てられた輻輳レベルに基づき、前記学習情報を設定する第１の学習器（１０１、２１２）を選択する、付記１３に記載のシステム。
［付記１５］
前記複数の学習器（１０１、２１２）それぞれが生成した学習モデルから１つの学習モデルを選択し、前記選択された学習モデルから得られる行動に基づき、前記ネットワークを制御する、制御部（２０４）をさらに備える、付記１１乃至１４のいずれか一項に記載のシステム。
［付記１６］
コンピュータ（３１１）に、
複数の学習器（１０１、２１２）それぞれにおいて、ネットワークを制御するための行動を学習させる処理と、
前記複数の学習器（１０１、２１２）のうち成熟した第１の学習器（１０１、２１２）の学習情報に基づいて、前記複数の学習器（１０１、２１２）のうち成熟していない第２の学習器（１０１、２１２）の学習情報を設定する処理と、
を実行させるプログラム。

なお、引用した上記の先行技術文献の各開示は、本書に引用をもって繰り込むものとする。以上、本発明の実施形態を説明したが、本発明はこれらの実施形態に限定されるものではない。これらの実施形態は例示にすぎないということ、及び、本発明のスコープ及び精神から逸脱することなく様々な変形が可能であるということは、当業者に理解されるであろう。

１０端末
２０、１００制御装置
３０サーバ
１０１、２１２、２１２－１～２１２－Ｎ学習器
１０２、２１１学習器管理部
２０１パケット転送装置
２０２特徴量算出部
２０３輻輳レベル算出部
２０４ネットワーク制御部
２０５強化学習実行部
２０６記憶部
３１１プロセッサ
３１２メモリ
３１３入出力インターフェイス
３１４通信インターフェイス

Claims

それぞれが、ネットワークを制御するための行動を学習する、複数の学習器と、
前記複数の学習器のうち成熟した第１の学習器の学習情報に基づいて、前記複数の学習器のうち成熟していない第２の学習器の学習情報を設定する、学習器管理手段と、
を備え、
前記複数の学習器は、前記ネットワークの状態レベルに応じて学習モデルを算出する、制御装置。
前記学習器管理手段は、
前記複数の学習器のうち成熟した第１及び第３の学習器の学習情報に基づいて、前記第２の学習器の学習情報を設定する、請求項１に記載の制御装置。
複数の学習器それぞれにおいて、ネットワークを制御するための行動を学習するステップと、
前記複数の学習器のうち成熟した第１の学習器の学習情報に基づいて、前記複数の学習器のうち成熟していない第２の学習器の学習情報を設定するステップと、
を含み、
前記複数の学習器は、前記ネットワークの状態レベルに応じて学習モデルを算出する方法。
前記学習情報を設定するステップは、
前記複数の学習器のうち成熟した第１及び第３の学習器の学習情報に基づいて、前記第２の学習器の学習情報を設定する、請求項３に記載の方法。
前記ネットワークの輻輳状態を示す輻輳レベルを算出するステップをさらに含み、
前記複数の学習器それぞれには前記輻輳レベルが割り当てられている、請求項３又は４に記載の方法。
前記複数の学習器それぞれが生成した学習モデルから１つの学習モデルを選択し、前記選択された学習モデルから得られる行動に基づき、前記ネットワークを制御するステップをさらに含む、請求項３乃至５のいずれか一項に記載の方法。
端末と、
前記端末と通信するサーバと、
前記端末及び前記サーバを含むネットワークを制御する制御装置と、
を含み、
前記制御装置は、
それぞれが、前記ネットワークを制御するための行動を学習する、複数の学習器と、
前記複数の学習器のうち成熟した第１の学習器の学習情報に基づいて、前記複数の学習器のうち成熟していない第２の学習器の学習情報を設定する、学習器管理手段と、
を備え、
前記複数の学習器は、前記ネットワークの状態レベルに応じて学習モデルを算出する、システム。
前記学習器管理手段は、
前記複数の学習器のうち成熟した第１及び第３の学習器の学習情報に基づいて、前記第２の学習器の学習情報を設定する、請求項７に記載のシステム。
前記ネットワークの輻輳状態を示す輻輳レベルを算出する、輻輳レベル算出手段をさらに備え、
前記複数の学習器それぞれには前記輻輳レベルが割り当てられている、請求項７又は８に記載のシステム。
前記複数の学習器それぞれが生成した学習モデルから１つの学習モデルを選択し、前記選択された学習モデルから得られる行動に基づき、前記ネットワークを制御する、制御手段をさらに備える、請求項７乃至９のいずれか一項に記載のシステム。