JP2021083058A

JP2021083058A - 制御装置、制御方法、及びプログラム

Info

Publication number: JP2021083058A
Application number: JP2019211712A
Authority: JP
Inventors: スンイルムン; Seung Il Moon; 優塚本; Masaru Tsukamoto; 忍難波; Shinobu Nanba; 晴久平山; Haruhisa Hirayama
Original assignee: KDDI Research Inc
Current assignee: KDDI Research Inc
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2021-05-27
Anticipated expiration: 2039-11-22
Also published as: JP7197460B2

Abstract

【課題】スライスの構成が動的に変更されるネットワークにおいて、複数の学習モデルを効率的に組み合わせて適用したアドミッション制御を実現する。【解決手段】アドミッションコントローラ４２は、ネットワーク環境情報をモニタリングする。学習コントローラ４２は、ネットワーク環境情報に基づいて、スライスのアドミッション制御用の第１学習モデル（ＡＦ）及び第２学習モデル（ＤＲＬＦ）の性能を解析して、それぞれの性能指標を求める。学習コントローラ４２は、ＡＦの性能指標についての前回の更新時からの改善量とＤＲＬＦの性能指標についての前回の更新時からの改善量とに応じて、それぞれの学習モデルに対応するパラメータｐtAF及びｐtDRLFを更新し、それらに応じて学習モデルを選択する。アドミッションコントローラ４１は、選択された学習モデルを適用してアドミッション制御を行う。【選択図】図４

Description

本発明は、ネットワーク上に設定されるスライスのアドミッション制御を行う制御装置、制御方法及びプログラムに関するものである。

第３世代パートナーシッププロジェクト（３ＧＰＰ）で規格化されている第５世代（５Ｇ）移動通信システムでは、要件が異なるサービスを経済的かつ柔軟に提供するために、ネットワークスライシングが検討されている。ネットワークスライシングが適用されるネットワークでは、スライス（ネットワークスライス）の構成が動的に変更される場合がありうる。この場合に、複数のスライスがそれぞれ要求されるサービス品質を満たせるように、十分な無線リソースを各スライスに対して確保する必要がある。これを実現するために、スライスのアドミッション制御が必要となる。

ＲＡＮ（無線アクセスネットワーク）では、一般に、スライスに確保すべき無線リソースは、要求されるサービス品質、基地局機能の配置、セルのタイプ等に依存する。このため、スライスのアドミッション制御を実現するためには、短時間に膨大な量のデータを処理する必要がある。そこで、ネットワークスライシングが適用されるネットワークにおけるアドミッション制御及びリソース管理に対して、機械学習を適用する検討が行われている（非特許文献１〜４）。また、Ｏ−ＲＡＮＡｌｌｉａｎｃｅ（Open Radio Access Network Alliance）では、ＡＩ（人工知能）／ＭＬ（機械学習）を５Ｇのネットワークの様々なユースケースに適用するために、ＡＩ／ＭＬの汎用的なワークフローやフレームワークを定義している。

Bin Han, et al., "A Markov Model of Slice Admission Control", IEEE Networking Letters, Vol. 1, No. 1, March 2019. Bin Han, et al., "A Utility-Driven Multi-Queue Admission Control Solution for Network Slicing", IEEE INFOCOM 2019 - IEEE Conference on Computer Communications, April 29-May 2, 2019. Mu Yan, et al., "Intelligent Resource Scheduling for 5G Radio Access Network Slicing", IEEE Trancactransactions on Vehicular Technology, VOL. 68, NO. 8, August, 2019. Muhammad Rehan Raza, et al., "Reinforcement Learning for Slicing in a 5G Flexible RAN", Journal of Lightwave Technology (Volume: 37, Issue: 20, October 15, 2019).

上述のアドミッション制御やＯ−ＲＡＮでの検討では、ユースケースに応じて機械学習を適用することが想定されている。即ち、ユースケースごとに、当該ユースケースに適した学習モデル（ＭＬモデル）が用いられている。例えば、あるユースケースでは、マルコフ近似等の収束性の高い学習モデルが適用される。この場合、必要となるトレーニング時間は短いものの、高い性能（例えば、無線リソースの使用率）を期待することはできない。一方、別のユースケースでは、深層強化学習（ＤＲＬ）等の収束性は低いが性能の高い学習モデルが適用される。この場合、高い性能は期待できるものの、必要となるトレーニング時間が長くなる。しかし、スライスの構成が動的に変更されるネットワークにおいて、アドミッション制御の性能を向上させつつ、学習モデルに基づく学習に要する時間を短くするためには、より適切に学習モデルを選択する必要がある。

本発明は、上述の課題に鑑みてなされたものである。本発明は、スライスの構成が動的に変更されるネットワークにおいて、複数の学習モデルを効率的に組み合わせて適用したアドミッション制御を実現する技術を提供することを目的としている。

本発明の一態様の係る制御装置は、１つ以上の基地局を含むネットワーク上に設定されるスライスのアドミッション制御を行う制御装置であって、ネットワーク環境情報をモニタリングするモニタリング手段と、前記モニタリングにより得られた前記ネットワーク環境情報に基づいて、スライスのアドミッション制御用の第１学習モデル及び第２学習モデルの性能をそれぞれ解析することで、前記第１学習モデルの性能を示す第１性能指標と前記第２学習モデルの性能を示す第２性能指標とを求める解析手段と、前記解析手段により求められた前記第１性能指標についての前回の更新時からの改善量と前記第２性能指標についての前回の更新時からの改善量とに応じて、前記第１学習モデルに対応する第１パラメータと前記第２学習モデルに対応する第２パラメータとを更新する更新手段と、前記更新手段により更新された前記第１パラメータ及び前記第２パラメータに応じて、前記第１学習モデル又は前記第２学習モデルを選択する選択手段と、前記選択手段により選択された学習モデルを適用して前記アドミッション制御を行う制御手段と、を備えることを特徴とする。

本発明の他の一態様に係る制御装置は、１つ以上の基地局を含むネットワーク上に設定されるスライスのアドミッション制御を行う制御装置であって、ネットワーク環境情報をモニタリングするモニタリング手段と、前記モニタリングにより得られた前記ネットワーク環境情報に基づいて、スライスのアドミッション制御用の複数の学習モデルの性能をそれぞれ解析することで、前記複数の学習モデルのそれぞれの性能を示す性能指標を求める解析手段と、前記解析手段により求められた、前記複数の学習モデルに対応する複数の性能指標のそれぞれについての前回の更新時からの改善量に応じて、前記複数の学習モデルにそれぞれ対応する複数のパラメータを更新する更新手段と、前記更新手段により更新された前記複数のパラメータに応じて、前記複数の学習モデルのうちのいずれか１つを選択する選択手段と、前記選択手段により選択された学習モデルを適用して前記アドミッション制御を行う制御手段と、を備えることを特徴とする。

本発明によれば、スライスの構成が動的に変更されるネットワークにおいて、複数の学習モデルを効率的に組み合わせて適用したアドミッション制御を実現することが可能になる。

通信システムの構成例を示す図基地局の構成例を示す図ＲＩＣのハードウェア構成例を示すブロック図ＲＩＣの機能構成例を示すブロック図スライスアドミッション制御の手順を示すフローチャート学習モデルの選択処理の手順を示すフローチャート学習モデルの性能の解析処理（Ｓ６３）の手順を示すフローチャートスライスアドミッション制御に関連する通信シーケンス図学習モデルの選択用パラメータの時間遷移の例を示す図

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴が任意に組み合わされてもよい。また、同一又は同様の構成には同一の参照番号を付し、重複した説明は省略する。

＜通信システムの構成＞
図１は、本発明の実施形態に係る通信システムの構成例を示す図である。本実施形態では、３ＧＰＰ規格による、ＮＲ（New Radio）と称される５Ｇ移動通信システムを想定しているが、本発明は他の通信規格による移動通信システムに適用されてもよい。図１に示すように、本実施形態の通信システムは、ＲＩＣ（RAN Intelligent Controller）１０と１つ以上の基地局（ＢＳ）２０（本例ではＢＳ＃１〜＃３）とを含む。ＲＩＣは、１つ以上のＢＳ２０を含む無線アクセスネットワーク（ＲＡＮ）に対する制御装置として機能する。

ＢＳ２０は、当該ＢＳにより形成されるセル内の１つ以上の無線端末（ＵＥ：User Equipment）と無線通信を行うことで、各ＵＥにサービスを提供する。各ＵＥは、ＢＳ２０を介してコアネットワーク（ＣＮ）にアクセスできるとともに、ＣＮを介して外部ネットワーク（インターネット等）にアクセスできる。

本実施形態では、ＲＩＣ１０は、Ｏ−ＲＡＮＡｌｌｉａｎｃｅ（Open Radio Access Network Alliance）のＲＩＣとして構成され、ＣＮに配置される。なお、ＲＩＣ１０は、ＣＮ内以外の位置（例えば、ＲＡＮ内）に配置されてもよい。５Ｇ規格では、ＣＮは、５Ｇコアネットワーク（５ＧＣ：5G Core）とも称され、基地局２０は、ｇＮＢとも称される。

本実施形態では、ＢＳ２０は、複数のスライス（サービス）を提供可能な基地局であり、即ち、複数のスライスによってＢＳ２０が共有される。例えば、サービスタイプとしてｍＭＴＣ、ＵＲＬＬＣ及びｅＭＢＢに対応する複数のスライスが生成され、基地局２０により形成されるセル内でそれらのスライスが提供されてもよい。

図２は、サービスタイプとしてｍＭＴＣ、ＵＲＬＬＣ及びｅＭＢＢに対応するスライス１〜３が生成された、基地局２０（基地局システム）の基本的な構成例を示す図である。本実施形態の基地局システムは、基地局機能の分割のために、複数のＣＵ（Central Unit）、複数のＤＵ（Distributed Unit）、及び１つのＲＵ（Radio Unit）で構成されており、スライスごとに個別のＣＵ及びＤＵが設けられている。基地局２０は、スライスごとに設けられた、ＣＮのデータ処理機能群であるＵＰＦ（User Plane Function）に接続される。基地局２０は更に、ＣＮの制御機能群であるＣＰＦ（Control Plane Function）に接続される。

ＣＵ及びＤＵは、ＲＩＣ１０によって制御及び管理がなされ、各スライスは、ＲＩＣ１０によって生成される。各ＤＵは、基地局の機能のうちの無線リソースのスケジューリング機能（例えば、ＨｉｇｈＭＡＣの機能）を少なくとも有する。各ＣＵは、接続された当該１つのＤＵが有する機能よりも上位レイヤの機能（例えば、ＳＤＡＰ／ＲＲＣ及びＰＤＣＰの機能）を有する。ＲＵは、基地局の機能のうちの電波の送受信機能（例えば、ＲＦの機能）を少なくとも有する。図２の構成例では、ＲＵは、スライス１〜３で共有されているが、スライスごとに個別にＲＵが設けられてもよい。また、各ＣＵは、１つ以上のスライスに対応していてもよく、各ＤＵも、１つ以上のスライスに対応していてもよい。

図２の構成例では、スライス（サービス）に応じて、対応するＣＵ及びＤＵの配置が異なっている。ＣＵ及びＤＵの配置に依存して、基地局間連携（セル間協調）の性能、アプリケーションに与える遅延量、及びネットワークの利用効率等が異なる。このため、図２の構成例では、スライス（サービス）ごとに適したＣＵ及びＤＵの配置がなされている。

スライス１（ｍＭＴＣスライス）については、対応するＣＵは、ＣＮが配置されているデータセンタに配置され、対応ＤＵは、アンテナサイトに配置される。これは、統計多重効果によりデータセンタのコンピューティングリソースを効率的に利用可能にするためである。スライス２（ＵＲＬＬＣスライス）については、対応するＣＵは、地方収容局に配置され、対応するＤＵは、アンテナサイトに配置される。これにより、低遅延サービスを提供するためのアプリケーションを有するエッジサーバであるＥｄｇｅＡｐｐ（Edge Application Server）によるＭＥＣ（Multi-Access Edge Computing）を導入可能にしている。ＥｄｇｅＡｐｐは、対応するＣＵが配置される地方収容局に配置されてもよい。スライス３（ｅＭＢＢスライス）については、対応するＣＵ及びＤＵのいずれも、地方収容局に配置される。これにより、対応するＤＵを、それぞれ異なるアンテナサイトに配置される複数のＲＵと接続可能になり、接続されたＲＵ間のセル間協調（例えば、ＣｏＭＰ（Coordinated Multi-Point Transmission/reception））が可能になる。

本実施形態では、ＲＩＣ１０は、ＲＡＮ上の基地局２０と通信可能に接続される。ＲＩＣ１０は、基地局２０を構成する複数のＣＵ及び複数のＤＵに対して、サービス要件に対応したスライス（図２の例ではスライス１〜３）を設定（生成）する。また、ＲＩＣ１０は、１つ以上の基地局２０を含むネットワーク上に設定されるスライスのアドミッション制御を行うためのアドミッション制御モジュール１１を有している。

＜ＲＩＣのハードウェア構成＞
ＲＩＣ１０は、一例として、図３に示されるようなハードウェア構成を有する。具体的には、ＲＩＣ１０は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、ＨＤＤ等の外部記憶デバイス１０４、及び通信デバイス１０５を有する。

ＲＩＣ１０では、例えばＲＯＭ１０２、ＲＡＭ１０３及び外部記憶デバイス１０４のいずれかに格納された、ＲＩＣ１０の各機能を実現するプログラムがＣＰＵ１０１によって実行される。なお、ＣＰＵ１０１は、ＡＳＩＣ（特定用途向け集積回路）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＤＳＰ（デジタルシグナルプロセッサ）等の１つ以上のプロセッサによって置き換えられてもよい。

通信デバイス１０５は、ＣＰＵ１０１による制御下で、制御対象の基地局２０等の外部装置との通信を行うための通信インタフェースである。ＲＩＣ１０は、それぞれ接続先が異なる複数の通信デバイス１０５を有していてもよい。

なお、ＲＩＣ１０は、後述する各機能を実行する専用のハードウェアを備えてもよいし、一部をハードウェアで実行し、プログラムを動作させるコンピュータでその他の部分を実行してもよい。また、全機能がコンピュータとプログラムにより実行されてもよい。

また、基地局２０も、図３に示されるようなハードウェア構成を有しうる。基地局２０は、通信デバイス１０５として、ＣＮのＵＰＦ及びＲＩＣ１０等の外部装置との通信のための通信インタフェースの他に、ＵＥとの無線通信のための無線通信インタフェースも備えうる。

＜ＲＩＣの機能構成＞
図４は、ＲＩＣ１０の機能構成例として、ＲＩＣ１０に実装されるアドミッション制御モジュール１１の構成例を示すブロック図である。本実施形態では、アドミッション制御モジュール１１は、ＣＰＵ１０１による制御プログラムの実行によりＣＰＵ１０１上で実現されるが、アドミッション制御モジュール１１の機能を実現する専用のハードウェアが設けられてもよい。

本実施形態のアドミッション制御モジュール１１は、アドミッションコントローラ４１及び学習コントローラ４２を含む。アドミッションコントローラ４１は、学習コントローラ４２により学習（トレーニング）された学習済モデルを用いて、スライスのアドミッション制御を行うモジュールである。学習コントローラ４２は、アドミッションコントローラ４１から入力されるネットワーク環境情報に基づいてスライスのアドミッション制御用の学習済モデルを生成するための、機械学習ベースの学習を行うモジュールである。

アドミッションコントローラ４１は、アドミッション制御機能４１１、セットアップ機能４１２、リソース管理機能４１３、及びリソースモニタ４１４を含む。アドミッション制御機能４１１は、スライスの管理（例えば、無線リソースの割り当て、割り当て解除又は変更）に関連する要求（スライス設定要求）についての判定を行う機能を有する。セットアップ機能４１２は、スライス設定要求に従って、スライスのセットアップ処理を行う機能を有する。リソース管理機能４１３は、設定された１つ以上のスライスに割り当てられる無線リソースを管理する機能を有する。リソースモニタ４１４は、設定されている１つ以上のスライスについて、ネットワーク環境情報をモニタリング（例えば、割り当てられている無線リソースの使用をモニタリング）する機能を有する。

学習コントローラ４２は、学習エージェント４２１及び環境情報データベース（ＤＢ）４２２を含む。学習エージェント４２１は、スライスアドミッション制御のために、複数の学習モデル（ＭＬモデル）を組み合わせて学習（アンサンブル学習）を行うように構成される。本実施形態では、複数の学習モデルとして、一例として、マルコフ近似による学習モデル及び深層強化学習（ＤＲＬ）による学習モデルを想定している。

学習エージェント４２１は、近似フレームワーク（ＡＦ）及びＤＲＬフレームワーク（ＤＲＬＦ）を有する。ＡＦは、マルコフ近似による学習モデルを使用して準最適解を発見するためのフレームワークであり、第１学習モデルの一例である。ＤＲＬＦは、ＤＲＬによる学習モデルを使用して準最適解を発見するためのフレームワークであり、第２学習モデルの一例である。本実施形態において、マルコフ近似による学習モデル（ＡＦ）は、ＤＲＬによる学習モデル（ＤＲＬＦ）よりもトレーニング時間が短い学習モデルに相当する。また、ＤＲＬによる学習モデル（ＤＲＬＦ）は、マルコフ近似による学習モデル（ＡＦ）よりも性能が高い学習モデルに相当する。

学習エージェント４２１は、更に、ＭＬ性能解析部、ＭＬモデル選択部、及びＭＬモデルデータベース（ＤＢ）を有する。ＭＬ性能解析部は、アンサンブル学習に使用される学習モデル（ＭＬモデル）の性能の解析（評価又は予測）を行う機能を有する。ＭＬモデル選択部は、後述するようにＭＬ性能解析部により更新されるパラメータ（ｐ_t ^AF，ｐ_t ^DRLF）に基づいて、スライスアドミッション制御に適用するＭＬモデルを選択する機能を有する。ＭＬモデルＤＢには、ＭＬ性能解析部及びＭＬモデル選択部により使用される各種パラメータ、ＭＬモデル選択部により選択されたＭＬモデル（選択ＭＬモデル）を示す情報、及びアンサンブル学習により更新される学習済モデル等が格納される。

環境情報ＤＢ４２２には、アドミッションコントローラ４１から入力されるネットワーク環境情報が格納される。なお、ＭＬモデルＤＢ及び環境情報ＤＢ４２２は、例えば、ＲＡＭ１０３又は外部記憶デバイス１０４の記憶領域に格納された状態で、学習コントローラ４２（学習エージェント４２１）によって保持される。

＜スライスアドミッション制御＞
次に、図５乃至図９を参照して、本実施形態においてＲＩＣ１０によって行われるスライスアドミッション制御について説明する。本実施形態では、ＲＩＣ１０は、学習コントローラ４２による機械学習を、スライスアドミッション制御に対して適用することで、各スライスに対して無線リソースを効率的に割り当てられるようにする。具体的には、上り回線及び下り回線のそれぞれにおいて、特定の性能指標を基準として用いて、当該性能指標がより改善されるように複数のＭＬモデルを選択的にアドミッション制御に適用する。特定の性能指標として、例えば、物理リソースブロック（ＰＲＢ）等の無線リソースの使用率が用いられる。

本実施形態のＲＩＣ１０は、上述のように、特定の性能指標を用いて、ＡＦ及びＤＲＬＦを組み合わせたアンサンブル学習を行う。即ち、確率的に性能指標（例えば、無線リソースの使用率）の値が高くなるように、ＡＦ及びＤＲＬＦを選択的に適用する。これにより、例えば、初期段階では、ＡＦの適用により、ＤＲＬＦよりも性能は劣るとしても、必要となるトレーニング時間を短くすることを可能にする。また、時間の経過とともにＤＲＬＦを適用することで、性能をより改善することを可能にする。

＜制御手順＞
図５は、ＲＩＣ１０においてアドミッションコントローラ４１によって実行されるスライスアドミッション制御の手順を示すフローチャートである。まずＳ５１で、アドミッションコントローラ４１は、時間スロットｔ及びネットワーク環境情報を初期化する。なお、本実施形態では、時間スロットｔはスロット番号（０以上の整数）を表す。ネットワーク環境情報は、学習エージェント４２１による制御対象のネットワーク（１つ以上のＢＳ２０を含むネットワーク）の状態（Ｓｔａｔｅ）として、アドミッションコントローラ４１によって収集（モニタリング）され、学習コントローラ４２へ提供される情報である。

次にＳ５２で、アドミッションコントローラ４１は、図６及び図７を用いて後述するように学習コントローラ４２（学習エージェント４２１）による学習モデル（ＭＬモデル）の選択結果を示す情報を、学習エージェント４２１から取得する。このＭＬモデルの選択結果を示す情報は、例えば、学習エージェント４２１のＭＬモデルＤＢから読み出すことによって取得される。これにより、アドミッションコントローラ４１は、保持している情報のうち、選択されたＭＬモデル（選択ＭＬモデル）に関する情報を更新する。なお、学習エージェント４２１によるＭＬモデルの選択は、学習エージェント４２１による行動（Ａｃｔｉｏｎ）に相当する。

選択ＭＬモデルに関する情報の更新が完了すると、Ｓ５３で、アドミッションコントローラ４１は、スライスアドミッション制御を行う必要があるか否かを判定する。例えば、アドミッションコントローラ４１は、ＵＥ（ユーザ）によるサービス要求が行われ（ＢＳ２０がＵＥからサービス要求を受信し）、当該サービス要求に起因してスライスの構成を変更する必要がある場合に、スライスアドミッション制御を行う。また、サービスプロバイダ（例えば通信事業者）が、提供するサービスに基づいてスライスの構成を変更すべきことを要求した場合に、アドミッションコントローラ４１はスライスアドミッション制御を行う。なお、スライスの構成変更は、例えば、新たなスライスの設定（生成）、設定済みのスライスの削除、又は設定済みのスライスについての設定変更（スライスの拡大若しくは縮小）である。

アドミッションコントローラ４１は、Ｓ５３において、スライスアドミッション制御を行う必要がないと判定した場合にはＳ５３からＳ５６へ処理を進め、必要があると判定した場合にはＳ５３からＳ５４へ処理を進める。

Ｓ５４で、アドミッションコントローラ４１は、スライスアドミッション制御として、スライスのセットアップ処理を実行する。具体的には、アドミッションコントローラ４１は、学習エージェント４２１（ＭＬモデル選択部）により選択されたＭＬモデル（選択ＭＬモデル）を適用してスライスアドミッション制御を行う。

スライスアドミッション制御は、学習エージェント４２１によって保持されている、アドミッション制御用の学習済モデルのうち、選択ＭＬモデルに対応する学習済モデルを用いて行われる。この学習済モデルは、学習エージェント４２１から取得される。学習エージェント４２１は、ネットワーク環境情報に基づくＡＦによる学習で更新される学習済モデルと、ネットワーク環境情報に基づくＤＲＬＦによる学習で更新される学習済モデルとを、ＭＬモデルＤＢに保持している。

スライスアドミッション制御では、具体的には以下のような処理が行われる。
●新たなスライスを設定（生成）する場合には、ＢＳ２０において使用可能な無線リソースブロック（ＲＲＢ）のうち、割り当てに使用可能なＲＲＢの容量がスライス設定要求（例えば、ＵＥからのサービス要求に基づくスライス設定要求、又はサービスプロバイダからのスライス設定要求）に基づいて必要となるＲＲＢの容量を上回っていれば、当該要求を受け入れ、そうでなければ、当該要求を拒否する。
●設定済みのスライスを削除する場合には、スライスの削除後に当該スライスに対して割り当てられていたＲＲＢを解放する（使用可能なＲＲＢに戻す）。
●設定済みのスライスについての設定変更を行う場合には、対象となるスライスに対して割り当てられるＲＲＢの量を変更する。

このように、本実施形態のアドミッション制御（スライスアドミッション制御）には、新たなスライスの設定、設定済みのスライスの削除、及び設定済みのスライスについての設定変更に伴う、各スライスに割り当てられる無線リソースの制御が含まれる。アドミッションコントローラ４１は、選択ＭＬモデルに対応する学習済モデルを用いて、各スライスに割り当てられる無線リソースの制御を行う。

その後Ｓ５５で、アドミッションコントローラ４１は、スライスアドミッション制御の結果に従って、制御対象の１つ以上のＢＳ２０における各スライス用に使用する無線リソースを更新するよう、各ＢＳ２０に指示する。その後、アドミッションコントローラ４１は、Ｓ５６へ処理を進める。

Ｓ５６で、アドミッションコントローラ４１は、ネットワーク環境情報をモニタリングする。ネットワーク環境情報には、例えば、ネットワーク構成に関する情報（例えば、基地局数）、スライス設定に関する情報（例えば、スライス数）、無線リソースの割り当てに関する情報（例えば、使用可能なＲＲＢ数）、ネットワークの動作状況に関する情報（例えば、送信電力、スライス又は基地局に接続しているユーザ（ＵＥ）数）のうちの１つ以上が含まれる。アドミッションコントローラ４１は、制御対象の１つ以上のＢＳ２０から取得される情報等に基づいて、ネットワーク環境情報のモニタリングを行う。

その後Ｓ５７で、アドミッションコントローラ４１は、取得したネットワーク環境情報を学習コントローラ４２の環境情報ＤＢ４２２に格納するとともに、時間スロットｔを更新し（次の時間スロットに更新し）、Ｓ５２へ処理を戻す。このようにして、アドミッションコントローラ４１は、時間スロットｔを更新しながら、Ｓ５２〜Ｓ５７の処理を繰り返し実行する。

＜学習モデルの選択処理＞
次に、図６を参照して、本実施形態においてＲＩＣ１０によって行われる学習モデル（ＭＬモデル）の選択処理について説明する。図５は、ＲＩＣ１０において学習コントローラ４２によって実行されるＭＬモデルの選択処理の手順を示すフローチャートである。

まずＳ６１で、学習コントローラ４２は、時間スロットｔ、及びＭＬモデルの選択用パラメータ（Ｕ_t ^AF，Ｕ_t ^DRLF，ｐ_t ^AF，ｐ_t ^DRLF，ｗ_t ^AF，ｗ_t ^DRLF）を初期化する。ここで、上記の各パラメータは以下のとおりである。
●Ｕ_t ^AFは、時間スロットｔにおける、ＡＦ（第１学習モデル）の性能を示す第１性能指標を表すパラメータである。
●Ｕ_t ^DRLFは、時間スロットｔにおける、ＤＲＬＦ（第２学習モデル）の性能を示す第２性能指標を表すパラメータである。
●ｐ_t ^AFは、時間スロットｔにおける、ＭＬモデル選択部によりＡＦが選択される確率を表すパラメータである。
●ｐ_t ^DRLFは、時間スロットｔにおける、ＭＬモデル選択部によりＤＲＬＦが選択される確率を表すパラメータである。
●ｗ_t ^AFは、時間スロットｔにおける、ＡＦに対して適用される重みを表すパラメータである。
●ｗ_t ^DRLFは、時間スロットｔにおける、ＤＲＬＦに対して適用される重みを表すパラメータである。

次にＳ６２で、学習コントローラ４２（ＭＬモデル選択部）は、ＭＬモデルの選択用のパラメータであるｐ_t ^AF及びｐ_t ^DRLFに基づいて、ＡＦ及びＤＲＬＦのいずれかのＭＬモデルを選択する。なお、ｐ_t ^AF及びｐ_t ^DRLFは、後述するＳ６３においてパラメータｗ_t ^AF，ｗ_t ^DRLFを用いて時間スロットｔごとに繰り返し更新される。

本実施形態では、学習コントローラ４２は、パラメータｐ_t ^AF及びｐ_t ^DRLFのうち、値が大きい方のパラメータに対応するＭＬモデルを選択する。具体的には、学習コントローラ４２は、パラメータｐ_t ^DRLFの値よりもパラメータｐ_t ^AFの値の方が大きければ、ＡＦ（第１学習モデル）を選択し、パラメータｐ_t ^AFの値よりもパラメータｐ_t ^DRLFの値の方が大きければ、ＤＲＬＦ（第２学習モデル）を選択する。

その後Ｓ６３で、学習コントローラ４２（ＭＬ性能解析部）は、図７に示す手順に従って、ＭＬモデルの性能の解析処理を行う。具体的には、まずＳ７１で、学習コントローラ４２は、環境情報ＤＢ４２２に格納されているネットワーク環境情報に基づいて、各ＭＬモデル（ＡＦ及びＤＲＬＦ）の性能指標（Ｕ_t ^AF，Ｕ_t ^DRLF）を計算する。

より具体的には、学習コントローラ４２は、Ｕ_t ^AFとして、時間スロットｔにおける、ＡＦを適用してアドミッション制御を行った場合の、制御対象のネットワークにおける無線リソースの使用率を計算する。また、学習コントローラ４２は、Ｕ_t ^DRLFとして、時間スロットｔにおける、ＤＲＬＦを適用してアドミッション制御を行った場合の、制御対象のネットワークにおける無線リソースの使用率を計算する。その際、学習コントローラ４２は、ＡＦ及びＤＲＬＦのうち、Ｓ６２における（前回の）選択時に選択されたＭＬモデルについては、ネットワーク環境情報に基づいて性能の評価を行う。また。学習コントローラ４２は、ＡＦ及びＤＲＬＦのうち、Ｓ６２における（前回の）選択時に選択されなかったＭＬモデルについては、ネットワーク環境情報に基づいて性能の予測（シミュレーション）を行って、予測値を性能指標として計算する。

このようにして、学習コントローラ４２は、モニタリングにより得られたネットワーク環境情報に基づいて、スライスのアドミッション制御用のＡＦ及びＤＲＬＦの性能をそれぞれ解析することで、第１性能指標（Ｕ_t ^AF）と第２性能指標（Ｕ_t ^DRLF）とを求める。これらの性能指標は、学習エージェント４２１による、各ＭＬモデルに基づく学習において必要となる報酬（Ｒｅｗａｒｄ）としても使用される。

その後、Ｓ７２〜Ｓ７４で、学習コントローラ４２は、第１性能指標（Ｕ_t ^AF）についての前回の更新時からの改善量と第２性能指標（Ｕ_t ^DRLF）についての前回の更新時からの改善量とに応じて、ｐ_t ^AF（ＡＦに対応する第１パラメータ）とｐ_t ^DRLF（ＤＲＬＦに対応する第２パラメータ）とを更新する処理を行う。

具体的には、Ｓ７２で、学習コントローラ４２は、各ＭＬモデルの性能指標（Ｕ_t ^AF，Ｕ_t ^DRLF）についての前回の更新時からの変化（ΔＵ_t ^AF，ΔＵ_t ^DRLF）を計算する。これは、次式のように計算される。
ΔＵ_t ^AF＝Ｕ_t ^AF−Ｕ_t-1 ^AF
ΔＵ_t ^DRLF＝Ｕ_t ^DRLF−Ｕ_t-1 ^DRLF
ここで、ΔＵ_t ^AFは、第１性能指標（Ｕ_t ^AF）についての前回の更新時からの改善量に相当し、ΔＵ_t ^DRLFは、第２性能指標（Ｕ_t ^DRLF）についての前回の更新時からの改善量に相当する。

パラメータｐ_t ^AF及びｐ_t ^DRLFは、以下で説明するように、第１性能指標（Ｕ_t ^AF）についての前回の更新時からの改善量ΔＵ_t ^AFと、第２性能指標（Ｕ_t ^DRLF）についての前回の更新時からの改善量ΔＵ_t ^DRLFとの差分に応じて更新される。

具体的には、Ｓ７３で、学習コントローラ４２は、各ＭＬモデルに対する重み（ｗ_t ^AF，ｗ_t ^DRLF）を計算する。これは、次式のように計算される。
ｗ_t ^AF＝(ΔＵ_t ^AF−ΔＵ_t ^DRLF)／２
ｗ_t ^DRLF＝(ΔＵ_t ^DRLF−ΔＵ_t ^AF)／２
Ｓ７３における重みの計算により、ＡＦとＤＲＬＦとの間でＭＬモデルの性能の比較が行われる。

その後Ｓ７４で、学習コントローラ４２は、Ｓ７３で計算（更新）した重み（ｗ_t ^AF，ｗ_t ^DRLF）を用いて、パラメータｐ_t ^AF及びｐ_t ^DRLFを更新する。具体的には、次式のようにパラメータの更新が行われる。
ｐ_t ^AF＝ｐ_t-1 ^AF＋ｗ_t ^AF
ｐ_t ^DRLF＝ｐ_t-1 ^DRLF＋ｗ_t ^DRLF

このように、学習コントローラ４２は、第２性能指標（Ｕ_t ^DRLF）についての改善量（ΔＵ_t ^DRLF）に対する第１性能指標（Ｕ_t ^AF）についての改善量（ΔＵ_t ^AF）の差分に応じた重み（ｗ_t ^AF）を用いて、第１パラメータｐ_t ^AFを更新する。また、学習コントローラ４２は、第１性能指標（Ｕ_t ^AF）についての改善量（ΔＵ_t ^AF）に対する第２性能指標（Ｕ_t ^DRLF）についての改善量（ΔＵ_t ^DRLF）の差分に応じた重みを用いて、第２パラメータｐ_t ^DRLFを更新する。

最後にＳ７５で、学習コントローラ４２は、更新されたパラメータ（Ｕ_t ^AF，Ｕ_t ^DRLF，ｐ_t ^AF，ｐ_t ^DRLF，ｗ_t ^AF，ｗ_t ^DRLF）を、ＭＬモデルＤＢに保存し、図７に示す手順によるＳ６３の処理を終了する。その後、学習コントローラ４２は、Ｓ６４へ処理を進める。

Ｓ６４で、学習コントローラ４２は、時間スロットｔを更新し（次の時間スロットに更新し）、処理をＳ６２に戻す。このようにして、学習コントローラ４２は、時間スロットｔを更新しながら、Ｓ６２〜Ｓ６４の処理を繰り返し実行する。このようにして、学習コントローラ４２による、各ＭＬモデルの性能の解析（Ｓ６３）、パラメータｐ_t ^AF及びｐ_t ^DRLFの更新（Ｓ６３）、及び当該パラメータに応じたＭＬモデルの選択（Ｓ６２）は、所定の時間間隔で（時間スロットｔごとに）繰り返し実行される。

ここで、図９は、ＭＬモデルの選択用の各パラメータの時間遷移の例を示す図である。図９に示すように、ＭＬモデルの選択処理の開始時（ｔ＝０）に、Ｕ_t ^AF，Ｕ_t ^DRLF，ｐ_t ^AF，ｐ_t ^DRLF，ｗ_t ^AF，ｗ_t ^DRLFはそれぞれ０に初期化されている。学習コントローラ４２によるアンサンブル学習の初期段階では、ＤＲＬＦよりもＡＦの方が収束性が高いことに起因して、ｐ_t ^DRLFの値よりもｐ_t ^AFの値が高くなる（ｐ_t ^DRLF＜ｐ_t ^AF）。即ち、本実施形態のアンサンブル学習の初期段階では、ＡＦがアドミッション制御に適用される。

その後、ある程度の時間が経過すると、ＡＦよりもＤＲＬＦの方が性能が高くなることで、ｐ_t ^AFの値よりもｐ_t ^DRLFの値が高くなる（ｐ_t ^DRLF＞ｐ_t ^AF）。即ち、ＡＦに代えてＤＲＬＦがアドミッション制御に適用されるようになる。このように、本実施形態のアンサンブル学習を適用した場合、必要となるトレーニング時間を短くしつつ、アドミッション制御についての性能を改善することを実現できる。即ち、複数のＭＬモデル（ＡＦ及びＤＲＬＦ）を効率的に組み合わせてアドミッション制御に適用することが可能になる。

＜通信シーケンス＞
次に、図８を参照して、上述のスライスアドミッション制御に関連する通信シーケンスの例について説明する。なお、図８は、ＵＥからのサービスに起因して、スライスアドミッション制御が実行される例を示している。

まず、ＢＳ２０は、Ｓ８１で、無線リソースブロック（ＲＲＢ）グリッドを生成し、Ｓ８２で、生成したＲＲＢグリッドを示すＲＲＢグリッド情報をＲＩＣ１０へ送信する。ＲＩＣ１０は、Ｓ８３で、受信したＲＲＢグリッド情報に基づいて、ネットワーク環境情報を更新し、Ｓ８４で、ＡＦ及びＤＲＬＦによるアンサンブル学習に基づくＭＬモデルの選択処理（図６及び図７）における選択結果に基づいて選択ＭＬモデルを更新する。

一方、Ｓ８５で、ＵＥにおいてユーザによる要求が発生すると、ＵＥは、Ｓ８６で、サービス要求をＢＳ２０へ送信する。ＢＳ２０は、Ｓ８７で、受信したサービス要求に基づく判定を行う。具体的には、ＢＳ２０は、サービス要求に基づいて、例えばスライスを新規に設定（生成）する必要が生じたと判定した場合には、Ｓ８８で、当該判定結果をＲＩＣ１０へ送信することで、ＲＩＣ１０にスライスアドミッション制御の実行を要求する。

ＲＩＣ１０は、ＢＳ２０からの判定結果の受信に応じて、Ｓ８９で、選択ＭＬモデルに基づくスライスアドミッション制御を行う。その後、ＲＩＣ１０は、Ｓ９０で、アドミッション制御の実行結果として、スライスのセットアップ情報をＢＳ２０へ送信する。ＢＳ２０は、Ｓ９１で、受信したセットアップ情報に基づいて、スライスのセットアップ及びスライスへの無線リソースの割り当ての更新を行う。ＢＳ２０は、Ｓ９２及びＳ９３で、そのセットアップ結果を、ＵＥ及びＲＩＣ１０へそれぞれ送信する。

ＲＩＣ１０は、ＢＳ２０からのセットアップ結果の受信に応じて、ネットワーク環境情報をモニタリングし、モニタリングしたネットワーク環境情報を環境情報ＤＢ４２２に保存する。更に、Ｓ９５で、ＲＩＣ１０は、図６及び図７を用いて上述した手順により、ＡＦ及びＤＲＬＦによるアンサンブル学習に基づくＭＬモデルの選択処理を実行することで、ＭＬモデルを選択する。その後、Ｓ９６で、時間スロットｔを更新する。

以上説明したように、本実施形態のＲＩＣ１０において、アドミッションコントローラ４２は、ネットワーク環境情報をモニタリングする。学習コントローラ４２（学習エージェント４２）は、モニタリングにより得られたネットワーク環境情報に基づいて、スライスのアドミッション制御用の第１学習モデル（ＡＦ）及び第２学習モデル（ＤＲＬＦ）の性能をそれぞれ解析することで、第１学習モデルの性能を示す第１性能指標（Ｕ_t ^AF）と第２学習モデルの性能を示す第２性能指標（Ｕ_t ^DRLF）とを求める。学習コントローラ４２は、第１性能指標についての前回の更新時からの改善量（ΔＵ_t ^AF）と第２性能指標についての前回の更新時からの改善量（ΔＵ_t ^DRLF）とに応じて、第１学習モデルに対応する第１パラメータｐ_t ^AFと第２学習モデルに対応する第２パラメータｐ_t ^DRLFとを更新する。学習コントローラ４２は、更新された第１パラメータ及び第２パラメータに応じて、第１学習モデル又は第２学習モデルを選択する。アドミッションコントローラ４１は、選択された学習モデルを適用してアドミッション制御を行う。

本実施形態によれば、複数の学習モデルを効率的に組み合わせるアンサンブル学習の適用により、必要となるトレーニング時間を短くしつつ、アドミッション制御についての性能を改善することを実現できる。また、本実施形態のＭＬモデルの選択処理は低複雑度の処理により行われるため、アンサンブル学習における適切なＭＬモデルの選択を容易に実現することが可能である。即ち、複数のＭＬモデルを効率的に組み合わせてアドミッション制御に適用することが可能になる。

なお、上述の実施形態では、２つのＭＬモデルを組み合わせてアンサンブル学習を行う構成例について説明したが、３つ以上のＭＬモデルを組み合わせることも可能である。その場合、学習コントローラ４２（学習エージェント４２）は、モニタリングにより得られたネットワーク環境情報に基づいて、スライスのアドミッション制御用の複数の学習モデルの性能をそれぞれ解析することで、当該複数の学習モデルのそれぞれの性能を示す性能指標を求める。学習コントローラ４２は、解析により求められた、複数の学習モデルに対応する複数の性能指標のそれぞれについての前回の更新時からの改善量に応じて、当該複数の学習モデルにそれぞれ対応する複数のパラメータを更新する。更に、学習コントローラ４２は、更新された複数のパラメータに応じて、複数の学習モデルのうちのいずれか１つを選択する。このようにして、３つ以上のＭＬモデルを効率的に組み合わせてアドミッション制御に適用することが可能になる。

［その他の実施形態］
上述の実施形態に係る制御装置（ＲＩＣ）は、コンピュータを制御装置として機能させるためのコンピュータプログラムにより実現することができる。当該コンピュータプログラムは、コンピュータが読み取り可能な記憶媒体に記憶されて配布が可能なもの、又は、ネットワーク経由で配布が可能なものである。

発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。

１０：ＲＩＣ、２０：基地局、１１：アドミッション制御モジュール、４１：アドミッションコントローラ、４２：学習コントローラ、４２１：学習エージェント、４２２：環境情報ＤＢ

Claims

１つ以上の基地局を含むネットワーク上に設定されるスライスのアドミッション制御を行う制御装置であって、
ネットワーク環境情報をモニタリングするモニタリング手段と、
前記モニタリングにより得られた前記ネットワーク環境情報に基づいて、スライスのアドミッション制御用の第１学習モデル及び第２学習モデルの性能をそれぞれ解析することで、前記第１学習モデルの性能を示す第１性能指標と前記第２学習モデルの性能を示す第２性能指標とを求める解析手段と、
前記解析手段により求められた前記第１性能指標についての前回の更新時からの改善量と前記第２性能指標についての前回の更新時からの改善量とに応じて、前記第１学習モデルに対応する第１パラメータと前記第２学習モデルに対応する第２パラメータとを更新する更新手段と、
前記更新手段により更新された前記第１パラメータ及び前記第２パラメータに応じて、前記第１学習モデル又は前記第２学習モデルを選択する選択手段と、
前記選択手段により選択された学習モデルを適用して前記アドミッション制御を行う制御手段と、
を備えることを特徴とする制御装置。
前記解析手段は、
前記第１学習モデルを適用して前記アドミッション制御を行った場合の前記ネットワークにおける無線リソースの使用率を、前記第１性能指標として求め、
前記第２学習モデルを適用して前記アドミッション制御を行った場合の前記ネットワークにおける無線リソースの使用率を、前記第２性能指標として求める
ことを特徴とする請求項１に記載の制御装置。
前記更新手段は、前記第１性能指標についての前記改善量と前記第２性能指標についての前記改善量との差分に応じて、前記第１パラメータ及び前記第２パラメータを更新する
ことを特徴とする請求項１又は２に記載の制御装置。
前記更新手段は、
前記第２性能指標についての前記改善量に対する前記第１性能指標についての前記改善量の差分に応じた重みを用いて、前記第１パラメータを更新し、
前記第１性能指標についての前記改善量に対する前記第２性能指標についての前記改善量の差分に応じた重みを用いて、前記第２パラメータを更新する
ことを特徴とする請求項１から３のいずれか１項に記載の制御装置。
前記更新手段は、前記選択手段により前記第１学習モデルが選択される確率を表すパラメータを、前記第１パラメータとして使用し、前記第２学習モデルが選択される確率を表すパラメータを、前記第２パラメータとして使用する
ことを特徴とする請求項１から４のいずれか１項に記載の制御装置。
前記選択手段は、前記第２パラメータの値よりも前記第１パラメータの値の方が大きければ、前記第１学習モデルを選択し、前記第１パラメータの値よりも前記第２パラメータの値の方が大きければ、前記第２学習モデルを選択する
ことを特徴とする請求項５に記載の制御装置。
前記解析手段による前記解析、前記更新手段による前記更新、及び前記選択手段による前記選択は、所定の時間間隔で繰り返し実行される
ことを特徴とする請求項１から６のいずれか１項に記載の制御装置。
前記解析手段は、前記第１学習モデル及び前記第２学習モデルのうち、前記選択手段による前回の選択時に選択された学習モデルについては、前記ネットワーク環境情報に基づいて性能の評価を行い、前記選択手段による前回の選択時に選択されなかった学習モデルについては、前記ネットワーク環境情報に基づいて性能の予測を行う
ことを特徴とする請求項１から７のいずれか１項に記載の制御装置。
前記アドミッション制御は、新たなスライスの設定、設定済みのスライスの削除、及び設定済みのスライスについての設定変更に伴う、各スライスに割り当てられる無線リソースの制御を含む
ことを特徴とする請求項１から８のいずれか１項に記載の制御装置。
前記解析手段、前記更新手段、及び前記選択手段を含む学習手段を更に備え、
前記学習手段は、前記ネットワーク環境情報に基づく前記第１学習モデルによる学習で更新される、前記アドミッション制御用の学習済モデルと、前記ネットワーク環境情報に基づく前記第２学習モデルによる学習で更新される、前記アドミッション制御用の学習済モデルとを保持しており、
前記制御手段は、前記学習手段によって保持されている学習済モデルのうち、前記選択手段により選択された学習モデルに対応する学習済モデルを用いて前記アドミッション制御を行う
ことを特徴とする請求項１から９のいずれか１項に記載の制御装置。
前記ネットワーク環境情報は、ネットワーク構成に関する情報、スライス設定に関する情報、及び無線リソースの割り当てに関する情報、ネットワークの動作状況に関する情報のうちの１つ以上を含む
ことを特徴とする請求項１から１０のいずれか１項に記載の制御装置。
前記第１学習モデルは、前記第２学習モデルよりもトレーニング時間が短い学習モデルであり、
前記第２学習モデルは、前記第１学習モデルよりも性能が高い学習モデルである
ことを特徴とする請求項１から１１のいずれか１項に記載の制御装置。
前記第１学習モデルは、マルコフ近似による学習モデルであり、
前記第２学習モデルは、深層強化学習による学習モデルである
ことを特徴とする請求項１２に記載の制御装置。
前記制御装置は、前記１つ以上の基地局と通信可能に接続される
ことを特徴とする請求項１から１３のいずれか１項に記載の制御装置。
前記制御装置は、Ｏ−ＲＡＮＡｌｌｉａｎｃｅ（Open Radio Access Network Alliance）のＲＩＣ（RAN Intelligent Controller）である
ことを特徴とする請求項１４に記載の制御装置。
１つ以上の基地局を含むネットワーク上に設定されるスライスのアドミッション制御を行う制御装置であって、
ネットワーク環境情報をモニタリングするモニタリング手段と、
前記モニタリングにより得られた前記ネットワーク環境情報に基づいて、スライスのアドミッション制御用の複数の学習モデルの性能をそれぞれ解析することで、前記複数の学習モデルのそれぞれの性能を示す性能指標を求める解析手段と、
前記解析手段により求められた、前記複数の学習モデルに対応する複数の性能指標のそれぞれについての前回の更新時からの改善量に応じて、前記複数の学習モデルにそれぞれ対応する複数のパラメータを更新する更新手段と、
前記更新手段により更新された前記複数のパラメータに応じて、前記複数の学習モデルのうちのいずれか１つを選択する選択手段と、
前記選択手段により選択された学習モデルを適用して前記アドミッション制御を行う制御手段と、
を備えることを特徴とする制御装置。
１つ以上の基地局を含むネットワーク上に設定されるスライスのアドミッション制御を行う制御装置によって実行される制御方法であって、
ネットワーク環境情報をモニタリングするモニタリング工程と、
前記モニタリングにより得られた前記ネットワーク環境情報に基づいて、スライスのアドミッション制御用の第１学習モデル及び第２学習モデルの性能をそれぞれ解析することで、前記第１学習モデルの性能を示す第１性能指標と前記第２学習モデルの性能を示す第２性能指標とを求める解析工程と、
前記解析工程で求められた前記第１性能指標についての前回の更新時からの改善量と前記第２性能指標についての前回の更新時からの改善量とに応じて、前記第１学習モデルに対応する第１パラメータと前記第２学習モデルに対応する第２パラメータとを更新する更新工程と、
前記更新工程で更新された前記第１パラメータ及び前記第２パラメータに応じて、前記第１学習モデル又は前記第２学習モデルを選択する選択工程と、
前記選択工程で選択された学習モデルを適用して前記アドミッション制御を行う制御工程と、
を含むことを特徴とする制御方法。
１つ以上の基地局を含むネットワーク上に設定されるスライスのアドミッション制御を行う制御装置によって実行される制御方法であって、
ネットワーク環境情報をモニタリングするモニタリング工程と、
前記モニタリングにより得られた前記ネットワーク環境情報に基づいて、スライスのアドミッション制御用の複数の学習モデルの性能をそれぞれ解析することで、前記複数の学習モデルのそれぞれの性能を示す性能指標を求める解析工程と、
前記解析工程で求められた、前記複数の学習モデルに対応する複数の性能指標のそれぞれについての前回の更新時からの改善量に応じて、前記複数の学習モデルにそれぞれ対応する複数のパラメータを更新する更新工程と、
前記更新工程で更新された前記複数のパラメータに応じて、前記複数の学習モデルのうちのいずれか１つを選択する選択工程と、
前記選択工程で選択された学習モデルを適用して前記アドミッション制御を行う制御工程と、
を含むことを特徴とする制御方法。
制御装置が備えるコンピュータに、請求項１７又は１８に記載の制御方法の各工程を実行させるためのプログラム。