JP7279856B2

JP7279856B2 - 方法及び装置

Info

Publication number: JP7279856B2
Application number: JP2022522498A
Authority: JP
Inventors: ロバートアーノット; アルベルトスワレス; パトリシアウェルズ
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-09-06
Filing date: 2020-08-27
Publication date: 2023-05-23
Anticipated expiration: 2040-08-27
Also published as: GB2586868A; US20220264331A1; WO2021045225A2; EP3984270A2; WO2021045225A3; JP2022536813A; GB201912888D0

Description

本発明は、3GPP（3rd Generation Partnership Project）標準又はその同等物又は派生物に従って動作するワイヤレス通信システム及びそのデバイスに関する。この開示は、いわゆる「5G」（又は「次世代」）システムのカバレッジ及び容量の最適化に関連するが、それらと排他的に関連するものではない。

１イントロダクション
セルラーワイヤレスネットワークの複雑さが増すにつれて、その管理及び最適化はますます困難なタスクになっている。同時に、多くのセルが集中型プロセッサによって制御される新しいネットワークアーキテクチャは、より高度な調整及び最適化手法を適用するための範囲を拡大する。3GPP（Third Generation Partnership Project）によって開発されたLTE（Long Term Evolution） 4G標準には、カバレッジ及び容量の最適化、モビリティの最適化、負荷分散などの多くのネットワーク管理機能の自動化を目的としたSON（Self-Organising Network）特徴のセットが含まれる。自動化された管理及び最適化へのこの傾向は、5Gワイヤレスネットワークの展開とともに今後も続くと見込まれている。

D. Silver, T. Hubert, J. Schrittwieser, I. Antonoglou, M. Lai, A. Guez et al. "A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play", Science 07 Dec. 2018: 1140-1144 D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez et al. "Mastering the game of go without human knowledge", Nature, 550:354, 10 2017. M. N. ul Islam and A. Mitschele-Thiel, "Reinforcement learning strategies for self-organized coverage and capacity optimization", 2012 IEEE Wireless Communications and Networking Conference (WCNC), Shanghai, 2012, pp. 2818-2823. S. Berger, A. Fehske, P. Zanier, I. Viering and G. Fettweis, "Online Antenna Tilt-Based Capacity and Coverage Optimization", in IEEE Wireless Communications Letters, vol. 3, no. 4, pp. 437-440, Aug. 2014. T. Cai, G. P. Koudouridis, C. Qvarfordt, J. Johansson, P. Legg, "Coverage and Capacity Optimization in E-UTRAN Based on Central Coordination and Distributed Gibbs Sampling", 2010 IEEE 71st Vehicular Technology Conference, Taipei, 2010, pp. 1-5. A. Engels, M. Reyer, X. Xu, R. Mathar, J. Zhang and H. Zhuang, "Autonomous Self-Optimization of Coverage and Capacity in LTE Cellular Networks", in IEEE Transactions on Vehicular Technology, vol. 62, no. 5, pp. 1989-2004, Jun 2013. S. Fan, H. Tian and C. Sengul, "Self-optimization of coverage and capacity based on a fuzzy neural network with cooperative reinforcement learning", in EURASIP Journal on Wireless Communications and Networking, 2014:57 N. C. Luong, D. T. Hoang, S. Gong, D. Niyato, P. Wang, Y.-C. Liang, and D. In Kim, "Applications of Deep Reinforcement Learning in Communications and Networking: A Survey" arXiv preprint https://arxiv.org/abs/1810.07862 C. Zhang, P. Patras and H. Haddadi, "Deep Learning in Mobile and Wireless Networking: A Survey", in IEEE Communications Surveys & Tutorials. doi: 10.1109/COMST.2019.2904897 Y. Yang et al., "DECCO: Deep-Learning Enabled Coverage and Capacity Optimization for Massive MIMO Systems", in IEEE Access, vol. 6, pp. 23361-23371, 2018. Y.S. Nasir and D. Guo, "Multi-Agent Deep Reinforcement Learning for Dynamic Power Allocation in Wireless Networks", arXiv preprint https://arxiv.org/pdf/1808.00490.pdf F. Meng, P. Chen, L. Wu and J. Cheng "Power Allocation in Multi-User Cellular Networks: Deep Reinforcement Learning Approaches", arXiv preprint https://arxiv.org/pdf/1901.07159.pdf 3GPP Technical Report (TR) 38.901, Study on channel model for frequencies from 0.5 to 100 GHz (Release 15) V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare et al. "Human-level control through deep reinforcement learning", Nature vol.5 18, pp. 529-533, 26 Feb. 2015. H. van Hasselt. "Double Q-learning", Advances in Neural Information Processing Systems, 23:2613-2621, 2010. B.T. Lowerre, "The HARPY speech recognition system", Ph.D dissertation, Carnegie Mellon Univ., Apr. 1976. Kingma, D., Ba, J.: "Adam: A method for stochastic optimization", arXiv preprint arXiv:1412.6980 (2014) Bellman, R. and Kalaba, R. (1964). "Selected papers on mathematical trends in control theory", Dover. F. Chollet et al. "Keras". https://keras.io, 2015. J. Garcia and F. Fernandez "A Comprehensive Survey on Safe Reinforcement Learning", Journal of Machine Learning Research vol. 16, pp. 1437-1480, 2015 E. Wagstaff, F. B. Fuchs, M. Engelcke, I. Posner and M. Osborne "On the Limitations of Representing Functions on Sets", arXiv preprint https://arxiv.org/pdf/1901.09006.pdf

ワイヤレスネットワークで発生する制御及び最適化の問題の多くは、KPI（key performance indicator）の組み合わせを最大化するために、さまざまなパラメータを調整する必要がある組み合わせ最適化問題と見なすことができる。調整されるパラメータには、セル送信電力レベル、アンテナの傾斜角、ハンドオーバー閾値、アドミッション制御閾値、ビームフォーミング構成、及びスケジューラーパラメータが含まれ得る。多くの場合、これらの最適化問題は、NP困難であり、解決するのに法外な費用がかかり、実際には、比較的単純なヒューリスティックを使用して、適切な次善のソリューションをサーチするのが一般的である。

このようなアプローチの問題の1つは、可能なパラメータ設定の非常に大きなスペースをどのように探索するかということである。一般的なヒューリスティックの1つは、即時の報酬を最大化するようにパラメータを徐々に調整する「グリーディ」法を適用することである。これは、戦略ゲームで1つ先だけを見ることに似ており、比較的貧弱なローカルな最適点でスタックするアルゴリズムとなる結果になることがよくある。もう1つの問題は、既存の方法が、潜在的なソリューションを評価するために、環境の単純化された数学的モデルに依存することが多いことである。ただし、実際の環境は複雑であるため、分析モデルが非常に不正確になり、実際には最適化による利益の多く（又は全て）が失われる可能性がある。

最近、強化学習を使用してトレーニングされた深層ニューラルネットワークが、囲碁（非特許文献1及び2）などの戦略ゲームで強力なパフォーマンスを達成することがわかっている。さらに、ニューラルネットワークはそれ自体に対してゲームをプレイすることによって独自のトレーニングデータを効果的に生成するため、このパフォーマンスはトレーニング例を提供する必要なしに達成できる。戦略ゲームは、組み合わせ最適化の問題と密接に関連している。戦略ゲームの目的は、即時の報酬（駒を取ることなど）だけでなく、最終的な報酬（ゲームに勝つこと）を最大化するムーブを選択することである。ボード状態が与えられると、ニューラルネットワークは、使用可能なムーブの広大なスペースから有望なムーブの小さなセットをすばやく識別できる。次に、この有望なムーブのセットをサーチアルゴリズムで調べることができる。このことは、ワイヤレスネットワークで発生する最適化問題のタイプについて同様の「直感」を取得するように深層ニューラルネットワークをトレーニングできるかどうかを尋ねる動機になり、これにより、既存のヒューリスティックベースのサーチ方法よりも優れたものになる。さらに、強化学習エージェントは、観測データから直接学習することで「モデルフリー」で動作できるため、環境を正確に表すことができる数学的モデルの必要性を回避できる。

理想的には、我々は、ワイヤレスネットワークの状態（の幾つか）をニューラルネットワークに入力し、パラメータ調整の推奨事項を出力できるようにする必要がある。本願は、カバレッジ及び容量の最適化（CCO：Coverage and Capacity Optimisation）の特定の問題に焦点を当てることにより、このアプローチの実現可能性を探る。CCOの目的は、ユーザが経験するスループットに関連するメトリックを最大化するように、ネットワークパラメータを調整することである。アンテナの傾斜（非特許文献3及び4）及び送信電力は、CCOで考慮されている主なパラメータである。この研究において、本発明者らは、送信電力の最適化に焦点を合わせているが、同じアプローチが他のネットワーク管理エリアにも適用され得ることが理解されるであろう。非特許文献5は、分散ギブスサンプリング電力割り当てプロセスの実行を調整する集中型コントローラを備えたハイブリッドアルゴリズムを導入している。各セルで実行されるが、隣接するセルの電力変化の長期間の遅延への影響を計算してセル間で交換することに依存している。非特許文献6及び7は、アンテナの傾斜及び送信電力を共同で調整する。非特許文献6は、カバレッジのヒューリスティックな優先順位付け又は容量の最適化と混合整数線形プログラムとの組み合わせを使用する。非特許文献7は、ファジーロジックと表形式のQ学習とを組み合わせ、分散型SONエンティティが集中型コントローラを介して最適化の経験を共有する。

ワイヤレス通信問題への深層学習技術の適用は、例えば、非特許文献8及び9とその中の参考文献を参照すると、最近大きな注目を集めている。非特許文献10では、ユーザスケジューリングアルゴリズムで使用される2つのパラメータを制御することにより、大規模MIMOシステムのカバレッジ及び容量の最適化に深層強化学習が使用されている。非特許文献11及び12は、集中学習と分散エージェントとの組み合わせを使用して、各セル又はリンクでアクションを実行する。非特許文献11は、モバイルアドホックネットワークの動的電力割り当て問題に深層RLを適用する。この問題では、電力割り当ては、各リンクに個別に適用され、遅延チャネル状態情報に基づいている。非特許文献12は、セルラーネットワークのための複数の強化学習方法（深層Q学習、ポリシーベース及びアクタークリティカルな方法）を比較するが、送信電力の変更に関係なく、セルの関連付けは固定されている。対照的に、本明細書では、送信電力の変更により、セル関連付けと、所与のユーザがセルに割り当てられるリソース量と、が変更される可能性があり、そのセルに接続されている全てのユーザ間で均等に共有されると想定する。

本明細書での我々のゴールは、多数のセル（この例では7つのセル）で構成される小規模なワイヤレスネットワークのコンピュータシミュレーションにおけるCCO問題を解決するために深層ニューラルネットワークをトレーニングすることである。我々は、ワイヤレスネットワークのモデルを使用して、ニューラルネットワークのトレーニング及びテストのための合成データを生成する。

本明細書の残りの部分は、次のように編成されている。セクション2では、我々が解決しようとするCCOの問題について説明する。セクション3では、この問題を強化学習のスタンダードなフレームワークにマッピングする方法を示す。セクション4では、我々の方法のパフォーマンスを評価するための比較に使用するベースラインの方法について説明する。セクション5では、使用されたニューラルネットワークのアーキテクチャを示し、セクション6では、ニューラルネットワークのトレーニング方法について説明する。セクション7では、トレーニングされたニューラルネットワークをサーチベースのアルゴリズム内で使用できる方法について説明する。セクション8では、シミュレーションのパフォーマンス結果を示す。セクション9では、我々のアプローチのスケーラビリティ及びその他の実際的な問題を反映し、セクション10では、幾つかの結論を示す。一般的なシステムの概要は、図１から図４を参照して、セクション11で提供される。

一態様では、本発明は、ネットワーク最適化を実行するための方法を提供し、前記方法は、ネットワーク環境内の複数のユーザ機器（UE：user equipment）のそれぞれについて、前記ネットワーク環境のセルラー領域の事前定義されたセットについての現在のネットワーク状態を示す少なくとも１つのそれぞれのメトリックを推定及び／又は測定すること、前記複数のUEについての前記推定及び／又は測定されたメトリックによって表される前記現在のネットワーク状態について、予想される将来の利益を最大化する少なくとも１つのアクションであって、対応するセルラー領域で実行される少なくとも１つのネットワーク最適化アクション又はネットワーク最適化アクションが実行されないヌルアクションを含む前記少なくとも１つのアクションを決定すること、及び、前記決定の結果に基づいて、前記対応するセルラー領域に前記決定された少なくとも１つのネットワーク最適化アクションを適用すること、又は、ネットワーク最適化アクションを適用しないことと、を含み、前記決定は、フィードフォワードアーキテクチャ及び前記決定された少なくとも１つのアクションを示す出力を有するニューラルネットワークへの入力として、前記複数のUEについて前記推定及び／又は測定されたメトリックによって表される前記現在のネットワーク状態を適用することによって実行される。

少なくとも１つのそれぞれのメトリックの前記推定及び／又は測定は、複数のサブネットワーク及び複数のReLU（rectified linear unit）を含む少なくとも１つのニューラルネットワークを使用しても良い。この場合、前記少なくとも１つのニューラルネットワークは、前記複数のUEのそれぞれについて、そのUEについての前記少なくとも１つのそれぞれのメトリックの1つ又は複数の現在の値を表すそれぞれの入力データを受信し、前記受信した入力データを蓄積して、前記蓄積された入力データを、複数のノード及び複数のReLUを備えた少なくとも１つのフィードフォワードレイヤを介して供給し、特定のネットワーク状態について予想される将来の利益を最大化する前記少なくとも１つのアクションを識別する情報を出力する、ように構成されても良い。

予想される将来の利益を最大化する前記少なくとも１つのアクションは、現在のネットワーク状態を示す前記少なくとも１つのそれぞれのメトリックと、前記少なくとも１つのアクションが適用された場合の前記少なくとも１つのそれぞれのメトリックの推定と、の間の差に基づいて、決定されても良い。

前記予想される将来の利益は、ディスカウントファクターを使用して決定され、前記ディスカウントファクターの値は、前記予想される将来の利益が比較的短期間の将来の利益であるか、又は、比較的長期間の将来の利益であるかを決定しても良い。前記ディスカウントファクターは、即時の将来の利益を最大化する値（例えば、「0」）に最初に設定されても良い。

前記ネットワーク最適化は、カバレッジ及び容量の最適化（例えば、送信電力の最適化／アンテナ傾斜の最適化）を含んでも良い。前記少なくとも１つのメトリックは、前記ネットワーク環境の環境モデルを使用して推定されても良い。前記少なくとも１つのそれぞれのメトリックは、所与のUEについて、そのUEについてのセル関連付け、そのUEについてのSINR（signal-to-interference-plus-noise ratio）、及びそのUEについてのスループットのうちの少なくとも１つを含んでも良い。

前記少なくとも１つのネットワーク最適化アクションは、前記ネットワークのセルに関連する電力オフセットを増加させること、又は、前記ネットワークのセルに関連する電力オフセットを減少させることを含んでも良い。前記ネットワークによってカバーされるセルラー領域の前記事前定義されたセットは、少なくとも１つのセルの事前定義されたセット、又は、（少なくとも１つのセルにおける）少なくとも１つのビームの事前定義されたセットを含んでも良い。

一態様では、本発明は、ネットワーク最適化で使用するためのフィードフォワードアーキテクチャを有するニューラルネットワークをトレーニングするための方法を提供し、前記方法は、複数の学習反復を実行することを含み、それぞれの学習反復は、それぞれの複数の連続する時間ステップを含み、前記複数の学習反復のそれぞれについて、前記方法は、以下を含む。ｉ）前記複数の連続する時間ステップのそれぞれについて、（ａ）ネットワーク環境内の複数のユーザ機器（UE：user equipment）のそれぞれについて、前記ネットワーク環境のセルラー領域の事前定義されたセットについての現在のネットワーク状態を示す少なくとも１つのそれぞれのアクション前のメトリックを推定し、（ｂ）前記セルラー領域の少なくとも１つで実行される少なくとも１つのネットワーク最適化アクションを選択し、（ｃ）前記ネットワーク環境内の前記複数のUEのそれぞれについて、前記選択されたアクションが実行された後、セルラー領域の前記事前定義されたセットについて、アクション後のネットワーク状態を示す少なくとも１つのそれぞれのアクション後のメトリックを推定し、（ｄ）前記選択されたアクションが実行された後の前記ネットワーク状態を示す少なくとも１つのアクション後のメトリックに基づいて、前記選択されたアクションを適用することから生じる観察された報酬を決定し、（ｅ）前記選択されたアクション、前記観察された報酬、前記少なくとも１つのそれぞれのアクション前のメトリック、及び、前記少なくとも１つのそれぞれのアクション後のメトリックを互いに関連付けて含むサンプルを、メモリに格納すること、ｉｉ）前記メモリから複数の前記格納されたサンプルを抽出すること、及びｉｉｉ）前記抽出されたサンプルに基づいて前記ニューラルネットワークを更新すること。ここで、前記ニューラルネットワークは複数の重みを含み、前記更新は、前記抽出されたサンプルに基づいて前記重みを調整することを含む。

ニューラルネットワークをトレーニングするための方法は、SON（Self-Organising Network）アルゴリズムによって選択されたアクションに基づいて前記複数の重みの調整が実行される初期フェーズをさらに含んでも良い。

所与の状態の各ネットワーク最適化アクションは、そのネットワーク最適化アクションを選択する確率を定義するそれぞれの関連する確率εを有し、前記（ｂ）の前記セルラー領域の少なくとも１つで実行される少なくとも１つのネットワーク最適化アクションを選択することは、前記確率εに基づいて実行され、前記確率εは、前記複数の学習反復にわたって、初期値（例えば、「１」）から最終値（例えば、「０．１」）まで徐々に変化しても良い。各確率εは、「０」と「１」との間の値を有し、前記（ｂ）の前記セルラー領域の少なくとも１つで実行される少なくとも１つのネットワーク最適化アクションを選択することは、ランダムに、かつ、所与のネットワーク最適化アクションについて１－εの確率で実行されても良い。

一態様では、本発明は、ネットワーク最適化で使用するためのニューラルネットワークをトレーニングするための方法を提供し、前記方法は、前記ニューラルネットワークの複数の重みを調整するために複数の学習反復を実行することを含み、初期フェーズでは、前記複数の重みの調整は、SON（Self-Organising Network）アルゴリズムによって選択されたアクションに基づいて実行され、次のフェーズでは、前記複数の重みの調整は、前記ニューラルネットワークによって選択されたアクションに基づいて実行される。

前記方法は、前記ニューラルネットワークが、事前決定された信頼性で前記SONアルゴリズムの前記アクションを予測することを学習したかどうかを決定することと、前記決定に依存して、前記次のフェーズに進むことと、をさらに含んでも良い。

一態様では、本発明は、ネットワーク最適化を実行するための方法を提供し、前記方法は以下を含む。（ａ）ネットワーク環境の現在のネットワーク状態を示す少なくとも１つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うこと、（ｂ）それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも１つのメトリックをそれぞれ推定すること、（ｃ）それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「Ｂ」のネットワーク最適化アクションを選択すること、（ｄ）それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定すること、（ｅ）全ての次のネットワーク状態の中から、少なくとも１つの追加メトリックに基づいて、最大で事前決定された数「Ｗ」のベストなネットワーク状態を選択すること、（ｆ）それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「Ｄ」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ（ｂ）を繰り返すこと、（ｇ）前記少なくとも１つの追加メトリックに基づいて、最適なネットワーク状態を識別すること、ここで、前記最適なネットワーク状態は、推定された前記少なくとも１つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、（ｈ）前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別すること、及び、（ｉ）前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用すること。

現在の又は推定されたネットワーク状態を示す前記少なくとも１つのメトリックは、スループットメトリックを含んでも良い。前記ネットワーク環境の次のネットワーク状態を示す少なくとも１つのメトリックをそれぞれ推定することは、前記ネットワーク環境内の複数のユーザ機器（UE：user equipment）のそれぞれについて、前記ネットワーク環境のセルラー領域の事前定義されたセットについての前記初期ネットワーク状態を示す少なくとも１つのそれぞれのメトリックを推定及び／又は測定すること、前記複数のUEについての前記推定及び／又は測定されたメトリックによって表される前記初期ネットワーク状態について、予想される将来の利益を最大化する少なくとも１つのアクションを決定すること、及び、前記決定の結果に基づいて、前記対応するセルラー領域に前記決定された少なくとも１つのネットワーク最適化アクションを適用すること、によって実行され、前記決定は、フィードフォワードアーキテクチャ及び前記決定された少なくとも１つのネットワーク最適化アクションを示す出力を有するニューラルネットワークへの入力として、前記複数のUEについて前記推定及び／又は測定されたメトリックによって表される前記初期ネットワーク状態を適用することによって実行されても良い。

一態様では、本発明は、ネットワーク最適化を実行するための装置を提供し、前記装置は、ネットワーク環境内の複数のユーザ機器（UE：user equipment）のそれぞれについて、前記ネットワーク環境のセルラー領域の事前定義されたセットについての現在のネットワーク状態を示す少なくとも１つのそれぞれのメトリックを推定及び／又は測定するための手段、前記複数のUEについての前記推定及び／又は測定されたメトリックによって表される前記現在のネットワーク状態について、予想される将来の利益を最大化する少なくとも１つのアクションであって、対応するセルラー領域で実行される少なくとも１つのネットワーク最適化アクション又はネットワーク最適化アクションが実行されないヌルアクションを含む前記少なくとも１つのアクションを決定するための手段、及び、前記決定の結果に基づいて、前記対応するセルラー領域に前記決定された少なくとも１つのネットワーク最適化アクションを適用するか、又は、ネットワーク最適化アクションを適用しないための手段、を含み、前記決定するための手段は、フィードフォワードアーキテクチャ及び前記決定された少なくとも１つのアクションを示す出力を有するニューラルネットワークへの入力として、前記複数のUEについて前記推定及び／又は測定されたメトリックによって表される前記現在のネットワーク状態を適用するように構成される。

一態様では、本発明は、ネットワーク最適化で使用するためのフィードフォワードアーキテクチャを有するニューラルネットワークをトレーニングするための方法を提供し、前記方法は、複数の学習反復を実行するための手段を含み、それぞれの学習反復は、それぞれの複数の連続する時間ステップを含み、前記複数の学習反復のそれぞれについて、前記手段は、以下のように構成される。ｉ）前記複数の連続する時間ステップのそれぞれについて、（ａ）ネットワーク環境内の複数のユーザ機器（UE：user equipment）のそれぞれについて、前記ネットワーク環境のセルラー領域の事前定義されたセットについての現在のネットワーク状態を示す少なくとも１つのそれぞれのアクション前のメトリックを推定し、（ｂ）前記セルラー領域の少なくとも１つで実行される少なくとも１つのネットワーク最適化アクションを選択し、（ｃ）前記ネットワーク環境内の前記複数のUEのそれぞれについて、前記選択されたアクションが実行された後、セルラー領域の前記事前定義されたセットについて、アクション後のネットワーク状態を示す少なくとも１つのそれぞれのアクション後のメトリックを推定し、（ｄ）前記選択されたアクションが実行された後の前記ネットワーク状態を示す少なくとも１つのアクション後のメトリックに基づいて、前記選択されたアクションを適用することから生じる観察された報酬を決定し、（ｅ）前記選択されたアクション、前記観察された報酬、前記少なくとも１つのそれぞれのアクション前のメトリック、及び、前記少なくとも１つのそれぞれのアクション後のメトリックを互いに関連付けて含むサンプルを、メモリに格納する、ｉｉ）前記メモリから複数の前記格納されたサンプルを抽出する、及び、ｉｉｉ）前記抽出されたサンプルに基づいて前記ニューラルネットワークを更新する。ここで、前記ニューラルネットワークは複数の重みを含み、前記更新は、前記抽出されたサンプルに基づいて前記重みを調整することを含む。

一態様では、本発明は、ネットワーク最適化で使用するためのニューラルネットワークをトレーニングするための装置を提供し、前記装置は、前記ニューラルネットワークの複数の重みを調整するために複数の学習反復を実行するための手段を含み、初期フェーズでは、前記複数の重みの調整は、SON（Self-Organising Network）アルゴリズムによって選択されたアクションに基づいて実行され、次のフェーズでは、前記複数の重みの調整は、前記ニューラルネットワークによって選択されたアクションに基づいて実行される。

一態様では、本発明は、ネットワーク最適化を実行するための装置を提供し、前記装置は以下を含む。（ａ）ネットワーク環境の現在のネットワーク状態を示す少なくとも１つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うための手段、（ｂ）それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも１つのメトリックをそれぞれ推定するための手段、（ｃ）それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「Ｂ」のネットワーク最適化アクションを選択するための手段、（ｄ）それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定するための手段、（ｅ）全ての次のネットワーク状態の中から、少なくとも１つの追加メトリックに基づいて、最大で事前決定された数「Ｗ」のベストなネットワーク状態を選択するための手段、（ｆ）それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「Ｄ」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ（ｂ）を繰り返すための手段、（ｇ）前記少なくとも１つの追加メトリックに基づいて、最適なネットワーク状態を識別するための手段、ここで、前記最適なネットワーク状態は、推定された前記少なくとも１つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、（ｈ）前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別するための手段、及び、（ｉ）前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用するための手段。

本発明の態様は、対応するシステム、及び上記の態様および可能性で説明した、又は請求項に記載された、及び／又は請求項のいずれかに記載の装置を提供するように適切に適合されたコンピュータをプログラムする、方法を実行するためにプログラム可能なプロセッサをプログラムするように動作可能な命令を格納したコンピュータ可読記憶媒体などのコンピュータプログラム製品に及ぶ。

本明細書（この用語は特許請求の範囲を含む）に開示されている及び／又は図面に示されている各特徴は、他の開示及び／又は図示された特徴とは独立して（又は組み合わせて）本発明に組み込むことができる。特に、ただしこれらに限定されないが、特定の独立請求項に従属する任意の請求項の特徴は、任意の組み合わせで又は個別に、その独立請求項に導入することができる。

上述した態様は、上述した課題の解決に寄与し得る。

実施形態が適用可能なモバイル通信システムの例を概略的に示す図である。図１に示されるUEの主要なコンポーネントの例を示すブロック図である。図１に示される（R）ANノードの主要なコンポーネントの例を概略的に示すブロック図である。図１に示されるコアネットワークノードの主要なコンポーネントの例を概略的に示すブロック図である。 C=7のセルサイトの小規模なワイヤレスネットワークの例を概略的に示す図である。 RLエージェントと環境モデルとの間の相互作用の例を示す図である。フィードフォワードアーキテクチャ及び入力データのフォーマットの例を示す図である。経験再生メモリと、重みを有する個別のターゲットニューラルネットワークと、の例を示す図である。修正されたε-グリーディポリシーを用いたRLエージェントのトレーニングパフォーマンスの例を示す図である。修正されたε-グリーディポリシーを用いたRLエージェントのトレーニングパフォーマンスの例を示す図である。修正されたε-グリーディポリシーを用いたRLエージェントのトレーニングパフォーマンスの例を示す図である。ビームサーチアルゴリズムの例を示す図である。「CCOなし」の場合のスループットメトリックに関連する各アルゴリズムのスループットメトリックμの分布の例を示す図である。 UE数の関数としてのr.m.s.エラーの例を示す図である。

２システムモデル
２．１環境モデル
このセクションでは、我々は、RLエージェントが動作するワイヤレスネットワークの我々のモデルについて説明する。我々は、表１に示されるパラメータを使用して、図５に示されるように、C = 7のセルサイトの小規模なワイヤレスネットワークを想定している。

以下の例示的な実施形態では、3GPPの用語「ユーザ機器」（UE：User Equipment’）は、ユーザを指すために使用される。UEは、ポアソン過程のコール到着モデルに基づいて、システムにランダムに到着及び出発すると仮定される。コール時間は、平均120秒のジオメトリック分布からサンプリングされる。各UEのロケーションは、シミュレーションエリア全体でランダムに均一に選択され、各UEは、コール中は静止していると仮定される。同時にアクティブなUEの数は、時間とともに変化し、平均は28であり、アクティブなUEの数は、時間の約90％で20から40の範囲にある。我々は、所与の時点でアクティブなUEの数をKと表す。

セルi（ここで、1≦i≦C）は、電力レベル

で信号を送信する。ここで、Pはデフォルトの送信電力、Δ_iはセルiのセル電力オフセット（単位はdB）である。我々は、Δ_iは、ステップサイズΔ^stepで、Δ^minからΔ^maxの範囲で調整できると仮定している。セルiに関するUE k（1≦k≦K）のRSRP（Reference Signal Received Power）は、RSRP_k,i = G_k,iP_iで与えられる。ここで、G_k,iは、アンテナゲイン及び伝搬パスロス（シャドウフェージングを含む）を含む、UE kとセルiとの間の無線伝搬チャネルの合計ゲインである。各UE kは、最も高いRSRP_k,iを持つセルをそのサービングセルc_kとして選択する。すなわち、c_k = argmax_i RSRP_k,iである。我々は、セルiによってサーブされるUEの数をN_iで示す。UE kのSINR（signal-to-interference-plus-noise ratio）は、次式で与えられる。

分子は、サービングセルから受信した電力である。分母の最初の項は、UE kの受信機における加算性ホワイトガウスノイズの電力である。第2項は、UE kのサービングセル以外のセルから受信した干渉である。UE kでのセルiの干渉電力I_k,iは、次式で与えられる。

いずれのUEもサーブしていないセルは、電力を送信しないと仮定されているため、干渉が発生しないことに注意されたい。我々は、UE kが経験するデータレートは、シャノンハートレーの定理に従って

ビット／秒／Hzで与えられると仮定している。分母の項

は、所与のセルの帯域幅リソースが、比例公平スケジューラによってそのセルによってサーブされるUE間で共有されるという仮定を反映している。

２．２ CCO問題の説明
我々は、CCO問題を正確に定義できる。最適化の我々の目的として、我々は、スループットメトリック

を使用する。この式のlog()の理由は、UE間にある程度の公平性を強制し、無線伝搬条件が比較的悪いUEの枯渇を回避するためである。CCO問題は、次のように組み合わせ最適化として説明できる。

セル電力オフセットΔ_iは、2つの方法でメトリックμに影響を与える可能性があることに注意されたい。それらは、SINR_kに直接影響し、また、それらは、RSRP_k,iに影響するため、セル関連付け（サービングセルc_kの選択）を変更することもできる。Δ_iを調整すると、セル関連付けが変更される可能性があるという事実により、μはΔ_iの不連続関数になる。

３強化学習問題としての定式化
強化学習を適用するために、我々は、まず、CCO問題をマルコフ決定過程（MDP：Markov Decision Process）として定式化する必要がある。これは、図６に示されるように、RLエージェントと環境との間の相互作用を定義することによって行われる。最高レベルでは、RLエージェントは、その状態を観察し、アクションを適用し、それらのアクションに対する次の報酬を観察することによって、環境との相互作用を行う。CCOの問題に対する状態、アクション、報酬を定義する方法としては多くの方法がある。以下に説明するように、我々の定式化は、1つの可能なアプローチに過ぎない。

この例では、我々は、1つのRLエージェントが全てのセルを制御する集中型SONアーキテクチャを仮定している。ただし、適切な場合、複数のRLエージェントを使用することができ、その場合、各RLエージェントは、全てのセルのそれぞれのサブセットを制御するように構成することができることが理解されよう。この例のRLエージェントは、モデルフリーであり、これは、セクション2で説明した環境モデルの知識がないことを意味する。

我々は、100msのタイムステップを仮定している。各タイムステップtで、RLエージェントは、ワイヤレスネットワークの状態s_tを観察する。我々は、RLエージェントは、RSRP測定RSRP_k,i、各UEのサービングセルID c_k、及び、現在のセル電力オフセット設定Δ_iを、状態情報として観察できると仮定している。各タイムステップで、RLエージェントは、1つのアクションを選択する。ここで、アクションは、1つのセルのセル電力オフセットを、Δ^stepの量だけ増加又は減少させることで構成される。さらに、セルの電力オフセットを変更しないヌルアクションを選択できる。したがって、エージェントが使用できるアクションの総数は、2C + 1 = 15である。Δ_iがΔ^max又はΔ^minを超える結果になる場合、アクションはブロックされる。選択されたアクションを適用した後、セクション2で説明した環境モデルを呼び出して、各UEのセル関連付けc_k及びSINRと、目的関数（スループットメトリック）μの新しい値と、を再計算する。

a_tは、現在の観測された状態s_tに基づいてタイムステップtでエージェントによって選択されたアクションを示す。μ_tは、アクションを適用する前の目的関数の値であり、μ_{t +1}は、適用後の値である。アクションa_tの適用に応答してエージェントが観察する報酬は、r_t = μ_{t + 1} - μ_tとして定義される。言い換えると、報酬は、アクションa_tを適用する前後で観察されたスループットメトリックの差である。ヌルアクションが選択されている場合、r_t = 0であることに注意されたい（代わりに、我々は、アクションr_t = μ_{t + 1}を実行した後に観測されたメトリックとして報酬を定義できる。実際、これは、各状態での最適なアクションが同じであるという意味で、同等のMDPになることにつながる）。

RLエージェントの動作は、状態sでアクションaを選択する確率を定義するポリシーπ（s,a）として表される。最適なポリシーは、

で定義されるように、予想されるディスカウントされる将来のリターンの合計又は長期間の報酬を最大化する。（この場合、状態遷移及び報酬は、システムモデルに従った状態及びアクションの決定論的関数であるため、予想演算子を削除できる）。ディスカウントファクターγは、0 <γ≦1の範囲の値である。我々の実験では、我々は、γ= 0.95を使用する。

我々は、RLエージェントが、UEの地理的分布の変化に応じてセルオフセットを調整し、継続的に動作することを意図しているため、MDPには端末状態がないことに注意されたい。ただし、実際には、我々は、UEの地理的分布はRLエージェントのタイムステップと比較して比較的ゆっくりと変化すると予想する。静的なUE地理的分布の場合、エージェントがセル電力オフセットΔ_iを調整し、μを最大化する設定にΔ_iをさらに調整すると、現在の状態に残る場合の報酬よりも低い報酬が生成される。したがって、全てのΔ_iが最適に調整されている状態は、最適なポリシーがヌルアクションを永久に（又はUE分布が変化するまで）選択している安定したポイントである。同じ状態で永久に残ることによって得られるディスカウントされる将来のリターンの合計は、

である。これは、RLエージェントが継続的に動作している場合でも、我々が、ヌルアクションが選択されたときに入力される報酬r_t = 0である「疑似端末」状態を定義することを選択できることを示唆している。我々の実験は、我々がヌルアクションを疑似端末状態として扱うかどうかにかかわらず、RLエージェントのパフォーマンスに大きな違いはないことを示唆している。疑似端末状態は、本明細書で報告されている実験には使用されない。

最適なポリシーは次の形式で記述できる。

ここで、Q（s,a）は、状態sでアクションaを選択し、その後ポリシーπ（s,a）に従うことによって得られる、予想されるディスカウントされる将来のリターンの合計である。したがって、最適なポリシーを見つける問題は、各状態及びアクションについて値Q（s,a）を見つけて、所与の状態sで最大のQ（s,a）を持つアクションを選択することと等価である。状態はUEの地理的分布に依存し、したがって継続的であるため、Q（s,a）を全ての可能な状態及びアクションに対して明示的に格納することはできない。代わりに、我々は、以降のセクションで説明するように、Q（s,a）を推定するための関数近似として深層ニューラルネットワークを使用する。

４パフォーマンスのベースライン
RLエージェントのパフォーマンスをテストするために、我々は、次のように、3つのベースラインと比較する。
1. CCOなし（No CCO）。全ての電力オフセットはΔ_i = 0 dBに固定されている。
2. ランダムアルゴリズム。アクションは、各タイムステップでランダムに均一に選択される。
3. グリーディアルゴリズム。各タイムステップで、使用可能な各アクションa_t（ヌルアクションを含む）を暫定的に試行し、報酬r_tが最大のアクションを選択する。

グリーディアルゴリズムは即時の報酬を最大化しようとするが、RLエージェントの目的は長期間の報酬を最大化することである。したがって、理論的には、RLエージェントは、グリーディアルゴリズムよりも優れたパフォーマンスを発揮できるはずである。

グリーディアルゴリズムでは、各タイムステップで全てのアクションを暫定的に試行することを許可していることに注意されたい。我々は、RLエージェントがこれを行うことを許可していない。RLエージェントは、各タイムステップで1つのアクションのみを試行できる。同様に、グリーディアルゴリズムは、環境の理想的なモデルにアクセスでき、それを使用して、考えられる各アクションの効果を完全な精度で予測できると言える。セクション1で述べたように、実際には、無線環境のそのような正確な数学的モデルを構築することは現実的ではない。

５ニューラルネットワークアーキテクチャ
ニューラルネットワークアーキテクチャ及び入力データ表現の選択は、ニューラルネットワークの学習効率に大きな影響を与える可能性がある。このために幾つかのオプションが検討された。1つのオプションは、全てのUEのデータが単一の入力ベクトルに連結され、次に、完全に接続された複数の隠れレイヤを介して提供され、最後に、各アクションaについて、推定されたQ値Q（s,a,θ）を生成する出力レイヤに供給される、単純なフィードフォワードアーキテクチャである。ここで、θはニューラルネットワークのパラメータを示す。このアプローチの主な問題は、入力レイヤは固定サイズでなければならないが、UEの数は可変であるため、我々は、UEの最大数を想定し、それに基づいて入力サイズを固定する必要があることである。また、入力レイヤと第1の隠れレイヤとの間の重みの数が非常に大きくなる。

別のオプションは、通常は、画像処理に使用される、畳み込みニューラルネットワークアーキテクチャである。我々は、環境エリアを固定サイズ（例えば、3m x 3m）の「ピクセル」のグリッドに分割し、ピクセル内のUEの数に基づいて各ピクセル値を設定することで、「イメージ」を作成できる。これには、入力レイヤのサイズがUEの数に依存しないという利点がある。ただし、それは、ニューラルネットワークが、UEのロケーションに関する情報のみを認識し、RSRP測定は認識しないことも意味する。これにより、実際には、ロケーションがRSRPの適切な予測因子であるとは限らないため、学習がより困難になる。例えば、ピクセル内の1つのUEは、所与のセルへの見通し範囲内である場合があるが、同じピクセル内の別のUEはそうでない場合がある。我々の実験では、このアプローチはうまく機能しなかった。

3番目の可能性は、リカレントニューラルネットワーク（RNN：recurrent neural network）である。RNNには内部フィードバックが含まれており、シーケンスの処理に使用される（例えば、時系列予測）。我々の場合、「シーケンス」はUEで構成され、シーケンス長はUEの数Kである。このアーキテクチャは、可変のUEの数に対応できる。ただし、RNNの1つの特徴は、出力が入力シーケンスの順序に依存するのに対し、我々の例示的なアプリケーションでは、近似したい関数Q（s,a,θ）がUEの順序に依存しない。理論的には、ニューラルネットワークは順序付けが無関係であることを学習できるが、学習がより困難になり、我々の実験では、このアプローチもうまく機能しなかった。

その代わりに、我々は、図７に示される、修正されたフィードフォワードアーキテクチャを使用した。このネットワークは3つのステージで構成されている。第1ステージでは、各UEのデータは、それぞれ512個の隠れノード及びReLU（rectified linear activation units）を備えた2つのフィードフォワード完全接続レイヤで構成されるサブネットワークに入力される。同じ重みが全てのUEで共有される。次に、出力は単純な加算によってマージされ、単一の長さ512のベクトルが生成される。実際には、これは単一のサブネットワークを使用して行われ、各UEのデータを順番に入力し、出力を蓄積する。このネットワークはフィードフォワード接続のみで構成されているため、蓄積の結果はUEの入力順序に依存しないことに注意されたい。第2ステージでは、第1ステージから、蓄積されたベクトルが、それぞれ256個の隠れノード及びReLUアクティベーションユニットを備えた、さらに2つの完全に接続されたフィードフォワードレイヤを介して供給される。最後に、各アクションのQ（s,a,θ）を生成するための線形出力を備えた完全接続レイヤで構成される出力ステージがある。

パラメータθ（重み及びバイアス）の総数は475407であり、そのうち約58％がステージ1にあり、約41％がステージ2にある。

図７は、入力データのフォーマットも示している。各UE kのデータは、長さ3C + 1 = 22のベクトルX_kとして入力される。最初のCエントリには、UE kのサービングセルのRSRPに正規化されたUE kの各セルのRSRPが含まれている。サービングセルは、（定義上は）RSRPが最大のセルであるため、これは0から1の間の値である。したがって、最初のCエントリは、サービングセルに対する各セルの強度を表し、したがって、どのセルがUE kへの最大の干渉を引き起こすかを示す。次のエントリは、UE kのサービングセルのRSRPに正規化された熱ノイズ電力

である。これは、サービングセルの強度のインジケーションである。次のCエントリは、どのセルがUE kのサービングセルであるかを示すワンホットエンコードされたベクトルである。残りのCエントリは、0から1の範囲に正規化された現在のセル電力オフセットΔ_iである。これらのエントリは全てのUEで同じであることに注意されたい。オフセットの影響はすでにRSRP値に反映されているため、これらの入力は冗長であるように見える場合がある。ただし、特定のアクションを実行する効果は、後で実行できるアクションに依存する可能性があり、Δ^minからΔ^maxの範囲外のセルオフセットを取得するアクションは許可されないため、これらの入力は、各セルで使用可能なセルオフセットの調整量を示すのに役立つ可能性がある。

６ニューラルネットワークのトレーニング
このセクションでは、我々は、ニューラルネットワークのトレーニングに使用される手順について説明する。我々の方法は、基本的に、非特許文献14に記載されている方法に従ってトレーニングされるDQN（Deep Q-Network）である。我々は、図８に示されるように、経験再生メモリと、重み

を有する個別のターゲットニューラルネットワーク

を使用する。

トレーニングは一連の「エポック」で実行される。エポックは、それぞれ32のタイムステップの390回の反復で構成されているため、1つのエポックは約21分の期間を表す。各反復では、次のステップが実行される。
1. エージェントは、セクション3に記載されているように、32のタイムステップで環境に作用する。各タイムステップでは、選択されたアクション及び観察された報酬は、現在の状態及び観察された次の状態のニューラルネットワーク入力データとともに、経験再生メモリに格納される。再生メモリは、そのようなサンプルを100万個格納し、先入れ先出し方式で動作する。
2. 32のタイムステップが実行された後、128のサンプルが再生メモリからランダムに抽出されてミニバッチが形成される。これは、ニューラルネットワークの重みを更新するために使用される。
3. ターゲットニューラルネットワークの重みは、

に従ってトレーニングニューラルネットワークの新しい重みに向けて更新される。ここで、τ= 0.001である。

DQNの重みは、ベルマン最適化方程式（非特許文献18）に基づく平均二乗誤差損失関数L（θ）を最小化するために、学習率10^-4のAdamオプティマイザー（非特許文献17）を使用した確率的勾配降下法によって更新される。

ニューラルネットワークの重みを更新するためのターゲットy_tは、次式で与えられる。

ここで、

は、ターゲットニューラルネットワークの出力を示す。我々は、非特許文献15の「double-DQN」方法に従うことに注意されたい。この方法では、状態s_t+1のアクションは、トレーニングニューラルネットワークの出力に対してargmaxによって選択されるが、このアクションについて推定されたQファクターは、ターゲットニューラルネットワークを使用して評価される。

トレーニング中、エージェントは修正されたε-グリーディポリシーに従ってアクションを選択する。これにより、確率εでアクションがランダムに均一に選択され、確率1-εでQ（s_t,a_t,θ）に基づいてアクションが選択される。εの値は、最初の1500のトレーニングエポックにわたって、初期値1から最終値0.1まで線形にアニーリングされる。Q（s_t,a_t,θ）が最大のアクションを常に選択するのではなく、我々は、確率

のアクションaを選択する。ここで、A（s_t）は、状態s_t及びα= 1000で許可されるアクションのセットである。これは、Q値が最大値に近いアクションが複数ある場合の探索を促進するためである。

図９Ａ、図９Ｂ、及び図９Ｃは、修正されたε-グリーディポリシーを用いたRLエージェントのトレーニングパフォーマンスを示している。最初は、εの値が高く、重みがランダムに初期化されるため、エージェントはランダムに動作する。パフォーマンスの改良は、εの学習値及び減少値の両方を反映している。最終的に、エージェントは、確率εでアクションをランダムに選択したにもかかわらず、平均メトリック及び平均ユーザスループットの両方の観点でグリーディアルゴリズムよりもわずかに優れたパフォーマンスを達成し、5％-ileスループットがわずかに低下する。おおむね、1500のエポックの後にε= 0.1の最終値に達すると、ほとんど又は全く改善がみられない。これは、探索速度が低下し、環境の変化速度が遅いことを考慮すると、再生メモリ内のサンプルの種類が比較的少ないことが原因の1つである。

７サーチベースの方法
セクション6で説明したDQNアルゴリズムは、各タイムステップで観察された状態に基づいて単一のアクションを選択して適用する。このセクションでは、我々は、各タイムステップでエージェントが複数のタイムステップを先に計画することによってアクションを選択するサーチベースの方法について説明する。我々は、このスキームのコンポーネントとしてDQNを利用する。

サーチベースの方法の基本的な考え方は、エージェントが一連のアクションを実行することをイメージして、現在の状態の近くの状態を探索することである。サーチ手順は、タイムステップごとに実行される。サーチ手順への入力は、現在の状態s_tと、エージェントが現在の状態の環境から観察するスループットメトリックμ_tである。サーチ手順の出力は、エージェントが少しのタイムステップ内に（つまり、幾つかのアクションを実行することによって）現在の状態から到達可能なベストな状態であると推定する状態s_bestである。次に、エージェントは状態s_bestに向かうアクションを選択し、そのアクションを実際の環境に適用する。次に、新しい状態が観察され、新しいサーチ手順が開始される。探索フェーズでは、実際の環境でいずれのアクションも適用しないことに注意されたい。実際の環境に適用される唯一のアクションは、サーチプロセスの最後に選択されたアクションである。

サーチベースの方法は、所与のアクションaが所与の状態sで実行されたときに、エージェントが次の状態を予測できると仮定している。本例示的なアプリケーションでは、これは、エージェントが、アクションaが適用された場合に状態sで観察される各UEのRSRP測定及びセル関連付けがどのように変化するかを予測する関数s’ = f_s(s,a)にアクセスできることを意味し、各UEの新しいRSRP測定及びセル関連付けを含む新しい状態s’を返す。セル電力オフセットが変更された場合、観測されたRSRP測定は単純で予測可能な方法で変化するはずであり、各UEの新しいセル関連付けは、予測されたRSRP測定から決定できるため、この仮定は我々のCCOアプリケーションでは妥当なようである。ただし、DQNの場合は、この仮定を行う必要がないことに注意されたい。

ベストな状態を識別するには、エージェントは、サーチ中に探索された各状態のスループットメトリックを推定する必要がある。このために、我々は、μ（s）= V（s,θ_v）で表されるニューラルネットワークを使用する。ここで、θ_vはニューラルネットワークのパラメータである。このネットワークは、図７に示されるDQNネットワークと同じアーキテクチャを備えているが、出力ステージが、入力状態sについて推定されたスループットメトリックμ（s）に対応する単一の出力のみで構成されている点は異なる。このネットワークは、DQNとは独立してトレーニングされたが、セクション6で説明したのと同じ環境を使用し、同じ経験再生メモリパラメータを使用している。トレーニング中に、アクションはグリーディアルゴリズムによって選択される。トレーニングの目的関数は、ニューラルネットワーク出力と環境から観測されたメトリックとの間の平均二乗誤差

である。我々は、観測されたネットワーク状態から観測されたスループットを予測するようにネットワークをトレーニングしているだけなので、これは教師あり学習であることに注意されたい。

サーチ手順は、ビームサーチアルゴリズム（非特許文献16）に基づいている。アルゴリズムは以下に示され、例は図１０に示される。ビームサーチは、D回の反復で構成される。ここで、パラメータDはサーチの深さ（つまり、先を見るアクションの数）である。

セットUには、サーチ中にビジットした全ての状態が含まれる。ビームサーチの各反復で、アルゴリズムは、セットSに現在格納されている状態のセットから探索木を拡張する（以下のビームサーチアルゴリズムの5～17行目を参照）。U及びSの両方が、現在の状態s_tのみを含むように初期化される。Sの各状態にsついて、我々は、B個の最も有望なアクションを含むセットAを作成する。ここで、パラメータBはサーチの分岐ファクター（つまり、ビジットした各状態から探索されるアクションの数）である。我々は、最も有望なアクションを選択するために、DQNからの出力が最大のB個のアクションQ（s,a,θ）を選択する（7～9行目）。ヌルアクションは状態を変更せず、したがって探索に寄与しないため、ヌルアクションは除外されることに注意されたい。

A（s）における各アクションaについて、我々は、状態sでアクションaを実行することによって発生する新しい状態s’を見つける。これは、上記のように関数f_s（s,a）を適用することによって行われる。状態s’は、サーチ中にまだビジットしていない場合は、U及びS_nextの両方に追加され（12～15行目）、それ以外の場合は無視される（アクションの異なるシーケンスから同じ状態になる可能性があるため、サーチ中に同じ状態に複数回遭遇することがよくあることに注意されたい）。

Sにおける全ての状態を考慮した後、セットS_nextは、Wを超えるエントリを含まないように枝刈りされる。ここで、パラメータWはサーチの幅である。これは、ニューラルネットワークのV（s,θ_v）を使用して、S_nextにおける各状態のスループットメトリックを推定し、推定されたメトリックが最も高いWの状態を保持することによって行われる（18～20行目）。次に、セットS_nextは、サーチの次の反復でセットSとして使用される（21行目）。

Dの反復が全て完了した後、Uで収集された状態が調べられ、推定されたメトリックV（s,θ_v）が最も高い状態がs_bestに割り当てられる（23行目）。ただし、Uにおけるベストな状態の推定されたメトリックがμ_t（現在の状態の観測されたメトリック）よりも大きくない場合、サーチはs_best = s_tを返す（24～26行目）。これは、現在の状態よりも良好であると思われる近くの状態をサーチで見つけられなかった場合に対応する。

深さDが1で、分岐ファクターBが14の場合（使用可能な全てのアクションが考慮される場合）、ビームサーチ方法は、環境の理想的なモデルを使用する代わりに、ニューラルネットワークV（s,θ_v）が、考えられる各アクションを評価するように使用されることを除いて、グリーディアルゴリズムと等価であることに注意されたい。したがって、ビームサーチは、環境の非理想的なモデルを使用した、グリーディアルゴリズムの一般化と見なすことができる。

s_bestが与えられると、エージェントは、実際の環境に適用するアクションを選択する必要がある。各セルについて、我々は、状態s_bestのセル電力オフセットを現在の状態s_tのセル電力オフセットと比較する。我々は、差が最も大きいセルを見つけ、セル電力オフセットを調整して差を減らすアクションを選択する（同じ最大差を持つセルが複数ある場合は、セル番号に基づいて任意に1つを選択する）。s_best = s_tの場合、ヌルアクションが選択される。

要約すると、このアプローチの高レベルのアイデアは、ニューラルネットワークモデルを使用してワイヤレスネットワークをリアルタイムでシミュレートすることにより、良好な状態を識別することである。ゲームの結果（勝ち負け）がわかるまでゲームをシミュレートし、そのようなシミュレートされた多数のゲームからの情報を使用してアクション（ムーブ）を選択するためのサーチベースの方法があるが、この場合、ゲームの終了に対応する端末状態がなく、勝ち負けの条件がないため、そのような方法は、ネットワーク最適化エリアへ直接適用できない。有益なことに、本願では、サーチからの有用な出力は、所与のサーチ手順中にアルゴリズムによって見つけられたベストな状態である（例えば、勝ち／負け状態、又は「良好」又は「悪い」につながるサーチパスの数である最終的な状態ではない）。

８パフォーマンスの評価
トレーニング後のRLエージェントのパフォーマンスを評価するために、我々は、セクション2.1で説明した時間的に変化する地理的UE分布のスナップショットを表す1000個の静的ランダム地理的UE分布を生成した。これらの地理的UE分布は、トレーニングデータとは独立して生成されたため、トレーニング中に（高い確率で）観測されなかった。これらの静的シナリオのそれぞれについて、我々は、セル電力オフセットΔ_iをランダムに初期化し、セクション4で説明したランダムなグリーディアルゴリズムと、RLエージェントと、を適用する。各アルゴリズムは、100のタイムステップで実行され、スループットメトリックμが最後に観察される。

1000のシナリオのそれぞれについて、我々は、ブルートフォースサーチによってμを最大化するΔ_iの設定も見つけた。これにより、我々は、各アルゴリズムが最適なパフォーマンスにどれだけ近づくかをチェックできる。

DQN及びサーチベースのRLエージェントの両方がテストされる。サーチベースのRLエージェントについては、我々は、セクション7で説明した、パラメータD = 6、B = 8、及びW = 8を使用する方法を使用する。これらのパラメータを使用すると、各タイムステップのサーチ手順中に約200の状態がビジットされる。

図１１は、「CCOなし」の場合（つまり、全てのセルの電力オフセットがゼロに設定されている場合）のスループットメトリックに関連する各アルゴリズムのスループットメトリックμの分布を示している。我々は、ランダムアルゴリズムは、「CCOなし」の場合よりもパフォーマンスが悪いことを確認できた。ランダムな変更によりセルがオフになり、パフォーマンスが低下することが多いため、これは妥当と思われる。DQN RLエージェントは、グリーディアルゴリズムよりも大幅に向上している。DQNをサーチベースの方法で使用すると、パフォーマンスはほぼ最適になる。

表２は、各アルゴリズムがCCOなしよりも優れており、グリーディアルゴリズムよりも優れている1000のテストケースの割合を示している。各アルゴリズムが最適なパフォーマンスを達成するテストケースの割合も示されている。グリーディアルゴリズムは、テストケースのわずか7.1％で最適解を見つける。DQN RLエージェントは9.4％とわずかに優れており、サーチベースのRLエージェントはテストケースの半分強で最適解を見つけている。

スループットメトリックμに加えて、我々は、各アルゴリズムの平均ユーザスループット

も比較した。これは、CCOによって最大化することを目指している量ではないが（UE間のリソースの公平な分散を考慮していないため）、ワイヤレスネットワークの全体的なスペクトル効率に関連しているため、依然として関心の高いものである。表３は、「CCOなし」の場合に正規化され、1000のテストケースで平均化された、各アルゴリズムによって達成された平均ユーザスループットを示している。スループットの向上は、最適なCCOを使用してもわずかであるが、RLエージェントがグリーディアルゴリズムよりも最適なパフォーマンスにはるかに近づくことは注目に値する。

９議論
このセクションでは、我々は、本明細書で説明されているタイプのアルゴリズムを実際のワイヤレスネットワークに展開する前に、克服する必要がある幾つかの潜在的な実用上の問題について説明する。これらの問題は全てさらなる作業が必要であるが、ここでは、我々は、幾つかの簡単な観察を行い、将来の調査のために幾つかの可能な方向性を概説する。

９．１一般化
全ての深層学習方法に適用される重要な注意点の1つは、ニューラルネットワークがトレーニング中に観察するデータ分布から学習することであり、そのパフォーマンスは、入力データがこの分布に典型的なものではない場合、大幅に低下する可能性がある。これを説明するために、我々は、セクション7で説明したトレーニングされたニューラルネットワークV（s,θ_v）を使用して、追加の実験を実行した。このニューラルネットワークは、状態sからスループットメトリックμ（s）を予測する。我々は、ランダムな地理的UE分布を生成し、セクション2のモデルを使用して計算された実際のスループットメトリックをニューラルネットワークによって予測された値と比較することにより、この予測の精度を測定できる。図１２は、UEの数の関数としてのr.m.sエラー（1000のランダムな地理的UE分布の平均）を示している。セクション2.1で説明したように、トレーニング中に存在するUEの数は、通常20～40である。我々は、この範囲では、r.m.s.エラーは低いが、この範囲外では急激に増加することを確認できる。図１２の結果は、ニューラルネットワークがトレーニング中に見られなかった地理的UE分布にうまく一般化できることを示しているが、UEの数がトレーニング中に見られる範囲内にある場合に限られる。この範囲外では一般化されない。現在、このことが実際にどれほど深刻な問題になる可能性があるかは明らかではない。

９．２スケーラビリティ
我々の実験は非常に小規模なワイヤレスネットワークに基づいており、RLエージェントは少数のパラメータのみを制御していた。明らかな問題は、より多くのセル及びパラメータに対応するためにスケールアップできるかどうかである。我々は、ニューラルネットワークのサイズ（レイヤ数及び各レイヤのサイズ）を制御するハイパーパラメータを広範囲で実験しておらず、パフォーマンスにどの程度の影響があるかを確認しなかったため、現時点では、ニューラルネットワークのサイズが、どのようにセルの数に合わせてスケーリングするのに必要になるかはわかっていない。非特許文献21の結果に基づいて、ステージ1のレイヤのサイズをUEの総数に対して線形スケーリングする必要がある可能性がある。さらに、DQNの1つの特徴は、必要なトレーニングデータの量が出力の数とともに増加する傾向があることである。これは、各トレーニングサンプルが効果的に1つの出力（そのトレーニングサンプルで選択されたアクションに関連付けられたもの）のみをトレーニングするため、出力の数が増えるにつれて学習が遅くなるためである。これにより、出力の数、さらにはDQNが制御できるパラメータの数に実際的な制限が生じる可能性がある。

実際、単一のニューラルネットワークを使用して大規模なワイヤレスネットワークのパラメータを直接制御することは、おそらく実行可能なアプローチではない。代わりに、ある種の階層アーキテクチャがより有望であるように思われる。例えば、RLエージェントは、ワイヤレスネットワークの状態を調べて、最適化が必要と思われるセルの小さなグループを識別し、それらのセルを動作させるために低レベルの手順を呼び出すことができる。この場合、RLエージェントによって実行される「アクション」は、ワイヤレスネットワークパラメータを直接制御するのではなく、ワイヤレスネットワークパラメータを順番に調整する低レベルの最適化手順のアクティブ化になるであろう。低レベルの手順は、それ自体が個別のニューラルネットワークを使用するRLエージェントである場合もあれば、従来のSONアルゴリズムである場合もある。低レベルの手順が完了すると、トップレベルのRLエージェントはネットワークの状態を再度調べて、新しいアクションを選択する。

９．３オンライントレーニング
セクション6で説明したように、トレーニングの初期段階では、DQNは、ε-グリーディポリシーに従ってランダムにアクションを選択することによって探索を行う。ライブのワイヤレスネットワークでランダムに選択されたアクションを実行する際の問題は明らかである。これが引き起こす可能性のある混乱を軽減するために、オフラインで初期トレーニングを実行する幾つかの手段が必要になるか、又は、安全な強化学習方法のように追加の制約を学習に組み込むことができる（例えば、非特許文献20を参照）。前者を行う1つの方法は、RLエージェント自体によって選択されたアクションではなく、従来のSONアルゴリズムによって選択されたアクションに基づいてRLエージェントを最初にトレーニングすることである。RLエージェントが従来のアルゴリズムの動作を十分な信頼性で予測することを学習したら、オンラインにしてトレーニングを継続し、願わくはそのパフォーマンスをさらに向上させることができる。又は、Q学習はオフポリシー方法であるため、探索ポリシーと組み合わせた従来のアルゴリズムを使用して、最適なポリシーを直接学習することを試行できる。

ディスカウントファクターパラメータγをゼロに設定して、最初のオフライントレーニングフェーズを実行することは理にかなっている。例えば、本明細書で調査したCCOシナリオでは、γをゼロに設定することは、DQNによって学習されたQ値が、各アクションを適用することによって達成される即時の報酬の予測であることを意味する。Q値が最大のアクションを選択することは、セクション0で説明したグリーディアルゴリズムと等価である。RLエージェントがオフライントレーニングによってこの動作を学習すると、オンライントレーニングフェーズ中にγが徐々に増加して、パフォーマンスが更に向上する。γの動的な調整は、強化学習では一般的なアプローチではなく、多くのアプリケーションでは意味がない。ただし、本明細書で検討したような、短期間又は長期間の報酬のどちらに焦点を合わせるかをγがRLエージェントへ効果的に調整する問題の場合、それは合理的な戦略のようである。

９．４信頼性
重み係数の知識がその動作への洞察を提供しないという意味において、ニューラルネットワークは「ブラックボックス」であることがよく観察される。この実際的な結果は、ニューラルネットワークがこれまでに見たことのない入力に遭遇したときに常に「正しく」動作することを、我々が保証できないことである。繰り返すが、これは、ニューラルネットワークを使用してライブのワイヤレスネットワークを制御する場合に明らかな懸念を引き起こす。我々は、RLエージェントに低レベルのコントローラへのアクションを推奨させることで、不安定な動作のリスクを減らすことができる。これにより、不安定性の兆候を検出した場合、必要に応じてRLエージェントの決定をオーバーライドさせることができる。上記のセクション9.1で説明した階層アーキテクチャの場合、低レベルの最適化手順でこの機能を実行できることに注意されたい。

１０結論
本願は、CCOの問題、特にスループットを最大化するために送信電力を調整する問題へのディープRLの適用を検討した。これは、ディープRLが戦略ゲームの解決に効果的である場合、ワイヤレスネットワークで発生する種類の組み合わせ最適化問題にも適用できるはずであるという直感に動機付けられている。少数のセルで構成される小規模なワイヤレスネットワークの理想的なコンピュータシミュレーションに基づく我々の実験では、DQN RLエージェントは、ヒューリスティックベースの（グリーディ）方法よりも優れており、環境の明示的な数学的モデルを必要としない。サーチアルゴリズムと組み合わせると、ほぼ最適なパフォーマンスが達成される。この結果は非常に有望であり、ワイヤレスネットワークの最適化にディープRLを適用するというアイデアには幾つかの可能性があることを示唆している。もちろん、我々の単純なモデルは、実際のワイヤレスネットワークとはサイズ及び複雑さが大きく異なり、このアプローチを実用化する前に、スケーラビリティ及びロバスト性の多くの問題を克服する必要があることは明らかである。

１１システム概要
図１は、上記の実施形態が適用可能であるモバイル（セルラー又はワイヤレス）通信システム1を概略的に示している。

このネットワークでは、モバイルデバイス3（UE）のユーザは、適切な3GPP RAT（radio access technology）、例えば、E-UTRA及び／又は5G RATを使用して、それぞれ基地局5及びコアネットワーク7を介して、互いに及び他のユーザと通信することができる。幾つかの基地局5が（無線）アクセスネットワーク又は（R）ANを形成することが理解されよう。当業者が理解するように、3つのモバイルデバイス3及び1つの基地局5が説明の目的で図１に示されているが、システムは、実装される場合、通常、他の基地局及びモバイルデバイス（UE）を含む。

各基地局5は、（直接、又は、ホーム基地局、リレー、リモート無線ヘッド、分散ユニットなどの他のノードを介して）１つ又は複数の関連するセル8を制御する。E-UTRA／4Gプロトコルをサポートする基地局5は、「eNB」と呼ばれることがあり、次世代／5Gプロトコルをサポートする基地局5は、「gNB」と呼ばれることがある。幾つかの基地局5は、4G及び5Gの両方、及び／又は、他の任意の3GPP又は非3GPP通信プロトコルをサポートするように構成され得ることが理解されよう。

モバイルデバイス3及びそのサービング基地局5は、適切なエアインターフェース（例えば、いわゆる「Uu」インターフェースなど）を介して接続されている。隣接する基地局5は、適切な基地局から基地局へのインターフェース（いわゆる「X2」インターフェース、「Xn」インターフェースなど）を介して互いに接続されている。基地局5はまた、適切なインターフェース（いわゆる「S1」、「N1」、「N2」、「N3」インターフェースなど）を介してコアネットワークノードに接続されている。

コアネットワーク７は、通常、通信システム1における通信をサポートするための論理ノード（又は「機能」）を含む。通常、例えば、「次世代」／5Gシステムのコアネットワーク7は、他の機能の中でも、CPF（control plane function）及びUPF（user plane function）を含む。コアネットワーク7からは、外部IPネットワーク20（インターネットなど）への接続も提供される。

このシステム1のコンポーネントは、例えば、（R）AN及び／又はコアネットワーク7のカバレッジ及び容量最適化を含む、最適化処理を実行するための上記の例示的な実施形態のうちの１つ又は複数を実行するように構成される。

ユーザ機器（UE：User Equipment）
図２は、図１に示されるUE 3（モバイルデバイス）の主要なコンポーネントを示すブロック図である。上記の説明において、UE 3は、「ユーザ」と呼ばれることもある。図示されるように、UE 3は、１つ又は複数のアンテナ33を介して、接続されたノードとの間で信号を送受信するように動作可能なトランシーバ回路31を含む。図２に必ずしも示されているわけではないが、UE 3はもちろん、従来のモバイルデバイスの全ての通常の機能（ユーザインターフェース35など）を有し、これは、必要に応じて、ハードウェア、ソフトウェア、及びファームウェアの任意の1つ又は任意の組み合わせによって提供され得る。コントローラ37は、メモリ39に格納されたソフトウェアに従ってUE 3の動作を制御する。ソフトウェアは、メモリ39に予めインストールされても良く、及び／又は、通信システム1を介して又はRMD（removable data storage device）からダウンロードされても良い。ソフトウェアは、とりわけ、オペレーティングシステム41及び通信制御モジュール43を含む。通信制御モジュール43は、UE 3と、（R）ANノード5及びコアネットワークノードを含む他のノードと、間のシグナリングメッセージ及びアップリンク／ダウンリンクデータパケットを処理（生成／送信／受信）する責任がある。

（R）ANノード
図３は、図１に示される例示的な（R）ANノード5（基地局）の主要なコンポーネントを示すブロック図である。図示されるように、（R）ANノード5は、1つ又は複数のアンテナ53を介して、接続されたUE 3との間で信号を送受信するように、また、ネットワークインターフェース55を介して（直接的又は間接的に）他のネットワークノードとの間で信号を送受信するように、動作可能なトランシーバ回路51を含む。ネットワークインターフェース55は、通常、適切な基地局－基地局インターフェース（X2／Xnなど）及び適切な基地局－コアネットワークインターフェース（S1/N1/N2/N3など）を含む。コントローラ57は、メモリ59に格納されたソフトウェアに従って、（R）ANノード5の動作を制御する。ソフトウェアは、メモリ59に予めインストールされても良く、及び／又は、通信システム1を介して又はRMD（removable data storage device）からダウンロードされても良い。ソフトウェアは、とりわけ、オペレーティングシステム61、通信制御モジュール63、及び（オプション的に）最適化モジュール65を含む。通信制御モジュール63は、（R）ANノード5と、UE 3及びコアネットワークノードなどの他のノードと、間のシグナリングを処理（生成／送信／受信）する責任がある。存在する場合、最適化モジュール65は、深層強化学習などを使用して、上記の最適化処理（の少なくとも一部）を実行する。最適化処理には、（R）AN及び／又はコアネットワーク7のカバレッジ及び容量の最適化が含まれ得るが、これらに限定されない。

コアネットワークノード
図４は、図１に示される一般的なコアネットワークノード（又は機能）の主要なコンポーネントを示すブロック図である。図示されるように、コアネットワークノードは、ネットワークインターフェース75を介して、他のノード（UE 3及び（R）ANノード5を含む）との間で信号を送受信するように動作可能なトランシーバ回路71を含む。コントローラ77は、メモリ79に格納されたソフトウェアに従って、コアネットワークノードの動作を制御する。ソフトウェアは、メモリ79に予めインストールされても良く、及び／又は、通信システム1を介して又はRMD（removable data storage device）からダウンロードされても良い。ソフトウェアは、とりわけ、オペレーティングシステム81、通信制御モジュール83、及び（オプション的に）最適化モジュール85を含む。通信制御モジュール83は、コアネットワークノードと、UE 3、（R）ANノード5、及び他のコアネットワークノードなどの他のノードと、間のシグナリングを処理（生成／送信／受信）する責任がある。存在する場合、最適化モジュール85は、深層強化学習などを使用して、上記の最適化処理（の少なくとも一部）を実行する。最適化処理には、（R）AN及び／又はコアネットワーク7のカバレッジ及び容量の最適化が含まれ得るが、これらに限定されない。

１２修正及び代替
詳細な実施形態は上記に記載されている。当業者が理解するように、そこに具体化された発明から依然として利益を得る一方で、上記の実施形態に対して多くの修正及び代替を行うことができる。例として、これらの代替及び修正の幾つかのみをここで説明する。

上記の実施形態では、複数のセルを含むワイヤレス（セルラー）ネットワークのコンピュータシミュレーションにおけるCCO問題を解決するために、深層ニューラルネットワークがトレーニングされる。上記の例では、ネットワークは７つのセルを含むが、実施形態は、任意の数のセルの場合に適用可能であり得ることが理解されるであろう。例えば、実施形態は、２つのセル（例えば、マクロセルとホーム基地局セル；プライマリ／マスターセルとセカンダリセル；ソースセルとターゲットセルなど）に適用され得る。ビームフォーミングの場合、実施形態は、単一セルの複数のビームに適用することができる。実施形態は、スライスに使用されるセル／ビームの数に関係なく、複数のネットワークスライスに適用され得ることも理解されよう。

上記の例示的な実施形態では、ユーザは、ユーザ機器のアイテムである。ただし、他の例では、ユーザが異なって定義され得ることが理解されよう。例えば、「ユーザ」という用語は、ネットワークスライス、アプリケーション、データストリーム、サービスのタイプ、及びUEのタイプ（例えば、モノのインターネットデバイス、MTC（machine type communication）デバイス、帯域幅制限デバイス、3G UE、4G UE、5G UE、レガシーUEなど）のいずれかを指しても良い。

上記の説明では、理解を容易にするために、UE 、（R）ANノード、及びコアネットワークノードは、いくつかの個別のモジュール（通信制御モジュールなど）を有するものとして説明されている。これらのモジュールは、特定のアプリケーション、例えば既存のシステムが本発明を実装するように修正されている場合、他のアプリケーション、例えば最初から本発明の機能を念頭に置いて設計されたシステムに対し、このように提供され得るが、これらのモジュールはオペレーティングシステム又はコード全体に組み込まれているため、これらのモジュールは個別のエンティティとして認識できない場合がある。これらのモジュールは、ソフトウェア、ハードウェア、ファームウェア、又はこれらの組み合わせで実装することもできる。

最適化モジュール65／85の機能は、任意の適切なネットワークノード（又は機能）によって実行されても良く、これらの機能は、適切な場合、複数のネットワークノードに分散されても良いことが理解されよう。

各コントローラは、例えば、１つ又は複数のハードウェア実装コンピュータプロセッサ、マイクロプロセッサ、CPU（central processing unit）、ALU（arithmetic logic unit）、IO（input/output）回路、内部メモリ／キャッシュ（プログラム及び/又はデータ）、処理レジスタ、通信バス（例えば、制御バス、データバス及び／又はアドレスバス）、DMA（direct memory access）機能、ハードウェア又はソフトウェアで実装されたカウンタ、ポインタ、及び／又はタイマなどを含む（が、これらに限定されない）任意の適切な形態の処理回路を備えることができる。

上記の態様では、幾つかのソフトウェアモジュールが説明された。当業者が理解するように、ソフトウェアモジュールは、コンパイルされた形式又はコンパイルされていない形式で提供されても良いし、UE 3、（R）ANノード5、及びコアネットワークノード7に、コンピュータネットワーク上の信号又は記録媒体上の信号として供給されても良い。さらに、このソフトウェアの一部又は全部によって実行される機能は、1つ又は複数の専用ハードウェア回路を使用して実行されても良い。ただし、ソフトウェアモジュールの使用は、それらの機能を更新するために、UE、（R）ANノード、及びコアネットワークノードの更新を容易にするので、好適である。

上記の実施形態は、「非モバイル」又は一般的に固定されたユーザ機器にも適用可能である。

他の様々な修正は当業者には明らかであり、ここではさらに詳細に説明しない。

（付記１）
ネットワーク最適化を実行するための方法であって、
ネットワーク環境内の複数のユーザ機器（UE：user equipment）のそれぞれについて、前記ネットワーク環境のセルラー領域のセットについての現在のネットワーク状態を示す少なくとも１つのそれぞれのメトリックを推定及び／又は測定すること、
前記複数のUEについての前記推定及び／又は測定されたメトリックによって表される前記現在のネットワーク状態について、予想される将来の利益を最大化する少なくとも１つのアクションであって、前記セルラー領域のセットのうちの対応するセルラー領域で実行される少なくとも１つのネットワーク最適化アクション又はネットワーク最適化アクションが実行されないヌルアクションを含む前記少なくとも１つのアクションを決定すること、及び、
前記決定された少なくともアクションを適用すること、
を含み、
前記決定は、フィードフォワードアーキテクチャ及び前記決定された少なくとも１つのアクションを示す出力を有するニューラルネットワークへの入力として、前記複数のUEについて前記推定及び／又は測定されたメトリックによって表される前記現在のネットワーク状態を適用することによって実行される、
方法。
（付記２）
少なくとも１つのそれぞれのメトリックの前記推定及び／又は測定は、複数のサブネットワーク及び複数のReLU（rectified linear unit）を含む少なくとも１つのニューラルネットワークを使用する、
付記１に記載の方法。
（付記３）
前記少なくとも１つのニューラルネットワークは、
前記複数のUEのそれぞれについて、そのUEについての前記少なくとも１つのそれぞれのメトリックの少なくとも1つの現在の値を表すそれぞれの入力データを受信し、
前記受信したそれぞれの入力データを蓄積して、前記蓄積された入力データを、前記複数のサブネットワークのそれぞれのサブネットワークにおける複数のノード及び前記複数のReLUを備えた少なくとも１つのフィードフォワードレイヤを介して供給し、
特定のネットワーク状態について予想される将来の利益を最大化する前記少なくとも１つのアクションを識別する情報を出力する、
ように構成される、
付記２に記載の方法。
（付記４）
予想される将来の利益を最大化する前記少なくとも１つのアクションは、現在のネットワーク状態を示す前記少なくとも１つのそれぞれのメトリックと、前記少なくとも１つのアクションが適用された場合の前記少なくとも１つのそれぞれのメトリックの推定と、の間の差に基づいて、決定される、
付記１から３のいずれかに記載の方法。
（付記５）
前記予想される将来の利益は、ディスカウントファクターを使用して決定され、前記ディスカウントファクターの値は、前記予想される将来の利益が比較的短期間の将来の利益であるか、又は、比較的長期間の将来の利益であるかを決定する、
付記１から４のいずれかに記載の方法。
（付記６）
前記ディスカウントファクターは、即時の将来の利益を最大化する値に最初に設定される、
付記５に記載の方法。
（付記７）
前記ネットワーク最適化は、カバレッジ及び容量の最適化を含む、
付記１から６のいずれかに記載の方法。
（付記８）
前記少なくとも１つのメトリックは、前記ネットワーク環境の環境モデルを使用して推定される、
付記１から７のいずれかに記載の方法。
（付記９）
前記少なくとも１つのそれぞれのメトリックは、所与のUEについて、そのUEについてのセル関連付け、そのUEについてのSINR（signal-to-interference-plus-noise ratio）、及びそのUEについてのスループットのうちの少なくとも１つを含む、
付記１から８のいずれかに記載の方法。
（付記１０）
前記少なくとも１つのネットワーク最適化アクションは、前記ネットワークのセルに関連する電力オフセットを増加させること、又は、前記ネットワークのセルに関連する電力オフセットを減少させることを含む、
付記１から９のいずれかに記載の方法。
（付記１１）
前記ネットワークによってカバーされるセルラー領域の前記セットは、少なくとも１つのセルのセット、又は、少なくとも１つのビームのセットを含む、
付記１から１０のいずれかに記載の方法。
（付記１２）
ネットワーク最適化で使用するためのフィードフォワードアーキテクチャを有するニューラルネットワークをトレーニングするための方法であって、
複数の学習反復を実行することを含み、それぞれの学習反復は、それぞれの複数の連続する時間ステップを含み、前記複数の学習反復のそれぞれについて、前記方法は、以下を含む。
ｉ）前記複数の連続する時間ステップのそれぞれについて、
（ａ）ネットワーク環境内の複数のユーザ機器（UE：user equipment）のそれぞれについて、前記ネットワーク環境のセルラー領域のセットについての現在のネットワーク状態を示す少なくとも１つのそれぞれのアクション前のメトリックを推定し、
（ｂ）前記セルラー領域の少なくとも１つで実行される少なくとも１つのネットワーク最適化アクションを選択し、
（ｃ）前記ネットワーク環境内の前記複数のUEのそれぞれについて、前記選択されたアクションが実行された後、セルラー領域の前記セットについて、アクション後のネットワーク状態を示す少なくとも１つのそれぞれのアクション後のメトリックを推定し、
（ｄ）前記選択されたアクションが実行された後の前記ネットワーク状態を示す少なくとも１つのアクション後のメトリックに基づいて、前記選択されたアクションを適用することから生じる観察された報酬を決定し、
（ｅ）前記選択されたアクション、前記観察された報酬、前記少なくとも１つのそれぞれのアクション前のメトリック、及び、前記少なくとも１つのそれぞれのアクション後のメトリックを互いに関連付けて含むサンプルを、メモリに格納すること、
ｉｉ）前記メモリから複数の前記格納されたサンプルを抽出すること、及び
ｉｉｉ）前記抽出されたサンプルに基づいて前記ニューラルネットワークを更新すること。ここで、前記ニューラルネットワークは複数の重みを含み、前記更新は、前記抽出されたサンプルに基づいて前記重みを調整することを含む。
（付記１３）
SON（Self-Organising Network）アルゴリズムによって選択されたアクションに基づいて前記複数の重みの調整が実行される初期フェーズをさらに含む、
付記１２に記載の方法。
（付記１４）
所与の状態の各ネットワーク最適化アクションは、そのネットワーク最適化アクションを選択する確率を定義するそれぞれの関連する確率εを有し、前記（ｂ）の前記セルラー領域の少なくとも１つで実行される少なくとも１つのネットワーク最適化アクションを選択することは、前記確率εに基づいて実行され、前記確率εは、前記複数の学習反復にわたって、初期値から最終値まで徐々に変化する、
付記１２又は１３に記載の方法。
（付記１５）
各確率εは、「０」と「１」との間の値を有し、前記（ｂ）の前記セルラー領域の少なくとも１つで実行される少なくとも１つのネットワーク最適化アクションを選択することは、ランダムに、かつ、所与のネットワーク最適化アクションについて１－εの確率で実行される、
付記１４に記載の方法。
（付記１６）
ネットワーク最適化で使用するためのニューラルネットワークをトレーニングするための方法であって、
前記ニューラルネットワークの複数の重みを調整するために複数の学習反復を実行することを含み、
初期フェーズでは、前記複数の重みの調整は、SON（Self-Organising Network）アルゴリズムによって選択されたアクションに基づいて実行され、
次のフェーズでは、前記複数の重みの調整は、前記ニューラルネットワークによって選択されたアクションに基づいて実行される、
方法。
（付記１７）
前記ニューラルネットワークが、事前決定された信頼性で前記SONアルゴリズムの前記アクションを予測することを学習したかどうかを決定することと、前記決定に依存して、前記次のフェーズに進むことと、をさらに含む、
付記１６に記載の方法。
（付記１８）
ネットワーク最適化を実行するための方法であって、前記方法は以下を含む。
（ａ）ネットワーク環境の現在のネットワーク状態を示す少なくとも１つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うこと、
（ｂ）それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも１つのメトリックをそれぞれ推定すること、
（ｃ）それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「Ｂ」のネットワーク最適化アクションを選択すること、
（ｄ）それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定すること、
（ｅ）全ての次のネットワーク状態の中から、少なくとも１つの追加メトリックに基づいて、最大で事前決定された数「Ｗ」のベストなネットワーク状態を選択すること、
（ｆ）それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「Ｄ」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ（ｂ）を繰り返すこと、
（ｇ）前記少なくとも１つの追加メトリックに基づいて、最適なネットワーク状態を識別すること、ここで、前記最適なネットワーク状態は、推定された前記少なくとも１つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、
（ｈ）前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別すること、及び、
（ｉ）前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用すること。
（付記１９）
現在の又は推定されたネットワーク状態を示す前記少なくとも１つのメトリックは、スループットメトリックを含む、
付記１８に記載の方法。
（付記２０）
前記ネットワーク環境の次のネットワーク状態を示す少なくとも１つのメトリックをそれぞれ推定することは、
前記ネットワーク環境内の複数のユーザ機器（UE：user equipment）のそれぞれについて、前記ネットワーク環境のセルラー領域のセットについての前記初期ネットワーク状態を示す少なくとも１つのそれぞれのメトリックを推定及び／又は測定すること、
前記複数のUEについての前記推定及び／又は測定されたメトリックによって表される前記初期ネットワーク状態について、予想される将来の利益を最大化する少なくとも１つのアクションを決定すること、及び、
前記決定の結果に基づいて、前記セルラー領域のセットのうちの対応するセルラー領域に前記決定された少なくとも１つのネットワーク最適化アクションを適用すること、
によって実行され、
前記決定は、フィードフォワードアーキテクチャ及び前記決定された少なくとも１つのネットワーク最適化アクションを示す出力を有するニューラルネットワークへの入力として、前記複数のUEについて前記推定及び／又は測定されたメトリックによって表される前記初期ネットワーク状態を適用することによって実行される、
付記１８又は１９に記載の方法。
（付記２１）
ネットワーク最適化を実行するための装置であって、
ネットワーク環境内の複数のユーザ機器（UE：user equipment）のそれぞれについて、前記ネットワーク環境のセルラー領域のセットについての現在のネットワーク状態を示す少なくとも１つのそれぞれのメトリックを推定及び／又は測定するための手段、
前記複数のUEについての前記推定及び／又は測定されたメトリックによって表される前記現在のネットワーク状態について、予想される将来の利益を最大化する少なくとも１つのアクションであって、前記セルラー領域のセットのうちの対応するセルラー領域で実行される少なくとも１つのネットワーク最適化アクション又はネットワーク最適化アクションが実行されないヌルアクションを含む前記少なくとも１つのアクションを決定するための手段、及び、
前記決定された少なくとも１つのアクションを適用するための手段、
を含み、
前記決定するための手段は、フィードフォワードアーキテクチャ及び前記決定された少なくとも１つのアクションを示す出力を有するニューラルネットワークへの入力として、前記複数のUEについて前記推定及び／又は測定されたメトリックによって表される前記現在のネットワーク状態を適用するように構成される、
装置。
（付記２２）
ネットワーク最適化で使用するためのフィードフォワードアーキテクチャを有するニューラルネットワークをトレーニングするための方法であって、
複数の学習反復を実行するための手段を含み、それぞれの学習反復は、それぞれの複数の連続する時間ステップを含み、前記複数の学習反復のそれぞれについて、前記手段は、以下のように構成される。
ｉ）前記複数の連続する時間ステップのそれぞれについて、
（ａ）ネットワーク環境内の複数のユーザ機器（UE：user equipment）のそれぞれについて、前記ネットワーク環境のセルラー領域のセットについての現在のネットワーク状態を示す少なくとも１つのそれぞれのアクション前のメトリックを推定し、
（ｂ）前記セルラー領域の少なくとも１つで実行される少なくとも１つのネットワーク最適化アクションを選択し、
（ｃ）前記ネットワーク環境内の前記複数のUEのそれぞれについて、前記選択されたアクションが実行された後、セルラー領域の前記セットについて、アクション後のネットワーク状態を示す少なくとも１つのそれぞれのアクション後のメトリックを推定し、
（ｄ）前記選択されたアクションが実行された後の前記ネットワーク状態を示す少なくとも１つのアクション後のメトリックに基づいて、前記選択されたアクションを適用することから生じる観察された報酬を決定し、
（ｅ）前記選択されたアクション、前記観察された報酬、前記少なくとも１つのそれぞれのアクション前のメトリック、及び、前記少なくとも１つのそれぞれのアクション後のメトリックを互いに関連付けて含むサンプルを、メモリに格納する、
ｉｉ）前記メモリから複数の前記格納されたサンプルを抽出する、及び
ｉｉｉ）前記抽出されたサンプルに基づいて前記ニューラルネットワークを更新する。ここで、前記ニューラルネットワークは複数の重みを含み、前記更新は、前記抽出されたサンプルに基づいて前記重みを調整することを含む。
（付記２３）
ネットワーク最適化で使用するためのニューラルネットワークをトレーニングするための装置であって、
前記ニューラルネットワークの複数の重みを調整するために複数の学習反復を実行するための手段を含み、
初期フェーズでは、前記複数の重みの調整は、SON（Self-Organising Network）アルゴリズムによって選択されたアクションに基づいて実行され、
次のフェーズでは、前記複数の重みの調整は、前記ニューラルネットワークによって選択されたアクションに基づいて実行される、
装置。
（付記２４）
ネットワーク最適化を実行するための装置であって、前記装置は以下を含む。
（ａ）ネットワーク環境の現在のネットワーク状態を示す少なくとも１つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うための手段、
（ｂ）それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも１つのメトリックをそれぞれ推定するための手段、
（ｃ）それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「Ｂ」のネットワーク最適化アクションを選択するための手段、
（ｄ）それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定するための手段、
（ｅ）全ての次のネットワーク状態の中から、少なくとも１つの追加メトリックに基づいて、最大で事前決定された数「Ｗ」のベストなネットワーク状態を選択するための手段、
（ｆ）それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「Ｄ」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ（ｂ）を繰り返すための手段、
（ｇ）前記少なくとも１つの追加メトリックに基づいて、最適なネットワーク状態を識別するための手段、ここで、前記最適なネットワーク状態は、推定された前記少なくとも１つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、
（ｈ）前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別するための手段、及び、
（ｉ）前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用するための手段。

1 モバイル（セルラー又はワイヤレス）通信システム
3 モバイルデバイス（UE）
5 （R）ANノード（基地局）
7 コアネットワーク
8 セル
20 外部IPネットワーク
31 トランシーバ回路
33 アンテナ
35 ユーザインターフェース
37 コントローラ
39 メモリ
41 オペレーティングシステム
43 通信制御モジュール
51 トランシーバ回路
53 アンテナ
55 ネットワークインターフェース
57 コントローラ
59 メモリ
61 オペレーティングシステム
63 通信制御モジュール
65 最適化モジュール
71 トランシーバ回路
75 ネットワークインターフェース
77 コントローラ
79 メモリ
81 オペレーティングシステム
83 通信制御モジュール
85 最適化モジュール

Claims

ネットワーク最適化を実行するための装置における方法であって、
（ａ）ネットワーク環境の現在のネットワーク状態を示す少なくとも１つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うこと、
（ｂ）それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも１つのメトリックをそれぞれ推定すること、
（ｃ）それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「Ｂ」のネットワーク最適化アクションを選択すること、
（ｄ）それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定すること、
（ｅ）全ての次のネットワーク状態の中から、少なくとも１つの追加メトリックに基づいて、最大で事前決定された数「Ｗ」のベストなネットワーク状態を選択すること、
（ｆ）それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「Ｄ」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ（ｂ）を繰り返すこと、
（ｇ）前記少なくとも１つの追加メトリックに基づいて、最適なネットワーク状態を識別すること、ここで、前記最適なネットワーク状態は、推定された前記少なくとも１つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、
（ｈ）前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別すること、及び、
（ｉ）前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用すること、を含む、方法。
ネットワーク最適化を実行するための装置であって、
（ａ）ネットワーク環境の現在のネットワーク状態を示す少なくとも１つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うための手段、
（ｂ）それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも１つのメトリックをそれぞれ推定するための手段、
（ｃ）それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「Ｂ」のネットワーク最適化アクションを選択するための手段、
（ｄ）それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定するための手段、
（ｅ）全ての次のネットワーク状態の中から、少なくとも１つの追加メトリックに基づいて、最大で事前決定された数「Ｗ」のベストなネットワーク状態を選択するための手段、
（ｆ）それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「Ｄ」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ（ｂ）を繰り返すための手段、
（ｇ）前記少なくとも１つの追加メトリックに基づいて、最適なネットワーク状態を識別するための手段、ここで、前記最適なネットワーク状態は、推定された前記少なくとも１つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、
（ｈ）前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別するための手段、及び、
（ｉ）前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用するための手段を含む装置。