JP7279856B2 - 方法及び装置 - Google Patents

方法及び装置 Download PDF

Info

Publication number
JP7279856B2
JP7279856B2 JP2022522498A JP2022522498A JP7279856B2 JP 7279856 B2 JP7279856 B2 JP 7279856B2 JP 2022522498 A JP2022522498 A JP 2022522498A JP 2022522498 A JP2022522498 A JP 2022522498A JP 7279856 B2 JP7279856 B2 JP 7279856B2
Authority
JP
Japan
Prior art keywords
network
state
action
optimization
metric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022522498A
Other languages
English (en)
Other versions
JP2022536813A (ja
Inventor
ロバート アーノット
アルベルト スワレス
パトリシア ウェルズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2022536813A publication Critical patent/JP2022536813A/ja
Application granted granted Critical
Publication of JP7279856B2 publication Critical patent/JP7279856B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/04Large scale networks; Deep hierarchical networks
    • H04W84/042Public Land Mobile systems, e.g. cellular systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

本発明は、3GPP(3rd Generation Partnership Project)標準又はその同等物又は派生物に従って動作するワイヤレス通信システム及びそのデバイスに関する。この開示は、いわゆる「5G」(又は「次世代」)システムのカバレッジ及び容量の最適化に関連するが、それらと排他的に関連するものではない。
1 イントロダクション
セルラーワイヤレスネットワークの複雑さが増すにつれて、その管理及び最適化はますます困難なタスクになっている。同時に、多くのセルが集中型プロセッサによって制御される新しいネットワークアーキテクチャは、より高度な調整及び最適化手法を適用するための範囲を拡大する。3GPP(Third Generation Partnership Project)によって開発されたLTE(Long Term Evolution) 4G標準には、カバレッジ及び容量の最適化、モビリティの最適化、負荷分散などの多くのネットワーク管理機能の自動化を目的としたSON(Self-Organising Network)特徴のセットが含まれる。自動化された管理及び最適化へのこの傾向は、5Gワイヤレスネットワークの展開とともに今後も続くと見込まれている。
D. Silver, T. Hubert, J. Schrittwieser, I. Antonoglou, M. Lai, A. Guez et al. "A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play", Science 07 Dec. 2018: 1140-1144 D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez et al. "Mastering the game of go without human knowledge", Nature, 550:354, 10 2017. M. N. ul Islam and A. Mitschele-Thiel, "Reinforcement learning strategies for self-organized coverage and capacity optimization", 2012 IEEE Wireless Communications and Networking Conference (WCNC), Shanghai, 2012, pp. 2818-2823. S. Berger, A. Fehske, P. Zanier, I. Viering and G. Fettweis, "Online Antenna Tilt-Based Capacity and Coverage Optimization", in IEEE Wireless Communications Letters, vol. 3, no. 4, pp. 437-440, Aug. 2014. T. Cai, G. P. Koudouridis, C. Qvarfordt, J. Johansson, P. Legg, "Coverage and Capacity Optimization in E-UTRAN Based on Central Coordination and Distributed Gibbs Sampling", 2010 IEEE 71st Vehicular Technology Conference, Taipei, 2010, pp. 1-5. A. Engels, M. Reyer, X. Xu, R. Mathar, J. Zhang and H. Zhuang, "Autonomous Self-Optimization of Coverage and Capacity in LTE Cellular Networks", in IEEE Transactions on Vehicular Technology, vol. 62, no. 5, pp. 1989-2004, Jun 2013. S. Fan, H. Tian and C. Sengul, "Self-optimization of coverage and capacity based on a fuzzy neural network with cooperative reinforcement learning", in EURASIP Journal on Wireless Communications and Networking, 2014:57 N. C. Luong, D. T. Hoang, S. Gong, D. Niyato, P. Wang, Y.-C. Liang, and D. In Kim, "Applications of Deep Reinforcement Learning in Communications and Networking: A Survey" arXiv preprint https://arxiv.org/abs/1810.07862 C. Zhang, P. Patras and H. Haddadi, "Deep Learning in Mobile and Wireless Networking: A Survey", in IEEE Communications Surveys & Tutorials. doi: 10.1109/COMST.2019.2904897 Y. Yang et al., "DECCO: Deep-Learning Enabled Coverage and Capacity Optimization for Massive MIMO Systems", in IEEE Access, vol. 6, pp. 23361-23371, 2018. Y.S. Nasir and D. Guo, "Multi-Agent Deep Reinforcement Learning for Dynamic Power Allocation in Wireless Networks", arXiv preprint https://arxiv.org/pdf/1808.00490.pdf F. Meng, P. Chen, L. Wu and J. Cheng "Power Allocation in Multi-User Cellular Networks: Deep Reinforcement Learning Approaches", arXiv preprint https://arxiv.org/pdf/1901.07159.pdf 3GPP Technical Report (TR) 38.901, Study on channel model for frequencies from 0.5 to 100 GHz (Release 15) V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare et al. "Human-level control through deep reinforcement learning", Nature vol.5 18, pp. 529-533, 26 Feb. 2015. H. van Hasselt. "Double Q-learning", Advances in Neural Information Processing Systems, 23:2613-2621, 2010. B.T. Lowerre, "The HARPY speech recognition system", Ph.D dissertation, Carnegie Mellon Univ., Apr. 1976. Kingma, D., Ba, J.: "Adam: A method for stochastic optimization", arXiv preprint arXiv:1412.6980 (2014) Bellman, R. and Kalaba, R. (1964). "Selected papers on mathematical trends in control theory", Dover. F. Chollet et al. "Keras". https://keras.io, 2015. J. Garcia and F. Fernandez "A Comprehensive Survey on Safe Reinforcement Learning", Journal of Machine Learning Research vol. 16, pp. 1437-1480, 2015 E. Wagstaff, F. B. Fuchs, M. Engelcke, I. Posner and M. Osborne "On the Limitations of Representing Functions on Sets", arXiv preprint https://arxiv.org/pdf/1901.09006.pdf
ワイヤレスネットワークで発生する制御及び最適化の問題の多くは、KPI(key performance indicator)の組み合わせを最大化するために、さまざまなパラメータを調整する必要がある組み合わせ最適化問題と見なすことができる。調整されるパラメータには、セル送信電力レベル、アンテナの傾斜角、ハンドオーバー閾値、アドミッション制御閾値、ビームフォーミング構成、及びスケジューラーパラメータが含まれ得る。多くの場合、これらの最適化問題は、NP困難であり、解決するのに法外な費用がかかり、実際には、比較的単純なヒューリスティックを使用して、適切な次善のソリューションをサーチするのが一般的である。
このようなアプローチの問題の1つは、可能なパラメータ設定の非常に大きなスペースをどのように探索するかということである。一般的なヒューリスティックの1つは、即時の報酬を最大化するようにパラメータを徐々に調整する「グリーディ」法を適用することである。これは、戦略ゲームで1つ先だけを見ることに似ており、比較的貧弱なローカルな最適点でスタックするアルゴリズムとなる結果になることがよくある。もう1つの問題は、既存の方法が、潜在的なソリューションを評価するために、環境の単純化された数学的モデルに依存することが多いことである。ただし、実際の環境は複雑であるため、分析モデルが非常に不正確になり、実際には最適化による利益の多く(又は全て)が失われる可能性がある。
最近、強化学習を使用してトレーニングされた深層ニューラルネットワークが、囲碁(非特許文献1及び2)などの戦略ゲームで強力なパフォーマンスを達成することがわかっている。さらに、ニューラルネットワークはそれ自体に対してゲームをプレイすることによって独自のトレーニングデータを効果的に生成するため、このパフォーマンスはトレーニング例を提供する必要なしに達成できる。戦略ゲームは、組み合わせ最適化の問題と密接に関連している。戦略ゲームの目的は、即時の報酬(駒を取ることなど)だけでなく、最終的な報酬(ゲームに勝つこと)を最大化するムーブを選択することである。ボード状態が与えられると、ニューラルネットワークは、使用可能なムーブの広大なスペースから有望なムーブの小さなセットをすばやく識別できる。次に、この有望なムーブのセットをサーチアルゴリズムで調べることができる。このことは、ワイヤレスネットワークで発生する最適化問題のタイプについて同様の「直感」を取得するように深層ニューラルネットワークをトレーニングできるかどうかを尋ねる動機になり、これにより、既存のヒューリスティックベースのサーチ方法よりも優れたものになる。さらに、強化学習エージェントは、観測データから直接学習することで「モデルフリー」で動作できるため、環境を正確に表すことができる数学的モデルの必要性を回避できる。
理想的には、我々は、ワイヤレスネットワークの状態(の幾つか)をニューラルネットワークに入力し、パラメータ調整の推奨事項を出力できるようにする必要がある。本願は、カバレッジ及び容量の最適化(CCO:Coverage and Capacity Optimisation)の特定の問題に焦点を当てることにより、このアプローチの実現可能性を探る。CCOの目的は、ユーザが経験するスループットに関連するメトリックを最大化するように、ネットワークパラメータを調整することである。アンテナの傾斜(非特許文献3及び4)及び送信電力は、CCOで考慮されている主なパラメータである。この研究において、本発明者らは、送信電力の最適化に焦点を合わせているが、同じアプローチが他のネットワーク管理エリアにも適用され得ることが理解されるであろう。非特許文献5は、分散ギブスサンプリング電力割り当てプロセスの実行を調整する集中型コントローラを備えたハイブリッドアルゴリズムを導入している。各セルで実行されるが、隣接するセルの電力変化の長期間の遅延への影響を計算してセル間で交換することに依存している。非特許文献6及び7は、アンテナの傾斜及び送信電力を共同で調整する。非特許文献6は、カバレッジのヒューリスティックな優先順位付け又は容量の最適化と混合整数線形プログラムとの組み合わせを使用する。非特許文献7は、ファジーロジックと表形式のQ学習とを組み合わせ、分散型SONエンティティが集中型コントローラを介して最適化の経験を共有する。
ワイヤレス通信問題への深層学習技術の適用は、例えば、非特許文献8及び9とその中の参考文献を参照すると、最近大きな注目を集めている。非特許文献10では、ユーザスケジューリングアルゴリズムで使用される2つのパラメータを制御することにより、大規模MIMOシステムのカバレッジ及び容量の最適化に深層強化学習が使用されている。非特許文献11及び12は、集中学習と分散エージェントとの組み合わせを使用して、各セル又はリンクでアクションを実行する。非特許文献11は、モバイルアドホックネットワークの動的電力割り当て問題に深層RLを適用する。この問題では、電力割り当ては、各リンクに個別に適用され、遅延チャネル状態情報に基づいている。非特許文献12は、セルラーネットワークのための複数の強化学習方法(深層Q学習、ポリシーベース及びアクタークリティカルな方法)を比較するが、送信電力の変更に関係なく、セルの関連付けは固定されている。対照的に、本明細書では、送信電力の変更により、セル関連付けと、所与のユーザがセルに割り当てられるリソース量と、が変更される可能性があり、そのセルに接続されている全てのユーザ間で均等に共有されると想定する。
本明細書での我々のゴールは、多数のセル(この例では7つのセル)で構成される小規模なワイヤレスネットワークのコンピュータシミュレーションにおけるCCO問題を解決するために深層ニューラルネットワークをトレーニングすることである。我々は、ワイヤレスネットワークのモデルを使用して、ニューラルネットワークのトレーニング及びテストのための合成データを生成する。
本明細書の残りの部分は、次のように編成されている。セクション2では、我々が解決しようとするCCOの問題について説明する。セクション3では、この問題を強化学習のスタンダードなフレームワークにマッピングする方法を示す。セクション4では、我々の方法のパフォーマンスを評価するための比較に使用するベースラインの方法について説明する。セクション5では、使用されたニューラルネットワークのアーキテクチャを示し、セクション6では、ニューラルネットワークのトレーニング方法について説明する。セクション7では、トレーニングされたニューラルネットワークをサーチベースのアルゴリズム内で使用できる方法について説明する。セクション8では、シミュレーションのパフォーマンス結果を示す。セクション9では、我々のアプローチのスケーラビリティ及びその他の実際的な問題を反映し、セクション10では、幾つかの結論を示す。一般的なシステムの概要は、図1から図4を参照して、セクション11で提供される。
一態様では、本発明は、ネットワーク最適化を実行するための方法を提供し、前記方法は、ネットワーク環境内の複数のユーザ機器(UE:user equipment)のそれぞれについて、前記ネットワーク環境のセルラー領域の事前定義されたセットについての現在のネットワーク状態を示す少なくとも1つのそれぞれのメトリックを推定及び/又は測定すること、前記複数のUEについての前記推定及び/又は測定されたメトリックによって表される前記現在のネットワーク状態について、予想される将来の利益を最大化する少なくとも1つのアクションであって、対応するセルラー領域で実行される少なくとも1つのネットワーク最適化アクション又はネットワーク最適化アクションが実行されないヌルアクションを含む前記少なくとも1つのアクションを決定すること、及び、前記決定の結果に基づいて、前記対応するセルラー領域に前記決定された少なくとも1つのネットワーク最適化アクションを適用すること、又は、ネットワーク最適化アクションを適用しないことと、を含み、前記決定は、フィードフォワードアーキテクチャ及び前記決定された少なくとも1つのアクションを示す出力を有するニューラルネットワークへの入力として、前記複数のUEについて前記推定及び/又は測定されたメトリックによって表される前記現在のネットワーク状態を適用することによって実行される。
少なくとも1つのそれぞれのメトリックの前記推定及び/又は測定は、複数のサブネットワーク及び複数のReLU(rectified linear unit)を含む少なくとも1つのニューラルネットワークを使用しても良い。この場合、前記少なくとも1つのニューラルネットワークは、前記複数のUEのそれぞれについて、そのUEについての前記少なくとも1つのそれぞれのメトリックの1つ又は複数の現在の値を表すそれぞれの入力データを受信し、前記受信した入力データを蓄積して、前記蓄積された入力データを、複数のノード及び複数のReLUを備えた少なくとも1つのフィードフォワードレイヤを介して供給し、特定のネットワーク状態について予想される将来の利益を最大化する前記少なくとも1つのアクションを識別する情報を出力する、ように構成されても良い。
予想される将来の利益を最大化する前記少なくとも1つのアクションは、現在のネットワーク状態を示す前記少なくとも1つのそれぞれのメトリックと、前記少なくとも1つのアクションが適用された場合の前記少なくとも1つのそれぞれのメトリックの推定と、の間の差に基づいて、決定されても良い。
前記予想される将来の利益は、ディスカウントファクターを使用して決定され、前記ディスカウントファクターの値は、前記予想される将来の利益が比較的短期間の将来の利益であるか、又は、比較的長期間の将来の利益であるかを決定しても良い。前記ディスカウントファクターは、即時の将来の利益を最大化する値(例えば、「0」)に最初に設定されても良い。
前記ネットワーク最適化は、カバレッジ及び容量の最適化(例えば、送信電力の最適化/アンテナ傾斜の最適化)を含んでも良い。前記少なくとも1つのメトリックは、前記ネットワーク環境の環境モデルを使用して推定されても良い。前記少なくとも1つのそれぞれのメトリックは、所与のUEについて、そのUEについてのセル関連付け、そのUEについてのSINR(signal-to-interference-plus-noise ratio)、及びそのUEについてのスループットのうちの少なくとも1つを含んでも良い。
前記少なくとも1つのネットワーク最適化アクションは、前記ネットワークのセルに関連する電力オフセットを増加させること、又は、前記ネットワークのセルに関連する電力オフセットを減少させることを含んでも良い。前記ネットワークによってカバーされるセルラー領域の前記事前定義されたセットは、少なくとも1つのセルの事前定義されたセット、又は、(少なくとも1つのセルにおける)少なくとも1つのビームの事前定義されたセットを含んでも良い。
一態様では、本発明は、ネットワーク最適化で使用するためのフィードフォワードアーキテクチャを有するニューラルネットワークをトレーニングするための方法を提供し、前記方法は、複数の学習反復を実行することを含み、それぞれの学習反復は、それぞれの複数の連続する時間ステップを含み、前記複数の学習反復のそれぞれについて、前記方法は、以下を含む。i)前記複数の連続する時間ステップのそれぞれについて、(a)ネットワーク環境内の複数のユーザ機器(UE:user equipment)のそれぞれについて、前記ネットワーク環境のセルラー領域の事前定義されたセットについての現在のネットワーク状態を示す少なくとも1つのそれぞれのアクション前のメトリックを推定し、(b)前記セルラー領域の少なくとも1つで実行される少なくとも1つのネットワーク最適化アクションを選択し、(c)前記ネットワーク環境内の前記複数のUEのそれぞれについて、前記選択されたアクションが実行された後、セルラー領域の前記事前定義されたセットについて、アクション後のネットワーク状態を示す少なくとも1つのそれぞれのアクション後のメトリックを推定し、(d)前記選択されたアクションが実行された後の前記ネットワーク状態を示す少なくとも1つのアクション後のメトリックに基づいて、前記選択されたアクションを適用することから生じる観察された報酬を決定し、(e)前記選択されたアクション、前記観察された報酬、前記少なくとも1つのそれぞれのアクション前のメトリック、及び、前記少なくとも1つのそれぞれのアクション後のメトリックを互いに関連付けて含むサンプルを、メモリに格納すること、ii)前記メモリから複数の前記格納されたサンプルを抽出すること、及びiii)前記抽出されたサンプルに基づいて前記ニューラルネットワークを更新すること。ここで、前記ニューラルネットワークは複数の重みを含み、前記更新は、前記抽出されたサンプルに基づいて前記重みを調整することを含む。
ニューラルネットワークをトレーニングするための方法は、SON(Self-Organising Network)アルゴリズムによって選択されたアクションに基づいて前記複数の重みの調整が実行される初期フェーズをさらに含んでも良い。
所与の状態の各ネットワーク最適化アクションは、そのネットワーク最適化アクションを選択する確率を定義するそれぞれの関連する確率εを有し、前記(b)の前記セルラー領域の少なくとも1つで実行される少なくとも1つのネットワーク最適化アクションを選択することは、前記確率εに基づいて実行され、前記確率εは、前記複数の学習反復にわたって、初期値(例えば、「1」)から最終値(例えば、「0.1」)まで徐々に変化しても良い。各確率εは、「0」と「1」との間の値を有し、前記(b)の前記セルラー領域の少なくとも1つで実行される少なくとも1つのネットワーク最適化アクションを選択することは、ランダムに、かつ、所与のネットワーク最適化アクションについて1-εの確率で実行されても良い。
一態様では、本発明は、ネットワーク最適化で使用するためのニューラルネットワークをトレーニングするための方法を提供し、前記方法は、前記ニューラルネットワークの複数の重みを調整するために複数の学習反復を実行することを含み、初期フェーズでは、前記複数の重みの調整は、SON(Self-Organising Network)アルゴリズムによって選択されたアクションに基づいて実行され、次のフェーズでは、前記複数の重みの調整は、前記ニューラルネットワークによって選択されたアクションに基づいて実行される。
前記方法は、前記ニューラルネットワークが、事前決定された信頼性で前記SONアルゴリズムの前記アクションを予測することを学習したかどうかを決定することと、前記決定に依存して、前記次のフェーズに進むことと、をさらに含んでも良い。
一態様では、本発明は、ネットワーク最適化を実行するための方法を提供し、前記方法は以下を含む。(a)ネットワーク環境の現在のネットワーク状態を示す少なくとも1つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うこと、(b)それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも1つのメトリックをそれぞれ推定すること、(c)それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「B」のネットワーク最適化アクションを選択すること、(d)それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定すること、(e)全ての次のネットワーク状態の中から、少なくとも1つの追加メトリックに基づいて、最大で事前決定された数「W」のベストなネットワーク状態を選択すること、(f)それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「D」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ(b)を繰り返すこと、(g)前記少なくとも1つの追加メトリックに基づいて、最適なネットワーク状態を識別すること、ここで、前記最適なネットワーク状態は、推定された前記少なくとも1つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、(h)前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別すること、及び、(i)前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用すること。
現在の又は推定されたネットワーク状態を示す前記少なくとも1つのメトリックは、スループットメトリックを含んでも良い。前記ネットワーク環境の次のネットワーク状態を示す少なくとも1つのメトリックをそれぞれ推定することは、前記ネットワーク環境内の複数のユーザ機器(UE:user equipment)のそれぞれについて、前記ネットワーク環境のセルラー領域の事前定義されたセットについての前記初期ネットワーク状態を示す少なくとも1つのそれぞれのメトリックを推定及び/又は測定すること、前記複数のUEについての前記推定及び/又は測定されたメトリックによって表される前記初期ネットワーク状態について、予想される将来の利益を最大化する少なくとも1つのアクションを決定すること、及び、前記決定の結果に基づいて、前記対応するセルラー領域に前記決定された少なくとも1つのネットワーク最適化アクションを適用すること、によって実行され、前記決定は、フィードフォワードアーキテクチャ及び前記決定された少なくとも1つのネットワーク最適化アクションを示す出力を有するニューラルネットワークへの入力として、前記複数のUEについて前記推定及び/又は測定されたメトリックによって表される前記初期ネットワーク状態を適用することによって実行されても良い。
一態様では、本発明は、ネットワーク最適化を実行するための装置を提供し、前記装置は、ネットワーク環境内の複数のユーザ機器(UE:user equipment)のそれぞれについて、前記ネットワーク環境のセルラー領域の事前定義されたセットについての現在のネットワーク状態を示す少なくとも1つのそれぞれのメトリックを推定及び/又は測定するための手段、前記複数のUEについての前記推定及び/又は測定されたメトリックによって表される前記現在のネットワーク状態について、予想される将来の利益を最大化する少なくとも1つのアクションであって、対応するセルラー領域で実行される少なくとも1つのネットワーク最適化アクション又はネットワーク最適化アクションが実行されないヌルアクションを含む前記少なくとも1つのアクションを決定するための手段、及び、前記決定の結果に基づいて、前記対応するセルラー領域に前記決定された少なくとも1つのネットワーク最適化アクションを適用するか、又は、ネットワーク最適化アクションを適用しないための手段、を含み、前記決定するための手段は、フィードフォワードアーキテクチャ及び前記決定された少なくとも1つのアクションを示す出力を有するニューラルネットワークへの入力として、前記複数のUEについて前記推定及び/又は測定されたメトリックによって表される前記現在のネットワーク状態を適用するように構成される。
一態様では、本発明は、ネットワーク最適化で使用するためのフィードフォワードアーキテクチャを有するニューラルネットワークをトレーニングするための方法を提供し、前記方法は、複数の学習反復を実行するための手段を含み、それぞれの学習反復は、それぞれの複数の連続する時間ステップを含み、前記複数の学習反復のそれぞれについて、前記手段は、以下のように構成される。i)前記複数の連続する時間ステップのそれぞれについて、(a)ネットワーク環境内の複数のユーザ機器(UE:user equipment)のそれぞれについて、前記ネットワーク環境のセルラー領域の事前定義されたセットについての現在のネットワーク状態を示す少なくとも1つのそれぞれのアクション前のメトリックを推定し、(b)前記セルラー領域の少なくとも1つで実行される少なくとも1つのネットワーク最適化アクションを選択し、(c)前記ネットワーク環境内の前記複数のUEのそれぞれについて、前記選択されたアクションが実行された後、セルラー領域の前記事前定義されたセットについて、アクション後のネットワーク状態を示す少なくとも1つのそれぞれのアクション後のメトリックを推定し、(d)前記選択されたアクションが実行された後の前記ネットワーク状態を示す少なくとも1つのアクション後のメトリックに基づいて、前記選択されたアクションを適用することから生じる観察された報酬を決定し、(e)前記選択されたアクション、前記観察された報酬、前記少なくとも1つのそれぞれのアクション前のメトリック、及び、前記少なくとも1つのそれぞれのアクション後のメトリックを互いに関連付けて含むサンプルを、メモリに格納する、ii)前記メモリから複数の前記格納されたサンプルを抽出する、及び、iii)前記抽出されたサンプルに基づいて前記ニューラルネットワークを更新する。ここで、前記ニューラルネットワークは複数の重みを含み、前記更新は、前記抽出されたサンプルに基づいて前記重みを調整することを含む。
一態様では、本発明は、ネットワーク最適化で使用するためのニューラルネットワークをトレーニングするための装置を提供し、前記装置は、前記ニューラルネットワークの複数の重みを調整するために複数の学習反復を実行するための手段を含み、初期フェーズでは、前記複数の重みの調整は、SON(Self-Organising Network)アルゴリズムによって選択されたアクションに基づいて実行され、次のフェーズでは、前記複数の重みの調整は、前記ニューラルネットワークによって選択されたアクションに基づいて実行される。
一態様では、本発明は、ネットワーク最適化を実行するための装置を提供し、前記装置は以下を含む。(a)ネットワーク環境の現在のネットワーク状態を示す少なくとも1つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うための手段、(b)それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも1つのメトリックをそれぞれ推定するための手段、(c)それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「B」のネットワーク最適化アクションを選択するための手段、(d)それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定するための手段、(e)全ての次のネットワーク状態の中から、少なくとも1つの追加メトリックに基づいて、最大で事前決定された数「W」のベストなネットワーク状態を選択するための手段、(f)それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「D」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ(b)を繰り返すための手段、(g)前記少なくとも1つの追加メトリックに基づいて、最適なネットワーク状態を識別するための手段、ここで、前記最適なネットワーク状態は、推定された前記少なくとも1つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、(h)前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別するための手段、及び、(i)前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用するための手段。
本発明の態様は、対応するシステム、及び上記の態様および可能性で説明した、又は請求項に記載された、及び/又は請求項のいずれかに記載の装置を提供するように適切に適合されたコンピュータをプログラムする、方法を実行するためにプログラム可能なプロセッサをプログラムするように動作可能な命令を格納したコンピュータ可読記憶媒体などのコンピュータプログラム製品に及ぶ。
本明細書(この用語は特許請求の範囲を含む)に開示されている及び/又は図面に示されている各特徴は、他の開示及び/又は図示された特徴とは独立して(又は組み合わせて)本発明に組み込むことができる。特に、ただしこれらに限定されないが、特定の独立請求項に従属する任意の請求項の特徴は、任意の組み合わせで又は個別に、その独立請求項に導入することができる。
上述した態様は、上述した課題の解決に寄与し得る。
実施形態が適用可能なモバイル通信システムの例を概略的に示す図である。 図1に示されるUEの主要なコンポーネントの例を示すブロック図である。 図1に示される(R)ANノードの主要なコンポーネントの例を概略的に示すブロック図である。 図1に示されるコアネットワークノードの主要なコンポーネントの例を概略的に示すブロック図である。 C=7のセルサイトの小規模なワイヤレスネットワークの例を概略的に示す図である。 RLエージェントと環境モデルとの間の相互作用の例を示す図である。 フィードフォワードアーキテクチャ及び入力データのフォーマットの例を示す図である。 経験再生メモリと、重みを有する個別のターゲットニューラルネットワークと、の例を示す図である。 修正されたε-グリーディポリシーを用いたRLエージェントのトレーニングパフォーマンスの例を示す図である。 修正されたε-グリーディポリシーを用いたRLエージェントのトレーニングパフォーマンスの例を示す図である。 修正されたε-グリーディポリシーを用いたRLエージェントのトレーニングパフォーマンスの例を示す図である。 ビームサーチアルゴリズムの例を示す図である。 「CCOなし」の場合のスループットメトリックに関連する各アルゴリズムのスループットメトリックμの分布の例を示す図である。 UE数の関数としてのr.m.s.エラーの例を示す図である。
2 システムモデル
2.1 環境モデル
このセクションでは、我々は、RLエージェントが動作するワイヤレスネットワークの我々のモデルについて説明する。我々は、表1に示されるパラメータを使用して、図5に示されるように、C = 7のセルサイトの小規模なワイヤレスネットワークを想定している。
Figure 0007279856000001
以下の例示的な実施形態では、3GPPの用語「ユーザ機器」(UE:User Equipment’)は、ユーザを指すために使用される。UEは、ポアソン過程のコール到着モデルに基づいて、システムにランダムに到着及び出発すると仮定される。コール時間は、平均120秒のジオメトリック分布からサンプリングされる。各UEのロケーションは、シミュレーションエリア全体でランダムに均一に選択され、各UEは、コール中は静止していると仮定される。同時にアクティブなUEの数は、時間とともに変化し、平均は28であり、アクティブなUEの数は、時間の約90%で20から40の範囲にある。我々は、所与の時点でアクティブなUEの数をKと表す。
セルi(ここで、1≦i≦C)は、電力レベル
Figure 0007279856000002
で信号を送信する。ここで、Pはデフォルトの送信電力、Δiはセルiのセル電力オフセット(単位はdB)である。我々は、Δiは、ステップサイズΔstepで、ΔminからΔmaxの範囲で調整できると仮定している。セルiに関するUE k(1≦k≦K)のRSRP(Reference Signal Received Power)は、RSRPk,i = Gk,iPiで与えられる。ここで、Gk,iは、アンテナゲイン及び伝搬パスロス(シャドウフェージングを含む)を含む、UE kとセルiとの間の無線伝搬チャネルの合計ゲインである。各UE kは、最も高いRSRPk,iを持つセルをそのサービングセルckとして選択する。すなわち、ck = argmaxi RSRPk,iである。我々は、セルiによってサーブされるUEの数をNiで示す。UE kのSINR(signal-to-interference-plus-noise ratio)は、次式で与えられる。
Figure 0007279856000003
分子は、サービングセルから受信した電力である。分母の最初の項は、UE kの受信機における加算性ホワイトガウスノイズの電力である。第2項は、UE kのサービングセル以外のセルから受信した干渉である。UE kでのセルiの干渉電力Ik,iは、次式で与えられる。
Figure 0007279856000004
いずれのUEもサーブしていないセルは、電力を送信しないと仮定されているため、干渉が発生しないことに注意されたい。我々は、UE kが経験するデータレートは、シャノンハートレーの定理に従って
Figure 0007279856000005
ビット/秒/Hzで与えられると仮定している。分母の項
Figure 0007279856000006
は、所与のセルの帯域幅リソースが、比例公平スケジューラによってそのセルによってサーブされるUE間で共有されるという仮定を反映している。
2.2 CCO問題の説明
我々は、CCO問題を正確に定義できる。最適化の我々の目的として、我々は、スループットメトリック
Figure 0007279856000007
を使用する。この式のlog()の理由は、UE間にある程度の公平性を強制し、無線伝搬条件が比較的悪いUEの枯渇を回避するためである。CCO問題は、次のように組み合わせ最適化として説明できる。
Figure 0007279856000008
セル電力オフセットΔiは、2つの方法でメトリックμに影響を与える可能性があることに注意されたい。それらは、SINRkに直接影響し、また、それらは、RSRPk,iに影響するため、セル関連付け(サービングセルckの選択)を変更することもできる。Δiを調整すると、セル関連付けが変更される可能性があるという事実により、μはΔiの不連続関数になる。
3 強化学習問題としての定式化
強化学習を適用するために、我々は、まず、CCO問題をマルコフ決定過程(MDP:Markov Decision Process)として定式化する必要がある。これは、図6に示されるように、RLエージェントと環境との間の相互作用を定義することによって行われる。最高レベルでは、RLエージェントは、その状態を観察し、アクションを適用し、それらのアクションに対する次の報酬を観察することによって、環境との相互作用を行う。CCOの問題に対する状態、アクション、報酬を定義する方法としては多くの方法がある。以下に説明するように、我々の定式化は、1つの可能なアプローチに過ぎない。
この例では、我々は、1つのRLエージェントが全てのセルを制御する集中型SONアーキテクチャを仮定している。ただし、適切な場合、複数のRLエージェントを使用することができ、その場合、各RLエージェントは、全てのセルのそれぞれのサブセットを制御するように構成することができることが理解されよう。この例のRLエージェントは、モデルフリーであり、これは、セクション2で説明した環境モデルの知識がないことを意味する。
我々は、100msのタイムステップを仮定している。各タイムステップtで、RLエージェントは、ワイヤレスネットワークの状態stを観察する。我々は、RLエージェントは、RSRP測定RSRPk,i、各UEのサービングセルID ck、及び、現在のセル電力オフセット設定Δiを、状態情報として観察できると仮定している。各タイムステップで、RLエージェントは、1つのアクションを選択する。ここで、アクションは、1つのセルのセル電力オフセットを、Δstepの量だけ増加又は減少させることで構成される。さらに、セルの電力オフセットを変更しないヌルアクションを選択できる。したがって、エージェントが使用できるアクションの総数は、2C + 1 = 15である。ΔiがΔmax又はΔminを超える結果になる場合、アクションはブロックされる。選択されたアクションを適用した後、セクション2で説明した環境モデルを呼び出して、各UEのセル関連付けck及びSINRと、目的関数(スループットメトリック)μの新しい値と、を再計算する。
atは、現在の観測された状態stに基づいてタイムステップtでエージェントによって選択されたアクションを示す。μtは、アクションを適用する前の目的関数の値であり、μt +1は、適用後の値である。アクションatの適用に応答してエージェントが観察する報酬は、rt = μt + 1 - μtとして定義される。言い換えると、報酬は、アクションatを適用する前後で観察されたスループットメトリックの差である。ヌルアクションが選択されている場合、rt = 0であることに注意されたい(代わりに、我々は、アクションrt = μt + 1を実行した後に観測されたメトリックとして報酬を定義できる。実際、これは、各状態での最適なアクションが同じであるという意味で、同等のMDPになることにつながる)。
RLエージェントの動作は、状態sでアクションaを選択する確率を定義するポリシーπ(s,a)として表される。最適なポリシーは、
Figure 0007279856000009
で定義されるように、予想されるディスカウントされる将来のリターンの合計又は長期間の報酬を最大化する。(この場合、状態遷移及び報酬は、システムモデルに従った状態及びアクションの決定論的関数であるため、予想演算子を削除できる)。ディスカウントファクターγは、0 <γ≦1の範囲の値である。我々の実験では、我々は、γ= 0.95を使用する。
我々は、RLエージェントが、UEの地理的分布の変化に応じてセルオフセットを調整し、継続的に動作することを意図しているため、MDPには端末状態がないことに注意されたい。ただし、実際には、我々は、UEの地理的分布はRLエージェントのタイムステップと比較して比較的ゆっくりと変化すると予想する。静的なUE地理的分布の場合、エージェントがセル電力オフセットΔiを調整し、μを最大化する設定にΔiをさらに調整すると、現在の状態に残る場合の報酬よりも低い報酬が生成される。したがって、全てのΔiが最適に調整されている状態は、最適なポリシーがヌルアクションを永久に(又はUE分布が変化するまで)選択している安定したポイントである。同じ状態で永久に残ることによって得られるディスカウントされる将来のリターンの合計は、
Figure 0007279856000010
である。これは、RLエージェントが継続的に動作している場合でも、我々が、ヌルアクションが選択されたときに入力される報酬rt = 0である「疑似端末」状態を定義することを選択できることを示唆している。我々の実験は、我々がヌルアクションを疑似端末状態として扱うかどうかにかかわらず、RLエージェントのパフォーマンスに大きな違いはないことを示唆している。疑似端末状態は、本明細書で報告されている実験には使用されない。
最適なポリシーは次の形式で記述できる。
Figure 0007279856000011
ここで、Q(s,a)は、状態sでアクションaを選択し、その後ポリシーπ(s,a)に従うことによって得られる、予想されるディスカウントされる将来のリターンの合計である。したがって、最適なポリシーを見つける問題は、各状態及びアクションについて値Q(s,a)を見つけて、所与の状態sで最大のQ(s,a)を持つアクションを選択することと等価である。状態はUEの地理的分布に依存し、したがって継続的であるため、Q(s,a)を全ての可能な状態及びアクションに対して明示的に格納することはできない。代わりに、我々は、以降のセクションで説明するように、Q(s,a)を推定するための関数近似として深層ニューラルネットワークを使用する。
4 パフォーマンスのベースライン
RLエージェントのパフォーマンスをテストするために、我々は、次のように、3つのベースラインと比較する。
1. CCOなし(No CCO)。全ての電力オフセットはΔi = 0 dBに固定されている。
2. ランダムアルゴリズム。アクションは、各タイムステップでランダムに均一に選択される。
3. グリーディアルゴリズム。各タイムステップで、使用可能な各アクションat(ヌルアクションを含む)を暫定的に試行し、報酬rtが最大のアクションを選択する。
グリーディアルゴリズムは即時の報酬を最大化しようとするが、RLエージェントの目的は長期間の報酬を最大化することである。したがって、理論的には、RLエージェントは、グリーディアルゴリズムよりも優れたパフォーマンスを発揮できるはずである。
グリーディアルゴリズムでは、各タイムステップで全てのアクションを暫定的に試行することを許可していることに注意されたい。我々は、RLエージェントがこれを行うことを許可していない。RLエージェントは、各タイムステップで1つのアクションのみを試行できる。同様に、グリーディアルゴリズムは、環境の理想的なモデルにアクセスでき、それを使用して、考えられる各アクションの効果を完全な精度で予測できると言える。セクション1で述べたように、実際には、無線環境のそのような正確な数学的モデルを構築することは現実的ではない。
5 ニューラルネットワークアーキテクチャ
ニューラルネットワークアーキテクチャ及び入力データ表現の選択は、ニューラルネットワークの学習効率に大きな影響を与える可能性がある。このために幾つかのオプションが検討された。1つのオプションは、全てのUEのデータが単一の入力ベクトルに連結され、次に、完全に接続された複数の隠れレイヤを介して提供され、最後に、各アクションaについて、推定されたQ値Q(s,a,θ)を生成する出力レイヤに供給される、単純なフィードフォワードアーキテクチャである。ここで、θはニューラルネットワークのパラメータを示す。このアプローチの主な問題は、入力レイヤは固定サイズでなければならないが、UEの数は可変であるため、我々は、UEの最大数を想定し、それに基づいて入力サイズを固定する必要があることである。また、入力レイヤと第1の隠れレイヤとの間の重みの数が非常に大きくなる。
別のオプションは、通常は、画像処理に使用される、畳み込みニューラルネットワークアーキテクチャである。我々は、環境エリアを固定サイズ(例えば、3m x 3m)の「ピクセル」のグリッドに分割し、ピクセル内のUEの数に基づいて各ピクセル値を設定することで、「イメージ」を作成できる。これには、入力レイヤのサイズがUEの数に依存しないという利点がある。ただし、それは、ニューラルネットワークが、UEのロケーションに関する情報のみを認識し、RSRP測定は認識しないことも意味する。これにより、実際には、ロケーションがRSRPの適切な予測因子であるとは限らないため、学習がより困難になる。例えば、ピクセル内の1つのUEは、所与のセルへの見通し範囲内である場合があるが、同じピクセル内の別のUEはそうでない場合がある。我々の実験では、このアプローチはうまく機能しなかった。
3番目の可能性は、リカレントニューラルネットワーク(RNN:recurrent neural network)である。RNNには内部フィードバックが含まれており、シーケンスの処理に使用される(例えば、時系列予測)。我々の場合、「シーケンス」はUEで構成され、シーケンス長はUEの数Kである。このアーキテクチャは、可変のUEの数に対応できる。ただし、RNNの1つの特徴は、出力が入力シーケンスの順序に依存するのに対し、我々の例示的なアプリケーションでは、近似したい関数Q(s,a,θ)がUEの順序に依存しない。理論的には、ニューラルネットワークは順序付けが無関係であることを学習できるが、学習がより困難になり、我々の実験では、このアプローチもうまく機能しなかった。
その代わりに、我々は、図7に示される、修正されたフィードフォワードアーキテクチャを使用した。このネットワークは3つのステージで構成されている。第1ステージでは、各UEのデータは、それぞれ512個の隠れノード及びReLU(rectified linear activation units)を備えた2つのフィードフォワード完全接続レイヤで構成されるサブネットワークに入力される。同じ重みが全てのUEで共有される。次に、出力は単純な加算によってマージされ、単一の長さ512のベクトルが生成される。実際には、これは単一のサブネットワークを使用して行われ、各UEのデータを順番に入力し、出力を蓄積する。このネットワークはフィードフォワード接続のみで構成されているため、蓄積の結果はUEの入力順序に依存しないことに注意されたい。第2ステージでは、第1ステージから、蓄積されたベクトルが、それぞれ256個の隠れノード及びReLUアクティベーションユニットを備えた、さらに2つの完全に接続されたフィードフォワードレイヤを介して供給される。最後に、各アクションのQ(s,a,θ)を生成するための線形出力を備えた完全接続レイヤで構成される出力ステージがある。
パラメータθ(重み及びバイアス)の総数は475407であり、そのうち約58%がステージ1にあり、約41%がステージ2にある。
図7は、入力データのフォーマットも示している。各UE kのデータは、長さ3C + 1 = 22のベクトルXkとして入力される。最初のCエントリには、UE kのサービングセルのRSRPに正規化されたUE kの各セルのRSRPが含まれている。サービングセルは、(定義上は)RSRPが最大のセルであるため、これは0から1の間の値である。したがって、最初のCエントリは、サービングセルに対する各セルの強度を表し、したがって、どのセルがUE kへの最大の干渉を引き起こすかを示す。次のエントリは、UE kのサービングセルのRSRPに正規化された熱ノイズ電力
Figure 0007279856000012
である。これは、サービングセルの強度のインジケーションである。次のCエントリは、どのセルがUE kのサービングセルであるかを示すワンホットエンコードされたベクトルである。残りのCエントリは、0から1の範囲に正規化された現在のセル電力オフセットΔiである。これらのエントリは全てのUEで同じであることに注意されたい。オフセットの影響はすでにRSRP値に反映されているため、これらの入力は冗長であるように見える場合がある。ただし、特定のアクションを実行する効果は、後で実行できるアクションに依存する可能性があり、ΔminからΔmaxの範囲外のセルオフセットを取得するアクションは許可されないため、これらの入力は、各セルで使用可能なセルオフセットの調整量を示すのに役立つ可能性がある。
6 ニューラルネットワークのトレーニング
このセクションでは、我々は、ニューラルネットワークのトレーニングに使用される手順について説明する。我々の方法は、基本的に、非特許文献14に記載されている方法に従ってトレーニングされるDQN(Deep Q-Network)である。我々は、図8に示されるように、経験再生メモリと、重み
Figure 0007279856000013
を有する個別のターゲットニューラルネットワーク
Figure 0007279856000014
を使用する。
トレーニングは一連の「エポック」で実行される。エポックは、それぞれ32のタイムステップの390回の反復で構成されているため、1つのエポックは約21分の期間を表す。各反復では、次のステップが実行される。
1. エージェントは、セクション3に記載されているように、32のタイムステップで環境に作用する。各タイムステップでは、選択されたアクション及び観察された報酬は、現在の状態及び観察された次の状態のニューラルネットワーク入力データとともに、経験再生メモリに格納される。再生メモリは、そのようなサンプルを100万個格納し、先入れ先出し方式で動作する。
2. 32のタイムステップが実行された後、128のサンプルが再生メモリからランダムに抽出されてミニバッチが形成される。これは、ニューラルネットワークの重みを更新するために使用される。
3. ターゲットニューラルネットワークの重みは、
Figure 0007279856000015
に従ってトレーニングニューラルネットワークの新しい重みに向けて更新される。ここで、τ= 0.001である。
DQNの重みは、ベルマン最適化方程式(非特許文献18)に基づく平均二乗誤差損失関数L(θ)を最小化するために、学習率10-4のAdamオプティマイザー(非特許文献17)を使用した確率的勾配降下法によって更新される。
ニューラルネットワークの重みを更新するためのターゲットytは、次式で与えられる。
Figure 0007279856000016
ここで、
Figure 0007279856000017
は、ターゲットニューラルネットワークの出力を示す。我々は、非特許文献15の「double-DQN」方法に従うことに注意されたい。この方法では、状態st+1のアクションは、トレーニングニューラルネットワークの出力に対してargmaxによって選択されるが、このアクションについて推定されたQファクターは、ターゲットニューラルネットワークを使用して評価される。
トレーニング中、エージェントは修正されたε-グリーディポリシーに従ってアクションを選択する。これにより、確率εでアクションがランダムに均一に選択され、確率1-εでQ(st,at,θ)に基づいてアクションが選択される。εの値は、最初の1500のトレーニングエポックにわたって、初期値1から最終値0.1まで線形にアニーリングされる。Q(st,at,θ)が最大のアクションを常に選択するのではなく、我々は、確率
Figure 0007279856000018
のアクションaを選択する。ここで、A(st)は、状態st及びα= 1000で許可されるアクションのセットである。これは、Q値が最大値に近いアクションが複数ある場合の探索を促進するためである。
図9A、図9B、及び図9Cは、修正されたε-グリーディポリシーを用いたRLエージェントのトレーニングパフォーマンスを示している。最初は、εの値が高く、重みがランダムに初期化されるため、エージェントはランダムに動作する。パフォーマンスの改良は、εの学習値及び減少値の両方を反映している。最終的に、エージェントは、確率εでアクションをランダムに選択したにもかかわらず、平均メトリック及び平均ユーザスループットの両方の観点でグリーディアルゴリズムよりもわずかに優れたパフォーマンスを達成し、5%-ileスループットがわずかに低下する。おおむね、1500のエポックの後にε= 0.1の最終値に達すると、ほとんど又は全く改善がみられない。これは、探索速度が低下し、環境の変化速度が遅いことを考慮すると、再生メモリ内のサンプルの種類が比較的少ないことが原因の1つである。
7 サーチベースの方法
セクション6で説明したDQNアルゴリズムは、各タイムステップで観察された状態に基づいて単一のアクションを選択して適用する。このセクションでは、我々は、各タイムステップでエージェントが複数のタイムステップを先に計画することによってアクションを選択するサーチベースの方法について説明する。我々は、このスキームのコンポーネントとしてDQNを利用する。
サーチベースの方法の基本的な考え方は、エージェントが一連のアクションを実行することをイメージして、現在の状態の近くの状態を探索することである。サーチ手順は、タイムステップごとに実行される。サーチ手順への入力は、現在の状態stと、エージェントが現在の状態の環境から観察するスループットメトリックμtである。サーチ手順の出力は、エージェントが少しのタイムステップ内に(つまり、幾つかのアクションを実行することによって)現在の状態から到達可能なベストな状態であると推定する状態sbestである。次に、エージェントは状態sbestに向かうアクションを選択し、そのアクションを実際の環境に適用する。次に、新しい状態が観察され、新しいサーチ手順が開始される。探索フェーズでは、実際の環境でいずれのアクションも適用しないことに注意されたい。実際の環境に適用される唯一のアクションは、サーチプロセスの最後に選択されたアクションである。
サーチベースの方法は、所与のアクションaが所与の状態sで実行されたときに、エージェントが次の状態を予測できると仮定している。本例示的なアプリケーションでは、これは、エージェントが、アクションaが適用された場合に状態sで観察される各UEのRSRP測定及びセル関連付けがどのように変化するかを予測する関数s’ = fs(s,a)にアクセスできることを意味し、各UEの新しいRSRP測定及びセル関連付けを含む新しい状態s’を返す。セル電力オフセットが変更された場合、観測されたRSRP測定は単純で予測可能な方法で変化するはずであり、各UEの新しいセル関連付けは、予測されたRSRP測定から決定できるため、この仮定は我々のCCOアプリケーションでは妥当なようである。ただし、DQNの場合は、この仮定を行う必要がないことに注意されたい。
ベストな状態を識別するには、エージェントは、サーチ中に探索された各状態のスループットメトリックを推定する必要がある。このために、我々は、μ(s)= V(s,θv)で表されるニューラルネットワークを使用する。ここで、θvはニューラルネットワークのパラメータである。このネットワークは、図7に示されるDQNネットワークと同じアーキテクチャを備えているが、出力ステージが、入力状態sについて推定されたスループットメトリックμ(s)に対応する単一の出力のみで構成されている点は異なる。このネットワークは、DQNとは独立してトレーニングされたが、セクション6で説明したのと同じ環境を使用し、同じ経験再生メモリパラメータを使用している。トレーニング中に、アクションはグリーディアルゴリズムによって選択される。トレーニングの目的関数は、ニューラルネットワーク出力と環境から観測されたメトリックとの間の平均二乗誤差
Figure 0007279856000019
である。我々は、観測されたネットワーク状態から観測されたスループットを予測するようにネットワークをトレーニングしているだけなので、これは教師あり学習であることに注意されたい。
サーチ手順は、ビームサーチアルゴリズム(非特許文献16)に基づいている。アルゴリズムは以下に示され、例は図10に示される。ビームサーチは、D回の反復で構成される。ここで、パラメータDはサーチの深さ(つまり、先を見るアクションの数)である。
セットUには、サーチ中にビジットした全ての状態が含まれる。ビームサーチの各反復で、アルゴリズムは、セットSに現在格納されている状態のセットから探索木を拡張する(以下のビームサーチアルゴリズムの5~17行目を参照)。U及びSの両方が、現在の状態stのみを含むように初期化される。Sの各状態にsついて、我々は、B個の最も有望なアクションを含むセットAを作成する。ここで、パラメータBはサーチの分岐ファクター(つまり、ビジットした各状態から探索されるアクションの数)である。我々は、最も有望なアクションを選択するために、DQNからの出力が最大のB個のアクションQ(s,a,θ)を選択する(7~9行目)。ヌルアクションは状態を変更せず、したがって探索に寄与しないため、ヌルアクションは除外されることに注意されたい。
A(s)における各アクションaについて、我々は、状態sでアクションaを実行することによって発生する新しい状態s’を見つける。これは、上記のように関数fs(s,a)を適用することによって行われる。状態s’は、サーチ中にまだビジットしていない場合は、U及びSnextの両方に追加され(12~15行目)、それ以外の場合は無視される(アクションの異なるシーケンスから同じ状態になる可能性があるため、サーチ中に同じ状態に複数回遭遇することがよくあることに注意されたい)。
Sにおける全ての状態を考慮した後、セットSnextは、Wを超えるエントリを含まないように枝刈りされる。ここで、パラメータWはサーチの幅である。これは、ニューラルネットワークのV(s,θv)を使用して、Snextにおける各状態のスループットメトリックを推定し、推定されたメトリックが最も高いWの状態を保持することによって行われる(18~20行目)。次に、セットSnextは、サーチの次の反復でセットSとして使用される(21行目)。
Dの反復が全て完了した後、Uで収集された状態が調べられ、推定されたメトリックV(s,θv)が最も高い状態がsbestに割り当てられる(23行目)。ただし、Uにおけるベストな状態の推定されたメトリックがμt(現在の状態の観測されたメトリック)よりも大きくない場合、サーチはsbest = stを返す(24~26行目)。これは、現在の状態よりも良好であると思われる近くの状態をサーチで見つけられなかった場合に対応する。
深さDが1で、分岐ファクターBが14の場合(使用可能な全てのアクションが考慮される場合)、ビームサーチ方法は、環境の理想的なモデルを使用する代わりに、ニューラルネットワークV(s,θv)が、考えられる各アクションを評価するように使用されることを除いて、グリーディアルゴリズムと等価であることに注意されたい。したがって、ビームサーチは、環境の非理想的なモデルを使用した、グリーディアルゴリズムの一般化と見なすことができる。
sbestが与えられると、エージェントは、実際の環境に適用するアクションを選択する必要がある。各セルについて、我々は、状態sbestのセル電力オフセットを現在の状態stのセル電力オフセットと比較する。我々は、差が最も大きいセルを見つけ、セル電力オフセットを調整して差を減らすアクションを選択する(同じ最大差を持つセルが複数ある場合は、セル番号に基づいて任意に1つを選択する)。sbest = stの場合、ヌルアクションが選択される。
Figure 0007279856000020
要約すると、このアプローチの高レベルのアイデアは、ニューラルネットワークモデルを使用してワイヤレスネットワークをリアルタイムでシミュレートすることにより、良好な状態を識別することである。ゲームの結果(勝ち負け)がわかるまでゲームをシミュレートし、そのようなシミュレートされた多数のゲームからの情報を使用してアクション(ムーブ)を選択するためのサーチベースの方法があるが、この場合、ゲームの終了に対応する端末状態がなく、勝ち負けの条件がないため、そのような方法は、ネットワーク最適化エリアへ直接適用できない。有益なことに、本願では、サーチからの有用な出力は、所与のサーチ手順中にアルゴリズムによって見つけられたベストな状態である(例えば、勝ち/負け状態、又は「良好」又は「悪い」につながるサーチパスの数である最終的な状態ではない)。
8 パフォーマンスの評価
トレーニング後のRLエージェントのパフォーマンスを評価するために、我々は、セクション2.1で説明した時間的に変化する地理的UE分布のスナップショットを表す1000個の静的ランダム地理的UE分布を生成した。これらの地理的UE分布は、トレーニングデータとは独立して生成されたため、トレーニング中に(高い確率で)観測されなかった。これらの静的シナリオのそれぞれについて、我々は、セル電力オフセットΔiをランダムに初期化し、セクション4で説明したランダムなグリーディアルゴリズムと、RLエージェントと、を適用する。各アルゴリズムは、100のタイムステップで実行され、スループットメトリックμが最後に観察される。
1000のシナリオのそれぞれについて、我々は、ブルートフォースサーチによってμを最大化するΔiの設定も見つけた。これにより、我々は、各アルゴリズムが最適なパフォーマンスにどれだけ近づくかをチェックできる。
DQN及びサーチベースのRLエージェントの両方がテストされる。サーチベースのRLエージェントについては、我々は、セクション7で説明した、パラメータD = 6、B = 8、及びW = 8を使用する方法を使用する。これらのパラメータを使用すると、各タイムステップのサーチ手順中に約200の状態がビジットされる。
図11は、「CCOなし」の場合(つまり、全てのセルの電力オフセットがゼロに設定されている場合)のスループットメトリックに関連する各アルゴリズムのスループットメトリックμの分布を示している。我々は、ランダムアルゴリズムは、「CCOなし」の場合よりもパフォーマンスが悪いことを確認できた。ランダムな変更によりセルがオフになり、パフォーマンスが低下することが多いため、これは妥当と思われる。DQN RLエージェントは、グリーディアルゴリズムよりも大幅に向上している。DQNをサーチベースの方法で使用すると、パフォーマンスはほぼ最適になる。
表2は、各アルゴリズムがCCOなしよりも優れており、グリーディアルゴリズムよりも優れている1000のテストケースの割合を示している。各アルゴリズムが最適なパフォーマンスを達成するテストケースの割合も示されている。グリーディアルゴリズムは、テストケースのわずか7.1%で最適解を見つける。DQN RLエージェントは9.4%とわずかに優れており、サーチベースのRLエージェントはテストケースの半分強で最適解を見つけている。
Figure 0007279856000021
スループットメトリックμに加えて、我々は、各アルゴリズムの平均ユーザスループット
Figure 0007279856000022
も比較した。これは、CCOによって最大化することを目指している量ではないが(UE間のリソースの公平な分散を考慮していないため)、ワイヤレスネットワークの全体的なスペクトル効率に関連しているため、依然として関心の高いものである。表3は、「CCOなし」の場合に正規化され、1000のテストケースで平均化された、各アルゴリズムによって達成された平均ユーザスループットを示している。スループットの向上は、最適なCCOを使用してもわずかであるが、RLエージェントがグリーディアルゴリズムよりも最適なパフォーマンスにはるかに近づくことは注目に値する。
Figure 0007279856000023
9 議論
このセクションでは、我々は、本明細書で説明されているタイプのアルゴリズムを実際のワイヤレスネットワークに展開する前に、克服する必要がある幾つかの潜在的な実用上の問題について説明する。これらの問題は全てさらなる作業が必要であるが、ここでは、我々は、幾つかの簡単な観察を行い、将来の調査のために幾つかの可能な方向性を概説する。
9.1 一般化
全ての深層学習方法に適用される重要な注意点の1つは、ニューラルネットワークがトレーニング中に観察するデータ分布から学習することであり、そのパフォーマンスは、入力データがこの分布に典型的なものではない場合、大幅に低下する可能性がある。これを説明するために、我々は、セクション7で説明したトレーニングされたニューラルネットワークV(s,θv)を使用して、追加の実験を実行した。このニューラルネットワークは、状態sからスループットメトリックμ(s)を予測する。我々は、ランダムな地理的UE分布を生成し、セクション2のモデルを使用して計算された実際のスループットメトリックをニューラルネットワークによって予測された値と比較することにより、この予測の精度を測定できる。図12は、UEの数の関数としてのr.m.sエラー(1000のランダムな地理的UE分布の平均)を示している。セクション2.1で説明したように、トレーニング中に存在するUEの数は、通常20~40である。我々は、この範囲では、r.m.s.エラーは低いが、この範囲外では急激に増加することを確認できる。図12の結果は、ニューラルネットワークがトレーニング中に見られなかった地理的UE分布にうまく一般化できることを示しているが、UEの数がトレーニング中に見られる範囲内にある場合に限られる。この範囲外では一般化されない。現在、このことが実際にどれほど深刻な問題になる可能性があるかは明らかではない。
9.2 スケーラビリティ
我々の実験は非常に小規模なワイヤレスネットワークに基づいており、RLエージェントは少数のパラメータのみを制御していた。明らかな問題は、より多くのセル及びパラメータに対応するためにスケールアップできるかどうかである。我々は、ニューラルネットワークのサイズ(レイヤ数及び各レイヤのサイズ)を制御するハイパーパラメータを広範囲で実験しておらず、パフォーマンスにどの程度の影響があるかを確認しなかったため、現時点では、ニューラルネットワークのサイズが、どのようにセルの数に合わせてスケーリングするのに必要になるかはわかっていない。非特許文献21の結果に基づいて、ステージ1のレイヤのサイズをUEの総数に対して線形スケーリングする必要がある可能性がある。さらに、DQNの1つの特徴は、必要なトレーニングデータの量が出力の数とともに増加する傾向があることである。これは、各トレーニングサンプルが効果的に1つの出力(そのトレーニングサンプルで選択されたアクションに関連付けられたもの)のみをトレーニングするため、出力の数が増えるにつれて学習が遅くなるためである。これにより、出力の数、さらにはDQNが制御できるパラメータの数に実際的な制限が生じる可能性がある。
実際、単一のニューラルネットワークを使用して大規模なワイヤレスネットワークのパラメータを直接制御することは、おそらく実行可能なアプローチではない。代わりに、ある種の階層アーキテクチャがより有望であるように思われる。例えば、RLエージェントは、ワイヤレスネットワークの状態を調べて、最適化が必要と思われるセルの小さなグループを識別し、それらのセルを動作させるために低レベルの手順を呼び出すことができる。この場合、RLエージェントによって実行される「アクション」は、ワイヤレスネットワークパラメータを直接制御するのではなく、ワイヤレスネットワークパラメータを順番に調整する低レベルの最適化手順のアクティブ化になるであろう。低レベルの手順は、それ自体が個別のニューラルネットワークを使用するRLエージェントである場合もあれば、従来のSONアルゴリズムである場合もある。低レベルの手順が完了すると、トップレベルのRLエージェントはネットワークの状態を再度調べて、新しいアクションを選択する。
9.3 オンライントレーニング
セクション6で説明したように、トレーニングの初期段階では、DQNは、ε-グリーディポリシーに従ってランダムにアクションを選択することによって探索を行う。ライブのワイヤレスネットワークでランダムに選択されたアクションを実行する際の問題は明らかである。これが引き起こす可能性のある混乱を軽減するために、オフラインで初期トレーニングを実行する幾つかの手段が必要になるか、又は、安全な強化学習方法のように追加の制約を学習に組み込むことができる(例えば、非特許文献20を参照)。前者を行う1つの方法は、RLエージェント自体によって選択されたアクションではなく、従来のSONアルゴリズムによって選択されたアクションに基づいてRLエージェントを最初にトレーニングすることである。RLエージェントが従来のアルゴリズムの動作を十分な信頼性で予測することを学習したら、オンラインにしてトレーニングを継続し、願わくはそのパフォーマンスをさらに向上させることができる。又は、Q学習はオフポリシー方法であるため、探索ポリシーと組み合わせた従来のアルゴリズムを使用して、最適なポリシーを直接学習することを試行できる。
ディスカウントファクターパラメータγをゼロに設定して、最初のオフライントレーニングフェーズを実行することは理にかなっている。例えば、本明細書で調査したCCOシナリオでは、γをゼロに設定することは、DQNによって学習されたQ値が、各アクションを適用することによって達成される即時の報酬の予測であることを意味する。Q値が最大のアクションを選択することは、セクション0で説明したグリーディアルゴリズムと等価である。RLエージェントがオフライントレーニングによってこの動作を学習すると、オンライントレーニングフェーズ中にγが徐々に増加して、パフォーマンスが更に向上する。γの動的な調整は、強化学習では一般的なアプローチではなく、多くのアプリケーションでは意味がない。ただし、本明細書で検討したような、短期間又は長期間の報酬のどちらに焦点を合わせるかをγがRLエージェントへ効果的に調整する問題の場合、それは合理的な戦略のようである。
9.4 信頼性
重み係数の知識がその動作への洞察を提供しないという意味において、ニューラルネットワークは「ブラックボックス」であることがよく観察される。この実際的な結果は、ニューラルネットワークがこれまでに見たことのない入力に遭遇したときに常に「正しく」動作することを、我々が保証できないことである。繰り返すが、これは、ニューラルネットワークを使用してライブのワイヤレスネットワークを制御する場合に明らかな懸念を引き起こす。我々は、RLエージェントに低レベルのコントローラへのアクションを推奨させることで、不安定な動作のリスクを減らすことができる。これにより、不安定性の兆候を検出した場合、必要に応じてRLエージェントの決定をオーバーライドさせることができる。上記のセクション9.1で説明した階層アーキテクチャの場合、低レベルの最適化手順でこの機能を実行できることに注意されたい。
10 結論
本願は、CCOの問題、特にスループットを最大化するために送信電力を調整する問題へのディープRLの適用を検討した。これは、ディープRLが戦略ゲームの解決に効果的である場合、ワイヤレスネットワークで発生する種類の組み合わせ最適化問題にも適用できるはずであるという直感に動機付けられている。少数のセルで構成される小規模なワイヤレスネットワークの理想的なコンピュータシミュレーションに基づく我々の実験では、DQN RLエージェントは、ヒューリスティックベースの(グリーディ)方法よりも優れており、環境の明示的な数学的モデルを必要としない。サーチアルゴリズムと組み合わせると、ほぼ最適なパフォーマンスが達成される。この結果は非常に有望であり、ワイヤレスネットワークの最適化にディープRLを適用するというアイデアには幾つかの可能性があることを示唆している。もちろん、我々の単純なモデルは、実際のワイヤレスネットワークとはサイズ及び複雑さが大きく異なり、このアプローチを実用化する前に、スケーラビリティ及びロバスト性の多くの問題を克服する必要があることは明らかである。
11 システム概要
図1は、上記の実施形態が適用可能であるモバイル(セルラー又はワイヤレス)通信システム1を概略的に示している。
このネットワークでは、モバイルデバイス3(UE)のユーザは、適切な3GPP RAT(radio access technology)、例えば、E-UTRA及び/又は5G RATを使用して、それぞれ基地局5及びコアネットワーク7を介して、互いに及び他のユーザと通信することができる。幾つかの基地局5が(無線)アクセスネットワーク又は(R)ANを形成することが理解されよう。当業者が理解するように、3つのモバイルデバイス3及び1つの基地局5が説明の目的で図1に示されているが、システムは、実装される場合、通常、他の基地局及びモバイルデバイス(UE)を含む。
各基地局5は、(直接、又は、ホーム基地局、リレー、リモート無線ヘッド、分散ユニットなどの他のノードを介して)1つ又は複数の関連するセル8を制御する。E-UTRA/4Gプロトコルをサポートする基地局5は、「eNB」と呼ばれることがあり、次世代/5Gプロトコルをサポートする基地局5は、「gNB」と呼ばれることがある。幾つかの基地局5は、4G及び5Gの両方、及び/又は、他の任意の3GPP又は非3GPP通信プロトコルをサポートするように構成され得ることが理解されよう。
モバイルデバイス3及びそのサービング基地局5は、適切なエアインターフェース(例えば、いわゆる「Uu」インターフェースなど)を介して接続されている。隣接する基地局5は、適切な基地局から基地局へのインターフェース(いわゆる「X2」インターフェース、「Xn」インターフェースなど)を介して互いに接続されている。基地局5はまた、適切なインターフェース(いわゆる「S1」、「N1」、「N2」、「N3」インターフェースなど)を介してコアネットワークノードに接続されている。
コアネットワーク7は、通常、通信システム1における通信をサポートするための論理ノード(又は「機能」)を含む。通常、例えば、「次世代」/5Gシステムのコアネットワーク7は、他の機能の中でも、CPF(control plane function)及びUPF(user plane function)を含む。コアネットワーク7からは、外部IPネットワーク20(インターネットなど)への接続も提供される。
このシステム1のコンポーネントは、例えば、(R)AN及び/又はコアネットワーク7のカバレッジ及び容量最適化を含む、最適化処理を実行するための上記の例示的な実施形態のうちの1つ又は複数を実行するように構成される。
ユーザ機器(UE:User Equipment)
図2は、図1に示されるUE 3(モバイルデバイス)の主要なコンポーネントを示すブロック図である。上記の説明において、UE 3は、「ユーザ」と呼ばれることもある。図示されるように、UE 3は、1つ又は複数のアンテナ33を介して、接続されたノードとの間で信号を送受信するように動作可能なトランシーバ回路31を含む。図2に必ずしも示されているわけではないが、UE 3はもちろん、従来のモバイルデバイスの全ての通常の機能(ユーザインターフェース35など)を有し、これは、必要に応じて、ハードウェア、ソフトウェア、及びファームウェアの任意の1つ又は任意の組み合わせによって提供され得る。コントローラ37は、メモリ39に格納されたソフトウェアに従ってUE 3の動作を制御する。ソフトウェアは、メモリ39に予めインストールされても良く、及び/又は、通信システム1を介して又はRMD(removable data storage device)からダウンロードされても良い。ソフトウェアは、とりわけ、オペレーティングシステム41及び通信制御モジュール43を含む。通信制御モジュール43は、UE 3と、(R)ANノード5及びコアネットワークノードを含む他のノードと、間のシグナリングメッセージ及びアップリンク/ダウンリンクデータパケットを処理(生成/送信/受信)する責任がある。
(R)ANノード
図3は、図1に示される例示的な(R)ANノード5(基地局)の主要なコンポーネントを示すブロック図である。図示されるように、(R)ANノード5は、1つ又は複数のアンテナ53を介して、接続されたUE 3との間で信号を送受信するように、また、ネットワークインターフェース55を介して(直接的又は間接的に)他のネットワークノードとの間で信号を送受信するように、動作可能なトランシーバ回路51を含む。ネットワークインターフェース55は、通常、適切な基地局-基地局インターフェース(X2/Xnなど)及び適切な基地局-コアネットワークインターフェース(S1/N1/N2/N3など)を含む。コントローラ57は、メモリ59に格納されたソフトウェアに従って、(R)ANノード5の動作を制御する。ソフトウェアは、メモリ59に予めインストールされても良く、及び/又は、通信システム1を介して又はRMD(removable data storage device)からダウンロードされても良い。ソフトウェアは、とりわけ、オペレーティングシステム61、通信制御モジュール63、及び(オプション的に)最適化モジュール65を含む。通信制御モジュール63は、(R)ANノード5と、UE 3及びコアネットワークノードなどの他のノードと、間のシグナリングを処理(生成/送信/受信)する責任がある。存在する場合、最適化モジュール65は、深層強化学習などを使用して、上記の最適化処理(の少なくとも一部)を実行する。最適化処理には、(R)AN及び/又はコアネットワーク7のカバレッジ及び容量の最適化が含まれ得るが、これらに限定されない。
コアネットワークノード
図4は、図1に示される一般的なコアネットワークノード(又は機能)の主要なコンポーネントを示すブロック図である。図示されるように、コアネットワークノードは、ネットワークインターフェース75を介して、他のノード(UE 3及び(R)ANノード5を含む)との間で信号を送受信するように動作可能なトランシーバ回路71を含む。コントローラ77は、メモリ79に格納されたソフトウェアに従って、コアネットワークノードの動作を制御する。ソフトウェアは、メモリ79に予めインストールされても良く、及び/又は、通信システム1を介して又はRMD(removable data storage device)からダウンロードされても良い。ソフトウェアは、とりわけ、オペレーティングシステム81、通信制御モジュール83、及び(オプション的に)最適化モジュール85を含む。通信制御モジュール83は、コアネットワークノードと、UE 3、(R)ANノード5、及び他のコアネットワークノードなどの他のノードと、間のシグナリングを処理(生成/送信/受信)する責任がある。存在する場合、最適化モジュール85は、深層強化学習などを使用して、上記の最適化処理(の少なくとも一部)を実行する。最適化処理には、(R)AN及び/又はコアネットワーク7のカバレッジ及び容量の最適化が含まれ得るが、これらに限定されない。
12 修正及び代替
詳細な実施形態は上記に記載されている。当業者が理解するように、そこに具体化された発明から依然として利益を得る一方で、上記の実施形態に対して多くの修正及び代替を行うことができる。例として、これらの代替及び修正の幾つかのみをここで説明する。
上記の実施形態では、複数のセルを含むワイヤレス(セルラー)ネットワークのコンピュータシミュレーションにおけるCCO問題を解決するために、深層ニューラルネットワークがトレーニングされる。上記の例では、ネットワークは7つのセルを含むが、実施形態は、任意の数のセルの場合に適用可能であり得ることが理解されるであろう。例えば、実施形態は、2つのセル(例えば、マクロセルとホーム基地局セル;プライマリ/マスターセルとセカンダリセル;ソースセルとターゲットセルなど)に適用され得る。ビームフォーミングの場合、実施形態は、単一セルの複数のビームに適用することができる。実施形態は、スライスに使用されるセル/ビームの数に関係なく、複数のネットワークスライスに適用され得ることも理解されよう。
上記の例示的な実施形態では、ユーザは、ユーザ機器のアイテムである。ただし、他の例では、ユーザが異なって定義され得ることが理解されよう。例えば、「ユーザ」という用語は、ネットワークスライス、アプリケーション、データストリーム、サービスのタイプ、及びUEのタイプ(例えば、モノのインターネットデバイス、MTC(machine type communication)デバイス、帯域幅制限デバイス、3G UE、4G UE、5G UE、レガシーUEなど)のいずれかを指しても良い。
上記の説明では、理解を容易にするために、UE 、(R)ANノード、及びコアネットワークノードは、いくつかの個別のモジュール(通信制御モジュールなど)を有するものとして説明されている。これらのモジュールは、特定のアプリケーション、例えば既存のシステムが本発明を実装するように修正されている場合、他のアプリケーション、例えば最初から本発明の機能を念頭に置いて設計されたシステムに対し、このように提供され得るが、これらのモジュールは オペレーティングシステム又はコード全体に組み込まれているため、これらのモジュールは個別のエンティティとして認識できない場合がある。これらのモジュールは、ソフトウェア、ハードウェア、ファームウェア、又はこれらの組み合わせで実装することもできる。
最適化モジュール65/85の機能は、任意の適切なネットワークノード(又は機能)によって実行されても良く、これらの機能は、適切な場合、複数のネットワークノードに分散されても良いことが理解されよう。
各コントローラは、例えば、1つ又は複数のハードウェア実装コンピュータプロセッサ、マイクロプロセッサ、CPU(central processing unit)、ALU(arithmetic logic unit)、IO(input/output)回路、内部メモリ/キャッシュ(プログラム及び/又はデータ)、処理レジスタ、通信バス(例えば、制御バス、データバス及び/又はアドレスバス)、DMA(direct memory access)機能、ハードウェア又はソフトウェアで実装されたカウンタ、ポインタ、及び/又はタイマなどを含む(が、これらに限定されない)任意の適切な形態の処理回路を備えることができる。
上記の態様では、幾つかのソフトウェアモジュールが説明された。当業者が理解するように、ソフトウェアモジュールは、コンパイルされた形式又はコンパイルされていない形式で提供されても良いし、UE 3、(R)ANノード5、及びコアネットワークノード7に、コンピュータネットワーク上の信号又は記録媒体上の信号として供給されても良い。さらに、このソフトウェアの一部又は全部によって実行される機能は、1つ又は複数の専用ハードウェア回路を使用して実行されても良い。ただし、ソフトウェアモジュールの使用は、それらの機能を更新するために、UE、(R)ANノード、及びコアネットワークノードの更新を容易にするので、好適である。
上記の実施形態は、「非モバイル」又は一般的に固定されたユーザ機器にも適用可能である。
他の様々な修正は当業者には明らかであり、ここではさらに詳細に説明しない。
(付記1)
ネットワーク最適化を実行するための方法であって、
ネットワーク環境内の複数のユーザ機器(UE:user equipment)のそれぞれについて、前記ネットワーク環境のセルラー領域のットについての現在のネットワーク状態を示す少なくとも1つのそれぞれのメトリックを推定及び/又は測定すること、
前記複数のUEについての前記推定及び/又は測定されたメトリックによって表される前記現在のネットワーク状態について、予想される将来の利益を最大化する少なくとも1つのアクションであって、前記セルラー領域のセットのうちの対応するセルラー領域で実行される少なくとも1つのネットワーク最適化アクション又はネットワーク最適化アクションが実行されないヌルアクションを含む前記少なくとも1つのアクションを決定すること、及び、
記決定された少なくともクションを適用するこ
を含み、
前記決定は、フィードフォワードアーキテクチャ及び前記決定された少なくとも1つのアクションを示す出力を有するニューラルネットワークへの入力として、前記複数のUEについて前記推定及び/又は測定されたメトリックによって表される前記現在のネットワーク状態を適用することによって実行される、
方法。
(付記2)
少なくとも1つのそれぞれのメトリックの前記推定及び/又は測定は、複数のサブネットワーク及び複数のReLU(rectified linear unit)を含む少なくとも1つのニューラルネットワークを使用する、
付記1に記載の方法。
(付記3)
前記少なくとも1つのニューラルネットワークは、
前記複数のUEのそれぞれについて、そのUEについての前記少なくとも1つのそれぞれのメトリックの少なくとも1つの現在の値を表すそれぞれの入力データを受信し、
前記受信したそれぞれの入力データを蓄積して、前記蓄積された入力データを、前記複数のサブネットワークのそれぞれのサブネットワークにおける複数のノード及び前記複数のReLUを備えた少なくとも1つのフィードフォワードレイヤを介して供給し、
特定のネットワーク状態について予想される将来の利益を最大化する前記少なくとも1つのアクションを識別する情報を出力する、
ように構成される、
付記2に記載の方法。
(付記4)
予想される将来の利益を最大化する前記少なくとも1つのアクションは、現在のネットワーク状態を示す前記少なくとも1つのそれぞれのメトリックと、前記少なくとも1つのアクションが適用された場合の前記少なくとも1つのそれぞれのメトリックの推定と、の間の差に基づいて、決定される、
付記1から3のいずれかに記載の方法。
(付記5)
前記予想される将来の利益は、ディスカウントファクターを使用して決定され、前記ディスカウントファクターの値は、前記予想される将来の利益が比較的短期間の将来の利益であるか、又は、比較的長期間の将来の利益であるかを決定する、
付記1から4のいずれかに記載の方法。
(付記6)
前記ディスカウントファクターは、即時の将来の利益を最大化するに最初に設定される、
付記5に記載の方法。
(付記7)
前記ネットワーク最適化は、カバレッジ及び容量の最適を含む、
付記1から6のいずれかに記載の方法。
(付記8)
前記少なくとも1つのメトリックは、前記ネットワーク環境の環境モデルを使用して推定される、
付記1から7のいずれかに記載の方法。
(付記9)
前記少なくとも1つのそれぞれのメトリックは、所与のUEについて、そのUEについてのセル関連付け、そのUEについてのSINR(signal-to-interference-plus-noise ratio)、及びそのUEについてのスループットのうちの少なくとも1つを含む、
付記1から8のいずれかに記載の方法。
(付記10)
前記少なくとも1つのネットワーク最適化アクションは、前記ネットワークのセルに関連する電力オフセットを増加させること、又は、前記ネットワークのセルに関連する電力オフセットを減少させることを含む、
付記1から9のいずれかに記載の方法。
(付記11)
前記ネットワークによってカバーされるセルラー領域の前記ットは、少なくとも1つのセルのット、又は、なくとも1つのビームのットを含む、
付記1から10のいずれかに記載の方法。
(付記12)
ットワーク最適化で使用するためのフィードフォワードアーキテクチャを有するニューラルネットワークをトレーニングするための方法であって、
複数の学習反復を実行することを含み、それぞれの学習反復は、それぞれの複数の連続する時間ステップを含み、前記複数の学習反復のそれぞれについて、前記方法は、以下を含む。
i)前記複数の連続する時間ステップのそれぞれについて、
(a)ネットワーク環境内の複数のユーザ機器(UE:user equipment)のそれぞれについて、前記ネットワーク環境のセルラー領域のットについての現在のネットワーク状態を示す少なくとも1つのそれぞれのアクション前のメトリックを推定し、
(b)前記セルラー領域の少なくとも1つで実行される少なくとも1つのネットワーク最適化アクションを選択し、
(c)前記ネットワーク環境内の前記複数のUEのそれぞれについて、前記選択されたアクションが実行された後、セルラー領域の前記ットについて、アクション後のネットワーク状態を示す少なくとも1つのそれぞれのアクション後のメトリックを推定し、
(d)前記選択されたアクションが実行された後の前記ネットワーク状態を示す少なくとも1つのアクション後のメトリックに基づいて、前記選択されたアクションを適用することから生じる観察された報酬を決定し、
(e)前記選択されたアクション、前記観察された報酬、前記少なくとも1つのそれぞれのアクション前のメトリック、及び、前記少なくとも1つのそれぞれのアクション後のメトリックを互いに関連付けて含むサンプルを、メモリに格納すること、
ii)前記メモリから複数の前記格納されたサンプルを抽出すること、及び
iii)前記抽出されたサンプルに基づいて前記ニューラルネットワークを更新すること。ここで、前記ニューラルネットワークは複数の重みを含み、前記更新は、前記抽出されたサンプルに基づいて前記重みを調整することを含む。
(付記13)
SON(Self-Organising Network)アルゴリズムによって選択されたアクションに基づいて前記複数の重みの調整が実行される初期フェーズをさらに含む、
付記12に記載の方法。
(付記14)
所与の状態の各ネットワーク最適化アクションは、そのネットワーク最適化アクションを選択する確率を定義するそれぞれの関連する確率εを有し、前記(b)の前記セルラー領域の少なくとも1つで実行される少なくとも1つのネットワーク最適化アクションを選択することは、前記確率εに基づいて実行され、前記確率εは、前記複数の学習反復にわたって、初期から最終まで徐々に変化する、
付記12又は13に記載の方法。
(付記15)
各確率εは、「0」と「1」との間の値を有し、前記(b)の前記セルラー領域の少なくとも1つで実行される少なくとも1つのネットワーク最適化アクションを選択することは、ランダムに、かつ、所与のネットワーク最適化アクションについて1-εの確率で実行される、
付記14に記載の方法。
(付記16)
ネットワーク最適化で使用するためのニューラルネットワークをトレーニングするための方法であって、
前記ニューラルネットワークの複数の重みを調整するために複数の学習反復を実行することを含み、
初期フェーズでは、前記複数の重みの調整は、SON(Self-Organising Network)アルゴリズムによって選択されたアクションに基づいて実行され、
次のフェーズでは、前記複数の重みの調整は、前記ニューラルネットワークによって選択されたアクションに基づいて実行される、
方法。
(付記17)
前記ニューラルネットワークが、事前決定された信頼性で前記SONアルゴリズムの前記アクションを予測することを学習したかどうかを決定することと、前記決定に依存して、前記次のフェーズに進むことと、をさらに含む、
付記16に記載の方法。
(付記18)
ネットワーク最適化を実行するための方法であって、前記方法は以下を含む。
(a)ネットワーク環境の現在のネットワーク状態を示す少なくとも1つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うこと、
(b)それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも1つのメトリックをそれぞれ推定すること、
(c)それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「B」のネットワーク最適化アクションを選択すること、
(d)それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定すること、
(e)全ての次のネットワーク状態の中から、少なくとも1つの追加メトリックに基づいて、最大で事前決定された数「W」のベストなネットワーク状態を選択すること、
(f)それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「D」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ(b)を繰り返すこと、
(g)前記少なくとも1つの追加メトリックに基づいて、最適なネットワーク状態を識別すること、ここで、前記最適なネットワーク状態は、推定された前記少なくとも1つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、
(h)前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別すること、及び、
(i)前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用すること。
(付記19)
現在の又は推定されたネットワーク状態を示す前記少なくとも1つのメトリックは、スループットメトリックを含む、
付記18に記載の方法。
(付記20)
前記ネットワーク環境の次のネットワーク状態を示す少なくとも1つのメトリックをそれぞれ推定することは、
前記ネットワーク環境内の複数のユーザ機器(UE:user equipment)のそれぞれについて、前記ネットワーク環境のセルラー領域のットについての前記初期ネットワーク状態を示す少なくとも1つのそれぞれのメトリックを推定及び/又は測定すること、
前記複数のUEについての前記推定及び/又は測定されたメトリックによって表される前記初期ネットワーク状態について、予想される将来の利益を最大化する少なくとも1つのアクションを決定すること、及び、
前記決定の結果に基づいて、前記セルラー領域のセットのうちの対応するセルラー領域に前記決定された少なくとも1つのネットワーク最適化アクションを適用すること、
によって実行され、
前記決定は、フィードフォワードアーキテクチャ及び前記決定された少なくとも1つのネットワーク最適化アクションを示す出力を有するニューラルネットワークへの入力として、前記複数のUEについて前記推定及び/又は測定されたメトリックによって表される前記初期ネットワーク状態を適用することによって実行される、
付記18又は19に記載の方法。
(付記21)
ネットワーク最適化を実行するための装置であって、
ネットワーク環境内の複数のユーザ機器(UE:user equipment)のそれぞれについて、前記ネットワーク環境のセルラー領域のットについての現在のネットワーク状態を示す少なくとも1つのそれぞれのメトリックを推定及び/又は測定するための手段、
前記複数のUEについての前記推定及び/又は測定されたメトリックによって表される前記現在のネットワーク状態について、予想される将来の利益を最大化する少なくとも1つのアクションであって、前記セルラー領域のセットのうちの対応するセルラー領域で実行される少なくとも1つのネットワーク最適化アクション又はネットワーク最適化アクションが実行されないヌルアクションを含む前記少なくとも1つのアクションを決定するための手段、及び、
記決定された少なくとも1つのクションを適用すための手段、
を含み、
前記決定するための手段は、フィードフォワードアーキテクチャ及び前記決定された少なくとも1つのアクションを示す出力を有するニューラルネットワークへの入力として、前記複数のUEについて前記推定及び/又は測定されたメトリックによって表される前記現在のネットワーク状態を適用するように構成される、
装置。
(付記22)
ネットワーク最適化で使用するためのフィードフォワードアーキテクチャを有するニューラルネットワークをトレーニングするための方法であって、
複数の学習反復を実行するための手段を含み、それぞれの学習反復は、それぞれの複数の連続する時間ステップを含み、前記複数の学習反復のそれぞれについて、前記手段は、以下のように構成される。
i)前記複数の連続する時間ステップのそれぞれについて、
(a)ネットワーク環境内の複数のユーザ機器(UE:user equipment)のそれぞれについて、前記ネットワーク環境のセルラー領域のットについての現在のネットワーク状態を示す少なくとも1つのそれぞれのアクション前のメトリックを推定し、
(b)前記セルラー領域の少なくとも1つで実行される少なくとも1つのネットワーク最適化アクションを選択し、
(c)前記ネットワーク環境内の前記複数のUEのそれぞれについて、前記選択されたアクションが実行された後、セルラー領域の前記ットについて、アクション後のネットワーク状態を示す少なくとも1つのそれぞれのアクション後のメトリックを推定し、
(d)前記選択されたアクションが実行された後の前記ネットワーク状態を示す少なくとも1つのアクション後のメトリックに基づいて、前記選択されたアクションを適用することから生じる観察された報酬を決定し、
(e)前記選択されたアクション、前記観察された報酬、前記少なくとも1つのそれぞれのアクション前のメトリック、及び、前記少なくとも1つのそれぞれのアクション後のメトリックを互いに関連付けて含むサンプルを、メモリに格納する、
ii)前記メモリから複数の前記格納されたサンプルを抽出する、及び
iii)前記抽出されたサンプルに基づいて前記ニューラルネットワークを更新する。ここで、前記ニューラルネットワークは複数の重みを含み、前記更新は、前記抽出されたサンプルに基づいて前記重みを調整することを含む。
(付記23)
ネットワーク最適化で使用するためのニューラルネットワークをトレーニングするための装置であって、
前記ニューラルネットワークの複数の重みを調整するために複数の学習反復を実行するための手段を含み、
初期フェーズでは、前記複数の重みの調整は、SON(Self-Organising Network)アルゴリズムによって選択されたアクションに基づいて実行され、
次のフェーズでは、前記複数の重みの調整は、前記ニューラルネットワークによって選択されたアクションに基づいて実行される、
装置。
(付記24)
ネットワーク最適化を実行するための装置であって、前記装置は以下を含む。
(a)ネットワーク環境の現在のネットワーク状態を示す少なくとも1つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うための手段、
(b)それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも1つのメトリックをそれぞれ推定するための手段、
(c)それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「B」のネットワーク最適化アクションを選択するための手段、
(d)それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定するための手段、
(e)全ての次のネットワーク状態の中から、少なくとも1つの追加メトリックに基づいて、最大で事前決定された数「W」のベストなネットワーク状態を選択するための手段、
(f)それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「D」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ(b)を繰り返すための手段、
(g)前記少なくとも1つの追加メトリックに基づいて、最適なネットワーク状態を識別するための手段、ここで、前記最適なネットワーク状態は、推定された前記少なくとも1つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、
(h)前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別するための手段、及び、
(i)前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用するための手段。
1 モバイル(セルラー又はワイヤレス)通信システム
3 モバイルデバイス(UE)
5 (R)ANノード(基地局)
7 コアネットワーク
8 セル
20 外部IPネットワーク
31 トランシーバ回路
33 アンテナ
35 ユーザインターフェース
37 コントローラ
39 メモリ
41 オペレーティングシステム
43 通信制御モジュール
51 トランシーバ回路
53 アンテナ
55 ネットワークインターフェース
57 コントローラ
59 メモリ
61 オペレーティングシステム
63 通信制御モジュール
65 最適化モジュール
71 トランシーバ回路
75 ネットワークインターフェース
77 コントローラ
79 メモリ
81 オペレーティングシステム
83 通信制御モジュール
85 最適化モジュール

Claims (2)

  1. ネットワーク最適化を実行するための装置における方法であって、
    (a)ネットワーク環境の現在のネットワーク状態を示す少なくとも1つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うこと、
    (b)それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも1つのメトリックをそれぞれ推定すること、
    (c)それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「B」のネットワーク最適化アクションを選択すること、
    (d)それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定すること、
    (e)全ての次のネットワーク状態の中から、少なくとも1つの追加メトリックに基づいて、最大で事前決定された数「W」のベストなネットワーク状態を選択すること、
    (f)それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「D」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ(b)を繰り返すこと、
    (g)前記少なくとも1つの追加メトリックに基づいて、最適なネットワーク状態を識別すること、ここで、前記最適なネットワーク状態は、推定された前記少なくとも1つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、
    (h)前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別すること、及び、
    (i)前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用すること、を含む、方法
  2. ネットワーク最適化を実行するための装置であって、
    (a)ネットワーク環境の現在のネットワーク状態を示す少なくとも1つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うための手段、
    (b)それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも1つのメトリックをそれぞれ推定するための手段、
    (c)それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「B」のネットワーク最適化アクションを選択するための手段、
    (d)それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定するための手段、
    (e)全ての次のネットワーク状態の中から、少なくとも1つの追加メトリックに基づいて、最大で事前決定された数「W」のベストなネットワーク状態を選択するための手段、
    (f)それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「D」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ(b)を繰り返すための手段、
    (g)前記少なくとも1つの追加メトリックに基づいて、最適なネットワーク状態を識別するための手段、ここで、前記最適なネットワーク状態は、推定された前記少なくとも1つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、
    (h)前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別するための手段、及び、
    (i)前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用するための手段を含む装置
JP2022522498A 2019-09-06 2020-08-27 方法及び装置 Active JP7279856B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1912888.3A GB2586868A (en) 2019-09-06 2019-09-06 Coverage and capacity optimisation using deep reinforcement learning
GB1912888.3 2019-09-06
PCT/JP2020/033703 WO2021045225A2 (en) 2019-09-06 2020-08-27 Method and apparatus

Publications (2)

Publication Number Publication Date
JP2022536813A JP2022536813A (ja) 2022-08-18
JP7279856B2 true JP7279856B2 (ja) 2023-05-23

Family

ID=68240941

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022522498A Active JP7279856B2 (ja) 2019-09-06 2020-08-27 方法及び装置

Country Status (5)

Country Link
US (1) US20220264331A1 (ja)
EP (1) EP3984270A2 (ja)
JP (1) JP7279856B2 (ja)
GB (1) GB2586868A (ja)
WO (1) WO2021045225A2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3977559A4 (en) * 2019-06-03 2022-06-15 Telefonaktiebolaget LM Ericsson (publ) MANAGEMENT OF THE INFRASTRUCTURE OF AN ANTENNA WITH REMOTE ELECTRIC PITCH ADJUSTMENT BY NEURAL NETWORKING BASED ON THE PROBABILITY OF ACTIONS
WO2021049984A1 (en) * 2019-09-12 2021-03-18 Telefonaktiebolaget Lm Ericsson (Publ) Provision of precoder selection policy for a multi-antenna transmitter
CN112035338B (zh) * 2020-07-10 2022-01-28 河海大学 一种有状态深度神经网络的覆盖率计算方法
US20220044110A1 (en) * 2020-08-06 2022-02-10 Google Llc Controlling agents using reinforcement learning with mixed-integer programming
CN112492686B (zh) * 2020-11-13 2023-10-13 辽宁工程技术大学 一种基于深度双q网络的蜂窝网络功率分配方法
US11457371B2 (en) * 2021-01-08 2022-09-27 Verizon Patent And Licensing Inc. Systems and methods for determining baselines for network parameters used to configure base stations
CN112954651B (zh) * 2021-03-12 2022-04-08 南京航空航天大学 一种基于深度强化学习的低时延高可靠性v2v资源分配方法
IT202100008381A1 (it) * 2021-04-02 2022-10-02 Telecom Italia Spa Metodo e sistema per ottimizzare una rete di comunicazioni mobili
CN113254197B (zh) * 2021-04-30 2023-02-03 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
US20230135745A1 (en) * 2021-10-28 2023-05-04 Nokia Solutions And Networks Oy Deep reinforcement learning based wireless network simulator
CN114245392B (zh) * 2021-12-20 2022-07-01 哈尔滨入云科技有限公司 一种5g网络优化方法及系统
WO2023131822A1 (en) * 2022-01-07 2023-07-13 Telefonaktiebolaget Lm Ericsson (Publ) Reward for tilt optimization based on reinforcement learning (rl)
CN115499852A (zh) * 2022-09-15 2022-12-20 西安邮电大学 基于机器学习的毫米波网络覆盖容量自优化方法及装置
WO2024151189A1 (en) * 2023-01-09 2024-07-18 Telefonaktiebolaget Lm Ericsson (Publ) Systems and methods for joint inter- and intra-slice orchestration using reinforcement learning
CN117749625B (zh) * 2023-12-27 2024-06-25 融鼎岳(北京)科技有限公司 基于深度q网络的网络性能优化系统和方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190014488A1 (en) 2017-07-06 2019-01-10 Futurewei Technologies, Inc. System and method for deep learning and wireless network optimization using deep learning

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018149898A2 (en) * 2017-02-16 2018-08-23 Alcatel-Lucent Ireland Ltd Methods and systems for network self-optimization using deep learning
US10334456B2 (en) * 2017-07-06 2019-06-25 Futurewei Technologies, Inc. Optimizing cellular networks using deep learning
CN110770761B (zh) * 2017-07-06 2022-07-22 华为技术有限公司 深度学习系统和方法以及使用深度学习的无线网络优化
US10555192B2 (en) * 2017-11-15 2020-02-04 Futurewei Technologies, Inc. Predicting received signal strength in a telecommunication network using deep neural networks
CN109816099A (zh) * 2019-01-28 2019-05-28 天津工业大学 一种深度神经网络初始化及训练方法
KR102294745B1 (ko) * 2019-08-20 2021-08-27 한국과학기술원 심층 신경망 학습 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190014488A1 (en) 2017-07-06 2019-01-10 Futurewei Technologies, Inc. System and method for deep learning and wireless network optimization using deep learning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Alessio Zappone, et al.,Wireless Networks Design in the Era of Deep Learning: Model-Based, AI-Based, or Both?,arxiv.org, Cornell Uiversity library,2019年06月13日
Ron Sun,Supplementing Neural Reinforcement Learning with Symbolic Methods: Possibilities and Challenges,IEEE,1999年07月10日

Also Published As

Publication number Publication date
GB2586868A (en) 2021-03-10
US20220264331A1 (en) 2022-08-18
WO2021045225A2 (en) 2021-03-11
EP3984270A2 (en) 2022-04-20
WO2021045225A3 (en) 2021-04-22
JP2022536813A (ja) 2022-08-18
GB201912888D0 (en) 2019-10-23

Similar Documents

Publication Publication Date Title
JP7279856B2 (ja) 方法及び装置
EP3583797B1 (en) Methods and systems for network self-optimization using deep learning
CN110770761B (zh) 深度学习系统和方法以及使用深度学习的无线网络优化
US10375585B2 (en) System and method for deep learning and wireless network optimization using deep learning
US11696205B2 (en) Context-specific customization of handover parameters using characterization of a device&#39;s radio environment
KR20190103681A (ko) 기계학습을 이용한 무선 백홀망 자원할당방법 및 자원할당 장치
US9451611B2 (en) System and method for controlling multiple wireless access nodes
CN104584622A (zh) 用于蜂窝式网络负载平衡的方法与系统
Khoramnejad et al. On joint offloading and resource allocation: A double deep q-network approach
Cao et al. Deep reinforcement learning for multi-user access control in UAV networks
US20230254714A1 (en) Local wireless communication system, in-area reception quality control method, controller, and program
Stusek et al. LPWAN coverage assessment planning without explicit knowledge of base station locations
Abdelghany et al. Decentralized adaptive spectrum learning in wireless iot networks based on channel quality information
CN115329954A (zh) 训练数据集获取方法、无线传输方法、装置及通信设备
Gupta et al. Load balancing and handover optimization in multi-band networks using deep reinforcement learning
Njemčević et al. Improved model for estimation of spatial averaging path length
Eller et al. A Differentiable Throughput Model for Load-Aware Cellular Network Optimization Through Gradient Descent
CN116017493A (zh) 模型请求方法、模型请求处理方法及相关设备
Perera et al. Dynamic Spectrum Fusion: An Adaptive Learning Approach for Hybrid NOMA/OMA in Evolving Wireless Networks
Ghatak Fast Change Identification in Multi-Play Bandits and its Applications in Wireless Networks
Palacios et al. Cognitive radio simulator for mobile networks: design and implementation
Xu et al. Feed-Forward Neural Network Based Mode Selection for Moving D2D-Enabled Heterogeneous Ultra-Dense Network
Gu et al. Optimizing Wireless Coverage and Capacity with PPO-Based Adaptive Antenna Configuration
JP2017220732A (ja) ネットワークパラメータ推定装置、ネットワークパラメータ推定方法およびプログラム
Sohaib et al. Meta-Transfer Learning-Based Handover Optimization for V2N Communication

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230424

R151 Written notification of patent or utility model registration

Ref document number: 7279856

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151