JP7279856B2 - 方法及び装置 - Google Patents
方法及び装置 Download PDFInfo
- Publication number
- JP7279856B2 JP7279856B2 JP2022522498A JP2022522498A JP7279856B2 JP 7279856 B2 JP7279856 B2 JP 7279856B2 JP 2022522498 A JP2022522498 A JP 2022522498A JP 2022522498 A JP2022522498 A JP 2022522498A JP 7279856 B2 JP7279856 B2 JP 7279856B2
- Authority
- JP
- Japan
- Prior art keywords
- network
- state
- action
- optimization
- metric
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W84/00—Network topologies
- H04W84/18—Self-organising networks, e.g. ad-hoc networks or sensor networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W84/00—Network topologies
- H04W84/02—Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
- H04W84/04—Large scale networks; Deep hierarchical networks
- H04W84/042—Public Land Mobile systems, e.g. cellular systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mobile Radio Communication Systems (AREA)
Description
セルラーワイヤレスネットワークの複雑さが増すにつれて、その管理及び最適化はますます困難なタスクになっている。同時に、多くのセルが集中型プロセッサによって制御される新しいネットワークアーキテクチャは、より高度な調整及び最適化手法を適用するための範囲を拡大する。3GPP(Third Generation Partnership Project)によって開発されたLTE(Long Term Evolution) 4G標準には、カバレッジ及び容量の最適化、モビリティの最適化、負荷分散などの多くのネットワーク管理機能の自動化を目的としたSON(Self-Organising Network)特徴のセットが含まれる。自動化された管理及び最適化へのこの傾向は、5Gワイヤレスネットワークの展開とともに今後も続くと見込まれている。
2.1 環境モデル
このセクションでは、我々は、RLエージェントが動作するワイヤレスネットワークの我々のモデルについて説明する。我々は、表1に示されるパラメータを使用して、図5に示されるように、C = 7のセルサイトの小規模なワイヤレスネットワークを想定している。
で信号を送信する。ここで、Pはデフォルトの送信電力、Δiはセルiのセル電力オフセット(単位はdB)である。我々は、Δiは、ステップサイズΔstepで、ΔminからΔmaxの範囲で調整できると仮定している。セルiに関するUE k(1≦k≦K)のRSRP(Reference Signal Received Power)は、RSRPk,i = Gk,iPiで与えられる。ここで、Gk,iは、アンテナゲイン及び伝搬パスロス(シャドウフェージングを含む)を含む、UE kとセルiとの間の無線伝搬チャネルの合計ゲインである。各UE kは、最も高いRSRPk,iを持つセルをそのサービングセルckとして選択する。すなわち、ck = argmaxi RSRPk,iである。我々は、セルiによってサーブされるUEの数をNiで示す。UE kのSINR(signal-to-interference-plus-noise ratio)は、次式で与えられる。
ビット/秒/Hzで与えられると仮定している。分母の項
は、所与のセルの帯域幅リソースが、比例公平スケジューラによってそのセルによってサーブされるUE間で共有されるという仮定を反映している。
我々は、CCO問題を正確に定義できる。最適化の我々の目的として、我々は、スループットメトリック
を使用する。この式のlog()の理由は、UE間にある程度の公平性を強制し、無線伝搬条件が比較的悪いUEの枯渇を回避するためである。CCO問題は、次のように組み合わせ最適化として説明できる。
強化学習を適用するために、我々は、まず、CCO問題をマルコフ決定過程(MDP:Markov Decision Process)として定式化する必要がある。これは、図6に示されるように、RLエージェントと環境との間の相互作用を定義することによって行われる。最高レベルでは、RLエージェントは、その状態を観察し、アクションを適用し、それらのアクションに対する次の報酬を観察することによって、環境との相互作用を行う。CCOの問題に対する状態、アクション、報酬を定義する方法としては多くの方法がある。以下に説明するように、我々の定式化は、1つの可能なアプローチに過ぎない。
で定義されるように、予想されるディスカウントされる将来のリターンの合計又は長期間の報酬を最大化する。(この場合、状態遷移及び報酬は、システムモデルに従った状態及びアクションの決定論的関数であるため、予想演算子を削除できる)。ディスカウントファクターγは、0 <γ≦1の範囲の値である。我々の実験では、我々は、γ= 0.95を使用する。
である。これは、RLエージェントが継続的に動作している場合でも、我々が、ヌルアクションが選択されたときに入力される報酬rt = 0である「疑似端末」状態を定義することを選択できることを示唆している。我々の実験は、我々がヌルアクションを疑似端末状態として扱うかどうかにかかわらず、RLエージェントのパフォーマンスに大きな違いはないことを示唆している。疑似端末状態は、本明細書で報告されている実験には使用されない。
ここで、Q(s,a)は、状態sでアクションaを選択し、その後ポリシーπ(s,a)に従うことによって得られる、予想されるディスカウントされる将来のリターンの合計である。したがって、最適なポリシーを見つける問題は、各状態及びアクションについて値Q(s,a)を見つけて、所与の状態sで最大のQ(s,a)を持つアクションを選択することと等価である。状態はUEの地理的分布に依存し、したがって継続的であるため、Q(s,a)を全ての可能な状態及びアクションに対して明示的に格納することはできない。代わりに、我々は、以降のセクションで説明するように、Q(s,a)を推定するための関数近似として深層ニューラルネットワークを使用する。
RLエージェントのパフォーマンスをテストするために、我々は、次のように、3つのベースラインと比較する。
1. CCOなし(No CCO)。全ての電力オフセットはΔi = 0 dBに固定されている。
2. ランダムアルゴリズム。アクションは、各タイムステップでランダムに均一に選択される。
3. グリーディアルゴリズム。各タイムステップで、使用可能な各アクションat(ヌルアクションを含む)を暫定的に試行し、報酬rtが最大のアクションを選択する。
ニューラルネットワークアーキテクチャ及び入力データ表現の選択は、ニューラルネットワークの学習効率に大きな影響を与える可能性がある。このために幾つかのオプションが検討された。1つのオプションは、全てのUEのデータが単一の入力ベクトルに連結され、次に、完全に接続された複数の隠れレイヤを介して提供され、最後に、各アクションaについて、推定されたQ値Q(s,a,θ)を生成する出力レイヤに供給される、単純なフィードフォワードアーキテクチャである。ここで、θはニューラルネットワークのパラメータを示す。このアプローチの主な問題は、入力レイヤは固定サイズでなければならないが、UEの数は可変であるため、我々は、UEの最大数を想定し、それに基づいて入力サイズを固定する必要があることである。また、入力レイヤと第1の隠れレイヤとの間の重みの数が非常に大きくなる。
である。これは、サービングセルの強度のインジケーションである。次のCエントリは、どのセルがUE kのサービングセルであるかを示すワンホットエンコードされたベクトルである。残りのCエントリは、0から1の範囲に正規化された現在のセル電力オフセットΔiである。これらのエントリは全てのUEで同じであることに注意されたい。オフセットの影響はすでにRSRP値に反映されているため、これらの入力は冗長であるように見える場合がある。ただし、特定のアクションを実行する効果は、後で実行できるアクションに依存する可能性があり、ΔminからΔmaxの範囲外のセルオフセットを取得するアクションは許可されないため、これらの入力は、各セルで使用可能なセルオフセットの調整量を示すのに役立つ可能性がある。
このセクションでは、我々は、ニューラルネットワークのトレーニングに使用される手順について説明する。我々の方法は、基本的に、非特許文献14に記載されている方法に従ってトレーニングされるDQN(Deep Q-Network)である。我々は、図8に示されるように、経験再生メモリと、重み
を有する個別のターゲットニューラルネットワーク
を使用する。
1. エージェントは、セクション3に記載されているように、32のタイムステップで環境に作用する。各タイムステップでは、選択されたアクション及び観察された報酬は、現在の状態及び観察された次の状態のニューラルネットワーク入力データとともに、経験再生メモリに格納される。再生メモリは、そのようなサンプルを100万個格納し、先入れ先出し方式で動作する。
2. 32のタイムステップが実行された後、128のサンプルが再生メモリからランダムに抽出されてミニバッチが形成される。これは、ニューラルネットワークの重みを更新するために使用される。
3. ターゲットニューラルネットワークの重みは、
に従ってトレーニングニューラルネットワークの新しい重みに向けて更新される。ここで、τ= 0.001である。
は、ターゲットニューラルネットワークの出力を示す。我々は、非特許文献15の「double-DQN」方法に従うことに注意されたい。この方法では、状態st+1のアクションは、トレーニングニューラルネットワークの出力に対してargmaxによって選択されるが、このアクションについて推定されたQファクターは、ターゲットニューラルネットワークを使用して評価される。
のアクションaを選択する。ここで、A(st)は、状態st及びα= 1000で許可されるアクションのセットである。これは、Q値が最大値に近いアクションが複数ある場合の探索を促進するためである。
セクション6で説明したDQNアルゴリズムは、各タイムステップで観察された状態に基づいて単一のアクションを選択して適用する。このセクションでは、我々は、各タイムステップでエージェントが複数のタイムステップを先に計画することによってアクションを選択するサーチベースの方法について説明する。我々は、このスキームのコンポーネントとしてDQNを利用する。
である。我々は、観測されたネットワーク状態から観測されたスループットを予測するようにネットワークをトレーニングしているだけなので、これは教師あり学習であることに注意されたい。
トレーニング後のRLエージェントのパフォーマンスを評価するために、我々は、セクション2.1で説明した時間的に変化する地理的UE分布のスナップショットを表す1000個の静的ランダム地理的UE分布を生成した。これらの地理的UE分布は、トレーニングデータとは独立して生成されたため、トレーニング中に(高い確率で)観測されなかった。これらの静的シナリオのそれぞれについて、我々は、セル電力オフセットΔiをランダムに初期化し、セクション4で説明したランダムなグリーディアルゴリズムと、RLエージェントと、を適用する。各アルゴリズムは、100のタイムステップで実行され、スループットメトリックμが最後に観察される。
も比較した。これは、CCOによって最大化することを目指している量ではないが(UE間のリソースの公平な分散を考慮していないため)、ワイヤレスネットワークの全体的なスペクトル効率に関連しているため、依然として関心の高いものである。表3は、「CCOなし」の場合に正規化され、1000のテストケースで平均化された、各アルゴリズムによって達成された平均ユーザスループットを示している。スループットの向上は、最適なCCOを使用してもわずかであるが、RLエージェントがグリーディアルゴリズムよりも最適なパフォーマンスにはるかに近づくことは注目に値する。
このセクションでは、我々は、本明細書で説明されているタイプのアルゴリズムを実際のワイヤレスネットワークに展開する前に、克服する必要がある幾つかの潜在的な実用上の問題について説明する。これらの問題は全てさらなる作業が必要であるが、ここでは、我々は、幾つかの簡単な観察を行い、将来の調査のために幾つかの可能な方向性を概説する。
全ての深層学習方法に適用される重要な注意点の1つは、ニューラルネットワークがトレーニング中に観察するデータ分布から学習することであり、そのパフォーマンスは、入力データがこの分布に典型的なものではない場合、大幅に低下する可能性がある。これを説明するために、我々は、セクション7で説明したトレーニングされたニューラルネットワークV(s,θv)を使用して、追加の実験を実行した。このニューラルネットワークは、状態sからスループットメトリックμ(s)を予測する。我々は、ランダムな地理的UE分布を生成し、セクション2のモデルを使用して計算された実際のスループットメトリックをニューラルネットワークによって予測された値と比較することにより、この予測の精度を測定できる。図12は、UEの数の関数としてのr.m.sエラー(1000のランダムな地理的UE分布の平均)を示している。セクション2.1で説明したように、トレーニング中に存在するUEの数は、通常20~40である。我々は、この範囲では、r.m.s.エラーは低いが、この範囲外では急激に増加することを確認できる。図12の結果は、ニューラルネットワークがトレーニング中に見られなかった地理的UE分布にうまく一般化できることを示しているが、UEの数がトレーニング中に見られる範囲内にある場合に限られる。この範囲外では一般化されない。現在、このことが実際にどれほど深刻な問題になる可能性があるかは明らかではない。
我々の実験は非常に小規模なワイヤレスネットワークに基づいており、RLエージェントは少数のパラメータのみを制御していた。明らかな問題は、より多くのセル及びパラメータに対応するためにスケールアップできるかどうかである。我々は、ニューラルネットワークのサイズ(レイヤ数及び各レイヤのサイズ)を制御するハイパーパラメータを広範囲で実験しておらず、パフォーマンスにどの程度の影響があるかを確認しなかったため、現時点では、ニューラルネットワークのサイズが、どのようにセルの数に合わせてスケーリングするのに必要になるかはわかっていない。非特許文献21の結果に基づいて、ステージ1のレイヤのサイズをUEの総数に対して線形スケーリングする必要がある可能性がある。さらに、DQNの1つの特徴は、必要なトレーニングデータの量が出力の数とともに増加する傾向があることである。これは、各トレーニングサンプルが効果的に1つの出力(そのトレーニングサンプルで選択されたアクションに関連付けられたもの)のみをトレーニングするため、出力の数が増えるにつれて学習が遅くなるためである。これにより、出力の数、さらにはDQNが制御できるパラメータの数に実際的な制限が生じる可能性がある。
セクション6で説明したように、トレーニングの初期段階では、DQNは、ε-グリーディポリシーに従ってランダムにアクションを選択することによって探索を行う。ライブのワイヤレスネットワークでランダムに選択されたアクションを実行する際の問題は明らかである。これが引き起こす可能性のある混乱を軽減するために、オフラインで初期トレーニングを実行する幾つかの手段が必要になるか、又は、安全な強化学習方法のように追加の制約を学習に組み込むことができる(例えば、非特許文献20を参照)。前者を行う1つの方法は、RLエージェント自体によって選択されたアクションではなく、従来のSONアルゴリズムによって選択されたアクションに基づいてRLエージェントを最初にトレーニングすることである。RLエージェントが従来のアルゴリズムの動作を十分な信頼性で予測することを学習したら、オンラインにしてトレーニングを継続し、願わくはそのパフォーマンスをさらに向上させることができる。又は、Q学習はオフポリシー方法であるため、探索ポリシーと組み合わせた従来のアルゴリズムを使用して、最適なポリシーを直接学習することを試行できる。
重み係数の知識がその動作への洞察を提供しないという意味において、ニューラルネットワークは「ブラックボックス」であることがよく観察される。この実際的な結果は、ニューラルネットワークがこれまでに見たことのない入力に遭遇したときに常に「正しく」動作することを、我々が保証できないことである。繰り返すが、これは、ニューラルネットワークを使用してライブのワイヤレスネットワークを制御する場合に明らかな懸念を引き起こす。我々は、RLエージェントに低レベルのコントローラへのアクションを推奨させることで、不安定な動作のリスクを減らすことができる。これにより、不安定性の兆候を検出した場合、必要に応じてRLエージェントの決定をオーバーライドさせることができる。上記のセクション9.1で説明した階層アーキテクチャの場合、低レベルの最適化手順でこの機能を実行できることに注意されたい。
本願は、CCOの問題、特にスループットを最大化するために送信電力を調整する問題へのディープRLの適用を検討した。これは、ディープRLが戦略ゲームの解決に効果的である場合、ワイヤレスネットワークで発生する種類の組み合わせ最適化問題にも適用できるはずであるという直感に動機付けられている。少数のセルで構成される小規模なワイヤレスネットワークの理想的なコンピュータシミュレーションに基づく我々の実験では、DQN RLエージェントは、ヒューリスティックベースの(グリーディ)方法よりも優れており、環境の明示的な数学的モデルを必要としない。サーチアルゴリズムと組み合わせると、ほぼ最適なパフォーマンスが達成される。この結果は非常に有望であり、ワイヤレスネットワークの最適化にディープRLを適用するというアイデアには幾つかの可能性があることを示唆している。もちろん、我々の単純なモデルは、実際のワイヤレスネットワークとはサイズ及び複雑さが大きく異なり、このアプローチを実用化する前に、スケーラビリティ及びロバスト性の多くの問題を克服する必要があることは明らかである。
図1は、上記の実施形態が適用可能であるモバイル(セルラー又はワイヤレス)通信システム1を概略的に示している。
図2は、図1に示されるUE 3(モバイルデバイス)の主要なコンポーネントを示すブロック図である。上記の説明において、UE 3は、「ユーザ」と呼ばれることもある。図示されるように、UE 3は、1つ又は複数のアンテナ33を介して、接続されたノードとの間で信号を送受信するように動作可能なトランシーバ回路31を含む。図2に必ずしも示されているわけではないが、UE 3はもちろん、従来のモバイルデバイスの全ての通常の機能(ユーザインターフェース35など)を有し、これは、必要に応じて、ハードウェア、ソフトウェア、及びファームウェアの任意の1つ又は任意の組み合わせによって提供され得る。コントローラ37は、メモリ39に格納されたソフトウェアに従ってUE 3の動作を制御する。ソフトウェアは、メモリ39に予めインストールされても良く、及び/又は、通信システム1を介して又はRMD(removable data storage device)からダウンロードされても良い。ソフトウェアは、とりわけ、オペレーティングシステム41及び通信制御モジュール43を含む。通信制御モジュール43は、UE 3と、(R)ANノード5及びコアネットワークノードを含む他のノードと、間のシグナリングメッセージ及びアップリンク/ダウンリンクデータパケットを処理(生成/送信/受信)する責任がある。
図3は、図1に示される例示的な(R)ANノード5(基地局)の主要なコンポーネントを示すブロック図である。図示されるように、(R)ANノード5は、1つ又は複数のアンテナ53を介して、接続されたUE 3との間で信号を送受信するように、また、ネットワークインターフェース55を介して(直接的又は間接的に)他のネットワークノードとの間で信号を送受信するように、動作可能なトランシーバ回路51を含む。ネットワークインターフェース55は、通常、適切な基地局-基地局インターフェース(X2/Xnなど)及び適切な基地局-コアネットワークインターフェース(S1/N1/N2/N3など)を含む。コントローラ57は、メモリ59に格納されたソフトウェアに従って、(R)ANノード5の動作を制御する。ソフトウェアは、メモリ59に予めインストールされても良く、及び/又は、通信システム1を介して又はRMD(removable data storage device)からダウンロードされても良い。ソフトウェアは、とりわけ、オペレーティングシステム61、通信制御モジュール63、及び(オプション的に)最適化モジュール65を含む。通信制御モジュール63は、(R)ANノード5と、UE 3及びコアネットワークノードなどの他のノードと、間のシグナリングを処理(生成/送信/受信)する責任がある。存在する場合、最適化モジュール65は、深層強化学習などを使用して、上記の最適化処理(の少なくとも一部)を実行する。最適化処理には、(R)AN及び/又はコアネットワーク7のカバレッジ及び容量の最適化が含まれ得るが、これらに限定されない。
図4は、図1に示される一般的なコアネットワークノード(又は機能)の主要なコンポーネントを示すブロック図である。図示されるように、コアネットワークノードは、ネットワークインターフェース75を介して、他のノード(UE 3及び(R)ANノード5を含む)との間で信号を送受信するように動作可能なトランシーバ回路71を含む。コントローラ77は、メモリ79に格納されたソフトウェアに従って、コアネットワークノードの動作を制御する。ソフトウェアは、メモリ79に予めインストールされても良く、及び/又は、通信システム1を介して又はRMD(removable data storage device)からダウンロードされても良い。ソフトウェアは、とりわけ、オペレーティングシステム81、通信制御モジュール83、及び(オプション的に)最適化モジュール85を含む。通信制御モジュール83は、コアネットワークノードと、UE 3、(R)ANノード5、及び他のコアネットワークノードなどの他のノードと、間のシグナリングを処理(生成/送信/受信)する責任がある。存在する場合、最適化モジュール85は、深層強化学習などを使用して、上記の最適化処理(の少なくとも一部)を実行する。最適化処理には、(R)AN及び/又はコアネットワーク7のカバレッジ及び容量の最適化が含まれ得るが、これらに限定されない。
詳細な実施形態は上記に記載されている。当業者が理解するように、そこに具体化された発明から依然として利益を得る一方で、上記の実施形態に対して多くの修正及び代替を行うことができる。例として、これらの代替及び修正の幾つかのみをここで説明する。
ネットワーク最適化を実行するための方法であって、
ネットワーク環境内の複数のユーザ機器(UE:user equipment)のそれぞれについて、前記ネットワーク環境のセルラー領域のセットについての現在のネットワーク状態を示す少なくとも1つのそれぞれのメトリックを推定及び/又は測定すること、
前記複数のUEについての前記推定及び/又は測定されたメトリックによって表される前記現在のネットワーク状態について、予想される将来の利益を最大化する少なくとも1つのアクションであって、前記セルラー領域のセットのうちの対応するセルラー領域で実行される少なくとも1つのネットワーク最適化アクション又はネットワーク最適化アクションが実行されないヌルアクションを含む前記少なくとも1つのアクションを決定すること、及び、
前記決定された少なくともアクションを適用すること、
を含み、
前記決定は、フィードフォワードアーキテクチャ及び前記決定された少なくとも1つのアクションを示す出力を有するニューラルネットワークへの入力として、前記複数のUEについて前記推定及び/又は測定されたメトリックによって表される前記現在のネットワーク状態を適用することによって実行される、
方法。
(付記2)
少なくとも1つのそれぞれのメトリックの前記推定及び/又は測定は、複数のサブネットワーク及び複数のReLU(rectified linear unit)を含む少なくとも1つのニューラルネットワークを使用する、
付記1に記載の方法。
(付記3)
前記少なくとも1つのニューラルネットワークは、
前記複数のUEのそれぞれについて、そのUEについての前記少なくとも1つのそれぞれのメトリックの少なくとも1つの現在の値を表すそれぞれの入力データを受信し、
前記受信したそれぞれの入力データを蓄積して、前記蓄積された入力データを、前記複数のサブネットワークのそれぞれのサブネットワークにおける複数のノード及び前記複数のReLUを備えた少なくとも1つのフィードフォワードレイヤを介して供給し、
特定のネットワーク状態について予想される将来の利益を最大化する前記少なくとも1つのアクションを識別する情報を出力する、
ように構成される、
付記2に記載の方法。
(付記4)
予想される将来の利益を最大化する前記少なくとも1つのアクションは、現在のネットワーク状態を示す前記少なくとも1つのそれぞれのメトリックと、前記少なくとも1つのアクションが適用された場合の前記少なくとも1つのそれぞれのメトリックの推定と、の間の差に基づいて、決定される、
付記1から3のいずれかに記載の方法。
(付記5)
前記予想される将来の利益は、ディスカウントファクターを使用して決定され、前記ディスカウントファクターの値は、前記予想される将来の利益が比較的短期間の将来の利益であるか、又は、比較的長期間の将来の利益であるかを決定する、
付記1から4のいずれかに記載の方法。
(付記6)
前記ディスカウントファクターは、即時の将来の利益を最大化する値に最初に設定される、
付記5に記載の方法。
(付記7)
前記ネットワーク最適化は、カバレッジ及び容量の最適化を含む、
付記1から6のいずれかに記載の方法。
(付記8)
前記少なくとも1つのメトリックは、前記ネットワーク環境の環境モデルを使用して推定される、
付記1から7のいずれかに記載の方法。
(付記9)
前記少なくとも1つのそれぞれのメトリックは、所与のUEについて、そのUEについてのセル関連付け、そのUEについてのSINR(signal-to-interference-plus-noise ratio)、及びそのUEについてのスループットのうちの少なくとも1つを含む、
付記1から8のいずれかに記載の方法。
(付記10)
前記少なくとも1つのネットワーク最適化アクションは、前記ネットワークのセルに関連する電力オフセットを増加させること、又は、前記ネットワークのセルに関連する電力オフセットを減少させることを含む、
付記1から9のいずれかに記載の方法。
(付記11)
前記ネットワークによってカバーされるセルラー領域の前記セットは、少なくとも1つのセルのセット、又は、少なくとも1つのビームのセットを含む、
付記1から10のいずれかに記載の方法。
(付記12)
ネットワーク最適化で使用するためのフィードフォワードアーキテクチャを有するニューラルネットワークをトレーニングするための方法であって、
複数の学習反復を実行することを含み、それぞれの学習反復は、それぞれの複数の連続する時間ステップを含み、前記複数の学習反復のそれぞれについて、前記方法は、以下を含む。
i)前記複数の連続する時間ステップのそれぞれについて、
(a)ネットワーク環境内の複数のユーザ機器(UE:user equipment)のそれぞれについて、前記ネットワーク環境のセルラー領域のセットについての現在のネットワーク状態を示す少なくとも1つのそれぞれのアクション前のメトリックを推定し、
(b)前記セルラー領域の少なくとも1つで実行される少なくとも1つのネットワーク最適化アクションを選択し、
(c)前記ネットワーク環境内の前記複数のUEのそれぞれについて、前記選択されたアクションが実行された後、セルラー領域の前記セットについて、アクション後のネットワーク状態を示す少なくとも1つのそれぞれのアクション後のメトリックを推定し、
(d)前記選択されたアクションが実行された後の前記ネットワーク状態を示す少なくとも1つのアクション後のメトリックに基づいて、前記選択されたアクションを適用することから生じる観察された報酬を決定し、
(e)前記選択されたアクション、前記観察された報酬、前記少なくとも1つのそれぞれのアクション前のメトリック、及び、前記少なくとも1つのそれぞれのアクション後のメトリックを互いに関連付けて含むサンプルを、メモリに格納すること、
ii)前記メモリから複数の前記格納されたサンプルを抽出すること、及び
iii)前記抽出されたサンプルに基づいて前記ニューラルネットワークを更新すること。ここで、前記ニューラルネットワークは複数の重みを含み、前記更新は、前記抽出されたサンプルに基づいて前記重みを調整することを含む。
(付記13)
SON(Self-Organising Network)アルゴリズムによって選択されたアクションに基づいて前記複数の重みの調整が実行される初期フェーズをさらに含む、
付記12に記載の方法。
(付記14)
所与の状態の各ネットワーク最適化アクションは、そのネットワーク最適化アクションを選択する確率を定義するそれぞれの関連する確率εを有し、前記(b)の前記セルラー領域の少なくとも1つで実行される少なくとも1つのネットワーク最適化アクションを選択することは、前記確率εに基づいて実行され、前記確率εは、前記複数の学習反復にわたって、初期値から最終値まで徐々に変化する、
付記12又は13に記載の方法。
(付記15)
各確率εは、「0」と「1」との間の値を有し、前記(b)の前記セルラー領域の少なくとも1つで実行される少なくとも1つのネットワーク最適化アクションを選択することは、ランダムに、かつ、所与のネットワーク最適化アクションについて1-εの確率で実行される、
付記14に記載の方法。
(付記16)
ネットワーク最適化で使用するためのニューラルネットワークをトレーニングするための方法であって、
前記ニューラルネットワークの複数の重みを調整するために複数の学習反復を実行することを含み、
初期フェーズでは、前記複数の重みの調整は、SON(Self-Organising Network)アルゴリズムによって選択されたアクションに基づいて実行され、
次のフェーズでは、前記複数の重みの調整は、前記ニューラルネットワークによって選択されたアクションに基づいて実行される、
方法。
(付記17)
前記ニューラルネットワークが、事前決定された信頼性で前記SONアルゴリズムの前記アクションを予測することを学習したかどうかを決定することと、前記決定に依存して、前記次のフェーズに進むことと、をさらに含む、
付記16に記載の方法。
(付記18)
ネットワーク最適化を実行するための方法であって、前記方法は以下を含む。
(a)ネットワーク環境の現在のネットワーク状態を示す少なくとも1つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うこと、
(b)それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも1つのメトリックをそれぞれ推定すること、
(c)それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「B」のネットワーク最適化アクションを選択すること、
(d)それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定すること、
(e)全ての次のネットワーク状態の中から、少なくとも1つの追加メトリックに基づいて、最大で事前決定された数「W」のベストなネットワーク状態を選択すること、
(f)それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「D」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ(b)を繰り返すこと、
(g)前記少なくとも1つの追加メトリックに基づいて、最適なネットワーク状態を識別すること、ここで、前記最適なネットワーク状態は、推定された前記少なくとも1つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、
(h)前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別すること、及び、
(i)前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用すること。
(付記19)
現在の又は推定されたネットワーク状態を示す前記少なくとも1つのメトリックは、スループットメトリックを含む、
付記18に記載の方法。
(付記20)
前記ネットワーク環境の次のネットワーク状態を示す少なくとも1つのメトリックをそれぞれ推定することは、
前記ネットワーク環境内の複数のユーザ機器(UE:user equipment)のそれぞれについて、前記ネットワーク環境のセルラー領域のセットについての前記初期ネットワーク状態を示す少なくとも1つのそれぞれのメトリックを推定及び/又は測定すること、
前記複数のUEについての前記推定及び/又は測定されたメトリックによって表される前記初期ネットワーク状態について、予想される将来の利益を最大化する少なくとも1つのアクションを決定すること、及び、
前記決定の結果に基づいて、前記セルラー領域のセットのうちの対応するセルラー領域に前記決定された少なくとも1つのネットワーク最適化アクションを適用すること、
によって実行され、
前記決定は、フィードフォワードアーキテクチャ及び前記決定された少なくとも1つのネットワーク最適化アクションを示す出力を有するニューラルネットワークへの入力として、前記複数のUEについて前記推定及び/又は測定されたメトリックによって表される前記初期ネットワーク状態を適用することによって実行される、
付記18又は19に記載の方法。
(付記21)
ネットワーク最適化を実行するための装置であって、
ネットワーク環境内の複数のユーザ機器(UE:user equipment)のそれぞれについて、前記ネットワーク環境のセルラー領域のセットについての現在のネットワーク状態を示す少なくとも1つのそれぞれのメトリックを推定及び/又は測定するための手段、
前記複数のUEについての前記推定及び/又は測定されたメトリックによって表される前記現在のネットワーク状態について、予想される将来の利益を最大化する少なくとも1つのアクションであって、前記セルラー領域のセットのうちの対応するセルラー領域で実行される少なくとも1つのネットワーク最適化アクション又はネットワーク最適化アクションが実行されないヌルアクションを含む前記少なくとも1つのアクションを決定するための手段、及び、
前記決定された少なくとも1つのアクションを適用するための手段、
を含み、
前記決定するための手段は、フィードフォワードアーキテクチャ及び前記決定された少なくとも1つのアクションを示す出力を有するニューラルネットワークへの入力として、前記複数のUEについて前記推定及び/又は測定されたメトリックによって表される前記現在のネットワーク状態を適用するように構成される、
装置。
(付記22)
ネットワーク最適化で使用するためのフィードフォワードアーキテクチャを有するニューラルネットワークをトレーニングするための方法であって、
複数の学習反復を実行するための手段を含み、それぞれの学習反復は、それぞれの複数の連続する時間ステップを含み、前記複数の学習反復のそれぞれについて、前記手段は、以下のように構成される。
i)前記複数の連続する時間ステップのそれぞれについて、
(a)ネットワーク環境内の複数のユーザ機器(UE:user equipment)のそれぞれについて、前記ネットワーク環境のセルラー領域のセットについての現在のネットワーク状態を示す少なくとも1つのそれぞれのアクション前のメトリックを推定し、
(b)前記セルラー領域の少なくとも1つで実行される少なくとも1つのネットワーク最適化アクションを選択し、
(c)前記ネットワーク環境内の前記複数のUEのそれぞれについて、前記選択されたアクションが実行された後、セルラー領域の前記セットについて、アクション後のネットワーク状態を示す少なくとも1つのそれぞれのアクション後のメトリックを推定し、
(d)前記選択されたアクションが実行された後の前記ネットワーク状態を示す少なくとも1つのアクション後のメトリックに基づいて、前記選択されたアクションを適用することから生じる観察された報酬を決定し、
(e)前記選択されたアクション、前記観察された報酬、前記少なくとも1つのそれぞれのアクション前のメトリック、及び、前記少なくとも1つのそれぞれのアクション後のメトリックを互いに関連付けて含むサンプルを、メモリに格納する、
ii)前記メモリから複数の前記格納されたサンプルを抽出する、及び
iii)前記抽出されたサンプルに基づいて前記ニューラルネットワークを更新する。ここで、前記ニューラルネットワークは複数の重みを含み、前記更新は、前記抽出されたサンプルに基づいて前記重みを調整することを含む。
(付記23)
ネットワーク最適化で使用するためのニューラルネットワークをトレーニングするための装置であって、
前記ニューラルネットワークの複数の重みを調整するために複数の学習反復を実行するための手段を含み、
初期フェーズでは、前記複数の重みの調整は、SON(Self-Organising Network)アルゴリズムによって選択されたアクションに基づいて実行され、
次のフェーズでは、前記複数の重みの調整は、前記ニューラルネットワークによって選択されたアクションに基づいて実行される、
装置。
(付記24)
ネットワーク最適化を実行するための装置であって、前記装置は以下を含む。
(a)ネットワーク環境の現在のネットワーク状態を示す少なくとも1つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うための手段、
(b)それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも1つのメトリックをそれぞれ推定するための手段、
(c)それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「B」のネットワーク最適化アクションを選択するための手段、
(d)それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定するための手段、
(e)全ての次のネットワーク状態の中から、少なくとも1つの追加メトリックに基づいて、最大で事前決定された数「W」のベストなネットワーク状態を選択するための手段、
(f)それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「D」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ(b)を繰り返すための手段、
(g)前記少なくとも1つの追加メトリックに基づいて、最適なネットワーク状態を識別するための手段、ここで、前記最適なネットワーク状態は、推定された前記少なくとも1つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、
(h)前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別するための手段、及び、
(i)前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用するための手段。
3 モバイルデバイス(UE)
5 (R)ANノード(基地局)
7 コアネットワーク
8 セル
20 外部IPネットワーク
31 トランシーバ回路
33 アンテナ
35 ユーザインターフェース
37 コントローラ
39 メモリ
41 オペレーティングシステム
43 通信制御モジュール
51 トランシーバ回路
53 アンテナ
55 ネットワークインターフェース
57 コントローラ
59 メモリ
61 オペレーティングシステム
63 通信制御モジュール
65 最適化モジュール
71 トランシーバ回路
75 ネットワークインターフェース
77 コントローラ
79 メモリ
81 オペレーティングシステム
83 通信制御モジュール
85 最適化モジュール
Claims (2)
- ネットワーク最適化を実行するための装置における方法であって、
(a)ネットワーク環境の現在のネットワーク状態を示す少なくとも1つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うこと、
(b)それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも1つのメトリックをそれぞれ推定すること、
(c)それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「B」のネットワーク最適化アクションを選択すること、
(d)それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定すること、
(e)全ての次のネットワーク状態の中から、少なくとも1つの追加メトリックに基づいて、最大で事前決定された数「W」のベストなネットワーク状態を選択すること、
(f)それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「D」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ(b)を繰り返すこと、
(g)前記少なくとも1つの追加メトリックに基づいて、最適なネットワーク状態を識別すること、ここで、前記最適なネットワーク状態は、推定された前記少なくとも1つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、
(h)前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別すること、及び、
(i)前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用すること、を含む、方法。 - ネットワーク最適化を実行するための装置であって、
(a)ネットワーク環境の現在のネットワーク状態を示す少なくとも1つのメトリックを取得し、前記現在のネットワーク状態を初期ネットワーク状態として扱うための手段、
(b)それぞれの初期ネットワーク状態及び前記ネットワーク環境に適用可能な複数の異なるネットワーク最適化アクションのそれぞれについて、前記ネットワーク環境が前記初期ネットワーク状態にあるときに、そのネットワーク最適化アクションが適用された場合、前記ネットワーク環境の次のネットワーク状態を示す少なくとも1つのメトリックをそれぞれ推定するための手段、
(c)それぞれの初期ネットワーク状態について、ベストな関連メトリックを持つ、最大で事前決定された数「B」のネットワーク最適化アクションを選択するための手段、
(d)それぞれの選択されたネットワーク最適化アクションについて、前記次のネットワーク状態を決定するための手段、
(e)全ての次のネットワーク状態の中から、少なくとも1つの追加メトリックに基づいて、最大で事前決定された数「W」のベストなネットワーク状態を選択するための手段、
(f)それぞれ、前記ベストと推定されたネットワーク状態を初期ネットワーク状態として扱い、事前決定された数「D」未満のネットワーク最適化アクションが、前記現在のネットワーク状態から前記次のネットワーク状態に到達するために取られた場合、ステップ(b)を繰り返すための手段、
(g)前記少なくとも1つの追加メトリックに基づいて、最適なネットワーク状態を識別するための手段、ここで、前記最適なネットワーク状態は、推定された前記少なくとも1つのメトリックがベストな推定値を持つと決定されたネットワーク状態である、
(h)前記現在のネットワーク状態で前記ネットワーク環境に適用された場合に、可能な限り少ないアクション内で前記最適なネットワーク状態につながる可能性が最も高い、最適なネットワーク最適化アクションを識別するための手段、及び、
(i)前記ネットワーク環境で前記最適なネットワーク最適化アクションを適用するための手段を含む装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1912888.3A GB2586868A (en) | 2019-09-06 | 2019-09-06 | Coverage and capacity optimisation using deep reinforcement learning |
GB1912888.3 | 2019-09-06 | ||
PCT/JP2020/033703 WO2021045225A2 (en) | 2019-09-06 | 2020-08-27 | Method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022536813A JP2022536813A (ja) | 2022-08-18 |
JP7279856B2 true JP7279856B2 (ja) | 2023-05-23 |
Family
ID=68240941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022522498A Active JP7279856B2 (ja) | 2019-09-06 | 2020-08-27 | 方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220264331A1 (ja) |
EP (1) | EP3984270A2 (ja) |
JP (1) | JP7279856B2 (ja) |
GB (1) | GB2586868A (ja) |
WO (1) | WO2021045225A2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3977559A4 (en) * | 2019-06-03 | 2022-06-15 | Telefonaktiebolaget LM Ericsson (publ) | MANAGEMENT OF THE INFRASTRUCTURE OF AN ANTENNA WITH REMOTE ELECTRIC PITCH ADJUSTMENT BY NEURAL NETWORKING BASED ON THE PROBABILITY OF ACTIONS |
WO2021049984A1 (en) * | 2019-09-12 | 2021-03-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Provision of precoder selection policy for a multi-antenna transmitter |
CN112035338B (zh) * | 2020-07-10 | 2022-01-28 | 河海大学 | 一种有状态深度神经网络的覆盖率计算方法 |
US20220044110A1 (en) * | 2020-08-06 | 2022-02-10 | Google Llc | Controlling agents using reinforcement learning with mixed-integer programming |
CN112492686B (zh) * | 2020-11-13 | 2023-10-13 | 辽宁工程技术大学 | 一种基于深度双q网络的蜂窝网络功率分配方法 |
US11457371B2 (en) * | 2021-01-08 | 2022-09-27 | Verizon Patent And Licensing Inc. | Systems and methods for determining baselines for network parameters used to configure base stations |
CN112954651B (zh) * | 2021-03-12 | 2022-04-08 | 南京航空航天大学 | 一种基于深度强化学习的低时延高可靠性v2v资源分配方法 |
IT202100008381A1 (it) * | 2021-04-02 | 2022-10-02 | Telecom Italia Spa | Metodo e sistema per ottimizzare una rete di comunicazioni mobili |
CN113254197B (zh) * | 2021-04-30 | 2023-02-03 | 西安电子科技大学 | 一种基于深度强化学习的网络资源调度方法及系统 |
US20230135745A1 (en) * | 2021-10-28 | 2023-05-04 | Nokia Solutions And Networks Oy | Deep reinforcement learning based wireless network simulator |
CN114245392B (zh) * | 2021-12-20 | 2022-07-01 | 哈尔滨入云科技有限公司 | 一种5g网络优化方法及系统 |
WO2023131822A1 (en) * | 2022-01-07 | 2023-07-13 | Telefonaktiebolaget Lm Ericsson (Publ) | Reward for tilt optimization based on reinforcement learning (rl) |
CN115499852A (zh) * | 2022-09-15 | 2022-12-20 | 西安邮电大学 | 基于机器学习的毫米波网络覆盖容量自优化方法及装置 |
WO2024151189A1 (en) * | 2023-01-09 | 2024-07-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Systems and methods for joint inter- and intra-slice orchestration using reinforcement learning |
CN117749625B (zh) * | 2023-12-27 | 2024-06-25 | 融鼎岳(北京)科技有限公司 | 基于深度q网络的网络性能优化系统和方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190014488A1 (en) | 2017-07-06 | 2019-01-10 | Futurewei Technologies, Inc. | System and method for deep learning and wireless network optimization using deep learning |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018149898A2 (en) * | 2017-02-16 | 2018-08-23 | Alcatel-Lucent Ireland Ltd | Methods and systems for network self-optimization using deep learning |
US10334456B2 (en) * | 2017-07-06 | 2019-06-25 | Futurewei Technologies, Inc. | Optimizing cellular networks using deep learning |
CN110770761B (zh) * | 2017-07-06 | 2022-07-22 | 华为技术有限公司 | 深度学习系统和方法以及使用深度学习的无线网络优化 |
US10555192B2 (en) * | 2017-11-15 | 2020-02-04 | Futurewei Technologies, Inc. | Predicting received signal strength in a telecommunication network using deep neural networks |
CN109816099A (zh) * | 2019-01-28 | 2019-05-28 | 天津工业大学 | 一种深度神经网络初始化及训练方法 |
KR102294745B1 (ko) * | 2019-08-20 | 2021-08-27 | 한국과학기술원 | 심층 신경망 학습 장치 |
-
2019
- 2019-09-06 GB GB1912888.3A patent/GB2586868A/en not_active Withdrawn
-
2020
- 2020-08-27 JP JP2022522498A patent/JP7279856B2/ja active Active
- 2020-08-27 US US17/629,454 patent/US20220264331A1/en active Pending
- 2020-08-27 EP EP20786086.7A patent/EP3984270A2/en not_active Withdrawn
- 2020-08-27 WO PCT/JP2020/033703 patent/WO2021045225A2/en unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190014488A1 (en) | 2017-07-06 | 2019-01-10 | Futurewei Technologies, Inc. | System and method for deep learning and wireless network optimization using deep learning |
Non-Patent Citations (2)
Title |
---|
Alessio Zappone, et al.,Wireless Networks Design in the Era of Deep Learning: Model-Based, AI-Based, or Both?,arxiv.org, Cornell Uiversity library,2019年06月13日 |
Ron Sun,Supplementing Neural Reinforcement Learning with Symbolic Methods: Possibilities and Challenges,IEEE,1999年07月10日 |
Also Published As
Publication number | Publication date |
---|---|
GB2586868A (en) | 2021-03-10 |
US20220264331A1 (en) | 2022-08-18 |
WO2021045225A2 (en) | 2021-03-11 |
EP3984270A2 (en) | 2022-04-20 |
WO2021045225A3 (en) | 2021-04-22 |
JP2022536813A (ja) | 2022-08-18 |
GB201912888D0 (en) | 2019-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7279856B2 (ja) | 方法及び装置 | |
EP3583797B1 (en) | Methods and systems for network self-optimization using deep learning | |
CN110770761B (zh) | 深度学习系统和方法以及使用深度学习的无线网络优化 | |
US10375585B2 (en) | System and method for deep learning and wireless network optimization using deep learning | |
US11696205B2 (en) | Context-specific customization of handover parameters using characterization of a device's radio environment | |
KR20190103681A (ko) | 기계학습을 이용한 무선 백홀망 자원할당방법 및 자원할당 장치 | |
US9451611B2 (en) | System and method for controlling multiple wireless access nodes | |
CN104584622A (zh) | 用于蜂窝式网络负载平衡的方法与系统 | |
Khoramnejad et al. | On joint offloading and resource allocation: A double deep q-network approach | |
Cao et al. | Deep reinforcement learning for multi-user access control in UAV networks | |
US20230254714A1 (en) | Local wireless communication system, in-area reception quality control method, controller, and program | |
Stusek et al. | LPWAN coverage assessment planning without explicit knowledge of base station locations | |
Abdelghany et al. | Decentralized adaptive spectrum learning in wireless iot networks based on channel quality information | |
CN115329954A (zh) | 训练数据集获取方法、无线传输方法、装置及通信设备 | |
Gupta et al. | Load balancing and handover optimization in multi-band networks using deep reinforcement learning | |
Njemčević et al. | Improved model for estimation of spatial averaging path length | |
Eller et al. | A Differentiable Throughput Model for Load-Aware Cellular Network Optimization Through Gradient Descent | |
CN116017493A (zh) | 模型请求方法、模型请求处理方法及相关设备 | |
Perera et al. | Dynamic Spectrum Fusion: An Adaptive Learning Approach for Hybrid NOMA/OMA in Evolving Wireless Networks | |
Ghatak | Fast Change Identification in Multi-Play Bandits and its Applications in Wireless Networks | |
Palacios et al. | Cognitive radio simulator for mobile networks: design and implementation | |
Xu et al. | Feed-Forward Neural Network Based Mode Selection for Moving D2D-Enabled Heterogeneous Ultra-Dense Network | |
Gu et al. | Optimizing Wireless Coverage and Capacity with PPO-Based Adaptive Antenna Configuration | |
JP2017220732A (ja) | ネットワークパラメータ推定装置、ネットワークパラメータ推定方法およびプログラム | |
Sohaib et al. | Meta-Transfer Learning-Based Handover Optimization for V2N Communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211214 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230411 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230424 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7279856 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |