JP2021083091A - マルチエージェント強化学習を介してセルラーネットワークにおいてユーザ機器を関連付けるための方法 - Google Patents
マルチエージェント強化学習を介してセルラーネットワークにおいてユーザ機器を関連付けるための方法 Download PDFInfo
- Publication number
- JP2021083091A JP2021083091A JP2020190845A JP2020190845A JP2021083091A JP 2021083091 A JP2021083091 A JP 2021083091A JP 2020190845 A JP2020190845 A JP 2020190845A JP 2020190845 A JP2020190845 A JP 2020190845A JP 2021083091 A JP2021083091 A JP 2021083091A
- Authority
- JP
- Japan
- Prior art keywords
- base station
- network
- action
- user equipment
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000001413 cellular effect Effects 0.000 title claims description 22
- 230000009471 action Effects 0.000 claims abstract description 80
- 238000002474 experimental method Methods 0.000 claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 claims abstract description 43
- 230000006870 function Effects 0.000 claims abstract description 40
- 230000015654 memory Effects 0.000 claims abstract description 20
- 239000003795 chemical substances by application Substances 0.000 claims description 40
- 239000013598 vector Substances 0.000 claims description 37
- 230000002787 reinforcement Effects 0.000 claims description 19
- 230000003542 behavioural effect Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 230000006399 behavior Effects 0.000 claims description 12
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 8
- 230000000946 synaptic effect Effects 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 claims 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 210000004027 cell Anatomy 0.000 description 19
- 238000004891 communication Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004821 distillation Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
- H04W72/543—Allocation or scheduling criteria for wireless resources based on quality criteria based on requested quality, e.g. QoS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/16—Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W48/00—Access restriction; Network selection; Access point selection
- H04W48/16—Discovering, processing access restriction or access information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W48/00—Access restriction; Network selection; Access point selection
- H04W48/20—Selecting an access point
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W84/00—Network topologies
- H04W84/02—Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
- H04W84/04—Large scale networks; Deep hierarchical networks
- H04W84/042—Public Land Mobile systems, e.g. cellular systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W88/00—Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
- H04W88/02—Terminal devices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W88/00—Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
- H04W88/08—Access point devices
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Computer Security & Cryptography (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
【課題】マルチエージェント強化学習アルゴリズム(MARL)を用いて、5Gネットワークなどの異種ネットワークの基地局にユーザ機器(UE)を関連付ける方法を提供する。【解決手段】ユーザ機器に関連するエージェントは、その環境の観測に基づいて行動を推論する。この行動は、近隣の基地局に対するユーザの関連付け要求を示し、ユーザが観測に対する行動価値の最大関数及び複数の可能な行動を求める方策に従って選定される。行動価値の関数は、エージェントの今後の報酬の予想される和として定義される。行動が実行されると、共通の報酬がネットワークからユーザに提供される。共通の報酬は、関連付け要求の衝突の場合ゼロであるか或いは効用関数の結果である。様々な行動に対する行動価値の関数は、ローカルメモリ内に記憶された実験のセットに対してトレーニングされた再帰型ニューラルネットワーク(DRQN)によって予測される。【選択図】図2
Description
本発明は、セルラーネットワークの分野に関し、より詳細には、第5世代(5G)などの異種ネットワーク内の基地局にユーザ機器(UE)を関連付けることに関する。本発明はまた、人工知能の分野、より詳細には、マルチエージェント強化学習すなわちMARLの分野に関する。
モバイル端末またはUE(ユーザ機器)とセルラーネットワークの基地局との関連付けのための方法は、過去20年間にわたる膨大な研究の主題である。概して、関連付け方法は、各モバイル端末に対して、すべてのユーザのニーズ(帯域幅、信号対雑音比、レイテンシなど)および基地局に対する制約(最大放射力、干渉レベルなど)を考慮して、モバイル端末にサービスしなければならないことになる基地局(言い換えれば、セル)を決定することを目的とする。達成すべき目的関数および満たすべき制約に応じた極めて多様な関連付け方法が先行技術において提案されている。
第5世代セルラーネットワークの展開により、関連付け技法は、新たな課題に直面するために発展する必要がある。実際、短距離にわたる、高帯域幅におけるカバレッジを確実にすることを意図した、特にミリメートル帯域内で動作するスモールセルまたはSBS(スモールセル基地局)の高密度層と、連続カバレッジを確実にすることを意図した、サブ6GHz帯域で動作する、マクロセルまたはMBS(マクロセル基地局)の密度があまり高くない層との重ね合わせにより、5Gネットワークは本質的に異種混在のものである。スモールセルは、スペクトルリソースの観点からであれ、空間リソースの観点からであれ、利用可能な多数の送信リソースを有する(指向性ビームの形成)。その上、モバイル端末と基地局(SBSまたはMBS)の関連付けは、様々な基地局の負荷、干渉レベル、様々なユーザの帯域幅、可能なビーム構成などを考慮に入れることが必要とされる。結果として、ネットワークの全体的な性能の最適化が特に複雑になる。最適な関連付けの探索は、事実上、組合せの問題であり、その複雑さはNPクラスのものであり、言い換えれば、ネットワークにおけるユーザの数とともに指数関数的に変化する複雑さを有することが分かる。
モバイル端末を異種ネットワークの基地局に関連付けるための方法は、Proc.of IEEE Global Communications Conference (GLOBECOM)出版「Deep reinforcement learning for user association and resource allocation in heterogeneous networks」と題する、N.Zhaoらによる論文、1-6頁、2018年において記述された。この関連付け方法は、Q学習の名称で知られている強化学習方法に依拠する。この方法の記述は、レビューMachine Learning編、「Q-learning」と題する、C.Watkinsらによる論文、第8巻、3〜4番、279〜292頁、1992年に見出すことができる。強化学習方法は、自律エージェントが、環境に没入して、経時的に累積される報酬を最適化するような方法で、実験に基づいて実行されることになる行動を学習する機械学習方法であることが想起される。エージェントは、その現状に従って決断を行い、環境は、そのエージェントが実行する行動に従ってエージェントに報酬を提供する。前述の論文において、関連付け方法は、マルチエージェントタイプのものであり、各ユーザ機器は、エージェントとして動作し、その環境から学習し、様々なエージェントが協働して動作する。しかしながら、この関連付け方法は、ネットワークのユーザの各々に対して最小限のサービス品質(QoS)(Ωi)の満足(または、満足の欠如)を表す状態の空間を使用し、各ユーザは、その上、他のユーザによって要求されるサービス品質の満足または不満足について知らされる。このタイプの協働は、制御チャネルを介したモバイル端末同士の間の著しい数のメッセージの交換(メッセージパッシング)、したがって、このための送信リソースの可動化を仮定する。その上、関連付けポリシーの決定は、その入力変数のサイズがユーザの数とともに増大する、DDQNニューラルネットワーク(ダブルディープQネットワーク)の使用を仮定する。結果として、提案される関連付け方法は、ネットワーク内のユーザの数に対してスケーラブルではない。この場合、ユーザがセルに再び参加するか、またはセルを去る場合、これは、ユーザの各々のニューラルネットワークのアーキテクチャの修正を意味する。
Proc.of IEEE Global Communications Conference (GLOBECOM)出版「Deep reinforcement learning for user association and resource allocation in heterogeneous networks」と題する、N.Zhaoらによる論文、1-6頁、2018年
レビューMachine Learning編、「Q-learning」と題する、C.Watkinsらによる論文、第8巻、3〜4番、279〜292頁、1992年
「Reinforcement learning」と題する、Richard S.SuttonおよびAndrew G.Bartoによる著作、第2版、2018年、129〜132頁
「Human-level control through deep reinforcement learning」と題する、V.Mnihらによる論文、2015年2月26日、第158巻、529〜541頁
arXiv:1511.06295v2,7出版、「Policy distillation」と題する、A.A.Rusuらによる論文、2016年1月
したがって、本発明の1つの目的は、ユーザ同士の間のメッセージの交換を必要とせず、かつユーザの数とネットワーク内の基地局の数の両方に関してスケーラブルであるマルチエージェント強化学習アルゴリズムを実装する、セルラーネットワーク、具体的には5Gネットワークなどの異種ネットワークの基地局にユーザ機器を関連付けるための方法を提案することである。
本発明は、いくつかのユーザ機器(UE)をセルラーネットワークの基地局に関連付けるための方法によって定義され、前記関連付け方法は、マルチエージェント強化学習を実装し、エージェントは各ユーザ機器に関連付けられ、前記関連付け方法は、具体的には、
各ユーザ機器ujが、ユーザ機器ujの各々が位置するカバレッジ内の基地局のセットSjを決定し、
ユーザ機器に関連する各エージェントが、所与の時点におけるその環境の部分的観測(oj(t))に基づいて、複数の可能な行動の中からある行動(aj(t))を選択し、各可能な行動が、ユーザ機器を前記セットの基地局(BSi∈Sj)に関連付けるための要求に対応し、前記行動が、前記所与の時点において更新された、複数の今後の報酬の予想される和として計算される行動価値を最大化することを目的とする戦略(πj)に基づいて選択され、ユーザ機器が、そのように選択された行動に対応する関連付け要求を中央制御装置に送信し、
各基地局が、その基地局が有している利用可能な送信リソースを考慮して、その基地局がUEから受信された関連付け要求のすべてを満たすことができるかどうかを決定し、否定的な場合、中央制御装置にそれを知らせ、
中央制御装置が、エージェントの行動に共通の報酬(r(t))を計算し、それをすべてのUEにブロードキャストし、この報酬が、基地局のうちの1つが、受信された関連付け要求のすべてを満たすことができるとは限らない場合、ゼロであり、さもなければ、UEに提供されるサービス品質を表す、ネットワークの効用関数によってとられる値に等しい。
各ユーザ機器ujが、ユーザ機器ujの各々が位置するカバレッジ内の基地局のセットSjを決定し、
ユーザ機器に関連する各エージェントが、所与の時点におけるその環境の部分的観測(oj(t))に基づいて、複数の可能な行動の中からある行動(aj(t))を選択し、各可能な行動が、ユーザ機器を前記セットの基地局(BSi∈Sj)に関連付けるための要求に対応し、前記行動が、前記所与の時点において更新された、複数の今後の報酬の予想される和として計算される行動価値を最大化することを目的とする戦略(πj)に基づいて選択され、ユーザ機器が、そのように選択された行動に対応する関連付け要求を中央制御装置に送信し、
各基地局が、その基地局が有している利用可能な送信リソースを考慮して、その基地局がUEから受信された関連付け要求のすべてを満たすことができるかどうかを決定し、否定的な場合、中央制御装置にそれを知らせ、
中央制御装置が、エージェントの行動に共通の報酬(r(t))を計算し、それをすべてのUEにブロードキャストし、この報酬が、基地局のうちの1つが、受信された関連付け要求のすべてを満たすことができるとは限らない場合、ゼロであり、さもなければ、UEに提供されるサービス品質を表す、ネットワークの効用関数によってとられる値に等しい。
第1の代替案によれば、ネットワークの効用関数U(t)は、UEとそのUEに関連付けられる基地局との間のダウンリンクの容量の和、またはこれらの容量の対数の和に等しい。
第2の代替案によれば、ネットワークの効用関数は、
に等しく、式中、Djは、ユーザ機器ujが要求した帯域幅であり、Rijは、基地局BSiがユーザ機器ujと関連付けられる場合、xij=1であり、さもなければ、xij=0である、BSiとユーザ機器ujとの間のダウンリンクの容量である。
セルラーネットワークは、一般に、マクロセルの層およびスモールセルの層からなる異種ネットワークであり得、中央制御装置は、したがって、マクロセルの基地局内に位置する。
第1の実施形態によれば、ユーザ機器ujに関連するエージェントは、所与の時点においてその環境の観測のベクトルoj(t)を入力において受信するとともに、セットSjの基地局に対応する様々な可能な行動に対する行動価値の予測を出力において提供する再帰型人工ニューラルネットワーク(DRQN)を介して、様々な可能な行動の行動価値を予測する。
ニューラルネットワークは、一般に、入力層と、第1の複数の密に接続された層と、LSTM層と、第2の複数の密に接続された層と、出力層とを備える。
有利には、環境の観測のベクトルは、先行する時点においてユーザ機器ujによって実行されている行動aj(t-1)、関連付け要求が送信された基地局によって送り返された、関連付け要求に対する応答ACKj(t-1)、所与の時点tにおいて基地局から受信された電力の測定値RSSIj(t)、その時点tにおいてモバイル端末が要求した帯域幅Dj(t)、先行する時点t-1におけるダウンリンクのチャネル容量の推定値Rj(t-1)、および先行する時点におけるUEのダウンリンクの容量の和の推定値R(t-1)を含む。
再帰型ニューラルネットワークは、したがって、実験のセットej(t)=(oj(t),aj(t),rj(t),oj(t+1))に対してトレーニングされ得、各実験は、エピソード{ej(t);t=1,…,T}に属し、実験は、所与の時点tにおける観測ベクトルoj(t)、この時点においてエージェントによって選択された行動aj(t)、この行動の後で制御装置から受信された報酬、および続く時点における観測ベクトルoj(t+1)からなるクワドラプレット(quadruplet)として定義され、前記実験は、ユーザ機器ujのローカルメモリMj内に記憶される。
第1の代替案によれば、再帰型ニューラルネットワークのシナプス係数は、パラメータベクトルθjによって表され、前記パラメータベクトルは、ミニバッチによって平均化された損失関数
に対する確率的勾配降下法によって得られ、式中
は、ミニバッチの実験に対する行動価値の予測におけるTD誤差である。
第2の代替案によれば、再帰型ニューラルネットワークのシナプス係数は、パラメータベクトルθjによって表され、前記パラメータベクトルは、ミニバッチによって平均化された損失関数
に対する確率的勾配降下法によって得られ、式中、
は、ミニバッチの実験に対する行動価値の予測におけるTD誤差であり、TD誤差が正である場合、
であり、逆の場合、
であり、式中、β,χは、0<β χ≦1を検証する実数である。
第2の実施形態によれば、セルラーネットワークは、複数のタスクT={T(1),T(2),…,T(N)}に直面し、各タスクは、様々なUEが要求したサービスのセットによって定義され、
式中、
は、タスクT(n)においてユーザ機器ujが要求したサービスを表し、各タスクT(n)は、すべてのユーザに対する環境のクラスを定義する。ユーザ機器ujに関連するエージェントは、マスターネットワークと呼ばれる、複数の再帰型ニューラルネットワークのそれぞれの予測に対する学習期間にわたってトレーニングされた、スチューデントネットワークと呼ばれる、再帰型ニューラルネットワークを介した様々な可能な行動の行動価値を予測し、各マスターネットワークは、ネットワークのタスクに関連付けられ、それ自体がこのタスクの文脈で実行される実験のセットej(t)=(oj(t),aj(t),rj(t),oj(t+1))に対してトレーニングされ、実験は、所与の時点tにおける観測ベクトルoj(t)、この時点においてエージェントによって選択された行動aj(t)、この行動の後で制御装置から受信された報酬、および続く時点における観測ベクトルoj(t+1)からなるクワドラプレットとして定義され、タスクT(n)の文脈で実行される実験は、ユーザ機器ujのローカルメモリ
内に記憶される。
有利には、各マスターネットワークのトレーニングの終わりに、マスターネットワークは、このマスターネットワークに関連するタスクの文脈で実行される実験から生じる行動ベクトルに対する行動価値
を予測し、行動価値の前記予測は、SMjと表記される、すべてのタスクに共通のメモリ内に、対応する観測ベクトルとともに記憶され、すべてのマスターネットワークがトレーニングされた後、トレーニングデータに対して監督された方法でスチューデントネットワークがトレーニングされ
、oj(t)は、スチューデントネットワークの入力ベクトルであり、
は、関連するタグである。
本発明の他の特徴および利点は、添付の図面を参照して説明する、本発明の好ましい実施形態を読むと明らかになるであろう。
以下で、複数の基地局から構成されるセルラーネットワークが考察される。一般性を失わず、単なる例示のために、このセルラーネットワークは異種であること、すなわち、このセルラーネットワークは、低カバレッジを有するが、高帯域幅を各UEに提供することが潜在的に可能なスモールセル(SBS)の層と、より広い範囲を提供することによってネットワークのカバレッジの継続性を保証するマクロセル(MBS)の層との重ね合わせから生じると仮定される。一般的な使用例は、SBSセルがミリメートル帯域内で動作し、MBSセルがサブ6GHz帯域内で動作する、5Gネットワークの使用である。
図1は、ユーザ機器(UE)とそのような異種ネットワーク内の基地局の関連付けの一例を示す。
u1、…、u8は、UE(たとえば、モバイル端末)を示し、SBS1、SBS2、SBS3は、3個のスモールセルの基地局を示し、MBSは、マクロセルの基地局を示す。
所与の時点tにおいて、各ユーザ機器ujは、サービス品質(QoS)制約を満たすために一定の帯域幅Dj(t)を必要とする。この端末が基地局BSiに関連付けられる場合(BS0は、従来、MBS局を示し、BSi、i=1、…、Ns、は、Ns個のBSB基地局を示す)、ユーザ機器と関連する基地局との間のチャネルは、Rij≧Djになるように、容量Rij=Bijlog(1+SNRij)を提供しなければならず、式中、BijおよびSNRijは、それぞれ、チャネルに対する帯域幅および信号対干渉雑音比である。ここで考慮に入れるべき干渉は、同じセル内の他の通信によって引き起こされる干渉(セル内干渉)、ならびに他のセルの通信によって引き起こされる干渉(セル間干渉)である。
各基地局BSiに対して、Uiは、BSiのカバレッジ内に位置するすべてのユーザ機器を示す。したがって、示される例では、U0={u1,…,u9}、U1={u1,u2,u3,u8,u9}、U2={u1,u4,u5,u6,u8}、およびU3={u6,u7,u8,u9}である。逆に、所与のユーザ機器ujに対して、Sjは、そのユーザ機器にサービスすることが可能な基地局のセットを示す。したがって、この示される例では、Si={BS0,BS1,BS2}、S5={BS0,BS2}、およびS8={BS0,BS1,BS2,BS3}である。
基地局に利用可能な送信リソースに対する一定数の制約を考慮しながら、ネットワーク全体に対して効用関数U(t)を最大化するような方法でユーザ機器を基地局に関連付けることが求められる。xij=1が、ユーザ機器ujと基地局BSiの関連付けを示し、xij=0が関連付けの不在を示す場合、かつユーザ機器が単一の基地局とのみ関連付けられ得ることが仮定される場合、求められる関連付けは、制約
Xij={0,1} (1-2)
Xij={0,1} (1-2)
を考慮しながら、最適化問題
を解決することによって得られ、
式中、Niは、基地局BSiに利用可能な送信リソースの数(たとえば、別個のビームの数)であり、Nsは、SBSの数であり、Nuは、UEの数である。制約(1-3)は、UEが、最高で基地局が利用可能な送信リソース限度まで、基地局によってのみサービスされるという事実を単に説明し、制約(1-4)は、各UEがある基地局によってサービスされなければならないという事実を単に説明する。実際問題として、MBS基地局(BS0)のリソース量はSBS基地局(BSi、i=1、…、N)のリソース量よりもかなり大きいため、この制約は、i=0の場合、大抵、常に満たされる。理想的には、様々なユーザの帯域幅に対する要求は、配慮されなければならず、この場合、
式中、Niは、基地局BSiに利用可能な送信リソースの数(たとえば、別個のビームの数)であり、Nsは、SBSの数であり、Nuは、UEの数である。制約(1-3)は、UEが、最高で基地局が利用可能な送信リソース限度まで、基地局によってのみサービスされるという事実を単に説明し、制約(1-4)は、各UEがある基地局によってサービスされなければならないという事実を単に説明する。実際問題として、MBS基地局(BS0)のリソース量はSBS基地局(BSi、i=1、…、N)のリソース量よりもかなり大きいため、この制約は、i=0の場合、大抵、常に満たされる。理想的には、様々なユーザの帯域幅に対する要求は、配慮されなければならず、この場合、
である。
ネットワークの効用関数は、様々なユーザに提供され得る総容量として、または、必要な場合、ユーザの帯域幅要求
を考慮に入れるか、もしくは、様々なユーザ間の比例した公平性
を考慮しながら、
として選定されてよい。
当業者には(たとえば、様々なユーザによって要求される、xMBBタイプ、uMTCタイプ、およびmMTCタイプのサービスを考慮に入れながら)ネットワークの他の効用関数が考えられる。概して、ネットワークの効用関数は、特に、容量および/またはレイテンシの点で、ネットワークのユーザに提供されるサービス品質を表す。
本発明が基づく構想は、マルチエージェント強化学習すなわちMARLアルゴリズムを使用することであり、各ユーザ機器(UE)は、その環境の観測、およびすべてのユーザに共通の報酬に基づいて実行される行動(関連付け要求)に従って、その最適な関連付けを独立して学習する。
各ユーザ機器ujは、観測により時点tにおけるその環境の状態sj(t)の部分的な知識を有する。その時点tにおける観測として、有利には、以下により定義されるベクトルが選定されることになる:
oj(t)=(aj(t-1),ACKj(t-1),RSSIj(t),Dj(t),Rj(t-1),R(t-1))T (3)
式中、aj(t-1)は、先行する時点においてユーザujによって実行された行動であり、ACKj(t-1)は、基地局が送信した、基地局によって送り返された関連付け要求に対応する応答(たとえば、関連付けが容認された場合、ACKj(t-1)=1、否認された場合、ACKj(t-1)=0であり)、RSSIj(t)は、モバイル端末(UE)が関連付けられた基地局から受信された電力の時点tにおける測定値であり、Dj(t)は、時点tにおいてモバイル端末が要求した帯域幅であり、Rj(t-1)は、先行する時点t-1におけるダウンリンクのチャネル容量の推定値であり(言い換えれば、Rj(t-1)=Bij(t-1)log2(1+SNRij(t-1))、式中、Bij(t-1)およびSNRij(t-1)は、それぞれ、先行する時点t-1における帯域幅および信号対干渉雑音比であり、R(t-1)は、すべてのユーザに対して計算された、先行する時点t-1において得られたネットワークの総容量、すなわち、
oj(t)=(aj(t-1),ACKj(t-1),RSSIj(t),Dj(t),Rj(t-1),R(t-1))T (3)
式中、aj(t-1)は、先行する時点においてユーザujによって実行された行動であり、ACKj(t-1)は、基地局が送信した、基地局によって送り返された関連付け要求に対応する応答(たとえば、関連付けが容認された場合、ACKj(t-1)=1、否認された場合、ACKj(t-1)=0であり)、RSSIj(t)は、モバイル端末(UE)が関連付けられた基地局から受信された電力の時点tにおける測定値であり、Dj(t)は、時点tにおいてモバイル端末が要求した帯域幅であり、Rj(t-1)は、先行する時点t-1におけるダウンリンクのチャネル容量の推定値であり(言い換えれば、Rj(t-1)=Bij(t-1)log2(1+SNRij(t-1))、式中、Bij(t-1)およびSNRij(t-1)は、それぞれ、先行する時点t-1における帯域幅および信号対干渉雑音比であり、R(t-1)は、すべてのユーザに対して計算された、先行する時点t-1において得られたネットワークの総容量、すなわち、
である。観測ベクトルoj(t)のいくつかの成分は随意であることに留意されたい。したがって、たとえば、ユーザの現在の帯域幅要求(ベストエフォートカテゴリーに対応するサービス)を考慮に入れる必要がない場合、成分Dj(t)は省かれてよい。
環境の観測oj(t)は、それが網羅的でない限り、部分として条件を満たす。環境の網羅的な観測は、具体的には、他のユーザによって実行されるRSSIの測定、チャネル容量の推定などがメッセージを介してユーザujに通信されると仮定することになる。
時点tにおけるユーザ機器の行動は、このユーザの関連付け要求によって定義され、すなわち、aj(t)=iであり、式中、BSi∈Sjである。この行動は、以下で詳細に説明する方策πjに従ってユーザによって決断される。
ユーザujに関連するエージェントがベクトルoj(t)を観測し、行動aj(t)を実行した(すなわち、基地局との関連付けを要求した)後、前記エージェントは、当該ユーザの機器に特定ではなく、ユーザのすべてに共通である報酬r(t)を受け取る。より正確には、前記報酬は、有利には、
によって定義され、さもなければ、r(t)=U(t) (4-2)
である。
である。
言い換えれば、すべてのユーザの要求が一緒に満たされ得ない場合、得られた報酬はゼロであり、さもなければ、報酬には考慮される時点におけるネットワークの効用関数の値が与えられる。
いくつかのユーザ機器は、したがって、それらのユーザ機器が経時的に報酬の和を最大化することを可能にする方策(ポリシー)を独立して学習し、各報酬には、時点tにおける行動の選定における今後の報酬の重みを決定する更新係数γが割り当てられる。実際問題として、有限持続時点Tを有するシーケンス(または、エピソード)の場合、各ユーザ機器ujは、毎回t最大化する方策(または、ポリシー)πjに従う:
式中、rj(t)=r(t)は、共通の報酬に等しい、ユーザ機器ujの報酬である。
ユーザ機器ujの方策πjは、ユーザ機器ujが経時的に記録する実験に基づいて決定される。その時点tにおけるユーザujの実験は、クワドラプレットと定義される:
ej(t)=(oj(t),aj(t),rj(t),oj(t+1)) (6)
ej(t)=(oj(t),aj(t),rj(t),oj(t+1)) (6)
言い換えれば、実験は、環境の所与の観測およびエージェントの所与の行動に基づいて、得られた報酬および環境の新しい観測を記録することに関連する。
エピソードは、連続的な実験のシーケンスej(t)、t=1、…、Tによって表される。エピソードの連続的な実験は、UEujのローカルメモリMj内に記憶される。
UEが記録した実験に基づいて、各エージェントはその方策πjを更新する。この更新は、校正段階(オフライン更新)で、必要な場合、シミュレーションによって行われ、UEが関連付け要求をネットワークの基地局に効果的に送信するとき、後で動作段階(オンライン更新)で継続され得る。
図2は、本発明の第1の実施形態による、強化学習方法を使用した関連付け方法のフローチャートを示す。
示される関連付け方法は、MARL強化学習方法においてエージェントとして動作するユーザ機器(UE)ujに関する。
関連付け方法は、初期化段階と動作段階とを含む。初期化段階は、ステップ210〜220を含む。
ステップ210において、ユーザ機器ujは、ユーザ機器ujが関連付けられることが可能な基地局のセットSj、言い換えれば、その基地局に対してユーザ機器ujがカバレッジエリア内にある基地局のセットを決定する。このセットは、たとえば、様々な基地局から受信された信号のそれぞれの電力レベルを比較することによって、かつそれらの電力レベルを事前決定されたしきい値と比較することによって、決定され得る:
Sj={BSi|RSSIij≧RSSIth,j} (7)
式中、RSSIijは、基地局BSiからUEujによって受信された信号の電力レベルを表し、RSSIth,jは、しきい値レベルである。このしきい値レベルは、たとえば、ユーザによって要求されるサービス品質QoSjに依存し得る。
Sj={BSi|RSSIij≧RSSIth,j} (7)
式中、RSSIijは、基地局BSiからUEujによって受信された信号の電力レベルを表し、RSSIth,jは、しきい値レベルである。このしきい値レベルは、たとえば、ユーザによって要求されるサービス品質QoSjに依存し得る。
第1の代替案によれば、セットSjは、ユーザの位置および近隣の基地局の位置に基づいて決定される:
Sj={BSi|dij≦CRi} (8)
式中、dijは、ユーザ機器ujから基地局BSiまでの距離である。
Sj={BSi|dij≦CRi} (8)
式中、dijは、ユーザ機器ujから基地局BSiまでの距離である。
第2の代替案によれば、セットSjは、ujに送信された基地局のリストの形で直接提供され得る(5Gネットワークの場合、このリストは、マクロセルの基地局によって送信され得る)。
ステップ220において、UEujは、方策πjを学習する。これを行うために、UEujは、複数のエピソードの実験をそのメモリMj内に記録し、次いで、記録された実験に基づいて最適な方策を決定する。実験ej(t)はシミュレートされ得、その場合、UEは、利用可能な方策、言い換えれば、任意の状態Sj(t)(または、この状態の任意の観測oj(t))を行動aj(t)に関連付ける関数
を有することになる(メモリ内に事前に記録されるか、または承認中にサーバからネットワーク内にダウンロードされる)。実験ej(t)に基づいて方策πjが得られる方法については、以下で詳細に説明する。
初期化段階の後、反復ループによって表される動作段階が続き、反復ループは、それぞれの離散時点tにおいて実行される。
毎回t、UEujに対するエージェントは、その環境sj(t)の観察oj(t)を考慮に入れて、行動aj(t)を決断する。
エージェントは、ステップ230においてその環境の観測oj(t)を得る。
この観測は、先行する時点においてUEによって送信された関連付け要求(また、したがって、UEに送られた基地局の識別子)、ならびに基地局の応答を含む。それにより、UEは、その関連付け要求が当該基地局によって許可されたかどうかを知る。
観測は、ダウンリンク上でユーザによって観測されたデータ帯域幅、ならびに、たとえば、マクロセル(MBS)の基地局によってまたはサーバによって格納された、中央制御装置によって計算された、ネットワーク全体に対する効用関数の値をさらに含む。この計算の結果は、すべてのユーザにブロードキャストされる。制御装置は、たとえば、専用ソフトウェアアプリケーション、プロセッサ、またはDSPによって作成され得る。
観測はまた、UEujが関連付けられた現在の基地局によって受信された信号の電力の測定値RSSIj(t)、ならびに要求されたデータ帯域幅Dj(t)を含み得る。
電力の測定値RSSIj(t)は、以下の反復に対する比率SNRij(t)をやはり計算することを可能にする。
観測oj(t)に基づいて、UEujのエージェントは、240において、方策πjという意味で最適行動を決定する。この方策の目的は、それらのそれぞれの更新係数によって重み付けされた、今後の報酬の和の予想値を最大化することである:
実際問題として、使用される方策πjは、以下で説明するような行動価値に基づく、グリーディー(greedy)またはεグリーディー戦略であってよい。
選択された行動aj(t)に基づいて、UEはUEが関連付けられることを望む基地局BSi∈Sjを推論する。当該基地局の識別子は、250において、中央制御装置に、たとえば、5Gネットワークの場合、MBS局に送信される。Sjの基地局BSiのうちのいずれも選択されない場合、ユーザがMBS基地局との関連付けを要求することがさらに可能である。制御装置は、その場合、関連付け要求を対応する基地局BSiに中継する。
260において、基地局BSiは、基地局BSiが自らとの関連付けを要求したすべてのユーザにサービスするために利用可能な十分な送信リソースを有するかどうかを決定する。基地局BSiは、応答ACKj(t)を介してこれを制御装置に警告する。
基地局のうちの1つに対する要求が負(ACKj(t)=0)である場合、265において、衝突が検出される。その上、5Gネットワークの場合、MBS基地局は、それにより、関連付けをユーザ機器ujに許可する。言い換えれば、MBS基地局との関連付けは、基地局BSiの拒否の場合のバックアップ解決策を構成する。
いかなる場合も、制御装置または基地局BSi自体が、270において、応答ACKj(t)によって関連付けまたはその否定をユーザ機器ujに警告する。
280において、制御装置は、すべてのダウンリンクの容量Rj(t)、j=1、…、Nuに基づいて、総容量R(t)を計算する。必要な場合、様々なユーザによって要求され、かつそれらのユーザによって前に制御装置に送信されたデータ帯域幅Dj(t)、j=1、…、Nuを考慮に入れると同時に、効用関数U(t)の値もやはり計算される。
制御装置は、その場合、総容量R(t)、ならびにすべてのエージェントに対して共通の報酬r(t)をブロードキャストする。衝突が検出された場合、共通の報酬はゼロであり、さもなければ、効用関数U(t)の値に等しい。
次いで、新しい観測ベクトルの取得は290に戻される。
図3は、異種ネットワークの、より具体的には、図2による関連付け方法の実装中の5Gネットワークの様々な要素同士の間のメッセージの交換を概略的に示す。
この図は、ユーザ機器(UE)uj、中央制御装置、たとえば、ここでは、ユーザが位置するマクロセルの基地局MBS、およびそこからユーザ機器ujが関連付けを要求するスモールセルの基地局BSiを示す。基地局BSiは、近隣の基地局のセットSjの一部である。
ステップ310において、ユーザ機器ujは、行動aj(t)、言い換えれば、そこからこのユーザ機器が関連付けを要求すると決断された基地局の識別子を基地局MBSに送信する。
aj(t)=0である場合、基地局MBSは、320において、関連付けをそのユーザ機器に自動的に許可し、ujとのダウンリンクが確立される。
aj(t)>0である場合、基地局MBSは、330において、その識別子に対応する基地局BSiに関連付け要求を転送する。
基地局BSa(j)は、340において、応答ACKj(t)を基地局MBSに返す。
ACKj(t)=0である場合、350において、基地局MBSは、関連付けを許可し、ujとのダウンリンクを確立する。
しかしながら、ACKj(t)=1である場合、基地局BSa(j)は、355において、関連付けを許可し、ujとのダウンリンクを確立する。
ユーザ機器ujは、サービス品質によって要求される帯域幅Dj(t)を決定し、BSa(j)と前に確立されたダウンリンクの容量Rj(t)=Ba(j),jlog2(1+SINRa(i),j)を測定する。たとえば、パイロットシンボルに基づいて、このリンクに対する信号対干渉雑音比SINRa(i),jが推定され得る。360において、要求される帯域幅Dj(t)および容量Rj(t)が基地局MBSに送信される。
1つの代替案によれば、この情報は、基地局BSa(j)においてアグリゲートされ、次いで、基地局MBSに送信される。具体的には、基地局BSa(j)は、そのスモールセルにおける容量の和を提供し、それを基地局MBSに送信することができる。
基地局MBSは、様々なダウンリンク(または、上記の代替案に従って基地局においてアグリゲートされた容量)ならびに報酬r(t)に対する容量Rj(t)、j=1、…、Nuに基づいて総容量R(t)を計算する。
基地局MBSは、次いで、370において、この情報をUEのすべて、具体的には、UEujにブロードキャストする。
以下で、表現を均一にするために、rj(t)は、UEujにおいて受信される共通の報酬を示す。
UEujに関連するエージェントが、観測oj(t)および方策πjに基づいて、毎回t、その行動aj(t)(言い換えれば、UEが関連付けを求めた基地局)を決定したことが上記で示され、観測oj(t)は、UEujに関連するエージェントの環境の状態の知識を説明する。SARSA方法または「Q学習」方法など、複数の強化学習方法が文献に存在する。SARSA方法およびQ学習強化学習方法の記述は、「Reinforcement learning」と題する、Richard S.SuttonおよびAndrew G.Bartoによる著作、第2版、2018年、129〜132頁に見出すことができる。
SARSA方法およびQ学習学習方法によれば、UEujの方策πjは、各エピソードに対してトレーニングされた行動の評価の関数(状態行動価値関数)Q(s,a)に基づいて、または、SARSA学習方法の場合、
Q(s,a)←(1-α)Q(s,a)+α(r+γQ(s',a') (10-1)
また、Q学習学習方法の場合、
Q(s,a)←(1-α)Q(s,a)+α(r+γQ(s',a') (10-1)
また、Q学習学習方法の場合、
に基づいて、様々なエピソードに対する反復更新によって得られ、
式中、0<α≦1は、学習率であり、0<γ≦1は更新係数である。sおよびs'は、それぞれ、環境の現在の状態および今後の状態を表し、aおよびa'は、それぞれ、状態sおよびs'における環境に対するエージェントの行動を表し、rは、状態sにおいて行動aを実行した後の環境から得られる報酬である。更新は、たとえば、記録された値Q(s,a)に基づくεグリーディータイプの方策に従って、各状態sに対して行動aを選択し、次いで、得られた報酬および続く状態s'における行動の評価関数の値に基づいてこれらの値を更新することによって、もしくは現在の方策に従って(SARSA学習方法の場合)、または続く状態における最大評価関数に従って、実行される。
式中、0<α≦1は、学習率であり、0<γ≦1は更新係数である。sおよびs'は、それぞれ、環境の現在の状態および今後の状態を表し、aおよびa'は、それぞれ、状態sおよびs'における環境に対するエージェントの行動を表し、rは、状態sにおいて行動aを実行した後の環境から得られる報酬である。更新は、たとえば、記録された値Q(s,a)に基づくεグリーディータイプの方策に従って、各状態sに対して行動aを選択し、次いで、得られた報酬および続く状態s'における行動の評価関数の値に基づいてこれらの値を更新することによって、もしくは現在の方策に従って(SARSA学習方法の場合)、または続く状態における最大評価関数に従って、実行される。
したがって、Q(oj(t),aj(t))を推定するために、先行技術から知られているQ学習およびSARSAなどのアルゴリズムが適用され得る。
現在の事例では、5Gシステムの複雑さにより、Q学習学習方法による行動の評価の関数は、図4に示される、DRQN(ディープ再帰型Qネットワーク)とも呼ばれる再帰型人工ニューラルネットワークによって近似される。
このDRQNネットワークは、時点tにおいて、観測ベクトルoj(t)、言い換えれば、先行する時点aj(t-1)において発せられた要求、基地局BSa(j)から受信されたこの要求に対応する応答ACKj(t-1)、この基地局のダウンリンクの容量Rj(t-1)、ならびにユーザのすべてのダウンリンクに対して計算されたネットワークの総容量R(t-1)を受信する入力層を含む。随意に、入力層は、基地局BSa(j)から受信された信号の電力レベルの測定値、ならびにユーザ機器ujが要求したデータ帯域幅をさらに受信する。
入力層の後、第1の複数の密に接続された隠れ層またはMLP(多層パーセプトロン)が続く。
出力層は、各基地局BSi∈Sjに与えられるサイズベクトルJ=Card(Sj)を提供し、行動関数の値は、関連付けに対するこの基地局の選定に対応する。実際問題として、出力層のニューロンの数は、事前に決定された値Jmaxに限定され、ネットワークのパラメータは、そこからユーザが同時にパイロット信号を受信し得るネットワークのセルの最大数に対応する。出力層は、第2の複数の密に接続された隠れ層(すなわち、MLP)に後続する。
第1および第2のパーセプトロンのニューロンは、それ自体知られている方法で線形正規化(linear rectification)タイプの活性化関数(ReLU)を使用し得る。
再帰型ニューラルネットワーク(RNN)、たとえば、先行技術から知られているLSTM(長短期メモリ)タイプのネットワークの層は、第1および第2のパーセプトロンの間に挿入される。そのようなLSTMニューラルネットワークは、従来、フィードフォーワードではないが、ネットワークがシーケンスに対して学習することを可能にするフィードバック接続、ならびに学習の時間範囲(temporal horizon)を指定することを可能にする忘却ゲート(forget gates)を有するという特殊性を有する。
トレーニングされると(たとえば、シミュレーションまたはオフラインによって)、ニューラルネットワークは、観測ベクトルoj(t)に基づいて、各可能な行動aに対する(言い換えれば、ユーザ機器ujが関連付けられることが可能なそれぞれの基地局BSi∈Sjに対する)行動価値Q(oj(t),a)の推定値を提供する。
事実上、再帰ネットワークは、フィードバックを可能にする内部レジスタを備える。再帰ネットワークは、状態機械と見なされてよく、時点tにおける機械の(隠れ)状態は、hj(t)と表記される、このレジスタの内容によって表され、ベクトルは、レジスタのサイズに等しい寸法を有する。その上、ニューラルネットワークのシナプス係数は、ベクトルの形態θjで合成的に表されると仮定される。以下で、表記Q(oj(t),a,hj(t-1)|θj)は、その結果、推定のこの依存関係を表すように採用されることになり、ベクトルhj(t-1)は、それが現時点における行動価値の計算に関連する、先行する時点におけるレジスタの内容であるという事実を表現する。
DRQNニューラルネットワークは、監督された方法でエピソードに対して、すなわち、UEujのローカルメモリMj(または、リプレイバッファ)内に記憶された実験のシーケンスej(t)、t=1、…、Tに対して、トレーニングされる。
トレーニングは、実験のセットMjに対する損失関数の予想値を最小化するパラメータのセットθjを求めることを目的とする:
式中、
は、予想値がセットMjに対してとられることを意味し、式中、oj(t),aj(t)は、実験ej(t)、1≦t<Tから生じ、式中、
であり、式中、yj(t)は、ニューラルネットワークによって達成されるべき行動価値のターゲットを表し、
は、確率的勾配アルゴリズム(SGD)によって最後に推定されたパラメータのセットを表す。
達成されるべきこの行動価値ターゲットは、観測oj(t)および実験ej(t)から引き出された行動aj(t)を考慮して、エージェントが受信し得る更新された報酬の最大和に他ならない。この値は行動aj(t)に続く報酬rj(t)の、また更新係数γによる影響を受ける、続く時点において計算された最大行動価値(すなわち、続く時点において更新された今後の最大報酬)の和であることが式(12)から実際に理解される。
原則として、損失関数の勾配の計算は、実験のセットMj(学習セット)に対して実行されず、そのような実験のミニバッチBj⊂Mjに対して実行され、このため、
と表記される。
損失関数:
は、したがって、ミニバッチに対して最小化され、式中、
は、予想値がミニバッチBjの実験のすべてに対してとられることを意味する。上付きの添え字としてbを有する値は、ミニバッチに対するものであり、セット全体Mjに対するものではない。具体的には、
である。
式(11)または(13)の括弧内の表現は、それぞれ、δjおよび
と表記される、行動価値の評価の関数のTD誤差として知られていることに留意されたい。損失関数の式(11)および(13)は、したがって、
になり、ミニバッチによる処理の場合、
である。
分散学習および協働学習(たとえば、MARL)の場合、学習の安定性は、正のTD誤差、すなわち、行動価値の増大をもたらす誤差に対する学習を優先することによって改善され得る。これを行うために、損失関数を歪めることによって学習に仮定が導入される:
式中、δj(t)>0である場合、wj=χ(また、それぞれ、
)であり、(また、それぞれ、
)であり、逆の場合、wj=β(また、それぞれ、
)であり、0<β χ≦1である。言い換えれば、TD誤差が正である場合、学習率はχであり、TD誤差が負である場合、学習率はβである。
学習は、「Human-level control through deep reinforcement learning」と題する、V.Mnihらによる論文、2015年2月26日、第158巻、529〜541頁で提案され、図5に示されるように、2つのニューラルネットワーク、すなわち、パラメータのセットの最適化のための第1のDRQNネットワーク、および、行動価値
のターゲットを計算するための、第1のDRQNネットワークと同じ構造を有する、ターゲットネットワークと呼ばれる第2のDRQNネットワークを使用することによって、パラメータのセットの安定性の点でさらに改善され得る。
図5は、図4のニューラルネットワークの学習方法のフローチャートを示す。
以下で、DRQNjは、パラメータのセットの最適化専用のニューラルネットワークを示し、DRQNjは、UEujに対する行動価値のターゲットの計算を担当するニューラルネットワークである。同様に、ネットワークDRQNjに対する値は、曲折アクセントを有する。ネットワークDRQNjおよびDRQNjは、同一構成を有し、パラメータのそれらのそれぞれのセットのみ異なる。
ステップ510において、メモリMj(リプレイバッファ)は、複数のエピソードに属する実験ej(t)によって初期化される。ネットワークDRQNjおよびDRQNjのパラメータθjおよび
のそれぞれのセット、ならびに行動価値Q(oj(t),a,hj(t-1)|θj)および
もやはり初期化される。次いで、第1のミニバッチがメモリMjから抽出される。
学習の収束を加速するために、パラメータの初期セットおよび/または初期行動価値がシミュレーションよって得られ、ユーザ機器のメモリ内に事前ロードされ得るか、またはネットワーク内へのユーザの承認中にネットワークのサーバからダウンロードされ得る。
520において、次いで、ミニバッチの実験
に対して反復ループが入力され、それぞれの反復はそのような実験に対応する。
ステップ530において、たとえば、εグリーディータイプの方策を通して、すなわち、確率εを用いたランダムな方法で、行動aが、さもなければ、確率1-εを用いた行動
が選定される。
ステップ540において、報酬
および続く観測
が記録
内で求められる。
ステップ550において、式(17)によって達成されるべき行動価値のターゲットが計算され、すなわち、
である。
ステップ560において、ミニバッチのすべての実験の処理の後、ミニバッチの様々な実験に対する二次差分
に基づいて、ネットワークDRQNjの損失関数(17-1)または(18-2)が計算される。
570において、ミニバッチの実験のパラメータθjに関して確率的勾配降下法が実行され、パラメータの新しいセット
が推論される。
580において、パラメータの新しいセット
がネットワークDRQNj内にロードされる。
最終的に、590において、新しいミニバッチがメモリMjから抽出され、ステップ520に戻る。
学習方法の終わりに(たとえば、損失関数の値に従って、停止基準を満たすとすぐに)、パラメータの最適なセット
が行動価値を推定するために利用可能になる。
DRQNネットワークがトレーニングされると、次いで、
によって定義される、グリーディー方策πjによるこのネットワークのJ個の出力に基づいて、関連付けを要求する対象である基地局BSiの選択が動作段階で得られ、
式中、oj(t)およびhj(t)は、ここでは、動作段階の時点tにおける観測およびDRQNネットワークの隠れ状態を表す。式(19)において、すべての可能な行動、この場合、基地局BSi∈Sjとの関連付けに対するすべての要求の中から最大引数が求められることが理解される。これは、ニューラルネットワークのすべての出力の中から、最大値に対応するものを求めることに相当する。
式中、oj(t)およびhj(t)は、ここでは、動作段階の時点tにおける観測およびDRQNネットワークの隠れ状態を表す。式(19)において、すべての可能な行動、この場合、基地局BSi∈Sjとの関連付けに対するすべての要求の中から最大引数が求められることが理解される。これは、ニューラルネットワークのすべての出力の中から、最大値に対応するものを求めることに相当する。
代替として、方策πjはεグリーディーであってよく、この場合、最適行動は、確率1-εを用いた(19)によって与えられ、確率εを用いた他の可能な行動からランダムに選定される。
確立εは、開始時に1に比較的近く選定されよく、次いで、方策が最後に所与の環境に対して準決定論的になるような方法で低値に向けて低減する。
学習方法は、オフラインで実行されてよく、必要な場合、環境の変動を考慮に入れるために動作段階中に実験ej(t)を記憶し続けることによってオンラインで完了されてよい。
上記で開示した学習方法の代替として、ステップ580において、パラメータの新しいセットが、K個の反復ごとにのみ、言い換えれば、K個の実験ごとにのみ、ロードされることが可能である。
図2に関して上記で説明した関連付け方法は、特に、行動価値が図4のDRQNネットワークなどのDRQNネットワークを使用して推定されるとき、ネットワークが経時的に展開するとき、たとえば、新しいユーザが承認されるか、ネットワークを去るとき、またはサービス品質に関するそれらのユーザの要求が異なるとき、良好なフレキシビリティを得ることを可能にする。このフレキシビリティは、DRQNネットワークの学習がオンラインで実行され、それにより、ネットワークDRQNj、j=1、…、Nuのシナプス係数、ならびに隠れ状態が経時的に変化するときに得られる。
しかしながら、このフレキシビリティは、本発明の第2の実施形態による関連付け方法を採用することによって、さらに改善され得る。
この実施形態では、ネットワークがN個の異なるタスクに直面することが仮定される。タスクは、様々なユーザに対するサービスのNuタプルに対応し得る。たとえば、5Gネットワークにおいて、所与の時点においてユーザによって要求されるサービスは、xMBBタイプ、URLLCタイプ、またはmMTCタイプのものであり得る。ユーザによって要求されるサービスは、たとえば、ネットワークとのリンク上の帯域幅またはレイテンシに関するサービス品質の制約のセットによって定義される。ユーザによって要求されるサービスは、時間およびユーザの位置に従って特に異なり得る。
は、ネットワークのタスクを表し、式中、
は、このタスクにおいてユーザjによって要求されるサービス、およびT={T(1),T(2)、…、T(N)}、すなわち、ネットワークが実行しなければならない可能性があるタスクのセットを表す。たとえば、
は、タスクnにおいてUEujによって要求される平均帯域幅であり得るか、または要求される平均帯域幅およびこのタスクにおけるユーザの位置からなる対であり得る。
ネットワークの各タスクは、様々なユーザに対する環境の分類を構成する。ユーザ機器ujの観点から、各タスク自体は、そのDRQNネットワークのパラメータの空間の異なるゾーン
として現れる。ユーザの環境は、所与のタスクに対して静的であると仮定される。
第2の実施形態は、arXiv:1511.06295v2,7出版、「Policy distillation」と題する、A.A.Rusuらによる論文、2016年1月に記述されたポリシー蒸留物(policy distillation)に依存する。
より正確には、図6は、本発明の第2の実施形態による、強化学習方法を使用した関連付け方法のフローチャートを示す。
第1の実施形態と同様に、関連付け方法は、各ユーザ、ここでは、UEujによって独立して実行される。
図2に関して説明したように、それにより、動作段階がトレーニングされたDRQNニューラルネットワークを使用して、UEが関連付けを要求する基地局を決定する学習部分のみが図に示されている。
学習部分は、それぞれ、図の右部分および左部分に対応する2つの段階を含む。
第1の段階において、図4に関して説明したのと同じ構造を有する、マスターニューラルネットワークと呼ばれるニューラルネットワーク
n=1、…、Nが、タスクT(n)、n=1、…、Nに対してそれぞれトレーニングされる。様々なタスクに対するこのトレーニングは、平行してまたは連続して実行され得る。示した例では、トレーニングは、反復ループによって連続して実行され、各反復は、Tの新しいタスクT(n)に対応する。
ステップ610で考慮される、それぞれの新しい反復T(n)に対して、マスターニューラルネットワーク
は、620において、このタスクの文脈で実行される実験ej(t)=(oj(t),aj(t),rj(t),0j(t+1))に基づいてトレーニングされ、これらの実験は、これらの実験が前に記憶されたメモリ
から読み取られる。ネットワークのトレーニングは、図5に関して説明したように実行され、言い換えれば、ニューラルネットワーク
は、行動価値Q(oj(t),aj(t))を推定するために、監督された方法でトレーニングされ、トレーニングの結果は、パラメータの最適セット
によって実現される。
ステップ630において、ニューラルネットワーク
は、メモリ
内に記憶された実験の観測に対する行動価値を推定する。より正確には、これらの推定
は、すべての可能な行動aに対して、すなわち、そこから、このタスクの文脈で関連付けが要求され得るすべての基地局BSi∈Sjに対して実行される。このため、これらはサイズのベクトル
と表記される。これらの推定は、SMjと表記される、タスクのすべてに共通のメモリ内に、観測ベクトルoj(t)に対して記憶される。学習タスクのシーケンスの終わりに、メモリSMjは、学習タスク自体が指定されずに、対
を包含する。
第2の段階において、スチューデントネットワークと呼ばれるニューラルネットワーク
は、マスターネットワーク
よりもかなり少ない内部層を有するという意味で、マスターネットワークの構造よりも潜在的にかなり単純な構造を有するニューラルネットワークが、640において、共通のメモリSMj内に記憶された学習データに基づいてトレーニングされる。より正確には、このトレーニングは、データ
に基づいて、監督された方法で実行され、oj(t)は、ネットワーク
の入力ベクトルであり、
は関連付けタグである。したがって、ニューラルネットワーク
は、マスターニューラルネットワークによって様々なタスクに従って前に蒸留された(distilled)データに対してトレーニングされることが理解される。
トレーニングされると、ニューラルネットワーク
は、動作段階において、所与の観測ベクトルに基づいて、様々な可能な行動に対する行動価値を推定し得る。第1の実施形態と同様に、ニューラルネットワーク
の出力における最大行動価値に対応する行動が次いで選択される。この行動は、そこからUEujが関連付けを要求することになる基地局BSi∈Sjの識別子を提供する。
Claims (12)
- ユーザ機器(UE)をセルラーネットワークの基地局に関連付けるための方法であって、マルチエージェント強化学習方法を実装し、エージェントが各ユーザ機器に関連付けられる方法において、
各ユーザ機器ujが、前記ユーザ機器ujの各々が位置するカバレッジ内の基地局のセットSjを決定し、
ユーザ機器に関連する各エージェントが、所与の時点におけるその環境の部分的観測(oj(t))に基づいて、複数の可能な行動の中からある行動(aj(t))を選択し、各可能な行動が、ユーザ機器を前記セットの基地局(BSi∈Sj)に関連付けるための要求に対応し、前記行動が、前記所与の時点において更新された、複数の今後の報酬の予想される和として計算される行動価値を最大化することを目的とする戦略(πj)に基づいて選択され、前記ユーザ機器が、そのように選択された前記行動に対応する関連付け要求を中央制御装置に送信し、
各基地局が、前記基地局が有している利用可能な送信リソースを考慮して、前記基地局が前記ユーザ機器から受信された前記関連付け要求のすべてを満たすことができるかどうかを決定し、否定的な場合、前記中央制御装置にそれを知らせ、
前記中央制御装置が、前記エージェントの前記行動に共通の報酬(r(t))を計算し、前記共通の報酬をすべての前記ユーザ機器(UE)にブロードキャストし、前記報酬は、前記基地局のうちの1つが、受信された前記関連付け要求のすべてを満たすことができるとは限らない場合、ゼロであり、さもなければ、前記ユーザ機器(UE)に提供される前記サービス品質を表す、前記ネットワークの効用関数によってとられる値に等しい
ことを特徴とする、方法。 - 前記ネットワークの前記効用関数U(t)が、前記ユーザ機器(UE)と前記ユーザ機器(UE)に関連付けられる前記基地局との間のダウンリンクの容量の和、または前記容量の対数の和に等しいことを特徴とする、請求項1に記載の、ユーザ機器(UE)をセルラーネットワークの基地局に関連付けるための方法。
- 前記セルラーネットワークが、マクロセルの層およびスモールセルの層からなる異種ネットワークであり、前記中央制御装置が、マクロセルの前記基地局内に位置することを特徴とする、請求項1から3のいずれか一項に記載の、ユーザ機器(UE)をセルラーネットワークの基地局に関連付けるための方法。
- 前記ユーザ機器ujに関連する前記エージェントは、所与の時点において前記環境oj(t)の観測のベクトルを入力において受信するとともに、前記セットSjの前記基地局に対応する様々な可能な行動に対する前記行動価値の予測を出力において提供する再帰型人工ニューラルネットワーク(DRQN)を介して、前記様々な可能な行動の前記行動価値を予測することを特徴とする、請求項1に記載の、ユーザ機器(UE)をセルラーネットワークの基地局に関連付けるための方法。
- 前記ニューラルネットワークが、入力層と、第1の複数の密に接続された層と、LSTM層と、第2の複数の密に接続された層と、出力層とを備えることを特徴とする、請求項5に記載の、ユーザ機器(UE)をセルラーネットワークの基地局に関連付けるための方法。
- 前記環境の観測の前記ベクトルが、先行する時点において前記ユーザ機器ujによって実行された前記行動aj(t-1)、前記関連付け要求が送信された前記基地局によって送り返された、前記関連付け要求に対する前記応答ACKj(t-1)、前記所与の時点tにおいて前記基地局から受信された電力の測定値RSSIj(t)、前記時点tにおいて前記モバイル端末が要求した帯域幅Dj(t)、前記先行する時点t-1における前記ダウンリンクの前記チャネル容量の推定値Rj(t-1)、および前記先行する時点における前記ユーザ機器の前記ダウンリンクの前記容量の前記和の推定値R(t-1)を含むことを特徴とする、請求項5または6に記載の、ユーザ機器(UE)をセルラーネットワークの基地局に関連付けるための方法。
- 再帰型ニューラルネットワークが、実験のセットej(t)=(oj(t),aj(t),rj(t),oj(t+1))に対してトレーニングされ、各実験が、エピソード{ej(t);t=1,…,T}に属し、実験が、前記所与の時点tにおける前記観測ベクトルoj(t)、前記時点において前記エージェントによって選択された前記行動aj(t)、前記行動の後で前記制御装置から受信された前記報酬、および続く時点における観測ベクトルoj(t+1)からなるクワドラプレットとして定義され、前記実験が、前記ユーザ機器ujのローカルメモリMj内に記憶されることを特徴とする、請求項5から7のいずれか一項に記載の、ユーザ機器(UE)をセルラーネットワークの基地局に関連付けるための方法。
- 前記セルラーネットワークが、複数のタスクT={T(1),T(2),…,T(N)}に直面し、各タスクは、前記様々なユーザ機器が要求したサービスのセットによって定義され
- 各マスターネットワークの前記トレーニングの終わりに、前記マスターネットワークが、前記マスターネットワークに関連する前記タスクの文脈で実行される前記実験から生じる前記行動ベクトルに対する前記行動価値
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1912906 | 2019-11-19 | ||
FR1912906A FR3103295B1 (fr) | 2019-11-19 | 2019-11-19 | Méthode d’association d’équipements d’utilisateurs dans un réseau cellulaire au moyen d’un apprentissage par renforcement multi-agent |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021083091A true JP2021083091A (ja) | 2021-05-27 |
Family
ID=70228107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020190845A Pending JP2021083091A (ja) | 2019-11-19 | 2020-11-17 | マルチエージェント強化学習を介してセルラーネットワークにおいてユーザ機器を関連付けるための方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11388732B2 (ja) |
EP (1) | EP3825919A1 (ja) |
JP (1) | JP2021083091A (ja) |
FR (1) | FR3103295B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102445733B1 (ko) * | 2022-01-12 | 2022-09-20 | 한화시스템(주) | 전술환경에서의 시스템 망 최적화 방법, 서버 및 시스템 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10671517B2 (en) * | 2017-12-15 | 2020-06-02 | International Business Machines Corporation | Generating mobile test sequences |
CN112910981B (zh) * | 2021-01-27 | 2022-07-26 | 联想(北京)有限公司 | 一种控制方法及装置 |
CN113381824B (zh) * | 2021-06-08 | 2023-01-31 | 清华大学 | 水声信道测量方法、装置、无人潜航器和存储介质 |
CN113423110B (zh) * | 2021-06-22 | 2022-04-12 | 东南大学 | 基于深度强化学习的多用户多信道动态频谱接入方法 |
CN113938415B (zh) * | 2021-09-09 | 2022-08-02 | 华中科技大学 | 一种基于链路状态估计的网络路由转发方法及系统 |
CN115086993A (zh) * | 2022-05-27 | 2022-09-20 | 西北工业大学 | 一种基于异构智能体强化学习的认知缓存优化方法 |
CN115065728B (zh) * | 2022-06-13 | 2023-12-08 | 福州大学 | 一种基于多策略强化学习的多目标内容存储方法 |
CN117651346A (zh) * | 2022-08-12 | 2024-03-05 | 华为技术有限公司 | 一种强化学习的训练方法及相关装置 |
CN116828534B (zh) * | 2023-06-06 | 2024-01-02 | 中电佰联通信科技南京有限公司 | 基于强化学习的密集网络大规模终端接入与资源分配方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014208389A1 (ja) * | 2013-06-27 | 2014-12-31 | ソニー株式会社 | 携帯端末装置、携帯端末装置の無線通信方法、事業者サーバ装置および事業者サーバ装置における通信速度制御方法 |
US11586974B2 (en) * | 2018-09-14 | 2023-02-21 | Honda Motor Co., Ltd. | System and method for multi-agent reinforcement learning in a multi-agent environment |
US11132608B2 (en) * | 2019-04-04 | 2021-09-28 | Cisco Technology, Inc. | Learning-based service migration in mobile edge computing |
-
2019
- 2019-11-19 FR FR1912906A patent/FR3103295B1/fr active Active
-
2020
- 2020-11-17 EP EP20207984.4A patent/EP3825919A1/fr active Pending
- 2020-11-17 US US17/099,922 patent/US11388732B2/en active Active
- 2020-11-17 JP JP2020190845A patent/JP2021083091A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102445733B1 (ko) * | 2022-01-12 | 2022-09-20 | 한화시스템(주) | 전술환경에서의 시스템 망 최적화 방법, 서버 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
US11388732B2 (en) | 2022-07-12 |
EP3825919A1 (fr) | 2021-05-26 |
US20210153219A1 (en) | 2021-05-20 |
FR3103295B1 (fr) | 2021-12-03 |
FR3103295A1 (fr) | 2021-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021083091A (ja) | マルチエージェント強化学習を介してセルラーネットワークにおいてユーザ機器を関連付けるための方法 | |
CN111666149B (zh) | 基于深度强化学习的超密边缘计算网络移动性管理方法 | |
Lei et al. | Deep reinforcement learning-based spectrum allocation in integrated access and backhaul networks | |
Wei et al. | Joint optimization of caching, computing, and radio resources for fog-enabled IoT using natural actor–critic deep reinforcement learning | |
Tan et al. | Deep reinforcement learning for joint channel selection and power control in D2D networks | |
da Costa et al. | Q-FANET: Improved Q-learning based routing protocol for FANETs | |
JP7279856B2 (ja) | 方法及び装置 | |
Afghah et al. | A coalition formation approach to coordinated task allocation in heterogeneous UAV networks | |
US11871251B2 (en) | Method of association of user equipment in a cellular network according to a transferable association policy | |
Arroyo-Valles et al. | A censoring strategy for decentralized estimation in energy-constrained adaptive diffusion networks | |
Alghamdi et al. | On the optimality of task offloading in mobile edge computing environments | |
Chua et al. | Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach | |
Xu et al. | Deep reinforcement learning based mobility load balancing under multiple behavior policies | |
Fontanesi et al. | A transfer learning approach for UAV path design with connectivity outage constraint | |
Volos et al. | Cognitive radio engine training | |
Li et al. | Edge-assisted spectrum sharing for freshness-aware industrial wireless networks: A learning-based approach | |
Alcaraz et al. | Online reinforcement learning for adaptive interference coordination | |
Wang et al. | Dynamic air-ground collaboration for multi-access edge computing | |
Gures et al. | A comparative study of machine learning-based load balancing in high-speed train system | |
Yang et al. | On sampling time maximization in wireless powered Internet of Things | |
Hariharan et al. | A multi-hop protocol using advanced multi-hop Dijkstras algorithm and tree based remote vector for wireless sensor network | |
WO2024207564A1 (zh) | 无线网络资源分配系统的构建方法和资源管理方法 | |
Ansarifard et al. | AI-based radio and computing resource allocation and path planning in NOMA NTNs: AoI minimization under CSI uncertainty | |
Lin et al. | Online task offloading in udn: A deep reinforcement learning approach with incomplete information | |
Giri et al. | Distributed dynamic spectrum access through multi-agent deep recurrent Q-learning in cognitive radio network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240826 |