JP5772345B2 - パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法 - Google Patents

パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法 Download PDF

Info

Publication number
JP5772345B2
JP5772345B2 JP2011162442A JP2011162442A JP5772345B2 JP 5772345 B2 JP5772345 B2 JP 5772345B2 JP 2011162442 A JP2011162442 A JP 2011162442A JP 2011162442 A JP2011162442 A JP 2011162442A JP 5772345 B2 JP5772345 B2 JP 5772345B2
Authority
JP
Japan
Prior art keywords
optimization
optimization process
agent program
value function
wireless communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011162442A
Other languages
English (en)
Other versions
JP2013026980A (ja
Inventor
祐治 小島
祐治 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011162442A priority Critical patent/JP5772345B2/ja
Priority to US13/523,373 priority patent/US9002757B2/en
Publication of JP2013026980A publication Critical patent/JP2013026980A/ja
Application granted granted Critical
Publication of JP5772345B2 publication Critical patent/JP5772345B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]

Description

本明細書で論じられる実施態様は、無線通信網の制御パラメータの設定に関する。
無線通信網における各機器の制御パラメータの自動最適化のために、SON(Self-Organizing Network)の適用が検討されている。SONの利用が検討されている無線通信網の規格の一例として、3GPP(Third Generation Partnership Project)で標準化しているLTE(Long Term Evolution)がある。
また、最適化アルゴリズムとして、機械学習(Machine learning)の一種である強化学習(Reinforcement Learning)が知られている。強化学習は、エージェント(agent)が、環境(environment)の状態変数を参照することにより環境との相互作用から学習して、最終的に受け取る報酬(reward)の総量を最大化するように、方策(policy)を改善する。
なお、環境に基づいて学習し且つ学習の結果に基づいて環境に対して働きかけるエージェント学習装置が知られている。このエージェント学習装置は、観測関数を通した観測変数として環境の状態を観測し、観測変数に基づいて環境を連続状態から離散状態へと抽象化する環境抽象化手段と、環境抽象化手段により抽象化された後の離散状態の中から、現在時刻において最も環境をよく抽象化している一の状態を指定するインデックスを決定する状態決定手段と、状態決定手段により決定された一の離散状態において学習を行うことで取るべき一の行動を指定するインデックスを決定する行動決定手段と、下位報酬として連続関数である複数の下位報酬関数の中から、状態決定手段により決定されたインデックスと、行動決定手段により決定されたインデックスとを有する一の下位報酬関数を選択する下位報酬選択手段と、下位報酬選択手段により選択された下位報酬関数を最大にするように環境への制御出力を決定し、制御出力を用いて環境に対して働きかける制御出力決定手段とを備える。
また、各々が1つ以上のユニットを有する入力層、中間層および出力層から構成され、各層間の結合に重みを持つ階層型ニューラルネットワークを用いてアクセス数を予測するアクセス予測方法が知られている。この方法では、過去のアクセス数を用いて、現在のアクセス数を予測した時点のニューラルネットワークの各ユニット値を計算し、現在のアクセス数から複数周期先のアクセス予測を行うことができるようにニューラルネットワークの各結合重みを更新し、ユニット値および結合重みを有するニューラルネットワークによって現在のアクセス数から複数周期先のアクセス数を予測する。
また、ネットワーク構成データ処理装置の学習処理監視装置が知られている。データ処理装置は、前段層からの1つ又は複数の入力とこの入力に対して乗算されるべき結合の重みとを受取って積和を得るとともに、得られた積和値を閾値関数によって変換して最終出力を得る基本ユニットを基本単位とし、複数個の基本ユニットを入力層とし、かつ複数個の基本ユニットを中間層として1つ又は複数段の中間層を備え、かつ1つ又は複数個の基本ユニットを出力層とし、入力層と最前段の中間層との間、中間層相互間、及び最終段の中間層と出力層との間で内部結合を構成するとともに、内部結合に対応して重みが設定されることで階層ネットワークを構成する。データ処理装置は、入力層の基本ユニットに対して複数の所定の入力信号を供給することで、出力層の基本ユニットからこの入力信号に対応する出力信号を得る出力信号導出手段と、出力信号導出手段により得られた各層ユニットの出力信号と学習パターン保持部に保持されている所の出力信号がとるべき値を指示する教師信号とを使い、2つの信号の不一致の大きさを表す誤差値を算出する誤差値算出手段と、誤差値算出手段により算出された誤差値の総和に基づいて算出することになる重みの更新量に従って、結合の重みを初期値から順次更新していくことで、誤差値の総和が所定の許容範囲に入ることになる重みの値を求めるよう処理する重み学習手段を備える。
特開2007−52589号公報 特開2000−122985号公報 特許第2732603号
無線通信網の制御パラメータの最適化に強化学習を使用する場合、エージェントにより参照される状態変数の数が増えると学習効率が低下する。開示の装置及び方法は、無線通信網の制御パラメータの最適化する強化学習の学習効率を向上することを目的とする。
装置の一観点によれば、無線通信網の状態変数に応じて無線通信網の制御パラメータを設定するパラメータ設定装置が与えられる。パラメータ設定装置は、制御パラメータを最適化する複数の最適化処理のうちいずれを実行するかを強化学習によって学習するプロセッサを備える。最適化処理は、強化学習の価値関数を定めるために使用される同じ状態変数に影響する最適化処理のグループ、又は制御パラメータが重複する最適化処理のグループを形成する。プロセッサは、各グループ毎に割り当てられた第1エージェントプログラムによって、グループ内の最適化処理のいずれを実行するかを決定するための第1価値関数を強化学習により学習する処理と、第1エージェントプログラムによって、第1価値関数に従い無線通信網の状態に応じてグループ内の最適化処理のいずれを実行するかを決定し、決定された最適化処理を起動する処理と、第2エージェントプログラムによって、無線通信網の制御パラメータを最適化する最適化処理のうち、第1価値関数に影響する最適化処理を実行するか否かを決定するための第2価値関数を強化学習により学習する処理と、第2エージェントプログラムによって、第2価値関数に従い無線通信網の状態に応じて第1価値関数に影響する最適化処理を実行するか否かを判断し、判断結果に従って最適化処理を起動する処理と、第2エージェントプログラムが最適化処理を起動するとき、第1エージェントプログラムによる最適化処理の起動を停止する処理を実行する。
コンピュータプログラムの一観点によれば、無線通信網の状態変数に応じて無線通信網の制御パラメータを設定するコンピュータプログラムが与えられる。コンピュータプログラムは、制御パラメータを最適化する複数の最適化処理のうちいずれを実行するかを強化学習によって学習する処理をコンピュータに実行させる。最適化処理は、強化学習の価値関数を定めるために使用される同じ状態変数に影響する最適化処理のグループ、又は制御パラメータが重複する最適化処理のグループを形成する。コンピュータプログラムは、各グループ毎に割り当てられた第1エージェントプログラムによって、グループ内の最適化処理のいずれを実行するかを決定するための第1価値関数を強化学習により学習する処理と、第1エージェントプログラムによって、第1価値関数に従い無線通信網の状態に応じてグループ内の最適化処理のいずれを実行するかを決定し、決定された最適化処理を起動する処理と、第2エージェントプログラムによって、無線通信網の制御パラメータを最適化する最適化処理のうち、第1価値関数に影響する最適化処理を実行するか否かを決定するための第2価値関数を強化学習により学習する処理と、第2エージェントプログラムによって、第2価値関数に従い無線通信網の状態に応じて第1価値関数に影響する最適化処理を実行するか否かを判断し、判断結果に従って最適化処理を起動する処理と、第2エージェントプログラムが最適化処理を起動するとき、第1エージェントプログラムによる最適化処理の起動を停止する処理と、をコンピュータに実行させる。
方法の一観点によれば、無線通信網の状態変数に応じて無線通信網の制御パラメータを設定するパラメータ設定方法が与えられる。パラメータ設定方法は、制御パラメータを最適化する複数の最適化処理を、複数の最適化処理のいずれを実行するかを学習する強化学習の価値関数を定めるために使用される同じ状態変数に影響する最適化処理のグループ、又は制御パラメータが重複する最適化処理のグループにグループ化する。パラメータ設定方法は、コンピュータに、各グループ毎に割り当てられた第1エージェントプログラムによって、グループ内の最適化処理のいずれを実行するかを決定するための第1価値関数を強化学習により学習する処理と、第1エージェントプログラムによって、第1価値関数に従い無線通信網の状態に応じてグループ内の最適化処理のいずれを実行するかを決定し、決定された最適化処理を起動する処理と、第2エージェントプログラムによって、無線通信網の制御パラメータを最適化する最適化処理のうち、第1価値関数に影響する最適化処理を実行するか否かを決定するための第2価値関数を強化学習により学習する処理と、第2エージェントプログラムによって、第2価値関数に従い無線通信網の状態に応じて第1価値関数に影響する最適化処理を実行するか否かを判断し、判断結果に従って最適化処理を起動する処理と、第2エージェントプログラムが最適化処理を起動するとき、第1エージェントプログラムによる最適化処理の起動を停止する処理を実行させる。
本件開示の装置又は方法によれば、無線通信網の制御パラメータの最適化する強化学習の学習効率が向上する。
通信システムの全体構成例を示す図である。 パラメータ設定装置のハードウエア構成の一例を示す図である。 強化学習のモデルの説明図である。 価値関数の一例の説明図である。 状態変数及び最適化処理の実施形態の第1例の説明図である。 各エージェントの処理のシーケンス図である。 下位層エージェントの処理の一例の説明図である。 上位層エージェントの処理の一例の説明図である。 状態変数及び最適化処理の実施形態の第2例の説明図である。 状態変数及び最適化処理の実施形態の第3例の説明図である。 状態変数及び最適化処理の実施形態の第4例の説明図である。
<1.ハードウエア構成>
以下、添付する図面を参照して本発明の実施例について説明する。図1は、通信システムの全体構成例を示す図である。通信システム1は、パラメータ設定装置2及び無線通信網3を備える。無線通信網3は、基地局装置4a〜4c及び移動局装置5a〜5cによって形成される。参照符号6a〜6cは、それぞれ基地局4a〜4cによってカバーされるセルを示している。なお、以下の説明において、基地局装置及び移動局装置をそれぞれ基地局及び移動局と表記することがある。また、以下の説明において、基地局4a〜4c、移動局5a〜5c及びセル6a〜6cを総称して、それぞれ「基地局4」、「移動局5」及び「セル6」と表記することがある。
パラメータ設定装置2は、基地局4及び移動局5から無線通信網3の状態を収集し、無線通信網3の状態に応じて基地局4及び移動局5を制御する制御パラメータを最適化する。無線通信網3の状態の収集と制御パラメータの送信のため、パラメータ設定装置2は基地局4と有線ネットワークによって接続されていてよい。パラメータ設定装置2は、制御パラメータを自動的に最適化するため制御手段として、複数のSONアプリケーション(SON Application)を備える。また、パラメータ設定装置2は、無線通信網3の状態に応じて適切なSONアプリケーションを選択して動作させるSONコントローラを備える。
続いて、パラメータ設定装置2の構成について説明する。図2は、パラメータ設定装置2のハードウエア構成の一例を示す図である。パラメータ設定装置2は、CPU10と、記憶装置11と、有線インタフェース12を備えるコンピュータである。なお、図2に示すハードウエア構成は、あくまでパラメータ設定装置2を実現する構成例の1つである。本明細書において後述する処理を実行するものであれば、他のどのようなハードウエア構成が採用されてもよい。
記憶装置11には、パラメータ設定プログラム14及びデータ15が記憶される。記憶部11は、ランダムアクセスメモリ(RAM: Random Access Memory)や、読み出し専用メモリ(ROM: Read Only Memory)や不揮発性メモリやハードディスクなどを記憶素子として含んでいてよい。CPU10は、記憶装置11に記憶されるパラメータ設定プログラム14を実行することにより、制御パラメータを設定するための後述の処理を実行する。有線インタフェース12は、基地局4との通信処理を行う。CPU10と、記憶装置11と、有線インタフェース12は、バス13で接続されている。
パラメータ設定装置2は、コンピュータに読み取り可能な可搬型記録媒体に記憶されたデータを読み取るための図示しないリムーバブルメディア読取部を備えていてもよい。リムーバブルメディア読み取り部は、例えばCD−ROMドライブ装置やDVD−ROMドライブ装置、フレキシブルディスクドライブ装置、CD−Rドライブ装置や、DVD−Rドライブ装置、MOドライブ装置、フラッシュメモリ装置へのアクセス装置であってよい。ある実施例では、パラメータ設定プログラム14はコンピュータ読み取り可能な可搬型記録媒体に格納されて頒布され、リムーバブルメディア読み取り部から記憶装置11にインストールされてよい。
他の実施例でパラメータ設定装置2は、ローカルエリアネットワーク(LAN)やインターネット等などのネットワークとの間でプログラムや各種データを入出力するネットワークインタフェースを備えていてもよい。パラメータ設定プログラム14は、ネットワークインタフェースを経由して記憶装置11にインストールされてもよい。
パラメータ設定プログラム14は、第1下位層エージェントプログラム21、第2下位層エージェントプログラム22、及び上位層エージェントプログラム23と、SONアプリケーションプログラム31〜36を備える。下位層エージェントプログラム21及び22は、第1エージェントプログラムの一例であり、上位層エージェントプログラム23は、第2エージェントプログラムの一例である。なお、以下の説明及び添付する図面においてエージェントプログラムを「エージェント」と表記することがある。
SONアプリケーションプログラム31〜36は、CPU10により実行されることにより、制御パラメータを自動的に最適化するSONアプリケーションとしてパラメータ設定装置2を動作させるコンピュータプログラムである。以下の説明及び添付する図面において、特に説明がない限り「SONアプリケーションプログラム」を「SONアプリケーション」と表記する。
SONアプリケーション31は、ICIC(セル間干渉調整: Inter Cell Interference Coordination)最適化を実施する。SONアプリケーション31は、干渉情報の収集周期の調整、及びエッジ/センタ間における無線リソース配分を最適化する。ICIC最適化は、セル6間の干渉に関する最適化処理である。
SONアプリケーション32は、各セルにおけるハンドオーバパラメータを最適化するMLB(モビリティロードバランス: Mobility Load Balance)を実施する。SONアプリケーション33は、呼受付閾値を最適化するAC(アドミッション制御: Admission Control)最適化を実施する。SONアプリケーション34は、接続中の呼の強制切断の要否の基準となる輻輳状態の判定閾値を最適化するCC(輻輳制御: Congestion Control)最適化を実施する。MLB、AC最適化及びCC最適化は、セル6間の負荷分散に関する最適化処理である。
SONアプリケーション35は、基地局4のアンテナのチルト及びアジマスの設定、並びに送信電力を最適化するCCO(カバレッジ及び容量の最適化: Coverage & Capacity Optimization)を実施する。SONアプリケーション36は、セル6の電波送信器の電源投入及び電源切断を最適化するES(エナジーセービング: Energy Saving)を実施する。CCO及びESは、セル6間の干渉及び負荷分散に影響する最適化処理である。
なお、上記列挙したSONアプリケーション31〜36の処理は、無線通信網3の制御パラメータを最適化する最適化処理の例示である。パラメータ設定装置2は、他の最適化処理を行うSONアプリケーションを備えてもよい。例えばパラメータ設定装置2は、MRO(モビリティロバストネス最適化:Mobility Robustness Optimization)、LLR(リンクレベル再送スキーム: Link level retransmission scheme)を行うSONアプリケーションを備えてもよい。また、例えばパラメータ設定装置2は、TAO(呼び出しエリア最適化: Tracking Areas Optimization)を行うSONアプリケーションを備えてもよい。
エージェント21〜23は、パラメータ設定装置2をSONコントローラとして動作させる。SONコントローラは、無線通信網3の状態に応じてSONアプリケーション31〜36の動作/不動作を制御し、SONアプリケーションを動作させる場合には、SONアプリケーション31〜36のうちいずれかを選択して動作させる。
エージェント21〜23は、無線通信網3の状態に応じて、SONアプリケーションの起動の要否及び起動させるSONアップリケーションを、強化学習によって学習する。強化学習に使用される価値関数41〜価値関数43が、データ15として記憶装置11に格納される。実施例のより良い理解のため、以下に、強化学習について説明する。
<2.強化学習の説明>
図3は、強化学習のモデルの説明図である。上述のとおり、強化学習は、エージェント100が、環境101との相互作用から学習して最終的に受け取る報酬rtの総量を最大化するように方策を改善する行程である。このような強化学習の例としては、例えばQ−Learningが挙げられる。エージェント100は、以下の手順(1)及び(2)で学習する。
(1)エ−ジェント100は、時刻tにおいて採るべき行動atを環境101の状態stに応じて選択する。
このとき、エ−ジェント100は、価値関数Q(s,a)に基づいて、状態stにおいて最大な報酬を得られる行動atをある確率で優先的に選択する。価値関数Q(s,a)の例を、図4に示す。価値関数Q(s,a)は、状態sで行動aをした場合の行動価値を示す。例えば、図4の例では、状態stの個々の構成要素である状態構成要素1の値が「1a」であり、状態構成要素2の値が「2a」であり、状態構成要素3の値が「3a」である場合に、行動「ac2」を実行する行動価値は「0.5」となる。
状態sの状態構成要素1〜3がそれぞれ「1a」、「2a」及び「3a」ならば、最も行動価値が高い行動は「ac1」である。例えば、εグリーディ方策が採用される場合には、最も行動価値が高い行動ac1を選択する確率は「1−ε+ε/|A(s)|」により定められ、それ以外の行動ac2を選択する確率は「ε/|A(s)|」により定められる。ここで、値「ε」は、0≦ε≦1の設定値であり、値「|A(s)|」は、状態sにおいてエージェント100が選択可能な行動の数である。例えば図4の例では、選択可能な行動の例はac1及びac2の2個である。
(2)エ−ジェント100の行動atにより、環境はst+1へ状態遷移し、その遷移に応じた報酬rtがエ−ジェント100に与えられる。エ−ジェント100は、報酬rtに応じて、価値関数Q(s,a)を更新する。これにより価値関数から導出する方策が改善される。例えば、エ−ジェント100は、以下のような数式に従いQ(s,a)を更新してよい。設定値「α」及び「γ」はそれぞれ学習率及び割引率である。
Figure 0005772345
なお、価値関数として、図4に示すテーブル形式の価値関数以外の関数も使用可能である。例えば、他の実施例は、価値関数Q(s,a)として、状態s及び行動aと、係数α1、α2、…を有する数式によって価値を算出する関数を使用してもよい。この場合にエージェント100は、報酬rtに応じて係数α1、α2、…を更新する。また、他の実施例では、εグリーディ方策に替えて他の方策を採用してもよい。他の実施例は、例えば、ソフトマックス法を採用してもよい。
<3.第1実施例>
次に、制御パラメータの設定に強化学習を適用した場合の実施態様について説明する。図5は、制御パラメータの設定に強化学習を適用した場合の実施態様の第1例の説明図の説明図である。
SONコントローラに強化学習を適用する場合には、エージェント21〜23は、無線通信網3の状態を「環境」の「状態」として入力し、複数のSONアプリケーションがそれぞれ実施する最適化処理のいずれかを「行動」として選択して出力する。エージェント21〜23に入力される無線通信網3の状態は、複数の異なる観点の無線通信網3の状態をそれぞれ示す複数の状態変数の値を組み合わせた値であってよい。無線通信網3の状態変数が、強化学習における無線通信網3の状態を形成するために使用される場合、状態変数を「状態構成要素」と表記することがある。ある実施例では、無線通信網3の状態は、複数の状態構成要素を離散化した値を組み合わせた値によって形成される。
また、エージェント21〜23は、無線通信網3の状態変数によって「報酬」を決定する。ある実施例では、無線通信網3の状態変数の値を重みづけスカラー化して算出する。状態変数が、強化学習における報酬を形成するために使用される場合には、状態変数を「報酬構成要素」と表記することがある。
本実施例では、第1下位層エージェント21は、時刻tにおいて無線通信網3の状態s1tを入力し、価値関数41に従い状態s1tに応じて行動a1tを出力する。また、行動a1tにより無線通信網3の状態が状態s1t+1へ状態遷移した場合に、状態遷移に応じた報酬r1t及び状態s1t+1に基づいて価値関数41を更新する。
行動a1tとして選択される最適化処理は、セル間干渉に関係する最適化処理であるICIC最適化である。第1下位層エージェント21は、行動a1tとしてICIC最適化を実行するか否かを判断する。ICICは、セル間の干渉情報を収集し、セルエッジに割り当てられている無線リソース及びセル中心に割り当てられている無線リソースのどちらに呼を割り当てるべきか判断し、判断結果に応じて無線リソースに呼を割り当てる。ICIC最適化により最適化される制御パラメータは、セル間の干渉情報の収集周期や、セルエッジ/セル中心間の無線リソース配分の設定である。
状態s1tを形成する状態構成要素は、(1)セルエッジ・スループット、(2)セルエッジ・パケット転送効率、及び(3)セルエッジ・干渉レベルである。また、報酬r1tの報酬構成要素はセル・スループットである。なお、前述の状態構成要素に付した括弧書きの数字は、図5の状態s1tに付して表記されているブロック内の数字に対応している。他の状態s2t及びs3t、並びに他の実施例についても同様に表記する。
第1下位層エージェント21の強化学習により期待される期待学習効果の一例は、次の通りである。例えば、セルエッジ・スループット、セルエッジ・パケット転送効率が悪く、セルエッジ・干渉レベルが高い場合には、第1下位層エージェント21は、干渉情報の収集周期が遅すぎると推定してICIC最適化を起動する。その結果、干渉情報の収集周期が短く調整され、干渉が低減することにより、報酬としてより高いセル・スループットが得られる。この期待学習効果の一例から分かるように、(1)セルエッジ・スループット、(2)セルエッジ・パケット転送効率、(3)セルエッジ・干渉レベルは、ICIC最適化を起動すべきか選択するために必要な状態構成要素である。
なお、上述の期待学習効果は一例であり、状態s1tと、選択される行動a1t及びその結果得られる報酬r1tとの間に存在する因果関係はこれに限られるものではない。第1下位層エージェント21は、予想されていない因果関係によって学習効果が生じる場合も含め、強化学習の処理によりある状態の下でより高い価値が得られるように最適化処理を学習することが可能である。他のエージェント22及び23における強化学習について以下に例示する期待学習効果においても同様である。
第2下位層エージェント22は、時刻tにおいて無線通信網3の状態s2tを入力し、価値関数42に従い状態s2tに応じて行動a2tを出力する。また、行動a2tにより無線通信網3の状態が状態s2t+1へ状態遷移した場合に、状態遷移に応じた報酬r2t及び状態s2t+1に基づいて価値関数42を更新する。
行動a2tとして選択される最適化処理は、セル6間の負荷分散に関係する最適化処理である、MLB、AC最適化及びCC最適化である。第2下位層エージェント22は、行動a2tとして、MLB、AC最適化及びCC最適化のいずれかを実行するか否かを決定し、いずれかを実行する場合には実行する処理を選択する。
MLBは、制御パラメータであるハンドオーバパラメータを最適化することによってセル間の負荷分散を実現する。MLBは、ハンドオーバパラメータを調整することで、あるセルへ移動局がハンドオーバしやすくしたり、しにくくしたりする。MLBにより最適化される制御パラメータは、ハンドオーバパラメータである。
ACは、セルの負荷が呼受付閾値まで上昇すると新規の呼を受け付けず、新規の呼に無線リソースを割り当てることを禁止する処理である。AC最適化は、ACに対する制御パラメータである呼受付閾値を最適化する。AC最適化により最適化される制御パラメータは、呼受付閾値である。
CCは、セルの負荷が輻輳状態まで上昇すると、優先度が低い順に接続中の既存の呼を強制的に切断する。CC最適化は、CCに対する制御パラメータである輻輳状態の判定閾値を最適化する。CC最適化の制御パラメータは、接続中の呼の強制切断を行うか否かを判断する基準となる輻輳状態の判定閾値である。このように、MLB、AC最適化及びCC最適化は、最適化される制御パラメータが相互に競合しない。
状態s2tを形成する状態構成要素は、(4)呼接続成功率、(5)呼損率、(6)無線リソース使用率、及び(7)隣接セル・無線リソース使用率であり。報酬r2tの算出に使用される報酬構成要素は、呼接続成功率、呼損率及び無線リソース使用率である。第2下位層エージェント22は、これら報酬構成要素を重みづけスカラー化することによって報酬r2tを算出する。ここで、重みづけスカラー化とは、例えば以下のようにして、複数の報酬構成要素を重み付け係数W1〜W3により重み付けした後にスカラー値に変換することである。
報酬r2t=W1×(呼接続成功率)+W2×(1−呼損率)
+W3×(1−無線リソース使用率)
第2下位層エージェント22の強化学習により期待される期待学習効果の一例は、次の通りである。例えば、無線リソース使用率が高く、隣接セル・無線リソース使用率が低い場合には、第2下位層エージェント22はMLBを起動して、セル間の負荷分散及び負荷低減を図る。結果として無線リソース使用率が下がり、より高い報酬が得られる。
また例えば、呼接続成功率が悪く、呼損率が過剰に良く、無線リソース使用率が高くない場合、第2下位層エージェント22は、セル6が新規呼を過剰に受付けないでいると推定してAC最適化を起動する。その結果、呼受付閾値が調整され、セル6が新規呼を受付けやすくなることにより、呼接続成功率が良くなってより高い報酬が得られる。
また例えば、呼接続成功率が悪く、呼損率が悪く、無線リソース使用率が高くない場合、第2下位層エージェント22は、セル6の負荷があまり高くない段階で輻輳状態と判断していると推定しCC最適化を起動する。その結果、輻輳状態の判定閾値が調整され、呼接続成功率及び呼損率が良くなって、より高い報酬が得られる。
この期待学習効果の一例から分かるように、(4)呼接続成功率、(5)呼損率、(6)無線リソース使用率、及び(7)隣接セル・無線リソース使用率は、MLB、AC最適化、CC最適化のどれを起動すべきか選択するため必要な状態構成要素である。
ここで、第1下位層エージェント21により起動される最適化処理と、第2下位層エージェント22により起動される最適化処理との関係について説明する。第1下位層エージェント21により起動されるICIC最適化の制御パラメータは、セル間の干渉情報の収集周期及びセルエッジ/セル中心間の無線リソース配分である。第2下位層エージェント22によって起動されるMLB、AC最適化、CC最適化の制御パラメータは、ハンドオーバパラメータ、呼受付閾値及び輻輳状態の判定閾値である。したがって、ICIC最適化と、MLB、AC最適化及びCC最適化との間では、制御パラメータは競合しない。
また、ICIC最適化を行動として選択する強化学習では、セル間干渉に関する指標であるセル・スループットが報酬構成要素として使用される。また、MLB、AC最適化及びCC最適化を行動として選択する強化学習では、セル6の負荷に関する指標である呼接続成功率、呼損率及び無線リソース使用率が報酬構成要素として使用される。このように、ICIC最適化を行動として選択する強化学習と、MLB、AC最適化及びCC最適化を行動として選択する強化学習との間では、一方の強化学習で選択される最適化処理の実施の結果が、他方の強化学習に使用する報酬構成要素に影響しない。したがって、第1下位層エージェント21は、第2下位層エージェント22による最適化処理の実行とは無関係にICIC最適化を実行することができる。
一方で、第2下位層エージェント22によって起動されるMLB、AC最適化、CC最適化の制御パラメータは、ハンドオーバパラメータ、呼受付閾値及び輻輳状態の判定閾値であるが、これらは互いに競合しない。
しかし、MLB、AC最適化及びCC最適化を選択する強化学習で使用される個々の報酬構成要素はセル6の負荷に関する指標であり、これらはいずれも、MLB、AC最適化及びCC最適化のどの結果にも影響を受ける。したがって、MLB、AC最適化及びCC最適化の選択に使用される価値関数は、セル6の負荷の変化に応じて変動する報酬に基づいて学習されるという共通の性質を有する。このため、これら最適化処理の1つの結果は、他の最適化処理の選択に使用される価値関数の学習にも影響する。
したがって、これらMLB、AC最適化及びCC最適化の中の複数の最適化処理を並行して同時に実行すると、一方の最適化処理の結果が他方の最適化処理の選択に使用される価値関数に影響を及ぼして行動価値の学習に誤りを生じる。したがって、本実施例は、MLB、AC最適化及びCC最適化を同一グループにグループ化する。そして、第2下位層エージェント22は、これらの最適化処理のいずれか1つを強化学習の行動として択一的に選択して実行する。
次に、上位層エージェント23が起動する最適化処理について説明する。上位層エージェント23は、時刻tにおいて、無線通信網3の状態s3tを入力し、価値関数43に従い状態s3tに応じて行動a3tを出力する。また、行動a3tにより無線通信網3の状態が状態s3t+1へ状態遷移した場合に、状態遷移に応じた報酬r3t及び状態s3t+1に基づいて価値関数43を更新する。
行動a3tとして選択される最適化処理は、セル6間の干渉及び負荷分散に関係する最適化処理であるCCO及びESである。下位層エージェント31は、行動a3tとして、CCO及びESのいずれかを実行するか否かを決定し及びいずれかを実行する場合には実行する処理を選択する。
CCOは、チルトやアジマス等のアンテナ設定及び送信電力を最適化することによって、最適化目的であるセルのカバレッジを最適化することにより、セル間の干渉の最小化とセル間の負荷分散を図る。CCOの制御パラメータは、チルトやアジマス等のアンテナ設定及び送信電力である。
ESは、セルの負荷が比較的低い場合にセルの電波送信器の電源を切断し、セルの負荷が比較的高い場合にセルの電波送信器の電源を投入することで、システムの省電力化を図る。ESの制御パラメータは、セルの電波送信器の電源の投入及び切断である。
状態s3tを構成する状態構成要素は、(8)セル・スループット、(9)セル平均パケット転送効率、(10)セル平均干渉レベル、(11)移動局分布、(12)エナジーセービングモード、(4)呼接続成功率、(5)呼損率、(6)無線リソース使用率、(7)隣接セル・無線リソース使用率である。また、報酬r3tの算出に使用される報酬構成要素は、セル・スループット、呼接続成功率、呼損率及び無線リソース使用率である。
上位層エージェント23の強化学習により期待される期待学習効果の一例は、次の通りである。例えば、エナジーセービングモードがオフ、つまり省電力のため、あるセル6の送信器の電源をオフしない状態で、呼接続成功率と呼損率が悪く、無線リソース使用率が高く、隣接セル・無線リソース使用率が低く、移動局がセル全体に一様に分布する場合を想定する。このとき上位層エージェント23はCCOを起動して、アンテナ設定及び送信電力の調整し、セルのカバレッジを変更することで、セル間の負荷分散及び負荷低減を図る。結果として、呼接続成功率及び呼損率が良くなり,無線リソース使用率が低くなることで、より高い報酬が得られる。
例えば、エナジーセービングモードがオンで、呼接続成功率、呼損率が悪く、無線リソース使用率が高かった場合は、上位層エージェント23はESを起動して、オフになっている電波送信器の電源をオンにする。結果として、呼接続成功率及び呼損率が良くなり,無線リソース使用率が低くなることで、より高い報酬が得られる。
また例えば、セルエッジに限らずセル全体のセル・スループット、セル・パケット転送効率が悪く、セル・干渉レベルが高い場合を想定する。この場合は、ICIC最適化は干渉を低減化できないが、CCOによる複数のセルのカバレッジの変更は干渉を低減できる。干渉が低減すれば、報酬としてより高いセル・スループットが得られる。したがって、セルエッジに限らずセル全体のセル・スループット、セル・パケット転送効率が悪く、セル・干渉レベルが高い場合には、上位層エージェント23はCCOを起動する。その結果、アンテナ設定及び送信電力が調整されてセルのカバレッジが変わることで、セル間の干渉が低減する。結果、セル・スループットが高くなり、より高い報酬が得られる。
この期待学習効果の一例から分かるように、(8)セル・スループット、(9)セル平均パケット転送効率、(10)セル平均干渉レベル、(11)移動局分布、(12)エナジーセービングモード、(4)呼接続成功率、(5)呼損率、(6)無線リソース使用率、(7)隣接セル・無線リソース使用率は、CCO及びESのどちらを起動すべきか選択するために必要な状態構成要素である。
ここで、下位層エージェント21及び22により起動される最適化処理と、上位層エージェント23により起動される最適化処理との関係について説明する。CCOやESは、移動網の状態にとって最も基本的なセルのカバレッジを変更する最適化処理である。カバレッジが変わると、セル間の干渉、及び、セルの負荷の状態も変更される。
ここで、第1下位層エージェント21が使用する価値関数41の学習では、セル・スループットが報酬として使用され、第2下位層エージェント22が使用する価値関数42の学習では、負荷の低減に応じて変化する報酬が使用される。したがって、上位層エージェント23と、下位層エージェント21及び22を同時に動作させると、上位層エージェントによる最適化処理が、価値関数41及び42の行動価値へ影響し、価値関数41及び42の学習に誤りを生じる。そこで、ここで開示する実施形態では、上位層エージェント23が最適化処理を起動するとき、上位層エージェント23は、下位層エージェント21及び22の動作を停止するように制御する。
続いて、各エージェント21〜23の処理を説明する。図6は、各エージェント21〜23の処理のシーケンス図である。なお、他の実施態様においては、下記のオペレーションを「ステップ」と読み替えてもよい。オペレーションAAにおいて第2下位層エージェント22は、MLB、AC最適化及びCC最適化のいずれかの最適化処理を起動する。最適化処理にかかる時間である最適化処理時間は、各最適化処理で異なる場合がある。
オペレーションABにおいて第1下位層エージェント21は、ICIC最適化を起動する。オペレーションACにおいて第2下位層エージェント22は、オペレーションAAで起動した最適化処理が終了したので、次の最適化処理を起動する。オペレーションADにおいて第1下位層エージェント21は、次の最適化処理を起動する。
オペレーションAEにおいて上位層エージェント23は、CCO及びESのいずれかの最適化処理を起動するために、最適化処理の起動停止指示を下位層エージェント21及び22へ送信する。下位層エージェント21及び22は、起動停止指示を受信しても、最適化処理の実行中にはすぐに動作を停止することはできない。
オペレーションAFにおいて第2下位層エージェント22は、最適化処理が終了した場合に、起動停止指示に対して、最適化処理が終了した旨を通知する応答を上位層エージェント23へ送信する。オペレーションAGで、第1下位層エージェント21は、最適化処理が終了した場合に、起動停止指示に対して、最適化処理が終了した旨を通知する応答を上位層エージェント23へ送信する。下位層エージェント21及び22からの応答をすべて受信した場合には、オペレーションAHにおいて上位層エージェント23は、CCO及びESのいずれかの最適化処理を起動する。
ある実施例では、下位層エージェント21及び22が起動停止指示に対して応答しなくてもよい。この場合、上位層エージェント23は、最も長い時間かかる最適化処理が下位層エージェントで実行中であったと想定し、その時間分待ってから最適化処理を起動する。下位層エージェント21及び22が起動停止指示に対して応答する実施例では、上位層エージェント23が下位層エージェントの最適化処理の終了を待つ時間を短縮化することで、最適化処理をより早く起動できるようにすることができる。
オペレーションAIにおいて上位層エージェント23は、起動停止の指示の解除を下位層エージェント21及び22へ送信する。下位層エージェント21及び22は、これを契機に、最適化処理の起動を再開する。
図7は、第1下位層エージェント21の処理の一例の説明図である。以下では、第1下位層エージェント21の処理について説明するが、第2下位層エージェント22の処理も同様である。
オペレーションBAにおいて第1下位層エージェント21は、無線通信網3の状態s1tを参照する。オペレーションBBにおいて第1下位層エージェント21は、オペレーションBAで参照した状態s1tに基づき、価値関数41を参照することにより行動a1tを選択する。
行動a1tとしてICIC最適化を実行することを選択した場合に第1下位層エージェント21は、オペレーションBCにおいてICIC最適化を起動する。オペレーションBDにおいて第1下位層エージェント21は、最適化処理を実行した後の無線通信網3の状態s1t+1を参照する。オペレーションBEにおいて第1下位層エージェント21は報酬r1tを決定する。
オペレーションBFにおいて第1下位層エージェント21は、報酬r1t及び現在の価値関数41の価値に基づき、価値関数41を更新する。オペレーションBGにおいて第1下位層エージェント21は、オペレーションBDで参照した状態s1t+1に基づき、価値関数41を参照し行動a1t+1を選択する。
オペレーションBHにおいて第1下位層エージェント21は、再び最適化処理を起動する前に、オペレーションBA〜BGまでの間に上位層エージェント23から起動停止の指示が送信されたか否かを判断する。指示が送信されている場合(オペレーションBH:Y)には、処理はオペレーションBKに進む。指示が送信されていない場合(オペレーションBH:N)には、処理はオペレーションBIに進む。
行動a1t+1としてICIC最適化の実行が選択されている場合には、オペレーションBIにおいて第1下位層エージェント21は、ICIC最適化を起動する。オペレーションBJにおいて第1下位層エージェント21は、ICIC最適化中に上位層エージェント23から起動停止の指示が送信されたか否かを判断する。送信されている場合(オペレーションBJ:Y)には、処理はオペレーションBNへ進む。送信されていない場合(オペレーションBJ:N)には、処理はオペレーションBDへ戻る。
オペレーションBNにおいて第1下位層エージェント21は、上位層エージェント23から起動停止の指示が送信されており、かつ最適化処理の実行中ではないので、最適化処理が終了した旨を通知する応答を上位層エージェント23へ応答する。その後、処理はオペレーションBDへ戻る。
オペレーションBNの後、上位層エージェント23から起動停止の指示の解除を受信しなければ、オペレーションBHの判断において第1下位層エージェント21は、起動停止の指示中である(オペレーションBH:Y)と判断する。その結果、処理はオペレーションBKへ進む。オペレーションBKにおいて第1下位層エージェント21は、既に、最適化処理の終了している旨の応答が通知されているかどうかチェックする。
最適化処理が終了している旨の応答が通知されている場合(オペレーションBK:Y)には、処理はオペレーションBMへ進む。応答が通知されていない場合(オペレーションBK:N)には、処理はオペレーションBLへ進む。オペレーションBLにおいて第1下位層エージェント21は、最適化処理が実行されていないので最適化処理が終了している旨の応答を送信する。その後処理はオペレーションBMへ進む。オペレーションBMにおいて第1下位層エージェント21は、起動停止の指示の解除が送信されるまで待つ。第1下位層エージェント21が解除をすると、処理はオペレーションBAに戻る。
図8は、上位層エージェント23の処理の一例の説明図である。オペレーションCAにおいて上位層エージェント23は、状態s3tを参照する。オペレーションCBにおいて上位層エージェント23は、オペレーションCAで参照した状態s3tに基づき、価値関数43を参照することにより行動a3tを選択する。なお、状態s3tを参照しても、最適化処理を起動するほど状態が悪くない場合には、行動a3tとして最適化処理を起動しないこともあり得る。従って、状態s3tを参照した場合に、常に上位層エージェント23は、最適化処理を起動するために下位層エージェント21及び22へ起動停止を指示するわけではない。
上位層エージェント23が最適化処理を起動する場合(オペレーションCB:Y)には、処理はオペレーションCCへ進む。上位層エージェント23が最適化処理を起動しない場合(オペレーションCB:N)には、処理はオペレーションCAへ戻る。オペレーションCCにおいて上位層エージェント23は、行動a3tとして選択した最適化処理を起動するために、起動停止の指示を下位層エージェント21及び22へ送信する。
オペレーションCDにおいて上位層エージェント23は、下位層エージェント21及び22からの動作停止の指示に対する応答をすべて受信するまで待つ。上位層エージェント23が応答をすべて受信すると、オペレーションCEにおいて上位層エージェント23は、最適化処理を起動する。最低化処理が終了すると、処理はオペレーションCFへ進む。
オペレーションCFにおいて上位層エージェント23は、状態s3t+1を参照する。オペレーションCGにおいて上位層エージェント23は、オペレーションCFで参照した報酬r3tを決定する。オペレーションCHにおいて上位層エージェント23は、起動停止の指示の解除を下位層エージェント21及び22へ送信する。オペレーションCIにおいて上位層エージェント23は、報酬r3t及び現在の価値関数43の価値に基づき、価値関数43を更新する。
オペレーションCJにおいて上位層エージェント23は、オペレーションCFで参照した状態s3t+1に基づき、価値関数43を参照することにより行動a3t+1を選択する。行動a3t+1として最適化処理を起動しないことを選択した場合(オペレーションCJ:N)には、処理はオペレーションCAへ戻る。行動a3t+1としていずれかの最適化処理を起動する場合(オペレーションCJ:Y)には、処理はオペレーションCKへ進む。オペレーションCK〜CMの処理は、それぞれオペレーションCC〜CEの処理と同様である。その後に処理は、オペレーションCFへ戻る。
本実施例では、複数の最適化処理から複数のグループを形成して、グループ毎に下位層エージェント21及び22が割り当てられる。各下位層エージェント21及び22は、割り当てられたグループの中から実行すべき最適化処理を強化学習により選択する。このため、各下位層エージェント21及び22は、無線通信網3の状態構成要素のうち、割り当てられたグループ内の最適化処理の選択の判断に必要な状態構成要素だけを参照すれば済むため価値関数の学習効率が向上する。
すなわち、図4に示す価値関数Q(s,a)から分かるように、状態構成要素が多いほどテーブルのエントリが多くなる。強化学習においてエージェントは、最大の価値の行動を常に選択するわけでなく、それ以外の行動についても比較的低い確率で試行する。この行為は探索と呼ばれるが、参照する状態構成要素の数が多いと、探索する選択枝が増加するため学習効率が悪くなる。本実施例は、最適化処理の選択の際に参照する状態構成要素を低減することにより、価値関数の学習効率を向上する。
また本実施例では、制御パラメータが重複する最適化処理毎に、又は強化学習の価値関数を定めるために使用される同じ報酬構成要素に影響する最適化処理毎に、最適化処理のグループが形成される。このようにグループを形成することにより、異なるグループに属する最適化処理同士は、制御パラメータが競合せず、かつ一方の最適化処理の結果が、他方の最適化処理を選択に使用する価値関数の学習に影響しない。このため、これらグループ内の最適化処理をそれぞれ選択する複数の下位層エージェント21及び22が独立して動作することができる。その結果、複数の最適化処理を並列に実行できるのでより早く制御パラメータを最適化できるようになる。
また本実施例では、複数の下位層エージェント21及び22にて行われる価値関数の学習の両方に影響する最適化処理を上位層エージェント23が起動する。そして、下位層エージェント21及び22が起動する最適化処理が実施されている間は、上位層エージェント23は最適化処理が起動しない。反対に、上位層エージェント23が起動する最適化処理が実施されている間は、下位層エージェント21及び22は最適化処理が起動しない。
したがって、複数の下位層エージェント21及び22による価値関数の学習に影響する最適化処理が存在する場合でも、この最適化処理によって下位層エージェント21及び22が誤って学習する不都合を回避することができる。また、この最適化処理を実施しない間における複数の下位層エージェント21及び22による最適化処理の並行起動を可能にすることにより、制御パラメータの最適化の迅速化に資する。
なお、本実施例のパラメータ設定装置2は、下位層エージェント21及び22、並びに上位層エージェント23を含む2階層構造を有する。しかしながら、より上位のエージェントにより起動される最適化処理が、より下位のエージェントが学習する価値関数に影響するという関係性を有する構造であれば、エージェントの階層は3階層以上であってもよい。
また本実施例では、下位層エージェント21及び22は、実行中の最適化処理が終了すると、上位層エージェント23からの起動停止の指示に対して、最適化処理が終了した旨の応答を通知する。これに対して、下位層エージェント21及び22が応答を送信しない実施例では、上位層エージェント23は、下位層エージェント21及び22が最も長い時間かかる最適化処理が下位層エージェントで実行中であったと仮定し、その時間分待ってから最適化処理を起動する。したがって、下位層エージェント21及び22が応答を通知することにより、上位層エージェント23が下位層エージェントの最適化処理の終了を待つ時間を短縮化することで、最適化処理をより早く起動できるようにすることができる。
<4.第2実施例>
続いて、他の実施例について説明する。図9は、エージェント21〜23により選択される最適化処理の態様の第2例の説明図である。本実施例にて第2下位層エージェント22により行動a2tとして選択される最適化処理は、MLB及びMROである。第2下位層エージェント22は、行動a2tとして、MLB及びMROのいずれかを実行するか否かを決定し及びいずれかを実行する場合には実行する処理を選択する。なお、第1下位層エージェント21及び上位層エージェント23の構成は第1実施例と同様である。
MROは、制御パラメータであるハンドオーバパラメータを最適化することによって、セル間のハンドオーバの成功率を上げる。ハンドオーバが失敗する例としては、ハンドオーバが早すぎる場合とハンドオーバが遅すぎる場合がある。ハンドオーバパラメータを調整することで、あるセルへ移動局がハンドオーバしやすくしたり、しにくくしたりすることができる。MLBの内容は上述の通りである。
状態s2tを形成する状態構成要素は、(6)無線リソース使用率、(7)隣接セル・無線リソース使用率及び(13)ハンドオーバ成功率である、また、報酬r2tの算出に使用される報酬構成要素は、無線リソース使用率、ハンドオーバ成功率である。
第2下位層エージェント22の強化学習により期待される期待学習効果の一例は、次の通りである。例えば、無線リソース使用率が高く、隣接セル・無線リソース使用率が低く、ハンドオーバ成功率が高い場合には、第2下位層エージェント22はMLBを起動して、セル間の負荷分散及び負荷低減を図る。その結果、無線リソース使用率が下がり、より高い報酬が得られる。
また例えば、ハンドオーバ成功率が低い場合には、下位層エージェント2はMROを起動して、ハンドオーバ成功率の向上を図る。ハンドオーバが失敗した移動局の呼は、一時的に切断されてしまうので、ハンドオーバの失敗は、その移動局の通信品質に大きく影響する、例えば、通話中に話が途切れてしまう可能性が生じる。したがって、ハンドオーバ成功率が低い場合には、ハンドオーバ成功率を向上させることを優先してハンドオーバパラメータの最適化を行う。また、そのような最適化が学習されるように、報酬構成要素のハンドオーバ成功率の重み付け係数を、無線リソース使用率の重み付け係数よりも大きな値とする。そのようにすれば、無線リソース使用率を下げてもハンドオーバ成功率を上げれば、報酬はより高くなる。
この期待学習効果の一例から分かるように、(6)無線リソース使用率、(7)隣接セル・無線リソース使用率及び(13)ハンドオーバ成功率は、MLB及びMROのいずれを起動すべきか選択するため必要な状態構成要素である。
これらMLB及びMROは、共にハンドオーバパラメータを制御パラメータとする最適化処理であるため、同時に実行しようとすると制御対象が競合する。一方で、第1下位層エージェント21により起動されるICIC最適化の制御パラメータは、セル間の干渉情報の収集周期及びセルエッジ/セル中心間の無線リソース配分であり、MLB及びMROの制御パラメータと競合しない。
したがって、本実施例は、MLB及びMROを同一グループにグループ化する。第2下位層エージェント22は、これらの最適化処理のいずれか1つを強化学習の行動として択一的に選択して実行する。また本実施例は、ICIC最適化により形成されるグループを、MLB及びMROが属するグループと異なるグループとしてグループ化する。第1下位層エージェント21は、これらのICIC最適化を実施するか否かを強化学習の行動として選択する。
本実施例によれば、MLB及びMROを行う強化学習においても、これらの最適化処理を他の最適化処理から独立して実施し、強化学習に必要な状態構成要素の数を低減することができる。
<5.第3実施例>
続いて、他の実施例について説明する。図10は、エージェント21〜23により選択される最適化処理の態様の第3例の説明図である。本実施例にて第2下位層エージェント22により行動a2tとして選択される最適化処理はLLRである。第2下位層エージェント22は、行動a2tとしてLLRを実行するか否かを判断する。なお、第1下位層エージェント21及び上位層エージェント23の構成は第1実施例と同様である。
第2下位層エージェント22が実行するLLRは、第1下位層エージェント21が実行するICIC最適化と制御パラメータが競合しない。また、ICIC最適化を行動として選択する強化学習と、LLRを行動として選択する強化学習との間では、一方の強化学習で選択される最適化処理の実施の結果が、他方の強化学習に使用する報酬構成要素に影響しない。したがって本実施例では、LLRは、ICIC最適化により形成されるグループと別グループを形成する。
LLRは、無線フレームの最大再送回数を最適化することで、データ転送遅延を抑えつつ、データ転送成功率の向上を図る。無線フレームを多く再送すれば、データ転送成功率は向上するが、その分、データ転送遅延は長くなる傾向となる。LLRは、データ転送遅延、平均再送回数、データ転送成功率の状態に応じて、データ転送遅延、データ転送成功率を最大化するように最大再送回数を最適化する。LLRの制御パラメータは、最大再送回数である。
状態s2tを形成する状態構成要素は、(14)データ転送遅延、(15)平均再送回数、(16)データ転送成功率である。また、報酬r2tの算出に使用される報酬構成要素は、データ転送遅延及びデータ転送成功率である。
一方で、上位層エージェント23によって実施されるCCOやESは、移動網の状態にとって最も基本的なセルのカバレッジを変更する。カバレッジが変わると、データ転送遅延及びデータ転送成功率の状態も変更されるため、CCOやESは、再送制御にも影響する。
第2下位層エージェント22の強化学習により期待される期待学習効果の一例は、次の通りである。データ転送遅延、平均再送回数が小さく、データ転送成功率が低い場合は、第2下位層エージェント22はLLRを起動する。LLRにより最大再送回数が増加することで、データ転送遅延及びデータ転送成功率が向上し、その結果、より高い報酬が得られる。また、データ転送成功率が高く、平均再送回数が大きく、データ転送遅延が大きい場合は、第2下位層エージェント22はLLRを起動する。LLRにより最大再送回数が減ることで、データ転送遅延及びデータ転送成功率が向上する。その結果、より高い報酬が得られる。
この期待学習効果の一例から分かるように、(14)データ転送遅延、(15)平均再送回数、(16)データ転送成功率は、LLRを起動すべき否かを判断するため必要な状態構成要素である。
本実施例によれば、LLRを行う強化学習においても、LLRを他の最適化処理から独立して実施し、強化学習に必要な状態構成要素の数を低減することができる。
<6.第4実施例>
続いて、他の実施例について説明する。図11は、エージェント21〜23により選択される最適化処理の態様の第4例の説明図である。本実施例にて第2下位層エージェント22により行動a2tとして選択される最適化処理はTAOである。第2下位層エージェント22は、行動a2tとして、TAOを実行するか否かを判断する。なお、第1下位層エージェント21及び上位層エージェント23の構成は第1実施例と同様である。
第2下位層エージェント22が実行するTAOは、第1下位層エージェント21が実行するICIC最適化と制御パラメータが競合しない。また、ICIC最適化を行動として選択する強化学習と、TAOを行動として選択する強化学習との間では、一方の強化学習で選択される最適化処理の実施の結果が、他方の強化学習に使用する報酬構成要素に影響しない。したがって本実施例では、LLRは、ICIC最適化により形成されるグループと別グループを形成する。
TAOは、呼び出しエリアの構成を最適化する。呼び出しエリアは、複数のセルによって構成され、省電力モード中の移動局は、呼び出しエリアをまたがって移動する場合に位置登録メッセージを基地局へ送信する。省電力モード中の移動局は、呼び出しエリアより、より細かい範囲であるセルをまたがる場合には位置登録メッセージを送信しないことによって電力消費を低減する。一方、基地局は、呼び出しエリアの単位で省電力モード中の移動局の位置を把握している。その移動局に、通話相手から通話の呼び出しがあった場合、移動局が位置する呼び出しエリアに属する全ての基地局が、その移動局に対し呼び出しメッセージを送信し、移動局は、呼び出しメッセージの受信を契機に通話のための呼を確立する。TAOは、呼び出しエリアの構成を最適化することで、位置登録メッセージ及びページングメッセージによるセル毎の負荷を分散し、無線リソース使用率を低下させる。TAOの制御パラメータは、呼び出しエリアの構成である。
状態s2tを形成する状態構成要素は、(17)位置登録メッセージの頻度及び(18)ページングメッセージの頻度である。また、報酬r2tの算出に使用される報酬構成要素は、無線リソース使用率である。
一方で、上位層エージェント23によって実施されるCCOやESは、移動網の状態にとって最も基本的なセルのカバレッジを変更する。カバレッジが変わると、セルの大きさが代わり呼び出しエリアの大きさも変更されるため、CCOやESは、呼び出しエリアの形成にも影響する。
第2下位層エージェント22の強化学習により期待される期待学習効果の一例は、次の通りである。例えば、ある呼び出しエリアの位置登録メッセージ頻度が高い場合、第2下位層エージェント22はTAOを起動し、呼び出しエリアの境界を変更する。この結果、位置登録メッセージの頻度が低下し無線リソース使用率が低下することにより、より高い報酬が得られる。
また、例えばある呼び出しエリアのページングメッセージの頻度が高い場合、第2下位層エージェント22はTAOを起動し、呼び出しエリアを分割する。この結果、位置登録メッセージの頻度が低下し無線リソース使用率が低下することにより、より高い報酬が得られる。
この期待学習効果の一例から分かるように、(17)位置登録メッセージの頻度及び(18)ページングメッセージの頻度は、TAOを起動すべき否かを判断するため必要な状態構成要素である。
本実施例によれば、TAOを行う強化学習においても、TAOを他の最適化処理から独立して実施し、強化学習に必要な状態構成要素の数を低減することができる。
以上の実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
無線通信網の状態変数に応じて該無線通信網の制御パラメータを設定するパラメータ設定装置であって、
前記制御パラメータを最適化する複数の最適化処理のうちいずれを実行するかを強化学習によって学習するプロセッサを備え、
前記最適化処理は、強化学習の価値関数を定めるために使用される同じ状態変数に影響する最適化処理のグループ、又は制御パラメータが重複する最適化処理のグループを形成し、
前記プロセッサは、
各前記グループ毎に割り当てられた第1エージェントプログラムによって、前記グループ内の最適化処理のいずれを実行するかを決定するための第1価値関数を強化学習により学習する処理と、
前記第1エージェントプログラムによって、前記第1価値関数に従い前記無線通信網の状態に応じて前記グループ内の最適化処理のいずれを実行するかを決定し、決定された最適化処理を起動する処理と、
第2エージェントプログラムによって、前記無線通信網の制御パラメータを最適化する最適化処理のうち、前記第1価値関数に影響する最適化処理を実行するか否かを決定するための第2価値関数を強化学習により学習する処理と、
前記第2エージェントプログラムによって、前記第2価値関数に従い前記無線通信網の状態に応じて前記第1価値関数に影響する最適化処理を実行するか否かを判断し、判断結果に従って最適化処理を起動する処理と、
前記第2エージェントプログラムが最適化処理を起動するとき、前記第1エージェントプログラムによる最適化処理の起動を停止する処理と、
を実行することを特徴とするパラメータ設定装置。
(付記2)
前記プロセッサは、
第2エージェントプログラムによって、第1エージェントによる最適化処理の起動を停止する起動停止指示を第1エージェントプログラムへ送信する処理と、
前記起動停止指示が受信された場合に、前記第1エージェントによって起動された最適化処理の終了を知らせる終了通知を、第1エージェントプログラムによって第2エージェントプログラムへ送信する処理と、
前記第2エージェントプログラムによって、前記終了通知が受信された後に最適化処理を起動する処理と、を実行することを特徴とする付記1に記載のパラメータ設定装置。
(付記3)
前記第1エージェントプログラムが起動する最適化処理は、セル間干渉に関する最適化処理であることを特徴とする付記1又は2に記載のパラメータ設定装置。
(付記4)
前記第1エージェントプログラムが起動する最適化処理は、基地局負荷に関する最適化処理であることを特徴とする付記1又は2に記載のパラメータ設定装置。
(付記5)
前記第1エージェントプログラムが起動する最適化処理は、ハンドオーバパラメータを変更する最適化処理であることを特徴とする付記1又は2に記載のパラメータ設定装置。
(付記6)
前記第1エージェントプログラムが起動する最適化処理は、再送制御に関する最適化処理であることを特徴とする付記1又は2に記載のパラメータ設定装置。
(付記7)
前記第1エージェントプログラムが起動する最適化処理は、呼び出しエリアの形成に関する最適化処理であることを特徴とする付記1又は2に記載のパラメータ設定装置。
(付記8)
前記第2エージェントプログラムが起動する最適化処理は、セル間干渉、基地局負荷、再送制御及び呼び出しエリアの形成の1以上に関係する最適化処理であることを特徴とする付記1〜7のいずれか一項に記載のパラメータ設定装置。
(付記9)
前記最適化処理のグループは、強化学習のための報酬を定める前記無線通信網の状態変数のうち共通の状態変数に影響を及ぼす最適化処理をグループ化することによって形成される付記1〜8のいずれか一項に記載のパラメータ設定装置。
(付記10)
前記第1エージェントプログラムは、前記無線通信網の状態変数のうち、該第1エージェントプログラムにより実行される最適化処理を実行するかを決定するのに必要な状態変数のみを参照して、前記第1価値関数の学習又は実行する最適化処理の選択を行い、
前記第2エージェントプログラムは、前記無線通信網の状態変数のうち、該第2エージェントプログラムにより実行される最適化処理を実行するかを決定するのに必要な状態変数のみを参照して、前記第2価値関数の学習又は最適化処理の実行要否の判断を行う、ことを特徴とする付記1〜9のいずれか一項に記載のパラメータ設定装置。
(付記11)
無線通信網の状態変数に応じて該無線通信網の制御パラメータを設定するコンピュータプログラムであって、
前記制御パラメータを最適化する複数の最適化処理のうちいずれを実行するかを強化学習によって学習する処理をコンピュータに実行させ、
前記最適化処理は、強化学習の価値関数を定めるために使用される同じ状態変数に影響する最適化処理のグループ、又は制御パラメータが重複する最適化処理のグループを形成し、
前記コンピュータプログラムは、
各前記グループ毎に割り当てられた第1エージェントプログラムによって、前記グループ内の最適化処理のいずれを実行するかを決定するための第1価値関数を強化学習により学習する処理と、
前記第1エージェントプログラムによって、前記第1価値関数に従い前記無線通信網の状態に応じて前記グループ内の最適化処理のいずれを実行するかを決定し、決定された最適化処理を起動する処理と、
第2エージェントプログラムによって、前記無線通信網の制御パラメータを最適化する最適化処理のうち、前記第1価値関数に影響する最適化処理を実行するか否かを決定するための第2価値関数を強化学習により学習する処理と、
前記第2エージェントプログラムによって、前記第2価値関数に従い前記無線通信網の状態に応じて前記第1価値関数に影響する最適化処理を実行するか否かを判断し、判断結果に従って最適化処理を起動する処理と、
前記第2エージェントプログラムが最適化処理を起動するとき、前記第1エージェントプログラムによる最適化処理の起動を停止する処理と、
をコンピュータに実行させることを特徴とするコンピュータプログラム。
(付記12)
無線通信網の状態変数に応じて該無線通信網の制御パラメータを設定するパラメータ設定方法であって、
前記制御パラメータを最適化する複数の最適化処理を、該複数の最適化処理のいずれを実行するかを学習する強化学習の価値関数を定めるために使用される同じ状態変数に影響する最適化処理のグループ、又は制御パラメータが重複する最適化処理のグループにグループ化し、
コンピュータに、
各前記グループ毎に割り当てられた第1エージェントプログラムによって、前記グループ内の最適化処理のいずれを実行するかを決定するための第1価値関数を強化学習により学習する処理と、
前記第1エージェントプログラムによって、前記第1価値関数に従い前記無線通信網の状態に応じて前記グループ内の最適化処理のいずれを実行するかを決定し、決定された最適化処理を起動する処理と、
第2エージェントプログラムによって、前記無線通信網の制御パラメータを最適化する最適化処理のうち、前記第1価値関数に影響する最適化処理を実行するか否かを決定するための第2価値関数を強化学習により学習する処理と、
前記第2エージェントプログラムによって、前記第2価値関数に従い前記無線通信網の状態に応じて前記第1価値関数に影響する最適化処理を実行するか否かを判断し、判断結果に従って最適化処理を起動する処理と、
前記第2エージェントプログラムが最適化処理を起動するとき、前記第1エージェントプログラムによる最適化処理の起動を停止する処理と、
を実行させることを特徴とするパラメータ設定方法。
1 通信システム
2 パラメータ設定装置
3 無線通信網
4 基地局装置
5 移動局装置
6 セル
10 CPU
11 記憶装置
14 パラメータ設定プログラム
21、22 下位層エージェント
23 上位層エージェント

Claims (11)

  1. 無線通信網の状態変数に応じて該無線通信網の制御パラメータを設定するパラメータ設定装置であって、
    前記制御パラメータを最適化する複数の最適化処理のうちいずれを実行するかを強化学習によって学習するプロセッサを備え、
    前記最適化処理は、強化学習の価値関数を定めるために使用される同じ状態変数に影響する最適化処理のグループ、又は制御パラメータが重複する最適化処理のグループを形成し、
    前記プロセッサは、
    各前記グループ毎に割り当てられた第1エージェントプログラムによって、前記グループ内の最適化処理のいずれを実行するかを決定するための第1価値関数を強化学習により学習する処理と、
    前記第1エージェントプログラムによって、前記第1価値関数に従い前記無線通信網の状態に応じて前記グループ内の最適化処理のいずれを実行するかを決定し、決定された最適化処理を起動する処理と、
    第2エージェントプログラムによって、前記無線通信網の制御パラメータを最適化する最適化処理のうち、前記第1価値関数に影響する最適化処理を実行するか否かを決定するための第2価値関数を強化学習により学習する処理と、
    前記第2エージェントプログラムによって、前記第2価値関数に従い前記無線通信網の状態に応じて前記第1価値関数に影響する最適化処理を実行するか否かを判断し、判断結果に従って最適化処理を起動する処理と、
    前記第2エージェントプログラムが最適化処理を起動するとき、前記第1エージェントプログラムによる最適化処理の起動を停止する処理と、
    を実行することを特徴とするパラメータ設定装置。
  2. 前記プロセッサは、
    第2エージェントプログラムによって、第1エージェントによる最適化処理の起動を停止する起動停止指示を第1エージェントプログラムへ送信する処理と、
    前記起動停止指示が受信された場合に、前記第1エージェントによって起動された最適化処理の終了を知らせる終了通知を、第1エージェントプログラムによって第2エージェントプログラムへ送信する処理と、
    前記第2エージェントプログラムによって、前記終了通知が受信された後に最適化処理を起動する処理と、を実行することを特徴とする請求項1に記載のパラメータ設定装置。
  3. 前記第1エージェントプログラムが起動する最適化処理は、セル間干渉に関する最適化処理であることを特徴とする請求項1又は2に記載のパラメータ設定装置。
  4. 前記第1エージェントプログラムが起動する最適化処理は、基地局負荷に関する最適化処理であることを特徴とする請求項1又は2に記載のパラメータ設定装置。
  5. 前記第1エージェントプログラムが起動する最適化処理は、ハンドオーバパラメータを変更する最適化処理であることを特徴とする請求項1又は2に記載のパラメータ設定装置。
  6. 前記第1エージェントプログラムが起動する最適化処理は、再送制御に関する最適化処理であることを特徴とする請求項1又は2に記載のパラメータ設定装置。
  7. 前記第1エージェントプログラムが起動する最適化処理は、呼び出しエリアの形成に関する最適化処理であることを特徴とする請求項1又は2に記載のパラメータ設定装置。
  8. 前記第2エージェントプログラムが起動する最適化処理は、セル間干渉、基地局負荷、再送制御及び呼び出しエリアの形成の1以上に関係する最適化処理であることを特徴とする請求項1〜7のいずれか一項に記載のパラメータ設定装置。
  9. 前記第1エージェントプログラムは、前記無線通信網の状態変数のうち、該第1エージェントプログラムにより実行される最適化処理を実行するかを決定するのに必要な状態変数のみを参照して、前記第1価値関数の学習又は実行する最適化処理の選択を行い、
    前記第2エージェントプログラムは、前記無線通信網の状態変数のうち、該第2エージェントプログラムにより実行される最適化処理を実行するかを決定するのに必要な状態変数のみを参照して、前記第2価値関数の学習又は最適化処理の実行要否の判断を行う、ことを特徴とする請求項1〜8のいずれか一項に記載のパラメータ設定装置。
  10. 無線通信網の状態変数に応じて該無線通信網の制御パラメータを設定するコンピュータプログラムであって、
    前記制御パラメータを最適化する複数の最適化処理のうちいずれを実行するかを強化学習によって学習する処理をコンピュータに実行させ、
    前記最適化処理は、強化学習の価値関数を定めるために使用される同じ状態変数に影響する最適化処理のグループ、又は制御パラメータが重複する最適化処理のグループを形成し、
    前記コンピュータプログラムは、
    各前記グループ毎に割り当てられた第1エージェントプログラムによって、前記グループ内の最適化処理のいずれを実行するかを決定するための第1価値関数を強化学習により学習する処理と、
    前記第1エージェントプログラムによって、前記第1価値関数に従い前記無線通信網の状態に応じて前記グループ内の最適化処理のいずれを実行するかを決定し、決定された最適化処理を起動する処理と、
    第2エージェントプログラムによって、前記無線通信網の制御パラメータを最適化する最適化処理のうち、前記第1価値関数に影響する最適化処理を実行するか否かを決定するための第2価値関数を強化学習により学習する処理と、
    前記第2エージェントプログラムによって、前記第2価値関数に従い前記無線通信網の状態に応じて前記第1価値関数に影響する最適化処理を実行するか否かを判断し、判断結果に従って最適化処理を起動する処理と、
    前記第2エージェントプログラムが最適化処理を起動するとき、前記第1エージェントプログラムによる最適化処理の起動を停止する処理と、
    をコンピュータに実行させることを特徴とするコンピュータプログラム。
  11. 無線通信網の状態変数に応じて該無線通信網の制御パラメータを設定するパラメータ設定方法であって、
    前記制御パラメータを最適化する複数の最適化処理を、該複数の最適化処理のいずれを実行するかを学習する強化学習の価値関数を定めるために使用される同じ状態変数に影響する最適化処理のグループ、又は制御パラメータが重複する最適化処理のグループにグループ化し、
    コンピュータに、
    各前記グループ毎に割り当てられた第1エージェントプログラムによって、前記グループ内の最適化処理のいずれを実行するかを決定するための第1価値関数を強化学習により学習する処理と、
    前記第1エージェントプログラムによって、前記第1価値関数に従い前記無線通信網の状態に応じて前記グループ内の最適化処理のいずれを実行するかを決定し、決定された最適化処理を起動する処理と、
    第2エージェントプログラムによって、前記無線通信網の制御パラメータを最適化する最適化処理のうち、前記第1価値関数に影響する最適化処理を実行するか否かを決定するための第2価値関数を強化学習により学習する処理と、
    前記第2エージェントプログラムによって、前記第2価値関数に従い前記無線通信網の状態に応じて前記第1価値関数に影響する最適化処理を実行するか否かを判断し、判断結果に従って最適化処理を起動する処理と、
    前記第2エージェントプログラムが最適化処理を起動するとき、前記第1エージェントプログラムによる最適化処理の起動を停止する処理と、
    を実行させることを特徴とするパラメータ設定方法。
JP2011162442A 2011-07-25 2011-07-25 パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法 Active JP5772345B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011162442A JP5772345B2 (ja) 2011-07-25 2011-07-25 パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法
US13/523,373 US9002757B2 (en) 2011-07-25 2012-06-14 Parameter setting apparatus, non-transitory medium storing computer program, and parameter setting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011162442A JP5772345B2 (ja) 2011-07-25 2011-07-25 パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法

Publications (2)

Publication Number Publication Date
JP2013026980A JP2013026980A (ja) 2013-02-04
JP5772345B2 true JP5772345B2 (ja) 2015-09-02

Family

ID=47598088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011162442A Active JP5772345B2 (ja) 2011-07-25 2011-07-25 パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法

Country Status (2)

Country Link
US (1) US9002757B2 (ja)
JP (1) JP5772345B2 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5772345B2 (ja) * 2011-07-25 2015-09-02 富士通株式会社 パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法
WO2013137785A1 (en) * 2012-03-13 2013-09-19 Telefonaktiebolaget L M Ericsson (Publ) Handover parameter range control
KR101428921B1 (ko) 2013-04-12 2014-09-25 한국과학기술원 다중 라디오 환경에서 기계학습을 이용한 적응형 전송 방법 및 장치
EP2986048B1 (en) * 2013-05-02 2020-02-26 Huawei Technologies Co., Ltd. Network optimization method, device and apparatus
CN105325027B (zh) * 2013-06-17 2019-04-26 日本电气株式会社 自组织网络所用的装置、方法、基站装置及其所用的方法
EP3780422A1 (en) 2014-02-21 2021-02-17 CommScope Technologies LLC Joint optimization of a radio access network and a distributed antenna system
KR101948732B1 (ko) * 2014-06-06 2019-02-15 노키아 솔루션스 앤드 네트웍스 오와이 페이징 메시지 커버리지 향상을 위한 제어 채널 송신
US9674793B2 (en) * 2014-12-09 2017-06-06 Cisco Technology, Inc. Walk-assisted automated AP coverage adjustment
US9622094B2 (en) * 2014-12-11 2017-04-11 P.I. Works Tr Bilisim Hizm. San. Ve Tic A.S. Self-optimizing communication network with criteria class-based functions
US10396919B1 (en) * 2017-05-12 2019-08-27 Virginia Tech Intellectual Properties, Inc. Processing of communications signals using machine learning
US10225772B2 (en) 2017-06-22 2019-03-05 At&T Intellectual Property I, L.P. Mobility management for wireless communication networks
CN110770761B (zh) * 2017-07-06 2022-07-22 华为技术有限公司 深度学习系统和方法以及使用深度学习的无线网络优化
US10375585B2 (en) 2017-07-06 2019-08-06 Futurwei Technologies, Inc. System and method for deep learning and wireless network optimization using deep learning
JP6640797B2 (ja) * 2017-07-31 2020-02-05 ファナック株式会社 無線中継器選択装置及び機械学習装置
EP3725046A1 (en) * 2017-12-13 2020-10-21 Telefonaktiebolaget Lm Ericsson (Publ) Methods in a telecommunications network
US11568236B2 (en) 2018-01-25 2023-01-31 The Research Foundation For The State University Of New York Framework and methods of diverse exploration for fast and safe policy improvement
JP7005872B2 (ja) * 2018-01-30 2022-01-24 株式会社竹中工務店 収斂計算支援装置、収斂計算支援方法、及び収斂計算支援プログラム
KR102457331B1 (ko) * 2018-03-07 2022-10-21 한국전자통신연구원 네트워크의 이동성 관련 파라미터를 최적화하는 방법 및 장치
JP6748135B2 (ja) * 2018-03-19 2020-08-26 ファナック株式会社 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
US20190042979A1 (en) * 2018-06-28 2019-02-07 Intel Corporation Thermal self-learning with reinforcement learning agent
EP3868149A1 (en) * 2018-10-18 2021-08-25 Telefonaktiebolaget LM Ericsson (publ) Link change decision-making using reinforcement learning based on tracked rewards and outcomes in a wireless communication system
WO2020121501A1 (ja) * 2018-12-13 2020-06-18 株式会社Nttドコモ ユーザ端末及び通信制御方法
JP2020171945A (ja) * 2019-04-11 2020-10-22 日本製鉄株式会社 溶鋼流動制御装置、溶鋼流動制御方法、およびプログラム
CN112188505A (zh) 2019-07-02 2021-01-05 中兴通讯股份有限公司 一种网络优化方法和装置
CN110461011B (zh) * 2019-07-08 2022-04-05 西安电子科技大学 一种基于意图驱动的均衡通信的负载信息处理方法
KR102124978B1 (ko) * 2019-07-31 2020-06-22 (주)크래프트테크놀로지스 증권 거래를 위한 주문 집행을 수행하는 서버 및 방법
US11363678B2 (en) 2019-08-16 2022-06-14 Commscope Technologies Llc Self-optimization of mobile networks using a distributed antenna system
US10939444B1 (en) * 2019-09-13 2021-03-02 Verizon Patent And Licensing Inc. Systems and methods for determining a mobility rating of a base station
WO2021064770A1 (ja) * 2019-09-30 2021-04-08 日本電気株式会社 システム、方法及び制御装置
US20220337489A1 (en) * 2019-09-30 2022-10-20 Nec Corporation Control apparatus, method, and system
US20220345376A1 (en) * 2019-09-30 2022-10-27 Nec Corporation System, method, and control apparatus
EP3835895A1 (en) * 2019-12-13 2021-06-16 Tata Consultancy Services Limited Multi-agent deep reinforcement learning for dynamically controlling electrical equipment in buildings
CN110996398A (zh) * 2019-12-16 2020-04-10 锐捷网络股份有限公司 一种无线网络资源调度方法及装置
JP7368725B2 (ja) 2020-01-10 2023-10-25 日本製鉄株式会社 溶鋼流動制御装置、溶鋼流動制御方法、およびプログラム
CN111246497B (zh) * 2020-04-10 2021-03-19 卓望信息技术(北京)有限公司 一种基于强化学习的天线调整方法
JP2023064836A (ja) * 2021-10-27 2023-05-12 セイコーグループ株式会社 通信装置、通信システム及び通信方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2732603B2 (ja) 1988-08-31 1998-03-30 富士通株式会社 ネットワーク構成データ処理装置の学習処理監視装置
JP2000122985A (ja) 1998-08-11 2000-04-28 Nippon Telegr & Teleph Corp <Ntt> アクセス予測方法および装置とアクセス負荷分散方法および装置と前記方法を実施するプログラムを記録した記録媒体
WO2005017707A2 (en) * 2003-08-14 2005-02-24 Telcordia Technologies, Inc. Auto-ip traffic optimization in mobile telecommunications systems
US7583645B2 (en) * 2004-09-01 2009-09-01 Intel Corporation Adaptive MAC architecture for wireless networks
JP4853997B2 (ja) 2005-08-17 2012-01-11 株式会社国際電気通信基礎技術研究所 エージェント学習装置、エージェント学習方法及びエージェント学習プログラム
JP4825270B2 (ja) * 2006-03-29 2011-11-30 インテル・コーポレーション 強化学習及び伝播によるネットワークプロトコルオプションの最適化
WO2009033500A1 (en) * 2007-09-14 2009-03-19 Nec Europe Ltd. Method and system for optimizing network performances
WO2009149600A1 (en) * 2008-06-13 2009-12-17 Huawei Technologies Co., Ltd. Method of load balancing in a mobile communications system
CN101873620B (zh) * 2009-04-22 2015-01-28 中兴通讯股份有限公司 小区间的重选参数和切换参数匹配的判断方法及装置
US8050191B2 (en) * 2009-05-26 2011-11-01 Motorola Mobility, Inc. Distributed information storage and retrieval of communication network performance data
US8326303B2 (en) * 2009-07-09 2012-12-04 Alcatel Lucent Method of determining wireless hand off parameters
CN102056336B (zh) * 2009-11-02 2013-01-09 华为技术有限公司 自组织操作的协调处理方法与装置、通信系统
US20120008510A1 (en) * 2010-01-07 2012-01-12 Interdigital Patent Holdings, Inc. Method and Apparatus for Performing Uplink Antenna Transmit Diversity
US8620341B2 (en) * 2010-04-12 2013-12-31 Fujitsu Limited Method and apparatus for adjusting bandwidth allocations in a wireless network
JP5457929B2 (ja) * 2010-04-26 2014-04-02 京セラ株式会社 無線通信システムのパラメータ調整方法および無線通信システム
KR20110119578A (ko) * 2010-04-27 2011-11-02 엘지에릭슨 주식회사 소형 기지국 및 그의 상향링크 전력제어 방법
CN102300278B (zh) * 2010-06-28 2016-03-30 中兴通讯股份有限公司 一种切换场景的判决方法及系统
US9113371B2 (en) * 2010-07-01 2015-08-18 The Hong Kong University Of Science And Technology Cross-layer optimization for next-generation WiFi systems
US9107096B2 (en) * 2010-09-08 2015-08-11 Nokia Solutions And Networks Oy Radio access parameter tuning
US20120195210A1 (en) * 2011-02-02 2012-08-02 Cisco Technology, Inc. System and method for coordinating femto interference in a network environment
JP5772345B2 (ja) * 2011-07-25 2015-09-02 富士通株式会社 パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法
WO2013020599A1 (en) * 2011-08-11 2013-02-14 Nokia Siemens Networks Oy Optimizing a handover behavior of a mobile radio communication network based on an extended report message comprising information about a performed handover
US8849207B2 (en) * 2011-09-20 2014-09-30 Telefonaktiebolaget L M Ericsson (Publ) Method, apparatus and system for choosing a parameter setting from a set of available parameter settings
JP5733166B2 (ja) * 2011-11-14 2015-06-10 富士通株式会社 パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法
KR20130063664A (ko) * 2011-12-07 2013-06-17 한국전자통신연구원 초소형 기지국 및 초소형 기지국의 자동 구성 네트워크 수행 방법
US9143984B2 (en) * 2012-04-13 2015-09-22 Intel Corporation Mapping of enhanced physical downlink control channels in a wireless communication network
US9060289B2 (en) * 2012-04-23 2015-06-16 Wildfire.Exchange, Inc. Interference management and network performance optimization in small cells
WO2013184719A1 (en) * 2012-06-04 2013-12-12 Eden Rock Communications, Llc Method & system for cellular network load balance
EP2672749A1 (en) * 2012-06-08 2013-12-11 Telefonaktiebolaget L M Ericsson AB (Publ) Self-organising network
US8805393B2 (en) * 2012-07-27 2014-08-12 Sony Corporation Dynamic adaptation of communication parameters for communication between a base station and a terminal in a wireless communication network
US9179384B2 (en) * 2012-09-26 2015-11-03 Alcatel Lucent Mobility robustness optimization based on reference signal strength maps

Also Published As

Publication number Publication date
JP2013026980A (ja) 2013-02-04
US20130031036A1 (en) 2013-01-31
US9002757B2 (en) 2015-04-07

Similar Documents

Publication Publication Date Title
JP5772345B2 (ja) パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法
US11201784B2 (en) Artificial intelligence-based networking method and device for fog radio access networks
JP7268047B2 (ja) 周波数間負荷バランスを最適化するための無線アクセスネットワークコントローラの方法およびシステム
JP6018225B2 (ja) ワイヤレス遠隔通信ネットワークにおいてセル構成パラメータを決定するための方法
KR101660351B1 (ko) 부하 밸런싱 방법 및 네트워크 제어 노드
RU2566742C1 (ru) Определение местоположения ue в соте
CN110139325B (zh) 一种网络参数调优方法及装置
JP5918437B2 (ja) 異種ネットワークでのalmostblanksubframeデューティ・サイクル適合
CN103987087B (zh) 一种移动负载均衡方法及装置
CN110612767A (zh) 用于在无线电接入网络中分配无线电资源的技术
KR20130023342A (ko) 무선 전기통신 네트워크에서 복수의 파라미터들을 설정하는 방법
CN103415041A (zh) 一种基站负载均衡的方法及装置
CN108112037A (zh) 基于雾计算和协作通信网络的负载均衡方法
Berardinelli et al. Hybrid radio resource management for 6G subnetwork crowds
WO2012109925A1 (zh) 控制用户设备进行测量的方法及系统
US20220330090A1 (en) Method for ai based load prediction
Raiyn Handoff self-management based on SNR in mobile communication networks
Kahraman et al. A novel channel handover strategy to improve the throughput in cognitive radio networks
CN105578453A (zh) 一种寻址方法及设备
CN116508346A (zh) 用于无线通信系统中负载平衡的装置和方法
Sumathi et al. User aware mobility management in cognitive radio cellular network
CN112243240B (zh) 小区调整方法、装置及无线智能控制器
CN105682143A (zh) 一种异构蜂窝网络下的负载转移方法及装置
KR20240047662A (ko) O-ran rf 채널 장치 및 기지국장치, 그 장치에서 수행되는 rf 채널 제어 방법
CN105830490B (zh) 一种无线资源优化管理的方法、集中控制器和设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150615

R150 Certificate of patent or registration of utility model

Ref document number: 5772345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150