JP7270914B2 - 無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム - Google Patents

無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム Download PDF

Info

Publication number
JP7270914B2
JP7270914B2 JP2020034683A JP2020034683A JP7270914B2 JP 7270914 B2 JP7270914 B2 JP 7270914B2 JP 2020034683 A JP2020034683 A JP 2020034683A JP 2020034683 A JP2020034683 A JP 2020034683A JP 7270914 B2 JP7270914 B2 JP 7270914B2
Authority
JP
Japan
Prior art keywords
wireless
radio
dqn
base station
ddqn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020034683A
Other languages
English (en)
Other versions
JP2021141356A (ja
Inventor
佳佑 若尾
憲一 河村
貴庸 守山
ヒランタ アベセカラ
泰司 鷹取
めぐみ 金子
ディン ティハーリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Inter University Research Institute Corp Research Organization of Information and Systems
Original Assignee
Nippon Telegraph and Telephone Corp
Inter University Research Institute Corp Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Inter University Research Institute Corp Research Organization of Information and Systems filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2020034683A priority Critical patent/JP7270914B2/ja
Publication of JP2021141356A publication Critical patent/JP2021141356A/ja
Application granted granted Critical
Publication of JP7270914B2 publication Critical patent/JP7270914B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Mobile Radio Communication Systems (AREA)

Description

本発明は、無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラムに関する。
現在、多様な無線通信システムが広く普及している。例えば、免許帯の無線通信システムであるセルラシステムは、現在第4世代の無線通信規格が商用化されており、径が大小のセルを組み合わせながら、移動無線端末を収容している。また、免許不要帯で普及している無線通信システムとしては、まず無線LANシステムが挙げられ、国内では2.4/5/60GHz帯の無線周波数を利用して数~数十mの径に存在する無線端末に対して広帯域な無線通信が提供されている。また、別の免許不要帯の無線通信システムとして挙げられるLPWA(Low Power Wide Area)は、数~数kmの広大な径に存在する無線端末に対して低消費電力で無線通信を提供できることから、モノのインターネットサービスを収容することに適している。
このように、多様な無線通信システムの中から、無線サービスの要求に応じて適した無線通信システムを選択できる無線通信環境が普及している。また、無線通信システム群のうち、大容量を目的としたものは、エリア容量増大のために無線基地局の高密度化が進んでいる。例えば、無線端末の周りに十分無線通信を実施できるほどの強い受信電力で検出される無線基地局が1台以上存在するような無線環境が増えている。
結果として、無線端末が選択できる無線アクセスの自由度は、無線通信システムの種類及び無線基地局台数の両面で、大きくなっている。この自由度を活かして、複数の無線アクセスに同時接続してロードバランシングやフレーム冗長送信を行う無線通信プロトコルが開発されている(例えば非特許文献1参照)。例えば、セルラ回線と無線LAN回線を同時に用いることにより、無線通信環境を安定化させることができる。
無線端末主導の自律分散制御によって無線仮想インターフェースの無線基地局帰属先制御を実施する構成は、制御演算処理の簡便さから有力な構成の1つである。しかしながら、この場合、従来技術では段階的に以下の3点の課題が生じる。
1点目の課題は、無線基地局での輻輳が生じやすいという点である。従来の技術では、無線通信伝送レート最大化の観点から、主に無線端末での受信電力が最大の無線基地局へ接続される。しかしながら、大容量を要する無線仮想インターフェースがある無線基地局の周りに集中している場合、該無線基地局の無線通信の最大伝送レートを超えて輻輳し、各無線仮想インターフェースの要求を満足できなくなる。
2点目の課題は、従来技術では、無線通信環境の安定性を考慮した無線通信制御アルゴリズムとはなっていないが、この場合に観測された無線通信環境を入力した時に、無線通信品質が劣化してしまう設定を出力してしまう可能性がある点である。例えば、1点目に挙げた課題を克服し、無線基地局の利用率の情報を収集する手段を具備して、無線端末がある時点についての適切な無線基地局を選択できるとする。しかしながら、観測された無線通信環境が瞬時的なものである場合、例えば、無線仮想インターフェースの出入りが激しい場合などに、該無線基地局は、一時的に当初の無線仮想インターフェースのトラヒックの収容には成功できるが、新たな無線仮想インターフェースが該無線基地局へ帰属してきた場合に、直ちに輻輳が生じる。
3点目の課題は、無線端末が収集する情報の状態数が膨大であり、統計的な手法で制御を実施する手法が適用できない点である。2点目の課題を克服するには、強化学習やパターンマッチングなどの統計的な制御手法により、情報収集によって取得された無線通信環境が安定なのか不安定なのか、各場合で各無線仮想インターフェースが帰属すべき無線基地局はいずれなのか、といった判断機能を経験的に取得するアプローチが有効となる。
しかしながら、上記制御手法では、いずれも無線通信環境を事前に離散化された状態として定義したうえで、現時点で取得された無線通信環境がどの状態に属するかを判定した後に、該状態における無線仮想インターフェースの適切な帰属先無線基地局を決定するという手順を踏む必要がある。一方で、信号の受信強度やトラヒックのデータレートなど、無線通信品質情報のほとんどは、連続値で定義される。よって、各数値の型でそのまま離散状態を定義してしまうと、あまりに膨大な状態数となり、状態の判定処理が収束しなくなるという課題がある。
特に、無線端末のインターフェース(IF)数、及び、接続先候補となる基地局台数が巨大な値となる場合、判定処理を収束させることが困難になる場合がある。
Atefeh Hajijamali Arani, 外4名, "Distributed Learning for Energy-Efficient Resource Management in Self-Organizing Heterogeneous Networks", IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY, OCTOBER 2017, VOL. 66, NO. 10, p.9287-9303
本発明は、無線基地局に対する無線端末の配置に偏りが生じても、通信品質の低下を効率的に抑えることができる無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラムを提供することを目的とする。
本発明の一態様にかかる無線通信制御方法は、複数の無線端末と複数の無線基地局とが行う無線通信を制御する無線通信制御方法において、前記無線基地局それぞれは、他の無線基地局と当該無線基地局に帰属する無線端末との間の無線通信品質、及び他の無線基地局における帰属する他の無線端末との間の無線通信品質に基づく品質測定情報を無線端末それぞれに通知する通知工程を実行し、前記無線端末それぞれは、通知された品質測定情報に基づいて、無線通信品質を離散的に表した状態と、無線基地局の無線インターフェースそれぞれに帰属する無線端末の組合せを表した行動との組合せごとに得られるQ値に対して報酬を算出する報酬算出工程と、過去の状態、行動、報酬、及び行動後の遷移先状態を記憶する記憶工程と、記憶した過去の状態、行動、報酬、及び行動後の遷移先状態に基づいて、前記Q値を出力するDQN又はDDQNのパラメータの更新を行うDQN/DDQN更新工程と、パラメータを更新したDQN又はDDQNが出力するQ値に基づいて、無線通信品質を向上可能な無線基地局の無線インターフェースのいずれかを新たな帰属先として選択する帰属情報を算出する帰属先算出工程と、算出した帰属情報に基づいて無線端末の帰属先を更新するように帰属情報を記録する帰属先記録工程とを実行することを特徴とする。
本発明の一態様にかかる無線通信システムは、複数の無線端末と複数の無線基地局とを備えた無線通信システムにおいて、前記無線基地局それぞれは、他の無線基地局と当該無線基地局に帰属する無線端末との間の無線通信品質、及び他の無線基地局における帰属する他の無線端末との間の無線通信品質に基づく品質測定情報を無線端末それぞれに通知する情報通知部を有し、前記無線端末それぞれは、通知された品質測定情報に基づいて、無線通信品質を離散的に表した状態と、無線基地局の無線インターフェースそれぞれに帰属する無線端末の組合せを表した行動との組合せごとに得られるQ値に対して報酬を算出する報酬算出部と、過去の状態、行動、報酬、及び行動後の遷移先状態を記憶する記憶部と、前記記憶部が記憶した過去の状態、行動、報酬、及び行動後の遷移先状態に基づいて、前記Q値を出力するDQN又はDDQNのパラメータの更新を行うDQN/DDQN更新部と、前記DQN/DDQN更新部がパラメータを更新したDQN又はDDQNが出力するQ値に基づいて、無線通信品質を向上可能な無線基地局の無線インターフェースのいずれかを新たな帰属先として選択する帰属情報を算出する帰属先算出部と、算出した帰属情報に基づいて無線端末の帰属先を更新するように帰属情報を記録する帰属先記録部とを有することを特徴とする。
本発明の一態様にかかる無線端末は、複数の無線基地局と無線通信を可能にされた無線端末において、複数の前記無線基地局から通知された複数の前記無線基地局に帰属する複数の無線端末との間の無線通信品質に基づく品質測定情報に基づいて、無線通信品質を離散的に表した状態と、無線基地局の無線インターフェースそれぞれに帰属する無線端末の組合せを表した行動との組合せごとに得られるQ値に対して報酬を算出する報酬算出部と、過去の状態、行動、報酬、及び行動後の遷移先状態を記憶する記憶部と、前記記憶部が記憶した過去の状態、行動、報酬、及び行動後の遷移先状態に基づいて、前記Q値を出力するDQN又はDDQNのパラメータの更新を行うDQN/DDQN更新部と、前記DQN/DDQN更新部がパラメータを更新したDQN又はDDQNが出力するQ値に基づいて、無線通信品質を向上可能な無線基地局の無線インターフェースのいずれかを新たな帰属先として選択する帰属情報を算出する帰属先算出部と、算出した帰属情報に基づいて当該無線端末の帰属先を更新するように帰属情報を記録する帰属先記録部とを有することを特徴とする。
本発明によれば、無線基地局に対する無線端末の配置に偏りが生じても、通信品質の低下を効率的に抑えることができる。
一実施形態にかかる無線通信システムの基本構成例を示す図である。 状態と行動との組合せごとに得られるQ値の概要を示す図である 多数の無線基地局が配置され、無線端末が多くのインターフェースを備えている無線通信システムの構成例を示す図である。 無線端末が備える記憶部が記憶する実績データを例示する図である。 無線端末が行うDQNのQ値の予測関数を示す図である。 無線端末が記憶していた上述の実績データを用いて予測関数を学習した場合の効果を模式的に示す図である。 一実施形態にかかる無線通信システムの具体的な構成例を示す図である。 無線通信システムにおける無線基地局が品質測定情報などの情報を互いに交換する情報交換経路を示す図である。 一実施形態にかかる無線基地局の構成例を示す図である。 一実施形態にかかる無線端末の構成例を示す図である。 無線通信システムにおける動作を示すための変数を示す図である。 (a)は、無線端末から無線基地局への接続要求を示す図である。(b)は、無線端末が無線基地局との接続を決定した状態を示す図である。 DQNの構成例を示す図である。 DDQNの構成例を示す図である。 DQN又はDDQNの更新処理を示す図である。 完全に割当てられたDQN又はDDQNにおける無線基地局から無線端末へのフィードバックを示す図である。 部分的に割当てられたDQN又はDDQNにおける無線基地局から無線端末へのフィードバックを示す図である。 一実施形態にかかる無線端末のハードウェア構成例を示す図である。
以下に、図面を用いて無線通信システムの一実施形態を説明する。図1は、一実施形態にかかる無線通信システム10の基本構成例を示す図である。図1に示すように、無線通信システム10は、例えば2台の無線基地局20及び無線端末30を有する。なお、無線基地局20及び無線端末30の台数は限定されない。
無線端末30は、第1の周波数帯で無線通信を行う第1インターフェース(IF)と、第2の周波数帯で無線通信を行う第2インターフェース(IF)とを備え、無線基地局20との間で無線通信を可能にさている。なお、無線端末30において、インターフェース(IF)の数は限定されない。
無線端末30は、過去の状態、行動、報酬、行動後の遷移先状態の実績データを蓄積する記憶部を備え、当該記憶部が記憶するデータを用いてDQN(Deep Q-Network)又はDDQN(Double DQN)によるQ値の予測関数を学習する。
具体的には、無線端末30は、(1)状態Sを検知し、(2)DQN又はDDQNが出力するQ値を参照して、(3)行動Aを実施し、(4)報酬γを無線基地局20から受信する一連の処理を複数回繰り返し実施する。
図2は、離散的な状態と行動との組合せごとに得られるQ値の概要をテーブル形式で示した図である。なお、本発明では、DQN又はDDQNの各出力が、状態と行動との各組合せに対応したQ値となるため、従来のQ学習で用いられるようなQテーブルは不要である。
状態は、現在の品質測定情報を離散的に表している。行動は、第1インターフェース又は第2インターフェースによる基地局への帰属先の組合せを示している。
そして、無線端末30は、(5)DQN又はDDQNのパラメータを例えば確率的勾配降下法等で更新して、再び(1)の処理に戻る。
無線通信システム10は、図3に示すように、多数の無線基地局20が配置され、無線端末30が多くのインターフェース(IF)を備えている場合には、無線端末30が、上述した処理に基づく状態、行動、報酬、行動後の遷移先状態の実績データを記憶部へ蓄積する。
図4は、無線端末30が備える記憶部が記憶する実績データを例示する図である。図4に示すように、無線端末30は、状態S、行動a、報酬γ、行動a後の遷移先状態s’の実績データを記憶部へ蓄積する。
そして、無線端末30は、DQN又はDDQNのパラメータの更新を行う。DQN(又はDDQN)は、状態情報を入力とし、各行動ごとに該当状態・行動に関するQ値を出力する予測関数を備え、無線端末30の記憶部が蓄積するデータに基づいて当該予測関数を学習する。
図5は、無線端末30が行うDQNのQ値の予測関数を示す図である。無線端末30は、記憶部が記憶した上述の実績データを用いて予測関数を学習する。
そして、無線端末30は、再び(1)の処理に戻る。
図6は、無線端末30が記憶していた上述の実績データを用いて予測関数を学習した場合の効果を模式的に示す図である。本発明ではQテーブルを使用しないが、図6では、従来のQ学習との違いをQテーブルにより示している。無線端末30は、DQN又はDDQNによりQテーブル1要素分(S,A)の更新処理を他の要素の更新へ波及させることにより、状態の判定処理の収束を高速化させることができる。
次に、一実施形態にかかる無線通信システム10のより具体的な構成について説明する。図7は、一実施形態にかかる無線通信システム10の具体的な構成例を示す図である。
図7に示すように、無線通信システム10は、複数の無線基地局20がネットワーク100に対してそれぞれスイッチ102を介して接続されている。ここで、無線基地局20それぞれは、ネットワーク100を介した有線通信経路によって互いに接続されている。また、無線基地局20は、無線通信によって他の無線基地局20との間で通信を行うことも可能にされている。
無線基地局20の周囲には、無線基地局20との間で無線通信を行う複数の無線端末30が位置している。無線端末30は、例えばRSSI(Received Signal Strength Indicator)の強度などの物理的な信号によって無線基地局20に対する帰属を決定する1つ以上の無線物理インターフェース、及び、受信信号を演算処理した結果に応じて無線基地局20に対する帰属を決定する1つ以上の無線仮想インターフェースのいずれかによって無線基地局20に接続される。無線仮想インターフェースは、例えば強化学習によって無線基地局20に対する無線端末30の帰属先を制御する。
ここで、無線端末30は、無線基地局20から通知される品質測定情報に基づいて、帰属する無線基地局20を選択する自律分散制御を行う。品質測定情報は、無線基地局20が帰属する無線端末30との間の無線通信品質を測定した情報と、他の無線基地局20における無線端末30との間の無線通信品質を測定した情報とを含むものとする。なお、無線端末30は、周辺の1つ以上の無線基地局20に対して帰属可能であり、遠方の無線基地局20に対しては帰属外となる。
図8は、無線通信システム10における無線基地局20が品質測定情報などの情報を互いに交換する情報交換経路を示す図である。図8において太矢印で示した情報交換経路は、有線区間(有線通信経路)と無線区間(無線通信経路)の2種類に分類される。有線区間では、スイッチ102及びネットワーク100を介して情報が交換される。無線区間には、無線基地局20が他の無線基地局20との間で無線通信を直接行う区間と、無線基地局20が無線端末30を介して他の無線基地局20と無線通信を行う区間とがある。つまり、無線端末30は、無線基地局20と他の無線基地局20との間の通信を中継することも可能にされている。
例えば、無線端末30が無線基地局20の相互の通信を中継しない場合には、無線基地局20は、自局が測定した品質測定情報を周囲の他の無線基地局20へ送信することにより、それぞれの品質測定情報を交換する。
また、無線端末30が無線基地局20の相互の通信を中継する場合には、無線基地局20は、自局が測定した品質測定情報を周囲の無線端末30へ通知する。そして、無線端末30は、通知された品質測定情報を周囲の他の無線基地局20へ通知する。無線端末30は、複数の無線通信アプリケーションを実行し、情報を中継する場合に無線通信規格(無線通信方式)を他の無線通信規格に変換し、他の無線通信規格で無線基地局に通知するように構成されてもよい。また、無線端末30及び無線基地局20は、互いに複数の無線通信規格によって無線通信を行う複数の無線通信アプリケーションを備え、品質測定情報が無線通信アプリケーションそれぞれにおける無線通信品質に基づくようにされてもよい。
図9は、一実施形態にかかる無線基地局20の構成例を示す図である。図9に示すように、無線基地局20は、アンテナ部21、無線通信部22、通信I/F部23、品質測定部24、情報通知部25、要求情報評価部26、要求応答通知部27及び帰属情報記録部28を有する。
無線基地局20は、アンテナ部21を介して所定の規格の電波を送受信し、無線通信部22が行う処理により、無線端末30及び他の無線基地局20との間で無線通信を行う。無線通信部22は、高周波(RF:Radio Frequency)の信号を処理するRF部220と、無線通信メディアアクセス制御(MAC)の機能を備えたMAC機能部222とを有する。通信I/F部23は、ネットワーク100(図7)などによって構成される有線区間を介して通信を行うインターフェースである。
品質測定部24は、無線環境測定部240及びトラヒック測定部242を有し、当該無線基地局20(自局)に帰属する無線端末30との間の無線通信品質を測定し、自局の無線通信品質に基づく品質測定情報を品質測定情報算出処理によって算出して取得する。無線環境測定部240は、無線通信の環境の測定を行い無線環境情報を取得する。トラヒック測定部242は、無線通信のトラヒックの測定を行いトラヒック情報を取得する。品質測定情報は、例えば無線環境情報及びトラヒック情報に基づいて算出される。また、品質測定情報は、無線通信における受信電力、要求データレート及び無線基地局の帯域の使用率を含んでもよい。
無線基地局20は、他の無線基地局20(他局)おいて帰属する無線端末30との間の無線通信品質を示す品質測定情報に関しては、通信I/F部23を介して有線区間の情報を取得し、無線通信部22を介して無線区間の情報を取得する。そして、品質測定部24は、自局及び他局から取得した品質測定情報を集約させる。
情報通知部25は、品質測定部24が集約させた品質測定情報を無線通信部22を介して無線端末30へ通知する。例えば、情報通知部25は、他の無線基地局20と当該無線基地局20に帰属する無線端末30との間の無線通信品質、及び他の無線基地局20における帰属する他の無線端末30との間の無線通信品質に基づく品質測定情報を無線端末30それぞれに通知する。
要求情報評価部26は、無線通信部22を介して無線端末30から後述する帰属要求を受けると、無線端末30の帰属の可否(帰属先の変更・更新の可否)を判断する。
要求応答通知部27は、要求情報評価部26が無線端末30の帰属先の更新を許可した場合、その旨を要求応答として無線端末30へ無線通信部22を介して通知する。
帰属情報記録部28は、要求情報評価部26が無線端末30の帰属先の更新を許可した場合、無線端末30の帰属先を管理する管理情報を更新して記録する。
図10は、無線端末30の構成例を示す図である。図10に示すように、無線端末30は、アンテナ部31、無線通信部32、制御情報算出部33、帰属先要求部34、帰属先記録部35、及び記憶部36を有する。
無線端末30は、アンテナ部31を介して所定の規格の電波を送受信し、無線通信部32が行う処理により、無線基地局20との間で無線通信を行う。無線通信部32は、高周波の信号を処理するRF部320と、無線通信メディアアクセス制御(MAC)の機能を備えたMAC機能部322とを有する。そして、無線端末30は、無線通信部32を介して無線基地局20が送信する品質測定情報を取得する。
制御情報算出部33は、状態算出部330、報酬算出部332、DQN/DDQN更新部334及び帰属先算出部336を有し、例えば強化学習を用いた無線仮想インターフェースによって無線基地局20への帰属先を制御する。
状態算出部330は、無線通信部32を介して品質測定情報を取得し、品質測定情報を離散的に表す”状態”を算出し、算出した”状態”を記憶部36に対して出力する。また、状態算出部330は、”行動”による”遷移先の状態”も算出し、算出した”遷移先の状態”を記憶部36に対して出力する。
報酬算出部332は、品質測定情報に基づく”報酬”を算出し、算出した”報酬”を記憶部36に対して出力する。例えば、報酬算出部332は、通知された品質測定情報に基づいて、無線通信品質を離散的に表した状態と、無線基地局20の無線インターフェースそれぞれに帰属する無線端末30の組合せを表した行動との組合せごとに得られるQ値に対して報酬を算出する。
DQN/DDQN更新部334は、DQN又はDDQNを備え、離散的な”状態”それぞれにおける”行動”が選択された場合のDQN又はDDQNのパラメータを保持・管理するとともに、DQN又はDDQNによって得られたQ値を帰属先算出部336に対して出力する。
そして、DQN/DDQN更新部334は、記憶部36が記憶した過去の”状態”、”行動”、”報酬”、及び行動後の”遷移先の状態”をランダムサンプリングして利用し、DQN又はDDQNのパラメータを更新(利得を補正)する。例えば、DQN/DDQN更新部334は、状態を入力とし、行動ごとにQ値を出力する予測関数を学習する。
なお、利得は、無線基地局20と無線端末30の間の無線通信におけるデータレート、要求データレート、平均パケットサイズ、及び無線基地局20の帯域使用率等に基づいて算出される。
帰属先算出部336は、DQN/DDQN更新部334が出力したQ値に基づいて帰属先算出処理を行い、無線通信品質を向上可能な無線基地局20の無線インターフェースのいずれかを新たな帰属先として選択する帰属情報を算出する。例えば、帰属先算出部336は、無線通信品質を高めるために最適な無線基地局20の無線インターフェースを新たな帰属先として選択する帰属情報を算出する。
帰属先要求部34は、帰属している無線基地局20の無線インターフェース、又は帰属先算出部336が算出した帰属情報により選択される無線基地局20の無線インターフェースなどに対し、帰属先を変更する許可を求める帰属要求を無線通信部32を介して通知する。
帰属先記録部35は、無線端末30が帰属先の更新を許可する要求応答を無線基地局20から受信した場合、帰属先算出部336が算出した帰属情報に基づいて帰属先を更新するように帰属情報を記録する。つまり、帰属先記録部35は、帰属先を管理する管理情報を帰属情報によって更新する。
次に、無線通信システム10が実行する無線通信制御アルゴリズム(無線通信制御方法)について説明する。
まず、無線端末30がある行動によって無線仮想インターフェースを無線基地局20に帰属させると、無線基地局20は、帰属している無線端末30及び周囲の無線端末30の無線仮想インターフェース群の現在の無線通信品質を測定し、自局の無線通信品質に基づく品質測定情報を品質測定情報算出処理によって算出する。
無線基地局20は、必要に応じて他の無線基地局20(他局)おいて帰属する無線端末30との間の無線通信品質を示す品質測定情報を取得するように情報交換を行い、自局及び他局から取得した品質測定情報を集約させる。
そして、無線基地局20は、集約させた品質測定情報を無線端末30へ通知する。
無線端末30は、通知された品質測定情報に基づいて、現在の状態と他の無線端末30へ与える報酬を算出する。報酬は、DQN/DDQN更新部334が管理するDQN又はDDQNのパラメータを補正する値である。
次に、無線通信システム10の動作について詳述する。なお、無線通信システム10における動作を示すために、ここでは図11に示された変数を用いる。
無線通信システム10は、無線端末k内のアプリケーションfの要求帯域Rkfを必要最低限にし、伝送レートを下式(1)に示すように最大化する。
Figure 0007270914000001
このとき、各無線端末k(ユーザk)の各アプリケーションにサービスを提供する無線基地局fの数は、下式(2)に示すように1である。
Figure 0007270914000002
また、各無線端末kが必要とする各アプリケーションの最小レート要件は、下式(3)によって表される。
Figure 0007270914000003
また、各無線端末kが必要とする各アプリケーションfと無線基地局bとの間の最大許容遅延は、下式(4)によって表される。
Figure 0007270914000004
また、無線基地局bの負荷φは、下式(5)のように抑制される。
Figure 0007270914000005
図12は、無線通信システム10の動作例を示す図である。図12(a)は、無線端末kから無線基地局bへの接続要求を示す図である。図12(b)は、無線端末kが無線基地局bとの接続を決定した状態を示す図である。
図12(a)において、状態s(t)は、現在の無線端末k(ユーザk)がアプリケーションの品質要件を満たして無線基地局bに時間tで接続していることを示しており、具体的には下式(6)によって表される。
Figure 0007270914000006
なお、状態Sの濃度は、下式(7)によって表され、(基地局台数×バンド数)^アプリケーション数となっている。ここでは、バンド数は、高周波及び低周波の2つである。
Figure 0007270914000007
また、行動a(t)は、無線端末kが無線基地局bに対してアプリケーションを実行するために時間tにおいて現在の状態で次に選択して要求する接続であり、具体的には下式(8),(9)によって表される。
Figure 0007270914000008
Figure 0007270914000009
なお、行動Aの濃度は、下式(10)によって表され、(基地局台数×バンド数)^アプリケーション数となっている。ここでは、バンド数は、高周波及び低周波の2つである。
Figure 0007270914000010
上述したように、無線端末kは、例えばDQN又はDDQNを用いて強化学習を行う機能を備えており、アプリケーションごとに接続要求を無線基地局bに対して行う。
図12(b)に示すように、無線基地局bは、無線端末kからのアプリケーションごとの品質要件を満たす接続要求に対し、無線端末kの位置及び無線基地局bの電波利用効率に基づいて、接続を許可する無線端末kを選択する。また、無線基地局bは、過負荷である場合には、最も負荷の重い無線端末kをドロップさせる。
そして、無線基地局bは、FB情報を用いて無線端末kからのアプリケーションごとの接続要求に対する可否を無線端末kへ応答する。
その後、無線端末kは、FB情報に基づいて下式(11),(12)によって表される報酬を算出し、DQN又はDDQNを更新させて強化学習を行い、新たな状態へ移行する。
Figure 0007270914000011
Figure 0007270914000012
図13は、DQNの構成例を示す図である。DQNは、状態s(t)を入力とし、行動a(t)ごとにQ値(s,a)を出力する予測関数を学習する。
具体的には、DQNは、要求アプリケーション数の入力層から、ソフトマックス関数を用いて各行動のQ値を算出し、Q値の最大値の集合を出力する。
図14は、DDQNの構成例を示す図である。DDQNは、DQN1と、mフレームの各間隔でウェイトをコピーしたDQN2とを備え、状態s(t)を入力とし、行動a(t)ごとにQ’値(s,a)を出力する予測関数を学習する。
図15は、DQN又はDDQNの更新処理を示す図である。まず、DQN又はDDQNは、状態s(t)を入力とし、行動a(t)を出力する。そして、DQN又はDDQNは、報酬Γ(t)を得て、記憶部36(図10)に状態s(t)、行動a(t)、報酬Γ(t)、及び遷移先の状態s(t+1)を記憶させる。
そして、DQNは、下式(13)によって表される損失関数を算出し、損失関数を最小化するようにウェイトwを更新する。
Figure 0007270914000013
DDQNの場合は、下式(14)によって表される損失関数を算出し、損失関数を最小化するようにウェイトwを更新する。
Figure 0007270914000014
なお、γは、割引率を示す。
次に、DQN又はDDQNによる学習の実施例について説明する。
図16は、完全に割当てられたDQN又はDDQNにおける無線基地局bから無線端末kへのフィードバック(FB)を示す図である。
ここでは、各無線端末k(ユーザk)は、自局からの要求のみに対する接続決定のフィードバックを取得するので、下式(15)によって示されるフィードバックΩは最小となる。
Figure 0007270914000015
このとき、アプリケーションの要求帯域Rkf未満の伝送レートに対するペナルティと、無線基地局bの過負荷に対するペナルティとを含む下式(16)によって表される情報が無線基地局bから無線端末kへ通知される。
Figure 0007270914000016
また、アプリケーションの許容遅延時間Tkfを超える遅延時間に対するペナルティと、無線基地局bの過負荷に対するペナルティとを含む下式(17)によって表される情報も無線基地局bから無線端末kへ通知される。
Figure 0007270914000017
図17は、部分的に割当てられたDQN又はDDQNにおける無線基地局bから無線端末kへのフィードバック(FB)を示す図である。
ここでは、各無線端末k(ユーザk)は、他の各無線端末kとの無線基地局bに対する負荷割合に応じて、下式(18)によって示されるフィードバックΩはいくらか増加する。
Figure 0007270914000018
なお、最小レート要件を規定されたアプリケーションに要求される負荷正規化係数N(t)と、遅延時間要件を伴うアプリケーションに要求される負荷正規化係数M(t)は、下式(19),(20)によって表される。
Figure 0007270914000019
Figure 0007270914000020
このとき、アプリケーションの要求帯域Rkf未満の伝送レートに対するペナルティと、無線基地局bの過負荷に対するペナルティとを含む下式(21)によって表される情報が無線基地局bから無線端末kへ通知される。
Figure 0007270914000021
また、アプリケーションの許容遅延時間Tkfを超える遅延時間に対するペナルティと、無線基地局bの過負荷に対するペナルティとを含む下式(22)によって表される情報も無線基地局bから無線端末kへ通知される。
Figure 0007270914000022
なお、無線基地局20及び無線端末30それぞれが有する各機能は、それぞれ一部又は全部がハードウェアによって構成されてもよいし、CPU等のプロセッサが実行するプログラムとして構成されてもよい。
すなわち、無線基地局20及び無線端末30は、それぞれコンピュータとプログラムを用いて実現することができ、プログラムを記憶媒体に記録することも、ネットワークを通して提供することも可能である。
図18は、無線端末30のハードウェア構成例を示す図である。図18に示すように、無線端末30は、例えば入力部70、出力部71、通信部72、CPU73、メモリ74及びHDD75がバス76を介して接続され、コンピュータとしての機能を備える。また、無線端末30は、記憶媒体77との間でデータを入出力することができるようにされている。
入力部70は、例えばキーボード等である。出力部71は、例えばディスプレイなどの表示装置である。通信部72は、例えば無線のネットワークインターフェースである。
CPU73は、無線端末30を構成する各部を制御し、上述した計算等を行う。メモリ74及びHDD75は、データ等を記憶する。記憶媒体77は、無線端末30が有する機能を実行させる無線通信プログラム等を記憶可能にされている。なお、無線端末30を構成するアーキテクチャは図18に示した例に限定されない。また、無線基地局20も無線端末30と同様のハードウェア構成を有する。
このように、実施形態にかかる無線通信システム10は、DQN又はDDQNによるQ値の更新を行うので、無線基地局に対する無線端末の配置に偏りが生じても、通信品質の低下を効率的に抑えることができる。
また、無線通信システム10は、DQN又はDDQNにより従来のQ学習におけるQテーブル1要素分の更新処理を他の要素の更新へ波及させることを可能とするので、従来よりも状態の判定処理の収束を高速化させることができる。
10・・・無線通信システム、20・・・無線基地局、22・・・無線通信部、23・・・通信I/F部、24・・・品質測定部、25・・・情報通知部、26・・・要求情報評価部、27・・・要求応答通知部、28・・・帰属情報記録部、30・・・無線端末、32・・・無線通信部、33・・・制御情報算出部、34・・・帰属先要求部、35・・・帰属先記録部、36・・・記憶部、70・・・入力部、71・・・出力部、72・・・通信部、73・・・CPU、74・・・メモリ、75・・・HDD、76・・・バス、77・・・記憶媒体、100・・・ネットワーク、330・・・状態算出部、332・・・報酬算出部、334・・・DQN/DDQN更新部、336・・・帰属先算出部

Claims (7)

  1. 複数の無線端末と複数の無線基地局とが行う無線通信を制御する無線通信制御方法において、
    前記無線基地局それぞれは、
    他の無線基地局と当該無線基地局に帰属する無線端末との間の無線通信品質、及び他の無線基地局における帰属する他の無線端末との間の無線通信品質に基づく品質測定情報を無線端末それぞれに通知する通知工程
    を実行し、
    前記無線端末それぞれは、
    通知された品質測定情報に基づいて、無線通信品質を離散的に表した状態と、無線基地局の無線インターフェースそれぞれに帰属する無線端末の組合せを表した行動との組合せごとに得られるQ値に対して報酬を算出する報酬算出工程と、
    過去の状態、行動、報酬、及び行動後の遷移先状態を記憶する記憶工程と、
    記憶した過去の状態、行動、報酬、及び行動後の遷移先状態に基づいて、前記Q値を出力するDQN又はDDQNのパラメータの更新を行うDQN/DDQN更新工程と、
    パラメータを更新したDQN又はDDQNが出力するQ値に基づいて、無線通信品質を向上可能な無線基地局の無線インターフェースのいずれかを新たな帰属先として選択する帰属情報を算出する帰属先算出工程と、
    算出した帰属情報に基づいて無線端末の帰属先を更新するように帰属情報を記録する帰属先記録工程と
    実行することを特徴とする無線通信制御方法。
  2. 前記DQN/DDQN更新工程では、
    状態を入力とし、行動ごとにQ値を出力する予測関数を学習すること
    を特徴とする請求項1に記載の無線通信制御方法。
  3. 複数の無線端末と複数の無線基地局とを備えた無線通信システムにおいて、
    前記無線基地局それぞれは、
    他の無線基地局と当該無線基地局に帰属する無線端末との間の無線通信品質、及び他の無線基地局における帰属する他の無線端末との間の無線通信品質に基づく品質測定情報を無線端末それぞれに通知する情報通知部
    を有し、
    前記無線端末それぞれは、
    通知された品質測定情報に基づいて、無線通信品質を離散的に表した状態と、無線基地局の無線インターフェースそれぞれに帰属する無線端末の組合せを表した行動との組合せごとに得られるQ値に対して報酬を算出する報酬算出部と、
    過去の状態、行動、報酬、及び行動後の遷移先状態を記憶する記憶部と、
    前記記憶部が記憶した過去の状態、行動、報酬、及び行動後の遷移先状態に基づいて、前記Q値を出力するDQN又はDDQNのパラメータの更新を行うDQN/DDQN更新部と、
    前記DQN/DDQN更新部がパラメータを更新したDQN又はDDQNが出力するQ値に基づいて、無線通信品質を向上可能な無線基地局の無線インターフェースのいずれかを新たな帰属先として選択する帰属情報を算出する帰属先算出部と、
    算出した帰属情報に基づいて無線端末の帰属先を更新するように帰属情報を記録する帰属先記録部と
    を有することを特徴とする無線通信システム。
  4. 前記DQN/DDQN更新部は、
    状態を入力とし、行動ごとにQ値を出力する予測関数を学習すること
    を特徴とする請求項3に記載の無線通信システム。
  5. 複数の無線基地局と無線通信を可能にされた無線端末において、
    複数の前記無線基地局から通知された複数の前記無線基地局に帰属する複数の無線端末との間の無線通信品質に基づく品質測定情報に基づいて、無線通信品質を離散的に表した状態と、無線基地局の無線インターフェースそれぞれに帰属する無線端末の組合せを表した行動との組合せごとに得られるQ値に対して報酬を算出する報酬算出部と、
    過去の状態、行動、報酬、及び行動後の遷移先状態を記憶する記憶部と、
    前記記憶部が記憶した過去の状態、行動、報酬、及び行動後の遷移先状態に基づいて、前記Q値を出力するDQN又はDDQNのパラメータの更新を行うDQN/DDQN更新部と、
    前記DQN/DDQN更新部がパラメータを更新したDQN又はDDQNが出力するQ値に基づいて、無線通信品質を向上可能な無線基地局の無線インターフェースのいずれかを新たな帰属先として選択する帰属情報を算出する帰属先算出部と、
    算出した帰属情報に基づいて当該無線端末の帰属先を更新するように帰属情報を記録する帰属先記録部と
    を有することを特徴とする無線端末。
  6. 前記DQN/DDQN更新部は、
    状態を入力とし、行動ごとにQ値を出力する予測関数を学習すること
    を特徴とする請求項5に記載の無線端末。
  7. 請求項5又は6に記載の無線端末の各部としてコンピュータを機能させるための無線通信プログラム。
JP2020034683A 2020-03-02 2020-03-02 無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム Active JP7270914B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020034683A JP7270914B2 (ja) 2020-03-02 2020-03-02 無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020034683A JP7270914B2 (ja) 2020-03-02 2020-03-02 無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム

Publications (2)

Publication Number Publication Date
JP2021141356A JP2021141356A (ja) 2021-09-16
JP7270914B2 true JP7270914B2 (ja) 2023-05-11

Family

ID=77669096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020034683A Active JP7270914B2 (ja) 2020-03-02 2020-03-02 無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム

Country Status (1)

Country Link
JP (1) JP7270914B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647773A (zh) 2012-05-02 2012-08-22 哈尔滨工业大学 基于q学习的异构网络接入控制优化选择方法
CN107690176A (zh) 2017-09-30 2018-02-13 南京南瑞集团公司 一种基于q学习算法的网络选择方法
EP3595362A1 (en) 2018-07-13 2020-01-15 Nokia Solutions and Networks Oy Optimizing a wi-fi network comprising multiple range extenders and associated devices
US20200037392A1 (en) 2018-07-27 2020-01-30 Samsung Electronics Co., Ltd. Method and apparatus for intelligent wifi connection management
CN110868740A (zh) 2019-11-12 2020-03-06 普联技术有限公司 一种漫游切换控制方法、装置及电子设备
CN110933723A (zh) 2019-11-21 2020-03-27 普联技术有限公司 一种漫游切换控制方法、装置和无线ap

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647773A (zh) 2012-05-02 2012-08-22 哈尔滨工业大学 基于q学习的异构网络接入控制优化选择方法
CN107690176A (zh) 2017-09-30 2018-02-13 南京南瑞集团公司 一种基于q学习算法的网络选择方法
EP3595362A1 (en) 2018-07-13 2020-01-15 Nokia Solutions and Networks Oy Optimizing a wi-fi network comprising multiple range extenders and associated devices
US20200037392A1 (en) 2018-07-27 2020-01-30 Samsung Electronics Co., Ltd. Method and apparatus for intelligent wifi connection management
CN110868740A (zh) 2019-11-12 2020-03-06 普联技术有限公司 一种漫游切换控制方法、装置及电子设备
CN110933723A (zh) 2019-11-21 2020-03-27 普联技术有限公司 一种漫游切换控制方法、装置和无线ap

Also Published As

Publication number Publication date
JP2021141356A (ja) 2021-09-16

Similar Documents

Publication Publication Date Title
US10362588B2 (en) Determining a threshold value for determining whether to steer a particular node from associating with one node to another node in a wireless environment
Manzoor et al. Towards QoS-aware load balancing for high density software defined Wi-Fi networks
US9338712B2 (en) Facilitating intelligent radio access control
US20220232461A1 (en) Method and system for multi-access edge computing (mec) selection and load balancing
CN103327556A (zh) 异构无线网络中优化用户QoE的动态网络选择方法
CN102625370A (zh) 基于网络联合效用优化及负载均衡的异构网络垂直切换方法
CN104145473B (zh) 信息处理设备、使用费计算方法
CN108541024A (zh) 一种连接无线ap的频段控制方法、装置、设备及存储介质
US20130122884A1 (en) Control apparatus, communication system and control method
WO2020084498A1 (en) Method and cloud server for cloud based client steering
CN117042048A (zh) 一种负载均衡的信息传输方法、装置和存储介质
JP7270914B2 (ja) 無線通信制御方法、無線通信システム、無線端末、及び無線通信プログラム
Priya et al. Intelligent multi-connectivity based energy-efficient framework for smart city
JP7156644B2 (ja) 無線通信制御方法
CN115809148A (zh) 一种面向边缘计算的负载均衡任务调度方法及装置
US11503528B2 (en) Base station, terminal device, control method, and program for handover connections
Wu et al. Reinforcement learning for communication load balancing: approaches and challenges
Randall et al. Deep Reinforcement Learning and Graph Neural Networks for Efficient Resource Allocation in 5G Networks
Eang et al. Offloading Decision and Resource Allocation in Mobile Edge Computing for Cost and Latency Efficiencies in Real-Time IoT
Donoso et al. A Fairness Load Balancing Algorithm in HWN Using a Multihoming Strategy
CN109412971B (zh) 基于行动价值函数学习的数据分流方法、电子设备
WO2021114192A1 (zh) 一种网络参数调整方法及网络管理设备
Sabry et al. Self-Optimized Agent for Load Balancing and Energy Efficiency: A Reinforcement Learning Framework with Hybrid Action Space
Zhou et al. DRL-Driven Intelligent Access Traffic Management for Hybrid 5G-WiFi Multi-RAT Networks
JP7185231B2 (ja) 無線通信システム、無線端末、集中制御局及び無線通信方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200304

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20200522

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20200529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200701

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20200819

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20200821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200820

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230417

R150 Certificate of patent or registration of utility model

Ref document number: 7270914

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150