JP7720587B2 - Communication device, communication system, and communication method - Google Patents

Communication device, communication system, and communication method

Info

Publication number
JP7720587B2
JP7720587B2 JP2022020561A JP2022020561A JP7720587B2 JP 7720587 B2 JP7720587 B2 JP 7720587B2 JP 2022020561 A JP2022020561 A JP 2022020561A JP 2022020561 A JP2022020561 A JP 2022020561A JP 7720587 B2 JP7720587 B2 JP 7720587B2
Authority
JP
Japan
Prior art keywords
reinforcement learning
wireless
wireless interface
communication
packets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022020561A
Other languages
Japanese (ja)
Other versions
JP2023117803A (en
Inventor
憲一 河村
大輔 村山
俊朗 中平
貴庸 守山
めぐみ 金子
ディン ティハーリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inter University Research Institute Corp Research Organization of Information and Systems
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
Inter University Research Institute Corp Research Organization of Information and Systems
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Inter University Research Institute Corp Research Organization of Information and Systems, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2022020561A priority Critical patent/JP7720587B2/en
Publication of JP2023117803A publication Critical patent/JP2023117803A/en
Application granted granted Critical
Publication of JP7720587B2 publication Critical patent/JP7720587B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Mobile Radio Communication Systems (AREA)

Description

本発明は、無線通信システムにおけるパケットスケジューリングに関連するものである。。 The present invention relates to packet scheduling in wireless communication systems.

現在、無線通信システムは発展し、マルチバンド・マルチアクセスのシステムによるヘテロジニアスなネットワークになっている。セルラー通信では、第5世代移動通信(5G)が実用化され、1GHz以下の周波数から、ミリ波帯まで幅広い周波数が利用され、スモールセルからマクロセルまで様々なサイズのセルが重畳するように提供される世界になってきている。 Currently, wireless communication systems have evolved into heterogeneous networks based on multi-band, multi-access systems. In cellular communications, fifth-generation mobile communications (5G) has been put into practical use, utilizing a wide range of frequencies, from sub-1 GHz to millimeter wave bands, and we are entering a world where cells of various sizes, from small cells to macrocells, are provided in an overlapping manner.

また、もう一つの代表的な無線アクセスシステムである無線LANでも、2.4/5/60GHz帯の無線周波数が利用されており、6GHz帯の利用も検討されている。スマートフォンなどの無線端末はセルラーと無線LANのアクセスに対応したI/Fを一般的に備え、またそれぞれのI/Fにおいて複数のバンドへの対応となっている。端末は複数の周波数、アクセス方式から接続する無線基地局を選択し、通信を行うことが一般的となってきており、デュアルコネクティビティなど、1台の端末が複数の基地局を統合利用することも行われる。 Wireless LAN, another typical wireless access system, also uses radio frequencies in the 2.4, 5, and 60 GHz bands, with the use of the 6 GHz band also being considered. Wireless devices such as smartphones generally have interfaces that support both cellular and wireless LAN access, and each interface supports multiple bands. It is becoming common for devices to select a wireless base station to connect to from multiple frequencies and access methods, and it is also common for a single device to use multiple base stations in a manner such as dual connectivity.

このようなヘテロジニアス環境において、端末がどのI/Fでどの基地局を選択するかはシステム全体で制御し、最適化を図ることがシステムのリソースの有効利用に有効である。 In such a heterogeneous environment, controlling and optimizing which base station a terminal selects and which I/F across the entire system is effective in making efficient use of system resources.

また、5Gの発展として、uRLLC(Ultra-Reliable and Low Latency Communications、超高信頼低遅延通信)等、従来の無線通信ではあまり使われていなかった超高信頼・超低遅延な用途に向けた通信機能の実現が目標とされている。 In addition, as 5G advances, one of the goals is to realize communication functions for ultra-high reliability and ultra-low latency applications, such as uRLLC (Ultra-Reliable and Low Latency Communications), which have not been widely used in conventional wireless communications.

高信頼性(低パケットロス)、低遅延性を実現するための従来技術の一つとして、複数の無線I/F、複数のバンドで冗長的に同一データを送信し、受信側で合成する手法(例えば非特許文献1)がある。 One conventional technique for achieving high reliability (low packet loss) and low latency is to send the same data redundantly over multiple wireless interfaces and multiple bands, and then combine the data on the receiving side (e.g., Non-Patent Document 1).

Cisco Parallel Redundancy Protocol Over Wireless https://www.cisco.com/c/ja_jp/td/docs/wireless/outdoor_industrial/iw3702/technote/b_prp_dg.htmlCisco Parallel Redundancy Protocol Over Wireless https://www.cisco.com/c/ja_jp/td/docs/wireless/outdoor_industrial/iw3702/technote/b_prp_dg.html Yue Gao, Kry Yik Chau Lui, Pablo Hernandez-Leal, "Robust Risk-Sensitive Reinforcement Learning Agents for Trading Markets," RL4RealLife Workshop in Int. Conf. on Machine Learning (ICML), 2021.Yue Gao, Kry Yik Chau Lui, Pablo Hernandez-Leal, "Robust Risk-Sensitive Reinforcement Learning Agents for Trading Markets," RL4RealLife Workshop in Int. Conf. on Machine Learning (ICML), 2021.

非特許文献1の技術では、基本的に、求められるQoSレベルに応じて、固定的に冗長させる無線I/Fあるいはバンドを設定するため、必要以上に無線リソースを使用する場合があり、無線リソースの利用効率が悪い。また、環境の変化に応じて、柔軟に必要なリソース量を反映できない。 The technology in Non-Patent Document 1 basically sets fixed redundant wireless I/Fs or bands according to the required QoS level, which can result in more wireless resources being used than necessary, resulting in poor wireless resource utilization efficiency. Furthermore, it is not possible to flexibly reflect the amount of resources required in response to changes in the environment.

本発明は上記の点に鑑みてなされたものであり、環境の変化に追随しつつ所望の通信品質と無線リソースの利用効率の向上とを両立させるための技術を提供することを目的とする。 The present invention was made in consideration of the above points, and aims to provide technology that can simultaneously achieve the desired communication quality and improve the utilization efficiency of wireless resources while adapting to changes in the environment.

開示の技術によれば、複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置であり、
前記強化学習部は、各無線インタフェースでのパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
通信装置が提供される。
According to the disclosed technology, there is provided a communication device that performs wireless communication using a plurality of wireless interfaces,
a wireless interface for transmitting packets to a device; and a reinforcement learning unit for determining, using risk-averse reinforcement learning, the number of packets to be transmitted to the device via the wireless interface;
a transmitting unit that transmits the number of packets determined by the reinforcement learning unit to the device;
A communication device comprising:
A communication device is provided in which the reinforcement learning unit learns actions relative to states through risk-averse reinforcement learning, with the satisfaction level based on the packet loss rate in each wireless interface being the state, and the combination of wireless interfaces used by each device and the number of packets transmitted in each wireless interface being the actions.

開示の技術によれば、環境の変化に追随しつつ所望の通信品質と無線リソースの利用効率の向上とを両立させるための技術が提供される。 The disclosed technology provides a technique for achieving both desired communication quality and improved utilization efficiency of wireless resources while adapting to environmental changes.

無線通信システムの構成例を示す図である。FIG. 1 is a diagram illustrating an example of the configuration of a wireless communication system. 無線基地局(又は無線端末)の構成図である。FIG. 1 is a diagram illustrating the configuration of a wireless base station (or a wireless terminal). 無線基地局(又は無線端末)の構成図である。FIG. 1 is a diagram illustrating the configuration of a wireless base station (or a wireless terminal). 動作概要を示すフローチャートである。10 is a flowchart showing an outline of an operation. システムモデルを説明するための図である。FIG. 1 is a diagram for explaining a system model. 強化学習を説明するための図である。FIG. 1 is a diagram illustrating reinforcement learning. アルゴリズム1を示す図である。FIG. 1 illustrates Algorithm 1. 装置のハードウェア構成例を示す図である。FIG. 2 illustrates an example of a hardware configuration of the apparatus.

以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。 The following describes an embodiment of the present invention (the present embodiment) with reference to the drawings. The embodiment described below is merely an example, and the embodiments to which the present invention can be applied are not limited to the following embodiment.

(システム構成例)
図1に、本実施の形態における無線通信システムの構成例を示す。図1に示すように、本システムは、無線基地局100と、複数の無線端末200を含む。図1の例では、無線基地局100はインターネットに接続されている。
(System configuration example)
Fig. 1 shows an example of the configuration of a wireless communication system according to this embodiment. As shown in Fig. 1, this system includes a wireless base station 100 and a plurality of wireless terminals 200. In the example of Fig. 1, the wireless base station 100 is connected to the Internet.

本実施の形態では、後述する強化学習の手法により、複数の無線インタフェースを備える無線基地局100が、デバイス(無線端末)に送信するパケットについて、それを送信する無線インタフェース、及び、その無線インタフェースで送信するパケット数を決定して、送信を行う。なお、パケット数を決定することをパケットスケジューリングと呼んでもよい。ただし、本実施の形態に係る手法は、無線端末200においても適用することが可能である。無線基地局と無線端末を総称して通信装置と呼んでもよい。 In this embodiment, a wireless base station 100 equipped with multiple wireless interfaces uses a reinforcement learning technique described below to determine the wireless interface through which packets to be transmitted to a device (wireless terminal) will be transmitted, as well as the number of packets to be transmitted over that wireless interface, and then transmits the packets. Note that determining the number of packets may also be referred to as packet scheduling. However, the technique according to this embodiment can also be applied to a wireless terminal 200. The wireless base station and wireless terminal may be collectively referred to as a communication device.

また、後述する具体例では、無線インタフェースをSub-6GHzとmmWaveの2種類として説明しているが無線インタフェースはこれらに限られない。また、「無線インタフェース」を、「周波数」であると解釈してもよい。つまり、本実施の形態は、複数周波数をアグリゲーションして使用する形態において、周波数の選択、及び、パケット数決定を後述する強化学習の手法により実現できる。 Furthermore, in the specific examples described below, two types of wireless interfaces are described: Sub-6 GHz and mmWave, but the wireless interface is not limited to these. Furthermore, "wireless interface" may also be interpreted as "frequency." In other words, in this embodiment, in a form in which multiple frequencies are aggregated and used, frequency selection and packet count determination can be achieved using the reinforcement learning method described below.

図2に、無線基地局100の構成例を示す。無線端末200も図2に示す構成と同様の構成を備えることとしてよい。 Figure 2 shows an example configuration of the wireless base station 100. The wireless terminal 200 may also have a configuration similar to that shown in Figure 2.

図2に示すように、無線基地局100は、通信I/F部110、制御部120、無線通信部130、アンテナ101を有する。 As shown in FIG. 2, the wireless base station 100 has a communication I/F unit 110, a control unit 120, a wireless communication unit 130, and an antenna 101.

無線通信部130は、スケジューラ部140、受信部131、無線通信信号生成部132、RF部135を備える。スケジューラ部140は、強化学習部150、通信品質測定部141、全体無線リソース割当算出部142、個別無線リソース割当算出部143を有する。「個別無線リソース割当算出部143、受信部131、無線通信信号生成部132、RF部135、アンテナ101」は、無線インタフェースの数だけ備えられる。ただし、「個別無線リソース割当算出部143、受信部131、無線通信信号生成部132、RF部135、アンテナ101」のうちのいずれかが、複数インタフェースで共有されてもよい。また、「個別無線リソース割当算出部143、受信部131、無線通信信号生成部132、RF部135、アンテナ101」を「無線インタフェース」と呼んでもよい。 The wireless communication unit 130 includes a scheduler unit 140, a receiver 131, a wireless communication signal generator 132, and an RF unit 135. The scheduler unit 140 includes a reinforcement learning unit 150, a communication quality measurement unit 141, a total wireless resource allocation calculator 142, and an individual wireless resource allocation calculator 143. The number of "individual wireless resource allocation calculators 143, receivers 131, wireless communication signal generators 132, RF units 135, and antennas 101" is equal to the number of wireless interfaces. However, any of the "individual wireless resource allocation calculators 143, receivers 131, wireless communication signal generators 132, RF units 135, and antennas 101" may be shared by multiple interfaces. Furthermore, the "individual wireless resource allocation calculators 143, receivers 131, wireless communication signal generators 132, RF units 135, and antennas 101" may be referred to as "wireless interfaces."

強化学習部150は、Qテーブル管理部151、状態算出部152、報酬算出部153、リスク評価部154を備える。各部の動作は下記のとおりである。 The reinforcement learning unit 150 includes a Q table management unit 151, a state calculation unit 152, a reward calculation unit 153, and a risk assessment unit 154. The operation of each unit is as follows:

通信I/F部110は、例えばインターネット等との通信を行う。制御部120は、例えば、CPUとメモリを備え、装置全体の制御を行う。無線通信部130は無線通信に係る動作を実行する。 The communication I/F unit 110 communicates with, for example, the Internet. The control unit 120 includes, for example, a CPU and memory, and controls the entire device. The wireless communication unit 130 performs operations related to wireless communication.

スケジューラ部140はパケットスケジューリング等を実行する。受信部131は他の通信装置からの信号(例:無線端末からのフィードバック)をアンテナ及びRF部を介して受信する。無線通信信号生成部132は、送信するパケットのデータから無線で送信する信号を生成する。RF部135は、信号を搬送波に乗せる等の処理を実行する。なお、スケジューラ部140はコンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。 The scheduler unit 140 performs packet scheduling, etc. The receiver unit 131 receives signals from other communication devices (e.g., feedback from a wireless terminal) via an antenna and RF unit. The wireless communication signal generator unit 132 generates signals to be transmitted wirelessly from the data of the packets to be transmitted. The RF unit 135 performs processing such as placing the signals on a carrier wave. The scheduler unit 140 can also be realized by a computer and program, and the program can be recorded on a recording medium or provided via a network.

通信品質測定部141は、例えば、送信パケット数と、通信相手からのフィードバック(例:ACK/NACK)に基づき、通信品質(例:パケットロス率)を測定する。なお、本実施の形態では、各デバイスからの瞬時のCSIフィードバック(ACK/NACK等)を得られないが、散発的なCSIフィードバックを得られる場合を想定しており、散発的なCSIフィードバックから通信品質の統計値(全デバイスにわたる平均値等)を取得することができる。 The communication quality measurement unit 141 measures communication quality (e.g., packet loss rate) based on, for example, the number of transmitted packets and feedback (e.g., ACK/NACK) from the communication partner. Note that in this embodiment, instantaneous CSI feedback (ACK/NACK, etc.) cannot be obtained from each device, but it is assumed that sporadic CSI feedback is available, and communication quality statistics (e.g., average value across all devices) can be obtained from the sporadic CSI feedback.

全体無線リソース割当算出部142は、フレーム毎に強化学習部150が決定する行動に基づき、送信するパケット総数に対して、各無線インタフェースに割り当てる量を決定する。また、個別無線リソース割当算出部143は、フレーム毎に強化学習部150が決定する行動に基づき、該当する無線インタフェース(個別無線リソース割当算出部143に接続される無線インタフェース)における送信パケット数に対応する無線リソース量を決定する。 The total wireless resource allocation calculation unit 142 determines the amount to be allocated to each wireless interface relative to the total number of packets to be transmitted, based on the behavior determined by the reinforcement learning unit 150 for each frame. Furthermore, the individual wireless resource allocation calculation unit 143 determines the amount of wireless resources corresponding to the number of packets to be transmitted on the relevant wireless interface (wireless interface connected to the individual wireless resource allocation calculation unit 143), based on the behavior determined by the reinforcement learning unit 150 for each frame.

なお、無線基地局100(又は無線端末200)を図3に示す構成で表すこともできる。図3に示すように、無線基地局100は、強化学習部10、送信部20、受信部30を有する。強化学習部10は強化学習部150と同様の処理を行う。送信部20は、送信に関する処理(例:送信リソース割当算出、パケット送信)、受信部30は、受信に関する処理(例:フィードバック受信、通信品質算出)を行う。 The wireless base station 100 (or wireless terminal 200) can also be represented by the configuration shown in Figure 3. As shown in Figure 3, the wireless base station 100 has a reinforcement learning unit 10, a transmitter 20, and a receiver 30. The reinforcement learning unit 10 performs the same processing as the reinforcement learning unit 150. The transmitter 20 performs processing related to transmission (e.g., calculating transmission resource allocation, transmitting packets), and the receiver 30 performs processing related to reception (e.g., receiving feedback, calculating communication quality).

(強化学習部150について)
本実施の形態では、無線基地局100(もしくは無線端末200)において、複数の無線インタフェース(もしくは複数の周波数)をアグリゲーションする構成を採用している。
(Regarding the reinforcement learning unit 150)
In this embodiment, the radio base station 100 (or the radio terminal 200) employs a configuration in which a plurality of radio interfaces (or a plurality of frequencies) are aggregated.

各無線インタフェースの送信パケットに対する無線リソースの割当を行うスケジューラ部140に強化学習部150を備えることで強化学習を適用(1)し、自律的に所望の通信品質を得るための最適な接続を学習して行うとともに、複数Qテーブルの並列更新(単独Qテーブルも含む)に基づくRisk-averse learning(リスク回避学習)手法(非特許文献2)(2)を用いることで、通信の信頼性を重視した行動選択を可能としている。 By equipping the scheduler unit 140, which allocates wireless resources to packets transmitted from each wireless interface, with a reinforcement learning unit 150, reinforcement learning is applied (1) to autonomously learn and perform optimal connections to achieve the desired communication quality. By using a risk-averse learning method (Non-Patent Document 2) (2) based on parallel updating of multiple Q tables (including single Q tables), it is possible to select actions that prioritize communication reliability.

上記の(1)の強化学習の適用について、本実施の形態では、状態s(t)を各無線インタフェースでのパケットロス率(ACKのフィードバックより検出)情報に基づくSatisfaction Level(満足レベル)とし、行動a(t)を各デバイス(送信元が無線基地局の場合は無線端末)に対して使用する無線インタフェースの組み合わせとパケットスケジューリング(各無線インタフェースで送信するパケット数)とする。本実施の形態では、Risk-Averse Average Q-learning(リスク回避平均化Q学習)により、状態s(t)から各デバイスに対する最適な行動a(t)を学習する。 In applying reinforcement learning (1) above, in this embodiment, the state s(t) is the satisfaction level based on packet loss rate information (detected from ACK feedback) for each wireless interface, and the action a(t) is the combination of wireless interfaces to be used for each device (wireless terminal if the source is a wireless base station) and packet scheduling (number of packets to be transmitted over each wireless interface). In this embodiment, the optimal action a(t) for each device is learned from the state s(t) using risk-averse average Q-learning.

本実施の形態で想定されるuRLLCの場合,低遅延性を保つため瞬時のCSIフィードバックを利用できない。本実施の形態では、瞬時のチャネル状態が未知でも良好なRisk-averse学習ができるように無線インタフェース選択とパケットスケジューリング法を設計している。 In the case of uRLLC, which is assumed in this embodiment, instantaneous CSI feedback cannot be used to maintain low latency. In this embodiment, the radio interface selection and packet scheduling methods are designed to enable good risk-averse learning even when the instantaneous channel conditions are unknown.

上記の(2)のRisk-averse learning(リスク回避学習)手法に関して、Risk-Averse Learningの、Risk(分散の大きさ)に反応する評価関数の概念を示す式(後述する式(11)、式(12))に、過去の報酬rの分散(リスク)に機敏に反応する項を入れることにより、高リスク行動に対する報酬の低下を反映させている。過去の報酬rの分散に反応して評価に反映する項とは、後述する式(12)(式(11)をテイラー展開した式)における2番目の項(Varがある項)である。 Regarding the risk-averse learning method (2) above, the equations (Equations (11) and (12) described below) that show the concept of the evaluation function that responds to risk (magnitude of variance) in risk-averse learning include a term that quickly responds to the variance (risk) of past reward r, thereby reflecting the reduction in reward for high-risk behavior. The term that reacts to the variance of past reward r and reflects it in the evaluation is the second term (the term with Var) in Equation (12) described below (the equation obtained by Taylor expansion of Equation (11)).

後述する具体的において説明するとおり、本実施の形態では、瞬時報酬は全てのデバイスにわたる平均パケット受信成功率、及びリスク状態によるペナルティー(ex.信頼性・遅延等のQoSターゲットが未達成の状態)を反映する。 As will be explained in more detail later, in this embodiment, the instantaneous reward reflects the average packet reception success rate across all devices, as well as the penalty due to a risk state (e.g., a state in which QoS targets such as reliability and delay are not achieved).

図2に示す強化学習部150において、Qテーブル管理部151は、Qテーブルの保持、初期化、更新等を行う。状態算出部152は、状態s(t)を算出する。報酬算出部153は、s(t)、a(t)に対する報酬rを算出する。リスク評価部154は、Qテーブルに基づいて、評価関数を計算し、行動を選択する。なお、評価関数の計算は報酬算出部153が行ってもよい。 In the reinforcement learning unit 150 shown in Figure 2, the Q table management unit 151 holds, initializes, updates, etc. the Q table. The state calculation unit 152 calculates the state s(t). The reward calculation unit 153 calculates the reward r for s(t) and a(t). The risk assessment unit 154 calculates an evaluation function based on the Q table and selects an action. Note that the calculation of the evaluation function may be performed by the reward calculation unit 153.

ここで、強化学習に関連する無線基地局100の動作概要を図4のフローチャートを参照して説明する。 Here, an overview of the operation of the radio base station 100 related to reinforcement learning will be explained with reference to the flowchart in Figure 4.

S101において、状態算出部152が、各無線インタフェースでのパケットロス率(ACKのフィードバックより検出)情報に基づくSatisfaction Level(満足度レベル)を取得し、状態s(t)を計算する。 At S101, the state calculation unit 152 obtains the satisfaction level based on packet loss rate information (detected from ACK feedback) for each wireless interface and calculates the state s(t).

S102において、リスク評価部154は、Qテーブル管理部151において管理されている複数Qテーブル(もしくは単独Qテーブル)に基づいて、ε-greedy法により行動aを決定する。 In S102, the risk assessment unit 154 determines action a using the ε-greedy method based on the multiple Q tables (or a single Q table) managed by the Q table management unit 151.

S103において、強化学習部150は決定した行動aを、全体無線リソース割当算出部142、個別無線リソース割当算出部143等に通知することで、無線基地局100は、行動aを実行する。 In S103, the reinforcement learning unit 150 notifies the total radio resource allocation calculation unit 142, the individual radio resource allocation calculation unit 143, etc. of the determined action a, and the radio base station 100 executes action a.

S104において、通信品質測定部141によりパケットロス情報が取得され、パケットロス情報は強化学習部150における報酬算出部153に渡される。 In S104, packet loss information is acquired by the communication quality measurement unit 141, and the packet loss information is passed to the reward calculation unit 153 in the reinforcement learning unit 150.

S105において、報酬算出部153は報酬を算出する。S106において、Qテーブル管理部151は、複数Qテーブル(もしくは単独Qテーブル)の更新を行う。 In S105, the reward calculation unit 153 calculates the reward. In S106, the Q table management unit 151 updates the multiple Q tables (or a single Q table).

以下、本実施の形態における無線基地局100の動作(特に強化学習部150による動作)を、具体的な無線インタフェースを使用する例を用いてより詳細に説明する。 Below, the operation of the radio base station 100 in this embodiment (particularly the operation of the reinforcement learning unit 150) will be explained in more detail using an example that uses a specific radio interface.

(システムモデル)
本実施の形態では、図5に示すように、複数のデバイスを収容する複数のAPから構成される無線ネットワークにおけるダウンリンク(DL)送信を例にとって説明する。各APは、Sub‐6GHzおよびmmWave(ミリ波)インタフェースを備えているものとする。各APは、無線基地局100に相当する。デバイスは無線端末200に相当する。以下では、無線基地局100が本発明に係る強化学習の動作を行うものとして説明するが、無線端末200も同様の動作が可能である。
(System model)
In this embodiment, as shown in Fig. 5, downlink (DL) transmission in a wireless network configured with multiple APs accommodating multiple devices will be described as an example. Each AP is assumed to have a Sub-6 GHz and mmWave (millimeter wave) interface. Each AP corresponds to a wireless base station 100. A device corresponds to a wireless terminal 200. In the following description, the wireless base station 100 will be described as performing the reinforcement learning operation according to the present invention, but the wireless terminal 200 can also perform the same operation.

図5に示すように、AP bはデバイスの集合Κに所望のパケットを送信する。また、デバイスの集合Κは、他の全てのAP b´≠bからDL干渉を受信する。 As shown in Figure 5, AP b transmits a desired packet to a set of devices K. The set of devices K also receives DL interference from all other APs b'≠b.

各スケジューリングフレームtの開始において、AP bは各デバイスk∈KへのL(t)個のパケットを持つものとする。各パケットl∈L(t)は、dビットのサイズであり、デバイスk∈Kに送信されるものである。 At the beginning of each scheduling frame t, AP b has L k (t) packets to each device k ∈ K. Each packet l ∈ L k (t) is d bits in size and is to be sent to device k ∈ K.

AP bは、Sub-6GHzインタフェース上のN個のサブチャネルと、mmWaveインタフェース上のM個のビームを介してこれらのパケットを送信する。各Sub-6GHzサブチャネル又は各mmWaveビームは、各スケジューリング時間フレームにおいて、あるユニークなデバイスに割り当てることができる。Sub-6GHzでは異なるサブチャネル、mmWaveでは異なるビームを介して、各フレームで複数のデバイスをサポートすることができる。 AP b transmits these packets via N subchannels on the Sub-6 GHz interface and M beams on the mmWave interface. Each Sub-6 GHz subchannel or each mmWave beam can be assigned to a unique device in each scheduling time frame. Multiple devices can be supported in each frame via different subchannels in Sub-6 GHz and different beams in mmWave.

Sub-6GHz帯では、サブチャネルnにおけるAP bからデバイスkに対する信号対干渉+雑音比(SINR)は、 In the Sub-6 GHz band, the signal-to-interference plus noise ratio (SINR) from AP b to device k on subchannel n is:

と表される。ここで、AP bからデバイスkへのサブチャネルnにおける送信電力pbkn subは、サブチャネル間で等しいと仮定する。Wsubはサブチャネルあたりの帯域幅である。hbkn subの項は、サブチャネルn上のAP bとデバイスkとの間のチャネル電力(channel power)であり、hbkn sub(t)=|bkn sub(t)|で与えられる。なお、本明細書のテキストにおいて、記載の便宜上、文字の頭に記載する記号を文字の前に記載する場合がある。「h」はその例である。ここで、bkn sub(t)は、スモールスケールおよびラージスケールフェージング効果を含む複素チャネル係数である。σ は、加算性白色ガウス雑音(AWGN)電力を表す。Ibkn subは、APs b´≠bからデバイスkへのサブチャネルn上の干渉電力である。 Here, the transmit power p bkn sub on subchannel n from AP b to device k is assumed to be equal across subchannels. W sub is the bandwidth per subchannel. The term h bkn sub is the channel power between AP b and device k on subchannel n, and is given by h bkn sub (t) = | h bkn sub (t) | 2. Note that in the text of this specification, for convenience, a symbol that starts with a letter may be written before the letter. " h" is an example. Here, h bkn sub (t) is the complex channel coefficient including small-scale and large-scale fading effects. σ n 2 represents the additive white Gaussian noise (AWGN) power. I bkn sub is the interference power on subchannel n from APs b'≠b to device k.

mmWaveインタフェースについてはアナログビームフォーミングを想定し、ビームm上でのAP bからデバイスkへの送信ビーム幅とビーム方向はそれぞれθbkm及びβbkmと表され、各ビームmにおける対象デバイスk及び時間フレームtに応じて調整される。 For the mmWave interface, analog beamforming is assumed, and the transmission beam width and beam direction from AP b to device k on beam m are expressed as θ bkm and β bkm , respectively, and are adjusted according to the target device k and time frame t in each beam m.

単純化のために、一般性を損なうことなく、デバイスkにおける受信ビーム利得G Rxは固定であると想定する。得られるレートを最大化するために、θbkmは最も狭いビーム幅に設定され、βbkmはAP bからデバイスkへの視線(LoS)方向によって与えられる。したがって、AP bに収容されるデバイスkにおけるビームmのSINRは、次のように与えられる。 For simplicity and without loss of generality, we assume that the receive beam gain G k Rx at device k is fixed. To maximize the obtained rate, θ bkm is set to the narrowest beamwidth, and β bkm is given by the line-of-sight (LoS) direction from AP b to device k. Therefore, the SINR of beam m at device k served by AP b is given as follows:

ここで、pbkm mW、hbkm mWは、それぞれ、ビームm上のAP bとデバイスkとの間の送信電力およびチャネル電力であり、Wmwは、帯域幅である。チャネル電力hbkm mWは、ビームm上の送信ビーム幅と方向の関数であり、下記のとおりである。 where p bkm mW and h bkm mW are the transmission power and channel power, respectively, between AP b and device k on beam m, and W mw is the bandwidth. The channel power h bkm mW is a function of the transmit beam width and direction on beam m, as follows:

ここで、PLbkmは、ビームm上のAP bとデバイスkとの間のパスロスを示し、G(θbkm,βbkm)は、AP bとデバイスkとの間のメイン送信ビーム利得であり、下記のようにモデル化される。 Here, PL bkm denotes the path loss between AP b and device k on beam m, and G bbkm , β bkm ) is the main transmit beam gain between AP b and device k, which is modeled as follows:

ここでεはサイドローブビームゲインである。式(2)において、Ibkm mWは、全てのAPs b´≠bからAP bに収容されるデバイスkへの干渉電力であり、それらのサイドローブビーム利得に基づいて計算される。 where ε is the side lobe beam gain. In equation (2), I bkm mW is the interference power from all APs b'≠b to device k accommodated by AP b, and is calculated based on their side lobe beam gains.

したがって、AP bに収容されるデバイスkの実現可能なレートは、次のとおりである。 Therefore, the achievable rate for device k accommodated by AP b is:

ここで、ν={Sub,mW}(Sub 6GHzまたはmmWave)である。デバイスのアプリケーションの低遅延要件の下では、デバイスからAPsへの瞬時のCSIフィードバックは想定されない。従って、APsは達成可能なレート(式(5))を知ることなく割り当てを決定する必要がある。 where v = {Sub, mW} (Sub 6 GHz or mmWave). Given the low latency requirements of device applications, instantaneous CSI feedback from devices to APs is not assumed. Therefore, APs must make allocation decisions without knowing the achievable rate (Equation (5)).

インタフェースνのフレームtにおけるデバイスkへの送信パケット数を、l ν(t)∈{0,…,L(t)}と表す。L(t)は、フレームtにおけるキューに入れられたパケットの総数であるので、l sub(t)+l mW(t)≦L(t)である。各インタフェース上において、デバイスkの正常に受信できたパケット数Ω ν(t)は、AP bによりデバイスkのACKフィードバックに基づいて下記のように計算できる。 The number of packets transmitted to device k on interface v in frame t is denoted as l k v (t) ∈ {0, ..., L k (t)}. Since L k (t) is the total number of packets queued in frame t, l k sub (t) + l k mW (t) ≤ L k (t). On each interface, the number of packets successfully received by device k, Ω k v (t), can be calculated by AP b based on the ACK feedback from device k as follows:

ここで、ωkl ν(t)は、フレームtにおけるインタフェースν上のパケットlに対するデバイスkからのフィードバックを示し、下記のとおりである。 where ω kl v (t) denotes the feedback from device k for packet l on interface v at frame t, as follows:

更に、期間Tのフレーム内において、インタフェースν上でデバイスkにより正常に受信されたサイズdビットのパケットの最大数は、 Furthermore, the maximum number of packets of size d bits successfully received by device k on interface v within a frame of duration T s is given by

として与えられる。 is given as:

ここで、rbk ν(t)はAPにおいて未知なので、lk,max νは、APにおいて未知である。従って、l ν(t)≦lk,max ν(t)である場合、つまり、デバイスkの割り当てられたサブチャネル又はビームにおいて、送信パケットの数がデバイスkで受信し得るパケットの数よりも小さい場合において、これら全てのパケットは正常に受信され、それらのACKはAPにフィードバックされると想定する。しかし、l ν(t)≧lk,max ν(t)である場合、l ν(t)-lk,max ν(t)パケットはNACK状態になる。 Here, since r bk v (t) is unknown at the AP, l k,max v (t) is also unknown at the AP. Therefore, if l k v (t)≦l k,max v (t), that is, if the number of transmitted packets in device k's assigned subchannel or beam is smaller than the number of packets that device k can receive, it is assumed that all these packets are received successfully and their ACKs are fed back to the AP. However, if l k v (t)≧l k,max v (t), then l k v (t)-l k,max v (t) packets are in the NACK state.

上記に基づいて、下記のとおり、フレームtまでのパケットロス発生を両インタフェースにわたって平均をとったものを、フレームtにおけるデバイスkのPLR(パケットロス率)と定義する。 Based on the above, the PLR (packet loss rate) of device k at frame t is defined as the average packet loss up to frame t across both interfaces, as follows:

ここで、 where:

は、フレームτにおける両インタフェースにわたるパケット正常伝達レート(PSR:Packet Successful Delivery Rate)を示す。各インタフェースにおけるフレームtのデバイスkのPLRは下記のように更新される。 Denote the Packet Successful Delivery Rate (PSR) across both interfaces at frame τ. The PLR of device k at frame t at each interface is updated as follows:

以下、本実施の形態に係る手法を詳細に説明する。 The method according to this embodiment will be described in detail below.

(マルコフ決定過程(MDP)について)
ここでの目標は、各デバイスの個々のPLR制約を満たしながら、すべてのデバイスにわたって平均化された長期PSRを最大化(ここではρmax)することである。この問題は、図6に示すように、状態空間、行動空間、遷移確率および報酬関数によって特徴づけられるMDPとしてモデル化することができる。図5において、状態sは、全てのデバイスに対する、PLRの満足レベル(及びACKフィードバック状態)である。行動aは、全てのデバイスに対する、インタフェース選択及びパケットスケジューリングである。本実施の形態では、状態s(t)、行動a(t)を元に、報酬r(t)を得て、目的関数を最大化することで、行動の最適化を行う。
(About Markov Decision Processes (MDPs))
The goal here is to maximize the long-term PSR averaged over all devices (here, ρ max ) while satisfying the individual PLR constraints of each device. This problem can be modeled as an MDP characterized by a state space, an action space, transition probabilities, and a reward function, as shown in FIG. 6. In FIG. 5, state s( t) is the PLR satisfaction level (and ACK feedback state) for all devices. Action a( t ) is the interface selection and packet scheduling for all devices. In this embodiment, the action is optimized by obtaining a reward r(t) based on state s(t) and action a(t) and maximizing the objective function.

各AP(無線基地局)はインタフェース選択及びパケットスケジューリングの決定を行うエージェントである。各フレームtにおいて、APは、現在の状態sを知っている。状態sは、当該APに関連するデバイスの現在のPLR満足レベルと前回のフレームt-1におけるそれらのフィードバック状態からなる。sに基づいて、APは行動aを取る。すなわち、APは、現在のフレームtにおける各デバイスの各インタフェースにおけるパケット数を決定し、環境から即時報酬rを取得し、新たな状態st+1に遷移する。 Each AP (wireless base station) is an agent that makes interface selection and packet scheduling decisions. At each frame t, the AP knows the current state s t , which consists of the current PLR satisfaction levels of devices associated with the AP and their feedback states in the previous frame t-1. Based on s t , the AP takes action a t . That is, the AP determines the number of packets on each interface of each device in the current frame t, obtains an immediate reward r t from the environment, and transitions to a new state s t+1 .

即時のCSIやインタフェースの統計等の情報は未知なので、APは、遷移確率P(st+1|s,a)の知識を有していない。本実施の形態では、この問題をRL(強化学習)のフレームワークを用いて解決する。 Since information such as real-time CSI and interface statistics is unknown, the AP does not have knowledge of the transition probability P(s t+1 |s t , a t ). In this embodiment, this problem is solved using a reinforcement learning (RL) framework.

(リスク回避強化学習:Risk-Averse Reinforcement Learning)
厳しい信頼性の要求を最もよく満足させるために、本実施の形態では、リスク回避平均化Q学習(RAQL:Risk-Averse Average Q-learning)と呼ばれるRSRL(Risk-Sensitive Reinforcement Learning)のアプローチを用いる。QLのように期待されるリターンを最大化することを目標とする伝統的なRL法と比較して、RSRLはリスクの概念を導入しており、そのリスクは、報酬の分散とリンクしている。RAQLは、更なる分散の減少を達成しており、それによりリスクを減少させる。
(Risk-Averse Reinforcement Learning)
To best satisfy stringent reliability requirements, the present embodiment uses a Risk-Sensitive Reinforcement Learning (RSRL) approach called Risk-Averse Average Q-learning (RAQL). Compared to traditional RL methods, which aim to maximize expected returns like QL, RSRL introduces the concept of risk, which is linked to the variance of rewards. RAQL achieves further variance reduction, thereby reducing risk.

伝統的なRLのように目的関数として期待報酬をとることに代えて、目的関数として下記のような報酬の期待効用(expected utility)を用いる。 Instead of taking the expected reward as the objective function as in traditional RL, we use the expected utility of the reward as the objective function:

上記の式(11)において、期待は、行動を選択するための確率論的ポリシーπ:S×A→[0,1]、及び、両インタフェースにわたるチャネル実現hにわたるものである。テイラー展開をとることにより下記の式(12)が得られる。 In the above equation (11), the expectation is over the probabilistic policy π:S×A→[0,1] for choosing an action and the channel realization h over both interfaces. Taking a Taylor expansion, we obtain the following equation (12):

β<0により、分散が最小となりつつ期待報酬が最大化されるので、目的関数がリスク回避になる。 With β<0, the expected reward is maximized while the variance is minimized, making the objective function risk averse.

なお、上記の式(11)、式(12)における記号の意味は下記のとおりである。 The symbols in the above formulas (11) and (12) have the following meanings:

π:マルコフ決定過程における、ポリシーπによる平均効用関数(即時報酬rの割引和)
Π:ポリシー(方策)
π,h:ポリシーπ、無線チャネル(伝搬路等)の状態hの下での期待値
:過程tにおける即時報酬値
β:パラメータ
Var[]:[]の分散
O():()のオーダー
後述するように、本実施の形態では、式(22)を更新ルールとして使用することにより、複数Qテーブルを同時に学習する。そして、真の分散の近似として、これらQテーブルのサンプル分散が使用される。この分散から、リスク回避^Qテーブルが計算され、行動選択に使用される。
J π : Average utility function (discounted sum of immediate rewards r t ) according to policy π in the Markov decision process
Π: Policy
E π,h : Expected value under policy π and state h of the wireless channel (propagation path, etc.) r t : Immediate reward value in process t β: Parameter Var[ ]: Variance of [ ] O(): Order of ( ) As will be described later, in this embodiment, multiple Q-tables are learned simultaneously by using equation (22) as the update rule. Then, the sample variance of these Q-tables is used as an approximation of the true variance. From this variance, a risk-averse ^Q-table is calculated and used for action selection.

(RAQLベースのインタフェース選択及びパケットスケジューリング法)
次に、本実施の形態においてAP(無線基地局100)が実行する、RAQLに基づくアルゴリズムを詳細に説明する。状態空間と行動空間は次のように定義される。
RAQL-based interface selection and packet scheduling method
Next, the algorithm based on RAQL executed by the AP (wireless base station 100) in this embodiment will be described in detail. The state space and the action space are defined as follows.

状態:s(t)は、下記の式(13)、式(14)のとおり、フレームtにおける全てのデバイスk∈Κに対する、PLRの現在のQoS満足レベル、及び、フレームt-1に送信されたパケットに対する直近のACKフィードバックである。s(t)にACKフィードバックを含まないこととしてもよい。 State: s(t) is the current QoS satisfaction level of the PLR for all devices k∈K at frame t and the most recent ACK feedback for packets sent in frame t-1, as shown in equations (13) and (14) below. s(t) may not include ACK feedback.

ここで、 where:

である。 is.

行動:a(t)は、各デバイスのパケットが送信されるべきインタフェース選択を示す。行動空間サイズの爆発を回避して、提案手法をスケーラブルにするために、次に説明するように、本実施の形態では、インタフェース選択タスクとパケットスケジューリングタスクを、デバイスkに対する3つの行動a(t)に集約している。APは、即時CSIの知識を持たないが、散発的なフィードバックにより、平均パスロスあるいは平均SINRなどの長期CSIが既知であると仮定することは適切である。 Action: a(t) indicates the interface selection for each device over which packets should be transmitted. To avoid the explosion of the action space size and make the proposed method scalable, we aggregate the interface selection task and packet scheduling task into three actions a k (t) for device k, as explained below. Although the AP does not have knowledge of the instantaneous CSI, it is reasonable to assume that the long-term CSI, such as the average path loss or average SINR, is known due to sporadic feedback.

従って、各APは、各デバイスの平均CSIに基づいて、サブチャネル及びビーム割り当てを行うことができる。この場合、全てのサブチャネルは各デバイスにおいて同等であり、従って、APは各デバイスに割り当てられる各サブチャネルをランダムに選択することができる。そして、各APのスケジューリングタスクは、各デバイスにおけるサブチャネル毎に送信されるパケット数を決定することに相当する。フレーム長Tの期間におけるAP bから送信されデバイスkにより正常に受信されるパケットの最大数は、下記の式(15)のように推定できる。 Therefore, each AP can assign subchannels and beams based on the average CSI of each device. In this case, all subchannels are equivalent for each device, so the AP can randomly select each subchannel to be assigned to each device. The scheduling task of each AP then corresponds to determining the number of packets to be transmitted per subchannel for each device. The maximum number of packets transmitted from AP b and successfully received by device k during a frame length Ts can be estimated using the following equation (15):

bk νは、インタフェースνにおけるデバイスkの既知の平均レートである。各行動a(t)は、下記のとおりである。 r bk v is the known average rate of device k at interface v. Each action a k (t) is:

(t)=0:Sub-6GHzインタフェースのみが使用され、送信パケット数は、 a k (t) = 0: Only the Sub-6 GHz interface is used, and the number of transmitted packets is

である。 is.

(t)=1:mmWaveインタフェースのみが使用され、送信パケット数は、 a k (t) = 1: Only the mmWave interface is used, and the number of transmitted packets is

である。 is.

(t)=2:Sub-6GHzインタフェースとmmWaveインタフェースの両方が使用されるが、高データレートを利用して送信パケット数を最大化するようにmmWaveの優先度を高くする。 a k (t) = 2: Both the Sub-6 GHz and mmWave interfaces are used, but mmWave is given higher priority to take advantage of the high data rate and maximize the number of transmitted packets.

最後に、サブチャネルとビームの数の制約の下で、全てのデバイスに対する行動a(t)が下記の式(20)のとおりに与えられる。 Finally, under the constraints of the number of subchannels and beams, the behavior a(t) for all devices is given by the following equation (20):

報酬:r(s(t),a(t))は、複数デバイスにわたる平均PSRにより与えられる、フレームtにおける行動a(t)の実行により達成される即時報酬を表す。特に、この報酬関数は、式(14)で規定されるリスク状態も考慮している。APが式(6)におけるΩ ν(t)を取得するためのACK/NACKフィードバックに基づいて、報酬は下記の式(21)により計算される。 Reward: r(s(t), a(t)) represents the immediate reward achieved by performing action a(t) at frame t, given by the average PSR across devices. In particular, this reward function also considers the risk state defined in equation (14). Based on the ACK/NACK feedback for the AP to obtain Ω k v (t) in equation (6), the reward is calculated by equation (21) below.

式(21)の各記号の意味は下記のとおりである。 The meanings of the symbols in formula (21) are as follows:

r(s(t),a(t)):過程tにおける即時報酬値
Ω sub(τ):Sub6GHのI/Fで送信が成功したパケット数
Ω mW(τ):ミリ波のI/Fで送信が成功したパケット数
sub(τ):Sub6GHのI/Fで送信されるパケット数
mW(τ):ミリ波のI/Fで送信されるパケット数
sub(t):Sub6GHのI/Fでのパケットロス率ρが要求品質ρmaxに達しているかどうかで変わる変数
mW(t):ミリ波のI/Fでのパケットロス率ρが要求品質ρmaxに達しているかどうかで変わる変数
式(14)から明らかなように、u ν(t)=0である場合、すなわち、デバイスkが、式(14)におけるPLRを満足しないリスク状態にある場合、報酬にはペナルティーが科せられる。
r(s(t), a(t)): immediate reward value in process t Ω k sub (τ): number of packets successfully transmitted via the Sub6GH I/F Ω k mW (τ): number of packets successfully transmitted via the millimeter wave I/F l k sub (τ): number of packets transmitted via the Sub6GH I/F l k mW (τ): number of packets transmitted via the millimeter wave I/F u k sub (t): variable that changes depending on whether the packet loss rate ρ at the Sub6GH I/F has reached the required quality ρ max u k mW (t): variable that changes depending on whether the packet loss rate ρ at the millimeter wave I/F has reached the required quality ρ max As is clear from equation (14), u k ν If (t)=0, ie, device k is in a risk state that does not satisfy the PLR in equation (14), the reward is penalized.

本実施の形態における、RAQLベースのインタフェース選択及びパケットスケジューリング方法は図7に示すアルゴリズム1により実行される。つまり、無線基地局100は、例えばプログラムをCPUで実行することで本アルゴリズムを実行する。各記号の意味は下記のとおりである。 In this embodiment, the RAQL-based interface selection and packet scheduling method is executed by Algorithm 1 shown in Figure 7. In other words, the radio base station 100 executes this algorithm by, for example, running a program on the CPU. The meanings of each symbol are as follows:

ε:探索率
λ:減衰率
I:Qテーブルの枚数
λ:リスク制御パラメータ
Q:Qテーブル
V:Qテーブル更新回数
α:学習率
アルゴリズム1において、最初に、APは、状態sの下で各行動aの選択数をカウントするテーブルVとともにI個のQテーブルを初期化する。対応する学習率αもまた0に初期化され、ランダム状態からアルゴリズムが開始する(1~2行)。
ε: Exploration rate λ: Decay rate I: Number of Q-tables λ p : Risk control parameter Q: Q-table V: Number of Q-table updates α: Learning rate In Algorithm 1, first, the AP initializes I Q-tables along with table V, which counts the number of selections of each action a under state s. The corresponding learning rate α is also initialized to 0, and the algorithm starts from a random state (lines 1-2).

各フレームtにおいて、Qテーブルがランダムに選択され、後述する式(24)によりリスク回避^Qテーブルを計算するためにQテーブルが使用される(3~5行)。従来のQLと異なり、RAQLでは、Q関数を下記の式(22)により更新する。 At each frame t, a Q-table is randomly selected and used to calculate the risk aversion^Q-table using equation (24) described below (lines 3-5). Unlike traditional QL, in RAQL, the Q-function is updated using equation (22) below.

式(22)における「x」は定数であり、例えばx=-1と設定される。α(s(t),a(t))は、状態行動ペア(s(t),a(t))の学習率であり、γは、減衰率であり、u(x)は、単調増加凹効用関数であり、以下で表される。 In equation (22), "x 0 " is a constant, and is set, for example, as x 0 = -1. α(s(t), a(t)) is the learning rate of the state-action pair (s(t), a(t)), γ is the decay rate, and u(x) is a monotonically increasing concave utility function, which is expressed as follows:

βは、Risk Averseな特性を持たすためのパラメータであり、ここではβ<0である。リスク回避^Qテーブルは、下記の式(24)により計算される。 β is a parameter for imparting risk-averse characteristics, and here β<0. The risk-averse ^Q table is calculated by the following equation (24).

λは、リスクコントロールパラメータであり、Q(s,a)=(1/I)Σi=1 (s,a)は平均Qテーブルである。 λ p is the risk control parameter, Q(s, a)=(1/I)Σ i=1 I Q i (s, a) is the average Q table.

次に、現在の状態と探索率εが与えられると、εグリーディー戦略により行動a(t)が選択される。APは、選択された行動に基づきパケットを送信し、即時報酬(式(21))を受け取る(6~9行)。そして、環境が新たな状態に遷移する(10~16行)。このプロセスが、フレームの最大数Tに達するまで繰り返される。 Next, given the current state and search rate ε, an action a(t) is selected using the ε-greedy strategy. The AP transmits a packet based on the selected action and receives an immediate reward (Equation (21)) (lines 6-9). The environment then transitions to a new state (lines 10-16). This process is repeated until the maximum number of frames T is reached.

(ハードウェア構成例)
無線基地局100と無線端末200はいずれも、例えば、コンピュータにプログラムを実行させることにより実現することも可能である。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。以下、無線基地局100と無線端末200を総称して通信装置と呼ぶ。
(Example of hardware configuration)
Both the radio base station 100 and the radio terminal 200 can be realized, for example, by causing a computer to execute a program. This computer may be a physical computer or a virtual machine on a cloud. Hereinafter, the radio base station 100 and the radio terminal 200 will be collectively referred to as communication devices.

すなわち、通信装置は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、通信装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。 In other words, a communication device can be realized by using hardware resources such as a CPU and memory built into a computer to execute a program corresponding to the processing performed by the communication device. The program can be recorded on a computer-readable recording medium (such as portable memory) and then saved or distributed. The program can also be provided via a network such as the Internet or email.

図8は、上記コンピュータのハードウェア構成例を示す図である。図8のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。なお、通信装置において、表示装置1006を備えないこととしてもよい。 Figure 8 is a diagram showing an example of the hardware configuration of the computer. The computer in Figure 8 has a drive device 1000, an auxiliary storage device 1002, a memory device 1003, a CPU 1004, an interface device 1005, a display device 1006, an input device 1007, an output device 1008, and the like, all of which are interconnected by a bus BS. Note that the communication device may not have the display device 1006.

当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。 The program that realizes processing on the computer is provided by a recording medium 1001, such as a CD-ROM or memory card. When the recording medium 1001 storing the program is inserted into the drive device 1000, the program is installed from the recording medium 1001 to the auxiliary storage device 1002 via the drive device 1000. However, the program does not necessarily have to be installed from the recording medium 1001; it can also be downloaded from another computer via a network. The auxiliary storage device 1002 stores the installed program as well as necessary files, data, etc.

メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、通信装置に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。 When an instruction to start a program is received, the memory device 1003 reads and stores the program from the auxiliary storage device 1002. The CPU 1004 implements functions related to the communication device in accordance with the program stored in the memory device 1003. The interface device 1005 is used as an interface for connecting to a network. The display device 1006 displays a GUI (Graphical User Interface) or the like according to the program. The input device 1007 is composed of a keyboard, mouse, buttons, touch panel, or the like, and is used to input various operational instructions. The output device 1008 outputs the results of calculations.

(実施の形態の効果)
本実施の形態に係る技術により、環境の変化に追随しつつ所望の通信品質と無線リソースの利用効率の向上とを両立させるための技術を提供することができる。
(Effects of the embodiment)
The technology according to the present embodiment can provide a technology for achieving both a desired communication quality and improved utilization efficiency of wireless resources while adapting to changes in the environment.

(付記)
本明細書には、少なくとも下記各項の通信装置、及び通信方法が開示されている。
(第1項)
複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置。
(第2項)
前記強化学習部は、各無線インタフェースでのパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
第1項に記載の通信装置。
(第3項)
前記強化学習部は、パケット送信先の複数のデバイスからフィードバックを受信する受信部を更に備え、
前記強化学習部は、前記フィードバックに基づいて、前記パケットロス率を算出する
第2項に記載の通信装置。
(第4項)
前記強化学習部は、全デバイスに対する平均パケット受信成功率と、QoS目標値が未達成の状態であるリスク状態によるペナルティーに基づいて即時報酬を計算し、過去の即時報酬を用いて、高リスク行動に対する報酬の低下を反映するように、平均効用関数を最大化するポリシーを算出する
第1項ないし第3項のうちいずれか1項に記載の通信装置。
(第5項)
前記通信装置は、第1無線インタフェースと、前記第1無線インタフェースよりも高いデータレートによる通信を行う第2無線インタフェースを備え、
前記強化学習部により選択される行動は、前記第1無線インタフェースのみを使用、前記第2無線インタフェースのみを使用、及び、前記第2無線インタフェースを優先的に使用、の3つの行動のうちのいずれかの行動である
第1項ないし第4項のうちいずれか1項に記載の通信装置。
(第6項)
第1項ないし第5項のうちいずれか1項に記載の通信装置と、前記デバイスを含む通信システム。
(第7項)
複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法。
(Additional Note)
This specification discloses at least the following communication devices and communication methods.
(Section 1)
A communication device that performs wireless communication using a plurality of wireless interfaces,
a wireless interface for transmitting packets to a device; and a reinforcement learning unit for determining, using risk-averse reinforcement learning, the number of packets to be transmitted to the device via the wireless interface;
a transmitting unit that transmits the number of packets determined by the reinforcement learning unit to the device.
(Section 2)
The communication device described in paragraph 1, wherein the reinforcement learning unit learns actions for the states through risk-averse reinforcement learning, with the satisfaction level based on the packet loss rate on each wireless interface being the state, and the combination of wireless interfaces used by each device and the number of packets transmitted on each wireless interface being the actions.
(Section 3)
the reinforcement learning unit further includes a receiving unit that receives feedback from a plurality of devices that are packet destinations;
The communication device according to claim 2, wherein the reinforcement learning unit calculates the packet loss rate based on the feedback.
(Section 4)
The reinforcement learning unit calculates an immediate reward based on the average packet reception success rate for all devices and a penalty due to a risk state in which the QoS target value is not achieved, and calculates a policy that maximizes the average utility function using past immediate rewards so as to reflect a decrease in reward for high-risk behavior. The communication device described in any one of paragraphs 1 to 3.
(Section 5)
the communication device includes a first wireless interface and a second wireless interface that performs communication at a data rate higher than that of the first wireless interface;
The communication device described in any one of paragraphs 1 to 4, wherein the behavior selected by the reinforcement learning unit is one of three behaviors: using only the first wireless interface, using only the second wireless interface, and using the second wireless interface preferentially.
(Section 6)
6. A communication system including the communication device according to any one of claims 1 to 5.
(Section 7)
A communication method executed by a communication device that performs wireless communication using a plurality of wireless interfaces,
a reinforcement learning step of determining a wireless interface for transmitting packets to a certain device and the number of packets to be transmitted to the device via the wireless interface using risk-averse reinforcement learning;
a transmitting step of transmitting the number of packets determined by the reinforcement learning step to the device.

以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 The present embodiment has been described above, but the present invention is not limited to this specific embodiment, and various modifications and variations are possible within the scope of the gist of the present invention as set forth in the claims.

100 無線基地局
101 アンテナ
110 通信I/F部
120 制御部
130 無線通信部
131 受信部
132 無線通信信号生成部
135 RF部
140 スケジューラ部
141 通信品質測定部
142 全体無線リソース割当算出部
143 個別無線リソース割当算出部
150 強化学習部
151 Qテーブル管理部
152 状態算出部
153 報酬算出部
154 リスク評価部
200 無線端末
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置
100 Wireless base station 101 Antenna 110 Communication I/F unit 120 Control unit 130 Wireless communication unit 131 Receiving unit 132 Wireless communication signal generation unit 135 RF unit 140 Scheduler unit 141 Communication quality measurement unit 142 Total wireless resource allocation calculation unit 143 Individual wireless resource allocation calculation unit 150 Reinforcement learning unit 151 Q table management unit 152 State calculation unit 153 Reward calculation unit 154 Risk evaluation unit 200 Wireless terminal 1000 Drive device 1001 Recording medium 1002 Auxiliary storage device 1003 Memory device 1004 CPU
1005 Interface device 1006 Display device 1007 Input device 1008 Output device

Claims (8)

複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置であり、
前記強化学習部は、各無線インタフェースでのパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
通信装置。
A communication device that performs wireless communication using a plurality of wireless interfaces,
a wireless interface for transmitting packets to a device; and a reinforcement learning unit for determining, using risk-averse reinforcement learning, the number of packets to be transmitted to the device via the wireless interface;
a transmitting unit that transmits the number of packets determined by the reinforcement learning unit to the device;
A communication device comprising:
The reinforcement learning unit learns actions for the states through risk-averse reinforcement learning, where the state is a satisfaction level based on the packet loss rate in each wireless interface, and the actions are the combination of wireless interfaces used by each device and the number of packets transmitted in each wireless interface.
前記強化学習部は、パケット送信先の複数のデバイスからフィードバックを受信する受信部を更に備え、
前記強化学習部は、前記フィードバックに基づいて、前記パケットロス率を算出する
請求項に記載の通信装置。
the reinforcement learning unit further includes a receiving unit that receives feedback from a plurality of devices that are packet destinations;
The communication device according to claim 1 , wherein the reinforcement learning unit calculates the packet loss rate based on the feedback.
複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置であり、
前記強化学習部は、全デバイスに対する平均パケット受信成功率と、QoS目標値が未達成の状態であるリスク状態によるペナルティーに基づいて即時報酬を計算し、過去の即時報酬を用いて、高リスク行動に対する報酬の低下を反映するように、平均効用関数を最大化するポリシーを算出する
通信装置。
A communication device that performs wireless communication using a plurality of wireless interfaces,
a wireless interface for transmitting packets to a device; and a reinforcement learning unit for determining, using risk-averse reinforcement learning, the number of packets to be transmitted to the device via the wireless interface;
a transmitting unit that transmits the number of packets determined by the reinforcement learning unit to the device;
A communication device comprising:
The reinforcement learning unit calculates an immediate reward based on the average packet reception success rate for all devices and a penalty due to a risk state in which the QoS target value is not achieved, and calculates a policy that maximizes the average utility function using past immediate rewards so as to reflect a decrease in reward for high-risk behavior.
複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置であり、
前記通信装置は、第1無線インタフェースと、前記第1無線インタフェースよりも高いデータレートによる通信を行う第2無線インタフェースを備え、
前記強化学習部により選択される行動は、前記第1無線インタフェースのみを使用、前記第2無線インタフェースのみを使用、及び、前記第2無線インタフェースを優先的に使用、の3つの行動のうちのいずれかの行動である
通信装置。
A communication device that performs wireless communication using a plurality of wireless interfaces,
a wireless interface for transmitting packets to a device; and a reinforcement learning unit for determining, using risk-averse reinforcement learning, the number of packets to be transmitted to the device via the wireless interface;
a transmitting unit that transmits the number of packets determined by the reinforcement learning unit to the device;
A communication device comprising:
the communication device includes a first wireless interface and a second wireless interface that performs communication at a data rate higher than that of the first wireless interface;
The behavior selected by the reinforcement learning unit is one of three behaviors: using only the first wireless interface, using only the second wireless interface, and using the second wireless interface preferentially.
請求項1ないしのうちいずれか1項に記載の通信装置と、前記デバイスを含む通信システム。 A communication system including a communication apparatus according to any one of claims 1 to 4 and said device. 複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法であり、
前記強化学習ステップにおいて、前記通信装置は、各無線インタフェースでのパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
通信方法
A communication method executed by a communication device that performs wireless communication using a plurality of wireless interfaces,
a reinforcement learning step of determining a wireless interface for transmitting packets to a certain device and the number of packets to be transmitted to the device via the wireless interface using risk-averse reinforcement learning;
a transmitting step of transmitting the number of packets determined by the reinforcement learning step to the device ,
In the reinforcement learning step, the communication device learns an action for the state by risk-averse reinforcement learning, where a satisfaction level based on a packet loss rate in each wireless interface is set as a state, and a combination of wireless interfaces used by each device and the number of packets transmitted in each wireless interface are set as actions.
Communication method .
複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法であり、
前記強化学習ステップにおいて、前記通信装置は、全デバイスに対する平均パケット受信成功率と、QoS目標値が未達成の状態であるリスク状態によるペナルティーに基づいて即時報酬を計算し、過去の即時報酬を用いて、高リスク行動に対する報酬の低下を反映するように、平均効用関数を最大化するポリシーを算出する
通信方法
A communication method executed by a communication device that performs wireless communication using a plurality of wireless interfaces,
a reinforcement learning step of determining a wireless interface for transmitting packets to a certain device and the number of packets to be transmitted to the device via the wireless interface using risk-averse reinforcement learning;
a transmitting step of transmitting the number of packets determined by the reinforcement learning step to the device ,
In the reinforcement learning step, the communication device calculates an immediate reward based on an average packet reception success rate for all devices and a penalty due to a risk state in which the QoS target value is not achieved, and calculates a policy that maximizes an average utility function using past immediate rewards so as to reflect a decrease in reward for high-risk behavior.
Communication method .
複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法であり、
前記通信装置は、第1無線インタフェースと、前記第1無線インタフェースよりも高いデータレートによる通信を行う第2無線インタフェースを備え、
前記強化学習ステップにより選択される行動は、前記第1無線インタフェースのみを使用、前記第2無線インタフェースのみを使用、及び、前記第2無線インタフェースを優先的に使用、の3つの行動のうちのいずれかの行動である
通信方法
A communication method executed by a communication device that performs wireless communication using a plurality of wireless interfaces,
a reinforcement learning step of determining a wireless interface for transmitting packets to a certain device and the number of packets to be transmitted to the device via the wireless interface using risk-averse reinforcement learning;
a transmitting step of transmitting the number of packets determined by the reinforcement learning step to the device;
A communication method comprising:
the communication device includes a first wireless interface and a second wireless interface that performs communication at a data rate higher than that of the first wireless interface;
The behavior selected by the reinforcement learning step is one of three behaviors: using only the first wireless interface, using only the second wireless interface, and using the second wireless interface preferentially.
Communication method .
JP2022020561A 2022-02-14 2022-02-14 Communication device, communication system, and communication method Active JP7720587B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022020561A JP7720587B2 (en) 2022-02-14 2022-02-14 Communication device, communication system, and communication method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022020561A JP7720587B2 (en) 2022-02-14 2022-02-14 Communication device, communication system, and communication method

Publications (2)

Publication Number Publication Date
JP2023117803A JP2023117803A (en) 2023-08-24
JP7720587B2 true JP7720587B2 (en) 2025-08-08

Family

ID=87654028

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022020561A Active JP7720587B2 (en) 2022-02-14 2022-02-14 Communication device, communication system, and communication method

Country Status (1)

Country Link
JP (1) JP7720587B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009171353A (en) 2008-01-17 2009-07-30 Advanced Telecommunication Research Institute International Wireless communication network and wireless device used therefor
WO2021121541A1 (en) 2019-12-16 2021-06-24 Telefonaktiebolaget Lm Ericsson (Publ) Reliable device-to-device communication

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009171353A (en) 2008-01-17 2009-07-30 Advanced Telecommunication Research Institute International Wireless communication network and wireless device used therefor
WO2021121541A1 (en) 2019-12-16 2021-06-24 Telefonaktiebolaget Lm Ericsson (Publ) Reliable device-to-device communication

Also Published As

Publication number Publication date
JP2023117803A (en) 2023-08-24

Similar Documents

Publication Publication Date Title
Xu et al. Constrained reinforcement learning for resource allocation in network slicing
US8422444B2 (en) Dynamic channel and transmission rate selection
EP4044691B1 (en) Power adjusting method and access network device
US20130225220A1 (en) Apparatus and method for scheduling transmission resources to users served by a base station using a prediction of rate regions
US11641223B2 (en) Method for controlling transmission mode of access node in ultra-dense radio network, and apparatus therefor
Wang et al. Reinforcement learning based resource allocation for network slicing in 5G C-RAN
EP3871443B1 (en) Cloud-server based client steering involving client steering daemons
CN114025359B (en) Resource allocation and computation offloading method, system, device and medium based on deep reinforcement learning
Balevi et al. A clustering algorithm that maximizes throughput in 5G heterogeneous F-RAN networks
CN116033556B (en) A Resource Allocation Method for Large-Scale URLLC with High Energy Efficiency
US7940690B2 (en) Apparatus and method for determining transmission mode in wireless communication system
CN115552973A (en) Method and apparatus for network load balancing optimization
US10555215B2 (en) Management apparatus, communication system, and allocation method
CN114302497B (en) Scheduling method applied to coexistence of unlicensed millimeter wave band heterogeneous networks
CN118647087A (en) Resource scheduling method, device, equipment, medium and product
EP2519058B1 (en) Method for attaching a user terminal to a base station of a network
JP7720587B2 (en) Communication device, communication system, and communication method
Tian et al. MSRA: Mode Selection and Resource Allocation for Cooperative Vehicle-Infrastructure System
Zhai et al. Antenna subarray management for hybrid beamforming in millimeter-wave mesh backhaul networks
Kaneko et al. A Multi-Agent Risk-Averse Reinforcement Learning Method for Reliability Enhancement in Sub-6GHz/mmWave Mobile Networks
EP2613405B1 (en) Antenna array control method and access point using the same
Nassar et al. Reinforcement learning-based resource allocation in fog RAN for IoT with heterogeneous latency requirements
US10980041B1 (en) Method and apparatus for scheduling in wireless communication system
JP2024154278A (en) Aggregation device, communication system, communication method, and program
Shin et al. Deep reinforcement learning assisted multi-operator spectrum sharing in cell-free MIMO networks

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20220215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240426

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20240701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20240702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250430

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250715

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250718

R150 Certificate of patent or registration of utility model

Ref document number: 7720587

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150