JP7393765B2 - Wireless communication device, beam direction control device, beam direction control method and program - Google Patents
Wireless communication device, beam direction control device, beam direction control method and program Download PDFInfo
- Publication number
- JP7393765B2 JP7393765B2 JP2020104391A JP2020104391A JP7393765B2 JP 7393765 B2 JP7393765 B2 JP 7393765B2 JP 2020104391 A JP2020104391 A JP 2020104391A JP 2020104391 A JP2020104391 A JP 2020104391A JP 7393765 B2 JP7393765 B2 JP 7393765B2
- Authority
- JP
- Japan
- Prior art keywords
- wireless communication
- state information
- beam direction
- environmental state
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004891 communication Methods 0.000 title claims description 334
- 238000000034 method Methods 0.000 title claims description 49
- 230000007613 environmental effect Effects 0.000 claims description 289
- 238000011217 control strategy Methods 0.000 claims description 35
- 238000012544 monitoring process Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000008859 change Effects 0.000 claims description 16
- 238000009434 installation Methods 0.000 claims description 11
- 230000001186 cumulative effect Effects 0.000 description 37
- 238000012937 correction Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- 230000007423 decrease Effects 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Mobile Radio Communication Systems (AREA)
Description
本発明は、無線通信装置、ビーム方向制御装置、ビーム方向制御方法及びプログラムに関する。 The present invention relates to a wireless communication device, a beam direction control device, a beam direction control method, and a program.
近年、高速通信が可能なミリ波無線通信技術が注目されている。ミリ波帯を採用した無線通信システムとして、無線LAN(IEEE 802.11ad、802.11ay)/無線PAN(IEEE 802.15.3e)に加え、第五世代の移動体通信システムなどで国際標準規格が制定されている。 In recent years, millimeter wave wireless communication technology that enables high-speed communication has attracted attention. In addition to wireless LAN (IEEE 802.11ad, 802.11ay)/wireless PAN (IEEE 802.15.3e), international standards have been established for wireless communication systems that use the millimeter wave band, such as fifth-generation mobile communication systems. There is.
周波数が6GHz以下のマイクロ波帯に比べて、周波数が数十GHz以上のミリ波帯では、伝搬減衰が大きいという特徴を有する。こうした伝搬減衰を補償するため、上記の標準化された無線通信システムでは、アレーアンテナを用いて指向性ビームを形成することにより無線通信品質を改善する技術が盛り込まれている。特定の方向に形成されたアレーアンテナのビーム(以下、ビーム方向と記載)により、ミリ波帯の無線通信システムは屋外での高速の無線伝送にも適用可能となった。 A millimeter wave band with a frequency of several tens of GHz or more has a characteristic that propagation attenuation is large compared to a microwave band with a frequency of 6 GHz or less. In order to compensate for such propagation attenuation, the standardized wireless communication system described above incorporates a technique for improving wireless communication quality by forming a directional beam using an array antenna. The beam of the array antenna formed in a specific direction (hereinafter referred to as beam direction) has made millimeter wave band wireless communication systems applicable to high-speed wireless transmission outdoors.
屋外にミリ波無線通信システムを適用することにより、マクロセル(Macro-Cell)とピコセル(Pico-Cell)とを接続した無線通信システムがある(例えば、非特許文献1参照)。ピコセルは、主に屋外でエンドユーザに近い場所(電柱や架線等)に設置されることが一般的である。こうした屋外環境では、風などの外因により、設置された送信機の変位が頻繁に発生する。送信機の変位が発生すると、送受信で対向させるべきビーム方向の不対向が生じるため伝搬減衰を補償できず、無線通信品質の低下が頻発する。 There is a wireless communication system in which a macro cell (Macro-Cell) and a pico-cell (Pico-Cell) are connected by applying a millimeter wave wireless communication system outdoors (for example, see Non-Patent Document 1). Pico cells are generally installed outdoors near end users (on utility poles, overhead wires, etc.). In such outdoor environments, installed transmitters are frequently displaced due to external factors such as wind. When the transmitter is displaced, the beam directions that should be opposed during transmission and reception become unopposed, making it impossible to compensate for propagation attenuation, resulting in frequent deterioration of wireless communication quality.
図8を用いて、風などの外因によりビーム方向の不対向が発生する一例を説明する。無線通信装置91は、電柱92と電柱93との間の架線94上に取り付けられている。一方、無線通信装置91の通信先の無線通信装置95は、建物96に設置されている。無線通信装置91のビームB91は、無線通信装置95のビームB95と対向するように設定される。しかし、図8では、風の力により無線通信装置91が押されることによりビームB91の方向が対向する無線通信装置95のビームB95から外れてしまい、無線通信品質が低下するという事象が発生している。このように、小型化されたアンテナを用いる無線通信装置は、風などの外力によりビーム方向が不規則な運動で揺れ、対向する装置とのビーム不対向が生じる。
An example in which beam directions become unopposed due to external factors such as wind will be described with reference to FIG. 8. The
通常のミリ波無線通信システムでは、無線通信品質を改善するため、通信する両方の無線通信装置でビーム方向を合わせる必要がある。ビーム方向を合わせる方法として、両方の無線通信装置それぞれが変更し得るビーム方向をすべて探索し、最良の無線通信品質が得られるビーム方向(例えば受信電力が最大となる方向)を特定した上で、その特定したビーム方向を通信相手に通知する方法が考えられる。しかし、風により頻繁に振動するような環境では、無線通信品質を維持するためには、双方の無線通信装置が最良の無線通信品質が得られるように頻繁にビーム方向を探索しなければならない。上述したようなビーム方向の探索が頻繁に行われた場合、利用可能な無線通信リソース(タイムスロットなど)の減少が大きな問題となる。 In a typical millimeter wave wireless communication system, in order to improve wireless communication quality, it is necessary to align the beam directions of both communicating wireless communication devices. As a method for aligning the beam directions, search all the beam directions that can be changed by both wireless communication devices, identify the beam direction that provides the best wireless communication quality (for example, the direction where the received power is maximum), and then A possible method is to notify the communication partner of the identified beam direction. However, in an environment where there is frequent vibration due to wind, in order to maintain wireless communication quality, both wireless communication devices must frequently search for beam directions to obtain the best wireless communication quality. When beam direction searches as described above are performed frequently, a reduction in available wireless communication resources (time slots, etc.) becomes a major problem.
上述のように、ミリ波無線通信システムでは、無線通信品質を改善するために通信する双方のビーム方向を対向させる必要があることから、頻繁にビーム方向に変動が生じる環境においては、頻繁にビーム方向を探索する必要性が増加する。しかし、無線通信装置がこの探索を行っている期間では、無線通信に利用可能なリソースが減少するという問題がある。 As mentioned above, in a millimeter wave wireless communication system, in order to improve the quality of wireless communication, it is necessary to make the beam directions of both sides facing each other. Increased need to search for direction. However, there is a problem in that during the period when the wireless communication device is performing this search, resources available for wireless communication decrease.
一方で、人体によるシャドーイングという環境の外因により無線通信品質への影響が生じうるミリ波無線通信システムを、学習に基づいて制御する技術がある(非特許文献2参照)。図9を用いて、この技術において想定される無線通信システムの構成概要と、その無線通信システムの無線通信品質に影響を与える外因について説明する。図9に示すように、屋内にミリ波のアクセスポイント(以下、APと記載)98が2台設置されている。これら2台のAP98を、AP98-1、AP98-2と記載する。端末局(以下、STAと記載)99は、ビーム方向の変更により、AP98-1またはAP98-2と無線通信が可能である。歩行者97は、AP98-1とSTA99の間、またはAP98-2とSTA99の間のランダムな経路Wを移動する。歩行者97は、移動の方向や速度の変更も可能である。歩行者97がAP98-1とSTAとの間を横切る際のある瞬間に、AP98-1またはSTA99のいずれかのビーム、もしくはそれら両方のビームが歩行者97(人体)により遮蔽された場合、シャドーイングにより無線通信品質が大きく劣化する。こうした人体遮蔽の事象は、無線通信品質に影響を与える外因となる。
On the other hand, there is a technique for controlling, based on learning, a millimeter wave wireless communication system in which wireless communication quality may be affected by an external environmental factor such as shadowing by a human body (see Non-Patent Document 2). An overview of the configuration of a wireless communication system assumed in this technology and external factors that affect the wireless communication quality of the wireless communication system will be described using FIG. 9. As shown in FIG. 9, two millimeter wave access points (hereinafter referred to as AP) 98 are installed indoors. These two AP98s are referred to as AP98-1 and AP98-2. A terminal station (hereinafter referred to as STA) 99 is capable of wireless communication with AP 98-1 or AP 98-2 by changing the beam direction. The
非特許文献2では、上述した人体遮蔽といった外因の影響を克服するため、カメラの映像により歩行者の位置を把握し、その位置に基づいてSTAにとって最適な通信が可能なAPを選択する制御方法が提案されている。すなわち、通信中のAPとSTAの指向性ビームが人体に遮蔽される事象を外因として、カメラ映像で歩行者の位置情報を取得する。そして、取得した位置情報に基づいて遮蔽の発生を予測した上で、人体に遮蔽されないAPにSTAをハンドオーバさせるよう制御する。図9に示す無線通信システムの場合、この動作例は次のようになる。すなわち、STA99は、AP98-1と通信中に、映像に基づいてAP98-1とSTA99との間を横断する歩行者97により遮蔽が生じると予測すると、予めビーム方向をAP98-2に向けるよう変更(ハンドオーバ制御)する。これにより、長期的に観測した無線通信品質(スループットの累積値など)を最大化して、人体遮蔽による無線通信品質の低下を回避できる。
In
上述した非特許文献2の制御方法は、無線通信品質に影響を与える環境の外因として、屋内環境における人体遮蔽の事象のみを考慮している。これは、一人の歩行者の平面移動といった比較的単純な外因に対する制御方法である。このように、非特許文献2の技術では、比較的単純な外因について学習を行うため、膨大な処理リソースを用いることなく、環境状態/制御方法の対応関係をうまく学習できる。
The control method of Non-Patent
しかしながら、図8に示したような屋外環境では、無線通信品質へ影響を与える外因が多数存在する。例えば、風の条件に関しては、瞬時風速や風向、大気密度、空気の抗力係数などの条件について考慮する必要がある。また、無線通信装置の設置条件に関しては、架線長、架線の材質、地上からの高さなどの条件について考慮する必要がある。このような、多数の外因についてすべて網羅的に学習することは非常に困難である。非特許文献2に示された学習に基づく制御方法では、外因が頻繁に変動するときに、新たな外因に対応しきれず、改めて学習する必要が生じる。言い換えれば、未学習の外因があれば、ビーム方向が不対向になりえる。つまり、この学習に基づく制御方法自体は、多数の外因が存在する環境においてはビーム方向制御の失敗回数が増えると考えられる。
However, in an outdoor environment as shown in FIG. 8, there are many external factors that affect wireless communication quality. For example, regarding wind conditions, it is necessary to consider conditions such as instantaneous wind speed, wind direction, atmospheric density, and air drag coefficient. Furthermore, regarding the installation conditions of the wireless communication device, it is necessary to consider conditions such as the length of the overhead wire, the material of the overhead wire, and the height from the ground. It is extremely difficult to comprehensively learn all about such a large number of external causes. In the control method based on learning shown in
上記事情に鑑み、本発明は、複雑な外因の変動環境においても、ビーム方向制御の失敗を低減できる無線通信装置、ビーム方向制御装置、ビーム方向制御方法及びプログラムを提供することを目的としている。 In view of the above circumstances, an object of the present invention is to provide a wireless communication device, a beam direction control device, a beam direction control method, and a program that can reduce failures in beam direction control even in an environment where complex external factors change.
本発明の一態様は、ビーム方向を制御可能な無線通信装置であって、ビームを形成して無線通信を行う無線通信部と、自装置の設置環境に関する情報である環境状態情報を取得するセンサと、前記無線通信部による無線通信の品質を示す無線通信品質情報を取得する無線通信品質監視部と、前記無線通信部に対してビーム方向の制御指示を出力するビーム方向制御部と、を備え、前記ビーム方向制御部は、前記環境状態情報とビーム方向が制御された前後の前記無線通信品質情報とを用いて、前記環境状態情報に応じて無線通信の品質を向上させるビーム方向の制御の方法を示すビーム制御方策を学習し、学習結果に基づいて前記環境状態情報に応じた前記ビーム制御方策を決定し、決定した前記ビーム制御方策に従ったビーム方向の制御指示を前記無線通信部に出力する第1の学習部と、環境状態情報を生成するための演算を示す情報生成方策に従って生成された環境状態情報と、生成された前記環境状態情報に応じて前記第1の学習部が出力した前記制御指示に基づいてビーム方向が制御された前後の前記無線通信品質情報とを用いて、無線通信の品質を低下させる環境状態情報を生成する情報生成方策を学習し、学習された前記情報生成方策に基づいて環境状態情報を生成する第2の学習部と、前記センサにより取得した前記環境状態情報と前記第2の学習部により生成された前記環境状態情報とのいずれを前記第1の学習部に入力するかを切り替える切替部と、を備える、無線通信装置である。 One aspect of the present invention is a wireless communication device that can control a beam direction, and includes a wireless communication unit that forms a beam and performs wireless communication, and a sensor that acquires environmental status information that is information about the installation environment of the device. a wireless communication quality monitoring unit that acquires wireless communication quality information indicating the quality of wireless communication by the wireless communication unit; and a beam direction control unit that outputs a beam direction control instruction to the wireless communication unit. , the beam direction control unit controls the beam direction to improve the quality of wireless communication according to the environmental state information, using the environmental state information and the wireless communication quality information before and after the beam direction is controlled. learning a beam control policy indicating a method, determining the beam control policy according to the environmental state information based on the learning result, and instructing the radio communication unit to control the beam direction according to the determined beam control policy; a first learning unit that outputs, environmental status information generated according to an information generation policy indicating a calculation for generating environmental status information, and the first learning unit outputs according to the generated environmental status information. learning an information generation policy for generating environmental state information that degrades the quality of wireless communication using the wireless communication quality information before and after the beam direction was controlled based on the control instruction, and learning the learned information. a second learning unit that generates environmental state information based on a generation policy; and a second learning unit that generates environmental state information based on a generation policy; A wireless communication device includes a switching unit that switches input to a learning unit.
本発明の一態様は、ビーム方向を制御可能な無線通信装置の設置環境に関する情報である環境状態情報と、前記無線通信装置のビーム方向が制御された前後それぞれにおける無線通信の品質を示す無線通信品質情報とを用いて、前記環境状態情報に応じて無線通信の品質を向上させるビーム方向の制御の方法を示すビーム制御方策を学習し、学習結果に基づいて前記環境状態情報に応じた前記ビーム制御方策を決定し、決定した前記ビーム制御方策に従ったビーム方向の制御指示を前記無線通信装置に出力する第1の学習部と、環境状態情報を生成するための演算を示す情報生成方策に従って生成された環境状態情報と、生成された前記環境状態情報に応じて前記第1の学習部が出力した前記制御指示に基づいてビーム方向が制御された前後それぞれの前記無線通信品質情報とを用いて、無線通信の品質を低下させる環境状態情報を生成する情報生成方策を学習し、学習された前記情報生成方策に基づいて環境状態情報を生成する第2の学習部と、前記無線通信装置のセンサにより取得した前記環境状態情報と前記第2の学習部により生成された前記環境状態情報とのいずれを前記第1の学習部に入力するかを切り替える切替部と、を備えるビーム方向制御装置である。 One aspect of the present invention provides environmental state information that is information regarding the installation environment of a wireless communication device that can control a beam direction, and wireless communication that indicates the quality of wireless communication before and after the beam direction of the wireless communication device is controlled. The quality information is used to learn a beam control policy that indicates a beam direction control method that improves the quality of wireless communication according to the environmental state information, and based on the learning result, the beam direction is adjusted according to the environmental state information. a first learning unit that determines a control strategy and outputs a beam direction control instruction to the wireless communication device according to the determined beam control strategy; and an information generation strategy that indicates a calculation for generating environmental state information. Using the generated environmental state information and the wireless communication quality information before and after the beam direction is controlled based on the control instruction outputted by the first learning unit according to the generated environmental state information. a second learning unit that learns an information generation strategy for generating environmental status information that degrades the quality of wireless communication, and generates environmental status information based on the learned information generation strategy; A beam direction control device comprising: a switching unit that switches which of the environmental state information acquired by a sensor and the environmental state information generated by the second learning unit is input to the first learning unit. be.
本発明の一態様は、ビーム方向を制御可能な無線通信装置が実行するビーム方向制御方法であって、無線通信部が、ビームを形成して無線通信を行う通信ステップと、センサが前記無線通信装置の設置環境に関する情報である環境状態情報を取得する環境状態情報取得ステップと、無線通信品質監視部が、前記無線通信部による無線通信の品質を示す無線通信品質情報を取得する無線通信品質情報取得ステップと、ビーム方向制御部が、前記無線通信部に対してビーム方向の制御指示を出力するビーム方向制御ステップとを有し、前記ビーム方向制御ステップは、前記環境状態情報とビーム方向が制御された前後の前記無線通信品質情報とを用いて、前記環境状態情報に応じて無線通信の品質を向上させるビーム方向の制御の方法を示すビーム制御方策を学習し、学習結果に基づいて前記環境状態情報に応じた前記ビーム制御方策を決定し、決定した前記ビーム制御方策に従ったビーム方向の制御指示を前記無線通信部に出力する第1の学習ステップと、環境状態情報を生成するための演算を示す情報生成方策に従って生成された環境状態情報と、生成された前記環境状態情報に応じて前記第1の学習ステップにおいて出力された前記制御指示に基づいてビーム方向が制御された前後の前記無線通信品質情報とを用いて、無線通信品質を低下させる環境状態情報を生成する情報生成方策を学習し、学習された前記情報生成方策に基づいて環境状態情報を生成する第2の学習ステップと、前記環境状態情報取得ステップにおいて取得された前記環境状態情報と前記第2の学習ステップにおいて生成された前記環境状態情報とのいずれを前記第1の学習ステップにおいて用いるかを切り替える切替ステップと、を有するビーム方向制御方法である。 One aspect of the present invention is a beam direction control method executed by a wireless communication device capable of controlling a beam direction, which includes a communication step in which a wireless communication unit forms a beam and performs wireless communication, and a sensor performs the wireless communication. an environmental status information acquisition step of acquiring environmental status information which is information regarding the installation environment of the device; and wireless communication quality information where the wireless communication quality monitoring unit acquires wireless communication quality information indicating the quality of wireless communication by the wireless communication unit. and a beam direction control step in which the beam direction control unit outputs a beam direction control instruction to the wireless communication unit, and the beam direction control step includes the step of controlling the environmental state information and the beam direction. A beam control strategy indicating a beam direction control method that improves the quality of wireless communication according to the environmental state information is learned using the wireless communication quality information before and after the environment state information, and based on the learning result, the wireless communication quality information a first learning step of determining the beam control policy according to state information and outputting a beam direction control instruction according to the determined beam control policy to the wireless communication unit; The environmental state information generated according to the information generation policy indicating the calculation, and the beam direction before and after the beam direction is controlled based on the control instruction outputted in the first learning step according to the generated environmental state information. a second learning step of learning an information generation policy for generating environmental status information that degrades wireless communication quality using the wireless communication quality information, and generating environmental status information based on the learned information generation policy; , a switching step of switching which of the environmental state information acquired in the environmental state information acquisition step and the environmental state information generated in the second learning step is to be used in the first learning step; This is a beam direction control method.
本発明の一態様は、コンピュータを、上述のビーム方向制御装置として機能させるためのプログラムである。 One aspect of the present invention is a program for causing a computer to function as the beam direction control device described above.
本発明により、複雑な外因の変動環境においても、ビーム方向制御の失敗を低減させることが可能となる。 According to the present invention, it is possible to reduce failures in beam direction control even in an environment with complex fluctuations due to external factors.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。 Embodiments of the present invention will be described in detail below with reference to the drawings.
<無線通信装置の構成と機能>
図1は本発明の一実施形態による無線通信装置1の構成を示すブロック図である。無線通信装置1は、指向性ビームを用いて対向の通信相手である他の無線通信装置と電波を送受信する。通信相手の無線通信装置は、無線通信装置1から一定の方向に存在する。無線通信装置1は、無線通信部11と、無線通信品質監視部12と、環境センサ13と、ビーム方向制御部15とを備える。
<Configuration and functions of wireless communication device>
FIG. 1 is a block diagram showing the configuration of a
無線通信部11は、指向性ビームのビーム方向を変更可能なアレーアンテナ、所定の無線周波数の無線を送受信するための高周波回路、信号処理回路などのデバイスから構成される。無線通信部11により、無線通信装置1は他の無線通信装置と無線通信する。無線通信部11は、ビーム方向制御部15からの制御指示により指示されたビーム方向に電波の指向性を形成するよう、アレーアンテナのウェイトを適切に調整する。ウェイトの調整により、アナログ方式で各アンテナ素子に入出力する無線信号の位相を調整すること、もしくはデジタル方式で各アンテナ素子に入出力する無線信号の振幅と位相を調整することが可能である。あるいは、ウェイトの調整により、上記のアナログ方式と上記のデジタル方式を組合せて、多段で各アンテナ素子に入出力する無線信号の振幅または位相を調整することが可能である。
The
無線通信品質監視部12は、自装置が無線通信に使用している指向性ビームのビーム方向と、そのビーム方向を用いた通信期間における無線通信品質に関する情報とを無線通信部11から取得する。無線通信品質に関する情報は、例えば、受信電力、受信電力対雑音比などである。以下の記載では説明の便宜上、無線通信品質を代表する例として受信電力を取り上げるが、他の指標を利用してもよい。無線通信品質監視部12は、取得したビーム方向を示すビーム方向情報と、取得した無線通信品質に関する情報を示す無線通信品質情報とをビーム方向制御部15に出力する。
The wireless communication
環境センサ13は、一つまたは複数のセンシング可能なデバイスから構成される。環境センサ13は、無線通信装置1の周辺の環境に関する情報である環境状態情報の検出又は取得を行う。環境状態情報は、例えば、風速、風向、無線通信装置1の運動回転速度や加速度、無線通信装置1の設置場所の高さなどである。環境センサ13は、検出又は取得した環境状態情報をビーム方向制御部15に出力する。
The
ビーム方向制御部15は、無線通信装置1が無線通信に使用する指向性ビームのビーム方向を制御する。ビーム方向制御部15は、自装置が無線通信に使用しているビーム方向を示すビーム方向情報と、そのビーム方向を使用している通信期間において得られた無線通信品質情報とを無線通信品質監視部12から取得する。さらに、ビーム方向制御部15は、上記の通信期間における環境状態情報を環境センサ13から取得する。ビーム方向制御部15は、取得したこれらの情報に基づいて、次の通信期間において、通信相手とビーム方向を対向させるための制御指示を無線通信部11に出力する。通信相手とビーム方向を対向させるとは、最大受信電力が得られるように指向性ビームのビーム方向を調整することである。
The beam
<ビーム方向制御部の構成と機能>
本実施形態におけるビーム方向制御部15が、ある通信期間における環境状態情報と無線通信に使用したビーム方向とを入力条件としてビーム制御方策を学習し、学習したビーム制御方策に基づいて次の通信期間で使用するビーム方向を制御する構成と機能を説明する。なお、ビーム制御方策とは、通信品質を向上させるためにビーム方向をどのように制御するかを表す。
<Configuration and function of beam direction control unit>
The beam
図2は、ビーム方向制御部15の詳細な構成を示すブロック図である。ビーム方向制御部15は、モード設定部151と、環境状態情報取得部152と、第1の学習部153と、第2の学習部154とを備える。
FIG. 2 is a block diagram showing the detailed configuration of the beam
ビーム方向制御部15は、第1の学習モードと第2の学習モードとの二つのモードで動作する。モード設定部151は、ビーム方向制御部15がそれら二つのモードのいずれで動作するかを設定する。第1の学習モードでは、第1の学習部153は、実際に環境センサ13により得られた環境状態情報を用いてビーム制御方策を学習する。第1の学習モードにおいて、モード設定部151は、第2の学習部154を動作させないように制御する。第2の学習モードにおいて、第2の学習部154は、実際には得られていない周辺の環境を疑似した環境状態情報を生成して第1の学習部153に入力する。これにより、多様な環境状態情報に応じたビーム制御方策を学習する契機を第1の学習部153に与える。以下では、第2の学習部154が生成した環境状態情報を疑似環境状態情報と記載する。
The beam
モード設定部151は、例えば、無線通信装置1に取り付けられたディップスイッチなどの物理的なスイッチである。あるいは、モード設定部151は、無線通信装置1に実装されたソフトウェアにより実現されてもよい。この場合、第1の学習部153は、外部の制御用パーソナルコンピュータ(PC)からの指示、又は、ネットワーク経由の遠隔制御を受けてモードを変更してもよい。また、あるいは、モード設定部151は、事前に設定されたスケジューラに従って、所定の時間に第1の学習モードから第2の学習モードに切り替え、また別の時間に第2の学習モードから第1の学習モードに切り替えるように、動作モードを変更しても構わない。
The
環境状態情報取得部152は、環境センサ13から環境状態情報を入力する。環境状態情報取得部152は、入力した環境状態情報を、第1の学習モードでは第1の学習部153に出力し、第2の学習モードでは第2の学習部154に出力する。モード設定部151及び環境状態情報取得部152により、環境センサ13が取得した環境状態情報と第2の学習部154が生成した疑似環境状態情報とのいずれを第1の学習部153に入力するかを切り替える切替部としての機能を実現する。
The environmental state
第1の学習部153は、環境状態情報と、ビーム方向が制御された前後の無線通信品質情報とを用いて、環境状態情報に応じて無線通信の品質を向上させるビーム制御方策を学習し、学習結果に基づいてビーム方向の制御指示を無線通信部11に出力する。第1の学習部153は、ビーム制御方策記憶部1531及び第1の累積報酬記憶部1532を備える。ビーム制御方策記憶部1531は、ビーム制御方策テーブルを記憶する。ビーム制御方策テーブルは、環境状態情報に対応したビーム制御方策を示す。本実施形態では、ビーム制御方策は、現在のビーム方向からの補正量により表される。第1の累積報酬記憶部1532は、第1の累積報酬を記憶する。第1の累積報酬は、第1の報酬を加算した値である。第1の報酬は、ビーム制御方策によって無線通信品質が改善した程度に応じて付与される値である。本実施形態では、改善の程度が大きいほど大きな値の第1の報酬が付与される。第1の報酬は、段階的な値でもよい。
The
第1の学習部153は、第1の学習モードにおいて、環境状態情報取得部152から環境状態情報を入力し、無線通信品質監視部12からビーム方向情報及び無線通信品質情報を入力する。第1の学習部153は、環境状態情報及びビーム方向に応じたビーム制御方策をビーム制御方策記憶部1531に記憶されているビーム制御方策テーブルから読み出す。第1の学習部153は、読み出したビーム制御方策に従ってビーム方向を制御するよう指示する制御指示を無線通信部11に出力する。
In the first learning mode, the
第1の学習部153は、ビーム制御方策に基づく制御指示に従って変更されたビーム方向により無線通信が行われている間の無線通信品質情報を無線通信品質監視部12から入力する。第1の学習部153は、このビーム方向が変更された前後の無線通信品質情報が示す通信品質の変化に応じて、ビーム制御方策に第1の報酬を付与する。第1の学習部153は、付与した第1の報酬を第1の累積報酬記憶部1532に出力する。第1の累積報酬記憶部1532は、記憶している第1の累積報酬の値を、入力した第1の報酬を加算した値に更新する。第1の学習部153は、第1の報酬が低いビーム制御方策を変更する。これにより、第1の学習部153は、一定期間における第1の累積報酬が最大化するように、ビーム制御方策を変更する。
The
第1の学習部153は、第2の学習モードにおいて、環境状態情報取得部152から環境状態情報を入力する代わりに、第2の学習部154から疑似環境状態情報を入力する。第1の学習部153は、この疑似環境状態情報を環境状態情報取得部152から入力した環境状態情報の代わりに用いて、上記の第1の学習モードと同様の動作を行う。
In the second learning mode, the
第2の学習部154は、第1の学習モードでは動作せず、第2の学習モードにおいて動作する。第2の学習部154は、情報生成方策に従って生成された疑似環境状態情報と、疑似環境状態情報に応じて第1の学習部153が決定したビーム制御方策に基づいてビーム方向が制御された前後の無線通信品質情報とを用いて、無線通信品質を低下させる疑似環境状態情報を生成する情報生成方策を学習する。第2の学習部154は、学習結果の情報生成方策に基づいて生成した疑似環境状態情報を第1の学習部153に出力する。
The
第2の学習部154は、情報生成方策記憶部1541及び第2の累積報酬記憶部1542を備える。情報生成方策記憶部1541は、情報生成方策テーブルを記憶する。情報生成方策テーブルは、環境状態情報と、その環境状態情報に基づいて生成された疑似環境状態情報と、疑似環境状態情報の情報生成方策との対応を示す図である。情報生成方策は、例えば、環境状態情報に対して行う演算により表される。本実施形態では、環境状態情報とビーム方向情報との組み合わせごとに情報生成方策が設定されるものとする。第2の累積報酬記憶部1542は、第2の累積報酬を記憶する。第2の累積報酬は、第2の報酬を加算した値である。第2の報酬は、疑似環境状態情報を用いて第1の学習部153が決定したビーム制御方策に基づく制御指示によって無線通信品質がどの程度低下したかに応じて付与される値である。本実施形態では、低下の程度が大きいほど大きな値の第2の報酬が付与される。第2の報酬は、段階的な値でもよい。
The
第2の学習部154は、第2の学習モードにおいて、環境センサ13が出力した環境状態情報を環境状態情報取得部152から入力し、無線通信品質監視部12からビーム方向情報と無線通信品質情報を入力する。第2の学習部154は、環境状態情報が示す環境情報に関する情報とビーム方向情報が示すビーム方向との組み合わせに応じた情報生成方策を、情報生成方策記憶部1541に記憶される情報生成方策テーブルから読み出す。第2の学習部154は、環境状態情報が示す環境状態に関する情報に、読み出した情報生成方策が示す演算を行って、疑似環境状態情報を生成する。第2の学習部154は、環境状態情報取得部152から入力した環境状態情報と、その環境状態情報に基づいて生成された疑似環境状態情報とを対応付けて情報生成方策テーブルに書き込む。
In the second learning mode, the
第2の学習部154は、生成した疑似環境状態情報を第1の学習部153に出力する。第1の学習部153は、第2の学習部154から入力した疑似環境情報に基づいて決定したビーム制御方策によるビーム方向の制御指示を無線通信部11に出力する。第2の学習部154は、この制御指示に従って変更されたビーム方向により無線通信が行われている通信期間の無線通信品質に関する情報を示す無線通信品質情報を無線通信品質監視部12から入力する。第2の学習部154は、制御指示の前後の通信期間における通信品質の変化に応じて、情報生成方策に第2の報酬を付与する。第2の学習部154は、第2の累積報酬記憶部1542に記憶されている第2の累積報酬を、付与した第2の報酬を加算した値に更新する。第2の学習部154は、第2の報酬が低い情報生成方策を変更する。これにより、第2の学習部154は、一定期間における第2の累積報酬が最大化するように、情報生成方策を学習する。
The
図3は、ビーム制御方策記憶部1531に記憶されるビーム制御方策テーブルの例を示す図である。図3に示すビーム制御方策テーブルは、ビーム方向及び環境状態情報の組み合わせごとのビーム制御方策及び前回取得報酬を示す。図3においては、環境状態情報が風速であり、ビーム制御方策が現在のビーム方向に対する角度補正量である場合を例に示している。前回取得報酬は、対応するビーム制御方策により前回ビーム方向を制御したときに得られた第1の報酬を示す。
FIG. 3 is a diagram showing an example of a beam control policy table stored in the beam control
図4は、情報生成方策記憶部1541に記憶される情報生成方策テーブルの例を示す図である。図4に示す情報生成方策テーブルは、ビーム方向と、環境状態情報と、その環境状態情報に基づいて生成された疑似環境状態情報と、前回取得報酬と、疑似環境状態情報の生成に使用した情報生成方策とを対応付けた情報である。図4においては、環境状態情報が風速である場合を例に示している。前回報酬は、対応する疑似環境状態情報及びビーム方向に応じて第1の学習部153が決定したビーム制御方策により前回ビーム制御を行ったときに得られた第2の報酬を示す。
FIG. 4 is a diagram showing an example of an information generation policy table stored in the information generation
続いて、各学習モードにおけるビーム方向制御部15の動作を説明する。
Next, the operation of the beam
<第1の学習モード>
環境状態情報取得部152は、環境センサ13から環境状態情報を取得する。第1の学習モードでは、環境状態情報取得部152は、取得した環境状態情報を第1の学習部153に出力する。
<First learning mode>
The environmental state
第1の学習部153は、環境状態情報取得部152から環境状態情報を入力し、さらに、無線通信品質監視部12からビーム方向情報及び無線通信品質情報を入力する。第1の学習部153は、ある通信期間において使用したビーム方向を示すビーム方向情報と、その通信期間内の環境状態情報とに応じて、次の通信期間で使用するビーム方向を、以下のように制御する。
The
第1の学習部153は、入力したビーム方向の条件と、入力した環境状態情報の条件との組み合わせについて、次の通信期間において使用するビーム方向を学習する。この第1の学習部153に入力される環境状態情報は、例えば、時刻t0~tN(Nは1以上の整数)のそれぞれにおける瞬時風速[10m/s,8m/s,12m/s,…]といった時系列データの形式である。もしくは、環境状態情報は、時刻t0~tNの瞬時風速、風向、と無線通信装置1の設置高さなど、といった複数の要素から構成されるtuple(タプル)であっても構わない。
The
ビーム方向を制御する一例として、例えば、第1の学習部153は、環境状態情報が示す時刻t0~tNの瞬時の風速が[10m/s,8m/s,12m/s,…]であるという条件と、入力されたビーム方向情報が示すビーム方向の条件との組み合わせに基づいて、各時刻の環境状態情報に対応する角度補正量が[5度,2度,11度,…]であるといった制御指示を無線通信部11に出力する。
As an example of controlling the beam direction, for example, the
上記のように第1の学習部153は、入力した環境状態情報及びビーム方向情報に対応して角度補正量の制御指示を出力する。そのため、第1の学習部153は、ビーム制御方策記憶部1531に記憶されるビーム制御方策テーブルを参照して、現在のビーム方向と、過去に経験した環境状態情報とに対応した角度補正量のうち、現在と同じ環境状態情報に対応する角度補正量を取得する。第1の学習部153は、取得した角度補正量を設定した制御指示を無線通信部11に出力する。
As described above, the
なお、ビーム制御方策テーブルに、現在のビーム方向と、過去に経験した環境状態情報とに対応する角度補正量が存在しない場合、第1の学習部153は、無線通信部11に設定可能な角度範囲内で任意の角度補正量のビーム制御方策を決定することができる。設定できる角度範囲は、無線通信装置1が保有するアレーアンテナの設計構成に依存し、事前に求められている。第1の学習部153は、ビーム制御方策記憶部1531に記憶されるビーム制御方策テーブルに、ビーム方向及び環境状態情報と、指示した角度補正量を設定したビーム制御方策とを対応付けて書き込む。第1の学習部153は、決定したビーム制御方策に基づく制御指示を、無線通信部11に出力する。
Note that if there is no angle correction amount corresponding to the current beam direction and the environmental state information experienced in the past in the beam control policy table, the
なお、上記のような風速を示す環境状態情報は一例にすぎず、第1の学習部153は、風速以外の環境状態情報も取得し、複数の要素からなる環境状態情報を構成した上で、ビーム方向の制御指示を生成することも可能である。また、無線通信部11のビーム方向を変更させるための情報は、任意の形式で表現することができる。例えば、上記のような角度補正量ではなく、無線通信部11が電波の指向性を必要な方向で形成できるよう、アレーアンテナの各素子に必要なウェイトを出力してもよい。この場合、第1の学習部153は、ビーム方向を使用せずに、環境状態情報に対応したウェイトをビーム制御方策として取得してもよい。
Note that the environmental state information indicating wind speed as described above is only an example, and the
<第1の報酬の付与方法の一例>
第1の学習部153が出力した制御指示に従って無線通信部11がビーム方向を変更した結果は、次の通信期間において無線通信品質監視部12から取得される受信電力などの無線通信品質に反映される。第1の学習部153は、上記のビーム方向制御に伴う無線通信品質情報の変化に応じて第1の報酬を決定して、第1の累積報酬記憶部1532に記録する。報酬は、事前に決定された制御目的の達成度合いに応じて、任意の方法で付与される数値である。第1の学習部153の制御目的は、「ビーム方向制御により受信電力を向上させる」ことである。この制御目的に応じて第1の報酬を付与する方法の一例を説明する。
<An example of how to give the first reward>
The result of the
例えば、第1の学習部153の制御目的に合わせ、ビーム方向制御前の受信電力とビーム方向制御後の受信電力とを比較して、3dB以上の増加である場合は報酬を100とし、0dB以上3dB未満の増加である場合は報酬を1とし、0dB未満の増加である場合は報酬を0とする。ただし、この第1の報酬の付与方法は一例にすぎず、制御目的と合致すれば、例えば機械学習により生成された報酬関数など、他の報酬付与方法を用いても構わない。
For example, in accordance with the control purpose of the
第1の学習部153は、所定の報酬付与方法とビーム制御方策に基づくビーム方向制御の結果とに応じて第1の報酬を決定する。第1の学習部153は、第1の累積報酬記憶部1532に第1の報酬を出力する。第1の累積報酬記憶部1532は、現在の第1の累積報酬情報の値を、入力した第1の報酬を加算した値により更新する。このように、第1の学習部153は、制御結果を得る度に第1の報酬を決定し、第1の累積報酬記憶部1532は、その累積和を計算して記憶する。
The
<ビーム制御方策テーブルの更新>
第1の学習部153は、新規の環境状態情報が入力された場合に、前述した通り、任意の角度補正量を出力することができる。しかし、その任意の角度補正量では必ずしも受信電力を最大化できないため、複数回の試行錯誤によって受信電力を最大化できる角度補正量を学習する必要がある。そのため、第1の学習部153は、環境状態情報に対応した前回取得報酬に、その環境状態情報に対応したビーム制御方策によって前回ビーム方向制御を行った後に付与された第1の報酬を書き込むことで、ビーム制御方策記憶部1531に記憶されるビーム制御方策テーブルを更新する。第1の学習部153は、前回取得報酬に設定されている第1の報酬が最大値でない場合に、その前回取得報酬に対応したビーム制御方策を変更する。例えば、第1の学習部153は、図2示すビーム制御方策テーブルにおいて、最大値ではない前回取得報酬に対応した角度補正量を変更する。そして、第1の学習部153は、変更後の角度補正量によるビーム方向制御後に付与した第1の報酬を、ビーム制御方策テーブルに書き込む。このようにして、第1の学習部153は、ビーム制御方策テーブルの内容を更新し、ビーム制御方策記憶部1531に保持する。
<Update of beam control policy table>
As described above, the
<第2の学習モード>
第2の学習モードでは、第1の学習部153及び第2の学習部154が動作する。第1の学習モードにおいて、第1の学習部153は、環境状態情報取得部152から入力される環境状態情報に基づいて、ビーム制御方策の学習が可能である。この環境状態情報は、環境センサ13によって実際に観測された、無線通信装置1の置かれた環境状態に関する情報を示す。しかし、実際に観測されず、無線通信装置1が経験していない環境状態については、ビーム制御方策を学習できない。特に、複雑な外因のある環境においては、有限な時間内ですべての環境状態を実際の観測で経験しきれない可能性が高い。経験していない環境状態について第1の学習部153が決定するビーム制御の方法の多くは、最適化されていないことが想定され、ビーム制御の失敗により通信品質が低下する恐れがある。
<Second learning mode>
In the second learning mode, the
そこで、第2の学習モードでは、環境状態情報取得部152が、実際の観測で経験していない疑似的な環境状態に関する情報である疑似環境状態情報を生成し、その生成した疑似環境状態情報を第1の学習部153へ入力する。第1の学習部153は、疑似環境状態情報を、過去に経験していない環境状態情報として認識し、そのような環境状態情報に対応できるよう、新しいビーム制御方策を学習し始める。つまり、環境状態情報取得部152は、第1の学習部153の学習を促進させる機能を有している。
Therefore, in the second learning mode, the environmental state
無線通信装置1には、数多くの環境状態が存在する。第1の学習モードでは、その存在する環境状態のうち、過去に経験した環境状態でしか学習ができない。第2の学習モードでは、第1の学習部153に、これまでに経験した環境状態とは異なる未経験の環境状態を疑似的に経験させる。よって、第1の学習部153は、未経験の環境状態でも学習が可能となる。
There are many environmental conditions in the
第2の学習部154の機能を実現するには、第1の学習部153の学習を促進させると共に、自機能部においても、複雑な外因環境を模擬できるよう、疑似環境状態情報の情報生成方策について学習する必要がある。通常、複雑な外因環境は、第1の学習部153によるビーム方向制御の効果(例えば、受信電力の最大化)を劣化させるため、第1の学習部153の学習目的とは逆の学習目的を有していると考えられる。そこで、第2の学習モードでは、複雑な外因環境の影響を模擬する第2の学習部154は、第1の学習部153の学習目的とは逆に、受信電力を低下させる学習目的を持つ。
In order to realize the function of the
第2の学習モードにおいて、第1の学習部153は、環境状態情報取得部152から入力した環境状態情報に代えて、第2の学習部154が生成した疑似環境状態情報を用いて、第1の学習モードと同様に、次の通信期間において受信電力を増大させるよう学習し、ビーム方向の制御指示を無線通信部11に出力する。なお、簡潔に説明するため、特段記載のない場合、第1の学習部153の動作は上記の第1の学習モードと同じであり、以下ではその詳細を省略する。
In the second learning mode, the
第2の学習部154は、前述のように複雑な外因のある環境状態を模擬するため、第1の学習部153とは逆の目的を有しており、次の通信期間における受信電力を減少させるよう疑似環境状態情報の生成方策を学習する。
The
環境状態情報取得部152は、環境センサ13から環境状態情報を取得する。第2の学習モードでは、環境状態情報取得部152は、取得した環境状態情報を第2の学習部154に入力する。また、無線通信品質監視部12が取得したビーム方向情報も、第2の学習部154に入力される。
The environmental state
第2の学習部154は、環境状態情報取得部152から入力された環境状態情報の内容に演算を行って、疑似環境状態情報を生成する。例えば、第2の学習部154に入力される環境状態情報は、時刻t0~tN(Nは1以上の整数)のそれぞれにおいて観測した瞬時風速[10m/s,8m/s,12m/s,…]といった時系列データの形式である。もしくは、環境状態情報は、時刻t0~tNの瞬時風速、風向、と無線通信装置の設置高さなど、といった複数の要素から構成されるtuple(タプル)であっても構わない。
The
第2の学習部154は、入力されたビーム方向の条件と、入力された環境状態情報の条件との組み合わせについて、新たな環境状態に関する情報を示す疑似環境状態情報をどのように生成するかの情報生成方策を学習する。疑似環境状態情報を生成する情報生成方策の一例として、第2の学習部154は、例えば、環境状態情報取得部152から取得した時刻t0~tNの瞬時の風速が[10m/s,8m/s,12m/s,…]であるという条件と、入力されたビーム方向情報が示すビーム方向との条件とに基づいて、風速を2倍にするという演算を得る。第2の学習部154は、取得した情報生成方策を用いて、各時刻における疑似環境状態情報[20m/s,16m/s,24ms,…]を生成し、第1の学習部153に出力する。
The
第2の学習部154は、ビーム方向の条件及び環境状態情報の条件と、生成した疑似環境状態情報と、疑似環境状態情報の生成に用いた情報生成方策とを対応付けて、図4に示す情報生成方策テーブルに書き込む。なお、情報生成方策記憶部1541が記憶する情報生成方策テーブルに、現在のビーム方向と、過去に経験した環境状態情報に対応する疑似環境状態情報が存在しない場合、第2の学習部154は任意の情報生成方策により(例えば環境状態情報が示す値にランダムな正数を乗算する等)疑似環境状態情報を生成し、第1の学習部153に出力することが可能である。
The
なお、上記の環境状態情報、及び第2の学習部154による疑似環境状態情報の生成方策は一例にすぎず、他の環境状態情報を取得することや、他の任意の情報生成方策により環境状態情報から疑似環境状態情報を生成しても構わない。
Note that the above-mentioned environmental state information and the strategy for generating pseudo environmental state information by the
第2の学習部154は、生成した疑似環境状態情報を第1の学習部153に出力する。第1の学習部153は、第2の学習モードにおいて、環境状態情報取得部152から入力した環境状態情報に代えて、第2の学習部154から入力した疑似環境状態情報を用いる点を除き、第1の学習モードと同様の動作を行う。
The
なお、第1の学習部153は、ビーム方向と、第2の学習部154から入力した疑似環境状態情報との組み合わせが未経験である場合、上述のように、無線通信部11に設定可能な角度範囲内で任意の角度補正量のビーム制御方策を決定する。第1の学習部153は、ビーム制御方策テーブルに、ビーム方向及び疑似環境状態情報と、決定したビーム制御方策とを対応付けて書き込む。その後の第1の学習モードにおいて、第1の学習部153は、過去に入力した疑似環境状態情報と同じ環境状態情報と、その疑似環境状態情報を入力したときと同じビーム方向とを入力した場合、ビーム制御方策テーブルからそれらに対応するビーム制御方策を読み出し、即効的にビーム方向を制御することができる。すなわち、第1の学習部153は、そのビーム制御方策を初期値として、未経験な環境状態に対するビーム制御方策を予め学習することができ、将来的にその環境状態が発生した場合に、学習済のビーム制御方策を用いて変動環境への対応が可能となり、未学習に起因するビーム方向の制御失敗を回避できる。
Note that, when the combination of the beam direction and the pseudo environment state information input from the
また、第1の学習部153は、現在のビーム方向と、第2の学習部154から入力した疑似環境状態情報との組み合わせが既にビーム制御方策テーブルに設定されている場合、第1の学習モードと同様に、それらに対応したビーム制御方策に基づいてビーム方向の制御指示を無線通信部11に出力する。しかし、第1の学習部153は、第2の学習モードにおいては、そのビーム制御方策に第1の報酬を付与せず、ビーム制御方策の変更は行わない。これにより、正しく学習されたビーム制御方策が変更されないようにする。あるいは、第1の学習部153は、ビーム制御方策を学習済みのビーム方向及び環境状態情報の組み合わせの情報を第2の学習部154に通知してもよい。第2の学習部154は、現在のビーム方向と、生成した疑似環境状態情報との組み合わせが学習済みであると判定した場合、情報生成方策を変更して、異なる疑似環境状態情報を生成する。
Further, if the combination of the current beam direction and the pseudo environment state information input from the
<第2の報酬の付与方法の一例>
第2の学習部154は、生成した疑似環境状態情報によりビーム方向制御が行われた結果を、次の通信期間において無線通信品質監視部12から取得する無線通信品質情報により観測できる。第2の学習部154は、上記のように生成した疑似環境状態情報に基づいたビーム方向制御を行った前後の無線通信品質情報の変化に応じて第2の報酬を決定し、第2の累積報酬記憶部1542に記録する。疑似環境状態情報の生成後に情報生成方策に付与される第2の報酬は、第1の学習部とは逆の目的で設定される必要がある。つまり、第1の学習部153の制御目的は受信電力を向上させることであるが、第2の学習部154の目的は、受信電力を低下させることである。そして、第2の学習部154で付与する第2の報酬は、この目的に合わせて決定する必要がある。そこで、例えば、第2の学習部154が生成した疑似環境状態情報に基づくビーム方向制御後の受信電力がビーム方向制御前の受信電力と比較して、3dB以上の減少である場合は第2の報酬を100とし、0dB以上3dB未満の減少である場合は第2の報酬を1とし、減少していない場合は第2の報酬を0とする。なお、上記の第2の報酬の付与方法は一例にすぎず、例えば機械学習により生成された報酬関数など、他の方法で報酬を決定しても構わない。
<Example of second reward granting method>
The
第2の学習部154は、疑似環境状態情報に基づくビーム方向制御結果に応じて決定した第2の報酬を第2の累積報酬記憶部1542に出力する。第2の累積報酬記憶部1542は、現在の第2の累積報酬情報の値に、入力した第2の報酬を加算し、加算後の値により第2の累積報酬情報を更新する。このように、第2の学習部154は、疑似環境状態情報を生成する度に、その疑似環境状態情報に基づくビーム方向制御の制御結果を得て第2の報酬を決定し、第2の累積報酬記憶部1542は、その累積和を計算して記憶する。
The
<情報生成方策記憶部1541の記憶内容の更新>
上述したように、第2の学習部154は、新規の環境状態情報が入力された場合に、任意の情報生成方策を用いて生成した疑似環境状態情報を出力することができる。しかし、その任意の情報生成方策により生成した疑似環境状態情報は、必ずしも目的達成に最適とは限らない。そのため、複数回の試行錯誤によって目的達成のための情報生成方策を学習する必要がある。そこで、第2の学習部154は、生成した疑似環境状態情報に基づき行われた前回のビーム方向制御の後に受け取った第2の報酬を、図4に示す情報生成方策記憶部1541に記憶される情報生成方策テーブルに書き込む。第2の学習部154は、ある疑似環境状態情報に対して、前回の制御後に受け取った第2の報酬が最大値ではない場合に、その疑似環境状態情報に対応した情報生成方策、または制御範囲を変更する。第2の学習部154は、変更された情報制御方策、又は制御範囲を用いて生成された疑似環境状態情報に基づくビーム方向制御後に付与された第2の報酬により、情報生成方策記憶部1541に記憶される情報生成方策テーブルを更新する。
<Updating the storage contents of the information generation
As described above, when new environmental state information is input, the
図4に示すように環境状態情報が瞬時風速である場合の一例を説明する。例えば、第2の学習部154は、初回の疑似環境状態情報の状態情報生成方策では、ある時刻における瞬時風速に2を乗算し、疑似環境状態情報として出力とする。そして、この生成した疑似環境状態情報により、第2の学習部154が最大の報酬が取得できなった場合に、2回目の疑似環境状態情報の生成の際には、瞬時風速を4と乗算する等、繰り返しの回数に応じ乗算する数値を大きくしていく等の方法が考えられる。ただし、上述した状態情報生成方策に限らず、第2の学習部154の目的達成のために、任意の計算方法やアルゴリズムを利用してもよい。
An example in which the environmental state information is instantaneous wind speed as shown in FIG. 4 will be described. For example, in the first state information generation policy for pseudo environment state information, the
<処理フロー>
図5は、第1の学習モードにおけるビーム方向制御部15の動作例を示すフロー図である。モード設定部151は、第1の学習モードを開始する(ステップS105)。第1の学習部153は、無線通信品質監視部12からビーム方向情報及び無線通信品質情報を入力し、環境センサ13から環境状態情報を入力する(ステップS110)。第1の学習部153は、入力した環境状態情報及びビーム方向情報に対応したビーム方向制御方策をビーム制御方策テーブルから読み出す(ステップS115)。第1の学習部153は、入力した環境状態情報及びビーム方向情報に対応したビーム方向制御方策がない場合、任意のビーム方向制御方策を決定する。第1の学習部153は、ビーム制御方策テーブルに環境状態情報及びビーム方向情報と、決定したビーム方向制御方策とを対応付けて書き込む。第1の学習部153は、ビーム方向制御方策に基づくビーム方向の制御指示を無線通信部11に出力する(ステップS120)。無線通信部11は、制御指示に設定されているビーム方向制御方策に従ってビーム方向を変更し、変更後のビーム方向により次の通信期間の無線通信を行う。
<Processing flow>
FIG. 5 is a flow diagram showing an example of the operation of the beam
第1の学習部153は、無線通信品質監視部12から制御指示後のビーム方向情報及び無線通信品質情報を入力し、環境状態情報取得部152から制御指示後の環境状態情報を入力する(ステップS125)。第1の学習部153は、直前のステップS120において出力した制御指示に従って変更されたビーム方向を用いた通信期間の無線通信品質と、その通信期間の直前のビーム方向変更前の通信期間の無線通信品質とを比較する。第1の学習部153は、比較結果に応じて第1の報酬を決定する(ステップS130)。第1の学習部153は、決定した第1の報酬を、直前のステップS120において制御指示を出力したときに用いたビーム制御方策に対応付けてビーム制御方策テーブルに書き込む(ステップS135)。さらに、第1の学習部153の取得報酬は、決定した第1の報酬を第1の累積報酬記憶部1532に出力する。第1の累積報酬記憶部1532は、記憶している第1の累積報酬の値を、入力した第1の報酬を加算した値に更新する(ステップS140)。
The
第1の学習部153は、決定した第1の報酬が、最大値であるか否かを判定する(ステップS145)。第1の学習部153は、決定した第1の報酬が最大値であると判定した場合(ステップS145:YES)、ステップS155の処理に進む。第1の学習部153は、決定した第1の報酬が最大値ではないと判定した場合(ステップS145:NO)、ビーム制御方策テーブルに設定されている前回のビーム制御方策を変更する(ステップS150)。
The
第1の学習部153は、第1の学習モードが終了ではないと判定した場合(ステップS155:NO)、ステップS115からの処理を繰り返す。そして、第1の学習部153は、第1の学習モードが終了と判定した場合(ステップS155:YES)、図5の処理を終了する。
If the
なお、ステップS145~ステップS150の処理を、ステップS105~ステップS140及びステップS155の処理と独立のタイミングで行ってもよい。この場合、第1の学習部153は、ビーム制御方策テーブルから前回報酬が最大値ではないビーム制御方策を検出し、検出したビーム制御方策についてステップS150の処理を行う。
Note that the processing from step S145 to step S150 may be performed at a timing independent of the processing from step S105 to step S140 and step S155. In this case, the
図6は、第2の学習モードにおけるビーム方向制御部15の動作例を示すフロー図である。モード設定部151は、第2の学習モードを開始する(ステップS205)。第1の学習部153及び第2の学習部154は、無線通信品質監視部12からビーム方向情報及び無線通信品質情報を入力し、第2の学習部154は、環境センサ13が出力した環境状態情報を環境状態情報取得部152から入力する(ステップS210)。
FIG. 6 is a flow diagram showing an example of the operation of the beam
第2の学習部154は、環境状態情報及びビーム方向情報に対応した情報生成方策を、情報生成方策記憶部1541に記憶されている情報生成方策テーブルから読み出す(ステップS215)。第2の学習部154は、読み出した情報生成方策に従って、環境状態情報から疑似環境状態情報を生成する(ステップS220)。なお、環境状態情報及びビーム方向情報に対応した情報生成方策が情報生成方策テーブルに設定されていない場合、第2の学習部154は、任意の情報生成方策を決定する。第2の学習部154は、環境状態情報及びビーム方向情報と、生成した疑似環境状態情報と、決定した情報生成方策とを対応付けて情報生成方策テーブルに書き込む。第2の学習部154は、生成した疑似環境状態情報を第1の学習部153に出力する(ステップS225)。第1の学習部153は、環境状態情報に代えて疑似環境状態情報を用いて、図5に示すステップS115~ステップS120の処理を行う(ステップS230)。無線通信部11は、ステップS230において第1の学習部153が出力した制御指示に設定されているビーム方向制御方策に従ってビーム方向を変更し、変更後のビーム方向により次の通信期間の無線通信を行う。
The
第1の学習部153及び第2の学習部154は、無線通信品質監視部12から制御指示後のビーム方向情報及び無線通信品質情報を入力し、第2の学習部154は、環境状態情報取得部152から制御指示後の環境状態情報を入力する(ステップS235)。第1の学習部153は、図5に示すステップS125~ステップS155の処理を行う。ただし、ステップS125において、第1の学習部153に環境状態情報は入力されない。また、ビーム方向と疑似環境状態情報とに対応したビーム制御方策が学習済みの場合、第1の学習部153は、ステップS130~ステップS155の処理を行わない。
The
第2の学習部154は、直前のステップS230において第1の学習部153が出力した制御指示に従って変更されたビーム方向を用いた通信期間の無線通信品質と、その通信期間の直前のビーム方向変更前の通信期間の無線通信品質とを比較する。第2の学習部154は、比較結果に応じて第2の報酬を決定する(ステップS240)。第2の学習部154は、決定した第2の報酬を、直前のステップS220において疑似環境状態情報を生成したときの情報生成方策に対応付けて情報生成方策テーブルに書き込む(ステップS245)。さらに、第2の学習部154は、決定した第2の報酬を第2の累積報酬記憶部1542に出力する。第2の累積報酬記憶部1542は、記憶している第2の累積報酬を、入力した第2の報酬を加算した値に更新する(ステップS250)。
The
第2の学習部154は、決定した第2の報酬が、最大値であるか否かを判定する(ステップS255)。第2の学習部154は、決定した第2の報酬が最大値であると判定した場合(ステップS255:YES)、ステップS265の処理に進む。第2の学習部154は、決定した第2の報酬が最大値ではないと判定した場合(ステップS255:NO)、情報生成方策テーブルに設定されている前回の状態情報生成方策を変更する(ステップS260)。
The
第2の学習部154は、第2の学習モードが終了ではないと判定した場合(ステップS265:NO)、ステップS215からの処理を繰り返す。そして、第2の学習部154は、第2の学習モードが終了と判定した場合(ステップS265:YES)、図6の処理を終了する。
If the
なお、ステップS255~ステップS260の処理を、ステップS205~ステップS250及びステップS265の処理と独立のタイミングで行ってもよい。この場合、第2の学習部154は、情報生成方策テーブルから前回報酬が最大値ではない情報生成方策を検出し、検出した情報生成方策を変更する。
Note that the processing from step S255 to step S260 may be performed at a timing independent of the processing from step S205 to step S250 and step S265. In this case, the
本実施形態によれば、無線通信品質へ影響を与える外因が複雑化する条件下において、適切な学習装置により、複雑な外因(無線通信装置が置かれた周辺の環境状態)の変動に対応して、ビーム方向制御の方法を実現することができる。従って、複雑な外因の変動が発生する環境に無線通信装置がおかれた場合でも、学習に基づくビーム方向制御の失敗回数を低減することができる。 According to the present embodiment, under conditions where external factors that affect wireless communication quality become more complex, an appropriate learning device is used to respond to changes in complex external factors (environmental conditions around the wireless communication device). Thus, a method of beam direction control can be realized. Therefore, even when a wireless communication device is placed in an environment where complex fluctuations due to external factors occur, the number of failures in beam direction control based on learning can be reduced.
なお、無線通信装置は、ビーム方向制御部15を有するビーム方向制御装置を、内部又は外部に備えてもよい。
Note that the wireless communication device may include a beam direction control device having the beam
上述した実施形態における無線通信装置1のビーム方向制御部15の機能をコンピュータで実現するようにしてもよい。その場合、ビーム方向制御部15この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
The functions of the beam
無線通信装置1のハードウェア構成例を説明する。図7は、無線通信装置1のハードウェア構成例を示す装置構成図である。無線通信装置1は、プロセッサ71、記憶部72、通信インタフェース73、ユーザインタフェース74及びセンサ75を備える。
An example of the hardware configuration of the
プロセッサ71は、演算や制御を行う中央演算装置である。プロセッサ71は、例えば、CPUである。プロセッサ71は、記憶部72からプログラムを読み出して実行する。記憶部72は、さらに、プロセッサ71が各種プログラムを実行する際のワークエリアなどを有する。通信インタフェース73は、他装置と通信可能に接続するものである。ユーザインタフェース74は、ディップスイッチ、ボタンなどの入力装置や、ランプ、ディスプレイなどの表示装置である。ユーザインタフェース74により、人為的な操作が入力される。センサ75は、環境状態情報の検出又は取得を行う。
The
無線通信品質監視部12及びビーム方向制御部15の機能は、プロセッサ71が記憶部72からプログラムを読み出して実行することより実現される。なお、これらの機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。無線通信部11は、通信インタフェース73により実現される。また、通信インタフェース73は、ネットワークを介したPC等との通信を実現してもよい。環境センサ13は、1以上のセンサ75により実現される。なお、無線通信部11や環境センサ13の一部の機能は、プロセッサ71が記憶部72からプログラムを読み出して実行することより実現されてもよい。
The functions of the wireless communication
以上説明した実施形態によれば、ビーム方向を制御可能無線通信装置は、無線通信部と、センサと、無線通信品質監視部と、ビーム方向制御部とを備える。無線通信部は、ビームを形成して無線通信を行う。センサは、自装置の設置環境に関する情報である環境状態情報を取得する。例えば、センサは、実施形態の環境センサである。無線通信品質監視部は、無線通信部による無線通信の品質を示す無線通信品質情報を取得する。ビーム方向制御部は、無線通信部に対してビーム方向の制御指示を出力する。ビーム方向制御部は、第1の学習部と、第2の学習部と、切替部とを備える。第1の学習部は、環境状態情報とビーム方向が制御された前後の無線通信品質情報とを用いて、環境状態情報に応じて無線通信の品質を向上させるビーム方向の制御の方法を示すビーム制御方策を学習する。第1の学習部は、学習結果に基づいて環境状態情報に応じたビーム制御方策を決定し、決定したビーム制御方策に従ったビーム方向の制御指示を無線通信部に出力する。第2の学習部は、環境状態情報を生成するための演算を示す情報生成方策に従って生成された環境状態情報と、生成された環境状態情報に応じて第1の学習部が出力した制御指示に基づいてビーム方向が制御された前後の無線通信品質情報とを用いて、無線通信の品質を低下させる環境状態情報を生成する情報生成方策を学習する。第2の学習部は、学習された情報生成方策に基づいて環境状態情報を生成する。切替部は、センサにより取得した環境状態情報と第2の学習部により生成された環境状態情報とのいずれを第1の学習部に入力するかを切り替える。 According to the embodiment described above, the beam direction controllable wireless communication device includes a wireless communication section, a sensor, a wireless communication quality monitoring section, and a beam direction control section. The wireless communication unit performs wireless communication by forming a beam. The sensor acquires environmental status information that is information regarding the installation environment of its own device. For example, the sensor is an environmental sensor in an embodiment. The wireless communication quality monitoring unit acquires wireless communication quality information indicating the quality of wireless communication by the wireless communication unit. The beam direction control unit outputs a beam direction control instruction to the wireless communication unit. The beam direction control section includes a first learning section, a second learning section, and a switching section. The first learning section uses environmental state information and wireless communication quality information before and after the beam direction is controlled, and describes a beam direction control method that improves the quality of wireless communication according to environmental state information. Learn control strategies. The first learning unit determines a beam control strategy according to the environmental state information based on the learning result, and outputs a beam direction control instruction according to the determined beam control strategy to the wireless communication unit. The second learning unit uses the environmental status information generated according to the information generation policy indicating the calculation for generating the environmental status information and the control instruction outputted by the first learning unit according to the generated environmental status information. Based on this information, information generation strategies for generating environmental state information that degrades the quality of wireless communication are learned using wireless communication quality information before and after the beam direction was controlled. The second learning unit generates environmental state information based on the learned information generation policy. The switching unit switches which of the environmental state information acquired by the sensor and the environmental state information generated by the second learning unit is input to the first learning unit.
なお、第1の学習部は、入力された環境状態情報と、無線通信部が形成しているビーム方向と、当該ビーム方向が変更された前後の無線通信品質情報を比較して得られた無線通信の品質の変化とを用いて、環境状態情報及びビーム方向に応じて無線通信の品質を向上させるビーム制御方策を学習してもよい。第1の学習部は、学習結果に基づいて環境状態情報と無線通信部が形成しているビーム方向とに応じたビーム制御方策を決定し、決定したビーム制御方策に従ったビーム方向の制御指示を無線通信部に出力する。 Note that the first learning unit compares the input environmental state information, the beam direction formed by the wireless communication unit, and the wireless communication quality information before and after the beam direction is changed. Changes in communication quality may be used to learn beam control strategies that improve the quality of wireless communication according to environmental state information and beam direction. The first learning unit determines a beam control policy according to the environmental state information and the beam direction formed by the wireless communication unit based on the learning result, and instructs to control the beam direction according to the determined beam control policy. is output to the wireless communication section.
また、第1の学習部は、ビーム制御方策に従って出力した制御指示によりビーム方向が変更された前後の無線通信の品質の変化に応じて当該ビーム制御方策に第1の報酬を付与し、第1の報酬に基づいて選択したビーム制御方策を変更してもよい。 Further, the first learning unit provides a first reward to the beam control policy according to a change in the quality of wireless communication before and after the beam direction is changed according to the control instruction output according to the beam control policy; The selected beam control strategy may be changed based on the reward.
また、第2の学習部は、センサが取得した環境状態情報に当該環境状態情報と無線通信部が形成しているビーム方向とに対応した情報生成方策が示す演算を行って生成された環境状態情報と、生成された環境状態情報に応じて第1の学習部が出力した制御指示に基づいてビーム方向が制御された前後の無線通信品質情報を比較して得られた無線通信の品質の変化とを用いて、環境状態情報及びビーム方向に応じて無線通信の品質を低下させる情報生成方策を学習してもよい。第2の学習部は、学習結果に基づいて環境状態情報と無線通信部が形成しているビーム方向とに応じた情報生成方策を決定し、環境状態情報に決定した情報生成方策が示す演算を行って第1の学習部に入力する環境状態情報を生成する。 Further, the second learning unit is configured to perform calculations on the environmental status information acquired by the sensor according to an information generation policy corresponding to the environmental status information and the beam direction formed by the wireless communication unit to generate an environmental state. Changes in the quality of wireless communication obtained by comparing the information and wireless communication quality information before and after the beam direction is controlled based on the control instruction output by the first learning unit according to the generated environmental state information may be used to learn an information generation policy for reducing the quality of wireless communication depending on the environmental state information and the beam direction. The second learning unit determines an information generation policy according to the environmental state information and the beam direction formed by the wireless communication unit based on the learning result, and applies the calculation indicated by the determined information generation policy to the environmental state information. and generates environmental state information to be input to the first learning section.
なお、第2の学習部は、情報生成方策が示す演算を行って生成した環境状態情報に応じて第1の学習部が出力した制御指示によりビーム方向が変更された前後の無線通信の品質の変化に応じて情報生成方策に第2の報酬を付与し、第2の報酬に基づいて選択した情報生成方策を変更してもよい。 Note that the second learning unit determines the quality of wireless communication before and after the beam direction is changed based on the control instruction output by the first learning unit in accordance with the environmental state information generated by performing calculations indicated by the information generation policy. A second reward may be given to the information generation policy according to the change, and the selected information generation policy may be changed based on the second reward.
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiments of the present invention have been described above in detail with reference to the drawings, the specific configuration is not limited to these embodiments, and includes designs within the scope of the gist of the present invention.
1…無線通信装置、11…無線通信部、12…無線通信品質監視部、13…環境センサ、15…ビーム方向制御部、71…プロセッサ、72…記憶部、73…通信インタフェース、74…ユーザインタフェース、75…センサ、91…無線通信装置、92…電柱、93…電柱、94…架線、95…無線通信装置、96…建物、97…歩行者、98-1、98-2…アクセスポイント、99…端末局、…経路、151…モード設定部、152…環境状態情報取得部、153…第1の学習部、154…第2の学習部、1531…ビーム制御方策記憶部、1532…第1の累積報酬記憶部、1541…情報生成方策記憶部、1542…第2の累積報酬記憶部
DESCRIPTION OF
Claims (8)
ビームを形成して無線通信を行う無線通信部と、
自装置の設置環境に関する情報である環境状態情報を取得するセンサと、
前記無線通信部による無線通信の品質を示す無線通信品質情報を取得する無線通信品質監視部と、
前記無線通信部に対してビーム方向の制御指示を出力するビーム方向制御部と、
を備え、
前記ビーム方向制御部は、
前記環境状態情報とビーム方向が制御された前後の前記無線通信品質情報とを用いて、前記環境状態情報に応じて無線通信の品質を向上させるビーム方向の制御方法を示すビーム制御方策を学習し、学習結果に基づいて前記環境状態情報に応じた前記ビーム制御方策を決定し、決定した前記ビーム制御方策に従ったビーム方向の制御指示を前記無線通信部に出力する第1の学習部と、
環境状態情報を生成するための演算を示す情報生成方策に従って生成された環境状態情報と、生成された前記環境状態情報に応じて前記第1の学習部が出力した前記制御指示に基づいてビーム方向が制御された前後の前記無線通信品質情報とを用いて、無線通信の品質を低下させる環境状態情報を生成する情報生成方策を学習し、学習された前記情報生成方策に基づいて環境状態情報を生成する第2の学習部と、
前記センサにより取得した前記環境状態情報と前記第2の学習部により生成された前記環境状態情報とのいずれを前記第1の学習部に入力するかを切り替える切替部と、
を備える、
無線通信装置。 A wireless communication device capable of controlling beam direction,
a wireless communication unit that performs wireless communication by forming a beam;
a sensor that acquires environmental status information that is information about the installation environment of the own device;
a wireless communication quality monitoring unit that acquires wireless communication quality information indicating the quality of wireless communication by the wireless communication unit;
a beam direction control unit that outputs a beam direction control instruction to the wireless communication unit;
Equipped with
The beam direction control section includes:
Using the environmental state information and the wireless communication quality information before and after the beam direction is controlled, a beam control strategy is learned that indicates a beam direction control method that improves the quality of wireless communication according to the environmental state information. , a first learning unit that determines the beam control strategy according to the environmental state information based on the learning result and outputs a beam direction control instruction according to the determined beam control strategy to the wireless communication unit;
The beam direction is determined based on the environmental state information generated according to the information generation policy indicating the calculation for generating the environmental state information and the control instruction outputted by the first learning unit in accordance with the generated environmental state information. The wireless communication quality information before and after the control is used to learn an information generation policy for generating environmental state information that degrades the quality of wireless communication, and the environmental state information is generated based on the learned information generation policy. a second learning section that generates;
a switching unit that switches which of the environmental state information acquired by the sensor and the environmental state information generated by the second learning unit is input to the first learning unit;
Equipped with
Wireless communication device.
請求項1に記載の無線通信装置。 The first learning unit compares the input environmental state information, a beam direction formed by the wireless communication unit, and the wireless communication quality information before and after the beam direction is controlled . learning a beam control policy for improving the quality of wireless communication according to the input environmental state information and the beam direction formed by the wireless communication unit , and learning results. Based on the input environmental state information and the beam direction formed by the wireless communication unit, the beam control policy is determined based on the input environmental state information and the beam direction formed by the wireless communication unit, and a beam direction control instruction is issued in accordance with the determined beam control policy. output to the wireless communication unit;
The wireless communication device according to claim 1.
請求項2に記載の無線通信装置。 The first learning unit provides a first reward to the beam control policy according to a change in the quality of wireless communication before and after the beam direction is changed according to the control instruction output according to the beam control policy, and changing the selected beam control strategy based on a first reward;
The wireless communication device according to claim 2.
請求項2又は請求項3に記載の無線通信装置。 The second learning unit performs a calculation on the environmental status information acquired by the sensor and the information generation policy corresponding to the environmental status information and the beam direction formed by the wireless communication unit to generate the information. and the wireless communication quality information before and after the beam direction is controlled based on the control instruction outputted by the first learning unit according to the generated environmental status information. learning an information generation policy for reducing the quality of wireless communication according to the environmental state information acquired by the sensor and the beam direction formed by the wireless communication unit, using the change in the quality of wireless communication obtained by Based on the learning result , determine the information generation policy according to the environmental state information acquired by the sensor and the beam direction formed by the wireless communication unit, and decide on the environmental state information acquired by the sensor. generating environmental state information to be input to the first learning unit by performing calculations indicated by the information generation policy;
The wireless communication device according to claim 2 or claim 3.
請求項4に記載の無線通信装置。 The second learning unit is configured to perform wireless communication before and after the beam direction is changed according to the control instruction outputted by the first learning unit in accordance with the environmental state information generated by performing calculations indicated by the information generation policy. assigning a second reward to the information generation policy according to a change in the quality of the information generation policy, and changing the selected information generation policy based on the second reward;
The wireless communication device according to claim 4.
環境状態情報を生成するための演算を示す情報生成方策に従って生成された環境状態情報と、生成された前記環境状態情報に応じて前記第1の学習部が出力した前記制御指示に基づいてビーム方向が制御された前後それぞれの前記無線通信品質情報とを用いて、無線通信の品質を低下させる環境状態情報を生成する情報生成方策を学習し、学習された前記情報生成方策に基づいて環境状態情報を生成する第2の学習部と、
前記無線通信装置のセンサにより取得した前記環境状態情報と前記第2の学習部により生成された前記環境状態情報とのいずれを前記第1の学習部に入力するかを切り替える切替部と、
を備えるビーム方向制御装置。 Using environmental state information, which is information about the installation environment of a wireless communication device whose beam direction can be controlled, and wireless communication quality information, which indicates the quality of wireless communication before and after the beam direction of the wireless communication device is controlled, Learning a beam control policy indicating a method of controlling a beam direction to improve the quality of wireless communication according to the environmental state information, and determining the beam control policy according to the environmental state information based on the learning result. a first learning unit that outputs a beam direction control instruction according to the beam control policy to the wireless communication device;
The beam direction is determined based on the environmental state information generated according to the information generation policy indicating the calculation for generating the environmental state information and the control instruction outputted by the first learning unit in accordance with the generated environmental state information. The wireless communication quality information before and after the control is used to learn an information generation policy for generating environmental state information that degrades the quality of wireless communication, and based on the learned information generation policy, environmental state information is generated. a second learning section that generates
a switching unit that switches which of the environmental state information acquired by a sensor of the wireless communication device and the environmental state information generated by the second learning unit is input to the first learning unit;
A beam direction control device comprising:
無線通信部が、ビームを形成して無線通信を行う通信ステップと、
センサが前記無線通信装置の設置環境に関する情報である環境状態情報を取得する環境状態情報取得ステップと、
無線通信品質監視部が、前記無線通信部による無線通信の品質を示す無線通信品質情報を取得する無線通信品質情報取得ステップと、
ビーム方向制御部が、前記無線通信部に対してビーム方向の制御指示を出力するビーム方向制御ステップとを有し、
前記ビーム方向制御ステップは、
前記環境状態情報とビーム方向が制御された前後の前記無線通信品質情報とを用いて、前記環境状態情報に応じて無線通信の品質を向上させるビーム方向の制御の方法を示すビーム制御方策を学習し、学習結果に基づいて前記環境状態情報に応じた前記ビーム制御方策を決定し、決定した前記ビーム制御方策に従ったビーム方向の制御指示を前記無線通信部に出力する第1の学習ステップと、
環境状態情報を生成するための演算を示す情報生成方策に従って生成された環境状態情報と、生成された前記環境状態情報に応じて前記第1の学習ステップにおいて出力された前記制御指示に基づいてビーム方向が制御された前後の前記無線通信品質情報とを用いて、無線通信品質を低下させる環境状態情報を生成する情報生成方策を学習し、学習された前記情報生成方策に基づいて環境状態情報を生成する第2の学習ステップと、
前記環境状態情報取得ステップにおいて取得された前記環境状態情報と前記第2の学習ステップにおいて生成された前記環境状態情報とのいずれを前記第1の学習ステップにおいて用いるかを切り替える切替ステップと、
を有するビーム方向制御方法。 A beam direction control method executed by a wireless communication device capable of controlling a beam direction, the method comprising:
a communication step in which the wireless communication unit performs wireless communication by forming a beam;
an environmental status information acquisition step in which the sensor acquires environmental status information that is information regarding the installation environment of the wireless communication device;
a wireless communication quality information acquisition step in which the wireless communication quality monitoring unit acquires wireless communication quality information indicating the quality of wireless communication by the wireless communication unit;
a beam direction control step in which the beam direction control section outputs a beam direction control instruction to the wireless communication section;
The beam direction control step includes:
Using the environmental state information and the wireless communication quality information before and after the beam direction is controlled, learn a beam control strategy that indicates a beam direction control method that improves the quality of wireless communication according to the environmental state information. a first learning step of determining the beam control strategy according to the environmental state information based on the learning result, and outputting a beam direction control instruction according to the determined beam control strategy to the wireless communication unit; ,
A beam is generated based on the environmental state information generated according to the information generation policy indicating the calculation for generating the environmental state information and the control instruction outputted in the first learning step according to the generated environmental state information. The wireless communication quality information before and after the direction is controlled is used to learn an information generation policy for generating environmental state information that degrades wireless communication quality, and the environmental state information is generated based on the learned information generation policy. a second learning step to generate;
a switching step of switching which of the environmental state information acquired in the environmental state information acquisition step and the environmental state information generated in the second learning step is used in the first learning step;
A beam direction control method comprising:
請求項6に記載のビーム方向制御装置として機能させるためのプログラム。 computer,
A program for functioning as the beam direction control device according to claim 6.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020104391A JP7393765B2 (en) | 2020-06-17 | 2020-06-17 | Wireless communication device, beam direction control device, beam direction control method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020104391A JP7393765B2 (en) | 2020-06-17 | 2020-06-17 | Wireless communication device, beam direction control device, beam direction control method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021197674A JP2021197674A (en) | 2021-12-27 |
JP7393765B2 true JP7393765B2 (en) | 2023-12-07 |
Family
ID=79196036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020104391A Active JP7393765B2 (en) | 2020-06-17 | 2020-06-17 | Wireless communication device, beam direction control device, beam direction control method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7393765B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019010049A1 (en) | 2017-07-01 | 2019-01-10 | Intel Corporation | Methods and devices for vehicular radio communications |
US20190113967A1 (en) | 2016-09-30 | 2019-04-18 | Sony Interactive Entertainment Inc. | Wireless Communication System for Head Mounted Display |
-
2020
- 2020-06-17 JP JP2020104391A patent/JP7393765B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190113967A1 (en) | 2016-09-30 | 2019-04-18 | Sony Interactive Entertainment Inc. | Wireless Communication System for Head Mounted Display |
WO2019010049A1 (en) | 2017-07-01 | 2019-01-10 | Intel Corporation | Methods and devices for vehicular radio communications |
Non-Patent Citations (2)
Title |
---|
三熊 智哉 他,深度画像を用いた深層強化学習によるミリ波通信のトラヒック制御の検討 ,情報処理学会 研究報告 高度交通システムとスマートコミュニティ(ITS) 2018-ITS-073 [online] ,日本,情報処理学会,2018年05月17日 |
西尾 理志,RGB-Dカメラと機械学習で無線通信品質を見る,電子情報通信学会誌 第102巻 第4号,日本,一般社団法人電子情報通信学会,2019年04月01日,第102巻,pp.346-352 |
Also Published As
Publication number | Publication date |
---|---|
JP2021197674A (en) | 2021-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112118601B (en) | Method for reducing task unloading delay of 6G digital twin edge computing network | |
JP7011759B1 (en) | Configuring a neural network for a radio access network (RAN) node | |
Chen et al. | Efficient drone mobility support using reinforcement learning | |
Razavi et al. | A fuzzy reinforcement learning approach for self‐optimization of coverage in LTE networks | |
Razavi et al. | Self-optimization of capacity and coverage in LTE networks using a fuzzy reinforcement learning approach | |
CN114422363B (en) | Capacity optimization method and device for unmanned aerial vehicle-mounted RIS auxiliary communication system | |
US11284473B2 (en) | Method and apparatus for intelligent WiFi connection management | |
Mwanje et al. | Distributed cooperative Q-learning for mobility-sensitive handover optimization in LTE SON | |
US11546033B2 (en) | Method of performing beam training based on reinforcement learning and wireless communication device performing the same | |
CN111082840B (en) | Method and device for optimizing antenna broadcast beam | |
CN112492656B (en) | Wireless network access point switching method based on reinforcement learning | |
JP7393765B2 (en) | Wireless communication device, beam direction control device, beam direction control method and program | |
CN117580105B (en) | Unmanned aerial vehicle task unloading optimization method for power grid inspection | |
Gendia et al. | UAV positioning with joint NOMA power allocation and receiver node activation | |
US11930414B2 (en) | Hierarchical policy learning for hybrid communication load balancing | |
CN116257089A (en) | Unmanned aerial vehicle path optimization method based on deep reinforcement learning, storage medium and equipment | |
JP7514477B2 (en) | Wireless communication device, wireless communication system, and beam direction correction method | |
CN114980156B (en) | AP switch switching method of honeycomb millimeter wave-free large-scale MIMO system | |
Möllerstedt et al. | Model Based Residual Policy Learning with Applications to Antenna Control | |
Rojas et al. | Machine Learning-based SON function conflict resolution | |
CN114564248A (en) | Method for calculating unloading according to user movement mode in mobile edge calculation | |
Gu et al. | BeamSniff: Enabling seamless communication under mobility and blockage in 60 GHz networks | |
KR102685679B1 (en) | A method and apparatus for user association based on fuzzy logic and accelerated reinforcement learning for dense cloud wireless network | |
CN118400023B (en) | Wave width determining method and device, electronic equipment and storage medium | |
CN118042528B (en) | Self-adaptive load balancing ground user access method for unmanned aerial vehicle auxiliary network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200617 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220801 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7393765 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |