JP7007669B2 - Communication system, traffic control device and traffic control method - Google Patents
Communication system, traffic control device and traffic control method Download PDFInfo
- Publication number
- JP7007669B2 JP7007669B2 JP2018103999A JP2018103999A JP7007669B2 JP 7007669 B2 JP7007669 B2 JP 7007669B2 JP 2018103999 A JP2018103999 A JP 2018103999A JP 2018103999 A JP2018103999 A JP 2018103999A JP 7007669 B2 JP7007669 B2 JP 7007669B2
- Authority
- JP
- Japan
- Prior art keywords
- communication
- communication device
- value
- traffic
- traffic control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Mobile Radio Communication Systems (AREA)
Description
本発明は、通信システム、トラヒック制御装置及びトラヒック制御方法に関する。 The present invention relates to a communication system, a traffic control device, and a traffic control method.
大容量かつ高速通信を実現できる次世代無線通信技術として、ミリ波通信に期待が集まっている(例えば、非特許文献1参照)。ミリ波通信の利点の一つは利用可能な周波数幅が広帯域な点であり、1Gbit/s(ギガビット毎秒)を超える高速通信が可能である。その一方で、ミリ波は水分や酸素による減衰が大きく、見通し通信路が人体等で遮蔽されると通信品質が急峻に低下するという欠点がある(例えば、非特許文献2参照)。この遮蔽による急峻な通信品質低下問題に対処するため、遮蔽された通信路の流量やトラヒックの経路を制御する装置が必要となる。具体的には、図9のようにAP(Access Point:アクセスポイント)が複数のSTA(Station;無線局)とミリ波で通信している環境の無線通信システムにおいては、APとSTAとの見通し通信路を人体が遮蔽しうる状況であり、このような状況のAPの無線帯域を有効利用するための制御装置が必要となる。以下では、N台(Nは1以上の整数)のSTAを、STA-1~STA-Nとも記載する。 Millimeter-wave communication is expected as a next-generation wireless communication technology that can realize high-capacity and high-speed communication (see, for example, Non-Patent Document 1). One of the advantages of millimeter-wave communication is that the available frequency width is wide band, and high-speed communication exceeding 1 Gbit / s (Gigabit per second) is possible. On the other hand, millimeter waves have a drawback that they are greatly attenuated by moisture and oxygen, and when the line-of-sight communication path is shielded by a human body or the like, the communication quality sharply deteriorates (see, for example, Non-Patent Document 2). In order to deal with the problem of steep communication quality deterioration due to this shielding, a device for controlling the flow rate of the shielded communication path and the traffic path is required. Specifically, as shown in FIG. 9, in a wireless communication system in an environment in which an AP (Access Point) communicates with a plurality of STAs (Stations) by millimeter waves, the outlook for the AP and the STA. It is a situation where the human body can shield the communication path, and a control device for effectively using the radio band of the AP in such a situation is required. In the following, N STAs (N is an integer of 1 or more) are also referred to as STA-1 to STA-N.
ミリ波通信における通信制御問題の解決手法として、RGB-Dカメラを用いた人体遮蔽予測に基づくトラヒック制御装置が提案されている(例えば、非特許文献3参照)。従来技術では、RGB-Dカメラから得られた画像・動画データを用いて人体を検知し、その移動先を予測する。その移動先への移動によって人体がAPとSTAとの見通し通信路を遮蔽する場合、遮蔽が起こる直前にAPとSTA間のトラヒックを停止し、遮蔽されていない通信路のトラヒックを優先して送信する。この制御によって、制御しない場合と比べて、APにおける合計スループットを増加できる。つまり、無線帯域を有効利用するためのトラヒック制御が可能となる。また、遮蔽を予測し、遮蔽が起こる直前にプロアクティブに制御をかけるため、スループットが低下してから制御をかける従来のリアクティブな制御方式と比較して、合計スループットを増加できる。 As a method for solving a communication control problem in millimeter-wave communication, a traffic control device based on human body shielding prediction using an RGB-D camera has been proposed (see, for example, Non-Patent Document 3). In the prior art, the human body is detected using the image / moving image data obtained from the RGB-D camera, and the movement destination thereof is predicted. When the human body blocks the line-of-sight communication path between AP and STA by moving to the destination, the traffic between AP and STA is stopped immediately before the shielding occurs, and the traffic on the unshielded communication path is given priority for transmission. do. This control can increase the total throughput in the AP compared to the case without control. That is, traffic control for effectively using the radio band becomes possible. In addition, since the shielding is predicted and proactively controlled immediately before the shielding occurs, the total throughput can be increased as compared with the conventional reactive control method in which control is performed after the throughput decreases.
図10は、非特許文献3の技術を適用したトラヒック制御装置の機能ブロック図である。同図では、APとSTA-1~STA-Nとが無線通信する無線通信システムのプロキシサーバに、トラヒック制御装置が搭載されている。トラヒック制御装置は、画像解析部と、遮蔽判定部と、通信制御部とを備える。トラヒック制御装置を稼働させる際には、初期設定として遮蔽判定部に通信路を設定しておく。画像解析部は、RGB-Dカメラから得られた画像を用いて、ミリ波通信における人体(障害物)の位置推定を行う。次に、遮蔽判定部は、推定された人体の位置とその移動速度から、予め設定した見通し通信路が人体によって遮蔽されるか否かを判定し、遮蔽されると判定した場合にはそのタイミングを推定する。
FIG. 10 is a functional block diagram of a traffic control device to which the technique of Non-Patent
通信制御部は、遮蔽判定部が推定した見通し通信路の遮蔽状況に基づいて、遮蔽が起こると推定された時間にそのトラヒックを停止するようにトラヒックの流量を制御する。具体的には、通信制御部は、インターネットから受信した、見通し通信路が遮蔽されるSTA宛のパケットの送信を停止する。また、通信制御部は、遮蔽が解除されると推定された時間に、STA宛てのパケットの送信を再開する。このトラヒック制御によって、APは、あるSTAとの通信において人体遮蔽に伴いスループットが低下するときにおいても、別のSTAとの通信にリソースを割り当てることができる。よって、トラヒック制御を行わない場合と比較して、APにおける合計スループットを増加できる。 The communication control unit controls the flow rate of the traffic so as to stop the traffic at the time estimated that the shielding occurs, based on the shielding condition of the line-of-sight communication path estimated by the shielding determination unit. Specifically, the communication control unit stops the transmission of the packet addressed to the STA, which is received from the Internet and whose line-of-sight communication path is blocked. Further, the communication control unit resumes the transmission of the packet addressed to the STA at the time estimated that the shielding is released. This traffic control allows the AP to allocate resources to communication with another STA even when the throughput of communication with one STA decreases due to human body shielding. Therefore, the total throughput in the AP can be increased as compared with the case where the traffic control is not performed.
非特許文献3の技術では、見通し通信路が遮蔽されそうなときにその見通し通信路を使用するSTAとの通信を遮断し、別のSTAとの通信にリソースを割り当てるといったルールベースの制御を行っている。この方式では、環境に合わせてルールを人手で作る必要がある。例えば、見通し通信路の遮蔽が通信品質に影響しないような環境(反射による通信路ができるような環境)では、その見通し通信路が遮蔽された場合でも通信を停止する必要がない。しかし、ミリ波通信環境は、ミリ波基地局や家具の配置によって容易に変化するため、その度に設定し直す必要がある。
The technique of Non-Patent
加えて、人手では適切なルールの設計が難しい環境、例えば、遮蔽する歩行者が多数存在し到来にムラがあるような場合や、動画や音声通話などアプリケーションが異なる場合などでは、適切なトラヒック制御方策は変わることが考えられる。しかしながら、適切な制御方策を決めるのは容易ではない。 In addition, appropriate traffic control is used in environments where it is difficult to manually design appropriate rules, for example, when there are many pedestrians to shield and the arrival is uneven, or when applications such as video and voice calls are different. The policy may change. However, it is not easy to determine an appropriate control measure.
さらには、画像から人体認識、移動予測、見通し通信路遮蔽予測など、様々な処理を行う必要がある。それらの性能は、通信制御の性能に強く影響を与える。 Furthermore, it is necessary to perform various processes such as human body recognition, movement prediction, and line-of-sight channel obstruction prediction from images. Their performance strongly affects the performance of communication control.
上記事情に鑑み、本発明は、移動する障害物により無線通信のための見通し通信路に一時的に遮蔽が生じる環境下における合計スループットを増加させることができる通信システム、トラヒック制御装置及びトラヒック制御方法を提供することを目的としている。 In view of the above circumstances, the present invention presents a communication system, a traffic control device, and a traffic control method capable of increasing the total throughput in an environment in which a line-of-sight communication path for wireless communication is temporarily obstructed by a moving obstacle. Is intended to provide.
本発明の一態様は、第1通信装置と、前記第1通信装置と無線により通信する1台以上の第2通信装置と、第1通信装置から前記第2通信装置に送信するデータを取得する第3通信装置と、トラヒック制御装置とを有する通信システムであって、前記トラヒック制御装置は、前記第1通信装置と前記第2通信装置との間の通信環境を撮像した画像データと、前記第3通信装置が記憶する前記第2通信装置宛ての未送信の前記データのデータ量の情報とを用いて、前記第2通信装置それぞれのトラヒックの組み合わせにより表される行動の価値を算出する価値関数により複数種類の行動それぞれの価値を算出し、算出した前記価値に基づいて行動を決定する行動決定部と、前記行動決定部が決定した前記行動が表す前記第2通信装置それぞれのトラヒックに従って、前記第2通信装置宛ての前記データを前記第1通信装置に送信するよう前記第3通信装置を制御する通信制御部と、前記通信制御部による制御が行われたことによる前記第2通信装置の通信状況を取得し、取得した前記通信状況が過去の通信状況から向上した程度を表す報酬を計算する報酬計算部と、前記報酬計算部が異なる時間区間について計算した前記報酬の累積和が最大になるように前記価値関数を更新する学習部と、を備え、前記時間区間における前記報酬は、前記時間区間における前記第1通信装置の合計のスループットから、前記第1通信装置の過去の時間区間から当該時間区間までのそれぞれの合計のスループットに時間に応じた係数を乗算後に平均した加重平均値を減算した第1の値、または、前記時間区間における前記第1通信装置の合計のスループットを前記第1通信装置の平均のスループットで正規化した第2の値、または、前記第1通信装置の平均のスループットに対する前記時間区間における前記第1通信装置の合計のスループットの比が所定値を超える場合は正の一定値となり、前記比が前記所定値以下の場合は絶対値が前記正の一定値より大きい負の一定値となる第3の値であり、前記第1通信装置は、前記第3通信装置から受信した前記第2通信装置宛ての前記データを無線により前記第2通信装置へ送信する、通信システムである。 One aspect of the present invention is to acquire a first communication device, one or more second communication devices that wirelessly communicate with the first communication device, and data transmitted from the first communication device to the second communication device. A communication system including a third communication device and a traffic control device, wherein the traffic control device includes image data of an image of a communication environment between the first communication device and the second communication device, and the first. 3 A value function for calculating the value of an action represented by a combination of throughputs of each of the second communication devices by using information on the amount of untransmitted data to the second communication device stored in the communication device. According to the throughput of each of the action determination unit that calculates the value of each of the plurality of types of actions and determines the action based on the calculated value, and the second communication device represented by the action determined by the action determination unit. Communication between the communication control unit that controls the third communication device so that the data addressed to the second communication device is transmitted to the first communication device, and the second communication device that is controlled by the communication control unit. The cumulative sum of the rewards calculated by the reward calculation unit for different time intervals is the maximum between the reward calculation unit that acquires the status and calculates the reward indicating the degree to which the acquired communication status is improved from the past communication status. With a learning unit that updates the value function as described above , the reward in the time interval is from the total throughput of the first communication device in the time interval and from the past time interval of the first communication device. The first value obtained by multiplying each total throughput up to the time interval by a coefficient corresponding to time and then subtracting the weighted average value, or the total throughput of the first communication device in the time interval is the first. A second value normalized by the average throughput of the communication device, or positive when the ratio of the total throughput of the first communication device in the time interval to the average throughput of the first communication device exceeds a predetermined value. When the ratio is equal to or less than the predetermined value, the absolute value is a negative constant value larger than the positive constant value, and the first communication device is the third communication device. It is a communication system that wirelessly transmits the data to the second communication device received from the second communication device.
本発明の一態様は、第1通信装置と1台以上の第2通信装置との間の通信環境を撮像した画像データと前記第2通信装置宛ての未送信のデータのデータ量の情報とを用いて、前記第2通信装置それぞれのトラヒックの組み合わせとして表される行動の価値を算出する価値関数により複数種類の行動それぞれの価値を算出し、算出した前記価値に基づいて行動を決定する行動決定部と、前記行動決定部が決定した前記行動が表す前記第2通信装置それぞれのトラヒックに従って、前記第1通信装置から前記第2通信装置宛ての前記データが配信されるよう通信を制御する通信制御部と、前記通信制御部による制御が行われたことによる前記第2通信装置の通信状況を取得し、取得した前記通信状況が過去の通信状況から向上した程度を表す報酬を計算する報酬計算部と、前記報酬計算部が異なる時間区間について計算した前記報酬の累積和が最大になるように前記価値関数を更新する学習部と、を備え、前記時間区間における前記報酬は、前記時間区間における前記第1通信装置の合計のスループットから、前記第1通信装置の過去の時間区間から当該時間区間までのそれぞれの合計のスループットに時間に応じた係数を乗算後に平均した加重平均値を減算した第1の値、または、前記時間区間における前記第1通信装置の合計のスループットを前記第1通信装置の平均のスループットで正規化した第2の値、または、前記第1通信装置の平均のスループットに対する前記時間区間における前記第1通信装置の合計のスループットの比が所定値を超える場合は正の一定値となり、前記比が前記所定値以下の場合は絶対値が前記正の一定値より大きい負の一定値となる第3の値である、トラヒック制御装置である。 One aspect of the present invention is to obtain image data of an image of a communication environment between a first communication device and one or more second communication devices and information on the amount of untransmitted data to the second communication device. The value of each of a plurality of types of actions is calculated by a value function that calculates the value of the action expressed as a combination of traffic of each of the second communication devices, and the action is determined based on the calculated value. Communication control that controls communication so that the data from the first communication device to the second communication device is delivered according to the traffic of each of the unit and the second communication device represented by the action determined by the action determination unit. A reward calculation unit that acquires the communication status of the second communication device due to control by the communication control unit and calculates a reward indicating the degree to which the acquired communication status is improved from the past communication status. And a learning unit that updates the value function so that the cumulative sum of the rewards calculated by the reward calculation unit for different time intervals is maximized, and the reward in the time interval is the said in the time interval. The first is obtained by subtracting the weighted average value obtained by multiplying the total throughput of the first communication device from the past time interval to the time interval by a coefficient according to the time and then averaging from the total throughput of the first communication device. Or the second value obtained by normalizing the total throughput of the first communication device in the time interval with the average throughput of the first communication device, or the said with respect to the average throughput of the first communication device. When the ratio of the total throughput of the first communication device in the time interval exceeds the predetermined value, it becomes a positive constant value, and when the ratio is equal to or less than the predetermined value, the absolute value is a negative constant value larger than the positive constant value. It is a traffic control device which is a third value to be a value .
本発明の一態様は、上述のトラヒック制御装置であって、前記第2通信装置の前記通信状況は、前記第2通信装置におけるスループット、又は、前記第2通信装置宛ての前記データの送信にかかった時間を表す情報である。 One aspect of the present invention is the above-mentioned traffic control device, and the communication status of the second communication device depends on the throughput in the second communication device or the transmission of the data to the second communication device. Information that represents the time spent.
本発明の一態様は、上述のトラヒック制御装置であって、前記価値関数は、深層ニューラルネットワークにより近似される。 One aspect of the present invention is the above-mentioned traffic control device, in which the value function is approximated by a deep neural network.
本発明の一態様は、上述のトラヒック制御装置であって、前記価値関数に用いられる前記画像データは、異なるタイミングにおいて撮影された複数の画像データそれぞれの解像度を低減したのちにピクセル値を正規化したデータである。 One aspect of the present invention is the above-mentioned traffic control device, in which the image data used in the value function normalizes pixel values after reducing the resolution of each of a plurality of image data captured at different timings. It is the data that was done.
本発明の一態様は、上述のトラヒック制御装置であって、前記価値関数に用いられる未送信の前記第2通信装置宛てのデータ量の情報は、複数の前記第2通信装置それぞれ宛ての未送信の前記データ量をOne-Hot表現により表したベクトルを並べた情報である。 One aspect of the present invention is the above-mentioned traffic control device, in which information on the amount of data not transmitted to the second communication device used in the value function is not transmitted to each of the plurality of second communication devices. It is the information which arranged the vector which expressed the said data amount by One-hot expression.
本発明の一態様は、上述のトラヒック制御装置であって、前記画像データは、深度画像データである。 One aspect of the present invention is the above-mentioned traffic control device, and the image data is depth image data.
本発明の一態様は、第1通信装置と1台以上の第2通信装置との間の無線通信を制御するトラヒック制御装置におけるトラヒック制御方法であって、前記トラヒック制御装置が、前記第1通信装置と前記第2通信装置との間の通信環境を撮像した画像データと前記第2通信装置宛ての未送信のデータのデータ量の情報とを用いて、前記第2通信装置それぞれのトラヒックの組み合わせとして表される行動の価値を算出する価値関数により複数種類の行動それぞれの価値を算出し、算出した前記価値に基づいて行動を決定する行動決定ステップと、前記行動決定ステップにおいて決定された前記行動が表す前記第2通信装置それぞれのトラヒックに従って、前記第1通信装置から前記第2通信装置宛ての前記データが配信されるよう通信を制御する通信制御ステップと、前記通信制御ステップによる制御が行われたことによる前記第2通信装置の通信状況を取得し、取得した前記通信状況が過去の通信状況から向上した程度を表す報酬を計算する報酬計算ステップと、前記報酬計算ステップにおいて異なる時間区間について計算された前記報酬の累積和が最大になるように前記価値関数を更新する学習ステップと、を実行し、前記時間区間における前記報酬は、前記時間区間における前記第1通信装置の合計のスループットから、前記第1通信装置の過去の時間区間から当該時間区間までのそれぞれの合計のスループットに時間に応じた係数を乗算後に平均した加重平均値を減算した第1の値、または、前記時間区間における前記第1通信装置の合計のスループットを前記第1通信装置の平均のスループットで正規化した第2の値、または、前記第1通信装置の平均のスループットに対する前記時間区間における前記第1通信装置の合計のスループットの比が所定値を超える場合は正の一定値となり、前記比が前記所定値以下の場合は絶対値が前記正の一定値より大きい負の一定値となる第3の値である、トラヒック制御方法である。 One aspect of the present invention is a throughput control method in a throughput control device that controls wireless communication between a first communication device and one or more second communication devices, wherein the traffic control device is the first communication. A combination of the throughput of each of the second communication devices by using the image data of the communication environment between the device and the second communication device and the information of the data amount of the untransmitted data addressed to the second communication device. The action determination step in which the value of each of a plurality of types of actions is calculated by the value function for calculating the value of the action expressed as, and the action is determined based on the calculated value, and the action determined in the action determination step. According to the throughput of each of the second communication devices represented by, a communication control step for controlling communication so that the data from the first communication device to the second communication device is delivered, and control by the communication control step are performed. The communication status of the second communication device is acquired, and the reward calculation step for calculating the reward indicating the degree of improvement of the acquired communication status from the past communication status is calculated for different time intervals in the reward calculation step. A learning step of updating the value function so that the cumulative sum of the rewards is maximized is executed, and the reward in the time interval is obtained from the total throughput of the first communication device in the time interval. The first value obtained by subtracting the weighted average value obtained by multiplying the total throughput of the first communication device from the past time interval to the time interval by a coefficient corresponding to the time, or the said in the time interval. A second value obtained by normalizing the total throughput of the first communication device with the average throughput of the first communication device, or the total of the first communication device in the time interval with respect to the average throughput of the first communication device. When the ratio of the throughput of is more than the predetermined value, it becomes a positive constant value, and when the ratio is equal to or less than the predetermined value, the absolute value becomes a negative constant value larger than the positive constant value. This is a traffic control method.
本発明により、移動する障害物により無線通信のための見通し通信路に一時的に遮蔽が生じる環境下における合計スループットを増加させることが可能となる。 INDUSTRIAL APPLICABILITY According to the present invention, it is possible to increase the total throughput in an environment where the line-of-sight communication path for wireless communication is temporarily obstructed by a moving obstacle.
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
本実施形態のトラヒック制御装置は、従来の問題点を解決するために、深層強化学習を用いる。本実施形態のトラヒック制御装置は、カメラ画像とトラヒックバッファとを「状態」として用い、その「状態」に適切な制御を試行錯誤により学習的に獲得する。強化学習とは、行動主体であるエージェントが環境に対して試行錯誤をしながら行動し、その行動に対して環境から報酬を与えられることによって、より良い方策を獲得する機械学習の一種である。エージェントは、「状態」から期待される報酬を表す価値関数に従って行動し、得られた報酬によってこの価値関数を更新する。深層強化学習では、この価値関数に畳み込みニューラルネットワーク(CNN;Convolutional Neural Network)などのニューラルネットワークを用いて関数近似をする。これによって、状態数が膨大な問題に適用できることに加え、畳込み層を用いることで画像を入力とするような問題に対して効果を発揮する。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
The traffic control device of the present embodiment uses deep reinforcement learning in order to solve the conventional problems. The traffic control device of the present embodiment uses a camera image and a traffic buffer as "states", and acquires control appropriate for the "state" by trial and error. Reinforcement learning is a type of machine learning in which an agent who is the main actor acts on the environment through trial and error, and the behavior is rewarded by the environment to acquire better measures. The agent acts according to a value function that represents the reward expected from the "state" and updates this value function with the obtained reward. In deep reinforcement learning, a function approximation is performed using a neural network such as a convolutional neural network (CNN) for this value function. As a result, in addition to being applicable to a problem in which the number of states is enormous, the use of a convolutional layer is effective for a problem in which an image is input.
図1は、本発明の一実施形態による通信システム1を示す図である。通信システム1は、アクセスポイント(AP)2、無線局(STA)3と、プロキシサーバ4と、トラヒック制御装置5と、撮像装置6とを備える。N台(Nは1以上の整数)のSTA3のうちn台目(nは1以上N以下の整数)のSTA3を、STA-nと記載する。また、同図において、トラヒック制御装置5は、プロキシサーバ4に搭載される。同図に示す通信システム1は、図10に示す従来のトラヒック制御装置を、トラヒック制御装置5に置き換えた構成である。
FIG. 1 is a diagram showing a
AP2は、1台以上のSTA3と無線通信する。AP2は、インターネット7を介して接続される通信装置からプロキシサーバ4が受信したSTA3宛てのパケットを無線により送信する。また、AP2は、インターネット7を介して接続される通信装置宛てのパケットをSTA3から無線により受信し、プロキシサーバ4に送信する。プロキシサーバ4は、STA3の代理としてインターネット7を介した通信を行う。撮像装置6は、例えば、RGB-Dカメラである。RGB-Dカメラは、RGB画像(カラー画像)と深度画像とを撮像する。撮像装置6は、AP2と複数のSTA3との間の無線の見通し通信路と及びその周辺を含んだ環境の画像を所定周期で撮像する。撮像装置6は、撮像した画像のデータであるカメラ画像をトラヒック制御装置5に送信する。
AP2 wirelessly communicates with one or more STA3s. The AP2 wirelessly transmits a packet addressed to the
プロキシサーバ4は、第1通信部41と、記憶部42と、第2通信部43と、トラヒック制御装置5とを備える。第1通信部41は、インターネット7を介して受信したSTA3宛てのファイルのパケットを受信し、STA3別に記憶部42に書き込む。記憶部42は、複数のファイルバッファを有している。STA3に割り当てられたファイルバッファに、当該STA3宛てのファイルが記憶される。1台のSTA3に対して複数のファイルバッファを割り当てることができる。1台のSTA3に対して割り当て可能なファイルバッファに上限を設けてもよい。本実施形態では、1台のSTA3に3つのファイルバッファを割り当て可能とする。第2通信部43は、トラヒック制御装置5の制御に従って、STA3宛てのファイルを記憶部42から読み出してAP2に送信する。
The proxy server 4 includes a
トラヒック制御装置5は、強化学習部51と、報酬計算部52と、通信制御部53とを備える。強化学習部51は、加工部511と、行動決定部512と、学習部513とを備える。行動決定部512及び学習部513は、深層強化学習アルゴリズムの処理部である。加工部511は、撮像装置6から入力されたカメラ画像と、トラヒックバッファ情報とを処理に適したデータ形式に加工し、深層強化学習アルゴリズムの処理部に出力する。行動決定部512は、データ形式が加工されたカメラ画像とトラヒックバッファ情報とを含む「状態」に基づいて、トラヒックの制御信号を「行動」として出力する。トラヒックバッファ情報とは、プロキシサーバ4に蓄積されている各STA3宛ての未送信のデータのデータ量である。本実施形態では、トラヒックバッファ情報として、ファイル残量が用いられる。ファイル残量は、記憶部42に記憶される未送信の各STA3宛てのファイルの容量である。学習部513は、出力した「行動」について報酬計算部52が計算した報酬に基づいて、より良い制御方法を学習する。
The
報酬計算部52は、各STA3のスループット及びトラヒックバッファ情報、あるいは、それらの一部から、目的に合わせて設計された報酬を出力する。通信制御部53は、AP2と各STA3とのトラヒックをスケジューリングしながらSTA3宛てのファイルを配信するようプロキシサーバ4の第2通信部を制御する。これは、ミリ波通信においては、その高速通信という利点を活かし、容量の大きいファイルを送信するという実用例が想定されるためである。
The
なお、トラヒック制御装置5が、プロキシサーバ4の第1通信部41と、記憶部42と、第2通信部43とのうち任意の一以上の機能部を有してもよい。また、第1通信部41と通信制御部53とが同一の機能部でもよく、第2通信部43と通信制御部53とが同一の機能部でもよく、第1通信部41、第2通信部43及び通信制御部53が同一の機能部でもよい。また、トラヒック制御装置5は、プロキシサーバ4と通信ネットワークにより接続される外部の装置であってもよい。また、第1通信部41と、記憶部42と、第2通信部43と、強化学習部51と、報酬計算部52と、通信制御部53とのうち一以上の任意の機能部を、プロキシサーバ4及びトラヒック制御装置5とが協働して実現してもよい。
The
図2は、トラヒック制御装置5の処理の流れを示すフロー図である。
トラヒック制御装置5が起動すると、撮像装置6は、一定時間間隔で通信環境を撮影してカメラ画像を生成し、強化学習部51へ送信する(ステップS1)。一方で、通信制御部53は、各STA3のファイルバッファ内のファイル残量を取得し、強化学習部51へ送信する(ステップS2)。加工部511は、撮像装置6及び通信制御部53のそれぞれから受信したデータを深層強化学習の設計に合わせて事前処理した後、行動決定部512に入力する(ステップS3)。
FIG. 2 is a flow chart showing a processing flow of the
When the
深層強化学習では価値関数にニューラルネットワークを用いるため、加工部511は、カメラ画像とファイル残量情報を、設計されたニューラルネットワークに適した入力データに加工する。この価値関数のニューラルネットワークの例として、全結合層のみの単純なものや、画像認識の分野でよく用いられる畳込み層を含んだものが挙げられる。例として、価値関数が全結合層のみのニューラルネットワークの場合、加工部511は、カメラ画像のうち深度画像の解像度を低くした後に1次元のデータにして、各深度値を0から1までの値に正規化する。また、加工部511は、各STA3のファイルバッファに残っているファイルの容量を離散化してOne-Hot表現化したファイル残量情報を生成し、入力データとする。One-Hot表現とは、ある要素のみが1であり、それ以外の要素が0となるベクトル表現のことである。ファイル容量を表すベクトルの各要素はそれぞれファイル容量の範囲に対応しており、ファイルバッファに残っているファイル容量に対応した要素に1が設定され、他の要素には0が設定される。
Since a neural network is used as a value function in deep reinforcement learning, the
行動決定部512は、深層強化学習アルゴリズムを用いて、価値関数の出力結果に基づいて各STA3の通信のトラヒック(強化学習の「行動」)を決定する(ステップS4)。具体的には、行動決定部512は、カメラ画像とファイルバッファのファイル残量情報という「状態」において、とりうる「行動」のうち、それら各「行動」によって最も価値が高くなるような状態遷移を起こす「行動」(各STA3のトラフィック)を優先的に採用する。行動決定部512は、決定した各STA3の通信のトラヒック制御情報を通信制御部53に送信する。これを受信した通信制御部53は、そのトラヒック制御情報に従って、ファイルバッファに保持していたファイルをパケットに設定してAP2へ送信するようプロキシサーバ4の第2通信部43を制御する(ステップS5)。
The
パケット送信後、通信制御部53は、各STA3宛てのバッファ内のファイル残量とその時点での各STA3のスループットを取得し、報酬計算部52へ送信する(ステップS6)。報酬計算部52は、受信したファイル残量及びスループット情報を用いて報酬を計算する(ステップS7)。報酬は、トラヒック制御の詳細な目的に合わせて設計される。詳細な目的の例としては、AP2の合計スループットの最大化、ファイル送信時間の合計の最小化等が挙げられる。AP2の合計スループットの最大化が目的の場合、報酬計算部52は、行動決定部512が行動を決定し、その決定に基づいて通信制御部53が行動する度に毎回、その時点でのAP2の合計スループットを報酬として与える。ファイル送信時間の合計の最小化が目的の場合、報酬計算部52は、行動決定部512が行動を決定し、その決定に基づいて通信制御部53が行動する度に毎回、ファイルがプロキシサーバ4に到着してからSTA3へファイルの送信を完了するまでの間、負の定数を報酬として与える。つまり、報酬の累積和が、ファイル送信時間の合計に比例した値になる。
After transmitting the packet, the
例えば、AP2の合計スループットの最大化が目的の場合、時間ステップtにおける報酬rtは、以下の式(1)のように算出される。 For example, when the purpose is to maximize the total throughput of AP2, the reward rt in the time step t is calculated by the following equation (1).
Ttは時間ステップtにおける合計スループット、c(t)は時間パラメータtに応じた係数である。Σの項はこれまでの合計スループットを時間等のパラメータにより加重平均した値である。例えば、各c(i)を、式(1)の第2項において時間に応じた加重平均スループットが得られるように決定してもよい。また、c(i)=1(iはt以下の整数)とすると、報酬rtは、以下の式(2)により算出される。 T t is the total throughput in the time step t, and c (t) is a coefficient corresponding to the time parameter t. The term Σ is the value obtained by weighted averaging the total throughput so far by parameters such as time. For example, each c (i) may be determined in the second term of the equation (1) so as to obtain a weighted average throughput according to time. Further, assuming that c (i) = 1 (i is an integer of t or less), the reward rt is calculated by the following equation (2).
また、報酬を、式(3)に示すようにAP2全体の平均のスループットTt ̄で正規化したスループットとしてもよく、式(4)に示すように、正規化したスループットの差分としてもよい。 Further, the reward may be a throughput normalized by the average throughput Tt  ̄ of the entire AP2 as shown in the equation (3), or may be a difference of the normalized throughput as shown in the equation (4).
また、以下の式(5)のように、スループットの平均からの減衰率が一定値αを下回ったときに大きな負の報酬を与えるようにしてもよい。 Further, as in the following equation (5), a large negative reward may be given when the attenuation rate from the average throughput falls below a certain value α.
また、式(1)~式(5)におけるスループットを、ミリ波通信の物理伝送速度に置き換えてもよい。 Further, the throughput in the equations (1) to (5) may be replaced with the physical transmission speed of millimeter wave communication.
報酬計算部52は、計算した報酬を強化学習部51に送信する。強化学習部51は、通知された報酬に基づいて、深層強化学習アルゴリズムによって価値関数を更新していくことで学習を進める(ステップS8)。
The
この一連の動作を繰り返すことにより、強化学習部51は、入力された報酬の累積和が最大となるように学習を進めながら各STA3のトラヒックのトラヒックを決定していく。従って、学習が進むに連れてトラヒック制御装置5を設置した環境に適応したトラヒック制御方法を自動的に獲得する。
By repeating this series of operations, the
トラヒック制御装置5は、複数エピソードを実施した結果に基づいて、上記の処理を行い、行動評価関数を学習する。図3は、エピソードを説明するための図である。エピソードとは、記憶部42におけるファイルバッファ内のファイルが全て送信完了するまでの一連の流れを表す。プロキシサーバ4は、トラヒック制御装置5の通信制御部53の制御に従って、ファイルバッファに記憶されるファイルを、AP2を介して各STA3へ送信していき、ファイルバッファ内のファイルを全て送信し終えた時点で1エピソードの終了とする。1エピソードの途中ではファイルは追加されない。エピソードが進むに連れて、本実施形態のトラヒック制御装置5の学習も進む。なお、学習する上限数をあらかじめ決めておき、エピソードが上限数に達した場合には学習を終了してもよい。
The
価値関数として用いられる深層ニューラルネットワーク(CNN)の入力データ及び層設計の例を説明する。
図4は、ステップS3におけるカメラ画像から入力データへの加工を示す図である。強化学習部51は、1秒間における過去5枚分のカメラ画像に含まれる深度画像データをそれぞれ20×20ピクセルの二次元画像データに圧縮する。強化学習部51は、5枚の深度画像データそれぞれを圧縮して得られた5チャネルの二次元画像をCNNへの入力データとする。
An example of input data and layer design of a deep neural network (CNN) used as a value function will be described.
FIG. 4 is a diagram showing processing from a camera image to input data in step S3. The
図5は、ステップS3におけるファイル残量情報から入力データへの加工を示す図である。まず、各ファイルの残量を複数段階に離散化する。ここでは、ファイル容量の最大値が2000Mbit(メガビット)であり、10段階に離散化する場合を例とする。この場合、ファイル残量情報として用いられるOne-Hot表現のベクトルの各要素を、[(0-200Mbit),(200-400Mbit),(400-600Mbit),(600-800Mbit),…,(1800-2000bit)]と定める。記憶部42から取得したSTA-n(nは1以上N以下の整数)のファイル残量が容量700Mbitである場合、ファイル残量情報はベクトル[0,0,0,1,0,0,0,0,0,0]と表される。強化学習部51、STA-1、STA-2、…、STA-Nについて生成したファイル残量情報を表すベクトルを並べて結合し、入力データとする。
FIG. 5 is a diagram showing processing from the file remaining amount information in step S3 to the input data. First, the remaining amount of each file is discretized in multiple stages. Here, the case where the maximum value of the file capacity is 2000 Mbit (megabit) and the file is discretized in 10 steps is taken as an example. In this case, each element of the One-Hot representation vector used as the file remaining amount information is set to [(0-200 Mbit), (200-400 Mbit), (400-600 Mbit), (600-800 Mbit), ..., (1800). -2000 bits)]. When the file remaining amount of STA-n (n is an integer of 1 or more and N or less) acquired from the
図6は、CNNの層設計を示す図である。なお、「Affine,a-b」は、a次元ベクトルを全結合層に入力し、b次元ベクトルを出力する演算を表す。「k×l 2D Conversion,a-b」は、k×lの二次元フィルタにより、aチャネルの入力を畳み込み、bチャネルにして出力する演算を表す。また、「k×l 2D Max Pooling」は、サイズがk×lのグリッドに入力を分割し、各グリッドの最大値を代表値として出力する演算を表す。「ReLU」は、活性化関数ReLU(Rectified Linear Units)に入力する演算を表す。活性化関数ReLUは、マイナスの値を0に変換する。
FIG. 6 is a diagram showing a layer design of CNN. Note that "Affine, ab" represents an operation in which an a-dimensional vector is input to the fully connected layer and a b-dimensional vector is output. “K × l 2D Conversion, ab” represents an operation in which the input of a channel is convolved into b channel by a two-dimensional filter of k × l and output. Further, "k ×
入力層では、図3に示した処理により5チャネルの二次元画像(5 Channels 2D Image)を生成する。さらに、入力層では、図4に示した処理により各STA3のファイル残量をOne-Hot表現のベクトルに変換し、結合して60次元ベクトルを生成する。
In the input layer, a five-channel two-dimensional image (5
隠れ層には、1a層~8a層と、1b層~2b層と、8a層及び2b層の出力を入力とする9層とがある。
1a層では、5チャネルの二次元画像(5 Channels 2D Image)を、5×5の二次元フィルタにより畳み込み、20チャネルにして出力する。2a層では、20チャネルの1a層の出力を活性化関数ReLUに入力し、マイナスの値を取り除く。3a層では、20チャネルの2a層の出力を2×2のグリッドに分割し、各グリッドの最大値を出力する。4a層では、20チャネルの3a層の出力を、5×5の二次元フィルタにより畳み込み、50チャネルにして出力する。5a層では、50チャネルの4a層の出力を活性化関数ReLUに入力し、マイナスの値を取り除く。6a層では、50チャネルの5a層の出力を2×2のグリッドに分割し、各グリッドの最大値を出力する。7a層では、6a層の1250次元ベクトルを全結合層に入力し、500次元ベクトルを出力する。8a層では、7a層の出力を活性化関数ReLUに入力し、マイナスの値を取り除く。
The hidden layer includes layers 1a to 8a, layers 1b to 2b, and nine layers that input the outputs of the layers 8a and 2b.
In the 1a layer, a 5
一方、1b層では、各STA3のファイル残量に基づいて得られた60次元ベクトルを全結合層に入力し、100次元ベクトルを出力する。なお、STA3の台数Nと、One-Hot表現のベクトルの要素数との乗算が60であるとする。2b層では、1b層の出力を活性化関数ReLUに入力し、マイナスの値を取り除く。 On the other hand, in the 1b layer, the 60-dimensional vector obtained based on the remaining amount of the file of each STA3 is input to the fully connected layer, and the 100-dimensional vector is output. It is assumed that the multiplication of the number N of the STA3 and the number of elements of the vector of the One-Hot expression is 60. In the 2b layer, the output of the 1b layer is input to the activation function ReLU, and the negative value is removed.
9層では、8a層の出力及び2b層の出力を併せた600次元ベクトルを全結合層に入力し、各行動の評価値を得る。出力層は、各行動の評価値を出力する。各行動は、各STA3との通信をONにするかOFFにするかの組み合わせでもよく、N台のSTA3それぞれのトラヒック量の組み合わせでもよい。同図では、2台のSTA3それぞれとの通信をONにするかOFFにするかの組み合わせから、2台ともOFFの組み合わせを除いたものである。つまり、(STA-1,STA-2)を(ON,ON)、(ON,OFF)、(OFF,ON)とする3種類の行動である。この3種類の行動それぞれの評価値を得るため、9層からは3次元ベクトルが出力される。 In the 9th layer, a 600-dimensional vector including the output of the 8a layer and the output of the 2b layer is input to the fully connected layer, and the evaluation value of each action is obtained. The output layer outputs the evaluation value of each action. Each action may be a combination of turning on or off communication with each STA3, or may be a combination of traffic amounts of each of N STA3s. In the figure, the combination of turning on or off the communication with each of the two STA3s is excluded from the combination of turning off both of them. That is, there are three types of actions in which (STA-1, STA-2) is (ON, ON), (ON, OFF), and (OFF, ON). In order to obtain the evaluation values of each of these three types of actions, a three-dimensional vector is output from the nine layers.
なお、Conversion層については、入力層に近いところにおいては画像から特徴量抽出するフィルタが学習されることが期待され、出力層に近いところでは特徴量から値を予測するフィルタが学習されることを期待される。ReLUは、活性化関数として広く用いられる。ReLUは、他の活性化関数(シグモイド関数など)とくらべて、経験的に学習速度が早く、性能が高くなることが知られている。また、Max Pooling層は、Conversion層を通すことにより増大したパラメータ数を削減することで学習時間を短縮するために使用される。Affine層は、CNNにより抽出された特徴量から値を予測することを期待して使用される。CNNのみで構成するような層設計と比較して、学習時間の短縮が期待できることが経験的に知られている。 Regarding the Conversion layer, it is expected that a filter for extracting features from an image will be learned near the input layer, and a filter for predicting values from features will be learned near the output layer. Be expected. ReLU is widely used as an activation function. It is known that ReLU has an empirically faster learning speed and higher performance than other activation functions (sigmoid function, etc.). Further, the Max Polling layer is used to shorten the learning time by reducing the number of parameters increased by passing through the Conversion layer. The Affine layer is used with the expectation that the value will be predicted from the features extracted by CNN. It is empirically known that the learning time can be expected to be shortened as compared with the layer design consisting only of CNN.
学習部513は、価値関数として用いられるCNNを更新する。具体的には、学習部513は、報酬計算部52により計算される報酬に基づいて、全結合層における重みを更新する。例えば、行動決定部512において、AP2とSTA-1の通信ON、AP2とSTA-2の通信OFFという結果が得られた場合、通信制御部53は、AP2とSTA-1との通信のみをONにするよう制御を行う。例えば、通信制御部53は、STA-1宛てのファイルをAP2に出力し、STA-2宛てのファイルをAP2に出力しないようにプロキシサーバ4の第2通信部43を制御する。あるいは、プロキシサーバ4の第2通信部43を介して、AP2に対してSTA-1との通信を行い、STA-2との通信を行わないよう制御信号を送信してもよい。しかしながら、このような制御を行っても、AP2とSTA-1間で遮蔽が発生している、マルチパスで反射が発生しているなど、実際はAP2とSTA-1間の伝搬路の状態が悪い場合、通信速度は低くなる。極端な例として、AP2とSTA-1間に金属の壁があり、STA-1にまったく電波が届かない場合は、通信がONの状態でもスループットは0Mbit/sとなる。学習部513は、そのようなことが発生しないように、各STA3のON/OFFを制御するための学習を行うことができる。
The
本実施形態のトラヒック制御装置5によれば、カメラ画像を入力とした深層強化学習によりトラヒック制御を行い、様々な通信環境に自動的に適応して無線帯域を有効利用することが可能となる。また、通信端末やカメラの設置環境が変化した際にも、変化した環境に適応して自動的にトラヒックを制御することが可能となる。特に、ミリ波通信機能を搭載した無線LAN(Local Area Network)ルータと、複数のミリ波通信端末とが接続された通信システムにおいて、人体遮蔽が起こりうる状況に有用である。また、無線LANルータやミリ波通信端末の設置環境が変化する場合にも対応可能である。
According to the
トラヒック制御装置5の実測データを用いたシミュレーション評価について述べる。図7は、シミュレーション評価の諸元を示す図である。このシミュレーション評価では、1台のAP2に、2台のSTA3を接続した場合を想定し、本実施形態のトラヒック制御を行った場合と、ファイル送信完了ごとに交互に送信宛先を切り替えるラウンドロビン方式で制御を行った場合のAPにおける合計スループットを得た。AP2は、ミリ波APである。シミュレーションで用いるミリ波通信の見通し通信時、遮蔽時のスループット及びカメラ画像は実機実験から測定した値を用いた。カメラ画像は、RGB-Dカメラで撮影した画像のデータを用いた。また、AP2及びSTA3も市販のものを用いた。
A simulation evaluation using the measured data of the
図8は、シミュレーション評価結果を示す図である。同図は、本実施形態のトラヒック制御を行った場合とラウンドロビン方式で制御を行った場合のエピソード数に対する合計スループットの推移を示す。同図のグラフにおけるAP2の合計スループットとして、各エピソードにおけるAP2の合計スループットの時間平均として表示している。このシミュレーションでは、プロキシサーバ4のファイルバッファには最初、ファイルがランダムなサイズで与えられ、AP2を通して各STA3へファイルを送信していく。ファイルバッファ内のファイルを全て送信し終えた時点で1エピソードが終了する。同図に示す評価結果から、エピソードが進み、トラヒック制御装置5の学習が進むに連れて、ラウンドロビン方式による制御を行った場合のスループットよりも、本実施形態のトラヒック制御を行った場合の合計スループットが上回っていることがわかる。
FIG. 8 is a diagram showing simulation evaluation results. The figure shows the transition of the total throughput with respect to the number of episodes when the traffic control of the present embodiment is performed and the control is performed by the round robin method. The total throughput of AP2 in the graph of the figure is displayed as the time average of the total throughput of AP2 in each episode. In this simulation, a file is initially given to the file buffer of the proxy server 4 in a random size, and the file is transmitted to each
以上説明した実施形態によれば、通信システムは、第1通信装置と、第1通信装置と無線により通信する1台以上の第2通信装置と、第1通信装置から第2通信装置に送信するデータを取得する第3通信装置と、トラヒック制御装置とを有する。例えば、第1通信装置はAP2であり、第2通信装置はSTA3であり、第3通信装置はプロキシサーバ4である。 According to the embodiment described above, the communication system transmits from the first communication device, one or more second communication devices that wirelessly communicate with the first communication device, and the first communication device to the second communication device. It has a third communication device for acquiring data and a traffic control device. For example, the first communication device is AP2, the second communication device is STA3, and the third communication device is proxy server 4.
トラヒック制御装置は、行動決定部と、通信制御部と、報酬計算部と、学習部とを有する。行動決定部は、第1通信装置と第2通信装置との間の通信環境を撮像した画像データと、第3通信装置が記憶する第2通信装置宛ての未送信のデータのデータ量の情報とを用いて、第2通信装置それぞれのトラヒックの組み合わせにより表される行動の価値を算出する価値関数により、複数種類の行動それぞれの価値を算出する。価値関数は、深層ニューラルネットワークにより近似されてもよい。この場合、深層ニューラルネットワークに入力される画像データは、異なるタイミングにおいて撮影された複数の画像データそれぞれの解像度を低減したのちにピクセル値を正規化したデータである。また、深層ニューラルネットワークに入力される未送信の第2通信装置宛てのデータ量の情報は、複数の第2通信装置それぞれ宛ての未送信のデータ量をOne-Hot表現により表したベクトルを並べた情報である。行動決定部は、算出した価値に基づいて行動を決定する。 The traffic control device has an action determination unit, a communication control unit, a reward calculation unit, and a learning unit. The action determination unit includes image data that captures the communication environment between the first communication device and the second communication device, and information on the amount of untransmitted data stored in the third communication device to the second communication device. Is used to calculate the value of each of a plurality of types of actions by a value function that calculates the value of the action represented by the combination of traffic of each of the second communication devices. The value function may be approximated by a deep neural network. In this case, the image data input to the deep neural network is data obtained by reducing the resolution of each of the plurality of image data captured at different timings and then normalizing the pixel values. Further, for the information of the amount of untransmitted data to the second communication device input to the deep neural network, a vector representing the amount of untransmitted data to each of the plurality of second communication devices by One-Hot expression is arranged. Information. The action decision unit decides the action based on the calculated value.
通信制御部は、行動決定部が決定した行動が表す第2通信装置それぞれのトラヒックに従って、第2通信装置宛てのデータを第1通信装置に送信するよう第3通信装置を制御する。報酬計算部は、通信制御部による制御が行われたことによる第2通信装置の通信状況を取得し、取得した通信状況が過去の通信状況から向上した程度を表す報酬を計算する。第2通信装置の通信状況は、第2通信装置におけるスループット、又は、第2通信装置宛てのデータの送信にかかった時間を表す。学習部は、計算された報酬に基づいて価値関数を更新する。第1通信装置は、第3通信装置から受信した第2通信装置宛てのデータを無線により第2通信装置に送信する。 The communication control unit controls the third communication device so as to transmit data addressed to the second communication device to the first communication device according to the traffic of each of the second communication devices represented by the action determined by the action determination unit. The reward calculation unit acquires the communication status of the second communication device due to the control by the communication control unit, and calculates a reward indicating the degree to which the acquired communication status is improved from the past communication status. The communication status of the second communication device represents the throughput in the second communication device or the time required for transmitting data to the second communication device. The learning department updates the value function based on the calculated reward. The first communication device wirelessly transmits data to the second communication device received from the third communication device to the second communication device.
上述した実施形態におけるトラヒック制御装置5の機能をコンピュータで実現するようにしてもよい。その場合、トラヒック制御装置5はこの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
The function of the
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiment of the present invention has been described in detail with reference to the drawings, the specific configuration is not limited to this embodiment, and the design and the like within a range not deviating from the gist of the present invention are also included.
無線通信を行う通信システムに利用可能である。 It can be used for communication systems that perform wireless communication.
1…通信システム、 2…アクセスポイント、 3…無線局、 4…プロキシサーバ、 5…トラヒック制御装置、 6…撮像装置、 7…インターネット、 41…第1通信部、 42…記憶部、 43…第2通信部、 51…強化学習部、 52…報酬計算部、 53…通信制御部、 511…加工部、 512…行動決定部、 513…学習部 1 ... Communication system, 2 ... Access point, 3 ... Radio station, 4 ... Proxy server, 5 ... Traffic control device, 6 ... Imaging device, 7 ... Internet, 41 ... First communication unit, 42 ... Storage unit, 43 ... No. 2 Communication Department, 51 ... Reinforcement Learning Department, 52 ... Reward Calculation Department, 53 ... Communication Control Department, 511 ... Processing Department, 512 ... Action Decision Department, 513 ... Learning Department
Claims (8)
前記トラヒック制御装置は、
前記第1通信装置と前記第2通信装置との間の通信環境を撮像した画像データと、前記第3通信装置が記憶する前記第2通信装置宛ての未送信の前記データのデータ量の情報とを用いて、前記第2通信装置それぞれのトラヒックの組み合わせにより表される行動の価値を算出する価値関数により複数種類の行動それぞれの価値を算出し、算出した前記価値に基づいて行動を決定する行動決定部と、
前記行動決定部が決定した前記行動が表す前記第2通信装置それぞれのトラヒックに従って、前記第2通信装置宛ての前記データを前記第1通信装置に送信するよう前記第3通信装置を制御する通信制御部と、
前記通信制御部による制御が行われたことによる前記第2通信装置の通信状況を取得し、取得した前記通信状況が過去の通信状況から向上した程度を表す報酬を計算する報酬計算部と、
前記報酬計算部が異なる時間区間について計算した前記報酬の累積和が最大になるように前記価値関数を更新する学習部と、
を備え、
前記時間区間における前記報酬は、
前記時間区間における前記第1通信装置の合計のスループットから、前記第1通信装置の過去の時間区間から当該時間区間までのそれぞれの合計のスループットに時間に応じた係数を乗算後に平均した加重平均値を減算した第1の値、
または、前記時間区間における前記第1通信装置の合計のスループットを前記第1通信装置の平均のスループットで正規化した第2の値、
または、前記第1通信装置の平均のスループットに対する前記時間区間における前記第1通信装置の合計のスループットの比が所定値を超える場合は正の一定値となり、前記比が前記所定値以下の場合は絶対値が前記正の一定値より大きい負の一定値となる第3の値であり、
前記第1通信装置は、前記第3通信装置から受信した前記第2通信装置宛ての前記データを無線により前記第2通信装置へ送信する、
通信システム。 A first communication device, one or more second communication devices that wirelessly communicate with the first communication device, a third communication device that acquires data transmitted from the first communication device to the second communication device, and a traffic. A communication system having a control device,
The traffic control device is
Image data that captures the communication environment between the first communication device and the second communication device, and information on the amount of untransmitted data to the second communication device stored by the third communication device. The value of each of a plurality of types of actions is calculated by a value function that calculates the value of the action represented by the combination of traffic of each of the second communication devices, and the action is determined based on the calculated value. The decision department and
Communication control that controls the third communication device so as to transmit the data addressed to the second communication device to the first communication device according to the traffic of each of the second communication devices represented by the action determined by the action determination unit. Department and
A reward calculation unit that acquires the communication status of the second communication device due to control by the communication control unit and calculates a reward indicating the degree to which the acquired communication status is improved from the past communication status.
A learning unit that updates the value function so that the cumulative sum of the rewards calculated by the reward calculation unit for different time intervals is maximized .
Equipped with
The reward in the time interval is
A weighted average value obtained by multiplying the total throughput of the first communication device from the past time section of the first communication device to the time section by a coefficient corresponding to the time from the total throughput of the first communication device in the time interval. First value after subtracting
Alternatively, a second value obtained by normalizing the total throughput of the first communication device in the time interval with the average throughput of the first communication device.
Alternatively, when the ratio of the total throughput of the first communication device in the time interval to the average throughput of the first communication device exceeds a predetermined value, it becomes a positive constant value, and when the ratio is equal to or less than the predetermined value, it becomes a positive constant value. It is a third value whose absolute value is a negative constant value larger than the positive constant value.
The first communication device wirelessly transmits the data to the second communication device received from the third communication device to the second communication device.
Communications system.
前記行動決定部が決定した前記行動が表す前記第2通信装置それぞれのトラヒックに従って、前記第1通信装置から前記第2通信装置宛ての前記データが配信されるよう通信を制御する通信制御部と、
前記通信制御部による制御が行われたことによる前記第2通信装置の通信状況を取得し、取得した前記通信状況が過去の通信状況から向上した程度を表す報酬を計算する報酬計算部と、
前記報酬計算部が異なる時間区間について計算した前記報酬の累積和が最大になるように前記価値関数を更新する学習部と、
を備え、
前記時間区間における前記報酬は、
前記時間区間における前記第1通信装置の合計のスループットから、前記第1通信装置の過去の時間区間から当該時間区間までのそれぞれの合計のスループットに時間に応じた係数を乗算後に平均した加重平均値を減算した第1の値、
または、前記時間区間における前記第1通信装置の合計のスループットを前記第1通信装置の平均のスループットで正規化した第2の値、
または、前記第1通信装置の平均のスループットに対する前記時間区間における前記第1通信装置の合計のスループットの比が所定値を超える場合は正の一定値となり、前記比が前記所定値以下の場合は絶対値が前記正の一定値より大きい負の一定値となる第3の値である、
トラヒック制御装置。 The second communication is performed by using the image data of the communication environment between the first communication device and one or more second communication devices and the data amount information of the untransmitted data addressed to the second communication device. An action decision unit that calculates the value of each of multiple types of actions by a value function that calculates the value of the action expressed as a combination of traffic of each device, and determines the action based on the calculated value.
A communication control unit that controls communication so that the data from the first communication device to the second communication device is delivered according to the traffic of each of the second communication devices represented by the action determined by the action determination unit.
A reward calculation unit that acquires the communication status of the second communication device due to control by the communication control unit and calculates a reward indicating the degree to which the acquired communication status is improved from the past communication status.
A learning unit that updates the value function so that the cumulative sum of the rewards calculated by the reward calculation unit for different time intervals is maximized .
Equipped with
The reward in the time interval is
A weighted average value obtained by multiplying the total throughput of the first communication device from the past time section of the first communication device to the time section by a coefficient corresponding to the time from the total throughput of the first communication device in the time interval. First value after subtracting
Alternatively, a second value obtained by normalizing the total throughput of the first communication device in the time interval with the average throughput of the first communication device.
Alternatively, when the ratio of the total throughput of the first communication device in the time interval to the average throughput of the first communication device exceeds a predetermined value, it becomes a positive constant value, and when the ratio is equal to or less than the predetermined value, it becomes a positive constant value. A third value whose absolute value is a negative constant value larger than the positive constant value.
Traffic control device.
請求項2に記載のトラヒック制御装置。 The communication status of the second communication device is information representing the throughput in the second communication device or the time required for transmitting the data to the second communication device.
The traffic control device according to claim 2.
請求項2又は請求項3に記載のトラヒック制御装置。 The value function is approximated by a deep neural network,
The traffic control device according to claim 2 or 3.
請求項4に記載のトラヒック制御装置。 The image data used in the value function is data obtained by normalizing pixel values after reducing the resolution of each of a plurality of image data taken at different timings.
The traffic control device according to claim 4.
請求項4に記載のトラヒック制御装置。 For the information on the amount of untransmitted data addressed to the second communication device used in the value function, a vector representing the amount of untransmitted data addressed to each of the plurality of the second communication devices by the One-Hot representation is arranged. Information,
The traffic control device according to claim 4.
請求項2から請求項6のいずれか一項に記載のトラヒック制御装置。 The image data is depth image data.
The traffic control device according to any one of claims 2 to 6.
前記トラヒック制御装置が、
前記第1通信装置と前記第2通信装置との間の通信環境を撮像した画像データと前記第2通信装置宛ての未送信のデータのデータ量の情報とを用いて、前記第2通信装置それぞれのトラヒックの組み合わせとして表される行動の価値を算出する価値関数により複数種類の行動それぞれの価値を算出し、算出した前記価値に基づいて行動を決定する行動決定ステップと、
前記行動決定ステップにおいて決定された前記行動が表す前記第2通信装置それぞれのトラヒックに従って、前記第1通信装置から前記第2通信装置宛ての前記データが配信されるよう通信を制御する通信制御ステップと、
前記通信制御ステップによる制御が行われたことによる前記第2通信装置の通信状況を取得し、取得した前記通信状況が過去の通信状況から向上した程度を表す報酬を計算する報酬計算ステップと、
前記報酬計算ステップにおいて異なる時間区間について計算された前記報酬の累積和が最大になるように前記価値関数を更新する学習ステップと、
を実行し、
前記時間区間における前記報酬は、
前記時間区間における前記第1通信装置の合計のスループットから、前記第1通信装置の過去の時間区間から当該時間区間までのそれぞれの合計のスループットに時間に応じた係数を乗算後に平均した加重平均値を減算した第1の値、
または、前記時間区間における前記第1通信装置の合計のスループットを前記第1通信装置の平均のスループットで正規化した第2の値、
または、前記第1通信装置の平均のスループットに対する前記時間区間における前記第1通信装置の合計のスループットの比が所定値を超える場合は正の一定値となり、前記比が前記所定値以下の場合は絶対値が前記正の一定値より大きい負の一定値となる第3の値である、
トラヒック制御方法。 A traffic control method in a traffic control device that controls wireless communication between a first communication device and one or more second communication devices.
The traffic control device
Using image data that captures the communication environment between the first communication device and the second communication device and information on the amount of untransmitted data addressed to the second communication device, each of the second communication devices. An action decision step that calculates the value of each of multiple types of actions by a value function that calculates the value of the action expressed as a combination of traffic, and determines the action based on the calculated value.
A communication control step that controls communication so that the data from the first communication device to the second communication device is delivered according to the traffic of each of the second communication devices represented by the action determined in the action determination step. ,
A reward calculation step for acquiring the communication status of the second communication device due to the control performed by the communication control step and calculating a reward indicating the degree to which the acquired communication status is improved from the past communication status.
A learning step that updates the value function so that the cumulative sum of the rewards calculated for different time intervals in the reward calculation step is maximized .
And run
The reward in the time interval is
A weighted average value obtained by multiplying the total throughput of the first communication device from the past time section of the first communication device to the time section by a coefficient corresponding to the time from the total throughput of the first communication device in the time interval. First value after subtracting
Alternatively, a second value obtained by normalizing the total throughput of the first communication device in the time interval with the average throughput of the first communication device.
Alternatively, when the ratio of the total throughput of the first communication device in the time interval to the average throughput of the first communication device exceeds a predetermined value, it becomes a positive constant value, and when the ratio is equal to or less than the predetermined value, it becomes a positive constant value. A third value whose absolute value is a negative constant value larger than the positive constant value.
Traffic control method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018103999A JP7007669B2 (en) | 2018-05-30 | 2018-05-30 | Communication system, traffic control device and traffic control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018103999A JP7007669B2 (en) | 2018-05-30 | 2018-05-30 | Communication system, traffic control device and traffic control method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019208188A JP2019208188A (en) | 2019-12-05 |
JP7007669B2 true JP7007669B2 (en) | 2022-01-24 |
Family
ID=68768699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018103999A Active JP7007669B2 (en) | 2018-05-30 | 2018-05-30 | Communication system, traffic control device and traffic control method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7007669B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021171342A1 (en) * | 2020-02-25 | 2021-09-02 | 日本電信電話株式会社 | Communication quality predicting system, device, method and program |
JP7388634B2 (en) * | 2020-07-16 | 2023-11-29 | 日本電信電話株式会社 | Optimization method for wireless communication system, wireless communication system and program for wireless communication system |
JP7385869B2 (en) * | 2020-07-16 | 2023-11-24 | 日本電信電話株式会社 | Optimization method for wireless communication system, wireless communication system and program for wireless communication system |
-
2018
- 2018-05-30 JP JP2018103999A patent/JP7007669B2/en active Active
Non-Patent Citations (1)
Title |
---|
三熊智哉、西尾理志、守倉正博、淺井裕介、宮武遼,深度画像を用いた深層強化学習によるミリ波通信のトラヒック制御の検討,情報処理学会 研究報告 マルチメディア通信と分散処理(DPS) 2018-DPS-175,日本,情報処理学会,2018年05月17日 |
Also Published As
Publication number | Publication date |
---|---|
JP2019208188A (en) | 2019-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111919423B (en) | Congestion control in network communications | |
JP7007669B2 (en) | Communication system, traffic control device and traffic control method | |
CN109947545B (en) | Task unloading and migration decision method based on user mobility | |
US8351331B2 (en) | Resource allocation framework for wireless/wired networks | |
US8532173B2 (en) | Method and apparatus for predicting video traffic | |
EP3541113B1 (en) | Apparatuses, devices, methods and computer programs for determining information related to a designated data transmission rate for a wireless link | |
CN102592171A (en) | Method and device for predicting cognitive network performance based on BP (Back Propagation) neural network | |
CN110753319A (en) | Heterogeneous service-oriented distributed resource allocation method and system in heterogeneous Internet of vehicles | |
US10237194B2 (en) | Maximize network capacity policy with heavy-tailed traffic | |
WO2016154908A1 (en) | Wireless communication control method and apparatus | |
CN113825171A (en) | Network congestion control method, device, equipment and medium | |
CN116390125A (en) | Industrial Internet of things cloud edge cooperative unloading and resource allocation method based on DDPG-D3QN | |
JP7147049B2 (en) | Interference source identification methods, associated devices, and computer storage media | |
CN117114113B (en) | Collaborative reasoning acceleration method based on queuing theory | |
CN113923743A (en) | Routing method, device, terminal and storage medium for electric power underground pipe gallery | |
Fernandes et al. | An adaptive recurrent neural network model dedicated to opportunistic communication in wireless networks | |
KR102124166B1 (en) | Satellite Image Based Channel Estimation and Adaptive Modulation System | |
WO2023024519A1 (en) | Video processing method and apparatus, device, and system | |
Tai et al. | Model-Free Dynamic Traffic Steering for Multi-Link Operation in IEEE 802.11 be | |
CN114828047A (en) | Multi-agent collaborative computing unloading method in 5G mobile edge computing environment | |
CN109982433A (en) | The method for optimizing resources of the URLLC system of fixed frame length based on heuritic approach | |
WO2019054112A1 (en) | Communication apparatus, wireless communication system and data flow control method | |
JP2021022905A (en) | Communication control system, prior learning auxiliary device, communication control method, and program | |
JP2016040857A (en) | Communication device and adjusting method | |
CN113766661B (en) | Interference control method and system for wireless network environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180530 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211223 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7007669 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |