JP2022150063A - Terminal device, program to be executed by computer, and computer-readable recording medium having program recorded therein - Google Patents

Terminal device, program to be executed by computer, and computer-readable recording medium having program recorded therein Download PDF

Info

Publication number
JP2022150063A
JP2022150063A JP2021052479A JP2021052479A JP2022150063A JP 2022150063 A JP2022150063 A JP 2022150063A JP 2021052479 A JP2021052479 A JP 2021052479A JP 2021052479 A JP2021052479 A JP 2021052479A JP 2022150063 A JP2022150063 A JP 2022150063A
Authority
JP
Japan
Prior art keywords
channel
packet
period
reward
transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021052479A
Other languages
Japanese (ja)
Other versions
JP7370018B2 (en
Inventor
真衣 太田
Mai Ota
眞 太郎丸
Makoto Taroumaru
崇詞 今中
Takashi Imanaka
一人 矢野
Kazuto Yano
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Fukuoka University
Original Assignee
ATR Advanced Telecommunications Research Institute International
Fukuoka University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International, Fukuoka University filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2021052479A priority Critical patent/JP7370018B2/en
Publication of JP2022150063A publication Critical patent/JP2022150063A/en
Application granted granted Critical
Publication of JP7370018B2 publication Critical patent/JP7370018B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

To provide a terminal device that performs wireless communication in coexistence with a terminal device for performing wireless communication using a different wireless communication system.SOLUTION: A learning unit 4 repeatedly performs learning based on the state of a transmission channel during an observation period which is a period during which a packet communication result, an idle period of wireless communication, and the presence or absence of wireless communication by other terminal devices is observed, selects a channel bringing a maximum average reward as a transmission channel with a given probability, and selects a packet length bringing the maximum average reward with a given probability according to the state of the transmission channel during the observation period. Control means 3 generates a packet containing transmission data, and outputs the generated packet to transmission means 5 when the transmission channel received from the learning unit 4 is empty. The transmission means 5 transmits the packet received from the control means 3 with a packet length received from the learning unit 4.SELECTED DRAWING: Figure 2

Description

新規性喪失の例外適用申請有り There is an application for exception to loss of novelty

この発明は、端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。 The present invention relates to a terminal device, a program to be executed by a computer, and a computer-readable recording medium recording the program.

無線LAN(Local Area Network)などに代表されるCSMA/CA(Carrier Sense Multiple Access/ Collision Avoidance)方式では,同時送信などによるパケットの衝突・損失が起きた場合、バックオフ時間(他局からの送信電波が止まったことを検知した後、直ちに送信せず、自局が送信するまでの意図的な待ち時間)を長くすることにより、パケットの衝突確率を低減させる(特許文献1)。 In the CSMA/CA (Carrier Sense Multiple Access/Collision Avoidance) method represented by wireless LAN (Local Area Network), etc., when packet collision or loss occurs due to simultaneous transmission, the backoff time (transmission from other stations Packet collision probability is reduced by lengthening the intentional waiting time until transmission by the own station instead of immediately transmitting after detecting that radio waves have stopped (Patent Document 1).

特開2006-013894号公報JP 2006-013894 A

しかし、異なる複数の無線通信システムによる無線通信が共存する場合、各無線通信システムを用いて無線通信を行う端末装置Aが他の無線通信システムを用いて無線通信を行う端末装置Bによる無線通信を考慮せずに自由に無線通信を行うと、パケット衝突が生じる。その結果、端末装置Aは、端末装置Bと共存して無線通信を行うことが困難であるという問題がある。 However, when wireless communications by a plurality of different wireless communication systems coexist, terminal device A that performs wireless communication using each wireless communication system communicates wirelessly with terminal device B that performs wireless communication using another wireless communication system. Unbridled wireless communication results in packet collisions. As a result, there is a problem that it is difficult for the terminal device A to coexist with the terminal device B and perform wireless communication.

そこで、この発明の実施の形態によれば、異なる無線通信システムを用いて無線通信を行う端末装置と共存して無線通信を行う端末装置を提供する。 Therefore, according to the embodiment of the present invention, a terminal device that performs wireless communication coexisting with a terminal device that performs wireless communication using a different wireless communication system is provided.

また、この発明の実施の形態によれば、異なる無線通信システムを用いて無線通信を行う端末装置と共存して無線通信をコンピュータに実行させるためのプログラムを提供する。 Further, according to the embodiment of the present invention, there is provided a program for causing a computer to perform wireless communication coexisting with a terminal device that performs wireless communication using a different wireless communication system.

更に、この発明の実施の形態によれば、異なる無線通信システムを用いて無線通信を行う端末装置と共存して無線通信をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。 Furthermore, according to the embodiment of the present invention, there is provided a computer-readable recording medium recording a program for causing a computer to perform wireless communication coexisting with a terminal device that performs wireless communication using a different wireless communication system. do.

(構成1)
この発明の実施の形態によれば、端末装置は、通信手段と、第1の検出手段と、第2の検出手段と、学習器とを備える。通信手段は、第1の動作期間において、パケットを送信するチャネルである送信用チャネルを用いてパケットを送信する。第1の検出手段は、通信手段によってパケットが送信される毎に、第1の動作期間において、パケットが送信されたときの通信結果を検出するとともにパケットの送信後の無線通信の空き期間を検出する。第2の検出手段は、送信用チャネルを受ける毎に、第1の動作期間において、他の端末装置による無線通信の有無を観測する期間である観測期間における送信用チャネルの状態を検出する。学習器は、第1の動作期間において検出された通信結果、空き期間、および観測期間における送信用チャネルの状態と、パケットの送信に用いるチャネルの候補である候補チャネルとを受け付け、通信結果および空き期間に基づいて、第1の動作期間においてパケットが送信用チャネルで送信されたときに得られる報酬である即時報酬を算出する第1の処理と、観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数によって1つの送信用チャネルにおける即時報酬の累積値を平均した報酬であり、かつ、第1の動作期間の後の動作期間である第2の動作期間における報酬である平均報酬を第1の処理において算出された即時報酬を用いて算出する第2の処理と、候補チャネルと観測期間における送信用チャネルの状態とパケットのパケット長と平均報酬とを対応付けた対応表を作成または更新し、その作成または更新した対応表に基づいて最大の平均報酬が得られるときのチャネルを所定の確率で送信用チャネルとして選択するとともに観測期間における送信用チャネルの状態に応じて最大の平均報酬が得られるときのパケット長を所定の確率で選択し、その選択した送信用チャネルおよびパケット長を出力する第3の処理とを観測期間における送信用チャネルの状態、通信結果および空き期間を受け付ける毎に実行する。そして、通信手段は、更に、第3の処理において選択された送信用チャネルおよびパケット長を学習器から受ける毎に、第2の動作期間において、その受けた送信用チャネルが空いているとき、学習器から受けたパケット長を有するパケットを送信する。
(Configuration 1)
According to an embodiment of the present invention, a terminal device comprises communication means, first detection means, second detection means, and a learner. The communication means transmits packets using a transmission channel, which is a channel for transmitting packets, during the first operation period. The first detection means detects a communication result when the packet is transmitted and detects an idle period of wireless communication after the packet is transmitted in the first operation period every time a packet is transmitted by the communication means. do. The second detection means detects the state of the transmission channel in an observation period, which is a period for observing the presence or absence of radio communication by other terminal devices, in the first operation period each time a transmission channel is received. The learning device receives the communication result detected in the first operation period, the idle period, the state of the transmission channel in the observation period, and the candidate channel that is a candidate for the channel used for packet transmission. A first process of calculating an immediate reward, which is a reward obtained when a packet is transmitted in the transmission channel in the first operation period, based on the period, and calculating 1 corresponding to the state of the transmission channel in the observation period. A reward obtained by averaging the cumulative value of immediate rewards in one transmission channel by the number of times one packet length is selected, and a reward in a second operation period that is an operation period after the first operation period. A second process of calculating a reward using the immediate reward calculated in the first process, and a correspondence table that associates the candidate channel, the state of the transmission channel in the observation period, the packet length of the packet, and the average reward. Created or updated, and based on the created or updated correspondence table, the channel that yields the maximum average reward is selected as the transmission channel with a predetermined probability, and the maximum A third process of selecting a packet length when an average reward is obtained with a predetermined probability and outputting the selected transmission channel and packet length; Executes each time it is accepted. Each time the communication means receives the transmission channel and packet length selected in the third processing from the learning device, the communication means learns during the second operation period when the received transmission channel is available. Send a packet with the packet length received from the device.

(構成2)
構成1において、学習器は、第1の処理において、通信結果がパケットの送信の失敗であるとき、即時報酬を零と算出し、通信結果がパケットの送信の成功であるとき、空き期間に所定の期間を加算した加算結果の逆数を即時報酬として算出する。
(Configuration 2)
In configuration 1, in the first process, the learning device calculates the immediate reward as zero when the communication result is a packet transmission failure, and when the communication result is a packet transmission success, a predetermined reward in the idle period The reciprocal of the addition result obtained by adding the period of is calculated as the immediate reward.

(構成3)
構成1または構成2において、学習器は、第2の処理において、第1の動作期間における即時報酬と第1の動作期間における平均報酬と観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数とに基づいて第2の動作期間における平均報酬を算出して平均報酬を更新する。
(Composition 3)
In configuration 1 or configuration 2, in the second processing, the learner obtains an immediate reward in the first operation period, an average reward in the first operation period, and one packet length corresponding to the state of the transmission channel in the observation period. is selected, and the average reward for the second operation period is calculated based on the selected number of times to update the average reward.

(構成4)
構成3において、学習器は、第2の処理において、第1の動作期間における即時報酬をRとし、第1の動作期間における平均報酬をVとし、第2の動作期間における平均報酬をVt+1とし、観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数をn(nは、1以上の整数である。)としたとき、以下の式(1)によって平均報酬Vt+1を算出することによって平均報酬を更新する。
(Composition 4)
In configuration 3, in the second process, the learner sets the immediate reward in the first action period to Rt , the average reward in the first action period to Vt, and the average reward in the second action period to V Let t+1 and let n be the number of times one packet length is selected corresponding to the state of the transmission channel during the observation period (n is an integer equal to or greater than 1). Update the average reward by calculating t+1 .

t+1=V+(R-V)/n・・・(1)
(構成5)
構成3または構成4において、学習器は、第3の処理において、確率(1-ε)(εは、1~0の範囲の実数である。)で第2の動作期間における平均報酬が最大であるチャネルを候補チャネルから送信用チャネルとして選択し、確率εで任意のチャネルを候補チャネルから送信用チャネルとして選択する。
V t+1 =V t +(R t −V t )/n (1)
(Composition 5)
In configuration 3 or configuration 4, in the third process, the learner has a probability of (1−ε) (ε is a real number in the range of 1 to 0) and the average reward in the second operation period is the maximum A certain channel is selected as a transmission channel from the candidate channels, and an arbitrary channel is selected from the candidate channels as a transmission channel with probability ε.

(構成6)
構成3から構成6のいずれかにおいて、学習器は、第3の処理において、観測期間における送信用チャネルの状態に対して第2の動作期間における平均報酬が最大であるパケット長を選択する。
(Composition 6)
In any one of configurations 3 to 6, in the third processing, the learner selects the packet length that maximizes the average reward in the second operation period for the state of the transmission channel in the observation period.

(構成7)
構成1から構成6のいずれかにおいて、端末装置は、制御手段を更に備える。制御手段は、パケットの送信が成功した確率である送信成功率がしきい値以下であるとき、候補チャネルの帯域と異なる帯域のチャネルを新たな候補チャネルとして選択し、その選択した新たな候補チャネルを用いるように学習器を制御する。学習器は、新たな候補チャネルを用いて第1の処理、第2の処理および第3の処理を観測期間における送信用チャネルの状態、通信結果および空き期間を受け付ける毎に実行する。
(Composition 7)
In any one of configurations 1 to 6, the terminal device further includes control means. The control means selects a channel of a band different from the band of the candidate channel as a new candidate channel when the transmission success rate, which is the probability of successful packet transmission, is equal to or less than a threshold, and selects the selected new candidate channel. Control the learner to use The learning device executes the first process, the second process, and the third process using a new candidate channel each time it receives the state of the transmission channel, the communication result, and the idle period during the observation period.

(構成8)
また、この発明の実施の形態によれば、プログラムは、
通信手段が、第1の動作期間において、パケットを送信するチャネルである送信用チャネルを用いてパケットを送信する第1のステップと、
第1の検出手段が、第1のステップにおいてパケットが送信される毎に、第1の動作期間において、パケットが送信されたときの通信結果を検出するとともにパケットの送信後の無線通信の空き期間を検出する第2のステップと、
第2の検出手段が、送信用チャネルを受ける毎に、第1の動作期間において、他の端末装置による無線通信の有無を観測する期間である観測期間における送信用チャネルの状態を検出する第3のステップと、
学習器が、第1の動作期間において検出された通信結果、空き期間、および観測期間における前記送信用チャネルの状態と、パケットの送信に用いるチャネルの候補である候補チャネルとを受け付け、通信結果および空き期間に基づいて、第1の動作期間においてパケットが送信用チャネルで送信されたときに得られる報酬である即時報酬を算出する第1の処理と、観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数によって1つの送信用チャネルにおける即時報酬の累積値を平均した報酬であり、かつ、第1の動作期間の後の動作期間である第2の動作期間における報酬である平均報酬を第1の処理において算出された即時報酬を用いて算出する第2の処理と、候補チャネルと観測期間における送信用チャネルの状態とパケットのパケット長と平均報酬とを対応付けた対応表を作成または更新し、その作成または更新した対応表に基づいて最大の平均報酬が得られるときのチャネルを所定の確率で送信用チャネルとして選択するとともに観測期間における送信用チャネルの状態に応じて最大の平均報酬が得られるときのパケット長を所定の確率で選択し、その選択した送信用チャネルおよびパケット長を出力する第3の処理とを観測期間における送信用チャネルの状態、通信結果および空き期間を受け付ける毎に実行する第4のステップとをコンピュータに実行させ、
通信手段は、第1のステップにおいて、更に、第3の処理において選択された送信用チャネルおよびパケット長を学習器から受ける毎に、第2の動作期間において、その受けた送信用チャネルが空いているとき、学習器から受けたパケット長を有するパケットを送信する、コンピュータに実行させるためのプログラムである。
(Composition 8)
Also, according to the embodiment of the present invention, the program
a first step in which the communication means transmits packets using a transmission channel, which is a channel for transmitting packets, during a first operation period;
The first detection means detects, in the first operation period, the communication result at the time the packet is transmitted each time the packet is transmitted in the first step, and the idle period of wireless communication after the packet is transmitted. a second step of detecting
A third detection means for detecting the state of the transmission channel in an observation period, which is a period for observing the presence or absence of wireless communication by other terminal devices, in the first operation period each time the second detection means receives the transmission channel. a step of
A learning device receives the communication result detected in the first operation period, the idle period, the state of the transmission channel in the observation period, and candidate channels that are candidates for channels used for packet transmission, and receives the communication result and A first process of calculating an immediate reward, which is a reward obtained when a packet is transmitted in the transmission channel during the first operation period, based on the vacant period, and corresponding to the state of the transmission channel during the observation period. It is a reward obtained by averaging the cumulative value of immediate rewards in one transmission channel according to the number of times one packet length is selected, and is a reward in a second operation period that is an operation period after the first operation period. A second process for calculating the average reward using the immediate reward calculated in the first process, and a correspondence table that associates the candidate channel, the state of the transmission channel in the observation period, the packet length of the packet, and the average reward. is created or updated, and based on the created or updated correspondence table, the channel that yields the maximum average reward is selected as the transmission channel with a predetermined probability, and the maximum and a third process of selecting the packet length when the average reward of is obtained with a predetermined probability, and outputting the selected transmission channel and packet length, and the state of the transmission channel, the communication result, and the idle period during the observation period. cause the computer to execute a fourth step that is executed each time the
In the first step, the communication means further receives the transmission channel and the packet length selected in the third process from the learner, during the second operation period, when the received transmission channel becomes available. A program for causing a computer to transmit a packet having a packet length received from a learner when a packet is received from the learner.

(構成9)
構成8において、学習器は、第4のステップの第1の処理において、通信結果がパケットの送信の失敗であるとき、即時報酬を零と算出し、通信結果がパケットの送信の成功であるとき、空き期間に所定の期間を加算した加算結果の逆数を即時報酬として算出する。
(Composition 9)
In configuration 8, in the first process of the fourth step, the learning device calculates the immediate reward as zero when the communication result is a packet transmission failure, and when the communication result is a packet transmission success , the reciprocal of the result of adding a predetermined period to the vacant period is calculated as an immediate reward.

(構成10)
構成8または構成9において、学習器は、第4のステップの第2の処理において、第1の動作期間における即時報酬と第1の動作期間における平均報酬と観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数とに基づいて第2の動作期間における平均報酬を算出して平均報酬を更新する。
(Configuration 10)
In Configuration 8 or Configuration 9, in the second processing of the fourth step, the learning device corresponds to the immediate reward in the first operation period, the average reward in the first operation period, and the state of the transmission channel in the observation period. calculating an average reward in the second operation period based on the number of times one packet length is selected and updating the average reward.

(構成11)
構成10において、学習器は、第4のステップの第2の処理において、第1の動作期間における即時報酬をRとし、第1の動作期間における平均報酬をVとし、第2の動作期間における平均報酬をVt+1とし、観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数をn(nは、1以上の整数である。)としたとき、以下の式(1)によって平均報酬Vt+1を算出することによって平均報酬を更新する。
(Composition 11)
In configuration 10, in the second process of the fourth step, the learner sets the immediate reward in the first action period to R t , the average reward in the first action period to V t , and the second action period , and the number of times one packet length is selected corresponding to the state of the transmission channel during the observation period is n (n is an integer equal to or greater than 1.), the following equation (1 ) to update the average reward by calculating the average reward V t+1 .

t+1=V+(R-V)/n・・・(1)
(構成12)
構成10または構成11において、学習器は、第4のステップの第3の処理において、確率(1-ε)(εは、1~0の範囲の実数である。)で第2の動作期間における平均報酬が最大であるチャネルを候補チャネルから送信用チャネルとして選択し、確率εで任意のチャネルを候補チャネルから送信用チャネルとして選択する。
V t+1 =V t +(R t −V t )/n (1)
(Composition 12)
In configuration 10 or configuration 11, in the third process of the fourth step, the learner performs A channel with the maximum average reward is selected as a transmission channel from the candidate channels, and an arbitrary channel is selected from the candidate channels as a transmission channel with probability ε.

(構成13)
構成10から構成12のいずれかにおいて、学習器は、第4のステップの第3の処理において、観測期間における送信用チャネルの状態に対して第2の動作期間における平均報酬が最大であるパケット長を選択する。
(Composition 13)
In any one of configuration 10 to configuration 12, in the third processing of the fourth step, the learner determines the packet length with the maximum average reward in the second operation period with respect to the state of the transmission channel in the observation period. to select.

(構成14)
構成8から構成13のいずれかにおいて、制御手段が、パケットの送信が成功した確率である送信成功率がしきい値以下であるとき、候補チャネルの帯域と異なる帯域のチャネルを新たな候補チャネルとして選択し、その選択した新たな候補チャネルを用いるように学習器を制御する第5のステップを更にコンピュータに実行させ、
学習器は、新たな候補チャネルを用いて第1の処理、第2の処理および第3の処理を観測期間における送信用チャネルの状態、通信結果および空き期間を受け付ける毎に実行する。
(Composition 14)
In any one of configuration 8 to configuration 13, when the transmission success rate, which is the probability of successful packet transmission, is equal to or less than a threshold, the control means selects a channel in a band different from the band of the candidate channel as the new candidate channel. further causing the computer to perform a fifth step of selecting and controlling the learner to use the selected new candidate channel;
The learning device executes the first process, the second process, and the third process using a new candidate channel each time it receives the state of the transmission channel, the communication result, and the idle period during the observation period.

(構成15)
更に、この発明の実施の形態によれば、記録媒体は、構成8から構成14のいずれかに記載されたプログラムを記録したコンピュータ読み取り可能な記録媒体である。
(Composition 15)
Further, according to the embodiment of the present invention, the recording medium is a computer-readable recording medium recording the program described in any one of Structures 8 to 14.

異なる無線通信システムを用いて無線通信を行う端末装置と共存して無線通信を行うことができる。 Wireless communication can be performed while coexisting with a terminal device that performs wireless communication using a different wireless communication system.

この発明の実施の形態における通信システムの概略図である。1 is a schematic diagram of a communication system in an embodiment of the invention; FIG. 図1に示す端末装置の概略図である。2 is a schematic diagram of a terminal device shown in FIG. 1; FIG. 受信電力スペクトルの概念図である。FIG. 4 is a conceptual diagram of a received power spectrum; 観測期間および空き期間を説明するための図である。FIG. 4 is a diagram for explaining observation periods and vacant periods; 学習器における対応表の概略図である。FIG. 4 is a schematic diagram of a correspondence table in a learning device; 図2に示す学習器の動作を説明するための図である。3 is a diagram for explaining the operation of the learning device shown in FIG. 2; FIG. 図2に示す端末装置の動作を説明するためのタイミングチャートである。FIG. 3 is a timing chart for explaining the operation of the terminal device shown in FIG. 2; FIG. 図2に示す端末装置の各動作期間における動作を説明するための図である。3 is a diagram for explaining the operation of the terminal device shown in FIG. 2 during each operation period; FIG. 対応表TBL1の変遷を示す第1の概略図である。FIG. 4 is a first schematic diagram showing transition of a correspondence table TBL1; 対応表TBL1の変遷を示す第2の概略図である。FIG. 11 is a second schematic diagram showing the transition of the correspondence table TBL1; 対応表TBL1の変遷を示す第3の概略図である。FIG. 11 is a third schematic diagram showing changes in the correspondence table TBL1; 対応表TBL1の変遷を示す第4の概略図である。FIG. 11 is a fourth schematic diagram showing changes in the correspondence table TBL1; 対応表TBL1の変遷を示す第5の概略図である。FIG. 11 is a fifth schematic diagram showing changes in the correspondence table TBL1; 図2に示す端末装置の動作を説明するためのフローチャートである。3 is a flowchart for explaining the operation of the terminal device shown in FIG. 2; 図2に示す学習器の動作を説明するための第1のフローチャートである。FIG. 3 is a first flow chart for explaining the operation of the learning device shown in FIG. 2; FIG. 図2に示す学習器の動作を説明するための第2のフローチャートである。3 is a second flow chart for explaining the operation of the learning device shown in FIG. 2; パケット長mの異なる決定方法を説明するための図である。FIG. 4 is a diagram for explaining different methods of determining packet length m;

本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。 An embodiment of the present invention will be described in detail with reference to the drawings. The same or corresponding parts in the drawings are denoted by the same reference numerals, and the description thereof will not be repeated.

図1は、この発明の実施の形態における通信システムの概略図である。図1を参照して、通信システム100は、基地局BS1と、端末装置TM1とを備える。基地局BS1および端末装置TM1は、無線通信空間に配置される。 FIG. 1 is a schematic diagram of a communication system according to an embodiment of the invention. Referring to FIG. 1, communication system 100 includes base station BS1 and terminal device TM1. A base station BS1 and a terminal device TM1 are arranged in a wireless communication space.

基地局BS1は、通信範囲REG1を有する。端末装置TM1は、通信範囲REG1内に配置される。 Base station BS1 has a coverage area REG1. The terminal device TM1 is located within the communication range REG1.

基地局BS1は、無線通信システムRF1を用いてパケットを端末装置TM1へ送信するとともに端末装置TM1からパケットを受信する。 The base station BS1 transmits packets to the terminal device TM1 and receives packets from the terminal device TM1 using the radio communication system RF1.

基地局BS2は、通信範囲REG2を有する。そして、基地局BS2は、通信範囲REG2が基地局BS1の通信範囲REG1と一部が重複するように配置される。基地局BS2は、無線通信システムRF1と異なる無線通信システムRF2を用いてパケットを端末装置TM2へ送信するとともに端末装置TM2からパケットを受信する。 Base station BS2 has a coverage area REG2. The base station BS2 is arranged such that the communication range REG2 partially overlaps the communication range REG1 of the base station BS1. The base station BS2 transmits packets to the terminal device TM2 and receives packets from the terminal device TM2 using a radio communication system RF2 different from the radio communication system RF1.

端末装置TM1は、後述する方法によって、パケットを送信するための送信用チャネルを選択し、その選択した送信用チャネルで端末装置TM2による無線通信と共存するようにパケットを基地局BS1へ送信する。その後、端末装置TM1は、パケットを受信したことを示すACK(Acknowledgement)パケットを送信用チャネルで基地局BS1から受信したとき、パケットの送信が成功したことを検知し、ACKパケットを基地局BS1から受信しないとき、パケットの送信が失敗したことを検知する。 The terminal device TM1 selects a transmission channel for transmitting the packet by a method described later, and transmits the packet to the base station BS1 so as to coexist with the radio communication by the terminal device TM2 on the selected transmission channel. After that, when the terminal device TM1 receives an ACK (acknowledgement) packet indicating that the packet has been received from the base station BS1 through the transmission channel, the terminal device TM1 detects that the packet has been successfully transmitted, and transmits an ACK packet from the base station BS1. When not received, it detects that the transmission of the packet has failed.

なお、図1においては、基地局BS1の通信範囲REG1には、1個の端末装置TM1が図示されているが、実際には、基地局BS1の通信範囲REG1には、複数の端末装置TM1が存在する。 In FIG. 1, one terminal device TM1 is shown within the communication range REG1 of the base station BS1, but in reality there are a plurality of terminal devices TM1 within the communication range REG1 of the base station BS1. exist.

以下においては、端末装置TM1を「端末装置10」と表記する。 In the following, the terminal device TM1 is referred to as "terminal device 10".

図2は、図1に示す端末装置の概略図である。図2を参照して、端末装置10は、アンテナ1と、受信手段2と、制御手段3と、学習器4と、送信手段5と、アプリケーション6とを備える。 FIG. 2 is a schematic diagram of the terminal device shown in FIG. Referring to FIG. 2 , terminal device 10 includes antenna 1 , receiving means 2 , control means 3 , learning device 4 , transmitting means 5 and application 6 .

受信手段2は、キャリアセンスを行うための信号S_carrier_Lと選択チャネルCH_Selectとを制御手段3から受けると、他の端末装置による無線通信の有無を観測する期間である観測期間Lにおいて、選択チャネルCH_Selectでアンテナ1を介してキャリアセンスを行い、受信電力の時間依存性を示す受信電力スペクトルPW_carrier_Lを取得し、その取得した受信電力スペクトルPW_carrier_Lを制御手段3へ出力する。 When the receiving means 2 receives the signal S_carrier_L for performing carrier sense and the selection channel CH_Select from the control means 3, the reception means 2 receives the selection channel CH_Select during the observation period L, which is a period for observing the presence or absence of radio communication by other terminal devices. Carrier sensing is performed via the antenna 1 to obtain a received power spectrum PW_carrier_L that indicates the time dependence of received power, and the obtained received power spectrum PW_carrier_L is output to the control means 3 .

また、受信手段2は、アンテナ1を介して基地局BS1から選択チャネルCH_SelectでACKパケットを受信すると、その受信したACKパケットを制御手段3へ出力する。その後、受信手段2は、選択チャネルCH_Selectでアンテナ1を介してキャリアセンスを行い、選択チャネルCH_Selectにおける受信電力スペクトルPW_chnを取得する。そして、受信手段2は、受信電力スペクトルPW_chnを制御手段3へ出力する。 Further, when receiving an ACK packet on the selected channel CH_Select from the base station BS1 via the antenna 1, the receiving means 2 outputs the received ACK packet to the control means 3. FIG. After that, the receiving means 2 performs carrier sensing via the antenna 1 on the selected channel CH_Select and acquires the received power spectrum PW_chn on the selected channel CH_Select. The receiving means 2 then outputs the received power spectrum PW_chn to the control means 3 .

制御手段3は、無線通信に用いるチャネルの候補である候補チャネルCH_cdt_1,チャネルCH_cdt_2を予め保持する。候補チャネルCH_cdt_1は、例えば、2.4GHz帯の1ch、6ch、11chからなり、候補チャネルCH_cdt_2は、例えば、5GHz帯の128ch、132chおよび136chからなる。そして、制御手段3は、候補チャネルCH_cdt_1、または候補チャネルCH_cdt_2を学習器4へ出力する。 The control unit 3 holds in advance candidate channels CH_cdt_1 and CH_cdt_2, which are candidates for channels used for wireless communication. Candidate channel CH_cdt_1 consists of 1ch, 6ch, and 11ch of 2.4 GHz band, for example, and candidate channel CH_cdt_2 consists of 128ch, 132ch, and 136ch of 5 GHz band, for example. Then, control means 3 outputs candidate channel CH_cdt_1 or candidate channel CH_cdt_2 to learning device 4 .

また、制御手段3は、学習器4から選択チャネルCH_Selectを受けると、信号S_carrier_Lを生成し、選択チャネルCH_Selectおよび信号S_carrier_Lを受信手段2へ出力する。その後、制御手段3は、受信電力スペクトルPW_carrier_Lを受信手段2から受け、その受けた受信電力スペクトルPW_carrier_Lに基づいて、後述する方法によって、観測期間Lにおける選択チャネルCH_Selectの状態Sを検出する。そして、制御手段3は、観測期間Lにおける選択チャネルCH_Selectの状態Sを学習器4へ出力する。 Also, upon receiving the selected channel CH_Select from the learning device 4 , the control means 3 generates a signal S_carrier_L and outputs the selected channel CH_Select and the signal S_carrier_L to the receiving means 2 . After that, the control means 3 receives the received power spectrum PW_carrier_L from the receiving means 2, and detects the state S of the selected channel CH_Select in the observation period L by a method described later based on the received received power spectrum PW_carrier_L. Then, the control means 3 outputs the state S of the selected channel CH_Select during the observation period L to the learning device 4 .

更に、制御手段3は、アプリケーション6から送信データD_TRを受け、パケット長mを学習器4から受けると、送信用パケットPKTのパケット長L_PKTがパケット長mになるときのデータ量AODを有する送信データD_mを送信データD_TRから検出し、その検出した送信データD_mを含む送信用パケットPKTを生成する。そして、制御手段3は、選択チャネルCH_Selectにおけるキャリアセンスの結果を受信手段2から受けると、選択チャネルCH_Selectにおけるキャリアセンスの結果に基づいて選択チャネルCH_Selectが空いているか否かを判定する。そして、制御手段3は、選択チャネルCH_Selectが空いていると判定したとき、選択チャネルCH_Selectおよび送信用パケットPKTを送信手段5へ出力する。なお、制御手段3は、選択チャネルCH_Selectにおけるキャリアセンスの結果に基づいて選択チャネルCH_Selectが空いていないと判定したとき、選択チャネルCH_Selectが空くのを待って選択チャネルCH_Selectおよび送信用パケットPKTを送信手段5へ出力する。 Further, when the control means 3 receives the transmission data D_TR from the application 6 and the packet length m from the learning device 4, the transmission data having the data amount AOD when the packet length L_PKT of the transmission packet PKT becomes the packet length m D_m is detected from transmission data D_TR, and a transmission packet PKT containing the detected transmission data D_m is generated. Then, when the control means 3 receives the carrier sense result for the selected channel CH_Select from the receiving means 2, it determines whether or not the selected channel CH_Select is available based on the carrier sense result for the selected channel CH_Select. When the control means 3 determines that the selection channel CH_Select is available, the control means 3 outputs the selection channel CH_Select and the transmission packet PKT to the transmission means 5 . When the control means 3 determines that the selection channel CH_Select is not available based on the carrier sense result of the selection channel CH_Select, the control means 3 waits for the selection channel CH_Select to become available and transmits the selection channel CH_Select and the transmission packet PKT to the transmission means. Output to 5.

更に、制御手段3は、選択チャネルCH_Selectおよび送信用パケットPKTを送信手段5へ出力した後、一定期間において、ACKパケットを受信手段2から受けたとき、送信用パケットPKTの送信が成功したことを検知する。そして、制御手段3は、送信用パケットPKTの送信が成功したことを示す信号S_successを生成し、その生成した信号S_successを学習器4へ出力する。一方、制御手段3は、送信用パケットPKTを送信手段5へ出力した後、一定期間において、ACKパケットを受信手段2から受けなかったとき、送信用パケットPKTの送信が失敗したことを検知する。そして、制御手段3は、送信用パケットPKTの送信が失敗したことを示す信号S_failureを生成し、その生成した信号S_failureを学習器4へ出力する。つまり、制御手段3は、送信用パケットPKTを送信手段5へ出力した後、送信用パケットPKTの送信が成功したか失敗したかを判定する。 Furthermore, after outputting the selected channel CH_Select and the transmission packet PKT to the transmission means 5, the control means 3, when receiving an ACK packet from the reception means 2 for a certain period of time, indicates that the transmission packet PKT has been successfully transmitted. detect. The control means 3 then generates a signal S_success indicating that the transmission packet PKT has been successfully transmitted, and outputs the generated signal S_success to the learning device 4 . On the other hand, when the control means 3 does not receive an ACK packet from the receiving means 2 for a certain period of time after outputting the transmission packet PKT to the transmission means 5, it detects that the transmission of the transmission packet PKT has failed. Then, the control means 3 generates a signal S_failure indicating that transmission of the transmission packet PKT has failed, and outputs the generated signal S_failure to the learning device 4 . That is, after outputting the transmission packet PKT to the transmission means 5, the control means 3 determines whether the transmission of the transmission packet PKT has succeeded or failed.

更に、制御手段3は、送信用パケットPKTの送信が成功したか失敗したかを判定した後に、受信電力スペクトルPW_chnを受信手段2から受けると、その受けた受信電力スペクトルPW_chnに基づいて、後述する方法によって、空き期間Nを検出する。そして、制御手段3は、空き期間Nを学習器4へ出力する。 Furthermore, when the control means 3 receives the reception power spectrum PW_chn from the reception means 2 after determining whether the transmission of the transmission packet PKT has succeeded or failed, the control means 3, based on the received reception power spectrum PW_chn, will be described later. The method detects an idle period N. Then, the control means 3 outputs the vacant period N to the learning device 4 .

更に、制御手段3は、一定期間において、送信手段5へ出力した送信用パケットPKTの個数NPKTと、受信手段2から受けたACKパケットの個数NACKとをカウントし、個数NACKを個数NPKTで除算してパケットの送信成功率RSUCCESSを算出する。そして、制御手段3は、送信成功率RSUCCESSがしきい値R_th以下であるとき、候補チャネルCH_cdtを変更する。一方、制御手段3は、送信成功率RSUCCESSがしきい値R_thよりも大きいとき、候補チャネルCH_cdtを変更しない。なお、しきい値R_thは、例えば、50%に設定される。 Further, the control means 3 counts the number N PKT of transmission packets PKT output to the transmission means 5 and the number N ACK of ACK packets received from the reception means 2 in a certain period of time, and counts the number N ACK as the number N Divide by the PKT to calculate the packet transmission success rate R_SUCCESS . Then, the control means 3 changes the candidate channel CH_cdt when the transmission success rate R SUCCESS is equal to or less than the threshold value R_th. On the other hand, the control means 3 does not change the candidate channel CH_cdt when the transmission success rate R SUCCESS is greater than the threshold value R_th. Note that the threshold value R_th is set to 50%, for example.

学習器4は、候補チャネルCH_cdt、観測期間Lにおける選択チャネルCH_Selectの状態S、信号S_successまたは信号S_failure、および空き期間Nを制御手段3から受ける。そして、学習器4は、候補チャネルCH_cdt、観測期間Lにおける選択チャネルCH_Selectの状態S、信号S_successまたは信号S_failure、および空き期間Nに基づいて、多腕バンディットアルゴリズムによって学習を行い、候補チャネルCH_cdtから選択チャネルCH_Selectを選択し、送信用パケットPKTのパケット長mを選択する。そして、学習器4は、選択チャネルCH_Selectおよびパケット長mを制御手段3へ出力する。 The learning device 4 receives the candidate channel CH_cdt, the state S of the selected channel CH_Select in the observation period L, the signal S_success or the signal S_failure, and the idle period N from the control means 3 . Then, the learning device 4 performs learning by the multi-armed bandit algorithm based on the candidate channel CH_cdt, the state S of the selected channel CH_Select in the observation period L, the signal S_success or the signal S_failure, and the idle period N, and selects from the candidate channel CH_cdt. Select the channel CH_Select and select the packet length m of the transmission packet PKT. The learning device 4 then outputs the selected channel CH_Select and the packet length m to the control means 3 .

送信手段5は、選択チャネルCH_Selectおよび送信用パケットPKTを制御手段3から受けると、送信用パケットPKTを選択チャネルCH_Selectでアンテナ1を介して送信する。 Upon receiving the selection channel CH_Select and the transmission packet PKT from the control means 3, the transmission means 5 transmits the transmission packet PKT via the antenna 1 on the selection channel CH_Select.

アプリケーション6は、送信データを生成し、その生成した送信データを制御手段3へ出力する。 The application 6 generates transmission data and outputs the generated transmission data to the control means 3 .

図3は、受信電力スペクトルの概念図である。図3において、縦軸は、受信電力を表し、横軸は、時間を表す。 FIG. 3 is a conceptual diagram of a received power spectrum. In FIG. 3, the vertical axis represents received power and the horizontal axis represents time.

図3を参照して、受信電力スペクトルSP_RSSIは、受信電力が時間の経過とともに変化する。制御手段3は、全ての無線通信システムが通信を行っていない状態である信号の無い状態における受信電力値をしきい値RSSI_thとして予め保持する。 Referring to FIG. 3, received power spectrum SP_RSSI changes with the passage of time. The control means 3 preliminarily holds, as a threshold value RSSI_th, a received power value in a signalless state in which no wireless communication system is communicating.

そして、制御手段3は、選択チャネルCH_Selectで受信された受信電力スペクトルSP_RSSIの振幅値を2乗して受信電力値に変換し、その変換した受信電力値がしきい値RSSI_thよりも大きいとき、選択チャネルCH_Selectの状態がビジー状態であると判定し、受信電力値がしきい値RSSI_th以下であるとき、選択チャネルCH_Selectの状態がアイドル状態であると判定する。 Then, the control means 3 squares the amplitude value of the reception power spectrum SP_RSSI received on the selected channel CH_Select to convert it into a reception power value, and when the converted reception power value is larger than the threshold value RSSI_th, selects It is determined that the state of the channel CH_Select is busy, and when the received power value is equal to or less than the threshold RSSI_th, it is determined that the selected channel CH_Select is idle.

[学習器における学習]
学習器4における学習について説明する。図4は、観測期間および空き期間を説明するための図である。図4を参照して、この発明の実施の形態においては、チャネルの状態が変化する最小時間であるスロットSLを設定する。スロットSLは、例えば、10μsの長さを有する。
[Learning in the learner]
Learning in the learning device 4 will be described. FIG. 4 is a diagram for explaining observation periods and vacant periods. Referring to FIG. 4, in the embodiment of the present invention, a slot SL, which is the minimum time during which the channel state changes, is set. Slot SL has a length of 10 μs, for example.

受信手段2は、観測期間L(スロットSL1,SL2)において、選択チャネルCH_Selectでキャリアセンスを行って受信電力スペクトルPW_carrier_Lを検出し、その検出した受信電力スペクトルPW_carrier_Lを制御手段3へ出力する。 Receiving means 2 detects received power spectrum PW_carrier_L by performing carrier sense on selected channel CH_Select during observation period L (slots SL1 and SL2), and outputs detected received power spectrum PW_carrier_L to control means 3 .

制御手段3は、受信電力スペクトルPW_carrier_Lを受信手段2から受けると、受信電力スペクトルPW_carrier_Lの振幅値を2乗して受信電力値に変換する。そして、制御手段3は、受信電力値をしきい値RSSI_thと比較し、受信電力値がしきい値RSSI_thよりも大きいとき、選択チャネルCH_Selectの状態がビジー状態であると判定し、受信電力値がしきい値RSSI_th以下であるとき、選択チャネルCH_Selectの状態がアイドル状態であると判定することをスロットSL1,SL2について実行する。 Upon receiving the received power spectrum PW_carrier_L from the receiving means 2, the control means 3 squares the amplitude value of the received power spectrum PW_carrier_L to convert it into a received power value. Then, the control means 3 compares the received power value with the threshold RSSI_th, and when the received power value is greater than the threshold RSSI_th, determines that the selected channel CH_Select is in the busy state, and the received power value When it is equal to or less than the threshold RSSI_th, determining that the state of the selected channel CH_Select is idle is performed for slots SL1 and SL2.

この発明の実施の形態においては、ビジー状態を“1”で表し、アイドル状態を“0”で表す。 In the embodiment of the present invention, the busy state is represented by "1" and the idle state by "0".

観測期間Lは、2つのスロットSL1,SL2からなるので、観測期間Lにおける選択チャネルCH_Selectの状態Sを“00”、“01”、“10”および“11”の2ビットで表す。 Since the observation period L consists of two slots SL1 and SL2, the state S of the selected channel CH_Select during the observation period L is represented by two bits "00", "01", "10" and "11".

送信手段5は、観測期間Lの後のスロットSL3,SL4でパケットを送信すると、制御手段3は、スロットSL5において、ACKパケットを受信したか否かを判定することによってパケットの送信が成功したか失敗したかを判定する。 When the transmission means 5 transmits the packets at slots SL3 and SL4 after the observation period L, the control means 3 determines whether or not the ACK packet has been received at slot SL5 to determine whether the packet has been successfully transmitted. Determine if it failed.

その後、受信手段2は、スロットSL6~SL8において、選択チャネルCH_Selectでキャリアセンスを行って受信電力スペクトルPW_chnを検出し、その検出した受信電力スペクトルPW_chnを制御手段3へ出力する。 After that, the receiving means 2 detects the received power spectrum PW_chn by performing carrier sense on the selected channel CH_Select in the slots SL6 to SL8, and outputs the detected received power spectrum PW_chn to the control means 3. FIG.

制御手段3は、受信電力スペクトルPW_chnを受信手段2から受けると、受信電力スペクトルPW_chnの振幅値を2乗して受信電力値に変換する。そして、制御手段3は、受信電力値をしきい値RSSI_thと比較し、受信電力値がしきい値RSSI_thよりも大きいとき、選択チャネルCH_Selectの状態がビジー状態であると判定し、受信電力値がしきい値RSSI_th以下であるとき、選択チャネルCH_Selectの状態がアイドル状態であると判定することをスロットSL6~SL8について実行する。 Upon receiving the received power spectrum PW_chn from the receiving means 2, the control means 3 squares the amplitude value of the received power spectrum PW_chn to convert it into a received power value. Then, the control means 3 compares the received power value with the threshold RSSI_th, and when the received power value is greater than the threshold RSSI_th, determines that the selected channel CH_Select is in the busy state, and the received power value Determining that the state of the selected channel CH_Select is idle when it is equal to or less than the threshold RSSI_th is performed for slots SL6-SL8.

そして、制御手段3は、スロットSL6がビジー状態であるとき、空き期間Nが“0”であることを検出し、スロットSL6がアイドル状態であり、かつ、スロットSL7がビジー状態であるとき、空き期間Nが“1”であることを検出し、スロットSL6,SL7がアイドル状態であり、かつ、スロットSL8がビジー状態であるとき、空き期間Nが“2”であることを検出し、スロットSL6~SL8がアイドル状態であるとき、空き期間Nが“3”であることを検出する。即ち、制御手段3は、スロットSL6がアイドル状態であることを起点として、アイドル状態のスロットSL6からアイドル状態が連続するスロットSLまでの期間を空き期間Nとして検出する。つまり、空き期間Nは、パケット送信後において、無線通信が行われていない状態が連続する期間である。 Then, the control means 3 detects that the idle period N is "0" when the slot SL6 is in a busy state, and when the slot SL6 is in an idle state and the slot SL7 is in a busy state, the idle period N is detected. When the period N is detected to be "1" and the slots SL6 and SL7 are idle and the slot SL8 is busy, the idle period N is detected to be "2" and the slot SL6 is detected. ˜SL8 is in an idle state, it detects that the vacant period N is "3". That is, the control means 3 detects the period from the slot SL6 in the idle state to the slot SL in which the idle state continues as the idle period N, starting from the fact that the slot SL6 is in the idle state. In other words, the idle period N is a period during which wireless communication is not performed after packet transmission.

制御手段3は、観測期間Lにおける選択チャネルCH_Selectの状態Sおよび空き期間Nを検出すると、その検出した観測期間Lにおける選択チャネルCH_Selectの状態Sおよび空き期間Nを学習器4へ出力する。また、制御手段3は、受信手段2からACKパケットを受けたとき、信号S_successを生成して学習器4へ出力し、受信手段2からACKパケットを受けなかったとき、信号S_failureを生成して学習器4へ出力する。 When the control means 3 detects the state S of the selected channel CH_Select and the idle period N in the observation period L, it outputs the detected state S of the selected channel CH_Select and the idle period N in the observation period L to the learning device 4 . Further, when the control means 3 receives an ACK packet from the receiving means 2, it generates a signal S_success and outputs it to the learning device 4. When it does not receive an ACK packet from the receiving means 2, it generates a signal S_failure for learning. Output to device 4.

図5は、学習器4における対応表の概略図である。図5を参照して、対応表TBL1は、チャネル番号と、観測期間Lにおける選択チャネルCH_Selectの状態Sと、パケット長mと、平均報酬Vとを含む。チャネル番号、観測期間Lにおける選択チャネルCH_Selectの状態S、パケット長mおよび平均報酬Vは、相互に対応付けられる。 FIG. 5 is a schematic diagram of a correspondence table in the learning device 4. FIG. Referring to FIG. 5, correspondence table TBL1 includes channel number, state S of selected channel CH_Select in observation period L, packet length m, and average reward V. FIG. The channel number, the state S of the selected channel CH_Select in the observation period L, the packet length m and the average reward V are associated with each other.

チャネル番号は、1,・・・,a,・・・,A(Aは、1つの候補チャネルCH_cdtに含まれるチャネルの総数であり、aは、1~Aの整数である。)からなる。観測期間Lにおける選択チャネルCH_Selectの状態Sは、“00”、“01”、“10”および“11”からなる。観測期間Lにおける選択チャネルCH_Selectの状態“00”、“01”、“10”および“11”は、チャネル1,・・・,a,・・・,Aの各々に対応付けられる。 The channel numbers consist of 1, ..., a, ..., A (A is the total number of channels included in one candidate channel CH_cdt, and a is an integer from 1 to A). The state S of the selected channel CH_Select in the observation period L consists of "00", "01", "10" and "11". The states “00”, “01”, “10” and “11” of the selected channel CH_Select in the observation period L are associated with channels 1, . . . , a, .

パケット長mは、1,2,・・・,Mからなる。Mは、パケット長mの総数であり、2以上の整数である。パケット長m=1、パケット長m=2、・・・、およびパケット長m=Mは、それぞれ、異なるパケット長を表し、例えば、パケット長m=1が最も短いパケット長を表し、パケット長m=Mが最も長いパケット長を表す。そして、パケット長m=Mは、例えば、無線通信システムにおけるDIFS(Distributed Inter Frame Space)の長さに設定され、パケット長m=1は、基準のパケット長に設定され、mが“1”増える毎に、パケット長mは、例えば、10μsづつ長くなる。基準のパケット長は、例えば、10μsに設定される。 The packet length m consists of 1, 2, . M is the total number of packet lengths m and is an integer of 2 or more. Packet length m=1, packet length m=2, . =M represents the longest packet length. Packet length m=M is set to, for example, the length of DIFS (Distributed Inter Frame Space) in a wireless communication system, packet length m=1 is set to the reference packet length, and m is increased by "1". , the packet length m increases by, for example, 10 μs. The standard packet length is set to 10 μs, for example.

パケット長m=1~Mは、1つのチャネル番号における観測期間Lにおける選択チャネルCH_Selectの状態“00”、“01”、“10”および“11”の各々に対応付けられる。図5においては、観測期間Lにおける選択チャネルCH_Selectの状態“01”、“10”および“11”に対応するパケット長mの欄が空白であるが、実際には、観測期間Lにおける選択チャネルCH_Selectの状態“01”、“10”および“11”に対応するパケット長mの欄には、パケット長m=1~Mが格納されている。 Packet lengths m=1 to M are associated with states “00”, “01”, “10” and “11” of selected channel CH_Select in observation period L in one channel number. In FIG. 5, the column of the packet length m corresponding to the states “01”, “10” and “11” of the selected channel CH_Select during the observation period L is blank. The column of packet length m corresponding to the states "01", "10" and "11" of , stores packet lengths m=1 to M. FIG.

平均報酬Vは、各チャネル番号において、観測期間Lにおける選択チャネルCH_Selectの状態“00”、“01”、“10”および“11”の各々に対応付けられるM個のパケット長m=1~Mに対応付けられる。そして、平均報酬Vは、次式によって算出される。 The average reward V is M packet lengths m=1 to M associated with each of the states “00”, “01”, “10” and “11” of the selected channel CH_Select in the observation period L for each channel number. can be mapped to Then, the average reward V is calculated by the following equation.

Figure 2022150063000002
Figure 2022150063000002

式(1)において、Vt+1は、動作期間T+1における平均報酬であり、Vは、動作期間Tにおいて得られる平均報酬であり、Rは、動作期間Tにおいて得られる即時報酬であり、nは、観測期間Lにおける選択チャネルCH_Selectの1つの状態Sに対応する1つのパケット長mを選択した回数である。 In equation (1), V t+1 is the average reward in action period T+1, V t is the average reward obtained in action period T, R t is the immediate reward obtained in action period T, and n is the number of times one packet length m corresponding to one state S of the selection channel CH_Select in the observation period L is selected.

式(1)は、動作期間Tにおける平均報酬V、動作期間Tにおける即時報酬Rおよび観測期間Lにおける選択チャネルCH_Selectの状態Sに対応する1つのパケット長mを選択した回数nによって動作期間T+1において得られる平均報酬Vt+1を算出することを表す。そして、平均報酬Vt+1は、観測期間Lにおける選択チャネルCH_Selectの状態Sに対応するM個のパケット長mの各々について算出される。 Equation (1) expresses the average reward V t in the operating period T, the immediate reward R t in the operating period T, and the number n of times n that one packet length m corresponding to the state S of the selected channel CH_Select in the observation period L is selected. Represents calculating the average reward V t+1 obtained at T+1. The average reward V t+1 is then calculated for each of the M packet lengths m corresponding to the state S of the selected channel CH_Select in the observation period L.

式(1)における即時報酬Rは、次式によって表される。 The immediate reward Rt in formula (1) is represented by the following formula.

Figure 2022150063000003
Figure 2022150063000003

式(2)においては、パケットの送信が成功したとき(Success)、即時報酬Rは、空き期間Nに“1”を加算した加算結果N+1の逆数にパケット長mを乗算した乗算結果からなり、パケットの送信が失敗したとき(Failure)、即時報酬Rは、零(=0)である。 In equation (2), when the packet is successfully transmitted (Success), the immediate reward Rt consists of the multiplication result obtained by multiplying the reciprocal of the addition result N+1 obtained by adding "1" to the idle period N and the packet length m. , when the packet transmission fails (Failure), the immediate reward R t is zero (=0).

式(2A)において、N+1の逆数を算出するのは、空き期間Nが零(=0)である場合にも、即時報酬Rを算出できるようにするためである。 In Equation (2A), the reciprocal of N+1 is calculated so that the immediate reward Rt can be calculated even when the vacant period N is zero (=0).

式(2)によれば、パケットの送信が成功したとき(Success)、即時報酬Rは、空き期間Nが短い方が大きくなり、空き期間Nが長い方が小さくなり、パケット長が長い方が大きくなり、パケット長mが短い方が小さくなる。 According to equation (2), when the packet is successfully transmitted (Success), the immediate reward R t becomes larger when the vacant period N is short, becomes smaller when the vacant period N is long, and increases when the packet length is long. becomes larger, and becomes smaller as the packet length m becomes shorter.

式(1)においては、平均報酬Vの初期値は、零(=0)に設定される。その結果、動作期間Tにおいて、パケットの送信に失敗したとき、即時報酬Rが零(=0)であるので(式(2B)参照)、平均報酬Vt+1は、零(=0)である。一方、動作期間Tにおいて、パケットの送信に成功したとき、即時報酬Rがm/(N+1)であるので(式(2A)参照)、平均報酬Vt+1は、m/{n・(N+1)}である。 In equation (1), the initial value of the average reward Vt is set to zero ( = 0). As a result, when the transmission of a packet fails in operation period T, the average reward V t+1 is zero (=0) because the immediate reward R t is zero (=0) (see equation (2B)). . On the other hand, when a packet is successfully transmitted in operation period T, since the immediate reward R t is m/(N+1) (see equation (2A)), the average reward V t+1 is m/{n·(N+1) }.

従って、学習器4における学習が開始された後、パケットの送信が失敗することが継続すると、平均報酬Vt+1は、大きくならない。 Therefore, if the packet transmission failures continue after the learning in the learner 4 is started, the average reward V t+1 will not increase.

式(1)および式(2)によれば、即時報酬Rが平均報酬Vよりも大きいとき、平均報酬Vt+1は、観測期間Lにおける選択チャネルCH_Selectの状態S(“00”,“01”,“10”,“11”のいずれか1つ)に対応する1つのパケット長mを選択した回数nが増加するに従って大きくなる。即ち、平均報酬Vt+1は、観測期間Lにおける選択チャネルCH_Selectの1つの状態Sに対応する同じパケット長mが選択され続けることによって増加する。従って、観測期間Lにおける選択チャネルCH_Selectの状態S(“00”,“01”,“10”,“11”のいずれか1つ)に対応するM個のパケット長1~M(図5参照)のうちのいずれか1つに対応する平均報酬Vが最初に零(=0)よりも大きくなると、その後、観測期間Lにおける選択チャネルCH_Selectの状態Sが同じであれば、同じパケット長mが選択され続ける可能性がある。 According to equations (1) and (2), when the immediate reward R t is greater than the average reward V t +1, the average reward V t+1 corresponds to the state S(“00”, “01 ”, “10”, or “11”) increases as the number of times n of selecting one packet length m increases. That is, the average reward V t+1 increases by keeping the same packet length m corresponding to one state S of the selected channel CH_Select in the observation period L being selected. Therefore, M packet lengths 1 to M (see FIG. 5) corresponding to the state S (one of "00", "01", "10", and "11") of the selected channel CH_Select in the observation period L is first greater than zero (=0), then the same packet length m is selected if the state S of the selected channel CH_Select in the observation period L is the same. may continue to be

一方、即時報酬Rが平均報酬Vよりも小さいとき、平均報酬Vt+1は、観測期間Lにおける選択チャネルCH_Selectの状態S(“00”,“01”,“10”,“11”のいずれか1つ)に対応する1つのパケット長mを選択した回数nが増加するに従って小さくなる。これは、空き期間Nが長くなった場合に生じうる。従って、より大きい平均報酬Vt+1を獲得する観点からは、学習器4による学習を継続することによって観測期間Lにおける選択チャネルCH_Selectの状態S(“00”,“01”,“10”,“11”のいずれか1つ)に応じてパケットの送信に成功する確率がより高く、かつ、より長いパケット長mを見出し、その見出したパケット長mを観測期間Lにおける選択チャネルCH_Selectの状態S(“00”,“01”,“10”,“11”のいずれか1つ)に応じて選択することが好ましい。これによって、端末装置10は、他の端末装置による無線通信との衝突を回避して(即ち、他の端末装置と共存して)、無線通信を行うことができる。 On the other hand, when the immediate reward R t is smaller than the average reward V t , the average reward V t+1 is the state S (any of “00”, “01”, “10”, “11” of the selected channel CH_Select in the observation period L or one) decreases as the number of times n that one packet length m is selected increases. This can occur if the idle period N becomes longer. Therefore, from the viewpoint of obtaining a larger average reward V t+1 , the state S (“00”, “01”, “10”, “11 ”), find a longer packet length m with a higher probability of successful packet transmission, and use the found packet length m as the state S (“ 00", "01", "10", and "11"). As a result, the terminal device 10 can perform wireless communication while avoiding collision with wireless communication by other terminal devices (that is, coexisting with other terminal devices).

図6は、図2に示す学習器4の動作を説明するための図である。図6を参照して、学習器4は、対応表TBL1を保持する。そして、学習器4は、候補チャネルCH_cdtを制御手段3から受けると、動作期間Tにおいて、ε-greedy法によって候補チャネルCH_cdtからチャネルを選択する。より具体的には、学習器4は、ある一定の小さい数ε(例えば、0.3)を決定しておき、0~1の範囲の実数からなる乱数pを発生させ、その発生させた乱数pがε以下であるとき、候補チャネルCH_cdtからランダムにチャネルを選択チャネルCH_Select_Tとして選択し、発生した乱数pがε以下でないとき、動作期間Tにおいて最大の平均報酬Vが得られるチャネルを選択チャネルCH_Select_tとして候補チャネルCH_cdtから選択する。 FIG. 6 is a diagram for explaining the operation of the learning device 4 shown in FIG. Referring to FIG. 6, learning device 4 holds correspondence table TBL1. Upon receiving the candidate channel CH_cdt from the control means 3, the learning device 4 selects a channel from the candidate channel CH_cdt by the ε-greedy method during the operation period T. More specifically, the learning device 4 determines a certain small number ε (for example, 0.3), generates a random number p consisting of real numbers in the range of 0 to 1, and generates the random number When p is less than or equal to ε, a channel is randomly selected as the selection channel CH_Select_T from the candidate channels CH_cdt, and when the generated random number p is not less than or equal to ε, the channel that gives the maximum average reward V t in the operation period T is selected. Select from the candidate channels CH_cdt as CH_Select_t.

そして、学習器4は、候補チャネルCH_cdtから選択した選択チャネルCH_Select_tを制御手段3へ出力する。 Then, the learning device 4 outputs the selection channel CH_Select_t selected from the candidate channels CH_cdt to the control means 3 .

その後、学習器4は、観測期間Lにおける選択チャネルCH_Select_tの状態Sを制御手段3から受けると、観測期間Lにおける選択チャネルCH_Select_tの状態Sに対して、ε-greedy法によってパケット長mを選択する。より具体的には、学習器4は、0~1の範囲の実数からなる乱数pを発生させ、その発生させた乱数pがε以下であるとき、パケット長1~Mからランダムにパケット長mを選択し、発生した乱数pがε以下でないとき、動作期間Tにおいて最大の平均報酬Vが得られるときのパケット長mをパケット長1~Mから選択する。 After that, when the learning device 4 receives the state St of the selected channel CH_Select_t in the observation period L from the control means 3, the packet length m is calculated for the state St of the selected channel CH_Select_t in the observation period L by the ε-greedy method. select. More specifically, the learning device 4 generates a random number p consisting of real numbers in the range of 0 to 1, and when the generated random number p is equal to or less than ε, the packet length m is randomly selected from the packet lengths 1 to M. t is selected, and when the generated random number p is not equal to or less than ε, the packet length m t when the maximum average reward V t is obtained in the operation period T is selected from the packet lengths 1 to M.

なお、学習器4は、発生した乱数pがε以下でないときに最大の平均報酬Vが存在しないとき、パケット長1~Mからランダムにパケット長mを選択する。 Note that the learning device 4 randomly selects the packet length m t from the packet lengths 1 to M when the generated random number p is not equal to or less than ε and the maximum average reward V t does not exist.

学習器4は、パケット長mを選択すると、その選択したパケット長mを制御手段3へ出力する。 After selecting the packet length mt , the learning device 4 outputs the selected packet length mt to the control means 3 .

その後、学習器4は、パケットが送信されたときの通信結果(パケットの送信の成功または失敗)および空き期間Nを制御手段3から受けると、通信結果(パケットの送信の成功または失敗)および空き期間Nに基づいて、動作期間Tにおける即時報酬Rを算出する。より具体的には、学習器4は、パケットの送信の成功と空き期間Nとを受けたとき、式(2A)によって即時報酬Rを算出する。一方、学習器4は、パケットの送信の失敗と空き期間Nとを受けたとき、式(2B)によって即時報酬Rを算出する。そして、学習器4は、即時報酬Rを算出すると、その算出した即時報酬Rを記憶する。 After that, learning device 4 receives the communication result (success or failure of packet transmission) when the packet is transmitted and the idle period N from control means 3. Based on the period N, calculate the immediate reward R t in the action period T. More specifically, when learning device 4 receives successful packet transmission and idle period N, learning device 4 calculates immediate reward R t by equation (2A). On the other hand, when the learning device 4 receives the packet transmission failure and the idle period N, it calculates the immediate reward Rt by Equation (2B). After calculating the immediate reward Rt , the learning device 4 stores the calculated immediate reward Rt .

学習器4は、即時報酬Rを算出した後に、即時報酬Rを算出したときの選択チャネルCH_Select_tと同じチャネルを選択チャネルCH_Select_T+1として選択したときの平均報酬Vt+1を、即時報酬Rおよび平均報酬Vを用いて式(1)によって算出する。 After calculating the immediate reward R t , the learning device 4 selects the same channel as the selected channel CH_Select_t when calculating the immediate reward R t as the selected channel CH_Select_T +1, and calculates the average reward V t+ 1 as the selected channel CH_Select_T+1. It is calculated by the formula (1) using the reward Vt .

そうすると、学習器4は、対応表TBL1において、観測期間Lにおける選択チャネルCH_Select_tの状態Sに対応付けられたパケット長m(即時報酬Rを算出したときのパケット長m)に対応付けて平均報酬Vt+1を格納する。 Then, in correspondence table TBL1 , learning device 4 averages Store the reward V t+1 .

そして、学習器4は、動作期間T+1において、上述した方法によって選択チャネルCH_Select_T+1を選択し、その選択した選択チャネルCH_Select_T+1を制御手段3へ出力する。 Then, the learning device 4 selects the selected channel CH_Select_T+1 by the method described above and outputs the selected selected channel CH_Select_T+1 to the control means 3 in the operation period T+1.

その後、学習器4は、観測期間Lにおける選択チャネルCH_Select_T+1の状態St+1を制御手段3から受けると、上述した方法によって、選択チャネルCH_Select_T+1の状態St+1に対してパケット長mt+1を選択する。そして、学習器4は、選択したパケット長mt+1を制御手段3へ出力する。 After that, when the learning device 4 receives the state St+1 of the selected channel CH_Select_T + 1 in the observation period L from the control means 3, it selects the packet length mt+ 1 for the state St+1 of the selected channel CH_Select_T +1 by the method described above. The learning device 4 then outputs the selected packet length mt +1 to the control means 3 .

その後、学習器4は、上述した動作を繰り返し実行する。 After that, the learning device 4 repeatedly executes the operation described above.

[端末装置における学習器以外の動作]
制御手段3は、候補チャネルCH_cdtを学習器4へ出力し、その後、選択チャネルCH_Selectを学習器4から受ける。
[Operations other than the learning device in the terminal device]
The control means 3 outputs the candidate channel CH_cdt to the learner 4 and then receives the selected channel CH_Select from the learner 4 .

そして、制御手段3は、信号S_carrier_Lを生成し、選択チャネルCH_Selectおよび信号S_carrier_Lを受信手段2へ出力する。 The control means 3 then generates the signal S_carrier_L and outputs the selected channel CH_Select and the signal S_carrier_L to the receiving means 2 .

その後、制御手段3は、受信電力スペクトルPW_carrier_Lを受信手段2から受け、その受けた受信電力スペクトルPW_carrier_Lに基づいて、上述した方法によって観測期間Lにおける選択チャネルCH_Selectの状態S(=“00”,“01”,“10”,“11”のいずれか)を検出する。そして、制御手段3は、観測期間Lにおける選択チャネルCH_Selectの状態S(=“00”,“01”,“10”,“11”のいずれか)を学習器4へ出力する。 After that, the control means 3 receives the received power spectrum PW_carrier_L from the receiving means 2, and based on the received received power spectrum PW_carrier_L, selects the state S (="00", " 01”, “10”, or “11”). Then, the control means 3 outputs the state S (=“00”, “01”, “10”, “11”) of the selected channel CH_Select during the observation period L to the learning device 4 .

引き続いて、制御手段3は、アプリケーション6から送信データを受け、学習器4からパケット長mを受けると、上述した方法によって、パケット長mを有する送信用パケットPKTを生成する。 Subsequently, when the control means 3 receives the transmission data from the application 6 and the packet length m from the learning device 4, it generates a transmission packet PKT having the packet length m by the method described above.

そして、制御手段3は、キャリアセンスの結果を受信手段2から受け、その受けたキャリアセンスの結果に基づいて、選択チャネルCH_Selectが空いていると判定したとき、選択チャネルCH_Selectおよび送信用パケットPKTを送信手段5へ出力する。 Then, when the control means 3 receives the carrier sense result from the receiving means 2 and determines that the selection channel CH_Select is available based on the received carrier sense result, the control means 3 transmits the selection channel CH_Select and the transmission packet PKT. Output to the transmission means 5 .

送信手段5は、選択チャネルCH_Selectおよび送信用パケットPKTを制御手段3から受ける。そして、送信手段5は、選択チャネルCH_Selectを用いて送信用パケットPKTを送信する。この場合、送信手段5は、固定の伝送レートで送信用パケットPKTを送信する。 The transmission means 5 receives the selected channel CH_Select and the transmission packet PKT from the control means 3 . Then, the transmission means 5 transmits the transmission packet PKT using the selection channel CH_Select. In this case, the transmitting means 5 transmits the transmission packet PKT at a fixed transmission rate.

その後、受信手段2は、一定期間において、選択チャネルCH_SelectでACKパケットを受信すると、その受信したACKパケットを制御手段3へ出力する。そして、受信手段2は、選択チャネルCH_Selectでキャリアセンスを行い、受信電力スペクトルPW_chnを検出し、その検出した受信電力スペクトルPW_chnを制御手段3へ出力する。 After that, when receiving an ACK packet on the selection channel CH_Select for a certain period of time, the receiving means 2 outputs the received ACK packet to the control means 3 . Then, the receiving means 2 performs carrier sense on the selected channel CH_Select, detects the received power spectrum PW_chn, and outputs the detected received power spectrum PW_chn to the control means 3 .

制御手段3は、ACKパケットを受信手段2から受けると、パケットの送信が成功したことを検知し、ACKパケットを受信手段2から受けなかったとき、パケットの送信が失敗したことを検知する。そして、制御手段3は、パケットの送信が成功したことを検知したとき、信号S_successを生成して学習器4へ出力し、パケットの送信が失敗したことを検知したとき、信号S_failureを生成して学習器4へ出力する。 When the control means 3 receives an ACK packet from the receiving means 2, it detects that the packet has been successfully transmitted. When the control means 3 detects that the packet transmission has succeeded, it generates a signal S_success and outputs it to the learning device 4. When it detects that the packet transmission has failed, it generates a signal S_failure. Output to learning device 4 .

そして、制御手段3は、受信電力スペクトルPW_chnを受信手段2から受けると、受信電力スペクトルPW_chnに基づいて、上述した方法によって、空き期間Nを検出し、その検出した空き期間Nを学習器4へ出力する。 Then, when receiving the received power spectrum PW_chn from the receiving means 2, the control means 3 detects the idle period N based on the received power spectrum PW_chn by the above-described method, and transfers the detected idle period N to the learning device 4. Output.

また、制御手段3は、パケットの送信数NPKTと、受信手段2から受けたACKパケットの個数NACKとをカウントし、個数NACKを送信数NPKTで除算して送信成功率RSUCCESSを算出する。 In addition, the control means 3 counts the number of transmitted packets N PKT and the number N ACK of ACK packets received from the receiving means 2, divides the number N ACK by the number of transmitted N PKT , and obtains the transmission success rate R SUCCESS . calculate.

そして、制御手段3は、送信成功率RSUCCESSがしきい値R_th以下であるか否かを判定する。 Then, the control means 3 determines whether or not the transmission success rate R_SUCCESS is equal to or less than the threshold value R_th.

制御手段3は、送信成功率RSUCCESSがしきい値R_th以下であると判定したとき、帯域の異なるチャネルからなる候補チャネル(既に学習器4へ出力した候補チャネルと個なる候補チャネル)を学習器4へ出力する。 When the control means 3 determines that the transmission success rate R_SUCCESS is equal to or less than the threshold value R_th, the control means 3 selects candidate channels composed of channels of different bands (candidate channels different from the candidate channels already output to the learning device 4) to the learning device. Output to 4.

一方、制御手段3は、送信成功率RSUCCESSがしきい値R_thよりも大きいと判定したとき、既に学習器4へ出力した候補チャネル(候補チャネルCH_cdt_1または候補チャネルCH_cdt_2)を維持する。つまり、制御手段3は、候補チャネルCH_cdtを変更しない。 On the other hand, when the control means 3 determines that the transmission success rate R SUCCESS is greater than the threshold value R_th, it maintains the candidate channel (candidate channel CH_cdt_1 or candidate channel CH_cdt_2) already output to the learning device 4 . That is, the control means 3 does not change the candidate channel CH_cdt.

以後、上述した動作が繰り返し実行される。 Thereafter, the operations described above are repeatedly performed.

図7は、図2に示す端末装置10の動作を説明するためのタイミングチャートである。図7においては、チャネル1、チャネル2およびチャネル3からなる候補チャネルCH_cdtのうち、チャネル2が選択チャネルCH_Selectとして選択された場合について端末装置10の動作タイミングを説明する。また、矢印AR1のタイミングから矢印AR6のタイミングまでの期間を動作期間Tとする。 FIG. 7 is a timing chart for explaining the operation of the terminal device 10 shown in FIG. In FIG. 7, the operation timing of the terminal device 10 will be described when channel 2 is selected as the selected channel CH_Select among the candidate channels CH_cdt consisting of channel 1, channel 2 and channel 3. FIG. A period from the timing of arrow AR1 to the timing of arrow AR6 is assumed to be an operation period T. FIG.

図7を参照して、制御手段3は、矢印AR1のタイミングよりも前のタイミングにおいて、候補チャネル(チャネル1~3)を学習器4へ出力する。そして、制御手段3は、矢印AR1のタイミングにおいて、送信データD_mを含む送信用パケットPKTを生成する。また、学習器4は、矢印AR1のタイミングにおいて、候補チャネル(チャネル1~3)からチャネル2を選択チャネルCH_Selectとして選択し、その選択した選択チャネルCH_Select(=チャネル2)を制御手段3へ出力する。 Referring to FIG. 7, control means 3 outputs candidate channels (channels 1 to 3) to learning device 4 at a timing prior to the timing of arrow AR1. Then, the control means 3 generates a transmission packet PKT including the transmission data D_m at the timing of the arrow AR1. Also, at the timing of arrow AR1, learning device 4 selects channel 2 from candidate channels (channels 1 to 3) as selected channel CH_Select, and outputs the selected selected channel CH_Select (=channel 2) to control means 3. .

そして、制御手段3は、学習器4から選択チャネルCH_Select(=チャネル2)を受けると、信号S_carrier_Lを生成し、選択チャネルCH_Select(=チャネル2)および信号S_carrier_Lを受信手段2へ出力する。 Upon receiving the selected channel CH_Select (=channel 2) from the learning device 4, the control means 3 generates a signal S_carrier_L and outputs the selected channel CH_Select (=channel 2) and the signal S_carrier_L to the receiving means 2.

受信手段2は、選択チャネルCH_Select(=チャネル2)および信号S_carrier_Lを制御手段3から受けると、矢印AR1のタイミングから矢印AR2のタイミングまでの観測期間Lにおいて、選択チャネルCH_Select(=チャネル2)においてキャリアセンスを行って受信電力スペクトルPW_carrier_Lを検出し、その検出した受信電力スペクトルPW_carrier_Lを制御手段3へ出力する。 When the receiving means 2 receives the selected channel CH_Select (=channel 2) and the signal S_carrier_L from the control means 3, during the observation period L from the timing of the arrow AR1 to the timing of the arrow AR2, the carrier in the selected channel CH_Select (=channel 2) Sensing is performed to detect the received power spectrum PW_carrier_L, and the detected received power spectrum PW_carrier_L is output to the control means 3 .

制御手段3は、受信電力スペクトルPW_carrier_Lを受信手段2から受けると、受信電力スペクトルPW_carrier_Lの振幅値を2乗して受信電力値に変換する。そして、制御手段3は、受信電力値をしきい値RSSI_thと比較し、受信電力値がしきい値RSSI_thよりも大きいとき、選択チャネルCH_Select(=チャネル2)の状態がビジー状態であると判定し、受信電力値がしきい値RSSI_th以下であるとき、選択チャネルCH_Select(=チャネル2)の状態がアイドル状態であると判定する。 Upon receiving the received power spectrum PW_carrier_L from the receiving means 2, the control means 3 squares the amplitude value of the received power spectrum PW_carrier_L to convert it into a received power value. Then, the control means 3 compares the received power value with the threshold RSSI_th, and determines that the selected channel CH_Select (=channel 2) is busy when the received power value is greater than the threshold RSSI_th. , the state of the selected channel CH_Select (=channel 2) is determined to be idle when the received power value is equal to or less than the threshold RSSI_th.

そして、制御手段3は、矢印AR2のタイミングにおいて、観測期間Lにおける選択チャネルCH_Select(=チャネル2)の状態Sが“00”,“01”,“10”,“11”のいずれかからなることを検出する。 Then, the control means 3 determines that the state S of the selected channel CH_Select (=channel 2) in the observation period L is one of "00", "01", "10" and "11" at the timing of the arrow AR2. to detect

図7においては、観測期間Lの1番目のスロットSLにおいてパケットが送信されており、観測期間Lの2番目のスロットSLが空いているので、制御手段3は、矢印AR2のタイミングにおいて、受信電力スペクトルPW_carrier_Lに基づいて、上述した方法によって、観測期間Lにおける選択チャネルCH_Select(=チャネル2)の状態Sが“10”であることを検出する。そして、制御手段3は、観測期間Lにおける選択チャネルCH_Select(=チャネル2)の状態S(=“10”)を学習器4へ出力する。 In FIG. 7, a packet is transmitted in the first slot SL of the observation period L, and the second slot SL of the observation period L is vacant. Based on the spectrum PW_carrier_L, it is detected that the state S of the selected channel CH_Select (=channel 2) is "10" in the observation period L by the method described above. Then, the control means 3 outputs the state S (=“10”) of the selected channel CH_Select (=channel 2) during the observation period L to the learning device 4 .

学習器4は、観測期間Lにおける選択チャネルCH_Select(=チャネル2)の状態S(=“10”)を制御手段3から受けると、矢印AR2のタイミングにおいて、上述した方法によって、観測期間Lにおける選択チャネルCH_Select(=チャネル2)の状態S(=“10”)に応じたパケット長mを選択し、その選択したパケット長mを制御手段3へ出力する。 When the learning device 4 receives the state S (=“10”) of the selected channel CH_Select (=channel 2) in the observation period L from the control means 3, at the timing of the arrow AR2, the selection in the observation period L is performed by the method described above. A packet length m corresponding to the state S (="10") of the channel CH_Select (=channel 2) is selected, and the selected packet length m is output to the control means 3.

また、制御手段3は、矢印AR2のタイミングにおいて、アプリケーション6から送信データD_TRを受け、学習器4からパケット長mを受けると、その受けた送信データD_TRおよびパケット長mに基づいて、上述した方法によって、送信データD_mを含む送信用パケットPKTを生成し、キャリアセンスを行うように受信手段2を制御する。そして、制御手段3は、キャリアセンスの結果を受信手段2から受け、その受けたキャリアセンスの結果に基づいて、選択チャネルCH_Selectが空いていると判定したとき、選択チャネルCH_Select(=チャネル2)および送信用パケットPKTを送信手段5へ出力する。 Further, when the control means 3 receives the transmission data D_TR from the application 6 and the packet length m from the learning device 4 at the timing of the arrow AR2, the above-described method is performed based on the received transmission data D_TR and the packet length m. generates a transmission packet PKT containing transmission data D_m, and controls the receiving means 2 to perform carrier sensing. Then, when the control means 3 receives the carrier sense result from the receiving means 2 and determines that the selected channel CH_Select is available based on the received carrier sense result, the selected channel CH_Select (=channel 2) and It outputs the transmission packet PKT to the transmission means 5 .

なお、制御手段3は、選択チャネルCH_Selectが空いていないと判定したとき、選択チャネルCH_Selectが空くのを待って、選択チャネルCH_Select(=チャネル2)および送信用パケットPKTを送信手段5へ出力する。 When the control means 3 determines that the selection channel CH_Select is not available, the control means 3 waits for the selection channel CH_Select to become available and outputs the selection channel CH_Select (=channel 2) and the transmission packet PKT to the transmission means 5 .

送信手段5は、矢印AR2のタイミングにおいて、選択チャネルCH_Select(=チャネル2)および送信用パケットPKTを制御手段3から受け、選択チャネルCH_Selectを用いて送信用パケットPKTを送信する。 The transmission means 5 receives the selection channel CH_Select (=channel 2) and the transmission packet PKT from the control means 3 at the timing of the arrow AR2, and transmits the transmission packet PKT using the selection channel CH_Select.

そして、矢印AR3のタイミングでパケットの送信が完了する。その後、受信手段2は、矢印AR4のタイミングでACKパケットを受信すると、その受信したACKパケットを制御手段3へ出力する。 Then, the transmission of the packet is completed at the timing of arrow AR3. After that, when receiving an ACK packet at the timing of arrow AR4, receiving means 2 outputs the received ACK packet to control means 3 .

制御手段3は、ACKパケットを受信手段2から受けると、パケットの送信が成功したことを検知する。一方、制御手段3は、ACKパケットを受信手段2から受けなかったとき、パケットの送信が失敗したことを検知する。従って、制御手段3は、矢印AR4のタイミングにおいて、パケットの送信の成功または失敗を学習器4へ出力する。 Upon receiving the ACK packet from the receiving means 2, the control means 3 detects successful transmission of the packet. On the other hand, when the control means 3 does not receive an ACK packet from the receiving means 2, it detects that the packet transmission has failed. Therefore, the control means 3 outputs success or failure of packet transmission to the learning device 4 at the timing of the arrow AR4.

その後、受信手段2は、矢印AR5のタイミングから矢印AR6のタイミングまでの期間において選択チャネルCH_Selectでキャリアセンスを行って受信電力スペクトルPW_chnを検出し、その検出した受信電力スペクトルPW_chnを制御手段3へ出力する。 After that, the receiving means 2 detects the reception power spectrum PW_chn by performing carrier sense in the selection channel CH_Select during the period from the timing of the arrow AR5 to the timing of the arrow AR6, and outputs the detected reception power spectrum PW_chn to the control means 3. do.

制御手段3は、受信電力スペクトルPW_chnを受信手段2から受けると、矢印AR6のタイミングにおいて、受信電力スペクトルPW_chnに基づいて、上述した方法によって、空き期間Nを検出し、その検出した空き期間Nを学習器4へ出力する。 When the control means 3 receives the received power spectrum PW_chn from the receiving means 2, at the timing of the arrow AR6, based on the received power spectrum PW_chn, the control means 3 detects the idle period N by the method described above, and converts the detected idle period N to Output to learning device 4 .

学習器4は、矢印AR6のタイミングにおいて、空き期間Nを制御手段3から受けると、その受けた空き期間Nと、矢印AR4のタイミングで制御手段3から受けたパケットの送信の成功または失敗とに基づいて、動作期間Tにおける即時報酬Rを算出し、その算出した即時報酬Rを記憶する。この即時報酬Rは、動作期間Tの後の動作期間(矢印AR1のタイミングから矢印AR6のタイミングまでの期間からなる動作期間)において、動作期間Tにおける選択チャネルCH_Selectと同じチャネルが選択されたときに得られる平均報酬Vt+1を式(1)によって算出するために用いられる。 When learning device 4 receives idle period N from control means 3 at the timing of arrow AR6, learner 4 receives the idle period N and the success or failure of packet transmission received from control means 3 at the timing of arrow AR4. Based on this, the immediate reward Rt in the action period T is calculated, and the calculated immediate reward Rt is stored. This immediate reward Rt is given when the same channel as the selected channel CH_Select in the action period T is selected in the action period after the action period T (the action period consisting of the period from the timing of the arrow AR1 to the timing of the arrow AR6). is used to calculate the average reward V t+1 obtained at , by equation (1).

学習器4は、即時報酬Rを記憶すると、選択チャネルCH_Selectと同じチャネルが選択されたときに算出された動作期間Tにおける即時報酬Rを用いて、動作期間Tよりも後の動作期間(矢印AR1のタイミングから矢印AR6のタイミングまでの期間からなる動作期間)における平均報酬Vt+1を式(1)によって算出する。そして、学習器4は、対応表TBL1において、観測期間Lにおける選択チャネルCH_Selectの状態Sに対応付けられたパケット長m(即時報酬Rを算出したときのパケット長m)に対応付けて平均報酬Vt+1を格納する。 When the immediate reward Rt is stored, the learning device 4 uses the immediate reward Rt in the action period T calculated when the same channel as the selected channel CH_Select is selected in the action period after the action period T ( The average reward V t+1 in the action period from the timing of arrow AR1 to the timing of arrow AR6 is calculated by equation (1). Then, the learning device 4 associates the average reward with the packet length m (the packet length m when the immediate reward Rt is calculated) associated with the state S of the selected channel CH_Select in the observation period L in the correspondence table TBL1. Store V t+1 .

その後、制御手段3は、上述した送信成功率RSUCCESSを算出する。そして、制御手段3は、その算出した送信成功率RSUCCESSがしきい値R_th以下であるとき、別の候補チャネルCH_cdtを学習器4へ出力して別の候補チャネルCH_cdtを用いるように学習器4を制御する。一方、制御手段3は、送信成功率RSUCCESSがしきい値R_thよりも大きいとき、矢印AR1のタイミングよりも前のタイミングにおいて、学習器4へ既に出力した候補チャネルCH_cdtを維持するので、学習器4へ候補チャネルCH_cdtを出力しない。 After that, the control means 3 calculates the transmission success rate R_SUCCESS described above. Then, when the calculated transmission success rate R_SUCCESS is equal to or less than the threshold value R_th, the control means 3 outputs another candidate channel CH_cdt to the learning device 4 so that the learning device 4 uses another candidate channel CH_cdt. to control. On the other hand, when the transmission success rate R SUCCESS is greater than the threshold value R_th, the control means 3 maintains the candidate channel CH_cdt already output to the learning device 4 at the timing before the timing of the arrow AR1. 4 does not output the candidate channel CH_cdt.

学習器4は、制御手段3から既に受けた候補チャネルCH_cdtと異なる候補チャネルCH_cdtを制御手段3から受けると、その受けた候補チャネルCH_cdtに基づいて上述した方法によって選択チャネルCH_Selectを選択する。 When the learning device 4 receives from the control means 3 a candidate channel CH_cdt different from the candidate channel CH_cdt already received from the control means 3, the learning device 4 selects the selection channel CH_Select based on the received candidate channel CH_cdt by the method described above.

以後、端末装置10は、動作期間T毎に上述した動作を繰り返し実行する。 After that, the terminal device 10 repeatedly performs the above-described operation every operation period T. FIG.

図8は、図2に示す端末装置10の各動作期間における動作を説明するための図である。 FIG. 8 is a diagram for explaining the operation of the terminal device 10 shown in FIG. 2 during each operation period.

図8を参照して、T(Tは、正の整数である。)番目の動作期間、(T+1)番目の動作期間および(T+2)番目の動作期間の各々は、図7に示す矢印AR1のタイミングから矢印AR6のタイミングまでの期間からなる。 Referring to FIG. 8, each of the T (T is a positive integer)-th operation period, the (T+1)-th operation period and the (T+2)-th operation period corresponds to the arrow AR1 shown in FIG. It consists of a period from the timing to the timing of the arrow AR6.

制御手段3は、T番目の動作期間の矢印AR1のタイミングにおいて学習器4から選択チャネルCH_Select_tを受ける。そして、受信手段2および制御手段3は、次の(I)~(III)を実行する。
(I)T番目の動作期間の矢印AR2のタイミングにおいて、観測期間Lにおける選択チャネルCH_Select_tの状態Sを検出する。
(II)T番目の動作期間の矢印AR4のタイミングにおいて、パケットを送信したときの通信結果CM_rst_t(パケットの送信の成功または失敗)を取得する。
(III)T番目の動作期間の矢印AR5のタイミングから矢印AR6のタイミングまでの期間において、パケットの送信完了後の空き期間Nを検出する。
The control means 3 receives the selection channel CH_Select_t from the learning device 4 at the timing of the arrow AR1 in the Tth operation period. Then, the receiving means 2 and the control means 3 execute the following (I) to (III).
(I) Detect the state St of the selected channel CH_Select_t in the observation period L at the timing of the arrow AR2 in the T-th operation period.
(II) Obtain the communication result CM_rst_t (success or failure of packet transmission) when the packet is transmitted at the timing of the arrow AR4 in the T-th operation period.
(III) In the period from the timing of the arrow AR5 to the timing of the arrow AR6 in the T -th operation period, an idle period Nt after the completion of packet transmission is detected.

そうすると、制御手段3は、(I)~(III)における観測期間Lにおける選択チャネルCH_Select_tの状態S、パケットを送信したときの通信結果CM_rst_t(パケットの送信の成功または失敗)、および空き期間Nを学習器4へ出力する。 Then, the control means 3 determines the state S of the selected channel CH_Select_t in the observation period L in (I) to (III), the communication result CM_rst_t when the packet is transmitted (success or failure of packet transmission), and the idle period N Output to learning device 4 .

学習器4は、T番目の動作期間において、次の(A)~(D)を実行する。
(A)T番目の動作期間において、選択チャネルCH_Select_tを選択する。
(B)T番目の動作期間において、観測期間Lにおける選択チャネルCH_Select_tの状態Sに応じてパケット長mを選択する。
(C)T番目の動作期間における通信結果CM_rst_t、空き期間Nおよびパケット長mに基づいて式(2)によって即時報酬Rを算出する。
(D)即時報酬Rを用いて(T+1)番目の動作期間における平均報酬Vt+1を式(1)によって算出する。
The learning device 4 performs the following (A) to (D) in the Tth operation period.
(A) Select the selection channel CH_Select_t in the Tth operation period.
(B) Select the packet length mt according to the state St of the selected channel CH_Select_t in the observation period L in the Tth operation period.
(C) An immediate reward Rt is calculated by Equation (2) based on the communication result CM_rst_t , idle period Nt, and packet length mt in the T -th operation period.
(D) Using the immediate reward R t , the average reward V t+1 in the (T+1)-th action period is calculated by Equation (1).

次に、(T+1)番目の動作期間において、受信手段2および制御手段3は、上記の(I)~(III)を実行する。この場合、受信手段2および制御手段3は、(I)において、観測期間Lにおける選択チャネルCH_Select_t+1の状態St+1を検出し、(II)において、パケットを送信したときの通信結果CM_rst_t+1を取得し、(III)において、パケットの送信完了後の空き期間Nt+1を検出する。 Next, in the (T+1)th operation period, the receiving means 2 and the control means 3 execute the above (I) to (III). In this case, the receiving means 2 and the control means 3 detect the state St+1 of the selected channel CH_Select_t +1 in the observation period L in (I), acquire the communication result CM_rst_t+1 when the packet is transmitted in (II), In (III), an idle period Nt+1 after completion of packet transmission is detected.

一方、学習器4は、(T+1)番目の動作期間において、上記の(A)~(D)を実行する(図8の(E)参照)。この場合、学習器4は、(A)において、選択チャネルCH_Select_t+1を選択し、(B)において、観測期間Lにおける選択チャネルCH_Select_t+1の状態St+1に応じてパケット長mt+1を選択し、(C)において、通信結果CM_rst_t+1、空き期間Nt+1およびパケット長mt+1に基づいて式(2)によって即時報酬Rt+1を算出し、(D)において、即時報酬Rt+1を用いて(T+2)番目の動作期間における平均報酬Vt+2を式(1)によって算出する。 On the other hand, the learning device 4 executes the above (A) to (D) in the (T+1)th operation period (see (E) in FIG. 8). In this case, the learning device 4 selects the selected channel CH_Select_t+1 in (A), selects the packet length m t+1 according to the state St+1 of the selected channel CH_Select_t+1 in the observation period L in (B), and (C). In (D), the immediate reward R t+1 is calculated by Equation (2) based on the communication result CM_rst_t+1, the idle period N t+1 and the packet length m t+1 , and in (D) the (T+2)th operation period using the immediate reward R t+1 The average reward V t+2 in is calculated by equation (1).

更に、(T+2)番目の動作期間において、受信手段2および制御手段3は、上記の(I)~(III)を実行する。この場合、受信手段2および制御手段3は、(I)において、観測期間Lにおける選択チャネルCH_Select_t+2の状態St+2を検出し、(II)において、パケットを送信したときの通信結果CM_rst_t+2を取得し、(III)において、パケットの送信完了後の空き期間Nt+2を検出する。 Furthermore, in the (T+2)th operation period, the receiving means 2 and the control means 3 execute the above (I) to (III). In this case, the receiving means 2 and the control means 3 detect the state St+2 of the selected channel CH_Select_t +2 in the observation period L in (I), acquire the communication result CM_rst_t+2 when the packet is transmitted in (II), In (III), an idle period Nt+2 after completion of packet transmission is detected.

一方、学習器4は、(T+2)番目の動作期間において、上記の(A)~(D)を実行する(図8の(F)参照)。この場合、学習器4は、(A)において、選択チャネルCH_Select_t+2を選択し、(B)において、観測期間Lにおける選択チャネルCH_Select_t+2の状態St+2に応じてパケット長mt+2を選択し、(C)において、通信結果CM_rst_t+2、空き期間Nt+2およびパケット長mt+2に基づいて式(2)によって即時報酬Rt+2を算出し、(D)において、即時報酬Rt+2を用いて(T+3)番目の動作期間における平均報酬Vt+3を式(1)によって算出する。 On the other hand, the learning device 4 executes the above (A) to (D) in the (T+2)th operation period (see (F) in FIG. 8). In this case, the learning device 4 selects the selected channel CH_Select_t+2 in (A), selects the packet length m t+2 according to the state St+2 of the selected channel CH_Select_t+2 in the observation period L in (B), and (C). In (D), the immediate reward R t+2 is calculated by formula (2) based on the communication result CM_rst_t+2, the idle period N t+2 , and the packet length m t+2 , and in (D), the (T+3)th operation period using the immediate reward R t+2 The average reward V t+3 in is calculated by equation (1).

なお、学習器4は、即時報酬Rおよび平均報酬Vt+1を算出し、選択チャネルCH_Select_T+1を選択することを(T+1)番目の動作期間の矢印AR1のタイミングまでに行い、即時報酬Rおよび平均報酬Vt+1を算出し、パケット長mt+1を選択することを(T+1)番目の動作期間の矢印AR2のタイミングまでであれば、T番目の動作期間において行ってもよく、(T+1)番目の動作期間において行ってもよい。 Note that the learning device 4 calculates the immediate reward R t and the average reward V t+1 , selects the selected channel CH_Select_T+1 by the timing of the arrow AR1 in the (T+1)th operation period, and calculates the immediate reward R t and the average reward V t+1. Calculating the reward V t+ 1 and selecting the packet length m t+1 may be performed in the T-th operation period until the timing of the arrow AR2 in the (T+1)-th operation period, and the (T+1)-th operation You can do it during the period.

また、学習器4は、即時報酬Rt+1および平均報酬Vt+2を算出し、選択チャネルCH_Select_T+2を選択することを(T+2)番目の動作期間の矢印AR1のタイミングまでに行い、即時報酬Rt+1および平均報酬Vt+2を算出し、パケット長mt+2を選択することを(T+2)番目の動作期間の矢印AR2のタイミングまでであれば、(T+1)番目の動作期間において行ってもよく、(T+2)番目の動作期間において行ってもよい。 In addition, the learning device 4 calculates the immediate reward R t+1 and the average reward V t+2 , selects the selection channel CH_Select_T+2 by the timing of the arrow AR1 in the (T+2)th operation period, and calculates the immediate reward R t +1 and the average reward V t+2. Calculating the reward V t+ 2 and selecting the packet length m t+2 may be performed in the (T+1)th operation period until the timing of the arrow AR2 in the (T+2)th operation period. may be performed during the operation period of

そして、受信手段2、制御手段3および学習器4は、上述した動作を繰り返し実行する。 Then, the receiving means 2, the control means 3 and the learning device 4 repeatedly execute the operations described above.

T番目の動作期間は、「第1の動作期間」を構成し、(T+1)番目の動作期間は、「第2の動作期間」を構成する。 The T-th operating period constitutes a "first operating period", and the (T+1)-th operating period constitutes a "second operating period".

そして、T番目の動作期間および(T+1)番目の動作期間において、上述した動作が終了した後、(T+1)番目の動作期間および(T+2)番目の動作期間において、上述した動作が繰り返し実行される。この場合、(T+1)番目の動作期間は、「第1の動作期間」を構成し、(T+2)番目の動作期間は、「第2の動作期間」を構成する。以後、同様にして、2つの動作期間において、上述した動作が繰り返し実行される。この場合、2つの動作期間は、2つの動作期間において同じ選択チャネルCH_Selectが連続して選択されるとき、隣接しており、2つの動作期間において同じ選択チャネルCH_Selectが連続して選択されないとき、離れている。 After the above-described operations are completed in the T-th operation period and the (T+1)-th operation period, the above-described operations are repeatedly performed in the (T+1)-th operation period and the (T+2)-th operation period. . In this case, the (T+1)th operation period constitutes the "first operation period", and the (T+2)th operation period constitutes the "second operation period". Thereafter, similarly, the above-described operations are repeatedly performed in two operation periods. In this case, the two operating periods are adjacent when the same selected channel CH_Select is continuously selected in the two operating periods, and separated when the same selected channel CH_Select is not continuously selected in the two operating periods. ing.

この発明の実施の形態においては、即時報酬Rは、1つの動作期間においてパケットが選択チャネルCH_Selectで送信されたときに得られる報酬であり、平均報酬Vt+1は、観測期間Lにおける選択チャネルCH_Selectの状態Sに対応する1つのパケット長mを選択した回数n(累積値)によって1つの選択チャネルCH_Selectにおける即時報酬Rの累積値を平均した報酬であり、かつ、1つの動作期間の後の動作期間において得られる報酬である。 In our embodiment, the immediate reward R t is the reward obtained when a packet is transmitted on the selected channel CH_Select in one operating period, and the average reward V t+1 is the selected channel CH_Select in the observation period L is the reward obtained by averaging the cumulative value of immediate reward R t in one selection channel CH_Select by the number n (cumulative value) of selecting one packet length m corresponding to state S, and after one operation period It is a reward obtained during the action period.

図9から図13は、それぞれ、対応表TBL1の変遷を示す第1の概略図から第5の概略図である。 9 to 13 are first to fifth schematic diagrams, respectively, showing changes in the correspondence table TBL1.

図9から図13は、候補チャネルが1ch,6ch,11chからなり、パケット長mが10μs、20μsおよび30μsである場合について対応表TBL1の変遷を示す。 FIGS. 9 to 13 show changes in the correspondence table TBL1 for cases where candidate channels are 1ch, 6ch, and 11ch, and packet lengths m are 10 μs, 20 μs, and 30 μs.

図9を参照して、対応表TBL1(A)は、観測期間Lにおけるチャネルの状態“00”,“01”,“10”,“11”が1ch,6ch,11chの各々に対応付けられ、パケット長10μs,20μs,30μsが観測期間Lにおけるチャネルの状態“00”,“01”,“10”,“11”の各々に対応付けられ、平均報酬Vがそれぞれのパケット長10μs,20μs,30μsに対応付けられた構成からなる。そして、対応表TBL1(A)は、初期状態の対応表であるため、平均報酬Vは、全て、初期値(=0)からなる。そして、学習器4は、候補チャネル(=1ch,6ch,11ch)を制御手段3から受ける。 Referring to FIG. 9, correspondence table TBL1(A) associates channel states “00”, “01”, “10”, and “11” in observation period L with 1ch, 6ch, and 11ch, respectively. Packet lengths of 10 μs, 20 μs and 30 μs are associated with channel states “00”, “01”, “10” and “11” in the observation period L, respectively, and the average reward V is associated with each packet length of 10 μs, 20 μs and 30 μs. consists of a configuration associated with Since the correspondence table TBL1(A) is the correspondence table in the initial state, all the average rewards V are initial values (=0). Then, the learning device 4 receives the candidate channels (=1ch, 6ch, 11ch) from the control means 3 .

次に、図10を参照して、学習器4は、1番目の動作期間において、乱数pを発生させ、その発生させた乱数pがε以下であるので、候補チャネル(=1ch,6ch,11ch)からランダムにチャネル6chを選択し(図10の対応表TBL1(B)参照)、チャネル6chを選択チャネルCH_Selectとして制御手段3へ出力する。 Next, referring to FIG. 10, learning device 4 generates a random number p in the first operation period, and since the generated random number p is equal to or less than ε, candidate channels (=1ch, 6ch, 11ch) ) at random (see correspondence table TBL1(B) in FIG. 10), and outputs channel 6ch to control means 3 as selected channel CH_Select.

その後、学習器4は、観測期間Lにおけるチャネル6chの状態“01”を制御手段3から受ける。そして、学習器4は、ε-greedy法によって、観測期間Lにおけるチャネル6chの状態“01”に応じたパケット長mを選択する。ε-greedy法によってパケット長mを選択する場合、発生した乱数pがε以下であるとき、ランダムにパケット長mを選択し、発生した乱数pがε以下でないとき、最大の平均報酬Vが得られるときのパケット長mを選択することになる。 After that, the learning device 4 receives the state “01” of the channel 6ch during the observation period L from the control means 3 . Then, the learning device 4 selects the packet length m according to the state "01" of the channel 6ch in the observation period L by the ε-greedy method. When the packet length m is selected by the ε-greedy method, when the generated random number p is ε or less, the packet length m is randomly selected, and when the generated random number p is not ε or less, the maximum average reward V is obtained. will choose the packet length m when it is available.

この時点で、観測期間Lにおけるチャネル6chの状態“01”に対応する平均報酬Vは、全て、零(0)であり(図9の対応表TBL1(A)参照)、最大の平均報酬Vが存在しないので、発生した乱数pがε以下でないとき、ランダムにパケット長mを選択することになる。一方、発生した乱数pがε以下であるとき、ε-greedy法によれば、ランダムにパケット長mを選択することになる。 At this point, all the average rewards V corresponding to the state “01” of channel 6ch in observation period L are zero (0) (see correspondence table TBL1(A) in FIG. 9), and the maximum average reward V is Since it does not exist, when the generated random number p is not equal to or less than ε, the packet length m is randomly selected. On the other hand, when the generated random number p is less than or equal to ε, the packet length m is randomly selected according to the ε-greedy method.

従って、学習器4は、パケット長m=10μsをランダムに選択し(図10の対応表TBL1(B)参照)、パケット長m=10μsを制御手段3へ出力する。 Therefore, the learning device 4 randomly selects the packet length m=10 μs (see correspondence table TBL1(B) in FIG. 10) and outputs the packet length m=10 μs to the control means 3 .

引き続いて、学習器4は、パケットの送信が成功したことを示す信号S_successを制御手段3から受け、その後、空き期間N(=2)を制御手段3から受ける。 Subsequently, the learning device 4 receives from the control means 3 a signal S_success indicating that the packet has been successfully transmitted, and then receives an idle period N (=2) from the control means 3 .

そして、学習器4は、信号S_successおよび空き期間N(=2)に基づいて式(2A)によって1番目の動作期間における即時報酬R(=10/3)を算出する。この時点において、観測期間Lにおけるチャネル6chの状態“01”に対応する平均報酬Vは、全て、零(=0)であるので(図9の対応表TBL1(A)参照)、学習器4は、即時報酬R(=10/3)と平均報酬V(=0)と、n=1とを式(1)に代入して、平均報酬V=0+(10/3-0)/1=10/3を算出し、その算出した平均報酬V(=10/3)をパケット長m=10μsに対応付けて対応表TBL1(B)に格納する。 Then, the learning device 4 calculates the immediate reward R 1 (=10/3) in the first action period by Equation (2A) based on the signal S_success and the idle period N (=2). At this point, all the average rewards V1 corresponding to the state “01” of channel 6ch in observation period L are zero (=0) (see correspondence table TBL1(A) in FIG. 9), so learning device 4 Substitute the immediate reward R 1 (=10/3), the average reward V 1 (=0), and n=1 into the equation (1) to obtain the average reward V 2 =0+(10/3−0) /1=10/3 is calculated, and the calculated average reward V 2 (=10/3) is stored in the correspondence table TBL1(B) in association with the packet length m=10 μs.

図11を参照して、学習器4は、2番目の動作期間において、乱数pを発生させ、その発生させた乱数pがε以下であるので、候補チャネル(=1ch,6ch,11ch)からランダムにチャネル6chを選択し、チャネル6chを選択チャネルCH_Selectとして制御手段3へ出力する。 Referring to FIG. 11, learning device 4 generates random number p in the second operation period. channel 6ch is selected, and channel 6ch is output to the control means 3 as the selected channel CH_Select.

その後、学習器4は、観測期間Lにおけるチャネル6chの状態“01”を制御手段3から受ける。この時点で、観測期間Lにおけるチャネル6chの状態“01”に対応する平均報酬Vの欄には、10μsのパケット長mに対応付けて平均報酬V(=10/3)が格納されている(図10の対応表TBL1(B)参照)。学習器4は、乱数pを発生させ、その発生させた乱数pがε以下でないので、最大の平均報酬Vが得られるときのパケット長m=10μsを選択し、その選択したパケット長m=10μsを制御手段3へ出力する。 After that, the learning device 4 receives the state “01” of the channel 6ch during the observation period L from the control means 3 . At this point, the average reward V 2 (=10/3) is stored in the column of the average reward V corresponding to the state “01” of the channel 6ch in the observation period L in association with the packet length m of 10 μs. (See correspondence table TBL1(B) in FIG. 10). The learning device 4 generates a random number p, and since the generated random number p is not equal to or less than ε, selects the packet length m=10 μs when the maximum average reward V2 is obtained, and the selected packet length m= 10 μs is output to the control means 3 .

引き続いて、学習器4は、パケットの送信が成功したことを示す信号S_successを制御手段3から受け、その後、空き期間N(=1)を制御手段3から受ける。 Subsequently, the learning device 4 receives from the control means 3 a signal S_success indicating that the packet has been successfully transmitted, and then receives an idle period N (=1) from the control means 3 .

そうすると、学習器4は、信号S_successおよび空き期間N(=1)に基づいて式(2A)によって即時報酬R(=10/2)を算出し、その算出した即時報酬R(=10/2)を記憶する。 Then, the learning device 4 calculates the immediate reward R 2 (=10/2) by Equation (2A) based on the signal S_success and the idle period N (=1), and the calculated immediate reward R 2 (=10/ 2) is stored.

その後、学習器4は、即時報酬R(=10/2)と平均報酬V(=10/3)とn=2とを式(1)に代入して、平均報酬V=10/3+(10/2-10/3)/2=25/6を算出し、その算出した平均報酬V(=25/6)をパケット長m=10μsに対応付けて対応表TBL1(B)に格納する。 After that, the learning device 4 substitutes the immediate reward R 2 (=10/2), the average reward V 2 (=10/3), and n=2 into Equation (1) to obtain the average reward V 3 =10/ 3+(10/2−10/3)/2=25/6 is calculated, and the calculated average reward V 3 (=25/6) is associated with the packet length m=10 μs, and is shown in the correspondence table TBL1 (B). Store.

図12を参照して、学習器4は、3番目の動作期間において、乱数pを発生させ、その発生させた乱数pがε以下であるので、チャネル1chをランダムに選択し、その選択したチャネル1chを選択チャネルCH_Selectとして制御手段3へ出力する。 Referring to FIG. 12, learning device 4 generates a random number p in the third operation period, and since the generated random number p is equal to or less than ε, it randomly selects channel 1ch, and selects channel 1ch. 1ch is output to the control means 3 as the selected channel CH_Select.

その後、学習器4は、観測期間Lにおけるチャネル1chの状態“00”を制御手段3から受ける。この時点で、観測期間Lにおけるチャネル1chの状態“00”に対応する平均報酬Vは、全て、零(0)である(図11の対応表TBL1(C)参照)。学習器4は、乱数pを発生させ、その発生させた乱数pがε以下であるので、パケット長m=20μsをランダムに選択し、パケット長m=20μsを制御手段3へ出力する。 After that, the learning device 4 receives the state “00” of the channel 1ch in the observation period L from the control means 3 . At this point, all the average rewards V3 corresponding to the state "00" of channel 1ch in observation period L are zero (0) (see correspondence table TBL1(C) in FIG. 11). The learning device 4 generates a random number p, and since the generated random number p is equal to or less than ε, it randomly selects a packet length m=20 μs and outputs the packet length m=20 μs to the control means 3 .

その後、学習器4は、パケットの送信が失敗したことを示す信号S_failureを制御手段3から受ける。 After that, the learning device 4 receives from the control means 3 a signal S_failure indicating that the transmission of the packet has failed.

そして、学習器4は、信号S_failureに基づいて式(2B)によって即時報酬R(=0)を算出し、その算出した即時報酬R(=0)を記憶する。そうすると、学習器4は、即時報酬R(=0)および平均報酬V(=0)に基づいて、平均報酬V(=0)を算出し、その算出した平均報酬V(=0)を対応表TBL1(D)のチャネル1chの状態“00”に対応する20μsのパケット長mに対応付けて平均報酬Vの欄に格納する。 Then, the learning device 4 calculates the immediate reward R 3 (=0) by Equation (2B) based on the signal S_failure, and stores the calculated immediate reward R 3 (=0). Then, the learning device 4 calculates the average reward V 4 (=0) based on the immediate reward R 3 (=0) and the average reward V 3 (=0), and the calculated average reward V 4 (=0 ) is associated with the packet length m of 20 μs corresponding to the state “00” of channel 1ch in the correspondence table TBL1(D) and stored in the average reward V column.

図13を参照して、学習器4は、4番目の動作期間において、乱数pを発生させ、その発生させた乱数pがεよりも大きいので、最大の平均報酬Vが得られるときのチャネル6chを選択する。対応表TBL1(D)においては、平均報酬V=25/6であり、平均報酬V=0であるので、平均報酬Vが最大である。 Referring to FIG. 13, learning device 4 generates a random number p in the fourth operation period, and since the generated random number p is greater than ε, the channel when the maximum average reward V 3 is obtained is Select 6ch. In the correspondence table TBL1(D), the average reward V 3 =25/6 and the average reward V 4 =0, so the average reward V 3 is the maximum.

学習器4は、チャネル6chを選択すると、その選択したチャネル6chを選択チャネルCH_Selectとして制御手段3へ出力する。 When the learning device 4 selects the channel 6ch, it outputs the selected channel 6ch to the control means 3 as the selected channel CH_Select.

その後、学習器4は、観測期間Lにおけるチャネル6chの状態“01”を制御手段3から受ける。この時点で、観測期間Lにおけるチャネル6chの状態“01”に対応する平均報酬Vは、V(=25/6)が最大である(図12の対応表TBL1(D)参照)。学習器4は、乱数pを発生させ、その発生させた乱数pがε以下でないので、最大の平均報酬V(=25/6)が得られるときのパケット長m=10μsを選択し、パケット長m=10μsを制御手段3へ出力する。 After that, the learning device 4 receives the state “01” of the channel 6ch during the observation period L from the control means 3 . At this point, V 3 (=25/6) is the maximum average reward V corresponding to state "01" of channel 6ch in observation period L (see correspondence table TBL1(D) in FIG. 12). The learning device 4 generates a random number p, and since the generated random number p is not equal to or less than ε, the learning device 4 selects a packet length m=10 μs when the maximum average reward V 3 (=25/6) is obtained, and a packet Output the length m=10 μs to the control means 3 .

引き続いて、学習器4は、パケットの送信が成功したことを示す信号S_successと、空き期間N(=3)とを制御手段3から受ける。 Subsequently, the learning device 4 receives from the control means 3 a signal S_success indicating successful transmission of the packet and an idle period N (=3).

そうすると、学習器4は、信号S_successおよび空き期間N(=3)に基づいて式(2A)によって即時報酬R(=10/4)を算出し、その算出した即時報酬R(=10/4)を記憶する。 Then, the learning device 4 calculates the immediate reward R 4 (=10/4) by Equation (2A) based on the signal S_success and the idle period N (=3), and the calculated immediate reward R 4 (=10/ 4) is stored.

そして、学習器4は、即時報酬R(=10/4)と、平均報酬V(=25/6)と、n=3とを式(1)に代入して平均報酬V=25/6+(10/4-25/6)/3=65/10を算出する。ここで、平均報酬V(=25/6)を式(1)に代入して平均報酬Vを算出するのは、観測期間Lにおけるチャネル6chの状態S(=“01”)に対応するパケット長m=10μsに対して算出された平均報酬Vが図11の対応表TBL1(C)に格納されたV(=25/6)であるからである。従って、観測期間Lにおけるチャネル6chの状態S(=“01”)に対応するパケット長m=10μsに対して平均報酬Vt+1を動作期間T(=4)において式(1)によって算出するとき、動作期間T(=4)よりも前の動作期間T(=2)において算出された平均報酬V(=25/6)を平均報酬Vとして用いる。 Then, the learning device 4 substitutes the immediate reward R 4 (=10/4), the average reward V 3 (=25/6), and n=3 into the equation (1) to obtain the average reward V 5 =25 /6+(10/4-25/6)/3=65/10. Here, calculating the average reward V5 by substituting the average reward V3 ( =25/6) into the equation (1) corresponds to the state S (="01") of the channel 6ch in the observation period L. This is because the average reward V t calculated for the packet length m=10 μs is V 3 (=25/6) stored in the correspondence table TBL1(C) of FIG. Therefore, when calculating the average reward V t+1 for the packet length m=10 μs corresponding to the state S (="01") of the channel 6ch in the observation period L in the operation period T (=4) by the formula (1), The average reward V 3 (=25/6) calculated in the action period T (=2) before the action period T (=4) is used as the average reward V t .

図9から図13において説明したように、観測期間Lにおけるチャネル6chの状態“01”に対応付けられた平均報酬の3個の欄のうち、1つの欄に平均報酬V(=25/6)が格納されているので(図11の対応表TBL1(C)参照)、4番目の動作期間において、乱数pがε以下でないとき、観測期間Lにおけるチャネル6chの状態“01”に対してチャネル長mを選択するとき、最大の平均報酬V(=25/6)に対するチャネル長(=10μs)を選択できる(図11の対応表TBL1(C)および図13の対応表TBL1(E)参照)。 As described with reference to FIGS. 9 to 13, among the three columns of the average reward associated with the state "01" of the channel 6ch in the observation period L, one column contains the average reward V 3 (=25/6). ) is stored (see the correspondence table TBL1(C) in FIG. 11), during the fourth operation period, when the random number p is not equal to or less than ε, the channel When choosing the length m, we can choose the channel length (=10 μs) for the maximum average reward V 3 (=25/6) (see correspondence table TBL1(C) in FIG. 11 and correspondence table TBL1(E) in FIG. 13) ).

また、図10に示す1番目の動作期間において、観測期間Lにおけるチャネル6chの状態“01”に対してパケット長m(=10μs)を選択し、パケットの送信に成功して即時報酬R(=10/3)が得られている。また、図11に示す2番目の動作期間において、観測期間Lにおけるチャネル6chの状態“01”に対してパケット長m(=10μs)を選択し、即時報酬R(=10/2)が得られるとともに平均報酬V(=25/6)が得られている。更に、図13に示す4番目の動作期間において、観測期間Lにおけるチャネル6chの状態“01”に対してパケット長m(=10μs)を選択し、平均報酬V(=65/10)が得られている(図13の対応表TBL1(E)参照)。 Also, in the first operation period shown in FIG. 10, the packet length m (=10 μs) is selected for the state “01” of channel 6ch in the observation period L, the packet is successfully transmitted, and the immediate reward R 1 ( = 10/3) is obtained. Further, in the second operation period shown in FIG. 11, packet length m (=10 μs) is selected for state “01” of channel 6ch in observation period L, and immediate reward R 2 (=10/2) is obtained. and an average reward V 3 (=25/6) is obtained. Furthermore, in the fourth operation period shown in FIG. 13, packet length m (=10 μs) is selected for state “01” of channel 6ch in observation period L, and average reward V 5 (=65/10) is obtained. (See correspondence table TBL1(E) in FIG. 13).

その結果、観測期間Lにおけるチャネル6chの状態Sが“01”であるとき、観測期間Lの経過後にパケットを送信するとパケットの送信に成功する確率が高いので、観測期間Lにおけるチャネル6chの状態Sが“01”であれば、観測期間Lの経過後のスロットが空いている確率が高いと推定できる。これは、観測期間Lにおける各チャネルの状態“00”,“01”,“10”,“11”にも当てはまることである。 As a result, when the state S of the channel 6ch during the observation period L is "01", the probability of successful packet transmission is high if the packet is transmitted after the observation period L has elapsed. is "01", it can be estimated that there is a high probability that a slot is available after the observation period L has elapsed. This also applies to the states "00", "01", "10", and "11" of each channel in the observation period L.

従って、学習器4が図9から図13において説明した学習を繰り返し実行することによって、学習器4は、観測期間Lにおける各チャネルの状態S(=“00”,“01”,“10”,“11”のいずれか)に応じたパケット長mを選択することが可能である。 Therefore, the learner 4 repeatedly performs the learning described with reference to FIGS. It is possible to select the packet length m according to (either "11").

更に、学習器4が図9から図13において説明した学習を繰り返し実行することによって、例えば、観測期間Lにおけるチャネル11chの状態“00”に対しては、パケット長m=30μsを選択すると、パケットの送信に失敗する確率が高くなり、パケット長m=10μsを選択すると、パケットの送信に成功する確率が高くなることを学習することもあり得る。 Furthermore, the learner 4 repeatedly performs the learning described in FIGS. 9 to 13. For example, when the packet length m=30 μs is selected for the state “00” of the channel 11ch in the observation period L, the packet , and may learn that choosing a packet length of m=10 μs increases the probability of successful packet transmission.

その結果、学習器4は、観測期間Lにおけるチャネル11chの状態“00”に対しては、乱数pがε以下でないとき、パケット長m=10μsを選択することになる。そして、パケット長m=10μsを選択してパケットを送信することは、短い空き期間を利用してパケットを送信することになり、各端末装置が自己のパケット送信だけを利己的に促進するのではなく、他の端末装置による無線通信が空いている期間を利用して(つまり、他の端末装置による無線通信に配慮した上で)パケットを送信できることになる。従って、各端末装置は、他の端末装置による無線通信の有無に関する情報を他の端末装置から取得しなくても、他の端末装置と共存しながら無線通信を行うことができる。 As a result, the learning device 4 selects the packet length m=10 μs for the state “00” of the channel 11ch in the observation period L when the random number p is not equal to or less than ε. Selecting a packet length of m=10 μs and transmitting a packet means transmitting a packet using a short idle period, and each terminal device may selfishly promote only its own packet transmission. Instead, packets can be transmitted using periods when wireless communication by other terminal devices is idle (in other words, taking wireless communication by other terminal devices into consideration). Therefore, each terminal device can perform wireless communication while coexisting with other terminal devices without acquiring information about the presence or absence of wireless communication by other terminal devices from other terminal devices.

更に、学習器4は、ε-greedy法によってパケット長mを選択するので、乱数pがε以下であるとき、ランダムにパケット長mを選択することになり、最初に、零(=0)よりも大きい平均報酬Vが得られたパケット長mを継続して選択することを抑制して、より大きい平均報酬Vが得られるパケット長mを探索することができる。 Furthermore, since the learning device 4 selects the packet length m by the ε-greedy method, when the random number p is ε or less, the packet length m is randomly selected. It is possible to search for a packet length m with which a larger average reward V is obtained by suppressing continuous selection of the packet length m with which a larger average reward V is obtained.

なお、選択チャネルCH_Selectをε-greedy法によって選択する場合、乱数pがε以下でないとき、学習器4は、各チャネルの状態“00”,“01”,“10”,“11”の全てに対応付けられた平均報酬Vの欄(図9から図13に示す対応表TBL1(A)~TBL1(E)においては、12個の平均報酬Vの欄)を参照して、最大の平均報酬Vが得られるチャネルを選択チャネルCH_Selectとして選択する。 When the selected channel CH_Select is selected by the ε-greedy method, when the random number p is not equal to or smaller than ε, the learning device 4 selects all of the states “00”, “01”, “10”, and “11” of each channel. By referring to the associated average reward V column (12 average reward V columns in the correspondence tables TBL1(A) to TBL1(E) shown in FIGS. 9 to 13), the maximum average reward V is obtained as the selection channel CH_Select.

また、パケット長mをε-greedy法によって選択する場合、乱数pがε以下でないとき、学習器4は、観測期間Lにおける選択チャネルCH_Selectの状態S(“00”,“01”,“10”,“11”のいずれか1つ)に対応付けられた平均報酬Vの欄(図9から図13に示す対応表TBL1(A)~TBL1(E)においては、3個の平均報酬Vの欄)を参照して、最大の平均報酬Vが得られるパケット長をパケット長mとして選択する。 When the packet length m is selected by the ε-greedy method, the learning device 4 selects the state S (“00”, “01”, “10” , “11”) (in correspondence tables TBL1(A) to TBL1(E) shown in FIGS. 9 to 13, three average reward V columns ), and select the packet length m that gives the maximum average reward V as the packet length m.

図14は、図2に示す端末装置10の動作を説明するためのフローチャートである。図14を参照して、端末装置10の動作が開始されると、制御手段3は、送信データD_TRがあるか否かを判定する(ステップS1)。この場合、制御手段3は、アプリケーション6から送信データD_TRを受けたとき、送信データがあると判定し、アプリケーション6から送信データD_TRを受けなかったとき、送信データがないと判定する。 FIG. 14 is a flow chart for explaining the operation of the terminal device 10 shown in FIG. Referring to FIG. 14, when the operation of terminal device 10 is started, control means 3 determines whether there is transmission data D_TR (step S1). In this case, when the control means 3 receives the transmission data D_TR from the application 6, it determines that there is transmission data, and when it does not receive the transmission data D_TR from the application 6, it determines that there is no transmission data.

ステップS1において、送信データD_TRがあると判定されると、制御手段3は、パケット長mを要求する信号S_req_mを生成して学習器4へ出力する。 In step S1, when it is determined that there is transmission data D_TR, the control means 3 generates a signal S_req_m requesting the packet length m and outputs it to the learning device 4. FIG.

学習器4は、端末装置10における学習器4以外の部分の動作と並行して、観測期間Lにおける選択チャネルの状態S、パケットを送信したときの通信結果およびパケットの送信完了後の空き期間Nに基づいて学習を実行し、所定の確率で最大の平均報酬Vt+1が得られるときのチャネルを選択チャネルとして選択するとともに、観測期間Lにおける選択チャネルの状態Sに応じて、所定の確率で最大の平均報酬Vt+1が得られるときのパケット長をパケット長mとして選択する(ステップS2)。ここで、平均報酬Vt+1は、動作期間T+1における平均報酬である。 In parallel with the operations of the terminal device 10 other than the learner 4, the learner 4 acquires the state S of the selected channel during the observation period L, the communication result when the packet is transmitted, and the idle period N after the completion of the packet transmission. and selects the channel for which the maximum average reward V t+1 is obtained with a predetermined probability as the selected channel, and according to the state S of the selected channel during the observation period L, is obtained as the packet length m (step S2). where the average reward V t+1 is the average reward in the action period T+1.

学習器4は、信号S_req_mを制御手段3から受けると、選択したパケット長mを制御手段3へ出力する。 Upon receiving the signal S_req_m from the control means 3 , the learning device 4 outputs the selected packet length m to the control means 3 .

制御手段3は、学習器4からパケット長mを受けると、送信用パケットPKTのパケット長L_PKTがパケット長mになるときのデータ量AODを有する送信データD_mを送信データD_TRから検出し、その検出した送信データD_mを含む送信用パケットPKTを生成する(ステップS3)。そして、制御手段3は、選択チャネルを要求する信号S_req_CHを生成して学習器4へ出力する。 When receiving the packet length m from the learning device 4, the control means 3 detects the transmission data D_m having the data amount AOD when the packet length L_PKT of the transmission packet PKT becomes the packet length m from the transmission data D_TR, and detects the transmission data D_m. A transmission packet PKT containing the transmitted data D_m is generated (step S3). Then, the control means 3 generates a signal S_req_CH requesting the selected channel and outputs it to the learning device 4 .

そして、学習器4は、制御手段3から信号S_req_CHを受けると、選択した選択チャネルを制御手段3へ出力し、観測期間Lにおける選択チャネルの状態Sを制御手段3から受けると、パケット長mを制御手段3へ出力する。 Upon receiving a signal S_req_CH from the control means 3, the learning device 4 outputs the selected selected channel to the control means 3. Upon receiving the state S of the selected channel during the observation period L from the control means 3, the learning device 4 sets the packet length m to Output to the control means 3 .

制御手段3は、ステップS3の後、学習器4から選択チャネルを受けると、受信手段2から受けた受信電力スペクトルPW_carrier_Lに基づいて、上述した方法によって、観測期間Lにおける選択チャネルの状態Sを検出し(ステップS4)、その検出した観測期間Lにおける選択チャネルの状態Sを学習器4へ出力する。 Upon receiving the selected channel from the learner 4 after step S3, the control means 3 detects the state S of the selected channel during the observation period L by the method described above based on the received power spectrum PW_carrier_L received from the receiving means 2. (step S4), and the detected state S of the selected channel in the observation period L is output to the learning device 4. FIG.

制御手段3は、ステップS4の後、受信手段2から受けたキャリアセンスの結果(選択チャネルにおけるキャリアセンスの結果)に基づいて選択チャネルが空いているか否かを判定する(ステップS5)。 After step S4, the control means 3 determines whether or not the selected channel is available based on the result of carrier sense received from the receiving means 2 (the result of carrier sense in the selected channel) (step S5).

ステップS5において、選択チャネルが空いていると判定されると、制御手段3は、選択チャネルCH_Selectおよびパケット(送信用パケットPKT)を送信手段5へ出力し、送信手段5は、選択チャネルCH_Selectを用いて、制御手段3から受けたパケット(送信用パケットPKT)をパケット長mで送信する(ステップS6)。 In step S5, when it is determined that the selection channel is available, the control means 3 outputs the selection channel CH_Select and the packet (packet for transmission PKT) to the transmission means 5, and the transmission means 5 uses the selection channel CH_Select. Then, the packet (packet for transmission PKT) received from the control means 3 is transmitted with the packet length m (step S6).

その後、制御手段3は、ACKパケットの有無に基づいて、パケットを送信したときの通信結果を検出し(ステップS7)、その検出した通信結果を学習器4へ出力する。そして、制御手段3は、受信手段2から受けた受信電力スペクトルPW_chnに基づいて、上述した方法によって、パケットの送信完了後の空き期間Nを検出し(ステップS8)、その検出した空き期間Nを学習器4へ出力する。 After that, the control means 3 detects the communication result when the packet is transmitted based on the presence or absence of the ACK packet (step S7), and outputs the detected communication result to the learning device 4. FIG. Then, based on the received power spectrum PW_chn received from the receiving means 2, the control means 3 detects the idle period N after the completion of packet transmission (step S8), and detects the detected idle period N by the method described above. Output to learning device 4 .

そうすると、制御手段3は、パケットの送信成功率がしきい値以下であるか否かを判定する(ステップS9)。 Then, the control means 3 determines whether or not the packet transmission success rate is equal to or less than the threshold value (step S9).

ステップS9において、パケットの送信成功率がしきい値以下であると判定されたとき、制御手段3は、候補チャネルを他の候補チャネルに変更し(ステップS10)、その変更した他の候補チャネルを学習器4へ出力する。 When it is determined in step S9 that the packet transmission success rate is equal to or less than the threshold, the control means 3 changes the candidate channel to another candidate channel (step S10), and changes the changed candidate channel to Output to learning device 4 .

そして、ステップS9において、パケットの送信成功率がしきい値以下でないと判定されたとき、またはステップS10の後、一連の動作は、ステップS1へ移行する。 Then, when it is determined in step S9 that the packet transmission success rate is not equal to or lower than the threshold value, or after step S10, the series of operations proceeds to step S1.

図14に示すフローチャートにおいては、端末装置が駆動されている限り、ステップS1からステップS10が繰り返し実行される。 In the flowchart shown in FIG. 14, steps S1 to S10 are repeatedly executed as long as the terminal device is driven.

また、図14に示すフローチャートにおいては、ステップS10からステップS1へ移行した場合、パケットの送信に用いる選択チャネルは、他の候補チャネルから選択される(ステップS2参照)。 Also, in the flowchart shown in FIG. 14, when the process moves from step S10 to step S1, the selection channel used for packet transmission is selected from other candidate channels (see step S2).

図15および図16は、それぞれ、図2に示す学習器4の動作を説明するための第1および第2のフローチャートである。図15を参照して、学習器4の動作が開始されると、学習器4は、候補チャネルを制御手段3から受ける(ステップS21)。 15 and 16 are first and second flow charts, respectively, for explaining the operation of the learning device 4 shown in FIG. Referring to FIG. 15, when the operation of learning device 4 is started, learning device 4 receives candidate channels from control means 3 (step S21).

そして、学習器4は、対応表TBL1における平均報酬の全てを零(=0)に設定することによって平均報酬を初期化する(ステップS22)。 Then, the learning device 4 initializes the average reward by setting all the average rewards in the correspondence table TBL1 to zero (=0) (step S22).

その後、学習器4は、0~1の乱数pを発生させる(ステップS23)。そして、学習器4は、乱数pがε以下であるか否かを判定する(ステップS24)。 After that, the learning device 4 generates a random number p between 0 and 1 (step S23). Then, the learning device 4 determines whether or not the random number p is equal to or less than ε (step S24).

ステップS24において、乱数pがε以下でないと判定されたとき、学習器4は、最大の平均報酬Vt+1が対応表TBL1に存在するか否かを判定する(ステップS25)。 When it is determined in step S24 that the random number p is not equal to or less than ε, the learning device 4 determines whether or not the maximum average reward V t+1 exists in the correspondence table TBL1 (step S25).

ステップS25において、最大の平均報酬Vt+1が対応表TBL1に存在すると判定されたとき、学習器4は、最大の平均報酬Vt+1が得られるときのチャネルを候補チャネルから選択する(ステップS26)。なお、最大の平均報酬Vt+1が複数存在するとき、学習器4は、複数の最大の平均報酬Vt+1のうちの任意の1つの最大の平均報酬Vt+1が得られるときのチャネルを候補チャネルから選択する。 When it is determined in step S25 that the maximum average reward V t+1 exists in the correspondence table TBL1, the learning device 4 selects the channel from which the maximum average reward V t+1 is obtained from the candidate channels (step S26). Note that when there are a plurality of maximum average rewards V t+1 , the learning device 4 selects a channel from which any one maximum average reward V t+1 of the plurality of maximum average rewards V t+1 is obtained from the candidate channels. select.

一方、ステップS24において、乱数pがε以下であると判定されたとき、またはステップS25において、最大の平均報酬Vt+1が対応表TBL1に存在しないと判定されたとき、学習器4は、候補チャネルからランダムにチャネルを選択する(ステップS27)。 On the other hand, when it is determined in step S24 that the random number p is equal to or less than ε, or when it is determined in step S25 that the maximum average reward V t+1 does not exist in the correspondence table TBL1, the learning device 4 selects the candidate channel A channel is randomly selected from (step S27).

そして、ステップS26またはステップS27の後、学習器4は、選択したチャネルを選択チャネルとして制御手段3へ出力する(ステップS28)。 After step S26 or step S27, learning device 4 outputs the selected channel to control means 3 as a selected channel (step S28).

その後、学習器4は、観測期間Lにおける選択チャネルの状態Sを制御手段3から受ける(ステップS29)。 After that, the learning device 4 receives the state S of the selected channel during the observation period L from the control means 3 (step S29).

そして、学習器4は、0~1の乱数pを発生させ(ステップS30)、その発生させた乱数pがε以下であるか否かを判定する(ステップS31)。 Then, the learning device 4 generates a random number p between 0 and 1 (step S30), and determines whether or not the generated random number p is equal to or less than ε (step S31).

ステップS31において、乱数pがε以下でないと判定されたとき、学習器4は、最大の平均報酬Vt+1が対応表TBL1に存在するか否かを判定する(ステップS32)。 When it is determined in step S31 that the random number p is not equal to or less than ε, the learning device 4 determines whether or not the maximum average reward V t+1 exists in the correspondence table TBL1 (step S32).

ステップS32において、最大の平均報酬Vt+1が対応表TBL1に存在すると判定されたとき、学習器4は、観測期間Lにおける選択チャネルの状態Sに対して、最大の平均報酬Vt+1が得られるときのパケット長mを選択する(ステップS33)。なお、最大の平均報酬Vt+1が複数存在するとき、学習器4は、複数の最大の平均報酬Vt+1のうちの任意の1つの最大の平均報酬Vt+1が得られるときのパケット長mを選択する。 In step S32, when it is determined that the maximum average reward V t +1 exists in the correspondence table TBL1, the learning device 4 performs is selected (step S33). Note that when there are multiple maximum average rewards V t+1 , the learning device 4 selects the packet length m when any one maximum average reward V t+1 is obtained from the multiple maximum average rewards V t+1 . do.

一方、ステップS31において、乱数pがε以下であると判定されたとき、またはステップS32において、最大の平均報酬Vt+1が対応表TBL1に存在しないと判定されたとき、学習器4は、ランダムにパケット長mを選択する(ステップS34)。 On the other hand, when it is determined in step S31 that the random number p is equal to or less than ε, or when it is determined in step S32 that the maximum average reward V t+1 does not exist in the correspondence table TBL1, the learner 4 randomly selects A packet length m is selected (step S34).

そして、ステップS33またはステップS34の後、学習器4は、選択したパケット長mを制御手段3へ出力する(ステップS35)。その後、一連の動作は、図16のステップS36へ移行する。 After step S33 or step S34, the learning device 4 outputs the selected packet length m to the control means 3 (step S35). After that, the series of operations proceeds to step S36 in FIG.

図16を参照して、図15のステップS35の後、学習器4は、パケットの送信結果を制御手段3から受ける(ステップS36)。引き続いて、学習器4は、パケットの送信完了後の空き期間Nを制御手段3から受ける(ステップS37)。 Referring to FIG. 16, after step S35 in FIG. 15, learning device 4 receives a packet transmission result from control means 3 (step S36). Subsequently, the learning device 4 receives the vacant period N after completion of packet transmission from the control means 3 (step S37).

そして、学習器4は、パケットの送信結果、空き期間Nおよびパケット長mを用いて式(2)によって即時報酬Rを算出し(ステップS38)、その算出した即時報酬Rを記憶する。即時報酬Rは、動作期間Tにおける即時報酬である。 Then, learning device 4 calculates an immediate reward Rt by Equation (2) using the packet transmission result, idle period N, and packet length m (step S38), and stores the calculated immediate reward Rt . The immediate reward Rt is the immediate reward in the action period T.

その後、学習器4は、即時報酬Rを用いて式(1)によって平均報酬Vt+1を算出し(ステップS39)、観測期間Lにおける選択チャネルの状態Sに対して平均報酬Vt+1を対応表TBL1に格納する(ステップS40)。 After that, the learning device 4 calculates the average reward V t+1 according to the equation (1) using the immediate reward R t (step S39), and assigns the average reward V t+1 to the state S of the selected channel in the observation period L as the correspondence table Store in TBL1 (step S40).

そして、一連の動作は、図15のステップS41へ移行し、学習器4は、別の候補チャネルを制御手段3から受けたか否かを判定する(ステップS41)。 Then, the series of operations proceeds to step S41 in FIG. 15, and learning device 4 determines whether or not another candidate channel has been received from control means 3 (step S41).

ステップS41において、別の候補チャネルを制御手段3から受けなかったと判定されたとき、一連の動作は、ステップS23へ移行する。 When it is determined in step S41 that another candidate channel has not been received from the control means 3, the series of operations proceeds to step S23.

一方、ステップS41において、別の候補チャネルを制御手段3から受けたと判定されたとき、一連の動作は、ステップS22へ移行する。 On the other hand, when it is determined in step S41 that another candidate channel has been received from the control means 3, the series of operations proceeds to step S22.

学習器4は、図14に示すフローチャートにおいて、端末装置10における学習器4以外の部分の動作と並行して、図15および図16に示すフローチャートのステップS21~ステップS41を繰り返し実行する。 In the flowchart shown in FIG. 14, the learning device 4 repeatedly executes steps S21 to S41 of the flowcharts shown in FIGS. 15 and 16 in parallel with the operations of the terminal device 10 other than the learning device 4. FIG.

そして、学習器4は、図14に示すステップS1の後に信号S_req_mを制御手段3から受けると、図14に示すステップS2において、パケット長mを制御手段3へ出力し(ステップS35参照)、図14に示すステップS3の後に信号S_req_CHを制御手段3から受けると、図14に示すステップS2において、選択チャネルを制御手段3へ出力する(ステップS28参照)。 When learning device 4 receives signal S_req_m from control means 3 after step S1 shown in FIG. 14, learning device 4 outputs packet length m to control means 3 (see step S35) in step S2 shown in FIG. When the signal S_req_CH is received from the control means 3 after step S3 shown in FIG. 14, the selected channel is output to the control means 3 in step S2 shown in FIG. 14 (see step S28).

図15および図16に示すフローチャートによれば、学習器4は、1-εの確率で最大の平均報酬Vt+1が得られるときのチャネルを候補チャネルから選択し(ステップS26参照)、εの確率でランダムにチャネルを候補チャネルから選択する(ステップS27参照)。そして、最大の平均報酬Vt+1が得られるときのチャネルを選択するかランダムにチャネルを選択するかは、発生させる乱数pによって決定される(ステップS23,S24参照)。 According to the flow charts shown in FIGS. 15 and 16, the learning device 4 selects from the candidate channels the channel when the maximum average reward V t+1 is obtained with a probability of 1−ε (see step S26), and the probability of ε randomly select a channel from the candidate channels (see step S27). Then, it is determined by the generated random number p whether to select the channel when the maximum average reward Vt +1 is obtained or to select the channel at random (see steps S23 and S24).

従って、1-εの確率で最大の平均報酬Vt+1が得られるときのチャネルを選択してパケットを送信でき、εの確率でランダムにチャネルを選択してパケットを送信できるので、1つのチャネルを継続して用いてパケットを送信する場合に比べて他の端末装置による無線通信との衝突を回避してパケットの送信に成功する確率を高くできる。その結果、端末装置10は、他の端末装置と共存して無線通信を行うことができる。 Therefore, a packet can be transmitted by selecting a channel when the maximum average reward V t+1 is obtained with a probability of 1-ε, and a channel can be randomly selected and transmitted with a probability of ε. It is possible to avoid collisions with wireless communication by other terminal devices and increase the probability of successful packet transmission, compared to the case where packets are transmitted by continuous use. As a result, the terminal device 10 can coexist with other terminal devices and perform wireless communication.

また、図15および図16に示すフローチャートによれば、学習器4は、対応表TBL1において、観測期間Lにおける選択チャネルの状態Sに対応する平均報酬の複数の欄の少なくとも1つの欄に平均報酬Vt+1が格納されていれば、1-εの確率で最大の平均報酬Vt+1が得られるときのパケット長mを選択する(ステップS35の“YES”,ステップS36参照)。 Further, according to the flowcharts shown in FIGS. 15 and 16, the learning device 4 adds the average reward If V t+1 is stored, select the packet length m when the maximum average reward V t+1 is obtained with a probability of 1−ε (“YES” in step S35, see step S36).

最大の平均報酬Vt+1が得られるので、選択されたパケット長mでパケットの送信に成功していることになり、学習を継続することによって、観測期間Lにおける選択チャネルの状態“00”,“01”,“10”,“11”のそれぞれに対してパケットの送信に成功するパケット長mが決定されることになる。従って、観測期間Lにおける選択チャネルの状態“00”,“01”,“10”,“11”に応じてパケット長mを変えることによってパケットの送信に成功する確率を高くできる。 Since the maximum average reward V t+1 is obtained, it means that the packet has been successfully transmitted with the selected packet length m. 01", "10", and "11", the packet length m for successful packet transmission is determined. Therefore, by changing the packet length m according to the states "00", "01", "10" and "11" of the selected channel during the observation period L, the probability of successful packet transmission can be increased.

そして、観測期間Lにおける選択チャネルの状態Sに対して、最大の平均報酬Vt+1が得られるときのパケット長mを選択することは、観測期間Lにおける選択チャネルの状態Sに適合したパケット長mを選択することに相当する。 Then, for the state S of the selected channel in the observation period L, selecting the packet length m when the maximum average reward V t+1 is obtained means that the packet length m is equivalent to selecting

この場合、例えば、観測期間Lにおける選択チャネルの状態S(=“00”)に対して、第1の長さのパケット長mが選択され、観測期間Lにおける選択チャネルの状態S(=“01”)に対して、第1の長さよりも長い第2のパケット長mが選択され、観測期間Lにおける選択チャネルの状態S(=“10”)に対して、第1の長さよりも短い第3のパケット長mが選択され、観測期間Lにおける選択チャネルの状態S(=“11”)に対して、第2の長さよりも長い第4のパケット長mが選択される(m<m<m<m)。 In this case, for example, the packet length m1 of the first length is selected for the state S (="00") of the selected channel in the observation period L, and the state S (="00") of the selected channel in the observation period L 01"), a second packet length m2 longer than the first length is selected, and for the selected channel state S (="10") in the observation period L, A short third packet length m3 is selected, and for the selected channel state S (="11") in the observation period L, a fourth packet length m4 longer than the second length is selected ( m 3 < m 1 < m 2 < m 4 ).

そして、最大の平均報酬Vt+1が得られているので、パケット長m~mのいずれか1つのパケット長でパケットを送信した場合、パケットの送信に成功し、かつ、パケット長mに比例し、空き期間Nに反比例する即時報酬Rが得られ、その結果、平均報酬Vt+1が大きくなる。 Then, since the maximum average reward V t+1 is obtained, when the packet is transmitted with any one of the packet lengths m 1 to m 4 , the packet is successfully transmitted, and the packet is proportional to the packet length m , resulting in an immediate reward R that is inversely proportional to the idle period N, resulting in a larger average reward V t+1 .

この場合、パケットの送信完了後の空き期間Nが短くなれば、空き期間Nを観測する期間において他の端末装置による無線通信が行われていることを意味するので、端末装置10は、他の端末装置と共存して無線通信を行うことができる。 In this case, if the vacant period N after the completion of packet transmission becomes shorter, it means that wireless communication is being performed by another terminal device during the period during which the vacant period N is observed. Wireless communication can be performed while coexisting with the terminal device.

また、図15および図16に示すフローチャートに従って学習を繰り返すことによって、観測期間Lにおける選択チャネルの状態“00”,“01”,“10”,“11”と、観測期間Lが経過した後のアイドル状態の長さとの間に、一定の傾向が存在することを見出すことができる。 Further, by repeating learning according to the flowcharts shown in FIGS. It can be seen that there is a certain trend between the length of idle state.

上記においては、観測期間Lは、2個のスロットSLであるとして、観測期間Lにおけるチャネルの状態Sを“00”,“01”,“10”,“11”によって表したが、この発明の実施の形態においては、これに限らず、観測期間Lは、3個のスロットSLであるとして、観測期間Lにおけるチャネルの状態Sを“000”,“001”,“010”,“011”,“100”,“101”,“110”,“111”によって表してもよく、観測期間Lは、4個のスロットSL以上であるとして、観測期間Lにおけるチャネルの状態Sを4ビット以上で表してもよい。 In the above description, the observation period L is two slots SL, and the channel state S in the observation period L is represented by "00", "01", "10", and "11". In the embodiment, not limited to this, the observation period L is assumed to be three slots SL, and the channel state S in the observation period L is represented by "000", "001", "010", "011", It may be represented by "100", "101", "110", "111", and assuming that the observation period L is four slots SL or more, the channel state S in the observation period L is represented by 4 bits or more. may

そして、観測期間Lが長い方が、観測期間Lにおけるチャネルの状態Sと空いているスロットSLとの相関関係が得られ易くなり、観測期間Lにおけるチャネルの状態Sに対して最適なパケット長mを選択し易くできる。 The longer the observation period L, the easier it is to obtain the correlation between the channel state S in the observation period L and the vacant slots SL. can be easily selected.

また、上記においては、スロットSL単位でパケットを送信すると説明したが、この発明の実施の形態においては、これに限らず、スロットSL単位でパケットを送信しなくてもよい。 Also, in the above description, packets are transmitted in units of slot SL, but in the embodiment of the present invention, it is not limited to this, and packets may not be transmitted in units of slot SL.

図17は、パケット長mの異なる決定方法を説明するための図である。図17を参照して、制御手段3は、アプリケーション6から送信データを受ける。そして、例えば、観測期間Lの長さを200μsとし、上述した方法によって、10μs毎にビジー状態であるかアイドル状態であるかを判定して観測期間Lにおける各チャネルの状態Sを20ビットで表現する。また、選択可能なパケット長mとして、例えば、10μs、20μs、30μs、・・・、100μsを設定しておく。そして、候補チャネルと、観測期間Lにおける各チャネルの状態Sと、選択可能なパケット長1~Mとを相互に対応付けて対応表TBL1と同じ構成の対応表を作成する。 FIG. 17 is a diagram for explaining different methods of determining the packet length m. Referring to FIG. 17, control means 3 receives transmission data from application 6 . Then, for example, the length of the observation period L is 200 μs, and the state S of each channel in the observation period L is represented by 20 bits by determining whether it is in a busy state or an idle state every 10 μs by the method described above. do. Also, as the selectable packet length m, for example, 10 μs, 20 μs, 30 μs, . . . , 100 μs are set. Then, the candidate channels, the state S of each channel in the observation period L, and the selectable packet lengths 1 to M are associated with each other to create a correspondence table having the same structure as the correspondence table TBL1.

観測期間Lにおける選択チャネルの状態Sに対して、10μsのパケット長を選択する場合、制御手段3は、送信データから10μsの長さを有する送信データD1を検出してパケットを生成する。また、制御手段3は、次のタイミングで20μsのパケット長を有するパケットを送信する場合、送信データD1に続く部分から20μsの長さを有する送信データD2を検出してパケットを生成する。更に、制御手段3は、次のタイミングで30μsのパケット長を有するパケットを送信する場合、送信データD2に続く部分から30μsの長さを有する送信データD3を検出してパケットを生成する。制御手段3は、以下、同様にして、選択されたパケット長mに適合する長さ有する送信データを検出してパケットを生成する。 When selecting a packet length of 10 μs for the state S of the selected channel during the observation period L, the control means 3 detects transmission data D1 having a length of 10 μs from the transmission data and generates a packet. Further, when transmitting a packet having a packet length of 20 μs at the next timing, the control means 3 detects transmission data D2 having a length of 20 μs from a portion following transmission data D1 and generates a packet. Furthermore, when transmitting a packet having a packet length of 30 μs at the next timing, the control means 3 detects transmission data D3 having a length of 30 μs from the portion following transmission data D2 and generates a packet. Thereafter, the control means 3 similarly detects transmission data having a length matching the selected packet length m and generates a packet.

スロットSL単位を用いない場合、即時報酬Rを算出するときの空き期間Nは、10μs単位でビジー状態であるかアイドル状態であるかを判定して検出される。そして、空き期間Nが零(=0)である場合にも即時報酬Rを算出できるようにするために、所定の時間長(例えば、10μsの時間長)を加算し、その加算結果の逆数にパケット長mを乗算した乗算結果を即時報酬として算出する。 When the slot SL unit is not used, the idle period N when calculating the immediate reward Rt is detected by determining whether it is in a busy state or an idle state in units of 10 μs. Then, in order to be able to calculate the immediate reward Rt even when the idle period N is zero (=0), a predetermined time length (for example, a time length of 10 μs) is added, and the reciprocal of the addition result is is multiplied by the packet length m to calculate the immediate reward.

なお、端末装置10の動作は、ソフトウェアによって実現されてもよい。この場合、端末装置10は、CPU(Central Processing Unit)、ROM(Read Only Memory)およびRAM(Random Access Memory)を備える。そして、ROMは、図14に示すフローチャート(図15および図16に示すフローチャートを含む)の各ステップからなるプログラムProg_Aを記憶する。 Note that the operation of the terminal device 10 may be realized by software. In this case, the terminal device 10 includes a CPU (Central Processing Unit), a ROM (Read Only Memory) and a RAM (Random Access Memory). The ROM stores a program Prog_A consisting of steps of the flowchart shown in FIG. 14 (including the flowcharts shown in FIGS. 15 and 16).

CPUは、ROMからプログラムProg_Aを読み出し、その読み出したプログラムProg_Aを実行し、観測期間Lにおける選択チャネルの状態Sに適合するパケット長mを選択してパケットを送信する。RAMは、算出された即時報酬R等を一時的に記憶する。 The CPU reads the program Prog_A from the ROM, executes the read program Prog_A, selects a packet length m suitable for the state S of the selected channel during the observation period L, and transmits the packet. The RAM temporarily stores the calculated immediate reward R and the like.

また、プログラムProg_Aは、CD,DVD等の記録媒体に記録されて流通してもよい。プログラムProg_Aを記録した記録媒体がコンピュータに装着されると、コンピュータは、記録媒体からプログラムProg_Aを読み出して実行し、観測期間Lにおける選択チャネルの状態Sに適合するパケット長mを選択してパケットを送信する。 Also, the program Prog_A may be recorded on a recording medium such as a CD or DVD and distributed. When the recording medium recording the program Prog_A is loaded into the computer, the computer reads the program Prog_A from the recording medium, executes it, selects the packet length m suitable for the state S of the selected channel during the observation period L, and transmits the packet. Send.

従って、プログラムProg_Aを記録した記録媒体は、コンピュータ読み取り可能な記録媒体である。 Therefore, the recording medium recording the program Prog_A is a computer-readable recording medium.

上述した実施の形態によれば、この発明の実施の形態による端末装置は、
第1の動作期間において、パケットを送信するチャネルである送信用チャネルを用いてパケットを送信する通信手段と、
通信手段によってパケットが送信される毎に、第1の動作期間において、パケットが送信されたときの通信結果を検出するとともにパケットの送信後の無線通信の空き期間を検出する第1の検出手段と、
送信用チャネルを受ける毎に、第1の動作期間において、他の端末装置による無線通信の有無を観測する期間である観測期間における送信用チャネルの状態を検出する第2の検出手段と、
第1の動作期間において検出された通信結果、空き期間、および観測期間における送信用チャネルの状態と、パケットの送信に用いるチャネルの候補である候補チャネルとを受け付け、通信結果および空き期間に基づいて、第1の動作期間においてパケットが送信用チャネルで送信されたときに得られる報酬である即時報酬を算出する第1の処理と、観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数によって1つの送信用チャネルにおける即時報酬の累積値を平均した報酬であり、かつ、第1の動作期間の後の動作期間である第2の動作期間における報酬である平均報酬を第1の処理において算出された即時報酬を用いて算出する第2の処理と、候補チャネルと観測期間における送信用チャネルの状態とパケットのパケット長と平均報酬とを対応付けた対応表を作成または更新し、その作成または更新した対応表に基づいて最大の平均報酬が得られるときのチャネルを所定の確率で送信用チャネルとして選択するとともに観測期間における送信用チャネルの状態に応じて最大の平均報酬が得られるときのパケット長を所定の確率で選択し、その選択した送信用チャネルおよびパケット長を出力する第3の処理とを観測期間における送信用チャネルの状態、通信結果および空き期間を受け付ける毎に実行する学習器とを備え、
通信手段は、更に、第3の処理において選択された送信用チャネルおよびパケット長を学習器から受ける毎に、第2の動作期間において、その受けた送信用チャネルが空いているとき、学習器から受けたパケット長を有するパケットを送信するものであればよい。
According to the above-described embodiments, the terminal device according to the embodiments of the present invention is
communication means for transmitting packets using a transmission channel, which is a channel for transmitting packets, during the first operation period;
a first detection means for detecting, in a first operation period, a communication result when the packet is transmitted and an idle period of wireless communication after the packet is transmitted, each time the packet is transmitted by the communication means; ,
a second detection means for detecting the state of the transmission channel in an observation period, which is a period for observing the presence or absence of wireless communication by other terminal devices, each time the transmission channel is received;
Accepting the communication result detected in the first operation period, the idle period, the state of the transmission channel in the observation period, and the candidate channel that is a candidate for the channel used for packet transmission, and based on the communication result and the idle period , a first process of calculating an immediate reward, which is a reward obtained when a packet is transmitted in the transmission channel during the first operation period, and one packet length corresponding to the state of the transmission channel during the observation period. The average reward that is the reward obtained by averaging the cumulative value of the immediate reward in one transmission channel by the selected number of times and the reward in the second operation period that is the operation period after the first operation period is the first Creates or updates a correspondence table that associates the second process calculated using the immediate reward calculated in the process of 1, the candidate channel, the state of the transmission channel in the observation period, the packet length of the packet, and the average reward. , based on the created or updated correspondence table, selects a channel for transmission with a predetermined probability as a channel for obtaining the maximum average reward, and obtains the maximum average reward according to the state of the transmission channel during the observation period. A third process of selecting the packet length when the packet is available with a predetermined probability and outputting the selected transmission channel and packet length is executed each time the state of the transmission channel, the communication result, and the idle period in the observation period are received. and a learner that
Further, each time the communication means receives from the learning device the transmission channel and the packet length selected in the third processing, during the second operation period, when the received transmission channel is free, from the learning device Any device that transmits a packet having the received packet length may be used.

端末装置は、このような構成を備えていれば、観測期間における送信用チャネルの状態に適合したパケット長を選択し、観測期間が経過した後に、観測期間における送信用チャネルの状態に適合したパケット長でパケットを送信できるとともに、他の端末装置による無線通信も可能になり、他の端末装置と共存して無線通信を行うことができるからである。 If the terminal device has such a configuration, it selects a packet length suitable for the state of the transmission channel during the observation period, and after the observation period has passed, transmits a packet suitable for the state of the transmission channel during the observation period. This is because it is possible to transmit packets in a long packet, and wireless communication by other terminal devices is also possible, so that wireless communication can be performed while coexisting with other terminal devices.

また、この発明の実施の形態によるプログラムは、
通信手段が、第1の動作期間において、パケットを送信するチャネルである送信用チャネルを用いてパケットを送信する第1のステップと、
第1の検出手段が、第1のステップにおいてパケットが送信される毎に、第1の動作期間において、パケットが送信されたときの通信結果を検出するとともにパケットの送信後の無線通信の空き期間を検出する第2のステップと、
第2の検出手段が、送信用チャネルを受ける毎に、第1の動作期間において、他の端末装置による無線通信の有無を観測する期間である観測期間における送信用チャネルの状態を検出する第3のステップと、
学習器が、第1の動作期間において検出された通信結果、空き期間、および観測期間における前記送信用チャネルの状態と、パケットの送信に用いるチャネルの候補である候補チャネルとを受け付け、通信結果および空き期間に基づいて、第1の動作期間においてパケットが送信用チャネルで送信されたときに得られる報酬である即時報酬を算出する第1の処理と、観測期間における送信用チャネルの状態に対応する1つのパケット長を選択した回数によって1つの送信用チャネルにおける即時報酬の累積値を平均した報酬であり、かつ、第1の動作期間の後の動作期間である第2の動作期間における報酬である平均報酬を第1の処理において算出された即時報酬を用いて算出する第2の処理と、候補チャネルと観測期間における送信用チャネルの状態とパケットのパケット長と平均報酬とを対応付けた対応表を作成または更新し、その作成または更新した対応表に基づいて最大の平均報酬が得られるときのチャネルを所定の確率で送信用チャネルとして選択するとともに観測期間における送信用チャネルの状態に応じて最大の平均報酬が得られるときのパケット長を所定の確率で選択し、その選択した送信用チャネルおよびパケット長を出力する第3の処理とを観測期間における送信用チャネルの状態、通信結果および空き期間を受け付ける毎に実行する第4のステップとをコンピュータに実行させ、
通信手段は、第1のステップにおいて、更に、第3の処理において選択された送信用チャネルおよびパケット長を学習器から受ける毎に、第2の動作期間において、その受けた送信用チャネルが空いているとき、学習器から受けたパケット長を有するパケットを送信するものであればよい。
Also, the program according to the embodiment of the present invention is
a first step in which the communication means transmits packets using a transmission channel, which is a channel for transmitting packets, during a first operation period;
The first detection means detects, in the first operation period, the communication result at the time the packet is transmitted each time the packet is transmitted in the first step, and the idle period of wireless communication after the packet is transmitted. a second step of detecting
A third detection means for detecting the state of the transmission channel in an observation period, which is a period for observing the presence or absence of wireless communication by other terminal devices, in the first operation period each time the second detection means receives the transmission channel. a step of
A learning device receives the communication result detected in the first operation period, the idle period, the state of the transmission channel in the observation period, and candidate channels that are candidates for channels used for packet transmission, and receives the communication result and A first process of calculating an immediate reward, which is a reward obtained when a packet is transmitted in the transmission channel during the first operation period, based on the vacant period, and corresponding to the state of the transmission channel during the observation period. It is a reward obtained by averaging the cumulative value of immediate rewards in one transmission channel according to the number of times one packet length is selected, and is a reward in a second operation period that is an operation period after the first operation period. A second process for calculating the average reward using the immediate reward calculated in the first process, and a correspondence table that associates the candidate channel, the state of the transmission channel in the observation period, the packet length of the packet, and the average reward. is created or updated, and based on the created or updated correspondence table, the channel that yields the maximum average reward is selected as the transmission channel with a predetermined probability, and the maximum and a third process of selecting the packet length when the average reward of is obtained with a predetermined probability, and outputting the selected transmission channel and packet length, and the state of the transmission channel, the communication result, and the idle period during the observation period. cause the computer to execute a fourth step that is executed each time the
In the first step, the communication means further receives the transmission channel and the packet length selected in the third process from the learner, during the second operation period, when the received transmission channel becomes available. It is sufficient if the packet having the packet length received from the learner is transmitted when the learning device is on.

プログラムが第1のステップから第4のステップをコンピュータに実行させると、観測期間における送信用チャネルの状態に適合したパケット長が選択され、観測期間が経過した後に、観測期間における送信用チャネルの状態に適合したパケット長でパケットを送信できるとともに、他の端末装置による無線通信も可能になり、他の端末装置と共存して無線通信を行うことができるからである。 When the program causes the computer to execute the first to fourth steps, a packet length suitable for the state of the transmission channel during the observation period is selected, and after the observation period has passed, the state of the transmission channel during the observation period is selected. This is because a packet can be transmitted with a packet length suitable for , wireless communication by another terminal device is also possible, and wireless communication can be performed while coexisting with the other terminal device.

この発明の実施の形態においては、候補チャネルから選択された選択チャネルCH_Selectは、「送信用チャネル」を構成する。 In this embodiment of the invention, the selected channel CH_Select selected from the candidate channels constitutes a "channel for transmission".

また、この発明の実施の形態においては、受信電力スペクトルPW_carrier_Lを検出するとともにACKパケットを受信する受信手段2と、受信電力スペクトルPW_chnに基づいて空き期間Nを検出する制御手段3とは、「第1の検出手段」を構成する。 Further, in the embodiment of the present invention, the receiving means 2 that detects the received power spectrum PW_carrier_L and receives an ACK packet, and the control means 3 that detects the idle period N based on the received power spectrum PW_chn 1 detection means”.

更に、この発明の実施の形態においては、受信電力スペクトルPW_carrier_Lを検出する受信手段2と、受信電力スペクトルPW_carrier_Lに基づいて観測期間Lにおける選択チャネルCH_Selectの状態Sを検出する制御手段3とは、「第2の検出手段」を構成する。 Furthermore, in the embodiment of the present invention, the receiving means 2 that detects the received power spectrum PW_carrier_L and the control means 3 that detects the state S of the selected channel CH_Select in the observation period L based on the received power spectrum PW_carrier_L are: constitute a second detecting means.

更に、この発明の実施の形態においては、パケットを送信手段5へ出力する制御手段3と、パケットを送信する送信手段5とは、「通信手段」を構成する。 Furthermore, in the embodiment of the present invention, the control means 3 for outputting packets to the transmission means 5 and the transmission means 5 for transmitting packets constitute "communication means".

更に、この発明の実施の形態においては、スロットSL単位でパケットが送信される場合において、即時報酬Rを算出するときに空き期間Nに加算される“1”は、1つのスロットSLを意味するので、式(2A)の“N+1”は、実質的に、N個のスロットSLの時間長に1つのスロットSLの時間長を加算することを意味する。また、スロットSL単位でパケットが送信されない場合において、即時報酬Rを算出するとき、所定の時間長(例えば、10μsの時間長)が空き期間N(10μsのアイドル状態の総和からなる)に加算される。その結果、スロットSL単位でパケットが送信される場合、およびスロットSL単位でパケットが送信されない場合の両方において、即時報酬Rを算出するとき、所定の時間長が空き期間Nに加算されることになる。従って、スロットSL単位でパケットが送信される場合において、即時報酬Rを算出するときに空き期間Nに加算される“1”、およびスロットSL単位でパケットが送信されない場合において、即時報酬Rを算出するときに空き期間Nに加算される所定の時間長(例えば、10μsの時間長)は、空き期間Nに加算される「所定の期間」を構成する。 Furthermore, in the embodiment of the present invention, when packets are transmitted in slot SL units, "1" added to the idle period N when calculating the immediate reward Rt means one slot SL. Therefore, "N+1" in equation (2A) substantially means adding the time length of one slot SL to the time length of N slots SL. Also, when packets are not transmitted in slot SL units, when calculating the immediate reward Rt , a predetermined length of time (for example, a length of time of 10 μs) is added to the idle period N (consisting of the total idle state of 10 μs). be done. As a result, when calculating the immediate reward Rt , a predetermined length of time is added to the vacant period N both when packets are transmitted in slot SL units and when packets are not transmitted in slot SL units. become. Therefore, when packets are transmitted in slot SL units, "1" is added to the idle period N when calculating the immediate reward Rt , and when packets are not transmitted in slot SL units, the immediate reward Rt A predetermined length of time (for example, a length of 10 μs) added to the vacant period N when calculating constitutes a “predetermined period” added to the vacant period N.

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 It should be considered that the embodiments disclosed this time are illustrative in all respects and not restrictive. The scope of the present invention is indicated by the scope of the claims rather than the description of the above-described embodiments, and is intended to include all modifications within the scope and meaning equivalent to the scope of the claims.

この発明は、端末装置、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体に適用される。 The present invention is applied to a terminal device, a program to be executed by a computer, and a computer-readable recording medium recording the program.

1 アンテナ、2 受信手段、3 制御手段、4 学習器、5 送信手段、6 アプリケーション、10 端末装置、100 通信システム。 REFERENCE SIGNS LIST 1 antenna, 2 receiving means, 3 control means, 4 learning device, 5 transmitting means, 6 application, 10 terminal device, 100 communication system.

Claims (15)

第1の動作期間において、パケットを送信するチャネルである送信用チャネルを用いて前記パケットを送信する通信手段と、
前記通信手段によって前記パケットが送信される毎に、前記第1の動作期間において、前記パケットが送信されたときの通信結果を検出するとともに前記パケットの送信後の無線通信の空き期間を検出する第1の検出手段と、
前記送信用チャネルを受ける毎に、前記第1の動作期間において、他の端末装置による無線通信の有無を観測する期間である観測期間における前記送信用チャネルの状態を検出する第2の検出手段と、
前記第1の動作期間において検出された前記通信結果、前記空き期間、および前記観測期間における前記送信用チャネルの状態と、前記パケットの送信に用いるチャネルの候補である候補チャネルとを受け付け、前記通信結果および前記空き期間に基づいて、前記第1の動作期間において前記パケットが前記送信用チャネルで送信されたときに得られる報酬である即時報酬を算出する第1の処理と、前記観測期間における前記送信用チャネルの状態に対応する1つのパケット長を選択した回数によって1つの前記送信用チャネルにおける前記即時報酬の累積値を平均した報酬であり、かつ、前記第1の動作期間の後の動作期間である第2の動作期間における報酬である平均報酬を前記第1の処理において算出された即時報酬を用いて算出する第2の処理と、前記候補チャネルと前記観測期間における前記送信用チャネルの状態と前記パケットのパケット長と前記平均報酬とを対応付けた対応表を作成または更新し、その作成または更新した対応表に基づいて最大の前記平均報酬が得られるときのチャネルを所定の確率で前記送信用チャネルとして選択するとともに前記観測期間における前記送信用チャネルの状態に応じて最大の前記平均報酬が得られるときの前記パケット長を前記所定の確率で選択し、その選択した送信用チャネルおよびパケット長を出力する第3の処理とを前記観測期間における前記送信用チャネルの状態、前記通信結果および前記空き期間を受け付ける毎に実行する学習器とを備え、
前記通信手段は、更に、前記第3の処理において選択された送信用チャネルおよびパケット長を前記学習器から受ける毎に、前記第2の動作期間において、前記受けた送信用チャネルが空いているとき、前記学習器から受けたパケット長を有するパケットを送信する、端末装置。
communication means for transmitting the packet using a transmission channel, which is a channel for transmitting the packet, during a first operation period;
each time the packet is transmitted by the communication means, in the first operation period, a communication result when the packet is transmitted is detected, and an idle period of wireless communication after transmission of the packet is detected; 1 detection means;
a second detection means for detecting the state of the transmission channel in an observation period, which is a period for observing the presence or absence of wireless communication by other terminal devices, each time the transmission channel is received, in the first operation period; ,
receiving the communication result detected in the first operation period, the state of the transmission channel in the idle period and the observation period, and a candidate channel that is a candidate for the channel to be used in the packet transmission, and performing the communication; a first process of calculating an immediate reward, which is a reward obtained when the packet is transmitted over the transmission channel in the first operation period, based on the result and the idle period; A reward obtained by averaging the cumulative value of the immediate reward in one transmission channel according to the number of times one packet length corresponding to the state of the transmission channel is selected, and an operation period after the first operation period. using the immediate reward calculated in the first process, and the state of the candidate channel and the transmission channel in the observation period and the packet length of the packet and the average reward are created or updated, and based on the created or updated correspondence table, the channel when the maximum average reward is obtained is selected with a predetermined probability. Selecting the transmission channel and selecting, with the predetermined probability, the packet length when the maximum average reward is obtained according to the state of the transmission channel during the observation period, and selecting the selected transmission channel and packet a third process for outputting a length, and a learning device that executes each time the state of the transmission channel in the observation period, the communication result, and the idle period are received,
Each time the communication means receives the transmission channel and packet length selected in the third process from the learning device, during the second operation period, when the received transmission channel is available , a terminal device that transmits a packet having a packet length received from the learner.
前記学習器は、前記第1の処理において、前記通信結果が前記パケットの送信の失敗であるとき、前記即時報酬を零と算出し、前記通信結果が前記パケットの送信の成功であるとき、前記空き期間に所定の期間を加算した加算結果の逆数を前記即時報酬として算出する、請求項1に記載の端末装置。 In the first processing, the learning device calculates the immediate reward as zero when the communication result is a failure of transmission of the packet, and when the communication result is a success of transmission of the packet, the 2. The terminal device according to claim 1, wherein a reciprocal of an addition result obtained by adding a predetermined period to an idle period is calculated as the immediate reward. 前記学習器は、前記第2の処理において、前記第1の動作期間における即時報酬と前記第1の動作期間における平均報酬と前記観測期間における前記送信用チャネルの状態に対応する1つのパケット長を選択した回数とに基づいて前記第2の動作期間における平均報酬を算出して前記平均報酬を更新する、請求項1または請求項2に記載の端末装置。 In the second processing, the learning device calculates one packet length corresponding to the immediate reward in the first operation period, the average reward in the first operation period, and the state of the transmission channel in the observation period. 3. The terminal device according to claim 1, wherein an average reward in said second operation period is calculated based on the number of times selected and said average reward is updated. 前記学習器は、前記第2の処理において、前記第1の動作期間における即時報酬をRとし、前記第1の動作期間における平均報酬をVとし、前記第2の動作期間における平均報酬をVt+1とし、前記観測期間における前記送信用チャネルの状態に対応する1つのパケット長を選択した回数をn(nは、1以上の整数である。)としたとき、以下の式(1)によって平均報酬Vt+1を算出することによって前記平均報酬を更新する、請求項3に記載の端末装置。
t+1=V+(R-V)/n・・・(1)
In the second processing, the learning device sets the immediate reward in the first action period to Rt , the average reward in the first action period to Vt , and the average reward in the second action period to Let V t+1 and let n be the number of times one packet length is selected corresponding to the state of the transmission channel during the observation period (n is an integer equal to or greater than 1). 4. A terminal according to claim 3, wherein said average reward is updated by calculating an average reward Vt +1 .
V t+1 =V t +(R t −V t )/n (1)
前記学習器は、前記第3の処理において、確率(1-ε)(εは、1~0の範囲の実数である。)で前記第2の動作期間における平均報酬が最大であるチャネルを前記候補チャネルから前記送信用チャネルとして選択し、確率εで任意のチャネルを前記候補チャネルから前記送信用チャネルとして選択する、請求項3または請求項4に記載の端末装置。 In the third processing, the learning device selects the channel having the maximum average reward in the second operation period with probability (1−ε) (ε is a real number in the range of 1 to 0). 5. The terminal apparatus according to claim 3, wherein the terminal apparatus selects from candidate channels as said transmission channel, and selects an arbitrary channel from said candidate channels as said transmission channel with probability ?. 前記学習器は、前記第3の処理において、前記観測期間における前記送信用チャネルの状態に対して前記第2の動作期間における平均報酬が最大であるパケット長を選択する、請求項3から請求項5のいずれか1項に記載の端末装置。 3 to 4, wherein in the third processing, the learning device selects a packet length that maximizes the average reward in the second operation period with respect to the state of the transmission channel in the observation period. 6. The terminal device according to any one of 5. 前記パケットの送信が成功した確率である送信成功率がしきい値以下であるとき、前記候補チャネルの帯域と異なる帯域のチャネルを新たな候補チャネルとして選択し、その選択した新たな候補チャネルを用いるように前記学習器を制御する制御手段を更に備え、
前記学習器は、前記新たな候補チャネルを用いて前記第1の処理、前記第2の処理および前記第3の処理を前記観測期間における前記送信用チャネルの状態、前記通信結果および前記空き期間を受け付ける毎に実行する、請求項1から請求項6のいずれか1項に記載の端末装置。
when the transmission success rate, which is the probability of successful transmission of the packet, is equal to or less than a threshold, selecting a channel in a band different from the band of the candidate channel as a new candidate channel, and using the selected new candidate channel. further comprising a control means for controlling the learner such that
The learning device performs the first process, the second process, and the third process using the new candidate channel, and obtains the state of the transmission channel, the communication result, and the idle period during the observation period. 7. The terminal device according to any one of claims 1 to 6, which is executed each time it is received.
通信手段が、第1の動作期間において、パケットを送信するチャネルである送信用チャネルを用いて前記パケットを送信する第1のステップと、
第1の検出手段が、前記第1のステップにおいて前記パケットが送信される毎に、前記第1の動作期間において、前記パケットが送信されたときの通信結果を検出するとともに前記パケットの送信後の無線通信の空き期間を検出する第2のステップと、
第2の検出手段が、前記送信用チャネルを受ける毎に、前記第1の動作期間において、他の端末装置による無線通信の有無を観測する期間である観測期間における前記送信用チャネルの状態を検出する第3のステップと、
学習器が、前記第1の動作期間において検出された前記通信結果、前記空き期間、および前記観測期間における前記送信用チャネルの状態と、前記パケットの送信に用いるチャネルの候補である候補チャネルとを受け付け、前記通信結果および前記空き期間に基づいて、前記第1の動作期間において前記パケットが前記送信用チャネルで送信されたときに得られる報酬である即時報酬を算出する第1の処理と、前記観測期間における前記送信用チャネルの状態に対応する1つのパケット長を選択した回数によって1つの前記送信用チャネルにおける前記即時報酬の累積値を平均した報酬であり、かつ、前記第1の動作期間の後の動作期間である第2の動作期間における報酬である平均報酬を前記第1の処理において算出された即時報酬を用いて算出する第2の処理と、前記候補チャネルと前記観測期間における前記送信用チャネルの状態と前記パケットのパケット長と前記平均報酬とを対応付けた対応表を作成または更新し、その作成または更新した対応表に基づいて最大の前記平均報酬が得られるときのチャネルを所定の確率で前記送信用チャネルとして選択するとともに前記観測期間における前記送信用チャネルの状態に応じて最大の前記平均報酬が得られるときの前記パケット長を前記所定の確率で選択し、その選択した送信用チャネルおよびパケット長を出力する第3の処理とを前記観測期間における前記送信用チャネルの状態、前記通信結果および前記空き期間を受け付ける毎に実行する第4のステップとをコンピュータに実行させ、
前記通信手段は、前記第1のステップにおいて、更に、前記第3の処理において選択された送信用チャネルおよびパケット長を前記学習器から受ける毎に、前記第2の動作期間において、前記受けた送信用チャネルが空いているとき、前記学習器から受けたパケット長を有するパケットを送信する、コンピュータに実行させるためのプログラム。
a first step in which the communication means transmits the packet using a transmission channel, which is a channel for transmitting the packet, during a first operation period;
A first detection means detects, in the first operation period, a communication result when the packet is transmitted each time the packet is transmitted in the first step, and after transmission of the packet. a second step of detecting an idle period of wireless communication;
A second detection means detects the state of the transmission channel during an observation period, which is a period for observing the presence or absence of wireless communication by other terminal devices, in the first operation period, each time the transmission channel is received. a third step of
A learning device learns the communication result detected in the first operation period, the state of the transmission channel in the idle period, and the observation period, and a candidate channel that is a candidate for the channel used to transmit the packet. a first process of calculating an immediate reward, which is a reward obtained when the packet is transmitted through the transmission channel in the first operation period, based on the acceptance, the communication result, and the idle period; A reward obtained by averaging the cumulative value of the immediate rewards in one transmission channel by the number of times one packet length corresponding to the state of the transmission channel is selected in the observation period, and in the first operation period a second process of calculating an average reward, which is a reward in a second operation period, which is a later operation period, using the immediate reward calculated in the first process; creating or updating a correspondence table that associates the state of the credit channel, the packet length of the packet, and the average reward, and determining the channel when the maximum average reward is obtained based on the created or updated correspondence table and selecting the packet length when the maximum average reward is obtained according to the state of the transmission channel in the observation period with the predetermined probability, and selecting the selected transmission channel with the probability of causing a computer to execute a third process of outputting a trusted channel and a packet length, and a fourth step of executing each time the state of the transmission channel, the communication result, and the idle period during the observation period are received;
In the first step, the communication means further receives the transmission channel and the packet length selected in the third process from the learner, during the second operation period, the received transmission. A program for executing a computer that transmits a packet having a packet length received from said learner when a trusted channel is free.
前記学習器は、前記第4のステップの前記第1の処理において、前記通信結果が前記パケットの送信の失敗であるとき、前記即時報酬を零と算出し、前記通信結果が前記パケットの送信の成功であるとき、前記空き期間に所定の期間を加算した加算結果の逆数を前記即時報酬として算出する、請求項8に記載のコンピュータに実行させるためのプログラム。 In the first processing of the fourth step, the learning device calculates the immediate reward as zero when the communication result is a failure to transmit the packet, and the communication result is failure to transmit the packet. 9. The program to be executed by a computer according to claim 8, wherein, when successful, a reciprocal of an addition result obtained by adding a predetermined period to said idle period is calculated as said immediate reward. 前記学習器は、前記第4のステップの前記第2の処理において、前記第1の動作期間における即時報酬と前記第1の動作期間における平均報酬と前記観測期間における前記送信用チャネルの状態に対応する1つのパケット長を選択した回数とに基づいて前記第2の動作期間における平均報酬を算出して前記平均報酬を更新する、請求項8または請求項9に記載のコンピュータに実行させるためのプログラム。 In the second processing of the fourth step, the learning device corresponds to the immediate reward in the first operation period, the average reward in the first operation period, and the state of the transmission channel in the observation period. 10. The program to be executed by a computer according to claim 8 or 9, wherein the average reward in the second operation period is calculated based on the number of times one packet length is selected and the average reward is updated. . 前記学習器は、前記第4のステップの前記第2の処理において、前記第1の動作期間における即時報酬をRとし、前記第1の動作期間における平均報酬をVとし、前記第2の動作期間における平均報酬をVt+1とし、前記観測期間における前記送信用チャネルの状態に対応する1つのパケット長を選択した回数をn(nは、1以上の整数である。)としたとき、以下の式(1)によって平均報酬Vt+1を算出することによって前記平均報酬を更新する、請求項10に記載のコンピュータに実行させるためのプログラム。
t+1=V+(R-V)/n・・・(1)
In the second processing of the fourth step, the learner sets the immediate reward in the first action period to R t , the average reward in the first action period to V t , and the second Let V t+1 be the average reward during the operation period, and let n be the number of times one packet length is selected corresponding to the state of the transmission channel during the observation period (n is an integer of 1 or more). 11. The computer-implemented program according to claim 10, wherein said average reward is updated by calculating the average reward Vt +1 according to formula (1) of .
V t+1 =V t +(R t −V t )/n (1)
前記学習器は、前記第4のステップの前記第3の処理において、確率(1-ε)(εは、1~0の範囲の実数である。)で前記第2の動作期間における平均報酬が最大であるチャネルを前記候補チャネルから前記送信用チャネルとして選択し、確率εで任意のチャネルを前記候補チャネルから前記送信用チャネルとして選択する、請求項10または請求項11に記載のコンピュータに実行させるためのプログラム。 In the third processing of the fourth step, the learning device has a probability of (1−ε) (ε is a real number in the range of 1 to 0) that the average reward in the second action period is 12. The computer according to claim 10, wherein the maximum channel is selected as the transmission channel from the candidate channels, and an arbitrary channel is selected from the candidate channels as the transmission channel with probability ε. program for. 前記学習器は、前記第4のステップの前記第3の処理において、前記観測期間における前記送信用チャネルの状態に対して前記第2の動作期間における平均報酬が最大であるパケット長を選択する、請求項10から請求項12のいずれか1項に記載のコンピュータに実行させるためのプログラム。 wherein, in the third processing of the fourth step, the learning device selects a packet length that maximizes the average reward in the second operation period for the state of the transmission channel in the observation period; A program to be executed by the computer according to any one of claims 10 to 12. 制御手段が、前記パケットの送信が成功した確率である送信成功率がしきい値以下であるとき、前記候補チャネルの帯域と異なる帯域のチャネルを新たな候補チャネルとして選択し、その選択した新たな候補チャネルを用いるように前記学習器を制御する第5のステップを更にコンピュータに実行させ、
前記学習器は、前記新たな候補チャネルを用いて前記第1の処理、前記第2の処理および前記第3の処理を前記観測期間における前記送信用チャネルの状態、前記通信結果および前記空き期間を受け付ける毎に実行する、請求項8から請求項13のいずれか1項に記載のコンピュータに実行させるためのプログラム。
The control means selects a channel having a band different from that of the candidate channel as a new candidate channel when the transmission success rate, which is the probability of successful transmission of the packet, is equal to or less than a threshold value, and further causing the computer to perform a fifth step of controlling the learner to use a candidate channel;
The learning device performs the first process, the second process, and the third process using the new candidate channel, and obtains the state of the transmission channel, the communication result, and the idle period during the observation period. 14. The program to be executed by the computer according to any one of claims 8 to 13, which is executed each time it is received.
請求項8から請求項14のいずれか1項に記載されたプログラムを記録したコンピュータ読み取り可能な記録媒体。 A computer-readable recording medium recording the program according to any one of claims 8 to 14.
JP2021052479A 2021-03-25 2021-03-25 A terminal device, a program to be executed by a computer, and a computer-readable recording medium on which the program is recorded. Active JP7370018B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021052479A JP7370018B2 (en) 2021-03-25 2021-03-25 A terminal device, a program to be executed by a computer, and a computer-readable recording medium on which the program is recorded.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021052479A JP7370018B2 (en) 2021-03-25 2021-03-25 A terminal device, a program to be executed by a computer, and a computer-readable recording medium on which the program is recorded.

Publications (2)

Publication Number Publication Date
JP2022150063A true JP2022150063A (en) 2022-10-07
JP7370018B2 JP7370018B2 (en) 2023-10-27

Family

ID=83464668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021052479A Active JP7370018B2 (en) 2021-03-25 2021-03-25 A terminal device, a program to be executed by a computer, and a computer-readable recording medium on which the program is recorded.

Country Status (1)

Country Link
JP (1) JP7370018B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018182405A (en) * 2017-04-05 2018-11-15 株式会社国際電気通信基礎技術研究所 Channel state predicting device, channel state predicting method, radio communication device, and radio communication method
JP2020017938A (en) * 2018-07-13 2020-01-30 日本電信電話株式会社 Wireless communication system and wireless communication method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018182405A (en) * 2017-04-05 2018-11-15 株式会社国際電気通信基礎技術研究所 Channel state predicting device, channel state predicting method, radio communication device, and radio communication method
JP2020017938A (en) * 2018-07-13 2020-01-30 日本電信電話株式会社 Wireless communication system and wireless communication method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
今中 崇詞 TAKASHI IMANAKA: "周波数共用のための多腕バンディットアルゴリズムを用いたチャネル選択手法の検討 Channel Selection Meth", 電子情報通信学会技術研究報告 VOL.120 NO.341 [ONLINE] IEICE TECHNICAL REPORT, vol. 第120巻, JPN6023018026, January 2021 (2021-01-01), JP, ISSN: 0005052639 *

Also Published As

Publication number Publication date
JP7370018B2 (en) 2023-10-27

Similar Documents

Publication Publication Date Title
JP5781658B2 (en) Device, system and method for communicating simultaneously with a group of wireless communication devices
US8724477B2 (en) Communication terminal tranmitting or receiving a signal according to a set timing determined by a maximum or minimum value of a backoff time and control apparatus communication method, computer program and integrated circuit performing the same
EP1261140A2 (en) Interference detection method and interference avoidance system for wireless communication links
CN113453355A (en) Wireless local area network sensing method, network equipment and chip
US11418247B2 (en) High spatial reuse for mmWave Wi-Fi
RU2006123550A (en) WIRELESS TRANSMISSION PLANNING
JP2007214819A (en) Wireless communication device and wireless communication method
KR20190091505A (en) Contention-based Random Access Using Receive Beamforming in Wireless Networks
US10802105B2 (en) Location estimation device
US20130251001A1 (en) Interference Signal Avoiding Device of a Frequency Hopping Spread System and Method Thereof
US20110130101A1 (en) Wireless communication system and method for sharing sensing antenna, sensing receiver, data transceiver antenna, and data transceiver
EP3026967A1 (en) Synchronization signal transmitting device, receiving device, method, and system
KR101579871B1 (en) Bluetooth Low Energy Network having the setting function of scanning period and method for thereof
JP2022150063A (en) Terminal device, program to be executed by computer, and computer-readable recording medium having program recorded therein
US20080019287A1 (en) Device discovery method, network device capable of performing the method, and storage medium thereof
CN112584537B (en) PRACH resource configuration method and device
KR101611536B1 (en) Method of channel setting for establishing system based on cluster
US8050195B2 (en) Traffic performance evaluation system in wireless network and method thereof
JP2003264870A (en) Wireless communication system, mobile wireless communication apparatus and method, fixed wireless communication apparatus and method, recording medium, and program
JP4766158B2 (en) Wireless communication apparatus and wireless communication method
CN102869114B (en) System and method for analyzing throughput performance of common hopping multichannel protocol based on institute of electrical and electronics engineers (IEEE) 802.11 standard
KR101251629B1 (en) Wireless channel setting-up device and channel setting-up method for thereof
JP2006101541A (en) Base station apparatus for wireless communication network, and communication control method for the wireless communication network
JP7341430B2 (en) A terminal device, a program to be executed by a computer, and a computer-readable recording medium on which the program is recorded.
EP2613578B1 (en) Communication system, communication apparatus, communication program, and communication method

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20210406

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220519

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231006

R150 Certificate of patent or registration of utility model

Ref document number: 7370018

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150