JP2021132327A

JP2021132327A - 制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2021132327A
Application number: JP2020027202A
Authority: JP
Inventors: 高至山本; Takashi Yamamoto; 一人矢野; Kazuto Yano
Original assignee: ATR Advanced Telecommunications Research Institute International; Kyoto University NUC
Current assignee: ATR Advanced Telecommunications Research Institute International; Kyoto University NUC
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2021-09-09
Anticipated expiration: 2040-02-20
Also published as: JP7272606B2

Abstract

【課題】フレーム損失の原因特定に資する情報を用いて無線通信におけるスループットを向上させる制御を実行する制御装置を提供する。【解決手段】冗長検査情報は、フレームの損失原因の特定に有益な情報であり、かつ、無線通信を実行することによって観測できない情報である。学習器４は、制御対象のアクセスポイントの冗長検査情報および観測情報と、制御対象外のアクセスポイントの送信スケジュールとを入力情報としてＱ学習を実行し、最大のＱ値、最大のＱ値が得られるときの制御対象外のアクセスポイントの状態および最大のＱ値が得られるときの制御対象のアクセスポイントの行動からなる出力情報ＩＦ＿ＯＵＴを制御手段３へ出力する。制御手段３は、出力情報ＩＦ＿ＯＵＴに基づいてフレームの送信の可否を決定するように制御対象のアクセスポイントを制御する。【選択図】図２

Description

この発明は、制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。

無線通信においては、通信の成否を確認できる一方、フレームが損失した際の原因は、一般に不明である。無線ＬＡＮ（Local Area Network）を例に挙げると、フレーム損失の対策として、原因が低ＳＮＲ（Signal-to-Noise Ratio）であったことを想定して伝送速度を下げる（非特許文献１参照）、もしくは原因が衝突であったと想定して待機時間を長くする（非特許文献２参照）などと言う経験則が用いられている。

しかし、原因が特定できていないために原因に対して必ずしも適切でない対策をとることがある。フレーム損失理由が明確になれば、原因に対して適切な対策をとることができ、原因が不明なまま対策を行った場合に比べて高効率な通信を行うことができると考えられる。

従来、チャネルのアクセス頻度およびフレーム受信成功率などの観測情報に基づき、フレーム損失の原因を低ＳＮＲか、隠れ端末などの原因によるものかを機械学習により分類する手法が提案されている（非特許文献３）。

"Wireless LAN medium access control (MAC) and physical layer (PHY) specifications," IEEE Std. 802.11ac-2013. "Wireless LAN medium access control (MAC) and physical layer (PHY) specifications," IEEE Std. 802.11-1999. I. Syrigos, N. Sakellariou, S. Keranidis, and T. Korakis, "On the employment of machine learning techniques for troubleshooting WiFi networks," Proc. IEEE Consum. Commun. Netw. Conf. (CCNC), pp.1-6, Las Vegas, NV, USA, Feb. 2019.

しかし、非特許文献３における方法は、観測情報のみに基づいているため、観測できない要因によるフレーム損失理由の正確な解析を行うことが困難である。

そこで、この発明の実施の形態によれば、フレーム損失の原因特定に資する情報を用いて無線通信におけるスループットを向上させる制御を実行する制御装置を提供する。

また、この発明の実施の形態によれば、フレーム損失の原因特定に資する情報を用いて無線通信におけるスループットを向上させる制御を実行する制御装置を備える基地局を提供する。

更に、この発明の実施の形態によれば、フレーム損失の原因特定に資する情報を用いて無線通信におけるスループットを向上させる制御をコンピュータに実行させるためのプログラムを提供する。

更に、この発明の実施の形態によれば、フレーム損失の原因特定に資する情報を用いて無線通信におけるスループットを向上させる制御をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。

（構成１）
この発明の実施の形態によれば、制御装置は、基地局と端末装置とを含み、かつ、タイムスロットを用いてフレームを無線通信によって送受信するサービスセットを制御する制御装置であって、収集手段と、学習器と、制御手段とを備える。収集手段は、無線通信によって送信されるフレームの損失原因の特定に有益な情報であり、かつ、無線通信を実行することによって観測できない情報である冗長検査情報と、フレームを送信したときにフレームの送信が失敗したか成功したかを示し、かつ、無線通信を実行することによって観測できる情報である成功／失敗情報からなる観測情報とを無線通信環境に存在する複数のサービスセットのうちの制御対象のサービスセットから収集するとともに、フレームの送信スケジュールを複数のサービスセットのうちの制御対象外のサービスセットから収集する。学習器は、冗長検査情報、観測情報およびフレームの送信スケジュールを入力情報としてＱ学習を実行し、Ｑ学習の終了条件が満たされたときの最大のＱ値、最大のＱ値が得られるときの制御対象外のサービスセットの状態および最大のＱ値が得られるときの制御対象のサービスセットの行動を出力情報として出力する。制御手段は、学習器から出力情報を受け、その受けた出力情報に基づいて制御対象のサービスセットを制御する。そして、冗長検査情報は、Ｑ学習におけるＱテーブルの更新に用いる報酬を算出するための報酬基礎情報を含む。また、学習器は、制御対象外のサービスセットの状態と制御対象のサービスセットの行動とによって構成されるＱテーブルを保持し、制御対象のサービスセットがε-グリーディ法によって次の行動を選択したときの報酬を報酬基礎情報を用いて演算し、その演算した報酬に基づいて、割引率を零としたＱテーブルの更新式を用いてＱテーブルを更新する更新処理を終了条件が満たされるまで繰り返し実行して出力情報を制御手段へ出力する。

（構成２）
構成１において、収集手段は、複数のサービスセットのうちの１つのサービスセットに含まれる制御対象の基地局から冗長検査情報および観測情報を収集するとともに、複数のサービスセットのうちの１つのサービスセット以外のサービスセットの基地局からフレームの送信スケジュールを収集する。学習器は、１つのサービスセットを制御対象のサービスセットとして更新処理を終了条件が満たされるまで繰り返し実行して基地局についての第１の出力情報を制御手段へ出力する。制御手段は、学習器から受けた第１の出力情報に基づいて１つのサービスセットの基地局を制御する。

（構成３）
構成２において、収集手段は、更に、１つのサービスセットに含まれる制御対象の端末装置から冗長検査情報を収集するとともに１つのサービスセットに含まれる基地局から端末装置についての観測情報を収集し、１つのサービスセットに含まれる制御対象外の端末装置からフレームの送信スケジュールを収集する。学習器は、更に、端末装置についての観測情報と、制御対象の端末装置から収集された冗長検査情報と、制御対象外の端末装置から収集されたフレームの送信スケジュールとに基づいて、更新処理を終了条件が満たされるまで繰り返し実行して制御対象の端末装置についての第２の出力情報を制御手段へ出力する。制御手段は、更に、１つのサービスセットの基地局が第２の出力情報に基づいて制御対象の端末装置を制御するように１つのサービスセットの基地局を制御する。

（構成４）
構成１において、収集手段は、複数のサービスセットの複数の基地局から冗長検査情報、観測情報およびフレームの送信スケジュールを収集する。学習器は、冗長検査情報、観測情報およびフレームの送信スケジュールに基づいて、複数のサービスセットのうちの各サービスセットについて更新処理を終了条件が満たされるまで繰り返し実行して複数の出力情報を制御手段へ出力する。制御手段は、学習器から受けた複数の出力情報に基づいて、それぞれ、複数のサービスセットの複数の基地局を制御する。

（構成５）
構成１から構成４のいずれかにおいて、報酬は、制御対象のサービスセットにおいて、１つのタイムスロットにおけるフレームの送信に成功したデータ量である。

（構成６）
構成１から構成５のいずれかにおいて、冗長検査情報は、報酬基礎情報と、終了条件を示す終了条件情報とを含む。

（構成７）
構成６において、冗長検査情報は、送信者と、フレームの送信区間と、送信レートと、フレーム送信タイミングとを含む。学習器は、フレームの送信区間および送信レートを報酬基礎情報として報酬を演算するとともに、更新処理をフレーム送信タイミングが到来するまで繰り返し実行して出力情報を制御手段へ出力する。

（構成８）
また、この発明の実施の形態によれば、基地局は、構成１から構成７のいずれかにおける制御装置を備える。

（構成９）
更に、この発明の実施の形態によれば、プログラムは、基地局と端末装置とを含み、かつ、タイムスロットを用いてフレームを無線通信によって送受信するサービスセットの制御をコンピュータに実行させるためのプログラムであって、
収集手段が、無線通信によって送信されるフレームの損失原因の特定に有益な情報であり、かつ、無線通信を実行することによって観測できない情報である冗長検査情報と、フレームを送信したときにフレームの送信が失敗したか成功したかを示し、かつ、無線通信を実行することによって観測できる情報である成功／失敗情報からなる観測情報とを無線通信環境に存在する複数のサービスセットのうちの制御対象のサービスセットから収集するとともに、フレームの送信スケジュールを複数のサービスセットのうちの制御対象外のサービスセットから収集する第１のステップと、
学習器が、冗長検査情報、観測情報およびフレームの送信スケジュールを入力情報としてＱ学習を実行し、Ｑ学習の終了条件が満たされたときの最大のＱ値、最大のＱ値が得られるときの制御対象外のサービスセットの状態および最大のＱ値が得られるときの制御対象のサービスセットの行動を出力情報として出力する第２のステップと、
制御手段が、学習器から出力情報を受け、その受けた出力情報に基づいて制御対象のサービスセットを制御する第３のステップとをコンピュータに実行させ、
冗長検査情報は、Ｑ学習におけるＱテーブルの更新に用いる報酬を算出するための報酬基礎情報を含み、
学習器は、第２のステップにおいて、制御対象外のサービスセットの状態と制御対象のサービスセットの行動とによって構成されるＱテーブルを保持し、制御対象のサービスセットがε-グリーディ法によって次の行動を選択したときの報酬を報酬基礎情報を用いて演算し、その演算した報酬に基づいて、割引率を零としたＱテーブルの更新式を用いてＱテーブルを更新する更新処理を終了条件が満たされるまで繰り返し実行して出力情報を制御手段へ出力する、コンピュータに実行させるためのプログラムである。

（構成１０）
構成９において、収集手段は、第１のステップにおいて、複数のサービスセットのうちの１つのサービスセットに含まれる制御対象の基地局から冗長検査情報および観測情報を収集するとともに、複数のサービスセットのうちの１つのサービスセット以外のサービスセットの基地局からフレームの送信スケジュールを収集し、
学習器は、第２のステップにおいて、１つのサービスセットを制御対象のサービスセットとして更新処理を終了条件が満たされるまで繰り返し実行して基地局についての第１の出力情報を前記制御手段へ出力し、
制御手段は、第３のステップにおいて、学習器から受けた第１の出力情報に基づいて１つのサービスセットの基地局を制御する。

（構成１１）
構成１０において、収集手段は、第１のステップにおいて、更に、１つのサービスセットに含まれる制御対象の端末装置から冗長検査情報を収集するとともに１つのサービスセットに含まれる基地局から端末装置についての観測情報を収集し、１つのサービスセットに含まれる制御対象外の端末装置からフレームの送信スケジュールを収集し、
学習器は、第２のステップにおいて、更に、端末装置についての観測情報と、制御対象の端末装置から収集された冗長検査情報と、制御対象外の端末装置から収集されたフレームの送信スケジュールとに基づいて、更新処理を終了条件が満たされるまで繰り返し実行して制御対象の端末装置についての第２の出力情報を制御手段へ出力し、
制御手段は、第３のステップにおいて、更に、１つのサービスセットの基地局が第２の出力情報に基づいて制御対象の端末装置を制御するように１つのサービスセットの基地局を制御する。

（構成１２）
構成９において、収集手段は、第１のステップにおいて、複数のサービスセットの複数の基地局から冗長検査情報、観測情報およびフレームの送信スケジュールを収集し、
学習器は、第２のステップにおいて、冗長検査情報、観測情報およびフレームの送信スケジュールに基づいて、複数のサービスセットのうちの各サービスセットについて更新処理を終了条件が満たされるまで繰り返し実行して複数の出力情報を制御手段へ出力し、
制御手段は、第３のステップにおいて、学習器から受けた複数の出力情報に基づいて、それぞれ、複数のサービスセットの複数の基地局を制御する。

（構成１３）
構成９から構成１２のいずれかにおいて、報酬は、制御対象のサービスセットにおいて、１つのタイムスロットにおけるフレームの送信に成功したデータ量である。

（構成１４）
構成９から構成１３のいずれかにおいて、冗長検査情報は、報酬基礎情報と、終了条件を示す終了条件情報とを含む。

（構成１５）
構成１４において、冗長検査情報は、送信者と、フレームの送信区間と、送信レートと、フレーム送信タイミングとを含み、
学習器は、第２のステップにおいて、フレームの送信区間および送信レートを報酬基礎情報として報酬を演算するとともに、更新処理をフレーム送信タイミングが到来するまで繰り返し実行して出力情報を制御手段へ出力する。

（構成１６）
更に、この発明の実施の形態によれば、記録媒体は、構成９から構成１５のいずれかに記載のプログラムを記録したコンピュータ読み取り可能な記録媒体である。

フレーム損失の原因特定に資する情報を用いて無線通信におけるスループットを向上できる。

この発明の実施の形態による通信システムの概略図である。実施の形態１による制御装置の概略図である。冗長検査情報および観測情報の記憶状態を示す概念図である。制御対象外のアクセスポイントの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲの記憶状態を示す概念図である。制御対象外のアクセスポイントの状態を説明するための図である。Ｑテーブルの概念図である。Ｑテーブルの更新方法を説明するための第１の概略図である。Ｑテーブルの更新方法を説明するための第２の概略図である。Ｑテーブルの更新方法を説明するための第３の概略図である。制御対象外のアクセスポイントのフレームの送信スケジュール情報を示す図である。図２に示す制御装置の動作を説明するためのフローチャートである。図１１のステップＳ６の詳細な動作を説明するためのフローチャートである。サービスセットＢＳＳ＿０〜ＢＳＳ＿３の距離関係を示す図である。提案方式と比較方式のシミュレーションの結果を示す図である。各ステップにおける制御対象のアクセスポイントの衝突確率を示す図である。提案方式のＱテーブルを示す図である。比較方式のＱテーブルを示す図である。実施の形態２による制御装置の概略図である。冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭおよび観測情報ＩＦ＿ＯＢＶ＿ＴＭの記憶状態を示す概念図である。制御対象外の端末装置の送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭの記憶状態を示す概念図である。Ｑテーブルの概念図である。図１８に示す制御装置の動作を説明するためのフローチャートである。実施の形態３による制御装置の概略図である。冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶの実施の形態３における記憶状態を示す概念図である。（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲの記憶状態を示す概念図である。図２３に示す制御装置の動作を説明するためのフローチャートである。図１に示す制御装置を備えるアクセスポイントの概略図である。

本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。

図１は、この発明の実施の形態による通信システムの概略図である。図１を参照して、この発明の実施の形態による通信システム１００は、制御装置１０と、ＢＳＳ＿０〜ＢＳＳ＿Ｎ（Ｎは、１，２，３，・・・）とを備える。

ＢＳＳ＿０〜ＢＳＳ＿Ｎの各々は、アクセスポイントＡＰと端末装置ＴＭとからなるＢＳＳ（Basic Service Set）である。以下、ＢＳＳを「サービスセット」と言う。

サービスセットＢＳＳ＿０は、アクセスポイントＡＰ＿０と端末装置ＴＭ＿０とからなる。サービスセットＢＳＳ＿１は、アクセスポイントＡＰ＿１と端末装置ＴＭ＿１とからなる。サービスセットＢＳＳ＿２は、アクセスポイントＡＰ＿２と端末装置ＴＭ＿２とからなる。以下、同様にして、サービスセットＢＳＳ＿Ｎは、アクセスポイントＡＰ＿Ｎと端末装置ＴＭ＿Ｎとからなる。

アクセスポイントＡＰ＿０〜ＡＰ＿Ｎは、それぞれ、タイムスロットを用いて端末装置ＴＭ＿０〜ＴＭ＿Ｎと相互に無線通信を行う。そして、アクセスポイントＡＰ＿０〜ＡＰ＿Ｎのうち、制御対象のアクセスポイントＡＰ＿ＣＴＬは、フレームを端末装置（制御対象のアクセスポイントと同じサービスセットに含まれる端末装置）へ送信し、その後、端末装置（制御対象のアクセスポイントと同じサービスセットに含まれる端末装置）からＡＣＫを受信したか否かにによってフレームの端末装置（制御対象のアクセスポイントと同じサービスセットに含まれる端末装置）への送信が成功したか失敗したかを判定することによってフレームの端末装置（制御対象のアクセスポイントと同じサービスセットに含まれる端末装置）への送信が成功したか失敗したかを示す成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を検出する。この場合、制御対象のアクセスポイントＡＰ＿ＣＴＬは、端末装置（制御対象のアクセスポイントと同じサービスセットに含まれる端末装置）からＡＣＫを受信したとき、フレームの端末装置（制御対象のアクセスポイントと同じサービスセットに含まれる端末装置）への送信が成功したと判定し、端末装置（制御対象のアクセスポイントと同じサービスセットに含まれる端末装置）からＡＣＫを受信しないとき、フレームの端末装置（制御対象のアクセスポイントと同じサービスセットに含まれる端末装置）への送信が失敗したと判定する。

そして、制御対象のアクセスポイントＡＰ＿ＣＴＬは、送信者としての自己のＭＡＣアドレスＡｄｄ＿ＡＰ＿０と、フレームを送信したときの送信レートＴＲ＿ｒａｔｅと、フレームの送信区間（＝フレームの送信に用いたタイムスロットの開始時刻ｔ_{ＳＴＡＲＴ}と終了時刻ｔ_ＥＮＤ）と、次にフレームを送信するタイミングであるフレーム送信タイミングＴＧ＿ＴＲとからなる冗長検査情報ＩＦ＿ＲＣＨＫを生成する。冗長検査情報ＩＦ＿ＲＣＨＫは、無線通信によって送信されるフレームの損失原因の特定に有益な情報であり、かつ、無線通信を実行することによって観測できない情報である。

また、制御対象のアクセスポイントＡＰ＿ＣＴＬは、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}からなる観測情報ＩＦ＿ＯＢＶを生成する。なお、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}は、フレームを送信した後に、ＡＣＫを受信したか否かを検出することによって得られるので、観測情報ＩＦ＿ＯＢＶである。つまり、観測情報ＩＦ＿ＯＢＶは、無線通信を実行することによって観測できる情報である。

そうすると、制御対象のアクセスポイントＡＰ＿ＣＴＬは、冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶを有線ケーブルを介して制御装置１０へ送信する。

アクセスポイントＡＰ＿０〜ＡＰ＿Ｎのうち、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬは、タイムスロットごとのフレームの送信の有無を示す送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを作成する。この場合、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬは、送信スケジュールをランダムに決定する。そして、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬは、有線ケーブルを介して、送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを制御装置１０へ送信する。

なお、図１においては、サービスセットＢＳＳ＿０〜ＢＳＳ＿Ｎの各々は、１つのアクセスポイントＡＰと１つの端末装置ＴＭとからなるように示されているが、この発明の実施の形態においては、これに限らず、サービスセットＢＳＳ＿０〜ＢＳＳ＿Ｎの各々は、１つのアクセスポイントＡＰと複数の端末装置ＴＭとからなっていてもよい。

制御装置１０は、有線ケーブルを介してアクセスポイントＡＰ＿０〜ＡＰ＿Ｎと接続されている。そして、制御装置１０は、有線ケーブルを介して制御対象のアクセスポイントＡＰ＿ＣＴＬから冗長検査情報ＩＦ＿ＲＣＨＫと観測情報ＩＦ＿ＯＢＶとを収集し、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬから送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを収集する。

制御装置１０は、冗長検査情報ＩＦ＿ＲＣＨＫ、観測情報ＩＦ＿ＯＢＶおよび送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲに基づいて、後述する方法によって、強化学習であるＱ学習を実行し、最大のＱ値と、最大のＱ値が得られるときの制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬの状態と、最大のＱ値が得られるときの制御対象のアクセスポイントＡＰ＿ＣＴＬの行動とを取得する。そして、制御装置１０は、Ｑ学習によって得られた最大のＱ値と、最大のＱ値が得られるときの制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬの状態と、最大のＱ値が得られるときの制御対象のアクセスポイントＡＰ＿ＣＴＬの行動とからなる出力情報ＩＦ＿ＯＵＴに基づいてフレームの送信の可否を決定するように制御対象のアクセスポイントＡＰ＿ＣＴＬを制御する。

［実施の形態１］
図２は、実施の形態１による制御装置１０の概略図である。図２を参照して、制御装置１０は、収集手段１と、データベース２と、制御手段３と、学習器４とを備える。

収集手段１は、有線ケーブル５を介して制御対象のアクセスポイントＡＰ＿ＣＴＬから冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶを受信し、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬから送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを受信する。

そして、収集手段１は、その受信した冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶと、送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲとをデータベース２に格納する。

データベース２は、冗長検査情報ＩＦ＿ＲＣＨＫ、観測情報ＩＦ＿ＯＢＶおよび送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを記憶する。

制御手段３は、（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎのうちの１個のアクセスポイントを制御対象のアクセスポイントＡＰ＿ＣＴＬとして選択する。実施の形態１においては、制御手段３は、アクセスポイントＡＰ＿０を制御対象のアクセスポイントＡＰ＿ＣＴＬとして選択するものとする。その結果、Ｎ個のアクセスポイントＡＰ＿１〜ＡＰ＿Ｎは、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬとなる。

制御手段３は、冗長検査情報ＩＦ＿ＲＣＨＫ、観測情報ＩＦ＿ＯＢＶおよび送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲをデータベース２から読み出す。そして、制御手段３は、アクセスポイントＡＰ＿０が制御対象のアクセスポイントＡＰ＿ＣＴＬであることを示す信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿０）を生成する。その後、制御手段３は、信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿０）、冗長検査情報ＩＦ＿ＲＣＨＫ、観測情報ＩＦ＿ＯＢＶおよび送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを学習器４へ出力する。

また、制御手段３は、出力情報ＩＦ＿ＯＵＴを学習器４から受ける。この出力情報ＩＦ＿ＯＵＴは、最大のＱ値と、最大のＱ値が得られるときの制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿Ｎの状態と、最大のＱ値が得られるときの制御対象のアクセスポイントＡＰ＿０の行動とからなる。そして、制御手段３は、出力情報ＩＦ＿ＯＵＴを受けると、その受けた出力情報ＩＦ＿ＯＵＴを有線ケーブル５を介して制御対象のアクセスポイントＡＰ＿０へ出力し、出力情報ＩＦ＿ＯＵＴに基づいて次のフレームの送信時（次に使用するタイムスロット）にフレームの送信の可否を決定するように制御対象のアクセスポイントＡＰ＿０を制御する。

学習器４は、信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿０）、冗長検査情報ＩＦ＿ＲＣＨＫ、観測情報ＩＦ＿ＯＢＶおよび送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを制御手段３から受ける。そして、学習器４は、信号Ｓ＿ＣＴＬ＿ＡＰ（ＡＰ＿０に基づいて、アクセスポイントＡＰ＿０が制御対象のアクセスポイントＡＰ＿ＣＴＬであり、アクセスポイントＡＰ＿１〜ＡＰ＿Ｎが制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬであることを検知する。

そうすると、学習器４は、冗長検査情報ＩＦ＿ＲＣＨＫ、観測情報ＩＦ＿ＯＢＶおよび送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを入力情報として、後述する方法によって、強化学習であるＱ学習を実行し、出力情報ＩＦ＿ＯＵＴを制御手段３へ出力する。

図３は、冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶの記憶状態を示す概念図である。

図３を参照して、冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶは、テーブルＴＢＬ１−１に格納される。テーブルＴＢＬ１−１は、名前と、送信者と、送信区間と、送信レートと、成功／失敗情報と、フレーム送信タイミングとを含む。

名前、送信者、送信区間、送信レート、成功／失敗情報およびフレーム送信タイミングは、相互に対応付けられる。

送信者は、制御対象であるアクセスポイントＡＰ＿０のＭＡＣアドレスＡｄｄ＿ＡＰ＿０からなる。送信区間は、アクセスポイントＡＰ＿０がフレームの送信に用いたタイムスロットの開始時刻および終了時刻［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・からなる。送信レートは、ＴＲ＿ｒａｔｅ＿０＿１，ＴＲ＿ｒａｔｅ＿０＿２，・・・からなる。そして、送信レートＴＲ＿ｒａｔｅ＿０＿１，ＴＲ＿ｒａｔｅ＿０＿２，・・・は、それぞれ、送信区間［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・に対応付けられる。

成功／失敗情報は、“０”または“１”（＝０／１）からなる。“０”は、フレームの送信が失敗したことを表し、“１”は、フレームの送信が成功したことを表す。そして、各成功／失敗情報は、それぞれ、送信区間［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・および送信レートＴＲ＿ｒａｔｅ＿０＿１，ＴＲ＿ｒａｔｅ＿０＿２，・・・に対応付けられる。

フレーム送信タイミングＴＧ＿ＴＲ＿０は、アクセスポイントＡＰ＿０が次にフレームを送信するタイムスロットの開始時刻ｔ_{ＳＴＡＲＴ＿ｎｅｘｔ＿０}からなる。

収集手段１は、アクセスポイントＡＰ＿０から冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶを受信すると、冗長検査情報ＩＦ＿ＲＣＨＫに含まれる送信者、送信区間、送信レートおよびフレーム送信タイミングと、観測情報ＩＦ＿ＯＢＶに含まれる成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}とをデータベース２内のテーブルＴＢＬ１−１に格納する。

図４は、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲの記憶状態を示す概念図である。

図４を参照して、送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲは、テーブルＴＢＬ２−１に格納される。テーブルＴＢＬ２−１は、名前と、送信者と、送信スケジュールとを含む。名前、送信者および送信スケジュールは、相互に対応付けられる。

送信者は、制御対象外であるアクセスポイントＡＰ＿１〜ＡＰ＿ＮのＭＡＣアドレスＡｄｄ＿ＡＰ＿１〜Ａｄｄ＿ＡＰ＿Ｎからなる。

送信スケジュールは、タイムスロットの開始時刻および終了時刻“［ｔ_{ＳＴＡＲＴ＿１＿１}，ｔ_{ＥＮＤ＿１＿１}］，［ｔ_{ＳＴＡＲＴ＿１＿２}，ｔ_{ＥＮＤ＿１＿２}］，・・・”、“［ｔ_{ＳＴＡＲＴ＿２＿１}，ｔ_{ＥＮＤ＿２＿１}］，［ｔ_{ＳＴＡＲＴ＿２＿２}，ｔ_{ＥＮＤ＿２＿２}］，・・・”、“［ｔ_{ＳＴＡＲＴ＿３＿１}，ｔ_{ＥＮＤ＿３＿１}］，［ｔ_{ＳＴＡＲＴ＿３＿２}，ｔ_{ＥＮＤ＿３＿２}］，・・・”、・・・、“［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・”からなる。

送信スケジュール［ｔ_{ＳＴＡＲＴ＿１＿１}，ｔ_{ＥＮＤ＿１＿１}］，［ｔ_{ＳＴＡＲＴ＿１＿２}，ｔ_{ＥＮＤ＿１＿２}］，・・・は、送信者Ａｄｄ＿ＡＰ＿１に対応付けられ、送信スケジュール［ｔ_{ＳＴＡＲＴ＿２＿１}，ｔ_{ＥＮＤ＿２＿１}］，［ｔ_{ＳＴＡＲＴ＿２＿２}，ｔ_{ＥＮＤ＿２＿２}］，・・・は、送信者Ａｄｄ＿ＡＰ＿２に対応付けられ、送信スケジュール［ｔ_{ＳＴＡＲＴ＿３＿１}，ｔ_{ＥＮＤ＿３＿１}］，［ｔ_{ＳＴＡＲＴ＿３＿２}，ｔ_{ＥＮＤ＿３＿２}］，・・・は、送信者Ａｄｄ＿ＡＰ＿３に対応付けられ、以下、同様にして、送信スケジュール［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・は、送信者Ａｄｄ＿ＡＰ＿Ｎに対応付けられる。

学習器４におけるＱ学習について説明する。学習器４は、制御対象のアクセスポイントＡＰ＿０から見た状態・行動・報酬を設計する。

状態は、タイムスロットごとに、制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿Ｎが送信しているか否かによって決定される。そのため、状態集合Ｓは、次式によって定義される。

式（１）において、Ｎは、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬの個数である。また、式（１）におけるＳ_ＡＰ＿ｉ（ｉ＝１，２，・・・，Ｎ）は、アクセスポイントＡＰ＿ｉがそれぞれ通信を行っているかを表す集合である。そして、集合Ｓ_ＡＰ＿ｉは、次式によって表される。

式（２）において、“０”は、通信を行っていない状態を表し、“１”は、通信を行っている状態を表す。

行動は、各タイムスロットごとに送信しない、または１Ｍｂｉｔ／ｓｌｏｔ，２Ｍｂｉｔ／ｓｌｏｔ，３Ｍｂｉｔ／ｓｌｏｔのいずれかの送信レートで送信する、の４通りである。そのため、アクセスポイントＡＰ＿０の行動集合Ａ_０は、次式によって定義される。

式（３）において、“０”は、送信を行わない行動を表し、“１”，“２”，“３”は、それぞれ、１Ｍｂｉｔ／ｓｌｏｔ，２Ｍｂｉｔ／ｓｌｏｔ，３Ｍｂｉｔ／ｓｌｏｔの送信レートで送信を行う行動を表す。

Ｑ学習のＱテーブルの更新式は、次式によって表される。

式（４）において、ｓ_ｔは、ｔ番目のタイムスロットにおける制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿Ｎの状態を表し、ａ_ｔは、ｔ番目のタイムスロットにおける制御対象のアクセスポイントＡＰ＿０の行動を表し、ｒ_ｔ＋１は、（ｔ＋１）番目のタイムスロットにおける報酬を表す。また、αは、学習率であり、γは、割引率である。

この発明の実施の形態においては、状態、行動および報酬の組は、各タイムスロットで完全に独立である。その理由は、全てのアクセスポイントのキューには、常に、パケットが溜まっていると仮定しており、各アクセスポイントが通信を行うか否かで決定される状態および行動は、過去の通信の失敗／成功および／または過去の通信の伝送速度に依存しないからである。また、報酬も、現在のタイムスロットのみに着眼し、そのタイムスロットにおいて送信に成功したデータ量としているため、現在の状態および行動のみに依存する。従って、報酬も、過去には、一切、依存しない。つまり、即時報酬の最大化のみを考えれば、累積報酬も最大化される。よって、式（４）において、累積報酬についてのハイパーパラメータである割引率γを“０”に設定する。その結果、Ｑテーブルの更新式は、次式によって表される。

式（５）は、割引率γが“０”に設定されたＱテーブルの更新式である。

従って、この発明の実施の形態においては、式（５）を用いて各タイムスロットごとにＱテーブルの更新を行う。

図５は、制御対象外のアクセスポイントの状態を説明するための図である。図５を参照して、時刻ｔ１〜ｔ２のタイムスロットＳｌｏｔ＿１においては、制御対象外のアクセスポイントＡＰ＿１が送信を行っている状態であり、時刻ｔ２〜ｔ３のタイムスロットＳｌｏｔ＿２においては、制御対象外のアクセスポイントＡＰ＿Ｎが送信を行っている状態である。

また、時刻ｔ３〜ｔ４のタイムスロットＳｌｏｔ＿３においては、制御対象外の全てのアクセスポイントＡＰ＿１〜ＡＰ＿Ｎが送信を行っていない状態であり、時刻ｔ４〜ｔ５のタイムスロットＳｌｏｔ＿４においては、制御対象外のアクセスポイントＡＰ＿１，ＡＰ＿Ｎが送信を行っている状態である。

従って、制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿Ｎから収集した送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを参照すれば、各タイムスロットＳｌｏｔにおいて、制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿Ｎの状態（＝０または１）を容易に決定することができる。

制御対象のアクセスポイントＡＰ＿０は、タイムスロットＳｌｏｔ＿１において、制御対象外のアクセスポイントＡＰ＿１がフレームの送信を行っている状態で３Ｍｂｉｔ／ｓｌｏｔの送信レートでフレームを送信し、端末装置ＴＭ＿０からのＡＣＫの有無によってフレームの送信が成功したか失敗したかを示す成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を検出する。そして、制御対象のアクセスポイントＡＰ＿０は、その検出した成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}からなる観測情報ＩＦ＿ＯＢＶを制御装置１０へ送信する。

また、制御対象のアクセスポイントＡＰ＿０は、タイムスロットＳｌｏｔ＿３において、制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿Ｎの全てがフレームの送信を行っていない状態で１Ｍｂｉｔ／ｓｌｏｔの送信レートでフレームを送信し、端末装置ＴＭ＿０からのＡＣＫの有無によってフレームの送信が成功したか失敗したかを示す成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を検出する。そして、制御対象のアクセスポイントＡＰ＿０は、その検出した成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}からなる観測情報ＩＦ＿ＯＢＶを制御装置１０へ送信する。

更に、制御対象のアクセスポイントＡＰ＿０は、タイムスロットＳｌｏｔ＿４において、制御対象外のアクセスポイントＡＰ＿１，ＡＰ＿Ｎがフレームの送信を行っている状態で２Ｍｂｉｔ／ｓｌｏｔの送信レートでフレームを送信し、端末装置ＴＭ＿０からのＡＣＫの有無によってフレームの送信が成功したか失敗したかを示す成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を検出する。そして、制御対象のアクセスポイントＡＰ＿０は、その検出した成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}からなる観測情報ＩＦ＿ＯＢＶを制御装置１０へ送信する。

なお、１Ｍｂｉｔ／ｓｌｏｔの“ｓｌｏｔ”は、１つのタイムスロットの開始時刻ｔ_{ＳＴＡＲＴ}と終了時刻ｔ_ＥＮＤとによって算出される１つのタイムスロットの時間長を意味するので、１Ｍｂｉｔ／ｓｌｏｔの送信レートの単位は、［Ｍｂｉｔ／ｓ］である。２Ｍｂｉｔ／ｓｌｏｔおよび３Ｍｂｉｔ／ｓｌｏｔの送信レートの単位についても同様である。

この発明の実施の形態においては、報酬は、あるタイムスロットにおいて制御対象のアクセスポイントＡＰ＿０が送信に成功したデータ量である。そして、他の通信と衝突することを避けるために他の通信と衝突してしまった場合には、負の報酬（＝−１）を与える。

以下においては、制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿Ｎの個数Ｎを３個に設定して、この発明の実施の形態によるＱ学習の方法について説明する。

図６は、Ｑテーブルの概念図である。制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿３の各々は、通信を行っている状態（＝１）と、通信を行っていない状態（＝０）との２つの状態を取り得るので、制御対象外の３個のアクセスポイントＡＰ＿１〜ＡＰ＿３を３ビットの数値［ｎ１，ｎ２，ｎ３］で表す。例えば、ｎ１は、アクセスポイントＡＰ＿１の状態を表し、ｎ２は、アクセスポイントＡＰ＿２の状態を表し、ｎ３は、アクセスポイントＡＰ＿３の状態を表す。そして、ｎ１，ｎ２，ｎ３の各々は、“０”または“１”からなる。

その結果、制御対象外の３個のアクセスポイントＡＰ＿１〜ＡＰ＿３の取り得る状態ｓ_ｔの数は、図６に示すように［０，０，０］〜［１，１，１］の８個である。

また、制御対象のアクセスポイントＡＰ＿０の行動ａ_ｔは、上述したように、［０，１，２，３］の４個である。

従って、Ｑテーブルは、８行×４列の行列によって表され、３２個のＱ値（＝Ｑ_１，１〜Ｑ_８，４）を含む。

３２個のＱ値（＝Ｑ_１，１〜Ｑ_８，４）の初期値は、“０”である。そして、ｔ番目のタイムスロットにおけるアクセスポイントＡＰ＿１〜ＡＰ＿３が状態ｓ_ｔ（＝［０，０，０］〜［１，１，１］のいずれか）にあり、ｔ番目のタイムスロットにおけるアクセスポイントＡＰ＿０が行動ａ_ｔを取ったとき、ｔ番目のタイムスロットにおけるアクセスポイントＡＰ＿０の通信の送信レート、ｔ番目のタイムスロットにおける送信区間およびｔ番目のタイムスロットにおける通信の成功／失敗情報に基づいて、（ｔ＋１）番目のタイムスロットにおける報酬ｒ_ｔ＋１が算出される。

より具体的には、ｔ番目のタイムスロットにおける通信の成功／失敗情報が“１”からなる場合、報酬ｒ_ｔ＋１＝［送信レート］×［ｔ番目のタイムスロットにおける送信区間（＝ｔ番目のタイムスロットの時間長）］によって算出される。一方、ｔ番目のタイムスロットにおける通信の成功／失敗情報が“０”からなる場合、報酬ｒ_ｔ＋１＝−１となる。

また、学習率αは、予め、０＜α＜１を満たすように所定の値に設定されている。そうすると、ｔ番目のタイムスロットにおける制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿３の状態ｓ_ｔと制御対象のアクセスポイントＡＰ＿０の行動ａ_ｔとに対応するＱ値（＝Ｑ_ｓ，ａ）と、報酬ｒ_ｔ＋１と、学習率αとを式（５）に代入してＱ値（＝Ｑ_ｓ，ａ）を更新する。

そして、ｔ番目のタイムスロットにおけるアクセスポイントＡＰ＿０の行動ａ_ｔを決定する場合、ε−ｇｒｅｅｄｙ法が用いられる。このε−ｇｒｅｅｄｙ法は、ある一定の小さい数ε（例えば、０．３）を決定しておき、発生した乱数がε以下であるとき、行動ａ_ｔをランダムに決定し、発生した乱数がε以下でないとき、行動ａ_ｔをＱ値が最大である行動に決定する方法である。

図７から図９は、それぞれ、Ｑテーブルの更新方法を説明するための第１から第３の概略図である。また、図１０は、制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿３のフレームの送信スケジュール情報を示す図である。

図７を参照して、Ｑ学習の初期状態においては、Ｑテーブルの全てのＱ値（Ｑ_１，１〜Ｑ_８，４）は、“０”である（図７の（ａ）参照）。

そして、学習器４は、データベース２に格納された制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿３の送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲに基づいてアクセスポイントＡＰ＿１〜ＡＰ＿３の状態ｓ_ｔを決定する。

図１０に示すように、制御対象のアクセスポイントＡＰ＿０は、タイムスロットＳｌｏｔ＿５において３Ｍｂｉｔ／ｓｌｏｔの送信レートでフレームを送信し、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}からなる観測情報ＩＦ＿ＯＢＶを制御装置１０へ送信する。そして、制御対象のアクセスポイントＡＰ＿０は、タイムスロットＳｌｏｔ＿ｘの開始時刻にフレーム送信タイミングを有する。

その結果、制御対象のアクセスポイントＡＰ＿０が３Ｍｂｉｔ／ｓｌｏｔの送信レートでフレームを送信した時点からフレーム送信タイミングまでの間にタイムスロットＳｌｏｔ＿６，Ｓｌｏｔ＿７，Ｓｌｏｔ＿８，Ｓｌｏｔ＿９，・・・が存在する。タイムスロットＳｌｏｔ＿６においては、制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿３のうち、アクセスポイントＡＰ＿１のみがフレームの送信を予定しており、タイムスロットＳｌｏｔ＿７においては、制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿３のうち、アクセスポイントＡＰ＿３のみがフレームの送信を予定しており、タイムスロットＳｌｏｔ＿８においては、制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿３の全てがフレームの送信を予定しておらず、タイムスロットＳｌｏｔ＿９においては、制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿３のうち、アクセスポイントＡＰ＿１，ＡＰ＿３がフレームの送信を予定している。

従って、制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿３の送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを参照すれば、制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿３の状態ｓ_ｔとして複数の状態が存在する。

そこで、学習器４は、例えば、アクセスポイントＡＰ＿１〜ＡＰ＿３の状態ｓ_ｔを［１，０，０］に決定したものとする。

学習器４は、アクセスポイントＡＰ＿１〜ＡＰ＿３の状態ｓ_ｔを決定すると、乱数を発生し、その発生した乱数がε以下であるか否かによって上述したようにε−ｇｒｅｅｄｙ法によってアクセスポイントＡＰ＿０の行動ａ_ｔを決定する。この場合、Ｑテーブルの全てのＱ値（Ｑ_１，１〜Ｑ_８，４）が“０”であるので（即ち、最大のＱ値が１つに決定されないので）、学習器４は、乱数がε以下であるか否かに拘わらず、ランダムにアクセスポイントＡＰ＿０の行動ａ_ｔを決定する。そして、学習器４は、例えば、アクセスポイントＡＰ＿０の行動ａ_ｔを“１”（１Ｍｂｉｔ／ｓｌｏｔの送信レートで送信する行動）に決定したものとする。

そうすると、学習器４は、データベース２のテーブルＴＢＬ１−１からアクセスポイントＡＰ＿０がフレームを送信したときの送信区間、送信レートおよび成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を読み出し、その読み出した送信区間、送信レートおよび成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}に基づいて（ｔ＋１（＝２））番目のタイムスロットにおける報酬ｒ_ｔ＋１を算出する。

より具体的には、学習器４は、１Ｍｂｉｔ／ｓｌｏｔの送信レートで送信したときの成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を検出する。即ち、学習器４は、１Ｍｂｉｔ／ｓｌｏｔの送信レートに対応付けられた成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を検出する。この成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}が“１”からなるとき、学習器４は、送信区間からフレームの送信時間長を算出し、その算出したフレームの送信時間長に送信レート（＝１Ｍｂｉｔ／ｓｌｏｔ）を乗算して報酬ｒ_ｔ＋１を算出する。

一方、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}が“０”からなるとき、学習器４は、報酬ｒ_ｔ＋１を“−１”として算出する。

その後、学習器４は、算出した報酬ｒ_ｔ＋１と、予め設定されたαと、ｔ番目のタイムスロットにおけるＱ値（状態［１，０，０］と行動（＝“１”）とに対応する初期状態のＱ値＝Ｑ_ｓ，ａ）とを式（５）に代入してＱ値をＱ値（＝ｑ_２，２）に更新する。この場合、ｔ番目のタイムスロットにおけるＱ値（＝Ｑ_ｓ，ａ）は、“０”であるので（図７の（ａ）参照）、更新されたＱ値（＝Ｑ_２，２）は、実質的には、αｒ_ｔ＋１に等しい。

そうすると、学習器４は、Ｑテーブルにおいて、状態ｓ_ｔ（＝［１，０，０］）と行動ａ_ｔ（＝“１”）とに対応するＱ値（＝Ｑ_２，２＝０）をＱ値（＝ｑ_２，２）に更新する（図７の（ｂ）参照）。

引き続いて、学習器４は、例えば、制御対象外のアクセスポイントＡＰ＿１〜ＡＰ＿３の送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲに基づいて、アクセスポイントＡＰ＿１〜ＡＰ＿３の状態ｓ_ｔを［０，０，１］に決定する。

次に、学習器４は、ε−ｇｒｅｅｄｙ法によってアクセスポイントＡＰ＿０の行動ａ_ｔを決定する。この場合、学習器４は、発生した乱数がε以下であるとき、アクセスポイントＡＰ＿０の行動ａ_ｔをランダムに決定する。学習器４は、例えば、アクセスポイントＡＰ＿０の行動ａ_ｔを“２”（２Ｍｂｉｔ／ｓｌｏｔの送信レートで送信する行動）に決定したものとする。

より具体的には、学習器４は、２Ｍｂｉｔ／ｓｌｏｔの送信レートで送信したときの成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を検出する。即ち、学習器４は、２Ｍｂｉｔ／ｓｌｏｔの送信レートに対応付けられた成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}を検出する。この成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}が“１”からなるとき、学習器４は、送信区間からフレームの送信時間長を算出し、その算出したフレームの送信時間長に送信レート（＝２Ｍｂｉｔ／ｓｌｏｔ）を乗算して報酬ｒ_ｔ＋１を算出する。

その後、学習器４は、算出した報酬ｒ_ｔ＋１と、予め設定されたαと、ｔ番目のタイムスロットにおけるＱ値（状態［０，０，１］と行動（＝“２”）とに対応する初期状態のＱ値＝Ｑ_ｓ，ａとを式（５）に代入してＱ値＝Ｑ_ｓ，ａをＱ値（＝ｑ_４，３）に更新する。

そうすると、学習器４は、Ｑテーブルにおいて、状態［０，０，１］と行動（＝“２”）とに対応するＱ値（＝Ｑ_４，３＝０）をＱ値（＝ｑ_４，３）に更新する（図８の（ａ）参照）。

一方、学習器４は、発生した乱数がε以下でないとき、アクセスポイントＡＰ＿０の行動ａ_ｔをＱ値が最大である行動に決定する。この時点では、Ｑテーブルは、図７の（ｂ）に示す状態になっているので、最大のＱ値は、ｑ_２，２になる。従って、学習器４は、アクセスポイントＡＰ＿０の行動を“１”（１Ｍｂｉｔ／ｓｌｏｔの送信レートで送信する行動）に決定する。

そして、学習器４は、アクセスポイントＡＰ＿０が行動“１”（１Ｍｂｉｔ／ｓｌｏｔの送信レートで送信する行動）を実行したときの報酬ｒ_ｔ＋１を上述した方法によって算出し、その算出した報酬ｒ_ｔ＋１を用いて式（５）によってＱ値（＝ｑ_２，２）をＱ値（＝ｑ’_２，２）に更新する（図８の（ｂ）参照）。

以後、学習器４は、終了条件が満たされるまで、上述した動作を繰り返し実行してＱテーブルのＱ値を更新する。なお、終了条件は、例えば、上述したＱ値の更新が所定回数実行されたときである。

そして、終了条件が満たされた時、Ｑテーブルは、例えば、図９に示すＱテーブルに更新されている。

学習器４は、終了条件が満たされると、終了条件が満たされたときのＱテーブル（図９参照）を参照して、Ｑ値（ｑ_１，４，ｑ_２，２，ｑ_３，１，ｑ_４，３，ｑ_５，２，ｑ_６，３，ｑ_７，２，ｑ_８，１）のうちの最大のＱ値と、最大のＱ値が得られるときのアクセスポイントＡＰ＿１〜ＡＰ＿３の状態ｓ_ｔと、最大のＱ値が得られるときのアクセスポイントＡＰ＿０の行動ａ_ｔとを検出し、その検出した最大のＱ値、最大のＱ値が得られるときのアクセスポイントＡＰ＿１〜ＡＰ＿３の状態ｓ_ｔ、および最大のＱ値が得られるときのアクセスポイントＡＰ＿０の行動ａ_ｔからなる出力情報ＩＦ＿ＯＵＴを制御手段３へ出力する。

図１１は、図２に示す制御装置１０の動作を説明するためのフローチャートである。図１１を参照して、制御装置１０の動作が開始されると、収集手段１は、有線ケーブル５を介して、制御対象のアクセスポイントＡＰ＿ＣＴＬから冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶを収集する（ステップＳ１）。

また、収集手段１は、有線ケーブル５を介して、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬからアクセスポイントＡＰ＿ＵＮＣＴＬにおけるフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを収集する（ステップＳ２）。

そして、収集手段１は、冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶをデータベース２のテーブルＴＬＢ１−１に格納し（ステップＳ３）、フレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲをデータベース２のテーブルＴＬＢ２−１に格納する（ステップＳ４）。

その後、制御手段３は、冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶをデータベース２のテーブルＴＬＢ１−１から読み出し、フレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲをデータベース２のテーブルＴＬＢ２−１から読み出す。そして、制御手段３は、制御対象のアクセスポイントＡＰ＿ＣＴＬを示す信号Ｓ＿ＣＴＬ＿ＡＰを生成する。

そうすると、制御手段３は、信号Ｓ＿ＣＴＬ＿ＡＰ、冗長検査情報ＩＦ＿ＲＣＨＫ、観測情報ＩＦ＿ＯＢＶおよびフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを学習器４に出力する（ステップＳ５）。

学習器４は、信号Ｓ＿ＣＴＬ＿ＡＰ、冗長検査情報ＩＦ＿ＲＣＨＫ、観測情報ＩＦ＿ＯＢＶおよびフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを制御手段３から受ける。そして、学習器４は、信号Ｓ＿ＣＴＬ＿ＡＰに基づいて、制御対象のアクセスポイントＡＰ＿ＣＴＬと制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬとを検知する。

そうすると、学習器４は、冗長検査情報ＩＦ＿ＲＣＨＫ、観測情報ＩＦ＿ＯＢＶおよびフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲに基づいて強化学習（Ｑ学習）を実行し、最大のＱ値と、最大のＱ値が得られるときの制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬの状態ｓ_ｔと、最大のＱ値が得られるときの制御対象のアクセスポイントＡＰ＿ＣＴＬの行動ａ_ｔとからなる出力情報ＩＦ＿ＯＵＴを制御手段３へ出力する（ステップＳ６）。

制御手段３は、出力情報ＩＦ＿ＯＵＴを学習器４から受け、その受けた出力情報ＩＦ＿ＯＵＴに基づいてフレームの送信の可否を決定するように制御対象のアクセスポイントＡＰ＿ＣＴＬを制御する（ステップＳ７）。これによって、制御装置１０の動作が終了する。

図１２は、図１１のステップＳ６の詳細な動作を説明するためのフローチャートである。図１２を参照して、図１１のステップＳ５の後、学習器４は、制御対象のアクセスポイントＡＰ＿ＣＴＬを示す信号Ｓ＿ＣＴＬ＿ＡＰ、冗長検査情報ＩＦ＿ＲＣＨＫ、観測情報ＩＦ＿ＯＢＶおよびフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを制御手段３から受ける（ステップＳ６１）。

そして、学習器４は、信号Ｓ＿ＣＴＬ＿ＡＰに基づいて、制御対象のアクセスポイントＡＰ＿ＣＴＬと制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬとを検知する（ステップＳ６２）。

その後、学習器４は、フレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲに基づいて、ｔ番目のタイムスロットにおける制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬの状態ｓ_ｔを決定する（ステップＳ６３）。

引き続いて、学習器４は、ε−ｇｒｅｅｄｙ法に基づいて、ｔ番目のタイムスロットにおける制御対象のアクセスポイントＡＰ＿ＣＴＬの行動ａ_ｔを決定する（ステップＳ６４）。

そうすると、学習器４は、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬの状態が状態ｓ_ｔにあるときに、制御対象のアクセスポイントＡＰ＿ＣＴＬが行動ａ_ｔを実行したときの（ｔ＋１）番目のタイムスロットにおける報酬ｒ_ｔ＋１を算出する（ステップＳ６５）。より具体的には、学習器４は、冗長検査情報ＩＦ＿ＲＣＨＫに含まれる送信区間、送信レート、および送信レートに対応付けられた成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}に基づいて報酬ｒ_ｔ＋１を算出する。この場合、学習器４は、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}が“１”からなる場合、送信区間の開始時刻ｔ_{ＳＴＡＲＴ}および終了時刻ｔ_ＥＮＤから算出したフレームの送信時間長を送信レートに乗算して報酬ｒ_ｔ＋１を算出する。一方、成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}が“０”からなる場合、学習器４は、報酬ｒ_ｔ＋１を“−１”に設定することによって報酬ｒ_ｔ＋１を算出する。

学習器４は、報酬ｒ_ｔ＋１を算出すると、その算出した報酬ｒ_ｔ＋１と、学習率αと、状態ｓ_ｔおよび行動ａ_ｔに対応するＱ値（＝Ｑ_ｓ，ａ）とを式（５）に代入してＱ値（＝Ｑ_ｓ，ａ）を更新する。そして、学習器４は、その更新したＱ値（＝Ｑ_ｓ，ａ）によって、状態ｓ_ｔおよび行動ａ_ｔに対応するＱテーブルのＱ値を更新する。即ち、学習器４は、報酬ｒ_ｔ＋１を用いて、状態ｓ_ｔおよび行動ａ_ｔに対応するＱテーブルのＱ値を更新する（ステップＳ６６）。

そうすると、学習器４は、終了条件が成立するか否かを判定する（ステップＳ６７）。ステップＳ６７において、終了条件が成立しないと判定されたとき、一連の動作は、ステップＳ６３へ移行し、ステップＳ６７において、終了条件が成立すると判定されるまで、ステップＳ６３〜ステップＳ６７が繰り返し実行される。

そして、ステップＳ６７において、終了条件が成立すると判定されると、学習器４は、最大のＱ値と、最大のＱ値が得られるときの制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬの状態ｓ_ｔと、最大のＱ値が得られるときの制御対象のアクセスポイントＡＰ＿ＣＴＬの行動ａ_ｔとからなる出力情報ＩＦ＿ＯＵＴを制御手段３へ出力する（ステップＳ６８）。その後、一連の動作は、図１１のステップＳ７へ移行する。

ステップＳ６７においては、上述したＱ値の更新が所定回数実行されたときに終了条件が成立すると説明したが、この発明の実施の形態においては、これに限らず、終了条件は、制御対象のアクセスポイントＡＰ＿ＣＴＬのフレーム送信タイミングが到来したときに成立することにしてもよい。この場合、情報検査情報ＩＦ＿ＲＣＨＫは、終了条件を含むことになる。

なお、制御装置１０の動作は、ソフトウェアによって実現されてもよい。この場合、制御装置１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）およびＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を備える。そして、ＲＯＭは、図１１に示すフローチャート（図１２に示すフローチャートを含む）の各ステップからなるプログラムＰｒｏｇ＿Ａを記憶する。

ＣＰＵは、ＲＯＭからプログラムＰｒｏｇ＿Ａを読み出し、その読み出したプログラムＰｒｏｇ＿Ａを実行して、制御対象のアクセスポイントＡＰ＿ＣＴＬを制御する。

また、プログラムＰｒｏｇ＿Ａは、ＣＤ，ＤＶＤ等の記録媒体に記録されて流通してもよい。プログラムＰｒｏｇ＿Ａを記録した記録媒体がコンピュータに装着されると、コンピュータは、記録媒体からプログラムＰｒｏｇ＿Ａを読み出して実行し、制御対象のアクセスポイントＡＰ＿ＣＴＬを制御する。

従って、プログラムＰｒｏｇ＿Ａを記録した記録媒体は、コンピュータ読み取り可能な記録媒体である。

図１３は、サービスセットＢＳＳ＿０〜ＢＳＳ＿３の距離関係を示す図である。図１３を参照して、サービスセットＢＳＳ＿０とサービスセットＢＳＳ＿１の距離は、“２”であり、サービスセットＢＳＳ＿０とサービスセットＢＳＳ＿２の距離は、“３”であり、サービスセットＢＳＳ＿１とサービスセットＢＳＳ＿２の距離は、“１”であり、サービスセットＢＳＳ＿１とサービスセットＢＳＳ＿３の距離は、“２”であり、サービスセットＢＳＳ＿２とサービスセットＢＳＳ＿３の距離は、“２”である。

この発明の実施の形態においては、サービスセットＢＳＳ間の距離を簡単のために、“１”，“２”，“３”と、干渉無しの４段階に仮定する。

距離１の関係は、他の通信が存在した場合、１Ｍｂｉｔ／ｓｌｏｔ以上の伝送速度の通信が失敗する距離関係を示す。距離２の関係は、他の通信が存在した場合、２Ｍｂｉｔ／ｓｌｏｔ以上の伝送速度の通信が失敗する距離関係を示す。距離３の関係は、他の通信が存在した場合、３Ｍｂｉｔ／ｓｌｏｔ以上の伝送速度の通信が失敗する距離関係を示す。

次に、上述した方法によって制御対象のアクセスポイントＡＰ＿ＣＴＬを制御したときのシミュレーションについて説明する。シミュレーションの諸元を表１に示す。

シミュレーションにおいては、制御対象のアクセスポイントＡＰ＿０以外のアクセスポイントの台数Ｎを“３”とする。そして、制御対象のアクセスポイントＡＰ＿０と、制御対象のアクセスポイントＡＰ＿０以外のアクセスポイントとの距離関係として図１３に示す関係を仮定する。また、５０タイムスロットを１ステップとして、各ステップごとに評価を行った。

［比較方式］
（比較方式の方策）
比較方式は、伝送速度とタイムスロットごとの送信確率を変更可能なパラメータとしたとき、他のアクセスポイントと情報のやりとりをせずに、自身の通信の成功／失敗のみからヒューリスティックにパラメータを変更する方式である。

より具体的には、この方式では、５０タイムスロットごとに自分の通信の成功確率を算出し、それに応じてパラメータを変更する。今回のシミュレーションでは、通信成功率が７０％以上であれば、フレーム損失がなければ伝送速度向上が期待される方向にパラメータを変更し、一方、通信成功率が５０％以下であれば、フレーム損失確率の減少が期待される（結果として伝送速度向上が期待される)方向にパラメータを変更することとした。

パラメータを変更する方法は、以下の通りである。

・通信成功率が７０％以上のとき
伝送速度を１段階上げる。加えて送信確率を［０，１０］％の間で一様分布に従って決定して上げる。

・通信成功率が５０％以下のとき
伝送速度を１段階下げる。加えて送信確率を［０，２０］％の間で一様分布に従って決定して下げる。

図１４は、提案方式と比較方式のシミュレーションの結果を示す図である。図１４において、縦軸は、各ステップにおいて制御対象のアクセスポイントＡＰ＿ＣＴＬが通信に成功したデータ量を表し、横軸は、経過したステップ数を表す。また、曲線ｋ１は、提案方式（即ち、この発明の実施の形態における方法によって制御する方式、以下、同じ。）を示し、曲線ｋ２は、比較方式を示す。

図１４を参照して、提案方式が比較方式よりもスループットが高い値で収束していることが分かる。また、提案方式が比較方式よりもスループットのばらつきが小さいことが分かる。

図１５は、各ステップにおける制御対象のアクセスポイントの衝突確率を示す図である。図１５において、縦軸は、衝突確率を表し、横軸は、ステップを表す。また、“状態なし”は、制御対象外のアクセスポイントが送信しているか、送信していないかについての情報が無いことにより、制御対象外のアクセスポイントの状態を知ることができないことを表す。

図１５を参照して、提案方式は、学習が進むにつれて衝突確率が小さく抑えられていることが分かる。

図１６は、提案方式のＱテーブルを示す図である。図１７は、比較方式のＱテーブルを示す図である。なお、図１６および図１７は、２０００ステップの学習後のＱテーブルを示す。また、図１６において、Ｓｔａｔｅの軸における３桁の数字は、左からアクセスポイントＡＰ＿１、アクセスポイントＡＰ＿２およびアクセスポイントＡＰ＿３の状態を示す。

提案方式において衝突確率が小さくなった理由を考える。最初に、制御対象であるアクセスポイントＡＰ＿０の通信が衝突する場合を挙げる。図１３より、アクセスポイントＡＰ＿１が送信しているとき、アクセスポイントＡＰ＿０が２Ｍｂｉｔ／ｓｌｏｔ，３Ｍｂｉｔ／ｓｌｏｔの送信レートでフレームを送信すると、衝突により送信に失敗する。

また、アクセスポイントＡＰ＿２が送信しているとき、アクセスポイントＡＰ＿０が３Ｍｂｉｔ／ｓｌｏｔの送信レートでフレームを送信すると、衝突により送信に失敗する。

次に、衝突する場合のＱテーブルの値を考える。図１６を参照して、提案方式では、アクセスポイントＡＰ＿０は、これらの衝突が起こる行動のＱテーブルの値が、同じ状態において他の行動のＱテーブルの値より低くなっている。つまり、アクセスポイントＡＰ＿１若しくはアクセスポイントＡＰ＿２が通信を行っている状態ｓ＝（０，１，０)，（０，１，１），（１，０，０），（１，０，１），（１，１，０），（１，１，１）のとき、アクセスポイントＡＰ＿０の伝送速度が３Ｍｂｉｔ／ｓｌｏｔであるＱテーブルの値（Ｑｆｕｎｃｔｉｏｎ）が低くなっている。同様に、アクセスポイントＡＰ＿１が通信を行っている状態ｓ＝（１，０，０），（１，０，１），（１，１，０），（１，１，１）のとき、アクセスポイントＡＰ＿０の伝送速度が２Ｍｂｉｔ／ｓｌｏｔであるＱテーブルの値（Ｑｆｕｎｃｔｉｏｎ）が低くなっている。従って、提案方式では、衝突によって送信が失敗する行動を取ろうとはせず、衝突確率が小さいと考えられる。

引き続いて、提案方式のスループットが比較方式に比べて高い値で収束している理由を考える。図１６より、他の通信との衝突が起こらない場合は、伝送速度が大きい行動ほどＱテーブルの値（Ｑｆｕｎｃｔｉｏｎ）が大きくなっている。その結果、提案方式では、衝突が起こらない中で最もスループットが大きくなる伝送速度を選択することができていると考えられる。

図１７より、他のアクセスポイントの情報を用いずに強化学習を行う方式では、他のアクセスポイントの通信の有無に関わらず期待報酬が最大である伝送速度が１Ｍｂｉｔ／ｓｌｏｔである通信を常に行うようになる。従って、比較方式においては、他の通信がない場合にも、伝送速度が１Ｍｂｉｔ／ｓｌｏｔである通信を行っており、その分、提案方式に比べてスループットが低下していると考えられる。

このように、提案方式を用いることによって他の通信との衝突を回避しつつ、可能な限り高い伝送速度を用いることができ、スループットを向上できる。

上述した図１１に示すフローチャート（図１２に示すフローチャートを含む）を実行することによって、最大のＱ値と、最大のＱ値が得られるときの制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬの状態ｓ_ｔと、最大のＱ値が得られるときの制御対象のアクセスポイントＡＰ＿ＣＴＬの行動ａ_ｔとが得られ、これらは、出力情報ＩＦ＿ＯＵＴとして制御対象のアクセスポイントＡＰ＿ＣＴＬであるアクセスポイントＡＰ＿０へ送信される。

最大のＱ値は、報酬ｒ_ｔの累積値からなり、報酬ｒ_ｔは、アクセスポイントＡＰ＿０が通信に成功したデータ量である。その結果、最大のＱ値は、アクセスポイントＡＰ＿０が通信に成功した最大のデータ量（即ち、最大のスループット）からなる。

また、行動ａ_ｔは、通信をしない、１Ｍｂｉｔ／ｓｌｏｔの送信レートで通信を行う、２Ｍｂｉｔ／ｓｌｏｔの送信レートで通信を行う、３Ｍｂｉｔ／ｓｌｏｔの送信レートで通信を行う、のいずれかからなる。

従って、制御装置１０が出力情報ＩＦ＿ＯＵＴをアクセスポイントＡＰ＿０へ出力することによって、アクセスポイントＡＰ＿０は、出力情報ＩＦ＿ＯＵＴを参照して通信を行うか否かを決定するので、アクセスポイントＡＰ＿０の送信レートを制御して最大のスループットを得られるようにアクセスポイントＡＰ＿０を制御できる。

また、Ｑ学習においては、制御対象であるアクセスポイントＡＰ＿０の行動ａ_ｔを決定するが（図１２のステップＳ６４参照）、この行動ａ_ｔは、通信をしない、１Ｍｂｉｔ／ｓｌｏｔの送信レートで通信を行う、２Ｍｂｉｔ／ｓｌｏｔの送信レートで通信を行う、３Ｍｂｉｔ／ｓｌｏｔの送信レートで通信を行う、のいずれかからなり、１Ｍｂｉｔ／ｓｌｏｔ，２Ｍｂｉｔ／ｓｌｏｔ，３Ｍｂｉｔ／ｓｌｏｔの各送信レートは、上述したように通信が失敗する距離を表す（図１３参照）。そして、通信が失敗することは、フレームが損失することである。従って、１Ｍｂｉｔ／ｓｌｏｔ，２Ｍｂｉｔ／ｓｌｏｔ，３Ｍｂｉｔ／ｓｌｏｔの送信レートを入力情報としてＱ学習を実行することによって、フレーム損失の原因の解析精度を向上できる。つまり、アクセスポイントＡＰ＿０は、出力情報ＩＦ＿ＯＵＴに基づいて３Ｍｂｉｔ／ｓｌｏｔの送信レートでフレームを送信した結果、通信が失敗したとき、サービスセットＢＳＳ＿２のアクセスポイントＡＰ＿２による通信との干渉が原因で通信に失敗したと解析できる（図１３参照）。また、１Ｍｂｉｔ／ｓｌｏｔ，２Ｍｂｉｔ／ｓｌｏｔのいずれかの送信レートでフレームを送信したときに、通信が失敗したときも同様である。このように、フレーム損失の原因の解析精度の向上は、観測情報ＩＦ＿ＯＢＶを用いても実現できないことであり、送信レートという冗長検査情報ＩＦ＿ＲＣＨＫを用いるので実現できることである。従って、特に、無線区間で直接観測できない要因によるフレーム損失の原因の解析精度を向上できる。

なお、図１３に示すサービスセットＢＳＳ＿０〜ＢＳＳ＿３の距離関係は、図１６に示すＱテーブルに基づいて作成されたものである。

また、実施の形態１においては、制御対象のアクセスポイントＡＰ＿ＣＴＬは、アクセスポイントＡＰ＿０以外のアクセスポイントＡＰ＿１〜ＡＰ＿Ｎであってもよく、一般的には、アクセスポイントＡＰ＿０〜ＡＰ＿Ｎのうちのいずれかであればよい。

更に、図１１および図１２においては、制御対象のアクセスポイントＡＰ＿ＣＴＬがアクセスポイントＡＰ＿０であり、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬが３個のアクセスポイントＡＰ＿１〜ＡＰ＿３である場合を用いて制御装置１０の動作を説明したが、実施の形態１においては、これに限らず、制御対象のアクセスポイントＡＰ＿ＣＴＬがアクセスポイントＡＰ＿０であり、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬがＮ個のアクセスポイントＡＰ＿１〜ＡＰ＿Ｎである場合も、制御装置１０の動作は、図１１に示すフローチャート（図１２に示すフローチャートを含む）に従って実行される。

［実施の形態２］
図１８は、実施の形態２による制御装置の概略図である。図１８を参照して、実施の形態２による制御装置１０Ａは、図２に示す制御装置１０の収集手段１、制御手段３および学習器４をそれぞれ収集手段１Ａ、制御手段３Ａおよび学習器４Ａに変えたものであり、その他は、制御装置１０と同じである。

実施の形態２においては、各サービスセットＢＳＳには、複数の端末装置が配置されている。

また、実施の形態２においては、制御対象のアクセスポイントＡＰ＿ＣＴＬからの冗長検査情報を「冗長検査情報ＩＦ＿ＲＣＨＫ＿ＡＰ」と表記し、制御対象の端末装置ＴＭ＿ＣＴＬからの冗長検査情報を「冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭ」と表記する。

更に、実施の形態２においては、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬから収集する送信スケジュール情報を「送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＡＰ」と表記し、制御対象外の端末装置ＴＭ＿ＵＮＣＴＬから収集する送信スケジュール情報を「送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭ」と表記する。

更に、実施の形態２においては、制御対象のアクセスポイントＡＰ＿ＣＴＬの観測情報を「観測情報ＩＦ＿ＯＢＶ＿ＡＰ」と表記し、制御対象の端末装置ＴＭ＿ＣＴＬの観測情報を「観測情報ＩＦ＿ＯＢＶ＿ＴＭ」と表記する。

制御装置１０Ａの収集手段１Ａは、制御対象のアクセスポイントＡＰ＿ＣＴＬから冗長検査情報ＩＦ＿ＲＣＨＫ＿ＡＰを収集する。また、収集手段１Ａは、制御対象のアクセスポイントＡＰ＿ＣＴＬを介して、制御対象の端末装置ＴＭ＿ＣＴＬから冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭを収集するとともに、制御対象外の端末装置ＴＭ＿ＵＮＣＴＬの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭを収集する。

冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭは、端末装置ＴＭ＿０がアクセスポイントＡＰ＿０へフレームを送信する通信における冗長検査情報である。つまり、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭは、上りリンクにおける通信における冗長検査情報である。従って、制御対象の端末装置ＴＭ＿ＣＴＬは、あるタイムスロットにおいて制御対象のアクセスポイントＡＰ＿ＣＴＬへフレームを送信したとき、送信者と、送信区間と、送信レートと、フレーム送信タイミングとを含む冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭを生成し、その生成した冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭを制御対象のアクセスポイントＡＰ＿ＣＴＬへ送信する。

なお、ＩＥＥＥ８０２．１１ａｘにおいては、上りリンクにおいてＯＦＤＭＡ（Orthogonal Frequency Division Multiple Access）またはＭＵ−ＭＩＭＯ（Multi User MIMO(Multiple-Input and Multiple-Output)）が規定されており、これらは、アクセスポイントが端末装置のフレーム送信タイミングを指定するものである。従って、アクセスポイントが指定する端末装置のフレーム送信タイミングを冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭとすることができる。

冗長検査情報ＩＦ＿ＲＣＨＫ＿ＡＰは、実施の形態１において説明した冗長検査情報ＩＦ＿ＲＣＨＫと同じである。

制御対象のアクセスポイントＡＰ＿ＣＴＬは、制御対象の端末装置ＴＭ＿ＣＴＬがフレームを制御対象のアクセスポイントＡＰ＿ＣＴＬへ送信したときの通信が成功したか失敗したかを検出できる。従って、制御対象のアクセスポイントＡＰ＿ＣＴＬは、自己が制御対象の端末装置ＴＭ＿ＣＴＬへフレームを送信したときの通信が成功したか失敗したかを示す成功／失敗情報ＩＦ（ＡＰ）＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}からなる観測情報ＩＦ＿ＯＢＶ＿ＡＰと、制御対象の端末装置ＴＭ＿ＣＴＬがフレームを制御対象のアクセスポイントＡＰ＿ＣＴＬへ送信したときの通信が成功したか失敗したかを示す成功／失敗情報ＩＦ（ＴＭ）＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}からなる観測情報ＩＦ＿ＯＢＶ＿ＴＭを生成し、その生成した観測情報ＩＦ＿ＯＢＶ＿ＡＰ，ＩＦ＿ＯＢＶ＿ＴＭを制御装置１０Ａへ送信する。

また、制御対象のアクセスポイントＡＰ＿ＣＴＬは、制御対象外の端末装置ＴＭ＿ＵＮＣＴＬとも通信を行うので、制御対象外の端末装置ＴＭ＿ＵＮＣＴＬの送信スケジュール情報を検出できる。従って、制御対象のアクセスポイントＡＰ＿ＣＴＬは、制御対象外の端末装置ＴＭ＿ＵＮＣＴＬの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭを制御装置１０Ａへ送信する。

収集手段１Ａは、制御対象のアクセスポイントＡＰ＿ＣＴＬから、［冗長検査情報ＩＦ＿ＲＣＨＫ＿ＡＰ／観測情報ＩＦ＿ＯＢＶ＿ＡＰ］を収集するとともに、［冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭ／観測情報ＩＦ＿ＯＢＶ＿ＴＭ／送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭ］を収集する。

そして、収集手段１Ａは、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＡＰおよび観測情報ＩＦ＿ＯＢＶ＿ＡＰを相互に対応付けてデータベース２に格納する。また、収集手段１Ａは、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭおよび観測情報ＩＦ＿ＯＢＶ＿ＴＭを相互に対応付けてデータベース２に格納する。更に、収集手段１Ａは、送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭをデータベース２に格納する。

収集手段１Ａは、その他、収集手段１と同じ機能を果たす。

制御手段３Ａは、制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰを生成するとともに、制御対象の端末装置を示す信号Ｓ＿ＣＴＬ＿ＴＭを生成する。

そして、制御手段３Ａは、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＡＰ、観測情報ＩＦ＿ＯＢＶ＿ＡＰ、および送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＡＰをデータベース２から読み出す。その後、制御手段３Ａは、制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰ、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＡＰ、観測情報ＩＦ＿ＯＢＶ＿ＡＰ、および送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＡＰを学習器４Ａへ出力する。

制御手段３Ａは、制御対象のアクセスポイントＡＰ＿ＣＴＬに対する出力情報ＩＦ＿ＯＵＴ＿ＡＰを学習器４Ａから受けると、制御対象の端末装置を示す信号Ｓ＿ＣＴＬ＿ＴＭ、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭ、観測情報ＩＦ＿ＯＢＶ＿ＴＭ、および送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭを学習器４Ａへ出力する。

その後、制御手段３Ａは、学習器４Ａから制御対象の端末装置ＴＭ＿ＣＴＬに対する出力情報ＩＦ＿ＯＵＴ＿ＴＭを学習器４Ａから受ける。

そうすると、制御手段３Ａは、出力情報ＩＦ＿ＯＵＴ＿ＡＰに基づいて制御対象のアクセスポイントＡＰ＿ＣＴＬを制御するとともに、出力情報ＩＦ＿ＯＵＴ＿ＴＭに基づいて制御対象の端末装置ＴＭ＿ＣＴＬを制御するように制御対象のアクセスポイントＡＰ＿ＣＴＬを制御する。

学習器４Ａは、制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰ、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＡＰ、観測情報ＩＦ＿ＯＢＶ＿ＡＰ、および送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＡＰを制御手段３Ａから受けると、制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰ、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＡＰ、観測情報ＩＦ＿ＯＢＶ＿ＡＰ、および送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＡＰに基づいて、上述した方法によって強化学習（Ｑ学習）を実行し、出力情報ＩＦ＿ＯＵＴ＿ＡＰを制御手段３Ａへ出力する。

また、学習器４Ａは、制御対象の端末装置を示す信号Ｓ＿ＣＴＬ＿ＴＭ、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭ、観測情報ＩＦ＿ＯＢＶ＿ＴＭ、および送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭを制御手段３Ａから受けると、制御対象の端末装置を示す信号Ｓ＿ＣＴＬ＿ＴＭ、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭ、観測情報ＩＦ＿ＯＢＶ＿ＴＭ、および送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭに基づいて、上述した方法によって強化学習（Ｑ学習）を実行し、出力情報ＩＦ＿ＯＵＴ＿ＴＭを制御手段３Ａへ出力する。

図１９は、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭおよび観測情報ＩＦ＿ＯＢＶ＿ＴＭの記憶状態を示す概念図である。

図１９を参照して、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭおよび観測情報ＩＦ＿ＯＢＶ＿ＴＭは、テーブルＴＢＬ３−１に格納される。なお、図１９においては、端末装置ＴＭ＿０を制御対象の端末装置ＴＭ＿ＣＴＬとし、アクセスポイントＡＰ＿０を制御対象のアクセスポイントＡＰ＿ＣＴＬとして、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭおよび観測情報ＩＦ＿ＯＢＶ＿ＴＭの記憶状態を示す。

テーブルＴＢＬ３−１は、名前と、送信者と、送信区間と、送信レートと、成功／失敗情報と、フレーム送信タイミングとを含む。

送信者は、制御対象である端末装置ＴＭ＿０のＭＡＣアドレスＡｄｄ＿ＴＭ＿０からなる。送信区間は、端末装置ＴＭ＿０がフレームの送信に用いたタイムスロットの開始時刻および終了時刻［ｔ_{ＳＴＡＲＴ＿０＿３}，ｔ_{ＥＮＤ＿０＿３}］，［ｔ_{ＳＴＡＲＴ＿０＿４}，ｔ_{ＥＮＤ＿０＿４}］，・・・からなる。送信レートは、ＴＲ＿ｒａｔｅ（ＴＭ）＿０＿１，ＴＲ＿ｒａｔｅ（ＴＭ）＿０＿２，・・・からなる。そして、送信レートＴＲ＿ｒａｔｅ（ＴＭ）＿０＿１，ＴＲ＿ｒａｔｅ（ＴＭ）＿０＿２，・・・は、それぞれ、送信区間［ｔ_{ＳＴＡＲＴ＿０＿３}，ｔ_{ＥＮＤ＿０＿３}］，［ｔ_{ＳＴＡＲＴ＿０＿４}，ｔ_{ＥＮＤ＿０＿４}］，・・・に対応付けられる。

成功／失敗情報については、図３に示すテーブルＴＢＬ１−１において説明した通りである。そして、各成功／失敗情報は、それぞれ、送信区間［ｔ_{ＳＴＡＲＴ＿０＿３}，ｔ_{ＥＮＤ＿０＿３}］，［ｔ_{ＳＴＡＲＴ＿０＿４}，ｔ_{ＥＮＤ＿０＿４}］，・・・および送信レートＴＲ＿ｒａｔｅ（ＴＭ）＿０＿１，ＴＲ＿ｒａｔｅ（ＴＭ）＿０＿２，・・・に対応付けられる。

フレーム送信タイミングＴＧ＿ＴＲ＿ＴＭ＿０は、端末装置ＴＭ＿０が次にフレームを送信するタイムスロットの開始時刻ｔ_{ＳＴＡＲＴ＿ｎｅｘｔ}からなる。

収集手段１Ａは、アクセスポイントＡＰ＿０から冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭおよび観測情報ＩＦ＿ＯＢＶ＿ＴＭを受信すると、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭに含まれる送信者、送信区間、送信レートおよびフレーム送信タイミングと、観測情報ＩＦ＿ＯＢＶ＿ＴＭに含まれる成功／失敗情報ＩＦ（ＴＭ）＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}とをデータベース２内のテーブルＴＢＬ３−１に格納する。

図２０は、制御対象外の端末装置ＴＭ＿ＵＮＣＴＬの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭの記憶状態を示す概念図である。

図２０を参照して、送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭは、テーブルＴＢＬ４−１に格納される。テーブルＴＢＬ４−１は、名前と、送信者と、送信スケジュールとを含む。名前、送信者および送信スケジュールは、相互に対応付けられる。

送信者は、制御対象外である端末装置ＴＭ＿０＿１〜ＴＭ＿０＿ＪのＭＡＣアドレスＡｄｄ＿ＴＭ＿０＿１〜Ａｄｄ＿ＴＭ＿０＿Ｊからなる。

送信スケジュールは、タイムスロットの開始時刻および終了時刻“［ｔ_{ＳＴＡＲＴ＿０＿１＿１}，ｔ_{ＥＮＤ＿０＿１＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿１＿２}，ｔ_{ＥＮＤ＿０＿１＿２}］，・・・”、“［ｔ_{ＳＴＡＲＴ＿０＿２＿１}，ｔ_{ＥＮＤ＿０＿２＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２＿２}，ｔ_{ＥＮＤ＿０＿２＿２}］，・・・”、“［ｔ_{ＳＴＡＲＴ＿０＿３＿１}，ｔ_{ＥＮＤ＿０＿３＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿３＿２}，ｔ_{ＥＮＤ＿０＿３＿２}］，・・・”、・・・、“［ｔ_{ＳＴＡＲＴ＿０＿Ｊ＿１}，ｔ_{ＥＮＤ＿０＿Ｊ＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿Ｊ＿２}，ｔ_{ＥＮＤ＿０＿Ｊ＿２}］，・・・”からなる。

送信スケジュール［ｔ_{ＳＴＡＲＴ＿０＿１＿１}，ｔ_{ＥＮＤ＿０＿１＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿１＿２}，ｔ_{ＥＮＤ＿０＿１＿２}］，・・・は、送信者Ａｄｄ＿ＴＭ＿０＿１に対応付けられ、送信スケジュール［ｔ_{ＳＴＡＲＴ＿０＿２＿１}，ｔ_{ＥＮＤ＿０＿２＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２＿２}，ｔ_{ＥＮＤ＿０＿２＿２}］，・・・は、送信者Ａｄｄ＿ＴＭ＿０＿２に対応付けられ、送信スケジュール［ｔ_{ＳＴＡＲＴ＿０＿３＿１}，ｔ_{ＥＮＤ＿０＿３＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿３＿２}，ｔ_{ＥＮＤ＿０＿３＿２}］，・・・は、送信者Ａｄｄ＿ＴＭ＿０＿３に対応付けられ、以下、同様にして、送信スケジュール［ｔ_{ＳＴＡＲＴ＿０＿Ｊ＿１}，ｔ_{ＥＮＤ＿０＿Ｊ＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿Ｊ＿２}，ｔ_{ＥＮＤ＿０＿Ｊ＿２}］，・・・は、送信者Ａｄｄ＿ＴＭ＿０＿Ｊに対応付けられる。

なお、実施の形態２においては、テーブルＴＢＬ３−１，ＴＢＬ４−１に追加して、図３に示すテーブルＴＢＬ１−１および図４に示すテーブルＴＢＬ２−１がデータベース２に格納される。

図２１は、Ｑテーブルの概念図である。なお、図２１においては、制御対象外の端末装置ＴＭ＿ＵＮＣＴＬを３個の端末装置ＴＭ＿０＿１〜ＴＭ＿０＿３としてＱテーブルを説明する。

図２１に示すＱテーブルは、制御対象の端末装置ＴＭ＿０＿０を制御するときのＱテーブルである。従って、Ｑテーブルは、制御対象外の端末装置ＴＭ＿０＿１〜ＴＭ＿０＿３の状態ｓ_ｔと、制御対象の端末装置ＴＭ＿０＿０の行動ａ_ｔとによって構成される。

そして、Ｑテーブルに記載された３桁の数字は、左から、端末装置ＴＭ＿０＿１、端末装置ＴＭ＿０＿２および端末装置ＴＭ＿０＿３の送信の有無を示す。従って、［０，０，０］は、端末装置ＴＭ＿０＿１、端末装置ＴＭ＿０＿２およびＴＭ＿０＿３の全てが送信しない状態を示し、［１，０，０］は、端末装置ＴＭ＿０＿１〜ＴＭ＿０＿３のうち、端末装置ＴＭ＿０＿１のみが送信する状態を示し、［１，１，０］は、端末装置ＴＭ＿０＿１〜ＴＭ＿０＿３のうち、端末装置ＴＭ＿０＿１，ＴＭ＿０＿２が送信する状態を示し、［１，１，１］は、端末装置ＴＭ＿０＿１、端末装置ＴＭ＿０＿２およびＴＭ＿０＿３の全てが送信する状態を示す。その他の３桁の数字についても同様である。

図２１に示すＱテーブルのその他の説明は、図６における説明と同じである。

図２２は、図１８に示す制御装置１０Ａの動作を説明するためのフローチャートである。

図２２を参照して、制御装置１０Ａの動作が開始されると、収集手段１Ａは、有線ケーブル５を介して、制御対象のアクセスポイントＡＰ＿ＣＴＬの冗長検査情報ＩＦ＿ＲＣＨＫ＿ＡＰおよび観測情報ＩＦ＿ＯＢＶ＿ＡＰと、制御対象の端末装置の冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭおよび観測情報ＩＦ＿ＯＢＶ＿ＴＭと、制御対象外の端末装置におけるフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭとを制御対象のアクセスポイントＡＰ＿ＣＴＬから収集する（ステップＳ１１）。

また、収集手段１Ａは、有線ケーブル５を介して、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬからアクセスポイントＡＰ＿ＵＮＣＴＬにおけるフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＡＰを収集する（ステップＳ１２）。

そして、収集手段１Ａは、制御対象のアクセスポイントＡＰ＿ＣＴＬの冗長検査情報ＩＦ＿ＲＣＨＫ＿ＡＰおよび観測情報ＩＦ＿ＯＢＶ＿ＡＰをデータベース２のテーブルＴＬＢ１−１に格納し（ステップＳ１３）、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬにおけるフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＡＰをデータベース２のテーブルＴＬＢ２−１に格納する（ステップＳ１４）。

引き続いて、収集手段１Ａは、制御対象の端末装置ＴＭ＿ＣＴＬの冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭおよび観測情報ＩＦ＿ＯＢＶ＿ＴＭをデータベース２のテーブルＴＬＢ３−１に格納し（ステップＳ１５）、制御対象外の端末装置ＴＭ＿ＵＮＣＴＬにおけるフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭをデータベース２のテーブルＴＬＢ４−１に格納する（ステップＳ１６）。

そうすると、制御手段３Ａは、制御対象のアクセスポイントＡＰ＿ＣＴＬの冗長検査情報ＩＦ＿ＲＣＨＫ＿ＡＰおよび観測情報ＩＦ＿ＯＢＶ＿ＡＰをデータベース２のテーブルＴＬＢ１−１から読み出し、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬにおけるフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＡＰをデータベース２のテーブルＴＬＢ２−１から読み出す。そして、制御手段３Ａは、制御対象のアクセスポイントを示す信号Ｓ＿ＣＴＬ＿ＡＰを生成する。

そうすると、制御手段３Ａは、信号Ｓ＿ＣＴＬ＿ＡＰ、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＡＰ、観測情報ＩＦ＿ＯＢＶ＿ＡＰおよびフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＡＰを学習器４Ａに出力する（ステップＳ１７）。

学習器４Ａは、信号Ｓ＿ＣＴＬ＿ＡＰ、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＡＰ、観測情報ＩＦ＿ＯＢＶ＿ＡＰおよびフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＡＰを制御手段３Ａから受ける。そして、学習器４Ａは、信号Ｓ＿ＣＴＬ＿ＡＰに基づいて、制御対象のアクセスポイントＡＰ＿ＣＴＬと制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬとを検知する。

そうすると、学習器４Ａは、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＡＰ、観測情報ＩＦ＿ＯＢＶ＿ＡＰおよびフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＡＰに基づいて強化学習（Ｑ学習）を実行し、最大のＱ値と、最大のＱ値が得られるときの制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬの状態ｓ_ｔと、最大のＱ値が得られるときの制御対象のアクセスポイントＡＰ＿ＣＴＬの行動ａ_ｔとからなる出力情報ＩＦ＿ＯＵＴ＿ＡＰを制御手段３Ａへ出力する（ステップＳ１８）。

制御手段３Ａは、出力情報ＩＦ＿ＯＵＴ＿ＡＰを学習器４Ａから受けると、制御対象の端末装置ＴＭ＿ＣＴＬの冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭおよび観測情報ＩＦ＿ＯＢＶ＿ＴＭをデータベース２のテーブルＴＬＢ３−１から読み出し、制御対象外の端末装置ＴＭ＿ＵＮＣＴＬにおけるフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭをデータベース２のテーブルＴＬＢ４−１から読み出す。そして、制御手段３Ａは、制御対象の端末装置を示す信号Ｓ＿ＣＴＬ＿ＴＭを生成する。

そうすると、制御手段３Ａは、信号Ｓ＿ＣＴＬ＿ＴＭ、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭ、観測情報ＩＦ＿ＯＢＶ＿ＴＭおよびフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭを学習器４Ａに出力する（ステップＳ１９）。

学習器４Ａは、信号Ｓ＿ＣＴＬ＿ＴＭ、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭ、観測情報ＩＦ＿ＯＢＶ＿ＴＭおよびフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭを制御手段３Ａから受ける。そして、学習器４Ａは、信号Ｓ＿ＣＴＬ＿ＴＭに基づいて、制御対象の端末装置ＴＭ＿ＣＴＬと制御対象外の端末装置ＴＭ＿ＵＮＣＴＬとを検知する。

そうすると、学習器４Ａは、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭ、観測情報ＩＦ＿ＯＢＶ＿ＴＭおよびフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＴＭに基づいて強化学習（Ｑ学習）を実行し、最大のＱ値と、最大のＱ値が得られるときの制御対象外の端末装置ＴＭ＿ＵＮＣＴＬの状態ｓ_ｔと、最大のＱ値が得られるときの制御対象の端末装置ＴＭ＿ＣＴＬの行動ａ_ｔとからなる出力情報ＩＦ＿ＯＵＴ＿ＴＭを制御手段３Ａへ出力する（ステップＳ２０）。

制御手段３Ａは、出力情報ＩＦ＿ＯＵＴ＿ＡＰ，ＩＦ＿ＯＵＴ＿ＴＭを学習器４Ａから受け、その受けた出力情報ＩＦ＿ＯＵＴ＿ＡＰに基づいて制御対象のアクセスポイントＡＰ＿ＣＴＬを制御し、出力情報ＩＦ＿ＯＵＴ＿ＴＭに基づいて制御対象の端末装置ＴＭ＿ＣＴＬを制御するように制御対象のアクセスポイントＡＰ＿ＣＴＬを制御する（ステップＳ２１）。これによって、制御装置１０Ａの動作が終了する。

なお、ステップＳ１８，Ｓ２０の詳細な動作は、図１２に示すフローチャートに従って実行される。図１２に示すフローチャートがステップＳ２０の詳細な動作として実行される場合、図１２の説明における「アクセスポイント」を「端末装置」と読み替えればよい。

図２２に示すフローチャート（図１２に示すフローチャートを含む）を実行することによって、アクセスポイントから端末装置へフレームを送信する下りリンクに加え、端末装置からアクセスポイントへフレームを送信する上りリンクについても、実施の形態１において説明した効果を享受できる。

なお、制御装置１０Ａの動作は、ソフトウェアによって実現されてもよい。この場合、制御装置１０Ａは、ＣＰＵ、ＲＯＭおよびＲＡＭを備える。そして、ＲＯＭは、図２２に示すフローチャート（図１２に示すフローチャートを含む）の各ステップからなるプログラムＰｒｏｇ＿Ｂを記憶する。

ＣＰＵは、ＲＯＭからプログラムＰｒｏｇ＿Ｂを読み出し、その読み出したプログラムＰｒｏｇ＿Ｂを実行して、制御対象のアクセスポイントＡＰ＿ＣＴＬおよび制御対象の端末装置ＴＭ＿ＣＴＬを制御する。

また、プログラムＰｒｏｇ＿Ｂは、ＣＤ，ＤＶＤ等の記録媒体に記録されて流通してもよい。プログラムＰｒｏｇ＿Ｂを記録した記録媒体がコンピュータに装着されると、コンピュータは、記録媒体からプログラムＰｒｏｇ＿Ｂを読み出して実行し、制御対象のアクセスポイントＡＰ＿ＣＴＬおよび制御対象の端末装置ＴＭ＿ＣＴＬを制御する。

従って、プログラムＰｒｏｇ＿Ｂを記録した記録媒体は、コンピュータ読み取り可能な記録媒体である。

実施の形態２におけるその他の説明は、実施の形態１における説明と同じである。

［実施の形態３］
図２３は、実施の形態３による制御装置の概略図である。図２３を参照して、実施の形態３による制御装置１０Ｂは、図２に示す制御装置１０の収集手段１、制御手段３および学習器４をそれぞれ収集手段１Ｂ、制御手段３Ｂおよび学習器４Ｂに変えたものであり、その他は、制御装置１０と同じである。

収集手段１Ｂは、アクセスポイントＡＰ＿０〜ＡＰ＿Ｎの全てから（Ｎ＋１）個の冗長検査情報ＩＦ＿ＲＣＨＫ、（Ｎ＋１）個の観測情報ＩＦ＿ＯＢＶおよび（Ｎ＋１）個のフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを収集する。

そして、収集手段１Ｂは、１つのアクセスポイントＡＰについて、冗長検査情報ＩＦ＿ＲＣＨＫと観測情報ＩＦ＿ＯＢＶとを相互に対応付けてデータベース２に格納する処理を（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎの全てについて実行する。また、収集手段１Ｂは、（Ｎ＋１）個のフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲをデータベース２に格納する。

図２４は、冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶの実施の形態３における記憶状態を示す概念図である。

図２４を参照して、冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶは、テーブルＴＢＬ１−２に格納される。テーブルＴＢＬ１−２は、図３に示すテーブルＴＢＬ１−１と同じ構成からなる。

テーブルＴＢＬ１−２は、アクセスポイントＡＰ＿１〜ＡＰ＿Ｎについての送信者、送信区間、送信レート、成功／失敗情報およびフレーム送信タイミングをテーブルＴＢＬ１−１に追加したものである。

その結果、送信者は、アクセスポイントＡＰ＿０〜ＡＰ＿ＮのＭＡＣアドレスＡｄｄ＿ＡＰ＿０〜Ａｄｄ＿ＡＰ＿Ｎからなる。送信区間は、アクセスポイントＡＰ＿０〜ＡＰ＿Ｎがフレームの送信に用いたタイムスロットの開始時刻および終了時刻“［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・”；“［ｔ_{ＳＴＡＲＴ＿１＿１}，ｔ_{ＥＮＤ＿１＿１}］，［ｔ_{ＳＴＡＲＴ＿１＿２}，ｔ_{ＥＮＤ＿１＿２}］，・・・”；“［ｔ_{ＳＴＡＲＴ＿２＿１}，ｔ_{ＥＮＤ＿２＿１}］，［ｔ_{ＳＴＡＲＴ＿２＿２}，ｔ_{ＥＮＤ＿２＿２}］，・・・”；・・・・・；“［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・”からなる。

送信レートは、“ＴＲ＿ｒａｔｅ＿０＿１，ＴＲ＿ｒａｔｅ＿０＿２，・・・”；“ＴＲ＿ｒａｔｅ＿１＿１，ＴＲ＿ｒａｔｅ＿１＿２，・・・”；“ＴＲ＿ｒａｔｅ＿２＿１，ＴＲ＿ｒａｔｅ＿２＿２，・・・”；・・・；“ＴＲ＿ｒａｔｅ＿Ｎ＿１，ＴＲ＿ｒａｔｅ＿Ｎ＿２，・・・”からなる。そして、送信レートＴＲ＿ｒａｔｅ＿０＿１，ＴＲ＿ｒａｔｅ＿０＿２，・・・は、それぞれ、送信区間［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・に対応付けられる。送信レートＴＲ＿ｒａｔｅ＿１＿１，ＴＲ＿ｒａｔｅ＿１＿２，・・・は、それぞれ、送信区間［ｔ_{ＳＴＡＲＴ＿１＿１}，ｔ_{ＥＮＤ＿１＿１}］，［ｔ_{ＳＴＡＲＴ＿１＿２}，ｔ_{ＥＮＤ＿１＿２}］，・・・に対応付けられる。送信レートＴＲ＿ｒａｔｅ＿２＿１，ＴＲ＿ｒａｔｅ＿２＿２，・・・は、それぞれ、送信区間［ｔ_{ＳＴＡＲＴ＿２＿１}，ｔ_{ＥＮＤ＿２＿１}］，［ｔ_{ＳＴＡＲＴ＿２＿２}，ｔ_{ＥＮＤ＿２＿２}］，・・・”に対応付けられる。以下、同様にして、送信レートＴＲ＿ｒａｔｅ＿Ｎ＿１，ＴＲ＿ｒａｔｅ＿Ｎ＿２，・・・は、それぞれ、送信区間［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・に対応付けられる。

成功／失敗情報は、図３において説明した通りである。そして、各成功／失敗情報は、それぞれ、送信区間“［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・”；“［ｔ_{ＳＴＡＲＴ＿１＿１}，ｔ_{ＥＮＤ＿１＿１}］，［ｔ_{ＳＴＡＲＴ＿１＿２}，ｔ_{ＥＮＤ＿１＿２}］，・・・”；“［ｔ_{ＳＴＡＲＴ＿２＿１}，ｔ_{ＥＮＤ＿２＿１}］，［ｔ_{ＳＴＡＲＴ＿２＿２}，ｔ_{ＥＮＤ＿２＿２}］，・・・”；・・・・・；“［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・”および送信レート“ＴＲ＿ｒａｔｅ＿０＿１，ＴＲ＿ｒａｔｅ＿０＿２，・・・”；“ＴＲ＿ｒａｔｅ＿１＿１，ＴＲ＿ｒａｔｅ＿１＿２，・・・”；“ＴＲ＿ｒａｔｅ＿２＿１，ＴＲ＿ｒａｔｅ＿２＿２，・・・”；・・・；“ＴＲ＿ｒａｔｅ＿Ｎ＿１，ＴＲ＿ｒａｔｅ＿Ｎ＿２，・・・”に対応付けられる。

フレーム送信タイミングＴＧ＿ＴＲ＿０〜ＴＧ＿ＴＲ＿Ｎは、それぞれ、アクセスポイントＡＰ＿０〜ＡＰ＿Ｎが次にフレームを送信するタイムスロットの開始時刻ｔ_{ＳＴＡＲＴ＿ｎｅｘｔ＿０}〜ｔ_{ＳＴＡＲＴ＿ｎｅｘｔ＿Ｎ}からなる。

収集手段１Ｂは、アクセスポイントＡＰ＿０〜ＡＰ＿Ｎから（Ｎ＋１）個の冗長検査情報ＩＦ＿ＲＣＨＫおよび（Ｎ＋１）個の観測情報ＩＦ＿ＯＢＶを受信すると、１つのアクセスポイント（アクセスポイントＡＰ＿０〜ＡＰ＿Ｎのいずれか）から受信した冗長検査情報ＩＦ＿ＲＣＨＫに含まれる送信者、送信区間、送信レートおよびフレーム送信タイミングと、観測情報ＩＦ＿ＯＢＶに含まれる成功／失敗情報ＩＦ＿_{ＳＵＣＣＥＳＳ／ＦＡＩＬＵＲＥ}とを相互に対応付けてテーブルＴＢＬ１−２に格納する処理を（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎの全てについて実行する。

その結果、（Ｎ＋１）個の冗長検査情報ＩＦ＿ＲＣＨＫおよび（Ｎ＋１）個の観測情報ＩＦ＿ＯＢＶは、テーブルＴＢＬ１−２に格納される。

図２５は、（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲの記憶状態を示す概念図である。

図２５を参照して、テーブルＴＢＬ２−２は、図４に示すテーブルＴＢＬ２−１と同じ構成からなる。そして、テーブルＴＢＬ２−２は、アクセスポイントＡＰ＿０についての送信者および送信スケジュールをテーブルＴＢＬ２−１に追加したものである。

アクセスポイントＡＰ＿０について、送信者は、アクセスポイントＡＰ＿０のＭＡＣアドレスＡｄｄ＿ＡＰ＿０からなり、送信スケジュールは、［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・からなる。

送信スケジュール［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・は、送信者Ａｄｄ＿ＡＰ＿０に対応付けられる。

このように、実施の形態３においては、データベース２は、テーブルＴＢＬ１−１，ＴＢＬ２−１に代えてテーブルＴＢＬ１−２，ＴＢＬ２−２を格納する。

制御手段３Ｂは、（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎから１つのアクセスポイントを制御対象のアクセスポイントＡＰ＿ＣＴＬとして選択し、その選択したアクセスポイントを実施の形態１における方法によって制御する処理を（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎの全てについて実行する。
（１）アクセスポイントＡＰ＿０が制御対象のアクセスポイントＡＰ＿ＣＴＬである場合
制御手段３Ｂは、アクセスポイントＡＰ＿０が制御対象のアクセスポイントＡＰ＿ＣＴＬであることを示す信号Ｓ＿ＣＴＬ＿ＡＰ＿０を生成する。そして、制御手段３Ｂは、データベース２に格納されたテーブルＴＢＬ１−２からアクセスポイントＡＰ＿０についての送信者、送信区間、送信レート、成功／失敗情報およびフレーム送信タイミングを読み出す。また、制御手段３Ｂは、データベース２に格納されたテーブルＴＢＬ２−２から制御対象外のアクセスポイントであるアクセスポイントＡＰ＿１〜ＡＰ＿Ｎについての送信者Ａｄｄ＿ＡＰ＿１〜Ａｄｄ＿ＡＰ＿Ｎおよび送信スケジュール“［ｔ_{ＳＴＡＲＴ＿１＿１}，ｔ_{ＥＮＤ＿１＿１}］，［ｔ_{ＳＴＡＲＴ＿１＿２}，ｔ_{ＥＮＤ＿１＿２}］，・・・”〜“［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・”を読み出す。

そうすると、制御手段３Ｂは、信号Ｓ＿ＣＴＬ＿ＡＰ＿０と、アクセスポイントＡＰ＿０についての送信者、送信区間、送信レート、成功／失敗情報およびフレーム送信タイミングと、アクセスポイントＡＰ＿１〜ＡＰ＿Ｎについての送信者Ａｄｄ＿ＡＰ＿１〜Ａｄｄ＿ＡＰ＿Ｎおよび送信スケジュール“［ｔ_{ＳＴＡＲＴ＿１＿１}，ｔ_{ＥＮＤ＿１＿１}］，［ｔ_{ＳＴＡＲＴ＿１＿２}，ｔ_{ＥＮＤ＿１＿２}］，・・・”〜“［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・”を学習器４Ｂへ出力する。

学習器４Ｂは、信号Ｓ＿ＣＴＬ＿ＡＰ＿０と、アクセスポイントＡＰ＿０についての送信者Ａｄｄ＿ＡＰ＿１〜Ａｄｄ＿ＡＰ＿Ｎおよび送信スケジュール“［ｔ_{ＳＴＡＲＴ＿１＿１}，ｔ_{ＥＮＤ＿１＿１}］，［ｔ_{ＳＴＡＲＴ＿１＿２}，ｔ_{ＥＮＤ＿１＿２}］，・・・”〜“［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・”を制御手段３Ｂから受ける。そして、学習器４Ｂは、信号Ｓ＿ＣＴＬ＿ＡＰ＿０に基づいてアクセスポイントＡＰ＿０が制御対象のアクセスポイントＡＰ＿ＣＴＬであり、アクセスポイントＡＰ＿１〜ＡＰ＿Ｎが制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬであることを検知する。

そして、学習器４Ｂは、アクセスポイントＡＰ＿０についての送信者、送信区間、送信レート、成功／失敗情報およびフレーム送信タイミングと、アクセスポイントＡＰ＿１〜ＡＰ＿Ｎについての送信者ＴＲ＿ＡＰ＿１〜ＴＲ＿ＡＰ＿Ｎおよび送信スケジュール“［ｔ_{ＳＴＡＲＴ＿１＿１}，ｔ_{ＥＮＤ＿１＿１}］，［ｔ_{ＳＴＡＲＴ＿１＿２}，ｔ_{ＥＮＤ＿１＿２}］，・・・”〜“［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・”に基づいて、実施の形態１において説明した方法によって強化学習（Ｑ学習）を実行し、出力情報ＩＦ＿ＯＵＴ＿ＡＰ＿０を制御手段３Ｂへ出力する。

制御手段３Ｂは、出力情報ＩＦ＿ＯＵＴ＿ＡＰ＿０を学習器４Ｂから受け、その受けた出力情報ＩＦ＿ＯＵＴ＿ＡＰ＿０に基づいてアクセスポイントＡＰ＿０を制御する。
（２）アクセスポイントＡＰ＿１が制御対象のアクセスポイントＡＰ＿ＣＴＬである場合
制御手段３Ｂは、アクセスポイントＡＰ＿１が制御対象のアクセスポイントＡＰ＿ＣＴＬであることを示す信号Ｓ＿ＣＴＬ＿ＡＰ＿１を生成する。そして、制御手段３Ｂは、データベース２に格納されたテーブルＴＢＬ１−２からアクセスポイントＡＰ＿１についての送信者、送信区間、送信レート、成功／失敗情報およびフレーム送信タイミングを読み出す。また、制御手段３Ｂは、データベース２に格納されたテーブルＴＢＬ２−２から制御対象外のアクセスポイントであるアクセスポイントＡＰ＿０，ＡＰ＿２〜ＡＰ＿Ｎについての送信者Ａｄｄ＿ＡＰ＿０，Ａｄｄ＿ＡＰ＿２〜Ａｄｄ＿ＡＰ＿Ｎおよび送信スケジュール“［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・”，“［ｔ_{ＳＴＡＲＴ＿２＿１}，ｔ_{ＥＮＤ＿２＿１}］，［ｔ_{ＳＴＡＲＴ＿２＿２}，ｔ_{ＥＮＤ＿２＿２}］，・・・”〜“［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・”を読み出す。

そうすると、制御手段３Ｂは、信号Ｓ＿ＣＴＬ＿ＡＰ＿１と、アクセスポイントＡＰ＿１についての送信者、送信区間、送信レート、成功／失敗情報およびフレーム送信タイミングと、アクセスポイントＡＰ＿０，ＡＰ＿２〜ＡＰ＿Ｎについての送信者Ａｄｄ＿ＡＰ＿０，Ａｄｄ＿ＡＰ＿２〜Ａｄｄ＿ＡＰ＿Ｎおよび送信スケジュール“［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・”，“［ｔ_{ＳＴＡＲＴ＿２＿１}，ｔ_{ＥＮＤ＿２＿１}］，［ｔ_{ＳＴＡＲＴ＿２＿２}，ｔ_{ＥＮＤ＿２＿２}］，・・・”〜“［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・”を学習器４Ｂへ出力する。

学習器４Ｂは、信号Ｓ＿ＣＴＬ＿ＡＰ＿１と、アクセスポイントＡＰ＿１についての送信者、送信区間、送信レート、成功／失敗情報およびフレーム送信タイミングと、アクセスポイントＡＰ＿０，ＡＰ＿２〜ＡＰ＿Ｎについての送信者Ａｄｄ＿ＡＰ＿０，Ａｄｄ＿ＡＰ＿２〜Ａｄｄ＿ＡＰ＿Ｎおよび送信スケジュール“［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・”，“［ｔ_{ＳＴＡＲＴ＿２＿１}，ｔ_{ＥＮＤ＿２＿１}］，［ｔ_{ＳＴＡＲＴ＿２＿２}，ｔ_{ＥＮＤ＿２＿２}］，・・・”〜“［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・”を制御手段３Ｂから受ける。そして、学習器４Ｂは、信号Ｓ＿ＣＴＬ＿ＡＰ＿１に基づいてアクセスポイントＡＰ＿１が制御対象のアクセスポイントＡＰ＿ＣＴＬであり、アクセスポイントＡＰ＿０，ＡＰ＿２〜ＡＰ＿Ｎが制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬであることを検知する。

そして、学習器４Ｂは、アクセスポイントＡＰ＿１についての送信者、送信区間、送信レート、成功／失敗情報およびフレーム送信タイミングと、アクセスポイントＡＰ＿０，ＡＰ＿２〜ＡＰ＿Ｎについての送信者Ａｄｄ＿ＡＰ＿０，Ａｄｄ＿ＡＰ＿２〜Ａｄｄ＿ＡＰ＿Ｎおよび送信スケジュール“［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・”，“［ｔ_{ＳＴＡＲＴ＿２＿１}，ｔ_{ＥＮＤ＿２＿１}］，［ｔ_{ＳＴＡＲＴ＿２＿２}，ｔ_{ＥＮＤ＿２＿２}］，・・・”〜“［ｔ_{ＳＴＡＲＴ＿Ｎ＿１}，ｔ_{ＥＮＤ＿Ｎ＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ＿２}，ｔ_{ＥＮＤ＿Ｎ＿２}］，・・・”に基づいて、実施の形態１において説明した方法によって強化学習（Ｑ学習）を実行し、出力情報ＩＦ＿ＯＵＴ＿ＡＰ＿１を制御手段３Ｂへ出力する。

制御手段３Ｂは、出力情報ＩＦ＿ＯＵＴ＿ＡＰ＿１を学習器４Ｂから受け、その受けた出力情報ＩＦ＿ＯＵＴ＿ＡＰ＿１に基づいてアクセスポイントＡＰ＿１を制御する。

以下、同様にして、
（３）アクセスポイントＡＰ＿Ｎが制御対象のアクセスポイントＡＰ＿ＣＴＬである場合
制御手段３Ｂは、アクセスポイントＡＰ＿Ｎが制御対象のアクセスポイントＡＰ＿ＣＴＬであることを示す信号Ｓ＿ＣＴＬ＿ＡＰ＿Ｎを生成する。そして、制御手段３Ｂは、データベース２に格納されたテーブルＴＢＬ１−２からアクセスポイントＡＰ＿Ｎについての送信者、送信区間、送信レート、成功／失敗情報およびフレーム送信タイミングを読み出す。また、制御手段３Ｂは、データベース２に格納されたテーブルＴＢＬ２−２から制御対象外のアクセスポイントであるアクセスポイントＡＰ＿０〜ＡＰ＿Ｎ−１についての送信者Ａｄｄ＿ＡＰ＿０〜Ａｄｄ＿ＡＰ＿Ｎ−１および送信スケジュール“［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・”〜“［ｔ_{ＳＴＡＲＴ＿Ｎ−１＿１}，ｔ_{ＥＮＤ＿Ｎ−１＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ−１＿２}，ｔ_{ＥＮＤ＿Ｎ−１＿２}］，・・・”を読み出す。

そうすると、制御手段３Ｂは、信号Ｓ＿ＣＴＬ＿ＡＰ＿Ｎと、アクセスポイントＡＰ＿Ｎについての送信者、送信区間、送信レート、成功／失敗情報およびフレーム送信タイミングと、アクセスポイントＡＰ＿０〜ＡＰ＿Ｎ−１についての送信者Ａｄｄ＿ＡＰ＿０〜Ａｄｄ＿ＡＰ＿Ｎ−１および送信スケジュール“［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・”〜“［ｔ_{ＳＴＡＲＴ＿Ｎ−１＿１}，ｔ_{ＥＮＤ＿Ｎ−１＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ−１＿２}，ｔ_{ＥＮＤ＿Ｎ−１＿２}］，・・・”を学習器４Ｂへ出力する。

学習器４Ｂは、信号Ｓ＿ＣＴＬ＿ＡＰ＿Ｎと、アクセスポイントＡＰ＿Ｎについての送信者、送信区間、送信レート、成功／失敗情報およびフレーム送信タイミングと、アクセスポイントＡＰ＿０〜ＡＰ＿Ｎ−１についての送信者Ａｄｄ＿ＡＰ＿０〜Ａｄｄ＿ＡＰ＿Ｎ−１および送信スケジュール“［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・”〜“［ｔ_{ＳＴＡＲＴ＿Ｎ−１＿１}，ｔ_{ＥＮＤ＿Ｎ−１＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ−１＿２}，ｔ_{ＥＮＤ＿Ｎ−１＿２}］，・・・”を制御手段３Ｂから受ける。そして、学習器４Ｂは、信号Ｓ＿ＣＴＬ＿ＡＰ＿Ｎに基づいてアクセスポイントＡＰ＿Ｎが制御対象のアクセスポイントＡＰ＿ＣＴＬであり、アクセスポイントＡＰ＿０〜ＡＰ＿Ｎ−１が制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬであることを検知する。

そして、学習器４Ｂは、アクセスポイントＡＰ＿Ｎについての送信者、送信区間、送信レート、成功／失敗情報およびフレーム送信タイミングと、アクセスポイントＡＰ＿０〜ＡＰ＿Ｎ−１についての送信者Ａｄｄ＿ＡＰ＿０〜Ａｄｄ＿ＡＰ＿Ｎ−１および送信スケジュール“［ｔ_{ＳＴＡＲＴ＿０＿１}，ｔ_{ＥＮＤ＿０＿１}］，［ｔ_{ＳＴＡＲＴ＿０＿２}，ｔ_{ＥＮＤ＿０＿２}］，・・・”〜“［ｔ_{ＳＴＡＲＴ＿Ｎ−１＿１}，ｔ_{ＥＮＤ＿Ｎ−１＿１}］，［ｔ_{ＳＴＡＲＴ＿Ｎ−１＿２}，ｔ_{ＥＮＤ＿Ｎ−１＿２}］，・・・”に基づいて、実施の形態１において説明した方法によって強化学習（Ｑ学習）を実行し、出力情報ＩＦ＿ＯＵＴ＿ＡＰ＿Ｎを制御手段３Ｂへ出力する。

制御手段３Ｂは、出力情報ＩＦ＿ＯＵＴ＿ＡＰ＿Ｎを学習器４Ｂから受け、その受けた出力情報ＩＦ＿ＯＵＴ＿ＡＰ＿Ｎに基づいてアクセスポイントＡＰ＿Ｎを制御する。

なお、学習器４Ｂは、アクセスポイントＡＰ＿０〜ＡＰ＿Ｎのうちのいずれか１つのアクセスポイントが制御対象のアクセスポイントＡＰ＿ＣＴＬである場合、制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬについてのＮ個の送信者およびＮ個の送信スケジュールを制御手段３Ｂから受けるので、Ｎ個の送信者およびＮ個の送信スケジュールに基づいて制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬの状態ｓ_ｔを決定することができる。

図２６は、図２３に示す制御装置１０Ｂの動作を説明するためのフローチャートである。図２６を参照して、制御装置１０Ｂの動作が開始されると、収集手段１Ｂは、（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎから（Ｎ＋１）個の冗長検査情報ＩＦ＿ＲＣＨＫおよび（Ｎ＋１）個の観測情報ＩＦ＿ＯＢＶを収集する（ステップＳ３１）。また、収集手段１Ｂは、（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎにおける（Ｎ＋１）個のフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＡＰ＿０〜ＩＦ＿ＳＣＨ＿ＴＲ＿ＡＰ＿Ｎを（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎから収集する（ステップＳ３２）。

そして、収集手段１Ｂは、（Ｎ＋１）個の冗長検査情報ＩＦ＿ＲＣＨＫおよび（Ｎ＋１）個の観測情報ＩＦ＿ＯＢＶをデータベース２のテーブルＴＢＬ１−２に格納し（ステップＳ３３）、（Ｎ＋１）個のフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲ＿ＡＰ＿０〜ＩＦ＿ＳＣＨ＿ＴＲ＿ＡＰ＿Ｎをデータベース２のテーブルＴＢＬ２−２に格納する（ステップＳ３４）。

その後、制御手段３Ｂは、ｍ＝０を設定する（ステップＳ３５）。なお、ｍ＝０，１，２，３，・・・，Ｎである。

そして、制御手段３Ｂは、（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎのうちの１つのアクセスポイントＡＰ＿ｍを制御対象のアクセスポイントＡＰ＿ＣＴＬとして選択する（ステップＳ３６）。

そうすると、制御手段３Ｂは、アクセスポイントＡＰ＿ｍについての冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶをテーブルＴＢＬ１−２から読み出し、アクセスポイントＡＰ＿ｍ以外のアクセスポイントについてのフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲをテーブルＴＢＬ２−２から読み出す。

そして、制御手段３Ｂは、アクセスポイントＡＰ＿ｍが制御対象のアクセスポイントＡＰ＿ＣＴＬであることを示す信号Ｓ＿ＣＴＬ＿ＡＰ＿ｍを生成する。その後、制御手段３Ｂは、信号Ｓ＿ＣＴＬ＿ＡＰ＿ｍと、アクセスポイントＡＰ＿ｍについての冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶと、アクセスポイントＡＰ＿ｍ以外のアクセスポイントについてのＮ個のフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲとを学習器４Ｂへ出力する（ステップＳ３７）。

学習器４Ｂは、信号Ｓ＿ＣＴＬ＿ＡＰ＿ｍと、アクセスポイントＡＰ＿ｍについての冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶと、アクセスポイントＡＰ＿ｍ以外のアクセスポイントについてのＮ個のフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲとを制御手段３Ｂから受ける。そして、学習器４Ｂは、信号Ｓ＿ＣＴＬ＿ＡＰ＿ｍに基づいて、アクセスポイントＡＰ＿ｍが制御対象のアクセスポイントＡＰ＿ＣＴＬであることを検知するとともに、アクセスポイントＡＰ＿ｍ以外のアクセスポイントが制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬであることを検知する。

そうすると、学習器４Ｂは、アクセスポイントＡＰ＿ｍについての冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶと、アクセスポイントＡＰ＿ｍ以外のアクセスポイントについてのＮ個のフレームの送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲとに基づいて強化学習（Ｑ学習）を実行し、最大のＱ値と、最大のＱ値が得られるときの制御対象外のアクセスポイントＡＰ＿ＵＮＣＴＬの状態ｓ_ｔと、最大のＱ値が得られるときの制御対象のアクセスポイントＡＰ＿ｍの行動ａ_ｔとからなる出力情報ＩＦ＿ＯＵＴ＿ＡＰ＿ｍを制御手段３Ｂへ出力する（ステップＳ３８）。

そして、制御手段３Ｂは、出力情報ＩＦ＿ＯＵＴ＿ＡＰ＿ｍを学習器４Ｂから受けると、ｍ＝Ｎ＋１であるか否かを判定する（ステップＳ３９）。ステップＳ３９において、ｍ＝Ｎ＋１でないと判定されたとき、制御手段３Ｂは、ｍ＝ｍ＋１を設定する（ステップＳ４０）。その後、一連の動作は、ステップＳ３６へ移行し、ステップＳ３９において、ｍ＝Ｎ＋１であると判定されるまで、ステップＳ３６〜ステップＳ４０が繰り返し実行される。

そして、ステップＳ４０において、ｍ＝Ｎ＋１であると判定されると、制御手段３Ｂは、（Ｎ＋１）個の出力情報ＩＦ＿ＯＵＴ＿ＡＰ＿０〜ＩＦ＿ＯＵＴ＿ＡＰ＿Ｎに基づいて、Ｑ値が収束したか否かを判定する（ステップＳ４１）。この場合、制御手段３Ｂは、学習器４Ｂから受けた１つの制御対象のアクセスポイントＡＰ＿ＣＴＬについての出力情報ＩＦ＿ＯＵＴを保持している。即ち、制御手段３Ｂは、１つの制御対象のアクセスポイントＡＰ＿ＣＴＬについて、ステップＳ３６〜ステップＳ４０の実行回数と同じ個数の出力情報ＩＦ＿ＯＵＴを保持している。そして、制御手段３Ｂは、１個以上の出力情報ＩＦ＿ＯＵＴに基づいて出力情報ＩＦ＿ＯＵＴに含まれる最大のＱ値が飽和しているか否かを判定することによってＱ値が収束したか否かを判定する処理を（Ｎ＋１）個の制御対象のアクセスポイントＡＰ＿ＣＴＬの全てについて実行する。（Ｎ＋１）個の制御対象のアクセスポイントＡＰ＿ＣＴＬの全てについてＱ値が収束しているとき、制御手段３Ｂは、ステップＳ４１において、Ｑ値が収束したと判定し、（Ｎ＋１）個の制御対象のアクセスポイントＡＰ＿ＣＴＬのうちの少なくとも１つについてＱ値が収束していないとき、制御手段３Ｂは、ステップＳ４１において、Ｑ値が収束していないと判定する。

そして、ステップＳ４１において、Ｑ値が収束していないと判定されたとき、一連の動作は、ステップＳ３５へ移行し、ステップＳ４１において、Ｑ値が収束したと判定されるまで、ステップＳ３５〜ステップＳ４１が繰り返し実行される。

制御手段３Ｂは、ステップＳ４１において、Ｑ値が収束したと判定されると、（Ｎ＋１）個の出力情報ＩＦ＿ＯＵＴ＿０〜ＩＦ＿ＯＵＴ＿Ｎに基づいて、それぞれ、（Ｎ＋１）個の制御対象のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎを制御する（ステップＳ４２）。これによって、制御装置１０Ｂの動作が終了する。

なお、図２６に示すステップＳ３８の詳細な動作は、図１２に示すフローチャートによって実行される。そして、図１２に示すフローチャートのステップＳ６７において、学習器４Ｂは、例えば、ステップＳ６３〜ステップＳ６７を１万回繰り返し実行すると、終了条件が成立すると判定する。なお、ステップＳ６３〜ステップＳ６７を繰り返し実行する回数は、１万回以上であればよい。その結果、図２６に示すステップＳ３６〜ステップＳ４０を繰り返し実行することによって、ステップＳ３８（図１２に示すフローチャート）を１万回づつ実行することを（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎの全てについて順次実行することになる。そうすると、（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎの各々について、Ｑ学習の結果（最大のＱ値）を収束し易くできるという効果が得られる。従って、複数の制御対象のアクセスポイントＡＰ＿ＣＴＬについて、実施の形態１において説明した効果を迅速に得ることができる。

また、ステップＳ３６において、制御対象のアクセスポイントＡＰ＿ｍを選択する順番は、ランダムであってもよく、ラウンドロビン方式によって決定されてもよく、前回、送信できなかったアクセスポイントを優先して選択するようにしてもよく、（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿ＮのＭＡＣアドレスの順番に選択してもよい。

図２６に示すフローチャートによれば、（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎの全てについて、フレームの送信可否およびフレームを送信するときの送信レートの制御を行うことができる。

なお、制御装置１０Ｂの動作は、ソフトウェアによって実現されてもよい。この場合、制御装置１０Ｂは、ＣＰＵ、ＲＯＭおよびＲＡＭを備える。そして、ＲＯＭは、図２６に示すフローチャート（図１２に示すフローチャートを含む）の各ステップからなるプログラムＰｒｏｇ＿Ｃを記憶する。

ＣＰＵは、ＲＯＭからプログラムＰｒｏｇ＿Ｃを読み出し、その読み出したプログラムＰｒｏｇ＿Ｃを実行して、複数のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎを制御する。

また、プログラムＰｒｏｇ＿Ｃは、ＣＤ，ＤＶＤ等の記録媒体に記録されて流通してもよい。プログラムＰｒｏｇ＿Ｃを記録した記録媒体がコンピュータに装着されると、コンピュータは、記録媒体からプログラムＰｒｏｇ＿Ｃを読み出して実行し、複数のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎを制御する。

従って、プログラムＰｒｏｇ＿Ｃを記録した記録媒体は、コンピュータ読み取り可能な記録媒体である。

なお、実施の形態３においては、上述した実施の形態２において説明した端末装置ＴＭの制御を更に追加してもよい。この場合、制御装置１０Ｂは、制御装置１０Ａにおける制御対象のアクセスポイントＡＰ＿ＣＴＬと制御対象の端末装置ＴＭ＿ＣＴＬとを制御する機能を（Ｎ＋１）個のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎに適用して（Ｎ＋１）個の制御対象のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎと、各制御対象のアクセスポイントと同じサービスセットに含まれる制御対象の端末装置ＴＭ＿ＣＴＬとを制御する。そして、制御装置１０Ｂの動作は、ステップＳ３６〜ステップＳ４１による処理と同じ処理を（Ｎ＋１）個の制御対象の端末装置ＴＭ＿ＣＴＬについて実行するステップをステップＳ４１とステップＳ４２との間に追加したフローチャートに従って実行される。

実施の形態３におけるその他の説明は、実施の形態１，２における説明と同じである。

この発明の実施の形態においては、各アクセスポイントは、上述した実施の形態１による制御装置１０を備えていてもよい。図２７は、図１に示す制御装置１０を備えるアクセスポイントの概略図である。

図２７を参照して、アクセスポイント２０は、制御装置１０と、アンテナ２１と、通信手段２２と、ホストシステム２３とを備える。

制御装置１０は、有線ケーブル５を介して、アクセスポイント２０以外のアクセスポイントから送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲを収集するとともに、ホストシステム２３からアクセスポイント２０の冗長検査情報ＩＦ＿ＲＣＨＫおよび観測情報ＩＦ＿ＯＢＶを受ける。

そして、制御装置１０は、冗長検査情報ＩＦ＿ＲＣＨＫ、観測情報ＩＦ＿ＯＢＶおよび送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＲに基づいて上述した方法によって強化学習（Ｑ学習）を実行し、最大のＱ値、最大のＱ値が得られるときのアクセスポイント２０以外のアクセスポイントの状態ｓ_ｔ、および最大のＱ値が得られるときのアクセスポイント２０の行動ａ_ｔからなる出力情報ＩＦ＿ＯＵＴをホストシステム２３へ出力する。

通信手段２２は、フレームおよび通信条件（フレームを送信するタイムスロットおよび送信レート）をホストシステム２３から受け、その受けた通信条件でフレームをアンテナ２１を介して端末装置へ送信する。

また、通信手段２２は、アンテナ２１を介して端末装置からフレームを受信し、その受信したフレームをホストシステム２３へ出力する。

ホストシステム２３は、出力情報ＩＦ＿ＯＵＴを制御装置１０から受ける。そして、ホストシステム２３は、出力情報ＩＦ＿ＯＵＴに基づいてフレームを送信するか否かを決定し、フレームを送信するとき、フレームと、フレームを送信するタイムスロットおよび送信レート（出力情報ＩＦ＿ＯＵＴに含まれる行動ａ_ｔによって決定される送信レート）とを通信手段２２へ出力する。また、ホストシステム２３は、フレームを通信手段２２から受ける。

アクセスポイント２０は、制御装置１０を備えるので、端末装置との間の無線区間で直接観測できない要因によるフレーム損失の原因の解析精度を向上して端末装置との間の通信におけるスループットを向上できる。

なお、アクセスポイント２０は、制御装置１０に代えて制御装置１０Ａを備えていてもよい。この場合、通信手段２２は、制御対象の端末装置から冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭおよび観測情報ＩＦ＿ＯＢＶ＿ＴＭを受信するとともに、制御対象外の端末装置から送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＧ＿ＴＭを受信する。そして、通信手段２２は、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭ、観測情報ＩＦ＿ＯＢＶ＿ＴＭおよび送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＧ＿ＴＭをホストシステム２３へ出力する。

ホストシステム２３は、冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭ、観測情報ＩＦ＿ＯＢＶ＿ＴＭおよび送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＧ＿ＴＭを通信手段２２から受け、その受けた冗長検査情報ＩＦ＿ＲＣＨＫ＿ＴＭ、観測情報ＩＦ＿ＯＢＶ＿ＴＭおよび送信スケジュール情報ＩＦ＿ＳＣＨ＿ＴＧ＿ＴＭを制御装置１０Ａへ出力する。

そして、ホストシステム２３は、出力情報ＩＦ＿ＯＵＴ＿ＡＰ，ＩＦ＿ＯＵＴ＿ＴＭを制御装置１０Ａから受ける。ホストシステム２３は、出力情報ＩＦ＿ＯＵＴ＿ＡＰに基づいてフレームを送信するか否かを決定し、フレームを送信するとき、フレームと、フレームを送信するタイムスロットおよび送信レート（出力情報ＩＦ＿ＯＵＴ＿ＡＰに含まれる行動ａ_ｔによって決定される送信レート）とを通信手段２２へ出力する。

また、ホストシステム２３は、通信手段２２を介して出力情報ＩＦ＿ＯＵＴ＿ＴＭを制御対象の端末装置ＴＭ＿ＣＴＬへ送信することによって端末装置ＴＭ＿ＣＴＬを制御する。

この発明の実施の形態においては、アクセスポイントＡＰ＿０〜ＡＰ＿Ｎは、「複数の基地局」を構成する。

また、この発明の実施の形態においては、冗長検査情報ＩＦ＿ＲＣＨＫに含まれる送信区間および送信レートは、「報酬基礎情報」を構成し、冗長検査情報ＩＦ＿ＲＣＨＫに含まれるフレーム送信タイミングは、「終了条件情報」を構成する。従って、この発明の実施の形態においては、冗長検査情報ＩＦ＿ＲＣＨＫは、報酬基礎情報と終了条件情報とを含む。

上述した実施の形態１においては、１つのサービスセットＢＳＳ＿０に含まれる１つのアクセスポイントＡＰ＿０を制御する制御装置１０について説明した。また、上述した実施の形態２においては、１つのサービスセットＢＳＳ＿０に含まれるアクセスポイントＡＰ＿０および端末装置ＴＭ＿０を制御する制御装置１０Ａについて説明した。更に、上述した実施の形態３においては、複数のサービスセットＢＳＳ＿０〜ＢＳＳ＿Ｎに含まれる複数のアクセスポイントＡＰ＿０〜ＡＰ＿Ｎの各々を制御する制御装置１０Ｂについて説明した。

従って、この発明の実施の形態による制御装置は、少なくとも１つのサービスセットを制御するものであればよい。より具体的には、この発明の実施の形態による制御装置は、基地局と端末装置とを含み、かつ、タイムスロットを用いてフレームを無線通信によって送受信するサービスセットを制御する制御装置であって、
無線通信によって送信されるフレームの損失原因の特定に有益な情報であり、かつ、無線通信を実行することによって観測できない情報である冗長検査情報と、フレームを送信したときにフレームの送信が失敗したか成功したかを示し、かつ、無線通信を実行することによって観測できる情報である成功／失敗情報からなる観測情報とを無線通信環境に存在する複数のサービスセットのうちの制御対象のサービスセットから収集するとともに、フレームの送信スケジュールを複数のサービスセットのうちの制御対象外のサービスセットから収集する収集手段と、
冗長検査情報、観測情報およびフレームの送信スケジュールを入力情報としてＱ学習を実行し、Ｑ学習の終了条件が満たされたときの最大のＱ値、最大のＱ値が得られるときの制御対象外のサービスセットの状態および最大のＱ値が得られるときの制御対象のサービスセットの行動を出力情報として出力する学習器と、
学習器から出力情報を受け、その受けた出力情報に基づいて制御対象のサービスセットを制御する制御手段とを備え、
冗長検査情報は、Ｑ学習におけるＱテーブルの更新に用いる報酬を算出するための報酬基礎情報を含み、
学習器は、制御対象外のサービスセットの状態と制御対象のサービスセットの行動とによって構成されるＱテーブルを保持し、制御対象のサービスセットがε-グリーディ法によって次の行動を選択したときの報酬を報酬基礎情報を用いて演算し、その演算した報酬に基づいて、割引率を零としたＱテーブルの更新式を用いてＱテーブルを更新する更新処理を終了条件が満たされるまで繰り返し実行して出力情報を前記制御手段へ出力すればよい。

また、この発明の実施の形態によるプログラムは、基地局と端末装置とを含み、かつ、タイムスロットを用いてフレームを無線通信によって送受信するサービスセットの制御をコンピュータに実行させるためのプログラムであって、
収集手段が、無線通信によって送信されるフレームの損失原因の特定に有益な情報であり、かつ、無線通信を実行することによって観測できない情報である冗長検査情報と、フレームを送信したときにフレームの送信が失敗したか成功したかを示し、かつ、無線通信を実行することによって観測できる情報である成功／失敗情報からなる観測情報とを無線通信環境に存在する複数のサービスセットのうちの制御対象のサービスセットから収集するとともに、フレームの送信スケジュールを複数のサービスセットのうちの制御対象外のサービスセットから収集する第１のステップと、
学習器が、冗長検査情報、観測情報およびフレームの送信スケジュールを入力情報としてＱ学習を実行し、Ｑ学習の終了条件が満たされたときの最大のＱ値、最大のＱ値が得られるときの制御対象外のサービスセットの状態および最大のＱ値が得られるときの制御対象のサービスセットの行動を出力情報として出力する第２のステップと、
制御手段が、学習器から出力情報を受け、その受けた出力情報に基づいて制御対象のサービスセットを制御する第３のステップとをコンピュータに実行させ、
冗長検査情報は、Ｑ学習におけるＱテーブルの更新に用いる報酬を算出するための報酬基礎情報を含み、
学習器は、第２のステップにおいて、制御対象外のサービスセットの状態と制御対象のサービスセットの行動とによって構成されるＱテーブルを保持し、制御対象のサービスセットがε-グリーディ法によって次の行動を選択したときの報酬を報酬基礎情報を用いて演算し、その演算した報酬に基づいて、割引率を零としたＱテーブルの更新式を用いてＱテーブルを更新する更新処理を終了条件が満たされるまで繰り返し実行して出力情報を制御手段へ出力すればよい。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

この発明は、制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体に適用される。

１，１Ａ，１Ｂ収集手段、２データベース、３，３Ａ，３Ｂ制御手段、４，４Ａ，４Ｂ学習器、５有線ケーブル、１０，１０Ａ，１０Ｂ制御装置、２１アンテナ、２２通信手段、２３ホストシステム、１００通信システム。

Claims

基地局と端末装置とを含み、かつ、タイムスロットを用いてフレームを無線通信によって送受信するサービスセットを制御する制御装置であって、
無線通信によって送信されるフレームの損失原因の特定に有益な情報であり、かつ、無線通信を実行することによって観測できない情報である冗長検査情報と、前記フレームを送信したときに前記フレームの送信が失敗したか成功したかを示し、かつ、無線通信を実行することによって観測できる情報である成功／失敗情報からなる観測情報とを無線通信環境に存在する複数のサービスセットのうちの制御対象のサービスセットから収集するとともに、フレームの送信スケジュールを前記複数のサービスセットのうちの制御対象外のサービスセットから収集する収集手段と、
前記冗長検査情報、前記観測情報および前記フレームの送信スケジュールを入力情報としてＱ学習を実行し、前記Ｑ学習の終了条件が満たされたときの最大のＱ値、前記最大のＱ値が得られるときの前記制御対象外のサービスセットの状態および前記最大のＱ値が得られるときの前記制御対象のサービスセットの行動を出力情報として出力する学習器と、
前記学習器から前記出力情報を受け、その受けた出力情報に基づいて前記制御対象のサービスセットを制御する制御手段とを備え、
前記冗長検査情報は、前記Ｑ学習におけるＱテーブルの更新に用いる報酬を算出するための報酬基礎情報を含み、
前記学習器は、前記制御対象外のサービスセットの状態と前記制御対象のサービスセットの行動とによって構成されるＱテーブルを保持し、前記制御対象のサービスセットがε-グリーディ法によって次の行動を選択したときの報酬を前記報酬基礎情報を用いて演算し、その演算した報酬に基づいて、割引率を零としたＱテーブルの更新式を用いて前記Ｑテーブルを更新する更新処理を前記終了条件が満たされるまで繰り返し実行して前記出力情報を前記制御手段へ出力する、制御装置。
前記収集手段は、前記複数のサービスセットのうちの１つのサービスセットに含まれる制御対象の基地局から前記冗長検査情報および前記観測情報を収集するとともに、前記複数のサービスセットのうちの前記１つのサービスセット以外のサービスセットの基地局から前記フレームの送信スケジュールを収集し、
前記学習器は、前記１つのサービスセットを前記制御対象のサービスセットとして前記更新処理を前記終了条件が満たされるまで繰り返し実行して前記基地局についての第１の前記出力情報を前記制御手段へ出力し、
前記制御手段は、前記学習器から受けた第１の出力情報に基づいて前記１つのサービスセットの前記基地局を制御する、請求項１に記載の制御装置。
前記収集手段は、更に、前記１つのサービスセットに含まれる制御対象の端末装置から前記冗長検査情報を収集するとともに前記１つのサービスセットに含まれる基地局から前記端末装置についての観測情報を収集し、前記１つのサービスセットに含まれる制御対象外の端末装置からフレームの送信スケジュールを収集し、
前記学習器は、更に、前記端末装置についての前記観測情報と、前記制御対象の前記端末装置から収集された前記冗長検査情報と、前記制御対象外の端末装置から収集されたフレームの送信スケジュールとに基づいて、前記更新処理を前記終了条件が満たされるまで繰り返し実行して前記制御対象の端末装置についての第２の前記出力情報を前記制御手段へ出力し、
前記制御手段は、更に、前記１つのサービスセットの前記基地局が前記第２の出力情報に基づいて前記制御対象の端末装置を制御するように前記１つのサービスセットの前記基地局を制御する、請求項２に記載の制御装置。
前記収集手段は、前記複数のサービスセットの複数の基地局から前記冗長検査情報、前記観測情報および前記フレームの送信スケジュールを収集し、
前記学習器は、前記冗長検査情報、前記観測情報および前記フレームの送信スケジュールに基づいて、前記複数のサービスセットのうちの各サービスセットについて前記更新処理を前記終了条件が満たされるまで繰り返し実行して複数の前記出力情報を前記制御手段へ出力し、
前記制御手段は、前記学習器から受けた複数の出力情報に基づいて、それぞれ、前記複数のサービスセットの前記複数の基地局を制御する、請求項１に記載の制御装置。
前記報酬は、前記制御対象のサービスセットにおいて、１つのタイムスロットにおける前記フレームの送信に成功したデータ量である、請求項１から請求項４のいずれか１項に記載の制御装置。
前記冗長検査情報は、前記報酬基礎情報と、前記終了条件を示す終了条件情報とを含む、請求項１から請求項５のいずれか１項に記載の制御装置。
前記冗長検査情報は、送信者と、前記フレームの送信区間と、送信レートと、フレーム送信タイミングとを含み、
前記学習器は、前記フレームの送信区間および前記送信レートを前記報酬基礎情報として前記報酬を演算するとともに、前記更新処理を前記フレーム送信タイミングが到来するまで繰り返し実行して前記出力情報を前記制御手段へ出力する、請求項６に記載の制御装置。
請求項１から請求項７のいずれか１項に記載の制御装置を備える基地局。
基地局と端末装置とを含み、かつ、タイムスロットを用いてフレームを無線通信によって送受信するサービスセットの制御をコンピュータに実行させるためのプログラムであって、
収集手段が、無線通信によって送信されるフレームの損失原因の特定に有益な情報であり、かつ、無線通信を実行することによって観測できない情報である冗長検査情報と、前記フレームを送信したときに前記フレームの送信が失敗したか成功したかを示し、かつ、無線通信を実行することによって観測できる情報である成功／失敗情報からなる観測情報とを無線通信環境に存在する複数のサービスセットのうちの制御対象のサービスセットから収集するとともに、フレームの送信スケジュールを前記複数のサービスセットのうちの制御対象外のサービスセットから収集する第１のステップと、
学習器が、前記冗長検査情報、前記観測情報および前記フレームの送信スケジュールを入力情報としてＱ学習を実行し、前記Ｑ学習の終了条件が満たされたときの最大のＱ値、前記最大のＱ値が得られるときの前記制御対象外のサービスセットの状態および前記最大のＱ値が得られるときの前記制御対象のサービスセットの行動を出力情報として出力する第２のステップと、
制御手段が、前記学習器から前記出力情報を受け、その受けた出力情報に基づいて前記制御対象のサービスセットを制御する第３のステップとをコンピュータに実行させ、
前記冗長検査情報は、前記Ｑ学習におけるＱテーブルの更新に用いる報酬を算出するための報酬基礎情報を含み、
前記学習器は、前記第２のステップにおいて、前記制御対象外のサービスセットの状態と前記制御対象のサービスセットの行動とによって構成されるＱテーブルを保持し、前記制御対象のサービスセットがε-グリーディ法によって次の行動を選択したときの報酬を前記報酬基礎情報を用いて演算し、その演算した報酬に基づいて、割引率を零としたＱテーブルの更新式を用いて前記Ｑテーブルを更新する更新処理を前記終了条件が満たされるまで繰り返し実行して前記出力情報を前記制御手段へ出力する、コンピュータに実行させるためのプログラム。
前記収集手段は、前記第１のステップにおいて、前記複数のサービスセットのうちの１つのサービスセットに含まれる制御対象の基地局から前記冗長検査情報および前記観測情報を収集するとともに、前記複数のサービスセットのうちの前記１つのサービスセット以外のサービスセットの基地局から前記フレームの送信スケジュールを収集し、
前記学習器は、前記第２のステップにおいて、前記１つのサービスセットを前記制御対象のサービスセットとして前記更新処理を前記終了条件が満たされるまで繰り返し実行して前記基地局についての第１の前記出力情報を前記制御手段へ出力し、
前記制御手段は、前記第３のステップにおいて、前記学習器から受けた第１の出力情報に基づいて前記１つのサービスセットの前記基地局を制御する、請求項９に記載のコンピュータに実行させるためのプログラム。
前記収集手段は、前記第１のステップにおいて、更に、前記１つのサービスセットに含まれる制御対象の端末装置から前記冗長検査情報を収集するとともに前記１つのサービスセットに含まれる基地局から前記端末装置についての観測情報を収集し、前記１つのサービスセットに含まれる制御対象外の端末装置からフレームの送信スケジュールを収集し、
前記学習器は、前記第２のステップにおいて、更に、前記端末装置についての前記観測情報と、前記制御対象の前記端末装置から収集された前記冗長検査情報と、前記制御対象外の端末装置から収集されたフレームの送信スケジュールとに基づいて、前記更新処理を前記終了条件が満たされるまで繰り返し実行して前記制御対象の端末装置についての第２の前記出力情報を前記制御手段へ出力し、、
前記制御手段は、前記第３のステップにおいて、更に、前記１つのサービスセットの前記基地局が前記第２の出力情報に基づいて前記制御対象の端末装置を制御するように前記１つのサービスセットの前記基地局を制御する、請求項１０に記載のコンピュータに実行させるためのプログラム。
前記収集手段は、前記第１のステップにおいて、前記複数のサービスセットの複数の基地局から前記冗長検査情報、前記観測情報および前記フレームの送信スケジュールを収集し、
前記学習器は、前記第２のステップにおいて、前記冗長検査情報、前記観測情報および前記フレームの送信スケジュールに基づいて、前記複数のサービスセットのうちの各サービスセットについて前記更新処理を前記終了条件が満たされるまで繰り返し実行して複数の前記出力情報を前記制御手段へ出力し、
前記制御手段は、前記第３のステップにおいて、前記学習器から受けた複数の出力情報に基づいて、それぞれ、前記複数のサービスセットの前記複数の基地局を制御する、請求項９に記載のコンピュータに実行させるためのプログラム。
前記報酬は、前記制御対象のサービスセットにおいて、１つのタイムスロットにおける前記フレームの送信に成功したデータ量である、請求項９から請求項１２のいずれか１項に記載のコンピュータに実行させるためのプログラム。
前記冗長検査情報は、前記報酬基礎情報と、前記終了条件を示す終了条件情報とを含む、請求項９から請求項１３のいずれか１項に記載のコンピュータに実行させるためのプログラム。
前記冗長検査情報は、送信者と、前記フレームの送信区間と、送信レートと、フレーム送信タイミングとを含み、
前記学習器は、前記第２のステップにおいて、前記フレームの送信区間および前記送信レートを前記報酬基礎情報として前記報酬を演算するとともに、前記更新処理を前記フレーム送信タイミングが到来するまで繰り返し実行して前記出力情報を前記制御手段へ出力する、請求項１４に記載のコンピュータに実行させるためのプログラム。
請求項９から請求項１５のいずれか１項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。