JP7478300B1

JP7478300B1 - 通信制御装置および通信制御方法

Info

Publication number: JP7478300B1
Application number: JP2023164170A
Authority: JP
Inventors: 純柿島
Original assignee: Internet Initiative Japan Inc
Current assignee: Internet Initiative Japan Inc
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-05-02
Anticipated expiration: 2043-09-27

Abstract

【課題】通信ネットワークにおける帯域使用率の最適化を図る通信制御装置および通信制御方法を提供する。
【解決手段】複数のタイムスロットのうちのタイムスロットごとに通信端末の通信実施と通信不実施を制御する通信制御装置４００であって、タイムスロットごとに、前記通信端末が通信を実施することに対する第１報酬値と前記通信端末が通信を実施しないことに対する第２報酬値とを管理する報酬管理部４２０と、第１報酬値および第２報酬値に基づく強化学習によって生成された学習モデルを用いて、各タイムスロットについて通信端末が通信を実施すべきか否かを示す制御情報を作成する制御情報作成部４５０と、作成された制御情報を通信端末へ送信する送信部４６０と、を備える。
【選択図】図２

Description

本発明は、通信制御装置および通信制御方法に関する。

一般に、通信トラヒックはある特定の時間帯に集中する傾向がある。例えば、昼間（例えば１１～１３時）や夕方（例えば１７～２０時）に通信トラヒックが増大する傾向がある。従来、ＩｏＴ端末等を対象に、トラヒックの少ない夜間に通信を行わせるようにしたサービスが提供されている（例えば非特許文献１参照）。

「IIJモバイルM2Mアクセスサービス」、［online］、株式会社インターネットイニシアティブ、［令和５年９月２６日検索］、インターネット＜https://www.iij.ad.jp/biz/mobile-m2m/＞

しかしながら、必ずしも夜間のみがトラヒックの少ない時間帯であるというわけではなく、夜間以外の時間帯であってもトラヒックに余裕がある場合がある。このように、現在では、通信帯域使用率の最適化がまだ十分には行われていない。

本発明の一態様によれば、複数のタイムスロットのうちのタイムスロットごとに通信端末の通信実施と通信不実施を制御する通信制御装置であって、前記タイムスロットごとに、前記通信端末が通信を実施することに対する第１報酬値と前記通信端末が通信を実施しないことに対する第２報酬値とを管理する報酬管理部と、前記第１および第２報酬値に基づく強化学習によって生成された学習モデルを用いて、各タイムスロットについて前記通信端末が通信を実施すべきか否かを示す制御情報を作成する制御情報作成部と、前記作成された制御情報を前記通信端末へ送信する送信部と、を備える通信制御装置が提供される。

また、本発明の一態様によれば、前記通信端末が接続されたネットワークにおける通信状況を取得する通信状況取得部をさらに備え、前記報酬管理部は、前記通信状況に基づき、高トラヒックのタイムスロットに対しては前記第１報酬値を前記第２報酬値より小さく設定し、低トラヒックのタイムスロットに対しては前記第１報酬値を前記第２報酬値より大きく設定するのであってよい。

また、本発明の一態様によれば、前記通信状況取得部は、所定時間間隔で前記通信状況を取得し、前記報酬管理部は、前記所定時間間隔で取得された前記通信状況に応じて各タイムスロットの前記第１および第２報酬値を更新し、前記学習モデルは、前記更新された第１および第２報酬値を用いて逐次更新されるのであってよい。

また、本発明の一態様によれば、前記第１および第２報酬値は、あらかじめ設定された固定値であるのであってよい。

また、本発明の一態様によれば、前記学習モデルは、前記タイムスロットを特定する識別子を状態ｓ_ｔとして入力し、前記通信端末が通信を実施するまたは通信を実施しないという各行動ａ_ｔに対する行動価値Ｑ（ｓ_ｔ，ａ_ｔ）を出力する、深層強化学習に基づくニューラルネットワークにより構成されたモデルであるのであってよい。

また、本発明の一態様によれば、前記制御情報作成部は、前記通信端末が通信を実施しない行動ａ_ｔに対する前記行動価値が、前記通信端末が通信を実施する行動ａ_ｔに対する前記行動価値よりも大きい場合、当該タイムスロットについて、前記通信端末が通信を実施すべきでないことを指示する前記制御情報を作成するのであってよい。

また、本発明の一態様によれば、複数のタイムスロットのうちのタイムスロットごとに通信端末の通信実施と通信不実施を制御するための通信制御方法であって、前記タイムスロットごとに、前記通信端末が通信を実施することに対する第１報酬値と前記通信端末が通信を実施しないことに対する第２報酬値とを指定するステップと、前記第１および第２報酬値に基づく強化学習によって生成された学習モデルを用いて、各タイムスロットについて前記通信端末が通信を実施すべきか否かを示す制御情報を作成するステップと、前記作成された制御情報を前記通信端末へ送信するステップと、を含む方法が提供される。

本発明によれば、通信ネットワークにおける帯域使用率の最適化・平準化を実現することができる。

本発明の一実施形態に係る通信制御装置が適用されるネットワークシステムの概略的な構成を示す図である。本発明の一実施形態に係る通信制御装置の機能的構成を示すブロック図である。報酬管理部が報酬値を管理するための管理テーブルの一例である。通信端末の状態の遷移を示す模式図である。学習モデルの一例（ＤＱＮ）を示す図である。学習モデルの別の一例（ＦｉｘｅｄＴａｒｇｅｔＱ－Ｎｅｔｗｏｒｋ）を示す図である。

以下、図面を参照しながら本発明の実施形態について詳しく説明する。

図１は、本発明の一実施形態に係る通信制御装置が適用されるネットワークシステムの概略的な構成を示す図である。ネットワークシステム１０は、１または複数のユーザ端末１００と、１または複数の通信端末２００と、ゲートウェイ装置３００と、通信制御装置４００を備える。ユーザ端末１００、通信端末２００、ゲートウェイ装置３００、および通信制御装置４００は、通信ネットワーク５００を構成する。各ユーザ端末１００および通信端末２００は、ゲートウェイ装置３００を介して、他の通信ネットワーク６００（例えばインターネット）に接続されている不図示の他のデバイスと通信することができる。なお、ネットワークシステム１０の通信ネットワーク５００には、ゲートウェイ装置３００および通信制御装置４００以外にも、ユーザ端末１００および通信端末２００からの／への通信を中継しまたは制御する１または複数の制御装置が含まれ得るが、図１では説明の簡略化のためそれらについては図示を省略している。

本明細書において、ユーザ端末１００とは、その少なくとも一部の通信が、人間であるユーザからの当該ユーザ端末１００に対する操作に応答して実施される機器を意味するものとする。例示的なユーザ端末１００は、スマートフォン、タブレット端末、ＰＣ、ゲーム機等を含む。例えば、ユーザ端末１００に対して、ウェブサイトや動画を閲覧するための操作がユーザによって行われたことに応答して、通信ネットワーク６００上の所定のサーバ装置等からその要求に対応するデータが送信され、ユーザ端末１００によって受信される。

ユーザ端末１００による通信データ量は、時間依存性を有する。例えば、ユーザ端末１００による通信データ量は、昼間（例えば１１～１３時）や夕方（例えば１７～２０時）の時間帯に増大する傾向がある。

一方、本明細書において、通信端末２００とは、人間であるユーザの操作によらず自動的に通信が実施される機器を意味するものとする。このような通信端末２００は、例えば、プログラムされたタイミングでデータを送受信するように構成される。代表的なこのような通信端末２００は、例えば、様々なセンサーデータを計測・生成し発信するように構成された様々なタイプのセンサー機器等の、各種のＩｏＴ（Internet of Things）端末を含む。例えば、このようなＩｏＴ端末（通信端末２００）は、所定周期でセンサーデータを順次生成して所定の送信タイミングまでそれらデータを一時保管しておき、プログラムされた所定のタイミングになると、それまでに保管されたセンサーデータをまとめて通信ネットワーク６００上の所定のサーバ装置へ送信するように構成されるのであってよい。本明細書における通信端末２００はこのようなＩｏＴ端末に限定されず、データの送受信を自動的に行う任意の通信機器を含んでよい。例えば、スマートフォンやＰＣ（上述したユーザ端末１００）がバックグラウンドでデータを送受信する場合（例えばソフトウェア更新等）において、そのようなバックグラウンド通信に限って、これらの機器を通信端末２００とみなしてもよい。

通信端末２００は、本発明の一実施形態に係る通信制御装置４００による通信制御の対象である。通信制御装置４００は、通信端末２００が通信を実施するかしないかを制御する。これに対し、ユーザ端末１００（ユーザ操作に応答して行われる通信）は、通信制御装置４００による通信制御の対象ではない。

ゲートウェイ装置３００は、ユーザ端末１００および通信端末２００と通信ネットワーク６００上のデバイスとの通信を中継する。また、ゲートウェイ装置３００は、通信ネットワーク５００と通信ネットワーク６００との間の通信状況（例えばトラヒック量）を監視する機能を有する。

図２は、本発明の一実施形態に係る通信制御装置４００の機能的構成を示すブロック図である。通信制御装置４００は、通信状況取得部４１０と、報酬管理部４２０と、学習モデル生成部４３０と、学習モデル生成部４３０によって生成された学習モデル４４０と、制御情報作成部４５０と、制御情報送信部４６０とを備える。なお、通信制御装置４００は、プロセッサおよびメモリを備えたコンピュータによって実現することができる。

通信状況取得部４１０は、ゲートウェイ装置３００から、通信ネットワーク５００と通信ネットワーク６００との間の通信状況（例えばトラヒック量）を示す情報を取得するように構成される。例えば、通信状況取得部４１０は、通信状況をゲートウェイ装置３００から所定時間間隔で定期的に取得するのであってよい。これにより、通信ネットワーク５００と通信ネットワーク６００との間における実際の時々刻々変化する通信状況が、通信制御装置４００において取得される。

報酬管理部４２０は、通信端末２００に通信を行わせるか否かの学習（強化学習）において用いる報酬値を管理するように構成される。具体的に、報酬管理部４２０は、所定の制御対象期間（例えば１日）をそれぞれが短い時間幅を有する多数の小期間に細分化したタイムスロットごとに、通信端末２００が通信を実施する場合に対応する報酬値（第１報酬値）と、通信端末２００が通信を実施しない場合に対応する報酬値（第２報酬値）とを管理する（例えばデータベース等の記憶部に記憶する）。

各タイムスロットは、典型的にはそれぞれ等しい時間幅を有するが、不等間隔の時間幅であってもよい。タイムスロットの例示的な時間幅の大きさは、例えば、数秒、数十秒、数分、数十分等、任意の適宜の長さであってよい。

報酬値は、通信端末２００が通信を実施することが望ましいタイムスロットについて、第１報酬値が第２報酬値よりも大きい値となるように設定され、また通信端末２００が通信を実施しないことが望ましいタイムスロットについては、第２報酬値が第１報酬値よりも大きい値となるように設定される。例えば、通信データ量が昼間（例えば１１～１３時）や夕方（例えば１７～２０時）の時間帯に増大することがあらかじめ知られている場合の例において、これらの時間帯に属するタイムスロットについては、通信端末２００が通信を行わないように強化学習を進ませるために、第１報酬値は例えば“１”に、また第２報酬値は例えば“２”に、それぞれ設定される。またこの場合、これらの時間帯以外の時間帯に属するタイムスロットについては、通信端末２００が通信を行うように強化学習を進ませるために、第１報酬値は例えば“２”に、また第２報酬値は例えば“１”に、それぞれ設定される。このような報酬値の設定は、通信データ量についての既知の時間変動を考慮して、適宜、事前に固定的に設定しておくことができる。

図３は、報酬管理部４２０が報酬値を管理するための管理テーブルの一例である。この例において、タイムスロットＴ_１、Ｔ_４、Ｔ_６は、通信データ量が比較的少ない時間帯に属し、タイムスロットＴ_２、Ｔ_３、Ｔ_５は、通信データ量が増大する時間帯に属しており、それぞれの報酬値は、上で例示した値に設定されている。

報酬値は、上記例のように固定値に設定されるのではなく、実際の通信状況に応じて動的に変更されてもよい。例えば、報酬管理部４２０は、通信状況取得部４１０により取得された通信ネットワーク５００のトラヒック量に基づいて、図３に示されるような既存の管理テーブルにおける報酬値を修正してもよいし、あるいは管理テーブルを新規に作成してもよい。より具体的に、報酬管理部４２０は、通信ネットワーク５００のトラヒック量が所定の閾値より高いタイムスロットについては、第１報酬値を“１”、第２報酬値を“２”にそれぞれ修正または設定し、一方、通信ネットワーク５００のトラヒック量が所定の閾値より低いタイムスロットについては、第１報酬値を“２”、第２報酬値を“１”にそれぞれ修正または設定するのであってよい。このように各報酬値が実際の通信状況を反映した値に調整された管理テーブルを用いることで、学習の精度を向上させ、実用性の高い学習モデル４４０を生成することができる。これにより、通信端末２００に対する通信制御を好適に行うことができる。

図４は、通信制御装置４００による制御対象である通信端末２００の状態の遷移を示す模式図である。この状態遷移図は、例えば通信制御装置４００の学習モデル生成部４３０によって管理（保持）され、学習モデル４４０の生成に使用される。通信端末２００の状態は、状態ｓ_１から状態ｓ_２へ、状態ｓ_２から状態ｓ_３へ、…、状態ｓ_ｔから状態ｓ_ｔ＋１へと遷移する。本実施形態において、通信端末２００の「状態」は、タイムスロットの位置である。つまり、通信端末２００の状態は、順次、現在のタイムスロットから時間的に次のタイムスロットへと遷移する。各状態（すなわち各タイムスロット）において、通信端末２００は、行動ａ_１、ａ_２のいずれかをとり得る。例えば、通信端末２００は、状態ｓ_ｔ－１（あるタイムスロット）において行動ａ_２を行って新たな状態ｓ_ｔ（時間的に次のタイムスロット）へと遷移し、次いで状態ｓ_ｔにおいて行動ａ_１を行ってさらに新たな状態ｓ_ｔ＋１（時間的にさらに次のタイムスロット）へと遷移することができる。本実施形態において、通信端末２００の行動ａ_１は、通信端末２００が通信を実施することであってよく、通信端末２００の行動ａ_２は、通信端末２００が通信を実施しないことであってよい。

図２に戻り、通信制御装置４００の学習モデル生成部４３０は、通信端末２００の状態と、通信端末２００がその状態でとり得る各行動に対応する報酬値とに基づく強化学習により、通信端末２００が実際に通信を実施すべきか否かを決定するための学習モデル４４０を生成するように構成される。例えば、学習モデル４４０として、図５に示されるように、通信端末２００の状態ｓ_ｔ（タイムスロットを特定する識別子）を入力層に入力し、状態ｓ_ｔにおいて通信端末２００がとることが可能な全ての行動、すなわち行動ａ_１およびａ_２のそれぞれについての行動価値Ｑ（ｓ_ｔ，ａ_ｔ）を出力層の各ノードから出力するように構成された、ＤＱＮ（ＤｅｅｐＱ－Ｎｅｔｗｏｒｋ）に基づくニューラルネットワークを採用することができる。また、学習モデル４４０は、図６に示されるように、図５と同様の構成の２つのニューラルネットワーク（メインネットワークとターゲットネットワーク）を用いたＦｉｘｅｄＴａｒｇｅｔＱ－Ｎｅｔｗｏｒｋに基づくものであってもよい。図５のＤＱＮおよび図６のＦｉｘｅｄＴａｒｇｅｔＱ－Ｎｅｔｗｏｒｋにおいて、出力層から出力される行動価値Ｑ（ｓ_ｔ，ａ_ｔ）と報酬管理部４２０により与えられる報酬値とを用いてニューラルネットワークのパラメータ（重みおよび閾値）を更新することで、学習モデル４４０の訓練が行われる（すなわち学習モデル４４０が生成される）。

報酬値が実際の通信状況に応じて動的に変更される上述の例において、学習モデル４４０は、例えば、報酬値が変更されるたびにモデルの訓練を繰り返して行うことで、逐次、更新されていくのであってもよい。これにより、通信端末２００に対する通信制御をより一層好適に行うことができる。

なお、ＤＱＮおよびＦｉｘｅｄＴａｒｇｅｔＱ－Ｎｅｔｗｏｒｋにおけるニューラルネットワークの学習方法としては、周知の方法を適用することができる。よって本明細書では、学習の具体的手順については説明を省略する。

制御情報作成部４５０は、学習モデル生成部４３０によって生成された学習モデル４４０を用いて、各タイムスロットにおいて通信端末２００が通信を実施すべきか否かを示す制御情報を作成するように構成される。具体的に、制御情報作成部４５０は、学習モデル４４０の入力層に、各タイムスロットの識別子を入力する。学習モデル４４０は、各タイムスロットについて、通信端末２００のとり得る各行動ａ_１、ａ_２のそれぞれに対応する行動価値Ｑ（ｓ_ｔ，ａ_ｔ）を、出力層の各ノードから出力する。制御情報作成部４５０は、学習モデル４４０の出力層から出力される行動価値Ｑ（ｓ_ｔ，ａ_ｔ）のうち最大の行動価値を選び、その選んだ行動価値に対応する行動（すなわち行動ａ_１、ａ_２のいずれか）に基づき、制御情報を作成する。例えば、学習モデル４４０から出力された行動価値のうち、行動ａ_１に対応する行動価値の方が行動ａ_２に対応する行動価値よりも大きい場合、制御情報作成部４５０は、そのタイムスロットにおいて通信端末２００が通信を実施することを指示する制御情報を作成し、また行動ａ_２に対応する行動価値の方が行動ａ_１に対応する行動価値よりも大きい場合には、制御情報作成部４５０は、そのタイムスロットにおいて通信端末２００が通信を実施しないことを指示する制御情報を作成する。

制御情報送信部４６０は、このように決定された制御情報を通信端末２００へ送信する。通信端末２００は、この制御情報に従って、タイムスロットごとに、通信を実施するか、または通信の実施を見合わせるように動作する。これにより、通信端末２００が適切な時間帯またはタイムスロットで通信を行うように制御することができ、その結果、通信ネットワークにおける帯域使用率の最適化・平準化を実現することができる。

以上、本発明の実施形態を説明したが、本発明はこれに限定されず、その要旨を逸脱しない範囲内において様々な変更が可能である。

１０ネットワークシステム
１００ユーザ端末
２００通信端末
３００ゲートウェイ装置
４００通信制御装置
４１０通信状況取得部
４２０報酬管理部
４３０学習モデル生成部
４４０学習モデル
４５０制御情報作成部
４６０制御情報送信部
５００通信ネットワーク
６００通信ネットワーク

Claims

複数のタイムスロットのうちのタイムスロットごとに通信端末の通信実施と通信不実施を制御する通信制御装置であって、
前記通信端末が接続されたネットワークにおける通信状況を取得する通信状況取得部と、
前記タイムスロットごとに、前記通信端末が通信を実施することに対する第１報酬値と前記通信端末が通信を実施しないことに対する第２報酬値とを管理する報酬管理部と、
前記第１および第２報酬値に基づく強化学習によって生成された学習モデルを用いて、各タイムスロットについて前記通信端末が通信を実施すべきか否かを示す制御情報を作成する制御情報作成部と、
前記作成された制御情報を前記通信端末へ送信する送信部と、
を備え、
前記報酬管理部は、前記通信状況に基づき、高トラヒックのタイムスロットに対しては前記第１報酬値を前記第２報酬値より小さく設定し、低トラヒックのタイムスロットに対しては前記第１報酬値を前記第２報酬値より大きく設定する、
通信制御装置。
前記通信状況取得部は、所定時間間隔で前記通信状況を取得し、
前記報酬管理部は、前記所定時間間隔で取得された前記通信状況に応じて各タイムスロットの前記第１および第２報酬値を更新し、
前記学習モデルは、前記更新された第１および第２報酬値を用いて逐次更新される、
請求項１に記載の通信制御装置。
前記学習モデルは、前記タイムスロットを特定する識別子を状態ｓ_ｔとして入力し、前記通信端末が通信を実施するまたは通信を実施しないという各行動ａ_ｔに対する行動価値Ｑ（ｓ_ｔ，ａ_ｔ）を出力する、深層強化学習に基づくニューラルネットワークにより構成されたモデルである、請求項１または２に記載の通信制御装置。
前記制御情報作成部は、前記通信端末が通信を実施しない行動ａ_ｔに対する前記行動価値が、前記通信端末が通信を実施する行動ａ_ｔに対する前記行動価値よりも大きい場合、当該タイムスロットについて、前記通信端末が通信を実施すべきでないことを指示する前記制御情報を作成する、請求項３に記載の通信制御装置。
複数のタイムスロットのうちのタイムスロットごとに通信端末の通信実施と通信不実施を制御するための通信制御方法であって、
前記通信端末が接続されたネットワークにおける通信状況を取得するステップと、
前記タイムスロットごとに、前記通信端末が通信を実施することに対する第１報酬値と前記通信端末が通信を実施しないことに対する第２報酬値とを指定するステップであって、前記ネットワークの前記取得された通信状況に基づき、高トラヒックのタイムスロットに対しては前記第１報酬値が前記第２報酬値より小さく設定され、低トラヒックのタイムスロットに対しては前記第１報酬値が前記第２報酬値より大きく設定される、ステップと、
前記第１および第２報酬値に基づく強化学習によって生成された学習モデルを用いて、各タイムスロットについて前記通信端末が通信を実施すべきか否かを示す制御情報を作成するステップと、
前記作成された制御情報を前記通信端末へ送信するステップと、
を含む方法。
前記学習モデルは、前記タイムスロットを特定する識別子を状態ｓ_ｔとして入力し、前記通信端末が通信を実施するまたは通信を実施しないという各行動ａ_ｔに対する行動価値Ｑ（ｓ_ｔ，ａ_ｔ）を出力する、深層強化学習に基づくニューラルネットワークにより構成されたモデルである、請求項５に記載の方法。