JP7377847B2 - 強化学習によって支援された動的リソース割り当て - Google Patents

強化学習によって支援された動的リソース割り当て Download PDF

Info

Publication number
JP7377847B2
JP7377847B2 JP2021204984A JP2021204984A JP7377847B2 JP 7377847 B2 JP7377847 B2 JP 7377847B2 JP 2021204984 A JP2021204984 A JP 2021204984A JP 2021204984 A JP2021204984 A JP 2021204984A JP 7377847 B2 JP7377847 B2 JP 7377847B2
Authority
JP
Japan
Prior art keywords
buffer queue
time interval
egress rate
control parameter
program code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021204984A
Other languages
English (en)
Other versions
JP2022096654A (ja
Inventor
ツィアフラキス パスカリス
Original Assignee
ノキア ソリューションズ アンド ネットワークス オサケユキチュア
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア ソリューションズ アンド ネットワークス オサケユキチュア filed Critical ノキア ソリューションズ アンド ネットワークス オサケユキチュア
Publication of JP2022096654A publication Critical patent/JP2022096654A/ja
Application granted granted Critical
Publication of JP7377847B2 publication Critical patent/JP7377847B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/90Buffering arrangements
    • H04L49/9005Buffering arrangements using dynamic buffer space allocation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • H04L47/52Queue scheduling by attributing bandwidth to queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • H04L47/52Queue scheduling by attributing bandwidth to queues
    • H04L47/522Dynamic queue service slot or variable bandwidth allocation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • H04L47/62Queue scheduling characterised by scheduling criteria
    • H04L47/6215Individual queue per QOS, rate or priority
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • H04L47/62Queue scheduling characterised by scheduling criteria
    • H04L47/622Queue service order
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • H04L47/62Queue scheduling characterised by scheduling criteria
    • H04L47/625Queue scheduling characterised by scheduling criteria for service slots or service orders
    • H04L47/6255Queue scheduling characterised by scheduling criteria for service slots or service orders queue load conditions, e.g. longest queue first
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Description

様々な例示的な実施形態は通信機器に関し、より詳細には、限定するものではないが、通信システムにおける動的リソース割り当てのための方法および装置に関する。
本セクションは、本開示のより深い理解を促進する助けとなり得る態様を紹介する。したがって、本セクションの陳述はこの観点から読まれるべきであり、従来技術に含まれるもの、または従来技術に含まれないものについての承認として理解されるべきではない。
動的リソース割り当て(DRA:Dynamic-resource-allocation)アルゴリズムが、例えば、通信ネットワークにおいて、関連ネットワークリソースの効率的な利用および共有をサポートしつつ、個々のユーザのサービス品質(QoS:Quality-of-Service)要求を満足するサービスを提供するために用いられる。DRAのサブタイプが動的帯域幅割り当て(DBA:dynamic bandwidth allocation)である。多くのネットワークシナリオにおいて、リソースの動的プロビジョニングは、例えば、総合的な許容可能ネットワーク負荷および/またはネットワーク収益の点で、同じリソースの静的プロビジョニングよりも優れていることが判明している。
本明細書において開示されるのは、DRA制御が強化学習(RL:reinforcement learning)によって支援される通信システムの様々な実施形態である。例示的な実施形態は、下り(ダウンストリーム)および/または上り(アップストリーム)データフローによって占められる(populated)1つまたは複数のバッファキュー(buffer queue)を制御し得る。バッファキューのエグレスレート(egress rates:出力速度、出力レート)は、学習エージェントが、RL探索段階を回避し、その代わりに、すでに取られた行動(動作、アクション)の外挿(extrapolation:推定)に依拠しつつ、DRAコントローラの状態-行動マッピング関数(state-to-action mapping function:状態から行動へのマッピング関数)を適応的に変更することができる、RL技法を用いて動的に制御することができる。この特徴は少なくとも2つの恩恵をもたらし得る:(i)RL探索に通例関連付けられる性能ペナルティ(performance penalty)の解消、および(ii)学習エージェントが状態の1回の発生時に状態ごとに多くの行動の性能メトリックを決定することができるがゆえの、環境のより高速の学習。
いくつかの実施形態はデジタル加入者線(DSL:digital-subscriber-line)システムにおいて実施され得る。
いくつかの実施形態は受動光ネットワーク(PON:passive-optical-network)システムにおいて実施され得る。
いくつかの実施形態は無線通信システムにおいて実施され得る。
例示的な実施形態によれば、少なくとも1つのプロセッサと、プログラムコードを含む少なくとも1つのメモリと、を備える装置であって、少なくとも1つのメモリおよびプログラムコードが、少なくとも1つのプロセッサを用いて、装置に、少なくとも、第1のバッファキューのエグレスレートを、クオリティ値(quality value:品質値)に、および現在の時間間隔内の第1のバッファキューの占有に基づいて、次の時間間隔のための第1のバッファキューのエグレスレート制御パラメータ値を選択することによって、調節することと、現在の時間間隔内の第1のバッファキューの複数のエグレスレート制御パラメータ値に対応する複数のクオリティ値を更新することと、を行わせるように構成されている、装置が提供される。
別の例示的な実施形態によれば、非一時的機械可読媒体上にて符号化されたプログラムコードを有する非一時的機械可読媒体であって、プログラムコードが機械によって実行されたときに、機械が、(A)第1のバッファキューのエグレスレートを、クオリティ値に、および現在の時間間隔内の第1のバッファキューの占有(occupancy)に基づいて、次の時間間隔のための第1のバッファキューのエグレスレート制御パラメータ値を選択することによって、調節するステップと、(B)現在の時間間隔内の第1のバッファキューの複数のエグレスレート制御パラメータ値に対応する複数のクオリティ値を更新するステップと、を含む方法を実行(実施)する、非一時的機械可読媒体が提供される。
様々な開示された実施形態の他の態様、特徴、および恩恵は、例として、以下の詳細な説明および添付の図面からより完全に明らかになるであろう。
いくつかの実施形態が実施され得る通信システムのブロック図である。 いくつかの他の実施形態が実施され得る別の通信システムのブロック図である。 一実施形態に係る、図1~図2の通信システムにおいて用いられ得る回路のブロック図である。 一実施形態に係る、図3の回路を用いて実施され得るDRA制御方法のフローチャートを示す図である。 一実施形態に係る、図4AのDRA制御方法の特定のステップの例示的な相対タイムラインを示す図である。 一実施形態に係る、図3の回路の部分となることができるバッファキューを概略的に示す図である。 一実施形態に係る、図2の通信システムにおいて達成することができる例示的な改善をグラフで示す図である。 一実施形態に係る、図4AのDRA制御方法が実施され得る図1の通信システムの異なる例示的な構成を示す図である。 一実施形態に係る、図4AのDRA制御方法が実施され得る図1の通信システムの異なる例示的な構成を示す図である。 一実施形態に係る、図4AのDRA制御方法が実施され得る図1の通信システムの異なる例示的な構成を示す図である。 別の実施形態に係る、図4AのDRA制御方法が実施され得る図1の通信システムの異なる例示的な構成を示す図である。 別の実施形態に係る、図4AのDRA制御方法が実施され得る図1の通信システムの異なる例示的な構成を示す図である。 別の実施形態に係る、図4AのDRA制御方法が実施され得る図1の通信システムの異なる例示的な構成を示す図である。 さらに別の実施形態に係る、図4AのDRA制御方法が実施され得る図1の通信システムの例示的な構成を示す図である。 さらに別の実施形態に係る、図4AのDRA制御方法が実施され得る図1の通信システムの例示的な構成を示す図である。 一実施形態に係る、図1の通信システムにおいて達成することができる例示的な改善を示す図である。 いくつかの他の実施形態が実施され得るさらに別の通信システムのブロック図である。
図1は、いくつかの実施形態が実施され得る通信システム100のブロック図を示す。システム100は、図1において指示されるとおりの加入者線1401~140Nを経由して接続された分配点ユニット(DPU:distribution point unit)110および複数の顧客構内設備(CPE:customer-premise-equipment:カスタマー構内設備)ユニット1501~150Nを備える。実施形態によっては、DPU110はサービスプロバイダ(例えば、電話会社)の「中央局」に配置され得る。他の実施形態によっては、DPU110は、中央局のものよりも加入者宅に近い場所への1つまたは複数のバックホール(例えば、光)リンクを用いて遠隔に展開され得、対応する機器が、路上キャビネット内、電柱上、建物の地下室内等に物理的に配置され得る。CPEユニット1501~150Nは、通例、異なるそれぞれの顧客の現場に配置されている。実施形態によっては、DPU11は、対応するネットワーク(図1には明示的に示されていない)のアクセスノード(AN:access node)110として実施され、そのように称され得る。
加入者線1401~140Nの各々は、通例、音声および/またはデータサービスに対応する信号を伝送するように構成されたそれぞれの「ツイストペア」(または他の好適な)電気ケーブルを含む。DPU110において、加入者線1401~140Nの各々は入力/出力(I/O:input/output)ポート1381~138Nのそれぞれのものに接続されている。CPE側において、加入者線1401~140Nの各々は、同様に、各々、CPEユニット1501~150NのそれぞれのもののI/Oポートである、I/Oポート1421~142Nのそれぞれのものに接続されている。
例示的な実施形態では、DPU(またはAN)110は、各々、I/Oポート1381~138Nのそれぞれのものに内部接続された、複数のトランシーバ(120i/130i)を含む。ここで、i=1、2、…、Nである。トランシーバ(120i/130i)はそれぞれの送信器120iおよびそれぞれの受信器130iを含む。DPU(またはAN)110は、信号処理、およびその適切な動作のために必要とされる他の機能のうちの少なくとも一部を遂行するための、トランシーバ(120i/130i)および少なくとも1つのメモリ116に動作するように接続された少なくとも1つのデジタル信号プロセッサ(DSP:digital signal processor)114をさらに含む。動作時、トランシーバ(120i/130i)は、適応ビットローディングおよびチャネルコーディングを用いた離散マルチトーン(DMT:discrete multitone)変調を利用し得る。DMTシンボルのトーン数は2048~8192(または~16384)の範囲に及び得る。ケーブルバインダ内、またはアクセスノードボード上の異なる加入者線1401~140Nの間のクロストーク干渉(crosstalk interference:混線干渉、混信干渉)に対処するために、DPU(またはAN)110は、ベクタリング(vectoring)とも称される、クロストーク消去技法を利用し得る。
例示的な実施形態では、CPEユニット150iは、そのCPEユニットのI/Oポート142iに内部で接続されたトランシーバ(160i/170i)を含む。トランシーバ(160i/170i)はそれぞれの送信器160iおよびそれぞれの受信器170iを含む。CPEユニット150iは、信号処理、およびその適切な動作のために必要とされる他の機能のうちの少なくとも一部を遂行するための、トランシーバ(160i/170i)および少なくとも1つのメモリ156iに動作するように接続された少なくとも1つのDSP154iをさらに含む。
実施形態によっては、システム100はデジタル加入者線(DSL)システムであり得る。
実施形態によっては、システム100は、G.fastおよび/またはG.mgfastなどの、ITU-T標準化ブロードバンドアクセス技術に準拠するように設計され得る。G.fastは、全体が本明細書において参照により組み込まれる、ITU-T勧告G.9701において説明されている。G.mgfastのための第1次ITU-T勧告は、現在、コメント-解決段階(comment-resolution phase:コメントから解決への段階(フェーズ))にあり、まだ公的に入手可能になっていない。これらのITU-T勧告の各々はそれぞれのDRAの特徴を説明している。
例えば、G.9701において、DRAは、下りおよび上りQoSキューの占有に基づいて、ならびにDPU管理情報ベース(MIB:Management Information Base)を通じてオペレータによって選択された限度内で、時分割二重化(TDD::time-division-duplexing)フレームごとの下りおよび上り送信機会を決定する機能性として定義されている。この特定の特徴はまた、iDTA(independent dynamic time assignment(独立動的時間割当て))および/またはcDTA(coordinated dynamic time assignment(調整動的時間割当て))を実施するためにも用いられ得る。例示的な実施形態では、DRAはショータイム中に途切れなく(例えば、データの損失、またはデータの順序における違反を全く生じさせることなく)遂行され得る。場合によっては、DRAの機能性は、例えば、不連続動作モードを用いて、電力消費を管理するためにも考慮され得る。来たるべきG.mgfast(G.9711)仕様はまた、マルチユーザ、全二重設定への可能な拡張を有する、DRA特徴を有する。G.mgfastのために提案されているいくつかの他の特徴、例えば、ポイントツーマルチポイント(P2MP:point-to-multipoint)送信および不連続時間周波数動作(DTFO:discontinuous time-frequency operation)のための動的帯域幅再配分もまた、例えば、対応するリソースが、認知された要求に基づいて、異なるエンドユーザにミリ秒の時間スケールで動的に再割り当てされ得るため、DRAのサブタイプとして分類され得る。
DPU(またはAN)110は、本明細書において開示される様々な実施形態に係る上述のDRA機能のうちの一部または全てを実行および/または管理するようにプログラムすることができる電子コントローラ118を含む。実施形態によっては、電子コントローラ118は、DSP114の部分を用いて実施され得る。少なくともいくつかの実施形態では、DSP114および1541~154Nならびにメモリ116および1561~156Nのうちの一部または全ても、DRA機能のうちの少なくとも一部をサポートおよび/または実施するために用いられ得る。
図2は、いくつかの他の実施形態が実施され得る受動光ネットワーク(PON)システム200のブロック図を示す。システム200は、光ネットワークユニット(ONU:optical network unit)2601~260Nと通信するように構成された光回線終端装置(OLT:optical line terminal)210を有する。本明細書において、数Nは、例えば、2~256の範囲内にあることができる。場合によっては、ONU2601~260Nは、上り送信のために(名目上)同じ搬送波波長を用いるように構成することができる。他の場合によっては、ONU2601~260Nは、上り送信のために異なるそれぞれの搬送波波長を用いるように構成することができる。
OLT210は、どちらも、光サーキュレータ220または他の好適な方向性結合器(例えば、薄膜技術に基づく光ダイプレクサまたはトリプレクサ)を経由して、光ファイバー224に結合された光送信器212および光受信器214を含む。送信器212および受信器214の動作、機能、および構成は、実施形態によっては、対応するプロセッサ(例えば、202)の部分であることができる、電子コントローラ218によって発生される制御信号211および213を用いて管理および制御することができる。図2に指示されるとおりの、メモリ201、送信器212、受信器214、およびコントローラ218に結合されたDSP202を、信号およびデータ処理のため、ならびに、実施形態によっては、コントローラのいくつかの機能をサポートするために用いることができる。例示的な実施形態では、光ファイバー224は約1km~約40kmの長さを有することができる。
送信器212は、通例、1つまたは複数の下り搬送波波長を用いて下り信号をONU2601~260Nへ一斉通信するように構成されており、好適な時分割多重化(TDM:time-division multiplexing)プロトコルが、異なるONUのために意図された信号を送信するために用いられる。受信器214は、1つまたは複数の上り搬送波波長を用いて送信されたONU2601~260Nからの上り信号を受信するように構成されている。コントローラ218を用いて実行される好適な時間分割多元接続(TDMA:time division multiple access)プロトコルを、受信器214における、異なるONU260によって発生された上り信号の衝突を防止するために用いることができる。
光ファイバー224はOLT210を1つまたは複数の受動ルータ(passive router)230に接続する。実施形態に依存して、ルータ230は、(i)(1×N)受動光スプリッタ/コンバイナ、(ii)受動波長ルータ(例えば、アレイ導波路回折格子(arrayed waveguide grating)、AWG)、または(iii)波長非感受性および/もしくは波長感受性受動光学要素の任意の好適な組み合わせを用いて実施され得る。典型的なルータ230は、その第1の側、または上り側における単一のポート228、およびその第2の、または下り側におけるN個のポート2321~232Nのセットを含む、(N+1)個の光ポートを有する。ここでは、用語「側(side)」は、物理的配向の意味でなく、「上り」または「下り」方向を指示するために抽象的な意味で使用される。ポート228はポート2321~232Nの各々に内部で光学的に接続されている。ポート228は、図2において指示されるように、光ファイバー224に外部で光学的に接続されている。ポート2321~232Nは、例えば、図2においてさらに指示されるように、光ファイバーを介して、またはより複雑な、受動光ファイバーネットワーク(図2には明示的に示されていない)を介して、ONU2601~260Nにそれぞれ外部で光学的に接続されている。ルータ230を実施するために用いることができる例示的なデバイスが、例えば、全体が本明細書において参照により組み込まれる、米国特許第8,923,672号において開示されている。
例示的な実施形態では、ONU2601~260Nの各々は、それぞれの光サーキュレータ262iまたは他の好適な方向性結合器、それぞれの光送信器264i、それぞれの光受信器266i、少なくとも1つのそれぞれのDSP268i、および少なくとも1つのそれぞれのメモリ272iを含む。光サーキュレータ262iは、(i)受動ルータ230から受信された下り信号を光受信器266iへ誘導し、(ii)光送信器264iからの上り信号を受動ルータ230へ誘導するように構成されている。DSP268iは、信号処理、およびその適切な動作のために必要とされる他の機能のうちの少なくとも一部を遂行するために、光送信器264iおよび光受信器266iに動作するように接続されている。
例示的な商用適用物では、システム200は、全ての下り信号が1.55μm付近のスペクトル帯内にスペクトル的に配置され、全ての上り信号が1.3μm付近のスペクトル帯内にスペクトル的に配置されるよう動作するように、またはその逆に構成することができる。このような場合には、光サーキュレータ220および262の全てまたは一部はそれぞれの光バンドパスまたはダイクロイック光フィルタによって置換され得る。
図2は、単一の受動光ルータ230を有するPONシステムを示すが、複数の受動光ルータおよび樹枝状サブトポロジ(tree-and-branch sub-topologies)を有するPONアーキテクチャなどの、より複雑なPONアーキテクチャも可能である。
実施形態によっては、システム200は、異なるONU260によってファイバー設備(fiber plant)がTDM共有される、ギガビットPON(G-PON:Gigabit-PON)、イーサネットPON(E-PON:Ethernet-PON)、および/またはギガビット可能対称PON(XGS-PON:Gigabit-capable symmetric PON)技術に基づき得る。他の実施形態によっては、システム200は次世代PON-2(NG-PON2:Next-Generation PON-2)技術に基づき得、該技術によれば、異なる波長において動作するそのいくつかのサブシステムが共有PONインフラストラクチャ上に「積み重ねられ」、これにより、時間および波長分割多重化(TWDM:time- and wavelength-division multiplexing)PON構成を実施する。さらに他の実施形態によっては、システム200は、G.hspとも称される、25G/50Gの速度のための次世代TDM-PON標準に従って動作するように構成され得る。
実施形態によっては、コントローラ218は、DBAが、OLT210が上り送信機会をONU260内の様々なトラフィックベアリングエンティティ(traffic-bearing entity)に、例えば、それらの活動の動的指示、およびトラフィック契約に基づいて、(TDM方式で)割振ることを可能にするように構成され得る。活動ステータスの指示は、(例えば、バッファステータス報告を通じて)明示的であるか、もしくは(例えば、上り送信機会の間のアイドル(idle:あいている、活動停止中)状態のXGPONカプセル化方法(XGEM:XGPON-Encapsulation-Method)フレームの送信を通じて)黙示的であるか、またはその両方であることができる。実施形態によっては、システム200は、全体が本明細書において参照により組み込まれる、ITU-T勧告G.9807.2に準拠するように設計され得る。
例えば、XGS-PON仕様の下で、上り帯域幅割り当ての受信側エンティティは割り当てID(Alloc-ID)によって表現される。各ONUに割り当てられるAlloc-IDの数、各Alloc-ID上に多重化されるXGEMポートの数、ならびにONUによって実施される実際の物理的および論理的キューイング構造にかかわらず、OLTは、各々の対する(subtending)Alloc-IDに関連付けられたトラフィック集合体(traffic aggregate)を単一の論理バッファとしてモデル化し得る。さらに、帯域幅割当ての目的のために、OLTは全てのAlloc-IDを、対応する論理階層の同じレベルにおいて存在する独立した同位エンティティとして考慮し得る。
Alloc-ID論理バッファごとに、コントローラ218は、帯域内ステータスレポートを収集すること、もしくは上りのアイドルパターンを観察することのどちらか、またはその両方によって、バッファの占有を推測するように構成され得る。次に、コントローラ218のDBA機能は、対応する帯域幅マップ(BWmap:bandwidth map)の生成を担当する、OLT上りスケジューラ(OLT upstream scheduler:OLTの上流へのスケジューラ)への入力を提供し得る。例示的な実装形態では、BWmapはAlloc-IDごとの上り送信機会のサイズおよびタイミングを指定し、例えば、下りトラフィックを用いて、ONU260へ帯域内で通信される。
実施形態によっては、コントローラ218のDBA機能は以下の従属機能を含み得る:
(i) 論理上り送信バッファの占有ステータスの推測、
(ii) プロビジョニングされた帯域幅成分(bandwidth component)パラメータ内の推測されたバッファ占有ステータスに従った割当て帯域幅の更新、
(iii) 更新された帯域幅に従った割り当ての発行、
(iv) 少なくとも一部のDBA動作の管理。
これらの従属機能は、個々のAlloc-IDおよびそれらのプロビジョニングされた帯域幅成分パラメータのレベルで適用され得る。
ONUバッファ占有推測機構に依存して、少なくとも2つの異なるDBA方法がコントローラ218を用いて実施され得る:
(A) OLT210によって請求され、請求に応じてONU260によって提出された明示的なバッファ占有レポートに基づく、ステータス報告DBA、ならびに
(B) アイドルXGEMフレームパターンのOLTの観察、およびそれらと、対応する帯域幅マップとの比較に基づく、トラフィック監視DBA。
コントローラ218は、本明細書において開示される様々な実施形態に係る上述のDBA機能および従属機能の一部または全てを実行および/または管理するようにプログラムすることができる。少なくともいくつかの実施形態では、DSP202および2681~268Nならびにメモリ201および2721~272Nのうちの一部または全ても、DBA機能および従属機能のうちの少なくとも一部をサポートおよび/または実施するために用いられ得る。
本明細書において使用するとき、用語「DRA」は、以下の特徴のうちの一部または全てを包含すると解釈されるべきである:
I. 入来ビットストリームおよび/またはデータ単位(例えば、パケット)を、例えば、上りまたは下りの、対応するリンクを通じたさらなる送信のためにバッファするように構成された少なくとも1つのバッファキュー、
II. 例えば、バッファキューへ到来し、その内部に在留し、かつ/またはそれを通過する実際のトラフィックを特徴付ける、少なくとも1つのバッファキューに対応するトラフィックの測定および/または推定を獲得すること、
III. トラフィックの測定および/または推定を、高スループットを達成すること、電力消費を低減すること、遅延を低減すること、指定されたQoSメトリックを達成すること、輻輳を低減すること等などの、関連する最適化目的(optimization objective)の下で、対応するデータリンクのいくつかのパラメータ、例えば、エグレスレートおよび/またはそれに対する制約を制御する関連DRA(またはDBA)アルゴリズムへの入力として用いること。
本明細書において、エグレスレートとは、対応するバッファキューの出力レート(output rate:出力速度)である。
xDSLまたはPONのための従来のDRAアルゴリズムは、通例、バッファキューへ到来する、その内部に在留する、またはそれを通過するトラフィックの予測パターンに基づいてリソースをプロビジョニングしない。さらに、従来のDRAアルゴリズムは、トラフィックメトリックとDRA制御出力(例えば、バッファキューのエグレスレートに対する制約)との間の固定されたマッピングに依拠する傾向がある。なおさらに、従来のDRAアルゴリズムは、通例、恣意的な目的(例えば、恣意的な費用関数)に基づく最適化に適しない。例えば、DRAアルゴリズムが、例えば、待ち時間および/もしくは電力消費と関係する、特定のトレードオフを行うように、またはリソース割り当てのダイナミシティ(dynamicity)に対する制約を考慮するように変更される必要がある場合には、このとき、対応する変更の実施はかなり難しくなり得る。それゆえ、従来のDRAアルゴリズムは、少なくともいくつかのトラフィックシナリオにおいて最適以下の性能をもたらす傾向があり、調整が難しくなる傾向がある。
現況技術におけるこれらの、および場合によっては、いくつかの他の関連問題は、DRA制御が強化学習によって支援され得る、本明細書において開示される少なくともいくつかの実施形態を用いて有利に対処することができる。例示的な実施形態は、下りおよび/または上りイングレスデータストリーム(ingress data streams:入力データストリーム)によって埋められた1つまたは複数の(論理または物理)バッファキューを制御するために、例えば、コントローラ118(図1)またはコントローラ218(図2)の部分として実施される、DRAコントローラに依拠し得、それらのエグレスレートは、以下においてより詳細に説明される、新規の強化学習技法を用いて、動的に変更され、および/または抑制される(capped)。例示的な実施形態では、このようなDRAコントローラは以下のものを利用し得る:
・ ステータスレポート(例えば、バッファキュー占有メトリック(buffer-queue occupancy metrics)を提供する)、および/またはトラフィック監視データ(例えば、転送されたデータ単位の実際の数、イングレスレート(ingress rate(s):入力速度、入力レート)、エグレスレート(egress rate(s))等)などの、トラフィック情報を取り込む機能性、
・ 取り込まれたトラフィック情報を、バッファキューのエグレスレートを変更または制約することができる制御出力にマッピングするように構成されたDRAアルゴリズム、ならびに
・ 明示的なRL探索を回避し、その代わりに、取られた行動の外挿に依拠しつつ、DRAアルゴリズムのマッピング関数を適応的に変更するように構成された学習エージェント。
学習エージェントは以下のことのうちの一部または全ての能力を有し得る:
・ (i)バッファキューに到来し、その内部に在留し、かつ/またはそれを通過する実際のトラフィック、および(ii)システム設計者/インプリメンタ(implementer:実行する者)によって、またはネットワークオペレータによって学習エージェントへの入力として与えられた最適化目的に基づいて、DRAアルゴリズムの上述のマッピング機能性を変更すること、
・ DRAアルゴリズムの上述のマッピング機能性を、例えば、ペイロードデータのフローを中断することなく、オンラインで、および/またはオンザフライ(on the fly)で変更すること、ならびに
・ 環境を学習するための努力の一環として、ランダムな(任意の、無作為の)、および/または著しく最適を下回る行動(grossly suboptimal action)を遂行することなく、DRAアルゴリズムの上述のマッピング機能性を変更すること。
最後の特徴は少なくとも2つの恩恵をもたらし得る:(i)明示的なRL探索に通例関連付けられる追加的な性能ペナルティの解消、および(ii)学習エージェントが状態の1回の発生時に状態ごとに多くの行動の性能メトリックを決定することができるがゆえの、環境のより高速の学習。
本明細書において、用語「強化学習」(またはRL)は、概して、ソフトウェアおよび/またはハードウェア制御エージェント(例えば、電子コントローラ)が、何らかの恩恵(例えば、累積報酬)を最適化する(例えば、最大化する)ために環境内でどのように行動を取るべきであるかに関心を持つ、機械学習の一領域を指す。RLは、教師あり学習および教師なし学習も含む、3つの基本的機械学習パラダイムのうちの1つである。従来の実装形態では、RLは、未踏の領域の探索と環境の現在利用可能な知識の搾取との間の許容可能なバランスを達成するために適用され得る。
RLのための環境はマルコフ決定プロセス(MDP:Markov decision process)の形で定式化され得る。なぜなら、例えば、そのように定式化された多くのRLアルゴリズムは動的プログラミング技法を利用し得るからである。古典的な動的プログラミング方法とRLアルゴリズムとの1つの顕著な相違は、後者がMDPの正確な数学モデル知識を仮定せず、より正確な方法が技術的に実行可能でないことがある比較的大きいMDPに適用される傾向があることである。
RLは、その一般性のゆえに、ゲーム理論、制御理論、オペレーションズリサーチ、情報理論、シミュレーションベースの最適化、マルチエージェントシステム、群知能、統計、および遺伝的アルゴリズムなどの、多くの分野において用いられる。文献によっては、RLは近似的ダイナミックプログラミングまたはニューロダイナミックプログラミングと称されることもある。
SARSAアルゴリズムなどの、従来のRLアルゴリズムは、通例、2つの別個の段階、探索段階および搾取段階を有する。本明細書において、SARSAはstate-action-reward-state-action(状態-行動-報酬-状態-行動)を表す。RLアルゴリズムは、例えば、制御可能回路およびデバイスによって表現される、環境と対話することができる、エージェント、例えば、電子コントローラによって実行され得る。エージェントは環境内の異なる状態を観察し、行動を取ることができる。行動に応じて、観察された状態は変化し得、エージェントは報酬を獲得し得る。行動のクオリティを定量化するために、Q値が用いられる。例えば、SARSAアルゴリズムでは、Q値を更新するための主関数は、現在の状態S1、エージェントが状態S1において選定する行動A1、エージェントが、行動A1を選定したことで獲得する報酬、行動A1が取られた後に観察される状態S2、およびエージェントが状態S2において選定する次の行動A2に依存する。
エージェントによって、次の行動を選択するために用いられ得る1つの単純なポリシーは、貪欲(greedy)ポリシーと称される。貪欲ポリシーは、Q値を最大化することを目指されるが、最適以下の定常状態への収束を起こしやすいものとして知られている。貪欲ポリシーの変更はε貪欲ポリシーと称される。後者のポリシーの下では、(1-ε)の確率をもって、エージェントは貪欲ポリシーを用いて行動を取る。εの確率をもって、エージェントはランダムな行動を取る。本明細書において、係数εは、利用可能な知識の搾取と環境の継続探索との間のトレードオフを表す。
以上においてすでに指示されたように、それらの選択の本質そのもののゆえに、ランダムな行動は環境の現在の状態のために著しく最適を下回り、それゆえ、しばしば、大きな性能ペナルティを引き起こし得る。対照的に、本明細書において開示される実施形態は、搾取段階の間におけるこのようなランダムな行動を回避するように有利に設計される。さらに、少なくともいくつかの実施形態は、有利に、別個の探索段階を丸ごと回避することも可能であり得る。代わりに、環境の知識は、例えば、後述されるように、エージェントによって、観察された状態、取られた行動、および/または受け取られた報酬からの外挿に基づいて構築される。
図3は、一実施形態に係る回路300のブロック図を示す。回路300はDRA制御可能リソース310およびDRAコントローラ320を含む。上述のRLの用語法の下では、リソース300は環境の部分であり、コントローラ320はエージェントを表す。回路300の異なる実施形態がシステム100および200における使用のために適応させられてもよい。
例示的な実施形態では、リソース310は、エグレスレートがDRAコントローラ320によって制御され得る1つまたは複数のバッファキューを含み得る。
コントローラ320は、リソースモニタ330、DRAマッパー(DRA mapper)340、および学習エージェント350を含む。
リソースモニタ330は、リソース310の選択された性能メトリックを監視することによってリソース計測情報312を取得するように動作する。実施形態によっては、リソースモニタ330はリソース310からの直接報告を通じて情報312を取得し得る。他の実施形態によっては、情報312は、リソースモニタ330によって、リソース310の特定の性能パラメータ/特性の観察および/または測定に基づいて推測され得る。リソースモニタ330は、情報312を用いてリソース310の現在の状態を決定するようにさらに動作する。本明細書において、用語「状態(state)」は、強化学習の技術分野において使用される従来の用語法と一貫した意味で使用される。次に、リソースモニタ330は、リソース310の決定された状態を、制御信号332を介して、DRAマッパー340および学習エージェント350へ通信する。
制御信号332に応じて、DRAマッパー340は行動を選択し、選択を、制御信号342を介して、リソース310へ通信する。制御信号342に応じて、リソース310は、選択された行動を実施する。例示的な実施形態では、DRAマッパー340は、異なる状態が行動にマップされたルックアップ表(LUT:lookup table)に基づいて行動を選択する。異なる行動は、LUT内で、制御パラメータ値の異なるセットによって表現され得る。例えば、実施形態によっては、制御パラメータ値は少なくとも1つのバッファキューのエグレスレートであり得る。他の実施形態によっては、制御パラメータ値はエグレスレートの上限を表し得る。さらに他の実施形態によっては、制御パラメータは、エグレスレートを決定するための数学関数において用いられるパラメータを表すことができる。
代替的な実施形態によっては、DRAマッパー340は、状態-行動マッピングを実施するために人工ニューラルネットワーク(ANN、artificial neural network)を利用し得る。本明細書において使用するとき、用語「ANN」は、複数の処理要素(PE:processing element)を用いて構築された、分散型の、通例、非線形訓練可能な(nonlinear trainable)回路または機械を指す。また、ANNは動的に適応可能であり得る。各PEは1つまたは複数の他のPEとの結合を有する。PE間の複数の結合はANNのトポロジ(topology)を規定する。トポロジによっては、PEは層に集成され得る。異なる層は、それらの入力に対して異なるそれぞれの種類の変換を遂行するように構成された異なるタイプのPEを有し得る。信号は最初のPE層(通例、入力層と称される)から最後のPE層(通例、出力層と称される)へ伝わり得る。トポロジによっては、ANNは、入力および出力PE層の間に配置された1つまたは複数の中間PE層(通例、隠れ層と称される)を有し得る。例示的なPEは入って来る信号をスケーリングし、合計し、バイアスを付加し(bias)、活性化関数を用いて、バイアスを付加された合計の静的非線形関数である出力信号を生成し得る。得られたPE出力はANNの出力のうちの1つになるか、または対応する結合を通じて1つまたは複数の他のPEへ送られ得る。個々のPEによって適用されるそれぞれの重みおよび/またはバイアスは訓練(または学習)動作モードの間に変更され得、通例、ペイロード(または作業)動作モードの間は一時的に(一定に)固定される。
例示的な実施形態では、学習エージェント350は、例えば、制御信号348を介して、DRAマッパー340のLUTを埋め、それを更新するように動作する。例えば、リソースモニタ330から受信された制御信号332に応じて、学習エージェント350は、以前に取られた行動からの報酬、リソース310の新たな状態、およびDRAマッパー340のLUTのための更新を決定し得る。このような更新は、外部の(例えば、ネットワークまたはシステム)制御エンティティによって学習エージェント350に提供された最適化目的または費用関数352に従って、ならびに対応する貪欲ポリシーに基づいて生成され得る。それゆえ、DRAマッパー340によって実施される状態-行動マッピングは、通例、リソース310のためのいかなるランダムな行動または最適以下の行動の選択も生じさせない。加えて、LUTの更新348は、例えば、以下においてさらに説明されるように、別個のRL探索段階を必要としない。
図4Aは、一実施形態に係る、回路300を用いて実施され得るDRA制御方法400のフローチャートを示す。実施形態によっては、方法400は、SARSAアルゴリズムのいくつかの要素を用いて実施され得る。本明細書において、方法400の説明は、概して、強化学習の技術分野において用いられる従来の用語法に従う。
方法400は、回路300がRL支援付きDRA(RL-aided DRA)のために初期化される、ステップ402において開始する。例えば、ステップ402は、関連アルゴリズムおよび/または回路構成パラメータの初期値を選択および設定するために用いられ得る。それらのパラメータの1つの部分セットは方法400の後続の処理ステップにおいて変更され得る。それらのパラメータの別の部分セットは方法400の後続の処理ステップにおいて固定されたままとどまり得る。
以下の説明は、ステップ402において遂行され得るいくつかの例示的な下位ステップの概要を示す。
利用可能な行動の離散セット{A}が定義され得る。1つの例示的な実施形態では、セット{A}は、DRAコントローラ320によってリソース310の1つまたは複数のバッファキューに課され得るエグレスレートのセットを含み得る。
状態の1つまたは複数の特徴が定義され得る。概して、特徴は、情報312の任意の好適な関数および/またはその導関数によって表現され得る。異なる特徴は情報312の異なる部分セットに対応し得る。
複数の状態Sが、対応する特徴を用いて定義され得る。実施形態によっては、状態Sは離散的であり得、明確に定められた境界をそれらの間に有する。他の実施形態によっては、状態間の段階的移行が用いられ得る。
報酬関数RおよびQ値関数Qが定義され得る。通例、R=R(S,A)およびQ=Q(S,A)である。換言すれば、報酬およびQ値は、状態、およびその状態において取られた行動の両方に依存する。報酬関数Rは制御信号352(図3)を用いて指定され得る。式(1)はQ値のための例示的な再帰的更新の公式を与える:
ここで、(S,A)は以前の状態-行動対であり、(S’,A’)は現在の状態-行動対である。パラメータαは、DRAマッパー340のLUTまたはANNにおいて、新たに獲得された知識がどの程度まで古い知識に取って代わるのかを決定する学習率である。例えば、学習率αを0に設定することはエージェントに何も学習させないことになり、それに対して、1の学習率αはエージェントに最新の知識のみを考慮させることになるであろう。例示的な実施形態では、学習率αはα=0.1であることができる。パラメータγは、将来の報酬の重要度を決定する割引率である。例えば、0の割引率はエージェントに現在の報酬のみを考慮させ、それに対して、1に近い割引率はエージェントに高い長期報酬を追求させることになる。例示的な実施形態では、割引率γはγ=0.3であることができる。
次に、回路300は、所定量の時間にわたって、ステップ402の初期設定を用いて、関連回路がアイドル状態から活動状態への移行を行うこと、およびいくつかの関連測定を遂行することを可能にするように動作することを可能にされ得る。
ステップ404において、リソースモニタ330は、例えば、以上において図3を参照してすでに指示されたように、情報312を取得し、リソース310の現在の状態S’を決定する。次に、リソースモニタ330は、決定された状態S’を、制御信号332を介して、DRAマッパー340および学習エージェント350へ通信する。
ステップ406において、ステップ404の制御信号332に応じて、DRAマッパー340は行動A’を選択し、この選択を、制御信号342を介して、リソース310へ通信する。制御信号342に応じて、リソース310は、選択された行動A’を実施する。
ステップ408において、ステップ404の制御信号332に応じて、学習エージェント350は、例えば、ステップ402の報酬関数R(S,A)に基づいて、方法400の以前の処理ループのステップ406において取られた行動Aに対応する報酬を決定する。次に、学習エージェント350は、決定された報酬を用いて、例えば、式(1)または機能的に類似したコンストラクト(construct:構成体)を用いて、対応するQ値を計算する。
ステップ410において、学習エージェント350は、まず、ステップ406において、以前の処理ループの対応する状態Sのために選択されていてもよい、1つまたは複数の他の行動Aa(≠A)(Aとは異なる)に対応する報酬を決定するように動作する。この決定は、全てではないが、いくつかの種類のリソース310のためにのみ可能である。例えば、ステップ410のこの特定の下位ステップは、1つまたは複数のバッファキューによって表されたリソース310のために確実に実行され得る。この場合にステップ410を実施するために用いることができる例示的な数学公式が以下に与えられている(例えば、式(5)参照)。
ステップ410の次の下位ステップにおいて、学習エージェント350は、例えば、式(1)または機能的に類似したコンストラクトを用いて、1つまたは複数の行動Aaに対応するQ値を計算するように動作する。
概して、ステップ410が実行可能となるには、対応するリソース310の振る舞いが、行動Aの近傍において、該近傍からの1つまたは複数の行動Aaに対応する報酬を確実に決定するために適した外挿方法を適用することができるよう、十分に決定的である必要がある。本明細書において、用語「近傍(vicinity)」は、対応するパラメータ空間内の行動AおよびAaの間の距離が比較的小さいこと、例えば、
であることを意味する。ここで、a0は定数である。実施形態によっては、利用可能な行動の全範囲が行動Aの近傍内にあり得る。
ステップ412において、学習エージェント350は、DRAマッパー340の状態-行動マッピング関数を更新するための適切な制御信号348を発生する。例示的な実施形態では、この更新は、ステップ408において行動Aのために計算されたQ値、およびステップ410において1つまたは複数の行動Aaのために計算されたQ値に基づいて、従来の仕方で遂行することができる。
ステップ414は、DRA制御動作モードを抜けるべきか否かを決定する役割を果たす。概して、任意の好適な基準が、ステップ414におけるこの決定を行うために用いられ得る。決定が、抜けるべきとなった場合には、このとき、方法400の処理は終了され、回路300は異なる動作モードに切り替えられ得る。さもなければ、方法400の処理はステップ404へ戻される。
図4Bは、一実施形態に係る、DRA制御方法400(図4A)の特定のステップの例示的な相対タイムラインを示す。この特定の実施形態では、リソース310は、バッファキュー500(図5)などの、バッファキューを含む。
図4Bの時間軸は時間t1~時間t3(>t1)の時間範囲を示す。T(k)と標識された、図4Bに示される2つの時間間隔のうちの第1のものは時間t1~t2にある。ここで、t1<t2<t3である。T(k+1)と標識された、2つの時間間隔のうちの第2のものは時間t2~t3にある。動作持、バッファキューはイングレストラフィックフローによって埋められ、エグレストラフィックフロー(egress traffic flow)によって空にされる。図4Bでは、以下の表記が使用される:
B(k)は、時間間隔T(k)の開始時におけるバッファキュー占有(充填(fill))である、
B(k+1)は、時間間隔T(k)の終了時における、または、同等に、時間間隔T(k+1)の開始時におけるバッファキュー占有である、
B(k+2)は、時間間隔T(k+1)の終了時におけるバッファキュー占有である、
I(k)は、時間間隔T(k)内のイングレスフローの量である、
I(k+1)は、時間間隔T(k+1)内のイングレスフローの量である、
E(k)は、時間間隔T(k)内のエグレスフローの量である、
E(k+1)は、時間間隔T(k+1)内のエグレスフローの量である、
R(k-1)は、時間間隔T(k)の間に効力のある制御パラメータである、
R(k)は、時間間隔T(k+1)の間に効力のある同様の制御パラメータである。
図4Bの時間範囲の間におけるステップ404の第1のインスタンスはB(k)(および/またはI(k-1)、E(k-1)、式(2)参照)に基づき、該インスタンスを用いて、リソース310が時間t1にある状態Sを決定する。次に、ステップ406の対応するインスタンスを用いて、行動A=R(k-1)を選択する。ステップ406のこのインスタンスにおいて行われる選択は、当該選択の時間にその内部に存在するDRAマッパー340のLUTに基づく。LUTの最後の更新が、ステップ406のこの特定のインスタンスの時間よりも早い時間におけるものであったため、時間間隔T(k)内に用いられるべき制御パラメータR(k-1)の時間指数は、図4Bにおいて、(k-1)であるように示されている。
図4Bの時間範囲の間におけるステップ404の第2のインスタンスはB(k+1)(および/またはI(k)、E(k)、式(2)参照)に基づき、リソース310が時間t2にある状態S’を決定するために用いられる。次に、ステップ408~412の対応するインスタンスを用いて、DRAマッパー340のLUTを更新し得る。次に、ステップ406の対応する(第2の)インスタンスを用いて、行動A’=R(k)を選択する。選択はLUTの更新後に行われる。
当業者は、以上において指示された、ステップの時間シーケンスが、次に続く時間間隔(図4Bには明示的に示されていない)内で繰り返され得ることを理解するであろう。
図5は、一実施形態に係るバッファキュー500の動作を概略的に示す。バッファキュー500はリソース310の部分であることができ、方法400(図4A)の対応する実施形態を用いて発生された制御信号342(図3も参照)を用いて制御することができる。バッファキュー500の以下の説明は、図3~図5を引き続き参照して与えられる。
動作時、バッファキュー500は、未知の速度およびダイナミシティを有するイングレストラフィックフロー501によって埋められる。トラフィックフローは、データ単位(例えば、データパケット)502の形態ものであり得、そのうちの5つが例示の目的のために、図5において、バッファキュー500内に一時的に記憶されるように示されている。バッファキュー500はエグレストラフィックフロー503によって空にされる。バッファキュー500のエグレスレートは制御信号342を介して制御することができる。制御信号342を生成するために用いられる例示的な最適化目的352(図3)は、バッファキュー充填(遅延に関連する)と未利用容量との間の重み付きトレードオフを最小化することであることができる。バッファキュー500の以下の説明において使用される表記は、以上において図4Bを参照して説明された表記と一貫している。
以下のように、式(2)を用いてバッファキュー500のダイナミクスを記述することができる:
ここで、E(k)は式(3)によって拘束される:
リソース計測情報312(図3)は、例えば、B(k)およびI(k)の値を含み得る。
方法400(図4A)のステップ408は、例えば、式(4)を用いて実施することができる:
ここで、R(S,A)は、状態Sおよび行動Aに対応する報酬であり、βは、バッファキュー500の充填と未利用容量との間の選択されたトレードオフを表す定数である。
ステップ410(図4A)は、例えば、式(5)を用いて実施することができる:
式(5)は、行動A以外の行動への式(4)の外挿(extrapolation)と見ることができる。
方法400(図4A)のステップ412は、例えば、式(6)を用いて実施することができる:
方法400の処理がステップ412からループして元に戻った後に、次のステップ404(図4A参照)は、例えば、式(7)を用いて実施することができる:
ここで、F(・)は2つの引数の好適な整数値関数である(式(10)も参照)。
次に、次の方法400(図4A)のステップ406は、例えば、式(8)を用いて実施することができる:
ここで、cは正規化定数であり、aは、利用可能な行動のセットからの任意の行動を表す。式(8)は貪欲選択ポリシーを表すことに留意されたい。
様々な実施形態では、バッファキュー500は、システム100(図1)内、またはシステム200内にあることができる。それゆえ、式(2)~式(8)によって例示される処理は、例えば、以下においてさらに示されるように、いずれかのシステムに適応させることができる。
例えば、システム200における上り送信に適用されるDBA制御では、最適化目的352は、遅延(バッファキュー占有に関連する)と帯域幅効率との間の有益なトレードオフが達成され得るよう、上りトラフィックベアリングエンティティごとにリソースを割振ることであり得る。この場合には、バッファキュー500はシステム200内のトラフィックベアリングエンティティの上りバッファキューであることができ、エグレスレートは、上り方向に送られている実際のトラフィックに対応し、制御パラメータRは、そのトラフィックベアリングエンティティに割振ることができる帯域幅リソースの最大量に対応する。
方法400(図4A)のステップ402において、以下の状態定義が用いられ得る:
S=離散(I(k),L)

当業者は、式(9)は、適用可能な範囲のイングレスレートの、L個の離散レベルへの量子化(quantization)に依拠することを理解するであろう。次に、この状態定義を用いて、式(7)のための対応する関数Fを考案することができる。
図6は、システム200において、方法400およびバッファキュー500のこれらの例示的な実装形態に基づいて達成することができる例示的な改善をグラフで示す。より具体的には、図6において、曲線602は、例示的な実施形態に係るシステム200においてパレート方式で達成することができる平均帯域幅(BW)使用量の関数としてのバッファキュー500の平均占有(充填)の振る舞いを示すシミュレーション結果を示す。点604は、従来のDBAアルゴリズムによって制御されているときの同じシステム200の性能を定量化している。矢印606は、方法400の上述の実施形態は、有利に、バッファキュー500の同じ平均充填において平均帯域幅使用量の点で上記の従来のDBAアルゴリズムより性能が約15%優れ得ることを指示する。
図7~図10は、一実施形態に係る、方法400が実施され得るシステム100(図1)の異なる例示的な構成を示す。より具体的には、図7~図8は、方法400が、システム100内の単一のバッファキュー500の不連続動作を最適化するために用いられている、いくつかのシナリオを示す。図9は、1つの上りバッファキュー500および1つの下りバッファキュー500のための送信機会の独立動的時間割当て(iDTA)のための方法400の使用を示す。図10は、複数の上りおよび下りキュー500のための送信機会の調整動的時間割当て(cDTA)のための方法400の使用を示す。
図7A~図7Cに対応するシステム設定の下で、エグレスフロー503は、データ送信のために割振ることができる1つのTDDフレーム当たりのタイムスロットの数に関連する。タイムスロットの上記数は、最小数(MIN)~最大数(MAX)から選択される任意の値に設定することができる。図7A~図7Cの各々は、(i)バッファキューの異なる対応する占有B(k)(図5も参照)、および(ii)割振られたタイムスロットの異なるそれぞれの数によって特徴付けられる異なるそれぞれの時点を示す。
より具体的には、図7Aは、バッファキュー500が中程度の量のデータ単位502を有し、方法400がDRAコントローラ320に中間の(MINとMAXとの間の)数のタイムスロットをバッファキューに割振らせる状況を示す。図7Bは、バッファキュー500が空であり、方法400がDRAコントローラ320に最小数(MIN)のタイムスロットをバッファキューに割振らせる状況を示す。図7Cは、バッファキュー500が比較的多量のデータ単位502を有し、方法400がDRAコントローラ320に最大数(MAX)のタイムスロットをバッファキューに割振らせる状況を示す。この種の振る舞いを達成するために、最適化目的352は、割振られるタイムスロットの数を最小化するよう試みつつ、バッファキュー500の占有B(k)を比較的低く保つように定式化される。この特定の最適化目的352は、対応する送信器の遅延性能(B(k)に関連する)と電力消費(割振られるタイムスロットの数に関連する)との間のトレードオフを実施する。
図8A~図8Cに対応するシステム設定は、フィードバック機構が、今度は、データを充填されたTDDフレームごとの実際のエグレス量(egress volume:エグレス(出力)ボリューム)またはタイムスロットの実際の数に対応することを除いて、図7A~図7Cに対応するシステム設定と同様である。関連文献によっては、このシステム構成は非ステータスレポート(non-status report)またはトラフィック監視モードと称されることがある。このモードでは、第1の時間において、DRAコントローラ320は第1の数のタイムスロットを来たるべき時間間隔の間における送信のために割振る。その時間間隔の間に、データを充填された実際の数のタイムスロットが計数され、例えば、信号312を介して、DRAコントローラ320へ折り返し報告される。レポートに応じて、DRAコントローラ320は、方法400の実施形態を用いて次の来たるべき時間間隔のための第2の数のタイムスロットを決定するように動作する。ここでは、ペイロードデータを積載されないタイムスロットはアイドルデータを積載され得ることに留意されたい。アイドルデータの送信は、通例、有意の省電力をもたらさない。したがって、最適化目的352は、バッファキュー500内のデータ単位502のバックログを比較的低いレベルに保つことを依然として目指しつつ、アイドルデータの送信を最小化するように定式化することができる。
図9は、単一のツイストペアまたは同軸ケーブル140を通じて実施されるデータリンクを示す。バッファキュー5001が下り送信のために用いられ、対応するイングレスおよびエグレスフローが、それぞれ、5011および5031と標識されている。バッファキュー5002が上り送信のために同様に用いられ、対応するイングレスおよびエグレスフローが、それぞれ、5012および5032と標識されている。本明細書において、TDDフレームは、例えば、図9に指示されるように、下り送信のために用いることができるDMTシンボル位置のセット、および上り送信のために用いることができるDMTシンボル位置のセットを有する。下りおよび上りDMTシンボル位置の合計は一定である(例えば、特定のG.fastプロファイルについては、35個のDMTシンボル位置)。パラメータM1は、TDDフレーム内の下り送信のために割振られたDMTシンボル位置の数を表す。下りおよび上りDMTシンボル位置の合計は一定であるため、このパラメータは、上り送信のために割振られたDMTシンボル位置の数も制御する。M1の値は、DRAコントローラ320によって、バッファキュー5001および5002の充填に基づいて、または好適なトラフィック監視情報に基づいて動的に変更され得る。M1の値が変化することができる範囲は、どちらも図9に指示されている、数MIN1~数MAX1である。
図10は、2本のツイストペアまたは同軸ケーブル140を通じて実施されるデータリンクを示す。バッファキュー5001が、2本のケーブルのうちの第1のものを通じた下り送信のために用いられ、対応するイングレスおよびエグレスフローが、それぞれ、5011および5031と標識されている。バッファキュー5003が、2本のケーブルのうちの第2のものを通じた下り送信のために同様に用いられ、対応するイングレスおよびエグレスフローが、それぞれ、5013および5033と標識されている。バッファキュー5002が、2本のケーブルのうちの第1のものを通じた上り送信のために用いられ、対応するイングレスおよびエグレスフローが、それぞれ、5012および5032と標識されている。バッファキュー5004が、2本のケーブルのうちの第2のものを通じた上り送信のために同様に用いられ、対応するイングレスおよびエグレスフローが、それぞれ、5014および5034と標識されている。本明細書では、上りおよび下り信号の間の近端クロストーク干渉を回避するために、M1、MIN1、およびMAX1の同じ値が両方の伝送回線のTDDフレームに適用されている。3本以上のツイストペアまたは同軸ケーブル140を通じて実施されるデータリンクへの図示の構成の拡張は極めて簡単である。
図9~図10に示されるシステムに対応する例示的な実施形態において、方法400のステップ402は、上りおよび下りキューのキュー充填および/またはエグレスレートが状態空間変数として用いられるように実施され得る。この場合には、式(7)は、例えば、以下の形を取り得る:
ここで、MFはTDDフレーム内のタイムスロットの総数であり、EU n(k)は、上り方向におけるn番目のユーザのためのk番目の時間間隔内のエグレスレートであり、ED n(k)は、下り方向におけるn番目のユーザのためのk番目の時間間隔内のエグレスレートである。最適化目的352は、例えば、アイドルタイムスロットの数を経時的に最小化するように定式化することができる。
図11は、図10に示される構成で方法400を用いてcDTAモードで動作するシステム100において達成することができる例示的な改善を示す。図11に示される表の第1列は、3つの異なる制御アルゴリズムが比較される更新周期(update period:更新期間)の異なる値を与える。第2列は、M1の値がM1=18に固定されているアルゴリズムの推定性能特性を提示する。第2列は、全体が本明細書において参照により組み込まれる、欧州特許出願公開第3182636号において開示されているDRAアルゴリズムの推定性能特性を提示する。第3列は、方法400の一実施形態を用いて実施されたDRAアルゴリズムの推定性能特性を提示する。性能特性は、下りおよび上りエグレスレートが、それぞれ、最大平均下りエグレスレートおよび最大平均上りエグレスレートに比例して制御可能に割振られる、「最適な比例する(対応する)公正な割り当て(optimal proportional fair allocation)」からのずれ(deviation)を用いて定量化される。より良好な性能は図示のメトリックのより小さい絶対値に対応する。例えば、方法400の例示的な実施形態は、30ミリ秒の更新周期に対して、従来技術のcDTAアルゴリズムより性能が約30%優れ得ることが分かる。この改善は、有利に、例えば、対応するDSLシステムにおける改善されたQoSとなって表れることができる。
図12は、いくつかの代替的な実施形態が実施され得る無線通信システム1200のブロック図を示す。システム1200は、モバイル端末1210、複数のモバイル端末12201~1220N、およびネットワークコア1250に動作するように接続された基地局1230を含む。例示的な実施形態では、基地局1230は、発展型Node B(eNB:evolved Node B)または次世代Node B(gNB)のインスタンスであることができる。無線ネットワークの異なる世代(例えば、3G、4G、および/または5G、またはさらに、6Gなどの、5Gの将来の発展)の文脈では、モバイル端末1210および12201~1220Nのうちの任意のものなどの、モバイル端末はユーザ機器(UE:user equipment)と称されることがあり、ネットワークコア1250は発展型パケットコア(EPC:evolved packet core)と称されることがある。基地局1230は、関連技術分野において知られているとおりの、基地局1230およびネットワークコア1250に動作するように接続された追加の基地局(図12には明示的に示されていない)を有する拡張UMTS地上アクセスネットワーク(E-UTRAN:evolved UMTS terrestrial radio access network)の部分であるか、または5G、6G、もしくは無線ネットワークの将来の発展の部分を形成し得る。本明細書において、用語UMTSはUniversal Mobile Telecommunications System(ユニバーサル移動体通信システム)を表す。
例示的な実施形態では、モバイル端末1210は、少なくとも1つのメモリ1208に結合されており、モバイル端末が基地局1230との無線リンク1218を確立し、維持することを可能にする仕方で1つまたは複数のアンテナ1216に接続された無線周波数(RF:radio-frequency)トランシーバ1214にインターフェースで連結された、少なくとも1つのDSP1212を含む。動作時、無線リンク1218は、モバイル端末1210が、例えば、電話通話またはデータセッションをサポートし、伝える(carry)ために、アップリンク信号を基地局1230へ送り、ダウンリンク信号を基地局から受信することを可能にする。モバイル端末12201~1220Nの各々はモバイル端末1210と、機能的に、および/または構造的に同様であることができる。実施形態によっては、モバイル端末12201~1220Nは存在しなくてもよい。様々な実施形態では、モバイル端末1210は、セルラー電話、スマートフォン、ハンドヘルドコンピュータ、パーソナルメディアデバイス、スマートウォッチ、IoTデバイス、ゲーミングデバイス、スマートカー等であることができる。
例示的な実施形態では、基地局1230は、少なくとも1つのメモリ1228に結合されており、基地局がモバイル端末12201~1220Nとの無線リンク1218および/または1つまたは複数の他の無線リンク(図12には明示的に示されていない)を確立し、サポートすることを可能にする仕方で複数のアンテナ12361~1236Mに接続されたRFトランシーバ1234にインターフェースで連結された少なくとも1つのDSP1232を含む。例えば、基地局1230は、モバイル端末1210が、まず、基地局によって支配されたセルを、サービングセルになるよう選択し、次に、無線リンク1218を確立することを可能にするデータを一斉通信し得る。
例示的な実施形態では、DSP1212および1232ならびにメモリ1208および1228のうちの一部または全てを、図3~図5を参照して説明される少なくともいくつかの実施形態を実施するために用いることができる。
例えば、実施形態によっては、システム1200は、全体が本明細書において参照により組み込まれる、IEEE標準802.11-2016に従って動作し得る。この標準は、QoSデータフレーム、バッファされたトラフィックキュー(buffered-traffic queue)、および送信機会の使用を指定する。それゆえ、システム1200は、(1つまたは複数のトラフィッククラスに関連付けられ得る)バッファキューを有し、キューサイズ情報を適切なコントローラ/スケジューラへ通信し、方法400の一実施形態を用いて送信機会(および/または他のリソース)を対応する無線局1210、1220、および/または1230に割り当て得る。
以上において、例えば、概要セクションにおいて、および/または図1~図12のうちの1つ、またはそれらのうちの一部または全ての任意の組み合わせを参照して開示された例示的な実施形態によれば、少なくとも1つのプロセッサ(例えば、114、118、図1;202、218、図2;1212、1232、図12)と、プログラムコードを含む少なくとも1つのメモリ(例えば、116、図1;201、図2;1208、1228、図12)と、を備える装置であって、少なくとも1つのメモリおよびプログラムコードが、少なくとも1つのプロセッサを用いて、装置に、少なくとも、第1のバッファキュー(例えば、500、図5、図7~図8;5001、図9~図10)のエグレスレート(例えば、E(k+1)、図4B)を、クオリティ値(例えば、Q値、式(1))に、および現在の時間間隔(例えば、T(k)、図4B)内の第1のバッファキューの占有(例えば、B(k)および/またはB(k+1)、図4B)に基づいて、次の時間間隔(例えば、T(k+1)、図4B)のための第1のバッファキューのエグレスレート制御パラメータ値(例えば、R(k)、図4B)を選択することによって、調節することと、現在の時間間隔内の第1のバッファキューの複数のエグレスレート制御パラメータ値に対応する複数のクオリティ値を(例えば、式(6)に従って)更新することと、を行わせるように構成されている、装置が提供される。
本明細書において使用するとき、用語「エグレスレート制御パラメータ値」は、エグレスレート値、および適用可能なエグレスレート値に対する限度(例えば、上限R(k))のうちの一方または両方を包含すると解釈されるべきである。
本明細書において使用するとき、用語「占有(occupancy)」は、バッファキューの充填(例えば、メトリックB(k)、B(k+1)および/またはそれらの組み合わせ)、1つもしくは複数の他のバッファキュー充填メトリック(例えば、イングレスレート、イングレス量、エグレスレート、エグレス量、およびそれらの異なる組み合わせ)、ならびに/または例えば、ステータスレポートにおいて見いだされ得るとおりの、関連トラフィック監視データを包含すると解釈されるべきである。
上述の装置のいくつかの実施形態では、装置は、現在の、および/または以前の時間間隔内の第1のバッファキューの占有(例えば、B(k)および/またはB(k+1)、図4B)に基づいて現在の時間間隔内の第1のバッファキューの複数のエグレスレート制御パラメータ値に対応する複数のクオリティ値を更新するように構成された電子マッパー(electronic mapper)(例えば、340、図3)を備える。
上述の装置のうちの任意のものの実施形態によっては、装置は、現在の時間間隔内で選択されたエグレスレート制御パラメータ値に対応するクオリティ値からの外挿を用いて複数のクオリティ値を更新するように構成されている。
上述の装置のうちの任意のものの実施形態によっては、プログラムコードは強化学習プログラムを含む。
上述の装置のうちの任意のものの実施形態によっては、強化学習プログラムは探索段階をサポートしない。
上述の装置のうちの任意のものの実施形態によっては、少なくとも1つのメモリおよびプログラムコードは、少なくとも1つのプロセッサを用いて、装置に、電子マッパーを用いて少なくとも第2のバッファキュー(例えば、5002、図9~図10)のエグレスレートを調節させるようにさらに構成されている。
上述の装置のうちの任意のものの実施形態によっては、第1のバッファキューは下り送信のためのものであり、第2のバッファキューは上り送信のためのものである。
上述の装置のうちの任意のものの実施形態によっては、第1のバッファキューおよび第2のバッファキューの両方は下り送信のためのものであるか、または上り送信のためのものである。
上述の装置のうちの任意のものの実施形態によっては、電子マッパーは、(例えば、式(8)によって表される)貪欲選択ポリシーを用いて次の時間間隔のための第1のバッファキューのエグレスレートを選択するように構成されている。本明細書において使用するとき、用語「貪欲選択ポリシー」は、ε貪欲ポリシー、またはいくらかの0でない確率をもって最適以下の、もしくはランダムな行動が取られ得る他の選択ポリシーを除外する。
上述の装置のうちの任意のものの実施形態によっては、電子マッパーは、次の時間間隔のための第1のバッファキューのエグレスレートのランダムな選択を行わないように構成されている。
上述の装置のうちの任意のものの実施形態によっては、装置は、データを第1のバッファキューから、加入者線(例えば、1401、図1)を通じて、顧客構内設備ユニット(例えば、1401、図1)へ送信するためのアクセスノード(例えば、110、図1)を備える。
上述の装置のうちの任意のものの実施形態によっては、装置は、データを第1のバッファキューから、加入者線(例えば、1401、図1)を通じて、アクセスノード(例えば、110、図1)へ送信するための顧客構内設備ユニット(例えば、1401、図1)を備える。
上述の装置のうちの任意のものの実施形態によっては、装置は、データを第1のバッファキューから、光ファイバー(例えば、224、図2)を通じて、光ネットワークユニット(例えば、2601、図2)へ送信するための光回線終端装置(例えば、210、図2)を備える。
上述の装置のうちの任意のものの実施形態によっては、装置は、データを第1のバッファキューから、光ファイバー(例えば、224、図2)を通じて、光回線終端装置(例えば、210、図2)へ送信するための光ネットワークユニット(例えば、2601、図2)を備える。
上述の装置のうちの任意のものの実施形態によっては、エグレスレートは第1のバッファキューのための帯域幅割り当てを決定する。
上述の装置のうちの任意のものの実施形態によっては、エグレスレートは時分割二重化フレームにおいて第1のバッファキューのための送信機会の割り当てを決定する。
上述の装置のうちの任意のものの実施形態によっては、エグレスレートは時分割多重化を用いて第1のバッファキューのための送信機会の割り当てを決定する。
上述の装置のうちの任意のものの実施形態によっては、装置は、少なくとも1つのプロセッサおよび少なくとも1つのメモリに動作するように接続された無線通信システム(例えば、1200、図12)の基地局(例えば、1230、図12)を備える。
以上において、例えば、概要セクションにおいて、および/または図1~図12のうちの任意の1つ、もしくはそれらのうちの一部もしくは全ての任意の組み合わせを参照して開示された別の例示的な実施形態によれば、プログラムコードが上に符号化された非一時的機械可読媒体であって、プログラムコードが機械によって実行されたときに、機械が、第1のバッファキュー(例えば、500、図5、図7~図8;5001、図9~図10)のエグレスレート(例えば、E(k+1)、図4B)を、クオリティ値(例えば、Q値、式(1))に、および現在の時間間隔(例えば、T(k)、図4B)内の第1のバッファキューの占有(例えば、B(k)および/またはB(k+1)、図4B)に基づいて、次の時間間隔(例えば、T(k+1)、図4B)のための第1のバッファキューのエグレスレート制御パラメータ値(例えば、R(k)、図4B)を選択することによって、(例えば、406、図4Aにおいて)調節するステップと、現在の時間間隔内の第1のバッファキューの複数のエグレスレート制御パラメータ値に対応する複数のクオリティ値を(例えば、412、図4Aにおいて、式(6)に従って)更新するステップと、を含む方法を実施する、非一時的機械可読媒体が提供される。
上述の非一時的機械可読媒体の実施形態によっては、更新するステップは、現在の時間間隔内の第1のバッファキューの占有(例えば、B(k)および/またはB(k+1)、図4B)に基づいて現在の時間間隔内の第1のバッファキューの複数のエグレスレート制御パラメータ値に対応する複数のクオリティ値を更新するように構成された電子マッパー(例えば、340、図3)を用いることを含む。
本開示は例示的な実施形態への参照を含むが、本明細書は、限定的な意味で解釈されることを意図されていない。本開示が関連する当業者に明らかである、上述の実施形態、および本開示の範囲内の他の実施形態の様々な変更は、例えば、添付の請求項において表明されるとおりの、本開示の原理および範囲に含まれると考えられる。
別途明示的に断りのない限り、各数値および範囲は、あたかも、単語「約(about)」または「およそ(approximately)」が値または範囲の前に置かれているかのように、おおよそのものであると解釈されるべきである。
本開示の本質を説明するために説明され、図示された部分の細部、材料、および配置の様々な変更が、当業者によって、例えば、添付の請求項において表明されるとおりの、本開示の範囲から逸脱することなく行われ得ることがさらに理解されるであろう。
請求項における図の番号および/または図の参照符号の使用は、請求項の解釈を促進するために、クレームされている主題の1つまたは複数の可能な実施形態を識別することを意図されている。このような使用は、それらの請求項の範囲を、対応する図に示される実施形態に必然的に限定するものと解釈されるべきでない。
添付の方法クレームにおける要素は、存在する場合、特定の順序で、対応するラベル付けと共に記述されているが、クレームの記述がそれらの要素のうちの一部または全てを実施するための特定の順序を別途示唆していない限り、それらの要素は、必ずしも、その特定の順序で実施されるよう限定されることを意図されるわけではない。
本明細書における「一実施形態(one embodiment)」または「一実施形態(an embodiment)」への言及は、実施形態に関して説明された特定の特徴、構造、または特性が本開示の少なくとも1つの実施形態に含まれ得ることを意味する。本明細書中の様々な箇所における表現「一実施形態において(in one embodiment)」の出現は必ずしも全てが同じ実施形態に言及しているわけではなく、別個の、または代替的な実施形態は必ずしも他の実施形態を相互排除するわけでもない。同じことが用語「実装形態(implementation)」にも言える。
本明細書において別途記載のない限り、複数の同様の対象物のうちの対象物に言及するための、順序を示す形容詞「第1」、「第2」、「第3」等の使用は、単に、そのような同様の対象物の異なる事例が言及されていることを指示するにすぎず、そのように言及された同様の対象物が、時間的に、空間的に、格付けにおいて、または任意の他の様態において、対応する順序または順番になっていなければならないことを暗示することを意図されていない。
本明細書において別途記載のない限り、その明白な意味に加えて、接続詞「if(~の場合には)」は、さらに、または代替的に、「when(~ときには)」、または「upon(~と)」、または「in response to determining(~と決定したことに応じて)」、または「in response to detecting(~を検出したことに応じて)」を意味すると解釈され得、その解釈は、対応する特定の文脈に依存し得る。例えば、表現「if it is determined(~と決定された場合には)」、または「if[a stated condition] is detected([規定された条件]が検出された場合には)」は、「upon determining(~と決定すると)」、または「in response to determining(~と決定したことに応じて)」、または「upon detecting[the stated condition or event]([規定された条件または事象]を検出すると)」、または「in response to detecting[the stated condition or event]([規定された条件または事象]を検出したことに応じて)」を意味すると解釈され得る。
また、本説明の目的のために、用語「結合する(couple)」、「結合する(coupling)」、「結合される(coupled)」、「接続する(connect)」、「接続する(connecting)」、または「接続される(connected)」は、エネルギーが2つ以上の要素の間で伝達されることを可能にされ、必須ではないが、1つまたは複数の追加の要素の介在が企図される、当技術分野において知られた、または今後開発される任意の様式に言及する。逆に、用語「直接結合される(directly coupled)」、「直接接続される(directly connected)」等は、そのような追加の要素の不存在を暗示する。
本明細書において、要素および標準を参照して使用するとき、用語「適合した(compatible)」は、要素が、標準によって完全に、または部分的に指定された様式で他の要素と通信し、他の要素によって、標準によって指定された様式で他の要素と通信する能力を十分に有すると認識されるであろうことを意味する。適合した要素は、標準によって指定された様式で内部で動作する必要はない。
記載されている実施形態は、全ての点において、例示としてのみ考慮されるべきであり、限定として考慮されるべきではない。特に、本開示の範囲は、本明細書における説明および図でなく、添付の請求項によって指示される。請求項の均等の意味および範囲内に含まれる全ての変更はそれらの範囲に包含されるべきである。
当業者であれば、様々な上述の方法のステップは、プログラムされたコンピュータによって遂行され得ることを容易に認識するであろう。本明細書において、いくつかの実施形態は、機械またはコンピュータ可読であり、本明細書において説明される方法のステップのうちの一部または全てを遂行する命令の機械実行可能またはコンピュータ実行可能プログラムをエンコードする、プログラム記憶デバイス、例えば、デジタルデータ記憶媒体を包括することを意図される。プログラム記憶デバイスは、例えば、デジタルメモリ、磁気ディスクもしくはテープなどの磁気記憶媒体、ハードドライブ、または光学的に読み取り可能なデジタルデータ記憶媒体であり得る。実施形態はまた、本明細書において説明された方法の上記のステップを遂行するようにプログラムされたコンピュータを包括することも意図される。
「プロセッサ」および/または「コントローラ」と標識された任意の機能ブロックを含む、図に示される様々な要素の機能は、専用ハードウェア、および適切なソフトウェアと連携してソフトウェアを実行する能力を有するハードウェアの使用を通じて提供され得る。プロセッサによって提供される場合には、機能は、単一の専用プロセッサによって、単一の共有プロセッサによって、または一部が共有され得る、複数の個々のプロセッサによって提供され得る。さらに、用語「プロセッサ」または「コントローラ」の明示的な使用は、ソフトウェアを実行する能力を有するハードウェアを排他的に指すと解釈されるべきでなく、限定するものではないが、デジタル信号プロセッサ(DSP)ハードウェア、ネットワークプロセッサ、特定用途向け集積回路(ASIC:application specific integrated circuit)、フィールドプログラマブルゲートアレイ(FPGA:field programmable gate array)、ソフトウェアを記憶するためのリードオンリーメモリ(ROM:read only memory)、ランダムアクセスメモリ(RAM:random access memory)、および不揮発性ストレージを暗黙的に含み得る。従来の、および/または特注の、他のハードウェアも含まれ得る。同様に、図に示される任意のスイッチは単に概念的なものにすぎない。それらの機能は、プログラム論理の動作を通じて、専用論理を通じて、プログラム制御および専用論理の相互作用を通じて、またはさらに手動で実施され得、特定の技法は、文脈からより具体的に理解されるようにインプリメンタによって選択可能である。
本出願において使用するとき、用語「回路(circuitry)」は以下のもののうちの1つまたは複数または全てを指し得る:(a)ハードウェアのみの回路の実装形態(アナログおよび/またはデジタル回路(circuitry)のみの形の実装形態など)、(b)ハードウェア回路およびソフトウェアの組み合わせ、例えば,次のようなもの(適用可能な場合):(i)アナログおよび/またはデジタルハードウェア回路とソフトウェア/ファームウェアとの組み合わせ、および(ii)携帯電話またはサーバなどの装置に様々な機能を遂行させるよう協働する、ソフトウェアを伴うハードウェアプロセッサの任意の部分(デジタル信号プロセッサを含む)、ソフトウェア、およびメモリ)、ならびに(c)ソフトウェア(例えば、ファームウェア)を動作のために必要とする、マイクロプロセッサ、またはマイクロプロセッサの部分などの、ハードウェア回路およびまたはプロセッサ、ただし、ソフトウェアは、それが動作のために必要とされないときには、存在しなくてもよい。」回路(circuitry)のこの定義は、任意の請求項を含む、本出願におけるこの用語の全ての使用に当てはまる。さらなる例として、本出願において使用するとき、用語、回路(circuitry)はまた、ハードウェア回路もしくはプロセッサ(または複数のプロセッサ)のみ、またはハードウェア回路もしくはプロセッサの部分、ならびにその(またはそれらの)付随するソフトウェアおよび/またはファームウェアの実装形態も包括する。用語、回路(circuitry)はまた、例えば、および特定のクレーム要素に適用可能な場合には、モバイルデバイスのためのベースバンド集積回路またはプロセッサ集積回路、あるいはサーバ、セルラーネットワークデバイス、または他のコンピューティングもしくはネットワークデバイス内の同様の集積回路も包括する。
当業者には、本明細書における任意のブロック図は、本開示の原理を取り入れた例示的回路(circuitry)の概念図を表すことを理解されたい。同様に、任意のフローチャート、フロー図、状態遷移図、擬似コード、および同様のものは、コンピュータ可読媒体内で実質的に表現され、それにより、コンピュータまたはプロセッサによって実行され得る様々なプロセスを表すことを理解されたい。これは、このようなコンピュータまたはプロセッサが明示されているかどうかにかかわりない。
本明細書における「発明の概要」は、いくつかの例示的な実施形態を紹介することを意図されており、追加の実施形態が、「発明を実施するための形態」において、および/または1つまたは複数の図面を参照して説明される。「発明の概要」は、クレームされている主題の本質的な要素または特徴を識別することを意図されておらず、また、それは、クレームされている主題の範囲を限定することも意図されていない。
100 通信システム
110 分配点ユニット
114、1541、154N、202、2681、268N、1212、1232 デジタル信号プロセッサ
116、1561、156N、201、2721、272N、1208、1228 メモリ
118、218 電子コントローラ
120i、160i 送信器
130i、170i 受信器
1381、138N、1421、142N 入力/出力ポート
1401、140N 加入者線
1501、150N 顧客構内設備ユニット
200 受動光ネットワークシステム
210 光回線終端装置
211、213 制御信号
212、264i 光送信器
214、266i 光受信器
220、262、262i 光サーキュレータ
224 光ファイバー
228、2321、232N ポート
230 受動ルータ
2601、260N 光ネットワークユニット
300 回路
310 DRA制御可能リソース
312 リソース計測情報
320 DRAコントローラ
330 リソースモニタ
332、342、348 制御信号
340 DRAマッパー
350 学習エージェント
352 最適化目的
400 方法
500、5001、5002、5003、5004 バッファキュー
501 イングレストラフィックフロー
5011、5012、5013、5014 イングレスフロー
502 データ単位
503 エグレストラフィックフロー
5031、5032、5033、5034 エグレスフロー
1200 無線通信システム
1210、12201、1220N、12201、1220N モバイル端末
1214、1234 無線周波数トランシーバ
1216、12361、1236M アンテナ
1218 無線リンク
1230 基地局
1250 ネットワークコア

Claims (14)

  1. 少なくとも1つのプロセッサと、
    プログラムコードを含む少なくとも1つのメモリと、
    を備える装置であって、
    前記少なくとも1つのメモリと前記プログラムコードとが、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも、
    第1のバッファキューのエグレスレートを、クオリティ値に、および現在の時間間隔内の前記第1のバッファキューの占有に基づいて、次の時間間隔のための前記第1のバッファキューのエグレスレート制御パラメータ値を選択することによって、調節することであって、前記クオリティ値は特定の状態における特定のエグレスレート制御パラメータ値に対する報酬を定量化することと、
    前記現在の時間間隔内の前記第1のバッファキューの複数のエグレスレート制御パラメータ値に対応する複数の前記クオリティ値を更新することと、
    を行わせるように構成されている、装置。
  2. 前記装置が、前記現在の時間間隔内の前記第1のバッファキューの前記占有に基づいて前記現在の時間間隔内の前記第1のバッファキューの前記複数のエグレスレート制御パラメータ値に対応する前記複数の前記クオリティ値を更新するように構成された学習エージェントを備える、請求項1に記載の装置。
  3. 前記少なくとも1つのメモリと前記プログラムコードとが、前記少なくとも1つのプロセッサを用いて、前記装置に、以前の時間間隔内において選択された前記エグレスレート制御パラメータ値に対応するクオリティ値からの外挿を用いて前記複数の前記クオリティ値を更新させるように構成されている、請求項1に記載の装置。
  4. 前記プログラムコードが強化学習プログラムを含む、請求項1に記載の装置。
  5. 前記強化学習プログラムが探索段階をサポートせずすでに取られた行動の外挿に依拠する、請求項4に記載の装置(300)
  6. 前記少なくとも1つのメモリと前記プログラムコードとが、前記少なくとも1つのプロセッサを用いて、前記装置に、少なくとも第2のバッファキューのエグレスレートを調節させるようにさらに構成されている、請求項1に記載の装置。
  7. 前記第1のバッファキューが下り(ダウンストリーム)送信のためのものであり、
    前記第2のバッファキューが上り(アップストリーム)送信のためのものである、請求項6に記載の装置。
  8. 前記第1のバッファキューと前記第2のバッファキューとの両方が下り(ダウンストリーム)送信のためのものであるか、または上り(アップストリーム)送信のためのものである、請求項6に記載の装置。
  9. 前記少なくとも1つのメモリと前記プログラムコードとが、前記少なくとも1つのプロセッサを用いて、前記装置に、貪欲選択ポリシーを用いて前記次の時間間隔のための前記第1のバッファキューの前記エグレスレート制御パラメータ値を選択させるようにさらに構成されている、請求項1に記載の装置。
  10. 前記少なくとも1つのメモリ(116、201)と前記プログラムコードとが、前記少なくとも1つのプロセッサ(118、218、320)を用いて、前記装置に、前記次の時間間隔のための前記第1のバッファキュー(500)の前記エグレスレート制御パラメータ値のランダムな選択を行わせないようにさらに構成されている、請求項1に記載の装置(300)
  11. 請求項1~10のいずれかに記載の装置を備えるアクセスノードであって、データを前記第1のバッファキューから、データリンクを通じて、顧客構内設備ユニットへ送信するようさらに構成されている、アクセスノード。
  12. 請求項1~10のいずれかに記載の装置を備える顧客構内設備であって、データを前記第1のバッファキューから、データリンクを通じて、アクセスノードへ送信するようさらに構成されている、顧客構内設備。
  13. 非一時的機械可読媒体上にて符号化されたプログラムコードを有する前記非一時的機械可読媒体であって、前記プログラムコードが機械によって実行されたときに、前記機械が、
    第1のバッファキューのエグレスレートを、クオリティ値に、および現在の時間間隔内の前記第1のバッファキューの占有に基づいて、次の時間間隔のための前記第1のバッファキューのエグレスレート制御パラメータ値を選択することによって、調節することであって、前記クオリティ値は特定の状態における特定のエグレスレート制御パラメータ値に対する報酬を定量化することと、
    前記現在の時間間隔内の前記第1のバッファキューの複数のエグレスレート制御パラメータ値に対応する複数の前記クオリティ値を更新することと、
    を含む方法を実行する、非一時的機械可読媒体。
  14. 前記現在の時間間隔内の前記第1のバッファキューの前記複数のエグレスレート制御パラメータ値に対応する前記複数の前記クオリティ値を更新することが、前記現在の時間間隔内の前記第1のバッファキューの前記占有に基づく、請求項13に記載の非一時的機械可読媒体。
JP2021204984A 2020-12-17 2021-12-17 強化学習によって支援された動的リソース割り当て Active JP7377847B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/124,533 2020-12-17
US17/124,533 US11616736B2 (en) 2020-12-17 2020-12-17 Dynamic resource allocation aided by reinforcement learning

Publications (2)

Publication Number Publication Date
JP2022096654A JP2022096654A (ja) 2022-06-29
JP7377847B2 true JP7377847B2 (ja) 2023-11-10

Family

ID=78770470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021204984A Active JP7377847B2 (ja) 2020-12-17 2021-12-17 強化学習によって支援された動的リソース割り当て

Country Status (3)

Country Link
US (1) US11616736B2 (ja)
EP (1) EP4016967A1 (ja)
JP (1) JP7377847B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030145111A1 (en) 2000-12-22 2003-07-31 Dominique Derou-Madeline Adaptive routing process by deflection with training by reinforcement
JP2003274446A (ja) 2002-03-14 2003-09-26 Nippon Telegr & Teleph Corp <Ntt> 帯域制御方法および基地局装置
WO2019188941A1 (ja) 2018-03-27 2019-10-03 日本製鉄株式会社 解析システム、解析方法、およびプログラム
US20200067637A1 (en) 2018-08-21 2020-02-27 The George Washington University Learning-based high-performance, energy-efficient, fault-tolerant on-chip communication design framework

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072299B2 (en) 2001-08-20 2006-07-04 International Business Machines Corporation Credit-based receiver using selected transmit rates and storage thresholds for preventing under flow and over flow-methods, apparatus and program products
US8923672B2 (en) 2011-11-10 2014-12-30 Alcatel Lucent Wavelength router for a passive optical network
EP2878118B1 (en) 2012-07-27 2021-04-07 Assia Spe, Llc Management system and methods of managing time-division duplex (tdd) transmission over copper lines
KR20150089853A (ko) * 2014-01-28 2015-08-05 삼성전자주식회사 이종 무선망에서 트래픽 분산 제어방법 및 장치
US9614583B2 (en) 2014-06-27 2017-04-04 Adtran, Inc. Managing crosstalk in DSL systems
EP3182636B1 (en) 2015-12-17 2020-03-25 Alcatel Lucent Apparatus and method for controlling tdd communications
EP3516516B1 (en) 2016-09-21 2022-05-11 Accenture Global Solutions Limited Dynamic resource allocation for application containers
KR102398021B1 (ko) 2018-09-19 2022-05-17 한국전자통신연구원 수동형 광 네트워크에서의 기계학습 기반 대역 할당 방법 및 장치
CN112243166B (zh) * 2019-07-19 2023-04-07 上海诺基亚贝尔股份有限公司 用于光通信的方法、设备、装置和计算机可读介质
US20220343161A1 (en) * 2019-09-20 2022-10-27 Northeastern University Device and method for embedded deep reinforcement learning in wireless internet of things devices
JP7347525B2 (ja) * 2019-09-30 2023-09-20 日本電気株式会社 システム、方法及び制御装置
CN114339774A (zh) * 2020-09-30 2022-04-12 北京三星通信技术研究有限公司 频谱资源共享方法、装置、电子设备及存储介质
US11816610B2 (en) * 2020-10-28 2023-11-14 Cox Communications, Inc. Systems and methods for network resource allocations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030145111A1 (en) 2000-12-22 2003-07-31 Dominique Derou-Madeline Adaptive routing process by deflection with training by reinforcement
JP2003274446A (ja) 2002-03-14 2003-09-26 Nippon Telegr & Teleph Corp <Ntt> 帯域制御方法および基地局装置
WO2019188941A1 (ja) 2018-03-27 2019-10-03 日本製鉄株式会社 解析システム、解析方法、およびプログラム
US20200067637A1 (en) 2018-08-21 2020-02-27 The George Washington University Learning-based high-performance, energy-efficient, fault-tolerant on-chip communication design framework

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
R. K. Mehra, B. Ravichandran, J. B. D. Cabrera, D. N. Greve, R.S. Sutton,Towards Self-Learning Adaptive Scheduling for ATM Networks,Proceedings of the 36th IEEE Conference on Decision and Control,米国,IEEE,1997年12月12日,2393-2398

Also Published As

Publication number Publication date
US11616736B2 (en) 2023-03-28
US20220200932A1 (en) 2022-06-23
EP4016967A1 (en) 2022-06-22
JP2022096654A (ja) 2022-06-29

Similar Documents

Publication Publication Date Title
US8848523B2 (en) Method for sub-rating an ethernet passive optical network (EPON) medium access control (MAC) based communication link
Ansari et al. Media access control and resource allocation: For next generation passive optical networks
US20030016692A1 (en) Method and system for processing upstream packets of an optical network
JP2012175269A (ja) 動的帯域割当方法及び光通信ネットワーク
Sarigiannidis et al. DIANA: A machine learning mechanism for adjusting the TDD uplink-downlink configuration in XG-PON-LTE systems
EP2683113A1 (en) Energy efficient ethernet power management via SIEPON protocol
CN100581294C (zh) 以太网无源光网络多业务动态带宽请求的方法
Zaouga et al. Self-adjusting DBA algorithm for next generation PONs (NG-PONs) to support 5G fronthaul and data services
Inaty et al. Generalized multi-access dynamic bandwidth allocation scheme for future generation PONs: a solution for beyond 5G delay/jitter sensitive systems
JP7377847B2 (ja) 強化学習によって支援された動的リソース割り当て
CN105874729B (zh) 用于接入网络的设备和方法
Kyriakopoulos et al. Predicting and allocating bandwidth in the optical access architecture XG-PON
Zhang et al. High-priority first dynamic wavelength and bandwidth allocation algorithm in TWDM-PON
Durand et al. Energy efficient adaptive optical CDMA random access protocol based on particle swarm optimization
Ciceri et al. Dynamic bandwidth allocation with multi-ONU customer support for ethernet passive optical networks
Dalamagkas et al. PAS: a fair game-driven DBA scheme for XG-PON systems
Liu et al. MPCP-ℓ: Look-ahead enhanced MPCP for EPON
Kyriakopoulos et al. Bandwidth efficiency in the next generation access architecture XG-PON
Zhu et al. Dynamic subcarrier assignment in OFDMA-PONs based on deep reinforcement learning
Sharma et al. Resource Sharing Strategies for Point-to-Multipoint Distribution in Next-Generation DSL Networks
Park et al. Enhanced dynamic bandwidth allocation algorithm in Ethernet passive optical networks
Maheswaravenkatesh et al. A QoS-aware dynamic bandwidth allocation in PON networks
CN105703834B (zh) 一种控制光功率的方法和主节点
Nakayama et al. ITU TWDM-PON module for ns-3
Berisa et al. Real-time PON signaling for emerging low-latency applications

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220401

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231030

R150 Certificate of patent or registration of utility model

Ref document number: 7377847

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150