JP2009525643A - 強化学習及び伝播によるネットワークプロトコルオプションの最適化 - Google Patents

強化学習及び伝播によるネットワークプロトコルオプションの最適化 Download PDF

Info

Publication number
JP2009525643A
JP2009525643A JP2008552663A JP2008552663A JP2009525643A JP 2009525643 A JP2009525643 A JP 2009525643A JP 2008552663 A JP2008552663 A JP 2008552663A JP 2008552663 A JP2008552663 A JP 2008552663A JP 2009525643 A JP2009525643 A JP 2009525643A
Authority
JP
Japan
Prior art keywords
options
component
option
selection
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008552663A
Other languages
English (en)
Other versions
JP4825270B2 (ja
Inventor
リー、コング
スー、ウェンビン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2009525643A publication Critical patent/JP2009525643A/ja
Application granted granted Critical
Publication of JP4825270B2 publication Critical patent/JP4825270B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • H04L41/0816Configuration setting characterised by the conditions triggering a change of settings the condition being an adaptation, e.g. in response to network events
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • H04L67/61Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources taking into account QoS or priority requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/24Negotiation of communication capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer And Data Communications (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Transfer Between Computers (AREA)
  • Communication Control (AREA)

Abstract

一実施形態にて、強化学習及び伝播を用いてネットワークプロトコルオプションの最適化のための方法を開示する。この方法は、ネットワークのサーバの学習コンポーネントにより、ネットワークの1つ以上のクライアント及び環境とインタラクトすることと、学習コンポーネントにより、ネットワークのプロトコルを介したネットワーク通信のための異なる状態における1つ以上のオプションの異なる試行を行うことと、学習コンポーネントにより、異なる試行に対する性能フィードバックを、報酬として受取ることと、学習コンポーネントにより、1つ以上のオプションのネゴシエーションのためにサーバに関連する意思決定ポリシーを向上させるよう異なる試行及び関連する結果として得られる報酬を使用することとを含む。他の実施形態も記載される。
【選択図】 図4

Description

本発明の実施形態は、一般に、ネットワーク通信の分野に係り、より具体的には、強化学習及び伝播によるネットワークプロトコルオプションの最適化に係る。
簡易ファイル転送プロトコル(TFTP)は、プレブート環境で頻繁に使用されるユーザデータグラムプロトコル(UDP)に基づいた簡易版ファイル転送プログラムである。例えば、TFTPは、ディスクレスホストを、ネットワークを介してブートさせることを可能にするようイメージプロビジョニングにおいて広く使用される。
TFTPは、より良好な性能を実現するよう適用されうるデータパケットのブロックサイズ及びマルチキャストプロビジョニングといった多数のオプションを提供する。例えば、ブロックサイズの値が大きければ、より良好な転送性能がもたらされうる(例えば、32KBのブロックサイズを使用するセッションは、特定の100Mbps環境における512Bのブロックサイズを使用するセッションに対して、性能利得が700%増加する)。マルチキャスティングによって、複数のクライアントへの同時プロビジョニングが可能となる。
TFTPサーバがクライアントから要求を受信すると、簡易ネゴシエーションが行われ、このとき、TFTPサーバは、適切なオプション値を、応答として選択しうる。ネゴシエーション後、TFTPセッションが作成され、ファイルは、そのセッションの選択されたオプションに応じて転送される。しかし、TFTPオプションの選択は、性能向上のために異なるネットワーク環境におけるこれらのオプションの最適化及び伝播の分野において課題がある。TFTPオプションの有効性は、特定のネットワーク環境に非常に依存する。性能に影響を与える幾つかの要因としては、以下に限定されないが、ネットワークトポロジー、スイッチ及びその構成設定、ネットワークドライバ、及びTFTPクライアントのインプレメンテーションが挙げられる。
一部の場合では、ある環境では高性能をもたらしうるTFTPオプションが、他の環境では危険性がある、場合によっては故障の原因となりうる。1つの例としては、32KBのブロックサイズのシングルセッションは、あるタイプのスイッチでは失敗するが、16KBのブロックサイズでは、同じスイッチで成功して許容範囲の性能を有しうることが挙げられる。別の例として、1Gbps環境における特定のイーサネット(登録商標)アダプタの旧式ドライバでの32KBのブロックサイズのシングルマルチキャストセッションは失敗するが、ブロックサイズを縮小するか又はドライバを最新版に置き換えることで成功することが挙げられる。このような問題は、環境が複雑であるとより深刻になる。
例えば、複雑な環境には、ハブを有するコネクタを有するインフラストラクチャ、1Gbps接続と100Mbps接続の両方の混合、異なるスイッチのUDPマルチキャストのインプリメンテーション、同時に発生しているが異なる時間に開始して終了する複数のセッション、プレブート制限によりインプリメンテーションが完了していない特定のTFTPクライアント等が含まれうる。これらの異なる環境において均一に機能する明白なルール又はガイドラインはない。従って、現行のTFTPインプレメンテーションでは、TFTPサーバが、高性能を実現し且つファイル転送の成功を保証することのできる最適な決定をオプションネゴシエーション時に行うことは困難である。
本発明は、以下に与える詳細な説明及び本発明の様々な実施形態の添付図面からより完全に理解されよう。しかし、図面は、本発明を特定の実施形態に限定すると解釈すべきではなく、むしろ例示及び理解のみを目的とする。
本発明の実施形態を行う例示的なネットワークシステムの一実施形態を示すブロック図である。
簡易ファイル転送プロトコル(TFTP)用の最適なオプションの選択を供給するためのネットワーク環境の一実施形態を示すブロック図である。
強化学習を使用するオプション最適化の適用の一実施形態を示すブロック図である。
本発明の一実施形態の方法を説明するフローチャートである。
本発明の様々な実施形態を実行する電子システムの一実施形態を示すブロック図である。
強化学習及び伝播によるネットワークプロトコルオプションの最適化のための装置及び方法を開示する。明細書中、「一実施形態」との言及は、その実施形態に関連して説明する特定の機能、構造、又は特徴は、本発明の少なくとも1つの実施形態に含まれることを意味する。明細書中、様々な箇所に登場する表現「一実施形態では」は、必ずしも全て同じ実施形態を参照しているわけではない。
以下の説明において、多数の詳細を記載する。しかし、当業者には、本発明の実施形態は、これらの特定の詳細なしでも実施しうることは明らかであろう。ある場合では、周知の構造及び装置は詳細にではなくブロック図で示し、発明を曖昧にすることを回避している。
本発明の実施形態は、強化学習及び伝播によるネットワークプロトコルオプションの最適化のための方法及び各回路を説明する。より具体的には、本発明の実施形態は、強化学習及び伝播を使用する簡易ファイル転送プロトコル(TFTP)のオプションネゴシエーション及び選択について新規のアプローチを提供する。
図1は、本発明の実施形態を実行する例示的なネットワークシステムの一実施形態を示すブロック図である。システム100は、TFTPサーバ110、ネットワーク120、及びクライアント130を含む。TFTPサーバ110は、クライアント130からの接続要求を見つけるべくネットワーク120を聴取しうる。クライアント130は、TFTPサーバ110に接続しうる。一度接続されると、クライアント130及びTFTPサーバ1100は、TFTPを介して通信しうる。例えば、クライアント130は、TFTPサーバ110にファイルをアップロードする、TFTPサーバ110にファイルをダウンロードする等の多数のファイル操作動作を行いうる。当業者は、他の実施形態において、TFTPを介して通信するTFTPサーバ以外のサーバ(たとえば、FTPサーバ)を用いてもよいことは理解されよう。
更に、TFTPサーバ110及びクライアント130は、オプションネゴシエーションに入りうる。オプションネゴシエーション時、TFTPの機能性を高め且つ変更するオプションが選択されて、TFTPサーバ110とクライアント130との間で成立されうる。本発明の実施形態は、強化学習及び伝播を使用することで、オプションネゴシエーション時に最適なプロトコルオプションを選択する、新規のアプローチを提供する。
図2は、TFTPに最適なオプションを選択するためのシステム200の一実施形態を示すブロック図である。一実施形態では、TFTPサーバ210は、異なるオプションを供給することで、試行錯誤ストラテジを用いて環境230とインタラクトする。一実施形態では、環境230には、TFTPサーバ210のファイル転送コンポーネント240が、ネットワーク環境235(スイッチ、ネットワークドライバ等)及び1つ以上のTFTPクライアント220と共に含まれる。TFTPサーバ210のオプションネゴシエーションコンポーネント215は、環境230の外側であり且つ環境230とインタラクトする。
一実施形態では、TFTPサーバ210は、異なるオプションに対する性能フィードバックを報酬として受取り、これらの過去の経験及び結果としての報酬に基づいてオプションネゴシエーションのためのTFTPサーバの意思決定ポリシーを向上させる。ある実施形態では、TFTPサーバ210は、意思決定ポリシーを、特定の環境の観察された構成設定と共に中央集権化された場所(例えば、電子ライブラリ)に任意選択的にアップロードしうる。その場合、他のTFTPサーバ210がそのリソースをダウンロードし、最も類似する環境のポリシーを使用して当該他のTFTPサーバ210の試行錯誤学習処理を開始しうる。ある実施形態では、不確実性のある環境での意思決定処理を介するオプションネゴシエーションは、Q学習法を適用することで行われる。
一実施形態では、TFTPサーバ210のオプションネゴシエーションコンポーネント215は、環境230とインタラクトするインテリジェントエージェントとして使用されうる。オプションネゴシエーションコンポーネント215は、様々な環境230に対して試行オプションを供給し、フィードバックとして報酬を受取る。次に、オプションネゴシエーションコンポーネント215は、強化学習を使用して、任意の特定の環境230に対し最適なオプション選択を行う。
ある実施形態では、オプションネゴシエーションコンポーネント215は、時間tにおいて特定の状態sにありうる。この状態は、現在のシステムの特定の状態、即ち、保留中のファイル転送要求、及び、セッションのオプションに加えて現存する転送セッションを表すために使用する。状態遷移は、新しい要求が受信される場合、新しいセッションが作成される場合、又は古いセッションが終了する場合に生じうる。
状態sにおいて、オプションネゴシエーションコンポーネント215は、状態D(s)において許可される行動セットから1つの行動aを選択しうる。保留中のファイル転送要求のないほとんどの状態では、ヌル行動のみが許可される。新しいファイル転送要求がある状態では、行動セットには、TFTPサーバ210が応答しうる全てのリーガルオプションが含まれうる。各時間ステップtにおいて、オプションネゴシエーションコンポーネント215が獲得するユーティリティが記述された報酬rが受信される。ある実施形態では、報酬は、その時間に転送されたデータと、例えば、タイムアウト、セッション失敗等による罰といった発生した任意の罰を指しうる。
一実施形態では、状態遷移は、特定のネットワーク環境の未知の分布P(st+1|s,a)に確率的に応じた行動に依存すると仮定される。報酬は、エージェントが駐在する状態と、特定のネットワーク環境の未知の分布P(rt+1|s,a,st+1)に確率的に応じてエージェントが取りうる行動に依存すると仮定される。
オプションネゴシエーションコンポーネント215は、ファイル転送の性能を最大限にする適切な行動を決定すること、即ち、無限のロングランにおいて割引収益(discounted return)を最大限にするよう適切な行動を選択することを目標とする。このことは、
Figure 2009525643
のように表しうる。
一実施形態では、問題を解決する目的で、次のように、ポリシーπに対する状態sにおける行動aの期待収益であるQ関数を導入しうる:
Figure 2009525643
ポリシーπは、様々な状態における行動を選択する確率分布を示す。S、Aといった大文字は、確率変数を示し、s、aといった小文字は、確率変数の値を示す。
最適ポリシーπのQ関数は、以下のBellman最適方程式を満足させる:
Figure 2009525643
ただし、
Figure 2009525643
及び
Figure 2009525643
である。
Q学習アルゴリズムは、最適ポリシーの価値関数を反復計算する、強化学習における標準的なアプローチである。Q学習アルゴリズムにおいて、
Figure 2009525643
は、最適ポリシーの推定されるQ関数を示すとする。これらの値は、ルックアップテーブルとして格納されるか、又は、wはパラメータである関数h(s,a,w)(例えば、状態s及び行動aにおいて示される特徴の一次関数、又は、より高度な近似関数)により近似されうる。
一実施形態では、Q学習アルゴリズムは、以下の通りに機能する:
1.
Figure 2009525643
を初期化する。
2.t←0、k←1、sから開始する。
3.分布
Figure 2009525643
に従って1つの行動aを選択し、状態st+1に遷移し、即時的な報酬rt+1を受取る。
4.Bellman最適方程式に対してサンプルバックアップストラテジを使用して推定されるQ関数:
Figure 2009525643
を更新する。
5.kを増加し、t←t+1とする。
6.終了条件が満たされなければ、ステップ2に戻る。
7.任意選択的に、環境の構成設定を取得し、そのポリシー(推定されるQ関数)を中央集権化された環境にアップロードする。
図3は、システム300において、Q学習アルゴリズムといった強化学習を使用するオプション最適化の適用の一実施形態を示すブロック図である。システム300のコンポーネントは、互いにインタラクトして、発明の様々な実施形態を利用する。システム300のコンポーネントは、オプションプロバイダ310、ファイル転送コンポーネント320、及びQ関数更新コンポーネントを含む。一実施形態では、これらのコンポーネントは、図2に示すTFTPサーバ210の一部として含まれる。
一実施形態では、オプションプロバイダ310は、ファイル転送要求を受信する。オプションプロバイダは、ファイル転送要求の環境を、例えば、Q学習アルゴリズムに関連するQ値に関連付けしうる。次に、オプションプロバイダ310は、そのQ値に基づいて環境に対するオプションを選択しうる。これらの選択されたオプション、並びにファイル転送要求は、ファイル転送コンポーネント320に送信される。
ファイル転送コンポーネント320は、次に、ファイル転送要求に関連するデータを転送する。ファイル転送コンポーネント320は更に、フィードバック、即ち、報酬をQ関数更新コンポーネント330に送信する。Q関数更新コンポーネントは、ファイル転送コンポーネント320から受信した報酬に基づいて、オプションプロバイダ310に供給するそのQ値を変更しうる。
ある実施形態では、システム300のコンポーネントは、上述したようなQ学習アルゴリズムを使用する。上述したアルゴリズムの初期化段階(例えば、ステップ1)では、初期のQ関数値は、更なる情報がない場合には、ランダムに選択されうる。しかし、サーバが中央集権化された環境からリソースをダウンロードできる場合、サーバは、観察した構成設定を比較することで最も類似する環境のポリシーを選択してQ関数を初期化しうる。
推定されるQ関数の値がルックアップテーブルに格納される場合、推定されるQ関数は、パラメータが適切に制御されると最適ポリシーの値に収束する。アルゴリズムのステップ2において選択される行動は、kが、特定数の反復後に大きくなると最適となりうる。
図4は、本発明の一実施形態の方法を説明するフローチャートである。処理400は、強化学習及び伝播を用いたネットワークプロトコルオプションの最適化のための方法を提供する。処理400は、処理ブロック410から開始し、ここでは、TFTPサーバの学習コンポーネントが、異なる状態における様々なTFTPオプションの異なる試行を行うことで、クライアント、並びに環境とインタラクトする。次に、処理ブロック420では、TFTPサーバの学習コンポーネントは、これらの試行の性能フィードバックを、報酬として受取る。
処理ブロック430では、TFTPサーバの学習コンポーネントは、過去の試行と結果として得られた報酬を使用して、オプションネゴシエーションのための意思決定ポリシーを向上させる。ある実施形態では、強化学習アルゴリズムを使用して、意思決定ポリシーを向上させる。一実施形態では、強化学習アルゴリズムは、Q学習アルゴリズムでありうる。
処理ブロック440において、様々なオプションのインプレメンテーション決定に対して学習済みポリシーは、環境の観察された構成設定と共に、中央集権化された場所(例えば、電子ライブラリ)にアップロードされる。次に、処理ブロック450において、他のTFTPサーバが、そのリソースをダウンロードして、他のTFTPサーバの環境における新しい学習処理を開始する初期ポイントとして最も類似する環境のポリシーを使用しうる。
当業者は、本発明の実施形態は、TFTP以外の通信プロトコルに適用してもよく、また、本記載は、様々な実施形態の適用をTFTPだけに限定することを意図しないことは理解されよう。
ある実施形態では、TFTPサーバ又は他のクライアントのコンポーネントは、様々な電子システムを使用して本発明の実施形態を実行しうる。図5に示す電子システム500は、例えば、コンピュータシステム、ネットワークアクセスデバイス等の様々な電子システムを表すことを意図する。電子的又は非電子的であってもよい代替のシステムは、より多くの、より少ない、及び/又は異なるコンポーネントを含むことができる。
電子システム500は、情報を通信させるバス501又は他の通信デバイスと、バス501に接続され情報を処理するプロセッサ502とを含む。一実施形態では、バス501の1つ以上の線は、電子システム500のコンポーネント間で光信号を運ぶ光ファイバである。光送信及び/又は光受信機能を有する電子システム500の1つ以上のコンポーネントとしては、本発明の実施形態に説明するような光モジュレータ及びバイアス回路が挙げられる。
電子システム500は、単一のプロセッサを有するものとして図示するが、電子システム500は、複数のプロセッサ及び/又はコプロセッサを含むことができる。電子システム500は更に、バス501に接続され、プロセッサ502により実行される情報及び命令を保存するランダムアクセスメモリ(RAM)又は他のダイナミック記憶装置504(メモリと呼ぶ)を含む。メモリ504は更に、プロセッサ502による命令の実行時の一時的数値変数又は他の中間情報を保存するよう使用できる。
電子システム500は更に、バス501に接続され、プロセッサ502用の静的情報及び命令を保存する読出し専用メモリ(ROM)及び/又は他のスタティック記憶装置506を含む。データ記憶装置507は、バス501に接続され、情報及び命令を格納する。磁気ディスク又は光学ディスクといったデータ記憶装置507、及び、対応するドライブは、電子システム500に接続できる。
電子システム500は更に、バス501を介して、陰極線管(CRT)又は液晶ディスプレイ(LCD)といった表示装置521に接続され、コンピュータのユーザに対して情報を表示できる。英数文字及び他のキーを含む英数文字入力装置522は、一般的に、バス501に接続され、情報及びコマンド選択をプロセッサ502に通信する。別のタイプのユーザ入力装置は、マウス、トラックボール、又はカーソル方向キーといったカーソルコントロール523であり、方向情報及びコマンド選択をプロセッサ502に通信し、表示装置521上のカーソル動作を制御する。電子システム500は更に、ローカルエリアネットワークといったネットワークへのアクセスを与えるネットワークインターフェイス530を含む。
命令は、磁気ディスク、読み出し専用メモリ(ROM)集積回路、CD−ROM、DVDといった記憶装置から、1つ以上の電子的にアクセス可能な媒体へのアクセスを有線又は無線で供給するリモート接続(例えば、ネットワークインターフェイス530を介するネットワークによって)を介してメモリに供給される。代替の実施形態では、配線接続された回路を、ソフトウェア命令の代わりに又は組み合わせて使用できる。従って、命令シーケンスの実行は、ハードウェア回路及びソフトウェア命令の任意の特定の組み合わせに限定されない。
本発明の実施形態は、従来技術の解決策に比べて多数の利点を提供する。即ち、(1)環境に応じてネットワーク性能を最適化するようTFTPオプションを動的に決定すること、(2)オプション最適化のための適応型自己学習アプローチ、及び(3)将来における再利用のために異なる環境で学習されたストラテジの情報伝播。
更に、本発明の実施形態は、現行のプロトコルオプション及び能力に影響を与えることなく標準TFTPにシームレスに統合される、自己学習型、自己適応型、及び自動配布型のシステムを提供する。当業者は、本発明の実施形態は、ファイル転送プロトコル(FTP)といった他のネットワークトランスポーテーションプロトコルにも潜在的に適用されうることは理解されよう。
当業者には、本発明の多くの変更及び修正が、上述の説明を読んだ後に明らかとなろうが、例示として図示及び説明した任意の特定の実施形態は限定的に解釈されることを意図しない。従って、様々な実施形態の詳細への言及は、本発明としてみなされる特徴のみを記載する特許請求の範囲を限定することを意図しない。

Claims (20)

  1. ネットワークのサーバの学習コンポーネントにより、1つ以上のクライアント及び前記ネットワークの環境とインタラクトすることと、
    前記学習コンポーネントにより、前記ネットワークのプロトコルを介したネットワーク通信のための異なる状態における1つ以上のオプションの異なる試行を行うことと、
    前記学習コンポーネントにより、前記異なる試行に対する性能フィードバックを、報酬として受取ることと、
    前記学習コンポーネントにより、前記1つ以上のオプションのネゴシエーションのために前記サーバに関連する意思決定ポリシーを向上させるよう前記異なる試行及び関連する結果として得られる報酬を使用することと、
    を含む方法。
  2. 前記学習コンポーネントにより、前記異なる試行及び報酬に基づいたオプションの最適セットと、前記オプションの最適セットに関連する前記環境の観察された構成設定とを、中央集権化された場所にアップロードすることを更に含む、請求項1に記載の方法。
  3. 1つ以上の他のサーバは、前記オプションの最適セットを、前記中央集権化された場所からダウンロードして前記1つ以上の他のサーバの前記環境における新しい学習処理を開始する初期ポイントとして使用する、請求項2に記載の方法。
  4. 前記オプションネゴシエーションコンポーネントは、強化学習アルゴリズムを適用して、前記1つ以上のオプションのネゴシエーションのために前記サーバに関連する前記意思決定ポリシーを向上させる、請求項1に記載の方法。
  5. 前記強化アルゴリズムは、Q学習法を使用する、請求項4に記載の方法。
  6. 前記Q学習アルゴリズムは、前記オプションネゴシエーションコンポーネントによるオプション選択のための最適ポリシーの価値関数を反復計算する、請求項5に記載の方法。
  7. 前記オプションネゴシエーションコンポーネントは、簡易ファイル転送プロトコル(TFTP)サーバの一部である、請求項1に記載の方法。
  8. 通信プロトコル用の1つ以上のオプションを選択し、前記1つ以上のオプションの前記選択に関連する性能フィードバックとして報酬を受取り、前記報酬に基づいて前記1つ以上のオプションの前記選択を調整するオプションネゴシエーションコンポーネントと、
    前記報酬及び調整された選択に基づいて前記オプションネゴシエーションコンポーネントにより選択される前記1つ以上のオプションの最適セットを使用してファイルを転送するファイル転送コンポーネントと、
    を含む装置。
  9. 前記オプションネゴシエーションコンポーネントは、選択すべき前記1つ以上のオプション、前記選択に対する前記性能フィードバック、及び、前記選択の前記調整を決定する強化学習アルゴリズムを適用する、請求項8に記載の装置。
  10. 前記強化アルゴリズムは、Q学習アルゴリズムを使用する、請求項9に記載の装置。
  11. 前記Q学習アルゴリズムは、前記オプションネゴシエーションコンポーネントによるオプション選択のための最適ポリシーの価値関数を反復計算する、請求項10に記載の装置。
  12. 前記オプションネゴシエーションコンポーネント及び前記ファイル転送コンポーネントは、簡易ファイル転送プロトコル(TFTP)サーバのコンポーネントである、請求項8に記載の装置。
  13. 前記オプション選択コンポーネントは更に、オプションの前記最適セットと、オプションの前記最適セットに関連する環境の関する構成設定とを、中央集権化された場所にアップロードする、請求項8に記載の装置。
  14. 1つ以上のサーバは、オプションの前記最適セットを、前記関連する環境に類似する環境用にダウンロードする、請求項13に記載の装置。
  15. ネットワーク環境と、
    前記ネットワーク環境に、ネットワークインターフェイスを介して通信可能に接続されるサーバと、
    を含み、
    前記サーバは、
    通信プロトコル用の1つ以上のオプションを選択し、前記1つ以上のオプションの前記選択に関連する性能フィードバックとして報酬を受取り、前記報酬に基づいて前記1つ以上のオプションの前記選択を調整するオプションネゴシエーションコンポーネントと、
    前記報酬及び調整された選択に基づいて前記オプションネゴシエーションコンポーネントにより選択される前記1つ以上のオプションの最適セットを使用してファイルを転送するファイル転送コンポーネントと、
    を含む、システム。
  16. 前記オプションネゴシエーションコンポーネントは、選択すべき前記1つ以上のオプション、前記選択に対する前記性能フィードバック、及び、前記選択の前記調整を決定する強化学習アルゴリズムを適用する、請求項15に記載のシステム。
  17. 前記強化アルゴリズムは、Q学習アルゴリズムを使用する、請求項9に記載の装置。
  18. 前記Q学習アルゴリズムは、前記オプションネゴシエーションコンポーネントによるオプション選択の最適ポリシーの価値関数を反復計算する、請求項10に記載の装置。
  19. 前記サーバは、簡易ファイル転送プロトコル(TFTP)サーバである、請求項15に記載のシステム。
  20. 前記オプションネゴシエーションコンポーネントは、前記異なる試行及び報酬に基づいたオプションの最適セットと、前記オプションの最適セットに関連する前記環境の観察された構成設定とを、中央集権化された場所にアップロードする、請求項15に記載のシステム。
JP2008552663A 2006-03-29 2006-03-29 強化学習及び伝播によるネットワークプロトコルオプションの最適化 Expired - Fee Related JP4825270B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2006/000545 WO2007109923A1 (en) 2006-03-29 2006-03-29 Optimization of network protocol options by reinforcement learning and propagation

Publications (2)

Publication Number Publication Date
JP2009525643A true JP2009525643A (ja) 2009-07-09
JP4825270B2 JP4825270B2 (ja) 2011-11-30

Family

ID=38540777

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008552663A Expired - Fee Related JP4825270B2 (ja) 2006-03-29 2006-03-29 強化学習及び伝播によるネットワークプロトコルオプションの最適化

Country Status (6)

Country Link
US (1) US8438248B2 (ja)
JP (1) JP4825270B2 (ja)
CN (1) CN101416466B (ja)
DE (1) DE112006003821B4 (ja)
GB (1) GB2450257B (ja)
WO (1) WO2007109923A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020074177A (ja) * 2016-02-05 2020-05-14 ファナック株式会社 操作メニューの表示を学習する機械学習器,数値制御装置,工作機械システム,製造システムおよび機械学習方法
JP2021132327A (ja) * 2020-02-20 2021-09-09 国立大学法人京都大学 制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050251556A1 (en) * 2004-05-07 2005-11-10 International Business Machines Corporation Continuous feedback-controlled deployment of message transforms in a distributed messaging system
US20050251811A1 (en) * 2004-05-07 2005-11-10 International Business Machines Corporation Distributed messaging system supporting stateful
US7886180B2 (en) * 2004-05-14 2011-02-08 International Business Machines Corporation Recovery in a distributed stateful publish-subscribe system
US20070297327A1 (en) * 2006-06-27 2007-12-27 International Business Machines Corporation Method for applying stochastic control optimization for messaging systems
US20090141737A1 (en) * 2007-11-30 2009-06-04 Texas Instruments Incorporated Systems and methods for prioritized channel access hardware assistance design
CN101702743A (zh) 2009-11-04 2010-05-05 中兴通讯股份有限公司 移动终端浏览器的自适应调整方法与装置
US20120030150A1 (en) * 2010-07-29 2012-02-02 Telcordia Technologies, Inc. Hybrid Learning Component for Link State Routing Protocols
US9118637B2 (en) 2011-03-09 2015-08-25 Arris Enterprises, Inc. Dual-mode download manager
US8769137B2 (en) * 2011-06-23 2014-07-01 Honeywell International Inc. Systems and methods for negotiated accelerated block option for trivial file transfer protocol (TFTP)
JP5772345B2 (ja) * 2011-07-25 2015-09-02 富士通株式会社 パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法
JP5733166B2 (ja) * 2011-11-14 2015-06-10 富士通株式会社 パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法
US10719777B2 (en) 2016-07-28 2020-07-21 At&T Intellectual Propery I, L.P. Optimization of multiple services via machine learning
US20180082210A1 (en) * 2016-09-18 2018-03-22 Newvoicemedia, Ltd. System and method for optimizing communications using reinforcement learning
JP6457472B2 (ja) * 2016-12-14 2019-01-23 ファナック株式会社 制御システム及び機械学習装置
GB2557674B (en) * 2016-12-15 2021-04-21 Samsung Electronics Co Ltd Automated Computer Power Management System, Apparatus and Methods
US10536505B2 (en) * 2017-04-30 2020-01-14 Cisco Technology, Inc. Intelligent data transmission by network device agent
CN107367929B (zh) * 2017-07-19 2021-05-04 北京上格云技术有限公司 更新q值矩阵的方法、存储介质和终端设备
CN109587519B (zh) * 2018-12-28 2021-11-23 南京邮电大学 基于q学习的异构网络多径视频传输控制系统及方法
CN114356535A (zh) * 2022-03-16 2022-04-15 北京锦诚世纪咨询服务有限公司 无线传感器网络的资源管理方法和装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1659800A (en) * 1927-01-28 1928-02-21 Perle A Bailey Shaving comport
JPH06164672A (ja) * 1992-11-19 1994-06-10 Toshiba Corp データ通信システム
JPH1098502A (ja) * 1996-09-20 1998-04-14 Fujitsu Ltd データ移動体通信方式
US6694317B1 (en) * 1997-12-31 2004-02-17 International Business Machines Corporation Method and apparatus for high-speed access to and sharing of storage devices on a networked digital data processing system
US20020058532A1 (en) * 1998-09-25 2002-05-16 Snelgrove William Martin Method and system for negotiating telecommunication resources
JP2000250875A (ja) * 1999-02-26 2000-09-14 Toshiba Corp ブートプログラム配信装置及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体
JP2001136173A (ja) * 1999-11-02 2001-05-18 Matsushita Electric Ind Co Ltd 無線ホームネットワークの通信方法および無線ホームネットワークシステム
JP4523694B2 (ja) 2000-03-21 2010-08-11 アンリツ株式会社 情報処理システム
JP2001339591A (ja) * 2000-05-25 2001-12-07 Murata Mach Ltd 通信端末装置
JP2003030067A (ja) * 2001-07-12 2003-01-31 Fujitsu Ltd 通信管理装置、通信システム、通信管理プログラムおよび通信プログラム
US6665651B2 (en) * 2001-07-18 2003-12-16 Colorado State University Research Foundation Control system and technique employing reinforcement learning having stability and learning phases
US7170876B2 (en) * 2002-04-30 2007-01-30 Qualcomm, Inc. Outer-loop scheduling design for communication systems with channel quality feedback mechanisms
CN1169332C (zh) * 2002-09-29 2004-09-29 清华大学 一种基于客户端反馈的传输协议选择方法
US7821666B2 (en) * 2002-12-20 2010-10-26 Hewlett-Packard Development Company, L.P. Alternative to pre-printed special forms
US7366760B2 (en) * 2003-01-03 2008-04-29 Microsoft Corporation System and method for improved client server communications of email messages
US7719991B2 (en) * 2003-01-21 2010-05-18 Qualcomm Incorporated Reverse rate indicator detection
US7013238B1 (en) * 2003-02-24 2006-03-14 Microsoft Corporation System for delivering recommendations
EP1503548A1 (en) * 2003-08-01 2005-02-02 fg microtec GmbH Distributed Quality of Service Management System
EP1505845B1 (de) * 2003-08-05 2006-03-22 Tektronix International Sales GmbH Verfahren und Vorrichtung zum Ermitteln mindestens eines Übertragungsparameters in einem Übertragungssystem
US7519718B2 (en) * 2004-02-27 2009-04-14 International Business Machines Corporation Server-side protocol configuration of accessing clients
US7478160B2 (en) * 2004-04-30 2009-01-13 International Business Machines Corporation Method and apparatus for transparent negotiations
US20070299915A1 (en) * 2004-05-02 2007-12-27 Markmonitor, Inc. Customer-based detection of online fraud
JP2005352639A (ja) * 2004-06-09 2005-12-22 Nec Corp アクセス支援サーバ、システム、方法、プログラム
JP2006035388A (ja) * 2004-07-28 2006-02-09 Riyuukoku Univ 学習装置およびそれを備えた動作物体、学習方法、学習プログラムおよびそれを記録したコンピュータ読取り可能な記録媒体
US8363604B2 (en) * 2005-02-01 2013-01-29 Qualcomm Incorporated Method and apparatus for controlling a transmission data rate based on feedback relating to channel conditions
US20060274899A1 (en) * 2005-06-03 2006-12-07 Innomedia Pte Ltd. System and method for secure messaging with network address translation firewall traversal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CSNJ200910036050, 儀間 聡 Satoshi Gima, "ネットワークの状態に応じた選択型ストリーミングシステム", 第28回情報理論とその応用シンポジウム 予稿集 第2分冊 Proceedings of the28th Symposium on Inform, pp.625−628 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020074177A (ja) * 2016-02-05 2020-05-14 ファナック株式会社 操作メニューの表示を学習する機械学習器,数値制御装置,工作機械システム,製造システムおよび機械学習方法
JP2021132327A (ja) * 2020-02-20 2021-09-09 国立大学法人京都大学 制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体
JP7272606B2 (ja) 2020-02-20 2023-05-12 国立大学法人京都大学 制御装置、それを備えた基地局、コンピュータに実行させるためのプログラムおよびプログラムを記録したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
WO2007109923A1 (en) 2007-10-04
US20090187641A1 (en) 2009-07-23
GB2450257B (en) 2012-01-04
JP4825270B2 (ja) 2011-11-30
CN101416466B (zh) 2014-05-28
GB0812411D0 (en) 2008-08-13
GB2450257A (en) 2008-12-17
US8438248B2 (en) 2013-05-07
DE112006003821T5 (de) 2009-01-15
DE112006003821B4 (de) 2010-12-16
CN101416466A (zh) 2009-04-22

Similar Documents

Publication Publication Date Title
JP4825270B2 (ja) 強化学習及び伝播によるネットワークプロトコルオプションの最適化
JP3654360B2 (ja) 制御システムおよび方法、情報処理装置および方法、情報処理端末および方法、記録媒体、並びにプログラム
US20180124051A1 (en) Response Method and System in Virtual Network Computing Authentication, and Proxy Server
KR100621092B1 (ko) P2p 프로토콜을 이용하여 어플리케이션을 공유하는 방법및 장치
TWI385967B (zh) 智慧型交換器管理模組系統與方法
CA2944912C (en) Session-based device configuration
US8413208B2 (en) Access control and protocol/policy determination based on the client's environment
EP3053346A1 (en) Method and apparatus for real-time sharing of multimedia content between wireless devices
US20030061361A1 (en) System and methods for automatic negotiation in distributed computing
US20070136301A1 (en) Systems and methods for enforcing protocol in a network using natural language messaging
AU2008298594A1 (en) Software method and system for controlling and observing computer networking devices
JP2017175593A (ja) ルータの脆弱性を除去する方法及びシステム
US20120191829A1 (en) Method and apparatus of performing remote registry configuration
US20180084087A1 (en) Virtual desktop
US20070136472A1 (en) Systems and methods for requesting protocol in a network using natural language messaging
US7756975B1 (en) Methods and systems for automatically discovering information about a domain of a computing device
CN113301050A (zh) 网页页面多用户实时登录登出管理方法、系统、终端及介质
US9537716B1 (en) Establishing a direct connection between remote devices
CN111988269A (zh) 经由分布式数据存储库提供授权信息的策略管理系统
EP2979428B1 (en) Efficient socket transfer
JP6363139B2 (ja) スマートデバイスの脆弱性を除去する方法及びシステム
CN118041704B (zh) Kubernetes容器访问方法、装置、计算设备及存储介质
US11363080B1 (en) Managed intelligent discovery and mesh connectivity orchestration for collaboration solutions
Lee et al. Control of information appliances using instant messaging
KR101860967B1 (ko) 소유권들에 기초하여 홈 네트워크 환경 내에서의 범용 플러그 앤 플레이 동작들에 대한 보안을 제공하는 방법 및 시스템

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110823

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110909

R150 Certificate of patent or registration of utility model

Ref document number: 4825270

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees