JP2009525643A

JP2009525643A - 強化学習及び伝播によるネットワークプロトコルオプションの最適化

Info

Publication number: JP2009525643A
Application number: JP2008552663A
Authority: JP
Inventors: リー、コング; スー、ウェンビン
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2006-03-29
Filing date: 2006-03-29
Publication date: 2009-07-09
Anticipated expiration: 2026-03-29
Also published as: WO2007109923A1; US20090187641A1; GB2450257B; JP4825270B2; CN101416466B; GB0812411D0; GB2450257A; US8438248B2; DE112006003821T5; DE112006003821B4; CN101416466A

Abstract

一実施形態にて、強化学習及び伝播を用いてネットワークプロトコルオプションの最適化のための方法を開示する。この方法は、ネットワークのサーバの学習コンポーネントにより、ネットワークの１つ以上のクライアント及び環境とインタラクトすることと、学習コンポーネントにより、ネットワークのプロトコルを介したネットワーク通信のための異なる状態における１つ以上のオプションの異なる試行を行うことと、学習コンポーネントにより、異なる試行に対する性能フィードバックを、報酬として受取ることと、学習コンポーネントにより、１つ以上のオプションのネゴシエーションのためにサーバに関連する意思決定ポリシーを向上させるよう異なる試行及び関連する結果として得られる報酬を使用することとを含む。他の実施形態も記載される。
【選択図】図４

Description

本発明の実施形態は、一般に、ネットワーク通信の分野に係り、より具体的には、強化学習及び伝播によるネットワークプロトコルオプションの最適化に係る。

簡易ファイル転送プロトコル（ＴＦＴＰ）は、プレブート環境で頻繁に使用されるユーザデータグラムプロトコル（ＵＤＰ）に基づいた簡易版ファイル転送プログラムである。例えば、ＴＦＴＰは、ディスクレスホストを、ネットワークを介してブートさせることを可能にするようイメージプロビジョニングにおいて広く使用される。

ＴＦＴＰは、より良好な性能を実現するよう適用されうるデータパケットのブロックサイズ及びマルチキャストプロビジョニングといった多数のオプションを提供する。例えば、ブロックサイズの値が大きければ、より良好な転送性能がもたらされうる（例えば、３２ＫＢのブロックサイズを使用するセッションは、特定の１００Ｍｂｐｓ環境における５１２Ｂのブロックサイズを使用するセッションに対して、性能利得が７００％増加する）。マルチキャスティングによって、複数のクライアントへの同時プロビジョニングが可能となる。

ＴＦＴＰサーバがクライアントから要求を受信すると、簡易ネゴシエーションが行われ、このとき、ＴＦＴＰサーバは、適切なオプション値を、応答として選択しうる。ネゴシエーション後、ＴＦＴＰセッションが作成され、ファイルは、そのセッションの選択されたオプションに応じて転送される。しかし、ＴＦＴＰオプションの選択は、性能向上のために異なるネットワーク環境におけるこれらのオプションの最適化及び伝播の分野において課題がある。ＴＦＴＰオプションの有効性は、特定のネットワーク環境に非常に依存する。性能に影響を与える幾つかの要因としては、以下に限定されないが、ネットワークトポロジー、スイッチ及びその構成設定、ネットワークドライバ、及びＴＦＴＰクライアントのインプレメンテーションが挙げられる。

一部の場合では、ある環境では高性能をもたらしうるＴＦＴＰオプションが、他の環境では危険性がある、場合によっては故障の原因となりうる。１つの例としては、３２ＫＢのブロックサイズのシングルセッションは、あるタイプのスイッチでは失敗するが、１６ＫＢのブロックサイズでは、同じスイッチで成功して許容範囲の性能を有しうることが挙げられる。別の例として、１Ｇｂｐｓ環境における特定のイーサネット（登録商標）アダプタの旧式ドライバでの３２ＫＢのブロックサイズのシングルマルチキャストセッションは失敗するが、ブロックサイズを縮小するか又はドライバを最新版に置き換えることで成功することが挙げられる。このような問題は、環境が複雑であるとより深刻になる。

例えば、複雑な環境には、ハブを有するコネクタを有するインフラストラクチャ、１Ｇｂｐｓ接続と１００Ｍｂｐｓ接続の両方の混合、異なるスイッチのＵＤＰマルチキャストのインプリメンテーション、同時に発生しているが異なる時間に開始して終了する複数のセッション、プレブート制限によりインプリメンテーションが完了していない特定のＴＦＴＰクライアント等が含まれうる。これらの異なる環境において均一に機能する明白なルール又はガイドラインはない。従って、現行のＴＦＴＰインプレメンテーションでは、ＴＦＴＰサーバが、高性能を実現し且つファイル転送の成功を保証することのできる最適な決定をオプションネゴシエーション時に行うことは困難である。

本発明は、以下に与える詳細な説明及び本発明の様々な実施形態の添付図面からより完全に理解されよう。しかし、図面は、本発明を特定の実施形態に限定すると解釈すべきではなく、むしろ例示及び理解のみを目的とする。

本発明の実施形態を行う例示的なネットワークシステムの一実施形態を示すブロック図である。

簡易ファイル転送プロトコル（ＴＦＴＰ）用の最適なオプションの選択を供給するためのネットワーク環境の一実施形態を示すブロック図である。

強化学習を使用するオプション最適化の適用の一実施形態を示すブロック図である。

本発明の一実施形態の方法を説明するフローチャートである。

本発明の様々な実施形態を実行する電子システムの一実施形態を示すブロック図である。

強化学習及び伝播によるネットワークプロトコルオプションの最適化のための装置及び方法を開示する。明細書中、「一実施形態」との言及は、その実施形態に関連して説明する特定の機能、構造、又は特徴は、本発明の少なくとも１つの実施形態に含まれることを意味する。明細書中、様々な箇所に登場する表現「一実施形態では」は、必ずしも全て同じ実施形態を参照しているわけではない。

以下の説明において、多数の詳細を記載する。しかし、当業者には、本発明の実施形態は、これらの特定の詳細なしでも実施しうることは明らかであろう。ある場合では、周知の構造及び装置は詳細にではなくブロック図で示し、発明を曖昧にすることを回避している。

本発明の実施形態は、強化学習及び伝播によるネットワークプロトコルオプションの最適化のための方法及び各回路を説明する。より具体的には、本発明の実施形態は、強化学習及び伝播を使用する簡易ファイル転送プロトコル（ＴＦＴＰ）のオプションネゴシエーション及び選択について新規のアプローチを提供する。

図１は、本発明の実施形態を実行する例示的なネットワークシステムの一実施形態を示すブロック図である。システム１００は、ＴＦＴＰサーバ１１０、ネットワーク１２０、及びクライアント１３０を含む。ＴＦＴＰサーバ１１０は、クライアント１３０からの接続要求を見つけるべくネットワーク１２０を聴取しうる。クライアント１３０は、ＴＦＴＰサーバ１１０に接続しうる。一度接続されると、クライアント１３０及びＴＦＴＰサーバ１１００は、ＴＦＴＰを介して通信しうる。例えば、クライアント１３０は、ＴＦＴＰサーバ１１０にファイルをアップロードする、ＴＦＴＰサーバ１１０にファイルをダウンロードする等の多数のファイル操作動作を行いうる。当業者は、他の実施形態において、ＴＦＴＰを介して通信するＴＦＴＰサーバ以外のサーバ（たとえば、ＦＴＰサーバ）を用いてもよいことは理解されよう。

更に、ＴＦＴＰサーバ１１０及びクライアント１３０は、オプションネゴシエーションに入りうる。オプションネゴシエーション時、ＴＦＴＰの機能性を高め且つ変更するオプションが選択されて、ＴＦＴＰサーバ１１０とクライアント１３０との間で成立されうる。本発明の実施形態は、強化学習及び伝播を使用することで、オプションネゴシエーション時に最適なプロトコルオプションを選択する、新規のアプローチを提供する。

図２は、ＴＦＴＰに最適なオプションを選択するためのシステム２００の一実施形態を示すブロック図である。一実施形態では、ＴＦＴＰサーバ２１０は、異なるオプションを供給することで、試行錯誤ストラテジを用いて環境２３０とインタラクトする。一実施形態では、環境２３０には、ＴＦＴＰサーバ２１０のファイル転送コンポーネント２４０が、ネットワーク環境２３５（スイッチ、ネットワークドライバ等）及び１つ以上のＴＦＴＰクライアント２２０と共に含まれる。ＴＦＴＰサーバ２１０のオプションネゴシエーションコンポーネント２１５は、環境２３０の外側であり且つ環境２３０とインタラクトする。

一実施形態では、ＴＦＴＰサーバ２１０は、異なるオプションに対する性能フィードバックを報酬として受取り、これらの過去の経験及び結果としての報酬に基づいてオプションネゴシエーションのためのＴＦＴＰサーバの意思決定ポリシーを向上させる。ある実施形態では、ＴＦＴＰサーバ２１０は、意思決定ポリシーを、特定の環境の観察された構成設定と共に中央集権化された場所（例えば、電子ライブラリ）に任意選択的にアップロードしうる。その場合、他のＴＦＴＰサーバ２１０がそのリソースをダウンロードし、最も類似する環境のポリシーを使用して当該他のＴＦＴＰサーバ２１０の試行錯誤学習処理を開始しうる。ある実施形態では、不確実性のある環境での意思決定処理を介するオプションネゴシエーションは、Ｑ学習法を適用することで行われる。

一実施形態では、ＴＦＴＰサーバ２１０のオプションネゴシエーションコンポーネント２１５は、環境２３０とインタラクトするインテリジェントエージェントとして使用されうる。オプションネゴシエーションコンポーネント２１５は、様々な環境２３０に対して試行オプションを供給し、フィードバックとして報酬を受取る。次に、オプションネゴシエーションコンポーネント２１５は、強化学習を使用して、任意の特定の環境２３０に対し最適なオプション選択を行う。

ある実施形態では、オプションネゴシエーションコンポーネント２１５は、時間ｔにおいて特定の状態ｓ_ｔにありうる。この状態は、現在のシステムの特定の状態、即ち、保留中のファイル転送要求、及び、セッションのオプションに加えて現存する転送セッションを表すために使用する。状態遷移は、新しい要求が受信される場合、新しいセッションが作成される場合、又は古いセッションが終了する場合に生じうる。

状態ｓ_ｔにおいて、オプションネゴシエーションコンポーネント２１５は、状態Ｄ（ｓ_ｔ）において許可される行動セットから１つの行動ａ_ｔを選択しうる。保留中のファイル転送要求のないほとんどの状態では、ヌル行動のみが許可される。新しいファイル転送要求がある状態では、行動セットには、ＴＦＴＰサーバ２１０が応答しうる全てのリーガルオプションが含まれうる。各時間ステップｔにおいて、オプションネゴシエーションコンポーネント２１５が獲得するユーティリティが記述された報酬ｒ_ｔが受信される。ある実施形態では、報酬は、その時間に転送されたデータと、例えば、タイムアウト、セッション失敗等による罰といった発生した任意の罰を指しうる。

一実施形態では、状態遷移は、特定のネットワーク環境の未知の分布Ｐ（ｓ_ｔ＋１｜ｓ_ｔ，ａ_ｔ）に確率的に応じた行動に依存すると仮定される。報酬は、エージェントが駐在する状態と、特定のネットワーク環境の未知の分布Ｐ（ｒ_ｔ＋１｜ｓ_ｔ，ａ_ｔ，ｓ_ｔ＋１）に確率的に応じてエージェントが取りうる行動に依存すると仮定される。

オプションネゴシエーションコンポーネント２１５は、ファイル転送の性能を最大限にする適切な行動を決定すること、即ち、無限のロングランにおいて割引収益（discounted return）を最大限にするよう適切な行動を選択することを目標とする。このことは、

のように表しうる。

一実施形態では、問題を解決する目的で、次のように、ポリシーπに対する状態ｓにおける行動ａの期待収益であるＱ関数を導入しうる：

ポリシーπは、様々な状態における行動を選択する確率分布を示す。Ｓ、Ａといった大文字は、確率変数を示し、ｓ、ａといった小文字は、確率変数の値を示す。

最適ポリシーπ^＊のＱ関数は、以下のＢｅｌｌｍａｎ最適方程式を満足させる：

ただし、

及び

である。

Ｑ学習アルゴリズムは、最適ポリシーの価値関数を反復計算する、強化学習における標準的なアプローチである。Ｑ学習アルゴリズムにおいて、

は、最適ポリシーの推定されるＱ関数を示すとする。これらの値は、ルックアップテーブルとして格納されるか、又は、ｗはパラメータである関数ｈ（ｓ，ａ，ｗ）（例えば、状態ｓ及び行動ａにおいて示される特徴の一次関数、又は、より高度な近似関数）により近似されうる。

一実施形態では、Ｑ学習アルゴリズムは、以下の通りに機能する：
１．

を初期化する。
２．ｔ←０、ｋ←１、ｓ_０から開始する。
３．分布

に従って１つの行動ａ_ｔを選択し、状態ｓ_ｔ＋１に遷移し、即時的な報酬ｒ_ｔ＋１を受取る。
４．Ｂｅｌｌｍａｎ最適方程式に対してサンプルバックアップストラテジを使用して推定されるＱ関数：

を更新する。
５．ｋを増加し、ｔ←ｔ＋１とする。
６．終了条件が満たされなければ、ステップ２に戻る。
７．任意選択的に、環境の構成設定を取得し、そのポリシー（推定されるＱ関数）を中央集権化された環境にアップロードする。

図３は、システム３００において、Ｑ学習アルゴリズムといった強化学習を使用するオプション最適化の適用の一実施形態を示すブロック図である。システム３００のコンポーネントは、互いにインタラクトして、発明の様々な実施形態を利用する。システム３００のコンポーネントは、オプションプロバイダ３１０、ファイル転送コンポーネント３２０、及びＱ関数更新コンポーネントを含む。一実施形態では、これらのコンポーネントは、図２に示すＴＦＴＰサーバ２１０の一部として含まれる。

一実施形態では、オプションプロバイダ３１０は、ファイル転送要求を受信する。オプションプロバイダは、ファイル転送要求の環境を、例えば、Ｑ学習アルゴリズムに関連するＱ値に関連付けしうる。次に、オプションプロバイダ３１０は、そのＱ値に基づいて環境に対するオプションを選択しうる。これらの選択されたオプション、並びにファイル転送要求は、ファイル転送コンポーネント３２０に送信される。

ファイル転送コンポーネント３２０は、次に、ファイル転送要求に関連するデータを転送する。ファイル転送コンポーネント３２０は更に、フィードバック、即ち、報酬をＱ関数更新コンポーネント３３０に送信する。Ｑ関数更新コンポーネントは、ファイル転送コンポーネント３２０から受信した報酬に基づいて、オプションプロバイダ３１０に供給するそのＱ値を変更しうる。

ある実施形態では、システム３００のコンポーネントは、上述したようなＱ学習アルゴリズムを使用する。上述したアルゴリズムの初期化段階（例えば、ステップ１）では、初期のＱ関数値は、更なる情報がない場合には、ランダムに選択されうる。しかし、サーバが中央集権化された環境からリソースをダウンロードできる場合、サーバは、観察した構成設定を比較することで最も類似する環境のポリシーを選択してＱ関数を初期化しうる。

推定されるＱ関数の値がルックアップテーブルに格納される場合、推定されるＱ関数は、パラメータが適切に制御されると最適ポリシーの値に収束する。アルゴリズムのステップ２において選択される行動は、ｋが、特定数の反復後に大きくなると最適となりうる。

図４は、本発明の一実施形態の方法を説明するフローチャートである。処理４００は、強化学習及び伝播を用いたネットワークプロトコルオプションの最適化のための方法を提供する。処理４００は、処理ブロック４１０から開始し、ここでは、ＴＦＴＰサーバの学習コンポーネントが、異なる状態における様々なＴＦＴＰオプションの異なる試行を行うことで、クライアント、並びに環境とインタラクトする。次に、処理ブロック４２０では、ＴＦＴＰサーバの学習コンポーネントは、これらの試行の性能フィードバックを、報酬として受取る。

処理ブロック４３０では、ＴＦＴＰサーバの学習コンポーネントは、過去の試行と結果として得られた報酬を使用して、オプションネゴシエーションのための意思決定ポリシーを向上させる。ある実施形態では、強化学習アルゴリズムを使用して、意思決定ポリシーを向上させる。一実施形態では、強化学習アルゴリズムは、Ｑ学習アルゴリズムでありうる。

処理ブロック４４０において、様々なオプションのインプレメンテーション決定に対して学習済みポリシーは、環境の観察された構成設定と共に、中央集権化された場所（例えば、電子ライブラリ）にアップロードされる。次に、処理ブロック４５０において、他のＴＦＴＰサーバが、そのリソースをダウンロードして、他のＴＦＴＰサーバの環境における新しい学習処理を開始する初期ポイントとして最も類似する環境のポリシーを使用しうる。

当業者は、本発明の実施形態は、ＴＦＴＰ以外の通信プロトコルに適用してもよく、また、本記載は、様々な実施形態の適用をＴＦＴＰだけに限定することを意図しないことは理解されよう。

ある実施形態では、ＴＦＴＰサーバ又は他のクライアントのコンポーネントは、様々な電子システムを使用して本発明の実施形態を実行しうる。図５に示す電子システム５００は、例えば、コンピュータシステム、ネットワークアクセスデバイス等の様々な電子システムを表すことを意図する。電子的又は非電子的であってもよい代替のシステムは、より多くの、より少ない、及び／又は異なるコンポーネントを含むことができる。

電子システム５００は、情報を通信させるバス５０１又は他の通信デバイスと、バス５０１に接続され情報を処理するプロセッサ５０２とを含む。一実施形態では、バス５０１の１つ以上の線は、電子システム５００のコンポーネント間で光信号を運ぶ光ファイバである。光送信及び／又は光受信機能を有する電子システム５００の１つ以上のコンポーネントとしては、本発明の実施形態に説明するような光モジュレータ及びバイアス回路が挙げられる。

電子システム５００は、単一のプロセッサを有するものとして図示するが、電子システム５００は、複数のプロセッサ及び／又はコプロセッサを含むことができる。電子システム５００は更に、バス５０１に接続され、プロセッサ５０２により実行される情報及び命令を保存するランダムアクセスメモリ（ＲＡＭ）又は他のダイナミック記憶装置５０４（メモリと呼ぶ）を含む。メモリ５０４は更に、プロセッサ５０２による命令の実行時の一時的数値変数又は他の中間情報を保存するよう使用できる。

電子システム５００は更に、バス５０１に接続され、プロセッサ５０２用の静的情報及び命令を保存する読出し専用メモリ（ＲＯＭ）及び／又は他のスタティック記憶装置５０６を含む。データ記憶装置５０７は、バス５０１に接続され、情報及び命令を格納する。磁気ディスク又は光学ディスクといったデータ記憶装置５０７、及び、対応するドライブは、電子システム５００に接続できる。

電子システム５００は更に、バス５０１を介して、陰極線管（ＣＲＴ）又は液晶ディスプレイ（ＬＣＤ）といった表示装置５２１に接続され、コンピュータのユーザに対して情報を表示できる。英数文字及び他のキーを含む英数文字入力装置５２２は、一般的に、バス５０１に接続され、情報及びコマンド選択をプロセッサ５０２に通信する。別のタイプのユーザ入力装置は、マウス、トラックボール、又はカーソル方向キーといったカーソルコントロール５２３であり、方向情報及びコマンド選択をプロセッサ５０２に通信し、表示装置５２１上のカーソル動作を制御する。電子システム５００は更に、ローカルエリアネットワークといったネットワークへのアクセスを与えるネットワークインターフェイス５３０を含む。

命令は、磁気ディスク、読み出し専用メモリ（ＲＯＭ）集積回路、ＣＤ−ＲＯＭ、ＤＶＤといった記憶装置から、１つ以上の電子的にアクセス可能な媒体へのアクセスを有線又は無線で供給するリモート接続（例えば、ネットワークインターフェイス５３０を介するネットワークによって）を介してメモリに供給される。代替の実施形態では、配線接続された回路を、ソフトウェア命令の代わりに又は組み合わせて使用できる。従って、命令シーケンスの実行は、ハードウェア回路及びソフトウェア命令の任意の特定の組み合わせに限定されない。

本発明の実施形態は、従来技術の解決策に比べて多数の利点を提供する。即ち、（１）環境に応じてネットワーク性能を最適化するようＴＦＴＰオプションを動的に決定すること、（２）オプション最適化のための適応型自己学習アプローチ、及び（３）将来における再利用のために異なる環境で学習されたストラテジの情報伝播。

更に、本発明の実施形態は、現行のプロトコルオプション及び能力に影響を与えることなく標準ＴＦＴＰにシームレスに統合される、自己学習型、自己適応型、及び自動配布型のシステムを提供する。当業者は、本発明の実施形態は、ファイル転送プロトコル（ＦＴＰ）といった他のネットワークトランスポーテーションプロトコルにも潜在的に適用されうることは理解されよう。

当業者には、本発明の多くの変更及び修正が、上述の説明を読んだ後に明らかとなろうが、例示として図示及び説明した任意の特定の実施形態は限定的に解釈されることを意図しない。従って、様々な実施形態の詳細への言及は、本発明としてみなされる特徴のみを記載する特許請求の範囲を限定することを意図しない。

Claims

ネットワークのサーバの学習コンポーネントにより、１つ以上のクライアント及び前記ネットワークの環境とインタラクトすることと、
前記学習コンポーネントにより、前記ネットワークのプロトコルを介したネットワーク通信のための異なる状態における１つ以上のオプションの異なる試行を行うことと、
前記学習コンポーネントにより、前記異なる試行に対する性能フィードバックを、報酬として受取ることと、
前記学習コンポーネントにより、前記１つ以上のオプションのネゴシエーションのために前記サーバに関連する意思決定ポリシーを向上させるよう前記異なる試行及び関連する結果として得られる報酬を使用することと、
を含む方法。
前記学習コンポーネントにより、前記異なる試行及び報酬に基づいたオプションの最適セットと、前記オプションの最適セットに関連する前記環境の観察された構成設定とを、中央集権化された場所にアップロードすることを更に含む、請求項１に記載の方法。
１つ以上の他のサーバは、前記オプションの最適セットを、前記中央集権化された場所からダウンロードして前記１つ以上の他のサーバの前記環境における新しい学習処理を開始する初期ポイントとして使用する、請求項２に記載の方法。
前記オプションネゴシエーションコンポーネントは、強化学習アルゴリズムを適用して、前記１つ以上のオプションのネゴシエーションのために前記サーバに関連する前記意思決定ポリシーを向上させる、請求項１に記載の方法。
前記強化アルゴリズムは、Ｑ学習法を使用する、請求項４に記載の方法。
前記Ｑ学習アルゴリズムは、前記オプションネゴシエーションコンポーネントによるオプション選択のための最適ポリシーの価値関数を反復計算する、請求項５に記載の方法。
前記オプションネゴシエーションコンポーネントは、簡易ファイル転送プロトコル（ＴＦＴＰ）サーバの一部である、請求項１に記載の方法。
通信プロトコル用の１つ以上のオプションを選択し、前記１つ以上のオプションの前記選択に関連する性能フィードバックとして報酬を受取り、前記報酬に基づいて前記１つ以上のオプションの前記選択を調整するオプションネゴシエーションコンポーネントと、
前記報酬及び調整された選択に基づいて前記オプションネゴシエーションコンポーネントにより選択される前記１つ以上のオプションの最適セットを使用してファイルを転送するファイル転送コンポーネントと、
を含む装置。
前記オプションネゴシエーションコンポーネントは、選択すべき前記１つ以上のオプション、前記選択に対する前記性能フィードバック、及び、前記選択の前記調整を決定する強化学習アルゴリズムを適用する、請求項８に記載の装置。
前記強化アルゴリズムは、Ｑ学習アルゴリズムを使用する、請求項９に記載の装置。
前記Ｑ学習アルゴリズムは、前記オプションネゴシエーションコンポーネントによるオプション選択のための最適ポリシーの価値関数を反復計算する、請求項１０に記載の装置。
前記オプションネゴシエーションコンポーネント及び前記ファイル転送コンポーネントは、簡易ファイル転送プロトコル（ＴＦＴＰ）サーバのコンポーネントである、請求項８に記載の装置。
前記オプション選択コンポーネントは更に、オプションの前記最適セットと、オプションの前記最適セットに関連する環境の関する構成設定とを、中央集権化された場所にアップロードする、請求項８に記載の装置。
１つ以上のサーバは、オプションの前記最適セットを、前記関連する環境に類似する環境用にダウンロードする、請求項１３に記載の装置。
ネットワーク環境と、
前記ネットワーク環境に、ネットワークインターフェイスを介して通信可能に接続されるサーバと、
を含み、
前記サーバは、
通信プロトコル用の１つ以上のオプションを選択し、前記１つ以上のオプションの前記選択に関連する性能フィードバックとして報酬を受取り、前記報酬に基づいて前記１つ以上のオプションの前記選択を調整するオプションネゴシエーションコンポーネントと、
前記報酬及び調整された選択に基づいて前記オプションネゴシエーションコンポーネントにより選択される前記１つ以上のオプションの最適セットを使用してファイルを転送するファイル転送コンポーネントと、
を含む、システム。
前記オプションネゴシエーションコンポーネントは、選択すべき前記１つ以上のオプション、前記選択に対する前記性能フィードバック、及び、前記選択の前記調整を決定する強化学習アルゴリズムを適用する、請求項１５に記載のシステム。
前記強化アルゴリズムは、Ｑ学習アルゴリズムを使用する、請求項９に記載の装置。
前記Ｑ学習アルゴリズムは、前記オプションネゴシエーションコンポーネントによるオプション選択の最適ポリシーの価値関数を反復計算する、請求項１０に記載の装置。
前記サーバは、簡易ファイル転送プロトコル（ＴＦＴＰ）サーバである、請求項１５に記載のシステム。
前記オプションネゴシエーションコンポーネントは、前記異なる試行及び報酬に基づいたオプションの最適セットと、前記オプションの最適セットに関連する前記環境の観察された構成設定とを、中央集権化された場所にアップロードする、請求項１５に記載のシステム。