JP7635196B2

JP7635196B2 - リアルタイム通信における強化学習

Info

Publication number: JP7635196B2
Application number: JP2022500820A
Authority: JP
Inventors: ファン，ジョイス・エス; エリス，マーティン; カトラー，ロス・ギャレット; ジャオ，デビッド・ユーヘン; ズオン，タン
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2019-07-10
Filing date: 2020-06-08
Publication date: 2025-02-25
Anticipated expiration: 2040-06-08
Also published as: CN120075207A; US11699084B2; US11373108B2; US20220300841A1; KR20220031001A; JP2022540137A; KR102821070B1; WO2021006972A1; CN114128235B; CN114128235A; EP3997853A1; US20210012227A1

Description

リアルタイム通信における強化学習。

[0001] リアルタイム通信（例えば、音声映像会議）についての帯域幅推定、輻輳制御、及びビデオ品質最適化は、頻繁に変化するネットワークの条件及びアプリケーションの要求が原因で、難しい問題として残っている。高い品質及び信頼性（例えば、エンド・ユーザの経験品質）でリアルタイム媒体を送るには、新たなアプリケーション要求及びネットワーク挙動に反応するために継続的なアップデートが必要である。継続的なアップデートのプロセスは、エンド・ユーザの経験を劣化させることになる遅いプロセスであり得る。

[0002] これら及び他の一般的な考慮に関して、本開示の様々な見方がなされた。更に、比較的特定的な問題やこれらの問題を解決する例がここで論じられるが、それらの例は、本開示の背景や他の所で特定される特定の問題を解決するものに限定されるべきではないことを、理解すべきである。

[0003] 本開示は、一般に、リアルタイム通信における強化学習をインプリメントするためのシステム及び方法に向けたものである。本開示の特定の特徴は、リアルタイムのオーディオ及びビデオの通信におけるユーザの知覚する品質を最適化するための強化学習に向けたものである。エージェントは、送信側コンピューティング・デバイス及び受信側コンピューティング・デバイスと相互作用して、変化するネットワーク条件及び／又はアプリケーション要求に応答して、リアルタイムのオーディオ及びビデオの送信のパラメータを自動的に調節する。送信側コンピューティング・デバイスは、リアルタイムのオーディオ及び／又はビデオのデータを送る。受信側コンピューティング・デバイスは、送信側デバイスからリアルタイムのオーディオ及びビデオの送信を受信し、実際のユーザの知覚する経験品質（ＱｏＥ）を決定し、これは報酬（reward）としてエージェントへ提供される。エージェントは、制御ポリシーと状態行動価値関数（state-action value function）とを含む強化学習モデルを組み込む。エージェントは、送信側コンピューティング・デバイスの現在の状態を観察し、現在の状態と、現在の行動（例えば、送信側コンピューティング・デバイスで送信パラメータに対して行われる現在の調節又は一組の調節）と、受信側コンピューティング・デバイスにより提供される報酬とに基づいて、将来の報酬の合計の予想値の概算を決定する。将来の報酬の合計の予想値を最大化するという目標に基づいて、エージェントは制御ポリシーを調節する。制御ポリシーにおける調節は、リアルタイムのオーディオ及び／又はビデオのデータへ適用される行動（action）を変える。

[0004] 本開示の特徴は、リアルタイム通信における予想されるユーザの知覚するＱｏＥを最適化する方法、システム、及び製造品に向けたものである。この特徴は、送信側コンピューティング・デバイスの現在の状態と、送信側コンピューティング・デバイスの現在の行動とを決定することを含み、現在の行動は複数の送信パラメータを含む。この特徴は、更に、送信側コンピューティング・デバイスから受信側コンピューティング・デバイスへリアルタイム通信を送ることを含む。リアルタイム通信は、リアルタイム・オーディオ通信とリアルタイム・ビデオ通信との一方又は双方を含む。更に、送信されて受信側コンピューティング・デバイスで受信されたリアルタイム通信の１以上のパラメータに基づいて、報酬、例えば、ＱｏＥ計量が、受信側コンピューティング・デバイスで決定される。将来の報酬の合計の予想値は、現在の状態、現在の行動、及び報酬に基づいて決定され、送信側コンピューティング・デバイスの複数の送信パラメータの少なくとも１つが、将来の報酬の合計の予想値を最大化するように変更される。

[0005] 本開示の特徴は、リアルタイム通信における予想されるユーザの知覚するＱｏＥを最適化するように強化学習モデルを訓練する方法、システム、及び製造品に向けたものである。この特徴は、送信機（sender）の現在の状態を決定することと、その現在の状態を、送信機と通信するエージェントへ提供することとを含む。この特徴は、更に、送信機の現在の行動を決定することを含み、その現在の行動は、エージェントに知られ、複数の送信パラメータを含む。この特徴は、更に、送信機から受信機へリアルタイム通信を送ることを含む。リアルタイム通信は、リアルタイム・オーディオ送信とリアルタイム・ビデオ送信との一方又は双方を含む。この特徴は、更に、エージェントで、受信機で決定された報酬を、受信機から受信することを含む。この報酬は、受信機で受信したリアルタイム通信と関連する１以上のパラメータに基づく。エージェントは、現在の状態、現在の行動、及び報酬に基づいて将来の報酬の合計の予想値を決定し、将来の報酬の合計の予想値を最大化するように、複数の送信パラメータの少なくとも１つの変更を指示する。訓練は、シミュレートされた環境、エミュレートされた環境、又は実際のネットワーク環境で行うことができる。

[0006] この概要は、概念のうちの選択されたものを簡素化した形で紹介するために提供されたが、それらは後に詳細な説明で更に説明する。この概要は、特許請求される主題事項の鍵となる特徴や本質的な特徴を特定することを意図しておらず、また、特許請求される主題事項の範囲を限定するために用いることを意図していない。複数の例の更なる性質、特徴、及び／又は利点は、後続の記載において部分的に述べられ、また、部分的に、記載から明らかになり、また、本開示を実施することにより学習できるであろう。

[0007] 限定的でも徹底的でもない例が、下記の図面を参照して説明される。

図１は、ここで開示するリアルタイム通信における強化学習を行うことができる環境を示す。図２Ａ－図２Ｃは、ここでのリアルタイム通信における強化学習を行うことができる環境の追加の詳細を示す。図２Ａ－図２Ｃは、ここでのリアルタイム通信における強化学習を行うことができる環境の追加の詳細を示す。図２Ａ－図２Ｃは、ここでのリアルタイム通信における強化学習を行うことができる環境の追加の詳細を示す。図３は、リアルタイム通信におけるユーザの知覚する経験品質（ＱｏＥ）を最大化するための強化学習のためのシミュレートされた訓練環境を送る示す。図４は、リアルタイム通信におけるユーザの知覚するＱｏＥを最大化するための強化学習のためのエミュレートされた訓練環境を示す。図５は、リアルタイム通信におけるユーザの知覚するＱｏＥを最大化するための強化学習のための実際のネットワーク訓練環境を示す。図６は、本開示の特徴の実施に用いることができるコンピューティング・デバイスの例としての物理的コンポーネントを示すブロック図である。図７Ａ及び図７Ｂは、本開示の特徴の実施に用いることができるモバイル・コンピューティング・デバイスの簡素化したブロック図である。図７Ａ及び図７Ｂは、本開示の特徴の実施に用いることができるモバイル・コンピューティング・デバイスの簡素化したブロック図である。図８は、本開示の特徴を実施することができる分散型コンピューティング・システムの簡素化したブロック図である。図９は、本開示の１以上の特徴を実行するためのタブレット・コンピューティング・デバイスを示す。

[0017] 以下で、本開示の様々な特徴が、開示の一部である添付の図面を参照して、より完全に説明される。本開示の別の特徴は、多くの別の形でインプリメントすることができ、ここで示す特徴に限定されると解釈すべきではない。むしろ、それらの特徴が提供されると、本開示は、徹底的で完全なものとなり、特徴の範囲を当業者へ完全に伝えるであろう。特徴は、方法、システム、又はデバイスとして実施することができる。従って、特徴は、ハードウェアでの実施、全てソフトウェアでの実施、又はソフトウェア特徴とハードウェア特徴との組み合わせでの実施の形をとることができる。従って、以下の詳細な説明は、限定という感覚で捉えるべきではない。

[0018] 本開示は、一般に、リアルタイム通信における強化学習をインプリメントするためのシステム及び方法に向けたものである。本開示の特定の特徴は、リアルタイムのオーディオ及びビデオの通信におけるユーザの知覚する品質を最適化するための強化学習に向けたものである。エージェントは、変化するネットワーク条件及び／又はアプリケーション要求に応じてリアルタイムのオーディオ及びビデオの送信のパラメータを自動的に調節するために、送信側コンピューティング・デバイス及び受信側コンピューティング・デバイスと相互作用する。送信側コンピューティング・デバイスは、リアルタイムのオーディオ及び／又はビデオのデータを送信する。受信側コンピューティング・デバイスは、送信側デバイスからリアルタイムのオーディオ及びビデオの送信を受信し、実際のユーザの知覚する経験品質（ＱｏＥ）を決定し、これは報酬としてエージェントへ提供される。エージェントは、制御ポリシーと状態行動価値関数とを含む強化学習モデルを組み込む。エージェントは、送信側コンピューティング・デバイスの現在の状態を観察し、現在の状態と、現在の行動（例えば、送信側コンピューティング・デバイスで送信パラメータに対して行われる現在の調節又は一組の調節）と、受信側コンピューティング・デバイスにより提供される報酬とに基づいて、将来の報酬の合計の予想値の概算を決定する。将来の報酬の合計の予想値を最大化する目標に基づいて、エージェントは制御ポリシーを調節する。制御ポリシーにおける調節は、リアルタイムのオーディオ及び／又はビデオのデータへ適用される行動を変える。

[0019] 従って、本開示は複数の技術的利点を提供し、それらは、将来の報酬の合計の予想値を最大化するという目標に基づいて送信側コンピューティング・デバイスのリアルタイムのオーディオ及びビデオの送信のパラメータを調節するように即座に応答する継続的にアップデートされる強化学習モデルを含むが、これには限定されない。リアルタイムのオーディオ及びビデオの送信のパラメータは、変化するネットワーク条件及び／又はアプリケーション要求に応じるように即座に調節される。劣化に対抗するために以前に用いられていたデータ送信パラメータへのハンド・コーディングでの反応的アップデートのプロセスの下で生じ得る、送信されたリアルタイムのオーディオ及びビデオのストリームの劣化は、最小にされる。

[0020] 図１を参照すると、リアルタイム通信における強化学習を実施するための環境１００が示されている。環境１００はネットワーク１０２を含み、これを通じて、複数のコンピューティング・デバイス１０４が、様々な通信リンク１０６を介して、通信する。用語「リアルタイム」は、受信したデータがコンピューティング・デバイスによりほぼ即座に処理されるデータ処理のこと、例えば、ユーザが十分に即座であると感じる、又はコンピューティング・デバイスが幾つかの外部プロセスを遅れずに行うことを可能にする、コンピューティング・デバイス応答性のレベルのことである。

[0021] ネットワーク１０２は、データ、音声、及びビデオのトラフィックの送信、受信、及び交換が可能な任意の型の有線及び／又は無線のネットワークである。ネットワークの例は、１つのドメインにおけるエンドポイントを相互接続するローカル・エリア・ネットワーク（ＬＡＮ）、及び複数のＬＡＮを相互接続するワイド・エリア・ネットワーク（ＷＡＮ）、そして、サブネットワーク、メトロポリタン・エリア・ネットワーク、ストレージ・エリア・ネットワーク、パーソナル・エリア・ネットワーク（ＰＡＮ）、ワイヤレス・ローカル・エリア・ネットワーク（ＷＬＡＮ）、キャンパス・エリア・ネットワーク（ＣＡＮ）、バーチャル・プライベート・ネットワーク（ＶＰＮ）、パッシブ光ネットワークなどを含む。

[0022] コンピューティング・デバイス１０４はネットワーク１０２のエンドポイントを含む。コンピューティング・デバイス１０４は、１以上の汎用又は特定用途向けのコンピューティング・デバイスを含むことができる。そのようなデバイスは、例えば、パーソナル・コンピュータ、サーバ・コンピュータ、ハンドヘルド型又はラップトップ型のデバイス、マルチプロセッサ・システム、マイクロコントローラ・ベースのシステム、セット・トップ・ボックス、プログラマブルの家庭用電子製品、ネットワークＰＣ、ミニコンピュータ、メインフレーム・コンピュータ、セル・フォン、パーソナル・デジタル・アシスタント（ＰＤＡ）、ゲーム・デバイス、プリンタ、機器、メディア・センタ、車両へ埋め込む又は付けるコンピューティング・デバイス、他のモバイル・デバイス、上記のシステムやデバイスのうちの任意のものを含む分散型コンピューティング環境などを、含むことができる。コンピューティング・デバイスに関する更なる詳細は、図６－図９に説明されている。

[0023] コンピューティング・デバイス１０４間での通信は、リンク１０６を介して伝わる。リンクは、データ、音声、及び／又はビデオを１つのコンピューティング・デバイス１０４から別のものへ送信することができる任意の型のガイドされた又はガイドされていない送信媒体を、含むことができる。ガイドされた媒体は、物理的経路に沿って信号を送る。ガイドされた媒体の例は、ツイステッド・ペア・ケーブル、同軸ケーブル、光ファイバなどを含む。ガイドされていない媒体は、信号により用いられる経路を定める物理的手段を用いずに、信号を送る。ガイドされていない媒体の例は、ラジオ波、マイクロ波、赤外線波などを含む。

[0024] 図２Ａ及び図２Ｂは、リンク１０６を介してネットワーク１０２でリアルタイムで通信する１つの送信側コンピューティング・デバイス２０４Ｓと１つの受信側コンピューティング・デバイス２０４Ｒとを含む環境２００を示すが、これは例示を目的としている。送信側コンピューティング・デバイス２０４Ｓは、送信能力のみを含むものとして示されているが、送信側コンピューティング・デバイス２０４Ｓは受信側コンピューティング・デバイスとしても動作できることを認識すべきである。同様に、受信側コンピューティング・デバイス２０４Ｒも、送信側コンピューティング・デバイスとして動作することができる。従って、送信側コンピューティング・デバイス２０４Ｓと受信側コンピューティング・デバイス２０４Ｒとの間で、双方向のリアルタイムの通信を行うことができる。環境２００は、音声データ及びビデオ・データを含み得るデータのリアルタイム通信に基づいて強化学習をインプリメントするために、エージェント２０６とリアルタイムで通信する。強化学習は、将来の報酬の合計の予想値を最大化することにより、リアルタイム通信における予想されるユーザの知覚する品質を最適化する。エージェント２０６は、送信側コンピューティング・デバイス２０４Ｓと受信側コンピューティング・デバイス２０４Ｒとの一方又は双方に存在するコード又はアプリケーション含むことができる。エージェント２０６はまた、送信側コンピューティング・デバイス２０４Ｓや受信側コンピューティング・デバイス２０４Ｒとは異なるコンピューティング・デバイス、例えば、サーバ・コンピューティング・デバイス、クラウド・コンピューティング・デバイスなどに存在するコード又はアプリケーション含むことができる。

[0025] 示されているように、送信側コンピューティング・デバイス２０４Ｓは、データ捕獲モジュール２１０、データ・エンコーダ・モジュール２１２、及びデータ送信機モジュール２１４を含む。データ捕獲モジュール２１０は、送信側コンピューティング・デバイス２０４Ｓの現在の観察される状態を表す状態データを、捕獲する。リアルタイムのオーディオ及びビデオの通信に関しては、現在の観察される状態は、リアルタイム・オーディオ・データ及びリアルタイム・ビデオ・データの送信に影響する観察される送信用パラメータ（sending parameters）含むことができる。観察される送信用パラメータは、例えば、レゾリューション、ビットレート、フレームレート、ストリームズ・トゥ・センド（streams-to-send）、コーデック（エンコード／デコード）、ユーザの物理的環境（例えば、暗／明レベル、背景ノイズ、動きなど）、又はリアルタイム・データ送信に影響し得る任意の他のパラメータを、含むことができる。送信側コンピューティング・デバイス２０４Ｓのデータ・エンコーダ・モジュール２１２は、状態データを、ネットワーク１０２を通してのリアルタイム送信のための指定されたフォーマットに変換する。データ送信機モジュール２１４は、そのフォーマットにされた状態データを、リアルタイムで、ネットワーク１０２を通じて送る。

[0026] 受信側コンピューティング・デバイス２０４Ｒは、データ受信機モジュール２２０と、データ・デコーダ・モジュール２２２と、ＱｏＥ計量モジュール２２４とを含む。データ受信機モジュール２２０は、フォーマットされた状態データをネットワーク１０２からリアルタイムで受け取り、エージェント２０６へネットワーク統計を出力する。ネットワーク統計の例は、損失、ジッタ、ネットワーク遅延としても知られているラウンド・トリップ・タイム（ＲＴＴ）、受信レート、パケット・サイズ、パケット・タイプ、受信タイムスタンプ、送信タイムスタンプ、パケット損失におけるバースト長、パケット損失間のギャップ、又は受信されるオーディオ及びビデオのデータの品質の評価に使用できる任意の他のネットワーク統計を含む。データ・デコーダ・モジュール２２２は、データ・エンコーダ・モジュール２１２の逆のことを行い、フォーマットされた状態データから、受信した状態データをリアルタイムで抽出する。

[0027] ＱｏＥ計量モジュール２２４は、抽出した状態データに基づいて１以上の経験品質（ＱｏＥ）計量を決定する。ＱｏＥ計量は、ディープ・ニューラル・ネットワーク（ＤＮＮ）や他の適切なモデルなどのようなＱｏＥ機械学習モデルにより決定される、受信した状態データについてのユーザの知覚した品質を表す。ＱｏＥ機械学習モデルは、受信するオーディオ及びビデオのデータ・ストリームのペイロードなどのような様々な受信パラメータを分析するものであり、ペイロードは、実際の意図されたメッセージである受信データの部分である。オーディオ及びビデオのストリームのペイロードの分析は、主観的品質評価（subjective quality assessment）（例えば、人間が品質のレーティングを観察する）の結果を概算する１以上の予め定められた客観的モデル（objective model）の使用を、含むことができる。特定の例では、客観的モデルは、リアルタイム・オーディオ品質を評価するためのモデル（例えば、Perception Evaluation of Audio Quality（PEAQ）モデル、PEMO-Qモデル、Signal-to-Noise Ratio（PSNR）モデル、又は受信したリアルタイムのオーディオ信号を評価可能な任意の他の客観的モデル）のうちの１以上のものを含むことができる。特定の例では、客観的モデルは、リアルタイム・ビデオ品質を評価するためのモデル（例えば、Full Reference（FR）モデル、Reduced Reference（RR）モデル、No-Reference（NR）モデル、Peak Signal-to-Noise Ratio（PSNR）モデル、構造的類似性インデックス（Structural Similarity Index）（SSIM）モデル、又は受信したリアルタイムのビデオ信号を評価可能な任意の他の客観的モデル）のうちの１以上のものを含むことができる。

[0028] 特定の特徴では、ＱｏＥ機械学習モデルは、更に、上記の１以上のＱｏＥ計量を決定するために、受信パラメータとして受信側コンピューティング・デバイス２０４Ｒの統計とネットワーク統計とを、分析することができる。ここで述べるように、ネットワーク統計の例は、損失、ジッタ、ネットワーク遅延としても知られているラウンド・トリップ・タイム（ＲＴＴ）、受信レート、パケット・サイズ、パケット・タイプ、受信タイムスタンプ、送信タイムスタンプ、パケット損失におけるバースト長、パケット損失間のギャップ、又は受信されるオーディオ及びビデオのデータの品質の評価に使用できる任意の他のネットワーク統計を含む。受信側コンピューティング・デバイス２０４Ｒの統計の例は、表示サイズ、表示ウィンドゥ・サイズ、デバイス・タイプ、ハードウェア又はソフトウェアのエンコーダ／デコーダが使用されるかなどを含む。特定の構成では、ＱｏＥ機械学習モデルは、更に、上記の１以上のＱｏＥ計量を決定するために、受信パラメータとしてユーザ（例えば、人間）のフィードバックを分析することができる。ユーザのフィードバックは、例えば、個人の経験品質、例えば、受信側コンピューティング・デバイス２０４Ｒで受信したオーディオ及びビデオの品質についてユーザが考えていることを示すための、ユーザのレーティングやサーベイを通じて、提供することができる。ユーザの知覚するオーディオ及び／又はビデオの品質を表すものである決定された１以上のＱｏＥ計量は、エージェント２０６へ通信される。

[0029] エージェント２０６は、状態モジュール２３０と強化学習モデル２３２とを含む。特定の特徴では、強化学習モデル２３２は、任意の適切な機械学習アルゴリズム（学習アルゴリズムであって、これにおいて、行動が行われ、結果が観察され、次の行動は、報酬信号に基づいて最初の行動の結果を考慮する）を組み込むことができる。機械学習アルゴリズムは、例えば、アクター・クリティック（actor-critic）、Ｑ学習（q-learning）、ポリシー・グラジエント（policy gradient）、テンポラル・ディファレンス（temporal difference）、モンテカルロ木探索（monte-carlo tree search）、又は関係するデータに対して適切な任意の他の機械学習アルゴリズムを含むことができる。強化学習モデル２３２は、送信側コンピューティング・デバイス２０４Ｓのデータ送信パラメータをリアルタイムで能動的に制御する。

[0030] 図２Ｂは、アクター・クリティック強化学習モデル２３２の例を示し、これは、制御ポリシー２３４と状態行動価値関数２３６とを含み、図２Ｃはアクター・クリティック・アーキテクチャの例を提供する。アクター・クリティック強化学習はテンポラル・ディファレンス学習モデルであり、ここでは、制御ポリシー２３４は、予想される状態価値関数２３６から独立しており、これは、ここでのコンテキストでは、将来の報酬の合計の予想値である。制御ポリシー２３４はアクターを含み、その理由は、それが、行動、例えば、送信側コンピューティング・デバイスのデータ送信パラメータを、選択するために使われるからであり、状態価値関数２３６はクリティックであり、その理由は、それが、制御ポリシー２３４によりなされた行動を批評するからである。状態価値関数２３６は、現在の制御ポリシー２３４について学習及び批評を行う。

[0031] 制御ポリシー２３４は、ニューラル・ネットワークなどのようなエージェント２０６内に第１強化学習モデルを含み、これは、送信側コンピューティング・デバイス２０４Ｓにより用いられるデータ送信パラメータの１以上のものへの１以上の変更という形の１以上の出力行動（output action）を、作り出す。出力行動は、状態行動価値関数２３６により決定された将来の報酬の予想値の最大化に基づいて、オーディオ及びビデオのデータについての予想されるユーザの知覚する品質（ＱｏＥ）を最適化するように、設計される。送信パラメータの例は、送信レート、レゾリューション、フレーム・レート、量子化パラメータ（ＱＰ）へ提供されるオブジェクト・イベント、前方誤り訂正（ＦＥＣ）、又は送信側コンピューティング・デバイス２０４Ｓから受信側コンピューティング・デバイス２０４Ｒへの状態データの送信の品質を変更するために使用可能な任意の他の制御可能なパラメータを含む。

[0032] 状態行動価値関数２３６は、ニューラル・ネットワークなどのようなエージェント２０６内に第２機械学習モデルを含み、その価値関数は、将来の報酬の合計の予想値を予想又は概算するように訓練される。将来の報酬の合計の予想値は、送信側コンピューティング・デバイスの現在の状態と、現在の行動（例えば、リアルタイムのオーディオ及び／又はビデオのデータを送信するために使用される現在の送信パラメータ）と、受信側コンピューティング・デバイスにより提供される報酬とに基づいて、決定される。制御ポリシーは、予想値の決定に応答して出力行動を調節する。制御ポリシー２３４は、状態行動価値関数２３６と共に訓練されることができ、また、既に訓練された状態行動価値関数２３６に基づいて得ることができる。

[0033] 特定の特徴では、図２Ｂ－図２Ｃのアクター・クリティック強化学習モデル２３２の訓練中に、エージェント２０６は、制御ポリシー２３４の行動を常に追従する必要はない。むしろ、エージェント２０６は、他の行動（例えば、送信側コンピューティング・デバイス２０４Ｓのデータ送信パラメータに対する他の変更）を探索することができ、これは、エージェント２０６が強化学習モデル２３２を改善することを可能にする。エージェント２０６は、１以上の探索戦略、例えば、イプシロン・グリーディー（epsilon-greedy）を通じて、他の行動を探索することができる。

[0034] 特定の特徴では、強化学習モデル２３２の制御ポリシー２３４は、その学習環境から分離することができ、クライアント（例えば、送信側コンピューティング・デバイス及び／又は受信側コンピューティング・デバイス）にリアルタイム・モデルとして配置することができる。リアルタイム・モデルへの転移は、ＯＮＮＸ（Open Neural Network Exchange）、ｔｆｌｉｔｅ（TensorFlow Lite）などのような１以上のモデル・トランスポート・ツールを通じて、達成することができる。

[0035] 図３－図５を参照すると、エージェント２０６は、シミュレートされた環境３００、エミュレートされた環境４００、及び実際のネットワーク環境５００のうちの１以上のものを用いて訓練することができる。何れの環境を用いるかは、データの収集速度及びデータの種類についての要求に応じたものとなる。図３のシミュレートされた環境３００では、送信側コンピューティング・デバイス２０４Ｓの全プロセス（データ捕獲モジュール２１０、データ・エンコーダ・モジュール２１２、及びデータ送信機モジュール２１４のプロセスを含む）、受信側コンピューティング・デバイス２０４Ｒの全プロセス（データ受信機モジュール２２０、データ・デコーダ・モジュール２２２、及びＱｏＥ計量モジュール２２４のプロセスを含む）、及びネットワーク２０２がシミュレートされる。図４のエミュレートされた環境４００では、送信側コンピューティング・デバイス２０４Ｓは、エミュレーション送信側プロセス４０４Ｓを含む第１エミュレーションで複製され、受信側コンピューティング・デバイス２０４Ｒは、エミュレートされた受信側プロセス４０４Ｒを含む第２エミュレーションで複製され、ネットワーク２０２は、ネットワーク・エミュレーション４０２を含む第３エミュレーションで複製される。特定の特徴では、物理的な送信側コンピューティング・デバイス及び物理的な受信側コンピューティング・デバイスは、エミュレートされたネットワークと関連して用いることができる。図５の実際のネットワーク環境では、物理的な送信側コンピューティング・デバイス２０４Ｓ、物理的な受信側コンピューティング・デバイス２０４Ｒ、及び物理的なネットワーク２０２が用いられる。

[0036] エージェント２０６の訓練に何れの環境を用いるかは、データの収集速度及びデータの種類に関する要求に応じたものとなる。例えば、迅速なデータ収集及び訓練のために、ｎｓ－２やｎｓ－３（これらは離散事象ネットワーク・シミュレータである）などのようなネットワーク・シミュレーション・ツールを、シミュレートされた環境３００で用いることができる。制御された環境において実際のコードが実行されることを可能とするように、ＮｅｔＥｍ（これはＬｉｎｕｘ（登録商標）トラフィック制御ファシリティの強化であり、遅延、パケット損失、複製、及び選択されたネットワーク・インターフェースからの外向き送信パケットの他の特性の付加を可能とする）などのようなネットワーク・エミュレーション・ツールを、エミュレートされた環境４００で用いることができる。この制御された環境は、通信アプリケーション（例えば、Ｓｋｙｐｅ、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ｔｅａｍｓ、ＷｈａｔｓＡｐｐ、ＷｅＣｈａｔなど）が、再生可能なネットワーク条件を持つ環境においてテストされることを可能とする。実際のネットワーク環境５００において実際のインターネット・サービス・プロバイダ（ＩＳＰ）を用いる実際のネットワーク（例えば、セルラ、Ｗｉ－Ｆｉ（登録商標）、Ｅｔｈｅｒｎｅｔ（登録商標）など）は、最も実際的なテスト環境を提供し、エンドユーザの経験する条件のオンライン学習を可能とする。特定の特徴では、同じ強化学習ポリシーを、シミュレートされた、又はエミュレートされた、又は実際のネットワーク環境で用いることができるが、各環境は異なる性能を提供するであろう。代替的又は付加的には、エージェント２０６は、転移学習を用いて訓練することができ、この場合においては、リアルタイムのオーディオ及びビデオのデータのストリーミングに対する新たなアプリケーション要求及び／又はネットワーク挙動と関連して以前に作成されたハンド・コーディングされたルールが、エージェント２０６を訓練するために用いられる。

[0037] 訓練された後、エージェント２０６は、リアルタイムのオーディオ及びビデオの通信のために、ライブのネットワーク環境において適用される。ライブのネットワーク内で、強化学習モデル２３２は、送信側コンピューティング・デバイス、例えば、デバイス２０４Ｓから受信側コンピューティング・デバイス２０４Ｒへのリアルタイムのオーディオ及びビデオのデータ・ストリームの送信に基づいて、連続的にアップデートされる。特定の特徴では、送信側コンピューティング・デバイス、例えば、デバイス２０４Ｓは、リアルタイムのオーディオ及びビデオのデータ送信パラメータを変更するように動作する１つのエージェント２０６又は複数のエージェント２０６を含むことができ、各エージェントが、１つのみのデータ送信パラメータ又は複数のデータ送信パラメータを変更する。特定の特徴では、受信側コンピューティング・デバイス、例えば、デバイス２０４Ｒは、１つのＱｏＥ又は複数のＱｏＥを決定することができる。１又は複数のＱｏＥは、１つのエージェント２０６又は複数のエージェント２０６へ提供することができる。

[0038] 従って、劣化したリアルタイムのオーディオ及びビデオの通信を我慢して、ネットワーク条件の変化及び／又はアプリケーション要求の変化に応じるためにハンド・コーディングのみが用いられる環境のように結果的になり得るのではなく、エージェント２０６と送信側コンピューティング・デバイス２０４Ｓとは、エージェント２０６の連続的でライブのアップデートに基づいて、将来の報酬の合計の予想値の最大化を通じて、リアルタイムのオーディオ及びビデオの通信における予想されるユーザの知覚する品質を連続的に最適化するために、即座に（即ち、リアルタイムで）アップデートされる。

[0039] 図６－図９及び関連する記載は、本開示の特徴を実施でき得る様々な動作環境の検討を提供する。しかし、図６－図９に関して示され検討されるデバイス及びシステムは、例及び図解を目的としており、ここで説明する本開示の特徴を実施するために使用でき得る多数のコンピューティング・デバイスの構成を限定するものではない。

[0040] 図６は、本開示の特徴を実施でき得るコンピューティング・デバイス６００の物理的コンポーネント（例えば、ハードウェア）を示すブロック図である。以下で説明するコンピューティング・デバイスのコンポーネントは、コンピューティング・デバイス（例えば、送信側コンピューティング・デバイス２０４Ｓ及び受信側コンピューティング・デバイス２０４Ｒ）でのリアルタイム通信におけるユーザの知覚するＱｏＥを最大化するための強化学習をインプリメントするためのコンピュータ実行可能命令を有することができ、これは、ここで説明する方法をインプリメントするために実行され得る強化学習アプリケーション６２０のためのコンピュータ実行可能命令を含む。基本的構成では、コンピューティング・デバイス６００は、少なくとも１つのプロセッシング・ユニット６０２とシステム・メモリ６０４とを含むことができる。コンピューティング・デバイスの構成と型とに応じて、システム・メモリ６０４は、揮発性ストレージ（例えば、ランダム・アクセス・メモリ）、不揮発性ストレージ（例えば、リード・オンリ・メモリ）、フラッシュ・メモリ、又はこのようなメモリの任意の組み合わせを含むことができるが、これには限定されない。システム・メモリ６０４は、オペーレーティング・システム６０５と、図２に関しての１以上のコンポーネントなどのような１以上のプログラム・モジュール６０６、具体的には、データ捕獲、データ・エンコーダ、及びデータ送信機のモジュール６１１（例えば、データ捕獲モジュール２１０、データ・エンコーダ・モジュール２１２、及びデータ送信機モジュール２１４）、データ受信機、データ・デコーダ、及びＱｏＥ計量のモジュール６１３（例えば、データ受信機モジュール２２０、データ・デコーダ・モジュール２２２、及びＱｏＥ計量モジュール２２４）、及び／又はエージェントのモジュール６１５（例えば、エージェント２０６）などを含むことができる。

[0041] オペーレーティング・システム６０５は、例えば、コンピューティング・デバイス６００の動作の制御に適切なものとすることができる。更に、本開示の実施形態は、グラフィックス・ライブラリ、他のオペーレーティング・システム、又は任意の他のアプリケーション・プログラムと関連して実施することができ、何れかの特定のアプリケーションやシステムに限定されない。この基本的構成は、図６に、破線６０８内のコンポーネントにより示されている。コンピューティング・デバイス６００は追加の特徴や機能を有することができる。例えば、コンピューティング・デバイス６００は、例えば、磁気ディスク、光ディスク、又はテープなどのような追加のデータ・ストレージ・デバイス（取り外し可能及び／又は取り外し不可能）も含むことができる。そのような追加のストレージは、図６に、取り外し可能ストレージ６０９及び取り外し不可能ストレージ６１０により示されている。任意の数のプログラム・モジュール及びデータ・ファイルをシステム・メモリ６０４に格納することができる。プロセッシング・ユニット６０２で実行中に、プログラム・モジュール６０６（例えば、強化学習アプリケーション６２０）は、ここで説明した特徴を含むプロセスを行うことができるが、プロセスはこれに限定されない。

[0042] 更に、本開示の実施形態は、個別の電子エレメントを含む電気回路、ロジック・ゲートを含むパッケージされた又は集積された電子チップ、マイクロプロセッサを用いる回路、又は電子エレメント又はマイクロプロセッサを含む１つのチップで、実施することができる。例えば、本開示の実施形態は、図６に示すそれぞれの又は多くのコンポーネントが１つの集積回路に集積されているシステムオンチップ（ＳＯＣ）を介して、実施することができる。そのようなＳＯＣデバイスは、１以上のプロセッシング・ユニット、グラフィックス・ユニット、通信ユニット、システム仮想化ユニット、及び様々なアプリケーション機能を含むことができ、これらの全てが、１つの集積回路としてチップ基板に集積される（又は「埋め込まれる」）。ＳＯＣを介して動作を行うとき、プロトコルを切りかえるためのクライアントの能力に関してのここで説明した機能は、１つの集積回路（チップ）上のコンピューティング・デバイス６００の他のコンポーネントと一体化された特定用途向けロジックを介して、操作され得る。本開示の実施形態はまた、例えば、ＡＮＤ、ＯＲ、ＮＯＴなどのような論理演算を行うことが可能な他の技術を用いて、実施することができ、その技術は機械、光学、流体、及び量子の技術を含むが、これらには限定されない。更に、本開示の実施形態は、汎用コンピュータ内で、又は任意の他の回路やシステムで、実施することができる。

[0043] コンピューティング・デバイス６００はまた、キーボード、マウス、ペン、音又は声の入力デバイス、タッチ又はスワイプされる入力デバイスなどのような、１以上の入力デバイス（１以上）６１２を有することができる。ディスプレイ、スピーカ、プリンタ、などのような出力デバイス（１以上）６１４も含むことができる。上述のデバイスは例であり、他のものも用いることができる。コンピューティング・デバイス６００は、他のコンピューティング・デバイス６５０との通信を可能とする１以上の通信接続６１６を含むことができる。適切な通信接続６１６の例は、無線周波数（ＲＦ）の送信機、受信機、及び／又は送受信機の回路、ユニバーサル・シリアル・バス（ＵＳＢ）、パラレル・ポート及び／又はシリアル・ポートを含むが、これらには限定されない。

[0044] ここで用いられるコンピュータ読み取り可能媒体という用語は、コンピュータ・ストレージ媒体を含み得る。コンピュータ・ストレージ媒体は、コンピュータ読み取り可能命令やデータ構造やプログラム・モジュールなどのような情報の格納のために任意の方法や技術でインプリメントされる揮発性及び不揮発性、取り外し可能及び取り外し不可能の媒体を含むことができる。システム・メモリ６０４、取り外し可能ストレージ６０９、及び取り外し不可能ストレージ６１０は、全て、コンピュータ・ストレージ媒体の例（例えば、メモリ・ストレージ）である。コンピュータ・ストレージ媒体は、ＲＡＭ、ＲＯＭ、電気的消去可能なリード・オンリ・メモリ（ＥＥＰＲＯＭ）、フラッシュ・メモリ、又は他のメモリ技術、ＣＤ－ＲＯＭ、デジタル・バーサタイル・ディスク（ＤＶＤ）、又は他の光ストレージ、磁気カセット、磁気テープ、磁気ディスク、又は他の磁気ストレージ・デバイス、又は情報の格納に使用できコンピューティング・デバイス６００によりアクセスできる任意の他の製造物を、含むことができる。このようなコンピュータ・ストレージ媒体の何れのものも、コンピューティング・デバイス６００の一部とすることができる。コンピュータ・ストレージ媒体は、搬送波や他の伝播される又は変調されたデータ信号を含まない。

[0045] 通信媒体は、コンピュータ読み取り可能命令、データ構造、プログラム・モジュール、又は搬送波や他の移送機構などのような変調されたデータ信号における他のデータにより具体化することができ、任意の情報搬送媒体を含む。「変調されたデータ信号」という用語は、信号内の情報をエンコードするような形で設定又は変更される１以上の特徴を有する信号を、説明し得るものである。限定ではなく例として、通信媒体は、有線ネットワーク及び直接有線接続などのようなワイヤードの媒体や、音響、無線周波数（ＲＦ）、赤外線、及び他の無線媒体などのようなワイヤレスの媒体を、含むことができる。

[0046] 図７Ａ及び図７Ｂは、本開示の実施形態を実施することができるモバイル・コンピューティング・デバイス７００を示し、その例は、モバイル電話、スマート・フォン、ウェアラブル・コンピュータ（スマート・ウォッチなど）、タブレット・コンピュータ、ラップトップ・コンピュータなどである。幾つかの特徴では、クライアントをモバイル・コンピューティング・デバイスとすることができる。図７Ａを参照すると、上記の特徴を実施するためのモバイル・コンピューティング・デバイス７００の１つの特徴が示されている。基本的構成では、モバイル・コンピューティング・デバイス７００は、入力エレメントと出力エレメントとの双方を有する手持ち型コンピュータである。モバイル・コンピューティング・デバイス７００は、典型的には、ディスプレイ７０５と、ユーザが情報をモバイル・コンピューティング・デバイス７００へ入力することを可能にする１以上の入力ボタン７１０とを含む。モバイル・コンピューティング・デバイス７００のディスプレイ７０５はまた、入力デバイス（例えば、タッチ・スクリーン・ディスプレイ）としての機能も有し得る。オプションの横側入力エレメント７１５が含まれる場合、更なるユーザ入力が可能となる。横側入力エレメント７１５は、ロータリー・スイッチ、ボタン、又は任意の他の型の手動入力エレメントとすることができる。代替的な特徴では、モバイル・コンピューティング・デバイス７００には、より多くの又はより少ない入力エレメントを組み込むことができる。例えば、幾つかの実施形態では、ディスプレイ７０５を、タッチ・スクリーンではないようにすることができる。更に別の代替的な実施形態では、モバイル・コンピューティング・デバイス７００を、セルラ・フォンなどのようなポータブル・フォン・システムとすることができる。モバイル・コンピューティング・デバイス７００はまた、オプションのキーパッド７３５を含むことができる。オプションのキーパッド７３５は、物理的キーパッド又はタッチ・スクリーン・ディスプレイに作り出される「ソフト」キーパッドとすることができる。様々な実施形態では、出力エレメントは、グラフィカル・ユーザ・インターフェース（ＧＵＩ）を表示するためのディスプレイ７０５、視覚的インジケータ７２０（例えば、発光ダイオード）、及び／又はオーディオ・トランスジューサ７２５（例えば、スピーカ）を含む。幾つかの特徴では、モバイル・コンピューティング・デバイス７００には、ユーザへ触感フィードバックを提供するための振動トランスジューサを組み込んでいる。更に別の特徴では、モバイル・コンピューティング・デバイス７００には、オーディオ入力（例えば、マイクロフォン・ジャック）、オーディオ出力（例えば、ヘッドフォン・ジャック）、及びビデオ出力（例えば、ＨＤＭＩ（登録商標）ポート）などのような、外部デバイスへ信号を送信するためや、外部デバイスから信号を受信するための入力用及び／又は出力用のポートを組み込んでいる。

[0047] 図７Ｂは、モバイル・コンピューティング・デバイスの１つの特徴のアーキテクチャを示すブロック図である。即ち、モバイル・コンピューティング・デバイス７００には、幾つかの特徴を実施するためのシステム（例えば、アーキテクチャ）７０２を組み込むことができる。１つの実施形態では、システム７０２は、１以上のアプリケーション（例えば、ブラウザ、ｅメール、カレンダリング、連絡先管理、メッセージング・クライアント、ゲーム、及びメディア・クライアント／プレーヤ）を実行できる「スマート・フォン」としてインプリメントされる。幾つかの特徴では、システム７０２は、パーソナル・デジタル・アシスタント（ＰＤＡ）とワイヤレス・フォンとが一体化されたものなどのように、コンピューティング・デバイスとして一体化される。

[0048] １以上のアプリケーション・プログラム７６６をメモリ７６２へロードすることができ、オペーレーティング・システム７６４で又はそれと関連して実行することができる。アプリケーション・プログラムの例は、フォーン・ダイアラー（phone dialer）・プログラム、ｅメール・プログラム、個人情報管理（PIM）プログラム、ワード・プロセッシング・プログラム、スプレッドシート・プログラム、インターネット・ブラウザ・プログラム、メッセージング・プログラムなどを含む。システム７０２はまた、メモリ７６２内に不揮発性ストレージ・エリア７６８を含む。不揮発性ストレージ・エリア７６８は、システム７０２がパワー・ダウンしたとしても失うべきではない永続的情報を格納するために、用いることができる。アプリケーション・プログラム７６６は、ｅメール・アプリケーションにより使用されるｅメールや他のメッセージなどのような、不揮発性ストレージ・エリア７６８内の情報を使用すること、及びそこへ情報を格納することができる。また、同期アプリケーション（示さず）もシステム７０２に存在し、ホスト・コンピュータに存在する対応する同期アプリケーションと対話するようにプログラムされて、不揮発性ストレージ・エリア７６８に格納された情報とホスト・コンピュータに格納された対応する情報との同期を維持するようにする。理解されるべきであるが、他のアプリケーションをメモリ７６２へロードしてモバイル・コンピューティング・デバイス７００で実行することができ、これは、ここで説明したコンセンサス決定アプリケーション（例えば、メッセージ・パーサー、サジェスチョン・インタープリター、オピニオン・インタープリター、及び／又はコンセンサス・プレゼンターなど）を提供するための命令を含む。

[0049] システム７０２は電源７７０を有し、これは１以上のバッテリとしてインプリメントできる。電源７７０は、更に、バッテリに対しての補充又は再充電を行うＡＣアダプタや電動ドッキング・クレードルなどのような外部電源を、含むことができる。

[0050] システム７０２はまた、無線インターフェース層７７２を含むことができ、これは、無線周波数通信の送信及び受信の機能を実行する。無線インターフェース層７７２は、通信キャリア又はサービス・プロバイダを介しての、システム７０２と「外界」との間でのワイヤレス・コネクティビティを容易なものとする。無線インターフェース層７７２への及びこの層からの送信は、オペーレーティング・システム７６４の制御の下で行われる。換言すると、無線インターフェース層７７２により受信される通信は、オペーレーティング・システム７６４を介してアプリケーション・プログラム７６６へ伝播させることができ、この逆も可能である。

[0051] 視覚的インジケータ７２０は、視覚的通知を提供するために用いることができ、そして／また、オーディオ・インターフェース７７４は、オーディオ・トランスジューサ７２５（例えば、図７Ａに示すオーディオ・トランスジューサ７２５）を介して可聴の通知を生成するために用いることができる。例示の実施形態では、視覚的インジケータ７２０は発光ダイオード（ＬＥＤ）であり、オーディオ・トランスジューサ７２５はスピーカとすることができる。これらのデバイスは電源７７０へ直接に接続することができ、それにより、それらは、作動させられると、たとえプロセッサ７６０及び他のコンポーネントがバッテリ電力を浪費しないようにシャット・ダウンされたとしても、通知機構により指令された期間だけオンを維持する。ＬＥＤは、ユーザがデバイスのパワー・オン・ステータスを示すための動作を行うまで無期限にオンを維持するように、プログラムすることができる。オーディオ・インターフェース７７４は、ユーザへ可聴信号を提供するため、及びユーザから可聴信号を受け取るために用いられる。例えば、オーディオ・インターフェース７７４は、オーディオ・トランスジューサ７２５へ結合されていることに加えて、電話での会話を容易にするなどのために、可聴入力を受け取るためのマイクロフォンへも結合されることができる。本開示の実施形態に従うと、マイクロフォンはまた、後に説明する通知の制御を容易にするためのオーディオ・センサとして働く。システム７０２は、更に、ビデオ・インターフェース７７６を含むことができ、これは、静止イメージ、ビデオ・ストリームなどを記録するための周辺デバイス７３０（例えば、オンボードのカメラ）の動作を可能にする。オーディオ・インターフェース７７４、ビデオ・インターフェース７７６、及びキーボード７３５は、ここでの説明のように１以上のメッセージを生成するように動作させることができる。

[0052] システム７０２をインプリメントするモバイル・コンピューティング・デバイス７００は、追加の特徴や機能を有することができる。例えば、モバイル・コンピューティング・デバイス７００はまた、磁気ディスクや光ディスクやテープなどのような、追加のデータ・ストレージ・デバイス（取り外し可能及び／又は取り外し不可能）を含むことができる。そのような追加のデータ・ストレージは、図７Ｂに、不揮発性ストレージ・エリア７６８として示されている。

[0053] モバイル・コンピューティング・デバイス７００により生成又は捕獲されシステム７０２を介して格納されたデータ／情報は、先に説明したようにモバイル・コンピューティング・デバイス７００にローカルに格納することができ、また、データは、任意の数のデータ・ストレージ媒体に格納することができ、データ・ストレージ媒体は、モバイル・コンピューティング・デバイス７００と、モバイル・コンピューティング・デバイス７００と関連する別個のコンピューティング・デバイス、例えば、インターネットなどのような分散型コンピューティング・ネットワークにおけるサーバ・コンピュータとの間で、無線インターフェース層７７２を介して又は有線接続を介して、デバイスによりアクセスすることができる。理解されるべきであるが、そのようなデータ／情報は、モバイル・コンピューティング・デバイス７００を介して、無線インターフェース層７７２を介して、又は分散型コンピューティング・ネットワークを介して、アクセスすることができる。同様に、そのようなデータ／情報は、電子メール及び共同的データ／情報共有システムを含む既知のデータ／情報の転送及び格納の手段にしたがって、格納及び使用するためにコンピューティング・デバイス間で容易に転送することができる。

[0054] 理解されるべきであるが、図７Ａ及び図７Ｂは、本方法及び本システムの例示を目的として説明されており、本開示を特定のステップの順序や特定のハードウェア・コンポーネントやソフトウェア・コンポーネントの組み合わせに限定することを意図していない。

[0055] 図８は、先に説明したような汎用コンピューティング・デバイス８０４（例えば、パーソナル・コンピュータ）、タブレット・コンピューティング・デバイス８０６、又はモバイル・コンピューティング・デバイス８０８などのようなリモート・ソースからコンピューティング・システムで受信したデータを処理するためのシステムのアーキテクチャの１つの特徴を示す。サーバ・デバイス８０２で表示されるコンテンツは、様々な通信チャンネル又は他のストレージ型で格納することができる。例えば、様々なメッセージは、ディレクトリ・サービス８２２、ウェブ・ポータル８２４、メイルボックス・サービス８２６、インスタント・メッセージング記憶装置８２８、又はソーシャル・ネットワーキング・サービス８３０を用いて受信及び／又は格納することができる。強化学習アプリケーション８２１を、サーバ・デバイス８０２と通信するクライアントにより用いることができ、かつ／又は強化学習アプリケーション８２０を、サーバ・デバイス８０２により用いることができる。サーバ・デバイス８０２は、データを、ネットワーク８１５を通して、汎用コンピューティング・デバイス８０４、タブレット・コンピューティング・デバイス８０６、及び／又はモバイル・コンピューティング・デバイス８０８（例えば、スマート・フォン）などのようなクライアント・コンピューティング・デバイスへ及びクライアント・コンピューティング・デバイスから提供することができる。例として、上述のコンピュータ・システムは、汎用コンピューティング・デバイス８０４（例えば、パーソナル・コンピュータ）、タブレット・コンピューティング・デバイス８０６、及び／又はモバイル・コンピューティング・デバイス８０８（例えば、スマート・フォン）で具体化することができる。コンピューティング・デバイスのこれらの実施形態の何れも、グラフィック作成システム（graphic-originating system）で前処理されるように又は受信側コンピューティング・システムで後処理されるように使用可能なグラフィカル・データを受け取ることに加えて、記憶装置８１６からコンテンツを得ることができる。

[0056] 理解されるべきであるが、図８は、本方法及び本システムの例示を目的として説明されており、本開示を特定のステップの順序や特定のハードウェア・コンポーネントやソフトウェア・コンポーネントの組み合わせに限定することを意図していない。

[0057] 図９は、ここで開示した１以上の特徴を実行することができる、例としてのタブレット・コンピューティング・デバイス９００を示す。更に、ここで説明した機能の特徴は分散型システム（例えば、クラウド・ベースのコンピューティング・システム）上で動作させることができ、そこでは、アプリケーション機能、メモリ、データの格納及び取り出し、及び様々な処理機能は、インターネットやイントラネットなどのような分散型コンピューティング・ネットワーク上で互いにリモートで動作させることができる。ユーザ・インターフェース及び様々なタイプの情報は、オンボードのコンピューティング・デバイス・ディスプレイを介して、又は１以上のコンピューティング・デバイスと関連するリモート・ディスプレイ・ユニットを介して、表示することができる。例えば、ユーザ・インターフェース及び様々なタイプの情報は、ユーザ・インターフェース及び様々なタイプの情報が投影される壁面で、表示すること及びそれと対話することができる。本発明の実施形態を実施することができる多数のコンピューティング・システムとの対話は、キーストローク入力、タッチ・スクリーン入力、音声又は他のオーディオ入力、関連するコンピューティング・デバイスが該コンピューティング・デバイスの機能を制御するためのユーザのジェスチャを捉えて解釈する検出（例えば、カメラ）機能を備える場合にはジェスチャ入力などを含む。

[0058] 理解されるべきであるが、図９は、本方法及び本システムの例示を目的として説明されており、本開示を特定のステップの順序や特定のハードウェア・コンポーネントやソフトウェア・コンポーネントの組み合わせに限定することを意図していない。

[0059] この出願で提供した１以上の特徴の説明及び図解は、特許請求される本開示の範囲を何れかの形で限定又は制限することを意図していない。この出願で提供した特徴、例、及び詳細は、占有を伝えるため、及び特許請求された開示の最良の形態を他者が作成し使用することを可能とするために、十分であると考えられる。特許請求された開示は、この出願で提供された何れかの特徴、例、又は詳細に限定されていると解釈すべきではない。組み合わせで示され説明されているか又は個別に示され説明されているかにかかわらず、様々な特徴（構造的なものと方法的なものとの双方）は、特定の特徴の組を用いて実施形態を作り出すために、選択的に含まれる又は省かれることが意図されている。当業者は、本出願の説明及び図解が提供されたので、特許請求された開示の広い範囲から離れないこの出願で具体化される一般的発明概念の広い特徴の精神内にある変形、変更、及び代替の特徴を把握することができる。

Claims

送信側コンピューティング・デバイスと受信側コンピューティング・デバイスとの間でのリアルタイム通信においての予想されるユーザの知覚する経験品質（ＱｏＥ）を最適化する方法であって、
前記送信側コンピューティング・デバイスのエージェントが、前記送信側コンピューティング・デバイスの現在の状態を、前記送信側コンピューティング・デバイスの現在の状態のデータと、前記受信側コンピューティング・デバイスから受信したネットワーク統計とに基づき決定するステップであって、前記ネットワーク統計は、前記受信側コンピューティング・デバイスにおいて受信したリアルタイム通信の品質を示す、ステップと、
前記エージェントが、前記送信側コンピューティング・デバイスの、複数の送信パラメータを含む現在の行動を決定するステップと、
前記エージェントが、前記送信パラメータを前記送信側コンピューティング・デバイスに提供するステップと、
前記送信パラメータに従って、前記送信側コンピューティング・デバイスから前記受信側コンピューティング・デバイスへ、リアルタイム・オーディオ通信とリアルタイム・ビデオ通信とのうちの１以上を含むリアルタイム通信を送信するステップと、
前記エージェントが、前記受信側コンピューティング・デバイスから該受信側コンピューティング・デバイスにより決定された報酬及び第２のネットワーク統計を受け取るステップであって、前記報酬は、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信と関連する１以上の受信パラメータに基づく、ステップと、
前記エージェントが、前記現在の状態と、前記現在の行動と、前記第２のネットワーク統計と、前記報酬とに基づいて、将来の報酬の合計の予想値を決定するステップと、
前記エージェントが、将来の報酬の前記合計の前記予想値を最大化するように、前記送信側コンピューティング・デバイスの前記複数の送信パラメータのうちの少なくとも１つを変更するステップと
を含む方法。
請求項１に記載の方法であって、強化学習モデルの状態行動価値関数が将来の報酬の前記合計の前記予想値を決定する、方法。
請求項２に記載の方法であって、前記状態行動価値関数の出力を前記強化学習モデルの制御ポリシー学習モデルへ提供するステップと、前記制御ポリシー学習モデルが、前記状態行動価値関数の前記出力に基づいて前記複数の送信パラメータのうちの前記少なくとも１つを変更するステップとを更に含む方法。
請求項１に記載の方法であって、前記報酬は、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信と関連する前記１以上の受信パラメータに基づくユーザの知覚する経験品質（ＱｏＥ）計量を含む、方法。
請求項４に記載の方法であって、ＱｏＥ機械学習モデルを用いて前記ユーザの知覚するＱｏＥを決定するステップを更に含み、前記ＱｏＥ機械学習モデルは、前記受信側コンピューティング・デバイスでのネットワーク統計と、受信側コンピューティング・デバイス統計と、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信のユーザ・フィードバックとの評価を行う、方法。
請求項４又は５に記載の方法であって、ＱｏＥ機械学習モデルを用いて前記ユーザの知覚するＱｏＥを決定するステップを更に含み、前記ＱｏＥ機械学習モデルは、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信のペイロードを評価する、方法。
請求項１から６のうちの何れか一項に記載に方法であって、前記複数の送信パラメータのうちの前記少なくとも１つは、送信レート・パラメータ、レゾリューション・パラメータ、フレーム・レート・パラメータ、量子化パラメータ（ＱＰ）、又は、前方誤り訂正（ＦＥＣ）パラメータを含む、方法。
請求項１から７のうちの何れか一項に記載の方法であって、双方向リアルタイム通信のために、前記送信側コンピューティング・デバイスは更に受信側コンピューティング・デバイスとして動作し、前記受信側コンピューティング・デバイスは更に送信側コンピューティング・デバイスとして動作する、方法。
リアルタイム通信においての予想されるユーザの知覚する経験品質（ＱｏＥ）を最適化するための強化学習モデルを訓練する方法であって、
送信側コンピューティング・デバイスのエージェントが、前記送信側コンピューティング・デバイスの現在の状態を、前記送信側コンピューティング・デバイスの現在の状態のデータと、受信側コンピューティング・デバイスから受信したネットワーク統計とに基づき決定するステップであって、前記ネットワーク統計は、前記受信側コンピューティング・デバイスにおいて受信したリアルタイム通信の品質を示す、ステップと、
前記エージェントが、前記送信側コンピューティング・デバイスの、複数の送信パラメータを含む現在の行動を決定するステップと、
前記エージェントが、前記送信パラメータを前記送信側コンピューティング・デバイスに提供するステップと、
前記送信パラメータに従って、前記送信側コンピューティング・デバイスから前記受信側コンピューティング・デバイスへ、リアルタイム・オーディオ通信とリアルタイム・ビデオ通信とのうちの１以上を含むリアルタイム通信を送信するステップと、
前記エージェントにおいて、前記受信側コンピューティング・デバイスから該受信側コンピューティング・デバイスにより決定された報酬及び第２のネットワーク統計を受け取るステップであって、前記報酬は、前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信と関連する１以上の受信パラメータに基づく、ステップと、
前記エージェントが、前記現在の状態と、前記現在の行動と、前記第２のネットワーク統計と、前記報酬とに基づいて、将来の報酬の合計の予想値を決定するステップと、
前記エージェントが、将来の報酬の前記合計の前記予想値を最大化するように、前記複数の送信パラメータのうちの少なくとも１つを変更するステップと
を含む方法。
請求項９に記載の方法であって、
強化学習モデルの状態行動価値関数が将来の報酬の前記合計の前記予想値を決定し、
前記方法は、前記状態行動価値関数の出力を前記強化学習モデルの制御ポリシー学習モデルへ提供するステップと、前記制御ポリシー学習モデルが、前記状態行動価値関数の前記出力に基づいて前記複数の送信パラメータのうちの前記少なくとも１つを変更するステップとを更に含む、
方法。
請求項９に記載の方法であって、
前記報酬は、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信と関連する前記１以上の受信パラメータに基づくユーザの知覚する経験品質（ＱｏＥ）計量を含み、
前記方法は、ＱｏＥ機械学習モデルを用いて前記ユーザの知覚するＱｏＥを決定するステップを更に含み、前記ＱｏＥ機械学習モデルは、前記受信側コンピューティング・デバイスでのネットワーク統計と、受信側コンピューティング・デバイス統計と、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信のユーザ・フィードバックとの評価を行う、
方法。
請求項９から１１のうちの何れか一項に記載の方法であって、前記送信側コンピューティング・デバイスと、受信側コンピューティング・デバイスと、ネットワークとはシミュレートされる、方法。
請求項１２に記載の方法であって、前記送信側コンピューティング・デバイスと、受信側コンピューティング・デバイスと、ネットワークとは、離散事象を用いてシミュレートされる、方法。
請求項９から１３のうちの何れか一項に記載に方法であって、前記送信側コンピューティング・デバイスと前記受信側コンピューティング・デバイスとのそれぞれは通信アプリケーションを実行し、前記ネットワークの１以上の条件は１以上の所定のパラメータに従って制御される、方法。
請求項９から１１のうちの何れか一項に記載の方法であって、前記ネットワークはライブの実際のネットワークを含む、方法。
請求項１５に記載に方法であって、前記送信側コンピューティング・デバイスと、受信側コンピューティング・デバイスと、ネットワークとはライブの環境にあり、ライブのリアルタイム通信の送信に基づいて前記エージェントを連続的に訓練するステップを更に含む方法。
リアルタイム通信においての予想されるユーザの知覚する経験品質（ＱｏＥ）を最適化するためのシステムであって、
実行可能命令を記憶したメモリと、
前記実行可能命令を実行するプロセッサと
を含み、前記実行可能命令は、実行されると、前記プロセッサに、
送信側コンピューティング・デバイスのエージェントが、前記送信側コンピューティング・デバイスの現在の状態を、前記送信側コンピューティング・デバイスの現在の状態のデータと、受信側コンピューティング・デバイスから受信したネットワーク統計とに基づき決定するステップであって、前記ネットワーク統計は、前記受信側コンピューティング・デバイスにおいて受信したリアルタイム通信の品質を示す、ステップと、
前記エージェントが、前記送信側コンピューティング・デバイスの、複数の送信パラメータを含む現在の行動を決定するステップと、
前記エージェントが、前記送信パラメータを前記送信側コンピューティング・デバイスに提供するステップと、
前記送信パラメータに従って、前記送信側コンピューティング・デバイスから受信側コンピューティング・デバイスへ、リアルタイム・オーディオ通信とリアルタイム・ビデオ通信とのうちの１以上を含むリアルタイム通信を送信するステップと、
前記エージェントが、前記受信側コンピューティング・デバイスから該受信側コンピューティング・デバイスにより決定された報酬及び第２のネットワーク統計を受け取るステップであって、前記報酬は、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信と関連する１以上の受信パラメータに基づく、ステップと、
前記エージェントが、前記現在の状態と、前記第２のネットワーク統計と、前記現在の行動と、前記報酬とに基づいて、将来の報酬の合計の予想値を決定するステップと、
前記エージェントが、将来の報酬の前記合計の前記予想値を最大化するように、前記送信側コンピューティング・デバイスの前記複数の送信パラメータのうちの少なくとも１つを変更するステップと
を実行させる、システム。
請求項１７に記載のシステムであって、
前記実行可能命令は、前記プロセッサに、強化学習モデルの状態行動価値関数を用いて将来の報酬の前記合計の前記予想値を決定することを更に実行させ、
前記実行可能命令は、前記プロセッサに、前記状態行動価値関数の出力を前記強化学習モデルの制御ポリシー学習モデルへ提供するステップと、前記制御ポリシー学習モデルが、前記状態行動価値関数の前記出力に基づいて前記複数の送信パラメータのうちの前記少なくとも１つを変更するステップとを更に実行させる、
システム。
請求項１７に記載のシステムであって、
前記報酬は、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信と関連する前記１以上の受信パラメータに基づくユーザの知覚する経験品質（ＱｏＥ）計量を含み、
前記実行可能命令は、前記プロセッサに、ＱｏＥ機械学習モデルを用いて前記ユーザの知覚するＱｏＥを決定するステップを更に実行させ、前記ＱｏＥ機械学習モデルは、前記受信側コンピューティング・デバイスでのネットワーク統計と、受信側コンピューティング・デバイス統計と、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信のユーザ・フィードバックとの評価を行う、
システム。
請求項１７から１９のうちの何れか一項に記載のシステムであって、前記実行可能命令は、前記プロセッサに、更に、双方向リアルタイム通信のために、前記送信側コンピューティング・デバイスを受信側コンピューティング・デバイスとして動作させる、システム。
請求項１７から２０のうちの何れか一項に記載にシステムであって、前記複数の送信パラメータのうちの前記少なくとも１つは、送信レート・パラメータ、レゾリューション・パラメータ、フレーム・レート・パラメータ、量子化パラメータ（ＱＰ）、又は、前方誤り訂正（ＦＥＣ）パラメータを含む、システム。
請求項１８に記載のシステムであって、前記強化学習モデルは、アクター・クリティック（actor-critic）モデル、Ｑ学習（q-learning）モデル、ポリシー・グラジエント（policy gradient）モデル、テンポラル・ディファレンス（temporal difference）モデル、又は、モンテカルロ木探索（monte-carlo tree search）モデルを含む、システム。