JP7635196B2 - リアルタイム通信における強化学習 - Google Patents

リアルタイム通信における強化学習 Download PDF

Info

Publication number
JP7635196B2
JP7635196B2 JP2022500820A JP2022500820A JP7635196B2 JP 7635196 B2 JP7635196 B2 JP 7635196B2 JP 2022500820 A JP2022500820 A JP 2022500820A JP 2022500820 A JP2022500820 A JP 2022500820A JP 7635196 B2 JP7635196 B2 JP 7635196B2
Authority
JP
Japan
Prior art keywords
computing device
real
sending
receiving computing
receiving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022500820A
Other languages
English (en)
Other versions
JP2022540137A (ja
JP2022540137A5 (ja
Inventor
ファン,ジョイス・エス
エリス,マーティン
カトラー,ロス・ギャレット
ジャオ,デビッド・ユーヘン
ズオン,タン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of JP2022540137A publication Critical patent/JP2022540137A/ja
Publication of JP2022540137A5 publication Critical patent/JP2022540137A5/ja
Application granted granted Critical
Publication of JP7635196B2 publication Critical patent/JP7635196B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0041Arrangements at the transmitter end
    • H04L1/0042Encoding specially adapted to other signal generation operation, e.g. in order to reduce transmit distortions, jitter, or to improve signal shape
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5061Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the interaction between service providers and their network customers, e.g. customer relationship management
    • H04L41/5067Customer-centric QoS measurements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/046Network management architectures or arrangements comprising network management agents or mobile agents therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Environmental & Geological Engineering (AREA)
  • Databases & Information Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

リアルタイム通信における強化学習。
[0001] リアルタイム通信(例えば、音声映像会議)についての帯域幅推定、輻輳制御、及びビデオ品質最適化は、頻繁に変化するネットワークの条件及びアプリケーションの要求が原因で、難しい問題として残っている。高い品質及び信頼性(例えば、エンド・ユーザの経験品質)でリアルタイム媒体を送るには、新たなアプリケーション要求及びネットワーク挙動に反応するために継続的なアップデートが必要である。継続的なアップデートのプロセスは、エンド・ユーザの経験を劣化させることになる遅いプロセスであり得る。
[0002] これら及び他の一般的な考慮に関して、本開示の様々な見方がなされた。更に、比較的特定的な問題やこれらの問題を解決する例がここで論じられるが、それらの例は、本開示の背景や他の所で特定される特定の問題を解決するものに限定されるべきではないことを、理解すべきである。
[0003] 本開示は、一般に、リアルタイム通信における強化学習をインプリメントするためのシステム及び方法に向けたものである。本開示の特定の特徴は、リアルタイムのオーディオ及びビデオの通信におけるユーザの知覚する品質を最適化するための強化学習に向けたものである。エージェントは、送信側コンピューティング・デバイス及び受信側コンピューティング・デバイスと相互作用して、変化するネットワーク条件及び/又はアプリケーション要求に応答して、リアルタイムのオーディオ及びビデオの送信のパラメータを自動的に調節する。送信側コンピューティング・デバイスは、リアルタイムのオーディオ及び/又はビデオのデータを送る。受信側コンピューティング・デバイスは、送信側デバイスからリアルタイムのオーディオ及びビデオの送信を受信し、実際のユーザの知覚する経験品質(QoE)を決定し、これは報酬(reward)としてエージェントへ提供される。エージェントは、制御ポリシーと状態行動価値関数(state-action value function)とを含む強化学習モデルを組み込む。エージェントは、送信側コンピューティング・デバイスの現在の状態を観察し、現在の状態と、現在の行動(例えば、送信側コンピューティング・デバイスで送信パラメータに対して行われる現在の調節又は一組の調節)と、受信側コンピューティング・デバイスにより提供される報酬とに基づいて、将来の報酬の合計の予想値の概算を決定する。将来の報酬の合計の予想値を最大化するという目標に基づいて、エージェントは制御ポリシーを調節する。制御ポリシーにおける調節は、リアルタイムのオーディオ及び/又はビデオのデータへ適用される行動(action)を変える。
[0004] 本開示の特徴は、リアルタイム通信における予想されるユーザの知覚するQoEを最適化する方法、システム、及び製造品に向けたものである。この特徴は、送信側コンピューティング・デバイスの現在の状態と、送信側コンピューティング・デバイスの現在の行動とを決定することを含み、現在の行動は複数の送信パラメータを含む。この特徴は、更に、送信側コンピューティング・デバイスから受信側コンピューティング・デバイスへリアルタイム通信を送ることを含む。リアルタイム通信は、リアルタイム・オーディオ通信とリアルタイム・ビデオ通信との一方又は双方を含む。更に、送信されて受信側コンピューティング・デバイスで受信されたリアルタイム通信の1以上のパラメータに基づいて、報酬、例えば、QoE計量が、受信側コンピューティング・デバイスで決定される。将来の報酬の合計の予想値は、現在の状態、現在の行動、及び報酬に基づいて決定され、送信側コンピューティング・デバイスの複数の送信パラメータの少なくとも1つが、将来の報酬の合計の予想値を最大化するように変更される。
[0005] 本開示の特徴は、リアルタイム通信における予想されるユーザの知覚するQoEを最適化するように強化学習モデルを訓練する方法、システム、及び製造品に向けたものである。この特徴は、送信機(sender)の現在の状態を決定することと、その現在の状態を、送信機と通信するエージェントへ提供することとを含む。この特徴は、更に、送信機の現在の行動を決定することを含み、その現在の行動は、エージェントに知られ、複数の送信パラメータを含む。この特徴は、更に、送信機から受信機へリアルタイム通信を送ることを含む。リアルタイム通信は、リアルタイム・オーディオ送信とリアルタイム・ビデオ送信との一方又は双方を含む。この特徴は、更に、エージェントで、受信機で決定された報酬を、受信機から受信することを含む。この報酬は、受信機で受信したリアルタイム通信と関連する1以上のパラメータに基づく。エージェントは、現在の状態、現在の行動、及び報酬に基づいて将来の報酬の合計の予想値を決定し、将来の報酬の合計の予想値を最大化するように、複数の送信パラメータの少なくとも1つの変更を指示する。訓練は、シミュレートされた環境、エミュレートされた環境、又は実際のネットワーク環境で行うことができる。
[0006] この概要は、概念のうちの選択されたものを簡素化した形で紹介するために提供されたが、それらは後に詳細な説明で更に説明する。この概要は、特許請求される主題事項の鍵となる特徴や本質的な特徴を特定することを意図しておらず、また、特許請求される主題事項の範囲を限定するために用いることを意図していない。複数の例の更なる性質、特徴、及び/又は利点は、後続の記載において部分的に述べられ、また、部分的に、記載から明らかになり、また、本開示を実施することにより学習できるであろう。
[0007] 限定的でも徹底的でもない例が、下記の図面を参照して説明される。
図1は、ここで開示するリアルタイム通信における強化学習を行うことができる環境を示す。 図2A-図2Cは、ここでのリアルタイム通信における強化学習を行うことができる環境の追加の詳細を示す。 図2A-図2Cは、ここでのリアルタイム通信における強化学習を行うことができる環境の追加の詳細を示す。 図2A-図2Cは、ここでのリアルタイム通信における強化学習を行うことができる環境の追加の詳細を示す。 図3は、リアルタイム通信におけるユーザの知覚する経験品質(QoE)を最大化するための強化学習のためのシミュレートされた訓練環境を送る示す。 図4は、リアルタイム通信におけるユーザの知覚するQoEを最大化するための強化学習のためのエミュレートされた訓練環境を示す。 図5は、リアルタイム通信におけるユーザの知覚するQoEを最大化するための強化学習のための実際のネットワーク訓練環境を示す。 図6は、本開示の特徴の実施に用いることができるコンピューティング・デバイスの例としての物理的コンポーネントを示すブロック図である。 図7A及び図7Bは、本開示の特徴の実施に用いることができるモバイル・コンピューティング・デバイスの簡素化したブロック図である。 図7A及び図7Bは、本開示の特徴の実施に用いることができるモバイル・コンピューティング・デバイスの簡素化したブロック図である。 図8は、本開示の特徴を実施することができる分散型コンピューティング・システムの簡素化したブロック図である。 図9は、本開示の1以上の特徴を実行するためのタブレット・コンピューティング・デバイスを示す。
[0017] 以下で、本開示の様々な特徴が、開示の一部である添付の図面を参照して、より完全に説明される。本開示の別の特徴は、多くの別の形でインプリメントすることができ、ここで示す特徴に限定されると解釈すべきではない。むしろ、それらの特徴が提供されると、本開示は、徹底的で完全なものとなり、特徴の範囲を当業者へ完全に伝えるであろう。特徴は、方法、システム、又はデバイスとして実施することができる。従って、特徴は、ハードウェアでの実施、全てソフトウェアでの実施、又はソフトウェア特徴とハードウェア特徴との組み合わせでの実施の形をとることができる。従って、以下の詳細な説明は、限定という感覚で捉えるべきではない。
[0018] 本開示は、一般に、リアルタイム通信における強化学習をインプリメントするためのシステム及び方法に向けたものである。本開示の特定の特徴は、リアルタイムのオーディオ及びビデオの通信におけるユーザの知覚する品質を最適化するための強化学習に向けたものである。エージェントは、変化するネットワーク条件及び/又はアプリケーション要求に応じてリアルタイムのオーディオ及びビデオの送信のパラメータを自動的に調節するために、送信側コンピューティング・デバイス及び受信側コンピューティング・デバイスと相互作用する。送信側コンピューティング・デバイスは、リアルタイムのオーディオ及び/又はビデオのデータを送信する。受信側コンピューティング・デバイスは、送信側デバイスからリアルタイムのオーディオ及びビデオの送信を受信し、実際のユーザの知覚する経験品質(QoE)を決定し、これは報酬としてエージェントへ提供される。エージェントは、制御ポリシーと状態行動価値関数とを含む強化学習モデルを組み込む。エージェントは、送信側コンピューティング・デバイスの現在の状態を観察し、現在の状態と、現在の行動(例えば、送信側コンピューティング・デバイスで送信パラメータに対して行われる現在の調節又は一組の調節)と、受信側コンピューティング・デバイスにより提供される報酬とに基づいて、将来の報酬の合計の予想値の概算を決定する。将来の報酬の合計の予想値を最大化する目標に基づいて、エージェントは制御ポリシーを調節する。制御ポリシーにおける調節は、リアルタイムのオーディオ及び/又はビデオのデータへ適用される行動を変える。
[0019] 従って、本開示は複数の技術的利点を提供し、それらは、将来の報酬の合計の予想値を最大化するという目標に基づいて送信側コンピューティング・デバイスのリアルタイムのオーディオ及びビデオの送信のパラメータを調節するように即座に応答する継続的にアップデートされる強化学習モデルを含むが、これには限定されない。リアルタイムのオーディオ及びビデオの送信のパラメータは、変化するネットワーク条件及び/又はアプリケーション要求に応じるように即座に調節される。劣化に対抗するために以前に用いられていたデータ送信パラメータへのハンド・コーディングでの反応的アップデートのプロセスの下で生じ得る、送信されたリアルタイムのオーディオ及びビデオのストリームの劣化は、最小にされる。
[0020] 図1を参照すると、リアルタイム通信における強化学習を実施するための環境100が示されている。環境100はネットワーク102を含み、これを通じて、複数のコンピューティング・デバイス104が、様々な通信リンク106を介して、通信する。用語「リアルタイム」は、受信したデータがコンピューティング・デバイスによりほぼ即座に処理されるデータ処理のこと、例えば、ユーザが十分に即座であると感じる、又はコンピューティング・デバイスが幾つかの外部プロセスを遅れずに行うことを可能にする、コンピューティング・デバイス応答性のレベルのことである。
[0021] ネットワーク102は、データ、音声、及びビデオのトラフィックの送信、受信、及び交換が可能な任意の型の有線及び/又は無線のネットワークである。ネットワークの例は、1つのドメインにおけるエンドポイントを相互接続するローカル・エリア・ネットワーク(LAN)、及び複数のLANを相互接続するワイド・エリア・ネットワーク(WAN)、そして、サブネットワーク、メトロポリタン・エリア・ネットワーク、ストレージ・エリア・ネットワーク、パーソナル・エリア・ネットワーク(PAN)、ワイヤレス・ローカル・エリア・ネットワーク(WLAN)、キャンパス・エリア・ネットワーク(CAN)、バーチャル・プライベート・ネットワーク(VPN)、パッシブ光ネットワークなどを含む。
[0022] コンピューティング・デバイス104はネットワーク102のエンドポイントを含む。コンピューティング・デバイス104は、1以上の汎用又は特定用途向けのコンピューティング・デバイスを含むことができる。そのようなデバイスは、例えば、パーソナル・コンピュータ、サーバ・コンピュータ、ハンドヘルド型又はラップトップ型のデバイス、マルチプロセッサ・システム、マイクロコントローラ・ベースのシステム、セット・トップ・ボックス、プログラマブルの家庭用電子製品、ネットワークPC、ミニコンピュータ、メインフレーム・コンピュータ、セル・フォン、パーソナル・デジタル・アシスタント(PDA)、ゲーム・デバイス、プリンタ、機器、メディア・センタ、車両へ埋め込む又は付けるコンピューティング・デバイス、他のモバイル・デバイス、上記のシステムやデバイスのうちの任意のものを含む分散型コンピューティング環境などを、含むことができる。コンピューティング・デバイスに関する更なる詳細は、図6-図9に説明されている。
[0023] コンピューティング・デバイス104間での通信は、リンク106を介して伝わる。リンクは、データ、音声、及び/又はビデオを1つのコンピューティング・デバイス104から別のものへ送信することができる任意の型のガイドされた又はガイドされていない送信媒体を、含むことができる。ガイドされた媒体は、物理的経路に沿って信号を送る。ガイドされた媒体の例は、ツイステッド・ペア・ケーブル、同軸ケーブル、光ファイバなどを含む。ガイドされていない媒体は、信号により用いられる経路を定める物理的手段を用いずに、信号を送る。ガイドされていない媒体の例は、ラジオ波、マイクロ波、赤外線波などを含む。
[0024] 図2A及び図2Bは、リンク106を介してネットワーク102でリアルタイムで通信する1つの送信側コンピューティング・デバイス204Sと1つの受信側コンピューティング・デバイス204Rとを含む環境200を示すが、これは例示を目的としている。送信側コンピューティング・デバイス204Sは、送信能力のみを含むものとして示されているが、送信側コンピューティング・デバイス204Sは受信側コンピューティング・デバイスとしても動作できることを認識すべきである。同様に、受信側コンピューティング・デバイス204Rも、送信側コンピューティング・デバイスとして動作することができる。従って、送信側コンピューティング・デバイス204Sと受信側コンピューティング・デバイス204Rとの間で、双方向のリアルタイムの通信を行うことができる。環境200は、音声データ及びビデオ・データを含み得るデータのリアルタイム通信に基づいて強化学習をインプリメントするために、エージェント206とリアルタイムで通信する。強化学習は、将来の報酬の合計の予想値を最大化することにより、リアルタイム通信における予想されるユーザの知覚する品質を最適化する。エージェント206は、送信側コンピューティング・デバイス204Sと受信側コンピューティング・デバイス204Rとの一方又は双方に存在するコード又はアプリケーション含むことができる。エージェント206はまた、送信側コンピューティング・デバイス204Sや受信側コンピューティング・デバイス204Rとは異なるコンピューティング・デバイス、例えば、サーバ・コンピューティング・デバイス、クラウド・コンピューティング・デバイスなどに存在するコード又はアプリケーション含むことができる。
[0025] 示されているように、送信側コンピューティング・デバイス204Sは、データ捕獲モジュール210、データ・エンコーダ・モジュール212、及びデータ送信機モジュール214を含む。データ捕獲モジュール210は、送信側コンピューティング・デバイス204Sの現在の観察される状態を表す状態データを、捕獲する。リアルタイムのオーディオ及びビデオの通信に関しては、現在の観察される状態は、リアルタイム・オーディオ・データ及びリアルタイム・ビデオ・データの送信に影響する観察される送信用パラメータ(sending parameters)含むことができる。観察される送信用パラメータは、例えば、レゾリューション、ビットレート、フレームレート、ストリームズ・トゥ・センド(streams-to-send)、コーデック(エンコード/デコード)、ユーザの物理的環境(例えば、暗/明レベル、背景ノイズ、動きなど)、又はリアルタイム・データ送信に影響し得る任意の他のパラメータを、含むことができる。送信側コンピューティング・デバイス204Sのデータ・エンコーダ・モジュール212は、状態データを、ネットワーク102を通してのリアルタイム送信のための指定されたフォーマットに変換する。データ送信機モジュール214は、そのフォーマットにされた状態データを、リアルタイムで、ネットワーク102を通じて送る。
[0026] 受信側コンピューティング・デバイス204Rは、データ受信機モジュール220と、データ・デコーダ・モジュール222と、QoE計量モジュール224とを含む。データ受信機モジュール220は、フォーマットされた状態データをネットワーク102からリアルタイムで受け取り、エージェント206へネットワーク統計を出力する。ネットワーク統計の例は、損失、ジッタ、ネットワーク遅延としても知られているラウンド・トリップ・タイム(RTT)、受信レート、パケット・サイズ、パケット・タイプ、受信タイムスタンプ、送信タイムスタンプ、パケット損失におけるバースト長、パケット損失間のギャップ、又は受信されるオーディオ及びビデオのデータの品質の評価に使用できる任意の他のネットワーク統計を含む。データ・デコーダ・モジュール222は、データ・エンコーダ・モジュール212の逆のことを行い、フォーマットされた状態データから、受信した状態データをリアルタイムで抽出する。
[0027] QoE計量モジュール224は、抽出した状態データに基づいて1以上の経験品質(QoE)計量を決定する。QoE計量は、ディープ・ニューラル・ネットワーク(DNN)や他の適切なモデルなどのようなQoE機械学習モデルにより決定される、受信した状態データについてのユーザの知覚した品質を表す。QoE機械学習モデルは、受信するオーディオ及びビデオのデータ・ストリームのペイロードなどのような様々な受信パラメータを分析するものであり、ペイロードは、実際の意図されたメッセージである受信データの部分である。オーディオ及びビデオのストリームのペイロードの分析は、主観的品質評価(subjective quality assessment)(例えば、人間が品質のレーティングを観察する)の結果を概算する1以上の予め定められた客観的モデル(objective model)の使用を、含むことができる。特定の例では、客観的モデルは、リアルタイム・オーディオ品質を評価するためのモデル(例えば、Perception Evaluation of Audio Quality(PEAQ)モデル、PEMO-Qモデル、Signal-to-Noise Ratio(PSNR)モデル、又は受信したリアルタイムのオーディオ信号を評価可能な任意の他の客観的モデル)のうちの1以上のものを含むことができる。特定の例では、客観的モデルは、リアルタイム・ビデオ品質を評価するためのモデル(例えば、Full Reference(FR)モデル、Reduced Reference(RR)モデル、No-Reference(NR)モデル、Peak Signal-to-Noise Ratio(PSNR)モデル、構造的類似性インデックス(Structural Similarity Index)(SSIM)モデル、又は受信したリアルタイムのビデオ信号を評価可能な任意の他の客観的モデル)のうちの1以上のものを含むことができる。
[0028] 特定の特徴では、QoE機械学習モデルは、更に、上記の1以上のQoE計量を決定するために、受信パラメータとして受信側コンピューティング・デバイス204Rの統計とネットワーク統計とを、分析することができる。ここで述べるように、ネットワーク統計の例は、損失、ジッタ、ネットワーク遅延としても知られているラウンド・トリップ・タイム(RTT)、受信レート、パケット・サイズ、パケット・タイプ、受信タイムスタンプ、送信タイムスタンプ、パケット損失におけるバースト長、パケット損失間のギャップ、又は受信されるオーディオ及びビデオのデータの品質の評価に使用できる任意の他のネットワーク統計を含む。受信側コンピューティング・デバイス204Rの統計の例は、表示サイズ、表示ウィンドゥ・サイズ、デバイス・タイプ、ハードウェア又はソフトウェアのエンコーダ/デコーダが使用されるかなどを含む。特定の構成では、QoE機械学習モデルは、更に、上記の1以上のQoE計量を決定するために、受信パラメータとしてユーザ(例えば、人間)のフィードバックを分析することができる。ユーザのフィードバックは、例えば、個人の経験品質、例えば、受信側コンピューティング・デバイス204Rで受信したオーディオ及びビデオの品質についてユーザが考えていることを示すための、ユーザのレーティングやサーベイを通じて、提供することができる。ユーザの知覚するオーディオ及び/又はビデオの品質を表すものである決定された1以上のQoE計量は、エージェント206へ通信される。
[0029] エージェント206は、状態モジュール230と強化学習モデル232とを含む。特定の特徴では、強化学習モデル232は、任意の適切な機械学習アルゴリズム(学習アルゴリズムであって、これにおいて、行動が行われ、結果が観察され、次の行動は、報酬信号に基づいて最初の行動の結果を考慮する)を組み込むことができる。機械学習アルゴリズムは、例えば、アクター・クリティック(actor-critic)、Q学習(q-learning)、ポリシー・グラジエント(policy gradient)、テンポラル・ディファレンス(temporal difference)、モンテカルロ木探索(monte-carlo tree search)、又は関係するデータに対して適切な任意の他の機械学習アルゴリズムを含むことができる。強化学習モデル232は、送信側コンピューティング・デバイス204Sのデータ送信パラメータをリアルタイムで能動的に制御する。
[0030] 図2Bは、アクター・クリティック強化学習モデル232の例を示し、これは、制御ポリシー234と状態行動価値関数236とを含み、図2Cはアクター・クリティック・アーキテクチャの例を提供する。アクター・クリティック強化学習はテンポラル・ディファレンス学習モデルであり、ここでは、制御ポリシー234は、予想される状態価値関数236から独立しており、これは、ここでのコンテキストでは、将来の報酬の合計の予想値である。制御ポリシー234はアクターを含み、その理由は、それが、行動、例えば、送信側コンピューティング・デバイスのデータ送信パラメータを、選択するために使われるからであり、状態価値関数236はクリティックであり、その理由は、それが、制御ポリシー234によりなされた行動を批評するからである。状態価値関数236は、現在の制御ポリシー234について学習及び批評を行う。
[0031] 制御ポリシー234は、ニューラル・ネットワークなどのようなエージェント206内に第1強化学習モデルを含み、これは、送信側コンピューティング・デバイス204Sにより用いられるデータ送信パラメータの1以上のものへの1以上の変更という形の1以上の出力行動(output action)を、作り出す。出力行動は、状態行動価値関数236により決定された将来の報酬の予想値の最大化に基づいて、オーディオ及びビデオのデータについての予想されるユーザの知覚する品質(QoE)を最適化するように、設計される。送信パラメータの例は、送信レート、レゾリューション、フレーム・レート、量子化パラメータ(QP)へ提供されるオブジェクト・イベント、前方誤り訂正(FEC)、又は送信側コンピューティング・デバイス204Sから受信側コンピューティング・デバイス204Rへの状態データの送信の品質を変更するために使用可能な任意の他の制御可能なパラメータを含む。
[0032] 状態行動価値関数236は、ニューラル・ネットワークなどのようなエージェント206内に第2機械学習モデルを含み、その価値関数は、将来の報酬の合計の予想値を予想又は概算するように訓練される。将来の報酬の合計の予想値は、送信側コンピューティング・デバイスの現在の状態と、現在の行動(例えば、リアルタイムのオーディオ及び/又はビデオのデータを送信するために使用される現在の送信パラメータ)と、受信側コンピューティング・デバイスにより提供される報酬とに基づいて、決定される。制御ポリシーは、予想値の決定に応答して出力行動を調節する。制御ポリシー234は、状態行動価値関数236と共に訓練されることができ、また、既に訓練された状態行動価値関数236に基づいて得ることができる。
[0033] 特定の特徴では、図2B-図2Cのアクター・クリティック強化学習モデル232の訓練中に、エージェント206は、制御ポリシー234の行動を常に追従する必要はない。むしろ、エージェント206は、他の行動(例えば、送信側コンピューティング・デバイス204Sのデータ送信パラメータに対する他の変更)を探索することができ、これは、エージェント206が強化学習モデル232を改善することを可能にする。エージェント206は、1以上の探索戦略、例えば、イプシロン・グリーディー(epsilon-greedy)を通じて、他の行動を探索することができる。
[0034] 特定の特徴では、強化学習モデル232の制御ポリシー234は、その学習環境から分離することができ、クライアント(例えば、送信側コンピューティング・デバイス及び/又は受信側コンピューティング・デバイス)にリアルタイム・モデルとして配置することができる。リアルタイム・モデルへの転移は、ONNX(Open Neural Network Exchange)、tflite(TensorFlow Lite)などのような1以上のモデル・トランスポート・ツールを通じて、達成することができる。
[0035] 図3-図5を参照すると、エージェント206は、シミュレートされた環境300、エミュレートされた環境400、及び実際のネットワーク環境500のうちの1以上のものを用いて訓練することができる。何れの環境を用いるかは、データの収集速度及びデータの種類についての要求に応じたものとなる。図3のシミュレートされた環境300では、送信側コンピューティング・デバイス204Sの全プロセス(データ捕獲モジュール210、データ・エンコーダ・モジュール212、及びデータ送信機モジュール214のプロセスを含む)、受信側コンピューティング・デバイス204Rの全プロセス(データ受信機モジュール220、データ・デコーダ・モジュール222、及びQoE計量モジュール224のプロセスを含む)、及びネットワーク202がシミュレートされる。図4のエミュレートされた環境400では、送信側コンピューティング・デバイス204Sは、エミュレーション送信側プロセス404Sを含む第1エミュレーションで複製され、受信側コンピューティング・デバイス204Rは、エミュレートされた受信側プロセス404Rを含む第2エミュレーションで複製され、ネットワーク202は、ネットワーク・エミュレーション402を含む第3エミュレーションで複製される。特定の特徴では、物理的な送信側コンピューティング・デバイス及び物理的な受信側コンピューティング・デバイスは、エミュレートされたネットワークと関連して用いることができる。図5の実際のネットワーク環境では、物理的な送信側コンピューティング・デバイス204S、物理的な受信側コンピューティング・デバイス204R、及び物理的なネットワーク202が用いられる。
[0036] エージェント206の訓練に何れの環境を用いるかは、データの収集速度及びデータの種類に関する要求に応じたものとなる。例えば、迅速なデータ収集及び訓練のために、ns-2やns-3(これらは離散事象ネットワーク・シミュレータである)などのようなネットワーク・シミュレーション・ツールを、シミュレートされた環境300で用いることができる。制御された環境において実際のコードが実行されることを可能とするように、NetEm(これはLinux(登録商標)トラフィック制御ファシリティの強化であり、遅延、パケット損失、複製、及び選択されたネットワーク・インターフェースからの外向き送信パケットの他の特性の付加を可能とする)などのようなネットワーク・エミュレーション・ツールを、エミュレートされた環境400で用いることができる。この制御された環境は、通信アプリケーション(例えば、Skype、Microsoft(登録商標) Teams、WhatsApp、WeChatなど)が、再生可能なネットワーク条件を持つ環境においてテストされることを可能とする。実際のネットワーク環境500において実際のインターネット・サービス・プロバイダ(ISP)を用いる実際のネットワーク(例えば、セルラ、Wi-Fi(登録商標)、Ethernet(登録商標)など)は、最も実際的なテスト環境を提供し、エンドユーザの経験する条件のオンライン学習を可能とする。特定の特徴では、同じ強化学習ポリシーを、シミュレートされた、又はエミュレートされた、又は実際のネットワーク環境で用いることができるが、各環境は異なる性能を提供するであろう。代替的又は付加的には、エージェント206は、転移学習を用いて訓練することができ、この場合においては、リアルタイムのオーディオ及びビデオのデータのストリーミングに対する新たなアプリケーション要求及び/又はネットワーク挙動と関連して以前に作成されたハンド・コーディングされたルールが、エージェント206を訓練するために用いられる。
[0037] 訓練された後、エージェント206は、リアルタイムのオーディオ及びビデオの通信のために、ライブのネットワーク環境において適用される。ライブのネットワーク内で、強化学習モデル232は、送信側コンピューティング・デバイス、例えば、デバイス204Sから受信側コンピューティング・デバイス204Rへのリアルタイムのオーディオ及びビデオのデータ・ストリームの送信に基づいて、連続的にアップデートされる。特定の特徴では、送信側コンピューティング・デバイス、例えば、デバイス204Sは、リアルタイムのオーディオ及びビデオのデータ送信パラメータを変更するように動作する1つのエージェント206又は複数のエージェント206を含むことができ、各エージェントが、1つのみのデータ送信パラメータ又は複数のデータ送信パラメータを変更する。特定の特徴では、受信側コンピューティング・デバイス、例えば、デバイス204Rは、1つのQoE又は複数のQoEを決定することができる。1又は複数のQoEは、1つのエージェント206又は複数のエージェント206へ提供することができる。
[0038] 従って、劣化したリアルタイムのオーディオ及びビデオの通信を我慢して、ネットワーク条件の変化及び/又はアプリケーション要求の変化に応じるためにハンド・コーディングのみが用いられる環境のように結果的になり得るのではなく、エージェント206と送信側コンピューティング・デバイス204Sとは、エージェント206の連続的でライブのアップデートに基づいて、将来の報酬の合計の予想値の最大化を通じて、リアルタイムのオーディオ及びビデオの通信における予想されるユーザの知覚する品質を連続的に最適化するために、即座に(即ち、リアルタイムで)アップデートされる。
[0039] 図6-図9及び関連する記載は、本開示の特徴を実施でき得る様々な動作環境の検討を提供する。しかし、図6-図9に関して示され検討されるデバイス及びシステムは、例及び図解を目的としており、ここで説明する本開示の特徴を実施するために使用でき得る多数のコンピューティング・デバイスの構成を限定するものではない。
[0040] 図6は、本開示の特徴を実施でき得るコンピューティング・デバイス600の物理的コンポーネント(例えば、ハードウェア)を示すブロック図である。以下で説明するコンピューティング・デバイスのコンポーネントは、コンピューティング・デバイス(例えば、送信側コンピューティング・デバイス204S及び受信側コンピューティング・デバイス204R)でのリアルタイム通信におけるユーザの知覚するQoEを最大化するための強化学習をインプリメントするためのコンピュータ実行可能命令を有することができ、これは、ここで説明する方法をインプリメントするために実行され得る強化学習アプリケーション620のためのコンピュータ実行可能命令を含む。基本的構成では、コンピューティング・デバイス600は、少なくとも1つのプロセッシング・ユニット602とシステム・メモリ604とを含むことができる。コンピューティング・デバイスの構成と型とに応じて、システム・メモリ604は、揮発性ストレージ(例えば、ランダム・アクセス・メモリ)、不揮発性ストレージ(例えば、リード・オンリ・メモリ)、フラッシュ・メモリ、又はこのようなメモリの任意の組み合わせを含むことができるが、これには限定されない。システム・メモリ604は、オペーレーティング・システム605と、図2に関しての1以上のコンポーネントなどのような1以上のプログラム・モジュール606、具体的には、データ捕獲、データ・エンコーダ、及びデータ送信機のモジュール611(例えば、データ捕獲モジュール210、データ・エンコーダ・モジュール212、及びデータ送信機モジュール214)、データ受信機、データ・デコーダ、及びQoE計量のモジュール613(例えば、データ受信機モジュール220、データ・デコーダ・モジュール222、及びQoE計量モジュール224)、及び/又はエージェントのモジュール615(例えば、エージェント206)などを含むことができる。
[0041] オペーレーティング・システム605は、例えば、コンピューティング・デバイス600の動作の制御に適切なものとすることができる。更に、本開示の実施形態は、グラフィックス・ライブラリ、他のオペーレーティング・システム、又は任意の他のアプリケーション・プログラムと関連して実施することができ、何れかの特定のアプリケーションやシステムに限定されない。この基本的構成は、図6に、破線608内のコンポーネントにより示されている。コンピューティング・デバイス600は追加の特徴や機能を有することができる。例えば、コンピューティング・デバイス600は、例えば、磁気ディスク、光ディスク、又はテープなどのような追加のデータ・ストレージ・デバイス(取り外し可能及び/又は取り外し不可能)も含むことができる。そのような追加のストレージは、図6に、取り外し可能ストレージ609及び取り外し不可能ストレージ610により示されている。任意の数のプログラム・モジュール及びデータ・ファイルをシステム・メモリ604に格納することができる。プロセッシング・ユニット602で実行中に、プログラム・モジュール606(例えば、強化学習アプリケーション620)は、ここで説明した特徴を含むプロセスを行うことができるが、プロセスはこれに限定されない。
[0042] 更に、本開示の実施形態は、個別の電子エレメントを含む電気回路、ロジック・ゲートを含むパッケージされた又は集積された電子チップ、マイクロプロセッサを用いる回路、又は電子エレメント又はマイクロプロセッサを含む1つのチップで、実施することができる。例えば、本開示の実施形態は、図6に示すそれぞれの又は多くのコンポーネントが1つの集積回路に集積されているシステムオンチップ(SOC)を介して、実施することができる。そのようなSOCデバイスは、1以上のプロセッシング・ユニット、グラフィックス・ユニット、通信ユニット、システム仮想化ユニット、及び様々なアプリケーション機能を含むことができ、これらの全てが、1つの集積回路としてチップ基板に集積される(又は「埋め込まれる」)。SOCを介して動作を行うとき、プロトコルを切りかえるためのクライアントの能力に関してのここで説明した機能は、1つの集積回路(チップ)上のコンピューティング・デバイス600の他のコンポーネントと一体化された特定用途向けロジックを介して、操作され得る。本開示の実施形態はまた、例えば、AND、OR、NOTなどのような論理演算を行うことが可能な他の技術を用いて、実施することができ、その技術は機械、光学、流体、及び量子の技術を含むが、これらには限定されない。更に、本開示の実施形態は、汎用コンピュータ内で、又は任意の他の回路やシステムで、実施することができる。
[0043] コンピューティング・デバイス600はまた、キーボード、マウス、ペン、音又は声の入力デバイス、タッチ又はスワイプされる入力デバイスなどのような、1以上の入力デバイス(1以上)612を有することができる。ディスプレイ、スピーカ、プリンタ、などのような出力デバイス(1以上)614も含むことができる。上述のデバイスは例であり、他のものも用いることができる。コンピューティング・デバイス600は、他のコンピューティング・デバイス650との通信を可能とする1以上の通信接続616を含むことができる。適切な通信接続616の例は、無線周波数(RF)の送信機、受信機、及び/又は送受信機の回路、ユニバーサル・シリアル・バス(USB)、パラレル・ポート及び/又はシリアル・ポートを含むが、これらには限定されない。
[0044] ここで用いられるコンピュータ読み取り可能媒体という用語は、コンピュータ・ストレージ媒体を含み得る。コンピュータ・ストレージ媒体は、コンピュータ読み取り可能命令やデータ構造やプログラム・モジュールなどのような情報の格納のために任意の方法や技術でインプリメントされる揮発性及び不揮発性、取り外し可能及び取り外し不可能の媒体を含むことができる。システム・メモリ604、取り外し可能ストレージ609、及び取り外し不可能ストレージ610は、全て、コンピュータ・ストレージ媒体の例(例えば、メモリ・ストレージ)である。コンピュータ・ストレージ媒体は、RAM、ROM、電気的消去可能なリード・オンリ・メモリ(EEPROM)、フラッシュ・メモリ、又は他のメモリ技術、CD-ROM、デジタル・バーサタイル・ディスク(DVD)、又は他の光ストレージ、磁気カセット、磁気テープ、磁気ディスク、又は他の磁気ストレージ・デバイス、又は情報の格納に使用できコンピューティング・デバイス600によりアクセスできる任意の他の製造物を、含むことができる。このようなコンピュータ・ストレージ媒体の何れのものも、コンピューティング・デバイス600の一部とすることができる。コンピュータ・ストレージ媒体は、搬送波や他の伝播される又は変調されたデータ信号を含まない。
[0045] 通信媒体は、コンピュータ読み取り可能命令、データ構造、プログラム・モジュール、又は搬送波や他の移送機構などのような変調されたデータ信号における他のデータにより具体化することができ、任意の情報搬送媒体を含む。「変調されたデータ信号」という用語は、信号内の情報をエンコードするような形で設定又は変更される1以上の特徴を有する信号を、説明し得るものである。限定ではなく例として、通信媒体は、有線ネットワーク及び直接有線接続などのようなワイヤードの媒体や、音響、無線周波数(RF)、赤外線、及び他の無線媒体などのようなワイヤレスの媒体を、含むことができる。
[0046] 図7A及び図7Bは、本開示の実施形態を実施することができるモバイル・コンピューティング・デバイス700を示し、その例は、モバイル電話、スマート・フォン、ウェアラブル・コンピュータ(スマート・ウォッチなど)、タブレット・コンピュータ、ラップトップ・コンピュータなどである。幾つかの特徴では、クライアントをモバイル・コンピューティング・デバイスとすることができる。図7Aを参照すると、上記の特徴を実施するためのモバイル・コンピューティング・デバイス700の1つの特徴が示されている。基本的構成では、モバイル・コンピューティング・デバイス700は、入力エレメントと出力エレメントとの双方を有する手持ち型コンピュータである。モバイル・コンピューティング・デバイス700は、典型的には、ディスプレイ705と、ユーザが情報をモバイル・コンピューティング・デバイス700へ入力することを可能にする1以上の入力ボタン710とを含む。モバイル・コンピューティング・デバイス700のディスプレイ705はまた、入力デバイス(例えば、タッチ・スクリーン・ディスプレイ)としての機能も有し得る。オプションの横側入力エレメント715が含まれる場合、更なるユーザ入力が可能となる。横側入力エレメント715は、ロータリー・スイッチ、ボタン、又は任意の他の型の手動入力エレメントとすることができる。代替的な特徴では、モバイル・コンピューティング・デバイス700には、より多くの又はより少ない入力エレメントを組み込むことができる。例えば、幾つかの実施形態では、ディスプレイ705を、タッチ・スクリーンではないようにすることができる。更に別の代替的な実施形態では、モバイル・コンピューティング・デバイス700を、セルラ・フォンなどのようなポータブル・フォン・システムとすることができる。モバイル・コンピューティング・デバイス700はまた、オプションのキーパッド735を含むことができる。オプションのキーパッド735は、物理的キーパッド又はタッチ・スクリーン・ディスプレイに作り出される「ソフト」キーパッドとすることができる。様々な実施形態では、出力エレメントは、グラフィカル・ユーザ・インターフェース(GUI)を表示するためのディスプレイ705、視覚的インジケータ720(例えば、発光ダイオード)、及び/又はオーディオ・トランスジューサ725(例えば、スピーカ)を含む。幾つかの特徴では、モバイル・コンピューティング・デバイス700には、ユーザへ触感フィードバックを提供するための振動トランスジューサを組み込んでいる。更に別の特徴では、モバイル・コンピューティング・デバイス700には、オーディオ入力(例えば、マイクロフォン・ジャック)、オーディオ出力(例えば、ヘッドフォン・ジャック)、及びビデオ出力(例えば、HDMI(登録商標)ポート)などのような、外部デバイスへ信号を送信するためや、外部デバイスから信号を受信するための入力用及び/又は出力用のポートを組み込んでいる。
[0047] 図7Bは、モバイル・コンピューティング・デバイスの1つの特徴のアーキテクチャを示すブロック図である。即ち、モバイル・コンピューティング・デバイス700には、幾つかの特徴を実施するためのシステム(例えば、アーキテクチャ)702を組み込むことができる。1つの実施形態では、システム702は、1以上のアプリケーション(例えば、ブラウザ、eメール、カレンダリング、連絡先管理、メッセージング・クライアント、ゲーム、及びメディア・クライアント/プレーヤ)を実行できる「スマート・フォン」としてインプリメントされる。幾つかの特徴では、システム702は、パーソナル・デジタル・アシスタント(PDA)とワイヤレス・フォンとが一体化されたものなどのように、コンピューティング・デバイスとして一体化される。
[0048] 1以上のアプリケーション・プログラム766をメモリ762へロードすることができ、オペーレーティング・システム764で又はそれと関連して実行することができる。アプリケーション・プログラムの例は、フォーン・ダイアラー(phone dialer)・プログラム、eメール・プログラム、個人情報管理(PIM)プログラム、ワード・プロセッシング・プログラム、スプレッドシート・プログラム、インターネット・ブラウザ・プログラム、メッセージング・プログラムなどを含む。システム702はまた、メモリ762内に不揮発性ストレージ・エリア768を含む。不揮発性ストレージ・エリア768は、システム702がパワー・ダウンしたとしても失うべきではない永続的情報を格納するために、用いることができる。アプリケーション・プログラム766は、eメール・アプリケーションにより使用されるeメールや他のメッセージなどのような、不揮発性ストレージ・エリア768内の情報を使用すること、及びそこへ情報を格納することができる。また、同期アプリケーション(示さず)もシステム702に存在し、ホスト・コンピュータに存在する対応する同期アプリケーションと対話するようにプログラムされて、不揮発性ストレージ・エリア768に格納された情報とホスト・コンピュータに格納された対応する情報との同期を維持するようにする。理解されるべきであるが、他のアプリケーションをメモリ762へロードしてモバイル・コンピューティング・デバイス700で実行することができ、これは、ここで説明したコンセンサス決定アプリケーション(例えば、メッセージ・パーサー、サジェスチョン・インタープリター、オピニオン・インタープリター、及び/又はコンセンサス・プレゼンターなど)を提供するための命令を含む。
[0049] システム702は電源770を有し、これは1以上のバッテリとしてインプリメントできる。電源770は、更に、バッテリに対しての補充又は再充電を行うACアダプタや電動ドッキング・クレードルなどのような外部電源を、含むことができる。
[0050] システム702はまた、無線インターフェース層772を含むことができ、これは、無線周波数通信の送信及び受信の機能を実行する。無線インターフェース層772は、通信キャリア又はサービス・プロバイダを介しての、システム702と「外界」との間でのワイヤレス・コネクティビティを容易なものとする。無線インターフェース層772への及びこの層からの送信は、オペーレーティング・システム764の制御の下で行われる。換言すると、無線インターフェース層772により受信される通信は、オペーレーティング・システム764を介してアプリケーション・プログラム766へ伝播させることができ、この逆も可能である。
[0051] 視覚的インジケータ720は、視覚的通知を提供するために用いることができ、そして/また、オーディオ・インターフェース774は、オーディオ・トランスジューサ725(例えば、図7Aに示すオーディオ・トランスジューサ725)を介して可聴の通知を生成するために用いることができる。例示の実施形態では、視覚的インジケータ720は発光ダイオード(LED)であり、オーディオ・トランスジューサ725はスピーカとすることができる。これらのデバイスは電源770へ直接に接続することができ、それにより、それらは、作動させられると、たとえプロセッサ760及び他のコンポーネントがバッテリ電力を浪費しないようにシャット・ダウンされたとしても、通知機構により指令された期間だけオンを維持する。LEDは、ユーザがデバイスのパワー・オン・ステータスを示すための動作を行うまで無期限にオンを維持するように、プログラムすることができる。オーディオ・インターフェース774は、ユーザへ可聴信号を提供するため、及びユーザから可聴信号を受け取るために用いられる。例えば、オーディオ・インターフェース774は、オーディオ・トランスジューサ725へ結合されていることに加えて、電話での会話を容易にするなどのために、可聴入力を受け取るためのマイクロフォンへも結合されることができる。本開示の実施形態に従うと、マイクロフォンはまた、後に説明する通知の制御を容易にするためのオーディオ・センサとして働く。システム702は、更に、ビデオ・インターフェース776を含むことができ、これは、静止イメージ、ビデオ・ストリームなどを記録するための周辺デバイス730(例えば、オンボードのカメラ)の動作を可能にする。オーディオ・インターフェース774、ビデオ・インターフェース776、及びキーボード735は、ここでの説明のように1以上のメッセージを生成するように動作させることができる。
[0052] システム702をインプリメントするモバイル・コンピューティング・デバイス700は、追加の特徴や機能を有することができる。例えば、モバイル・コンピューティング・デバイス700はまた、磁気ディスクや光ディスクやテープなどのような、追加のデータ・ストレージ・デバイス(取り外し可能及び/又は取り外し不可能)を含むことができる。そのような追加のデータ・ストレージは、図7Bに、不揮発性ストレージ・エリア768として示されている。
[0053] モバイル・コンピューティング・デバイス700により生成又は捕獲されシステム702を介して格納されたデータ/情報は、先に説明したようにモバイル・コンピューティング・デバイス700にローカルに格納することができ、また、データは、任意の数のデータ・ストレージ媒体に格納することができ、データ・ストレージ媒体は、モバイル・コンピューティング・デバイス700と、モバイル・コンピューティング・デバイス700と関連する別個のコンピューティング・デバイス、例えば、インターネットなどのような分散型コンピューティング・ネットワークにおけるサーバ・コンピュータとの間で、無線インターフェース層772を介して又は有線接続を介して、デバイスによりアクセスすることができる。理解されるべきであるが、そのようなデータ/情報は、モバイル・コンピューティング・デバイス700を介して、無線インターフェース層772を介して、又は分散型コンピューティング・ネットワークを介して、アクセスすることができる。同様に、そのようなデータ/情報は、電子メール及び共同的データ/情報共有システムを含む既知のデータ/情報の転送及び格納の手段にしたがって、格納及び使用するためにコンピューティング・デバイス間で容易に転送することができる。
[0054] 理解されるべきであるが、図7A及び図7Bは、本方法及び本システムの例示を目的として説明されており、本開示を特定のステップの順序や特定のハードウェア・コンポーネントやソフトウェア・コンポーネントの組み合わせに限定することを意図していない。
[0055] 図8は、先に説明したような汎用コンピューティング・デバイス804(例えば、パーソナル・コンピュータ)、タブレット・コンピューティング・デバイス806、又はモバイル・コンピューティング・デバイス808などのようなリモート・ソースからコンピューティング・システムで受信したデータを処理するためのシステムのアーキテクチャの1つの特徴を示す。サーバ・デバイス802で表示されるコンテンツは、様々な通信チャンネル又は他のストレージ型で格納することができる。例えば、様々なメッセージは、ディレクトリ・サービス822、ウェブ・ポータル824、メイルボックス・サービス826、インスタント・メッセージング記憶装置828、又はソーシャル・ネットワーキング・サービス830を用いて受信及び/又は格納することができる。強化学習アプリケーション821を、サーバ・デバイス802と通信するクライアントにより用いることができ、かつ/又は強化学習アプリケーション820を、サーバ・デバイス802により用いることができる。サーバ・デバイス802は、データを、ネットワーク815を通して、汎用コンピューティング・デバイス804、タブレット・コンピューティング・デバイス806、及び/又はモバイル・コンピューティング・デバイス808(例えば、スマート・フォン)などのようなクライアント・コンピューティング・デバイスへ及びクライアント・コンピューティング・デバイスから提供することができる。例として、上述のコンピュータ・システムは、汎用コンピューティング・デバイス804(例えば、パーソナル・コンピュータ)、タブレット・コンピューティング・デバイス806、及び/又はモバイル・コンピューティング・デバイス808(例えば、スマート・フォン)で具体化することができる。コンピューティング・デバイスのこれらの実施形態の何れも、グラフィック作成システム(graphic-originating system)で前処理されるように又は受信側コンピューティング・システムで後処理されるように使用可能なグラフィカル・データを受け取ることに加えて、記憶装置816からコンテンツを得ることができる。
[0056] 理解されるべきであるが、図8は、本方法及び本システムの例示を目的として説明されており、本開示を特定のステップの順序や特定のハードウェア・コンポーネントやソフトウェア・コンポーネントの組み合わせに限定することを意図していない。
[0057] 図9は、ここで開示した1以上の特徴を実行することができる、例としてのタブレット・コンピューティング・デバイス900を示す。更に、ここで説明した機能の特徴は分散型システム(例えば、クラウド・ベースのコンピューティング・システム)上で動作させることができ、そこでは、アプリケーション機能、メモリ、データの格納及び取り出し、及び様々な処理機能は、インターネットやイントラネットなどのような分散型コンピューティング・ネットワーク上で互いにリモートで動作させることができる。ユーザ・インターフェース及び様々なタイプの情報は、オンボードのコンピューティング・デバイス・ディスプレイを介して、又は1以上のコンピューティング・デバイスと関連するリモート・ディスプレイ・ユニットを介して、表示することができる。例えば、ユーザ・インターフェース及び様々なタイプの情報は、ユーザ・インターフェース及び様々なタイプの情報が投影される壁面で、表示すること及びそれと対話することができる。本発明の実施形態を実施することができる多数のコンピューティング・システムとの対話は、キーストローク入力、タッチ・スクリーン入力、音声又は他のオーディオ入力、関連するコンピューティング・デバイスが該コンピューティング・デバイスの機能を制御するためのユーザのジェスチャを捉えて解釈する検出(例えば、カメラ)機能を備える場合にはジェスチャ入力などを含む。
[0058] 理解されるべきであるが、図9は、本方法及び本システムの例示を目的として説明されており、本開示を特定のステップの順序や特定のハードウェア・コンポーネントやソフトウェア・コンポーネントの組み合わせに限定することを意図していない。
[0059] この出願で提供した1以上の特徴の説明及び図解は、特許請求される本開示の範囲を何れかの形で限定又は制限することを意図していない。この出願で提供した特徴、例、及び詳細は、占有を伝えるため、及び特許請求された開示の最良の形態を他者が作成し使用することを可能とするために、十分であると考えられる。特許請求された開示は、この出願で提供された何れかの特徴、例、又は詳細に限定されていると解釈すべきではない。組み合わせで示され説明されているか又は個別に示され説明されているかにかかわらず、様々な特徴(構造的なものと方法的なものとの双方)は、特定の特徴の組を用いて実施形態を作り出すために、選択的に含まれる又は省かれることが意図されている。当業者は、本出願の説明及び図解が提供されたので、特許請求された開示の広い範囲から離れないこの出願で具体化される一般的発明概念の広い特徴の精神内にある変形、変更、及び代替の特徴を把握することができる。

Claims (22)

  1. 送信側コンピューティング・デバイスと受信側コンピューティング・デバイスとの間でのリアルタイム通信においての予想されるユーザの知覚する経験品質(QoE)を最適化する方法であって、
    前記送信側コンピューティング・デバイスのエージェントが、前記送信側コンピューティング・デバイスの現在の状態を、前記送信側コンピューティング・デバイスの現在の状態のデータと、前記受信側コンピューティング・デバイスから受信したネットワーク統計とに基づき決定するステップであって、前記ネットワーク統計は、前記受信側コンピューティング・デバイスにおいて受信したリアルタイム通信の品質を示す、ステップと、
    前記エージェントが、前記送信側コンピューティング・デバイスの、複数の送信パラメータを含む現在の行動を決定するステップと、
    前記エージェントが、前記送信パラメータを前記送信側コンピューティング・デバイスに提供するステップと、
    前記送信パラメータに従って、前記送信側コンピューティング・デバイスから前記受信側コンピューティング・デバイスへ、リアルタイム・オーディオ通信とリアルタイム・ビデオ通信とのうちの1以上を含むリアルタイム通信を送信するステップと、
    前記エージェントが、前記受信側コンピューティング・デバイスから該受信側コンピューティング・デバイスにより決定された報酬及び第2のネットワーク統計を受け取るステップであって、前記報酬は、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信と関連する1以上の受信パラメータに基づく、ステップと、
    前記エージェントが、前記現在の状態と、前記現在の行動と、前記第2のネットワーク統計と、前記報酬とに基づいて、将来の報酬の合計の予想値を決定するステップと、
    前記エージェントが、将来の報酬の前記合計の前記予想値を最大化するように、前記送信側コンピューティング・デバイスの前記複数の送信パラメータのうちの少なくとも1つを変更するステップと
    を含む方法。
  2. 請求項1に記載の方法であって、強化学習モデルの状態行動価値関数が将来の報酬の前記合計の前記予想値を決定する、方法。
  3. 請求項2に記載の方法であって、前記状態行動価値関数の出力を前記強化学習モデルの制御ポリシー学習モデルへ提供するステップと、前記制御ポリシー学習モデルが、前記状態行動価値関数の前記出力に基づいて前記複数の送信パラメータのうちの前記少なくとも1つを変更するステップとを更に含む方法。
  4. 請求項1に記載の方法であって、前記報酬は、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信と関連する前記1以上の受信パラメータに基づくユーザの知覚する経験品質(QoE)計量を含む、方法。
  5. 請求項4に記載の方法であって、QoE機械学習モデルを用いて前記ユーザの知覚するQoEを決定するステップを更に含み、前記QoE機械学習モデルは、前記受信側コンピューティング・デバイスでのネットワーク統計と、受信側コンピューティング・デバイス統計と、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信のユーザ・フィードバックとの評価を行う、方法。
  6. 請求項4又は5に記載の方法であって、QoE機械学習モデルを用いて前記ユーザの知覚するQoEを決定するステップを更に含み、前記QoE機械学習モデルは、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信のペイロードを評価する、方法。
  7. 請求項1から6のうちの何れか一項に記載に方法であって、前記複数の送信パラメータのうちの前記少なくとも1つは、送信レート・パラメータ、レゾリューション・パラメータ、フレーム・レート・パラメータ、量子化パラメータ(QP)、又は、前方誤り訂正(FEC)パラメータを含む、方法。
  8. 請求項1から7のうちの何れか一項に記載の方法であって、双方向リアルタイム通信のために、前記送信側コンピューティング・デバイスは更に受信側コンピューティング・デバイスとして動作し、前記受信側コンピューティング・デバイスは更に送信側コンピューティング・デバイスとして動作する、方法。
  9. リアルタイム通信においての予想されるユーザの知覚する経験品質(QoE)を最適化するための強化学習モデルを訓練する方法であって、
    送信側コンピューティング・デバイスのエージェントが、前記送信側コンピューティング・デバイスの現在の状態を、前記送信側コンピューティング・デバイスの現在の状態のデータと、受信側コンピューティング・デバイスから受信したネットワーク統計とに基づき決定するステップであって、前記ネットワーク統計は、前記受信側コンピューティング・デバイスにおいて受信したリアルタイム通信の品質を示す、ステップと、
    前記エージェントが、前記送信側コンピューティング・デバイスの、複数の送信パラメータを含む現在の行動を決定するステップと、
    前記エージェントが、前記送信パラメータを前記送信側コンピューティング・デバイスに提供するステップと、
    前記送信パラメータに従って、前記送信側コンピューティング・デバイスから前記受信側コンピューティング・デバイスへ、リアルタイム・オーディオ通信とリアルタイム・ビデオ通信とのうちの1以上を含むリアルタイム通信を送信するステップと、
    前記エージェントにおいて、前記受信側コンピューティング・デバイスから該受信側コンピューティング・デバイスにより決定された報酬及び第2のネットワーク統計を受け取るステップであって、前記報酬は、前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信と関連する1以上の受信パラメータに基づく、ステップと、
    前記エージェントが、前記現在の状態と、前記現在の行動と、前記第2のネットワーク統計と、前記報酬とに基づいて、将来の報酬の合計の予想値を決定するステップと、
    前記エージェントが、将来の報酬の前記合計の前記予想値を最大化するように、前記複数の送信パラメータのうちの少なくとも1つを変更するステップと
    を含む方法。
  10. 請求項9に記載の方法であって、
    強化学習モデルの状態行動価値関数が将来の報酬の前記合計の前記予想値を決定し、
    前記方法は、前記状態行動価値関数の出力を前記強化学習モデルの制御ポリシー学習モデルへ提供するステップと、前記制御ポリシー学習モデルが、前記状態行動価値関数の前記出力に基づいて前記複数の送信パラメータのうちの前記少なくとも1つを変更するステップとを更に含む、
    方法。
  11. 請求項9に記載の方法であって、
    前記報酬は、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信と関連する前記1以上の受信パラメータに基づくユーザの知覚する経験品質(QoE)計量を含み、
    前記方法は、QoE機械学習モデルを用いて前記ユーザの知覚するQoEを決定するステップを更に含み、前記QoE機械学習モデルは、前記受信側コンピューティング・デバイスでのネットワーク統計と、受信側コンピューティング・デバイス統計と、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信のユーザ・フィードバックとの評価を行う、
    方法。
  12. 請求項9から11のうちの何れか一項に記載の方法であって、前記送信側コンピューティング・デバイスと、受信側コンピューティング・デバイスと、ネットワークとはシミュレートされる、方法。
  13. 請求項12に記載の方法であって、前記送信側コンピューティング・デバイスと、受信側コンピューティング・デバイスと、ネットワークとは、離散事象を用いてシミュレートされる、方法。
  14. 請求項9から13のうちの何れか一項に記載に方法であって、前記送信側コンピューティング・デバイスと前記受信側コンピューティング・デバイスとのそれぞれは通信アプリケーションを実行し、前記ネットワークの1以上の条件は1以上の所定のパラメータに従って制御される、方法。
  15. 請求項9から11のうちの何れか一項に記載の方法であって、前記ネットワークはライブの実際のネットワークを含む、方法。
  16. 請求項15に記載に方法であって、前記送信側コンピューティング・デバイスと、受信側コンピューティング・デバイスと、ネットワークとはライブの環境にあり、ライブのリアルタイム通信の送信に基づいて前記エージェントを連続的に訓練するステップを更に含む方法。
  17. リアルタイム通信においての予想されるユーザの知覚する経験品質(QoE)を最適化するためのシステムであって、
    実行可能命令を記憶したメモリと、
    前記実行可能命令を実行するプロセッサと
    を含み、前記実行可能命令は、実行されると、前記プロセッサに、
    送信側コンピューティング・デバイスのエージェントが、前記送信側コンピューティング・デバイスの現在の状態を、前記送信側コンピューティング・デバイスの現在の状態のデータと、受信側コンピューティング・デバイスから受信したネットワーク統計とに基づき決定するステップであって、前記ネットワーク統計は、前記受信側コンピューティング・デバイスにおいて受信したリアルタイム通信の品質を示す、ステップと、
    前記エージェントが、前記送信側コンピューティング・デバイスの、複数の送信パラメータを含む現在の行動を決定するステップと、
    前記エージェントが、前記送信パラメータを前記送信側コンピューティング・デバイスに提供するステップと、
    前記送信パラメータに従って、前記送信側コンピューティング・デバイスから受信側コンピューティング・デバイスへ、リアルタイム・オーディオ通信とリアルタイム・ビデオ通信とのうちの1以上を含むリアルタイム通信を送信するステップと、
    前記エージェントが、前記受信側コンピューティング・デバイスから該受信側コンピューティング・デバイスにより決定された報酬及び第2のネットワーク統計を受け取るステップであって、前記報酬は、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信と関連する1以上の受信パラメータに基づく、ステップと、
    前記エージェントが、前記現在の状態と、前記第2のネットワーク統計と、前記現在の行動と、前記報酬とに基づいて、将来の報酬の合計の予想値を決定するステップと、
    前記エージェントが、将来の報酬の前記合計の前記予想値を最大化するように、前記送信側コンピューティング・デバイスの前記複数の送信パラメータのうちの少なくとも1つを変更するステップと
    を実行させる、システム。
  18. 請求項17に記載のシステムであって、
    前記実行可能命令は、前記プロセッサに、強化学習モデルの状態行動価値関数を用いて将来の報酬の前記合計の前記予想値を決定することを更に実行させ、
    前記実行可能命令は、前記プロセッサに、前記状態行動価値関数の出力を前記強化学習モデルの制御ポリシー学習モデルへ提供するステップと、前記制御ポリシー学習モデルが、前記状態行動価値関数の前記出力に基づいて前記複数の送信パラメータのうちの前記少なくとも1つを変更するステップとを更に実行させる、
    システム。
  19. 請求項17に記載のシステムであって、
    前記報酬は、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信と関連する前記1以上の受信パラメータに基づくユーザの知覚する経験品質(QoE)計量を含み、
    前記実行可能命令は、前記プロセッサに、QoE機械学習モデルを用いて前記ユーザの知覚するQoEを決定するステップを更に実行させ、前記QoE機械学習モデルは、前記受信側コンピューティング・デバイスでのネットワーク統計と、受信側コンピューティング・デバイス統計と、送信されて前記受信側コンピューティング・デバイスで受信された前記リアルタイム通信のユーザ・フィードバックとの評価を行う、
    システム。
  20. 請求項17から19のうちの何れか一項に記載のシステムであって、前記実行可能命令は、前記プロセッサに、更に、双方向リアルタイム通信のために、前記送信側コンピューティング・デバイスを受信側コンピューティング・デバイスとして動作させる、システム。
  21. 請求項17から20のうちの何れか一項に記載にシステムであって、前記複数の送信パラメータのうちの前記少なくとも1つは、送信レート・パラメータ、レゾリューション・パラメータ、フレーム・レート・パラメータ、量子化パラメータ(QP)、又は、前方誤り訂正(FEC)パラメータを含む、システム。
  22. 請求項18に記載のシステムであって、前記強化学習モデルは、アクター・クリティック(actor-critic)モデル、Q学習(q-learning)モデル、ポリシー・グラジエント(policy gradient)モデル、テンポラル・ディファレンス(temporal difference)モデル、又は、モンテカルロ木探索(monte-carlo tree search)モデルを含む、システム。
JP2022500820A 2019-07-10 2020-06-08 リアルタイム通信における強化学習 Active JP7635196B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/507,933 2019-07-10
US16/507,933 US11373108B2 (en) 2019-07-10 2019-07-10 Reinforcement learning in real-time communications
PCT/US2020/036541 WO2021006972A1 (en) 2019-07-10 2020-06-08 Reinforcement learning in real-time communications

Publications (3)

Publication Number Publication Date
JP2022540137A JP2022540137A (ja) 2022-09-14
JP2022540137A5 JP2022540137A5 (ja) 2023-06-14
JP7635196B2 true JP7635196B2 (ja) 2025-02-25

Family

ID=71620506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022500820A Active JP7635196B2 (ja) 2019-07-10 2020-06-08 リアルタイム通信における強化学習

Country Status (6)

Country Link
US (2) US11373108B2 (ja)
EP (1) EP3997853A1 (ja)
JP (1) JP7635196B2 (ja)
KR (1) KR102821070B1 (ja)
CN (2) CN120075207A (ja)
WO (1) WO2021006972A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020062911A1 (en) * 2018-09-26 2020-04-02 Huawei Technologies Co., Ltd. Actor ensemble for continuous control
US11558275B2 (en) * 2020-02-13 2023-01-17 Microsoft Technology Licensing, Llc Reinforcement learning for jitter buffer control
AU2021252927A1 (en) * 2020-04-07 2022-11-10 Assia Spe, Llc Systems and methods for remote collaboration
CN115868161B (zh) * 2020-06-30 2026-01-13 微软技术许可有限责任公司 基于强化学习的速率控制
CN114912041B (zh) * 2021-01-29 2026-01-30 伊姆西Ip控股有限责任公司 信息处理方法、电子设备和计算机程序产品
US12192820B2 (en) * 2021-03-22 2025-01-07 Intel Corporation Reinforcement learning for multi-access traffic management
US12149708B2 (en) * 2021-08-16 2024-11-19 Nvidia Corporation Machine learning of encoding parameters for a network using a video encoder
CN116170375A (zh) 2021-11-25 2023-05-26 华为技术有限公司 一种参数调整方法和装置
EP4258730B1 (en) * 2022-04-05 2026-01-14 Mavenir Systems, Inc. Method for programmable and customized intelligence for traffic steering in 5g networks using open ran architectures
CN115412437B (zh) * 2022-08-17 2024-11-12 Oppo广东移动通信有限公司 数据处理方法及装置、设备、存储介质
US20240403649A1 (en) * 2022-11-29 2024-12-05 Sri International Modularized architecture optimization for semi-supervised incremental learning
US12549730B2 (en) 2023-09-22 2026-02-10 Nvidia Corporation Adaptive quantization for video pipelines in automotive systems and applications

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003244695A (ja) 2002-02-14 2003-08-29 Kddi Corp 映像情報伝送方式、それに用いられる装置およびプログラム
JP2007081623A (ja) 2005-09-13 2007-03-29 Matsushita Electric Ind Co Ltd 音声動画通信システム及びデータ通信端末装置
JP2007519341A (ja) 2004-01-09 2007-07-12 シスコ テクノロジー インコーポレイテッド 無線ローカルエリアネットワーク(wlan)をシミュレートし管理するシステム及び方法
JP2010016662A (ja) 2008-07-04 2010-01-21 Kddi Corp メディアストリームの階層数を制御する送信装置、方法及びプログラム
JP2010288277A (ja) 2009-06-12 2010-12-24 Ntt Docomo Inc ユーザ体感品質の測定に基づく符号化方法、端末およびシステム
JP2013106202A (ja) 2011-11-14 2013-05-30 Fujitsu Ltd パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法
WO2018222435A1 (en) 2017-05-31 2018-12-06 Netflix, Inc. Temporal placement of a rebuffering event
WO2019059134A1 (ja) 2017-09-22 2019-03-28 株式会社Nttドコモ 通信品質調整システム
WO2019082861A1 (ja) 2017-10-25 2019-05-02 日本電気株式会社 送信装置、受信装置および映像配信方法

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7400588B2 (en) 2003-08-01 2008-07-15 Thomson Licensing Dynamic rate adaptation using neural networks for transmitting video data
EP2371085A1 (en) * 2008-12-17 2011-10-05 Telefonaktiebolaget L M Ericsson (PUBL) Monitoring media services in telecommunications networks
US9538220B2 (en) * 2009-06-12 2017-01-03 Wi-Lan Labs, Inc. Video streaming quality of experience degradation control using a video quality metric
US8792347B2 (en) * 2012-06-01 2014-07-29 Opera Software Ireland Limited Real-time network monitoring and subscriber identification with an on-demand appliance
EP2747357B1 (en) 2012-12-21 2018-02-07 Alcatel Lucent Robust content-based solution for dynamically optimizing multi-user wireless multimedia transmission
US11153333B1 (en) * 2018-03-07 2021-10-19 Amdocs Development Limited System, method, and computer program for mitigating an attack on a network by effecting false alarms
US10445653B1 (en) * 2014-08-07 2019-10-15 Deepmind Technologies Limited Evaluating reinforcement learning policies
US10465931B2 (en) 2015-01-30 2019-11-05 Schneider Electric It Corporation Automated control and parallel learning HVAC apparatuses, methods and systems
US10530826B2 (en) * 2015-08-27 2020-01-07 Cavium, Llc Method and apparatus for providing a low latency transmission system using adjustable buffers
CN107851216B (zh) * 2015-09-11 2022-03-08 谷歌有限责任公司 一种用于选择待由与环境进行交互的强化学习代理执行的动作的方法
US20180082213A1 (en) * 2016-09-18 2018-03-22 Newvoicemedia, Ltd. System and method for optimizing communication operations using reinforcement learning
US11062207B2 (en) 2016-11-04 2021-07-13 Raytheon Technologies Corporation Control systems using deep reinforcement learning
US20180165602A1 (en) 2016-12-14 2018-06-14 Microsoft Technology Licensing, Llc Scalability of reinforcement learning by separation of concerns
US10559215B2 (en) * 2017-04-26 2020-02-11 International Business Machines Corporation Education reward system and method
US11088947B2 (en) * 2017-05-04 2021-08-10 Liveu Ltd Device, system, and method of pre-processing and data delivery for multi-link communications and for media content
US10234848B2 (en) 2017-05-24 2019-03-19 Relativity Space, Inc. Real-time adaptive control of additive manufacturing processes using machine learning
US20180374138A1 (en) * 2017-06-23 2018-12-27 Vufind Inc. Leveraging delayed and partial reward in deep reinforcement learning artificial intelligence systems to provide purchase recommendations
EP3480741B1 (en) * 2017-10-27 2024-07-17 DeepMind Technologies Limited Reinforcement and imitation learning for a task
KR102061345B1 (ko) * 2017-12-18 2019-12-31 경희대학교 산학협력단 강화 학습 기반 암호화 및 복호화 수행 방법 및 이를 수행하는 클라이언트, 서버 시스템
CN108737382B (zh) 2018-04-23 2020-10-09 浙江工业大学 基于Q-Learning的SVC编码HTTP流媒体自适应方法
US20210081753A1 (en) * 2018-05-18 2021-03-18 Google Llc Reinforcement learning in combinatorial action spaces
CN108924935A (zh) * 2018-07-06 2018-11-30 西北工业大学 一种基于强化学习算法功率域的noma中的功率分配方法
CN109255443A (zh) * 2018-08-07 2019-01-22 阿里巴巴集团控股有限公司 训练深度强化学习模型的方法及装置
US10726134B2 (en) * 2018-08-14 2020-07-28 Intel Corporation Techniques to detect perturbation attacks with an actor-critic framework
US11238372B2 (en) * 2018-08-27 2022-02-01 Vmware, Inc. Simulator-training for automated reinforcement-learning-based application-managers
CN109243021B (zh) 2018-08-28 2021-09-17 余利 基于用户体验分析的深度强化学习式智能门锁系统及装置
US11509703B2 (en) * 2018-09-26 2022-11-22 Vmware, Inc. System and method for widescale adaptive bitrate selection
US10581736B1 (en) * 2018-11-13 2020-03-03 At&T Intellectual Property I, L.P. Traffic matrix prediction and fast reroute path computation in packet networks
US20200162535A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods and Apparatus for Learning Based Adaptive Real-time Streaming
US11138378B2 (en) * 2019-02-28 2021-10-05 Qualtrics, Llc Intelligently summarizing and presenting textual responses with machine learning
EP3751803A1 (en) * 2019-06-13 2020-12-16 Hughes Network Systems, LLC Enhanced network communication using multiple network connections
US11635995B2 (en) * 2019-07-16 2023-04-25 Cisco Technology, Inc. Systems and methods for orchestrating microservice containers interconnected via a service mesh in a multi-cloud environment based on a reinforcement learning policy
US11153375B2 (en) * 2019-09-30 2021-10-19 Adobe Inc. Using reinforcement learning to scale queue-based services
KR20210121842A (ko) * 2020-03-31 2021-10-08 엘지전자 주식회사 강화 학습을 이용한 차량 충전 방법 및 그 시스템
US20210397959A1 (en) * 2020-06-22 2021-12-23 Google Llc Training reinforcement learning agents to learn expert exploration behaviors from demonstrators

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003244695A (ja) 2002-02-14 2003-08-29 Kddi Corp 映像情報伝送方式、それに用いられる装置およびプログラム
JP2007519341A (ja) 2004-01-09 2007-07-12 シスコ テクノロジー インコーポレイテッド 無線ローカルエリアネットワーク(wlan)をシミュレートし管理するシステム及び方法
JP2007081623A (ja) 2005-09-13 2007-03-29 Matsushita Electric Ind Co Ltd 音声動画通信システム及びデータ通信端末装置
JP2010016662A (ja) 2008-07-04 2010-01-21 Kddi Corp メディアストリームの階層数を制御する送信装置、方法及びプログラム
JP2010288277A (ja) 2009-06-12 2010-12-24 Ntt Docomo Inc ユーザ体感品質の測定に基づく符号化方法、端末およびシステム
JP2013106202A (ja) 2011-11-14 2013-05-30 Fujitsu Ltd パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法
WO2018222435A1 (en) 2017-05-31 2018-12-06 Netflix, Inc. Temporal placement of a rebuffering event
WO2019059134A1 (ja) 2017-09-22 2019-03-28 株式会社Nttドコモ 通信品質調整システム
US20200280766A1 (en) 2017-09-22 2020-09-03 Ntt Docomo, Inc. Communication quality adjusting system
WO2019082861A1 (ja) 2017-10-25 2019-05-02 日本電気株式会社 送信装置、受信装置および映像配信方法

Also Published As

Publication number Publication date
CN120075207A (zh) 2025-05-30
US11699084B2 (en) 2023-07-11
US11373108B2 (en) 2022-06-28
US20220300841A1 (en) 2022-09-22
KR20220031001A (ko) 2022-03-11
JP2022540137A (ja) 2022-09-14
KR102821070B1 (ko) 2025-06-13
WO2021006972A1 (en) 2021-01-14
CN114128235B (zh) 2025-03-11
CN114128235A (zh) 2022-03-01
EP3997853A1 (en) 2022-05-18
US20210012227A1 (en) 2021-01-14

Similar Documents

Publication Publication Date Title
JP7635196B2 (ja) リアルタイム通信における強化学習
Ding et al. A multi-channel transmission schedule for remote state estimation under DoS attacks
KR102592036B1 (ko) 사용자 중심 컨텐츠 스트리밍을 위한 방법 및 시스템
CN114616810B (zh) 网络路径重定向
Xu et al. Impact of flow-level dynamics on QoE of video streaming in wireless networks
US12113680B2 (en) Reinforcement learning for jitter buffer control
Magaña et al. Remote access protocols for Desktop-as-a-Service solutions
CN115412776B (zh) 一种近场场景下视频传输中的网络质量评估方法及设备
US20160043924A1 (en) System and method for monitoring user activity on a plurality of networked computing devices
US11989115B2 (en) Agent-side chatbot simulator with throttling capabilities
CN111629024A (zh) 一种数据传输控制方法、装置、存储介质及电子设备
Vega et al. Cognitive streaming on android devices
CN113422751B (zh) 基于在线强化学习的流媒体处理方法、装置及电子设备
Du et al. Learning-based transport control adapted to non-stationarity for real-time communication
CN116192766B (zh) 用于调整数据发送速率和训练拥塞控制模型的方法及装置
US10511513B2 (en) Ping pair technique for detecting wireless congestion
CN114401253A (zh) 一种基于WebRTC的模拟网络中视频传输方法
Li et al. Pandia: Open-source Framework for DRL-based Real-time Video Streaming Control
Jagmagji Enhancing Self-Clocked Rate Adaptation in High-Speed Future Networks: Adaptive and Predictive Congestion Control
CN119906638A (zh) 一种数据传输方法及装置
Hernandez-Gobertti Ph. D. Forum: Wireless Optimization Strategies for Real-Time Haptic Communications
WO2025077611A1 (zh) 视频处理方法、系统及相关装置
HK40059904A (en) Streaming media processing method and device based on online reinforcement learning, and electronic equipment
HK40059904B (zh) 基於在线强化学习的流媒体处理方法、装置及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230606

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250212

R150 Certificate of patent or registration of utility model

Ref document number: 7635196

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02