JP7467613B2

JP7467613B2 - クラウドゲーム用の方法および装置

Info

Publication number: JP7467613B2
Application number: JP2022517928A
Authority: JP
Inventors: グイチュン・リ; シアン・リ; シャオジョン・シュ; ビョンドゥ・チェ; シャン・リュウ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-03-16
Filing date: 2021-03-15
Publication date: 2024-04-15
Anticipated expiration: 2041-03-15
Also published as: EP4011069A4; US11833419B2; US20210283499A1; EP4011069A1; KR20220053655A; CN114402592A; WO2021188428A1; JP2022550288A

Description

［関連出願への相互参照］
この出願は、２０２１年２月２４日に出願された米国特許出願第１７／１８４，０８２号「クラウドゲーム用の方法および装置」に対する優先権の利益を主張し、それは、２０２０年３月１６日に出願された米国仮特許出願第６２／９９０，２０４号「クラウドゲームシステムにおけるメタデータによるビデオコーディング方法」に対する優先権の利益を主張する。従来の出願の全開示は、その全体が参照により本明細書に組み込まれる。

［技術分野］
この開示は、クラウドゲームの分野におけるマルチメディア技術に一般的に関連する実施形態を説明する。

本明細書で提供される背景技術の説明は、本開示のコンテキストを全体的に示すことを目的とする。この背景技術部分及び本明細書の各態様において説明された、現在署名されている発明者の作業の程度は、本開示の提出時に先行技術として示されておらず、また、本開示の先行技術として認められていることを明示または暗示していない。

クラウドゲームサービスは、複数のサービスプロバイダから利用できるトレンドオンラインサービスである。クラウドゲームは、ゲームオンデマンドと呼ばれてもよい。クラウドゲームシステムでは、ゲームは、リモートサーバ上で実行され、クラウドベースのゲームと呼ばれる。ユーザは、ユーザデバイスを介して、クラウドベースのゲームをプレイすることができる。ゲームコンテンツは、リモートサーバ上で生成され、ユーザデバイス上でストリーミングされて表示され得る。

本開示の各態様は、クラウドゲーム用の方法および装置を提供する。いくつかの例では、クラウドゲーム用の装置は、処理回路を含む。例えば、処理回路は、ビデオシーケンスと、当該ビデオシーケンスに関連付けられたメタデータとを受信する。ビデオシーケンスは、ゲーム制御情報に応答して生成された一連の画像フレームを含み、メタデータは、ゲーム制御情報に基づいて決定される。処理回路は、メタデータに基づいて、ビデオシーケンスを符号化するための符号化構成を決定することができる。そして、処理回路は、符号化構成に基づいて、ビデオシーケンスをコード化されたビデオビットストリームに符号化する。

一実施形態では、メタデータは、動きベクトルを含み、処理回路は、動きベクトルに基づいて、ビデオシーケンスの画像フレーム内のブロックを符号化するための動き検索の開始ポイントを決定する。

別の実施形態では、メタデータは、ビデオシーケンスの画像フレームのシーン変化特性、照明変化特性、点滅特性、パンニング特性、ズーミング特性、フェーディング特性、およびオーバーレイ特性のうちの少なくとも１つの画像特性を示す。処理回路は、画像特性に基づいて、画像フレームを符号化するための符号化構成を決定することができる。

別の実施形態では、メタデータは、画像フレームにおける境界ボックスを示す。処理回路は、境界ボックスに基づいて、現在の画像フレームの前の画像フレームに対する前記現在の画像フレームにおける境界ボックスによってカバーされていないエリアのための前の画像フレームにおける参照エリアを決定することができ、前の画像フレームにおける参照エリアに基づいて、現在の画像フレームにおける境界ボックスによってカバーされていないエリアを符号化する。

別の実施形態では、メタデータは、第１画像フレームから第２画像フレームへのモデル変換を示す。処理回路は、モデル変換に基づいて、符号化構成を決定することができ、符号化構成に基づいて、第２画像フレームにおけるブロックを、第１画像フレームにおける参照ブロックに基づいて符号化することができる。

別の実施形態では、メタデータは、後続の画像フレームにおける現在の画像フレームのオブジェクトの存在を示す。処理回路は、メタデータに基づいて、バッファ構成を決定する。

別の実施形態では、メタデータは、画像フレームのノイズレベルを示す。処理回路は、ノイズレベルに基づいて、画像フレームを前処理/後処理することができる。

別の実施形態では、メタデータは、画像フレームにおける関心のある領域を示す。処理回路は、関心のある領域外のブロックを符号化するために使用される第２符号化構成よりも高品質を有する第１符号化構成を使用して、関心のある領域を符号化する。

別の実施形態では、メタデータは、画像フレームの領域におけるグラフィックオーバーレイを示す。処理回路は、グラフィックオーバーレイに基づいて、当該領域を符号化するための符号化構成を決定する。

別の実施形態では、メタデータは、オーバーレイメッセージ用の画像フレームにおけるメッセージボックスを示す。処理回路は、コード化されたビデオビットストリームの特定のネットワーク抽象化層ユニット（ＮＡＬＵ）に、オーバーレイメッセージの情報を含ませる。

本開示の各態様は、また、命令が記憶されている不揮発性コンピュータ読み取り可能な記憶媒体を提供し、前記命令がビデオ処理のためのコンピュータによって実行されるとき、コンピュータにクラウドゲーム用の方法を実行させる。

開示された主題の更なる特徴、性質、および様々な利点は、以下の詳細な説明および添付図面からより明らかになり、ここで、

本開示の一実施形態によるクラウドゲームシステムのブロック図を示す。本開示のいくつかの実施形態によるクラウドゲームシナリオを示す図である。本開示のいくつかの実施形態によるクラウドゲームシステムのブロック図を示す。本開示の一実施形態によるビデオエンコーダのブロック図を示す。本開示のいくつかの実施形態によるビデオデコーダの図を示す。本開示の一実施形態によるプロセス例を概説するフローチャートを示す。本開示の一実施形態による他のプロセス例を概説するフローチャートを示す。一実施形態によるコンピュータシステムの概略図である。

本開示の各態様は、クラウドゲームの分野におけるメタデータ支援ビデオコーディング（符号化／復号）設計のためのシステム、デバイスおよび方法を提供する。

図１は、本開示の実施形態によるクラウドゲームシステム（１００）のブロック図を示す。前記クラウドゲームシステム（１００）は、ネットワーク（１５０）によって接続されたサーバシステム（１０１）とクライアントシステム（１０２）とを含む。サーバシステム（１０１）は、互いに結合された1つまたは複数のサーバ（１１０）を含む。例えば、サーバシステム（１０１）は、データセンタ（複数）、サーバファーム（複数）などを含み得る。サーバシステム（１０１）は、ゲームコンテンツをレンダリングし、ゲームコンテンツをビットストリームに圧縮することができる。ビットストリームは、ネットワーク（１５０）によってクライアントシステム（１０２）に配信され得る。クライアントシステム（１０２）は、それぞれゲームユーザ（プレーヤとも呼ばれる）とインタラクションを行うことができる1つまたは複数のクライアントデバイス（１６０）を含む。例えば、クライアントデバイス（１６０）は、ゲームユーザからユーザ制御情報を受信することができ、例えばビデオ出力、オーディオ出力などのような出力をゲームユーザに提供することができる。

サーバ（１１０）は、任意の適切な技術を使用してそれぞれ実現され得る。図１において、サーバ（１１０）は、互いに結合された処理回路（１２０）、メモリ（１１５）およびインターフェース回路（１１１）を含む。メモリ（１１５）は、処理前、処理中、および処理後に、ソフトウェア命令や様々なデータ（例えば、メディアデータ、構成情報、制御情報など）を記憶するように構成される。

処理回路（１２０）は、例えば1つまたは複数の中央処理ユニット（ＣＰＵ）、1つまたは複数のグラフィック処理ユニット（ＧＰＵ）、特定用途向け集積回路などのような任意の適切な処理回路を含み得る。図１の例では、処理回路（１２０）は、ゲームエンジン（１２５）を含むように構成され得る。例えば、1つまたは複数のＣＰＵおよび／またはＧＰＵは、メモリ（１１５）に記憶されているゲームソフトウェアを実行することで、ゲームエンジン（１２５）として機能することができる。さらに、処理回路（１２０）は、例えばビデオエンコーダ、オーディオエンコーダなどのようなエンコーダを含むように構成され得る。図１の例では、処理回路（１２０）は、ビデオエンコーダ（１３０）を含むように構成される。例えば、1つまたは複数のＣＰＵおよび／またはＧＰＵは、ビデオエンコーダ（１３０）として機能するように構成され得る。別の例では、ビデオエンコーダ（１３０）は、特定用途向け集積回路を使用して実現され得る。

インターフェース回路（１１１）は、サーバ（１１０）をネットワーク（１５０）とインターフェースすることができる。インターフェース回路（１１１）は、ネットワーク（１５０）から信号を受信する受信部と、ネットワーク（１５０）に信号を送信する送信部とを含み得る。例えば、インターフェース回路（１１１）は、ネットワーク（１５０）を介して、例えばコード化されたビデオビットストリーム、コード化されたオーディオビットストリームなどのような符号化されたメディアデータを搬送する信号を、クライアントデバイス（１６０）などのような他のデバイスに送信することができる。インターフェース回路（１１１）は、ネットワーク（１５０）を介して、ユーザ入力などのようなユーザ情報を搬送する信号を、クライアントデバイス（１６０）から受信することができる。

ネットワーク（１５０）は、例えばイーサネット接続、光ファイバ接続、ＷｉＦｉ接続、セルラーネットワーク接続などのような有線および／または無線接続を介して、サーバシステム（１０１）およびクライアントシステム（１０２）に適切に結合される。ネットワーク（１５０）は、ネットワークサーバデバイス、ストレージデバイス、ネットワークデバイスなどを含み得る。ネットワーク（１５０）の構成要素は、有線および／または無線接続を介して適切に結合される。

クライアントデバイス（１６０）は、ユーザとインタラクションを行うように構成される。図１の例では、クライアントデバイス（１６０）は、例えばインターフェース回路（１６１）、処理回路（１７０）、ディスプレイ（１６５）およびユーザ入力デバイス（１６９）などのような様々な構成要素を含み、これらが互いに結合されている。

インターフェース回路（１６１）は、クライアントデバイス（１６０）をネットワーク（１５０）とインターフェースすることができる。インターフェース回路（１６１）は、ネットワーク（１５０）から信号を受信する受信部と、ネットワーク（１５０）に信号を送信する送信部とを含み得る。例えば、インターフェース回路（１６１）は、サーバ（１１０）によって送信された、例えばコード化されたビデオビットストリームを搬送する信号、オーディオビットストリームを搬送する信号などのような、データを搬送する信号を、ネットワーク（１５０）から受信することができ、またユーザ入力を搬送する信号などのような信号を、ネットワーク（１５０）を介してサーバ（１１０）などのような他のデバイスに送信することができる。

ユーザ入力デバイス（１６９）は、ユーザ入力を受信することができ、ユーザ入力は、サーバシステム（１０１）に適切に送信され得る。一例では、ユーザ入力は、処理回路（１７０）に提供され得ており、処理回路（１７０）は、ユーザ入力を例えばメッセージ、パケットなどのような適切な形式に変換して、インターフェース回路（１６１）を介して、このユーザ入力を送信することができる。ユーザ入力は、ネットワーク（１５０）を介してサーバシステム（１０１）に送信され得る。ユーザ入力デバイス（１６９）は、例えばジョイスティック、動きセンサー、マイクロホン、キーボード、マウス、タッチスクリーン、タッチパッドなどのような任意の適切なユーザ入力デバイスであり得る。

処理回路（１７０）は、例えばＣＰＵ、ＧＰＵ、特定用途向け集積回路などのような適切な処理回路を含み得る。処理回路（１７０）は、例えばビデオデコーダ、オーディオデコーダなどのようなメディアデコーダ（複数）を含むように構成され得る。例えば、処理回路（１７０）は、ビデオデコーダ（１８０）を含むように構成される。一例では、ＧＰＵは、ビデオデコーダ（１８０）として構成される。別の例では、ＣＰＵは、ソフトウェア命令を実行することで、ビデオデコーダ（１８０）として機能することができる。ビデオデコーダ（１８０）は、コード化されたビデオビットストリームにおける情報を復号し、ビデオシーケンス（例えば、一連の画像フレーム）を再構築することができる。

さらに、処理回路（１７０）は、ゲームクライアント（１７５）を含むように構成され得る。例えば、ＣＰＵは、クラウドゲームクライアントソフトウェアを実行することで、ゲームクライアント（１７５）として機能することができる。ゲームクライアント（１７５）は、ユーザ入力（１７１）を受信し、ユーザ入力（１７１）を表すデータをサーバ（１１０）におけるゲームエンジン（１２５）に送信することができる。

ディスプレイ（１６５）は、例えばテレビ、スマートフォン、ウェアラブルディスプレイ、ヘッドマウントデバイスなどのような任意の適切なディスプレイデバイスであり得る。一例では、ディスプレイ（１６５）は、ビデオシーケンスを受信し、このビデオシーケンスを適切に表示することができる。

いくつかの例では、ゲームをプレイするために、ゲームエンジン（１２５）は、例えばビデオシーケンス、オーディオなどのような、ゲーム用のゲームコンテンツを生成することができ、このゲームコンテンツは、ゲームの様々なゲーム環境を示す。一例では、ゲームエンジン（１２５）は、ビデオコンテンツ（１２２）（例えば、ビデオシーケンス）を生成し、ビデオコンテンツ（１２２）をビデオエンコーダ（１３０）に提供することができる。ビデオエンコーダ（１３０）は、ビデオコンテンツ（１２２）をコード化されたビデオビットストリーム（１２３）に圧縮することができ、このコード化されたビデオビットストリーム（１２３）は、インターフェース回路（１１１）によって送信され、ネットワーク（１５０）を介してクライアントデバイス（１６０）にストリーミングされ得る。クライアントデバイス（１６０）では、インターフェース回路（１６１）は、コード化されたビデオビットストリームを搬送する信号を受信し、このコード化されたビデオビットストリーム（１７２）をビデオデコーダ（１８０）に提供することができる。ビデオデコーダ（１８０）は、コード化されたビデオビットストリーム（１７２）からビデオシーケンスを再構築することができ、この再構築されたビデオシーケンス（１７３）は、ゲーム環境をゲームユーザに提供するために、ディスプレイ（１６５）に提供され得る。

ゲームユーザは、ゲームクライアント（１７５）とインタラクションを行うことができる。例えば、ゲームクライアント（１７５）は、図１に示すユーザ入力（１７１）などのようなユーザ制御情報（いくつかの例ではインタラクションデータとも呼ばれる）を受信することができる。例えばコマンド、位置情報、深さ情報、動き情報などのようなユーザ制御情報（ユーザ制御情報は、サーバ（１１０）上で（１２１）によって表示される）は、インターフェース回路（１６１）、ネットワーク（１５０）、およびインターフェース回路（１１１）を介して、ゲームクライアント（１７５）からゲームエンジン（１２５）に送信され得る。そして、ゲームエンジン（１２５）は、受信したユーザ制御情報（１２１）に応答して、動作を実行し、更新されたゲームコンテンツを生成することができる。更新されたゲームコンテンツは、圧縮されてサーバ（１１０）からクライアントデバイス（１６０）に提供され得る。ゲームが続くにつれて、ゲームプロセスが繰り返される。

いくつかの実施形態では、ゲームエンジン（１２５）は、ＹＵＶフォーマットでの一連の画像フレームなどのような、生のビデオコンテンツ（１２２）の形でのゲームビデオコンテンツを生成することができる。生のビデオコンテンツ（１２２）は、ビデオエンコーダ（１３０）に提供され得る。ビデオエンコーダ（１３０）は、生のビデオコンテンツを圧縮し、例えばＨ．２６４、Ｈ．２６５、ＡＶ１、ＡＶＳ２などのような、特定のビデオコーディングフォーマットまたは規格に従って、コード化されたビデオビットストリーム（１２３）を生成する。このコード化されたビデオビットストリーム（１２３）は、クライアントデバイス（１６０）に送信され、ビデオエンコーダ（１３０）のような適合フォーマットまたは標準を使用して、表示のためにクライアント側のビデオデコーダによって復号され得る。

クラウドゲームシステム（１００）は、関連例におけるゲームコンソールまたは他のローカルデバイス上ではなく、リモートサーバ上でゲームソフトウェアを実行することによってビデオゲームをプレイする手段を提供する。例えば、ゲーム会社は、ゲームストリーミングのための専用サーバであるサーバ（１１０）を所有し、また、サーバ（１１０）は、消費者側ハードウェア（例えば、クライアントデバイス）よりも著しく強力であり得る。さらに、いくつかの例では、ストリーミングサービスは、複数のプレイヤー（ユーザ）によって同じゲームがプレイされる複数のクライアントデバイス（１６０）に、同様のデータを送信することができる。したがって、複数のプレイヤーは、コストがプレイヤーの数に比例する関連例で予想されるものよりも、運営コストの総額（ゲーム会社に対して）より少ない運営コストで同じゲームをプレイすることができる。

図２は、本開示のいくつかの実施形態によるクラウドゲームシナリオを示す図（２００）を示す。図２の例では、サーバ（２１０）は、ゲーム用のゲームサービスを提供するクラウドゲームサーバであり、クライアントデバイス２６０Ａ～２６０Ｃは、それぞれゲームのプレイヤーＡ～Ｃとインタラクションを行うクライアントデバイスである。サーバ（２１０）は図１におけるサーバ（１１０）と同様に構成され得る。クライアントデバイス２６０Ａ～２６０Ｃは、それぞれ、図１におけるクライアントデバイス（１６０）と同様に構成され得る。

図２の例では、サーバ（２１０）におけるゲームエンジン（図示せず）は、ゲーム環境のためのゲームコンテンツをレンダリングし、ネットワーク（図示せず）を介して、クライアントデバイス（２６０Ａ）～（２６０Ｃ）にゲームコンテンツを提供する。一度に、図２における（２０１）として示されるように、クライアントデバイス（２６０Ｂ）は、プレイヤーＢからのユーザ入力などのようなユーザ制御情報を受信する。図２における（２０２）として示されるように、クライアントデバイス２６０Ｂは、ユーザ入力を表すデータを、ネットワークを介してサーバ（２１０）に送信する。図２における（２０３）として示されるように、ユーザ入力を表すデータに応答して、サーバ（２１０）におけるゲームエンジンは、動作を実行して、ゲーム環境を更新する。そして、図２における（２０４）として示されるように、サーバ（２１０）は、更新されたゲームコンテンツをクライアントデバイス（２６０Ａ）～（２６０Ｃ）に送信する。クライアント側では、図２における（２０５）として示されるように、各クライアントデバイス（２６０Ａ）～（２６０Ｃ）は、更新されたゲームコンテンツに応答して、ゲーム環境をリフレッシュすることができ、例えば、ディスプレイをリフレッシュすることができる。

関連例では、クライアントデバイスは、ほとんどのゲームをプレイするために必要とされるゲームコンソールまたはパソコンであり得て、また、ゲームのための大きな前払いコストを構成し得る。これらのゲームコンソールやパソコンの価格は、数百ドルから数千ドルまでのコストに達する可能性がある。ローカルマシン（ゲームコンソールやパソコン）も経時的に摩耗し、低下したパフォーマンスを有する。技術の発展に伴い、クラウゲームサーバは、消費者にとって追加のコストなしで、継続的にアップグレードされている。

本開示のいくつかの態様によれば、クラウドゲームは、良好なユーザエクスペリエンスを達成するために、高いかつ信頼性のある帯域幅要求と、双方向通信に必要とされる低い遅延とを必要とし得る。いくつかの例では、クラウドゲームは、高いかつ信頼性のある帯域幅を得るために、高速および安定したインターネット接続と、ゲームサーバに近接していることとを必要とする場合がある。例えば、クラウドゲーム用のストリーミングサービスは、１０Ｍｂｐｓから３５Ｍｂｐｓの間の帯域幅を必要とする場合がある。本開示は、帯域幅要求を低減し、また視覚的品質を向上させるために、コーディング速度およびコーディング効率を改善するための技術を提供する。

いくつかの例では、高い遅延は、ゲーム体験にとって不利になることがある。遅延は、多くの要因によって寄与されることがあり、ストリーミングのためのビデオ符号化は、これらの要因の１つである。本開示は、コーディング効率を維持しながら符号化時間を短縮するために技術をも提供し、したがってクラウドゲーム体験を改善する。

本開示の各態様は、クラウドゲームシステムにおけるメタデータ支援ビデオ符号化設計のための技術を提供する。いくつかの例では、ビデオコンテンツ用のメタデータ（例えば、生のビデオ）は、例えばカメラ情報、色情報、照明情報、動き情報、視聴情報、ユーザ制御などのようなビデオコンテンツに関する情報を提供するデータを指す。生のビデオと共にメタデータは、ゲームエンジン（例えば、ゲームエンジン（１２５））によってレンダリングされ得て、符号化プロセスを支援するために、ゲームエンジンによってビデオエンコーダ（例えば、ビデオエンコーダ（１３０））に入力として提供され得る。いくつかの実施形態では、ビデオエンコーダ（例えば、ビデオエンコーダ（１３０））は、メタデータの助けを借りて、生のビデオをコード化されたビデオビットストリームに符号化することができる。さらに、いくつかの実施形態では、メタデータは、コード化されたビデオビットストリームとともにビデオデコーダ（例えば、ビデオデコーダ（１８０））に提供され得る。ビデオデコーダ（例えば、ビデオデコーダ（１８０））は、メタデータの助けを借りて、コード化されたビデオビットストリームを復号することができる。

図３は、本開示のいくつかの実施形態によるクラウドゲームシステム（３００）のブロック図を示す。クラウドゲームシステム（３００）は、上記のクラウドゲームシステム（１００）と同様に動作し、クラウドゲームシステム（１００）で使用されているものと同一または同等の特定の構成要素を利用する。例えば、サーバシステム（３０１）は、サーバシステム（１０１）のように同様に構成され、クライアントシステム（３０２）は、クライアントシステム（１０２）のように同様に構成され、ネットワーク（３５０）は、ネットワーク（１５０）のように同様に構成され、サーバ（３１０）は、サーバ（１１０）のように同様に構成され、処理回路（３２０）は、処理回路（１２０）のように同様に構成され、メモリ（３１５）は、メモリ（１１５）のように同様に構成され、インターフェース回路（３１１）は、インターフェース回路（１１１）のように同様に構成され、ゲームエンジン（３２５）は、ゲームエンジン（１２５）のように同様に構成され、ビデオエンコーダ（３３０）は、ビデオエンコーダ（１３０）のように同様に構成され、インターフェース回路（３６１）は、インターフェース回路（１６１）のように同様に構成され、処理回路（３７０）は、処理回路（１７０）のように同様に構成され、ディスプレイ（３６５）は、ディスプレイ（１６５）のように同様に構成され、ユーザ入力デバイス（３６９）は、ユーザ入力デバイス（１６９）のように同様に構成され、ゲームクライアント（３７５）は、ゲームクライアント（１７５）のように同様に構成され、ビデオデコーダ（３８０）は、ビデオデコーダ（１８０）のように同様に構成される。これらの構成要素の説明は、以上で提供されており、明確にするためにここでは省略されている。

さらに、図３の例では、ビデオエンコーダ（３３０）は、メタデータの助けを借りてビデオコンテンツをビデオビットストリームに符号化するように構成される。例えば、ビデオエンコーダ（３３０）は、メタデータベースのコントローラであるコントローラ（３３１）を含む。ゲームエンジン（３２５）は、メタデータ（３２６）とともに生のビデオコンテンツ（３２２）をビデオエンコーダ（３３０）に提供する。メタデータ（３２６）は、生のビデオコンテンツ（３２２）に関連付けられた情報、例えばカメラ情報、色情報、照明情報、動き情報、視聴情報、ユーザ制御などを含む。コントローラ（３３１）は、メタデータ（３２６）を受信し、メタデータ（３２６）に基づいてビデオエンコーダ（３３０）の構成を制御することで、生のビデオコンテンツ（３２２）を符号化し、コード化されたビデオビットストリーム（３２３）を生成する。メタデータの助けを借りて、符号化の速度および効率を向上させ、また、帯域幅の要求が低減され、遅延が短縮され得る。

いくつかの実施形態では、コード化されたビデオビットストリーム（３２３）は、例えばメタデータ出力（３２７）によって示されるようなメタデータとともに出力され得る。

さらに、図３の例では、ビデオデコーダ（３８０）は、メタデータの助けを借りてビデオビットストリームを復号するように構成される。例えば、ビデオデコーダ（３８０）は、メタデータベースのコントローラであるコントローラ（３８１）を含む。コントローラ（３８１）は、コード化されたビデオビットストリーム（３７２）とともにメタデータ（３７７）を受信する。一例では、コード化されたビデオビットストリーム（３７２）は、ビデオエンコーダ（３３０）によって生成されたコード化されたビデオビットストリーム（３２３）であり得、メタデータ（３７７）は、メタデータ出力（３２７）であり得る。コントローラ（３８１）は、コード化されたビデオビットストリーム（３７２）を復号するためにメタデータ（３７７）に基づいてビデオデコーダ（３８０）の構成を制御し、再構築されたビデオシーケンス（３７３）を生成することができる。

いくつかの実施形態では、ゲームエンジン（３２５）からビデオエンコーダ（３３０）へのメタデータ（３２６）は、コーディング効率を向上させ、および／または符号化プロセスの複雑さを低減するのを助けることができる、ゲームシーン情報（例えば、カメラ情報、色情報、照明情報、動き情報、視聴情報）、ユーザ制御情報などのような、任意の適切なゲーム制御情報を含み得る。

具体的には、いくつかの例では、例えばジョイスティック、キーパッド、マウス、および／またはキーボードなどのようなユーザ入力デバイス（３６９）からのユーザ入力（３７１）（ユーザ制御情報としても呼ばれる）は、クライアントデバイス（３６０）からサーバ（３１０）に送信され得る。一例では、ゲームエンジン（３２５）は、クライアントデバイス（３６０）においてユーザ入力（３７１）に対応するユーザ制御情報（３２１）を受信する。ゲームエンジン（３２５）は、ユーザ制御情報（３２１）に基づいて、ゲームシーンコンテンツ（例えば、ビデオコンテンツ、オーディオコンテンツなど）を生成することができる。いくつかの実施形態では、メタデータ（３２６）は、ゲームシーン情報およびユーザ制御情報（３２１）に基づいて決定され得る。例えば、ゲームシーンのグローバル動きおよび／またはオブジェクトのローカル動きは、ゲームシーン情報およびユーザ制御情報（３２１）に基づいて識別され得る。一例では、ユーザ制御情報（３２１）は、視線方向の変化を含み、これにより、ゲームシーンのグローバル動きは、視線方向の変化に基づいて識別され得る。別の例では、ユーザ制御情報（３２１）は、オブジェクトの動きを含み、これにより、オブジェクトのローカル動きは識別され得る。一例では、メタデータ（３２６）は、ゲームシーンのグローバル動き、オブジェクトのローカル動き、およびオブジェクトの境界ボックスを含み得る。メタデータ（３２６）は、ビデオエンコーダ（３３０）への追加の入力データとしてビデオ符号化プロセスを助けることができる。メタデータ（３２６）は、ゲームエンジン（３２５）によってレンダリングされた生のビデオコンテンツ（３２２）とともにビデオエンコーダ（３３０）に供給され得る。ビデオエンコーダ（３３０）は、メタデータ（３２６）における情報を利用して、生のビデオコンテンツ（３２２）を利用して動き推定／補償処理を効率的に実行することができる。

いくつかの実施形態では、メタデータ（３２６）は、ビデオエンコーダ（３３０）のパラメータなどのような、構成可能なエンコーダ設定として、ビデオエンコーダ（３３０）に供給され得る。一例では、メタデータ（３２６）は、画像または画像の領域の、グローバル動きモデル（例えば、アフィンモデル、透視（ｐｅｒｓｐｅｃｔｉｖｅ）モデル、回転モデル、ズーミングモデルなど）を生成するために使用され得る。別の例では、メタデータ（３２６）は、ビデオエンコーダ（３３０）における符号化ツールを選択するために使用され得る。しかしながら、一例では、そのようなパラメータのいずれかが利用できない場合、デフォルト値のセットは、ビデオエンコーダ（３３０）によって仮定され得る。

いくつかの実施形態では、ビデオエンコーダ（３３０）に供給されたメタデータ（３２６）は処理され、メタデータ（３２７）によって示されて、コード化されたビデオデータストリーム（３２３）とともに送信され得る。メタデータ（３２７）は、ビデオデコーダがコード化されたビデオビットストリーム（３２３）を復号するのを助けることができる。例えば、タイミング情報、オーバーレイメッセージ、オーバーレイグラフィックス、境界ボックスなどのような、コード化されたビデオビットストリーム（３２３）の復号および表示を支援することができるメタデータ（３２７）は、補足拡張情報（ＳＥＩ）メッセージとして送信され得る。ＳＥＩメッセージは、コード化されたビデオビットストリーム内で、または別個に伝達され得る。

いくつかの実施形態では、クライアントデバイス（３６０）は、メタデータ（３７７）とともにコード化されたビデオビットストリーム（３７２）を受信する。メタデータ（３７７）は、コード化されたビデオビットストリーム（３７２）において搬送されたビデオシーケンスの復号または後処理を支援するために、クライアントデバイス（３６０）によって使用され得る。例えば、メタデータ（３７７）は、コード化されたビデオビットストリーム（３７２）の復号および表示を支援することができるタイミング情報、オーバーレイメッセージ、オーバーレイグラフィックス、境界ボックス情報を含み得る。

いくつかの実施形態では、メタデータは、追加のコーデックを使用してコード化された（符号化／復号）され得る。いくつかの例では、ゲームエンジン（３２５）は、分離されたコンテンツ、ビデオ、オーディオ、オーバーレイメッセージ、オーバーレイグラフィックスなどを出力することができる。一例では、オーバーレイメッセージ（またはオーバーレイグラフィックス）は、ビデオコンテンツのためのメタデータとして見なされる。オーバーレイメッセージ（またはオーバーレイグラフィックス）は、ビデオエンコーダ３３０からの別個のエンコーダを使用して、別個のビットストリーム（第２ビットストリーム）に圧縮され得る。そして、一例では、ビデオコンテンツのためのコード化されたビデオビットストリームと、オーバーレイメッセージ（またはオーバーレイグラフィックス）のための第２ビットストリームとは、単一のビットストリームに多重化され得る。

本開示のいくつかの態様によれば、ビデオ符号化プロセスまたはビデオ復号プロセスを支援することができる様々な情報は、メタデータとして、ゲームビデオ入力（例えば、ビデオ符号化プロセスのためのゲームビデオ入力としてのビデオシーケンス、ビデオ復号プロセスのためのゲームビデオ入力としてのコード化されたビデオビットストリーム）と共に送信され得る。

いくつかの例では、メタデータは、ゲームキャラクタの位置（例えば、ゲームのメインキャラクタ）、ゲームシーンの関心のある領域（ＲＯＩ：ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）などのような、リージョナルゲームコンテンツの位置情報を含み得る。

いくつかの例では、メタデータは、例えばメインカメラの位置情報、カメラの視野角、および様々なカメラパラメータ（例えば、焦点距離、メインキャラクタまでの距離、視野角、歪みパラメータ、ビネットパラメータなど）などのようなカメラ情報を含み得る。

いくつかの例では、メタデータは、例えばシーンのメインカラー、シーンの明るさ、現在の画像のノイズレベル、シーン変化インジケータ、フェーディングインジケータ、および／またはフェーディングパラメータ（例えば、重み付けられた予測のための重み付け）などのような、ゲームシーンの系統的情報を含み得る。

いくつかの例では、メタデータは、リージョナルおよびグローバルの動き情報を含み得る。一例では、メタデータは、各画素レベルで、または予め定義されたブロックサイズを有するブロックレベルで、前の画像のうちの1つまたは複数に対する並進動きベクトルを含む。

いくつかの例では、メタデータは、グローバル動きモデルまたはリージョナル動きモデルを含み得る。一例では、メタデータは、画像のためのパンニングモデル、ズーミングモデル、回転モデル、透視動きモデル、アフィン動きモデルなどのようなグローバル動きモデルを含み得る。別の例では、メタデータは、パンニングモデル、ズーミングモデル、回転モデル、透視動きモデル、アフィン動きモデルなどのようなリージョナルモデルを含むことができる。

いくつかの例では、メタデータは、キーストークス、マウスの動き、マウスボタンのクリック、動きセンサーの入力などのような、ユーザ入力情報を含み得る。

様々な実施形態では、メタデータは、例えばゲームエンジン（３２５）からサーバ側上のビデオエンコーダ（３３０）へ提供され、これにより、様々な情報が含まれる。当該様々な情報は、符号化プロセスの複雑さを低減すること、またはビットレートの低減および／または歪みの低減のような、コーディング効率を向上させることのために、符号化プロセスを支援することができる。

一実施形態では、ゲームエンジン（３２５）は、画素レベルまたはブロックレベルで推奨された動きベクトル（複数）を含むメタデータを提供することができる。推奨された動きベクトル（複数）は、ビデオエンコーダ（３３０）による動き推定を助けるために使用され、これにより、動きベクトル検索動作を減少させ、動き推定精度を向上させることができる。一例では、ゲームエンジン（３２５）からの推奨された動きベクトルは、ビデオエンコーダ（３３０）による動き検索アルゴリズムにおける開始ポイントとして使用され得る。いくつかの例では、ゲームエンジン（３２５）は、ゲームシーンの動き情報およびユーザ入力に応答してビデオコンテンツを生成し、ゲームエンジン（３２５）によって推奨された動きベクトルは、非常に正確であり得る。これにより、ビデオエンコーダ（３３０）は、動きベクトル検索のための時間を減らし、正確な動き推定を達成することができる。

別の実施形態では、ゲームエンジン（３２５）は、例えばシーン変化、照明変化、点滅、パンニング、ズーミング、フェーディング、メッセージオーバーレイなどのような、ビデオコンテンツにおける画像の特徴を識別することができるパラメータを含むメタデータを提供することができる。パラメータの観点から、ビデオエンコーダ（３３０）は、符号化プロセスを進めるように、適切な構成設定、パラメータ設定、コードツールなどを選択することができ、これにより、圧縮効率を向上させることができる。

別の実施形態では、ゲームエンジン（３２５）は、境界ボックス情報を含むメタデータを提供することができ、ビデオエンコーダ（３３０）は、境界ボックス情報を使用して、画像フレームにおけるカバーされていないエリアとビデオシーケンスにおける貴重な画像フレームとの関係を決定することができ、その関係を使用することで、不要な計算を回避し、処理速度を向上させることができる。一例では、境界ボックスにおけるキャラクタは、画像の残り部分から異なる動きを有することがある。ビデオエンコーダ（３３０）は、境界ボックス情報を使用して、キャラクタおよび画像の残りの部分に別個の動きモデルを適用することができる。別の例では、ビデオエンコーダ（３３０）は、境界ボックス情報を使用して、例えば現在の画像内の境界ボックスによってカバーされていない特定のエリア（カバーされていないエリアとも呼ばれる）を前の画像から識別することができ（例えば、特定のエリアは、前の画像における境界ボックスによってカバーされている）、また、特定の領域を露出した前の画像（複数）を識別することができる（例えば、境界ボックスが特定の領域をカバーする前に）。このような情報によれば、ビデオエンコーダ（３３０）は、それらの領域に対して選択される可能性が低いコーディングモードにおける不必要な計算を回避することができる。例えば、そのような情報に基づいて、ビデオエンコーダ（３３０）は、他の予測ツールを試みずに、識別された前の画像（複数）に基づいて、現在の画像における特定の領域を予測するために、時間予測を直接に選択することができる。

別の実施形態では、ゲームエンジン（３２５）は、動きブラー効果の変化、レンズブラー効果の変化、レンズ歪みの変化、レンズビネットの変化などのような、前の画像（複数）に対する画像領域におけるモデル変換（例えば、異なる撮像特性を有する同一のオブジェクト）を示すメタデータを提供することができる。ビデオエンコーダ（３３０）は、メタデータによって示されるモデル変換情報に基づいて、特定の領域で使用されるコーディングツール、コーディング方法、コーディングパラメータなどを決定することができる。例えば、メタデータが、前の画像フレームにおける参照領域に対する現在の画像フレームの領域におけるレンズブラーを示す場合、ビデオエンコーダ（３３０）は、前の画像フレームにおける参照領域およびぼかしブラーフィルタに基づいて、現在の画像フレームの領域を符号化することができる。

別の実施形態では、ゲームエンジン（３２５）は、後続の画像（複数）において画像（現在の画像）または現在の画像におけるオブジェクトの存在を示すメタデータを提供する。メタデータに基づいて、ビデオエンコーダ（３３０）は、後続の画像（複数）のための参照として使用されるべき現在の画像の特定のコンテンツ／エリアをバッファリングするなどのバッファ構成を決定することができる。一例では、メタデータは、後続の画像におけるオブジェクトの動きを引き起こすオブジェクトの動きを示す。メタデータに基づいて、ビデオエンコーダ（３３０）は、オブジェクトを有する現在の画像におけるエリア（オブジェクトを有するエリア）のコンテンツをバッファリングすることができ、バッファリングされたコンテンツは、動き補償において後続の画像（複数）の参照として使用され得る。別の例では、メタデータは、現在の画像および後続の画像に使用されるマップを示す。メタデータに基づいて、ビデオエンコーダ（３３０）は、後続の画像をコーディングするための参照として、現在の画像におけるマップエリアをバッファリングすることができる。別の例では、メタデータは、現在の画像（または現在の画像の領域）が後続の画像のための背景であることを示す。メタデータに基づいて、ビデオエンコーダ（３３０）は、現在の画像（または現在の画像の領域）をバッファリングして長期参照とすることができ、それに応じて後続の画像をコードすることができる。例えば、スキップモードは、長期参照を参照できる後続の画像におけるブロックをコード化するために使用され得る。

別の実施形態では、ゲームエンジン（３２５）は、画像のノイズレベル情報などのノイズ特徴を示すメタデータを提供する。メタデータに基づいて、画像の前処理および／または後処理を行うことができる。一例では、ゲームエンジン（３２５）は、ノイズの多い画像（ビデオコンテンツにおける）と、ノイズレベルを示すメタデータとをビデオエンコーダ（３３０）に提供する。ビデオエンコーダ（３３０）は、ノイズレベルを示すメタデータに基づいて、前処理段階でノイズの多い画像からノイズを除去し（例えば、ノイズを除去するフィルタを適用し）、低ノイズ画像を生成して、低ノイズ画像を符号化することができる。ノイズ除去の強度／閾値は、メタデータにおけるノイズレベル情報によって決定され得る。一例では、符号化された画像（低ノイズ画像）と、ノイズレベルを示すメタデータとは、クライアントデバイス（３６０）に送信される。そして、ビデオデコーダ（３８０）は、低ノイズ画像を再構築し、その後、メタデータにおけるノイズレベル情報に基づいて、後処理段階でノイズを低ノイズ画像に追加することができる。

別の例では、ゲームエンジン（３２５）は、低ノイズ（またはノイズなし）の画像（ビデオコンテンツにおける）と、ノイズレベルを示すメタデータとをビデオエンコーダ（３３０）に提供する。そして、ビデオエンコーダ（３３０）は、低ノイズ画像を符号化する。一例では、符号化された画像（低ノイズ画像）と、ノイズレベルを示すメタデータとは、クライアントデバイス（３６０）に送信される。その後、ビデオデコーダ（３８０）は、低ノイズ画像を再構築し、それから、メタデータにおけるノイズレベル情報に基づいて、後処理段階でノイズを低ノイズ画像に追加することができる。いくつかの例では、ビデオエンコーダ（３３０）は、メタデータにおけるノイズレベル情報に基づいて後処理段階でノイズを追加することができるローカルデコーダを含む。

低ノイズ画像は、高ノイズ画像と比較して、より高いコーディング効率でコード化され得る、ことに留意されたい。

別の実施形態では、ゲームエンジン（３２５）は、画像における関心のある領域（複数）を示すメタデータを提供する。メタデータに基づいて、ビデオエンコーダ（３３０）は、よりよい品質制御またはレート制御を達成することができる。一例では、画像における他の領域よりも関心のある領域（複数）を符号化するために、より高いビットレートを割り当てることができる。別の例では、帯域幅が、より高いビットレートで画像全体をコーディングするのに十分ではない場合、関心のある領域のためのより高いビットレートを維持するために、関心のある領域外のエリアをコーディングするためのビットレートを最初に低減することができる。

別の実施形態では、ゲームエンジン（３２５）は、ロゴ、バナー、レーダイメージ、地図、メッセージボックスなどのような画像内のグラフィックオーバーレイの領域（複数）を示すメタデータを提供する。メタデータに基づいて、ビデオエンコーダ（３３０）は、画像における他の領域用のためのコーディングツールとは異なり得る、グラフィックオーバーレイ（複数）の領域のための適切なコーディングツールを適用することができる。一例では、ロゴは、コーディング効率を向上させるために、スキップモードを使用してコード化され得る。グラフィックオーバーレイの領域のための適切なコーディングツールを使用することは、誤った動き情報、アーティファクト／歪みなどを回避することができる。

いくつかの実施形態では、ゲームエンジン（３２５）は、オーバーレイメッセージのためのメッセージボックスを示すメタデータを提供する。オーバーレイメッセージは、オーバーレイメッセージのために特別に使用される別個のネットワーク抽象化層ユニット（ＮＡＬＵ：ｎｅｔｗｏｒｋａｂｓｔｒａｃｔｉｏｎｌａｙｅｒｕｎｉｔ）として、圧縮されてビデオビットストリームに含まれ得る。いくつかの例では、ＮＡＬＵは、実際にはパケットである。ビデオビットストリームは、ＮＡＬＵ（パケット）を介して編成されて伝送され得、ＮＡＬＵのうちの１つは、オーバーレイメッセージのための特別なＮＡＬＵであり得る。オーバーレイメッセージのためのＮＡＬＵには、オーバーレイメッセージの境界ボックスのエリア、オーバーレイメッセージの位置、フォント、サイズ、色、テキストのスタイル、オーバーレイテキストコンテンツなどが含まれ得る。一例では、オーバーレイテキストコンテンツは、Ｕｎｉｃｏｄｅでコード化され得る。一例では、ゲームエンジン（３２５）は、ビデオコンテンツとは別にオーバーレイメッセージをビデオエンコーダ（３３０）に提供する。ビデオエンコーダ（３３０）は、ビデオコンテンツおよびオーバーレイメッセージを別々に符号化することができる。オーバーレイメッセージは、ビデオビットストリームにおける別個のＮＡＬＵとして圧縮され得る。ビデオビットストリームは、サーバ（３１０）からクライアントデバイス（３６０）に伝送され得る。処理回路（３７０）は、ビデオコンテンツとオーバーレイメッセージをビデオビットストリームから別々に復号し、その後、クローズドキャプションを追加するように、オーバーレイメッセージをビデオコンテンツに追加することができる。

図４は、本開示の一実施形態によるビデオエンコーダ（４３０）のブロック図を示す。ビデオエンコーダ（４３０）は、電子デバイス（４１０）に含まれる。一例では、電子デバイス（４１０）は、図３の例におけるサーバ（３１０）のようなサーバデバイスである。電子デバイス（４１０）は、また、送信機（４１１）（例えば、伝送回路等）を含む。ビデオエンコーダ（４３０）は、図３の例におけるビデオエンコーダ（３３０）の位置に使用され得る。

ビデオエンコーダ（４３０）は、図３の例におけるゲームエンジン（３２５）などのビデオソースから生のビデオコンテンツを受信することができる。さらに、ビデオエンコーダ（４３０）は、カメラ情報、色情報、照明情報、動き情報、視聴情報、オーバーレイ情報（例えば、オーバーレイ情報、オーバーレイグラフィックスなど）、ユーザ制御などのようなメタデータを受信することができ、生のビデオコンテンツに関連付けられた情報を提供する。

いくつかの例では、生のビデオコンテンツは、任意の適切なビット深度（例えば、８ビット、１０ビット、１２ビット、…）、任意の色空間（例えば、ＢＴ．６０１ＹＣｒＣＢ、ＲＧＢ、…）、および任意の適切なサンプリング構造（例えば、ＹＣｒＣｂ４：２：０、ＹＣｒＣｂ４：４：４）の形態であり得るデジタルビデオサンプルストリームの形である。生のビデオコンテンツは、順次に視聴する際に動きを伝える複数の個別の画像として提供され得る。画像自体は、画素の空間的アレイとして編成され得て、ここで、各画素は、使用中のサンプリング構造、色空間などに応じて1つまたは複数のサンプルを含み得る。

一実施形態によれば、ビデオエンコーダ（４３０）は、生のビデオコンテンツ（ビデオシーケンスとも呼ばれる）の画像をコード化されたビデオビットストリーム（４４３）にコード化されて圧縮することができる。図４の例では、ビデオエンコーダ（４３０）は、コントローラ（４３１）を含み、コントローラ（４３１）が、符号化速度および効率を向上させるために、メタデータに基づいてビデオエンコーダ（４３０）の符号化構成を制御するように構成される。いくつかの実施形態では、コントローラ（４３１）は、メタデータに基づいて符号化構成を決定することができる。さらに、コントローラ（４３１）は、他の機能ユニットに機能的に結合され、符号化プロセスのための他の機能ユニットを制御する。この結合は、明確にするために示されていない。なお、コントローラ（４３１）は、画像スキップ、量子化器、レート歪み最適化技法のラムダ値、画像サイズ、画像グループ（ＧＯＰ）レイアウト、最大動きベクトル探索範囲、動きモデルなどのような、様々な構成およびパラメータを設定することができる。

一例では、コントローラ（４３１）は、メタデータに基づいて、アフィンモデル、透視モデル、回転モデル、スケーリングモデルなどのような画像のグローバル動きモデルを決定するように構成され、それに応じて、符号化パラメータを構成することができる。別の例では、コントローラ（４３１）は、メタデータに基づいて、画像内の境界ボックスにおける領域およびその領域のローカル動きモデルを決定するように構成される。いくつかの実施形態では、コントローラ（４３１）は、ビデオエンコーダ（４３０）の他の部分とは異なる別個のエンコーダ（図示せず）を含む。別個のエンコーダは、メタデータを圧縮されたメタデータに圧縮することができる。例えば、メタデータは、オーバーレイメッセージやオーバーレイグラフィックスなどのようなオーバーレイコンテンツを含む。オーバーレイコンテンツは、オーバーレイコンテンツビットストリーム（４４４）に圧縮され得る。一例では、オーバーレイコンテンツビットストリーム（４４４）は、例えばマルチプレクサ（４１２）によって、コード化されたビデオビットストリーム（４４３）と結合されて単一のビットストリームになることができる。別の例では、コントローラ４３１は、コード化されたビデオビットストリーム（４４３）に関連付けられたＳＥＩメッセージにメタデータを含むことができる。コントローラ（４３１）は、特定のシステム設計のために最適化されたビデオエンコーダ（４３０）に関連する他の適切な機能を有するように構成され得る。

いくつかの実施形態では、ビデオエンコーダ（４３０）は、符号化ループで動作するように構成される。過度に簡単化された説明として、一例では、符号化ループは、ソースコーダ（４３２）（例えば、コード化される入力画像と、参照画像とに基づいて、シンボルストリームなどのようなシンボルを作成することを担当する）と、ビデオエンコーダ（４３０）に埋め込まれた（ローカル）デコーダ（４３４）とを含むことができる。デコーダ（４３４）は、（リモート）デコーダがサンプルデータを作成すると同様の方法でシンボルを再構築してサンプルデータを作成する（開示された主題で考慮されているビデオ圧縮技術では、シンボルとコード化されたビデオビットストリームとの間の任意の圧縮が無損失であるからである）。再構築されたサンプルストリーム（サンプルデータ）は、参照画像メモリ（４３５）に入力される。シンボルストリームの復号により、デコーダの位置（ローカルまたはリモート）に関係なくビット正確な結果が得られるため、参照画像メモリ（４３５）のコンテンツは、ローカルデコーダとリモートデコーダの間でもビットで正確に対応する。言い換えれば、エンコーダの予測部分が「見た」参照画像サンプルは、デコーダが復号期間に予測を使用する際に「見た」サンプル値と全く同じである。

「ローカル」デコーダ（４３４）の動作は、既に図５に関連して以上で詳細に説明された「リモート」デコーダの動作と同じであり得る。動作中に、いくつかの実施形態では、ソースコーダ（４３２）は、動き補償予測符号化を実行することができ、前記動き補償予測符号化は、ビデオシーケンスから「参照画像」として指定された１つ以上の以前にコード化された画像を参照して、入力画像を予測的に符号化する。このようにして、コーディングエンジン（４３３）は、入力画像の画素ブロックと、入力画像に対する予測参照として選択されることができる参照画像の画素ブロックとの間の差分を符号化する。いくつかの例では、ソースコーダ（４３２）は、コントローラ（４３１）から制御信号を受信することができる。制御信号は、ビデオシーケンスのメタデータに基づいて生成され、動き補償された予測符号化を高速で実行するようにソースコーダ（４３２）を制御することができる。

ローカルビデオデコーダ（４３４）は、ソースコーダ（４３２）によって生成されたシンボルに基づいて、参照画像として指定されることができる画像のコード化されたビデオデータを復号することができる。コーディングエンジン（４３３）の動作は、有利には損失性プロセスであってもよい。コード化されたビデオデータがビデオデコーダ（図５を参照して説明されたビデオデコーダなどのような）で復号された場合、再構築されたビデオシーケンスは、通常、いくつかの誤差を伴うソースビデオシーケンスのレプリカであってもよい。ローカルビデオデコーダ（４３４）は、参照画像に対してビデオデコーダによって実行されることができる復号プロセスをコピーして、再構築された参照画像を参照画像キャッシュ（４３５）に記憶することができる。このようにして、ビデオエンコーダ（４３０）は、遠端ビデオデコーダによって得られる（伝送誤差が存在しない）再構築された参照画像と共通のコンテンツを有する再構築された参照画像のコピーを、ローカルに記憶することができる。

予測器（４３６）は、コーディングエンジン（４３３）に対して予測検索を実行することができる。すなわち、コード化される新しい画像について、予測器（４３６）は、サンプルデータ（候補参照画素ブロックとして）のために参照画像メモリ（４３５）を検索することができる。いくつかの例では、予測器（４３６）は、コントローラ（４３１）から制御信号を受信する。制御信号は、メタデータ、カメラ情報、色情報、照明情報、動き情報、ビュー情報、ユーザ制御、ブロック形状などに基づいて生成され得る。制御信号は、新しい画像のための適切な予測参照の予測検索用の時間を短縮するように予測器（４３６）を制御することができる。一例では、制御信号は、参照（例えば、参照画像、参照ブロックなど）を示すことができる。別の例では、制御信号は、検索のための開始ポイントを示すことができる。予測器（４３６）は、適切な予測参照を見つけるために、サンプルブロックに基づいて、画素ブロックごとに動作することができる。いくつかの場合では、予測器（４３６）によって得られた検索結果によって決定されるように、入力画像は、参照画像メモリ（４３５）に記憶された複数の参照画像から引き出された予測参照を有することができる。

コントローラ（４３１）は、例えば、ビデオデータを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダ（４３２）の符号化動作を管理することもできる。

上述のすべての機能ユニットの出力は、エントロピーコーダ（４３７）でエントロピー符号化されることができる。エントロピーコーダ（４３７）は、例えばハフマン符号化、可変長符号化、算術符号化などのような技術に従って、シンボルを無損失で圧縮することにより、様々な機能ユニットによって生成されたシンボルをコード化されたビデオシーケンスに変換する。

送信機（４１１）は、ネットワークを介した送信に備えるために、エントロピーコーダ（４３７）によって作成された、コード化されたビデオシーケンスをバッファリングすることができる。送信機（４１１）は、ビデオコーダ（４３０３）からのコード化されたビデオデータを、送信される他のデータ、例えば、コード化されたオーディオデータおよび／または補助データストリーム（ソースは図示せず）とマージすることができる。いくつかの例では、コード化されたビデオビットストリーム（４４３）およびオーバーレイコンテンツビットストリーム（４４４）は、単一のビットストリームに多重化される。別の例では、メタデータは、コード化されたビデオビットストリーム（４４３）に関連付けられたＳＥＩメッセージに含まれてもよい。

コントローラ（４３１）は、ビデオエンコーダ（４３０）の様々な管理動作を実行することができる。符号化する期間、コントローラ（４３１）は、各コード化された画像に、特定のコード化された画像タイプを割り当てることができ、これは、それぞれの画像に適用できる符号化技術に影響を与える可能性がある。例えば、画像が、Ｉ画像、Ｐ画像、Ｂ画像などの画像タイプの１つとして割り当てられることはが多い。

フレーム内画像（Ｉ画像）は、シーケンスにおける任意の他の画像を予測のソースとして使用せずに、符号化および復号されることができるものであってもよい。いくつかのビデオコーデックは、独立したデコーダリフレッシュ（ＩｎｄｅｐｅｎｄｅｎｔＤｅｃｏｄｅｒＲｅｆｒｅｓｈ、「ＩＤＲ」）画像などの異なるタイプのフレーム内画像を許容する。

予測画像（Ｐ画像）は、多くとも１つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するフレーム内予測またはフレーム間予測を使用して符号化および復号され得るものであってもよい。

双方向予測画像（Ｂ画像）は、多くとも２つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するフレーム内予測またはフレーム間予測を使用して符号化および復号され得るものであってもよい。同様に、複数の予測画像は、単一のブロックの再構築に、２つ以上の参照画像および関連付けられたメタデータを使用することができる。

ソース画像は、一般的に、複数のサンプルブロック（例えば、それぞれ４×４、８×８、４×８、または１６×１６個のサンプルのブロック）に空間的に細分され、ブロックごとにコード化されることができる。これらのブロックは、ブロックのそれぞれの画像に適用される符号化割り当てによって決定されるように、他の（既にコード化された）ブロックを参照して予測的にコード化されることができる。例えば、Ｉ画像のブロックは、非予測的にコード化されてもよく、またはそれらが同じ画像の既にコード化されたブロックを参照して予測的にコード化されてもよい（空間予測またはフレーム内予測）。Ｐ画像の画素ブロックは、１つ前にコード化された参照画像を参照して、空間的予測を介してまたは時間的予測を介して予測的にコード化されてもよい。Ｂ画像のブロックは、１つまたは２つ前にコード化された参照画像を参照して、空間的予測を介してまたは時間的予測を介して予測的にコード化されてもよい。

ビデオエンコーダ（４３０）は、所定のビデオコーディング技術または規格に従って、符号化動作を実行することができる。その動作において、ビデオエンコーダ（４３０）は、入力ビデオシーケンスにおける時間的と空間的冗長性を利用する予測符号化動作を含む、様々な圧縮動作を実行することができる。したがって、コード化されたビデオデータは、使用されるビデオコーディング技術または規格によって指定された構文に従うことができる。

一実施形態では、送信機（４１１）は、コード化されたビデオとともに、付加的なデータを送信することができる。ソースコーダ（４３２）は、そのようなデータを、符号化されたビデオシーケンスの一部として含むことができる。付加的なデータは、時間的／空間的／ＳＮＲ拡張層、冗長画像やスライスなどのような他の形式の冗長データ、ＳＥＩメッセージ、ＶＵＩパラメータセットフラグメントなどを含むことができる。

ビデオ（またはビデオシーケンス、生のビデオコンテンツ）は、時系列で複数のソース画像（ビデオ画像）として捕捉されることができる。フレーム内画像予測（フレーム内予測と略称されることが多い）は、与えられた画像における空間的相関を利用し、フレーム間画像予測は、画像間の（時間的または他の）相関を利用する。一例では、現在の画像と呼ばれる、符号化／復号化中の特定の画像がブロックに分割される。現在の画像のブロックが、ビデオにおける以前にコード化され、まだバッファリングされている参照画像における参照ブロックに類似している場合、現在の画像のブロックは、動きベクトルと呼ばれるベクトルによってコード化されることができる。動きベクトルは、参照画像における参照ブロックを指し、複数の参照画像が使用されている場合、参照画像を識別する３番目の次元を有することができる。

いくつかの実施形態では、双方向予測技術は、フレーム間画像予測に使用されることができる。双方向予測技術によれば、例えば、復号化の順で両方とも、ビデオにおける現在の画像の前にある（ただし、表示の順でそれぞれ、過去と将来にあるかもしれない）第１参照画像および第２参照画像などのような２つの参照画像が使用される。現在の画像におけるブロックは、第１参照画像における第１参照ブロックを指す第１動きベクトルと、第２参照画像における第２参照ブロックを指す第２動きベクトルによってコード化されることができる。ブロックは、第１参照ブロックおよび第２参照ブロックの組み合わせによって予測されることができる。

さらに、符号化効率を向上させるために、マージモード技術は、フレーム間画像予測で使用されることができる。

本開示のいくつかの実施形態によれば、フレーム間画像予測やフレーム内画像予測などのような予測は、ブロックの単位で実行される。例えば、高効率ビデオコーディング（ＨＥＶＣ：ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｖｉｄｅｏｃｏｄｉｎｇ）規格に従って、ビデオ画像のシーケンスにおける画像は、圧縮のために符号化ツリーユニット（ＣＴＵ：ｃｏｄｉｎｇｔｒｅｅｕｎｉｔ）に分割され、画像におけるＣＴＵは同じサイズ、例えば６４×６４画素、３２×３２画素、または１６×１６画素を有する。一般的に、ＣＴＵは、１つの輝度ＣＴＢと２つの色度ＣＴＢである３つの符号化ツリーブロック（ＣＴＢ）を含む。各ＣＴＵは、再帰的に四分木で１つ以上の符号化ユニット（ＣＵ）に分割されてもよい。例えば、６４×６４画素のＣＴＵは、１つの６４×６４画素のＣＵ、４つの３２×３２画素のＣＵ、または１６つの１６×１６画素のＣＵに分割されることができる。一例では、各ＣＵは、フレーム間予測タイプまたはフレーム内予測タイプなどのようなＣＵに対する予測タイプを決定するために分析される。ＣＵは、時間的および／または空間的予測可能性に応じて、１つ以上の予測ユニット（ＰＵ）に分割される。通常、各ＰＵは、輝度予測ブロック（ＰＢ）と２つの色度ＰＢを含む。一実施形態では、符号化（エンコーディング／デコーディング）における予測動作は、予測ブロックの単位で実行される。輝度予測ブロックを予測ブロックの例として使用すると、予測ブロックは、８×８画素、１６×１６画素、８×１６画素、１６×８画素などのような画素値（例えば、輝度値）の行列を含む。

図５は、本開示のいくつかの実施形態によるデコーダ（５８０）の図を示す。ビデオデコーダ（５８０）は、コード化されたビデオシーケンスの一部であるコード化された画像を受信し、コード化された画像を復号して再構築された画像を生成するように構成される。一例では、ビデオデコーダ（５８０）は、図３のビデオデコーダ（３８０）の代わりに使用される。

図５の例では、ビデオデコーダ（５８０）は、図５に示されるように一緒に結合された、エントロピーデコーダ（５８２）と、フレーム間デコーダ（５８５）と、残差デコーダ（５８３）と、再構築モジュール（５８６）と、フレーム内デコーダ（５８４）とを含む。

エントロピーデコーダ（５８２）は、コード化された画像から、コード化された画像を構成する構文要素を表す特定のシンボルを再構築するように構成されることができる。このようなシンボルは、例えば、ブロックをコード化するためのモード（例えば、フレーム内モード、フレーム間モード、双方向予測モード、後者の２つのマージサブモードまたは別のサブモード）と、フレーム内デコーダ（５８４）またはフレーム間デコーダ（５８５）による予測に使用される特定のサンプルまたはメタデータをそれぞれ識別できる予測情報（例えば、フレーム内予測情報またはフレーム間予測情報など）と、例えば量子化された変換係数の形式の残差情報などとを含む。一例では、予測モードがフレーム間予測モードまたは双方向予測モードである場合、フレーム間予測情報は、フレーム間デコーダ（５８５）に提供される。そして、予測タイプがフレーム内予測タイプである場合、フレーム内予測情報は、フレーム内デコーダ（５８４）に提供される。残差情報は、逆量子化を受けて、残差デコーダ（５８３）に提供されることができる。メタデータは、コントローラ（５８１）に提供され得る。

フレーム間デコーダ（５８５）は、フレーム間予測情報を受信し、フレーム間予測情報に基づいてフレーム間予測結果を生成するように構成される。

フレーム内デコーダ（５８４）は、フレーム内予測情報を受信し、フレーム内予測情報に基づいてフレーム内予測結果を生成するように構成される。

残差デコーダ（５８３）は、逆量子化を実行して、逆量子化された変換係数を抽出し、その逆量子化された変換係数を処理して、残差を周波数領域から空間領域に変換するように構成される。残差デコーダ（５８３）はまた、特定の制御情報（量子化器パラメータ（ＱＰ）を含むように）も必要とする場合があり、その情報は、エントロピーデコーダ（５８２）によって提供される場合がある（これが低ボリューム制御情報のみであるため、データ経路は図示されていない）。

再構築モジュール（５８６）は、空間領域において、残差デコーダ（５８３）による出力としての残差と、（場合によっては、フレーム間予測モジュールまたはフレーム内予測モジュールによる出力としての）予測結果とを組み合わせて、再構築されたブロックを形成するように構成され、再構築されたブロックは、再構築された画像の一部とすることができ、その後、再構築された画像は、再構築されたビデオの一部とすることができる。それは、視覚的品質を改善するために、デブロッキング動作などのような他の適切な動作を実行することができる、ということに留意されたい。再構築された画像は、例えばバッファ（５８７）内にバッファリングされ、バッファ（５８７）は、フレーム間デコーダ（５８５）に参照画像を提供することができる。

いくつかの実施形態では、コントローラ（５８１）は、メタデータを受信し、メタデータに基づいてデコーダ（５８０）の復号パラメータを構成することができる。いくつかの例では、コントローラ（５８１）は、メタデータに基づいて予測を制御するためにフレーム内デコーダ（５８４）および/またはフレーム間デコーダ（５８５）に制御信号を提供することができる。別の例では、コントローラ（５８１）は、メタデータからオーバーレイコンテンツを復号し、オーバーレイコンテンツを再構築モジュール（５８６）に提供することができる。したがって、再構築モジュール（５８６）は、オーバーレイコンテンツを用いて画像を再構築することができる。

図６は、本開示の一実施形態によるプロセス（６００）を概説するフローチャートを示す。プロセス（６００）は、クラウドゲームシステム（１００）、クラウドゲームシステム（３００）などのクラウドゲームシステムにおけるビデオシーケンスを符号化するために使用され得る。様々な実施形態では、プロセス（６００）は、サーバ（１１０）における処理回路（１２０）、サーバ（３１０）における処理回路（３２０）、ビデオエンコーダ（１３０）、ビデオエンコーダ（３３０）、ビデオエンコーダ（４３０）などの処理回路によって実行される。いくつかの実施形態では、プロセス（６００）は、ソフトウェア命令で実現され、したがって、処理回路がソフトウェア命令を実行する場合、処理回路は、プロセス（６００）を実行する。このプロセスは、（Ｓ６０１）から始まり、（Ｓ６０２）に進む。

（Ｓ６１０）で、ビデオシーケンスと、当該ビデオシーケンスに関連付けられたメタデータとを受信する。ビデオシーケンスは、ゲーム制御情報に応答して生成された一連の画像フレームを含む。メタデータは、ゲーム制御情報に基づいて決定され、ゲーム制御情報を示す。一例では、ゲームエンジン（３２５）などのゲームエンジンは、ゲームシーン制御情報、ユーザ情報などのゲーム制御情報に基づいて、ビデオコンテンツ、オーディオコンテンツなどのゲームコンテンツを生成する。ビデオコンテンツは、一連の画像フレームを含むビデオシーケンスとして生成され得る。さらに、ビデオシーケンスに関連付けられたメタデータは、ゲーム制御情報に基づいて識別され得る。ビデオシーケンスおよびメタデータは、ビデオエンコーダ（３３０）のようなビデオエンコーダに提供され得る。ビデオエンコーダ（３３０）は、ビデオシーケンスと、当該ビデオシーケンスに関連付けられたメタデータとを受信する。

（Ｓ６２０）で、メタデータに基づいて符号化構成を決定する。一実施形態では、メタデータは、画素レベルまたはブロックレベルでの動きベクトルを含む。動きベクトルに基づいて、ビデオシーケンスの画像フレーム内のブロックを符号化するための動き探索の開始ポイントは決定され得る。

別の実施形態では、メタデータは、ビデオシーケンスの画像フレームのシーン変化特徴、照明変化特徴、点滅特徴、パンニング特徴、ズーミング特徴、フェーディング特徴、およびオーバーレイ特徴のうちの少なくとも１つの画像特徴を示す。画像特徴に基づいて、画像フレームを符号化するための符号化構成（例えば、コーディングツール、パラメータセット、構成設定など）は決定され得る。

別の実施形態では、メタデータは、画像フレームにおける境界ボックスを示す。境界ボックスに基づいて、現在の画像フレームの前の画像フレームに対する前記現在の画像フレームにおける境界ボックスによってカバーされていないエリアのための前の画像フレームにおける参照エリアを決定することができる。前の画像フレームにおける参照エリアに基づいて、現在の画像フレームにおける境界ボックスによってカバーされていないエリアを符号化することができる。

別の実施形態では、メタデータは、第１画像フレームから第２画像フレームへのモデル変換（例えば、動きブラー効果の変化、レンズブラー効果の変化、レンズ歪みの変化、レンズビネットの変化など）を示す。符号化構成（例えば、フィルタツール、パラメータセット、構成設定など）は、モデル変換に基づいて決定され得る。符号化構成に基づいて、第２画像フレームにおけるブロックは、第１画像フレームにおける参照ブロックに基づいて符号化され得る。

別の実施形態では、メタデータは、後続の画像フレームにおける現在の画像フレームのオブジェクトの存在を示す。そして、バッファ構成（例えば、後続の画像フレームを符号化／復号するためのオブジェクトを含む再構築されたエリアをバッファリングする）は、メタデータに基づいて決定され得る。

別の実施形態では、メタデータは、画像フレームのノイズレベルを示す。そして、画像フレームのための前処理構成または後処理構成は、ノイズレベルに基づいて決定され得る。一例では、画像フレームは、前処理において前処理構成に基づいてノイズ除去され得る。別の例では、ノイズは、後処理において後処理構成に基づいて、再構築されたフレームに追加され得る。

別の実施形態では、メタデータは、画像フレームにおける関心のある領域を示す。いくつかの例では、より高い品質（例えば、より高い解像度、より高いビットレート）を有する第１符号化構成は、関心のある領域を符号化するために決定され得、また、第１符号化構成よりも低い品質を有する第２符号化構成は、関心のある領域外のエリアを符号化するために決定され得る。

別の実施形態では、メタデータは、画像フレームの領域におけるグラフィックオーバーレイを示す。そして、グラフィックオーバーレイに基づいて領域を符号化するための符号化構成は決定され得る。一例では、スキップモードは、コーディング効率を向上させるために、ロゴなどの特定のグラフィックオーバーレイをコード化するために使用され得る。

（Ｓ６３０）で、符号化構成に基づいて、ビデオシーケンスをコード化されたビデオビットストリームに符号化する。コード化されたビデオビットストリームは、ネットワークを介して、例えばクライアントデバイス（３６０）などのような宛先デバイスに送信され得る。いくつかの実施形態では、メタデータは、また、コード化されたビデオビットストリームの復号を宛先デバイスで支援するために、宛先デバイスに送信される。一実施形態では、メタデータは、コード化されたビデオビットストリームとともにＳＥＩメッセージで送信される。別の実施形態では、メタデータは、オーバーレイコンテンツを含む。オーバーレイコンテンツは、オーバーレイコンテンツビットストリームに符号化され得る。オーバーレイコンテンツビットストリームおよびコード化されたビデオビットストリームは、単一の出力ビットストリームに多重化され得る。単一の出力ビットストリームは、ネットワークを介して、宛先デバイスに送信され得る。

別の実施形態では、メタデータは、オーバーレイメッセージのための画像フレームにおけるメッセージボックスを示す。オーバーレイメッセージおよびオーバーレイメッセージの情報は、コード化されたビデオビットストリームの特定のＮＡＬＵに圧縮されて含まれ得る。コード化されたビデオビットストリームは、コード化されたビデオデータを搬送するための複数のＮＡＬＵ（例えば、パケット）を含み、オーバーレイメッセージを搬送するための特定のＮＡＬＵを含むことができる。コード化されたビデオビットストリームは、ネットワークを介して、宛先デバイスに送信され得る。その後、このプロセスは、（Ｓ６９９）に進んで終了する。

図７は、本開示の一実施形態によるプロセス（７００）を概説するフローチャートを示す。プロセス（７００）は、クラウドゲームシステム（１００）、クラウドゲームシステム（３００）などのクラウドゲームシステムにおけるビデオシーケンスを復号するために使用され得る。様々な実施形態では、プロセス（７００）は、クライアントデバイス（１６０）における処理回路（１７０）、クライアントデバイス（３６０）における処理回路（３７０）、ビデオデコーダ（１８０）、ビデオデコーダ（３８０）、ビデオデコーダ（４８０）などの処理回路によって実行される。いくつかの実施形態では、プロセス（７００）は、ソフトウェア命令で実現され、したがって、処理回路がソフトウェア命令を実行する場合、処理回路は、プロセス（７００）を実行する。このプロセスは、（Ｓ７０１）から始まり、（Ｓ７１０）に進む。

（Ｓ７１０）で、コード化されたビデオビットストリームと、当該コード化されたビデオビットストリームに関連付けられたメタデータとを受信する。メタデータは、サーバ（３１０）などのようなゲームサーバのビデオコンテンツを生成するためにも使用されるゲーム制御情報に基づいて決定される。

（Ｓ７２０）で、メタデータに基づいて、復号構成および再構築構成を決定する。

一実施形態では、メタデータは、画像フレームのノイズレベルを示す。そして、画像フレームのための後処理構成（再構築構成における構成）は、ノイズレベルに基づいて決定され得る。一例では、後処理構成により、ノイズレベルのノイズは、再構築された画像フレームに追加され得る。

（Ｓ７３０）で、復号構成に基づいて、コード化されたビデオビットストリームを復号し、再構築構成に基づいて、ビデオシーケンスを再構築する。その後、このプロセスは、（Ｓ７９９）に進んで終了する。

いくつかの実施形態では、コード化されたビデオビットストリームは、ビデオコンテンツを搬送するためのＮＡＬＵと、オーバーレイコンテンツを搬送するための特定のＮＡＬＵとを含む。特定のＮＡＬＵは、オーバーレイコンテンツを生成するために識別され、個別に（例えば、異なるデコーダによって）復号され得る。そして、ビデオシーケンスは、オーバーレイコンテンツで再構築され得る。

上記の技術は、コンピュータ読み取り可能な命令を使用するコンピュータソフトウェアとして実現され、また、物理的に１つ以上のコンピュータ読み取り可能な媒体に記憶されることができる。例えば、図８は、開示された主題の特定の実施形態を実現するのに適したコンピュータシステム（８００）を示す。

コンピュータソフトウェアは、任意の適切なマシンコードまたはコンピュータ言語を使用して符号化されることができ、アセンブリ、コンパイル、リンク、または同様のメカニズムを受けて命令を含むコードを作成することができ、命令は、１つ以上のコンピュータ中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）などによって、直接的に実行されてもよく、またはコード解釈、マイクロコード実行などによって実行されてもよい。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、オブジェクトネットワークデバイス（ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓｄｅｖｉｃｅｓ）などを含む、様々なタイプのコンピュータまたはそのコンポーネントで実行されてもよい。

図８に示されるコンピュータシステム（８００）のコンポーネントは、本質的に例示的なものであり、本開示の実施形態を実現するコンピュータソフトウェアの使用範囲または機能に関するいかなる制限も示唆することが意図されていない。コンポーネントの構成は、コンピュータシステム（８００）の例示的な実施形態に示されているコンポーネントのいずれかまたは組み合わせに関連する任意の依存性または要件を有すると解釈されるべきではない。

コンピュータシステム（８００）は、いくつかのヒューマンインターフェース入力デバイスを含むことができる。このようなヒューマンインターフェース入力デバイスは、触覚入力（例えば、キーストローク、スワイプ、データグローブの動きなど）、オーディオ入力（例えば、音声、拍手など）、視覚入力（例えば、ジェスチャーなど）、嗅覚入力（図示せず）によって、1人以上のユーザによる入力に応答することができる。ヒューマンインターフェースデバイスはまた、例えばオーディオ（例えば、音声、音楽、環境音など）、画像（例えば、スキャンされた画像、静止画像カメラから得られた写真画像など）、ビデオ（例えば、２次元ビデオ、立体映像を含む３次元ビデオなど）などの、人間による意識的な入力に必ずしも直接関連されているとは限らない、特定のメディアを捕捉するために使用されることもできる。

ヒューマンインターフェース入力デバイスは、キーボード（８０１）、マウス（８０２）、トラックパッド（８０３）、タッチスクリーン（８１０）、データグローブ（図示せず）、ジョイスティック（８０５）、マイクロホン（８０６）、スキャナ（８０７）、カメラ（８０８）（それぞれの1つだけが図示された）のうちの１つまたは複数を含むことができる。

コンピューターシステム（８００）はまた、いくつかのヒューマンインターフェース出力デバイスを含むことができる。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および嗅覚／味覚によって、１人以上のユーザの感覚を刺激することができる。このようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（８１０）、データグローブ（図示せず）またはジョイスティック（８０５）による触覚フィードバックであるが、入力デバイスとして作用しない触覚フィードバックデバイスであってもよい）、オーディオ出力デバイス（例えば、スピーカ（８０９）、ヘッドホン（図示せず））、視覚出力デバイス（例えば、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン（８１０）であり、各々は、タッチスクリーン入力機能を備えてもよく、あるいは備えていなくてもよいし、各々は、触覚フィードバック機能を備えてもよく、あるいは備えていなくてもよいし、これらのいくつかは、例えば、ステレオグラフィック出力、仮想現実メガネ（図示せず）、ホログラフィックディスプレイとスモークタンク（図示せず）、およびプリンタ（図示せず）などによって、２次元の視覚出力または３次元以上の視覚出力を出力することができる。

コンピューターシステム（８００）は、ＣＤ／ＤＶＤを有するＣＤ／ＤＶＤＲＯＭ／ＲＷ（８２０）を含む光学媒体または類似の媒体（８２１）、サムドライブ（８２２）、リムーバブルハードドライブまたはソリッドステートドライブ（８２３）、テープおよびフロッピーディスク（図示せず）などのようなレガシー磁気媒体、セキュリティドングル（図示せず）などのような特殊なＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイスなどのような、人間がアクセス可能な記憶デバイスおよびそれらに関連する媒体を含むことができる。

当業者はまた、ここで開示されている主題に関連して使用される「コンピュータ読み取り可能な媒体」という用語は、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解すべきである。

コンピューターシステム（８００）はまた、一つ以上の通信ネットワークへのインターフェースを含むことができる。ネットワークは、例えば、無線、有線、光学的であってもよい。ネットワークはさらに、ローカルネットワーク、広域ネットワーク、大都市圏ネットワーク、車両用ネットワークおよび産業用ネットワーク、リアルタイムネットワーク、遅延耐性ネットワークなどであってもよい。ネットワークの例は、イーサネット（登録商標）、無線ＬＡＮ、セルラーネットワーク（ＧＳＭ（登録商標）、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなど）などのＬＡＮ、テレビケーブルまたは無線広域デジタルネットワーク（有線テレビ、衛星テレビ、地上放送テレビを含む）、車両用および産業用ネットワーク（ＣＡＮＢｕｓを含む）などを含む。いくつかのネットワークは、一般に、いくつかの汎用データポートまたは周辺バス（８４９）（例えば、コンピュータシステム（８００）のＵＳＢポート）に接続された外部ネットワークインターフェースアダプタが必要であり、他のシステムは、通常、以下に説明するようにシステムバスに接続することによって、コンピュータシステムシステム（８００）のコアに統合される（例えば、ＰＣコンピュータシステムへのイーサネットインターフェース、またはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム（８００）は、他のエンティティと通信することができる。このような通信は、単方向の受信のみ（例えば、放送ＴＶ）、単方向の送信のみ（例えば、Ｃａｎｂｕｓから特定のＣａｎｂｕｓデバイスへ）、あるいは、双方向の、例えばローカルまたは広域デジタルネットワークを使用して他のコンピュータシステムへの通信であってもよい。上述のように、特定のプロトコルおよびプロトコルスタックは、それらのネットワークおよびネットワークインターフェースのそれぞれで使用されることができる。

上記のヒューマンインターフェースデバイス、ヒューマンアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピューターシステム（８００）のコア（８４０）に接続されることができる。

コア（８４０）は、１つ以上の中央処理ユニット（ＣＰＵ）（８４１）、グラフィック処理ユニット（ＧＰＵ）（８４２）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）（８４３）の形式の専用プログラマブル処理ユニット、特定のタスクのためのハードウェアアクセラレータ（８４４）などを含むことができる。これらのデバイスは、リードオンリーメモリ（ＲＯＭ）（８４５）、ランダムアクセスメモリ（８４６）、例えば内部の非ユーザアクセスハードディスクドライブ、ＳＳＤなどの内部大容量ストレージ（８４７）などとともに、システムバス（８４８）を介して接続されてもよい。いくつかのコンピュータシステムでは、付加的なＣＰＵ、ＧＰＵなどによって拡張を可能にするために、システムバス（８４８）に１つ以上の物理的プラグの形でアクセスすることができる。周辺デバイスは、コアのシステムバス（１３４８）に直接的に接続されてもよく、または周辺バス（８４９）を介して接続されてもよい。周辺バスのアーキテクチャは、外部コントローラインターフェース（ＰＣＩ）、汎用シリアルバス（ＵＳＢ）などを含む。

ＣＰＵ（８４１）、ＧＰＵ（８４２）、ＦＰＧＡ（８４３）、およびアクセラレータ（８４４）は、いくつかの命令を実行することができ、これらの命令を組み合わせて上述のコンピュータコードを構成することができる。そのコンピュータコードは、ＲＯＭ（８４５）またはＲＡＭ（８４６）に記憶されることができる。また、一時的なデータは、ＲＡＭ（８４６）に記憶されることができる一方、永久的なデータは、例えば内部大容量ストレージ（８４７）に記憶されることができる。１つ以上のＣＰＵ（８４１）、ＧＰＵ（８４２）、大容量ストレージ（８４７）、ＲＯＭ（８４５）、ＲＡＭ（８４６）などと密接に関連することができる、キャッシュメモリを使用することにより、任意のメモリデバイスに対する高速記憶および検索が可能になる。

コンピュータ読み取り可能な媒体は、様々なコンピュータ実装された動作を実行するためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構成されたものであってもよく、またはコンピュータソフトウェア分野の技術者によって知られ、利用可能な媒体およびコードであってもよい。

限定ではなく例として、アーキテクチャ（８００）、特にコア（８４０）を有するコンピュータシステムは、１つ以上の有形な、コンピュータ読み取り可能な媒体に具体化されたソフトウェアを実行する、（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）プロセッサとして機能を提供することができる。このようなコンピュータ読み取り可能な媒体は、上記のユーザがアクセス可能な大容量ストレージに関連する媒体であり、コア内部大容量ストレージ（８４７）またはＲＯＭ（８４５）などの、不揮発性コア（８４０）を有する特定のストレージであってもよい。本開示の様々な実施形態を実現するソフトウェアは、そのようなデバイスに記憶され、コア（８４０）によって実行されてもよい。コンピュータ読み取り可能な媒体は、特定のニーズに応じて、１つ以上のメモリデバイスまたはチップを含むことができる。このソフトウェアは、コア（８４０）、具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、ＲＡＭ（８４６）に記憶されているデータ構造を定義することと、ソフトウェアによって定義されたプロセスに従ってこのようなデータ構造を変更することとを含む、本明細書に説明された特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えてまたは代替として、コンピュータシステムは、ロジックハードワイヤードされているか、または別の方法で回路（例えば、アクセラレータ（８４４））に組み込まれているため、機能を提供することができ、この回路は、ソフトウェアの代わりに動作し、またはソフトウェアと一緒に動作して、本明細書に説明された特定のプロセスの特定のプロセスまたは特定の部分を実行することができる。適切な場合には、ソフトウェアへの参照はロジックを含むことができ、逆もまた然りである。適切な場合には、コンピュータ読み取り可能な媒体への参照は、実行されるソフトウェアを記憶する回路（集積回路（ＩＣ）など）を含み、実行されるロジックを具体化する回路、またはその両方を兼ね備えることができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組み合わせを包含する。

本開示は、いくつかの例示的な実施形態について説明したが、本開示の範囲内にある変更、配置、および様々な均等置換が存在している。したがって、当業者は、本明細書では明確に示されていないかまたは説明されていないが、本開示の原則を具現しているので、本開示の精神および範囲内にある、様々なシステムおよび方法を設計することができる、ということを理解されたい。

１００クラウドゲームシステム
１０１サーバシステム
１０２クライアントシステム
１１０サーバ
１１１インターフェース回路
１１５メモリ
１２０処理回路
１２５ゲームエンジン
１３０ビデオエンコーダ
１５０ネットワーク
１６０クライアントデバイス
１６１インターフェース回路
１６５ディスプレイ
１６９ユーザ入力デバイス
１７０処理回路
１７５ゲームクライアント
１８０ビデオデコーダ

Claims

電子デバイスが実行するクラウドゲーム用の方法であって、
ビデオシーケンスと、前記ビデオシーケンスに関連付けられたメタデータとをゲームエンジンから受信するステップであって、前記メタデータは、ゲーム環境に関するゲーム制御情報に基づいて作成され、前記ゲーム制御情報は、ユーザ制御情報と、ゲームシーン情報とを含み、前記メタデータは、前記ユーザ制御情報がユーザ入力に応じて変更されることに基づいて前記ゲームエンジンにおいて更新され、かつ、前記ゲームシーン情報がゲームシーンの動きに応じて変更されることに基づいて前記ゲームエンジンにおいて更新され、前記ビデオシーケンスは、前記ゲーム制御情報に応答して生成された一連の画像フレームを含む、ステップと、
前記メタデータに基づいて、前記ビデオシーケンスを符号化するための符号化構成を決定するステップと、
前記符号化構成に基づいて、前記ビデオシーケンスをコード化されたビデオビットストリームに符号化するステップと、
を含み、
前記メタデータは、前記ビデオシーケンスの画像フレームの照明変化特徴、点滅特性、およびフェーディング特徴のうちの少なくとも１つの画像特徴を示し、前記方法は、さらに、
前記画像特徴に基づいて、前記画像フレームを符号化するための符号化構成を決定するステップ、を含むことを特徴とする方法。
前記メタデータは、動きベクトルを含み、前記方法は、さらに、
前記動きベクトルに基づいて、前記ビデオシーケンスの画像フレーム内のブロックを符号化するための動き探索の開始ポイントを決定するステップ、を含む、
ことを特徴とする請求項１に記載の方法。
前記メタデータは、前記ビデオシーケンスの画像フレームのシーン変化特徴、パンニング特徴、ズーミング特徴、およびオーバーレイ特徴のうちの少なくとも１つの画像特徴をさらに示し、前記方法は、さらに、
前記画像特徴に基づいて、前記画像フレームを符号化するための符号化構成を決定するステップ、を含む、
ことを特徴とする請求項１に記載の方法。
前記メタデータは、画像フレームにおける境界ボックスを示し、前記方法は、さらに、
前記境界ボックスに基づいて、現在の画像フレームの前の画像フレームに対する前記現在の画像フレームにおける境界ボックスによってカバーされていないエリアのための前記前の画像フレームにおける参照エリアを決定するステップと、
前記前の画像フレームにおける参照エリアに基づいて、前記現在の画像フレームにおける境界ボックスによってカバーされていないエリアを符号化するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記メタデータは、第１画像フレームから第２画像フレームへのモデル変換を示し、前記方法は、さらに、
前記モデル変換に基づいて、前記符号化構成を決定するステップと、
前記符号化構成に基づいて、前記第２画像フレームにおけるブロックを、前記第１画像フレームにおける参照フレームに基づいて符号化するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記メタデータは、後続の画像フレームにおける現在の画像フレームのオブジェクトの存在を示し、前記方法は、さらに、
前記メタデータに基づいて、バッファ構成を決定するステップ、を含む、
ことを特徴とする請求項１に記載の方法。
前記メタデータは、画像フレームのノイズレベルを示し、前記方法は、さらに、
前記ノイズレベルに基づいて、前記画像フレームを前処理／後処理するステップ、を含む、
ことを特徴とする請求項１に記載の方法。
前記メタデータは、画像フレームにおける関心のある領域を示し、前記方法は、さらに、
前記関心のある領域外のブロックを符号化するために使用される第２符号化構成よりも高品質を有する第１符号化構成を使用して、前記関心のある領域を符号化するステップ、を含む、
ことを特徴とする請求項１に記載の方法。
前記メタデータは、画像フレームの領域におけるグラフィックオーバーレイを示し、前記方法は、さらに、
前記グラフィックオーバーレイに基づいて、前記領域を符号化するための符号化構成を決定するステップ、を含む、
ことを特徴とする請求項１に記載の方法。
前記メタデータは、オーバーレイメッセージ用の画像フレームにおけるメッセージボックスを示し、前記方法は、さらに、
前記コード化されたビデオビットストリームの特定のネットワーク抽象化層ユニットＮＡＬＵに、前記オーバーレイメッセージの情報を含ませるステップ、を含む、
ことを特徴とする請求項１に記載の方法。
クラウドゲーム用の装置であって、
処理回路を備え、前記処理回路は、
ビデオシーケンスと、前記ビデオシーケンスに関連付けられたメタデータとをゲームエンジンから受信することであって、前記メタデータは、ゲーム環境に関するゲーム制御情報に基づいて作成され、前記ゲーム制御情報は、ユーザ制御情報と、ゲームシーン情報とを含み、前記メタデータは、前記ユーザ制御情報がユーザ入力に応じて変更されることに基づいて前記ゲームエンジンにおいて更新され、かつ、前記ゲームシーン情報がゲームシーンの動きに応じて変更されることに基づいて前記ゲームエンジンにおいて更新され、前記ビデオシーケンスは、前記ゲーム制御情報に応答して生成された一連の画像フレームを含む、ことと、
前記メタデータに基づいて、前記ビデオシーケンスを符号化するための符号化構成を決定することと、
前記符号化構成に基づいて、前記ビデオシーケンスをコード化されたビデオビットストリームに符号化することと、を実行するように構成され、
前記メタデータは、前記ビデオシーケンスの画像フレームの照明変化特徴、点滅特性、およびフェーディング特徴のうちの少なくとも１つの画像特徴を示し、前記処理回路は、さらに、
前記画像特徴に基づいて、前記画像フレームを符号化するための符号化構成を決定することを、実行するように構成される、
ことを特徴とする装置。
前記メタデータは、動きベクトルを含み、前記処理回路は、さらに、
前記動きベクトルに基づいて、前記ビデオシーケンスの画像フレーム内のブロックを符号化するための動き探索の開始ポイントを決定すること、を実行するように構成される、
ことを特徴とする請求項１１に記載の装置。
前記メタデータは、前記ビデオシーケンスの画像フレームのシーン変化特徴、パンニング特徴、ズーミング特徴、およびオーバーレイ特徴のうちの少なくとも１つの画像特徴をさらに示し、前記処理回路は、さらに、
前記画像特徴に基づいて、前記画像フレームを符号化するための符号化構成を決定することを、実行するように構成される、
ことを特徴とする請求項１１に記載の装置。
前記メタデータは、画像フレームにおける境界ボックスを示し、前記処理回路は、さらに、
前記境界ボックスに基づいて、現在の画像フレームの前の画像フレームに対する前記現在の画像フレームにおける境界ボックスによってカバーされていないエリアのための前記前の画像フレームにおける参照エリアを決定することと、
前記前の画像フレームにおける参照エリアに基づいて、前記現在の画像フレームにおける境界ボックスによってカバーされていないエリアを符号化することと、を実行するように構成される、
ことを特徴とする請求項１１に記載の装置。
前記メタデータは、第１画像フレームから第２画像フレームへのモデル変換を示し、前記処理回路は、さらに、
前記モデル変換に基づいて、前記符号化構成を決定することと、
前記符号化構成に基づいて、前記第２画像フレームにおけるブロックを、前記第１画像フレームにおける参照フレームに基づいて符号化することと、を実行するように構成される、
ことを特徴とする請求項１１に記載の装置。
前記メタデータは、後続の画像フレームにおける現在の画像フレームのオブジェクトの存在を示し、前記処理回路は、さらに、
前記メタデータに基づいて、バッファ構成を決定すること、を実行するように構成される、
ことを特徴とする請求項１１に記載の装置。
前記メタデータは、画像フレームのノイズレベルを示し、前記処理回路は、さらに、
前記ノイズレベルに基づいて、前記画像フレームを前処理／後処理すること、を実行するように構成される、
ことを特徴とする請求項１１に記載の装置。
前記メタデータは、画像フレームにおける関心のある領域を示し、前記処理回路は、さらに、
前記関心のある領域外のブロックを符号化するために使用される第２符号化構成よりも高品質を有する第１符号化構成を使用して、前記関心のある領域を符号化すること、を実行するように構成される、
ことを特徴とする請求項１１に記載の装置。
電子デバイスであって、
前記電子デバイスには、プロセッサとメモリとが含まれ、
前記メモリには、読み取り可能な命令が記憶されており、前記読み取り可能な命令が前記プロセッサによってロードされて実行されると、請求項１～１０のいずれか１項に記載の方法が実現される、
ことを特徴とする電子デバイス。
コンピュータプログラムであって、
前記コンピュータプログラムは、電子デバイスによってロードされて実行されるとき、前記電子デバイスに請求項１～１０のいずれか１項に記載の方法を実行させる、
ことを特徴とするコンピュータプログラム。