JP2020534726A

JP2020534726A - 全方位ビデオの符号化のための方法および装置

Info

Publication number: JP2020534726A
Application number: JP2020512470A
Authority: JP
Inventors: ギャルピン，フランク; ラケイプ，ファビアン; ボルデ，フィリップ
Original assignee: インターデジタルヴイシーホールディングス，インコーポレイテッド
Priority date: 2017-09-18
Filing date: 2018-09-14
Publication date: 2020-11-26
Also published as: US20200236370A1; EP3685584A1; EP3457698A1; RU2020113609A; WO2019055788A1; CN111095930A

Abstract

該方法および該装置は、正距円筒図法に関連するビデオ符号化のためのツールおよび演算を可能にする。これらの技術は、特定のツールおよび演算を選択的に実行可能にするためのフラグを使用するので、可能であれば符号化および復号化の複雑さを低減することができる。一実施形態では、フラグは、ＥＲＰ動きベクトル予測、ＥＲＰイントラ予測、ＥＲＰベース量子化パラメータ適応、または他のそのような機能を起動するためにスライスレベルまたはピクチャレベルで使用される。別の実施形態では、ＥＲＰ関連ツールは、フラグを使用して画像内の位置に基づいて起動され得る。他の実施形態では、ＥＲＰ関連ツールは、デフォルト動き差分とＥＲＰ変換動き差分との比較に基づいて、または対応するフラグを有するエッジ検出スコアに基づいて、起動され得る。【選択図】図２０

Description

以下に説明する態様は、一般的に、ビデオ圧縮の分野に関し、特に、全方位ビデオの分野に関する。

近年、利用可能な広視野コンテンツ（最大３６０°）が増加している。このようなコンテンツは、ヘッドマウントディスプレイ（ＨＭＤ）、スマートグラス、ＰＣスクリーン、タブレット、スマートフォンなどのような没入型表示装置上でコンテンツを見るユーザには十分に見えない可能性がある。つまり、所与の瞬間に、ユーザがコンテンツの一部しか見ていない場合がある。しかしながら、ユーザは、典型的には、頭の移動、マウス移動、タッチスクリーン、音声などの様々な手段によってコンテンツ内をナビゲートすることができる。典型的には、このコンテンツを符号化し、復号化することが望ましい。

従来技術の上述の欠点および不利点および他の欠点および不利点は、記述されている実施形態の少なくとも１つによって対処される。これらの実施形態は、正距円筒図法（ＥＲＰ）、またはＥＲＰ動きベクトル変換方法および関連する符号化方法のような同様のマッピング特有のツールに適応した圧縮シンタックスを設計するための方法および装置を対象とする。

少なくとも１つの実施形態では、１つの方法が提供される。該方法は、広視野ビデオ用のビデオビットストリームの少なくとも一部を符号化するステップであって、前記広視野ビデオの少なくとも１つのピクチャは投影関数を使用して少なくとも１つの２次元ピクチャ上に投影された３次元表面として表される、符号化ステップと、前記投影関数に対応する前記ビデオ上で演算を実行するステップと、前記性能を表す前記ビデオビットストリームのシンタックス要素内にフラグを挿入するステップとを含む。

少なくとも１つの他の実施形態では、１つの方法が提供される。該方法は、広視野ビデオ用のビデオビットストリームの少なくとも一部を解析するステップであって、前記広視野ビデオの少なくとも１つのピクチャは、投影関数を使用して少なくとも１つの２次元ピクチャ上に投影された３次元表面として表される、解析ステップと、前記ビデオビットストリームのシンタックス要素内のフラグを検出するステップと、前記フラグに基づいて前記投影関数に対応する前記ビデオ上で演算を実行するかどうかを決定するステップと、前記ビデオビットストリームの少なくとも一部を復号化するステップとを含む。

別の実施形態では、上述の方法のいずれかに従う方法であって、ＥＲＰツールが起動されるかどうかを示すフラグからスライスパラメータが推定される方法が提供される。次に、起動モードがスライスに対して設定される。

別の実施形態では、上述の方法のいずれかに従う方法であって、マルチパスエンコーダを使用して、ツールがピクチャの一部に対して起動されるかどうかを選択するためにＥＲＰ演算をレート歪みオプティマイザに加える方法が提供される。

別の実施形態では、上述の方法のいずれかに従う方法であって、動き推定器を使用して、ピクチャの一部についてＥＲＰツールを起動するかどうかを決定する方法が提供される。

別の実施形態では、上述の方法のいずれかに従う方法であって、エッジ検出器を使用して、ピクチャの一部についてＥＲＰツールを起動するかどうかを決定する方法が提供される。

別の実施形態では、１つの装置が提供される。該装置は、メモリおよびプロセッサを備える。プロセッサは、符号化または復号化のために、上述の方法の実施形態のいずれかの変形形態を実行するように構成される。

本明細書に記載されている別の態様によれば、プロセッサを使用して再生するために、上述の方法の実施形態のいずれか１つの方法に従って、または上述の装置の実施形態のいずれか１つの装置によって生成されたデータコンテンツを含む非一時的なコンピュータ可読記憶媒体が提供される。

本明細書に記載されている別の態様によれば、プロセッサを使用して再生するために、ビデオデータのブロックを符号化するための上述の方法の実施形態のいずれか１つの方法に従って、またはビデオデータのブロックを符号化するための上述の装置の実施形態のいずれか１つの装置によって生成されたビデオデータを含む信号が提供される。

本明細書に記載されている別の態様によれば、コンピュータによってプログラムが実行されるときに、上述の方法の実施形態のいずれか１つの方法をコンピュータに実行させる命令を含むコンピュータプログラム製品が提供される。

本発明の原理の上述の態様、特徴、および利点または他の態様、特徴、および利点は、添付図面に関連して読まれる例示的な実施形態の以下の詳細な説明から明らかになるであろう。

特定の非限定的な実施形態に係る、全方位ビデオを符号化および復号化するための例示的なシステムを示す図である。様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成されたシステムを示す図である。様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成されたシステムを示す図である。様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成されたシステムを示す図である。様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成されたシステムを示す図である。様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成されたシステムを示す図である。様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成された没入型壁を有するシステムを示す図である。様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成された没入型壁を有するシステムを示す図である。様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成された没入型壁を有するシステムを示す図である。様々な実施形態に係る、没入型ビデオレンダリング装置を示す図である。様々な実施形態に係る、没入型ビデオレンダリング装置を示す図である。様々な実施形態に係る、没入型ビデオレンダリング装置を示す図である。球面Ｓから矩形ピクチャＦへの投影の一例を示す図である。球面Ｓから矩形ピクチャＦへの投影の一例を示す図である。立方体表面Ｓから６つのピクチャへの投影の一例、および２Ｄピクチャ上に投影された立方体の６つの面のレイアウトを示す図である。立方体表面Ｓから６つのピクチャへの投影の一例、および２Ｄピクチャ上に投影された立方体の６つの面のレイアウトを示す図である。全方位ビデオを表す３Ｄ表面の投影ピクチャＦ内の移動オブジェクト、および投影ピクチャのブロック分割内の対応する動きベクトルを示す図である。全方位ビデオを表す３Ｄ表面の投影ピクチャＦ内の移動オブジェクト、および投影ピクチャのブロック分割内の対応する動きベクトルを示す図である。フレーム座標からレンダリングされたフレームへのマッピング、およびレンダリングされたフレームから符号化されたフレームへのマッピングを示す図である。フレーム座標からレンダリングされたフレームへのマッピング、およびレンダリングされたフレームから符号化されたフレームへのマッピングを示す図である。ビデオデコーダのフローチャートの実施形態の一例を示す図である。記載されている態様が適用され得るエンコーダの一例を示す図である。記載されている態様が適用され得るデコーダの別の例を示す図である。記載されている態様に従う自動スライス作成の一例を示す図である。より速い動きベクトル予測導出のためのフロー図の一例を示す図である。記載されている態様に係る、符号化方法の一実施形態を示す図である。記載されている態様に係る、復号化方法の一実施形態を示す図である。記載されている態様に係る、符号化または復号化のための装置の一実施形態を示す図である。

全方位コンテンツは、通常、所与のレイアウト上に投影されるので、符号化／復号化する最終コンテンツは、既存のコーデックによる処理に便利である矩形フレームに適合する。マッピングによって、圧縮性能を損なう可能性のある幾何学的歪みが発生し得る。特に、動きベクトル予測は、ＥＲＰマッピングを扱うときには適していないことがある。以下の実施形態は、同様の特性を有する他のマッピングにも拡張され得る。

記載されている実施形態の少なくとも１つは、ＥＲＰマッピングに適応した新たな動きベクトル予測を設計する際に使用される。従来技術、特に、時間的動きベクトル予測子または拡大縮小された動きベクトル予測子を処理するためのより優れた方法に対して、いくつかの改良がなされる。

広視野コンテンツは、とりわけ、３次元コンピュータグラフィック画像シーン（３ＤＣＧＩシーン）、ポイントクラウド、または没入型ビデオであり得る。例えば、仮想現実（ＶＲ）、３６０、パノラマ、４π、ステラジアン、没入型、全方位、広視野のような多くの用語が、このような没入型ビデオを設計するために使用され得る。

没入型ビデオは、典型的には、「通常の」ビデオのような画素の２次元配列（すなわち、カラー情報の要素）である矩形フレーム上で符号化されたビデオを指す。多くの実施態様では、以下のプロセスが実行され得る。フレームは、レンダリングのために、最初に、マッピング表面（例えば、球体、立方体、錐体）とも呼ばれる、凸状体積の内面上にマッピングされ、次に、この体積の一部が仮想カメラによってキャプチャされる。仮想カメラによってキャプチャされた画像は、没入型表示装置のスクリーン上にレンダリングされる。立体ビデオは、装置の特性に応じて２つの仮想カメラによってキャプチャされるように組み合わされた２つのマッピング表面上に投影された１つまたは２つの矩形フレーム上で符号化される。

画素は、フレーム内のマッピング関数に従って符号化され得る。マッピング関数は、マッピング表面に依存し得る。同一のマッピング表面に対して、いくつかのマッピング関数が可能である。例えば、立方体の面は、フレーム表面内の異なるレイアウトに従って構成され得る。球体は、例えば、正距円筒図法に従って、または心射図法に従ってマッピングされ得る。選択された投影関数から得られる画素の編成は、線連続性、正規直交ローカルフレーム、画素密度を変更または分割し、時間および空間の周期性を生成する。これらは、ビデオを符号化し、復号化するために使用される典型的な特徴である。既存の符号化方法および復号化方法は、通常、没入型ビデオの特異性を考慮するものではない。実際に、没入型ビデオは３６０°のビデオであり得るので、例えば、パンニングは、シーンのコンテンツが変化しない間に符号化すべき大量のデータを必要とする動きおよび不連続性を生成する。ビデオフレームを符号化および復号化する間に、没入型ビデオの特異性を考慮に入れることは、符号化方法または復号化方法に有益な利点をもたらすであろう。

図１は、特定の非限定的な実施形態の符号化／復号化システムの概要を示す。図１のシステムは、機能システムである。前処理モジュール１１０は、符号化装置１２０によって符号化するためのコンテンツを準備し得る。前処理モジュール１１０は、複数画像取得、共通空間（典型的には、方向を符号化する場合には３Ｄ球体）内における取得された複数の画像のマージ、および、例えば、これらに限定されないが、正距円筒図法マッピングまたはキューブマッピングを使用した、３Ｄ球体の２Ｄフレームへのマッピングを実行することができる。前処理モジュール１１０は、入力として、特定のフォーマット（例えば、正距円筒図法）で全方位ビデオを受け取ることもでき、ビデオを前処理して、マッピングを符号化にもっと適したフォーマットに変更することができる。取得されたビデオデータ表現に応じて、前処理モジュール１１０は、マッピング空間変更を実行することができる。

符号化装置１２０および符号化方法については、本明細書の他の図面に関して説明する。符号化された後、例えば、没入型ビデオデータまたは３ＤＣＧＩ符号化データを符号化し得るデータは、ネットワークインターフェース１３０（例えば、ゲートウェイ内に存在する任意のネットワークインターフェースで実装され得る）に送信される。その後、データは、インターネット（任意の他のネットワークも想定され得る）のような通信ネットワークを介して伝送される。その後、データは、ネットワークインターフェース１４０を介して受信される。ネットワークインターフェース１４０は、ゲートウェイ、テレビ受像機、セットトップボックス、ヘッドマウント型表示装置、没入型（投影）壁、または任意の没入型ビデオレンダリング装置内に実装され得る。

受信後、データは復号化装置１５０に送信される。復号化機能は、以下の図２〜図１２に記載されている処理機能の１つである。復号化されたデータは、次に、プレーヤ１６０によって処理される。プレーヤ１６０は、レンダリング装置１７０用のデータを準備し、センサからの外部データまたはユーザ入力データを受信し得る。より正確には、プレーヤ１６０は、レンダリング装置１７０によって表示される予定のビデオコンテンツの一部を準備する。復号化装置１５０およびプレーヤ１６０は、単一の装置（例えば、スマートフォン、ゲームコンソール、ＳＴＢ、タブレット、コンピュータなど）に統合され得る。他の実施形態では、プレーヤ１６０は、レンダリング装置１７０に統合され得る。

例えば、没入型ビデオをレンダリングするときに、没入型表示装置の復号化機能、再生機能、およびレンダリング機能を実行するために、いくつかのタイプのシステムが想定され得る。

拡張現実、仮想現実、または拡張仮想コンテンツを処理するための第１のシステムは、図２〜図６に示されている。このようなシステムは、処理機能、没入型ビデオレンダリング装置（例えば、ヘッドマウントディスプレイ（ＨＭＤ）、タブレット、またはスマートフォンであり得、センサを備え得る）を備える。没入型ビデオレンダリング装置はさらに、表示装置と処理機能との間に追加のインターフェースモジュールを備え得る。処理機能は、１つまたは複数の装置によって実行され得る。これらの装置は、没入型ビデオレンダリング装置に統合され得るか、１つまたは複数の処理装置に統合され得る。処理装置は、１つまたは複数のプロセッサと、無線または有線通信インターフェースのような没入型ビデオレンダリング装置との通信インターフェースとを備える。

処理装置は、インターネットのようなワイドアクセスネットワークとの第２の通信インターフェースをさらに備え、クラウド上に位置するコンテンツに直接、またはホームもしくはローカルゲートウェイのようなネットワークデバイスを介してアクセスすることができる。処理装置はさらに、イーサネットタイプのローカルアクセスネットワークのような第３のインターフェースを介してローカルストレージにアクセスすることもできる。ある実施形態では、処理装置は、１つまたは複数の処理ユニットを有するコンピュータシステムであり得る。別の実施形態では、処理装置は、有線または無線リンクを介して没入型ビデオレンダリング装置に接続され得る、または没入型ビデオレンダリング装置のハウジング内に挿入され、コネクタを介して、もしくは無線でも通信し得るスマートフォンであり得る。処理装置の通信インターフェースは、有線インターフェース（例えば、バスインターフェース、広域ネットワークインターフェース、ローカルエリアネットワークインターフェース）または無線インターフェース（例えば、ＩＥＥＥ８０２．１１インターフェースまたはＢｌｕｅｔｏｏｔｈ（登録商標）インターフェース）である。

処理機能が没入型ビデオレンダリング装置によって実行される場合、没入型ビデオレンダリング装置には、コンテンツを受信および／または伝送するために、直接またはゲートウェイを介してネットワークに接続するためのインターフェースが提供され得る。

別の実施形態では、システムは、没入型ビデオレンダリング装置および処理装置と通信する補助装置を備える。このような実施形態では、この補助装置は、処理機能のうちの少なくとも１つを含み得る。

没入型ビデオレンダリング装置は、１つまたは複数のディスプレイを備え得る。該装置は、ディスプレイの各々の前にレンズのような光学系を使用し得る。ディスプレイは、スマートフォンまたはタブレットの場合のように、没入型表示装置の一部でもあり得る。別の実施形態では、ディスプレイおよび光学系は、ユーザが着用することができるヘルメット、眼鏡、またはバイザー内に埋め込まれ得る。没入型ビデオレンダリング装置は、後述するように、いくつかのセンサを統合することもできる。没入型ビデオレンダリング装置はさらに、いくつかのインターフェースまたはコネクタを備え得る。没入型ビデオレンダリング装置は、センサ、処理機能、ハンドヘルドまたは他の身体部分関連デバイスもしくはセンサと通信するために、１つまたは複数の無線モジュールを備えてよい。

没入型ビデオレンダリング装置はさらに、１つまたは複数のプロセッサによって実行され、コンテンツを復号化するように、またはコンテンツを処理するように構成された処理機能を備え得る。ここでコンテンツを処理することにより、全ての機能が表示可能なコンテンツを準備することが理解される。これは、例えば、コンテンツを復号化すること、コンテンツを表示する前にコンテンツをマージすること、および表示装置に適合するようにコンテンツを修正することを含み得る。

没入型コンテンツレンダリング装置の１つの機能は、仮想ボリュームとして構成されたコンテンツの少なくとも一部をキャプチャする仮想カメラを制御することである。該システムは、仮想カメラの姿勢を処理するために、ユーザの姿勢、例えば、ユーザの頭部の姿勢を全体的にまたは部分的に追跡する姿勢追跡センサを備え得る。いくつかの位置決めセンサは、ユーザの変位を追跡し得る。システムはさらに、例えば、照明、温度または音の状態を測定するために、環境に関連する他のセンサを備え得る。このようなセンサは、例えば、発汗または心拍数を測定するために、ユーザの身体にも関連し得る。これらのセンサを介して取得された情報は、コンテンツを処理するために使用され得る。該システムはさらに、ユーザ入力装置（例えば、マウス、キーボード、リモートコントロール、ジョイスティック）を備え得る。ユーザ入力装置からの情報は、コンテンツを処理するために、ユーザインターフェースを管理するために、または仮想カメラの姿勢を制御するために使用され得る。センサおよびユーザ入力装置は、有線または無線通信インターフェースを介して、処理装置および／または没入型レンダリング装置と通信する。

図２〜図６を用いて、拡張現実、仮想現実、拡張仮想、または拡張現実から仮想現実への任意のコンテンツを表示するためのこの第１のタイプのシステムのいくつかの実施形態を説明する。

図２は、没入型ビデオを復号化し、処理し、レンダリングするように構成されたシステムの特定の実施形態を示す。該システムは、没入型ビデオレンダリング装置１０、センサ２０、ユーザ入力装置３０、コンピュータ４０、およびゲートウェイ５０（任意）を備える。

図１０に示されている没入型ビデオレンダリング装置１０は、ディスプレイ１０１を備える。ディスプレイは、例えば、ＯＬＥＤまたはＬＣＤタイプのディスプレイである。没入型ビデオレンダリング装置１０は、例えば、ＨＭＤ、タブレット、またはスマートフォンである。装置１０は、タッチ面１０２（例えば、タッチパッドまたは触覚スクリーン）、カメラ１０３、少なくとも１つのプロセッサ１０４に接続されたメモリ１０５、および少なくとも１つの通信インターフェース１０６を備え得る。少なくとも１つのプロセッサ１０４は、センサ２０から受信された信号を処理する。

センサからの測定値のいくつかは、装置の姿勢を計算し、仮想カメラを制御するために使用される。姿勢推定に使用されるセンサは、例えば、ジャイロスコープ、加速度計、またはコンパスである。例えば、カメラのリグを使用する、より複雑なシステムが使用される場合もある。この場合、少なくとも１つのプロセッサは、装置１０の姿勢を推定するために画像処理を実行する。環境条件またはユーザの反応に応じてコンテンツを処理するために、他のいくつかの測定値が使用される。環境およびユーザを観察するために使用されるセンサは、例えば、マイクロフォン、光センサ、または接触センサである。例えば、ユーザの眼を追跡するビデオカメラのように、より複雑なシステムが使用される場合もある。この場合、少なくとも１つのプロセッサは、予測される測定値を演算するために画像処理を実行する。センサ２０およびユーザ入力装置３０からのデータは、これらのセンサの入力に従ってデータを処理するコンピュータ４０にも伝送され得る。

メモリ１０５は、プロセッサ１０４用のパラメータおよびコードプログラム命令を含む。メモリ１０５は、センサ２０およびユーザ入力装置３０から受信されたパラメータをさらに含み得る。通信インターフェース１０６は、没入型ビデオレンダリング装置がコンピュータ４０と通信することを可能にする。処理装置の通信インターフェース１０６は、有線インターフェース（例えば、バスインターフェース、広域ネットワークインターフェース、ローカルエリアネットワークインタフェース）または無線インターフェース（例えば、ＩＥＥＥ８０２．１１インターフェースもしくはＢｌｕｅｔｏｏｔｈ（登録商標）インターフェース）であり得る。

コンピュータ４０は、データおよび任意で制御コマンドを没入型ビデオレンダリング装置１０に送信する。コンピュータ４０は、データを処理する、すなわち、データを没入型ビデオレンダリング装置１０によって表示するための準備をするのを担当する。処理は、コンピュータ４０のみによって行われ得るか、または処理の一部がコンピュータによって行われ、一部が没入型ビデオレンダリング装置１０によって行われ得る。コンピュータ４０は、直接またはゲートウェイもしくはネットワークインターフェース５０を介して、インターネットに接続される。コンピュータ４０は、インターネットから没入型ビデオを表すデータを受信し、これらのデータを処理し（例えば、データを復号化し、場合により没入型ビデオレンダリング装置１０によって表示される予定のビデオコンテンツの一部を準備する）、処理データを表示のために没入型ビデオレンダリング装置１０に送信する。別の実施形態では、該システムは、没入型ビデオを表すデータが記憶されるローカルストレージ（図示せず）を備え得、前記ローカルストレージは、コンピュータ４０上または例えばローカルエリアネットワークを介してアクセス可能なローカルサーバ（図示せず）上に存在し得る。

図３は、第２の実施形態を示す。この実施形態では、ＳＴＢ９０は、インターネットのようなネットワークに直接接続される（すなわち、ＳＴＢ９０は、ネットワークインターフェースを備える）、またはゲートウェイ５０を介して接続される。ＳＴＢ９０は、無線インターフェースを介して、または有線インターフェースを介して、テレビ受像機１００または没入型ビデオレンダリング装置２００のようなレンダリング装置に接続される。ＳＴＢの古典的機能に加えて、ＳＴＢ９０は、テレビ受像機１００または任意の没入型ビデオレンダリング装置２００上でレンダリングするためのビデオコンテンツを処理するための処理機能を備える。これらの処理機能は、コンピュータ４０に関して説明したものと同じであるので、ここでは説明を省略する。センサ２０およびユーザ入力装置３０も同様に、図２に関して上述したものと同じタイプのものである。ＳＴＢ９０は、インターネットから没入型ビデオを表すデータを取得する。別の実施形態では、ＳＴＢ９０は、没入型ビデオを表すデータが記憶されるローカルストレージ（図示せず）から没入型ビデオを表すデータを取得する。

図４は、図２に示されている実施形態に関連する第３の実施形態を示す。ゲームコンソール６０は、コンテンツデータを処理する。ゲームコンソール６０は、データおよび任意で制御コマンドを没入型ビデオレンダリング装置１０に送信する。ゲームコンソール６０は、没入型ビデオを表すデータを処理し、処理データを表示のために没入型ビデオレンダリング装置１０に送信するように構成される。処理は、ゲームコンソール６０のみによって行われ得るか、または処理の一部が没入型ビデオレンダリング装置１０によって行われ得る。

ゲームコンソール６０は、直接またはゲートウェイもしくはネットワークインターフェース５０を介して、インターネットに接続される。ゲームコンソール６０は、インターネットから没入型ビデオを表すデータを取得する。別の実施形態では、ゲームコンソール６０は、没入型ビデオを表すデータが記憶されるローカルストレージ（図示せず）から没入型ビデオを表すデータを取得し、前記ローカルストレージは、ゲームコンソール６０上または例えばローカルエリアネットワークを介してアクセス可能なローカルサーバ（図示せず）上に存在し得る。

ゲームコンソール６０は、インターネットから没入型ビデオを表すデータを受信し、これらのデータを処理し（例えば、データを復号化し、場合により表示される予定のビデオの一部を準備する）、処理データを表示のために没入型ビデオレンダリング装置１０に送信する。ゲームコンソール６０は、センサ２０およびユーザ入力装置３０からデータを受信し、そのデータを使用してインターネットまたはローカルストレージから取得された没入型ビデオを表すデータを処理し得る。

図５は、前記第１のタイプのシステムの第４の実施形態を示しており、この場合、没入型ビデオレンダリング装置７０はハウジング７０５内に挿入されたスマートフォン７０１によって形成される。スマートフォン７０１は、インターネットに接続されて、インターネットから没入型ビデオを表すデータを取得し得る。別の実施形態では、スマートフォン７０１は、没入型ビデオを表すデータが記憶されるローカルストレージ（図示せず）から没入型ビデオを表すデータを取得し、前記ローカルストレージは、スマートフォン７０１上または例えばローカルエリアネットワークを介してアクセス可能なローカルサーバ（図示せず）上に存在し得る。

没入型ビデオレンダリング装置７０について、没入型ビデオレンダリング装置７０の好適な実施形態を示す図１１を参照しながら説明する。没入型ビデオレンダリング装置７０は、任意で、少なくとも１つのネットワークインターフェース７０２と、スマートフォン７０１用のハウジング７０５とを備える。スマートフォン７０１は、スマートフォンおよびディスプレイの全ての機能を有する。スマートフォンのディスプレイは、没入型ビデオレンダリング装置７０のディスプレイとして使用される。したがって、スマートフォン７０１以外のディスプレイは含まれない。しかしながら、レンズのような光学系７０４は、スマートフォンディスプレイ上のデータを見るために含まれる。スマートフォン７０１は、場合によりセンサ２０およびユーザ入力装置３０から受信されたデータに応じて、没入型ビデオを表すデータを処理する（例えば、復号化し、表示の準備をする）ように構成される。センサからの測定値のいくつかは、装置の姿勢を計算し、仮想カメラを制御するために使用される。姿勢推定に使用されるセンサは、例えば、ジャイロスコープ、加速度計、またはコンパスである。例えば、カメラのリグを使用する、より複雑なシステムが使用される場合もある。この場合、少なくとも１つのプロセッサは、装置１０の姿勢を推定するために画像処理を実行する。環境条件またはユーザの反応に応じてコンテンツを処理するために、他のいくつかの測定値が使用される。環境およびユーザを観察するために使用されるセンサは、例えば、マイクロフォン、光センサ、または接触センサである。例えば、ユーザの眼を追跡するビデオカメラのように、より複雑なシステムが使用される場合もある。この場合、少なくとも１つのプロセッサは、予測される測定値を演算するために画像処理を実行する。

図６は、前記第１のタイプのシステムの第５の実施形態を示しており、没入型ビデオレンダリング装置８０は、データコンテンツを処理し表示する全ての機能を備える。システムは、没入型ビデオレンダリング装置８０と、センサ２０と、ユーザ入力装置３０とを備える。没入型ビデオレンダリング装置８０は、センサ２０およびユーザ入力装置３０から受信されたデータに応じて、没入型ビデオを表すデータを処理する（例えば、復号化し、表示の準備をする）ように構成される。没入型ビデオレンダリング装置８０はインターネットに接続されて、インターネットから没入型ビデオを表すデータを取得し得る。別の実施形態では、没入型ビデオレンダリング装置８０は、没入型ビデオを表すデータが記憶されるローカルストレージ（図示せず）から没入型ビデオを表すデータを取得し、前記ローカルストレージは、レンダリング装置８０上または例えばローカルエリアネットワークを介してアクセス可能なローカルサーバ（図示せず）上に存在し得る。

没入型ビデオレンダリング装置８０は、図１２に示されている。没入型ビデオレンダリング装置は、ディスプレイ８０１を備える。ディスプレイは、例えば、ＯＬＥＤまたはＬＣＤタイプのディスプレイであり得る。装置８０は、タッチ面（任意）８０２（例えば、タッチパッドまたは触覚スクリーン）、カメラ（任意）８０３、少なくとも１つのプロセッサ８０４に接続されたメモリ８０５、および少なくとも１つの通信インターフェース８０６を備え得る。メモリ８０５は、プロセッサ８０４用のパラメータおよびコードプログラム命令を含む。メモリ８０５はさらに、センサ２０およびユーザ入力装置３０から受信されたパラメータを含み得る。メモリはさらに、没入型ビデオコンテンツを表すデータを記憶するのに十分な大きさのメモリであり得る。これに対して、いくつかのタイプのメモリが存在し得、メモリ８０５は、単一のメモリであり得るか、いくつかのタイプのストレージ（ＳＤカード、ハードディスク、揮発性または不揮発性メモリ）であり得る。通信インターフェース８０６は、没入型ビデオレンダリング装置がインターネットネットワークと通信することを可能にする。プロセッサ８０４は、ディスプレイ８０１上にビデオを表すデータを表示するために、そのデータを処理する。カメラ８０３は、画像処理ステップの環境の画像をキャプチャする。没入型ビデオレンダリング装置を制御するために、このステップからデータが抽出される。

拡張現実、仮想現実、または拡張仮想化コンテンツを処理するための第２のシステムは、図７〜図９に示されている。このようなシステムは、没入型壁を備える。

図７は、第２のタイプのシステムを示す。該システムは、コンピュータ４０００からデータを受信する没入型（投影）壁であるディスプレイ１０００を備える。コンピュータ４０００は、インターネットから没入型ビデオデータを受信し得る。コンピュータ４０００は、通常、直接またはゲートウェイ５０００もしくはネットワークインターフェースを介してインターネットに接続される。別の実施形態では、没入型ビデオデータは、没入型ビデオを表すデータが記憶されるローカルストレージ（図示せず）からコンピュータ４０００によって取得され、前記ローカルストレージは、コンピュータ４０００内または例えばローカルエリアネットワークを介してアクセス可能なローカルサーバ（図示せず）内に存在し得る。

このシステムはさらに、センサ２０００およびユーザ入力装置３０００を備え得る。没入型壁１０００は、ＯＬＥＤまたはＬＣＤタイプの没入型壁であり得る。没入型壁１０００には、１つまたは複数のカメラが装備され得る。没入型壁１０００は、センサ２０００（または複数のセンサ２０００）から受信されたデータを処理し得る。センサ２０００から受信されるデータは、照明条件、温度、ユーザの環境、例えば、オブジェクトの位置に関連し得る。

没入型壁１０００はさらに、ユーザ入力装置３０００から受信されたデータを処理し得る。ユーザ入力装置３０００は、ユーザの感情に関してフィードバックするために、触覚信号のようなデータを送信する。ユーザ入力装置３０００の例は、スマートフォン、リモートコントロール、およびジャイロスコープ機能を有する装置のようなハンドヘルド装置である。

センサ２０００およびユーザ入力装置３０００のデータはさらに、コンピュータ４０００に伝送され得る。コンピュータ４０００は、これらのセンサ／ユーザ入力装置から受信されたデータに応じて、ビデオデータを処理する（例えば、データを復号化し、そのデータを表示するために準備する）ことができる。センサ信号は、没入型壁の通信インターフェースを介して受信され得る。この通信インターフェースは、Ｂｌｕｅｔｏｏｔｈタイプ、ＷＩＦＩタイプ、または任意の他のタイプの接続であって、優先的に無線接続であり得るが、有線接続であってもよい。

コンピュータ４０００は、処理データおよび任意で制御コマンドを没入型壁１０００に送信する。コンピュータ４０００は、データを処理する、すなわち没入型壁１０００によって表示されるようにデータの表示の準備をするように構成される。処理は、コンピュータ４０００のみによって行われ得るか、または処理の一部がコンピュータ４０００によって行われ、一部が没入型壁１０００によって行われ得る。

図８は、第２のタイプの別のシステムを示す。該システムは、ビデオコンテンツを処理し（例えば、データを復号化し、表示の準備をする）、表示するように構成された没入型（投影）壁６０００を備える。該システムは、センサ２０００およびユーザ入力装置３０００をさらに備える。

没入型壁６０００は、ゲートウェイ５０００を介してインターネットから、またはインターネットから直接、没入型ビデオデータを受信する。別の実施形態では、没入型ビデオデータは、没入型ビデオを表すデータが記憶されるローカルストレージ（図示せず）から没入型壁６０００によって取得され、前記ローカルストレージは、没入型壁６０００内または例えばローカルエリアネットワークを介してアクセス可能なローカルサーバ（図示せず）内に存在し得る。

このシステムはさらに、センサ２０００およびユーザ入力装置３０００を備え得る。没入型壁６０００は、ＯＬＥＤまたはＬＣＤタイプの没入型壁であり得る。没入型壁６０００には、１つまたは複数のカメラが装備され得る。没入型壁６０００は、センサ２０００（または複数のセンサ２０００）から受信されたデータを処理し得る。センサ２０００から受信されるデータは、照明条件、温度、ユーザの環境、例えば、オブジェクトの位置に関連し得る。

没入型壁６０００はさらに、ユーザ入力装置３０００から受信されたデータを処理し得る。ユーザ入力装置３０００は、ユーザの感情に関してフィードバックするために、触覚信号のようなデータを送信する。ユーザ入力装置３０００の例は、スマートフォン、リモートコントロール、およびジャイロスコープ機能を有する装置のようなハンドヘルド装置である。

没入型壁６０００は、これらのセンサ／ユーザ入力装置から受信されたデータに応じて、ビデオデータを処理する（例えば、データを復号化し、そのデータを表示するために準備する）ことができる。センサ信号は、没入型壁の通信インターフェースを介して受信され得る。この通信インターフェースは、Ｂｌｕｅｔｏｏｔｈタイプ、ＷＩＦＩタイプ、または任意の他のタイプの接続であって、優先的に無線接続であり得るが、有線接続であってもよい。没入型壁６０００は、センサおよびインターネットと通信するための少なくとも１つの通信インターフェースを備え得る。

図９は、没入型壁がゲームをするために使用される第３の実施形態を示す。１つまたは複数のゲームコンソール７０００は、好ましくは、無線インターフェースを介して没入型壁６０００に接続される。没入型壁６０００は、ゲートウェイ５０００を介してインターネットから、またはインターネットから直接、没入型ビデオデータを受信する。別の実施形態では、没入型ビデオデータは、没入型ビデオを表すデータが記憶されるローカルストレージ（図示せず）から没入型壁６０００によって取得され、前記ローカルストレージは、没入型壁６０００内または例えばローカルエリアネットワークを介してアクセス可能なローカルサーバ内に存在し得る。

ゲームコンソール７０００は、命令およびユーザ入力パラメータを没入型壁６０００に送信する。没入型壁６０００は、表示用のコンテンツを準備するために、センサ２０００およびユーザ入力装置３０００およびゲームコンソール７０００から受信された入力データに応じて、没入型ビデオコンテンツを処理する。没入型壁６０００はさらに、表示されるコンテンツを記憶するための内部メモリを備え得る。

一実施形態では、全方位ビデオは、ビデオコーデックに適したフォーマットで表現される標準矩形フレームＦ上への周囲３次元（３Ｄ）表面Ｓの投影を可能にするフォーマットで表現されると考える。３Ｄ表面を２次元（２Ｄ）表面に投影するために、様々な投影法が使用され得る。例えば、図１３Ａは、正距円筒図法（ＥＲＰ）を使用して例示的な球体表面Ｓが２ＤフレームＦにマッピングされる様子を示しており、図１３Ｂは、キューブマッピングを使用して例示的な立方体表面が２Ｄフレームにマッピングされる様子を示している。錐体、正二十面体、または正八面体のマッピングのような他のマッピングを使用して、３Ｄ表面を２Ｄフレームにマッピングすることができる。このような画像は、画像の幾何学的特性を考慮に入れるために、ビデオコーデック内にいくつかの新しいツールを必要とする。このようなツールの一例は、係属中の出願「ＭｏｔｉｏｎｔｒａｎｓｆｏｒｍａｔｉｏｎｆｏｒＶＲ」に示されている。これらの新しいツールでは、ツールを起動するか、またはツールを起動しないためのフラグが必要である。この場合、シンタックスが大きくなりすぎて、ツールの性能利得を低減し得る。

別の問題は、これらのツールのいくつかは追加の処理を必要とする可能性があるということであり、可能であれば複雑さを低減することが望ましい。現在、ビデオに使用されるマッピングのタイプは、特定のツールの使用を記述することなく信号伝達される。例えば、各々の符号化ユニットにおいて、ツールを起動するか、停止するためのフラグが使用され得る。

２ＤフレームＦは、既存のビデオエンコーダ、例えば、ＧｏｏｇｌｅのＶＰ９、ＡＯＭｅｄｉａのＡＶ１、ＭＰＥＧ−２（ＩＴＵ−ＴＨ．２２２／Ｈ．２６２）、Ｈ．２６４／ＡＶＣ（ＭＰＥＧ−４Ｐａｒｔ１０，ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ）、またはＨ．２６５／ＨＥＶＣ（ＭＰＥＧ−ＨＰａｒｔ２，ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）に準拠するエンコーダを使用して符号化され得る。２ＤフレームＦはさらに、全方位ビデオの特性に適応したエンコーダを使用して、例えば、適応したＶＰ９、ＶＰ１０、ＭＰＥＧ−２、Ｈ．２６４／ＡＶＣ、またはＨ．２６５／ＨＥＶＣエンコーダを使用して、符号化され得る。符号化および復号化の後、復号化された２Ｄフレームは、対応する３Ｄ表面、例えば、正距円筒図法マッピングのための球体またはキューブマッピングのための立方体にマッピングし直され得る。次に、３Ｄ表面は、最終レンダリングフレームを取得するために、ユーザの視点に対応する「仮想スクリーン」上に投影され得る。２Ｄフレームを復号化するステップおよび３Ｄ表面からレンダリングフレームに投影するステップは、１つのステップに統合され得、復号化フレームの一部は、レンダリングフレーム上にマッピングされる。

表記を簡単にするために、復号化２Ｄフレームも「Ｆ」と呼び、レンダリングに使用される３Ｄ表面もＳと呼ぶ場合がある。符号化される２Ｄフレームおよび復号化される２Ｄフレームは、ビデオ圧縮によって異なる場合があり、前処理における３Ｄ表面およびレンダリングにおける３Ｄ表面も異なる場合があることを理解されたい。用語「マッピング」および「投影」はほとんど同じ意味で使用され、用語「画素」および「サンプル」はほとんど同じ意味で使用され、用語「フレーム」および「ピクチャ」はほとんど同じ意味で使用され得る。

３次元（３Ｄ）表面を矩形表面にマッピングする問題については、全方位ビデオの典型的なレイアウトである正距円筒図法レイアウトに関して最初に説明したが、一般的な原理は、３Ｄ表面Ｓから矩形フレームＦへの任意のマッピングに適用可能である。同じ原理が、例えば、キューブマッピングレイアウトに適用され得る。

図１５Ａおよび図１５Ｂにおいて、本発明者らは、シーン内の直線に沿って移動するオブジェクトの一例と、フレーム内の結果として生じる見かけの動き（破線の曲線で示されている）とを示す。任意の予測ユニット（ＰＵ）パーティションに対する結果として生じる動きベクトルは、右側に示されている。図面から分かるように、レンダリングされた画像において動きが完全に直線的であったとしても、符号化するフレームは不均一な動きベクトルを示す。

背景として、図１６Ａからは、前と同じ表記を使用して、特定のベクトルｄＶの正確な幾何学的変換を実行する迅速な方法が以下のプロセス（図２１のステップ２００に対応する）によって行われる。
・Ｐは、動きベクトルを予測することを望むターゲット点である
・Ｖは、動きベクトルを予測するソース点である
・ｄＶは、Ｖにおける動きベクトルである
（１）Ｐ’’’＝３ｄ（Ｐ）を計算する（図２１のステップ２０１）、Ｐ’’’は単一球体上にあり、３Ｄ球体中心ＣおよびＰ’’’を通る方向ＣＰ’’に垂直な平面Ｆを定義することに留意されたい
（２）Ｖ’’’＝３ｄ（Ｖ）を計算する（図２１のステップ２０２）
（３）平面Ｆ上のＶ’’’の投影、
を計算する（図２１のステップ２０４）
（４）Ｗ＝Ｖ＋ｄＶを計算する
（５）Ｗ’’’＝３ｄ（Ｗ）を計算する（図２１のステップ２０３）
（６）平面Ｆ上のＷ’’’の投影、
を計算する（図２１のステップ２０５）
（７）平面Ｆ上の動きベクトルの投影、ｄＶ^ｐ＝Ｗ^ｐ−Ｖ^ｐを計算する（図２１のステップ２０６）
（８）Ｑ’’’＝Ｑ^ｐ＝Ｐ^ｐ＋ｄＶ^ｐ＝Ｐ’’’＋ｄＶ^ｐを計算する（図２１のステップ）
（９）Ｑ＝３ｄ^−１（Ｑ’’’）を計算する（図２１のステップ２０８）
（１０）最終動きベクトルｄＰ＝Ｑ−Ｐを計算する（図２１のステップ２０９）
（１１）ＥＲＰ（Ｐ，Ｖ，ｄＶ）＝ｄＰ

第１の実施形態では、ＥＲＰ特有のツールの性能を向上させるために、以下のような特定のツールの起動を強制的に行うことができる。
・ＥＲＰ変換動きベクトル予測子、インターのみ
・ＥＲＰ動き補償、インターのみ
・ＥＲＰイントラ予測子
・ＥＲＰイントラ予測
・ＥＲＰに基づいたＱｐ適応、イントラおよびインター

これらの特有のツールは、スライスヘッダにおける符号化を使用することによりスライスレベルで、またはピクチャパラメータセット（ＰＰＳ）における符号化を使用することによりピクチャレベルで起動され得る。表１は、使用され得るシンタックスの基本的な例を示す。
上記の起動および停止は、図１７の解析ブロックに含まれる。

第２の実施形態では、エンコーダの複雑さを低減するために、ツールは、画像の何らかの部分に対して自動的に無効化され得る。実際に、ＥＲＰ画像については、赤道付近の領域（画像の垂直方向の中央付近）は、幾何学的歪みを受けにくい。例えば、図２０の球体に４５度で境界を定めることで、３つのスライスを作成することができ、この場合、スライス０およびスライス２ではツールが起動され、スライス１ではツールが停止されている。

第２の実施形態の別の変形形態では、３つのスライスパラメータは、ＥＲＰツールが起動されるかどうかを示す単一フラグから自動的に推定される。次に、起動モードは、各スライスに対して自動的に設定される。

第２の実施形態の別の変形形態では、起動および停止は、スライスを必要とせずに、画像の各部分に属し、スライス０、１、２の領域に対応する符号化ツリーユニット（ＣＴＵ）によって行われる。

第３の実施形態では、ＥＲＰマッピングを検出するために、符号化方法が使用され得る。エンコーダでは、前処理演算は、マッピングのタイプを検出し、ひいては、フレーム／スライスの起動および停止するためのツールのタイプを検出する。以下は、ＥＲＰツールを自動的に起動および停止するための符号化方法のいくつかの実施例である。

第１に、マルチパスコーダは、ＥＲＰツールをモード選択としてレート歪み最適化（ＲＯＤ）に導入することができる。第１の符号化パスの後、ブロックのｎ％を超えるブロックがＥＲＰツールを使用する場合、ツールは、フレーム全体に対して、またはスライスによって起動／強制実行される。

第２に、動き推定器は、フレーム上で実行される。動きフィールドとＥＲＰ変換との互換性が計算される。
・デフォルト動き差分：
ここで、ｖ（ｘ）は画素ｘにおける動きベクトルであり、画素ｐの近傍は、例えば、ｐの距離Ｎにおける上画素、下画素、左画素および右画素として定義される。スコアＤは、動きフィールドの「規則性」を示す。
・ＥＲＰ変換動き差分：
ここで、ＥＲＰ（Ｐ，Ｖ，ｄＶ）は、ターゲット点Ｐを使用してＶにおけるベクトルｄＶを変換する関数である。このような変換については、他の箇所で説明する。ツールは、Ｄ’＜ＤまたはＤ’＜ａ×Ｄである場合に起動される。

第３に、フレーム上でエッジ検出が行われる（例えば、キャニー検出器）。極領域内の各フレーム（すなわち、フレームの上部および下部に近い領域）に対して、全てのエッジについての正確さのスコアが計算される。スコアが閾値未満である場合、フレームはＥＲＰとみなされ、ツールが起動される。正確さは、例えば、全てのラインの局所勾配の絶対和として測定され得る。

図２２は、記載されている態様に従う方法２２００の一実施形態を示す。該方法は、開始ブロック２２０１から始まり、制御は、ブロック２２１０に進み、広視野ビデオ用のビデオビットストリームの少なくとも一部を符号化する。広視野ビデオの少なくとも１つのピクチャは、投影関数を使用して少なくとも１つの２次元ピクチャ上に投影された３次元表面として表される。該方法は、ブロック２２１０からブロック２２２０に進み、投影関数に対応するビデオ上で演算を実行する。制御は、ブロック２２２０からブロック２２３０に進み、演算性能を表すビデオビットストリームのシンタックス要素にフラグを挿入する。

図２３は、記載されている態様に従う方法２３００の一実施形態を示す。該方法は、開始ブロック２３０１から始まり、制御は、ブロック２３１０に進み、広視野ビデオ用のビデオビットストリームの少なくとも一部を解析する。広視野ビデオの少なくとも１つのピクチャは、投影関数を使用して少なくとも１つの２次元ピクチャ上に投影された３次元表面として表される。制御は、ブロック２３１０からブロッ２３２０に進み、ビデオビットストリームのシンタックス要素内のフラグを検出する。制御は、ブロック２３２０からブロック２３３０に進み、フラグに基づいて、投影関数に対応するビデオ上で演算を実行するかどうかを決定する。制御は、ブロック２３３０からブロック２３４０に進み、ビデオビットストリームの少なくとも一部を復号化する。

図２４は、ビデオデータのブロックを符号化または復号化するための装置２４００の一実施形態を示す。該装置は、入力ポートおよび出力ポートを有し、同様に入力ポートおよび出力ポートを有するメモリ２４２０と信号接続しているプロセッサ２４１０を備える。該装置は、上述した方法の実施形態のいずれか、または変形形態を実行することができる。

図面に示される様々な要素の機能は、専用ハードウェアならびに適切なソフトウェアと連携してソフトウェアを実行することができるハードウェアを使用して提供され得る。機能は、プロセッサによって提供される場合、単一の専用プロセッサ、単一の共有プロセッサ、または複数の個別プロセッサ（そのうちのいくつかは共有され得る）によって提供され得る。さらに、「プロセッサ」または「コントローラ」という用語の明示的な使用は、ソフトウェアを実行することができるハードウェアのみを指すと解釈すべきではなく、限定的ではないが、デジタル信号プロセッサ（「ＤＳＰ」）ハードウェア、ソフトウェアを記憶するためのリードオンリメモリ（「ＲＯＭ」）、ランダムアクセスメモリ（「ＲＡＭ」）、および不揮発性記憶装置を暗黙的に含み得る。

他のハードウェア（従来型および／またはカスタム）も含まれ得る。同様に、図面に示されている任意のスイッチは、概念的なものに過ぎない。それらの機能は、プログラムロジックの演算、専用ロジック、プログラム制御と専用ロジックとの相互作用、または手動によって実行され得、特定の技術は、文脈からより具体的に理解されるように、実装者によって選択可能である。

本明細書は、本発明のアイデアを説明するものである。したがって、本明細書内で明示的に記載または図示されていないが、当業者は、本発明のアイデアを具現化し、本発明の範囲内に含まれる様々な構成を考案することができることは理解されるであろう。

本明細書に記載されている全ての実施例および条件付き言語は、読者が当該分野の技術推進に対して本発明者（１人または複数人）が寄与する本発明の原理および概念を理解するのを助ける教育的目的を意図したものであり、このような具体的に列挙された実施例および条件に限定されるものではないと解釈すべきである。

さらに、原理、態様、および本発明の原理の実施形態、ならびにその特定の実施例を列挙した本明細内の全ての記述は、構造的かつ機能的均等物の両方を包含するものとする。さらに、そのような均等物は、現在周知の均等物、および将来開発される均等物、すなわち、構造に関係なく同じ機能を実行する、開発される任意の要素を含むものとする。

したがって、例えば、本明細書で提示されるブロック図は、本発明の原理を具現化する例示的回路の概念図を表していることは、当業者には理解されるであろう。同様に、任意のフローチャート、フロー図、状態遷移図、擬似コードなどは、コンピュータ可読媒体内で実質的に表され、コンピュータまたはプロセッサが明示的に示されているか否かに関わらず、コンピュータまたはプロセッサによって実行され得る様々なプロセスを表すことが理解されるであろう。

本明細書の特許請求の範囲において、特定の機能を実行するための手段として表現される任意の要素は、例えば、（ａ）その機能を実行する回路素子の組み合わせ、（ｂ）ファームウェア、マイクロコードなどを含む任意の形態のソフトウェア（その機能を実行するためにそのソフトウェアを実行するための適切な回路と組み合わせて）を含む、その機能を実行する任意の方法を包含するものとする。このような特許請求の範囲によって定義される本発明の原理は、特許請求の範囲が要求する形で、種々の記載されている手段によって提供される機能が組み合わされ、統合されるということにある。したがって、これらの機能を提供することができる任意の手段は、本明細書内に示されている機能と均等物であると見なされる。

本明細書内における本発明の原理の「一実施形態」または「ある実施形態」、ならびに他のその変形形態についての言及は、実施形態に関して説明されている特定の特徴、構造、特性などが、本発明の原理の少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書全体を通して様々な場所に現れる「一実施形態では」または「ある実施形態では」というフレーズは、必ずしも全てが同じ実施形態について言及しているとは限らない。

要するに、正距円筒図法に関連するビデオ符号化のためのツールおよび演算を可能にする方法および装置が記載されている。これらの技術は、特定のツールおよび演算を選択的に有効にするものであるので、可能であれば符号化および復号化の複雑さを低減することができる。一実施形態では、フラグは、ＥＲＰ動きベクトル予測、ＥＲＰイントラ予測、ＥＲＰベース量子化パラメータ適応、または他のそのような機能を起動するためにスライスレベルまたはピクチャレベルで使用される。別の実施形態では、ＥＲＰ関連ツールは、フラグを使用して画像内の位置に基づいて起動され得る。他の実施形態では、ＥＲＰ関連ツールは、デフォルト動き差分とＥＲＰ変換動き差分との比較に基づいて、または対応するフラグを有するエッジ検出スコアに基づいて、起動され得る。

Claims

広視野ビデオ用のビデオビットストリームの少なくとも一部を符号化することであって、前記広視野ビデオの少なくとも１つのピクチャは、投影関数を使用して少なくとも１つの２次元ピクチャ上に投影された３次元表面として表される、ことと、
前記投影関数に対応する前記ビデオ上で演算を実行することと、
前記性能を表す前記ビデオビットストリームのシンタックス要素にフラグを挿入することと、
を含む方法。
広視野ビデオ用のビデオビットストリームの少なくとも一部を解析することであって、前記広視野ビデオの少なくとも１つのピクチャは、投影関数を使用して少なくとも１つの２次元ピクチャ上に投影された３次元表面として表される、ことと、
前記ビデオビットストリームのシンタックス要素内のフラグを検出することと、
前記フラグに基づいて、前記投影関数に対応する前記ビデオ上で演算を実行するかどうかを決定することと、
前記ビデオビットストリームの少なくとも一部を復号化することと、
を含む方法。
ビデオデータの少なくとも一部を符号化するための装置であって、
メモリと、
プロセッサであって、
広視野ビデオ用のビデオビットストリームの符号化であって、前記広視野ビデオの少なくとも１つのピクチャは、投影関数を使用して少なくとも１つの２次元ピクチャ上に投影された３次元表面として表される、符号化、
前記投影関数に対応する前記ビデオ上での演算の実行、および
前記性能を表す前記ビデオビットストリームのシンタックス要素へのフラグの挿入
を実行するように構成されたプロセッサと、
を備える前記装置。
ビデオデータの少なくとも一部を復号化するための装置であって、
メモリと、
プロセッサであって、
広視野ビデオ用のビデオビットストリームの解析であって、前記広視野ビデオの少なくとも１つのピクチャは、投影関数を使用して少なくとも１つの２次元ピクチャ上に投影された３次元表面として表される、解析、
前記ビデオビットストリームのシンタックス要素内のフラグの検出、
前記フラグに基づいた、前記投影関数に対応する前記ビデオ上で演算を実行するかどうかの決定、および
前記ビデオビットストリームの復号化
を実行するように構成されたプロセッサと、
を備える前記装置。
前記演算は、動きベクトル予測子変換、動き補償、イントラ予測、イントラ予測器、または量子化パラメータ適応を含む、請求項１もしくは請求項２に記載の方法、または請求項３もしくは請求項４に記載の装置。
前記フラグは、スライスヘッダまたピクチャパラメータセット内にある、請求項５に記載の方法または装置。
前記フラグは、前記ビデオ画像の一部に対して無効化される、請求項１もしくは請求項２に記載の方法、または請求項３もしくは請求項４に記載の装置。
前記演算が起動されるかどうかを示すために、前記フラグからスライスパラメータが決定される、請求項７に記載の方法または装置。
前記演算は、符号化ツリーユニットが画像の特定の部分に属するかどうかを決定することによって実行される、請求項に記載の方法または装置。
前処理ステップにおいてピクチャの特定部分内のブロックの閾値割合のブロックでの前記演算の使用が決定される場合、前記演算は前記ピクチャの前記特定部分に対して起動される、請求項１に記載の方法または請求項３に記載の装置。
前記演算は、デフォルト動き差分と正距円筒図法変換動き差分との比較に基づいて起動される、請求項１に記載の方法または請求項３に記載の装置。
エッジ検出演算が実行され、前記演算は、前記エッジ検出演算の正確さスコアに基づいて前記ビデオの極領域内のフレームに対して起動される、請求項１に記載の方法または請求項３に記載の装置。
プロセッサを使用して再生するために、請求項１および請求項５〜請求項１２のいずれか一項に記載の方法に従って、または請求項３および請求項５〜請求項１２のいずれか一項に記載の装置によって生成されたデータコンテンツを含む非一時的なコンピュータ可読媒体。
プロセッサを使用して再生するために、請求項１および請求項５〜請求項１２のいずれか一項に記載の方法に従って、またはプロセッサを使用して再生するための請求項３および請求項５〜請求項１２のいずれか一項に記載の装置によって生成されたビデオデータを含む信号。
コンピュータによってプログラムが実行されるときに、請求項２および請求項５〜請求項９のいずれか一項に記載の方法を前記コンピュータに実行させる命令を含むコンピュータプログラム製品。