JP2020534726A - 全方位ビデオの符号化のための方法および装置 - Google Patents

全方位ビデオの符号化のための方法および装置 Download PDF

Info

Publication number
JP2020534726A
JP2020534726A JP2020512470A JP2020512470A JP2020534726A JP 2020534726 A JP2020534726 A JP 2020534726A JP 2020512470 A JP2020512470 A JP 2020512470A JP 2020512470 A JP2020512470 A JP 2020512470A JP 2020534726 A JP2020534726 A JP 2020534726A
Authority
JP
Japan
Prior art keywords
video
picture
immersive
erp
flag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020512470A
Other languages
English (en)
Inventor
ギャルピン,フランク
ラケイプ,ファビアン
ボルデ,フィリップ
Original Assignee
インターデジタル ヴイシー ホールディングス, インコーポレイテッド
インターデジタル ヴイシー ホールディングス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターデジタル ヴイシー ホールディングス, インコーポレイテッド, インターデジタル ヴイシー ホールディングス, インコーポレイテッド filed Critical インターデジタル ヴイシー ホールディングス, インコーポレイテッド
Publication of JP2020534726A publication Critical patent/JP2020534726A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

該方法および該装置は、正距円筒図法に関連するビデオ符号化のためのツールおよび演算を可能にする。これらの技術は、特定のツールおよび演算を選択的に実行可能にするためのフラグを使用するので、可能であれば符号化および復号化の複雑さを低減することができる。一実施形態では、フラグは、ERP動きベクトル予測、ERPイントラ予測、ERPベース量子化パラメータ適応、または他のそのような機能を起動するためにスライスレベルまたはピクチャレベルで使用される。別の実施形態では、ERP関連ツールは、フラグを使用して画像内の位置に基づいて起動され得る。他の実施形態では、ERP関連ツールは、デフォルト動き差分とERP変換動き差分との比較に基づいて、または対応するフラグを有するエッジ検出スコアに基づいて、起動され得る。【選択図】図20

Description

以下に説明する態様は、一般的に、ビデオ圧縮の分野に関し、特に、全方位ビデオの分野に関する。
近年、利用可能な広視野コンテンツ(最大360°)が増加している。このようなコンテンツは、ヘッドマウントディスプレイ(HMD)、スマートグラス、PCスクリーン、タブレット、スマートフォンなどのような没入型表示装置上でコンテンツを見るユーザには十分に見えない可能性がある。つまり、所与の瞬間に、ユーザがコンテンツの一部しか見ていない場合がある。しかしながら、ユーザは、典型的には、頭の移動、マウス移動、タッチスクリーン、音声などの様々な手段によってコンテンツ内をナビゲートすることができる。典型的には、このコンテンツを符号化し、復号化することが望ましい。
従来技術の上述の欠点および不利点および他の欠点および不利点は、記述されている実施形態の少なくとも1つによって対処される。これらの実施形態は、正距円筒図法(ERP)、またはERP動きベクトル変換方法および関連する符号化方法のような同様のマッピング特有のツールに適応した圧縮シンタックスを設計するための方法および装置を対象とする。
少なくとも1つの実施形態では、1つの方法が提供される。該方法は、広視野ビデオ用のビデオビットストリームの少なくとも一部を符号化するステップであって、前記広視野ビデオの少なくとも1つのピクチャは投影関数を使用して少なくとも1つの2次元ピクチャ上に投影された3次元表面として表される、符号化ステップと、前記投影関数に対応する前記ビデオ上で演算を実行するステップと、前記性能を表す前記ビデオビットストリームのシンタックス要素内にフラグを挿入するステップとを含む。
少なくとも1つの他の実施形態では、1つの方法が提供される。該方法は、広視野ビデオ用のビデオビットストリームの少なくとも一部を解析するステップであって、前記広視野ビデオの少なくとも1つのピクチャは、投影関数を使用して少なくとも1つの2次元ピクチャ上に投影された3次元表面として表される、解析ステップと、前記ビデオビットストリームのシンタックス要素内のフラグを検出するステップと、前記フラグに基づいて前記投影関数に対応する前記ビデオ上で演算を実行するかどうかを決定するステップと、前記ビデオビットストリームの少なくとも一部を復号化するステップとを含む。
別の実施形態では、上述の方法のいずれかに従う方法であって、ERPツールが起動されるかどうかを示すフラグからスライスパラメータが推定される方法が提供される。次に、起動モードがスライスに対して設定される。
別の実施形態では、上述の方法のいずれかに従う方法であって、マルチパスエンコーダを使用して、ツールがピクチャの一部に対して起動されるかどうかを選択するためにERP演算をレート歪みオプティマイザに加える方法が提供される。
別の実施形態では、上述の方法のいずれかに従う方法であって、動き推定器を使用して、ピクチャの一部についてERPツールを起動するかどうかを決定する方法が提供される。
別の実施形態では、上述の方法のいずれかに従う方法であって、エッジ検出器を使用して、ピクチャの一部についてERPツールを起動するかどうかを決定する方法が提供される。
別の実施形態では、1つの装置が提供される。該装置は、メモリおよびプロセッサを備える。プロセッサは、符号化または復号化のために、上述の方法の実施形態のいずれかの変形形態を実行するように構成される。
本明細書に記載されている別の態様によれば、プロセッサを使用して再生するために、上述の方法の実施形態のいずれか1つの方法に従って、または上述の装置の実施形態のいずれか1つの装置によって生成されたデータコンテンツを含む非一時的なコンピュータ可読記憶媒体が提供される。
本明細書に記載されている別の態様によれば、プロセッサを使用して再生するために、ビデオデータのブロックを符号化するための上述の方法の実施形態のいずれか1つの方法に従って、またはビデオデータのブロックを符号化するための上述の装置の実施形態のいずれか1つの装置によって生成されたビデオデータを含む信号が提供される。
本明細書に記載されている別の態様によれば、コンピュータによってプログラムが実行されるときに、上述の方法の実施形態のいずれか1つの方法をコンピュータに実行させる命令を含むコンピュータプログラム製品が提供される。
本発明の原理の上述の態様、特徴、および利点または他の態様、特徴、および利点は、添付図面に関連して読まれる例示的な実施形態の以下の詳細な説明から明らかになるであろう。
特定の非限定的な実施形態に係る、全方位ビデオを符号化および復号化するための例示的なシステムを示す図である。 様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成されたシステムを示す図である。 様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成されたシステムを示す図である。 様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成されたシステムを示す図である。 様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成されたシステムを示す図である。 様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成されたシステムを示す図である。 様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成された没入型壁を有するシステムを示す図である。 様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成された没入型壁を有するシステムを示す図である。 様々な実施形態に係る、没入型ビデオを復号化し、処理し、レンダリングするように構成された没入型壁を有するシステムを示す図である。 様々な実施形態に係る、没入型ビデオレンダリング装置を示す図である。 様々な実施形態に係る、没入型ビデオレンダリング装置を示す図である。 様々な実施形態に係る、没入型ビデオレンダリング装置を示す図である。 球面Sから矩形ピクチャFへの投影の一例を示す図である。 球面Sから矩形ピクチャFへの投影の一例を示す図である。 立方体表面Sから6つのピクチャへの投影の一例、および2Dピクチャ上に投影された立方体の6つの面のレイアウトを示す図である。 立方体表面Sから6つのピクチャへの投影の一例、および2Dピクチャ上に投影された立方体の6つの面のレイアウトを示す図である。 全方位ビデオを表す3D表面の投影ピクチャF内の移動オブジェクト、および投影ピクチャのブロック分割内の対応する動きベクトルを示す図である。 全方位ビデオを表す3D表面の投影ピクチャF内の移動オブジェクト、および投影ピクチャのブロック分割内の対応する動きベクトルを示す図である。 フレーム座標からレンダリングされたフレームへのマッピング、およびレンダリングされたフレームから符号化されたフレームへのマッピングを示す図である。 フレーム座標からレンダリングされたフレームへのマッピング、およびレンダリングされたフレームから符号化されたフレームへのマッピングを示す図である。 ビデオデコーダのフローチャートの実施形態の一例を示す図である。 記載されている態様が適用され得るエンコーダの一例を示す図である。 記載されている態様が適用され得るデコーダの別の例を示す図である。 記載されている態様に従う自動スライス作成の一例を示す図である。 より速い動きベクトル予測導出のためのフロー図の一例を示す図である。 記載されている態様に係る、符号化方法の一実施形態を示す図である。 記載されている態様に係る、復号化方法の一実施形態を示す図である。 記載されている態様に係る、符号化または復号化のための装置の一実施形態を示す図である。
全方位コンテンツは、通常、所与のレイアウト上に投影されるので、符号化/復号化する最終コンテンツは、既存のコーデックによる処理に便利である矩形フレームに適合する。マッピングによって、圧縮性能を損なう可能性のある幾何学的歪みが発生し得る。特に、動きベクトル予測は、ERPマッピングを扱うときには適していないことがある。以下の実施形態は、同様の特性を有する他のマッピングにも拡張され得る。
記載されている実施形態の少なくとも1つは、ERPマッピングに適応した新たな動きベクトル予測を設計する際に使用される。従来技術、特に、時間的動きベクトル予測子または拡大縮小された動きベクトル予測子を処理するためのより優れた方法に対して、いくつかの改良がなされる。
広視野コンテンツは、とりわけ、3次元コンピュータグラフィック画像シーン(3D CGIシーン)、ポイントクラウド、または没入型ビデオであり得る。例えば、仮想現実(VR)、360、パノラマ、4π、ステラジアン、没入型、全方位、広視野のような多くの用語が、このような没入型ビデオを設計するために使用され得る。
没入型ビデオは、典型的には、「通常の」ビデオのような画素の2次元配列(すなわち、カラー情報の要素)である矩形フレーム上で符号化されたビデオを指す。多くの実施態様では、以下のプロセスが実行され得る。フレームは、レンダリングのために、最初に、マッピング表面(例えば、球体、立方体、錐体)とも呼ばれる、凸状体積の内面上にマッピングされ、次に、この体積の一部が仮想カメラによってキャプチャされる。仮想カメラによってキャプチャされた画像は、没入型表示装置のスクリーン上にレンダリングされる。立体ビデオは、装置の特性に応じて2つの仮想カメラによってキャプチャされるように組み合わされた2つのマッピング表面上に投影された1つまたは2つの矩形フレーム上で符号化される。
画素は、フレーム内のマッピング関数に従って符号化され得る。マッピング関数は、マッピング表面に依存し得る。同一のマッピング表面に対して、いくつかのマッピング関数が可能である。例えば、立方体の面は、フレーム表面内の異なるレイアウトに従って構成され得る。球体は、例えば、正距円筒図法に従って、または心射図法に従ってマッピングされ得る。選択された投影関数から得られる画素の編成は、線連続性、正規直交ローカルフレーム、画素密度を変更または分割し、時間および空間の周期性を生成する。これらは、ビデオを符号化し、復号化するために使用される典型的な特徴である。既存の符号化方法および復号化方法は、通常、没入型ビデオの特異性を考慮するものではない。実際に、没入型ビデオは360°のビデオであり得るので、例えば、パンニングは、シーンのコンテンツが変化しない間に符号化すべき大量のデータを必要とする動きおよび不連続性を生成する。ビデオフレームを符号化および復号化する間に、没入型ビデオの特異性を考慮に入れることは、符号化方法または復号化方法に有益な利点をもたらすであろう。
図1は、特定の非限定的な実施形態の符号化/復号化システムの概要を示す。図1のシステムは、機能システムである。前処理モジュール110は、符号化装置120によって符号化するためのコンテンツを準備し得る。前処理モジュール110は、複数画像取得、共通空間(典型的には、方向を符号化する場合には3D球体)内における取得された複数の画像のマージ、および、例えば、これらに限定されないが、正距円筒図法マッピングまたはキューブマッピングを使用した、3D球体の2Dフレームへのマッピングを実行することができる。前処理モジュール110は、入力として、特定のフォーマット(例えば、正距円筒図法)で全方位ビデオを受け取ることもでき、ビデオを前処理して、マッピングを符号化にもっと適したフォーマットに変更することができる。取得されたビデオデータ表現に応じて、前処理モジュール110は、マッピング空間変更を実行することができる。
符号化装置120および符号化方法については、本明細書の他の図面に関して説明する。符号化された後、例えば、没入型ビデオデータまたは3D CGI符号化データを符号化し得るデータは、ネットワークインターフェース130(例えば、ゲートウェイ内に存在する任意のネットワークインターフェースで実装され得る)に送信される。その後、データは、インターネット(任意の他のネットワークも想定され得る)のような通信ネットワークを介して伝送される。その後、データは、ネットワークインターフェース140を介して受信される。ネットワークインターフェース140は、ゲートウェイ、テレビ受像機、セットトップボックス、ヘッドマウント型表示装置、没入型(投影)壁、または任意の没入型ビデオレンダリング装置内に実装され得る。
受信後、データは復号化装置150に送信される。復号化機能は、以下の図2〜図12に記載されている処理機能の1つである。復号化されたデータは、次に、プレーヤ160によって処理される。プレーヤ160は、レンダリング装置170用のデータを準備し、センサからの外部データまたはユーザ入力データを受信し得る。より正確には、プレーヤ160は、レンダリング装置170によって表示される予定のビデオコンテンツの一部を準備する。復号化装置150およびプレーヤ160は、単一の装置(例えば、スマートフォン、ゲームコンソール、STB、タブレット、コンピュータなど)に統合され得る。他の実施形態では、プレーヤ160は、レンダリング装置170に統合され得る。
例えば、没入型ビデオをレンダリングするときに、没入型表示装置の復号化機能、再生機能、およびレンダリング機能を実行するために、いくつかのタイプのシステムが想定され得る。
拡張現実、仮想現実、または拡張仮想コンテンツを処理するための第1のシステムは、図2〜図6に示されている。このようなシステムは、処理機能、没入型ビデオレンダリング装置(例えば、ヘッドマウントディスプレイ(HMD)、タブレット、またはスマートフォンであり得、センサを備え得る)を備える。没入型ビデオレンダリング装置はさらに、表示装置と処理機能との間に追加のインターフェースモジュールを備え得る。処理機能は、1つまたは複数の装置によって実行され得る。これらの装置は、没入型ビデオレンダリング装置に統合され得るか、1つまたは複数の処理装置に統合され得る。処理装置は、1つまたは複数のプロセッサと、無線または有線通信インターフェースのような没入型ビデオレンダリング装置との通信インターフェースとを備える。
処理装置は、インターネットのようなワイドアクセスネットワークとの第2の通信インターフェースをさらに備え、クラウド上に位置するコンテンツに直接、またはホームもしくはローカルゲートウェイのようなネットワークデバイスを介してアクセスすることができる。処理装置はさらに、イーサネットタイプのローカルアクセスネットワークのような第3のインターフェースを介してローカルストレージにアクセスすることもできる。ある実施形態では、処理装置は、1つまたは複数の処理ユニットを有するコンピュータシステムであり得る。別の実施形態では、処理装置は、有線または無線リンクを介して没入型ビデオレンダリング装置に接続され得る、または没入型ビデオレンダリング装置のハウジング内に挿入され、コネクタを介して、もしくは無線でも通信し得るスマートフォンであり得る。処理装置の通信インターフェースは、有線インターフェース(例えば、バスインターフェース、広域ネットワークインターフェース、ローカルエリアネットワークインターフェース)または無線インターフェース(例えば、IEEE802.11インターフェースまたはBluetooth(登録商標)インターフェース)である。
処理機能が没入型ビデオレンダリング装置によって実行される場合、没入型ビデオレンダリング装置には、コンテンツを受信および/または伝送するために、直接またはゲートウェイを介してネットワークに接続するためのインターフェースが提供され得る。
別の実施形態では、システムは、没入型ビデオレンダリング装置および処理装置と通信する補助装置を備える。このような実施形態では、この補助装置は、処理機能のうちの少なくとも1つを含み得る。
没入型ビデオレンダリング装置は、1つまたは複数のディスプレイを備え得る。該装置は、ディスプレイの各々の前にレンズのような光学系を使用し得る。ディスプレイは、スマートフォンまたはタブレットの場合のように、没入型表示装置の一部でもあり得る。別の実施形態では、ディスプレイおよび光学系は、ユーザが着用することができるヘルメット、眼鏡、またはバイザー内に埋め込まれ得る。没入型ビデオレンダリング装置は、後述するように、いくつかのセンサを統合することもできる。没入型ビデオレンダリング装置はさらに、いくつかのインターフェースまたはコネクタを備え得る。没入型ビデオレンダリング装置は、センサ、処理機能、ハンドヘルドまたは他の身体部分関連デバイスもしくはセンサと通信するために、1つまたは複数の無線モジュールを備えてよい。
没入型ビデオレンダリング装置はさらに、1つまたは複数のプロセッサによって実行され、コンテンツを復号化するように、またはコンテンツを処理するように構成された処理機能を備え得る。ここでコンテンツを処理することにより、全ての機能が表示可能なコンテンツを準備することが理解される。これは、例えば、コンテンツを復号化すること、コンテンツを表示する前にコンテンツをマージすること、および表示装置に適合するようにコンテンツを修正することを含み得る。
没入型コンテンツレンダリング装置の1つの機能は、仮想ボリュームとして構成されたコンテンツの少なくとも一部をキャプチャする仮想カメラを制御することである。該システムは、仮想カメラの姿勢を処理するために、ユーザの姿勢、例えば、ユーザの頭部の姿勢を全体的にまたは部分的に追跡する姿勢追跡センサを備え得る。いくつかの位置決めセンサは、ユーザの変位を追跡し得る。システムはさらに、例えば、照明、温度または音の状態を測定するために、環境に関連する他のセンサを備え得る。このようなセンサは、例えば、発汗または心拍数を測定するために、ユーザの身体にも関連し得る。これらのセンサを介して取得された情報は、コンテンツを処理するために使用され得る。該システムはさらに、ユーザ入力装置(例えば、マウス、キーボード、リモートコントロール、ジョイスティック)を備え得る。ユーザ入力装置からの情報は、コンテンツを処理するために、ユーザインターフェースを管理するために、または仮想カメラの姿勢を制御するために使用され得る。センサおよびユーザ入力装置は、有線または無線通信インターフェースを介して、処理装置および/または没入型レンダリング装置と通信する。
図2〜図6を用いて、拡張現実、仮想現実、拡張仮想、または拡張現実から仮想現実への任意のコンテンツを表示するためのこの第1のタイプのシステムのいくつかの実施形態を説明する。
図2は、没入型ビデオを復号化し、処理し、レンダリングするように構成されたシステムの特定の実施形態を示す。該システムは、没入型ビデオレンダリング装置10、センサ20、ユーザ入力装置30、コンピュータ40、およびゲートウェイ50(任意)を備える。
図10に示されている没入型ビデオレンダリング装置10は、ディスプレイ101を備える。ディスプレイは、例えば、OLEDまたはLCDタイプのディスプレイである。没入型ビデオレンダリング装置10は、例えば、HMD、タブレット、またはスマートフォンである。装置10は、タッチ面102(例えば、タッチパッドまたは触覚スクリーン)、カメラ103、少なくとも1つのプロセッサ104に接続されたメモリ105、および少なくとも1つの通信インターフェース106を備え得る。少なくとも1つのプロセッサ104は、センサ20から受信された信号を処理する。
センサからの測定値のいくつかは、装置の姿勢を計算し、仮想カメラを制御するために使用される。姿勢推定に使用されるセンサは、例えば、ジャイロスコープ、加速度計、またはコンパスである。例えば、カメラのリグを使用する、より複雑なシステムが使用される場合もある。この場合、少なくとも1つのプロセッサは、装置10の姿勢を推定するために画像処理を実行する。環境条件またはユーザの反応に応じてコンテンツを処理するために、他のいくつかの測定値が使用される。環境およびユーザを観察するために使用されるセンサは、例えば、マイクロフォン、光センサ、または接触センサである。例えば、ユーザの眼を追跡するビデオカメラのように、より複雑なシステムが使用される場合もある。この場合、少なくとも1つのプロセッサは、予測される測定値を演算するために画像処理を実行する。センサ20およびユーザ入力装置30からのデータは、これらのセンサの入力に従ってデータを処理するコンピュータ40にも伝送され得る。
メモリ105は、プロセッサ104用のパラメータおよびコードプログラム命令を含む。メモリ105は、センサ20およびユーザ入力装置30から受信されたパラメータをさらに含み得る。通信インターフェース106は、没入型ビデオレンダリング装置がコンピュータ40と通信することを可能にする。処理装置の通信インターフェース106は、有線インターフェース(例えば、バスインターフェース、広域ネットワークインターフェース、ローカルエリアネットワークインタフェース)または無線インターフェース(例えば、IEEE802.11インターフェースもしくはBluetooth(登録商標)インターフェース)であり得る。
コンピュータ40は、データおよび任意で制御コマンドを没入型ビデオレンダリング装置10に送信する。コンピュータ40は、データを処理する、すなわち、データを没入型ビデオレンダリング装置10によって表示するための準備をするのを担当する。処理は、コンピュータ40のみによって行われ得るか、または処理の一部がコンピュータによって行われ、一部が没入型ビデオレンダリング装置10によって行われ得る。コンピュータ40は、直接またはゲートウェイもしくはネットワークインターフェース50を介して、インターネットに接続される。コンピュータ40は、インターネットから没入型ビデオを表すデータを受信し、これらのデータを処理し(例えば、データを復号化し、場合により没入型ビデオレンダリング装置10によって表示される予定のビデオコンテンツの一部を準備する)、処理データを表示のために没入型ビデオレンダリング装置10に送信する。別の実施形態では、該システムは、没入型ビデオを表すデータが記憶されるローカルストレージ(図示せず)を備え得、前記ローカルストレージは、コンピュータ40上または例えばローカルエリアネットワークを介してアクセス可能なローカルサーバ(図示せず)上に存在し得る。
図3は、第2の実施形態を示す。この実施形態では、STB90は、インターネットのようなネットワークに直接接続される(すなわち、STB90は、ネットワークインターフェースを備える)、またはゲートウェイ50を介して接続される。STB90は、無線インターフェースを介して、または有線インターフェースを介して、テレビ受像機100または没入型ビデオレンダリング装置200のようなレンダリング装置に接続される。STBの古典的機能に加えて、STB90は、テレビ受像機100または任意の没入型ビデオレンダリング装置200上でレンダリングするためのビデオコンテンツを処理するための処理機能を備える。これらの処理機能は、コンピュータ40に関して説明したものと同じであるので、ここでは説明を省略する。センサ20およびユーザ入力装置30も同様に、図2に関して上述したものと同じタイプのものである。STB90は、インターネットから没入型ビデオを表すデータを取得する。別の実施形態では、STB90は、没入型ビデオを表すデータが記憶されるローカルストレージ(図示せず)から没入型ビデオを表すデータを取得する。
図4は、図2に示されている実施形態に関連する第3の実施形態を示す。ゲームコンソール60は、コンテンツデータを処理する。ゲームコンソール60は、データおよび任意で制御コマンドを没入型ビデオレンダリング装置10に送信する。ゲームコンソール60は、没入型ビデオを表すデータを処理し、処理データを表示のために没入型ビデオレンダリング装置10に送信するように構成される。処理は、ゲームコンソール60のみによって行われ得るか、または処理の一部が没入型ビデオレンダリング装置10によって行われ得る。
ゲームコンソール60は、直接またはゲートウェイもしくはネットワークインターフェース50を介して、インターネットに接続される。ゲームコンソール60は、インターネットから没入型ビデオを表すデータを取得する。別の実施形態では、ゲームコンソール60は、没入型ビデオを表すデータが記憶されるローカルストレージ(図示せず)から没入型ビデオを表すデータを取得し、前記ローカルストレージは、ゲームコンソール60上または例えばローカルエリアネットワークを介してアクセス可能なローカルサーバ(図示せず)上に存在し得る。
ゲームコンソール60は、インターネットから没入型ビデオを表すデータを受信し、これらのデータを処理し(例えば、データを復号化し、場合により表示される予定のビデオの一部を準備する)、処理データを表示のために没入型ビデオレンダリング装置10に送信する。ゲームコンソール60は、センサ20およびユーザ入力装置30からデータを受信し、そのデータを使用してインターネットまたはローカルストレージから取得された没入型ビデオを表すデータを処理し得る。
図5は、前記第1のタイプのシステムの第4の実施形態を示しており、この場合、没入型ビデオレンダリング装置70はハウジング705内に挿入されたスマートフォン701によって形成される。スマートフォン701は、インターネットに接続されて、インターネットから没入型ビデオを表すデータを取得し得る。別の実施形態では、スマートフォン701は、没入型ビデオを表すデータが記憶されるローカルストレージ(図示せず)から没入型ビデオを表すデータを取得し、前記ローカルストレージは、スマートフォン701上または例えばローカルエリアネットワークを介してアクセス可能なローカルサーバ(図示せず)上に存在し得る。
没入型ビデオレンダリング装置70について、没入型ビデオレンダリング装置70の好適な実施形態を示す図11を参照しながら説明する。没入型ビデオレンダリング装置70は、任意で、少なくとも1つのネットワークインターフェース702と、スマートフォン701用のハウジング705とを備える。スマートフォン701は、スマートフォンおよびディスプレイの全ての機能を有する。スマートフォンのディスプレイは、没入型ビデオレンダリング装置70のディスプレイとして使用される。したがって、スマートフォン701以外のディスプレイは含まれない。しかしながら、レンズのような光学系704は、スマートフォンディスプレイ上のデータを見るために含まれる。スマートフォン701は、場合によりセンサ20およびユーザ入力装置30から受信されたデータに応じて、没入型ビデオを表すデータを処理する(例えば、復号化し、表示の準備をする)ように構成される。センサからの測定値のいくつかは、装置の姿勢を計算し、仮想カメラを制御するために使用される。姿勢推定に使用されるセンサは、例えば、ジャイロスコープ、加速度計、またはコンパスである。例えば、カメラのリグを使用する、より複雑なシステムが使用される場合もある。この場合、少なくとも1つのプロセッサは、装置10の姿勢を推定するために画像処理を実行する。環境条件またはユーザの反応に応じてコンテンツを処理するために、他のいくつかの測定値が使用される。環境およびユーザを観察するために使用されるセンサは、例えば、マイクロフォン、光センサ、または接触センサである。例えば、ユーザの眼を追跡するビデオカメラのように、より複雑なシステムが使用される場合もある。この場合、少なくとも1つのプロセッサは、予測される測定値を演算するために画像処理を実行する。
図6は、前記第1のタイプのシステムの第5の実施形態を示しており、没入型ビデオレンダリング装置80は、データコンテンツを処理し表示する全ての機能を備える。システムは、没入型ビデオレンダリング装置80と、センサ20と、ユーザ入力装置30とを備える。没入型ビデオレンダリング装置80は、センサ20およびユーザ入力装置30から受信されたデータに応じて、没入型ビデオを表すデータを処理する(例えば、復号化し、表示の準備をする)ように構成される。没入型ビデオレンダリング装置80はインターネットに接続されて、インターネットから没入型ビデオを表すデータを取得し得る。別の実施形態では、没入型ビデオレンダリング装置80は、没入型ビデオを表すデータが記憶されるローカルストレージ(図示せず)から没入型ビデオを表すデータを取得し、前記ローカルストレージは、レンダリング装置80上または例えばローカルエリアネットワークを介してアクセス可能なローカルサーバ(図示せず)上に存在し得る。
没入型ビデオレンダリング装置80は、図12に示されている。没入型ビデオレンダリング装置は、ディスプレイ801を備える。ディスプレイは、例えば、OLEDまたはLCDタイプのディスプレイであり得る。装置80は、タッチ面(任意)802(例えば、タッチパッドまたは触覚スクリーン)、カメラ(任意)803、少なくとも1つのプロセッサ804に接続されたメモリ805、および少なくとも1つの通信インターフェース806を備え得る。メモリ805は、プロセッサ804用のパラメータおよびコードプログラム命令を含む。メモリ805はさらに、センサ20およびユーザ入力装置30から受信されたパラメータを含み得る。メモリはさらに、没入型ビデオコンテンツを表すデータを記憶するのに十分な大きさのメモリであり得る。これに対して、いくつかのタイプのメモリが存在し得、メモリ805は、単一のメモリであり得るか、いくつかのタイプのストレージ(SDカード、ハードディスク、揮発性または不揮発性メモリ)であり得る。通信インターフェース806は、没入型ビデオレンダリング装置がインターネットネットワークと通信することを可能にする。プロセッサ804は、ディスプレイ801上にビデオを表すデータを表示するために、そのデータを処理する。カメラ803は、画像処理ステップの環境の画像をキャプチャする。没入型ビデオレンダリング装置を制御するために、このステップからデータが抽出される。
拡張現実、仮想現実、または拡張仮想化コンテンツを処理するための第2のシステムは、図7〜図9に示されている。このようなシステムは、没入型壁を備える。
図7は、第2のタイプのシステムを示す。該システムは、コンピュータ4000からデータを受信する没入型(投影)壁であるディスプレイ1000を備える。コンピュータ4000は、インターネットから没入型ビデオデータを受信し得る。コンピュータ4000は、通常、直接またはゲートウェイ5000もしくはネットワークインターフェースを介してインターネットに接続される。別の実施形態では、没入型ビデオデータは、没入型ビデオを表すデータが記憶されるローカルストレージ(図示せず)からコンピュータ4000によって取得され、前記ローカルストレージは、コンピュータ4000内または例えばローカルエリアネットワークを介してアクセス可能なローカルサーバ(図示せず)内に存在し得る。
このシステムはさらに、センサ2000およびユーザ入力装置3000を備え得る。没入型壁1000は、OLEDまたはLCDタイプの没入型壁であり得る。没入型壁1000には、1つまたは複数のカメラが装備され得る。没入型壁1000は、センサ2000(または複数のセンサ2000)から受信されたデータを処理し得る。センサ2000から受信されるデータは、照明条件、温度、ユーザの環境、例えば、オブジェクトの位置に関連し得る。
没入型壁1000はさらに、ユーザ入力装置3000から受信されたデータを処理し得る。ユーザ入力装置3000は、ユーザの感情に関してフィードバックするために、触覚信号のようなデータを送信する。ユーザ入力装置3000の例は、スマートフォン、リモートコントロール、およびジャイロスコープ機能を有する装置のようなハンドヘルド装置である。
センサ2000およびユーザ入力装置3000のデータはさらに、コンピュータ4000に伝送され得る。コンピュータ4000は、これらのセンサ/ユーザ入力装置から受信されたデータに応じて、ビデオデータを処理する(例えば、データを復号化し、そのデータを表示するために準備する)ことができる。センサ信号は、没入型壁の通信インターフェースを介して受信され得る。この通信インターフェースは、Bluetoothタイプ、WIFIタイプ、または任意の他のタイプの接続であって、優先的に無線接続であり得るが、有線接続であってもよい。
コンピュータ4000は、処理データおよび任意で制御コマンドを没入型壁1000に送信する。コンピュータ4000は、データを処理する、すなわち没入型壁1000によって表示されるようにデータの表示の準備をするように構成される。処理は、コンピュータ4000のみによって行われ得るか、または処理の一部がコンピュータ4000によって行われ、一部が没入型壁1000によって行われ得る。
図8は、第2のタイプの別のシステムを示す。該システムは、ビデオコンテンツを処理し(例えば、データを復号化し、表示の準備をする)、表示するように構成された没入型(投影)壁6000を備える。該システムは、センサ2000およびユーザ入力装置3000をさらに備える。
没入型壁6000は、ゲートウェイ5000を介してインターネットから、またはインターネットから直接、没入型ビデオデータを受信する。別の実施形態では、没入型ビデオデータは、没入型ビデオを表すデータが記憶されるローカルストレージ(図示せず)から没入型壁6000によって取得され、前記ローカルストレージは、没入型壁6000内または例えばローカルエリアネットワークを介してアクセス可能なローカルサーバ(図示せず)内に存在し得る。
このシステムはさらに、センサ2000およびユーザ入力装置3000を備え得る。没入型壁6000は、OLEDまたはLCDタイプの没入型壁であり得る。没入型壁6000には、1つまたは複数のカメラが装備され得る。没入型壁6000は、センサ2000(または複数のセンサ2000)から受信されたデータを処理し得る。センサ2000から受信されるデータは、照明条件、温度、ユーザの環境、例えば、オブジェクトの位置に関連し得る。
没入型壁6000はさらに、ユーザ入力装置3000から受信されたデータを処理し得る。ユーザ入力装置3000は、ユーザの感情に関してフィードバックするために、触覚信号のようなデータを送信する。ユーザ入力装置3000の例は、スマートフォン、リモートコントロール、およびジャイロスコープ機能を有する装置のようなハンドヘルド装置である。
没入型壁6000は、これらのセンサ/ユーザ入力装置から受信されたデータに応じて、ビデオデータを処理する(例えば、データを復号化し、そのデータを表示するために準備する)ことができる。センサ信号は、没入型壁の通信インターフェースを介して受信され得る。この通信インターフェースは、Bluetoothタイプ、WIFIタイプ、または任意の他のタイプの接続であって、優先的に無線接続であり得るが、有線接続であってもよい。没入型壁6000は、センサおよびインターネットと通信するための少なくとも1つの通信インターフェースを備え得る。
図9は、没入型壁がゲームをするために使用される第3の実施形態を示す。1つまたは複数のゲームコンソール7000は、好ましくは、無線インターフェースを介して没入型壁6000に接続される。没入型壁6000は、ゲートウェイ5000を介してインターネットから、またはインターネットから直接、没入型ビデオデータを受信する。別の実施形態では、没入型ビデオデータは、没入型ビデオを表すデータが記憶されるローカルストレージ(図示せず)から没入型壁6000によって取得され、前記ローカルストレージは、没入型壁6000内または例えばローカルエリアネットワークを介してアクセス可能なローカルサーバ内に存在し得る。
ゲームコンソール7000は、命令およびユーザ入力パラメータを没入型壁6000に送信する。没入型壁6000は、表示用のコンテンツを準備するために、センサ2000およびユーザ入力装置3000およびゲームコンソール7000から受信された入力データに応じて、没入型ビデオコンテンツを処理する。没入型壁6000はさらに、表示されるコンテンツを記憶するための内部メモリを備え得る。
一実施形態では、全方位ビデオは、ビデオコーデックに適したフォーマットで表現される標準矩形フレームF上への周囲3次元(3D)表面Sの投影を可能にするフォーマットで表現されると考える。3D表面を2次元(2D)表面に投影するために、様々な投影法が使用され得る。例えば、図13Aは、正距円筒図法(ERP)を使用して例示的な球体表面Sが2DフレームFにマッピングされる様子を示しており、図13Bは、キューブマッピングを使用して例示的な立方体表面が2Dフレームにマッピングされる様子を示している。錐体、正二十面体、または正八面体のマッピングのような他のマッピングを使用して、3D表面を2Dフレームにマッピングすることができる。このような画像は、画像の幾何学的特性を考慮に入れるために、ビデオコーデック内にいくつかの新しいツールを必要とする。このようなツールの一例は、係属中の出願「Motion transformation for VR」に示されている。これらの新しいツールでは、ツールを起動するか、またはツールを起動しないためのフラグが必要である。この場合、シンタックスが大きくなりすぎて、ツールの性能利得を低減し得る。
別の問題は、これらのツールのいくつかは追加の処理を必要とする可能性があるということであり、可能であれば複雑さを低減することが望ましい。現在、ビデオに使用されるマッピングのタイプは、特定のツールの使用を記述することなく信号伝達される。例えば、各々の符号化ユニットにおいて、ツールを起動するか、停止するためのフラグが使用され得る。
2DフレームFは、既存のビデオエンコーダ、例えば、GoogleのVP9、AOMediaのAV1、MPEG−2(ITU−T H.222/H.262)、H.264/AVC(MPEG−4 Part10,Advanced Video Coding)、またはH.265/HEVC(MPEG−H Part2,High Efficiency Video Coding)に準拠するエンコーダを使用して符号化され得る。2DフレームFはさらに、全方位ビデオの特性に適応したエンコーダを使用して、例えば、適応したVP9、VP10、MPEG−2、H.264/AVC、またはH.265/HEVCエンコーダを使用して、符号化され得る。符号化および復号化の後、復号化された2Dフレームは、対応する3D表面、例えば、正距円筒図法マッピングのための球体またはキューブマッピングのための立方体にマッピングし直され得る。次に、3D表面は、最終レンダリングフレームを取得するために、ユーザの視点に対応する「仮想スクリーン」上に投影され得る。2Dフレームを復号化するステップおよび3D表面からレンダリングフレームに投影するステップは、1つのステップに統合され得、復号化フレームの一部は、レンダリングフレーム上にマッピングされる。
表記を簡単にするために、復号化2Dフレームも「F」と呼び、レンダリングに使用される3D表面もSと呼ぶ場合がある。符号化される2Dフレームおよび復号化される2Dフレームは、ビデオ圧縮によって異なる場合があり、前処理における3D表面およびレンダリングにおける3D表面も異なる場合があることを理解されたい。用語「マッピング」および「投影」はほとんど同じ意味で使用され、用語「画素」および「サンプル」はほとんど同じ意味で使用され、用語「フレーム」および「ピクチャ」はほとんど同じ意味で使用され得る。
3次元(3D)表面を矩形表面にマッピングする問題については、全方位ビデオの典型的なレイアウトである正距円筒図法レイアウトに関して最初に説明したが、一般的な原理は、3D表面Sから矩形フレームFへの任意のマッピングに適用可能である。同じ原理が、例えば、キューブマッピングレイアウトに適用され得る。
図15Aおよび図15Bにおいて、本発明者らは、シーン内の直線に沿って移動するオブジェクトの一例と、フレーム内の結果として生じる見かけの動き(破線の曲線で示されている)とを示す。任意の予測ユニット(PU)パーティションに対する結果として生じる動きベクトルは、右側に示されている。図面から分かるように、レンダリングされた画像において動きが完全に直線的であったとしても、符号化するフレームは不均一な動きベクトルを示す。
背景として、図16Aからは、前と同じ表記を使用して、特定のベクトルdVの正確な幾何学的変換を実行する迅速な方法が以下のプロセス(図21のステップ200に対応する)によって行われる。
・Pは、動きベクトルを予測することを望むターゲット点である
・Vは、動きベクトルを予測するソース点である
・dVは、Vにおける動きベクトルである
(1)P’’’=3d(P)を計算する(図21のステップ201)、P’’’は単一球体上にあり、3D球体中心CおよびP’’’を通る方向CP’’に垂直な平面Fを定義することに留意されたい
(2)V’’’=3d(V)を計算する(図21のステップ202)
(3)平面F上のV’’’の投影、
を計算する(図21のステップ204)
(4)W=V+dVを計算する
(5)W’’’=3d(W)を計算する(図21のステップ203)
(6)平面F上のW’’’の投影、
を計算する(図21のステップ205)
(7)平面F上の動きベクトルの投影、dV=W−Vを計算する(図21のステップ206)
(8)Q’’’=Q=P+dV=P’’’+dVを計算する(図21のステップ)
(9)Q=3d−1(Q’’’)を計算する(図21のステップ208)
(10)最終動きベクトルdP=Q−Pを計算する(図21のステップ209)
(11)ERP(P,V,dV)=dP
第1の実施形態では、ERP特有のツールの性能を向上させるために、以下のような特定のツールの起動を強制的に行うことができる。
・ERP変換動きベクトル予測子、インターのみ
・ERP動き補償、インターのみ
・ERPイントラ予測子
・ERPイントラ予測
・ERPに基づいたQp適応、イントラおよびインター
これらの特有のツールは、スライスヘッダにおける符号化を使用することによりスライスレベルで、またはピクチャパラメータセット(PPS)における符号化を使用することによりピクチャレベルで起動され得る。表1は、使用され得るシンタックスの基本的な例を示す。
上記の起動および停止は、図17の解析ブロックに含まれる。
第2の実施形態では、エンコーダの複雑さを低減するために、ツールは、画像の何らかの部分に対して自動的に無効化され得る。実際に、ERP画像については、赤道付近の領域(画像の垂直方向の中央付近)は、幾何学的歪みを受けにくい。例えば、図20の球体に45度で境界を定めることで、3つのスライスを作成することができ、この場合、スライス0およびスライス2ではツールが起動され、スライス1ではツールが停止されている。
第2の実施形態の別の変形形態では、3つのスライスパラメータは、ERPツールが起動されるかどうかを示す単一フラグから自動的に推定される。次に、起動モードは、各スライスに対して自動的に設定される。
第2の実施形態の別の変形形態では、起動および停止は、スライスを必要とせずに、画像の各部分に属し、スライス0、1、2の領域に対応する符号化ツリーユニット(CTU)によって行われる。
第3の実施形態では、ERPマッピングを検出するために、符号化方法が使用され得る。エンコーダでは、前処理演算は、マッピングのタイプを検出し、ひいては、フレーム/スライスの起動および停止するためのツールのタイプを検出する。以下は、ERPツールを自動的に起動および停止するための符号化方法のいくつかの実施例である。
第1に、マルチパスコーダは、ERPツールをモード選択としてレート歪み最適化(ROD)に導入することができる。第1の符号化パスの後、ブロックのn%を超えるブロックがERPツールを使用する場合、ツールは、フレーム全体に対して、またはスライスによって起動/強制実行される。
第2に、動き推定器は、フレーム上で実行される。動きフィールドとERP変換との互換性が計算される。
・デフォルト動き差分:
ここで、v(x)は画素xにおける動きベクトルであり、画素pの近傍は、例えば、pの距離Nにおける上画素、下画素、左画素および右画素として定義される。 スコアDは、動きフィールドの「規則性」を示す。
・ERP変換動き差分:
ここで、ERP(P,V,dV)は、ターゲット点Pを使用してVにおけるベクトルdVを変換する関数である。このような変換については、他の箇所で説明する。ツールは、D’<DまたはD’<a×Dである場合に起動される。
第3に、フレーム上でエッジ検出が行われる(例えば、キャニー検出器)。極領域内の各フレーム(すなわち、フレームの上部および下部に近い領域)に対して、全てのエッジについての正確さのスコアが計算される。スコアが閾値未満である場合、フレームはERPとみなされ、ツールが起動される。正確さは、例えば、全てのラインの局所勾配の絶対和として測定され得る。
図22は、記載されている態様に従う方法2200の一実施形態を示す。該方法は、開始ブロック2201から始まり、制御は、ブロック2210に進み、広視野ビデオ用のビデオビットストリームの少なくとも一部を符号化する。広視野ビデオの少なくとも1つのピクチャは、投影関数を使用して少なくとも1つの2次元ピクチャ上に投影された3次元表面として表される。該方法は、ブロック2210からブロック2220に進み、投影関数に対応するビデオ上で演算を実行する。制御は、ブロック2220からブロック2230に進み、演算性能を表すビデオビットストリームのシンタックス要素にフラグを挿入する。
図23は、記載されている態様に従う方法2300の一実施形態を示す。該方法は、開始ブロック2301から始まり、制御は、ブロック2310に進み、広視野ビデオ用のビデオビットストリームの少なくとも一部を解析する。広視野ビデオの少なくとも1つのピクチャは、投影関数を使用して少なくとも1つの2次元ピクチャ上に投影された3次元表面として表される。制御は、ブロック2310からブロッ2320に進み、ビデオビットストリームのシンタックス要素内のフラグを検出する。制御は、ブロック2320からブロック2330に進み、フラグに基づいて、投影関数に対応するビデオ上で演算を実行するかどうかを決定する。制御は、ブロック2330からブロック2340に進み、ビデオビットストリームの少なくとも一部を復号化する。
図24は、ビデオデータのブロックを符号化または復号化するための装置2400の一実施形態を示す。該装置は、入力ポートおよび出力ポートを有し、同様に入力ポートおよび出力ポートを有するメモリ2420と信号接続しているプロセッサ2410を備える。該装置は、上述した方法の実施形態のいずれか、または変形形態を実行することができる。
図面に示される様々な要素の機能は、専用ハードウェアならびに適切なソフトウェアと連携してソフトウェアを実行することができるハードウェアを使用して提供され得る。機能は、プロセッサによって提供される場合、単一の専用プロセッサ、単一の共有プロセッサ、または複数の個別プロセッサ(そのうちのいくつかは共有され得る)によって提供され得る。さらに、「プロセッサ」または「コントローラ」という用語の明示的な使用は、ソフトウェアを実行することができるハードウェアのみを指すと解釈すべきではなく、限定的ではないが、デジタル信号プロセッサ(「DSP」)ハードウェア、ソフトウェアを記憶するためのリードオンリメモリ(「ROM」)、ランダムアクセスメモリ(「RAM」)、および不揮発性記憶装置を暗黙的に含み得る。
他のハードウェア(従来型および/またはカスタム)も含まれ得る。同様に、図面に示されている任意のスイッチは、概念的なものに過ぎない。それらの機能は、プログラムロジックの演算、専用ロジック、プログラム制御と専用ロジックとの相互作用、または手動によって実行され得、特定の技術は、文脈からより具体的に理解されるように、実装者によって選択可能である。
本明細書は、本発明のアイデアを説明するものである。したがって、本明細書内で明示的に記載または図示されていないが、当業者は、本発明のアイデアを具現化し、本発明の範囲内に含まれる様々な構成を考案することができることは理解されるであろう。
本明細書に記載されている全ての実施例および条件付き言語は、読者が当該分野の技術推進に対して本発明者(1人または複数人)が寄与する本発明の原理および概念を理解するのを助ける教育的目的を意図したものであり、このような具体的に列挙された実施例および条件に限定されるものではないと解釈すべきである。
さらに、原理、態様、および本発明の原理の実施形態、ならびにその特定の実施例を列挙した本明細内の全ての記述は、構造的かつ機能的均等物の両方を包含するものとする。さらに、そのような均等物は、現在周知の均等物、および将来開発される均等物、すなわち、構造に関係なく同じ機能を実行する、開発される任意の要素を含むものとする。
したがって、例えば、本明細書で提示されるブロック図は、本発明の原理を具現化する例示的回路の概念図を表していることは、当業者には理解されるであろう。同様に、任意のフローチャート、フロー図、状態遷移図、擬似コードなどは、コンピュータ可読媒体内で実質的に表され、コンピュータまたはプロセッサが明示的に示されているか否かに関わらず、コンピュータまたはプロセッサによって実行され得る様々なプロセスを表すことが理解されるであろう。
本明細書の特許請求の範囲において、特定の機能を実行するための手段として表現される任意の要素は、例えば、(a)その機能を実行する回路素子の組み合わせ、(b)ファームウェア、マイクロコードなどを含む任意の形態のソフトウェア(その機能を実行するためにそのソフトウェアを実行するための適切な回路と組み合わせて)を含む、その機能を実行する任意の方法を包含するものとする。このような特許請求の範囲によって定義される本発明の原理は、特許請求の範囲が要求する形で、種々の記載されている手段によって提供される機能が組み合わされ、統合されるということにある。したがって、これらの機能を提供することができる任意の手段は、本明細書内に示されている機能と均等物であると見なされる。
本明細書内における本発明の原理の「一実施形態」または「ある実施形態」、ならびに他のその変形形態についての言及は、実施形態に関して説明されている特定の特徴、構造、特性などが、本発明の原理の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書全体を通して様々な場所に現れる「一実施形態では」または「ある実施形態では」というフレーズは、必ずしも全てが同じ実施形態について言及しているとは限らない。
要するに、正距円筒図法に関連するビデオ符号化のためのツールおよび演算を可能にする方法および装置が記載されている。これらの技術は、特定のツールおよび演算を選択的に有効にするものであるので、可能であれば符号化および復号化の複雑さを低減することができる。一実施形態では、フラグは、ERP動きベクトル予測、ERPイントラ予測、ERPベース量子化パラメータ適応、または他のそのような機能を起動するためにスライスレベルまたはピクチャレベルで使用される。別の実施形態では、ERP関連ツールは、フラグを使用して画像内の位置に基づいて起動され得る。他の実施形態では、ERP関連ツールは、デフォルト動き差分とERP変換動き差分との比較に基づいて、または対応するフラグを有するエッジ検出スコアに基づいて、起動され得る。

Claims (15)

  1. 広視野ビデオ用のビデオビットストリームの少なくとも一部を符号化することであって、前記広視野ビデオの少なくとも1つのピクチャは、投影関数を使用して少なくとも1つの2次元ピクチャ上に投影された3次元表面として表される、ことと、
    前記投影関数に対応する前記ビデオ上で演算を実行することと、
    前記性能を表す前記ビデオビットストリームのシンタックス要素にフラグを挿入することと、
    を含む方法。
  2. 広視野ビデオ用のビデオビットストリームの少なくとも一部を解析することであって、前記広視野ビデオの少なくとも1つのピクチャは、投影関数を使用して少なくとも1つの2次元ピクチャ上に投影された3次元表面として表される、ことと、
    前記ビデオビットストリームのシンタックス要素内のフラグを検出することと、
    前記フラグに基づいて、前記投影関数に対応する前記ビデオ上で演算を実行するかどうかを決定することと、
    前記ビデオビットストリームの少なくとも一部を復号化することと、
    を含む方法。
  3. ビデオデータの少なくとも一部を符号化するための装置であって、
    メモリと、
    プロセッサであって、
    広視野ビデオ用のビデオビットストリームの符号化であって、前記広視野ビデオの少なくとも1つのピクチャは、投影関数を使用して少なくとも1つの2次元ピクチャ上に投影された3次元表面として表される、符号化、
    前記投影関数に対応する前記ビデオ上での演算の実行、および
    前記性能を表す前記ビデオビットストリームのシンタックス要素へのフラグの挿入
    を実行するように構成されたプロセッサと、
    を備える前記装置。
  4. ビデオデータの少なくとも一部を復号化するための装置であって、
    メモリと、
    プロセッサであって、
    広視野ビデオ用のビデオビットストリームの解析であって、前記広視野ビデオの少なくとも1つのピクチャは、投影関数を使用して少なくとも1つの2次元ピクチャ上に投影された3次元表面として表される、解析、
    前記ビデオビットストリームのシンタックス要素内のフラグの検出、
    前記フラグに基づいた、前記投影関数に対応する前記ビデオ上で演算を実行するかどうかの決定、および
    前記ビデオビットストリームの復号化
    を実行するように構成されたプロセッサと、
    を備える前記装置。
  5. 前記演算は、動きベクトル予測子変換、動き補償、イントラ予測、イントラ予測器、または量子化パラメータ適応を含む、請求項1もしくは請求項2に記載の方法、または請求項3もしくは請求項4に記載の装置。
  6. 前記フラグは、スライスヘッダまたピクチャパラメータセット内にある、請求項5に記載の方法または装置。
  7. 前記フラグは、前記ビデオ画像の一部に対して無効化される、請求項1もしくは請求項2に記載の方法、または請求項3もしくは請求項4に記載の装置。
  8. 前記演算が起動されるかどうかを示すために、前記フラグからスライスパラメータが決定される、請求項7に記載の方法または装置。
  9. 前記演算は、符号化ツリーユニットが画像の特定の部分に属するかどうかを決定することによって実行される、請求項に記載の方法または装置。
  10. 前処理ステップにおいてピクチャの特定部分内のブロックの閾値割合のブロックでの前記演算の使用が決定される場合、前記演算は前記ピクチャの前記特定部分に対して起動される、請求項1に記載の方法または請求項3に記載の装置。
  11. 前記演算は、デフォルト動き差分と正距円筒図法変換動き差分との比較に基づいて起動される、請求項1に記載の方法または請求項3に記載の装置。
  12. エッジ検出演算が実行され、前記演算は、前記エッジ検出演算の正確さスコアに基づいて前記ビデオの極領域内のフレームに対して起動される、請求項1に記載の方法または請求項3に記載の装置。
  13. プロセッサを使用して再生するために、請求項1および請求項5〜請求項12のいずれか一項に記載の方法に従って、または請求項3および請求項5〜請求項12のいずれか一項に記載の装置によって生成されたデータコンテンツを含む非一時的なコンピュータ可読媒体。
  14. プロセッサを使用して再生するために、請求項1および請求項5〜請求項12のいずれか一項に記載の方法に従って、またはプロセッサを使用して再生するための請求項3および請求項5〜請求項12のいずれか一項に記載の装置によって生成されたビデオデータを含む信号。
  15. コンピュータによってプログラムが実行されるときに、請求項2および請求項5〜請求項9のいずれか一項に記載の方法を前記コンピュータに実行させる命令を含むコンピュータプログラム製品。
JP2020512470A 2017-09-18 2018-09-14 全方位ビデオの符号化のための方法および装置 Pending JP2020534726A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17306200.1 2017-09-18
EP17306200.1A EP3457698A1 (en) 2017-09-18 2017-09-18 Method and apparatus for coding of omnidirectional video
PCT/US2018/051090 WO2019055788A1 (en) 2017-09-18 2018-09-14 METHOD AND APPARATUS FOR ENCODING OMNIDIRECTIONAL VIDEO

Publications (1)

Publication Number Publication Date
JP2020534726A true JP2020534726A (ja) 2020-11-26

Family

ID=60009545

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020512470A Pending JP2020534726A (ja) 2017-09-18 2018-09-14 全方位ビデオの符号化のための方法および装置

Country Status (6)

Country Link
US (1) US20200236370A1 (ja)
EP (2) EP3457698A1 (ja)
JP (1) JP2020534726A (ja)
CN (1) CN111095930A (ja)
RU (1) RU2020113609A (ja)
WO (1) WO2019055788A1 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103096047B (zh) * 2011-11-01 2018-06-19 中兴通讯股份有限公司 一种分片层参数集解码及编码方法和装置
US10104361B2 (en) * 2014-11-14 2018-10-16 Samsung Electronics Co., Ltd. Coding of 360 degree videos using region adaptive smoothing
WO2017051072A1 (en) * 2015-09-23 2017-03-30 Nokia Technologies Oy A method, an apparatus and a computer program product for coding a 360-degree panoramic video
US20170026659A1 (en) * 2015-10-13 2017-01-26 Mediatek Inc. Partial Decoding For Arbitrary View Angle And Line Buffer Reduction For Virtual Reality Video
US20170118475A1 (en) * 2015-10-22 2017-04-27 Mediatek Inc. Method and Apparatus of Video Compression for Non-stitched Panoramic Contents
US10630992B2 (en) * 2016-01-08 2020-04-21 Samsung Electronics Co., Ltd. Method, application processor, and mobile terminal for processing reference image

Also Published As

Publication number Publication date
US20200236370A1 (en) 2020-07-23
EP3685584A1 (en) 2020-07-29
EP3457698A1 (en) 2019-03-20
RU2020113609A (ru) 2021-10-20
WO2019055788A1 (en) 2019-03-21
CN111095930A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
US10341650B2 (en) Efficient streaming of virtual reality content
JP6410918B2 (ja) パノラマ映像コンテンツの再生に使用するシステム及び方法
WO2018060358A1 (en) Method and apparatus for omnidirectional video coding and decoding with adaptive intra prediction
JP2019537294A (ja) 全方位ビデオのための補正された動き補償方法および装置
KR20190055228A (ko) 전방향 이미지들의 맵핑의 표시를 제공하는 방법들, 디바이스들 및 스트림
US10506211B2 (en) Recording medium, image generation apparatus, and image generation method
CN111052746B (zh) 用于编码和解码全向视频的方法和装置
CN111108751B (zh) 适应于全向视频的运动矢量预测量的方法和装置
WO2018069215A1 (en) Method, apparatus and stream for coding transparency and shadow information of immersive video format
JP2020534726A (ja) 全方位ビデオの符号化のための方法および装置
EP3716217A1 (en) Techniques for detection of real-time occlusion
US20210195161A1 (en) Stereo omnidirectional frame packing
US20210195240A1 (en) Omnidirectional video slice segmentation
EP3349462A1 (en) Method and apparatus for coding/decoding a picture of an omnidirectional video
EP3349460A1 (en) Method and apparatus for coding/decoding a picture of an omnidirectional video
EP3349463A1 (en) Method and apparatus for coding/decoding a picture of an omnidirectional video
EP3310053A1 (en) Method and apparatus for coding transparency information of immersive video format
EP3310052A1 (en) Method, apparatus and stream for immersive video format
EP3310057A1 (en) Method, apparatus and stream for coding transparency and shadow information of immersive video format