JP2019530311A - 360度ビデオ情報をシグナリングするための方法およびシステム - Google Patents

360度ビデオ情報をシグナリングするための方法およびシステム Download PDF

Info

Publication number
JP2019530311A
JP2019530311A JP2019511979A JP2019511979A JP2019530311A JP 2019530311 A JP2019530311 A JP 2019530311A JP 2019511979 A JP2019511979 A JP 2019511979A JP 2019511979 A JP2019511979 A JP 2019511979A JP 2019530311 A JP2019530311 A JP 2019530311A
Authority
JP
Japan
Prior art keywords
parameter
projection
shape
video
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2019511979A
Other languages
English (en)
Other versions
JP2019530311A5 (ja
Inventor
フィリッペ・ハンハート
ユーウェン・ヘー
ヤン・イエ
Original Assignee
ヴィド スケール インコーポレイテッド
ヴィド スケール インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴィド スケール インコーポレイテッド, ヴィド スケール インコーポレイテッド filed Critical ヴィド スケール インコーポレイテッド
Publication of JP2019530311A publication Critical patent/JP2019530311A/ja
Publication of JP2019530311A5 publication Critical patent/JP2019530311A5/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

360度ビデオについてのコーディング技術が説明される。エンコーダは、投影フォーマットを選択し、選択された投影フォーマットを使用して、360度ビデオを2D平面ビデオにマッピングする。エンコーダは、ビットストリーム、更には信号において、2D平面ビデオを符号化し、ビットストリームにおいて、投影フォーマットを識別するパラメータを符号化する。投影フォーマットを識別するパラメータは、ビットストリームのビデオパラメータセット、シーケンスパラメータセット、および/またはピクチャパラメータセットにおいてシグナリングされてもよい。シグナリングすることができる異なる投影フォーマットは、エクイレクタングラ、キューブマップ、正積、八面体、二十面体、円筒、およびユーザにより指定された多角形などの形状を使用するフォーマットを含む。シグナリングすることができる他のパラメータは、形状面の異なる配置または異なる面についての異なる符号化品質を含む。対応するデコーダも説明される。一部の実施形態では、投影パラメータは、投影形状方位を定める相対形状回転パラメータを更に含んでもよい。

Description

本発明は、画像処理の技術に関する。
関連出願の相互参照
本出願は、それらの全体の参照により本明細書に組み込まれている、2016年9月2日に出願した「Method and System for Signaling of 360−Degree Video Information」という名称の米国特許仮出願第62/383,367号明細書、および2016年10月12日に出願した「Method and System for Signaling of 360−Degree Video Information」という名称の米国特許仮出願第62/407,337号明細書の非仮出願であり、米国特許法(35 U.S.C.)第119条のもとに利益を主張するものである。
仮想現実(VR)は、研究室から出て我々の日常生活に入ってきている。VRは多くの応用分野を有する:医療、教育、ソーシャルネットワーキング、産業設計/訓練、ゲーム、映画、ショッピング、娯楽、その他多く。VRは没入型のビューイングエクスペリエンスをもたらす能力を有するので、産業界および消費者から顕著な注目を獲得しつつある。それは見る人を取り囲む仮想環境を作成し、「そこに居る」という現実の感覚を生成し得る。VR環境においてどのようにして十分な現実感をもたらすかは、ユーザのエクスペリエンスのために重要である。例えばVRシステムは、姿勢、ジェスチャ、視線、声および/または同様のものを通した対話をサポートするべきである。自然な方式でユーザがVR世界におけるオブジェクトと対話することを可能にするために、システムはまた、ユーザに触覚フィードバックももたらし得る。
今日のVRシステムは360度ビデオを用いて、ユーザに水平方向に360度の角度、および垂直方向に180度の角度からシーンを見る能力をもたらす。同時に、VRおよび360度ビデオは、超高精細(UHD)サービスを超えるメディア消費のための将来の方向と考えられている。VRにおける360度ビデオの品質を改善し、VRクライアントの相互運用性のための処理チェーンを標準化するために、MPEG−A(マルチメディアアプリケーションフォーマット)Part19に属するアドホックグループが、2016年の初めに無指向性メディアアプリケーションフォーマットのための要件および潜在的技術に取り組むようにISO/IEC/MPEG内に設立された。別のアドホックグループ、free view TV(FTV)は、360度3Dビデオアプリケーションのための調査実験を発表した。FTVに対する1つの主要な目標は2つのソリューションの性能をテストすることである:(1)360度ビデオ(無指向性ビデオ)をベースとするシステム;(2)マルチビューをベースとするシステム。次世代ビデオ符号化標準のための新たな技術を調査している、MPEGおよびITU−Tからの共同ビデオ調査チーム(JVET)は、VRを含むテストシーケンスに対する要求を発表した。2016年6月の会議において、アドホックグループ(AHG8)が設立され、AHG8グループの権限は360ビデオ符号化のための、共通テスト条件、テストシーケンスフォーマット、および評価基準を実現させることである。AHG8はまた、異なる投影法が適用されたときの圧縮に対する影響、および変換ソフトウェアについて検討することになる。
業界は、捕捉、処理、表示、およびアプリケーションを含む、VR処理チェーンにおける様々な側面の品質およびユーザエクスペリエンスを改善することに取り組んでいる。捕捉側において、VRシステムは複数のカメラシステムを用いて、異なる分岐したビュー(例えばいくつかの場合にはおおよそ6個から12個のビュー)からシーンを捕捉する。これらのビューは、高解像度(例えば4Kまたは8K)での360度ビデオを形成するように、一緒にスティッチされる。クライアントまたはユーザ側において、現在の仮想現実システムは通常、計算プラットフォーム、ヘッドマウントディスプレイ(HMD)、およびヘッドトラッキングセンサを含む。計算プラットフォームは360度ビデオを受信および復号すること、ならびに表示のためのビューポートを生成することを担当する。それぞれの目に1つずつの、2つの画像がビューポートのためにレンダリングされる。2つの画像は立体ビューイングのためにHMD内に表示される。より良いビューイングのためにHMD内に表示されるイメージを拡大するように、レンズが用いられ得る。ヘッドトラッキングセンサは、見る人の頭部方位を絶えず追跡し続け、方位情報をシステムに供給してビューポート画像をその方位に表示する。
いくつかのVRシステムは、仮想世界におけるオブジェクトと対話するように、見る人のために特殊なタッチデバイスをもたらし得る。市場において既存のVRシステムが使用可能である。1つはOculusによってもたらされるRift、ならびにまたSamsungおよびOculusからの製品であるGear VRである。Riftは、優れたGPUサポートを有する強力なワークステーションによって駆動される。Gear VRは軽いVRシステムであり、これは計算プラットフォームとしてのスマートフォン、HMDディスプレイ、およびヘッドトラッキングセンサを用いる。第2のVRシステムはHTC Viveシステムである。RiftおよびViveは同様な性能を有する。空間的HMD解像度は2160×1200、リフレッシュレートは90Hz、および視野(FOV)は約110度である。ヘッドトラッキングセンサのためのサンプリングレートは1000Hzであり、これは非常に高速の運動を捕捉することができる。Googleはまたカードボードと呼ばれる簡単なVRシステムを有する。Googleカードボードはレンズおよびカードボードアセンブリを有し、Gear VRと同様であり、スマートフォンによって駆動される。SonyもゲーミングのためのPlayStation VRをもたらす。360度ビデオストリーミングサービスの観点から、中でもYouTubeおよびFacebookは早期のプロバイダである。
対話性および触覚フィードバックなどのエクスペリエンス品質は、これらの現在のVRシステムにおいて依然としてさらなる改善の必要がある。例えば今日のHMDは、依然として大き過ぎ、着用するのに便利ではない。またHMDによってもたらされる立体視のための現在の2160×1200の解像度は不十分であり、一部のユーザに対してめまいおよび不快感を引き起こし得る。したがって、解像度増加は有益となり得る。さらに、VR環境における視覚からの感覚を、現実世界における力フィードバックと組み合わせることは、VRエクスペリエンスを強化するための1つの選択肢である。VRローラーコースタは例示のアプリケーションである。
多くの会社が360度ビデオ圧縮および配信システムに取り組んでおり、彼等は彼等自体の解決策を有する。例えばGoogle YouTubeは、DASHをベースとする360度ビデオストリーミングのためのチャネルをもたらした。Facebookも、360度ビデオ配信のための解決策を有する。
本明細書におけるシステムおよび方法は、360度ビデオデータエンコーディングおよび復号に関連する問題に対処しようとするものである。
M. Yu, H. Lakshman, B. Girod, "A Framework to Evaluate Omnidirectional Video Coding Schemes", IEEE International Symposium on Mixed and Augmented Reality, 2015
360度ビデオをエンコードする例示的方法において、エンコーダは投影フォーマットを選択し、投影フォーマットは形状タイプおよび/または形状方位などの情報を含む。エンコーダは、選択された投影フォーマットを用いて、360度ビデオを2D平面ビデオにマッピングする。エンコーダは、2D平面ビデオをビットストリームにエンコードし、さらに投影フォーマットを識別するパラメータをビットストリーム内でシグナリングする。エクイレクタングラ、キューブマップ、正積、八面体、二十面体、円筒、およびユーザ指定の多角形を含む、様々な形状タイプが用いられ、ビットストリーム内にシグナリングされ得る。複数の面に関連付けられた形状タイプに対して、フレームパッキングパラメータは、2D平面ビデオ内のそれらの面の位置および/または方位を識別するためにシグナリングされ得る。異なる面は、異なるサイズおよび/または異なる品質のレベルを有してエンコードされ得る。形状方位を識別するパラメータは、ヨーパラメータ、ピッチパラメータ、およびロールパラメータの少なくとも1つを含み得る。
投影フォーマットを識別するパラメータは、ビットストリームのビデオパラメータセット、シーケンスパラメータセット、および/または画像パラメータセット内でシグナリングされ得る。投影パラメータは、レート歪み最適化に基づいて選択され得る。ビデオ内の異なる画像または異なるシーケンスは、投影フォーマットパラメータのシグナリングが適切なパラメータセットにおいてもたらされながら、異なる投影フォーマットを用いてエンコードされ得る(例えば異なる画像またはシーケンスが、異なる投影フォーマットを用いて、より高いレート歪み性能を有するとき)。対応する復号技法も述べられる。
本開示において、360度ビデオ符号化と共に用いるための例示的構文が述べられる。構文要素は、投影形状を指定するため、および/または格子システムを用いたフレームパックされた画像における面の配置を指定するために用いられ得る。面は異なるサイズおよび/または方位を有することができる。いくつかの実施形態において、2D平面上の面配置は、各列/行に沿った一定の面幅/高さなど、様々な特性を有し得る。いくつかの実施形態において、任意の多角形ベースの表示を用いたユーザ指定の形状のための例示的構文が述べられる。いくつかの実施形態において使用されるさらなる特徴は、フレームパックされた画像をパッディングするために用いられるサンプルをスキップするためのフラグ、面ごとのレベルにおけるデルタ量子化パラメータ(QP)のシグナリング、特定の面にわたってループフィルタをイネーブル/ディスエーブルするためのフラグ、および/または360ビデオの特定の領域だけを符号化するための構文の使用を含み得る。
いくつかの実施形態において、投影パラメータはさらに相対的形状回転パラメータを含み得る。このようなパラメータは、投影形状方位を定義し得る。投影形状は、関心のあるオブジェクトが、投影形状の単一の面内に実質的に全体が含まれるように選択的に方位付けされ得る。異なる面が異なる品質のレベル(例えば異なるQP値)を有してエンコードされる実施形態において、投影形状は、関心のあるオブジェクトが、比較的高い品質レベルを有してエンコードされる面内に、実質的に全体が含まれるように方位付けされ得る。
より詳しい理解は、添付の図面と共に例として提示される以下の説明から得られ得る。
経度および緯度での球面サンプリングを用いた、球面形状上のエクイレクタングラ投影を示す図である。 図1Aでの球面上の点Pは2D平面内の点qに投影される、図1Aでのサンプリングに対する2D平面エクイレクタングラ投影を示す図である。 エクイレクタングラ投影を用いた例示の画像の概略図である。 面PX(0)、NX(1)、PY(2)、NY(3)、PZ(4)、NZ(5)を用いた、3D形状構造上のキューブマップ投影を示す図である。 図2Aで定義された6つの面に対する2D平面を示す図である。 キューブマップ投影を用いた例示の画像を概略的に示す図である。 正積投影のための正積方式での球面サンプリングを示す図である。 球面上の点pは2D平面内の点qに投影され、水平線(A0、A1、A2など)の緯度は等間隔ではない、図3Aの正積投影の2D平面を示す図である。 正積投影を用いた例示の画像を概略的に示す図である。 3D形状構造を用いた八面体投影を示す図である。 図4Aの3D構造の2D平面パッキングを示す図である。 八面体投影を用いた例示の画像を概略的に示す図である。 360度ビデオ処理ワークフローの一実施形態を示す図である。 ブロックベースのビデオエンコーダの機能ブロック図の一実施形態を示す図である。 ビデオデコーダの機能ブロック図の一実施形態を示す図である。 キューブマップ投影フォーマットの物理的レイアウトの一実施形態を示す図である。 八面体投影フォーマットの物理的レイアウトの一実施形態を示す図である。 4×3フォーマットで表されたキューブマップを示す図である。 3×2フォーマットで表されたキューブマップを示す図である。 前面が他の面の2倍のサイズ(4倍の面積)を有する(この場合、前面は2つの行および2つの列にわたって広がる)、3×3フォーマットで表されたキューブマップを示す図である。 0°回転による、三角形の面に対する面回転の定義を示す図である。 90°回転による、三角形の面に対する面回転の定義を示す図である。 180°回転による、三角形の面に対する面回転の定義を示す図である。 270°回転による、三角形の面に対する面回転の定義を示す図である。 0°回転の後に垂直反転による、三角形の面に対する面回転の定義を示す図である。 90°回転の後に垂直反転による、三角形の面に対する面回転の定義を示す図である。 180°回転の後に垂直反転による、三角形の面に対する面回転の定義を示す図である。 270°回転の後に垂直反転による、三角形の面に対する面回転の定義を示す図である。 八面体に対する非コンパクトフレームパッキングフォーマットを示す図である。 八面体に対するコンパクトフレームパッキングフォーマットを示す図である。 二十面体に対する非コンパクトフレームパッキングフォーマットを示す図である。 二十面体に対するコンパクトフレームパッキングフォーマットを示す図である。 全画像はフレームパックされた画像を表し、矩形は符号化されるエリアの範囲を定める、キューブマップに対する制限された球面範囲符号化を示す図である。 全画像はフレームパックされた画像を表し、矩形は符号化されるエリアの範囲を定める、等辺形に対する制限された球面範囲符号化を示す図である。 キューブマップ投影と共に用いられ得るものなどの6つの面の配置を示す、フレームパックされた画像内の面の例示的な代替的配置を示す図である。 キューブマップ投影と共に用いられ得るものなどの6つの面の配置を示す、フレームパックされた画像内の面の例示的な代替的配置を示す図である。 いくつかの実施形態においてエンコーダまたはデコーダとして使用され得る例示的無線送信/受信ユニット(WTRU)を示す図である。 いくつかの実施形態においてエンコーダまたはデコーダとして使用され得る例示的ネットワークエンティティを示す図である。
次に例示的実施形態の詳しい説明が、様々な図を参照してもたらされる。この説明は可能な実装形態の詳しい例をもたらすが、もたらされる詳細は例としてであり、本出願の範囲を限定するものではないことが留意されるべきである。
360度ビデオエンコーディングおよび復号
360度ビデオ配信の1つの技法は、球面形状構造を用いて360度情報を表すことである。例えば複数のカメラによって捕捉された同期した複数のビューは、1つの一体化した構造として球面上にスティッチされる。次いで球面情報は、所与の形状変換処理、例えばエクイレクタングラ投影(ERP)法を用いて2D平面表面に投影される。図1Aは経度(φ)および緯度(θ)における球面サンプリングを示し、図1Bはエクイレクタングラ投影を用いて2D平面に投影される球面を示す。航空学において範囲[−π,π]内の経度φはヨーとして知られ、範囲[−π/2,π/2]内の緯度θはピッチとして知られ、πは円の周囲の長さとその直径との比である。説明を容易にするために、(x,y,z)は3D空間における点の座標を表すために用いられ、(ue,ve)はエクイレクタングラ投影を用いた2D平面内の点の座標を表すために用いられる。エクイレクタングラ投影は、数学的に式(1)および(2)において表されることができる:
ue=(φ/(2×π)+0.5)×W (1)
ve=(0.5−θ/π)×H (2)
ただしWおよびHは2D平面画像の幅および高さである。図1Aに示されるように、球面上の経度L4と緯度A1の交差点、点Pは、式(1)および(2)を用いて2D平面内の一意の点q(図1B)にマッピングされる。2D平面内の点qは、逆投影によって球面上のもとの点Pに投影されることができる。図1Bでの視野(FOV)は、球面におけるFOVが、X軸に沿った約110度の視野角を有して、2D平面にマッピングされる例を示す。
ERPを用いて、360度ビデオは通常の2Dビデオにマッピングされることができる。これはH.264またはHEVCなどの既存のビデオコーデックを用いてエンコードされ、次いでクライアントに配信されることができる。クライアント側では、エクイレクタングラビデオは復号され、次いでHMD内のエクイレクタングラ画像内のFOVに属する部分を投影および表示することによって、ユーザのビューポートに基づいてレンダリングされる。球面ビデオはエクイレクタングラ投影を用いたエンコーディングのために2D平面画像に変換されることができるが、エクイレクタングラ2D画像の特性は従来の2D画像(レクティリニアビデオ(rectilinear video)とも呼ばれる)のそれとは異なる。図1Cは、部屋の内部の例示のエクイレクタングラ画像の概略表示である。北極に対応する画像の最上部分、および南極に対応する最下部分は、2D空間領域におけるエクイレクタングラサンプリングが不均一であることの結果として、赤道に対応する画像の中央部と比較して引き伸ばされる。時間的方向の中での2Dエクイレクタングラ画像における動きフィールドは、通常の2Dビデオにおける動きと比較して複雑になる。
MPEG−2、H.264、およびHEVCなどのビデオコーデックは、動きフィールドを記述するために並進モデルを用い、エクイレクタングラ投影された2D平面画像における形状が変わる運動を効率的に表すことができない。エクイレクタングラ投影の他の欠点は、赤道により近いエリアと比較して、極により近いエリアは見る人および/またはコンテンツプロバイダにとって関心が少なくなり得ることである。例えば見る人は、かなりの持続時間の間、最上および最下領域には焦点を当てない場合がある。しかしワーピング効果に基づいて、エクイレクタングラ投影の後にこれらのエリアは2D平面の、大きな部分になるように引き伸ばされ、その結果これらの領域を圧縮することは、かなりのビット数を必要とし得る。
これらの観察に基づいて、例えばこれらの極エリアを、それらを符号化するために必要な帯域幅を低減させるために平滑化するなどの、前処理を適用することによって、エクイレクタングラ画像符号化を改善するための、いくつかの処理方法が調べられている。また、キューブマップ、正積、円筒、角錐、八面体など、360度ビデオを表すための異なる形状投影が提案されている。これらの投影法の中でも、最も圧縮に都合がよい形状はキューブマップとすることができ、これは各面が平面正方形の、合計6つの面を有する。図2Aは、キューブマップ形状の例を示す。キューブマップは6つの正方形の面からなる。内接球面の半径を1と仮定すると、キューブマップの各面(正方形)の横方向長さは2である。図2Bは、6つの面を、エンコーディングおよび配信のために用いられることができる、矩形に配置する1つのパッキング方法を示す。キューブマップ投影を用いた例示の画像の概略図は、図2Cに示される。ブランク領域(20)は、矩形画像を充填するためのパッディングされる領域である。各面に対して、画像は通常の2D画像と同じに見える。しかし各面の境界は連続ではない。壁と天井との間の接合部を表す直線22などの、2つの隣接する面を横切る直線は、これら2つの面の境界において曲げられるようになる。これは面境界における動きも、不連続になることを意味する。
図3A〜3Bは、正積投影の例示の形状構造を示す。エクイレクタングラ投影と異なり、球面上の垂直サンプリングはピッチの均一な間隔に基づかない。各サンプリングされた緯度のY軸上の投影は、球面上の各サンプルに対して同じ面積を達成するために、均一に分布される。垂直方向のサンプリングは、極領域に近い領域に対して、よりまばらになる。これはまた赤道の周りに、より多くのサンプルがあることを意味する。実用的な状況においてこれは好ましく、なぜならユーザは一般に、極に近い領域より、赤道に近い領域をより頻繁に見るからである。図3Cは、正積投影を用いた例示の画像の概略図である。図1Cと比較して、図3Cでは赤道の周りの領域はスケールアップされ、極の周りの領域は絞られる。
図4Aは、八面体投影の形状構造の例を示す。八面体は、8つの正三角形の面からなる。内接球面の半径が1である場合、各三角形の横方向長さは√6である。図4Bは、8つの三角形を1つの矩形内に配置する、1つのパッキング方法を示す。図4Cは、八面体投影を用いた1つの例示の画像を概略的に示す。例えば戸口402の歪みに見られるように、2つの隣接する三角形の共有される境界の隅部おいて、ワーピング歪みが観察される。
異なる形状投影法の符号化効率を比較するために、緯度をベースとするPSNR(L−PSNR)が提案されている(例えば、非特許文献1参照)。これは2つの要因を考察する:(1)球面上の均一サンプリング;(2)見る人の視線挙動。これは球面上に均一に分布したいくつかの数のサンプルを定義し、これはまたその緯度に基づいてサンプルの重みを定義する。歪みは、すべてのそれらの均一に分布したサンプルを考慮することによって、加重平均二乗誤差(MSE)を用いて測定される。重みは、見る人の視野角を、彼等がそれらのトレーニングシーケンスを見るときに、追跡することによって導き出される。重みは、それがより頻繁に見られる場合、大きくなる。これらの統計から、最も関心のあるコンテンツは赤道の周りに位置するので、赤道の周りの重みは極の近くのものより大きくなる。球面上のそれらの均一に分布したサンプルを用いることは、異なる投影法の性能を比較するための1つの測度をもたらす。しかしそれらの予め定義された球面サンプルは、異なる投影が適用されたとき、整数のサンプリング位置に投影されることができない。補間フィルタをベースとする再サンプリング方法が適用される場合、追加の補間誤差が導入されることになる。最も近い隣接するサンプリングが適用される場合、均一にサンプリングすることはもはや保証されない。したがって、客観的および主観的品質評価方法は、依然として360度ビデオ符号化のための未解決の論題である。
エクイレクタングラフォーマットは、360度カメラおよびスティッチングソフトウェアにおいて広くサポートされている。キューブマップ形状において360度ビデオをエンコードするために、エクイレクタングラフォーマットはキューブマップフォーマットに変換されなければならない。エクイレクタングラと、キューブマップとの間の関係は以下の通りである。図2Aにおいて、各面は球面の中心から面の中心に向かう3つの軸のそれぞれを用いて参照される。「P」は正を表し、「N」は負を表すとすると、PXは球面の中心から正のX軸に沿った方向を意味し、NXはPXの逆の方向であり、PY、NY、PZ、およびNZに対して類似のラベル付けとなる。その結果それぞれ前方、後方、最上、最下、右、および左面に対応する6つの面{PX、NX、PY、NY、PZ、NZ}が存在し、それらの面は0から5までインデックス付けされる。Ps(X_s,Y_s,Z_s)を、半径が1である球面上の点とする。これはヨーφおよびピッチθにおいて以下のように表されることができる:
X_s=cos(θ)cos(φ) (3)
Y_s=sin(θ) (4)
Z_s=−cos(θ)sin(φ) (5)
Pfを、球面中心からPsに直線を延ばしたときの立方体上の点とする。一般性を失わずに、Pfを面NZ上とする。Pfの座標(X_f,Y_f,Z_f)は以下として計算されることができる:
X_f=X_s/|Z_s| (6)
Y_f=Y_s/|Z_s| (7)
Z_f=−1 (8)
ただし|x|は、変数xの絶対値である。その結果、面NZの2D平面内のPfの座標(uc,vc)は以下として計算される:
uc=W×(1−X_f)/2 (9)
vc=H×(1−Y_f)/2 (10)
式(3)〜(10)から、特定の面上のキューブマップ内の座標(uc,vc)と、球面上の座標(φ,θ)との間の関係が構築されることができる。およびエクイレクタングラ点(ue,ve)と球面上の点(φ,θ)との間の関係は、式(1)および(2)から知られる。したがって、エクイレクタングラ形状とキューブマップ形状との間の関係が見出されることができる。キューブマップからエクイレクタングラへの形状マッピングは、以下のように要約されることができる。キューブマップ内の1つの面上の点(uc,vc)を所与として、エクイレクタングラ平面上の出力(ue,ve)は、以下として計算されることができる:
1)式(9)および(10)での関係に従って、(uc,vc)を有する面上の3D点P_fの座標を計算する;
2)式(6)、(7)、および(8)での関係に従って、P_fを有する球面上の3D点P_sの座標を計算する;
3)式(3)、(4)、および(5)での関係に従って、P_sを有する球面上の(φ,θ)を計算する;
4)式(1)および(2)での関係に従って、(φ,θ)から、エクイレクタングラ画像上の点(ue,ve)の座標を計算する。
360度ビデオをキューブマップを用いて1つの2D画像内に表すために、キューブマップの6つの面は1つの矩形エリア内にパックされることができ、これはフレームパッキングとして知られる。フレームパックされた画像は、次いで1つの通常の2D画像として扱われる(例えば符号化される)。3×2および4×3など、異なるフレームパッキング構成がある。3×2構成では、6つの面が2つの行に、3つの面が1つの行内にパックされる。4×3構成では、4つの面PX、NZ、NX、PZが1つの行(例えば中央の行)にパックされ、面PYおよびNYは、2つの異なる行(例えば最上および最下行)に別々にパックされる。図2Cの例は、図1Cでのエクイレクタングラ画像に対応する4×3フレームパッキングを使用する。
例示的シナリオにおいて、エクイレクタングラフォーマットでの360度ビデオが入力として取られ、入力をキューブマップフォーマットに変換することが望まれる。以下のステップが適用される:
1)キューブマップフォーマット内の各サンプル位置(uc,vc)に対して、上記で導入された方法によって、エクイレクタングラフォーマット内の対応する座標(ue,ve)を計算する。
2)このように計算されたエクイレクタングラ内の座標(ue,ve)が整数サンプル位置でない場合、この小数位置サンプル値を、それの隣接する整数位置でのサンプルを用いて取得するために、補間フィルタが適用され得る。
360度ビデオシステムのための1つのワークフローが図5に示される。これは、球面空間全体をカバーするビデオを捕捉するために複数のカメラを用いることなど、360度ビデオキャプチャ502を含む。次いでそれらのビデオは、例えばエクイレクタングラ形状構造に、一緒にスティッチされる(504)。エクイレクタングラ形状構造は、既存のビデオコーデックを用いたエンコーディングなどのエンコーディングのために、キューブマップなどの別の形状構造に変換されることができる(506)。エンコーディング510の前に、フレームパッキング508が行われ得る。符号化されたビデオは、例えば動的ストリーミングまたはブロードキャスティングによってクライアントに配信される。受信器において、ビデオは復号され(512)、圧縮解除されたフレームはアンパックされ(514)、表示形状(例えばエクイレクタングラ)に変換される(516)。次いでそれは、ユーザの視線角度に従ったビューポート投影518によってレンダリングするために用いられ、ヘッドマウントディスプレイ520に表示されることができる。
職業用および/または民生用ビデオアプリケーションにおいて、色度成分はしばしば、輝度成分のものと比べて小さな解像度となるようにサブサンプリングされる。色度サブサンプリングは、ビデオ品質に著しく影響を与えずに、エンコードされることになるビデオデータの量を低減させる(ならびに、したがって、帯域幅および計算能力を節約する)。例えば、広く用いられている色度フォーマットの1つは4:2:0色度フォーマットと呼ばれ、色度成分の両方は、輝度解像度の1/4になるようにサブサンプリングされる(水平に1/2、垂直に1/2)。色度サブサンプリングの後、色度サンプリング格子は輝度サンプリング格子とは異なっている。図5において、処理フローの全体にわたって、各段階で処理される360度ビデオは、色度成分がサブサンプリングされた色度フォーマットでのものとなり得る。
図6は、一般的なブロックベースのハイブリッドビデオエンコーディングシステムの一実施形態のブロック図である。入力ビデオ信号102は、ブロックごとに処理される。HEVCにおいて、高解像度(例えば1080p以上)のビデオ信号を効率的に圧縮するために、拡張されたブロックサイズ(「符号化単位」またはCUと呼ばれる)が用いられ得る。HEVCにおいてCUは、64×64画素までとすることができる。CUはさらに、個別の予測方法がそれに適用される、予測ユニットまたはPUに分割されることができる。各入力ビデオブロック(MBまたはCU)に対して、空間的予測(160)および/または時間的予測(162)が行われ得る。空間的予測(または「イントラ予測」)は、同じ画像/スライス内のすでに符号化された隣接するブロックからの画素を用いて、現在ビデオブロックを予測する。空間的予測は、ビデオ信号に固有の空間的冗長性を低減させる。時間的予測(「インター予測」または「動き補償された予測」とも呼ばれる)は、すでに符号化されたビデオ画像からの画素を用いて、現在ビデオブロックを予測する。時間的予測は、ビデオ信号に固有の時間的冗長性を低減させる。所与のビデオブロックに対する時間的予測信号は通常、現在ブロックとその基準ブロックとの間の動きの大きさおよび方向を示す、1つまたは複数の動きベクトルによってシグナリングされる。複数の基準画像がサポートされる場合(H.264/AVCまたはHEVCなどの最近のビデオ符号化標準の場合のように)、各ビデオブロックに対して、その基準画像インデックスも送られ、基準インデックスは、基準画像記憶部(164)内のどの基準画像から、時間的予測信号が来るかを識別するために用いられる。空間的および/または時間的予測の後、エンコーダ内のモード決定ブロック(180)は、例えばレート歪み最適化方法に基づいて最良の予測モードを選ぶ。次いで予測ブロックは、現在ビデオブロックから減算され(116)、予測残差は、目標ビットレートを達成するように、変換(104)および量子化(106)を用いて非相関化される。量子化された残差係数は、逆量子化(110)されおよび逆変換(112)されて復元された残差を形成し、次いでこれは予測ブロックに戻して加算(126)されて復元されたビデオブロックを形成する。さらにデブロッキングフィルタおよび適応ループフィルタなどの、インループフィルタリングは、復元されたビデオブロックに対して、それが基準画像記憶部(164)に置かれて将来のビデオブロックを符号化するために用いられる前に、適用される(166)ことができる。出力ビデオビットストリーム120を形成するために、符号化モード(インターまたはイントラ)、予測モード情報、動き情報、および量子化された残差係数は、すべてエントロピー符号化ユニット(108)に送られて、さらに圧縮およびパックされて出力ビデオビットストリームを形成する。
図7は、ブロックベースのビデオデコーダの一般のブロック図である。ビデオビットストリーム202は最初にエントロピー復号ユニット208において、アンパックされ、エントロピー復号される。符号化モードおよび予測情報は、空間的予測ユニット260(イントラ符号化されている場合)、または時間的予測ユニット262(インター符号化されている場合)に送られて、予測ブロックを形成する。残差変換係数は、逆量子化ユニット210および逆変換ユニット212に送られて、残差ブロックを復元する。予測ブロックおよび残差ブロックは、次いで226で一緒に加算される。復元されたブロックは、それが基準画像記憶部264に記憶される前に、さらにインループフィルタリングを通過し得る。基準画像記憶部内の復元されたビデオは、次いでディスプレイデバイスを駆動するために送出され、および将来のビデオブロックを予測するために用いられる。
例示的実施形態の概観
360度ビデオデータは、従来の2D平面ビデオ符号化を用いて情報をエンコードするために、2D平面上に投影され得る。360度データを表すために用いられることができる多くの形状投影があり、投影されたデータは異なる構成においてパックされることができるので、これは様々な問題に繋がる。
1つの問題は、復号された2D平面ビデオから360ビデオを適切に復元することができるためには、データをアンパックし、それを2D空間から3D空間に戻すように投影するために、デコーダには、形状およびフレームパッキングパラメータが使用可能であるべきということである。例えばキューブマップフォーマットは、異なる面順序、異なる面回転、または異なる面サイズを有して、3×2、4×3、1×6、または6×1などの異なる配置を用いて表されることができる。さらに、符号化フォーマットとは異なるフォーマットが受信器側で用いられる場合は、符号化フォーマットを必要なフォーマットに変換するために、形状およびフレームパッキングパラメータも必要である。例えば符号化フォーマットはキューブマップであるが、表示フォーマットがエクイレクタングラである場合は、変換が行われなければならない。実用的な方式では、ファイルフォーマットマルチプレクサは、それらのエレメンタリストリームをマルチプレックスするとき、外部メタデータに依存する代わりに、ビデオ自体からそれらのフレームパッキング配置情報を抽出するのがよい。
別の問題は、いくつかのフレームパッキング構成の場合、記憶および圧縮目的のために、結果としてのフレームパックされた画像が矩形エリアを形成するように、アンラップされた面をパッディングすることが有益となり得ることである。例えば、キューブマップ4×3フォーマットでは、追加の画素が右上および右下端部に追加されなければならない(図2Bおよび2Cを参照)。これらの追加の画素をエンコードすることはビットを消費するが、意味のある情報を伝達しない。したがって、これらの画素がエンコーダによってスキップされれば、ビットレート節約が達成されることができる。この場合、360度ビデオの正しい復元のためにはコンパクト構成が用いられることが、デコーダにシグナリングされなければならない。さらに、従来の2D平面ビデオと異なり、ビデオを再生する間のいずれの時点においても、360ビデオの一部分(例えばビューポート)のみがレンダリングされ、ユーザに表示される(図5を参照)。統計は、ビューイング確率は一般に極の周りより赤道の周りで高く、後方ビューの近くより前方ビューの近くで高いことを示す。したがって、投影フォーマットを識別する情報は、エンコーダが、投影された2Dビデオ内のこれらのエリア(すなわち赤道に対して極、および前方に対して後方)を識別し、異なるエンコーディング方策を適用して、ユーザの視線挙動を活用することによって、よりインテリジェントな方式でビットおよび/またはコンピューティングリソースを割り当てることを可能にする(例えば、赤道および/または前方エリアに対応するエリアに、より多くのビットを費やしおよび/またはより複雑な最適化方策を適用し、極および/または後方に対応するエリアに、より少ないビットを費やしおよび/またはより簡単な最適化方策を適用する)。
他の問題は、MPEG−2、H.264、およびHEVCなどの既存のコーデックは、従来の2Dビデオのために特に設計されており、360度データ表示の特性は何ら考慮していないことである。より良い圧縮効率を達成するために、先進の360ビデオ符号化ツールは、全3D表示をうまく利用することができるが、これらのツールは、符号化は投影された2D平面ビデオ上で行われるので、形状およびフレームパッキングについての情報から恩恵を受け得る。したがって、形状およびフレームパッキングパラメータに関する情報は、360ビデオを適切に、およびより効率的にエンコードおよび復号することを可能にするように、エンコーダおよびデコーダの両方に使用可能にされ得る。例えばキューブマップフォーマットにおいて、折り畳まれていない面は、2D平面ビデオ上でわずかな正しく位置決めされた隣接する面を有するだけであり、これは隣接する面の間の冗長な情報を活用するためのコーデックの能力を制限する。しかしコーデックが3D表示に関する情報を有する場合、立方体の各面が正確に4つの隣接する面を有する場合は、エンコードされなければならないデータの量を低減させるために、より多くの冗長な情報が活用されることができる。
さらなる問題は、形状およびフレームパッキングパラメータが、360度ビデオの持続時間にわたって変わり得ることである。したがって、形状およびフレームパッキングパラメータが時間と共に変化する場合、これらのパラメータは、360ビデオの各フレームに対して、エンコーダおよびデコーダに使用可能となるべきである。例えば符号化フォーマットは、より良い圧縮性能を達成するために特定の時点でキューブマップからエクイレクタングラに変化することができ、またはキューブマップ面の特定のセットのサイズは、特定のビデオセグメントの間に、より低いまたはより高い帯域幅要件に対応するように変化し得る。
本明細書で開示されるシステムおよび方法は、これらの問題およびその他に対処する。
いくつかの実施形態において、360度ビデオ符号化に対して上記で述べられた問題の1つまたは複数は、形状およびフレームパッキングパラメータを、追加の高レベル構文要素を用いてビットストリーム内でシグナリングすることによって対処される。具体的には、2D平面ビデオ上に形状面を配置するためのそれらに対する異なるパラメータを含む、投影形状タイプが指定されることができる。360ビデオパラメータは、異なるレベルでシグナリングされることができる。以下の1つのセクションは、異なるレイヤおよび/またはシーケンスおよび/または画像が同じ投影フォーマットを用いるとき、送信されなければならない情報の量を最小にするために、どのようにして投影フォーマットパラメータがビデオレベル(例えばビデオパラメータセットまたはVPSレベル)で記憶されることができるかを述べる。以下の別のセクションは、どのようにして投影フォーマットがシーケンスレベル(例えばシーケンスパラメータセットまたはSPSレベル)でシグナリングされることができ、同じビデオの異なるシーケンスが、異なる投影フォーマットを用いるまたは所与の投影フォーマットに関連するパラメータを変化させることを可能にするかを提示する。以下の別のセクションは、どのようにして投影フォーマットが画像レベル(例えば画像パラメータセットまたはPPSレベル)でシグナリングされることができ、同じシーケンスの異なる画像が、異なる投影フォーマットを用いるまたは所与の投影フォーマットに関連するパラメータを変化させることを可能にするかを提示する。本明細書で開示されるシステムおよび方法の他の態様は、異なる品質要因を有する異なる形状面をエンコードすることを可能にすることである。例えばキューブマップフォーマットにおいて、前方、後方、左、および右面はより高い品質で符号化されることができ、最上および最下面はより低い品質で符号化され得る。これは見る人は、極の近くよりも水平線の周りのエリアを観察する可能性が高いからである。このようにして360ビデオは、より効率的に符号化されることができる。
いくつかの実施形態において、絶対座標系に対する形状座標系の回転を指定するためのシステムおよび方法が導入される。これらのシステムおよび方法は、関心のあるオブジェクトまたは領域が、より高い品質でエンコードされ得る面または面のセットに投影されるように、3D形状を回転させるために用いられ得る。同様に、関心のあるオブジェクトまたは領域がいくつかの面にわたって分割される場合、これは各面内の冗長性を低減させることができ、形状回転は、より良い圧縮効率が達成され得るように1つまたは複数の重要なオブジェクトが1つの面内に配置されることができるように、異なる方位を定義するために用いられ得る。いくつかの場合には、これが可能でないとき、例えばオブジェクトが、水平および垂直方向の一方または両方において90度を超えて広がるのに十分に大きくおよび/または近い場合、面は、重要なオブジェクトのできるだけ大きな一部分が1つの面内に配置されるように回転され得る。3D形状の本質的な性質により、オブジェクトが2つ以上の面にわたって広がるとき、それの形状構造は1つの面から他に遷移するとき「歪ませられる」ようになり、したがって、相関および符号化効率を低減させる。1つの面内でのオブジェクト連続性が最大化されるように投影方位を指定できることは、符号化効率を改善することができる。
ビデオレベルでの360度ビデオ特性シグナリング
異なる投影形状は、異なる特性を有する。例えばエクイレクタングラ投影および正積投影に対しては、ただ1つの面がある。面境界問題はないが、画像は引き伸ばされる。キューブマップは6つの面を有し、フレームパックされた画像内に多くの面境界を有する。各画像は、異なる投影形状において、または同じ形状であるが異なる面配置、サイズ、または品質で符号化され得る。この目的のために、表1に示されるように360ビデオに対するいくつかの実施形態において、新たなパラメータセットが導入され得る。
例示的実施形態において、フラグvps_360_extension_flagは以下のセマンティクスを有し得る。
vps_360_extension_flag:ビデオが360度ビデオであるかどうかを指定し、その場合、360ビデオの効率的な表示および圧縮のための特定のパラメータおよびツールが用いられ得る。ないときは、vps_360_extension_flagの値は0に等しいと推論されることができる。
ビデオレベルで、異なるシーケンスおよび/またはレイヤにおいて用いられる投影フォーマットの総数は、いくつかの実施形態において表2に従ってシグナリングされ得る。
例示的実施形態において、表2のパラメータは以下のセマンティクスを有し得る。
vps_num_360_formats_minus1:異なるシーケンスおよび/またはレイヤにおいて用いられる投影フォーマットの数(1を引いた)を指定する。ないときは、vps_num_360_formats_minus1の値は0に等しいと推論されることができ、ただ1つの投影フォーマットが用いられることを示す。
360_format_idx_present_flag:構文要素vps_360_format_idx[i]があるか否かを指定する。ないときは、360_format_idx_present_flagの値は0に等しいと推論されることができる。
vps_360_format_idx[i]:layer_id_in_nuh[i]に等しいnuh_layer_idを有するレイヤに適用される360_format( )構文構造の、VPS内の360_format( )構文構造のリスト内への、インデックスを指定する。ないときは、vps_rep_format_idx[i]の値は、Min(i,vps_num_rep_formats_minus1)に等しいと推論されることができる。
この提案される構文構造を用いて、マルチレイヤビデオストリームにおいて、各レイヤに対する投影フォーマットは異なり得る。例えば各レイヤに対する投影フォーマットは、レート歪み最適化を用いてエンコーダにおいて決定され得る。エンコーダは、現在レイヤをすべての使用可能な投影フォーマットを用いてエンコードし、その後にレート歪みコストを測定することができる。現在レイヤがエンハンスメントレイヤである場合、それは同じレイヤ内のイントラおよびインター予測だけでなく、同じまたは異なる投影フォーマットの別のレイヤ(例えば基準レイヤ)からのインターレイヤ予測も用いてエンコードされ得る。基準レイヤからの投影フォーマットが現在レイヤのそれと異なるとき、インターレイヤ予測処理は、さらに投影フォーマット変換を含み得る。最後に、最小のレート歪みコストを結果として生じる投影フォーマットが、最終的な符号化のために選択され得る。
いくつかの実施形態において、各投影フォーマットの特性および関連付けられたパラメータは、表3に従ってシグナリングされ得る。
例示的実施形態において、表3のパラメータは以下のセマンティクスを有し得る。
projection_geometry:用いられる投影形状の表4でのマッピングインデックスを指定する。
geometry_rotation_param_present_flag:構文要素geometry_rotation_yaw、geometry_rotation_pitch、およびgeometry_rotation_rollがあるかどうかを指定する。ないときは、geometry_rotation_param_present_flagの値は0に等しいと推論されることができる。
geometry_rotation_yaw:絶対座標系に対する形状座標系のY軸の周りの回転(図2Aを参照)を指定する。ないときは、geometry_rotation_yawの値は0に等しいと推論されることができる。
geometry_rotation_pitch:絶対座標系に対する形状座標系のZ軸の周りの回転(図2Aを参照)を指定する。ないときは、geometry_rotation_pitchの値は0に等しいと推論されることができる。
geometry_rotation_roll:絶対座標系に対する形状座標系のX軸の周りの回転(図2Aを参照)を指定する。ないときは、geometry_rotation_rollの値は0に等しいと推論されることができる。
compact_representation_enabled_flag:フレームパックされたイメージを矩形画像内にパッディングするために用いられるサンプルまたはブロックが、エンコーダによってスキップされるかどうかを指定する。ないときは、compact_representation_enabled_flagの値は0に等しいと推論されることができる。
loop_filter_across_faces_enabled_flag:インループフィルタリング動作が、面境界にわたって行われ得るかどうかを指定する。ないときは、loop_filter_across_faces_enabled_flagの値は1に等しいと推論されることができる。
num_face_rows:フレームパックされた画像内の面行の数を指定する。ないときは、num_face_rowsの値は1に等しいと推論されることができる。
num_face_columns:フレームパックされた画像内の面列の数を指定する。ないときは、num_face_columnsの値は1に等しいと推論されることができる。
num_face_rowsおよびnum_face_columnsをシグナリングする代わりに、これらの構文要素を符号化するために必要なビット数を低減させるために、num_face_rows_minus1およびnum_face_columns_minus1がシグナリングされ得ることに留意されたい。
equal_face_size_flag:すべての面が同じサイズ(同じ幅および高さ)を共有するかどうかを指定する。ないときは、equal_face_size_flagの値は0に等しいと推論されることができる。equal_face_size_flagが1に設定されたときは、フレームパックされた画像内のすべての面の幅および高さは、投影形状に基づいて推論されることができる。例えばキューブマップ投影では、フレームパックされた画像内のすべての面の輝度サンプルにおける幅は、pic_width_in_luma_samples/num_face_columnsに等しいと推論されることができ、一方フレームパックされた画像内のすべての面の輝度サンプルにおける高さは、pic_height_in_luma_samples/num_face_rowsに等しいと推論されることができる。フレームパックされた画像内のすべての面の輝度サンプルにおける幅および高さは、0に等しくなってはならず、MinCbSizeYの整数倍でなければならないことに留意されたい。
face_qp_offset_enabled_flag:異なる面に対して異なるQPが用いられるかどうかを指定する。ないときは、face_qp_offset_enabled_flagの値は0に等しいと推論されることができる。
face_idx[i][j]:フレームパックされた画像内のi番目の行およびj番目の列に位置する面のインデックスを指定する。エクイレクタングラまた正積などの、単一の面のみを有する簡単な形状に対しては、唯一の面は面#0である。他の形状に対しては、キューブマップおよび八面体形状に対して表5に示されるように、面のデフォルトの番号付けおよび位置付けが用いられることができる。
face_width_in_luma_samples[i][j]:フレームパックされた画像内のi番目の行およびj番目の列に位置する面の輝度サンプルにおける幅を指定する。フレームパックされた画像幅に関して曖昧さを防ぐための技法が使用され得る。例えば各行に沿った異なる面幅の合計が、フレームパックされた画像幅に等しくなることが強制されることができる。face_width_in_luma_samples[i][j]は、0に等しくなってはならず、MinCbSizeYの整数倍でなければならない。
face_height_in_luma_samples[i][j]:フレームパックされた画像内のi番目の行およびj番目の列に位置する面の輝度サンプルにおける高さを指定する。フレームパックされた画像高さに関して曖昧さを防ぐための技法が使用され得る。例えば各列に沿った異なる面高さの合計が、フレームパックされた画像高さに等しくなることが強制されることができる。face_height_in_luma_samples[i][j]は、0に等しくなってはならず、MinCbSizeYの整数倍でなければならない。
face_rotation_idc[i][j]:フレームパックされた画像内のi番目の行およびj番目の列に位置する面の面座標系と画像座標系との間の回転の、表6でのマッピングインデックスを指定する。ないときは、face_rotation_idc[i][j]の値は、0に等しいと推論されることができる。
face_rotation[i][j]:フレームパックされた画像内のi番目の行およびj番目の列に位置する面の面座標系と画像座標系との間の回転度を指定する。
face_vertical_flip_flag[i][j]:フレームパックされた画像内のi番目の行およびj番目の列に位置する面が、回転の後に垂直に反転されるかどうかを指定する。ないときは、face_vertical_flip_flag[i][j]の値は0に等しいと推論されることができる。
face_qp_offset[i][j]:フレームパックされた画像内のi番目の行およびj番目の列に位置する面のQP値を決定するときに、シーケンスレベルQPに加算されることになる差分を指定する。

フレームパックされた画像を面格子と考えると、これらのパラメータは、形状フォーマットの非常に柔軟であるが強力なシグナリングのために用いられることができる。結果としてエクイレクタングラ、正積、または円筒などの単一の面を生じる投影形状に対しては、パラメータnum_face_rows、num_face_columns、face_idx、face_width_in_luma_samples、face_height_in_luma_samples、およびface_rotationは、形状および画像サイズから推論されることができる。しかしキューブマップ、八面体、または二十面体などの他の形状に対しては、面が異なる方式で配置され得る、または異なるサイズを有し得るので、これらのパラメータを指定することが望ましい。例えば図9A〜9Cに示されるように、同じキューブマップ投影は、(a)3×4格子(図9A)、または(b)2×3格子(図9B)など、異なる方式でパックされることができる。3×4格子の場合には、実際の面を含まない格子内の位置を示すために、face_idxは、形状から推論されることができる実際の面数より高い値に設定されることができる。例えばパラメータを以下のように設定することができる:
いくつかの方向において、より良い詳細をもたらすために、いくつかの面は、より高い解像度でエンコードされ得る。これは見る人が、他よりもいくつかのエリア、特に前方方向の近くを観察する可能性が高いからである。このようにして、360度ビデオは、より効率的に符号化されることができる。この目的のために、face_width_in_luma_samplesおよびface_height_in_luma_samplesパラメータは、異なる面に対して異なるサイズを指定するために用いられることができる。例えばキューブマップフォーマットにおいて、図9Cに示されるように、前面は他の面より高い解像度で符号化されることができ、パラメータを以下のように設定することができる:
ここでWは面0(前面)以外のすべての他の面の、輝度サンプルにおける面幅であり、Hは輝度サンプルにおける面高さである。
これらのパラメータから、前面は4つの格子位置にわたって広がると推論されることができ、なぜならそれのサイズが他の面の2倍大きいからであり、情報は適切に取り出されることができる。
面は異なる方位に配置され得る。例えば、キューブマップ投影に対して示されるように面「2」、「1」、および「3」は、図9Aの3×4格子と比較して、図9Bの2×3格子において反時計方向に90度だけ回転される。face_rotation_idcパラメータは、面座標系と、フレームパックされた画像座標系との間の回転を指定するために用いられることができる。
格子システムはまた、それぞれ八面体および二十面体に対して図11および12に示されるように、三角形の面など、正方形でない面を有する形状のために用いられることができる。いくつかの三角形の面は、コンパクト表示のために2つの部分に分割されるので(図11Bおよび図12Bを参照)、1つの三角形の面は、1つの二等辺または正三角形の代わりに、2つの直角三角形を用いて定義され得る。基本の直角三角形は、図10Aに示されるように定義され得る。回転は、2つの直角三角形を用いて1つの二等辺または正三角形を構築するためには不十分であるので、回転は垂直反転(またはいくつかの実施形態において水平反転)と組み合わされ得る。この表示を用いて、大きな柔軟性を有してコンパクトおよび非コンパクト表示の両方に対して、同じ構文が用いられ得る。例えば図11Bに表されるコンパクト八面体をシグナリングするために、パラメータは以下のように設定され得る:
face_qp_deltaパラメータは、特定の面がより高いまたはより低い品質でエンコードされるかどうかを指定するために用いられることができる。同様な結果は、例えばスライスまたは符号化単位レベルで品質を適応させることによって得られることができる。しかしスライスはいくつかの面をカバーする可能性があり、面はいくつかの符号化単位を含む可能性が最も高くなり、したがって、各面に対する品質差を直接シグナリングすることがより効率的となり得る。
各列に沿って同じ幅(しかし異なる列にわたって異なる幅)、および各行に沿って同じ高さ(しかし異なる行にわたって異なる高さ)を有する面から構成される、規則的なフレームパッキング格子に対して、面特性はまた表7に示されるように、より少ないパラメータを用いてシグナリングされることができる。
例示的実施形態において、表7のパラメータは以下のセマンティクスを有し得る。
num_face_rows_minus1:フレームパックされた画像内の面行の数(1を引いた)を指定する。ないときは、num_face_rows_minus1の値は0に等しいと推論されることができる。
num_face_columns_minus1:フレームパックされた画像内の面列の数(1を引いた)を指定する。ないときは、num_face_columns_minus1の値は0に等しいと推論されることができる。
row_height_in_luma_samples[i]:フレームパックされた画像内のi番目の行に位置する面の輝度サンプルにおける高さを指定する。最後の行に対して、高さはpic_height_in_luma_samples−Σirow_height_in_luma_samples[i]に等しいと推論されることができる。row_height_in_luma_samples[i]は0に等しくなってはならず、MinCbSizeYの整数倍でなければならない。
column_width_in_luma_samples[j]:フレームパックされた画像内のj番目の列に位置する面の輝度サンプルにおける幅を指定する。最後の列に対して、幅はpic_width_in_luma_samples−Σicolumn_width_in_luma_samples[j]に等しいと推論されることができる。column_width_in_luma_samples[j]は、0に等しくなってはならず、MinCbSizeYの整数倍でなければならない。
面特性はまた、不規則な面形状に対しては面インデックス順序においてシグナリングされることができる。表8は例を示す。
例示的実施形態において、表8のパラメータは以下のセマンティクスを有し得る。
num_faces:フレームパックされた画像内の面の数を指定する。ないときは、num_facesの値は1に等しいと推論されることができる。
num_facesをシグナリングする代わりに、この構文要素を符号化するために必要なビット数を低減させるように、num_faces_minus1がシグナリングされ得ることに留意されたい。
num_face_vertices[i]:i番目の面の頂点数を指定する。ないときは、num_face_vertices[i]の値は、四辺形が最も一般的な面多角形タイプであるので、4に等しいと推論されることができる。
vertex_2D_pos_x[i][j]:i番目の面のj番目の頂点のフレームパックされた画像内のx座標を指定する。
vertex_2D_pos_y[i][j]:i番目の面のj番目の頂点のフレームパックされた画像内のy座標を指定する。
vertex_3D_pos_x[i][j]:i番目の面のj番目の頂点の3D座標系におけるx座標を指定する。
vertex_3D_pos_y[i][j]:i番目の面のj番目の頂点の3D座標系におけるy座標を指定する。
vertex_3D_pos_z[i][j]:i番目の面のj番目の頂点の3D座標系におけるz座標を指定する。
vertex_3D_pos_x[i][j]、vertex_3D_pos_y[i][j]、およびvertex_3D_pos_z[i][j]パラメータは、3D空間におけるユーザ指定の多角形ベースの形状を定義するために用いられることができる。これらのパラメータは、サンプルを、フレームパックされた画像内のそれの位置から、3D形状内の対応する位置にマッピングするために用いられ得る。この情報は、より良い圧縮効率を達成するために、先進の360ビデオ符号化によって活用され得る。例えばコーデックは、フレームパックされた画像内で一緒に置かれていない3D表示内の隣接する面の間の、冗長な情報を活用し得る。
シーケンスレベルでの360度ビデオ特性シグナリング
シーケンスレベルで、用いられる投影フォーマットがシグナリングされ得る。この目的のために、表9に示されるような新たなパラメータセットが、360ビデオのために導入されることができる。
例示的実施形態において、表9のパラメータは以下のセマンティクスを有し得る。
sps_360_extension_flag:シーケンスが360ビデオであるかどうかを指定し、その場合には360ビデオの効率的な圧縮のための特定のパラメータおよびツールが用いられ得る。
用いられる投影フォーマットは、表10に従ってシグナリングされることができる。
例示的実施形態において、表10のパラメータは以下のセマンティクスを有し得る。
sps_num_360_formats_minus1:シーケンスにおいて用いられる投影フォーマットの数(1を引いた)を指定する。ないときは、sps_num_360_formats_minus1の値は0に等しいと推論されることができ、ただ1つの投影フォーマットが用いられることを示す。
sps_360_format_idx[i]:シーケンスにおいて用いられる360_format( )構文構造のVPS内の、360_format( )構文構造のリスト内へのインデックスのリストを指定する。sps_360_format_idx[i]の値は、両端を含めて、0からvps_num_360_formats_minus1までの範囲内とし得る。
VPSレベルにおいて定義されるすべての360ビデオ関連パラメータは、SPSレベルにおいて変更され得ることに留意されたい。表10に示されないが、VPS内で送られた360ビデオフォーマットのセット内へインデックス付けするためにsps_360_format_idxを用いる代わりに、表3内で定義されるもの(例えばprojection_geometry、面寸法パラメータ、面QPオフセットなど)と同様な構文要素が、このSPSを参照するビデオシーケンスの360ビデオパラメータを示すために、SPS拡張の一部として直接シグナリングされ得る。
画像レベルにおける360度ビデオ特性シグナリング
いくつかの実施形態において、より大きな符号化最適化をもたらすように、シーケンスは、異なるフレームに対して異なる投影フォーマットを用いてエンコードされ得る。この場合、投影フォーマットは、すでにVPSまたはSPSレベルでシグナリングされた投影フォーマットのセット内へのインデックスによって、画像レベルでシグナリングされることができる。この目的のために、いくつかの実施形態において、表11に示されるような新たなパラメータセットが360ビデオのために導入され得る。
例示的実施形態において、表11のパラメータは以下のセマンティクスを有し得る。
pps_360_extension_flag:このPPSを参照する画像が、360度ビデオ符号化に関連する特定のパラメータを含むかどうかを指定する。ないときは、pps_360_extension_flagの値は、sps_360_extension_flagに等しいと推論されることができる。
360ビデオのためのPPS拡張の例は、表12および13にもたらされる。
例示的実施形態において、表12および13のパラメータは以下のセマンティクスを有し得る。
pps_360_format_idx:このPPSによって参照されるSPSにおいて定義された投影形状のセット内へのインデックスを指定する。pps_360_format_idxの値は、両端を含めて0からsps_num_360_formats_minus1までの範囲内でなければならない。ないときは、pps_360_format_idxの値は0に等しいと推論されることができる。
pps_360_format_idxパラメータは、シーケンスレベルでリストされた使用可能な投影フォーマットの中で、現在画像に対する投影フォーマットを指定するために用いられる。例えばSPSにおけるsps_360_format_idxのリスト内で、エクイレクタングラおよび正積のみが使用可能であり、かつインデックス「0」が正積を表し、「1」がエクイレクタングラを表すように用いる場合、パラメータは以下のように設定されることができる。
pps_360_format_idx=0 //このPPSを参照するすべての画像は正積フォーマットにおいて符号化されるようになる
pps_360_format_idx=1 //このPPSを参照するすべての画像はエクイレクタングラフォーマットにおいて符号化される
同じビデオシーケンス内で、異なる画像が異なる投影形状フォーマットを有することが許される場合、2つの動きパラメータ(それぞれ水平および垂直変位パラメータ)を有する並進動きモデルを用いた、または4つまたは6つの動きパラメータを有するアフィンベースの動きモデルを用いた、時間的動き補償された予測は、もはや非常に効率的には動作し得ない。代わりに、現在画像の投影形状がそれの時間的基準画像のものとは異なる場合、既存の時間的動き補償された予測が適用される前に、現在画像とそれの時間的基準との間の投影形状を整列するように、形状変換が行われ得る。これはより高い計算の複雑さが代償となるが、時間的予測効率を増加させ得る。動き補償された予測(例えば双方向予測)において2つ以上の時間的基準画像が用いられるとき、投影形状は、動き補償された予測が行われ得る前に、現在画像とそれの基準画像のすべてとの間で整列され得る。
例示的実施形態において、coding_region_table()構文構造のセマンティクスは以下とし得る。
full_sphere_range_coding_flag:全球面範囲が符号化されるか、それともその一部分のみが符号化されるかを指定する。ないときは、full_sphere_range_coding_flagの値は1に等しいと推論されることができる。
pos_x_in_360_packed_frame:フレームパックされた画像内の左上隅の符号化された画像のx座標を指定する。
pos_y_in_360_packed_frame:フレームパックされた画像内の左上隅の符号化された画像のy座標を指定する。
帯域幅またはメモリ制限または復号能力などの異なる制限のため、全球面の一部分のみが符号化され得る。この情報は、full_sphere_range_coding_flag、ならびに関連付けられたpos_x_in_360_packed_frameおよびpos_y_in_360_packed_frameパラメータを用いてシグナリングされることができる。full_sphere_range_coding_flagが0に設定されたときは、全体のフレームパックされた画像の矩形部分のみが符号化される。次いで、フレームパックされた画像の内部の符号化された画像の左上隅が、関連付けられたpos_x_in_360_packed_frameおよびpos_y_in_360_packed_frameパラメータを用いてシグナリングされる。
図13A〜Bは、キューブマップ(図13A)およびエクイレクタングラ(図13B)投影に対する制限された球面範囲符号化の使用を示す。これらの例では、前方エリアのみが符号化される。制限された球面範囲符号化を用いるとき、面幅/高さと、符号化された画像幅/高さとを結び付ける制約はディスエーブルされるべきであることに留意されたい。図13Aに示されるように、全画像はフレームパックされた画像を表し、矩形1305は符号化されるエリアの範囲を定める。図13Bに示されるように、全画像はフレームパックされた画像を表し、矩形1310は符号化されるエリアの範囲を定める。
coding_region_table()も、各投影フォーマットに対してVPSおよび/またはPPSレベルでシグナリングされ得る。
SPSおよび/またはVPSレベルで定義されるパラメータのいくつかは、あるいはまたは追加として、PPSレベルでシグナリングされ得ることに留意されたい。例えば、面QPオフセットパラメータをVPSまたはSPSレベルの代わりに、PPSレベルでシグナリングすることが特に有利となることができ、なぜならそれは画像レベルにおいて各個々の面の面品質を調整する、より大きい柔軟性を可能にするからである。例えば、それは階層的B予測構造における現在のフレームパックされた画像の時間的レベルに応じて、各個々の面の面品質を調整する柔軟性を可能にする。例えば、より高い時間的レベルにおいて面QPオフセットは非前面に対して、より大きな値に設定されることができ、一方、面QPオフセットは前面に対して、より小さな値(例えば0)に設定され得る。これは前面が、現在画像の時間的レベルに関わらず、常に比較的高い一定の品質で符号化されることを確実にすることができ、一方、より高い時間的レベルの画像の他の面はビットを節約するために、より量子化され得る。
同様に形状回転パラメータ、例えばgeometry_rotation_yaw、geometry_rotation_pitch、およびgeometry_rotation_rollは、VPSまたはSPSレベルの代わりに、PPSレベルで定義されシグナリングされることができ、なぜならそれは画像レベルでの形状回転を調整する、より大きい柔軟性を可能にするからである。いくつかの実施形態において、エンコードされるコンテンツに対する推奨される視線方向が選択され(例えばビデオコンテンツの監督によって選択される)、推奨される視線方向はビデオの進行と共に変化し得る。このような実施形態において、形状回転パラメータは、推奨される視線方向に従って設定され、関心のあるオブジェクトまたは領域が、最も高い品質で符号化された面に投影されるように、面QPオフセットパラメータに結合され得る。
図14Aおよび14Bは、フレームパックされた画像における面の例示的な代替的配置を示す。図14Aおよび14Bはそれぞれ、キューブマップ投影と共に用いられものなどの、6つ面の配置を示す。図14Aおよび14Bにおける面の配置は、本明細書で開示される実施形態を用いたユーザ指定の形状として使用され得る。
本明細書で開示される例示的実施形態は、無線送信/受信ユニット(WTRU)または他のネットワークエンティティなど、1つまたは複数の有線および/または無線ネットワークノードを用いて実施される。
図15は、本明細書で述べられる実施形態においてエンコーダまたはデコーダとして使用され得る、例示的WTRU1502のシステム図である。図15に示されるようにWTRU1502は、プロセッサ1518、送受信機1520を含む通信インターフェース1519、送受信要素1522、スピーカ/マイクロフォン1524、キーパッド1526、ディスプレイ/タッチパッド1528、非リムーバブルメモリ1530、リムーバブルメモリ1532、電源1534、全地球測位システム(GPS)チップセット1536、およびセンサ1538を含み得る。WTRU1502は、実施形態と一貫性を保ちながら、上述の要素の任意のサブコンビネーションを含み得ることが理解されるであろう。
プロセッサ1518は、汎用プロセッサ、専用プロセッサ、従来型プロセッサ、デジタル信号プロセッサ(DSP)、複数のマイクロプロセッサ、DSPコアに関連した1つまたは複数のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)回路、任意の他のタイプの集積回路(IC)、状態機械などとし得る。プロセッサ1518は、信号符号化、データ処理、電力制御、入力/出力処理、および/またはWTRU1502が無線環境において動作することを可能にする任意の他の機能を行い得る。プロセッサ1518は送受信機1520に結合されることができ、これは送受信要素1522に結合され得る。図15はプロセッサ1518および送受信機1520を別個の構成要素として示すが、プロセッサ1518および送受信機1520は、電子回路パッケージまたはチップ内に一緒に一体化され得ることが理解されるであろう。
送受信要素1522は、エアインターフェース1516を通して基地局に信号を送信し、またはそれから信号を受信するように構成され得る。例えば一実施形態において、送受信要素1522は、RF信号を送信および/または受信するように構成されたアンテナとし得る。他の実施形態において、送受信要素1522は、例としてIR、UV、または可視光信号を送信および/または受信するように構成された放射器/検出器とし得る。さらなる他の実施形態において、送受信要素1522は、RFおよび光信号の両方を送信または受信するように構成され得る。送受信要素1522は、無線信号の任意の組み合わせを送信および/または受信するように構成され得ることが理解されるであろう。
加えて、図15では送受信要素1522は単一の要素として描かれるが、WTRU1502は任意の数の送受信要素1522を含み得る。より具体的には、WTRU1502は、MIMO技術を使用し得る。したがって、一実施形態において、WTRU1502は、エアインターフェース1516を通して無線信号を送信および受信するための、2つ以上の送受信要素1522(例えば複数のアンテナ)を含み得る。
送受信機1520は、送受信要素1522によって送信されることになる信号を変調するように、および送受信要素1522によって受信される信号を復調するように構成され得る。上記のように、WTRU1502はマルチモード能力を有し得る。したがって、送受信機1520は、WTRU1502が、例としてUTRAおよびIEEE 802.11などの、複数のRATによって通信することを可能にするための複数の送受信機を含み得る。
WTRU1502のプロセッサ1518は、スピーカ/マイクロフォン1524、キーパッド1526、および/またはディスプレイ/タッチパッド1528(例えば液晶表示(LCD)ディスプレイユニット、または有機発光ダイオード(OLED)ディスプレイユニット)に結合されることができ、それらからユーザ入力データを受信し得る。プロセッサ1518はまたユーザデータを、スピーカ/マイクロフォン1524、キーパッド1526、および/またはディスプレイ/タッチパッド1528に出力し得る。加えてプロセッサ1518は、非リムーバブルメモリ1530および/またはリムーバブルメモリ1532などの任意のタイプの適切なメモリからの情報にアクセスし、それにデータを記憶し得る。非リムーバブルメモリ1530は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ハードディスク、または任意の他のタイプのメモリ記憶デバイスを含み得る。リムーバブルメモリ1532は、加入者識別モジュール(SIM)カード、メモリスティック、セキュアデジタル(SD)メモリカードなどを含み得る。他の実施形態においてプロセッサ1518は、サーバまたはホームコンピュータ(図示せず)上など、WTRU1502上に物理的に位置しないメモリからの情報にアクセスし、それにデータを記憶し得る。
プロセッサ1518は、電源1534から電力を受け取ることができ、WTRU1502内の他の構成要素への電力を分配および/または制御するように構成され得る。電源1534は、WTRU1502に電力供給するための任意の適切なデバイスとし得る。例として電源1534は、1つまたは複数の乾電池(例えばニッケルカドミウム(NiCd)、ニッケル亜鉛(NiZn)、ニッケル水素(NiMH)、リチウムイオン(Liイオン)など)、太陽電池、燃料電池などを含み得る。
プロセッサ1518はまたGPSチップセット1536に結合されることができ、これはWTRU1502の現在位置に関する位置情報(例えば経度および緯度)をもたらすように構成され得る。GPSチップセット1536からの情報に加えてまたはその代わりに、WTRU1502はエアインターフェース1516を通して、基地局から位置情報を受信することができ、および/または2つ以上の近くの基地局から受信される信号のタイミングに基づいてその位置を決定し得る。WTRU1502は、実施形態と一貫性を保ちながら、任意の適切な位置決定方法によって位置情報を取得し得ることが理解されるであろう。
プロセッサ1518は他の周辺装置1538にさらに結合されることができ、これはさらなる特徴、機能、および/または有線もしくは無線接続性をもたらす1つまたは複数のソフトウェアおよび/またはハードウェアモジュールを含むことができる。例えば周辺装置1538は、加速度計、電子コンパスなどのセンサ、衛星送受信機、デジタルカメラ(写真またはビデオ用)、ユニバーサルシリアルバス(USB)ポート、振動デバイス、テレビ送受信機、ハンズフリーヘッドセット、ブルートゥース(登録商標)モジュール、周波数変調(FM)ラジオユニット、デジタル音楽プレーヤ、メディアプレーヤ、ビデオゲームプレーヤモジュール、インターネットブラウザなどを含み得る。
図16は、例えばエンコーダまたはデコーダとして、本開示の実施形態において用いられ得る例示的ネットワークエンティティ1590を示す。図16に示されるように、ネットワークエンティティ1590は、通信インターフェース1592、プロセッサ1594、非一時的データストレージ1596を含み、それらすべてはバス、ネットワーク、または他の通信経路1598によって通信可能に結び付けられる。
通信インターフェース1592は、1つまたは複数の有線通信インターフェースおよび/または1つまたは複数の無線通信インターフェースを含み得る。有線通信に関しては、通信インターフェース1592は、例としてイーサネットインターフェースなどの1つまたは複数のインターフェースを含み得る。無線通信に関しては、通信インターフェース1592は、1つまたは複数のアンテナ、1つまたは複数のタイプの無線(例えばLTE)通信のために設計および構成された1つまたは複数の送受信機/チップセットなどの構成要素、および/または当業者によって適切と判断される任意の他の構成要素を含み得る。さらに無線通信に関しては、通信インターフェース1592は、無線通信(例えばLTE通信、Wi−Fi通信など)のネットワーク側(クライアント側と対照的に)で動作するのに適したスケールにおいておよび構成を有して装備され得る。したがって、通信インターフェース1592は、カバレージエリア内の複数の移動局、UE、または他のアクセス端末にサーブするための適切な機器および回路(おそらく複数の送受信機を含む)を含み得る。
プロセッサ1594は当業者によって適切と判断される任意のタイプの1つまたは複数のプロセッサを含むことができ、いくつかの例は汎用マイクロプロセッサおよび専用DSPを含む。
データストレージ1596は、任意の非一時的コンピュータ可読媒体、またはそのような媒体の組み合わせの形をとることができ、当業者によって適切と判断される任意の1つまたは複数のタイプの非一時的データストレージが用いられ得るので、ほんの数例を挙げればいくつかの例はフラッシュメモリ、読み出し専用メモリ(ROM)、およびランダムアクセスメモリ(RAM)を含む。図16に示されるようにデータストレージ1596は、本明細書で述べられるような様々なネットワークエンティティ機能の様々な組み合わせを遂行するためにプロセッサ1594によって実行可能な、プログラム命令1597を含む。
述べられる実施形態の1つまたは複数の様々なハードウェア要素は、それぞれのモジュールに関連して本明細書で述べられる様々な機能を遂行する(すなわち行う、実行するなど)「モジュール」と呼ばれることに留意されたい。本明細書で用いられるモジュールは、所与の実装形態に対して当業者によって適切と判断されるハードウェア(例えば1つまたは複数のプロセッサ、1つまたは複数のマイクロプロセッサ、1つまたは複数のマイクロコントローラ、1つまたは複数のマイクロチップ、1つまたは複数の特定用途向け集積回路(ASIC)、1つまたは複数のフィールドプログラマブルゲートアレイ(FPGA)、1つまたは複数のメモリデバイス)を含む。それぞれの述べられるモジュールはまた、それぞれのモジュールによって遂行されるものとして述べられる1つまたは複数の機能を遂行するための、実行可能な命令を含むことができ、これらの命令はハードウェア(すなわちハードワイヤード)命令、ファームウェア命令、ソフトウェア命令、および/または同様なものの形をとるまたは含むことができ、一般にRAM、ROMなどと呼ばれる任意の適切な非一時的コンピュータ可読媒体に記憶され得ることが留意される。
特徴および要素は上記では特定の組み合わせにおいて述べられたが、当業者は各特徴または要素は単独で、または他の特徴および要素との任意の組み合わせにおいて用いられることができることを理解するであろう。加えて本明細書で述べられる方法は、コンピュータまたはプロセッサによる実行のためにコンピュータ可読媒体に組み込まれたコンピュータプログラム、ソフトウェア、またはファームウェアにおいて実施され得る。コンピュータ可読記憶媒体の例は、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスクおよびリムーバブルディスクなどの磁気媒体、光磁気媒体、ならびにCD−ROMディスクおよびデジタル多用途ディスク(DVD)などの光媒体を含むが、それらに限定されない。ソフトウェアと関連してプロセッサは、WTRU、UE、端末装置、基地局、RNC、または任意のホストコンピュータにおける使用のために、無線周波数送受信機を実施するために用いられ得る。

Claims (20)

  1. ビットストリームにおいて符号化された360度ビデオを復号する方法であって、
    2D平面ビデオを符号化したビットストリームを受信するステップであって、前記ビットストリームは、投影形状フォーマットを識別するパラメータを含む、ステップと、
    前記識別された投影形状フォーマットを使用して、360度ビデオに前記2D平面ビデオをマッピングするステップと
    を備えたことを特徴とする方法。
  2. 前記ビットストリームは、前記ビットストリームが360度ビデオを符号化しているかどうかを示すパラメータを更に含み、前記360度ビデオへの前記2D平面ビデオの前記マッピングは、前記パラメータが、前記ビットストリームが360度ビデオを表すことを示す場合のみ実行されることを特徴とする請求項1に記載の方法。
  3. 前記投影形状フォーマットは、投影形状タイプを含み、前記投影形状フォーマットを識別する前記パラメータは、前記投影形状タイプを識別するパラメータを含む請求項1に記載の方法。
  4. 前記投影形状タイプを識別する前記パラメータは、前記識別された投影形状タイプのインデックスを含むことを特徴とする請求項3に記載の方法。
  5. 前記投影形状タイプを識別する前記パラメータは、エクイレクタングラ、キューブマップ、正積、八面体、二十面体、円筒、及びユーザにより指定された多角形のうちの1つまたは複数から選択された形状タイプを識別することを特徴とする請求項3に記載の方法。
  6. 前記識別された投影形状タイプは、複数の面を有し、前記投影形状タイプを識別する前記パラメータは、面の数のインジケーションを含むことを特徴とする請求項3に記載の方法。
  7. 前記識別された投影形状タイプは、複数の面を有し、前記投影形状タイプを識別する前記パラメータは、前記2D平面ビデオ内の前記面の配列を識別するフレームパッキングパラメータを含むことを特徴とする請求項3に記載の方法。
  8. 前記識別された投影形状フォーマットは、複数の面を有し、前記ビットストリームは、前記2D平面ビデオ内の前記面の品質レベルを識別するパラメータを更に含むことを特徴とする請求項1に記載の方法。
  9. 前記投影形状フォーマットは、投影形状方位を含み、前記投影形状フォーマットを識別する前記パラメータは、前記形状方位を識別するパラメータを含むことを特徴とする請求項1に記載の方法。
  10. 前記形状方位を識別する前記パラメータは、ヨーパラメータ、ピッチパラメータ、及びロールパラメータのうちの少なくとも1つを含むことを特徴とする請求項9に記載の方法。
  11. 前記形状方位を識別する前記パラメータは、エクイレクタングラ投影の前記形状方位を識別するパラメータを含み、360度ビデオへの前記2D平面ビデオのマッピングは、前記識別された形状方位と共にエクイレクタングラ投影を使用して実行されることを特徴とする請求項9に記載の方法。
  12. 前記投影形状フォーマットを識別する前記パラメータは、前記ビットストリームの少なくとも1つのビデオパラメータセットにおいて受信されることを特徴とする請求項1乃至11のいずれか一項に記載の方法。
  13. 前記投影形状フォーマットを識別する前記パラメータは、前記ビットストリームの少なくとも1つのシーケンスパラメータにおいて受信されることを特徴とする請求項1乃至11のいずれか一項に記載の方法。
  14. 360度ビデオを符号化する方法であって、
    投影形状フォーマットを選択するステップと、
    前記選択された投影形状フォーマットを使用して、2D平面ビデオに前記360度ビデオをマッピングするステップと、
    ビットストリームにおいて前記2D平面ビデオを符号化するステップと、
    前記ビットストリームにおいて、前記投影形状フォーマットを識別するパラメータをシグナリングするステップと
    を備えたことを特徴とする方法。
  15. 前記ビットストリームにおいて、前記ビットストリームが360度ビデオを符号化していることを示すパラメータをシグナリングするステップをさらに備えたことを特徴とする請求項14に記載の方法。
  16. 前記投影形状フォーマットを選択するステップは、投影形状方位を選択するステップを含み、前記ビットストリームにおいてシグナリングされる前記パラメータは、前記選択された形状方位を識別するパラメータを含むことを特徴とする請求項14に記載の方法。
  17. 前記形状方位を識別する前記パラメータは、エクイレクタングラ投影の前記形状方位を識別するパラメータを含み、前記360度ビデオへの前記2D平面ビデオのマッピングは、前記識別された形状方位と共にエクイレクタングラ投影を使用して実行されることを特徴とする請求項16に記載の方法。
  18. 前記投影形状は、複数の面を含み、前記投影形状の前記形状方位は、前記複数の面のうちの1つ内にある前記360度ビデオ内の対象の選択された領域の一部を実質的に最大化するように選択されることを特徴とする請求項16に記載の方法。
  19. 前記投影形状は、少なくとも1つの他の面よりも高い品質レベルにより符号化された少なくとも1つの面を含む、複数の面を含み、前記投影形状の前記形状方位は、前記高い品質レベルを有する前記面内にある前記360度ビデオ内の対象の選択された領域の一部を実質的に最大化するように選択されることを特徴とする請求項16に記載の方法。
  20. 前記投影形状フォーマットを選択するステップは、形状タイプを選択するステップを含み、前記ビットストリームにおいてシグナリングされる前記パラメータは、前記選択された形状タイプを識別するパラメータを含むことを特徴とする請求項14に記載の方法。
JP2019511979A 2016-09-02 2017-08-30 360度ビデオ情報をシグナリングするための方法およびシステム Withdrawn JP2019530311A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662383367P 2016-09-02 2016-09-02
US62/383,367 2016-09-02
US201662407337P 2016-10-12 2016-10-12
US62/407,337 2016-10-12
PCT/US2017/049495 WO2018045108A1 (en) 2016-09-02 2017-08-30 Method and system for signaling of 360-degree video information

Publications (2)

Publication Number Publication Date
JP2019530311A true JP2019530311A (ja) 2019-10-17
JP2019530311A5 JP2019530311A5 (ja) 2020-10-08

Family

ID=59856633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019511979A Withdrawn JP2019530311A (ja) 2016-09-02 2017-08-30 360度ビデオ情報をシグナリングするための方法およびシステム

Country Status (7)

Country Link
US (2) US11284089B2 (ja)
EP (1) EP3507985A1 (ja)
JP (1) JP2019530311A (ja)
KR (1) KR20190054060A (ja)
CN (2) CN117201817A (ja)
TW (1) TW201813372A (ja)
WO (1) WO2018045108A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019530296A (ja) * 2016-11-09 2019-10-17 メディアテック インコーポレイテッド 回転情報のシンタックス要素シグナリングを備えたビデオエンコーディング機能を有する方法及び装置、並びに関連するビデオデコーディング機能を有する方法及び装置

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109891850B (zh) 2016-09-09 2023-04-04 Vid拓展公司 用于减少360度视区自适应流媒体延迟的方法和装置
KR20180029315A (ko) * 2016-09-12 2018-03-21 삼성전자주식회사 가상 현실 컨텐트의 영상을 투영하기 위한 영상 처리 방법 및 장치
KR20180042098A (ko) * 2016-10-17 2018-04-25 에스케이텔레콤 주식회사 영상 부호화 또는 복호화하기 위한 장치 및 방법
WO2018124720A1 (ko) * 2016-12-27 2018-07-05 삼성전자 주식회사 360도 이미지를 부호화 또는 복호화하는 방법 및 장치
US10951871B2 (en) * 2016-12-28 2021-03-16 Sony Corporation Generation device, identification information generation method, reproduction device, and image reproduction related to stereo packing of projected frames
US10863198B2 (en) * 2017-01-03 2020-12-08 Lg Electronics Inc. Intra-prediction method and device in image coding system for 360-degree video
US20180192074A1 (en) * 2017-01-03 2018-07-05 Mediatek Inc. Video processing method for processing projection-based frame with 360-degree content represented by projection faces packed in 360-degree virtual reality projection layout
US10742999B2 (en) * 2017-01-06 2020-08-11 Mediatek Inc. Methods and apparatus for signaling viewports and regions of interest
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
KR102596401B1 (ko) * 2017-03-13 2023-10-31 한국전자통신연구원 비디오 부/복호화를 위한 비정형 블록 기반 움직임 예측 및 보상 방법 및 그 장치
KR102277267B1 (ko) * 2017-03-29 2021-07-14 엘지전자 주식회사 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
US20190045212A1 (en) * 2017-08-07 2019-02-07 The Regents Of The University Of California METHOD AND APPARATUS FOR PREDICTIVE CODING OF 360º VIDEO
EP3457695A1 (en) * 2017-09-18 2019-03-20 Thomson Licensing Method and apparatus for motion vector predictor adaptation for omnidirectional video
WO2019060443A1 (en) 2017-09-20 2019-03-28 Vid Scale, Inc. HANDLING FACIAL DISCONTINUITIES IN 360-DEGREE VIDEO CODING
FR3072850B1 (fr) * 2017-10-19 2021-06-04 Tdf Procedes de codage et de decodage d'un flux de donnees representatif d'une video omnidirectionnelle
US10764605B2 (en) * 2018-02-14 2020-09-01 Qualcomm Incorporated Intra prediction for 360-degree video
US11212438B2 (en) * 2018-02-14 2021-12-28 Qualcomm Incorporated Loop filter padding for 360-degree video coding
CN108307166A (zh) * 2018-03-09 2018-07-20 嘀拍信息科技南通有限公司 一种新的全景视频传输投影模型
WO2019181101A1 (ja) * 2018-03-19 2019-09-26 ソニー株式会社 画像処理装置と画像処理方法
CN110349226B (zh) * 2018-04-01 2021-06-01 浙江大学 一种全景图像处理方法及装置
WO2019194544A1 (en) * 2018-04-02 2019-10-10 Samsung Electronics Co., Ltd. Method and system for handling 360 degree image content
WO2019203456A1 (ko) * 2018-04-15 2019-10-24 엘지전자 주식회사 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
US11917127B2 (en) 2018-05-25 2024-02-27 Interdigital Madison Patent Holdings, Sas Monitoring of video streaming events
US20190370932A1 (en) * 2018-06-04 2019-12-05 Simon Romanus Systems And Methods For Transforming Media Artifacts Into Virtual, Augmented and Mixed Reality Experiences
GB2574445A (en) 2018-06-06 2019-12-11 Canon Kk Method, device, and computer program for transmitting media content
CN112313958B (zh) 2018-06-29 2024-05-03 华为技术有限公司 用于编码和解码视频信号的装置和方法
WO2020009344A1 (ko) * 2018-07-06 2020-01-09 엘지전자 주식회사 360 비디오 데이터의 서브픽처 기반 처리 방법 및 그 장치
CA3106234A1 (en) * 2018-07-11 2020-01-16 Sony Corporation Image processing apparatus and method
MX2021002979A (es) 2018-09-14 2021-05-14 Vid Scale Inc Métodos y aparatos para regiones de cuadrícula flexible.
WO2020058950A1 (en) 2018-09-23 2020-03-26 Beijing Bytedance Network Technology Co., Ltd. Block level motion prediction
US10904528B2 (en) * 2018-09-28 2021-01-26 Tencent America LLC Techniques for QP selection for 360 image and video coding
US10638146B2 (en) * 2018-10-01 2020-04-28 Tencent America LLC Techniques for QP coding for 360 image and video coding
CN111418205B (zh) 2018-11-06 2024-06-21 北京字节跳动网络技术有限公司 用于帧间预测的运动候选
CN112970263B (zh) 2018-11-06 2024-07-12 北京字节跳动网络技术有限公司 基于条件的具有几何分割的帧间预测
US10491857B1 (en) 2018-11-07 2019-11-26 Nanning Fugui Precision Industrial Co., Ltd. Asymmetric video conferencing system and method
CN113170184A (zh) 2018-11-22 2021-07-23 北京字节跳动网络技术有限公司 默认运动候选的配置方法
EP3895425A4 (en) * 2018-12-14 2021-12-15 ZTE Corporation PROCESSING AN IMMERSIVE VIDEO BITSTREAM
WO2020125804A1 (en) 2018-12-21 2020-06-25 Beijing Bytedance Network Technology Co., Ltd. Inter prediction using polynomial model
WO2020135465A1 (en) 2018-12-28 2020-07-02 Beijing Bytedance Network Technology Co., Ltd. Modified history based motion prediction
WO2020140862A1 (en) 2018-12-30 2020-07-09 Beijing Bytedance Network Technology Co., Ltd. Conditional application of inter prediction with geometric partitioning in video processing
EP3935843A4 (en) * 2019-03-08 2022-10-05 ZTE Corporation ZERO TILE ENCODING IN VIDEO ENCODING
KR102653570B1 (ko) * 2019-05-12 2024-04-02 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 참조 픽처 리샘플링을 위한 신호
US11070848B2 (en) * 2019-06-24 2021-07-20 Tencent America LLC Method for efficient signaling of virtual boundary for loop filtering control
US11659206B2 (en) 2019-07-02 2023-05-23 Mediatek Inc. Video encoding method with syntax element signaling of guard band configuration of projection-based frame and associated video decoding method and apparatus
US11190801B2 (en) * 2019-07-02 2021-11-30 Mediatek Inc. Video encoding method with syntax element signaling of mapping function employed by cube-based projection and associated video decoding method
US11190768B2 (en) 2019-07-02 2021-11-30 Mediatek Inc. Video encoding method with syntax element signaling of packing of projection faces derived from cube-based projection and associated video decoding method and apparatus
CN110636294B (zh) * 2019-09-27 2024-04-09 腾讯科技(深圳)有限公司 视频解码方法及装置,视频编码方法及装置
CN114556926B (zh) 2019-10-10 2024-07-05 北京字节跳动网络技术有限公司 几何分割模式中的运动矢量处理
US11095912B2 (en) * 2019-10-28 2021-08-17 Mediatek Inc. Video decoding method for decoding part of bitstream to generate projection-based frame with constrained guard band size, constrained projection face size, and/or constrained picture size
CN114902675A (zh) 2019-11-30 2022-08-12 抖音视界(北京)有限公司 使用几何分割的简化的帧间预测
WO2021129694A1 (en) 2019-12-24 2021-07-01 Beijing Bytedance Network Technology Co., Ltd. High level syntax for inter prediction with geometric partitioning

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4403421B2 (ja) * 2006-08-17 2010-01-27 ソニー株式会社 画像処理装置及び画像処理方法
EP2389764A2 (en) 2009-01-26 2011-11-30 Thomson Licensing Frame packing for video coding
JP2015156523A (ja) 2012-06-06 2015-08-27 ソニー株式会社 画像処理装置、画像処理方法、プログラム
US20160065983A1 (en) 2013-04-05 2016-03-03 Samsung Electronics Co., Ltd. Method and apparatus for encoding multi layer video and method and apparatus for decoding multilayer video
WO2015151791A1 (ja) * 2014-03-31 2015-10-08 ソニー株式会社 画像復号装置および方法
US10204658B2 (en) 2014-07-14 2019-02-12 Sony Interactive Entertainment Inc. System and method for use in playing back panorama video content
CN112218074B (zh) * 2014-10-20 2024-08-09 谷歌有限责任公司 连续预测域
US10104361B2 (en) * 2014-11-14 2018-10-16 Samsung Electronics Co., Ltd. Coding of 360 degree videos using region adaptive smoothing
CN105681805B (zh) * 2016-01-19 2019-05-21 北京大学深圳研究生院 视频编码、解码方法及其帧间预测方法和装置
FI20165256L (fi) * 2016-03-24 2017-09-25 Nokia Technologies Oy Laitteisto, menetelmä ja tietokoneohjelma videokoodaukseen ja -dekoodaukseen
CN105812759A (zh) * 2016-04-15 2016-07-27 杭州当虹科技有限公司 一种360度全景视频的平面投射方法及编码方法
CN109076255B (zh) 2016-04-26 2021-10-08 Lg电子株式会社 发送、接收360度视频的方法及设备
US10249019B2 (en) * 2016-05-06 2019-04-02 Mediatek Inc. Method and apparatus for mapping omnidirectional image to a layout output format
US11019257B2 (en) * 2016-05-19 2021-05-25 Avago Technologies International Sales Pte. Limited 360 degree video capture and playback
EP3466075A1 (en) 2016-05-26 2019-04-10 VID SCALE, Inc. Geometric conversion for 360-degree video coding
US10264282B2 (en) 2016-06-27 2019-04-16 Mediatek Inc. Method and apparatus of inter coding for VR video using virtual reference frames
CN117135357A (zh) 2016-07-08 2023-11-28 Vid拓展公司 使用几何图形投影的360度视频编码
US20180054613A1 (en) * 2016-08-22 2018-02-22 Mediatek Inc. Video encoding method and apparatus with in-loop filtering process not applied to reconstructed blocks located at image content discontinuity edge and associated video decoding method and apparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019530296A (ja) * 2016-11-09 2019-10-17 メディアテック インコーポレイテッド 回転情報のシンタックス要素シグナリングを備えたビデオエンコーディング機能を有する方法及び装置、並びに関連するビデオデコーディング機能を有する方法及び装置

Also Published As

Publication number Publication date
WO2018045108A1 (en) 2018-03-08
US20190200023A1 (en) 2019-06-27
CN117201817A (zh) 2023-12-08
US11284089B2 (en) 2022-03-22
US11876981B2 (en) 2024-01-16
EP3507985A1 (en) 2019-07-10
KR20190054060A (ko) 2019-05-21
CN109644279B (zh) 2023-09-22
CN109644279A (zh) 2019-04-16
US20220174289A1 (en) 2022-06-02
TW201813372A (zh) 2018-04-01

Similar Documents

Publication Publication Date Title
US11876981B2 (en) Method and system for signaling of 360-degree video information
US20220368947A1 (en) 360-degree video coding using geometry projection
US11490065B2 (en) Method and apparatus for processing 360-degree image
US11798166B2 (en) Sphere pole projections for efficient compression of 360-degree video
US11367247B2 (en) Method, apparatus and stream for encoding/decoding volumetric video
TWI751261B (zh) 360度環景視頻的解區塊濾波技術
WO2018095087A1 (zh) 一种去块滤波方法及终端
WO2019016158A1 (en) METHODS, DEVICES AND FLOWS FOR ENCODING AND DECODING VOLUMETRIC VIDEO
WO2017222654A1 (en) Measuring spherical image quality metrics based on user field of view
US20190251735A1 (en) Method, apparatus and stream for immersive video format
EP3562159A1 (en) Method, apparatus and stream for volumetric video format
WO2018017599A1 (en) Quality evaluation system and method for 360-degree video
JP7271672B2 (ja) 没入型ビデオビットストリーム処理

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190508

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190327

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200831

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200831

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20210421