JP2016513925A

JP2016513925A - ３ｄビデオ符号化におけるビュー合成予測の方法と装置

Info

Publication number: JP2016513925A
Application number: JP2015561934A
Authority: JP
Inventors: イー−ウェンチェン，; ジチェンアン，; ジャン−リャンリン，
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2013-04-09
Filing date: 2014-04-02
Publication date: 2016-05-16
Also published as: WO2014166068A1; EP2932713A4; EP2932713A1; WO2014166348A1; US9961370B2; CA2896905A1; CA2896905C; US20150382019A1

Abstract

【課題】３Ｄビデオ符号化におけるビュー合成予測の方法と装置を提供する。【解決手段】計算の複雑性、及び／又は、メモリアクセスバンド幅が減少したビュー合成予測（ＶＳＰ）を組み込んだ三次元符号化、又は、復号化システムの方法と装置が開示される。システムは、ＶＳＰプロセスをテクスチャデータだけに適用し、非ＶＳＰプロセスを深さデータに適用する。よって、従属ビュー中の現在のテクスチャブロックが、関連する深さブロックを用いて、現在のテクスチャブロックをリファレンス画像にバックワードワーピングすることにより、ＶＳＰにしたがって符号化されると共に、モーションパラメータ継承（ＭＰＩ）モードが、従属中の対応する深さブロックに選択されるとき、従属ビュー中の対応する深さブロックは、現在のテクスチャブロックから継承される動き情報に基づいて、非ＶＳＰビュー間予測を用いて符号化又は復号化される。【選択図】図８

Description

この出願は、２０１３年４月９日に出願された“Refinement of View Synthesis Prediction （VSP） for 3-D Video Coding”と題されたＰＣＴ特許出願番号ＰＣＴ／ＣＮ２１０３／０７３９７７から、優先権を主張するものであり、その内容は引用によって本願に援用される。

本発明は、三次元ビデオ符号化に関するものである。特に、本発明は、三次元（３Ｄ）符号化システムにおけるテクスチャと深さデータのビュー合成予測に関するものである。

三次元（３Ｄ）テレビは、近年、視聴者に、センセーショナルな視覚体験をもたらす技術となっている。各種技術が発展し、３Ｄ鑑賞を可能にする。それらの間で、多視点ビデオは、その他の中で、３ＤＴＶアプリケーションの鍵となる技術である。従来のビデオは、カメラの視点からの場面の単一ビュー（単一視点）だけを視聴者に提供する二次元（２Ｄ）媒体である。しかし、多視点（マルチビュー）ビデオは、動的情景の任意の視点を提供し、視聴者に実際の感覚を提供することができる。

多視点ビデオは、一般に、多眼カメラを同時に用いることにより場面を捕捉する（キャプチャする）ことにより形成され、多眼カメラは適切に配置されて、各カメラが、一視点（シングルビュー）からの場面を捕捉する。したがって、多眼カメラは、多重の視点（ビュー）に対応する多重動画像列を捕捉する。さらに多くの表示を提供するため、さらに多くのカメラが用いられて、表示に関連する多くの動画像列と、多視点ビデオを生成する。したがって、多視点ビデオは、保存のための大きい記憶スペース、および／または、伝送のための高バンド幅を必要とする。よって、多視点ビデオ符号化技術がその領域中で発展し、必要な記憶スペースまたは送信バンド幅を減少させている。

真正面から正直に攻めるやり方は、従来のビデオ符号化技術を、単独で、各単一ビュー動画像列に適用すると共に、異なるビュー間で、相互関係を無視する。このような符号化システムは、とても非効率である。多視点ビデオ符号化の効率を改善するため、一般の多視点ビデオ符号化はインタービュー（視点間）冗長を利用する。よって、大部分の３Ｄビデオ符号化（３ＤＶＣ）システムは、多重ビューと奥行きマップに関連する映像データの相互関係を考慮する。標準的な発展体、ＩＴＵ−Ｔビデオ符号化専門家グループ（ＶＣＥＧ）とＩＳＯ／ＩＥＣエムペグ（Moving Picture Experts Group、ＭＰＥＧ）のジョイントビデオチームは、Ｈ．２６４／ＭＰＥＧ−４ＡＶＣを、ステレオと多視点ビデオの多視点ビデオ符号化（ＭＶＣ）に拡張する。

ＭＶＣは、一時的と空間予測を採用し、圧縮効率を改善する。ＭＶＣの発展中、いくつかのマクロブロックレベルの符号化ツールが提案され、照明補償、適応参照フィルタリング、動きスキップモードとビュー合成予測を含む。これらの符号化ツールが提案され、多重ビュー中の冗長を利用する。照明補償は、異なるビュー中の照明変動の補償を対象とする。カメラ間の焦点ミスマッチのため、適応参照フィルタリングは、変動を減らすことを目的としている。動きスキップモードは、別のビューから推論される現在のビュー中で、運動ベクトルを許可する。ビュー合成予測は、別のビューから現在のビューのピクチャを予測する。

ＨＥＶＣベースの３Ｄビデオ符号化（３Ｄ−ＨＴＭ）のリファレンスソフトウェアにおいて、隣接するビューの予め符号化された動き情報を再設定するため、ビュー間候補が、インター（Inter）、マージ（Merge）、および、スキップ（Skip）モードの動きベクトル（ＭＶ）、または、視差ベクトル（ＤＶ）候補として加えられる。３Ｄ−ＨＴＭにおいて、符号化ユニット（ＣＵ）として知られる圧縮の基本ユニットは２Ｎｘ２Ｎの四角形ブロックである。各ＣＵは、所定の最小サイズになるまで、再帰的に、４つの小さいＣＵに分ける。各ＣＵはひとつ以上の予測ユニット（ＰＵ）を含む。

隣接するビューの予め符号化されたテクスチャ情報をシェアするため、視差補償予測（ＤＣＰ）として知られる技術は、動き補償予測（ＭＣＰ）の代替の符号化ツールとして、３Ｄ−ＨＴＭ中に含まれている。ＭＣＰは、同じビューの予め符号化された画像を用いるピクチャ間（inter-picture）予測、ＤＣＰは、同じアクセスユニット中、その他のビューの予め符号化された画像を用いたピクチャ間予測である。図１は、ＭＣＰとＤＣＰを組み込んだ３Ｄビデオ符号化システムの例を示す図である。ＤＣＰに用いられるベクトル（１１０）は視差ベクトル（ＤＶ）で、ＭＣＰに用いられる動きベクトル（ＭＶ）に類似する。図１は、ＭＣＰに関連する３個のＭＶ（１２０、１３０、および、１４０）を説明する。さらに、ＤＣＰブロックのＤＶは、ビュー間リファレンス画像を用いる隣接ブロック、または、一時的配列ブロックから生成する視差ベクトル予測（ＤＶＰ）候補により予測される。３Ｄ−ＨＴＭにおいて、マージ／スキップモードのビュー間合併候補を生成するとき、対応するブロックの動き情報が利用可能でない、または、有効でない場合、ビュー間合併候補がＤＶにより代替される。

ビュー間残差予測は、３Ｄ−ＨＴＭ中に用いられる別の符号化ツールである。隣接するビューの予め符号化された残差情報をシェアするため、図２に示されるように、現在の予測ブロック（ＰＵ）の残留信号は、ビュー間ピクチャ中の対応するブロックの残留信号により予測される。対応するブロックは対応するＤＶにより設置される。特定のカメラ位置に対応する映像、および、奥行きマップが、ビュー識別子（すなわち、図２中のＶ０、Ｖ１とＶ２）で示される。同じカメラ位置に属する全映像と奥行きマップは、同じビューＩｄ（すなわち、ビュー識別子）に関連する。ビュー識別子が用いられて、アクセスユニット中の符号順序を指定し、エラーが出やすい環境において、紛失したビューを検出する。アクセスユニットは、同一時刻に対応する全映像と奥行きマップを含む。アクセスユニット中、ビューＩｄが０の映像、および、関連する奥行きマップが存在するとき、まず、ビューＩｄが１の映像と奥行きマップが符号化される。ビューＩｄが０（すなわち、図２中のＶ０）のビューも、ベースビュー、または、ディペンデントビューと称される。ベースビュー映像は、従来のＨＥＶＣビデオコーダーを用いて符号化され、別のビューに頼る必要がない。

図２に示されるように、現在のブロックにとって、動きベクトル予測（ＭＶＰ）／視差ベクトル予測（ＤＶＰ）が、ビュー間ピクチャ中のビュー間ブロックから生成される。続いて、ビュー間ピクチャ中のビュー間ブロックが、ビュー間ブロックとして短縮される。生成された候補はビュー間候補で、ビュー間ＭＶＰ、または、ＤＶＰになる。別のビュー中の予め符号化された動き情報に基づいた現在のブロック（たとえば、現在の予測ユニット、ＰＵ）の動き情報を符号化する符号化ツールは、ビュー間動きパラメータ予測である。さらに、隣接するビュー中の対応するブロックはビュー間ブロックで、ビュー間ブロックが、現在の画像中の現在のブロックの深さ情報から生成される視差ベクトルを用いて配置される。

図２に示される例は、Ｖ０（すなわち、ベースビュー）、Ｖ１、および、Ｖ２からのビュー符号化順序に対応する。符号化されている現在の画像の現在のブロックはＶ２である。ＨＴＭ３．１によると、ビュー間ピクチャが、現在の画像のリファレンス画像リスト中になくても、予め符号化されたビュー中のリファレンスブロックの全ＭＶは、ビュー間候補として見なされる。図２中、フレーム２１０、２２０、および、２３０は、それぞれ、時間ｔ１で、ビューＶ０、Ｖ１とＶ２からの映像、または、奥行きマップに対応する。ブロック２３２は、現在のビュー中の現在のブロックであり、ブロック２１２と２２２は、それぞれ、Ｖ０とＶ１中の現在のブロックである。ＶＯ中の現在のブロック２１２において、視差ベクトル（２１６）が用いられて、ビュー間配列ブロック（２１４）を配置する。同様に、Ｖ１中の現在のブロック２２２において、視差ベクトル（２２６）が用いられて、ビュー間配列ブロック（２２４）を配置する。ＨＴＭ３．１によると、任意の符号化されたビューからのビュー間配列ブロックに関連する動きベクトル、または、視差ベクトルは、ビュー間候補中に含まれる。よって、ビュー間候補の数量は相当多く、これは、さらに多くの処理時間とストレージ空間が必要になる。処理時間、および／または、ストレージ要求を減少させ、ＢＤ率やその他の性能測定方面で、システムパフォーマンスに大きな衝撃を与えることがない方法を開発することが必要である。

３ＤＶ−ＨＴＭにおいて、視差ベクトルは、インターモードのＤＶＰ候補、または、マージ／スキップモードの合併候補として用いられる。生成された視差ベクトルは、また、ビュー間動き予測とビュー間残差予測のオフセットベクトルとして用いられる。オフセットベクトルとして用いられるとき、図３に示されるように、ＤＶが、空間的、または、一時的隣接ブロックから派生する。所定の順序にしたがって、複数の空間的、および、一時的隣接ブロックが決定され、空間的、および、一時的隣接ブロックのＤＶの可用性が確認される。隣接（空間的、および、一時的）ブロックに基づいたＤＶ導出のこの符号化ツールは、隣接ブロックＤＶ（ＮＢＤＶ）と称される。図３Ａに示されるように、空間的隣接ブロック集合は、現在のブロックの左下角位置（すなわち、Ａ０）、現在のブロックの左下側位置（すなわち、Ａ１）、現在のブロックの左上角位置（すなわち、Ｂ２）、現在のブロックの右上角位置（すなわち、Ｂ０）、および、現在のブロックの右上側の位置（すなわち、Ｂ１）を含む。図３Ｂに示されるように、一時的隣接ブロック集合は、一時的リファレンス画像中、現在のブロックの中心位置（すなわち、ＢＣＴＲ）、および、現在のブロックの右下角位置（すなわち、ＲＢ）を含む。中央位置を除いて、一時的リファレンス画像中の現在のブロック内の別の位置（たとえば、右下のブロック）も用いられる。つまり、現在のブロックと配置される任意のブロックは、一時的ブロック集合中に含まれる。一旦、ブロックがＤＶを有すると識別されると、確認プロセスが終了する。図３Ａ中の空間的隣接ブロックの例の検索順序は、（Ａ１、Ｂ１、Ｂ０、Ａ０、Ｂ２）である。図３Ｂ中の一時的隣接ブロックの例の検索順序は（ＢＲ，ＢＣＴＲ）である。空間的、および、一時的隣接ブロックは、ＨＥＶＣ中のＡＭＶＰとマージモードの空間的、および、一時的隣接ブロックと同じである。

ＤＣＰ符号化ブロックが、隣接ブロック集合（すなわち、図３Ａと図３Ｂに示されるように、空間的、および、一時的隣接ブロック）で見つからない場合、視差情報は、別の符号化ツール（ＤＶ−ＭＣＰ）から得られる。この場合は、隣接ブロックがＭＣＰ符号化ブロックで、且つ、その動きが、ビュー間動き予測により予測されるとき、図４に示されるように、ビュー間動き予測に用いられる視差ベクトルは、現在とビュー間リファレンス画像間の動き通信を示す。この種の動きベクトルは、ビュー間予測動きベクトルと称され、ブロックはＤＶ−ＭＣＰブロックと称される。図４は、ＤＶ−ＭＣＰブロックの例を示す図で、ＤＶ−ＭＣＰブロック（４１０）の動き情報が、ビュー間リファレンス画像中の対応するブロック（４２０）から予測される。対応するブロック（４２０）の位置が視差ベクトル（４３０）により指定される。ＤＶ−ＭＣＰブロック中で用いられる視差ベクトルは、現在とビュー間リファレンス画像間の動き通信を示す。対応するブロック（４２０）の動き情報（４２２）が用いられて、現在のビュー中の現在のブロック（４１０）の動き情報（４１２）を予測する。

ＭＣＰブロックが、符号化されるＤＶ−ＭＣＰであるかを示し、ビュー間動きパラメータ予測の視差ベクトルを保存するため、二つの変数が用いられて、各ブロックの動きベクトル情報を表す：ｄｖＭｃｐＦｌａｇ、および、ｄｖＭｃｐＤｉｓｐａｒｉｔｙである。

ｄｖＭｃｐＦｌａｇが１のとき、ｄｖＭＣＰ視差は、視差ベクトルがビュー間動きパラメータ予測に用いられることを示すように設定される。ＡＭＶＰとマージ候補リストの構成プロセスにおいて、候補がビュー間動きパラメータ予測により生成される場合、候補のｄｖＭｃｐＦｌａｇは、１に設定され、そうでない場合は、０に設定される。ＤＶ−ＭＣＰブロックからの視差ベクトルは以下の順序で用いられる：Ａ０、Ａ１、Ｂ０、Ｂ１、Ｂ２、Ｃｏｌ（すなわち、配列ブロックＢＣＴＲまたはＲＢ）。

奥行きマップから、さらに精密な視差ベクトルを抽出することにより、ＮＢＤＶを増強する方法が、現在の３Ｄ−ＨＥＶＣに用いられている。まず、同じアクセスユニット中で符号化された奥行きマップからの深さブロックが検索され、現在のブロックの仮想深さとして用いられる。ＤＶ導出のためのこの符号化ツールは、深さ配向ＮＢＤＶ（ＤｏＮＢＤＶ）と称される。共同テスト条件下で、ビュー１とビュー２中のテクスチャを符号化する間、ビュー０の奥行きマップはすでに利用可能である。ビュー１とビュー２中のテクスチャの符号化は、ビュー０の奥行きマップから恩恵を受けることができる。図５で示されるように、推定された視差ベクトルは、仮想深さから引き出される。全体の流れは以下のようである。
１．現在の３Ｄ−ＨＴＭ中のＮＢＤＶである推定された視差ベクトルを用いて、符号化されたテクスチャビュー中、対応するブロックを配置する。
２．現在のブロック（符号化ユニット）の符号化されたビュー中の配列深さを、仮想深さとして用いる。
３．前のステップで検索された仮想深さ中の最大値から、ビュー間動き予測の視差ベクトルを抽出する。

図５で説明される例において、ビュー０中の符号化された奥行きマップが用いられて、ＤＶを符号化されるビュー１中のテクスチャフレームに派生させる。ビュー０中の推定された視差ベクトル（５４０）、および、符号化された奥行きマップの現在のブロックの位置（５２０）にしたがって、符号化されたＤ０中の対応する深さブロック（５３０）が、推定された視差ベクトル（５４０）、および、ビュー０中の符号化奥行きマップの現在のブロックの位置（５２０）にしたがって、現在のブロック（ＣＢ、５１０）に回収される。検索されたブロック（５３０）は、その後、現在のブロックの仮想深さブロック（５３０’）として用いられ、ＤＶを生成する。仮想深さブロック（５３０’）中の最大値が用いられて、ビュー間動き予測の視差ベクトルを取り出す。

ビュー合成予測（ＶＳＰ）は、異なる視点から、ビデオ信号間のビュー間冗長を除去する技術で、合成シグナルがリファレンスとして用いられ、現在の画像を予測する。現在の３Ｄ−ＡＶＣにおいて、前方マッピングＶＳＰが、最初に提案されて、以下のように、合成参照を提供する。第一ビューのテクスチャち深さペアが、まず、符号化、および、復号化される。第二ビューは、第一ビューを第二ビュー位置にワープさせることにより予測される。また、ＶＳＰスキップ／ダイレクト（Direct）モード、および、コンテキスト−ベースの適応スキップフラグ（Skip flag）位置決め方法が考慮されて、隣接するブロックのスキップ状態にしたがって、スキップタイプフラグ（skip_type flag）を適応的に使用して、合成参照、または、非合成参照を選択する。３Ｄ−ＡＴＭバージョン５．０において、Ｂ−ＶＳＰが実行されて、元々の前方マッピングＶＳＰを代替する。後方マッピングビュー合成スキームがＢ−ＶＳＰにより用いられて、第一ビューのテクスチャと第二ビューの深さが符号化、および、復号化され、且つ、第二ビューのテクスチャは、第二ビューの深さから転換された視差ベクトル（ＤＶ）により、第一ビューのテクスチャを第二ビュー位置にワープすることにより予測される。３Ｄ−ＨＥＶＣテストモデルにおいて、視差ベクトル予測を導出する一プロセスがある。その後、導出された視差ベクトルが用いられて、リファレンスビューの深さイメージ中の深さブロックをフェッチする。フェッチされた深さブロックは、現在の予測ユニット（ＰＵ）と同じサイズで、且つ、現在のＰＵに、バックワードワーピングを実行するのに用いられる。それに加え、ワープ操作（warping operation）は、サブＰＵレベルの精密さ、たとえば、８ｘ４や４ｘ８ブロックで実行される。対応する深さサブブロック中の最大深度値深さサブブロックがサブＰＵブロックに選択されると共に、サブＰＵブロック中の全画素のワープに用いられる。

３Ｄ−ＡＶＣ、および、３Ｄ−ＨＥＶＣに考慮される従来のＶＳＰは、非常に計算論的に強化され、十分なシステムリソース（たとえば、奥行きマップのデータアクセスに関連するシステム帯域幅）を用いる。図６は、従来の３Ｄ−ＨＥＶＣ、ＨＴＭ−６．０中のＶＳＰに関連するプロセスを説明する。まず、ＤｏＮＢＤＶが用いられて、ＶＳＰプロセスの正確なＤＶを導出する。前述のように、ＤｏＮＢＤＶプロセスは、ＮＢＤＶにしたがって、ＤＶを生成する工程（６１０）、対応する深さブロックを設置する工程（６２０）、および、正確なＤＶを導出する工程（６３０）を有する。正確なＤＶの決定時、正確なＤＶにしたがって、別の深さブロックが設置される（６４０）。正確なＤＶを用いて設置される深さブロックは、ＶＳＰプロセスにより、仮想深さブロックとして用いられて、ビュー合成予測（６５０）を実行する。図６に示されるように、ＤＶは二回導出される（工程６１０と６３０）と共に、深さデータが二回アクセスされる（工程６２０と６４０）。パフォーマンスに対するぺナルティがない状況下で、さらに計算効率が高い、および／または、リソース効率が高いＶＳＰプロセス（このような低いシステムの帯域幅利用）を発展させることが望まれる。

計算の複雑性、および／または、メモリアクセスバンド幅が減少したビュー合成予測（ＶＳＰ）を組み込んだ三次元符号化、または、復号化システムの方法と装置が開示される。本発明の具体例は、ＶＳＰをテクスチャデータだけに適用し、非ＶＳＰプロセスを深さデータに適用する。よって、従属ビュー中の現在のテクスチャブロックが、ＶＳＰにしたがって、関連する深さブロックを用いて、現在のテクスチャブロックを、リファレンス画像にバックワードワーピングすることにより符号化され、モーションパラメータ継承（インヘリタンス）（ＭＰＩ）モードが従属ビュー中の対応する深さブロックに選択されるとき、従属ビュー中の対応する深さブロックは、現在のテクスチャブロックから継承される動き情報に基づいて、非ＶＳＰビュー間予測を用いて符号化、または、復号化される。

関連する深さブロックは、現在のテクスチャブロックと選択された視差ベクトル（ＤＶ）の位置にしたがって、従属ビュー中のリファレンス奥行きマップから設置される。一実施例において、選択されたＤＶがＮＢＤＶプロセス（隣接ブロックの視差ベクトルプロセス）を用いて導出され、選択されたＤＶが、現在のテクスチャブロックの一組の隣接ブロックから、第一有効ＤＶに基づいて選択される。別の実施例において、選択されたＤＶは、ＤｏＮＢＤＶプロセス（深さ指向性隣接ブロックの視差ベクトルプロセス）を用いて導出され、導出されたＤＶは、現在のテクスチャブロックの一組の隣接ブロックからの第一有効ＤＶに基づいて選択され、選択された深さブロックは、導出されたＤＶと現在のテクスチャブロックの位置にしたがって、リファレンス奥行きマップに設置され、選択されたＤＶが、選択された深さブロックの最大値から導出される。選択されたＤＶの選択プロセスは、シーケンスレベル、ピクチャレベル、スライスレベル、ＬＣＵレベル（最大符号化ユニットレベル）、ＣＵレベル（符号化ユニットレベル）、ＰＵレベル（予測単位レベル）、マクロブロックレベル、または、サブブロックレベルで、適応的に決定される。この場合、構文要素が用いられて、選択されたＤＶの選択プロセスを示す。選択されたＤＶの選択プロセスも、黙示的に、符号器側と復号器側で決定される。

ＶＳＰデータ生成期間中、現在のテクスチャブロックは、テクスチャサブブロックに分割され、且つ、関連する深さブロックを用いて、各サブブロックは、各テクスチャサブブロックをリファレンス画像にバックワードワーピングすることにより生成されるサブブロックＶＳＰデータにより予測される。ＶＳＰプロセスは、予測単位（ＰＵ）基準で適用され、現在のテクスチャブロックはＰＵに対応する。

別の具体例は、ＮＢＤＶプロセスをＶＳＰ符号化ブロックに用いると共に、ＤｏＮＢＤＶプロセスを、マージモード、または、ビュー間残差予測でビュー間候補により符号化される別のブロックに用いる。実施例の方法は、リファレンスビュー中のリファレンス画像を受信する工程と、従属ビュー中の第一テクスチャブロックと第二テクスチャブロックに関連する入力データを受信する工程と、リファレンスビュー中のリファレンス奥行きマップから、第一視差ベクトル（ＤＶ）を導出して、第一深さブロックを設置する工程と、第一深さブロックを用いて、第一テクスチャブロックをリファレンス画像にバックワードワーピングすることにより、第一テクスチャブロックのＶＳＰデータを生成する工程、および、ＶＳＰデータを用いて、第一テクスチャブロックを符号化、または、復号化する工程、を有する。第二ＤＶが、第二テクスチャブロックの一組の隣接ブロックから導出され、第二ＤＶにしたがって設置される第二深さブロックの最大値から、正確なＤＶが導出される。ビュー間マージ候補、または、ビュー間残差予測が、正確なＤＶ、および、第二テクスチャブロックの位置を用いて導出されて、リファレンス奥行きマップから、正確な深さブロックを設置する。第二テクスチャブロックは、ビュー間マージ候補、または、ビュー間残差予測を用いて符号化、または、復号化される。

図１は、動き補償予測（ＭＣＰ）に代わるものとして、視差−補償予測（ＤＣＰ）を組み込んだ三次元符号化の例を示す図である。図２は、ＨＴＭ−３．１において、隣接ビューから前に符号化された情報、または、剰余情報を用いた三次元符号化の例を示す図である。図３Ａは、ＨＴＭ−３．１における現在のブロックに視差ベクトルを導出する現在のブロックのそれぞれ空間的隣接ブロック、および、一時的隣接ブロックを示す第１の図である。図３Ｂは、ＨＴＭ−３．１における現在のブロックに視差ベクトルを導出する現在のブロックのそれぞれ空間的隣接ブロック、および、一時的隣接ブロックを示す第２の図である。図４は、動き補償予測（ＤＶ−ＭＣＰ）ブロックからの視差導出の例で、対応するブロックの位置が視差ベクトルにより特定されることを示す図である。図５は、ブロックの仮想深さに基づいて推定された視差ベクトルの導出の例を示す図である。図６は、ＨＥＶＣ（高効率ビデオ符号化）に基づいて、存在する三次元符号化にしたがったビュー合成予測プロセスを示す図である。図７は、本発明による簡潔なビュー合成予測プロセスを示す図である。図８は、本発明の具体例による簡潔なビュー合成予測プロセスを組み込んだビュー間予測符号化システムのフローチャートである。

前に述べたように、従来のＡＶＣ、または、ＨＥＶＣベースの三次元ビデオ符号化中のＶＳＰプロセスは、非常に計算論的、且つ、メモリアクセス強化がなされている。したがって、本発明の実施例は、簡潔なＶＳＰプロセスを発展させて、計算の複雑性、および／または、メモリアクセスバンド幅を減少させている。一実施例において、奥行きマップにアクセスするメモリバンド幅は、ＤｏＮＢＤＶ（深さ指向性隣接ブロックの視差ベクトルプロセス）方法に基づいて、正確なＤＶをさらに導出し、正確なＤＶを用いて、ＶＳＰデータ生成の仮想深さブロックを設置する代わりに、ＮＢＤＶにより決定されるＤＶを直接用いることにより減少されて、ＶＳＰデータ生成のために、深さブロックをフェッチする。別の実施例において、ＮＢＤＶから決定されるＤＶを直接使用することにより深さブロックを設置して、深さブロックをフェッチする簡潔なプロセスは、ＶＳＰコーディングツールに適用される。少なくともひとつの別の三次元コーディングツールにおいて、たとえば、ビュー間マージ候補、ＡＭＶＰ（インターモード）、および、ビュー間残差予測の導出で、ＤｏＮＢＤＶに基づくさらなる計算論的、および、メモリアクセス強化のＤＶ導出が依然として用いられる。本発明によると、各ＶＳＰ符号化ブロックに対し、一度、奥行きマップにアクセスすることだけが必要である。簡潔なＶＳＰデータ生成プロセスにおいて、対応する深さブロックは、ＶＳＰデータ生成のＮＢＤＶプロセスから決定されるＤＶを用いて設置される。ＶＳＰデータは、その後、対応する深さサブブロックの最大深度値から導出される変換されたＤＶを用いて、サブブロックを、リファレンスビュー中のリファレンス画像にバックワードワーピングすることにより、現在のテクスチャブロックの各ブロックに生成される。

図７は、本発明の具体例によるＶＳＰに関わるプロセスを説明する。ＤＶは、ＮＢＤＶ（７１０）にしたがって導出され、導出されたＤＶが用いられて、対応する深さブロック（７２０）を設置する。ＶＳＰプロセスにより、導出されたＤＶを用いて設置される深さブロックが、仮想深さブロックとして用いられて、ビュー合成予測（７３０）を実行する。図６中のＶＳＰプロセスと比較して、ＤＶは一回だけ導出され、よって、深さデータは、一度アクセスされる。

ＶＳＰの符号化利得を改善するため、深さブロックを設置する方法は、適応的に、シーケンスレベル（たとえば、シーケンスパラメータセット、ＳＰＳ）、ビューレベル（たとえば、ビューパラメータセット、ＶＰＳ）、ピクチャレベル（たとえば、ピクチャパラメータセット、ＰＰＳ）、スライスレベル（たとえば、スライスヘッダー）、符号化ユニット（ＣＵ）レベル、または、予測単位（ＰＵ）レベルで決定される。増設された構文は、対応レベル、または、上位レベルでシグナリングされて、一組の所定のＤＶ導出方法、たとえば、ＮＢＤＶとＤｏＮＢＤＶ間の選択をシグナリングして、ＶＳＰデータ生成の深さブロックを回収する。あるいは、リファレンス深さブロックを設置するＤＶ導出方法は、符号器と復号器両方で、黙示的に決定される。

従来の３Ｄ−ＨＥＶＣ（ＨＴＭ６．０）において、ＶＳＰが、テクスチャと奥行きマップ符号化両方に用いられる。モーションパラメータ継承（ＭＰＩ）モードにおいて、配列されたテクスチャブロックがＶＳＰモードを用いる場合、現在の奥行きマップＰＵは、従来の３Ｄ−ＨＥＶＣにしたがって、ＶＳＰモードを用いることもできる。

本発明の一実施例において、奥行きマップ符号化のＶＳＰモードが無効になる。モーションパラメータ継承（ＭＰＩ）モードが選択されるとき、および、配列されたテクスチャブロックがＶＳＰモードを用いる場合、現在の深さＰＵは、ＶＳＰの使用に代わり、配列されたテクスチャブロックの動き情報（たとえば、動きベクトル、リファレンス画像）を継承する。したがって、現在の深さＰＵは、ＶＳＰモードの使用に代わって、継承された動き情報に基づいて、直接、動き補正、または、視差補償を実行する。通常、視差ベクトルと関連する動き情報が、テクスチャＶＳＰ符号化ブロックに保存される。よって、深さブロックは、配列されたテクスチャブロックからの動き情報を用いる。たとえば、現在の深さＰＵの視差ベクトル、リファレンスインデックス、および、ビューインデックスは、配列されたテクスチャブロックから継承されて、任意の非ＶＳＰプロセスを実行する。たとえば、現在の深さブロックは、視差補償予測を用いて符号化される。さらに、リファレンス画像が、継承されたリファレンス画像インデックスが−１に等しいとき、動きベクトルが指し示すベースビュー、または、ピクチャに設定される。

本発明の具体例を組み込んだ３Ｄ／マルチビュービデオ符号化システムのパフォーマンスが、ＨＴＭ−６．０に基づく従来のシステムのパフォーマンスと比較され、表１に示されるように、奥行きマップのＶＳＰプロセスが無効になる。性能比較は、第一カラムでリストされる異なる組のテストデータに基づく。ＢＤレート差は、view 1（video 1）とview 2（video 2）中のテクスチャピクチャに表される。ＢＤレート中の負値は、本発明がよいパフォーマンスを有することを意味する。表１に示されるように、総ビットレート（テクスチャビットレートと深さビットレート）のビットレート測定、および、符号化、および、合成されたビデオ（シンセ／総ビットレート）の総ビットレートは、従来のＨＴＭ−６．０とほぼ同じである。処理時間（符号化時間、復号化時間、および、レンダリング時間）も比較される。表１に示されるように、復号化時間がわずかに低下する（平均で１．５％）。したがって、奥行きマップ符号化のＶＳＰを無効にするシステムは、従来のＨＴＭ−６．０と同じ性能を達成し、すなわち、性能損失がない。

表２において、本発明の具体例を組み込んだ３Ｄ／マルチビュービデオ符号化システムのパフォーマンスは、ＨＴＭ−６．０に基づく従来のシステムのパフォーマンスと比較され、ＶＳＰプロセスは、ＤｏＮＢＤＶに代わって、ＮＢＤＶから決定されるＤＶを用いる。ＢＤレート差は、view 1（video 1）とview 2（video 2）中のテクスチャピクチャに示される。view 1のビットレートは従来の方法とほぼ同じで、且つ、ビットレートは、view 2で、わずかに（０．１％）増加する。テクスチャビデオのみのビットレート測定（ビデオ／ビデオビットレート）、および、総ビットレート、すなわち、テクスチャビットレートと深さビットレート（ビデオ／総ビットレート）は、ＨＴＭ−６．０とほぼ同じである。合成されたビデオ（シンセ／総ビットレート）の総ビットレートは、わずかな改善（０．１％）が見られる。表２に示されるように、復号化時間がわずかに減少する（平均２．２％）。したがって、ＤｏＮＢＤＶの代わりに、ＮＢＤＶに基づいて導出されたＤＶを用いて、ＶＳＰデータ生成の対応する深さブロックを設置するシステムは、従来のＨＴＭ−６．０とほぼ同じ、または、少しよいパフォーマンスを達成する。前述したように、ＮＢＤＶに基づくＶＳＰは、各テクスチャブロックに対し、深さブロックに一度だけアクセスし、深さデータアクセスは、ＤｏＮＢＤＶ−ベースＶＳＰと比較して半減する。

表３中、本発明の具体例を組み込んだ３Ｄ／マルチビュービデオ符号化システムのパフォーマンスにおいて、ＶＳＰプロセスは、ＤｏＮＢＤＶとＶＳＰプロセスが深さデータに対し無効になるのに代わって、ＮＢＤＶから決定されるＤＶを用い、ＨＴＭ−６．０に基づいた従来のシステムのパフォーマンスと比較される。ＢＤレート比較結果は、表２に示されるケースとほぼ同じである。しかし、復号化時間は、従来のＨＴＭ−６．０と比較して４％減少する。したがって、奥行きマップ符号化のＶＳＰを無効にし、ＮＢＤＶをテクスチャＶＳＰに用いるシステムは、従来のＨＴＭ−６．０とほぼ同じ、または、少しよいパフォーマンスを達成する。しかし、深さデータアクセスは、ＤｏＮＢＤＶ−ベースＶＳＰと比較して半減する。

図８は、本発明の具体例による計算の複雑性、および／または、メモリアクセスバンド幅を減少させるビュー合成予測を組み込んだ三次元符号化、または、復号化システムのフローチャートである。システムは、ステップ８１０において、リファレンスビュー中のリファレンス画像を受信する。符号化において、リファレンスビュー中のテクスチャピクチャが符号化、および、復号化される。リファレンスビュー中の再構築されたピクチャは、その後、リファレンス画像として用いられ、従属ビュー中のピクチャを符号化する。リファレンス画像は、メモリ（たとえば、コンピュータメモリ、バッファ（ＲＡＭやＤＲＡＭ）や別の媒体）、または、プロセッサから回収される。復号化において、リファレンス画像は、ビットストリームから再構築される。ステップ８２０で、従属ビュー中の現在のテクスチャブロックに関連する入力データは、その後、受信される。符号化において、入力データは、現在のブロックの画素データ（たとえば、ルマコンポーネント、または、クロマコンポーネント）に対応する。復号化において、入力データは、現在のブロックに関連する符号化データ（たとえば、ＶＳＰ剰余、または、ビュー間剰余）に対応する。ステップ８３０において、その後、関連する深さブロックを用いて、現在のテクスチャブロックをリファレンス画像に後ろ向けにワープすることにより、現在のテクスチャブロックのビュー合成予測（ＶＳＰ）データが生成される。ステップ８４０において、ＶＳＰデータ生成後、ＶＳＰデータが用いられて、現在のテクスチャブロックを符号化、または、復号化する。複雑性やメモリアクセスを減少させるため、ＶＳＰは深さデータに適用されない。よって、ステップ８５０において、モーションパラメータ継承（ＭＰＩ）モードが選択されて、対応する深さブロックを符号化するとき、現在のテクスチャブロックから継承される動き情報に基づいて、非ＶＳＰビュー間予測を用いて、従属ビュー中の対応する深さブロックが符号化、または、復号化される。

上述のフローチャートは、計算の複雑性、および／または、メモリアクセスが減少したビュー合成予測の例を説明する。上述のフローチャートは、第二インタービュー候補を有する候補リストを用いた３Ｄ／マルチビュー符号化の例を説明することを目的とする。当業者は、本発明を逸脱しない範囲で、各ステップを修正したり、ステップを再アレンジしたり、ステップを分割したり、組み合わせたりすることができる。

上の記述が提示されて、当業者に、特定のアプリケーションとその要求のコンテキストに記述される通り、本発明を行うことができる。当業者なら、記述された具体例への各種修正が理解でき、ここで定義される一般原則は別の実施例にも応用できる。よって、本発明は、記述される特定の実施例に制限することを目的としておらず、原理と新規特徴と一致する最大範囲に一致する。上述の記述において、本発明の十分な理解を提供するため、各種特定の詳細が説明される。当業者なら、本発明が行えることが理解できる。

上述の本発明の具体例は、各種ハードウェア、ソフトウェアコード、または、それらの組み合わせで実行される。たとえば、本発明の具体例は、画像圧縮チップに整合される回路、または、画像圧縮ソフトウェアに整合されるプログラムコードで、上述の処理を実行する。本発明の具体例は、デジタルシグナルプロセッサ（ＤＳＰ）で実行されるプログラムコードで、上述の処理を実行する。本発明は、さらに、コンピュータプロセッサ、デジタルシグナルプロセッサ、マイクロプロセッサ、または、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）により実行される複数の機能を含む。これらのプロセッサは、本発明により具体化される特定の方法を定義する機械読み取り可能ソフトウェアコード、または、ファームウェアコードを実行することにより、本発明による特定のタスクを実行するように設定される。ソフトウェアコード、または、ファームウェアコードは、異なるプログラミング言語、および、異なるフォーマット、または、スタイルで開発される。ソフトウェアコードは、さらに、異なるターゲットプラットフォームにコンパイルされる。しかし、本発明によるタスクを実行するソフトウェアコードの異なるコードフォーマット、スタイル、および、言語、および、設定コードのその他の手段は、本発明の精神を逸脱しない。

本発明では好ましい実施例を前述の通り開示したが、これらは決して本発明に限定するものではなく、当該技術を熟知する者なら誰でも、本発明の精神と領域を脱しない範囲内で各種の変動や潤色を加えることができ、従って本発明の保護範囲は、特許請求の範囲で指定した内容を基準とする。

Claims

三次元、または、マルチビュービデオ符号化、または、復号化の方法であって、前記方法は、
リファレンスビュー中のリファレンス画像を受信する工程と、
従属ビュー中の現在のテクスチャブロックに関連する入力データを受信する工程と、
関連する深さブロックを用いて、前記現在のテクスチャブロックを、前記リファレンス画像にバックワードワーピングすることにより、ビュー合成予測（ＶＳＰ）データを、前記現在のテクスチャブロックに生成する工程と、
前記ＶＳＰデータを用いて、前記現在のテクスチャブロックを符号化、または、復号化する工程、および、
前記現在のテクスチャブロックから継承される動き情報に基づいて、非ＶＳＰビュー間予測を用いて、前記従属ビュー中の対応する深さブロックを符号化、または、復号化し、前記対応する深さブロックが、前記現在のテクスチャブロックと配列される工程、
を有することを特徴とする方法。
前記関連する深さブロックは、前記現在のテクスチャブロックの位置、および、選択された視差ベクトル（ＤＶ）にしたがって、前記従属ビュー中のリファレンス奥行きマップから設置されることを特徴とする請求項１に記載の方法。
前記選択されたＤＶは、ＮＢＤＶプロセス（隣接ブロックの視差ベクトルプロセス）を用いて導出され、前記選択されたＤＶは、前記現在のテクスチャブロックの一組の隣接ブロックから、第一有効ＤＶに基づいて選択されることを特徴とする請求項２に記載の方法。
前記選択されたＤＶは、ＤｏＮＢＤＶプロセス（深さ指向性隣接ブロックの視差ベクトルプロセス）を用いて導出され、導出されたＤＶは、前記現在のテクスチャブロックの一組の隣接ブロックから、第一有効ＤＶに基づいて選択され、選択された深さブロックは、導出されたＤＶ、および、前記現在のテクスチャブロックの前記位置にしたがって、前記リファレンス奥行きマップから設置され、前記選択されたＤＶは、前記選択された深さブロックの最大値から導出されることを特徴とする請求項２に記載の方法。
前記選択されたＤＶの選択プロセスは、シーケンスレベル、ピクチャレベル、スライスレベル、ＬＣＵレベル（最大符号化ユニットレベル）、ＣＵレベル（符号化ユニットレベル）、ＰＵレベル（予測単位レベル）、マクロブロックレベル、または、サブブロックレベルで、適応的に決定されることを特徴とする請求項２に記載の方法。
構文要素が用いられて、前記選択されたプロセスを前記選択されたＤＶに示すことを特徴とする請求項５に記載の方法。
前記選択されたＤＶの前記選択プロセスは、黙示的に、符号器側、および、復号器側で決定されることを特徴とする請求項５に記載の方法。
前記現在のテクスチャブロックは、テクスチャサブブロックに分割され、各サブブロックは、前記関連する深さブロックを用いて、前記各テクスチャサブブロックを前記リファレンス画像にバックワードワーピングすることにより生成されるサブブロックＶＳＰデータにより予測されることを特徴とする請求項１に記載の方法。
前記現在のテクスチャブロックは予測単位（ＰＵ）に対応することを特徴とする請求項１に記載の方法。
導出されたＤＶは、前記現在のテクスチャブロックの一組の隣接ブロックから、第一有効ＤＶに基づいて選択され、選択された深さブロックは、導出されたＤＶ、および、前記現在のテクスチャブロックの前記位置にしたがって、前記リファレンスビュー中のリファレンス奥行きマップから設置され、正確なＤＶは、前記選択された深さブロックの最大値から導出され、前記正確なＤＶ、および、前記現在のテクスチャブロックの前記位置が用いられて、前記リファレンス奥行きマップから、正確な深さブロックを設置し、ビュー間マージ候補を導出することを特徴とする請求項１に記載の方法。
モーションパラメータ継承（ＭＰＩ）モードが選択されて、前記対応する深さブロックを符号化するとき、前記現在のテクスチャブロックから継承される動き情報に基づいて、非ＶＳＰビュー間予測を用いて、前記対応する深さブロックを符号化、または、復号化することを特徴とする請求項１に記載の方法。
三次元、または、マルチビュービデオ符号化、または、復号化の装置であって、前記装置は、ひとつ以上の電子回路を有し、前記ひとつ以上の電子回路が、
リファレンスユー中のリファレンス画像を受信し、
従属ビュー中の現在のテクスチャブロックに関連する入力データを受信し、
関連する深さブロックを用いて、前記現在のテクスチャブロックを前記リファレンス画像にバックワードワーピングすることにより、ビュー合成予測（ＶＳＰ）データを前記現在のテクスチャブロックに生成し、
前記ＶＳＰデータを用いて、前記現在のテクスチャブロックを符号化、または、復号化し、
非ＶＳＰビュー間予測を用いて、前記現在のテクスチャブロックから継承される動き情報に基づいて、前記従属ビュー中の対応する深さブロックを符号化、または、復号化し、前記対応する深さブロックは、前記現在のテクスチャブロックと配列されるように設定されることを特徴とする装置。
前記関連する深さブロックは、前記現在のテクスチャブロックの位置、および、選択された視差ベクトル（ＤＶ）にしたがって、前記従属ビュー中のリファレンス奥行きマップから設置されることを特徴とする請求項１２に記載の装置。
前記選択されたＤＶは、ＮＢＤＶプロセス（隣接ブロックの視差ベクトルプロセス）を用いて導出され、前記選択されたＤＶは、前記現在のテクスチャブロックの一組の隣接ブロックから、第一有効ＤＶに基づいて選択されることを特徴とする請求項１３に記載の装置。
導出されたＤＶは、前記現在のテクスチャブロックの一組の隣接ブロックから、第一有効ＤＶに基づいて選択され、選択された深さブロックは、導出されたＤＶ、および、前記現在のテクスチャブロックの前記位置にしたがって、前記リファレンスビュー中のリファレンス奥行きマップから設置され、正確なＤＶは、前記選択された深さブロックの最大値から導出され、前記正確なＤＶ、および、前記現在のテクスチャブロックの位置が用いられて、前記リファレンス奥行きマップから正確な深さブロックが設置されて、ビュー間マージ候補を導出することを特徴とする請求項１２に記載の装置。
三次元、または、マルチビュービデオ符号化、または、復号化の方法であって、前記方法は、
リファレンスビュー中のリファレンス画像を受信する工程と、
従属ビュー中で、第一テクスチャブロックと第二テクスチャブロックに関連する入力データを受信する工程と、
前記第一テクスチャブロックの一組の隣接ブロックから、第一視差ベクトル（ＤＶ）を導出する工程と、
前記第一ＤＶ、および、前記第一テクスチャブロックの位置にしたがって、前記リファレンスビュー中のリファレンス奥行きマップから、第一深さブロックを設置する工程と、
前記第一深さブロックを用いて、前記第一テクスチャブロックを前記リファレンス画像にバックワードワーピングすることにより、前記第一テクスチャブロックのビュー合成予測（ＶＳＰ）データを生成する工程と、
前記ＶＳＰデータを用いて、前記第一テクスチャブロックを符号化、または、復号化する工程と、
前記第二テクスチャブロックの一組の隣接ブロックから導出される第二ＤＶに従って設置された第二深さブロックの最大値から、正確なＤＶを導出する工程と、
前記正確なＤＶ、および、前記第二テクスチャブロックの位置を用いて、ビュー間マージ候補を導出して、前記リファレンス奥行きマップから正確な深さブロックを設置する工程、および、
前記ビュー間マージ候補を用いて、前記第二テクスチャブロックを符号化、または、復号化する工程、
を有することを特徴とする方法。