JP2009513074A

JP2009513074A - スケーラブル映像符号化を用いた多視点映像符号化

Info

Publication number: JP2009513074A
Application number: JP2008536753A
Authority: JP
Inventors: ペンイン; ゴミラクリスティーナ; イエピンスー
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2005-10-19
Filing date: 2006-10-17
Publication date: 2009-03-26
Anticipated expiration: 2026-10-17
Also published as: WO2007047736A3; KR101475527B1; KR20080063323A; CN101292538A; WO2007047736A2; US9131247B2; BRPI0616745A2; EP1946563A2; US20100165077A1; CN101292538B; JP5587552B2; MY159176A

Abstract

スケーラブル映像符号化を用いた立体視映像符号化の方法および装置が提供される。スケーラブル映像符号化器が、多視点映像コンテンツに対応する少なくとも２つの視点画像を符号化する符号化器（１００）を含み、この符号化は、その少なくとも２つの視点画像のうちの特定の視点画像を基本レイヤとして符号化することと、その少なくとも２つの視点画像のうちの少なくとも１つのその他の視点画像のそれぞれを拡張レイヤとして符号化することと、によって行われ、その拡張レイヤとしての符号化は、その特定の視点画像およびその少なくとも１つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用いて行われる。その少なくとも２つの視点画像は、時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化される。

Description

本発明は、主として、映像の符号化および復号に関し、特にスケーラブル映像符号化を用いた多視点映像符号化（ＭＶＣ）の方法および装置に関する。

三次元（３Ｄ）映像とも呼ばれる立体視映像は、表示画像について錯覚により奥行き感を形成する。奥行き感を形成する一つの方法は、両方の目が両眼視で自然に受け取る遠近感と同様の遠近感を形成し、各々同じ物体の２つの視点からの像を表している、２つの異なる二次元（２Ｄ）画像を表示することである。

高画質の立体視ディスプレイが市場に多数登場してきたことに伴って、符号化効率にすぐれ、複雑な符号化さほど必要ない、立体視映像の圧縮解法の提供が望まれている。

近年においては、立体視映像を圧縮する効率的な方法を設計する取り組みが数多くなされている。もちろん、従来の平面視についての圧縮方法を、立体視画像対の左右の視点画像（ｖｉｅｗ）に独立に適用することは可能である。しかしながら、視点画像間に高い相関があることを活用すれば、より高い圧縮率を達成することが可能である。

立体視画像対の両視点画像を符号化する先行する技術の取り組みに関しては、ＩＳＯ／ＩＥＣ（International Organization for Standardization/International Electrotechnical Commission）のＭＰＥＧ−２（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ−２）規格において、映像信号の対を送信するためのマルチビュープロファイル（ＭＶＰ）が定義されている。ＭＶＰは、一方の視点画像（たいていは左視点画像）が基本レイヤに割り当てられ、他方の視点画像が拡張レイヤに割り当てられるマルチレイヤによる信号表現手法を用いる。基本レイヤには、メインプロファイル（ＭＰ）と同じツールによる平面視符号化が適用される。拡張レイヤは、時間スケーラビリティツール、および動きフィールドとディスパリティ（ｄｉｓｐａｒｉｔｙ）フィールドとの複合予測を用いて符号化される。

ＩＳＯ／ＩＥＣ（ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ／ＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ）のＭＰＥＧ−４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ−４）のＰａｒｔ１０ＡＶＣ（ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ）規格／ＩＴＵ−Ｔ（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎのＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＳｅｃｔｏｒ）のＨ．２６４規格（以下、「ＭＰＥＧ４／Ｈ．２６４規格」または簡単に「Ｈ．２６４規格」）に関連する先行技術の方法においては、立体視映像符号化は、次の２つの異なる方法で実施することが可能である。すなわち、（i）インターレース画像符号化の特殊なケースとして、特定パリティのすべてのフィールドを左視点画像に割り当て、その反対のパリティのすべてのフィールドを、立体視画像コンテンツの右視点画像と見なす。あるいは、これに代えて、（ii）左視点画像および右視点画像からのフレームを交互に入れ替えて、単一の平面視映像シーケンスを形成する。符号化映像シーケンスが立体視コンテンツを表しているかどうか、およびそれに対応するコンテンツを符号化するためにどの方法が用いられたかについての通知が、立体視のＳＥＩ（補助拡張情報（ｓｕｐｐｌｅｍｅｎｔａｌｅｎｈａｎｃｅｍｅｎｔｉｎｆｏｒｍａｔｉｏｎ））メッセージによって復号器に提供される。

これらの以前から知られている方法は、既存の平面視符号化技術をほんのわずか修正するだけでよい。しかしながら、これらの方法により立体視画像対の２つの視点画像の間に存在する冗長性を減らすには、限界がある。このため最終的には、この立体視画像の符号化は、単一の平面視画像の符号化に比べて、オーバヘッドが大きくなる。この問題があるために、伝送帯域幅が限られている家庭用アプリケーションへの立体視画像の普及は進んでいない。

その他の先行技術に示される方法として、一方の視点画像と何らかの「追加３Ｄ情報」とで符号化を行う方法がある。この方法は、立体視コンテンツを符号化するための、より一般的かつシンプルなアプローチであって、１つの単一視点画像と、受け手側で立体視画像対のもう一方の視点の画像を描画することができる、何らかの追加３Ｄ情報とを符号化するものである。従来、送信される３Ｄ情報は、奥行きマップおよび／またはパリティマップで表される。奥行きマップには、各画素に奥行き値が割り当てられた、３Ｄシーンの２Ｄ画像表現が含まれる。画素値の差が、３Ｄシーンの奥行きの差に対応する。奥行きデータは、輝度チャネルのみの映像ストリームとして符号化されることが多い。

ＭＰＥＧ−４Ｐａｒｔ２においては、映像オブジェクトシンタックスは、いわゆるＭＡＣ（複数の補助成分（ｍｕｌｔｉｐｌｅａｕｘｉｌｉａｒｙｃｏｍｐｏｎｅｎｔｓ））を含み、これらは、動き補償ＤＣＴによりグレーレベル画像として符号化される。映像オブジェクトの動きベクトルが、その補助成分の動き補償に用いられる。この補助成分は、１つには、奥行きマップデータまたはディスパリティマップデータを符号化する点で有用である。しかしながら、補助成分は、映像オブジェクトの輝度成分と同じサイズでなければならないという制約がある。上記の方法は、ＭＰＥＧ−２ＭＶＰより性能が良好である。しかしながら、ＭＰＥＧ−４Ｐａｒｔ２規格は、産業界への導入に成功していない。これは、ＭＰＥＧ−４ｐａｒｔ１０の符号化利得がすぐれていることと、提案されているオブジェクト指向符号化方法が非常に複雑であることとが原因である。

先行技術の以上およびその他の欠点および不利な点は、本発明によって対処されるが、本発明の対象は、スケーラブル映像符号化を用いた多視点映像符号化（ＭＶＣ）の方法および装置である。

本原理の一態様によれば、スケーラブル映像符号化器が提供される。本スケーラブル映像符号化器は、多視点映像コンテンツに対応する少なくとも２つの視点画像を符号化する符号化器を含み、この符号化は、その少なくとも２つの視点画像のうちの特定の視点画像を基本レイヤとして符号化することと、その少なくとも２つの視点画像のうちの少なくとも１つのその他の視点画像のそれぞれを拡張レイヤとして符号化することと、によって行われ、その拡張レイヤとしての符号化は、その特定の視点画像およびその少なくとも１つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用いて行われる。その少なくとも２つの視点画像は、時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化される。

本原理の別の態様によれば、スケーラブル映像符号化の方法が提供される。本方法は、多視点映像コンテンツに対応する少なくとも２つの視点画像を符号化することを含み、この符号化は、その少なくとも２つの視点画像のうちの特定の視点画像を基本レイヤとして符号化することと、その少なくとも２つの視点画像のうちの少なくとも１つのその他の視点画像のそれぞれを拡張レイヤとして符号化することと、によって行われ、その拡張レイヤとしての符号化は、その特定の視点画像およびその少なくとも１つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用いて行われる。その少なくとも２つの視点画像は、時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化される。

本原理のさらに別の態様によれば、スケーラブル映像復号のためのスケーラブル映像復号器が提供される。本スケーラブル映像復号器は、多視点映像コンテンツに対応する少なくとも２つの視点画像を復号する復号器を含み、この復号は、その少なくとも２つの視点画像のうちの特定の視点画像を基本レイヤとして復号することと、その少なくとも２つの視点画像のうちの少なくとも１つのその他の視点画像のそれぞれを拡張レイヤとして復号することと、によって行われ、その拡張レイヤとしての復号は、その特定の視点画像およびその少なくとも１つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用いて行われる。その少なくとも２つの視点画像は、時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて復号される。

本原理のさらに別の態様によれば、スケーラブル映像復号の方法が提供される。本方法は、多視点映像コンテンツに対応する少なくとも２つの視点画像を復号することを含み、この復号は、その少なくとも２つの視点画像のうちの特定の視点画像を基本レイヤとして復号することと、その少なくとも２つの視点画像のうちの少なくとも１つのその他の視点画像のそれぞれを拡張レイヤとして復号することと、によって行われ、その拡張レイヤとしての復号は、その特定の視点画像およびその少なくとも１つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用いて行われる。その少なくとも２つの視点画像は、時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて復号される。

本原理のさらなる態様によれば、スケーラブル映像符号化のための映像信号形式が提供される。本映像信号形式は、少なくとも２つの視点画像のうちの、基本レイヤとして符号化される特定の視点画像と、その少なくとも２つの視点画像のうちの、拡張レイヤとして符号化される少なくとも１つのその他の視点画像とを含み、その拡張レイヤとしての符号化は、その特定の視点画像およびその少なくとも１つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用いて行われる。その少なくとも２つの視点画像は、多視点映像コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化される。

本原理の、なおさらなる態様によれば、スケーラブル映像信号データが符号化される記憶媒体が提供される。本スケーラブル映像信号データは、少なくとも２つの視点画像のうちの、基本レイヤとして符号化される特定の視点画像と、その少なくとも２つの視点画像のうちの、拡張レイヤとして符号化される少なくとも１つのその他の視点画像とを含み、その拡張レイヤとしての符号化は、その特定の視点画像およびその少なくとも１つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用いて行われる。その少なくとも２つの視点画像は、多視点映像コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化される。

本原理の追加の態様によれば、スケーラブル映像符号化器が提供される。本スケーラブル映像符号化器は、第１の立体視視点画像を基本レイヤとして符号化し、第１の立体視視点画像からの予測を用いて、奥行きマップおよびディスパリティマップのうちの少なくとも一方を拡張レイヤとして符号化する符号化器を含む。第１の立体視視点画像と、奥行きマップおよびディスパリティマップのうちの少なくとも一方とが、それぞれ、特定の立体視コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化される。

本原理の別の態様によれば、スケーラブル映像符号化の方法が提供される。本方法は、第１の立体視視点画像を基本レイヤとして符号化することと、第１の立体視視点画像からの予測を用いて、奥行きマップおよびディスパリティマップのうちの少なくとも一方を拡張レイヤとして符号化することとを含む。第１の立体視視点画像と、奥行きマップおよびディスパリティマップのうちの少なくとも一方とが、それぞれ、特定の立体視コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化される。

本原理のさらに別の態様によれば、スケーラブル映像復号器が提供される。本スケーラブル映像復号器は、第１の立体視視点画像を基本レイヤから復号し、第１の立体視視点画像からの予測を用いて、奥行きマップおよびディスパリティマップのうちの少なくとも一方を拡張レイヤから復号する復号器を含む。第１の立体視視点画像と、奥行きマップおよびディスパリティマップのうちの少なくとも一方とが、それぞれ、特定の立体視コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて復号される。

本原理のさらに別の態様によれば、スケーラブル映像復号の方法が提供される。本方法は、第１の立体視視点画像を基本レイヤから復号することと、第１の立体視視点画像からの予測を用いて、奥行きマップおよびディスパリティマップのうちの少なくとも一方を拡張レイヤから復号することとを含む。第１の立体視視点画像と、奥行きマップおよびディスパリティマップのうちの少なくとも一方とが、それぞれ、特定の立体視コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて復号される。

本原理のなおさらなる態様によれば、スケーラブル映像符号化のための映像信号形式が提供される。本映像信号形式は、基本レイヤとして符号化される第１の立体視視点画像と、第１の立体視視点画像からの予測を可能にするために、拡張レイヤとして符号化される、奥行きマップおよびディスパリティマップのうちの少なくとも一方とを含む。第１の立体視視点画像と、奥行きマップおよびディスパリティマップのうちの少なくとも一方とが、それぞれ、特定の立体視コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化される。

本原理の追加の態様によれば、スケーラブル映像信号データが符号化される記憶媒体が提供される。本スケーラブル映像信号データは、基本レイヤとして符号化される第１の立体視視点画像と、第１の立体視視点画像からの予測を可能にするために、拡張レイヤとして符号化される、奥行きマップおよびディスパリティマップのうちの少なくとも一方とを含む。第１の立体視視点画像と、奥行きマップおよびディスパリティマップのうちの少なくとも一方とが、それぞれ、特定の立体視コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化される。

本発明の以上およびその他の態様、特徴、および利点は、添付図面と関連して読まれるべき、以下の、例示的な実施形態の詳細説明から明らかになるであろう。

本発明は、添付の例示的図面を参照することにより、よりよく理解されるであろう。

本発明の対象は、スケーラブル映像符号化を用いた多視点映像符号化（ＭＶＣ）の方法および装置である。以下では、説明を目的に、立体視（２視点）映像コンテンツに関する、本発明の例示的な実施形態について記載する。しかしながら、当業者であれば、本明細書において提供される本原理の示唆に基づいて、本発明の範囲から逸脱することなく、本原理を、２つ以上の視点に対応する多視点映像コンテンツに容易に拡張することが可能であろう。

本明細書は、本発明の原理を例示的に説明するものである。したがって、当業者であれば、本明細書に明示的に記載または図示されていなくても本発明の原理を実施する、本発明の趣旨および範囲から逸脱しない様々な構成を考案することが可能であることを理解されたい。

本明細書に説明されるすべての例および条件付言語は、本願発明者によって本技術分野の発展に寄与されている本発明の原理および概念を読み手が理解することを支援する教示的目的を意図しており、そのように具体的に説明される例および条件に限定されないものとして解釈されなければならない。

さらに、本明細書において、本発明の原理、態様、および実施形態、ならびにそれらの具体例を説明するすべての記載は、それらの構造的均等物ならびに機能的均等物を包含するものとする。さらに、そのような均等物は、現在知られている均等物および将来開発される均等物（すなわち、構造に関係なく同じ機能を実現するように開発される任意の要素）を含むものとする。

したがって、たとえば、当業者であれば理解されるように、本明細書で提示されるブロック図は、本発明の原理を実施する例示的回路の概念図を表す。同様に、すべてのフローチャート、フロー図、状態遷移図、擬似コードなどは、コンピュータ読取可能な媒体で実質的に表すことが可能であり、したがって、コンピュータまたはプロセッサによって（そのようなコンピュータまたはプロセッサが明示的に示されているかどうかに関係なく）実行されることが可能な、種々のプロセスを表すことを理解されたい。

図面に示す各種要素の機能は、専用ハードウェア、ならびに適切なソフトウェアについて、ソフトウェアを実行することが可能なハードウェアを使用することによって提供することが可能である。これらの機能は、プロセッサによって提供される場合には、単一の専用プロセッサ、単一の共用プロセッサ、またはいくつかが共用可能である複数の個別プロセッサによって提供することが可能である。さらに、「プロセッサ」または「コントローラ」という用語を明示的に使用するが、これをソフトウェアを実行することが可能なハードウェアだけを指すと解釈するものではなく、デジタル信号プロセッサ（「ＤＳＰ」）ハードウェア、ソフトウェアを格納する読み出し専用メモリ（「ＲＯＭ」）、ランダムアクセスメモリ（「ＲＡＭ」）、および不揮発性ストレージを、限定ではなく、暗黙的に含むことが可能である。

他の（従来の、かつ／またはカスタムの）ハードウェアも含まれてよい。同様に、図面に示されているすべてのスイッチは、概念上のものに過ぎない。それらの機能は、プログラムロジック、専用ロジック、プログラム制御と専用ロジックとの対話などによる動作、または手動で実施することが可能であり、その具体的な手法は、本明細書の文脈からより具体的に理解されるように、実装者により選択可能である。

本明細書の特許請求項においては、指定された機能を実施する手段として表現された要素はすべて、その機能を実施するあらゆる手段を包含するものとし、そのような手段としては、たとえば、ａ）その機能を実施する回路要素の組み合わせ、またはｂ）その機能を実施するソフトウェアを実行するために適切な回路と組み合わされた任意の形態（したがって、ファームウェア、マイクロコードなどを含む形態）のソフトウェアがある。そのような請求項によって定義される本発明は、説明される種々の手段によって提供される各機能が、特許請求項の求める様式で組み合わされ、まとめられるという事実にある。したがって、それらの機能を提供しうる手段はすべて、本明細書で示される手段と等価であると見なされる。

図１は、全体が参照符号１００で示される、本発明を適用することが可能な例示的ＪｏｉｎｔＳｃａｌａｂｌｅＶｉｄｅｏＭｏｄｅｌＶｅｒｓｉｏｎ３．０（以下、「ＪＳＶＭ３．０」）符号化器を示す。ＪＳＶＭ３．０符号化器１００は、３つの空間レイヤと、動き補償時間フィルタリング（ｍｏｔｉｏｎｃｏｍｐｅｎｓａｔｅｄｔｅｍｐｏｒａｌｆｉｌｔｅｒｉｎｇ）とを用いる。ＪＳＶＭ符号化器１００は、二次元（２Ｄ）デシメータ１０４と、２Ｄデシメータ１０６と、動き補償時間フィルタリング（ＭＣＴＦ）モジュール１０８とを備え、これらのそれぞれが、映像信号データ１０２を受け取る入力を有する。

２Ｄデシメータ１０６の出力が、信号通信でＭＣＴＦモジュール１１０の入力に接続されている。ＭＣＴＦモジュール１１０の第１の出力が、信号通信で動き符号化器１１２の入力に接続され、ＭＣＴＦモジュール１１０の第２の出力が、信号通信で予測モジュール１１６の入力に接続されている。動き符号化器１１２の第１の出力が、信号通信で多重化器１１４の第１の入力に接続されている。動き符号化器１１２の第２の出力が、信号通信で動き符号化器１２４の第１の入力に接続されている。予測モジュール１１６の第１の出力が、信号通信で空間変換器１１８の入力に接続されている。空間変換器１１８の出力が、信号通信で多重化器１１４の第２の入力に接続されている。予測モジュール１１６の第２の出力が、信号通信で補間器１２０の入力に接続されている。補間器の出力が、信号通信で予測モジュール１２２の第１の入力に接続されている。予測モジュール１２２の第１の出力が、信号通信で空間変換器１２６の入力に接続されている。空間変換器１２６の出力が、信号通信で多重化器１１４の第２の入力に接続されている。予測モジュール１２２の第２の出力が、信号通信で補間器１３０の入力に接続されている。補間器１３０の出力が、信号通信で予測モジュール１３４の第１の入力に接続されている。予測モジュール１３４の出力が、信号通信で空間変換器１３６に接続されている。空間変換器１３６の出力が、信号通信で多重化器１１４の第２の入力に接続されている。

２Ｄデシメータ１０４の出力が、信号通信でＭＣＴＦモジュール１２８の入力に接続されている。ＭＣＴＦモジュール１２８の第１の出力が、信号通信で動き符号化器１２４の第２の入力に接続されている。動き符号化器１２４の第１の出力が、信号通信で多重化器１１４の第１の入力に接続されている。動き符号化器１２４の第２の出力が、信号通信で動き符号化器１３２の第１の入力に接続されている。ＭＣＴＦモジュール１２８の第２の出力が、信号通信で予測モジュール１２２の第２の入力に接続されている。

ＭＣＴＦモジュール１０８の第１の出力が、信号通信で動き符号化器１３２の第２の入力に接続されている。動き符号化器１３２の出力が、信号通信で多重化器１１４の第１の入力に接続されている。ＭＣＴＦモジュール１０８の第２の出力が、信号通信で予測モジュール１３４の第２の入力に接続されている。多重化器１１４の出力が、出力ビットストリーム１３８を提供する。

各空間レイヤに対して、動き補償の時間分解が実行される。この分解は、時間スケーラビリティを提供する。下位空間レイヤからの動き情報を、上位レイヤにおける動きの予測に用いることが可能である。テクスチャ符号化の場合は、連続する空間レイヤ間の空間予測を適用して冗長性を除去することが可能である。イントラ予測または動き補償インター予測から得られる残差信号は、変換符号化されている。基本画質レイヤ（ｑｕａｌｉｔｙｂａｓｅｌａｙｅｒ）の残差により、各空間レイヤにおける最低限の再構成画質が与えられる。この基本画質レイヤは、インターレイヤ予測が適用されていない場合には、Ｈ．２６４規格準拠のストリームに符号化することが可能である。画質スケーラビリティのために、画質拡張レイヤ（ｑｕａｌｉｔｙｅｎｈａｎｃｅｍｅｎｔｌａｙｅｒ）を追加で符号化することが可能である。これらの画質拡張レイヤは、粗粒性（ｃｏａｒｓｅ）または細粒性（ｆｉｎｅｇｒａｉｎ）画質（ＳＮＲ）スケーラビリティを与えるために選択することが可能である。

図２は、全体が参照符号２００で示される、本発明を適用することが可能な例示的スケーラブル映像復号器を示す。多重分離器２０２の入力が、スケーラブルビットストリームを受け取る、スケーラブル映像復号器２００の入力として利用可能である。多重分離器２０２の第１の出力が、信号通信で空間逆変換ＳＮＲスケーラブルエントロピー復号器２０４の入力に接続されている。空間逆変換ＳＮＲスケーラブルエントロピー復号器２０４の第１の出力が、信号通信で予測モジュール２０６の第１の入力に接続されている。予測モジュール２０６の出力が、信号通信で逆ＭＣＴＦモジュール２０８の第１の入力に接続されている。

空間逆変換ＳＮＲスケーラブルエントロピー復号器２０４の第２の出力が、信号通信で動きベクトル（ＭＶ）復号器２１０の第１の入力に接続されている。ＭＶ復号器２１０の出力が、信号通信で逆ＭＣＴＦモジュール２０８の第２の入力に接続されている。

多重分離器２０２の第２の出力が、信号通信で空間逆変換ＳＮＲスケーラブルエントロピー復号器２１２の入力に接続されている。空間逆変換ＳＮＲスケーラブルエントロピー復号器２１２の第１の出力が、信号通信で予測モジュール２１４の第１の入力に接続されている。予測モジュール２１４の第１の出力が、信号通信で補間モジュール２１６の入力に接続されている。補間モジュール２１６の出力が、信号通信で予測モジュール２０６の第２の入力に接続されている。予測モジュール２１４の第２の出力が、信号通信で逆ＭＣＴＦモジュール２１８の第１の入力に接続されている。

空間逆変換ＳＮＲスケーラブルエントロピー復号器２１２の第２の出力が、信号通信でＭＶ復号器２２０の第１の入力に接続されている。ＭＶ復号器２２０の第１の出力が、信号通信でＭＶ復号器２１０の第２の入力に接続されている。ＭＶ復号器２２０の第２の出力が、信号通信で逆ＭＣＴＦモジュール２１８の第２の入力に接続されている。

多重分離器２０２の第３の出力が、信号通信で空間逆変換ＳＮＲスケーラブルエントロピー復号器２２２の入力に接続されている。空間逆変換ＳＮＲスケーラブルエントロピー復号器２２２の第１の出力が、信号通信で予測モジュール２２４の入力に接続されている。予測モジュール２２４の第１の出力が、信号通信で補間モジュール２２６の入力に接続されている。補間モジュール２２６の出力が、信号通信で予測モジュール２１４の第２の入力に接続されている。

予測モジュール２２４の第２の出力が、信号通信で逆ＭＣＴＦモジュール２２８の第１の入力に接続されている。空間逆変換ＳＮＲスケーラブルエントロピー復号器２２２の第２の出力が、信号通信でＭＶ復号器２３０の入力に接続されている。ＭＶ復号器２３０の第１の出力が、信号通信でＭＶ復号器２２０の第２の入力に接続されている。ＭＶ復号器２３０の第２の出力が、信号通信で逆ＭＣＴＦモジュール２２８の第２の入力に接続されている。

逆ＭＣＴＦモジュール２２８の出力は、レイヤ０信号を出力する、復号器２００の出力として利用可能である。逆ＭＣＴＦモジュール２１８の出力は、レイヤ１信号を出力する、復号器２００の出力として利用可能である。逆ＭＣＴＦモジュール２０８の出力は、レイヤ２信号を出力する、復号器２００の出力として利用可能である。

空間スケーラビリティ、時間スケーラビリティ、およびＳＮＲスケーラビリティについては、大きな度合いのインターレイヤ予測が組み込まれている。以前のレイヤの対応する信号を用いて、イントラマクロブロックおよびインターマクロブロックを予測することが可能である。さらに、各レイヤの動き記述を、後続の画質拡張レイヤの動き記述の予測に用いることが可能である。これらの手法は、インターレイヤイントラテクスチャ予測、インターレイヤ動き予測、およびインターレイヤ残差予測の３つのカテゴリに分けられる。

本願発明者らは、本原理に従い、Ｈ．２６４規格の修正案として現在開発されているスケーラブル映像符号化（ＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ）（以下、「Ｈ．２６４ＳＶＣ」または単に「ＳＶＣ」とも称する）とともに用いることが可能な、立体視映像を符号化するための２つの例示的な実施形態を開示する。第１の方法によれば、立体視コンテンツは、視点画像対（左右の視点画像、またはこれに代えて第１および第２の立体視視点画像）として、ＳＶＣで符号化される。第２の方法によれば立体視コンテンツは、一方の視点画像および奥行き／パリティマップとして、ＳＶＣで符号化される。２つの例示的な実施形態の各方法には、立体視映像符号化にＳＶＣビットストリームが用いられていることを示すために、新しいメッセージ、インジケータなど（たとえば、補助拡張情報（ＳＥＩ）メッセージ）が用いられる。

本明細書では、本原理の実施形態をＨ．２６４ＳＶＣに関して説明しているが、当業者であれば理解されるように、本原理は、そのようには限定されず、本原理の範囲から逸脱することなく、（たとえば、ＭＰＥＧ−２を含む各種ＭＰＥＧ規格を含み、これに限定されない）他の映像符号化規格にも容易に適用することが可能であることを理解されたい。

第１の例示的な実施形態によれば、立体視画像対の両視点画像をスケーラブル映像符号化方式で符号化することが、第１の視点画像を基本レイヤとして符号化し、第２の視点画像を拡張レイヤにおいて符号化することによって実行される。本原理とＭＰＥＧ−２ＭＶＰ方式との大きな違いとして、本原理では、２つの視点画像は、時間スケーラビリティのみを用いて符号化する必要はない。したがって、本原理によれば、立体視視点画像は、個々の用途の要件に対して可能な要求および効率に応じて、時間スケーラビリティ、空間スケーラビリティ、またはＳＮＲスケーラビリティとして符号化（および、したがって、後で復号）されることが可能である。たとえば、符号化効率を最大にすることが必要な場合は、時間スケーラビリティがより好適である。２つの視点画像の空間分解能／画質が異なることが利点になりうる用途の場合は、空間／ＳＮＲスケーラビリティがより好適である。

非立体視ディスプレイを、拡張レイヤを復号することなく映像を復号できるようにするために、かつ視点画像が異なれば分解能が異なるようにすることを可能にするために、本願発明者らは、空間スケーラビリティ用途については、第１の例示的な実施形態の一例示的な態様において、１以下のスケーリング係数を使用することを提案する。

取り込まれた立体視映像では、異なるカメラ視点の間で照度や色の不一致がよく見られる。そのような望ましくない不一致の、考えられる原因として、カメラの校正不良、光の投射方向の違い、表面反射特性の違いなどがあるが、それらに限定されない。Ｈ．２６４規格で最初に開発された重み付け予測（ＷｅｉｇｈｔｅｄＰｒｅｄｉｃｔｉｏｎ）（ＷＰ）は、２つの視点画像の間のテクスチャ予測が必要な場合に照度／色の違いを補償する効果的なツールである。ＷＰは、ＳＶＣで使用可能であるが、同じレイヤまたは時間スケーラビリティしか想定していない。そこで、第１の例示的な実施形態の一例示的な実施態様によれば、時間スケーラビリティについては、第１の例示的な実施形態において第１の視点画像を基本レイヤで符号化し、第２の視点画像を拡張レイヤで符号化することにより、ＳＶＣのＷＰが視点画像間予測の符号化効率を容易に向上させることが可能になる。空間スケーラビリティまたはＳＮＲスケーラビリティについては、本願発明者らは、Ｉｎｔｒａ＿ＢＬモードに対するＷＰサポートの追加、すなわち拡張レイヤのマクロブロックと基本レイヤの重み付きマクロブロックとの間の差を符号化することを提案する。

本明細書に記載の例示的な第１の実施形態をサポートし、どの視点画像が基本レイヤに対応するかを指定する、新しい補助拡張情報（ＳＥＩ）メッセージが提供される。このＳＥＩメッセージを表１に示す。たとえば、ｂａｓｅ＿ｌａｙｅｒ＿ｉｓ＿ｌｅｆｔ＿ｖｉｅｗ＿ｆｌａｇが１であれば、これは、左視点画像が基本レイヤで符号化されていることを示している。逆に、ｂａｓｅ＿ｌａｙｅｒ＿ｉｓ＿ｌｅｆｔ＿ｖｉｅｗ＿ｆｌａｇが０であれば、これは、右視点画像が基本レイヤで符号化されていることを示している。

なお、このメタデータは復号処理には必要でないため、このメタデータを、別のシンタックス仕様に従って帯域外で送信することが可能である。

第２の例示的な実施形態によれば、従来の非立体視ディスプレイを、奥行きマップを復号することなく映像を復号できるようにするために、第１の視点画像を符号化し、奥行きおよび／またはディスパリティマップを拡張レイヤで使用する。用途の要件に応じて、空間スケーラビリティまたはＳＮＲスケーラビリティを適用することが可能である。空間スケーラビリティの場合は、奥行きマップをより低い分解能で符号化することが可能なので、可能な、好ましい一実施形態では、１以下のスケーリング係数を使用する。

第２の例示的な実施形態で使用し、送信されない視点画像のレンダリング処理を支援するために伝達される補助３Ｄメタデータを提供する、新しいＳＥＩメッセージが提供される。特定の実施形態において、送信されるメタデータは、表２に示されるような、２つのパラメータ（Ｎｋｎｅａｒ、Ｎｋｆａｒ）を含むことが可能である。これら２つのパラメータと奥行きマップとにより、正確な画素視差を計算することが可能であり、それによって、視聴者から見て、意図された奥行き効果をディスプレイ上にもたらすことが可能である。

Ｎｋｎｅａｒは、新しくレンダリングされる視点画像と並行する画面を計算するために適用されるべき、１２８に正規化されたｋｎｅａｒ比パラメータを指定する。

Ｎｋｆａｒは、新しくレンダリングされる視点画像と並行する画面を計算するために適用されるべき、３２に正規化されたｋｆａｒ比パラメータを指定する。

なお、このメタデータは復号処理には必要でないため、このメタデータを、別のシンタックス仕様に従って帯域外で送信することが可能であることに留意されたい。

奥行きマップおよび一方の符号化された視点画像（たとえば、左側視点画像）を用いて、他方の送信されない視点画像（たとえば、右側視点画像）を構成する際に生じる、１つの大きな問題は、左視点画像内に閉じ込められた領域が、右視点画像では見えない可能性があることである。このことにより、右視点画像内に穴ができる可能性がある。別の問題は、左視点画像および奥行きマップがロッシー符号化されているため、再構成された右視点画像と元の右視点画像との間に誤差が存在する可能性があることである。送信されない視点画像の画質を向上させるため、追加ＳＮＲレイヤを追加することが可能である。追加ＳＮＲレイヤは、ＳＥＩメッセージと組み合わせる必要があり、それによって、復号器は、その画質向上が、再構成された非符号化視点画像に基づくことを認識する。

なお、現時点の（ＪｏｉｎｔＳｃａｌａｂｌｅＶｉｄｅｏＭｏｄｅｌ３（ＪＳＶＭ３）を用いる）ＳＶＣでは、空間スケーラビリティは、１以上の分解能スケーリングのみを扱うことに留意されたい。本発明によれば、１未満の分解能スケーリングに対応するためインターレイヤ予測が用いられる。

インターレイヤ予測の場合、１未満の分解能スケーリングに対して空間スケーラビリティを扱うためには、（１）混在ブロック処理、（２）マクロブロックタイプマッピング、（３）動きベクトルスケーリング、（４）テクスチャスケーリングの各問題に対処しなければならない。空間分解能トランスコーディングに関連する技術を含む新技術および／または先行技術を用いて、それらの問題に対処することが可能である。

簡潔にするため、ＳＶＣがサポートするスケーリング係数を、２＾（−ｎ）のみとすることが可能である（ただし、ｎ＞０）。図３は、全体が参照符号３００で示される、各次元のスケーリング係数が１／２の場合のＳＶＣ空間スケーラビリティにおけるインターレイヤ予測のための例示的マクロブロックマッピングを示す。そのような例では、拡張レイヤの１マクロブロックが、基本レイヤの４マクロブロックに対応する。それら４個のマクロブロックは別々のイントラ／インターモードを有することが可能であり、ＳＶＣは、１個のマクロブロックにおけるモードの混在を許可しないため、インターレイヤ予測では、どのモードを拡張レイヤのマクロブロックに用いるべきかを決定する必要がある。本願発明者らは、マクロブロックを強制的にインターモードとし、イントラマクロブロックにおける動きベクトル（ＭＶ）および離散コサイン変換（ＤＣＴ）残差をゼロと仮定することを提案する。マクロブロックタイプマッピングについては、ＳＶＣの最小パーティションは４×４であるが、２でダウンスケールすることにより、２×２の小さなパーティションが得られるため、本願発明者らは、２×２パーティションを４個ずつまとめて、１個の４×４パーティションとすることを提案する。各４×４パーティションについてのＭＶは、対応する８×８サブマクロブロックのコーナーのＭＶに設定される。基準ピクチャインデックス（ｒｅｆｅｒｅｎｃｅｐｉｃｔｕｒｅｉｎｄｅｘ）については、４×４パーティションを４個ずつまとめて、１個の８×８パーティションとし、関連付けられたマクロブロックのコーナーのパーティションに基準ピクチャインデックスを割り当てる。動きベクトルスケーリングについては、ＭＶＥ＝（ＭＶＢ＋１）＞＞１であり、ＭＶＥは、拡張レイヤの動きベクトルであり、ＭＶＢは、対応する、基本レイヤの動きベクトルである。残差を伴うテクスチャダウンスケーリングについては、単純な平均手法を用いることが可能である。空間テクスチャについては、単純な平均手法か、ＪＳＶＭで現在用いられているＭＰＥＧ−４ダウンスケーリング機能を用いることが可能である。２＾（−ｎ）のスケーリング係数については、１／２ずつ、（ｎ回）繰り返してスケーリングすることが可能である。

本明細書において用いられる「奥行き／ディスパリティマップ」という用語は、１つ以上の奥行きマップおよび／または１つ以上のディスパリティマップを指すことが想定されていることを理解されたい。

図４および５は、本原理の第１の例示的な実施形態に対応する。

図４は、全体が参照符号４００で示される、立体視コンテンツの立体視視点画像の対を符号化することが可能なスケーラブル映像符号化の方法を示す。方法４００では、開始ブロック４０５から判断ブロック４１０に制御が渡される。判断ブロック４１０では、立体視コンテンツの左視点画像を基本レイヤとして符号化するかどうかを決定する。そのように符号化する場合は、機能ブロック４１５に制御が渡される。そのように符号化しない場合は、機能ブロック４２５に制御が渡される。

機能ブロック４１５では、ｂａｓｅ＿ｌａｙｅｒ＿ｉｓ＿ｌｅｆｔ＿ｖｉｅｗ＿ｆｌａｇを１に設定し、このｂａｓｅ＿ｌａｙｅｒ＿ｉｓ＿ｌｅｆｔ＿ｖｉｅｗ＿ｆｌａｇを補助拡張情報（ＳＥＩ）メッセージに書き込み、機能ブロック４２０に制御を渡す。機能ブロック４２０では、左視点画像を基本レイヤとして符号化し、右視点画像を拡張レイヤとして符号化し、終了ブロック４３５に制御を渡す。

機能ブロック４２５では、ｂａｓｅ＿ｌａｙｅｒ＿ｉｓ＿ｌｅｆｔ＿ｖｉｅｗ＿ｆｌａｇを０に設定し、このｂａｓｅ＿ｌａｙｅｒ＿ｉｓ＿ｌｅｆｔ＿ｖｉｅｗ＿ｆｌａｇをＳＥＩメッセージに書き込み、機能ブロック４３０に制御を渡す。機能ブロック４３０では、右視点画像を基本レイヤとして符号化し、左視点画像を、ＳＮＲスケーラビリティ、空間スケーラビリティ、および／または時間スケーラビリティを用いて、拡張レイヤとして符号化し、終了ブロック４３５に制御を渡す。

図５は、全体が参照符号５００で示される、立体視コンテンツの立体視視点画像の対を復号することが可能なスケーラブル映像復号の方法を示す。方法５００では、開始ブロック５０５から機能ブロック５１０に制御が渡される。機能ブロック５１０では、ＳＥＩメッセージ内のｂａｓｅ＿ｌａｙｅｒ＿ｉｓ＿ｌｅｆｔ＿ｖｉｅｗ＿ｆｌａｇを解析し、判断ブロック５１５に制御を渡す。判断ブロック５１５では、ｂａｓｅ＿ｌａｙｅｒ＿ｉｓ＿ｌｅｆｔ＿ｖｉｅｗ＿ｆｌａｇが１かどうかを決定する。１であれば、機能ブロック５２０に制御が渡される。１でない場合は、機能ブロック５２５に制御が渡される。

機能ブロック５２０では、左視点画像を基本レイヤから復号し、右視点画像を、ＳＮＲスケーラビリティ、空間スケーラビリティ、および／または時間スケーラビリティを用いて、拡張レイヤから復号し、終了ブロック５９９に制御を渡す。

機能ブロック５２５では、右視点画像を基本レイヤから復号し、左視点画像を、ＳＮＲスケーラビリティ、空間スケーラビリティ、および／または時間スケーラビリティを用いて、拡張レイヤから復号し、終了ブロック５９９に制御を渡す。

図６および７は、本原理の第２の例示的な実施形態に対応する。

図６は、全体が参照符号６００で示される、立体視コンテンツの立体視視点画像の対を符号化することが可能なスケーラブル映像符号化の方法を示す。方法６００では、開始ブロック６０５から機能ブロック６１０に制御が渡される。機能ブロック６１０では、立体視コンテンツの一方の視点画像を基本レイヤとして符号化し、その立体視映像に対応する奥行き／ディスパリティマップを、ＳＮＲスケーラビリティ、空間スケーラビリティ、および／または時間スケーラビリティを用いて、拡張レイヤとして符号化し、機能ブロック６１５に制御を渡す。機能ブロック６１５では、奥行きパラメータをＳＥＩメッセージに書き込み、機能ブロック６２０に制御を渡す。機能ブロック６２０では、基本レイヤから再構成された映像と、拡張レイヤから再構成された奥行き／ディスパリティマップと、ＳＥＩメッセージからの奥行きパラメータとを用いて、立体視コンテンツの他方の（符号化されていない）視点画像を再構成し、機能ブロック６２５に制御を渡す。機能ブロック６２５では、再構成された、符号化されていない視点画像に基づいて、追加ＳＮＲレイヤを符号化し、最終ブロック６３０に制御を渡す。

図７は、全体が参照符号７００で示される、立体視コンテンツの立体視視点画像の対を復号することが可能なスケーラブル映像復号の方法を示す。方法７００では、開始ブロック７０５から機能ブロック７１０に制御が渡される。機能ブロック７１０では、立体視コンテンツの一方の立体視視点画像を基本レイヤから復号し、奥行き／ディスパリティマップを、ＳＮＲスケーラビリティ、空間スケーラビリティ、および／または時間スケーラビリティを用いて、拡張レイヤから復号し、機能ブロック７１５に制御を渡す。機能ブロック７１５では、ＳＥＩメッセージからの奥行きメッセージを解析し、機能ブロック７２０に制御を渡す。機能ブロック７２０では、基本レイヤから再構成された映像と、拡張レイヤから再構成された奥行き／ディスパリティマップと、ＳＥＩメッセージからの奥行きパラメータとを用いて、立体視コンテンツの他方の（符号化されていない）立体視視点画像を基本レイヤとして再構成し、機能ブロック７２５に制御を渡す。機能ブロック７２５では、再構成された、符号化されていない視点画像に基づいて、追加ＳＮＲレイヤを復号し、リファインされた、符号化されていない視点画像を形成し、最終ブロック７３０に制御を渡す。

図８は、全体が参照符号８００で示される、拡張レイヤのマクロブロックを符号化するスケーラブル映像符号化方法を示す。方法８００では、開始ブロック８０５から判断ブロック８１０に制御が渡される。判断ブロック８１０では、インターレイヤ予測を用いるかどうかを決定する。用いる場合は、判断ブロック８１５に制御が渡される。用いない場合は、機能ブロック８５５に制御が渡される。

判断ブロック８１５では、インターレイヤイントラテクスチャ予測を用いるかどうかを決定する。用いる場合は、判断ブロック８２０に制御が渡される。用いない場合は、判断ブロック８３０に制御が渡される。

判断ブロック８２０では、重み付け予測を用いるかどうかを決定する。用いる場合は、機能ブロック８２５に制御が渡される。用いない場合は、機能ブロック８４０に制御が渡される。

機能ブロック８２５では、拡張レイヤのマクロブロックと、基本レイヤの、マッピングされたマクロブロックの組からスケーリングされた重み付けマクロブロックとの間の差を符号化し、判断ブロック８３０に制御を渡す。

判断ブロック８３０では、インターレイヤ動きベクトル予測を用いるかどうかを決定する。用いる場合は、機能ブロック８３５に制御が渡される。用いない場合は、判断ブロック８４５に制御が渡される。

機能ブロック８３５では、モードマッピングおよび動きベクトルマッピングを実施し、判断ブロック８４５に制御を渡す。

判断ブロック８４５では、インターレイヤ残差予測を用いるかどうかを決定する。用いる場合は、機能ブロック８５０に制御が渡される。用いない場合は、機能ブロック８５５に制御が渡される。

機能ブロック８５０では、モードマッピングおよび残差マッピングを実施し、機能ブロック８５５に制御を渡す。一実施形態において、機能ブロック８５０は、空間スケーリング係数を２^(-n)に設定することと（ｎは１以上の整数）、少なくともいくつかのブロック（８５０）に対応する残差のテクスチャダウンサンプリングについての平均をとることとを含むことが可能である。

機能ブロック８５５では、マクロブロックを符号化し、終了ブロック８６０に制御を渡す。

機能ブロック８４０では、拡張レイヤのマクロブロックと、基本レイヤの、マッピングされたマクロブロックの組からスケーリングされたマクロブロックとの間の差を符号化し、判断ブロック８３０に制御を渡す。

一実施形態において、機能ブロック８５５は、空間スケーラビリティ手法が選択された場合に、空間スケーリング係数を１以下に制限することを含むことが可能である。

一実施形態において、機能ブロック８３５、８５０、および／または８５５は、たとえば、空間スケーリング係数を２^(-n)に設定することと（ｎは１以上の整数）、基本レイヤから拡張レイヤへの多対１ブロックマッピングを実施することと、基本レイヤの、イントラ予測モードを有するブロックをインター予測モードに変換することと、イントラ予測モードの動きベクトルおよび離散コサイン変換係数を強制的にゼロにすることとを含むことが可能である。

一実施形態において、機能ブロック８３５および／または８５５は、たとえば、拡張レイヤのブロックの動きベクトルを、基本レイヤの、マッピングされたブロックの組の中の対応するマッピングされたブロックのコーナーの、スケーリングされた動きベクトルにマッピングするステップと、拡張レイヤのブロックの基準インデックスを、基本レイヤの、対応するマッピングされたブロックのコーナーの基準インデックスに割り当てるステップ（拡張レイヤのブロックは、基本レイヤの、マッピングされたブロックの組と同じ場所にある）とを含むことが可能である。

一実施形態において、機能ブロック８５０および／または８５５は、空間スケーリング係数を２^(-n)に設定するステップと（ｎは１以上の整数）、残差のテクスチャダウンサンプリングについての平均をとるステップとを含むことが可能である。

図９は、全体が参照符号９００で示される、拡張レイヤのマクロブロックを復号するスケーラブル映像復号方法を示す。方法９００では、開始ブロック９０５から機能ブロック９１０に制御が渡される。機能ブロック９１０では、マクロブロックのシンタックスを解析し、判断ブロック９１５に制御を渡す。判断ブロック９１５では、インターレイヤ予測フラグが１かどうかを決定する。１であれば、判断ブロック９２０に制御が渡される。１でない場合は、機能ブロック９６０に制御が渡される。

判断ブロック９２０では、インターレイヤイントラテクスチャ予測フラグが１かどうかを決定する。１であれば、判断ブロック９２５に制御が渡される。１でない場合は、判断ブロック９３５に制御が渡される。

判断ブロック９２５では、重み付け予測フラグが１かどうかを決定する。１であれば、機能ブロック９３０に制御が渡される。１でない場合は、機能ブロック９４５に制御が渡される。

機能ブロック９３０では、拡張レイヤのマクロブロックと、基本レイヤの、マッピングされたマクロブロックの組からスケーリングされた重み付けマクロブロックとの間の差を復号し、判断ブロック９３５に制御を渡す。

判断ブロック９３５では、インターレイヤ動きベクトル予測フラグが１かどうかを決定する。１であれば、機能ブロック９４０に制御が渡される。１でない場合は、判断ブロック９５０に制御が渡される。

機能ブロック９４０では、モードマッピングおよび動きベクトルマッピングを実施し、判断ブロック９５０に制御を渡す。

判断ブロック９５０では、インターレイヤ残差予測フラグが１かどうかを決定する。１であれば、機能ブロック９５５に制御が渡される。１でない場合は、機能ブロック９６０に制御が渡される。

機能ブロック９５５では、モードマッピングおよび残差マッピングを実施し、機能ブロック９６０に制御を渡す。

機能ブロック９６０では、マクロブロックを復号し、終了ブロック９６５に制御を渡す。

機能ブロック９４５では、拡張レイヤのマクロブロックと、基本レイヤの、マッピングされたマクロブロックの組からスケーリングされたマクロブロックとの間の差を復号し、判断ブロック９３５に制御を渡す。

以下に、本発明に付随する多くの利点／特徴のいくつかについて説明する（いくつかは、既に言及されたものである）。たとえば、１つの利点／特徴は、多視点映像コンテンツに対応する少なくとも２つの視点画像を符号化する符号化器を含むスケーラブル映像符号化器であり、この符号化は、その少なくとも２つの視点画像のうちの特定の視点画像を基本レイヤとして符号化すること、およびその少なくとも２つの視点画像のうちの少なくとも１つのその他の視点画像のそれぞれを拡張レイヤとして符号化することによって行われ、その拡張レイヤとしての符号化は、その特定の視点画像およびその少なくとも１つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用いて行われる。その少なくとも２つの視点画像は、時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化される。

別の利点／特徴として、上述のスケーラブル映像符号化器では、基本レイヤおよび拡張レイヤは、映像ビットストリームに含まれ、符号化器は、その映像ビットストリームを伝達するメッセージにインジケータを追加する。このインジケータは、映像ビットストリームが多視点映像信号を含むことを伝えるものである。

さらに別の利点／特徴として、上述のように本スケーラブル映像符号化器がインジケータを追加するメッセージは、補助拡張情報（ＳＥＩ）メッセージである。

さらに別の利点／特徴として、上述のように本スケーラブル映像符号化器がインジケータを追加するメッセージは、帯域外で送信される。

さらに別の利点／特徴として、上述のように本スケーラブル映像符号化器がメッセージに追加するインジケータは、メタデータとして提供される。

さらに別の利点／特徴として、上述のように本スケーラブル映像符号化器がメッセージに追加するインジケータは、特定の視点画像または少なくとも１つのその他の視点画像のうちの一方を、基本レイヤまたは拡張レイヤのうちの一方で符号化されているものと指定する。

さらに別の利点／特徴として、上述の本スケーラブル映像符号化器では、ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ／ＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎのＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ−４のＰａｒｔ１０ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ規格／ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎのＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＳｅｃｔｏｒのＨ．２６４規格のＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ拡張に準拠する時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの各手法が実施される。

さらに別の利点／特徴として、上述の本スケーラブル映像符号化器は、空間スケーラビリティ手法が選択された場合には、空間スケーリング係数を１以下に制限する。

さらに別の利点／特徴として、上述のように空間スケーリング係数を制限する本スケーラブル映像符号化器は、基本レイヤおよび拡張レイヤの少なくともいくつかのブロックを、インターレイヤ予測を用いて符号化し、この符号化は、空間スケーリング係数を２^(-n)に設定することと（ｎは１以上の整数）、基本レイヤから拡張レイヤへの多対１ブロックマッピングを実施することと、基本レイヤの、イントラ予測モードを有する少なくともいくつかのブロックのいずれかをインター予測モードに変換することと、イントラ予測モードの動きベクトルおよび離散コサイン変換係数を強制的にゼロにすることと、によって行われる。

さらに別の利点／特徴として、上述のように基本レイヤおよび拡張レイヤの少なくともいくつかのブロックを、インターレイヤ予測を用いて符号化する本スケーラブル映像符号化器は、拡張レイヤのブロックの動きベクトルを、基本レイヤの、マッピングされたブロックの組の中の対応するマッピングされたブロックのコーナーの、スケーリングされた動きベクトルにマッピングし、拡張レイヤのブロックの基準インデックスを、基本レイヤの、対応するマッピングされたブロックのコーナーの基準インデックスに割り当てる（この、拡張レイヤのブロック、および基本レイヤの、マッピングされたブロックの組は、その少なくともいくつかのブロックに含まれ、拡張レイヤのブロックは、基本レイヤの、マッピングされたブロックの組と同じ場所にある）。

さらに別の利点／特徴として、上述のように空間スケーリング係数を制限する本スケーラブル映像符号化器は、基本レイヤおよび拡張レイヤの少なくともいくつかのブロックを符号化し、この符号化は、空間スケーリング係数を２^(-n)に設定することと（ｎは１以上の整数）、その少なくともいくつかのブロックに対応する残差のテクスチャダウンサンプリングについての平均をとることと、によって行われる。

さらに別の利点／特徴として、上述の本スケーラブル映像符号化器において、その少なくとも２つの視点画像の符号化が、特定の視点画像と少なくとも１つのその他の視点画像との間の視点画像間予測において重み付け予測を可能にすることによって行われる。

さらに別の利点／特徴として、上述のように視点画像間予測を可能にすることによって少なくとも２つの視点画像を符号化する本スケーラブル映像符号化器において、重み付け予測は、拡張レイヤのマクロブロックと、基本レイヤの、マッピングされたマクロブロックの組からスケーリングされた重み付けマクロブロックとの間の差を符号化する際に可能になり、拡張レイヤのマクロブロックは、基本レイヤの、マッピングされたマクロブロックの組と同じ場所にある。

さらに別の利点／特徴として、上述の本スケーラブル映像符号化器では、少なくとも２つの視点画像が立体視視点画像の対に対応し、対の一方の視点画像が基本レイヤとして符号化され、対のもう一方の視点画像が、基本レイヤからの予測を用いて、拡張レイヤとして符号化される。

本発明の以上およびその他の特徴および利点は、当業者であれば、本明細書の教示に基づいて容易に把握されよう。本発明の教示は、ハードウェア、ソフトウェア、ファームウェア、専用プロセッサ、またはこれらの組み合わせによる様々な形態で実装可能であることを理解されたい。

本発明の教示は、ハードウェアとソフトウェアの組み合わせとして実装されることが最も好ましい。さらに、このソフトウェアは、プログラム記憶装置上で実体的に具現化されたアプリケーションプログラムとして実装されることが好ましい。このアプリケーションプログラムは、任意の好適なアーキテクチャを含む機械にアップロードされ、それによって実行されることが可能である。この機械は、１つまたは複数の中央処理装置（「ＣＰＵ」）、ランダムアクセスメモリ（「ＲＡＭ」）、入出力（「Ｉ／Ｏ」）インターフェースなどのハードウェアを有するコンピュータプラットフォームに実装されることが好ましい。このコンピュータプラットフォームは、オペレーティングシステムおよびマイクロ命令コードを含んでもよい。本明細書に記載の種々の処理および機能は、ＣＰＵで実行することが可能な、マイクロ命令コードの一部、またはアプリケーションプログラムの一部、あるいはこれらの任意の組み合わせであってよい。さらに、増設データ記憶装置や印刷装置など、他の種々の周辺装置をコンピュータプラットフォームに接続することが可能である。

添付図面に示されている構成要素のシステムコンポーネントおよび方法のいくつかはソフトウェアで実装することが好ましいため、システムコンポーネント間または処理機能ブロック間の実際の接続は、本発明がプログラムされる様式に応じて異なってもよいことを、さらに理解されたい。当業者は、本明細書の教示を与えられれば、本発明の以上および同様の実装または構成を考察することが可能であろう。

本明細書では、例示的な実施形態について、添付図面を参照しながら説明してきたが、本発明はそれらの厳密な実施形態に限定されないこと、ならびに、それらの実施形態に対して、様々な変更および修正が、本発明の範囲または趣旨から逸脱することなく、当業者によって施されうることを理解されたい。そのような変更および修正はすべて、特許請求の範囲に示される本発明の範囲に含まれるものとする。

本原理を適用することが可能な例示的ＪｏｉｎｔＳｃａｌａｂｌｅＶｉｄｅｏＭｏｄｅｌ（ＪＳＶＭ）３．０符号化器のブロック図である。本原理を適用することが可能な例示的復号器のブロック図である。各次元のスケーリング係数が１／２の場合のＳＶＣ空間スケーラビリティにおけるインターレイヤ予測のための例示的マクロブロックマッピングを示す図である。本原理の例示的な第１の実施形態による、立体視コンテンツの立体視視点画像の対を符号化することが可能なスケーラブル映像符号化の方法を示す図である。本原理の例示的な第１の実施形態による、立体視コンテンツの立体視視点画像の対を復号することが可能なスケーラブル映像復号の方法を示す図である。本原理の例示的な第２の実施形態による、立体視コンテンツの立体視視点画像の対を符号化することが可能なスケーラブル映像符号化の方法を示す図である。本原理の例示的な第２の実施形態による、立体視コンテンツの立体視視点画像の対を復号することが可能なスケーラブル映像復号の方法を示す図である。本原理の例示的な実施形態による、拡張レイヤのマクロブロックを符号化するスケーラブル映像符号化方法を示す図である。本原理の例示的な実施形態による、拡張レイヤのマクロブロックを復号するスケーラブル映像復号方法を示す図である。

Claims

多視点映像コンテンツに対応する少なくとも２つの視点画像のうちの特定の視点画像を基本レイヤとして符号化し、および前記特定の視点画像および前記少なくとも１つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用いて、前記少なくとも２つの視点画像のうちの少なくとも１つのその他の視点画像の各々を拡張レイヤとして符号化することによって、前記少なくとも２つの視点画像を符号化する符号化器（１００）
を備え、
前記少なくとも２つの視点画像は、時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化されることを特徴とする装置。
前記基本レイヤおよび前記拡張レイヤは映像ビットストリームに含まれ、前記符号化器（１００）は前記映像ビットストリームを伝達するメッセージに、前記映像ビットストリームが多視点映像信号を含むことを伝えるインジケータを追加することを特徴とする請求項１に記載の装置。
前記メッセージは補助拡張情報（ＳＥＩ）メッセージであることを特徴とする請求項２に記載の装置。
前記メッセージは帯域外で送信されることを特徴とする請求項２に記載の装置。
前記インジケータはメタデータとして提供されることを特徴とする請求項２に記載の装置。
前記インジケータは、前記特定の視点画像または前記少なくとも１つのその他の視点画像のうちの一方を、前記基本レイヤまたは前記拡張レイヤのうちの一方で符号化されているものと指定することを特徴とする請求項２に記載の装置。
時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの前記各手法は、ＩＳＯ／ＩＥＣのＭＰＥＧ−４のＰａｒｔ１０ＡＶＣ規格／ＩＴＵ−ＴのＨ．２６４規格のＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ拡張に準拠して実行されることを特徴とする請求項１に記載の装置。
前記符号化器（１００）は、前記空間スケーラビリティ手法が選択された場合に、空間スケーリング係数を１以下に制限することを特徴とする請求項１に記載の装置。
前記符号化器（１００）は、前記空間スケーリング係数を２^(-n)に設定し（ｎは１以上の整数）、前記基本レイヤから前記拡張レイヤへの多対１ブロックマッピングを実行し、前記基本レイヤの、イントラ予測モードを有する前記少なくともいくつかのブロックのいずれかをインター予測モードに変換し、並びに前記イントラ予測モードの動きベクトルおよび離散コサイン変換係数を強制的にゼロにすることによって、前記基本レイヤおよび前記拡張レイヤの少なくともいくつかのブロックを、インターレイヤ予測を用いて符号化することを特徴とする請求項８に記載の装置。
前記符号化器（１００）は、前記拡張レイヤのブロックの動きベクトルを、前記基本レイヤの、マッピングされたブロックの組の中の対応するマッピングされたブロックのコーナーの、スケーリングされた動きベクトルにマッピングし、前記拡張レイヤの前記ブロックの基準インデックスを、前記基本レイヤの、前記対応するマッピングされたブロックの前記コーナーの基準インデックスに割り当て、前記拡張レイヤの前記ブロック、および前記基本レイヤの、前記マッピングされたブロックの組は、前記少なくともいくつかのブロックに含まれ、前記拡張レイヤの前記ブロックは、前記基本レイヤの、前記マッピングされたブロックの組と同じ場所にあることを特徴とする請求項９に記載の装置。
前記符号化器（１００）は、前記空間スケーリング係数を２^(-n)に設定し（ｎは１以上の整数）、および前記少なくともいくつかのブロックに対応する残差のテクスチャダウンサンプリングについての平均をとることによって、前記基本レイヤおよび前記拡張レイヤの少なくともいくつかのブロックを符号化することを特徴とする請求項８に記載の装置。
前記少なくとも２つの視点画像の符号化は、前記特定の視点画像と前記少なくとも１つのその他の視点画像との間の視点画像間予測において重み付け予測をさせることによって行われることを特徴とする請求項１に記載の装置。
前記重み付け予測は、前記拡張レイヤのマクロブロックと、前記基本レイヤの、マッピングされたマクロブロックの組からスケーリングされた重み付けマクロブロックとの間の差を符号化する際に可能にし、前記拡張レイヤの前記マクロブロックは、前記基本レイヤの、前記マッピングされたマクロブロックの組と同じ場所にあることを特徴とする請求項１２に記載の装置。
前記少なくとも２つの視点画像は立体視視点画像の対に対応し、前記対の一方の視点画像は前記基本レイヤとして符号化され、前記対のもう一方の視点画像は前記基本レイヤからの予測を用いて前記拡張レイヤとして符号化されることを特徴とする請求項１に記載の装置。
スケーラブル映像符号化の方法であって、
多視点映像コンテンツに対応する少なくとも２つの視点画像のうちの特定の視点画像を基本レイヤとして符号化し、および前記特定の視点画像および前記少なくとも１つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用いて、前記少なくとも２つの視点画像のうちの少なくとも１つのその他の視点画像の各々を拡張レイヤとして符号化することによって、前記少なくとも２つの視点画像を符号化するステップ（４２０、４３０）
を備え、
前記少なくとも２つの視点画像は、時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化されることを特徴とする方法。
前記基本レイヤおよび前記拡張レイヤは映像ビットストリームに含まれ、
前記符号化するステップは、前記映像ビットストリームを伝達するメッセージに、前記映像ビットストリームが多視点映像信号を含むことを伝えるインジケータを追加するステップ（４１５、４２５）を含むことを特徴とする請求項１５に記載の方法。
前記メッセージは、補助拡張情報（ＳＥＩ）メッセージであることを特徴とする請求項１６に記載の方法。
前記メッセージは、帯域外で送信されることを特徴とする請求項１６に記載の方法。
前記インジケータは、メタデータとして提供されることを特徴とする請求項１６に記載の方法。
前記インジケータは、前記特定の視点画像または前記少なくとも１つのその他の視点画像のうちの一方を、前記基本レイヤまたは前記拡張レイヤのうちの一方で符号化されているものと指定することを特徴とする請求項１６に記載の方法。
前記時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの前記各手法がＩＳＯ／ＩＥＣのＭＰＥＧ−４のＰａｒｔ１０ＡＶＣ規格／ＩＴＵ−ＴのＨ．２６４規格のＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ拡張に準拠して実行されることを特徴とする請求項１５に記載の方法。
前記符号化するステップは、前記空間スケーラビリティ手法が選択された場合（８５５）、空間スケーリング係数を１以下に制限するステップを含むことを特徴とする請求項１５に記載の方法。
前記符号化するステップは、前記空間スケーリング係数を２^(-n)に設定し（ｎは１以上の整数）、前記基本レイヤから前記拡張レイヤへの多対１ブロックマッピングを実行し、前記基本レイヤの、イントラ予測モードを有する前記少なくともいくつかのブロックのいずれかをインター予測モードに変換し、並びに前記イントラ予測モードの動きベクトルおよび離散コサイン変換係数を強制的にゼロにすること（８３５、８５０、８５５）によって、前記基本レイヤおよび前記拡張レイヤの少なくともいくつかのブロックを、インターレイヤ予測を用いて符号化することを特徴とする請求項２２に記載の方法。
前記符号化するステップは、前記拡張レイヤのブロックの動きベクトルを、前記基本レイヤの、マッピングされたブロックの組の中の対応するマッピングされたブロックのコーナーの、スケーリングされた動きベクトルにマッピングし、前記拡張レイヤの前記ブロックの基準インデックスを、前記基本レイヤの、前記対応するマッピングされたブロックの前記コーナーの基準インデックスに割り当て、前記拡張レイヤの前記ブロック、および前記基本レイヤの、前記マッピングされたブロックの組は、前記少なくともいくつかのブロックに含まれ、前記拡張レイヤの前記ブロックは、前記基本レイヤの、前記マッピングされたブロックの組と同じ場所にあること（８３５、８５５）を特徴とする請求項２３に記載の方法。
前記符号化するステップは、前記空間スケーリング係数を２^(-n)に設定し（ｎは１以上の整数）、および前記少なくともいくつかのブロックに対応する残差のテクスチャダウンサンプリングについての平均をとることによって、前記基本レイヤおよび前記拡張レイヤの少なくともいくつかのブロックを符号化すること（８５０、８５５）を特徴とする請求項２２に記載の方法。
前記少なくとも２つの視点画像の符号化は、前記特定の視点画像と前記少なくとも１つのその他の視点画像との間の視点画像間予測において重み付け予測をさせることによって行われること（８２５）を特徴とする請求項１５に記載の方法。
前記重み付け予測は、前記拡張レイヤのマクロブロックと、前記基本レイヤの、マッピングされたマクロブロックの組からスケーリングされた重み付けマクロブロックとの間の差を符号化する際に可能にし、前記拡張レイヤの前記マクロブロックは、前記基本レイヤの、前記マッピングされたマクロブロックの組と同じ場所にあることを特徴とする請求項２６に記載の方法。
前記少なくとも２つの視点画像は、立体視視点画像の対に対応し、前記対の一方の視点画像が前記基本レイヤとして符号化され、前記対のもう一方の視点画像が、前記基本レイヤからの予測を用いて、前記拡張レイヤとして符号化されることを特徴とする請求項１５に記載の方法。
多視点映像コンテンツに対応する少なくとも２つの視点画像のうちの特定の視点画像を基本レイヤとして復号し、および前記特定の視点画像および前記少なくとも１つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用いて、前記少なくとも２つの視点画像のうちの少なくとも１つのその他の視点画像のそれぞれを拡張レイヤとして復号することによって、前記少なくとも２つの視点画像を復号する復号器（２００）
を備え、
前記少なくとも２つの視点画像は、時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて復号されることを特徴とする装置。
前記基本レイヤおよび前記拡張レイヤは、映像ビットストリームに含まれ、
前記復号器（２００）は、前記映像ビットストリームを伝達するメッセージに含まれる、前記映像ビットストリームが多視点映像信号を含むことを伝えるインジケータを読み取ることを特徴とする請求項２８に記載の装置。
前記メッセージは、補助拡張情報（ＳＥＩ）メッセージであることを特徴とする請求項２９に記載の装置。
前記メッセージは、帯域外で受信されることを特徴とする請求項２９に記載の装置。
前記インジケータは、メタデータとして提供されることを特徴とする請求項２９に記載の装置。
前記インジケータは、前記特定の視点画像または前記少なくとも１つのその他の視点画像のうちの一方を、前記基本レイヤまたは前記拡張レイヤのうちの一方で符号化されているものと指定することを特徴とする請求項３０に記載の装置。
前記時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの前記各手法は、ＩＳＯ／ＩＥＣのＭＰＥＧ−４のＰａｒｔ１０ＡＶＣ規格／ＩＴＵ−ＴのＨ．２６４規格のＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ拡張に準拠して実行されることを特徴とする請求項２９に記載の装置。
前記少なくとも２つの視点画像の復号は、前記特定の視点画像と前記少なくとも１つのその他の視点画像との間の視点画像間予測において重み付け予測をさせることによって実行されることを特徴とする請求項２９に記載の装置。
前記重み付け予測は、前記拡張レイヤのマクロブロックと、前記基本レイヤの、マッピングされたマクロブロックの組からスケーリングされた重み付けマクロブロックとの間の差を復号する際に可能にし、前記拡張レイヤの前記マクロブロックは、前記基本レイヤの、前記マッピングされたマクロブロックの組と同じ場所にあることを特徴とする請求項３６に記載の装置。
前記少なくとも２つの視点画像は、立体視視点画像の対に対応し、
前記対の一方の視点画像は、前記基本レイヤとして復号され、
前記対のもう一方の視点画像は、前記基本レイヤからの予測を用いて前記拡張レイヤとして復号されることを特徴とする請求項２９に記載の装置。
スケーラブル映像復号の方法であって、
多視点映像コンテンツに対応する少なくとも２つの視点画像のうちの特定の視点画像を基本レイヤとして復号し、および前記特定の視点画像および前記少なくとも１つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用い、前記少なくとも２つの視点画像のうちの少なくとも１つのその他の視点画像のそれぞれを拡張レイヤとして復号することによって、前記少なくとも２つの視点画像を復号するステップ（５２０、５２５）
を備え、
前記少なくとも２つの視点画像は、時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて復号されることを特徴とする方法。
前記基本レイヤおよび前記拡張レイヤは、映像ビットストリームに含まれ、
前記復号器は、前記映像ビットストリームを伝達するメッセージに含まれ、前記映像ビットストリームが多視点映像信号を含むことを伝えるインジケータを読み取る（５１０）ことを特徴とする請求項３９に記載の方法。
前記メッセージは、補助拡張情報（ＳＥＩ）メッセージであることを特徴とする請求項４０に記載の方法。
前記メッセージは、帯域外で受信されることを特徴とする請求項４０に記載の方法。
前記インジケータは、メタデータとして提供されることを特徴とする請求項４０に記載の方法。
前記インジケータは、前記特定の視点画像または前記少なくとも１つのその他の視点画像のうちの一方を、前記基本レイヤまたは前記拡張レイヤのうちの一方で符号化されているものと指定することを特徴とする請求項４０に記載の方法。
前記時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの前記各手法がＩＳＯ／ＩＥＣのＭＰＥＧ−４のＰａｒｔ１０ＡＶＣ規格／ＩＴＵ−ＴのＨ．２６４規格のＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ拡張に準拠して実行されることを特徴とする請求項３９に記載の方法。
前記少なくとも２つの視点画像の復号は、前記第１の立体視視点画像と前記第２の立体視視点画像との間の視点画像間予測において重み付け予測をさせること（９３０）によって実行されることを特徴とする請求項３９に記載の方法。
前記重み付け予測は、前記拡張レイヤのマクロブロックと、前記基本レイヤの、マッピングされたマクロブロックの組からスケーリングされた重み付けマクロブロックとの間の差を復号する際に可能にされ、前記拡張レイヤの前記マクロブロックは、前記基本レイヤの、前記マッピングされたマクロブロックの組と同じ場所にあることを特徴とする請求項４６に記載の方法。
前記少なくとも２つの視点画像は、立体視視点画像の対に対応し、
前記対の一方の視点画像は、前記基本レイヤとして符号化され、
前記対のもう一方の視点画像は、前記基本レイヤからの予測を用いて、前記拡張レイヤとして符号化されることを特徴とする請求項３９に記載のスケーラブル映像符号化器。
スケーラブル映像符号化のための映像信号形式であって、
少なくとも２つの視点画像のうちの、基本レイヤとして符号化される特定の視点画像と、
前記特定の視点画像および前記少なくとも１つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用いて、前記少なくとも２つの視点画像のうちの、拡張レイヤとして符号化される少なくとも１つのその他の視点画像と
を備え、
前記少なくとも２つの視点画像は、多視点映像コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化されることを特徴とする映像信号形式。
符号化されたスケーラブル映像信号データを格納する記憶媒体であって、
少なくとも２つの視点画像のうちの、基本レイヤとして符号化される特定の視点画像と、
前記特定の視点画像および前記少なくとも１つのその他の視点画像のうちの少なくとも一方に対応する下位レイヤからの予測を用いて、前記少なくとも２つの視点画像のうちの、拡張レイヤとして符号化される少なくとも１つのその他の視点画像と
を備え、
前記少なくとも２つの視点画像は、多視点映像コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化されることを特徴とする記憶媒体。
第１の立体視視点画像を基本レイヤとして符号化し、前記第１の立体視視点画像からの予測を用いて、奥行きマップおよびディスパリティマップのうちの少なくとも一方を拡張レイヤとして符号化する符号化器（１００）
を備え、
前記第１の立体視視点画像と、前記奥行きマップおよび前記ディスパリティマップのうちの少なくとも一方とは、各々、特定の立体視コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化されることを特徴とする装置。
前記基本レイヤおよび前記拡張レイヤは、映像ビットストリームに含まれ、
前記符号化器（１００）は、前記特定の立体視コンテンツに関連する追加の三次元情報を、前記映像ビットストリームを伝達するメッセージに追加することを特徴とする請求項５１に記載の装置。
前記メッセージは、補助拡張情報（ＳＥＩ）メッセージであることを特徴とする請求項５２に記載の装置。
前記メッセージは、帯域外で送信されることを特徴とする請求項５２に記載の装置。
前記追加の三次元情報は、メタデータとして提供されることを特徴とする請求項５２に記載の装置。
前記符号化器（１００）は、前記基本レイヤから再構成された映像と、再構成された奥行きマップおよび再構成されたディスパリティマップの少なくとも一方と、前記メッセージ内の前記追加三次元情報とを用いて、前記特定の立体視コンテンツの、符号化されていない視点画像を再構成し、前記再構成された、符号化されていない視点画像に基づいて、別の拡張レイヤを符号化することを特徴とする請求項５２に記載の装置。
前記時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの前記各手法は、実施ＩＳＯ／ＩＥＣのＭＰＥＧ−４のＰａｒｔ１０ＡＶＣ規格／ＩＴＵ−ＴのＨ．２６４規格のＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ拡張に準拠して実行されることを特徴とする請求項５１に記載の装置。
前記符号化器（１００）は、前記空間スケーラビリティ手法が選択された場合、空間スケーリング係数を１以下に制限することを特徴とする請求項５１に記載の装置。
前記符号化器（１００）は、前記空間スケーリング係数を２^(-n)に設定し（ｎは１以上の整数）、前記基本レイヤから前記拡張レイヤへの多対１ブロックマッピングを実行し、前記基本レイヤの、イントラ予測モードを有する前記少なくともいくつかのブロックのいずれかをインター予測モードに変換し、並びに前記イントラ予測モードの動きベクトルおよび離散コサイン変換係数を強制的にゼロにすることによって、前記基本レイヤおよび前記拡張レイヤの少なくともいくつかのブロックを、インターレイヤ予測を用いて符号化することを特徴とする請求項５８に記載の装置。
前記符号化器（１００）は、前記拡張レイヤのブロックの動きベクトルを、前記基本レイヤの、マッピングされたブロックの組の中の対応するマッピングされたブロックのコーナーの、スケーリングされた動きベクトルにマッピングし、前記拡張レイヤの前記ブロックの基準インデックスを、前記基本レイヤの、前記対応するマッピングされたブロックの前記コーナーの基準インデックスに割り当て、前記拡張レイヤの前記ブロック、および前記基本レイヤの、前記マッピングされたブロックの組は、前記少なくともいくつかのブロックに含まれ、前記拡張レイヤの前記ブロックは、前記基本レイヤの、前記マッピングされたブロックの組と同じ場所にあることを特徴とする請求項５９に記載の装置。
前記符号化器（１００）は、前記空間スケーリング係数を２^(-n)に設定し（ｎは１以上の整数）、および前記少なくともいくつかのブロックに対応する残差のテクスチャダウンサンプリングについての平均をとることによって、前記基本レイヤおよび前記拡張レイヤの少なくともいくつかのブロックを符号化することを特徴とする請求項５８に記載の装置。
立体視視点画像の前記対の符号化は、前記第１の立体視視点画像と前記第２の立体視視点画像との間の視点画像間予測において重み付け予測をさせることによって行われることを特徴とする請求項５１に記載の装置。
前記重み付け予測は、前記拡張レイヤのマクロブロックと、前記基本レイヤの、マッピングされたマクロブロックの組からスケーリングされた重み付けマクロブロックとの間の差を符号化する際に可能にされ、前記拡張レイヤの前記マクロブロックは、前記基本レイヤの、前記マッピングされたマクロブロックの組と同じ場所にあることを特徴とする請求項６２に記載の装置。
スケーラブル映像符号化の方法であって、
第１の立体視視点画像を基本レイヤとして符号化するステップ（６１０）と、
前記第１の立体視視点画像からの予測を用いて、奥行きマップおよびディスパリティマップのうちの少なくとも一方を拡張レイヤとして符号化するステップ（６１０）と
を備え、
前記第１の立体視視点画像と、前記奥行きマップおよび前記ディスパリティマップのうちの少なくとも一方とが、各々、特定の立体視コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化されることを特徴とする方法。
前記基本レイヤおよび前記拡張レイヤは、映像ビットストリームに含まれ、
前記符号化器は、前記特定の立体視コンテンツに関連する追加の三次元情報を、前記映像ビットストリームを伝達するメッセージに追加すること（６１５）を特徴とする請求項６４に記載の方法。
前記メッセージは、補助拡張情報（ＳＥＩ）メッセージであることを特徴とする請求項６５に記載の方法。
前記メッセージは、帯域外で送信されることを特徴とする請求項６５に記載の方法。
前記追加の三次元情報は、メタデータとして提供されることを特徴とする請求項６５に記載の方法。
前記基本レイヤから再構成された映像と、再構成された奥行きマップおよび再構成されたディスパリティマップの少なくとも一方と、前記メッセージ内の前記追加の三次元情報とを用いて、前記特定の立体視コンテンツの、符号化されていない視点画像を再構成するステップ（６２０）と、
前記再構成された、符号化されていない視点画像に基づいて、別の拡張レイヤを符号化するステップ（６２５）と
をさらに備えたことを特徴とする請求項６５に記載の方法。
前記時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの前記各手法は、ＩＳＯ／ＩＥＣのＭＰＥＧ−４のＰａｒｔ１０ＡＶＣ規格／ＩＴＵ−ＴのＨ．２６４規格のＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ拡張に準拠して実行されることを特徴とする請求項６４に記載の方法。
前記符号化器は、前記空間スケーラブル映像符号化手法が選択された場合（８５５）、空間スケーリング係数を１以下に制限することを特徴とする請求項６４に記載の方法。
前記符号化するステップは、前記空間スケーリング係数を２^(-n)に設定し（ｎは１以上の整数）、前記基本レイヤから前記拡張レイヤへの多対１ブロックマッピングを実行し、前記基本レイヤの、イントラ予測モードを有する前記少なくともいくつかのブロックのいずれかをインター予測モードに変換し、並びに前記イントラ予測モードの動きベクトルおよび離散コサイン変換係数を強制的にゼロにすること（８３０、８５０、８５５）によって、前記基本レイヤおよび前記拡張レイヤの少なくともいくつかのブロックを、インターレイヤ予測を用いて符号化することを特徴とする請求項７１に記載の方法。
前記符号化するステップは、前記拡張レイヤのブロックの動きベクトルを、前記基本レイヤの、マッピングされたブロックの組の中の対応するマッピングされたブロックのコーナーの、スケーリングされた動きベクトルにマッピングし、前記拡張レイヤの前記ブロックの基準インデックスを、前記基本レイヤの、前記対応するマッピングされたブロックの前記コーナーの基準インデックスに割り当て、前記拡張レイヤの前記ブロック、および前記基本レイヤの、前記マッピングされたブロックの組は、前記少なくともいくつかのブロックに含まれ、前記拡張レイヤの前記ブロックは、前記基本レイヤの、前記マッピングされたブロックの組と同じ場所にあること（８３５、８５５）を特徴とする請求項７２に記載の方法。
前記符号化するステップは、前記空間スケーリング係数を２^(-n)に設定し（ｎは１以上の整数）、および前記少なくともいくつかのブロックに対応する残差のテクスチャダウンサンプリングについての平均をとることによって、前記基本レイヤおよび前記拡張レイヤの少なくともいくつかのブロックを符号化すること（８５０、８５５）を特徴とする請求項７２に記載の方法。
前記立体視視点画像の対の符号化は、前記第１の立体視視点画像と前記第２の立体視視点画像との間の視点画像間予測において重み付け予測をさせること（８２５）によって行われることを特徴とする請求項６４に記載の方法。
前記重み付け予測は、前記拡張レイヤのマクロブロックと、前記基本レイヤの、マッピングされたマクロブロックの組からスケーリングされた重み付けマクロブロックとの間の差を符号化する際に可能にされ、前記拡張レイヤの前記マクロブロックは、前記基本レイヤの、前記マッピングされたマクロブロックの組と同じ場所にあることを特徴とする請求項７５に記載の方法。
第１の立体視視点画像を基本レイヤから復号し、前記第１の立体視視点画像からの予測を用いて、奥行きマップおよびディスパリティマップのうちの少なくとも一方を拡張レイヤから復号する復号器（２００）
を備え、
前記第１の立体視視点画像と、前記奥行きマップおよび前記ディスパリティマップのうちの少なくとも一方とが、各々、特定の立体視コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて復号されることを特徴とする装置。
前記基本レイヤおよび前記拡張レイヤは、映像ビットストリームに含まれ、
前記復号器（２００）は、前記特定の立体視コンテンツに関連する追加の三次元情報を、前記映像ビットストリームを伝達するメッセージから読み取ることを特徴とする請求項７７に記載の装置。
前記メッセージは、補助拡張情報（ＳＥＩ）メッセージであることを特徴とする請求項７８に記載の装置。
前記メッセージは、帯域外で送信されることを特徴とする請求項７８に記載の装置。
前記追加の三次元情報は、メタデータとして提供されることを特徴とする請求項７８に記載の装置。
前記復号器（２００）は、前記基本レイヤから再構成された映像と、再構成された奥行きマップおよび再構成されたディスパリティマップの少なくとも一方と、前記メッセージ内の前記追加三次元情報とを用いて、前記特定の立体視コンテンツの、符号化されていない視点画像を前記基本レイヤとして再構成し、前記再構成された、符号化されていない視点画像に基づいて、別の拡張レイヤを復号して、前記特定の立体視コンテンツの、リファインされた、符号化されていない視点画像を形成することを特徴とする請求項７８に記載の装置。
前記時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの前記各手法は、ＩＳＯ／ＩＥＣのＭＰＥＧ−４のＰａｒｔ１０ＡＶＣ規格／ＩＴＵ−ＴのＨ．２６４規格のＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ拡張に準拠して実行されることを特徴とする請求項７７に記載の装置。
前記立体視視点画像の対の復号は、前記第１の立体視視点画像と前記第２の立体視視点画像との間の視点画像間予測において重み付け予測をさせることによって実行されることを特徴とする請求項７７に記載の装置。
前記重み付け予測は、前記拡張レイヤのマクロブロックと、前記基本レイヤの、マッピングされたマクロブロックの組からスケーリングされた重み付けマクロブロックとの間の差を復号する際に可能とされ、前記拡張レイヤの前記マクロブロックは、前記基本レイヤの、前記マッピングされたマクロブロックの組と同じ場所にあることを特徴とする請求項８４に記載の装置。
スケーラブル映像復号の方法であって、
第１の立体視視点画像を基本レイヤから復号するステップ（７１０）と、
前記第１の立体視視点画像からの予測を用いて、奥行きマップおよびディスパリティマップのうちの少なくとも一方を拡張レイヤから復号するステップ（７１０）と
を備え、
前記第１の立体視視点画像と、前記奥行きマップおよび前記ディスパリティマップのうちの少なくとも一方とが、各々、特定の立体視コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて復号されることを特徴とする方法。
前記基本レイヤおよび前記拡張レイヤは、映像ビットストリームに含まれ、
前記特定の立体視コンテンツに関連する追加の三次元情報を、前記映像ビットストリームを伝達するメッセージから読み取ること（７１５）をさらに含むことを特徴とする請求項８６に記載の方法。
前記メッセージは、補助拡張情報（ＳＥＩ）メッセージであることを特徴とする請求項８７に記載の方法。
前記メッセージは、帯域外で送信されることを特徴とする請求項８７に記載の方法。
前記追加の三次元情報は、メタデータとして提供されることを特徴とする請求項８７に記載の方法。
前記基本レイヤから再構成された映像と、再構成された奥行きマップおよび再構成されたディスパリティマップの少なくとも一方と、前記メッセージ内の前記追加の三次元情報とを用いて、前記特定の立体視コンテンツの、符号化されていない視点画像を前記基本レイヤとして再構成するステップ（７２０）と、
前記再構成された、符号化されていない視点画像に基づいて、別の拡張レイヤを復号して（７２５）、前記特定の立体視コンテンツの、リファインされた、符号化されていない視点画像を形成するステップと
をさらに備えたことを特徴とする請求項８７に記載の方法。
前記時間スケーラビリティ、空間スケーラビリティ、および信号対雑音比スケーラビリティの前記各手法は、ＩＳＯ／ＩＥＣのＭＰＥＧ−４のＰａｒｔ１０ＡＶＣ規格／ＩＴＵ−ＴのＨ．２６４規格のＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ拡張に準拠して実行されることを特徴とする請求項８６に記載の方法。
前記立体視視点画像の対の復号は、前記第１の立体視視点画像と前記第２の立体視視点画像との間の視点画像間予測において重み付け予測をさせること（９３０）によって実行されることを特徴とする請求項８６に記載の方法。
前記重み付け予測は、前記拡張レイヤのマクロブロックと、前記基本レイヤの、マッピングされたマクロブロックの組からスケーリングされた重み付けマクロブロックとの間の差を復号する際に可能とされ、前記拡張レイヤの前記マクロブロックは、前記基本レイヤの、前記マッピングされたマクロブロックの組と同じ場所にあることを特徴とする請求項９３に記載の方法。
スケーラブル映像符号化のための映像信号形式であって、
基本レイヤとして符号化される第１の立体視視点画像と、
前記第１の立体視視点画像からの予測を可能にするために、拡張レイヤとして符号化される奥行きマップおよびディスパリティマップのうちの少なくとも一方と
を備え、
前記第１の立体視視点画像と、前記奥行きマップおよび前記ディスパリティマップのうちの少なくとも一方とが、各々、特定の立体視コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化されることを特徴とする映像信号形式。
符号化されたスケーラブル映像信号データを格納する記憶媒体であって、
基本レイヤとして符号化される第１の立体視視点画像と、
前記第１の立体視視点画像からの予測をさせるために、拡張レイヤとして符号化される奥行きマップおよびディスパリティマップのうちの少なくとも一方と
を備え、
前記第１の立体視視点画像と、前記奥行きマップおよび前記ディスパリティマップのうちの少なくとも一方とが、各々、特定の立体視コンテンツに対応し、時間スケーラビリティ、空間スケーラビリティ、およびＳＮＲスケーラビリティの各手法のうちの少なくとも２つからの選択に基づいて符号化されることを特徴とする記憶媒体。