JP2013042521A

JP2013042521A - 多視点映像符号化のための画像の管理

Info

Publication number: JP2013042521A
Application number: JP2012220165A
Authority: JP
Inventors: Pervin Bivas Panduit; パンディット，パーヴィン，ビバス; Yeping Su; スー，イェピン; Peng Yin; イン，ペン
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2006-10-24
Filing date: 2012-10-02
Publication date: 2013-02-28
Also published as: TW201244487A; TW201246936A; WO2008051380B1; EP2418853A3; KR20090085581A; US20100027615A1; WO2008051381A4; BRPI0718421A2; AU2007309634A1; EP2418854A3; US20100034258A1; WO2008051380A3; EP2080380A2; WO2008051381A3; EP2087737A2; TW200843512A; WO2008051380A2; MX2009004352A; EP2418854A2; JP2010507974A

Abstract

【課題】多視点映像符号化のデコーダにおいて、視点間参照ピクチャの視点間依存関係を用いることで、参照ピクチャを保存するバッファサイズを小さくする。
【解決手段】デコーダは、第一の視点からの画像、第二の視点からの画像及び依存情報がアクセスされる。依存情報は、第一の視点からの画像について１以上の視点間の依存関係を示す。依存情報に基づいて、第一の視点からの画像が第二の視点からの画像の参照画像であるかが判定される。１つの応用は、デコードされたピクチャのバッファにおける画像が未だデコードされていない画像の参照画像であるかを判定することを含む。バッファにおける画像は、視点間の参照画像として必要とされ続けるかを示すために記録される。
【選択図】図１０

Description

本発明は、ビデオ符号化及び復号化全般に関する。
本出願は、（１）２００６年１０月２４日に提出された“ＤｅｃｏｄｅｄｒｅｆｅｒｅｎｃｅＰｉｃｔｕｒｅＭａｎａｇｅｍｅｎｔｆｏｒＭＶＣ”と題された米国仮出願６０／８５３９３２号、及び（２）２００６年１１月２１日に提出された“Ｉｎｔｅｒ−ＶｉｅｗａｎｄＴｅｍｐｏｒａｌＲｅｆｅｒｅｎｃｅＰｉｃｔｕｒｅＩｄｅｎｔｉｆｉｃａｔｉｏｎｆｏｒＭＶＣ”と題された米国特許出願６０／８６０３６７号のそれぞれの利益を特許請求するものである。これら２つの優先権出願のそれぞれは、その完全な形で本明細書に盛り込まれる。

ビデオデコーダは、画像をデコードし、デコードされた画像がもはや必要とされないことをデコーダが確認するまで、画像をメモリに記憶する。たとえばデコードされた画像に基づいてエンコードされた後続する画像をデコードするため、様々なシステムでは、画像がエンコードされる。「参照画像」と呼ばれる前の画像からの差として、かかるデコードされた画像は必要とされ、デコードされた参照画像は、参照画像を使用した全ての後続する画像もデコードされるまで、デコーダに記憶される。参照画像を記憶することは、デコーダでの有益なメモリを消費する。

一般的な態様によれば、第一の視点からの画像と、第二の視点からの画像と、依存情報とが共にアクセスされる。依存情報は、第一の視点からの画像について１以上の視点間の依存の関係（ｉｎｔｅｒ−ｖｉｅｗｄｅｐｅｎｄｅｎｃｙｒｅｌａｔｉｏｎｓｈｉｐ）を記述する。依存情報に基づいて、第一の視点からの画像が第二の視点からの画像の参照画像であるかが判定される。

１以上の実現の詳細は、以下の添付図面及び説明で述べられる。１つの特定のやり方で記載された場合、様々なやり方で実現が構成又は実施される場合がある。たとえば、実現は、方法として実行されるか、動作のセットを実行するために構成される装置として実施されるか、動作のセットを実行するための命令を記憶する装置として実施されるか、或いは信号で実施される場合がある。他の態様及び特徴は、添付図面及び請求項と共に考慮される以下の詳細な説明から明らかとなるであろう。

例示的なエンコーダのブロック図である。例示的なデコーダのブロック図である。８つの視点を有し、ＭＰＥＧ−４ＡＶＣ標準に基づいた例示的な視点間−時間（ｉｎｔｅｒ−ｖｉｅｗ−ｔｅｍｐｏｒａｌ）予測構造の図である。参照画像の管理データを符号化する例示的な方法のフローチャートである。参照画像の管理データを復号化する例示的な方法のフローチャートである。視点間の依存度を決定する例示的な方法の図である。視点間の依存度を決定する別の例示的な方法の図である。例示的なエンコーダの高水準のブロック図である。例示的なデコーダの高水準のブロック図である。依存度を決定する方法の実現のためのフローチャートである。記憶された画像を除く方法の実現のためのフローチャートである。

本実施の形態で記載される少なくとも１つの実現は、ビデオエンコーダ及び／ビデオデコーダを提供するものであり、このビデオデコーダは、視点間の依存情報に基づいて、メモリから所与のデコードされた画像を除く。視点間の依存情報は、所与のデコードされた画像について１以上の視点間の依存の関係を記述する。したがって、たとえば参照画像として所与のデコードされた画像に依存する全ての後続する画像を記述する情報にアクセスすることで、（たとえば）ビデオデコーダは、全てのそれら後続する画像をデコードした後に、所与のデコードされた画像を除く。更なる実現は、所与のデコードされた画像を即座に除くことなしに、全てのそれら後続する画像がデコードされた後に、所与のデコードされた画像を記録する。依存情報は、たとえばＭＰＥＧ−４ＡＶＣ標準に基づくＭＶＣ（以下に定義される）の高水準のシンタックスでエンコードされる場合がある。

ＩＳＯ／ＩＥＣ（ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ／ＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ）ＭＰＥＧ−４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ−４）Ｐａｒｔ１０ＡＶＣ（ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ）標準／ＩＴＵ−Ｔ（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ，ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＳｅｃｔｏｒ）Ｈ．２６４勧告（以下、ＭＰＥＧ−４ＡＶＣ標準）に基づいた多視点符号化（ＭＶＣ：ＭｕｌｔｉＶｉｅｗＣｏｄｉｎｇ）の実現では、参照ソフトウェアは、１つのエンコーダによりそれぞれの視点をエンコードし、クロスビュー参照（ｃｒｏｓｓ−ｖｉｅｗｒｅｆｅｒｅｎｃｅ）を考慮することで、多視点の予測を達成する。ＭＰＥＧ−４ＡＶＣ標準に基づくＭＶＣ（以下、「ＭＰＥＧ−４ＡＶＣ標準ベースのＭＶＣ」）の現在の実現は、異なる視点間でフレーム／ピクチャ数（ｆｒａｍｅ＿ｎｕｍ）及びピクチャオーダカウント（ＰＯＣ）を分離し、これにより同じｆｒａｍｅ＿ｎｕｍ及びＰＯＣをもつ画像は、デコードされたピクチャのバッファ（ＤＰＢ）に存在することができる。これらの画像は、それらに関連される視点識別子（ｖｉｅｗ＿ｉｄ）を使用して識別される。

デコードされたピクチャのバッファを管理するため、ＭＰＥＧ−４ＡＶＣ標準ベースのＭＶＣは、ＭＰＥＧ−４ＡＶＣに互換性のあるメモリ管理制御動作（ＭＭＣＯ）コマンドを使用する。これらＭＭＣＯコマンドは、これらＭＭＣＯコマンドを実行するために使用されるものと同じｖｉｅｗ＿ｉｄをもつ画像でのみ動作する。

これは、余りに制限的であり、さらに、効率的ではない。これは、それ自身とは異なるｖｉｅｗ＿ｉｄをもつ画像をＭＭＣＯコマンドがマークするのを可能にしないことで、必要とされるデコードされる画像のバッファサイズが典型的に大きくなるからである。したがって、デコードされた画像の小さなバッファサイズを可能にするため（したがってメモリを使用しない）、更に効率的なやり方で画像を管理するべきある。

ＭＰＥＧ−４標準によれば、エンコード又はデコードされた画像であって、参照のために利用可能なピクチャは、デコードされたピクチャのバッファに記憶される。次いで、画像は、（ａ）短期の参照画像又は（ｂ）長期の参照画像として記録される。短期の参照画像は、その後になって、ＬｏｎｇＴｅｒｍＰｉｃＮｕｍが割り当てられる（及び長期の参照画像に「変化される」）場合がある。この記録プロセスは、表１で示されるようにＭＭＣＯコマンドを使用して行われる。表１は、デコードされた参照画像のマーキングシンタックスを示す。効率的なデコードされたピクチャのバッファの管理は、ＭＭＣＯコマンドを使用して達成することができる。

適応的な参照画像の管理とスライディングウィンドウの記録との間の選択は、スライスヘッダに存在するａｄａｐｔｉｖｅ＿ｒｅｆ＿ｍａｒｋｉｎｇ＿ｍｏｄｅ＿ｆｌａｇを使用して行われる。ａｄａｐｔｉｖｅ＿ｒｅｆ＿ｐｉｃ＿ｍａｒｋｉｎｇ＿ｍｏｄｅ＿ｆｌａｇの解釈は、表２で示される。

それぞれのメモリ管理制御動作コマンドの解釈は、表３に示される。表３は、メモリ管理制御動作（ｍｅｍｏｒｙ＿ｍａｎａｇｅｍｅｎｔ＿ｃｏｎｔｒｏｌ＿ｏｐｅｒａｔｉｏｎ）値を示す。

多視点映像符号化の１つのＭＰＥＧ−４ＡＶＣ標準に互換性のあるソリューションでは、全てのビデオ系列は、１つの系列にインタリーブされる。この１つのインタリーブされた系列は、ＭＰＥＧ−４ＡＶＣ標準に互換性のあるエンコーダに供給され、ＭＰＥＧ−４ＡＶＣ標準に互換性のあるビットストリームが生成される。

これはＭＰＥＧ−４ＡＶＣ標準に互換性のある実現であるので、ピクチャがどの視点に属するかを識別する方法がない。フレーム数（ｆｒａｍｅ＿ｎｕｍ）及びピクチャオーダカウントは、これを考慮することなしに割り当てられるので、ＭＰＥＧ−４ＡＶＣ標準に互換性のあるＭＭＣＯコマンドは、効率的なデコードされたピクチャのバッファサイズの管理を達成する。

ＭＰＥＧ−４ＡＶＣ標準ベースのＭＶＣでは、更なるシンタックスは、クロスビューの参照を示すため、表４に示されるようにＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）に付加される。表４は、ＳＰＳの多視点映像符号化の拡張シンタックスを示す。このシンタックスは、以下のやり方でアンカーピクチャ（ａｎｃｈｏｒｐｉｃｔｕｒｅ）とノンアンカーピクチャ（ｎｏｎ−ａｎｃｈｏｒｐｉｃｔｕｒｅ）のために使用されるクロスビューの参照を示すために使用される。

以下の手順は、現在の視点とは異なる視点からの参照画像を参照予測リストに配置するために行われる。
現在のピクチャがアンカーピクチャ又はＶ−ＩＤＲピクチャである場合、０からｎｕｍ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿ＩＸ−１までのそれぞれのｉの値について、ａｎｃｈｏｒ＿ｒｅｆ＿ＩＸ［ｉ］に等しいｖｉｅｗ＿ｉｄを持つ画像及び１に等しいｉｎｔｅｒ＿ｖｉｅｗ＿ｆｌａｇを持つ画像及び現在の画像と同じＰｉｃＯｒｄｅｒＣｎｔ（）をもつ画像は、ＲｅｆＰｉｃＬｉｓｔＸに添付される。
さもなければ（現在の画像がアンカーピクチャではなく、Ｖ−ＩＤＲピクチャではない場合）、０からｎｕｍ＿ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿ＩＸ−１までのそれぞれのｉの値について、ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆ＿ＩＸ［ｉ］に等しいｖｉｅｗ＿ｉｄを持つ画像及び１に等しいｉｎｔｅｒ＿ｖｉｅｗ＿ｆｌａｇを持つ画像及び現在の画像と同じＰｉｃＯｒｄｅｒＣｎｔ（）をもつ画像は、ＲｅｆＰｉｃＬｉｓｔＸに添付される。

この実現において、メモリ管理制御動作コマンドは、個々の視点のみと関連付けされ、他の視点における画像を記録することができない。直接の結果として、クロスビューの参照画像は、必要よりも長いデコードされたピクチャのバッファにとどまる。これは、所与のクロスビューの参照画像は、ビットストリームにおいて後にそれ自身の視点の画像により「参照のために使用されずに」記録される。

ＭＰＥＧ−４ＡＶＣ標準ベースのＭＶＣでは、（表５で示される）以下のケースをどのように区別するかが特定されない。視点間の参照のみのために画像が使用される。時間的な参照のみのために画像が使用される。視点間の参照と時間的な参照の両者のために画像が使用される。参照のために画像が使用されない。表５は、時間の参照（ｔｅｍｐｏｒａｌｒｅｆｅｒｅｎｃｅ）及び視点間の参照（ｉｎｔｅｒ−ｖｉｅｗｒｅｆｅｒｅｎｃｅ）について、参照画像のケースを示す。

結合多視点映像モデル（ＪＭＶＭ：ＪｏｉｎｔＭｕｌｔｉ−ｖｉｅｗＶｉｄｅｏＭｏｄｅｌ）の実現は、所定の条件下で「参照のために使用されない」として記録されるべき現在の視点以外の視点に存在する画像の条件を規定する。これらの条件は、以下のとおりである。

現在の画像がアンカーピクチャである場合、以下の条件を満たす全ての参照画像は、「参照のために使用されない」として記録される。
参照画像は、現在の画像と同じＰｉｃＯｒｄｅｒＣｎｔ（）を有する。
参照画像は、ａｎｃｈｏｒ＿ｒｅｆ＿ＩＸ（Ｘは０又は１）により示されるのと異なる視点から、デコーディング順序で後続する画像をデコードする必要がない。
参照画像は、それ自身の視点で後続する画像をデコードする必要がない。

現在の画像がアンカーピクチャでない場合、以下の条件を満たす全ての参照画像は、「参照のために使用されない」として記録される。
参照画像は、現在の画像と同じＰｉｃＯｒｄｅｒＣｎｔ（）を有する。
参照画像は、ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆ＿ＩＸ（Ｘは０又は１）により示されるのと異なる視点から、デコーディング順序で後続する画像をデコードする必要がない。
参照画像は、それ自身の視点で後続する画像をデコードする必要がない。

上記条件を満たす画像の記録は、「暗黙の記録」と呼ばれる。より一般的に、暗黙の記録は、更なる明示的なシグナリングを使用することなしに、既存のシンタックスを使用して実行される記録を示す。上述された暗黙の記録を使用した効率的なデコードされたピクチャのバッファの管理のため、表５に示されたケースを区別することが重要である。この区別がどのように達成されるかは、ＭＰＥＧ−４ＡＶＣ標準ベースのＭＶＣで明確に規定されていない。

表４で示される多視点映像符号化の拡張のシーケンスパラメータセットは、所定の視点についてどの視点が参照として使用されるかに関する情報を含む。この情報は、どの視点が視点間の参照として使用されるか、どの視点が使用されないかを示すため、参照テーブル又は他のデータ構造を生成するために使用することができる。さらに、この情報は、アンカーピクチャ及びノンアンカーピクチャについて個別に知ることができる。

別のアプローチでは、新たなフラグは、あるピクチャが視点間の予測の参照のために使用されるかを示す。これは、スケーラブルビデオ符号化／多視点映像符号化の拡張のためにＮＡＬ（ＮｅｔｗｏｒｋＡｂｓｔｒａｃｔｉｏｎＬａｙｅｒ）ユニットヘッダで示唆され、シンタックスエレメントｎａｌ＿ｒｅｆ＿ｉｄｃは、あるピクチャがインター予測（「時間“ｔｅｍｐｏｒａｌ”」とも呼ばれる）の参照のために使用されるかのみを示す。ｎａｌ＿ｒｅｆ＿ｉｄｃは、表６で示されるＮＡＬ（ＮｅｔｗｏｒｋＡｂｓｔｒａｃｔｉｏｎＬａｙｅｒ）ユニットのシンタックスで示唆される。

ｎａｌ＿ｒｅｆ＿ｉｄｃは、以下の意味で現在のところ定義される
０に等しくないｎａｌ＿ｒｅｆ＿ｉｄｃは、ＮＡＬユニットの内容が、シーケンスパラメータセット又はピクチャパラメータセット、又は、リファレンスピクチャのスライス、参照画像のスライスデータのパーティションを含むことを規定する。
スライス又はスライスデータのパーティションを含むＮＡＬユニットについて０に等しいｎａｌ＿ｒｅｆ＿ｉｄｃは、スライス又はスライスデータのパーティションが非参照画像の一部であることを示す。
ｎａｌ＿ｒｅｆ＿ｉｄｃは、シーケンスパラメータセット又はシーケンスパラメータセットの拡張又はピクチャパラメータセットのＮＡＬユニットについて０に等しくない。ｎａｌ＿ｒｅｆ＿ｉｄｃが特定の画像の１つのスライス又はスライスデータパーティションのＮＡＬユニットについて０に等しいとき、その画像の全てのスライス及びスライスデータパーティションのＮＡＬユニットについて０に等しい。
ｎａｌ＿ｒｅｆ＿ｉｄｃは、ＩＤＲＮＡＬユニット、すなわち５に等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅをもつＮＡＬユニットについて０に等しくない。
ｎａｌ＿ｒｅｆ＿ｉｄｃは、６，９，１０，１１又は１２に等しいｎａｌ＿ｕｎｉｔ＿ｔｙｐｅを有する全てのＮＡＬユニットについて０に等しい。

シンタックスの変更は、以下の表７で示される。表７は、ＮＡＬ（ＮｅｔｗｏｒｋＡｂｓｔｒａｃｔｉｏｎＬａｙｅｒ）ＳＶＣ（ＳｃａｌａｂｌｅＶｉｄｅｏＣｏｄｉｎｇ）多視点映像符号化の拡張のシンタックスを示す。

ｉｎｔｅｒ＿ｖｉｅｗ＿ｒｅｆｅｒｅｎｃｅ＿ｆｌａｇの意味は、以下のように規定される。
０に等しいｉｎｔｅｒ＿ｖｉｅｗ＿ｒｅｆｅｒｅｎｃｅ＿ｆｌａｇは、現在の画像が視点間の予測の参照のために使用されないことを示す。１に等しいｉｎｔｅｒ＿ｖｉｅｗ＿ｒｅｆｅｒｅｎｃｅ＿ｆｌａｇは、現在の画像が視点間の予測の参照のために使用されることを示す。

したがって、ｎａｌ＿ｒｅｆ＿ｉｄｃ及びｉｎｔｅｒ＿ｖｉｅｗ＿ｒｅｆｅｒｅｎｃｅ＿ｆｌａｇの組み合わせを見ることで、所与の参照画像のタイプを判定することができる。表８は、参照画像のタイプに関してｎａｌ＿ｒｅｆ＿ｉｄｃ及びｉｎｔｅｒ＿ｖｉｅｗ＿ｒｅｆｅｒｅｎｃｅ＿ｆｌａｇを示す。

この方法は、明らかであるように、更なるシンタックスを使用する。

本実施の形態の記載は、本発明の原理を説明する。したがって、当業者であれば、明示的に記載又は図示されていないが、本発明の原理を実施し、本発明の精神及び範囲に含まれる様々なアレンジメントを考案することができることを理解されたい。

本明細書に記載される全ての例及び条件付言語は、本発明の原理、及び当該技術分野を促進するために本発明者により寄与される概念の理解において読者を支援する教育の目的が意図され、係る特に引用される例及び条件に限定されないとして解釈される。さらに、係る等価な構成は、現在知られている等価な構成と同様に、将来的に開発される等価な構成、すなわち構造に関わらず、同じ機能を実行する開発されたエレメントを含む。

したがって、たとえば、本実施の形態で与えられるブロック図は、本発明の原理を実施する例示的な回路の概念を表すことが当業者により理解されるであろう。同様に、フローチャート、フローダイアグラム、状態遷移図、擬似コード等は、コンピュータ読み取り可能な媒体で実質的に表現され、コンピュータ又はプロセッサが明示的に示されているか否かに関わらず、コンピュータ又はプロセッサにより実行される様々なプロセスを表すことが理解されるであろう。

図面に示される様々なエレメントの機能は、適切なソフトウェアに関連するソフトウェアを実行可能なハードウェアと同様に、専用のハードウェアの使用を通して提供される。プロセッサにより提供されたとき、機能は、１つの専用のプロセッサにより提供され、１つの共有のプロセッサにより提供され、又は、そのうちの幾つかが共有される複数の個々のプロセッサにより提供される。さらに、用語「プロセッサ」又は「コントローラ」の明示的な使用は、ソフトウェアを実行可能なハードウェアを排他的に示すことが解釈されず、制限することなしに、デジタルシグナルプロセッサ（ＤＳＰ）ハードウェア、ソフトウェアを記憶するリードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、及び不揮発性ストレージを暗黙的に含む。

他のハードウェア、コンベンショナル及び／又はカスタムもまた含まれる場合がある。同様に、図示される任意のスイッチは、概念的なものである。それらの機能は、プログラムロジックの動作を通して、専用ロジックを通して、プログラム制御及び専用ロジックのインタラクションを通して、或いは手動的に実行され、特定の技術は、文脈からより詳細に理解されるように、実現者により選択可能である。

本発明の請求項では、特定の機能を実行する手段として表現されるエレメントは、たとえばａ）その機能を実行する回路素子の組み合わせ、又はｂ）その機能を実行するソフトウェアを実行する適切な回路と結合される、ファームウェア、マイクロコード等を含む任意の形式でのソフトウェアを含む機能を実行する任意の方法を包含することが意図される。係る請求項により定義される本発明の原理は、様々な引用される手段により提供される機能が結合され、請求項が求めるやり方で纏められる事実において存在する。したがって、それらの機能を提供する任意の手段は本実施の形態に示されるものに等価であるとみなされる。

本発明の原理の「１つの実施の形態」（又は「１つの実現」）又は「ある実施の形態」（又は「ある実現」）は、本実施の形態に関連して記載される特定の特徴、構造、特性が本発明の原理の少なくとも１つの実施の形態に含まれることを意味する。したがって、明細書全体を通して様々な位置に現れる「１つの実施の形態において」又は「ある実施の形態において」というフレーズの出現は、必ずしも同じ実施の形態を全て示すものではない。

たとえば「Ａ及び／又はＢ」の場合に、用語「及び／又は」の使用は、最初に列挙されたオプション（Ａ）の選択、第二に列挙されたオプション（Ｂ）の選択、又は両方のオプション（Ａ及びＢ）の選択を包含することが意図されることを理解されたい。更なる例として、「Ａ，Ｂ及び／又はＣ」の場合、係るフレーズは、第一の列挙されたオプション（Ａ）の選択、第二の列挙されたオプション（Ｃ）の選択、第一及び第二の列挙されたオプション（Ａ及びＢ）の選択、第一及び第三の列挙されたオプション（Ａ及びＣ）の選択、第二及び第三のオプション（Ｂ及びＣ）の選択、又は全ての３つのオプションの選択（Ａ及びＢ及びＣ）の選択を包含することが意図される。これは、列挙される多数のアイテムについて、当該及び関連する技術分野で当業者により容易に明らかであるように拡張される。

本実施の形態で使用されるように、「高水準のシンタックス」は、マクロブロックレイヤ上の階層にあるビットストリームに存在するシンタックスを示す。たとえば、本実施の形態で使用されるように、ハイレベルシンタックスは、限定されるものではないが、スライスヘッダレベル、ＳＥＩ（ＳｕｐｐｌｅｍｅｎｔａｌＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ）レベル、ＰＰＳ（ＰｉｃｔｕｒｅＰａｒａｍｅｔｅｒＳｅｔ）レベル、ＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）レベル、及びＮＡＬ（ＮｅｔｗｏｒｋＡｂｓｔｒａｃｔｉｏｎＬａｙｅｒ）ユニットヘッダレベルを示す。

さらに、本発明の１以上の実施の形態は、ＭＰＥＧ−４ＡＶＣ標準に関して記載されるが、本発明は、この標準又は何れかの標準のみに限定されないことを理解されたい。したがって、本発明は、他のビデオ符号化標準、勧告、及び、ＭＰＥＧ−４ＡＶＣ標準の拡張を含む拡張を含めて、他のビデオ符号化の実現及びシステムに関して利用される。

図１を参照して、例示的なＭＶＣエンコーダは、参照符号１００により示される。エンコーダ１００は、変換器１１０の入力と信号通信で接続される出力を有する結合器１０５を含む。変換器１１０の出力は、量子化器１１５の入力と信号通信で接続される。量子化器１１５の出力は、エントロピーエンコーダ１２０の入力及び逆量子化器１２５の入力と信号通信で接続される。逆量子化器１２５の出力は、逆変換器１３０の入力と信号通信で接続される。逆変換器１３０の出力は、結合器１３５の第一の非反転入力と信号通信で接続される。結合器１３５の出力は、イントラ予測器１４５の入力及びデブロッキングフィルタ１５０の入力と信号通信で接続される。デブロッキングフィルタ１５０の出力は、（視点ｉ向け）参照画像ストア１５５の入力と信号通信で接続される。参照画像ストア１５５の出力は、動き補償器１７５の第一の入力及び動き予測器１８０の第一の入力と信号通信で接続される。動き予測器１８０の出力は、動き補償器１７５の第二の入力と信号通信で接続される。

（他の視点向け）参照画像ストア１６０の出力は、ディスパリティ予測器１７０の第一の入力及びディスパリティ補償器１６５の第一の入力と信号通信で接続される。ディスパリティ予測器１７０の出力は、ディスパリティ補償器１６５の第二の入力と信号通信で接続される。

エントロピーエンコーダ１２０の出力は、エンコーダ１００の出力として利用可能である。結合器１０５の非反転入力は、エンコーダ１００の入力として利用可能であり、ディスパリティ予測器１７０の第二の入力及び動き予測器１８０の第二の入力と信号通信で接続される。スイッチ１８５の出力は、結合器１３５の第二の非反転入力及び結合器１０５の反転入力と信号通信で接続される。スイッチ１８５は、動き補償器１７５の出力と信号通信で接続される第一の入力、ディスパリティ補償器１６５の出力と信号通信で接続される第二の入力、及びイントラ予測器１４５の出力と信号通信で接続される第三の入力を含む。

図２を参照して、例示的なＭＶＣデコーダは、参照符号２００により示される。なお、エンコーダ１００及びデコーダ２００は、この開示を通して示される様々な方法を実行するために構成される。さらに、エンコーダ１００は、再構成プロセスの間に、様々なマーキング及び／又は取り除き機能を実行する。たとえば、エンコーダ１００は、期待されるデコーダのアクションを反映するように、デコードされたピクチャのバッファの現在の状態を維持する。結果的に、エンコーダ１００は、デコーダ２００により実行される全ての動作を実質的に実行する。

デコーダ２００は、逆量子化器２１０の入力と信号通信で接続される出力を有するエントロピーデコーダ２０５を含む。逆量子化器の出力は、逆変換器２１５の入力と信号通信で接続される。逆変換器２１５の出力は、結合器２２０の第一の非反転入力と信号通信で接続される。結合器２２０の出力は、デブロッキングブロッキングフィルタ２２５の入力及びイントラ予測器２３０の入力と信号通信で接続される。デブロッキングフィルタ２２５の出力は、（視点ｉ向け）参照画像ストア２４０の入力と信号通信で接続される。参照画像ストア２４０の出力は、動き補償器２３５の第一の入力と信号通信で接続される。

（他の視点向け）参照画像ストア２４５の出力は、ディスパリティ補償器２５０の第一の入力と信号通信で接続される。

エントロピーデコーダ２０５の入力は、残差のビットストリームを受けるため、デコーダ２００への入力として利用可能である。さらに、モードモジュール２６０の入力は、どの入力がスイッチ２５５により選択されるかを制御するコントロールシンタックスを受けるため、デコーダ２００への入力として利用可能である。さらに、動き補償器２３５の第二の入力は、動きベクトルを受けるため、デコーダ２００の入力として利用可能である。また、ディスパリティ補償器２５０の第二の入力は、ディスパリティベクトルを受けるため、デコーダ２００への入力として利用可能である。

スイッチ２５５の出力は、結合器２２０の第二の非反転入力との信号通信で接続される。スイッチ２５５の第一の入力は、ディスパリティ補償器２５０の出力との信号通信で接続される。スイッチ２５５の第二の入力は、動き補償器２３５の出力との信号通信で接続される。スイッチ２５５の第三の入力は、イントラ予測器２３０の出力と信号通信で接続される。モードモジュール２６０の出力は、どの入力がスイッチ２５５により選択されるかを制御するため、スイッチ２５５と信号通信で接続される。デブロッキングフィルタ２２５の出力は、デコーダの出力として利用可能である。

１以上の実施の形態は、効果的なデコードされた参照画像の管理のため、ＭＰＥＧ−４ＡＶＣ標準の多視点映像符号化の拡張向けの暗黙的な参照画像の記録プロセスを提供する。暗黙のデコードされた参照画像の記録は、明示的な記録コマンドのシグナリングなしに、デコーダサイドで利用可能な情報に基づいて導出される。提案される暗黙の記録プロセスは、高水準のシンタックスにより可能にされる。

また、依存情報に基づいて、係る依存の情報の明示的なシグナリングなしに、メモリからデコードされた画像を除く１以上の実現が提供される。係る除去は、記録と共に行われるか、記録なしで行われる場合がある。

ＭＰＥＧ−４ＡＶＣ標準に基づいた多視点映像符号化の現在の実現では、参照ソフトウェアは、１つのエンコーダでそれぞれの視点をエンコードし、クロスビューの参照を考慮することで、多視点の予測を達成する。さらに、多視点映像符号化の実現により、異なる視点間でフレーム数（ｆｒａｍｅ＿ｎｕｍ）及びピクチャオーダカウント（ＰＯＣ）が分離され、これにより同じｆｒａｍｅ＿ｎｕｍ及びＰＯＣをもつ画像がデコードされたピクチャのバッファ（ＤＰＢ）に存在することが可能である。これらのピクチャは、これに関連されるｖｉｅｗ＿ｉｄを使用して識別される。

図３を参照して、８つの視点（Ｓ０〜Ｓ７）を有し、ＭＰＥＧ−４ＡＶＣに基づいた視点間と時間の予測構造は、参照符号３００により示される。図３では、視点Ｓ０における画像Ｔ０〜Ｔ１１は、視点Ｓ１及びＳ２のためにのみ必要とされ、したがって、それらの画像は、視点Ｓ１及びＳ２がデコードされた後に必要とされない。したがって、ＭＰＥＧ−４ＡＶＣ標準ベースの多視点映像符号化（ＭＶＣ）の実現では、これらの画像は、参照のために使用されるとして記録され、したがって大容量のデコードされたピクチャのバッファを必要とする。これらの画像は、その視点の次のグループオブピクチャ（ＧＯＰ）における最初のピクチャに（参照のために使用されていないとして）記録することができる。したがって、ＭＰＥＧ−４ＡＶＣ標準ベースのＭＶＣの実現は、デコードされたピクチャのバッファを効率的に管理しない。

デコードされたピクチャのバッファを管理するため、ＭＰＥＧ−４ＡＶＣ標準に互換性のあるＭＭＣＯコマンドが実現において使用される。これらＭＭＣＯコマンドは、これらＭＭＣＯコマンドを保持するために使用されるものと同じｖｉｅｗ＿ｉｄをもつ画像でのみ動作する。

多視点映像符号化では、視点のセットを符号化するために異なる方法が存在する。１つのやり方は、タイムファースト符号化（ｔｉｍｅ−ｆｉｒｓｔｃｏｄｉｎｇ）と呼ばれる。これは、同じ時間の瞬間でサンプリングされた全ての視点から全てのピクチャを最初に符号化するものとして説明される。図３を参照して、これは、Ｔ０でサンプルされるＳ０〜Ｓ７を符号化し、続いて、Ｔ８でサンプルされるＳ０〜Ｓ７を符号化し、Ｔ４でサンプルされるＳ０〜Ｓ７を符号化することを含む。

別のやり方は、ビューファースト符号化（ｖｉｅｗ−ｆｉｒｓｔｃｏｄｉｎｇ）と呼ばれる。これは、異なる時間の瞬間でサンプルされた１つの視点からの画像のセットをはじめに符号化し、続いて、別の視点からの画像のセットを符号化するものとして記載される。

デコードされた参照画像の管理を効率的なものとするため、少なくとも１つの実現は、記録コマンドの明示的なシグナリングなしに、現在の視点とは異なるｖｉｅｗ＿ｉｄをもつデコードされた参照画像を（参照画像として必要とされないとして）記録することを提供する。クロスビューの参照のために使用される画像であって、時間の参照のために使用されない画像について、クロスビューの参照として画像を示す全ての画像をデコードした後に、デコーダは画像を「参照のために使用されない」として記録することができる。

本実施の形態で提供される本発明の原理の教示が与えられると、当該技術分野において通常の知識を有するものは、本発明の原理の精神を維持しつつ、「長期の参照画像として記録」のような他の記録のコマンドに、暗黙のデコードされた参照の記録に関する提案された考えを容易に拡張することができることを理解されたい。

ＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）は、異なる視点間の依存の構造を記述するシンタックスを定義する。これは、表４に示される。表４から、暗黙の記録プロセスは、その視点の完全な依存を示す依存マップ／グラフを導出する。したがって、所与の時間で、この導出されたマップ／グラフは、ある視点からのどの画像が「参照として使用されない」として記録されるかを判定するために調べることができる。

簡単な例として、図３の視点間の依存情報は、表４における情報から生成される。図３で想定される実現について、視点の数が既知である。さらに、所与の視点（ｖｉｅｗ＿ｉｄ［ｉ］）について、（１）全ての視点間の参照は、それぞれのアンカータイム（ａｎｃｈｏｒｔｉｍｅ）について同じであり、（２）全ての視点間の参照は、それぞれの非アンカータイムについて同じである。

次いで、所与の視点について、視点間のアンカーリファレンスの数は、（たとえばｊ１の値を有する）ｎｕｍ＿ａｎｃｈｏｒ＿ｒｅｆｓＩ０［ｉ］及び（たとえばｊ２の値を有する）ｎｕｍ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ１［ｉ］の総和により示される。所与の視点“ｉ”の個々のアンカーリファレンスは、（たとえばｊ＝１〜ｊ１）ａｎｃｈｏｒ＿ｒｅｆｓＩ０［ｉ］［ｊ］及び（たとえばｊ＝１〜ｊ２）ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ１［ｉ］［ｊ］の総和により示される。

同様に、所与の視点について、視点間のノンアンカーリファレンスの数は、（たとえばｊ１の値を有する）ｎｕｍ＿ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆｓＩ０［ｉ］及び（たとえばｊ２の値を有する）ｎｕｍ＿ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ１［ｉ］の総和により示される。所与の視点“ｉ”の個々のノンアンカーリファレンスは、（たとえばｊ＝１〜ｊ１）ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆｓＩ０［ｉ］［ｊ］及び（たとえばｊ＝１〜ｊ２）ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ１［ｉ］［ｊ］の総和により示される。

時間参照のためにある画像が必要とされるかに関する状態は、多数のやり方で指示される。たとえば、状態は、ＮＡＬユニットヘッダにおけるｎａｌ＿ｒｅｆ＿ｉｄｃシンタックスで指示される。さらに、係る情報が時間スケーラビリティについて存在する場合、状態は、時間レベルで示すことができる。係るケースでは、最も高いｔｅｍｐｏｒａｌ＿ｌｅｖｅｌをもつ画像は、時間参照のために使用されない。さらに、状態は、たとえば画像が時間参照のためにのみ使用されることを明示的に示すシンタックスのような、他の高水準のシンタックスにより示される。

以下は、暗黙のデコードされた参照の記録を実行するための１つの実施の形態である。ある画像は時間参照のために使用されず、クロスビュー参照のために使用される場合、デコーダは、その画像を、以下の条件が満たされたときに「参照のために使用されない」として記録する。クロスビューの参照画像として現在の画像を使用する全ての画像が符号化されている。

暗黙の参照画像の記録を可能にすることで、既存の記録プロセスを変えることなしに、及びＭＰＥＧ−４ＡＶＣ標準におけるシンタックスを変えることなしに、クロスビューの参照画像を効率的に管理することができる。

多視点映像符号化系列をタイムファーストで符号化すべきか、又はビューファーストで符号化すべきかを判定することは、エンコーダの選択である。この情報は、正しい暗黙の記録が導出されるように、デコーダに伝達される必要がある。したがって、符号化スキームのタイプを指示するため、高水準のシンタックスとしてフラグを含むことが提案される。このフラグをｍｖｃ＿ｃｏｄｉｎｇ＿ｍｏｄｅ＿ｆｌａｇと呼ぶ。１実施の形態では、このフラグは、表９に示されるようにＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）で指示される。表９は、ＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）ＭＶＣ（ｍｕｌｔｉ−ｖｉｅｗｖｉｄｅｏｃｏｄｉｎｇ）の拡張シンタックスを示す。このフラグの意味は、以下のように記載される。

ｍｖｃ＿ｃｏｄｉｎｇ＿ｍｏｄｅ＿ｆｌａｇは、ＭＶＣ系列がタイムファースト符号化のスキームを使用するか、又はビューファースト符号化のスキームを使用するかを示す。ｍｖｃ＿ｃｏｄｉｎｇ＿ｍｏｄｅ＿ｆｌａｇが１に等しいとき、ＭＶＣ系列は、タイムファーストとしてエンコードされる。ｍｖｃ＿ｃｏｄｉｎｇ＿ｍｏｄｅ＿ｆｌａｇが０に等しいとき、ＭＶＣ系列は、ビューファーストとしてエンコードされる。

多視点映像符号化系列を符号化する方法がタイムファーストであること仮定する。図３から、クロスビュー（「視点間」とも呼ばれる）参照としてのみ使用され、時間参照として使用されない偶数の視点（Ｓ０，Ｓ２，．．．）における所定の画像（Ｔ１，Ｔ３．．．）が存在することがわかる。これらの画像は、最も高い時間レベルを有する。係る画像は、クロスビュー画像であることを示すため、ビットストリームにおける特別のフラグにより識別される。ひとたび、これらの画像がクロスビュー参照として使用されると、これらの画像は、もはや必要とされず、時間参照又はクロスビュー参照の何れかについて不使用として記録される。たとえば、ひとたび、（Ｓ１，Ｔ１）が（Ｓ０，Ｔ１）を参照すると、（Ｓ０，Ｔ１）は必要とされない。

さらに、時間又はクロスビューでの参照のために使用されない奇数の視点（Ｓ１，Ｓ３，．．．）における画像（Ｔ１，Ｔ３．．．）が存在する。かかる画像は、最も高い時間レベルを有し、非参照画像である。暗黙の記録を使用して、これらの画像を（時間又は視点間）参照のために使用されないとして記録する。

実施の形態では、この暗黙の記録プロセスをイネーブル又はディスエーブルにする高水準のシンタックスとしてフラグを導入することが提案される。このフラグをｉｍｐｌｉｃｉｔ＿ｍａｒｋｉｎｇと呼ぶ。１実施の形態では、このフラグは、表９に示されるＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）で指示される。

また、ｉｍｐｌｉｃｉｔ＿ｍａｒｋｉｎｇフラグは、使用される符号化スキームに関して調整される。たとえば、ｉｍｐｌｉｃｉｔ＿ｍａｒｋｉｎｇフラグは、符号化スキームがタイムファースト符号化であるときにのみ使用される。このことは、図１０に示される。表１０は、ＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）ＭＶＣ（Ｍｕｌｔｉ−ｖｉｅｗＶｉｄｅｏＣｏｄｉｎｇ）の拡張シンタックスを示す。

ｉｍｐｌｉｃｉｔ＿ｍａｒｋｉｎｇは、暗黙の記録プロセスが「参照のために使用されない」として画像を記録するために使用されるかを示す。ｉｍｐｌｉｃｉｔ＿ｍａｒｋｉｎｇが１に等しいとき、暗黙の記録がイネーブルにされる。ｉｍｐｌｉｃｉｔ＿ｍａｒｋｉｎｇが０に等しいとき、暗黙の記録がディスエーブルにされる。

１以上の実施の形態によれば、参照画像のタイプに関する情報を暗黙的に導出するアプローチが提案される。このアプローチは、更なるシンタックスを必要とせず、ＪＭＶＭ（ＪｏｉｎｔＭｕｌｔｉ−ｖｉｅｗＶｉｄｅｏＭｏｄｅｌ）の実現において既存のシンタックスを使用する。ＪＭＶＭ（ＪｏｉｎｔＭｕｌｔｉ−ｖｉｅｗＶｉｄｅｏＭｏｄｅｌ）の実現は、ある視点について視点間の参照を示すため、ＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）において高水準のシンタックスを含む。この実現は、リファレンスビューの識別子を個別に送出することで、アンカーピクチャとノンアンカーピクチャの依存を識別する。これは表４に示されており、この表は、所定の視点の参照としてどの視点が使用されるかに関する情報を含む。視点間の参照としてどの視点が使用され、どの視点が使用されないかを示すため、この情報が使用され、参照テーブル又は他のデータ構造が生成される。さらに、この情報は、アンカーピクチャ及びノンアンカーピクチャについて個別に知ることができる。結果として、ＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）におけるリファレンスビュー情報を利用することで、ある画像が視点間の予測のために必要とされるかを導出することができる。

ＭＰＥＧ−４ＡＶＣ標準では、ＮＡＬ（ＮｅｔｗｏｒｋＡｂｓｔｒａｃｔｉｏｎＬａｙｅｒ）ユニットヘッダに存在するｎａｌ＿ｒｅｆ＿ｉｄｃを使用して、ある画像が参照画像として識別される。多視点映像符号化の環境で、画像が時間参照（すなわちそれ自身の視点のための参照）のために使用されるかを示すためにのみ、ｎａｌ＿ｒｅｆ＿ｉｄｃが使用される。

ＪＭＶＭ（ＪｏｉｎｔＭｕｌｔｉ−ｖｉｅｗＶｉｄｅｏＭｏｄｅｌ）の実現のＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）からの情報及びＮＡＬ（ＮｅｔｗｏｒｋＡｂｓｔｒａｃｔｉｏｎＬａｙｅｒ）ユニットヘッダに存在するｎａｌ＿ｒｅｆ＿ｉｄｃ（図７）を使用して、表５に示されるケースを区別することが可能である。したがって、ＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）からのリファレンスビュー情報と共にｎａｌ＿ｒｅｆ＿ｉｄｃの値を使用して、表５の組み合わせの全てに対処することができる。

たとえば、図３を参照して、以下の異なるケースを考慮する。視点Ｓ０がｖｉｅｗ＿ｉｄ＝０を有し、Ｓ１がｖｉｅｗ＿ｉｄ＝１を有し、Ｓ２がｖｉｅｗ＿ｉｄ＝２を有するものとする。

Ｓ０について：
ＳＰＳシンタックスは、以下の値を有しており、“ｉ”はＳ０に対応する値を有する。
ｎｕｍ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ０［ｉ］，
ｎｕｍ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ１［ｉ］，
ｎｕｍ＿ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ０［ｉ］及び
ｎｕｍ＿ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ１［ｉ］は、全て０に等しい。

Ｓ１について：
ＳＰＳシンタックスは、以下の値を有しており、“ｉ”はＳ１に対応する値を有し、ｊ＝０である。
ｎｕｍ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ０［ｉ］＝１，
ｎｕｍ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ１［ｉ］＝１，
ｎｕｍ＿ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ０［ｉ］＝１及び
ｎｕｍ＿ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ１［ｉ］＝１。

ａｎｃｈｏｒ＿ｒｅｆ＿Ｉ０［ｉ］［ｊ］＝０，
ａｎｃｈｏｒ＿ｒｅｆ＿Ｉ１［ｉ］［ｊ］＝２，
ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆ＿Ｉ０［ｉ］［ｊ］＝０及び
ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆ＿Ｉ１［ｉ］［ｊ］＝２
Ｓ２について：
ＳＰＳシンタックスは、以下の値を有しており、これらの値は、この視点がアンカーピクチャについて視点間の参照を使用することを示す。このインデックスは、Ｓ２に対応する値を有する“ｉ”、及びｊ＝０に設定される。
ｎｕｍ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ０［ｉ］＝１，
ｎｕｍ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ１［ｉ］＝０，
ｎｕｍ＿ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ０［ｉ］＝１，
ｎｕｍ＿ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ１［ｉ］＝０及び
ａｎｃｈｏｒ＿ｒｅｆ＿Ｉ０［ｉ］［ｊ］＝０
Ｓ３〜Ｓ７についても同様である。

全ての視点について、時間Ｔ１及びＴ３での画像は、０に等しいｎａｌ＿ｒｅｆ＿ｉｄｃを有する。さらに、時間Ｔ０／Ｔ２／Ｔ４での画像は、０に等しいｎａｌ＿ｒｅｆ＿ｉｄｃを有する。

先の情報を使用して、表１１に示される以下の情報が導出されることがわかる。なお、４つのカテゴリのそれぞれについて１つのみの例が提供されたが、全ての視点からの全ての画像は、先の方法論を使用してカテゴリ化される。

したがって、表５における条件について区別されるのを必要とする画像を識別する更なるシグナリングが必要とされない。

この導出された情報の１つのアプリケーションは、上述された暗黙の記録プロセスである。勿論、本発明の原理は、上述された暗黙の記録プロセスを含む応用のみに制限されず、当業者であれば、本発明の精神を保持しつつ、本発明の原理が適用されるこの応用及び他の応用を考案されるであろう。

また、先の方法論は、ある画像をメモリ（たとえばデコードされたピクチャのバッファ）から何時除くかを判定するため、使用することもできる。なお、記録が実行される必要はないが、実行される場合がある。例として、視点間の参照のみである画像Ｓ２，Ｔ１を考える。タイムファースト符号化を使用する実現を想定し、（この実現にとって同じピクチャオーダカウントを有することと等価である）所与の時間での視点は、以下の順序でエンコードされる。Ｓ０，Ｓ２，Ｓ１，Ｓ４，Ｓ３，Ｓ６，Ｓ５及びＳ７。１つの実現は、以下のアルゴリズムを使用してデコードされたピクチャのバッファからＳ２，Ｔ１を除く。

Ｔ１（たとえばＳ１，Ｔ１）においてある画像をデコードした後、デコードされたピクチャのバッファに記憶されているＴ１からの他の画像が存在するかが判定される。これにより、Ｓ２，Ｔ１はデコードされたピクチャのバッファに記憶されることが明らかとなる。
係る他の画像が存在する場合、視点間の参照のみであるかが判定される。これにより、Ｓ２，Ｔ１は視点間の参照のみの画像であることが明らかとなる。

視点間の参照のみであるそれぞれの係る画像について、デコードされるために残されているＴ１での全ての視点を考え、それらの視点の何れかが記憶されているピクチャを参照するかが判定される。たとえば、残りの視点がＳ２を参照するかが判定される。

全ての残りの視点を考慮する最後のステップは、アンカーピクチャ及びノンアンカーピクチャについて個別に実行される。すなわち、アンカーピクチャとノンアンカーピクチャについて異なるシンタックスが評価される。たとえば、Ｓ２，Ｔ１は、ノンアンカーピクチャであり、したがって、全ての後続する視点“ｉ”について以下のシンタックスが潜在的に評価される。ｎｕｍ＿ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆｓ＿Ｉ０［ｉ］，ｎｕｍ＿ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆｓＩ１［ｉ］，ｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆ＿Ｉ０［ｉ］［ｊ］及びｎｏｎ＿ａｎｃｈｏｒ＿ｒｅｆ＿Ｉ１［ｉ］［ｊ］。Ｓ１（現在デコードされた視点）に後続する視点は、Ｓ４，Ｓ３，Ｓ６，Ｓ５及びＳ７である。これらの視点のシンタックスは、Ｓ３がＳ２に依存することを明らかにする。したがって、Ｓ２は除かれない。しかし、Ｓ３をデコードした後、先のアルゴリズムは、記憶されたＳ２画像を再び考慮し、残りの視点（Ｓ６，Ｓ５及びＳ７）のいずれもがＳ２を参照しないことを明らかにする。したがって、Ｓ３をデコードした後、Ｓ２は、デコードされたピクチャのバッファから除かれる。これは、Ｓ０，Ｓ２，Ｓ１，Ｓ４及びＳ３をデコードした後に生じる。

図４を参照して、多視点映像符号化の参照画像の管理データをエンコードする例示的な方法は、参照符号４００により示される。

本方法４００は、開始ブロック４０２を含み、このブロックは、制御を機能ブロック４０４に移す。機能ブロック４０４は、エンコーダのコンフィギュレーションファイルを読み取り、制御を機能ブロック４０６に移す。機能ブロック４０６は、ＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）の拡張においてアンカー及びノンアンカーピクチャの参照を設定し、制御を機能ブロック４０８に移す。機能ブロック４０８は、タイムファースト又はビューファースト符号化を示すため、ｍｖｃ＿ｃｏｄｉｎｇ＿ｍｏｄｅを設定し、制御を判定ブロック４１０に移す。判定ブロック４１０は、ｍｖｃ＿ｃｏｄｉｎｇ＿ｍｏｄｅが１に等しいか否かを判定する。ｍｖｃ＿ｃｏｄｉｎｇ＿ｍｏｄｅが１に等しい場合、制御は機能ブロック４１２に移される。さもなければ、制御は機能ブロック４１４に移される。機能ブロック４１２は、ｉｍｐｌｉｃｉｔ＿ｍａｒｋｉｎｇを１又は０に設定し、制御を機能ブロック４１４に移す。

機能ブロック４１４は、視点の数を変数Ｎに等しくし、変数ｉ及び変数ｊを共に０に初期化し、制御を判定ブロック４１６に移す。判定ブロック４１６は、変数ｉが変数Ｎよりも少ないか否かを判定する。変数ｉが変数Ｎよりも少ない場合、制御は、判定ブロック４１８に移される。さもなければ、制御は、判定ブロック４４２に移される。

判定ブロック４１８は、変数ｊが視点ｉにおいて画像の数よりも少ないか否かを判定する。変数ｊが視点ｉにおいて画像の数よりも少ない場合、制御は機能ブロック４２０に通過される。さもなければ、制御は機能ブロック４４０に通過される。図４の実現は、ビューファーストの符号化の実現であることがわかる。図４は、タイムファーストの符号化を実行する類似のプロセスを提供するために適合される。

機能ブロック４２０は、視点ｉにおける画像の現在のマクロブロックのエンコードを開始し、制御を機能ブロック４２２に移す。機能ブロック４２２は、マクロブロックモードを選択し、制御を機能ブロック４２４に移す。機能ブロック４２４は、マクロブロックをエンコードし、制御を判定ブロック４２６に移す。判定ブロック４２６は、全てのマクロブロックがエンコードされたか否かを判定する。全てのマクロブロックがエンコードされた場合、制御を機能ブロック４２８に移す。さもなければ、制御は機能ブロック４２０に戻される。

機能ブロック４２８は、変数ｊをインクリメントし、制御を機能ブロック４３０に移す。機能ブロック４３０は、ｆｒａｍｅ＿ｎｕｍ及びＰＯＣ（ＰｉｃｔｕｒｅＯｒｄｅｒＣｏｕｎｔ）をインクリメントし、制御を判定ブロック４３２に移す。判定ブロック４３２は、ｉｍｐｌｉｃｉｔ＿ｍａｒｋｉｎｇが１に等しいか否かを判定する。ｉｍｐｌｉｃｉｔ＿ｍａｒｋｉｎｇが１に等しい場合、制御を機能ブロック４３４に移す。さもなければ、制御は判定ブロック４１８に移される。

判定ブロック４３４は、（この実現では）高水準で示された依存情報に基づいて、（現在評価された）リファレンスビューが将来の視点の参照として必要とされるか否かを判定する。リファレンスビューが将来の視点の参照として必要とされる場合、制御は判定ブロック４１８に戻される。さもなければ、制御は機能ブロック４３６に移される。

機能ブロック４４０は、変数ｉをインクリメントし、ｆｒａｍｅ＿ｎｕｍ、ＰＯＣ及び変数ｊをリセットし、制御を判定ブロック４１６に戻す。

機能ブロック４３６は、リファレンスビューの画像を「参照のために使用されない」として記録し、制御を判定ブロック４１８に戻す。

判定ブロック４４２は、ＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）、ＰＰＳ（ＰｉｃｔｕｒｅｐａｒａｍｅｔｅｒＳｅｔ）、ＶＰＳ（ＶｉｅｗＰａｒａｍｅｔｅｒＳｅｔ）を帯域内で指示するか否かを判定する。ＳＰＳ、ＰＰＳ及びＶＰＳを帯域内で指示する場合、制御を機能ブロック４４４に移す。さもなければ、制御を機能ブロック４４６に移す。

機能ブロック４４４は、ＳＰＳ，ＰＰＳ及びＶＰＳを帯域内で送出し、制御を機能ブロック４４８に移す。

機能ブロック４４６は、ＳＰＳ，ＰＰＳ及びＶＰＳを帯域外で送出し、制御を機能ブロック４４８に移す。

機能ブロック４４８は、ビットストリームをファイルに書き込むか、又はビットストリームをネットワークを通してストリーミングし、制御を終了ブロック４９９に移す。ＳＰＳ、ＰＰＳ又はＶＰＳが帯域内でシグナリングされた場合、係るシグナリングは、ビデオデータストリームで送出されることが理解される。

図５を参照して、多視点映像符号化向けの参照画像の管理データをデコードする例示的な方法は、参照符号５００により示される。

本方法５００は、開始ブロック５０２を含み、このブロックは、制御を機能ブロック５０４に移す。機能ブロック５０４は、ＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）、ＰＰＳ（ＰｉｃｔｕｒｅｐａｒａｍｅｔｅｒＳｅｔ）、ＶＰＳ（ＶｉｅｗＰａｒａｍｅｔｅｒＳｅｔ）、スライスヘッダ又はＮＡＬ（ＮｅｔｗｏｒｋＡｂｓｔｒａｃｔｉｏｎＬａｙｅｒ）ユニットヘッダからのｖｉｅｗ＿ｉｄを分析し、制御を機能ブロック５０６に移す。機能ブロック５０６は、ＳＰＳ、ＰＰＳ、ＮＡＬユニットヘッダ、スライスヘッダ又はＳＥＩ（ＳｕｐｐｌｅｍｅｎｔａｌＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ）メッセージからタイムファースト又はビューファースト符号化を示すためにｍｖｃ＿ｃｏｄｉｎｇ＿ｍｏｄｅを分析し、制御を機能ブロック５０８に移す。機能ブロック５０８は、他のＳＰＳパラメータを分析し、制御を判定ブロック５１０に移す。判定ブロック５１０は、ｍｖｃ＿ｃｏｄｉｎｇ＿ｍｏｄｅが１に等しいか否かを判定する。ｍｖｃ＿ｃｏｄｉｎｇ＿ｍｏｄｅが１に等しい場合、制御は機能ブロック５１２に移る。さもなければ、制御は判定ブロック５１４に移る。

機能ブロック５１２は、ｉｍｐｌｉｃｉｔ＿ｍａｒｋｉｎｇを分析し、制御を判定ブロック５１４に移す。判定ブロック５１４は、現在の画像がデコードを必要とするか否かを判定する。現在のピクチャがデコードを必要とする場合、制御を機能ブロック５２８に移す。さもなければ、制御を機能ブロック５４６に移す。

機能ブロック５２８は、スライスヘッダを分析し、制御を機能ブロック５３０に移す。機能ブロック５３０は、マクロブロックモード、動きベクトルおよびｒｅｆ＿ｉｄｘを分析し、制御を機能ブロック５３２に制御する。機能ブロック５３２は、現在のマクロブロック（ＭＢ）をデコードし、制御を判定ブロック５３４に移す。判定ブロック５３４は、全てのマクロブロックが行われたかを判定する。全てのマクロブロックが行われた場合、制御を機能ブロック５３６に移す。さもなければ、制御は機能ブロック５３０に戻される。

機能ブロック５３６は、デコードされたピクチャのバッファ（ＤＰＢ）に現在のピクチャを挿入し、制御を判定ブロック５３８に移す。判定ブロック５３８は、暗黙の記録が１に等しいか否かを判定する。暗黙の記録が１に等しい場合、制御を判定ブロック５４０に移す。さもなければ、制御を判定ブロック５４４に移す。

判定ブロック５４０は、高水準で示された依存情報に基づいて、現在のリファレンスビューが将来の視点の参照として必要とされるか否かを判定する。現在のリファレンスビューが将来の視点の参照として必要とされる場合、制御を判定ブロック５４４に移す。さもなければ、制御を機能ブロック５４２に移す。

判定ブロック５４４は、全ての画像がデコードされているか否かを判定する。全ての画像がデコードされている場合、制御を終了ブロック５９９に移す。さもなければ、制御は機能ブロック５４６に戻される。

機能ブロック５４６は、次の画像を取得し、制御を判定ブロック５１４に戻す。

図５は、ビューファーストの符号化データとタイムファーストの符号化データの両方で使用される場合があるデコーダの実現を提供する。

図６を参照して、多視点映像コンテンツの視点間の依存を判定する例示的な方法は、参照符号６００により示される。実施の形態では、本方法６００は、たとえば図１のエンコーダ１００のようなエンコーダにより実施される。

本方法６００は、開始ブロック６０２を含み、このブロックは、制御を機能ブロック６０４に移す。機能ブロック６０４は、エンコーダコンフィギュレーションファイルを読み取り、制御を機能ブロック６０６に移す。機能ブロック６０６は、ＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）の拡張におけるアンカー及びノンアンカーピクチャの参照を設定し、機能ブロック６０８に制御を移す。機能ブロック６０８は、エンコーダコンフィギュレーションファイルに基づいて他のＳＰＳパラメータを設定し、制御を判定ブロック６１０に移す。判定ブロック６１０は、現在の（アンカー／ノンアンカー）ピクチャが時間参照であるか否かを判定する。現在の（アンカー／ノンアンカー）ピクチャが時間参照である場合、制御を機能ブロック６１２に移す。さもなければ、制御を機能ブロック６２４に移す。

機能ブロック６１２は、ｎａｌ＿ｒｅｆ＿ｉｄｃを１に等しく設定し、制御を判定ブロック６１４に移す。判定ブロック６１４は、ＳＰＳシンタックスに基づいて、現在の視点が他の視点の参照として使用されるか否かを判定する。現在の視点が他の視点の参照として使用される場合、制御を機能ブロック６１６に移す。さもなければ、制御を機能ブロック６２６に移す。

機能ブロック６１６は、現在の画像を視点間の参照画像として記録し、制御を判定ブロック６１８に制御する。判定ブロック６１８は、ｎａｌ＿ｒｅｆ＿ｉｄｃが０に等しいか否かを判定する。ｎａｌ＿ｒｅｆ＿ｉｄｃが０に等しい場合、制御を判定ブロック６２０に移す。さもなければ、制御を判定ブロック６３０に移す。

判定ブロック６２０は、現在の画像が視点間の参照画像であるか否かを判定する。現在の画像が視点間の参照画像である場合、制御を機能ブロック６２２に移す。さもなければ、制御を機能ブロック６２８に移す。

機能ブロック６２２は、現在の画像を視点間の参照画像のみの画像として設定し、制御を終了ブロック６９９に移す。

機能ブロック６２４は、ｎａｌ＿ｒｅｆ＿ｉｄｃを０に設定し、制御を判定ブロック６１４に移す。

機能ブロック６２６は、現在の画像を視点間の参照画像のために使用されないとして記録し、制御を判定ブロック６１８に移す。

機能ブロック６２８は、現在の画像を参照のために使用されないとして設定し、制御を終了ブロック６９９に移す。

判定ブロック６３０は、現在の画像が視点間の参照画像であるか否かを判定する。現在の画像が視点間の参照画像である場合、制御を機能ブロック６３２に移す。さもなければ、制御を機能ブロック６３４に移す。

機能ブロック６３２は、現在の画像を時間及び視点間の参照画像として設定し、制御を終了ブロック６９９に移す。

機能ブロック６３４は、現在の画像を時間のみの参照として設定し、制御を終了ブロック６９９に移す。

図７を参照して、多視点映像コンテンツの視点間の依存を判定する例示的な方法は、参照符号７００により示される。実施の形態では、本方法７００は、図２のデコーダ２００のようなデコーダにより実施される。

本方法７００は、開始ブロック７０２を含む、このブロックは、制御を機能ブロック７０４に移す。機能ブロック７０４は、ＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）（視点依存構造を読み取る）、ＰＰＳ（ＰｉｃｔｕｒｅｐａｒａｍｅｔｅｒＳｅｔ）、ＮＡＬ（ＮｅｔｗｏｒｋＡｂｓｔｒａｃｔｉｏｎＬａｙｅｒ）ユニットヘッダ、及びスライスヘッダを読み取り、制御を機能ブロック７０６に移す。判定ブロック７０６は、ＳＰＳシンタックスに基づいて、現在の視点が他の視点について参照として使用されるか否かを判定する。現在の視点が他の視点の参照として使用される場合、制御を機能ブロック７０８に移される。さもなければ、制御を機能ブロック７１６に移す。

機能ブロック７０８は、現在の画像を視点間の参照画像として記録し、制御を判定ブロック７１０に移す。判定ブロック７１０は、ｎａｌ＿ｒｅｆ＿ｉｄｃが０に等しいか否かを判定する。ｎａｌ＿ｒｅｆ＿ｉｄｃが０に等しい場合、制御を判定ブロック７１２に移す。さもなければ、制御を判定ブロック７２０に移す。

判定ブロック７１２は、現在の画像が視点間の参照画像であるか否かを判定する。現在の画像が視点間の参照画像である場合、制御を機能ブロック７１４に移す。さもなければ、制御を機能ブロック７１８に移す。

機能ブロック７１４は、現在の画像を視点間のみの参照画像として設定し、制御を終了ブロック７９９に移す。

機能ブロック７１８は、現在の画像を参照のために使用されないとして設定し、制御を終了ブロック７９９に移す。

ステップ７１６は、現在の画像を視点間の参照画像のために使用されないとして記録し、制御を判定ブロック７１０に移す。

判定ブロック７２０は、現在の画像が視点間の参照画像であるか否かを判定する。現在の画像が視点間の参照画像である場合、制御を機能ブロック７２２に移す。さもなければ、制御を機能ブロック７２４に移す。

機能ブロック７２２は、現在の画像を時間及び視点間の参照画像として設定し、制御を終了ブロック７９９に移す。

機能ブロック７２４は、時間のみの参照として現在の画像を設定し、制御を終了ブロック７９９に移す。

図８を参照して、本発明の原理が適用される例示的なエンコーダの高水準のダイアグラムは、参照符号８００により示される。

エンコーダ８００は、ビデオデータエンコーダ８２０の入力と信号通信する出力を有する高水準のシンタックスジェネレータ８１０を含む。ビデオデータエンコーダ８２０の出力は、ビットストリーム及び、任意に、ビットストリームと帯域内の１以上のハイレベルシンタックスエレメントを出力するため、エンコーダ８００の出力として利用可能である。高水準のシンタックスのジェネレータ８１０の出力は、ビットストリームに関して帯域外の１以上の高水準のシンタックスエレメントを出力するため、エンコーダ８００の出力として利用可能である。ビデオデータエンコーダの入力及び高水準のシンタックスジェネレータ８１０の入力は、入力ビデオデータを受信するため、エンコーダ８００の入力として利用可能である。

高水準のシンタックスジェネレータ８１０は、１以上の高水準のシンタックスエレメントを発生する。先に述べたように、本実施の形態で使用されるように、「高水準のシンタックス」は、マクロブロックレイヤよりも上の階層にあるビットストリームに存在するシンタックスを示す。たとえば、本実施の形態で使用される高水準のシンタックスは、限定されるものではないが、スライスヘッダレベル、ＳＥＩ（ＳｕｐｐｌｅｍｅｎｔａｌＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ）レベル、ＰＰＳ（ＰｉｃｔｕｒｅＰａｒａｍｅｔｅｒＳｅｔ）レベル、ＳＰＳ（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ）レベル及びＮＡＬ（ＮｅｔｗｏｒｋＡｂｓｔｒａｃｔｉｏｎＬａｙｅｒ）ユニットヘッダレベルにあるシンタックスを示す。ビデオデータエンコーダ８２０は、ビデオデータをエンコードする。

図９を参照して、本発明の原理が適用される例示的なデコーダの高水準のダイアグラムは、参照符号９００により示される。

デコーダ９００は、ビデオデータエンコーダ９２０の入力と信号通信する出力を有する高水準のシンタックスリーダ９１０を含む。ビデオデータデコーダ９２０の出力は、画像を出力するため、デコーダ９００の出力として利用可能である。ビデオデータデコーダ９２０の出力は、画像を出力するため、デコーダ９００の出力として利用可能である。ビデオデータデコーダ９２０の入力は、ビットストリームを受信するため、デコーダ９００の入力として利用可能である。高水準のシンタックスジェネレータ９１０の入力は、ビットストリームに関して帯域外の１以上の高水準のシンタックスエレメントを任意に受信するため、デコーダ９００の入力として利用可能である。

ビデオデータデコーダ９２０は、高水準のシンタックスを読み取ることを含めて、ビデオデータをデコードする。したがって、帯域内のシンタックスがビットストリームで受信された場合、ビデオデータデコーダ９２０は、高水準のシンタックスを読み取ることを含めて、データを完全にデコードする。帯域外の高水準のシンタックスが送出された場合、係るシンタックスは、高水準のシンタックスリーダ９１０により（又はビデオデータデコーダ９２０により直接的に）受信される。

図１０を参照して、プロセス１０００が示される。プロセス１０００は、データにアクセスし（１０１０）、アクセスされたデータに基づいて依存度が決定される（１０２０）。１つの特定の実現では、アクセスされたデータ（１０１０）は、第一の視点からの画像、第二の視点からの画像、及び依存情報を含む。依存情報は、第一の視点からの画像の１以上の視点間の依存の関係を記述する。たとえば、依存情報は、第一の視点からの画像が第二の視点からの画像の参照画像であることを記述する。特定の実現では、決定された依存度（１０２０）は、第一の視点からの画像が第二の視点からの参照画像であるかに関する判定を含む。

図１１を参照して、プロセス１１００が示される。プロセス１１００は、データにアクセスし（１１１０）、画像をデコードし（１１２０）、デコードされた画像を記憶し（１１３０）、記憶された画像を除く（１１４０）ことを含む。１つの特定の実現では、アクセスされたデータ（１１１０）は、第一の視点からの画像及び依存情報を含む。依存情報は、第一の視点からの画像の１以上の視点間の依存関係を記述する。たとえば、依存情報は、第一の視点からの画像が未だデコードされていない同じピクチャオーダカウントをもつ画像の参照画像ではないことを記述する。特定の実現では、第一の視点からの画像は、動作１１２０でデコードされ、動作１１３０でメモリに記憶される。特定の実現では、記憶されたデコードされた画像は、依存情報（１１４０）に基づいてメモリから除かれる。たとえば、依存情報は、第一の視点からの画像が未だデコードされていない同じピクチャオーダカウントをもつ画像の参照画像ではないことを示す。係るケースでは、第一の視点からの画像は、参照画像としてもはや必要とされず、メモリから除かれる。

なお、別の実現では、動作１１１０〜１１３０は任意であって、含まれない。すなわち、実現は、動作１１４０を実行することからなる。代替的に、動作１１１０〜１１３０は、１つの装置により実行され、動作１１４０は、個別の装置により実行される場合がある。

用語「エンコーダ」及び「デコーダ」は一般的な構造を暗示し、特定の機能又は特徴に限定されない。たとえば、デコーダは、エンコードされたビットストリームを搬送する変調波を受信し、ビットストリームをデコードするのと同様に、エンコードされたビットストリームを復調する。

さらに、幾つかの実現において所定の情報を送出する高水準のシンタックスの使用は参照されている。しかし、他の実現は、下位レベルのシンタックス、又は同じ情報（又はその情報のバリエーション）を提供するために（たとえばエンコードされたデータの一部としての情報を送出するような）他のメカニズムを使用することを理解されたい。

さらに、幾つかの実現は、メモリから画像を「除く」として記載された。用語「除く」は、たとえば画像の除去、削除、デリスティング又はデリファレンシング、又は画像を使用不可能にすること、アクセス不可能にすることといった作用を有する様々なアクションの何れかを包含する。例として、画像は、画像に関連されるメモリの割り当てを解除し、そのメモリをオペレーティングシステムに与えることで、又はメモリをメモリプールに与えることで「除かれる」場合がある。

様々な実現は、ある画像が別の画像（参照画像）に依存する場合があることを記述する。係る依存度は、「参照画像」の幾つかのバリエーションのうちの１つに基づく場合がある。たとえば、画像は、画像と符号化されていないオリジナルの参照画像又はデコードされた参照画像との間の差として形成される場合がある。さらに、どの参照画像のバリエーションが所与の画像をエンコードする基礎として使用されるかに関わらず、デコーダは、実際に利用可能なバリエーションを使用する場合がある。たとえば、デコーダは、不完全にデコードされた参照画像へのアクセスのみを有する場合がある。用語「参照画像」は、存在する多数の可能性を包含することが意図される。

本明細書で記載される実現は、たとえば方法又はプロセス、装置、或いはソフトウェアプログラムで実現される。（たとえば方法としてのみ説明される）実現の１つの形式の文脈でのみ説明されたとしても、説明された特徴の実現は、（たとえば装置又はプログラムといった）他の形式でも実現される場合がある。装置は、たとえば適切なハードウェア、ソフトウェア及びファームウェアで実現される。本方法は、たとえばプロセッサのような装置で実現され、このプロセッサは、たとえばコンピュータ、マイクロプロセッサ、集積回路、又はプログラマブルロジックデバイスを含む処理装置を示す。また、処理装置は、たとえばコンピュータ、携帯電話、ポータブル／パーソナルデジタルアシスタント（ＰＤＡ）のような通信装置、及び、エンドユーザ間の情報の通信を容易にする他の装置を含む。

本実施の形態で記載される様々なプロセス及び特徴は、特に、たとえばデータエンコーディング及びデコーディングに関連する機器又はアプリケーションといった様々な異なる機器又はアプリケーションで実施される場合がある。機器の例は、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、セットトップボックス、ラップトップ、パーソナルコンピュータ、携帯電話、ＰＤＡ、及び他の通信装置を含む。明らかであるように、機器は、移動体装置であり、更に、自動車に装備される場合がある。

さらに、本方法は、プロセッサにより実行された命令により実現され、係る命令は、たとえば集積回路、ソフトウェアキャリア、又は、たとえばハードディスク、コンパクトディスク、ランダムアクセスメモリ（ＲＡＭ）、又はリードオンリメモリ（ＲＯＭ）のような他のストレージ装置のようなプロセッサ読み取り可能な媒体に記憶される。命令は、プロセッサ読み取り可能な媒体で実施されるアプリケーションプログラムを形成する場合がある。明らかであるように、プロセッサは、たとえばプロセスを実行する命令を有するプロセッサ読み取り可能な媒体を含む。係るアプリケーションプログラムは、適切なアーキテクチャを有するコンピュータにアップロードされ、コンピュータにより実行される場合がある。好ましくは、コンピュータは、１以上の中央処理装置（ＣＰＵ）、ランダムアクセスメモリ（ＲＡＭ）、入力／出力（Ｉ／Ｏ）インタフェースのようなハードウェアを有するコンピュータプラットフォームで実現される。また、コンピュータプラットフォームは、オペレーティングシステム及びマイクロ命令コードを含む。本実施の形態で記載される様々なプロセス及び機能は、ＣＰＵにより実行される、マイクロ命令コードの一部又はアプリケーションプログラムの一部、或いはその組み合わせである。さらに、様々な他の周辺装置は、更なるデータストレージユニット及びプリンティングユニットのようなコンピュータプラットフォームに接続される。

当業者にとって明らかであるように、実現は、たとえば記憶されるか送信される情報を搬送するためにフォーマットされる信号を生成する。この情報は、たとえば方法を実行する命令、又は記載された実現のうちの１つにより生成されるデータを含む。係る信号は、たとえば電磁波として（たとえばスペクトルの無線周波部分を使用して）又はベースバンド信号としてフォーマットされる場合がある。フォーマッティングは、たとえばデータストリームをエンコードし、シンタックスを生成し、搬送波をエンコードされたデータストリーム及びシンタックスで変調することを含む。信号が搬送する情報は、たとえばアナログ又はデジタル情報である場合がある。信号は、知られているように、様々な異なる有線又は無線リンクを通して転送される。

添付図面に示されるシステム構成要素及び方法の幾つかはソフトウェアで実現されることが好ましいため、システム構成要素又はプロセス機能ブロック間の実際の接続は、本発明の原理がプログラムされるやり方に依存して異なる場合がある。本実施の形態の教示が与えられると、当業者であれば、本発明の原理のこれらの実現又はコンフィギュレーション及び類似の実現又はコンフィギュレーションを考案することができる。

多数の実現が記載される。しかしながら、様々な変更が行われる場合があることを理解されたい。たとえば、異なる実現のエレメントは、他の実現を生成するため、結合、補充、変更、又は除去される場合がある。さらに、当業者であれば、他の構造及びプロセスは、開示されたものについて置き換えられ、結果的に得られる実現は、開示された実現と少なくとも実質的に同じ結果を達成するため、少なくとも実質的に同じやり方で、少なくとも実質的に同じ機能を実行する。特に、例示された実施の形態は、添付図面を参照して本明細書で記載されたが、本発明の原理は、それら正確な実施の形態に限定されるものではなく、本発明の原理の範囲又は精神から逸脱することなしに、当業者により、様々な変形及び変更が行われる場合があることを理解されたい。したがって、これらの実現及び他の実現は、本出願により考案され、以下の特許請求の範囲にある。

Claims

第一の視点からの画像、第二の視点からの画像、及び前記第一の視点からの画像について１以上の視点間の依存の関係を示す依存情報にアクセスし、
前記依存情報に基づいて、前記第一の視点からの画像が前記第二の視点からの画像の参照画像であるかを判定する、
ために構成される装置。
当該装置はエンコーダを有し、
前記アクセスは、前記第一の視点からの画像、前記第二の視点からの画像をエンコードすること、及び前記依存情報をフォーマット化することを含む、
請求項１記載の装置。
当該装置はデコーダを有し、
前記アクセスは、前記第一の視点からの画像、前記第二の視点からの画像及び前記依存情報を受信することを含む、
請求項１記載の装置。
第一の視点からの画像、第二の視点からの画像、及び前記第一の視点からの画像について１以上の視点間の依存関係を示す依存情報にアクセスするステップと、
前記依存情報に基づいて、前記第一の視点からの画像が前記第二の視点からの画像の参照画像であるかを判定するステップと、
を含むことを特徴とする方法。
前記アクセスするステップは、前記第一の視点からの画像、前記第二の視点からの画像をエンコードするステップ、及び前記依存情報をフォーマット化するステップを含む、
請求項４記載の方法。
前記判定するステップは、エンコーダにより実行される再構成プロセスの間に前記エンコーダにより実行される、
請求項４記載の方法。
前記アクセスするステップは、前記第一の視点からの画像、前記第二の視点からの画像及び前記依存情報を受信するステップを含む、
請求項４記載の方法。
前記依存情報は、ハイレベルシンタックスエレメントを含む、
請求項４記載の方法。
前記高水準のシンタックスエレメントは、シーケンスパラメータセットデータを含み、
前記第一の視点からの画像が参照画像であるかを判定するステップは、前記シーケンスパラメータセットデータを評価するステップを含む、
請求項８記載の方法。
前記第一の視点からの画像の依存情報は、（１）前記第一の視点からの画像のアンカーリファレンスの数、（２）前記第一の視点からの画像のノンアンカーリファレンスの数、（３）前記第一の視点からの画像の前記アンカーリファレンスの視点の数、及び（４）前記第一の視点からの画像のノンアンカーリファレンスの視点の数、を示すシンタックスエレメントに含まれる、
請求項４記載の方法。
前記第一の視点からの画像が前記第一の視点からの別の画像の参照画像であるかを判定するステップを更に含む、
請求項４記載の方法。
前記依存情報に基づいて、前記第一の視点からの画像がデコーダで未だデコードされていない別の視点からの画像の参照画像であるかを判定するステップを更に含む、
請求項４記載の方法。
前記第一の視点からの画像が、未だデコードされていない別の視点からの画像の参照画像ではないと判定され、
当該方法は、前記第一の視点からの画像を視点間の参照画像として必要とされないとして記録するステップを含む、
請求項１２記載の方法。
前記記録するステップに基づいて前記第一の視点から画像を除くステップを更に含む、
請求項１３記載の方法。
前記依存情報に基づいて前記第一の視点からの画像を記録するステップを更に含む、
請求項４記載の方法。
前記記録するステップに基づいて前記第一のビューから画像を除くステップを更に含む、
請求項１５記載の方法。
前記第一の視点からの画像は、アンカーピクチャ及びノンアンカーピクチャの何れかである、
請求項４記載の方法。
前記高水準のシンタックスエレメントは、既存のビデオ符号化標準又は既存のビデオ符号化勧告の拡張における既存の高水準のシンタックスエレメントである、
請求項８記載の方法。
前記高水準のシンタックスエレメントは、ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｏｆＳｔａｎｄａｒｄｉｚａｔｉｏｎ／ＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ−４Ｐａｒｔ１０ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇｓｔａｎｄａｒｄ／ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ，ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＳｅｃｔｏｒＨ．２６４ｒｅｃｏｍｍｅｎｄａｔｉｏｎの拡張における既存の高水準のシンタックスエレメントである、
請求項８記載の方法。
前記第一の視点からの画像が、視点間の参照のみに使用されるか、時間参照のみに使用されるか、視点間の参照と時間参照の両者のために使用されるか、又は、視点間の参照及び時間参照の何れにも使用されないかを判定するため、前記依存情報が使用される、
請求項４記載の方法。
前記依存情報は、シーケンスパラメータセット及びｎａｌ＿ｒｅｆ＿ｉｄｃシンタックスエレメントにおける視点間の参照の示唆インデックスを含み、前記シーケンスパラメータセット及び前記ｎａｌ＿ｒｅｆ＿ｉｄｃシンタックスエレメントは、前記第一の視点からの画像が、視点間の参照のみに使用されるか、時間参照のみに使用されるか、視点間の参照と時間参照の両者のために使用されるか、又は、視点間の参照及び時間参照の何れにも使用されないかを判定するために結合される、
請求項４記載の方法。
第一の視点からの画像、第二の視点からの画像、及び前記第一の視点からの画像について１以上の視点間の依存関係を示す依存情報にアクセスする手段と、
前記依存情報に基づいて、前記第一の視点からの画像が前記第二の視点からの画像の参照画像であるかを判定する手段と、
を有することを特徴とする装置。
前記第一の視点からの画像、前記第二の視点からの画像、又は前記高水準のシンタックスエレメントのうちの少なくとも１つを記憶する手段を更に有する、
請求項２２記載の装置。
第一の視点からの画像、第二の視点からの画像、及び前記第一の視点からの画像について１以上の視点間の依存関係を示す依存情報にアクセスし、
前記依存情報に基づいて、前記第一の視点からの画像が前記第二の視点からの画像の参照画像であるかを判定する、
処理を実行するためにコンピュータ読み取り可能な記録媒体に記憶される命令を含むコンピュータ読み取り可能な記録媒体を含む装置。