JP2022008311A

JP2022008311A - 多視点ビデオの符号化／復号化方法

Info

Publication number: JP2022008311A
Application number: JP2021140378A
Authority: JP
Inventors: バン、ゴン; Gun Bang; グォン、ウ、ウォン; Woo Woen Gwun; リー、グワン、スン; Gwang Soon Lee; ホ、ナム、ホ; Nam Ho Hur; パク、グワン、フン; Gwang Hoon Park; ユン、ソン、ジェ; Sung Jea Yoon; ホ、ヨン、ス; Young Su Heo; ホン、ソク、ジョン; Seok Jong Hong
Original assignee: Electronics and Telecommunications Research Institute ETRI; Kyung Hee University
Current assignee: Electronics and Telecommunications Research Institute ETRI; Kyung Hee University
Priority date: 2015-11-23
Filing date: 2021-08-30
Publication date: 2022-01-13
Anticipated expiration: 2036-11-23
Also published as: CN108293110B; CN108293110A; EP3383039A4; WO2017090988A1; JP7561104B2; US10701396B2; EP3383039A1; JP2019502298A; CN115243040A; US20180359487A1; JP6937302B2

Abstract

【課題】多視点ビデオの符号化／復号化効率を改善するため、視点の異なる映像を一つの視点に統一し、視点の統一された映像同士を合わせた参照ピクチャーを用いて符号化／復号化を行う方法及び装置を提供する。
【解決手段】映像符号化方法は、第１視点を有する第１映像とは異なる視点を有する第２映像が存在する場合、第２映像を第１視点に変換する段階と、第１映像の一面に第２映像を付加して参照映像を生成する段階と、参照映像を参照ピクチャーリストに保存する段階とを含む。
【選択図】図１６

Description

本開示は、映像符号化／復号化方法に係り、より具体的には、多視点ビデオで予測を行う方法に関する。

技術の発展により高解像度／高画質の放送サービス等が一般化されるにつれて、ＨＤ（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎ）解像度を超え、それに比べ４倍以上の解像度を持つＵＨＤ（ＵｌｔｒａＨｉｇｈＤｅｆｉｎｉｔｉｏｎ）への関心が増大しつつある。

このような傾向に伴い、既存の２次元映像に加えて、ステレオスコピック映像や全方向ビデオなどの臨場感映像に対する関心も高まっている。新規のメディアが開発されることにより、例えばヘッドマウントディスプレイなど臨場感映像を再生することが可能な装置が続々と登場しているが、まだ臨場感メディアは、２次元映像と同様の方法で符号化／復号化されている。これにより、臨場感メディアの圧縮効率を高めるためには、臨場感メディアの特性に合う圧縮方式が開発されなければならない。

本開示の技術的課題は、多視点ビデオの符号化／復号化効率を改善するための方法を提供することにある。

具体的には、本開示の技術的課題は、視点の異なる映像を一つの視点に統一した後、視点の統一された映像同士を合わせた参照ピクチャーを用いて符号化／復号化を行う方法および装置を提供することにある。

また、本開示の技術的課題は、現在ブロックと隣接ブロックが互いに異なる視点を有する場合、隣接ブロックの予測情報を変換して現在ブロックの予測効率を向上させる方法を提供することにある。

本開示で解決しようとする技術的課題は、上述した技術的課題に限定されず、上述していない技術的課題は、以降の記載から本開示の属する技術分野における通常の知識を有する者に明確に理解できるであろう。

本開示の一態様によれば、第１視点を有する第１映像とは異なる視点を有する第２映像が存在する場合、前記第２映像を前記第１視点に変換する段階と、前記第１映像の一面に前記第２映像を付加して参照映像を生成する段階と、前記参照映像を参照ピクチャーリストに保存する段階とを含んでなる、映像符号化方法が開示される。

本開示の一態様によれば、第１視点を有する第１映像とは異なる視点を有する第２映像が存在する場合、前記第２映像を前記第１視点に変換する段階と、前記第１映像の一面に前記第２映像を付加して参照映像を生成する段階と、前記参照映像を参照ピクチャーリストに保存する段階とを含んでなる、映像復号化方法が開示される。

前記映像符号化方法および前記映像復号化方法には、次の事項が共通に適用できる。

前記変換映像は、前記第１映像と前記第２映像との視点差に基づいて生成され、前記視点差は、前記第１映像と前記第２映像との距離差または角度差のうちの少なくとも一つを含むことができる。

前記視点差は、前記第１映像および前記第２映像を含む全方向映像の特性に基づいて決定できる。

前記全方向映像が正多面体状に投影される場合には、前記第１映像と前記第２映像との角度差は、前記正多面体の内角で決定できる。

前記視点差は、前記第１映像を撮影するために用いられた第１カメラと、前記第２映像を撮影するために用いられた第２カメラとの距離および角度差に基づいて得られる。

前記第２映像が付加される位置は、前記第１映像および前記第２映像を含む正多面体の特性に応じて決定できる。

前記参照ピクチャーは、前記第１映像および前記第２映像に対応する時間帯情報と共に前記参照ピクチャーリストに保存できる。

本開示について簡略に要約された上記の特徴は、後述する本開示の詳細な説明の例示的な様相に過ぎず、本開示の範囲を限定するものではない。

本開示によれば、多視点ビデオの符号化／復号化効率を改善するための方法が提供できる。

具体的には、本開示によれば、視点の異なる映像を一つの視点に統一した後、視点の統一された映像同士を合わせた参照ピクチャーを用いて符号化／復号化を行う方法および装置が提供できる。

具体的には、本開示によれば、現在ブロックと隣接ブロックが互いに異なる視点を有する場合、隣接ブロックの予測情報を変換して現在ブロックの予測効率を向上させる方法が提供できる。

本開示で得られる効果は上述した効果に限定されず、上述していない別の効果は以降の記載から本開示の属する技術分野における通常の知識を有する者に明確に理解できるであろう。

３Ｄ多視点映像を生成するためのカメラの種類を例示する図である。ダイバージェントビデオを説明するための図である。コンバージェントビデオを説明するための図である。３Ｄ多視点ビデオが多面体の展開図形状に投影された例を示す。３Ｄ多視点ビデオの２次元展開形状を例示する図である。３Ｄ多視点ビデオの３次元形状を例示する図である。３Ｄ多視点ビデオの一部が表示される例を説明するための図である。立方体状に展開された３Ｄビデオを再生したときの様相を例示する図である。映像を符号化する際に符号化ツリーユニット（ＣｏｄｉｎｇＴｒｅｅＵｎｉｔ、ＣＴＵ）をＣＵ単位で分割する例を示す図である。ＣＵがＰＵに分割される例を説明するための図である。画面間予測方法を説明するための図である。併合動き候補リストが生成される例を示す図である。立方体状の３次元ビデオの特定のフレームを実際再生したときの様子を例示する図である。各面の境界で非線形歪みが発生する例をより詳細に示す図である。隣接領域の視点を変換して参照映像を生成する例を説明するための図である。本発明に係る変換拡張映像を生成する過程を示すフローチャートである。視点間の特性を説明するために例示する図である。視点間の特性を説明するために例示する図である。他の映像の視点に応じて映像が変換される例を説明するための図である。立方体の特定の面を基準として参照映像を生成する例を示す図である。立方体の特定の面を基準として参照映像を生成する例を示す図である。ダイバージェント映像に対する参照映像を生成する例を示す図である。視点の基準となる映像と変換映像とを合わせて参照映像を生成する例を示す図である。変換映像が時間的予測に不可欠な領域を含むか否かを例示する図である。コンバージェント映像に対する参照映像を生成する例を示す図である。視点の基準になる映像と変換映像とを合わせて参照映像を生成する例を示す図である。正方体状に展開される３Ｄ多視点映像に対する参照映像リストが生成される例を示す図である。ダイバージェント映像に対する参照映像リストが生成される例を示す図である。コンバージェント映像に対する参照映像リストが生成される例を示す図である。本発明によって参照映像を生成する場合とそうでない場合とを比較するための図である。本発明の適用有無による符号化の様相を例示する図である。本発明に係る予測情報の変換方法を示すフローチャートである。視点（Ｐｅｒｓｐｅｃｔｉｖｅ）境界で予測情報が変換される例を示す図である。周辺ブロックの予測情報を基に、画面内予測を行うためのＭＰＭ（ＭｏｓｔＰｒｏｂａｂｌｅＭｏｄｅ）候補を決定する過程を説明するためのフローチャートである。現在ブロックが視点境界に位置するか否かに応じてＭＰＭ候補を生成する例を示す図である。現在ブロックが視点境界に位置するか否かに応じてＭＰＭ候補を生成する例を示す図である。現在ブロックが視点境界に位置するか否かに応じてＭＰＭ候補を生成する例を示す図である。周辺ブロックの予測情報を基に、併合動きモード（マージモード（ＭｅｒｇｅＭｏｄｅ））の下で画面間予測を行うための空間的マージ候補を決定する過程を説明するためのフローチャートである。現在ブロックと空間的隣接ブロックが互いに異なる視点を有する例を示す。周辺ブロックの予測情報を基に、併合動き（マージ（ｍｅｒｇｅ））モードの下で画面間予測を行うための時間的マージ候補を決定する過程を説明するためのフローチャートである。現在ブロックと時間的隣接ブロックが互いに異なる視点を有する例を示す。本発明に係る符号化器の構成を示すブロック図である。本発明に係る復号化器の構成を示すブロック図である。本発明に係る参照映像拡張部のブロック図である。

本発明は、様々な変更を加えることができ、様々な実施形態を有することができるので、特定の実施形態を図面に例示し、詳細な説明に詳細に説明しようとする。ところが、これは、本発明を特定の実施形態に対して限定するものではなく、本発明の思想および技術範囲に含まれるあらゆる変更、均等物ないし代替物を含むものと理解されるべきである。図面において、類似した参照符号を様々な側面にわたって同一または類似の機能を指す。図面における要素の形状および大きさなどは、より明確な説明のために誇張することもある。後述する例示的実施形態についての詳細な説明は、特定の実施形態を例示として図示する添付図面を参照する。これらの実施形態は、当業者が実施形態を十分に実施することができるように詳細に説明される。様々な実施形態は互いに異なるが、相互排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造および特性は、一実施形態に関連して本発明の精神および範囲を逸脱することなく、他の実施形態に実現できる。また、それぞれの開示された実施形態内の個別構成要素の位置または配置は、実施形態の精神および範囲を逸脱することなく変更できることが理解されるべきである。よって、後述する詳細な説明は、限定的な意味で取るものではなく、例示的実施形態の範囲は、適切に説明されるならば、それらの請求項が主張するのと均等な全ての範囲と共に、添付された請求項によってのみ限定される。

本発明において、「第１」、「第２」などの用語は様々な構成要素を説明するために使用できるが、前記構成要素はこれらの用語によって限定されるものではない。これらの用語は、ある構成要素を他の構成要素と区別する目的のみで使用される。例えば、本発明の権利範囲を逸脱しない範疇内で、第１構成要素は第２構成要素と命名することができ、同様に、第２構成要素も第１構成要素と命名することができる。「および／または」という用語は、複数の関連した記載項目の組み合わせ、または複数の関連した記載項目のいずれかを含む。

本発明のある構成要素が他の構成要素に「連結」または「接続」されていると言及されたときは、他の構成要素に直接連結または接続されていることもあるが、それらの構成要素の間に別の構成要素が介在することもあると理解されるべきである。これに対し、ある構成要素が他の構成要素に「直接連結」されているか、「直接接続」されていると言及されたときは、それらの構成要素の間に別の構成要素が存在しないと理解されるべきである。

本発明の実施形態に現れる構成部は、互いに異なる特徴的な機能を示すために独立して図示されるもので、各構成部が分離されたハードウェアまたは一つのソフトウェア構成単位からなることを意味するものではない。すなわち、各構成部は、説明の便宜上、それぞれの構成部として並べて示したものであり、各構成部のうち、少なくとも二つの構成部を合わせて一つの構成部にするか、一つの構成部を複数の構成部に分けて機能を行うことができる。このような各構成部の統合された実施形態および分離された実施形態も、本発明の本質から外れない限り、本発明の権利範囲に含まれる。

本発明で使用した用語は、単に特定の実施形態を説明するために使用されたものに過ぎず、本発明を限定するものではない。単数の表現は、文脈上明らかに異なる意味を表さない限り、複数の表現を含む。本発明において、「含む」または「有する」などの用語は、明細書に記載された特徴、数字、段階、動作、構成要素、部品またはこれらの組み合わせが存在することを示すものであり、１つまたはそれ以上の他の特徴、数字、段階、動作、構成要素、部品またはこれらの組み合わせの存在または付加の可能性を予め排除するものではないと理解されるべきである。すなわち、本発明において、特定の構成を「含む」と記載する内容は、該当構成以外の構成を排除するのではなく、追加の構成が本発明の実施または本発明の技術的思想の範囲に含まれ得ることを意味する。

本発明の一部の構成要素は、本発明における本質的な機能を行うための必須の構成要素ではなく、単に性能を向上させるための選択的構成要素であり得る。本発明は、単に性能向上のために使用される構成要素を除いた、本発明の本質の実現に不可欠な構成部のみを含めて実現でき、単に性能向上のために使用される選択的構成要素を除いた必須構成要素のみを含む構造も本発明の権利範囲に含まれる。

本発明で説明する「視点」は、カメラの方向およびカメラの遠近法に関連したものであり、視点位置（Ｖｅｉｗｐｏｉｎｔ、ビューポイント）および視点方向（Ｐｅｒｓｐｅｃｔｉｖｅ、パースペクティブ）を通称する。説明の便宜のために、後述される実施形態では、視点方向（Ｐｅｒｓｐｅｃｔｉｖｅ）を中心に３次元多視点映像を説明することとする。

以下、図面を参照して本発明の実施形態について具体的に説明する。本明細書の実施形態を説明するにあたり、関連した公知の構成または機能に対する具体的な説明が本明細書の要旨を不明確にするおそれがあると判断される場合には、その詳細な説明は省略し、図面上の同一の構成要素については同一の参照符号を使用し、同一の構成要素についての重複説明は省略する。

既存の２次元ビデオは、固定された視点でビデオが再生されたが、これに対し、全方向ビデオ（または３６０度ビデオ）は、ユーザーが所望する視点でビデオを再生することができる。全方向ビデオを生成するために、図１に示された様々な種類のカメラが使用できる。図１の（ａ）に示された複数のカメラを用いるか、図１の（ｂ）に示された魚眼レンズを用いるか、或いは図１の（ｃ）に示された反射鏡などを用いて、一箇所から３次元空間（例えば、３６０度の方向）に対して撮影を行った後、撮影された３次元映像を多面体または球などの立体図形の形状に投影させることができる。

全方向ビデオの他にも、臨場感メディアには、複数のカメラが様々な方向の映像を撮影して入れ込むダイバージェント（Ｄｉｖｅｒｇｅｎｔ）ビデオやコンバージェント（Ｃｏｎｖｅｒｇｅｎｔ）ビデオなどを含むことができる。ダイバージェントビデオは、複数のカメラが様々な方向の映像を撮影することにより生成される映像を意味し、コンバージェントビデオは、複数のカメラが特定の方向の映像を撮影することにより生成される映像を意味する。

図２および図３はそれぞれダイバージェントビデオおよびコンバージェントビデオを説明するための図である。ダイバージェント映像は、複数のカメラの撮影方向が広がる形態を呈しながら撮影された映像を意味する。一例として、図２の（ａ）において、カメラＣ１、Ｃ２およびＣ３の撮影方向Ｗ１、Ｗ２およびＷ３は、互いに拡散する形態を取っている。

コンバージェント映像は、複数のカメラの撮影方向がいずれか一箇所に向かって収束する形態を呈しながら撮影された映像を意味する。一例として、図３の（ａ）において、カメラＣ１、Ｃ２、Ｃ３およびＣ４の撮影方向Ｗ１、Ｗ２、Ｗ３およびＷ４は一点に向かっている。

全方向３Ｄビデオまたは収束型もしくは発散型カメラで撮影した３次元多視点ビデオなどは、多面体の展開図、または球を広げた正距円筒（Ｅｑｕｉｒｅｃｔａｎｇｕｌａｒ）形状に展開できる。

一例として、図４の（ａ）および（ｂ）は、球状の３次元多視点映像が、立方体の展開図形状に展開された例を示す。図４の（ａ）および（ｂ）を参照すると、全方向３Ｄ映像から立方体の展開図形状の２次元映像を取得することができる。

図４に示された例に止まらず、３次元多視点映像は、さまざまな種類の多面体の展開図形状に展開できる。一例として、図５は３次元多視点ビデオの２次元展開形状を例示する図である。図５に示された例のように、３次元多視点ビデオは、正四面体、立方体、正八面体、正十二面体または正二十面体など、様々な立体図形の展開図形状に投影できる。

ビデオが再生される場合、２次元的に展開された映像は、さらに多面体または球などの３次元空間に再構成できる。一例として、３次元ビデオは、図６に示された例のように、正四面体、立方体、正八面体、正十二面体または正二十面体状などに再構成できる。

ユーザーの視線が多面体の中心に置かれていると仮定したとき、多面体状に再構成された３次元映像の全領域を一目で見ることは不可能である。これにより、３Ｄ多視点ビデオが再生されると、３次元的に構成された領域全体のうち、特定の時間帯にユーザーが眺める特定のポイントまたはユーザーによって選択された特定のポイントに対応する領域のみが表示される。

図７は３Ｄ多視点ビデオの一部が表示される例を説明するための図である。図７の（ａ）および（ｂ）は、外部から３Ｄ多視点映像を鑑賞するユーザーを眺めたときを仮想的に示す図であり、図７の（ｃ）は３Ｄ多視点映像を視聴するユーザーを中心に全方向映像を示す概念図である。

３Ｄ多視点ビデオの再生の際に、３次元的に再構成された映像の全体領域のうち、ユーザーの視点が向かう一部分、或いはユーザーによって選択された一部分が再生できる。一例として、図７の（ａ）および（ｂ）の斜線領域は、３次元的に再構成された映像のうち、ユーザーの視点が向かう部分またはユーザーによって選択された部分を示す。この場合には、多視点映像のうち、ユーザーの視点が向かう部分またはユーザーによって選択された部分に対応する領域が出力できる。一例として、ユーザーを基準にしたとき、３Ｄ映像は、図７の（ｃ）に示された例のように、全体領域のうちの一部分のみが表示できる。

このとき、３Ｄ多視点映像は複数の視点を有することができる。ここで、複数の視点とは、多視点映像が複数の視点位置（Ｖｅｉｗｐｏｉｎｔ、ビューポイント）または複数の視点方向（Ｐｅｒｓｐｅｃｔｉｖｅ、パースペクティブ）を有することを意味する。図面を参照して、これについてより詳細に説明する。

図８は立方体状に展開された３次元ビデオを再生したときの様相を例示する図である。３次元ビデオを鑑賞するユーザーの目は立方体の中心にあり、各面は目が眺めるパースペクティブ（Ｐｅｒｓｐｅｃｔｉｖｅ）となる。例えば、図８に示された例において、立方体の正面のパースペクティブを４、上方のパースペクティブを１と仮定すると、パースペクティブ２は立方体の後方、パースペクティブ３は立方体の左側、パースペクティブ５は立方体の右側、パースペクティブ６は立方体の下方に該当する。これにより、図８に示すように、３次元映像を構成する六面体の各面は互いに異なる視点を有することができる。

ダイバージェント映像の場合、各カメラの撮影方向が異なり、これにより映像間のパースペクティブの差が発生しうる。一例として、図２の（ｂ）に示された例において、３つのカメラＣ１、Ｃ２、Ｃ３が互いに異なる方向を撮影することにより、互いに異なる視点を有する３つの映像Ｐ１、Ｐ２、Ｐ３が生成できる。

コンバージェント映像の場合も、各カメラが撮影した映像が互いに異なるパースペクティブを持つことができる。一例として、図３の（ｂ）に示された例において、４つのカメラＣ１、Ｃ２、Ｃ３、Ｃ４が互いに異なる方向を撮影することにより、互いに異なる視点を有する４つの映像Ｐ１、Ｐ２、Ｐ３、Ｐ４が生成できる。

説明の便宜のために、後述される実施形態において、「映像」は、多視点ビデオの任意のフレームまたは任意の視点を有する一部領域を意味するものと仮定する。一例として、３Ｄ多視点ビデオの任意のフレームが、図８に示された例のように立方体状に展開される場合、当該フレームを「映像」と呼ぶこともあり、前記フレーム内の任意の視点を有する一部領域（すなわち、立方体の一面）を「映像」と呼ぶこともある。

上述したように、３Ｄ多視点ビデオは、２次元空間に投影されて符号化／復号化が行われ得る。これにより、３次元多視点ビデオの符号化／復号化は、２Ｄビデオの符号化／復号化と同様の方法で行われ得る。一例として、２Ｄビデオの符号化／復号化に用いられるブロック分割、画面内予測（または空間的予測、イントラ予測（ＩｎｔｒａＰｒｅｄｉｃｔｉｏｎ））および画面間予測（または時間的予測、インター予測（ＩｎｔｅｒＰｒｅｄｉｃｔｉｏｎ））に基づいた符号化／復号化方法が３Ｄ多視点ビデオの符号化／復号化にも利用できる。以下、３Ｄ多視点ビデオの符号化／復号化に利用できる符号化／復号化技術を簡略に説明する。

ＨＥＶＣでは、映像を効率よく符号化するために、符号化ユニット（ＣｏｄｉｎｇＵｎｉｔ、ＣＵ）単位で符号化／復号化を行う。図９は、映像を符号化する際に、符号化ツリーユニット（ＣｏｄｉｎｇＴｒｅｅＵｎｉｔ、ＣＴＵ）をＣＵ単位で分割する例を示す図である。ＣＴＵは、ＬＣＵ（ＬａｒｇｅｓｔＣｏｄｉｎｇＵｎｉｔ）と呼称されるか或いはそれと同等の概念であり得る。

図９に示された例のように、映像をＣＴＵ単位で順次分割した後、ＣＴＵ単位で分割構造を決定する。ここで、分割構造は、ＣＴＵ内の映像を効率よく符号化／復号化するためのＣＵの分布を意味する。ＣＵの分布は、ＣＴＵを、ＣＴＵの横および／または縦長さに対して、これより小さい横および／または縦長さを有する複数のＣＵに分割するか否かに基づいて決定できる。一例として、ＣＵの分布は、ＣＴＵを４つまたは２つのＣＵに分割した形態を呈することができる。

分割されたＣＵは、これと同様の方式で、さらに横および／または縦長さが減少した複数のＣＵに再帰的に分割できる。このとき、ＣＵの分割は予め定義された深さまで分割できるが、深さ情報（Ｄｅｐｔｈ）はＣＵのサイズを示し、すべてのＣＵに対して保存できる。例えば、基本分割対象であるＣＴＵの深さは、０であり、ＳＣＵ（ＳｍａｌｌｅｓｔＣｏｄｉｎｇＵｎｉｔ）の最大深さのＣＵを示す。すなわち、予め定義された深さのＣＵをＳＣＵと呼称することができる。ＣＴＵから４つまたは２つのＣＵに分割するたびに深さ値が１ずつ増加することができる。

ＣＵが４つのＣＵに分割されると仮定すると、２Ｎ×２Ｎのサイズを有するＣＵに対して分割が行われていない場合には、ＣＵのサイズは２Ｎ×２Ｎを維持する。これとは異なり、２Ｎ×２Ｎのサイズを有するＣＵに対して分割が行われた場合には、その結果として、Ｎ×Ｎのサイズを有する４つのＣＵが生成されるだろう。このように、Ｎのサイズは、ＣＵの分割深さが１ずつ増加するたびに半分に減少する。

一例として、最小深さが０であるＣＴＵのサイズが６４×６４画素である場合には、６４×６４画素のＣＵは深さ「０」、３２×３２画素のＣＵは深さ「１」、１６×１６画素のＣＵは深さ「２」、８×８画素のＣＵは深さ「３」と表現できる。もし、最大深さが３であれば、ＳＣＵのサイズは８×８画素となる。

特定のＣＵを分割するか否かについての情報は、ＣＵ別分割情報を用いて表現することができる。分割情報は、ＳＣＵを除くすべてのＣＵに対して符号化／シグナリングできる。

このとき、分割情報は、少なくとも一つのフラグ情報を含むことができる。フラグ情報は、ＣＵが４つまたは２つのＣＵに分割されるか否かを示す。一例として、フラグが「０」であることはＣＵがもはや分割されないことを示し、フラグが「１」であることはＣＵが複数のＣＵに分割されることを示す。

ＣＵは符号化／復号化ユニットであり、ＣＵ単位で符号化モードが設定できる。一例として、各ＣＵは、画面内符号化（ＭＯＤＥ＿ＩＮＴＲＡあるいはＩＮＴＲＡということもある）モードまたは画面間符号化（ＭＯＤＥ＿ＩＮＴＥＲあるいはＩＮＴＥＲということもある）モードを有することができる。この際、画面間符号化モードは、ＭＯＤＥ＿ＩＮＴＥＲモードとＭＯＤＥ＿ＳＫＩＰ（ＳＫＩＰということもある）モードを含むことができる。

予測ユニット（ＰｒｅｄｉｃｔｉｏｎＵｎｉｔ、ＰＵ）は、予測が行われる単位を意味する。一つのＣＵは少なくとも一つのＰＵに分割できる。一例として、図１０は、ＣＵがＰＵに分割される例を説明するための図である。ＣＵの符号化モードが画面内符号化モードである場合、該当ＣＵに含まれているＰＵはいずれも画面内符号化モードで符号化できる。このとき、ＣＵの符号化モードが画面内符号化モードである場合、ＰＵの分割構造は、図１０に示された例のうち、２Ｎ×２ＮまたはＮ×Ｎのいずれかに設定できる。

ＣＵの符号化モードが画面間符号化モードである場合、該当ＣＵに含まれているＰＵはいずれも画面間符号化モードで符号化できる。このとき、ＣＵの符号化モードが画面間符号化モードである場合、ＰＵの分割構造は、図１０に示された、２Ｎ×２Ｎ、２Ｎ×Ｎ、Ｎ×２Ｎ、Ｎ×Ｎ、２Ｎ×ｎＵ、２Ｎ×ｎＤ、ｎＬ×２ＮまたはｎＲ×２Ｎのいずれかに設定できる。

画面間予測（または時間的予測）は、近接した時間差を持つ映像間の相関関係が高いことを基に、参照映像から現在映像を予測する方法を意味する。

図１１は画面間予測方法を説明するための図である。

図１１において、（ａ）は現在映像を予測するために用いられる参照映像（参照フレーム（ＲｅｆｅｒｅｎｃｅＦｒａｍｅ））を示し、（ｂ）は符号化／復号化対象ブロックを含む現在映像（現在フレーム（ＣｕｒｒｅｎｔＦｒａｍｅ））を示す。現在映像に含まれている符号化／復号化対象ブロック「Ｂ」を予測するにあたり、参照映像に含まれているブロック「Ａ」を用いることができれば、現映像のブロックＢに対する映像情報を全て符号化する必要はない。これにより、時間的予測を利用する場合、映像ブロック別に符号化する情報量を大幅に減らすことができるため、映像圧縮の効率を高めることができる。

ＰＵが画面間予測によって符号化された場合（すなわち、画面間符号化モードである場合）、動き情報の符号化／復号化方法として併合動き（マージ（ｍｅｒｇｅ））モードが利用できる。ここで、動き情報は、動きベクトル、参照映像に対するインデックスおよび予測方向（例えば、一方向または双方向など）のうちの少なくとも一つを含むことができる。予測方向は、参照ピクチャーリスト（ＲｅｆｅｒｅｎｃｅＰｉｃｔｕｒｅＬｉｓｔ、ＲｅｆＰｉｃＬｉｓｔ）の使用有無に応じて、一方向予測または複数方向予測（例えば、双方向または三方向予測など）に設定できる。

一例として、２つの参照ピクチャーリスト（Ｌｉｓｔ０、Ｌｉｓｔ１）が存在すると仮定する場合、一方向予測は、順方向参照ピクチャーリスト（Ｌｉｓｔ０）を使用した順方向予測（Ｐｒｅｄ＿Ｌ０、ＰｒｅｄｉｃｔｉｏｎＬ０）と、逆方向参照ピクチャーリスト（Ｌｉｓｔ１）を用いた逆方向予測（Ｐｒｅｄ＿Ｌ１、ＰｒｅｄｉｃｔｉｏｎＬ１）に区分できる。双方向予測（Ｐｒｅｄ＿ＢＩ、ＰｒｅｄｉｃｔｉｏｎＢＩ）は、順方向参照ピクチャーリスト（Ｌｉｓｔ０）と逆方向参照ピクチャーリスト（Ｌｉｓｔ１）の両方を使用することができる。これにより、双方向予測は順方向予測と双方向予測の両方ともが存在する場合を意味することができる。

他の例として、順方向参照ピクチャーリスト（Ｌｉｓｔ０）を逆方向参照ピクチャーリスト（Ｌｉｓｔ１）にコピーして二つの順方向予測を行うことも双方向予測に含まれ、逆方向参照ピクチャーリスト（Ｌｉｓｔ１）を順方向参照ピクチャーリスト（Ｌｉｓｔ０）にコピーして二つの逆方向予測を行うことも双方向予測に含まれ得る。

上述のような予測方向は、予測方向を指示するフラグ情報（例えば、ｐｒｅｄＦｌａｇＬ０、ｐｒｅｄＦｌａｇＬ１）によって指示できる。ｐｒｅｄＦｌａｇＬ０は、順方向参照ピクチャーリスト（Ｌｉｓｔ０）を用いた順方向予測の実行有無を示し、ｐｒｅｄＦｌａｇＬ１は逆方向参照ピクチャーリスト（Ｌｉｓｔ１）を用いた逆方向予測の実行有無を示すことができる。一例として、一方向予測のうちの順方向予測に対して、ｐｒｅｄＦｌａｇＬ０は「１」になり、ｐｒｅｄＦｌａｇＬ１は「０」になることができる。一方向予測のうちの逆方向予測に対して、ｐｒｅｄＦｌａｇＬ０は「０」になり、ｐｒｅｄＦｌａｇＬ１は「１」になることができる。双方向予測に対して、ｐｒｅｄＦｌａｇＬ０は「１」になり、ｐｒｅｄＦｌａｇＬ１は「１」になることができる。

併合動きモードの下で、符号化ユニット（ＣＵ）単位の併合動きまたは予測ユニット（ＰＵ）単位の併合動きが行われ得る。ＣＵまたはＰＵ単位など、所定のブロック単位で併合動きが行われる場合、ブロックパーティション（Ｐａｒｔｉｔｉｏｎ）別に併合動きが行われるか否かについての情報と、ブロックに隣接する周辺ブロックのうちのいずれかのブロックと併合動きを行うか否かについての情報が符号化／シグナリングできる。ここで、周辺ブロックは、現在ブロック（例えば、符号化／復号化の対象となるＣＵまたはＰＵ）に空間的に隣接するブロック、または時間的に隣接するブロックを含むことができる。

ここで、現在ブロックに空間的に隣接するブロックとは、現在ブロックと同一のピクチャーに属しながら、現在ブロックの境界に隣接するブロックを意味することができる。現在ブロックに空間的に隣接するブロックとして、左側ブロック、上段ブロック、右上段ブロック、左上段ブロックおよび右下段ブロックなどが含まれ得る。

現在ブロックに時間的に隣接するブロックとは、現在ブロックとは時間的順序が異なるピクチャーに属しながら、現在ブロックと同一の位置を有するブロック（Ｃｏｌｌｏｃａｔｅｄｂｌｏｃｋ）を意味することができる。

併合動き候補リストは、動き情報が保存されたリストを示す。併合動き候補リストは、現在ブロックに隣接する周辺ブロックの動き情報に基づいて、併合動きが行われる前に生成できる。また、併合動き候補リストは、既に併合動き候補リストに存在する動き情報を組み合わせることにより、生成された新たな動き情報を含むこともできる。

図１２は併合動き候補リストが生成される例を示す図である。併合動き候補リストは、現在ブロックに空間的に隣接する周辺ブロック（一例として、図１２のＡ、Ｂ、Ｃ、Ｄ、Ｅ）、および現在ブロックとは異なるピクチャーに属しながら、現在ブロックと同一の位置に属するブロック（一例として、図１２のＭおよびＨ）のうちの少なくとも一つに基づいて生成できる。

一例として、現在ブロックの周辺ブロックに対して、当該ブロックの利用情報が現在ブロックの併合動きに利用できるか否かを判断する。利用可能な場合、該当ブロックの動き情報は併合動き候補リストに含まれ得る。この際、現在ブロック（図８のＸ）に対する併合動き候補リストは所定の順序で併合動き候補リストに含まれ得る。ここで、所定の順序は、Ａ→Ｂ→Ｃ→Ｄ→Ｅ→Ｈ（もしくはＭ）であり得るが、これに限定されるものではない。

所定の順序に従って併合動き候補リストを生成するにあたり、周辺ブロックの動き情報が他の周辺ブロックのそれと同一である場合、該当周辺ブロックの動き情報は併合動き候補リストに含まれない。

一例として、図１２に示された例において、周辺ブロックＡが併合動き候補リストに含まれている場合、周辺ブロックＢは、周辺ブロックＡと同一の動き情報を有しない場合にのみ併合動き候補リストに含まれ得る。同様の方法で、周辺ブロックＣは周辺ブロックＢと同一の動き情報ではない場合にのみ併合動き候補リストに含まれ得る。周辺ブロックＤおよび周辺ブロックＥに対しても同一の原理が適用できる。ここで、同一の動き情報は、動きベクトル、参照ピクチャーおよび予測方向（例えば、一方向（順方向または逆方向）または双方向）が同一であることを意味する。

但し、３Ｄ多視点ビデオの場合、視点差によって、視点境界で画面間予測または画面内予測を利用した圧縮効率が低下するという問題点がある。次に、これについて詳細に考察する。

図１３は立方体形状の３次元ビデオの特定のフレームを実際再生したときの様子を例示するものである。図１３の（ａ）は立方体の展開図形状に投影された特定のフレームを示すものであり、図１３の（ｂ）は特定のフレームが再生されるときの例を示す図である。

図１３の（ａ）および（ｂ）において６つの面を分ける境界線は、視点間の境界部分を表示したものである。図１３の（ｂ）に示された例のように、３次元映像を再生する場合、視点間境界で映像が滑らかにつながる。しかし、３次元映像が２次元的に投影される場合、図１３の（ａ）に示された例のように境界部分で線が急激に折れるなどの歪みが発生することを確認することができる。

図１４は各面の境界で非線形歪みが発生する例をより詳細に示す図である。図１４では、立方体状の３次元ビデオが６つの面（Ｐ１～Ｐ６）から構成されている。このとき、それぞれの面は互いに異なる視点を有する。

撮影された映像内事物の形態は、各面の視点によって異なるように表現される。これにより、特定の物体が互いに異なる視点を有する２面の境界に連続的に表現される場合、該当物体に対する非線形的な動きが発生しうる。一例として、図１４の（ｂ）に示された例では、Ｐ３面とＰ４面との間、Ｐ４面とＰ１面との間で非線形的動きが発生することを示した。

図１３および図１４に示された例のように、視点境界では非線形的歪みが発生するため、ブロック間予測情報の相関性が著しく低下することを予想することができる。これにより、視点境界に位置したブロック間予測情報の相関性が著しく低下することが予想される。ここで、予測情報は、画面間予測で利用される動き情報（例えば、動きベクトル、参照ピクチャーインデックスまたは予測方向など）または画面内予測で使用される予測方向（例えば、イントラ予測モードなど）などを含む。

その結果、特定の視点を有する領域に含まれているブロックの時間的予測を、特定の視点とは異なる視点を有する領域に含まれているブロックを用いて行うならば、特定の視点を有する領域に含まれているブロックを用いる場合に比べて符号化／復号化効率が著しく減少することを予想することができる。

上述のように、時間的参照映像を用いて現在映像を予測することが適さない場合、イントラブロック符号化またはイントラ予測（ＩｎｔｒａＰｒｅｄｉｃｔｉｏｎ）（または空間的予測）を使用することもできるが、時間的予測の代わりに空間的予測を使用することにより、圧縮効率が低下する問題点が発生する。

イントラ予測を使用するとしても、隣接ブロックとの相関性が少なくてイントラ予測モードを隣接ブロックから誘導することは難しい。

そこで、本発明では、境界に隣接する境界ブロックの予測効率の低下による問題点を解消するために、視点の異なるブロック境界に現れる非線形動きを直線的に修正する方法、および視点の異なる隣接ブロックの予測情報を変換する方法を提案しようとする。一例として、図１４の（ｃ）では、Ｐ１面とＰ４面との境界に現れる非線形歪み、およびＰ３面とＰ４面との境界に現れる非線形歪みが線形的に修正された例を示した。

まず、図１４の（ｃ）に示された例のように、視点境界に現れる非線形歪みを線形的に変更する方法について説明する。

図１５は隣接領域の視点を変換して参照映像を生成する例を説明するための図である。

位置上連続した視点が存在する場合、映像内視点が変わる境界部分では、時間的予測の効率が低下するおそれがある。これは予測のために使用される参照映像内の参照領域が隣接領域の情報を含まないためである。参照領域が隣接領域に対する情報を含むとしても、現在ブロックとは視点が異なるので、参照映像としての使用に適さない。

一例として、図１５に示された例において、現在映像の一部領域Ｃ１を復元するために、隣接領域の情報を含まない領域（すなわち、Ｐ１）のみを使用する場合、現在映像Ｃ１を完全に復元するのは難しい。現在映像を復元するために、隣接領域の情報を含む領域（すなわち、Ｐ１とＰ２とを合わせたＯ）を使用するとしても、現在映像と新たに拡張されたＰ２領域との視点が異なるので、現在映像Ｃ１を完全に復元するのは難しい。

このため、参照領域とは視点が異なる隣接領域を変換した後、参照領域と変換された隣接領域とを合わせて、変換された拡張領域を含む参照映像を生成することにより、時間的予測の際に符号化効率の向上を図ることができる。

具体的には、図１５の（ａ）に示された例のように、参照領域と隣接領域との間では、境界面での視点変化によってイメージが歪まれ得る。しかし、図１５の（ｂ）に示された例のように、隣接領域を参照領域の視点に合わせて変換する場合、境界面での歪みが減少する。これにより、図１５の（ｂ）に示された例のように、参照領域とは視点が異なる隣接領域を変換した映像ＴＲを生成した後、参照領域Ｐ１と変換された隣接領域ＴＲとを合わせて取得された変換拡張映像（Ｐ１とＴＲとを合わせたＲ）を用いて現在映像Ｃ１を予測する場合、予測精度をより高めることができる。

変換拡張映像を取得するためには、大きく次の段階が行われ得る。

第１段階－映像間の方向および距離関係の算出
第２段階－映像間の関係式を用いて各視点での変換映像を生成
第３段階－既存の参照映像の視点位置に応じて変換映像を参照映像に拡張
第４段階－変換拡張された映像を参照映像リストに挿入
第１段階は映像の特徴（例えば、立方体映像の固有属性）または映像データの他、追加データ（例えば、ダイバージェント映像の場合、各映像の視野角、視点間の角度差および距離差など）を用いて映像間の方向および距離関係を算出する段階で、映像間の方向および距離関係は、図１５の（ａ）においてθおよびｄと例示されている。

第２段階は第１段階で算出した映像間の方向および距離差に基づいて隣接映像の変換映像を生成する段階である。本段階において、参照映像の拡張領域である隣接映像が参照映像の視点に応じて修正できる。ここで、参照映像の視点に応じて隣接映像を修正するというのは、隣接映像を参照映像と同じ視点空間にあるように変換することを意味する。

第３段階は、変換映像と参照映像を基に変換拡張映像を生成する段階である。具体的には、変換映像が参照映像に連続するように、変換映像および参照映像を合わせることにより、変換拡張映像を生成することができる。

第４段階は、生成された変換拡張映像を参照映像リストに保存する段階である。変換拡張映像を参照映像リストに保存することにより、復号化／符号化対象映像の時間的予測のために利用することができる。

前述のように変換映像と参照映像とを合わせて時間的予測に適した映像を生成することにより、全方向ビデオの符号化／復号化効率を向上させることができる。図１６のフローチャートを用いて、上述した段階についてより詳細に考察する。

図１６は本発明に係る変換拡張映像を生成する過程を示すフローチャートである。

図１６を参照すると、まず、視点の異なる映像が空間的に連続して存在するか否かを判断することができる（Ｓ１６１０）。視点の異なる映像が空間的に連続して存在するか否かは、映像に付加されるデータ（例えば、メタデータ）または多視点映像の特性（例えば、多面体の展開図は固定された個数の視点を有する）によって確認することができる。一例として、映像が多面体の展開図形状に投影される場合、視点の異なる映像が空間的に連続して存在するものと判断できる。

視点の異なる映像が空間的に連続して存在する場合、視点の異なる映像間の視点差を取得することができる（Ｓ１６２０）。ここで、視点差は、角度差および位置差のうちの少なくとも一つを含むことができる。角度は３次元空間に表示するためのオイラー角またはその部分集合を意味し、位置は３次元空間の位置座標またはその部分集合を意味する。

多面体状に投影される３Ｄ多視点映像の場合、視点の異なる映像間の角度差は固定された値を持つことができる。併せて、多面体状に投影される３Ｄ多視点映像の場合、視点の異なる映像が境界で連続するので、位置差（または距離差）は０に設定できる。

図１７および図１８は視点間の特性を説明するために例示する図である。視点間の特性は、視点の異なる映像間の視点差に基づいて取得できる。視点差は、視点の異なる映像間の角度差および位置差のうちの少なくとも一つを含むことができる。ここで、角度は３次元空間に表示するためのオイラー角またはその部分集合を意味し、位置は３次元空間の位置座標またはその部分集合を意味する。

図１７の（ａ）に示された例のように、３Ｄ多視点映像が多面体状に展開される場合、視点差は視点の異なる面間の角度差および位置差を意味することができる。このとき、多面体状に投影される映像の場合、パースペクティブの異なる面の角度差が固定された値を持つことができる。一例として、図１７の（ａ）のように、３Ｄ多視点映像が立方体に投影される場合、視点の異なる２面Ｐ１、Ｐ２間の角度差は９０度、図１７の（ｂ）に示された例のように、３Ｄ多視点映像が正十二面体に投影される場合、２つの映像Ｐ３、Ｐ４間の角度差は１３８度１１分に固定できる。

図１７の（ａ）および（ｂ）に示された例のように、視点が互いに異なる２つの面は空間上連続して位置するので、二映像間の距離差は０に設定できる。

３Ｄ多視点映像が球を広げた形状であるか、多面体の展開図形状に投影されない場合、角度差および距離差はカメラの位置、カメラの視野角、カメラ間の角度などを基に取得される映像間の角度差および映像間の位置差を示す。一例として、図１７の（ｃ）に示された例のように、３Ｄ多視点映像が球状であるか、図１８に示された例のように、３Ｄ多視点映像が多面体の展開図形状に展開されない場合、カメラＣ１、Ｃ２の位置、カメラの位置差ｄ１、カメラの角度θ１、θ２およびカメラの角度差θ３などに基づいて映像間の位置差ｄ２および角度差θ４を取得することができる。

前述のように、３Ｄ多視点ビデオが球または非多面体形状を呈するか、映像の配置において一定のルールが存在しない場合、カメラの位置、カメラの視野角、カメラ間の角度などから視点の異なる映像間の視点差が算出できる。

視点の異なる映像間の視点差が算出されると、算出された視点差に基づいて、視点の異なる映像を同一の視点に変換することができる（Ｓ１６３０）。一例として、視点の異なる二つの映像に対して、二つの映像のいずれか一つを他の映像の視点に応じて変換する過程が行われ得る。

図１９は他の映像の視点に応じて映像が変換される例を説明するための図である。

図１９の（ａ）は３Ｄ多視点ビデオが立方体の展開図形状に広げられた例を示すものであり、図１９の（ｂ）は立方体の上端部（例えば、Ｐ１）または下端部（例えば、Ｐ６）から立方体を眺めたときの平面図を例示する図である。

３Ｄ多視点映像を２Ｄに投影したものが、図１９の（ａ）に示された例のように、立方体の展開図形状であると仮定する場合、現在映像のＰ４面に含まれているブロックを、参照映像のＰ４面に含まれている参照領域を用いて予測するならば、視点差が発生しなくなる。しかし、現在映像のＰ４面に含まれているブロックを参照映像のＰ３面に含まれている参照領域を用いて予測するならば、Ｐ４面とＰ３面との視点差により予測の効率性が低下する問題点が発生するおそれがある。これにより、Ｐ３面に含まれている参照領域を基に、Ｐ４面に含まれているブロックを予測する場合を仮定して、参照映像の保存の際に、Ｐ３面をＰ４面に視点に応じて変換した参照映像を生成する必要がある。

このため、図１９の（ｂ）に示された例において、Ｐ３面に含まれている位置ｘをＰ４面のような視点を有する位置ｙに投影するなどの過程を経て、Ｐ３面の変換が行われ得る。このとき、Ｐ３面とＰ４面との視点差は簡略に下記の数式１によって表される。

式中、ａは立方体の一辺の長さを示す。

Ｐ３面をＰ４面の視点に合わせて変換した参照映像を用いる場合、参照映像のＰ３面が現在映像のＰ４面と同じ視点を有するので、参照映像のＰ３面を用いて現在映像のＰ４面を予測するときの予測効率の低下を回避することができる。

空間的に隣接する視点の異なる映像が追加存在する場合、上述の原理に基づいて隣接映像の変換がさらに行われ得る（Ｓ１６４０）。

特定の映像の視点を基準に隣接映像が変換されたとき、特定の映像と少なくとも一つの変換された隣接映像とを合わせて、参照映像を生成することができる（Ｓ１６５０）。

一例として、３Ｄ多視点映像が立方体の展開図形状に投影される場合、立方体の特定の面と隣接する複数の隣接面を特定面の視点に応じて変換し、特定の面と変換された複数の隣接面とを合わせて参照映像を生成することができる。

一例として、図２０および図２１は立方体の特定の面を基準に参照映像を生成する例を示す図である。図２０の（ａ）を参照すると、Ｐ４面を基準に見たとき、Ｐ４面はＰ１、Ｐ３、Ｐ５およびＰ６面と隣接している。これにより、Ｐ４面の視点に応じてＰ１、Ｐ３、Ｐ５およびＰ６面を変換してＴ１、Ｔ３、Ｔ５およびＴ６を生成し、Ｐ４面と生成された変換映像Ｔ１、Ｔ３、Ｔ５、Ｔ６とを合わせることにより、参照映像を生成することができる。

このとき、Ｐ４面と隣接する隣接面の全体領域が変換対象に設定されることも可能であるが、符号化器で設定した一部領域（例えば、検索範囲（ＳｅａｒｃｈＲａｎｇｅ））のみが変換対象に設定されることも可能である。

図２０の（ｂ）は隣接面の全体領域が変換対象である場合、参照映像が生成される例を示す図であり、図２０の（ｃ）は隣接面の一部領域が変換対象である場合、参照映像が生成される例を示す図である。

全体またはその一部が変換された映像は、視点の基準となる映像に応じて、その位置が決定される。多面体状に投影される映像の場合、多面体の特性に応じて変換映像の位置が決定される。変換映像は、その位置に応じて、視点の基準となる映像と合わせら得る。

一例として、図２１の（ａ）および（ｂ）に示された例において、Ｔ１、Ｔ３、Ｔ５およびＴ６映像の位置は、視点の基準となる映像Ｐ４に応じて相対的に位置が決定される。すなわち、それぞれの変換映像Ｔ１、Ｔ３、Ｔ５およびＴ６は、Ｐ４の視点に応じて投影された位置でＰ４と合わせられる。

図２１の（ｃ）および（ｄ）は、Ｐ４と変換映像Ｔ１、Ｔ３、Ｔ５およびＴ６とが合わせられて生成された参照映像Ｒ４を例示する図である。図２１の（ｃ）は隣接映像の変換可能な全体領域がＰ４の視点に応じて投影された場合を例示する図であり、図２１の（ｄ）は隣接映像の一部領域のＰ４の視点に応じて投影された場合を例示する図である。

次に、３Ｄ多視点映像がダイバージェント映像である場合に参照映像を生成する方法について説明する。

多面体状に投影される３Ｄ多視点映像と同様に、ダイバージェント映像も視点の異なる映像間の角度差および位置差を基に変換が行われ得る。ただし、ダイバージェント映像は多面体状の３Ｄ多視点映像とは異なり、視点の異なる映像の配置に既に定義されたルールがないので、映像の特性だけで、視点の異なる映像間の視点差（すなわち、角度差および距離差）を決定するのは難しい。これにより、ダイバージェント映像の視点差は、映像に付加される追加データ（例えば、メタデータ）を用いて符号化／シグナリングできる。追加データから視点の異なる映像間の視点差が取得されると、先立って説明したのと同様の方式で視点の異なる映像間の変換が行われ、変換結果を用いて参照映像が生成され得る。

一例として、図２２はダイバージェント映像に対する参照映像を生成する例を示す図である。図２２の（ａ）は、Ｐ１映像とは視点の異なるＰ２映像が存在することを示すものである。Ｐ１を基準に参照映像を生成する場合、Ｐ２の全体領域または一部領域をＰ１の視点に応じて変換し、変換された映像をＰ１と合わせて映像を生成することができる。図２２の（ｂ）は、Ｐ２の全体領域を変換することにより生成されたＴ２とＰ１とを合わせて参照映像が生成される例を示すものであり、図２１の（ｃ）は、Ｐ２の一部領域（例えば、検索範囲（ｓｅａｒｃｈｒａｎｇｅ））を変換することにより生成されたＴ’２とＰ１とを合わせて参照映像が生成される例を示すものである。

ダイバージェント映像の場合、視点の基準となる映像を中心に変換映像の位置が決定できる。このとき、変換映像の位置は、各映像の位置情報に基づいて決定できる。変換映像の位置が決定されると、視点の基準となる映像と変換映像とを合わせて参照映像が生成できる。

一例として、図２３は視点の基準となる映像と変換映像とを合わせて参照映像を生成する例を示す図である。図２３に示された例において、Ｐ２映像を変換することにより生成されたＴ２は、ダイバージェントの基準となる映像Ｐ１を中心に右に位置している。これにより、Ｐ１映像の右側に変換映像Ｔ２の少なくとも一部を生成することにより、参照映像Ｒ１を生成することができる。

次に、３Ｄ多視点映像がコンバージェント映像である場合に参照映像を生成する方法について説明する。

コンバージェント映像は、多面体状に投影される映像或いはダイバージェント映像とは異なり、各映像が特定の方向に向かう視点を有する。これにより、コンバージェント映像の一つのフレームには、特定の映像を基準に、特定の映像と空間上連続しながら特定の映像と同一の方向に向かって拡張された映像が複数個存在することができる。これにより、コンバージェント映像の参照映像を生成する際に、特定の映像と同一の位置に存在しながら変換が可能な隣接映像が複数個存在することができる。これにより、コンバージェント映像の参照映像は、特定の映像、および特定の映像と同一の位置に存在する複数の隣接映像のうちの少なくとも１つを変換することにより生成された変換映像に基づいて生成できる。

コンバージェント映像のように視点の異なる映像の空間上の位置差が大きくない場合、特定の映像に隣接する隣接映像を変換することにより生成された変換映像は次の様相を帯びることができる。

一つ目の様相は、特定の映像の視点に応じて変換された隣接映像が特定の映像と重畳しない領域を十分に含んでいる場合である。言い換えると、特定の領域に付加される拡張領域（すなわち、変換された隣接映像のうち、特定の映像と重畳しない部分）が必須情報（例えば、時間的予測に必要な領域）を含む場合である。この際には、先立って多面体あるいはダイバージェント映像から参照映像を生成するのと同様の方法が適用できる。

二つ目の様相は、特定の映像の視点に応じて変換された隣接映像が特定の映像とほとんど重畳する場合である。言い換えると、特定の領域に付加される拡張領域が十分な追加情報（たとえば、時間的予測に必要な領域）を含まない場合である。特定の領域に付加される拡張領域が十分な追加情報を含まなければ、時間的予測に参照映像を使用するのは難しい。

図２４を参照して、各様相についてより詳細に考察する。

図２４は変換映像が時間的予測に不可欠な領域を含むか否かを例示する図である。

説明の便宜のために、コンバージェント映像は、図２４の（ａ）に示された例のように、複数の映像（Ｐ１、Ｐ２、Ｐ３、．．．、ＰＮ）を含むものと仮定する。図２４の（ｂ）は、Ｐ１映像に隣接するＰ２映像をＰ１映像の視点に応じて変換する例を示す図である。図２４の（ｂ）に示された例のように、Ｐ１映像に隣接する少なくとも一つの映像をＰ１映像の視点に応じて変換することにより、Ｐ１映像に対する参照映像を生成することができる。このとき、変換された隣接映像は、Ｐ１映像との重畳程度に応じて必須領域を完全に含んでもよく、必須領域を完全に含まなくてもよい。一例として、図２４の（ｃ）では、Ｐ２映像から変換された映像Ｔ２は必須領域（例えば、検索範囲（ＳｅａｒｃｈＲａｎｇｅ））よりも小さい領域を含むが、Ｐ３映像から変換された映像Ｔ３は必須領域を含むものと例示された。

図２４の（ｃ）に示されたＴ２映像のように、変換された映像が必要な最小限の領域を含まなければ、Ｔ２映像を基に生成された参照映像では時間的予測を行うことは難しい。この場合、変換された隣接領域のピクセル値を用いて、時間的予測を行う上で足りない領域をパディングすることにより、参照映像を拡張することができる。つまり、時間的予測に利用するために不可欠に含まれるべき領域のうち、隣接映像の変換分から取得することができない領域を変換された隣接領域のエッジサンプルを用いてパディングすることができる。

図２５はコンバージェント映像に対する参照映像を生成する例を示す図である。図２５の（ｃ）に示された変換映像Ｔ２を用いて説明したように、Ｐ２映像に対してＰ１と重畳する部分を除いた残余領域が十分に広くない場合、Ｐ２を変換した映像Ｔ２も時間的予測に使用するための必須領域を含まなくなることがある。この場合、図２５の（ａ）および（ｂ）に示された例のように、Ｔ２映像のエッジサンプルを用いて、予測に利用するために必要な領域をパディングすることができる。

図２５の（ａ）は、Ｐ２映像を右に変換拡張したとき、右のエッジサンプルを用いて残余領域をパディングする例を示すものであり、図２５の（ｂ）は、Ｐ２映像を上方に変換拡張したとき、上方のエッジサンプルを用いて残余領域をパディングする例を示すものである。

図２５ではコンバージェント映像を例に挙げて説明したが、コンバージェント映像だけでなく、全方向映像またはダイバージェント映像などにおいても変換された映像が予測利用に必要な領域を十分に含んでいない場合、変換された映像のエッジサンプルを用いて参照映像を拡張することができる。

コンバージェント映像の場合、視点の基準となる映像を中心に変換映像の位置が決定できる。このとき、変換映像の位置は各映像の位置情報に基づいて決定できる。コンバージェント映像の場合、同一の位置に拡張される複数の変換映像を取得することができるので、視点の基準となる映像とそれぞれの変換映像とを合わせて少なくとも一つの参照映像を生成することができる。

一例として、図２６は視点の基準となる映像と変換映像とを合わせて参照映像を生成する例を示す図である。図２６に示された例において、Ｐ２映像を変換することにより生成されたＴ２とＰ１映像とを合わせて参照映像Ｒ１を生成し、Ｐ３映像を変換することにより生成されたＴ３とＰ１映像とを合わせて参照映像Ｒ２を生成することができる。このような方式で、Ｐ１映像を基準に、Ｎ個の変換映像に対してＮ－１個の参照映像が生成できる。

参照映像が生成されると、参照映像は参照映像リストに保存できる（Ｓ１６６０）。併せて、空間的に連続する視点が異なる映像が存在しない場合（Ｓ１６１０）、現在映像を参照映像として参照ピクチャーリストに保存することができる（Ｓ１６６０）。

生成された参照映像を参照映像リストに保存する場合、参照映像は、同一の時間帯を基準にグループ化されて保存できる。

図２７は立方体状に展開される３Ｄ多視点映像に対する参照映像リストが生成される例を示す図である。

３Ｄ多視点映像が立方体状に展開される場合、特定の時間帯、特定の視点の映像を基準に一つの参照映像が生成できる。このとき、特定の時間帯に視点の基準となることができる映像は、合計６つ（すなわち、立方体の各面）なので、特定の時間帯に最大６つの参照映像が生成できる。この場合、６つの参照映像は時間帯を基準にグループ化されて保存できる。

一例として、ｔ０時間帯の全方位映像に対して、合計６つの参照映像（Ｐ１の視点を基準に生成された参照映像Ｒ１、Ｐ２の視点を基準に生成された参照映像Ｒ２、・・・、Ｐ６の視点を基準に生成された参照映像Ｒ６）が生成できる。ｔ０時間帯を基準に生成された参照映像は、１つのグループにグループ化されて保存できる。これと同様に、ｔ１、ｔ２、・・・、ｔＮなどの参照映像リストは、所定の時間帯を基準にグループ化されてリストに保存できる。

図２８はダイバージェント映像に対する参照映像リストが生成される例を示す図である。

ダイバージェント映像の場合、特定の時間帯、特定の視点の映像を基準に一つの参照映像が生成できる。視点の基準となる映像の数は、ダイバージェント映像を撮影するカメラの数によって決定されるので、特定の時間帯にカメラの数だけの参照映像が生成できる。多面体状に展開される全方位映像と同様に、複数の参照映像は時間帯別にグループ化されて保存できる。

一例として、ｔ０時間帯のダイバージェント映像に対して、合計３つの参照映像（Ｐ１の視点を基準に生成された参照映像Ｒ１、Ｐ２の視点を基準に生成された参照映像Ｒ２、およびＰ３の視点を基準に生成された参照映像Ｒ３）が生成されたと仮定した場合、ｔ０時間帯を基準に生成された３つの参照映像が１つのグループにグループ化されて保存できる。これと同様に、ｔ１、ｔ２、・・・、ｔＮなどの参照映像リストは、所定の時間帯を基準にグループ化されてリストに保存できる。

図２９はコンバージェント映像に対する参照映像リストが生成される例を示す図である。

コンバージェント映像の場合、特定の時間帯、特定の視点の映像を基準に少なくとも一つの参照映像が生成できる。一例として、視点の基準となる映像がＰ１映像であるとき、Ｐ１映像およびＰ２映像に基づいて第１参照映像Ｒ１が生成でき、Ｐ１映像およびＰ３映像に基づいて第２参照映像が生成できる。コンバージェント映像の参照映像も、全方位映像と同様に、特定の時間帯に生成された複数の参照映像がグループ化されて保存できる。

一例として、ｔ０時間帯のコンバージェント映像に対して、Ｐ１の視点を基準に生成されたＮ個の参照映像、Ｐ２の視点を基準に生成されたＮ個の参照映像、・・・、ＰＮの視点を基準に生成されたＮ個の参照映像などが存在しうる。この場合、ｔ０時間帯を基準に生成された複数の参照映像が１つのグループにグループ化されて保存できる。これと同様に、ｔ１、ｔ２、・・・、ｔＮなどの参照映像リストは、所定の時間帯を基準にグループ化されてリストに保存できる。

図２７乃至図２９には、複数の参照映像が時間帯を基準にグループ化されて保存されることが例示されている。図示された例とは異なり、複数の参照映像は、視点の基準となる映像を基準にグループ化されて保存されることも可能である。

参照映像を選択するために、参照映像を選択するための情報が符号化／シグナリングできる。このとき、参照映像を選択するための情報は、参照映像が含まれている時間に関する情報、または該当時間帯に含まれている複数の参照映像のうちの少なくとも一つを識別するための情報の少なくとも一つを含むことができる。

図２７を例として挙げて、参照映像を選択するための情報がｔ０時間帯のＰ１の視点を基準に生成された参照映像を指しているならば、該当時間帯の該当参照映像が時間的予測のために利用できるだろう。

他の例として、特定の時間帯に含まれている複数の参照映像の中からどれを選択するかは、現在符号化／復号化しようとする領域の位置に基づいて選択できる。たとえば、現在符号化／復号化しようとする領域が立方体のＰ６面に含まれているならば、符号化器および復号化器は、Ｐ６の視点を基準に生成された参照映像を時間的予測に利用することができる。

上述したように、空間的に隣接する映像間の視点が互いに異なる場合には、映像の境界を基準に投影された事物の形状が視点に応じて変わる歪みが発生することがある。上述のように、映像間の境界で歪みによる符号化／復号化効率を低下させるために、参照に使用する任意の視点映像に対して、任意の映像（または領域）の視点に合わせて、これに隣接する映像（または領域）を変換する過程を経ることにより、符号化／復号化効率を向上させることができる。

図３０は本発明によって参照映像を生成する場合とそうでない場合とを比較するための図である。

図３０の（ａ）に示された例のように、隣接映像を変換していないまま時間的予測を使用するならば、面の境界で視点差による歪みが発生する。図３０の（ａ）には、Ｐ６面の境界で非線形的歪みが発生することが示されている。これにより、特定の映像の境界部分を基に時間的予測を行おうとする場合、視点差により時間的予測効率が減少する問題点が発生するおそれがある。

しかし、図３０の（ｂ）に示された例のように、隣接映像を変換して参照映像を生成し、生成された参照映像を基に時間的予測を使用するならば、面の境界における歪みを著しく減らすことができる。図３０の（ｂ）に示された例では、Ｐ６面の境界に存在していた非線形変化が線形的に変換されている。これにより、特定の映像の境界部分を基に時間的予測を行うとしても、視点差による歪みが少ないため時間的予測効率を向上させることができる。

上述のように、隣接映像が変換されていないまま時間的予測を行う場合、映像の符号化／復号化の際に映像の境界に位置したブロックを基に時間的予測を行うのは難しい。これにより、隣接映像が変換されていない状態で、視点が変化する境界に隣接する境界ブロックは、時間的予測よりも空間的予測によって符号化されるのが一般的である。

しかし、本発明で提案したように、隣接映像を変換して生成された参照映像を基に時間的予測を行う場合、映像の符号化／復号化の際に映像の境界に位置したブロックを基に時間的予測を行うことができる。これにより、視点が変化する境界に隣接する境界ブロックも時間的予測によって符号化／復号化できるため、映像圧縮効率が高くなることができる。

一例として、図３１は本発明の適用有無による符号化の様相を例示する図である。図３１の（ａ）に示された例のように、本発明が適用されていない状態で、視点が変化する境界に位置したブロックは一般的にイントラ予測によって符号化される。しかし、図３１の（ｂ）に示された例のように、本発明が適用される場合は、視点が変化する境界に位置したブロックも時間的予測によって符号化できる。

本発明によれば、予測に用いられる映像を拡張するか否かは、符号化パラメータで符号化され、ビットストリームによってシグナリングできる。一例として、予測に用いられる映像を拡張するか否かは、１ビットのフラグによって符号化およびシグナリングできる。該当フラグが、予測に用いられる映像を拡張することを指し示す場合、特定の映像の視点に応じて隣接映像を変換した後、特定の映像と隣接映像とを合わせて参照映像を生成する方法が適用できる。これに対し、当該フラグが、予測に用いられる映像を拡張することを指し示さない場合、視点に基づいた変換および特定の映像を拡張する過程などは行われない。

このとき、予測に用いられる映像を拡張するか否かは、パラメータセット、ピクチャー単位、スライス単位または符号化対象ユニット単位でシグナリングできる。下記の表１は予測に用いられる映像を拡張するか否かを示す情報がＶＰＳを介してシグナリングされる例を示し、表２は前記情報がＳＰＳを介してシグナリングされる例を示す。

表１および表２において、「ｐｅｒｓｐｅｃｔｉｖｅ＿ｒｅｆｅｒｅｎｃｅ＿ｐｉｃｔｕｒｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇ」は、予測に用いられる映像を拡張するか否かを示す。本発明で提案するように、予測に用いられる映像を拡張しようとする場合、「ｐｅｒｓｐｅｃｔｉｖｅ＿ｒｅｆｅｒｅｎｃｅ＿ｐｉｃｔｕｒｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇ」は「１」に設定され、予測に用いられる映像を拡張しないこととする場合、「ｐｅｒｓｐｅｃｔｉｖｅ＿ｒｅｆｅｒｅｎｃｅ＿ｐｉｃｔｕｒｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇ」は「０」に設定され得る。または、予測に用いられる映像を拡張するか否かは、説明した例と反対の値に設定されることも可能である。

「ｐｅｒｓｐｅｃｔｉｖｅ＿ｒｅｆｅｒｅｎｃｅ＿ｐｉｃｔｕｒｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇ」が「１」である場合には、参照映像を構成するときに映像の方向と位置を考慮した、拡張された参照映像が生成できる。併せて、拡張された参照映像を基に予測が行われ得る。

次に、視点の特徴を利用して視点境界部分の予測情報を変換し、変換された予測情報を用いてブロック間の相関度を高める方法について考察する。

図３２は本発明に係る予測情報の変換方法を示すフローチャートであり、図３３は視点（Ｐｅｒｓｐｅｃｔｉｖｅ）境界で予測情報が変換される例を示す図である。図３３に示された例において、斜線ブロックは現在符号化／復号化対象ブロック（例えば、ＣＵまたはＰＵなど）を示す。併せて、現在ブロックに隣接した周辺ブロック内の矢印は予測情報を示す。このとき、実線の矢印は変換前の予測情報を示し、点線の矢印は変換後の予測情報を示す。また、ブロック間の太い線は視点（Ｐｅｒｓｐｅｃｔｉｖｅ）間の境界を示す。

まず、現在ブロックが視点間の境界に位置するブロックであるか否かを決定する（Ｓ３２１０）。ここで、現在ブロックが視点間の境界に位置するというのは、現在ブロックが視点間の境界に接する場合を意味する。図３３の（Ａ）では現在ブロックが視点間の境界に位置しない例を示し、（Ｂ）乃至（Ｆ）では現在ブロックが視点間の境界に位置する例を示している。

現在ブロックが視点間の境界に位置しない場合、現在ブロックに隣接する周辺ブロックの予測情報が変換されない。これとは異なり、現在ブロックが視点間の境界に位置する場合、現在ブロックの視点とは異なる視点を有する周辺ブロックの予測情報を変換することができる（Ｓ３２２０）。このとき、変換は視点間の特性に基づいて行われ得る。

ここで、視点間の特性は、視点が異なる映像間の視点差を意味することができる。視点が異なる映像間の視点差については図１７および図１８を用いて説明したことがあるので、これについての詳細な説明は省略する。

再び図３２を参照すると、現在ブロックの予測は周辺ブロックの予測情報を用いて行われ得る（Ｓ３２３０）。この際、周辺ブロックの予測情報は、現在ブロックが視点間の境界に位置したか否かによって、変換されていない予測情報であることも、変換された予測情報であることも可能である。

以下、周辺ブロックの予測情報を用いて現在ブロックに対する予測を行う例についてより詳細に考察する。

図３４は周辺ブロックの予測情報を基に、画面内予測を行うためのＭＰＭ（ＭｏｓｔＰｒｏｂａｂｌｅＭｏｄｅ）候補を決定する過程を説明するためのフローチャートである。ここで、イントラ予測情報は周辺ブロックのイントラ予測モード（またはＭＰＭ）を含むことができる。

現在ブロックのイントラ予測モードを取得するために、現在ブロックに隣接した隣接ブロックのイントラ予測モードを基にＭＰＭ候補を決定し、決定されたＭＰＭ候補を基にＭＰＭ候補リストを生成することができる。もし、現在ブロックのイントラ予測モードがＭＰＭ候補リストに含まれているならば、該当ＭＰＭ候補を指示するインデックス情報が符号化／シグナリングできる。この際、現在ブロックに隣接した隣接ブロックは、現在ブロックの左側に隣接する隣接ブロックや、現在ブロックの上側に隣接する隣接ブロックなどを含むことができる。これに止まらず、隣接ブロックは、現在ブロックの左上側に隣接する隣接ブロック、現在ブロックの右上側に隣接する隣接ブロック、または現在ブロックの左下側に隣接する隣接ブロックなども含むことができる。

説明の便宜のために、後述する実施形態では、現在ブロックの左側に隣接する左側隣接ブロックおよび現在ブロックの上側に隣接する上段隣接ブロックから現在ブロックのＭＰＭ候補を誘導すると仮定する。

後述される実施形態において、イントラ予測モードの変換は、隣接ブロックのイントラ予測モードが方向性モードである場合に限って行われ得る。近隣ブロックのイントラ予測モードが非方向性モード（例えば、ＤＣまたはＰＬＡＮＡＲモード）である場合には、イントラ予測モードの変換なしでＭＰＭが生成できる。

図３４を参照すると、まず、現在ブロックの左側面が視点間の境界に隣接するか否かを決定する（Ｓ３４１０）。もし、現在ブロックの左側面が視点間の境界に隣接する場合には、視点間の特性を利用して、現在ブロックの左側に隣接する左側隣接ブロックのイントラ予測モードを変換して、第１ＭＰＭを生成することができる（Ｓ３４２０）。

現在ブロックの左側面が視点間の境界に隣接しない場合には、現在ブロックの左側に隣接する左側隣接ブロックのイントラ予測モードをそのまま第１ＭＰＭとして使用することができる（Ｓ３４３０）。

次に、現在ブロックの上端面が視点間の境界に隣接するか否かを決定する（Ｓ３４４０）。もし、現在ブロックの上端面が視点間の境界に隣接する場合には、視点間の特性を利用して、現在ブロックの上側に隣接する上段隣接ブロックのイントラ予測モードを変換して、第２ＭＰＭを生成することができる（Ｓ３４５０）。

現在ブロックの上端面が視点間の境界に隣接しない場合には、現在ブロックの上側に隣接する上段隣接ブロックのイントラ予測モードをそのまま第２ＭＰＭとして使用することができる（Ｓ３４６０）。

図３５乃至図３７は現在ブロックが視点境界に位置するか否かに応じてＭＰＭ候補を生成する例を示す図である。

図３５を参照すると、現在ブロックと左側隣接ブロックは視点間の境界Ｐ１、Ｐ２を基準に隣接して位置している。この場合、Ｐ１とＰ２との視点差に基づいて、左側ブロックのイントラ予測モードを変換することにより第１ＭＰＭを生成することができる。

現在ブロックと上段隣接ブロックとの視点間の境界が存在しないので、上段隣接ブロックのイントラ予測モードを基に第２ＭＰＭを生成することができる。

図３６を参照すると、現在ブロックと左側隣接ブロックとの視点間の境界が存在しないので、左側隣接ブロックのイントラ予測モードを基に第１ＭＰＭを生成することができる。

これとは異なり、現在ブロックと上段隣接ブロックは、視点間の境界Ｐ１、Ｐ２を基準に隣接して位置している。これにより、Ｐ１とＰ２との視点差に基づいて、上段隣接ブロックのイントラ予測モードを変換することにより第２ＭＰＭを生成することができる。

図３７を参照すると、現在ブロックと左側隣接ブロックは視点間の境界Ｐ１、Ｐ２を基準に隣接して位置している。これにより、Ｐ１とＰ２との視点差に基づいて、左側隣接ブロックのイントラ予測モードを変換することにより第１ＭＰＭを生成することができる。

現在ブロックと上段隣接ブロックも視点間の境界Ｐ２、Ｐ３を基準に隣接して位置している。これにより、Ｐ２視点とＰ３視点との視点差に基づいて、上段隣接ブロックのイントラ予測モードを変換することにより第２ＭＰＭを生成することができる。

第１ＭＰＭおよび第２ＭＰＭが生成されると、第１ＭＰＭと第２ＭＰＭとが同一であるか否かを確認する（Ｓ３４７０）。第１ＭＰＭと第２ＭＰＭとが同一である場合、第１ＭＰＭが非方向性モード（すなわち、イントラ予測モードが２よりも小さいか否か）を判断する（Ｓ３４８０）。第１ＭＰＭが非方向性モードである場合、既に定義されたＮ個のＭＰＭ候補を生成することができる（Ｓ３４８５）。ここで、Ｎは１以上の自然数、例えば２、３、４などを意味することができる。一例として、第１ＭＰＭが非方向性モード（例えば、ＤＣまたはＰＬＡＮＡＲモード）である場合、次のとおり、プラナー、ＤＣ、および垂直方向予測に固定された３つのＭＰＭ候補が生成できる。

ＭＰＭ［０］＝Ｉｎｔｒａ＿Ｐｌａｎａｒ
ＭＰＭ［１］＝Ｉｎｔｒａ＿ＤＣ
ＭＰＭ［２］＝Ｉｎｔｒａ＿Ｖｅｒｔｉｃａｌ（２６）
第１ＭＰＭが方向性モードである場合、第１ＭＰＭをＭＰＭ候補に追加する一方、第１ＭＰＭと類似の方向を有するＮ－１個のＭＰＭ候補を生成することができる（Ｓ３４９０）。ここで、第１ＭＰＭと類似の方向を有するＭＰＭは、第１ＭＰＭに対してｋを加算または減算した値を持つことができる（このとき、ｋは１以上の自然数）。一例として、第１ＭＰＭが方向性モードである場合、第１ＭＰＭ、第１ＭＰＭに対して１を減算したイントラ予測モード、および左側隣接ブロックのイントラ予測モードに１を加算したイントラ予測モードなど、３つのＭＰＭ候補が生成できる。

ＭＰＭ［０］＝Ｌｅｆｔ＿Ｂｌｏｃｋ＿ＭＰＭ
ＭＰＭ［１］＝Ｌｅｆｔ＿Ｂｌｏｃｋ＿ＭＰＭ－１
ＭＰＭ［２］＝Ｌｅｆｔ＿Ｂｌｏｃｋ＿ＭＰＭ＋１
第１ＭＰＭと第２ＭＰＭとが同一でない場合、第１ＭＰＭおよび第２ＭＰＭをＭＰＭ候補として追加する一方、既に定義されたイントラ予測モードを有するＮ－２個のＭＰＭ候補を追加生成することができる（Ｓ３４９５）。このとき、追加生成されるＭＰＭ候補の個数は一つ以上であり得る。一例として、第１ＭＰＭと第２ＭＰＭとが互いに異なる場合には、次のとおり、第１ＭＰＭおよび第２ＭＰＭをＭＰＭ候補として生成し、プラナー、ＤＣまたは垂直方向モードに設定される追加ＭＰＭ候補が生成できる。追加ＭＰＭ候補は、第１ＭＰＭおよび第２ＭＰＭと同一の値を持たないように決定できる。

ＭＰＭ［０］＝Ｌｅｆｔ＿Ｂｌｏｃｋ＿ＭＰＭ
ＭＰＭ［１］＝Ａｂｏｖｅ＿Ｂｌｏｃｋ＿ＭＰＭ
ＭＰＭ［２］＝Ｉｎｔｒａ＿Ｐｌａｎａｒ／Ｉｎｔｒａ＿ＤＣ／Ｉｎｔｒａ＿Ｖｅｒｔｉｃａｌ（２６）
次に、周辺ブロックの予測情報を用いて現在ブロックに対する画面間予測を行う例について詳細に考察する。

図３８は周辺ブロックの予測情報を基に、併合動きモード（ＭｅｒｇｅＭｏｄｅ）の下で画面間予測を行うための空間的マージ候補を決定する過程を説明するためのフローチャートである。

図３８を参照すると、まず、現在ブロックに空間的に隣接する隣接ブロックが現在ブロックとは異なる視点を有するか否かを決定する（Ｓ３８１０）。現在ブロックと空間的に隣接する隣接ブロックとが互いに異なる視点を有する場合、隣接ブロックの動き情報を変換する（Ｓ３８２０）。このとき、変換される動き情報は動きベクトルを含む。

現在ブロックと隣接ブロックが視点境界に位置していない場合には、隣接ブロックの動き情報は変換されない。

その後、現在ブロックに空間的に隣接する隣接ブロックの利用可能性を判断する（Ｓ３８３０）。空間的隣接ブロックが利用可能な状態であれば、空間的隣接ブロックの動き情報または変換された動き情報を併合候補リストに含む（Ｓ３８４０）。

前記動きリストを含む過程（Ｓ３８１０～Ｓ３８４０）は、現在ブロックと空間的に隣接する複数の隣接ブロックそれぞれに対して繰り返し行われ得る（Ｓ３８５０）。一例として、図１２を用いて説明した例のように、Ａ→Ｂ→Ｃ→Ｄ→Ｅの順に併合動き候補リストが生成される場合、左側ブロック（Ａ）、上段ブロック（Ｂ）、右上段ブロック（Ｃ）、左下段ブロック（Ｄ）および左上段ブロック（Ｅ）の順に、前記動きリストを含む過程が行われ得る。

ただし、左上段ブロックは、残余空間的隣接ブロックのうちの少なくとも１つが画面間予測に利用することができない場合にのみ、動きリストに含まれ得る。これにより、左上段ブロックを動きリストに含む過程（Ｓ３８１０～Ｓ３８４０）は、残余空間的隣接ブロックのうちの少なくとも１つが画面間予測に利用できない場合にのみ行われ得る。

図３９は現在ブロックと空間的隣接ブロックとが互いに異なる視点を有する例を示す。

図３９の（ａ）では、Ａブロック、ＤブロックおよびＥブロックは現在ブロックと異なる視点を有し、ＢブロックおよびＣブロックは現在ブロックと同一の視点を有することを例示している。この場合、Ａブロック、ＤブロックおよびＥブロックの動き情報は、視点Ｐ１とＰ２との視点差に基づいて変換され、ＢブロックおよびＣブロックの動き情報は変換されない。その後、Ａブロック、ＤブロックおよびＥブロックの変換された動き情報とＢブロックおよびＣブロックの動き情報とを用いて、Ａ、Ｂ、Ｃ、Ｄ、Ｅの順に空間的併合候補リストを構成することができる。

図３９の（ｂ）では、Ｂブロック、ＣブロックおよびＥブロックは現在ブロックと異なる視点を有し、ＡブロックおよびＤブロックは現在ブロックと同じ視点を有することを例示している。この場合、Ｂブロック、ＣブロックおよびＥブロックの動き情報は視点Ｐ１とＰ２との視点差に基づいて変換され、ＡブロックおよびＤブロックの動き情報は変換されない。その後、Ｂブロック、ＣブロックおよびＥブロックの変換された動き情報とＡブロックおよびＤブロックの動き情報とを用いて、Ａ、Ｂ、Ｃ、Ｄ、Ｅの順に空間的併合候補リストを構成することができる。

この他にも、現在ブロックが空間的隣接ブロックとは異なる視点を有することができる例が、図３９の（ｃ）乃至図３９の（ｈ）に示されている。現在ブロックが空間的隣接ブロックと異なる視点を有する場合、現在ブロックと空間的隣接ブロックとの視点差に基づいて空間的隣接ブロックの動き情報を変換し、現在ブロックが空間的隣接ブロックと同一の視点を有する場合、空間的隣接ブロックの動き情報を変換しないことは、これらの例でも同様に適用できるだろう。

図４０は周辺ブロックの予測情報を基に、併合動き（マージ）モードの下で画面間予測を行うための時間的マージ候補を決定する過程を説明するためのフローチャートである。
ここで、予測情報は周辺ブロックの動きベクトルを含むことができる。

時間的マージ候補は現在ブロックの時間的隣接ブロックから誘導できる。この際、時間的隣接ブロックは、現在ブロックが含まれている現在ピクチャーとは異なる時間順序を持つコルケーテッドピクチャー内のコロケーテッド（Ｃｏｌｌｏｃａｔｅｄ）ブロックを意味することができる。このとき、コロケーテッドブロックは、コロケーテッドピクチャー内の第１ブロックの利用可能性に応じて可変的に決定できる。一例として、第１ブロックが画面間予測に利用可能な場合には、第１ブロックがコロケーテッドブロックと決定され、第１ブロックが利用不可能な場合には、第１ブロックと異なる位置にある第２ブロックがコロケーテッドブロックと決定され得る。ここで、第１ブロックおよび第２ブロックは、現在ブロックの左下段サンプルの座標値を含むブロックまたは現在ブロックの中心ピクセル値を含むブロックのうち、互いに異なる一つであり得る。

以下、説明の便宜のために、第１ブロックは現在ブロックの左下段サンプルの座標を含むブロックであり、第２ブロックは現在ブロックの中心座標を含むブロックであると仮定する。

図４０を参照すると、まず、第１ブロックの視点が現在ブロックの視点と異なるか否かを決定する（Ｓ４０１０）。第１ブロックは、現在ブロックと時間的に隣接するので、第１ブロックの視点と現在ブロックの視点とが互いに異なる場合、第１ブロックは現在ブロックとの視点境界に位置するものと判断できる。第１ブロックの視点と現在ブロックの視点とが互いに異なる場合、第１ブロックの動き情報を変換する（Ｓ４０２０）。このとき、変換される動き情報は動きベクトルを含む。

現在ブロックと第１ブロックが境界に位置していない場合には、第１ブロックの動き情報は変換されない。

その後、第１ブロックの利用可能性を判断する（Ｓ４０３０）。第１ブロックの動き情報を併合候補として使用することができれば、第１ブロックの動き情報を併合候補リストに追加することができる（Ｓ４０４０）。

これとは異なり、第１ブロックが利用できない場合には、第２ブロックの利用可能性を判断する（Ｓ４０５０）。第２ブロックの動き情報を併合候補として使用することができれば、第２ブロックの動き情報を併合候補リストに追加することができる（Ｓ４０６０）。

第２ブロックは、現在ブロックの中心座標を含むので、現在ブロックと同一の視点を有する。これにより、第２ブロックの動き情報は、変換されていないまま併合候補リストに追加できる。

図４１は現在ブロックと時間的隣接ブロックとが互いに異なる視点を有する例を示す。

図４１に示された例において、現在ブロックＸに対して、第１ブロックはＨブロックに対応し、第２ブロックはＭブロックに対応する。図４１の（ａ）乃至（ｃ）には、現在ブロックは視点Ｐ１を有するのに対し、Ｈブロックは視点Ｐ２を有することが例示されている。この場合、Ｈブロックの動き情報は、視点Ｐ１とＰ２との視点差に基づいて変換できる。

Ｍブロックの場合、現在ブロックＸと常に同一の視点を有するので、Ｍブロックの動き情報は変換されないことがある。

図３８乃至図４１では、現在ブロックの画面間予測モードが併合動きモードである場合を仮定している。説明した例に止まらず、現在ブロックの画面間予測モードがＡＭＶＰ（ＡｄｖａｎｃｅｄＭｏｔｉｏｎＶｅｃｔｏｒＰｒｅｄｉｃｔｏｒ）モードである場合にも、図３８乃至図４１を用いて説明した予測情報の変換方法が適用できる。一例として、現在ブロックに空間的に隣接する空間的隣接ブロック、または現在ブロックに時間的に隣接する時間的隣接ブロックが現在ブロックとは異なる視点を有するならば、該当隣接ブロックの動きベクトルを変換した後、変換された動きベクトルを動きベクトル予測候補リスト（ＭＶＰＬｉｓｔ）に追加することができる。もし、現在ブロックの空間的隣接ブロックまたは時間的隣接ブロックが現在ブロックと同一の視点を有するならば、該当隣接ブロックの動きベクトルは、変換されていないまま動きベクトル予測候補リストに含まれ得る。

本発明によれば、予測情報を変換して符号化するか否かを指し示す情報は、符号化パラメータで符号化され、ビットストリームによってシグナリングされ得る。一例として、予測情報を変換するか否かについての情報は、１ビットのフラグで符号化およびシグナリングできる。該当フラグが予測情報を変換することを指し示す場合、現在ブロックと隣接ブロックとが互いに異なる視点を有するか否かに応じて、隣接ブロックの予測情報を変換する方法が使用できる。

このとき、予測情報を変換するか否かは、パラメータセット、ピクチャー単位、スライス単位、または符号化対象ユニット（例えば、ＣＵまたはＰＵなど）単位でシグナリングできる。表３は予測情報を変換するか否かを示す情報がＶＰＳを介してシグナリングされる例を示し、表４は上記の情報がＳＰＳを介してシグナリングされる例を示す。表５は上記の情報がＰＵ単位でシグナリングされる例を示す。

表３および表４において、「ｐｅｒｓｐｅｃｔｉｖｅ＿ｉｎｔｒａ＿ｐｒｅｄ＿ｔｒａｎｓｆｏｒｍ＿ｅｎａｂｌｅｄ＿ｆｌａｇ」は、画面内予測モードが適用されたとき、予測情報を変換するか否かを示し、「ｐｅｒｓｐｅｃｔｉｖｅ＿ｉｎｔｅｒ＿ｐｒｅｄ＿ｔｒａｎｓｆｏｒｍ＿ｅｎａｂｌｅ＿ｆｌａｇ」は、画面間予測モードが適用されたとき、予測情報を変換するか否かを示す。

一例として、「ｐｅｒｓｐｅｃｔｉｖｅ＿ｉｎｔｒａ＿ｐｒｅｄ＿ｔｒａｎｓｆｏｒｍ＿ｅｎａｂｌｅｄ＿ｆｌａｇ」の値が「１」であることは、画面内予測モードが適用されたとき、予測情報を変換する方法が適用されることを示し、「ｐｅｒｓｐｅｃｔｉｖｅ＿ｉｎｔｒａ＿ｐｒｅｄ＿ｔｒａｎｓｆｏｒｍ＿ｅｎａｂｌｅｄ＿ｆｌａｇ」の値が「０」であることは、画面内予測モードが適用されたとき、予測情報を変換する方法が適用されないことを示す。または、画面内予測が適用されたときに予測情報を変換するか否かは、説明した例と反対の値に設定されることも可能である。

「ｐｅｒｓｐｅｃｔｉｖｅ＿ｉｎｔｅｒ＿ｐｒｅｄ＿ｔｒａｎｓｆｏｒｍ＿ｅｎａｂｌｅ＿ｆｌａｇ」の値が「１」であることは、画面間予測モードが適用されたとき、予測情報を変換する方法が適用されることを示し、「ｐｅｒｓｐｅｃｔｉｖｅ＿ｉｎｔｅｒ＿ｐｒｅｄ＿ｔｒａｎｓｆｏｒｍ＿ｅｎａｂｌｅ＿ｆｌａｇ」の値が「０」であることは、画面間予測モードが適用されたとき、予測情報を変換する方法が適用されないことを示す。または、画面間予測が適用されたときに予測情報を変換するか否かは、説明した例と反対の値に設定されることも可能である。

表５において、「ｐｅｒｓｐｅｃｔｉｖｅ＿ｐｒｅｄ＿ｔｒａｎｓｆｏｒｍ＿ｆｌａｇ」は、ＰＵの予測モードを問わず、予測情報を変換する方法を適用するか否かを示す。

一例として、「ｐｅｒｓｐｅｃｔｉｖｅ＿ｐｒｅｄ＿ｔｒａｎｓｆｏｒｍ＿ｆｌａｇ」の値が「１」であることは、画面内予測モードまたは画面間予測モードが適用されたとき、予測情報を変換する方法が適用されることを示し、「ｐｅｒｓｐｅｃｔｉｖｅ＿ｐｒｅｄ＿ｔｒａｎｓｆｏｒｍ＿ｆｌａｇ」の値が「０」であることは、画面内予測モードまたは画面間予測モードが適用されたとき、予測情報を変換する方法が適用されないことを示す。または、予測情報を変換するか否かは、説明した例と反対の値に設定されることも可能である。

本発明に係る符号化器および復号化器の構成については、図４２および図４３を参照して詳細に説明する。

図４２は本発明に係る符号化器の構成を示すブロック図である。

符号化器は、全方向映像の展開図、コンバージェントカメラ映像およびダイバージェント映像などの３Ｄ多視点映像を符号化する装置を意味する。符号化器は、投影部１００、画面間予測部１１０、画面内予測部１２０、変換部１３０、量子化部１４０、エントロピー符号化部１５０、逆量子化部１６０、逆変換部１７０、参照映像拡張部１８０、予測情報変換部１８５および復元ピクチャーバッファ１９０を含むことができる。

符号化器は、入力映像に対して画面内予測モード（または空間的モード）および／または画面間予測モード（または時間的モード）で符号化を行うことができる。また、符号化器は、入力映像に対する符号化を介してビットストリームを生成することができ、生成されたビットストリームを出力することができる。予測モードとして画面内予測モードが使用される場合、スイッチは画面内予測に転換でき、予測モードとして画面間予測モードが使用される場合、スイッチは画面間予測に転換できる。ここで、画面内予測モードはイントラ予測モード（すなわち、空間的予測モード）を意味することができ、画面間予測モードはインター予測モード（すなわち、時間的予測モード）を意味することができる。

符号化器は入力映像の入力ブロックに対する予測信号を生成することができる。ブロック単位の予測信号は予測ブロックと呼ばれることもある。また、符号化器は、予測ブロックが生成された後、入力ブロックと予測ブロックとの差分（ｒｅｓｉｄｕａｌ）を符号化することができる。入力映像は、現在符号化の対象である現在映像と呼ばれることもある。入力ブロックは、現在符号化の対象である現在ブロックあるいは符号化対象ブロックと呼ばれることもある。

投影部１００は、３Ｄ多視点映像を正距円筒または多面体の展開図などの２次元形状に投影する役割を果たす。これにより、不規則な角度と位置を有する複数の映像が多面体の展開図に合わせて２次元映像に変換できる。投影部はカメラの位置および角度などを用いて３Ｄ多視点映像を２次元映像に変換することもできる。

予測モードがイントラモードである場合、画面内予測部１２０は、現在ブロックの周辺に既に符号化されたブロックのピクセル値を参照画素として用いることができる。画面内予測部１２０は、参照画素を用いて空間的予測を行うことができ、空間的予測を介して入力ブロックに対する予測サンプルを生成することができる。

この際、現在ブロックのイントラ予測モードは、現在ブロックに隣接する隣接ブロックのイントラ予測モードを基に決定できる。もし、現在ブロックの視点と隣接ブロックの視点とが互いに異なる場合、予測情報変換部１８５は、隣接ブロックのイントラ予測モードを変換し、変換されたイントラ予測モードに基づいて現在ブロックのイントラ予測モードを決定することができる。

予測モードがインターモードである場合、画面間予測部１１０は、動き予測過程で参照映像から入力ブロックと最もよくマッチする領域を検索することができ、検索された領域を用いて動きベクトルを導出することができる。参照映像は参照ピクチャーバッファ１９０に保存できる。

このとき、動きベクトルを導出するための隣接ブロックが現在ブロックとは異なる視点を有する場合、予測情報変換部１８５は、隣接ブロックの動きベクトルを変換することができる。現在ブロックの動きベクトルは、隣接ブロックの変換された隣接ブロックの動きベクトルに基づいて導出できる。

減算器は、入力ブロックと予測ブロックとの差分を用いて残余ブロック（ｒｅｓｉｄｕａｌｂｌｏｃｋ）を生成することができる。残余ブロックは残余信号とも呼ばれる。

変換部１３０は、残余ブロックに対して変換（ｔｒａｎｓｆｏｒｍ）を行って変換係数（ｔｒａｎｓｆｏｒｍｃｏｅｆｆｉｃｉｅｎｔ）を生成することができ、変換係数を出力することができる。ここで、変換係数は、残余ブロックに対する変換を行うことにより、生成された係数値であり得る。変換省略（ｔｒａｎｓｆｏｒｍｓｋｉｐ）モードが適用される場合、変換部１３０は残余ブロックに対する変換を省略することもできる。

変換係数に量子化を適用することにより、量子化された変換係数レベル（ｔｒａｎｓｆｏｒｍｃｏｅｆｆｉｃｉｅｎｔｌｅｖｅｌ）が生成できる。以下、実施形態では量子化された変換係数レベルも変換係数とも呼ばれる。

量子化部１４０は、変換係数を量子化パラメータに基づいて量子化することにより、量子化された変換係数レベル（ｔｒａｎｓｆｏｒｍｃｏｅｆｆｉｃｉｅｎｔｌｅｖｅｌ）を生成することができ、量子化された変換係数レベルを出力することができる。このとき、量子化部１４０では、量子化行列を用いて変換係数を量子化することができる。

エントロピー符号化部１５０は、量子化部１４０で算出された値または符号化過程で算出された符号化パラメータ（ＣｏｄｉｎｇＰａｒａｍｅｔｅｒ）値などに対して確率分布に基づくエントロピー符号化を行うことにより、ビットストリーム（ｂｉｔｓｔｒｅａｍ）を生成することができ、ビットストリームを出力することができる。エントロピー符号化部１５０は、映像のピクセルの情報の他に、映像の復号化のための情報に対するエントロピー符号化を行うことができる。例えば、映像の復号化のための情報は構文要素（ｓｙｎｔａｘｅｌｅｍｅｎｔ）などを含むことができる。

符号化器がインター予測による符号化を行う場合、符号化された現在映像は、後で処理される他の映像（等）に対して参照映像として使用できる。したがって、符号化器は、符号化された現在映像を再び復号化することができ、復号化された映像を参照映像として保存することができる。復号化のために、符号化された現在映像に対する逆量子化および逆変換が処理できる。

量子化された係数は、逆量子化部１６０で逆量子化（ｄｅｑｕａｎｔｉｚａｔｉｏｎ）でき、逆変換部１７０で逆変換（ｉｎｖｅｒｓｅｔｒａｎｓｆｏｒｍ）できる。逆量子化および逆変換された係数は、加算器１７５を介して予測ブロックと合わせられ得る。逆量子化および逆変換を介して生成された残差ブロックを予測ブロックと合わせることにより、復元ブロック（ｒｅｃｏｎｓｔｒｕｃｔｅｄｂｌｏｃｋ）が生成できる。

図示してはいないが、復元ブロックはフィルター部を経ることができる。フィルター部は、デブロッキングフィルター（ｄｅｂｌｏｃｋｉｎｇｆｉｌｔｅｒ）、サンプル適応的オフセット（ＳａｍｐｌｅＡｄａｐｔｉｖｅＯｆｆｓｅｔ；ＳＡＯ）、適応的ループフィルター（ＡｄａｐｔｉｖｅＬｏｏｐＦｉｌｔｅｒ；ＡＬＦ）のうちの少なくとも１つを復元ブロックまたは復元映像に適用することができる。フィルター部はインループフィルター（ｉｎ－ｌｏｏｐｆｉｌｔｅｒ）とも呼ばれる。

参照映像拡張部１８０は、復元された全方向映像、ダイバージェント映像またはコンバージェント映像が含む映像それぞれのパースペクティブに合わせて参照映像を生成する役割を果たす。参照映像拡張部を介して生成された参照映像は、時間帯別またはパースペクティブ別にグループ化されて参照ピクチャーバッファ１９０に保存できる。参照映像拡張部に対しては、図４４を参照してより詳細に説明する。

図４３は本発明に係る復号化器の構成を示すブロック図である。

図４３を参照すると、復号化器は、エントロピー復号化部２１０、逆量子化部２２０、逆変換部２３０、画面内予測部２４０、画面間予測部２５０、参照映像拡張部２６０、予測情報変換部２７０および参照ピクチャーバッファ２８０を含むことができる。

復号化器は、符号化器から出力されたビットストリームを受信することができる。復号化器は、ビットストリームに対してイントラモードまたはインターモードで復号化を行うことができる。また、復号化器は、復号化を介して復元映像を生成することができ、復元映像を出力することができる。

復号化に使用される予測モードがイントラモードである場合、スイッチがイントラに転換できる。復号化に使用される予測モードがインターモードである場合、スイッチがインターに転換できる。

復号化器は、入力されたビットストリームから復元された残余ブロック（ｒｅｃｏｎｓｔｒｕｃｔｅｄｒｅｓｉｄｕａｌｂｌｏｃｋ）を取得することができ、予測ブロックを生成することができる。復元された残余ブロックおよび予測ブロックが取得されると、復号化器は復元された残余ブロックおよび予測ブロックを加えることにより、復号化対象ブロックである復元ブロックを生成することができる。復号化対象ブロックは現在ブロックとも呼ばれる。

エントロピー復号化部２１０は、ビットストリームに対する確率分布に基づくエントロピー復号化を行うことにより、シンボルを生成することができる。生成されたシンボルは、量子化された変換係数レベル（ｔｒａｎｓｆｏｒｍｃｏｅｆｆｉｃｉｅｎｔｌｅｖｅｌ）形態のシンボルおよび映像データの復号化のために必要な情報を含むことができる。ここで、エントロピー復号化方法は、上述したエントロピー符号化方法と同様であり得る。例えば、エントロピー復号化方法は、上述したエントロピー符号化方法と逆の過程であり得る。

エントロピー復号化部２１０は、変換係数レベルを復号化するために、変換係数スキャン（ＴｒａｎｓｆｏｒｍＣｏｅｆｆｉｃｉｅｎｔＳｃａｎｎｉｎｇ）方法によって１次元のベクトル形態係数を２次元のブロック形態に変更することができる。例えば、アップライト（ｕｐｒｉｇｈｔ）スキャンを用いてブロックの係数をスキャンすることにより、２次元ブロック形態に変更させることができる。変換ユニットの大きさおよび画面内予測モードに応じてアップライトスキャンの代わりに垂直スキャン、水平スキャンが使用されることも可能である。つまり、変換ユニットの大きさおよび画面内予測モードに応じてアップライトスキャン、垂直方向スキャンおよび水平方向スキャンのうちのどのスキャン方法が使用されるかを決定することができる。

量子化された変換係数レベルは、逆量子化部２２０で逆量子化され、逆変換部２３０で周波数領域から空間領域に逆変換できる。量子化された変換係数レベルが逆量子化および逆変換された結果として、復元された残余ブロックが生成できる。このとき、逆量子化部２２０は、量子化された変換係数レベルに量子化行列を適用することができる。

イントラモードが使用される場合、画面内予測部２４０は、空間領域で、復号化対象ブロックの周辺の既に復号化されたブロックのピクセル値を用いる空間的予測を行うことにより、予測ブロックを生成することができる。

この際、現在ブロックのイントラ予測モードは、現在ブロックに隣接する隣接ブロックのイントラ予測モードから誘導できる。もし、現在ブロックの視点と隣接ブロックの視点とが互いに異なる場合、予測情報変換部１８５、隣接ブロックのイントラ予測モードを変換し、変換されたイントラ予測モードから現在ブロックのイントラ予測モードを誘導することができる。

インターモードが使用される場合、画面間予測部２５０は、空間領域で、動きベクトルおよび参照ピクチャーバッファ２８０に保存されている参照映像を用いる動き補償を行うことにより、予測ブロックを生成することができる。前記画面間予測部２５０は、動きベクトルの値が整数値を持たない場合に参照映像内の一部領域に対して補間フィルター（ＩｎｔｅｒｐｏｌａｔｉｏｎＦｉｌｔｅｒ）を適用して予測ブロックを生成することができる。動き補償を行うために、符号化ユニットを基準に、該当符号化ユニットに含まれている予測ユニットの動き補償方法がスキップモード（ＳｋｉｐＭｏｄｅ）、マージモード（ＭｅｒｇｅＭｏｄｅ）、ＡＭＶＰモード（ＡＭＶＰＭｏｄｅ）および現在ピクチャー参照モードのうちのどの方法であるかを判断することができ、各モードに応じて動き補償を行うことができる。ここで、現在ピクチャー参照モードは、復号化対象ブロックが属する現在ピクチャー内の既に復元された領域を用いた予測モードを意味することができる。前記既に復元された領域は、復号化対象ブロックに隣接していない領域であり得る。前記既に復元された領域を特定するために、現在ピクチャー参照モードのための所定のベクトルが用いられることも可能である。復号化対象ブロックが現在ピクチャー参照モードで符号化されたブロックであるか否かを示すフラグ或いはインデックスがシグナリングされることも可能であり、復号化対象ブロックの参照映像インデックスから類推されることも可能である。現在ピクチャー参照モードのための現在ピクチャーは、復号化対象ブロックのための参照映像リスト内で固定された位置（例えば、ｒｅｆＩｄｘ＝０である位置または最後の位置）に存在することができる。または、参照映像リスト内に可変的に位置することも可能である。このために、現在ピクチャーの位置を示す別途の参照映像インデックスがシグナリングされることもある。

マージモードまたはＡＭＶＰモードの下で、現在ブロックの動きベクトルは、現在ブロックに空間的または時間的に隣接した隣接ブロックの動きベクトルを基に誘導できる。このとき、動きベクトルを導出するための隣接ブロックが現在ブロックとは異なる視点を有する場合、予測情報変換部２７０は隣接ブロックの動きベクトルを変換することができる。現在ブロックの動きベクトルは、隣接ブロックの変換された隣接ブロックの動きベクトルに基づいて導出できる。

復元された残余ブロックおよび予測ブロックは、加算器を介して加えられ得る。図示してはいないが、復元された残余ブロックおよび予測ブロックがさらに加えられることにより生成されたブロックは、フィルター部を経ることができる。フィルター部はデブロッキングフィルター、サンプル適応的オフセットおよび適応的ループフィルターのうちの少なくとも一つを復元ブロックまたは復元映像に適用することができる。

参照映像拡張部２６０は、復元された全方向映像、ダイバージェント映像またはコンバージェント映像が含む映像それぞれの視点に合わせて参照映像を生成する役割を果たす。参照映像拡張部を介して生成された参照映像は、時間帯別または視点別にグループ化されて参照ピクチャーバッファ２７０に保存できる。参照映像拡張部に対しては、図４４を参照してより詳細に説明する。

図４４は本発明に係る参照映像拡張部のブロック図である。

図４４を参照すると、参照映像拡張部は、変換部３１０、拡張部３２０および参照映像リスト生成部３３０を含むことができる。

変換部３１０は、予測に用いられる映像に時間軸が同一であり、位置上連続した視点の異なる映像が存在するか否かを確認し、存在する場合、これを予測に用いられる映像の視点に合わせて変換する役割を果たす。一例として、立方体の展開図形状の２Ｄ映像に対して、変換部は、視点の異なる空間的に隣接する映像のうち少なくとも一つの視点に応じて他の映像を変換する役割を果たすことができる。

拡張部３２０は、予測に用いられる映像と変換部で変換された映像とを合わせる役割を果たす。すなわち、拡張部によって、予測に用いられる映像（すなわち、参照映像）の大きさは、変換された映像の合算分だけ増加することができる。このとき、変換された映像が拡張される位置は、映像の特性または映像の位置に基づいて決定できる。

参照映像リスト生成部３３０は、予測に用いられる映像と変換された映像とを合わせて生成された参照映像を参照映像リストに追加する役割を果たす。参照映像は、時間軸に応じて参照映像リストに入力できる。

以上説明した本発明に係る実施形態を介して記述された構成要素（ｃｏｍｐｏｎｅｎｔｓ）は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、プロセッサ（ｐｒｏｃｅｓｓｏｒ）、制御部（ｃｏｎｔｒｏｌｌｅｒ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などのプログラム可能論理要素（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｅｌｅｍｅｎｔ）、他の電子機器、およびこれらの組み合わせのうちの少なくとも一つによって実現できる。上述した本発明に係る実施形態を介して説明された少なくとも一つの機能またはプロセスはソフトウェアで実現され、ソフトウェアは記録媒体に記録できる。記録媒体の例には、ハードディスク、フロッピーディスクおよび磁気テープなどの磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤなどの光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）などの磁気－光媒体（ｍａｇｎｅｔｏ－ｏｐｔｉｃａｌｍｅｄｉａ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどのプログラム命令を保存および実行するように特別に構成されたハードウェア装置が含まれる。プログラムコマンドの例には、コンパイラによって作られる機械語コードだけでなく、インタプリターなどを用いてコンピュータによって実行できる高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を行うために一つ以上のソフトウェアモジュールとして作動するように構成でき、その逆も同様である。本発明の実施形態を介して説明された構成要素、機能およびプロセスなどは、ハードウェアとソフトウェアとの組み合わせによって実現されることも可能である。

以上、本発明が具体的な構成要素などの特定の事項と限定された実施形態および図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものに過ぎず、本発明はそれらの実施形態に限定されるものではなく、本発明の属する技術分野における通常の知識を有する者であれば、そのような記載から多様な修正および変形を図ることができる。

よって、本発明の思想は上述した実施形態に限定されて定められてはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等または等価的に変形したいずれのものも本発明の思想の範疇に属するといえる。

本発明は、映像を符号化／復号化することに利用可能である。

Claims

第１映像の隣接映像であって、第１視点を有する前記第１映像とは異なる視点を有する第２映像が存在する場合、前記第１映像と前記第２映像との視点差に基づいて、前記第２映像を前記第１映像に投影することによって、前記第２映像を、前記第１視点を有するように変換する段階と、
前記第１映像の一面に変換された前記第２映像を付加して参照映像を生成する段階と、
前記参照映像を参照ピクチャーリストに保存する段階とを含み、
前記視点差は、前記第１映像と前記第２映像との距離差および角度差のうちの少なくとも一つを含み、前記第１映像および変換された前記第２映像を含む全方向映像の投影された形状に基づいて決定され、
前記全方向映像が非多面体状に投影される場合、前記第１映像と前記第２映像との前記距離差及び前記角度差は、前記第１映像を撮影するために用いられた第１カメラの位置及び前記第２映像を撮影するために用いられた第２カメラの位置と、前記第１カメラの位置と前記第２カメラの位置との距離差と、前記第１カメラと前記第２カメラとの間の角度差と、各々のカメラの視野角との少なくともいずれか一つに基づいて演算されることを特徴とする、映像符号化方法。
前記位置は、それぞれ３次元空間における位置座標として表わされることを特徴とする、請求項１に記載の映像符号化方法。
前記視野角は、オイラー角として表わされることを特徴とする、請求項１に記載の映像符号化方法。
前記参照映像は、前記第１映像および前記第２映像に対応する時間帯情報と共に、前記参照ピクチャーリストに保存されることを特徴とする、請求項１に記載の映像符号化方法。
前記全方向映像が非多面体状に投影される場合、
前記第２映像の前記異なる視点は、所定の数の視点を有する前記非多面体の特性に基づくことを特徴とする、請求項１に記載の映像符号化方法。
前記第２映像は、メタデータに基づく前記第１映像の隣接映像として決定されることを特徴とする、請求項１に記載の映像符号化方法。
前記全方向映像が正多面体状に投影される場合、前記第１映像と前記第２映像との間の前記角度差は、前記正多面体の内角であると決定されることを特徴とする、請求項１に記載の映像符号化方法。
第１映像の隣接映像であって、第１視点を有する前記第１映像とは異なる視点を有する第２映像が存在する場合、前記第１映像と前記第２映像との視点差に基づいて、前記第２映像を前記第１映像に投影することによって、前記第２映像を、前記第１視点を有するように変換する段階と、
前記第１映像の一面に変換された前記第２映像を付加して参照映像を生成する段階と、
前記参照映像を参照ピクチャーリストに保存する段階とを含み、
前記視点差は、前記第１映像と前記第２映像との距離差および角度差のうちの少なくとも一つを含み、前記第１映像および変換された前記第２映像を含む全方向映像の投影された形状に基づいて決定され、
前記全方向映像が非多面体状に投影される場合、前記第１映像と前記第２映像との前記距離差及び前記角度差は、前記第１映像を撮影するために用いられた第１カメラの位置及び前記第２映像を撮影するために用いられた第２カメラの位置と、前記第１カメラの位置と前記第２カメラの位置との距離差と、前記第１カメラと前記第２カメラとの間の角度差と、各々のカメラの視野角との少なくともいずれか一つに基づいて演算されることを特徴とする、映像復号化方法。
第１映像の隣接映像であって、第１視点を有する前記第１映像とは異なる視点を有する第２映像が存在する場合、前記第１映像と前記第２映像との視点差に基づいて、前記第２映像を前記第１映像に投影することによって、前記第２映像を、前記第１視点を有するように変換する変換部と、
前記第１映像の一面に変換された前記第２映像を付加して参照映像を生成する拡張部と、
前記参照映像を参照ピクチャーリストに保存する参照映像リスト生成部とを含み、
前記視点差は、前記第１映像と前記第２映像との距離差および角度差のうちの少なくとも一つを含み、前記第１映像および変換された前記第２映像を含む全方向映像の投影された形状に基づいて決定され、
前記全方向映像が非多面体状に投影される場合、前記第１映像と前記第２映像との前記距離差及び前記角度差は、前記第１映像を撮影するために用いられた第１カメラの位置及び前記第２映像を撮影するために用いられた第２カメラの位置と、前記第１カメラの位置と前記第２カメラの位置との距離差と、前記第１カメラと前記第２カメラとの間の角度差と、各々のカメラの視野角との少なくともいずれか一つに基づいて演算されることを特徴とする、映像符号化装置。
第１映像の隣接映像であって、第１視点を有する前記第１映像とは異なる視点を有する第２映像が存在する場合、前記第１映像と前記第２映像との視点差に基づいて、前記第２映像を前記第１映像に投影することによって、前記第２映像を、前記第１視点を有するように変換する変換部と、
前記第１映像の一面に変換された前記第２映像を付加して参照映像を生成する拡張部と、
前記参照映像を参照ピクチャーリストに保存する参照映像リスト生成部とを含み、
前記視点差は、前記第１映像と前記第２映像との距離差および角度差のうちの少なくとも一つを含み、前記第１映像および変換された前記第２映像を含む全方向映像の投影された形状に基づいて決定され、
前記全方向映像が非多面体状に投影される場合、前記第１映像と前記第２映像との前記距離差及び前記角度差は、前記第１映像を撮影するために用いられた第１カメラの位置及び前記第２映像を撮影するために用いられた第２カメラの位置と、前記第１カメラの位置と前記第２カメラの位置との距離差と、前記第１カメラと前記第２カメラとの間の角度差と、各々のカメラの視野角との少なくともいずれか一つに基づいて演算されることを特徴とする、映像復号化装置。