JP2022008311A - 多視点ビデオの符号化/復号化方法 - Google Patents

多視点ビデオの符号化/復号化方法 Download PDF

Info

Publication number
JP2022008311A
JP2022008311A JP2021140378A JP2021140378A JP2022008311A JP 2022008311 A JP2022008311 A JP 2022008311A JP 2021140378 A JP2021140378 A JP 2021140378A JP 2021140378 A JP2021140378 A JP 2021140378A JP 2022008311 A JP2022008311 A JP 2022008311A
Authority
JP
Japan
Prior art keywords
image
video
viewpoint
block
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021140378A
Other languages
English (en)
Inventor
バン、ゴン
Gun Bang
グォン、ウ、ウォン
Woo Woen Gwun
リー、グワン、スン
Gwang Soon Lee
ホ、ナム、ホ
Nam Ho Hur
パク、グワン、フン
Gwang Hoon Park
ユン、ソン、ジェ
Sung Jea Yoon
ホ、ヨン、ス
Young Su Heo
ホン、ソク、ジョン
Seok Jong Hong
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Industry Academic Cooperation Foundation of Kyung Hee University
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Industry Academic Cooperation Foundation of Kyung Hee University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI, Industry Academic Cooperation Foundation of Kyung Hee University filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of JP2022008311A publication Critical patent/JP2022008311A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Figure 2022008311000001
【課題】多視点ビデオの符号化/復号化効率を改善するため、視点の異なる映像を一つの視点に統一し、視点の統一された映像同士を合わせた参照ピクチャーを用いて符号化/復号化を行う方法及び装置を提供する。
【解決手段】映像符号化方法は、第1視点を有する第1映像とは異なる視点を有する第2映像が存在する場合、第2映像を第1視点に変換する段階と、第1映像の一面に第2映像を付加して参照映像を生成する段階と、参照映像を参照ピクチャーリストに保存する段階とを含む。
【選択図】図16

Description

本開示は、映像符号化/復号化方法に係り、より具体的には、多視点ビデオで予測を行う方法に関する。
技術の発展により高解像度/高画質の放送サービス等が一般化されるにつれて、HD(High Definition)解像度を超え、それに比べ4倍以上の解像度を持つUHD(Ultra High Definition)への関心が増大しつつある。
このような傾向に伴い、既存の2次元映像に加えて、ステレオスコピック映像や全方向ビデオなどの臨場感映像に対する関心も高まっている。新規のメディアが開発されることにより、例えばヘッドマウントディスプレイなど臨場感映像を再生することが可能な装置が続々と登場しているが、まだ臨場感メディアは、2次元映像と同様の方法で符号化/復号化されている。これにより、臨場感メディアの圧縮効率を高めるためには、臨場感メディアの特性に合う圧縮方式が開発されなければならない。
本開示の技術的課題は、多視点ビデオの符号化/復号化効率を改善するための方法を提供することにある。
具体的には、本開示の技術的課題は、視点の異なる映像を一つの視点に統一した後、視点の統一された映像同士を合わせた参照ピクチャーを用いて符号化/復号化を行う方法および装置を提供することにある。
また、本開示の技術的課題は、現在ブロックと隣接ブロックが互いに異なる視点を有する場合、隣接ブロックの予測情報を変換して現在ブロックの予測効率を向上させる方法を提供することにある。
本開示で解決しようとする技術的課題は、上述した技術的課題に限定されず、上述していない技術的課題は、以降の記載から本開示の属する技術分野における通常の知識を有する者に明確に理解できるであろう。
本開示の一態様によれば、第1視点を有する第1映像とは異なる視点を有する第2映像が存在する場合、前記第2映像を前記第1視点に変換する段階と、前記第1映像の一面に前記第2映像を付加して参照映像を生成する段階と、前記参照映像を参照ピクチャーリストに保存する段階とを含んでなる、映像符号化方法が開示される。
本開示の一態様によれば、第1視点を有する第1映像とは異なる視点を有する第2映像が存在する場合、前記第2映像を前記第1視点に変換する段階と、前記第1映像の一面に前記第2映像を付加して参照映像を生成する段階と、前記参照映像を参照ピクチャーリストに保存する段階とを含んでなる、映像復号化方法が開示される。
前記映像符号化方法および前記映像復号化方法には、次の事項が共通に適用できる。
前記変換映像は、前記第1映像と前記第2映像との視点差に基づいて生成され、前記視点差は、前記第1映像と前記第2映像との距離差または角度差のうちの少なくとも一つを含むことができる。
前記視点差は、前記第1映像および前記第2映像を含む全方向映像の特性に基づいて決定できる。
前記全方向映像が正多面体状に投影される場合には、前記第1映像と前記第2映像との角度差は、前記正多面体の内角で決定できる。
前記視点差は、前記第1映像を撮影するために用いられた第1カメラと、前記第2映像を撮影するために用いられた第2カメラとの距離および角度差に基づいて得られる。
前記第2映像が付加される位置は、前記第1映像および前記第2映像を含む正多面体の特性に応じて決定できる。
前記参照ピクチャーは、前記第1映像および前記第2映像に対応する時間帯情報と共に前記参照ピクチャーリストに保存できる。
本開示について簡略に要約された上記の特徴は、後述する本開示の詳細な説明の例示的な様相に過ぎず、本開示の範囲を限定するものではない。
本開示によれば、多視点ビデオの符号化/復号化効率を改善するための方法が提供できる。
具体的には、本開示によれば、視点の異なる映像を一つの視点に統一した後、視点の統一された映像同士を合わせた参照ピクチャーを用いて符号化/復号化を行う方法および装置が提供できる。
具体的には、本開示によれば、現在ブロックと隣接ブロックが互いに異なる視点を有する場合、隣接ブロックの予測情報を変換して現在ブロックの予測効率を向上させる方法が提供できる。
本開示で得られる効果は上述した効果に限定されず、上述していない別の効果は以降の記載から本開示の属する技術分野における通常の知識を有する者に明確に理解できるであろう。
3D多視点映像を生成するためのカメラの種類を例示する図である。 ダイバージェントビデオを説明するための図である。 コンバージェントビデオを説明するための図である。 3D多視点ビデオが多面体の展開図形状に投影された例を示す。 3D多視点ビデオの2次元展開形状を例示する図である。 3D多視点ビデオの3次元形状を例示する図である。 3D多視点ビデオの一部が表示される例を説明するための図である。 立方体状に展開された3Dビデオを再生したときの様相を例示する図である。 映像を符号化する際に符号化ツリーユニット(Coding Tree Unit、CTU)をCU単位で分割する例を示す図である。 CUがPUに分割される例を説明するための図である。 画面間予測方法を説明するための図である。 併合動き候補リストが生成される例を示す図である。 立方体状の3次元ビデオの特定のフレームを実際再生したときの様子を例示する図である。 各面の境界で非線形歪みが発生する例をより詳細に示す図である。 隣接領域の視点を変換して参照映像を生成する例を説明するための図である。 本発明に係る変換拡張映像を生成する過程を示すフローチャートである。 視点間の特性を説明するために例示する図である。 視点間の特性を説明するために例示する図である。 他の映像の視点に応じて映像が変換される例を説明するための図である。 立方体の特定の面を基準として参照映像を生成する例を示す図である。 立方体の特定の面を基準として参照映像を生成する例を示す図である。 ダイバージェント映像に対する参照映像を生成する例を示す図である。 視点の基準となる映像と変換映像とを合わせて参照映像を生成する例を示す図である。 変換映像が時間的予測に不可欠な領域を含むか否かを例示する図である。 コンバージェント映像に対する参照映像を生成する例を示す図である。 視点の基準になる映像と変換映像とを合わせて参照映像を生成する例を示す図である。 正方体状に展開される3D多視点映像に対する参照映像リストが生成される例を示す図である。 ダイバージェント映像に対する参照映像リストが生成される例を示す図である。 コンバージェント映像に対する参照映像リストが生成される例を示す図である。 本発明によって参照映像を生成する場合とそうでない場合とを比較するための図である。 本発明の適用有無による符号化の様相を例示する図である。 本発明に係る予測情報の変換方法を示すフローチャートである。 視点(Perspective)境界で予測情報が変換される例を示す図である。 周辺ブロックの予測情報を基に、画面内予測を行うためのMPM(Most Probable Mode)候補を決定する過程を説明するためのフローチャートである。 現在ブロックが視点境界に位置するか否かに応じてMPM候補を生成する例を示す図である。 現在ブロックが視点境界に位置するか否かに応じてMPM候補を生成する例を示す図である。 現在ブロックが視点境界に位置するか否かに応じてMPM候補を生成する例を示す図である。 周辺ブロックの予測情報を基に、併合動きモード(マージモード(Merge Mode))の下で画面間予測を行うための空間的マージ候補を決定する過程を説明するためのフローチャートである。 現在ブロックと空間的隣接ブロックが互いに異なる視点を有する例を示す。 周辺ブロックの予測情報を基に、併合動き(マージ(merge))モードの下で画面間予測を行うための時間的マージ候補を決定する過程を説明するためのフローチャートである。 現在ブロックと時間的隣接ブロックが互いに異なる視点を有する例を示す。 本発明に係る符号化器の構成を示すブロック図である。 本発明に係る復号化器の構成を示すブロック図である。 本発明に係る参照映像拡張部のブロック図である。
本発明は、様々な変更を加えることができ、様々な実施形態を有することができるので、特定の実施形態を図面に例示し、詳細な説明に詳細に説明しようとする。ところが、これは、本発明を特定の実施形態に対して限定するものではなく、本発明の思想および技術範囲に含まれるあらゆる変更、均等物ないし代替物を含むものと理解されるべきである。図面において、類似した参照符号を様々な側面にわたって同一または類似の機能を指す。図面における要素の形状および大きさなどは、より明確な説明のために誇張することもある。後述する例示的実施形態についての詳細な説明は、特定の実施形態を例示として図示する添付図面を参照する。これらの実施形態は、当業者が実施形態を十分に実施することができるように詳細に説明される。様々な実施形態は互いに異なるが、相互排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造および特性は、一実施形態に関連して本発明の精神および範囲を逸脱することなく、他の実施形態に実現できる。また、それぞれの開示された実施形態内の個別構成要素の位置または配置は、実施形態の精神および範囲を逸脱することなく変更できることが理解されるべきである。よって、後述する詳細な説明は、限定的な意味で取るものではなく、例示的実施形態の範囲は、適切に説明されるならば、それらの請求項が主張するのと均等な全ての範囲と共に、添付された請求項によってのみ限定される。
本発明において、「第1」、「第2」などの用語は様々な構成要素を説明するために使用できるが、前記構成要素はこれらの用語によって限定されるものではない。これらの用語は、ある構成要素を他の構成要素と区別する目的のみで使用される。例えば、本発明の権利範囲を逸脱しない範疇内で、第1構成要素は第2構成要素と命名することができ、同様に、第2構成要素も第1構成要素と命名することができる。「および/または」という用語は、複数の関連した記載項目の組み合わせ、または複数の関連した記載項目のいずれかを含む。
本発明のある構成要素が他の構成要素に「連結」または「接続」されていると言及されたときは、他の構成要素に直接連結または接続されていることもあるが、それらの構成要素の間に別の構成要素が介在することもあると理解されるべきである。これに対し、ある構成要素が他の構成要素に「直接連結」されているか、「直接接続」されていると言及されたときは、それらの構成要素の間に別の構成要素が存在しないと理解されるべきである。
本発明の実施形態に現れる構成部は、互いに異なる特徴的な機能を示すために独立して図示されるもので、各構成部が分離されたハードウェアまたは一つのソフトウェア構成単位からなることを意味するものではない。すなわち、各構成部は、説明の便宜上、それぞれの構成部として並べて示したものであり、各構成部のうち、少なくとも二つの構成部を合わせて一つの構成部にするか、一つの構成部を複数の構成部に分けて機能を行うことができる。このような各構成部の統合された実施形態および分離された実施形態も、本発明の本質から外れない限り、本発明の権利範囲に含まれる。
本発明で使用した用語は、単に特定の実施形態を説明するために使用されたものに過ぎず、本発明を限定するものではない。単数の表現は、文脈上明らかに異なる意味を表さない限り、複数の表現を含む。本発明において、「含む」または「有する」などの用語は、明細書に記載された特徴、数字、段階、動作、構成要素、部品またはこれらの組み合わせが存在することを示すものであり、1つまたはそれ以上の他の特徴、数字、段階、動作、構成要素、部品またはこれらの組み合わせの存在または付加の可能性を予め排除するものではないと理解されるべきである。すなわち、本発明において、特定の構成を「含む」と記載する内容は、該当構成以外の構成を排除するのではなく、追加の構成が本発明の実施または本発明の技術的思想の範囲に含まれ得ることを意味する。
本発明の一部の構成要素は、本発明における本質的な機能を行うための必須の構成要素ではなく、単に性能を向上させるための選択的構成要素であり得る。 本発明は、単に性能向上のために使用される構成要素を除いた、本発明の本質の実現に不可欠な構成部のみを含めて実現でき、単に性能向上のために使用される選択的構成要素を除いた必須構成要素のみを含む構造も本発明の権利範囲に含まれる。
本発明で説明する「視点」は、カメラの方向およびカメラの遠近法に関連したものであり、視点位置(Veiwpoint、ビューポイント)および視点方向(Perspective、パースペクティブ)を通称する。説明の便宜のために、後述される実施形態では、視点方向(Perspective)を中心に3次元多視点映像を説明することとする。
以下、図面を参照して本発明の実施形態について具体的に説明する。本明細書の実施形態を説明するにあたり、関連した公知の構成または機能に対する具体的な説明が本明細書の要旨を不明確にするおそれがあると判断される場合には、その詳細な説明は省略し、図面上の同一の構成要素については同一の参照符号を使用し、同一の構成要素についての重複説明は省略する。
既存の2次元ビデオは、固定された視点でビデオが再生されたが、これに対し、全方向ビデオ(または360度ビデオ)は、ユーザーが所望する視点でビデオを再生することができる。全方向ビデオを生成するために、図1に示された様々な種類のカメラが使用できる。図1の(a)に示された複数のカメラを用いるか、図1の(b)に示された魚眼レンズを用いるか、或いは図1の(c)に示された反射鏡などを用いて、一箇所から3次元空間(例えば、360度の方向)に対して撮影を行った後、撮影された3次元映像を多面体または球などの立体図形の形状に投影させることができる。
全方向ビデオの他にも、臨場感メディアには、複数のカメラが様々な方向の映像を撮影して入れ込むダイバージェント(Divergent)ビデオやコンバージェント(Convergent)ビデオなどを含むことができる。ダイバージェントビデオは、複数のカメラが様々な方向の映像を撮影することにより生成される映像を意味し、コンバージェントビデオは、複数のカメラが特定の方向の映像を撮影することにより生成される映像を意味する。
図2および図3はそれぞれダイバージェントビデオおよびコンバージェントビデオを説明するための図である。ダイバージェント映像は、複数のカメラの撮影方向が広がる形態を呈しながら撮影された映像を意味する。一例として、図2の(a)において、カメラC1、C2およびC3の撮影方向W1、W2およびW3は、互いに拡散する形態を取っている。
コンバージェント映像は、複数のカメラの撮影方向がいずれか一箇所に向かって収束する形態を呈しながら撮影された映像を意味する。一例として、図3の(a)において、カメラC1、C2、C3およびC4の撮影方向W1、W2、W3およびW4は一点に向かっている。
全方向3Dビデオまたは収束型もしくは発散型カメラで撮影した3次元多視点ビデオなどは、多面体の展開図、または球を広げた正距円筒(Equirectangular)形状に展開できる。
一例として、図4の(a)および(b)は、球状の3次元多視点映像が、立方体の展開図形状に展開された例を示す。図4の(a)および(b)を参照すると、全方向3D映像から立方体の展開図形状の2次元映像を取得することができる。
図4に示された例に止まらず、3次元多視点映像は、さまざまな種類の多面体の展開図形状に展開できる。一例として、図5は3次元多視点ビデオの2次元展開形状を例示する図である。図5に示された例のように、3次元多視点ビデオは、正四面体、立方体、正八面体、正十二面体または正二十面体など、様々な立体図形の展開図形状に投影できる。
ビデオが再生される場合、2次元的に展開された映像は、さらに多面体または球などの3次元空間に再構成できる。一例として、3次元ビデオは、図6に示された例のように、正四面体、立方体、正八面体、正十二面体または正二十面体状などに再構成できる。
ユーザーの視線が多面体の中心に置かれていると仮定したとき、多面体状に再構成された3次元映像の全領域を一目で見ることは不可能である。これにより、3D多視点ビデオが再生されると、3次元的に構成された領域全体のうち、特定の時間帯にユーザーが眺める特定のポイントまたはユーザーによって選択された特定のポイントに対応する領域のみが表示される。
図7は3D多視点ビデオの一部が表示される例を説明するための図である。図7の(a)および(b)は、外部から3D多視点映像を鑑賞するユーザーを眺めたときを仮想的に示す図であり、図7の(c)は3D多視点映像を視聴するユーザーを中心に全方向映像を示す概念図である。
3D多視点ビデオの再生の際に、3次元的に再構成された映像の全体領域のうち、ユーザーの視点が向かう一部分、或いはユーザーによって選択された一部分が再生できる。一例として、図7の(a)および(b)の斜線領域は、3次元的に再構成された映像のうち、ユーザーの視点が向かう部分またはユーザーによって選択された部分を示す。この場合には、多視点映像のうち、ユーザーの視点が向かう部分またはユーザーによって選択された部分に対応する領域が出力できる。一例として、ユーザーを基準にしたとき、3D映像は、図7の(c)に示された例のように、全体領域のうちの一部分のみが表示できる。
このとき、3D多視点映像は複数の視点を有することができる。ここで、複数の視点とは、多視点映像が複数の視点位置(Veiwpoint、ビューポイント)または複数の視点方向(Perspective、パースペクティブ)を有することを意味する。図面を参照して、これについてより詳細に説明する。
図8は立方体状に展開された3次元ビデオを再生したときの様相を例示する図である。3次元ビデオを鑑賞するユーザーの目は立方体の中心にあり、各面は目が眺めるパースペクティブ(Perspective)となる。例えば、図8に示された例において、立方体の正面のパースペクティブを4、上方のパースペクティブを1と仮定すると、パースペクティブ2は立方体の後方、パースペクティブ3は立方体の左側、パースペクティブ5は立方体の右側、パースペクティブ6は立方体の下方に該当する。これにより、図8に示すように、3次元映像を構成する六面体の各面は互いに異なる視点を有することができる。
ダイバージェント映像の場合、各カメラの撮影方向が異なり、これにより映像間のパースペクティブの差が発生しうる。一例として、図2の(b)に示された例において、3つのカメラC1、C2、C3が互いに異なる方向を撮影することにより、互いに異なる視点を有する3つの映像P1、P2、P3が生成できる。
コンバージェント映像の場合も、各カメラが撮影した映像が互いに異なるパースペクティブを持つことができる。一例として、図3の(b)に示された例において、4つのカメラC1、C2、C3、C4が互いに異なる方向を撮影することにより、互いに異なる視点を有する4つの映像P1、P2、P3、P4が生成できる。
説明の便宜のために、後述される実施形態において、「映像」は、多視点ビデオの任意のフレームまたは任意の視点を有する一部領域を意味するものと仮定する。一例として、3D多視点ビデオの任意のフレームが、図8に示された例のように立方体状に展開される場合、当該フレームを「映像」と呼ぶこともあり、前記フレーム内の任意の視点を有する一部領域(すなわち、立方体の一面)を「映像」と呼ぶこともある。
上述したように、3D多視点ビデオは、2次元空間に投影されて符号化/復号化が行われ得る。これにより、3次元多視点ビデオの符号化/復号化は、2Dビデオの符号化/復号化と同様の方法で行われ得る。一例として、2Dビデオの符号化/復号化に用いられるブロック分割、画面内予測(または空間的予測、イントラ予測(Intra Prediction))および画面間予測(または時間的予測、インター予測(Inter Prediction))に基づいた符号化/復号化方法が3D多視点ビデオの符号化/復号化にも利用できる。以下、3D多視点ビデオの符号化/復号化に利用できる符号化/復号化技術を簡略に説明する。
HEVCでは、映像を効率よく符号化するために、符号化ユニット(Coding Unit、CU)単位で符号化/復号化を行う。図9は、映像を符号化する際に、符号化ツリーユニット(Coding Tree Unit、CTU)をCU単位で分割する例を示す図である。CTUは、LCU(Largest Coding Unit)と呼称されるか或いはそれと同等の概念であり得る。
図9に示された例のように、映像をCTU単位で順次分割した後、CTU単位で分割構造を決定する。ここで、分割構造は、CTU内の映像を効率よく符号化/復号化するためのCUの分布を意味する。CUの分布は、CTUを、CTUの横および/または縦長さに対して、これより小さい横および/または縦長さを有する複数のCUに分割するか否かに基づいて決定できる。一例として、CUの分布は、CTUを4つまたは2つのCUに分割した形態を呈することができる。
分割されたCUは、これと同様の方式で、さらに横および/または縦長さが減少した複数のCUに再帰的に分割できる。このとき、CUの分割は予め定義された深さまで分割できるが、深さ情報(Depth)はCUのサイズを示し、すべてのCUに対して保存できる。例えば、基本分割対象であるCTUの深さは、0であり、SCU(Smallest Coding Unit)の最大深さのCUを示す。すなわち、予め定義された深さのCUをSCUと呼称することができる。CTUから4つまたは2つのCUに分割するたびに深さ値が1ずつ増加することができる。
CUが4つのCUに分割されると仮定すると、2N×2Nのサイズを有するCUに対して分割が行われていない場合には、CUのサイズは2N×2Nを維持する。これとは異なり、2N×2Nのサイズを有するCUに対して分割が行われた場合には、その結果として、N×Nのサイズを有する4つのCUが生成されるだろう。このように、Nのサイズは、CUの分割深さが1ずつ増加するたびに半分に減少する。
一例として、最小深さが0であるCTUのサイズが64×64画素である場合には、64×64画素のCUは深さ「0」、32×32画素のCUは深さ「1」、16×16画素のCUは深さ「2」、8×8画素のCUは深さ「3」と表現できる。もし、最大深さが3であれば、SCUのサイズは8×8画素となる。
特定のCUを分割するか否かについての情報は、CU別分割情報を用いて表現することができる。分割情報は、SCUを除くすべてのCUに対して符号化/シグナリングできる。
このとき、分割情報は、少なくとも一つのフラグ情報を含むことができる。フラグ情報は、CUが4つまたは2つのCUに分割されるか否かを示す。一例として、フラグが「0」であることはCUがもはや分割されないことを示し、フラグが「1」であることはCUが複数のCUに分割されることを示す。
CUは符号化/復号化ユニットであり、CU単位で符号化モードが設定できる。一例として、各CUは、画面内符号化(MODE_INTRAあるいはINTRAということもある)モードまたは画面間符号化(MODE_INTERあるいはINTERということもある)モードを有することができる。この際、画面間符号化モードは、MODE_INTERモードとMODE_SKIP(SKIPということもある)モードを含むことができる。
予測ユニット(Prediction Unit、PU)は、予測が行われる単位を意味する。一つのCUは少なくとも一つのPUに分割できる。一例として、図10は、CUがPUに分割される例を説明するための図である。CUの符号化モードが画面内符号化モードである場合、該当CUに含まれているPUはいずれも画面内符号化モードで符号化できる。このとき、CUの符号化モードが画面内符号化モードである場合、PUの分割構造は、図10に示された例のうち、2N×2NまたはN×Nのいずれかに設定できる。
CUの符号化モードが画面間符号化モードである場合、該当CUに含まれているPUはいずれも画面間符号化モードで符号化できる。このとき、CUの符号化モードが画面間符号化モードである場合、PUの分割構造は、図10に示された、2N×2N、2N×N、N×2N、N×N、2N×nU、2N×nD、nL×2NまたはnR×2Nのいずれかに設定できる。
画面間予測(または時間的予測)は、近接した時間差を持つ映像間の相関関係が高いことを基に、参照映像から現在映像を予測する方法を意味する。
図11は画面間予測方法を説明するための図である。
図11において、(a)は現在映像を予測するために用いられる参照映像(参照フレーム(Reference Frame))を示し、(b)は符号化/復号化対象ブロックを含む現在映像(現在フレーム(Current Frame))を示す。現在映像に含まれている符号化/復号化対象ブロック「B」を予測するにあたり、参照映像に含まれているブロック「A」を用いることができれば、現映像のブロックBに対する映像情報を全て符号化する必要はない。これにより、時間的予測を利用する場合、映像ブロック別に符号化する情報量を大幅に減らすことができるため、映像圧縮の効率を高めることができる。
PUが画面間予測によって符号化された場合(すなわち、画面間符号化モードである場合)、動き情報の符号化/復号化方法として併合動き(マージ(merge))モードが利用できる。ここで、動き情報は、動きベクトル、参照映像に対するインデックスおよび予測方向(例えば、一方向または双方向など)のうちの少なくとも一つを含むことができる。予測方向は、参照ピクチャーリスト(Reference Picture List、RefPicList)の使用有無に応じて、一方向予測または複数方向予測(例えば、双方向または三方向予測など)に設定できる。
一例として、2つの参照ピクチャーリスト(List0、List1)が存在すると仮定する場合、一方向予測は、順方向参照ピクチャーリスト(List0)を使用した順方向予測(Pred_L0、Prediction L0)と、逆方向参照ピクチャーリスト(List1)を用いた逆方向予測(Pred_L1、Prediction L1)に区分できる。双方向予測(Pred_BI、Prediction BI)は、順方向参照ピクチャーリスト(List0)と逆方向参照ピクチャーリスト(List1)の両方を使用することができる。これにより、双方向予測は順方向予測と双方向予測の両方ともが存在する場合を意味することができる。
他の例として、順方向参照ピクチャーリスト(List0)を逆方向参照ピクチャーリスト(List1)にコピーして二つの順方向予測を行うことも双方向予測に含まれ、逆方向参照ピクチャーリスト(List1)を順方向参照ピクチャーリスト(List0)にコピーして二つの逆方向予測を行うことも双方向予測に含まれ得る。
上述のような予測方向は、予測方向を指示するフラグ情報(例えば、predFlagL0、predFlagL1)によって指示できる。predFlagL0は、順方向参照ピクチャーリスト(List0)を用いた順方向予測の実行有無を示し、predFlagL1は逆方向参照ピクチャーリスト(List1)を用いた逆方向予測の実行有無を示すことができる。一例として、一方向予測のうちの順方向予測に対して、predFlagL0は「1」になり、predFlagL1は「0」になることができる。一方向予測のうちの逆方向予測に対して、predFlagL0は「0」になり、predFlagL1は「1」になることができる。双方向予測に対して、predFlagL0は「1」になり、predFlagL1は「1」になることができる。
併合動きモードの下で、符号化ユニット(CU)単位の併合動きまたは予測ユニット(PU)単位の併合動きが行われ得る。CUまたはPU単位など、所定のブロック単位で併合動きが行われる場合、ブロックパーティション(Partition)別に併合動きが行われるか否かについての情報と、ブロックに隣接する周辺ブロックのうちのいずれかのブロックと併合動きを行うか否かについての情報が符号化/シグナリングできる。ここで、周辺ブロックは、現在ブロック(例えば、符号化/復号化の対象となるCUまたはPU)に空間的に隣接するブロック、または時間的に隣接するブロックを含むことができる。
ここで、現在ブロックに空間的に隣接するブロックとは、現在ブロックと同一のピクチャーに属しながら、現在ブロックの境界に隣接するブロックを意味することができる。現在ブロックに空間的に隣接するブロックとして、左側ブロック、上段ブロック、右上段ブロック、左上段ブロックおよび右下段ブロックなどが含まれ得る。
現在ブロックに時間的に隣接するブロックとは、現在ブロックとは時間的順序が異なるピクチャーに属しながら、現在ブロックと同一の位置を有するブロック(Collocated block)を意味することができる。
併合動き候補リストは、動き情報が保存されたリストを示す。併合動き候補リストは、現在ブロックに隣接する周辺ブロックの動き情報に基づいて、併合動きが行われる前に生成できる。また、併合動き候補リストは、既に併合動き候補リストに存在する動き情報を組み合わせることにより、生成された新たな動き情報を含むこともできる。
図12は併合動き候補リストが生成される例を示す図である。併合動き候補リストは、現在ブロックに空間的に隣接する周辺ブロック(一例として、図12のA、B、C、D、E)、および現在ブロックとは異なるピクチャーに属しながら、現在ブロックと同一の位置に属するブロック(一例として、図12のMおよびH)のうちの少なくとも一つに基づいて生成できる。
一例として、現在ブロックの周辺ブロックに対して、当該ブロックの利用情報が現在ブロックの併合動きに利用できるか否かを判断する。利用可能な場合、該当ブロックの動き情報は併合動き候補リストに含まれ得る。この際、現在ブロック(図8のX)に対する併合動き候補リストは所定の順序で併合動き候補リストに含まれ得る。ここで、所定の順序は、A→B→C→D→E→H(もしくはM)であり得るが、これに限定されるものではない。
所定の順序に従って併合動き候補リストを生成するにあたり、周辺ブロックの動き情報が他の周辺ブロックのそれと同一である場合、該当周辺ブロックの動き情報は併合動き候補リストに含まれない。
一例として、図12に示された例において、周辺ブロックAが併合動き候補リストに含まれている場合、周辺ブロックBは、周辺ブロックAと同一の動き情報を有しない場合にのみ併合動き候補リストに含まれ得る。同様の方法で、周辺ブロックCは周辺ブロックBと同一の動き情報ではない場合にのみ併合動き候補リストに含まれ得る。周辺ブロックDおよび周辺ブロックEに対しても同一の原理が適用できる。ここで、同一の動き情報は、動きベクトル、参照ピクチャーおよび予測方向(例えば、一方向(順方向または逆方向)または双方向)が同一であることを意味する。
但し、3D多視点ビデオの場合、視点差によって、視点境界で画面間予測または画面内予測を利用した圧縮効率が低下するという問題点がある。次に、これについて詳細に考察する。
図13は立方体形状の3次元ビデオの特定のフレームを実際再生したときの様子を例示するものである。図13の(a)は立方体の展開図形状に投影された特定のフレームを示すものであり、図13の(b)は特定のフレームが再生されるときの例を示す図である。
図13の(a)および(b)において6つの面を分ける境界線は、視点間の境界部分を表示したものである。図13の(b)に示された例のように、3次元映像を再生する場合、視点間境界で映像が滑らかにつながる。しかし、3次元映像が2次元的に投影される場合、図13の(a)に示された例のように境界部分で線が急激に折れるなどの歪みが発生することを確認することができる。
図14は各面の境界で非線形歪みが発生する例をより詳細に示す図である。図14では、立方体状の3次元ビデオが6つの面(P1~P6)から構成されている。このとき、それぞれの面は互いに異なる視点を有する。
撮影された映像内事物の形態は、各面の視点によって異なるように表現される。これにより、特定の物体が互いに異なる視点を有する2面の境界に連続的に表現される場合、該当物体に対する非線形的な動きが発生しうる。一例として、図14の(b)に示された例では、P3面とP4面との間、P4面とP1面との間で非線形的動きが発生することを示した。
図13および図14に示された例のように、視点境界では非線形的歪みが発生するため、ブロック間予測情報の相関性が著しく低下することを予想することができる。これにより、視点境界に位置したブロック間予測情報の相関性が著しく低下することが予想される。ここで、予測情報は、画面間予測で利用される動き情報(例えば、動きベクトル、参照ピクチャーインデックスまたは予測方向など)または画面内予測で使用される予測方向(例えば、イントラ予測モードなど)などを含む。
その結果、特定の視点を有する領域に含まれているブロックの時間的予測を、特定の視点とは異なる視点を有する領域に含まれているブロックを用いて行うならば、特定の視点を有する領域に含まれているブロックを用いる場合に比べて符号化/復号化効率が著しく減少することを予想することができる。
上述のように、時間的参照映像を用いて現在映像を予測することが適さない場合、イントラブロック符号化またはイントラ予測(Intra Prediction)(または空間的予測)を使用することもできるが、時間的予測の代わりに空間的予測を使用することにより、圧縮効率が低下する問題点が発生する。
イントラ予測を使用するとしても、隣接ブロックとの相関性が少なくてイントラ予測モードを隣接ブロックから誘導することは難しい。
そこで、本発明では、境界に隣接する境界ブロックの予測効率の低下による問題点を解消するために、視点の異なるブロック境界に現れる非線形動きを直線的に修正する方法、および視点の異なる隣接ブロックの予測情報を変換する方法を提案しようとする。一例として、図14の(c)では、P1面とP4面との境界に現れる非線形歪み、およびP3面とP4面との境界に現れる非線形歪みが線形的に修正された例を示した。
まず、図14の(c)に示された例のように、視点境界に現れる非線形歪みを線形的に変更する方法について説明する。
図15は隣接領域の視点を変換して参照映像を生成する例を説明するための図である。
位置上連続した視点が存在する場合、映像内視点が変わる境界部分では、時間的予測の効率が低下するおそれがある。これは予測のために使用される参照映像内の参照領域が隣接領域の情報を含まないためである。参照領域が隣接領域に対する情報を含むとしても、現在ブロックとは視点が異なるので、参照映像としての使用に適さない。
一例として、図15に示された例において、現在映像の一部領域C1を復元するために、隣接領域の情報を含まない領域(すなわち、P1)のみを使用する場合、現在映像C1を完全に復元するのは難しい。現在映像を復元するために、隣接領域の情報を含む領域(すなわち、P1とP2とを合わせたO)を使用するとしても、現在映像と新たに拡張されたP2領域との視点が異なるので、現在映像C1を完全に復元するのは難しい。
このため、参照領域とは視点が異なる隣接領域を変換した後、参照領域と変換された隣接領域とを合わせて、変換された拡張領域を含む参照映像を生成することにより、時間的予測の際に符号化効率の向上を図ることができる。
具体的には、図15の(a)に示された例のように、参照領域と隣接領域との間では、境界面での視点変化によってイメージが歪まれ得る。しかし、図15の(b)に示された例のように、隣接領域を参照領域の視点に合わせて変換する場合、境界面での歪みが減少する。これにより、図15の(b)に示された例のように、参照領域とは視点が異なる隣接領域を変換した映像TRを生成した後、参照領域P1と変換された隣接領域TRとを合わせて取得された変換拡張映像(P1とTRとを合わせたR)を用いて現在映像C1を予測する場合、予測精度をより高めることができる。
変換拡張映像を取得するためには、大きく次の段階が行われ得る。
第1段階-映像間の方向および距離関係の算出
第2段階-映像間の関係式を用いて各視点での変換映像を生成
第3段階-既存の参照映像の視点位置に応じて変換映像を参照映像に拡張
第4段階-変換拡張された映像を参照映像リストに挿入
第1段階は映像の特徴(例えば、立方体映像の固有属性)または映像データの他、追加データ(例えば、ダイバージェント映像の場合、各映像の視野角、視点間の角度差および距離差など)を用いて映像間の方向および距離関係を算出する段階で、映像間の方向および距離関係は、図15の(a)においてθおよびdと例示されている。
第2段階は第1段階で算出した映像間の方向および距離差に基づいて隣接映像の変換映像を生成する段階である。本段階において、参照映像の拡張領域である隣接映像が参照映像の視点に応じて修正できる。ここで、参照映像の視点に応じて隣接映像を修正するというのは、隣接映像を参照映像と同じ視点空間にあるように変換することを意味する。
第3段階は、変換映像と参照映像を基に変換拡張映像を生成する段階である。具体的には、変換映像が参照映像に連続するように、変換映像および参照映像を合わせることにより、変換拡張映像を生成することができる。
第4段階は、生成された変換拡張映像を参照映像リストに保存する段階である。変換拡張映像を参照映像リストに保存することにより、復号化/符号化対象映像の時間的予測のために利用することができる。
前述のように変換映像と参照映像とを合わせて時間的予測に適した映像を生成することにより、全方向ビデオの符号化/復号化効率を向上させることができる。図16のフローチャートを用いて、上述した段階についてより詳細に考察する。
図16は本発明に係る変換拡張映像を生成する過程を示すフローチャートである。
図16を参照すると、まず、視点の異なる映像が空間的に連続して存在するか否かを判断することができる(S1610)。視点の異なる映像が空間的に連続して存在するか否かは、映像に付加されるデータ(例えば、メタデータ)または多視点映像の特性(例えば、多面体の展開図は固定された個数の視点を有する)によって確認することができる。一例として、映像が多面体の展開図形状に投影される場合、視点の異なる映像が空間的に連続して存在するものと判断できる。
視点の異なる映像が空間的に連続して存在する場合、視点の異なる映像間の視点差を取得することができる(S1620)。ここで、視点差は、角度差および位置差のうちの少なくとも一つを含むことができる。角度は3次元空間に表示するためのオイラー角またはその部分集合を意味し、位置は3次元空間の位置座標またはその部分集合を意味する。
多面体状に投影される3D多視点映像の場合、視点の異なる映像間の角度差は固定された値を持つことができる。併せて、多面体状に投影される3D多視点映像の場合、視点の異なる映像が境界で連続するので、位置差(または距離差)は0に設定できる。
図17および図18は視点間の特性を説明するために例示する図である。視点間の特性は、視点の異なる映像間の視点差に基づいて取得できる。視点差は、視点の異なる映像間の角度差および位置差のうちの少なくとも一つを含むことができる。ここで、角度は3次元空間に表示するためのオイラー角またはその部分集合を意味し、位置は3次元空間の位置座標またはその部分集合を意味する。
図17の(a)に示された例のように、3D多視点映像が多面体状に展開される場合、視点差は視点の異なる面間の角度差および位置差を意味することができる。このとき、多面体状に投影される映像の場合、パースペクティブの異なる面の角度差が固定された値を持つことができる。一例として、図17の(a)のように、3D多視点映像が立方体に投影される場合、視点の異なる2面P1、P2間の角度差は90度、図17の(b)に示された例のように、3D多視点映像が正十二面体に投影される場合、2つの映像P3、P4間の角度差は138度11分に固定できる。
図17の(a)および(b)に示された例のように、視点が互いに異なる2つの面は空間上連続して位置するので、二映像間の距離差は0に設定できる。
3D多視点映像が球を広げた形状であるか、多面体の展開図形状に投影されない場合、角度差および距離差はカメラの位置、カメラの視野角、カメラ間の角度などを基に取得される映像間の角度差および映像間の位置差を示す。一例として、図17の(c)に示された例のように、3D多視点映像が球状であるか、図18に示された例のように、3D多視点映像が多面体の展開図形状に展開されない場合、カメラC1、C2の位置、カメラの位置差d1、カメラの角度θ1、θ2およびカメラの角度差θ3などに基づいて映像間の位置差d2および角度差θ4を取得することができる。
前述のように、3D多視点ビデオが球または非多面体形状を呈するか、映像の配置において一定のルールが存在しない場合、カメラの位置、カメラの視野角、カメラ間の角度などから視点の異なる映像間の視点差が算出できる。
視点の異なる映像間の視点差が算出されると、算出された視点差に基づいて、視点の異なる映像を同一の視点に変換することができる(S1630)。一例として、視点の異なる二つの映像に対して、二つの映像のいずれか一つを他の映像の視点に応じて変換する過程が行われ得る。
図19は他の映像の視点に応じて映像が変換される例を説明するための図である。
図19の(a)は3D多視点ビデオが立方体の展開図形状に広げられた例を示すものであり、図19の(b)は立方体の上端部(例えば、P1)または下端部(例えば、P6)から立方体を眺めたときの平面図を例示する図である。
3D多視点映像を2Dに投影したものが、図19の(a)に示された例のように、立方体の展開図形状であると仮定する場合、現在映像のP4面に含まれているブロックを、参照映像のP4面に含まれている参照領域を用いて予測するならば、視点差が発生しなくなる。しかし、現在映像のP4面に含まれているブロックを参照映像のP3面に含まれている参照領域を用いて予測するならば、P4面とP3面との視点差により予測の効率性が低下する問題点が発生するおそれがある。これにより、P3面に含まれている参照領域を基に、P4面に含まれているブロックを予測する場合を仮定して、参照映像の保存の際に、P3面をP4面に視点に応じて変換した参照映像を生成する必要がある。
このため、図19の(b)に示された例において、P3面に含まれている位置xをP4面のような視点を有する位置yに投影するなどの過程を経て、P3面の変換が行われ得る。このとき、P3面とP4面との視点差は簡略に下記の数式1によって表される。
Figure 2022008311000002
式中、aは立方体の一辺の長さを示す。
P3面をP4面の視点に合わせて変換した参照映像を用いる場合、参照映像のP3面が現在映像のP4面と同じ視点を有するので、参照映像のP3面を用いて現在映像のP4面を予測するときの予測効率の低下を回避することができる。
空間的に隣接する視点の異なる映像が追加存在する場合、上述の原理に基づいて隣接映像の変換がさらに行われ得る(S1640)。
特定の映像の視点を基準に隣接映像が変換されたとき、特定の映像と少なくとも一つの変換された隣接映像とを合わせて、参照映像を生成することができる(S1650)。
一例として、3D多視点映像が立方体の展開図形状に投影される場合、立方体の特定の面と隣接する複数の隣接面を特定面の視点に応じて変換し、特定の面と変換された複数の隣接面とを合わせて参照映像を生成することができる。
一例として、図20および図21は立方体の特定の面を基準に参照映像を生成する例を示す図である。図20の(a)を参照すると、P4面を基準に見たとき、P4面はP1、P3、P5およびP6面と隣接している。これにより、P4面の視点に応じてP1、P3、P5およびP6面を変換してT1、T3、T5およびT6を生成し、P4面と生成された変換映像T1、T3、T5、T6とを合わせることにより、参照映像を生成することができる。
このとき、P4面と隣接する隣接面の全体領域が変換対象に設定されることも可能であるが、符号化器で設定した一部領域(例えば、検索範囲(Search Range))のみが変換対象に設定されることも可能である。
図20の(b)は隣接面の全体領域が変換対象である場合、参照映像が生成される例を示す図であり、図20の(c)は隣接面の一部領域が変換対象である場合、参照映像が生成される例を示す図である。
全体またはその一部が変換された映像は、視点の基準となる映像に応じて、その位置が決定される。多面体状に投影される映像の場合、多面体の特性に応じて変換映像の位置が決定される。変換映像は、その位置に応じて、視点の基準となる映像と合わせら得る。
一例として、図21の(a)および(b)に示された例において、T1、T3、T5およびT6映像の位置は、視点の基準となる映像P4に応じて相対的に位置が決定される。すなわち、それぞれの変換映像T1、T3、T5およびT6は、P4の視点に応じて投影された位置でP4と合わせられる。
図21の(c)および(d)は、P4と変換映像T1、T3、T5およびT6とが合わせられて生成された参照映像R4を例示する図である。図21の(c)は隣接映像の変換可能な全体領域がP4の視点に応じて投影された場合を例示する図であり、図21の(d)は隣接映像の一部領域のP4の視点に応じて投影された場合を例示する図である。
次に、3D多視点映像がダイバージェント映像である場合に参照映像を生成する方法について説明する。
多面体状に投影される3D多視点映像と同様に、ダイバージェント映像も視点の異なる映像間の角度差および位置差を基に変換が行われ得る。ただし、ダイバージェント映像は多面体状の3D多視点映像とは異なり、視点の異なる映像の配置に既に定義されたルールがないので、映像の特性だけで、視点の異なる映像間の視点差(すなわち、角度差および距離差)を決定するのは難しい。これにより、ダイバージェント映像の視点差は、映像に付加される追加データ(例えば、メタデータ)を用いて符号化/シグナリングできる。追加データから視点の異なる映像間の視点差が取得されると、先立って説明したのと同様の方式で視点の異なる映像間の変換が行われ、変換結果を用いて参照映像が生成され得る。
一例として、図22はダイバージェント映像に対する参照映像を生成する例を示す図である。図22の(a)は、P1映像とは視点の異なるP2映像が存在することを示すものである。P1を基準に参照映像を生成する場合、P2の全体領域または一部領域をP1の視点に応じて変換し、変換された映像をP1と合わせて映像を生成することができる。図22の(b)は、P2の全体領域を変換することにより生成されたT2とP1とを合わせて参照映像が生成される例を示すものであり、図21の(c)は、P2の一部領域(例えば、検索範囲(search range))を変換することにより生成されたT’2とP1とを合わせて参照映像が生成される例を示すものである。
ダイバージェント映像の場合、視点の基準となる映像を中心に変換映像の位置が決定できる。このとき、変換映像の位置は、各映像の位置情報に基づいて決定できる。変換映像の位置が決定されると、視点の基準となる映像と変換映像とを合わせて参照映像が生成できる。
一例として、図23は視点の基準となる映像と変換映像とを合わせて参照映像を生成する例を示す図である。図23に示された例において、P2映像を変換することにより生成されたT2は、ダイバージェントの基準となる映像P1を中心に右に位置している。これにより、P1映像の右側に変換映像T2の少なくとも一部を生成することにより、参照映像R1を生成することができる。
次に、3D多視点映像がコンバージェント映像である場合に参照映像を生成する方法について説明する。
コンバージェント映像は、多面体状に投影される映像或いはダイバージェント映像とは異なり、各映像が特定の方向に向かう視点を有する。これにより、コンバージェント映像の一つのフレームには、特定の映像を基準に、特定の映像と空間上連続しながら特定の映像と同一の方向に向かって拡張された映像が複数個存在することができる。これにより、コンバージェント映像の参照映像を生成する際に、特定の映像と同一の位置に存在しながら変換が可能な隣接映像が複数個存在することができる。これにより、コンバージェント映像の参照映像は、特定の映像、および特定の映像と同一の位置に存在する複数の隣接映像のうちの少なくとも1つを変換することにより生成された変換映像に基づいて生成できる。
コンバージェント映像のように視点の異なる映像の空間上の位置差が大きくない場合、特定の映像に隣接する隣接映像を変換することにより生成された変換映像は次の様相を帯びることができる。
一つ目の様相は、特定の映像の視点に応じて変換された隣接映像が特定の映像と重畳しない領域を十分に含んでいる場合である。言い換えると、特定の領域に付加される拡張領域(すなわち、変換された隣接映像のうち、特定の映像と重畳しない部分)が必須情報(例えば、時間的予測に必要な領域)を含む場合である。この際には、先立って多面体あるいはダイバージェント映像から参照映像を生成するのと同様の方法が適用できる。
二つ目の様相は、特定の映像の視点に応じて変換された隣接映像が特定の映像とほとんど重畳する場合である。言い換えると、特定の領域に付加される拡張領域が十分な追加情報(たとえば、時間的予測に必要な領域)を含まない場合である。特定の領域に付加される拡張領域が十分な追加情報を含まなければ、時間的予測に参照映像を使用するのは難しい。
図24を参照して、各様相についてより詳細に考察する。
図24は変換映像が時間的予測に不可欠な領域を含むか否かを例示する図である。
説明の便宜のために、コンバージェント映像は、図24の(a)に示された例のように、複数の映像(P1、P2、P3、...、PN)を含むものと仮定する。図24の(b)は、P1映像に隣接するP2映像をP1映像の視点に応じて変換する例を示す図である。図24の(b)に示された例のように、P1映像に隣接する少なくとも一つの映像をP1映像の視点に応じて変換することにより、P1映像に対する参照映像を生成することができる。このとき、変換された隣接映像は、P1映像との重畳程度に応じて必須領域を完全に含んでもよく、必須領域を完全に含まなくてもよい。一例として、図24の(c)では、P2映像から変換された映像T2は必須領域(例えば、検索範囲(Search Range))よりも小さい領域を含むが、P3映像から変換された映像T3は必須領域を含むものと例示された。
図24の(c)に示されたT2映像のように、変換された映像が必要な最小限の領域を含まなければ、T2映像を基に生成された参照映像では時間的予測を行うことは難しい。この場合、変換された隣接領域のピクセル値を用いて、時間的予測を行う上で足りない領域をパディングすることにより、参照映像を拡張することができる。つまり、時間的予測に利用するために不可欠に含まれるべき領域のうち、隣接映像の変換分から取得することができない領域を変換された隣接領域のエッジサンプルを用いてパディングすることができる。
図25はコンバージェント映像に対する参照映像を生成する例を示す図である。図25の(c)に示された変換映像T2を用いて説明したように、P2映像に対してP1と重畳する部分を除いた残余領域が十分に広くない場合、P2を変換した映像T2も時間的予測に使用するための必須領域を含まなくなることがある。この場合、図25の(a)および(b)に示された例のように、T2映像のエッジサンプルを用いて、予測に利用するために必要な領域をパディングすることができる。
図25の(a)は、P2映像を右に変換拡張したとき、右のエッジサンプルを用いて残余領域をパディングする例を示すものであり、図25の(b)は、P2映像を上方に変換拡張したとき、上方のエッジサンプルを用いて残余領域をパディングする例を示すものである。
図25ではコンバージェント映像を例に挙げて説明したが、コンバージェント映像だけでなく、全方向映像またはダイバージェント映像などにおいても変換された映像が予測利用に必要な領域を十分に含んでいない場合、変換された映像のエッジサンプルを用いて参照映像を拡張することができる。
コンバージェント映像の場合、視点の基準となる映像を中心に変換映像の位置が決定できる。このとき、変換映像の位置は各映像の位置情報に基づいて決定できる。コンバージェント映像の場合、同一の位置に拡張される複数の変換映像を取得することができるので、視点の基準となる映像とそれぞれの変換映像とを合わせて少なくとも一つの参照映像を生成することができる。
一例として、図26は視点の基準となる映像と変換映像とを合わせて参照映像を生成する例を示す図である。図26に示された例において、P2映像を変換することにより生成されたT2とP1映像とを合わせて参照映像R1を生成し、P3映像を変換することにより生成されたT3とP1映像とを合わせて参照映像R2を生成することができる。このような方式で、P1映像を基準に、N個の変換映像に対してN-1個の参照映像が生成できる。
参照映像が生成されると、参照映像は参照映像リストに保存できる(S1660)。併せて、空間的に連続する視点が異なる映像が存在しない場合(S1610)、現在映像を参照映像として参照ピクチャーリストに保存することができる(S1660)。
生成された参照映像を参照映像リストに保存する場合、参照映像は、同一の時間帯を基準にグループ化されて保存できる。
図27は立方体状に展開される3D多視点映像に対する参照映像リストが生成される例を示す図である。
3D多視点映像が立方体状に展開される場合、特定の時間帯、特定の視点の映像を基準に一つの参照映像が生成できる。このとき、特定の時間帯に視点の基準となることができる映像は、合計6つ(すなわち、立方体の各面)なので、特定の時間帯に最大6つの参照映像が生成できる。この場合、6つの参照映像は時間帯を基準にグループ化されて保存できる。
一例として、t0時間帯の全方位映像に対して、合計6つの参照映像(P1の視点を基準に生成された参照映像R1、P2の視点を基準に生成された参照映像R2、・・・、P6の視点を基準に生成された参照映像R6)が生成できる。t0時間帯を基準に生成された参照映像は、1つのグループにグループ化されて保存できる。これと同様に、t1、t2、・・・、tNなどの参照映像リストは、所定の時間帯を基準にグループ化されてリストに保存できる。
図28はダイバージェント映像に対する参照映像リストが生成される例を示す図である。
ダイバージェント映像の場合、特定の時間帯、特定の視点の映像を基準に一つの参照映像が生成できる。視点の基準となる映像の数は、ダイバージェント映像を撮影するカメラの数によって決定されるので、特定の時間帯にカメラの数だけの参照映像が生成できる。多面体状に展開される全方位映像と同様に、複数の参照映像は時間帯別にグループ化されて保存できる。
一例として、t0時間帯のダイバージェント映像に対して、合計3つの参照映像(P1の視点を基準に生成された参照映像R1、P2の視点を基準に生成された参照映像R2、およびP3の視点を基準に生成された参照映像R3)が生成されたと仮定した場合、t0時間帯を基準に生成された3つの参照映像が1つのグループにグループ化されて保存できる。これと同様に、t1、t2、・・・、tNなどの参照映像リストは、所定の時間帯を基準にグループ化されてリストに保存できる。
図29はコンバージェント映像に対する参照映像リストが生成される例を示す図である。
コンバージェント映像の場合、特定の時間帯、特定の視点の映像を基準に少なくとも一つの参照映像が生成できる。一例として、視点の基準となる映像がP1映像であるとき、P1映像およびP2映像に基づいて第1参照映像R1が生成でき、P1映像およびP3映像に基づいて第2参照映像が生成できる。コンバージェント映像の参照映像も、全方位映像と同様に、特定の時間帯に生成された複数の参照映像がグループ化されて保存できる。
一例として、t0時間帯のコンバージェント映像に対して、P1の視点を基準に生成されたN個の参照映像、P2の視点を基準に生成されたN個の参照映像、・・・、PNの視点を基準に生成されたN個の参照映像などが存在しうる。この場合、t0時間帯を基準に生成された複数の参照映像が1つのグループにグループ化されて保存できる。これと同様に、t1、t2、・・・、tNなどの参照映像リストは、所定の時間帯を基準にグループ化されてリストに保存できる。
図27乃至図29には、複数の参照映像が時間帯を基準にグループ化されて保存されることが例示されている。図示された例とは異なり、複数の参照映像は、視点の基準となる映像を基準にグループ化されて保存されることも可能である。
参照映像を選択するために、参照映像を選択するための情報が符号化/シグナリングできる。このとき、参照映像を選択するための情報は、参照映像が含まれている時間に関する情報、または該当時間帯に含まれている複数の参照映像のうちの少なくとも一つを識別するための情報の少なくとも一つを含むことができる。
図27を例として挙げて、参照映像を選択するための情報がt0時間帯のP1の視点を基準に生成された参照映像を指しているならば、該当時間帯の該当参照映像が時間的予測のために利用できるだろう。
他の例として、特定の時間帯に含まれている複数の参照映像の中からどれを選択するかは、現在符号化/復号化しようとする領域の位置に基づいて選択できる。たとえば、現在符号化/復号化しようとする領域が立方体のP6面に含まれているならば、符号化器および復号化器は、P6の視点を基準に生成された参照映像を時間的予測に利用することができる。
上述したように、空間的に隣接する映像間の視点が互いに異なる場合には、映像の境界を基準に投影された事物の形状が視点に応じて変わる歪みが発生することがある。上述のように、映像間の境界で歪みによる符号化/復号化効率を低下させるために、参照に使用する任意の視点映像に対して、任意の映像(または領域)の視点に合わせて、これに隣接する映像(または領域)を変換する過程を経ることにより、符号化/復号化効率を向上させることができる。
図30は本発明によって参照映像を生成する場合とそうでない場合とを比較するための図である。
図30の(a)に示された例のように、隣接映像を変換していないまま時間的予測を使用するならば、面の境界で視点差による歪みが発生する。図30の(a)には、P6面の境界で非線形的歪みが発生することが示されている。これにより、特定の映像の境界部分を基に時間的予測を行おうとする場合、視点差により時間的予測効率が減少する問題点が発生するおそれがある。
しかし、図30の(b)に示された例のように、隣接映像を変換して参照映像を生成し、生成された参照映像を基に時間的予測を使用するならば、面の境界における歪みを著しく減らすことができる。図30の(b)に示された例では、P6面の境界に存在していた非線形変化が線形的に変換されている。これにより、特定の映像の境界部分を基に時間的予測を行うとしても、視点差による歪みが少ないため時間的予測効率を向上させることができる。
上述のように、隣接映像が変換されていないまま時間的予測を行う場合、映像の符号化/復号化の際に映像の境界に位置したブロックを基に時間的予測を行うのは難しい。これにより、隣接映像が変換されていない状態で、視点が変化する境界に隣接する境界ブロックは、時間的予測よりも空間的予測によって符号化されるのが一般的である。
しかし、本発明で提案したように、隣接映像を変換して生成された参照映像を基に時間的予測を行う場合、映像の符号化/復号化の際に映像の境界に位置したブロックを基に時間的予測を行うことができる。これにより、視点が変化する境界に隣接する境界ブロックも時間的予測によって符号化/復号化できるため、映像圧縮効率が高くなることができる。
一例として、図31は本発明の適用有無による符号化の様相を例示する図である。図31の(a)に示された例のように、本発明が適用されていない状態で、視点が変化する境界に位置したブロックは一般的にイントラ予測によって符号化される。しかし、図31の(b)に示された例のように、本発明が適用される場合は、視点が変化する境界に位置したブロックも時間的予測によって符号化できる。
本発明によれば、予測に用いられる映像を拡張するか否かは、符号化パラメータで符号化され、ビットストリームによってシグナリングできる。一例として、予測に用いられる映像を拡張するか否かは、1ビットのフラグによって符号化およびシグナリングできる。該当フラグが、予測に用いられる映像を拡張することを指し示す場合、特定の映像の視点に応じて隣接映像を変換した後、特定の映像と隣接映像とを合わせて参照映像を生成する方法が適用できる。これに対し、当該フラグが、予測に用いられる映像を拡張することを指し示さない場合、視点に基づいた変換および特定の映像を拡張する過程などは行われない。
このとき、予測に用いられる映像を拡張するか否かは、パラメータセット、ピクチャー単位、スライス単位または符号化対象ユニット単位でシグナリングできる。下記の表1は予測に用いられる映像を拡張するか否かを示す情報がVPSを介してシグナリングされる例を示し、表2は前記情報がSPSを介してシグナリングされる例を示す。
Figure 2022008311000003
Figure 2022008311000004
表1および表2において、「perspective_reference_picture_enabled_flag」は、予測に用いられる映像を拡張するか否かを示す。本発明で提案するように、予測に用いられる映像を拡張しようとする場合、「perspective_reference_picture_enabled_flag」は「1」に設定され、予測に用いられる映像を拡張しないこととする場合、「perspective_reference_picture_enabled_flag」は「0」に設定され得る。または、予測に用いられる映像を拡張するか否かは、説明した例と反対の値に設定されることも可能である。
「perspective_reference_picture_enabled_flag」が「1」である場合には、参照映像を構成するときに映像の方向と位置を考慮した、拡張された参照映像が生成できる。併せて、拡張された参照映像を基に予測が行われ得る。
次に、視点の特徴を利用して視点境界部分の予測情報を変換し、変換された予測情報を用いてブロック間の相関度を高める方法について考察する。
図32は本発明に係る予測情報の変換方法を示すフローチャートであり、図33は視点(Perspective)境界で予測情報が変換される例を示す図である。図33に示された例において、斜線ブロックは現在符号化/復号化対象ブロック(例えば、CUまたはPUなど)を示す。併せて、現在ブロックに隣接した周辺ブロック内の矢印は予測情報を示す。このとき、実線の矢印は変換前の予測情報を示し、点線の矢印は変換後の予測情報を示す。また、ブロック間の太い線は視点(Perspective)間の境界を示す。
まず、現在ブロックが視点間の境界に位置するブロックであるか否かを決定する(S3210)。ここで、現在ブロックが視点間の境界に位置するというのは、現在ブロックが視点間の境界に接する場合を意味する。図33の(A)では現在ブロックが視点間の境界に位置しない例を示し、(B)乃至(F)では現在ブロックが視点間の境界に位置する例を示している。
現在ブロックが視点間の境界に位置しない場合、現在ブロックに隣接する周辺ブロックの予測情報が変換されない。これとは異なり、現在ブロックが視点間の境界に位置する場合、現在ブロックの視点とは異なる視点を有する周辺ブロックの予測情報を変換することができる(S3220)。このとき、変換は視点間の特性に基づいて行われ得る。
ここで、視点間の特性は、視点が異なる映像間の視点差を意味することができる。視点が異なる映像間の視点差については図17および図18を用いて説明したことがあるので、これについての詳細な説明は省略する。
再び図32を参照すると、現在ブロックの予測は周辺ブロックの予測情報を用いて行われ得る(S3230)。この際、周辺ブロックの予測情報は、現在ブロックが視点間の境界に位置したか否かによって、変換されていない予測情報であることも、変換された予測情報であることも可能である。
以下、周辺ブロックの予測情報を用いて現在ブロックに対する予測を行う例についてより詳細に考察する。
図34は周辺ブロックの予測情報を基に、画面内予測を行うためのMPM(Most Probable Mode)候補を決定する過程を説明するためのフローチャートである。ここで、イントラ予測情報は周辺ブロックのイントラ予測モード(またはMPM)を含むことができる。
現在ブロックのイントラ予測モードを取得するために、現在ブロックに隣接した隣接ブロックのイントラ予測モードを基にMPM候補を決定し、決定されたMPM候補を基にMPM候補リストを生成することができる。もし、現在ブロックのイントラ予測モードがMPM候補リストに含まれているならば、該当MPM候補を指示するインデックス情報が符号化/シグナリングできる。この際、現在ブロックに隣接した隣接ブロックは、現在ブロックの左側に隣接する隣接ブロックや、現在ブロックの上側に隣接する隣接ブロックなどを含むことができる。これに止まらず、隣接ブロックは、現在ブロックの左上側に隣接する隣接ブロック、現在ブロックの右上側に隣接する隣接ブロック、または現在ブロックの左下側に隣接する隣接ブロックなども含むことができる。
説明の便宜のために、後述する実施形態では、現在ブロックの左側に隣接する左側隣接ブロックおよび現在ブロックの上側に隣接する上段隣接ブロックから現在ブロックのMPM候補を誘導すると仮定する。
後述される実施形態において、イントラ予測モードの変換は、隣接ブロックのイントラ予測モードが方向性モードである場合に限って行われ得る。近隣ブロックのイントラ予測モードが非方向性モード(例えば、DCまたはPLANARモード)である場合には、イントラ予測モードの変換なしでMPMが生成できる。
図34を参照すると、まず、現在ブロックの左側面が視点間の境界に隣接するか否かを決定する(S3410)。もし、現在ブロックの左側面が視点間の境界に隣接する場合には、視点間の特性を利用して、現在ブロックの左側に隣接する左側隣接ブロックのイントラ予測モードを変換して、第1MPMを生成することができる(S3420)。
現在ブロックの左側面が視点間の境界に隣接しない場合には、現在ブロックの左側に隣接する左側隣接ブロックのイントラ予測モードをそのまま第1MPMとして使用することができる(S3430)。
次に、現在ブロックの上端面が視点間の境界に隣接するか否かを決定する(S3440)。もし、現在ブロックの上端面が視点間の境界に隣接する場合には、視点間の特性を利用して、現在ブロックの上側に隣接する上段隣接ブロックのイントラ予測モードを変換して、第2MPMを生成することができる(S3450)。
現在ブロックの上端面が視点間の境界に隣接しない場合には、現在ブロックの上側に隣接する上段隣接ブロックのイントラ予測モードをそのまま第2MPMとして使用することができる(S3460)。
図35乃至図37は現在ブロックが視点境界に位置するか否かに応じてMPM候補を生成する例を示す図である。
図35を参照すると、現在ブロックと左側隣接ブロックは視点間の境界P1、P2を基準に隣接して位置している。この場合、P1とP2との視点差に基づいて、左側ブロックのイントラ予測モードを変換することにより第1MPMを生成することができる。
現在ブロックと上段隣接ブロックとの視点間の境界が存在しないので、上段隣接ブロックのイントラ予測モードを基に第2MPMを生成することができる。
図36を参照すると、現在ブロックと左側隣接ブロックとの視点間の境界が存在しないので、左側隣接ブロックのイントラ予測モードを基に第1MPMを生成することができる。
これとは異なり、現在ブロックと上段隣接ブロックは、視点間の境界P1、P2を基準に隣接して位置している。これにより、P1とP2との視点差に基づいて、上段隣接ブロックのイントラ予測モードを変換することにより第2MPMを生成することができる。
図37を参照すると、現在ブロックと左側隣接ブロックは視点間の境界P1、P2を基準に隣接して位置している。これにより、P1とP2との視点差に基づいて、左側隣接ブロックのイントラ予測モードを変換することにより第1MPMを生成することができる。
現在ブロックと上段隣接ブロックも視点間の境界P2、P3を基準に隣接して位置している。これにより、P2視点とP3視点との視点差に基づいて、上段隣接ブロックのイントラ予測モードを変換することにより第2MPMを生成することができる。
第1MPMおよび第2MPMが生成されると、第1MPMと第2MPMとが同一であるか否かを確認する(S3470)。第1MPMと第2MPMとが同一である場合、第1MPMが非方向性モード(すなわち、イントラ予測モードが2よりも小さいか否か)を判断する(S3480)。第1MPMが非方向性モードである場合、既に定義されたN個のMPM候補を生成することができる(S3485)。ここで、Nは1以上の自然数、例えば2、3、4などを意味することができる。一例として、第1MPMが非方向性モード(例えば、DCまたはPLANARモード)である場合、次のとおり、プラナー、DC、および垂直方向予測に固定された3つのMPM候補が生成できる。
MPM[0]=Intra_Planar
MPM[1]=Intra_DC
MPM[2]=Intra_Vertical(26)
第1MPMが方向性モードである場合、第1MPMをMPM候補に追加する一方、第1MPMと類似の方向を有するN-1個のMPM候補を生成することができる(S3490)。ここで、第1MPMと類似の方向を有するMPMは、第1MPMに対してkを加算または減算した値を持つことができる(このとき、kは1以上の自然数)。一例として、第1MPMが方向性モードである場合、第1MPM、第1MPMに対して1を減算したイントラ予測モード、および左側隣接ブロックのイントラ予測モードに1を加算したイントラ予測モードなど、3つのMPM候補が生成できる。
MPM[0]=Left_Block_MPM
MPM[1]=Left_Block_MPM-1
MPM[2]=Left_Block_MPM+1
第1MPMと第2MPMとが同一でない場合、第1MPMおよび第2MPMをMPM候補として追加する一方、既に定義されたイントラ予測モードを有するN-2個のMPM候補を追加生成することができる(S3495)。このとき、追加生成されるMPM候補の個数は一つ以上であり得る。一例として、第1MPMと第2MPMとが互いに異なる場合には、次のとおり、第1MPMおよび第2MPMをMPM候補として生成し、プラナー、DCまたは垂直方向モードに設定される追加MPM候補が生成できる。追加MPM候補は、第1MPMおよび第2MPMと同一の値を持たないように決定できる。
MPM[0]=Left_Block_MPM
MPM[1]=Above_Block_MPM
MPM[2]=Intra_Planar/Intra_DC/Intra_Vertical(26)
次に、周辺ブロックの予測情報を用いて現在ブロックに対する画面間予測を行う例について詳細に考察する。
図38は周辺ブロックの予測情報を基に、併合動きモード(Merge Mode)の下で画面間予測を行うための空間的マージ候補を決定する過程を説明するためのフローチャートである。
図38を参照すると、まず、現在ブロックに空間的に隣接する隣接ブロックが現在ブロックとは異なる視点を有するか否かを決定する(S3810)。現在ブロックと空間的に隣接する隣接ブロックとが互いに異なる視点を有する場合、隣接ブロックの動き情報を変換する(S3820)。このとき、変換される動き情報は動きベクトルを含む。
現在ブロックと隣接ブロックが視点境界に位置していない場合には、隣接ブロックの動き情報は変換されない。
その後、現在ブロックに空間的に隣接する隣接ブロックの利用可能性を判断する(S3830)。空間的隣接ブロックが利用可能な状態であれば、空間的隣接ブロックの動き情報または変換された動き情報を併合候補リストに含む(S3840)。
前記動きリストを含む過程(S3810~S3840)は、現在ブロックと空間的に隣接する複数の隣接ブロックそれぞれに対して繰り返し行われ得る(S3850)。一例として、図12を用いて説明した例のように、A→B→C→D→Eの順に併合動き候補リストが生成される場合、左側ブロック(A)、上段ブロック(B)、右上段ブロック(C)、左下段ブロック(D)および左上段ブロック(E)の順に、前記動きリストを含む過程が行われ得る。
ただし、左上段ブロックは、残余空間的隣接ブロックのうちの少なくとも1つが画面間予測に利用することができない場合にのみ、動きリストに含まれ得る。これにより、左上段ブロックを動きリストに含む過程(S3810~S3840)は、残余空間的隣接ブロックのうちの少なくとも1つが画面間予測に利用できない場合にのみ行われ得る。
図39は現在ブロックと空間的隣接ブロックとが互いに異なる視点を有する例を示す。
図39の(a)では、Aブロック、DブロックおよびEブロックは現在ブロックと異なる視点を有し、BブロックおよびCブロックは現在ブロックと同一の視点を有することを例示している。この場合、Aブロック、DブロックおよびEブロックの動き情報は、視点P1とP2との視点差に基づいて変換され、BブロックおよびCブロックの動き情報は変換されない。その後、Aブロック、DブロックおよびEブロックの変換された動き情報とBブロックおよびCブロックの動き情報とを用いて、A、B、C、D、Eの順に空間的併合候補リストを構成することができる。
図39の(b)では、Bブロック、CブロックおよびEブロックは現在ブロックと異なる視点を有し、AブロックおよびDブロックは現在ブロックと同じ視点を有することを例示している。この場合、Bブロック、CブロックおよびEブロックの動き情報は視点P1とP2との視点差に基づいて変換され、AブロックおよびDブロックの動き情報は変換されない。その後、Bブロック、CブロックおよびEブロックの変換された動き情報とAブロックおよびDブロックの動き情報とを用いて、A、B、C、D、Eの順に空間的併合候補リストを構成することができる。
この他にも、現在ブロックが空間的隣接ブロックとは異なる視点を有することができる例が、図39の(c)乃至図39の(h)に示されている。現在ブロックが空間的隣接ブロックと異なる視点を有する場合、現在ブロックと空間的隣接ブロックとの視点差に基づいて空間的隣接ブロックの動き情報を変換し、現在ブロックが空間的隣接ブロックと同一の視点を有する場合、空間的隣接ブロックの動き情報を変換しないことは、これらの例でも同様に適用できるだろう。
図40は周辺ブロックの予測情報を基に、併合動き(マージ)モードの下で画面間予測を行うための時間的マージ候補を決定する過程を説明するためのフローチャートである。
ここで、予測情報は周辺ブロックの動きベクトルを含むことができる。
時間的マージ候補は現在ブロックの時間的隣接ブロックから誘導できる。この際、時間的隣接ブロックは、現在ブロックが含まれている現在ピクチャーとは異なる時間順序を持つコルケーテッドピクチャー内のコロケーテッド(Collocated)ブロックを意味することができる。このとき、コロケーテッドブロックは、コロケーテッドピクチャー内の第1ブロックの利用可能性に応じて可変的に決定できる。一例として、第1ブロックが画面間予測に利用可能な場合には、第1ブロックがコロケーテッドブロックと決定され、第1ブロックが利用不可能な場合には、第1ブロックと異なる位置にある第2ブロックがコロケーテッドブロックと決定され得る。ここで、第1ブロックおよび第2ブロックは、現在ブロックの左下段サンプルの座標値を含むブロックまたは現在ブロックの中心ピクセル値を含むブロックのうち、互いに異なる一つであり得る。
以下、説明の便宜のために、第1ブロックは現在ブロックの左下段サンプルの座標を含むブロックであり、第2ブロックは現在ブロックの中心座標を含むブロックであると仮定する。
図40を参照すると、まず、第1ブロックの視点が現在ブロックの視点と異なるか否かを決定する(S4010)。第1ブロックは、現在ブロックと時間的に隣接するので、第1ブロックの視点と現在ブロックの視点とが互いに異なる場合、第1ブロックは現在ブロックとの視点境界に位置するものと判断できる。第1ブロックの視点と現在ブロックの視点とが互いに異なる場合、第1ブロックの動き情報を変換する(S4020)。このとき、変換される動き情報は動きベクトルを含む。
現在ブロックと第1ブロックが境界に位置していない場合には、第1ブロックの動き情報は変換されない。
その後、第1ブロックの利用可能性を判断する(S4030)。第1ブロックの動き情報を併合候補として使用することができれば、第1ブロックの動き情報を併合候補リストに追加することができる(S4040)。
これとは異なり、第1ブロックが利用できない場合には、第2ブロックの利用可能性を判断する(S4050)。第2ブロックの動き情報を併合候補として使用することができれば、第2ブロックの動き情報を併合候補リストに追加することができる(S4060)。
第2ブロックは、現在ブロックの中心座標を含むので、現在ブロックと同一の視点を有する。これにより、第2ブロックの動き情報は、変換されていないまま併合候補リストに追加できる。
図41は現在ブロックと時間的隣接ブロックとが互いに異なる視点を有する例を示す。
図41に示された例において、現在ブロックXに対して、第1ブロックはHブロックに対応し、第2ブロックはMブロックに対応する。図41の(a)乃至(c)には、現在ブロックは視点P1を有するのに対し、Hブロックは視点P2を有することが例示されている。この場合、Hブロックの動き情報は、視点P1とP2との視点差に基づいて変換できる。
Mブロックの場合、現在ブロックXと常に同一の視点を有するので、Mブロックの動き情報は変換されないことがある。
図38乃至図41では、現在ブロックの画面間予測モードが併合動きモードである場合を仮定している。説明した例に止まらず、現在ブロックの画面間予測モードがAMVP(Advanced Motion Vector Predictor)モードである場合にも、図38乃至図41を用いて説明した予測情報の変換方法が適用できる。一例として、現在ブロックに空間的に隣接する空間的隣接ブロック、または現在ブロックに時間的に隣接する時間的隣接ブロックが現在ブロックとは異なる視点を有するならば、該当隣接ブロックの動きベクトルを変換した後、変換された動きベクトルを動きベクトル予測候補リスト(MVP List)に追加することができる。もし、現在ブロックの空間的隣接ブロックまたは時間的隣接ブロックが現在ブロックと同一の視点を有するならば、該当隣接ブロックの動きベクトルは、変換されていないまま動きベクトル予測候補リストに含まれ得る。
本発明によれば、予測情報を変換して符号化するか否かを指し示す情報は、符号化パラメータで符号化され、ビットストリームによってシグナリングされ得る。一例として、予測情報を変換するか否かについての情報は、1ビットのフラグで符号化およびシグナリングできる。該当フラグが予測情報を変換することを指し示す場合、現在ブロックと隣接ブロックとが互いに異なる視点を有するか否かに応じて、隣接ブロックの予測情報を変換する方法が使用できる。
このとき、予測情報を変換するか否かは、パラメータセット、ピクチャー単位、スライス単位、または符号化対象ユニット(例えば、CUまたはPUなど)単位でシグナリングできる。表3は予測情報を変換するか否かを示す情報がVPSを介してシグナリングされる例を示し、表4は上記の情報がSPSを介してシグナリングされる例を示す。表5は上記の情報がPU単位でシグナリングされる例を示す。
Figure 2022008311000005
Figure 2022008311000006
Figure 2022008311000007
表3および表4において、「perspective_intra_pred_transform_enabled_flag」は、画面内予測モードが適用されたとき、予測情報を変換するか否かを示し、「perspective_inter_pred_transform_enable_flag」は、画面間予測モードが適用されたとき、予測情報を変換するか否かを示す。
一例として、「perspective_intra_pred_transform_enabled_flag」の値が「1」であることは、画面内予測モードが適用されたとき、予測情報を変換する方法が適用されることを示し、「perspective_intra_pred_transform_enabled_flag」の値が「0」であることは、画面内予測モードが適用されたとき、予測情報を変換する方法が適用されないことを示す。または、画面内予測が適用されたときに予測情報を変換するか否かは、説明した例と反対の値に設定されることも可能である。
「perspective_inter_pred_transform_enable_flag」の値が「1」であることは、画面間予測モードが適用されたとき、予測情報を変換する方法が適用されることを示し、「perspective_inter_pred_transform_enable_flag」の値が「0」であることは、画面間予測モードが適用されたとき、予測情報を変換する方法が適用されないことを示す。または、画面間予測が適用されたときに予測情報を変換するか否かは、説明した例と反対の値に設定されることも可能である。
表5において、「perspective_pred_transform_flag」は、PUの予測モードを問わず、予測情報を変換する方法を適用するか否かを示す。
一例として、「perspective_pred_transform_flag」の値が「1」であることは、画面内予測モードまたは画面間予測モードが適用されたとき、予測情報を変換する方法が適用されることを示し、「perspective_pred_transform_flag」の値が「0」であることは、画面内予測モードまたは画面間予測モードが適用されたとき、予測情報を変換する方法が適用されないことを示す。または、予測情報を変換するか否かは、説明した例と反対の値に設定されることも可能である。
本発明に係る符号化器および復号化器の構成については、図42および図43を参照して詳細に説明する。
図42は本発明に係る符号化器の構成を示すブロック図である。
符号化器は、全方向映像の展開図、コンバージェントカメラ映像およびダイバージェント映像などの3D多視点映像を符号化する装置を意味する。符号化器は、投影部100、画面間予測部110、画面内予測部120、変換部130、量子化部140、エントロピー符号化部150、逆量子化部160、逆変換部170、参照映像拡張部180、予測情報変換部185および復元ピクチャーバッファ190を含むことができる。
符号化器は、入力映像に対して画面内予測モード(または空間的モード)および/または画面間予測モード(または時間的モード)で符号化を行うことができる。また、符号化器は、入力映像に対する符号化を介してビットストリームを生成することができ、生成されたビットストリームを出力することができる。予測モードとして画面内予測モードが使用される場合、スイッチは画面内予測に転換でき、予測モードとして画面間予測モードが使用される場合、スイッチは画面間予測に転換できる。ここで、画面内予測モードはイントラ予測モード(すなわち、空間的予測モード)を意味することができ、画面間予測モードはインター予測モード(すなわち、時間的予測モード)を意味することができる。
符号化器は入力映像の入力ブロックに対する予測信号を生成することができる。ブロック単位の予測信号は予測ブロックと呼ばれることもある。また、符号化器は、予測ブロックが生成された後、入力ブロックと予測ブロックとの差分(residual)を符号化することができる。入力映像は、現在符号化の対象である現在映像と呼ばれることもある。入力ブロックは、現在符号化の対象である現在ブロックあるいは符号化対象ブロックと呼ばれることもある。
投影部100は、3D多視点映像を正距円筒または多面体の展開図などの2次元形状に投影する役割を果たす。これにより、不規則な角度と位置を有する複数の映像が多面体の展開図に合わせて2次元映像に変換できる。投影部はカメラの位置および角度などを用いて3D多視点映像を2次元映像に変換することもできる。
予測モードがイントラモードである場合、画面内予測部120は、現在ブロックの周辺に既に符号化されたブロックのピクセル値を参照画素として用いることができる。画面内予測部120は、参照画素を用いて空間的予測を行うことができ、空間的予測を介して入力ブロックに対する予測サンプルを生成することができる。
この際、現在ブロックのイントラ予測モードは、現在ブロックに隣接する隣接ブロックのイントラ予測モードを基に決定できる。もし、現在ブロックの視点と隣接ブロックの視点とが互いに異なる場合、予測情報変換部185は、隣接ブロックのイントラ予測モードを変換し、変換されたイントラ予測モードに基づいて現在ブロックのイントラ予測モードを決定することができる。
予測モードがインターモードである場合、画面間予測部110は、動き予測過程で参照映像から入力ブロックと最もよくマッチする領域を検索することができ、検索された領域を用いて動きベクトルを導出することができる。参照映像は参照ピクチャーバッファ190に保存できる。
このとき、動きベクトルを導出するための隣接ブロックが現在ブロックとは異なる視点を有する場合、予測情報変換部185は、隣接ブロックの動きベクトルを変換することができる。現在ブロックの動きベクトルは、隣接ブロックの変換された隣接ブロックの動きベクトルに基づいて導出できる。
減算器は、入力ブロックと予測ブロックとの差分を用いて残余ブロック(residual block)を生成することができる。残余ブロックは残余信号とも呼ばれる。
変換部130は、残余ブロックに対して変換(transform)を行って変換係数(transform coefficient)を生成することができ、変換係数を出力することができる。ここで、変換係数は、残余ブロックに対する変換を行うことにより、生成された係数値であり得る。変換省略(transform skip)モードが適用される場合、変換部130は残余ブロックに対する変換を省略することもできる。
変換係数に量子化を適用することにより、量子化された変換係数レベル(transform coefficient level)が生成できる。以下、実施形態では量子化された変換係数レベルも変換係数とも呼ばれる。
量子化部140は、変換係数を量子化パラメータに基づいて量子化することにより、量子化された変換係数レベル(transform coefficient level)を生成することができ、量子化された変換係数レベルを出力することができる。このとき、量子化部140では、量子化行列を用いて変換係数を量子化することができる。
エントロピー符号化部150は、量子化部140で算出された値または符号化過程で算出された符号化パラメータ(Coding Parameter)値などに対して確率分布に基づくエントロピー符号化を行うことにより、ビットストリーム(bitstream)を生成することができ、ビットストリームを出力することができる。エントロピー符号化部150は、映像のピクセルの情報の他に、映像の復号化のための情報に対するエントロピー符号化を行うことができる。例えば、映像の復号化のための情報は構文要素(syntax element)などを含むことができる。
符号化器がインター予測による符号化を行う場合、符号化された現在映像は、後で処理される他の映像(等)に対して参照映像として使用できる。したがって、符号化器は、符号化された現在映像を再び復号化することができ、復号化された映像を参照映像として保存することができる。復号化のために、符号化された現在映像に対する逆量子化および逆変換が処理できる。
量子化された係数は、逆量子化部160で逆量子化(dequantization)でき、逆変換部170で逆変換(inverse transform)できる。逆量子化および逆変換された係数は、加算器175を介して予測ブロックと合わせられ得る。逆量子化および逆変換を介して生成された残差ブロックを予測ブロックと合わせることにより、復元ブロック(reconstructed block)が生成できる。
図示してはいないが、復元ブロックはフィルター部を経ることができる。フィルター部は、デブロッキングフィルター(deblocking filter)、サンプル適応的オフセット(Sample Adaptive Offset;SAO)、適応的ループフィルター(Adaptive Loop Filter;ALF)のうちの少なくとも1つを復元ブロックまたは復元映像に適用することができる。フィルター部はインループフィルター(in-loop filter)とも呼ばれる。
参照映像拡張部180は、復元された全方向映像、ダイバージェント映像またはコンバージェント映像が含む映像それぞれのパースペクティブに合わせて参照映像を生成する役割を果たす。参照映像拡張部を介して生成された参照映像は、時間帯別またはパースペクティブ別にグループ化されて参照ピクチャーバッファ190に保存できる。参照映像拡張部に対しては、図44を参照してより詳細に説明する。
図43は本発明に係る復号化器の構成を示すブロック図である。
図43を参照すると、復号化器は、エントロピー復号化部210、逆量子化部220、逆変換部230、画面内予測部240、画面間予測部250、参照映像拡張部260、予測情報変換部270および参照ピクチャーバッファ280を含むことができる。
復号化器は、符号化器から出力されたビットストリームを受信することができる。復号化器は、ビットストリームに対してイントラモードまたはインターモードで復号化を行うことができる。また、復号化器は、復号化を介して復元映像を生成することができ、復元映像を出力することができる。
復号化に使用される予測モードがイントラモードである場合、スイッチがイントラに転換できる。復号化に使用される予測モードがインターモードである場合、スイッチがインターに転換できる。
復号化器は、入力されたビットストリームから復元された残余ブロック(reconstructed residual block)を取得することができ、予測ブロックを生成することができる。復元された残余ブロックおよび予測ブロックが取得されると、復号化器は復元された残余ブロックおよび予測ブロックを加えることにより、復号化対象ブロックである復元ブロックを生成することができる。復号化対象ブロックは現在ブロックとも呼ばれる。
エントロピー復号化部210は、ビットストリームに対する確率分布に基づくエントロピー復号化を行うことにより、シンボルを生成することができる。生成されたシンボルは、量子化された変換係数レベル(transform coefficient level)形態のシンボルおよび映像データの復号化のために必要な情報を含むことができる。ここで、エントロピー復号化方法は、上述したエントロピー符号化方法と同様であり得る。例えば、エントロピー復号化方法は、上述したエントロピー符号化方法と逆の過程であり得る。
エントロピー復号化部210は、変換係数レベルを復号化するために、変換係数スキャン(Transform Coefficient Scanning)方法によって1次元のベクトル形態係数を2次元のブロック形態に変更することができる。例えば、アップライト(up right)スキャンを用いてブロックの係数をスキャンすることにより、2次元ブロック形態に変更させることができる。変換ユニットの大きさおよび画面内予測モードに応じてアップライトスキャンの代わりに垂直スキャン、水平スキャンが使用されることも可能である。つまり、変換ユニットの大きさおよび画面内予測モードに応じてアップライトスキャン、垂直方向スキャンおよび水平方向スキャンのうちのどのスキャン方法が使用されるかを決定することができる。
量子化された変換係数レベルは、逆量子化部220で逆量子化され、逆変換部230で周波数領域から空間領域に逆変換できる。量子化された変換係数レベルが逆量子化および逆変換された結果として、復元された残余ブロックが生成できる。このとき、逆量子化部220は、量子化された変換係数レベルに量子化行列を適用することができる。
イントラモードが使用される場合、画面内予測部240は、空間領域で、復号化対象ブロックの周辺の既に復号化されたブロックのピクセル値を用いる空間的予測を行うことにより、予測ブロックを生成することができる。
この際、現在ブロックのイントラ予測モードは、現在ブロックに隣接する隣接ブロックのイントラ予測モードから誘導できる。もし、現在ブロックの視点と隣接ブロックの視点とが互いに異なる場合、予測情報変換部185、隣接ブロックのイントラ予測モードを変換し、変換されたイントラ予測モードから現在ブロックのイントラ予測モードを誘導することができる。
インターモードが使用される場合、画面間予測部250は、空間領域で、動きベクトルおよび参照ピクチャーバッファ280に保存されている参照映像を用いる動き補償を行うことにより、予測ブロックを生成することができる。前記画面間予測部250は、動きベクトルの値が整数値を持たない場合に参照映像内の一部領域に対して補間フィルター(Interpolation Filter)を適用して予測ブロックを生成することができる。動き補償を行うために、符号化ユニットを基準に、該当符号化ユニットに含まれている予測ユニットの動き補償方法がスキップモード(Skip Mode)、マージモード(Merge Mode)、AMVPモード(AMVP Mode)および現在ピクチャー参照モードのうちのどの方法であるかを判断することができ、各モードに応じて動き補償を行うことができる。ここで、現在ピクチャー参照モードは、復号化対象ブロックが属する現在ピクチャー内の既に復元された領域を用いた予測モードを意味することができる。前記既に復元された領域は、復号化対象ブロックに隣接していない領域であり得る。前記既に復元された領域を特定するために、現在ピクチャー参照モードのための所定のベクトルが用いられることも可能である。復号化対象ブロックが現在ピクチャー参照モードで符号化されたブロックであるか否かを示すフラグ或いはインデックスがシグナリングされることも可能であり、復号化対象ブロックの参照映像インデックスから類推されることも可能である。現在ピクチャー参照モードのための現在ピクチャーは、復号化対象ブロックのための参照映像リスト内で固定された位置(例えば、refIdx=0である位置または最後の位置)に存在することができる。または、参照映像リスト内に可変的に位置することも可能である。このために、現在ピクチャーの位置を示す別途の参照映像インデックスがシグナリングされることもある。
マージモードまたはAMVPモードの下で、現在ブロックの動きベクトルは、現在ブロックに空間的または時間的に隣接した隣接ブロックの動きベクトルを基に誘導できる。このとき、動きベクトルを導出するための隣接ブロックが現在ブロックとは異なる視点を有する場合、予測情報変換部270は隣接ブロックの動きベクトルを変換することができる。現在ブロックの動きベクトルは、隣接ブロックの変換された隣接ブロックの動きベクトルに基づいて導出できる。
復元された残余ブロックおよび予測ブロックは、加算器を介して加えられ得る。図示してはいないが、復元された残余ブロックおよび予測ブロックがさらに加えられることにより生成されたブロックは、フィルター部を経ることができる。フィルター部はデブロッキングフィルター、サンプル適応的オフセットおよび適応的ループフィルターのうちの少なくとも一つを復元ブロックまたは復元映像に適用することができる。
参照映像拡張部260は、復元された全方向映像、ダイバージェント映像またはコンバージェント映像が含む映像それぞれの視点に合わせて参照映像を生成する役割を果たす。参照映像拡張部を介して生成された参照映像は、時間帯別または視点別にグループ化されて参照ピクチャーバッファ270に保存できる。参照映像拡張部に対しては、図44を参照してより詳細に説明する。
図44は本発明に係る参照映像拡張部のブロック図である。
図44を参照すると、参照映像拡張部は、変換部310、拡張部320および参照映像リスト生成部330を含むことができる。
変換部310は、予測に用いられる映像に時間軸が同一であり、位置上連続した視点の異なる映像が存在するか否かを確認し、存在する場合、これを予測に用いられる映像の視点に合わせて変換する役割を果たす。一例として、立方体の展開図形状の2D映像に対して、変換部は、視点の異なる空間的に隣接する映像のうち少なくとも一つの視点に応じて他の映像を変換する役割を果たすことができる。
拡張部320は、予測に用いられる映像と変換部で変換された映像とを合わせる役割を果たす。すなわち、拡張部によって、予測に用いられる映像(すなわち、参照映像)の大きさは、変換された映像の合算分だけ増加することができる。このとき、変換された映像が拡張される位置は、映像の特性または映像の位置に基づいて決定できる。
参照映像リスト生成部330は、予測に用いられる映像と変換された映像とを合わせて生成された参照映像を参照映像リストに追加する役割を果たす。参照映像は、時間軸に応じて参照映像リストに入力できる。
以上説明した本発明に係る実施形態を介して記述された構成要素(components)は、DSP(Digital Signal Processor)、プロセッサ(processor)、制御部(controller)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などのプログラム可能論理要素(programmable logic element)、他の電子機器、およびこれらの組み合わせのうちの少なくとも一つによって実現できる。上述した本発明に係る実施形態を介して説明された少なくとも一つの機能またはプロセスはソフトウェアで実現され、ソフトウェアは記録媒体に記録できる。記録媒体の例には、ハードディスク、フロッピーディスクおよび磁気テープなどの磁気媒体、CD-ROM、DVDなどの光記録媒体、フロプティカルディスク(floptical disk)などの磁気-光媒体(magneto-optical media)、およびROM、RAM、フラッシュメモリなどのプログラム命令を保存および実行するように特別に構成されたハードウェア装置が含まれる。プログラムコマンドの例には、コンパイラによって作られる機械語コードだけでなく、インタプリターなどを用いてコンピュータによって実行できる高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を行うために一つ以上のソフトウェアモジュールとして作動するように構成でき、その逆も同様である。本発明の実施形態を介して説明された構成要素、機能およびプロセスなどは、ハードウェアとソフトウェアとの組み合わせによって実現されることも可能である。
以上、本発明が具体的な構成要素などの特定の事項と限定された実施形態および図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものに過ぎず、本発明はそれらの実施形態に限定されるものではなく、本発明の属する技術分野における通常の知識を有する者であれば、そのような記載から多様な修正および変形を図ることができる。
よって、本発明の思想は上述した実施形態に限定されて定められてはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等または等価的に変形したいずれのものも本発明の思想の範疇に属するといえる。
本発明は、映像を符号化/復号化することに利用可能である。

Claims (10)

  1. 第1映像の隣接映像であって、第1視点を有する前記第1映像とは異なる視点を有する第2映像が存在する場合、前記第1映像と前記第2映像との視点差に基づいて、前記第2映像を前記第1映像に投影することによって、前記第2映像を、前記第1視点を有するように変換する段階と、
    前記第1映像の一面に変換された前記第2映像を付加して参照映像を生成する段階と、
    前記参照映像を参照ピクチャーリストに保存する段階とを含み、
    前記視点差は、前記第1映像と前記第2映像との距離差および角度差のうちの少なくとも一つを含み、前記第1映像および変換された前記第2映像を含む全方向映像の投影された形状に基づいて決定され、
    前記全方向映像が非多面体状に投影される場合、前記第1映像と前記第2映像との前記距離差及び前記角度差は、前記第1映像を撮影するために用いられた第1カメラの位置及び前記第2映像を撮影するために用いられた第2カメラの位置と、前記第1カメラの位置と前記第2カメラの位置との距離差と、前記第1カメラと前記第2カメラとの間の角度差と、各々のカメラの視野角との少なくともいずれか一つに基づいて演算されることを特徴とする、映像符号化方法。
  2. 前記位置は、それぞれ3次元空間における位置座標として表わされることを特徴とする、請求項1に記載の映像符号化方法。
  3. 前記視野角は、オイラー角として表わされることを特徴とする、請求項1に記載の映像符号化方法。
  4. 前記参照映像は、前記第1映像および前記第2映像に対応する時間帯情報と共に、前記参照ピクチャーリストに保存されることを特徴とする、請求項1に記載の映像符号化方法。
  5. 前記全方向映像が非多面体状に投影される場合、
    前記第2映像の前記異なる視点は、所定の数の視点を有する前記非多面体の特性に基づくことを特徴とする、請求項1に記載の映像符号化方法。
  6. 前記第2映像は、メタデータに基づく前記第1映像の隣接映像として決定されることを特徴とする、請求項1に記載の映像符号化方法。
  7. 前記全方向映像が正多面体状に投影される場合、前記第1映像と前記第2映像との間の前記角度差は、前記正多面体の内角であると決定されることを特徴とする、請求項1に記載の映像符号化方法。
  8. 第1映像の隣接映像であって、第1視点を有する前記第1映像とは異なる視点を有する第2映像が存在する場合、前記第1映像と前記第2映像との視点差に基づいて、前記第2映像を前記第1映像に投影することによって、前記第2映像を、前記第1視点を有するように変換する段階と、
    前記第1映像の一面に変換された前記第2映像を付加して参照映像を生成する段階と、
    前記参照映像を参照ピクチャーリストに保存する段階とを含み、
    前記視点差は、前記第1映像と前記第2映像との距離差および角度差のうちの少なくとも一つを含み、前記第1映像および変換された前記第2映像を含む全方向映像の投影された形状に基づいて決定され、
    前記全方向映像が非多面体状に投影される場合、前記第1映像と前記第2映像との前記距離差及び前記角度差は、前記第1映像を撮影するために用いられた第1カメラの位置及び前記第2映像を撮影するために用いられた第2カメラの位置と、前記第1カメラの位置と前記第2カメラの位置との距離差と、前記第1カメラと前記第2カメラとの間の角度差と、各々のカメラの視野角との少なくともいずれか一つに基づいて演算されることを特徴とする、映像復号化方法。
  9. 第1映像の隣接映像であって、第1視点を有する前記第1映像とは異なる視点を有する第2映像が存在する場合、前記第1映像と前記第2映像との視点差に基づいて、前記第2映像を前記第1映像に投影することによって、前記第2映像を、前記第1視点を有するように変換する変換部と、
    前記第1映像の一面に変換された前記第2映像を付加して参照映像を生成する拡張部と、
    前記参照映像を参照ピクチャーリストに保存する参照映像リスト生成部とを含み、
    前記視点差は、前記第1映像と前記第2映像との距離差および角度差のうちの少なくとも一つを含み、前記第1映像および変換された前記第2映像を含む全方向映像の投影された形状に基づいて決定され、
    前記全方向映像が非多面体状に投影される場合、前記第1映像と前記第2映像との前記距離差及び前記角度差は、前記第1映像を撮影するために用いられた第1カメラの位置及び前記第2映像を撮影するために用いられた第2カメラの位置と、前記第1カメラの位置と前記第2カメラの位置との距離差と、前記第1カメラと前記第2カメラとの間の角度差と、各々のカメラの視野角との少なくともいずれか一つに基づいて演算されることを特徴とする、映像符号化装置。
  10. 第1映像の隣接映像であって、第1視点を有する前記第1映像とは異なる視点を有する第2映像が存在する場合、前記第1映像と前記第2映像との視点差に基づいて、前記第2映像を前記第1映像に投影することによって、前記第2映像を、前記第1視点を有するように変換する変換部と、
    前記第1映像の一面に変換された前記第2映像を付加して参照映像を生成する拡張部と、
    前記参照映像を参照ピクチャーリストに保存する参照映像リスト生成部とを含み、
    前記視点差は、前記第1映像と前記第2映像との距離差および角度差のうちの少なくとも一つを含み、前記第1映像および変換された前記第2映像を含む全方向映像の投影された形状に基づいて決定され、
    前記全方向映像が非多面体状に投影される場合、前記第1映像と前記第2映像との前記距離差及び前記角度差は、前記第1映像を撮影するために用いられた第1カメラの位置及び前記第2映像を撮影するために用いられた第2カメラの位置と、前記第1カメラの位置と前記第2カメラの位置との距離差と、前記第1カメラと前記第2カメラとの間の角度差と、各々のカメラの視野角との少なくともいずれか一つに基づいて演算されることを特徴とする、映像復号化装置。
JP2021140378A 2015-11-23 2021-08-30 多視点ビデオの符号化/復号化方法 Pending JP2022008311A (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR20150164266 2015-11-23
KR10-2015-0164057 2015-11-23
KR20150164057 2015-11-23
KR10-2015-0164266 2015-11-23
PCT/KR2016/013571 WO2017090988A1 (ko) 2015-11-23 2016-11-23 다시점 비디오의 부호화/복호화 방법
JP2018525369A JP6937302B2 (ja) 2015-11-23 2016-11-23 多視点ビデオの符号化/復号化方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018525369A Division JP6937302B2 (ja) 2015-11-23 2016-11-23 多視点ビデオの符号化/復号化方法

Publications (1)

Publication Number Publication Date
JP2022008311A true JP2022008311A (ja) 2022-01-13

Family

ID=58764342

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018525369A Active JP6937302B2 (ja) 2015-11-23 2016-11-23 多視点ビデオの符号化/復号化方法
JP2021140378A Pending JP2022008311A (ja) 2015-11-23 2021-08-30 多視点ビデオの符号化/復号化方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2018525369A Active JP6937302B2 (ja) 2015-11-23 2016-11-23 多視点ビデオの符号化/復号化方法

Country Status (5)

Country Link
US (1) US10701396B2 (ja)
EP (1) EP3383039A4 (ja)
JP (2) JP6937302B2 (ja)
CN (2) CN115243040A (ja)
WO (1) WO2017090988A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102506480B1 (ko) * 2016-06-14 2023-03-07 삼성전자주식회사 영상 처리 장치 및 그 영상 처리 방법
KR20180000279A (ko) * 2016-06-21 2018-01-02 주식회사 픽스트리 부호화 장치 및 방법, 복호화 장치 및 방법
EP3264368A1 (en) * 2016-06-28 2018-01-03 Nokia Technologies Oy Display of polyhedral virtual objects
WO2018025660A1 (ja) * 2016-08-05 2018-02-08 ソニー株式会社 画像処理装置および画像処理方法
CN107801039B (zh) 2016-08-30 2020-04-14 华为技术有限公司 运动补偿预测方法和装置
CN108235031B (zh) * 2016-12-15 2019-11-05 华为技术有限公司 一种运动矢量解码方法及解码器
US10999602B2 (en) 2016-12-23 2021-05-04 Apple Inc. Sphere projected motion estimation/compensation and mode decision
CN117336472A (zh) * 2017-01-02 2024-01-02 Lx 半导体科技有限公司 图像编码/解码设备以及发送图像数据的设备
US10863198B2 (en) * 2017-01-03 2020-12-08 Lg Electronics Inc. Intra-prediction method and device in image coding system for 360-degree video
US11259046B2 (en) * 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
US10924747B2 (en) * 2017-02-27 2021-02-16 Apple Inc. Video coding techniques for multi-view video
US11004173B2 (en) * 2017-03-13 2021-05-11 Mediatek Inc. Method for processing projection-based frame that includes at least one projection face packed in 360-degree virtual reality projection layout
US11057643B2 (en) 2017-03-13 2021-07-06 Mediatek Inc. Method and apparatus for generating and encoding projection-based frame that includes at least one padding region and at least one projection face packed in 360-degree virtual reality projection layout
WO2018199792A1 (en) * 2017-04-26 2018-11-01 Huawei Technologies Co., Ltd Apparatuses and methods for encoding and decoding a panoramic video signal
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
US20190005709A1 (en) * 2017-06-30 2019-01-03 Apple Inc. Techniques for Correction of Visual Artifacts in Multi-View Images
US10754242B2 (en) 2017-06-30 2020-08-25 Apple Inc. Adaptive resolution and projection format in multi-direction video
DE112018002432T5 (de) 2017-08-18 2020-01-23 Mediatek Inc. Verfahren und Vorrichtung zum Reduzieren von Artefakten in einem projektionsbasierten Rahmen
WO2019045393A1 (ko) * 2017-08-29 2019-03-07 주식회사 케이티 비디오 신호 처리 방법 및 장치
FR3075540A1 (fr) * 2017-12-15 2019-06-21 Orange Procedes et dispositifs de codage et de decodage d'une sequence video multi-vues representative d'une video omnidirectionnelle.
KR20190110042A (ko) * 2018-03-19 2019-09-27 주식회사 케이티 비디오 신호 처리 방법 및 장치
KR20230098721A (ko) 2018-03-29 2023-07-04 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 패딩을 위한 화면내-예측 모드 선택을 위한 장치
WO2020101451A1 (ko) 2018-11-15 2020-05-22 한국전자통신연구원 지역 기반 화면간/화면내 예측 기술을 이용한 부호화/복호화 방법 및 장치
EP3935843A4 (en) * 2019-03-08 2022-10-05 ZTE Corporation ZERO TILE ENCODING IN VIDEO ENCODING
US11350074B2 (en) 2019-03-20 2022-05-31 Electronics And Telecommunications Research Institute Method for processing immersive video and method for producing immersive video
US11558625B2 (en) 2020-06-24 2023-01-17 Electronics And Telecommunications Research Institute Method for generating residual image of multi-view video and apparatus using the same
US11418810B2 (en) * 2020-09-21 2022-08-16 Tencent America LLC Methods of inter picture motion prediction for multi-view video compression

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005159824A (ja) * 2003-11-27 2005-06-16 Nippon Telegr & Teleph Corp <Ntt> 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置,画像符号化プログラム,画像復号プログラムおよびそれらの記録媒体
JP2008509630A (ja) * 2004-08-13 2008-03-27 インダストリー・アカデミック・コーオペレーション・ファウンデーション・キョンヒ・ユニヴァーシティ パノラマ画像の動き推定及び補償のために仮想画像領域を生成する方法及び装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101116340A (zh) * 2004-12-10 2008-01-30 韩国电子通信研究院 对多视图视频进行统一编码的装置
US8369406B2 (en) * 2005-07-18 2013-02-05 Electronics And Telecommunications Research Institute Apparatus of predictive coding/decoding using view-temporal reference picture buffers and method using the same
KR100731979B1 (ko) * 2005-10-18 2007-06-25 전자부품연구원 다시점 정방향 카메라 구조 기반의 메쉬를 이용한 중간영상 합성 방법 및 장치와 이를 구현하는 기능을실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는기록 매체
EP1972141A4 (en) 2006-01-07 2017-04-05 Electronics and Telecommunications Research Institute Method and apparatus for inter-viewing reference in multi-viewpoint video coding
ZA200805337B (en) * 2006-01-09 2009-11-25 Thomson Licensing Method and apparatus for providing reduced resolution update mode for multiview video coding
EP2591602A1 (en) * 2010-07-06 2013-05-15 Koninklijke Philips Electronics N.V. Generation of high dynamic range images from low dynamic range images
JP2012100019A (ja) * 2010-11-01 2012-05-24 Sharp Corp 多視点画像符号化装置及び多視点画像復号装置
JP5281632B2 (ja) 2010-12-06 2013-09-04 日本電信電話株式会社 多視点画像符号化方法,多視点画像復号方法,多視点画像符号化装置,多視点画像復号装置およびそれらのプログラム
WO2012099352A2 (ko) 2011-01-20 2012-07-26 삼성전자주식회사 다시점 영상 부호화/복호화 장치 및 방법
KR101265667B1 (ko) 2011-06-21 2013-05-22 ㈜베이다스 차량 주변 시각화를 위한 3차원 영상 합성장치 및 그 방법
KR20140019221A (ko) 2012-07-17 2014-02-14 한국전자통신연구원 인루프 필터링 방법 및 이를 이용하는 장치
KR102248074B1 (ko) 2012-10-07 2021-05-04 엘지전자 주식회사 비디오 신호 처리 방법 및 장치
KR20140048783A (ko) 2012-10-09 2014-04-24 한국전자통신연구원 깊이정보값을 공유하여 움직임 정보를 유도하는 방법 및 장치
KR20140051789A (ko) * 2012-10-22 2014-05-02 (주)휴맥스 3차원 비디오에서의 뷰간 움직임 예측 방법 및 뷰간 병합 후보 결정 방법
CN104735436A (zh) * 2014-12-29 2015-06-24 深圳超多维光电子有限公司 单摄像头立体成像方法及电子设备
US20180109810A1 (en) * 2016-10-17 2018-04-19 Mediatek Inc. Method and Apparatus for Reference Picture Generation and Management in 3D Video Compression

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005159824A (ja) * 2003-11-27 2005-06-16 Nippon Telegr & Teleph Corp <Ntt> 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置,画像符号化プログラム,画像復号プログラムおよびそれらの記録媒体
JP2008509630A (ja) * 2004-08-13 2008-03-27 インダストリー・アカデミック・コーオペレーション・ファウンデーション・キョンヒ・ユニヴァーシティ パノラマ画像の動き推定及び補償のために仮想画像領域を生成する方法及び装置

Also Published As

Publication number Publication date
CN115243040A (zh) 2022-10-25
CN108293110A (zh) 2018-07-17
JP2019502298A (ja) 2019-01-24
US20180359487A1 (en) 2018-12-13
US10701396B2 (en) 2020-06-30
EP3383039A4 (en) 2019-04-17
EP3383039A1 (en) 2018-10-03
JP6937302B2 (ja) 2021-09-29
WO2017090988A1 (ko) 2017-06-01
CN108293110B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
JP6937302B2 (ja) 多視点ビデオの符号化/復号化方法
US11843866B2 (en) Image data encoding/decoding method and apparatus
US11470251B2 (en) Method and apparatus for reconstructing 360-degree image according to projection format
US11863732B1 (en) Image data encoding/decoding method and apparatus
US11539979B2 (en) Method and apparatus of encoding/decoding image data based on tree structure-based block division
KR20230143623A (ko) 인터 예측 모드 기반 영상 처리 방법 및 이를 위한 장치
US11831916B1 (en) Method and apparatus of encoding/decoding image data based on tree structure-based block division
KR20240049530A (ko) 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
US20240031682A1 (en) Image data encoding/decoding method and apparatus
KR20170059902A (ko) 다시점 비디오의 부호화/복호화 방법 및 장치
US12003771B2 (en) Method and apparatus of encoding/decoding image data based on tree structure-based block division
KR20200085678A (ko) 프로젝션 포맷 변환에 따른 왜곡에 대한 움직임 정보 예측 보정 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230907

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240408

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240527