JP6837056B2 - ライトフィールドベースの画像を符号化及び復号する方法及び機器並びに対応するコンピュータプログラム製品 - Google Patents

ライトフィールドベースの画像を符号化及び復号する方法及び機器並びに対応するコンピュータプログラム製品 Download PDF

Info

Publication number
JP6837056B2
JP6837056B2 JP2018513495A JP2018513495A JP6837056B2 JP 6837056 B2 JP6837056 B2 JP 6837056B2 JP 2018513495 A JP2018513495 A JP 2018513495A JP 2018513495 A JP2018513495 A JP 2018513495A JP 6837056 B2 JP6837056 B2 JP 6837056B2
Authority
JP
Japan
Prior art keywords
pixel
prediction mode
bidirectional prediction
predicted
pixel block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018513495A
Other languages
English (en)
Other versions
JP2018530963A (ja
JP2018530963A5 (ja
Inventor
ソロウ,ドミニク
ペンドゥ,ミカエル ル
ペンドゥ,ミカエル ル
アラン,マーティン
ターカン,メフメット
Original Assignee
インターデジタル ヴイシー ホールディングス, インコーポレイテッド
インターデジタル ヴイシー ホールディングス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターデジタル ヴイシー ホールディングス, インコーポレイテッド, インターデジタル ヴイシー ホールディングス, インコーポレイテッド filed Critical インターデジタル ヴイシー ホールディングス, インコーポレイテッド
Publication of JP2018530963A publication Critical patent/JP2018530963A/ja
Publication of JP2018530963A5 publication Critical patent/JP2018530963A5/ja
Application granted granted Critical
Publication of JP6837056B2 publication Critical patent/JP6837056B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/15Data rate or code amount at the encoder output by monitoring actual compressed data size at the memory before deciding storage at the transmission buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Description

本開示は、ライトフィールドイメージングに関し、特にライトフィールドデータを取得し、処理する技術に関する。より正確には、本開示は、一般に、ライトフィールドベースの画像を符号化及び復号する方法及び機器に関し、画像又はビデオ符号化/復号の分野に用途を見い出す。
このセクションは、技術の様々な態様を読者に紹介するように意図されており、それらの様々な態様は、以下で説明され且つ/又は特許請求される本開示の様々な態様と関連し得る。この説明は、本発明の様々な態様のよりよい理解を容易にするために、読者に背景情報を提供する際に役立つと信じられる。従って、これらの記述が、この観点で読まれるべきであり、先行技術の承認として読まれるべきでないことを理解されたい。
従来の画像捕捉装置は、3次元シーンを2次元センサ上にレンダリングする。動作中に、従来の捕捉装置は、装置内の光センサ(又は光検出器)に到達する光の量を反映する2次元(2D)画像を捕捉する。しかしながら、この2D画像は、光センサに到達する光線の方向分布に関する情報(ライトフィールドとも呼ばれ得る)を含まない。例えば、深度は、取得中に失われる。そのため、従来の捕捉装置は、シーンからの光の分布に関する情報のほとんどを記憶しない。
ライトフィールド捕捉装置(「ライトフィールドデータ取得装置」とも呼ばれる)は、シーンの異なる視点から光を捕捉することによって、そのシーンの4次元(4D)ライトフィールドを測定するように設計されている。そのため、光センサと交差する光の各ビームに沿って進行する光の量を測定することによって、これらの装置は、後処理により新しいイメージングアプリケーションをもたらすために、追加の光学情報(光線束の方向分布に関する情報)を捕捉することができる。ライトフィールド捕捉装置によって捕捉/取得された情報は、ライトフィールドデータと呼ばれる。ライトフィールド捕捉装置は、本明細書において、ライトフィールドデータを捕捉できる任意の装置として定義される。幾つかのタイプのライトフィールド捕捉装置が存在する。その中には、米国特許出願公開第2013/0222633号なる文献に説明されているような、画像センサとメインレンズとの間に配置されたマイクロレンズアレイ及びカメラアレイを使用し、全てのカメラが単一の共有画像センサ上に結撮する、プレノプティックデバイスがある。
ライトフィールドデータはまた、従来のハンドヘルドカメラの使用によって相異なる視点からそれぞれ撮られたシーンの一連の2D画像から、コンピュータ生成画像(CGI)を用いてシミュレーションされてもよい。
ライトフィールドデータの処理は、特に限定するものではないが、シーンのリフォーカスされた画像を生成すること、シーンの斜視図を生成すること、シーンの深度マップを生成すること、拡張被写界深度(EDOF)画像を生成すること、立体画像を生成すること、及び/又はこれらの任意の組み合わせを含む。
本開示は、“Light field photography with a hand-held plenoptic camera” Standford University Computer Science Technical Report CSTR 2005-02, no. 11 (April 2005)においてR.Ngらによって開示された、図1に示されているようなプレノプティックデバイスによって捕捉されたライトフィールドベースの画像に一層正確に焦点を合わせる。
かかるプレノプティックデバイスは、メインレンズ(11)、マイクロレンズアレイ(12)、及び光センサ(13)から構成されている。より正確には、メインレンズは、マイクロレンズアレイ上に(又は近くに)被写体をフォーカスする。マイクロレンズアレイ(12)は、その背後の光センサ(13)上の画像へと収束光線を分離する。
マイクロ画像(14)は、http://www.tgeorgiev.net/によって開示された図2によって示されているような、マイクロレンズアレイ(12)における検討されるマイクロレンズの背後の光センサ上に形成された画像であり、左側の画像は、生データに対応し、右側の画像は、特にカモメの頭を表すマイクロ画像の詳細に対応する。マイクロ画像解像度及びその数は、センサに対するマイクロレンズサイズに依存する。より正確には、マイクロ画像解像度は、デバイス及びアプリケーションに著しく依存して(2×2画素からほぼ100×100画素まで)変化する。
次に、全てのマイクロ画像から、サブアパーチャ画像が再構成されるが、かかる再構成は、一緒に並べられた画素を全てのマイクロ画像から集めることに存する。マイクロレンズが、多ければ多いほど、サブアパーチャ画像の解像度は高い。より正確には、図3によって示されているように、1つのマイクロレンズが、光センサ(15)のN×N画素に重なることを考えると、N×Nビュー行列(17)は、i番目のビューが、L×Lマイクロレンズを含むマイクロレンズアレイ(16)の各マイクロレンズによって重ねられた全てのL×Lのi番目の画素を含むと考えることによって取得され、ここで「×」は、乗算演算子である。
より正確には、図3において、L=8及びN=4であり、従って、第1のビュー300は、検討されるマイクロレンズアレイの64マイクロレンズにおける各マイクロレンズによってカバーされた16画素の第1の画素を含む。
サブアパーチャ画像再構成は、デモザイキングを必要とした。“Light field demultiplexing and disparity estimation” International Conference on Complementary Problems ICCP 2014においてN.Sabaterらによって開示されたものなど、生のプレノプティック材料からビュー行列を回復する技法が、現在開発されている。
プレノプティックデバイスと反対に、Pelican Imaging(登録商標)カメラなどのカメラアレイ装置は、ビュー行列を直接(即ちデモザイキングなしに)送出する。
かかるライトフィールドベースの画像を符号化する最先端の方法は、標準画像又はビデオコーデック(JPEG、JPEG−2000、MPEG4パート10AVC、HEVCなど)を用いることに存する。しかしながら、かかる標準コーデックは、四方八方における空間の全てのポイントで光の量(「放射輝度」)を記録するライトフィールドイメージングの特殊性(プレノプティックデータとしても知られている)を考慮することができない。
実際に、従来の標準画像又はビデオコーデック(JPEG、JPEG−2000、MPEG4パート10AVC、HEVCなど)を適用することによって、従来のイメージングフォーマットが送出される。
しかしながら、これらのより豊富なデータソースによって提供される多くの新しいライトフィールドイメージング機能の中には、コンテンツが捕捉された後でコンテンツを操作する能力がある。これらの操作は、異なる目的、特に芸術的な、タスクベースの、及び法医学的な目的を有してもよい。例えば、ユーザが、ビューアの視野と同様に、焦点、深度フィールド、及びステレオ基線を実時間で変更することが可能であろう。かかる媒体相互作用及び経験は、ライトフィールドベースの画像を符号化/復号するために従来の標準画像又はビデオコーデックを用いることによって得られるであろう従来のイメージングフォーマットでは利用することができない。
従って、先行技術のこれらの欠点を示さない、ライトフィールドベースの画像を符号化/復号する技法を提供することが望ましいであろう。特に、ライトフィールドベースの画像から取得された復号画像における興味のある物体のより精細なレンダリングを可能にするであろうかかる技法を提供することが望ましいであろう。
以下は、本開示の幾つかの態様の基本的理解を提供するために、本開示の単純化された概要を提示する。この概要は、本開示の広範囲な概観ではない。それは、本開示の重要な又は不可欠な要素を識別するようには意図されていない。以下の概要は、下記で提供される一層詳細な説明の前置きとして、単純化された形式で、本開示の幾つかの態様を提示するだけである。
本開示は、シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの少なくとも1つの画素ブロックを予測する方法を用いて、先行技術の欠点の少なくとも1つを改善することに着手する。
かかる方法は、プロセッサによって実行され、前記画素ブロックの少なくとも1つの予測すべき画素について
− 前記少なくとも1つの予測すべき画素が属する少なくとも1つのエピポーラ平面画像(EPI)を前記ビュー行列から取得することと、
− 双方向予測モードセットの中で、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、以前に再構成された画素セットから少なくとも1つの最適な双方向予測モードを決定することと、
− 前記少なくとも1つの最適な双方向予測モードを用いて補間を実行することによって、前記少なくとも1つの予測すべき画素の予測値を取得することと、
を含む。
従って、本開示は、シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの少なくとも1つの画素ブロックを予測する、新規で発明的なアプローチに依存する。実際に、本開示は、エピポーラ平面画像内の線形構造の特定の性質から利益を得る。
より正確には、“The Variational Structure of Disparity and Regularization of Light Fields” pp 1003-1010 2013 IEEE Conference on Computer Vision and Pattern Recognitionにおいて、B. Goldlueckeらによって開示されているように、水平(垂直それぞれ)エピポーラ平面画像は、前記ビュー行列のビューの行(列それぞれ)に沿ったビュー行列の全ての画像を互いの上にスタックすることによって構築される2D画像であり、各スタックされたビューの同じ行に沿って(それぞれ各スタックされたビューの同じ列に沿って)取得されたスタックを通るカットに対応する。
水平又は垂直と相異なる別の向きが、対応するEPIを取得するために利用され得ることに留意されたい。
換言すれば、本開示に従って、前記少なくとも1つのエピポーラ平面画像(EPI)は、水平エピポーラ平面画像(EPI)、垂直エピポーラ平面画像(EPI)、又は水平若しくは垂直エピポーラ平面画像に対して角度方向(前記角度方向は、予め決定されるか若しくは決定されない)を示すエピポーラ平面画像(EPI)である。
前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、以前に再構成された画素セットから、双方向予測モードセット(予め決定されるか又は決定されない)の中で、(2つの予測方向に従って)少なくとも1つの最適な双方向予測モードを決定することは、正確に、即ち画素(又は画素ブロックより小さな画素グループ)を用いてビュー間相関を利用できるようにし、それは、H.264標準の予測方法などの先行技術の予測方法では不可能である。
結果として、エピポーラ平面画像に基づいた本開示の予測モードのおかげで、ビュー行列を提供するプレノプティックイメージングの特異性に関してより優れた予測モードを提供することが可能である。
“The Variational Structure of Disparity and Regularization of 4D Light Fields”において、B. Goldlueckeが、符号化/復号プロセス中に画素予測を最適化するためにエピポーラ平面画像を用いることを目指しても提案してもなく、ライトフィールドの4D光線空間におけるより一般的なベクトル値関数の規則化に関係する一貫した視差フィールドを可能にするために、エピポーラ平面画像空間上のベクトル場に対する制約を引き出すようにエピポーラ平面画像を用いることを目指し提案していることに留意されたい。
エピポーラ平面画像を用いることによって、シーンの4次元(4D)ライトフィールドの特性を利用することが可能になる。何故なら、それらの構築が、そのシーンにおける異なる視点、即ち水平エピポーラ平面画像についてのビュー行列の同じ行の、垂直エピポーラ平面画像についてのビュー行列の同じ列の、又は前記ビュー行列の行若しくは列に対して或る角度方向を示す前記ビュー行列の同じビューセットの視点からの光を表すビューをスタックすることに基づくからである。
本開示の第1の実施形態によれば、前記最適な双方向予測モードを決定することは、前記画素ブロックの少なくとも1つの予測すべき画素について
− 各双方向予測モードのエネルギーレベルを取得するために、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、前記以前に再構成された画素セットに、前記双方向予測モードセットの各双方向予測モードを適用することと、
− エネルギーレベルが各双方向予測モードについて取得されたエネルギーレベルの最小の独立変数(argument)である双方向予測モードに対応する前記最適な双方向予測モードを選択することと、
を含む。
換言すれば、各双方向予測モードは、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、以前に再構成された画素セットから、前記少なくとも1つの予測すべき画素の予測値を補間するための2つの反対方向に関連付けられる。
実際に、ライトフィールドは、光線空間上で定義され、且つリッチ構造におけるシーンジオメトリデータを暗黙に表し、それは、そのエピポーラ平面画像上で目に見えるようになる。従って、エピポーラ平面画像は、特定の方向性構造を示す。本開示によれば、選択される最適な双方向予測モードは、検討される画素ブロックの予測すべき画素に使用される、検討されるエピポーラ平面画像の方向性構造に関して最も適合された双方向予測モードに対応する。
第2の実施形態によれば、本開示の予測する方法は、前記画素ブロック内の少なくとも1つの予測すべき画素グループを提供することを更に含み、前記画素グループは、同じ行の、同じ列の、又は前記画素ブロックの行若しくは列に対して或る角度方向を示す少なくとも2つの画素のセットの少なくとも2つの画素を含み、
前記最適な双方向予測モードを決定することは、
− 前記画素グループの少なくとも1つの予測すべき画素について、各双方向予測モードのエネルギーレベルを取得するために、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、前記以前に再構成された画素セットに、前記双方向予測モードセットの各双方向予測モードを適用することと、
− 前記画素グループに属する全ての予測すべき画素に対して同じ最適な双方向予測モードを選択することであって、前記最適な双方向予測モードは、エネルギーレベルが前記画素グループの少なくとも1つの予測すべき画素について取得されたエネルギーレベルの最小の独立変数である双方向予測モードに対応することと、
を含む。
かかる実施形態によれば、実行される選択は、堅牢である。何故なら、単一の最適な双方向予測モードが、前記画素グループに属する予測すべき全ての画素に対して取得され、かかる最適な双方向予測モードが、各双方向予測モードについて、且つ前記グループの少なくとも1つの予測すべき画素について取得されたエネルギーレベルの最小の独立変数であるエネルギーレベルを提示するからである。
換言すれば、選択は、前の実施形態において検討されたエネルギーレベルより多くの取得されたエネルギーレベルを検討することによって行われ、最適な双方向予見モードの選択は、最適な双方向予見モードが、予測すべき画素ごとに取得され、前記画素グループに属する予測すべき全ての画素に対して取得されるのではないように実行される。
前記第2の実施形態の特定の態様によれば、前記双方向予測モードセットは、「DC」双方向予測モードを含み、
前記「DC」双方向予測モードの第1の予測方向と関連する第1の予測値は、前記少なくとも1つのエピポーラ平面画像における前記予測すべき画素グループに隣接する、前記以前に再構成された画素セットの第1の部分に属する画素の平均値であり、
前記「DC」双方向予測モードの第2の予測方向と関連する第2の予測値は、前記少なくとも1つのエピポーラ平面画像における前記予測すべき画素グループに隣接する、前記以前に再構成された画素セットの第2の部分に属する画素の平均値であり、前記第2の部分は、前記第1の部分の相補部分である。
2つの先行する実施形態の特定の態様によれば、前記エネルギーレベルは、
− 前記双方向予測モードセットの各双方向予測モードの各予測方向に関連する各予測値間の絶対差、又は
− 前記双方向予測モードセットの各双方向予測モードの各予測方向に関連する各予測値間の二乗絶対差に対応する。
2つの先行する実施形態の第1の変形によれば、予測すべき1つの画素が属する少なくとも2つのエピポーラ平面画像(EPI)が、水平エピポーラ平面画像(EPI)及び垂直エピポーラ平面画像(EPI)に、又は相異なる角度方向のエピポーラ平面画像(EPI)セットに対応する場合に、
前記最適な双方向予測モードを決定することは、前記水平エピポーラ平面画像(EPI)及び前記垂直エピポーラ平面画像(EPI)について、又は前記相異なる角度方向のエピポーラ平面画像(EPI)セットについて実行され、前記最適な双方向予測モードは、エネルギーレベルが各エピポーラ画像について取得されたエネルギーレベルの最小の独立変数である双方向予測モードに対応する。
2つの先行する実施形態の第2の変形によれば、予測すべき1つの画素が属する少なくとも2つのエピポーラ平面画像(EPI)が、水平エピポーラ平面画像(EPI)及び垂直エピポーラ平面画像(EPI)に、又は相異なる角度方向のエピポーラ平面画像(EPI)セットに対応する場合に、
最適な双方向予測モードは、各エピポーラ画像について決定され、前記少なくとも1つの予測すべき画素の前記予測値は、各エピポーラ画像について決定された前記最適な双方向予測モードを用いることによってそれぞれ取得された少なくとも2つの予測値の平均に対応する。
本発明はまた、シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの少なくとも1つの画素ブロックを符号化する方法に関する。かかる方法は、プロセッサによって実行され、
− 予測された画素ブロックを取得するために、上記で開示されているように、予測する方法に従って前記少なくとも1つの画素ブロックを予測することと、
− 前記少なくとも1つの画素ブロックと前記予測された画素ブロックとの間の差に対応する残余誤差を決定することと、
− 前記画素ブロックに関連する前記残余誤差を符号化することと、
を含む。
前記符号化中に実行される予測は、もちろん、以前に説明されるように、本開示の相異なる実施形態又は変形による予測方法の相異なる特徴を含むことが可能である。
符号化する前記方法の特定の態様によれは、符号化する前記方法は、
− 前記シーンに関連するライトフィールドデータから取得された前記ビュー行列を表す信号に前記残余誤差を挿入することと、
− 前記画素ブロック内の少なくとも1つの予測すべき画素グループを表す情報を前記信号に挿入することと、
を更に含む。
本開示の別の態様は、前記シーンに関連するライトフィールドデータから取得されたビュー行列の前記少なくとも1つの画素ブロックを表す信号に関し、前記信号は、上記で説明されているように、符号化する前記方法によって取得され、前記画素ブロック内の少なくとも1つの予測すべき画素グループを表す情報は、前記信号に挿入される。
本開示の別の態様は、上記のような信号を担持する記録媒体に関する。
本開示の別の態様は、シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの少なくとも1つの画素ブロックを表す信号を復号する方法に関する。
かかる方法は、プロセッサによって実行され、
− 前記画素ブロックに関連する残余誤差を前記信号から復号することと、
− 予測された画素ブロックを取得するために、上記で開示されているように、予測する
方法に従って前記少なくとも1つの画素ブロックを予測することと、
− 前記残余誤差を前記予測された画素ブロックに追加することによって前記少なくとも1つの画素ブロックを再構成することと、
を含む。
復号するかかる方法は、上記の符号化方法に従って符号化された信号を復号するのに特に適している。
このように、同じ予測ステップは、所与のブロックを再構築するために符号化する場合に実行されるステップとして、予測残余(信号で送信された)を予測に任意選択的に追加することによって実行される。
復号する前記方法の特定の態様において、前記画素ブロック内の少なくとも1つの予測すべき画素グループを表す情報を前記信号から抽出することが可能であり、前記予測は、前記情報を考慮する。
本開示の別の態様は、シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの少なくとも1つの画素ブロックを符号化する装置に関し、前記装置は、
− 予測された画素ブロックを取得するために、前記少なくとも1つの画素ブロックを予測するモジュールであって、前記モジュールが、前記画素ブロックの少なくとも1つの予測すべき画素について
○ 前記少なくとも1つの予測すべき画素が属する少なくとも1つのエピポーラ平面画像(EPI)を前記ビュー行列から取得するためのエンティティと、
○ 双方向予測モードセットの中で、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、以前に再構成された画素セットから少なくとも1つの最適な双方向予測モードを決定するためのエンティティと、
○ 前記少なくとも1つの最適な双方向予測モードを用いて補間を実行することによって、前記少なくとも1つの予測すべき画素の予測値を取得するためのエンティティと、を含むモジュールと、
− 前記少なくとも1つの画素ブロックと前記予測された画素ブロックとの間の差に対応する残余誤差を決定するモジュールと、
− 前記画素ブロックに関連する前記残余誤差を符号化するモジュールと、
を制御するように構成されたプロセッサを含む。
かかる符号化装置は、本明細書で上記に説明されているように符号化する方法を実行するために特に適合される。
本開示の別の態様は、シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの少なくとも1つの画素ブロックを表す信号を復号する装置に関し、前記装置は、
− 前記画素ブロックに関連する残余誤差を復号するモジュールと、
− 予測された画素ブロックを取得するために、前記少なくとも1つの画素ブロックを予測するモジュールであって、前記モジュールが、前記画素ブロックの少なくとも1つの予測すべき画素について、
○ 前記少なくとも1つの予測すべき画素と関連する少なくとも1つのエピポーラ平面画像(EPI)を前記ビュー行列から取得するためのエンティティと、
○ 双方向予測モードセットの中で、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、以前に再構成された画素セットから少なくとも1つの最適な双方向予測モードを決定するためのエンティティと、
○ 前記少なくとも1つの最適な双方向予測モードを用いて補間を実行することによって、前記少なくとも1つの予測すべき画素の予測値を取得するためのエンティティと、を含むモジュールと、
− 前記予測された画素ブロックに前記残余誤差を追加することによって、前記少なくとも1つの画素ブロックを再構成するモジュールと、
を制御するように構成されたプロセッサを含む。
かかる復号装置は、本明細書で上記に説明されているような復号する方法を実行するために特に適合される。
従って、本開示は、上記の方法を実行するように構成されたプロセッサを含む装置に関する。
本開示の態様における他の態様によれば、本開示は、コンピュータプログラム製品であって、このプログラムがコンピュータで実行される場合に、上記の方法のステップを実行するプログラムコード命令を含むコンピュータプログラム製品と、少なくとも上記の方法のステップをプロセッサに実行させるための命令を自らに格納したプロセッサ可読媒体と、前記プログラムがコンピューティング装置上で実行される場合に、上記の方法のステップを実行するためのプログラムコード命令を担持する非一時的な記憶媒体と、に関する。
本開示の特定の性質と同様に本開示の他の目的、利点、特徴及び使用は、添付の図面に関連して書かれた実施形態の以下の説明から明らかになろう。
図面には、本開示の実施形態が示されている。
先行技術に関連して既に提示されており、プレノプティックカメラの概念図を示す。 先行技術に関連して既に提示されており、プレノプティックカメラで撮られた画像の例を示す。 先行技術に関連して既に提示されており、カメラセンサ(15)、並びにマイクロレンズアレイ(16)及びビュー行列(17)をそれぞれ示す。 ビュー行列から取得されたエピポーラ平面画像の構築を示す。 本開示に従って予測する方法の主なステップの図を概略的に示す。 本開示の2つの実施形態に従って、最適な双方向予測モードを決定するサブステップの図を概略的に示す。 所与のビューにおける、且つ次に、検討されるエピポーラ平面画像における予測すべき画素の隣接する予測をそれぞれ示す。 所定の双方向予測モードセットの例を示す。 本開示に従って符号化する方法のステップ図を概略的に示す。 本開示に従って復号する方法のステップ図を概略的に示す。 本開示の実施形態に従って装置のアーキテクチャの例を示す。
類似又は同一の要素は、同じ参考番号で載せられている。
1 一般原理
本開示は、ビュー行列のエピポーラ平面画像(EPI)表現に基づいた新しいタイプの予測を実行する、ビュー行列の画像を符号化(又は復号)する、新しい技法を提案する。
より正確には、予測し符号化すべき現在の画素に隣接するエピポーラ平面画像(EPI)における因果関係にある再構成された画素から、双方向予測モード間の最良の方向が見い出され、続いて予測し符号化すべき前記現在の画素の予測値を補間するために用いられる。
従って、本開示において提案されるアプローチは、エピポーラ平面画像(EPI)内の線形構造の特定の性質に対処することができ、結果としてシーンの4次元(4D)ライトフィールドの特性を利用するのに適している。
本開示は、添付の図に関連して以下でより完全に説明され、添付の図には、本開示の実施形態が示されている。しかしながら、この開示は、多くの代替形態で具体化されてもよく、本明細書で明らかにされる実施形態に限定されるように解釈されるべきではない。従って、本開示は、様々な修正及び代替形態の余地があるが、その特定の実施形態が、図面において例として示され、且つ本明細書において詳細に説明される。しかしながら、開示される特定の形態に本開示を限定する意図はなく、それとは反対に、本開示が、特許請求の範囲によって定義されるような本開示の趣旨及び範囲内に入る全ての修正、均等物、及び代替をカバーすることになると理解されたい。
本明細書で用いられる専門用語は、特定の実施形態を説明する目的のためだけにあり、本開示を限定するようには意図されていない。本明細書で用いられるとき、単数形「a」、「an」及び「the」は、文脈が明白に別段のことを示していない限り、同様に複数形を含むように意図されている。「含む(comprises)」、「含む(comprising)」、「含む(includes)」及び/又は「含む(including)」という用語が、この明細書において用いられる場合に、述べられた特徴、整数、ステップ、動作、要素、及び/又はコンポーネントの存在を明示するが、しかし1つ又は複数の他の特徴、整数、ステップ、動作、要素、コンポーネント、及び/又はそれらのグループの存在又は追加を排除しないことを更に理解されたい。更に、要素が、別の要素に「応答する」又は「接続される」と言われる場合に、それは、別の要素に直接応答するか若しくは接続され得るか、又は介在要素が存在してもよい。対照的に、要素が、他の要素に「直接応答する」又は「直接接続される」と言われる場合に、介在要素は存在しない。本明細書で用いられるとき、「及び/又は」という用語は、関連する列挙された用語の1つ又は複数におけるあらゆる全ての組み合わせを含み、「/」と略記されてもよい。
第1の、第2の等の用語が、様々な要素を説明するために本明細書で用いられ得るが、これらの要素が、これらの用語によって限定されるべきでないことを理解されたい。これらの用語は、1つの要素を別の要素から区別するためにのみ用いられる。例えば、本開示の教示から逸脱せずに、第1要素は、第2の要素と名付けることが可能であり、同様に第2の要素は、第1要素と名付けることが可能である。
図の幾つかは、通信の主要な方向を示すために通信経路上の矢印を含むが、通信が、示された矢印の反対方向で行われてもよいことを理解されたい。
幾つかの実施形態は、ブロック図及び動作流れ図に関連して説明され、それらにおいて、各ブロックは、特定の論理機能(単複)を実行するための1つ又は複数の実行可能命令を含む回路素子、モジュール、又はコード部分を表す。他の実装において、ブロックに書かれた機能が、書かれた順序の範囲外で行われてもよいことにもまた留意されたい。例えば、連続して示された2つのブロックは、実際にはほぼ同時に実行されてもよく、又はブロックは、関係する機能に依存して、時には逆の順序で実行されてもよい。
「一実施形態」又は「実施形態」に対する本明細書における言及は、その実施形態に関連して説明される特定の機能、構造又は特徴が、本開示の少なくとも一実装に含まれ得ることを意味する。本明細書の様々な場所での「一実施形態における」又は「実施形態による」という句の出現は、必ずしも全て同じ実施形態を指すわけではなく、必ずしも他の実施形態と相互に排他的な別個又は代替の実施形態であるわけでもない。
請求項に現れる参照数字は、単に実例であり、請求項の範囲に対するどんな限定効果も有しないものとする。
明示的には説明されていないが、本実施形態及び変形は、任意の組み合わせ又はサブ組み合わせで用いられてもよい。
本開示は、ビュー行列のビューにおける画素ブロックを符号化/復号するために説明されるが、しかしビュー行列のシーケンス(プレノプティックビデオ)の符号化/復号まで及ぶ。何故なら、前記シーケンスに属する各ビュー行列における各ビューが、以下で説明されるように連続して符号化/復号されるからである。
2 予測方法
図5は、本開示に従って予測する方法(50)の主なステップの図を概略的に示し、前記方法は、予測するモジュールによって実行される。
本開示によれば、図3に表されているように、シーンに関連するライトフィールドデータから取得されたビュー行列(17)に属するビューの少なくとも1つの画素ブロック(170)を予測する方法(50)は、プロセッサによって実行され、第1に、前記画素ブロックにおける少なくとも1つの予測すべき画素について、取得用のエンティティを用いることによって、前記少なくとも1つの予測すべき画素に関連する少なくとも1つのエピポーラ平面画像(EPI)を取得すること(51)を含む。少なくとも1つの予測すべき画素は、少なくとも1つのエピポーラ平面画像(EPI)に属する。
前記取得(51)は、図4によって示され、“The Variational Structure of Disparity and Regularization of 4D Light Fields” pp 1003-1010 2013 IEEE Conference on Computer Vision and Pattern RecognitionにおいてB. Goldlueckeらによって開示されている。
ビュー行列(17)は、シーン(4000)の画像の収集として4Dライトフィールドを表し、カメラの焦点は、2D平面にある。
エピポーラ平面画像の取得(51)は、視点の行(40)に沿って全ての画像を互いの上にスタックすることに存する。即ち、行(40)の第1の画像(41)が、矢印(410)によって表されているようにスタック(400)の上にあるのに対して、行(40)の最後の画像(42)は、矢印(420)によって表されているように、スタック(400)の下にある。次に、このスタック(400)を通るカット(401)は、各ビューの同じ行(43)に沿って実行される。かかるカットは、水平エピポーラ平面画像(EPI)である。
換言すれば、それぞれ行及び列におけるインデックスv、uのB×Dビュー(図4においてB=D=5)で構成されるビュー行列、並びにそれぞれ行及び列におけるインデックスt、sのサイズL×C画素の各ビューを検討すると、図4に表されているように、サイズL×Cのv=0、...、B−1を備えた水平EPI
Figure 0006837056

は、全てのv番目のサブ画像のt番目の行をスタックすることによって実現される。換言すれば、エピポーラ平面画像は、ビュー行列(17)の(u、v)平面の行(固定されたv座標は行(40)に対応する)に沿った全てのビューからビューの行(固定されたt座標はビューの行(43)に対応する)を重ねてスタックすることによって構築された2D画像である。
同様に、サイズL×Bのu=0、...D−1を備えた垂直EPI
Figure 0006837056

は、全てのu番目のサブ画像のs番目の列をスタックすることによって実現される。
水平又は垂直と異なる別の向きが、対応するEPIを取得するために用いられ得ることに留意されたい。
従って、提案される開示は、少なくとも1つのエピポーラ平面画像の所与のビュー行列にのうちのビューの、予測すべき検討される画素ブロックの、少なくとも1つの予測すべき画素について規定する。
前記少なくとも1つのエピポーラ平面画像(EPI)は、水平エピポーラ平面画像(EPI)、垂直エピポーラ平面画像(EPI)、又は水平若しくは垂直エピポーラ平面画像に対して所定の角度方向を示すエピポーラ平面画像(EPI)とすることができる。
予測すべき検討される画素は、水平エピポーラ平面画像(EPI)及び垂直エピポーラ平面画像(EPI)に、又は相異なる角度方向のエピポーラ平面画像(EPI)セットに対応する少なくとも2つのエピポーラ平面画像(EPI)に属し得ることに留意されたい。
ひとたび少なくとも1つのエピポーラ平面画像が、予測すべき検討される画素について取得(51)されると、所定の双方向予測モードセットの中で、且つ前記少なくとも1のエピポーラ平面画像(54)における前記少なくとも1つの予測すべき画素に隣接する、以前に再構成された画素から、少なくとも1つの最適な双方向予測モードを決定すること(52)は、決定用のエンティティを用いて実行される。
前記決定(52)の2つの実施形態は、図6a及び6bにそれぞれ示されている。
より正確には、図6a表されているような第1の実施形態によれば、N画素を含む前記画素ブロックの少なくとも1つの予測すべき画素について、最適な双方向予測モードの選択(62)は、Mの所定の双方向予測モードのセット(6000)の中で実行される。
特に、本開示によれば、かかる選択は、予測すべき検討される画素が属する少なくとも1つのエピポーラ平面画像において、前記少なくとも1つの予測すべき画素に隣接する、以前に再構成された画素のセット(6001)を検討することによって実行される。
所与のビューにおける、次に、検討されるエピポーラ平面画像のみにおける前記少なくとも1つの予測すべき画素の隣接する予測が、図7a及び7bによってそれぞれ示されている。
例えば、図7aは、図4に表されているようなビュー行列(17)におけるビューの行(40)の中間ビュー(44)を表す。
特に、L=6(6行)及びC=13(13列)のサイズL×C画素の前記ビュー(44)において、画素ブロック(70)が検討される。かかるブロック(70)は、例えば、前記ビュー(44)における以前に再構成された画素である、三角形によって表されている画素(71)によって囲まれる。
加えて、本開示に従って有利なことに、予測すべき画素ブロック(70)の画素(701)はまた、太字の点で表された、同様に以前に再構成された水平エピポーラ平面画像における画素(7000)によって囲まれる。かかるエピポーラ平面画像は、シーンの4次元(4D)ライトフィールドの特性を利用できるようにする。
エピポーラ平面画像の取得(51)に関連して前に説明したように、相異なる水平(垂直それぞれ)画像が、検討されるビューの各行(列それぞれ)について取得される。換言すれば、検討されるブロック70の上部行に位置する画素702は、水平エピポーラ平面画像hEPIに属する。
本発明の第1の変形によれば、前記画素ブロック(70)に属する各画素について、予測値は、前記少なくとも1つのエピポーラ平面画像における予測すべき前記画素に隣接する、以前に再構成された画素セットから決定された少なくとも1つの最適な双方向予測モードを用いることによって補間される。
従って、この第1の変形によれば、画素ブロック(70)の予測すべき全ての画素は、エピポーラ平面画像に対応する次元において予測される。
第2の変形によれば、前記画素ブロック(70)に属する画素の第1の部分のみについて、予測値は、前記少なくとも1つのエピポーラ平面画像における予測すべき検討される画素に隣接する、以前に再構成された画素セットから決定された少なくとも1つの最適な双方向予測モードを用いることによって補外される。
ひとたび前記画素ブロック(70)に属する画素の前記第1の部分について、エピポーラ平面画像を用いることによって予測値が取得されると、次に、前記予測値は、予測値がまだ取得されていない、前記画素ブロック(70)に属する画素のもう一方の部分を予測するために用いられる。
予測値がまだ取得されていない、前記画素ブロック(70)に属する画素のもう一方の部分の前記予測は、例えば、H.264標準のイントラ予測モード(しかしながら、このイントラ予測モードに対応するサイド情報がデコーダに送信されることを要求する)から導き出された古典的予測モードを用いることによって、又はより簡単に空間補間(より少ないサイド情報を要求する)を用いることによって、実行される。何故なら、デコーダは、ひとたび、予測すべき画素の一部が、エピポーラ平面画像を用いて再構成されると、かかる空間補間が実行されなければならないことをデフォルトで知ることができるからである。
より正確には、かかる空間補間によれば、予測すべき画素の予測値は、例えば、それに直接的又は非直接的に隣接する2つ以上の画素の値の平均又は重み付けに対応し、前記隣接する画素は、既に再構成されている(71)か又は第1の部分に属し、従って予測値に既に関連付けられている。
例えば、水平(垂直それぞれ)空間補間によれば、予測すべき画素の予測値は、例えば、それに水平(垂直それぞれ)に直接隣接する、予測値に既に関連付けられているか又は既に再構成された2つ以上の画素の値の平均又は重み付けに対応する。
空間補間が実行されるこの場合に、予測値はまた、前記画素ブロック(70)に直接隣接する予測すべき画素について取得され得る(例えば、次の空間補間中に、前記ブロック(70)の予測すべき画素が、空間補間を実行するために要求される、予測値に既に関連付けられているか又は既に再構成されている複数の画素によって隣接されるように、エピポーラ平面画像を用いることによって、予測すべき画素行の予測すべき画素は、前記ブロック(70)の真下に位置する。
従って、この第2の変形によれば、画素ブロック(70)の予測すべき画素の一部は、エピポーラ平面画像に対応する次元で最初に予測され、画素のもう一方の部分は、どんなエピポーラ平面画像も用いずに、ビュー内で実行される空間補間を用いて予測される。
例えば、この第2の変形によれば、予測すべき画素の検討されるブロック(70)に関し、2つの画素の1つに対する予測値は、エピポーラ平面画像から決定された双方向予測モードを用いることによって取得される。
従って、画素ブロック(70)の2つの画素の1つは、予測すべきままである。これらの残りの予測すべき画素について、エピポーラ平面画像を用いることによる予測値の補外は、例えば、検討されるビューの再構成された画素のセット(71)、及びエピポーラ平面画像を用いることによって予測値が取得された前記画素ブロック(70)の画素を用いることによって実行される水平空間補間を例えば用いて、取り替えることができる。
前記画素ブロック(70)における残りの予測すべき画素の幾つかに関し、予測値を取得できない可能性がある。この場合に、予測値が取得された残りの画素における画素は、この場合に垂直補間等を用いることによって、前記ブロック(70)の残りの予測すべき画素などを予測するために、次の繰り返しで用いられる。
双方向予測を考えると、検討されるブロック70の上部行に位置する4つの画素702が、水平エピポーラ平面画像における以前に再構成された画素(7000)に囲まれ、画素(7000)が、2つの部分、即ちこれらの4つの予測すべき画素702の上部hEPItopの部分及び底部hEPIbotの部分に分割され得ることが分かる。
図7bは、水平エピポーラ平面画像hEPIにおける以前に再構成された画素(7000)によって囲まれた検討されるブロック70の第1の行における予測すべき画素702だけを表す。既に説明したように、かかる以前に再構成された画素(7000)の中で、三角形によって表されている幾つかの再構成された画素71は、予測すべき画素702と同じ行における同じビューに属する。予測すべき画素701に隣接する、以前に再構成された画素セット(7000)は、上部のゾーンである部分hEPItop、予測すべき画素701と同じビューに属する再構成された画素71を備えた左側のゾーン、底部のゾーンである部分hEPIbotを含む「Uゾーン」に対応することが分かる。
水平エピポーラ平面画像hEPIにおける予測すべき画素702のかかる環境に関して、本開示は、エピポーラ平面画像の特定の方向特性を利用する新しい双方向予測モードを用いる。
所定の双方向予測モードセットの例が、図8によって示されている。エピポーラ平面画像における以前に再構成された画素を用いる例は、容易に導き出すことが可能である。分かるように、これらの全ての双方向予測モードによれば、2つの予測方向は、エピポーラ平面画像hEPIの上部hEPItop及び底部hEPIbotにそれぞれ位置する、以前に再構成された画素からスタートする2つの矢印によって示されている。
双方向予測モードのかかる例は、H.264標準のイントラ4×4予測によって開示された例と同様であると考えることができるが、しかし本開示によれば、かかるモードは、エピポーラ平面画像における、以前に再構成された画素を用いることによって定義され、それが、シーンの4次元(4D)ライトフィールドの特性を利用できるようにすることに十分留意されたい。
加えて、H.264のイントラ4×4予測のモード1が、双方向予測モードに向けられた本開示による予測に適合されないことが分かる。
各所定の双方向予測モードの各予測方向に関連する輝度の予測値は、次のように構築される(図8を参照)。
− 各モードの上部方向(即ち、エピポーラ平面画像hEPIの上部hEPItop及び底部hEPIbotにそれぞれ位置する、以前に再構成された画素からスタートする矢印)
Figure 0006837056

これらの式で、
● 「p(x,y)」は、図7bの4つの画素701についてそれぞれの座標(0,0)、(1,0)、(2,0)及び(3,0)における予測すべき現在の画素であり、
● 「」は、乗算演算子に対応し、
● 「>>n」は、2による整数除算である。
本開示による予測の方向が、図8に表されているような8つの方向に制限されないことに留意されたい。他の方向が、予測値を取得するための適合式で可能である。
図6aに表されているような決定(52)の第1の実施形態に関して、かかる決定(52)は、各双方向予測モードのエネルギーレベルを取得するために、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、前記以前に再構成された画素セット(7000)に、前記所定の双方向予測モードセットの各所定の双方向予測モードを適用すること(61)を含む。
かかるエネルギーレベルは、各双方向予測モードに関連する2つの方向(即ち上部hEPItopから来る矢印及び底部hEPIbotから来るもう一方の矢印)間の空間勾配に対応する。
空間勾配のエネルギーレベルを計算するステップは、前記少なくとも1つの予測すべき画素(701)に隣接する、以前に再構成された画素において実行され、前記エネルギーレベルは、
− 前記所定の双方向予測モードセットの各所定の双方向予測モードにおける各予測方向に関連する各予測値間の絶対差
Figure 0006837056

又は
− 前記所定の双方向予測モードセットの各所定の双方向予測モードの予測方向に関連する各予測値間の二乗絶対差
Figure 0006837056


に対応する。
ひとたび各双方向予測モードの(例えば図8におけるM(M=8)予測モード間のインデックスjの)エネルギーレベルが取得されると(61)、次に、最適な双方向予測モードが選択される。
かかる選択(63)は、より低いエネルギーレベルを備えた空間勾配を有する方向を検出することからなり、かかるエネルギーレベルは、上記で説明されているような電位輪郭(potential contours)に対して共線的に計算される。
換言すれば、最適な双方向予測モードは、エネルギーレベルが、
Figure 0006837056

など、各双方向予測モードについて取得されたエネルギーレベルの最小の独立変数である双方向予測モードに対応する。
実際に、エピポーラ平面画像における予測すべき画素に隣接する輪郭が、垂直輪郭である場合に、輝度予測値
Figure 0006837056

及び輝度予測値
Figure 0006837056

は、接近し、非常に低いエネルギー値Eにつながる。
図6aの第1の実施形態に関し、(前記画素ブロックのN画素間におけるインデックスiの)少なくとも1つの予測すべき画素について、最適な双方向予測モードの選択(62)が、Mの所定の双方向予測モードセット(6000)の中で実行される。
図6bによって示されている第2の実施形態によれば、本開示の予測する方法は、前記画素ブロックB_Pix内の少なくとも1つの予測すべき画素グループG_Pixを提供すること(60)を更に含み、前記画素グループG_Pixは、前記画素ブロックの行又は列に対して所定の角度方向を示す同じ行の、同じ列の、又は少なくとも2つの画素のセットの少なくとも2つの画素Pgを含む。
以下において、前記画素グループG_Pixが、G画素を含むことが考えられる。例えば、かかる画素グループG_Pixは、図7bに表されているように、同じ行の4つの予測すべき画素Pg702に対応することができる。
図6bの第2の実施形態は、図6aの第1の実施形態と選択ステップ(6200)が異なる。実際に、第2の実施形態によれば、同じ最適な双方向予測モードが、前記画素グループに属する全ての予測すべき画素に対して選択され(6200)、前記最適な双方向予測モードは、エネルギーレベルが前記画素グループの少なくとも1つの予測すべき画素について取得されたエネルギーレベルの最小の独立変数である双方向予測モードに対応する。
換言すれば、この第2の実施形態では、最適な双方向予測モードは、M×Gエネルギーレベルを考慮することによって、前記画素グループG_Pixに属する全ての画素に対して選択されるのに対して、第1の実施形態では、最適な双方向予測モードは、Mエネルギーレベルを考慮することによって、予測すべき画素ごとに選択される。
前記画素ブロックB_Pix内の少なくとも1つの予測すべき画素グループG_Pixを提供する(60)この第2の実施形態の特定の態様によれば、前記所定の双方向予測モードセット(6000)は、「DC」双方向予測モードに対応するモード2を更に含み、前記「DC」双方向予測モードの第1の予測方向に関連する第1の予測値
Figure 0006837056

は、前記少なくとも1つのエピポーラ平面画像における前記予測すべき画素グループG_Pixに隣接する、前記以前に再構成された画素セット(7000)の上部hEPItopに属する画素の平均値であり、前記「DC」双方向予測モードの第2の予測方向に関連する第2の予測値
Figure 0006837056

は、前記少なくとも1つのエピポーラ平面画像における前記予測すべき画素グループG_Pixに隣接する、前記以前に再構成された画素セット(7000)の底部hEPIbotに属する画素の平均値であり、前記第2の部分は、前記第1の部分の相補部分である。
図6a及び6bによって示されているこれらの2つの実施形態の第1の変形によれば、少なくとも2つのエピポーラ平面画像(EPI)が、水平エピポーラ平面画像(EPI)及び垂直エピポーラ平面画像(EPI)に、又は相異なる角度方向のエピポーラ平面画像(EPI)セットに対応し、それに予測すべき1つの画素が属する場合に、前記最適な双方向予測モードの決定(52)は、前記水平エピポーラ平面画像(EPI)及び前記垂直エピポーラ平面画像(EPI)について、又は相異なる角度方向のエピポーラ平面画像(EPI)セットについて実行され、前記最適な双方向予測モードは、エネルギーレベルが、
Figure 0006837056

など、各エピポーラ平面画像について取得されたエネルギーレベルの最小の独立変数である双方向予測モードに対応する。
同じ事例において、2つの先行する実施形態の第2の変形によれば、最適な双方向予測モードは、各エピポーラ平面画像について決定され(52)、前記少なくとも1つの予測すべき画素の前記予測値は、各エピポーラ平面画像について決定された前記最適な双方向予測モードを用いることによってそれぞれ取得された少なくとも2つの予測値の平均に対応する。
ひとたび少なくとも1つの最適な双方向予測モードが、図6a及び6bによって示されている2つの実施形態の1つに従って決定される(52)と、前記少なくとも1つの予測すべき画素の輝度予測値ppred(x,y)が、次のように、前記少なくとも1つの最適な双方向予測モードを用いて補間を実行することによって取得される(53)。
Figure 0006837056
前記補間は、補間用のエンティティによって実行される。
第1の実施形態を検討すると、例えば、モード0(dopt=0)、3(dopt=3)、5(dopt=5)及び8(dopt=8)は、座標(0,0)、(1,0)、(2,0)及び(3,0)の予測すべき画素についてそれぞれ選択される。
● p(0,0)=p=(p(0,−1)+p(0,1)+1)>>1
● p(1,0)=p=((p(1,−1)+2p(2,−1)+p(3,−1)+2)>>2+(p(1,1)+2p(0,1)+p(−1,1)+2)>>2+1)>>1
● p(2,0)=p=((p(1,−1)+p(2,−1)+1)>>1+(p(3,+1)+p(2,1)+1) >>1+1)>>1
● p(3,0)=p=((p(4,−1)+2p(5,−1)+p(6,−1)+2)>>2+(p(2,1)+2p(1,1)+p(0,1)+2)>>2+1)>>1
又は
● p(1,0)=p=(p(1,−1)+2p(2,−1)+p(3,−1)+p(1,1)+2p(0,1)+p(−1,1)+4)>>3
● p(2,0)=p=(p(1,−1)+p(2,−1)+p(3,+1)+p(2,1)+2)>>2
● p(3,0)=p=(p(4,−1)+2p(5,−1)+p(6,−1)+p(2,1)+2p(1,1)+p (0,1)+4)>>3
第2の実施形態を検討すると、例えば、シングルモード0(dopt=0)は、座標(0,0)、(1,0)、(2,0)及び(3,0)の4つの予測すべき画素についてそれぞれ選択される。
● p(0,0)=p=(p(0,−1)+p(0,1)+1)>>1
● p(1,0)=p=(p(1,−1)+p(1,1)+1)>>1
● p(2,0)=p=(p(2,−1)+p(2,1)+1)>>1及び
● p(3,0)=p=(p(3,−1)+p(3,1)+1)>>1
3 符号化方法
前に説明したような予測技法は、ビュー行列エンコーダによって用いることができる。実際に、本開示は、ビュー行列の画像を符号化(復号それぞれ)する方法を提供することを目標とし、この目標は、上記で開示されているように、ビュー行列のエピポーラ平面画像(EPI)表現に基づいた新しいタイプの予測を用いる。
エピポーラ平面画像(EPI)に基づいたかかる新しいタイプの予測は、例えば、“Lagrange Multiplier Selection in Hybrid Video Coder Control” pp 542-545 vol.3 IEEE International Conference on Image processing 2001においてT. Wiegandらによって開示されているようなレート歪み最適化基準を用いて、他の古典的なタイプの予測の中で自動的に選択される。
図9を参照すると、特定の一実施形態において、かかるエンコーダは、シーンに関連するライトフィールドデータから取得されたビュー行列について以下のステップを実行する。
− 予測された画素ブロックを取得するために、上記のような予測する方法に従って、前記少なくとも1つの画素ブロックを予測すること(50)と、
− 決定するモジュールを用いることによって、前記少なくとも1つの画素ブロックと前記予測された画素ブロックとの間の差に対応する残余誤差を決定すること(101)と、
− 符号化するモジュールを用いることによって、前記画素ブロックに関連する前記残余誤差を符号化すること(102)と、
である。
符号化(102)中に、残余誤差は、変換され、量子化され、最終的にエントロピー符号化される。
任意選択的に(点線で表されているように)、符号化する方法は、
− 前記シーンに関連するライトフィールドデータから取得された前記ビュー行列を表す信号における前記符号化された残余誤差を補間すること(103)と、
− 前記画素ブロック内の少なくとも1つの予測すべき画素グループを表す情報を前記信号に挿入すること(104)と、
を更に含む。
特に、かかる選択肢は、予測方法の第2の実施形態が実行される場合に実施される。従って、前記画素ブロック内の少なくとも1つの予測すべき画素グループを表す情報を含む特定の信号が取得される。
4 復号方法
ここで図10を参照すると、ビュー行列を復号するのに適したデコーダにおいて実施される復号の主なステップが示されている。
デコーダが、例えば上記の符号化方法に従って符号化されたビュー行列を表す信号を受信すると仮定される。
図9は、信号が、前記画素ブロック内の少なくとも1つの予測すべき画素グループを表す少なくとも1つの予測残余及び情報を任意選択的に(点線で表されているように)含む復号方法を示す。
従って、この実施形態において、本発明による復号方法は、
− 復号するモジュールを用いて、前記信号から、前記画素ブロックに関連する残余誤差を復号すること(111)と、
− 予測するモジュールを用いることによって、予測された画素ブロックを取得するために、請求項1〜8のいずれか一項に記載の予測方法に従って、前記少なくとも1つの画素ブロックを予測すること(112)と、
− 再構成するモジュールを用いることにより、前記予測された画素ブロックに前記残余誤差を追加することによって前記少なくとも1つの画素ブロック再構成すること(113)と、
を含み、
前記画素ブロック内の少なくとも1つの予測すべき画素グループを表す情報を前記信号から抽出すること(114)であって、前記予測が、前記情報を考慮することを更に含む。
復号(111)中に、残余誤差は、符号化中に実行されたプロセスに相互的に逆変換され逆量子化される。
5 予測するモジュールの構造、エンコーダ、及びデコーダ
図5、6a及び6b、9及び10において、モジュールは、機能ユニットであり、それらは、区別可能な物理ユニットと関連してもしなくてもよい。例えば、これらのモジュール又はそれらの幾つかは、ユニークなコンポーネント若しくは回路にまとめられるか、又はソフトウェアの機能に寄与してもよい。反対に、幾つかのモジュールは、潜在的に別個の物理的エンティティから構成されてもよい。本開示と適合する機器は、例えば、それぞれ<<特定用途向け集積回路>>、<<フィールドプログラマブルゲートアレイ>>、<<超大型集積回路>>であるASIC、FPGA若しくはVLSIなどの専用ハードウェアを用いる純粋なハードウェアを使用して、又は装置に埋め込まれた幾つかの集積電子コンポーネント若しくはハードウェア及びソフトウエアコンポーネントの混合から実現される。
図11は、図1−8に関連して説明された予測方法、図9に関連する符号化方法、又は図10に関連する復号方法を実行するように構成され得る装置1300の例示的なアーキテクチャを表す。
装置1300は、データ及びアドレスバス1301によって一緒に連結される以下の要素を含む。
− 例えばDSP(又はデジタル信号プロセッサ)であるマイクロプロセッサ1303(又はCPU)と、
− ROM(又は読み出し専用メモリ)1302と、
− RAM(又はランダムアクセスメモリ)1304と、
− アプリケーションからのデータの送信及び/又は受信用のI/Oインターフェース1305と、
− バッテリ1306と、
を含む。
変形によれば、バッテリ1306は、装置の外部にある。図11のこれらの要素のそれぞれは、当業者に周知であり、これ以上は開示されない。言及されるメモリのそれぞれにおいて、本明細書において用いられる<<レジスタ>>という用語は、小容量(数ビット)のエリア、又は非常に大きなエリア(例えば、プログラム全体か、多量の受信データ若しくは復号データ)に対応することができる。ROM1302は、少なくともプログラム及びパラメータを含む。本開示による方法のアルゴリズムは、ROM1302に格納される。スイッチが入れられると、CPU1303は、RAMにおけるプログラムをアップロードし、対応する命令を実行する。
RAM1304は、装置1300の電源投入後にCPU1303によって実行され、アップロードされるレジスタにおけるプログラムと、レジスタにおける入力データと、レジスタにおける方法の相異なる状態における中間データと、レジスタにおける方法の実行に用いられる他の変数と、を含む。
本明細書で説明される実装は、例えば、方法若しくはプロセス、機器、ソフトウェアプログラム、データストリーム、又は信号において実施されてもよい。(例えば、方法又は装置としてのみ論じられている)実装の単一形態の文脈で論じられているだけであっても、論じられる特徴の実装はまた、他の形態(例えばプログラム)で実施されてもよい。機器は、例えば適切なハードウェア、ソフトウェア、及びファームウェアにおいて実現されてもよい。方法は、例えばコンピュータ、マイクロプロセッサ、集積回路、又はプログラマブル論理装置を含む、一般に処理装置を指す例えばプロセッサなどの例えば機器で実行されてもよい。プロセッサはまた、例えばコンピュータ、携帯電話、ポータブル/携帯情報端末(「PDA」)、及びエンドユーザ間の情報の通信を促進する他の装置などの通信装置を含む。
符号化又はエンコーダの特定の実施形態によれば、前記ビュー行列は、ソースから取得される。例えば、ソースは、
− ローカルメモリ(1302又は1304)、例えばビデオメモリ又はRAM(即ちランダムアクセスメモリ)、フラッシュメモリ、ROM(即ち読み出し専用メモリ)、ハードディスクと、
− 記憶インターフェース、例えば、大容量記憶装置、RAM、フラッシュメモリ、ROM、光ディスク又は磁気サポートを備えたインターフェースと、
− 通信インターフェース(1305)、例えば有線インターフェース(例えば、バスインターフェース、ワイドエリアネットワークインターフェース、ローカルエリアネットワークインターフェース)、又は無線インターフェース(IEEE802.11インターフェース若しくはBluetooth(登録商標)インターフェースなど)と、
− 画像捕捉回路(例えばCCD(即ち電荷結合素子)又はCMOS(即ち相補型金属酸化膜半導体)などの例えばセンサ)と、
を含むセットに属する。
復号又はデコーダの相異なる実施形態によれば、復号されたビュー行列は、宛先に送信される。特に、宛先は、
− ローカルメモリ(1302又は1304)、例えばビデオメモリ又はRAM(即ちランダムアクセスメモリ)、フラッシュメモリ、ROM(即ち読み出し専用メモリ)、ハードディスクと、
− 記憶インターフェース、例えば大容量記憶装置、RAM、フラッシュメモリ、ROM、光ディスク又は磁気サポートを備えたインターフェースと、
− 通信インターフェース(1305)、例えば有線インターフェース(例えば、バスインターフェース、ワイドエリアネットワークインターフェース、ローカルエリアネットワークインターフェース)、又は無線インターフェース(IEEE802.11インターフェース若しくはBluetooth(登録商標)インターフェースなど)と、
− ディスプレイと、
を含むセットに属する。
符号化又はエンコーダの相異なる実施形態によれば、前記エンコーダによって送出されたビットストリームは、宛先に送信される。例として、前記ビットストリームは、ローカル又は遠隔メモリ、例えばビデオメモリ(1304)又はRAM(1304)、ハードディスク(1302)に格納される。変形において、前記ビットストリームは、記憶インターフェース、例えば大容量記憶装置、フラッシュメモリ、ROM、光ディスク、若しくは磁気サポートを備えたインターフェースに送信され、且つ/又は通信インターフェース(1305)、例えば二地点間リンク、通信バス、ポイントツーマルチポイントリンク、若しくはブロードキャストネットワークへのインターフェースを通じて送信される。
復号又はデコーダの相異なる実施形態によれば、ビットストリームは、ソースから取得される。典型的には、ビットストリームは、ローカルメモリ、例えばビデオメモリ(1304)、RAM(1304)、ROM(1302)、フラッシュメモリ(1302)、ハードディスク(1302)から読み出される。変形において、ビットストリームは、記憶インターフェース、例えば大容量記憶装置、RAM、ROM、フラッシュメモリ、光ディスク、若しくは磁気サポートを備えたインターフェースから受信され、且つ/又は通信インターフェース(1305)、例えば二地点間リンク、通信バス、ポイントツーマルチポイントリンク、若しくはブロードキャストネットワークへのインターフェースを通じて受信される。
本明細書で説明される様々なプロセス及び特徴の実装は、様々な相異なる装置又はアプリケーションにおいて具体化されてもよい。かかる装置の例には、エンコーダ、デコーダ、デコーダからの出力を処理するポストプロセッサ、エンコーダに入力を供給するプリプロセッサ、ビデオコーダ、ビデオデコーダ、ビデオコーデック、ウェブサーバ、セットトップボックス、ラップトップ、パーソナルコンピュータ、携帯電話、PDA、及び画像を処理する任意の他の装置又はビデオ若しくは他の通信装置を含む。明らかであろうが、装置は、モバイルであってもよく、モバイル車両に設置さえされてもよい。
加えて、方法は、プロセッサによって実行される命令によって実行されてもよく、かかる命令(及び/又は実装によって生成されるデータ値)は、コンピュータ可読記憶媒体上に格納されてもよい。コンピュータ可読記憶媒体は、1つ又は複数のコンピュータ可読媒体(単複)に具体化される、且つコンピュータによって実行可能なコンピュータ可読プログラムコードを自らに具体化したコンピュータ可読プログラム製品の形態を取ることができる。本明細書で用いられているようなコンピュータ可読記憶媒体は、非一時的な記憶媒体であって、情報を自らに格納する固有の能力と同様に、そこからの情報の検索を提供する固有の能力を与えられた非一時的な記憶媒体と考えられる。コンピュータ可読記憶媒体は、限定するわけではないが、例えば、電子、磁気、光、電磁気、赤外線、半導体システム、機器、若しくは装置、又はそれらの任意の適切な組み合わせとすることができる。本原理が適用され得るコンピュータ可読記憶媒体のより具体的な例を提供するが、以下が、単に実例であり、当業者によって容易に認識されるように、包括的リストではないことを理解されたい。即ち、ポータブルコンピュータディスケット、ハードディスク、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROM若しくはフラッシュメモリ)、ポータブルコンパクトディスク読み出し専用メモリ(CD−ROM)、光記憶装置、磁気記憶装置、又はそれらの任意の適切な組み合わせである。
命令は、プロセッサ可読手段に実体的に具体化されるアプリケーションプログラムを形成してもよい。
命令は、例えば、ハードウェア、ファームウェア、ソフトウェア、又は組み合わせに存在してもよい。命令は、例えば、オペレーティングシステム、別個のアプリケーション、又はそれら2つの組み合わせに見い出されもよい。従って、プロセッサは、例えば、プロセスを実行するように構成された装置及びプロセスを実行するための命令を有するプロセッサ可読媒体(記憶装置など)を含む装置の両方として特徴付けられてもよい。更に、プロセッサ可読媒体は、命令に加えて又は命令の代わりに、実装によって生成されたデータ値を格納してもよい。
当業者には明らかであろうように、実装は、例えば格納又は送信され得る情報を担持するようにフォーマットされた様々な信号を生成してもよい。情報は、例えば、方法、又は説明された実装の1つによって生成されたデータを実行するための命令を含んでもよい。例えば、信号は、説明された実施形態のシンタックスを書き込むか若しくは読み出すための規則をデータとして担持するように、又は説明された実施形態によって書き込まれた実際のシンタックス値をデータとして担持するようにフォーマットされてもよい。かかる信号は、例えば、電磁波として(例えばスペクトルの無線周波数部分を用いる)、又はベースバンド信号としてフォーマットされてもよい。フォーマッティングは、例えば、データストリームの符号化、及び符号化されたデータストリームを備えたキャリアの変調を含んでもよい。信号が担持する情報は、例えばアナログ又はデジタル情報であってもよい。信号は、周知のように、様々な相異なる有線又は無線リンクを通じて送信されてもよい。信号は、プロセッサ可読媒体上に格納されてもよい。
多数の実装を説明した。しかしながら、様々な修正が、行われ得ることが理解されよう。例えば、相異なる実装の要素は、他の実装を生成するために、組み合わされるか、補足されるか、修正されるか、又は除去されてもよい。加えて、当業者は、他の構造及びプロセスが、開示された構造及びプロセスの代用とされ、結果としての実装が、開示された実装と少なくともほぼ同じ結果(単複)を達成するために、少なくともほぼ同じ方法(単複)で、少なくともほぼ同じ機能(単複)を実行することを理解されよう。従って、これらや他の実装は、本出願によって考えられている。
[付記1]
シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの少なくとも1つの画素ブロックを予測する方法であって、
前記方法が、プロセッサによって実行され、前記画素ブロックの少なくとも1つの予測すべき画素について、
前記少なくとも1つの予測すべき画素が属する少なくとも1つのエピポーラ平面画像(EPI)を前記ビュー行列から取得することと、
双方向予測モードセットの中で、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、以前に再構成された画素セットから少なくとも1つの最適な双方向予測モードを決定することと、
前記少なくとも1つの最適な双方向予測モードを用いて補間を実行することによって、前記少なくとも1つの予測すべき画素の予測値を取得することと、
を含む、予測する方法。
[付記2]
前記最適な双方向予測モードを決定することが、前記画素ブロックの少なくとも1つの予測すべき画素について、
各双方向予測モードのエネルギーレベルを取得するために、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、前記以前に再構成された画素セットに、前記双方向予測モードセットの各双方向予測モードを適用することと、
前記エネルギーレベルが各双方向予測モードについて取得されたエネルギーレベルの最小の独立変数である前記双方向予測モードに対応する前記最適な双方向予測モードを選択することと、
を含む、付記1に記載の予測する方法。
[付記3]
前記画素ブロック内の少なくとも1つの予測すべき画素グループを提供することであって、前記画素グループが、同じ行の、同じ列の、又は前記画素ブロックの行若しくは列に対して或る角度方向を示す少なくとも2つの画素のセットの少なくとも2つの画素を含み、
前記最適な双方向予測モードを決定することが、
前記画素グループの少なくとも1つの予測すべき画素について、各双方向予測モードのエネルギーレベルを取得するために、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、前記以前に再構成された画素セットに、前記双方向予測モードセットの各所定の双方向予測モードを適用することと、
前記画素グループに属する全ての予測すべき画素に対して同じ最適な双方向予測モードを選択することであって、前記最適な双方向予測モードが、前記エネルギーレベルが前記画素グループの少なくとも1つの予測すべき画素について取得されたエネルギーレベルの最小の独立変数である前記双方向予測モードに対応することと、
を含むことを更に含む、付記1に記載の予測する方法。
[付記4]
前記予測すべき1つの画素が属する少なくとも2つのエピポーラ平面画像(EPI)が、水平エピポーラ平面画像(EPI)及び垂直エピポーラ平面画像(EPI)に、又は相異なる角度方向のエピポーラ平面画像(EPI)セットに対応する場合に、
前記最適な双方向予測モードを決定することが、前記水平エピポーラ平面画像(EPI)及び前記垂直エピポーラ平面画像(EPI)について、又は前記相異なる角度方向のエピポーラ平面画像(EPI)セットについて実行され、前記最適な双方向予測モードが、前記エネルギーレベルが少なくとも1つのエピポーラ画像について取得されたエネルギーレベルの最小の独立変数である双方向予測モードに対応する、付記2又は3に記載の予測する方法。
[付記5]
1つの予測すべき画素が属する少なくとも2つのエピポーラ平面画像(EPI)が、水平エピポーラ平面画像(EPI)及び垂直エピポーラ平面画像(EPI)に、又は相異なる角度方向のエピポーラ平面画像(EPI)セットに対応する場合に、
最適な双方向予測モードが、各エピポーラ画像について決定され、前記少なくとも1つの予測すべき画素の前記予測値が、少なくとも2つのエピポーラ画像について決定された前記最適な双方向予測モードを用いることによってそれぞれ取得された少なくとも2つの予測値の平均に対応する、付記2〜4のいずれか一項に記載の予測する方法。
[付記6]
シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの前記少なくとも1つの画素ブロックを符号化する方法であって、前記方法が、プロセッサによって実行され、
予測された画素ブロックを取得するために、付記1〜5のいずれか一項に記載の予測する方法に従って前記少なくとも1つの画素ブロックを予測することと、
前記少なくとも1つの画素ブロックと前記予測された画素ブロックとの間の差に対応する残余誤差を決定することと、
前記画素ブロックに関連する前記残余誤差を符号化することと、
を含む、符号化する方法。
[付記7]
前記シーンに関連するライトフィールドデータから取得された前記ビュー行列を表す信号に前記残余誤差を挿入することと、
前記画素ブロック内の少なくとも1つの予測すべき画素グループを表す情報を前記信号に挿入することと、
を更に含む、付記6に記載の符号化する方法。
[付記8]
シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの少なくとも1つの画素ブロックを表す信号を復号する方法であって、前記方法が、プロセッサによって実行され、
前記画素ブロックに関連する残余誤差を前記信号から復号することと、
予測された画素ブロックを取得するために、付記1〜8のいずれか一項に記載の前記予測する方法に従って、前記少なくとも1つの画素ブロックを予測することと、
前記予測された画素ブロックに前記残余誤差を追加することによって、前記少なくとも1つの画素ブロックを再構成することと、
を含む、復号する方法。
[付記9]
前記画素ブロック内の少なくとも1つの予測すべき画素グループの形成を表す情報を前記信号から抽出することであって、前記予測が前記情報を考慮することを更に含む、付記8に記載の復号する方法。
[付記10]
シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの少なくとも1つの画素ブロックを符号化する装置であって、前記装置が、
予測された画素ブロックを取得するために、前記少なくとも1つの画素ブロックを予測するモジュールであって、前記モジュールが、前記画素ブロックの各予測すべき画素について、
前記少なくとも1つの予測すべき画素が属する少なくとも1つのエピポーラ平面画像(EPI)を前記ビュー行列から取得するためのエンティティと、
双方向予測モードセットの中で、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、以前に再構成された画素セットから少なくとも1つの最適な双方向予測モードを決定するためのエンティティと、
前記少なくとも1つの最適な双方向予測モードを用いて補間を実行することによって、前記少なくとも1つの予測すべき画素の予測値を取得するためのエンティティと、を含むモジュールと、
前記少なくとも1つの画素ブロックと前記予測された画素ブロックとの間の差に対応する残余誤差を決定するモジュールと、
前記画素ブロックに関連する前記残余誤差を符号化するモジュールと、
を制御するように構成されたプロセッサを含む、符号化する装置。
[付記11]
前記シーンに関連するライトフィールドデータから取得された前記ビュー行列を表す信号に前記残余誤差を挿入するモジュールと、
前記画素ブロック内の少なくとも1つの予測すべき画素グループを表す情報を前記信号に挿入するモジュールと、
を更に含む、付記10に記載の符号化する装置。
[付記12]
シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの少なくとも1つの画素ブロックを表す信号を復号する装置であって、前記装置が、
前記画素ブロックに関連する残余誤差を復号するモジュールと、
予測された画素ブロックを取得するために、前記少なくとも1つの画素ブロックを予測するモジュールであって、前記モジュールが、前記画素ブロックの少なくとも1つの予測すべき画素について、
前記少なくとも1つの予測すべき画素が属する少なくとも1つのエピポーラ平面画像(EPI)を前記ビュー行列から取得するためのエンティティと、
双方向予測モードセットの中で、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、前に再構成された画素から少なくとも1つの最適な双方向予測モードを決定するためのエンティティと、
前記少なくとも1つの最適な双方向予測モードを用いて補間を実行することによって、前記少なくとも1つの予測すべき画素の予測値を取得するためのエンティティと、を含むモジュールと、
前記予測された画素ブロックに前記残余誤差を追加することによって、前記少なくとも1つの画素ブロックを再構成するモジュールと、
を制御するように構成されたプロセッサを含む、符号化する装置。
[付記13]
前記画素ブロック内の少なくとも1つの予測すべき画素グループの形成を表す情報を前記信号から抽出するモジュールであって、前記予測が、情報を考慮するモジュールを更に含む、付記12に記載の符号化する装置。
[付記14]
付記1〜5か、6〜7か又は8〜9のいずれか一項に記載の方法を実行するかためのプログラムコード命令を含む、通信ネットワークからダウンロード可能な、並びに/又はコンピュータによって可読な及び/若しくはプロセッサによって実行可能な媒体上に記録されたコンピュータプログラム製品。
[付記15]
付記1〜5か、6〜7か又は8〜9のいずれか一項に記載の方法を実行するかためのプログラムコード命令を含む、自らに記録した且つプロセッサによって実行することができるコンピュータプログラム製品を含む非一時的なコンピュータ可読媒体。

Claims (14)

  1. シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの少なくとも1つの画素ブロックを予測する方法であって、
    前記方法が、プロセッサによって実行され、前記画素ブロックの少なくとも1つの予測すべき画素について、
    前記少なくとも1つの予測すべき画素が属する少なくとも1つのエピポーラ平面画像(EPI)を前記ビュー行列から取得することと、
    双方向予測モードセットの中で、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、以前に再構成された画素セットから少なくとも1つの最適な双方向予測モードを決定することと、
    前記少なくとも1つの最適な双方向予測モードを用いて補間を実行することによって、前記少なくとも1つの予測すべき画素の予測値を取得することと、
    を含
    前記画素ブロック内の少なくとも1つの予測すべき画素グループを提供することであって、前記画素グループが、同じ行の、同じ列の、又は前記画素ブロックの行若しくは列に対して或る角度方向を示す少なくとも2つの画素のセットの少なくとも2つの画素を含み、
    前記最適な双方向予測モードを決定することが、
    前記画素グループの少なくとも1つの予測すべき画素について、各双方向予測モードのエネルギーレベルを取得するために、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、前記以前に再構成された画素セットに、前記双方向予測モードセットの各所定の双方向予測モードを適用することと、
    前記画素グループに属する全ての予測すべき画素に対して同じ最適な双方向予測モードを選択することであって、前記最適な双方向予測モードが、前記エネルギーレベルが前記画素グループの少なくとも1つの予測すべき画素について取得されたエネルギーレベルの最小の独立変数である前記双方向予測モードに対応することと、
    を含むことを更に含む、予測する方法。
  2. 前記エネルギーレベルが、各双方向予測モードに属する少なくとも2つの方向間の空間勾配に対応する、請求項1に記載の方法。
  3. 前記予測すべき1つの画素が属する少なくとも2つのエピポーラ平面画像(EPI)が、水平エピポーラ平面画像(EPI)及び垂直エピポーラ平面画像(EPI)に、又は相異なる角度方向のエピポーラ平面画像(EPI)セットに対応する場合に、
    前記最適な双方向予測モードを決定することが、前記水平エピポーラ平面画像(EPI)及び前記垂直エピポーラ平面画像(EPI)について、又は前記相異なる角度方向のエピポーラ平面画像(EPI)セットについて実行され、前記最適な双方向予測モードが、前記エネルギーレベルが少なくとも1つのエピポーラ画像について取得されたエネルギーレベルの最小の独立変数である双方向予測モードに対応する、請求項2に記載の方法。
  4. 1つの予測すべき画素が属する少なくとも2つのエピポーラ平面画像(EPI)が、水平エピポーラ平面画像(EPI)及び垂直エピポーラ平面画像(EPI)に、又は相異なる角度方向のエピポーラ平面画像(EPI)セットに対応する場合に、
    最適な双方向予測モードが、各エピポーラ画像について決定され、前記少なくとも1つの予測すべき画素の前記予測値が、少なくとも2つのエピポーラ画像について決定された前記最適な双方向予測モードを用いることによってそれぞれ取得された少なくとも2つの予測値の平均に対応する、請求項2又は3に記載の方法。
  5. シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの前記少なくとも1つの画素ブロックを符号化する方法であって、前記方法が、プロセッサによって実行され、
    予測された画素ブロックを取得するために、請求項1〜のいずれか一項に記載の前記方法に従って前記少なくとも1つの画素ブロックを予測することと、
    前記少なくとも1つの画素ブロックと前記予測された画素ブロックとの間の差に対応する残余誤差を決定することと、
    前記画素ブロックに関連する前記残余誤差を符号化することと、
    を含む、符号化する方法。
  6. 前記シーンに関連するライトフィールドデータから取得された前記ビュー行列を表す信号に前記残余誤差を挿入することと、
    前記画素ブロック内の少なくとも1つの予測すべき画素グループを表す情報を前記信号に挿入することと、
    を更に含む、請求項に記載の符号化する方法。
  7. シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの少なくとも1つの画素ブロックを表す信号を復号する方法であって、前記方法が、プロセッサによって実行され、
    前記画素ブロックに関連する残余誤差を前記信号から復号することと、
    予測された画素ブロックを取得するために、請求項1〜のいずれか一項に記載の前記方法に従って、前記少なくとも1つの画素ブロックを予測することと、
    前記予測された画素ブロックに前記残余誤差を追加することによって、前記少なくとも1つの画素ブロックを再構成することと、
    を含む、復号する方法。
  8. 前記画素ブロック内の少なくとも1つの予測すべき画素グループの形成を表す情報を前記信号から抽出することであって、前記予測が前記情報を考慮することを更に含む、請求項に記載の復号する方法。
  9. シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの少なくとも1つの画素ブロックを符号化する装置であって、前記装置が、
    予測された画素ブロックを取得することであって、前記画素ブロックの各予測すべき画素について、
    前記少なくとも1つの予測すべき画素が属する少なくとも1つのエピポーラ平面画像(EPI)を前記ビュー行列から取得することと、
    双方向予測モードセットの中で、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、以前に再構成された画素セットから少なくとも1つの最適な双方向予測モードを決定することと、
    前記少なくとも1つの最適な双方向予測モードを用いて補間を実行することによって、前記少なくとも1つの予測すべき画素の予測値を取得すること
    前記画素ブロック内の少なくとも1つの予測すべき画素グループを提供することであって、前記画素グループが、同じ行の、同じ列の、又は前記画素ブロックの行若しくは列に対して或る角度方向を示す少なくとも2つの画素のセットの少なくとも2つの画素を含み、
    前記最適な双方向予測モードを決定することが、
    前記画素グループの少なくとも1つの予測すべき画素について、各双方向予測モードのエネルギーレベルを取得するために、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、前記以前に再構成された画素セットに、前記双方向予測モードセットの各所定の双方向予測モードを適用することと、
    前記画素グループに属する全ての予測すべき画素に対して同じ最適な双方向予測モードを選択することであって、前記最適な双方向予測モードが、前記エネルギーレベルが前記画素グループの少なくとも1つの予測すべき画素について取得されたエネルギーレベルの最小の独立変数である前記双方向予測モードに対応することと、
    を含む、取得することと、
    前記少なくとも1つの画素ブロックと前記予測された画素ブロックとの間の差に対応する残余誤差を決定することと、
    前記画素ブロックに関連する前記残余誤差を符号化することと、
    行うように構成されたプロセッサを含む、符号化する装置。
  10. 前記プロセッサが、
    前記シーンに関連するライトフィールドデータから取得された前記ビュー行列を表す信号に前記残余誤差を挿入することと、
    前記画素ブロック内の少なくとも1つの予測すべき画素グループを表す情報を前記信号に挿入することと、
    を更に行うように構成される、請求項に記載の符号化する装置。
  11. シーンに関連するライトフィールドデータから取得されたビュー行列に属するビューの少なくとも1つの画素ブロックを表す信号を復号する装置であって、前記装置が、
    前記画素ブロックに関連する残余誤差を復号することと、
    予測された画素ブロックを取得するために、前記少なくとも1つの画素ブロックを予測することであって、前記画素ブロックの少なくとも1つの予測すべき画素について、
    前記少なくとも1つの予測すべき画素が属する少なくとも1つのエピポーラ平面画像(EPI)を前記ビュー行列から取得することと、
    双方向予測モードセットの中で、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、前に再構成された画素から少なくとも1つの最適な双方向予測モードを決定することと、
    前記少なくとも1つの最適な双方向予測モードを用いて補間を実行することによって、前記少なくとも1つの予測すべき画素の予測値を取得すること
    前記画素ブロック内の少なくとも1つの予測すべき画素グループを提供することであって、前記画素グループが、同じ行の、同じ列の、又は前記画素ブロックの行若しくは列に対して或る角度方向を示す少なくとも2つの画素のセットの少なくとも2つの画素を含み、
    前記最適な双方向予測モードを決定することが、
    前記画素グループの少なくとも1つの予測すべき画素について、各双方向予測モードのエネルギーレベルを取得するために、前記少なくとも1つのエピポーラ平面画像における前記少なくとも1つの予測すべき画素に隣接する、前記以前に再構成された画素セットに、前記双方向予測モードセットの各所定の双方向予測モードを適用することと、
    前記画素グループに属する全ての予測すべき画素に対して同じ最適な双方向予測モードを選択することであって、前記最適な双方向予測モードが、前記エネルギーレベルが前記画素グループの少なくとも1つの予測すべき画素について取得されたエネルギーレベルの最小の独立変数である前記双方向予測モードに対応することと、
    を含む、取得することと、
    前記予測された画素ブロックに前記残余誤差を追加することによって、前記少なくとも1つの画素ブロックを再構成することと、
    行うするように構成されたプロセッサを含む、復号する装置。
  12. 前記プロセッサが、前記画素ブロック内の前記少なくとも1つの予測すべき画素グループの形成を表す情報を前記信号から抽出することであって、前記予測が、前記情報を考慮する、抽出することを更に行うように構成される、請求項11に記載の復号する装置。
  13. 請求項1〜のいずれか一項に記載の方法を実行するためのプログラムコード命令を含む、通信ネットワークからダウンロード可能な、並びに/又はコンピュータによって可読な及び/若しくはプロセッサによって実行可能な媒体上に記録されたコンピュータプログラム。
  14. 請求項1〜のいずれか一項に記載の方法を実行するためのプログラムコード命令を含む、自らに記録した且つプロセッサによって実行することができるコンピュータプログラムを含む非一時的なコンピュータ可読媒体。
JP2018513495A 2015-09-14 2016-09-14 ライトフィールドベースの画像を符号化及び復号する方法及び機器並びに対応するコンピュータプログラム製品 Active JP6837056B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15306408.4A EP3142365A1 (en) 2015-09-14 2015-09-14 Method and apparatus for encoding and decoding a light field based image, and corresponding computer program product
EP15306408.4 2015-09-14
PCT/EP2016/071716 WO2017046175A1 (en) 2015-09-14 2016-09-14 Method and apparatus for encoding and decoding a light field based image, and corresponding computer program product

Publications (3)

Publication Number Publication Date
JP2018530963A JP2018530963A (ja) 2018-10-18
JP2018530963A5 JP2018530963A5 (ja) 2019-10-17
JP6837056B2 true JP6837056B2 (ja) 2021-03-03

Family

ID=54199139

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018513495A Active JP6837056B2 (ja) 2015-09-14 2016-09-14 ライトフィールドベースの画像を符号化及び復号する方法及び機器並びに対応するコンピュータプログラム製品

Country Status (6)

Country Link
US (1) US10652577B2 (ja)
EP (2) EP3142365A1 (ja)
JP (1) JP6837056B2 (ja)
KR (1) KR20180053699A (ja)
CN (1) CN108353189A (ja)
WO (1) WO2017046175A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354399B2 (en) * 2017-05-25 2019-07-16 Google Llc Multi-view back-projection to a light-field
EP3422722A1 (en) * 2017-06-30 2019-01-02 Thomson Licensing Method for encoding a matrix of image views obtained from data acquired by a plenoptic camera
CN107770537B (zh) * 2017-11-02 2020-03-31 中国科学技术大学 基于线性重建的光场图像压缩方法
US11160710B1 (en) 2020-05-20 2021-11-02 Augustine Biomedical + Design, LLC Relocation module and methods for surgical equipment
US11432982B2 (en) 2018-03-26 2022-09-06 Augustine Biomedical + Design, LLC Relocation module and methods for surgical equipment
US11426318B2 (en) 2020-05-20 2022-08-30 Augustine Biomedical + Design, LLC Medical module including automated dose-response record system
US11219570B2 (en) 2018-03-26 2022-01-11 Augustine Biomedical + Design, LLC Relocation module and methods for surgical equipment
US10507153B2 (en) 2018-03-26 2019-12-17 Augustine Biomedical + Design, LLC Relocation modules and methods for surgical field
US11446196B2 (en) 2018-03-26 2022-09-20 Augustine Biomedical + Design, LLC Relocation module and methods for surgical equipment
US10869800B2 (en) 2018-03-26 2020-12-22 Augustine Biomedical + Design, LLC Relocation module and methods for surgical equipment
US11291602B2 (en) 2018-03-26 2022-04-05 Augustine Biomedical + Design, LLC Relocation module and methods for surgical equipment
WO2020140220A1 (zh) * 2019-01-02 2020-07-09 Oppo广东移动通信有限公司 帧内预测方法及装置、视频编码设备、存储介质
CN110580481B (zh) * 2019-08-09 2022-01-11 西安理工大学 一种基于epi的光场图像关键位置检测方法
BR102021009291A2 (pt) * 2021-05-13 2022-11-22 Samsung Eletrônica da Amazônia Ltda. Método de intrapredição quadridimensional para codificação e decodificação de dados de light field

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69434685T2 (de) * 1993-08-04 2006-09-14 Canon K.K. Bildverarbeitungsverfahren und -gerät
EP0707288B1 (en) 1994-10-14 2003-08-27 Canon Kabushiki Kaisha Image processing method and apparatus
WO2007013194A1 (ja) * 2005-07-26 2007-02-01 National University Corporation Nagoya University 画像情報圧縮方法及び自由視点テレビシステム
JP4825984B2 (ja) * 2005-08-29 2011-11-30 国立大学法人名古屋大学 画像情報圧縮方法、画像情報圧縮装置、及び自由視点テレビシステム
JP2007180982A (ja) 2005-12-28 2007-07-12 Victor Co Of Japan Ltd 画像復号装置、画像復号方法、及び画像復号プログラム
WO2010086544A1 (fr) * 2009-01-28 2010-08-05 France Telecom Procede et dispositif de codage d'une image utilisant un masque de prediction, procede et dispositif de decodage, signal et programmes d'ordinateur correspondants
EP2280548B1 (en) * 2009-07-30 2018-03-28 Thomson Licensing DTV Method for decoding a stream of coded data representative of a sequence of images and method for coding a sequence of images
WO2013030458A1 (en) * 2011-08-31 2013-03-07 Nokia Corporation Multiview video coding and decoding
JP5206853B2 (ja) * 2011-09-08 2013-06-12 カシオ計算機株式会社 補間画像生成装置、再構成画像生成装置、補間画像生成方法及びプログラム
US8995785B2 (en) 2012-02-28 2015-03-31 Lytro, Inc. Light-field processing and analysis, camera control, and user interfaces and interaction on light-field capture devices
KR101641606B1 (ko) 2012-07-09 2016-07-21 니폰 덴신 덴와 가부시끼가이샤 화상 부호화 방법, 화상 복호 방법, 화상 부호화 장치, 화상 복호 장치, 화상 부호화 프로그램, 화상 복호 프로그램 및 기록매체

Also Published As

Publication number Publication date
WO2017046175A1 (en) 2017-03-23
CN108353189A (zh) 2018-07-31
EP3142365A1 (en) 2017-03-15
JP2018530963A (ja) 2018-10-18
KR20180053699A (ko) 2018-05-23
US20180255319A1 (en) 2018-09-06
EP3350999A1 (en) 2018-07-25
US10652577B2 (en) 2020-05-12

Similar Documents

Publication Publication Date Title
JP6837056B2 (ja) ライトフィールドベースの画像を符号化及び復号する方法及び機器並びに対応するコンピュータプログラム製品
Li et al. Scalable coding of plenoptic images by using a sparse set and disparities
JP6901468B2 (ja) 光照射野ベース画像を符号化及び復号する方法と装置、および対応するコンピュータプログラム製品
JP6872533B2 (ja) ライトフィールドベース画像を符号化および復号する方法および装置、および対応するコンピュータプログラム製品
GB2535475A (en) Optimized plenoptic image encoding
US11665369B2 (en) Method and a device for encoding a signal representative of a light-field content
WO2017055092A1 (en) Method and apparatus for reducing the coding artefact of a light field based image, and corresponding computer program product
US20170150152A1 (en) Methods and devices for encoding and decoding a matrix of views obtained from light-field data, corresponding computer program and non-transitory program storage device
US10580210B2 (en) Method and device for refocusing at least one plenoptic video
JP2020195093A (ja) 符号化装置、復号装置、及びプログラム
EP3203742A1 (en) System and method for encoding and decoding information representative of a focalization distance associated to an image belonging to a focal stack representative of a light field content
JP7382186B2 (ja) 符号化装置、復号装置、及びプログラム
EP3185560A1 (en) System and method for encoding and decoding information representative of a bokeh model to be applied to an all-in-focus light-field content
Phi Perceptually Optimized Plenoptic Data Representation and Coding

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190903

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190903

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20191106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210208

R150 Certificate of patent or registration of utility model

Ref document number: 6837056

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250