JP7279939B2 - ビデオ及びマルチビュー・イマジェリーの圧縮及びアップサンプリングのためのベース固定モデル及び推論 - Google Patents

ビデオ及びマルチビュー・イマジェリーの圧縮及びアップサンプリングのためのベース固定モデル及び推論 Download PDF

Info

Publication number
JP7279939B2
JP7279939B2 JP2019536625A JP2019536625A JP7279939B2 JP 7279939 B2 JP7279939 B2 JP 7279939B2 JP 2019536625 A JP2019536625 A JP 2019536625A JP 2019536625 A JP2019536625 A JP 2019536625A JP 7279939 B2 JP7279939 B2 JP 7279939B2
Authority
JP
Japan
Prior art keywords
base
displacement
mesh
gop
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019536625A
Other languages
English (en)
Other versions
JP2019530386A5 (ja
JP2019530386A (ja
Inventor
スコット タウプマン、デイビッド
パトリック ルーフェナハト、ドミニク
Original Assignee
カカドゥ アール アンド ディー ピーティーワイ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2016903815A external-priority patent/AU2016903815A0/en
Application filed by カカドゥ アール アンド ディー ピーティーワイ リミテッド filed Critical カカドゥ アール アンド ディー ピーティーワイ リミテッド
Publication of JP2019530386A publication Critical patent/JP2019530386A/ja
Publication of JP2019530386A5 publication Critical patent/JP2019530386A5/ja
Application granted granted Critical
Publication of JP7279939B2 publication Critical patent/JP7279939B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/004Predictors, e.g. intraframe, interframe coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/54Motion estimation other than block-based using feature points or meshes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Description

本発明は、ビデオ信号をコーディングするための装置及び方法に関し、詳細には、限定はしないが、ビデオ・フレーム間の変位情報の表示(すなわち、モデル)を実装するための方法及び装置に関する。
以下では、「フレーム」という用語を、ビデオ・シーケンスのフレーム、並びにマルチビュー設定におけるビューを指すために使用する。本発明の実施例は、そのようなモデルの生成に関係しないが、すでに復号されたフレームの中間のフレームを「推論する」ためにそのようなモデルがどのように使用され得るかに関係する。
本出願は、その内容が参照により本明細書に組み込まれる、本出願人の以前のオーストラリア仮特許出願第2016903815号及び第2017902670号に関連する。
既存のビデオ・コーダの発展は、動きモデリングにおける革新によって強く推進されてきた。しかしながら、この動きは、相変わらず、予測されるターゲット・フレームの観点から表現され、すなわち、動きベクトルが、予測されているフレームにアタッチされ、他のフレーム中の予測ソース・ロケーションを指す。この手法は自然であるように見えるが、それは、時間にわたる動きフィールドの正確な反転及び構成のために前景/背景関係を発見するために必要とされる時間推理(reasoning)を激しく妨害する。
従来の手法では、動きは、人工的な境界をもつブロックを使用して表現され、これは、真のシーンの動きを反映する可能性が低い区分的に不変の動きフィールドにつながる。これらの表現は、しばしば冗長であり、ビデオ・フレームよりも多くの個々の動きフィールドを伴い、階層双方向予測は、たとえば、ビデオ・フレームごとに2つの動きフィールドを使用する。その場合、物理的動きによって満たされるべきである時間的関係は、ほとんど無視される。時間動き推理の代わりに、既存のビデオ・コーダは、明示的にコーディングされたブロック・モードの巨大なアレイを提示し、それにわたって網羅的又はヒューリスティックな最適化が実行される。驚くことではないが、これは、ターゲット・フレームを予測する目的にかなうが、概して物理的でないか又は時間的に整合していない、日和見的動き表現につながる。
これらの弱点のさらなる証拠として、(ディスプレイにおけるフレーム・レート・アップサンプリングのために必要とされる)高性能時間フレーム補間アルゴリズムが、復号されたビットストリームから入手可能な動きベクトルに依拠するのではなく、復号されたビデオから直接動きを推定する必要があることがわかっており、この整合的な傾向の重要な実例については、参考文献[1][2][3]を参照されたい。
(動き補償時間フィルタ処理、又はただMCTF(motion compensated temporal filtering)としても知られる)動き補償時間リフティング変換(motion compensated temporal lifting transform)の導入[4]は、スケーラブル・ビデオ・コーディングに対する関心を著しく高めた、たとえば[5][6][7]。同時に、マルチビュー・コンテンツの圧縮のために変換を構築するために同様の方法が使用され得ることが明らかになり、ここで、ディスパリティ補償リフティング(disparity-compensated lifting)という用語が動き補償リフティングの代わりに使用される[8]。これらの著作に基づいて、マルチビュー・ビデオを圧縮するための関係する方法が提案された[9][10]。
第1の国際スケーラブル・ビデオ・コーディング規格(SVC:scalable video coding)のために提案されたソリューションの多くは、動き補償時間リフティングを組み込んだ。しかしながら、この労力からの結果と、より最近のスケーラブルH.265/HEVC拡張とは、ブロックベース・ターゲットフレーム中心手法に基づいており、レイヤ間予測モードと追加の参照フレームとを追加する。これらの規格ツールは、時間リフティングの利益をほとんど無効にする。ビデオ・コーディング技術における基本的なシフトの欠如の主要な理由は、既存の動きモデルの不備である。
ビデオ・コーディングについての動きの最近の進歩は、より良く動き境界を考慮することが可能である方法にシフトしており、参考文献[11][12][13]は、たとえば、動きの不連続性に基づいて動きフィールドを区分することの利益を証明するいくつかの著作のうちのほんの一部である。ビデオ圧縮のためのオプティカル・フロー・フィールドの使用に対する関心も高まっている、たとえば[14][15]。それにもかかわらず、これらの方法は、ターゲット・フレームにおける動きを表現し続けており、例外は、Taubman及びNamanが先駆けとなった動きヒント手法である[16]。
最近、本出願人は、参照フレームにおいて動きを固定することが、基本的に、偏在するターゲット固定手法よりも優れていることを示し、時間フレーム補間[18]、現代のエンターテインメント・システムにおける共通の構成要素、についての固有の利点とともに、公正な設定における圧縮性能の改善を証明した[17]。「動きの双方向階層固定」として知られる、この手法は、区分的に平滑な動きフィールドを反転し、構成するために時間動き推理を使用する。この手法は、疎な動きフィールドにつながることがあり、重要な進歩を表す。
オーストラリア仮特許出願第2016903815号 オーストラリア仮特許出願第2017902670号
B.-D.Choi、J.-W.Han、C.-S.Kim及びS.-J.Ko、「Motion-compensated frame interpolation using bilateral motion estimation and adaptive overlapped block motion compensation」、IEEE Transactions on Circuits and Systems for Video Technology、vol.17、no.4、407~416頁、2007年4月。 S.-G.Jeong、C.Lee及びC.-S.Kim、「Motion-compensated frame interpolation based on multihypothesis motion estimation and texture optimization」、IEEE Transactions on Image Processing、vol.22、no.11、4495~4509頁、2013年11月。 D.Kim、H.Lim及びH.Park、「Iterative true motion estimation for motion-compensated frame interpolation」、IEEE Transactions on Circuits and Systems for Video Technology、vol.23、no.3、445~454頁、2013年3月。 A.Secker及びD.Taubman、「Lifting-based invertible motion adaptive transform (LIMAT) framework for highly scalable video compression」、IEEE Transactions on Image Processing、vol.12、no.12、1530~1542頁、2003年12月。 Y.Andreopoulos、A.Munteanu、J.Barbarien、M.van der Schaar、J.Cornelis及びP.Schelkens、「In-band motion compensated temporal filtering」、Signal Processing:Image Communication、vol.19、no.7、653~673頁、2004年7月。 M.Flierl及びB.Girod、「Video coding with motion-compensated lifted wavelet transforms」、Signal processing:Image Communications、vol.19、no.561~575、2004年7月。 A.Golbelkar及びJ.Woods、「Motion-compensated temporal filtering and motion vector coding using biorthogonal filters」、IEEE Transactions on Circuits and Systems for Video Technology、vol.17、no.4、417~428頁、2007年4月。 C.-L.Chang、X.Zhu、P.Ramanathan及びB.Girod、「Light field compression using disparty-compensated lifting and shape adaptation」、IEEE Transactions on Image Processing、vol.15、no.4、793~806頁、2006年4月。 J.-U.Garbas、B.Pesquet-Popescu及びA.Kaup、「Mehods and tools for wavelet-based scalable multiview video coding」、IEEE Transactions on Circuits and Systems for Video Technology、vol.21、no.2、113~126頁、2011年2月。 H.G.Lalgudi、M.W.Marcellin、A.Bilgin、H.Oh及びM.S.Nadar、「View compensated compression of volume rendered images for remote visualization」、IEEE Transactions on Image Processing、vol.18、no.7、1501~1511頁、2009年7月。 R.Mathew及びD.Taubman、「Scalable modeling of motion and boundary geometry with quad-tree node merging」、IEEE Transactions on Circuits and Systems for Video Technology、vol.21、no.2、178~192頁、2011年2月。 S.Milani及びG.Calvagno、「Segmentation-based motion compensation for enhanced video coding」、IEEE International Conference on Image Processing、1685~1688頁、2011年9月。 I.Daribo、D.Florencio及びG.Cheung、「Arbitrarily shaped sub-block motion prediction in texture map compression using depth information」、Picture Coding Symposium(PCS)、121~124頁、2012年5月。 A.Zheng、Y.Yuan、H.Zhang、H.Yang、P.Wan及びO.Au、「Motion vector fields based video coding」、IEEE International Conference on Image Processing、2095~2099頁、2015年9月。 G.Ottaviano及びP.Kohli、「Compressible motion fields」、Proc.IEEE Conference on Computer Vision and Pattern Recognition(CVPR)、2251~2258頁、2013年6月。 A.T.Naman及びD.Taubman、「Flexible synthesis of video frames based on motion hints」、IEEE Transactions on Image Processing、vol.23、no.9、3802~3815頁、2014年9月。 D.Rufenacht、R.Mathew及びD.Taubman、「A novel motion field anchoring paradigm for highly scalable wavelet-based video coding」、IEEE Transactions on Image Processing、vol.25、no.1、39~52頁、2016年1月。 D.Rufenacht、R.Mathew及びD.Taubman、「Bidirectional, occlusion-aware temporal frame interpolation in a highly scalable video setting」、Picture Coding Symposium(PCS)、5~9頁、2015年5月。 R.Mathew、S.Young及びD.Taubman、「Optimization of optical flow for scalable coding」、Picture Coding Symposium(PCS)、70~74頁、2015年5月。 R.Mathew、D.Taubman及びP.Zanuttigh、「Scalable coding of depth maps with R-D optimized embedding」、IEEE Transactions on Image Processing、vol.22、no.5、1982~1995頁、2013年5月。 R.Szeliski及びH.-Y.Shum、「Motion estimation with quadtree splines」、IEEE Transactions on Pattern Analysis and Machine Intelligence、vol.18、no.12、1199~1210頁、1996年12月。 N.Mehrseresht及びD.Taubman、「An efficient content-adaptive motion-compensated 3-D DWT with enhanced spatial and temporal scalability」、IEEE Transactions on Image Processing、vol.15、no.3、1397~1412頁、2006年3月。 J.Revaud、P.Weinzaepfel、Z.Harchaoui及びC.Schmid、「Epicflow:edge-preserving interpolation of correspondences for optical flow」、Proc.IEEE Conference on Computing and Visual Pattern Recognition(CVPR)、2015年6月。 S.Young及びD.Taubman、「Rate-distortion optimized optical flow estimation」、IEEE International Conference on Image Processing、1677~1681頁、2015年9月。 D.Taubman、「High perfomance scalable image compression with EBCOT」、IEEE Transactions on Image Processing、vol.9、no.7、1151~1170頁、2000年7月。 D.Sun、J.Wulff、E.Sudderth、H.Pfister及びM.Black、「A fully connected layered model of foreground and background flow」、IEEE Conference on Computer Vision and Pattern Recognition(CVPR)、2451~2458頁、2013年。
第1の態様によれば、本発明は、ビデオ及び/又はマルチビュー・シーケンスのフレーム間の変位情報を表す方法であって、複数のフレームをピクチャ・グループ(GOP:Group of Pictures)に割り当てるステップと、各GOPについてのベース変位モデルを与えるステップであって、ベース変位モデルが、GOPの指定されたベース・フレーム中の各ロケーションをGOPの各他のフレーム中の対応するロケーションに搬送する変位フィールドを表現する、与えるステップと、ベース変位モデルからGOPのフレーム間の他の変位関係を推論するステップとを含む、方法を提供する。
一実施例では、ビデオ信号は、マルチビュー・ビデオ信号であり得る。一実施例では、GOPは、同じ時間インスタンスにおける複数のビューからのフレーム及び/又は異なる時間インスタンスにおいて取られたあるビューからのフレームからなり得る。
一実施例では、ビデオ信号は、1次元ビデオ・シーケンスであり得る。
GOPは、旧来のシングル・ビュー・ビデオ圧縮の場合のように、又は、すべてのビューが1Dアレイで構成されるマルチビュー構成の場合に、1次元である必要はない。2Dピクチャ・グループは、カメラの2Dアレイに関連するマルチビュー・イマジェリーのための最も適切な構成体であり、3D GOPは、そのようなアレイにおけるカメラが各々ビデオ・シーケンスをキャプチャするときの、最も適切な構成体である。
本明細書では、「変位」という用語は、(特に、マルチビュー・イマジェリー及びビデオについての)動き、深度及びディスパリティ、ロケーション情報、並びに他のパラメータを含む、画像に関連するいくつかのパラメータをカバーする。
一実施例では、これは、変位を表現し、圧縮し、推論する新しいやり方を表し、このやり方において、ピクチャ・グループ(GOP)についてのすべての変位情報がベース・モデルから導出され、その変位表示がGOPのベース・フレームにおいて固定される。我々は、これを、すべての規格化されたビデオ圧縮方式において採用される通常のターゲット固定手法と、参照フレームにおける階層固定に関する我々自身の最近の著作との両方とは対照的に、ベース固定と呼ぶ。この手法は、上述のすべての方法に勝る基本的な利点を有する。
このベース固定手法の一実施例では、1つの区分的に平滑な2D変位フィールドが、各フレームについて符号化されるが、GOPに関連する変位フィールドのすべてが、それのベース・フレームにおいて固定される。まとめて、これらの変位フィールドをベース・モデルとして識別する。同じフレームにおいてGOPについてのすべての表現を固定することの1つの利点は、それが、多数の変位フィールドの様々なコンパクトな表現を可能にすることである。ベース・フレームにおいてすべての変位を固定することによって、境界不連続性の単一の表現がすべての変位フィールドに適用され得、これらの境界不連続性は、概して、区分的に連続するモデルの表現に重要である。さらに、エネルギー圧縮変換(energy compacting transform)が、変位フィールドの収集に直接、容易に適用される。いくつかの実施例では、パラメトリック・モデルが、変位パラメータの低減されたセットを使用してベース・モデルを表すために採用され得る。フレーム間の変位が動きに関係する、ビデオでは、パラメトリック表示は、速度及び加速度など、物理的属性に基づき得る。マルチビュー適用例では、GOPのフレーム間の明らかな変位は、深度又は逆深度がパラメトリック表現のための自然な基礎を与えるような、幾何学的特性、特にシーン深度に関係し得る。
実施例では、大きいピクチャ・グループ(GOP)中のベース・フレームと他のフレームとの間の、かなりのレベルの折り畳み(folding)及びオクルージョンがあり得るが、ベース・モデルからGOP内のすべての必要とされる変位関係を導出することが可能である。この特性は、現在のビデオ・コーダにおいて行われるように、補助予測モード(たとえば、前方に、後方に、双方向に予測するなど)を符号化する必要性を回避する。
一実施例では、ベース固定フレームワークは、高品質時間動き推論をサポートすることができ、高品質時間動き推論は、計算効率が良く、双方向予測の共通のツールが各ターゲット・フレームに2つの動きフィールドを割り当てる、従来のコーデックにおいて使用されるコード化動きフィールドのわずか1/2を必要とする。
コーディング効率以外に、ベース固定手法は、有利には、より幾何学的に整合する、有意味な変位情報を与える。幾何学的に整合する変位情報の利用可能性は、視覚認知を改善し、旧来のコーデックにおいて使用されるフィードバック状態機械が純粋にフィードフォワード変換によって置き換えられる、変位補償リフティングに基づく高度にスケーラブルなビデオ及びマルチビュー圧縮システムの効率的な展開を可能にする。
第2の態様によれば、本発明は、ビデオ・シーケンス内の変位フィールドをコーディングするための方法であって、本発明の第1の態様の方法によれば、ビデオ・フレームが、GOPとして知られるピクチャ・グループに割り当てられ、ベース変位モデルが、各GOPについてコーディングされ、GOPの指定されたベース・フレーム中の各ロケーションをGOPの各他のフレーム中の対応するロケーションに搬送する変位を表現し、GOPのフレーム間の他の変位関係が、ベース変位モデルから推論される、方法を提供する。
第3の態様によれば、本発明は、他のフレームからのいくつかの画像フレームの変位補償予測のための方法であって、フレームがピクチャ・グループ(GOP)に割り当てられ、ベース変位モデルが、各GOPについて与えられ、GOPの指定されたベース・フレーム中の各ロケーションをGOPの各他のフレーム中の対応するロケーションに搬送する変位を表現し、このベース変位モデルが、GOPのフレーム間の変位関係を推論するために使用され、予測ターゲット・フレームにおける推論変位フィールドが、GOP中の1つ又は複数の他のフレームからフレームを予測するために使用される、方法を提供する。
第4の態様によれば、本発明は、本発明の第1の態様による、変位情報を表すための方法を実装するように構成された、コーディング装置を提供する。
第5の態様によれば、本発明は、本発明の第2の態様による、変位フィールドをコーディングするための方法を実装するように構成された、コーディング装置を提供する。
第6の態様によれば、本発明は、本発明の第3の態様による、変位補償予測のための方法を実装するように構成された、コーディング装置を提供する。
第7の態様によれば、本発明は、本発明の第4の態様又は本発明の第5の態様又は本発明の第6の態様による装置によってコーディングされた信号を復号するように構成された、復号装置を提供する。
第8の態様によれば、本発明は、本発明の第1の態様、第2の態様又は第3の態様による方法を実装するようにコンピュータを制御するための命令を含む、コンピュータ・プログラムを提供する。
第9の態様によれば、本発明は、本発明の第8の態様によるコンピュータ・プログラムを与える、不揮発性コンピュータ可読媒体を提供する。
第10の態様によれば、本発明は、本発明の第8の態様によるコンピュータ・プログラムを含む、データ信号を提供する。
本発明の特徴及び利点は、添付の図面を参照しながら、単に実例として、その実施例の以下の説明から明らかになるであろう。
一実施例による、1Dピクチャ・グループ(GOP)の場合のベース固定変位の図である。 一実施例による、ベース固定(base anchoring)の原理を示す、画像/ビデオ・シーケンスのいくつかの代表的フレームの図である。 一実施例による、変位埋め戻し(backfilling)ストラテジーの図である。 一実施例による、本発明の一実施例による、二重マッピング(double mapping)解決(resolving)プロシージャの図である。 一実施例による、より高次元のGOPへのベース固定の拡張の図である。 本発明の一実施例による、ベース・モデル及び推論方式を採用するエンコーダの概観の図である。 本発明の一実施例による、ベース・モデル及び推論方式を採用するデコーダの概観の図である。
簡単のために、図1に示されているように、フレームの1次元構成(1D GOP)を考慮することによって本発明の一実施例の説明を始め、より高次元のGOPのより一般的な場合は、セクション4.5において詳述される。図2は、ベース固定フレームワークの背後の鍵となるアイデアのうちのいくつかを示す。正三角メッシュと、正三角メッシュをもつGOPと、N=3個のフレームのGOPとをもつベース固定モデルが示され、文字が各フレーム中の対応する三角形を識別し、変位情報(破線の矢印)がベース・メッシュのノード(黒い丸)上でコーディングされ、これは、1つのノードについてのみ示されており、黒い矩形がベース・メッシュのアーク上の中断(break)ロケーションを識別し、影付きの灰色の領域が、ベース変位フィールド中の中断誘発(break-induced)不連続性から生じる「ホール」をあらわにし、完全な黒い丸(ドット)と丸の中の黒いドットとは、「埋め戻し」より前の、「中断誘発」ノードの開始ロケーションを示し、完全な黒い丸(ドット)と丸の中の黒いドットとは、ベース・フレーム中の黒い矩形と実際に一致する。
GOPについてのすべての変位情報が、ここではfとして示される、そのベース・フレーム内で表現される。重要なことには、変位フィールドは、区分的に平滑であり、物体境界の周りで不連続性を呈することが予想される。そのような変位フィールドを表現する1つのやり方は、いくつかのロケーションにおいて裂けること、すなわち、その中断を可能にされる三角メッシュによるものである。そのような変位モデルを表し、符号化するための方法が存在する。たとえば、シングルビュー・ビデオ圧縮の場合、[19]は、アフィン補間に基づいてメッシュをウェーブレット・ベース動きモデルに一般化し、これは、「アーク中断点(breakpoint)」をコーディングするための効率的で高度にスケーラブルな方法[20]に結合され、これは、変位不連続性の近傍においてウェーブレット基底関数を適応させる。説明を簡単にするために、図2は、3つの例示的な中断点をもつ、粗い正三角メッシュのみを示す。
図に示されているように、メッシュのノードは、u0→j,j∈{1,N}として示される、NフレームGOP中のN-1個の非ベース・フレームの各々についての1つの変位ベクトルを搬送する。最初に、中断がない場合について考える。この場合、ノード変位ベクトルは、メッシュをGOP中のベース・フレームから各他のフレームに連続的にワープするように働く。これらのワープされたメッシュによってGOP中のすべてのフレームが完全にカバーされることを保証するために、元のフレームよりもわずかに大きい領域(1ピクセルで十分である)上でベース・メッシュを規定し、この拡張領域中に入るノードに0変位を割り当てることで十分であり、この形式の拡張は、薄い灰色の線で図に示されている。代替的に、実施例では、元のフレームの外側のメッシュ・ノードは、フレーム中の(1つ又は複数の)それらの隣接するノードの変位を割り当てられ得る。完全にカバーすることを依然として保証するために、これらのノードは、それらの変位ベクトルに従ってマッピングされなければならず、0変位ベクトルを割り当てることによって達成されるように線形ランプを作成するのではなく、フレーム境界において変位を効果的に外挿する。これらの基本拡張方法で十分であるが、より物理的に有意味な拡張機構が当業者に明らかであろう。たとえば、フレーム境界変位ベクトルを外挿するのではなく、隣接するGOPからのベース・メッシュからの情報が、そのような領域中で使用され得、これを達成する1つのやり方が、ディスオクルージョンされた(disoccluded)領域中のベース・メッシュを「オーグメントする」ための一般的な方法について説明する、セクション4.1.2において説明される。
このカバー特性の帰結は、完全逆方向変位フィールドが、各非ベース・フレームについて推測され、そのフレームにおいて固定され得、ベース・フレームを指していることがあることである。ただし、概して、この逆方向変位フィールドは、メッシュ中の折り畳みにより、一意でない。折り畳みは、非ベース・フレームf中のいくつかのロケーションsが2つ又はそれ以上のベース・フレーム・ロケーション
Figure 0007279939000001


Figure 0007279939000002

、...、によってマッピングされ得ることを意味し、すべてのそのような状況について二重マッピングという用語を使用する。ベース固定変位表示は、二重マッピングを解決し(resolve)、フレームf中で視認可能である(すなわち前景にある)特定のロケーション
Figure 0007279939000003

を識別する、ロバストな機構がなければ完了しないことになり、その場合、ベース・フレームを指す、対応する解決された変位ベクトルは、
Figure 0007279939000004

である。ベース・モデルがシーン深度(又は逆深度)情報を組み込む場合、二重マッピングによってもたらされるアンビギュイティは、視認可能ロケーション
Figure 0007279939000005

を最も小さい深度をもつものとして識別することによって、直ちに解決され得る。明示的深度情報が、利用可能でないか、又は、GOPのベース・フレームとすべての他のフレームとの間の変位関係を表現するのに十分でないかのいずれかである、より一般的な場合には、二重マッピングを解決するためにより高度な技法が使用され得、ローカル前景物体を識別するために変位フィールド中の不連続性がどのように使用され得るかの説明については、セクション4.2を参照されたい。
ここで、ベース変位フィールドが、図2において赤いドットによって示されている中断を伴うより興味深い場合について考える。中断点は、図において示唆されるように、ベース・メッシュ要素をより小さい領域に区分する。その上、各中断点は、図において緑色及び橙色のドットによって示されている、2つの新しいメッシュ・ノードを効果的に導入し、2つの新しいメッシュ・ノードのロケーションは、ベース・フレーム中の中断と一致し、それらの変位ベクトルは、中断されるアークの各端部から変位ベクトルを複製するか又は外挿することによって取得される。これらの新しい中断誘発ノードを、それらのそれぞれの変位ベクトルを使用して、各非ベース・フレームにマッピングすることは、ベース・フレームから視認可能でない非ベース・フレーム中の領域に対応する、メッシュ中の「ホール」を切り開くことができる。これらのいわゆるディスオクルージョンされた領域は、図においてピンク色の陰影によって示されている。また、変位フィールド中の中断誘発不連続性が、オクルージョンのエリアに対応する、二重マッピングを大量に生むソース(図に示されていない)を与え、前景物体の一方の側が背景コンテンツをディスオクルージョンするとき、他方の側は、一般に、二重マッピングを生成する。
したがって、ベース固定変位表示を完了するために、二重マッピングを解決することと、非ベース・フレームのディスオクルージョンされた領域内で適切な変位情報を割り当てることとの両方を行うことが必要であり、その結果、GOPの任意のフレームをGOPの任意の他のフレームから予測するために、及びその予測が有効であるロケーションを推測するために、変位補償予測演算が使用され得る。
これらの問題のソリューションは、以下で説明される、実施例の態様である。
4.1 埋め戻しを介して、ディスオクルージョンされた領域中で変位情報を割り当てること
上記で提起された第2の問題、すなわち、ディスオクルージョンされた領域中で物理的に有意味な変位情報を割り当てることの問題に対処するために、一実施例は、新規の埋め戻し方法論を採用する。ベース・フレーム中の中断点誘発(breakpoint-induced)ノード(図2における緑色及び橙色のドット)によって形成される三角形は、必然的に伸張する(それらがマッピングされるとき、それらのエリアは著しく増加する)。変位フィールド中の不連続性(すなわち、物体境界)の周りに形成することが予想される、これらの伸張する三角形のほぼ半分が「ディスオクルーディング」であり、残りの伸張する三角形が、二重マッピングの領域を示す、「折り畳み」である。ディスオクルーディング三角形は、正の行列式をもつ三角形として識別され、折り畳み三角形は、負の行列式によって特徴づけられる。折り畳み三角形は、少なくとも2つの他の三角形(ローカル前景の1つ及びローカル背景物体の1つ)がマッピングする領域にマッピングし、したがって、廃棄される。一方、ディスオクルーディング三角形は、他の三角形がマッピングしない領域にマッピングすることができ、これらの三角形は別々に扱われる必要があり、これは以下で説明される。ディスオクルージョンによってもたらされたホールは、最初に、ベース・フレーム中の中断点誘発ノードをリンクするいわゆる「中断誘発メッシュ要素」を追加することによって埋められる。これらのメッシュ要素は、ベース・フレーム中では0サイズを有するが、図2において破線の赤い線によって示されているように、非ベース・フレーム中では、ディスオクルージョンされた領域を埋めるために拡大する。
より一般的には、非ベース・フレーム中のディスオクルージョンされた領域は、かなりの拡大を常に伴い、そこで、ベース・フレーム中の小さい領域内で見つけられる変位が、その領域を非ベース・フレーム中のはるかに大きい領域に拡大する。ここで説明されるように、中断誘発ノードの使用は、変位フィールド中の不連続性の各側からの中断誘発ノードがベース・フレームにおいてコロケートされ、これが、ディスオクルージョンが非ベース・フレーム中のどこで生じても無限拡大比を呈する0エリアをもつメッシュ要素につながるので、ディスオクルージョンの識別におけるアンビギュイティを回避する。
したがって、中断誘発メッシュ・ノードに関連するこれらの特殊なメッシュ要素のために「∞要素」という用語を導入する。∞要素の以下の特性を強調することは、価値がある。
1. ∞要素を形成するメッシュ・ノードのうち、少なくとも2つがベース・フレームにおいてコロケートされる。
2. メッシュ中の∞要素の存在は、あらゆる非ベース・フレーム中のディスオクルージョンのすべての領域をカバーするのに十分である。これは、GOP中の各フレームが、関連する変位に従ってマッピングされるベース・フレームからのメッシュ要素によって確実にカバーされることを意味する。
∞要素は、任意の非ベース・フレームからベース・フレームを指す、逆方向変位フィールドがどこでも存在することを保証するが、それらは、物理的に有意味な逆方向変位値につながらない。これは、∞要素に関連する中断誘発ノード(たとえば、完全な黒い丸(ドット))の半分が背景とともに移動し、残りの半分(たとえば、丸の中の黒いドット)が前景とともに移動するからである。ただし、ディスオクルージョンされた領域内の変位は、完全に(ローカル)背景に関連するべきである。
埋め戻し方式は、GOPの最後のフレーム中のディスオクルージョンされた領域に新しい変位を割り当てることによって開始し、そのフレームは、この説明の目的で「埋め戻された(back-filled)」フレームとして識別され得る。上述のように、埋め戻されたフレーム中の各ディスオクルージョンされた領域は、ベース・フレーム中で0サイズを有する∞要素によってカバーされ始める。以下では、ディスオクルージョンされた領域中で物理的により有意味な変位情報を割り当てる2つの異なるやり方について説明する。第1の、より一般的な方法は、ローカル背景情報を外挿する。ベースメッシュ・オーグメンテーションと呼ばれる、第2の方法は、現在のベース・メッシュをオーグメントするために、他の手段によって、埋め戻されたフレームにおいて与えられる変位情報を活用し、この方法は、埋め戻されたフレームが別のGOPのベースフレームと一致するとき、特に興味深い。
4.1.1 背景外挿を使用する埋め戻し
このセクションは、ディスオクルーディングである領域中のベース・メッシュにローカル背景変位レイヤがどのように追加され得るかの一般的な方法について説明する。そのプロシージャを示すために図3を使用する。図では、メッシュ要素a~dは左側に変位する前景物体に属し、メッシュ要素e/fは物体境界(赤い破線)を横断しており、説明しやすいように、背景は静的(すなわち、変位なし)である。図3aに示されているように、そのノードが橙色及び緑色の丸によって示されている、fにおけるベース・フレーム中の0サイズの中断誘発メッシュ要素は、それが次のベース・フレームfにマッピングされると拡大し、ホール(黄色の三角形)を切り開く。
埋め戻されたフレーム中のそのようなディスオクルージョン・ホールを物理的に有意味な変位値で埋めるために、埋め戻されたフレームにおいて視認可能である(すなわち、ベース・フレームからマッピングされた他のメッシュ要素によってカバーされていない)各マッピングされた∞要素が、最初に、複製されて、埋め戻し(back-fill)要素になるものが生成される。結果として、各埋め戻し要素を画成するメッシュ・ノードは、ベース・フレームにおいてコロケートされている、少なくとも2つの中断誘発ノードを含む。中断誘発ノードの各ペアについて、1つが中断の前景側に属し、1つが中断の背景側に属する。これらを区別することは、埋め戻しプロシージャにとって極めて重要である。前景に属するものとして識別される各中断誘発ノードも複製され、複製は、(1つ又は複数の)∞要素のみに関連する元の中断誘発ノードの代わりに、(1つ又は複数の)関連のある埋め戻し要素に関連する。複製されたノードは、埋め戻しノードとして識別され、紫色のドットとして図3bに示されており、これらは、ベース・モデルからこれらのノードに最初に割り当てられた変位ベクトルが、カバーされていない背景との整合性を改善するために自由に変更され得るので、「フリー・ノード」とも見なされ得、その変位ベクトルは、埋め戻し要素によってモデル化されるべきである。
前景に属する中断誘発ノードを背景に属するものと区別することは、ベース・モデルがシーン深度(又は逆深度)値を組み込む場合、非常に簡単であり、中断誘発ノードがペアになり、ベース・フレームにおいてコロケートされるので、各ペアにおけるより大きい深度をもつノードは、自然に背景に関連し、他方のノードを前景に関連したままにする。深度が利用可能でないか、又は、変位フィールドを完全に表現するのに不十分である、より一般的な場合には、中断誘発ペア内の前景関連ノードと背景関連ノードとを区別するためにより高度の技法が使用され得、セクション4.3を参照されたい。
埋め戻されたフレーム中の埋め戻しノードのマッピングされたロケーションは、それらが生じた中断誘発ノードのマッピングされたロケーションに一致しなければならないが、埋め戻しストラテジーは、これらのノードに新しい変位ベクトルを割り当て、それらのロケーションを、ベース・フレームを含む、すべての他のフレーム内で効果的に変更する。このようにして、埋め戻されたフレーム中のディスオクルージョンに及ぶ∞要素は、その外観が、埋め戻されたフレーム中の対応する∞要素と同等であるが、他のフレーム中のものとは同等でない、埋め戻し要素(図3bにおける三角形g~h)に再マッピングされる。
埋め戻しメッシュ要素の(1つ又は複数の)他のノード上で見つけられる変位ベクトルを平均化する外挿プロシージャに基づいて、変位ベクトルが埋め戻しノードに割り当てられ、すなわち、これらは、元の∞要素を規定した中断誘発ノードの各ペアからの非フリー・ノードである。一実施例では、フリー・ノードのための変位ベクトルは、スプラット・プロシージャを介して取得された、ベース・メッシュのグリッド中のすべての「フィックスされた」ノード(すなわち、ローカル背景変位情報を搬送するノード)の加重平均を割り当てることによって、見つけられる。これは、コンピュータ・グラフィックス・カードにおいて効率的に実装され得る変位値のルックアップ・テーブルを作成する。埋め戻しノードへの変位ベクトルの再割当ては、埋め戻しメッシュ要素が、∞要素とは異なり、ベース・フレーム中でもはや0サイズを有しないことを意味する。図3cに示されているように、ベース・フレームに投影されたとき、埋め戻し要素は、ローカル背景モデルとして解釈され得る変位ジオメトリの新しい「下にある」表現になる。
これらの埋め戻し要素が中間フレーム・ロケーション(たとえば、図3cにおけるf)にマッピングされたとき、背景レイヤの一部がカバーされなくなり(緑色のエリア)、別の部分(黄色のエリア)は依然として前景メッシュ要素によってカバーされる。重要性は、これが、ベース・フレームの中間に補間される任意のフレームについてディスオクルージョンの領域中で、幾何学的に整合する変位情報を割り当てることを可能にすることである。
このようにして、元の2Dベース・メッシュは、いかなる追加のコーディングされた変位情報又は他のサイド情報の必要もなしに、フレーム間推理のみを通してレイヤード・メッシュにコンバートされる。
4.1.2 オーグメント・メッシュ(Augmenting Mesh)を使用する埋め戻し
このセクションは、別のメッシュからの情報を用いて現在のベース・メッシュをオーグメントするやり方について説明し、別のメッシュは、別のGOPのベース・メッシュ、又はコーディングされた別のメッシュのいずれかであり得、このメッシュをオーグメント・メッシュと呼ぶ。一実施例では、現在のベース・メッシュから無限大三角形によってマッピングされた領域をカバーする、他のベース・フレームのすべての三角形(すなわち、すべてのディスオクルージョンされた領域のセット)が、オーグメント・メッシュから現在のベース・メッシュにマッピングされ、そこで、それらは(ローカル背景)オーグメンテーション・レイヤを形成する。ベース・メッシュ・オーグメンテーションの主な魅力は、新しい物体が現れつつあるディスオクルージョンされた領域を扱うことが可能であることである。
ベース・メッシュ・オーグメンテーションに伴って生じる主な問題は、現在のベース・メッシュが有効値を有しない領域中でのみオーグメント・メッシュ要素が適用されるので、現在のベース・メッシュから、埋め戻されたオーグメント・メッシュ要素への(ハード)遷移境界において不整合がもたらされ得ることである。さらに、オーグメント・メッシュ要素は、潜在的に、関係しないディスオクルージョン領域に及ぶほど十分に大きいことがあり、これは、埋め戻しプロシージャにおけるアンビギュイティにつながる。この問題を大幅に緩和するために、定められた最大要素サイズに基づいて、大きいメッシュ要素をより小さいメッシュ要素に区分し、ディスオクルージョンされた領域をカバーするもののみを残す。
採用される埋め戻し方法にかかわらず、埋め戻しメッシュ要素は、すべて、オーグメントされたベース・モデルの一部としてベース・フレーム内に収集され、そこで、それらは、推論ローカル背景レイヤとして解釈され得、これは、複数の補間されたフレームにわたるディスオクルージョンされた領域中の整合する変位割当てを保証する。
4.2 再帰的埋め戻し及び変位補償フレーム予測
上記で説明されたプロセスは、ベース・フレーム中の新しい下にあるメッシュ要素につながる、埋め戻しノードへの変位ベクトルの割当てが、最初に、GOPの最後のフレーム、すなわち、埋め戻されたフレームから引き起こされるので、埋め戻しと呼ばれる。これは、ディスオクルージョンの領域が最大になる可能性がある、ベース・フレームから最も遠いフレームである。厳密に必要というわけではないが、フレーム間変換が、ベース・フレームにおいて、イントラコードディングされたテクスチャ情報を与えるように準備することが望ましい。埋め戻しによって生成された、再マッピングされたメッシュ要素は、GOP自体のベース・フレームからではなくGOPの最後のフレーム(次のベース・フレーム)から予測され得るコンテンツに対応する。
ベース・モデル内に埋め戻し要素を含めた後に、モデルのすべての要素が、GOP中の中間フレームにマッピングされ得る。すべての埋め戻しが完了するまで削除されない∞要素の存在は、これらのマッピングされた要素が、下にあるジオメトリにかかわらず、中間フレームをカバーすることを保証する。マッピングされた∞要素が、ベース・モデルからのマッピングされた埋め戻し要素又はマッピングされた元のメッシュ要素のいずれかによって、中間フレーム内でカバーされる可能性もある。ただし、∞要素のみによってカバーされるディスオクルージョンの小さい領域が残ることが起こり得る。これに対処するために、埋め戻しプロシージャが繰り返され、カバーされていない∞要素が複製され、新しい埋め戻し要素を伴い、中間フレーム(新しい埋め戻しフレーム)中の新しい埋め戻し要素のマッピングされた外観は、∞要素の外観と同等である。
新しい埋め戻し要素は、元の中断誘発ノードのペアから生じるメッシュ・ノードによって規定され、その中断誘発ノードの前景/背景割当ては、上記で説明されたように、(先行する埋め戻しステップから)すでに知られているか、又は、新たに決定される必要があるかのいずれかである。決定されると、各中断誘発ペア内の背景ノードが、複製されて、関連のある埋め戻し要素に関連する新しい埋め戻しノードを形成する。これらの新しい埋め戻しノードは、セクション4.1.1において説明された同じ外挿プロシージャを使用して、新しい変位ベクトルを自由に割り当てられ、これにより、埋め戻しメッシュ要素が、ベース・フレーム内に新しいローカル背景レイヤを構成することになる。
このようにして、GOP内で中間フレームを見に行くとき、ベース・モデルは、埋め戻しノードと埋め戻しメッシュ要素とを用いて漸進的にオーグメントされ、その結果、ベース・モデルは、最終的に、完全で幾何学的に整合する様式でGOPのすべてのフレーム間の関係を表現する。
埋め戻し要素の存在は、オーグメントされたベース・モデルからのメッシュ要素が新しい中間フレームにマッピングされるにつれて、二重マッピングの可能性が、ますます高くなることを意味する。すべてのそのような二重マッピングは、すでに手短に紹介された方法を使用して解決され得る。しかしながら、埋め戻し要素が発見された埋め戻されたフレームを識別するレイヤIDを各埋め戻し要素に割り当てることは、有用である。ベース・メッシュの元の要素は、レイヤID0を割り当てられる。GOPの最後のフレーム(たとえば、f)を埋め戻すときに導入される要素は、レイヤID1を割り当てられる。最初の中間フレーム(たとえば、fN/2)を埋め戻すときに導入される要素は、レイヤID2を割り当てられ、以下同様である。∞要素は、概念的に、∞のレイヤidを割り当てられる。このようにして、フレーム・ロケーションが、異なるメッシュ要素によってマッピングされたとき、二重マッピングは、より小さいIDをもつ要素のほうを優先して解決され得る。
一実施例では、メッシュ要素のマッピングを実行し、二重マッピングを解決し、効率的なやり方で複製されて、新しい埋め戻し要素になる必要がある∞要素を識別するために、旧来のコンピュータ・グラフィックス・ワークフローで見られるものと同様の概念を使用することができる。(オーグメントされた)ベース・モデル中の各ノードは一意のIDを割り当てられ、各メッシュ要素も一意のIDを割り当てられる。ベース・モデル要素を別のフレームにマッピングするとき、そのフレームは、ピクセル・ロケーションごとに1つのIDをもつ、IDマップを割り当てられる。IDマップは、各メッシュ要素がマッピングされるにつれて漸進的にポピュレートされ、要素のIDが、マッピングされた要素によってカバーされるIDマップ中のすべての空のロケーションに転移する。二重マッピングは、メッシュ要素が、空でない、マッピングされたフレームのIDマップ中のロケーションをカバーするとき、直ちに発見される。その時点において、現在考慮されているロケーションと同じロケーションにマッピングするメッシュ要素を直ちに発見するために既存のIDが使用され、すでに説明されたように、二重マッピング解決(resolution)技法が適用される。すべてのメッシュ要素が当該のフレームにマッピングされると、∞要素を識別するIDマップ中のロケーションは、埋め戻しが必要とされるロケーションである。その各々が複製されて、再マッピングされる埋め戻し要素及び埋め戻しノードを生成する、視認可能のままであるすべての∞要素を識別するために、単純なピクセル及び参照計数技法が使用され得る。
GOPをカバーするために生成される必要がある埋め戻しメッシュ要素の数を最小限に抑えるために、一実施例は、再帰的埋め戻しストラテジーを採用する。この手法では、フレームfにベースを置くGOPに関連する最初の埋め戻されたフレームが、fである。次の埋め戻されたフレームが、fN/2である。これの後に、フレームfN/4及びf3N/2が埋め戻される。プロセスはこのようにして続き、GOPの幅優先ダイアディック・ツリー・スキャン(breadth-first dyadic tree scan)に従う。
(f以外の)中間フレームの埋め戻し中に追加される新しい埋め戻されたメッシュ要素が、ベース・フレームfと次のGOPのベース・フレームfの両方にカバーされる(すなわち、視認可能でない)中間フレームの領域に対応することは、注目に値する。したがって、これらの領域は、バイディスオクルージョンされた(bi-disoccluded)と理解され得る。変位補償フレーム間変換では、バイディスオクルージョンされた領域は、特定の課題を提示する。これらは、従来のビデオ・コーデックにおいてイントラコーディングされ得る領域である。フレーム間変換のための類似する演算は、インペインティングである。単純なピクセル複製方法から方向外挿技法及び勾配積分方法にわたる、多くの空間インペインティング方法が当業者に知られている。
幸いにも、イントラコーディング、又は部分的にオクルージョンされた(単方向)予測の必要を告知するために、予測モード・フラグが明示的に通信される必要はない。代わりに、すべての視認性情報が、メッシュ要素のマッピングから自然に出現する。
4.3 前景/背景ディスアンビギュエーション及び二重マッピング
前述のように、メッシュ要素がベース・メッシュからGOP中の他のフレームにマッピングされるとき、二重マッピングが発生し得る。これらは、メッシュ中の中断と折り畳みの両方から生じる。どこで二重マッピングが観測されても、前景物体の変位を下にある(すなわちローカル背景)物体の変位と区別することが必要である。前景変位ベクトルと背景変位ベクトルとの間の弁別は、上記で説明された埋め戻しプロシージャにおいてフリー・ノードを識別するためにも必要とされる。
幸いにも、絶対的レイヤリングが決定又は推定される必要はない。あるフレーム中で一致しているノードに属する2つの元の又はマッピングされた変位モデルを弁別する必要が常にあるにすぎない。ベース・モデルがシーン深度を組み込む場合、この2値弁別は、極めて単純であり得、前景モデルをより小さい深度ものとして識別する。
深度情報が利用可能でないか又は正確に知られていないことがある場合、同じロケーションにマッピングする前景モデルと背景モデルとを弁別するために、追加の手がかりが必要とされ得る。これのために、変位フィールド中の不連続性が前景物体の境界において発生するという観測に依拠することができる。これは、前景変位が、フレームfについてのベース・メッシュ中の不連続性を、フレームfに関連する、次のベース・メッシュ中の不連続性にマッピングするものであるべきであることを意味する。そのようなストラテジーは、動きの推論において、及び時間フレーム補間について大いに成功していることがわかっている(たとえば[13])。
この実施例は、前景変位モデルが、フレームfについてのベース・メッシュ中の不連続性を、フレームfに関連する、次のベース・メッシュ中の不連続性にマッピングするものであるべきであるという観測に依拠する。ベース固定変位フレームワークの実施例では、各GOPの最後のフレームは次のGOPの最初のフレームでもあり、その結果、フレームfにおいて固定される、次のGOPのベース変位モデルMが、現在のGOPのベース変位モデルM中で見つけられる変位と比較され得る。本質的に、ベース変位モデルM中の不連続性(又は中断)は、中断の両側で見つけられる変位ベクトルを使用してフレームfにマッピングされ得、モデルM中の同様の発散又は収束の領域に不連続性をマッピングする変位ベクトルは、前景変位ベクトルに対応する可能性が高いものである。
埋め戻しプロシージャの目的で、ベース・メッシュ中のコロケートされた中断誘発ノードの各ペアが、ディスオクルージョンされた領域に及ぶ埋め戻されたフレーム中の線分にマッピングすることがわかっている。この現象は、ベース・モデルM中の発散に対応する。中断誘発ノードの各そのようなペアから、フリー・ノードは、フレームf中のそのロケーションがM中の発散と最も類似している次のベース・モデルM中の発散値を呈するノードとして識別される。
二重マッピングを解決する目的で、前景に属するメッシュ・ノード又は領域は、以下のように決定される(図4参照)。第1に、非ベース・フレームf中の検出された二重マッピングの「起点」sが、ベース・フレーム中の対応するソース・ロケーション
Figure 0007279939000006


Figure 0007279939000007

とを接続する線分を探索することによって見つけられ、これは、変位フィールドが折り畳まれるロケーションを探す。この線分を「折り畳み(fold)探索経路」と呼ぶ。折り畳みは、ベース変位フィールド中の収束に関連し、したがって、折り畳みロケーションは、変位収束値(負の発散)が最大である探索経路に沿ったポイントとして識別される。このロケーションは、通常、ベース変位フィールド中の中断に対応する。折り畳みロケーションは、折り畳みの各側で(たとえば、折り畳み探索経路に沿って各方向において1ピクセルの距離のところで)変位ベクトルを使用して、フレームfにマッピングされ、次のベース変位モデルM中の発散は、どの変位ベクトルが前景に属するかを発見するために、ベース変位モデルM中の発散と比較される。折り畳みの前景側は、その変位ベクトルが次のベース・フレーム中の同様の収束(負の発散)のロケーションにそれを搬送する側である。
図4は、前景物体を識別するために変位フィールドの発散を使用する二重マッピング解決プロシージャの図である。T0→tを使用してfからfにマッピングされ、ここで、T0→tはフレームfからのアフィン・マッピングを規定するとき、
Figure 0007279939000008


Figure 0007279939000009

とは、f中の同じロケーションmにマッピングする。
Figure 0007279939000010


Figure 0007279939000011

とを接続することによって形成される、「折り畳み探索経路」lに沿って最大収束のポイント(赤)を探索する。
Figure 0007279939000012


Figure 0007279939000013

とを、それぞれ、
Figure 0007279939000014


Figure 0007279939000015

とにわずかにより近い線上の2つのポイントとする。
Figure 0007279939000016


Figure 0007279939000017

とが次のベース・フレームfにマッピングされたとき、より大きい収束の領域にマッピングするものが前景変位を識別し、本実例では、
Figure 0007279939000018

が、
Figure 0007279939000019

がより大きい収束の領域中に入るので、前景変位である。
すべてのメッシュ要素がターゲット・フレームにマッピングされ、すべての二重マッピングが解決された後に、ターゲット・フレームにおいて、完全変位フィールドを有する。
4.4 視認性アウェア(Visibility-Aware)変位補償フレーム補間
最後のセクションでは、変位情報が、ベース・フレームfから、補間しようとするターゲット・フレームfにどのようにマッピングされ得るかについて説明した。このセクションでは、ターゲット・フレームfがN={1,2,...}個の参照フレーム{frj},j∈{1,...,N}からどのように補間され得るかについて説明する。ベース・モデルがGOP中のベース・フレームから任意の他のフレームへの変位の表現を保持するので、変位ベクトルの単純な構成を使用して、GOPの任意のフレームからGOPの任意の他のフレームへの変位を容易に推論することができる。すなわち、ターゲット・フレームf中のロケーションxを仮定すれば、参照フレームf中の対応するロケーションは、以下のように取得され得る。
Figure 0007279939000020

、ここで、
Figure 0007279939000021

上記の式が、ターゲット・フレームとfの予測に関与するすべての参照フレームとの間の対応を確立することを可能にするが、すべてのロケーションがすべての参照フレームにおいて視認可能であるとは限らないことに留意することは、重要である。
視認性を査定するために、場合によっては、最も単純なやり方は、メッシュ要素IDを比較し、メッシュ要素IDが一致する場合、ロケーションを視認可能であると標示することである。しかしながら、この推理は、参照フレーム中のサンプル・ロケーションが概して整数ロケーション上になく、最も近いネイバーのメッシュ要素IDが、ネイバリング・メッシュ要素が同じ(アフィン)平面を表現する場合でも、ターゲット・フレーム・メッシュ中のIDとは異なり得るので、メッシュ要素の境界において問題になる。さらに、メッシュ要素は1よりも小さいエリアに縮小し得、その場合、それらは整数ロケーション上にないことがあり、したがって、それらはメッシュ要素IDマップに登録されない。
これに照らして、よりロバストなやり方は、順方向/逆方向整合性検査を実行することである。
Figure 0007279939000022

を使用することは、ロケーションが参照フレームからターゲット・フレームにマッピングされることを示し、順方向/逆方向整合性検査は、単に、
Figure 0007279939000023

であり、ここで、θは、丸め誤差に起因する変位値の小さい差を考慮するために追加される小さい値である。したがって、ターゲット・フレームの予測に関与する各参照フレームについての視認性マスクを以下のように計算する。
Figure 0007279939000024

ここで、
Figure 0007279939000025
次いで、ターゲット・フレーム中の各ロケーションmが次のように計算され得る。
Figure 0007279939000026

ここで、frj→tがターゲット・フレームfへの変位補償参照フレームfrjを示すために使用され、d(・,・)は距離測度である。すなわち、ターゲット・フレーム中の各ロケーションは、それぞれの参照フレームまでのターゲット・フレームの距離によって重み付けされた、ロケーションが視認可能であるすべての参照フレームの重み付けされた組合せとして予測される。ロケーションが参照フレームにおいて視認可能でない場合、いくつかの方法が適用され得る。上記の公式化では、視認可能でないと見なされるロケーションについての単純な重み付け予測に頼る。別の、好ましいやり方は、参照フレームにおいて視認可能でないすべてのロケーションを埋めるためにインペインティング・ストラテジーを採用することであり、これは、概して、参照フレームのうちのいずれにおいても視認可能でない領域中のより妥当と思われる補間につながる。
4.5 より高次元のGOPの拡張
ここで、より高次元のGOPを扱うために上記の原理を拡張する。簡単のために、マルチビュー・イメージング適用例のコンテキストにおいて自然に生じる2次元GOPの場合を考慮する。たとえば、2D GOPは、2Dカメラ・アレイを介して獲得された静的イマジェリー、又は線形(1D)カメラ・アレイを介して獲得されたマルチビュー・ビデオを表現することに適する。非線形カメラ・アレイを用いてより高次元のGOPに拡張し、マルチビュー・ビデオに拡張することは、当業者に明らかであるべきであり、したがって、ここで明示的に説明される必要はない。
図5は、より高次元のピクチャ・グループ(GOP)の例示的なタイリングである。各GOPは、それの左上隅において1つのベース・フレームを有する。隣接するGOPは、各方向において、1つのフレームだけ重複し、存在しない追加の重複するGOPについてのベース・フレームであるフレームが、薄い灰色のテキストで示され、これらは、いわゆる「権利のない(disenfranchised)ベース・フレーム」である。
図5は、前に提示された1D GOP構造の最も自然な拡張を表すGOPタイリング方式を示す。この方式では、GOPについてのベース・フレームはその左上隅にあり、隣接するGOPは、水平に及び垂直に、1つのフレームだけ重複する。1Dの場合のように、変位補償フレーム間変換が、同じGOP中で見つけられるフレーム間の予測のみを伴うと仮定する。これが、GOPが重複することを必要とする理由である。このようにして、隣接するGOP間の交差部において見つけられる共通フレームが、それらのGOPの各々内で見つけられるフレームを予測するために使用され得る。
重複するGOPへの追加の利益は、追加のコーディングされた変位情報の潜在的利用可能性である。前述のように、2D変位フィールドは、ベース・フレーム内でのみコーディングされ、各GOPは、(潜在的に)それ自体の1つのベース・フレームのみを有し、上記1つが、ここではその左上隅にある。しかしながら、GOPが、コーディングされた変位情報をもつそれ自体のベース・フレームを有する、隣接するGOPと重複する場合、セクション4.1.2において説明されたベース・メッシュ・オーグメンテーション・ストラテジーを使用する埋め戻しの第1の段階の性能を改善するためにこの別個の情報を使用することが可能である。
要約すると、GOP-0についてのベース・フレームf0,0のメッシュ要素がf0,Nにマッピングされたとき、埋め戻し要素のために、f0,N内で視認可能であるがf0,0内で視認可能でない、そのフレーム(埋め戻されたフレーム)内の領域を埋めるために生成される。セクション4.2において説明された埋め戻しアルゴリズムは、∞要素を再マッピングするために作成される埋め戻しノードに変位値を割り当てるために、外挿プロシージャを使用する。しかしながら、フレームf0,Nは、外挿の代わりに使用され得る明示的にコーディングされた変位情報をすでに含んでいる。これは、埋め戻されたフレームが別のGOPのベースであるときのみ、当てはまる。
図5内のいくつかのフレームは、それらがそれら自体の隣接するGOPを有しないにもかかわらず、ベース・フレームとして識別される。たとえば、フレームf2M,0は、タイリングがGOPの3行目に続かない限り、それ自体のGOPを有しない。これらの権利のないベース・フレームは、コーディングされた変位情報を搬送する必要がない。しかしながら、権利のないベースを含むGOPについての埋め戻されたジオメトリの品質を改善するために変位情報が使用され得るように、権利のないベース内の変位情報を選択的に符号化することは、有益であり得る。
埋め戻しアルゴリズムは、1D GOPと2D GOPとについて同等であるが、2Dの場合には、埋め戻しメッシュ要素を生成するためにフレームを見に行くべきである明らかな順序はない。埋め戻し順序は、GOPについてのベース・モデルがオーグメントされる順序を決定し、これは、究極的には、GOPの所与のフレームについて生成される推論変位値に影響を及ぼす。変位補償フレーム間変換が概して埋め戻し順序に依存するので、埋め戻し順序が明確であることは重要である。
4.6 ターゲット・フレームの変位補償フレーム補間のためのテクスチャ最適化
ターゲット・フレームfの動き補償予測は、変位フィールドが不連続である可能性がある、物体境界の周りの視認可能アーテファクトを呈することができる。このセクションでは、そのようなアーテファクトを選択的に低減する2つの実施例を提示する。前述のように、ターゲット・フレームfがN個の参照フレームfrj,j∈{1,...,N}から予測されると仮定し、ここで、変換構造に応じて、ベース・フレーム自体がターゲット・フレームであり得ることがわかっている。
4.6.1 単方向予測と多方向予測との間の遷移の平滑化
ディスオクルージョン境界において、オクルージョン・アウェア・フレーム補間方法を使用して補間された、アップサンプリングされたフレームは、問題を有することがあり、すなわち、単方向予測から多方向予測への急激な遷移は、2つの参照フレーム間で照度が変化する場所における人工的な境界につながることがある。変位補償参照フレームfrj→tのいずれもテクスチャ・データにおいてそのような遷移境界を含んでいることが予想されず、そのような遷移境界は変位補償フレームが一緒に混合されると生じるにすぎないことに気づいた。したがって、提案する方法は、fの各ロケーションにおける周波数成分を動き補償参照フレームのうちの1つに制限することからなる。
好ましい実施例では、これは、ウェーブレット領域において達成される。同様の結果を達成する他のやり方が、当業者に明らかである。フレームfの(インターリーブされた)2Dウェーブレット分解を示すために、
Figure 0007279939000027

を使用し、特定のウェーブレット係数kを利用するために、
Figure 0007279939000028

を使用し、ここで、kは、変換におけるレベル、サブバンド、及び空間位置に関する情報を収集する。次いで、
Figure 0007279939000029

を規定する。
すなわち、τ[k]は、kにおいて評価される、変位補償参照フレームのウェーブレット分解の最も大きい(視認可能)ウェーブレット係数を表す。次いで、
Figure 0007279939000030

が以下のように計算される。
Figure 0007279939000031

次いで、
Figure 0007279939000032

が、
Figure 0007279939000033

を合成することによって取得される。この選択的ウェーブレット係数減衰に関して特に魅力的であることは、それがフレーム全体に広域的に適用され、関与するヒューリスティック又はパラメータがないことである。
4.6.2 変位する物体の周りの光ぼけ合成
提案された実施例において生じることがある別のアーテファクトは、テクスチャ領域における変位する物体の境界において過度に鋭い遷移がもたらされることであり、これは、反転された変位フィールドMt→bが、変位する物体の境界の周りで不連続であるからである。これは、前景物体を効果的にカットアウトし、それをターゲット・フレームにペーストする。実際には、参照フレーム中の遷移は、光ぼけにより、より平滑であり、これは、イメージング・プロセスの不可避の側面である。上記で説明されたウェーブレット・ベース減衰ストラテジーは、不自然に鋭い不連続性が変位補償参照フレーム{frj}の両方において存在することが予想されるので、この問題を解決することができない。
光ぼけを合成する効果的なやり方を達成する実施例は、変位する物体の境界の指示として、マッピングされた(及び反転された)変位フィールドMt→bの発散を使用する。変位フィールドの発散の絶対値があるしきい値θよりも大きいすべてのピクセルにローパス・フィルタが適用され、次いで、
Figure 0007279939000034

として示された、光ぼけ合成をもつ変位補償非ベース・フレームは、次のように取得される。
Figure 0007279939000035

ここで、h[m]は、2次元ローパス・フィルタのカーネルである。明らかに、上記で説明された2つのテクスチャ最適化方法は、一緒に組み合わせられ得る。
図6は、提案されたベース・モデルを採用するエンコーダの概観を示す。エンコーダ方式への入力は、ビデオ・シーケンス、マルチ・ビュー・イマジェリー、又はマルチ・ビュー・ビデオ・シーケンスのいずれかである。入力から、ベース・モデルが推定され(参照符号100)、ベース・モデルは、ピクチャ・グループ(GOP)中のベース・フレーム101からすべての他のフレームへの変位情報(及び他の関連のある関係)を表現する。次いで、ベース・モデル102が、フレーム間変換103を引き起こすために使用される。次いで、サブ・バンドが、空間冗長性を活用する空間変換104を受ける。最後に、サブ・バンドとベース・モデルとが符号化されて105、コード・ストリームが形成される。
図7は、提案されたベース・モデルを採用するデコーダの概観を示す。最初に、サブ・バンドとベース・モデルとが復号される110。次いで、サブ・バンドは逆空間変換111を受ける。最後に、フレーム間変換を反転させること112によって、復号されたシーケンスが取得される。
上記で説明された方法、プロセスを実装するエンコーダ及びデコーダは、ハードウェア、ソフトウェア、ハードウェア、ソフトウェア及びファームウェアの組合せを使用して実装され得る。ソフトウェアが利用される場合、コンピュータ可読媒体上に設けられるか、又はデータ信号として、若しくは他のやり方で送信され得る。
上記で説明された実施例によるベース固定手法の要素は、変位埋め戻しプロシージャであり、それにより、ディスオクルージョン・ホールが変位推論中に観測されるときはいつでも、ローカル背景変位レイヤがベース・モデルに追加される。これらの「背景レイヤ」は、ディスオクルージョンの領域中の幾何学的に整合する変位情報の割当てを保証し、これは、視覚認知のために大いに重要である。別の要素は、変位する物体の周りのローカル前景/背景関係を識別するロバストな方法であり、これは、たとえば変位がシーン中の動きに起因する場合のように、そのような情報が変位情報から推測され得ない場合に行われる。これらの場合には、物体境界が前景物体とともに変位する観測に基づく前景変位識別プロシージャを提案する。
有利には、実施例では、ベース固定手法は、空間(すなわち、マルチビュー)及び/又は時間(すなわち、ビデオ)にわたって高度にスケーラブルである圧縮システムの展開を可能にし、両方の次元にわたって任意のフレームレートのシームレス・アップサンプリングを可能にする。ベース固定手法の強い興味をそそる特徴は、ベース変位モデルを推定するために使用されるすべてのフレームがコーディングされなければならないとは限らないことである。すなわち、高品質変位モデルを推定するために、記録されたすべてのフレームを使用し得、ただし、これらのフレームの一部分のみがコーディングされ、すべての「中間の」フレームが、純粋に、説明された幾何学的に整合するフレーム補間プロシージャを使用して補間される。これは、予測されることになるあらゆるフレーム(すなわち、ターゲット・フレーム)において動き情報が表現及び推定される既存のビデオ圧縮システムとは対照的である。そのような「予測中心」圧縮システムでは、動き推定は日和見的であり(すなわち、それは、シーンの明らかな動きを表現することを明示的に試みず)、したがって、より有意味な動きを(再)推定することなしにデコーダにおいてフレームレートを増加させることは、可能でない。
広く説明されたように、本発明の趣旨又は範囲から逸脱することなく、特定の実施例において示されているように、多数の変形及び/又は変更が、本発明に対して行われ得ることが、当業者によって諒解されよう。したがって、本実施例は、あらゆる点で限定的ではなく例示的であると見なされるべきである。
5.参考文献
[1] B.-D.Choi、J.-W.Han、C.-S.Kim及びS.-J.Ko、「Motion-compensated frame interpolation using bilateral motion estimation and adaptive overlapped block motion compensation」、IEEE Transactions on Circuits and Systems for Video Technology、vol.17、no.4、407~416頁、2007年4月。
[2] S.-G.Jeong、C.Lee及びC.-S.Kim、「Motion-compensated frame interpolation based on multihypothesis motion estimation and texture optimization」、IEEE Transactions on Image Processing、vol.22、no.11、4495~4509頁、2013年11月。
[3] D.Kim、H.Lim及びH.Park、「Iterative true motion estimation for motion-compensated frame interpolation」、IEEE Transactions on Circuits and Systems for Video Technology、vol.23、no.3、445~454頁、2013年3月。
[4] A.Secker及びD.Taubman、「Lifting-based invertible motion adaptive transform (LIMAT) framework for highly scalable video compression」、IEEE Transactions on Image Processing、vol.12、no.12、1530~1542頁、2003年12月。
[5] Y.Andreopoulos、A.Munteanu、J.Barbarien、M.van der Schaar、J.Cornelis及びP.Schelkens、「In-band motion compensated temporal filtering」、Signal Processing:Image Communication、vol.19、no.7、653~673頁、2004年7月。
[6] M.Flierl及びB.Girod、「Video coding with motion-compensated lifted wavelet transforms」、Signal processing:Image Communications、vol.19、no.561~575、2004年7月。
[7] A.Golbelkar及びJ.Woods、「Motion-compensated temporal filtering and motion vector coding using biorthogonal filters」、IEEE Transactions on Circuits and Systems for Video Technology、vol.17、no.4、417~428頁、2007年4月。
[8] C.-L.Chang、X.Zhu、P.Ramanathan及びB.Girod、「Light field compression using disparty-compensated lifting and shape adaptation」、IEEE Transactions on Image Processing、vol.15、no.4、793~806頁、2006年4月。
[9] J.-U.Garbas、B.Pesquet-Popescu及びA.Kaup、「Mehods and tools for wavelet-based scalable multiview video coding」、IEEE Transactions on Circuits and Systems for Video Technology、vol.21、no.2、113~126頁、2011年2月。
[10] H.G.Lalgudi、M.W.Marcellin、A.Bilgin、H.Oh及びM.S.Nadar、「View compensated compression of volume rendered images for remote visualization」、IEEE Transactions on Image Processing、vol.18、no.7、1501~1511頁、2009年7月。
[11] R.Mathew及びD.Taubman、「Scalable modeling of motion and boundary geometry with quad-tree node merging」、IEEE Transactions on Circuits and Systems for Video Technology、vol.21、no.2、178~192頁、2011年2月。
[12] S.Milani及びG.Calvagno、「Segmentation-based motion compensation for enhanced video coding」、IEEE International Conference on Image Processing、1685~1688頁、2011年9月。
[13] I.Daribo、D.Florencio及びG.Cheung、「Arbitrarily shaped sub-block motion prediction in texture map compression using depth information」、Picture Coding Symposium(PCS)、121~124頁、2012年5月。
[14] A.Zheng、Y.Yuan、H.Zhang、H.Yang、P.Wan及びO.Au、「Motion vector fields based video coding」、IEEE International Conference on Image Processing、2095~2099頁、2015年9月。
[15] G.Ottaviano及びP.Kohli、「Compressible motion fields」、Proc.IEEE Conference on Computer Vision and Pattern Recognition(CVPR)、2251~2258頁、2013年6月。
[16] A.T.Naman及びD.Taubman、「Flexible synthesis of video frames based on motion hints」、IEEE Transactions on Image Processing、vol.23、no.9、3802~3815頁、2014年9月。
[17] D.Rufenacht、R.Mathew及びD.Taubman、「A novel motion field anchoring paradigm for highly scalable wavelet-based video coding」、IEEE Transactions on Image Processing、vol.25、no.1、39~52頁、2016年1月。
[18] D.Rufenacht、R.Mathew及びD.Taubman、「Bidirectional, occlusion-aware temporal frame interpolation in a highly scalable video setting」、Picture Coding Symposium(PCS)、5~9頁、2015年5月。
[19] R.Mathew、S.Young及びD.Taubman、「Optimization of optical flow for scalable coding」、Picture Coding Symposium(PCS)、70~74頁、2015年5月。
[20] R.Mathew、D.Taubman及びP.Zanuttigh、「Scalable coding of depth maps with R-D optimized embedding」、IEEE Transactions on Image Processing、vol.22、no.5、1982~1995頁、2013年5月。
[21] R.Szeliski及びH.-Y.Shum、「Motion estimation with quadtree splines」、IEEE Transactions on Pattern Analysis and Machine Intelligence、vol.18、no.12、1199~1210頁、1996年12月。
[22] N.Mehrseresht及びD.Taubman、「An efficient content-adaptive motion-compensated 3-D DWT with enhanced spatial and temporal scalability」、IEEE Transactions on Image Processing、vol.15、no.3、1397~1412頁、2006年3月。
[23] J.Revaud、P.Weinzaepfel、Z.Harchaoui及びC.Schmid、「Epicflow:edge-preserving interpolation of correspondences for optical flow」、Proc.IEEE Conference on Computing and Visual Pattern Recognition(CVPR)、2015年6月。
[24] S.Young及びD.Taubman、「Rate-distortion optimized optical flow estimation」、IEEE International Conference on Image Processing、1677~1681頁、2015年9月。
[25] D.Taubman、「High perfomance scalable image compression with EBCOT」、IEEE Transactions on Image Processing、vol.9、no.7、1151~1170頁、2000年7月。
[26] D.Sun、J.Wulff、E.Sudderth、H.Pfister及びM.Black、「A fully connected layered model of foreground and background flow」、IEEE Conference on Computer Vision and Pattern Recognition(CVPR)、2451~2458頁、2013年。

Claims (18)

  1. ビデオ及び/又はマルチビュー・シーケンスのフレーム間の変位情報を表す方法であって、複数のビデオ及び/又はマルチビュー・シーケンスの複数のフレームの少なくともひとつをピクチャ・グループ(GOP)に割り当てるステップと、各GOPについてのベース変位モデルを与えるステップであって、前記ベース変位モデルが、前記GOPの指定されたベース・フレーム中の各ロケーションを非ベース・フレームである前記GOPの各他のフレーム中の対応するロケーションに搬送する変位フィールドを表現する、与えるステップと、前記ベース変位モデルから前記GOPの前記フレーム間の他の変位関係を推論するステップとを含み、
    前記ベース変位モデルは、変形可能なベース・メッシュを介して表現され、前記メッシュのノードが前記GOP中の各非ベース・フレームについて1つの変位ベクトルを割り当てられ、
    前記ベース変位モデルにおける中断が、前記ベース・フレーム中の無視できるサイズを有する、中断誘発メッシュ要素であるベース・メッシュ要素のサブセットによってカバーされ、前記中断誘発メッシュ要素の前記ノードが、コロケートされたペアで現れ、各ペアの一方のノードが、前記中断の一方の側に関連する前記変位ベクトルを搬送し、他方が、前記中断の他方の側に関連する前記変位ベクトルを搬送する、方法。
  2. 前記ベース変位モデルが、前記GOPの前記ベース・フレームから各他のフレームへの区分的に平滑な変位フィールドを表現し、不連続性が、前記ベース変位モデルにおける中断において発生する、請求項1に記載の方法。
  3. 前記GOPの非ベース・フレーム中のロケーションを前記ベース・フレームに搬送する、逆方向変位フィールドは、前記変形可能なベース・メッシュの要素を前記非ベース・フレームにマッピングすることと、前記関連するベース変位ベクトルによって対応する変形可能なベース・メッシュ・ノード・ロケーションを変位させることによってそのノード・ロケーションが取得される推論メッシュ要素のセットを生成することと、前記マッピングから決定された関連するベース変位ベクトルを反転することによって前記推論メッシュ要素に反転変位ベクトルを割り当てることとによって推論される、請求項1に記載の方法。
  4. 前記非ベース・フレーム中で重複する推論メッシュ要素に対応する二重マッピングが発生し、当該二重マッピングは、前記重複する推論メッシュ要素のうちのどれが前景物体に属する可能性が高いかを決定するために前景背景弁別プロセスを使用して解決される、請求項3に記載の方法。
  5. 前記複数のビデオおよび/又はマルチビュー・シーケンスの前記複数のフレームは、2つ以上のGOPに割り当てられ、
    前記方法において、1つのGOPの前記非ベース・フレームの1つは、第2のGOPのベース・フレームであり、前記第2のGOPはベース変位モデルを有し、前記第2のGOPの前記ベース変位モデルは、前記1つのGOPの第2のベース変位モデルである、請求項1に記載の方法。
  6. 1つのGOPの前記非ベース・フレームの1つは、第2のGOPのベース・フレームであり、前記第2のGOPはベース変位モデルを有し、前記第2のGOPの前記ベース変位モデルは、前記1つのGOPの第2のベース変位モデルであり、前記第2のGOPの前記ベース・フレームは、前記1つのGOPの第2のベース・フレームであり、
    前景背景弁別プロセスが、前記ベース変位モデル中の折り畳みのロケーションに基づき、折り畳みロケーションを前記第2のベース・フレームにマッピングするために前記折り畳みロケーションの各側に関するベース変位情報を使用することと、前記第2のベース変位モデルの折り畳み特性をひとつのGOPのベース変位フィールドの折り畳み特性と比較することとによって、前記折り畳みロケーションの前景側と背景側とを弁別する、請求項5に記載の方法。
  7. 前記ベース・フレーム中の中断誘発メッシュ要素の前記マッピングから生じる非ベース・フレーム中の前記推論メッシュ要素が、前記非ベース・フレーム中のディスオクルージョンの領域を識別するために使用される、請求項4に記載の方法。
  8. 非ベース・フレーム中の中断誘発推論メッシュ要素に関連する前記反転変位ベクトルが、前記ベース・フレームにおいてオクルージョンされる背景シーン要素の変位をより良く表すために変更されて、変更された変位ベクトルを提供する、請求項7に記載の方法。
  9. 以下で埋め戻されたフレームである、非ベース・フレーム中の中断誘発推論メッシュ要素に関連する前記変更された変位ベクトルが、前記推論メッシュ要素を前記ベース・フレームにマッピングするために使用され、前記推論メッシュ要素が、以下で埋め戻されたメッシュ要素である、新しい要素として前記ベース変位モデルに追加され、前記埋め戻されたフレームにおいて視認可能であるが前記ベース・フレームにおいてオクルージョンされるシーン・コンテンツを表す、請求項8に記載の方法。
  10. 変形可能なベース・メッシュのオーグメンテーション・ステップが実行され、それにより、以下オーグメント・メッシュと呼ばれる、別のコード化メッシュからの情報は、前記変形可能なベース・メッシュが前記オーグメント・メッシュのロケーションにマッピングされるときにディスオクルージョンする領域をカバーする前記オーグメント・メッシュのメッシュ要素を埋め戻すことによって前記変形可能なベース・メッシュをオーグメントするために使用される、請求項9に記載の方法。
  11. 前記オーグメント・メッシュのメッシュ要素が下位区分され、ディスオクルージョン領域をカバーするメッシュ要素のみが前記ベース・フレームに埋め戻される、請求項10に記載の方法。
  12. 埋め戻されたメッシュ要素は、それらが発見される前記埋め戻されたフレームに基づいて、ローカル背景レイヤ・インデックスを割り当てられ、元の変形可能なベース・メッシュの要素は、任意の埋め戻されたメッシュ要素のレイヤ・インデックスよりも大きいレイヤ・インデックスを割り当てられる、前記中断誘発メッシュ要素を除く、任意の埋め戻されたメッシュ要素のレイヤ・インデックスよりも小さいレイヤ・インデックスを有する、前景レイヤを構成すると見なされる、請求項9に記載の方法。
  13. 各非ベース・フレームについての逆方向変位フィールドの決定が、前記埋め戻されたメッシュ要素を含む、すべてのベース変位ベクトルの、前記非ベース・フレームへのマッピングを含み、二重マッピングは、そのレイヤ・インデックスが最も小さい前記元の変形可能なベース・メッシュの要素によって生成された前記推論メッシュ要素のほうを優先して最初に解決され、その後に、請求項3の方法が、同じレイヤ・インデックスをもつ交差する推論メッシュ要素から生じる残りの二重マッピングを解決するために使用される、請求項12に記載の方法。
  14. 埋め戻すプロシージャが漸進的に適用され、前記埋め戻されたフレームとしての前記GOPの最後のフレームで開始し、
    a.記埋め戻されたメッシュ要素を第1のローカル背景レイヤ・インデックスとともに前記ベース変位モデルに追加し、前記第1のローカル背景レイヤ・インデックスのベース・メッシュ要素を含む、すべての変形可能なベース・メッシュ要素を、前記GOPの中間フレームにマッピングし、
    b.二重マッピング解決プロシージャを適用し、
    c.前記二重マッピング解決プロシージャによって置き換えられなかった前記中間フレーム中の任意の中断誘発メッシュ要素を無限大領域として識別し、
    d.前記ローカル背景レイヤ・インデックスが1つ増分されて、当該増分された前記ローカル背景レイヤ・インデックスを割り当てられる、前記ベース変位モデル中の新しい埋め戻されたメッシュ要素を生成するために、これらの無限大要素に前記埋め戻すプロシージャを適用し、
    e.前記GOP内にさらなる中間非ベース・フレームが存在する場合、前記第1のローカル背景レイヤ・インデックスおよび前記増分された前記ローカル背景レイヤ・インデックスの要素を含む前記ベース変位モデルのすべての要素を、前記GOP内の前記さらなる中間非ベース・フレームにマッピングし、
    f.前記GOP内のすべての非ベース・フレームが前記埋め戻すプロシージャによって処理されるまで、ステップbからeを繰り返し、
    これによって、漸進的により大きいローカル背景レイヤ・インデックスが、前記すべての非ベース・フレームが処理される順序で、連続的な前記中間非ベース・フレームのそれぞれを処理することによって生成された前記埋め戻されたメッシュ要素に割り当てる、請求項12に記載の方法。
  15. ビデオ・フレームを含むビデオ・シーケンス内の変位フィールドをコーディングするための方法であって、
    各GOPについてベース変位モデルをコーディングするステップであって、ビデオ・フレームが、GOPとして知られるピクチャ・グループに割り当てられ、前記GOPの指定されたベース・フレーム中の各ロケーションを前記GOPの各他のフレーム中の対応するロケーションに搬送する変位を表現し、前記GOPの前記フレーム間の他の変位関係が、前記ベース変位モデルから推論され、
    前記コーディングするステップを含み、
    前記ベース変位モデルは、変形可能なベース・メッシュを介して表現され、前記メッシュのノードが前記GOP中の各非ベース・フレームについて1つの変位ベクトルを割り当てられ、
    前記ベース変位モデルにおける中断が、前記ベース・フレーム中の無視できるサイズを有する、中断誘発メッシュ要素であるベース・メッシュ要素のサブセットによってカバーされ、前記中断誘発メッシュ要素の前記ノードが、コロケートされたペアで現れ、各ペアの一方のノードが、前記中断の一方の側に関連する前記変位ベクトルを搬送し、他方が、前記中断の他方の側に関連する前記変位ベクトルを搬送する、方法。
  16. 複数のビデオ及び/又はマルチビュー・シーケンスの複数のフレームの他のフレームからのいくつかの画像フレームの変位補償予測のための方法であって、前記フレームがピクチャ・グループ(GOP)に割り当てられ、
    ベース変位モデルが、各GOPについて与えられ、前記GOPの指定されたベース・フレーム中の各ロケーションを前記GOPの各他のフレーム中の対応するロケーションに搬送する変位フィールドを表現し、前記ベース変位モデルが、前記GOPの前記フレーム間の変位関係を推論するために使用され、予測ターゲット・フレームにおける推論変位フィールドが、前記GOP中の1つ又は複数の他のフレームから前記フレームを予測するために使用され、
    前記ベース変位モデルは、変形可能なベース・メッシュを介して表現され、前記メッシュのノードが前記GOP中の各非ベース・フレームについて1つの変位ベクトルを割り当てられ、
    前記ベース変位モデルにおける中断が、前記ベース・フレーム中の無視できるサイズを有する、中断誘発メッシュ要素であるベース・メッシュ要素のサブセットによってカバーされ、前記中断誘発メッシュ要素の前記ノードが、コロケートされたペアで現れ、各ペアの一方のノードが、前記中断の一方の側に関連する前記変位ベクトルを搬送し、他方が、前記中断の他方の側に関連する前記変位ベクトルを搬送する、方法。
  17. 請求項1に記載の、変位情報を表すための方法を実装するように構成された、コーディング装置。
  18. 請求項1に記載の方法を実装するようにコンピュータを制御するための命令を含む、コンピュータ・プログラムを与える、不揮発性コンピュータ可読媒体。
JP2019536625A 2016-09-21 2017-09-21 ビデオ及びマルチビュー・イマジェリーの圧縮及びアップサンプリングのためのベース固定モデル及び推論 Active JP7279939B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
AU2016903815A AU2016903815A0 (en) 2016-09-21 Base Anchored Motion for Video Compression and Temporal Interpolation
AU2016903815 2016-09-21
AU2017902670A AU2017902670A0 (en) 2017-07-07 Base Anchored Models for Video Compression and Frame Upsampling
AU2017902670 2017-07-07
PCT/AU2017/051030 WO2018053591A1 (en) 2016-09-21 2017-09-21 Base anchored models and inference for the compression and upsampling of video and multiview imagery

Publications (3)

Publication Number Publication Date
JP2019530386A JP2019530386A (ja) 2019-10-17
JP2019530386A5 JP2019530386A5 (ja) 2020-11-12
JP7279939B2 true JP7279939B2 (ja) 2023-05-23

Family

ID=61689250

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019536625A Active JP7279939B2 (ja) 2016-09-21 2017-09-21 ビデオ及びマルチビュー・イマジェリーの圧縮及びアップサンプリングのためのベース固定モデル及び推論

Country Status (5)

Country Link
US (1) US11122281B2 (ja)
EP (1) EP3516872A4 (ja)
JP (1) JP7279939B2 (ja)
AU (1) AU2017331736B2 (ja)
WO (1) WO2018053591A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111295882A (zh) * 2017-11-09 2020-06-16 索尼公司 图像处理装置和图像处理方法
KR102272569B1 (ko) * 2020-05-26 2021-07-05 한국과학기술원 웨이블릿 기반 변형된 거대 메쉬 데이터의 점진적 고속 재압축 방법 및 그 시스템
JP2024008743A (ja) * 2022-07-09 2024-01-19 Kddi株式会社 メッシュ復号装置、メッシュ符号化装置、メッシュ復号方法及びプログラム
CN117974814A (zh) * 2022-10-26 2024-05-03 荣耀终端有限公司 用于图像处理的方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004028166A1 (en) 2002-09-20 2004-04-01 Unisearch Limited Method of signalling motion information for efficient scalable video compression
JP2006527945A (ja) 2003-06-18 2006-12-07 フランス・テレコム 3dモデルを使用するピクチャシーケンスの表現方法、対応する信号、および対応する装置
JP2008514073A (ja) 2004-09-15 2008-05-01 フランス テレコム 変形可能なメッシュを用いた動き推定のための方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09182083A (ja) * 1995-12-27 1997-07-11 Matsushita Electric Ind Co Ltd ビデオ画像符号化方法及び復号化方法とその装置
US20060114995A1 (en) * 2004-12-01 2006-06-01 Joshua Robey Method and system for high speed video encoding using parallel encoders
KR100678958B1 (ko) * 2005-07-29 2007-02-06 삼성전자주식회사 인트라 bl 모드를 고려한 디블록 필터링 방법, 및 상기방법을 이용하는 다 계층 비디오 인코더/디코더
US8120661B2 (en) * 2006-07-26 2012-02-21 Human Monitoring Ltd Image stabilizer
US8270473B2 (en) * 2009-06-12 2012-09-18 Microsoft Corporation Motion based dynamic resolution multiple bit rate video encoding
US9819946B2 (en) * 2012-04-05 2017-11-14 Newsouth Innovations Pty Limited Method and apparatus for coding of spatial data
US9749642B2 (en) * 2014-01-08 2017-08-29 Microsoft Technology Licensing, Llc Selection of motion vector precision

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004028166A1 (en) 2002-09-20 2004-04-01 Unisearch Limited Method of signalling motion information for efficient scalable video compression
JP2006527945A (ja) 2003-06-18 2006-12-07 フランス・テレコム 3dモデルを使用するピクチャシーケンスの表現方法、対応する信号、および対応する装置
JP2008514073A (ja) 2004-09-15 2008-05-01 フランス テレコム 変形可能なメッシュを用いた動き推定のための方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Dominic Rufenacht, Reji Mathew, and David Taubman,A Novel Motion Field Anchoring Paradigm for Highly Scalable Wavelet-Based Video Coding,IEEE TRANSACTIONS ON IMAGE PROCESSING,IEEE,2016年01月,VOL. 25, NO. 1,pp.39-52
Dominic Rufenacht, Reji Mathew, and David Taubman,Bidirectional Hierarchical Anchoring of Motion Fields for Scalable Video Coding,2014 IEEE 16th International Workshop on Multimedia Signal Processing (MMSP),IEEE,2014年09月,pp.1-6
Dominic Rufenacht, Reji Mathew, and David Taubman,HIERARCHICAL ANCHORING OF MOTION FIELDS FOR FULLY SCALABLE VIDEO CODING,ICIP 2014,IEEE,2014年,pp.3180-3184

Also Published As

Publication number Publication date
EP3516872A1 (en) 2019-07-31
WO2018053591A1 (en) 2018-03-29
JP2019530386A (ja) 2019-10-17
US20200021824A1 (en) 2020-01-16
US11122281B2 (en) 2021-09-14
EP3516872A4 (en) 2020-04-15
AU2017331736A1 (en) 2019-05-16
AU2017331736B2 (en) 2022-10-27

Similar Documents

Publication Publication Date Title
De Queiroz et al. Motion-compensated compression of dynamic voxelized point clouds
JP6659628B2 (ja) デプスマップの推定および更新を用いる効率的なマルチビュー符号化
JP5575908B2 (ja) 2dビデオデータの3dビデオデータへの変換のための深度マップ生成技法
JP5389172B2 (ja) 深度画像を再構成する方法および深度画像を再構成する復号器
JP7279939B2 (ja) ビデオ及びマルチビュー・イマジェリーの圧縮及びアップサンプリングのためのベース固定モデル及び推論
Merkle et al. The effects of multiview depth video compression on multiview rendering
US8351685B2 (en) Device and method for estimating depth map, and method for generating intermediate image and method for encoding multi-view video using the same
WO2011163603A1 (en) Multi-resolution, multi-window disparity estimation in 3d video processing
CN101312540A (zh) 基于深度和遮挡信息的虚拟视点合成方法
WO2009091563A1 (en) Depth-image-based rendering
JP2015523030A (ja) 3次元ビデオを表すビットストリームを符号化する装置
JP6154643B2 (ja) 動画像符号化装置、動画像符号化装置のデプスイントラ予測方法およびプログラム、ならびに動画像復号装置、動画像復号装置のデプスイントラ予測方法およびプログラム
Yang et al. 4-D wavelet-based multiview video coding
EP3373584B1 (en) Content adaptive and art directable scalable video coding
Rüefenacht et al. Base-anchored model for highly scalable and accessible compression of multiview imagery
de Queiroz et al. Motion-compensated compression of point cloud video
Muller et al. Compressing time-varying visual content
Morvan et al. Multiview depth-image compression using an extended H. 264 encoder
JP2024513815A (ja) シーンに関連付けられたマンハッタンレイアウトを推定するための方法、装置及びコンピュータプログラム
Garcia et al. Depth-map super-resolution for asymmetric stereo images
Petrazzuoli et al. A distributed video coding system for multi view video plus depth
Ozkalayci et al. Multi-view video coding via dense depth estimation
Wang et al. Fault-tolerance based block-level bit allocation and adaptive RDO for depth video coding
JP2024509988A (ja) チャートベースのメッシュ圧縮の方法、装置およびコンピュータプログラム
KR20230087554A (ko) 메시 압축을 위한 정점 재정렬

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200918

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200918

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211026

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220930

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221220

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230501

R150 Certificate of patent or registration of utility model

Ref document number: 7279939

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150