JP7279939B2

JP7279939B2 - ビデオ及びマルチビュー・イマジェリーの圧縮及びアップサンプリングのためのベース固定モデル及び推論

Info

Publication number: JP7279939B2
Application number: JP2019536625A
Authority: JP
Inventors: スコットタウプマン、デイビッド; パトリックルーフェナハト、ドミニク
Original assignee: カカドゥアールアンドディーピーティーワイリミテッド
Priority date: 2016-09-21
Filing date: 2017-09-21
Publication date: 2023-05-23
Anticipated expiration: 2037-09-21
Also published as: EP3516872A1; WO2018053591A1; JP2019530386A; US20200021824A1; US11122281B2; EP3516872A4; AU2017331736A1; AU2017331736B2

Description

本発明は、ビデオ信号をコーディングするための装置及び方法に関し、詳細には、限定はしないが、ビデオ・フレーム間の変位情報の表示（すなわち、モデル）を実装するための方法及び装置に関する。

以下では、「フレーム」という用語を、ビデオ・シーケンスのフレーム、並びにマルチビュー設定におけるビューを指すために使用する。本発明の実施例は、そのようなモデルの生成に関係しないが、すでに復号されたフレームの中間のフレームを「推論する」ためにそのようなモデルがどのように使用され得るかに関係する。

本出願は、その内容が参照により本明細書に組み込まれる、本出願人の以前のオーストラリア仮特許出願第２０１６９０３８１５号及び第２０１７９０２６７０号に関連する。

既存のビデオ・コーダの発展は、動きモデリングにおける革新によって強く推進されてきた。しかしながら、この動きは、相変わらず、予測されるターゲット・フレームの観点から表現され、すなわち、動きベクトルが、予測されているフレームにアタッチされ、他のフレーム中の予測ソース・ロケーションを指す。この手法は自然であるように見えるが、それは、時間にわたる動きフィールドの正確な反転及び構成のために前景／背景関係を発見するために必要とされる時間推理（ｒｅａｓｏｎｉｎｇ）を激しく妨害する。

従来の手法では、動きは、人工的な境界をもつブロックを使用して表現され、これは、真のシーンの動きを反映する可能性が低い区分的に不変の動きフィールドにつながる。これらの表現は、しばしば冗長であり、ビデオ・フレームよりも多くの個々の動きフィールドを伴い、階層双方向予測は、たとえば、ビデオ・フレームごとに２つの動きフィールドを使用する。その場合、物理的動きによって満たされるべきである時間的関係は、ほとんど無視される。時間動き推理の代わりに、既存のビデオ・コーダは、明示的にコーディングされたブロック・モードの巨大なアレイを提示し、それにわたって網羅的又はヒューリスティックな最適化が実行される。驚くことではないが、これは、ターゲット・フレームを予測する目的にかなうが、概して物理的でないか又は時間的に整合していない、日和見的動き表現につながる。

これらの弱点のさらなる証拠として、（ディスプレイにおけるフレーム・レート・アップサンプリングのために必要とされる）高性能時間フレーム補間アルゴリズムが、復号されたビットストリームから入手可能な動きベクトルに依拠するのではなく、復号されたビデオから直接動きを推定する必要があることがわかっており、この整合的な傾向の重要な実例については、参考文献［１］［２］［３］を参照されたい。

（動き補償時間フィルタ処理、又はただＭＣＴＦ（ｍｏｔｉｏｎｃｏｍｐｅｎｓａｔｅｄｔｅｍｐｏｒａｌｆｉｌｔｅｒｉｎｇ）としても知られる）動き補償時間リフティング変換（ｍｏｔｉｏｎｃｏｍｐｅｎｓａｔｅｄｔｅｍｐｏｒａｌｌｉｆｔｉｎｇｔｒａｎｓｆｏｒｍ）の導入［４］は、スケーラブル・ビデオ・コーディングに対する関心を著しく高めた、たとえば［５］［６］［７］。同時に、マルチビュー・コンテンツの圧縮のために変換を構築するために同様の方法が使用され得ることが明らかになり、ここで、ディスパリティ補償リフティング（ｄｉｓｐａｒｉｔｙ－ｃｏｍｐｅｎｓａｔｅｄｌｉｆｔｉｎｇ）という用語が動き補償リフティングの代わりに使用される［８］。これらの著作に基づいて、マルチビュー・ビデオを圧縮するための関係する方法が提案された［９］［１０］。

第１の国際スケーラブル・ビデオ・コーディング規格（ＳＶＣ：ｓｃａｌａｂｌｅｖｉｄｅｏｃｏｄｉｎｇ）のために提案されたソリューションの多くは、動き補償時間リフティングを組み込んだ。しかしながら、この労力からの結果と、より最近のスケーラブルＨ．２６５／ＨＥＶＣ拡張とは、ブロックベース・ターゲットフレーム中心手法に基づいており、レイヤ間予測モードと追加の参照フレームとを追加する。これらの規格ツールは、時間リフティングの利益をほとんど無効にする。ビデオ・コーディング技術における基本的なシフトの欠如の主要な理由は、既存の動きモデルの不備である。

ビデオ・コーディングについての動きの最近の進歩は、より良く動き境界を考慮することが可能である方法にシフトしており、参考文献［１１］［１２］［１３］は、たとえば、動きの不連続性に基づいて動きフィールドを区分することの利益を証明するいくつかの著作のうちのほんの一部である。ビデオ圧縮のためのオプティカル・フロー・フィールドの使用に対する関心も高まっている、たとえば［１４］［１５］。それにもかかわらず、これらの方法は、ターゲット・フレームにおける動きを表現し続けており、例外は、Ｔａｕｂｍａｎ及びＮａｍａｎが先駆けとなった動きヒント手法である［１６］。

最近、本出願人は、参照フレームにおいて動きを固定することが、基本的に、偏在するターゲット固定手法よりも優れていることを示し、時間フレーム補間［１８］、現代のエンターテインメント・システムにおける共通の構成要素、についての固有の利点とともに、公正な設定における圧縮性能の改善を証明した［１７］。「動きの双方向階層固定」として知られる、この手法は、区分的に平滑な動きフィールドを反転し、構成するために時間動き推理を使用する。この手法は、疎な動きフィールドにつながることがあり、重要な進歩を表す。

オーストラリア仮特許出願第２０１６９０３８１５号オーストラリア仮特許出願第２０１７９０２６７０号

Ｂ．－Ｄ．Ｃｈｏｉ、Ｊ．－Ｗ．Ｈａｎ、Ｃ．－Ｓ．Ｋｉｍ及びＳ．－Ｊ．Ｋｏ、「Ｍｏｔｉｏｎ－ｃｏｍｐｅｎｓａｔｅｄｆｒａｍｅｉｎｔｅｒｐｏｌａｔｉｏｎｕｓｉｎｇｂｉｌａｔｅｒａｌｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎａｎｄａｄａｐｔｉｖｅｏｖｅｒｌａｐｐｅｄｂｌｏｃｋｍｏｔｉｏｎｃｏｍｐｅｎｓａｔｉｏｎ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、ｖｏｌ．１７、ｎｏ．４、４０７～４１６頁、２００７年４月。Ｓ．－Ｇ．Ｊｅｏｎｇ、Ｃ．Ｌｅｅ及びＣ．－Ｓ．Ｋｉｍ、「Ｍｏｔｉｏｎ－ｃｏｍｐｅｎｓａｔｅｄｆｒａｍｅｉｎｔｅｒｐｏｌａｔｉｏｎｂａｓｅｄｏｎｍｕｌｔｉｈｙｐｏｔｈｅｓｉｓｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎａｎｄｔｅｘｔｕｒｅｏｐｔｉｍｉｚａｔｉｏｎ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．２２、ｎｏ．１１、４４９５～４５０９頁、２０１３年１１月。Ｄ．Ｋｉｍ、Ｈ．Ｌｉｍ及びＨ．Ｐａｒｋ、「Ｉｔｅｒａｔｉｖｅｔｒｕｅｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎｆｏｒｍｏｔｉｏｎ－ｃｏｍｐｅｎｓａｔｅｄｆｒａｍｅｉｎｔｅｒｐｏｌａｔｉｏｎ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、ｖｏｌ．２３、ｎｏ．３、４４５～４５４頁、２０１３年３月。Ａ．Ｓｅｃｋｅｒ及びＤ．Ｔａｕｂｍａｎ、「Ｌｉｆｔｉｎｇ－ｂａｓｅｄｉｎｖｅｒｔｉｂｌｅｍｏｔｉｏｎａｄａｐｔｉｖｅｔｒａｎｓｆｏｒｍ（ＬＩＭＡＴ）ｆｒａｍｅｗｏｒｋｆｏｒｈｉｇｈｌｙｓｃａｌａｂｌｅｖｉｄｅｏｃｏｍｐｒｅｓｓｉｏｎ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．１２、ｎｏ．１２、１５３０～１５４２頁、２００３年１２月。Ｙ．Ａｎｄｒｅｏｐｏｕｌｏｓ、Ａ．Ｍｕｎｔｅａｎｕ、Ｊ．Ｂａｒｂａｒｉｅｎ、Ｍ．ｖａｎｄｅｒＳｃｈａａｒ、Ｊ．Ｃｏｒｎｅｌｉｓ及びＰ．Ｓｃｈｅｌｋｅｎｓ、「Ｉｎ－ｂａｎｄｍｏｔｉｏｎｃｏｍｐｅｎｓａｔｅｄｔｅｍｐｏｒａｌｆｉｌｔｅｒｉｎｇ」、ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ：ＩｍａｇｅＣｏｍｍｕｎｉｃａｔｉｏｎ、ｖｏｌ．１９、ｎｏ．７、６５３～６７３頁、２００４年７月。Ｍ．Ｆｌｉｅｒｌ及びＢ．Ｇｉｒｏｄ、「Ｖｉｄｅｏｃｏｄｉｎｇｗｉｔｈｍｏｔｉｏｎ－ｃｏｍｐｅｎｓａｔｅｄｌｉｆｔｅｄｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍｓ」、Ｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ：ＩｍａｇｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ、ｖｏｌ．１９、ｎｏ．５６１～５７５、２００４年７月。Ａ．Ｇｏｌｂｅｌｋａｒ及びＪ．Ｗｏｏｄｓ、「Ｍｏｔｉｏｎ－ｃｏｍｐｅｎｓａｔｅｄｔｅｍｐｏｒａｌｆｉｌｔｅｒｉｎｇａｎｄｍｏｔｉｏｎｖｅｃｔｏｒｃｏｄｉｎｇｕｓｉｎｇｂｉｏｒｔｈｏｇｏｎａｌｆｉｌｔｅｒｓ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、ｖｏｌ．１７、ｎｏ．４、４１７～４２８頁、２００７年４月。Ｃ．－Ｌ．Ｃｈａｎｇ、Ｘ．Ｚｈｕ、Ｐ．Ｒａｍａｎａｔｈａｎ及びＢ．Ｇｉｒｏｄ、「Ｌｉｇｈｔｆｉｅｌｄｃｏｍｐｒｅｓｓｉｏｎｕｓｉｎｇｄｉｓｐａｒｔｙ－ｃｏｍｐｅｎｓａｔｅｄｌｉｆｔｉｎｇａｎｄｓｈａｐｅａｄａｐｔａｔｉｏｎ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．１５、ｎｏ．４、７９３～８０６頁、２００６年４月。Ｊ．－Ｕ．Ｇａｒｂａｓ、Ｂ．Ｐｅｓｑｕｅｔ－Ｐｏｐｅｓｃｕ及びＡ．Ｋａｕｐ、「Ｍｅｈｏｄｓａｎｄｔｏｏｌｓｆｏｒｗａｖｅｌｅｔ－ｂａｓｅｄｓｃａｌａｂｌｅｍｕｌｔｉｖｉｅｗｖｉｄｅｏｃｏｄｉｎｇ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、ｖｏｌ．２１、ｎｏ．２、１１３～１２６頁、２０１１年２月。Ｈ．Ｇ．Ｌａｌｇｕｄｉ、Ｍ．Ｗ．Ｍａｒｃｅｌｌｉｎ、Ａ．Ｂｉｌｇｉｎ、Ｈ．Ｏｈ及びＭ．Ｓ．Ｎａｄａｒ、「Ｖｉｅｗｃｏｍｐｅｎｓａｔｅｄｃｏｍｐｒｅｓｓｉｏｎｏｆｖｏｌｕｍｅｒｅｎｄｅｒｅｄｉｍａｇｅｓｆｏｒｒｅｍｏｔｅｖｉｓｕａｌｉｚａｔｉｏｎ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．１８、ｎｏ．７、１５０１～１５１１頁、２００９年７月。Ｒ．Ｍａｔｈｅｗ及びＤ．Ｔａｕｂｍａｎ、「Ｓｃａｌａｂｌｅｍｏｄｅｌｉｎｇｏｆｍｏｔｉｏｎａｎｄｂｏｕｎｄａｒｙｇｅｏｍｅｔｒｙｗｉｔｈｑｕａｄ－ｔｒｅｅｎｏｄｅｍｅｒｇｉｎｇ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、ｖｏｌ．２１、ｎｏ．２、１７８～１９２頁、２０１１年２月。Ｓ．Ｍｉｌａｎｉ及びＧ．Ｃａｌｖａｇｎｏ、「Ｓｅｇｍｅｎｔａｔｉｏｎ－ｂａｓｅｄｍｏｔｉｏｎｃｏｍｐｅｎｓａｔｉｏｎｆｏｒｅｎｈａｎｃｅｄｖｉｄｅｏｃｏｄｉｎｇ」、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、１６８５～１６８８頁、２０１１年９月。Ｉ．Ｄａｒｉｂｏ、Ｄ．Ｆｌｏｒｅｎｃｉｏ及びＧ．Ｃｈｅｕｎｇ、「Ａｒｂｉｔｒａｒｉｌｙｓｈａｐｅｄｓｕｂ－ｂｌｏｃｋｍｏｔｉｏｎｐｒｅｄｉｃｔｉｏｎｉｎｔｅｘｔｕｒｅｍａｐｃｏｍｐｒｅｓｓｉｏｎｕｓｉｎｇｄｅｐｔｈｉｎｆｏｒｍａｔｉｏｎ」、ＰｉｃｔｕｒｅＣｏｄｉｎｇＳｙｍｐｏｓｉｕｍ（ＰＣＳ）、１２１～１２４頁、２０１２年５月。Ａ．Ｚｈｅｎｇ、Ｙ．Ｙｕａｎ、Ｈ．Ｚｈａｎｇ、Ｈ．Ｙａｎｇ、Ｐ．Ｗａｎ及びＯ．Ａｕ、「Ｍｏｔｉｏｎｖｅｃｔｏｒｆｉｅｌｄｓｂａｓｅｄｖｉｄｅｏｃｏｄｉｎｇ」、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、２０９５～２０９９頁、２０１５年９月。Ｇ．Ｏｔｔａｖｉａｎｏ及びＰ．Ｋｏｈｌｉ、「Ｃｏｍｐｒｅｓｓｉｂｌｅｍｏｔｉｏｎｆｉｅｌｄｓ」、Ｐｒｏｃ．ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）、２２５１～２２５８頁、２０１３年６月。Ａ．Ｔ．Ｎａｍａｎ及びＤ．Ｔａｕｂｍａｎ、「Ｆｌｅｘｉｂｌｅｓｙｎｔｈｅｓｉｓｏｆｖｉｄｅｏｆｒａｍｅｓｂａｓｅｄｏｎｍｏｔｉｏｎｈｉｎｔｓ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．２３、ｎｏ．９、３８０２～３８１５頁、２０１４年９月。Ｄ．Ｒｕｆｅｎａｃｈｔ、Ｒ．Ｍａｔｈｅｗ及びＤ．Ｔａｕｂｍａｎ、「Ａｎｏｖｅｌｍｏｔｉｏｎｆｉｅｌｄａｎｃｈｏｒｉｎｇｐａｒａｄｉｇｍｆｏｒｈｉｇｈｌｙｓｃａｌａｂｌｅｗａｖｅｌｅｔ－ｂａｓｅｄｖｉｄｅｏｃｏｄｉｎｇ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．２５、ｎｏ．１、３９～５２頁、２０１６年１月。Ｄ．Ｒｕｆｅｎａｃｈｔ、Ｒ．Ｍａｔｈｅｗ及びＤ．Ｔａｕｂｍａｎ、「Ｂｉｄｉｒｅｃｔｉｏｎａｌ，ｏｃｃｌｕｓｉｏｎ－ａｗａｒｅｔｅｍｐｏｒａｌｆｒａｍｅｉｎｔｅｒｐｏｌａｔｉｏｎｉｎａｈｉｇｈｌｙｓｃａｌａｂｌｅｖｉｄｅｏｓｅｔｔｉｎｇ」、ＰｉｃｔｕｒｅＣｏｄｉｎｇＳｙｍｐｏｓｉｕｍ（ＰＣＳ）、５～９頁、２０１５年５月。Ｒ．Ｍａｔｈｅｗ、Ｓ．Ｙｏｕｎｇ及びＤ．Ｔａｕｂｍａｎ、「Ｏｐｔｉｍｉｚａｔｉｏｎｏｆｏｐｔｉｃａｌｆｌｏｗｆｏｒｓｃａｌａｂｌｅｃｏｄｉｎｇ」、ＰｉｃｔｕｒｅＣｏｄｉｎｇＳｙｍｐｏｓｉｕｍ（ＰＣＳ）、７０～７４頁、２０１５年５月。Ｒ．Ｍａｔｈｅｗ、Ｄ．Ｔａｕｂｍａｎ及びＰ．Ｚａｎｕｔｔｉｇｈ、「ＳｃａｌａｂｌｅｃｏｄｉｎｇｏｆｄｅｐｔｈｍａｐｓｗｉｔｈＲ－Ｄｏｐｔｉｍｉｚｅｄｅｍｂｅｄｄｉｎｇ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．２２、ｎｏ．５、１９８２～１９９５頁、２０１３年５月。Ｒ．Ｓｚｅｌｉｓｋｉ及びＨ．－Ｙ．Ｓｈｕｍ、「Ｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎｗｉｔｈｑｕａｄｔｒｅｅｓｐｌｉｎｅｓ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ、ｖｏｌ．１８、ｎｏ．１２、１１９９～１２１０頁、１９９６年１２月。Ｎ．Ｍｅｈｒｓｅｒｅｓｈｔ及びＤ．Ｔａｕｂｍａｎ、「Ａｎｅｆｆｉｃｉｅｎｔｃｏｎｔｅｎｔ－ａｄａｐｔｉｖｅｍｏｔｉｏｎ－ｃｏｍｐｅｎｓａｔｅｄ３－ＤＤＷＴｗｉｔｈｅｎｈａｎｃｅｄｓｐａｔｉａｌａｎｄｔｅｍｐｏｒａｌｓｃａｌａｂｉｌｉｔｙ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．１５、ｎｏ．３、１３９７～１４１２頁、２００６年３月。Ｊ．Ｒｅｖａｕｄ、Ｐ．Ｗｅｉｎｚａｅｐｆｅｌ、Ｚ．Ｈａｒｃｈａｏｕｉ及びＣ．Ｓｃｈｍｉｄ、「Ｅｐｉｃｆｌｏｗ：ｅｄｇｅ－ｐｒｅｓｅｒｖｉｎｇｉｎｔｅｒｐｏｌａｔｉｏｎｏｆｃｏｒｒｅｓｐｏｎｄｅｎｃｅｓｆｏｒｏｐｔｉｃａｌｆｌｏｗ」、Ｐｒｏｃ．ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｉｎｇａｎｄＶｉｓｕａｌＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）、２０１５年６月。Ｓ．Ｙｏｕｎｇ及びＤ．Ｔａｕｂｍａｎ、「Ｒａｔｅ－ｄｉｓｔｏｒｔｉｏｎｏｐｔｉｍｉｚｅｄｏｐｔｉｃａｌｆｌｏｗｅｓｔｉｍａｔｉｏｎ」、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、１６７７～１６８１頁、２０１５年９月。Ｄ．Ｔａｕｂｍａｎ、「ＨｉｇｈｐｅｒｆｏｍａｎｃｅｓｃａｌａｂｌｅｉｍａｇｅｃｏｍｐｒｅｓｓｉｏｎｗｉｔｈＥＢＣＯＴ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．９、ｎｏ．７、１１５１～１１７０頁、２０００年７月。Ｄ．Ｓｕｎ、Ｊ．Ｗｕｌｆｆ、Ｅ．Ｓｕｄｄｅｒｔｈ、Ｈ．Ｐｆｉｓｔｅｒ及びＭ．Ｂｌａｃｋ、「Ａｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒｅｄｍｏｄｅｌｏｆｆｏｒｅｇｒｏｕｎｄａｎｄｂａｃｋｇｒｏｕｎｄｆｌｏｗ」、ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）、２４５１～２４５８頁、２０１３年。

第１の態様によれば、本発明は、ビデオ及び／又はマルチビュー・シーケンスのフレーム間の変位情報を表す方法であって、複数のフレームをピクチャ・グループ（ＧＯＰ：ＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）に割り当てるステップと、各ＧＯＰについてのベース変位モデルを与えるステップであって、ベース変位モデルが、ＧＯＰの指定されたベース・フレーム中の各ロケーションをＧＯＰの各他のフレーム中の対応するロケーションに搬送する変位フィールドを表現する、与えるステップと、ベース変位モデルからＧＯＰのフレーム間の他の変位関係を推論するステップとを含む、方法を提供する。

一実施例では、ビデオ信号は、マルチビュー・ビデオ信号であり得る。一実施例では、ＧＯＰは、同じ時間インスタンスにおける複数のビューからのフレーム及び／又は異なる時間インスタンスにおいて取られたあるビューからのフレームからなり得る。

一実施例では、ビデオ信号は、１次元ビデオ・シーケンスであり得る。

ＧＯＰは、旧来のシングル・ビュー・ビデオ圧縮の場合のように、又は、すべてのビューが１Ｄアレイで構成されるマルチビュー構成の場合に、１次元である必要はない。２Ｄピクチャ・グループは、カメラの２Ｄアレイに関連するマルチビュー・イマジェリーのための最も適切な構成体であり、３ＤＧＯＰは、そのようなアレイにおけるカメラが各々ビデオ・シーケンスをキャプチャするときの、最も適切な構成体である。

本明細書では、「変位」という用語は、（特に、マルチビュー・イマジェリー及びビデオについての）動き、深度及びディスパリティ、ロケーション情報、並びに他のパラメータを含む、画像に関連するいくつかのパラメータをカバーする。

一実施例では、これは、変位を表現し、圧縮し、推論する新しいやり方を表し、このやり方において、ピクチャ・グループ（ＧＯＰ）についてのすべての変位情報がベース・モデルから導出され、その変位表示がＧＯＰのベース・フレームにおいて固定される。我々は、これを、すべての規格化されたビデオ圧縮方式において採用される通常のターゲット固定手法と、参照フレームにおける階層固定に関する我々自身の最近の著作との両方とは対照的に、ベース固定と呼ぶ。この手法は、上述のすべての方法に勝る基本的な利点を有する。

このベース固定手法の一実施例では、１つの区分的に平滑な２Ｄ変位フィールドが、各フレームについて符号化されるが、ＧＯＰに関連する変位フィールドのすべてが、それのベース・フレームにおいて固定される。まとめて、これらの変位フィールドをベース・モデルとして識別する。同じフレームにおいてＧＯＰについてのすべての表現を固定することの１つの利点は、それが、多数の変位フィールドの様々なコンパクトな表現を可能にすることである。ベース・フレームにおいてすべての変位を固定することによって、境界不連続性の単一の表現がすべての変位フィールドに適用され得、これらの境界不連続性は、概して、区分的に連続するモデルの表現に重要である。さらに、エネルギー圧縮変換（ｅｎｅｒｇｙｃｏｍｐａｃｔｉｎｇｔｒａｎｓｆｏｒｍ）が、変位フィールドの収集に直接、容易に適用される。いくつかの実施例では、パラメトリック・モデルが、変位パラメータの低減されたセットを使用してベース・モデルを表すために採用され得る。フレーム間の変位が動きに関係する、ビデオでは、パラメトリック表示は、速度及び加速度など、物理的属性に基づき得る。マルチビュー適用例では、ＧＯＰのフレーム間の明らかな変位は、深度又は逆深度がパラメトリック表現のための自然な基礎を与えるような、幾何学的特性、特にシーン深度に関係し得る。

実施例では、大きいピクチャ・グループ（ＧＯＰ）中のベース・フレームと他のフレームとの間の、かなりのレベルの折り畳み（ｆｏｌｄｉｎｇ）及びオクルージョンがあり得るが、ベース・モデルからＧＯＰ内のすべての必要とされる変位関係を導出することが可能である。この特性は、現在のビデオ・コーダにおいて行われるように、補助予測モード（たとえば、前方に、後方に、双方向に予測するなど）を符号化する必要性を回避する。

一実施例では、ベース固定フレームワークは、高品質時間動き推論をサポートすることができ、高品質時間動き推論は、計算効率が良く、双方向予測の共通のツールが各ターゲット・フレームに２つの動きフィールドを割り当てる、従来のコーデックにおいて使用されるコード化動きフィールドのわずか１／２を必要とする。

コーディング効率以外に、ベース固定手法は、有利には、より幾何学的に整合する、有意味な変位情報を与える。幾何学的に整合する変位情報の利用可能性は、視覚認知を改善し、旧来のコーデックにおいて使用されるフィードバック状態機械が純粋にフィードフォワード変換によって置き換えられる、変位補償リフティングに基づく高度にスケーラブルなビデオ及びマルチビュー圧縮システムの効率的な展開を可能にする。

第２の態様によれば、本発明は、ビデオ・シーケンス内の変位フィールドをコーディングするための方法であって、本発明の第１の態様の方法によれば、ビデオ・フレームが、ＧＯＰとして知られるピクチャ・グループに割り当てられ、ベース変位モデルが、各ＧＯＰについてコーディングされ、ＧＯＰの指定されたベース・フレーム中の各ロケーションをＧＯＰの各他のフレーム中の対応するロケーションに搬送する変位を表現し、ＧＯＰのフレーム間の他の変位関係が、ベース変位モデルから推論される、方法を提供する。

第３の態様によれば、本発明は、他のフレームからのいくつかの画像フレームの変位補償予測のための方法であって、フレームがピクチャ・グループ（ＧＯＰ）に割り当てられ、ベース変位モデルが、各ＧＯＰについて与えられ、ＧＯＰの指定されたベース・フレーム中の各ロケーションをＧＯＰの各他のフレーム中の対応するロケーションに搬送する変位を表現し、このベース変位モデルが、ＧＯＰのフレーム間の変位関係を推論するために使用され、予測ターゲット・フレームにおける推論変位フィールドが、ＧＯＰ中の１つ又は複数の他のフレームからフレームを予測するために使用される、方法を提供する。

第４の態様によれば、本発明は、本発明の第１の態様による、変位情報を表すための方法を実装するように構成された、コーディング装置を提供する。

第５の態様によれば、本発明は、本発明の第２の態様による、変位フィールドをコーディングするための方法を実装するように構成された、コーディング装置を提供する。

第６の態様によれば、本発明は、本発明の第３の態様による、変位補償予測のための方法を実装するように構成された、コーディング装置を提供する。

第７の態様によれば、本発明は、本発明の第４の態様又は本発明の第５の態様又は本発明の第６の態様による装置によってコーディングされた信号を復号するように構成された、復号装置を提供する。

第８の態様によれば、本発明は、本発明の第１の態様、第２の態様又は第３の態様による方法を実装するようにコンピュータを制御するための命令を含む、コンピュータ・プログラムを提供する。

第９の態様によれば、本発明は、本発明の第８の態様によるコンピュータ・プログラムを与える、不揮発性コンピュータ可読媒体を提供する。

第１０の態様によれば、本発明は、本発明の第８の態様によるコンピュータ・プログラムを含む、データ信号を提供する。

本発明の特徴及び利点は、添付の図面を参照しながら、単に実例として、その実施例の以下の説明から明らかになるであろう。

一実施例による、１Ｄピクチャ・グループ（ＧＯＰ）の場合のベース固定変位の図である。一実施例による、ベース固定（ｂａｓｅａｎｃｈｏｒｉｎｇ）の原理を示す、画像／ビデオ・シーケンスのいくつかの代表的フレームの図である。一実施例による、変位埋め戻し（ｂａｃｋｆｉｌｌｉｎｇ）ストラテジーの図である。一実施例による、本発明の一実施例による、二重マッピング（ｄｏｕｂｌｅｍａｐｐｉｎｇ）解決（ｒｅｓｏｌｖｉｎｇ）プロシージャの図である。一実施例による、より高次元のＧＯＰへのベース固定の拡張の図である。本発明の一実施例による、ベース・モデル及び推論方式を採用するエンコーダの概観の図である。本発明の一実施例による、ベース・モデル及び推論方式を採用するデコーダの概観の図である。

簡単のために、図１に示されているように、フレームの１次元構成（１ＤＧＯＰ）を考慮することによって本発明の一実施例の説明を始め、より高次元のＧＯＰのより一般的な場合は、セクション４．５において詳述される。図２は、ベース固定フレームワークの背後の鍵となるアイデアのうちのいくつかを示す。正三角メッシュと、正三角メッシュをもつＧＯＰと、Ｎ＝３個のフレームのＧＯＰとをもつベース固定モデルが示され、文字が各フレーム中の対応する三角形を識別し、変位情報（破線の矢印）がベース・メッシュのノード（黒い丸）上でコーディングされ、これは、１つのノードについてのみ示されており、黒い矩形がベース・メッシュのアーク上の中断（ｂｒｅａｋ）ロケーションを識別し、影付きの灰色の領域が、ベース変位フィールド中の中断誘発（ｂｒｅａｋ－ｉｎｄｕｃｅｄ）不連続性から生じる「ホール」をあらわにし、完全な黒い丸（ドット）と丸の中の黒いドットとは、「埋め戻し」より前の、「中断誘発」ノードの開始ロケーションを示し、完全な黒い丸（ドット）と丸の中の黒いドットとは、ベース・フレーム中の黒い矩形と実際に一致する。

ＧＯＰについてのすべての変位情報が、ここではｆ_０として示される、そのベース・フレーム内で表現される。重要なことには、変位フィールドは、区分的に平滑であり、物体境界の周りで不連続性を呈することが予想される。そのような変位フィールドを表現する１つのやり方は、いくつかのロケーションにおいて裂けること、すなわち、その中断を可能にされる三角メッシュによるものである。そのような変位モデルを表し、符号化するための方法が存在する。たとえば、シングルビュー・ビデオ圧縮の場合、［１９］は、アフィン補間に基づいてメッシュをウェーブレット・ベース動きモデルに一般化し、これは、「アーク中断点（ｂｒｅａｋｐｏｉｎｔ）」をコーディングするための効率的で高度にスケーラブルな方法［２０］に結合され、これは、変位不連続性の近傍においてウェーブレット基底関数を適応させる。説明を簡単にするために、図２は、３つの例示的な中断点をもつ、粗い正三角メッシュのみを示す。

図に示されているように、メッシュのノードは、ｕ_０→ｊ，ｊ∈｛１，Ｎ｝として示される、ＮフレームＧＯＰ中のＮ－１個の非ベース・フレームの各々についての１つの変位ベクトルを搬送する。最初に、中断がない場合について考える。この場合、ノード変位ベクトルは、メッシュをＧＯＰ中のベース・フレームから各他のフレームに連続的にワープするように働く。これらのワープされたメッシュによってＧＯＰ中のすべてのフレームが完全にカバーされることを保証するために、元のフレームよりもわずかに大きい領域（１ピクセルで十分である）上でベース・メッシュを規定し、この拡張領域中に入るノードに０変位を割り当てることで十分であり、この形式の拡張は、薄い灰色の線で図に示されている。代替的に、実施例では、元のフレームの外側のメッシュ・ノードは、フレーム中の（１つ又は複数の）それらの隣接するノードの変位を割り当てられ得る。完全にカバーすることを依然として保証するために、これらのノードは、それらの変位ベクトルに従ってマッピングされなければならず、０変位ベクトルを割り当てることによって達成されるように線形ランプを作成するのではなく、フレーム境界において変位を効果的に外挿する。これらの基本拡張方法で十分であるが、より物理的に有意味な拡張機構が当業者に明らかであろう。たとえば、フレーム境界変位ベクトルを外挿するのではなく、隣接するＧＯＰからのベース・メッシュからの情報が、そのような領域中で使用され得、これを達成する１つのやり方が、ディスオクルージョンされた（ｄｉｓｏｃｃｌｕｄｅｄ）領域中のベース・メッシュを「オーグメントする」ための一般的な方法について説明する、セクション４．１．２において説明される。

このカバー特性の帰結は、完全逆方向変位フィールドが、各非ベース・フレームについて推測され、そのフレームにおいて固定され得、ベース・フレームを指していることがあることである。ただし、概して、この逆方向変位フィールドは、メッシュ中の折り畳みにより、一意でない。折り畳みは、非ベース・フレームｆ_ｋ中のいくつかのロケーションｓ_ｋが２つ又はそれ以上のベース・フレーム・ロケーション

、

、．．．、によってマッピングされ得ることを意味し、すべてのそのような状況について二重マッピングという用語を使用する。ベース固定変位表示は、二重マッピングを解決し（ｒｅｓｏｌｖｅ）、フレームｆ_ｋ中で視認可能である（すなわち前景にある）特定のロケーション

を識別する、ロバストな機構がなければ完了しないことになり、その場合、ベース・フレームを指す、対応する解決された変位ベクトルは、

である。ベース・モデルがシーン深度（又は逆深度）情報を組み込む場合、二重マッピングによってもたらされるアンビギュイティは、視認可能ロケーション

を最も小さい深度をもつものとして識別することによって、直ちに解決され得る。明示的深度情報が、利用可能でないか、又は、ＧＯＰのベース・フレームとすべての他のフレームとの間の変位関係を表現するのに十分でないかのいずれかである、より一般的な場合には、二重マッピングを解決するためにより高度な技法が使用され得、ローカル前景物体を識別するために変位フィールド中の不連続性がどのように使用され得るかの説明については、セクション４．２を参照されたい。

ここで、ベース変位フィールドが、図２において赤いドットによって示されている中断を伴うより興味深い場合について考える。中断点は、図において示唆されるように、ベース・メッシュ要素をより小さい領域に区分する。その上、各中断点は、図において緑色及び橙色のドットによって示されている、２つの新しいメッシュ・ノードを効果的に導入し、２つの新しいメッシュ・ノードのロケーションは、ベース・フレーム中の中断と一致し、それらの変位ベクトルは、中断されるアークの各端部から変位ベクトルを複製するか又は外挿することによって取得される。これらの新しい中断誘発ノードを、それらのそれぞれの変位ベクトルを使用して、各非ベース・フレームにマッピングすることは、ベース・フレームから視認可能でない非ベース・フレーム中の領域に対応する、メッシュ中の「ホール」を切り開くことができる。これらのいわゆるディスオクルージョンされた領域は、図においてピンク色の陰影によって示されている。また、変位フィールド中の中断誘発不連続性が、オクルージョンのエリアに対応する、二重マッピングを大量に生むソース（図に示されていない）を与え、前景物体の一方の側が背景コンテンツをディスオクルージョンするとき、他方の側は、一般に、二重マッピングを生成する。

したがって、ベース固定変位表示を完了するために、二重マッピングを解決することと、非ベース・フレームのディスオクルージョンされた領域内で適切な変位情報を割り当てることとの両方を行うことが必要であり、その結果、ＧＯＰの任意のフレームをＧＯＰの任意の他のフレームから予測するために、及びその予測が有効であるロケーションを推測するために、変位補償予測演算が使用され得る。

これらの問題のソリューションは、以下で説明される、実施例の態様である。

４．１埋め戻しを介して、ディスオクルージョンされた領域中で変位情報を割り当てること
上記で提起された第２の問題、すなわち、ディスオクルージョンされた領域中で物理的に有意味な変位情報を割り当てることの問題に対処するために、一実施例は、新規の埋め戻し方法論を採用する。ベース・フレーム中の中断点誘発（ｂｒｅａｋｐｏｉｎｔ－ｉｎｄｕｃｅｄ）ノード（図２における緑色及び橙色のドット）によって形成される三角形は、必然的に伸張する（それらがマッピングされるとき、それらのエリアは著しく増加する）。変位フィールド中の不連続性（すなわち、物体境界）の周りに形成することが予想される、これらの伸張する三角形のほぼ半分が「ディスオクルーディング」であり、残りの伸張する三角形が、二重マッピングの領域を示す、「折り畳み」である。ディスオクルーディング三角形は、正の行列式をもつ三角形として識別され、折り畳み三角形は、負の行列式によって特徴づけられる。折り畳み三角形は、少なくとも２つの他の三角形（ローカル前景の１つ及びローカル背景物体の１つ）がマッピングする領域にマッピングし、したがって、廃棄される。一方、ディスオクルーディング三角形は、他の三角形がマッピングしない領域にマッピングすることができ、これらの三角形は別々に扱われる必要があり、これは以下で説明される。ディスオクルージョンによってもたらされたホールは、最初に、ベース・フレーム中の中断点誘発ノードをリンクするいわゆる「中断誘発メッシュ要素」を追加することによって埋められる。これらのメッシュ要素は、ベース・フレーム中では０サイズを有するが、図２において破線の赤い線によって示されているように、非ベース・フレーム中では、ディスオクルージョンされた領域を埋めるために拡大する。

より一般的には、非ベース・フレーム中のディスオクルージョンされた領域は、かなりの拡大を常に伴い、そこで、ベース・フレーム中の小さい領域内で見つけられる変位が、その領域を非ベース・フレーム中のはるかに大きい領域に拡大する。ここで説明されるように、中断誘発ノードの使用は、変位フィールド中の不連続性の各側からの中断誘発ノードがベース・フレームにおいてコロケートされ、これが、ディスオクルージョンが非ベース・フレーム中のどこで生じても無限拡大比を呈する０エリアをもつメッシュ要素につながるので、ディスオクルージョンの識別におけるアンビギュイティを回避する。

したがって、中断誘発メッシュ・ノードに関連するこれらの特殊なメッシュ要素のために「∞要素」という用語を導入する。∞要素の以下の特性を強調することは、価値がある。
１． ∞要素を形成するメッシュ・ノードのうち、少なくとも２つがベース・フレームにおいてコロケートされる。
２．メッシュ中の∞要素の存在は、あらゆる非ベース・フレーム中のディスオクルージョンのすべての領域をカバーするのに十分である。これは、ＧＯＰ中の各フレームが、関連する変位に従ってマッピングされるベース・フレームからのメッシュ要素によって確実にカバーされることを意味する。

∞要素は、任意の非ベース・フレームからベース・フレームを指す、逆方向変位フィールドがどこでも存在することを保証するが、それらは、物理的に有意味な逆方向変位値につながらない。これは、∞要素に関連する中断誘発ノード（たとえば、完全な黒い丸（ドット））の半分が背景とともに移動し、残りの半分（たとえば、丸の中の黒いドット）が前景とともに移動するからである。ただし、ディスオクルージョンされた領域内の変位は、完全に（ローカル）背景に関連するべきである。

埋め戻し方式は、ＧＯＰの最後のフレーム中のディスオクルージョンされた領域に新しい変位を割り当てることによって開始し、そのフレームは、この説明の目的で「埋め戻された（ｂａｃｋ－ｆｉｌｌｅｄ）」フレームとして識別され得る。上述のように、埋め戻されたフレーム中の各ディスオクルージョンされた領域は、ベース・フレーム中で０サイズを有する∞要素によってカバーされ始める。以下では、ディスオクルージョンされた領域中で物理的により有意味な変位情報を割り当てる２つの異なるやり方について説明する。第１の、より一般的な方法は、ローカル背景情報を外挿する。ベースメッシュ・オーグメンテーションと呼ばれる、第２の方法は、現在のベース・メッシュをオーグメントするために、他の手段によって、埋め戻されたフレームにおいて与えられる変位情報を活用し、この方法は、埋め戻されたフレームが別のＧＯＰのベースフレームと一致するとき、特に興味深い。

４．１．１背景外挿を使用する埋め戻し
このセクションは、ディスオクルーディングである領域中のベース・メッシュにローカル背景変位レイヤがどのように追加され得るかの一般的な方法について説明する。そのプロシージャを示すために図３を使用する。図では、メッシュ要素ａ～ｄは左側に変位する前景物体に属し、メッシュ要素ｅ／ｆは物体境界（赤い破線）を横断しており、説明しやすいように、背景は静的（すなわち、変位なし）である。図３ａに示されているように、そのノードが橙色及び緑色の丸によって示されている、ｆ_０におけるベース・フレーム中の０サイズの中断誘発メッシュ要素は、それが次のベース・フレームｆ_２にマッピングされると拡大し、ホール（黄色の三角形）を切り開く。

埋め戻されたフレーム中のそのようなディスオクルージョン・ホールを物理的に有意味な変位値で埋めるために、埋め戻されたフレームにおいて視認可能である（すなわち、ベース・フレームからマッピングされた他のメッシュ要素によってカバーされていない）各マッピングされた∞要素が、最初に、複製されて、埋め戻し（ｂａｃｋ－ｆｉｌｌ）要素になるものが生成される。結果として、各埋め戻し要素を画成するメッシュ・ノードは、ベース・フレームにおいてコロケートされている、少なくとも２つの中断誘発ノードを含む。中断誘発ノードの各ペアについて、１つが中断の前景側に属し、１つが中断の背景側に属する。これらを区別することは、埋め戻しプロシージャにとって極めて重要である。前景に属するものとして識別される各中断誘発ノードも複製され、複製は、（１つ又は複数の）∞要素のみに関連する元の中断誘発ノードの代わりに、（１つ又は複数の）関連のある埋め戻し要素に関連する。複製されたノードは、埋め戻しノードとして識別され、紫色のドットとして図３ｂに示されており、これらは、ベース・モデルからこれらのノードに最初に割り当てられた変位ベクトルが、カバーされていない背景との整合性を改善するために自由に変更され得るので、「フリー・ノード」とも見なされ得、その変位ベクトルは、埋め戻し要素によってモデル化されるべきである。

前景に属する中断誘発ノードを背景に属するものと区別することは、ベース・モデルがシーン深度（又は逆深度）値を組み込む場合、非常に簡単であり、中断誘発ノードがペアになり、ベース・フレームにおいてコロケートされるので、各ペアにおけるより大きい深度をもつノードは、自然に背景に関連し、他方のノードを前景に関連したままにする。深度が利用可能でないか、又は、変位フィールドを完全に表現するのに不十分である、より一般的な場合には、中断誘発ペア内の前景関連ノードと背景関連ノードとを区別するためにより高度の技法が使用され得、セクション４．３を参照されたい。

埋め戻されたフレーム中の埋め戻しノードのマッピングされたロケーションは、それらが生じた中断誘発ノードのマッピングされたロケーションに一致しなければならないが、埋め戻しストラテジーは、これらのノードに新しい変位ベクトルを割り当て、それらのロケーションを、ベース・フレームを含む、すべての他のフレーム内で効果的に変更する。このようにして、埋め戻されたフレーム中のディスオクルージョンに及ぶ∞要素は、その外観が、埋め戻されたフレーム中の対応する∞要素と同等であるが、他のフレーム中のものとは同等でない、埋め戻し要素（図３ｂにおける三角形ｇ～ｈ）に再マッピングされる。

埋め戻しメッシュ要素の（１つ又は複数の）他のノード上で見つけられる変位ベクトルを平均化する外挿プロシージャに基づいて、変位ベクトルが埋め戻しノードに割り当てられ、すなわち、これらは、元の∞要素を規定した中断誘発ノードの各ペアからの非フリー・ノードである。一実施例では、フリー・ノードのための変位ベクトルは、スプラット・プロシージャを介して取得された、ベース・メッシュのグリッド中のすべての「フィックスされた」ノード（すなわち、ローカル背景変位情報を搬送するノード）の加重平均を割り当てることによって、見つけられる。これは、コンピュータ・グラフィックス・カードにおいて効率的に実装され得る変位値のルックアップ・テーブルを作成する。埋め戻しノードへの変位ベクトルの再割当ては、埋め戻しメッシュ要素が、∞要素とは異なり、ベース・フレーム中でもはや０サイズを有しないことを意味する。図３ｃに示されているように、ベース・フレームに投影されたとき、埋め戻し要素は、ローカル背景モデルとして解釈され得る変位ジオメトリの新しい「下にある」表現になる。

これらの埋め戻し要素が中間フレーム・ロケーション（たとえば、図３ｃにおけるｆ_１）にマッピングされたとき、背景レイヤの一部がカバーされなくなり（緑色のエリア）、別の部分（黄色のエリア）は依然として前景メッシュ要素によってカバーされる。重要性は、これが、ベース・フレームの中間に補間される任意のフレームについてディスオクルージョンの領域中で、幾何学的に整合する変位情報を割り当てることを可能にすることである。

このようにして、元の２Ｄベース・メッシュは、いかなる追加のコーディングされた変位情報又は他のサイド情報の必要もなしに、フレーム間推理のみを通してレイヤード・メッシュにコンバートされる。

４．１．２オーグメント・メッシュ（ＡｕｇｍｅｎｔｉｎｇＭｅｓｈ）を使用する埋め戻し
このセクションは、別のメッシュからの情報を用いて現在のベース・メッシュをオーグメントするやり方について説明し、別のメッシュは、別のＧＯＰのベース・メッシュ、又はコーディングされた別のメッシュのいずれかであり得、このメッシュをオーグメント・メッシュと呼ぶ。一実施例では、現在のベース・メッシュから無限大三角形によってマッピングされた領域をカバーする、他のベース・フレームのすべての三角形（すなわち、すべてのディスオクルージョンされた領域のセット）が、オーグメント・メッシュから現在のベース・メッシュにマッピングされ、そこで、それらは（ローカル背景）オーグメンテーション・レイヤを形成する。ベース・メッシュ・オーグメンテーションの主な魅力は、新しい物体が現れつつあるディスオクルージョンされた領域を扱うことが可能であることである。

ベース・メッシュ・オーグメンテーションに伴って生じる主な問題は、現在のベース・メッシュが有効値を有しない領域中でのみオーグメント・メッシュ要素が適用されるので、現在のベース・メッシュから、埋め戻されたオーグメント・メッシュ要素への（ハード）遷移境界において不整合がもたらされ得ることである。さらに、オーグメント・メッシュ要素は、潜在的に、関係しないディスオクルージョン領域に及ぶほど十分に大きいことがあり、これは、埋め戻しプロシージャにおけるアンビギュイティにつながる。この問題を大幅に緩和するために、定められた最大要素サイズに基づいて、大きいメッシュ要素をより小さいメッシュ要素に区分し、ディスオクルージョンされた領域をカバーするもののみを残す。

採用される埋め戻し方法にかかわらず、埋め戻しメッシュ要素は、すべて、オーグメントされたベース・モデルの一部としてベース・フレーム内に収集され、そこで、それらは、推論ローカル背景レイヤとして解釈され得、これは、複数の補間されたフレームにわたるディスオクルージョンされた領域中の整合する変位割当てを保証する。

４．２再帰的埋め戻し及び変位補償フレーム予測
上記で説明されたプロセスは、ベース・フレーム中の新しい下にあるメッシュ要素につながる、埋め戻しノードへの変位ベクトルの割当てが、最初に、ＧＯＰの最後のフレーム、すなわち、埋め戻されたフレームから引き起こされるので、埋め戻しと呼ばれる。これは、ディスオクルージョンの領域が最大になる可能性がある、ベース・フレームから最も遠いフレームである。厳密に必要というわけではないが、フレーム間変換が、ベース・フレームにおいて、イントラコードディングされたテクスチャ情報を与えるように準備することが望ましい。埋め戻しによって生成された、再マッピングされたメッシュ要素は、ＧＯＰ自体のベース・フレームからではなくＧＯＰの最後のフレーム（次のベース・フレーム）から予測され得るコンテンツに対応する。

ベース・モデル内に埋め戻し要素を含めた後に、モデルのすべての要素が、ＧＯＰ中の中間フレームにマッピングされ得る。すべての埋め戻しが完了するまで削除されない∞要素の存在は、これらのマッピングされた要素が、下にあるジオメトリにかかわらず、中間フレームをカバーすることを保証する。マッピングされた∞要素が、ベース・モデルからのマッピングされた埋め戻し要素又はマッピングされた元のメッシュ要素のいずれかによって、中間フレーム内でカバーされる可能性もある。ただし、∞要素のみによってカバーされるディスオクルージョンの小さい領域が残ることが起こり得る。これに対処するために、埋め戻しプロシージャが繰り返され、カバーされていない∞要素が複製され、新しい埋め戻し要素を伴い、中間フレーム（新しい埋め戻しフレーム）中の新しい埋め戻し要素のマッピングされた外観は、∞要素の外観と同等である。

新しい埋め戻し要素は、元の中断誘発ノードのペアから生じるメッシュ・ノードによって規定され、その中断誘発ノードの前景／背景割当ては、上記で説明されたように、（先行する埋め戻しステップから）すでに知られているか、又は、新たに決定される必要があるかのいずれかである。決定されると、各中断誘発ペア内の背景ノードが、複製されて、関連のある埋め戻し要素に関連する新しい埋め戻しノードを形成する。これらの新しい埋め戻しノードは、セクション４．１．１において説明された同じ外挿プロシージャを使用して、新しい変位ベクトルを自由に割り当てられ、これにより、埋め戻しメッシュ要素が、ベース・フレーム内に新しいローカル背景レイヤを構成することになる。

このようにして、ＧＯＰ内で中間フレームを見に行くとき、ベース・モデルは、埋め戻しノードと埋め戻しメッシュ要素とを用いて漸進的にオーグメントされ、その結果、ベース・モデルは、最終的に、完全で幾何学的に整合する様式でＧＯＰのすべてのフレーム間の関係を表現する。

埋め戻し要素の存在は、オーグメントされたベース・モデルからのメッシュ要素が新しい中間フレームにマッピングされるにつれて、二重マッピングの可能性が、ますます高くなることを意味する。すべてのそのような二重マッピングは、すでに手短に紹介された方法を使用して解決され得る。しかしながら、埋め戻し要素が発見された埋め戻されたフレームを識別するレイヤＩＤを各埋め戻し要素に割り当てることは、有用である。ベース・メッシュの元の要素は、レイヤＩＤ０を割り当てられる。ＧＯＰの最後のフレーム（たとえば、ｆ_Ｎ）を埋め戻すときに導入される要素は、レイヤＩＤ１を割り当てられる。最初の中間フレーム（たとえば、ｆ_Ｎ／２）を埋め戻すときに導入される要素は、レイヤＩＤ２を割り当てられ、以下同様である。∞要素は、概念的に、∞のレイヤｉｄを割り当てられる。このようにして、フレーム・ロケーションが、異なるメッシュ要素によってマッピングされたとき、二重マッピングは、より小さいＩＤをもつ要素のほうを優先して解決され得る。

一実施例では、メッシュ要素のマッピングを実行し、二重マッピングを解決し、効率的なやり方で複製されて、新しい埋め戻し要素になる必要がある∞要素を識別するために、旧来のコンピュータ・グラフィックス・ワークフローで見られるものと同様の概念を使用することができる。（オーグメントされた）ベース・モデル中の各ノードは一意のＩＤを割り当てられ、各メッシュ要素も一意のＩＤを割り当てられる。ベース・モデル要素を別のフレームにマッピングするとき、そのフレームは、ピクセル・ロケーションごとに１つのＩＤをもつ、ＩＤマップを割り当てられる。ＩＤマップは、各メッシュ要素がマッピングされるにつれて漸進的にポピュレートされ、要素のＩＤが、マッピングされた要素によってカバーされるＩＤマップ中のすべての空のロケーションに転移する。二重マッピングは、メッシュ要素が、空でない、マッピングされたフレームのＩＤマップ中のロケーションをカバーするとき、直ちに発見される。その時点において、現在考慮されているロケーションと同じロケーションにマッピングするメッシュ要素を直ちに発見するために既存のＩＤが使用され、すでに説明されたように、二重マッピング解決（ｒｅｓｏｌｕｔｉｏｎ）技法が適用される。すべてのメッシュ要素が当該のフレームにマッピングされると、∞要素を識別するＩＤマップ中のロケーションは、埋め戻しが必要とされるロケーションである。その各々が複製されて、再マッピングされる埋め戻し要素及び埋め戻しノードを生成する、視認可能のままであるすべての∞要素を識別するために、単純なピクセル及び参照計数技法が使用され得る。

ＧＯＰをカバーするために生成される必要がある埋め戻しメッシュ要素の数を最小限に抑えるために、一実施例は、再帰的埋め戻しストラテジーを採用する。この手法では、フレームｆ_０にベースを置くＧＯＰに関連する最初の埋め戻されたフレームが、ｆ_Ｎである。次の埋め戻されたフレームが、ｆ_Ｎ／２である。これの後に、フレームｆ_Ｎ／４及びｆ_３Ｎ／２が埋め戻される。プロセスはこのようにして続き、ＧＯＰの幅優先ダイアディック・ツリー・スキャン（ｂｒｅａｄｔｈ－ｆｉｒｓｔｄｙａｄｉｃｔｒｅｅｓｃａｎ）に従う。

（ｆ_Ｎ以外の）中間フレームの埋め戻し中に追加される新しい埋め戻されたメッシュ要素が、ベース・フレームｆ_０と次のＧＯＰのベース・フレームｆ_Ｎの両方にカバーされる（すなわち、視認可能でない）中間フレームの領域に対応することは、注目に値する。したがって、これらの領域は、バイディスオクルージョンされた（ｂｉ－ｄｉｓｏｃｃｌｕｄｅｄ）と理解され得る。変位補償フレーム間変換では、バイディスオクルージョンされた領域は、特定の課題を提示する。これらは、従来のビデオ・コーデックにおいてイントラコーディングされ得る領域である。フレーム間変換のための類似する演算は、インペインティングである。単純なピクセル複製方法から方向外挿技法及び勾配積分方法にわたる、多くの空間インペインティング方法が当業者に知られている。

幸いにも、イントラコーディング、又は部分的にオクルージョンされた（単方向）予測の必要を告知するために、予測モード・フラグが明示的に通信される必要はない。代わりに、すべての視認性情報が、メッシュ要素のマッピングから自然に出現する。

４．３前景／背景ディスアンビギュエーション及び二重マッピング
前述のように、メッシュ要素がベース・メッシュからＧＯＰ中の他のフレームにマッピングされるとき、二重マッピングが発生し得る。これらは、メッシュ中の中断と折り畳みの両方から生じる。どこで二重マッピングが観測されても、前景物体の変位を下にある（すなわちローカル背景）物体の変位と区別することが必要である。前景変位ベクトルと背景変位ベクトルとの間の弁別は、上記で説明された埋め戻しプロシージャにおいてフリー・ノードを識別するためにも必要とされる。

幸いにも、絶対的レイヤリングが決定又は推定される必要はない。あるフレーム中で一致しているノードに属する２つの元の又はマッピングされた変位モデルを弁別する必要が常にあるにすぎない。ベース・モデルがシーン深度を組み込む場合、この２値弁別は、極めて単純であり得、前景モデルをより小さい深度ものとして識別する。

深度情報が利用可能でないか又は正確に知られていないことがある場合、同じロケーションにマッピングする前景モデルと背景モデルとを弁別するために、追加の手がかりが必要とされ得る。これのために、変位フィールド中の不連続性が前景物体の境界において発生するという観測に依拠することができる。これは、前景変位が、フレームｆ_０についてのベース・メッシュ中の不連続性を、フレームｆ_Ｎに関連する、次のベース・メッシュ中の不連続性にマッピングするものであるべきであることを意味する。そのようなストラテジーは、動きの推論において、及び時間フレーム補間について大いに成功していることがわかっている（たとえば［１３］）。

この実施例は、前景変位モデルが、フレームｆ_０についてのベース・メッシュ中の不連続性を、フレームｆ_Ｎに関連する、次のベース・メッシュ中の不連続性にマッピングするものであるべきであるという観測に依拠する。ベース固定変位フレームワークの実施例では、各ＧＯＰの最後のフレームは次のＧＯＰの最初のフレームでもあり、その結果、フレームｆ_Ｎにおいて固定される、次のＧＯＰのベース変位モデルＭ_Ｎが、現在のＧＯＰのベース変位モデルＭ_０中で見つけられる変位と比較され得る。本質的に、ベース変位モデルＭ_０中の不連続性（又は中断）は、中断の両側で見つけられる変位ベクトルを使用してフレームｆ_Ｎにマッピングされ得、モデルＭ_Ｎ中の同様の発散又は収束の領域に不連続性をマッピングする変位ベクトルは、前景変位ベクトルに対応する可能性が高いものである。

埋め戻しプロシージャの目的で、ベース・メッシュ中のコロケートされた中断誘発ノードの各ペアが、ディスオクルージョンされた領域に及ぶ埋め戻されたフレーム中の線分にマッピングすることがわかっている。この現象は、ベース・モデルＭ_０中の発散に対応する。中断誘発ノードの各そのようなペアから、フリー・ノードは、フレームｆ_Ｎ中のそのロケーションがＭ_０中の発散と最も類似している次のベース・モデルＭ_Ｎ中の発散値を呈するノードとして識別される。

二重マッピングを解決する目的で、前景に属するメッシュ・ノード又は領域は、以下のように決定される（図４参照）。第１に、非ベース・フレームｆ_ｋ中の検出された二重マッピングの「起点」ｓ_ｋが、ベース・フレーム中の対応するソース・ロケーション

と

とを接続する線分を探索することによって見つけられ、これは、変位フィールドが折り畳まれるロケーションを探す。この線分を「折り畳み（ｆｏｌｄ）探索経路」と呼ぶ。折り畳みは、ベース変位フィールド中の収束に関連し、したがって、折り畳みロケーションは、変位収束値（負の発散）が最大である探索経路に沿ったポイントとして識別される。このロケーションは、通常、ベース変位フィールド中の中断に対応する。折り畳みロケーションは、折り畳みの各側で（たとえば、折り畳み探索経路に沿って各方向において１ピクセルの距離のところで）変位ベクトルを使用して、フレームｆ_Ｎにマッピングされ、次のベース変位モデルＭ_Ｎ中の発散は、どの変位ベクトルが前景に属するかを発見するために、ベース変位モデルＭ_０中の発散と比較される。折り畳みの前景側は、その変位ベクトルが次のベース・フレーム中の同様の収束（負の発散）のロケーションにそれを搬送する側である。

図４は、前景物体を識別するために変位フィールドの発散を使用する二重マッピング解決プロシージャの図である。Ｔ_０→ｔを使用してｆ_０からｆ_ｔにマッピングされ、ここで、Ｔ_０→ｔはフレームｆ_０からのアフィン・マッピングを規定するとき、

と

とは、ｆ_ｔ中の同じロケーションｍにマッピングする。

と

とを接続することによって形成される、「折り畳み探索経路」ｌに沿って最大収束のポイント（赤）を探索する。

と

とを、それぞれ、

と

とにわずかにより近い線上の２つのポイントとする。

と

とが次のベース・フレームｆ_１にマッピングされたとき、より大きい収束の領域にマッピングするものが前景変位を識別し、本実例では、

が、

がより大きい収束の領域中に入るので、前景変位である。

すべてのメッシュ要素がターゲット・フレームにマッピングされ、すべての二重マッピングが解決された後に、ターゲット・フレームにおいて、完全変位フィールドを有する。

４．４視認性アウェア（Ｖｉｓｉｂｉｌｉｔｙ－Ａｗａｒｅ）変位補償フレーム補間
最後のセクションでは、変位情報が、ベース・フレームｆ_ｂから、補間しようとするターゲット・フレームｆ_ｔにどのようにマッピングされ得るかについて説明した。このセクションでは、ターゲット・フレームｆ_ｔがＮ＝｛１，２，．．．｝個の参照フレーム｛ｆ_ｒｊ｝，ｊ∈｛１，．．．，Ｎ｝からどのように補間され得るかについて説明する。ベース・モデルがＧＯＰ中のベース・フレームから任意の他のフレームへの変位の表現を保持するので、変位ベクトルの単純な構成を使用して、ＧＯＰの任意のフレームからＧＯＰの任意の他のフレームへの変位を容易に推論することができる。すなわち、ターゲット・フレームｆ_ｔ中のロケーションｘ_ｔを仮定すれば、参照フレームｆ_ｒ中の対応するロケーションは、以下のように取得され得る。

、ここで、

。

上記の式が、ターゲット・フレームとｆ_ｔの予測に関与するすべての参照フレームとの間の対応を確立することを可能にするが、すべてのロケーションがすべての参照フレームにおいて視認可能であるとは限らないことに留意することは、重要である。

視認性を査定するために、場合によっては、最も単純なやり方は、メッシュ要素ＩＤを比較し、メッシュ要素ＩＤが一致する場合、ロケーションを視認可能であると標示することである。しかしながら、この推理は、参照フレーム中のサンプル・ロケーションが概して整数ロケーション上になく、最も近いネイバーのメッシュ要素ＩＤが、ネイバリング・メッシュ要素が同じ（アフィン）平面を表現する場合でも、ターゲット・フレーム・メッシュ中のＩＤとは異なり得るので、メッシュ要素の境界において問題になる。さらに、メッシュ要素は１よりも小さいエリアに縮小し得、その場合、それらは整数ロケーション上にないことがあり、したがって、それらはメッシュ要素ＩＤマップに登録されない。

これに照らして、よりロバストなやり方は、順方向／逆方向整合性検査を実行することである。

を使用することは、ロケーションが参照フレームからターゲット・フレームにマッピングされることを示し、順方向／逆方向整合性検査は、単に、

であり、ここで、θは、丸め誤差に起因する変位値の小さい差を考慮するために追加される小さい値である。したがって、ターゲット・フレームの予測に関与する各参照フレームについての視認性マスクを以下のように計算する。

ここで、

。

次いで、ターゲット・フレーム中の各ロケーションｍが次のように計算され得る。

ここで、ｆ_ｒｊ→ｔがターゲット・フレームｆ_ｔへの変位補償参照フレームｆ_ｒｊを示すために使用され、ｄ（・，・）は距離測度である。すなわち、ターゲット・フレーム中の各ロケーションは、それぞれの参照フレームまでのターゲット・フレームの距離によって重み付けされた、ロケーションが視認可能であるすべての参照フレームの重み付けされた組合せとして予測される。ロケーションが参照フレームにおいて視認可能でない場合、いくつかの方法が適用され得る。上記の公式化では、視認可能でないと見なされるロケーションについての単純な重み付け予測に頼る。別の、好ましいやり方は、参照フレームにおいて視認可能でないすべてのロケーションを埋めるためにインペインティング・ストラテジーを採用することであり、これは、概して、参照フレームのうちのいずれにおいても視認可能でない領域中のより妥当と思われる補間につながる。

４．５より高次元のＧＯＰの拡張
ここで、より高次元のＧＯＰを扱うために上記の原理を拡張する。簡単のために、マルチビュー・イメージング適用例のコンテキストにおいて自然に生じる２次元ＧＯＰの場合を考慮する。たとえば、２ＤＧＯＰは、２Ｄカメラ・アレイを介して獲得された静的イマジェリー、又は線形（１Ｄ）カメラ・アレイを介して獲得されたマルチビュー・ビデオを表現することに適する。非線形カメラ・アレイを用いてより高次元のＧＯＰに拡張し、マルチビュー・ビデオに拡張することは、当業者に明らかであるべきであり、したがって、ここで明示的に説明される必要はない。

図５は、より高次元のピクチャ・グループ（ＧＯＰ）の例示的なタイリングである。各ＧＯＰは、それの左上隅において１つのベース・フレームを有する。隣接するＧＯＰは、各方向において、１つのフレームだけ重複し、存在しない追加の重複するＧＯＰについてのベース・フレームであるフレームが、薄い灰色のテキストで示され、これらは、いわゆる「権利のない（ｄｉｓｅｎｆｒａｎｃｈｉｓｅｄ）ベース・フレーム」である。

図５は、前に提示された１ＤＧＯＰ構造の最も自然な拡張を表すＧＯＰタイリング方式を示す。この方式では、ＧＯＰについてのベース・フレームはその左上隅にあり、隣接するＧＯＰは、水平に及び垂直に、１つのフレームだけ重複する。１Ｄの場合のように、変位補償フレーム間変換が、同じＧＯＰ中で見つけられるフレーム間の予測のみを伴うと仮定する。これが、ＧＯＰが重複することを必要とする理由である。このようにして、隣接するＧＯＰ間の交差部において見つけられる共通フレームが、それらのＧＯＰの各々内で見つけられるフレームを予測するために使用され得る。

重複するＧＯＰへの追加の利益は、追加のコーディングされた変位情報の潜在的利用可能性である。前述のように、２Ｄ変位フィールドは、ベース・フレーム内でのみコーディングされ、各ＧＯＰは、（潜在的に）それ自体の１つのベース・フレームのみを有し、上記１つが、ここではその左上隅にある。しかしながら、ＧＯＰが、コーディングされた変位情報をもつそれ自体のベース・フレームを有する、隣接するＧＯＰと重複する場合、セクション４．１．２において説明されたベース・メッシュ・オーグメンテーション・ストラテジーを使用する埋め戻しの第１の段階の性能を改善するためにこの別個の情報を使用することが可能である。

要約すると、ＧＯＰ－０についてのベース・フレームｆ_０，０のメッシュ要素がｆ_０，Ｎにマッピングされたとき、埋め戻し要素のために、ｆ_０，Ｎ内で視認可能であるがｆ_０，０内で視認可能でない、そのフレーム（埋め戻されたフレーム）内の領域を埋めるために生成される。セクション４．２において説明された埋め戻しアルゴリズムは、∞要素を再マッピングするために作成される埋め戻しノードに変位値を割り当てるために、外挿プロシージャを使用する。しかしながら、フレームｆ_０，Ｎは、外挿の代わりに使用され得る明示的にコーディングされた変位情報をすでに含んでいる。これは、埋め戻されたフレームが別のＧＯＰのベースであるときのみ、当てはまる。

図５内のいくつかのフレームは、それらがそれら自体の隣接するＧＯＰを有しないにもかかわらず、ベース・フレームとして識別される。たとえば、フレームｆ_２Ｍ，０は、タイリングがＧＯＰの３行目に続かない限り、それ自体のＧＯＰを有しない。これらの権利のないベース・フレームは、コーディングされた変位情報を搬送する必要がない。しかしながら、権利のないベースを含むＧＯＰについての埋め戻されたジオメトリの品質を改善するために変位情報が使用され得るように、権利のないベース内の変位情報を選択的に符号化することは、有益であり得る。

埋め戻しアルゴリズムは、１ＤＧＯＰと２ＤＧＯＰとについて同等であるが、２Ｄの場合には、埋め戻しメッシュ要素を生成するためにフレームを見に行くべきである明らかな順序はない。埋め戻し順序は、ＧＯＰについてのベース・モデルがオーグメントされる順序を決定し、これは、究極的には、ＧＯＰの所与のフレームについて生成される推論変位値に影響を及ぼす。変位補償フレーム間変換が概して埋め戻し順序に依存するので、埋め戻し順序が明確であることは重要である。

４．６ターゲット・フレームの変位補償フレーム補間のためのテクスチャ最適化
ターゲット・フレームｆ_ｔの動き補償予測は、変位フィールドが不連続である可能性がある、物体境界の周りの視認可能アーテファクトを呈することができる。このセクションでは、そのようなアーテファクトを選択的に低減する２つの実施例を提示する。前述のように、ターゲット・フレームｆ_ｔがＮ個の参照フレームｆ_ｒｊ，ｊ∈｛１，．．．，Ｎ｝から予測されると仮定し、ここで、変換構造に応じて、ベース・フレーム自体がターゲット・フレームであり得ることがわかっている。

４．６．１単方向予測と多方向予測との間の遷移の平滑化
ディスオクルージョン境界において、オクルージョン・アウェア・フレーム補間方法を使用して補間された、アップサンプリングされたフレームは、問題を有することがあり、すなわち、単方向予測から多方向予測への急激な遷移は、２つの参照フレーム間で照度が変化する場所における人工的な境界につながることがある。変位補償参照フレームｆ_ｒｊ→ｔのいずれもテクスチャ・データにおいてそのような遷移境界を含んでいることが予想されず、そのような遷移境界は変位補償フレームが一緒に混合されると生じるにすぎないことに気づいた。したがって、提案する方法は、ｆ_ｔの各ロケーションにおける周波数成分を動き補償参照フレームのうちの１つに制限することからなる。

好ましい実施例では、これは、ウェーブレット領域において達成される。同様の結果を達成する他のやり方が、当業者に明らかである。フレームｆ_ｉの（インターリーブされた）２Ｄウェーブレット分解を示すために、

を使用し、特定のウェーブレット係数ｋを利用するために、

を使用し、ここで、ｋは、変換におけるレベル、サブバンド、及び空間位置に関する情報を収集する。次いで、

を規定する。
すなわち、τ［ｋ］は、ｋにおいて評価される、変位補償参照フレームのウェーブレット分解の最も大きい（視認可能）ウェーブレット係数を表す。次いで、

が以下のように計算される。

次いで、

が、

を合成することによって取得される。この選択的ウェーブレット係数減衰に関して特に魅力的であることは、それがフレーム全体に広域的に適用され、関与するヒューリスティック又はパラメータがないことである。

４．６．２変位する物体の周りの光ぼけ合成
提案された実施例において生じることがある別のアーテファクトは、テクスチャ領域における変位する物体の境界において過度に鋭い遷移がもたらされることであり、これは、反転された変位フィールドＭ_ｔ→ｂが、変位する物体の境界の周りで不連続であるからである。これは、前景物体を効果的にカットアウトし、それをターゲット・フレームにペーストする。実際には、参照フレーム中の遷移は、光ぼけにより、より平滑であり、これは、イメージング・プロセスの不可避の側面である。上記で説明されたウェーブレット・ベース減衰ストラテジーは、不自然に鋭い不連続性が変位補償参照フレーム｛ｆ_ｒｊ｝の両方において存在することが予想されるので、この問題を解決することができない。

光ぼけを合成する効果的なやり方を達成する実施例は、変位する物体の境界の指示として、マッピングされた（及び反転された）変位フィールドＭ_ｔ→ｂの発散を使用する。変位フィールドの発散の絶対値があるしきい値θよりも大きいすべてのピクセルにローパス・フィルタが適用され、次いで、

として示された、光ぼけ合成をもつ変位補償非ベース・フレームは、次のように取得される。

ここで、ｈ［ｍ］は、２次元ローパス・フィルタのカーネルである。明らかに、上記で説明された２つのテクスチャ最適化方法は、一緒に組み合わせられ得る。

図６は、提案されたベース・モデルを採用するエンコーダの概観を示す。エンコーダ方式への入力は、ビデオ・シーケンス、マルチ・ビュー・イマジェリー、又はマルチ・ビュー・ビデオ・シーケンスのいずれかである。入力から、ベース・モデルが推定され（参照符号１００）、ベース・モデルは、ピクチャ・グループ（ＧＯＰ）中のベース・フレーム１０１からすべての他のフレームへの変位情報（及び他の関連のある関係）を表現する。次いで、ベース・モデル１０２が、フレーム間変換１０３を引き起こすために使用される。次いで、サブ・バンドが、空間冗長性を活用する空間変換１０４を受ける。最後に、サブ・バンドとベース・モデルとが符号化されて１０５、コード・ストリームが形成される。

図７は、提案されたベース・モデルを採用するデコーダの概観を示す。最初に、サブ・バンドとベース・モデルとが復号される１１０。次いで、サブ・バンドは逆空間変換１１１を受ける。最後に、フレーム間変換を反転させること１１２によって、復号されたシーケンスが取得される。

上記で説明された方法、プロセスを実装するエンコーダ及びデコーダは、ハードウェア、ソフトウェア、ハードウェア、ソフトウェア及びファームウェアの組合せを使用して実装され得る。ソフトウェアが利用される場合、コンピュータ可読媒体上に設けられるか、又はデータ信号として、若しくは他のやり方で送信され得る。

上記で説明された実施例によるベース固定手法の要素は、変位埋め戻しプロシージャであり、それにより、ディスオクルージョン・ホールが変位推論中に観測されるときはいつでも、ローカル背景変位レイヤがベース・モデルに追加される。これらの「背景レイヤ」は、ディスオクルージョンの領域中の幾何学的に整合する変位情報の割当てを保証し、これは、視覚認知のために大いに重要である。別の要素は、変位する物体の周りのローカル前景／背景関係を識別するロバストな方法であり、これは、たとえば変位がシーン中の動きに起因する場合のように、そのような情報が変位情報から推測され得ない場合に行われる。これらの場合には、物体境界が前景物体とともに変位する観測に基づく前景変位識別プロシージャを提案する。

有利には、実施例では、ベース固定手法は、空間（すなわち、マルチビュー）及び／又は時間（すなわち、ビデオ）にわたって高度にスケーラブルである圧縮システムの展開を可能にし、両方の次元にわたって任意のフレームレートのシームレス・アップサンプリングを可能にする。ベース固定手法の強い興味をそそる特徴は、ベース変位モデルを推定するために使用されるすべてのフレームがコーディングされなければならないとは限らないことである。すなわち、高品質変位モデルを推定するために、記録されたすべてのフレームを使用し得、ただし、これらのフレームの一部分のみがコーディングされ、すべての「中間の」フレームが、純粋に、説明された幾何学的に整合するフレーム補間プロシージャを使用して補間される。これは、予測されることになるあらゆるフレーム（すなわち、ターゲット・フレーム）において動き情報が表現及び推定される既存のビデオ圧縮システムとは対照的である。そのような「予測中心」圧縮システムでは、動き推定は日和見的であり（すなわち、それは、シーンの明らかな動きを表現することを明示的に試みず）、したがって、より有意味な動きを（再）推定することなしにデコーダにおいてフレームレートを増加させることは、可能でない。

広く説明されたように、本発明の趣旨又は範囲から逸脱することなく、特定の実施例において示されているように、多数の変形及び／又は変更が、本発明に対して行われ得ることが、当業者によって諒解されよう。したがって、本実施例は、あらゆる点で限定的ではなく例示的であると見なされるべきである。

５．参考文献
［１］Ｂ．－Ｄ．Ｃｈｏｉ、Ｊ．－Ｗ．Ｈａｎ、Ｃ．－Ｓ．Ｋｉｍ及びＳ．－Ｊ．Ｋｏ、「Ｍｏｔｉｏｎ－ｃｏｍｐｅｎｓａｔｅｄｆｒａｍｅｉｎｔｅｒｐｏｌａｔｉｏｎｕｓｉｎｇｂｉｌａｔｅｒａｌｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎａｎｄａｄａｐｔｉｖｅｏｖｅｒｌａｐｐｅｄｂｌｏｃｋｍｏｔｉｏｎｃｏｍｐｅｎｓａｔｉｏｎ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、ｖｏｌ．１７、ｎｏ．４、４０７～４１６頁、２００７年４月。
［２］Ｓ．－Ｇ．Ｊｅｏｎｇ、Ｃ．Ｌｅｅ及びＣ．－Ｓ．Ｋｉｍ、「Ｍｏｔｉｏｎ－ｃｏｍｐｅｎｓａｔｅｄｆｒａｍｅｉｎｔｅｒｐｏｌａｔｉｏｎｂａｓｅｄｏｎｍｕｌｔｉｈｙｐｏｔｈｅｓｉｓｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎａｎｄｔｅｘｔｕｒｅｏｐｔｉｍｉｚａｔｉｏｎ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．２２、ｎｏ．１１、４４９５～４５０９頁、２０１３年１１月。
［３］Ｄ．Ｋｉｍ、Ｈ．Ｌｉｍ及びＨ．Ｐａｒｋ、「Ｉｔｅｒａｔｉｖｅｔｒｕｅｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎｆｏｒｍｏｔｉｏｎ－ｃｏｍｐｅｎｓａｔｅｄｆｒａｍｅｉｎｔｅｒｐｏｌａｔｉｏｎ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、ｖｏｌ．２３、ｎｏ．３、４４５～４５４頁、２０１３年３月。
［４］Ａ．Ｓｅｃｋｅｒ及びＤ．Ｔａｕｂｍａｎ、「Ｌｉｆｔｉｎｇ－ｂａｓｅｄｉｎｖｅｒｔｉｂｌｅｍｏｔｉｏｎａｄａｐｔｉｖｅｔｒａｎｓｆｏｒｍ（ＬＩＭＡＴ）ｆｒａｍｅｗｏｒｋｆｏｒｈｉｇｈｌｙｓｃａｌａｂｌｅｖｉｄｅｏｃｏｍｐｒｅｓｓｉｏｎ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．１２、ｎｏ．１２、１５３０～１５４２頁、２００３年１２月。
［５］Ｙ．Ａｎｄｒｅｏｐｏｕｌｏｓ、Ａ．Ｍｕｎｔｅａｎｕ、Ｊ．Ｂａｒｂａｒｉｅｎ、Ｍ．ｖａｎｄｅｒＳｃｈａａｒ、Ｊ．Ｃｏｒｎｅｌｉｓ及びＰ．Ｓｃｈｅｌｋｅｎｓ、「Ｉｎ－ｂａｎｄｍｏｔｉｏｎｃｏｍｐｅｎｓａｔｅｄｔｅｍｐｏｒａｌｆｉｌｔｅｒｉｎｇ」、ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ：ＩｍａｇｅＣｏｍｍｕｎｉｃａｔｉｏｎ、ｖｏｌ．１９、ｎｏ．７、６５３～６７３頁、２００４年７月。
［６］Ｍ．Ｆｌｉｅｒｌ及びＢ．Ｇｉｒｏｄ、「Ｖｉｄｅｏｃｏｄｉｎｇｗｉｔｈｍｏｔｉｏｎ－ｃｏｍｐｅｎｓａｔｅｄｌｉｆｔｅｄｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍｓ」、Ｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ：ＩｍａｇｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ、ｖｏｌ．１９、ｎｏ．５６１～５７５、２００４年７月。
［７］Ａ．Ｇｏｌｂｅｌｋａｒ及びＪ．Ｗｏｏｄｓ、「Ｍｏｔｉｏｎ－ｃｏｍｐｅｎｓａｔｅｄｔｅｍｐｏｒａｌｆｉｌｔｅｒｉｎｇａｎｄｍｏｔｉｏｎｖｅｃｔｏｒｃｏｄｉｎｇｕｓｉｎｇｂｉｏｒｔｈｏｇｏｎａｌｆｉｌｔｅｒｓ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、ｖｏｌ．１７、ｎｏ．４、４１７～４２８頁、２００７年４月。
［８］Ｃ．－Ｌ．Ｃｈａｎｇ、Ｘ．Ｚｈｕ、Ｐ．Ｒａｍａｎａｔｈａｎ及びＢ．Ｇｉｒｏｄ、「Ｌｉｇｈｔｆｉｅｌｄｃｏｍｐｒｅｓｓｉｏｎｕｓｉｎｇｄｉｓｐａｒｔｙ－ｃｏｍｐｅｎｓａｔｅｄｌｉｆｔｉｎｇａｎｄｓｈａｐｅａｄａｐｔａｔｉｏｎ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．１５、ｎｏ．４、７９３～８０６頁、２００６年４月。
［９］Ｊ．－Ｕ．Ｇａｒｂａｓ、Ｂ．Ｐｅｓｑｕｅｔ－Ｐｏｐｅｓｃｕ及びＡ．Ｋａｕｐ、「Ｍｅｈｏｄｓａｎｄｔｏｏｌｓｆｏｒｗａｖｅｌｅｔ－ｂａｓｅｄｓｃａｌａｂｌｅｍｕｌｔｉｖｉｅｗｖｉｄｅｏｃｏｄｉｎｇ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、ｖｏｌ．２１、ｎｏ．２、１１３～１２６頁、２０１１年２月。
［１０］Ｈ．Ｇ．Ｌａｌｇｕｄｉ、Ｍ．Ｗ．Ｍａｒｃｅｌｌｉｎ、Ａ．Ｂｉｌｇｉｎ、Ｈ．Ｏｈ及びＭ．Ｓ．Ｎａｄａｒ、「Ｖｉｅｗｃｏｍｐｅｎｓａｔｅｄｃｏｍｐｒｅｓｓｉｏｎｏｆｖｏｌｕｍｅｒｅｎｄｅｒｅｄｉｍａｇｅｓｆｏｒｒｅｍｏｔｅｖｉｓｕａｌｉｚａｔｉｏｎ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．１８、ｎｏ．７、１５０１～１５１１頁、２００９年７月。
［１１］Ｒ．Ｍａｔｈｅｗ及びＤ．Ｔａｕｂｍａｎ、「Ｓｃａｌａｂｌｅｍｏｄｅｌｉｎｇｏｆｍｏｔｉｏｎａｎｄｂｏｕｎｄａｒｙｇｅｏｍｅｔｒｙｗｉｔｈｑｕａｄ－ｔｒｅｅｎｏｄｅｍｅｒｇｉｎｇ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ、ｖｏｌ．２１、ｎｏ．２、１７８～１９２頁、２０１１年２月。
［１２］Ｓ．Ｍｉｌａｎｉ及びＧ．Ｃａｌｖａｇｎｏ、「Ｓｅｇｍｅｎｔａｔｉｏｎ－ｂａｓｅｄｍｏｔｉｏｎｃｏｍｐｅｎｓａｔｉｏｎｆｏｒｅｎｈａｎｃｅｄｖｉｄｅｏｃｏｄｉｎｇ」、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、１６８５～１６８８頁、２０１１年９月。
［１３］Ｉ．Ｄａｒｉｂｏ、Ｄ．Ｆｌｏｒｅｎｃｉｏ及びＧ．Ｃｈｅｕｎｇ、「Ａｒｂｉｔｒａｒｉｌｙｓｈａｐｅｄｓｕｂ－ｂｌｏｃｋｍｏｔｉｏｎｐｒｅｄｉｃｔｉｏｎｉｎｔｅｘｔｕｒｅｍａｐｃｏｍｐｒｅｓｓｉｏｎｕｓｉｎｇｄｅｐｔｈｉｎｆｏｒｍａｔｉｏｎ」、ＰｉｃｔｕｒｅＣｏｄｉｎｇＳｙｍｐｏｓｉｕｍ（ＰＣＳ）、１２１～１２４頁、２０１２年５月。
［１４］Ａ．Ｚｈｅｎｇ、Ｙ．Ｙｕａｎ、Ｈ．Ｚｈａｎｇ、Ｈ．Ｙａｎｇ、Ｐ．Ｗａｎ及びＯ．Ａｕ、「Ｍｏｔｉｏｎｖｅｃｔｏｒｆｉｅｌｄｓｂａｓｅｄｖｉｄｅｏｃｏｄｉｎｇ」、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、２０９５～２０９９頁、２０１５年９月。
［１５］Ｇ．Ｏｔｔａｖｉａｎｏ及びＰ．Ｋｏｈｌｉ、「Ｃｏｍｐｒｅｓｓｉｂｌｅｍｏｔｉｏｎｆｉｅｌｄｓ」、Ｐｒｏｃ．ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）、２２５１～２２５８頁、２０１３年６月。
［１６］Ａ．Ｔ．Ｎａｍａｎ及びＤ．Ｔａｕｂｍａｎ、「Ｆｌｅｘｉｂｌｅｓｙｎｔｈｅｓｉｓｏｆｖｉｄｅｏｆｒａｍｅｓｂａｓｅｄｏｎｍｏｔｉｏｎｈｉｎｔｓ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．２３、ｎｏ．９、３８０２～３８１５頁、２０１４年９月。
［１７］Ｄ．Ｒｕｆｅｎａｃｈｔ、Ｒ．Ｍａｔｈｅｗ及びＤ．Ｔａｕｂｍａｎ、「Ａｎｏｖｅｌｍｏｔｉｏｎｆｉｅｌｄａｎｃｈｏｒｉｎｇｐａｒａｄｉｇｍｆｏｒｈｉｇｈｌｙｓｃａｌａｂｌｅｗａｖｅｌｅｔ－ｂａｓｅｄｖｉｄｅｏｃｏｄｉｎｇ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．２５、ｎｏ．１、３９～５２頁、２０１６年１月。
［１８］Ｄ．Ｒｕｆｅｎａｃｈｔ、Ｒ．Ｍａｔｈｅｗ及びＤ．Ｔａｕｂｍａｎ、「Ｂｉｄｉｒｅｃｔｉｏｎａｌ，ｏｃｃｌｕｓｉｏｎ－ａｗａｒｅｔｅｍｐｏｒａｌｆｒａｍｅｉｎｔｅｒｐｏｌａｔｉｏｎｉｎａｈｉｇｈｌｙｓｃａｌａｂｌｅｖｉｄｅｏｓｅｔｔｉｎｇ」、ＰｉｃｔｕｒｅＣｏｄｉｎｇＳｙｍｐｏｓｉｕｍ（ＰＣＳ）、５～９頁、２０１５年５月。
［１９］Ｒ．Ｍａｔｈｅｗ、Ｓ．Ｙｏｕｎｇ及びＤ．Ｔａｕｂｍａｎ、「Ｏｐｔｉｍｉｚａｔｉｏｎｏｆｏｐｔｉｃａｌｆｌｏｗｆｏｒｓｃａｌａｂｌｅｃｏｄｉｎｇ」、ＰｉｃｔｕｒｅＣｏｄｉｎｇＳｙｍｐｏｓｉｕｍ（ＰＣＳ）、７０～７４頁、２０１５年５月。
［２０］Ｒ．Ｍａｔｈｅｗ、Ｄ．Ｔａｕｂｍａｎ及びＰ．Ｚａｎｕｔｔｉｇｈ、「ＳｃａｌａｂｌｅｃｏｄｉｎｇｏｆｄｅｐｔｈｍａｐｓｗｉｔｈＲ－Ｄｏｐｔｉｍｉｚｅｄｅｍｂｅｄｄｉｎｇ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．２２、ｎｏ．５、１９８２～１９９５頁、２０１３年５月。
［２１］Ｒ．Ｓｚｅｌｉｓｋｉ及びＨ．－Ｙ．Ｓｈｕｍ、「Ｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎｗｉｔｈｑｕａｄｔｒｅｅｓｐｌｉｎｅｓ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ、ｖｏｌ．１８、ｎｏ．１２、１１９９～１２１０頁、１９９６年１２月。
［２２］Ｎ．Ｍｅｈｒｓｅｒｅｓｈｔ及びＤ．Ｔａｕｂｍａｎ、「Ａｎｅｆｆｉｃｉｅｎｔｃｏｎｔｅｎｔ－ａｄａｐｔｉｖｅｍｏｔｉｏｎ－ｃｏｍｐｅｎｓａｔｅｄ３－ＤＤＷＴｗｉｔｈｅｎｈａｎｃｅｄｓｐａｔｉａｌａｎｄｔｅｍｐｏｒａｌｓｃａｌａｂｉｌｉｔｙ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．１５、ｎｏ．３、１３９７～１４１２頁、２００６年３月。
［２３］Ｊ．Ｒｅｖａｕｄ、Ｐ．Ｗｅｉｎｚａｅｐｆｅｌ、Ｚ．Ｈａｒｃｈａｏｕｉ及びＣ．Ｓｃｈｍｉｄ、「Ｅｐｉｃｆｌｏｗ：ｅｄｇｅ－ｐｒｅｓｅｒｖｉｎｇｉｎｔｅｒｐｏｌａｔｉｏｎｏｆｃｏｒｒｅｓｐｏｎｄｅｎｃｅｓｆｏｒｏｐｔｉｃａｌｆｌｏｗ」、Ｐｒｏｃ．ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｉｎｇａｎｄＶｉｓｕａｌＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）、２０１５年６月。
［２４］Ｓ．Ｙｏｕｎｇ及びＤ．Ｔａｕｂｍａｎ、「Ｒａｔｅ－ｄｉｓｔｏｒｔｉｏｎｏｐｔｉｍｉｚｅｄｏｐｔｉｃａｌｆｌｏｗｅｓｔｉｍａｔｉｏｎ」、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、１６７７～１６８１頁、２０１５年９月。
［２５］Ｄ．Ｔａｕｂｍａｎ、「ＨｉｇｈｐｅｒｆｏｍａｎｃｅｓｃａｌａｂｌｅｉｍａｇｅｃｏｍｐｒｅｓｓｉｏｎｗｉｔｈＥＢＣＯＴ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ．９、ｎｏ．７、１１５１～１１７０頁、２０００年７月。
［２６］Ｄ．Ｓｕｎ、Ｊ．Ｗｕｌｆｆ、Ｅ．Ｓｕｄｄｅｒｔｈ、Ｈ．Ｐｆｉｓｔｅｒ及びＭ．Ｂｌａｃｋ、「Ａｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒｅｄｍｏｄｅｌｏｆｆｏｒｅｇｒｏｕｎｄａｎｄｂａｃｋｇｒｏｕｎｄｆｌｏｗ」、ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）、２４５１～２４５８頁、２０１３年。

Claims

ビデオ及び／又はマルチビュー・シーケンスのフレーム間の変位情報を表す方法であって、複数のビデオ及び／又はマルチビュー・シーケンスの複数のフレームの少なくともひとつをピクチャ・グループ（ＧＯＰ）に割り当てるステップと、各ＧＯＰについてのベース変位モデルを与えるステップであって、前記ベース変位モデルが、前記ＧＯＰの指定されたベース・フレーム中の各ロケーションを非ベース・フレームである前記ＧＯＰの各他のフレーム中の対応するロケーションに搬送する変位フィールドを表現する、与えるステップと、前記ベース変位モデルから前記ＧＯＰの前記フレーム間の他の変位関係を推論するステップとを含み、
前記ベース変位モデルは、変形可能なベース・メッシュを介して表現され、前記メッシュのノードが前記ＧＯＰ中の各非ベース・フレームについて１つの変位ベクトルを割り当てられ、
前記ベース変位モデルにおける中断が、前記ベース・フレーム中の無視できるサイズを有する、中断誘発メッシュ要素であるベース・メッシュ要素のサブセットによってカバーされ、前記中断誘発メッシュ要素の前記ノードが、コロケートされたペアで現れ、各ペアの一方のノードが、前記中断の一方の側に関連する前記変位ベクトルを搬送し、他方が、前記中断の他方の側に関連する前記変位ベクトルを搬送する、方法。
前記ベース変位モデルが、前記ＧＯＰの前記ベース・フレームから各他のフレームへの区分的に平滑な変位フィールドを表現し、不連続性が、前記ベース変位モデルにおける中断において発生する、請求項１に記載の方法。
前記ＧＯＰの非ベース・フレーム中のロケーションを前記ベース・フレームに搬送する、逆方向変位フィールドは、前記変形可能なベース・メッシュの要素を前記非ベース・フレームにマッピングすることと、前記関連するベース変位ベクトルによって対応する変形可能なベース・メッシュ・ノード・ロケーションを変位させることによってそのノード・ロケーションが取得される推論メッシュ要素のセットを生成することと、前記マッピングから決定された関連するベース変位ベクトルを反転することによって前記推論メッシュ要素に反転変位ベクトルを割り当てることとによって推論される、請求項１に記載の方法。
前記非ベース・フレーム中で重複する推論メッシュ要素に対応する二重マッピングが発生し、当該二重マッピングは、前記重複する推論メッシュ要素のうちのどれが前景物体に属する可能性が高いかを決定するために前景背景弁別プロセスを使用して解決される、請求項３に記載の方法。
前記複数のビデオおよび／又はマルチビュー・シーケンスの前記複数のフレームは、２つ以上のＧＯＰに割り当てられ、
前記方法において、１つのＧＯＰの前記非ベース・フレームの１つは、第２のＧＯＰのベース・フレームであり、前記第２のＧＯＰはベース変位モデルを有し、前記第２のＧＯＰの前記ベース変位モデルは、前記１つのＧＯＰの第２のベース変位モデルである、請求項１に記載の方法。
１つのＧＯＰの前記非ベース・フレームの１つは、第２のＧＯＰのベース・フレームであり、前記第２のＧＯＰはベース変位モデルを有し、前記第２のＧＯＰの前記ベース変位モデルは、前記１つのＧＯＰの第２のベース変位モデルであり、前記第２のＧＯＰの前記ベース・フレームは、前記１つのＧＯＰの第２のベース・フレームであり、
前景背景弁別プロセスが、前記ベース変位モデル中の折り畳みのロケーションに基づき、折り畳みロケーションを前記第２のベース・フレームにマッピングするために前記折り畳みロケーションの各側に関するベース変位情報を使用することと、前記第２のベース変位モデルの折り畳み特性をひとつのＧＯＰのベース変位フィールドの折り畳み特性と比較することとによって、前記折り畳みロケーションの前景側と背景側とを弁別する、請求項５に記載の方法。
前記ベース・フレーム中の中断誘発メッシュ要素の前記マッピングから生じる非ベース・フレーム中の前記推論メッシュ要素が、前記非ベース・フレーム中のディスオクルージョンの領域を識別するために使用される、請求項４に記載の方法。
非ベース・フレーム中の中断誘発推論メッシュ要素に関連する前記反転変位ベクトルが、前記ベース・フレームにおいてオクルージョンされる背景シーン要素の変位をより良く表すために変更されて、変更された変位ベクトルを提供する、請求項７に記載の方法。
以下で埋め戻されたフレームである、非ベース・フレーム中の中断誘発推論メッシュ要素に関連する前記変更された変位ベクトルが、前記推論メッシュ要素を前記ベース・フレームにマッピングするために使用され、前記推論メッシュ要素が、以下で埋め戻されたメッシュ要素である、新しい要素として前記ベース変位モデルに追加され、前記埋め戻されたフレームにおいて視認可能であるが前記ベース・フレームにおいてオクルージョンされるシーン・コンテンツを表す、請求項８に記載の方法。
変形可能なベース・メッシュのオーグメンテーション・ステップが実行され、それにより、以下オーグメント・メッシュと呼ばれる、別のコード化メッシュからの情報は、前記変形可能なベース・メッシュが前記オーグメント・メッシュのロケーションにマッピングされるときにディスオクルージョンする領域をカバーする前記オーグメント・メッシュのメッシュ要素を埋め戻すことによって前記変形可能なベース・メッシュをオーグメントするために使用される、請求項９に記載の方法。
前記オーグメント・メッシュのメッシュ要素が下位区分され、ディスオクルージョン領域をカバーするメッシュ要素のみが前記ベース・フレームに埋め戻される、請求項１０に記載の方法。
埋め戻されたメッシュ要素は、それらが発見される前記埋め戻されたフレームに基づいて、ローカル背景レイヤ・インデックスを割り当てられ、元の変形可能なベース・メッシュの要素は、任意の埋め戻されたメッシュ要素のレイヤ・インデックスよりも大きいレイヤ・インデックスを割り当てられる、前記中断誘発メッシュ要素を除く、任意の埋め戻されたメッシュ要素のレイヤ・インデックスよりも小さいレイヤ・インデックスを有する、前景レイヤを構成すると見なされる、請求項９に記載の方法。
各非ベース・フレームについての逆方向変位フィールドの決定が、前記埋め戻されたメッシュ要素を含む、すべてのベース変位ベクトルの、前記非ベース・フレームへのマッピングを含み、二重マッピングは、そのレイヤ・インデックスが最も小さい前記元の変形可能なベース・メッシュの要素によって生成された前記推論メッシュ要素のほうを優先して最初に解決され、その後に、請求項３の方法が、同じレイヤ・インデックスをもつ交差する推論メッシュ要素から生じる残りの二重マッピングを解決するために使用される、請求項１２に記載の方法。
埋め戻すプロシージャが漸進的に適用され、前記埋め戻されたフレームとしての前記ＧＯＰの最後のフレームで開始し、
ａ．前記埋め戻されたメッシュ要素を第１のローカル背景レイヤ・インデックスとともに前記ベース変位モデルに追加し、前記第１のローカル背景レイヤ・インデックスのベース・メッシュ要素を含む、すべての変形可能なベース・メッシュ要素を、前記ＧＯＰの中間フレームにマッピングし、
ｂ．二重マッピング解決プロシージャを適用し、
ｃ．前記二重マッピング解決プロシージャによって置き換えられなかった前記中間フレーム中の任意の中断誘発メッシュ要素を無限大領域として識別し、
ｄ．前記ローカル背景レイヤ・インデックスが１つ増分されて、当該増分された前記ローカル背景レイヤ・インデックスを割り当てられる、前記ベース変位モデル中の新しい埋め戻されたメッシュ要素を生成するために、これらの無限大要素に前記埋め戻すプロシージャを適用し、
ｅ．前記ＧＯＰ内にさらなる中間非ベース・フレームが存在する場合、前記第１のローカル背景レイヤ・インデックスおよび前記増分された前記ローカル背景レイヤ・インデックスの要素を含む前記ベース変位モデルのすべての要素を、前記ＧＯＰ内の前記さらなる中間非ベース・フレームにマッピングし、
ｆ．前記ＧＯＰ内のすべての非ベース・フレームが前記埋め戻すプロシージャによって処理されるまで、ステップｂからｅを繰り返し、
これによって、漸進的により大きいローカル背景レイヤ・インデックスが、前記すべての非ベース・フレームが処理される順序で、連続的な前記中間非ベース・フレームのそれぞれを処理することによって生成された前記埋め戻されたメッシュ要素に割り当てる、請求項１２に記載の方法。
ビデオ・フレームを含むビデオ・シーケンス内の変位フィールドをコーディングするための方法であって、
各ＧＯＰについてベース変位モデルをコーディングするステップであって、ビデオ・フレームが、ＧＯＰとして知られるピクチャ・グループに割り当てられ、前記ＧＯＰの指定されたベース・フレーム中の各ロケーションを前記ＧＯＰの各他のフレーム中の対応するロケーションに搬送する変位を表現し、前記ＧＯＰの前記フレーム間の他の変位関係が、前記ベース変位モデルから推論され、
前記コーディングするステップを含み、
前記ベース変位モデルは、変形可能なベース・メッシュを介して表現され、前記メッシュのノードが前記ＧＯＰ中の各非ベース・フレームについて１つの変位ベクトルを割り当てられ、
前記ベース変位モデルにおける中断が、前記ベース・フレーム中の無視できるサイズを有する、中断誘発メッシュ要素であるベース・メッシュ要素のサブセットによってカバーされ、前記中断誘発メッシュ要素の前記ノードが、コロケートされたペアで現れ、各ペアの一方のノードが、前記中断の一方の側に関連する前記変位ベクトルを搬送し、他方が、前記中断の他方の側に関連する前記変位ベクトルを搬送する、方法。
複数のビデオ及び／又はマルチビュー・シーケンスの複数のフレームの他のフレームからのいくつかの画像フレームの変位補償予測のための方法であって、前記フレームがピクチャ・グループ（ＧＯＰ）に割り当てられ、
ベース変位モデルが、各ＧＯＰについて与えられ、前記ＧＯＰの指定されたベース・フレーム中の各ロケーションを前記ＧＯＰの各他のフレーム中の対応するロケーションに搬送する変位フィールドを表現し、前記ベース変位モデルが、前記ＧＯＰの前記フレーム間の変位関係を推論するために使用され、予測ターゲット・フレームにおける推論変位フィールドが、前記ＧＯＰ中の１つ又は複数の他のフレームから前記フレームを予測するために使用され、
前記ベース変位モデルは、変形可能なベース・メッシュを介して表現され、前記メッシュのノードが前記ＧＯＰ中の各非ベース・フレームについて１つの変位ベクトルを割り当てられ、
前記ベース変位モデルにおける中断が、前記ベース・フレーム中の無視できるサイズを有する、中断誘発メッシュ要素であるベース・メッシュ要素のサブセットによってカバーされ、前記中断誘発メッシュ要素の前記ノードが、コロケートされたペアで現れ、各ペアの一方のノードが、前記中断の一方の側に関連する前記変位ベクトルを搬送し、他方が、前記中断の他方の側に関連する前記変位ベクトルを搬送する、方法。
請求項１に記載の、変位情報を表すための方法を実装するように構成された、コーディング装置。
請求項１に記載の方法を実装するようにコンピュータを制御するための命令を含む、コンピュータ・プログラムを与える、不揮発性コンピュータ可読媒体。