JP2004260840A

JP2004260840A - スプライトベースによるビデオ符号化システム

Info

Publication number: JP2004260840A
Application number: JP2004095933A
Authority: JP
Inventors: Regis Jean Albert Crinon; ジーンアルバートクリノン，レジス; Muhammed Ibrahim Sezan; イブラヒムセザン，ムハメッド
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1996-12-30
Filing date: 2004-03-29
Publication date: 2004-09-16
Also published as: DE69725186D1; WO1998029834A1; US6259828B1; EP1042736A1; DE69725186T2; EP1042736B1; JP2001507541A; US6205260B1

Abstract

【課題】スプライトの作成を自動的に行う。
【解決手段】スプライトベースによる符号化システムは、スプライト作成が自動的であり、スプライトオブジェクトの分割は、自動的であると共に符号化処理と同様にスプライト作成に統合されている符号器と復号器を含む。スプライトオブジェクトは、その動きを基準としてビデオオブジェクトの残りから識別される。スプライトオブジェクトは、通常はカメラの動きやズームのせいによるシーンの動きの支配的成分に従って動く。従って、スプライトベースによる符号化システムは、前景イメージから背景イメージを識別するために、支配的動きを用いる。スプライトベースによる符号化システムに統合された自動分割は、スプライトオブジェクトの形状及びテクスチャを識別する。
【選択図】なし

Description

本発明は、ＭＰＥＧ−４のような形状／テクスチャ(shape/texture)を別々に符号化する環境で作動する。スプライト（モザイクともいう）が自動的に符号器及び復号器双方において作られる機構に関する。又、本技術を用いるアプリケーションについても議論する。

モザイクイメージ（モザイク及びスプライトの用語を適宜用いる）は、いくつかのビデオフレーム上のあるシーンオブジェクトのイメージから作られる。例えば、パンニングカメラの場合、背景シーンのモザイクは、その背景のパノラマイメージである。

ＭＰＥＧ−４標準化活動(activities)では、２つの主なタイプのスプライトとスプライトベースによる符号化が定義されている。第１のタイプは、オフライン静的スプライトと呼ばれる。オフライン静的スプライトは例えば背景のような同じビデオオブジェクトのスナップショットのシーケンスを作るために用いられるパノラマイメージである。各スナップショットは、単にモザイクコンテンツの部分をワープすること及びモザイクコンテンツを現在のビデオフレームが再構築されつつあるビデオバッファにコピーすることにより生成される。静的スプライトは、オフラインで作られ、副情報として送信される。

モザイクの第２のタイプは、オンライン動的スプライトと呼ばれる。オンライン動的スプライトはビデオオブジェクトの予測符号化に用いられている。シーケンスにおけるビデオオブジェクトの各スナップショットの予測は、動的スプライトの部分をワープすることによって得られる。残差信号は、符号化され、符号器及び復号器の中のモザイクを同時更新するために用いられる。動的モザイクのコンテンツは、最新のビデオオブジェクト情報を含むことでコンスタントに更新される。静的スプライトに対応して、動的スプライトは符号器と復号器中でオンラインで同時に作られる。従って追加の情報を送信する必要がない。

発明の概要
オフライン静的スプライト及びオンライン動的スプライトベースによる符号化のための統一(unified)シンタックス［２］を提供するＭＰＥＧ−４用シンタックスを記述した。我々のシンタックスは、「動的オフラインスプライトベースによる符号化」と呼ぶ新たなモードを与えており、ここでは（オフライン静的スプライトの場合に、ワープしたスプライトを直接コピーするのに対して）、予測符号化が、オフラインスプライトをもとにして実行される。又、「オンライン静的スプライトベースによる符号化」と呼ぶ新たなモードも与えており、ここでは、符号器と復号器はスプライトをさらに作るのをやめ、それを、完成度に依らず、静的スプライトとして使用する。

オフライン静的，オンライン動的スプライトベースによる符号化は共に、スプライトを構築することを要求する。前者の場合、スプライトは送信前に作られる。後者の場合、スプライトは送信中にオンラインで作られる。これまでＭＰＥＧ−４は、オブジェクトのアウトライン（分割）（このためにスプライトは作られる）が全ての時刻で前もって知られていると仮定していた。これはあるアプリケーション、特にポストプロダクションやブルースクリーン技術を用いるコンテンツ生成においては正しいが、一般に自動分割はスプライト作成の必須部分であるべきである。従って、スプライト作成にシーン分割の知識を予め必要としないスプライトベースによる符号化システムが必要である。

本明細書において、スプライトベースによる符号化システム(符号器及び復号器)を記述しているが、ここでは、スプライト作成は自動的であり、スプライトオブジェクトの分割は自動的であると共に符号化処理及びスプライト作成も統合されている。
スプライトオブジェクトは、残りのビデオオブジェクトからその動きを基準として識別され得ると仮定する。スプライトオブジェクトは、シーンの動きの支配的成分に従って、動くと仮定する。このシーンの動きは、通常はカメラの動きやズーミングに依存する。よって、本システムは、当業者には既知の支配的動きを用いる。

本システムは、例えば、個々のビデオオブジェクトの形状とテクスチャが別個に符号化されるＭＰＥＧ−４［３］のようなビデオオブジェクトベースによる符号化に好適である。上記システムに統合された自動分割は、スプライトオブジェクトの形状及びテクスチャを同定する。

本発明には幾つかのアプリケーションの可能性がある。極めて低いビットレートのアプリケーションでは、ビデオオブジェクトを含むという見地から、ビデオフレームの符号化が高コストとなる可能性がある。その理由としては、制限があるビット量のかなりの部分を、このようなオブジェクトの形状が費やす可能性があるからである。このような場合、本システムは、フレームベースによる符号化に帰着することができ、ここでは自動分割が、後述の「オペレーション」において記述するように、スプライト作成と支配的動き補償予測のためにより良い支配的動き推定(estimation)を得るためにのみ使われる。

上記符号化システムには、これはカメラの視界が頻繁に変わり得る場所、例えば複数台のカメラを使用するテレビ会議や、２つ以上のカメラで撮られるトークショーのような場所でのアプリケーションに好適であるという特徴がある。本システムは、マルチプルスプライトの作成、必要に応じてそれらを使用することに適用可能である。例えば、２つの異なる背景の前にいる２人の参加者の間で、カメラが前後に移動したとき、２つの背景スプライトが作成され、適宜使用される。より詳しくは、背景Ａが見えている時に、背景Ｂ用のスプライトの作成と符号化におけるスプライトの使用は、背景Ｂが再度現れるまで中断される。同様にして、マルチプルスプライトの使用は、ＭＰＥＧ−４技術において可能であり、「オペレーション」の部分で後述する。

ここに開示されたシステムは、後述のように符号化処理中にスプライトを生成する。しかしながら、生成されるスプライトは、符号化後、圧縮ビデオクリップの代表イメージとして続けて使用してもよい。その特徴は、そのビデオクリップの特徴を認識するのに使用してもよい。そのビデオクリップは特徴ベース(或いは、コンテンツベース)による記録とビデオクリップの検索に使用可能である。よって、スプライトベースによる符号化は、符号化処理の間に生成されたスプライトイメージがビデオクリップの代表イメージとして作用するところのビットストリームのビデオライブラリの構築に適している。実際、モザイクも、静止イメージ符号化方法を使用して、符号化することができる。このような、ビデオライブラリのシステムは図５に描かれている。

同様の方法で、１つ又は数個のイベントリストが背景スプライトと関連づけられる。イベントリストのために選択される可能性のあるものは、各前景オブジェクトに属する１つ又は数個の頂点の連続位置のセットである。このようなリストは、スプライトにおける前景オブジェクトの位置の記号代表イメージを生成するために用いられる。各頂点の連続位置は、直線でリンクされるか或いは明確な色で区分けするかのいずれかである。頂点の連続位置は、静的（同一のスプライトにある全ての連続位置）又は動的（時刻的に連続的なモザイクに示された頂点の位置）に示される。ここで頂点は、前景オブジェクトの明確な特徴の全てに対応して選択される。このような特徴の例としては、オブジェクトの形状の重心或いは、突起点がある。後者の場合と、いくつかの頂点が同時に使われた場合には、それら頂点はオブジェクト形状の階層的記述に従ってアレンジされる。この技術を用いることにより、ユーザやプレゼンテーションインターフェースは、背景スプライトの中の連続前景オブジェクト位置を示すために粗い精度から細かい精度まで形状を自由に選べる。この概念は、ビデオライブラリのシステムにおいて前景の動き特性に基づいたコンテンツを検索するために用いることができる。

上記システムの自動スプライト作成部は、送信前にオフラインスプライトが作成されるテレビ会議アプリケーションにおいて、オフラインモードで使用することができる。このようなシステムは、図６に示されている。上記システムは、オリジナルのイメージよりも高い空間解像度を持つスプライトを生成することも出来る。

実施形態の詳細な説明
上述の方法は、背景モザイクを作成する一方で、同時に背景から前景を切り離すことを、順を追って学習できるようにデザインされたものである。ステップ１から１０は、背景の構築が完了するまで、又は中止されるまで、繰り返される。

［仮定］
記号は以下のとおりである：
Ｉ（ｓ，ｔ）は、空間位置ｓ，時刻ｔにおけるビデオフレームのコンテンツを表す。
Ｗ_t←(t-1)（Ｉ（ｓ，ｔ−１））は、時刻（ｔ−１）から時刻ｔにおいてイメージをマッピングするワープ演算子を表す。時刻ｔにおいてビデオバッファ内で画素位置ｓ ₀が与えられると、このワープ演算は、フレーム（ｔ−１）において対応する位置ｓに画素値をコピーすることによって実行される。位置ｓ ₀と位置ｓとの間の対応は、特定でかつ十分に定義された変換例えばアフィン変換や透視変換によって確立される。

は、インジケータバッファで、量ｘは、全ての空間位置ｓに対して１又は２ビットの深さになる。

Threshは、しきい値である。演算≦Threshと＞Threshは、シンボリック（記号）であって、複雑なしきい値処理演算を表現することができる。
現在のイメージフレームＩ（ｓ，ｔ）の（色成分毎の）寸法は、Ｍ_t×Ｎ_tであり、ワープＷ_t←(t-1)（Ｃ^-1Ｃ｛Ｉ（ｓ，ｔ−１）｝）後に圧縮／伸張された前フレームの寸法は、Ｍ_t-1×Ｎ_t-1画素の矩形配列に内接させることができる。

スプライトＭ（ｓ，ｔ）は、色成分毎のサイズＭ_m×Ｎ_mのイメージ（テクスチャ)バッファである。フィールドＩｍ_mosaic（ｓ，ｔ）は、同一サイズ寸法の単一成分フィールドである。
スプライトの生成は、時刻ｔで始まる。イメージＩ（ｓ，ｔ−１）は、すでに圧縮及び伸張されており、符号器と復号器の双方で利用可能である。
下記ステップにおいて、イメージコンテンツは、背景部と前景部（或いはＶＯ）を有するものと仮定され、背景のモザイクが作成される。

[ステップ１：初期化]
さて、図１乃至図３についてみると、上述の方法のステップの結果が、図示されている。図１は、時刻ｔ−１（モザイク作成が初期化された瞬間）から時刻ｔ（新たなビデオフレーム又はフィールドが得られた時）までのステップ０乃至１１を示す。図２と図３は、ステップ２乃至１１で、それぞれ、時刻ｔからｔ＋１と時刻ｔ＋１からｔ＋２を示す。各図の左上角（Ａ）には、新たに得られたビデオフレームが示されており、このビデオフレームは、一度圧縮／伸張及びワープされた以前のビデオフレーム（右隣のイメージフィールド）（Ｂ）と比較される（ステップ２）。ステップ３は、各図第１行最右のイメージフィールド（Ｃ）で示されている。このフィールドは、コンテンツの変化が検出された領域を示している。モザイクバッファの状態は、第２行最左のイメージフィールド（Ｄ）に示されている。このバッファは、ステップ４で記述される新たな背景領域を認識するために使われる。これらの領域は、背景が既知でなかった領域に対応する。前景の認識は、第２行最右のイメージ（Ｆ）で示されている。このイメージと関連する操作は、前景を定義するために変化マップ，モザイク及び新たな背景領域を用いるステップ５に記述されている。本方法のステップ６と７は、第３行の最左２つのイメージフィールド（Ｇ，Ｈ）で説明される。ここで、背景情報は、前ステップで得られた圧縮／伸張された前景情報から来る。最後に、最下行右のイメージフィールド（Ｉ）によりモザイク更新処理が図示されている。この処理は、本方法のステップ８，９，１０，及び１１で起こる。

バイナリフィールドＩｍ_mosaic（ｓ，ｔ）は、バッファにおける全ての位置でｓで０に初期化されており、これはモザイクのコンテンツがこれら位置では知られていないことを意味する。
モザイクバッファＭ（ｓ，ｔ）のコンテンツは、０に初期化される。
現在のビデオフレームＩ（ｓ，ｔ−１）からモザイクに至るまでのワープパラメータは、初期化されてＷ_t0←(t-1)（）となる。ここでｔ₀は、任意の架空の時刻である。この初期ワープは、モザイクを作成するために使われる解像度又は時刻基準(time reference)を特定する方法を提供するものとして重要である。この初期マッピングの適用は、本方法によりもたらされた歪みを最小化する最適時刻ｔ₀の選択又は良好な空間的解像度を備えるモザイクを作成している。これらの初期ワープパラメータは、復号器へ送信される。

[ステップ２：取得]
イメージＩ（ｓ，ｔ）が取得され、イメージＩ（ｓ，ｔ−１）からＩ（ｓ，ｔ）へのマッピングのための順方向ワープパラメータが計算される。ワープパラメータの数は、これらのパラメータの予測方法と同じく、ここでは特定されない。
［４］に示されるような、支配的動き推定アルゴリズムを用いることができる。ワープパラメータは、現在のワープパラメータからなるもので、この結果がマッピングＷ_t←t0（）である。これらのパラメータは、復号器へ送信される。

[ステップ３：符号化／復号化された前フレームと現在のフレームとの間のコンテンツにおける変化検出をする]
ｉ）イメージよりも大きくてモザイクと同じ大きさの可能性があるサイズＭ_b×Ｎ_b（Ｍ_b＞Ｍ_t，Ｎ_b＞Ｎ_t）の大バッファを初期化する。
このバッファは、全ての位置で２ビットの深さである。このバッファは、既知でない状態を表示するために、３に初期化される。
Ｉｍ_change（ｓ，ｔ）＝３

ii）共通にサポートされたイメージについての（動き補償された）シーン変化を計算する。コンテンツにおいて変化が小さいとみなされる全ての位置にラベル０を与える。変化が大きいと検出された位置にラベル１ａを与える。領域をより均質にするために、追加操作(例えばモルフォロジカル操作（morphological operation)）を行う。この操作は、ラベルを１ａから０にリセットするか０から１ａにセットするかのいずれかである。０ラベルの領域は典型的に背景ビデオオブジェクトの一部分として考慮され、符号化される。一方、１ａとラベル付けされた領域は、典型的な前景ビデオオブジェクトの一部分として符号化される。

ここで、Thres_changeは、予め定義されたしきい値である。
iii）以下のように、新しいイメージ領域にタグを付ける。この領域は時刻ｔでサポートされるイメージが、時刻（ｔ−１）でサポートされたイメージとはオーバラップしない領域である。
Ｉｍ_change（ｓ，ｔ）＝１ｂ

[ステップ４：新たな背景領域を認識する]
最近の２つのビデオフレームでイメージコンテンツに何らかの変化がなかったときは、新たな背景領域が検出される。モザイク内で対応する領域は、この位置での背景が既知ではないことも示さなければならない。結果としての新背景領域は、背景が既知である近くの領域に貼付けられる。後のステップでわかるように、新背景データのモザイクへの取り込みは、符号器と復号器との間のドリフトを避けるために、圧縮／伸張された背景形状情報に従ってなされなければならない。

ここで、インジケータ値０は、背景が既知でないことを意味する。

[ステップ５：前景／背景の領域分割を実行する]
先ず、背景が既知の領域（Ｉｍ_mosaic（ｓ，ｔ−１）＝１）を見て頂きたい。背景から前景を識別するために、しきい値処理を実行する（ケース（ｉ））。背景が知られていない領域の場合は、変化が発生した領域全て（ステップ３で定義されたラベル１ａ,１ｂ）に前景としてタグを付ける（ケース(iii)及び(iv)）。
ケース(ii)は、前景の部分から除外された新たな背景領域を現している。

ここで、Thres_fgは、背景から前景を分割するために用いられる、予め定義されたしきい値である。

ケース(iii)及び(iv)では、領域１ａ又は１ｂに１をタグ付けした領域のサブクラシフィケーションは、異なるマクロブロック選択ルールに従うようにフレキシビリティをもった符号器を提供するという、単一の目的で使用される。例えば、１ａとタグ付けされた領域は、これらの領域が共通にサポートされるイメージにわたって発生するので、インターフレームマクロブロックで符号化されるのが好ましい。一方、１ｂとタグ付けされた領域は、これらの領域が以前のフレームとは共通にサポートされる領域を共有しないので、イントラフレームマクロブロックで符号化されるのが好ましい。

[ステップ６：前景形状及びテクスチャを圧縮／伸張する]
１ａ及び１ｂとラベル付けされた前景領域を符号化するためには、通常（Ｉ，Ｐ或いはＢ−ＶＯＰ）の予測モードを使用する。Ｐ又はＢ−ＶＯＰsの場合には、個々のマクロブロックは、インターフレーム予測か又はイントラフレーム符号化のいずれかを使用することができる。１ｂとラベル付けされた領域に対応する画素(モザイク内に表現されていない新しく現れた背景）は、イントラマクロブロックとして符号化されるのが好ましい。前景の形状は、同様に圧縮され送信される。一度、伸張がなされると、この形状は、符号器及び復号器によって、モザイクのコンテンツを更新するために使用される。この処理は、ＭＰＥＧ−４ＶＭ５.０［３］を使って行うことができる。

[ステップ７：背景形状を取得する]
圧縮／伸張された前景形状から背景形状を取得する。
圧縮／伸張は、符号器及び復号器が同一の形状情報を共有するために必要である。

ここに、Ｃ^-1Ｃ｛｝は、形状の符号化／復号化を意味し、例えば上述の［３］を使って実行することができる。

[ステップ８：モザイクの新たな背景テクスチャを初期化する]
新たな背景が発生した領域を認識し、前ビデオフレーム（時刻（ｔ−１））で見つけられたコンテンツでモザイクを初期化する。参考までに、フィールドＩｍ_nbg（ｓ，ｔ）は、この情報が復号器には既知でないので、ここでは使用出来ない。

[ステップ９：モザイク予測から背景テクスチャの残差を計算する]
もしＩｍ_bg（ｓ，ｔ）＝＝１ならば、モザイクコンテンツを予測子として用いて、差信号を計算する。その結果のΔＩ（ｓ，ｔ）は、画素（ｓ，ｔ）がロケートする全マクロブロックにわたって差信号を計算したものである。この差信号は、以前及び次のビデオフレームからの予測（Ｐ又はＢ予測モード）を用いて作られた通常の差信号と比較される。マクロブロックのタイプは、ベスト予測モードに従って選ばれる。残差信号は、［２］で説明したような圧縮背景形状と共に復号器へ送信される。

ΔＩ（ｓ，ｔ）＝Ｉ（ｓ，ｔ）−Ｗ_t←t0（Ｍ′（ｓ，ｔ−１））

[ステップ１０：モザイクの背景形状を更新する]
新たな背景の形状を含むようにモザイクマップを更新する。

[ステップ１１：モザイクの更新]
フレームｔの新たな或いはカバーされていない背景に対応する領域のモザイクのコンテンツを更新する。

上記方程式中、混合パラメータα（０＜α＜１）の値の選択は、アプリケーションに依存している。
上述の方法は、過去、現在、又は未来のある時刻ｔ₀を参照したモザイクを作成する。
モザイクが現時刻ｔまで連続的にワープされる場合、上記方程式を書き直すことは、簡単である。

さて、図４は、本発明のブロックダイアグラムが描かれている。本図の目的は、本発明の方法で使用される色々な成分や量における従属関係を浮き立たせることにある。又、連続するビデオフィールドを整列させるために必要な色々なワープステージや非ワープステージを強調することも目的とする。

図５は、本発明の方法を用いるデジタルビデオデータベースシステムのブロックダイアグラムを示す。
図６は、送信中の動的スプライトとしてオフラインで作成された背景スプライトを用いたテレビ会議システムのブロックダイアグラムを示す。

図７は、前景オブジェクト（ここでは自動車）の連続位置が、前景の形状に属する１つ又は数個の突起点（Ｖ）の連続的な位置をプロットすることによって、どのようにモザイク内に表現され得るかを例示している。頂点の色は、混乱を避けるために、ｔ₀からｔ₀＋１及びｔ₀＋１からｔ₀＋２で変えられている。この例では、頂点はモザイクに静的に示されており、形状記述(description)の１つのレベルのみを取得(capture)している。

＜各種実施形態のオペレーション＞
[モザイクベースによるテレビ会議及びテレビ電話システム]
図５と図６を参照すると、通信プロトコルは、オンライン背景モザイクが作成されている間、構成相（時刻調整可能)を包含することができる。この時刻中は、各テレビ電話は、背景モザイクを作成するために頭と肩の小さな変位を用いる。前景の変位は、自発的(システムがユーザを案内する)或いは、そうでないか(前景が動かなければ符号化効率にはゲインがない)、とすることが可能である。この場合、上述の方法は、背景モザイクを作成するために用いられる。通常のビデオ送信中は、モザイクは動的スプライトとして用いられ、混合因子は、いかなる更新もしないように０にセットされる。この場合、マクロブロックのタイプは、動的でも静的でもあり得る。極端な場合、全てのマクロブロックが静的マクロブロックであるということは、背景モザイクが静的スプライトとして用いられているということである。別の極端な場合として、全てのマクロブロックが動的タイプであり、モザイクが動的（予測可能な）スプライトとして用いられているということである。後者の場合は、高データ送信バンド幅が必要である。二者択一的に、背景シーンのモザイクは、送信前に作成され、そして通常の送信中には、静的又は動的スプライトとして用いられる。

[モザイクベースによるビデオデータベース]
上記方法は、ビデオビットストリームのデータベース即ち圧縮ビットストリームのデータベースを構築したり、検索したりする際に使用可能である。このようなシステムでは、ビデオクリップは、上記方法を用いて圧縮される。その結果は、圧縮ビットストリームと符号化処理中に生成されたモザイクとなる。このモザイクイメージは、ビデオクリップビットストリームの代表イメージとして使用可能で、その特徴は、そのビデオクリップに属するビットストリームの検索や索引(作業)に利用することができる。

更に、前景の動き経路(trajectory)は、ユーザにシーケンスでの前景動きの粗い記述を提供するために、モザイクの上に重ねることができる。前景オブジェクトの経路は、点のセットとして表現することが可能で、それぞれの点は、与えられた時刻における前景オブジェクトの特定の特徴の位置を表現している。この特徴点は、オブジェクト形状の突起点(salient vertices)であってよい。オブジェクト形状の階層的記述は、データベースインターフェースに、粗から細の形状アウトラインをモザイク内に重ねさせるような、更なる利点をもたらすであろう。連続頂点位置は、同じ背景モザイク中に共に示されるか、或いは、同じモザイクのサポートに時刻的に連続して表示される。参考までに、この概念には、動きベースによる検索を容易にする更なる利点がある。その理由は、前景の動きはモザイク参照空間に表現されているからである。

図７をみると、背景モザイクは、草、空、太陽及び木を有している。前景オブジェクトは、加速した動きで左から右へ移動する車である。この車の形状は、黒で示されている。８つの頂点“Ｖ”は、この形状を表現するために選択された。車の連続位置は、単に連続位置に頂点をプロットすることにより、モザイク中に表現することができることを図７は示している。頂点の色は、混乱を避けるために、ｔ₀からｔ₀＋１及びｔ₀＋１からｔ₀＋２で変えられている。この例では、頂点はモザイク内で静的に示されており、形状記述の１つのレベルのみを取得している。最後に、モザイクはアイコンとして使用可能である。モザイクのアイコンをクリックすることによって、ユーザはシーケンスの再生のきっかけとすることができるであろう。

[頻繁にシーンが変化するアプリケーションにおけるマルチプルモザイクのサポート]
ビデオシーケンスが、テレビ会議アプリケーションでのように、あるシーンから別のシーンへ急速かつ頻繁に変化する場合、２つ又はそれ以上（独立したシーンの数がいくつあるかに依る）のモザイクを同時に作成するのが好ましい。１つ以上のモザイクがあると、シーンのカットが発生する度に新たなモザイクの作成を、システムにより強制的に再初期化する必要はない。このフレームワークでは、符号化されるビデオフレームが同様なコンテンツを共有するときだけ、モザイクが使用され、更新される。参考までに、モザイクは重ねることが許されているので、一度に２つ以上のモザイクを更新することができる。

[最適視点]
本方法の最初で用いられた任意のマッピングＷ_(t-1)←t0（）は、歪みや人工的疑似信号(artifacts)が最小になるモザイク用に最適空間表現領域を表現するために用いる。この点では、これが我々の側においてより深い研究が必要な問題である一方、曖昧さ(視差問題)及び／又は歪みが、予め定められた基準に従って最小化される最適モザイク表現を見つける可能性があることは疑いのないことである。

[改良された解像度]
同様にして、任意のマッピングＷ_(t-1)←t0（）は、ズーム因子を含むことができる。この因子には、それを作成するのに用いたビデオフレームの解像度より潜在的に２，３又はＮ倍以上の解像度をもつモザイクを作成する効果がある。任意に固定されたズーム因子は、連続ビデオフレームにわたる小数点以下のワープ変位が、モザイク中で整数変位として記録されるような機構を提供する。ズーム因子が大きければ大きい程、長いシーケンスがモザイクの完成前になければならない(満たすためにはより多くの画素位置が必要)。ＭＰＥＧ−４フレームワークは、このようなスキームの実現を可能にするものである。

この任意のマッピングＷ_res（）を示す。線形の場合には、この演算子は、１より大きな一定スカラーを乗じた単位行列である。このスケール因子は、モザイクに使われる拡大因子を定義するものである。ステップ１１に示されたモザイク更新方程式は、以下のように書き直すことができる。

この方程式は、モザイクが固定時刻ｔ₀で作成されていることを示しており、この固定時刻ｔ₀は、第１のビデオフレームに対応する時刻、最終フレームに対応する時刻、又はこの間のどの時刻であってもよい。この場合、任意のマッピングＷ_res（）は、常にワープ変換Ｗ_t0←tにより構成されている。モザイクが、現在のビデオフレームに向けて連続的にワープされている時は、更新方程式は以下のように書き直さねばならない。

上記方程式は、任意のマッピングＷ_res（）がもはやフレームからフレームへのワープ演算子Ｗ_t←(t-1)で構成されず、代わりに圧縮／伸張した残差に適用されることを意味している。ＭＰＥＧ−４においては、任意のマッピング演算子Ｗ_res（）は、ワープパラメータの第１のセットとして、シンタックスを適宜拡張したものを送信することが出来る。このセットは、現状では、変換シフトを経てモザイクバッファ中で第１のビデオフレームを位置決めするときのみをサポートしている。

[極めて低いビットレートにおけるビデオシーケンスの符号化]
極めて低いビットレートのアプリケーションにおいては、形状情報の送信は、望ましくない負荷(overhead)となる。上述の方法は、形状情報の送信が切断されたとき、依然として操作可能である。これは、全ての画素で背景形状を１にセットすること（ステップ７）、及び混合因子αを１にセットすること（ステップ１１）により実施される。後者のセッティングは、モザイクが常に最新のビデオ情報を表示することを保証するものである。前景がモザイクに含まれているので、このビデオ情報はこの状況では必要である。この状況で、マクロブロックのタイプは、イントラ、インター、静的スプライト、又は動的スプライトであり得る。このスプライトは、全てのマクロブロックが静的であれば静的スプライトとして用いられる。この場合、残差は送信されないので、極めて低いビットレートのアプリケーションではこれが最も可能性のある状況である。全てのマクロブロックが動的タイプであれば、このスプライトは動的スプライトとして用いられている。

本発明の方法を用いた時刻ｔ−１におけるステップを説明する図である。本発明の方法を用いた時刻ｔからｔ＋１におけるステップを説明する図である。本発明の方法を用いた時刻ｔ＋１からｔ＋２におけるステップを説明する図である。本発明の方法のブロックダイアグラムである。本発明のシステムのブロックダイアグラムである。テレビ会議システムの例で本発明のシステム及び方法を説明する図である。前景オブジェクトの連続部分が本発明によるモザイクでどのように表現されるかを説明する図である。

符号の説明

なし

Claims

スプライト作成が自動的であり、スプライトオブジェクトの分割が自動的であって且つスプライト作成及び符号化・復号処理が統合されたスプライトベースによるビデオ予測符号化（符号化及び復号化）方法であって、
バッファの全ての位置でバイナリフィールドを０に初期化し、
マッピングのためにイメージと前記イメージの順方向ワープパラメータを取得し、
以前に符号化／復号されたフレームと現在のフレームとの間のコンテンツの変化を検出し、
新たな背景領域を認識し、
前景と背景を分割し、
対象となる形状を圧縮又は伸張することによって、前景の形状とテクスチャを作成し、
前に作成された前景形状から背景形状を引き出し、
モザイク中の新たな背景テクスチャを初期化し、
前記モザイクの予測から背景テクスチャ残差を決定し、
前記背景形状のモザイクを更新し、
新たな又はカバーされていない背景に対応する全ての領域の前記モザイクを更新することを特徴とするスプライトベースによるビデオ予測符号化方法。