JP2014504823A

JP2014504823A - 暗黙基準フレームを用いる動画像符号化システム

Info

Publication number: JP2014504823A
Application number: JP2013547718A
Authority: JP
Inventors: ケーチャン，; ターチョンチャン，; ダグラス，スコットプライス，; シャー−ジャンウー，; シャオソンチョウ，
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2011-01-03
Filing date: 2012-01-03
Publication date: 2014-02-24
Anticipated expiration: 2032-01-03
Also published as: DE112012000397T5; CN103299644A; TWI505695B; CN103299644B; WO2012094290A1; EP2661896A4; KR20130098423A; US20120170654A1; US8842723B2; TW201242372A; KR101607735B1; EP2661896A1; JP5731672B2

Abstract

動画像符号化／復号システムが、符号化の間に作成された複数の基準フレームから、暗黙基準フレームを構築する。基準ピクチャの符号化されたデータは、復号されて、基準ピクチャのキャッシュの中に記憶される。暗黙基準フレームは、複数の基準フレームから導出されてもよいし、基準ピクチャのキャッシュの中に記憶されてもよい。その後、暗黙基準フレームを予測のソースとして用いて、新たに入力されたデータの符号化が進行してもよい。従来の基準フレームの構築および削除に基づくシステムによって取り込まれうる、動画像の中に比較的長時間存在し続けることがある背景要素のような視覚的要素を、この方法を用いて識別してもよい。暗黙基準フレームは、予測のソースとして役立たせるため、符号化器と復号器との両方において構築されてもよい。

Description

[01]動画像符号化／復号システムは、多くの通信環境において広く応用されている。それらは、典型的には、第１の位置で視聴覚コンテンツを取り込み、各種の帯域幅圧縮操作によってコンテンツを符号化し、符号化されたコンテンツを第２の位置へ送信し、そして、そのコンテンツを復号して第２の位置でレンダリングする。動画像のコンテンツについては、符号化および復号は、典型的には、コンテンツの中の時間的および空間的冗長性を利用して行われ、符号化された信号の帯域幅を減少させるために動き補償予測技術が用いられる。

[02]動き補償技術は、１つ以上前に符号化されたフレームを予測の基礎として用いて、新たな入力フレームを予測するものである。動画像符号化器と動画像復号器とはいずれも、「基準フレーム」と指定された、選択されたフレームの復号バージョンを記憶する。新たな入力フレームを動き補償技術によって符号化する場合、符号化器は、基準フレームの中から、入力フレームのコンテンツによく似たコンテンツを探し出す。一致するものが見つかると、符号化器は、典型的には、一致する基準フレームを復号器に示し、入力コンテンツに一致するコンテンツの空間的変位を特定する動きベクトルを提供し、そして、入力データと基準フレームのうちの一致コンテンツとの差を表す残余データを符号化する。復号器は、符号化器と同じ基準フレームの集合を記憶している。基準フレームの識別子と動きベクトルと符号化された残余データとが与えられれば、復号器は、各入力フレームのレプリカを復元して表示することができる。フレームは、典型的には、データの空間的なアレイ（本明細書では「画素ブロック」と呼ぶ）へと解析され、入力フレームの各画素ブロックについて、動きベクトルと符号化された残余データとが提供されてもよい。

[03]従って、動き補償予測では、符号化器と復号器とがいずれも、符号化と復号とで用いる所定数の基準フレームを記憶していることが必要である。Ｈ．２６３やＨ．２６４のような最近の符号化プロトコルは、符号化器と復号器とにおいて記憶されることになる基準フレームの数に関して所定の制限を定義している。従って、符号化器と復号器とは、典型的には、所定数の基準ピクチャだけを記憶するキャッシュを備えている。動作中、基準ピクチャのキャッシュが、基準ピクチャを最大数記憶していて、かつ、新たな基準ピクチャを追加することになる場合には、前に記憶されていた基準ピクチャが、キャッシュから削除されて、新たな基準ピクチャが収容されるであろう。削除された基準を、その後、新たな入力フレームを予測するための基礎として使うことはできない。

[04]多くの符号化アプリケーションにとって、基準ピクチャのキャッシュの深さが限定的であることは、不十分である。画像コンテンツが、比較的静止した背景に対して、前景に動きのあるコンテンツを含みうるような適用例においては、背景要素は、非常に高い時間的冗長性を有する可能性があり、効率的に符号化することが可能である。しかし、前景要素が背景要素を長時間覆い隠しているために、基準ピクチャのキャッシュが、背景要素を含んでいる基準フレームを削除してしまった場合には、前景要素が再び動いて、前に覆い隠されていた背景要素が現れても、動画像符号化器は、それを予測的に符号化することができないであろう。

[05]従って、当分野において、動き補償予測技術の範囲を効果的に拡張して、符号化器および復号器のキャッシュから削除された基準ピクチャのコンテンツを含めるような、予測的符号化システムが必要である。

[06]本発明の一実施形態による動画像符号化システムを示す図である。 [07]本発明の一実施形態による動画像符号化器および動画像復号器の簡略化した機能ブロック図である。 [08]本発明の一実施形態による方法を示す図である。 [09]基準フレームの例示的な集合という文脈における図３の実施形態の動作を示す図である。 [10]本発明の一実施形態の動作を示す、別の入力データの例示的な集合を示す図である。 [11]本発明の一実施形態の動作中に得られうる、例示的な画像モデルを示す図である。 [12]本発明の一実施形態の動作中に得られうる、別の例示的な画像モデルを示す図である。 [13]本発明の一実施形態による通信プロトコルを示す図である。 [14]本発明の別の一実施形態による別の通信プロトコルを示す図である。 [15]別の一実施形態による動画像符号化システムの簡略化したブロック図である。

[16]本発明の諸実施形態は、符号化の間に作成された複数の基準フレームから暗黙基準フレームを構築する動画像符号化／復号システムを提供する。基準ピクチャの符号化されたデータは、復号されて、基準ピクチャのキャッシュの中に記憶される。１つの暗黙基準フレームが、複数の基準フレームから導出されて、基準ピクチャのキャッシュの中に記憶されてもよい。その後、暗黙基準フレームを予測のソースとして用いて、新たな入力データの符号化が進行してもよい。この方法は、従来の基準フレームの構築および削除に基づくシステムによって取り込まれうる、動画の中に比較的長時間存在し続けることがある背景要素のような視覚的要素を識別するのに用いることができる。暗黙基準フレームは、予測のソースとして役立たせるため、符号化器と復号器との両方において構築されてもよい。

[17]図１は、本発明の一実施形態による動画像符号化器／復号器システム１００を示す図である。システム１００は、通信ネットワーク１２０を介して相互接続された複数の端末デバイス１１０．１乃至１１０．Ｎを含んでいてもよい。これらの端末デバイスは、テレビ会議機能をサポートしてもよく、従って、端末ユーザの視聴覚データを取り込むために、（以下に記述するような）関連のハードウェアおよびソフトウェアを備え、取り込まれたデータを符号化し、そして、そのデータを別の端末に送信してもよい。また、各端末は、符号化された視聴覚データを別の端末から受信するために、（これも以下に記述するような）関連のハードウェアおよびソフトウェアを備え、符号化されたデータを復号し、そして、復号されたデータを、例えばディスプレイやスピーカのような出力デバイス上にレンダリングしてもよい。端末１１０．１乃至１１０．Ｎは、符号化された動画像データを１つ以上の相互接続ネットワーク１２０を介して相互に送受信してもよく、相互接続ネットワーク１２０は、通信ネットワークまたはコンピュータネットワークとして実施されてもよい。ネットワーク１２０は、パケットベースのネットワークとして提供されてもよく、ネットワーク１２０は、有線でも無線でもよい。本議論では、ネットワーク１２０のアーキテクチャおよび動作は、本明細書で別段の記載がない限り、本発明の動作には無関係である。

[18]本発明の原理は、特に、テレビ会議を含めて、各種の符号化アプリケーションに応用される。テレビ会議アプリケーションでは、各端末（例えば端末１１０．１）は、そのカメラを介してローカルな場面の動画像情報を取り込み、そのデータを符号化して、それを別の端末（例えば端末１１０．２）へ送信してもよい。同様に、他方の端末が、動画像情報をローカルに取り込み、それを符号化して、そのデータを第１の端末１１０．１に送信してもよい。各端末１１０．１および１１０．２は、自分が他方の端末から受信した符号化された動画像データを復号して、その復号された動画像をディスプレイデバイス上にレンダリングしてもよい。

[19]また、本発明の原理は、例えば、第１の端末が、符号化された動画像データを複数のリモート端末に送信し、それらから符号化された動画像データを受信するような、参加者多数の会議アプリケーションにも適用される。

[20]図２は、本発明の一実施形態による動画像符号化器２００．１、２００．２および動画像復号器２５０．１、２５０．２の簡略化した機能ブロック図である。図示するように、各端末（端末１および２）は、他方の端末の動画像復号器２５０．１、２５０．２と対をなす、動画像符号化器２００．１、２００．２を備えていてもよい。

[21]動画像符号化器２００．１は、プリプロセッサ２１０．１と、符号化エンジン２２０．１と、基準ピクチャのキャッシュ２３０．１と、ピクチャ分析器とを備えていてもよい。プリプロセッサ２１０．１は、例えばカメラのような画像取り込みデバイスからソース動画像を受け入れた後、ソース動画像に対して、それを符号化するための調整を目的として、各種の処理を行ってもよい。符号化エンジン２２０．１は、前処理されたソース動画像の中の空間的および時間的冗長性を減少させるため、それに対して帯域幅圧縮操作を行ってもよい。符号化エンジンは、符号化された動画像データを動画像復号器２５０．１への配信用チャネルに出力してもよい。また、その動作の一部として、符号化エンジンは、基準フレームの符号化された動画像データを復号してもよく、ここで、基準フレームとは、後で符号化されるソース動画像のための予測のソースとして用いられうるフレームである。復号された基準フレームは、その後受信されるソース動画像の符号化の間、基準ピクチャキャッシュ２３０．１の中に記憶されてもよい。ピクチャ分析器２４０．１は、以下に論じるように、基準ピクチャキャッシュ２３０．１の中に記憶されたフレームから、暗黙基準フレームを生成してもよい。

[22]プリプロセッサ２１０．１は、ソース動画像のシーケンスに対して動画像処理操作を行ってもよい。プリプロセッサは、動画像の中で観察される特性に基づいてソース動画像に動的に適用されうる一連のフィルタ（図示せず）、例えば雑音除去フィルタ、鮮明化フィルタ、平滑化フィルタ、双方向フィルタなどを備えていてもよい。典型的には、プリプロセッサは、帯域幅の圧縮の効率を高めるため、または、符号化エンジン２２０．１が動作する際に被るデータ損失を考慮して画質を保つために、ソース動画像データの調整を行う。

[23]符号化エンジン２２０．１は、帯域幅圧縮を達成するために各種の多様な符号化技術によって入力データを符号化してもよい。符号化エンジンは、動き補償予測によって画像を圧縮してもよい。入力動画像のフレームには、例えば、Ｉ符号化（ｉｎｔｒａｃｏｄｉｎｇ）、Ｐ符号化（ｕｎｉ−ｄｉｒｅｃｔｉｏｎａｌｌｙｐｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇ）、または、Ｂ符号化（ｂｉ−ｄｉｒｅｃｔｉｏｎａｌｌｙｐｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇ）のような符号化タイプが割り当てられてもよい。フレームは、さらに、複数の画素ブロックへと解析されてもよいし、変換符号化、量子化、およびエントロピー符号化によって符号化されてもよい。Ｐ符号化およびＢ符号化が行われたフレームの画素ブロックは、予測的に符号化されてもよく、その場合、符号化エンジンは、符号化される画素ブロックの予測として機能する、基準ピクチャキャッシュ２３０．１の中に記憶されている復号されたフレームの画素ブロックを識別する動きベクトルを計算してもよく、また、変換符号化を行う前に予測残差を生成してもよい。一実施形態では、動画像符号化器は、ＩＴＵＨ．２６３、Ｈ．２６４等によって規定される符号化プロトコルに従って動作してもよい。

[24]動画像復号器２５０．１は、復号エンジン２６０．１と、基準ピクチャキャッシュ２７０．１と、ポストプロセッサ２８０．１と、ピクチャ分析器２９０．１とを備えていてもよい。復号エンジン２６０．１は、基準ピクチャキャッシュの中に記憶された基準ピクチャに関するチャネルを介して受信された、符号化された動画像データを復号してもよい。復号エンジン２６０．１は、復号された動画像データをポストプロセッサ２８０．１に出力してもよく、ポストプロセッサ２８０．１は、復号された動画像データに対して、それを表示するための調整を目的として、追加の操作を行ってもよい。また、基準フレームの復号された動画像データは、基準ピクチャキャッシュ２７０．１に記憶され、その後に受信される符号化された動画像データの復号の間に用いられてもよい。ピクチャ分析器２９０．１は、以下に論じるように、基準ピクチャキャッシュ２７０．１の中に記憶されたフレームから、暗黙基準フレームを生成してもよい。

[25]復号エンジン２６０．１は、符号化エンジン２２０．１によって行われた符号化操作を逆にする復号操作を行ってもよい。復号エンジン２６０．１は、復元された画素ブロックデータを生成するために、エントロピー復号、逆量子化、および変換復号を行ってもよい。量子化／逆量子化操作は、損失の多い操作であり、従って、復元された画素ブロックデータは、動画像符号化器２００．１によって符号化されたものだが若干のエラーを含んでいる、ソース画素ブロックのレプリカである。予測的に符号化される画素ブロックについては、変換復号は、残余データを生成する可能性があり、復号エンジン２６０．１は、（場合によっては、暗黙でありうる）画素ブロックに関連する動きベクトルを用いて、予測された画素ブロックを基準ピクチャキャッシュ２７０．１から取り出し、それを予測残差と組み合わせてもよい。復号された画素ブロックは、フレームへと再構築され、ポストプロセッサ２８０に出力されてもよい。

[26]ポストプロセッサ２８０．１は、復元された動画像データを通常はディスプレイデバイス上にレンダリングするための調整を目的として、追加の動画像処理を行ってもよい。典型的な後処理操作には、デブロッキングフィルタ、エッジ検出フィルタ、リンギングフィルタなどが含まれることがある。ポストプロセッサ２８０．１は、復元された動画像シーケンスを出力し、それが、ディスプレイデバイス上にレンダリングされてもよいし、任意で、その後の取り出しおよび表示用にメモリに記憶されてもよい。

[27]ピクチャ分析器２４０．１、２９０．１は、基準ピクチャキャッシュの中に記憶されているフレームから暗黙基準フレームを生成してもよい。ピクチャ分析器２４０．１、２９０．１は、各フレーム内の画素ブロックデータが画像の背景に属しているのか前景画像に属しているのかを分類するために、基準ピクチャのシーケンスを分析してもよい。ピクチャ分析器２４０．１、２９０．１は、背景の画素ブロックであると分類された基準フレームの画素ブロックデータから１つの暗黙基準フレームを合成し、その暗黙基準フレームを、それらの各々の基準ピクチャキャッシュ２３０．１、２７０．１に記憶してもよい。その後、符号化エンジン２２０．１は、暗黙基準フレームからの画素ブロックを、その後に受信される符号化されたソース動画像の予測基準として用いてもよく、暗黙基準フレームを基準にして、動きベクトルを復号器に送信してもよい。暗黙基準フレームを予測基準として参照して符号化された動画像データを受信すると、復号エンジン２６０．１は、暗黙基準フレームの画素ブロックデータを基準ピクチャキャッシュ２７０．１から取り出して、それを用いて、後に受信されるソースフレームの符号化された動画像データを復号してもよい。

[28]一実施形態では、動画像符号化器２００．１および動画像復号器２５０．１におけるピクチャ分析器２４０．１、２９０．１の動作が、同時に行われる。さらに、ピクチャ分析器２４０．１、２９０．１は、動画像符号化器２００．１と動画像復号器２５０．１とのいずれにおいても適切に記憶されていることが分かっている、基準ピクチャキャッシュの中に記憶された各フレームに対して動作する。従って、動画像符号化器２００．１および動画像復号器２５０．１は、これらのユニット間の同期を維持するためにシグナリングメッセージを交換してもよい。

[29]一実施形態では、動画像符号化器２００．２および動画像復号器２５０．２が、端末２において動画像を取り込み、それを復号する目的で端末１に送信するために、動画像符号化器２００．１および動画像復号器２５０．１と同様に提供されてもよい。同様に提供されると言っても、動画像符号化器／復号器の各ペアは、相互に依存せずに動作してよい。従って、第１の動画像符号化器／復号器ペアの前処理動作２１０．１および後処理動作２８０．１は、そのペアによって処理されている動画像コンテンツに関して、動的に選択されてもよい。第２の動画像符号化器／復号器ペアの前処理動作２１０．２および後処理動作２８０．２は、第２のペアによって処理されている動画像コンテンツに関しては動的に選択されてよいが、第１のペアによって処理されている動画像コンテンツに関しては、そうではない。同様に、第１のペアのピクチャ分析器２４０．１、２９０．１の動作は、第２のペアのピクチャ分析器２４０．２、２９０．２の動作に依存せずに進行してもよい。

[30]図３は、本発明の一実施形態による暗黙基準ピクチャを構築する方法３００を示す図である。この方法によれば、１つのフレーム内の画素ブロックの各位置について、方法３００は、所定の動画像シーケンスに渡って、その位置での画素ブロックの特性を比較してもよい（ボックス３１０）。動画像シーケンスは、時間的に連続した所定数の基準フレーム、例えば１０フレームを含んでいてもよい。観察された特性に基づいて、方法３００は、背景領域に属する位置にあるかまたは、図３では「前景」と呼ぶ、何らかの他の領域に属する位置にあるかで、画素ブロックを分類してもよい（ボックス３２０）。その後、方法３００は、背景画像に属すると分類されたシーケンスの画素ブロックから、１つの暗黙基準フレームを構築してもよい（ボックス３３０）。

[31]図４は、基準フレームの例示的集合という文脈において、図３の方法の動作を示す図である。図４（ａ）乃至（ｃ）はそれぞれ、比較的静止した背景画像に関してユーザが動きうるテレビ会議環境におけるユーザの画像データを示す図である。各フレーム間の例示的な差を示すために、ユーザのシルエットを各図に示している。図３の方法は、もっと長いシーケンスの基準フレームで動作する可能性があるが、図４の例では、３つの基準フレームのみを示している。図４（ａ）に、一連の画素ブロック４１０．１乃至４８０．１を示しており、これらの画素ブロックは、同一場所に位置する対応部分として、図４（ｂ）および図４（ｃ）にそれぞれ示すフレームの中の４１０．２乃至４８０．２および４１０．３乃至４８０．３を有している。

[32]動作中、方法は、４１０．１、４１０．２、４１０．３の位置で画素ブロックの特性を比較してもよい。比較の結果、この位置での画素ブロックは、よく似ているということが示される可能性があり、従って、方法は、３つの画素ブロックはすべて、背景画像に属していると分類する可能性が高い。画素ブロックの４２０、４７０、および４８０の位置における方法の動作では、同じ結果が得られる可能性が高い。いずれの場合にも、３つのフレームのすべてからの画素ブロックは、互いに良く似ていると評価され、それらの間にはほとんど動きがない可能性が高い。いずれの場合にも、３つのフレームからの画素ブロック（画素ブロック４２０．１、４２０．２、４２０．３、４７０．１、４７０．２、４７０．３、４８０．１、４８０．２および４８０．３）はすべて、背景画像に属していると分類される可能性が高い。

[33]４３０乃至４６０の位置での画素ブロックの評価は、多様な分類を生じる可能性がある。図４の３つのフレームのような場合、方法は、これらの画素ブロックの視野の中の画像のコンテンツ、動き、その他の動作に起因して、フレーム間には著しい差があると識別する可能性が高い。例えば、位置４３０では、方法は、フレーム１と３（画素ブロック４３０．１および４３０．３）との間には強い相関関係を、フレーム２からの画素ブロック４３０．２とは弱い相関関係を識別する可能性がある。また、画素ブロック４３０．２は、それに関連するフレーム間の動きが比較的大きい可能性があるのに対し、フレーム４３０．１および４３０．３は、動きが少ないであろう。そのような特性に基づいて、方法は、画素ブロック４３０．２ではなく、画素ブロック４３０．１および４３０．３を背景ブロックとして分類する可能性がある。

[34]同様に、位置４６０では、方法は、フレーム１とフレーム２（画素ブロック４６０．１と４６０．２）との間には強い相関関係を、フレーム３の画素ブロック４６０．３とは弱い相関関係を識別する可能性がある。また、画素ブロック４６０．３は、それに関連するフレーム間の動きが比較的大きい可能性があるのに対し、フレーム４６０．１および４６０．２は、動きが少ないであろう。そのような特性に基づいて、方法は、画素ブロック４６０．３ではなく、画素ブロック４６０．１および４６０．２を背景ブロックとして分類するであろう。

[35]方法は、位置４４０および４５０における画素ブロックを同様に処理してもよい。これらの領域にはユーザの顔が位置しているため、これらの位置にある画素ブロックは、それらの間に何らかの相関関係を示す可能性が高いが、画素ブロックは、位置４１０乃至４３０および４６０乃至４８０で示される例示的データより低い相関関係をそれらの間に示す可能性が高いであろう。従って、方法は、これらの位置にある画素ブロックは、背景領域に属すると分類しないであろう。

[36]図４は、３つの基準フレームの例示的集合に対して行われる図３の方法の動作を示す図である。動作中、方法は、より多数の基準フレームに対して、例えば、１０または１５個の基準フレームに対して、行われてもよい。図５は、別の例示的集合を示す図であって、１０個の基準フレーム５１０．１乃至５１０．１０で作成された入力データの集合である。本議論では、フレーム５１０．１乃至５１０．３は、オペレータの顔に対応する画像の領域内のフレーム間の動きを別にすれば、図４（ａ）のフレーム１の画像コンテンツに非常に良く似ていると仮定する。これらのフレームに、図５では「Ｆ１」とラベルを付ける。同様に、フレーム５１０−４乃至５１０−６は、オペレータの顔に相当する画像領域内のフレーム間の動きを別にすれば、フレーム２（図４（ｂ））の画像コンテンツに似ており、フレーム５１０−７乃至５１０−１０は、オペレータの顔に相当する画像領域内のフレーム間の動きを別にすれば、フレーム３（図４（ｃ））の画像コンテンツに似ている。そのために、図５では、フレーム５１０−４乃至５１０−６には「Ｆ２」、フレーム５１０．７乃至５１０．１０には「Ｆ３」とラベルを付ける。

[37]動作中、図３の方法は、図４の例ではなく図５の例に示す、より多数の画像コンテンツを用いて、より精細な背景画像データのモデルを構築してもよい。図４（ｃ）の画素ブロック位置４４０に注目すると、方法は、これらの画素ブロックを背景ブロックとして分類するために、フレーム５１０．７乃至５１０．１０間の十分な相関関係が確認される可能性がある。画素ブロック位置４５０（図４）のような画像コンテンツは、いずれかの画素ブロック位置を背景の画素ブロックとして分類することを許すほどの十分強いフレーム間の相関関係を示さないかもしれない。

[38]図６は、図３の方法の動作中に得られうる例示的な画像モデルを示す図である。図６は、図５の例示的なフレーム５１０．１乃至５１０．１０から導出されうる前景画像コンテンツの位置を表す３つのシルエットＳ１乃至Ｓ３の重ね合わせを示す図である。このモデルでは、各シルエットの内側の画像コンテンツのフレーム間の動きは、シルエットの外側の画像コンテンツの場合より大きいことがありうる。方法では、背景画像データの代表として、それぞれのシルエットの外側にある画像データを集めてもよい。このプロセスによって、図７に示すように、モデルが効果的に生成され、この場合、灰色の陰影で記された画素ブロックが、背景画素ブロックとして認識されるであろう。暗黙基準フレームが、背景画素ブロックから導出され、基準ピクチャキャッシュの中に記憶されてもよい。

[39]本発明は、所与の画素ブロックが背景画像に属すると分類されるべきか否かを判定するために各種の技術を提供する。第１の実施形態は、基準フレーム間の画素ブロックの動きに基づいている。画素ブロック変位ベクトルが、１つの基準フレームから次の基準フレームまでの動きの距離を表す、各画素ブロック位置において計算されてもよい。シーケンスの中で全体的な動きが最も少ない画素ブロックは、背景画像に属するとする割当ての候補であってもよい。加えて、複数の連続する基準フレームの同一場所にある画素ブロックが、基準フレーム毎に共通の動きを示す場合、これを、それらの基準フレーム画素ブロックは背景画像の構成要素であるという指標として用いてもよい。当然の結果として、複数の連続する基準フレームの同一場所にある画素ブロックが、共通性のない不規則な動きを示す場合、これは、画素ブロックを、背景画像の構成要素と認めない基準として用いてもよい。

[40]その延長線上で、この方法は、さらに、時間的に隣接している非基準フレームの同一場所にある画素ブロックと、基準フレームの画素ブロックとの間の相対的な動きを考慮してもよい。複数の時間的に隣接しているフレームの同一場所にある画素ブロックが、基準フレームの画素ブロックと共通の動きを示す場合、これを、基準フレーム画素ブロックは背景画像の構成要素であるという指標として用いてもよい。そして、複数の時間的に隣接しているフレームの同一場所にある画素ブロックが、基準フレームの画素ブロックと共通性のない不規則な動きを示す場合、これは、画素ブロックを、背景画像の構成要素と認めない基準として用いてもよい。

[41]さらに、方法は、エッジ検出操作に関連して動き特性を考慮してもよい。符号化器が、画像データ内の要素を識別するために、エッジ検出を行って、次いで、検出されたエッジの反対側にある領域について、画像の動きを評価してもよい。検出された画像の第１の側にある画像領域が、複数の基準フレームの全体に渡って比較的共通した動きを示す場合、その領域（および、その延長線上で、エッジのそちら側に位置する画素ブロック）は、背景画像要素として分類されうることを示している可能性がある。

[42]また、方法は、画像に割り当てられたグローバル動きベクトルに関連する画像の動き属性を考慮してもよい。多くの符号化器は、幾分、動きをフレーム毎に推定するような前処理動作を行う。また、符号化器によっては、動作中にカメラデバイスの動きを検出するような動き検出器を採用しているカメラを使って動作するものもある。いずれの場合にも、或る基準画像の中の個々の画素ブロックの動きが、画素ブロックを背景要素に属していると分類する目的で評価されるのだから、画素ブロックの動きは、グローバル動き予測と比較されてもよい。画素ブロックが、フレームに適用されるグローバル動き予測とは異なる動きを示す場合、画素ブロックは、背景画像要素としての分類に適していないとみなされてもよい。

[43]また、方法は、背景の分類を行う一環として、画素ブロック間の空間的相関関係を考慮してもよい。そのような実施形態では、方法は、画素ブロックの画像コンテンツを、同じフレーム内の隣接する画素ブロックの画像コンテンツと比較してもよい。例えば、方法は、そのような相関関係を評価するために、隣接する符号化された画素ブロック間の変換係数を比較してもよい。画素ブロックが、隣接する画素ブロックとの高い相関関係を示す場合、そのような相関関係を、背景画素ブロックを識別する基準として用いることができる。

[44]言うまでもなく、本発明の原理は、前記の各種の技術を統合したものに対応している。一実施形態では、基準フレーム内の個々の画素ブロックに、動きおよび空間的相関関係試験が適用されてもよい。動きの評価と空間的相関関係評価とを別個に採点し、次いで、合計得点を作成し、そこから、システムが、画素ブロックが背景要素であるか否かを指定してもよい。

[45]各フレーム位置の中の画素ブロックの集まりが背景に属していることを識別すると、システムは、そこから１つの暗黙基準フレームを構築してもよい。暗黙基準フレームは、複数の画素ブロックのコンテンツを全体的に平均するかまたは、平均によって得られた１つの画素ブロックに最も良く似ている１つの画素ブロックのコンテンツをコピーすることによって、構築されてもよい。背景の画素ブロックが識別されなかったフレーム位置には、ヌルデータ（例えば、真っ黒または真っ白なデータ）が記憶されてもよい。

[46]図８は、本発明の一実施形態による符号化器と復号器との間の通信プロトコルを示す図である。このプロトコルによれば、いずれかの暗黙基準フレームの構築より前に、符号化器が、動画像シーケンスからのフレームを符号化し、それによって得られた符号化された動画像データを復号器に送信してもよい（ブロック８１０）。復号器は、符号化された動画像シーケンスを受信して、それを復号してもよい（ブロック８２０）。また、符号化器は、復号器に送信された符号化された基準フレームを復号してもよい（動作は図示せず）。送信エラーがなければ、符号化器および復号器は、基準フレームの共通の集合をローカルに各デバイスにおいて記憶することになる。

[47]符号化器が、暗黙基準フレームを利用しようと決めると、符号化器は、復号器へのコマンドに暗黙基準フレームを構築することを含めてもよい（ブロック８３０）。符号化器のコマンドは、符号化された動画像データと一緒にチャネルデータの中に含まれてもよい。符号化器のコマンドは、暗黙基準フレームがそこから導出されうる基準フレームの集合を識別してもよい。その後、符号化器および復号器はそれぞれ、それらのローカルなキャッシュの中に記憶されている基準フレームから、暗黙基準フレームを構築してもよい（ブロック８４０、８５０）。復号器が、暗黙基準フレームの構築に成功してそれを記憶すると、復号器は、それをそのように識別して、確認応答メッセージを符号化器に送信してもよい（ブロック８６０）。確認応答メッセージは、その後の符号化のために符号化器および復号器によって用いられることになる指標を含んでいてもよい。

[48]確認応答メッセージを受信した後で、符号化器は、暗黙基準フレームに関する今後の符号化操作を行うことができる。すなわち、暗黙基準フレームを、いずれかの他の基準フレームが用いられるのと同様のやり方で、後に受信されるソースフレームの符号化の間の予測のソースとして用いてもよい。符号化器が、後で受信される動画像シーケンスの各部分を符号化して、それを復号器に送信する時（ブロック８７０）、符号化器は、予測のソースとして暗黙基準フレームに言及する、符号化されたフレームをそれに含めてもよい。同様に、復号器は、符号化された動画像を受信して復号し（ブロック８８０）、その際、符号化された動画像データによって指示されるように、暗黙基準フレームのローカルなコピーを予測ソースとして用いてもよい。

[49]動作中、符号化器は、復号器が暗黙基準フレームをその基準ピクチャキャッシュの中にどのように保持するかを制御してもよい。例えば、符号化器は、復号器の基準ピクチャキャッシュから暗黙基準フレームを消去するためのコマンドメッセージ８９０を含んでいてもよい。言うまでもなく、符号化器は、状況によってそれが当然であるのならば、新たな暗黙基準フレームを構築するための新たなコマンド８３０を発信してもよい。システムは、複数の暗黙基準フレームを同時に構築して保持するために、ブロック８４０、８５０の操作を繰り返してもよい。

[50]指摘したように、コマンドメッセージ８３０は、暗黙基準フレームを構築するために符号化器および復号器が用いることになる基準フレームの識別子を含んでいてもよい。コマンドメッセージ８３０は、多くの形式をとりうる。第１の実施形態では、コマンドメッセージ８３０は、例えば、タイムスタンプ、フレーム番号、またはその他の明示的な識別子によって、基準フレームを明示的に識別してもよい。別の実施形態では、コマンドメッセージ８３０は、用いられることになる基準フレームの整数を（例えば、Ｎフレームのように）識別してもよく、これは、チャネルデータの中に含まれるＮ個の最近送信された基準フレームを暗示的に識別するものである。いずれの場合にも、復号器がコマンドメッセージを解釈した後、復号器は、識別された基準フレームが基準ピクチャキャッシュの中に存在するかどうかを判定してもよい。例えば、送信エラーのため受信が妨げられたという理由で、識別された基準フレームが存在しない場合、復号器は、暗黙基準フレームを構築することができないであろう。この場合、復号器は、暗黙基準フレームを構築するための復号器の試行が成功しなかったことを示す確認応答メッセージ（図示せず）を送信することになる。復号器からのこの拒否通知に応じて、符号化器は、通信チャネルの自分側に暗黙基準フレームを構築するという自分の試行を断念してもよい。代わりに、符号化器は、別の基準フレームの集合を識別する暗黙基準フレームを構築するための別のコマンドを発信してもよい。

[51]上述のように、符号化エンジン２２０．１、２２０．２および復号エンジン２６０．１、２６０．２は、例えばＩＴＵＨ．２６３またはＨ．２６４のような所定の符号化プロトコルによって定められる符号化動作を行ってもよい。そのような符号化プロトコルは、本明細書で上述したコマンドメッセージおよび確認応答メッセージ８３０、８６０を規定していないが、プロトコルは、そのようなメッセージを提供するように修正されてもよい。従って、符号化エンジン２２０．１、２２０．２とそのような符号化器の復号エンジン２６０．１、２６０．２との間に行われる交換として、コマンドおよび確認応答プロトコルを含めることは許容される。

[52]図９は、本発明の一実施形態による符号化器と復号器との間の別の通信プロトコルを示す図である。本プロトコルでは、符号化器および復号器は、長期基準（「ｌｏｎｇｔｅｒｍｒｅｆｅｒｅｎｃｅ：ＬＴＲ」）フレームから暗黙基準フレームを構築してもよい。ＬＴＲフレームは、ＩＴＵＨ．２６４符号化プロトコルによって定義されている。それらは、受信および復号の成功の時点で復号器によって確認される基準フレームである。復号器は、確認応答を符号化器に送信し、それに応じて、符号化器は、ＬＴＲステータスを基準フレームに割り当てる。従って、符号化器は、ＬＴＲの受信と復号の成功との明示的な確認を受信することになり、その後の符号化動作においてＬＴＲフレームを信用してもよい。

[53]プロトコル９００によれば、符号化器は、動画像シーケンスのフレームを符号化し（ブロック９１０）、所定の基準フレームをＬＴＲフレームとしてマークし（ブロック９２０）てもよい。符号化器は、符号化された動画像データを復号器に送信してもよい。符号化された動画像データを受信した時点で、復号器は、それをレンダリングするために復号してもよく（ブロック９３０）、基準フレームをローカルに基準ピクチャキャッシュの中に記憶してもよい。復号器がＬＴＲフレームの復号に成功すると、復号器は、それを知らせる確認応答メッセージ９４０を符号化器に送信してもよい。符号化器が復号器の確認応答メッセージ９４０を受信すると、符号化器は、復号器での受信が確認されたことを示すために、ローカルに記憶されているＬＴＲフレームのステータスを改訂してもよい（ブロック９５０）。ブロック９１０乃至９５０の動作は、動画像シーケンスの符号化全体を通して繰り返されてもよい。

[54]符号化器が、暗黙基準フレームを構築しようと決めると、符号化器は、暗黙基準フレームを構築するために復号器９６０にコマンドを送信して、導出において用いられることになるＬＴＲフレームを識別してもよい。復号器は、コマンドメッセージ９６０を受信した時点で、暗黙基準フレームを構築してもよく（ブロック９７０）、暗黙基準フレームの構築プロセスが終了した時点で、確認応答メッセージ９８０を符号化器に送信してもよい。さらに、符号化器は、並行して、暗黙基準フレームの自分用のコピーを構築してもよい（ブロック９９０）。その後、符号化器は、暗黙基準フレームに関して、ソース動画像シーケンスを符号化し、そこから得られた符号化された動画像データを復号器に送信してもよい（ブロック１０００）。復号器は、符号化された動画像を、それを受信した時点で復号してもよい（ブロック１０１０）。

[55]図９のプロトコルは、ＬＴＲフレームに依存して暗黙基準フレームを導出するのだが、ＬＴＲフレームは復号器によって確認されており、構築プロセスが開始される前であっても、符号化器はそれが有効であることを知っている。そのような実施形態は、構築プロセスが、復号器には存在しないことがある基準フレームに依存することがある図８の実施形態に比べて、信頼性が高い。

[56]図８および９のプロトコルによれば、暗黙基準フレームが作成された時点で、それらに対して識別子が割り当てられてもよく、それらの識別子は、暗黙基準フレームが予測のソースとして用いられていれる場合を示すため、他のフレームの符号化および復号の間に用いられてもよい。新たな暗黙基準フレームにはそれぞれ、一意の識別子が割り当てられてもよい。従って、符号化器が、符号化されることになる新たなソースフレームの予測ソースとして暗黙基準フレームを用いる場合、新たなソースフレームの符号化された動画像データは、暗黙基準フレームの識別子を含んでいてもよい。復号した時点で、復号器は、新たなソースフレームの符号化された動画像データを解析し、その識別子を用いて、予測の目的で暗黙基準フレームのデータを取り出してもよい。さらに、復号器が、識別子に対応する暗黙基準フレームを自分は記憶していないと判定した場合、復号器は、符号化器に対してエラーを示してもよく、それによって符号化器と復号器とが、動作を再度同期させてもよい。

[57]一実施形態では、符号化器は、復号器から確認応答メッセージ９８０を受信する前であっても、暗黙基準フレームに関する動画像符号化を開始してもよい（ブロック１０００）。そのような一実施形態には、コマンドメッセージ９６０を送信した時点ですぐに符号化器が暗黙基準フレームを利用しうるという利点がある。そのような実施形態では、復号器が受信する前にコマンドメッセージが失われかねない送信エラーを防ぐため、符号化器は、タイムアウトメカニズム（図示せず）を採用してもよい。符号化器が、コマンドメッセージ９６０を送信してから所定の時間内に確認応答メッセージ９８０を受信できなかった場合、符号化器は、暗黙基準フレームをその後の符号化における利用に適さないとみなしてもよい。また、符号化器は、暗黙基準フレームがまだ確認応答されていないＬＴＲフレームから構築されうる第１のモードと、暗黙基準フレームがすでに確認応答されたＬＴＲ基準フレームから通信チャネルの検出状態に基づいて構築されることに限られる第２のモードとの間でトグルしてもよい。モードの選択は、例えば、パケット損失率、信号対雑音比、チャネル帯域幅、またはその他のチャネル条件の兆候に基づいて行なわれてもよい。

[58]別の実施形態では、暗黙基準フレームが、他の暗黙基準フレームの導出中に用いられてもよい。従って、符号化器および／または復号器は、基準フレーム、ＬＴＲフレーム、および暗黙基準フレームを、新たな暗黙基準フレームの導出のためのソースとして用いてもよい。

[59]上述のように、符号化エンジン２２０．１、２２０．２および復号エンジン２６０．１、２６０．２は、例えばＩＴＵＨ．２６３またはＨ．２６４のような所定の符号化プロトコルによって定められる符号化動作を行ってもよい。そのような符号化プロトコルは、本明細書で上述したコマンドおよび確認応答メッセージ９６０、９８０を規定していないが、プロトコルは、そのようなメッセージを提供するように修正されてもよい。従って、符号化エンジン２２０．１、２２０．２とそのような符号化器の復号エンジン２６０．１、２６０．２との間に行われる交換として、コマンドおよび確認応答プロトコルを含めることは許容される。

[60]本発明は、図８および図９のコマンド／確認応答プロトコルが統合されて標準化された符号化プロトコルになることを予測するが、本発明はそのような実施形態に限定されない。図１０は、動画像符号化器１１００および復号器１２００が、コマンド／確認応答プロトコルを直接提供するのではないプロトコルに従って動作する、別の実施形態による動画像符号化システムの簡略化したブロック図である。動画像符号化器１１００および復号器１２００は、１対の符号化／復号パスを有していてもよく、すなわち、標準プロトコルに対応していて、「帯域内（ｉｎｂａｎｄ）」チャネル（ＩＢＣＨ）と呼ばれる第１の通信リンクに従ってデータを交換する第１のパスと、暗黙基準フレームがその中で交換されうる、標準外プロトコルに対応する第２のパスとである。第２のパスは、「帯域外（ｏｕｔｏｆｂａｎｄ）」チャネル（ＯＢＣＨ）と呼ばれる、符号化器１１００と復号器１２００との間の第２の通信リンク内でデータを交換してもよい。図１０に示す動画像符号化器１１００および復号器１２００は、動画像データが第１の端末で取り込まれて符号化され、次いで、第２の端末で復号されて表示されるのを可能にする。図１０には示していないが、システムは、動画像データが第２の端末で取り込まれて符号化され、次いで、第１の端末で復号されて表示されるのを可能にするための、動画像符号化器と復号器の第２の対を含んでいてもよい。

[61]符号化器１１００は、プリプロセッサ１１１０と、マルチプレクサ１１２０と、それぞれの符号化パスを表す１対の符号化システム１１３０、１１４０とを含んでいてもよい。第１の符号化システム１１３０は、例えばＨ．２６３またはＨ．２６４のような標準の符号化プロトコルに従って動作してもよい。これは、プロトコルによって定義される手順およびシンタックスに従って符号化された動画像データを生成する、符号化エンジン１１５０および基準ピクチャキャッシュ１１６０を含んでいてもよい。また、第２の符号化システム１１４０は、符号化エンジン１１７０および（「暗黙基準ピクチャキャッシュ」と呼ばれる）基準ピクチャキャッシュ１１８０を含んでいてもよい。第２の符号化システム１１４０は、標準の符号化システム１１３０のプロトコルの中で指定されたのと同じ、予測的な多くの符号化技術に従って入力データを符号化してもよいが、上述のように、予測は、暗黙基準フレームを参照して行われてもよい。従って、第２の符号化システム１１４０から出力された符号化された動画像データは、暗黙基準フレームを基準としてサポートするシンタックスに適合してもよい。符号化器１１００は、さらに、その動作を管理する制御器１１９０を備えていてもよい。

[62]動作中、符号化器１１００が、入力された動画像データを符号化する時、制御器１１９０は、動画像データの中の背景要素を識別して暗黙基準フレームの作成をトリガするために、符号化された動画像データを処理してもよい。制御器１１９０は、符号化器１１００に、図８または９の方法を行わせてもよい。図１０の実施形態では、標準外の符号化器１１４０は、標準の符号化器１１３０によって記憶されている基準フレームから暗黙基準フレームを生成してもよい。制御器１１９０は、自分自身のピクチャ分析器を備えていてもよいが、このユニットは、図１０では別個に示していない。暗黙基準キャッシュ１１８０に自分自身の基準フレームデータが投入されると、新たな入力動画像データが、標準の符号化器１１３０または標準外の符号化器１１４０によって符号化されてもよい。制御器１１９０は、符号化エンジン１１５０、１１７０と共に、どの符号化器１１３０、１１４０が、入力フレームにとって最良の符号化の機会を提供するかを判定してもよい。どの符号化器１１３０、１１４０が「最良」であるかを選択する際に、符号化器は、典型的には、例えば符号化効率、エラー復元力等のような、ローカルに実行する符号化ポリシーによって動かされる因子を考慮する。新たな入力フレームについて符号化器１１３０、１１４０を選択すると、制御器１１９０は、選択された符号化器（例えば、符号化器１１４０）にフレームの符号化を行わせ、フレームの符号化された動画像データをその各々のチャネル（ＯＢＣＨ）を介して出力させてもよい。制御器１１９０は、符号化動作を反復して、入力動画像シーケンスが尽きるまで、新たな暗黙基準フレームの作成をトリガしてもよい。

[63]図１０には、符号化エンジン１１５０、１１７０を個別のユニットとして示しているが、それらは、あらゆる場合に完全に独立している必要はない。上述のように、符号化エンジン１１５０、１１７０は、入力データに対して共通の符号化動作を行ってもよい。それらは、単純に、別のタイプの基準フレーム、すなわち、標準に適合する基準フレームと暗黙基準フレームとを、予測の目的で用いているにすぎない。従って、図１０の符号化器が消費者デバイスの中に実装される場合、符号化エンジン１１５０、１１７０は、標準に適合する符号化エンジンとしてかまたは暗黙基準フレームに関して動作する符号化エンジンかのいずれかとして、異なった符号化モードで実行される共通の機能ユニットとして提供されてもよい。そのような実装においては、符号化器１１００は、符号化された動画像データを共通の符号化エンジンから帯域内チャネルまたは帯域外チャネルへ適切となるように経路指定するような追加のシステム（図示せず）を含んでいてもよい。

[64]また、図１０は、本実施形態による動画像復号器１２００を示す。動画像復号器１２００は、符号化器１１００によって行われる符号化動作を逆にする復号動作を行ってもよく、従って、符号化器１１００のアーキテクチャと対をなすアーキテクチャを含んでいてもよい。動画像復号器１２００は、帯域内チャネル上で受信される符号化された動画像データを受信して復号する、標準の復号器１２１０を含んでいてもよい。また、動画像復号器１２００は、帯域外チャネル上で受信される符号化された動画像データを受信して復号する、標準外の復号器１２２０を含んでいてもよい。各復号器１２１０、１２２０は、それぞれの復号エンジン１２３０、１２４０と、基準ピクチャキャッシュ１２５０、１２６０とを含んでいてもよい。また、動画像復号器１２００は、さらに、復号された動画像データを共通の出力された動画像シーケンスに結合するためのデマルチプレクサ１２７０と、ポストプロセッサ１２８０と、制御器１２９０とを含んでいてもよい。

[65]復号器１２１０、１２２０はそれぞれ、対をなす符号化器１１３０、１１４０によって符号化器１１００で行われる符号化動作を逆にしてもよい。従って、帯域内チャネルＩＢＣＨを介して受信された符号化された動画像データは、基準ピクチャキャッシュ１２５０の中に記憶された予測データを用いて、復号エンジン１２３０によって復号されてもよい。また、帯域外チャネルＯＢＣＨを介して受信された符号化された動画像データは、暗黙基準ピクチャキャッシュ１２６０の中に記憶された予測データを用いて、復号エンジン１２４０によって復号されてもよい。符号化器１１００の場合と同様に、復号エンジン１２３０、１２４０を、独立したユニットとして示しているが、それらは、そういうものとして導入される必要はない。復号エンジン１２３０、１２４０は、それらへの符号化された動画像データ入力に対して共通の符号化動作を行ってもよいが、それらは、標準に適合する基準フレームと暗黙基準フレームという異なるタイプの基準フレームを、予測の目的で使用する。従って、図１０の復号器１２００は、消費者デバイスの中に実装され、復号エンジン１２３０、１２４０は、標準に適合する符号化エンジンとしてかまたは暗黙基準フレームに関して動作する符号化エンジンとしてかのいずれかで動作するために異なる符号化モードの中で実行される共通の機能ユニットとして提供されてもよい。

[66]制御器１２９０は、復号器１２００の動作を管理してもよい。制御器１２９０は、標準外の復号器１２２０に、帯域外チャネルを介して受信されたコマンドに応じて暗黙基準フレームを生成させてもよい。制御器１２９０は、図８または図９の復号器内の方法の動作を管理して、復号器１２００に、確認応答メッセージを符号化器１１００へ返信させてもよい。

[67]本発明の原理は、各種のリアルタイム動画像符号化アプリケーションやネットワーキング実装に応用される。図２および図１０の符号化／復号システムは、暗黙基準フレームが端末デバイスで構築される実装を示しているが、その他の実装も許容される。例えば、図１に点線で示すように、暗黙基準フレームを用いて、マルチポイント会議ユニット（ＭＣＵ）１３０がネットワーク内で提供されてもよい。ＭＣＵは、複数の端末が共通のテレビ会議に参加しているような参加者多数のテレビ会議サービスをサポートするのに一般に用いられる。テレビ会議の間、各端末は、端末の位置でローカルに取り込んだ動画像データを符号化して、それをＭＣＵ１３０に送信してもよい。ＭＣＵ１３０は、送信された動画像データを復号し、送信されたデータを統合して他の各端末用の動画像シーケンスを作成してもよい。例えば、ＭＣＵは、端末２および３からの復号された動画像データを統合して、動画像シーケンス（場合によっては、分割画面表現または「話者について行く」表現）を作成し、それが符号化されて端末１へ配信されてもよい。同時に、ＭＣＵ１３０は、端末１および端末３からの復号された動画像データを統合して符号化し、端末２へ配信してもよい。このようにして、ＭＣＵ１３０は、各端末が（各端末からＭＣＵ１３０への）ポイント・ツー・ポイント通信に関与できるようにするけれども、符号化された動画像コンテンツを、テレビ会議に参加している他の各端末との間で送受信できるようにする仲介者として動作する。

[68]そのような実施形態では、ＭＣＵ１３０は、テレビ会議に参加している端末のために暗黙基準フレームを利用してもよい。端末１１０．２が、暗黙基準フレームをサポートする場合、ＭＣＵ１３０と端末１１０．２との間の通信は、図８または図９に示すように進行する可能性がある。また、端末１１０．２との間の通信は、たとえ別の端末（例えば端末１１０．３）が暗黙基準フレームをサポートしないとしても、このように進行してもよい。

[69]言うまでもなく、ＭＣＵ１３０は、すべての参加者多数のテレビ会議アプリケーションに参加する必要はない。一部の実施形態では、参加者多数のテレビ会議は、仲介者ぬきで端末１１０．１と１１０．３との間で直接サポートされてもよい。そのような一実施形態では、図２または図１０に示すように、端末は、対を成す符号化器と復号器とを確立してもよい。対を成す符号化器／復号器は、端末間のすべての対の関係について確立されてもよい。従って、端末１１０．１が、端末１１０．２および１１０．３との同時通信を含む、参加者多数のテレビ会議に参加している場合、端末１１０．１は、端末１１０．２との間で第１の対の関係を、そして、端末１１０．３との間で第２の対の関係を確立してもよい。この例では、図２または図１０のアーキテクチャと同様のアーキテクチャが、端末１１０．１が属している対の関係のそれぞれについて構築されてもよい。そして、言うまでもなく、端末１１０．１は、そのような暗黙基準フレームをサポートする第１の端末（例えば端末１１０．２）と端末１１０．１が対になる場合には、たとえ別の端末１１０．３が暗黙基準フレームをサポートしなくても、暗黙基準フレームを利用してもよい。

[70]前述の議論は、本発明の各種の実施形態によって構築された動画像符号化システムにおいて用いられうる機能ブロックを特定している。実際には、これらのシステムは、例えば、内蔵のビデオカメラを備えた移動デバイス（例えば、カメラが使用可能な電話、エンタテインメントシステム、コンピュータ）、および／または、有線通信システム、例えばテレビ会議機器やカメラが使用可能なデスクトップコンピュータのような、各種のデバイスに適用することができる。一部の応用例では、本明細書で上述した機能ブロックは、一体化されたソフトウェアシステムの要素として提供されてもよく、その場合、各ブロックは、コンピュータプログラムの個々の要素として提供されてもよい。別の応用例では、機能ブロックは、例えば、デジタルシグナルプロセッサまたは特定用途向け集積回路の中の機能ユニットのような、処理システムのうちの個別の回路部品として提供されてもよい。本発明の他の応用例として、専用のハードウェア部品とソフトウェア部品とのハイブリッドシステムが実施されてもよい。また、本明細書に記述した機能ブロックは、別個のユニットとして提供される必要はない。例えば、図２および図１０では、動画像符号化器および復号器の構成要素を別個のユニットとして示しているが、１つ以上の実施形態では、それらの一部または全部が統合されてもよく、それらが別個のユニットである必要はない。そのような実装の詳細は、特に断りがない限り、本発明の動作には無関係である。

[71]さらに、本明細書で示す図面は、本発明の主題を提示するのに必要な程度の詳細に限って提供している。実際には、動画像符号化器および復号器は、典型的には、本明細書に記述したもの以外にも機能ユニットを含むであろうし、それには、図示する符号化経路全体に渡ってデータを記憶するためのバッファや、通信ネットワークとの通信を管理するための通信トランシーバや、対となる符号化器／復号器デバイスなどが含まれるであろう。分かりやすくするため、そのような要素は、前述の議論から省いてある。

[72]本明細書では、本発明のいくつかの実施形態について具体的に図示し、および／または、記述している。しかし、理解されるであろうが、本発明の修正形態および変形形態は、上記の教示内容の対象であり、本発明の精神と意図された範囲とから逸脱することなく、添付の請求項の範囲内にある。

Claims

動画像符号化管理方法であって、
複数の基準ピクチャの符号化データを復号するステップであって、当該符号化基準ピクチャデータは符号化器と復号器との間のチャネルで送信されたものである、ステップと、
前記復号された基準ピクチャを基準ピクチャキャッシュに格納するステップと、
複数の前記格納された基準ピクチャから暗黙基準ピクチャを導出するステップと、
前記暗黙基準ピクチャを前記基準ピクチャキャッシュに格納するステップと、
を備えることを特徴とする方法。
前記暗黙基準ピクチャは、前記チャネルを介して送信されることなく導出される
ことを特徴とする請求項１に記載の方法。
暗黙基準ピクチャデータは、前記複数の基準ピクチャの間で検出された共通性のある領域から導出される
ことを特徴とする請求項１に記載の方法。
暗黙基準ピクチャデータは、画像背景に属するものとして識別された、前記複数の基準ピクチャの画素ブロックから導出される
ことを特徴とする請求項１に記載の方法。
各画素ブロックの動きに基づいて、画素ブロックは前記画像背景に属するものとして識別される
ことを特徴とする請求項４に記載の方法。
画素ブロックの動きベクトルと基準ピクチャのグローバルの動きとの比較に基づいて、当該基準フレームの画素ブロックは前記画像背景に属するものとして識別される
ことを特徴とする請求項４に記載の方法。
画素ブロックと空間的に隣接する画素ブロックとの間の相関に基づいて、基準フレームの画素ブロックは前記画像背景に属するものとして識別される
ことを特徴とする請求項４に記載の方法。
前記格納された暗黙基準ピクチャを参照して新たな入力フレームを予測符号化するステップを更に備える
ことを特徴とする請求項１に記載の方法。
前記格納された暗黙基準ピクチャを参照して新たなフレームの符号化された動画像データを復号するステップを更に備える
ことを特徴とする請求項１に記載の方法。
前記符号化された動画像データは、予測の基準として前記暗黙基準フレームの識別子を含む
ことを特徴とする請求項９に記載の方法。
前記方法は符号化器において実行され、
前記基準ピクチャ及び前記暗黙基準ピクチャを格納する前記基準ピクチャキャッシュは、前記符号化器に配置される
ことを特徴とする請求項１に記載の方法。
暗黙基準フレームを導出するように復号器に命令するメッセージを当該復号器へ送信するステップを更に備える
ことを特徴とする請求項１１に記載の方法。
前記メッセージは、前記暗黙基準フレームを導出するのに使用される長期基準フレームを識別する
ことを特徴とする請求項１２に記載の方法。
前記メッセージは、前記暗黙基準フレームを導出するのに使用される基準フレームを識別する
ことを特徴とする請求項１２に記載の方法。
前記メッセージに対する確認応答を前記復号器から受信した後にのみ、前記格納された暗黙基準ピクチャを参照して新たな入力フレームを予測符号化するステップを更に備える
ことを特徴とする請求項１２に記載の方法。
前記方法は復号器において実行され、
前記基準ピクチャ及び前記暗黙基準ピクチャを格納する前記基準ピクチャキャッシュは、前記復号器に配置される
ことを特徴とする請求項１に記載の方法。
前記導出するステップは、符号化器から受信した、暗黙基準フレームを導出するように前記復号器に命令するメッセージに応えて、実行される
ことを特徴とする請求項１６に記載の方法。
前記メッセージは、前記暗黙基準フレームを導出するのに使用される長期基準フレームを識別する
ことを特徴とする請求項１７に記載の方法。
前記メッセージは、前記暗黙基準フレームを導出するのに使用される基準フレームを識別する
ことを特徴とする請求項１７に記載の方法。
前記暗黙基準フレームが導出された後に、前記メッセージに関する確認応答を前記符号化器へ送信するステップを更に備える
ことを特徴とする請求項１２に記載の方法。
動画像符号化方法であって、
動き補償予測技術に従って入力動画像データを符号化するステップと、
基準フレームの符号化データを復号するステップと、
復号された基準ピクチャを基準ピクチャキャッシュに格納するステップと、
複数の復号され格納された基準ピクチャの間で検出された共通性に基づいて、前記複数の復号され格納された基準ピクチャから暗黙基準ピクチャを導出するステップと、
前記暗黙基準ピクチャを前記基準ピクチャキャッシュに格納するステップであって、前記暗黙基準ピクチャは後で受信する入力動画像データの動き補償予測符号化のために使用されるものである、ステップと、
を備えることを特徴とする方法。
前記暗黙基準フレームを参照して新たなソースフレームを予測符号化するステップを更に備える
ことを特徴とする請求項２１に記載の方法。
前記新たなソースフレームに関する符号化動画像データは、前記暗黙基準フレームを予測基準として指定する、前記暗黙基準フレームの識別子を含む
ことを特徴とする請求項２２に記載の方法。
暗黙基準ピクチャデータは、複数の前記基準ピクチャの間で検出された共通性のある領域から導出される
ことを特徴とする請求項２１に記載の方法。
暗黙基準ピクチャデータは、画像背景に属するものとして識別された、前記複数の基準ピクチャの画素ブロックから導出される
ことを特徴とする請求項２１に記載の方法。
各画素ブロックの動きに基づいて、画素ブロックは前記画像背景に属するものとして識別される
ことを特徴とする請求項２５に記載の方法。
画素ブロックの動きベクトルと基準ピクチャのグローバルの動きとの比較に基づいて、当該基準フレームの画素ブロックは前記画像背景に属するものとして識別される
ことを特徴とする請求項２５に記載の方法。
画素ブロックと空間的に隣接する画素ブロックとの間の相関に基づいて、基準フレームの画素ブロックは前記画像背景に属するものとして識別される
ことを特徴とする請求項２５に記載の方法。
暗黙基準フレームを導出するように復号器に命令するメッセージを当該復号器へ送信するステップを更に備える
ことを特徴とする請求項２１に記載の方法。
前記メッセージは、前記暗黙基準フレームを導出するのに使用される長期基準フレームを識別する
ことを特徴とする請求項２９に記載の方法。
前記メッセージは、前記暗黙基準フレームを導出するのに使用される基準フレームを識別する
ことを特徴とする請求項２９に記載の方法。
前記メッセージに対する確認応答を前記復号器から受信した後にのみ、前記格納された暗黙基準ピクチャを参照して新たな入力フレームを予測符号化するステップを更に備える
ことを特徴とする請求項２９に記載の方法。
動画像復号方法であって、
動き補償予測技術に従って符号化動画像データを復号するステップと、
復号された基準ピクチャを基準ピクチャキャッシュに格納するステップと、
複数の格納された基準ピクチャの間で検出された共通性に基づいて、前記複数の格納された基準ピクチャから暗黙基準ピクチャを導出するステップと、
前記暗黙基準ピクチャを前記基準ピクチャキャッシュに格納するステップであって、前記暗黙基準ピクチャは後で受信する入力動画像データの動き補償予測復号のために使用されるものである、ステップと、
を備えることを特徴とする方法。
前記基準チャネルの符号化動画像データはチャネルを介して受信される
ことを特徴とする請求項３３に記載の方法。
暗黙基準ピクチャデータは、前記複数の基準ピクチャの間で検出された共通性のある領域から導出される
ことを特徴とする請求項３３に記載の方法。
暗黙基準ピクチャデータは、画像背景に属するものとして識別された、前記複数の基準ピクチャの画素ブロックから導出される
ことを特徴とする請求項３３に記載の方法。
各画素ブロックの動きに基づいて、画素ブロックは前記画像背景に属するものとして識別される
ことを特徴とする請求項３６に記載の方法。
画素ブロックの動きベクトルと基準ピクチャのグローバルの動きとの比較に基づいて、当該基準フレームの画素ブロックは前記画像背景に属するものとして識別される
ことを特徴とする請求項３６に記載の方法。
画素ブロックと空間的に隣接する画素ブロックとの間の相関に基づいて、基準フレームの画素ブロックは前記画像背景に属するものとして識別される
ことを特徴とする請求項３６に記載の方法。
前記導出するステップは、符号化器から受信した、暗黙基準フレームを導出するように前記復号器に命令するメッセージに応えて、実行される
ことを特徴とする請求項３３に記載の方法。
前記メッセージは、前記暗黙基準フレームを導出するのに使用される長期基準フレームを識別する
ことを特徴とする請求項４０に記載の方法。
前記メッセージは、前記暗黙基準フレームを導出するのに使用される基準フレームを識別する
ことを特徴とする請求項４０に記載の方法。
前記暗黙基準フレームが導出された後に、前記メッセージに関する確認応答を前記符号化器へ送信するステップを更に備える
ことを特徴とする請求項４０に記載の方法。
動画像符号化器であって、
動き補償予測に従って入力動画像データを符号化し、基準ピクチャの符号化動画像データを復号する符号化エンジンと、
復号された基準ピクチャを格納する基準ピクチャキャッシュと、
前記基準ピクチャキャッシュに格納された基準ピクチャから暗黙基準フレームを導出し、前記基準ピクチャキャッシュに暗黙基準フレームを格納するピクチャ分析器と、
を備えることを特徴とする動画像符号化器。
暗黙基準フレームを導出するように復号器に命令するメッセージを当該復号器へ送信する送信機を更に備える
ことを特徴とする請求項４４に記載の動画像符号化器。
前記メッセージは、前記暗黙基準フレームを導出するのに使用される長期基準フレームを識別する
ことを特徴とする請求項４５に記載の動画像符号化器。
前記メッセージは、前記暗黙基準フレームを導出するのに使用される基準フレームを識別する
ことを特徴とする請求項４５に記載の動画像符号化器。
前記メッセージに対する確認応答を前記復号器から受信した後にのみ、前記格納された暗黙基準ピクチャを参照して新たな入力フレームを予測符号化するステップを更に備える
ことを特徴とする請求項４５に記載の動画像符号化器。
前記基準ピクチャキャッシュは、前記暗黙基準フレームの識別子を格納する
ことを特徴とする請求項４４に記載の動画像符号化器。
暗黙基準フレームは、少なくとも１つの他の暗黙基準フレームからも導出される
ことを特徴とする請求項４４に記載の動画像符号化器。
暗黙基準フレームは、少なくとも１つの他の長期基準フレームから導出される
ことを特徴とする請求項４４に記載の動画像符号化器。
動画像復号器であって、
基準ピクチャの符号化動画像データを含む符号化動画像データを、動き補償予測に従って復号する復号エンジンと、
復号された基準ピクチャを格納する基準ピクチャキャッシュと、
前記基準ピクチャキャッシュに格納された基準ピクチャから暗黙基準フレームを導出し、前記基準ピクチャキャッシュに暗黙基準フレームを格納するピクチャ分析器と、
を備えることを特徴とする動画像復号器。
前記ピクチャ分析器は、符号化器から受信したコマンドメッセージに応えて前記暗黙基準ピクチャを導出する
ことを特徴とする請求項５２に記載の動画像復号器。
前記メッセージは、前記暗黙基準フレームを導出するのに使用される長期基準フレームを識別する
ことを特徴とする請求項５３に記載の動画像復号器。
前記メッセージは、前記暗黙基準フレームを導出するのに使用される基準フレームを識別する
ことを特徴とする請求項５３に記載の動画像復号器。
前記暗黙基準フレームが導出された後に、前記メッセージに関する確認応答を前記符号化器へ送信する送信機を更に備える
ことを特徴とする請求項５３に記載の動画像復号器。
前記基準ピクチャキャッシュは、前記暗黙基準フレームの識別子を格納する
ことを特徴とする請求項５２に記載の動画像復号器。
暗黙基準フレームは、少なくとも１つの他の暗黙基準フレームからも導出される
ことを特徴とする請求項５２に記載の動画像復号器。
暗黙基準フレームは、少なくとも１つの他の長期基準フレームから導出される
ことを特徴とする請求項５２に記載の動画像復号器。