JP2013009409A

JP2013009409A - ビデオ符号化方法

Info

Publication number: JP2013009409A
Application number: JP2012182890A
Authority: JP
Inventors: Kerem Caglar; カグラーケレム; Hannuksela Miska; ハンヌクセラミスカ
Original assignee: Core Wiresless Licensing SARL
Current assignee: Conversant Wireless Licensing SARL
Priority date: 2000-08-21
Filing date: 2012-08-22
Publication date: 2013-01-10
Anticipated expiration: 2021-08-21
Also published as: JP5398887B2; FI120125B; JP2013081217A; JP5468670B2; CN1801944B; JP5483774B2; WO2002017644A1; KR100855643B1; CN1478355A; FI20001847A0; CN1801944A; AU2001279873A1; US20020071485A1; EP1314322A1; KR20030027958A; FI20001847A; US20140105286A1; US20060146934A1; JP2004507942A; JP2014131297A

Abstract

【課題】ビットストリームを発生するためにビデオ信号を符号化する方法を提供する。
【解決手段】第１完全フレームを再構成するための、高優先度および低優先度情報に優先順位付けられた情報を含むビット・ストリームの第１部分を形成し、第１完全フレームを符号化するステップと、第１完全フレームの低優先度情報の少なくともいくつかが存在しない場合、第１完全フレームの高優先度情報を使用して構成された第１完全フレームの１つのバージョンに基づき第１仮想フレームを画定するステップと、第２完全フレームの再構成において使用するための情報を含むビットストリームの第２部分を形成して第２完全フレームを符号化し、第２完全フレームを、第１完全フレームおよびビットストリームの第２部分に含まれる情報に基づかず、第１仮想フレームおよびビットストリームの第２部分に含まれる情報に基づき完全に再構成することができるようにするステップとを含む。
【選択図】図１８

Description

本発明は、データ伝送に関し、特に、ビデオなどの画像シーケンスを表すデータの伝送に関連しているが、それに限定されない。本発明は、セルラ電気通信システムのエア・インターフェース上のような、データの誤りおよび損失が起き易いリンク上での伝送に特に適している。

過去数年の間にインターネットを通じて入手できるマルチメディア・コンテンツの量がかなり増加してきている。携帯端末に対するデータ配信レートが、そのような端末がマルチメディア・コンテンツを検索することができるのに十分に高くなっているので、インターネットからのそのような検索を提供することが待望されている。高速データ配信システムの一例は、計画されているＧＳＭフェーズ２＋の汎用パケット無線サービス（ＧＰＲＳ）である。
本明細書で使用されているマルチメディアという用語は音声および画像の両方、音声のみ、および画像のみを含む。音声は発話および音楽を含む。

インターネットにおいては、マルチメディア・コンテンツの伝送はパケットベースである。インターネットを通してのネットワーク・トラヒックは、インターネット・プロトコル（ＩＰ）と呼ばれる転送プロトコルに基づいている。ＩＰは、１つの場所から別の場所へのデータ・パケットの転送に関係している。このプロトコルによって中間ゲートウェイを通してのパケットのルーティングが容易になる。すなわち、それによって同じ物理ネットワーク内で直接には接続されていないマシン（すなわち、ルータ）にデータを送信することができる。ＩＰ層によって転送されるデータのユニットは、ＩＰデータグラムと呼ばれる。ＩＰによって提供される配信サービスはコネクションレスである。すなわち、ＩＰデータグラムは互いに無関係にインターネット上で転送される。任意の特定の接続に対してゲートウェイ内でリソースが永久的に拘束されないので、ゲートウェイはバッファ空間または他のリソースが不足していることのためにデータグラムを捨てなければならない場合があり得る。それ故、ＩＰによって提供される配信サービスは保証されたサービスというよりはむしろ最善の努力のサービスである。

インターネットのマルチメディアは、通常、ユーザ・データグラム・プロトコル（ＵＤＰ）、転送制御プロトコル（ＴＣＰ）またはハイパーテキスト転送プロトコル（ＨＴＴＰ）を使用してストリーム化される。ＵＤＰはデータグラムが受信されたことをチェックせず、欠落したデータグラムを再送信せず、また、データグラムが送信されたのと同じ順序で受信されることを保証しない。ＵＤＰはコネクションレスである。ＴＣＰは、データグラムが受信されたことをチェックし、欠落したデータグラムを再送信する。ＴＣＰは、また、データグラムが送信されたのと同じ順序で受信されることを保証する。ＴＣＰは接続指向型である。

十分な品質のマルチメディア・コンテンツが確実に配信されるようにするために、ＴＣＰのような信頼性の高いネットワーク接続上で提供されるようにし、受信したデータが誤りのないものであって正しい順序で確実に受信されるようにすることができる。喪失したか、あるいは劣化しているプロトコル・データ・ユニットは再送信される。
場合によっては、喪失したデータの再送信が転送プロトコルによって処理されず、ある高レベルのプロトコルによって処理される場合がある。そのようなプロトコルは、マルチメディア・ストリームのうちの最も重要な喪失した部分を選択し、それらの再送信を要求することができる。たとえば、その最も重要な部分をそのストリームの他の部分の予測のために使用することができる。

マルチメディア・コンテンツは、通常、ビデオを含む。効率よく送信されるようにするために、ビデオは圧縮されることが多い。したがって、ビデオ伝送システムにおいて重要なパラメータは圧縮効率である。もう１つの重要なパラメータは、伝送誤りに対する許容度である。これらのパラメータのいずれかにおける改善は他のパラメータに悪い影響を及ぼす傾向があり、したがって、ビデオ伝送システムは、この２つが適当にバランスしている必要がある。

図１は、ビデオ伝送システムを示す。このシステムは、圧縮されていないビデオ信号を所望のビットレートに圧縮し、それにより、符号化されて圧縮されたビデオ信号を発生するソース・コーダと、符号化されて圧縮されたビデオ信号を復号して圧縮されていないビデオ信号に再構成するソース・デコーダを含む。ソース・コーダは、波形コーダとエントロピー・コーダとを含む。波形コーダは喪失し易いビデオ信号の圧縮を実行し、エントロピー・コーダは、その波形コーダの出力をバイナリ・シーケンスに損失なしに変換する。そのバイナリ・シーケンスがソース・コーダからトランスポート・コーダへ送られ、トランスポート・コーダは、圧縮されたビデオを適当な転送プロトコルに従ってカプセル化し、次に、それを、トランスポート・デコーダおよびソース・デコーダを備えている受信機に送信する。データは、伝送チャネル上でトランスポート・デコーダにトランスポート・コーダによって送信される。また、トランスポート・コーダは、他の方法で圧縮されたビデオを操作することもできる。たとえば、データをインターリーブして変調することができる。トランスポート・デコーダによって受信した後、そのデータはソース・デコーダに渡される。ソース・デコーダは、波形デコーダとエントロピー・デコーダとを備える。トランスポート・デコーダおよびソース・デコーダは、逆の操作を実行して表示のために再構成されたビデオ信号を得る。また、受信機は送信機にフィードバックを供給することもできる。たとえば、受信機は、正しく受信された伝送データ・ユニットのレートを知らせることができる。

ビデオ・シーケンスは、一連の静止画像から構成されている。ビデオ・シーケンスはその冗長な部分および視覚的に無関係な部分を減らすことによって圧縮される。ビデオ・シーケンスにおける冗長性は、空間的、時間的、およびスペクトル的な冗長性として分類することができる。空間的冗長性は同じ画像内の隣接しているピクセル間の相関を指す。時間的冗長性は、前の画像の中に現れているオブジェクトが現在の画像の中に現れる可能性があることを指す。スペクトル的冗長性は画像の異なるカラー成分間の相関を指す。

時間的冗長性は、現在の画像と前の画像（参照画像またはアンカー画像と呼ばれる）との間の相対的な動きを記述する動き補正データを生成することによって減らすことができる。実効的に、現在の画像は前の画像からの予測として形成され、これが実行される技法は、一般に、動き補償型予測または動き補償と呼ばれる。１つの画像を別の画像から予測することの他に、１つの画像内の部分または領域をその画像内の他の部分または領域から予測することができる。

ビデオ・シーケンスの冗長性を減らすことだけでは十分なレベルの圧縮は通常は得られない。したがって、ビデオ・エンコーダは、また、本質的にはあまり重要でないビデオ・シーケンスの部分の品質を犠牲にしようとする。さらに、符号化されたビデオ・ストリームの冗長性は、圧縮パラメータおよび係数の効率的な無損失符号化によって減らされる。その主な技法は可変長符号を使用する方法である。

ビデオ圧縮方法は、通常、時間的冗長性削減を利用するかどうか（すなわち、それらが予測されるかどうか）に基づいて画像を区別する。図２について説明すると、時間的冗長性削減方法を利用しない圧縮画像は、通常、ＩＮＴＲＡまたはＩフレームと呼ばれる。ＩＮＴＲＡフレームは空間的および時間的に伝搬することによるパケット喪失の効果を防止するためにしばしば導入される。同報通信の場合、ＩＮＴＲＡフレームによって新しい受信機がストリームの復号を開始することができる。すなわち、「アクセス・ポイント」を提供する。ビデオ符号化システムは、通常、ｎ秒ごとまたはｎフレームごとに周期的にＩＮＴＲＡフレームを挿入することができる。また、画像内容が大きく変化し、前の画像からの時間的予測が成功する可能性が低いか、あるいは圧縮効率の面で望ましい場合に、自然のシーン・カットにおいてＩＮＴＲＡフレームを利用するのも有利である。

時間的冗長性削減方法を利用する圧縮画像は、通常、ＩＮＴＥＲフレームまたはＰフレームと呼ばれる。動き補償を採用しているＩＮＴＥＲフレームは、十分に正確な画像の再構成ができるほど正確ではないので、空間的に圧縮された予測誤差画像も各ＩＮＴＥＲフレームに関連付けられている。これは現在のフレームとその予測との間の差を表す。

多くのビデオ圧縮方式は、また、時間的に双方向に予測したフレームも導入する。それは、一般に、Ｂ画像またはＢフレームと呼ばれている。Ｂフレームは、アンカー（ＩまたはＰ）フレーム・ペア間に挿入され、図２に示されているように、アンカー・フレームの１つまたは両方のいずれかから予測される。Ｂフレームは、それ自身ではアンカー・フレームとしては使用されない。すなわち、他のフレームはそれらから決して予測されることはなく、画像の表示レートを増加させることにより認識される画像の品質を向上させるためだけに使用される。それら自身がアンカー・フレームとして使用されることは決してないので、それらをそれ以降のフレームの復号に影響することなしに落とすことができる。これによって、ビデオ・シーケンスを伝送ネットワークの帯域幅の制約に従って、あるいは異なるデコーダ機能による異なるレートで復号することができる。

ＩＮＴＲＡフレームから予測された時間的に予測された（ＰまたはＢ）画像シーケンスが後に続くＩＮＴＲＡフレームを説明するために画像のグループ（ＧＯＰ）という用語が使用される。
種々の国際ビデオ符号化規格が開発されている。一般に、これらの規格は、圧縮されたビデオ・シーケンスを表すために使用されるビット・ストリームのシンタックスを定義し、そのビット・ストリームが復号される方法を定義する。１つのそのような規格Ｈ．２６３は、国際電気通信連合（ＩＴＵ）によって開発された推奨規格である。現在、２つのバージョンのＨ．２６３がある。バージョン１は、１つのコア・アルゴリズムおよび４つの任意の符号化モードから構成されている。Ｈ．２６３バージョン２は、１２のネゴシエート可能な符号化モードを提供するバージョン１の拡張版である。現在開発中のＨ．２６３バージョン３は、２つの新しい符号化モードおよび一組の追加の補助的エンハンスメント情報の符号ポイントを含むことが意図されている。

Ｈ．２６３によれば、画像は、輝度成分（Ｙ）および２つの色差（クロミナンス）成分（Ｃ_ＢおよびＣ_Ｒ）として符号化される。クロミナンス成分は、輝度成分と比較して両方の座標軸に沿って半分の空間分解能にサンプルされる。輝度データおよび空間的に部分サンプルされたクロミナンス・データがマクロブロック（ＭＢ）にアセンブルされる。通常、１つのマクロブロックは、１６×１６ピクセルの輝度データおよび空間的に対応している８×８ピクセルのクロミナンス・データを含む。
符号化された各画像は対応している符号化されたビット・ストリームと同様に、４つの層を備えた階層構造に配列され、４つの層は、トップからボトムへ、画像層、画像セグメント層、マクロブロック（ＭＢ）層およびブロック層である。画像セグメント層は、ブロック層またはスライス層のグループのいずれであってもよい。

画像層データは、画像の領域全体および画像データの復号に影響するパラメータを含む。画像層データはいわゆる画像ヘッダ内に配置されている。
デフォルトによって、各画像はブロックのグループに分割される。ブロックのグループ（ＧＯＢ）は、通常、１６個のシーケンシャル・ピクセル・ラインを含む。各ＧＯＢに対するデータは、任意のＧＯＢヘッダと、その後に続くマクロブロックに対するデータとを含む。

任意のスライス構造モードが使用される場合、各画像はＧＯＢの代わりにスライスに分割される。各スライスに対するデータは、スライス・ヘッダとその後に続くマクロブロックに対するデータとを含む。
スライスは、符号化された画像内の領域を画定する。通常、その領域は、通常の走査順のいくつかのマクロブロックである。同じ符号化された画像内のスライス境界にまたがる予測依存性はない。しかし、時間的予測は、一般に、Ｈ．２６３の付属書類Ｒ（独立セグメント・デコーディング）が使用されていない限り、スライス境界にまたがる可能性がある。スライスは、画像データの他の部分（画像ヘッダを除く）から独立に復号することができる。結果として、スライス構造型モードを使用することによってパケットが喪失し易いネットワーク、いわゆるパケット喪失の多いパケットベースのネットワークにおいて誤りに対する許容力を改善することができる。

画像、ＧＯＢおよびスライス・ヘッダは同期化符号から開始される。他の符号語または符号語の有効な組合せが同期化符号と同じビット・パターンを形成する可能性はない。それ故、同期化符号を使用してビット・ストリームの誤り検出およびビット誤り後の再同期化を行うことができる。ビット・ストリームに対して同期化符号が多く使用されるほど、誤りに強い符号化となる。

各ＧＯＢまたはスライスはマクロブロックに分割される。すでに説明したように、マクロブロックは１６×１６ピクセルの輝度データと、空間的に対応している８×８ピクセルのクロミナンス・データを含む。すなわち、１つのＭＢは、４つの８×８ブロックの輝度データと、空間的に対応している２つの８×８ブロックのクロミナンス・データとを含む。
１つのブロックは、８×８ピクセルの輝度またはクロミナンスのデータを含む。ブロック層のデータは一様に量子化された離散コサイン変換係数から構成され、それらはジグザグの順序で走査され、ランレングス・エンコーダによって処理され、ＩＴＵ−Ｔ勧告Ｈ．２６３の中で詳細に説明するように、可変長符号で符号化される。

符号化されたビット・ストリームの１つの有用な性質はスケーラビリティである。以下において、ビットレート・スケーラビリティが説明される。ビットレート・スケーラビリティという用語は、圧縮されたシーケンスが異なるデータ・レートで復号される機能を指す。ビットレート・スケーラビリティを持つように符号化された圧縮シーケンスは、帯域幅が異なるチャネル上でストリーム化することができ、異なる受信端末においてリアルタイムで復号および再生することができる。

スケーラブル・マルチメディアは、通常、データの階層的層の中に順序付けられる。ベース層は、ビデオ・シーケンスのようなマルチメディア・データの個々の表現を含み、エンハンスメント層はベース層に追加して使用することができるリファインメント・データを含んでいる。エンハンスメント層がベース層に追加されるたびに、マルチメディア・クリップの品質は漸進的に改善される。スケーラビリティは多くの種々の形式を取ることができる。それらは、時間的スケーラビリティ、信号対雑音比（ＳＮＲ）スケーラビリティおよび空間的スケーラビリティを含むが、これらに限定されない。それらは以下に詳細に説明する。

スケーラビリティは、セルラ通信ネットワークにおけるインターネットおよび無線チャネルのような不均一な誤りを生じ易い環境に対して望ましい性質である。この性質は、ビットレート、表示分解能、ネットワークのスループットおよびデコーダの複雑性における制約などの制限に対抗するために望ましい。

マルチポイントおよび同報通信などのマルチメディア用途においては、ネットワークのスループットにおける制約は符号化の時点では予見されない。それ故、スケーラブル・ビット・ストリームを形成するようにマルチメディア・コンテンツを符号化することが有利である。図３に、ＩＰマルチキャスティングにおいて使用されているスケーラブル・ビット・ストリームの一例を示す。各ルータ（Ｒ１〜Ｒ３）は、ビット・ストリームをその機能に従って取り除くことができる。この例においては、サーバＳは、少なくとも３つのビットレート、すなわち、１２０ｋｂｉｔ／ｓ、６０ｋｂｉｔ／ｓ、および２８ｋｂｉｔ／ｓにスケールすることができるマルチメディア・クリップを有している。ビット・ストリームのできるだけ少ない数のコピーがネットワークで生成されるように、同じビット・ストリームが複数のクライアントに対して同時に配信されるマルチキャスト伝送の場合、１つのビットレート・スケーラブル・ビット・ストリームを送信することがネットワークの帯域幅の観点から有利である。

シーケンスがダウンロードされてそれぞれ処理能力が異なる種々の装置において再生される場合、ビット・ストリームの一部分だけを復号することによってビデオ・シーケンスのより低い品質の表示を供給するように処理能力の比較的低い装置においてビットレートのスケーラビリティを使用することができる。処理能力の高い装置は、完全な品質でそのシーケンスを復号して再生することができる。さらに、ビットレート・スケーラビリティは、ビデオ・シーケンスのより低い品質の表示を復号するために必要な処理能力が、完全な品質のシーケンスを復号するときよりも低いことを意味する。これは計算的スケーラビリティの１つの形式とみなすことができる。

ビデオ・シーケンスがストリーミング・サーバに予め格納されていて、そのサーバが、たとえば、ネットワークでの混雑を避けるためにビット・ストリームとして送信されるビットレートを一時的に減らす必要がある場合、そのサーバが使用可能なビット・ストリームを依然として送信しながら、ビット・ストリームのビットレートを減らすことができる場合に有利である。これは、通常、ビットレート・スケーラブル符号化を使用して実現される。

スケーラビリティは、また、層型の符号化がトランスポートの優先順位付けと組み合わされているトランスポート・システムにおける誤りに対する許容力を改善するためにも使用することができる。トランスポートの優先順位付けという用語は、トランスポートにおける異なる品質のサービスを提供するメカニズムを記述するために使用される。これらは種々のチャネル誤り／喪失レートを提供する不等誤差防止、および異なる遅延／喪失の条件をサポートするための種々の優先順位の割当てを含む。たとえば、スケーラブルに符号化されたビット・ストリームのベース層を、高度な誤差防止の伝送チャネルを通して配信し、一方、エンハンスメント層をより誤りの生じ易いチャネルにおいて送信することができる。

スケーラブル・マルチメディア符号化に伴う１つの問題点は、非スケーラブル符号化の場合より圧縮効率が悪くなることである。高品質のスケーラブル・ビデオ・シーケンスは、一般に、対応している品質の非スケーラブル単層ビデオ・シーケンスより多くの帯域幅を必要とする。しかし、この一般的な規則に対する例外が存在する。たとえば、Ｂフレームはそれ以降の符号化された画像の品質に悪影響を及ぼすことなしに、圧縮されたビデオ・シーケンスからＢフレームをドロップさせることができるので、それらは時間的スケーラビリティの１つの形式を提供しているとみなすことができる。すなわち、たとえば、ＰフレームとＢフレームとを交互に含んでいる時間的に予測された画像シーケンスを形成するように圧縮されたビデオ・シーケンスのビットレートを、そのＢフレームを取り除くことによって減らすことができる。これは圧縮されたシーケンスのフレーム・レートを減らす効果を有する。したがって、時間的スケーラビリティという用語で呼ばれる。多くの場合、Ｂフレームを使用することによって、特に高いフレーム・レートにおける符号化効率を改善することができ、したがって、Ｐフレームに加えてＢフレームを含んでいる圧縮されたビデオ・シーケンスは、等価な品質の符号化されたＰフレームだけを使用したシーケンスより高い圧縮効率を示す可能性がある。しかし、Ｂフレームによって提供された圧縮性能における改善は、計算がより複雑になり、メモリをより多く必要とするという犠牲において達成される。また、追加的な遅延も導入される。

図４に、信号対雑音比（ＳＮＲ）のスケーラビリティを示す。ＳＮＲのスケーラビリティはマルチレート・ビット・ストリームの生成を含む。それによって元の画像とその再構成画像との間の符号化の誤差、あるいは差を回復することができる。これはエンハンスメント層において差分画像を符号化するためにより細かい量子化を使用することによって実現される。この追加の情報によって総合的な再生画像のＳＮＲが向上する。

空間的スケーラビリティによって、種々の表示要件／制約に適合するマルチ分解能ビット・ストリームを生成することができる。図５に、空間的にスケーラブルな構造を示す。それはＳＮＲスケーラビリティによって使用されたのと類似のものである。空間的スケーラビリティにおいては、基準層であるエンハンスメント層によって基準として使用される再構成された層のアップサンプルされたバージョンと元の画像のより高い分解能のバージョンとの間の符号化損失を回復するために使用される。たとえば、基準層の分解能が、４分の１共通中間フォーマット（ＱＣＩＦ）である場合は、１７６×１４４ピクセルであり、エンハンスメント層の分解能が共通中間フォーマット（ＣＩＦ）の３５２×２８８ピクセルである場合、基準層の画像を、エンハンスメント層の画像がそれから適切に予測できるように、それに従ってスケールしなければならない。Ｈ．２６３によれば、分解能は垂直方向のみ、水平方向のみ、あるいは１つのエンハンスメント層に対する垂直および水平方向の両方において２倍だけ増加する。複数のエンハンスメント層があり、それぞれが前の層の分解能より画像分解能を増加させるようにすることができる。基準層の画像をアップサンプルするために使用される補間フィルタが、Ｈ．２６３において明示的に定義されている。基準層からエンハンスメント層へのアップサンプリング・プロセスは別として、空間的にスケールされた画像の処理およびシンタックスはＳＮＲスケール型画像のそれらと同じである。空間的スケーラビリティによって空間的分解能がＳＮＲのスケーラビリティに比べて増加する。

ＳＮＲスケーラビリティまたは空間的スケーラビリティのいずれにおいても、エンハンスメント層の画像はＥＩまたはＥＰ画像と呼ばれる。エンハンスメント層の画像が基準層におけるＩＮＴＲＡ画像から上方向に予測される場合、エンハンスメント層の画像はエンハンスメントＩ（ＥＩ）画像と呼ばれる。基準層の画像の予測が不完全であるときのいくつかのケースにおいては、その画像の静止部分のオーバコーディングがエンハンスメント層において発生する可能性があり、過剰なビットレートが必要となる。この問題を避けるために、順方向の予測がエンハンスメント層において許される。前のエンハンスメント層の画像から順方向に予測した画像または基準層内の予測した画像から上方向に予測した画像は、エンハンスメントＰ（ＥＰ）画像と呼ばれる。上方向および順方向に予測した画像の両方の平均を計算することによって、ＥＰ画像に対する双方向予測オプションが提供される。基準層の画像からのＥＩ画像およびＥＰ画像の上方向予測は、運動ベクトルが不要であることを意味する。ＥＰ画像に対する順方向予測の場合には、運動ベクトルが必要である。

Ｈ．２６３のスケーラビリティ・モード（付属書類Ｏ）は、時間的、ＳＮＲ、および空間的スケーラビリティ機能をサポートするシンタックスを規定している。
従来のＳＮＲスケーラビリティ符号化での１つの問題は、ドリフティングと呼ばれている問題である。ドリフティングとは、伝送誤りの影響を指す。誤りによって生じる目に見えるアーティファクトは、その誤りが発生した画像から時間的にドリフトする。動き補償を使用することによって、目に見えるアーティファクトの領域が画像から画像へと増加する可能性がある。スケーラブル符号化の場合には、目に見えるアーティファクトは、また、下位のエンハンスメント層から上位層へもドリフトする。ドリフティングの影響は図７を参照して説明することができる。図７は、スケーラブル符号化において使用される従来の予測関係を示している。エンハンスメント層内で誤りまたはパケット喪失が発生すると、それは画像のグループ（ＧＯＰ）の終りにまで伝搬する。何故なら、その画像は互いにシーケンスにおいて予測されているからである。さらに、エンハンスメント層はベース層に基づいているので、ベース層内の誤りによってエンハンスメント層内に誤りが生じる。また、予測はエンハンスメント層間でも発生するので、それ以降の予測したフレームの上位層において重大なドリフティングの問題が発生する可能性がある。それ以降で誤りを訂正するためにデータを送信するための十分な帯域幅があっても、デコーダは、その予測チェーンが新しいＧＯＰの開始を表している別のＩＮＴＲＡ画像によって再初期化されるまでその誤りを除去することができない。

この問題に対処するために、細粒度スケーラビリティ（ＦＧＳ）と呼ばれる形式のスケーラビリティが開発されている。ＦＧＳにおいては、低品質のベース層がハイブリッド予測ループを使用して符号化され、（追加の）エンハンスメント層が再構成されたベース層と元のフレームとの間に符号化された残差を漸進的に伝える。ＦＧＳは、たとえば、ＭＰＥＧ４視覚標準化の中で提案されている。

図６に、細粒度スケーラブル符号化における予測関係の一例を示す。細粒度スケーラブル・ビデオ符号化方式においては、ベース層のビデオが誤りまたはパケット喪失を最小化するためによく制御されたチャネル（たとえば、誤差防止の程度が高いチャネル）において送信される。それは最小のチャネル帯域幅に適合するようにベース層が符号化されるように行われる。この最小の帯域幅は、動作中に発生するか、あるいは遭遇する可能性のある最も小さい帯域幅である。予測フレームにおけるすべてのエンハンスメント層は、基準フレーム内のベース層に基づいて符号化される。それ故、１つのフレームのエンハンスメント層における誤りは、それ以降の予測したフレームのエンハンスメント層においてドリフティングの問題を発生させず、符号化方式はチャネルの状態に対して適合させることができる。しかし、予測は常に低い品質のベース層に基づいているので、ＦＧＳ符号化の符号化効率は、Ｈ．２６３の付属書類Ｏにおいて提供されている方式のような従来のＳＮＲスケーラビリティ方式ほどは良くないか、あるいは場合によってはずっと悪い。

ＦＧＳ符号化および従来の層型スケーラビリティ符号化の両方の利点を組み合わせるために、図８に示されているハイブリッド符号化方式が提案され、それは漸進的ＦＧＳ（ＰＦＧＳ）と呼ばれている。留意すべき２つのポイントがある。先ず第一に、ＰＦＧＳにおいては、符号化効率を維持するために同じ層からできるだけ多くの予測が使用される。第二に、予測経路は常に基準フレームにおける下位層からの予測を使用して誤り回復およびチャネル適応を可能にしている。第１のポイントは、所与のビデオ層に対して動きの予測ができるだけ正確であり、それ故、符号化効率を確実に維持することである。第２のポイントは、ドリフティングをチャネルの混雑、パケット喪失またはパケット誤りのケースにおいて確実に削減することである。この符号化構造を使用すれば、エンハンスメント層のデータにおける喪失／誤りパケットを再送信する必要はない。何故なら、エンハンスメント層を数フレーム間にわたって徐々に、自動的に再構成することができるからである。

図８では、フレーム２が、フレーム１の偶数層（すなわち、ベース層および第２の層）から予測されている。フレーム３はフレーム２の奇数層（すなわち、第１および第３の層）から予測されている。順に、フレーム４はフレーム３の偶数層から予測されている。この奇数／偶数の予測パターンが継続する。共通の基準層まで戻って参照する層の数を記述するために、グループ深さという用語が使用される。図８は、グループ深さが２の場合を例示している。グループ深さは変更することができる。深さが１であった場合、その状況は図７に示されている従来のスケーラビリティ方式と本質的には同等である。深さが層の合計数に等しい場合、その方式は、図６に示されているＦＧＳ法と同じになる。それ故、図８に示されている漸進的ＦＧＳ符号化方式は、前の技法の両方の利点、たとえば、符号化効率が高いこと、および誤り回復力が高いことを提供する妥協方式を提供する。

ＰＦＧＳは、インターネット上または無線チャネル上でのビデオ伝送に対して適用されるときに利点を提供する。大きなドリフティングを発生させずにチャネルの利用できる帯域幅に対して符号化されたビット・ストリームを適合させることができる。図９は、ビデオ・シーケンスがベース層および３つのエンハンスメント層を有しているフレームによって表されている状況における漸進的細粒度スケーラビリティによって提供される帯域幅適合特性の一例を示している。太い一点鎖線は、実際に送信されるビデオ層を追跡している。フレーム２において、帯域幅の大幅な減少がある。送信機（サーバ）は、これに対して高位のエンハンスメント層（層２および３）を表しているビットをドロップすることによって反応する。フレーム２の後、帯域幅がある程度増加し、送信機は２つのエンハンスメント層を表している追加のビットを送信することができる。フレーム４が送信される時までに、利用できる帯域幅がさらに増加され、ベース層およびすべてのエンハンスメント層の送信を再び行うための十分な容量が提供される。これらの動作は、ビデオのビット・ストリームの再符号化および再送信をいずれも必要としない。ビデオ・シーケンスの各フレームのすべての層が効率的に符号化され、１つのビット・ストリーム内に埋め込まれている。

上記従来技術のスケーラブル符号化技法は、符号化されたビット・ストリームの１つの解読に基づいている。すなわち、デコーダはその符号化されたビット・ストリームを一度だけ解読し、再構成された画像を発生する。再構成されたＩ画像およびＰ画像が動き補償のための参照画像として使用される。
一般に、時間的基準を使用するための上記方法においては、予測基準は符号化される画像に対して、あるいはその領域に対してできるだけ時間的および空間的に近い。しかし、予測符号化は伝送誤りによって影響される可能性が高い。何故なら、１つの誤りが、その誤りを含んでいる後続の予測画像チェーンの中に現れるすべての画像に影響するからである。したがって、伝送誤りに対してビデオ伝送システムをより頑健なものにするための代表的な方法は、予測チェーンの長さを減らす方法である。

空間的、ＳＮＲおよびＦＧＳの各スケーラビリティ技法のすべては、バイト数の面で比較的短いクリティカル予測経路を作る方法を提供する。クリティカル予測経路は、ビデオ・シーケンスの内容の許容できる表示を得るために復号される必要のあるビット・ストリームの部分である。ビットレート・スケーラブル符号化においては、そのクリティカル予測経路はＧＯＰのベース層である。層型ビット・ストリーム全体ではなく、そのクリティカル予測経路だけを適切に保護するのが便利である。しかし、ＦＧＳ符号化と同様に、従来の空間的およびＳＮＲのスケーラビリティ符号化は圧縮効率を減らすことに留意されたい。さらに、それらは送信機が符号化時にビデオ・データを階層化する方法を決定することが必要である。

予測経路を短くするために、時間的に対応しているＩＮＴＥＲフレームの代わりにＢフレームを使用することができる。しかし、連続したアンカー・フレーム間の時間が比較的長い場合、Ｂフレームを使用することによって圧縮効率の低下が生じる。この状況においては、Ｂフレームは互いに時間的に離れたアンカー・フレームから予測され、したがって、Ｂフレームおよびそれらが予測される元の基準フレームは類似性が低く予測される。これは不十分に予測されたＢフレームを発生し、その結果、関連付けられた予測誤差フレームを符号化するためにより多くのビットが必要となる。さらに、アンカー・フレーム間の時間的距離が増加するので、連続したアンカー・フレームは類似性がより低くなる。再び、これによって予測されたアンカー画像が劣化し、そして関連付けられた予測誤差画像を符号化するためにより多くのビットが必要となる。

図１０は、Ｐフレームの時間的予測において、一般的に使用される方式を示す。簡略化のために、図１０においてはＢフレームは考慮されていない。
ＩＮＴＥＲフレームの予測基準を選択することができる場合（たとえば、Ｈ．２６３の参照画像選択モードの場合のように）、現在のフレームをそれが自然番号順において直前のもの以外のフレームから予測することによって予測経路を短くすることができる。これは図１１に示されている。しかし、参照画像選択をビデオ・シーケンスにおける誤りの時間的伝搬を減らすために使用することができるが、それはまた圧縮効率を減らす効果も有する。

ビデオ冗長符号化（ＶＲＣ）として周知の技法が、パケット交換網におけるパケットの喪失に応答してビデオ品質の優雅な劣化を提供するために提案されている。ＶＲＣの原理は、画像シーケンスを２つまたはそれ以上のスレッドに分割し、すべての画像がラウンドロビン方式でそのスレッドの１つに対して割り当てられるようにする。各スレッドは独立に符号化される。一定の間隔で、すべてのスレッドが、個々のスレッドの少なくとも１つから予測される、いわゆる同期フレームに収束する。この同期フレームから、新しいスレッド・シリーズが開始される。所与のスレッド内のフレーム・レートは全体のフレーム・レートより結果として低くなり、２スレッドの場合には半分、３スレッドの場合は３分の１などとなる。これによって相当な符号化ペナルティが生じる。何故なら、１つのスレッド内の画像間の動きに関連する変化を表すために、通常、同じスレッド内の連続した画像間の一般的にもっと大きな差およびもっと長い運動ベクトルが必要となるためである。図１２は、２つのスレッドおよびスレッド当たり３つのフレームの場合のＶＲＣの動作を示す。

たとえば、パケット喪失のためにＶＲＣ符号化されたビデオ・シーケンスにおいてスレッドの１つが損傷した場合でも、残りのスレッドは無傷のままである可能性があり、したがって、次の同期フレームを予測するためにそれらを使用することができる。損傷したスレッドの復号を継続することができ、それによる画像の劣化は僅かである。あるいはその復号を停止させることができ、それはフレーム・レートの削減につながる。しかし、スレッドが程よく短い場合、両方の形の劣化は非常に短時間持続するだけ、すなわち、次の同期フレームに達するまでである。図１３に、２つのスレッドのうちの１つが損傷しているときのＶＲＣの動作を示す。

同期フレームは常に、損傷していないスレッドから予測される。このことは、送信されるＩＮＴＲＡ画像の数を少なく保つことができることを意味する。何故なら、一般に、完全な再同期化は不要であるからである。正しい同期フレームの構造は、２つの同期フレーム間のすべてのスレッドが損傷した場合にのみ妨げられる。この状況においては、ＶＲＣを採用していないケースの場合と同様に、次のＩＮＴＲＡ画像が正しく復号されるまで、目障りなアーティファクトが続く。
現在、任意の「参照画像選択」モード（付属書類Ｎ）がイネーブルされている場合に、ＶＲＣをＩＴＵ−ＴＨ．２６３ビデオ符号化規格（バージョン２）と一緒に使用することができる。しかし、他のビデオ圧縮方法にＶＲＣを組み込むことに大きな障害はない。

Ｐフレームの逆方向予測も予測チェーンを短くする１つの方法として提案されている。これは図１４に示されている。図１４は、ビデオ・シーケンスのうちの少数の連続フレームを示している。点ＡにＩＮＴＲＡフレーム（Ｉ１）を符号化されたビデオ・シーケンス内に挿入すべきであるという要求をビデオ・エンコーダが受信する。この要求は、たとえば、シーン・カット、または遠隔受信機からのフィードバックとして受信されたＩＮＴＲＡフレーム更新要求に反応して、ＩＮＴＲＡフレーム要求、周期的なＩＮＴＲＡフレームのリフレッシュ動作の結果として発生する可能性がある。一定の期間後、別のシーン・カット、ＩＮＴＲＡフレーム要求、または周期的ＩＮＴＲＡフレーム・リフレッシュ動作が発生する（点Ｂ）。最初のシーン・カット、ＩＮＴＲＡフレーム要求、または周期的ＩＮＴＲＡフレーム・リフレッシュ動作の直後にＩＮＴＲＡフレームを挿入するのではなく、エンコーダは２つのＩＮＴＲＡフレーム要求間のほぼ中間の時点にＩＮＴＲＡフレーム（Ｉ１）を挿入する。最初のＩＮＴＲＡフレーム要求とＩＮＴＲＡフレームＩ１との間のフレーム（Ｐ２およびＰ３）は、シーケンス内で逆方向に予測され、予測チェーンの原点としてＩ１を使用している他のフレームからＩＮＴＥＲフォーマットで予測される。ＩＮＴＲＡフレームＩ１と第２のＩＮＴＲＡフレーム要求との間の残りのフレーム（Ｐ４およびＰ５）は、従来の方法によりＩＮＴＥＲフォーマットで順方向に予測される。

この方法の利点は、フレームＰ５の復号を可能にするためにどれだけ多くのフレームが正常に送信されなければならないかを考えることによって知ることができる。図１５に示されているような従来のフレームの順序が使用される場合、Ｐ５の復号を正しく行うには、Ｉ１、Ｐ２、Ｐ３、Ｐ４およびＰ５が正しく送信されて復号される必要がある。図１４に示されている方法においては、Ｐ５を正常に復号するためには、Ｉ１、Ｐ４およびＰ５だけが正しく送信されて復号されればよい。すなわち、この方法は従来のフレームの順序および予測を採用している方法と比較してＰ５が正しく復号される確実性がより大きくなる。
しかし、逆方向に予測されたＩＮＴＥＲフレームは、Ｉ１が復号される前には復号することができないことに留意されたい。結果として、シーン・カットとそれに続くＩＮＴＲＡフレームとの間の時間より長い初期バッファリング遅延が、再生における一時休止を防ぐために必要である。

図１６は、ＴＭＬ−４に対する現在の勧告によって修正されたテスト・モデル（ＴＭＬ）ＴＭＬ−３に基づいたＩＴＵ−ＴＨ．２６Ｌ勧告に従って動作するビデオ通信システム１０を示す。システム１０は、送信機側１２と受信機側１４とを備えている。このシステムには双方向の送信および受信の装備がなされているので、送信側および受信側１２および１４は、送信および受信の両方の機能を実行することができ、相互に交換可能であることを理解されたい。システム１０は、ビデオ符号化（ＶＣＬ）と、ネットワーク・アウェアネスを伴うネットワーク適応層（ＮＡＬ）とを含む。「ネットワーク・アウェアネス」という用語は、ＮＡＬがそのネットワークに適合するためのデータの配置が採用できることを意味する。ＶＣＬは復号機能以外に、波形符号化およびエントロピー符号化の両方を含む。圧縮されたビデオ・データが伝送されているとき、ＮＡＬはその符号化されたビデオ・データをサービス・データ・ユニット（パケット）内にパケット化し、そのユニットはチャネル上での伝送のためにトランスポート・コーダに渡される。圧縮されたビデオ・データを受信すると、ＮＡＬはチャネル上での伝送後のトランスポート・デコーダから受信されたサービス・データ・ユニットからの符号化されたビデオ・データを非パケット化する。ＮＡＬは、ビデオのビット・ストリームを画像タイプおよび動き補正情報などの画像データの復号および再生に対して、より重要な他のデータから別に符号化されたブロック・データおよび予測誤差係数に区画化することができる。

ＶＣＬの主なタスクは、効率的な方法でビデオ・データを符号化することである。しかし、すでに説明したように、効率的に符号化されたデータに対して誤りが悪影響を及ぼし、したがって、可能な誤りのいくつかのアウェアネスが含められる。ＶＣＬは予測符号化チェーンを中断し、誤りの発生および伝搬に対して補正するための対策を講じる。これは以下のことによって行うことができる。
ｉ）．ＩＮＴＲＡフレームおよびＩＮＴＲＡ符号化マクロブロックを導入することによって時間的予測チェーンを中断する。
ｉｉ）．運動ベクトルの予測がスライス境界内にある独立のスライス符号化モードへ切り換えることによって誤りの伝搬を中断させる。
ｉｉｉ）．たとえば、フレームについての適応型算術符号化なしで、独立に復号することができる可変長符号を導入する。
ｉｖ）．伝送チャネルの利用可能なビットレートにおける変化に迅速に反応し、パケット喪失が発生しにくいように符号化されたビデオのビット・ストリームのビットレートを適応させる。
さらに、ＶＣＬはネットワークにおけるサービスの品質（ＱｏＳ）メカニズムをサポートするために優先度クラスを識別する。

通常、ビデオ符号化方式は、伝送されるビット・ストリーム内の符号化されたビデオ・フレームまたは画像を記述する情報を含む。この情報はシンタックス要素の形式を取る。シンタックス要素は、その符号化方式の中で同様な機能を備えている符号語または符号語のグループである。シンタックス要素は優先度クラスに分類される。シンタックス要素の優先度クラスは、他のクラスに対するその符号化および復号依存性に従って画定される。復号依存性は、時間的予測、空間的予測の使用および可変長符号化の使用の結果として生じる。優先度クラスを画定するための一般的な規則は以下の通りである。
１．シンタックス要素Ａを、シンタックス要素Ｂの知識なしで正しく復号することができ、シンタックス要素Ｂは、シンタックス要素Ａの知識なしでは正しく復号できない場合、シンタックス要素Ａの優先度はシンタックス要素Ｂより高い。
２．シンタックス要素ＡおよびＢが独立に復号できる場合、各シンタックス要素の画像品質に及ぼす影響の度合いがその優先度クラスを決定する。

シンタックス要素と、伝送誤りに起因するシンタックス要素における誤りまたはシンタックス要素の喪失の効果との間の依存性を、図１７に示されているように依存性ツリーとして視覚化することができる。図１７は、現在のＨ．２６Ｌテスト・モデルの各種のシンタックス要素間の依存性を示している。誤っているか、あるいは欠落しているシンタックス要素は、同じブランチ内にあって依存性ツリーの根元からさらに離れているシンタックス要素の復号にのみ影響する。したがって、ツリーの根元に近いシンタックス要素が復号された画像の品質に及ぼす影響は、それより低い優先度クラス内のシンタックス要素より大きい。
通常、優先度クラスは、フレームごとのベースで画定される。スライス・ベースの画像符号化モードが使用されている場合、優先度クラスに対するシンタックス要素の割当てにおける何らかの調整が実行される。

図１７をさらに詳細に参照すると、現在のＨ．２６Ｌテスト・モデルにはクラス１（最高優先度）からクラス１０（最低優先度）までの範囲にある１０個の優先度クラスがあることが分かる。以下は各優先度クラス内のシンタックス要素の要約と、各シンタックス要素によって伝えられる情報の簡単な概要である。

クラス１：ＰＳＹＮＣ、ＰＴＹＰＥ：ＰＳＹＮＣ、ＰＴＹＰＥのシンタックス要素を含んでいる。
クラス２：ＭＢ＿ＴＹＰＥ、ＲＥＦ＿ＦＲＡＭＥ：１つのフレーム内のすべてのマクロブロック・タイプおよび基準フレームのシンタックス要素を含んでいる。ＩＮＴＲＡ画像／フレームの場合、このクラスは要素を含んでいない。
クラス３：ＩＰＭ：ＩＮＴＲＡ予測モードのシンタックス要素を含んでいる。
クラス４：ＭＶＤ、ＭＡＣＣ：運動ベクトルおよび動きの精度のシンタックス要素（ＴＭＬ−２）を含んでいる。ＩＮＴＲＡ画像／フレームの場合、このクラスは要素を含んでいない。
クラス５：ＣＢＰ−Ｉｎｔｒａ：１つのフレーム内のＩＮＴＲＡマクロブロックに対して割り当てられたすべてのＣＢＰシンタックス要素を含んでいる。
クラス６：ＬＵＭ＿ＤＣ￥Ｉｎｔｒａ、ＣＨＲ＿ＤＣ−Ｉｎｔｒａ：ＩＮＴＲＡ−ＭＢ内のすべてのブロックに対するすべてのＤＣ輝度係数およびすべてのＤＣクロミナンス係数を含んでいる。
クラス７：ＬＵＭ＿ＡＣ−Ｉｎｔｒａ、ＣＨＲ＿ＡＣ−Ｉｎｔｒａ：ＩＮＴＲＡ−ＭＢ内のすべてのブロックに対するすべてのＡＣ輝度係数およびすべてのＡＣクロミナンス係数を含んでいる。
クラス８：ＣＢＰ−Ｉｎｔｅｒ、１つのフレーム内のＩＮＴＥＲ−ＭＢに対して割り当てられているすべてのＣＢＰシンタックス要素を含んでいる。
クラス９：ＬＵＭ＿ＤＣ−Ｉｎｔｅｒ、ＣＨＲ＿ＤＣ−Ｉｎｔｅｒ：ＩＮＴＥＲ−ＭＢ内の各ブロックの第１の輝度係数およびすべてのブロックのＤＣクロミナンス係数を含んでいる。
クラス１０：ＬＵＭ＿ＡＣ−Ｉｎｔｅｒ、ＣＨＲ＿ＡＣ−Ｉｎｔｅｒ：ＩＮＴＥＲ−ＭＢ内のすべてのブロックの残りの輝度係数およびクロミナンス係数を含んでいる。

ＮＡＬの主なタスクは、基底にあるネットワークに適合する優先度クラス内に含まれているデータを最適の方法で送信することである。したがって、基底にある各ネットワークまたはネットワークのタイプに対してユニークなデータ・カプセル化の方法が提示されている。ＮＡＬは以下のタスクを実行する。
１．識別されたシンタックス要素クラス内に含まれているデータをサービス・データ・ユニット（パケット）にマップする。
２．結果のサービス・データ・ユニット（パケット）を基底にあるネットワークに適合する方法で転送する。

ＮＡＬは誤差防止メカニズムも提供することができる。
圧縮されたビデオ画像を異なる優先度クラスに対して符号化するために使用されるシンタックス要素の優先順位付けによって、基底にあるネットワークに対する適合が簡単になる。ネットワークがサポートしている優先度メカニズムはシンタックス要素の優先順位付けから特に利点を得る。特に、シンタックス要素の優先順位付けは以下の場合に使用するとき、特に有利である。
ｉ）．ＩＰにおける優先度の方法（資源予約プロトコル（ＲＶＳＰ）など）
ｉｉ）．汎用移動電話システム（ＵＭＴＳ）などの第三世代の移動通信ネットワークにおけるサービスの品質（ＱｏＳ）メカニズム
ｉｉｉ）．Ｈ．２２３マルチメディア通信のためのマルチプレキシング・プロトコルの付属書類ＣまたはＤ
ｉｖ）．基底にあるネットワークにおいて提供される不等誤差防止

異なるデータ／電気通信ネットワークは実質的に異なる特性を通常備えている。たとえば、各種のパケット・ベースのネットワークは、最小および最大のパケット長を採用するプロトコルを使用する。いくつかのプロトコルはデータ・パケットの正しい順序での配信を保証するが、他のプロトコルは保証しない。したがって、２つ以上のクラスに対するデータを１つのデータ・パケットに併合すること、あるいは所与のいくつかのデータ・パケット間で所与の優先度のクラスを表しているデータを分割することが必要に応じて適用される。

圧縮されたビデオ・データを受信しているとき、ＶＣＬはネットワークおよび伝送のプロトコルを使用することによって、ある種のクラスおよび特定のフレームに対する優先度が高いすべてのクラスを識別することができ、そしてそれを正しく受信したこと、すなわち、ビット誤りなしで受信したこと、そしてすべてのシンタックス要素の長さが正しいことをチェックする。
符号化されたビデオのビット・ストリームは基底にあるネットワークおよび使用中のアプリケーションに依存して各種の方法でカプセル化されている。以下に、いくつかのカプセル化方式の例を示す。
〔Ｈ．３２４（回線交換型テレビ電話）〕

Ｈ．３２４のトランスポート・コーダ、すなわち、Ｈ．２２３は、その最大のサービス・データ・ユニット・サイズが２５４バイトである。通常、これは画像全体を搬送するには不十分であり、したがって、ＶＣＬは１つの画像を複数の区画に分割できるので、各区画は１つのサービス・データ・ユニットに適合する。符号語は、通常、それらのタイプに基づいて区画にグループ化される。すなわち、同じタイプの符号語が同じ区画にまとめられる。区画の符号語（およびバイト）の順序は重要度の降順に配列される。ビット誤りがビデオ・データを搬送しているＨ．２２３のサービス・データ・ユニットに影響する場合、デコーダはそのパラメータの可変長符号化のために同期の復号を失う可能性があり、そのサービス・データ・ユニット内のデータの残りの部分を復号することができなくなる。しかし、最も重要なデータはサービス・データ・ユニットの先頭に現れるので、デコーダは画像内容の劣化した表示を生成することができる可能性がある。
〔ＩＰテレビ電話〕

歴史的な理由のために、ＩＰパケットの最大サイズは約１５００バイトである。以下の２つの理由のために、できるだけ大きいＩＰパケットを使用することが有利である。
１．ルータなどのＩＰネットワーク要素は過剰なＩＰトラヒックのために混雑状態となり、内部バッファのオーバフローを発生する可能性がある。そのバッファは、通常、パケット指向型である。すなわち、それらはいくつかの個数のパケットを含んでいる可能性がある。したがって、ネットワークの混雑を回避するために、頻繁に生成される小さいパケットではなく、ほとんど生成されない大きいパケットを使用することが望ましい。
２．各ＩＰパケットはヘッダ情報を含んでいる。リアルタイムのビデオ通信のために使用される代表的なプロトコルの組合せ、すなわち、ＲＴＰ／ＵＤＴ／ＩＰは、パケット当たり４０バイトのヘッダ部分を含む。回線交換型低帯域幅のダイヤルアップ・リンクが、ＩＰネットワークに接続するときにしばしば使用されている。小さいパケットが使用されている場合、低ビットレートのリンクにおいてはパケット化のオーバヘッドが大きくなる。

画像のサイズおよび複雑性に依存して、ＩＮＴＥＲ符号化ビデオ画像は１つのＩＰパケットに適合するために十分少ない数のビットを含むことができる。
ＩＰネットワークにおいて不等誤差防止を提供するための多くの方法がある。これらのメカニズムは、パケットの二重化、順方向誤り訂正（ＦＥＣ）パケット、差別化サービス、すなわち、ネットワーク内のある種のパケットに対して優先権を与えるサービス、統合サービス（ＲＳＶＰプロトコル）を含む。通常、これらのメカニズムは重要度が似ているデータを１つのパケット内にカプセル化する必要がある。
〔ＩＰビデオ・ストリーミング〕

ビデオ・ストリーミングは非対話型アプリケーションであるので、エンド・ツー・エンドの遅延の条件は厳しくない。結果として、そのパケット化方式は複数の画像からの情報を利用することができる。たとえば、データは上記のようにＩＰテレビ電話の場合に類似した方法で分類することができるが、複数の画像からの重要度が高いデータが同じパケット内にカプセル化される。

代わりに、各画像または画像のスライスをそれ自身のパケット内にカプセル化することができる。最も重要なデータがそのパケットの先頭に現れるようにデータの区画化が適用される。順方向誤り訂正（ＦＥＣ）パケットは既に送信された一組のパケットから計算される。ＦＥＣのアルゴリズムは、それがそのパケットの先頭に現れているある個数のバイトだけを保護するように選択される。受信端において、通常のデータ・パケットが喪失していた場合、ＦＥＣパケットを使用してその喪失したデータ・パケットの先頭を訂正することができる。この方法はＡ．Ｈ．Ｌｉ，Ｊ．Ｄ．Ｖｉｌｌａｓｅｎｏｒ、"ＡｇｅｎｅｒｉｃＵｎｅｖｅｎＬｅｖｅｌＰｒｏｔｅｃｔｉｏｎ（ＵＬＰ）ｐｒｏｐｏｓａｌｆｏｒＡｎｎｅｘＩｏｆＨ．３２３"（Ｈ．３２３の付属書類Ｉに対する一般不等レベル保護（ＵＬＰ）提案）、ＩＴＵ−Ｔ、ＳＧ１６、Ｑｕｅｓｔｉｏｎ１５、ドキュメントＱ１５−Ｊ−６１、１６−Ｍａｙ−２０００の中で提案されている。

第１の態様によれば、本発明は、ビット・ストリームを発生するためにビデオ信号を符号化するための方法を提供する。前記方法は、第１の完全フレームを再構成するための、高優先度および低優先度情報に優先順位付けられている情報を含むビット・ストリームの第１の部分を形成することにより、第１の完全フレームを符号化するステップと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて第１の仮想フレームを画定するステップと、第２の完全フレームの再構成において使用するための情報を含むビット・ストリームの第２の部分を形成することにより第２の完全フレームを符号化し、第２の完全フレームを、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて完全に再構成することができるようにするステップとを含む。

好適には、前記方法は、また、第２の完全フレームの情報を高優先度情報および低優先度情報に優先順位付けるステップと、第２の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第２の完全フレームの高優先度情報を使用して構成された第２の完全フレームの１つのバージョンに基づいて第２の仮想フレームを画定するステップと、第２の完全フレームおよびビット・ストリームの第３の部分に含まれる情報に基づいて第３の完全フレームが完全に再構成できるように、第３の完全フレームの再構成において使用するための情報を含むビット・ストリームの第３の部分を形成することにより第３の完全フレームを符号化するステップとを含む。

第２の態様によれば、本発明は、ビット・ストリームを発生するためにビデオ信号を符号化するための方法を提供する。前記方法は、第１の完全フレームを再構成するための、高優先度および低優先度情報に優先順位付けられている情報を含むビット・ストリームの第１の部分を形成することにより、第１の完全フレームを符号化するステップと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて第１の仮想フレームを画定するステップと、第２の完全フレームの再構成において使用するための情報を含むビット・ストリームの第２の部分を形成することにより第２の完全フレームを符号化し、前記情報が高優先度情報および低優先度情報に優先順位付けられていて、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２のフレームが完全に再構成されるように第２のフレームが符号化されるステップと、第２の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第２の完全フレームの高優先度情報を使用して構成された第２の完全フレームの１つのバージョンに基づいて第２の仮想フレームを画定するステップと、第２の完全フレームから予測され、ビット・ストリームの第３の部分を形成することによりシーケンス内で第２の完全フレームに続く第３の完全フレームを符号化し、ビット・ストリームは第３の完全フレームの再構成において使用するための情報を含み、第３の完全フレームを第２の完全フレームおよび、ビット・ストリームの第３の部分に含まれる情報に基づいて完全に再構成できるようにするステップとを含む。

第１の仮想フレームは、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、ビット・ストリームの第１の部分の高優先度情報を使用し、そして予測基準として前の仮想フレームを使用して構成することができる。他の仮想フレームは、前の仮想フレームに基づいて構成することができる。したがって、仮想フレームのチェーンを提供することができる。
完全フレームは表示できる画像を形成することができるという意味で完全である。これは仮想フレームに対しては必ずしも成立する必要はない。

第１の完全フレームは、ＩＮＴＲＡ符号化された完全フレームであってよい。その場合、ビット・ストリームの第１の部分は、ＩＮＴＲＡ符号化の完全フレームの完全再構成のための情報を含む。
第１の完全フレームは、ＩＮＴＥＲ符号化の完全フレームであってよい。その場合、ビット・ストリームの第１の部分は、完全基準フレームまたは仮想基準フレームであることができる基準フレームに関してＩＮＴＥＲ符号化の完全フレームの再構成のための情報を含む。

１つの実施形態においては、本発明は、スケーラブル符号化方法である。この場合、仮想フレームはスケーラブル・ビット・ストリームのベース層であるとして解釈することができる。

本発明のもう１つの実施形態においては、２つ以上の仮想フレームが第１の完全フレームの情報から画定され、上記２つ以上の各仮想フレームは、第１の完全フレームの異なる高優先度情報を使用して画定されている。

本発明のさらにもう１つの実施形態においては、２つ以上の仮想フレームが第１の完全フレームの情報から画定され、上記２つ以上の各仮想フレームは、第１の完全フレームの情報の異なる優先順位付けを使用して形成された第１の完全フレームの異なる高優先度情報を使用して画定される。
好適には、完全フレームの再構成のための情報が、その完全フレームを再構成する際のその重要性に従って高優先度および低優先度情報に優先順位付けられる。
完全フレームはスケーラブル・フレーム構造のベース層であってよい。

前のフレームを使用して完全フレームを予測しているとき、そのような予測ステップにおいて、完全フレームを前の完全フレームに基づいて予測することができ、それ以降の予測ステップにおいて、完全フレームを仮想フレームに基づいて予測することができる。この方法で、予測のベースは予測ステップごとに変化する可能性がある。その変化は、所定のベースで、あるいは符号化されたビデオ信号が送信されるリンクの品質などの他のファクタによって時々刻々決定されることによって発生する可能性がある。本発明の１つの実施形態においては、その変化は受信デコーダから受信された要求によって開始される。

仮想フレームは、高優先度情報を使用し、低優先度情報を故意に使用せずに形成されるものであることが好ましい。仮想フレームは表示されないことが好ましい。代わりに、それが表示される場合、それは完全フレームに対する代わりのものとして使用される。これはその完全フレームが伝送誤りのために利用できない場合にあり得る。
本発明によって、時間的予測経路を短縮しているとき、符号化効率を改善することができる。本発明は、さらに、ビデオ信号の再構成のための情報を搬送しているビット・ストリームにおけるデータの喪失または劣化からの結果として生じる劣化に対して符号化されたビデオ信号の回復力を増加させる効果を有する。
情報は符号語を含むことが好ましい。

仮想フレームは、高優先度情報から構成されるか、あるいは画定されるだけではなく、いくつかの低優先度情報から構成されるか、あるいは画定される可能性もある。
仮想フレームは、仮想フレームの順方向予測を使用して前の仮想フレームから予測することができる。他の方法として、あるいは追加として、仮想フレームは仮想フレームの逆方向予測を使用してそれ以降の仮想フレームから予測することができる。ＩＮＴＥＲフレームの逆方向予測は、図１４に関連して説明してきた。この原理は仮想フレームに対して容易に適用できることを理解することができるだろう。

順方向予測フレームを使用して、完全フレームを前の完全フレームまたは仮想フレームから予測することができる。他の方法として、あるいは追加として、逆方向予測を使用して完全フレームをそれ以降の完全フレームまたは仮想フレームから予測することができる。
仮想フレームが高優先度情報によって画定されているだけでなく、いくつかの低優先度情報によっても画定されている場合、その仮想フレームを、その高優先度情報および低優先度情報の両方を使用して復号することができ、さらに別の仮想フレームに基づいて予測することができる。
仮想フレームに対するビット・ストリームの復号は、完全フレームに対するビット・ストリームの復号において使用されるものとは異なるアルゴリズムを使用することができる。仮想フレームを復号するための複数のアルゴリズムがあり得る。特定のアルゴリズムの選択はビット・ストリーム内で知らせることができる。
低優先度情報が存在しない場合、それをデフォルト値で置き換えることができる。そのデフォルト値の選択は変わる可能性があり、正しい選択はビット・ストリーム内で知らされる。

第３の態様によれば、本発明は、ビデオ信号を発生するためにビット・ストリームを復号するための方法を提供する。前記方法は、第１の完全フレームの再構成のために、高優先度情報および低優先度情報に優先順位付けられている情報を含むビット・ストリームの第１の部分から第１の完全フレームを復号するステップと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて第１の仮想フレームを画定するステップと、第１の仮想フレームを、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するステップとを含む。

好適には、前記方法は、また、第２の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第２の完全フレームの高優先度情報を使用して構成された第２の完全フレームの１つのバージョンに基づいて第２の仮想フレームを画定するステップと、第２の完全フレームおよびビット・ストリームの第３の部分に含まれる情報に基づいて第３の完全フレームを予測するステップとを含むことが好ましい。

第４の態様によれば、本発明は、ビデオ信号を発生するためにビット・ストリームを復号するための方法を提供する。前記方法は、第１の完全フレームの再構成のために、高優先度情報および低優先度情報に優先付けられている情報を含むビット・ストリームの第１の部分から第１の完全フレームを復号するステップと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて第１の仮想フレームを画定するステップと、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するステップと、第２の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第２の完全フレームの高優先度情報を使用して構成された第２の完全フレームの１つのバージョンに基づいて第２の仮想フレームを画定するステップと、第２の完全フレームおよびビット・ストリームの第３の部分に含まれる情報に基づいて第３の完全フレームを予測するステップとを含む。

第１の仮想フレームは、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、ビット・ストリームの第１の部分の高優先度情報を使用して、そして予測基準として前の仮想フレームを使用して構成することができる。他の仮想フレームは前の仮想フレームに基づいて構成することができる。完全フレームは、仮想フレームから復号することができる。完全フレームは仮想フレームの予測チェーンから復号することができる。

第５の態様によれば、本発明は、ビット・ストリームを発生するためにビデオ信号を符号化するためのビデオ・エンコーダを提供する。前記エンコーダは、第１の完全フレームの再構成のために、高優先度情報および低優先度情報に優先順位付けられている情報を含む第１の完全フレームのビット・ストリームの第１の部分を形成するための完全フレーム・エンコーダと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて少なくとも第１の仮想フレームを画定する仮想フレーム・エンコーダと、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するためのフレーム予測器とを備える。
完全フレーム・エンコーダはフレーム予測器を含むことが好ましい。

本発明の１つの実施形態において、エンコーダはデコーダに対して信号を送信して、１つのフレームに対してビット・ストリームのどの部分が、伝送誤りまたは喪失の場合に全品質の画像を置き換えるための受け入れ可能な画像を発生するのに十分であるかを示す。そのシグナリングはビット・ストリーム内に含められるか、あるいはビット・ストリームとは別に伝送されるようにすることができる。
そのシグナリングをフレームに対して適用するのではなく、画像の一部分、たとえば、スライス、ブロック、マクロブロックまたはブロックのグループに対して適用することができる。もちろん、その方法全体を画像セグメントに対して適用することができる。
シグナリングは、複数の画像のうちのどの画像が完全な品質の画像を置き換えるために受け入れ可能な画像を発生するのに十分であるかを示すことができる。

本発明の１つの実施形態においては、そのエンコーダは信号をデコーダに送信して、仮想フレームを構成するための方法を示すことができる。その信号は１つのフレームに対する情報の優先順位付けを示すことができる。
その本発明のさらにもう１つの実施形態によれば、エンコーダは信号をデコーダに送信して、実際の参照画像が喪失したか、あるいは劣化し過ぎていた場合に使用される仮想予備参照画像を構成する方法を示すことができる。

第６の態様によれば、本発明は、ビデオ信号を発生するためにビット・ストリームを復号するためのデコーダを提供する。前記デコーダは、第１の完全フレームの再構成のために、高優先度情報および低優先度情報に優先順位付けられている情報を含むビット・ストリームの第１の部分から第１の完全フレームを復号するための完全フレーム・デコーダと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して第１の完全フレームのビット・ストリームの第１の部分から第１の仮想フレームを形成するための仮想フレーム・デコーダと、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するためのフレーム予測器とを備える。
完全フレーム・デコーダはフレーム予測器を含むことが好ましい。

低優先度情報が仮想フレームの構成において使用されないので、そのような低優先度情報が喪失しても仮想フレームの構成には悪影響を及ぼさない。
参照画像選択の場合には、完全フレームを格納するためのマルチフレーム・バッファと仮想フレームを格納するためのマルチフレーム・バッファとを、エンコーダおよびデコーダに備えることができる。

好適には、別のフレームを予測するために使用される基準フレームを、たとえば、エンコーダ、デコーダ、またはその両方によって選択することができる。基準フレームの選択は各フレーム、画像セグメント、スライス、マクロブロック、ブロックまたはどんな部分画像要素に対しても別々に行うことができる。基準フレームはアクセス可能であるか、あるいはエンコーダの中およびデコーダの中の両方において発生することができる任意の完全フレーム、あるいは仮想フレームであってよい。

この方法で、各完全フレームは１つの仮想フレームに制限されず、完全フレームに対するビット・ストリームを分類するための方法がそれぞれ異なっているいくつかの異なる仮想フレームに関連付けられていてもよい。ビット・ストリームを分類するためのこれらの異なる方法は、動き補償のための異なる基準（仮想または完全）画像および／またはビット・ストリームの高優先度部分を復号する異なる方法であってよい。
デコーダからエンコーダに対してフィードバックを提供されることが好ましい。

そのフィードバックは１つまたはそれ以上の指定された画像の符号語に関係する指示の形式であってよい。その指示は符号語が受信されたこと、受信されなかったこと、あるいは損傷された状態で受信されたことを示す。これによってエンコーダは以降のフレームの動き補正された予測において使用される予測基準を、完全フレームから仮想フレームへ変更することができる。他の方法としては、その指示によって、受信されなかった、あるいは損傷した状態で受信された符号語をエンコーダに再送信させることができる。その指示は１つの画像中のある領域の内部の符号語、あるいは複数の画像中のある領域の内部の符号語を指定することができる。

第７の態様によれば、本発明は、ビデオ信号をビット・ストリームに符号化するため、およびビット・ストリームをビデオ信号に復号するためのビデオ通信システムを提供する。前記システムはエンコーダとデコーダとを備える。エンコーダは、第１の完全フレームの再構成のために、高優先度情報および低優先度情報に優先付けられている情報を含む第１の完全フレームのビット・ストリームの第１の部分を形成するための完全フレーム・エンコーダと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて第１の仮想フレームを画定する仮想フレーム・エンコーダと、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するためのフレーム予測器とを備え、デコーダは、ビット・ストリームの第１の部分から第１の完全フレームを復号するための完全フレーム・デコーダと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して、ビット・ストリームの第１の部分から第１の仮想フレームを形成するための仮想フレーム・デコーダと、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するためのフレーム予測器とを備える。
完全フレーム・エンコーダはフレーム予測器を含むことが好ましい。

第８の態様によれば、本発明は、ビット・ストリームを発生するためにビデオ信号を符号化するためのビデオ・エンコーダを含んでいるビデオ通信端末を提供する。前記ビデオ・エンコーダは、第１の完全フレームの再構成のために、高優先度情報および低優先度情報に優先付けられている情報を含む第１の完全フレームのビット・ストリームの第１の部分を形成するための完全フレーム・エンコーダと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて少なくとも第１の仮想フレームを画定する仮想フレーム・エンコーダと、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するためのフレーム予測器とを備える。
完全フレーム・エンコーダはフレーム予測器を含むことが好ましい。

第９の態様によれば、本発明は、ビデオ信号を発生するためにビット・ストリームを復号するためのデコーダを含んでいるビデオ通信端末を提供する。デコーダは、第１の完全フレームの再構成のために、高優先度情報および低優先度情報に優先付けられている情報を含むビット・ストリームの第１の部分から第１の完全フレームを復号するための完全フレーム・デコーダと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して、第１の完全フレームのビット・ストリームの第１の部分から第１の仮想フレームを形成するための仮想フレーム・デコーダと、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するためのフレーム予測器とを備える。
完全フレーム・デコーダはフレーム予測器を含むことが好ましい。

第１０の態様によれば、本発明は、ビット・ストリームを発生するためにビデオ信号を符号化するためのビデオ・エンコーダとしてコンピュータを動作させるためのコンピュータ・プログラムを提供する。前記プログラムは、第１の完全フレームの完全再構成のために、高優先度情報および低優先度情報に優先付けられている情報を含むビット・ストリームの第１の部分を形成することにより、第１の完全フレームを符号化するためのコンピュータ実行可能コードと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて第１の仮想フレームを画定するためのコンピュータ実行可能コードと、第２の完全フレームの再構成のための情報を含むビット・ストリームの第２の部分を形成し、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームが再構成されるようにする、第２の完全フレームを符号化するためのコンピュータ実行可能コードとを含む。

第１１の態様によれば、本発明は、ビデオ信号を発生するためにビット・ストリームを復号するためのビデオ・エンコーダとしてコンピュータを動作させるためのコンピュータ・プログラムを提供する。前記プログラムは、第１の完全フレームの再構成のために、高優先度情報および低優先度情報に優先付けられている情報を含むビット・ストリームの部分から第１の完全フレームを復号するためのコンピュータ実行可能コードと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて第１の仮想フレームを画定するためのコンピュータ実行可能コードと、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するためのコンピュータ実行可能コードとを含む。
好適には、第１０および１１の態様のコンピュータ・プログラムは、データ記憶媒体上に格納されていることが好ましい。これは携帯用のデータ記憶媒体または装置内のデータ記憶媒体であってよい。上記装置は、携帯機器、たとえば、ラップトップ・コンピュータ、携帯情報端末または携帯電話であってよい。

本発明において「フレーム」という場合、それはフレームの部分、たとえば、１つのフレーム内のスライス、ブロックおよびＭＢを含むことも意図している。
ＰＦＧＳと比較して、本発明はより良い圧縮効率を提供する。これはより柔軟なスケーラビリティの階層を備えているからである。ＰＦＧＳと本発明とが同じ符号化方式の中で存在することが可能である。この場合、本発明はＰＦＧＳのベース層の下で動作する。

本発明は仮想フレームの概念を導入する。それはビデオ・エンコーダにおいて作り出される符号化された情報の最重要部分を使用して構成される。この場合、「最重要」という用語は、フレームの正しい再構成に最も強く影響する圧縮されたビデオ・フレームの符号化表示の中の情報を指す。たとえば、ＩＴＵ−Ｔ勧告Ｈ．２６３に従う圧縮されたビデオ・データの符号化において使用されるシンタックス要素の場合には、符号化されたビット・ストリーム内の最重要情報はシンタックス要素間の復号の関係を画定している依存性の根元により近いシンタックス要素を含むと考えることができる。すなわち、更なるシンタックス要素の復号を可能にするために正しく復号されなければならないシンタックス要素を、圧縮されたビデオ・フレームの符号化された表示における最重要／高優先度情報を表すものと考えることができる。

仮想フレームを使用することによって、符号化されたビット・ストリームの誤り回復力を高める正しい方法が提供される。特に、本発明は動き補償型予測を実行する新しい方法を導入し、その中で仮想フレームを使用して発生された代わりの予測経路が使用される。すでに説明した従来技術の方法においては、完全フレームのみ、すなわち、１つのフレームに対する完全符号化情報を使用して再構成されたビデオ・フレームだけが動き補償のための基準として使用されることに留意されたい。本発明による方法においては、仮想フレームのチェーンが符号化されたビデオ・フレームのより高い重要な情報を使用して構成され、チェーンの内部の動き補償型予測と一緒に使用される。仮想フレームを含んでいる予測経路が符号化されたビデオ・フレームの完全情報を使用する従来の予測経路に対して追加的に用意されている。「完全」という用語は、ビデオ・フレームの再構成において使用するために利用できる情報全体の使用を指すことに留意されたい。

問題のビデオ符号化方式がスケーラブル・ビット・ストリームを発生する場合、「完全」という用語はスケーラブル構造の所与の層に対して提供されるすべての情報を使用することを意味する。さらに、仮想フレームは一般に表示されることが意図されていないことに留意されたい。ある状況においては、それぞれの構成において使用される情報の種類に依存して、仮想フレームは表示に対しては不適切であるか、あるいは表示を行うことはできない場合がある。他の状況においては、仮想フレームは表示に適しているか、あるいは表示できるが、いずれにおいても表示はされず、上記の一般的な用語においてすでに説明したように、動き補償型予測の代わりの手段を提供するためだけに使用される。本発明の他の実施形態においては、仮想フレームを表示することができる。また、異なる種類の仮想フレームの構成を可能にするために異なる方法でビット・ストリームからの情報を優先順位化することができることにも留意されたい。

本発明による方法は、上記従来技術の誤り回復法と比較して多くの利点を有している。たとえば、Ｉ０、Ｐ１、Ｐ２、Ｐ３、Ｐ４、Ｐ５およびＰ６のフレームのシーケンスを形成するように符号化されている画像のグループ（ＧＯＰ）を考えると、本発明に従って実施されるビデオ・エンコーダは、ＩＮＴＲＡフレームＩ０から始まる予測チェーンにおいて動き補償型予測を使用してＩＮＴＥＲフレームＰ１、Ｐ２およびＰ３を符号化するようにプログラムすることができる。同時に、エンコーダは一組の仮想フレームＩ０'，Ｐ１'，Ｐ２'およびＰ３'を発生する。仮想ＩＮＴＲＡフレームＩ０'は、Ｉ０を表している高優先度情報を使用して構成され、同様に、仮想ＩＮＴＥＲフレームＰ１'，Ｐ２'およびＰ３'は完全ＩＮＴＥＲフレームＰ１、Ｐ２およびＰ３の高優先度情報をそれぞれ使用して構成され、そして仮想ＩＮＴＲＡフレームＩ０'から始まる動き補償型予測チェーンに形成される。この例においては、仮想フレームは表示されることが意図されてはおらず、そしてエンコーダはそれがフレームＰ４に達すると、その動き予測基準が完全フレームＰ３ではなく、仮想フレームＰ３'として選定されるようにプログラムされている。それ以降のフレームＰ５およびＰ６が次にそれぞれの予測基準として完全フレームを使用してＰ４から予測チェーンの中に符号化される。

この方法は、たとえば、Ｈ．２６３によって提供されている基準フレーム選択モードに似ているように見える可能性がある。しかし、本発明による方法においては、代わりの基準フレーム、すなわち、仮想フレームＰ３'が従来の参照画像選択方式に従って使用されたことになる代わりの基準フレーム（たとえば、Ｐ２）より、フレームＰ４の予測において使用されることになったであろう基準フレーム（すなわち、フレームＰ３）にずっとよく似ている。これは、Ｐ３'がＰ３そのものを記述する符号化情報のサブセット、すなわち、フレームＰ３の復号のために最も重要な情報から実際に構成されることを思い出すことによって容易に正当化することができる。この理由のために、従来の参照画像選択が使用された場合に期待されるより予測誤差の少ない情報が仮想基準フレームの使用に関して必要となる可能性がある。この方法で、本発明は従来の参照画像選択方法に比べて圧縮効率の向上を提供する。

また、予測基準として完全フレームの代わりに仮想フレームを周期的に使用するようにビデオ・エンコーダがプログラムされていた場合、ビット・ストリームに影響する伝送誤りによって生じた受信デコーダにおける目に見えるアーティファクトの累積および伝搬が削減されるか、あるいは防止される確率が高いことに留意されたい。

実効的に、本発明による仮想フレームを使用する方法は、動き補償型予測における予測経路の短縮方法の１つである。上記の予測方式の例においては、フレームＰ４は、仮想フレームＩ０'から始まり仮想フレームＰ１'，Ｐ２'およびＰ３'を通って進行する予測チェーンを使用して予測される。「フレーム数に関しての」予測経路の長さは、フレームＩ０、Ｐ１、Ｐ２およびＰ３が使用されることになる従来の動き補償型予測方式の場合と同じであり、Ｐ４の誤りのない再構成を保証するために正しく受信されなければならない「ビットの数」は、Ｉ０'からＰ３'までの予測チェーンが、Ｐ４の予測において使用される場合に少なくなる。

エンコーダから送信されたビット・ストリームにおける情報の喪失または劣化のために、ある程度の視覚的歪みを伴っている特定のフレーム、たとえば、Ｐ２だけを受信側のデコーダが再構成できる場合、デコーダはエンコーダに対して、シーケンス内の次のフレーム、たとえば、Ｐ３を仮想フレームＰ２'に関して符号化するように要求することができる。Ｐ２を表している低優先度情報の中に誤りが発生した場合、Ｐ２'に関してＰ３を予測することはシーケンス内のＰ３およびそれ以降のフレームに対する伝送誤りの伝搬を制限するか、あるいは防止する効果を有する。したがって、予測経路の完全な再初期化の必要性、すなわち、ＩＮＴＲＡフレームの更新に対する要求および送信が減少する。これは、ＩＮＴＲＡ更新要求に応答して完全ＩＮＴＲＡフレームの送信がデコーダにおける再構成されたビデオ・シーケンスの表示における望ましくない一時休止につながる可能性がある低ビットレートのネットワークにおいて大きな利点を有する。

上記の利点は本発明による方法が、デコーダに送信されるビット・ストリームの不等誤差防止と組み合わせて使用された場合にさらに高められる可能性がある。「不等誤差防止」という用語は、ここでは符号化されたフレームの関連低優先度情報より、ビット・ストリーム内の誤り回復の程度が高い符号化されたビデオ・フレームの高優先度情報を提供する方法を意味するために使用されている。たとえば、不等誤差防止は、高優先度情報のパケットが喪失しにくいような方法で、高優先度情報および低優先度情報を含むパケットの送信を必要とする可能性がある。したがって、本発明の方法と一緒に不等誤差防止が使用されるとき、ビデオ・フレームの再構成のためにより高い優先度の／より重要な情報が、より正確に受信される可能性がある。結果として、仮想フレームを構成するために必要なすべての情報が誤りなしで受信される確率が高い。したがって、本発明の方法と一緒に不等誤差防止を使用することによって、符号化されたビデオ・シーケンスの誤り回復力がさらに向上することは明らかである。より詳細に説明すると、動き補償型予測に対する基準として仮想フレームを周期的に使用するようにビデオ・エンコーダがプログラムされているとき、仮想基準フレームの誤りのない再構成のために必要なすべての情報がデコーダにおいて正しく受信される確率が高い。したがって、仮想基準フレームから予測された完全フレームが誤りなしで構成される可能性がより高くなる。

また、本発明によって受信されたビット・ストリームの重要度の高い部分が再構成され、ビット・ストリームの重要度の低い部分の喪失または劣化を隠すために使用されるようにすることもできる。これは受け入れ可能な再構成された画像を発生するのにフレームに対するビット・ストリームのどの部分が十分であるかを指定している指示をエンコーダがデコーダに送信することができるようにすることによって実現される。この受け入れ可能な再構成を、伝送誤りまたは喪失の場合に完全な品質の画像を置き換えるために使用することができる。デコーダに対してこの表示を提供するために必要なシグナリングをビデオのビット・ストリームそのものの中に含めるか、あるいは、たとえば、制御チャネルを使用してビデオのビット・ストリームとは別にデコーダに送信することができる。その指示によって提供される情報を使用して、デコーダは、表示のために受け入れ可能な画像を得るために、そのフレームに対する高重要度部分を復号し、低重要度部分をデフォルト値で置き換える。同じ原理を部分画像（スライスなど）に対して、そして複数の画像に対して適用することもできる。この方法で、本発明はさらに誤り隠蔽が明示的な方法で制御されるようにすることもできる。

もう１つの誤り隠蔽の方法においては、実際の参照画像が喪失したか、あるいは劣化して使えなくなった場合に、エンコーダは動き補償型予測のための基準フレームとして使用することができる予備の仮想参照画像を構成する方法の指示をデコーダに提供することができる。

本発明はさらに、従来技術のスケーラビリティ技法より柔軟な新しいタイプのＳＮＲスケーラビリティとして分類することもできる。しかし上記のように、本発明によれば、動き補償型予測のために使用される仮想フレームは、シーケンスの中に現れている未圧縮の画像内容を必ずしも表す必要はない。他方、既知のスケーラビリティ技法においては、動き補償型予測において使用される参照画像はビデオ・シーケンス内の対応している元の（すなわち、未圧縮の）画像を表現する。従来のスケーラビリティ方式におけるベース層とは違って、仮想フレームは表示されることが意図されていないので、デコーダは表示のために許容できる仮想フレームを構成する必要はない。結果として、本発明によって実現される圧縮効率は単層符号化方式に近くなる。
本発明を、添付の図面を参照しながら以下に記述するが、これは単なる例示としてのものにすぎない。
図１乃至１７は、上記説明したものである。

本発明を、エンコーダによって実行される符号化手順を示す図１８および１９、およびエンコーダに対応するデコーダによって実行される復号手順を示す図２０を参照して、一組の手順的ステップとして以下により詳しく説明する。図１８乃至２０に示す手順的ステップは、図１６に従ってビデオ伝送システムに実施することができる。

先ず最初に、図１８および１９によって示されている符号化手順を説明する。初期化のフェーズにおいて、エンコーダはフレーム・カウンタを初期化し（ステップ１１０）、完全基準フレーム・バッファを初期化し（ステップ１１２）、仮想基準フレーム・バッファを初期化する（ステップ１１４）。次にエンコーダは、生の、すなわち、符号化されていない、ビデオ・データを、ビデオ・カメラなどのソースから受信する（ステップ１１６）。そのビデオ・データはライブ・フィードから発することができる。エンコーダは、現在のフレームの符号化において使用されるべき符号化モード、すなわち、それがＩＮＴＲＡフレームまたはＩＮＴＥＲフレームのいずれであるかを示す符号化モードの指示を受信する（ステップ１１８）。その指示はプリセット符号化方式から来る可能性がある（ブロック１２０）。その指示はシーン・カット検出器が備えられている場合は、そこからオプションとして来るか（ブロック１２２）、あるいはデコーダからのフィードバックとして（ブロック１２４）来る可能性がある。次に、エンコーダは、現在のフレームをＩＮＴＲＡフレームとして符号化するかどうかを決定する（ステップ１２６）。

その決定が「ＹＥＳ」であった場合、（決定１２８）、現在のフレームはＩＮＴＲＡフレームのフォーマットで圧縮されたフレームを形成するように符号化される（ステップ１３０）。
その決定が「ＮＯ」であった場合（決定１３２）、エンコーダはＩＮＴＥＲフレーム・フォーマットで現在のフレームを符号化する際の基準として使用されるべきフレームの指示を受信する（ステップ１３４）。これは所定の符号化方式の結果として決定することができる（ブロック１３６）。本発明のもう１つの実施形態においては、これはデコーダからのフィードバックによって制御することができる（ブロック１３８）。これについては後で説明する。識別された基準フレームは完全フレームまたは仮想フレームである可能性があり、したがって、エンコーダは仮想基準が使用されるべきかどうかを決定する（ステップ１４０）。

仮想基準フレームが使用される場合、それは仮想基準フレーム・バッファから呼び出される（ステップ１４２）。仮想基準が使用されない場合、完全基準フレームが完全フレーム・バッファから呼び出される（ステップ１４４）。次に、現在のフレームが生のビデオ・データおよび選択された基準フレームを使用してＩＮＴＥＲフレーム・フォーマットで符号化される（ステップ１４６）。これは完全基準フレームおよび仮想基準フレームがそれぞれのバッファ内に存在することを予め想定している。エンコーダが初期化に続いて第１のフレームを送信している場合、これは、通常、ＩＮＴＲＡフレームであり、したがって、基準フレームは使用されない。一般的に、ＩＮＴＲＡフォーマットでフレームが符号化されているときは常に基準フレームは不要である。

現在のフレームがＩＮＴＲＡフレーム・フォーマットまたはＩＮＴＥＲフレーム・フォーマットのいずれに符号化されているかにかかわらず、次のステップが適用される。符号化されたフレーム・データが優先順位付けられ（ステップ１４８）、ＩＮＴＥＲフレームまたはＩＮＴＲＡフレームの符号化のいずれであるかに依存して、特定の優先順位付けが使用されている。その優先順位付けは、符号化されるある画像の再構成に対してそれがどの程度本質的であるかに基づいてデータを低優先度データおよび高優先度データに分割する。このように分割されると、ビット・ストリームが送信のために形成される。ビット・ストリームの形成において、適切なパケット化の方法が使用される。任意の適当なパケット化方式を使用することができる。次にビット・ストリームがデコーダに送信される（ステップ１５２）。現在のフレームが最後のフレームであった場合、この時点でその手順を終了する（ブロック１５６）ための決定が行われる（ステップ１５４）。

現在のフレームがＩＮＴＥＲ符号化されたフレームであって、シーケンス内の最後のフレームではない場合、現在のフレームを表している符号化された情報が、そのフレームの完全な再構成を形成するために低優先度および高優先度のデータの両方を使用して関連の基準フレームに基づいて復号される（ステップ１５７）。次に、その完全な再構成が完全基準フレーム・バッファ内に格納される（ステップ１５８）。現在のフレームを表している符号化された情報が、次に、仮想フレームの再構成を形成するために高優先度データだけを使用して関連の基準フレームに基づいて復号される（ステップ１６０）。次に、仮想フレームの再構成が仮想基準フレーム・バッファ内に格納される（ステップ１６２）。他の方法としては、現在のフレームがＩＮＴＲＡ符号化フレームであって、シーケンス内の最後のフレームではない場合、基準フレームを使用せずにステップ１５７および１６０において適切な復号が実行される。その手順的ステップの組が再びステップ１１６から始まり、次のフレームが次に符号化されてビット・ストリーム内に形成される。

本発明の１つの代替実施形態においては、上記ステップの順序は異なっている可能性がある。たとえば、初期化のステップは完全基準フレームの再構成および仮想基準フレームの再構成のステップで可能なように、任意の都合のよい順序で発生することができる。

１つの基準から予測されているフレームを説明してきたが、本発明のもう１つの実施形態においては、２つ以上の基準フレームを使用して特定のＩＮＴＥＲ符号化フレームを予測することができる。これは完全ＩＮＴＥＲフレームに対して、および仮想ＩＮＴＥＲフレームに対しての両方に適用される。すなわち、本発明の代替実施形態においては、完全ＩＮＴＥＲ符号化フレームは複数の完全基準フレームまたは複数の仮想基準フレームを有している可能性がある。仮想ＩＮＴＥＲフレームは複数の仮想基準フレームを有している可能性がある。さらに、１つまたは複数の基準フレームの選択は、符号化される画像の各画像セグメント、マクロブロック、ブロックまたは部分要素ごとに別々に／独立に行うことができる。基準フレームは、エンコーダの中およびデコーダの中の両方においてアクセスできるか、あるいは発生することができる任意の完全フレームまたは仮想フレームであってよい。いくつかの状況においては、Ｂフレームのケースのように、２つ以上の基準フレームが同じ画像領域に関連付けられ、符号化されるべき領域を予測するために１つの補間様式が使用される。さらに、各完全フレームを、その完全フレームの符号化された情報を分類する異なる方法および／または動き補償のための異なる基準（仮想または完全）画像および／またはビット・ストリームの高優先度部分を復号する異なる方法を使用して構成されたいくつかの異なる仮想フレームに関連付けることができる。
そのような実施形態においては、複数の完全および仮想基準フレーム・バッファがエンコーダおよびデコーダの中に用意されている。

ここで、図２０によって示されている復号手順を参照する。初期化段階において、デコーダは、仮想基準フレーム・バッファ（ステップ２１０）、通常の基準フレーム・バッファ（ステップ２１１）およびフレーム・カウンタ（ステップ２１２）を初期化する。次に、デコーダは圧縮された現在のフレームに関連しているビット・ストリームを受信する（ステップ２１４）。次に、デコーダは現在のフレームがＩＮＴＥＲフレーム・フォーマットまたはＩＮＴＲＡフレーム・フォーマットのいずれであるかを判定する（ステップ２１６）。これは、たとえば、画像ヘッダの中で受信された情報から判定することができる。

現在のフレームがＩＮＴＲＡフレーム・フォーマットであった場合、それはＩＮＴＲＡフレームの完全再構成を形成するために完全ビット・ストリームを使用して復号される（ステップ２１８）。現在のフレームが最後のフレームであった場合、手順を終了する（ステップ２２２）ための決定が行われる（ステップ２２０）。現在のフレームが最後のフレームではないと仮定して、現在のフレームを表しているビット・ストリームが仮想フレームを形成するために高優先度データを使用して復号される（ステップ２２４）。その新しく構成された仮想フレームが、次に、仮想基準フレーム・バッファ内に格納され（ステップ２４０）、そこからそれ以降の完全および／または仮想フレームの再構成に関係して使用するためにそれが呼び出される。
現在のフレームがＩＮＴＥＲフレーム・フォーマットであった場合、エンコーダにおいてその予測において使用される基準フレームが識別される（ステップ２２６）。その基準フレームは、たとえば、エンコーダからデコーダへ送信されたビット・ストリーム内に存在するデータによって識別することができる。その識別された基準は完全フレームまたは仮想フレームである可能性がある。したがって、デコーダは仮想基準が使用されるべきであるかどうかを決定する（ステップ２２８）。

仮想基準が使用される場合、それは仮想基準フレーム・バッファから呼び出される（ステップ２３０）。それ以外の場合、完全基準フレームは完全基準フレーム・バッファから呼び出される（ステップ２３２）。これは、通常の、および仮想基準フレームがそれぞれのバッファ内に存在すると予め想定する。デコーダが初期化に続いて第１のフレームを受信しているとき、これは、通常、ＩＮＴＲＡフレームであり、したがって、基準フレームは使用されない。一般に、ＩＮＴＲＡフォーマットで符号化されたフレームが復号されるときは常に基準フレームは不要である。
現在の（ＩＮＴＥＲ）フレームが次に完全受信ビット・ストリームおよび識別された基準フレームを予測基準として使用して再構成され（ステップ２３４）、新しく復号されたフレームが完全基準フレーム・バッファ内に格納され（ステップ２４２）、それを以降のフレームの再構成に関係して使用するために呼び出すことができる。

現在のフレームが最後のフレームである場合、その手順を終了する（ステップ２２２）ための決定が行われる（ステップ２３６）。現在のフレームが最後のフレームでないと仮定して、現在のフレームを表しているビット・ストリームが、仮想基準フレームを形成するために高優先度データを使用して復号される（ステップ２３８）。この仮想基準フレームは次に仮想基準フレーム・バッファ内に格納され（ステップ２４０）、そこから仮想基準フレームを、それ以降の完全フレームおよび／または仮想フレームの再構成に関連して使用するために呼び出すことができる。

仮想フレームを構成するための高優先度情報の復号は、そのフレームの完全表示を復号するときに使用されるのと同じ復号手順に従う必要は必ずしもないことに留意されたい。たとえば、仮想フレームを表している情報には存在しない低優先度情報を、その仮想フレームを復号することができるようにするためにデフォルト値で置き換えることができる。
上記のように、本発明の１つの実施形態においては、エンコーダにおいて基準フレームとして使用するための完全フレームまたは仮想フレームの選択はデコーダからのフィードバックに基づいて実行される。

図２１は、このフィードバックを提供するために図２０の手順を変更する追加のステップを示している。図２１の追加のステップは図２０のステップ２１４と２１６との間に挿入される。図２０はすでに詳細に説明したので、この追加のステップだけをここで説明する。
圧縮された現在のフレームに対するビット・ストリームが受信されると（ステップ２１４）、デコーダはそのビット・ストリームが正しく受信されたかどうかをチェックする（ステップ３１０）。これは一般的な誤りチェックを含み、その後にその誤りの影響度に依存したより多くの特定のチェックが続く。そのビット・ストリームが正しく受信されていた場合、その復号のプロセスは直接にステップ２１６へ進行することができる。そこでデコーダは現在のフレームがＩＮＴＲＡフレーム・フォーマットで符号化されているか、ＩＮＴＥＲフレーム・フォーマットで符号化されているかを、図２０に関連して説明したように判定する。

ビット・ストリームが正しく受信されていなかった場合、デコーダは次に画像ヘッダを復号することができるかどうかを判定する（ステップ３１２）。できない場合、デコーダはエンコーダを含んでいる送信側の端末に対してＩＮＴＲＡフレーム更新要求を送出し（ステップ３１４）、手順はステップ２１４へ戻る。他の方法としては、ＩＮＴＲＡフレーム更新要求を送出する代わりに、デコーダはそのフレームに対するデータのすべてが喪失したことを示すことができ、エンコーダは喪失したフレームを動き補償において参照しないように、この指示に対して反応することができる。

デコーダが画像ヘッダを復号することができる場合、デコーダは高優先度データを復号することができるかどうかを判定する（ステップ３１６）。できない場合、ステップ３１４が実行され、手順はステップ２１４へ戻る。
デコーダが高優先度データを復号することができる場合、それは低優先度データを復号することができるかどうかを判定する（ステップ３１８）。できない場合、デコーダはエンコーダを含んでいる送信側の端末に現在のフレームの低優先度データではなく、高優先度データに関して予測される次のフレームを符号化するように指示する（ステップ３２０）。次に、手順はステップ２１４へ戻る。したがって、本発明によれば、エンコーダに対するフィードバックとして新しいタイプの指示が提供される。特定の実施の詳細によれば、その指示は１つまたはそれ以上の指定された画像の符号語に関連している情報を提供することができる。その指示は受信された符号語、受信されなかった符号語を示すことができるか、あるいは受信されなかった符号語以外に受信された符号語の両方に関する情報を提供することができる。代わりに、その指示は誤りの性質を指定せずに、あるいはどの符号語が影響されたかを指定せずに、誤りが現在のフレームに対する低優先度情報の中で発生したことを示しているビットまたは符号語の形式を単純に取ることができる。

上記指示は、符号化の方法のブロック１３８に関連して上記フィードバックを提供する。デコーダからの指示を受信すると、エンコーダは、現在のフレームに基づいた仮想基準フレームに関してビデオ・シーケンス内の次のフレームを符号化すべきであることを知る。
上記手順は、エンコーダが次のフレームを符号化する前にそのフィードバック情報を受信することができる十分に短い遅延がある場合に提供される。そうでない場合、特定のフレームの低優先度部分が喪失したことの指示を送信することが好ましい。次に、エンコーダは自分が符号化しようとしている次のフレーム内の低優先度情報を使用しない方法でこの指示に対して反応する。すなわち、エンコーダは、予測チェーンが喪失した低優先度部分を含まない仮想フレームを発生する。

仮想フレームに対するビット・ストリームの復号は、完全フレームに対するビット・ストリームを復号するために使用されるビット・ストリームとは異なるアルゴリズムを使用することができる。本発明の１つの実施形態においては、複数のそのようなアルゴリズムが提供され、特定の仮想フレームを復号するための正しいアルゴリズムの選択がビット・ストリーム内で知らされる。低優先度情報が存在しない場合、それは仮想フレームの復号を可能にするためにいくつかのデフォルト値によって置き換えられるようにすることができる。デフォルト値の選択は変わる可能性があり、正しい選択が、たとえば、前のパラグラフの中で参照した指示を使用することによって、ビット・ストリーム内で知らされるようにすることができる。

図１８乃至２１の手順を適切なコンピュータ・プログラム・コードの形式で実施することができ、汎用のマイクロプロセッサまたは専用のディジタル信号プロセッサ（ＤＳＰ）上で実行することができる。
図１８乃至２１の手順は、符号化および復号に対してフレームごとの方法を使用するが、本発明の他の実施形態においては、実質的にその同じ手順を画像セグメントに対して適用することができることに留意されたい。たとえば、その方法はブロックのグループに対して、スライスに対して、マクロブロックまたはブロックに対して適用することができる。一般に、本発明はブロックのグループ、スライス、マクロブロックおよびブロックだけでなく、任意の画像セグメントに対して適用することができる。

簡略化のために、本発明の方法を使用したＢフレームの符号化および復号は説明されなかった。しかし、当業者なら、この方法をＢフレームの符号化および復号をカバーするように拡張できることは明らかであるだろう。さらに、本発明の方法はビデオ冗長符号化を採用しているシステムにも適用することができる。すなわち、同期フレームを本発明の実施形態に含めることもできる。仮想フレームが同期フレームの予測の中で使用される場合、その一次表現（すなわち、対応している完全フレーム）が正しく受信された場合にデコーダが特定の仮想フレームを発生する必要はない。たとえば、使用されているスレッドの数が２より大きいときには、同期フレームの他のコピーに対する仮想基準フレームを形成する必要もない。

本発明の１つの実施形態においては、ビデオ・フレームは少なくとも２つのサービス・データ・ユニット（すなわち、パケット）、１つは高重要度、他の１つは低重要度のものの中にビデオ・フレームがカプセル化される。Ｈ．２６Ｌが使用されている場合、その低重要度パケットは、たとえば、符号化されたブロック・データおよび予測誤差係数を含むことができる。

図１８乃至２１において、仮想フレームを形成するために高優先度情報を使用することによってフレームを復号することが記載されている（ブロック１６０、２２４および２３８参照）。本発明の１つの実施形態においては、これは以下のように２つのステージにおいて実際に実行することができる。
１）第１のステージにおいては、１つのフレームの時間的ビット・ストリーム表現が、高優先度情報および、低優先度情報に対するデフォルト値を含んで生成される。
２）第２のステージにおいては、時間的ビット・ストリーム表現が通常復号される。すなわち、すべての情報が利用できるときに実行される復号と同じ方法で行われる。

この方法は本発明の１つの実施形態だけを表していることを理解されたい。何故なら、デフォルト値の選択を調整することができ、仮想フレームに対する復号アルゴリズムは完全フレームを復号するために使用されるのと同じでない可能性があるからである。
各完全フレームから生成することができる仮想フレームの数に対して特に制限はないことに留意されたい。したがって、図１８乃至２０に関して説明された本発明の実施形態は、仮想フレームの１つのチェーンが生成される１つの可能性だけを表す。本発明の１つの好適な実施形態においては、仮想フレームの複数のチェーンが生成され、各チェーンは異なる方法、たとえば、完全フレームからの異なる情報を使用して発生された仮想フレームを含んでいる。

本発明の１つの好適な実施形態においては、ビット・ストリームのシンタックスは、エンハンスメント層が提供されていない単層の符号化において使用されたシンタックスに似ていることをさらに留意されたい。さらに、仮想フレームは一般には表示されないので、本発明によるビデオ・エンコーダを、問題の仮想基準フレームに関してそれ以降のフレームを符号化し始めるときに１つの仮想基準フレームを発生する方法を決定することができるように実施することができる。すなわち、エンコーダは前のフレームのビット・ストリームを柔軟に使用することができ、フレームをそれらが送信された後であっても符号語の異なる組合せに分割することができる。どの符号語が特定のフレームに対する高優先度情報に属しているかを示している情報を、仮想予測フレームが発生するときに送信することができる。従来技術においては、ビデオ・エンコーダはフレームを符号化している間に、そのフレームの階層型の分割を選定し、その情報が対応しているフレームのビット・ストリーム内で送信される。

図２２は、ＩＮＴＲＡ符号化フレームＩ０およびＩＮＴＥＲ符号化フレームＰ１、Ｐ２およびＰ３を含んでいるビデオ・シーケンスのセクションの復号をグラフィック形式で示している。この図は、図２０および図２１に関連して説明した手順の効果を示すために提供されており、それから分かるように、トップ・ロウ、ミドル・ロウおよびボトム・ロウを含む。トップ・ロウは再構成されて表示されるフレーム（すなわち、完全フレーム）に対応し、ミドル・ロウは各フレームに対するビット・ストリームに対応し、ボトム・ロウは生成される仮想予測基準フレームに対応する。矢印は、再構成された完全フレームおよび仮想基準フレームを生成するために使用される入力ソースを示す。この図を参照して、フレームＩ０が対応しているビット・ストリームＩ０Ｂ−Ｓから生成され、完全フレームＰ１に対する受信されたビット・ストリームと一緒に動き補償基準としてフレームＩ０を使用して再構成されることが分かる。同様に、仮想フレームＩ０'はフレームＩ０に対応するビット・ストリームの一部分から生成され、人工的なフレームＰ１'がＰ１に対するビット・ストリームの一部分と一緒に動き補償型予測に対する基準としてＩ０'を使用して生成される。完全フレームＰ２および仮想フレームＰ２'はそれぞれフレームＰ１およびＰ１'から動き補償型予測を使用して同様な方法で生成される。より詳しく言えば、完全フレームＰ２は受信されたビット・ストリームＰ１Ｂ−Ｓの情報と一緒に動き補償型予測に対する基準としてＰ１を使用して生成され、一方、仮想フレームＰ２'はビット・ストリームＰ１Ｂ−Ｓの一部分と一緒に、基準フレームとして仮想フレームＰ１'を使用して構成される。本発明によれば、Ｐ３は動き補償基準として仮想フレームＰ２'を使用し、Ｐ３に対するビット・ストリームを使用して生成される。フレームＰ２は動き補償基準としては使用されない。

図２２から、１つのフレームおよびその仮想フレームが、利用できるビット・ストリームの異なる部分を使用して復号されることは明らかである。完全フレームは利用できるビット・ストリームのすべてを使用して構成され、一方、仮想フレームはそのビット・ストリームの一部分だけを使用する。仮想フレームが使用する部分はフレームを復号する際に最も重要であるビット・ストリームの部分である。さらに、仮想フレームが使用する部分は伝送のための誤りに対して最も頑健に保護されており、正しく送信されて受信される確率が最も高いものであることが好ましい。この方法で、本発明は予測符号化チェーンを短縮することができ、そして最も重要な部分およびあまり重要でない部分を使用することによって生成される動き補償基準に基づくのではなく、ビット・ストリームの最も重要な部分から生成される仮想動き補償基準フレームに基づいてフレームを予測する。

データを高優先度および低優先度に分ける必要がない状況がある。たとえば、１つの画像に関連しているデータ全体が１つのパケット内に適合することができる場合、そのデータを分離しない方が好ましい場合がある。この場合、データ全体を仮想フレームからの予測において使用することができる。図２２を参照すると、この特定の実施形態においては、フレームＰ１'が仮想フレームＩ０'からの予測によって、そしてＰ１に対するビット・ストリーム情報のすべてを復号することによって構成される。その再構成された仮想フレームＰ１'はフレームＰ１に等価ではない。何故なら、フレームＰ１に対する予測基準がＩ０であり、一方、フレームＰ１'に対する予測基準がＩ０'だからである。したがって、Ｐ１'はこのケースにおいても仮想フレームであり、それは高優先度および低優先度に優先順位付けられていない情報を有しているフレーム（Ｐ１）から予測される。

本発明の１つの実施形態をここで図２３を参照して説明する。この実施形態においては、動きのデータおよびヘッダのデータがビデオ・シーケンスから生成されるビット・ストリーム内の予測誤差データから分離されている。動きのデータおよびヘッダのデータは、動きパケットと呼ばれる伝送パケット内にカプセル化され、予測誤差データは予測誤差パケットと呼ばれる伝送パケット内にカプセル化されている。これはいくつかの連続して符号化された画像に対して行われる。動きパケットは優先度が高く、それらは可能であって必要であるときにはいつでも再送信される。何故なら、デコーダが動きデータを正しく受信する場合には誤り隠蔽の方法がベターだからである。また、動きパケットを使用することは圧縮効率を改善する効果もある。図２３に示されている例においては、エンコーダは動きおよびヘッダのデータをＰフレーム１〜３から分離し、その情報から動きパケット（Ｍ１〜３）を形成する。Ｐフレーム１〜３に対する予測誤差データは別の予測誤差パケット（ＰＥ１，ＰＥ２，ＰＥ３）内で伝送される。動き補償基準としてＩ１を使用する他に、エンコーダはＩ１およびＭ１〜３に基づいて仮想フレームＰ１'，Ｐ２'およびＰ３'を生成する。すなわち、エンコーダは、Ｉ１および予測フレームＰ１、Ｐ２、およびＰ３の動き部分を復号し、Ｐ２'がＰ１'から予測され、Ｐ３'がＰ２'から予測されるようにする。次に、Ｐ３'がフレームＰ４に対する動き補償基準として使用される。この実施形態においては、仮想フレームＰ１'，Ｐ２'およびＰ３'は予測誤差データを含んでいないので、ゼロ予測誤差（ＺＰＥ）フレームと呼ばれる。

図１８乃至２１の手順がＨ．２６Ｌに適用されるとき、画像はそれらが画像ヘッダを含むように符号化される。画像ヘッダの中に含まれている情報は、上記分類方式における高優先度情報である。何故なら、画像ヘッダなしでは、画像全体を復号することができないからである。各画像ヘッダは画像タイプ（Ｐｔｙｐｅ）フィールドを含んでいる。本発明によれば、画像が１つまたはそれ以上の仮想基準フレームを使用するかどうかを示すための特定の１つの値が含まれている。Ｐｔｙｐｅフィールドの値が１つまたはそれ以上の仮想基準フレームが使用されることを示している場合、その画像ヘッダには基準フレームを発生するための方法に関する情報も提供されている。本発明の他の実施形態においては、使用されるパケット化の種類に依存して、この情報をスライス・ヘッダ、マクロブロック・ヘッダおよび／またはブロック・ヘッダの中に含めることができる。さらに、所与のフレームの符号化に関して複数の基準フレームが使用される場合、その基準フレームのうちの１つまたはそれ以上が仮想フレームであってよい。次のシグナリング方式が使用される。

１．基準フレームを発生するために過去のビット・ストリームのどのフレームが使用されるかの指示が、送信されるビット・ストリーム内に提供される。２つの値が送信される。１つは予測のために使用される時間的に最近の画像に対応し、そしてもう１つは予測のために使用される時間的に最も以前の画像に対応する。当業者であれば、図１８乃至２０に示されている符号化および復号手順をこの指示を使用するように適当に変更できることは明らかであるだろう。
２．仮想フレームを発生するためにどの符号化パラメータが使用されるかの指示。ビット・ストリームは予測のために使用される最低優先度クラスの指示を搬送することができる。たとえば、ビット・ストリームがクラス４に対応している指示を搬送する場合、その仮想フレームはクラス１、２、３、および４に属しているパラメータから形成される。本発明の代替実施形態においては、もっと一般的な方式が使用され、その中で仮想フレームを構成するために使用される各クラスが個々に示される。

図２４は本発明によるビデオ伝送システム４００を示す。このシステムは通信用のビデオ端末４０２および４０４を含む。この実施形態においては、端末間の通信が示されている。もう１つの実施形態においては、システムは端末からサーバへ、あるいはサーバから端末への通信のために構成することができる。システム４００はビット・ストリームの形式でのビデオ・データの双方向伝送を可能にすることが意図されているが、ビデオ・データの一方向伝送だけを可能にすることもできる。簡略化のために、図２４に示されているシステム４００においては、ビデオ端末４０２は、送信側の（符号化）ビデオ端末であり、ビデオ端末４０４は受信側の（復号）ビデオ端末である。

送信側のビデオ端末４０２は、エンコーダ４１０とトランシーバ４１２とを含む。エンコーダ４１０は、完全フレーム・エンコーダ４１４と、仮想フレーム・コンストラクタ４１６と、完全フレームを格納するためのマルチフレーム・バッファ４２０と、仮想フレームを格納するためのマルチフレーム・バッファ４２２とを含む。

完全フレーム・エンコーダ４１４は、完全フレームの符号化された表現を形成し、それはそれ以降の完全再構成のための情報を含んでいる。したがって、完全フレーム・エンコーダ４１４は図１８および１９のステップ１１８乃至１４６およびステップ１５０を実行する。より詳細に説明すると、完全フレーム・エンコーダ４１４はＩＮＴＲＡフォーマット（例えば、図１８のステップ１２８および１３０に従って）またはＩＮＴＥＲフォーマットのいずれかにおいて完全フレームを符号化することができる。特定のフォーマット（ＩＮＴＲＡまたはＩＮＴＥＲ）にフレームを符号化するための決定は、図１８のステップ１２０、１２２および／または１２４においてエンコーダに対して提供される情報に従って行われる。ＩＮＴＥＲフォーマットで符号化される完全フレームの場合、完全フレーム・エンコーダ４１４は動き補償型予測のための基準として完全フレーム（図１８のステップ１４４および１４６による）、または仮想基準フレーム（図１８のステップ１４２および１４６による）のいずれかを使用することができる。

本発明の１つの実施形態においては、完全フレーム・エンコーダ４１４は所定の方式に従って動き補償型予測のために完全または仮想基準フレームを選択することができる（図１８のステップ１３６による）。他の好適な実施形態においては、完全フレーム・エンコーダ４１４は、さらに、以降の完全フレームの符号化において仮想基準フレームが使用されるべきであることを指定している指示を受信側のエンコーダからのフィードバックとして受信することができる（図１８のステップ１３８による）。完全フレーム・エンコーダはローカルの復号機能も含み、図１９のステップ１５７に従って完全フレームの再構成されたバージョンを形成する。それは図１９のステップ１５８に従ってマルチフレーム・バッファ４２０内に格納する。したがって、復号された完全フレームは、ビデオ・シーケンスにおけるそれ以降のフレームの動き補償型予測に対する基準フレームとして使用するのに利用できるようになる。

仮想フレーム・コンストラクタ４１６は、図１９のステップ１６０および１６２に従って、完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、完全フレームの高優先度情報を使用して構成された完全フレームの１つのバージョンとして仮想フレームを画定する。より詳しく言えば、仮想フレーム・コンストラクタは低優先度情報のうちの少なくともいくつかが存在しない場合に、完全フレームの高優先度情報を使用して完全フレーム・エンコーダ４１４によって符号化されたフレームを復号することによって仮想フレームを形成する。次に、その仮想フレームをマルチフレーム・バッファ４２２の中に格納する。したがって、その仮想フレームはビデオ・シーケンス内のそれ以降のフレームの動き補償型予測に対する基準フレームとして使用するのに利用できるようになる。

エンコーダ４１０の１つの実施形態によれば、完全フレームの情報は完全フレーム・エンコーダ４１４において図１９のステップ１４８に従って優先順位付けられる。１つの代替実施形態によれば、図１９のステップ１４８による優先順位付けは仮想フレーム・コンストラクタ４１６によって実行される。フレームに対する符号化された情報の優先順位付けに関する情報がデコーダに送信される本発明の実施形態においては、各フレームに対する情報の優先順位付けは完全フレーム・エンコーダまたは仮想フレーム・コンストラクタ４１６のいずれかによって発生する可能性がある。フレームに対する符号化された情報の優先順位付けが完全フレーム・エンコーダ４１４によって実行される実施例においては、完全フレーム・エンコーダ４１４はデコーダ４０４に対するそれ以降の伝送のための優先順位情報を形成することも担当する。同様に、フレームに対する符号化情報の優先順位付けが仮想フレーム・コンストラクタ４１６によって実行される実施形態においては、仮想フレーム・コンストラクタ４１６はデコーダ４０４に対する伝送のために優先順位付け情報を形成することも担当する。

受信側のビデオ端末４０４はデコーダ４２３とトランシーバ４２４とを含む。デコーダ４２３は完全フレーム・デコーダ４２５と、仮想フレーム・デコーダ４２６と、完全フレームを格納するためのマルチフレーム・バッファ４３０と、仮想フレームを格納するためのマルチフレーム・バッファ４３２とを含む。

完全フレーム・デコーダ４２５は完全フレームの完全再構成のための情報を含んでいるビット・ストリームから完全フレームを復号する。完全フレームはＩＮＴＲＡまたはＩＮＴＥＲフォーマットのいずれかで符号化されている可能性がある。したがって、完全フレーム・デコーダは図２０のステップ２１６、２１８およびステップ２２６乃至２３４を実行する。完全フレーム・デコーダは新しく再構成された完全フレームを図２０のステップ２４２に従って、動き補償型予測基準フレームとして将来使用するためにマルチフレーム・バッファ４３０の中に格納する。

仮想フレーム・デコーダ４２６は、そのフレームがＩＮＴＲＡまたはＩＮＴＥＲフォーマットのどれで符号化されているかに依存して、図２０のステップ２２４または２３８に従って完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、完全フレームの高優先度情報を使用して完全フレームのビット・ストリームから仮想フレームを形成する。さらに、仮想フレーム・デコーダは、その新しく復号された仮想フレームを図２０のステップ２４０に従って、動き補償型予測基準フレームとして将来使用するためにマルチフレーム・バッファ４３２の中に格納する。

本発明の１つの実施形態によれば、ビット・ストリームの情報は送信側の端末４０２のエンコーダ４１０の中で使用されたのと同じ方式に従って、仮想フレーム・デコーダ４２６の中でビット・ストリームの情報が優先順位付けられる。１つの代替実施形態においては、受信側の端末４０４は完全フレームの情報を優先順位付けるためにエンコーダ４１０の中で使用された優先順位付けの方式の指示を受信する。この指示によって提供された情報が次に仮想フレーム・デコーダ４２６によって使用され、エンコーダ４１０の中で使用される優先順位付けが決定され、その後、仮想フレームが形成される。

ビデオ端末４０２は符号化されたビット・ストリーム４３４を発生し、それがトランシーバ４１２によって送信され、適切な伝送媒体上でトランシーバ４２４によって受信される。本発明の１つの実施形態においては、その伝送媒体は無線通信システムにおけるエア・インターフェースである。トランシーバ４２４はトランシーバ４１２に対してフィードバック４３６を送信する。このフィードバックの性質についてはすでに説明されている。

ＺＰＥフレームを利用したビデオ伝送システム５００の動作を以下に説明する。図２５に、システム５００を示す。システム５００は、送信端末５１０と複数の受信端末５１２（そのうちの１つだけが示されている）を有し、それらが伝送チャネルまたはネットワーク上で通信する。送信端末５１０は、エンコーダ５１４と、パケタイザ５１６と送信機５１８とを含む。それはまた、ＴＸ−ＺＰＥデコーダ５２０も含む。各受信端末５１２は、受信機５２２と、デパケタイザ５２４と、デコーダ５２６とを含む。また、それらはそれぞれＲＸ−ＺＰＥデコーダ５２８も含む。

エンコーダ５１４は、未圧縮のビデオを符号化して、圧縮されたビデオ画像を形成する。パケタイザ５１６は、圧縮されたビデオ画像を伝送用パケット内にカプセル化する。それはエンコーダから得られた情報を再編成することができる。また、動き補償のための予測誤差データを含まないビデオ画像（ＺＰＥビット・ストリームと呼ばれる）も出力する。ＴＸ−ＺＰＥデコーダ５２０は、ＺＰＥビット・ストリームを復号するために使用される通常のビデオ・デコーダである。送信機５１８は、伝送チャネルまたはネットワーク上でパケットを配信する。受信機５２２は、伝送チャネルまたはネットワークからパケットを受信する。デパケタイザ５２４は、伝送パケットを非パケット化し、圧縮されたビデオ画像を生成する。伝送中にいくつかのパケットが喪失していた場合、デパケタイザ５２４は、圧縮されたビデオ画像の中の喪失を隠そうとする。さらに、デパケタイザ５２４は、ＺＰＥビット・ストリームを出力する。デコーダ５２６は、圧縮されたビデオ・ビット・ストリームから画像を再構成する。ＲＸ−ＺＰＥデコーダ５２８は、ＺＰＥビット・ストリームを復号するために使用される通常のビデオ・デコーダである。

エンコーダ５１４は、パケタイザ５１６が予測基準として使用されるべきＺＰＥフレームを要求した時以外は普通に動作する。次に、エンコーダ５１４は、デフォルトの動き補償参照画像を、ＴＸ−ＺＰＥデコーダ５２０によって配信されるＺＰＥフレームへ変更する。さらに、エンコーダ５１４は、圧縮されたビット・ストリーム内で、たとえば、その画像の画像タイプの中でのＺＰＥフレームの使用を知らせる。

デコーダ５２６は、ビット・ストリームがＺＰＥフレーム信号を含んでいるときを除いて普通に動作する。次に、デコーダ５２６は、デフォルトの動き補償参照画像をＲＸ−ＺＰＥデコーダ５２８によって配信されるＺＰＥフレームへ変更する。

本発明の性能を現在のＨ．２６Ｌ勧告の中で規定されている参照画像選択に対して比較して示す。３つの一般に利用できるテスト・シーケンス、すなわち、Ａｋｉｙｏ、Ｃｏａｓｔｇｕａｒｄ、およびＦｏｒｅｍａｎが比較される。そのシーケンスの分解能は、ＱＣＩＦであり、輝度画像のサイズが１７６×１４４ピクセルであり、プロミナンス画像のサイズが８８×７２ピクセルである。ＡｋｉｙｏおよびＣｏａｓｔｇｕａｒｄは、３０フレーム／秒で捕捉され、一方、Ｆｏｒｅｍａｎのフレーム・レートは２５フレーム／秒である。そのフレームは、ＩＴＵ−Ｔ勧告Ｈ．２６３に従ってエンコーダによって符号化された。異なる方法を比較するために、一定のターゲット・フレーム・レート（１０フレーム／秒）および一定個数の画像量子化パラメータが使用された。スレッド長Ｌは、動きパケットのサイズが１４００バイトより少ないように選択された（すなわち、１つのスレッドに対する動きデータが１４００バイトより少ない）。

ＺＰＥ−ＲＰＳのケースは、フレームＩ１，Ｍ１−Ｌ，ＰＥ１，ＰＥ２，...，ＰＥＬ、Ｐ（Ｌ＋１）（ＺＰＥ１−Ｌから予測された）、Ｐ（Ｌ＋２），...，を有し、一方、通常のＲＰＳのケースは、フレームＩ１，Ｐ１，Ｐ２，...、ＰＬ，Ｐ（Ｌ＋１）（Ｉ１から予測された），Ｐ（Ｌ＋２）を有する。２つのシーケンスの中で符号化が異なっている唯一のフレームは、Ｐ（Ｌ＋１）であったが、両方のシーケンスにおけるこのフレームの画像品質は、一定量子化ステップを使用したがために同様であった。以下の表はその結果を示している。

この結果のビットレート増加の列から、ゼロ予測誤差フレームは、参照画像選択が使用されたときに圧縮効率を改善することが分かる。
本発明の特定の実施例および実施形態が説明されてきた。当業者なら、本発明は上記実施形態の詳細には制限されず、本発明の特性から離れることなしに同等な手段を使用した他の実施形態において実施できることは明らかである。本発明の範囲は、添付の特許請求の範囲によってのみ制限される。

ビデオ伝送システムを示す。ＩＮＴＥＲ（Ｐ）画像の予測および双方向に予測される（Ｂ）画像を示す。ＩＰのマルチキャスティング・システムを示す。ＳＮＲスケーラブル画像を示す。空間的スケーラブル画像を示す。細粒度スケーラブル符号化における予測の関係を示す。スケーラブル符号化において使用される従来の予測関係を示す。漸進的細粒度スケーラブル符号化における予測関係を示す。漸進的細粒度スケーラビリティにおけるチャネル適応を示す。従来の時間的予測を示す。参照画像選択を使用した予測経路の短縮を示す。ビデオ冗長符号化を使用した予測経路の短縮を示す。損傷したスレッドを処理しているビデオ冗長符号化を示す。ＩＮＴＲＡフレームの再配置およびＩＮＴＥＲフレームの逆方向予測の適用による予測経路の短縮を示す。ＩＮＴＲＡフレームに続く従来のフレーム予測関係を示す。ビデオ伝送システムを示す。Ｈ．２６ＬＴＭＬ−４テスト・モデルにおけるシンタックス要素の依存性を示す。本発明による符号化の手順を示す。（その１）本発明による符号化の手順を示す。（その２）本発明による復号手順を示す。図２０の復号手順の変形を示す。本発明によるビデオ符号化方法を示す。本発明による別のビデオ符号化方法を示す。本発明によるビデオ伝送システムを示す。ＺＰＥ画像を利用したビデオ伝送システムを示す。

任意のスライス構造モードが使用される場合、各画像はＧＯＢの代わりにスライスに分割される。各スライスに対するデータは、スライス・ヘッダとその後に続くマクロブロックに対するデータとを含む。
スライスは、符号化された画像内の領域を規定する。通常、その領域は、通常の走査順のいくつかのマクロブロックである。同じ符号化された画像内のスライス境界にまたがる予測依存性はない。しかし、時間的予測は、一般に、Ｈ．２６３の付属書類Ｒ（独立セグメント・デコーディング）が使用されていない限り、スライス境界にまたがる可能性がある。スライスは、画像データの他の部分（画像ヘッダを除く）から独立に復号することができる。結果として、スライス構造型モードを使用することによってパケットが喪失し易いネットワーク、いわゆるパケット喪失の多いパケットベースのネットワークにおいて誤りに対する許容力を改善することができる。

通常、ビデオ符号化方式は、伝送されるビット・ストリーム内の符号化されたビデオ・フレームまたは画像を記述する情報を含む。この情報はシンタックス要素の形式を取る。シンタックス要素は、その符号化方式の中で同様な機能を備えている符号語または符号語のグループである。シンタックス要素は優先度クラスに分類される。シンタックス要素の優先度クラスは、他のクラスに対するその符号化および復号依存性に従って規定される。復号依存性は、時間的予測、空間的予測の使用および可変長符号化の使用の結果として生じる。優先度クラスを規定するための一般的な規則は以下の通りである。
１．シンタックス要素Ａを、シンタックス要素Ｂの知識なしで正しく復号することができ、シンタックス要素Ｂは、シンタックス要素Ａの知識なしでは正しく復号できない場合、シンタックス要素Ａの優先度はシンタックス要素Ｂより高い。
２．シンタックス要素ＡおよびＢが独立に復号できる場合、各シンタックス要素の画像品質に及ぼす影響の度合いがその優先度クラスを決定する。

シンタックス要素と、伝送誤りに起因するシンタックス要素における誤りまたはシンタックス要素の喪失の効果との間の依存性を、図１７に示されているように依存性ツリーとして視覚化することができる。図１７は、現在のＨ．２６Ｌテスト・モデルの各種のシンタックス要素間の依存性を示している。誤っているか、あるいは欠落しているシンタックス要素は、同じブランチ内にあって依存性ツリーのルートからさらに離れているシンタックス要素の復号にのみ影響する。したがって、ツリーのルートに近いシンタックス要素が復号された画像の品質に及ぼす影響は、それより低い優先度クラス内のシンタックス要素より大きい。
通常、優先度クラスは、フレームごとのベースで規定される。スライス・ベースの画像符号化モードが使用されている場合、優先度クラスに対するシンタックス要素の割当てにおける何らかの調整が実行される。

第１の態様によれば、本発明は、ビット・ストリームを発生するためにビデオ信号を符号化するための方法を提供する。前記方法は、第１の完全フレームを再構成するための、高優先度および低優先度情報に優先順位付けられている情報を含むビット・ストリームの第１の部分を形成することにより、第１の完全フレームを符号化するステップと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて第１の仮想フレームを規定するステップと、第２の完全フレームの再構成において使用するための情報を含むビット・ストリームの第２の部分を形成することにより第２の完全フレームを符号化し、第２の完全フレームを、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて完全に再構成することができるようにするステップとを含む。

好適には、前記方法は、また、第２の完全フレームの情報を高優先度情報および低優先度情報に優先順位付けるステップと、第２の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第２の完全フレームの高優先度情報を使用して構成された第２の完全フレームの１つのバージョンに基づいて第２の仮想フレームを規定するステップと、第２の完全フレームおよびビット・ストリームの第３の部分に含まれる情報に基づいて第３の完全フレームが完全に再構成できるように、第３の完全フレームの再構成において使用するための情報を含むビット・ストリームの第３の部分を形成することにより第３の完全フレームを符号化するステップとを含む。

第２の態様によれば、本発明は、ビット・ストリームを発生するためにビデオ信号を符号化するための方法を提供する。前記方法は、第１の完全フレームを再構成するための、高優先度および低優先度情報に優先順位付けられている情報を含むビット・ストリームの第１の部分を形成することにより、第１の完全フレームを符号化するステップと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて第１の仮想フレームを規定するステップと、第２の完全フレームの再構成において使用するための情報を含むビット・ストリームの第２の部分を形成することにより第２の完全フレームを符号化し、前記情報が高優先度情報および低優先度情報に優先順位付けられていて、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２のフレームが完全に再構成されるように第２のフレームが符号化されるステップと、第２の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第２の完全フレームの高優先度情報を使用して構成された第２の完全フレームの１つのバージョンに基づいて第２の仮想フレームを規定するステップと、第２の完全フレームから予測され、ビット・ストリームの第３の部分を形成することによりシーケンス内で第２の完全フレームに続く第３の完全フレームを符号化し、ビット・ストリームは第３の完全フレームの再構成において使用するための情報を含み、第３の完全フレームを第２の完全フレームおよび、ビット・ストリームの第３の部分に含まれる情報に基づいて完全に再構成できるようにするステップとを含む。

本発明のもう１つの実施形態においては、２つ以上の仮想フレームが第１の完全フレームの情報から規定され、上記２つ以上の各仮想フレームは、第１の完全フレームの異なる高優先度情報を使用して規定されている。

本発明のさらにもう１つの実施形態においては、２つ以上の仮想フレームが第１の完全フレームの情報から規定され、上記２つ以上の各仮想フレームは、第１の完全フレームの情報の異なる優先順位付けを使用して形成された第１の完全フレームの異なる高優先度情報を使用して規定される。
好適には、完全フレームの再構成のための情報が、その完全フレームを再構成する際のその重要性に従って高優先度および低優先度情報に優先順位付けられる。
完全フレームはスケーラブル・フレーム構造のベース層であってよい。

仮想フレームは、高優先度情報から構成されるか、あるいは規定されるだけではなく、いくつかの低優先度情報から構成されるか、あるいは規定される可能性もある。
仮想フレームは、仮想フレームの順方向予測を使用して前の仮想フレームから予測することができる。他の方法として、あるいは追加として、仮想フレームは仮想フレームの逆方向予測を使用してそれ以降の仮想フレームから予測することができる。ＩＮＴＥＲフレームの逆方向予測は、図１４に関連して説明してきた。この原理は仮想フレームに対して容易に適用できることを理解することができるだろう。

順方向予測フレームを使用して、完全フレームを前の完全フレームまたは仮想フレームから予測することができる。他の方法として、あるいは追加として、逆方向予測を使用して完全フレームをそれ以降の完全フレームまたは仮想フレームから予測することができる。
仮想フレームが高優先度情報によって規定されているだけでなく、いくつかの低優先度情報によっても規定されている場合、その仮想フレームを、その高優先度情報および低優先度情報の両方を使用して復号することができ、さらに別の仮想フレームに基づいて予測することができる。
仮想フレームに対するビット・ストリームの復号は、完全フレームに対するビット・ストリームの復号において使用されるものとは異なるアルゴリズムを使用することができる。仮想フレームを復号するための複数のアルゴリズムがあり得る。特定のアルゴリズムの選択はビット・ストリーム内で知らせることができる。
低優先度情報が存在しない場合、それをデフォルト値で置き換えることができる。そのデフォルト値の選択は変わる可能性があり、正しい選択はビット・ストリーム内で知らされる。

第３の態様によれば、本発明は、ビデオ信号を発生するためにビット・ストリームを復号するための方法を提供する。前記方法は、第１の完全フレームの再構成のために、高優先度情報および低優先度情報に優先順位付けられている情報を含むビット・ストリームの第１の部分から第１の完全フレームを復号するステップと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて第１の仮想フレームを規定するステップと、第１の仮想フレームを、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するステップとを含む。

好適には、前記方法は、また、第２の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第２の完全フレームの高優先度情報を使用して構成された第２の完全フレームの１つのバージョンに基づいて第２の仮想フレームを規定するステップと、第２の完全フレームおよびビット・ストリームの第３の部分に含まれる情報に基づいて第３の完全フレームを予測するステップとを含むことが好ましい。

第４の態様によれば、本発明は、ビデオ信号を発生するためにビット・ストリームを復号するための方法を提供する。前記方法は、第１の完全フレームの再構成のために、高優先度情報および低優先度情報に優先付けられている情報を含むビット・ストリームの第１の部分から第１の完全フレームを復号するステップと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて第１の仮想フレームを規定するステップと、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するステップと、第２の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第２の完全フレームの高優先度情報を使用して構成された第２の完全フレームの１つのバージョンに基づいて第２の仮想フレームを規定するステップと、第２の完全フレームおよびビット・ストリームの第３の部分に含まれる情報に基づいて第３の完全フレームを予測するステップとを含む。

第５の態様によれば、本発明は、ビット・ストリームを発生するためにビデオ信号を符号化するためのビデオ・エンコーダを提供する。前記エンコーダは、第１の完全フレームの再構成のために、高優先度情報および低優先度情報に優先順位付けられている情報を含む第１の完全フレームのビット・ストリームの第１の部分を形成するための完全フレーム・エンコーダと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて少なくとも第１の仮想フレームを規定する仮想フレーム・エンコーダと、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するためのフレーム予測器とを備える。
完全フレーム・エンコーダはフレーム予測器を含むことが好ましい。

第７の態様によれば、本発明は、ビデオ信号をビット・ストリームに符号化するため、およびビット・ストリームをビデオ信号に復号するためのビデオ通信システムを提供する。前記システムはエンコーダとデコーダとを備える。エンコーダは、第１の完全フレームの再構成のために、高優先度情報および低優先度情報に優先付けられている情報を含む第１の完全フレームのビット・ストリームの第１の部分を形成するための完全フレーム・エンコーダと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて第１の仮想フレームを規定する仮想フレーム・エンコーダと、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するためのフレーム予測器とを備え、デコーダは、ビット・ストリームの第１の部分から第１の完全フレームを復号するための完全フレーム・デコーダと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して、ビット・ストリームの第１の部分から第１の仮想フレームを形成するための仮想フレーム・デコーダと、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するためのフレーム予測器とを備える。
完全フレーム・エンコーダはフレーム予測器を含むことが好ましい。

第８の態様によれば、本発明は、ビット・ストリームを発生するためにビデオ信号を符号化するためのビデオ・エンコーダを含んでいるビデオ通信端末を提供する。前記ビデオ・エンコーダは、第１の完全フレームの再構成のために、高優先度情報および低優先度情報に優先付けられている情報を含む第１の完全フレームのビット・ストリームの第１の部分を形成するための完全フレーム・エンコーダと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて少なくとも第１の仮想フレームを規定する仮想フレーム・エンコーダと、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するためのフレーム予測器とを備える。
完全フレーム・エンコーダはフレーム予測器を含むことが好ましい。

第１０の態様によれば、本発明は、ビット・ストリームを発生するためにビデオ信号を符号化するためのビデオ・エンコーダとしてコンピュータを動作させるためのコンピュータ・プログラムを提供する。前記プログラムは、第１の完全フレームの完全再構成のために、高優先度情報および低優先度情報に優先付けられている情報を含むビット・ストリームの第１の部分を形成することにより、第１の完全フレームを符号化するためのコンピュータ実行可能コードと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて第１の仮想フレームを規定するためのコンピュータ実行可能コードと、第２の完全フレームの再構成のための情報を含むビット・ストリームの第２の部分を形成し、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームが再構成されるようにする、第２の完全フレームを符号化するためのコンピュータ実行可能コードとを含む。

第１１の態様によれば、本発明は、ビデオ信号を発生するためにビット・ストリームを復号するためのビデオ・エンコーダとしてコンピュータを動作させるためのコンピュータ・プログラムを提供する。前記プログラムは、第１の完全フレームの再構成のために、高優先度情報および低優先度情報に優先付けられている情報を含むビット・ストリームの部分から第１の完全フレームを復号するためのコンピュータ実行可能コードと、第１の完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、第１の完全フレームの高優先度情報を使用して構成された第１の完全フレームの１つのバージョンに基づいて第１の仮想フレームを規定するためのコンピュータ実行可能コードと、第１の完全フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいてではなく、第１の仮想フレームおよびビット・ストリームの第２の部分に含まれる情報に基づいて第２の完全フレームを予測するためのコンピュータ実行可能コードとを含む。
好適には、第１０および１１の態様のコンピュータ・プログラムは、データ記憶媒体上に格納されていることが好ましい。これは携帯用のデータ記憶媒体または装置内のデータ記憶媒体であってよい。上記装置は、携帯機器、たとえば、ラップトップ・コンピュータ、携帯情報端末または携帯電話であってよい。

本発明は仮想フレームの概念を導入する。それはビデオ・エンコーダにおいて作り出される符号化された情報の最重要部分を使用して構成される。この場合、「最重要」という用語は、フレームの正しい再構成に最も強く影響する圧縮されたビデオ・フレームの符号化表示の中の情報を指す。たとえば、ＩＴＵ−Ｔ勧告Ｈ．２６３に従う圧縮されたビデオ・データの符号化において使用されるシンタックス要素の場合には、符号化されたビット・ストリーム内の最重要情報はシンタックス要素間の復号の関係を規定している依存性のルートにより近いシンタックス要素を含むと考えることができる。すなわち、更なるシンタックス要素の復号を可能にするために正しく復号されなければならないシンタックス要素を、圧縮されたビデオ・フレームの符号化された表示における最重要／高優先度情報を表すものと考えることができる。

仮想フレーム・コンストラクタ４１６は、図１９のステップ１６０および１６２に従って、完全フレームの低優先度情報のうちの少なくともいくつかが存在しない場合に、完全フレームの高優先度情報を使用して構成された完全フレームの１つのバージョンとして仮想フレームを規定する。より詳しく言えば、仮想フレーム・コンストラクタは低優先度情報のうちの少なくともいくつかが存在しない場合に、完全フレームの高優先度情報を使用して完全フレーム・エンコーダ４１４によって符号化されたフレームを復号することによって仮想フレームを形成する。次に、その仮想フレームをマルチフレーム・バッファ４２２の中に格納する。したがって、その仮想フレームはビデオ・シーケンス内のそれ以降のフレームの動き補償型予測に対する基準フレームとして使用するのに利用できるようになる。

Claims

デコーダの動作方法であって：
高優先度または低優先度に優先度が定められているシンタックス要素の第１の組によって記述される、第１の符号化ビデオフレームを受信することと；
前記第１の組の前記シンタックス要素のうち前記高優先度を有するもののみによって形成され、前記低優先度を有するものは意図的に使われないようにして形成された、第１の符号化仮想ビデオフレームを受信することと；
前記シンタックス要素の前記第１の組の全てを利用して、第１の基準フレームを復号すると共に、該復号した前記第１の基準フレームをデータ記憶媒体へ保存することと；
前記第１の組の前記シンタックス要素のうち前記高優先度を有するもののみを利用して、第２の基準フレームを復号すると共に、該復号した前記第２の基準フレームを前記データ記憶媒体へ保存すること、ただし前記第２の基準フレームの復号を、前記第１の符号化ビデオフレームおよび前記第１の符号化仮想ビデオフレームの送信者から提供される情報に基づいて選択されるアルゴリズムによって行なうことと；
を含む、方法。