JP2006279971A

JP2006279971A - ビデオ符号化における画像フレームのグループ化

Info

Publication number: JP2006279971A
Application number: JP2006120296A
Authority: JP
Inventors: Miska Hannuksela; ハンウクセラ，ミスカ
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2002-01-23
Filing date: 2006-04-25
Publication date: 2006-10-12
Anticipated expiration: 2023-01-22
Also published as: KR20060069528A; KR100959573B1; KR100931915B1; EP1670259A3; US20060120464A1; CN1288915C; MXPA04007020A; RU2297729C2; BR0306958A; JP4819562B2; US8204134B2; EP1670259A2; RU2006110321A; EP1670260A3; US8050321B2; WO2003063505A1; EP1479245A1; JP2006279972A; US20060120451A1; JP2005516498A

Abstract

【課題】圧縮ビデオシーケンスの復号において、エンゴータが意図的に除去した画像フレームをデコーダが復号時に考慮できるようにする方法及び装置を提供する。
【解決手段】圧縮ビデオシーケンスの復号において、画像フレームを復号に関連してバッファメモリに格納する。ビデオシーケンスは画像フレームの番号付けにおける不連続に関する指示を含み、この指示をビデオシーケンスから復号する。次に、この指示に応答して、上記のバッファメモリを、画像フレームの番号付けにおける不連続に対応する数の画像フレームを与えるように構成し、このバッファメモリによって与えられる画像フレームを復号プロセスにおいて使用する。上記の指示は、ビデオシーケンスの画像フレームの番号付けにおける不連続が意図的であることを知らせ、またバッファメモリによって与えられる数の画像フレームが、デコーダに存在しない画像フレームの代わりに使用される。
【選択図】図２

Description

本発明は、マルチメディアファイルのグループ化、特にビデオファイルのグループ化、そして特に、ストリーミングとの関連におけるそのグループ化に関する。

「ストリーミング（streaming）」なる用語は、データ（通例、オーディオおよびビデオファイルなどのマルチメディアデータ）を同時に送信および再生することに関するものであり、受信側（recipient）は、送信されるべきデータの全てが受信される前に、既にデータの再生を開始できるものである。マルチメディアデータストリーミングシステムは、ストリーミングサーバと、受信側がストリーミングサーバに対する（通例、通信ネットワークを通じての）データ接続を設定するために用いる端末装置とを備える。ストリーミングサーバ（streaming server）から、受信側は、格納されているかあるいはリアルタイムのマルチメディアデータを検索すると、そのマルチメディアデータの再生が、最も有利には、データの送信とほとんどリアルタイムで、端末に含まれたストリーミングアプリケーション（streaming application）により開始可能となる。

ストリーミングサーバの観点からすると、ストリーミングは、端末に対して、通常のストリーミングとして、あるいは、プログレッシブダウンロード（progressive downloading）として実行することができる。通常のストリーミングでは、マルチメディアデータ及び／又はデータの内容の送信は、送信のビットレートが端末装置の再生速度に実質的に相当していることを確認することにより制御される、あるいは、送信に用いられる通信ネットワークにより、データ転送にボトルネックが生じているならば、送信のビットレートが通信ネットワークにて利用可能な帯域幅に実質的に相当していることを確認することにより制御される。プログレッシブダウンロードでは、マルチメディアデータ及び／又はデータの内容の送信は、必ずしも干渉されなければならないものではなく、マルチメディアファイルは、それ自体、受信側に対して、通例転送プロトコルフロー制御（transfer protocol flow control）を用いることによって送信される。そのとき、端末は、サーバから送信されたデータの正確なコピーを受信し、格納及び再生し、そして、そのコピーは、通信ネットワークを通じてストリーミングを再開する必要なしに、端末上で後で再生可能である。しかしながら、端末内に格納されているマルチメディアファイルは、通例、非常に大きく、それを端末へ転送するには時間がかかり、また、かなりの量の記憶容量を必要とし、このことが、通常のストリーミングの方が好まれることが多い理由である。

マルチメディアファイル内のビデオファイルには、非常に多くの静止画像フレームが含まれており、それらは、連続して高速に表示されて（通例、毎秒１５から３０フレーム）、動画として感じられるようになる。通例、画像フレームは、実質的に変更されないままの画像情報により決定されるいくつもの静止した背景オブジェクト（background object）と、ある程度変化する画像情報により決定される若干の動くオブジェクトとを含んでいる。連続的に表示される画像フレームからなる情報は、通例、ほとんど類似している、すなわち、連続した画像フレームにはかなりの冗長性がある。ビデオフレームに現れるこの冗長性は、空間的、時間的、及びスペクトル的な冗長性に分けられる。空間的冗長性（spatial redundancy）は近接した画素の相関のことであり、時間的冗長性（temporal redundancy）は連続したフレームにおける特定の画像オブジェクト内に生じる変化のことであり、スペクトル的冗長性（spectral redundancy）は画像フレーム内の異った色成分の相関のことである。

ビデオファイル内のデータ量を減らすために、画像データは、画像フレームにおける冗長な情報を量を減少させることにより、小さな形式に圧縮可能である。なお、現在用いられているほとんどのビデオエンコーダは、符号化の際に、ビデオ情報における重要度の低い画像フレーム部分の画像品質を劣化させるものである。さらに、多くのビデオ符号化方法では、画像データから符号化されたビットストリームの冗長性を、ＶＬＣ（可変長符号化）として知られる効率的で損失のない圧縮パラメータの符号化により、減少させることができる。

また、多くのビデオ符号方法は、上述の連続した画像フレームの時間的冗長性を利用している。その場合に、動き補償時間的予測（motion-compensated temporal prediction）として知られる方法が用いられる、すなわち、ビデオシーケンス（video sequence）内の画像フレームのいくつか（通例、ほとんど）の内容は、連続した画像フレームにおける特定のオブジェクト又は領域における変化を追跡することにより、そのシーケンス内の他のフレームから予測される。ビデオシーケンスには、常に、その画像情報が動き補償時間的予測を用いて決定されなかったいくつかの圧縮画像フレームが含まれる。このようなフレームをＩＮＴＲＡフレーム又はＩフレームと称する。これに対応して、先行する画像フレームから予測される動き補償されたビデオシーケンス画像フレームを、ＩＮＴＥＲフレーム又はＰフレーム（Predicted）と称する。Ｐフレームの画像情報は、１つのＩフレームと、場合によって１つ又はそれ以上の先行して符号化されたＰフレームとを用いて決定される。あるフレームが失われた場合、それに依存したフレームは、もはや正確に復号することができない。

通例、Ｉフレームは、ピクチャグループ（ＧＯＰ：Group of Pictures）として規定されたビデオシーケンスを起動し、そのＰフレームは、問題となっているＧＯＰのＩフレーム及び先行するＰフレームに基づいてのみ決定可能である。次のＩフレームは、新規のピクチャグループＧＯＰを開始し、従ってそれに含まれる画像情報は、先行するＧＯＰのフレームに基づいて決定することができない。換言すると、ピクチャグループは、時間的に重複しておらず、各ピクチャグループは個別に符号化可能である。さらに、多くのビデオ圧縮方法は、双方向に予測されるＢフレーム（Bi-directional）を用いており、このＢフレームは、１つのピクチャグループＧＯＰ内の２つのアンカーフレーム（anchor frame）（Ｉ及びＰフレーム、又は２つのＰフレーム）間に設定され、Ｂフレームの画像情報は、先行するアンカーフレームとそのＢフレームに続くものの両者から予測される。従って、Ｂフレームは、Ｐフレームよりも高品質の画像情報を提供するが、通例、それらはアンカーフレームとしては使用されないので、ビデオシーケンスからそれらが削除されても、後続の画像品質を劣化させることはない。しかしながら、Ｂフレームをもアンカーフレームとして使用することを妨げるものはなく、その場合には、Ｂフレームを、それに依存したフレームの品質を劣化させることなくビデオシーケンスから削除することができなくなるだけである。

各ビデオフレームは、矩形画像領域の全画素の色成分（Ｙ，Ｕ，Ｖ等）を含むマクロブロック（macroblock）として知られるものに分割することができる。より具体的には、マクロブロックは、色成分毎に少なくとも１つのブロックから構成され、各ブロックは、該当する画像領域内に１つの色レベルの色値（Ｙ，Ｕ又はＶ等）を含む。このブロックの空間解像度（spatial resolution）は、マクロブロックのそれとは異なってもよく、例えば、Ｕ及びＶ成分は、Ｙ要素の半分の解像度のみを用いて表示されてもよい。マクロブロックは、さらにスライス（slice）にグループ化可能であり、例えば、スライスは、通例、画像の走査順に選択されるマクロブロックのグループである。通例、時間的予測は、ビデオ符号化方法において、画像フレーム別にではなく、ブロック又はマクロブロック別に実行される。

ビデオファイルの柔軟なストリーミングを可能とするために、多くのビデオ符号化システムは、スケーラブル符号化（scalable coding）を採用しており、スケーラブル符号化では、ビデオシーケンスのいくつかの要素又は要素グループが、そのビデオシーケンスの他の部分の再構成（reconstruction）に影響することなく除去可能である。スケーラビリティ（scalability）は、通例、画像フレームをいくつもの階層レイヤ（hierarchical layer）にグループ化することにより実行される。ベースレイヤ（base layer）の画像フレームに符号化された画像フレームは、実質的に、受信端におけるビデオ情報の復号に必須であるもののみを含む。このように、各ピクチャグループＧＯＰのベースレイヤは、１つのＩフレームと、必要な数のＰフレームとを含んでいる。１つ又はそれ以上のエンハンスメントレイヤ（enhancement layer）が、ベースレイヤの下に決めることができ、その各レイヤは、上位レイヤと比較して、ビデオ符号化の品質を向上させている。このように、エンハンスメントレイヤは、１つ又はそれ以上の上位レイヤの画像から動き補償（motion compensation）に基づいて予測されたＰ又はＢフレームを含んでいる。通例、このフレームは、等差級数に従って付番される。

ストリーミングにおいて、送信ビットレートは、使用される帯域幅若しくは受信側の最大復号（maximum decoding）あるいはビットレート値に基づいて、制御可能でなければならない。ビットレートは、ストリーミングサーバにて、あるいは、インターネットルータあるいは移動通信ネットワークの基地局のような通信ネットワークのどれかの要素にて制御可能である。ストリーミングサーバがビットレートを制御するための最も簡単な手段は、情報内容が大きいＢフレームを送信から除外することである。さらに、ストリーミングサーバは、ビデオストリームにて送信されるべきスケーラビリティレイヤ（scalability layer）の数を決めてもよく、それにより、スケーラビリティレイヤの数は、新規のピクチャグループＧＯＰが開始する度にいつも変更することができる。また、様々なビデオシーケンス符号化方法を使用することもできる。それに対応して、Ｂフレームは、エンハンスメントレイヤの他のＰフレームとともに、通信ネットワーク要素におけるビットストリームから除去することができる。

上述の仕組みには、いくつもの欠点がある。ＩＴＵ−Ｔ（International Telecommunications Union, Telecommunications Standardization Sector:国際電気通信連合電気通信標準化セクタ）規格Ｈ．２６３による符号化のような多くの符号化方法は、参照ピクチャ選択と呼ばれる処理（procedure called reference picture selection）に通じている。参照ピクチャ選択では、Ｐ画像の少なくとも一部は、その時間領域における直前のＰ画像以外の少なくとも１つの画像から予測されている。選択された参照画像（reference image）は、符号化されたビットストリーム又はビットストリームのヘッダフィールドにおいて、画像、画像セグメント（スライス、マクロブロックのグループ等）、マクロブロック、又はブロック別に、信号伝送される。参照ピクチャ選択は、時間的に後続の符号化されるべき画像からも予測可能なように、一般化可能である。さらに、参照ピクチャ選択は、Ｂフレームを含む、全ての時間的に予測されるフレームタイプに対応するように、一般化可能である。ピクチャグループＧＯＰを開始するＩ画像に先行する少なくとも１つの画像を、参照画像として選択することもできるので、参照ピクチャ選択を用いるピクチャグループは、必ずしも独立して復号可能ではない。さらに、検出されるべき様々な画像グループ間のいかなる依存性をも許容できるように、ビデオシーケンスは、長時間に亘って、復号、パーシング（parsed）、及びバッファ化されなければならないので、ストリーミングサーバ又はネットワーク要素におけるスケーラビリティ又は符号化方法の調整は難しくなる。

さらなる問題は、別のビデオシーケンスの途中にビデオシーケンスを挿入することに関するものであり、これは、一般に画像の番号付け（numbering）に不連続を引き起こす。ビデオシーケンス画像の番号付けは一般に画像フレームの喪失を検出するために使用される。しかしながら、あるビデオシーケンスにコマーシャルなど別個のビデオシーケンスが挿入される場合、この別個のビデオシーケンスには一般に別個の画像の番号付けが与えられており、この番号付けは元のビデオシーケンスの昇順画像番号付け（ascending image numbering）と整合しない。従って、受信端末は逸脱した画像番号付けを画像フレーム喪失の信号として解釈して、喪失と疑われる画像フレームを再構成するかあるいはその再送信を要求するための不必要な動作を開始する場合がある。

同様の問題が、エンコーダ及びデコーダにおいて参照ピクチャ（reference picture）をバッファに記憶しインデックスを付すときに生じる。このインデックス付与（indexing）の一部として、エンコーダは、残りのどの画像フレームの時間的予測プロセス（temporal prediction process）のための参照画像フレーム（reference image frame）としても不必要な複数の画像フレームを意図的に除去する場合がある。この場合にも、デコーダにこの除去の理由を知らせるプロセスがない。例えば、複数の画像フレームが除去される場合、受信端末はこの意図的な除去をプロトコルエラーとして不必要に解釈する場合がある。
従って、本発明の目的は、上述の問題により生じる欠点を減らすことが可能な方法及びその方法を実行する装置を提供することであり、特にエンコーダが意図的に除去した画像フレームをデコーダが考慮に入れることができるようにする、改良された方法及びこの方法を実施する装置を提供することである。

本発明の様々な態様は、独立請求項において記述されることを特徴とする、方法、ビデオエンコーダ、ビデオデコーダ、ビデオ信号、ビデオシーケンスのビットレートを調整するための装置、望ましくはストリーミングシステム要素、及びコンピュータプログラムを含む。

本発明の好適な実施形態は従属請求項において開示されている。

本発明は、圧縮ビデオシーケンスを復号する場合において、画像フレームはその復号に関連してバッファメモリに入れられるという考えに基づいている。ビデオシーケンスは画像フレームの番号付けにおける少なくとも1つの不連続に関する指示を含み、この指示は上記のビデオシーケンスから復号される。次に、この指示に応答して、上記のバッファメモリは画像フレームの番号付けにおける不連続に対応する数の画像フレームを与えるように構成され、このバッファメモリの中の画像フレームは、上記の復号プロセスにおいて使用される。前記の指示は、ビデオシーケンスの画像フレームの番号付けにおける少なくとも１つの不連続が意図的であることを知らせ、そして上記のバッファメモリにおいて生成された上記の数の画像フレームが、デコーダに存在しない画像フレームの代わりに使用されることが好ましい。この欠落した画像フレームが、画像フレームの番号付けにおいて不連続を生じさせる。

１つの実施形態に従えば、上記のバッファメモリが画像フレームの番号付けにおける不連続に対応する数の画像フレームを与えるように構成された後、当該ビデオシーケンスに含まれる画像フレームは、正しい画像フレーム番号から引き続きバッファメモリに入れられる。

１つの実施形態に従えば、上記の画像フレームの番号付けにおける不連続に対応する数のつなぎフレーム（filler frame）がバッファメモリに入れられる。このつなぎフレームは、そのつなぎフレームが実際のビデオシーケンスに属さないことを示す識別子によって指定されることが望ましい。

１つの実施形態に従えば、上記の画像フレームの番号付けにおける不連続に対応する数の画像フレームを与えるようにバッファメモリを構成するステップは、メモリ指示（memory indication）によって行われ、これによってバッファメモリにはデータが入れられない。

本発明の手順の利点は、画像フレーム番号付けのギャップは意図的であるという情報をデコーダに与え、それによってデコーダが不必要なエラー修正動作を開始しないことである。さらなる利点は、エンコーダ及びデコーダのバッファメモリを同期して維持することができ、それによって、参照ピクチャ選択のプロセスを淀みなく行えることである。

以下、本発明について、その好適な実施形態に関連して、添付の図面を参照して説明する。

以下に、汎用のマルチメディアデータストリーミングシステムについて開示するが、その基本原理は、いかなる通信システムに関連しても適用可能である。本発明について、ここでは、最も好ましくはマルチメディアデータがパケット交換データプロトコル(packet-switched data protocol）を用いたＩＰネットワーク等の通信ネットワークを通じて送信されるストリーミングシステムに関して特に述べるが、本発明は、固定電話ネットワークＰＳＴＮ／ＩＳＤＮ（Public Switched Telephone Network/Integrated Service Digital Network:公衆交換電話網／総合デジタル通信網）や移動通信ネットワークＰＬＭＮ（Public Land Mobile Network）等の回線交換ネットワーク（circuit-switched network）においても、同様に効果的に実施可能である。さらに、本発明は、通常のストリーミング及びプログレッシブダウンロードの双方の形式でのマルチメディアファイルのストリーミングに、また、例えば、ビデオ通話（video call）を実行するために、適用可能である。

また、本発明は、ここでは、ストリーミングシステムに関して特に記述されており、それらにおいても有利に適用可能であるものの、本発明は、ストリーミングシステムだけに限定されるものではなく、復号されるべきビデオファイルがどのようにダウンロードされ、また、それがどこからダウンロードされるかに関わらず、いかなるビデオ再生システムにも適用可能である。従って、本発明は、例えば、ＤＶＤディスク又は他の何らかのコンピュータの記憶担体（memory carrier）からダウンロードされるべきビデオファイルの再生に、例えば、ビデオ再生に利用可能な様々な処理能力に関連して、適用可能である。特に、本発明は、帯域幅の制限が課せられた通信システムに通例用いられる低ビットレートの種々のビデオ符号化に適用可能である。例として、ＩＴＵ−Ｔ規格Ｈ．２６３に規定されたシステム、及び、Ｈ．２６Ｌ（後にＨ．２６４となるかもしれない）に規定されているシステムがある。これらに関連して、本発明は、移動局に適用可能であり、例えば、その場合には、ビデオ再生は、移動局がビデオ再生以外の他のアプリケーションを実行するためにも使用されているときに、転送容量又はチャネル品質の変更、及び、現在利用可能なプロセッサ能力（processor power）の双方を調整して行うことができる。

なお、説明を明確にするために、本発明は、画像フレームレベルでの画像フレーム符号化及び時間的予測を考慮して、以下に記述されることにも注意すべきである。しかしながら、実際には、符号化及び時間的予測は、通例、ブロック又はマクロブロックレベルで上述のように実行される。

図１を参照すると、典型的なマルチメディアストリーミングシステムが示されており、それは、本発明の方法を適用するのに好ましいシステムである。

通例、マルチメディアデータストリーミングシステムは、ビデオカメラ及びマイクロフォン、又は記憶担体内に格納されたビデオ画像若しくはコンピュータグラフィックファイル等の１つ又はそれ以上のマルチメディアソース（multimedia source）１００を、備えている。様々なマルチメディアソース１００から得られた生データは、エンコーダ１０２においてマルチメディアファイルに結合され、このエンコーダ１０２は編集ユニットと呼ぶこともできる。１つ又はそれ以上のマルチメディアソース１００から到来した生データは、まず、エンコーダ１０２に含まれる取込手段（capturing means）１０４を用いて取り込まれ、この取込手段は、通例、様々なインターフェースカード、ドライバソフトウェア、又はカードの機能を制御するアプリケーションソフトウェアとして実施可能である。例えば、ビデオデータはビデオキャプチャカード（video capture card）及びそれに付属のソフトウェアを用いて取込むことができる。通例、取込手段１０４の出力は、非圧縮、あるいは僅かに圧縮されたデータフローであり、例えば、ビデオキャプチャカードに関する場合は、ＹＵＶ４：２：０形式又はモーションＪＰＥＧ画像形式の非圧縮ビデオフレームである。

エディタ１０６は、異ったメディアフロー（media flow）を相互にリンクさせて、ビデオと音声のフローを同期させて、所望の如く同時に再生させる。エディタ１０６はまた、例えば、フレームレート（frame rate）を半減させたり、空間解像度を低減させたりすることによって、ビデオフロー等の各メディアフローを編集する。同期しているものの独立している複数のメディアフローは、コンプレッサ１０８において圧縮され、そこでは、各メディアフローは、そのメディアフローに適したコンプレッサを用いて、個別に圧縮される。例えば、ＹＵＶ４：２：０形式のビデオフレームは、ＩＴＵ−Ｔ勧告Ｈ．２６３又はＨ．２６Ｌに従った低いビットレートのビデオ符号化を用いて、圧縮することができる。通例、独立し、同期化され、かつ圧縮されたメディアフローは、マルチプレクサ１１０にてインターリーブ（interleave）され、エンコーダ１０２から得られる出力は、複数のメディアフローのデータを含むとともにマルチメディアファイルと呼ぶことができる、単一の均一なビットフロー（sigle, uniform bit flow）である。なお、マルチメディアファイルの形成は、複数のメディアフローを単一のファイルに多重化することを必ずしも必要としないが、ストリーミングサーバは、メディアフローを、それを送信する直前にインターリーブしてもよいことに注意すべきである。

マルチメディアファイルは、ストリーミングサーバ１１２へと転送され、従ってストリーミングサーバは、リアルタイムストリーミングとしてかあるいはプログレッシブダウンロードの形式で、ストリーミングを実施可能である。プログレッシブダウンロードでは、マルチメディアファイルは、まず、必要に応じて送信のためにそれを検索することができるサーバ１１２のメモリ内に格納される。リアルタイムストリーミングでは、エディタ１０２は、マルチメディアファイルの連続したマルチメディアフローをストリーミングサーバ１１２に送信し、サーバ１１２は、そのフローを、直接クライアント１１４へ送る。さらなる選択肢として、リアルタイムストリーミングはまた、マルチメディアファイルがサーバ１１２からアクセス可能な記憶域（storage）に格納され、そこから、リアルタイムストリーミングが駆動可能であり、また、マルチメディアファイルの連続したメディアフローが、必要に応じて開始されるように実施されてもよい。このような場合、エディタ１０２は、必ずしも何らかの手段によりストリーミングを制御する必要はない。ストリーミングサーバ１１２は、クライアント１１４の利用可能な帯域幅又は最大復号及び再生速度を考慮して、マルチメディアデータのトラフィック形成（traffic shaping）を実行し、ストリーミングサーバは、例えば、Ｂフレームを送信から除外したり、スケーラビリティレイヤの数を調整することにより、メディアフローのビットレートを調整することができる。さらに、ストリーミングサーバ１１２は、多重化されたメディアフローのヘッダフィールドを修正して、そのサイズを小さくし、マルチメディアデータを、使用される通信ネットワークにおける通信に適したデータパケットにカプセル化することができる。通例、クライアント１１４は、適切な制御プロトコルを用いて、サーバ１１２の動作を少なくともある程度は調整することができる。クライアント１１４は、少なくとも、所望のマルチメディアファイルがクライアントへの送信のために選択可能となるように、サーバ１１２を制御することができ、それに加えて、クライアントは、通例、マルチメディアファイルの送信を停止及び中断することができる。

クライアント１１４がマルチメディアファイルを受信しているとき、ファイルはまずデマルチプレクサ（demultiplexer）１１６へ供給され、デマルチプレクサ１１６は、マルチメディアファイルに含まれるマルチメディアフローを分離する。それから、分離し、圧縮されたメディアフローは、デコンプレッサ（decompressor）１１８へ供給される、そこにおいて、分離した各メディアフローは、個々の各メディアフローに適したデコンプレッサにより伸長（decompress）される。伸長されて再構成されたメディアフローは、再生ユニット１２０へ供給され、そこにおいて、メディアフローは、その同期データに従って正確な速度でレンダリングされ、表示手段（presentation means）１２４へ供給される。実際の表示手段１２４は、例えば、コンピュータ又は移動局のディスプレイ、及びスピーカ手段を含むことができる。クライアント１１４はまた、通例、エンドユーザが通例ユーザーインタフェースを介して制御可能な制御ユニット１２２であって、エンドユーザが与えた命令に基づいて、上述の制御プロトコルを通じてサーバの動作を制御するとともに、再生ユニット１２０の動作をも制御する制御ユニット１２２を備えている。

マルチメディアフィルのストリーミングサーバ１１２からクライアント１１４への転送は、通信ネットワークを通じて実行され、転送経路は、通例、複数の通信ネットワーク要素を含むということに注目すべきである。従って、ストリーミングサーバに関連して上述したのと少なくとも部分的には同様に、利用可能な帯域幅又はクライアント１１４の最大復号及び再生速度を考慮して、マルチメディアデータのトラフィック形成を実行することができる、少なくともいくつかのネットワーク要素が存在し得る。

以下に、本発明の好適な実施形態及び図２に示す実施例を参照して、スケーラブル符号化（scalable coding）について説明する。図２は、第１のフレーム２００を有する圧縮ビデオシーケンスの一部を示し、このフレーム２００はＩＮＴＲＡフレームすなわちＩフレームであり、従って、このフレームの画像情報が動き補償時間的予測を用いずに決定される、独立して決定されるビデオフレームである。Ｉフレーム２００は、第１のスケーラビリティレイヤ上に配置され、この第１のスケーラビリティレイヤをＩＮＴＲＡレイヤと呼ぶこともある。各スケーラビリティレイヤには、レイヤ番号等の固有の識別子が割り当てられる。従って、ＩＮＴＲＡレイヤには、例えば番号０が与えられるか、あるいは、例えば文字等の他の何らかの英数字の識別子が与えられるか、あるいは、文字と数字の組み合わせが与えられる。

それに対応して、１つ又はそれ以上のビデオフレームのグループからなるサブシーケンスは、各スケーラビリティレイヤに対して決定され、１つのグループ内の画像の少なくとも１つ（通例、最初又は最後のもの）は、他の１つの、通例はより高位あるいは同じスケーラビリティレイヤのサブシーケンスのビデオフレームから少なくとも時間的に予測され、残りのビデオフレームは、同じサブシーケンスのビデオフレームのみからか、又は、場合によっては、前記の第２のサブシーケンスの１つ若しくはそれ以上のビデオフレームから、少なくとも時間的に予測される。サブシーケンスは、前記第２のサブシーケンス以外の他のサブシーケンスに関わらずに、独立して復号することができる。各スケーラビリティレイヤのサブシーケンスには、例えば、スケーラビリティレイヤの最初のサブシーケンスに与えられる、番号０で始まる連続番号付けを用いた固有の識別子が割り当てられる。Ｉフレーム２００は、独立して決定され、受信時に独立して復号することもできるので、それはまた、他の画像ファイルに関係なく、ある意味で独立したサブシーケンスを形成する。

従って、本発明の本質的な側面は、各サブシーケンスをこのサブシーケンスが依存している複数のサブシーケンスによって、決定することである。言い換えると、あるサブシーケンスは、当該サブシーケンスの画像フレームを予測するのに直接用いられた全てのサブシーケンスについての情報を含んでいる。この情報は、ビデオシーケンスのビットストリームにおいて、好ましくは実際の画像情報からは独立して信号伝送され、従って、独立して復号されるべきであり、かつ残りの画像データの復号に影響を与えることなく除去可能であるビデオシーケンス部分を決定することは容易であるので、上記のビデオシーケンスの画像データは、調整可能であることが好ましい。

次に、各サブシーケンス内で、このサブシーケンスのビデオフレームには、例えば、そのサブシーケンスの最初のビデオフレームに与えられる、番号０で始まる連続番号付けを用いて、画像番号が与えられる。Ｉフレーム２００はまた、独立したサブシーケンスを形成するので、その画像番号は０である。図２において、Ｉフレーム２００は、タイプ（Ｉ）、サブシーケンス識別子、及びそのフレームの画像番号（０．０）を示している。

さらに、図２は、上記のＩＮＴＲＡレイヤの次のＩフレーム２０２を示しており、このように、このフレームも、動き補償時間的予測を用いることなく決定された、独立して決定されたビデオフレームである。Ｉフレームの時間的送信周波数は、ビデオ符号化、画像情報内容、及び用いられるべき帯域幅に関連する多くの要因に依存し、またアプリケーション又はアプリケーション環境に依存して、Ｉフレームは、ビデオシーケンスにおいて、例えば０．５秒から１０秒の間隔で送信される。Ｉフレーム２０２は、独立して復号可能であるので、それもまた独立したサブシーケンスを形成する。これは、ＩＮＴＲＡレイヤにおける第２のサブシーケンスであるので、Ｉフレーム２０２のサブシーケンス識別子の連続番号付けは１である。さらに、Ｉフレーム２０２はまた、独立したサブシーケンスを形成する、すなわち、そのサブシーケンス内の唯１つのビデオフレームであるので、その画像番号は０である。このように、Ｉフレーム２０２は、識別子（Ｉ．１．０）で指定可能である。それに対応して、ＩＮＴＲＡレイヤのその次の識別子は（Ｉ．２．０）、などである。その結果、画像情報が動き補償時間的予測を用いて決定されていない、独立して決定されたＩフレームのみが、第１のスケーラビリティレイヤ、すなわちＩＮＴＲＡレイヤ内に符号化される。このサブシーケンスはまた、そのサブシーケンスが相互に識別可能であれば、他の種類の番号付け又は他の識別子を用いて決定することもできる。

次のスケーラビリティレイヤは、例えばレイヤ番号１を有し、ベースレイヤと呼ぶことができる、符号化され、動き補償されたＩＮＴＥＲすなわちＰフレームを含み、このフレームは、通例、先行する画像フレームのみから、すなわち、この場合には上位のＩＮＴＲＡレイヤのＩフレームから、予測されるものである。図２に示すベースレイヤの第１のＰフレーム２０４の画像情報は、ＩＮＴＲＡレイヤのＩフレーム２００を用いて決定される。Ｐフレーム２０４は、上記のベースレイヤの第１のサブシーケンスを開始し、従って、Ｐフレーム２０４のサブシーケンス識別子は０である。さらに、Ｐフレーム２０４は、上記のベースレイヤにおける第１のサブシーケンスの第１の画像フレームであるので、Ｐフレーム２０４の画像番号は０である。このように、Ｐフレーム２０４は（Ｐ．０．０）にて識別可能である。

ベースレイヤの時間的に後続のＰフレーム２０６は、先行のＰフレーム２０４から予測される。このように、Ｐフレーム２０４と２０６は、同じサブシーケンスに属しており、これによってＰフレーム２０６もサブシーケンス識別子０を受け取る。Ｐフレーム２０６は、サブシーケンス０における第２の画像フレームであるので、Ｐフレーム２０６の画像番号は１であり、Ｐフレーム２０６は、（Ｐ．０．１）で識別可能である。

ベースレイヤの次の、レイヤ番号２を有するスケーラビリティレイヤを、エンハンスメントレイヤ（enhancement layer）１と称する。このレイヤは、符号化され、動き補償され、先行する画像フレームのみから、この場合にはＩＮＴＲＡレイヤのＩフレームかあるいはベースレイヤのＰフレームから、予測されるＰフレームを含む。図２は、エンハンスメントレイヤ１の第１の画像フレーム２０８及び第２の画像フレーム２１０を示し、これらは、いずれも、ＩＮＴＲＡレイヤの第１の画像フレーム２００からのみ予測される。Ｐフレーム２０８は、エンハンスメントレイヤ１の第１のサブシーケンスを開始し、このため、このＰフレームのサブシーケンス識別子は０である。さらに、Ｐフレーム２０８は前記のサブシーケンスにおける第１かつ唯一の画像フレームであるので、Ｐフレーム２０８は画像番号０を受け取る。従って、Ｐフレーム２０８は、（Ｐ．０．０）で識別可能である。

第２の画像フレーム２１０もＩＮＴＲＡレイヤの第１の画像フレーム２００のみから予測されるので、Ｐフレーム２１０は、エンハンスメントレイヤ１の第２のサブシーケンスを開始し、従って、Ｐフレーム２１０のサブシーケンス識別子は１である。Ｐフレーム２１０はサブシーケンスにおける第１の画像フレームであるので、Ｐフレーム２１０の画像番号は０である。従って、Ｐフレームは、（Ｐ．１．０）で識別可能である。エンハンスメントレイヤ１の時間的に後続のＰフレーム２１２は先行するＰフレーム２１０から予測される。このように、Ｐフレーム２１０と２１２は、同じサブシーケンスに属しているので、このＰフレームも、サブシーケンス識別子１を受け取る。Ｐフレーム２１２は、サブシーケンス１における第２の画像フレームであるので、このＰフレームは、画像番号１を受け取り、（Ｐ．１．１）で識別可能である。

エンハンスメントレイヤ１の時間的に第４の画像フレーム２１４は、上記のベースレイヤの第１の画像フレーム２０４から予測される。従って、Ｐフレーム２１４は、エンハンスメントレイヤ１の第３のサブシーケンスを開始するので、Ｐフレーム２１４は、サブシーケンス識別子２を受け取る。さらに、Ｐフレーム２１４は、そのサブシーケンスにおける第１かつ唯一の画像フレームであるので、Ｐフレーム２１４の画像番号は０である。従って、Ｐフレーム２１４は（Ｐ．２．０）で識別可能である。

また、エンハンスメントレイヤ１の時間的に第５の画像フレーム２１６は、ベースレイヤの第１の画像フレーム２０４から予測され、従って、Ｐフレーム２１６は、エンハンスメントレイヤ１の第４のサブシーケンスを開始し、Ｐフレーム２１６のサブシーケンス識別子は３である。さらに、Ｐフレーム２１６は、当該サブシーケンスにおける第１の画像フレームであるので、Ｐフレーム２１６の画像番号は０である。従って、Ｐフレーム２１６は（Ｐ．３．０）で識別可能である。エンハンスメントレイヤ１の時間的に後続のＰフレーム２１８は、先行するＰフレーム２１６から予測される。このように、Ｐフレーム２１６と２１８は、同じサブシーケンスに属しており、Ｐフレーム２１８のサブシーケンス識別子も３である。Ｐフレーム２１８は、サブシーケンス３における第２の画像フレームであるので、Ｐフレーム２１８の画像番号は１であり、Ｐフレーム２１８の識別子は（Ｐ．３．１）である。

説明を簡潔かつ明瞭にするために、上述の開示は、Ｉ及びＰフレームのみに関している。しかしながら、本発明のスケーラブルビデオ符号化は、他の既知の画像フレームタイプ、上述のＢフレーム及び少なくともＳＩフレーム、ＳＰフレーム及びＭＨフレーム等を用いても実施可能であることが明らかであることは、当業者には理解されるであろう。ＳＩフレームは、Ｉフレームに相当するが、ＳＰフレームとともに、同一の画像が再構成されることを可能としている。ＳＰフレームもまた、ＳＩフレーム又は他のＳＰフレームとともに同一の画像が再構成されることを可能とする特定の符号化に従うＰフレームである。通例、ＳＰフレームは、ビデオシーケンスの中で、アクセスポイント又はスキャニングポイントが望まれているか、あるいは、ビデオストリームの符号化パラメータの変更が可能であるべき点に配置される。また、このフレームは、エラー補正や許容誤差を増大させることのためにも使用可能である。他の点では、ＳＰフレームは、ＳＰ又はＳＩ型の他のビデオフレームで置き換えられるように規定されていること以外は、先行するフレームから予測される通常のＰフレームと同様であり、新規フレームの復号結果は、ビデオストリーム内にあった元のＳＰフレームの復号結果と同一である。言い換えれば、ビデオストリーム内にあったものを置き換えるために用いられる新規のＳＰフレームは、他のシーケンス又はビデオストリームから予測され、しかも再構成されたフレームは同一の内容を有する。ＳＰフレームについては、例えば、本出願人の以前の出願であるＰＣＴ／ＦＩ０２／００００４に記載されている。

Ｂフレームと同様、動き補償予測に基づくＭＨ（Multi Hypothesis）フレームのマクロブロックは、他の２つのフレームから予測される。但し、これらのフレームは、必ずしもＭＨフレームに隣接して配置される必要はない。より正確には、予測されたマクロブロックは、他の２つのフレームの２つのマクロブロックの平均として算出される。２つのフレームの代わりに、ＭＨフレームのマクロブロックは当然、他の１つのフレームから予測することもできる。参照画像（reference image）は、マクロブロックに応じて変更されてもよく、言い換えれば、１つの同じ画像内の全てのマクロブロックが、必ずしも同じフレームを用いて予測される必要はない。

従って、サブシーケンスは、ビデオシーケンスにおける特定の時間期間をカバーする。同じレイヤ又は異なるレイヤのサブシーケンスは、部分的に又は完全に重複してもよい。同じレイヤ上に時間的に重複した画像フレームがある場合は、そのフレームは、同じ画像内容の代替的な表現として解釈されるので、画像表示のいかなるモードでも使用可能である。他方で、異なるレイヤ上に時間的に重複した画像フレームがある場合は、それらは、同じ画像内容の異なる表示を形成するので、表示は、画像品質において異なる、すなわち、画像の品質は、低位のレイヤほど良くなる。

図２を参照する上記の開示内容は、本発明の好適な実施形態によるスケーラブル符号化構成及び階層的構造及び画像フレームの番号付けについて説明している。本実施形態では、ＩＮＴＲＡレイヤはＩフレームのみを含み、ベースレイヤは、ＩＮＴＲＡレイヤから受け取った情報を用いて復号することのみ可能である。それに対応して、エンハンスメントレイヤ１の復号には、通例、ベースレイヤ及びＩＮＴＲＡレイヤの双方からの情報が必要である。

スケーラビリティレイヤの数は、上記のように３つに限定されるものではなく、充分なスケーラビリティをもたらすのに必要と考えられる任意の数のエンハンスメントレイヤを使用することができる。それ故、エンハンスメントレイヤ２のレイヤ番号は４であり、エンハンスメントレイヤ３のレイヤ番号は５である、などである。上記実施例における画像フレームのいくつかには、同一の識別子が与えられているので（例えば画像フレーム２０４，２０８の双方の識別子は（Ｐ．０．０））、レイヤ番号を識別子に含めることにより、各画像フレームは一意的に識別され、同時に、各画像フレームの他の画像フレームに対する依存性が決定されることが望ましい。このように、各画像フレームは、一意的に識別され、例えば、画像フレーム２０４の識別子は、（Ｐ．１．０．０）あるいは単に（１．０．０）、そしてそれに対して、画像２０８の識別子は、（Ｐ．２．０．０）又は（２．０．０）である。

本発明の好適な実施形態によると、参照画像フレームの番号は、特定の予め定められた英数字列、例えば、０と２５５の間の整数として、決定される。パラメータ値が当該英数字列の最大値Ｎ（例えば２５５）に達した場合、パラメータ値の決定は、その最初から、すなわち、文字列の最小値（例えば０）から始まる。従って、画像フレームは、同じ画像番号が再び使用される点までは、特定のサブシーケンス内で一意的に識別される。また、サブシーケンスの識別子は、特定の予め定められた等差級数に従って決定可能である。サブシーケンス識別子の値が、その級数の最大値に達したとき、級数の最初から識別子の決定が再開する。但し、サブシーケンスに対して、未だ使用中（同じレイヤ内で）の識別子を割り当てることはできない。また、使用中の級数は、算術的にではない他の方法で決定されてもよい。一代替例は、ランダムなサブシーケンス識別子を、割り当てられた識別子は再使用されないことを考慮して割り当てることである。

ユーザがビデオシーケンスの途中でビデオファイルの閲覧を開始したい場合に、画像フレームの付番に問題が生じる。このような状況は、例えば、ユーザが、ローカルに格納されたビデオファイルを逆若しくは順方向に閲覧したい場合、あるいは、ある特定の点にてストリーミングファイルを閲覧したい場合や、ユーザが、ランダムな点からストリーミングファイルの再生を開始する場合、又は、再生されるべきビデオファイルに、再生を中断したり、あるいはエラー後の点から再生が再開される必要があるエラーが含まれていることが検出された場合に発生する。ビデオファイルの閲覧が以前の閲覧後のランダムな位置から再開される場合、通例、画像の付番に不連続が生じる。デコーダは、通例、これを画像フレームの意図しない喪失と解釈して、喪失したと疑われる画像フレームを不必要に再構成しようと試みることになる。

本発明の好適な実施形態によると、このことは、デコーダにおいて、独立して復号可能なピクチャグループＧＯＰ中に、ビデオファイルのランダムな点で開始される開始画像（initiation image）を定義することにより回避可能であり、この開始画像の番号は０に設定される。従って、この独立して復号可能な画像グループは、ＩＮＴＲＡレイヤのサブシーケンスであることが可能で、例えば、この場合、Ｉフレームが開始画像として使用されるか、あるいは、ベースレイヤから始まるスケーリングが用いられる場合は、上記の独立して復号可能な画像グループは、ベースレイヤのサブシーケンスであり、この場合、このサブシーケンスの第１の画像フレーム、通例Ｉフレーム、が、通常開始画像として用いられる。従って、ランダムな点で開始されると、デコーダは、独立して復号可能なサブシーケンスの第１の画像フレーム、好ましくはＩフレーム、の識別子を、ゼロに設定することが望ましい。復号されるべきサブシーケンスはまた、識別子がゼロである（例えば上述の英数字列が最初から開始する）他の画像フレームをも含むので、そのサブシーケンスの始まり、すなわち、その最初の画像フレームは、例えば、その画像フレームのスライスのヘッダフィールドに追加された独立したフラグにより、デコーダに指示することができる。これにより、デコーダは、画像番号を正確に解釈可能となり、上記のサブシーケンスをビデオシーケンス画像フレームから起動する正確な画像フレームを検出可能となる。

上述の付番システムは、本発明の一意的な画像フレームがどのように実施されて画像フレーム間の相互依存性が同時に示されるかについて、１つの例を提供しているのみである。しかしながら、ＩＴＵ−Ｔ規格Ｈ．２６３及びＨ．２６Ｌによるビデオ符号化方法等の、本発明の方法が適用され得るビデオ符号化方法は、符号テーブル（code table）を用いており、これはまた可変長符号（variable length code）を用いている。レイヤ番号の符号化に可変長符号が用いられる場合は、例えば、符号ワードインデックス（code word index）が低いほど、すなわち、レイヤ番号が小さいほど、符号ワードが短くなることを意味する。実際には、本発明のスケーラブルな符号化は、ほとんどの場合、ベースレイヤがＩＮＴＲＡレイヤよりも著しく多くの画像フレームからなるような場合に用いられることになる。このことにより、ＩＮＴＲＡレイヤ上よりもベースレイヤ上において、より低い指数、すなわち、より小さいレイヤ番号を使用することが正当化される。これは、符号化されたビデオデータの量がそれによって有利に低減されるからである。従って、ＩＮＴＲＡレイヤにはレイヤ番号１が割り当てられ、ベースレイヤにはレイヤ番号０が割り当てられることが望ましい。その代わりに、ベースレイヤ番号を符号化するためにコードを、ＩＮＴＲＡレイヤ番号よりももっと少ないビットを用いることにより形成可能であり、この場合、実際のレイヤ番号値は、生成されるコードの長さに関しては、関連しない。

さらに、本発明の第２の好適実施形態により、スケーラビリティレイヤの数が低く抑えられるべきである場合は、特に第１のスケーラビリティレイヤは、ＩＮＴＲＡレイヤとベースレイヤの双方を含むように符号化可能である。符号化の階層性（coding hierarchy）の観点からすると、このことを構想するための最も簡単な方法は、ＩＮＴＲＡレイヤを全体的に削除し、また、ベースレイヤとして、独立して規定されたＩフレームで、その画像情報が動き補償時間的予測を用いて決定されなかったもの、及び先行するフレームから予測される画像フレームで、この場合の画像フレームは同じレイヤのＩフレームから予測される動き補償されたＰフレームであるものの双方からなる符号化されたフレームを有するベースレイヤを提供することである。従って、レイヤ番号０は、なおベースレイヤのために使用可能であり、また、エンハンスメントレイヤがビデオシーケンス内に符号化される場合は、エンハンスメントレイヤ１にはレイヤ番号１が割り当てられる。以下、このことについて、図３（ａ）及び図３（ｂ）を参照して説明する。

図３（ａ）は、非スケーラブルビデオシーケンス構造を示し、ここで、全ての画像フレームが、同一のスケーラビリティレイヤ、すなわちベースレイヤ、上に配置される。ビデオシーケンスは、第１の画像フレーム３００を含み、この第１の画像フレーム３００は、Ｉフレーム（Ｉ．０．０）であり、従って第１のサブシーケンスを開始する。画像フレーム３００は、そのサブシーケンスの第２の画像フレーム３０２、すなわち、Ｐフレーム（Ｐ．０．１）を予測するために用いられ、このＰフレーム（Ｐ．０．１）は、次に上記のサブシーケンスの第３の画像フレーム３０４、すなわち、Ｐフレーム（Ｐ．０．２）を予測するために用いられ、このＰフレーム（Ｐ．０．２）は今度は、次の画像フレーム３０６、すなわちＰフレーム（Ｐ．０．３）を予測するのに用いられる。それから、上記のビデオシーケンスには、そこで符号化されたＩフレーム（Ｉ．１．０）、すなわち、Ｉフレーム３０８が提供され、このＩフレーム３０８は、上記のビデオシーケンスにおける第２のサブシーケンスを開始する。この種の非スケーラブル符号化は、例えば、使用されているアプリケーションがスケーラブル符号化の使用を許容しない場合や、その必要がない場合に、使用可能である。例えば、回路交換式テレビ電話（circuit-switched videophone）の用途では、チャネル帯域幅は一定のままであり、そのビデオシーケンスはリアルタイムで符号化されるので、通例、スケーラブル符号化の必要がない。

次に、図３（ｂ）は、どのように、必要なときに、組合されたＩＮＴＲＡとベースレイヤにスケーラビリティが追加されるのかについての例を説明する。ここでも、ビデオシーケンスのベースレイヤは第１の画像フレーム３１０を含み、この第１の画像フレームはＩフレーム（Ｉ．０．０）であり、上記のベースレイヤの第１のサブシーケンスを開始する。画像フレーム３１０は、このサブシーケンスの第２の画像フレーム３１２、すなわち、Ｐフレーム（Ｐ．０．１）を予測するのに用いられ、このＰフレーム（Ｐ．０．１）は、次に上記のサブシーケンスの第３の画像フレーム３１４、すなわち、Ｐフレーム（Ｐ．０．２）を予測するのに用いられる。しかしながら、エンハンスメントレイヤ１もまた、このビデオシーケンス内に符号化され、それは、第１のサブシーケンスを含み、その第１かつ唯一の画像フレーム３１６はＰフレーム（Ｐ．０．０）であり、これは、ベースレイヤの第１の画像フレームから予測される。エンハンスメントレイヤの第２のサブシーケンスの第１の画像フレーム３１８は、今度はベースレイヤの第２の画像フレーム３１２から予測されるので、このＰフレームの識別子は（Ｐ．１．０）である。エンハンスメントレイヤの次の画像フレーム３２０は、同じレイヤの先行する画像フレーム３１８から再び予測されるので、それは同じサブシーケンスに属し、従って、その識別子は（Ｐ．１．１）である。

本発明の本実施形態では、ベースレイヤのサブシーケンスは他のベースレイヤのサブシーケンスに依存することができるが、上記のベースレイヤのサブシーケンスは、独立して復号可能である。ベースレイヤのサブシーケンスの復号には、ベースレイヤから及び／又はエンハンスメントレイヤ１の第２のサブシーケンスからの情報が必要であり、エンハンスメントレイヤ２のサブシーケンスの復号には、エンハンスメントレイヤ１から及び／又はエンハンスメントレイヤ２の第２のサブシーケンスからの情報が必要であるなどである。一実施形態によると、Ｉフレームは、ベースレイヤだけに限られるものではなく、より低位のエンハンスメントレイヤもＩフレームを含み得る。

上記の実施形態の背景にある基本的な考えは、サブシーケンスには、それが依存する全てのサブシーケンスについての情報、すなわち、当該サブシーケンスの画像フレームの少なくとも１つを予測するために用いられた全てのサブシーケンスについての情報が含まれるというものである。しかしながら、一実施形態によると、サブシーケンスは、当該サブシーケンスに依存する全てのサブシーケンスについての情報、言いかえれば、少なくとも１つの画像フレームが当該サブシーケンスの少なくとも１つの画像フレームを用いて予測されたその全ての画像フレームについての情報を含むことも可能である。後者の場合、その依存性は、通例、時間的に前方向（forward）に決定されるので、画像フレームバッファは、後述のように符号化において有利に利用可能である。

上述の全ての実施形態では、画像フレームの番号付けは、サブシーケンス別（sub-sequence-specific）になっている、すなわち、新規のサブシーケンスは、常に最初から付番が開始される。従って、個々の画像フレームの識別子には、レイヤ番号、サブシーケンス識別子、及び画像フレーム番号が定められる必要がある。本発明の好適な一実施形態によると、画像フレームは、符号化順の連続した参照画像フレームが１つずつインクリメントされる番号で示される、連続的な番号付けを用いて独立して付番可能である。レイヤ番号及びサブシーケンス識別子に関しては、上述の付番手順が使用可能である。これにより、各画像フレームは、必要であればレイヤ番号及びサブシーケンス識別子を使用することなく、一意的に識別可能となる。

このことは、図４（ａ）に示す例で図示されている。ここでは、ベースレイヤは、時間的に最初のＩフレーム４００（Ｉ．０．０）を含んでいる。このフレームは、エンハンスメントレイヤ１の第１の画像フレーム４０２、すなわち（Ｐ．０．１）を予測するために用いられ、この画像フレーム４０２は、同じサブシーケンス（サブシーケンス識別子０を有する）に属する第２の画像フレーム４０４、すなわち（Ｐ．０．２）を予測するために用いられ、この画像フレーム４０４は、同じサブシーケンスの第３の画像フレーム４０６、すなわち（Ｐ．０．３）を予測するために用いられ、この画像フレーム４０６は、第４の画像フレーム４０８（Ｐ．０．４）を予測するために用いられ、そして最後に、上記の第４のフレームは第５の画像フレーム４１０（Ｐ．０．５）を予測するために用いられる。時間的に次のビデオシーケンスの画像フレーム４１２は、ベースレイヤ上に配置されており、そこでは、それは、単に時間的に７番目に符号化された画像フレームであるというだけであるが、Ｉフレーム４００と同一のサブシーケンスにあり、従ってその識別子は（Ｐ．０．６）である。それから、この第７のフレームは、エンハンスメントレイヤ１の第２のサブシーケンスの第１の画像フレーム４１４、すなわち（Ｐ．１．７）を予測するために用いられ、そして、この画像フレーム４１４は、同じサブシーケンス（サブシーケンス識別子１を有する）に属する第２の画像フレーム４１６、すなわち（Ｐ．１．８）を予測するために用いられ、そしてまた、この画像フレーム４１６は、今度は第３の画像フレーム４１８（Ｐ．１．９）を予測するために用いられ、この第３番目は第４の画像フレーム４２０（Ｐ．１．１０）を予測するために用いられ、そして最後に、この第４番目は、同じサブシーケンスの第５の画像フレーム４２２（Ｐ．１．１１）を予測するために用いられる。再び、時間的に次のビデオシーケンスの画像フレーム４２４はベースレイヤ上に配置され、そこでは、それは、単に時間的に１３番目に符号化された画像フレームであるというだけであるが、Ｉフレーム４００及びＰフレーム４１２と同一のサブシーケンスにあり、従ってその識別子は（Ｐ．０．１２）である。説明を簡潔にするため、本実施形態の上述の説明は、レイヤの識別子を含まないが、スケーラビリティを実施するために、レイヤの識別子も、ビデオシーケンスとともに、通例、画像フレーム識別子の一部として信号伝送されねばならないことは明らかである。

図４（ｂ）及び図４（ｃ）は、図４（ａ）に示したビデオシーケンスの画像フレームをグループ化するための代替的な実施形態を示す。図４（ｂ）の画像フレームは、サブシーケンスに従って付番されている、すなわち、新規のサブシーケンスは、常に、最初から（０から）付番を開始する。図４（ｃ）では、今度は、ベースフレームのＰフレームがＳＰフレーム対によって置き換えられて、画像情報の同一の再構成に備えていること以外は、図４（ａ）で用いられたものに対応した画像フレームの番号付けが用いられている。

上述のように、本発明の手順は、Ｂフレームを用いても実施可能である。この１例が、図５（ａ），図５（ｂ），及び図５（ｃ）に示されている。図５（ａ）は、時間領域におけるビデオシーケンスを示し、そのシーケンスは、ＰフレームＰ１，Ｐ４及びＰ７を含み、Ｂフレームがそれらの間に配置されており、時間的予測に関するＢフレームの相互依存性が矢印で示されている。図５（ｂ）は、図５（ａ）に示した相互依存性が指定されるビデオシーケンスの画像フレームの好適なグループ化を示す。図５（ｂ）は、新規のサブシーケンスは常に画像フレームの付番をゼロから開始する、サブシーケンス別の画像フレームの番号付けを示す。図５（ｃ）もまた、画像フレームの付番を示し、この付番は時間的予測の順に連続し、ここで後続の参照フレームは、常に次の画像番号を、先行して符号化された参照フレームとして受け取る。画像フレーム（Ｂ１．８）（及び（Ｂ２．１０））は、他のどのフレームに対する参照予測フレーム（reference prediction frame）としても機能することはないので、それは画像フレームの付番に影響を与えることもない。

上述の例は、ビデオシーケンスのスケーラビリティが本発明の方法を用いてどのように調整可能かについての様々な代替例を示している。端末装置がビデオシーケンスを再生する観点からすると、スケーラビリティレイヤがより一層利用可能になるか、あるいは、復号可能なスケーラビリティレイヤが増えるほど、画像品質も向上する。言い換えれば、画像情報量及び情報を転送するために用いられるビットレートが増大すると、時間若しくは空間解像度、あるいは画像データの空間品質（spatial quality）が向上する。また、これに対応して、スケーラビリティレイヤの数が増えることは、復号を行う端末装置の処理容量にかなり高い要求を課すことにもなる。

さらに、上述の例は、サブシーケンスを用いることにより得られる利点を示している。画像フレーム識別子を用いて、上記のサブシーケンスにおける各画像フレームの他の画像フレームからの依存性が明白な方法で示される。従って、サブシーケンスは、必要であれば、ビデオシーケンスの後続の画像フレームの復号に影響を与えることなく、上記のビデオシーケンスから除外可能な独立したかたまり（independent whole）を形成する。その場合、当該サブシーケンスの画像フレーム、及び、それに依存する同一及び／又はより低位のスケーラビリティレイヤ上のこれらのサブシーケンスの画像フレームのみが復号されない。

ビデオシーケンスとともに送信される画像フレームの識別子データは、そのビデオシーケンスのヘッダフィールド内に、あるいは、そのビデオシーケンスの送信のために用いられるべき転送プロトコル（transfer protocol）のヘッダフィールド内に含まれることが好ましい。言い換えれば、予測された画像フレームの識別子は、その符号化されたビデオシーケンスの画像データ内には含まれないが、常に、そのヘッダフィールド内に含まれ、これにより、その画像フレームの依存性が、実際のビデオシーケンスを復号することなく検出可能となることである。上記の画像フレームの識別子データは、例えば、上記のビデオシーケンスが送信のために符号化されてゆくのにつれて、ストリーミングサーバのバッファメモリ内に格納可能である。さらに、サブシーケンスの画像フレームは、同じスケーラビリティレイヤの他のサブシーケンスに依存しないので、そのサブシーケンスは、各スケーラビリティレイヤに独立して復号可能である。

本発明の一実施形態によると、サブシーケンスに含まれる画像フレームは、同一のスケーラビリティレイヤの他のサブシーケンスにも依存してもよい。このとき、同一のレイヤ上に配置された相互依存サブシーケンス（interdependent sub-sequences）は、送信されるべきビデオシーケンスから別々に除去されることはできないので、この依存性は、例えば、トラフィック形成（traffic shaping）を実行するストリーミングサーバに対して信号伝送されなければならない。この信号伝送を実施する好適な方法は、それを、例えば、当該サブシーケンスが依存するレイヤ−サブシーケンス対（layer-sub-sequence pairs）をリストアップすることにより、送信されるべき画像フレームの識別子内に含めることである。また、このことにより、同一のスケーラビリティレイヤの他のサブシーケンスからの依存性を示す好適な方法が提供される。

上述の例は、画像フレームが、先行する画像フレームから時間的に予測される状況を示している。しかしながら、ある符号化方法では、参照ピクチャ選択は、時間的に後続の画像フレームから画像フレームの画像情報を予測することをも含むように、さらに拡張されてきている。参照ピクチャ選択は、様々な時間的にスケーラブルな画像フレーム構造を創造するための最も多様化した手段を提供し、ビデオシーケンスのエラー感度（error sensitivity）を低減させることができるようにする。参照ピクチャ選択に基づいた符号化技術の１つが、ＩＮＴＲＡフレームの延期（INTRA-frame postponement）である。このＩＮＴＲＡフレームは、ビデオシーケンス内の時間的に「正しい」位置に配置されるのではなく、その位置が時間的に延期される。このＩＮＴＲＡフレームの「正しい」位置とその実際の位置との間にあるビデオシーケンスの画像フレームは、当該ＩＮＴＲＡフレームから時間的に後ろ方向（backward）に予測される。このことは、必然的に、表示されるべきである全ての画像フレームが符号化可能となるとともに、それらがそれらの表示順に配列可能となるように、非符号化画像フレームが十分に長時間の間バッファに入れられることを必要とする。本発明に従ったＩＮＴＲＡフレーム転送及びそれに関連したサブシーケンスの決定について、以下に、図６を参照して説明する。

図６（ａ）は、ＩＮＴＲＡフレームが単一のＩフレーム６００を含むビデオシーケンス部分を示し、このビデオシーケンスにおけるＩフレームの「正しい」位置は第１の画像フレームであったが、このＩフレーム６００は、図６に示す位置へ時間的に移転されている。従って、「正しい」位置と実際の位置６００との間のビデオシーケンスの画像フレームは、Ｉフレーム６００から時間的に後ろ方向に予測される。このことは、エンハンスメントレイヤ１の中に符号化され、第１の時間的に後ろ方向に予測された画像フレーム６０２、これはＰフレーム（Ｐ．０．０）であるが、これを有するサブシーケンスによって示される。このフレームは、先行する画像フレーム６０４、すなわちＰフレーム（Ｐ．０．１）を時間的に予測するために用いられ、このフレーム６０４は、今度は画像フレーム６０６、すなわちＰフレーム（Ｐ．０．２）を予測するために用いられ、そして最終的に、画像フレーム６０６は、画像フレーム６０８、すなわちＰフレーム（Ｐ．０．３）を予測するために用いられ、この画像フレーム６０８は、ビデオシーケンスにおけるＩフレーム６００の「正しい」位置であったはずの位置にある。それに対応して、ベースレイヤのＩフレーム６００は、４つのＰフレーム６１０，６１２，６１４，６１６、すなわちＰフレーム（Ｐ．０．０），（Ｐ．０．１），（Ｐ．０．２）及び（Ｐ．０．３）を含むサブシーケンスの、時間的に前方向の予測のために用いられる。

本実施形態で、後ろ方向に予測された画像フレームは、前方向に予測された画像レイヤよりも低位のレイヤに置かれるということは、説明のために、後ろ方向に予測された画像フレームは、この符号化の例では、前方向に予測された画像フレームよりも、主観的には重要度が低いとみなされることを示している。もちろん、サブシーケンスは、同一のレイヤ上に置かれてもよく、この場合には、それらは同等とみなされることになるか、あるいは、後ろ方向に予測されたサブシーケンスは、上位のレイヤにあることも可能であり、この場合には、それは主観的により重要であるとみなされることになる。

図６（ｂ）及び図６（ｃ）は、図６（ａ）によるビデオシーケンスの符号化のためのいくつかの代替例を示す。図６（ｂ）では、前向き及び後ろ向きに予測されたサブシーケンスの両方共ベースレイヤ上に置かれており、ＩフレームのみがＩＮＴＲＡレイヤ上に置かれている。従って、このレイヤ上の前方向に予測されたサブシーケンスは、第２のサブシーケンスであり、そのサブシーケンスの識別子は１である。図６（ｃ）では、今度は、Ｉフレーム及びそれに基づいて前方向に予測されたサブシーケンスが、ベースレイヤ上に置かれているのに対し、その一方で、後ろ方向に予測されたサブシーケンスはエンハンスメントレイヤ１上に置かれている。

さらに、本発明の好適な一実施形態によると、上述のスケーラビリティは、ビデオシーケンスへの場面転換（scene transition）として知られるものの符号化に利用可能である。ニュースレポート、音楽ビデオ及び映画の予告編（movie trailer）等のビデオ素材には、独立した画像素材場面間に急な切れ目が含まれる。時として、そのような切れ目は突然のものであるが、場面転換として知られる手順が用いられることが多く、この手順においては、ある場面から他への転換は、先行する場面の画像フレームを減光（dimming）、消去（wiping）、モザイクディゾルブ、又はスクロールし、それに応じて、後続の場面の画像フレームを表示することによりなされる。符号化の効率からすると、場面転換のビデオ符号化は、最も問題となることが多いが、これは、場面転換中に現れる画像フレームが、終了及び開始場面の両方の画像フレームについての情報を含むためである。

通例の場面転換である映像の漸移（fading）は、第１の場面の画像フレームの強度又は輝度を徐々に０に減少させ、一方では第２の場面の画像フレームの強度又は輝度を徐々にその最大値まで増加させることにより行われる。この場面転換を、クロスフェード場面転換（cross-faded scene transition）と称する。

一般的に言えば、コンピュータ作成画像は、レイヤ又は画像オブジェクトからなるものと考えることができる。各オブジェクトは、少くとも３つの情報タイプ、すなわち、画像オブジェクトの構造、その形状及び透明度（transparency）、及び、画像の背景及び他の画像オブジェクトとの関係におけるレイヤ化の順番（深度）を参照して定義され得る。形状及び透明度は、アルファ面（alpha plane）として知られるものを用いて決定されることが多く、アルファ面により不透明度（opacity）が測定され、通常はその値は各画像オブジェクトについて個別に決定され、背景は除外されることもあるが、通例、背景は、不透明として決められる。従って、完全に透明な画像オブジェクトのアルファ面の値が０．０であるのに対して、背景等の不透明画像オブジェクトのアルファ面の値は、１．０に設定可能である。中間の値により、ピクチャ内の特定の画像オブジェクトの視感度（visibility）の強度が、背景と、当該画像オブジェクトよりも高い深度値を有する他の、少なくとも部分的に重複する画像オブジェクトとに比例して定義される。

レイヤにおける画像オブジェクトの、それらの形状、透明度及び深度位置（depth position）に従った重ね合わせ（superimposition）のことを場面構成（scene composition）と称する。実際には、その手順は、加重平均の使用に基づいている。第１に、背景に最も近接した、すなわち、その深度位置に従う最も深い画像オブジェクトは背景上に配置され、組み合わせ画像はその２つから形成される。この組み合わせ画像の画素値は、背景画像及び当該画像オブジェクトのアルファ面値により加重平均されたものとして形成される。そのとき、この組み合わせ画像のアルファ面値は、１．０に設定され、その後、それは次の画像オブジェクトに対して背景画像としての役割を果たす。全ての画像オブジェクトがその画像に付加されるまで上記の処理は継続する。

以下に、本発明の好適な一実施形態による手順について説明するが、ここでは、ビデオシーケンスのスケーラビリティレイヤが、上述の画像フレームの画像オブジェクト及びその情報タイプと組み合わされて、圧縮効率もよいスケーラブルビデオ符号化を伴う場面転換が提供される。

以下に、本発明の本実施形態について、一方では、クロスフェード場面転換を用いることにより、他方では、突然の場面転換を例として用いることにより、例により簡単化して説明する。場面転換中に表示されるべき画像フレームは、通例、２つの重ね合わせ画像フレームから形成され、第１の画像フレームは第１の画像場面を含み、第２の画像フレームは第２の場面を含んでいる。一方の画像フレームは背景画像となり、前景画像（foreground image）と称する他方は、背景画像の先端（top）に配置される。背景画像の不透明度、すなわちその不透明度値は、一定である。換言すれば、その画素別アルファ面値（pixel-specific alpha plane value）は調整されない。

本発明のこの実施形態では、背景及び前景画像は、いずれもスケーラビリティレイヤに従って定義される。このことは図７に図示されており、図７は、２つの異なる場面の画像フレームが、本発明の場面転換中にスケーラビリティレイヤ上にどのように配置可能であるかについての例を示す。図７は、ベースレイヤ上に配置された第１の（終了（terminating））場面の第１の画像フレーム７００を示す。画像フレーム７００は、動き補償時間的予測を用いて決定されなかった画像情報を含むＩフレームでもよく、あるいは先行する画像フレームから予測された動き補償された画像フレームであるＰフレームであってもよい。第２の（開始（initiating））場面の符号化は、時間的に後続の画像フレーム中に開始し、そして本発明によって、その場面の画像フレームも、ベースレイヤ上に配置される。それから、第２（開始）場面の残りの画像フレーム７０２，７０４は、エンハンスメントレイヤ１上に配置される。これらの画像フレームは、通例、Ｐフレームである。

本実施形態では、第２（開始）場面の画像フレームは少なくとも場面転換の時間中はこのようにベースレイヤ上に配置される。その場面の第１の画像フレーム７０６は、通例、Ｉフレームであり、それは、その場面の後続の画像フレームを時間的に予測するために用いられる。従って、第２の場面の後続の画像フレームは、図７に示すフレーム７０８及び７１０等の時間的に予測されたフレーム、通例はＰフレームである。

本発明の好適な実施形態により、画像フレームをスケーラビリティレイヤ上にこのように配置することは、ベースレイヤ上にある画像レイヤを、常に、最大不透明度（opacity）（１００％）、すなわち不透明値（non-transparency value）の背景画像として決めることによって、クロスフェード場面転換を実行するために用いられ得る。場面転換中に、エンハンスメントレイヤ上に配置された画像フレームは、背景画像上に配置され、そしてその不透明度は、不透明から透明へとフレームが徐々に変化するように例えば適切なフィルタにより調整される。

図７のビデオシーケンスでは、第１のベースレイヤの画像フレーム７００中には、低位のスケーラビリティレイヤ上の画像フレームがない。この時刻には、第１の画像フレーム７００は、ビデオシーケンス内に符号化されるだけである。

ベースレイヤの次の画像フレーム７０６は、新規（第２）の場面を開始し、その間、画像フレーム７０６には、それを背景画像として置く深度位置決め（depth positioning）が与えられ、その不透明度値が最大に設定される。ベースレイヤの画像フレーム７０６と時間的に同時に、エンハンスメントレイヤ１上の終了（第１）場面の画像フレーム７０２が存在している。クロスフェード場面転換が作成されることを可能とするために、フレーム７０２の透明度は増大されなければならない。図７の例では、画像フレーム７０２の不透明度は６７％に設定され、さらに、画像フレーム７０２に対してそれを前景画像として決定する深度位置決めが与えられることが想定されている。この時刻に、画像フレーム７０６及び７０２を組み合わせる画像は、ビデオシーケンス内に符号化され、画像７０６は、背景上の弱い画像として見え、画像７０２は、不透明度値が本質的に高い（６７％）ため、前面で強い画像として見える。

時間的に後続の画像フレーム中に、ベースレイヤ上の第２の場面の第２の画像フレーム７０８があり、従って、それに対応して、フレーム７０８には、それを背景画像であると決定する深度位置決めが与えられ、その不透明度値は最大に設定される。さらに、エンハンスメントレイヤ１は、時間的に同時に終了する（第１の）場面の最後の画像フレーム７０４を含み、そのフレームの不透明度値は３３％に設定され、さらに、画像フレーム７０４には、それも同様に前景画像として決定する深度位置決めが与えられる。従って、この時刻には、画像フレーム７０８及び７０４を組み合わされた画像が、ビデオシーケンス内に符号化され、画像７０８は背景画像上でより強い画像として表示され、そして、画像７０４の不透明度値がもはや３３％以下であるので、画像７０４は前景上でより弱い画像として表示される。

時間的に後続の画像フレーム中に、ベースレイヤは、第２の場面の第３の画像７１０を含む。第１の場面が終了したので、画像フレーム７１０のみがビデオシーケンス内に符号化されて、第２の場面の表示はフレーム７１０から続行する。

上述の開示では、例として、符号化効率の点から有利な方法で、クロスフェード場面転換を実行するために、本発明に従い、画像フレームをスケーラビリティレイヤ上に配置することについて、記述されている。しかしながら、ビデオシーケンスが送信又は復号された場合に、ビデオシーケンスのビットレートが、データ転送に利用可能な帯域幅及び／又は端末装置の復号速度（decoding rate）の最大値に従って調整されなければならないという状況が、発生しうる。従来技術のビデオ符号化方法を用いて場面転換が実行されなければならない場合、この種のビットレート制御により問題が生じる。

本発明の好適な実施形態により、今や、１つ若しくはそれ以上のスケーラビリティレイヤ、又はそれに含まれた独立して復号可能なサブシーケンスを、ビデオシーケンスから除去することが可能となり、それにより、ビデオシーケンスのビットレートは、低減可能となり、同時に、ビデオシーケンスは、画像周波数を減少させることなく復号可能となる。図７による画像フレーム配置では、エンハンスメントレイヤ１をビデオシーケンスから除去することにより、このことが実行可能である。従って、ビデオシーケンスは、ベースレイヤの画像フレーム７００，７０６，７０８，７１０を表示するためにのみ使用される。換言すると、第１（終了）の場面から第２（開始）の場面への直接的な転換は、突然の場面転換という形式で起こる、すなわち、第１の場面の画像フレーム７００から第２の場面を開始するＩ画像フレーム７０６へと直接なされる。従って、この転換は、クロスフェード場面転換ではなく、突然の場面転換となる。それにもかかわらず、この場面転換は、ビデオシーケンスの画像の品質に影響を与えることなく、有利な方法で実行可能であり、視聴者は、通例、妨害又は障害のいずれにあっても、クロスフェード場面転換の代わりに実施された突然の場面転換を感じるということはない。反対に、従来技術の実施では、スケーラビリティレイヤが削除可能ではないので、場面転換には、多くの場合、画像周波数を減少させることが必要となることになり、それにより、視聴者は、ぎくしゃくした動き及び障害を感じることになる。

このように、本発明は、ビデオシーケンスの様々なサブシーケンスについての情報即ち、それらの平均ビットレート、そのビデオシーケンス全体との関連での位置、継続時間、及びレイヤに関するそれらの相互依存性の情報を含むストリーミングサーバにおいてマルチメディアデータトラフィック形成（multimedia data traffic shaping）を実行するための好適な手段を提供するものである。また、このストリーミングサーバは、データ転送に利用可能な帯域幅及び／又は端末装置の復号速度の最大値を決定する。この情報に基づき、ストリーミングサーバは、どの位のスケーラビリティレイヤ数かを決定するとともに、どのサブシーケンスがビデオシーケンス内に送信されるかを決定する。このように、ビットレートの制御は、必要なときに、まずスケーラビリティレイヤの数を大まかに調整することにより、実行可能であり、その後、より精密なサブシーケンス別の調整が、容易に実行可能となる。最も簡単には、ビットレート制御は、特定のサブシーケンスがビデオシーケンスに追加されるか、あるいはそれから除去されるかについて、サブシーケンス別に決定することを意味する。除去の場合、ビデオシーケンスからサブシーケンスの全体を除去したほうが望ましい。これは、個々の画像を除去すると、同じサブシーケンスの他の画像にエラーが生じることがあるためである。同じ理由により、低位のエンハンスメントレイヤのサブシーケンスは、それらが高位のレイヤの除去されたサブシーケンスに依存している場合は、全て除去されるべきである。もし１つの同じスケーラビリティレイヤ上に、相互依存した複数のサブシーケンスがある場合は、先行のサブシーケンスに依存したサブシーケンスは、その先行のサブシーケンスが除去される場合は、除去されるべきである。

画像フレーム識別子データが、送信されるべきであるビデオシーケンスに追加される場合は、トラフィック形成は、ビデオシーケンスの転送に用いられるべき通信ネットワーク要素、例えば、インターネットルータ、様々なゲートウェイ、又は、移動通信ネットワークの基地局若しくは基地局コントローラ、において実施することができる。サブシーケンス情報を管理及び処理することが可能であるべきネットワーク要素に対しては、余分の記憶及び処理容量を持たなければならない。この理由から、ネットワークにおいて実行されるべきトラフィック形成は、多分、ＤｉｆｆＳｅｒｖすなわち差別化サービス（differentiated service）、ある種のＩＰベースのネットワークが対応している手順等の簡単な処理方法を用いて実行されることにまずなりそうである。ＤｉｆｆＳｅｒｖ方法では、各ＩＰデータパケットに対して優先度が割り当てられ、それにより、より優先度が高いデータパケットが、優先度が低いパケットよりも、より高速かつ高信頼で受信側に中継される。このことは、スケーラビリティレイヤ別の優先度だけでなく、サブシーケンス別の優先度を決定することにより、本発明のスケーラビリティに有利に適用され、それにより、高度に進歩した優先順位付け（priorisation）が可能となる。

画像フレーム識別子を、送信されるべきビデオシーケンスに追加することについては、多くの代替例がある。さらに、ビデオシーケンスに識別子データを何ら含めないことも可能であり、その場合には、トラフィック形成は、ストリーミングサーバでのみ実行される。識別子データは、ビデオシーケンスのヘッダフィールド、又は、ＲＴＰ（Real Time Protocol:リアルタイムプロトコル）等の使用されるべき転送プロトコルのヘッダフィールド内に、含めることが可能である。好適な実施形態によると、識別子データは、追加拡張情報（Supplemental Enhancement Information:ＳＥＩ）メカニズムを用いて転送可能である。ＳＥＩは、ビデオデータ内容と同期に転送されるデータ配信メカニズム（data delivery mechanism）を提供し、従って、ビデオシーケンスの復号及び表示において補助を行う。ＳＥＩメカニズムは、特に、レイヤ及びサブシーケンスの情報を転送するために使用される場合について、ＩＴＵ−Ｔ規格書ITU-T Rec. H.264（ISO/IEC 14496-10:2002），Annex Dに、より詳細に開示されている。識別子のデータ転送のために、独立した転送プロトコル又はメカニズムが用いられる場合においては、トラフィック形成は、転送経路のネットワーク要素の１つでも実行可能である。さらに、受信端末装置が復号を制御することができる。

エンコーダ又はデコーダが参照ピクチャ選択をサポートしている場合は、ビデオシーケンス符号化のためには、異なる画像フレーム間の関係が、１つ又はそれ以上の他の画像フレームから時間的に予測可能となるように、符号化前に、復号された画像フレームをバッファに入れることが必要となる。画像フレームのバッファリングは、少なくとも２つの異なる方法、すなわち、スライディングウインドウ（Sliding Windowing）か、あるいは、適応バッファメモリ制御（adaptive buffer memory control）で取り決められる。スライディングウインドウでは、最後に符号化されたＭ画像フレームが、バッファとして用いられる。バッファメモリ内のフレームは、復号及び再構成された形式になっており、これにより、符号化において、それらを参照画像として使用可能となる。符号化が進むにつれ、画像フレームバッファリングは、ＦＩＦＯ（First-In-First-Out）原理に基づいて機能する。従来のＢ画像等の、参照画像として用いられない画像は、バッファ内に格納する必要はない。代わりの方法として、バッファリングは、適応バッファメモリ制御として実行可能であり、その場合には、画像のバッファリングは、ＦＩＦＯ原理に限定されず、必要のない画像フレームは、処理の途中でバッファから除外可能であり、あるいはそれに応じて、どれかの画像フレームが、後の画像フレーム用に参照画像として必要であるなら、より長時間の間バッファ内に格納しておくこともできる。既知の参照ピクチャ選択は、バッファメモリ内の画像フレームに特定の順序にインデックスを付すことにより実行され、このとき、この画像インデックスは、例えば、動き補償に関連して画像を参照するために用いられる。一般に、このインデックス化方法は、例えば、動き補償参照画像が信号伝送されるべき場合に特定の画像を参照するために、画像番号を用いることに比べて、より良好な圧縮効率を提供する。

上述の参照画像インデックス化方法は、送信側のエンコーダ及び受信側のデコーダのバッファが相互に対応して再構成された画像を同一の順序で含んで、そのエンコーダ及びデコーダの両者が、確実に同一のインデックス順序を形成するようにしなければならないので、転送エラーによる影響を受けやすい。画像フレームに、上記のエンコーダ及びデコーダのバッファ内で異なる順でインデックスが付されると、デコーダ内で間違った参照画像が使用されることがある。これを防止するためには、ビデオシーケンスからエンコーダが意図的に除外した画像フレーム及びサブシーケンスを考慮するように、デコーダが制御可能であることが不可欠である。その場合、画像フレームの番号付けはギャップを含む場合があり、デコーダは、通例、そのギャップをエラーと解釈し、喪失したと解釈された画像フレームを再構成しようと試みる。この理由から、エンコーダがデコーダに対して、送信される画像フレームの画像の番号付けにおける不連続は意図されたものであることを通知することが可能であることが不可欠である。

これに応答し、そして、画像フレームをバッファリングするためにスライディングウインドウが用いられるとして、デコーダは、バッファメモリ内に、いくつもの画像フレームを入れてゆき、その内容は、喪失した画像番号に応じて完全にランダムとなり得る。それから、これらのランダムな画像フレームは、「無効」という識別子により指定されて、当該フレームが実際のビデオシーケンスに属するものではなく、単にバッファメモリ管理のために入れられたつなぎフレーム（filler frame）に過ぎないことを示す。つなぎフレームは、当然、メモリインジケータのみを用いて実行可能である、すなわち、バッファメモリにはデータが入れられないで、メモリ管理は単に、一般的な「無効」フレーム（generic“invalid”frame）に対する参照を格納するために用いられることが望ましい。実際のビデオシーケンスの画像フレームの挿入（entering）は、喪失した画像番号により指定されるつなぎフレームの番号がバッファに入れられた後、正しい画像フレーム番号から続行し、それにより、エンコーダ及びデコーダのバッファメモリが、好適に同期が保たれるようにすることができる。復号中に、画像番号への参照が検出されて、それからバッファ内に位置するつなぎフレームを指していることがわかった場合、例えば、エンコーダに、当該参照画像を再送するように要求することによって、実際の参照画像を再構成するように、デコーダ内でエラー訂正動作が開始される。

さらに、本発明の手順により、それぞれのスケーラビリティレイヤ上で、あるいは、それに対応してサブシーケンス別に、独立したバッファメモリを使用することが可能となる。従って、各スケーラビリティレイヤは、概念的に独立していてスライディングウインドウ原理に基づいて機能する独立したバッファメモリを持ってもよい。同様に、各サブシーケンスに対しても、やはりスライディングウインドウ原理に基づいて機能する、概念的に独立したバッファメモリが備えられてもよい。このことは、サブシーケンスが終了したときには、バッファメモリは常に空いていることを意味する。通常のスライディングウインドウバッファリングが適切でなく、その代わりに動的適用バッファメモリ管理が用いられる必要がありそうな、ある状況において信号伝送のためのその必要性を減らすような、好適な方法で、独立したバッファメモリを使用することが可能である。

Ｈ．２６Ｌ規格は、ピクチャ順序の計数を、出力順のピクチャ位置として規定している。Ｈ．２６Ｌ規格に指定された復号処理は、Ｂスライス内の参照ピクチャ用にデフォルトのインデックス順序付け（default index ordering）を決定するために、動きベクトル予測（motion vector prediction）におけるベクトルスケーリングのために、また、Ｂスライス内の暗黙のモード加重予測（implicit mode weighted prediction）のために、フレームとフィールド間のピクチャ順序差を表すために、そして、復号順に連続するスライスがどの時点で異なるピクチャに属するかを決定するために、ピクチャ順序計数を用いる。このピクチャ順序計数は、各ピクチャに対して符号化されて送信される。

本発明の一実施形態では、デコーダは、ピクチャ順序計数を用いて、ピクチャが時間的に重複していること、すなわち、等しいピクチャ順序計数を有するピクチャ同士は時間的に重複していることを判断する。デコーダは、最高位の受信されたレイヤ上のピクチャのみを出力することが望ましい。画像情報が欠落していると、デコーダは、復号順序において最も新しい時間的に重複したピクチャが最高位の受信レイヤ上に存在するものと判断する。

上記の開示には、スケーラブルで圧縮されたビデオシーケンスを生成する目的のためのビデオフレームを符号化するための手順が記述されている。実際の手順は、図１のコンプレッサ１０８等のビデオエンコーダ内で実行され、これは、既知のどのようなビデオエンコーダであってもよい。例えば、ＩＴＵ−Ｔ勧告Ｈ．２６３又はＨ．２６Ｌによるビデオエンコーダが用いられてもよく、そのビデオエンコーダは、本発明に従って、第１のサブシーケンスをビデオシーケンス内に形成するようになっており、そのサブシーケンスの少なくとも一部がＩフレームを符号化することにより形成され、また、少なくとも第２のサブシーケンスをビデオシーケンス内に形成し、そのサブシーケンスの少なくとも一部が少なくともＰ又はＢフレームを符号化することにより形成され、そしてその第２のサブシーケンスの少なくとも１つのビデオフレームが、第１のサブシーケンスの少なくとも１つのビデオフレームから予測され、そして、少なくとも第２のサブシーケンスのビデオフレームの識別データを上記のビデオシーケンス内に決定するようになっている。

本発明の手順により、個々のスケーラビリティレイヤの各サブシーケンスは、当然、高位のスケーラビリティレイヤからの依存性を考慮し、場合によって、同じスケーラビリティレイヤの他のサブシーケンスを考慮して独立して復号可能であることが好ましい。従って、上述したもののようなスケーラブルに圧縮されたビデオシーケンスは、ビデオシーケンスの第１のサブシーケンスを復号することにより復号可能であり、そのサブシーケンスの少なくとも一部は、少なくともＩフレームを符号化することにより形成されたものであり、そして、少なくともビデオシーケンスの第２のサブシーケンスを復号することにより復号可能であり、この第２のサブシーケンスの少なくとも一部は、少なくともＰ又はＢフレームを符号化することにより形成されたものであり、そしてこの第２のサブシーケンスの少なくとも１つのビデオフレームは、上記の第１のサブシーケンスの少なくとも１つのビデオフレームから予測されたものであり、そして少なくともビデオシーケンスの第２のサブシーケンスに含まれるビデオフレームの識別及び依存性データを決定することにより、そして、ビデオシーケンスの少なくとも一部を上記のサブシーケンスの依存性に基づいて再構成することによって復号可能である。

実際の復号は、図１のデコンプレッサ１１８等のビデオデコーダ内で行われ、これは、既知のどのようなビデオデコーダであってもよい。例えば、ＩＴＵ−Ｔ勧告Ｈ．２６３又はＨ．２６Ｌによる低ビットレートデコーダが用いられてもよく、これは、本発明では、ビデオシーケンスの第１のサブシーケンスを復号するようにされており、このサブシーケンスの少なくとも一部は、Ｉフレームを符号化することによって形成されたものであり、また、少なくともビデオシーケンスの第２のサブシーケンスを復号するようにされて、この第２のサブシーケンスの少なくとも一部は、少なくともＰ又はＢフレームを符号化することにより形成されたものであり、そしてこの第２のサブシーケンスの少なくとも１つのビデオフレームは、上記の第１のサブシーケンスの少なくとも１つのビデオフレームから予測されたものである。ビデオデコーダは、少なくとも上記のビデオシーケンスの第２のサブシーケンスに含まれたビデオフレームの識別及び依存性データを決定し、そしてビデオシーケンスの少なくとも一部を、そのサブシーケンスの依存性に基づいて再構成するようにされている。

本発明のストリーミングシステムの動作において不可欠な側面は、エンコーダ及びデコーダが、少なくとも、エンコーダがストリーミングサーバに動作可能に接続され、そしてデコーダが受信側の端末装置に動作可能に接続されるように、配置されていることである。しかしながら、ストリーミングシステムの様々な要素、特に端末装置は、マルチメディアファイルの双方向転送、すなわち送信及び受信、を可能にする機能（functionality）を含んでいてもよい。従って、エンコーダ及びデコーダは、エンコーダ及びデコーダ機能を統合したビデオコーデック（video codec）として知られるものの形で実施されてもよい。

本発明によって、ストリーミングサーバ、ビデオエンコーダ、ビデオデコーダ、及び端末等の上述のストリーミングシステム及びその要素の機能的要素は、ソフトウェアによって、またハードウェアソリューションによって、又はその両者の組合せによって好適に実施されることに注意すべきである。本発明の符号化及び復号方法は、特に、本発明の処理手順を実行するためのコンピュータリーダブルコマンドを含むコンピュータソフトウェアとして実施するのに適している。エンコーダ及びデコーダを実施する好適な方法は、それらを記憶手段内に、コンピュータのような装置、例えば、パーソナルコンピュータ（ＰＣ）又は移動局により実行可能なプログラムコードとして格納して、当該装置上に符号化／復号機能を提供することである。

他の代替例は、本発明を、この場合は、少なくとも第１及び第２のフレームフォーマットに従って符号化されたビデオフレームを含み、スケーラブルに圧縮されたビデオシーケンスを含むビデオ信号として実施することであり、この第１のフレームフォーマットによるビデオフレームは、他のビデオフレームと独立しており、そして第２のフレームフォーマットのビデオフレームは、他のビデオフレームの少なくとも１つから予測されるものである。本発明によると、当該ビデオ信号は、少なくとも第１のフレームフォーマットのビデオフレームを符号化することにより少なくともその一部が形成された少なくとも第１のサブシーケンスと、少なくとも第２のフレームフォーマットのビデオフレームを符号化することにより少なくともその一部が形成された少なくとも第２のサブシーケンスと、上記の第１のサブシーケンスの少なくとも１つのビデオフレームから予測された上記の第２のサブシーケンスの少なくとも１つのビデオフレームと、そして上記の第２のサブシーケンスに属するビデオフレームを決定する少なくとも１つのデータフィールドとを、含んでいる。

技術の進歩につれて、本発明の基本的概念は様々な方法で実施可能であることが、当業者には明らかである。従って、本発明及びその実施形態は、上述の実施例に限定されるものではなく、それらは、特許請求の範囲の請求項の範囲内で様々変り得るものである。

本発明のスケーラブル符号化の階層構造が適用可能な通常のマルチメディアデータストリーミングシステムを示す図である。本発明の好適な実施形態のスケーラブル符号化の階層構造を示す図である。図３（ａ）、３（ｂ）はスケーラビリティを調整するための本発明の実施形態を示す図である。図４（ａ）、４（ｂ）、及び４（ｃ）は画像の番号付けを調整するための本発明の実施形態を示す図である。図５（ａ）、５（ｂ）、及び５（ｃ）はスケーラブル符号化の階層構造内にＢフレームを用いた本発明の実施形態を示す図である。図６（ａ）、６（ｂ）、及び６（ｃ）は参照ピクチャ選択に関連した本発明の好適な実施形態のスケーラブル符号化の階層構造を示す図である。場面転換を符号化するための本発明の好適な実施形態による構成を示す図である。

符号の説明

２００，２０２Ｉフレーム
２０４，２０６，２０８，２１０，２１２，２１４，２１６，２１８Ｐフレーム

Claims

圧縮ビデオシーケンスを復号するための方法であって、画像フレームが前記復号に関連してバッファメモリに入れられる方法において、
前記画像フレームの番号付けの少なくとも1つの不連続に関する指示を前記ビデオシーケンスから復号するステップと、
前記指示に応答して前記画像フレームの番号付けにおける不連続に対応する数の画像フレームを与えるように前記バッファメモリを構成するステップと、
前記復号のプロセスにおいて前記バッファメモリ内の前記画像フレームを使用するステップと、を含むことを特徴とする方法。
前記指示は、前記ビデオシーケンスの前記画像フレームの番号付けにおける少なくとも１つの不連続が意図的であることを知らせることを特徴とする請求項１に記載の方法。
さらに、前記画像フレームの番号付けにおける前記不連続のためにデコーダに存在しない画像フレームの代わりに前記バッファメモリ内の前記の数の画像フレームを使用するステップを含むことを特徴とする請求項１または２に記載の方法。
前記バッファメモリ内の前記の数の画像フレームが画像フレームのスライディングウィンドウバッファリングにおいて使用されることを特徴とする請求項１から３までのいずれか一項に記載の方法。
さらに、前記バッファメモリが前記画像フレームの番号付けにおける前記不連続に対応する数の画像フレームを与えるように構成された後、前記の当該ビデオシーケンスに含まれる前記画像フレームを正しい画像フレーム番号から引き続き前記バッファメモリに入れるステップを含むことを特徴とする請求項１から４までのいずれか一項に記載の方法。
さらに、前記画像フレームの番号付けにおける前記不連続に対応する数のつなぎフレームを前記バッファメモリに入れるステップを含むことを特徴とする請求項１から５までのいずれか一項に記載の方法。
前記つなぎフレームが実際のビデオシーケンスに属さないことを示す識別子によって前記つなぎフレームが指定されることを特徴とする請求項６に記載の方法。
前記画像フレームの番号付けにおける前記不連続に対応する数の画像フレームを与えるように前記バッファメモリを構成するステップは、メモリ指示によって実行されることによって、前記バッファメモリにデータが入れられないことを特徴とする請求項１から５までのいずれか一項に記載の方法。
さらに、前記復号のプロセスにおいて画像フレームの前記番号付けにおける不連続に対応する画像フレームを参照することに基づいて前記圧縮ビデオシーケンスのエラーを検出するステップを含むことを特徴とする請求項３または６に記載の方法。
圧縮ビデオシーケンスを復号するためのビデオデコーダであって、該ビデオデコーダがバッファメモリに接続され、前記復号に関連して前記バッファメモリに画像フレームが入れられ、
該ビデオデコーダが、
前記画像フレームの番号付けにおける少なくとも１つの不連続に関する指示を前記ビデオシーケンスから復号し、
前記指示に応答して、前記画像フレームの前記番号付けの不連続に対応する数の画像フレームを与えるように前記バッファメモリを構成し、かつ
前記復号のプロセスにおいて前記バッファメモリ内の前記画像フレームを使用するように配列されることを特徴とするビデオデコーダ。
前記指示は、前記ビデオシーケンスにおける前記画像フレームの番号付けの不連続が意図的であることを知らせることを特徴とする請求項１０に記載のビデオデコーダ。
該ビデオデコーダは、さらに、
前記画像フレームの番号付けにおける不連続のためにデコーダに存在しない画像フレームの代わりに前記バッファメモリ内の前記の数の画像フレームを使用するように配列されることを特徴とする請求項１０または１１に記載のビデオデコーダ。
前記バッファメモリ内の前記の数の画像フレームが画像フレームのスライディングウィンドウバッファリングにおいて使用されることを特徴とする請求項１０から１２までのいずれか一項に記載のビデオデコーダ。
前記ビデオデコーダは、さらに、
前記バッファメモリが前記画像フレームの番号付けにおける前記不連続に対応する前記の数の画像フレームを与えるように構成された後、前記の当該ビデオシーケンスに含まれる前記画像フレームを正しい画像フレーム番号から引き続き前記バッファメモリに入れるように配列されることを特徴とする請求項１０から１３までのいずれか一項に記載のビデオデコーダ。
前記ビデオデコーダは、さらに、
前記画像フレームの番号付けにおける前記不連続に対応する数のつなぎフレームを前記バッファメモリに入れるように配列されることを特徴とする請求項１０から１４までのいずれか一項に記載のビデオデコーダ。
前記つなぎフレームは、該つなぎフレームが実際のビデオシーケンスに属さないことを示す識別子によって指定されることを特徴とする請求項１５に記載のビデオデコーダ。
前記ビデオデコーダは、さらに、
メモリ指示によって前記画像フレームの番号付けにおける前記不連続に対応する数の画像フレームを与えるように前記バッファメモリを構成することによりデータは前記バッファメモリに入れられないように配列されることを特徴とする請求項１０から１４までのいずれか一項に記載のビデオデコーダ。
データ処理装置において実行可能な、圧縮ビデオシーケンスを復号するためのコンピュータプログラムであって、前記ビデオシーケンスの画像フレームが前記復号に関連してバッファメモリに入れられるコンピュータプログラムにおいて、
該コンピュータプログラムが、
前記画像フレームの番号付けの少なくとも１つの不連続に関する指示を前記ビデオシーケンスから復号するための手順と、
前記指示に応答して、前記画像フレームの前記番号付けの不連続に対応する数の画像フレームを与えるように前記バッファメモリを構成するための手順と、
前記復号のプロセスにおいて前記バッファメモリ内に前記画像フレームを含めるための手順と、
を含むことを特徴とするコンピュータプログラム。
前記指示は、前記ビデオシーケンスの前記画像フレームの番号付けにおける不連続が意図的であることを知らせることを特徴とする請求項１８に記載のコンピュータプログラム。
前記コンピュータプログラムは、さらに、
前記画像フレームの番号付けにおける前記不連続のためにデコーダに存在しない画像フレームの代わりに前記バッファメモリに前記の数の画像フレームを含めるための手順を含むことを特徴とする請求項１８または１９に記載のコンピュータプログラム。
前記コンピュータプログラムは、さらに、
画像フレームのスライディングウィンドウバッファリングにおいて前記バッファメモリ内の前記の数の画像フレームを使用するための手順を含むことを特徴とする請求項１８から２０までのいずれか一項に記載のコンピュータプログラム。
前記コンピュータプログラムは、さらに、
前記バッファメモリが前記画像フレームの番号付けにおける前記不連続に対応する前記の数の画像フレームを与えるように構成された後、前記の当該ビデオシーケンスに含まれる前記画像フレームを正しい画像フレーム番号から引き続き前記バッファメモリに入れるための手順を含むことを特徴とする請求項１８から２１までのいずれか一項に記載のコンピュータプログラム。
前記コンピュータプログラムは、さらに、
前記画像フレームの番号付けにおける前記不連続に対応する数のつなぎフレームを前記バッファメモリに入れるための手順を含むことを特徴とする請求項１８から２２までのいずれか一項に記載のコンピュータプログラム。
前記コンピュータプログラムは、さらに、
前記つなぎフレームが実際のビデオシーケンスに属さないことを示す識別子によって前記つなぎフレームを指定するための手順を含むことを特徴とする請求項２３に記載のコンピュータプログラム。
前記コンピュータプログラムは、さらに、
メモリ指示によって前記画像フレームの番号付けにおける前記不連続に対応する数の画像フレームを与えるように前記バッファメモリを構成するための手順によって、データが前記バッファメモリに入れられない手順を含むことを特徴とする請求項１８から２２までのいずれか一項に記載のコンピュータプログラム。
ビデオシーケンスを符号化するためのビデオエンコーダであって、
該ビデオエンコーダが、
少なくとも１つの画像フレームが前記ビデオシーケンスから除外されて、画像フレームの番号付けに不連続を生じさせるように前記ビデオシーケンスを符号化し、かつ
前記画像フレームの番号付けの前記不連続に関する指示を前記ビデオシーケンス内に符号化するように配列されることを特徴とするビデオエンコーダ。
前記指示が前記ビデオシーケンスの前記画像フレームの番号付けにおける前記不連続が意図的であることを知らせることを特徴とする請求項２６に記載のビデオエンコーダ。
ビデオシーケンスのビットレートを調整するための装置であり、該装置が符号化されたビデオシーケンスを受信するように配列される装置であって、
該装置が、さらに、
少なくとも１つの画像フレームを前記ビデオシーケンスから除外することによって、画像フレームの番号付けにおいて不連続を生じさせ、かつ
前記画像フレームの番号付けの前記不連続に関する指示を前記ビデオシーケンス内に含めるように配列されることを特徴とする装置。
前記指示は、前記ビデオシーケンスの前記画像フレームの番号付けにおける不連続が意図的であることを知らせることを特徴とする請求項２８に記載の装置。