JP2001036911A

JP2001036911A - 画像符号化装置および画像符号化方法、画像復号装置および画像復号方法、並びに記録媒体

Info

Publication number: JP2001036911A
Application number: JP2000176666A
Authority: JP
Inventors: Yoichi Yagasaki; 陽一矢ヶ崎; Teruhiko Suzuki; 輝彦鈴木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1997-04-01
Filing date: 2000-06-13
Publication date: 2001-02-09
Anticipated expiration: 2018-03-27
Also published as: ES2323482T3; US20020114391A1; US6643328B2; EP1152622A1; CN1630375A; EP0914007A4; EP1152622B1; CN1220804A; EP0914007B1; IL127274A0; CN1312655A; WO1998044742A1; CA2255923C; US20020122486A1; CN100579230C; EP0914007A1; KR20000016220A; CN1186944C; EP1152622B9; US6414991B1

Abstract

(57)【要約】【課題】効率的なランダムアクセスを可能とする。【解決手段】符号化ビットストリームの階層として、
秒精度の符号化開始絶対時刻が配置されるＧＯＶ（Grou
p of Video Object Plane）層を設ける。ＧＯＶ層は、
符号化ビットストリームの先頭だけでなく、その他の任
意の位置に挿入することができるものとする。さらに、
符号化開始絶対時刻を基準とする相対時刻を１秒単位で
表すmodulo_time_base、およびmodulo_time_baseによっ
て示される時刻（同期点）からの時刻を１ミリ秒単位で
表すVOP_time_incrementによって、ＧＯＶを構成する各
ＶＯＰ（Video Object Plane）の表示時刻を表す。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、画像符号化装置お
よび画像符号化方法、画像復号装置および画像復号方
法、並びに記録媒体に関する。特に、例えば、動画像デ
ータを、光磁気ディスクや磁気テープなどの記録媒体に
記録し、これを再生してディスプレイなどに表示した
り、テレビ会議システム、テレビ電話システム、放送用
機器、マルチメディアデータベース検索システムなどの
ように、動画像データを伝送路を介して送信側から受信
側に伝送し、受信側において、受信された動画像データ
を表示する場合や、編集して記録する場合などに用いて
好適な画像符号化装置および画像符号化方法、画像復号
装置および画像復号方法、並びに記録媒体に関する。

【０００２】

【従来の技術】例えば、テレビ会議システム、テレビ電
話システムなどのように、動画像データを遠隔地に伝送
するシステムにおいては、伝送路を効率良く利用するた
め、画像データを、そのライン相関やフレーム間相関を
利用して圧縮符号化するようになされている。

【０００３】動画像の高能率符号化方式として代表的な
ものとしてMPEG（Moving Picture Experts Group）（蓄
積用動画像符号化）方式がある。これはＩＳＯ−ＩＥＣ
／ＪＴＣ１／ＳＣ２／ＷＧ１１において議論され、標準
案として提案されたものであり、動き補償予測符号化と
ＤＣＴ（Discrete Cosine Transform）符号化を組み合
わせたハイブリッド方式が採用されている。

【０００４】ＭＰＥＧでは、様々なアプリケーションや
機能に対応するために、いくつかのプロファイルおよび
レベルが定義されている。最も基本となるのが、メイン
プロファイルメインレベル（ＭＰ＠ＭＬ（Main Profile
at Main Level））である。

【０００５】図３８は、ＭＰＥＧ方式におけるＭＰ＠Ｍ
Ｌのエンコーダの一例の構成を示している。

【０００６】符号化すべき画像データは、フレームメモ
リ３１に入力され、一時記憶される。そして、動きベク
トル検出器３２は、フレームメモリ３１に記憶された画
像データを、例えば、１６画素×１６画素などで構成さ
れるマクロブロック単位で読み出し、その動きベクトル
を検出する。

【０００７】ここで、動きベクトル検出器３２において
は、各フレームの画像データを、Ｉピクチャ(フレーム
内符号化）、Ｐピクチャ（前方予測符号化）、またはＢ
ピクチャ（両方向予測符号化）のうちのいずれかとして
処理する。なお、シーケンシャルに入力される各フレー
ムの画像を、Ｉ，Ｐ，Ｂピクチャのいずれのピクチャと
して処理するかは、例えば、予め定められている（例え
ば、Ｉ，Ｂ，Ｐ，Ｂ，Ｐ，・・・Ｂ，Ｐとして処理され
る）。

【０００８】即ち、動きベクトル検出器３２は、フレー
ムメモリ３１に記憶された画像データの中の、予め定め
られた所定の参照フレームを参照し、その参照フレーム
と、現在符号化の対象となっているフレームの１６画素
×１６ラインの小ブロック（マクロブロック）とをパタ
ーンマッチング（ブロックマッチング）することによ
り、そのマクロブロックの動きベクトルを検出する。

【０００９】ここで、ＭＰＥＧにおいては、画像の予測
モードには、イントラ符号化（フレーム内符号化）、前
方予測符号化、後方予測符号化、両方向予測符号化の４
種類があり、Ｉピクチャはイントラ符号化され、Ｐピク
チャはイントラ符号化または前方予測符号化のいずれか
で符号化され、Ｂピクチャはイントラ符号化、前方予測
符号化、後方予測符号化、または両方法予測符号化のい
ずれかで符号化される。

【００１０】即ち、動きベクトル検出器３２は、Ｉピク
チャについては、予測モードとしてイントラ符号化モー
ドを設定する。この場合、動きベクトル検出器３２は、
動きベクトルの検出は行わず、予測モード（イントラ予
測モード）を、ＶＬＣ（可変長符号化）器３６および動
き補償器４２に出力する。

【００１１】また、動きベクトル検出器３２は、Ｐピク
チャについては、前方予測を行い、その動きベクトルを
検出する。さらに、動きベクトル検出器３２は、前方予
測を行うことにより生じる予測誤差と、符号化対象のマ
クロブロック（Ｐピクチャのマクロブロック）の、例え
ば分散とを比較する。その比較の結果、マクロブロック
の分散の方が予測誤差より小さい場合、動きベクトル検
出器３２は、予測モードとしてイントラ符号化モードを
設定し、ＶＬＣ器３６および動き補償器４２に出力す
る。また、動きベクトル検出器３２は、前方予測を行う
ことにより生じる予測誤差の方が小さければ、予測モー
ドとして前方予測符号化モードを設定し、検出した動き
ベクトルとともに、ＶＬＣ器３６および動き補償器４２
に出力する。

【００１２】さらに、動きベクトル検出器３２は、Ｂピ
クチャについては、前方予測、後方予測、および両方向
予測を行い、それぞれの動きベクトルを検出する。そし
て、動きベクトル検出器３２は、前方予測、後方予測、
および両方向予測についての予測誤差の中の最小のもの
（以下、適宜、最小予測誤差という）を検出し、その最
小予測誤差と、符号化対象のマクロブロック（Ｂピクチ
ャのマクロブロック）の、例えば分散とを比較する。そ
の比較の結果、マクロブロックの分散の方が最小予測誤
差より小さい場合、動きベクトル検出器３２は、予測モ
ードとしてイントラ符号化モードを設定し、ＶＬＣ器３
６および動き補償器４２に出力する。また、動きベクト
ル検出器３２は、最小予測誤差の方が小さければ、予測
モードとして、その最小予測誤差が得られた予測モード
を設定し、対応する動きベクトルとともに、ＶＬＣ器３
６および動き補償器４２に出力する。

【００１３】動き補償器４２は、動きベクトル検出器３
２から予測モードと動きベクトルの両方を受信すると、
その予測モードおよび動きベクトルにしたがって、フレ
ームメモリ４１に記憶されている、符号化され、かつ既
に局所復号された画像データを読み出し、この読み出さ
れた画像データを、予測画像データとして、演算器３３
および４０に供給する。

【００１４】演算器３３は、動きベクトル検出器３２が
フレームメモリ３１から読み出した画像データと同一の
マクロブロックをフレームメモリ３１から読み出し、そ
のマクロブロックと、動き補償器４２からの予測画像と
の差分を演算する。この差分値は、ＤＣＴ器３４に供給
される。

【００１５】一方、動き補償器４２は、動きベクトル検
出器３２から予測モードのみを受信した場合、即ち、予
測モードがイントラ符号化モードである場合には、予測
画像を出力しない。この場合、演算器３３（演算器４０
も同様）は、特に処理を行わず、フレームメモリ３１か
ら読み出したマクロブロックを、そのままＤＣＴ器３４
に出力する。

【００１６】ＤＣＴ器３４では、演算器３３の出力デー
タに対して、ＤＣＴ処理が施され、その結果得られるＤ
ＣＴ係数が、量子化器３５に供給される。量子化器３５
では、バッファ３７のデータ蓄積量（バッファ３７に記
憶されているデータの量）（バッファフィードバック）
に対応して量子化ステップ（量子化スケール）が設定さ
れ、その量子化ステップで、ＤＣＴ器３４からのＤＣＴ
係数が量子化される。この量子化されたＤＣＴ係数（以
下、適宜、量子化係数という）は、設定された量子化ス
テップとともに、ＶＬＣ器３６に供給される。

【００１７】ＶＬＣ器３６では、量子化器３５より供給
される量子化係数が、例えばハフマン符号などの可変長
符号に変換され、バッファ３７に出力される。さらに、
ＶＬＣ器３６は、量子化器３５からの量子化ステップ、
動きベクトル検出器３２からの予測モード（イントラ符
号化（画像内予測符号化）、前方予測符号化、後方予測
符号化、または両方向予測符号化のうちのいずれが設定
されたかを示すモード）および動きベクトルも可変長符
号化し、その結果得られる符号化データを、バッフ３７
に出力する。

【００１８】バッファ３７は、ＶＬＣ器３６からの符号
化データを一時蓄積することにより、そのデータ量を平
滑化し、符号化ビットストリームとして、例えば、伝送
路に出力し、または記録媒体に記録する。

【００１９】また、バッファ３７は、そのデータ蓄積量
を量子化器３５に出力しており、量子化器３５は、この
バッファ３７からのデータ蓄積量にしたがって量子化ス
テップを設定する。即ち、量子化器３５は、バッファ３
７がオーバーフローしそうなとき、量子化ステップを大
きくし、これにより、量子化係数のデータ量を低下させ
る。また、量子化器３５は、バッファ３７がアンダーフ
ローしそうなとき、量子化ステップを小さくし、これに
より、量子化係数のデータ量を増大させる。このように
して、バッファ３７のオーバフローとアンダフローを防
止するようになっている。

【００２０】量子化器３５が出力する量子化係数と量子
化ステップは、ＶＬＣ器３６だけでなく、逆量子化器３
８にも供給されるようになされている。逆量子化器３８
では、量子化器３５からの量子化係数が、同じく量子化
器３５からの量子化ステップにしたがって逆量子化さ
れ、これによりＤＣＴ係数に変換される。このＤＣＴ係
数は、ＩＤＣＴ器（逆ＤＣＴ器）３９に供給される。Ｉ
ＤＣＴ器３９では、ＤＣＴ係数が逆ＤＣＴ処理され、そ
の処理の結果得られるデータが、演算器４０に供給され
る。

【００２１】演算器４０には、ＩＤＣＴ器３９の出力デ
ータの他、上述したように、動き補償器４２から、演算
器３３に供給されている予測画像と同一のデータが供給
されている。演算器４０は、ＩＤＣＴ器３９の出力デー
タ（予測残差（差分データ））と、動き補償器４２から
の予測画像データとを加算することで、元の画像データ
を局所復号し、この局所復号された画像データ（局所復
号画像データ）が出力される（但し、予測モードがイン
トラ符号化である場合には、ＩＤＣＴ器３９の出力デー
タは、演算器４０をスルーして、そのまま、局所復号画
像データとして、フレームメモリ４１に供給される）。
なお、この復号画像データは、受信側において得られる
復号画像データと同一のものである。

【００２２】演算器４０において得られた復号画像デー
タ（局所復号画像データ）は、フレームメモリ４１に供
給されて記憶され、その後、インター符号化（前方予測
符号化、後方予測符号化、量方向予測符号化）される画
像に対する参照画像データ（参照フレーム）として用い
られる。

【００２３】次に、図３９は、図３８のエンコーダから
出力される符号化データを復号する、ＭＰＥＧにおける
ＭＰ＠ＭＬのデコーダの一例の構成を示している。

【００２４】伝送路を介して伝送されてきた符号化ビッ
トストリーム（符号化データ）が図示せぬ受信装置で受
信され、または記録媒体に記録された符号化ビットスト
リーム（符号化データ）が図示せぬ再生装置で再生さ
れ、バッファ１０１に供給されて記憶される。

【００２５】ＩＶＬＣ器（逆ＶＬＣ器（可変長復号
器））１０２は、バッファ１０１に記憶された符号化デ
ータを読み出し、可変長復号することにより、その符号
化データを、マクロブロック単位で、動きベクトル、予
測モード、量子化ステップ、および量子化係数に分離す
る。これらのデータのうち、動きベクトルおよび予測モ
ードは動き補償器１０７に供給され、量子化ステップお
よびマクロブロックの量子化係数は逆量子化器１０３に
供給される。

【００２６】逆量子化器１０３は、ＩＶＬＣ器１０２よ
り供給されたマクロブロックの量子化係数を、同じくＩ
ＶＬＣ器１０２より供給された量子化ステップにしたが
って逆量子化し、その結果得られるＤＣＴ係数を、ＩＤ
ＣＴ器１０４に出力する。ＩＤＣＴ器１０４は、逆量子
化器１０３からのマクロブロックのＤＣＴ係数を逆ＤＣ
Ｔし、演算器１０５に供給する。

【００２７】演算器１０５には、ＩＤＣＴ器１０４の出
力データの他、動き補償器１０７の出力データも供給さ
れている。即ち、動き補償器１０７は、フレームメモリ
１０６に記憶されている、既に復号された画像データ
を、図３８の動き補償器４２における場合と同様に、Ｉ
ＶＬＣ器１０２からの動きベクトルおよび予測モードに
したがって読み出し、予測画像データとして、演算器１
０５に供給する。演算器１０５は、ＩＤＣＴ器１０４の
出力データ（予測残差（差分値））と、動き補償器１０
７からの予測画像データとを加算することで、元の画像
データを復号する。この復号画像データは、フレームメ
モリ１０６に供給されて記憶される。なお、ＩＤＣＴ器
１０４の出力データが、イントラ符号化されたものであ
る場合には、その出力データは、演算器１０５をスルー
して、復号画像データとして、そのままフレームメモリ
１０６に供給されて記憶される。

【００２８】フレームメモリ１０６に記憶された復号画
像データは、その後に復号される画像データの参照画像
データとして用いられる。さらに、復号画像データは、
出力再生画像として、例えば、図示せぬディスプレイな
どに供給されて表示される。

【００２９】なお、ＭＰＥＧ１および２では、Ｂピクチ
ャは、参照画像データとして用いられないため、エンコ
ーダまたはデコーダのそれぞれにおいて、フレームメモ
リ４１（図３８）または１０６（図３９）には記憶され
ない。

【００３０】

【発明が解決しようとする課題】以上の図３８、図３９
に示したエンコーダ、デコーダは、ＭＰＥＧ１／２の規
格に準拠したものであるが、現在、画像を構成する物体
などのオブジェクトのシーケンスであるＶＯ（Video Ob
ject）単位で符号化を行う方式につき、ＩＳＯ−ＩＥＣ
／ＪＴＣ１／ＳＣ２９／ＷＧ１１において、ＭＰＥＧ
（Moving Picture Experts Group）４として標準化作業
が進められている。

【００３１】ところで、ＭＰＥＧ４については、主とし
て、通信の分野で利用されるものとして、標準化作業が
進められていたため、ＭＰＥＧ１／２において規定され
ているＧＯＰ（Group Of Picture）は、ＭＰＥＧ４では
規定されておらず、従って、ＭＰＥＧ４が蓄積メディア
に利用された場合には、効率的なランダムアクセスが困
難になることが予想される。

【００３２】本発明は、このような状況に鑑みてなされ
たものであり、効率的なランダムアクセスをすることが
できるようにするものである。

【００３３】

【課題を解決するための手段】請求項１に記載の画像符
号化装置は、秒精度の時刻を表す秒精度時刻情報を生成
する秒精度時刻情報生成手段と、Ｉ−ＶＯＰ，Ｐ−ＶＯ
Ｐ、またはＢ−ＶＯＰそれぞれの表示時刻の直前の秒精
度時刻情報から、それぞれの表示時刻までの時間を、秒
精度より細かい精度で表す詳細時間情報を生成する詳細
時間情報生成手段とを備えることを特徴とする。

【００３４】請求項２に記載の画像符号化方法は、秒精
度の時刻を表す秒精度時刻情報を生成する秒精度時刻情
報生成ステップと、Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ
−ＶＯＰそれぞれの表示時刻の直前の秒精度時刻情報か
ら、それぞれの表示時刻までの時間を、秒精度より細か
い精度で表す詳細時間情報を生成する詳細時間情報生成
ステップとを備えることを特徴とする。

【００３５】請求項５に記載の画像復号装置は、Ｉ−Ｖ
ＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞれの表示時
刻を、秒精度時刻情報および詳細時間情報に基づいて求
める表示時刻算出手段を備えることを特徴とする。

【００３６】請求項６に記載の画像復号方法は、Ｉ−Ｖ
ＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞれの表示時
刻を、秒精度時刻情報および詳細時間情報に基づいて求
める表示時刻算出ステップを備えることを特徴とする。

【００３７】請求項９に記載の記録媒体は、秒精度の時
刻を表す秒精度時刻情報を生成し、Ｉ−ＶＯＰ，Ｐ−Ｖ
ＯＰ、またはＢ−ＶＯＰそれぞれの表示時刻の直前の秒
精度時刻情報から、それぞれの表示時刻までの時間を、
秒精度より細かい精度で表す詳細時間情報を生成し、Ｉ
−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰの表示時刻を
表す情報として、秒精度時刻情報および詳細時間情報
を、対応するＩ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯ
Ｐにそれぞれ付加することにより得られる符号化ストリ
ームが記録されていることを特徴とする。

【００３８】請求項１に記載の画像符号化装置において
は、秒精度時刻情報生成手段は、秒精度の時刻を表す秒
精度時刻情報を生成し、詳細時間情報生成手段は、Ｉ−
ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞれの表示
時刻の直前の秒精度時刻情報から、それぞれの表示時刻
までの時間を、秒精度より細かい精度で表す詳細時間情
報を生成するようになされている。

【００３９】請求項２に記載の画像符号化方法において
は、秒精度の時刻を表す秒精度時刻情報を生成し、Ｉ−
ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞれの表示
時刻の直前の秒精度時刻情報から、それぞれの表示時刻
までの時間を、秒精度より細かい精度で表す詳細時間情
報を生成するようになされている。

【００４０】請求項５に記載の画像復号装置において
は、表示時刻算出手段が、Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、ま
たはＢ−ＶＯＰそれぞれの表示時刻を、秒精度時刻情報
および詳細時間情報に基づいて求めるようになされてい
る。

【００４１】請求項６に記載の画像復号方法において
は、Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞ
れの表示時刻を、秒精度時刻情報および詳細時間情報に
基づいて求めるようになされている。

【００４２】請求項９に記載の記録媒体においては、秒
精度の時刻を表す秒精度時刻情報を生成し、Ｉ−ＶＯ
Ｐ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞれの表示時刻
の直前の秒精度時刻情報から、それぞれの表示時刻まで
の時間を、秒精度より細かい精度で表す詳細時間情報を
生成し、Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰの
表示時刻を表す情報として、秒精度時刻情報および詳細
時間情報を、対応するＩ−ＶＯＰ，Ｐ−ＶＯＰ、または
Ｂ−ＶＯＰにそれぞれ付加することにより得られる符号
化ストリームが記録されている。

【００４３】

【発明の実施の形態】以下に、本発明の実施の形態を説
明するが、その前に、特許請求の範囲に記載の発明の各
手段と以下の実施の形態との対応関係を明らかにするた
めに、各手段の後の括弧内に、対応する実施の形態（但
し、一例）を付加して、本発明の特徴を記述すると、次
のようになる。

【００４４】即ち、請求項１に記載の画像符号化装置
は、画像を、その画像を構成するオブジェクトごとに符
号化し、その結果得られる符号化ビットストリームを出
力する画像符号化装置であって、イントラ符号化される
オブジェクトをＩ−ＶＯＰ（Intra-Video Object Plan
e）と、イントラ符号化または前方予測符号化のうちの
いずれかで符号化されるオブジェクトをＰ−ＶＯＰ（Pr
edictive-VOP）と、イントラ符号化、前方予測符号化、
後方予測符号化、または両方向予測符号化のうちのいず
れかで符号化されるオブジェクトをＢ−ＶＯＰ（Bidere
ctionally Predictive-VOP）と、それぞれするとき、秒
精度の時刻を表す秒精度時刻情報を生成する秒精度時刻
情報生成手段（例えば、図２９に示すプログラムの処理
ステップＳ３乃至Ｓ７、および図３４に示すプログラム
の処理ステップＳ４３乃至Ｓ４７など）と、Ｉ−ＶＯ
Ｐ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞれの表示時刻
の直前の秒精度時刻情報から、それぞれの表示時刻まで
の時間を、秒精度より細かい精度で表す詳細時間情報を
生成する詳細時間情報生成手段（例えば、図２９に示す
プログラムの処理ステップＳ８、および図３４に示すプ
ログラムの処理ステップＳ４８など）と、Ｉ−ＶＯＰ，
Ｐ−ＶＯＰ、またはＢ−ＶＯＰの表示時刻を表す情報と
して、秒精度時刻情報および詳細時間情報を、対応する
Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰにそれぞれ
付加する付加手段（例えば、図９や図１０に示すＶＬＣ
器３６など）とを備えることを特徴とする。

【００４５】請求項５に記載の画像復号装置は、イント
ラ符号化されるオブジェクトをＩ−ＶＯＰ（Intra-Vide
o Object Plane）と、イントラ符号化または前方予測符
号化のうちのいずれかで符号化されるオブジェクトをＰ
−ＶＯＰ（Predictive-VOP）と、イントラ符号化、前方
予測符号化、後方予測符号化、または両方向予測符号化
のうちのいずれかで符号化されるオブジェクトをＢ−Ｖ
ＯＰ（Biderectionally Predictive-VOP）と、それぞれ
するととともに、秒精度の時刻を表す秒精度時刻情報
と、Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞ
れの表示時刻の直前の秒精度時刻情報から、それぞれの
表示時刻までの時間を、秒精度より細かい精度で表す詳
細時間情報とが、表示時刻を表す情報として、対応する
Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰにそれぞれ
付加されているとき、Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、または
Ｂ−ＶＯＰそれぞれの表示時刻を、秒精度時刻情報およ
び詳細時間情報に基づいて求める表示時刻算出手段（例
えば、図３１に示すプログラムの処理ステップＳ２２乃
至Ｓ２７、および図３５に示すプログラムの処理ステッ
プＳ５２乃至Ｓ５７など）と、Ｉ−ＶＯＰ，Ｐ−ＶＯ
Ｐ、またはＢ−ＶＯＰを、対応する表示時刻にしたがっ
て復号する復号手段（例えば、図１５や図１６に示すＩ
ＶＬＣ器１０２など）とを備えることを特徴とする。

【００４６】なお、勿論この記載は、各手段を上記した
ものに限定することを意味するものではない。

【００４７】図１は、本発明を適用したエンコーダの一
実施の形態の構成例を示している。

【００４８】符号化すべき画像（動画像）データは、Ｖ
Ｏ（Video Object）構成部１に入力され、ＶＯ構成部１
では、そこに入力される画像を構成するオブジェクトご
とに、そのシーケンスであるＶＯが構成され、ＶＯＰ構
成部２1乃至２Nに出力される。即ち、ＶＯ構成部１にお
いてＮ個のＶＯ＃１乃至ＶＯ＃Ｎが構成された場合、そ
のＮ個のＶＯ＃１乃至ＶＯ＃Ｎは、ＶＯＰ構成部２1乃
至２Nにそれぞれ出力される。

【００４９】具体的には、例えば、符号化すべき画像デ
ータが、独立した背景Ｆ１のシーケンスと前景Ｆ２のシ
ーケンスとから構成される場合、ＶＯ構成部１は、例え
ば、前景Ｆ２のシーケンスを、ＶＯ＃１として、ＶＯＰ
構成部２1に出力するとともに、背景Ｆ１のシーケンス
を、ＶＯ＃２として、ＶＯＰ構成部２2に出力する。

【００５０】なお、ＶＯ構成部１は、符号化すべき画像
データが、例えば、背景Ｆ１と前景Ｆ２とを、既に合成
したものである場合、所定のアルゴリズムにしたがっ
て、画像を領域分割することにより、背景Ｆ１と前景Ｆ
２とを取り出し、それぞれのシーケンスとしてのＶＯ
を、対応するＶＯＰ構成部２n（但し、ｎ＝１，２，・
・・，Ｎ）に出力する。

【００５１】ＶＯＰ構成部２nは、ＶＯ構成部１の出力
から、ＶＯＰ（VO Plane）を構成する。即ち、例えば、
各フレームから物体を抽出し、その物体を囲む、例え
ば、最小の長方形（以下、適宜、最小長方形という）を
ＶＯＰとする。なお、このとき、ＶＯＰ構成部２nは、
その横および縦の画素数が、例えば、１６の倍数となる
ようにＶＯＰを構成する。ＶＯ構成部２nは、ＶＯＰを
構成すると、そのＶＯＰを、ＶＯＰ符号化部３nに出力
する。

【００５２】さらに、ＶＯＰ構成部２nは、ＶＯＰの大
きさ（例えば、横および縦の長さ）を表すサイズデータ
（VOP size）と、フレームにおける、そのＶＯＰの位置
（例えば、フレームの最も左上を原点とするときの座
標）を表すオフセットデータ（VOP offset）とを検出
し、これらのデータも、ＶＯＰ符号化部３nに供給す
る。

【００５３】ＶＯＰ符号化部３nは、ＶＯＰ構成部２nの
出力を、例えば、ＭＰＥＧや、Ｈ．２６３などの規格に
準拠した方式で符号化し、その結果得られるビットスト
リームを、多重化部４に出力する。多重化部４は、ＶＯ
Ｐ符号化部３1乃至３Nからのビットストリームを多重化
し、その結果得られる多重化データを、例えば、地上波
や、衛星回線、ＣＡＴＶ網その他の伝送路５を介して伝
送し、または、例えば、磁気ディスク、光磁気ディス
ク、光ディスク、磁気テープその他の記録媒体６に記録
する。

【００５４】ここで、ＶＯおよびＶＯＰについて説明す
る。

【００５５】ＶＯは、ある合成画像のシーケンスが存在
する場合の、その合成画像を構成する各オブジェクト
（物体）のシーケンスであり、ＶＯＰは、ある時刻にお
けるＶＯを意味する。即ち、例えば、いま、画像Ｆ１お
よびＦ２を合成して構成される合成画像Ｆ３がある場
合、画像Ｆ１またはＦ２が時系列に並んだものが、それ
ぞれＶＯであり、ある時刻における画像Ｆ１またはＦ２
が、それぞれＶＯＰである。従って、ＶＯは、異なる時
刻の、同一オブジェクトのＶＯＰの集合ということがで
きる。

【００５６】なお、例えば、画像Ｆ１を背景とするとと
もに、画像Ｆ２を前景とすると、合成画像Ｆ３は、画像
Ｆ２を抜くためのキー信号を用いて、画像Ｆ１およびＦ
２を合成することによって得られるが、この場合におけ
る画像Ｆ２のＶＯＰには、その画像Ｆ２を構成する画像
データ（輝度信号および色差信号）の他、適宜、そのキ
ー信号も含まれるものとする。

【００５７】画像フレーム（画枠）のシーケンスは、そ
の大きさおよび位置のいずれも変化しないが、ＶＯは、
大きさや位置が変化する場合がある。即ち、同一のＶＯ
を構成するＶＯＰであっても、時刻によって、その大き
さや位置が異なる場合がある。

【００５８】具体的には、図２は、背景である画像Ｆ１
と、前景である画像Ｆ２とからなる合成画像を示してい
る。

【００５９】画像Ｆ１は、例えば、ある自然の風景を撮
影したものであり、その画像全体のシーケンスが１つの
ＶＯ（ＶＯ＃０とする）とされている。また、画像Ｆ２
は、例えば、人が歩いている様子を撮影したものであ
り、その人を囲む最小の長方形のシーケンスが１つのＶ
Ｏ（ＶＯ＃１とする）とされている。

【００６０】この場合、ＶＯ＃０は風景の画像であるか
ら、基本的に、通常の画像のフレームと同様に、その位
置および大きさの両方とも変化しない。これに対して、
ＶＯ＃１は人の画像であるから、人物が左右に移動した
り、また、図面において手前側または奥側に移動するこ
とにより、その大きさや位置が変化する。従って、図２
は、同一時刻におけるＶＯ＃０およびＶＯ＃１を表して
いるが、ＶＯの位置や大きさは、時間の経過にともなっ
て変化することがある。

【００６１】そこで、図１のＶＯＰ符号化部３nは、そ
の出力するビットストリームに、ＶＯＰを符号化したデ
ータの他、所定の絶対座標系におけるＶＯＰの位置（座
標）および大きさに関する情報も含めるようになされて
いる。なお、図２においては、ＶＯ＃０を構成する、あ
る時刻のＶＯＰ（画像Ｆ１）の位置を示すベクトルをＯ
ＳＴ０と、その時刻と同一時刻における、ＶＯ＃１のＶ
ＯＰ（画像Ｆ２）の位置を表すベクトルをＯＳＴ１と、
それぞれ表してある。

【００６２】次に、図３は、スケーラビリティを実現す
る、図１のＶＯＰ符号化部３nの構成例を示している。
即ち、ＭＰＥＧでは、異なる画像サイズやフレームレー
トに対応するスケーラビリティを実現するスケーラブル
符号化方式が導入されており、図３に示したＶＯＰ符号
化部３nでは、そのようなスケーラビリティを実現する
ことができるようになされている。

【００６３】ＶＯＰ構成部２nからのＶＯＰ（画像デー
タ）、並びにそのサイズデータ（VOPsize）、およびオ
フセットデータ（VOP offset）は、いずれも画像階層化
部２１に供給される。

【００６４】画像階層化部２１は、ＶＯＰから、１以上
の階層の画像データを生成する（ＶＯＰの１以上の階層
化を行う）。即ち、例えば、空間スケーラビリティの符
号化を行う場合においては、画像階層化部２１は、そこ
に入力される画像データを、そのまま上位レイヤ（上位
階層）の画像データとして出力するとともに、それらの
画像データを構成する画素数を間引くことなどにより縮
小し（解像度を低下させ）、これを下位レイヤ（下位階
層）の画像データとして出力する。

【００６５】なお、入力されたＶＯＰを下位レイヤのデ
ータとするとともに、そのＶＯＰの解像度を、何らかの
手法で高くし（画素数を多くし）、これを、上位レイヤ
のデータとすることなども可能である。

【００６６】また、階層数は、１とすることが可能であ
るが、この場合、スケーラビリティは実現されない。な
お、この場合、ＶＯＰ符号化部３nは、例えば、下位レ
イヤ符号化部２５だけで構成されることになる。

【００６７】さらに、階層数は、３以上とすることも可
能であるが、ここでは、簡単のために、２階層の場合に
ついて説明を行う。

【００６８】画像階層化部２１は、例えば、時間スケー
ラビリティ（テンポラルスケーラビリティ）の符号化を
行う場合、時刻に応じて、画像データを、下位レイヤま
たは上位レイヤのデータとして、例えば、交互に出力す
る。即ち、例えば、画像階層化部２１は、そこに、ある
ＶＯを構成するＶＯＰが、ＶＯＰ０，ＶＯＰ１，ＶＯＰ
２，ＶＯＰ３，・・・の順で入力されたとした場合、Ｖ
ＯＰ０，ＶＯＰ２，ＶＯＰ４，ＶＯＰ６，・・・を、下
位レイヤのデータとして、また、ＶＯＰ１，ＶＯＰ３，
ＶＯＰ５，ＶＯＰ７，・・・を、上位レイヤデータとし
て出力する。なお、時間スケーラビリティの場合は、こ
のようにＶＯＰが間引かれたものが、下位レイヤおよび
上位レイヤのデータとされるだけで、画像データの拡大
または縮小（解像度の変換）は行われない（但し、行う
ようにすることも可能である）。

【００６９】また、画像階層化部２１は、例えば、ＳＮ
Ｒ（Signal to Noise Ratio）スケーラビリティの符号
化を行う場合、入力された画像データを、そのまま上位
レイヤまたは下位レイヤのデータそれぞれとして出力す
る。即ち、この場合、下位レイヤ並びに上位レイヤの画
像データは、同一のデータとなる。

【００７０】ここで、ＶＯＰごとに符号化を行う場合の
空間スケーラビリティについては、例えば、次のような
３種類が考えられる。

【００７１】即ち、例えば、いま、ＶＯＰとして、図２
に示したような画像Ｆ１およびＦ２でなる合成画像が入
力されたとすると、第１の空間スケーラビリティは、図
４に示すように、入力されたＶＯＰ全体（図４（Ａ））
を上位レイヤ（EnhancementLayer）とするとともに、そ
のＶＯＰ全体を縮小したもの（図４（Ｂ））を下位レイ
ヤ（Base Layer）とするものである。

【００７２】また、第２の空間スケーラビリティは、図
５に示すように、入力されたＶＯＰを構成する一部の物
体（図５（Ａ）（ここでは、画像Ｆ２に相当する部
分）））を抜き出して（なお、このような抜き出しは、
例えば、ＶＯＰ構成部２nにおける場合と同様にして行
われ、従って、これにより抜き出された物体も、１つの
ＶＯＰと考えることができる）、上位レイヤとするとと
もに、そのＶＯＰ全体を縮小したもの（図５（Ｂ））を
下位レイヤとするものである。

【００７３】さらに、第３の空間スケーラビリティは、
図６および図７に示すように、入力されたＶＯＰを構成
する物体（ＶＯＰ）を抜き出して、その物体ごとに、上
位レイヤおよび下位レイヤを生成するものである。な
お、図６は、図２のＶＯＰを構成する背景（画像Ｆ１）
から上位レイヤおよび下位レイヤを生成した場合を示し
ており、また、図７は、図２のＶＯＰを構成する前景
（画像Ｆ２）から上位レイヤおよび下位レイヤを生成し
た場合を示している。

【００７４】以上のようなスケーラビリティのうちのい
ずれを用いるかは予め決められており、画像階層化部２
１は、その予め決められたスケーラビリティによる符号
化を行うことができるように、ＶＯＰの階層化を行う。

【００７５】さらに、画像階層化部２１は、そこに入力
されるＶＯＰのサイズデータおよびオフセットデータ
（それぞれを、以下、適宜、初期サイズデータ、初期オ
フセットデータという）から、生成した下位レイヤおよ
び上位レイヤのＶＯＰの所定の絶対座標系における位置
を表すオフセットデータと、その大きさを示すサイズデ
ータとを計算（決定）する。

【００７６】ここで、下位レイヤ並びに上位レイヤのＶ
ＯＰのオフセットデータ（位置情報）およびサイズデー
タの決定方法について、例えば、上述の第２のスケーラ
ビリティ（図５）を行う場合を例に説明する。

【００７７】この場合、下位レイヤのオフセットデータ
ＦＰＯＳ＿Ｂは、例えば、図８（Ａ）に示すように、下
位レイヤの画像データを、その解像度および上位レイヤ
の解像度の違いに基づいて拡大（アップサンプリング）
したときに、即ち、下位レイヤの画像を、上位レイヤの
画像の大きさと一致するような拡大率（上位レイヤの画
像を縮小して下位レイヤの画像を生成したときの、その
縮小率の逆数）（以下、適宜、倍率ＦＲという）で拡大
したときに、その拡大画像の絶対座標系におけるオフセ
ットデータが、初期オフセットデータと一致するように
決定される。また、下位レイヤのサイズデータＦＳＺ＿
Ｂも同様に、下位レイヤの画像を倍率ＦＲで拡大したと
きに得られる拡大画像のサイズデータが初期サイズデー
タと一致するように決定される。即ち、オフセットデー
タＦＰＯＳ＿ＢまたはサイズデータＦＳＺ＿Ｂは、それ
ぞれのＦＲ倍か、初期オフセットデータまたは初期サイ
ズデータと一致するように決定される。

【００７８】一方、上位レイヤのオフセットデータＦＰ
ＯＳ＿Ｅは、例えば、図８（Ｂ）に示すように、入力さ
れたＶＯＰから抜き出した物体を囲む最小長方形（ＶＯ
Ｐ）の、例えば、左上の頂点の座標が、初期オフセット
データに基づいて求められ、この値に決定される。ま
た、上位レイヤのサイズデータＦＰＯＳ＿Ｅは、入力さ
れたＶＯＰから抜き出した物体を囲む最小長方形の、例
えば横および縦の長さに決定される。

【００７９】従って、この場合、下位レイヤのオフセッ
トデータＦＰＯＳ＿ＢおよびサイズデータＦＰＯＳ＿Ｂ
を、倍率ＦＲにしたがって変換し（変換後のオフセット
データＦＰＯＳ＿ＢまたはサイズデータＦＰＯＳ＿Ｂ
を、それぞれ、変換オフセットデータＦＰＯＳ＿Ｂまた
は変換サイズデータＦＰＯＳ＿Ｂという）、絶対座標系
において、変換オフセットデータＦＰＯＳ＿Ｂに対応す
る位置に、変換サイズデータＦＳＺ＿Ｂに対応する大き
さの画枠を考え、そこに、下位レイヤの画像データをＦ
Ｒ倍だけした拡大画像を配置するとともに（図８
（Ａ））、その絶対座標系において、上位レイヤのオフ
セットデータＦＰＯＳ＿ＥおよびサイズデータＦＰＯＳ
＿Ｅにしたがって、上位レイヤの画像を同様に配置する
と（図８（Ｂ））、拡大画像を構成する各画素と、上位
レイヤの画像を構成する各画素とは、対応するものどう
しが同一の位置に配置されることになる。即ち、この場
合、例えば、図８において、上位レイヤの画像である人
の部分と、拡大画像の中の人の部分とは、同一の位置に
配置されることになる。

【００８０】第１および第３のスケーラビリティにおけ
る場合も、同様にして、下位レイヤの拡大画像および上
位レイヤの画像を構成する、対応する画素どうしが、絶
対座標系において同一の位置に配置されるように、オフ
セットデータＦＰＯＳ＿ＢおよびＦＰＯＳ＿Ｅ、並びに
サイズデータＦＳＺ＿ＢおよびＦＳＺ＿Ｅが決定され
る。

【００８１】図３に戻り、画像階層化部２１において生
成された上位レイヤの画像データ、オフセットデータＦ
ＰＯＳ＿Ｅ、およびサイズデータＦＳＺ＿Ｅは、遅延回
路２２で、後述する下位レイヤ符号化部２５における処
理時間だけ遅延され、上位レイヤ符号化部２３に供給さ
れる。また、下位レイヤの画像データ、オフセットデー
タＦＰＯＳ＿Ｂ、およびサイズデータＦＳＺ＿Ｂは、下
位レイヤ符号化部２５に供給される。また、倍率ＦＲ
は、遅延回路２２を介して、上位レイヤ符号化部２３お
よび解像度変換部２４に供給される。

【００８２】下位レイヤ符号化部２５では、下位レイヤ
の画像データが符号化され、その結果得られる符号化デ
ータ（ビットストリーム）に、オフセットデータＦＰＯ
Ｓ＿ＢおよびサイズデータＦＳＺ＿Ｂが含められ、多重
化部２６に供給される。

【００８３】また、下位レイヤ符号化部２５は、符号化
データを局所復号し、その結果局所復号結果である下位
レイヤの画像データを、解像度変換部２４に出力する。
解像度変換部２４は、下位レイヤ符号化部２５からの下
位レイヤの画像データを、倍率ＦＲにしたがって拡大
（または縮小）することにより、元の大きさに戻し、こ
れにより得られる拡大画像を、上位レイヤ符号化部２３
に出力する。

【００８４】一方、上位レイヤ符号化部２３では、上位
レイヤの画像データが符号化され、その結果得られる符
号化データ（ビットストリーム）に、オフセットデータ
ＦＰＯＳ＿ＥおよびサイズデータＦＳＺ＿Ｅが含めら
れ、多重化部２６に供給される。なお、上位レイヤ符号
化部２３においては、上位レイヤ画像データの符号化
は、解像度変換部２４から供給される拡大画像をも参照
画像として用いて行われる。

【００８５】多重化部２６では、上位レイヤ符号化部２
３および下位レイヤ符号化部２５の出力が多重化されて
出力される。

【００８６】なお、下位レイヤ符号化部２５から上位レ
イヤ符号化部２３に対しては、下位レイヤのサイズデー
タＦＳＺ＿Ｂ、オフセットデータＦＰＯＳ＿Ｂ、動きベ
クトルＭＶ、フラグＣＯＤなどが供給されており、上位
レイヤ符号化部２３では、これらのデータを必要に応じ
て参照しながら、処理を行うようになされているが、こ
の詳細については、後述する。

【００８７】次に、図９は、図３の下位レイヤ符号化部
２５の詳細構成例を示している。なお、図中、図３８に
おける場合と対応する部分については、同一の符号を付
してある。即ち、下位レイヤ符号化部２５は、基本的に
は、図３８のエンコーダと同様に構成されている。

【００８８】画像階層化部２１（図３）からの画像デー
タ、即ち、下位レイヤのＶＯＰは、図３８における場合
と同様に、フレームメモリ３１に供給されて記憶され、
動きベクトル検出器３２において、マクロブロック単位
で動きベクトルの検出が行われる。

【００８９】但し、下位レイヤ符号化部２５の動きベク
トル検出器３２には、下位レイヤのＶＯＰのサイズデー
タＦＳＺ＿ＢおよびオフセットデータＦＰＯＳ＿Ｂが供
給されるようになされており、そこでは、このサイズデ
ータＦＳＺ＿ＢおよびオフセットデータＦＰＯＳ＿Ｂに
基づいて、マクロブロックの動きベクトルが検出され
る。

【００９０】即ち、上述したように、ＶＯＰは、時刻
（フレーム）によって、大きさや位置が変化するため、
その動きベクトルの検出にあたっては、その検出のため
の基準となる座標系を設定し、その座標系における動き
を検出する必要がある。そこで、ここでは、動きベクト
ル検出器３２は、上述の絶対座標系を基準となる座標系
とし、その絶対座標系に、サイズデータＦＳＺ＿Ｂおよ
びオフセットデータＦＰＯＳ＿Ｂにしたがって、符号化
対象のＶＯＰおよび参照画像とするＶＯＰを配置して、
動きベクトルを検出するようになされている。

【００９１】なお、検出された動きベクトル（ＭＶ）
は、予測モードとともに、ＶＬＣ器３６および動き補償
器４２に供給される他、上位レイヤ符号化部２３（図
３）にも供給される。

【００９２】また、動き補償を行う場合においても、や
はり、上述したように、基準となる座標系における動き
を検出する必要があるため、動き補償器４２には、サイ
ズデータＦＳＺ＿ＢおよびオフセットデータＦＰＯＳ＿
Ｂが供給されるようになされている。

【００９３】動きベクトルの検出されたＶＯＰは、図３
８における場合と同様に量子化係数とされてＶＬＣ器３
６に供給される。ＶＬＣ器３６には、やはり図３８にお
ける場合と同様に、量子化係数、量子化ステップ、動き
ベクトル、および予測モードが供給される他、画像階層
化部２１からのサイズデータＦＳＺ＿Ｂおよびオフセッ
トデータＦＰＯＳ＿Ｂも供給されており、そこでは、こ
れらのデータすべてが可変長符号化される。

【００９４】動きベクトルの検出されたＶＯＰは、上述
したように符号化される他、やはり図３８における場合
と同様に局所復号され、フレームメモリ４１に記憶され
る。この復号画像は、前述したように参照画像として用
いられる他、解像度変換部２４（図３）に出力される。

【００９５】なお、ＭＰＥＧ４においては、ＭＰＥＧ１
および２と異なり、Ｂピクチャ（Ｂ−ＶＯＰ）も参照画
像として用いられるため、Ｂピクチャも、局所復号さ
れ、フレームメモリ４１に記憶されるようになされてい
る（但し、現時点においては、Ｂピクチャが参照画像と
して用いられるのは上位レイヤについてだけである）。

【００９６】一方、ＶＬＣ器３６は、図３８で説明した
ように、Ｉ，Ｐ，Ｂピクチャ（Ｉ−ＶＯＰ，Ｐ−ＶＯ
Ｐ，Ｂ−ＶＯＰ）のマクロブロックについて、スキップ
マクロブロックとするかどうかを決定し、その決定結果
を示すフラグＣＯＤ，ＭＯＤＢを設定する。このフラグ
ＣＯＤ，ＭＯＤＢは、やはり可変長符号化されて伝送さ
れる。さらに、フラグＣＯＤは、上位レイヤ符号化部２
３にも供給される。

【００９７】次に、図１０は、図３の上位レイヤ符号化
部２３の構成例を示している。なお、図中、図９または
図３８における場合と対応する部分については、同一の
符号を付してある。即ち、上位レイヤ符号化部２３は、
フレームメモリ５２が新たに設けられていることを除け
ば、基本的には、図９の下位レイヤ符号化部２５または
図３８のエンコーダと同様に構成されている。

【００９８】画像階層化部２１（図３）からの画像デー
タ、即ち、上位レイヤのＶＯＰは、図３８における場合
と同様に、フレームメモリ３１に供給されて記憶され、
動きベクトル検出器３２において、マクロブロック単位
で動きベクトルの検出が行われる。なお、この場合も、
動きベクトル検出器３２には、図９における場合と同様
に、上位レイヤのＶＯＰの他、そのサイズデータＦＳＺ
＿ＥおよびオフセットデータＦＰＯＳ＿Ｅが供給される
ようになされており、動きベクトル検出器３２では、上
述の場合と同様に、このサイズデータＦＳＺ＿Ｅおよび
オフセットデータＦＰＯＳ＿Ｅに基づいて、絶対座標系
における上位レイヤのＶＯＰの配置位置が認識され、マ
クロブロックの動きベクトルが検出される。

【００９９】ここで、上位レイヤ符号化部２３および下
位レイヤ符号化部２５における動きベクトル検出器３２
では、図３８で説明したように、予め設定されている所
定のシーケンスにしたがって、ＶＯＰが処理されていく
が、そのシーケンスは、ここでは、例えば、次のように
設定されている。

【０１００】即ち、空間スケーラビリティの場合におい
ては、図１１（Ａ）または図１１（Ｂ）に示すように、
上位レイヤまたは下位レイヤのＶＯＰは、例えば、Ｐ，
Ｂ，Ｂ，Ｂ，・・・またはＩ，Ｐ，Ｐ，Ｐ，・・・の順
でそれぞれ処理されていく。

【０１０１】そして、この場合、上位レイヤの最初のＶ
ＯＰであるＰピクチャ（Ｐ−ＶＯＰ）は、例えば、同時
刻における下位レイヤのＶＯＰ（ここでは、Ｉピクチャ
（Ｉ−ＶＯＰ））を参照画像として用いて符号化され
る。また、上位レイヤの２番目以降のＶＯＰであるＢピ
クチャ（Ｂ−ＶＯＰ）は、例えば、その直前の上位レイ
ヤのＶＯＰおよびそれと同時刻の下位レイヤのＶＯＰを
参照画像として用いて符号化される。即ち、ここでは、
上位レイヤのＢピクチャは、下位レイヤのＰピクチャと
同様に他のＶＯＰを符号化する場合の参照画像として用
いられる。

【０１０２】なお、下位レイヤについては、例えば、Ｍ
ＰＥＧ１や２、あるいはＨ．２６３における場合と同様
に符号化が行われていく。

【０１０３】ＳＮＲスケーラビリティは、空間スケーラ
ビリティにおける倍率ＦＲが１のときと考えられるか
ら、上述の空間スケーラビリティの場合と同様に処理さ
れる。

【０１０４】テンポラルスケーラビリティの場合、即
ち、例えば、上述したように、ＶＯが、ＶＯＰ０，ＶＯ
Ｐ１，ＶＯＰ２，ＶＯＰ３，・・・で構成され、ＶＯＰ
１，ＶＯＰ３，ＶＯＰ５，ＶＯＰ７，・・・が上位レイ
ヤとされ（図１２（Ａ））、ＶＯＰ０，ＶＯＰ２，ＶＯ
Ｐ４，ＶＯＰ６，・・・が下位レイヤとされた場合にお
いては（図１２（Ｂ））、図１２に示すように、上位レ
イヤまたは下位レイヤのＶＯＰは、例えば、Ｂ，Ｂ，
Ｂ，・・・またはＩ，Ｐ，Ｐ，Ｐ，・・・の順でそれぞ
れ処理されていく。

【０１０５】そして、この場合、上位レイヤの最初のＶ
ＯＰ１（Ｂピクチャ）は、例えば、下位レイヤのＶＯＰ
０（Ｉピクチャ）およびＶＯＰ２（Ｐピクチャ）を参照
画像として用いて符号化される。また、上位レイヤの２
番目のＶＯＰ３（Ｂピクチャ）は、例えば、その直前に
Ｂピクチャとして符号化された上位レイヤのＶＯＰ１、
およびＶＯＰ３の次の時刻（フレーム）における画像で
ある下位レイヤのＶＯＰ４（Ｐピクチャ）を参照画像と
して用いて符号化される。上位レイヤの３番目のＶＯＰ
５（Ｂピクチャ）も、ＶＯＰ３と同様に、例えば、その
直前にＢピクチャとして符号化された上位レイヤのＶＯ
Ｐ３、およびＶＯＰ５の次の時刻（フレーム）における
画像である下位レイヤのＶＯＰ６（Ｐピクチャ）を参照
画像として用いて符号化される。

【０１０６】以上のように、あるレイヤのＶＯＰ（ここ
では、上位レイヤ）については、ＰおよびＢピクチャを
符号化するための参照画像として、他のレイヤ（スケー
ラブルレイヤ）（ここでは、下位レイヤ）のＶＯＰを用
いることができる。このように、あるレイヤのＶＯＰを
符号化するのに、他のレイヤのＶＯＰを参照画像として
用いる場合、即ち、ここでは、上位レイヤのＶＯＰを予
測符号化するのに、下位レイヤのＶＯＰを参照画像とし
て用いる場合、上位レイヤ符号化部２３（図１０）の動
きベクトル検出器３２は、その旨を示すフラグｒｅｆ＿
ｌａｙｅｒ＿ｉｄ（階層数が３以上存在する場合、フラ
グｒｅｆ＿ｌａｙｅｒ＿ｉｄは、参照画像として用いる
ＶＯＰが属するレイヤを表す）を設定して出力するよう
になされている。

【０１０７】さらに、上位レイヤ符号化部２３の動きベ
クトル検出器３２は、ＶＯＰについてのフラグｒｅｆ＿
ｌａｙｅｒ＿ｉｄにしたがい、前方予測符号化または後
方予測符号化を、それぞれ、どのレイヤのＶＯＰを参照
画像として行うかを示すフラグｒｅｆ＿ｓｅｌｅｃｔ＿
ｃｏｄｅ（参照画像情報）を設定して出力するようにも
なされている。

【０１０８】即ち、例えば、上位レイヤ（Enhancement
Layer）のＰピクチャが、その直前に復号（局所復号）
される、それと同一のレイヤに属するＶＯＰを参照画像
として用いて符号化される場合、フラグｒｅｆ＿ｓｅｌ
ｅｃｔ＿ｃｏｄｅは「００」とされる。また、Ｐピクチ
ャが、その直前に表示される、それと異なるレイヤ（こ
こでは、下位レイヤ）（Reference Layer）に属するＶ
ＯＰを参照画像として用いて符号化される場合、フラグ
ｒｅｆ＿ｓｅｌｅｃｔ＿ｃｏｄｅは「０１」とされる。
さらに、Ｐピクチャが、その直後に表示される、それと
異なるレイヤに属するＶＯＰを参照画像として用いて符
号化される場合、フラグｒｅｆ＿ｓｅｌｅｃｔ＿ｃｏｄ
ｅは「１０」とされる。また、Ｐピクチャが、それと同
時刻における、異なるレイヤのＶＯＰを参照画像として
用いて符号化される場合、フラグｒｅｆ＿ｓｅｌｅｃｔ
＿ｃｏｄｅは「１１」とされる。

【０１０９】一方、例えば、上位レイヤのＢピクチャ
が、それと同時刻における、異なるレイヤのＶＯＰを前
方予測のための参照画像として用い、かつ、その直前に
復号される、それと同一のレイヤに属するＶＯＰを後方
予測のための参照画像として用いて符号化される場合、
フラグｒｅｆ＿ｓｅｌｅｃｔ＿ｃｏｄｅは「００」とさ
れる。また、上位レイヤのＢピクチャが、それと同一の
レイヤに属するＶＯＰを前方予測のための参照画像とし
て用い、かつ、その直前に表示される、それと異なるレ
イヤに属するＶＯＰを後方予測のための参照画像として
用いて符号化される場合、フラグｒｅｆ＿ｓｅｌｅｃｔ
＿ｃｏｄｅは「０１」とされる。さらに、上位レイヤの
Ｂピクチャが、その直前に復号される、それと同一のレ
イヤに属するＶＯＰを前方予測のための参照画像として
用い、かつその直後に表示される、それと異なるレイヤ
に属するＶＯＰを後方予測のための参照画像として用い
て符号化される場合、フラグｒｅｆ＿ｓｅｌｅｃｔ＿ｃ
ｏｄｅは「１０」とされる。また、上位レイヤのＢピク
チャが、その直前に表示される、それと異なるレイヤに
属するＶＯＰを前方予測のための参照画像として用い、
かつその直後に表示される、それと異なるレイヤに属す
るＶＯＰを後方予測のための参照画像として用いて符号
化される場合、フラグｒｅｆ＿ｓｅｌｅｃｔ＿ｃｏｄｅ
は「１１」とされる。

【０１１０】ここで、図１１および図１２で説明した予
測符号化の方法は、１つの例であり、前方予測符号化、
後方予測符号化、または両方向予測符号化における参照
画像として、どのレイヤの、どのＶＯＰを用いるかは、
例えば、上述した範囲で、自由に設定することが可能で
ある。

【０１１１】なお、上述の場合においては、便宜的に、
「空間スケーラビリティ」、「時間スケーラビリテ
ィ」、「ＳＮＲスケーラビリティ」という語を用いた
が、フラグｒｅｆ＿ｓｅｌｅｃｔ＿ｃｏｄｅによって、
予測符号化に用いる参照画像を設定する場合、空間スケ
ーラビリティや、テンポラルスケーラビリティ、ＳＮＲ
スケーラビリティを明確に区別することは困難となる。
即ち、逆にいえば、フラグｒｅｆ＿ｓｅｌｅｃｔ＿ｃｏ
ｄｅを用いることによって、上述のようなスケーラビリ
ティの区別をせずに済むようになる。

【０１１２】ここで、上述のスケーラビリティとフラグ
ｒｅｆ＿ｓｅｌｅｃｔ＿ｃｏｄｅとを対応付けるとすれ
ば、例えば、次のようになる。即ち、Ｐピクチャについ
ては、フラグｒｅｆ＿ｓｅｌｅｃｔ＿ｃｏｄｅが「１
１」の場合が、フラグｒｅｆ＿ｌａｙｅｒ＿ｉｄが示す
レイヤの同時刻におけるＶＯＰを参照画像（前方予測の
ための参照画像）として用いる場合であるから、これ
は、空間スケーラビリティまたはＳＮＲスケーラビリテ
ィに対応する。そして、フラグｒｅｆ＿ｓｅｌｅｃｔ＿
ｃｏｄｅが「１１」の場合以外は、テンポラルスケーラ
ビリティに対応する。

【０１１３】また、Ｂピクチャについては、フラグｒｅ
ｆ＿ｓｅｌｅｃｔ＿ｃｏｄｅが「００」の場合が、やは
り、フラグｒｅｆ＿ｌａｙｅｒ＿ｉｄが示すレイヤの同
時刻におけるＶＯＰを前方予測のための参照画像として
用いる場合であるから、これが、空間スケーラビリティ
またはＳＮＲスケーラビリティに対応する。そして、フ
ラグｒｅｆ＿ｓｅｌｅｃｔ＿ｃｏｄｅが「００」の場合
以外は、テンポラルスケーラビリティに対応する。

【０１１４】なお、上位レイヤのＶＯＰの予測符号化の
ために、それと異なるレイヤ（ここでは、下位レイヤ）
の、同時刻におけるＶＯＰを参照画像として用いる場
合、両者の間に動きはないので、動きベクトルは、常に
０（（０，０））とされる。

【０１１５】図１０に戻り、上位レイヤ符号化部２３の
動きベクトル検出器３２では、以上のようなフラグｒｅ
ｆ＿ｌａｙｅｒ＿ｉｄおよびｒｅｆ＿ｓｅｌｅｃｔ＿ｃ
ｏｄｅが設定され、動き補償器４２およびＶＬＣ器３６
に供給される。

【０１１６】また、動きベクトル検出器３２では、フラ
グｒｅｆ＿ｌａｙｅｒ＿ｉｄおよびｒｅｆ＿ｓｅｌｅｃ
ｔ＿ｃｏｄｅにしたがって、フレームメモリ３１を参照
するだけでなく、必要に応じて、フレームメモリ５２を
も参照して、動きベクトルが検出される。

【０１１７】ここで、フレームメモリ５２には、解像度
変換部２４（図３）から、局所復号された下位レイヤの
拡大画像が供給されるようになされている。即ち、解像
度変換部２４では、局所復号された下位レイヤのＶＯＰ
が、例えば、いわゆる補間フィルタなどによって拡大さ
れ、これにより、そのＶＯＰを、ＦＲ倍だけした拡大画
像、つまり、その下位レイヤのＶＯＰに対応する上位レ
イヤのＶＯＰと同一の大きさとした拡大画像が生成さ
れ、上位レイヤ符号化部２３に供給される。フレームメ
モリ５２では、このようにして解像度変換部２４から供
給される拡大画像が記憶される。

【０１１８】従って、倍率ＦＲが１の場合は、解像度変
換部２４は、下位レイヤ符号化部２５からの局所復号さ
れたＶＯＰに対して、特に処理を施すことなく、そのま
ま、上位レイヤ符号化部２３に供給する。

【０１１９】動きベクトル検出器３２には、下位レイヤ
符号化部２５からサイズデータＦＳＺ＿Ｂおよびオフセ
ットデータＦＰＯＳ＿Ｂが供給されるとともに、遅延回
路２２（図３）からの倍率ＦＲが供給されるようになさ
れており、動きベクトル検出器３２は、フレームメモリ
５２に記憶された拡大画像を参照画像として用いる場
合、即ち、上位レイヤのＶＯＰの予測符号化に、そのＶ
ＯＰと同時刻における下位レイヤのＶＯＰを参照画像と
して用いる場合（この場合、フラグｒｅｆ＿ｓｅｌｅｃ
ｔ＿ｃｏｄｅは、Ｐピクチャについては「１１」に、Ｂ
ピクチャについては「００」にされる）、その拡大画像
に対応するサイズデータＦＳＺ＿Ｂおよびオフセットデ
ータＦＰＯＳ＿Ｂに、倍率ＦＲを乗算する。そして、そ
の乗算結果に基づいて、絶対座標系における拡大画像の
位置を認識し、動きベクトルの検出を行う。

【０１２０】なお、動きベクトル検出器３２には、下位
レイヤの動きベクトルと予測モードが供給されるように
なされており、これは、次のような場合に使用される。
即ち、動きベクトル検出部３２は、例えば、上位レイヤ
のＢピクチャについてのフラグｒｅｆ＿ｓｅｌｅｃｔ＿
ｃｏｄｅが「００」である場合において、倍率ＦＲが１
であるとき、即ち、ＳＮＲスケーラビリティのとき（但
し、この場合、上位レイヤの予測符号化に、上位レイヤ
のＶＯＰが用いられるので、この点で、ここでいうＳＮ
Ｒスケーラビリティは、ＭＰＥＧ２に規定されているも
のと異なる）、上位レイヤと下位レイヤは同一の画像で
あるから、上位レイヤのＢピクチャの予測符号化には、
下位レイヤの同時刻における画像の動きベクトルと予測
モードをそのまま用いることができる。そこで、この場
合、動きベクトル検出部３２は、上位レイヤのＢピクチ
ャについては、特に処理を行わず、下位レイヤの動きベ
クトルと予測モードをそのまま採用する。

【０１２１】なお、この場合、上位レイヤ符号化部２３
では、動きベクトル検出器３２からＶＬＣ器３６には、
動きベクトルおよび予測モードは出力されない（従っ
て、伝送されない）。これは、受信側において、上位レ
イヤの動きベクトルおよび予測モードを、下位レイヤの
復号結果から認識することができるからである。

【０１２２】以上のように、動きベクトル検出器３２
は、上位レイヤのＶＯＰの他、拡大画像をも参照画像と
して用いて、動きベクトルを検出し、さらに、図３８で
説明したように、予測誤差（あるいは分散）を最小にす
る予測モードを設定する。また、動きベクトル検出器３
２は、例えば、フラグｒｅｆ＿ｓｅｌｅｃｔ＿ｃｏｄｅ
やｒｅｆ＿ｌａｙｅｒ＿ｉｄその他の必要な情報を設定
して出力する。

【０１２３】なお、図１０では、下位レイヤ符号化部２
５から、下位レイヤにおけるＩまたはＰピクチャを構成
するマクロブロックがスキップマクロブロックであるか
どうかを示すフラグＣＯＤが、動きベクトル検出器３
２、ＶＬＣ器３６、および動き補償器４２に供給される
ようになされている。

【０１２４】動きベクトルの検出されたマクロブロック
は、上述した場合と同様に符号化され、これにより、Ｖ
ＬＣ器３６からは、その符号化結果としての可変長符号
が出力される。

【０１２５】なお、上位レイヤ符号化部２３のＶＬＣ器
３６は、下位レイヤ符号化部２５における場合と同様
に、フラグＣＯＤ，ＭＯＤＢを設定して出力するように
なされている。ここで、フラグＣＯＤは、上述したよう
に、ＩまたはＰピクチャのマクロブロックがスキップマ
クロブロックであるかどうかを示すものであるが、フラ
グＭＯＤＢは、Ｂピクチャのマクロブロックがスキップ
マクロブロックであるかどうかを示すものである。

【０１２６】また、ＶＬＣ器３６には、量子化係数、量
子化ステップ、動きベクトル、および予測モードの他、
倍率ＦＲ、フラグｒｅｆ＿ｓｅｒｅｃｔ＿ｃｏｄｅ，ｒ
ｅｆ＿ｌａｙｅｒ＿ｉｄ、サイズデータＦＳＺ＿Ｅ、オ
フセットデータＦＰＯＳ＿Ｅ、も供給されるようになさ
れており、ＶＬＣ器３６では、これらのデータがすべて
可変長符号化されて出力される。

【０１２７】一方、動きベクトルの検出されたマクロブ
ロックは符号化された後、やはり上述したように局所復
号され、フレームメモリ４１に記憶される。そして、動
き補償器４２において、動きベクトル検出器３２におけ
る場合と同様にして、フレームメモリ４１に記憶され
た、局所復号された上位レイヤのＶＯＰだけでなく、フ
レームメモリ５２に記憶された、局所復号されて拡大さ
れた下位レイヤのＶＯＰをも参照画像として用いて動き
補償が行われ、予測画像が生成される。

【０１２８】即ち、動き補償器４２には、動きベクトル
および予測モードの他、フラグｒｅｆ＿ｓｅｒｅｃｔ＿
ｃｏｄｅ，ｒｅｆ＿ｌａｙｅｒ＿ｉｄ、倍率ＦＲ、サイ
ズデータＦＳＺ＿Ｂ，ＦＳＺ＿Ｅ、オフセットデータＦ
ＰＯＳ＿Ｂ，ＦＰＯＳ＿Ｅが供給されるようになされて
おり、動き補償器４２は、フラグｒｅｆ＿ｓｅｒｅｃｔ
＿ｃｏｄｅ，ｒｅｆ＿ｌａｙｅｒ＿ｉｄに基づいて、動
き補償すべき参照画像を認識し、さらに、参照画像とし
て、局所復号された上位レイヤのＶＯＰ、または拡大画
像を用いる場合には、その絶対座標系における位置と大
きさを、サイズデータＦＳＺ＿Ｅおよびオフセットデー
タＦＰＯＳ＿Ｅ、またはサイズデータＦＳＺ＿Ｂおよび
オフセットデータＦＰＯＳ＿Ｂに基づいて認識し、必要
に応じて、倍率ＦＲを用いて予測画像を生成する。

【０１２９】次に、図１３は、図１のエンコーダから出
力されるビットストリームを復号するデコーダの一実施
の形態の構成例を示している。

【０１３０】このデコーダには、図１のエンコーダから
伝送路５または記録媒体６を介して提供されるビットス
トリームが供給される。即ち、図１のエンコーダから出
力され、伝送路５を介して伝送されてくるビットストリ
ームは、図示せぬ受信装置で受信され、あるいは、記録
媒体６に記録されたビットストリームは、図示せぬ再生
装置で再生され、逆多重化部７１に供給される。

【０１３１】逆多重化部７１では、そこに入力されたビ
ットストリーム（後述するＶＳ（Video Stream））が受
信される。さらに、逆多重化部７１では、入力されたビ
ットストリームが、ＶＯごとのビットストリームＶＯ＃
１，ＶＯ＃２，・・・に分離され、それぞれ、対応する
ＶＯＰ復号部７２nに供給される。ＶＯＰ復号部７２nで
は、逆多重化部７１からのビットストリームから、ＶＯ
を構成するＶＯＰ（画像データ）、サイズデータ（VOP
size）、およびオフセットデータ（VOP offset）が復号
され、画像再構成部７３に供給される。

【０１３２】画像再構成部７３では、ＶＯＰ復号部７２
1乃至７２Nそれぞれからの出力に基づいて、元の画像が
再構成される。この再構成された画像は、例えば、モニ
タ７４に供給されて表示される。

【０１３３】次に、図１４は、スケーラビリティを実現
する、図１３のＶＯＰ復号部７２nの構成例を示してい
る。

【０１３４】逆多重化部７１（図１３）から供給される
ビットストリームは、逆多重化部９１に入力され、そこ
で、上位レイヤのＶＯＰのビットストリームと、下位レ
イヤのＶＯＰのビットストリームとに分離される。上位
レイヤのＶＯＰのビットストリームは、遅延回路９２に
おいて、下位レイヤ復号部９５における処理の時間だけ
遅延された後、上位レイヤ復号部９３に供給され、ま
た、下位レイヤのＶＯＰのビットストリームは、下位レ
イヤ復号部９５に供給される。

【０１３５】下位レイヤ復号部９５では、下位レイヤの
ビットストリームが復号され、その結果得られる下位レ
イヤの復号画像が解像度変換部９４に供給される。ま
た、下位レイヤ復号部９５は、下位レイヤのビットスト
リームを復号することにより得られるサイズデータＦＳ
Ｚ＿Ｂ、オフセットデータＦＰＯＳ＿Ｂ、動きベクトル
（ＭＶ）、予測モード、フラグＣＯＤなどの、上位レイ
ヤのＶＯＰを復号するのに必要な情報を、上位レイヤ復
号部９３に供給する。

【０１３６】上位レイヤ復号部９３では、遅延回路９２
を介して供給される上位レイヤのビットストリームが、
下位レイヤ復号部９５および解像度変換部９４の出力を
必要に応じて参照することにより復号され、その結果得
られる上位レイヤの復号画像、サイズデータＦＳＺ＿
Ｅ、およびオフセットデータＦＰＯＳ＿Ｅが出力され
る。さらに、上位レイヤ復号部９３は、上位レイヤのビ
ットストリームを復号することにより得られる倍率ＦＲ
を、解像度変換部９４に出力する。解像度変換部９４で
は、上位レイヤ復号部９３からの倍率ＦＲを用いて、図
３における解像度変換部２４における場合と同様にし
て、下位レイヤの復号画像が変換される。この変換によ
り得られる拡大画像は、上位レイヤ復号部９３に供給さ
れ、上述したように、上位レイヤのビットストリームの
復号に用いられる。

【０１３７】次に、図１５は、図１４の下位レイヤ復号
部９５の構成例を示している。なお、図中、図３９のデ
コーダにおける場合と対応する部分については、同一の
符号を付してある。即ち、下位レイヤ復号部９５は、基
本的に、図３９のデコーダと同様に構成されている。

【０１３８】逆多重化部９１からの下位レイヤのビット
ストリームは、バッファ１０１に供給され、そこで受信
されて一時記憶される。ＩＶＬＣ器１０２は、その後段
のブロックの処理状態に対応して、バッファ１０１から
ビットストリームを適宜読み出し、そのビットストリー
ムを可変長復号することで、量子化係数、動きベクト
ル、予測モード、量子化ステップ、サイズデータＦＳＺ
＿Ｂ、オフセットデータＦＰＯＳ＿Ｂ、およびフラグＣ
ＯＤなどを分離する。量子化係数および量子化ステップ
は、逆量子化器１０３に供給され、動きベクトルおよび
予測モードは、動き補償器１０７と上位レイヤ復号部９
３（図１４）に供給される。また、サイズデータＦＳＺ
＿ＢおよびオフセットデータＦＰＯＳ＿Ｂは、動き補償
器１０７、画像再構成部７３（図１３）、および上位レ
イヤ復号部９３に供給され、フラグＣＯＤは、上位レイ
ヤ復号部９３に供給される。

【０１３９】逆量子化器１０３、ＩＤＣＴ器１０４、演
算器１０５、フレームメモリ１０６、または動き補償器
１０７では、図９の下位レイヤ符号化部２５の逆量子化
器３８、ＩＤＣＴ器３９、演算器４０、フレームメモリ
４１、または動き補償器４２における場合とそれぞれ同
様の処理が行われることで、下位レイヤのＶＯＰが復号
され、画像再構成部７３、上位レイヤ復号部９３、およ
び解像度変換部９４（図１４）に供給される。

【０１４０】次に、図１６は、図１４の上位レイヤ復号
部９３の構成例を示している。なお、図中、図３９にお
ける場合と対応する部分については、同一の符号を付し
てある。即ち、上位レイヤ復号部９３は、フレームメモ
リ１１２が新たに設けられていることを除けば、基本的
に、図３９のエンコーダと同様に構成されている。

【０１４１】逆多重化部９１からの上位レイヤのビット
ストリームは、バッファ１０１を介してＩＶＬＣ器１０
２に供給される。ＩＶＬＣ器１０２は、上位レイヤのビ
ットストリームを可変長復号することで、量子化係数、
動きベクトル、予測モード、量子化ステップ、サイズデ
ータＦＳＺ＿Ｅ、オフセットデータＦＰＯＳ＿Ｅ、倍率
ＦＲ、フラグｒｅｆ＿ｌａｙｅｒ＿ｉｄ，ｒｅｆ＿ｓｅ
ｌｅｃｔ＿ｃｏｄｅ，ＣＯＤ，ＭＯＤＢなどを分離す
る。量子化係数および量子化ステップは、図１５におけ
る場合と同様に、逆量子化器１０３に供給され、動きベ
クトルおよび予測モードは、動き補償器１０７に供給さ
れる。また、サイズデータＦＳＺ＿Ｅおよびオフセット
データＦＰＯＳ＿Ｅは、動き補償器１０７および画像再
構成部７３（図１３）に供給され、フラグＣＯＤ，ＭＯ
ＤＢ，ｒｅｆ＿ｌａｙｅｒ＿ｉｄ、およびｒｅｆ＿ｓｅ
ｌｅｃｔ＿ｃｏｄｅは、動き補償器１０７に供給され
る。さらに、倍率ＦＲは、動き補償器１０７および解像
度変換部９４（図１４）に供給される。

【０１４２】なお、動き補償器１０７には、上述したデ
ータの他、下位レイヤ復号部９５（図１４）から、下位
レイヤの動きベクトル、フラグＣＯＤ、サイズデータＦ
ＳＺ＿Ｂ、およびオフセットデータＦＰＯＳ＿Ｂが供給
されるようになされている。また、フレームメモリ１１
２には、解像度変換部９４から拡大画像が供給される。

【０１４３】逆量子化器１０３、ＩＤＣＴ器１０４、演
算器１０５、フレームメモリ１０６、動き補償器１０
７、またはフレームメモリ１１２では、図１０の上位レ
イヤ符号化部２３の逆量子化器３８、ＩＤＣＴ器３９、
演算器４０、フレームメモリ４１、動き補償器４２、ま
たはフレームメモリ５２における場合とそれぞれ同様の
処理が行われることで、上位レイヤのＶＯＰが復号さ
れ、画像再構成部７３に供給される。

【０１４４】ここで、以上のように構成される上位レイ
ヤ復号部９３および下位レイヤ復号部９５を有するＶＯ
Ｐ復号部７２nにおいては、上位レイヤについての復号
画像、サイズデータＦＳＺ＿Ｅ、およびオフセットデー
タＦＰＯＳ＿Ｅ（以下、適宜、これらをすべて含めて、
上位レイヤデータという）と、下位レイヤについての上
位レイヤについての復号画像、サイズデータＦＳＺ＿
Ｂ、およびオフセットデータＦＰＯＳ＿Ｂ（以下、適
宜、これらをすべて含めて、下位レイヤデータという）
が得られるが、画像再構成部７３では、この上位レイヤ
データまたは下位レイヤデータから、例えば、次のよう
にして画像が再構成されるようになされている。

【０１４５】即ち、例えば、第１の空間スケーラビリテ
ィ（図４）が行われた場合（入力されたＶＯＰ全体が上
位レイヤとされるとともに、そのＶＯＰ全体を縮小した
ものが下位レイヤされた場合）において、下位レイヤデ
ータおよび上位レイヤデータの両方のデータが復号され
たときには、画像再構成部７３は、上位レイヤデータの
みに基づき、サイズデータＦＳＺ＿Ｅに対応する大きさ
の上位レイヤの復号画像（ＶＯＰ）を、オフセットデー
タＦＰＯＳ＿Ｅによって示される位置に配置する。ま
た、例えば、上位レイヤのビットストリームにエラーが
生じたり、また、モニタ７４が、低解像度の画像にしか
対応していないため、下位レイヤデータのみの復号が行
われたときには、画像再構成部７３は、その下位レイヤ
データのみに基づき、サイズデータＦＳＺ＿Ｂに対応す
る大きさの上位レイヤの復号画像（ＶＯＰ）を、オフセ
ットデータＦＰＯＳ＿Ｂによって示される位置に配置す
る。

【０１４６】また、例えば、第２の空間スケーラビリテ
ィ（図５）が行われた場合（入力されたＶＯＰの一部が
上位レイヤとされるとともに、そのＶＯＰ全体を縮小し
たものが下位レイヤとされた場合）において、下位レイ
ヤデータおよび上位レイヤデータの両方のデータが復号
されたときには、画像再構成部７３は、サイズデータＦ
ＳＺ＿Ｂに対応する大きさの下位レイヤの復号画像を、
倍率ＦＲにしたがって拡大し、その拡大画像を生成す
る。さらに、画像再構成部７３は、オフセットデータＦ
ＰＯＳ＿ＢをＦＲ倍し、その結果得られる値に対応する
位置に、拡大画像を配置する。そして、画像再構成部７
３は、サイズデータＦＳＺ＿Ｅに対応する大きさの上位
レイヤの復号画像を、オフセットデータＦＰＯＳ＿Ｅに
よって示される位置に配置する。

【０１４７】この場合、上位レイヤの復号画像の部分
が、それ以外の部分に比較して高い解像度で表示される
ことになる。

【０１４８】なお、上位レイヤの復号画像を配置する場
合においては、その復号画像と、拡大画像とは合成され
る。

【０１４９】また、図１４（図１３）には図示しなかっ
たが、上位レイヤ復号部９３（ＶＯＰ復号部７２n）か
ら画像再構成部７３に対しては、上述したデータの他、
倍率ＦＲも供給されるようになされており、画像再構成
部７３は、これを用いて、拡大画像を生成するようにな
されている。

【０１５０】一方、第２の空間スケーラビリティが行わ
れた場合において、下位レイヤデータのみが復号された
ときには、上述の第１の空間スケーラビリティが行われ
た場合と同様にして、画像が再構成される。

【０１５１】さらに、第３の空間スケーラビリティ（図
６、図７）が行われた場合（入力されたＶＯＰを構成す
る物体ごとに、その物体（オブジェクト）全体を上位レ
イヤとするとともに、その物体全体を間引いたものを下
位レイヤとした場合）においては、上述の第２の空間ス
ケーラビリティが行われた場合と同様にして、画像が再
構成される。

【０１５２】上述したように、オフセットデータＦＰＯ
Ｓ＿ＢおよびＦＰＯＳ＿Ｅは、下位レイヤの拡大画像お
よび上位レイヤの画像を構成する、対応する画素どうし
が、絶対座標系において同一の位置に配置されるように
なっているため、以上のように画像を再構成すること
で、正確な（位置ずれのない）画像を得ることができ
る。

【０１５３】次に、図１のエンコーダが出力する符号化
ビットストリームのシンタクスについて、例えば、MPEG
4規格のVideo Verification Model(Version6.0)（以
下、適宜、VM6.0と記述する）を例に説明する。

【０１５４】図１７は、VM6.0における符号化ビットス
トリームの構成を示している。

【０１５５】符号化ビットストリームは、ＶＳ（Video
Session Class）を単位として構成され、各ＶＳは、１
以上のＶＯ（Video Object Class）から構成される。そ
して、ＶＯは、１以上のＶＯＬ（Video Object Layer C
lass）から構成され（画像を階層化しないときは１のＶ
ＯＬで構成され、画像を階層化する場合には、その階層
数だけのＶＯＬで構成される）、ＶＯＬは、ＶＯＰ（Vi
deo Object Plane Class）から構成される。

【０１５６】なお、ＶＳは、画像シーケンスであり、例
えば、一本の番組や映画などに相当する。

【０１５７】図１８または図１９は、ＶＳまたはＶＯの
シンタクスをそれぞれ示している。ＶＯは、画像全体ま
たは画像の一部（物体）のシーケンスに対応するビット
ストリームであり、従って、ＶＳは、そのようなシーケ
ンスの集合で構成される（よって、ＶＳは、例えば、一
本の番組などに相当する）。

【０１５８】図２０は、ＶＯＬのシンタクスを示してい
る。

【０１５９】ＶＯＬは、上述したようなスケーラビリテ
ィのためのクラスであり、video_object_layer_idで示
される番号によって識別される。即ち、例えば、下位レ
イヤのＶＯＬについてのvideo_object_layer_idは０と
され、また、例えば、上位レイヤのＶＯＬについてのvi
deo_object_layer_idは１とされる。なお、上述したよ
うに、スケーラブルのレイヤの数は２に限られることな
く、１や３以上を含む任意の数とすることができる。

【０１６０】また、各ＶＯＬについて、それが画像全体
であるのか、画像の一部であるのかは、video_object_l
ayer_shapeで識別される。このvideo_object_layer_sha
peは、ＶＯＬの形状を示すフラグで、例えば、以下のよ
うに設定される。

【０１６１】即ち、ＶＯＬの形状が長方形状であると
き、video_object_layer_shapeは、例えば「００」とさ
れる。また、ＶＯＬが、ハードキー（０または１のうち
のいずれか一方の値をとる２値（Binary）の信号）によ
って抜き出される領域の形状をしているとき、video_ob
ject_layer_shapeは、例えば「０１」とされる。さら
に、ＶＯＬが、ソフトキー（０乃至１の範囲の連続した
値（Gray-Scale）をとることが可能な信号）によって抜
き出される領域の形状をしているとき（ソフトキーを用
いて合成されるものであるとき）、video_object_layer
_shapeは、例えば「１０」とされる。

【０１６２】ここで、video_object_layer_shapeが「０
０」とされるのは、ＶＯＬの形状が長方形状であり、か
つ、そのＶＯＬの絶対座標形における位置および大きさ
が、時間とともに変化しない、即ち、一定の場合であ
る。なお、この場合、その大きさ（横の長さと縦の長
さ）は、video_object_layer_widthとvideo_object_lay
er_heightによって示される。video_object_layer_widt
hおよびvideo_object_layer_heightは、いずれも１０ビ
ットの固定長のフラグで、video_object_layer_shapeが
「００」の場合には、最初に、一度だけ伝送される（こ
れは、video_object_layer_shapeが「００」の場合、上
述したように、ＶＯＬの絶対座標系における大きさが一
定であるからである）。

【０１６３】また、ＶＯＬが、下位レイヤまたは上位レ
イヤのうちのいずれであるかは、１ビットのフラグであ
るscalabilityによって示される。ＶＯＬが下位レイヤ
の場合、scalabilityは、例えば１とされ、それ以外の
場合、scalabilityは、例えば０とされる。

【０１６４】さらに、ＶＯＬが、自身以外のＶＯＬにお
ける画像を参照画像として用いる場合、その参照画像が
属するＶＯＬは、上述したように、ref_layer_idで表さ
れる。なお、ref_layer_idは、上位レイヤについてのみ
伝送される。

【０１６５】また、図２０において、hor_sampling_fac
tor_nとhor_sampling_factor_mは、下位レイヤのＶＯＰ
の水平方向の長さに対応する値と、上位レイヤのＶＯＰ
の水平方向の長さに対応する値をそれぞれ示す。従っ
て、下位レイヤに対する上位レイヤの水平方向の長さ
（水平方向の解像度の倍率）は、式hor_sampling_facto
r_n/hor_sampling_factor_mで与えられる。

【０１６６】さらに、図２０において、ver_sampling_f
actor_nとver_sampling_factor_mは、下位レイヤのＶＯ
Ｐの垂直方向の長さに対応する値と、上位レイヤのＶＯ
Ｐの垂直方向の長さに対応する値をそれぞれ示す。従っ
て、下位レイヤに対する上位レイヤの垂直方向の長さ
（垂直方向の解像度の倍率）は、式ver_sampling_facto
r_n/ver_sampling_factor_mで与えられる。

【０１６７】次に、図２１は、ＶＯＰ（Video Object P
lane Class）のシンタクスを示している。

【０１６８】ＶＯＰの大きさ（横と縦の長さ）は、例え
ば、１０ビット固定長のVOP_widthとVOP_heightで表さ
れる。また、ＶＯＰの絶対座標系における位置は、例え
ば、１０ビット固定長のVOP_horizontal_spatial_mc_re
fとVOP_vertical_mc_refで表される。なお、VOP_width
またはVOP_heightは、ＶＯＰの水平方向または垂直方向
の長さをそれぞれ表し、これらは、上述のサイズデータ
ＦＳＺ＿ＢやＦＳＺ＿Ｅに相当する。また、VOP_horizo
ntal_spatial_mc_refまたはVOP_vertical_mc_refは、Ｖ
ＯＰの水平方向または垂直方向の座標（ｘまたはｙ座
標）をそれぞれ表し、これらは、上述のオフセットデー
タＦＰＯＳ＿ＢやＦＰＯＳ＿Ｅに相当する。

【０１６９】VOP_width，VOP_height，VOP_horizontal_
spatial_mc_ref、およびVOP_vertical_mc_refは、video
_object_layer_shapeが「００」以外の場合にのみ伝送
される。即ち、video_object_layer_shapeが「００」の
場合、上述したように、ＶＯＰの大きさおよび位置はい
ずれも一定であるから、VOP_width，VOP_height，VOP_h
orizontal_spatial_mc_ref、およびVOP_vertical_mc_re
fは伝送する必要がない。この場合、受信側では、ＶＯ
Ｐは、その左上の頂点が、例えば、絶対座標系の原点に
一致するように配置され、また、その大きさは、図２０
で説明したvideo_object_layer_widthおよびvideo_obje
ct_layer_heightから認識される。

【０１７０】図２１において、ref_select_codeは、図
１７で説明したように、参照画像として用いる画像を表
すもので、ＶＯＰのシンタクスにおいて規定されてい
る。

【０１７１】ところで、VM6.0では、各VOP(Video Objec
t Plane:従来のFrameに相当する)の表示時刻は、modulo
_time_baseと、VOP_time_increment（図２１）によっ
て、次のように定められる。

【０１７２】即ち、modulo_time_baseは、エンコーダの
ローカルな時間軸上における時刻を、１秒（1000ms（ミ
リ秒））の精度で表す。modulo_time_baseは、VOPヘッ
ダの中で伝送されるマーカ（marker）で表現され、必要
な数の「1」と、１の「0」とで構成される。modulo_tim
e_baseを構成する「1」の数が、最後に（現在から遡っ
て、最も最近に）（直前に）符号化／復号されたmodulo
_time_baseによって示された同期点（１秒精度の時刻）
からの累積時間を表す。即ち、modulo_time_baseが、例
えば、「０」の場合は、直前に符号化／復号されたmodu
lo_time_baseによって示された同期点からの累積時間が
０秒であることを表す。また、modulo_time_baseが、例
えば、「１０」の場合は、直前に符号化／復号されたmo
dulo_time_baseによって示された同期点からの累積時間
が１秒であることを表す。さらに、modulo_time_base
が、例えば、「１１０」の場合は、直前に符号化／復号
されたmodulo_time_baseによって示された同期点からの
累積時間が２秒であることを表す。以上のように、modu
lo_time_baseの「１」の数が、直前に符号化／復号され
たmodulo_time_baseによって示された同期点からの秒数
になっている。

【０１７３】なお、VM6.0では、modulo_time_baseにつ
いて、「This value represents thelocal time base a
t the one second resolution unit (1000 millisecond
s).It is represented as a marker transmitted in th
e VOP header. The number of consecutive "1" follow
ed by a "0" indicates the number of seconds has el
apsed since the synchronization point marked by th
e last encoded/decoded modulo_time_base.」と記載さ
れている。

【０１７４】VOP_time_incrementは、エンコーダのロー
カルな時間軸上における時刻を、1msの精度で表す。VM
6.0では、VOP_time_incrementは、I-VOPおよびP-VOPに
ついては、直前に符号化／復号されたmodulo_time_base
によって示された同期点からの時間を表し、B-VOPにつ
いては、直前に符号化／復号されたI-VOPまたはP-VOPか
らの相対時間を表す。

【０１７５】なお、VM6.0では、VOP_time_incrementに
ついて、「This value represents the local time bas
e in the units of milliseconds. For I and P-VOP's
thisvalue is the absolute VOP_time_increment from
the synchronization pointmarked by the last modulo
_time_base. For the B-VOP's this value is the rela
tive VOP_time_increment from the last encoded/deco
ded I- or P-VOP.」と記載されている。

【０１７６】そして、VM6.0では、「At the encoder, t
he following formula are used todetermine the abso
lute and relative VOP_time_increments for I/P-VOP'
s and B-VOP's, respectively.」と記載されている。

【０１７７】即ち、エンコーダにおいて、以下の式を使
って、I-VOPおよびP-VOPと、B-VOPとについて、それぞ
れの表示時刻を符号化する旨が規定されている。

【０１７８】ｔGTB(n)＝ｎ×１０００ｍｓ＋ｔEST ｔAVTI＝ｔETB(I/P)−ｔGTB(n) ｔRVTI＝ｔETB(B)−ｔETB(I/P) ・・・（１）但し、式（１）において、ｔGTB(n)は、ｎ番目に符号化
されたmodulo_time_baseによって示された同期点の時刻
（上述したように、秒精度）を表し、ｔESTは、エンコ
ーダにおけるＶＯの符号化開始時刻（ＶＯの符号化が開
始された絶対時刻）を表す。また、ｔAVTIは、I-VOPま
たはP-VOPについてのVOP_time_incrementを表し、ｔETB
(I/P)は、エンコーダにおけるI-VOPまたはP-VOPの符号
化開始時刻（ＶＯＰの符号化が開始された絶対時刻）を
表す。さらに、ｔRVTIは、B-VOPについてのVOP_time_in
crementを表し、ｔETB(B)は、エンコーダにおけるB-VOP
の符号化開始時刻を表す。

【０１７９】なお、VM6.0では、式（１）におけるｔGTB
(n)，ｔEST，ｔAVTI，ｔETB(I/P)，ｔRVTI，ｔETB(B)に
ついて、「tGTB(n) is the encoder time base marked
by the nth encoded modulo_time_base, tEST is the e
ncoder time base start time, tAVTI is the absolute
VOP_time_increment for the I or P-VOP, tETB(I/P)
is the encoder time base at the start of the encod
ing of the I or P-VOP, tRVTI is the relative VOP_t
ime_increment for the B-VOP, and tETB(B) is the en
coder time base at the start of the encoding of th
e B-VOP.」と記載されている。

【０１８０】また、VM6.0では、「At the decoder, the
following formula are used to determine the recov
ered time base of the I/P-VOP's and B-VOP's, respe
ctively:」と記載されている。

【０１８１】即ち、デコーダ側では、以下の式を使っ
て、I-VOPおよびP-VOPと、B-VOPについて、それぞれの
表示時刻を復号する旨が規定されている。

【０１８２】ｔGTB(n)＝ｎ×１０００ｍｓ＋ｔDST ｔDTB(I/P)＝ｔAVTI＋ｔGTB(n) ｔDTB(B)＝ｔRVTI＋ｔDTB(I/P) ・・・（２）但し、式（２）において、ｔGTB(n)は、ｎ番目に復号さ
れたmodulo_time_baseによって示された同期点の時刻を
表し、ｔDSTは、デコーダにおけるＶＯの復号開始時刻
（ＶＯの復号が開始された絶対時刻）を表す。また、ｔ
DTB(I/P)は、デコーダにおけるI-VOPまたはP-VOPの復号
開始時刻を表し、ｔAVTIは、I-VOPまたはP-VOPについて
のVOP_time_incrementを表す。さらに、ｔDTB(B)は、デ
コーダにおけるB-VOPの復号開始時刻（ＶＯＰの復号が
開始された絶対時刻）を表し、ｔRVTIは、B-VOPについ
てのVOP_time_incrementを表す。

【０１８３】なお、VM6.0では、式（２）におけるｔGTB
(n)，ｔDST，ｔDTB(I/P)，ｔAVTI，ｔDTB(B)，ｔRVTIに
ついて、「tGTB(n) is the encoding time base marked
bythe nth decoded modulo_time_base, tDST is the d
ecoding time base start time, tDTB(I/P) is the dec
oding time base at the start of the decoding ofthe
I or P-VOP, tAVTI is the decoding absolute VOP_ti
me_increment for the I or P-VOP, tDTB(B) is the de
coding time base at the start of the decoding of t
he B-VOP, and tRVTI is the decoded relative VOP_ti
me_incrementfor the B-VOP.」と記載されている。

【０１８４】図２２は、以上の定義に基づいて、modulo
_time_baseとVOP_time_incrementとの関係を示した図で
ある。

【０１８５】図２２において、ＶＯは、Ｉ１（Ｉ−ＶＯ
Ｐ），Ｂ２（Ｂ−ＶＯＰ），Ｂ３，Ｐ４（Ｐ−ＶＯ
Ｐ），Ｂ５，Ｐ６，・・・というＶＯＰのシーケンスで
構成されている。いま、ＶＯの符号化／復号開始時刻
（絶対時刻）をｔ０とすると、modulo_time_baseは、時
刻ｔ０からの経過時間を、１秒精度で表すから、ｔ０＋
１秒、ｔ０＋２秒，・・・という時刻（同期点）を表
す。なお、図２２において、表示順は、Ｉ１，Ｂ２，Ｂ
３，Ｐ４，Ｂ５，Ｐ６，・・・であるが、符号化／復号
順は、Ｉ１，Ｐ４，Ｂ２，Ｂ３，Ｐ６，・・・である。

【０１８６】図２２では（後述する図２５乃至図２８、
および図３３においても同様）、各ＶＯＰについてのVO
P_time_incrementを、四角形で囲んだ数字（単位はms）
で示してあり、modulo_time_baseによって示される同期
点の切り替わりを、▼印で示してある。従って、図２２
では、Ｉ１，Ｂ２，Ｂ３，Ｐ４，Ｂ５，Ｐ６についての
VOP_time_incrementが、３５０ｍｓ，４００ｍｓ，８０
０ｍｓ，５５０ｍｓ，４００ｍｓ，３５０ｍｓとそれぞ
れされており、Ｐ４およびＰ６において、同期点が切り
替わっている。

【０１８７】いま、図２２において、Ｉ１のVOP_time_i
ncrementは、３５０msであるから、Ｉ１の符号化／復号
時刻は、直前に符号化／復号されたmodulo_time_baseに
よって示された同期点から３５０ｍｓ後の時刻となる。
なお、符号化／復号の開始直後は、その開始時刻（符号
化／復号開始時刻）ｔ０が同期点となるので、Ｉ１の符
号化／復号時刻は、符号化／復号開始時刻ｔ０から３５
０ｍｓ後の時刻ｔ０＋３５０ｍｓということになる。

【０１８８】そして、Ｂ２またはＢ３の符号化／復号時
刻は、直前に符号化／復号されたI-VOPまたはP-VOPか
ら、VOP_time_incrementだけ経過した時刻であるから、
いまの場合、最後の符号化／復号されたＩ１の符号化／
復号時刻ｔ０＋３５０ｍｓから、４００ｍｓまたは８０
０ｍｓ後の時刻ｔ０＋７５０ｍｓまたはｔ０＋１２００
ｍｓということに、それぞれなる。

【０１８９】次に、Ｐ４についてであるが、Ｐ４では、
modulo_time_baseによって示される同期点が切り替わっ
ており、従って、同期点は時刻ｔ０＋１秒となる。その
結果、Ｐ４の符号化／復号時刻は、時刻ｔ０＋１秒から
５５０ｍｓ後の時刻（ｔ０＋１）秒＋５５０ｍｓという
ことになる。

【０１９０】Ｂ５の符号化／復号時刻は、直前に符号化
／復号されたI-VOPまたはP-VOPから、VOP_time_increme
ntだけ経過した時刻であるから、いまの場合、最後の符
号化／復号されたＰ４の符号化／復号時刻（ｔ０＋１）
秒＋５５０ｍｓから、４００ｍｓ後の時刻（ｔ０＋１）
秒＋９５０ｍｓということになる。

【０１９１】次に、Ｐ６についてであるが、Ｐ６では、
modulo_time_baseによって示される同期点が切り替わっ
ており、従って、同期点は時刻ｔ０＋２秒となる。その
結果、Ｐ６の符号化／復号時刻は、時刻ｔ０＋２秒から
３５０ｍｓ後の時刻（ｔ０＋２）秒＋３５０ｍｓという
ことになる。

【０１９２】なお、VM6.0では、modulo_time_baseによ
って示される同期点の切り替わりは、Ｉ−ＶＯＰとＰ−
ＶＯＰとに対してだけ許されており、Ｂ−ＶＯＰに対し
ては許されていない。

【０１９３】また、VM6.0において、VOP_time_incremen
tが、I−VOPとP−VOPについては、直前に符号化／復号
されたmodulo_time_baseによって示された同期点からの
時間を表すのに対し、B-VOPについてだけは、直前に符
号化／復号されたI-VOPまたはP-VOPからの相対時間を表
すこととされているのは、主として、次のような理由に
よる。即ち、B-VOPは、表示順で、そのB-VOPを挟むI−V
OPまたはP−VOPを参照画像として予測符号化されるの
で、その予測符号化時に参照画像として用いるI−VOPま
たはP−VOPに対する重みを、B-VOPから、それを挟むI−
VOPまたはP−VOPまでの時間的距離に基づいて決めるた
めに、その時間的距離を、B-VOPについてのVOP_time_in
crementとしたことによる。

【０１９４】ところで、上述したVM6.0のVOP_time_incr
ementの定義では、不都合が生じる。即ち、図２２で
は、B-VOPについてのVOP_time_incrementが、そのB-VOP
の直前に符号化／復号されるI-VOPまたはP-VOPからの相
対時間ではなく、直前に表示されるI-VOPまたはP-VOPか
らの相対時間を表すものとしてある。これは、次のよう
な理由による。即ち、例えば、Ｂ２やＢ３に注目した場
合、その直前に符号化／復号されるI-VOPまたはP-VOP
は、上述した符号化／復号順からいって、Ｐ４である。
従って、B-VOPについて、VOP_time_incrementが、そのB
-VOPの直前に符号化／復号されたI-VOPまたはP-VOPから
の相対時間を表すとした場合、Ｂ２やＢ３についてのVO
P_time_incrementは、Ｐ４の符号化／復号時刻からの相
対時間を表すこととなり、負の値になる。

【０１９５】一方、MPEG4規格では、VOP_time_incremen
tは、１０ビットとされており、０以上の値のみをとる
ものとすれば、０乃至１０２３の範囲の値を表現するこ
とができるから、隣接する同期点の間の位置を、時間的
に前（図２２において左方向）に位置する同期点を基準
として、1ms単位で表すことができる。

【０１９６】しかしながら、VOP_time_incrementが、０
以上の値だけでなく、負の値もとることを許すと、例え
ば、隣接する同期点の間の位置が、時間的に前に位置す
る同期点を基準として表されたり、また、時間的に後に
位置する同期点を基準として表されたりすることになる
ため、ＶＯＰの符号化時刻や復号時刻を求める処理が煩
雑になる。

【０１９７】従って、VM6.0では、上述したように、VOP
_time_incrementが、「This valuerepresents the loca
l time base in the units of milliseconds. For I a
ndP-VOP's this value is the absolute VOP_time_incr
ement from the synchronization point marked by the
last modulo_time_base. For the B-VOP's thisvalue
is the relative VOP_time_increment from the last
encoded/decoded I- or P-VOP.」と定義されているが、
最後の文の“For the B-VOP's this valueis the relat
ive VOP_time_increment from the last encoded/decod
ed I- or P-VOP”は、“For the B-VOP's this value i
s the relative VOP_time_increment from the last di
splayed I- or P-VOP”と変更するべきであり、これに
より、VOP_time_incrementが、直前に符号化／復号され
たI-VOPまたはP-VOPからの相対時間ではなく、直前に表
示されるI-VOPまたはP-VOPからの相対時間を表すものと
定義すべきである。

【０１９８】VOP_time_incrementを、このような定義に
することにより、B-VOPについての符号化／復号時刻の
計算の基準が、B-VOPよりも過去の表示時刻を持つI/P-V
OP（I-VOPまたはP-VOP）の表示時刻になるので、B-VOP
についてのVOP_time_incrementは、それが参照するI-VO
Pが、そのB-VOPよりも先に表示されない限り、常に、正
の値をとることになり、従って、I/P-VOPのVOP_time_in
crementも、常に正の値をとることになる。

【０１９９】また、図２２では、さらにVM6.0の定義を
変更して、modulo_time_baseおよびVOP_time_increment
によって表される時刻が、符号化／復号時刻ではなく、
VOPの表示時刻であるとしてある。即ち、図２２では、V
OPのシーケンス上の絶対時刻を考えた場合に、式（１）
におけるtEST(I/P)および式（２）におけるtDTB(I/P)
は、IまたはP-VOPが位置するシーケンス上の絶対時刻
を、式（１）におけるtEST(B)および式（２）におけるt
DTB(B)は、B-VOPが位置するシーケンス上の絶対時刻
を、それぞれ表すものとしてある。

【０２００】次に、VM6.0では、式（１）における符号
化開始時刻tEST (the encoder timebase start time)は
符号化されず、その符号化開始時刻tESTと、各VOPの表
示時刻（VOPのシーケンス上の各VOPの位置を表す絶対時
刻）との差分情報としてのmodulo_time_baseおよびVOP_
time_incrementが符号化される。このため、デコーダ側
では、modulo_time_baseおよびVOP_time_incrementを用
いて、各VOPの間の相対的な時間関係は定めることがで
きるが、各VOPの絶対的な表示時刻、即ち、各VOPが、VO
Pのシーケンスの中のどの位置にあるものなのかを定め
ることはできない。従って、modulo_time_baseおよびVO
P_time_incrementだけでは、ビットストリームの途中に
アクセスすること、つまり、ランダムアクセスを行うこ
とはできない。

【０２０１】一方、単に符号化開始時刻tESTを符号化す
ると、デコーダでは、それを用いて、各VOPの絶対時刻
を復号することはできるが、常に、符号化ビットストリ
ームの先頭から、符号化開始時刻tESTと、各VOPの相対
的な時間情報であるmodulo_time_baseおよびVOP_time_i
ncrementを復号しながら、それを累積して、絶対時刻を
管理する必要があり、これは面倒であり、効率的なラン
ダムアクセスができない。

【０２０２】そこで、本実施の形態では、容易に、効率
的なランダムアクセスを行うことができるように、VM6.
0の符号化ビットストリームの構成（階層）の中に、VOP
のシーケンス上の絶対時刻を符号化する階層（この階層
は、スケーラビリティを実現する階層（上述の下位レイ
ヤや上位レイヤ）ではなく、符号化ビットストリームの
階層である）を導入する。この階層は、符号化ビットス
トリームの先頭だけでなく、適当な位置に挿入できるよ
うな符号化ビットストリームの階層とする。

【０２０３】ここでは、この階層として、例えば、MPEG
1/2で用いられているGOP(Group ofPicture)層と同様に
規定されるものを導入する。これにより、MPEG4に独自
な符号化ストリームの階層を用いる場合に比べて、MPEG
4と、MPEG1/2とのコンパチビリティ（Compatibility）
を高めることができる。この新規に導入する階層を、こ
こでは、ＧＯＶ（またはＧＶＯＰ）（Group Of Video O
bject Plane）と呼ぶ。

【０２０４】図２３は、VOPのシーケンス上の絶対時刻
を符号化するGOV層を導入した符号化ビットストリーム
の構成例を示している。

【０２０５】GOV層は、ビットストリームの先頭だけで
なく、符号化ビットストリームの任意の位置に挿入する
ことができるように、VOL層とVOP層との間に規定されて
いる。

【０２０６】これにより、あるVOL#0が、VOP#0，VOP#
1，・・・，VOP#n，VOP#(n+1)，・・・，VOP#mといった
VOPのシーケンスで構成される場合において、GOV層は、
その先頭のVOP#0の直前だけでなく、VOP#(n+1)の直前に
も挿入することができる。従って、エンコーダにおい
て、GOV層は、例えば、符号化ストリームの中の、ラン
ダムアクセスさせたい位置に挿入することができ、従っ
て、GOV層を挿入することで、あるVOLを構成するVOPの
一連のシーケンスは、GOV層によって、複数のグループ
（以下、適宜、GOVという）に分けられて符号化される
ことになる。

【０２０７】GOV層のシンタクス（Syntax）は、例え
ば、図２４に示すように定義される。

【０２０８】同図に示すように、GOV層は、グループス
タートコード（group_start_code）、タイムコード（ti
me_code）、クローズドGOP（closed_gop）、ブロークン
リンク（broken_link）、ネクストスタートコード（nex
t_start_code()）が順次配置されて構成される。

【０２０９】次に、GOV層のセマンティクス（Semantic
s）について説明する。なお、GOV層のセマンティクス
は、基本的には、MPEG2のGOP層と同様であり、従って、
特に記述しない部分については、MPEG2Video規格(ISO/I
EC13818-2)を参照されたい。

【０２１０】group_start_codeは、000001B8 （１６進
数）で、GOVの開始位置を示す。

【０２１１】time_codeは、表１に示すような、１ビッ
トのdrop_frame_flag、５ビットのtime_code_hours、６
ビットのtime_code_minutes、１ビットのmarker_bit、
６ビットのtime_code_seconds、および６ビットのtime_
code_picturesの合計２５ビットで構成される。

【０２１２】

【表１】

【０２１３】time_codeは、IEC standard publication
461で規定されている「time and control codes for vi
deo tape recorders」に相当する。ここで、MPEG4で
は、ビデオのフレームレート（VideoのFrame Rate）の
概念がないので（従って、VOPは、任意の時刻に表示す
ることができる）、ここでは、time_codeがドロップフ
レームモード（drop_frame_mode）で記述されているか
否かを示すdrop_frame_flagを利用せず、その値は、例
えば、0に固定する。同様の理由で、time_code_picture
sも利用せず、その値は、例えば、0に固定する。従っ
て、ここでは、time_codeは、時刻の時間の単位を表すt
ime_code_hours、時刻の分の単位を表すtime_code_minu
tes、および時刻の秒の単位を表すtime_code_secondsに
よって、GOVの先頭の時刻を表す。その結果、GOV層のti
me_code（符号化開始秒精度絶対時刻）は、秒精度で、
その先頭の時刻、即ち、そのGOV層の符号化が開始され
た、VOPのシーケンス上の絶対時刻を表現することとな
る。このため、本実施の形態では、秒より細かい精度の
時刻（時間）（ここでは、ミリ秒）は、VOP毎に設定す
る。

【０２１４】なお、time_codeのmarker_bitは、符号化
ビットストリームにおいて、０が２３個以上連続しない
ように１とされる。

【０２１５】closed_gopは、MPEG2Video規格(ISO/IEC 1
3818-2)におけるclose_gopの定義の記載の中のＩ，Ｐ、
またはＢピクチャを、I-VOP，P-VOP、またはB-VOPにそ
れぞれ置き換えたものを意味し、従って、あるGOVの中
のB-VOPが、そのGOVを構成するVOPだけでなく、他のGOV
を構成するVOPを参照画像として符号化されているかど
うかを表す。ここで、以下に、MPEG2Video規格(ISO/IEC
13818-2)におけるclose_gopの定義について、上述のよ
うな置き換えを行った文を示す。

【０２１６】This is a one-bit flag which indicates
the nature of the predictions used in the first c
onsecutive B-VOPs (if any) immediately following t
he first coded I-VOP following the group of plane
header. The closed_gop isset to 1 to indicate that
these B-VOPs have been encoded using only backwar
d prediction or intra coding. This bit is provided
for use during anyediting which occurs after enco
ding. If the previous pictures have beenremoved by
editing, broken_link may be set to 1 so that a de
coder may avoid displaying these B-VOPs following
the first I-VOP following the group of plane heade
r. However if the closed_gop bit is set to 1, then
theeditor may choose not to set the broken_link b
it as these B-VOPs can becorrectly decoded.

【０２１７】broken_linkも、MPEG2Video規格(ISO/IEC
13818-2)におけるbroken_linkの記載について、closed_
gopにおける場合と同様の置き換を行ったものを意味
し、従って、GOVの先頭のB-VOPが正確に再生することが
できるかどうかを表す。ここで、以下に、MPEG2Video規
格(ISO/IEC 13818-2)におけるbroken_linkの定義につい
て、上述のような置き換えを行った文を示す。

【０２１８】This is a one-bit flag which shall be
set to 0 during encoding. It isset to 1 to indicat
e that the first consecutive B-VOPs (if any) immed
iately following the first coded I-VOP following t
he group of plane headermay not be correctly decod
ed because the reference frame which is used for p
rediction is not available (because of the action
of editing). A decoder may use this flag to avoid
displaying frames that cannot be correctly decode
d.

【０２１９】next_start_code()は、次のGOVの先頭の位
置を与える。

【０２２０】以上のようなGOV層を導入し、GOVの符号化
を開始する、GOVのシーケンス上の絶対時刻（以下、適
宜、符号化開始絶対時刻という）を、GOVのタイムコー
ドtime_codeに設定する。さらに、上述のように、GOV層
のtime_codeは秒精度なので、ここでは、各VOPの、VOP
のシーケンス上の絶対時刻の、さらに細かい精度の部分
を、VOP毎に設定する。

【０２２１】即ち、図２５は、図２４のGOV層を導入し
た場合のtime_codeと、modulo_time_baseおよびVOP_tim
e_incrementとの関係を示している。

【０２２２】図２５において、GOVは、その先頭から、
表示順で、Ｉ１，Ｂ２，Ｂ３，Ｐ４，Ｂ５，Ｐ６が配置
されて構成されている。

【０２２３】いま、例えば、GOVの符号化開始絶対時刻
を、0h:12m:35sec:350msec（０時１２分３５秒３５０ミ
リ秒）とすると、GOVのtime_codeは、上述したように、
秒精度（秒単位）なので、0h:12m:35secとされる（time
_codeを構成するtime_code_hours，time_code_minute
s、またはtime_code_secondsが、それぞれ０，１２、ま
たは３５とされる）。一方、Ｉ１の、VOPのシーケンス
上の絶対時刻（図２５のGOVを含むVSの符号化前（また
は復号後）のVOPのシーケンスの絶対時刻）（これは、V
OPのシーケンスが表示されるときの、Ｉ１が表示される
時刻に相当するので、以下、適宜、表示時刻という）
が、例えば、0h:12m:35sec:350msecである場合には、そ
の表示時刻の、秒精度より細かい精度である350msは、
Ｉ１についてのI-VOPのVOP_time_incrementに設定され
て符号化されるように（Ｉ１についてのVOP_time_incre
ment＝350とされて符号化されるように）、VOP_time_in
crementのセマンティクスを変更する。

【０２２４】即ち、図２５において、GOVの、表示順で
先頭のI-VOP（Ｉ１）のVOP_time_incrementは、GOVのti
me_codeと、I-VOPの表示時刻の差分値とする。従って、
秒精度によるtime_codeで表された時刻が、GOVの最初の
同期点（ここでは、秒精度の時刻を表す点）となる。

【０２２５】なお、図２５において、GOVの２番目以降
に配置されたVOPであるＢ２，Ｂ３，Ｐ４，Ｂ５，Ｐ６
についてのVOP_time_incrementのセマンティクスは、図
２２で説明したように、VM6.0の定義を変更したものと
同様である。

【０２２６】従って、図２５において、Ｂ２またはＢ３
の表示時刻は、直前に表示されるI-VOPまたはP-VOPの表
示時刻から、VOP_time_incrementだけ経過した時刻であ
るから、いまの場合、直前に表示されるＩ１の表示時刻
0h:12m:35s+350msから、400msまたは800ms後の時刻0h:12
m:35s:750msまたは0h:12m:36s:200msということに、それ
ぞれなる。

【０２２７】次に、Ｐ４についてであるが、Ｐ４では、
modulo_time_baseによって示される同期点が切り替わっ
ており、従って、同期点は時刻0h:12m:35sから１秒経過
した0h:12m:36sとなる。その結果、Ｐ４の表示時刻は、
時刻0h:12m:36sから550ms後の時刻0h:12m:36:550msとい
うことになる。

【０２２８】Ｂ５の表示時刻は、直前に表示されるI-VO
PまたはP-VOPから、VOP_time_incrementだけ経過した時
刻であるから、いまの場合、直前に表示されるＰ４の表
示時刻0h:12m:36:550msから、400ms後の時刻0h:12m:36s:
950msということになる。

【０２２９】そして、Ｐ６についてであるが、Ｐ６で
は、modulo_time_baseによって示される同期点が切り替
わっており、従って、同期点は時刻0h:12m:35s+2秒、即
ち、0h:12m:37sとなる。その結果、Ｐ６の表示時刻は、
時刻0h:12m:37sから350ms後の時刻0h:12m:37s:350msと
いうことになる。

【０２３０】次に、図２６は、表示順で、先頭のVOPがB
-VOPになっている場合の、GOVについてのtime_codeと、
modulo_time_baseおよびVOP_time_incrementとの関係を
示している。

【０２３１】図２６において、GOVは、その先頭から、
表示順で、Ｂ０，Ｉ１，Ｂ２，Ｂ３，Ｐ４，Ｂ５，Ｐ６
が配置されて構成されている。即ち、図２６では、図２
５において、Ｉ１の前にＢ０が追加されて、GOVが構成
されている。

【０２３２】この場合、GOVの先頭のＢ０についてのVOP
_time_incrementを、そのGOVを構成するI/P-VOPの表示
時刻を基準として定めることとすると、即ち、例えば、
Ｉ１の表示時刻を基準として定めることとすると、その
値は負になり、上述したように、都合が悪い。

【０２３３】そこで、GOVの中の、I-VOPよりも先に表示
されるB-VOP（GOVの中で、最初に表示されるI-VOPより
も先行して表示されるB-VOP）のVOP_time_incrementに
ついては、そのセマンティクスを、以下のように変更す
る。

【０２３４】すなわち、そのようなB-VOPのVOP_time_in
crementは、GOVのtime_codeの時刻と、B-VOPの表示時刻
との差分値とする。この場合、図２６に示すように、Ｂ
０の表示時刻が、例えば、0h:12m:35s:200msであり、GO
Vのtime_codeが、例えば、0h:12m:35sであるときには、
Ｂ０のVOP_time_incrementは、350ms（＝0h:12m:35s:20
0ms−0h:12m:35s）になる。このようにすることで、VOP
_time_incrementは、常に正の値になる。

【０２３５】以上のような、VOP_time_incrementについ
てのセマンティクスの２つの変更により、GOVのtime_co
deと、VOPのmodulo_time_baseおよびVOP_time_incremen
tとを関係付けることができ、さらに、これにより、各V
OPが表示される絶対時刻（表示時刻）を特定することが
できる。

【０２３６】次に、図２７は、I-VOPの表示時刻と、そ
れから予測されるB-VOPの表示時刻との間隔が１秒（正
確には、１．０２３秒）より大きい場合の、GOVについ
てのtime_codeと、modulo_time_baseおよびVOP_time_in
crementとの関係を示している。

【０２３７】図２７において、GOVは、表示順で、Ｉ
１，Ｂ２，Ｂ３，Ｂ４，Ｐ６が順次配置されて構成され
ており、Ｂ４が、直前に表示されるI-VOPであるＩ１の
表示時刻よりも、１秒より後の時刻において表示される
ようになされている。

【０２３８】この場合、上述のようにセマンティクスを
変更したVOP_time_incrementによって、Ｂ４の表示時刻
を符号化しようとしても、VOP_time_incrementは、上述
のように１０ビットであるため、1023までしか表現でき
ず、1.023秒より長い時間を表現することはできない。
そこで、VOP_time_incrementのセマンティクスをさらに
変更するとともに、modulo_time_baseのセマンティクス
をも変更し、このような場合であっても対応できるよう
にする。

【０２３９】ここでは、例えば、次のような第１または
第２の方法のいずれかによって対応する。

【０２４０】即ち、第１の方法では、I/P-VOPの表示時
刻と、それから予測されるB-VOPの表示時刻との間の時
間を、ミリ秒精度で求め、その時間を、秒の単位まで
は、modulo_time_baseで表現し、残りのミリ秒の精度
を、VOP_time_incrementで表現する。

【０２４１】図２７に示した場合において、第１の方法
にしたがって、modulo_time_baseおよびVOP_time_incre
mentを符号化した場合の、GOVについてのtime_codeと、
modulo_time_baseおよびVOP_time_incrementとの関係
を、図２８に示す。

【０２４２】即ち、第１の方法では、modulo_time_base
の付加を、I-VOPおよびP-VOPだけでなく、B-VOPに対し
ても許可する。そして、B-VOPに付加されているmodulo_
time_baseは、同期点の切り替わりではなく、直前に表
示されるI/P-VOPの表示時刻からの秒単位の繰り上がり
を表すものとする。

【０２４３】さらに、第１の方法では、B-VOPに付加さ
れるmodulo_time_baseによって示される、直前に表示さ
れるI/P-VOPの表示時刻からの秒単位の繰り上がり後の
時刻を、そのB-VOPの表示時刻から減算した値を、そのV
OP_time_incrementとして設定する。

【０２４４】従って、第１の方法によれば、図２７にお
いて、例えば、Ｉ１の表示時刻を、0h:12m:35s:350msと
するとともに、Ｂ４の表示時刻を、0h:12m:36s:550msと
すると、Ｉ１とＢ４との表示時刻の差は、１秒以上の12
00msecであるから、Ｂ４には、図２８に示すように、直
前に表示されるＩ１の表示時刻からの秒単位の繰り上が
りを示すmodulo_time_base（図２８において、▼印で示
す）が付加される。具体的には、Ｂ４に付加されるmodu
lo_time_baseは、1200msの１秒の位の値である１秒の繰
り上がりを表す「１０」とされる。そして、Ｂ４のVOP_
time_incrementは、図２８に示すように、Ｉ１とＢ４と
の表示時刻の差の、１秒未満の値（Ｂ４の表示時刻か
ら、そのmodulo_time_baseによって示される、直前に表
示されるI/P-VOPであるＩ１の表示時刻からの秒単位の
繰り上がり後の時刻を減算した値）であるである２００
とされる。

【０２４５】以上のような、第１の方法によるmodulo_t
ime_baseとVOP_time_incrementについての処理は、エン
コーダ側では、例えば、図９および図１０に示したＶＬ
Ｃ器３６において、デコーダ側では、例えば、図１５お
よび図１６に示したＩＶＬＣ器１０２において、それぞ
れ行われる。

【０２４６】そこで、まず、図２９のフローチャートを
参照して、ＶＬＣ器３６が行うI/P-VOPのmodulo_time_b
aseおよびVOP_time_incrementに関する処理について説
明する。

【０２４７】ＶＬＣ器３６は、VOPのシーケンスを、GOV
ごとに分けて処理を行うようになされている。なお、GO
Vは、少なくとも１のイントラ符号化されるVOPを含むよ
うに構成される。

【０２４８】ＶＬＣ器３６は、GOVを受信すると、例え
ば、その受信時刻を、そのGOVの符号化開始絶対時刻と
し、その符号化開始絶対時刻の秒精度まで（秒の桁まで
の符号化開始絶対時刻）を、time_codeとして符号化し
て、符号化ビットストリームの中に含める。その後、Ｖ
ＬＣ器３６は、GOVを構成するI/P-VOPを受信するごと
に、そのI/P-VOPを注目I/P-VOPとして、図２９のフロー
チャートにしたがい、注目I/P-VOPのmodulo_time_base
およびVOP_time_incrementを求めて、符号化する。

【０２４９】即ち、ＶＬＣ器３６では、まず最初に、ス
テップＳ１において、modulo_time_baseに０Ｂ（Ｂは２
進数を表す）がセットされるとともに、VOP_time_incre
mentに０がセットされることにより、modulo_time_base
およびVOP_time_incrementがリセットされる。

【０２５０】そして、ステップＳ２に進み、注目I/P-VO
Pが、処理対象としているGOV（処理対象GOV）の中で、
最初に表示されるI-VOP（First I-VOP）であるかどうか
が判定される。ステップＳ２において、注目I/P-VOP
が、処理対象GOVの中で、最初に表示されるI-VOPである
と判定された場合、ステップＳ４に進み、処理対象GOV
のtime_codeと、注目I/P-VOP（ここでは、処理対象GOV
の中で、最初に表示されるI-VOP）の表示時刻の秒精度
との差分、即ち、time_codeと、注目I/P-VOPの表示時刻
の秒の桁までとの差分が求められ、変数Ｄにセットされ
て、ステップＳ５に進む。

【０２５１】また、ステップＳ２において、注目I/P-VO
Pが、処理対象GOVの中で、最初に表示されるI-VOPでな
いと判定された場合、ステップＳ３に進み、注目I/P-VO
Pの表示時刻の秒の桁までと、その直前に表示されるI/P
-VOP（処理対象GOVを構成するVOPのうちの、注目I/P-VO
Pの直前に表示されるI/P-VOP）（Last display I/P-VO
P）の表示時刻の秒の桁までとの差分値が求められ、そ
の差分値が、変数Ｄにセットされて、ステップＳ５に進
む。

【０２５２】ステップＳ５では、変数Ｄが０に等しいか
どうか、即ち、time_codeと、注目I/P-VOPの表示時刻の
秒の桁までとの差分、または注目I/P-VOPの表示時刻の
秒の桁までと、その直前に表示されるI/P-VOPの表示時
刻の秒の桁までとの差分値が０秒であるかどうかが判定
される。ステップＳ５において、変数Ｄが０に等しくな
いと判定された場合、即ち、変数Ｄが１以上である場
合、ステップＳ６に進み、modulo_time_baseのＭＳＢ
（Most Significant Bit）として、１が付加される。即
ち、この場合、modulo_time_baseが、例えば、リセット
直後の０Ｂであるときには、１０Ｂとされ、また、modu
lo_time_baseが、例えば、１０Ｂであるときには、１１
０Ｂとされる。

【０２５３】そして、ステップＳ７に進み、変数Ｄが１
だけデクリメントされ、ステップＳ５に戻る。その後、
ステップＳ５において、変数Ｄが０に等しいと判定され
るまで、ステップＳ５乃至Ｓ７の処理が繰り返される。
即ち、これにより、modulo_time_baseは、time_code
と、注目I/P-VOPの表示時刻の秒の桁までとの差分、ま
たは注目I/P-VOPの表示時刻の秒の桁までと、その直前
に表示されるI/P-VOPの表示時刻の秒の桁までとの差分
値に対応する秒数と同一の数だけ「１」が連続し、その
最後に０が付加された値とされる。

【０２５４】そして、ステップＳ５において、変数Ｄが
０に等しいと判定された場合、ステップＳ８に進み、VO
P_time_incrementに、注目I/P-VOPの表示時刻の秒精度
より細かい精度の時刻、即ち、ミリ秒単位の時刻がセッ
トされ、処理を終了する。

【０２５５】以上のようにして求められた注目I/P-VOP
のmodulo_time_baseおよびVOP_time_incrementは、ＶＬ
Ｃ回路３６において、注目I/P-VOPに付加され、これに
より、符号化ビットストリームの中に含められる。

【０２５６】なお、modulo_time_baseおよびVOP_time_i
ncrement、並びにtime_codeは、ＶＬＣ回路３６におい
て可変長符号化される。

【０２５７】次に、ＶＬＣ器３６は、処理対象GOVを構
成するB-VOPを受信するごとに、そのB-VOPを注目B-VOP
として、図３０のフローチャートにしたがい、注目B-VO
Pのmodulo_time_baseおよびVOP_time_incrementを求め
て、符号化する。

【０２５８】即ち、ＶＬＣ器３６では、まず最初に、ス
テップＳ１１において、図２９のステップＳ１における
場合と同様に、modulo_time_baseおよびVOP_time_incre
mentがリセットされる。

【０２５９】そして、ステップＳ１２に進み、注目B-VO
Pが、処理対象GOVの中で、最初に表示されるI-VOP（Fir
st I-VOP）よりも先に表示されるものであるかどうかが
判定される。ステップＳ１２において、注目B-VOPが、
処理対象GOVの中で、最初に表示されるI-VOPよりも先に
表示されるものであると判定された場合、ステップＳ１
４に進み、処理対象GOVのtime_codeと、注目B-VOP（こ
こでは、処理対象GOVの中で、最初に表示されるI-VOPよ
りも先行して表示されるB-VOP）の表示時刻との差分が
求められ、変数Ｄにセットされて、ステップＳ１５に進
む。従って、ここでは、変数Ｄには、ミリ秒精度の時間
（ミリ秒の桁までの時間）がセットされる（これに対し
て、図２９における変数Ｄには、上述したように、秒精
度の時間がセットされる）。

【０２６０】また、ステップＳ１２において、注目B-VO
Pが、処理対象GOVの中で、最初に表示されるI-VOPより
も後に表示されるものであると判定された場合、ステッ
プＳ１４に進み、注目B-VOPの表示時刻と、その直前に
表示されるI/P-VOP（処理対象GOVを構成するVOPのうち
の、注目B-VOPの直前に表示されるI/P-VOP）（Last dis
play I/P-VOP）の表示時刻との差分値が求められ、その
差分値が、変数Ｄにセットされて、ステップＳ１５に進
む。

【０２６１】ステップＳ１５では、変数Ｄが１より大で
あるかどうか、即ち、time_codeと、注目B-VOPの表示時
刻との差分値、または注目B-VOPの表示時刻と、その直
前に表示されるI/P-VOPの表示時刻との差分値が、１秒
より大であるかどうかが判定される。ステップＳ５にお
いて、変数Ｄが１より大であると判定された場合、即
ち、modulo_time_baseのＭＳＢとして、１が付加され、
ステップＳ１７に進む。ステップＳ１７では、変数Ｄが
１だけデクリメントされ、ステップＳ１５に戻る。そし
て、ステップＳ１５において、変数Ｄが１より大でない
と判定されるまで、ステップＳ１５乃至Ｓ１７の処理が
繰り返される。即ち、これにより、modulo_time_base
は、time_codeと、注目B-VOPの表示時刻との差分値、ま
たは注目B-VOPの表示時刻と、その直前に表示されるI/P
-VOPの表示時刻との差分値に対応する時間の秒数と同一
の数だけ「１」が連続し、その最後に０が付加された値
とされる。

【０２６２】そして、ステップＳ１５において、変数Ｄ
が１より大でないと判定された場合、ステップＳ８に進
み、そのときの変数Ｄの値、即ち、time_codeと、注目B
-VOPの表示時刻との差分値、または注目B-VOPの表示時
刻と、その直前に表示されるI/P-VOPの表示時刻との差
分値の秒の位より下の位（ミリ秒単位の時間）が、VOP_
time_incrementにセットされ、処理を終了する。

【０２６３】以上のようにして求められた注目B-VOPのm
odulo_time_baseおよびVOP_time_incrementは、ＶＬＣ
回路３６において、注目B-VOPに付加され、これによ
り、符号化ビットストリームの中に含められる。

【０２６４】次に、ＩＶＬＣ器１０２は、上述のように
して、ＶＬＣ器３６が、VOPのシーケンスを、GOVごとに
分けて処理を行うことにより出力する符号化ストリーム
の中のVOPの表示時刻を、各VOPについての符号化データ
を受信するごとに、そのVOPを注目VOPとして処理を行う
ことにより認識し、その表示時刻にVOPが表示されるよ
うに、可変長復号を行うようになされている。即ち、Ｉ
ＶＬＣ器１０２は、GOVを受信すると、そのGOVのtime_c
odeを認識し、そのGOVを構成するI/P-VOPを受信するご
とに、そのI/P-VOPを注目I/P-VOPとして、図３１のフロ
ーチャートにしたがい、注目I/P-VOPのmodulo_time_bas
eおよびVOP_time_incrementに基づき、その表示時刻を
求める。

【０２６５】即ち、ＩＶＬＣ器１０２では、まず最初
に、ステップＳ２１において、注目I/P-VOPが、処理対
象GOVの中で、最初に表示されるI-VOP（First I-VOP）
であるかどうかが判定される。ステップＳ２１におい
て、注目I/P-VOPが、処理対象GOVの中で、最初に表示さ
れるI-VOPであると判定された場合、ステップＳ２３に
進み、変数Ｔに、処理対象GOVのtime_codeがセットさ
れ、ステップＳ２４に進む。

【０２６６】また、ステップＳ２１において、注目I/P-
VOPが、処理対象GOVの中で、最初に表示されるI-VOPで
ないと判定された場合、ステップＳ２２に進み、注目I/
P-VOPの直前に表示されるI/P-VOP（処理対象GOVを構成
するVOPのうちの、注目I/P-VOPの直前に表示されるI/P-
VOP）（Last display I/P-VOP）の表示時刻の秒の桁ま
でが、変数Ｔにセットされて、ステップＳ２４に進む。

【０２６７】ステップＳ２４では、注目I/P-VOPに付加
されているmodulo_time_baseが０Ｂに等しいかどうかが
判定される。ステップＳ２４において、注目I/P-VOPに
付加されているmodulo_time_baseが０Ｂに等しくないと
判定された場合、即ち、注目I/P-VOPに付加されているm
odulo_time_baseに１が含まれる場合、ステップＳ２５
に進み、そのmodulo_time_baseのＭＳＢの１が削除さ
れ、ステップＳ２６に進む。ステップＳ２６では、変数
Ｔが１秒だけインクリメントされ、ステップＳ２４に戻
り、以下、ステップＳ２４において、注目I/P-VOPに付
加されているmodulo_time_baseが０Ｂに等しいと判定さ
れるまで、ステップＳ２４乃至Ｓ２６の処理を繰り返
す。これにより、変数Ｔは、注目I/P-VOPに、最初に付
加されていたmodulo_time_baseの１の数に対応する秒数
だけインクリメントされる。

【０２６８】そして、ステップＳ２４において、注目I/
P-VOPに付加されているmodulo_time_baseが０Ｂに等し
いと判定された場合、ステップＳ２７に進み、変数Ｔ
に、VOP_time_incrementが表すミリ秒精度の時刻が加算
され、その加算値が、注目I/P-VOPの表示時刻として認
識されて、処理を終了する。

【０２６９】次に、ＩＶＬＣ器１０２では、GOVを構成
するB-VOPを受信した場合には、図３２のフローチャー
トにしたがい、注目B-VOPのmodulo_time_baseおよびVOP
_time_incrementに基づき、その表示時刻が求められ
る。

【０２７０】即ち、ＩＶＬＣ器１０２では、まず最初
に、ステップＳ３１において、注目B-VOPが、処理対象G
OVの中で、最初に表示されるI-VOP（First I-VOP）より
も先に表示されるものであるかどうかが判定される。ス
テップＳ３１において、注目B-VOPが、処理対象GOVの中
で、最初に表示されるI-VOPよりも先に表示されるもの
であると判定された場合、ステップＳ３３に進み、以
下、ステップＳ３３乃至Ｓ３７において、図３１のステ
ップＳ２３乃至Ｓ２７における場合とそれぞれ同様の処
理が行われることにより、注目B-VOPの表示時刻が求め
られる。

【０２７１】一方、ステップＳ３１において、注目B-VO
Pが、処理対象GOVの中で、最初に表示されるI-VOPより
も後に表示されるものであると判定された場合、ステッ
プＳ３２に進み、以下、ステップＳ３２，Ｓ３４乃至Ｓ
３７において、図３１のステップＳ２２，Ｓ２４乃至Ｓ
２７における場合とそれぞれ同様の処理が行われること
により、注目B-VOPの表示時刻が求められる。

【０２７２】次に、第２の方法では、I-VOPの表示時刻
と、それから予測されるB-VOPの表示時刻との間の時間
を、秒の桁まで求め、その値を、modulo_time_baseで表
現し、B-VOPの表示時刻のミリ秒精度を、VOP_time_incr
ementで表現する。即ち、VM6.0では、上述したように、
B-VOPの予測符号化時に参照画像として用いるI−VOPま
たはP−VOPに対する重みを、B-VOPから、それを挟むI−
VOPまたはP−VOPまでの時間的距離に基づいて決めるの
に、その時間的距離を、B-VOPについてのVOP_time_incr
ementとしており、このため、I−VOPおよびP−VOPにつ
いてのVOP_time_incrementが、直前に符号化／復号され
たmodulo_time_baseによって示された同期点からの時間
を表すのと異なっているが、B-VOPの表示時刻と、それ
を挟むI−VOPまたはP−VOPの表示時刻が分かれば、それ
らの間の時間的距離は、差分をとるだけで求めることが
でき、従って、B-VOPについてのVOP_time_incrementだ
けを、I−VOPおよびP−VOPについてのVOP_time_increme
ntと異なる取り扱いとする必要性は小さい。むしろ、処
理効率の観点からは、Ｉ，Ｂ，ＰのすべてのVOPのVOP_t
ime_incrment（詳細時間情報）、さらには、modulo_tim
e_base（秒精度時刻情報）は、同一の取り扱いとするの
が望ましい。

【０２７３】そこで、第２の方法では、B-VOPについて
のmodulo_time_baseおよびVOP_time_incrementを、I/P
−VOPについてのものと同一の取り扱いとしている。

【０２７４】例えば、図２７に示した場合において、第
２の方法にしたがって、modulo_time_baseおよびVOP_ti
me_incrementを符号化した場合の、GOVについてのtime_
codeと、modulo_time_baseおよびVOP_time_incrementと
の関係を、図３３に示す。

【０２７５】即ち、第２の方法でも、modulo_time_base
の付加を、I-VOPおよびP-VOPだけでなく、B-VOPに対し
ても許可する。そして、B-VOPに付加されるmodulo_time
_baseも、I/P-VOPに付加されるmodulo_time_baseと同様
に、同期点の切り替わりを表すものとする。

【０２７６】さらに、第２の方法では、B-VOPに付加さ
れているmodulo_time_baseによって示される同期点の時
刻を、そのB-VOPの表示時刻から減算した値が、そのVOP
_time_incrementとして設定される。

【０２７７】従って、第２の方法によれば、図２７にお
いて、GOVのtime_codeが表す時刻である、GOVの最初の
同期点から、時刻time_code＋１秒で示される同期点ま
での間に表示されるＩ１またはＢ２のmodulo_time_base
は、いずれも０Ｂとされるとともに、それぞれのVOP_ti
me_incrementは、Ｉ１またはＢ２の表示時刻の秒の位よ
り下の位のミリ秒単位の値がセットされる。また、時刻
time_code＋１秒で示される同期点から、時刻time_code
＋２秒で示される同期点までの間に表示されるＢ３また
はＢ４のmodulo_time_baseは、いずれも１０Ｂとされる
とともに、それぞれのVOP_time_incrementは、Ｂ３また
はＢ４の表示時刻の秒の位より下の位のミリ秒単位の値
がセットされる。さらに、時刻time_code＋２秒で示さ
れる同期点から、時刻time_code＋３秒で示される同期
点までの間に表示されるＰ５のmodulo_time_baseは１１
０Ｂとされるとともに、そのVOP_time_incrementは、Ｐ
５の表示時刻の秒の位より下の位のミリ秒単位の値がセ
ットされる。

【０２７８】図２７において、例えば、上述したよう
に、Ｉ１の表示時刻を、0h:12m:35s:350msとするととも
に、Ｂ４の表示時刻を、0h:12m:36s:550msとすると、Ｉ
１またはＢ４のmodulo_time_baseは、上述したように、
それぞれ０Ｂまたは１０Ｂとされる。また、Ｉ１または
Ｂ４のVOP_time_incrementは、それぞれ、表示時刻のミ
リ秒単位である350msまたは550msとされる。

【０２７９】以上のような、第２の方法によるmodulo_t
ime_baseとVOP_time_incrementについての処理も、例え
ば、第１の方法による場合と同様に、図９および図１０
に示したＶＬＣ器３６、並びに図１５および図１６に示
したＩＶＬＣ器１０２において行われる。

【０２８０】即ち、ＶＬＣ器３６では、I/P-VOPについ
ては、図２９における場合と同様にして、modulo_time_
baseおよびVOP_time_incrementが求められる。

【０２８１】また、B-VOPについては、ＶＬＣ器３６に
おいて、GOVを構成するB-VOPを受信するごとに、そのB-
VOPを注目B-VOPとして、図３４のフローチャートにした
がい、注目B-VOPのmodulo_time_baseおよびVOP_time_in
crementが求められる。

【０２８２】即ち、ＶＬＣ器３６では、まず最初に、ス
テップＳ４１において、図２９のステップＳ１における
場合と同様にして、modulo_time_baseおよびVOP_time_i
ncrementがリセットされる。

【０２８３】そして、ステップＳ４２に進み、注目B-VO
Pが、処理対象としているGOV（処理対象GOV）の中で、
最初に表示されるI-VOP（First I-VOP）よりも先行して
表示されるものであるかどうかが判定される。ステップ
Ｓ１２において、注目B-VOPが、処理対象GOVの中で、最
初に表示されるI-VOPよりも先行して表示されるもので
あると判定された場合、ステップＳ４４に進み、処理対
象GOVのtime_codeと、注目B-VOPの表示時刻の秒精度と
の差分、即ち、time_codeと、注目B-VOPの表示時刻の秒
の桁までとの差分が求められ、変数Ｄにセットされて、
ステップＳ４５に進む。

【０２８４】また、ステップＳ４２において、注目B-VO
Pが、処理対象GOVの中で、最初に表示されるI-VOPより
も後に表示されるものであると判定された場合、ステッ
プＳ４３に進み、注目B-VOPの表示時刻の秒の桁まで
と、その直前に表示されるI/P-VOP（処理対象GOVを構成
するVOPのうちの、注目B-VOPの直前に表示されるI/P-VO
P）（Last display I/P-VOP）の表示時刻の秒の桁まで
との差分値が求められ、その差分値が、変数Ｄにセット
されて、ステップＳ４５に進む。

【０２８５】ステップＳ４５では、変数Ｄが０に等しい
かどうか、即ち、time_codeと、注目B-VOPの表示時刻の
秒の桁までとの差分、または注目B-VOPの表示時刻の秒
の桁までと、その直前に表示されるI/P-VOPの表示時刻
の秒の桁までとの差分値が０秒であるかどうかが判定さ
れる。ステップＳ４５において、変数Ｄが０に等しくな
いと判定された場合、即ち、変数Ｄが１以上である場
合、ステップＳ４６に進み、modulo_time_baseのＭＳＢ
として、１が付加される。

【０２８６】そして、ステップＳ４７に進み、変数Ｄが
１だけデクリメントされ、ステップＳ４５に戻る。その
後、ステップＳ４５において、変数Ｄが０に等しいと判
定されるまで、ステップＳ４５乃至Ｓ４７の処理が繰り
返される。即ち、これにより、modulo_time_baseは、ti
me_codeと、注目B-VOPの表示時刻の秒の桁までとの差
分、または注目B-VOPの表示時刻の秒の桁までと、その
直前に表示されるI/P-VOPの表示時刻の秒の桁までとの
差分値に対応する秒数と同一の数だけ「１」が連続し、
その最後に０が付加された値とされる。

【０２８７】そして、ステップＳ４５において、変数Ｄ
が０に等しいと判定された場合、ステップＳ４８に進
み、VOP_time_incrementに、注目B-VOPの表示時刻の秒
精度より細かい精度の時刻、即ち、ミリ秒単位の時刻が
セットされ、処理を終了する。

【０２８８】一方、ＩＶＬＣ器１０２では、I/P-VOPに
ついては、上述の図３１における場合と同様にして、mo
dulo_time_baseおよびVOP_time_incrementに基づき、そ
の表示時刻が求められる。

【０２８９】また、Ｂ−VOPについては、ＩＶＬＣ器１
０２において、GOVを構成するB-VOPを受信するごとに、
そのB-VOPを注目B-VOPとして、図３５のフローチャート
にしたがい、注目B-VOPのmodulo_time_baseおよびVOP_t
ime_incrementに基づき、その表示時刻が求められる。

【０２９０】即ち、ＩＶＬＣ器１０２では、まず最初
に、ステップＳ５１において、注目B-VOPが、処理対象G
OVの中で、最初に表示されるI-VOP（First I-VOP）より
も先行して表示されるものであるかどうかが判定され
る。ステップＳ５１において、注目B-VOPが、処理対象G
OVの中で、最初に表示されるI-VOPよりも先行して表示
されるものであると判定された場合、ステップＳ５２に
進み、変数Ｔに、処理対象GOVのtime_codeがセットさ
れ、ステップＳ５４に進む。

【０２９１】また、ステップＳ５１において、注目B-VO
Pが、処理対象GOVの中で、最初に表示されるI-VOPより
も後に表示されるものであると判定された場合、ステッ
プＳ５３に進み、注目B-VOPの直前に表示されるI/P-VOP
（処理対象GOVを構成するVOPのうちの、注目B-VOPの直
前に表示されるI/P-VOP）（Last display I/P-VOP）の
表示時刻の秒の桁までが、変数Ｔにセットされて、ステ
ップＳ５４に進む。

【０２９２】ステップＳ５４では、注目B-VOPに付加さ
れているmodulo_time_baseが０Ｂに等しいかどうかが判
定される。ステップＳ５４において、注目B-VOPに付加
されているmodulo_time_baseが０Ｂに等しくないと判定
された場合、即ち、注目B-VOPに付加されているmodulo_
time_baseに１が含まれる場合、ステップＳ５５に進
み、そのmodulo_time_baseのＭＳＢの１が削除され、ス
テップＳ５６に進む。ステップＳ５６では、変数Ｔが１
秒だけインクリメントされ、ステップＳ５４に戻り、以
下、ステップＳ５４において、注目B-VOPに付加されて
いるmodulo_time_baseが０Ｂに等しいと判定されるま
で、ステップＳ５４乃至Ｓ５６の処理を繰り返す。これ
により、変数Ｔは、注目B-VOPに、最初に付加されてい
たmodulo_time_baseの１の数に対応する秒数だけインク
リメントされる。

【０２９３】そして、ステップＳ５４において、注目B-
VOPに付加されているmodulo_time_baseが０Ｂに等しい
と判定された場合、ステップＳ５７に進み、変数Ｔに、
VOP_time_incrementが表すミリ秒精度の時刻が加算さ
れ、その加算値が、注目B-VOPの表示時刻として認識さ
れて、処理を終了する。

【０２９４】以上のように、符号化ビットストリームの
構成（階層）の中に、符号化開始絶対時刻を符号化する
GOV層を導入し、このGOV層を、ビットストリームの先頭
だけでなく、適当な位置に挿入できるようなものとする
とともに、VM6.0で規定されていたmodulo_time_baseとV
OP_time_incrementの定義を、上述のように変更したの
で、VOPのピクチャタイプの並びや、隣接するVOPの時間
間隔などによらず、すべての場合において、各VOPの表
示時刻（絶対時刻）を求めることが可能となる。

【０２９５】従って、エンコーダにおいて、符号化開始
絶対時刻を、GOV単位で符号化するとともに、各VOPのmo
dulo_time_baseとVOP_time_incrementを符号化し、符号
化ビットストリームに含めることで、デコーダでは、符
号化開始絶対時刻を、GOV単位で復号するとともに、VOP
のmodulo_time_baseおよびVOP_time_incrementを復号
し、それらから、各VOPの表示時刻を復号することがで
きるので、ランダムアクセスを、GOV単位で、効率的に
行うことが可能となる。

【０２９６】なお、modulo_time_baseに付加する１の数
を、同期点の切り替わりにしたがって、単純に増加して
いくと、time_codeが示す時刻から、例えば、１時間
（３６００秒）経過後は（但し、GOVが、それだけの時
間に相当するVOPで構成されるとする）、modulo_time_b
aseは、３６００ビットの１と、１ビットの０とで構成
されるから、３６０１ビットという莫大なビット数にな
ることになる。

【０２９７】そこで、MPEG4では、modulo_time_base
は、同期点の切り替わり後に最初に現れるI/P-VOPにお
いてリセットされるように規定されている。

【０２９８】従って、例えば、図３６に示すように、GO
Vが、そのtime_codeが表す時刻である、GOVの最初の同
期点から、時刻time_code＋１秒で示される同期点まで
の間に表示されるＩ１およびＢ２、時刻time_code＋１
秒で示される同期点から、時刻time_code＋２秒で示さ
れる同期点までの間に表示されるＢ３およびＢ４、時刻
time_code＋２秒で示される同期点から、時刻time_code
＋３秒で示される同期点までの間に表示されるＰ５およ
びＢ６、時刻time_code＋３秒で示される同期点から、
時刻time_code＋４秒で示される同期点までの間に表示
されるＢ７、並びに時刻time_code＋４秒で示される同
期点から、時刻time_code＋５秒で示される同期点まで
の間に表示されるＢ８で構成される場合には、GOVの最
初の同期点から、時刻time_code＋１秒で示される同期
点までの間に表示されるＩ１およびＢ２のmodulo_time_
baseは、０Ｂとされる。

【０２９９】また、時刻time_code＋１秒で示される同
期点から、時刻time_code＋２秒で示される同期点まで
の間に表示されるＢ３およびＢ４のmodulo_time_base
は、１０Ｂとされる。さらに、時刻time_code＋２秒で
示される同期点から、時刻time_code＋３秒で示される
同期点までの間に表示されるＰ５のmodulo_time_base
は、１１０Ｂとされる。

【０３００】そして、Ｐ５は、GOVの最初の同期点か
ら、時刻time_code＋１秒で示される同期点に切り替わ
った後に、最初に表示されるP-VOPであるから、modulo_
time_baseは、０Ｂにリセットされ、その後に表示され
るＢ６のmodulo_time_baseは、Ｐ５の表示時刻を求める
ときに参照される同期点、即ち、いまの場合、時刻time
_code＋２秒で示される同期点を、GOVの最初の同期点と
みなして設定される。従って、Ｂ６のmodulo_time_base
は、０Ｂとされる。

【０３０１】その後、時刻time_code＋３秒で示される
同期点から、時刻time_code＋４秒で示される同期点ま
での間に表示されるＢ７のmodulo_time_baseは、１０Ｂ
とされ、時刻time_code＋４秒で示される同期点から、
時刻time_code＋５秒で示される同期点までの間に表示
されるＢ８のmodulo_time_baseは、１１０Ｂとされる。

【０３０２】図２９、図３０、および図３４で説明した
エンコーダ側（ＶＬＣ器３６）の処理は、上述のように
して、modulo_time_baseを設定するようになっている。

【０３０３】また、この場合、デコーダ側（ＩＶＬＣ器
１０２）では、同期点の切り替わり後に最初に表示され
るI/P-VOPを検出した場合は、それに付加されているmod
ulo_time_baseによって示される秒数を、time_codeに累
積加算して、表示時刻を求める必要があるが、即ち、例
えば、図３６に示した場合においては、Ｉ１乃至Ｐ５の
表示時刻は、time_codeに、各VOPに付加されているmodu
lo_time_baseに対応する秒数と、VOP_time_incrementと
を加算して求めれば良いが、同期点の切り替わり後に最
初に表示されるＰ５の後に表示されるＢ６乃至Ｂ８の表
示時刻は、time_codeに、各VOPに付加されているmodulo
_time_baseに対応する秒数と、VOP_time_incrementとを
加算する他に、さらに、Ｐ５のmodulo_time_baseに対応
する秒数である２秒を加算して求める必要があるが、図
３１、図３２、および図３５で説明した処理は、そのよ
うにして、表示時刻を求めるようになされている。

【０３０４】次に、以上説明したエンコーダおよびデコ
ーダは、それ専用のハードウェアによって実現すること
もできるし、コンピュータに、上述したような処理を行
わせるためのプログラムを実行させることによっても実
現することができる。

【０３０５】図３７は、図１のエンコーダまたは図１３
のデコーダとして機能するコンピュータの一実施の形態
の構成例を示している。

【０３０６】ＲＯＭ（Read Only Memory）２０１は、例
えば、ブートプログラムなどを記憶している。ＣＰＵ
（Central Processing Unit）２０２は、例えば、ＨＤ
（HardDisk）２０６に記憶されたプログラムを、ＲＡＭ
（Read Only Memory）２０３上に展開して実行すること
で、各種の処理を行うようになされている。ＲＡＭ２０
３は、ＣＰＵ２０２が実行するプログラムや、ＣＰＵ２
０２の処理上必要なデータを一時記憶するようになされ
ている。入力部２０４は、例えば、キーボードやマウス
などでなり、必要なコマンドやデータを入力するときな
どに操作される。出力部２０５は、例えば、ディスプレ
イなどでなり、ＣＰＵ２０２の制御にしたがったデータ
を表示する。ＨＤ２０６は、ＣＰＵ２０２が実行すべき
プログラム、さらには、エンコード対象の画像データ
や、エンコード後のデータ（符号化ビットストリー
ム）、デコード後の画像データなどを記憶するようにな
されている。通信Ｉ／Ｆ（Interface）２０７は、外部
との通信を制御することにより、例えば、エンコード対
象の画像データを、外部から受信したり、また、エンコ
ード後の符号化ビットストリームを外部に送信したりす
るようになされている。また、通信Ｉ／Ｆ２０７は、外
部でエンコードされた符号化ビットストリームを受信し
たり、また、デコード後の画像データを、外部に送信す
るようにもなされている。

【０３０７】以上のように構成されるコンピュータのＣ
ＰＵ２０２に、上述したような処理を行うためのプログ
ラムを実行させることにより、このコンピュータは、図
１に示したエンコーダや、図１３に示したデコーダとし
て機能することになる。

【０３０８】なお、本実施の形態では、VOP_time_incre
mentは、VOPの表示時刻を、1ms単位で表すものとした
が、VOP_time_incrementは、その他、例えば、次のよう
なものとすることも可能である。即ち、１の同期点か
ら、その次の同期点までの間を、Ｎ個に分割し、VOPの
表示時刻に対応する分割点が、１の同期点から何番目の
分割点かを表す値を、VOP_time_incrementとすることが
可能である。このようにVOP_time_incrementを定義した
場合、Ｎ＝１０００とすると、VOP_time_incrementは、
VOPの表示時刻を、1ms単位で表すものとなる。なお、こ
の場合、デコーダでは、１の同期点から、その次の同期
点までの間を幾つに分割したかという情報が必要となる
が、同期点の間の分割数は、あらかじめ定めておいても
良いし、あるいは、GOV層よりも上位の階層に含めて、
デコーダに提供するようにしても良い。

【０３０９】

【発明の効果】請求項１に記載の画像符号化装置および
請求項２に記載の画像符号化方法によれば、秒精度の時
刻を表す秒精度時刻情報が生成され、Ｉ−ＶＯＰ，Ｐ−
ＶＯＰ、またはＢ−ＶＯＰそれぞれの表示時刻の直前の
秒精度時刻情報から、それぞれの表示時刻までの時間
を、秒精度より細かい精度で表す詳細時間情報が生成さ
れる。従って、秒精度時刻情報および詳細時間情報に基
づいて、Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそ
れぞれの表示時刻を認識し、その認識結果に基づいて、
ランダムアクセスを行うことが可能となる。

【０３１０】請求項５に記載の画像復号装置および請求
項６に記載の画像復号方法によれば、Ｉ−ＶＯＰ，Ｐ−
ＶＯＰ、またはＢ−ＶＯＰそれぞれの表示時刻が、秒精
度時刻情報および詳細時間情報に基づいて求められる。
従って、その表示時刻に基づいて、ランダムアクセスを
行うことが可能となる。

【０３１１】請求項９に記載の記録媒体によれば、秒精
度の時刻を表す秒精度時刻情報を生成し、Ｉ−ＶＯＰ，
Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞれの表示時刻の直
前の秒精度時刻情報から、それぞれの表示時刻までの時
間を、秒精度より細かい精度で表す詳細時間情報を生成
し、Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰの表示
時刻を表す情報として、秒精度時刻情報および詳細時間
情報を、対応するＩ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−
ＶＯＰにそれぞれ付加することにより得られる符号化ス
トリームが記録されている。従って、秒精度時刻情報お
よび詳細時間情報に基づいて、Ｉ−ＶＯＰ，Ｐ−ＶＯ
Ｐ、またはＢ−ＶＯＰそれぞれの表示時刻を認識し、そ
の認識結果に基づいて、ランダムアクセスを行うことが
可能となる。

【図面の簡単な説明】

【図１】本発明を適用したエンコーダの一実施の形態の
構成例を示すブロック図である。

【図２】時刻によって、ＶＯの位置、大きさが変化する
ことを説明するための図である。

【図３】図１のＶＯＰ符号化部３1乃至３Nの構成例を示
すブロック図である。

【図４】空間スケーラビリティを説明するための図であ
る。

【図５】空間スケーラビリティを説明するための図であ
る。

【図６】空間スケーラビリティを説明するための図であ
る。

【図７】空間スケーラビリティを説明するための図であ
る。

【図８】ＶＯＰのサイズデータおよびオフセットデータ
の決定方法を説明するための図である。

【図９】図３の下位レイヤ符号化部２５の構成例を示す
ブロック図である。

【図１０】図３の上位レイヤ符号化部２３の構成例を示
すブロック図である。

【図１１】空間スケーラビリティを説明するための図で
ある。

【図１２】時間スケーラビリティを説明するための図で
ある。

【図１３】本発明を適用したデコーダの一実施の形態の
構成例を示すブロック図である。

【図１４】図１３のＶＯＰ復号部７２1乃至７２Nの他の
構成例を示すブロック図である。

【図１５】図１４の下位レイヤ復号部９５の構成例を示
すブロック図である。

【図１６】図１４の上位レイヤ復号部９３の構成例を示
すブロック図である。

【図１７】スケーラブル符号化によって得られるビット
ストリームのシンタクスを示す図である。

【図１８】ＶＳのシンタクスを示す図である。

【図１９】ＶＯのシンタクスを示す図である。

【図２０】ＶＯＬのシンタクスを示す図である。

【図２１】ＶＯＰのシンタクスを示す図である。

【図２２】modulo_time_baseとVOP_time_incrementとの
関係を示す図である。

【図２３】本発明によるビットストリームのシンタクス
を示す図である。

【図２４】ＧＯＶのシンタクスを示す図である。

【図２５】ＧＯＶ層のtime_code、並びにＧＯＶの先頭
のＩ−ＶＯＰのmodulo_time_baseとVOP_time_increment
の符号化方法を示す図である。

【図２６】ＧＯＶ層のtime_code、並びにＧＯＶの先頭
のＩ−ＶＯＰよりも前に位置するＢ−ＶＯＰのmodulo_t
ime_baseとVOP_time_incrementの符号化方法を示す図で
ある。

【図２７】modulo_time_baseとVOP_time_incrementの定
義を変更しない場合のそれらの関係を示す図である。

【図２８】Ｂ−ＶＯＰのmodulo_time_baseとVOP_time_i
ncrementの第１の方法による符号化処理を示す図であ
る。

【図２９】Ｉ／Ｐ−ＶＯＰのmodulo_time_baseとVOP_ti
me_incrementの第１および第２の方法による符号化処理
を示すフローチャートである。

【図３０】Ｂ−ＶＯＰのmodulo_time_baseとVOP_time_i
ncrementの第１の方法による符号化処理を示すフローチ
ャートである。

【図３１】第１および第２の方法により符号化したＩ／
Ｐ−ＶＯＰのmodulo_time_baseとVOP_time_incrementの
復号処理を示すフローチャートである。

【図３２】第１の方法により符号化したＢ−ＶＯＰのmo
dulo_time_baseとVOP_time_incrementの復号処理を示す
フローチャートである。

【図３３】Ｂ−ＶＯＰのmodulo_time_baseとVOP_time_i
ncrementの第２の方法による符号化処理を示す図であ
る。

【図３４】Ｂ−ＶＯＰのmodulo_time_baseとVOP_time_i
ncrementの第２の方法による符号化処理を示すフローチ
ャートである。

【図３５】第２の方法により符号化したＢ−ＶＯＰのmo
dulo_time_baseとVOP_time_incrementの復号処理を示す
フローチャートである。

【図３６】modulo_time_baseについて説明するための図
である。

【図３７】本発明を適用したエンコーダおよびデコーダ
の他の実施の形態の構成例を示すブロック図である。

【図３８】従来のエンコーダの一例の構成を示すブロッ
ク図である。

【図３９】従来のデコーダの一例の構成を示すブロック
図である。

【符号の説明】

１ＶＯ構成部，２1乃至２N ＶＯＰ構成部，３1
乃至３N ＶＯＰ符号化部，４多重化部，２１
画像階層化部，２３上位レイヤ符号化部，２４解
像度変換部，２５下位レイヤ符号化部，２６多
重化部，３１フレームメモリ，３２動きベクトル
検出器，３３演算器，３４ＤＣＴ器，３５
量子化器，３６ＶＬＣ器，３８逆量子化器，
３９ＩＤＣＴ器，４０演算器，４１フレームメ
モリ，４２動き補償器，５３フレームメモリ，
７１逆多重化部，７２1乃至７２N ＶＯＰ復号部，
７３画像再構成部，９１逆多重化部，９３
上位レイヤ復号部，９４解像度変換部，９５下位
レイヤ復号部，１０２ＩＶＬＣ器，１０３逆量子
化器，１０４ＩＤＣＴ器，１０５演算器，１
０６フレームメモリ，１０７動き補償器，１１
２フレームメモリ，２０１ＲＯＭ，２０２ＣＰ
Ｕ，２０３ＲＡＭ，２０４入力部，２０５出
力部，２０６ＨＤ，２０７通信Ｉ／Ｆ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｎ 5/91 Ｈ０４Ｎ 5/91 Ｎ 5/92 5/92 Ｈ 5/93 5/93 Ｚ 7/30 7/133 Ｚ

Claims

【特許請求の範囲】

【請求項１】画像を、その画像を構成するオブジェク
トごとに符号化し、その結果得られる符号化ビットスト
リームを出力する画像符号化装置であって、イントラ符号化されるオブジェクトをＩ−ＶＯＰ（Intr
a-Video Object Plane）と、イントラ符号化または前方
予測符号化のうちのいずれかで符号化されるオブジェク
トをＰ−ＶＯＰ（Predictive-VOP）と、イントラ符号
化、前方予測符号化、後方予測符号化、または両方向予
測符号化のうちのいずれかで符号化されるオブジェクト
をＢ−ＶＯＰ（Biderectionally Predictive-VOP）と、
それぞれするとき、秒精度の時刻を表す秒精度時刻情報を生成する秒精度時
刻情報生成手段と、前記Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞ
れの表示時刻の直前の前記秒精度時刻情報から、それぞ
れの表示時刻までの時間を、秒精度より細かい精度で表
す詳細時間情報を生成する詳細時間情報生成手段と、前記Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰの表示
時刻を表す情報として、前記秒精度時刻情報および詳細
時間情報を、対応する前記Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、ま
たはＢ−ＶＯＰにそれぞれ付加する付加手段とを備える
ことを特徴とする画像符号化装置。
【請求項２】画像を、その画像を構成するオブジェク
トごとに符号化し、その結果得られる符号化ビットスト
リームを出力する画像符号化方法であって、イントラ符号化されるオブジェクトをＩ−ＶＯＰ（Intr
a-Video Object Plane）と、イントラ符号化または前方
予測符号化のうちのいずれかで符号化されるオブジェク
トをＰ−ＶＯＰ（Predictive-VOP）と、イントラ符号
化、前方予測符号化、後方予測符号化、または両方向予
測符号化のうちのいずれかで符号化されるオブジェクト
をＢ−ＶＯＰ（Biderectionally Predictive-VOP）と、
それぞれするとき、秒精度の時刻を表す秒精度時刻情報を生成する秒精度時
刻情報生成ステップと、前記Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞ
れの表示時刻の直前の前記秒精度時刻情報から、それぞ
れの表示時刻までの時間を、秒精度より細かい精度で表
す詳細時間情報を生成する詳細時間情報生成ステップ
と、前記Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰの表示
時刻を表す情報として、前記秒精度時刻情報および詳細
時間情報を、対応する前記Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、ま
たはＢ−ＶＯＰにそれぞれ付加する付加ステップとを備
えることを特徴とする画像符号化方法。
【請求項３】前記秒精度時刻情報生成ステップにおい
て、前記オブジェクトのシーケンスを、１以上のグルー
プに分けて符号化する場合の、そのグループのオブジェ
クトの符号化を開始した、前記画像のシーケンス上の絶
対時刻であって、秒精度の時刻である符号化開始秒精度
絶対時刻を基準とした秒精度の時刻を、前記秒精度時刻
情報として生成することを特徴とする請求項２に記載の
画像符号化方法。
【請求項４】前記秒精度時刻情報生成ステップにおい
て、所定のオブジェクトについての秒精度時刻情報とし
て、前記符号化開始秒精度絶対時刻から、前記所定のオ
ブジェクトの表示時刻までの時間を、秒精度で表したも
の、または前記所定のオブジェクトの直前に表示される
Ｉ−ＶＯＰもしくはＰ−ＶＯＰの表示時刻から、前記所
定のオブジェクトの表示時刻までの時間を、秒精度で表
したものを生成することを特徴とする請求項３に記載の
画像符号化方法。
【請求項５】画像を、その画像を構成するオブジェク
トごとに符号化して得られる符号化ビットストリームを
復号する画像復号装置であって、イントラ符号化されるオブジェクトをＩ−ＶＯＰ（Intr
a-Video Object Plane）と、イントラ符号化または前方
予測符号化のうちのいずれかで符号化されるオブジェク
トをＰ−ＶＯＰ（Predictive-VOP）と、イントラ符号
化、前方予測符号化、後方予測符号化、または両方向予
測符号化のうちのいずれかで符号化されるオブジェクト
をＢ−ＶＯＰ（Biderectionally Predictive-VOP）と、
それぞれするととともに、秒精度の時刻を表す秒精度時刻情報と、前記Ｉ−ＶＯ
Ｐ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞれの表示時刻
の直前の前記秒精度時刻情報から、それぞれの表示時刻
までの時間を、秒精度より細かい精度で表す詳細時間情
報とが、前記表示時刻を表す情報として、対応する前記
Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰにそれぞれ
付加されているとき、前記Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞ
れの表示時刻を、前記秒精度時刻情報および詳細時間情
報に基づいて求める表示時刻算出手段と、前記Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰを、対
応する表示時刻にしたがって復号する復号手段とを備え
ることを特徴とする画像復号装置。
【請求項６】画像を、その画像を構成するオブジェク
トごとに符号化して得られる符号化ビットストリームを
復号する画像復号方法であって、イントラ符号化されるオブジェクトをＩ−ＶＯＰ（Intr
a-Video Object Plane）と、イントラ符号化または前方
予測符号化のうちのいずれかで符号化されるオブジェク
トをＰ−ＶＯＰ（Predictive-VOP）と、イントラ符号
化、前方予測符号化、後方予測符号化、または両方向予
測符号化のうちのいずれかで符号化されるオブジェクト
をＢ−ＶＯＰ（Biderectionally Predictive-VOP）と、
それぞれするととともに、秒精度の時刻を表す秒精度時刻情報と、前記Ｉ−ＶＯ
Ｐ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞれの表示時刻
の直前の前記秒精度時刻情報から、それぞれの表示時刻
までの時間を、秒精度より細かい精度で表す詳細時間情
報とが、前記表示時刻を表す情報として、対応する前記
Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰにそれぞれ
付加されているとき、前記Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞ
れの表示時刻を、前記秒精度時刻情報および詳細時間情
報に基づいて求める表示時刻算出ステップと、前記Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰを、対
応する表示時刻にしたがって復号する復号ステップとを
備えることを特徴とする画像復号方法。
【請求項７】前記秒精度時刻情報は、前記オブジェク
トのシーケンスが、１以上のグループに分けて符号化さ
れている場合の、そのグループのオブジェクトの符号化
を開始した、前記画像のシーケンス上の絶対時刻であっ
て、秒精度の時刻である符号化開始秒精度絶対時刻を基
準とした秒精度の時刻を表すことを特徴とする請求項６
に記載の画像復号方法。
【請求項８】所定のオブジェクトについての秒精度時
刻情報として、前記符号化開始秒精度絶対時刻から、前
記所定のオブジェクトの表示時刻までの時間を、秒精度
で表したもの、または前記所定のオブジェクトの直前に
表示されるＩ−ＶＯＰもしくはＰ−ＶＯＰの表示時刻か
ら、前記所定のオブジェクトの表示時刻までの時間を、
秒精度で表したものが用いられていることを特徴とする
請求項７に記載の画像復号方法。
【請求項９】画像を、その画像を構成するオブジェク
トごとに符号化して得られる符号化ビットストリームが
記録されている記録媒体であって、イントラ符号化されるオブジェクトをＩ−ＶＯＰ（Intr
a-Video Object Plane）と、イントラ符号化または前方
予測符号化のうちのいずれかで符号化されるオブジェク
トをＰ−ＶＯＰ（Predictive-VOP）と、イントラ符号
化、前方予測符号化、後方予測符号化、または両方向予
測符号化のうちのいずれかで符号化されるオブジェクト
をＢ−ＶＯＰ（Biderectionally Predictive-VOP）と、
それぞれするとき、秒精度の時刻を表す秒精度時刻情報を生成し、前記Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰそれぞ
れの表示時刻の直前の前記秒精度時刻情報から、それぞ
れの表示時刻までの時間を、秒精度より細かい精度で表
す詳細時間情報を生成し、前記Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、またはＢ−ＶＯＰの表示
時刻を表す情報として、前記秒精度時刻情報および詳細
時間情報を、対応する前記Ｉ−ＶＯＰ，Ｐ−ＶＯＰ、ま
たはＢ−ＶＯＰにそれぞれ付加することにより得られる
前記符号化ストリームが記録されていることを特徴とす
る記録媒体。