JP2006217653A

JP2006217653A - 多重化装置及び方法、並びに合成装置および方法

Info

Publication number: JP2006217653A
Application number: JP2006099977A
Authority: JP
Inventors: Teruhiko Suzuki; 輝彦鈴木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1997-09-22
Filing date: 2006-03-31
Publication date: 2006-08-17
Anticipated expiration: 2018-09-22
Also published as: IL175071A0; EP0903698A3; CN100479525C; IL144758A; CN1247029C; CN1744717A; AU8316198A; KR19990029911A; CN1224982A; EP0903698A2; IL126270A; IL126270A0; KR100563013B1; CA2247594A1; IL144759A; IL144758A0; US6611262B1; AU761202B2; SG89267A1; JP4529933B2

Abstract

【課題】VRML方式により記述されたオブジェクトと、自然画像とを同一のストリームに多重化して伝送する。
【解決手段】構文解析回路３０７は、記憶装置３０２からのシーン記述子SDに含まれているURLを抽出し、そのURLに対応するエレメンタリストリームESとオブジェクトストリーム情報IOを記憶装置３０６，３０５にそれぞれ出力する。OD発生回路３０４は、情報OIからオブジェクト記述子ODを抽出し、そのID番号OD_ID
を生成して、BIFSエンコーダ３０８に供給するとともに、オブジェクト記述子ODに付与して多重化回路３０３に出力する。多重化回路３０３は、BIFSエンコーダ３０８においてバイナリフォーマットに変換された、ID番号OD_IDが含まれるシ
ーン記述子SDと、オブジェクト記述子ODと、エレメンタリストリームESとを多重化し、多重化ストリームFSとして出力する。
【選択図】図１

Description

本発明は、動画像信号を、例えば光磁気ディスクや磁気テープなどの記録媒体に記録し、これを再生してディスプレイに表示したり、テレビ会議システム、テレビ電話システム、放送用機器、マルチメディアデータベース検索システムなど、動画像信号を伝送路を介して送信側から受信側に伝送し、受信側においてこれを受信し、表示する場合、あるいは動画像信号を編集し、記録する場合などに用いて好適な多重化装置及び方法、並びに合成装置および方法に関する。

例えば、テレビ会議システム、テレビ電話システムなどのように、動画像信号を遠隔地に伝送するシステムにおいては、伝送路を効率良く利用するため、映像信号のライン相関やフレーム間相関を利用して、画像信号を圧縮符号化するようになされている。

また、近年においては、コンピュータの処理能力が向上した事から、コンピュータを用いた動画像情報端末も普及しつつある。こうしたシステムでは、ネットワークなどの伝送路を通じて情報を遠隔地に伝送する。その場合においても、伝送路を効率よく利用するために、伝送する画像、音声、または、コンピュータデータなどの信号を圧縮符号化して伝送するようになされている。

端末側においては、伝送されてきた圧縮信号を圧縮符号化方法に対応する所定の復号方法に基づいて復号し、元の画像、音声、または、コンピュータデータなどを復元し、端末が備える表示装置や、スピーカ等に出力する。

従来においては、伝送されてきた画像信号などをそのまま表示端末に出力するのみであったが、コンピュータを用いた情報端末においては、複数の画像、音声、または、コンピュータデータを扱うことが可能であるとともに、これらに対して所定の変換処理を施した後、２次元または３次元空間に表示することが可能となってきている。このような処理は、送信側において、２次元または３次元空間の情報をある所定の方法により記述し、端末側がその記述に従って、例えば、画像信号などに対して所定の変換処理を行うことにより実現することができる。

こうした空間情報の記述の方式として代表的なものにVRML(Virtual Reality Modeling Language)がある。これは、ISO-IEC/JTC1/SC24においても標準化され、最新版のVRML2.0は、IS14772に記載されている。VRMLは、３次元空間を記述する言語であり、３次元空間の属性や形状などを記述するためのデータの集まりが定義されている。このようなデータの集まりをノードと呼ぶ。３次元空間を記述するためには、予め規定されているこれらのノードをどのように組み合わせるのかを記述する事になる。ノードには、色やテクスチャなどの属性を示すデータや、ポリゴンの形状を示すデータなどが含まれている。

コンピュータによる情報端末では、前述のVRMLなどの記述に従い、CG(Computer Graphics)により、ポリゴンなどを用いて、所定のオブジェクトを生成する。VRMLでは、こうして生成したポリゴンから構成される３次元オブジェクトに対してテクスチャを貼り付けることも可能である。静止画像の場合にはTextureが、また、動画像の場合にはMovieTextureと呼ばれるノードが定義されており、これらのノードには、貼り付けようとするテクスチャに関する情報（ファイル名、表示開始時刻または表示終了時刻など）が記載されている。ここで、図２３を参照して、テクスチャの貼り付け処理（以下、適宜テクスチャマッピング処理という）について説明する。

図２３は、テクスチャマッピング装置の構成例を示す図である。この図において、メモリ群２００は、テクスチャメモリ２００ａ、グレースケールメモリ２００ｂ、および、３次元オブジェクトメモリ２００ｃから構成されている。テクスチャメモリ２００ａは、外部から入力されたテクスチャ情報を記憶するようになされている。また、グレースケールメモリ２００ｂおよび３次元オブジェクトメモリ２００ｃは、同様に外部から入力されたテクスチャの透過度を示すkeyデータと、３次元オブジェクト情報とがそれぞれ格納されるようになされている。ここで、３次元オブジェクト情報とは、ポリゴンを生成するために必要な情報や、照明に関する情報である。

レンダリング回路２０１は、メモリ群２００の３次元オブジェクトメモリ２００ｃに記憶されている３次元オブジェクト情報からポリゴンを生成し、３次元オブジェクトを生成する。また、レンダリング回路２０１は、３次元オブジェクト情報に基づいて、メモリ２００ａとメモリ２００ｂから、テクスチャ情報とテクスチャの透明度を示すkeyデータとをそれぞれ読み出し、keyデータを参照して、テクスチャとその背景の画像とを重畳処理する。keyデータは、対応する位置のテクスチャの透過度を示しているので、換言すると、このkeyデータは、対応する位置のオブジェクトの透明度を示していることになる。

２次元変換回路２０２は、外部から供給された視点(View Point)情報に基づいて、レンダリング回路２０１により生成された３次元オブジェクトを２次元平面に写像することにより得られる２次元画像信号を出力する。なお、テクスチャが動画である場合には、前述のような処理がフレーム単位で実行されることになる。

VRMLにおいては、静止画像の高能率符号化方法の１つであるJPEG(Joint Photographic Experts Group)や動画像の高能率符号化方法の１つであるMPEG(Moving Picture Experts Group)などにより圧縮されたデータもテクスチャ情報として扱うことが可能である。このような圧縮された画像をテクスチャとして使用する場合には、圧縮方式に対応する復号処理によりテクスチャ（画像）が復号される。そして、復号画像がメモリ群２００のテクスチャメモリ２００ａに格納される。その後、前述の場合と同様の処理がなされることになる。

レンダリング回路２０１は、画像のフォーマットや、動画または静止画の区別に拘わりなく、テクスチャメモリ２００ａに格納されているテクスチャ情報を、オブジェクトの所定の位置に貼り付ける。従って、ある一つのポリゴンに貼り付けることが可能なのは、常に１つのメモリに記憶されているテクスチャである。ところで、３次元オブジェクト情報としては、各頂点の３次元座標を伝送する必要があり、それぞれの座標成分に３２ビットの実数データが必要になる。また、各３次元オブジェクトの反射などの属性にも、３２ビット以上の実数データが必要となるので、伝送すべき情報は多大なものとなる。更に、複雑な３次元オブジェクトを伝送しようとする場合や、動画像を送ろうとする場合には、伝送すべき情報は一層膨大なものとなる。従って、伝送路を経由して、以上のような３次元情報やテクスチャ情報を伝送する場合、伝送効率を向上させるためには、情報を圧縮して送る必要がある。

例えば、上述したMPEG(Moving Picture Experts Group)は、ISO-IEC/JTC1/SC2/WG11にて議論され、標準案として提案されたものであり、動き補償予測符号化とDCT（Discrete Cosine Transform）符号化を組み合わせたハイブリッド方式が採用されている。MPEGでは様々なアプリケーションや機能に対応するために、いくつかのプロファイル（機能の分類）およびレベル（画像サイズなどの量）が定義されている。最も基本となるのが、メインプロファイルのメインレベル（MP@ML)である。

図２４を参照して、MPEG方式の MP@ML のエンコーダ（画像信号符号化装置）の構成例について説明する。入力画像信号はまずフレームメモリ１に入力され、所定の順番で符号化される。符号化されるべき画像データは、マクロブロック単位で動きベクトル検出回路(ME)２に入力される。動きベクトル検出回路２は、予め設定されている所定のシーケンスに従って、各フレームの画像データを、Ｉピクチャ、Ｐピクチャ、またはＢピクチャとして処理する。シーケンシャルに入力される各フレームの画像を、Ｉ，Ｐ，Ｂのいずれのピクチャとして処理するかは、予め定められている（例えば、Ｉ，Ｂ，Ｐ，Ｂ，Ｐ，・・・Ｂ，Ｐとして処理される）。

動きベクトル検出回路２は予め定められた所定の参照フレームを参照し、動き補償を行い、その動きベクトルを検出する。動き補償（フレーム間予測）には、前方予測、後方予測、両方向予測の３種類の予測モードがある。Ｐピクチャの予測モードは前方予測のみであり、Ｂピクチャの予測モードには前方予測、後方予測、両方向予測の３種類がある。動きベクトル検出回路２は予測誤差を最小にする予測モードを選択し、そのときの予測ベクトルを発生する。

このとき、予測誤差は、例えば、符号化するマクロブロックの分散と比較され、マクロブロックの分散の方が小さい場合、そのマクロブロックでは予測は行わず、フレーム内符号化が行われる。この場合、予測モードは画像内予測（イントラ）となる。動きベクトル検出回路２で検出された動きベクトルおよび上記予測モードは、可変長符号化回路６および動き補償回路(MC)１２に入力される。

動き補償回路１２では所定の動きベクトルに基づいて予測画像データを生成し、その予測画像データが演算回路３と演算回路１０に入力される。演算回路３では符号化するマクロブロックの値と予測画像の値の差分データを演算し、 DCT 回路４に出力する。イントラマクロブロックの場合、演算回路３は符号化するマクロブロックの信号を、そのまま DCT 回路４に出力する。

DCT 回路４は、入力された信号を DCT（離散コサイン変換）処理し、 DCT 係数に変換する。このDCT係数は、量子化回路(Q)５に入力され、送信バッファ７のデータ蓄積量（バッファ蓄積量）に対応した量子化ステップで量子化された後、量子化データが可変長符号化回路６に入力される。

可変長符号化回路６は、量子化回路５より供給される量子化データを、例えばハフマン符号などの可変長符号に変換し、送信バッファ７に出力する。可変長符号化回路６にはまた、量子化回路５より量子化ステップ（スケール）、動きベクトル検出回路２より予測モード（画像内予測、前方予測、後方予測、または両方向予測のいずれが設定されたかを示すモード）および動きベクトル、が入力されており、これらも可変長符号化される。

送信バッファ７は、入力されたデータを一時蓄積し、蓄積量に対応する量子化制御信号を量子化回路５に出力する。送信バッファ７は、その符号化データ残量が許容上限値まで増量すると、量子化制御信号によって量子化回路５の量子化スケールを大きくすることにより、量子化データのデータ量を低下させる。また、これとは逆に、データ残量が許容下限値まで減少すると、送信バッファ７は、量子化制御信号によって量子化回路５の量子化スケールを小さくすることにより、量子化データのデータ量を増大させる。このようにして、送信バッファ７のオーバフローまたはアンダフローが防止される。そして、送信バッファ７に蓄積された符号化データは、所定のタイミングで読み出され、ビットストリームとして伝送路に出力される。

一方、量子化回路５より出力された量子化データは、逆量子化回路(IQ)８に入力され、量子化回路５より供給される量子化ステップに対応して逆量子化される。逆量子化回路８の出力データ（ＤＣＴ係数）は、IDCT（逆DCT）回路９に入力される。IDCT回路９は、入力されたＤＣＴ係数を逆DCT処理し、得られた出力データ（差分データ）が、演算回路１０に供給される。演算回路１０は、差分データと動き補償回路１２からの予測画像データとを加算し、その結果得られた画像データがフレームメモリ(FM)１１に記憶される。なお、イントラマクロブロックの場合には、演算回路１０は、IDCT回路９からの出力データをそのままフレームメモリ（ＦＭ）１１に供給する。

次に、図２５を用いて、MPEG の MP@ML のデコーダ（画像信号復号化装置）の構成例を説明する。伝送路を介して伝送されてきた、符号化されている画像データ（ビットストリーム）は、図示せぬ受信回路で受信されたり、再生装置で再生され、受信バッファ２１に一時記憶された後、符号化データとして、可変長復号化(IVLC)回路２２に供給される。可変長復号化回路２２は、受信バッファ２１より供給された符号化データを可変長復号し、動きベクトルと予測モードを動き補償回路２７に、また、量子化ステップを逆量子化回路２３に、それぞれ出力するとともに、復号された量子化データを逆量子化回路２３に出力する。

逆量子化回路２３は、可変長復号回路２２より供給された量子化データを、同じく可変長復号回路２２より供給された量子化ステップに従って逆量子化し、その結果得られたＤＣＴ係数をIDCT回路２４に出力する。逆量子化回路２３からのDCT係数は、IDCT回路２４で、逆DCT処理され、そして、その結果得られた差分データが演算回路２５に供給される。IDCT回路２４より供給された差分データが、Ｉピクチャのデータである場合、その出力データが画像データとして演算回路２５より出力され、演算回路２５に後に入力される画像データ（ＰまたはＢピクチャのデータ）の予測画像データ生成のために、フレームメモリ２６に供給されて記憶される。また、この画像データは、そのまま、再生画像として外部に出力される。IDCT回路２４より供給された出力データがＰまたはＢピクチャの場合、動き補償回路２７は可変長復号回路２２より供給される、動きベクトルおよび予測モードに従って、フレームメモリ２６に記憶されている画像データから予測画像データを生成し、演算回路２５に出力する。演算回路２５では IDCT 回路２４より入力される出力データ（差分データ）と動き補償回路２７より供給される予測画像データを加算し、出力画像とする。Ｐピクチャの場合、演算回路２５の出力データはまた、フレームメモリ２６に予測画像データが入力され記憶され、次に復号化する画像信号の参照画像とされる。

MPEG では MP@ML の他に、様々なプロファイルおよびレベルが定義され、また各種ツールが用意されている。スケーラビリティもMPEGのこのようなツールの１つである。MPEGでは、異なる画像サイズやフレームレートに対応するスケーラビリティを実現するスケーラブル符号化方式が導入されている。例えば空間スケーラビリティの場合、下位レイヤのビットストリームのみを復号化するとき、画像サイズの小さい画像信号を復号化し、下位レイヤおよび上位レイヤのビットストリームを復号化するとき、画像サイズの大きい画像信号を復号化する。図２６を用いて空間スケーラビリティのエンコーダを説明する。空間スケーラビリティの場合、下位レイヤは画像サイズの小さい画像信号に対応し、また上位レイヤは画像サイズの大きい画像信号に対応する。

下位レイヤの画像信号はまずフレームメモリ１に入力され、以下、MP@ML の場合と同様に符号化される。ただし、演算回路１０の出力データはフレームメモリ１１に供給され、下位レイヤの予測画像データとして用いられるだけでなく、画像拡大回路(Up Sampling)３１により上位レイヤの画像サイズと同一の画像サイズに拡大された後、上位レイヤの予測画像データにも用いられる。

上位レイヤの画像信号はまず、フレームメモリ５１に入力される。動きベクトル検出回路５２は MP@ML の場合と同様に、動きベクトルおよび予測モードを決定する。動き補償回路６２は、動きベクトル検出回路５２によって決定された動きベクトルおよび予測モードに従って、予測画像データを生成し、重み付加回路(W)３４に出力する。重み付加回路３４では予測画像データに対して重みＷを乗算し、演算回路３３に出力する。

演算回路１０の出力データは上述したように画像拡大回路３１に入力されている。画像拡大回路３１では演算回路１０によって生成された画像データを拡大して、上位レイヤの画像サイズと同一の大きさにして重み付加回路(1-W)３２に出力する。重み付加回路３２では、画像拡大回路３１の出力データに重み (1-W) を乗算し、演算回路３３に出力する。演算回路３３は、重み付加回路３２および３４の出力データを加算し、予測画像データとして演算回路５３に出力する。演算回路３３の出力データはまた、演算回路６０に入力され、IDCT 回路５９の出力データと加算された後、フレームメモリ６１に入力され、その後、符号化される画像データの予測参照データとして用いられる。演算回路５３は符号化する画像データと演算回路３３の出力データ（予測画像データ）との差分を計算し、差分データとして出力する。ただし、フレーム内符号化マクロブロックの場合、演算回路５３は符号化する画像信号を、そのまま DCT 回路５４に出力する。

DCT 回路５４は、演算回路５３の出力データを DCT（離散コサイン変換）処理してDCT係数を生成し、その結果得られたＤＣＴ係数を量子化回路５５に出力する。量子化回路５５では MP＠ML の場合と同様に、送信バッファ５７のデータ蓄積量などから決定された量子化スケールにしたがって DCT 係数を量子化し、量子化データを可変長符号化回路５６に出力する。量子化データを可変長符号化回路５６は、量子化データ（量子化された DCT 係数）を可変長符号化した後、送信バッファ５７を介して上位レイヤのビットストリームとして出力する。

量子化回路５５の出力データはまた、量子化回路５５で用いた量子化スケールで逆量子化回路５８において逆量子化される。量子化回路８の出力データ（ＤＣＴ係数）は、IDCT回路５９に供給され、逆DCT 回路５９で逆 DCT 処理された後、演算回路６０に入力される。演算回路６０では演算回路３３の出力データ（予測画像データ）と逆DCT回路５９の出力データ（差分データ）を加算し、その出力データがフレームメモリ６１に入力される。可変長符号化回路５６にはまた、動きベクトル検出回路５２で検出された動きベクトルおよび予測モード、量子化回路５５で用いた量子化スケール、重み付加回路３２および３４で用いた重み W が入力され、それぞれが符号化され、符号化データとして、バッファ５７に供給される。その符号化データがバッファ５７を介してビットストリームとして伝送される。

次に図２７を用いて空間スケーラビリティのデコーダの一例を説明する。下位レイヤのビットストリームは受信バッファ２１に入力された後、MP＠ML と同様に復号化される。ただし、演算回路２５の出力データは外部に出力されるとともに、フレームメモリ２６に蓄えられて、それ以後、復号化する画像信号の予測参照画像として用いられるだけでなく、画像信号拡大回路８１により上位レイヤの画像信号と同一の画像サイズに拡大された後、上位レイヤの予測画像データとしても用いられる。

上位レイヤのビットストリームは受信バッファ７１を介し可変長復号回路７２に供給され、可変長符号が復号される。すなわち、DCT 係数とともに、量子化スケール、動きベクトル、予測モードおよび重み係数が復号される。可変長復号回路７２により復号された量子化データは、復号された量子化スケールを用いて逆量子化回路７３において逆量子化された後、ＤＣＴ係数がIDCT回路７４に供給される。そして、ＤＣＴ係数は、IDCT 回路７４により逆DCT 処理され、出力データが演算回路７５に供給される。

動き補償回路７７は復号された動きベクトルおよび予測モードに従って、予測画像データを生成し、重み付加回路８４に入力する。重み付加回路８４では復号化された重み W を動き補償回路７７の出力データに乗算し、演算回路８３に出力する。

演算回路２５の出力データは、下位レイヤの再生画像データとして出力され、フレームメモリ２６に出力されると同時に、画像信号拡大回路８１により上位レイヤの画像サイズと同一の画像サイズに拡大された後、重み付加回路８２に出力される。重み付加回路８２では画像信号拡大回路８１の出力データに、復号された重み W を用いて(1-W) を乗算し、演算回路８３に出力する。

演算回路８３は、重み付加回路８２および８４の出力データを加算し、演算回路７５に出力する。演算回路７５は、IDCT 回路７４の出力データと演算回路８３の出力データを加算して、上位レイヤの再生画像データとして出力するとともに、フレームメモリ７６に供給して、その後、復号する画像データの予測画像データとして使用する。

以上の説明は、輝度信号の処理に適用されるが、色差信号の処理も同様に行われる。但し、この場合、動きベクトルは、輝度信号用のものを、垂直方向および水平方向に１／２にしたものが用いられる。

以上、MPEG 方式について説明したが、この他にも様々な動画像の高能率符号化方式が標準化されている。例えば、ITU-T(International Telecommunication Union,Telecommunication Standard Sector)では、主に通信用の符号化方式として、H.261 や H.263 という方式を規定している。この H.261 や H.263 も、基本的には、 MPEG 方式と同様に、動き補償予測符号化と DCT 変換符号化を組み合わせたものであり、ヘッダ情報などの詳細は異なるが、符号化装置や復号化装置は同様の構成となる。また、前述のMPEG方式においても、MPEG4と呼ばれる新たな動画像信号の高能率符号化方式の標準化が進められている。このMPEG4の大きな特徴は、画像をオブジェクト単位で符号化し（複数の画像に分けて符号化し）、また、加工処理することが可能であることである。つまり、復号側では、各オブジェクトの画像信号、複数の画像信号を合成して１つの画像を再構成することになる。

ISO-IEC/JTC1/SC29/WG11において、標準化作業が現在進められているMPEG4では、自然画像とCGとを共通の枠組みで取り扱う方式が検討されている。この方式では、３次元のオブジェクトはVRMLを用いて記述し、動画像や音声は、MPEG方式で標準化されている方式に基づいて圧縮する。また、複数の３次元オブジェクトや動画像などから構成されるシーンは、VRMLにより記述する。こうして得られたシーンの記述（以下、シーン記述と略記する）、３次元オブジェクトの記述、または、MPEG方式により圧縮された動画像や音声などにより構成されるAVデータには、多重化回路においてタイムスタンプが付加され、これらが多重化され、多重化ビットストリームとして、伝送される。受信端末では、多重化されたビットストリームを受信すると、逆多重化回路によりシーン記述、３次元オブジェクトの記述、および、AVストリーム（AVデータに対応するストリーム）が抽出され、対応するデコーダによりビットストリームが復号された後、シーン構成回路により再構成したシーンをディスプレイ上に表示する。

ところで、以上のような方法では、VRMLにより記述されたノード（３次元オブジェクトの記述およびシーン記述から構成される）と、動画像および音声などのAVデータとの関係を明確にする必要がある。例えば、ある３次元オブジェクトに対してテクスチャマッピングするのは、どのAVストリームなのかを示しておく必要がある。VRMLでは、３次元オブジェクトに貼り付ける（マッピングする）テクスチャは、URL（Uniform Resource Locator)（ネットワーク上のどのサーバのファイルであるかを示す文字列）により指定する。この指定方法は、ネットワーク上でのAVデータファイルの絶対アドレスを指定することに相当する。これに対して、MPEG方式によるシステムでは、各AVストリームは、そのストリームのIDを指定することにより識別する。これは、あるセッション（通信回線）が確立した際に、そのセッション内におけるストリームの相対パスを指定することに相当する。

即ち、VRMLでは、URL以外によりストリームを識別する方法がなく、また、MPEGのリアルタイム通信などのアプリケーションでは、IDによる指定が要求されるので、これらの間に不整合が存在するという課題があった。視点を変えると、VRMLでは、クライアントが情報を要求するモデルを想定している。一方、MPEGではサーバが主導して放送などの情報を送信するモデルを想定している。従って、それぞれのモデルが異なるため、VRML2.0との互換を保持したまま、コンピュータグラフィックスと自然画像との融合が困難であるという課題があった。

本発明は、以上のような状況に鑑みてなされたものであり、VRMLにより記述されたコンピュータグラフィックスと、MPEG方式により圧縮された画像などを同一のストリームに多重化して伝送することを可能とするものである。

本発明の第１の側面の多重化装置は、ＡＶデータ、２次元または３次元データの複数の情報に対応する複数のノードで構成されるシーン記述子及び上記ＡＶデータに関する情報である複数のオブジェクト記述子を多重化する多重化装置において、上記複数のノード中の文字列を読み出し、該文字列に対応するＡＶデータに関する情報である上記複数のオブジェクト記述子を生成する生成手段と、上記複数のノード中の文字列を所定の手法で置換する置換手段と、上記生成手段により生成された上記複数のオブジェクト記述子、上記置換手段より置換された上記複数のノード及び上記ＡＶデータとを符号化し、同一のストリームに多重化する多重化手段とを備えることを特徴とする。

上記文字列は、ＵＲＬであり、上記ＵＲＬの表現形式は、ASCIIフォーマットであるようにすることができる。

上記所定の手法として、上記複数のノード中の文字列をバイナリフォーマットの文字列に変換することができる。

本発明の第１の側面の多重化方法は、ＡＶデータ、２次元または３次元データの複数の情報に対応する複数のノードで構成されるシーン記述子及び上記ＡＶデータに関する情報である複数のオブジェクト記述子を多重化する多重化方法において、上記複数のノード中の文字列を読み出し、該文字列に対応するＡＶデータに関する情報である上記複数のオブジェクト記述子を生成する生成ステップと、上記複数のノード中の文字列を所定の手法で置換する置換ステップと、上記生成ステップの処理で生成された上記複数のオブジェクト記述子、上記置換ステップより置換された上記複数のノード及び上記ＡＶデータとを符号化し、同一のストリームに多重化する多重化ステップとを含むことを特徴とする。

本発明の第１の側面の多重化装置または多重化方法においては、ＡＶデータ、２次元または３次元データの複数の情報に対応する複数のノード中の文字列が読み出され、該文字列に対応するＡＶデータに関する情報である複数のオブジェクト記述子が生成され、上記複数のノード中の文字列が所定の手法で置換され、生成された上記複数のオブジェクト記述子、置換された上記複数のノード及び上記ＡＶデータとが符号化され、同一のストリームに多重化される。

本発明の第２の側面の合成装置は、符号化されたＡＶデータ、２次元または３次元データの複数の情報に対応する複数のノードで構成されるシーン記述子及び上記ＡＶデータに関する情報である複数のオブジェクト記述子とを多重化したストリームを分離し、該分離された上記複数のノード及び上記複数のオブジェクト記述子に基づき上記ＡＶデータを復元する合成装置において、上記複数のノードの文字列を所定の手法により解析を行う解析手段と、上記解析手段により出力された結果と上記複数のオブジェクト記述子とを照合する照合手段と、上記複数のオブジェクト記述子の解析結果を用いて上記符号化されたＡＶデータを復号する復号手段と、上記照合手段の結果を用いて上記復号されたＡＶデータと上記２次元または３次元データとを合成する合成手段とを備えることを特徴とする。

本発明の第２の側面の合成方法は、符号化されたＡＶデータ、２次元または３次元データの複数の情報に対応する複数のノードで構成されるシーン記述子及び上記ＡＶデータに関する情報である複数のオブジェクト記述子とを多重化したストリームを分離し、該分離された上記複数のノード及び上記複数のオブジェクト記述子に基づき上記ＡＶデータを復元する合成方法において、上記複数のノードの文字列を所定の手法により解析を行う解析ステップと、上記解析ステップの処理で出力された結果と上記複数のオブジェクト記述子とを照合する照合ステップと、上記複数のオブジェクト記述子の解析結果を用いて上記符号化されたＡＶデータを復号する復号ステップと、上記照合ステップでの結果を用いて上記復号されたＡＶデータと上記２次元または３次元データとを合成する合成ステップとを含むことを特徴とする。

本発明の第２の側面の合成装置または方法においては、２次元または３次元データの複数の情報に対応する複数のノードの文字列が所定の手法により解析され、解析結果とＡＶデータに関する情報である複数のオブジェクト記述子とが照合され、上記複数のオブジェクト記述子の解析結果を用いて上記符号化されたＡＶデータが復号され、照合結果を用いて上記復号されたＡＶデータと上記２次元または３次元データとが合成される。

本発明の第１の側面によれば、例えば、VRMLデータにより記述されたオブジェクトと、MPEGなどにより圧縮された自然画像とを同一のストリームに多重化して伝送することが可能となる。

本発明の第２の側面によれば、例えば、VRMLデータにより記述されたオブジェクトと、MPEGなどにより圧縮された自然画像とが同一のストリームに多重化されて伝送されたデータを簡単に復号することが可能となる。

図１は、本発明の符号化装置の第１の実施の形態の構成例を示すブロック図である。

この図において、シーンコントロール回路３０１は、要求信号（Scene Request）REQを入力し、記憶装置３０２に記憶されているシーン記述子SD（詳細は後述する）を参照して、どのAVオブジェクト（３次元オブジェクト、自然画像、または、音声など）を伝送するかを決定し、シーン要求信号（Scene Request）SREQを記憶装置３０２に対して出力するようになされている。記憶装置３０２は、２次元または３次元のシーンを記述するシーン記述子SDを記憶している。ここで、シーン記述子SDは、VRML2.0に準拠したASCII（アスキー）フォーマットで記述されている。

記憶装置３０６は、動画像、静止画像、または、音声などのAVデータ（エレメンタリストリーム（ES））を記憶している。また、記憶装置３０５は、記憶装置３０６に記憶されているAVオブジェクトをデコードする際に必要な情報（オブジェクトストリーム（OI））を記憶している。ここで、情報OIは、例えば、AVオブジェクトをデコードする際に必要なバッファサイズや、各アクセスユニットのタイムスタンプなどである。情報OIには、各AVオブジェクトに対応しているAVデータの情報が全て含まれている。

ここで、図２を参照して、シーン記述子、AVデータ、および、３次元オブジェクトの関係について説明する。図２の例では、画面３５２に長方形の画像シーケンスとコンピュータグラフィックス（以下、適宜ＣＧと略記する）により生成された三角錐が表示されている。この例では、三角錐のオブジェクトには、テクスチャが貼り付けられていないが、他の３次元オブジェクトと同様にテクスチャを貼り付けるようにしてもよい。なお、この貼り付けるテクスチャは静止画でもよいし、また、動画でもよい。

シーン記述子SD３５０は、ノードと呼ばれる記述群から構成されている。まず、画像全体に各オブジェクトをどのように配置するかを記述した親ノードSD０がある。この親ノードSD０の子ノードとして、三角錐に関する情報がノードSD１に記述されている。また、親ノードSD０の子ノードとして、画像が貼り付けられる長方形の平面に関する情報がノードSD２に記述されている。

図２の例では、画像信号が３つのビデオオブジェクトVO（背景、太陽、および、人物）から構成されている。背景に関する情報は、ノードSD２に記述されている。また、太陽を貼り付けるための長方形の平面に関する情報が、ノードSD３に記述されている。更に、人物を貼り付ける平面に関する情報が、ノードSD４に記載されている。各ノードには、対応するAVデータのファイルの所在アドレスを示すURLが記述されている。なお、ノードSD３およびノードSD４は、ノードSD２の子ノードとなる。

SD０乃至SD４の全てのノードをまとめて１つのシーン記述子SDが構成されている。以下では、全てのノードの記述の集まりをシーン記述と呼び、それぞれのノードをオブジェクト（２次元または３次元オブジェクト）と呼ぶ。従って、各ノードは１つの２次元または３次元オブジェクトに対応する。また、それぞれのオブジェクトには、そのオブジェクトに関連するAVデータを記述したオブジェクト記述子ODが１対１に対応することになる。

構文解析回路３０７は、記憶装置３０２から出力されたノードに記述されているURL（AVデータのファイルの所在アドレスを示す）を読み出し、そのURLに対応するAVデータの出力を要求する要求信号（ES Request）ESREQを記憶装置３０６に対して出力する。また、構文解析回路３０７は、URLに対応するAVデータに関する情報が記述されているオブジェクトストリーム情報OIの出力を要求する要求信号（OI Request）OIREQを記憶装置３０５に対して出力するようになされている。

OD（オブジェクト記述子）発生回路３０４は、記憶装置３０５から出力されたAVオブジェクトに関する情報OIを入力し、要求信号OIREQにより要求されたAVデータの情報のみをオブジェクト記述子ODとして抽出し、多重化回路３０３に出力するようになされている。また、OD発生回路３０４は、抽出した各オブジェクト記述子ODに対してID番号OD_IDを発生し、オブジェクト記述子OD中に記録して出力するとともに、生成されたID番号OD_IDをBIFSエンコーダ３０８に対して出力するようになされている。

BIFSエンコーダ３０８は、記憶装置３０２から出力されるアスキーフォーマットのシーン記述子SDを、バイナリフォーマットに変換するとともに、OD発生回路３０４から出力されるID番号OD_IDで、シーン記述子SDに含まれているURLを置換するようになされている。そして、BIFSエンコーダ３０８は、その置換されたバイナリフォーマットに変換されたシーン記述子B_SDを多重化回路３０３に出力するようになされている。

多重化回路３０３は、記憶装置３０６に記憶されているAVデータ、BIFSエンコーダ３０８によりバイナリフォーマットに変換されたシーン記述子B−SD、および、OD発生回路３０４により生成されたオブジェクト記述子ODを所定の順序で多重化し、多重化ビットストリームとして出力するようになされている。なお、この多重化回路３０３の詳細な構成例については図７を参照して後述する。

次に、以上の実施の形態の動作について説明する。ユーザが図示せぬ外部の端末から、所定のAVオブジェクトを表示させる要求信号を入力すると、要求信号REQがシーンコントロール回路３０１に供給される。要求信号REQが供給されたシーンコントロール回路３０１は、要求信号に従って、記憶装置３０２に記憶されているシーン記述子SDを参照して、どのAVオブジェクトを伝送するかを決定し、シーン要求信号SREQを記憶装置３０２に対して出力する。シーン要求信号SREQが供給された記憶装置３０２は、対応するシーン記述子SD（アスキーフォーマットで記述されている）を読み出し、構文解析回路３０７とBIFSエンコーダ３０８とに供給する。

図３は、動画をテクスチャとして貼り付けるためのシーン記述子SD（アスキーフォマットで記述されている）の一例を示している。この例では、第６行目に、貼り付けようとする動画ファイルのアドレスを示すURLが記述されている。図４は、静止画をテクスチャとして貼り付けるためのシーン記述子（アスキーフォーマットで記述されている）の一例を示している。この例では、第２行目に、貼り付けようとする静止画ファイルのアドレスを示すURLが記述されている。なお、図３および図４の書式は、VRMLのノード記述に準拠している。

構文解析回路３０７は、供給されたシーン記述子SDを構成するノードに含まれているURL（AVデータのファイルのアドレスを示す）を読み出し、そのURLに対応するAVデータを出力させるための要求信号ESREQを記憶装置３０６に対して出力する。その結果、記憶装置３０６からは、対応するAVデータが出力され、多重化回路３０３に供給される。

また、構文解析回路３０７は、ノードに含まれているURLが示すAVデータに関する情報OIの出力を要求する要求信号OIREQを記憶装置３０５に対して出力する。その結果、記憶装置３０５からは、URLに対応する情報OIが出力され、OD発生回路３０４に供給される。

OD発生回路３０４は、記憶装置３０５から供給されたAVオブジェクトに関する情報OIから、OIREQにより要求された情報のみをオブジェクト記述子ODとして抽出するとともに、ID番号OD_IDを発生する。そして、ID番号OD_IDがオブジェクト記述子OD中に記録されて、オブジェクト記述子ODが多重化回路３０３に対して出力される。また、OD発生回路３０４は、各オブジェクト記述子ODに対して生成されたID番号OD_IDをBIFSエンコーダ３０８に対して出力する。

BIFSエアスキーフォーマット記憶装置３０２から供給されたアスキーフォーマットのシーン記述子SDを、所定の手法に基づいて、バイナリフォーマットのデータに変換するとともに、OD発生回路３０４から出力されるID番号OD_IDで、シーン記述子SDに含まれているURLを置換する。そして、バイナリフォーマットに変換されたシーン記述子B_SDを多重化回路３０３に出力する。なお、バイナリフォーマットは、ISOにおいて標準化されているMPEG4WDと呼ばれる文書（文書番号Ｎ１８２５）にその詳細が記述されている。なお、以下では、その一例について説明する。

図５は、動画をテクスチャとして貼り付けるためのシーン記述子（アスキーフォーマット（図３参照））がバイナリフォーマットに変換されたものを示している。この図において、第２９行目に示すObjectDescriptorIDは、このノードに貼り付ける動画像のID番号OD_IDを示すフラグである。BIFSエンコーダ３０８は、OD発生回路３０４より供給されるID番号OD_IDを、この部分に書き込む。その結果、アスキーフォーマットではURLにより記述されていたAVデータのアドレスが、ID番号OD_IDに変換される。図６は、静止画をテクスチャとして貼り付けるためのシーン記述子（アスキーフォーマアスキーフォーマットがバイナリフォーマットに変換されたものを示している。この例では、第１７行目にObjectDescriptorIDが示されており、この部分にID番号OD_IDが書き込まれる。以上のようにして生成されたバイナリフォーマットに変換されたシーン記述子B_SDは、多重化回路３０３に供給されることになる。多重化回路３０３は、記憶装置３０６から供給されるAVデータ、BIFSエンコーダ３０８から供給されるバイナリフォーマットに変換されたシーン記述子B_SDおよびOD発生回路３０４から供給されるオブジェクト記述子ODを所定の順序で多重化し、多重化ビットストリームFSとして出力する。

図７は、多重化回路３０３の詳細な構成例を示す図である。この図において、スタートコード生成回路３０３ａは、ストリームのスタート位置を示すスタートコードを生成して出力する。

例えば、記憶回路３０６から出力されたＮ個のAVデータES１乃至ESＮが供給される場合、それぞれのAVデータは、対応する端子にそれぞれ供給される。また、BIFSエンコーダ３０８から出力されたバイナリフォーマットのシーン記述子SDと、OD発生回路３０４から出力されたオブジェクト記述子ODも対応する端子に供給される。更に、スタートコード発生回路３０３ａから出力されるスタートコードも対応する端子に供給される。

多重化回路３０３は、先ず、スタートコード発生回路３０３ａが接続されている端子にスイッチを接続し、スタートコードを出力する。次に、スイッチはシーン記述子SDが入力されている端子に切り換えられ、シーン記述子SDが出力される。続いて、オブジェクト記述子ODが入力されている端子にスイッチが切り換えられ、オブジェクト記述子ODが出力される。最後に、AVデータが入力される端子にスイッチがデータのサイズに応じて順次接続され、AVデータES１乃至ESＮが出力される。

このように、多重化回路３０３は、スタートコード、シーン記述子SD、オブジェクト記述子OD、および、AVデータを、スイッチによって選択することにより、多重化ビットストリームFSとして外部に出力する。多重化されたビットストリームFSは、伝送路を介して、受信端末に供給されることになる。

次に、図８を参照して、図１に示す符号化装置に対応する復号装置の実施の形態の構成例について説明する。

図８は、本発明の復号装置の実施の形態の構成例を示すブロック図である。この図において、逆多重化回路４０４は、多重化されたビットストリームFSを受信し、その多重化ビットストリームFSを構成する各ビットストリームを分離抽出するようになされている。

図９は、逆多重化回路４０４の構成例を示す図である。この図に示すように、逆多重化回路４０４は、スタートコードを検出して、以降の各ビットストリームを認識する。入力された多重化ビットストリームFSは、スイッチにより、ストリーム記述子SDとオブジェクト記述子ODに分離されてそれぞれの端子から出力されるようになされている。また、同様にして、AVデータのデータストリームであるES１乃至ESＮが分離され、それぞれ対応する端子から出力されるようになされている。

図８に戻って、構文解析回路４０６は、逆多重化回路４０４により分離されたオブジェクト記述子ODを入力し、AVデータをデコードするのに必要な、デコーダの種類と個数とを同定し、各AVデータに対応するデータストリームを対応するデコーダに対して供給するように制御する。また、構文解析回路４０６は、各ビットストリームをデコードするために必要なバッファの容量などをオブジェクト記述子ODから読み出し、デコーダ４０７乃至４０９に初期情報Initとして供給する。構文解析回路４０６は、各ビットストリームES１乃至ESＮが、どのノードに所属するものであるかを特定するために、オブジェクト記述子ODに記述されているビットストリームを復号するデコーダに対して、各オブジェクト記述子のID番号OD_IDを出力するようになされている。

デコーダ４０７乃至４０９は、エンコードに対応する所定のデコード方法に基づいて、ビットストリームを復号し、得られたビデオデータまたはオーディオデータを再構成回路４１１に対して出力する。また、デコーダ４０７乃至４０９は、復号されたデータ（ビデオデータまたはオーディオデータ）が、どのノードに所属するのかを示すOD_IDをそれぞれ再構成回路４１１に対して出力する。更に、デコーダ４０７乃至４０９は、入力されたビットストリームが画像データである場合には、その画像の大きさ（SZ）と表示位置（PCS）を示す情報および画像の透過度を表すデータ（Keyデータ）がビットストリーム中に含まれてり、そのビットストリームからその画像の大きさ（SZ）と表示位置（PCS）を示す情報を復号するとともに、そのビットストリームから画像の透過度を示すデータ（keyデータ）を復号し、再構成回路４１１に対して出力するようになされている。

なお、以上の実施の形態では、Ｎ＝３の場合に対応する、３つのデコーダ４０７乃至４０９を備えるようにしたが、処理するデータに応じて、その個数を変更してもよいことは言うまでもない。また、構文解析回路４１０は、バイナリフォーマットのシーン記述子B_IDを構文解析し、その解析結果であるノードを再構成回路４１１に供給する。さらに、構文解析回路４１０は、オブジェクト記述子ODの中のID番号OD_IDに対応するシーン記述子B_SDの中のID番号を読み出し、それらを再構成回路４１１に供給する。

図１０は、再構成回路４１１の詳細な構成例を示す図である。この図に示すように、再構成回路４１１は、合成回路３５１を有しており、合成回路３５１で生成された画像信号は、ディスプレイ３５２に供給される。合成回路３５１は、デコーダ４０７乃至４０９より供給される、ノードデータ、構文解析回路４１０から供給されるID番号OD_ID、画像データ、keyデータ、画像の大きさ（SZ）と表示位置（PCS）を示す情報、およびID番号OD_IDを入力し、ID番号OD_IDに対応する画像データを読み込み、keyデータ、画像の大きさ（SZ）と表示位置（PCS）を示す情報に応じて、画像データをノードに貼り付け、得られた画像データに対応する画像信号をディスプレイ３５２に出力するようになされている。なお、図１０において、合成回路３５１とディスプレイ３５２が再構成回路４１１として示されているが、これは、合成回路３５１で生成された画像が、このように、ディスプレイ３５２に表示されることを示しているためで、実際には、ディスプレイ３５２は、再構成回路４１１には、含まれていない。

図１１は、合成回路３５１の詳細な構成例を示すブロック図である。この図に示すように、合成回路３５１は、オブジェクト合成回路５００乃至５０２および２次元変換回路５０３により構成されている。また、オブジェクト合成回路５００は、メモリ群５００−１とレンダリング回路５００−２により構成されている。更に、メモリ群５００−１は、テクスチャメモリ５００−１ａ、グレースケールメモリ５００−１ｂ、および、３次元オブジェクトメモリ５００−１ｃにより構成されている。

例えば、テクスチャメモリ５００−１ａは、デコーダ４０７から供給されたAVデータをテクスチャデータとして記憶するようになされている。また、グレースケールメモリ５００−１ｂは、デコーダ４０７から供給された透過度を示すkeyデータと、ID番号OD_IDとを記憶するようになされている。更に、３次元オブジェクトメモリ５００−１ｃは、構文解析回路４１０から出力された３次元オブジェクト情報（ノードデータ）を記憶するようになされている。ここで、３次元オブジェクト情報とは、ポリゴンの形成情報やポリゴンを照明するための照明情報などである。画像の大きさ（SZ）および表示位置（PCS）を示す情報もまた、所定のメモリ、例えば、グレースケールメモリ５００−１に記憶される。

レンダリング回路５００−２は、３次元オブジェクトメモリ５００−１ｃに記憶されているノードに基づいて、３次元オブジェクトをポリゴンにより生成する。また、レンダリング回路５００−２は、テクスチャメモリ５００−１ａおよびグレースケールメモリ５００−１ｂより、テクスチャおよび透過度を示すkeyデータをそれぞれ入力し、対応するノードに対してテクスチャを貼り付けた後、keyデータに応じた処理を施し、テクスチャが所定の透明度を持つようにする。そして、得られたデータは、２次元変換回路５０３に出力される。さらに、画像の大きさ（SZ）および表示位置（PCS）を示す情報が２次元変換回路５０３に供給される。なお、オブジェクト合成回路５０１およびオブジェクト合成回路５０２は、オブジェクト合成回路５００と同様の構成とされているので、その説明は省略する。

２次元変換回路５０３は、外部より供給される視点（View Point）情報および各オブジェクト合成回路５００乃至５０２から供給される画像の大きさ（SZ）および表示位置（PCS）を示す情報に応じて、各オブジェクト合成回路５００乃至５０２から出力される、テクスチャが貼り付けられたオブジェクトを、２次元平面上に写像して得られる２次元画像信号に変換する。そして、得られた２次元画像信号は、ディスプレイ３５２に供給されて表示される。

次に、以上の実施の形態の動作について説明する。テクスチャ（画像データ）が、オブジェクトに張り付けられる時、テクスチャとオブジェクトの関係を、認識する必要性がある。その関係を認識するために、オブジェクト記述子ODの中に記述されているID番号OD_IDと、シーン記述子B_SDの中に記述されているID番号OD_IDが使用される。従って、再構成回路４１１に出力されるデータは、それらのデータが対応するオブジェクト合成回路５００乃至５０２に供給される前に、最初に照合回路３６０に供給される。そして、照合回路３６０で、図８に示すように、オブジェクト記述子ODに記述されているID番号OD_IDとシーン記述子B_SDに記述されているID番号とが照合され、それによって、関係が見つけられる。伝送路を介して伝送された、多重化されたビットストリームFSは、逆多重化回路４０４に供給される。

逆多重化回路４０４は、スタートコードを検出して、以降の各ビットストリームを確認する。そして、逆多重化回路４０４は、図９に示すスイッチを適宜切り換えることによって、多重化されたビットストリームFSから、AVデータに対応するストリームES１乃至ESＮ、シーン記述子SD、および、オブジェクト記述子ODを分離して出力する。そして、オブジェクト記述子ODは、構文解析回路４０６に供給され、また、ビットストリームES１乃至ESＮは、デコーダ４０７乃至４０９に、更に、バイナリフォーマットのシーン記述子B_SDは、構文解析回路４１０に供給される。

構文解析回路４１０は、逆多重化回路４０４から出力されたバイナリフォーマットのシーン記述子B_SDを構文解析し、その結果（３次元オブジェクト情報（ノードデータ））を再構成回路４１１に供給する。また、構文解析回路４１０は、ノードに貼り付けるAVデータのオブジェクト記述子ODのID番号OD_IDを復号し、再構成回路４１１に供給する。

構文解析回路４０６は、オブジェクト記述子ODを入力し、ビットストリームをデコードするために必要なデコーダの種類と数を同定し、ビットストリームES１乃至ESＮを対応するデコーダに供給する。また、構文解析回路４０６は、各ビットストリームをデコードするために必要なバッファの容量および各アクセスユニットのタイムスタンプなどをオブジェクト記述子ODから読み出し、初期情報（Init)としてデコーダ４０７乃至４０９に供給する。その結果、各デコーダ４０７乃至４０９は、初期情報（Init）として供給された値を参照して、初期化処理を行うことになる。更に、構文解析回路４０６は、各デコーダ４０７乃至４０９により処理されるビットストリームがどのオブジェクトに属するのかを示すために、各オブジェクト記述子のID番号OD_IDを出力する。

デコーダ４０７乃至４０９は、構文解析回路４０６から供給される初期化情報に従って、バッファの確保などの初期化処理を実行する。そして、逆多重化回路４０４から出力されたAVデータに対応するビットストリームが入力されると、デコーダ４０７乃至４０９は、エンコードに対応する所定のデコード方法に基づいてビットストリームを復号し、得られたビデオデータまたはオーディオデータを再構成回路４１１に対して出力する。

また、デコーダ４０７乃至４０９は、そのデコーダにおいて復号されたビットストリームがどのオブジェクトに対応するかを示すID番号OD_IDを、再生構成回路４１１に対して出力する。更に、デコーダ４０７乃至４０９は、デコードされたビットストリームが画像である場合には、画像の大きさ（SZ）および表示位置（PCS）を示す情報と、画像の透過度を示すデータ（keyデータ）とを出力する。

再構成回路４１１に出力された各種データは、図１１に示すように、対応するオブジェクト合成回路５００乃至５０２に供給される。１つのノードには、１つのオブジェクト合成回路が対応している。上述したように、各種のデータが対応するオブジェクト合成回路５００乃至５０２に供給される時、オブジェクトが、それぞれのデコーダ４０７乃至４０９によって処理されるどのビットストリームに対応するかを見つける必要性がある。従って、照合回路３６０によって、オブジェクト記述子ODに記述されたID番号OD_IDとシーン記述子B_SDに記述されたID番号OD_IDが、各データが対応するオブジェクト合成回路５００乃至５０２に供給される前に照合される。それによって、デコード信号（ビットストリーム）と３次元オブジェクト情報（ノード）との関係を認識することができる。各オブジェクト合成回路５００乃至５０２は、ノードに示されるID番号OD_IDを有するデコード信号をデコーダ４０７乃至４０９より受け取る。そして、受け取ったデコード信号が画像データである場合には、生成する２次元または３次元オブジェクトに対して、その画像を貼り付ける。

例えば、オブジェクト合成回路５００を例に挙げて説明すると、オブジェクトに貼り付けるテクスチャデータは、テクスチャメモリ５００−１ａに記憶される。また、keyデータとID番号OD_IDは、グレースケールメモリ５００−１ｂに供給されて、記憶される。更に、ノードは、３次元オブジェクトメモリ５００−１ｃに記憶される。さらに、画像の大きさ（SZ）および表示位置（PCS）を示す情報が所定の位置、例えば、グレースケールメモリ５００−１ｂに記憶される。また、ID番号OD_IDは、上述したように、ノードを認識するために使用される。

レンダリング回路５００−２は、３次元オブジェクトメモリ５００−１ｃに記憶されているノードを読み出し、対応するオブジェクトをポリゴンを用いて生成する。そして、テクスチャメモリ５００−１ａから入力した画像データを、グレースケールメモリ５００−１ｂから入力した透過度を示すkeyデータを参照して、得られたポリゴンに対して貼り付け、出力する。また、画像の大きさ（SZ）および表示位置（PCS）を示す信号は、グレースケールメモリ５００−１ｂから読み出されて、２次元変換回路５０３に対して出力される。同様の処理は、オブジェクト合成回路５０１およびオブジェクト合成回路５０２においても実行される。

２次元変換回路５０３には、オブジェクト合成回路５００乃至５０２から、テクスチャを貼り付けた２次元または３次元オブジェクトが供給される。２次元変換回路５０３では、外部より供給される視点情報、画像の大きさ（SZ）、および表示位置（PCS）を示す信号に基づいて、３次元オブジェクトを２次元平面に写像することによって得られる２次元画像信号に変換する。２次元画像信号に変換された３次元オブジェクトは、ディスプレイ３５２に表示出力される。

なお、全てのオブジェクトが２次元オブジェクトである場合には、各レンダリング回路５００−２乃至５０２−２からの出力をその透過度（keyデータ）に従って合成し、出力する。その場合、視点による変換処理は実行されない。

図１２乃至図１４は、オブジェクト記述子ODの構成を示す図である。図１２は、オブジェクト記述子ODの全体構成を示す図である。この図において、第３行目に示されているNodeIdは、その記述子のID番号を示す１０ビットのフラグである。これは、前述のID番号OD_IDに対応している。また、第４行目に示されているstreamCountは、８ビットのフラグで、そのオブジェクト記述子ODに含まれているAVデータ（ビットストリームES）の個数を示している。従って、このstreamCountに示されている個数だけ、ビットストリームESの復号時に必要な情報であるES_Descriptorが伝送される。更に、第５行目に示されているextentionFlagは、その他の情報を伝送するか否かを示すフラグで、この値が“１”である場合には、その他の記述子が伝送される。続いて、第８行目に示されているES_Descriptorは、各ビットストリームに関する情報を示す記述子である。

図１３にES_Descriptorの詳細を示す。この図において第３行目に示されているES_Numberは、ビットストリームを識別するためのID番号を示す５ビットのフラグである。また、第６行目に示されているStreamTypeは、そのビットストリームのフォーマットを示し、例えば、MPEG2ビデオなどのデータを示す８ビットのフラグである。第７行目に示されているQoS_Descriptorは、伝送の際に、ネットワークへの要求を示す８ビットのフラグである。第８行目に示されているESConfigParamsは、そのビットストリームを復号するのに必要な情報が記述されている記述子であり、その詳細を図１４に示す。なお、ESConfigParamsの詳細は、MPEG4SystemVMに詳細が記述されている。

以上の実施の形態によれば、符号化装置において、３次元空間構成データ（VRMLデータ）を構成するノードに含まれている位置指定情報（URL）を、その位置指定情報（URL）によって指定されるAVデータに対応するオブジェクト記述子ODのID番号OD_IDによって置換し、復号側では、ノードに含まれているID番号OD_IDに対応するオブジェクト記述子ODを探索することにより、対応するAVデータを検出（認識）するようにしたので、シーンや３次元オブジェクトの記述方法を、例えば、VRML方式と互換をとったまま、CGと自然画像とを同一のストリームに多重化して伝送することが可能となる。

なお、以上の実施の形態においては、符号化されたオーディオおよびビデオデータ（AVデータ）は、記憶装置３０６に記憶されている構成としたが、例えば、このような記憶装置を介さずに、オーディオまたはビデオの符号化装置から直接入力するようにしてもよい。

また、以上の実施の形態においては、AVデータ、オブジェクト記述子OD、および、シーン記述子SDをそれぞれ個別の記憶装置に記憶するようにしたが、これらを同一の記憶装置または記録媒体に記憶させるようにしてもよい。

更に、シーン記述子SDは、ファイルとして予め記憶させておく必要があるが、AVデータ、および、オブジェクトストリーム情報OIは、伝送時にリアルタイムで発生させても差し支えない。

次に、図１５を参照して本発明の符号化装置の第２の実施の形態の構成例について説明する。なお、この図において、図１に示す場合と対応する部分には、同一の符号が付してあるのでその説明は省略する。

この実施の形態においては、図１の場合と比較して、URL変更回路３０９が新たに追加されている。また、構文解析回路３０７の出力データおよびOD発生回路３０４からのID番号OD_IDがURL変更回路３０９に供給されているとともに、URL変更回路３０９の出力データがBIFSエンコーダ３０８に供給されている。なお、その他の構成は、図１に示す場合と同様である。

URL変更回路３０９は、OD発生回路３０４から出力されたID番号OD_IDを、対応するアスキーフォーマットの文字列に変換して出力するようになされている。例えば、記憶装置３０２に記憶されている所定のノードに貼り付けようとするAVデータをデコードする際に必要なオブジェクトストリーム情報OIが記載されているファイルのアドレスが以下の場合を考える。

http://serverA/AV_scene1/object_file.1 ・・・（１）

この場合、記憶装置３０５からオブジェクトストリーム情報OIが読み出され、このオブジェクトストリーム情報OIに対応するオブジェクト記述子ODのID番号OD_IDがOD発生回路３０４より供給される。URL変更回路３０９は、このID番号OD_IDを入力し、これに基づきURLをアスキーフォーマットの所定の文字列に書き換える。例えば、ID番号OD_IDが４である場合には、前述の式（１）は、以下のように書き換えられる。

mpeg4://4 ・・・（２）

この場合、URLを示す文字列において、“mpeg”という文字列がその先頭にある場合には、それに続く文字列“://”の直後に配置されている数字を示す文字列（この例では、文字“4”）がID番号OD_IDを示している。

ところで、記憶装置３０２に記憶されているノードに記述されているURLが、図１５に示す符号化装置とは異なる他の符号化装置（ネットワーク上の異なるサーバ）に存在するファイルを指定している場合がある。そのような場合には、URL変更回路３０９は、その変更処理を停止する。その結果、例えば、式（１）に示すURLがそのままBIFSエンコーダ３０８に供給されることになる。

次に、以上の実施の形態の動作について簡単に説明する。要求信号REQを入力したシーンコントロール回路３０１は、要求信号REQに従って、記憶装置３０２に記憶されているシーン記述子SDを参照して、どのAVオブジェクトを伝送するかを決定し、シーン要求信号SREQを記憶装置３０２に対して出力する。

シーン要求信号SREQを入力した記憶装置３０２は、対応するシーン記述子SD（アスキーフォーマットで記述されている）を読み出し、構文解析回路３０７とBIFSエンコーダ３０８とに供給する。

構文解析回路３０７は、供給されたシーン記述子SDを構成するノードに含まれているURL（AVデータのファイルのアドレスを示す）を読み出し、そのURLに対応するAVデータを出力させるための要求信号ESREQを記憶装置３０６に対して出力する。その結果、記憶装置３０６からは、対応するAVデータが出力され、多重化回路３０３に供給されることになる。

また、構文解析回路３０７は、ノードに含まれているURLが示すAVデータに関する情報OIの出力を要求する要求信号OIREQを記憶装置３０５に対して出力する。その結果、記憶装置３０５からは、URLに対応するオブジェクトストリーム情報OIが出力され、OD発生回路３０４に供給される。さらに、構文解析回路３０７は、ノードに含まれているURL（String）をURL変更回路３０９に供給する。

OD発生回路３０４は、記憶装置３０５から供給されたAVオブジェクトに関するオブジェクトストリーム情報OIから、要求信号OIREQにより要求された情報のみをオブジェクト記述子ODとして抽出するとともに、ID番号OD_IDを発生する。そして、そのID番号OD_IDがオブジェクト記述子OD中に記録されて、オブジェクト記述子ODが多重化回路３０３に対して出力される。また、OD発生回路３０４は、各オブジェクト記述子ODに対して生成されたID番号OD_IDをURL変更回路３０９に対して出力する。

URL変更回路３０９は、構文解析回路３０７から供給されたURLが、ネットワーク上の他のサーバに存在するファイルを指定している場合には、URLをそのままBIFSエンコーダ３０８に対して出力する。また、供給されたURLが記憶装置３０６に記憶されているAVデータのファイルを指定している場合には、例えば、式（２）に示すような文字列を、OD発生回路３０４から出力されるID番号OD_IDを参照して生成し、BIFSエンコーダ３０８に対して出力する。

BIFSエンコーダ３０８は、記憶装置３０２から供給されたアスキーフォーマットのシーン記述子SDを、所定の手法に基づいて、バイナリフォーマットのデータに変換する。そして、BIFSエンコーダ３０８は、シーン記述子SDの中に含まれるURLを、URL変更回路３０９から供給されるURLまたは文字列に変換する。その後、バイナリフォーマットは変換されたシーン記述子B_SDが多重化回路３０３に対して出力される。

図１６は、動画をテクスチャとして貼り付けるためのシーン記述子SDのバイナリフォーマットの一例を示している。ここで、第２９行目に記述されているURLは、URL変更回路３０９から出力されたアスキーフォーマットの文字列である。即ち、この実施の形態においては、バイナリフォーマットにおいてもURLが文字列で記述される。図１７は、静止画をテクスチャとして貼り付けるためのシーン記述子SDのバイナリフォーマットの一例を示している。この図の第１７行目に示すURLは、前述の図１６の場合と同様に、アスキーフォーマットの文字列である。

BIFSエンコーダ３０８によりバイナリフォーマットに変換されたシーン記述子SDは、多重化回路３０３に供給され、そこで、オブジェクト記述子ODおよびAVデータと多重化され、多重化ビットストリームFSとして出力されることになる。多重化されたビットストリームFSは、伝送路を経由して、受信端末である復号装置に供給される。

次に、図１８を参照して、図１５に示す符号化装置に対応する復号装置の実施の形態の構成例について説明する。図１８は、本発明の復号装置の第２の実施の形態の構成例を示すブロック図である。この図において、図８と対応する部分には、同一の符号が付してあるのでその説明は省略する。

なお、図１８の実施の形態においては、図８の場合と比較して、URL変換回路４１２が新たに追加されている。さらに、構文解析回路４１０は、アスキーフォーマットの文字列で表現された情報をURL変換回路４１２に出力する。そして、URL変換回路４１２は、アスキーフォーマットの文字列で表現されアスキーフォーマットオブジェクト記述子ODのID番号OD_IDに変換し、再構成回路４１１に供給するようになされている。その他の構成は、図８に示す場合と同様である。

次に、以上の実施の形態の動作について簡単に説明する。

構文解析回路４１０において、ノードから抽出されたURLが、URL変換回路４１２に供給され、例えば、式（２）に示す形式の文字列である場合には、URL変換回路４１２が、この文字列をID番号OD_IDに変換して、再構成回路４１１に供給する。その結果、再構成回路４１１は、ノードに対して対応するAVデータをテクスチャとして貼り付けることになる。

また、ノードから抽出されたURLが、ネットワーク上の他のサーバに記憶されているファイルを指定している場合（即ち、式（１）に示す形式の文字列である場合）には、URL変換回路４１２は、その結果を逆多重化回路４０４に供給し、そして、逆多重化回路４０４が、他のサーバに対してファイルの送信要求を行い、その結果、同様の処理により送られてくる多重化ビットストリームFS'を受信して、表示処理を行うことになる。

以上の実施の形態によれば、ノードに貼り付けようとするAVデータが、ネットワーク上の他のサーバに存在している場合においても、所望のAVデータを読み込んで表示させることが可能となる。

次に、図１９を参照して、本発明の符号化装置の第３の実施の形態の構成例について説明する。図１９は、本発明の符号化装置の第３の実施の形態の構成例を示すブロック図である。この図において、図１の場合と対応する部分には同一の符号が付してあるのでその説明は省略する。図１９に示す実施の形態においては、図１の場合と比較して、URL変更回路３０９、スイッチ３１０、および、制御回路３１１が新たに追加されている。さらに、構文解析回路３０７からの出力データおよびOD発生回路３０４からのID番号OD_IDがURL変更回路３０９に供給され、URL変更回路３０９の出力データとOD発生回路３０４からのID番号OD_IDがスイッチ３１０に供給される。制御回路３１１は、そのスイッチ３１０を制御している。その他の構成は、図１の場合と同様である。

URL変更回路３０９は、OD発生回路３０４から出力されたID番号OD_IDを、対応するアスキーフォーマットの文字列に変換して出力するようになされている。なお、その動作は、図１５に示す第２の実施の形態において説明したので省略する。スイッチ３１０は、制御回路３１１により制御され、OD発生回路３０４から出力されるID番号OD_IDまたはURL変更回路３０９から出力されるURLの何れか一方を選択してBIFSエンコーダ３０８に出力するようになされている。制御回路３１１は、後述するように、例えば、アプリケーションの種類により、スイッチ３１０を切り換えるようになされている。

次に、以上の実施の形態の動作について簡単に説明する。URL変更回路３０９によりフォーマットが変更されたURL（詳細は、第２の実施の形態において参照されている）は、スイッチ３１０に供給される。また、OD発生回路３０４から出力されたID番号OD_IDも同様に、スイッチ３１０に供給される。

スイッチ３１０は、制御回路３１１によって制御され、その接続が変更される。例えば、リアルタイムの通信やハードウエアを設計する上では、ID番号OD_IDは文字列ではなく、例えば、１０ビットのフラグなどで直接数字を記述しておいた方が有利である。従って、そのようなアプリケーションでは、スイッチ３１０は、制御回路３１１に制御されてOD発生回路３０４からのID番号OD_IDを選択し、ID番号OD_IDがBIFSエンコーダ３０８によってそのままバイナリフォーマットのシーン記述子B_SDに記録される。なお、URLによって指定されるAVファイルがネットワーク上の他のサーバに記憶されている場合には、制御回路３１１は、スイッチ３１０の接続をURL変更回路３０９側に変更し、URLをBIFSエンコーダ３０８に出力させる。

これに対して、コンピュータ上のアプリケーションでは、文字列URLによりストリームを指定した方が自由度が高いので有利である。従って、そのようなアプリケーションでは、スイッチ３１０がURL変更回路３０９側に接続され、URLがBIFSエンコーダ３０８に対して出力され、バイナリフォーマットのシーン記述子SDに記録される。BIFSエンコーダ３０８はまた、ID番号OD_IDまたはURLが記録されているかどうかを示すフラグを記録する

図２０は、動画をテクスチャとして貼り付けるためのシーン記述子SDのバイナリフォーマットの一例を示している。この図において、第２９行目および第３０行目に示されているisStringは、ID番号OD_IDが記述されているか、URLが記述されているかを示す１ビットのフラグである。この値が“０”である場合には、そのノードには、１０ビットのID番号OD_IDが記録されている。これに対して、isStringの値が“１”である場合には、URLが記録されている。URLは、このノードに貼り付ける動画像のID番号OD_IDを示すようにURL変更回路３０９において書き換えられた文字列である。図２０は、静止画をテクスチャとして貼り付けるためのシーン記述子SDのバイナリフォーマットの一例を示している。この図において、第１７行目および第１８行目に示されているisStringは、前述の場合と同様に、OD_IDが記述されているか、URLが記述されているかを示す１ビットのフラグである。

以上の符号化装置において符号化された多重化ストリームFSは、伝送路を介して、受信端末である復号装置に対して伝送される。図１９の符号化装置に対応する復号装置の実施の形態の構成例を図２２に示す。

図２２は、本発明の復号装置の第３の実施の形態の構成例を示すブロック図である。この図において、図８の場合と対応する部分には同一の符号を付してあるのでその説明は省略する。図２２の実施の形態では、図８の場合と比較して、URL変換回路４１２が新たに追加されている。その他の構成は、図８の場合と同様である。

この実施の形態においては、構文解析回路４１０は、isStringを復号し、この値が“１”である場合には、URLをURL変換回路４１２に供給し、また、この値が“０”である場合には、ID番号OD_IDを復号し、これを再構成回路４１１に供給するようになされている。また、URL変換回路４１２では、URLが例えば、式（２）に示すように記述されている場合には、ID番号OD_IDを復号して再構成回路４１１に出力し、また、URLが他のサーバ上のファイルを示している場合には、その情報が逆多重化回路４０４に供給され、逆多重化回路４０４がそのサーバにアクセスして、所望のファイルを読み込むようになされている。

次に以上の実施の形態の動作について簡単に説明する。読み出されたシーン記述子SDは、構文解析回路４１０に供給され、解析される。構文解析されたシーン記述は、再構成回路４１１に供給されることになる。また、構文解析回路４１０は、isStringを復号し、この値が“１”であるか否かを判定する。その結果、この値が“１”であると判定した場合には、ノードにテクスチャとして貼り付けるAVデータのURLをURL変換回路４１２に供給する。その結果、URL変換回路４１２は、URLが、例えば、式（２）に示すように記述されている場合（文字列の先頭が“mpeg4”である場合）には、文字列情報からオブジェクト記述子ODのIDであるID番号OD_IDを復号し、再構成回路４１１に対して出力する。また、URLが他のサーバ上のファイルを指定している場合には、その情報が逆多重化回路４０４に供給され、逆多重化回路４０４は、そのサーバに対してアクセスし、所望のファイルの転送を要求し、受信することになる。なお、複数のサーバと通信する場合においても、それぞれのサーバの動作は、前述の場合と同様である。

一方、構文解析回路４１０は、また、isStringが“０”である場合、ID番号OD_IDを復号し、これを再構成回路４１１に対して出力する。その他の動作は、第１の実施の形態の場合と同様であるのでその説明は省略する。

以上の実施の形態によれば、例えば、アプリケーションの種類に応じて、最適な符号化方法を選択することが可能となる。

なお、本明細書中において、記録媒体には、FD，CD-ROMなどの情報記録媒体の他、インターネット、ディジタル衛星などのネットワーク伝送媒体も含まれる。

本発明の符号化装置の第１の実施の形態の構成例を示すブロック図である。シーン記述子SDとノードとの関係を示す図である。ノードに動画をテクスチャとして貼り付けるためのシーン記述子のアスキーフォーマットの一例を示す図である。ノードに静止画をテクスチャとして貼り付けるためのシーン記述子のアスキーフォーマットの一例を示す図である。ノードに動画をテクスチャとして貼り付けるためのシーン記述子のバイナリフォーマットの一例を示す図である。ノードに静止画をテクスチャとして貼り付けるためのシーン記述子のバイナリフォーマットの一例を示す図である。図１に示す多重化装置の詳細な構成例を示す図である。本発明の復号装置の第１の実施の形態の構成例を示すブロック図である。図８に示す逆多重化回路４０４の詳細な構成例を示す図である。各ビットストリー右の対応関係および図８に示す再構成回路４１１の構成例を示す図である。図９に示す合成回路３５１の詳細な構成例を示すブロック図である。オブジェクト記述子ODの一例を示す図である。 ES_Descriptorの一例を示す図である。 ES_ConfigParamsの一例を示す図である。本発明の符号化装置の第２の実施の形態の構成例を示すブロック図である。ノードに動画をテクスチャとして貼り付けるためのシーン記述子のバイナリフォーマットの一例を示す図である。ノードに静止画をテクスチャとして貼り付けるためのシーン記述子のバイナリフォーマットの一例を示す図である。本発明の復号装置の第２の実施の形態の構成例を示すブロック図である。本発明の符号化装置の第３の実施の形態の構成例を示すブロック図である。動画をテクスチャとして貼り付けるためのシーン記述子SDのバイナリフォーマットの一例を示す図である。静止画をテクスチャとして貼り付けるためのシーン記述子SDのバイナリフォーマットの一例を示す図である。本発明の復号装置の第３の実施の形態の構成例を示すブロック図である。テクスチャマッピングについて説明するための図である。 MPEG方式のMP@MLのエンコーダの構成例を示すブロック図である。 MPEG方式のMP@MLのデコーダの構成例を示すブロック図である。空間スケーラビリティのエンコーダの構成例を示すブロック図である。空間スケーラビリティのデコーダの構成例を示すブロック図である。

符号の説明

３０２記憶装置，３０３多重化回路， OD発生回路，３０６記憶装置，３０７構文解析回路，３０８ BIFSエンコーダ，３０９ URL変更回路，３１１制御回路，４０４逆多重化回路，４１０構文解析回路，４１１再構成回路

Claims

ＡＶデータ、２次元または３次元データの複数の情報に対応する複数のノードで構成されるシーン記述子及び上記ＡＶデータに関する情報である複数のオブジェクト記述子を多重化する多重化装置において、
上記複数のノード中の文字列を読み出し、該文字列に対応するＡＶデータに関する情報である上記複数のオブジェクト記述子を生成する生成手段と、
上記複数のノード中の文字列を所定の手法で置換する置換手段と、
上記生成手段により生成された上記複数のオブジェクト記述子、上記置換手段より置換された上記複数のノード及び上記ＡＶデータとを符号化し、同一のストリームに多重化する多重化手段とを
備えることを特徴とする多重化装置。
上記文字列は、ＵＲＬであり、
上記ＵＲＬの表現形式は、ASCIIフォーマットである
ことを特徴とする請求項１に記載の多重化装置。
上記所定の手法とは、上記複数のノード中の文字列をバイナリフォーマットの文字列に変換する
ことを特徴とする請求項１に記載の多重化装置。
ＡＶデータ、２次元または３次元データの複数の情報に対応する複数のノードで構成されるシーン記述子及び上記ＡＶデータに関する情報である複数のオブジェクト記述子を多重化する多重化方法において、
上記複数のノード中の文字列を読み出し、該文字列に対応するＡＶデータに関する情報である上記複数のオブジェクト記述子を生成する生成ステップと、
上記複数のノード中の文字列を所定の手法で置換する置換ステップと、
上記生成ステップの処理で生成された上記複数のオブジェクト記述子、上記置換ステップより置換された上記複数のノード及び上記ＡＶデータとを符号化し、同一のストリームに多重化する多重化ステップとを
含むことを特徴とする多重化方法。
符号化されたＡＶデータ、２次元または３次元データの複数の情報に対応する複数のノードで構成されるシーン記述子及び上記ＡＶデータに関する情報である複数のオブジェクト記述子とを多重化したストリームを分離し、該分離された上記複数のノード及び上記複数のオブジェクト記述子に基づき上記ＡＶデータを復元する合成装置において、
上記複数のノードの文字列を所定の手法により解析を行う解析手段と、
上記解析手段により出力された結果と上記複数のオブジェクト記述子とを照合する照合手段と、
上記複数のオブジェクト記述子の解析結果を用いて上記符号化されたＡＶデータを復号する復号手段と、
上記照合手段の結果を用いて上記復号されたＡＶデータと上記２次元または３次元データとを合成する合成手段と
を備えることを特徴とする合成装置。
上記文字列は、ＵＲＬであり、
上記ＵＲＬの表現形式は、ASCIIフォーマットである
ことを特徴とする請求項５に記載の合成装置。
上記所定の手法とは、上記複数のノード中の文字列をバイナリフォーマットの文字列に変換する
ことを特徴とする請求項５に記載の合成装置。
符号化されたＡＶデータ、２次元または３次元データの複数の情報に対応する複数のノードで構成されるシーン記述子及び上記ＡＶデータに関する情報である複数のオブジェクト記述子とを多重化したストリームを分離し、該分離された上記複数のノード及び上記複数のオブジェクト記述子に基づき上記ＡＶデータを復元する合成方法において、
上記複数のノードの文字列を所定の手法により解析を行う解析ステップと、
上記解析ステップの処理で出力された結果と上記複数のオブジェクト記述子とを照合する照合ステップと、
上記複数のオブジェクト記述子の解析結果を用いて上記符号化されたＡＶデータを復号する復号ステップと、
上記照合ステップでの結果を用いて上記復号されたＡＶデータと上記２次元または３次元データとを合成する合成ステップと
を含むことを特徴とする合成方法。