JP2006014180A - Data processor, data processing method and program therefor - Google Patents
Data processor, data processing method and program therefor Download PDFInfo
- Publication number
- JP2006014180A JP2006014180A JP2004191539A JP2004191539A JP2006014180A JP 2006014180 A JP2006014180 A JP 2006014180A JP 2004191539 A JP2004191539 A JP 2004191539A JP 2004191539 A JP2004191539 A JP 2004191539A JP 2006014180 A JP2006014180 A JP 2006014180A
- Authority
- JP
- Japan
- Prior art keywords
- data
- decoding
- event
- scene
- scene description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、例えば符号化された動画像オブジェクトデータ、音声オブジェクトデータ、シーン記述データを含むマルチメディアデータを分離、復号化し、復号化されたデータを合成、出力するデータ処理装置、データ処理方法及びそのプログラムに関するものである。 The present invention relates to a data processing apparatus, a data processing method, and a data processing apparatus for separating and decoding multimedia data including, for example, encoded moving image object data, audio object data, and scene description data, and synthesizing and outputting the decoded data It is about the program.
動画像や音声を圧縮符号化し、多重化し、伝送若しくは蓄積し、これを逆多重化して復号する符号化標準の国際規格としてMPEG(Motion Picture Experts Group)−1、及びMPEG−2などが知られている。 MPEG (Motion Picture Experts Group) -1, MPEG-2, and the like are known as international standards for encoding standards that compress, encode, multiplex, transmit or store moving images and audio, and demultiplex and decode them. ing.
一方、ISO/IEC 14496 part 1(MPEG−4 Systems)では、静止画、動画像や音声、テキスト、CG(Computer Graphics)など複数のオブジェクトを含むマルチメディアデータの符号化ビットストリームを多重化・同期する手法が標準化されている。 On the other hand, ISO / IEC 14496 part 1 (MPEG-4 Systems) multiplexes and synchronizes an encoded bit stream of multimedia data including a plurality of objects such as still images, moving images, audio, text, and CG (Computer Graphics). The technique to do is standardized.
上述したようなMPEG−4のデータストリームには、これまでの一般的なマルチメディアデータとは異なり、静止画像、動画像や音声に加え、テキストやCGなどの各オブジェクトを空間・時間的に配置するための情報として、VRML(Virtual Reality Modeling Language)を自然動画像や音声が扱えるように拡張したBIFS(Binary Format for Scenes)が含まれている。ここでBIFSはMPEG−4のシーンを2値で記述する情報である。 In the MPEG-4 data stream as described above, unlike conventional general multimedia data, each object such as text and CG is arranged in space and time in addition to still images, moving images and audio. As information for this purpose, there is included BIFS (Binary Format for Scenes) in which VRML (Virtual Reality Modeling Language) is extended to handle natural moving images and sounds. Here, BIFS is information describing an MPEG-4 scene in binary.
このようなマルチメディアデータを構成する静止画、動画、音声等個々のオブジェクトは、それぞれ個別に最適な符号化が施されて送信されることになるので、復号側でも個別に復号され、上述のシーン記述情報に伴い時間的、空間的に配置され、個々のデータの持つ時間軸を再生機内部の時間軸に合わせて同期させ、シーンを合成し再生される。 Individual objects such as still images, moving images, and audio that make up such multimedia data are individually encoded and transmitted, so that the decoding side individually decodes the above-described objects. It is arranged temporally and spatially according to the scene description information, and the time axis of each data is synchronized with the time axis inside the player, and the scene is synthesized and reproduced.
又、一般的にシーンの構成を記述する方法としては、上述したVRML、BIFSの他に、HTML(Hypertext Markup Language)や、XML(eXtensible Markup Language)を用いて記述されるSMIL(Synchronized Multimedia Integration Language)、XMT(eXtensible MPEG−4 Textual Format)などがある。 In addition to the VRML and BIFS described above, a method for describing a scene configuration is generally SMIL (Synchronized Language Integrated) described using HTML (Hypertext Markup Language) and XML (extensible Markup Language). ) And XMT (extensible MPEG-4 Textual Format).
このようなマルチメディアデータのビットストリームを再生する際には、動画像や音声に加えて、シーン及びシーンを構成する各オブジェクトとも同期して合成し、再生することが要求される。そこで、オーディオとビデオとCGを同期して合成し、再生する手法が提案されている(例えば、特許文献1参照。)。 When reproducing such a bit stream of multimedia data, it is required to synthesize and reproduce the scene and each object constituting the scene in addition to the moving image and sound. Therefore, a method of synthesizing and reproducing audio, video, and CG in synchronization has been proposed (see, for example, Patent Document 1).
又、コンテンツデータの再生中に後続のコンテンツデータの先行取得をおこなうことにより、シーン記述情報による時刻指定を守った再生ができ、しかも再生開始まで、あるいは次に再生を開始するまでの遅延を小さくする手法が提案されている(例えば、特許文献2参照。)。 In addition, by performing prior acquisition of subsequent content data during the playback of content data, it is possible to perform playback while keeping the time specified by the scene description information, and to reduce the delay until the start of playback or the start of the next playback. A technique has been proposed (for example, see Patent Document 2).
しかしながら、上記特許文献1に提案される方式は、動画像や音声を読み込み、再生を開始するまでに要する遅延に関しては何等言及されておらず、例えばネットワークを介して配信される動画像や音声の読み込みに時間を要した場合には、シーン記述情報の時間的な配置に従って動画像や音声を合成、再生することができないといった問題を有している。
However, the method proposed in
又、上記特許文献2に提案される方式は、ネットワークを介して配信されるマルチメディアデータを受信して再生する場合に限定されている為、蓄積媒体から再生する場合に適用できず、又、ネットワークの通信速度や回線状況によっては動画像や音声とシーンとの同期が確実に取れるとは限らない、などの問題を有している。
In addition, the method proposed in
又、上述したVRML、BIFSといったシーン記述方法では、無限に高速で処理されるという動作環境を理想としているが、動画像や音声の読み込みは負荷の大きい作業であるため、現実の動作環境においては再生開始に時間を要する。このように再生開始に要する時間は、ネットワークの通信速度、回線状況や受信端末の処理能力に依存する。この為、通信速度が低い場合や回線が混雑している場合や、処理能力の低い受信端末を使用する場合等には、再生開始時、若しくはシーン記述データの更新時に、シーンとシーンを構成する動画像や音声等のメディアオブジェクトデータとの同期が取れないという問題を有している。 In the scene description methods such as VRML and BIFS described above, an operating environment where processing is performed at an infinitely high speed is ideal. However, since reading of moving images and sounds is a heavy work, in an actual operating environment, It takes time to start playback. Thus, the time required to start reproduction depends on the communication speed of the network, the line status, and the processing capability of the receiving terminal. For this reason, when the communication speed is low, the line is congested, or when a receiving terminal with low processing capacity is used, the scene is composed at the start of playback or when the scene description data is updated. There is a problem that synchronization with media object data such as moving images and sounds cannot be achieved.
本発明は、上述した事情を考慮してなされたもので、動画、音声、静止画、テキスト、CG等、複数のオブジェクトから構成される符号化されたマルチメディアデータを再生する際に、動画や音声等のメディアオブジェクトデータとシーンとが同期した合成、再生を確実に行うことができるデータ処理装置、データ処理方法及びそのプログラムを提供することを目的とする。 The present invention has been made in consideration of the above-described circumstances. When playing back encoded multimedia data composed of a plurality of objects such as moving images, sounds, still images, texts, CGs, An object of the present invention is to provide a data processing apparatus, a data processing method, and a program thereof that can reliably perform synthesis and reproduction in which media object data such as audio and a scene are synchronized.
この発明は、上述した課題を解決すべくなされたもので、本発明によるデータ処理装置においては、符号化された動画像及び/又は音声に関するオブジェクトデータを一つ又は複数含むマルチメディアデータをネットワーク経由で受信してシーン記述データに応じて再生処理するデータ処理装置であって、受信したマルチメディアデータをオブジェクトデータ単位で分離する分離手段と、分離手段が分離した複数のオブジェクトデータを復号化する一つ又は複数の第1の復号化手段と、マルチメディアデータに含まれる一部のデータとして又はネットワークと異なる通信経路で独立したデータとして符号化されたシーン記述データを受信した場合に、シーン記述データを復号化する第2の復号化手段と、分離手段がオブジェクトデータの読み込みを開始するタイミング又は、第1の復号化手段がオブジェクトデータを復号化するタイミングに応じてイベントを発生するイベント発生手段と、イベント発生手段が発生するイベントを受信したタイミングに応じて、第2の復号化手段が復号化したシーン記述データを基に、第1の復号化手段が復号化した複数のオブジェクトデータの合成処理を行うシーン合成手段とを備えることを特徴とする。 The present invention has been made to solve the above-described problems. In the data processing apparatus according to the present invention, multimedia data including one or more encoded moving image and / or audio object data is transmitted via a network. Is a data processing apparatus for receiving and reproducing according to scene description data, and separating means for separating received multimedia data in units of object data, and decoding a plurality of object data separated by the separating means Scene description data when receiving one or more first decoding means and scene description data encoded as part of the data included in the multimedia data or as independent data on a communication path different from the network A second decoding means for decoding the object data and a separating means for reading the object data. The event generation means for generating an event in accordance with the timing at which the event generation means decodes the object data, and the timing at which the event generation means receives the event. And scene synthesizing means for synthesizing a plurality of object data decoded by the first decoding means based on the scene description data decoded by the decoding means.
また、本発明によるデータ処理方法においては、符号化された動画像及び/又は音声に関するオブジェクトデータを一つ又は複数含むマルチメディアデータをネットワーク経由で受信してシーン記述データに応じて再生処理するデータ処理装置を用いたデータ処理方法であって、受信したマルチメディアデータをオブジェクトデータ単位で分離する分離ステップと、分離ステップで分離した複数のオブジェクトデータを復号化する一つ又は複数の第1の復号化ステップと、マルチメディアデータに含まれる一部のデータとして又はネットワークと異なる通信経路で独立したデータとして符号化されたシーン記述データを受信した場合に、シーン記述データを復号化する第2の復号化ステップと、分離ステップでオブジェクトデータの読み込みを開始するタイミング又は、第1の復号化ステップでオブジェクトデータを復号化するタイミングに応じてイベントを発行するイベント発行ステップと、イベント発生ステップで発生するイベントを受信したタイミングに応じて、第2の復号化ステップで復号化したシーン記述データを基に、第1の復号化ステップで復号化した複数のオブジェクトデータの合成処理を行うシーン合成ステップとを有することを特徴とする。 In the data processing method according to the present invention, the multimedia data including one or a plurality of encoded moving image and / or audio object data is received via the network and is reproduced according to the scene description data. A data processing method using a processing device, comprising: a separation step of separating received multimedia data in units of object data; and one or a plurality of first decryptions for decoding a plurality of object data separated in the separation step And a second decoding for decoding the scene description data when receiving the scene description data encoded as part of the data included in the multimedia data or as independent data through a communication path different from the network Of object data in the conversion step and separation step An event issuing step for issuing an event according to the start timing or the timing for decoding the object data in the first decoding step, and the second decoding according to the timing for receiving the event generated in the event generation step And a scene synthesis step for synthesizing a plurality of object data decoded in the first decoding step based on the scene description data decoded in the encoding step.
また、本発明によるプログラムは、符号化された動画像及び/又は音声に関するオブジェクトデータを一つ又は複数含むマルチメディアデータをネットワーク経由で受信してシーン記述データに応じて再生処理するデータ処理装置用のプログラムであって、受信したマルチメディアデータをオブジェクトデータ単位で分離する分離ステップと、分離ステップで分離した複数のオブジェクトデータを復号化する一つ又は複数の第1の復号化ステップと、マルチメディアデータに含まれる一部のデータとして又はネットワークと異なる通信経路で独立したデータとして符号化されたシーン記述データを受信した場合に、シーン記述データを復号化する第2の復号化ステップと、分離ステップでオブジェクトデータの読み込みを開始するタイミング又は、第1の復号化ステップでオブジェクトデータを復号化するタイミングに応じてイベントを発行するイベント発行ステップと、イベント発生ステップで発生するイベントを受信したタイミングに応じて、第2の復号化ステップで復号化したシーン記述データを基に、第1の復号化ステップで復号化した複数のオブジェクトデータの合成処理を行うシーン合成ステップとをコンピュータに実行させるためのプログラムである。 Also, the program according to the present invention is for a data processing apparatus that receives multimedia data including one or a plurality of encoded moving image and / or audio object data via a network and reproduces the data according to scene description data. A separation step of separating received multimedia data in units of object data, one or more first decoding steps for decoding a plurality of object data separated in the separation step, and multimedia A second decoding step for decoding the scene description data when receiving the scene description data encoded as part of the data included in the data or as independent data through a communication path different from the network; and a separation step When to start loading object data with The event issuing step for issuing an event according to the timing for decoding the object data in the first decoding step, and the second decoding step for receiving the event generated at the event generation step. A program for causing a computer to execute a scene synthesis step for synthesizing a plurality of object data decoded in the first decoding step based on the decoded scene description data.
また、本発明による記録媒体は、符号化された動画像及び/又は音声に関するオブジェクトデータを一つ又は複数含むマルチメディアデータをネットワーク経由で受信してシーン記述データに応じて再生処理するデータ処理装置用のプログラムを記録した記録媒体であって、受信したマルチメディアデータをオブジェクトデータ単位で分離する分離ステップと、分離ステップで分離した複数のオブジェクトデータを復号化する一つ又は複数の第1の復号化ステップと、マルチメディアデータに含まれる一部のデータとして又はネットワークと異なる通信経路で独立したデータとして符号化されたシーン記述データを受信した場合に、シーン記述データを復号化する第2の復号化ステップと、分離ステップでオブジェクトデータの読み込みを開始するタイミング又は、第1の復号化ステップでオブジェクトデータを復号化するタイミングに応じてイベントを発行するイベント発行ステップと、イベント発生ステップで発生するイベントを受信したタイミングに応じて、第2の復号化ステップで復号化したシーン記述データを基に、第1の復号化ステップで復号化した複数のオブジェクトデータの合成処理を行うシーン合成ステップとをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。 Also, the recording medium according to the present invention is a data processing device for receiving multimedia data including one or more encoded moving image and / or audio object data via a network, and reproducing the data according to scene description data. A recording medium on which a program for recording is recorded, a separation step of separating received multimedia data in units of object data, and one or a plurality of first decryptions for decoding a plurality of object data separated in the separation step And a second decoding for decoding the scene description data when receiving the scene description data encoded as part of the data included in the multimedia data or as independent data through a communication path different from the network Open the object data reading in the conversion step and separation step Or an event issuing step for issuing an event according to the timing at which the object data is decoded at the first decoding step, and a second decoding according to the timing at which the event generated at the event generation step is received. A computer-readable recording of a program for causing a computer to execute a scene synthesis step for synthesizing a plurality of object data decoded in the first decoding step based on the scene description data decoded in the step It is a recording medium.
本発明によるデータ処理装置、データ処理方法及びそのプログラムは、複数のオブジェクトから構成されるマルチメディアデータから各オブジェクトを分離し、再生する際に、動画像や音声等のメディアオブジェクトデータとシーンとが同期した合成や再生を、通信回線の種類や回線状況や端末の処理能力に関わらず、確実に行うことができるという効果が得られる。 A data processing apparatus, a data processing method, and a program therefor according to the present invention, when separating and reproducing each object from multimedia data composed of a plurality of objects, media object data such as moving images and sounds and a scene are There is an effect that synchronized composition and reproduction can be performed reliably regardless of the type of communication line, the line status, and the processing capability of the terminal.
以下、図面を用いて本発明の実施形態について説明する。
[第1の実施形態]
図1は、本発明の第1の実施形態としてのマルチメディアデータ受信装置(以下、単に受信装置とする)101の基本構成を示す図である。図1においては、回路構成を示すと共に、各回路間でのデータの流れも合わせて示している。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[First Embodiment]
FIG. 1 is a diagram showing a basic configuration of a multimedia data receiving apparatus (hereinafter simply referred to as a receiving apparatus) 101 as a first embodiment of the present invention. In FIG. 1, the circuit configuration is shown, and the data flow between the circuits is also shown.
図1に示すように、受信装置101は、逆多重化回路(分離手段)102、シーン記述データ復号回路(第2の復号化手段)103、メディア復号回路(第1の復号化手段)104、イベント発生回路105、シーン合成回路106、及び出力機器107により構成されている。図1において、100は各種ネットワークに代表される伝送路であり、本実施形態においては加工、符号化されたマルチメディアデータが配信されてくるネットワークである。ここで、本実施形態においては伝送路100からマルチメディアデータを取得しているが、このように放送ネットワークや通信ネットワークといった通信路を介して取得する方法に限定されるものではなく、例えばDVD−RAM等の記録媒体からマルチメディアデータを読み出すことで取得する方法であってもよい。
As shown in FIG. 1, a
受信装置101は、伝送路100を介してネットワーク経由で配信されたマルチメディアデータを受信すると、逆多重化回路102に入力する。逆多重化回路102は、受信したマルチメディアデータを、シーン記述データや、静止画や動画像、音声などのメディアオブジェクトデータ等に分離し、それぞれシーン記述データ復号回路103、メディア復号回路104へ出力する。尚、上述したように、受信装置101は、記録媒体からデータを読み出す構成を備えることで、記録媒体から読み込んだマルチメディアデータを逆多重化回路102に入力してもよい。
When receiving the multimedia data distributed via the network via the
又、図1において、メディア復号回路104は一つであるが、本実施形態においては、静止画像オブジェクトデータ、動画像オブジェクトデータ、音声オブジェクトデータについて、複数のオブジェクトがマルチメディアデータ内に存在しても復号可能な装置であり、例えばメディア復号回路104は静止画像用、動画像用、音声用に各々複数の復号回路から構成されているものとする。
In FIG. 1, there is only one
又、上記静止画像オブジェクトデータは、例えば周知のJPEG方式にて高能率(圧縮)符号化されたデータである。又、上記動画像オブジェクトデータは、例えば周知のMPEG−2やMPEG−4、H263方式にて高能率符号化されたデータである。又、上記音声オブジェクトデータは、例えば周知のCELP(Code Excited Linear Prediction)、AAC(Advanced Audio Coding)、変換領域重み付けインターリーブベクトル量子化(TWINVQ)符号化などの高能率符号化が施されたデータである。 The still image object data is data that has been highly efficient (compressed) encoded by, for example, the well-known JPEG method. The moving image object data is data that has been highly efficient encoded by, for example, the well-known MPEG-2, MPEG-4, or H263 system. The audio object data is data that has been subjected to high-efficiency encoding such as well-known CELP (Code Excited Linear Prediction), AAC (Advanced Audio Coding), transform domain weighted interleaved vector quantization (TWINVQ) encoding, and the like. is there.
符号化が施されたシーン記述データ、メディアオブジェクトデータは、それぞれシーン記述データ復号回路103とメディア復号回路104において復号され、シーン合成回路106に供給される。シーン合成回路106は、復号されたシーン記述データに基づいてシーンと復号されたメディアオブジェクトデータを合成する。このようにして得られた最終的なマルチメディアデータ列は、ディスプレイやスピーカー、プリンタなどに代表される出力機器107に供給され、再生されることになる。
The encoded scene description data and media object data are decoded by the scene description
また、逆多重化回路102は、各々のノードに関連する動画像や音声の読み込みを開始すると、イベント発生回路105へイベント発行命令を送信する機能(発行命令手段)を有する。イベント発行命令を受信したイベント発生回路105は、シーン合成回路106へイベントを送信する。
In addition, the
次に、本実施形態における受信装置101が受信するマルチメディアデータのデータ構造について具体例を示して説明する。
図2は、本実施形態におけるマルチメディアデータ200全体のデータ構造例を示す図である。図2に示すように、マルチメディアデータ200は、シーン記述データ201及びメディアデータ202〜205等のパケットから構成される。シーン記述データ201は、シーンを構成するメディアデータ202〜205よりも先に送信され、受信装置101においても、シーン記述データ201、メディアデータ202〜205の順でデータを取得する。
Next, the data structure of multimedia data received by the receiving
FIG. 2 is a diagram showing an example of the data structure of the
上記シーン記述データ201、メディアデータ202〜205の各パケットには、パケットヘッダ部に同期管理の為の時間情報(DTS、CTS等)が付加される。DTS(Decoding Time Stamp)は、シーン記述データ復号回路103とメディア復号回路104の前段にある図示しない復号化バッファに当該パケットが到着していなければならない時刻を示す情報である。また、CTS(Composition time Stamp)は、シーン記述データ復号回路103とメディア復号回路104の後段にある図示しないコンポジションメモリに当該パケットが存在しなければならない時刻を示す情報である。各パケットはパケット毎に付加されたパケットヘッダ部のDTSの時刻で復号され、CTS以降の時刻で有効になる。前述したような、無限に高速で処理を行うことが出来る理想的な動作環境においては、上記時間情報DTS、CTSに従って、メディアデータを復号処理し再生することが可能である。
For each packet of the
ここで、図2に示したシーン記述データ201の記述について具体例を示して説明する。図3は、図2に示したシーン記述データ201の記述例を示す図である。図3に示すように、シーン記述データ201は、シーン記述言語として例えばBIFS(Binary Format for Scenes)を用いて記述されたBIFSデータ300のような記述構成となる。ここで、シーンとは、視聴者に提示される画面や時間的な構成であり、MPEG−4のシステムパートではシーン記述言語として、前述したBIFSが規格化されている。ここでは簡単の為、図3に示すようにBIFSデータをテキストとして表記する。
Here, the description of the
BIFSデータ300は、Groupノード301で始まる。全てのBIFSはSFTopNodeと呼ばれる種類のノードで始まるが、Groupノード301はSFTopNodeの一つである。このGroupノード301の子ノード(childrenフィールド)に、動画像に関する情報がTransform2Dノード302として記述されている。Transform2Dノード302は、キーワードDEFを使用してMOVIEという名称で定義されている。以下、Transform2Dノード302を単にMOVIE302とする。
実際に表示される動画像データは、MovieTextureノード303によって定義され、フィールドurlに記述された"test.mpeg"が動画像オブジェクトデータの所在を示している。ここで"test.mpeg"は例えばMPEG1−Videoの動画ファイルフォーマットである。 The actually displayed moving image data is defined by the Movie Texture node 303, and “test.mpeg” described in the field url indicates the location of the moving image object data. Here, “test.mpeg” is, for example, an MPEG1-Video moving image file format.
又、TimeSensorノード304は、時間の経過と共にイベントを発生し、時刻0秒(フィールドstartTime 0)から1秒間(フィールドcycleInterval 1)、0.0〜1.0の範囲でfraction_changedイベントを出力する。TimeSensorノード304は、キーワードDEFを使用してTIMERという名称で定義される。以下、TimeSensorノード304を単にTIMER304とする。
In addition, the
PositionInterpolator2Dノード305は、補完子ノードの一つである。0〜1の入力値(フィールドkey[0 1])に対して線形補間を実行し、(1,1)〜(2,2)の値(フィールドkeyValue[1,1 2,2])をvalue_changedイベントとして出力し、例えば0.5の入力値に対して、(1.5,1.5)を出力する。PositionInterpolator2Dノード305は、キーワードDEFを使用して、SCALEという名称で定義される。以下、PositionInterpolator2Dノード305を単にSCALE305とする。 The PositionInterpolator2D node 305 is one of complement nodes. Linear interpolation is performed on 0 to 1 input values (field key [0 1]), and values (1, 1) to (2, 2) (field keyValue [1, 1 2, 2]) are value_changed. For example, (1.5, 1.5) is output for an input value of 0.5. The PositionInterpolator2D node 305 is defined with the name SCALE using the keyword DEF. Hereinafter, the PositionInterpolator2D node 305 is simply referred to as SCALE305.
TIMER304のfraction_changed出力イベントは、ROUTE文306によって、SCALE305のset_fraction入力イベントにルート接続される。このROUTE接続により、線形補間が実行され、その結果はSCALE305のvalue_changed出力イベントとして送出される。
The
さらに、SCALE305のvalue_changed出力イベントは、ROUTE文307によって、MOVIE302のフィールドscaleにルート接続される。このROUTE接続により、動画像MOVIE302の表示スケールが変更される。
Further, the value_changed output event of SCALE 305 is route-connected to the field scale of MOVIE 302 by the
このようにBIFSデータ300によると、時刻0秒から1秒間、動画像オブジェクトデータ"test.mpeg"のスケールは(1,1)から(2,2)まで拡大されることになる。例えば0.5秒時には、幅、高さ共1.5倍のスケールで表示される。尚、ここではその他のノード、フィールドに関しての詳細な説明は省略する。
Thus, according to the
次に、図3に示したBIFSデータ300を含むマルチメディアデータ例及び、そのマルチメディアデータに対する動作環境による復号、再生処理の違いについて説明する。
図4(a)は、図3に示したBIFSデータ300を含むマルチメディアデータ例を示す図である。図4(a)に示すように、マルチメディアデータ400は、前述のBIFSデータ300と動画像オブジェクトデータ“test.mpeg"の各フレームFrameN(N=0,1,2,…)とから構成される。また、図4(b)は、図4(a)に示した、マルチメディアデータ400に対する動作環境による復号、再生処理の違いを示す図である。
Next, an example of multimedia data including the
FIG. 4A shows an example of multimedia data including the
本実施形態では、マルチメディアデータ400を構成するBIFSデータ300のパケットには、DTS、CTSとして0(msec(ミリ秒))が付加され、動画像オブジェクトデータ“test.mpeg"の各フレームFrameNにはDTS、CTSとして50×N(msec)が付加されているものとする。
In the present embodiment, 0 (msec (milliseconds)) is added to the packet of the
上述したDTS、CTSが付与されたマルチメディアデータ400を復号、再生処理した場合、図4(b)の上段に示すように理想的な動作環境においては、BIFSデータ300及び動画像オブエジェクトデータFrame0(401)は、時刻0msecで復号、再生される。又、動画像オブジェクトデータFrame10(402)は、時刻500(msec)で復号、再生される。同様に、動画像オブジェクトデータFrame20(403)は、時刻1000(msec)で復号、再生され、動画像オブジェクトデータFrame30(404)は、時刻1500(msec)で復号、再生される。このように、無限に高速で処理される理想的な動作環境においては、BIFSデータ300及び動画像オブジェクトデータFrameNは、時間情報DTS、CTSに従って理想的なタイミングで復号、再生処理がなされる。
When the
ここで、図4(b)の上段に示すような理想的なタイミングでマルチメディアデータ400が復号、再生処理された場合の画面例について説明する。
図5は、図4(b)の上段に示すような理想的なタイミングでマルチメディアデータ400が復号、再生処理された場合の画面例を時間経過と共に示した図である。図5に示すように、時刻0msec時に、動画像Frame0(401)が幅、高さのスケールがそれぞれ等倍で再生される(画面500)。次に、時刻500msec時に、動画像Frame10(402)が幅、高さのスケールがそれぞれ1.5倍で再生される(画面501)。同様に、時刻1000msec、1500msec時に、動画像Frame20(403)、Frame30(404)が幅、高さのスケールがそれぞれ2倍で再生される(画面502、画面503)。このように、動画像オブジェクトデータの各フレームFrameNは、コンテンツ作成者の意図したスケールで時間情報DTS、CTSに応じたタイミングで再生される。
Here, an example of a screen when the
FIG. 5 is a diagram showing an example of a screen over time when the
ところが、伝送路100が接続されているネットワークの通信速度が低い場合や、回線が混雑している場合や、受信装置101の処理能力が低い場合等には、マルチメディアデータ400中のBIFSデータ300に後続する動画像オブジェクトデータFrameNの受信処理や、復号処理に遅延が発生する場合が考えられる。このような場合には、時間情報DTS、CTSに応じたタイミングで動画像オブジェクトデータFrameNの復号、再生を行うことができない場合がある。図4(b)の下段は、時間情報DTS、CTSに応じたタイミングで動画像オブジェクトデータFrameNの復号、再生を行うことができない場合を示している。
However, when the communication speed of the network to which the
具体的には図4(b)の下段に示す遅延環境は、動画像オブジェクトデータの受信や復号に500msecの遅延が発生した場合の例である。すなわち、BIFSデータ300は、時刻0msecで復号、再生されるが、動画像オブジェクトデータの各フレーム401〜404は、各々の時間情報DTS、CTSより500msec遅れて復号、再生される。
Specifically, the delay environment shown in the lower part of FIG. 4B is an example in the case where a delay of 500 msec occurs in receiving or decoding moving image object data. That is, the
ここで、図4(b)の下段に示すような遅延の発生する遅延環境でマルチメディアデータ400が復号、再生処理された場合の画面例について説明する。
図6は、図4(b)の下段に示すような遅延の発生する遅延環境でマルチメディアデータ400に対して従来の復号、再生処理が行われた場合の画面例を示す図である。図6に示すように、動画像の各フレームは、復号、再生処理のタイミングがずれたことにより、コンテンツ作成者が意図したものとは異なるスケールで再生されることになる。
Here, an example of a screen when the
FIG. 6 is a diagram showing an example of a screen when conventional decoding and reproduction processing is performed on the
つまり、時刻0msec時には、BIFSデータ300は復号されているが、動画像Frame0(401)の復号がなされていない為、何も表示されない(画面600)。次に、時刻500msec時には、時刻0msecで表示されるべき動画像Frame0(401)が、幅、高さのスケールがそれぞれ1.5倍で再生される(画面601)。次に、時刻1000msec時には、時刻500msecで表示されるべき動画像Frame10(402)が、幅、高さのスケールがそれぞれ2倍で再生される(画面602)。次に、時刻1500msec時に、時刻1000msecで表示されるべき動画像Frame20(403)が、幅、高さのスケールがそれぞれ2倍で再生される(画面603)。時刻2000msec時に、時刻1500msecで表示されるべき動画像Frame30(404)が、幅、高さのスケールがそれぞれ2倍で再生される(画面604)。
That is, at
このように遅延の発生する環境において従来の復号、再生処理を行うと、シーン記述データは時間情報に従って復号、再生されるので、時間経過と共にシーン(フィールド値等)を変化するが、後続のメディアオブジェクトデータの受信、復号に遅延が発生した場合には、シーン記述データとメディアオブジェクトデータの同期が取れなくなるという問題がある。 When conventional decoding and playback processing is performed in an environment where delay occurs in this way, scene description data is decoded and played back according to time information, so the scene (field value, etc.) changes over time. If there is a delay in receiving and decoding object data, there is a problem that the scene description data and the media object data cannot be synchronized.
本実施形態における受信装置101は、イベント発生回路105を備えることで、上記した遅延の発生する環境においても、シーン記述データとメディアオブジェクトデータを同期して再生を行うことができる。以下に、イベント発生回路105の発生するイベントを利用してシーン記述データに基づき複数のメディアオブジェクトデータを合成する処理について、図7及び図8のフローチャートを用いて説明する。
The
図7は、受信装置101がシーン記述データを受信した際に、シーン合成回路106がシーン記述データとメディアオブジェクトデータを合成する処理示すフローチャートである。図7では、特にシーン合成回路106の処理について説明しているが、図7のステップS701の前に、逆多重化回路102が、受信したマルチメディアデータに対して逆多重化処理を行い、シーン記述データ復号回路103及びメディア復号回路104が、逆多重化処理された各データに復号処理を行っている。尚、マルチメディアデータに含まれるシーン記述データは、前述したようにメディアオブジェクトデータよりも先に送信されるか、又は送信側からシーンを意図的に更新するために再送される。
FIG. 7 is a flowchart showing a process in which the
まず、シーン合成回路106は、シーン記述データ復号回路103から、復号されたシーン記述データを読み込む(ステップS701)。次に、シーン合成回路106は、読み込んだシーン記述データからシーンを解析する(ステップS702)。次に、シーン合成回路106は、解析の結果、シーン記述データが動画像や音声、静止画像などのメディアデータを参照するか否かを判断する(ステップS703)。この判断は、例えばシーン記述データとしてBIFSを用いた場合には、MovieTexture/AudioClip/ImageTextureノードに代表される、メディアデータを参照するノードが含まれるか否かにより、判断する。
First, the
例えば図3に示したBIFSデータ300の例では、MovieTextureノード303が含まれているので、シーン合成回路106は、メディアデータを参照すると判断する(ステップS703の“はい”)。
For example, in the example of the
上記ステップS703において、シーン中にメディアデータの参照がないと判断した場合(ステップS703の“いいえ”)には、シーン合成回路106は、メディアデータを合成する必要はなく、ステップS701で読み込んだシーン記述データをそのまま合成し、出力する(ステップS707)。
If it is determined in step S703 that there is no reference to media data in the scene (“No” in step S703), the
また、上記ステップS703において、シーン中にメディアデータの参照があると判断した場合(ステップS703の“はい”)には、シーン合成回路106は、現在の時刻が当該メディアデータの再生開始時刻になったか否かを判断する(ステップS704)。この判断には、例えば前述のAudioClipノードの場合には、startTimeフィールドから判断することができ、現時刻がstartTimeを超えた時点でメディアデータの開始時刻になったと判断する。又、前述のMovieTextureノードの場合には、開始時刻でなくとも、逆方向の再生が指定されていなければ、現時刻で開始時刻になったと判断する。その理由は、MovieTextureノードは、現時刻がstartTimeを超えていても、speedフィールドの値が負でなければ、動画像の最初のフレーム(図4の例では、Frame0(401))を表示する必要があるからである。又、前述のImageTextureノードには開始時刻を表すフィールドはないため、同様に現時刻で開始時刻であると判断する。
If it is determined in step S703 that there is a reference to media data in the scene ("Yes" in step S703), the
上記ステップS704で現時刻が当該メディアデータの開始時刻になっていないと判断された場合(ステップS704の“いいえ”)には、シーン合成回路106は、現時刻において当該メディアデータを合成する必要はなく、シーン記述データが他にメディアデータを参照するかどうかを判断する(ステップS708)。一方、現時刻が当該メディアデータの開始時刻であると判断された場合(ステップS704の“はい”)には、シーン合成回路106は、イベント発生回路105から送信されるイベントを受信したかどうかを判断する(ステップS705)。
If it is determined in step S704 that the current time is not the start time of the media data (“No” in step S704), the
この判断処理の内容は、逆多重化回路102がシーン中のメディアデータの読み込みを開始することで、イベント発生回路105が、シーン合成回路106へ送信するイベントが用いられる。例えばシーン記述データとしてBIFSを用いた場合には、MovieTextureノードやAudioClipノードのduration_changedイベントがイベント発生回路105からシーン合成回路106へ送信され、判断に用いられる。逆多重化回路102は各々のノードに関連する動画像や音声の読み込みを開始すると、イベント発生回路105へイベント発行命令を送信する。イベント発行命令を受信したイベント発生回路105はシーン合成回路106へduration_changedイベントを送信する。duration_changedイベントは動画像や音声の継続時間を秒で示したものであるが、値が−1のときは、動画像、音声がまだ読み込まれていないか、何らかの理由で使用できないことを意味する。
The content of this determination processing uses an event transmitted from the
例えば、図3に示したBIFSデータ300の例では、逆多重化回路102は動画像オブジェクトデータ"test.mpeg"の読み込みを開始すると、イベント発生回路105へイベント発行命令を送信する。イベント発行命令を受信したイベント発生回路105は、シーン合成回路106へMovieTextureノードのduration_changedイベントを送信することになる。
For example, in the example of the
イベント発生回路105からイベントを受信したと判断した場合(ステップS705の“はい”)には、シーン合成回路106は、メディア復号回路104から復号されたメディアオブジェクトデータを読み込む(ステップS707)。次に、ステップS708に進み、シーンが他にメディアデータを参照するかどうかを判断する。ここで、参照が無いと判断した場合(ステップS708の“いいえ”)には、シーン合成回路106は、ステップS707で読み込んだメディアデータをシーン記述データと共に合成して、出力機器107へ出力する(ステップS709)。
If it is determined that an event has been received from the event generation circuit 105 (“Yes” in step S705), the
イベント発生回路105からイベントを受信していないと判断した場合(ステップS705の“いいえ”)とは、回線状況の混雑や受信装置101の処理能力が低い為、メディアデータの読み込みが開始していないか、その他何らかの理由で使用できない場合である。この場合、シーン合成回路106は、メディア復号回路104から復号されたメディアオブジェクトデータを読み込むことはできず、イベント発生回路105からイベントが送信されるのを待機して(ステップS706)、再度ステップS705の処理を行う。イベントが送信されるまでの間、シーンは時間が経過しても変化せず、フィールド値も更新しない。よって図3のBIFSデータ300の例では、TIMER304は時刻500msecを経過するまでの間fraction_changedイベントの出力を行わない。
When it is determined that no event has been received from the event generation circuit 105 (“No” in step S705), reading of media data has not started because the line status is congested and the processing capability of the receiving
又、ステップS708で、シーンが他のメディアデータを参照する場合(ステップS708の“はい”)には、シーン合成回路106は、当該メディアオブジェクトデータの開始時刻になったかどうかを判断するべく、ステップS704へと処理を移行する。
In step S708, if the scene refers to other media data (“Yes” in step S708), the
図8は、既にシーン記述データを読み込み済みの場合に、受信装置101のシーン合成回路106がシーン記述データとメディアオブジェクトデータを合成する処理を示すフローチャートである。すなわち、図8の処理は、図7に示した処理に続く処理である。
FIG. 8 is a flowchart showing a process in which the
まず、シーン合成回路106は、既に読み込み済みのシーン記述データのフィールド値を、時間経過と共に変化させる(ステップS801)。図3のBIFSデータ300の例では、TIMER304が経過した時間に従ってfraction_changedイベントを出力する。
First, the
次に、シーン合成回路106は、シーン中のメディアデータで未開始のメディアデータがあるか否かを判断する(ステップS802)。図3のBIFSデータ300にはMovieTextureノード303が含まれるが、図7に示したステップS704で既に再生が開始されていると判断され、未開始のメディアデータは無いと判断する。
Next, the
このように、未開始のメディアデータがないと判断された場合(ステップS802の“いいえ”)には、シーン中にメディアデータの参照がないか、既に全てのメディアデータの再生を開始しているので、シーン合成回路106は、シーン記述データを合成して出力する(ステップS808)。
As described above, when it is determined that there is no unstarted media data (“No” in step S802), there is no reference to the media data in the scene, or reproduction of all media data has already started. Therefore, the
また、シーン中に未開始のメディアデータがあると判断された場合(ステップS802の“はい”)には、シーン合成回路106は、現在の時刻が当該メディアデータの開始時刻になったかどうかを判断する(ステップS803)。この判断は、図7に示したステップS704と同様の処理である。
If it is determined that there is unstarted media data in the scene (“Yes” in step S802), the
現時刻が当該メディアデータの開示時刻になっていないと判断された場合(ステップS803の“いいえ”)には、シーン合成回路106は、現時刻において当該メディアデータを合成する必要はなく、ステップS807へと処理を進める。
If it is determined that the current time is not the disclosure time of the media data (“No” in step S803), the
又、現時刻が当該メディアデータの開始時刻であると判断された場合(ステップS803の“はい”)には、当該メディアデータの読み込みが開始したかどうかを判断する為、シーン合成回路106は、イベント発生回路105からのイベント受信が完了したかどうかを判断する(ステップS804)。この判断は、図7に示したステップS705と同様の処理である。
If it is determined that the current time is the start time of the media data (“Yes” in step S803), the
上記イベント受信が完了したと判断された場合には、シーン合成回路106は、メディア復号回路104から復号されたメディアオブジェクトデータを読み込み(ステップS806)、シーン中に他に未開始のメディアデータがあるか否かを判断し(ステップS807)、無ければシーン記述データと共に合成して、出力機器107へ出力する(ステップS808)。
If it is determined that the event reception has been completed, the
一方、イベント受信が未完了と判断された場合には、図7に示したステップS706と同様に、シーン合成回路106は、イベント発生回路105からイベントが送信されるのを待機する(ステップS805)。
On the other hand, when it is determined that the event reception has not been completed, the
又、ステップS807で、他に未開始のメディアデータが存在する場合(ステップS807の“はい”)には、シーン合成回路106は、当該メディアデータが開始時刻になったかどうかを判断するべく、ステップS803へと処理を移行する。
If there is other unstarted media data in step S807 (“Yes” in step S807), the
図9は、図7、図8のフローチャートに基づいて、前述した遅延の発生する環境において、マルチメディアデータ400が時間経過と共に再生される画面例を示した図である。
図9に示すように、時刻0msec時には、BIFSデータ300は復号されているが、動画像オブジェクトデータの復号が完了していない為、何も表示されない(画面600)。時刻500msec時には、動画像オブジェクトデータFrame0(401)が幅、高さのスケールがそれぞれ等倍で表示される(画面500)。動画像オブジェクトデータFrame0(401)の読み込みが開始されるまで、シーン合成回路106は時間が経過してもシーンを変化しない(TIMER304がfraction_changedイベントを出力しない)為、MOVIE302のscaleフィールド値は(1,1)のままである。
FIG. 9 is a diagram showing an example of a screen on which the
As shown in FIG. 9, at the time of 0 msec, the
時刻1000msec時には、動画像オブジェクトデータFrame10(402)が幅、高さのスケールがそれぞれ1.5倍で表示される(画面501)。時刻1500msec時には、動画像オブジェクトデータFrame20(403)が幅、高さのスケールがそれぞれ2倍で表示される(画面502)。時刻2000msec時には、動画像オブジェクトデータFrame30(404)が幅、高さのスケールがそれぞれ2倍で表示される(画面503)。 When the time is 1000 msec, the moving image object data Frame 10 (402) is displayed with a scale of 1.5 times the width and height (screen 501). At the time of 1500 msec, the moving image object data Frame 20 (403) is displayed with the scale of width and height being doubled (screen 502). When the time is 2000 msec, the moving image object data Frame 30 (404) is displayed with the scale of the width and the height being doubled (screen 503).
このように、本実施形態の受信装置101によれば、シーン合成回路106は、メディアデータの開始時間となっても、イベント発生回路105からのイベントを受信するまでシーンを停止して待機することができる。これにより、図9に示すように、動画像フレームFrame0の復号処理を待つために、最初の画面(画面500)の再生処理において500msecの遅延はあるものの、以降の画面(画面501〜503の画面)は図5で示される理想環境と同様に再生することができる。すなわち、本実施形態の受信装置101によれば、複数のオブジェクトから構成されるマルチメディアデータから各オブジェクトを分離し、再生する際に、動画像や音声等のメディアオブジェクトデータとシーン記述データで管理されるシーンとが同期した合成や再生を、通信回線の種類や回線状況や端末の処理能力に関わらず、確実に行うことができる。
As described above, according to the receiving
上述した実施形態において図3、図4に示した例では説明を分かり易くする為に、シーンの構成は動画像だけとしたが、シーンを構成するメディアオブジェクトとしては、動画像に限られるものではなく、音声や静止画等を用いることが可能である。よって、シーンとの同期を取るための制御対象物も動画像に限られるものではなく、動画像を構成するオブジェクトや、音声、静止画等のいずれであっても適用可能である。 In the embodiment described above, in the example shown in FIG. 3 and FIG. 4, the scene configuration is only a moving image for easy understanding. However, the media objects constituting the scene are not limited to the moving image. It is possible to use audio, still images, and the like. Therefore, the control target for synchronizing with the scene is not limited to a moving image, and any object that forms a moving image, audio, still image, or the like can be applied.
[第2の実施形態]
上述した第1の実施形態では、受信装置101がマルチメディアデータを受信すると、逆多重化回路102が受信したマルチメディアデータをシーン記述データとメディアオブジェクトデータに分離し、それぞれの復号回路103、104へ入力する構成としたが、その構成と異なる構成である第2の実施形態における受信装置1000について以下に説明する。
[Second Embodiment]
In the above-described first embodiment, when the receiving
図10は、第2の実施形態における受信装置1000の概略構成を示す図である。図10に示すように、受信装置1000は、シーン記述データをメディアオブジェクトデータと異なる経路(伝送路100)で受信する構成である。尚、図10において符号100、102〜107に示すように、図1と同じ機能のものには同じ符号を付与している。
FIG. 10 is a diagram illustrating a schematic configuration of a
本実施形態の受信装置1000は、シーン記述データを受信すると、メディアオブジェクトデータとは異なる伝送路100(図10の上側)を介してシーン記述データ復号回路103へ入力する。また、シーン記述データと異なる伝送路100(図10の下側)を介して多重化されたメディアオブジェクトデータは、第1の実施形態と同様に、逆多重化回路102へ入力する。入力されたメディアオブジェクトデータは、逆多重化回路102おいて逆多重化され、それぞれのメディア復号回路104へ入力される。また、本実施形態の受信装置1000における処理フローは、図7、図8に示した第1の実施形態における受信装置101の処理フローと同様である。
When receiving the scene description data, the receiving
本実施形態で示した受信装置1000によると、シーン記述データとしてVRMLやSMIL等を用い、シーン記述データと符号化されたメディアデータを同一のストリームに多重化しない構成のマルチメディアデータを再生するに際して、第1の実施形態の目的と同様に、シーンとメディアオブジェクトデータとの同期した合成、再生を、通信回線や回線状況、端末の処理能力に関わらず、確実に行うことが可能になる。
According to the
[第3の実施形態]
第1の実施形態では、イベント発生回路105は、逆多重化回路102がシーン中のメディアデータの読み込みを開始すると、シーン合成回路106へイベントを送信する構成としたが、その構成と異なる構成である第3の実施形態における受信装置1100について以下に説明する。
[Third Embodiment]
In the first embodiment, the
図11は、第3の実施形態における受信装置1100の概略構成を示す図である。図11に示すように、受信装置1100のイベント発生回路105は、メディア復号回路114におけるメディアデータ復号処理の状況に応じてイベントを発生する構成である。尚、図11において符号100、102、103、105〜107に示すように、図1と同じ機能のものには同じ符号を付与している。
FIG. 11 is a diagram illustrating a schematic configuration of a
図1に示した第1の実施形態における受信装置101の処理能力が低い場合、メディア復号回路104は復号処理に時間を要する為、シーンとメディアデータ間の同期が取れなくなる可能性がある。そこで本実施形態では、メディア復号回路114が、メディアデータの復号処理を完了すると、イベント発生回路105へイベント発行命令を送信する機能(発行命令手段)を有する。イベント発行命令を受信したイベント発生回路105は、シーン合成回路106へイベントを送信する構成とする。また、本実施形態の受信装置1100における処理は、図7、図8に示した第1の実施形態における受信装置101の処理と同様である。
When the processing capability of the receiving
以上より、本実施形態で示した受信装置1100によれば、メディアオブジェクトデータの復号処理の進捗を考慮してシーンの進行を制御するので、複数のオブジェクトから構成される符号化されたマルチメディアデータを再生するに際して、特に動画や音声等のメディアオブジェクトデータの復号に時間を要しても、シーンとメディアオブジェクトデータとの同期した合成、再生を、通信回線や回線状況、端末の処理能力に関わらず、確実に行うことが可能になる。
As described above, according to the
[第4の実施形態]
上述した第2の実施形態では、イベント発生回路105は、逆多重化回路102がシーン中のメディアデータの読み込みを開始すると、シーン合成回路106へイベントを送信する構成としたが、その構成と異なる構成である第4の実施形態における受信装置1200について以下に説明する。
[Fourth Embodiment]
In the second embodiment described above, the
図12は、第4の実施形態における受信装置1200の概略構成を示す図である。図12に示すように、受信装置1200のイベント発生回路105は、メディア復号回路114のメディアデータ復号処理の状況に応じてイベントを発生する構成である。尚、図12において符号100、102、103、105〜107に示すように、図10と同じ機能のものには同じ符号を付与している。
FIG. 12 is a diagram illustrating a schematic configuration of a
図10に示した第2の実施形態における受信装置1000の処理能力が低い場合、メディア復号回路104は復号処理に時間を要する為、シーンとメディアデータ間の同期が取れなくなる可能性がある。そこで本実施形態では、メディア復号回路114がメディアデータの復号処理を完了すると、イベント発生回路105へイベント発行命令を送信し、イベント発行命令を受信したイベント発生回路105は、シーン合成回路106へイベントを送信する構成とする。
When the processing capability of the
以上より、本実施形態で示した受信装置1200によれば、メディアオブジェクトデータの復号処理の進捗を考慮してシーンの進行を制御するので、複数のオブジェクトから構成される符号化されたマルチメディアデータを再生するに際して、特に動画や音声等のメディアオブジェクトデータの復号に時間を要しても、シーンとメディアオブジェクトデータとの同期した合成、再生を、通信回線や回線状況、端末の処理能力に関わらず、確実に行うことが可能になる。
As described above, according to the
[その他の実施形態]
また、上述した実施形態では、受信装置内の各機能を回路により実現したが、これに限定されるものではない。受信装置内の各機能を実現するためのソフトウェアのプログラムコードを記録した記録媒体をシステムあるいは装置に提供し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによって受信装置内の各機能を実現してもよい。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現するためのものであり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
[Other Embodiments]
In the above-described embodiment, each function in the receiving apparatus is realized by a circuit. However, the present invention is not limited to this. A recording medium in which a program code of software for realizing each function in the receiving apparatus is recorded is provided to the system or apparatus, and the computer (or CPU or MPU) of the system or apparatus stores the program code stored in the recording medium. Each function in the receiving apparatus may be realized by executing reading. In this case, the program code itself read from the recording medium is for realizing the functions of the above-described embodiment, and the recording medium on which the program code is recorded constitutes the present invention.
上述した、プログラムコードを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。 As the recording medium for supplying the program code described above, for example, a flexible disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a magnetic tape, a nonvolatile memory card, a ROM, or the like is used. Can do.
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれていることは言うまでもない。 Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (operating system) operating on the computer based on the instruction of the program code. Needless to say, some or all of the actual processing is performed and the functions of the above-described embodiments are realized by the processing.
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書きこまれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現されてもよい。 Furthermore, after the program code read from the recording medium is written to the memory provided in the function expansion board inserted into the computer or the function expansion unit connected to the computer, the function is determined based on the instruction of the program code. A CPU or the like provided in the expansion board or the function expansion unit may perform part or all of the actual processing, and the functions of the above-described embodiments may be realized by the processing.
また、上記のプログラムコードを記録したコンピュータ読み取り可能な記録媒体等のプログラムプロダクトも本発明の実施形態として適用することができる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
A program product such as a computer-readable recording medium in which the above program code is recorded can also be applied as an embodiment of the present invention.
The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
100 伝送路
101 マルチメディアデータ受信装置
102 逆多重化回路
103 シーン記述データ復号回路
104、114 メディア復号回路
105 イベント発生回路
106 シーン合成回路
107 出力機器
1000、1100、1200 マルチメディアデータ受信装置(受信装置)
DESCRIPTION OF
Claims (6)
受信した前記マルチメディアデータを前記オブジェクトデータ単位で分離する分離手段と、
前記分離手段が分離した複数の前記オブジェクトデータを復号化する一つ又は複数の第1の復号化手段と、
前記マルチメディアデータに含まれる一部のデータとして又は前記ネットワークと異なる通信経路で独立したデータとして符号化された前記シーン記述データを受信した場合に、前記シーン記述データを復号化する第2の復号化手段と、
前記分離手段が前記オブジェクトデータの読み込みを開始するタイミング又は、前記第1の復号化手段が前記オブジェクトデータを復号化するタイミングに応じてイベントを発生するイベント発生手段と、
前記イベント発生手段が発生する前記イベントを受信したタイミングに応じて、前記第2の復号化手段が復号化した前記シーン記述データを基に、前記第1の復号化手段が復号化した複数の前記オブジェクトデータの合成処理を行うシーン合成手段と
を備えることを特徴とするデータ処理装置。 A data processing device that receives multimedia data including one or more encoded moving image and / or audio object data via a network and performs playback processing according to scene description data,
Separating means for separating the received multimedia data in units of the object data;
One or more first decoding means for decoding the plurality of object data separated by the separation means;
Second decoding for decoding the scene description data when the scene description data encoded as a part of the data included in the multimedia data or as independent data through a communication path different from the network is received; And
Event generating means for generating an event in accordance with the timing at which the separation means starts reading the object data or the timing at which the first decoding means decodes the object data;
Based on the scene description data decoded by the second decoding unit according to the timing at which the event generated by the event generating unit is received, the plurality of the decoding units decoded by the first decoding unit A data processing apparatus comprising: scene combining means for performing object data combining processing.
受信した前記マルチメディアデータを前記オブジェクトデータ単位で分離する分離ステップと、
前記分離ステップで分離した複数の前記オブジェクトデータを復号化する一つ又は複数の第1の復号化ステップと、
前記マルチメディアデータに含まれる一部のデータとして又は前記ネットワークと異なる通信経路で独立したデータとして符号化された前記シーン記述データを受信した場合に、前記シーン記述データを復号化する第2の復号化ステップと、
前記分離ステップで前記オブジェクトデータの読み込みを開始するタイミング又は、前記第1の復号化ステップで前記オブジェクトデータを復号化するタイミングに応じてイベントを発行するイベント発行ステップと、
前記イベント発生ステップで発生する前記イベントを受信したタイミングに応じて、前記第2の復号化ステップで復号化した前記シーン記述データを基に、前記第1の復号化ステップで復号化した複数の前記オブジェクトデータの合成処理を行うシーン合成ステップと
を有することを特徴とするデータ処理方法。 A data processing method using a data processing apparatus that receives multimedia data including one or more encoded moving image and / or audio object data via a network and reproduces the data according to scene description data. ,
A separation step of separating the received multimedia data in units of the object data;
One or more first decoding steps for decoding the plurality of object data separated in the separation step;
Second decoding for decoding the scene description data when the scene description data encoded as a part of the data included in the multimedia data or as independent data through a communication path different from the network is received; Step,
An event issuing step for issuing an event in accordance with a timing at which reading of the object data is started in the separation step or a timing at which the object data is decoded in the first decoding step;
Based on the timing of receiving the event generated in the event generation step, based on the scene description data decoded in the second decoding step, a plurality of the decoded in the first decoding step A scene synthesis step for performing synthesis processing of object data.
受信した前記マルチメディアデータを前記オブジェクトデータ単位で分離する分離ステップと、
前記分離ステップで分離した複数の前記オブジェクトデータを復号化する一つ又は複数の第1の復号化ステップと、
前記マルチメディアデータに含まれる一部のデータとして又は前記ネットワークと異なる通信経路で独立したデータとして符号化された前記シーン記述データを受信した場合に、前記シーン記述データを復号化する第2の復号化ステップと、
前記分離ステップで前記オブジェクトデータの読み込みを開始するタイミング又は、前記第1の復号化ステップで前記オブジェクトデータを復号化するタイミングに応じてイベントを発行するイベント発行ステップと、
前記イベント発生ステップで発生する前記イベントを受信したタイミングに応じて、前記第2の復号化ステップで復号化した前記シーン記述データを基に、前記第1の復号化ステップで復号化した複数の前記オブジェクトデータの合成処理を行うシーン合成ステップと
をコンピュータに実行させるためのプログラム。 A program for a data processing apparatus that receives multimedia data including one or a plurality of encoded moving image and / or audio object data via a network and reproduces the data according to scene description data,
A separation step of separating the received multimedia data in units of the object data;
One or more first decoding steps for decoding the plurality of object data separated in the separation step;
Second decoding for decoding the scene description data when the scene description data encoded as a part of the data included in the multimedia data or as independent data through a communication path different from the network is received; Step,
An event issuing step for issuing an event in accordance with a timing at which reading of the object data is started in the separation step or a timing at which the object data is decoded in the first decoding step;
Based on the timing of receiving the event generated in the event generation step, based on the scene description data decoded in the second decoding step, a plurality of the decoded in the first decoding step A program for causing a computer to execute a scene composition step for performing object data composition processing.
受信した前記マルチメディアデータを前記オブジェクトデータ単位で分離する分離ステップと、
前記分離ステップで分離した複数の前記オブジェクトデータを復号化する一つ又は複数の第1の復号化ステップと、
前記マルチメディアデータに含まれる一部のデータとして又は前記ネットワークと異なる通信経路で独立したデータとして符号化された前記シーン記述データを受信した場合に、前記シーン記述データを復号化する第2の復号化ステップと、
前記分離ステップで前記オブジェクトデータの読み込みを開始するタイミング又は、前記第1の復号化ステップで前記オブジェクトデータを復号化するタイミングに応じてイベントを発行するイベント発行ステップと、
前記イベント発生ステップで発生する前記イベントを受信したタイミングに応じて、前記第2の復号化ステップで復号化した前記シーン記述データを基に、前記第1の復号化ステップで復号化した複数の前記オブジェクトデータの合成処理を行うシーン合成ステップと
をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。 A recording medium for recording a program for a data processing device that receives multimedia data including one or more encoded moving image and / or object data related to sound via a network and performs playback processing according to scene description data There,
A separation step of separating the received multimedia data in units of the object data;
One or more first decoding steps for decoding the plurality of object data separated in the separation step;
Second decoding for decoding the scene description data when the scene description data encoded as a part of the data included in the multimedia data or as independent data through a communication path different from the network is received; Step,
An event issuing step for issuing an event in accordance with a timing at which reading of the object data is started in the separation step or a timing at which the object data is decoded in the first decoding step;
Based on the timing of receiving the event generated in the event generation step, based on the scene description data decoded in the second decoding step, a plurality of the decoded in the first decoding step A computer-readable recording medium having recorded thereon a program for causing a computer to execute a scene synthesis step for synthesizing object data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004191539A JP2006014180A (en) | 2004-06-29 | 2004-06-29 | Data processor, data processing method and program therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004191539A JP2006014180A (en) | 2004-06-29 | 2004-06-29 | Data processor, data processing method and program therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006014180A true JP2006014180A (en) | 2006-01-12 |
Family
ID=35780825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004191539A Pending JP2006014180A (en) | 2004-06-29 | 2004-06-29 | Data processor, data processing method and program therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006014180A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101040086B1 (en) * | 2009-05-20 | 2011-06-09 | 전자부품연구원 | Method and apparatus for generating audio and method and apparatus for reproducing audio |
-
2004
- 2004-06-29 JP JP2004191539A patent/JP2006014180A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101040086B1 (en) * | 2009-05-20 | 2011-06-09 | 전자부품연구원 | Method and apparatus for generating audio and method and apparatus for reproducing audio |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8233780B2 (en) | Reproducing apparatus and method, and recording medium | |
JP2001359072A (en) | Data converter and method, data distributor and method, data distribution system | |
WO2013136754A1 (en) | Display device and transmitter | |
CA2483582C (en) | Apparatus and method for decoding data for providing browsable slide show, and data storage medium therefor | |
US20060140591A1 (en) | Systems and methods for load balancing audio/video streams | |
JP4724919B2 (en) | Recording apparatus and recording method, reproducing apparatus and reproducing method, and recording medium | |
JP2004364211A (en) | Moving picture decoding apparatus | |
US8238446B2 (en) | Method and apparatus for reproducing digital broadcasting | |
JP2006190213A (en) | Device for reproducing media | |
CA2490879C (en) | Reproducing apparatus and method, and recording medium | |
JPH104539A (en) | Data multiplexing method and multiplexed data reproduction device | |
JP2006014180A (en) | Data processor, data processing method and program therefor | |
KR100825755B1 (en) | Method and its apparatus of transmitting/receiving digital multimedia broadcasting(dmb) for connecting data service based on mpeg-4 bifs with data service based on middleware | |
CA2725177C (en) | Reproducing apparatus and method, and recording medium | |
JP2007195064A (en) | Device and method for transmitting, image information, program, and storage medium | |
JP2005159878A (en) | Data processor and data processing method, program and storage medium | |
JP2005176094A (en) | Data processor, data processing method, program and storage medium | |
JP3979566B2 (en) | Time-varying text information segmentation device with moving images | |
JP2007036539A (en) | Decoding method, decoding combining controller, and image synthesizing system | |
JP2019149790A (en) | Recorder, player, converter, transmitter, recording method, playback method, conversion method, and data structure of stream data | |
JP2002094995A (en) | Data processing method, data processing unit and data processing system | |
KR20070054269A (en) | For displaying method and apparatus an image frame in an image playing system | |
JP2001352516A (en) | Method and device for storing and reproducing moving picture information | |
JP2002077902A (en) | Method and device for describing scene and storage medium | |
JP2006352731A (en) | Stream picture recording and reproducing apparatus, and stream picture recording and reproducing method |