JP2006128818A - Recording program and reproducing program corresponding to stereoscopic video and 3d audio, recording apparatus, reproducing apparatus and recording medium - Google Patents

Recording program and reproducing program corresponding to stereoscopic video and 3d audio, recording apparatus, reproducing apparatus and recording medium Download PDF

Info

Publication number
JP2006128818A
JP2006128818A JP2004311399A JP2004311399A JP2006128818A JP 2006128818 A JP2006128818 A JP 2006128818A JP 2004311399 A JP2004311399 A JP 2004311399A JP 2004311399 A JP2004311399 A JP 2004311399A JP 2006128818 A JP2006128818 A JP 2006128818A
Authority
JP
Japan
Prior art keywords
stereoscopic
data
position information
sound
recording medium
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004311399A
Other languages
Japanese (ja)
Inventor
Takayuki Sugawara
隆幸 菅原
Kunio Yamada
邦男 山田
Shinji Nakamura
伸司 中村
Akinari Suehiro
晃也 末廣
Sadahiro Yasura
定浩 安良
Takao Yamabe
孝朗 山辺
Katsumi Hasegawa
勝巳 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2004311399A priority Critical patent/JP2006128818A/en
Publication of JP2006128818A publication Critical patent/JP2006128818A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a recording/reproducing technique corresponding to stereoscopic video and stereoscopic audio, capable of performing corresponding recording and reproducing of the contents of stereoscopic video and stereoscopic audio. <P>SOLUTION: This system consists of a recording system for describing the stereoscopic positional information of an object in specific time units, by using user data region defined in MPEG, a private stream, or an information body of another region, describing the identification information of the object in specific time units so that the information is linked with the identification information of the steams of both stereoscopic video data and stereoscopic audio data, and recording the stereoscopic video data in a recording medium, together with the audio data; and a reproducing system for detecting the stereoscopic positional information of the object from the recording medium, detecting the identification information of the object from the streams of both the stereoscopic video data and stereoscopic audio data, and controlling sound image localization position, by using a speaker array so that the stereoscopic localization position of the sound image of the audio data, corresponding to the identification information of the object of the video image, becomes the stereoscopic position of the object. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、立体映像のオブジェクトの動きと立体音響を対応させて記録し、再生するための立体映像・立体音響対応記録プログラム、再生プログラム、記録装置、再生装置及び映像音響記録メディアに関する。   The present invention relates to a stereoscopic video / stereo acoustic correspondence recording program, a reproduction program, a recording apparatus, a reproducing apparatus, and an audiovisual recording medium for recording and reproducing stereoscopic object motion and stereoscopic sound in association with each other.

従来、いくつかの方式で3D(立体)映像再生技術が提案されている。また3D(立体)音場に関する技術も、スピーカのないところから、あたかもその位置にスピーカがあるかのように音を定位させて再生する技術が提案されている。しかし、空間を表現できる立体映像技術で表示再現できるコンテンツの立体的な映像と空間音響の空間定位技術による音響とを連携させて再生することができないという問題点があった。   Conventionally, 3D (stereoscopic) video reproduction techniques have been proposed in several ways. Further, as a technique related to a 3D (stereoscopic) sound field, a technique has been proposed in which a sound is localized and reproduced as if a speaker is located at that position from a place without a speaker. However, there is a problem that it is not possible to reproduce the stereoscopic video of the content that can be displayed and reproduced by the stereoscopic video technology that can express the space and the sound by the spatial localization technology of the spatial sound in cooperation.

例えば、特開2000−17355号公報(特許文献1)には、本発明者から対象物体に関するステレオ画像の相対応する両画素点間を結ぶエピポーラ線の方向とその直交する方向に関して両方向にそれぞれ相対応する両画素点を含むように画面上の2次元探索を行って視差ベクトルを求め、対象物体までの距離を計算する方法が開示されている。   For example, in Japanese Patent Laid-Open No. 2000-17355 (Patent Document 1), the present inventor discloses a phase in both directions with respect to a direction of an epipolar line connecting between corresponding pixel points of a stereo image related to a target object and a direction orthogonal thereto. A method of calculating a distance to a target object by performing a two-dimensional search on the screen so as to include both corresponding pixel points and calculating a disparity vector is disclosed.

また、特開平7−236199公報(特許文献2)には、立体映像における左右の物体の動きは動きベクトルの検出によって自動的に検出し、これに応じた音場は主音声信号及び副音声信号によって駆動される主スピーカ及びサラウンドスピーカで立体的に再生をする方式が開示されている。しかしながら、動きベクトルはコンテンツの時間方向に関する物体の動きであり、3次元立体映像の奥行きの情報ではない。また、立体音場もこの従来技術では、単に幾つかのスピーカでのサラウンド感を用いて行うもので、空間での音の定位を行うものではない。   In Japanese Patent Laid-Open No. 7-236199 (Patent Document 2), the movements of left and right objects in a stereoscopic video are automatically detected by detecting a motion vector, and the sound fields corresponding to the motions are a main audio signal and a sub audio signal. A method of reproducing three-dimensionally with a main speaker and a surround speaker driven by the above is disclosed. However, the motion vector is the motion of the object in the time direction of the content and is not information on the depth of the 3D stereoscopic video. In this prior art, the three-dimensional sound field is also performed by simply using the surround feeling of several speakers, and does not perform localization of sound in space.

また、特開2001−306081公報(特許文献3)には、実時間でオーディオ空間の構成を制御する音楽空間構成制御装置に関する技術が開示されており、DirectXに存在する3次元音源を記述するパラメータを使い、定位、方向、ドップラーパラメータなどを用いて効果的なミュージックスペースを提供することが開示されている。しかしながら立体映像の空間である奥行きに関するパラメータは開示されておらず、その空間的映像と音響の同期再生も説明されていない。   Japanese Patent Laid-Open No. 2001-306081 (Patent Document 3) discloses a technique related to a music space configuration control device that controls the configuration of an audio space in real time, and parameters that describe a three-dimensional sound source existing in DirectX. To provide an effective music space using localization, direction, Doppler parameters, and the like. However, a parameter relating to depth, which is a space of stereoscopic video, is not disclosed, and synchronous playback of the spatial video and sound is not described.

このように、従来では、3次元の立体映像の奥行き方向の動きに対応して、音の定位技術を用いて映像と音響を連携させて再生することや、映像がディスプレイ表示域を超えてもそのコンテンツの音を音の定位技術を利用して再生して臨場感のある映像音響を再生するシステムは知られていない。
特開2000−17355号公報 特開平7−236199号公報 特開2001−306081号公報 NHK放送技術研究所、「3次元映像の基礎」、オーム社、1995年 イエンスブラウエルト著、「空間音響」、鹿島出版会、1985年 B. Javidi, F. Okano Editors, “Three−Dimensional Television, Video, and Display Technologies”, Springer−Verlag (2002), P101〜P123
As described above, conventionally, in response to the movement in the depth direction of a three-dimensional stereoscopic image, the sound and the sound are coordinated to reproduce the image and the sound, or even if the image exceeds the display display area. There is no known system that reproduces the sound of the content using sound localization technology and reproduces realistic video and audio.
JP 2000-17355 A JP 7-236199 A JP 2001-306081 A NHK Broadcasting Technology Laboratory, “Basics of 3D Video”, Ohm, 1995 By Jens Brauert, “Spatial Acoustics”, Kashima Press, 1985 B. Javidi, F.A. Okano Editors, “Three-Dimensional Television, Video, and Display Technologies”, Springer-Verlag (2002), P101-P123.

本発明は、立体映像と立体音響のコンテンツの対応記録ができる立体映像・立体音響対応記録技術を提供することを目的とする。   It is an object of the present invention to provide a stereoscopic video / stereoacoustic recording technique capable of recording corresponding stereoscopic video and stereoscopic audio content.

本発明はまた、オブジェクトの映像の3次元的位置と音響の3次元的定位を同期して再生することができる立体映像・立体音響対応再生技術を提供することを目的とする。   Another object of the present invention is to provide a stereoscopic video / stereo acoustic compatible reproduction technique capable of reproducing a three-dimensional position of an object video and a three-dimensional sound localization in synchronization.

請求項1の発明の立体映像・立体音響対応記録プログラムは、所定の時間単位で、再生時に自身を音源とする音響の立体定位制御を行おうとするオブジェクトの立体位置情報として当該オブジェクトの水平位置情報、垂直位置情報、奥行き位置情報を作成するステップと、前記オブジェクトの立体位置情報を、立体映像データと音響データの双方のストリーム中の当該オブジェクトの出現タイミングとリンクさせるステップと、前記立体映像データ及び音響データを記録メディアに記録すると共に、前記オブジェクトの立体位置情報を当該立体映像データ及び音響データの双方のストリーム中の当該オブジェクトの出現タイミングとリンクさせて当該記録メディアに記録するステップとをコンピュータに実行させるものである。   According to the first aspect of the present invention, there is provided a recording program for stereoscopic video / stereo sound, which is horizontal position information of an object as stereo positional information of an object for which sound localization control is performed using the sound source as a sound source during reproduction in a predetermined time unit. Creating vertical position information and depth position information; linking the object's stereoscopic position information with the appearance timing of the object in both the stereoscopic video data and audio data streams; and the stereoscopic video data and Recording audio data on a recording medium and recording the object's 3D position information on the recording medium linked to the appearance timing of the object in both the 3D video data and audio data streams. To be executed.

請求項2の発明の立体映像・立体映像・立体音響対応再生プログラムは、立体映像データ及び音響データと共にこれらの再生時に自身を音源とする音響の立体定位制御を行うオブジェクトの立体位置情報及び出現タイミングのリンク情報を記録している記録メディアから立体映像データ及び音響データを読み出して再生するステップと、前記記録メディアから前記オブジェクトの立体位置情報を読み出すステップと、前記記録メディアから前記オブジェクトの立体位置情報に対応する音響データを読み出すステップと、前記オブジェクトの立体位置情報に対応する前記音響データの音像の立体定位位置を当該オブジェクトの立体位置になるように、少なくとも2以上のスピーカを用いて音像位置制御を行うステップとをコンピュータに実行させるものである。   The reproduction program for stereoscopic video / stereoscopic video / stereo sound according to the invention of claim 2 includes the stereoscopic position information and the appearance timing of the object for performing stereo localization control of the sound using itself as a sound source together with the stereoscopic video data and the acoustic data. Reading out and reproducing stereoscopic video data and audio data from a recording medium on which the link information is recorded, reading out the stereoscopic position information of the object from the recording medium, and stereoscopic position information of the object from the recording medium And a sound image position control using at least two speakers so that the stereo localization position of the sound image of the acoustic data corresponding to the stereo position information of the object becomes the stereo position of the object. Do the steps and the executed on the computer Is shall.

請求項3の発明の立体映像・立体音響対応記録装置は、所定の時間単位で、再生時に自身を音源とする音響の立体定位制御を行おうとするオブジェクトの立体位置情報として当該オブジェクトの水平位置情報、垂直位置情報、奥行き位置情報を作成する手段と、前記オブジェクトの立体位置情報を、立体映像データと音響データの双方のストリーム中の当該オブジェクトの出現タイミングとリンクさせる手段と、前記立体映像データ及び音響データを記録メディアに記録すると共に、前記オブジェクトの立体位置情報を当該立体映像データ及び音響データの双方のストリーム中の当該オブジェクトの出現タイミングとリンクさせて当該記録メディアに記録する手段とを備えたものである。   According to a third aspect of the present invention, there is provided a recording apparatus for stereo video / stereo sound, which is horizontal position information of an object as stereo position information of an object to be subjected to stereo stereo control using the sound source as a sound source during reproduction in a predetermined time unit. Means for creating vertical position information and depth position information, means for linking the stereoscopic position information of the object with the appearance timing of the object in both streams of stereoscopic video data and audio data, the stereoscopic video data, and Means for recording the audio data on a recording medium and recording the object's stereoscopic position information on the recording medium linked to the appearance timing of the object in the streams of both the stereoscopic video data and the audio data. Is.

請求項4の発明の立体映像・立体音響対応再生装置は、立体映像データ及び音響データと共にこれらの再生時に自身を音源とする音響の立体定位制御を行うオブジェクトの立体位置情報及び出現タイミングのリンク情報を記録している記録メディアから立体映像データ及び音響データを読み出して再生する手段と、前記記録メディアから前記オブジェクトの立体位置情報を読み出す手段と、前記記録メディアから前記オブジェクトの立体位置情報に対応する音響データを読み出す手段と、前記オブジェクトの立体位置情報に対応する前記音響データの音像の立体定位位置を当該オブジェクトの立体位置になるように、少なくとも2以上のスピーカを用いて音像位置制御を行う手段とを備えたものである。   The stereoscopic video / stereo sound compatible playback device of the invention of claim 4 is the stereoscopic position information of the object and the link information of the appearance timing for performing the stereo localization control of the sound using the sound source as a sound source together with the stereoscopic video data and the acoustic data. Means for reading out and reproducing stereoscopic video data and audio data from a recording medium on which recording is performed, means for reading out stereoscopic position information of the object from the recording medium, and corresponding to the stereoscopic position information of the object from the recording medium Means for reading out sound data, and means for performing sound image position control using at least two or more speakers so that the stereo localization position of the sound image of the acoustic data corresponding to the stereo position information of the object becomes the stereo position of the object. It is equipped with.

請求項5の発明の立体映像・立体音響対応記録メディアは、立体映像データと音響データを記録すると共に、所定の時間単位で作成した再生時に自身を音源とする音響の立体定位制御を行おうとするオブジェクトの立体位置情報を前記立体映像データと音響データの双方のストリーム中の当該オブジェクトの出現タイミングとリンクさせて記録したものである。   The stereoscopic video / stereo sound compatible recording medium of the invention of claim 5 records the stereoscopic video data and the acoustic data, and attempts to perform the stereo localization control of the sound using itself as a sound source during reproduction created in a predetermined time unit. The stereoscopic position information of the object is recorded by being linked to the appearance timing of the object in the streams of both the stereoscopic video data and the audio data.

請求項6の発明の立体映像・立体音響対応記録プログラムは、所定の時間単位で、音源として再生すると共に映像に表示するオブジェクトと音源としては再生するが映像には表示しないオブジェクトとの立体位置情報としてそれぞれのオブジェクトの水平位置情報、垂直位置情報、奥行き位置情報を作成するステップと、前記オブジェクトそれぞれに識別情報を設定するステップと、前記オブジェクトそれぞれの識別情報を、立体映像データと音響データの双方のストリーム中の当該オブジェクトの出現タイミングにリンクさせるステップと、前記立体映像データ及び音響データを記録メディアに記録すると共に、前記オブジェクトの立体位置情報を当該立体映像データ及び音響データの双方のストリーム中の当該オブジェクトの出現タイミングとリンクさせて当該記録メディアに記録するステップとをコンピュータに実行させるものである。   According to a sixth aspect of the present invention, there is provided a three-dimensional video / stereo sound recording program for reproducing information as a sound source and an object to be displayed as a sound source and an object to be reproduced as a sound source but not displayed as a video in a predetermined time unit. Creating horizontal position information, vertical position information, and depth position information for each object, setting identification information for each object, and identifying each object for both stereoscopic video data and audio data. Linking to the appearance timing of the object in the stream, recording the stereoscopic video data and audio data on a recording medium, and the stereoscopic position information of the object in both the stereoscopic video data and audio data streams Appearance timing of the object Grayed and is linked is intended to execute a step of recording on the recording medium to the computer.

請求項7の発明の立体映像・立体音響対応再生プログラムは、立体映像データ及び音響データと共に、これらの再生時に音源として再生すると共に映像に表示するオブジェクトと音源としては再生するが映像には表示しないオブジェクトとの立体位置情報及び出現タイミングを示す情報を各オブジェクトの識別情報と対応させて記録している記録メディアから立体映像データ及び音響データを読み出して再生するステップと、前記記録メディアから映像に表示するオブジェクトと表示しないオブジェクトとの識別情報及び立体位置情報を読み出すステップと、前記記録メディアからオブジェクトそれぞれの識別情報に対応する音響データを読み出すステップと、前記立体映像データのオブジェクトそれぞれの識別情報に対応する音響データの音像の立体定位位置を当該オブジェクトそれぞれの立体位置になるように、少なくとも2以上のスピーカを用いて音像位置制御を行うステップとをコンピュータに実行させるものである。   The reproduction program for stereoscopic video / stereo sound of the invention of claim 7 is reproduced as a sound source at the time of reproduction together with the stereoscopic video data and the audio data, and is reproduced as an object and a sound source to be displayed on the video, but is not displayed on the video. 3D position information with respect to the object and information indicating the appearance timing corresponding to the identification information of each object are recorded and read out from the recording medium, and the 3D video data and the sound data are reproduced and displayed on the video from the recording medium A step of reading identification information and stereoscopic position information of an object to be displayed and an object not to be displayed, a step of reading acoustic data corresponding to the identification information of each object from the recording medium, and a corresponding to identification information of each object of the stereoscopic video data Acoustic data The three-dimensional localization position of the image so that the stereoscopic positions of the object, in which and a step of performing sound image position control by using at least two or more speakers in the computer.

請求項8の立体映像・立体音響対応記録装置は、所定の時間単位で、音源として再生すると共に映像に表示するオブジェクトと音源としては再生するが映像には表示しないオブジェクトとの立体位置情報としてそれぞれのオブジェクトの水平位置情報、垂直位置情報、奥行き位置情報を作成する手段と、前記オブジェクトそれぞれに識別情報を設定する手段と、前記オブジェクトそれぞれの識別情報を、立体映像データと音響データの双方のストリーム中の当該オブジェクトの出現タイミングにリンクさせる手段と、前記立体映像データ及び音響データを記録メディアに記録すると共に、前記オブジェクトの立体位置情報を当該立体映像データ及び音響データの双方のストリーム中の当該オブジェクトの出現タイミングとリンクさせて当該記録メディアに記録する手段とを備えたものである。   The stereoscopic video / stereoacoustic recording apparatus according to claim 8 is configured as stereoscopic position information of an object that is reproduced as a sound source and displayed on the video and an object that is reproduced as the sound source but not displayed on the video in a predetermined time unit. Means for creating horizontal position information, vertical position information, and depth position information of each object, means for setting identification information for each of the objects, and identification information for each of the objects, streams of both stereoscopic video data and audio data Means for linking to the appearance timing of the object in the medium, and recording the stereoscopic video data and the acoustic data on a recording medium, and the stereoscopic position information of the object in the stream of both the stereoscopic video data and the acoustic data Linked to the appearance timing of It is obtained by a means for recording on the media.

請求項9の発明の立体映像・立体音響対応再生装置は、立体映像データ及び音響データと共に、これらの再生時に音源として再生すると共に映像に表示するオブジェクトと音源としては再生するが映像には表示しないオブジェクトとの立体位置情報及び出現タイミングを示す情報を各オブジェクトの識別情報と対応させて記録している記録メディアから立体映像データ及び音響データを読み出して再生する手段と、前記記録メディアから映像に表示するオブジェクトと表示しないオブジェクトとの識別情報及び立体位置情報を読み出す手段と、前記記録メディアからオブジェクトそれぞれの識別情報に対応する音響データを読み出す手段と、前記立体映像データのオブジェクトそれぞれの識別情報に対応する音響データの音像の立体定位位置を当該オブジェクトそれぞれの立体位置になるように、少なくとも2以上のスピーカを用いて音像位置制御を行う手段とを備えたものである。   According to the ninth aspect of the present invention, the 3D video / stereo sound compatible playback apparatus plays back the 3D video data and the audio data as a sound source at the time of playback, and plays back the object and sound source displayed in the video but does not display them in the video. Means for reading out and reproducing stereoscopic video data and audio data from a recording medium in which information indicating stereoscopic position information and appearance timing of the object is recorded in association with identification information of each object, and displayed on the video from the recording medium Means for reading identification information and stereoscopic position information of objects to be displayed and objects not to be displayed, means for reading acoustic data corresponding to the identification information of each object from the recording medium, and corresponding to identification information of each object of the stereoscopic video data Position of sound image of sound data As will become the object each stereoscopic position, in which a means for performing sound image position control by using at least two or more speakers.

請求項10の発明の立体映像・立体音響対応記録メディアは、立体映像データと音響データを記録すると共に、所定の時間単位で作成した、音源を再生すると共に映像を表示するオブジェクトと音源は再生するが映像は表示しないオブジェクトとの立体位置情報及び識別情報を、当該オブジェクトそれぞれの立体映像データと音響データの双方のストリーム中の出現タイミングとリンクさせて記録したものである。   According to the tenth aspect of the present invention, there is provided a recording medium for stereo video / stereo sound that records stereo video data and audio data, reproduces a sound source created in a predetermined time unit, and reproduces an object and a sound source that display images. However, the stereoscopic position information and the identification information of an object that does not display video are recorded by being linked with the appearance timings of both the stereoscopic video data and the audio data of the object.

本発明によれば、記録系では、立体映像中のオブジェクトの立体位置情報を所定の時間単位で作成し、立体映像データと音響データと共に記録メディアに記録することができる。   According to the present invention, the recording system can create stereoscopic position information of an object in a stereoscopic video in a predetermined time unit and record it on a recording medium together with stereoscopic video data and acoustic data.

また本発明によれば、再生系側では、立体映像中のオブジェクトの立体位置情報を検出して、その位置情報をもとにして、空間音響の空間的定位を正確に再生できる。また、オブジェクトの立体位置情報をもとにして対応する音響データの音像の立体定位位置をオブジェクトの立体位置になるように少なくとも2以上のスピーカを用いて音像位置制御することにより、立体映像中のオブジェクトの立体位置と空間音響の空間的定位を正確に再生できる。   Further, according to the present invention, on the reproduction system side, it is possible to detect the spatial position information of the object in the stereoscopic video and accurately reproduce the spatial localization of the spatial sound based on the positional information. Further, by controlling the sound image position using at least two speakers so that the stereo position of the sound image of the corresponding acoustic data becomes the stereo position of the object based on the stereo position information of the object, It is possible to accurately reproduce the three-dimensional position of the object and the spatial localization of the spatial sound.

また本発明によれば、記録系では、映像に表示するオブジェクトと表示しないオブジェクトの立体位置情報とオブジェクトの識別情報を所定の時間単位で作成し、立体映像データを音響データと共に記録メディアに記録することができる。   According to the invention, in the recording system, stereoscopic position information and object identification information of an object to be displayed and an object not to be displayed are created in a predetermined time unit, and the stereoscopic video data is recorded on the recording medium together with the audio data. be able to.

さらに本発明によれば、再生系側では、立体映像・立体音響対応再生プログラム及び再生装置では、映像に表示するオブジェクトと表示しないオブジェクトの立体位置情報とオブジェクトの識別情報を検出し、そのオブジェクトの識別情報に対応する音響データの音像の立体定位位置を前記オブジェクトの立体位置になるように、少なくとも2以上のスピーカを用いて音像位置制御を行い、立体映像中のオブジェクトの立体位置と空間音響の空間的定位を正確に再生し、且つ、映像中からオブジェクトが消える(画面の外側へ移動する)ようなシーンの場合でも、例えばそのオブジェクトが移動していく延長線上の空間に音像位置を定位させるなど、より臨場感のある再生を行うことができる。   Further, according to the present invention, on the playback system side, the 3D video / stereo sound compatible playback program and playback device detect the 3D position information and the object identification information of the object to be displayed and the object not to be displayed in the video, and Sound image position control is performed using at least two speakers so that the stereo localization position of the sound image of the audio data corresponding to the identification information becomes the stereo position of the object, and the stereo position of the object in the stereoscopic video and the spatial acoustic Even in the case of a scene where the spatial localization is accurately reproduced and the object disappears from the video (moves to the outside of the screen), for example, the sound image position is localized in the space on the extension line where the object moves. It is possible to perform playback with a more realistic feeling.

以下、本発明の実施の形態を図に基づいて詳説する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

(第1の実施の形態)図1は本発明の1つの実施の形態の立体映像・立体音響対応記録システムのブロック図であり、図2はそれを用いた対象物体の撮影態様を示している。本実施の形態の立体映像・立体音響対応記録システムは、立体映像データ記録系として、左右一対の撮像カメラA1、撮像カメラB2、視差ベクトル抽出器3、奥行き距離算出器4、オブジェクト解析器5、水平方向位置分析器6、垂直方向位置分析器7、奥行き方向位置分析器8、位置情報フォーマット器9、ビデオ圧縮器14を備えている。本システムはまた、音響データ記録系として、複数マイク群11、音源選択器12、オーディオ圧縮器13を備えている。また本システムは、これら両系の共通の要素としてCPU10、情報多重化器15、記録器16を備えている。   (First Embodiment) FIG. 1 is a block diagram of a stereoscopic video / stereo acoustic recording system according to one embodiment of the present invention, and FIG. 2 shows a photographing mode of a target object using the same. . The stereoscopic video / stereoacoustic recording system of the present embodiment includes a pair of left and right imaging cameras A1, B2, parallax vector extractor 3, depth distance calculator 4, object analyzer 5, as a stereoscopic video data recording system. A horizontal position analyzer 6, a vertical position analyzer 7, a depth direction position analyzer 8, a position information formatter 9, and a video compressor 14 are provided. This system also includes a plurality of microphone groups 11, a sound source selector 12, and an audio compressor 13 as an acoustic data recording system. The system also includes a CPU 10, an information multiplexer 15, and a recorder 16 as elements common to both systems.

上記構成の立体映像・立体音響対応記録システムによる立体映像・立体音響対応記録動作について説明する。映像記録系は、左右一対の撮像カメラA1、B2により左画像Pl及び右画像Prを撮像し、撮像された対象物体の映像を視差ベクトル抽出器3に出力する。視差ベクトル抽出器3は、特開平9−33249号公報に開示されている相関関数などの評価関数に従って画素毎の対応付けを行う。ここで、2台の撮像カメラA1、撮像カメラB2はそれらの光軸が同一X−Z平面上に含まれるように配置されている。これが厳密に正しく配置される限り、対応点の探索はエピポーラ線である走査線上のみ行えばよいのであるが、実際には、走査線上に1画素分も誤差なく配置されていることはむしろ少ない。そこで、左画像Pl及び右画像Prは視差ベクトル抽出器3でエピポーラ線方向である水平方向と、ある程度の垂直方向の視差ベクトルサーチ計算を行う。   A stereoscopic video / stereo sound compatible recording operation by the stereoscopic video / stereo sound compatible recording system configured as described above will be described. The video recording system captures the left image Pl and the right image Pr by the pair of left and right imaging cameras A1 and B2, and outputs the captured image of the target object to the parallax vector extractor 3. The disparity vector extractor 3 associates each pixel according to an evaluation function such as a correlation function disclosed in Japanese Patent Laid-Open No. 9-33249. Here, the two imaging cameras A1 and B2 are arranged so that their optical axes are included in the same XZ plane. As long as this is strictly arranged correctly, the search for the corresponding point may be performed only on the scanning line which is an epipolar line, but in practice, it is rather rare that one pixel is arranged on the scanning line without any error. Therefore, the parallax vector extractor 3 performs parallax vector search calculation in the horizontal direction that is the epipolar line direction and a certain degree of vertical direction in the left image Pl and the right image Pr.

エピポーラ線方向の計算方法を、図3を参照して説明する。ここでは予め判別されている対応点、若しくは非常に判別しやすい特徴点が、左画像PlにはR点(Xl,Yl)に、右画像PrにはS点(Xr,Yr)に存在していたとする。この2点R、Sを直線で結ぶことによりエピポーラ線EPの方向が求められる。ここでは、エピポーラ線EPの方向はX軸方向線にほぼ平行であるから、基本的には水平の探索で求まる。例えば水平4画素垂直2画素の小ブロックの画素の差和や差の2乗和などを評価パラメータとして、最小値になる位置をXの位置で求める。カメラに垂直方向の設置誤差が考えられる場合には、エピポーラ線から角度θだけ傾斜していると仮定して水平探索範囲とTanθの積で計算される程度に垂直方向の探索範囲を拡大する。   A method of calculating the epipolar line direction will be described with reference to FIG. Here, corresponding points that have been discriminated in advance or feature points that are very easy to discriminate exist at the R point (Xl, Yl) in the left image Pl and at the S point (Xr, Yr) in the right image Pr. Suppose. The direction of the epipolar line EP is obtained by connecting these two points R and S with a straight line. Here, since the direction of the epipolar line EP is substantially parallel to the X-axis direction line, it is basically obtained by a horizontal search. For example, the position of the minimum value is obtained at the position X by using the difference sum of the pixels of the small blocks of horizontal 4 pixels and vertical 2 pixels, the square sum of the differences, or the like as the evaluation parameter. When a vertical installation error is considered in the camera, the vertical search range is expanded to the extent calculated by the product of the horizontal search range and Tan θ, assuming that the camera is inclined by an angle θ from the epipolar line.

設定された探索範囲内で探索を行い、結果として、例えば左画像上の点R(Xl,Yl)と右画像上の点S(Xr,Yr)が対応した場合、点R(Xl,Yl)における視差ベクトルをV(Xl−Xr,Yl−Yr)と表す。このような視差ベクトルを、左画像上の全てのマクロブロックについて求める。この処理を画面全体にわたって行い、最終的に選択された視差ベクトルVを奥行き距離計算器4に送出する。   A search is performed within the set search range. As a result, for example, when a point R (Xl, Yl) on the left image corresponds to a point S (Xr, Yr) on the right image, the point R (Xl, Yl) The disparity vector at is expressed as V (X1-Xr, Y1-Yr). Such a disparity vector is obtained for all macroblocks on the left image. This process is performed over the entire screen, and the finally selected disparity vector V is sent to the depth distance calculator 4.

奥行き距離算出器4は、視差ベクトルの大きさを計算し、例えば水平4画素垂直2画素の小ブロックと設定して探索して位置を求める。得られた水平位置、垂直位置、奥行き方向を(X、Y、Z)としてオブジェクト解析器5へ伝送する。オブジェクト解析器5では、小ブロックを画像1枚につき、左上から右下へラスター順番にならべて、X、Y、Xそれぞれを所定のビット数でフォーマット化する。例えば画像が水平720x480のNTSCクラスの解像度であれば、Xを10ビット、Yを9ビットとする。例えば画像が水平1920x1080のHDTVクラスの解像度であれば、Xを11ビット、Yを9ビットとする。   The depth distance calculator 4 calculates the size of the parallax vector, and searches for a position by setting, for example, a small block of horizontal 4 pixels and vertical 2 pixels. The obtained horizontal position, vertical position, and depth direction are transmitted to the object analyzer 5 as (X, Y, Z). The object analyzer 5 formats each of the X, Y, and X with a predetermined number of bits in a raster order from the upper left to the lower right for each image. For example, if the image is NTSC class resolution of 720 × 480 horizontal, X is 10 bits and Y is 9 bits. For example, if the image has a horizontal 1920 × 1080 HDTV class resolution, X is 11 bits and Y is 9 bits.

図4に720x480の場合のフォーマット例を示す。1フレームでこの構造を1つ伝送する。フレームレイヤには、1画面中の4x2のマクロブロックの数だけ、ラスター順番に、オブジェクトフラッグ1ビット、その後にオブジェクトのID7ビットその後に水平位置情報X、垂直位置情報Y、奥行き位置情報Zのデータが続く。   FIG. 4 shows a format example in the case of 720 × 480. One structure is transmitted in one frame. In the frame layer, the number of 4 × 2 macroblocks in one screen is the raster order, the object flag is 1 bit, the object ID is 7 bits, the horizontal position information X, the vertical position information Y, and the depth position information Z. Followed.

オブジェクトフラッグとは、この後説明するオブジェクトの中心に対応するマクロブロックに対して1、それ以外のマクロブロックには0を記述するもので、オブジェクトであるかないかを示すフラグともいえる。オブジェクトID情報もこの後説明するオブジェクトの識別ナンバーである。ここでは7ビットを用いるので、127種類のオブジェクトがフレーム内に定義することができる(0はオブジェクト領域外を占めることとする)。対応する音源情報とのリンク情報となる。   The object flag describes 1 for a macroblock corresponding to the center of the object to be described later, and 0 for other macroblocks, and can be said to be a flag indicating whether or not the object is an object. The object ID information is also an object identification number to be described later. Since 7 bits are used here, 127 types of objects can be defined in the frame (0 occupies outside the object area). It becomes link information with corresponding sound source information.

また、オブジェクトは必ずしも映像中に存在していないこともあるので、そのときには図4のESC情報を用いる。この構造には、はじめにNumOfObjectという8ビットで、後続するESCオブジェクトの個数と、ESCオブジェクトの中心(若しくはそれに順ずる)位置における水平位置、垂直位置、奥行き位置を記録する。また、オブジェクトのIDも記録する。これによって、映像中から消えて、例えば視聴者の後方を飛び回るようなオブジェクトでも、音像だけは後ろから聞こえるという特殊なシーンの再生も可能である。   Further, since the object may not necessarily exist in the video, the ESC information of FIG. 4 is used at that time. In this structure, the number of subsequent ESC objects and the horizontal position, the vertical position, and the depth position at the center (or the same position) of the ESC object are recorded with 8 bits of NumOfObject. The ID of the object is also recorded. As a result, even for an object that disappears from the video and flies behind the viewer, for example, it is possible to reproduce a special scene in which only the sound image can be heard from behind.

これらのマクロブロックの情報はオブジェクト解析器5に伝送される。オブジェクト解析器5では画像データにラプラシアンオペレータなどを用いて微分し、オブジェクトの輪郭を抽出し、その大きい塊をひとつのオブジェクトと定義し、そのオブジェクトの領域を示す輪郭の情報を、水平方向位置分析器6、垂直方向位置分析器7、奥行き方向位置分析器8にそれぞれ伝送する。水平方向位置分析器6ではオブジェクトの領域における水平方向の最小値と最大値の和を1/2にした値を計算する。垂直方向位置分析器7では垂直方向の最小値と最大値の和を1/2にした値を計算する。奥行き方向位置分析器8ではオブジェクト輪郭情報から、その中心の位置に対応する水平4画素垂直2画素の小ブロックの視差ベクトルの大きさを計算する。ここでは中心の値を用いたが、オブジェクト画像の面積を考慮した重心を求めてもよい。   Information on these macro blocks is transmitted to the object analyzer 5. The object analyzer 5 differentiates the image data using a Laplacian operator, extracts the outline of the object, defines the large block as one object, and analyzes the position information of the outline of the object in the horizontal direction. And to the vertical position analyzer 7 and the depth position analyzer 8, respectively. The horizontal position analyzer 6 calculates a value obtained by halving the sum of the horizontal minimum and maximum values in the object area. The vertical position analyzer 7 calculates a value obtained by halving the sum of the minimum value and the maximum value in the vertical direction. The depth direction position analyzer 8 calculates the size of the disparity vector of a small block of horizontal 4 pixels and vertical 2 pixels corresponding to the center position from the object outline information. Although the center value is used here, the center of gravity in consideration of the area of the object image may be obtained.

それぞれの計算された値は、位置情報フォーマット器9において、オブジェクトのX、Y、Zの位置情報として、オブジェクトの中心に対応するマクロブロックに対してオブジェクトフラッグを1、それ以外のマクロブロックには0を記述する。同様に次のオブジェクトを検出していくがオブジェクトに発生順番で1から127までのIDをふり、オブジェクトIDフィールドに記録する。オブジェクト領域以外のところは0を記述する。次のフレーム画像ではオブジェクトは動いている可能性があるので、もっとも近傍であって、オブジェクトの輪郭情報が特徴点(例えば四角形のものであれば角の数や、そのオブジェクトの内部の輝度、色差信号が8ビットデータ)で10%以内の僅差でほぼ似ているなどの情報や、時間的に隣り合うフレームであれば、検出されたオブジェクトがもっとも近いものである、などの複数の条件を満たしているものを同じオブジェクトとして認識し、オブジェクトID情報は、次のフレーム移行、同じオブジェクトと認識したものには同じID値を記録する。位置情報フォーマット器9はこのような図4のようなフォーマットをして、情報多重化器15に伝送すると同時に、CPU10へオブジェクトのX、Y、Zの位置情報を伝送する。   In the position information formatter 9, each calculated value is set as 1 for the macroblock corresponding to the center of the object, and for other macroblocks as the X, Y, Z position information of the object. Describe 0. Similarly, the next object is detected, but IDs 1 to 127 are assigned to the objects in the order of occurrence and recorded in the object ID field. 0 is described in places other than the object area. Since the object may be moving in the next frame image, it is the nearest neighbor, and if the outline information of the object is a feature point (for example, if it is a rectangle, the number of corners, the brightness inside the object, the color difference) Satisfies multiple conditions such as information such as signals that are almost similar within 10% of the signal (8-bit data) and that the detected object is the closest if the frames are temporally adjacent Are recognized as the same object, and the same ID value is recorded in the object ID information for the next frame transition and those recognized as the same object. The position information formatter 9 performs the format as shown in FIG. 4 and transmits the information to the information multiplexer 15 and simultaneously transmits the X, Y, and Z position information of the object to the CPU 10.

次に、オーディオ情報の記録方法について説明する。オーディオはカメラ1,2を中心に複数のマイク群11を全周囲に向けて設定する。すなわち、図5のようにカメラを中心にした球の表面を複数の指向性の高いマイクを用いて球面の法線方向に向ける。図5は概念的に示してあるが、このマイクは、中心をカメラ位置としてX、Y、Zの方向で3次元の座標を仮想的に設定し、その軸の方向6点とその間を補間できるようにマイクをなるべく多く設置している。ただしカメラレンズ方向(図5では+Z方向マイク)は、カメラの視野に入らないようにマイクの位置を工夫している。   Next, a method for recording audio information will be described. Audio is set with the plurality of microphone groups 11 centering on the cameras 1 and 2 so as to face all around. That is, as shown in FIG. 5, the surface of the sphere centered on the camera is directed in the normal direction of the spherical surface using a plurality of highly directional microphones. Although conceptually shown in FIG. 5, this microphone can virtually set three-dimensional coordinates in the X, Y, and Z directions with the center as the camera position, and can interpolate between the six directions of the axis and between them. As many microphones as possible are installed. However, the position of the microphone is devised so that the camera lens direction (the + Z direction microphone in FIG. 5) does not enter the field of view of the camera.

位置情報フォーマット器9からは、CPU10へ、検出されたそれぞれのオブジェクトの位置情報が入力される。CPU10では、各オブジェクトの位置情報に対応した方向に向いているマイクの音源を記録するように、音源選択器12に選択信号を送信する。音源選択器12ではその指示信号に応じた複数のマイクからの音源を選択してその音源のマイクから伝送されたオーディオデータをオーディオ圧縮器13へ伝送する。その際、オブジェクトのIDが、位置情報フォーマット器9からCPU10と音源選択器12を経由してオーディオ圧縮器13にも伝送される。オブジェクトIDは後に述べるオーディオ圧縮器13においてオーディオ圧縮データに識別子情報をMPEG規格のDescriptorの打ち方を参照して記述されるのに利用される。   From the position information formatter 9, position information of each detected object is input to the CPU 10. The CPU 10 transmits a selection signal to the sound source selector 12 so as to record the sound source of the microphone that faces in the direction corresponding to the position information of each object. The sound source selector 12 selects sound sources from a plurality of microphones according to the instruction signal, and transmits audio data transmitted from the sound source microphones to the audio compressor 13. At this time, the object ID is also transmitted from the position information formatter 9 to the audio compressor 13 via the CPU 10 and the sound source selector 12. The object ID is used by the audio compressor 13 to be described later to describe identifier information in audio compressed data with reference to a method for writing a Descriptor of the MPEG standard.

一方、カメラB2(若しくはカメラA1)の画像はビデオ圧縮器14に伝送される。ビデオ圧縮器14では、カメラからの2次元画像、位置情報フォーマット器9からの奥行き情報やオブジェクトID情報を入力し、MPEG規格の画像圧縮を行う。なお、奥行き情報やオブジェクトID情報は、MPEGの規定の中で互換性が取れるように、ユーザーデータ領域やプライベートストリームにて伝送し、またオブジェクトIDはMPEG規格で定義されているRegistration_Descriptorのadditional_identifier_infoを用いる。なお、他の方法として、(1)新規にPrivateのDescriptorを定義して、図19のようにObject_ID_descriptorを作成する、(2)Stream_IDのreserved data streamを用いて、MPEGで未定義の領域11111010〜11111110までを用いて設定する方法、(3)Stream_TypeとしてMPEGではUser PrivateなValueとされている0x80から0xFFまでの中の識別を使用する方法を採用することもできる。なお(2)におけるStream_IDはISO13818−1のPESパケットのシンタックスに定義されているものである。また、これ以外にも、MPEGで規定されているユーザーデータ領域のどこを使っても構わないし、AC3や他のオーディオ方式のシンタックスの中で許されているユーザーデータの領域部分に識別コードを入れる方法でも構わない。   On the other hand, the image of the camera B2 (or camera A1) is transmitted to the video compressor 14. The video compressor 14 inputs a two-dimensional image from the camera, depth information from the position information formatter 9 and object ID information, and performs MPEG standard image compression. Note that the depth information and the object ID information are transmitted in the user data area and the private stream so that the compatibility can be obtained in the MPEG standard, and the object ID uses the registration_descriptor's additional_identifier_info defined in the MPEG standard. . As another method, (1) a new private descriptor is defined to create an Object_ID_descriptor as shown in FIG. 19, and (2) an undefined region 11111010 in MPEG using a stream_ID reserved data stream. It is also possible to use a method of setting up to 11111110, and (3) a method of using an identification from 0x80 to 0xFF, which is a User Private Value in MPEG as Stream_Type. The Stream_ID in (2) is defined in the syntax of the PES packet of ISO13818-1. In addition to this, any user data area defined in MPEG may be used, and an identification code is provided in the area of user data allowed in AC3 or other audio syntax. It does not matter how you put it in.

音源選択器12からのオーディオデータはオーディオ圧縮器13においてMPEGのオーディオ圧縮(MPEG1オーディオ、MPEG2オーディオ、AAC、ドルビーAC3、ATRACなど)がなされる。   Audio data from the sound source selector 12 is subjected to MPEG audio compression (MPEG1 audio, MPEG2 audio, AAC, Dolby AC3, ATRAC, etc.) in the audio compressor 13.

次にMPEGの規格に準拠しながら、付加情報を記録する方法を説明する。MPEG画像圧縮の規格では、ピクチャーレイヤ、GOPレイヤにそれぞれユーザーデータ領域が設定されている。これらはMPEGのシンタックスで映像音声とは関係ないデータを埋め込むことのできる所定のエリアとして設定されているuser_data、若しくはprivate_data_byte、若しくはユーザーが任意に設定できるprivate_streamなどのデータパケットに記録する。例えばMPEG1のビデオにおけるピクチャーレイヤは図17に示すようになっていて、スライスレイヤの手前で、user_data_start_codeを送った後にuser_dataを8ビット単位で記録することができるような仕組みが定義されている。また、MPEG2などの多重化トランスポートストリームのシステムレイヤにも図18のようにtransport_private_data_flagに1を立てることでprivate_dataが存在することを明示でき、データ長もトランスポートパケットをはみ出さないという制限のもとで、transport_private_data_lengthに設定したデータ長のprivate_dataを送信することができる。これ以外にも、MPEGシステムでユーザー固有のデータを記録する方法は、stream_idにprivate_streamを設定して専用のパケットを宣言することで送信するなど、仕組みは幾つか定義されており、本発明における奥行き情報やオブジェクトIDなどの図4の構造の情報は、これらの領域に、ピクチャー毎記録することができる。どの仕組みを用いてもかまわないが、本実施の形態では、MPEG1ビデオのuser_dataを用いている。   Next, a method for recording additional information while conforming to the MPEG standard will be described. In the MPEG image compression standard, user data areas are set in the picture layer and the GOP layer, respectively. These are recorded in a data packet such as user_data or private_data_byte set as a predetermined area in which data unrelated to video and audio can be embedded in MPEG syntax, or private_stream which can be arbitrarily set by the user. For example, a picture layer in an MPEG1 video is as shown in FIG. 17, and a mechanism is defined in which user_data can be recorded in units of 8 bits after sending user_data_start_code before the slice layer. Also, in the system layer of a multiplexed transport stream such as MPEG2, it is possible to clearly indicate that private_data exists by setting 1 to transport_private_data_flag as shown in FIG. 18, and there is a restriction that the data length does not protrude from the transport packet. Thus, private_data having the data length set in transport_private_data_length can be transmitted. In addition to this, there are several mechanisms for recording user-specific data in the MPEG system, such as sending private data by declaring a dedicated packet by setting private_stream to stream_id. Information of the structure of FIG. 4 such as information and object ID can be recorded for each picture in these areas. Any mechanism may be used, but in this embodiment, user_data of MPEG1 video is used.

本実施の形態において、user_data_start_codeはスライスレイヤの手前で0x000001B2とMPEGでは定義されている。そのコードを送った後に、ユーザーデータエリア内で本発明の認証に用いる関数値の存在を示す、予め一意に識別可能なコードである例えば0x0f0f0f0f2417fdaaのコードを送信する。このコードは他のアプリケーションで、user_dataを使う場合に、識別する目的で記録するもので、コードの値は特に意味はない。そのコードの後に図4の1マクロブロック32ビット(4バイト)の構造を、MPEGの1ピクチャー毎にピクチャーレイヤにラスター順番に記録する。画素が720x480であれば720x480x4/(4x2)=17KBの情報量となる。これでは情報が大きい場合には、この情報を圧縮する。例えば奥行き情報は、隣り合うマクロブロックと同じがわずかの差しか存在しないことが多いので、変化していないときには4バイトのスキップするコード(例えばオール0の0x00000000)をセットすることで、スキップしている間のマクロブロックの情報を4バイトから1バイトへ減少させることができる。若しくはわずかの差の場合(例えば、プラスマイナスで1以下の場合など)には、0としてしまう。このほか、圧縮には上記のようなスキップ方法のほかに、差分をとってその変化だけを伝送するDPCM方式や、エントロピーを減少させる符号化など、どんな方法を使用してもよい。   In this embodiment, user_data_start_code is defined in MPEG as 0x000001B2 before the slice layer. After sending the code, a code of, for example, 0x0f0f0f0f2417fda, which is a uniquely identifiable code indicating the presence of the function value used for authentication of the present invention in the user data area, is transmitted. This code is recorded for the purpose of identification when user_data is used in another application, and the value of the code has no particular meaning. After the code, the structure of one macroblock 32 bits (4 bytes) in FIG. 4 is recorded in the picture layer in raster order for each picture of MPEG. If the pixel is 720 × 480, the information amount is 720 × 480 × 4 / (4 × 2) = 17 KB. If the information is large, this information is compressed. For example, the depth information is often the same as the adjacent macroblock, but there is often only a slight difference, so when it has not changed, it can be skipped by setting a 4-byte skip code (for example, 0x00000000 for all 0s). During this time, the macro block information can be reduced from 4 bytes to 1 byte. Or, in the case of a slight difference (for example, in the case of plus or minus 1 or less), it becomes 0. In addition to the skip method as described above, any method may be used for compression, such as a DPCM method in which only the change is taken and the entropy is reduced.

以上の立体映像・立体音響対応記録システムによる立体映像・立体音響対応記録処理の手順を図6のフローチャートを参照して説明する。カメラA1及びカメラB2からの画像データ、及び複数マイク群11よりの音響データを所定の時間分入力し、記憶装置に記憶する(ステップS1)。次に画像の視差ベクトルを抽出する(ステップS2)。ここではエピポーラ線方向である水平方向とある程度の垂直方向との視差ベクトルサーチ計算を画像上の全てのマクロブロックについて求める。次にマクロブロックの奥行き距離の計算を行う。すなわち、視差ベクトルの大きさを計算する(ステップS3)。   The procedure of the stereoscopic video / stereo acoustic correspondence recording process by the above stereoscopic video / stereo acoustic correspondence recording system will be described with reference to the flowchart of FIG. The image data from the cameras A1 and B2 and the acoustic data from the plurality of microphone groups 11 are input for a predetermined time and stored in the storage device (step S1). Next, a parallax vector of the image is extracted (step S2). Here, the parallax vector search calculation between the horizontal direction which is the epipolar line direction and a certain vertical direction is obtained for all macroblocks on the image. Next, the depth distance of the macroblock is calculated. That is, the magnitude of the parallax vector is calculated (step S3).

次にオブジェクトが画像に存在しているかどうかを判定する(ステップS4)。これは画像データに簡単なラプラシアンオペレータなどを用いて微分し、オブジェクトの輪郭が存在しているかどうかを判定する。判定の結果YESであればオブジェクトの本格的な検出を行う(ステップS5)。すなわち、オブジェクト解析器では画像データにラプラシアンオペレータなどを用いて微分し、オブジェクトの輪郭を抽出して、その大きい塊をひとつのオブジェクトと定義してそのオブジェクトの領域を判定する。次に前記判定されたオブジェクトを抽出(定義)して、どのマクロブロックがそのオブジェクトに含まれているかを決定する(ステップS6)。次にオブジェクトの水平方向、垂直方向の位置情報を分析する(ステップS7)。この処理は、すでにマクロブロックごとに奥行き情報は求まっているので、オブジェクトの領域に掛かっているマクロブロックを指定して、その中心位置をオブジェクトの位置にする。次にオブジェクトIDと位置情報のフォーマッティングを行う(ステップS8)。すなわち、得られた水平位置、垂直位置、奥行き方向を(X、Y、Z)としての位置情報と、オブジェクトフラッグ、オブジェクトのIDを図4に示すフォーマットにする。次にオブジェクトの位置情報にリンクさせる音源を選択する(ステップS9)。   Next, it is determined whether or not the object exists in the image (step S4). In this case, the image data is differentiated by using a simple Laplacian operator or the like to determine whether or not the contour of the object exists. If the determination result is YES, full-scale object detection is performed (step S5). That is, the object analyzer differentiates the image data using a Laplacian operator, extracts the outline of the object, defines the large block as one object, and determines the area of the object. Next, the determined object is extracted (defined) to determine which macroblock is included in the object (step S6). Next, the horizontal and vertical position information of the object is analyzed (step S7). In this process, since the depth information has already been obtained for each macroblock, the macroblock applied to the object area is designated and the center position thereof is set to the object position. Next, the object ID and position information are formatted (step S8). That is, the obtained horizontal position, vertical position, and depth direction are set to the format shown in FIG. 4 with the position information, the object flag, and the object ID as (X, Y, Z). Next, a sound source to be linked to the position information of the object is selected (step S9).

一方、ステップS4における判定がNOの場合は前のピクチャーなどのシーンでオブジェクトの動きを延長し、映像データ中に存在しないオブジェクトを表現するかどうかをステップS15において判定する。その判定がYESの場合には、ステップS7へ飛ぶ。NOの場合には、オブジェクトIDを0とした前述の位置情報のフォーマッティングを行う(ステップS16)。映像中に存在していないときには図4のESC情報を用いて、後続するESCオブジェクトの個数と、ESCオブジェクトの中心(若しくはそれに順ずる)位置における水平位置、垂直位置、奥行き位置、オブジェクトのIDを記録する。   On the other hand, if the determination in step S4 is NO, it is determined in step S15 whether or not the object motion is extended in the scene such as the previous picture to represent an object that does not exist in the video data. If the determination is yes, the process jumps to step S7. In the case of NO, the above-described position information is formatted with the object ID set to 0 (step S16). When it does not exist in the video, the number of subsequent ESC objects, the horizontal position, the vertical position, the depth position, and the object ID at the center (or the same position) of the ESC object are determined using the ESC information of FIG. Record.

次に、ビデオデータとオブジェクトとリンクした複数のオーディオデータを圧縮する(ステップS10)。次にオーディオストリームにリンクされたビデオオブジェクトのIDと同じ識別情報を記述する(ステップS11)。次にMPEGの多重化を行い(ステップS12)、所定の単位でメディアに記録、あるいは伝送する場合には伝送路特有のパケット化を行って伝送出力される(ステップS13)。次に入力画像データがまだあるかどうかを判定し(ステップS14)、ある場合(YES)にはステップS1へ飛ぶ。ない場合(NO)には、処理を終了する。   Next, a plurality of audio data linked with video data and objects are compressed (step S10). Next, the same identification information as the ID of the video object linked to the audio stream is described (step S11). Next, MPEG multiplexing is performed (step S12), and when recording or transmission on a medium in a predetermined unit, packetization specific to the transmission path is performed and transmitted (step S13). Next, it is determined whether there is still input image data (step S14). If there is (YES), the process jumps to step S1. If not (NO), the process is terminated.

これにより、本実施の形態の立体映像・立体音響対応記録システムでは、所定の時間単位でオブジェクトの立体位置情報をMPEGの規定のユーザーデータ領域若しくはプライベートストリーム、若しくは別領域の情報体を用いて記述し、所定の時間単位でオブジェクトの識別情報を立体映像データと音響データの双方のストリームの識別情報とリンクさせて記述することで、立体映像データを音響データと共に、記録メディアに記録することができる。   As a result, in the stereoscopic video / stereoacoustic recording system of the present embodiment, the stereoscopic position information of the object is described in predetermined time units using the MPEG-specified user data area or private stream, or an information body in another area. Then, by describing the object identification information linked with the identification information of the streams of both the stereoscopic video data and the audio data in a predetermined time unit, the stereoscopic video data can be recorded on the recording medium together with the audio data. .

(第2の実施の形態)次に図7を用いて、CG(コンピュータ・グラフィックス)をベースにした本発明の第2の実施の形態の立体映像・立体音響対応記録システムについて説明する。CGでは、撮像のためのカメラやマイクを必要としないので、プログラムを実行することによってすべてCPU20の処理により立体映像、立体音響を作成する。そのためにCPU20の中に画像信号生成器21と音源信号生成器22があり、それぞれが専用のソフトにより起動される。CG画像データは基本的にはポリゴンなどの小サイズの画像に対し、位置の情報と奥行きの情報が予め備わっている。したがって、先に説明した4x2のマクロブロックの相当するポリゴンの部分の位置情報は容易に計算が可能である。また、オーディオのほうも、CG画像のオブジェクトの位置に所定の音源データをシンセサイザーにて作成し、その音源を用いることで容易に作成することが可能である。それぞれ、ビデオはビデオ圧縮器23に、オーディオはオーディオ圧縮器24に入力され、圧縮が施される。圧縮されたデータは先の図1のシステムと同様に位置情報フォーマット器25によってフォーマット化された情報と共に、情報多重化器26によって多重化され、記録器27によって記録メディア17に記録される。   (Second Embodiment) Next, with reference to FIG. 7, a description will be given of a stereoscopic video / stereoacoustic recording system according to a second embodiment of the present invention based on CG (computer graphics). Since CG does not require a camera or a microphone for imaging, a 3D image and 3D sound are created by the processing of the CPU 20 by executing a program. For this purpose, there are an image signal generator 21 and a sound source signal generator 22 in the CPU 20, each of which is activated by dedicated software. The CG image data basically includes position information and depth information in advance for a small-sized image such as a polygon. Therefore, the position information of the polygon portion corresponding to the 4 × 2 macroblock described above can be easily calculated. The audio can also be easily created by creating predetermined sound source data at the object position of the CG image with a synthesizer and using the sound source. The video is input to the video compressor 23 and the audio is input to the audio compressor 24 to be compressed. The compressed data is multiplexed by the information multiplexer 26 together with the information formatted by the position information formatter 25 in the same manner as the system of FIG. 1, and is recorded on the recording medium 17 by the recorder 27.

これにより、本実施の形態の立体映像・立体音響対応記録システムでは、所定の時間単位でオブジェクトの立体位置情報をMPEGの規定のユーザーデータ領域若しくはプライベートストリーム、若しくは別領域の情報体を用いて記述し、所定の時間単位でオブジェクトの識別情報を立体映像データと音響データの双方のストリームの識別情報とリンクさせて記述することで、立体映像データを音響データと共に記録メディアに記録することができる。   As a result, in the stereoscopic video / stereoacoustic recording system of the present embodiment, the stereoscopic position information of the object is described in predetermined time units using the MPEG-specified user data area or private stream, or an information body in another area. Then, by describing the object identification information linked with the identification information of both the stereoscopic video data and the audio data in a predetermined time unit, the stereoscopic video data can be recorded on the recording medium together with the audio data.

(第3の実施の形態)図8は、本発明の第3の実施の形態の立体映像・立体音響対応記録システムを示している。図1に示した第1の実施の形態及び図7に示した第2の実施の形態においては最終的な情報は記録メディア17に記録したが、本実施の形態のシステムでは、通信や放送特有のパケット化をして放送や通信網に伝送する。したがって、本実施の形態のシステムは通信(放送)用パケット化器18を備え、情報多重化器15からの立体映像データと立体音響データとの多重化データを通信(放送)用のパケットデータにパケット化し、通信網若しくは放送網に送出する。なお、本実施の形態のシステムでは、図1に示した第1の実施の形態のシステムと共通の機器要素に関しては共通の符号を付して示している。   (Third Embodiment) FIG. 8 shows a stereoscopic video / stereoscopic sound recording system according to a third embodiment of the present invention. In the first embodiment shown in FIG. 1 and the second embodiment shown in FIG. 7, the final information is recorded on the recording medium 17. However, in the system of this embodiment, communication and broadcasting are specific. Packetized and transmitted to a broadcast or communication network. Therefore, the system according to the present embodiment includes a communication (broadcast) packetizer 18, and the multiplexed data of the stereoscopic video data and the stereoscopic audio data from the information multiplexer 15 is converted into packet data for communication (broadcast). Packetize and send to communication network or broadcast network. In the system of the present embodiment, the same reference numerals are assigned to the device elements common to the system of the first embodiment shown in FIG.

本実施の形態のシステムによる立体映像・立体音響対応記録方法は、第1の実施の形態と同様に図6のフローチャートによる。これにより、本実施の形態のシステムでは、第1の実施の形態と同様に、所定の時間単位でオブジェクトの立体位置情報をMPEGの規定のユーザーデータ領域若しくはプライベートストリーム、若しくは別領域の情報体を用いて記述し、所定の時間単位でオブジェクトの識別情報を立体映像データと音響データの双方のストリームの識別情報とリンクさせて記述することで、立体映像データを音響データと共に多重化し、パケット化して送信できる。   The stereoscopic video / stereo sound correspondence recording method by the system of the present embodiment is based on the flowchart of FIG. 6 as in the first embodiment. As a result, in the system according to the present embodiment, as in the first embodiment, the stereoscopic position information of the object is converted into the MPEG-specified user data area or private stream, or the information body of another area in a predetermined time unit. By describing and linking the object identification information with the identification information of the streams of both the stereoscopic video data and the audio data in a predetermined time unit, the stereoscopic video data is multiplexed with the audio data and packetized. Can be sent.

(第4の実施の形態)次に、上記実施の形態の立体映像・立体音響対応記録システムにより作成され、記録メディア17に記録された立体映像・立体音響対応記録情報を再生するための立体映像・立体音響対応再生システムについて、図9を用いて説明する。本実施の形態の再生システムは、再生器31、情報分離器32、ビデオ復号器33、位置情報取り出し器34、オーディオ復号器35、視野変換器36、立体画像表示器37、音源選択器38、音像位置制御器39、スピーカレイ40を備えている。   (Fourth Embodiment) Next, a stereoscopic video for reproducing the stereoscopic video / stereoacoustic recording information created by the stereoscopic video / stereoacoustic recording system of the above-described embodiment and recorded on the recording medium 17 is reproduced. A stereophonic sound compatible playback system will be described with reference to FIG. The reproduction system according to the present embodiment includes a reproduction unit 31, an information separator 32, a video decoder 33, a position information extraction unit 34, an audio decoder 35, a visual field converter 36, a stereoscopic image display 37, a sound source selector 38, A sound image position controller 39 and a speaker array 40 are provided.

この立体映像・立体音響対応再生システムでは、記録メディア17より多重化されたデータを再生器31にて読み取り、情報分離化器32へ伝送する。情報分離器32では、ビデオ信号とオーディオ信号のパケットを分離し、ビデオ信号はビデオ復号器33に、オーディオ信号はオーディオ復号器35にそれぞれ伝送する。ビデオ復号器33ではビデオを復号すると同時に、ビデオのピクチャーレイヤのユーザーデータを位置情報取り出し器34に伝送する。位置情報取り出し器34ではユーザーデータから、図4のフォーマットで記録されている奥行き情報とオブジェクトの位置情報、及びオブジェクトID情報を取り出す。オブジェクトの位置情報、及びオブジェクトID情報は音源選択器38に伝送する。奥行き情報と復号したビデオ信号は視野変換器36に伝送する。視野変換器36では、奥行き情報と復号した2次元の画像から、立体画像表示器37の立体表示方式に応じた視差画像を生成する。この視差画像の生成に際して、CGにおける座標系の変換方法には視野変換方式を用いる。これは視点座標系への変換の式によって、視点を変えた画像を得るもので、奥行き情報があれば自由な視点で生成することができる。例えば、視点の座標を(x,y,z)、注視点の座標を(x,y,z)とする。また、視点と注視点間の距離を(x,y,z)とする。

Figure 2006128818
In this stereoscopic video / stereoscopic reproduction system, the data multiplexed from the recording medium 17 is read by the reproduction device 31 and transmitted to the information separator 32. The information separator 32 separates the video signal and audio signal packets, and transmits the video signal to the video decoder 33 and the audio signal to the audio decoder 35. The video decoder 33 decodes the video and simultaneously transmits the user data of the video picture layer to the position information extractor 34. The position information extractor 34 extracts depth information, object position information, and object ID information recorded in the format of FIG. 4 from user data. The object position information and the object ID information are transmitted to the sound source selector 38. The depth information and the decoded video signal are transmitted to the visual field converter 36. The visual field converter 36 generates a parallax image corresponding to the stereoscopic display method of the stereoscopic image display 37 from the depth information and the decoded two-dimensional image. When generating the parallax image, a visual field conversion method is used as a conversion method of the coordinate system in CG. This is to obtain an image with a different viewpoint from the expression for conversion to the viewpoint coordinate system. If there is depth information, it can be generated from any viewpoint. For example, the coordinates of the viewpoint (x i, y i, z i), the coordinates of the gazing point (x a, y a, z a) and. In addition, the distance between the viewpoint and the gazing point is (x f , y f , z f ).
Figure 2006128818

最初に平行移動により原点の位置を動かす。この変換をT1とする。変換T1は単に(−x,−y,−z)平行移動する変換である。次に回転により座標値の向きを変える。図10のように点Oから点O方向のベクトルは点Oからz軸のベクトルをまずα角だけy軸に回転させ、次にβ角だけx軸に回転させる。実際には点Oの座標値を動かすので回転方向が逆になる。

Figure 2006128818
First, move the position of the origin by parallel movement. This conversion is assumed to be T1. The transformation T1 is simply a transformation that translates (−x a , −y a , −z a ). Next, the direction of the coordinate value is changed by rotation. Vector from point O a of the point O f direction as shown in FIG. 10 is rotated by the y-axis is first α angle vector of the z-axis from the point O a, then allowed to rotate in only x-axis β corner. The direction of rotation is reversed so actually move the coordinates of the point O f.
Figure 2006128818

となる。ここでαはOをxy平面に投影した足とOのなす角であるので、

Figure 2006128818
It becomes. Here, since α is the angle of the foot and O a obtained by projecting the O f the xy plane,
Figure 2006128818

となる。またβはO間の長さ

Figure 2006128818
It becomes. The β length between O a O f
Figure 2006128818

と、Of’間の長さyにより

Figure 2006128818
And the length y f between O f O f ′
Figure 2006128818

となる。 It becomes.

最後の変換はxy平面に対してz軸が手前になるような座標系から、xy平面に対して目の方向、つまり向こう側が正になるようにする変換Tを行う。これは単にz→−zにするだけである。これらT〜Tの4つの変換マトリクスを掛け合わせると視点座標の変換マトリクスは、

Figure 2006128818
Last conversion is performed z-axis from the coordinate system such that the front with respect to the xy plane, the eye direction relative to the xy plane, i.e. the transformation T 4 to allow the other side is positive. This is simply z → -z. By multiplying these four conversion matrices T 1 to T 4, the viewpoint coordinate conversion matrix is
Figure 2006128818

となる。 It becomes.

これは、IP(Integral Photography:インテグラルフォトグラフィー、あるいはインテグラルイメージングともいう)では、複数のレンズアレイに対応した要素画像を、そのレンズ位置に対応したカメラで撮像したものを、画像の大きさと共に、前記の視点座標の変換マトリクスを用いて計算して生成する。このようにして生成した立体画像データを、立体画像表示器37に伝送し、立体画像再生を行う。なお、立体画像表示器37の立体表示方式にはパララックスバリアを用いた2眼式立体表示方式を採用することもできる。そしてその場合には、視距離によって設定できるαを上の式に代入し、βやγは0とすることで、右目用と左目用の視差を持つ画像を生成することができる。   In IP (Integral Photography), an element image corresponding to a plurality of lens arrays is captured by a camera corresponding to the lens position. At the same time, it is calculated and generated using the conversion matrix of the viewpoint coordinates. The stereoscopic image data generated in this way is transmitted to the stereoscopic image display 37 to perform stereoscopic image reproduction. Note that a binocular stereoscopic display method using a parallax barrier may be employed as the stereoscopic display method of the stereoscopic image display 37. In that case, α that can be set according to the viewing distance is substituted into the above equation, and β and γ are set to 0, so that an image having parallax for the right eye and the left eye can be generated.

ここで立体画像表示方式のうち、代表的なパララックスバリア方式とIP方式の説明をする。パララックスバリア方式は液晶によって実現することができる。図11のように、これは2枚の液晶パネル101,102を積層するもので、一方の液晶パネル101には細いスリット状の開口部があり、その裏側の液晶パネル102上に適当な間隔をおいて左(L)右(R)2眼分の画像を交互に配置し、所定の視点103L,103Rからこのスリット状の開口部を通して見た場合に右目、左目に分離された画像を知覚できるものである。これによって右目、左目に違う画像を入力させることができるので、立体画像として知覚することができる。なお、液晶パネル102上の画像を照らすためにバックライト104が設けてられている。   Here, a typical parallax barrier method and an IP method among the stereoscopic image display methods will be described. The parallax barrier method can be realized by liquid crystal. As shown in FIG. 11, this is a laminate of two liquid crystal panels 101 and 102. One liquid crystal panel 101 has a thin slit-like opening, and an appropriate interval is provided on the liquid crystal panel 102 on the back side. In this case, images for the left (L) and right (R) two eyes can be alternately arranged, and the images separated from the right eye and the left eye can be perceived when viewed from the predetermined viewpoints 103L and 103R through the slit-shaped opening. Is. As a result, different images can be input to the right eye and the left eye, and can be perceived as a stereoscopic image. A backlight 104 is provided to illuminate the image on the liquid crystal panel 102.

しかしながら、パララックスバリア方式の場合、目のピントは常に液晶のスクリーン上に合わされているにもかかわらず、像がこの位置とは違う場所に感じられることから、生理学的な不自然さを伴うことで、ユーザーが疲れやすい、映像酔いしやすいなどの問題点も指摘されており、近年は4つの立体視の生理的要因、輻輳調節矛盾(輻輳点とピントの合う位置の矛盾)(両眼視差=ある物体を見る際に、人間の左右の目はそれぞれ違った方向から見る2つの異なる像を捕らえている性質、ピント調節=見る対象からの距離の変化に「伴って水晶体の厚さをコントロールしてレンズの厚みを変えるような性質、輻輳=遠い、近いの変化で、眼球が内側に回転したり外側へ回転したりする動きを伴うという性質、運動視差=ユーザーが自分で動いたり見る角度を変えたりすることによる像の違いを見る性質)を満たすような方式も提案されている。その中でも有望なものとして、Lippmannが1908年に発表した方式がIP方式である。   However, in the case of the parallax barrier method, although the focus of the eyes is always on the liquid crystal screen, the image is felt in a place different from this position, which is accompanied by physiological unnaturalness. However, it has been pointed out that users are prone to fatigue and video sickness. In recent years, there are four physiological factors of stereoscopic vision, convergence contradiction (contradiction of convergence point and focus position) (binocular parallax) = When looking at an object, the human right and left eyes capture two different images seen from different directions, focus adjustment = “The thickness of the lens is controlled as the distance from the subject changes. The nature of changing the thickness of the lens, convergence = distant, close change, accompanied by the movement of the eyeball rotating inward or outward, motion parallax = the user himself Such a manner as to satisfy the property) to see the difference in the image due to changing the angle of view Italy has also been proposed. Among them as promising, method Lippmann announced in 1908 is an IP system.

IP方式は、2次元的に配列したレンズアレイ(フライアイレンズ、蝿の目レンズ、複眼レンズなどともいう)を利用して物体の奥行き情報を取得するものである。1990年代に入ると、従来の写真乾板による記録を電子技術で置き換えることにより、IP方式による動画を生成する技術が開発され、さらに、同文献の研究者の手により、屈折率分布レンズアレイ(GRINレンズアレイともいう)とハイビジョンカメラを用いて被写体を撮像して要素画像群を取得しながら、各画像を液晶ディスプレイにリアルタイムに伝送して表示し、フライアイレンズにより空間上に結像することに成功し、IP方式による3次元テレビジョン放送の実現可能性が示された(非特許文献3)。図12はこのIP方式の原理を説明したもので、図12Aのように撮影時に微小な要素レンズを多数並べたGRINレンズアレイ110を用い、このGRINレンズアレイ110の微小な要素レンズそれぞれの光を集光レンズ111で集光して微小カメラ112の1画素が1方向の光線の映像を撮影する。そして再生するときには、図12Bのようにカメラからの映像120をLCDのようなディスプレイ121で再現し、全部の微小カメラの1点ずつが集合して、全体として1方向から見た再生像をつくる。   In the IP method, depth information of an object is acquired using a two-dimensionally arranged lens array (also referred to as a fly-eye lens, a fly-eye lens, or a compound eye lens). In the 1990s, a technology for generating moving images by the IP method was developed by replacing electronic recording with a conventional photographic dry plate. Further, a refractive index distribution lens array (GRIN) was developed by a researcher of the same document. (It is also referred to as a lens array) and a high-vision camera is used to capture a subject and acquire an element image group, and each image is transmitted and displayed on a liquid crystal display in real time and is imaged in space by a fly-eye lens. Successful, the feasibility of 3D television broadcasting by the IP system was shown (Non-Patent Document 3). FIG. 12 illustrates the principle of this IP system. As shown in FIG. 12A, a GRIN lens array 110 in which a large number of minute element lenses are arranged at the time of photographing is used, and the light of each minute element lens of the GRIN lens array 110 is used. The light is collected by the condensing lens 111 and one pixel of the micro camera 112 captures an image of light in one direction. Then, when reproducing, the image 120 from the camera is reproduced on a display 121 such as an LCD as shown in FIG. 12B, and one point of all the minute cameras are gathered to form a reproduced image viewed from one direction as a whole. .

微小レンズを2次元に並べたレンズアレイ122を用いることで水平垂直の運動視差を作り出すことが可能であり、水平方向に並べれば水平方向のみの視差を持たせることも可能である。本方式では複数のレンズを経由して見えた複数の要素画像を、この要素画像を奥行き情報をもとに視点変換して作成し、その要素画像を配列して、あたかも図12Aで撮像したかのようにLCD121へ要素画像配列を表示することで立体視再生を実現する。   By using the lens array 122 in which micro lenses are arranged two-dimensionally, it is possible to create horizontal and vertical motion parallax, and it is also possible to have parallax only in the horizontal direction if arranged in the horizontal direction. In this method, a plurality of element images seen through a plurality of lenses are created by converting the viewpoints of the element images based on the depth information, and the element images are arranged, as if they were captured in FIG. 12A. As described above, stereoscopic image reproduction is realized by displaying the element image array on the LCD 121.

一方、オーディオはオーディオ復号器35において、複数の音源の圧縮オーディオデータを復号したら、音源選択器38に伝送する。音源選択器38では、先に説明した位置情報取り出し器34からのオブジェクトの位置情報及びオブジェクトID情報を受信し、画像の中に存在しているオブジェクト位置情報に応じて、そのオブジェクトIDにリンクした前記復号された音源を選択し、選択された音源データとオブジェクト位置情報を対にして音像位置制御器39へ伝送する。音像位置制御器39では、後述するスピーカレイ40を用いた音像定位制御方式を用いて、それぞれの音源に対して、画像オブジェクトの位置に応じてそれにリンクしたオーディオ音源の定位を制御する。それぞれの音源に対して定位制御した結果の複数のスピーカに対応したオーディオデータは、それぞれ、1つのスピーカに対応する複数のオブジェクトの音源として得られる。これらはすべて線形加算し、ゲインを調節し、1つのスピーカから出力されるオーディオデータは1つにしてスピーカレイ40へ伝送する。スピーカレイ40は、伝送されたオーディオデータを出力する。   On the other hand, audio is transmitted to the sound source selector 38 after the audio decoder 35 decodes the compressed audio data of a plurality of sound sources. The sound source selector 38 receives the object position information and the object ID information from the position information extractor 34 described above, and links to the object ID in accordance with the object position information existing in the image. The decoded sound source is selected, and the selected sound source data and object position information are paired and transmitted to the sound image position controller 39. The sound image position controller 39 controls the localization of an audio sound source linked to each sound source according to the position of the image object, using a sound image localization control method using a speaker array 40 described later. Audio data corresponding to a plurality of speakers as a result of localization control for each sound source is obtained as a sound source of a plurality of objects corresponding to one speaker. All of these are linearly added, the gain is adjusted, and the audio data output from one speaker is transmitted to the speaker array 40 as one. The speaker array 40 outputs the transmitted audio data.

ここで音像定位制御方式の説明をする。ここではスピーカレイを用いて、空間上のある焦点付近の音圧を局所的に上昇させるようにスピーカレイの中心から焦点までの経路と、各スピーカから焦点までの経路との差に応じた遅延量を与えた再生信号により音像定位を実現する。図13を用いてその原理を説明する。まずスピーカを図13のようにアレイ状に組んでスピーカレイ40を構成する。1つ1つのスピーカに遅延回路131を設ける。そして上述した既知の方法で遅延回路131を用いて聴取位置近傍に焦点を結ぶように遅延を設定すると、聴取位置においてスピーカからの直接音よりも、焦点において発生する音圧成分が極めて高くなるように再生することが可能である。この原理を用いて連続的にリアルタイムで制御することで立体動画像のオブジェクトの位置にリンクして音像の定位を制御する。   Here, the sound image localization control method will be described. Here, using a speaker ray, the delay according to the difference between the route from the center of the speaker ray to the focal point and the route from each speaker to the focal point so as to locally increase the sound pressure near a focal point in space. Sound image localization is realized by a reproduction signal given a quantity. The principle will be described with reference to FIG. First, the speaker array 40 is constructed by assembling speakers in an array as shown in FIG. A delay circuit 131 is provided for each speaker. When the delay is set by using the delay circuit 131 in the known method to focus on the vicinity of the listening position, the sound pressure component generated at the focal point is much higher than the direct sound from the speaker at the listening position. It is possible to play back. By using this principle and continuously controlling in real time, the localization of the sound image is controlled by linking to the position of the object of the stereoscopic moving image.

これらの一連のデータ処理により、画像は立体画像として再生し、その中の画像のオブジェクトは、その立体的な動きにリンクした形で、オーディオデータの音源の位置を制御し、あたかもその立体視されている空間から該当オブジェクトの発する音が聞こえているかのように音像定位をして再生する。すなわち、図14のように、立体映像の映像120をLCD121を用いて再生し、それを例えばIP方式のレンズアレイ122を用いて要素画像から立体映像を構成し、その後に設定したスピーカレイ40にて、ディスプレイ121より前に出てきているように知覚される車や飛行機のような立体映像のオブジェクトにリンクした形でそのオブジェクトの音源があたかもそのオブジェクトの位置から聞こえて来るように音像定位をして再生する。   Through this series of data processing, the image is reproduced as a three-dimensional image, and the object of the image in the image is linked to the three-dimensional movement to control the position of the sound source of the audio data, as if it were three-dimensionally viewed. The sound is localized and reproduced as if the sound emitted by the object is heard from the space. That is, as shown in FIG. 14, a stereoscopic video 120 is reproduced using the LCD 121, and a stereoscopic video is constructed from the element images using, for example, the IP lens array 122, and then the speaker array 40 is set. The sound image localization is performed so that the sound source of the object is heard from the position of the object in a form linked to a stereoscopic image object such as a car or airplane that is perceived as coming out of the display 121. And play.

次に、本IP方式を用いた立体映像・立体音響対応再生システムによる再生処理を図15のフローチャートを用いて説明する。はじめに記録メディア17から、多重化されたデータを読み取る(ステップR1)。次にMPEG分離処理する(ステップR2)。分離した情報のうちのビデオデータはビデオデータ復号処理し、またオーディオデータはオーディオデータ復号処理する(ステップR3,R9)。次に復号したビデオデータのユーザーデータからオブジェクトIDと位置情報を分離する(ステップR4)。次に分離した情報から、マクロブロック毎の奥行き情報を検出する(ステップR5)。またオブジェクトのIDを検出する(ステップR6)。   Next, reproduction processing by the stereoscopic video / stereoscopic reproduction system using the IP system will be described with reference to the flowchart of FIG. First, the multiplexed data is read from the recording medium 17 (step R1). Next, MPEG separation processing is performed (step R2). Of the separated information, video data is subjected to video data decoding processing, and audio data is subjected to audio data decoding processing (steps R3 and R9). Next, the object ID and position information are separated from the user data of the decoded video data (step R4). Next, depth information for each macroblock is detected from the separated information (step R5). Further, the ID of the object is detected (step R6).

一方、ステップR9において復号したオーディオデータから当該オーディオデータのストリームIDなどに記述したオブジェクトIDを検出する(ステップR10)。次に複数のオーディオオブジェクトのIDと、ビデオのIDとを照合して、ビデオのオブジェクトにリンクしたオーディオデータの音源の選択を行う(ステップR11)。   On the other hand, the object ID described in the stream ID of the audio data is detected from the audio data decoded in step R9 (step R10). Next, the audio data ID linked to the video object is selected by collating the IDs of the plurality of audio objects with the video ID (step R11).

次に、ビデオは各マクロブロック内の画素に対して持つ奥行き情報を使用して、ビデオ画像の視野変換を行う(ステップR7)。これには、視点座標系への変換式によって視点を変えた画像を得る。次にIP方式によってビデオの立体表示を行う(ステップR8)。この立体表示方式には、パララックスバリアを用いた2眼式立体表示方式を用いることもできる。   Next, the video uses the depth information held for the pixels in each macroblock to perform visual field conversion of the video image (step R7). For this, an image in which the viewpoint is changed by a conversion formula to the viewpoint coordinate system is obtained. Next, stereoscopic display of video is performed by the IP method (step R8). As this stereoscopic display method, a binocular stereoscopic display method using a parallax barrier can also be used.

一方、オーディオは選択したリンク関係が明確化された複数の音源それぞれに対して、音像位置制御器39で、例えばスピーカレイ40を用いた音像定位制御方式を用いて、それぞれの音源に対して、画像オブジェクトの位置に応じて、それにリンクしたオーディオ音源の定位を制御する(ステップR12)。次にスピーカレイ40でそれぞれの音源に対して定位制御した結果の複数のスピーカに対応したオーディオデータを線形加算し、またゲインを調節し、1つのスピーカから出力されるオーディオデータは1つにしてスピーカレイ40から出力する(ステップR13)。   On the other hand, for each of a plurality of sound sources in which the selected link relation is clarified, the audio is controlled by the sound image position controller 39 using, for example, a sound image localization control method using a speaker array 40, for each sound source. In accordance with the position of the image object, the localization of the audio sound source linked to the image object is controlled (step R12). Next, the audio data corresponding to a plurality of speakers as a result of localization control for each sound source by the speaker array 40 is linearly added, and the gain is adjusted so that one audio data is output from one speaker. Output from the speaker array 40 (step R13).

このようにして本実施の形態の立体映像・立体音響対応再生システムでは、立体映像の映像120をLCD121を用いて再生し、それをIP方式のレンズアレイ122を用いて要素画像から立体映像を構成し、その後に設定したスピーカレイ40にて、ディスプレイ121より前に出てきているように知覚される車や飛行機のような立体映像のオブジェクトにリンクした形でそのオブジェクトの音源があたかもそのオブジェクトの位置から聞こえて来るように音像定位をして再生することができる。   In this manner, in the stereoscopic video / stereoscopic playback system of the present embodiment, the stereoscopic video 120 is reproduced using the LCD 121, and the stereoscopic image is formed from the element image using the IP lens array 122. Then, the sound source of the object is linked to a stereoscopic image object such as a car or an airplane that is perceived as coming out of the display 121 by the speaker array 40 set after that, as if the sound source of the object is The sound image can be localized and reproduced so that it can be heard from the position.

(第5の実施の形態)
次に、本発明の第5の実施の形態の立体映像・立体音響対応再生システムについて、図16を用いて説明する。図9に示した第4の実施の形態の立体映像・立体音響対応再生システムでは、最終的な情報は記録メディア17から再生するものであったが、本実施の形態の再生システムは、通信や放送特有のパケット化がなされているパケット情報を受信して、図16のように通信(放送)用パケット解除器31′を経由して放送や通信網から立体映像・音響データのパケットを受信再生する。このパケット解除器31′によりパケット解除したデータは、図9における記録メディア17からの再生データと同じものであり、したがって情報分離化器32以降の構成要素、またその処理機能は図9に示した第4の実施の形態のものと共通である。
(Fifth embodiment)
Next, a stereoscopic video / stereoscopic reproduction system according to a fifth embodiment of the present invention will be described with reference to FIG. Although the final information is reproduced from the recording medium 17 in the stereoscopic image / stereoscopic reproduction system of the fourth embodiment shown in FIG. 9, the reproduction system of the present embodiment Receives packet information that has been packetized peculiar to broadcasting, and receives and reproduces packets of stereoscopic video / audio data from the broadcast or communication network via the communication (broadcast) packet release unit 31 'as shown in FIG. To do. The data whose packet has been canceled by the packet canceller 31 'is the same as the reproduction data from the recording medium 17 in FIG. 9, and therefore the components after the information separator 32 and their processing functions are shown in FIG. This is the same as that of the fourth embodiment.

これにより、第5の実施の形態の立体映像・立体音響対応再生システムでも、通信網あるいは放送受信した立体映像の映像を、図14に示したLCD121を用いて再生し、それをIP方式のレンズアレイ122を用いて要素画像から立体映像を構成し、その後に設定したスピーカレイ40にて、ディスプレイ121より前に出てきているように知覚される車や飛行機のような立体映像のオブジェクトにリンクした形でそのオブジェクトの音源があたかもそのオブジェクトの位置から聞こえて来るように音像定位をして再生することができる。   As a result, even in the stereoscopic video / stereoscopic playback system of the fifth embodiment, the stereoscopic video image received via the communication network or broadcast is played back using the LCD 121 shown in FIG. A three-dimensional image is constructed from element images using the array 122, and then linked to a three-dimensional object such as a car or airplane that is perceived as appearing in front of the display 121 by the speaker array 40 set thereafter. In this way, the sound source of the object can be reproduced with sound image localization so that it can be heard from the position of the object.

なお、本発明は上記の実施の形態に限定されることはなく、次のような変形態様が可能である。上記実施の形態では、立体映像の方式はIP方式で説明したが、パララックスバリア方式、レンチキュラーレンズ方式、超多眼方式、偏向眼鏡を用いた2眼方式、アナグリフなど、立体知覚できる方式であればなんであってもよい。また音像位置制御方式は、音像定位制御方式としてスピーカレイ方式で説明したが、仮想音場空間を実現できる方式、例えばバイノーラル・トランスオーラル方式であっても、Kirchhoff−Helmhotz微分方程式に代表される波動音響理論を用いた音場制御法を用いる方式であってもよい。   In addition, this invention is not limited to said embodiment, The following deformation | transformation aspects are possible. In the above-described embodiment, the stereoscopic video method is described as the IP method. However, the stereoscopic video method may be a parallax barrier method, a lenticular lens method, a super multi-view method, a binocular method using deflecting glasses, an anaglyph, or the like. Whatever. In addition, the sound image position control method has been described with the speaker ray method as the sound image localization control method, but even a method that can realize a virtual sound field space, for example, a binaural transoral method, is represented by a wave represented by Kirchoff-Helmhotz differential equations. A method using a sound field control method using acoustic theory may be used.

また、記録メディアに立体映像・音響データを記録しなくても、通信、放送などあらゆる伝送メディアを経由してそれらのデータを送信することが可能で、その場合には、記録装置は伝送装置として使用することもできる。また再生装置は受信装置として使用することも可能である。   In addition, it is possible to transmit such data via any transmission media such as communication and broadcasting without recording stereoscopic video / audio data on the recording media. It can also be used. The playback device can also be used as a receiving device.

本発明の信号データを記録した記録メディアは、オブジェクトの位置情報とオブジェクトのID情報を記録してあるというメディア特有の効果があり、立体映像や立体音場を再生するシステムを好適に実現することができる。また、記録メディアにおける「メディア」という定義はデータを記録できるメディアという、狭義なメディアというものだけでなく、信号データを伝送するための電磁波、光などを含む。また、記録メディアに記録されている情報は、記録されていない状態での電子ファイルなどのデータ自身を含むものとする。   The recording medium on which the signal data of the present invention is recorded has a media-specific effect that the object position information and the object ID information are recorded, and preferably realizes a system for reproducing a three-dimensional video or a three-dimensional sound field. Can do. In addition, the definition of “media” in a recording medium includes not only a narrowly-defined medium that can record data, but also electromagnetic waves and light for transmitting signal data. The information recorded on the recording medium includes data itself such as an electronic file in a state where it is not recorded.

さらに、上記実施の形態では、映像の奥行き情報は1ピクチャー毎に記録するように説明したが、0.5秒程度ごとでも、1秒程度ごとでも構わない。その場合には、MPEGのGOPレイヤのユーザーデータを用いることで実現できる。オブジェクトのIDは8ビットであっても16ビットであっても構わない。また、オブジェクトとは映像の物体であっても領域であっても構わない。アルゴリズムによってはオブジェクトを検出するのに誤差を含むこともあるが、それは無視するものであってもよい。またさらに、領域は閉曲線で指定できなくてもよい。加えて、音の定位はあくまでもノーマルなステレオ再生よりもわずかでも定位の効果があれば、定位を制御したものと考えられる。   Furthermore, in the above-described embodiment, the video depth information has been described as being recorded for each picture, but it may be about every 0.5 seconds or about every 1 second. In that case, it can be realized by using user data of the GOP layer of MPEG. The object ID may be 8 bits or 16 bits. The object may be a video object or a region. Some algorithms may contain errors in detecting objects, but they may be ignored. Furthermore, the region may not be specified by a closed curve. In addition, if the sound localization has a localization effect even slightly compared to normal stereo reproduction, it is considered that the localization is controlled.

加えて、上記実施の形態では、奥行き情報やオブジェクトID情報はMPEGビデオのユーザーデータを用いて説明したが、MPEGシステムレイヤ規定のプライベートストリームで記録しても構わない。この場合、データはピクチャー毎、若しくは複数のGOP毎に時間に同期させることからPTS(Presentation Time Stamp)を用いて、画像や音響データと同期をとるので、MPEG規定のPrivate_stream_1の同期型のストリーム形式が望ましい。また、図4における情報は映像音響データとは別の領域、すなわち、MPEGのストリームとは別に、記録メディアの別のファイルとして、図4の構造をそのままで、符号化された映像音響データのプログラム毎に、名前をつけたファイルに記録してもよい。その場合は再生順番(=入力画像順番)のピクチャー(フィールド、若しくは画像)順番か、MPEGにおける符号化順番のピクチャー(フィールド、若しくは画像)順番で記録することも可能である。ファイル名はプログラムの識別が可能であれば番号でも、アスキー文字のものでもよい。またプログラムごとでも、幾つかのプログラムを組み合わせたプレイリスト毎でも、メディア全体を1つにした1ファイルであってもよい。   In addition, although the depth information and the object ID information have been described using MPEG video user data in the above embodiment, they may be recorded in a private stream defined by the MPEG system layer. In this case, since data is synchronized with time for each picture or for each of a plurality of GOPs, it is synchronized with images and sound data using PTS (Presentation Time Stamp), so that the private stream stream format of the private stream defined by MPEG is used. Is desirable. In addition, the information in FIG. 4 is an encoded audiovisual data program in the same area as the audiovisual data, that is, as a separate file on the recording medium, separately from the MPEG stream, with the structure of FIG. 4 as it is. Each may be recorded in a named file. In that case, it is also possible to record in the picture (field or image) order of the reproduction order (= input image order) or the picture (field or image) order of the encoding order in MPEG. The file name may be a number or an ASCII character as long as the program can be identified. Further, each file may be a single file that combines the entire media, or a playlist that combines several programs.

さらに、上記した装置の機能はプログラムによりコンピュータに実現させてもよい。そしてそのプログラムは、記録メディアに記録されたものをその記録メディアから読み取らせてコンピュータに取り込ませてもよいし、通信ネットワークを介して伝送されてきたものをコンピュータに取り込ませてもよい。   Furthermore, the functions of the apparatus described above may be realized by a computer by a program. The program may be recorded on a recording medium, read from the recording medium, and loaded into a computer, or transmitted through a communication network into the computer.

本発明の第1の実施の形態の立体映像・立体音響対応記録装置の機能ブロック図。1 is a functional block diagram of a recording apparatus for stereoscopic video / stereoscopic sound according to a first embodiment of the present invention. 上記第1の実施の形態の立体映像・立体音響対応記録装置の主要部のブロック図。The block diagram of the principal part of the recording apparatus corresponding to the three-dimensional video / stereo sound of the first embodiment. 一般的な2画面の視差を求めるためのエピポーラ拘束条件の説明図。Explanatory drawing of the epipolar constraint conditions for calculating | requiring the general parallax of 2 screens. 奥行き情報とオブジェクトID情報などのフォーマット説明図。The format explanatory drawing of depth information, object ID information, etc. FIG. 全周囲を収録するマイクの設置方法の説明図。Explanatory drawing of the installation method of the microphone which records the whole circumference. 本発明の第1の実施の形態の立体映像・立体音響対応記録装置による立体映像・立体音響対応記録処理を示すフローチャート図。The flowchart figure which shows the stereo image / stereo sound correspondence recording process by the stereo image / stereo sound correspondence recording apparatus of the 1st Embodiment of this invention. 本発明の第2の実施の形態の立体映像・立体音響対応記録装置を示すブロック図。The block diagram which shows the three-dimensional video / stereo sound corresponding recording apparatus of the 2nd Embodiment of this invention. 本発明の第3の実施の形態の立体映像・立体音響対応伝送装置を示すブロック図。The block diagram which shows the transmission apparatus corresponding to the stereo image / stereo sound of the 3rd Embodiment of this invention. 本発明の第4の実施の形態の立体映像・立体音響対応再生装置を示すブロック図。The block diagram which shows the reproduction | regeneration apparatus corresponding to the three-dimensional video / stereo sound of the 4th Embodiment of this invention. 一般的な視点変換の説明図。Explanatory drawing of general viewpoint conversion. 一般的なパララックスバリア方式の説明図。Explanatory drawing of a general parallax barrier system. 一般的なIP方式の説明図。(1) 一般的なIP方式の説明図。(2)Explanatory drawing of a general IP system. (1) An explanatory diagram of a general IP system. (2) 本発明の第4の実施の形態で使用するアレイスピーカの説明図。Explanatory drawing of the array speaker used in the 4th Embodiment of this invention. 上記第4の実施の形態によるスピーカアレイとIP立体映像方式のシステムのブロック図。The block diagram of the system of a speaker array and IP stereoscopic video system by the said 4th Embodiment. 上記第4の実施の形態による立体映像・立体音響再生処理を示すフローチャート図。The flowchart figure which shows the three-dimensional video and three-dimensional sound reproduction | regeneration processing by the said 4th Embodiment. 本発明の第5の実施の形態の立体映像・立体音響対応再生システムを示すブロック図。The block diagram which shows the reproduction | regeneration system corresponding to the three-dimensional video / stereo sound of the 5th Embodiment of this invention. MPEGのビデオストリームビデオレイヤの説明図。FIG. 3 is an explanatory diagram of an MPEG video stream video layer. MPEGの多重化トランスポートストリームシステムレイヤを説明図。(1) MPEGの多重化トランスポートストリームシステムレイヤを説明図。(2)FIG. 2 is an explanatory diagram of an MPEG multiplexed transport stream system layer. (1) An explanatory diagram of an MPEG multiplexed transport stream system layer. (2) 本発明の第1の実施の形態で採用する新規なオブジェクトIDを記述するObject_ID_Descriptorを示す説明図。Explanatory drawing which shows Object_ID_Descriptor which describes new object ID employ | adopted by the 1st Embodiment of this invention.

符号の説明Explanation of symbols

1 カメラA
2 カメラB
3 視差ベクトル抽出器
4 奥行き距離算出器
5 オブジェクト解析器
6 水平方向位置分析器
7 垂直方向位置分析器
8 奥行き方向位置分析器
9 位置情報フォーマット器
10 CPU
11 複数マイク群
12 音源選択器
13 オーディオ圧縮器
14 ビデオ圧縮器
15 情報多重化器
16 記録器
17 記録メディア
31 再生器
32 情報分離器
33 ビデオ復号器
34 位置情報取り出し器
35 オーディオ復号器
36 視野変換器
37 立体画像表示器
38 音源選択器
39 音像位置制御器
40 スピーカレイ
1 Camera A
2 Camera B
3 Disparity vector extractor 4 Depth distance calculator 5 Object analyzer 6 Horizontal position analyzer 7 Vertical position analyzer 8 Depth position analyzer 9 Position information formatter 10 CPU
DESCRIPTION OF SYMBOLS 11 Multiple microphone group 12 Sound source selector 13 Audio compressor 14 Video compressor 15 Information multiplexer 16 Recorder 17 Recording medium 31 Regenerator 32 Information separator 33 Video decoder 34 Position information extractor 35 Audio decoder 36 View conversion 37 Stereoscopic image display 38 Sound source selector 39 Sound image position controller 40 Speaker layout

Claims (10)

所定の時間単位で、再生時に自身を音源とする音響の立体定位制御を行おうとするオブジェクトの立体位置情報として当該オブジェクトの水平位置情報、垂直位置情報、奥行き位置情報を作成するステップと、
前記オブジェクトの立体位置情報を、立体映像データと音響データの双方のストリーム中の当該オブジェクトの出現タイミングとリンクさせるステップと、
前記立体映像データ及び音響データを記録メディアに記録すると共に、前記オブジェクトの立体位置情報を当該立体映像データ及び音響データの双方のストリーム中の当該オブジェクトの出現タイミングとリンクさせて当該記録メディアに記録するステップとをコンピュータに実行させる立体映像・立体音響対応記録プログラム。
Creating horizontal position information, vertical position information, and depth position information of the object as the three-dimensional position information of the object for which sound localization control is performed using the sound source as a sound source during reproduction in a predetermined time unit;
Linking the stereoscopic position information of the object with the appearance timing of the object in the stream of both stereoscopic video data and audio data;
The stereoscopic video data and the acoustic data are recorded on a recording medium, and the stereoscopic position information of the object is recorded on the recording medium by linking with the appearance timing of the object in both the stereoscopic video data and the acoustic data streams. A recording program for stereoscopic video / stereo sound that causes a computer to execute steps.
立体映像データ及び音響データと共にこれらの再生時に自身を音源とする音響の立体定位制御を行うオブジェクトの立体位置情報及び出現タイミングのリンク情報を記録している記録メディアから立体映像データ及び音響データを読み出して再生するステップと、
前記記録メディアから前記オブジェクトの立体位置情報を読み出すステップと、
前記記録メディアから前記オブジェクトの立体位置情報に対応する音響データを読み出すステップと、
前記オブジェクトの立体位置情報に対応する前記音響データの音像の立体定位位置を当該オブジェクトの立体位置になるように、少なくとも2以上のスピーカを用いて音像位置制御を行うステップとをコンピュータに実行させる立体映像・立体音響対応再生プログラム。
3D image data and audio data are read out from the recording medium that records the 3D position information and the link information of the appearance timing of the object that performs stereo localization control of the sound using itself as a sound source, together with the 3D image data and audio data. Step to play and
Reading three-dimensional position information of the object from the recording medium;
Reading out acoustic data corresponding to the three-dimensional position information of the object from the recording medium;
A three-dimensional image that causes a computer to execute sound image position control using at least two or more speakers so that the three-dimensional position of the sound image of the acoustic data corresponding to the three-dimensional position information of the object becomes the three-dimensional position of the object. Video / stereo sound compatible playback program.
所定の時間単位で、再生時に自身を音源とする音響の立体定位制御を行おうとするオブジェクトの立体位置情報として当該オブジェクトの水平位置情報、垂直位置情報、奥行き位置情報を作成する手段と、
前記オブジェクトの立体位置情報を、立体映像データと音響データの双方のストリーム中の当該オブジェクトの出現タイミングとリンクさせる手段と、
前記立体映像データ及び音響データを記録メディアに記録すると共に、前記オブジェクトの立体位置情報を当該立体映像データ及び音響データの双方のストリーム中の当該オブジェクトの出現タイミングとリンクさせて当該記録メディアに記録する手段とを備えた立体映像・立体音響対応記録装置。
Means for creating horizontal position information, vertical position information, and depth position information of the object as the three-dimensional position information of the object for which sound localization control is performed using the sound source as a sound source during reproduction in a predetermined time unit;
Means for linking the stereoscopic position information of the object with the appearance timing of the object in the stream of both stereoscopic video data and audio data;
The stereoscopic video data and the acoustic data are recorded on a recording medium, and the stereoscopic position information of the object is recorded on the recording medium by linking with the appearance timing of the object in both the stereoscopic video data and the acoustic data streams. And a stereoscopic video / stereoscopic recording device.
立体映像データ及び音響データと共にこれらの再生時に自身を音源とする音響の立体定位制御を行うオブジェクトの立体位置情報及び出現タイミングのリンク情報を記録している記録メディアから立体映像データ及び音響データを読み出して再生する手段と、
前記記録メディアから前記オブジェクトの立体位置情報を読み出す手段と、
前記記録メディアから前記オブジェクトの立体位置情報に対応する音響データを読み出す手段と、
前記オブジェクトの立体位置情報に対応する前記音響データの音像の立体定位位置を当該オブジェクトの立体位置になるように、少なくとも2以上のスピーカを用いて音像位置制御を行う手段とを備えた立体映像・立体音響対応再生装置。
3D image data and audio data are read out from the recording medium that records the 3D position information and the link information of the appearance timing of the object that performs stereo localization control of the sound using itself as a sound source, together with the 3D image data and audio data. And means to play
Means for reading out the three-dimensional position information of the object from the recording medium;
Means for reading out acoustic data corresponding to the three-dimensional position information of the object from the recording medium;
A stereoscopic image comprising: means for performing sound image position control using at least two or more speakers so that the stereo localization position of the sound image of the acoustic data corresponding to the stereo position information of the object becomes the stereo position of the object; Stereo sound compatible playback device.
立体映像データと音響データを記録すると共に、所定の時間単位で作成した再生時に自身を音源とする音響の立体定位制御を行おうとするオブジェクトの立体位置情報を前記立体映像データと音響データの双方のストリーム中の当該オブジェクトの出現タイミングとリンクさせて記録した立体映像・立体音響対応記録メディア。   3D image data and audio data are recorded, and the 3D position information of the object for which stereo localization control is performed using the sound source as a sound source at the time of reproduction created in a predetermined time unit is stored in both the 3D image data and the audio data. A stereoscopic video / stereo sound compatible recording medium recorded by linking with the appearance timing of the object in the stream. 所定の時間単位で、音源として再生すると共に映像に表示するオブジェクトと音源としては再生するが映像には表示しないオブジェクトとの立体位置情報としてそれぞれのオブジェクトの水平位置情報、垂直位置情報、奥行き位置情報を作成するステップと、
前記オブジェクトそれぞれに識別情報を設定するステップと、
前記オブジェクトそれぞれの識別情報を、立体映像データと音響データの双方のストリーム中の当該オブジェクトの出現タイミングにリンクさせるステップと、
前記立体映像データ及び音響データを記録メディアに記録すると共に、前記オブジェクトの立体位置情報を当該立体映像データ及び音響データの双方のストリーム中の当該オブジェクトの出現タイミングとリンクさせて当該記録メディアに記録するステップとをコンピュータに実行させる立体映像・立体音響対応記録プログラム。
The horizontal position information, vertical position information, and depth position information of each object as three-dimensional position information of an object that is played back as a sound source and displayed on the video and an object that is played back as the sound source but not displayed on the video in a predetermined time unit. The steps of creating
Setting identification information for each of the objects;
Linking the identification information of each object to the appearance timing of the object in the stream of both stereoscopic video data and audio data;
The stereoscopic video data and the acoustic data are recorded on a recording medium, and the stereoscopic position information of the object is recorded on the recording medium by linking with the appearance timing of the object in both the stereoscopic video data and the acoustic data streams. A recording program for stereoscopic video / stereo sound that causes a computer to execute steps.
立体映像データ及び音響データと共に、これらの再生時に音源として再生すると共に映像に表示するオブジェクトと音源としては再生するが映像には表示しないオブジェクトとの立体位置情報及び出現タイミングを示す情報を各オブジェクトの識別情報と対応させて記録している記録メディアから立体映像データ及び音響データを読み出して再生するステップと、
前記記録メディアから映像に表示するオブジェクトと表示しないオブジェクトとの識別情報及び立体位置情報を読み出すステップと、
前記記録メディアからオブジェクトそれぞれの識別情報に対応する音響データを読み出すステップと、
前記立体映像データのオブジェクトそれぞれの識別情報に対応する音響データの音像の立体定位位置を当該オブジェクトそれぞれの立体位置になるように、少なくとも2以上のスピーカを用いて音像位置制御を行うステップとをコンピュータに実行させる立体映像・立体音響対応再生プログラム。
Along with the 3D video data and the audio data, the 3D position information and the information indicating the appearance timing of the object that is reproduced as a sound source at the time of reproduction and the object that is displayed as the sound source and the object that is reproduced as the sound source but not displayed in the video Reading and reproducing stereoscopic video data and audio data from a recording medium recorded in correspondence with the identification information; and
Reading identification information and stereoscopic position information of an object to be displayed and an object not to be displayed on the video from the recording medium;
Reading out acoustic data corresponding to the identification information of each object from the recording medium;
Performing sound image position control using at least two or more speakers so that the stereo localization position of the sound image of the acoustic data corresponding to the identification information of each object of the stereoscopic video data becomes the stereo position of each object. 3D / Sound reproduction program to be executed.
所定の時間単位で、音源として再生すると共に映像に表示するオブジェクトと音源としては再生するが映像には表示しないオブジェクトとの立体位置情報としてそれぞれのオブジェクトの水平位置情報、垂直位置情報、奥行き位置情報を作成する手段と、
前記オブジェクトそれぞれに識別情報を設定する手段と、
前記オブジェクトそれぞれの識別情報を、立体映像データと音響データの双方のストリーム中の当該オブジェクトの出現タイミングにリンクさせる手段と、
前記立体映像データ及び音響データを記録メディアに記録すると共に、前記オブジェクトの立体位置情報を当該立体映像データ及び音響データの双方のストリーム中の当該オブジェクトの出現タイミングとリンクさせて当該記録メディアに記録する手段とを備えた立体映像・立体音響対応記録装置。
The horizontal position information, vertical position information, and depth position information of each object as stereoscopic position information of an object that is played back as a sound source and displayed on the video and an object that is played back as the sound source but not displayed on the video in a predetermined time unit. And a means to create
Means for setting identification information for each of the objects;
Means for linking the identification information of each object to the appearance timing of the object in the stream of both stereoscopic video data and audio data;
The stereoscopic video data and the acoustic data are recorded on a recording medium, and the stereoscopic position information of the object is recorded on the recording medium by linking with the appearance timing of the object in both the stereoscopic video data and the acoustic data streams. And a stereoscopic video / stereoscopic recording device.
立体映像データ及び音響データと共に、これらの再生時に音源として再生すると共に映像に表示するオブジェクトと音源としては再生するが映像には表示しないオブジェクトとの立体位置情報及び出現タイミングを示す情報を各オブジェクトの識別情報と対応させて記録している記録メディアから立体映像データ及び音響データを読み出して再生する手段と、
前記記録メディアから映像に表示するオブジェクトと表示しないオブジェクトとの識別情報及び立体位置情報を読み出す手段と、
前記記録メディアからオブジェクトそれぞれの識別情報に対応する音響データを読み出す手段と、
前記立体映像データのオブジェクトそれぞれの識別情報に対応する音響データの音像の立体定位位置を当該オブジェクトそれぞれの立体位置になるように、少なくとも2以上のスピーカを用いて音像位置制御を行う手段とを備えた立体映像・立体音響対応再生装置。
Along with the 3D video data and the audio data, the 3D position information and the information indicating the appearance timing of the object that is reproduced as a sound source at the time of reproduction and the object that is displayed as the sound source and the object that is reproduced as the sound source but not displayed in the video Means for reading and reproducing stereoscopic video data and audio data from a recording medium recorded in correspondence with the identification information;
Means for reading identification information and three-dimensional position information between an object to be displayed on the video and an object not to be displayed from the recording medium;
Means for reading out acoustic data corresponding to identification information of each object from the recording medium;
Means for performing sound image position control using at least two or more speakers so that the stereo localization position of the sound image of the acoustic data corresponding to the identification information of each object of the stereoscopic video data becomes the stereo position of each object. 3D video / stereo sound compatible playback device.
立体映像データと音響データを記録すると共に、所定の時間単位で作成した、音源を再生すると共に映像を表示するオブジェクトと音源は再生するが映像は表示しないオブジェクトとの立体位置情報及び識別情報を、当該オブジェクトそれぞれの立体映像データと音響データの双方のストリーム中の出現タイミングとリンクさせて記録した立体映像・立体音響対応記録メディア。

Three-dimensional video data and audio data are recorded, and the three-dimensional position information and identification information of the object that reproduces the sound source and displays the video and the sound source that reproduces the sound source but does not display the video, created in a predetermined time unit, A stereoscopic video / stereo acoustic compatible recording medium recorded by linking with the appearance timing in the stream of both the stereoscopic video data and the acoustic data of each object.

JP2004311399A 2004-10-26 2004-10-26 Recording program and reproducing program corresponding to stereoscopic video and 3d audio, recording apparatus, reproducing apparatus and recording medium Pending JP2006128818A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004311399A JP2006128818A (en) 2004-10-26 2004-10-26 Recording program and reproducing program corresponding to stereoscopic video and 3d audio, recording apparatus, reproducing apparatus and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004311399A JP2006128818A (en) 2004-10-26 2004-10-26 Recording program and reproducing program corresponding to stereoscopic video and 3d audio, recording apparatus, reproducing apparatus and recording medium

Publications (1)

Publication Number Publication Date
JP2006128818A true JP2006128818A (en) 2006-05-18

Family

ID=36723062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004311399A Pending JP2006128818A (en) 2004-10-26 2004-10-26 Recording program and reproducing program corresponding to stereoscopic video and 3d audio, recording apparatus, reproducing apparatus and recording medium

Country Status (1)

Country Link
JP (1) JP2006128818A (en)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100827119B1 (en) 2006-12-13 2008-05-06 삼성전자주식회사 Stereo scopic image service system and method and stereo scopic image generation apparatus and stereo scopic image output apparatus
US20090002481A1 (en) * 2007-06-26 2009-01-01 Samsung Electronics Co., Ltd. Method and apparatus for generating stereoscopic image bitstream using block interleaved method
WO2010061791A1 (en) * 2008-11-28 2010-06-03 シャープ株式会社 Video control device, and image capturing apparatus and display apparatus which are provided with same
JP2010199739A (en) * 2009-02-23 2010-09-09 Fujifilm Corp Stereoscopic display controller, stereoscopic display system, and stereoscopic display control method
EP2247116A2 (en) 2009-04-27 2010-11-03 Mitsubishi Electric Corporation Stereoscopic video and audio recording method, stereoscopic video and audio reproducing method, stereoscopic video and audio recording apparatus, stereoscopic video and audio reproducing apparatus, and stereoscopic video and audio recording medium
JP2011035784A (en) * 2009-08-04 2011-02-17 Sharp Corp Stereoscopic video-stereophonic sound recording and reproducing device, system, and method
JP2011050009A (en) * 2009-08-28 2011-03-10 Fujifilm Corp Image recording apparatus and method
JP2011071685A (en) * 2009-09-25 2011-04-07 Nec Corp Video and audio processing system, video and audio processing method and program
JP2011166430A (en) * 2010-02-09 2011-08-25 Nec Casio Mobile Communications Ltd Terminal apparatus and program
JP2011527790A (en) * 2008-07-09 2011-11-04 プライムセンス リミテッド Integrated processing device for 3D mapping
US20120002828A1 (en) * 2010-06-30 2012-01-05 Sony Corporation Audio processing device, audio processing method, and program
JP2012533205A (en) * 2009-07-09 2012-12-20 サムスン エレクトロニクス カンパニー リミテッド Signal processing method and apparatus using screen size of display device
US8374397B2 (en) 2005-10-11 2013-02-12 Primesense Ltd Depth-varying light fields for three dimensional sensing
US8390821B2 (en) 2005-10-11 2013-03-05 Primesense Ltd. Three-dimensional sensing using speckle patterns
US8400494B2 (en) 2005-10-11 2013-03-19 Primesense Ltd. Method and system for object reconstruction
US8462207B2 (en) 2009-02-12 2013-06-11 Primesense Ltd. Depth ranging with Moiré patterns
US8493496B2 (en) 2007-04-02 2013-07-23 Primesense Ltd. Depth mapping using projected patterns
US8494252B2 (en) 2007-06-19 2013-07-23 Primesense Ltd. Depth mapping using optical elements having non-uniform focal characteristics
WO2014010920A1 (en) * 2012-07-09 2014-01-16 엘지전자 주식회사 Enhanced 3d audio/video processing apparatus and method
US8717417B2 (en) 2009-04-16 2014-05-06 Primesense Ltd. Three-dimensional mapping and imaging
WO2014084706A1 (en) * 2012-11-30 2014-06-05 López García Daniel Method for three-dimensional audio localisation in real time using a parametric mixer and pre-decomposition into frequency bands
EP2384009A3 (en) * 2010-04-29 2014-06-18 Lg Electronics Inc. Display device and method of outputting audio signal
US8786682B2 (en) 2009-03-05 2014-07-22 Primesense Ltd. Reference image techniques for three-dimensional sensing
US8830227B2 (en) 2009-12-06 2014-09-09 Primesense Ltd. Depth-based gain control
WO2014199536A1 (en) * 2013-06-10 2014-12-18 パナソニック株式会社 Audio playback device and method therefor
JP2015011226A (en) * 2013-06-28 2015-01-19 日本放送協会 Additional information insertion device, additional information extraction device, additional information insertion program, and additional information extraction program
US8982182B2 (en) 2010-03-01 2015-03-17 Apple Inc. Non-uniform spatial resource allocation for depth mapping
US9030528B2 (en) 2011-04-04 2015-05-12 Apple Inc. Multi-zone imaging sensor and lens array
US9066087B2 (en) 2010-11-19 2015-06-23 Apple Inc. Depth mapping using time-coded illumination
US9098931B2 (en) 2010-08-11 2015-08-04 Apple Inc. Scanning projectors and image capture modules for 3D mapping
US9131136B2 (en) 2010-12-06 2015-09-08 Apple Inc. Lens arrays for pattern projection and imaging
US9157790B2 (en) 2012-02-15 2015-10-13 Apple Inc. Integrated optoelectronic modules with transmitter, receiver and beam-combining optics for aligning a beam axis with a collection axis
JP2016029816A (en) * 2010-05-26 2016-03-03 ソニー株式会社 Transmitter, transition method, receiver and reception method
US9330324B2 (en) 2005-10-11 2016-05-03 Apple Inc. Error compensation in three-dimensional mapping
JP2016537903A (en) * 2013-08-21 2016-12-01 ジョーント・インコーポレイテッドJaunt Inc. Connecting and recognizing virtual reality content
US9582889B2 (en) 2009-07-30 2017-02-28 Apple Inc. Depth mapping based on pattern matching and stereoscopic information
WO2017208821A1 (en) * 2016-05-30 2017-12-07 ソニー株式会社 Sound processing device, sound processing method, and program
CN114915812A (en) * 2021-02-08 2022-08-16 华为技术有限公司 Method for distributing audio of spliced screen and related equipment thereof
WO2022220181A1 (en) 2021-04-12 2022-10-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Information processing method, information processing device, and program

Cited By (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9066084B2 (en) 2005-10-11 2015-06-23 Apple Inc. Method and system for object reconstruction
US8400494B2 (en) 2005-10-11 2013-03-19 Primesense Ltd. Method and system for object reconstruction
US8390821B2 (en) 2005-10-11 2013-03-05 Primesense Ltd. Three-dimensional sensing using speckle patterns
US8374397B2 (en) 2005-10-11 2013-02-12 Primesense Ltd Depth-varying light fields for three dimensional sensing
US9330324B2 (en) 2005-10-11 2016-05-03 Apple Inc. Error compensation in three-dimensional mapping
KR100827119B1 (en) 2006-12-13 2008-05-06 삼성전자주식회사 Stereo scopic image service system and method and stereo scopic image generation apparatus and stereo scopic image output apparatus
US8493496B2 (en) 2007-04-02 2013-07-23 Primesense Ltd. Depth mapping using projected patterns
US8494252B2 (en) 2007-06-19 2013-07-23 Primesense Ltd. Depth mapping using optical elements having non-uniform focal characteristics
US8471893B2 (en) * 2007-06-26 2013-06-25 Samsung Electronics Co., Ltd. Method and apparatus for generating stereoscopic image bitstream using block interleaved method
US20090002481A1 (en) * 2007-06-26 2009-01-01 Samsung Electronics Co., Ltd. Method and apparatus for generating stereoscopic image bitstream using block interleaved method
JP2014209375A (en) * 2008-07-09 2014-11-06 プライムセンス リミテッド Integrated processor for 3d mapping
JP2011527790A (en) * 2008-07-09 2011-11-04 プライムセンス リミテッド Integrated processing device for 3D mapping
US8456517B2 (en) 2008-07-09 2013-06-04 Primesense Ltd. Integrated processor for 3D mapping
WO2010061791A1 (en) * 2008-11-28 2010-06-03 シャープ株式会社 Video control device, and image capturing apparatus and display apparatus which are provided with same
US8462207B2 (en) 2009-02-12 2013-06-11 Primesense Ltd. Depth ranging with Moiré patterns
JP2010199739A (en) * 2009-02-23 2010-09-09 Fujifilm Corp Stereoscopic display controller, stereoscopic display system, and stereoscopic display control method
US8786682B2 (en) 2009-03-05 2014-07-22 Primesense Ltd. Reference image techniques for three-dimensional sensing
US8717417B2 (en) 2009-04-16 2014-05-06 Primesense Ltd. Three-dimensional mapping and imaging
EP3059948A1 (en) 2009-04-27 2016-08-24 Mitsubishi Electric Corporation Stereoscopic video and audio recording method, stereoscopic video and audio reproducing method, stereoscopic video and audio recording apparatus, stereoscopic video and audio reproducing apparatus, and stereoscopic video and audio recording medium
US10523915B2 (en) 2009-04-27 2019-12-31 Mitsubishi Electric Corporation Stereoscopic video and audio recording method, stereoscopic video and audio reproducing method, stereoscopic video and audio recording apparatus, stereoscopic video and audio reproducing apparatus, and stereoscopic video and audio recording medium
EP2247116A2 (en) 2009-04-27 2010-11-03 Mitsubishi Electric Corporation Stereoscopic video and audio recording method, stereoscopic video and audio reproducing method, stereoscopic video and audio recording apparatus, stereoscopic video and audio reproducing apparatus, and stereoscopic video and audio recording medium
JP2010258872A (en) * 2009-04-27 2010-11-11 Mitsubishi Electric Corp Method of recording stereoscopic video and audio, method of reproducing stereoscopic video and audio, stereoscopic video and audio recording device, stereoscopic video and audio reproducing unit, and stereoscopic video and audio recording medium
US9191645B2 (en) 2009-04-27 2015-11-17 Mitsubishi Electric Corporation Stereoscopic video and audio recording method, stereoscopic video and audio reproducing method, stereoscopic video and audio recording apparatus, stereoscopic video and audio reproducing apparatus, and stereoscopic video and audio recording medium
JP2012533205A (en) * 2009-07-09 2012-12-20 サムスン エレクトロニクス カンパニー リミテッド Signal processing method and apparatus using screen size of display device
US9582889B2 (en) 2009-07-30 2017-02-28 Apple Inc. Depth mapping based on pattern matching and stereoscopic information
JP2011035784A (en) * 2009-08-04 2011-02-17 Sharp Corp Stereoscopic video-stereophonic sound recording and reproducing device, system, and method
JP2011050009A (en) * 2009-08-28 2011-03-10 Fujifilm Corp Image recording apparatus and method
US8553105B2 (en) 2009-08-28 2013-10-08 Fujifilm Corporation Audiovisual data recording device and method
JP2011071685A (en) * 2009-09-25 2011-04-07 Nec Corp Video and audio processing system, video and audio processing method and program
US8830227B2 (en) 2009-12-06 2014-09-09 Primesense Ltd. Depth-based gain control
JP2011166430A (en) * 2010-02-09 2011-08-25 Nec Casio Mobile Communications Ltd Terminal apparatus and program
US8982182B2 (en) 2010-03-01 2015-03-17 Apple Inc. Non-uniform spatial resource allocation for depth mapping
US8964010B2 (en) 2010-04-29 2015-02-24 Lg Electronics Inc. Display device and method of outputting audio signal
EP2384009A3 (en) * 2010-04-29 2014-06-18 Lg Electronics Inc. Display device and method of outputting audio signal
US9787968B2 (en) 2010-05-26 2017-10-10 Saturn Licensing Llc Transmission apparatus, transmission method, reception apparatus, reception method, and transmission/reception system using audio compression data stream as a container of other information
JP2016029816A (en) * 2010-05-26 2016-03-03 ソニー株式会社 Transmitter, transition method, receiver and reception method
US9351092B2 (en) * 2010-06-30 2016-05-24 Sony Corporation Audio processing device, audio processing method, and program
US20120002828A1 (en) * 2010-06-30 2012-01-05 Sony Corporation Audio processing device, audio processing method, and program
US9098931B2 (en) 2010-08-11 2015-08-04 Apple Inc. Scanning projectors and image capture modules for 3D mapping
US9066087B2 (en) 2010-11-19 2015-06-23 Apple Inc. Depth mapping using time-coded illumination
US9167138B2 (en) 2010-12-06 2015-10-20 Apple Inc. Pattern projection and imaging using lens arrays
US9131136B2 (en) 2010-12-06 2015-09-08 Apple Inc. Lens arrays for pattern projection and imaging
US9030528B2 (en) 2011-04-04 2015-05-12 Apple Inc. Multi-zone imaging sensor and lens array
US9157790B2 (en) 2012-02-15 2015-10-13 Apple Inc. Integrated optoelectronic modules with transmitter, receiver and beam-combining optics for aligning a beam axis with a collection axis
US9651417B2 (en) 2012-02-15 2017-05-16 Apple Inc. Scanning depth engine
WO2014010920A1 (en) * 2012-07-09 2014-01-16 엘지전자 주식회사 Enhanced 3d audio/video processing apparatus and method
US9723287B2 (en) 2012-07-09 2017-08-01 Lg Electronics Inc. Enhanced 3D audio/video processing apparatus and method
WO2014084706A1 (en) * 2012-11-30 2014-06-05 López García Daniel Method for three-dimensional audio localisation in real time using a parametric mixer and pre-decomposition into frequency bands
CN105264914B (en) * 2013-06-10 2017-03-22 株式会社索思未来 Audio playback device and method therefor
JPWO2014199536A1 (en) * 2013-06-10 2017-02-23 株式会社ソシオネクスト Audio playback apparatus and method
CN106961647A (en) * 2013-06-10 2017-07-18 株式会社索思未来 Audio playback and method
JP6022685B2 (en) * 2013-06-10 2016-11-09 株式会社ソシオネクスト Audio playback apparatus and method
US9788120B2 (en) 2013-06-10 2017-10-10 Socionext Inc. Audio playback device and audio playback method
WO2014199536A1 (en) * 2013-06-10 2014-12-18 パナソニック株式会社 Audio playback device and method therefor
CN106961647B (en) * 2013-06-10 2018-12-14 株式会社索思未来 Audio playback and method
JP2015011226A (en) * 2013-06-28 2015-01-19 日本放送協会 Additional information insertion device, additional information extraction device, additional information insertion program, and additional information extraction program
JP2016537903A (en) * 2013-08-21 2016-12-01 ジョーント・インコーポレイテッドJaunt Inc. Connecting and recognizing virtual reality content
CN109314833A (en) * 2016-05-30 2019-02-05 索尼公司 Apparatus for processing audio and audio-frequency processing method and program
JPWO2017208821A1 (en) * 2016-05-30 2019-03-28 ソニー株式会社 Sound processing apparatus and method, and program
WO2017208821A1 (en) * 2016-05-30 2017-12-07 ソニー株式会社 Sound processing device, sound processing method, and program
US10708707B2 (en) 2016-05-30 2020-07-07 Sony Corporation Audio processing apparatus and method and program
RU2735095C2 (en) * 2016-05-30 2020-10-28 Сони Корпорейшн Audio processing device and method, and program
CN109314833B (en) * 2016-05-30 2021-08-10 索尼公司 Audio processing device, audio processing method, and program
CN114915812A (en) * 2021-02-08 2022-08-16 华为技术有限公司 Method for distributing audio of spliced screen and related equipment thereof
CN114915812B (en) * 2021-02-08 2023-08-22 华为技术有限公司 Method for distributing spliced screen audio and related equipment thereof
WO2022220181A1 (en) 2021-04-12 2022-10-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ Information processing method, information processing device, and program

Similar Documents

Publication Publication Date Title
JP2006128818A (en) Recording program and reproducing program corresponding to stereoscopic video and 3d audio, recording apparatus, reproducing apparatus and recording medium
JP5519647B2 (en) Stereoscopic video data stream generation method and apparatus using camera parameters,
KR102465227B1 (en) Image and sound processing apparatus and method, and a computer-readable recording medium storing a program
JP4755565B2 (en) Stereoscopic image processing device
JP5299214B2 (en) Image processing apparatus, image processing method, and program
JP5328082B2 (en) Video transmission and reception method and apparatus, and transmission stream structure thereof
US6583808B2 (en) Method and system for stereo videoconferencing
US8878836B2 (en) Method and apparatus for encoding datastream including additional information on multiview image and method and apparatus for decoding datastream by using the same
US20020191841A1 (en) Image processing method and apparatus
JP2006191357A (en) Reproduction device and reproduction program
US20160344999A1 (en) SYSTEMS AND METHODs FOR PRODUCING PANORAMIC AND STEREOSCOPIC VIDEOS
CA2933704A1 (en) Systems and methods for producing panoramic and stereoscopic videos
JP2006270924A (en) Video data processor, video player, video data processing method, video play method, and programs and recording media for making these methods executed by computer
JP2006128816A (en) Recording program and reproducing program corresponding to stereoscopic video and stereoscopic audio, recording apparatus and reproducing apparatus, and recording medium
JP2009244502A (en) Image processing apparatus, image display apparatus, imaging apparatus and image processing method
JP2008109267A (en) Solid image generating device and solid image decoding device
US20120087571A1 (en) Method and apparatus for synchronizing 3-dimensional image
JP5957769B2 (en) Video processing apparatus and video processing method
JP2006352539A (en) Wide-field video system
JP2006140618A (en) Three-dimensional video information recording device and program
JP6581241B2 (en) Hardware system for 3D video input on flat panel
US20230179756A1 (en) Information processing device, information processing method, and program
JP2004200814A (en) Stereoscopic image forming method and stereoscopic image forming device
WO2011024423A1 (en) Control device for stereoscopic image display and imaging device for stereoscopic images
Nagao et al. Arena-style immersive live experience (ILE) services and systems: Highly realistic sensations for everyone in the world

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081014

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090512