JP2006128816A - Recording program and reproducing program corresponding to stereoscopic video and stereoscopic audio, recording apparatus and reproducing apparatus, and recording medium - Google Patents

Recording program and reproducing program corresponding to stereoscopic video and stereoscopic audio, recording apparatus and reproducing apparatus, and recording medium Download PDF

Info

Publication number
JP2006128816A
JP2006128816A JP2004311391A JP2004311391A JP2006128816A JP 2006128816 A JP2006128816 A JP 2006128816A JP 2004311391 A JP2004311391 A JP 2004311391A JP 2004311391 A JP2004311391 A JP 2004311391A JP 2006128816 A JP2006128816 A JP 2006128816A
Authority
JP
Japan
Prior art keywords
stereoscopic
data
recording
stereoscopic video
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004311391A
Other languages
Japanese (ja)
Inventor
Takayuki Sugawara
隆幸 菅原
Takuma Suzuki
琢磨 鈴木
Toshiko Murata
寿子 村田
Masako Yurino
正子 百合野
Jitsuki Haishi
実希 羽石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2004311391A priority Critical patent/JP2006128816A/en
Publication of JP2006128816A publication Critical patent/JP2006128816A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a recording/reproducing technique corresponding to stereoscopic video and stereoscopic audio capable of performing corresponding recording and reproducing of the contents of stereoscopic video and stereoscopic audio. <P>SOLUTION: In this recording technique corresponding to stereoscopic video and stereoscopic audio, stereoscopic video data and stereoscopic audio data are recorded in a recording medium, stereoscopic positional information of an object in a video image is created per time, together with stereoscopic video information, and the created information is recorded in a predetermined area capable of being referred to, when the stereoscopic video data and the stereoscopic audio data are reproduced in this recording medium. Also, in this reproducing technique corresponding to stereoscopic video and stereoscopic audio, the stereoscopic positional information of the object in the video image is detected from the stereoscopic video data, read from the recording medium or the received stereoscopic video data, and spatial localization of spatial audio is performed on the basis of the positional information. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、立体映像のオブジェクトの動きと立体音響を対応させて記録し、再生するための立体映像・立体音響対応記録プログラム、再生プログラム、記録装置、再生装置及び記録メディアに関する。   The present invention relates to a stereoscopic video / stereo acoustic correspondence recording program, a reproducing program, a recording apparatus, a reproducing apparatus, and a recording medium for recording and reproducing stereoscopic object motion and stereoscopic sound in association with each other.

従来、いくつかの方式で3D(立体)映像再生技術が提案されている。また3D(立体)音場に関する技術も、スピーカのないところから、あたかもその位置にスピーカがあるかのように音を定位させて再生する技術が提案されている。しかし、空間を表現できる立体映像技術で表示再現できるコンテンツの立体的な映像と空間音響の空間定位技術による音響とを連携させて再生することができないという問題点があった。   Conventionally, 3D (stereoscopic) video reproduction techniques have been proposed in several ways. Further, as a technique related to a 3D (stereoscopic) sound field, a technique has been proposed in which a sound is localized and reproduced as if a speaker is located at that position from a place without a speaker. However, there is a problem that it is not possible to reproduce the stereoscopic video of the content that can be displayed and reproduced by the stereoscopic video technology that can express the space and the sound by the spatial localization technology of the spatial sound in cooperation.

例えば、特開2000−17355号公報(特許文献1)には、本発明者から対象物体に関するステレオ画像の相対応する両画素点間を結ぶエピポーラ線の方向とその直交する方向に関して両方向にそれぞれ相対応する両画素点を含むように画面上の2次元探索を行って視差ベクトルを求め、対象物体までの距離を計算する方法が開示されている。   For example, in Japanese Patent Laid-Open No. 2000-17355 (Patent Document 1), the present inventor discloses a phase in both directions with respect to a direction of an epipolar line connecting between corresponding pixel points of a stereo image related to a target object and a direction orthogonal thereto. A method of calculating a distance to a target object by performing a two-dimensional search on the screen so as to include both corresponding pixel points and calculating a disparity vector is disclosed.

また、特開平7−236199公報(特許文献2)には、立体映像における左右の物体の動きは動きベクトルの検出によって自動的に検出し、これに応じた音場は主音声信号及び副音声信号によって駆動される主スピーカ及びサラウンドスピーカで立体的に再生をする方式が開示されている。しかしながら、動きベクトルはコンテンツの時間方向に関する物体の動きであり、3次元立体映像の奥行きの情報ではない。また、立体音場もこの従来技術では、単に幾つかのスピーカでのサラウンド感を用いて行うもので、空間での音の定位を行うものではない。   In Japanese Patent Laid-Open No. 7-236199 (Patent Document 2), the movements of left and right objects in a stereoscopic video are automatically detected by detecting a motion vector, and the sound fields corresponding to the motions are a main audio signal and a sub audio signal. A method of reproducing three-dimensionally with a main speaker and a surround speaker driven by the above is disclosed. However, the motion vector is the motion of the object in the time direction of the content and is not information on the depth of the 3D stereoscopic video. In this prior art, the three-dimensional sound field is also performed by simply using the surround feeling of several speakers, and does not perform localization of sound in space.

また、特開2001−306081公報(特許文献3)には、実時間でオーディオ空間の構成を制御する音楽空間構成制御装置に関する技術が開示されており、DirectXに存在する3次元音源を記述するパラメータを使い、定位、方向、ドップラーパラメータなどを用いて効果的なミュージックスペースを提供することが開示されている。しかしながら立体映像の空間である奥行きに関するパラメータは開示されておらず、その空間的映像と音響の同期再生も説明されていない。   Japanese Patent Laid-Open No. 2001-306081 (Patent Document 3) discloses a technique related to a music space configuration control device that controls the configuration of an audio space in real time, and parameters that describe a three-dimensional sound source existing in DirectX. To provide an effective music space using localization, direction, Doppler parameters, and the like. However, a parameter relating to depth, which is a space of stereoscopic video, is not disclosed, and synchronous playback of the spatial video and sound is not described.

このように、従来では、3次元の立体映像の奥行き方向の動きに対応して、音の定位技術を用いて映像と音響を連携させて再生することや、映像がディスプレイ表示域を超えてもそのコンテンツの音を音の定位技術を利用して再生して臨場感のある映像音響を再生するシステムは知られていない。
特開2000−17355号公報 特開平7−236199号公報 特開2001−306081号公報 NHK放送技術研究所、「3次元映像の基礎」、オーム社、1995年 イエンスブラウエルト著、「空間音響」、鹿島出版会、1985年 B. Javidi, F. Okano Editors, “Three−Dimensional Television, Video, and Display Technologies”, Springer−Verlag (2002), P101〜P123
As described above, conventionally, in response to the movement in the depth direction of a three-dimensional stereoscopic image, the sound and the sound are coordinated to reproduce the image and the sound, or even if the image exceeds the display display area. There is no known system that reproduces the sound of the content using sound localization technology and reproduces realistic video and audio.
JP 2000-17355 A JP 7-236199 A JP 2001-306081 A NHK Broadcasting Technology Laboratory, “Basics of 3D Video”, Ohm, 1995 By Jens Brauert, “Spatial Acoustics”, Kashima Press, 1985 B. Javidi, F.A. Okano Editors, “Three-Dimensional Television, Video, and Display Technologies”, Springer-Verlag (2002), P101-P123.

本発明は前述のような従来技術の技術的課題に鑑みてなされたものであり、立体映像と立体音響のコンテンツの対応記録ができる立体映像・立体音響対応記録技術を提供することを目的とする。   The present invention has been made in view of the above-described technical problems of the prior art, and an object of the present invention is to provide a stereoscopic video / stereoacoustic recording technique capable of corresponding recording of stereoscopic video and stereoscopic audio content. .

本発明はまた、記録メディアに記録されている立体映像データと音響データの再生に際し、オブジェクトの映像中の3次元的位置と音響の3次元的定位を同期して再生することができる立体映像・立体音響対応再生技術を提供することを目的とする。   The present invention also provides a stereoscopic video / audio that can be reproduced in synchronization with the three-dimensional position of the object in the video and the three-dimensional localization of the sound when reproducing the stereoscopic video data and the audio data recorded on the recording medium. It aims at providing the reproduction | regeneration technology corresponding to a three-dimensional sound.

請求項1の発明の立体映像・立体音響対応記録プログラムは、立体映像データ及び音響データの双方のデータストリームを記録メディアに記録するステップと、所定の時間単位で、再生時に自身を音源とする音響の立体定位制御を行おうとするオブジェクトの立体位置情報を当該オブジェクトの識別情報と共に、前記記録メディアにおける当該立体映像データ及び音響データの再生時に参照可能な所定の記憶エリアに記録するステップとをコンピュータに実行させるものである。   According to the first aspect of the present invention, there is provided a recording program for stereoscopic video / stereo acoustic recording of a data stream of both stereoscopic video data and audio data on a recording medium, and an audio having itself as a sound source during reproduction in a predetermined time unit. Recording the stereo position information of the object to be subjected to the stereo localization control in the computer together with the identification information of the object in a predetermined storage area that can be referred to when reproducing the stereo video data and the audio data on the recording medium. To be executed.

請求項2の発明の立体映像・立体音響対応再生プログラムは、記録メディアに記録されている立体映像データ及び音響データを読み出して再生するステップと、前記記録メディアの所定の記憶エリアから音源の立体定位制御を行うオブジェクトの識別情報と立体位置情報とを読み出すステップと、前記音響データの再生に際して、前記オブジェクトの識別情報に対応する立体位置情報に基づき、当該音響データの音像の立体定位位置を当該オブジェクトの立体位置になるように、少なくとも2以上のスピーカを用いて音像位置制御を行うステップとをコンピュータに実行させるものである。   The reproduction program for stereoscopic video / stereo sound according to claim 2 reads out and reproduces stereoscopic video data and audio data recorded on a recording medium, and stereo localization of a sound source from a predetermined storage area of the recording medium. The step of reading the identification information and the stereoscopic position information of the object to be controlled, and the reproduction of the acoustic data, based on the stereoscopic position information corresponding to the identification information of the object, the stereo localization position of the sound image of the acoustic data And a step of performing sound image position control using at least two or more speakers so that the three-dimensional position is obtained.

請求項3の発明の立体映像・立体音響対応記録装置は、立体映像データ及び音響データの双方のデータストリームを記録メディアに記録する手段と、所定の時間単位で、再生時に自身を音源とする音響の立体定位制御を行おうとするオブジェクトの立体位置情報を当該オブジェクトの識別情報と共に、前記記録メディアにおける当該立体映像データ及び音響データの再生時に参照可能な所定の記憶エリアに記録する手段とを備えたものである。   According to a third aspect of the present invention, there is provided a stereoscopic video / stereo sound compatible recording apparatus, a unit for recording a data stream of both stereoscopic video data and audio data on a recording medium, and an audio having itself as a sound source during reproduction in a predetermined time unit. And means for recording the stereoscopic position information of the object to be subjected to the stereo localization control together with the identification information of the object in a predetermined storage area that can be referred to when reproducing the stereoscopic video data and the audio data on the recording medium. Is.

請求項4の発明の立体映像・立体音響対応再生装置は、記録メディアに記録されている立体映像データ及び音響データを読み出して再生する手段と、前記記録メディアの所定の記憶エリアから音源の立体定位制御を行うオブジェクトの識別情報と立体位置情報とを読み出す手段と、前記音響データの再生に際して、前記オブジェクトの識別情報に対応する立体位置情報に基づき、当該音響データの音像の立体定位位置を当該オブジェクトの立体位置になるように、少なくとも2以上のスピーカを用いて音像位置制御を行う手段とを備えたものである。   According to a fourth aspect of the present invention, there is provided a stereoscopic video / stereo sound-compatible playback device that reads and plays back stereoscopic video data and audio data recorded on a recording medium, and stereo localization of a sound source from a predetermined storage area of the recording medium. Means for reading the identification information and stereoscopic position information of the object to be controlled, and upon reproduction of the acoustic data, based on the stereoscopic position information corresponding to the identification information of the object, the stereo localization position of the sound image of the acoustic data is determined as the object Means for performing sound image position control using at least two or more speakers so that the three-dimensional position is obtained.

請求項5の発明の立体映像・立体音響対応記録メディアは、立体映像データ及び音響データの双方のデータストリームを記録すると共に、所定の時間単位でオブジェクトの立体位置情報を当該オブジェクトの識別情報と共に当該記録メディアにおける前記立体映像データ及び音響データの再生時に参照可能な所定の記憶エリアに記録したものである。   According to the fifth aspect of the present invention, there is provided a recording medium for stereoscopic video / stereo acoustic recording both the stereoscopic video data and the audio data, and the stereoscopic position information of the object together with the identification information of the object in a predetermined time unit. It is recorded in a predetermined storage area that can be referred to when reproducing the stereoscopic video data and the sound data on the recording medium.

本発明の立体映像・立体音響対応記録技術では、記録メディアに対して立体映像データ及び音響データを記録とすると共に、立体映像情報と共に映像中のオブジェクトの立体位置情報を所定の時間単位で作成して当該記録メディアにおける立体映像データ及び音響データの再生時に参照可能な所定の記憶エリアに記録することができる。   In the recording technology for stereoscopic video / stereo sound of the present invention, stereoscopic video data and acoustic data are recorded on a recording medium, and stereoscopic position information of an object in the video is created in a predetermined time unit together with stereoscopic video information. Thus, it can be recorded in a predetermined storage area that can be referred to when reproducing the stereoscopic video data and the audio data on the recording medium.

本発明の立体映像・立体音響対応再生技術では、記録メディアから読出された立体映像データあるいは受信した立体映像データからその映像中のオブジェクトの立体位置情報を検出し、その位置情報をもとにして空間音響の空間的定位を正確に行うことができる。   In the 3D image / stereo sound compatible playback technology of the present invention, the 3D position information of an object in the image is detected from the 3D image data read from the recording medium or the received 3D image data, and based on the position information. Spatial localization of spatial acoustics can be performed accurately.

以下、本発明の実施の形態を図に基づいて詳説する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

(第1の実施の形態)図1は本発明の1つの実施の形態の立体映像・立体音響対応記録システムのブロック図であり、図2はそれを用いた対象物体の撮影態様を示している。本実施の形態の立体映像・立体音響対応記録システムは、立体映像情報記録系として、左右一対の撮像カメラA1、撮像カメラB2、視差ベクトル抽出器3、奥行き距離算出器4、オブジェクト解析器5、水平方向位置分析器6、垂直方向位置分析器7、奥行き方向位置分析器8、位置情報フォーマット器9、ビデオ圧縮器14を備えている。本システムはまた、音響情報記録系として、複数マイク群11、音源選択器12、オーディオ圧縮器13を備えている。また本システムは、これら両系の共通の要素としてCPU10、情報多重化器15、記録器16を備えている。   (First Embodiment) FIG. 1 is a block diagram of a stereoscopic video / stereo acoustic recording system according to one embodiment of the present invention, and FIG. 2 shows a photographing mode of a target object using the same. . The stereoscopic video / stereoacoustic recording system of the present embodiment includes a pair of left and right imaging cameras A1, B2, parallax vector extractor 3, depth distance calculator 4, object analyzer 5, as a stereoscopic video information recording system. A horizontal position analyzer 6, a vertical position analyzer 7, a depth direction position analyzer 8, a position information formatter 9, and a video compressor 14 are provided. This system also includes a plurality of microphone groups 11, a sound source selector 12, and an audio compressor 13 as an acoustic information recording system. The system also includes a CPU 10, an information multiplexer 15, and a recorder 16 as elements common to both systems.

上記構成の立体映像・立体音響対応記録システムによる立体映像・立体音響対応記録動作について説明する。映像記録系は、左右一対の撮像カメラA1、B2により左画像Pl及び右画像Prを撮像し、撮像された対象物体の映像を視差ベクトル抽出器3に出力する。視差ベクトル抽出器3は、特開平9−33249号公報に開示されている相関関数などの評価関数に従って画素毎の対応付けを行う。ここで、2台の撮像カメラA1、撮像カメラB2はそれらの光軸が同一X−Z平面上に含まれるように配置されている。これが厳密に正しく配置される限り、対応点の探索はエピポーラ線である走査線上のみ行えばよいのであるが、実際には、走査線上に1画素分も誤差なく配置されていることはむしろ少ない。そこで、左画像Pl及び右画像Prは視差ベクトル抽出器3でエピポーラ線方向である水平方向と、ある程度の垂直方向の視差ベクトルサーチ計算を行う。   A stereoscopic video / stereo sound compatible recording operation by the stereoscopic video / stereo sound compatible recording system configured as described above will be described. The video recording system captures the left image Pl and the right image Pr by the pair of left and right imaging cameras A1 and B2, and outputs the captured image of the target object to the parallax vector extractor 3. The disparity vector extractor 3 associates each pixel according to an evaluation function such as a correlation function disclosed in Japanese Patent Laid-Open No. 9-33249. Here, the two imaging cameras A1 and B2 are arranged so that their optical axes are included in the same XZ plane. As long as this is strictly arranged correctly, the search for the corresponding point may be performed only on the scanning line which is an epipolar line, but in practice, it is rather rare that one pixel is arranged on the scanning line without any error. Therefore, the parallax vector extractor 3 performs parallax vector search calculation in the horizontal direction that is the epipolar line direction and a certain degree of vertical direction in the left image Pl and the right image Pr.

エピポーラ線方向の計算方法を、図3を参照して説明する。ここでは予め判別されている対応点、若しくは非常に判別しやすい特徴点が、左画像PlにはR点(Xl,Yl)に、右画像PrにはS点(Xr,Yr)に存在していたとする。この2点R、Sを直線で結ぶことによりエピポーラ線EPの方向が求められる。ここでは、エピポーラ線EPの方向はX軸方向線にほぼ平行であるから、基本的には水平の探索で求まる。例えば水平4画素垂直2画素の小ブロックの画素の差和や差の2乗和などを評価パラメータとして、最小値になる位置をXの位置で求める。カメラに垂直方向の設置誤差が考えられる場合には、エピポーラ線から角度θだけ傾斜していると仮定して水平探索範囲とTanθの積で計算される程度に垂直方向の探索範囲を拡大する。   A method of calculating the epipolar line direction will be described with reference to FIG. Here, corresponding points that have been discriminated in advance or feature points that are very easy to discriminate exist at the R point (Xl, Yl) in the left image Pl and at the S point (Xr, Yr) in the right image Pr. Suppose. The direction of the epipolar line EP is obtained by connecting these two points R and S with a straight line. Here, since the direction of the epipolar line EP is substantially parallel to the X-axis direction line, it is basically obtained by a horizontal search. For example, the position of the minimum value is obtained at the position X by using the difference sum of the pixels of the small blocks of horizontal 4 pixels and vertical 2 pixels, the square sum of the differences, or the like as the evaluation parameter. When a vertical installation error is considered in the camera, the vertical search range is expanded to the extent calculated by the product of the horizontal search range and Tan θ, assuming that the camera is inclined by an angle θ from the epipolar line.

設定された探索範囲内で探索を行い、結果として、例えば左画像上の点R(Xl,Yl)と右画像上の点S(Xr,Yr)が対応した場合、点R(Xl,Yl)における視差ベクトルをV(Xl−Xr,Yl−Yr)と表す。このような視差ベクトルを、左画像上の全てのマクロブロックについて求める。この処理を画面全体にわたって行い、最終的に選択された視差ベクトルVを奥行き距離計算器4に送出する。   A search is performed within the set search range. As a result, for example, when a point R (Xl, Yl) on the left image corresponds to a point S (Xr, Yr) on the right image, the point R (Xl, Yl) The disparity vector at is expressed as V (X1-Xr, Y1-Yr). Such a disparity vector is obtained for all macroblocks on the left image. This process is performed over the entire screen, and the finally selected disparity vector V is sent to the depth distance calculator 4.

奥行き距離算出器4は、視差ベクトルの大きさを計算し、例えば水平4画素垂直2画素の小ブロックと設定して探索して位置を求める。得られた水平位置、垂直位置、奥行き方向を(X、Y、Z)としてオブジェクト解析器5へ伝送する。オブジェクト解析器5では、小ブロックを画像1枚につき、左上から右下へラスター順番にならべて、X、Y、Xそれぞれを所定のビット数でフォーマット化する。例えば画像が水平720x480のNTSCクラスの解像度であれば、Xを10ビット、Yを9ビットとする。例えば画像が水平1920x1080のHDTVクラスの解像度であれば、Xを11ビット、Yを9ビットとする。   The depth distance calculator 4 calculates the size of the parallax vector, and searches for a position by setting, for example, a small block of horizontal 4 pixels and vertical 2 pixels. The obtained horizontal position, vertical position, and depth direction are transmitted to the object analyzer 5 as (X, Y, Z). The object analyzer 5 formats each of the X, Y, and X with a predetermined number of bits in a raster order from the upper left to the lower right for each image. For example, if the image is NTSC class resolution of 720 × 480 horizontal, X is 10 bits and Y is 9 bits. For example, if the image has a horizontal 1920 × 1080 HDTV class resolution, X is 11 bits and Y is 9 bits.

図4に720x480の場合のフォーマット例を示す。1フレームでこの構造を1つ伝送する。フレームレイヤには、1画面中の4x2のマクロブロックの数だけ、ラスター順番に、オブジェクトフラッグ1ビット、その後にオブジェクトのID7ビットその後に水平位置情報X、垂直位置情報Y、奥行き位置情報Zのデータが続く。   FIG. 4 shows a format example in the case of 720 × 480. One structure is transmitted in one frame. In the frame layer, the number of 4 × 2 macroblocks in one screen is the raster order, the object flag is 1 bit, the object ID is 7 bits, the horizontal position information X, the vertical position information Y, and the depth position information Z. Followed.

オブジェクトフラッグとは、この後説明するオブジェクトの中心に対応するマクロブロックに対して1、それ以外のマクロブロックには0を記述するもので、オブジェクトであるかないかを示すフラグともいえる。オブジェクトID情報もこの後説明するオブジェクトの識別ナンバーである。ここでは7ビットを用いるので、127種類のオブジェクトがフレーム内に定義することができる(0はオブジェクト領域外を占めることとする)。対応する音源情報とのリンク情報となる。   The object flag describes 1 for a macroblock corresponding to the center of the object to be described later, and 0 for other macroblocks, and can be said to be a flag indicating whether or not the object is an object. The object ID information is also an object identification number to be described later. Since 7 bits are used here, 127 types of objects can be defined in the frame (0 occupies outside the object area). It becomes link information with corresponding sound source information.

また、オブジェクトは必ずしも映像中に存在していないこともあるので、そのときには図4のESC情報を用いる。この構造には、はじめにNumOfObjectという8ビットで、後続するESCオブジェクトの個数と、ESCオブジェクトの中心(若しくはそれに順ずる)位置における水平位置、垂直位置、奥行き位置を記録する。また、オブジェクトのIDも記録する。これによって、映像中から消えて、例えば視聴者の後方を飛び回るようなオブジェクトでも、音像だけは後ろから聞こえるという特殊なシーンの再生も可能である。   Further, since the object may not necessarily exist in the video, the ESC information of FIG. 4 is used at that time. In this structure, the number of subsequent ESC objects and the horizontal position, the vertical position, and the depth position at the center (or the same position) of the ESC object are recorded with 8 bits of NumOfObject. The ID of the object is also recorded. As a result, even for an object that disappears from the video and flies behind the viewer, for example, it is possible to reproduce a special scene in which only the sound image can be heard from behind.

これらのマクロブロックの情報はオブジェクト解析器5に伝送される。オブジェクト解析器5では画像データにラプラシアンオペレータなどを用いて微分し、オブジェクトの輪郭を抽出し、その大きい塊をひとつのオブジェクトと定義し、そのオブジェクトの領域を示す輪郭の情報を、水平方向位置分析器6、垂直方向位置分析器7、奥行き方向位置分析器8にそれぞれ伝送する。水平方向位置分析器6ではオブジェクトの領域における水平方向の最小値と最大値の和を1/2にした値を計算する。垂直方向位置分析器7では垂直方向の最小値と最大値の和を1/2にした値を計算する。奥行き方向位置分析器8ではオブジェクト輪郭情報から、その中心の位置に対応する水平4画素垂直2画素の小ブロックの視差ベクトルの大きさを計算する。ここでは中心の値を用いたが、オブジェクト画像の面積を考慮した重心を求めてもよい。   Information on these macro blocks is transmitted to the object analyzer 5. The object analyzer 5 differentiates the image data using a Laplacian operator, extracts the outline of the object, defines the large block as one object, and analyzes the position information of the outline of the object in the horizontal direction. And to the vertical position analyzer 7 and the depth position analyzer 8, respectively. The horizontal position analyzer 6 calculates a value obtained by halving the sum of the horizontal minimum and maximum values in the object area. The vertical position analyzer 7 calculates a value obtained by halving the sum of the minimum value and the maximum value in the vertical direction. The depth direction position analyzer 8 calculates the size of the disparity vector of a small block of horizontal 4 pixels and vertical 2 pixels corresponding to the center position from the object outline information. Although the center value is used here, the center of gravity in consideration of the area of the object image may be obtained.

それぞれの計算された値は、位置情報フォーマット器9において、オブジェクトのX、Y、Zの位置情報として、オブジェクトの中心に対応するマクロブロックに対してオブジェクトフラッグを1、それ以外のマクロブロックには0を記述する。同様に次のオブジェクトを検出していくがオブジェクトに発生順番で1から127までのIDをふり、オブジェクトIDフィールドに記録する。オブジェクト領域以外のところは0を記述する。次のフレーム画像ではオブジェクトは動いている可能性があるので、もっとも近傍であって、オブジェクトの輪郭情報が特徴点(例えば四角形のものであれば角の数や、そのオブジェクトの内部の輝度、色差信号が8ビットデータ)で10%以内の僅差でほぼ似ているなどの情報や、時間的に隣り合うフレームであれば、検出されたオブジェクトがもっとも近いものである、などの複数の条件を満たしているものを同じオブジェクトとして認識し、オブジェクトID情報は、次のフレーム移行、同じオブジェクトと認識したものには同じID値を記録する。位置情報フォーマット器9はこのような図4のようなフォーマットをして、情報多重化器15に伝送すると同時に、CPU10へオブジェクトのX、Y、Zの位置情報を伝送する。   In the position information formatter 9, each calculated value is set as 1 for the macroblock corresponding to the center of the object, and for other macroblocks as the X, Y, Z position information of the object. Describe 0. Similarly, the next object is detected, but IDs 1 to 127 are assigned to the objects in the order of occurrence and recorded in the object ID field. 0 is described in places other than the object area. Since the object may be moving in the next frame image, it is the nearest neighbor, and if the outline information of the object is a feature point (for example, if it is a rectangle, the number of corners, the brightness inside the object, the color difference) Satisfies multiple conditions such as information such as signals that are almost similar within 10% of the signal (8-bit data) and that the detected object is the closest if the frames are temporally adjacent Are recognized as the same object, and the same ID value is recorded in the object ID information for the next frame transition and those recognized as the same object. The position information formatter 9 performs the format as shown in FIG. 4 and transmits the information to the information multiplexer 15 and simultaneously transmits the X, Y, and Z position information of the object to the CPU 10.

次に、オーディオ情報の記録方法について説明する。オーディオはカメラ1,2を中心に複数のマイク群11を全周囲に向けて設定する。すなわち、図5のようにカメラを中心にした球の表面を複数の指向性の高いマイクを用いて球面の法線方向に向ける。図5は概念的に示してあるが、このマイクは、中心をカメラ位置としてX、Y、Zの方向で3次元の座標を仮想的に設定し、その軸の方向6点とその間を補間できるようにマイクをなるべく多く設置している。ただしカメラレンズ方向(図5では+Z方向マイク)は、カメラの視野に入らないようにマイクの位置を工夫している。   Next, a method for recording audio information will be described. Audio is set with the plurality of microphone groups 11 centering on the cameras 1 and 2 so as to face all around. That is, as shown in FIG. 5, the surface of the sphere centered on the camera is directed in the normal direction of the spherical surface using a plurality of highly directional microphones. Although conceptually shown in FIG. 5, this microphone can virtually set three-dimensional coordinates in the X, Y, and Z directions with the center as the camera position, and can interpolate between the six directions of the axis and between them. As many microphones as possible are installed. However, the position of the microphone is devised so that the camera lens direction (the + Z direction microphone in FIG. 5) does not enter the field of view of the camera.

位置情報フォーマット器9からは、CPU10へ、検出されたそれぞれのオブジェクトの位置情報が入力される。CPU10では、各オブジェクトの位置情報に対応した方向に向いているマイクの音源を記録するように、音源選択器12に選択信号を送信する。音源選択器12ではその指示信号に応じた複数のマイクからの音源を選択してその音源のマイクから伝送されたオーディオデータをオーディオ圧縮器13へ伝送する。その際、オブジェクトのIDが、位置情報フォーマット器9からCPU10と音源選択器12を経由してオーディオ圧縮器13にも伝送される。オブジェクトIDは後に述べるオーディオ圧縮器13においてオーディオ圧縮データに識別子情報をMPEG規格のDescriptorの打ち方を参照して記述されるのに利用される。   From the position information formatter 9, position information of each detected object is input to the CPU 10. The CPU 10 transmits a selection signal to the sound source selector 12 so as to record the sound source of the microphone that faces in the direction corresponding to the position information of each object. The sound source selector 12 selects sound sources from a plurality of microphones according to the instruction signal, and transmits audio data transmitted from the sound source microphones to the audio compressor 13. At this time, the object ID is also transmitted from the position information formatter 9 to the audio compressor 13 via the CPU 10 and the sound source selector 12. The object ID is used by the audio compressor 13 to be described later to describe identifier information in audio compressed data with reference to a method for writing a Descriptor of the MPEG standard.

一方、カメラB2(若しくはカメラA1)の画像はビデオ圧縮器14に伝送される。ビデオ圧縮器14では、カメラからの2次元画像、位置情報フォーマット器9からの奥行き情報やオブジェクトID情報を入力し、MPEG規格の画像圧縮を行う。なお、奥行き情報やオブジェクトID情報は、MPEGの規定の中で互換性が取れるように、ユーザーデータ領域やプライベートストリームにて伝送し、またオブジェクトIDはMPEG規格で定義されているRegistration_Descriptorのadditional_identifier_infoを用いる。なお、他の方法として、(1)新規にPrivateのDescriptorを定義して、図19のようにObject_ID_descriptorを作成する、(2)Stream_IDのreserved data streamを用いて、MPEGで未定義の領域11111010〜11111110までを用いて設定する方法、(3)Stream_TypeとしてMPEGではUser PrivateなValueとされている0x80から0xFFまでの中の識別を使用する方法を採用することもできる。なお(2)におけるStream_IDはISO13818−1のPESパケットのシンタックスに定義されているものである。また、これ以外にも、MPEGで規定されているユーザーデータ領域のどこを使っても構わないし、AC3や他のオーディオ方式のシンタックスの中で許されているユーザーデータの領域部分に識別コードを入れる方法でも構わない。   On the other hand, the image of the camera B2 (or camera A1) is transmitted to the video compressor 14. The video compressor 14 inputs a two-dimensional image from the camera, depth information from the position information formatter 9 and object ID information, and performs MPEG standard image compression. Note that the depth information and the object ID information are transmitted in the user data area and the private stream so that the compatibility can be obtained in the MPEG standard, and the object ID uses the registration_descriptor's additional_identifier_info defined in the MPEG standard. . As another method, (1) a new private descriptor is defined to create an Object_ID_descriptor as shown in FIG. 19, and (2) an undefined region 11111010 in MPEG using a stream_ID reserved data stream. It is also possible to use a method of setting up to 11111110, and (3) a method of using an identification from 0x80 to 0xFF, which is a User Private Value in MPEG as Stream_Type. The Stream_ID in (2) is defined in the syntax of the PES packet of ISO13818-1. In addition to this, any user data area defined in MPEG may be used, and an identification code is provided in the area of user data allowed in AC3 or other audio syntax. It does not matter how you put it in.

音源選択器12からのオーディオデータはオーディオ圧縮器13においてMPEGのオーディオ圧縮(MPEG1オーディオ、MPEG2オーディオ、AAC、ドルビーAC3、ATRACなど)がなされる。   Audio data from the sound source selector 12 is subjected to MPEG audio compression (MPEG1 audio, MPEG2 audio, AAC, Dolby AC3, ATRAC, etc.) in the audio compressor 13.

次にMPEGの規格に準拠しながら、付加情報を記録する方法を説明する。MPEG画像圧縮の規格では、ピクチャーレイヤ、GOPレイヤにそれぞれユーザーデータ領域が設定されている。これらはMPEGのシンタックスで映像音声とは関係ないデータを埋め込むことのできる所定のエリアとして設定されているuser_data、若しくはprivate_data_byte、若しくはユーザーが任意に設定できるprivate_streamなどのデータパケットに記録する。例えばMPEG1のビデオにおけるピクチャーレイヤは図17に示すようになっていて、スライスレイヤの手前で、user_data_start_codeを送った後にuser_dataを8ビット単位で記録することができるような仕組みが定義されている。また、MPEG2などの多重化トランスポートストリームのシステムレイヤにも図18のようにtransport_private_data_flagに1を立てることでprivate_dataが存在することを明示でき、データ長もトランスポートパケットをはみ出さないという制限のもとで、transport_private_data_lengthに設定したデータ長のprivate_dataを送信することができる。これ以外にも、MPEGシステムでユーザー固有のデータを記録する方法は、stream_idにprivate_streamを設定して専用のパケットを宣言することで送信するなど、仕組みは幾つか定義されており、本発明における奥行き情報やオブジェクトIDなどの図4の構造の情報は、これらの領域に、ピクチャー毎記録することができる。どの仕組みを用いてもかまわないが、本実施の形態では、MPEG1ビデオのuser_dataを用いている。   Next, a method for recording additional information while conforming to the MPEG standard will be described. In the MPEG image compression standard, user data areas are set in the picture layer and the GOP layer, respectively. These are recorded in a data packet such as user_data or private_data_byte set as a predetermined area in which data unrelated to video and audio can be embedded in MPEG syntax, or private_stream which can be arbitrarily set by the user. For example, a picture layer in an MPEG1 video is as shown in FIG. 17, and a mechanism is defined in which user_data can be recorded in units of 8 bits after sending user_data_start_code before the slice layer. Also, in the system layer of a multiplexed transport stream such as MPEG2, it is possible to clearly indicate that private_data exists by setting 1 to transport_private_data_flag as shown in FIG. 18, and there is a restriction that the data length does not protrude from the transport packet. Thus, private_data having the data length set in transport_private_data_length can be transmitted. In addition to this, there are several mechanisms for recording user-specific data in the MPEG system, such as sending private data by declaring a dedicated packet by setting private_stream to stream_id. Information of the structure of FIG. 4 such as information and object ID can be recorded for each picture in these areas. Any mechanism may be used, but in this embodiment, user_data of MPEG1 video is used.

本実施の形態において、user_data_start_codeはスライスレイヤの手前で0x000001B2とMPEGでは定義されている。そのコードを送った後に、ユーザーデータエリア内で本発明の認証に用いる関数値の存在を示す、予め一意に識別可能なコードである例えば0x0f0f0f0f2417fdaaのコードを送信する。このコードは他のアプリケーションで、user_dataを使う場合に、識別する目的で記録するもので、コードの値は特に意味はない。そのコードの後に図4の1マクロブロック32ビット(4バイト)の構造を、MPEGの1ピクチャー毎にピクチャーレイヤにラスター順番に記録する。画素が720x480であれば720x480x4/(4x2)=17KBの情報量となる。これでは情報が大きい場合には、この情報を圧縮する。例えば奥行き情報は、隣り合うマクロブロックと同じがわずかの差しか存在しないことが多いので、変化していないときには4バイトのスキップするコード(例えばオール0の0x00000000)をセットすることで、スキップしている間のマクロブロックの情報を4バイトから1バイトへ減少させることができる。若しくはわずかの差の場合(例えば、プラスマイナスで1以下の場合など)には、0としてしまう。このほか、圧縮には上記のようなスキップ方法のほかに、差分をとってその変化だけを伝送するDPCM方式や、エントロピーを減少させる符号化など、どんな方法を使用してもよい。   In this embodiment, user_data_start_code is defined in MPEG as 0x000001B2 before the slice layer. After sending the code, a code of, for example, 0x0f0f0f0f2417fda, which is a uniquely identifiable code indicating the presence of the function value used for authentication of the present invention in the user data area, is transmitted. This code is recorded for the purpose of identification when user_data is used in another application, and the value of the code has no particular meaning. After the code, the structure of one macroblock 32 bits (4 bytes) in FIG. 4 is recorded in the picture layer in raster order for each picture of MPEG. If the pixel is 720 × 480, the information amount is 720 × 480 × 4 / (4 × 2) = 17 KB. If the information is large, this information is compressed. For example, the depth information is often the same as the adjacent macroblock, but there is often only a slight difference, so when it has not changed, it can be skipped by setting a 4-byte skip code (for example, 0x00000000 for all 0s). During this time, the macro block information can be reduced from 4 bytes to 1 byte. Or, in the case of a slight difference (for example, in the case of plus or minus 1 or less), it becomes 0. In addition to the skip method as described above, any method may be used for compression, such as a DPCM method in which only the change is taken and the entropy is reduced.

以上の立体映像・立体音響対応記録システムによる立体映像・立体音響対応記録処理の手順を図6のフローチャートを参照して説明する。カメラA1及びカメラB2からの画像データ、及び複数マイク群11よりの音響データを所定の時間分入力し、記憶装置に記憶する(ステップS1)。次に画像の視差ベクトルを抽出する(ステップS2)。ここではエピポーラ線方向である水平方向とある程度の垂直方向との視差ベクトルサーチ計算を画像上の全てのマクロブロックについて求める。次にマクロブロックの奥行き距離の計算を行う。すなわち、視差ベクトルの大きさを計算する(ステップS3)。   The procedure of the stereoscopic video / stereo acoustic correspondence recording process by the above stereoscopic video / stereo acoustic correspondence recording system will be described with reference to the flowchart of FIG. The image data from the cameras A1 and B2 and the acoustic data from the plurality of microphone groups 11 are input for a predetermined time and stored in the storage device (step S1). Next, a parallax vector of the image is extracted (step S2). Here, the parallax vector search calculation between the horizontal direction which is the epipolar line direction and a certain vertical direction is obtained for all macroblocks on the image. Next, the depth distance of the macroblock is calculated. That is, the magnitude of the parallax vector is calculated (step S3).

次にオブジェクトが画像に存在しているかどうかを判定する(ステップS4)。これは画像データに簡単なラプラシアンオペレータなどを用いて微分し、オブジェクトの輪郭が存在しているかどうかを判定する。判定の結果YESであればオブジェクトの本格的な検出を行う(ステップS5)。すなわち、オブジェクト解析器では画像データにラプラシアンオペレータなどを用いて微分し、オブジェクトの輪郭を抽出して、その大きい塊をひとつのオブジェクトと定義してそのオブジェクトの領域を判定する。次に前記判定されたオブジェクトを抽出(定義)して、どのマクロブロックがそのオブジェクトに含まれているかを決定する(ステップS6)。次にオブジェクトの水平方向、垂直方向の位置情報を分析する(ステップS7)。この処理は、すでにマクロブロックごとに奥行き情報は求まっているので、オブジェクトの領域に掛かっているマクロブロックを指定して、その中心位置をオブジェクトの位置にする。次にオブジェクトIDと位置情報のフォーマッティングを行う(ステップS8)。すなわち、得られた水平位置、垂直位置、奥行き方向を(X、Y、Z)としての位置情報と、オブジェクトフラッグ、オブジェクトのIDを図4に示すフォーマットにする。次にオブジェクトの位置情報にリンクさせる音源を選択する(ステップS9)。   Next, it is determined whether or not the object exists in the image (step S4). In this case, the image data is differentiated by using a simple Laplacian operator or the like to determine whether or not the contour of the object exists. If the determination result is YES, full-scale object detection is performed (step S5). That is, the object analyzer differentiates the image data using a Laplacian operator, extracts the outline of the object, defines the large block as one object, and determines the area of the object. Next, the determined object is extracted (defined) to determine which macroblock is included in the object (step S6). Next, the horizontal and vertical position information of the object is analyzed (step S7). In this process, since the depth information has already been obtained for each macroblock, the macroblock applied to the object area is designated and the center position thereof is set to the object position. Next, the object ID and position information are formatted (step S8). That is, the obtained horizontal position, vertical position, and depth direction are set to the format shown in FIG. 4 with the position information, the object flag, and the object ID as (X, Y, Z). Next, a sound source to be linked to the position information of the object is selected (step S9).

一方、ステップS4における判定がNOの場合は前のピクチャーなどのシーンでオブジェクトの動きを延長し、映像データ中に存在しないオブジェクトを表現するかどうかをステップS15において判定する。その判定がYESの場合には、ステップS7へ飛ぶ。NOの場合には、オブジェクトIDを0とした前述の位置情報のフォーマッティングを行う(ステップS16)。映像中に存在していないときには図4のESC情報を用いて、後続するESCオブジェクトの個数と、ESCオブジェクトの中心(若しくはそれに順ずる)位置における水平位置、垂直位置、奥行き位置、オブジェクトのIDを記録する。   On the other hand, if the determination in step S4 is NO, it is determined in step S15 whether or not the object motion is extended in the scene such as the previous picture to represent an object that does not exist in the video data. If the determination is yes, the process jumps to step S7. In the case of NO, the above-described position information is formatted with the object ID set to 0 (step S16). When it does not exist in the video, the number of subsequent ESC objects, the horizontal position, the vertical position, the depth position, and the object ID at the center (or the same position) of the ESC object are determined using the ESC information of FIG. Record.

次に、ビデオデータとオブジェクトとリンクした複数のオーディオデータを圧縮する(ステップS10)。次にオーディオストリームにリンクされたビデオオブジェクトのIDと同じ識別情報を記述する(ステップS11)。次にMPEGの多重化を行い(ステップS12)、所定の単位でメディアに記録、あるいは伝送する場合には伝送路特有のパケット化を行って伝送出力される(ステップS13)。次に入力画像データがまだあるかどうかを判定し(ステップS14)、ある場合(YES)にはステップS1へ飛ぶ。ない場合(NO)には、処理を終了する。   Next, a plurality of audio data linked with video data and objects are compressed (step S10). Next, the same identification information as the ID of the video object linked to the audio stream is described (step S11). Next, MPEG multiplexing is performed (step S12), and when recording or transmission on a medium in a predetermined unit, packetization specific to the transmission path is performed and transmitted (step S13). Next, it is determined whether there is still input image data (step S14). If there is (YES), the process jumps to step S1. If not (NO), the process is terminated.

これにより、本実施の形態の立体映像・立体音響対応記録システムでは、所定の時間単位でオブジェクトの立体位置情報をMPEGの規定のユーザーデータ領域若しくはプライベートストリーム、若しくは別領域の情報体を用いて記述し、所定の時間単位でオブジェクトの識別情報を立体映像データと音響データの双方のストリームの識別情報とリンクさせて記述することで、立体映像データを音響データと共に、記録メディアに記録することができる。   As a result, in the stereoscopic video / stereoacoustic recording system of the present embodiment, the stereoscopic position information of the object is described in predetermined time units using the MPEG-specified user data area or private stream, or an information body in another area. Then, by describing the object identification information linked with the identification information of the streams of both the stereoscopic video data and the audio data in a predetermined time unit, the stereoscopic video data can be recorded on the recording medium together with the audio data. .

(第2の実施の形態)次に図7を用いて、CG(コンピュータ・グラフィックス)をベースにした本発明の第2の実施の形態の立体映像・立体音響対応記録システムについて説明する。CGでは、撮像のためのカメラやマイクを必要としないので、プログラムを実行することによってすべてCPU20の処理により立体映像、立体音響を作成する。そのためにCPU20の中に画像信号生成器21と音源信号生成器22があり、それぞれが専用のソフトにより起動される。CG画像データは基本的にはポリゴンなどの小サイズの画像に対し、位置の情報と奥行きの情報が予め備わっている。したがって、先に説明した4x2のマクロブロックの相当するポリゴンの部分の位置情報は容易に計算が可能である。また、オーディオのほうも、CG画像のオブジェクトの位置に所定の音源データをシンセサイザーにて作成し、その音源を用いることで容易に作成することが可能である。それぞれ、ビデオはビデオ圧縮器23に、オーディオはオーディオ圧縮器24に入力され、圧縮が施される。圧縮されたデータは先の図1のシステムと同様に位置情報フォーマット器25によってフォーマット化された情報と共に、情報多重化器26によって多重化され、記録器27によって記録メディア17に記録される。   (Second Embodiment) Next, with reference to FIG. 7, a description will be given of a stereoscopic video / stereoacoustic recording system according to a second embodiment of the present invention based on CG (computer graphics). Since CG does not require a camera or a microphone for imaging, a 3D image and 3D sound are created by the processing of the CPU 20 by executing a program. For this purpose, there are an image signal generator 21 and a sound source signal generator 22 in the CPU 20, each of which is activated by dedicated software. The CG image data basically includes position information and depth information in advance for a small-sized image such as a polygon. Therefore, the position information of the polygon portion corresponding to the 4 × 2 macroblock described above can be easily calculated. The audio can also be easily created by creating predetermined sound source data at the object position of the CG image with a synthesizer and using the sound source. The video is input to the video compressor 23 and the audio is input to the audio compressor 24 to be compressed. The compressed data is multiplexed by the information multiplexer 26 together with the information formatted by the position information formatter 25 in the same manner as the system of FIG. 1, and is recorded on the recording medium 17 by the recorder 27.

これにより、本実施の形態の立体映像・立体音響対応記録システムでは、所定の時間単位でオブジェクトの立体位置情報をMPEGの規定のユーザーデータ領域若しくはプライベートストリーム、若しくは別領域の情報体を用いて記述し、所定の時間単位でオブジェクトの識別情報を立体映像データと音響データの双方のストリームの識別情報とリンクさせて記述することで、立体映像データを音響データと共に記録メディアに記録することができる。   As a result, in the stereoscopic video / stereoacoustic recording system of the present embodiment, the stereoscopic position information of the object is described in predetermined time units using the MPEG-specified user data area or private stream, or an information body in another area. Then, by describing the object identification information linked with the identification information of both the stereoscopic video data and the audio data in a predetermined time unit, the stereoscopic video data can be recorded on the recording medium together with the audio data.

(第3の実施の形態)図8は、本発明の第3の実施の形態の立体映像・立体音響対応記録システムを示している。図1に示した第1の実施の形態及び図7に示した第2の実施の形態においては最終的な情報は記録メディア17に記録したが、本実施の形態のシステムでは、通信や放送特有のパケット化をして放送や通信網に伝送する。したがって、本実施の形態のシステムは通信(放送)用パケット化器18を備え、情報多重化器15からの立体映像データと立体音響データとの多重化データを通信(放送)用のパケットデータにパケット化し、通信網若しくは放送網に送出する。なお、本実施の形態のシステムでは、図1に示した第1の実施の形態のシステムと共通の機器要素に関しては共通の符号を付して示している。   (Third Embodiment) FIG. 8 shows a stereoscopic video / stereoscopic sound recording system according to a third embodiment of the present invention. In the first embodiment shown in FIG. 1 and the second embodiment shown in FIG. 7, the final information is recorded on the recording medium 17. However, in the system of this embodiment, communication and broadcasting are specific. Packetized and transmitted to a broadcast or communication network. Therefore, the system according to the present embodiment includes a communication (broadcast) packetizer 18, and the multiplexed data of the stereoscopic video data and the stereoscopic audio data from the information multiplexer 15 is converted into packet data for communication (broadcast). Packetize and send to communication network or broadcast network. In the system of the present embodiment, the same reference numerals are assigned to the device elements common to the system of the first embodiment shown in FIG.

本実施の形態のシステムによる立体映像・立体音響対応記録方法は、第1の実施の形態と同様に図6のフローチャートによる。これにより、本実施の形態のシステムでは、第1の実施の形態と同様に、所定の時間単位でオブジェクトの立体位置情報をMPEGの規定のユーザーデータ領域若しくはプライベートストリーム、若しくは別領域の情報体を用いて記述し、所定の時間単位でオブジェクトの識別情報を立体映像データと音響データの双方のストリームの識別情報とリンクさせて記述することで、立体映像データを音響データと共に多重化し、パケット化して送信できる。   The stereoscopic video / stereo sound correspondence recording method by the system of the present embodiment is based on the flowchart of FIG. 6 as in the first embodiment. As a result, in the system according to the present embodiment, as in the first embodiment, the stereoscopic position information of the object is converted into the MPEG-specified user data area or private stream, or the information body of another area in a predetermined time unit. By describing and linking the object identification information with the identification information of the streams of both the stereoscopic video data and the audio data in a predetermined time unit, the stereoscopic video data is multiplexed with the audio data and packetized. Can be sent.

(第4の実施の形態)次に、上記実施の形態の立体映像・立体音響対応記録システムにより作成され、記録メディア17に記録された立体映像・立体音響対応記録情報を再生するための立体映像・立体音響対応再生システムについて、図9を用いて説明する。本実施の形態の再生システムは、再生器31、情報分離器32、ビデオ復号器33、位置情報取り出し器34、オーディオ復号器35、視野変換器36、立体画像表示器37、音源選択器38、音像位置制御器39、スピーカレイ40を備えている。   (Fourth Embodiment) Next, a stereoscopic video for reproducing the stereoscopic video / stereoacoustic recording information created by the stereoscopic video / stereoacoustic recording system of the above-described embodiment and recorded on the recording medium 17 is reproduced. A stereophonic sound compatible playback system will be described with reference to FIG. The reproduction system according to the present embodiment includes a reproduction unit 31, an information separator 32, a video decoder 33, a position information extraction unit 34, an audio decoder 35, a visual field converter 36, a stereoscopic image display 37, a sound source selector 38, A sound image position controller 39 and a speaker array 40 are provided.

この立体映像・立体音響対応再生システムでは、記録メディア17より多重化されたデータを再生器31にて読み取り、情報分離化器32へ伝送する。情報分離器32では、ビデオ信号とオーディオ信号のパケットを分離し、ビデオ信号はビデオ復号器33に、オーディオ信号はオーディオ復号器35にそれぞれ伝送する。ビデオ復号器33ではビデオを復号すると同時に、ビデオのピクチャーレイヤのユーザーデータを位置情報取り出し器34に伝送する。位置情報取り出し器34ではユーザーデータから、図4のフォーマットで記録されている奥行き情報とオブジェクトの位置情報、及びオブジェクトID情報を取り出す。オブジェクトの位置情報、及びオブジェクトID情報は音源選択器38に伝送する。奥行き情報と復号したビデオ信号は視野変換器36に伝送する。視野変換器36では、奥行き情報と復号した2次元の画像から、立体画像表示器37の立体表示方式に応じた視差画像を生成する。この視差画像の生成に際して、CGにおける座標系の変換方法には視野変換方式を用いる。これは視点座標系への変換の式によって、視点を変えた画像を得るもので、奥行き情報があれば自由な視点で生成することができる。例えば、視点の座標を(x,y,z)、注視点の座標を(x,y,z)とする。また、視点と注視点間の距離を(x,y,z)とする。

Figure 2006128816
In this stereoscopic video / stereoscopic reproduction system, the data multiplexed from the recording medium 17 is read by the reproduction device 31 and transmitted to the information separator 32. The information separator 32 separates the video signal and audio signal packets, and transmits the video signal to the video decoder 33 and the audio signal to the audio decoder 35. The video decoder 33 decodes the video and simultaneously transmits the user data of the video picture layer to the position information extractor 34. The position information extractor 34 extracts depth information, object position information, and object ID information recorded in the format of FIG. 4 from user data. The object position information and the object ID information are transmitted to the sound source selector 38. The depth information and the decoded video signal are transmitted to the visual field converter 36. The visual field converter 36 generates a parallax image corresponding to the stereoscopic display method of the stereoscopic image display 37 from the depth information and the decoded two-dimensional image. When generating the parallax image, a visual field conversion method is used as a conversion method of the coordinate system in CG. This is to obtain an image with a different viewpoint from the expression for conversion to the viewpoint coordinate system. If there is depth information, it can be generated from any viewpoint. For example, the coordinates of the viewpoint (x i, y i, z i), the coordinates of the gazing point (x a, y a, z a) and. In addition, the distance between the viewpoint and the gazing point is (x f , y f , z f ).
Figure 2006128816

最初に平行移動により原点の位置を動かす。この変換をT1とする。変換T1は単に(−x,−y,−z)平行移動する変換である。次に回転により座標値の向きを変える。図10のように点Oから点O方向のベクトルは点Oからz軸のベクトルをまずα角だけy軸に回転させ、次にβ角だけx軸に回転させる。実際には点Oの座標値を動かすので回転方向が逆になる。

Figure 2006128816
First, move the position of the origin by parallel movement. This conversion is assumed to be T1. The transformation T1 is simply a transformation that translates (−x a , −y a , −z a ). Next, the direction of the coordinate value is changed by rotation. Vector from point O a of the point O f direction as shown in FIG. 10 is rotated by the y-axis is first α angle vector of the z-axis from the point O a, then allowed to rotate in only x-axis β corner. The direction of rotation is reversed so actually move the coordinates of the point O f.
Figure 2006128816

となる。ここでαはOをxy平面に投影した足とOのなす角であるので、

Figure 2006128816
It becomes. Here, since α is the angle of the foot and O a obtained by projecting the O f the xy plane,
Figure 2006128816

となる。またβはO間の長さ

Figure 2006128816
It becomes. The β length between O a O f
Figure 2006128816

と、Of’間の長さyにより

Figure 2006128816
And the length y f between O f O f ′
Figure 2006128816

となる。 It becomes.

最後の変換はxy平面に対してz軸が手前になるような座標系から、xy平面に対して目の方向、つまり向こう側が正になるようにする変換Tを行う。これは単にz→−zにするだけである。これらT〜Tの4つの変換マトリクスを掛け合わせると視点座標の変換マトリクスは、

Figure 2006128816
Last conversion is performed z-axis from the coordinate system such that the front with respect to the xy plane, the eye direction relative to the xy plane, i.e. the transformation T 4 to allow the other side is positive. This is simply z → -z. By multiplying these four conversion matrices T 1 to T 4, the viewpoint coordinate conversion matrix is
Figure 2006128816

となる。 It becomes.

これは、IP(Integral Photography:インテグラルフォトグラフィー、あるいはインテグラルイメージングともいう)では、複数のレンズアレイに対応した要素画像を、そのレンズ位置に対応したカメラで撮像したものを、画像の大きさと共に、前記の視点座標の変換マトリクスを用いて計算して生成する。このようにして生成した立体画像データを、立体画像表示器37に伝送し、立体画像再生を行う。なお、立体画像表示器37の立体表示方式にはパララックスバリアを用いた2眼式立体表示方式を採用することもできる。そしてその場合には、視距離によって設定できるαを上の式に代入し、βやγは0とすることで、右目用と左目用の視差を持つ画像を生成することができる。   In IP (Integral Photography), an element image corresponding to a plurality of lens arrays is captured by a camera corresponding to the lens position. At the same time, it is calculated and generated using the conversion matrix of the viewpoint coordinates. The stereoscopic image data generated in this way is transmitted to the stereoscopic image display 37 to perform stereoscopic image reproduction. Note that a binocular stereoscopic display method using a parallax barrier may be employed as the stereoscopic display method of the stereoscopic image display 37. In that case, α that can be set according to the viewing distance is substituted into the above equation, and β and γ are set to 0, so that an image having parallax for the right eye and the left eye can be generated.

ここで立体画像表示方式のうち、代表的なパララックスバリア方式とIP方式の説明をする。パララックスバリア方式は液晶によって実現することができる。図11のように、これは2枚の液晶パネル101,102を積層するもので、一方の液晶パネル101には細いスリット状の開口部があり、その裏側の液晶パネル102上に適当な間隔をおいて左(L)右(R)2眼分の画像を交互に配置し、所定の視点103L,103Rからこのスリット状の開口部を通して見た場合に右目、左目に分離された画像を知覚できるものである。これによって右目、左目に違う画像を入力させることができるので、立体画像として知覚することができる。なお、液晶パネル102上の画像を照らすためにバックライト104が設けてられている。   Here, a typical parallax barrier method and an IP method among the stereoscopic image display methods will be described. The parallax barrier method can be realized by liquid crystal. As shown in FIG. 11, this is a laminate of two liquid crystal panels 101 and 102. One liquid crystal panel 101 has a thin slit-like opening, and an appropriate interval is provided on the liquid crystal panel 102 on the back side. In this case, images for the left (L) and right (R) two eyes can be alternately arranged, and the images separated from the right eye and the left eye can be perceived when viewed from the predetermined viewpoints 103L and 103R through the slit-shaped opening. Is. As a result, different images can be input to the right eye and the left eye, and can be perceived as a stereoscopic image. A backlight 104 is provided to illuminate the image on the liquid crystal panel 102.

しかしながら、パララックスバリア方式の場合、目のピントは常に液晶のスクリーン上に合わされているにもかかわらず、像がこの位置とは違う場所に感じられることから、生理学的な不自然さを伴うことで、ユーザーが疲れやすい、映像酔いしやすいなどの問題点も指摘されており、近年は4つの立体視の生理的要因、輻輳調節矛盾(輻輳点とピントの合う位置の矛盾)(両眼視差=ある物体を見る際に、人間の左右の目はそれぞれ違った方向から見る2つの異なる像を捕らえている性質、ピント調節=見る対象からの距離の変化に「伴って水晶体の厚さをコントロールしてレンズの厚みを変えるような性質、輻輳=遠い、近いの変化で、眼球が内側に回転したり外側へ回転したりする動きを伴うという性質、運動視差=ユーザーが自分で動いたり見る角度を変えたりすることによる像の違いを見る性質)を満たすような方式も提案されている。その中でも有望なものとして、Lippmannが1908年に発表した方式がIP方式である。   However, in the case of the parallax barrier system, the eye is always focused on the liquid crystal screen, but the image appears to be different from this position, which is accompanied by physiological unnaturalness. In recent years, it has been pointed out that the user is prone to fatigue and video sickness. In recent years, there are four physiological factors of stereoscopic vision, congestion adjustment contradiction (contradiction of convergence point and focus position) (binocular parallax) = When looking at an object, the human right and left eyes capture two different images seen from different directions, focus adjustment = "The thickness of the lens is controlled as the distance from the object is changed" The nature of changing the thickness of the lens, convergence = distant, close change, the nature of the eyeball moving inward or outward, motion parallax = user himself Such a manner as to satisfy the property) to see the difference in the image due to changing the angle of view Italy has also been proposed. Among them as promising, method Lippmann announced in 1908 is an IP system.

IP方式は、2次元的に配列したレンズアレイ(フライアイレンズ、蝿の目レンズ、複眼レンズなどともいう)を利用して物体の奥行き情報を取得するものである。1990年代に入ると、従来の写真乾板による記録を電子技術で置き換えることにより、IP方式による動画を生成する技術が開発され、さらに、同文献の研究者の手により、屈折率分布レンズアレイ(GRINレンズアレイともいう)とハイビジョンカメラを用いて被写体を撮像して要素画像群を取得しながら、各画像を液晶ディスプレイにリアルタイムに伝送して表示し、フライアイレンズにより空間上に結像することに成功し、IP方式による3次元テレビジョン放送の実現可能性が示された(非特許文献3)。図12はこのIP方式の原理を説明したもので、図12Aのように撮影時に微小な要素レンズを多数並べたGRINレンズアレイ110を用い、このGRINレンズアレイ110の微小な要素レンズそれぞれの光を集光レンズ111で集光して微小カメラ112の1画素が1方向の光線の映像を撮影する。そして再生するときには、図12Bのようにカメラからの映像120をLCDのようなディスプレイ121で再現し、全部の微小カメラの1点ずつが集合して、全体として1方向から見た再生像をつくる。   In the IP method, depth information of an object is acquired using a two-dimensionally arranged lens array (also referred to as a fly-eye lens, a fly-eye lens, or a compound eye lens). In the 1990s, a technology for generating moving images by the IP method was developed by replacing electronic recording with a conventional photographic dry plate. Further, a refractive index distribution lens array (GRIN) was developed by a researcher of the same document. (It is also referred to as a lens array) and a high-vision camera is used to capture a subject and acquire an element image group, and each image is transmitted and displayed on a liquid crystal display in real time and is imaged in space by a fly-eye lens. Successful, the feasibility of 3D television broadcasting by the IP system was shown (Non-Patent Document 3). FIG. 12 illustrates the principle of this IP system. As shown in FIG. 12A, a GRIN lens array 110 in which a large number of minute element lenses are arranged at the time of photographing is used, and the light of each minute element lens of the GRIN lens array 110 is used. The light is collected by the condensing lens 111 and one pixel of the micro camera 112 captures an image of light in one direction. Then, when reproducing, the image 120 from the camera is reproduced on a display 121 such as an LCD as shown in FIG. 12B, and one point of all the minute cameras are gathered to form a reproduced image viewed from one direction as a whole. .

微小レンズを2次元に並べたレンズアレイ122を用いることで水平垂直の運動視差を作り出すことが可能であり、水平方向に並べれば水平方向のみの視差を持たせることも可能である。本方式では複数のレンズを経由して見えた複数の要素画像を、この要素画像を奥行き情報をもとに視点変換して作成し、その要素画像を配列して、あたかも図12Aで撮像したかのようにLCD121へ要素画像配列を表示することで立体視再生を実現する。   By using the lens array 122 in which micro lenses are arranged two-dimensionally, it is possible to create horizontal and vertical motion parallax, and it is also possible to have parallax only in the horizontal direction if arranged in the horizontal direction. In this method, a plurality of element images seen through a plurality of lenses are created by converting the viewpoints of the element images based on the depth information, and the element images are arranged, as if they were captured in FIG. 12A. As described above, stereoscopic image reproduction is realized by displaying the element image array on the LCD 121.

一方、オーディオはオーディオ復号器35において、複数の音源の圧縮オーディオデータを復号したら、音源選択器38に伝送する。音源選択器38では、先に説明した位置情報取り出し器34からのオブジェクトの位置情報及びオブジェクトID情報を受信し、画像の中に存在しているオブジェクト位置情報に応じて、そのオブジェクトIDにリンクした前記復号された音源を選択し、選択された音源データとオブジェクト位置情報を対にして音像位置制御器39へ伝送する。音像位置制御器39では、後述するスピーカレイ40を用いた音像定位制御方式を用いて、それぞれの音源に対して、画像オブジェクトの位置に応じてそれにリンクしたオーディオ音源の定位を制御する。それぞれの音源に対して定位制御した結果の複数のスピーカに対応したオーディオデータは、それぞれ、1つのスピーカに対応する複数のオブジェクトの音源として得られる。これらはすべて線形加算し、ゲインを調節し、1つのスピーカから出力されるオーディオデータは1つにしてスピーカレイ40へ伝送する。スピーカレイ40は、伝送されたオーディオデータを出力する。   On the other hand, audio is transmitted to the sound source selector 38 after the audio decoder 35 decodes the compressed audio data of a plurality of sound sources. The sound source selector 38 receives the object position information and the object ID information from the position information extractor 34 described above, and links to the object ID in accordance with the object position information existing in the image. The decoded sound source is selected, and the selected sound source data and object position information are paired and transmitted to the sound image position controller 39. The sound image position controller 39 controls the localization of an audio sound source linked to each sound source according to the position of the image object, using a sound image localization control method using a speaker array 40 described later. Audio data corresponding to a plurality of speakers as a result of localization control for each sound source is obtained as a sound source of a plurality of objects corresponding to one speaker. All of these are linearly added, the gain is adjusted, and the audio data output from one speaker is transmitted to the speaker array 40 as one. The speaker array 40 outputs the transmitted audio data.

ここで音像定位制御方式の説明をする。ここではスピーカレイを用いて、空間上のある焦点付近の音圧を局所的に上昇させるようにスピーカレイの中心から焦点までの経路と、各スピーカから焦点までの経路との差に応じた遅延量を与えた再生信号により音像定位を実現する。図13を用いてその原理を説明する。まずスピーカを図13のようにアレイ状に組んでスピーカレイ40を構成する。1つ1つのスピーカに遅延回路131を設ける。そして上述した既知の方法で遅延回路131を用いて聴取位置近傍に焦点を結ぶように遅延を設定すると、聴取位置においてスピーカからの直接音よりも、焦点において発生する音圧成分が極めて高くなるように再生することが可能である。この原理を用いて連続的にリアルタイムで制御することで立体動画像のオブジェクトの位置にリンクして音像の定位を制御する。   Here, the sound image localization control method will be described. Here, using a speaker ray, the delay according to the difference between the route from the center of the speaker ray to the focal point and the route from each speaker to the focal point so as to locally increase the sound pressure near a focal point in space. Sound image localization is realized by a reproduction signal given a quantity. The principle will be described with reference to FIG. First, the speaker array 40 is constructed by assembling speakers in an array as shown in FIG. A delay circuit 131 is provided for each speaker. When the delay is set by using the delay circuit 131 in the known method to focus on the vicinity of the listening position, the sound pressure component generated at the focal point is much higher than the direct sound from the speaker at the listening position. It is possible to play back. By using this principle and continuously controlling in real time, the localization of the sound image is controlled by linking to the position of the object of the stereoscopic moving image.

これらの一連のデータ処理により、画像は立体画像として再生し、その中の画像のオブジェクトは、その立体的な動きにリンクした形で、オーディオデータの音源の位置を制御し、あたかもその立体視されている空間から該当オブジェクトの発する音が聞こえているかのように音像定位をして再生する。すなわち、図14のように、立体映像の映像120をLCD121を用いて再生し、それを例えばIP方式のレンズアレイ122を用いて要素画像から立体映像を構成し、その後に設定したスピーカレイ40にて、ディスプレイ121より前に出てきているように知覚される車や飛行機のような立体映像のオブジェクトにリンクした形でそのオブジェクトの音源があたかもそのオブジェクトの位置から聞こえて来るように音像定位をして再生する。   Through this series of data processing, the image is reproduced as a three-dimensional image, and the object of the image in the image is linked to the three-dimensional movement to control the position of the sound source of the audio data, as if it were three-dimensionally viewed. The sound is localized and reproduced as if the sound emitted by the object is heard from the space. That is, as shown in FIG. 14, a stereoscopic video 120 is reproduced using the LCD 121, and a stereoscopic video is constructed from the element images using, for example, the IP lens array 122, and then the speaker array 40 is set. The sound image localization is performed so that the sound source of the object is heard from the position of the object in a form linked to a stereoscopic image object such as a car or airplane that is perceived as coming out of the display 121. And play.

次に、本IP方式を用いた立体映像・立体音響対応再生システムによる再生処理を図15のフローチャートを用いて説明する。はじめに記録メディア17から、多重化されたデータを読み取る(ステップR1)。次にMPEG分離処理する(ステップR2)。分離した情報のうちのビデオデータはビデオデータ復号処理し、またオーディオデータはオーディオデータ復号処理する(ステップR3,R9)。次に復号したビデオデータのユーザーデータからオブジェクトIDと位置情報を分離する(ステップR4)。次に分離した情報から、マクロブロック毎の奥行き情報を検出する(ステップR5)。またオブジェクトのIDを検出する(ステップR6)。   Next, reproduction processing by the stereoscopic video / stereoscopic reproduction system using the IP system will be described with reference to the flowchart of FIG. First, the multiplexed data is read from the recording medium 17 (step R1). Next, MPEG separation processing is performed (step R2). Of the separated information, video data is subjected to video data decoding processing, and audio data is subjected to audio data decoding processing (steps R3 and R9). Next, the object ID and position information are separated from the user data of the decoded video data (step R4). Next, depth information for each macroblock is detected from the separated information (step R5). Further, the ID of the object is detected (step R6).

一方、ステップR9において復号したオーディオデータから当該オーディオデータのストリームIDなどに記述したオブジェクトIDを検出する(ステップR10)。次に複数のオーディオオブジェクトのIDと、ビデオのIDとを照合して、ビデオのオブジェクトにリンクしたオーディオデータの音源の選択を行う(ステップR11)。   On the other hand, the object ID described in the stream ID of the audio data is detected from the audio data decoded in step R9 (step R10). Next, the audio data ID linked to the video object is selected by collating the IDs of the plurality of audio objects with the video ID (step R11).

次に、ビデオは各マクロブロック内の画素に対して持つ奥行き情報を使用して、ビデオ画像の視野変換を行う(ステップR7)。これには、視点座標系への変換式によって視点を変えた画像を得る。次にIP方式によってビデオの立体表示を行う(ステップR8)。この立体表示方式には、パララックスバリアを用いた2眼式立体表示方式を用いることもできる。   Next, the video uses the depth information held for the pixels in each macroblock to perform visual field conversion of the video image (step R7). For this, an image in which the viewpoint is changed by a conversion formula to the viewpoint coordinate system is obtained. Next, stereoscopic display of video is performed by the IP method (step R8). As this stereoscopic display method, a binocular stereoscopic display method using a parallax barrier can also be used.

一方、オーディオは選択したリンク関係が明確化された複数の音源それぞれに対して、音像位置制御器39で、例えばスピーカレイ40を用いた音像定位制御方式を用いて、それぞれの音源に対して、画像オブジェクトの位置に応じて、それにリンクしたオーディオ音源の定位を制御する(ステップR12)。次にスピーカレイ40でそれぞれの音源に対して定位制御した結果の複数のスピーカに対応したオーディオデータを線形加算し、またゲインを調節し、1つのスピーカから出力されるオーディオデータは1つにしてスピーカレイ40から出力する(ステップR13)。   On the other hand, for each of a plurality of sound sources in which the selected link relation is clarified, the audio is controlled by the sound image position controller 39 using, for example, a sound image localization control method using a speaker array 40, for each sound source. In accordance with the position of the image object, the localization of the audio sound source linked to the image object is controlled (step R12). Next, the audio data corresponding to a plurality of speakers as a result of localization control for each sound source by the speaker array 40 is linearly added, and the gain is adjusted so that one audio data is output from one speaker. Output from the speaker array 40 (step R13).

このようにして本実施の形態の立体映像・立体音響対応再生システムでは、立体映像の映像120をLCD121を用いて再生し、それをIP方式のレンズアレイ122を用いて要素画像から立体映像を構成し、その後に設定したスピーカレイ40にて、ディスプレイ121より前に出てきているように知覚される車や飛行機のような立体映像のオブジェクトにリンクした形でそのオブジェクトの音源があたかもそのオブジェクトの位置から聞こえて来るように音像定位をして再生することができる。   In this manner, in the stereoscopic video / stereoscopic playback system of the present embodiment, the stereoscopic video 120 is reproduced using the LCD 121, and the stereoscopic image is formed from the element image using the IP lens array 122. Then, the sound source of the object is linked to a stereoscopic image object such as a car or an airplane that is perceived as coming out of the display 121 by the speaker array 40 set after that, as if the sound source of the object is The sound image can be localized and reproduced so that it can be heard from the position.

(第5の実施の形態)
次に、本発明の第5の実施の形態の立体映像・立体音響対応再生システムについて、図16を用いて説明する。図9に示した第4の実施の形態の立体映像・立体音響対応再生システムでは、最終的な情報は記録メディア17から再生するものであったが、本実施の形態の再生システムは、通信や放送特有のパケット化がなされているパケット情報を受信して、図16のように通信(放送)用パケット解除器31′を経由して放送や通信網から立体映像・音響データのパケットを受信再生することを特徴とする。このパケット解除器31′によりパケット解除したデータは、図9における記録メディア17からの再生データと同じものであり、したがって情報分離化器32以降の構成要素、またその処理機能は図9に示した第4の実施の形態のものと共通である。
(Fifth embodiment)
Next, a stereoscopic video / stereoscopic reproduction system according to a fifth embodiment of the present invention will be described with reference to FIG. Although the final information is reproduced from the recording medium 17 in the stereoscopic image / stereoscopic reproduction system of the fourth embodiment shown in FIG. 9, the reproduction system of the present embodiment Receives packet information that has been packetized peculiar to broadcasting, and receives and reproduces 3D video / audio data packets from broadcasting and communication networks via a communication (broadcasting) packet releaser 31 'as shown in FIG. It is characterized by doing. The data whose packet has been canceled by the packet canceller 31 'is the same as the reproduction data from the recording medium 17 in FIG. 9, and therefore the components after the information separator 32 and their processing functions are shown in FIG. This is the same as that of the fourth embodiment.

これにより、第5の実施の形態の立体映像・立体音響対応再生システムでも、通信網あるいは放送受信した立体映像の映像を、図14に示したLCD121を用いて再生し、それをIP方式のレンズアレイ122を用いて要素画像から立体映像を構成し、その後に設定したスピーカレイ40にて、ディスプレイ121より前に出てきているように知覚される車や飛行機のような立体映像のオブジェクトにリンクした形でそのオブジェクトの音源があたかもそのオブジェクトの位置から聞こえて来るように音像定位をして再生することができる。   As a result, even in the stereoscopic video / stereoscopic playback system of the fifth embodiment, the stereoscopic video image received via the communication network or broadcast is played back using the LCD 121 shown in FIG. A three-dimensional image is constructed from element images using the array 122, and then linked to a three-dimensional object such as a car or airplane that is perceived as appearing in front of the display 121 by the speaker array 40 set thereafter. In this way, the sound source of the object can be reproduced with sound image localization so that it can be heard from the position of the object.

なお、本発明は上記の実施の形態に限定されることはなく、次のような変形態様が可能である。上記実施の形態では、立体映像の方式はIP方式で説明したが、パララックスバリア方式、レンチキュラーレンズ方式、超多眼方式、偏向眼鏡を用いた2眼方式、アナグリフなど、立体知覚できる方式であればなんであってもよい。また音像位置制御方式は、音像定位制御方式としてスピーカレイ方式で説明したが、仮想音場空間を実現できる方式、例えばバイノーラル・トランスオーラル方式であっても、Kirchhoff−Helmhotz微分方程式に代表される波動音響理論を用いた音場制御法を用いる方式であってもよい。   In addition, this invention is not limited to said embodiment, The following deformation | transformation aspects are possible. In the above-described embodiment, the stereoscopic video method is described as the IP method. However, the stereoscopic video method may be a parallax barrier method, a lenticular lens method, a super multi-view method, a binocular method using deflecting glasses, an anaglyph, or the like. Whatever. In addition, the sound image position control method has been described with the speaker ray method as the sound image localization control method, but even a method that can realize a virtual sound field space, for example, a binaural transoral method, is represented by a wave represented by Kirchoff-Helmhotz differential equations. A method using a sound field control method using acoustic theory may be used.

また、記録メディアに立体映像・音響データを記録しなくても、通信、放送などあらゆる伝送メディアを経由してそれらのデータを送信することが可能で、その場合には、記録装置は伝送装置として使用することもできる。また再生装置は受信装置として使用することも可能である。   In addition, it is possible to transmit such data via any transmission media such as communication and broadcasting without recording stereoscopic video / audio data on the recording media. It can also be used. The playback device can also be used as a receiving device.

本発明の信号データを記録した記録メディアは、オブジェクトの位置情報とオブジェクトのID情報を記録してあるというメディア特有の効果があり、立体映像や立体音場を再生するシステムを好適に実現することができる。また、記録メディアにおける「メディア」という定義はデータを記録できるメディアという、狭義なメディアというものだけでなく、信号データを伝送するための電磁波、光などを含む。また、記録メディアに記録されている情報は、記録されていない状態での電子ファイルなどのデータ自身を含むものとする。   The recording medium on which the signal data of the present invention is recorded has a media-specific effect that the object position information and the object ID information are recorded, and preferably realizes a system for reproducing a three-dimensional video or a three-dimensional sound field. Can do. In addition, the definition of “media” in a recording medium includes not only a narrowly-defined medium that can record data, but also electromagnetic waves and light for transmitting signal data. The information recorded on the recording medium includes data itself such as an electronic file in a state where it is not recorded.

さらに、上記実施の形態では、映像の奥行き情報は1ピクチャー毎に記録するように説明したが、0.5秒程度ごとでも、1秒程度ごとでも構わない。その場合には、MPEGのGOPレイヤのユーザーデータを用いることで実現できる。オブジェクトのIDは8ビットであっても16ビットであっても構わない。また、オブジェクトとは映像の物体であっても領域であっても構わない。アルゴリズムによってはオブジェクトを検出するのに誤差を含むこともあるが、それは無視するものであってもよい。またさらに、領域は閉曲線で指定できなくてもよい。加えて、音の定位はあくまでもノーマルなステレオ再生よりもわずかでも定位の効果があれば、定位を制御したものと考えられる。   Furthermore, in the above-described embodiment, the video depth information has been described as being recorded for each picture, but it may be about every 0.5 seconds or about every 1 second. In that case, it can be realized by using user data of the GOP layer of MPEG. The object ID may be 8 bits or 16 bits. The object may be a video object or a region. Some algorithms may contain errors in detecting objects, but they may be ignored. Furthermore, the region may not be specified by a closed curve. In addition, if the sound localization has a localization effect even slightly compared to normal stereo reproduction, it is considered that the localization is controlled.

加えて、上記実施の形態では、奥行き情報やオブジェクトID情報はMPEGビデオのユーザーデータを用いて説明したが、MPEGシステムレイヤ規定のプライベートストリームで記録しても構わない。この場合、データはピクチャー毎、若しくは複数のGOP毎に時間に同期させることからPTS(Presentation Time Stamp)を用いて、画像や音響データと同期をとるので、MPEG規定のPrivate_stream_1の同期型のストリーム形式が望ましい。また、図4における情報は映像音響データとは別の領域、すなわち、MPEGのストリームとは別に、記録メディアの別のファイルとして、図4の構造をそのままで、符号化された映像音響データのプログラム毎に、名前をつけたファイルに記録してもよい。その場合は再生順番(=入力画像順番)のピクチャー(フィールド、若しくは画像)順番か、MPEGにおける符号化順番のピクチャー(フィールド、若しくは画像)順番で記録することも可能である。ファイル名はプログラムの識別が可能であれば番号でも、アスキー文字のものでもよい。またプログラムごとでも、幾つかのプログラムを組み合わせたプレイリスト毎でも、メディア全体を1つにした1ファイルであってもよい。   In addition, although the depth information and the object ID information have been described using MPEG video user data in the above embodiment, they may be recorded in a private stream defined by the MPEG system layer. In this case, since data is synchronized with time for each picture or for each of a plurality of GOPs, it is synchronized with images and sound data using PTS (Presentation Time Stamp), so that the private stream stream format of the private stream defined by MPEG is used. Is desirable. In addition, the information in FIG. 4 is an encoded audiovisual data program in the same area as the audiovisual data, that is, as a separate file on the recording medium, separately from the MPEG stream, with the structure of FIG. 4 as it is. Each may be recorded in a named file. In that case, it is also possible to record in the picture (field or image) order of the reproduction order (= input image order) or the picture (field or image) order of the encoding order in MPEG. The file name may be a number or an ASCII character as long as the program can be identified. Further, each file may be a single file that combines the entire media, or a playlist that combines several programs.

さらに、上記した装置の機能はプログラムによりコンピュータに実現させてもよい。そしてそのプログラムは、記録メディアに記録されたものをその記録メディアから読み取らせてコンピュータに取り込ませてもよいし、通信ネットワークを介して伝送されてきたものをコンピュータに取り込ませてもよい。   Furthermore, the functions of the apparatus described above may be realized by a computer by a program. The program may be recorded on a recording medium, read from the recording medium, and loaded into a computer, or transmitted through a communication network into the computer.

本発明の第1の実施の形態の立体映像・立体音響対応記録装置の機能ブロック図。1 is a functional block diagram of a recording apparatus for stereoscopic video / stereoscopic sound according to a first embodiment of the present invention. 上記第1の実施の形態の立体映像・立体音響対応記録装置の主要部のブロック図。The block diagram of the principal part of the recording apparatus corresponding to the three-dimensional video / stereo sound of the first embodiment. 一般的な2画面の視差を求めるためのエピポーラ拘束条件の説明図。Explanatory drawing of the epipolar constraint conditions for calculating | requiring the general parallax of 2 screens. 奥行き情報とオブジェクトID情報などのフォーマット説明図。The format explanatory drawing of depth information, object ID information, etc. FIG. 全周囲を収録するマイクの設置方法の説明図。Explanatory drawing of the installation method of the microphone which records the whole circumference. 本発明の第1の実施の形態の立体映像・立体音響対応記録装置による立体映像・立体音響対応記録処理を示すフローチャート図。The flowchart figure which shows the stereo image / stereo sound correspondence recording process by the stereo image / stereo sound correspondence recording apparatus of the 1st Embodiment of this invention. 本発明の第2の実施の形態の立体映像・立体音響対応記録装置を示すブロック図。The block diagram which shows the three-dimensional video / stereo sound corresponding recording apparatus of the 2nd Embodiment of this invention. 本発明の第3の実施の形態の立体映像・立体音響対応伝送装置を示すブロック図。The block diagram which shows the transmission apparatus corresponding to the stereo image / stereo sound of the 3rd Embodiment of this invention. 本発明の第4の実施の形態の立体映像・立体音響対応再生装置を示すブロック図。The block diagram which shows the reproduction | regeneration apparatus corresponding to the three-dimensional video / stereo sound of the 4th Embodiment of this invention. 一般的な視点変換の説明図。Explanatory drawing of general viewpoint conversion. 一般的なパララックスバリア方式の説明図。Explanatory drawing of a general parallax barrier system. 一般的なIP方式の説明図。(1) 一般的なIP方式の説明図。(2)Explanatory drawing of a general IP system. (1) An explanatory diagram of a general IP system. (2) 本発明の第4の実施の形態で使用するアレイスピーカの説明図。Explanatory drawing of the array speaker used in the 4th Embodiment of this invention. 上記第4の実施の形態によるスピーカアレイとIP立体映像方式のシステムのブロック図。The block diagram of the system of a speaker array and IP stereoscopic video system by the said 4th Embodiment. 上記第4の実施の形態による立体映像・立体音響再生処理を示すフローチャート図。The flowchart figure which shows the three-dimensional video and three-dimensional sound reproduction | regeneration processing by the said 4th Embodiment. 本発明の第5の実施の形態の立体映像・立体音響対応再生システムを示すブロック図。The block diagram which shows the reproduction | regeneration system corresponding to the three-dimensional video / stereo sound of the 5th Embodiment of this invention. MPEGのビデオストリームビデオレイヤの説明図。FIG. 3 is an explanatory diagram of an MPEG video stream video layer. MPEGの多重化トランスポートストリームシステムレイヤを説明図。(1) MPEGの多重化トランスポートストリームシステムレイヤを説明図。(2)FIG. 2 is an explanatory diagram of an MPEG multiplexed transport stream system layer. (1) An explanatory diagram of an MPEG multiplexed transport stream system layer. (2) 本発明の第1の実施の形態で採用する新規なオブジェクトIDを記述するObject_ID_Descriptorを示す説明図。Explanatory drawing which shows Object_ID_Descriptor which describes new object ID employ | adopted by the 1st Embodiment of this invention.

符号の説明Explanation of symbols

1 カメラA
2 カメラB
3 視差ベクトル抽出器
4 奥行き距離算出器
5 オブジェクト解析器
6 水平方向位置分析器
7 垂直方向位置分析器
8 奥行き方向位置分析器
9 位置情報フォーマット器
10 CPU
11 複数マイク群
12 音源選択器
13 オーディオ圧縮器
14 ビデオ圧縮器
15 情報多重化器
16 記録器
17 記録メディア
31 再生器
32 情報分離器
33 ビデオ復号器
34 位置情報取り出し器
35 オーディオ復号器
36 視野変換器
37 立体画像表示器
38 音源選択器
39 音像位置制御器
40 スピーカレイ
1 Camera A
2 Camera B
3 Disparity vector extractor 4 Depth distance calculator 5 Object analyzer 6 Horizontal position analyzer 7 Vertical position analyzer 8 Depth position analyzer 9 Position information formatter 10 CPU
DESCRIPTION OF SYMBOLS 11 Multiple microphone group 12 Sound source selector 13 Audio compressor 14 Video compressor 15 Information multiplexer 16 Recorder 17 Recording medium 31 Regenerator 32 Information separator 33 Video decoder 34 Position information extractor 35 Audio decoder 36 View conversion 37 Stereoscopic image display 38 Sound source selector 39 Sound image position controller 40 Speaker layout

Claims (5)

立体映像データ及び音響データの双方を記録メディアに記録するステップと、
所定の時間単位で、再生時に自身を音源とする音響の立体定位制御を行おうとするオブジェクトの立体位置情報を当該オブジェクトの識別情報と共に、前記記録メディアにおける当該立体映像データ及び音響データの再生時に参照可能な所定の記憶エリアに記録するステップとをコンピュータに実行させる立体映像・立体音響対応記録プログラム。
Recording both stereoscopic video data and audio data on a recording medium;
Refers to the stereo position information of the object for which stereo localization control is performed using the sound source as a sound source at the time of reproduction, together with the identification information of the object, at the time of reproduction of the stereoscopic video data and audio data on the recording medium in a predetermined time unit. A recording program for stereoscopic video / stereo sound that causes a computer to execute the step of recording in a predetermined storage area.
記録メディアに記録されている立体映像データ及び音響データを読み出して再生するステップと、
前記記録メディアの所定の記憶エリアから音源の立体定位制御を行うオブジェクトの識別情報と立体位置情報とを読み出すステップと、
前記音響データの再生に際して、前記オブジェクトの識別情報に対応する立体位置情報に基づき、当該音響データの音像の立体定位位置を当該オブジェクトの立体位置になるように、少なくとも2以上のスピーカを用いて音像位置制御を行うステップとをコンピュータに実行させる立体映像・立体音響対応再生プログラム。
Reading and playing back stereoscopic video data and audio data recorded on a recording medium;
Reading object identification information and stereo position information for performing stereo localization control of the sound source from a predetermined storage area of the recording medium;
When reproducing the acoustic data, based on the three-dimensional position information corresponding to the identification information of the object, the sound image is obtained using at least two or more speakers so that the three-dimensional localization position of the sound image of the acoustic data becomes the three-dimensional position of the object. A reproduction program for stereoscopic video and stereophonic sound that causes a computer to execute the step of performing position control.
立体映像データ及び音響データの双方を記録メディアに記録する手段と、
所定の時間単位で、再生時に自身を音源とする音響の立体定位制御を行おうとするオブジェクトの立体位置情報を当該オブジェクトの識別情報と共に、前記記録メディアにおける当該立体映像データ及び音響データの再生時に参照可能な所定の記憶エリアに記録する手段とを備えた立体映像・立体音響対応記録装置。
Means for recording both stereoscopic video data and audio data on a recording medium;
Refers to the stereo position information of the object for which stereo localization control is performed using the sound source as a sound source at the time of reproduction, together with the identification information of the object, at the time of reproduction of the stereoscopic video data and audio data on the recording medium in a predetermined time unit. A stereoscopic video / stereoscopic recording device comprising: means for recording in a predetermined predetermined storage area.
記録メディアに記録されている立体映像データ及び音響データを読み出して再生する手段と、
前記記録メディアの所定の記憶エリアから音源の立体定位制御を行うオブジェクトの識別情報と立体位置情報とを読み出す手段と、
前記音響データの再生に際して、前記オブジェクトの識別情報に対応する立体位置情報に基づき、当該音響データの音像の立体定位位置を当該オブジェクトの立体位置になるように、少なくとも2以上のスピーカを用いて音像位置制御を行う手段とを備えた立体映像・立体音響対応再生装置。
Means for reading and playing back stereoscopic video data and audio data recorded on a recording medium;
Means for reading identification information and stereoscopic position information of an object for performing stereo localization control of a sound source from a predetermined storage area of the recording medium;
When reproducing the acoustic data, based on the three-dimensional position information corresponding to the identification information of the object, the sound image is obtained using at least two or more speakers so that the three-dimensional localization position of the sound image of the acoustic data becomes the three-dimensional position of the object. A reproduction apparatus for stereoscopic video and stereophonic sound, comprising: means for performing position control.
立体映像データ及び音響データの双方を記録すると共に、所定の時間単位で、音源の立体定位制御を行うオブジェクトの立体位置情報を当該オブジェクトの識別情報と共に当該記録メディアにおける前記立体映像データ及び音響データの再生時に参照可能な所定の記憶エリアに記録した立体映像・立体音響対応記録メディア。

Both the stereoscopic video data and the audio data are recorded, and the stereo position information of the object for which the stereo localization control of the sound source is controlled in a predetermined time unit, together with the identification information of the object, the stereo video data and the audio data of the recording medium. A recording medium for stereoscopic video / stereo sound recorded in a predetermined storage area that can be referred to during playback.

JP2004311391A 2004-10-26 2004-10-26 Recording program and reproducing program corresponding to stereoscopic video and stereoscopic audio, recording apparatus and reproducing apparatus, and recording medium Pending JP2006128816A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004311391A JP2006128816A (en) 2004-10-26 2004-10-26 Recording program and reproducing program corresponding to stereoscopic video and stereoscopic audio, recording apparatus and reproducing apparatus, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004311391A JP2006128816A (en) 2004-10-26 2004-10-26 Recording program and reproducing program corresponding to stereoscopic video and stereoscopic audio, recording apparatus and reproducing apparatus, and recording medium

Publications (1)

Publication Number Publication Date
JP2006128816A true JP2006128816A (en) 2006-05-18

Family

ID=36723061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004311391A Pending JP2006128816A (en) 2004-10-26 2004-10-26 Recording program and reproducing program corresponding to stereoscopic video and stereoscopic audio, recording apparatus and reproducing apparatus, and recording medium

Country Status (1)

Country Link
JP (1) JP2006128816A (en)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100827119B1 (en) 2006-12-13 2008-05-06 삼성전자주식회사 Stereo scopic image service system and method and stereo scopic image generation apparatus and stereo scopic image output apparatus
JP2009278381A (en) * 2008-05-14 2009-11-26 Nippon Hoso Kyokai <Nhk> Acoustic signal multiplex transmission system, manufacturing device, and reproduction device added with sound image localization acoustic meta-information
EP2247116A2 (en) 2009-04-27 2010-11-03 Mitsubishi Electric Corporation Stereoscopic video and audio recording method, stereoscopic video and audio reproducing method, stereoscopic video and audio recording apparatus, stereoscopic video and audio reproducing apparatus, and stereoscopic video and audio recording medium
JP2011035784A (en) * 2009-08-04 2011-02-17 Sharp Corp Stereoscopic video-stereophonic sound recording and reproducing device, system, and method
US20120002828A1 (en) * 2010-06-30 2012-01-05 Sony Corporation Audio processing device, audio processing method, and program
KR20120053958A (en) * 2010-11-18 2012-05-29 엘지전자 주식회사 Electronic device generating multi-dimensional sound synchronized to stereographic vedio
JP2012104144A (en) * 2007-01-05 2012-05-31 Qualcomm Inc Rendering 3d video images on stereo-enabled display
JP2012119738A (en) * 2010-11-29 2012-06-21 Sony Corp Information processing apparatus, information processing method and program
JP2013093840A (en) * 2011-10-26 2013-05-16 Samsung Electronics Co Ltd Apparatus and method for generating stereoscopic data in portable terminal, and electronic device
JP2013523006A (en) * 2010-03-19 2013-06-13 サムスン エレクトロニクス カンパニー リミテッド Stereo sound reproduction method and apparatus
JP2013529017A (en) * 2010-05-04 2013-07-11 サムスン エレクトロニクス カンパニー リミテッド Stereo sound reproduction method and apparatus
JP2014063032A (en) * 2012-09-21 2014-04-10 Nippon Hoso Kyokai <Nhk> Depth range calculation apparatus and program thereof
JP2014522181A (en) * 2011-07-29 2014-08-28 サムスン エレクトロニクス カンパニー リミテッド Audio signal processing method and audio signal processing apparatus using the same
WO2016208406A1 (en) * 2015-06-24 2016-12-29 ソニー株式会社 Device, method, and program for processing sound

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100827119B1 (en) 2006-12-13 2008-05-06 삼성전자주식회사 Stereo scopic image service system and method and stereo scopic image generation apparatus and stereo scopic image output apparatus
JP2012104144A (en) * 2007-01-05 2012-05-31 Qualcomm Inc Rendering 3d video images on stereo-enabled display
JP2009278381A (en) * 2008-05-14 2009-11-26 Nippon Hoso Kyokai <Nhk> Acoustic signal multiplex transmission system, manufacturing device, and reproduction device added with sound image localization acoustic meta-information
EP3059948A1 (en) 2009-04-27 2016-08-24 Mitsubishi Electric Corporation Stereoscopic video and audio recording method, stereoscopic video and audio reproducing method, stereoscopic video and audio recording apparatus, stereoscopic video and audio reproducing apparatus, and stereoscopic video and audio recording medium
US10523915B2 (en) 2009-04-27 2019-12-31 Mitsubishi Electric Corporation Stereoscopic video and audio recording method, stereoscopic video and audio reproducing method, stereoscopic video and audio recording apparatus, stereoscopic video and audio reproducing apparatus, and stereoscopic video and audio recording medium
EP2247116A2 (en) 2009-04-27 2010-11-03 Mitsubishi Electric Corporation Stereoscopic video and audio recording method, stereoscopic video and audio reproducing method, stereoscopic video and audio recording apparatus, stereoscopic video and audio reproducing apparatus, and stereoscopic video and audio recording medium
US9191645B2 (en) 2009-04-27 2015-11-17 Mitsubishi Electric Corporation Stereoscopic video and audio recording method, stereoscopic video and audio reproducing method, stereoscopic video and audio recording apparatus, stereoscopic video and audio reproducing apparatus, and stereoscopic video and audio recording medium
JP2011035784A (en) * 2009-08-04 2011-02-17 Sharp Corp Stereoscopic video-stereophonic sound recording and reproducing device, system, and method
KR101844511B1 (en) * 2010-03-19 2018-05-18 삼성전자주식회사 Method and apparatus for reproducing stereophonic sound
JP2013523006A (en) * 2010-03-19 2013-06-13 サムスン エレクトロニクス カンパニー リミテッド Stereo sound reproduction method and apparatus
US9622007B2 (en) 2010-03-19 2017-04-11 Samsung Electronics Co., Ltd. Method and apparatus for reproducing three-dimensional sound
US9113280B2 (en) 2010-03-19 2015-08-18 Samsung Electronics Co., Ltd. Method and apparatus for reproducing three-dimensional sound
US9749767B2 (en) 2010-05-04 2017-08-29 Samsung Electronics Co., Ltd. Method and apparatus for reproducing stereophonic sound
KR101764175B1 (en) * 2010-05-04 2017-08-14 삼성전자주식회사 Method and apparatus for reproducing stereophonic sound
JP2013529017A (en) * 2010-05-04 2013-07-11 サムスン エレクトロニクス カンパニー リミテッド Stereo sound reproduction method and apparatus
US9148740B2 (en) 2010-05-04 2015-09-29 Samsung Electronics Co., Ltd. Method and apparatus for reproducing stereophonic sound
US9351092B2 (en) * 2010-06-30 2016-05-24 Sony Corporation Audio processing device, audio processing method, and program
US20120002828A1 (en) * 2010-06-30 2012-01-05 Sony Corporation Audio processing device, audio processing method, and program
KR20120053958A (en) * 2010-11-18 2012-05-29 엘지전자 주식회사 Electronic device generating multi-dimensional sound synchronized to stereographic vedio
KR101896570B1 (en) * 2010-11-18 2018-09-11 엘지전자 주식회사 electronic device generating multi-dimensional sound synchronized to stereographic vedio
JP2012119738A (en) * 2010-11-29 2012-06-21 Sony Corp Information processing apparatus, information processing method and program
US9554227B2 (en) 2011-07-29 2017-01-24 Samsung Electronics Co., Ltd. Method and apparatus for processing audio signal
KR101901908B1 (en) * 2011-07-29 2018-11-05 삼성전자주식회사 Method for processing audio signal and apparatus for processing audio signal thereof
JP2014522181A (en) * 2011-07-29 2014-08-28 サムスン エレクトロニクス カンパニー リミテッド Audio signal processing method and audio signal processing apparatus using the same
KR101861590B1 (en) * 2011-10-26 2018-05-29 삼성전자주식회사 Apparatus and method for generating three-dimension data in portable terminal
JP2013093840A (en) * 2011-10-26 2013-05-16 Samsung Electronics Co Ltd Apparatus and method for generating stereoscopic data in portable terminal, and electronic device
JP2014063032A (en) * 2012-09-21 2014-04-10 Nippon Hoso Kyokai <Nhk> Depth range calculation apparatus and program thereof
JPWO2016208406A1 (en) * 2015-06-24 2018-04-12 ソニー株式会社 Audio processing apparatus and method, and program
WO2016208406A1 (en) * 2015-06-24 2016-12-29 ソニー株式会社 Device, method, and program for processing sound
US10567903B2 (en) 2015-06-24 2020-02-18 Sony Corporation Audio processing apparatus and method, and program
US11140505B2 (en) 2015-06-24 2021-10-05 Sony Corporation Audio processing apparatus and method, and program
JP2022003833A (en) * 2015-06-24 2022-01-11 ソニーグループ株式会社 Audio processing apparatus, method, and program
JP7147948B2 (en) 2015-06-24 2022-10-05 ソニーグループ株式会社 Speech processing device and method, and program
US11540080B2 (en) 2015-06-24 2022-12-27 Sony Corporation Audio processing apparatus and method, and program
JP7400910B2 (en) 2015-06-24 2023-12-19 ソニーグループ株式会社 Audio processing device and method, and program

Similar Documents

Publication Publication Date Title
JP2006128818A (en) Recording program and reproducing program corresponding to stereoscopic video and 3d audio, recording apparatus, reproducing apparatus and recording medium
JP5519647B2 (en) Stereoscopic video data stream generation method and apparatus using camera parameters,
JP5328082B2 (en) Video transmission and reception method and apparatus, and transmission stream structure thereof
JP5299214B2 (en) Image processing apparatus, image processing method, and program
JP4755565B2 (en) Stereoscopic image processing device
US8878836B2 (en) Method and apparatus for encoding datastream including additional information on multiview image and method and apparatus for decoding datastream by using the same
KR20220155396A (en) Video sound processing device, video sound processing method , and computer readable recording medium storing program
JP2006191357A (en) Reproduction device and reproduction program
EP2247116A2 (en) Stereoscopic video and audio recording method, stereoscopic video and audio reproducing method, stereoscopic video and audio recording apparatus, stereoscopic video and audio reproducing apparatus, and stereoscopic video and audio recording medium
US20020191841A1 (en) Image processing method and apparatus
JP2006352877A (en) Image display mode conversion method and apparatus
JP2005094168A (en) File structure, image recording apparatus and image reproducing apparatus employing the same
JP2006270924A (en) Video data processor, video player, video data processing method, video play method, and programs and recording media for making these methods executed by computer
JP2006128816A (en) Recording program and reproducing program corresponding to stereoscopic video and stereoscopic audio, recording apparatus and reproducing apparatus, and recording medium
JP2004264882A (en) Image data generating device and image data reproducing device for reproducing data thereof
EP3080986A1 (en) Systems and methods for producing panoramic and stereoscopic videos
JP2008109267A (en) Solid image generating device and solid image decoding device
JP2009244502A (en) Image processing apparatus, image display apparatus, imaging apparatus and image processing method
JP5957769B2 (en) Video processing apparatus and video processing method
JP2006140618A (en) Three-dimensional video information recording device and program
JP2019083504A (en) Hardware system for inputting stereoscopic image in flat panel
JP2016158213A (en) Element image group generation device and program thereof, and digital broadcast receiver
JP2004200814A (en) Stereoscopic image forming method and stereoscopic image forming device
WO2011024423A1 (en) Control device for stereoscopic image display and imaging device for stereoscopic images
Nagao et al. Arena-style immersive live experience (ILE) services and systems: Highly realistic sensations for everyone in the world

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081014

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081212

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090113