JP2006148542A - Three-dimensional sound field information reproducing device and program - Google Patents

Three-dimensional sound field information reproducing device and program Download PDF

Info

Publication number
JP2006148542A
JP2006148542A JP2004335923A JP2004335923A JP2006148542A JP 2006148542 A JP2006148542 A JP 2006148542A JP 2004335923 A JP2004335923 A JP 2004335923A JP 2004335923 A JP2004335923 A JP 2004335923A JP 2006148542 A JP2006148542 A JP 2006148542A
Authority
JP
Japan
Prior art keywords
information
audio
sound field
data
dimensional sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004335923A
Other languages
Japanese (ja)
Inventor
Takayuki Sugawara
隆幸 菅原
Takuma Suzuki
▲琢▼磨 鈴木
Toshiko Murata
寿子 村田
Masako Yurino
正子 百合野
Jitsuki Haishi
実希 羽石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2004335923A priority Critical patent/JP2006148542A/en
Publication of JP2006148542A publication Critical patent/JP2006148542A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Stereophonic System (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a format by which three-dimensional sound field information is reproduced by maintaining compatibility with normal audio information when recording and reproducing the three-dimensional sound field information. <P>SOLUTION: The three-dimensional sound field information reproducing device has: a means for reproducing the audio object of a normal audio; a means for controlling the reproduction of the audio object by using management information after reproducing the management information for managing the audio object; and a means for controlling the reproduction of three-dimensional sound field data by using information regarding the three-dimensional sound field information recorded in a user data region of the audio object for every prescribed unit of each frame of the normal audio after reproducing the information. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、3次元音場情報を再生する装置及びプログラムに係り、特にノーマルオーディオ情報と互換を保って3次元音場情報再生を好適に実現する方法であって、DVD等の既存のノーマルオーディオを記録してあるメディアの互換性を損なわずに、音の定位技術を用いて立体音響を視聴者が高臨場感で楽しむことが可能な高臨場感シアターシステム技術に関する。   The present invention relates to an apparatus and program for reproducing three-dimensional sound field information, and more particularly to a method for suitably realizing three-dimensional sound field information reproduction while maintaining compatibility with normal audio information. The present invention relates to a highly realistic theater system technology that allows viewers to enjoy stereophonic sound with a high sense of reality using sound localization technology without impairing the compatibility of the media on which the video is recorded.

従来、3D音場に関する技術、即ちスピーカーのないところから、あたかもスピーカーがあるように音を定位させて再生する技術がいくつかの方式で提案されている。また、DVDビデオ、DVDオーディオ等の規格に関する技術も提案されている。   Conventionally, a technique related to a 3D sound field, that is, a technique for localizing and reproducing sound as if there is a speaker from a place without a speaker, has been proposed in several systems. In addition, techniques related to standards such as DVD video and DVD audio have been proposed.

従来から、例えば、3次元バーチャルリアリティシステム等において、仮想体験による臨場感を向上させる手段として、音像定位装置が使用されている。この種のシステムでは、例えばモノラル音源からバイノーラル手法に基づいて、時間差、振幅差及び周波数特性差を持つ複数チャネルの信号を発生させることにより、聴感上、方向感及び距離感を与えて立体音場を生成する。即ち、オーディオ入力信号は、例えばノッチフィルタにより特定の周波数成分が減衰されて上下方向感が付与され、遅延回路によって時間差を持つ左右チャネルの信号に変換され、FIR(有限インパルス応答)フィルタにより、仮想音源位置からの音響伝達特性が付与される。FIRフィルタのフィルタ係数は、予めダミーヘッドにより測定された頭部伝達関数(HRTF:Head Related Transfer Function)を記憶したHRTFデータベースから与えられる。   Conventionally, for example, in a three-dimensional virtual reality system, a sound image localization apparatus has been used as a means for improving a sense of reality by a virtual experience. In this type of system, for example, a three-dimensional sound field is generated from a monaural sound source by generating a multi-channel signal having a time difference, an amplitude difference, and a frequency characteristic difference based on a binaural method, thereby giving a sense of direction and a sense of distance. Is generated. That is, the audio input signal has a specific frequency component attenuated by, for example, a notch filter to give a sense of vertical direction, is converted into a left and right channel signal having a time difference by a delay circuit, and is virtually converted by a FIR (finite impulse response) filter. A sound transfer characteristic from the sound source position is given. The filter coefficient of the FIR filter is given from an HRTF database storing a head related transfer function (HRTF) measured in advance by a dummy head.

特許文献1には、こうした従来の音像定位装置では、すべての仮想音源位置からのHRTFを記憶しておくことは不可能であるため、通常は、リスナから所定距離だけ離れた位置からの伝達特性のみを測定して記憶することで発生する、所定外の距離における各耳で感じる音像が一致せず良好に定位しないという問題を解決するために、リスナから前記所定距離とは異なる距離だけ隔てた位置が仮想音源位置として指定された際、その指定された仮想音源位置により特定される伝達距離及び伝達方向とリスナの両耳間の距離とに基づいて前記仮想音源位置から前記リスナの各耳に至る右チャネルの伝達方向と左チャネルの伝達方向とをそれぞれ算出し、これら左右チャンネルの伝達方向により前記左右チャネル用のフィルタの音響伝達特性をそれぞれ決定する技術が開示されている。   In Patent Document 1, since such a conventional sound image localization device cannot store HRTFs from all virtual sound source positions, normally, transfer characteristics from a position away from a listener by a predetermined distance are usually used. In order to solve the problem that the sound image felt by each ear at a distance outside the predetermined distance does not match and is not localized well, which is caused by measuring and storing only, the distance from the listener is different from the predetermined distance. When a position is designated as a virtual sound source position, the virtual sound source position is transferred from the virtual sound source position to each ear of the listener based on the transmission distance and transmission direction specified by the designated virtual sound source position and the distance between both ears of the listener. The transmission direction of the right channel and the transmission direction of the left channel are calculated respectively, and the acoustic transmission characteristics of the filter for the left and right channels are determined by the transmission directions of the left and right channels. Respectively determining techniques are disclosed.

また、特許文献2には、DVDビデオやDVDオーディオのフォーマットに互換性を持って独自のデータを記述する方法の一例が開示されている。
特開平10−17420号公報 特開平11−178090号公報 NHK放送技術研究所、「3次元映像の基礎」、オーム社、1995年 イエンスブラウエルト著、「空間音響」、鹿島出版会、1985年
Patent Document 2 discloses an example of a method for describing unique data with compatibility with a DVD video or DVD audio format.
Japanese Patent Laid-Open No. 10-17420 Japanese Patent Laid-Open No. 11-178090 NHK Broadcasting Technology Laboratory, “Basics of 3D Video”, Ohm, 1995 By Jens Brauert, “Spatial Acoustics”, Kashima Press, 1985

解決しようとする問題点は、空間音響の空間定位技術を用いた音響の再生を、既存のDVDビデオ規格や、DVDオーディオのように、ステレオ再生を含む従来再生方法と互換性を持って、記録再生するフォーマットがなかった点である。   The problem to be solved is that sound reproduction using spatial localization technology of spatial sound is compatible with existing reproduction methods including stereo reproduction like the existing DVD video standard and DVD audio, and recording. There is no format to play.

本発明は、このような従来の事情に鑑みてなされたもので、3次元音場情報を記録再生する際にノーマルなノーマルオーディオ情報と互換を保って3次元音場情報再生を可能とするフォーマットを提供することができ、空間音響の空間定位技術を用いた音響の再生を既存のDVDビデオ規格やDVDオーディオのようにステレオ再生を含む従来再生方法と互換性を持って記録再生することを目的とする。   The present invention has been made in view of such conventional circumstances, and is a format that enables reproduction of 3D sound field information while maintaining compatibility with normal normal audio information when recording and reproducing 3D sound field information. The purpose is to record and reproduce sound reproduction using spatial localization technology of spatial sound with compatibility with conventional reproduction methods including stereo reproduction like the existing DVD video standard and DVD audio. And

上記目的を達成するため、本発明に係る3次元音場情報再生装置は、ノーマルオーディオのオーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する管理情報を再生しその管理情報を用いて前記オーディオオブジェクトの再生を制御する手段と、前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのユーザーデータ領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御する手段とを有することを特徴とする。   In order to achieve the above object, a three-dimensional sound field information reproducing apparatus according to the present invention reproduces a normal audio audio object, management information for managing the audio object, and uses the management information to reproduce the audio. Means for controlling the reproduction of the object, and for each predetermined unit of each frame of the normal audio, information relating to the three-dimensional sound field information recorded in the user data area of the audio object is reproduced and three-dimensional using the information. And means for controlling reproduction of sound field data.

別の側面において、本発明に係る3次元音場情報再生装置は、ノーマルオーディオのオーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する管理情報を再生しその管理情報を用いて前記オーディオオブジェクトの再生を制御する手段と、前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから3次元音場情報に関する情報を分離して再生しその情報を用いて3次元音場データの再生を制御する手段とを有することを特徴とする。   In another aspect, the three-dimensional sound field information reproducing apparatus according to the present invention reproduces normal audio audio objects, management information for managing the audio objects, and uses the management information to reproduce the audio objects. Means for controlling reproduction, and for each predetermined unit of each frame of the normal audio, information relating to the three-dimensional sound field information is separated from the stream that is multiplexed and recorded as stream data different from the normal audio of the audio object. And means for controlling the reproduction of the three-dimensional sound field data using the information.

さらに別の側面において、本発明に係る3次元音場情報再生装置は、ノーマルオーディオのオーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する管理情報を再生しその管理情報を用いて前記オーディオオブジェクトの再生を制御する手段と、前記ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報が記録されている領域とは別の3次元音場用の管理情報領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御する手段とを有することを特徴とする。   In still another aspect, the three-dimensional sound field information reproducing device according to the present invention reproduces the audio object of normal audio, management information for managing the audio object, and uses the management information to reproduce the audio object. And a three-dimensional sound recorded in a management information area for a three-dimensional sound field different from the area in which the management information is recorded for each predetermined unit of each frame of the normal audio. And means for reproducing information relating to the field information and controlling reproduction of the three-dimensional sound field data using the information.

上記目的を達成するため、本発明に係るプログラムは、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する管理情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのユーザーデータ領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とする。   In order to achieve the above object, a program according to the present invention includes a step of reproducing a normal audio audio object, a step of reproducing management information for managing the audio object, and controlling reproduction of the audio object using the information. For each predetermined unit of each frame of the normal audio, information related to the three-dimensional sound field information recorded in the user data area of the audio object is reproduced, and reproduction of the three-dimensional sound field data is controlled using the information. And causing the computer to execute the step of performing.

別の側面において、本発明に係るプログラムは、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する管理情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから3次元音場情報に関する情報を分離して再生しその情報を用いて3次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とする。   In another aspect, a program according to the present invention reproduces a normal audio audio object, reproduces management information for managing the audio object, and controls reproduction of the audio object using the information, For each predetermined unit of each frame of the normal audio, information relating to the three-dimensional sound field information is separated and reproduced from the stream that is multiplexed and recorded as stream data different from the normal audio of the audio object, and the information is used. And a step of controlling the reproduction of the three-dimensional sound field data by a computer.

さらに別の側面において、本発明に係るプログラムは、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する管理情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の3次元音場用の管理情報領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とする。   In yet another aspect, the program according to the present invention includes a step of reproducing a normal audio audio object, a step of reproducing management information for managing the audio object, and controlling the reproduction of the audio object using the information, For each predetermined unit of each frame of normal audio, information related to 3D sound field information recorded in a management information area for 3D sound field different from the management information area is reproduced and 3 And a step of controlling the reproduction of the three-dimensional sound field data by a computer.

本発明によれば、3次元音場情報を記録再生する際にノーマルなノーマルオーディオ情報と互換を保って3次元音場情報再生を可能とするフォーマットを提供することができ、空間音響の空間定位技術を用いた音響の再生を既存のDVDビデオ規格やDVDオーディオのようにステレオ再生を含む従来再生方法と互換性を持って記録再生することができるようになる。例えば、バイフォニック録音のように、オーディオのデータはノーマルなものと非常に相関関係があるもの、とくにDVD等の既存のノーマルオーディオを記録してあるメディアからの再生互換性を損なわずに、音の定位技術を用いて立体音響を視聴者が高臨場感で楽しむことが可能な3次元音場再生が可能な高臨場感シアターシステムを実現することができる。   According to the present invention, it is possible to provide a format that enables reproduction of 3D sound field information while maintaining compatibility with normal normal audio information when recording and reproducing 3D sound field information. Sound reproduction using the technology can be recorded and reproduced with compatibility with conventional reproduction methods including stereo reproduction like the existing DVD video standard and DVD audio. For example, audio data is highly correlated with normal data, such as biphonic recording, and in particular, sound compatibility can be maintained without compromising playback compatibility from existing normal audio recording media such as DVDs. By using this localization technology, it is possible to realize a highly realistic theater system capable of reproducing a three-dimensional sound field that enables viewers to enjoy stereoscopic sound with a high sense of reality.

以下、本発明に係る3次元音場情報再生装置及びプログラムを実施するための最良の形態について、添付図面を参照して説明する。   The best mode for carrying out a three-dimensional sound field information reproducing apparatus and program according to the present invention will be described below with reference to the accompanying drawings.

本実施形態は、例えばDVDビデオやDVDオーディオの規格に準拠した状態で、立体音場再生に必要な3次元音場情報をDVD規格に互換性を保ってメディアに記録再生することができるシステムを提供するものである。この形態は、DVDに限らず、ノーマルオーディオを再生する仕組みを持つアプリケーションやメディアに関して同様に応用できる。   This embodiment is a system capable of recording and reproducing 3D sound field information necessary for reproducing a three-dimensional sound field on a medium while maintaining compatibility with the DVD standard in a state compliant with, for example, a DVD video or DVD audio standard. It is to provide. This form is applicable not only to DVD but also to applications and media having a mechanism for reproducing normal audio.

本実施例は、3次元音場情報の記録装置とその再生装置とから構成されている。   The present embodiment is composed of a recording device for three-dimensional sound field information and its reproducing device.

図1は、本実施例の記録装置の全体構成を示す。図1に示す記録装置は、ノーマルオーディオマイク1、バイノーラルオーディオマイク2、ノーマルオーディオ圧縮器3、バッファ4、ノーマルオーディオ復号器5、減算器5a、差分バイノーラルオーディオ圧縮器6、情報多重化器7、カメラ8、ビデオ圧縮器9、バッファ10、DVDフォーマット化器11、記録器12、バッファ13、タイムスタンプ発生器14、及び制御部15を備えている。制御部15は、本装置内の各部に指令信号を出力して個々の動作を行わせるようになっている。   FIG. 1 shows the overall configuration of the recording apparatus of this embodiment. The recording apparatus shown in FIG. 1 includes a normal audio microphone 1, a binaural audio microphone 2, a normal audio compressor 3, a buffer 4, a normal audio decoder 5, a subtractor 5a, a differential binaural audio compressor 6, an information multiplexer 7, A camera 8, a video compressor 9, a buffer 10, a DVD formatter 11, a recorder 12, a buffer 13, a time stamp generator 14, and a control unit 15 are provided. The control unit 15 outputs a command signal to each unit in the apparatus to perform individual operations.

ノーマルオーディオマイク1は、ノーマルなオーディオ情報を収録し、ノーマルオーディオ圧縮器3に供給する。ここでいうノーマルオーディオとは、3次元音場オーディオ以外のものと定義する。例えば、通常のステレオオーディオである。   The normal audio microphone 1 records normal audio information and supplies it to the normal audio compressor 3. Normal audio here is defined as something other than three-dimensional sound field audio. For example, normal stereo audio.

バイノーラルオーディオマイク2は、ノーマルオーディオマイク1によるノーマルオーディオの収録と同時に、3次元音場データとして、バイノーラル収録を行い、バイノーラルオーディオデータとして減算器5aに供給する。このバイノーラル収録は、ダミーヘッドを用いる等をして行う。   The binaural audio microphone 2 performs binaural recording as three-dimensional sound field data simultaneously with normal audio recording by the normal audio microphone 1, and supplies the binaural audio data to the subtractor 5a. This binaural recording is performed by using a dummy head or the like.

ノーマルオーディオ圧縮器3は、ノーマルオーディオマイク1によって収録されたノーマルオーディオデータを所定の圧縮方式を用いて圧縮し、バッファ4及びノーマルオーディオ復号器5に供給する。ここで用いる圧縮方式は、MPEG方式でもDOLBY−DIGITAL(AC3)であっても構わない。   The normal audio compressor 3 compresses normal audio data recorded by the normal audio microphone 1 using a predetermined compression method, and supplies the compressed data to the buffer 4 and the normal audio decoder 5. The compression method used here may be either MPEG or DOLBY-DIGITAL (AC3).

バッファ4は、ノーマルオーディオ圧縮器3によって圧縮されたデータを、後述するビデオや差分バイノーラルオーディオとの同期を取るために一時的にバッファリングする。   The buffer 4 temporarily buffers the data compressed by the normal audio compressor 3 in order to synchronize with video and differential binaural audio described later.

ノーマルオーディオ復号器5は、ノーマルオーディオ圧縮器3によって圧縮されたデータを復号し、減算器5aに供給する。   The normal audio decoder 5 decodes the data compressed by the normal audio compressor 3 and supplies it to the subtracter 5a.

減算器5aは、ノーマルオーディオ復号器5にて復号化されたノーマルオーディオデータから、バイノーラルオーディオマイク2にて収録されたバイノーラルオーディオデータを減算して差分バイノーラルオーディオデータを作成し、これを差分バイノーラルオーディオ圧縮器6に供給する。   The subtractor 5a subtracts the binaural audio data recorded by the binaural audio microphone 2 from the normal audio data decoded by the normal audio decoder 5 to create differential binaural audio data, which is subtracted from the binaural audio data. Supply to the compressor 6.

差分バイノーラルオーディオ圧縮器6は、減算器5aからの差分バイノーラルオーディオデータを所定の圧縮方式を用いて圧縮する。圧縮方式は、MPEG方式でもDOLBY−DIGITAL(AC3)であっても構わない。AAC方式等は、可変長符号化を用いて非常に圧縮効率が良いものであり、本方式では好適なアルゴリズムといえる。   The differential binaural audio compressor 6 compresses the differential binaural audio data from the subtractor 5a using a predetermined compression method. The compression method may be MPEG or DOLBY-DIGITAL (AC3). The AAC method and the like have very good compression efficiency using variable length coding, and can be said to be a suitable algorithm in this method.

ここで、上記圧縮方式としてAAC方式を用いた場合の圧縮器(符号化装置)について、図2及び図3を参照して説明する。   Here, a compressor (encoding device) when the AAC method is used as the compression method will be described with reference to FIGS.

図2に示すAAC方式を用いた符号化装置は、図示の機能部、即ち聴覚心理分析器101、MDCT(変形離散コサイン変換:Modified Discrete Cosine Transform)器102、量子化器103、グループ処理器104、可変長符号化器105、ビット数判定器106、ビットストリーム生成器107、及び処理制御部108から構成されている。   The coding apparatus using the AAC method shown in FIG. 2 includes functional units shown in the drawing, that is, an auditory psychological analyzer 101, an MDCT (Modified Discrete Cosine Transform) device 102, a quantizer 103, and a group processor 104. , A variable length encoder 105, a bit number determination unit 106, a bit stream generator 107, and a processing control unit 108.

聴覚心理分析器101は、オーディオ信号を所定サンプル数からなるフレーム単位で取り込み、その入力オーディオ信号に対して高速フーリエ変換(FFT:Fast Fourier Transform)を行って周波数スペクトルを求め、その周波数スペクトルに基づいて聴覚上のマスキングを演算し、予め設定された周波数帯域毎の許容量子化雑音電力と聴覚心理パラメータを算出すると共に、その聴覚心理パラメータに基づいてMDCTのための変換ブロック長を決定する。   The psychoacoustic analyzer 101 takes an audio signal in a frame unit of a predetermined number of samples, performs a fast Fourier transform (FFT) on the input audio signal, obtains a frequency spectrum, and based on the frequency spectrum Then, the auditory masking is calculated to calculate the allowable quantization noise power and the auditory psychological parameter for each preset frequency band, and the conversion block length for MDCT is determined based on the auditory psychological parameter.

MDCT器102は、聴覚心理分析器101と同様にオーディオ信号を所定サンプル数からなるフレーム単位で取り込み、入力オーディオ信号に対してMDCTを行って周波数スペクトルに変換し、各周波数スペクトルに係るMDCT係数を求める。その場合、MDCT器102は、周波数スペクトルへの変換に際して、その変換ブロック長を50%ずつオーバーラップさせ、例えば、2048サンプルを1024本のMDCT係数に変換する。   Similar to the auditory psychological analyzer 101, the MDCT unit 102 takes an audio signal in units of a frame consisting of a predetermined number of samples, performs MDCT on the input audio signal to convert it into a frequency spectrum, and calculates MDCT coefficients related to each frequency spectrum. Ask. In this case, the MDCT unit 102 overlaps the conversion block length by 50% at the time of conversion into the frequency spectrum, and converts, for example, 2048 samples into 1024 MDCT coefficients.

このMDCT器102は、聴覚心理分析器101から得られる変換ブロック長情報に基づいてMDCTの対象となるブロック長を長い変換ブロック(ロングブロック)又は短い変換ブロック(ショートブロック)に切り替えるためのブロックスイッチング機能を採用している。これは、一般に長い変換ブロック長を用いる方がスペクトルの集中度が高まるので効率的なビット配分を行えるが、周波数領域での量子化雑音は時間領域に戻された時に変換ブロック長全体に広がるため、静寂部の後で急峻な立ち上がり(アタック部)を有するような波形を長いブロック長で変換して量子化すると、その量子化雑音が静寂部まで広がることになり、聴覚上極めて耳障りなものとなるからである。   The MDCT unit 102 is a block switching unit for switching the block length to be subjected to MDCT to a long conversion block (long block) or a short conversion block (short block) based on the conversion block length information obtained from the psychoacoustic analyzer 101. The function is adopted. This is because, generally, the longer the transform block length, the more concentrated the spectrum, so that efficient bit allocation can be performed. However, the quantization noise in the frequency domain spreads over the entire transform block length when it is returned to the time domain. When a waveform that has a steep rise (attack part) after the quiet part is converted with a long block length and quantized, the quantization noise spreads to the quiet part, which is extremely harsh to hearing. Because it becomes.

即ち、MDCT器102は、聴覚心理分析器101から得た変換ブロック長情報に基づいて変換ブロック長を選択し、特に、アタック部の前後では長い変換ブロックから複数個の短い変換ブロックに切り替えるようにしている。例えば、定常的な信号の場合には、MDCTの変換ブロック長は2048サンプルのロングブロックとして1024本のMDCT係数に変換し、一方、過渡的な信号の場合には、256サンプルのショートブロックとして128本のMDCT係数に変換する。そして、ショートブロックについては、8個連続で短い変換長を選択することとし、出力されるMDCT係数の本数を1024本としてロングブロックと一致させるようにしている。   That is, the MDCT unit 102 selects a conversion block length based on the conversion block length information obtained from the psychoacoustic analyzer 101, and in particular, switches from a long conversion block to a plurality of short conversion blocks before and after the attack part. ing. For example, in the case of a stationary signal, the conversion block length of MDCT is converted into 1024 MDCT coefficients as a long block of 2048 samples, while in the case of a transient signal, it is 128 blocks as a short block of 256 samples. Convert to MDCT coefficient of book. For the short block, eight consecutive short conversion lengths are selected, and the number of output MDCT coefficients is set to 1024 to match the long block.

量子化器103は、人間の聴覚特性に基づいて周波数帯域毎に1024本のMDCT係数を複数のスケールファクタバンドに分け、各スケールファクタバンド毎にMDCT係数を正規化して量子化を行う。その際に、ショートブロックの場合には128本のMDCT係数を複数のスケールファクタバンドに分ける。また、各スケールファクタバンドについて計算された量子化雑音が聴覚心理分析器101で算出された許容量子化雑音電力よりも大きくならないように、各スケールファクタバンドの量子化ステップ数を制御し、且つ量子化に必要なビット数がフレーム単位で所定ビット数以内に収まるように全体の量子化ステップ数を制御して量子化を実行する。なお、スケールファクタバンドの量子化ステップ数とは、各周波数帯域内のサンプルデータを波形と倍率に分離し、波形の最大振幅が1.0となるように正規化して倍率を符号化したものに相当し、スケールファクタとも言われるものである。量子化されたデータはグループ処理器104へ供給される。   The quantizer 103 divides 1024 MDCT coefficients into a plurality of scale factor bands for each frequency band based on human auditory characteristics, normalizes the MDCT coefficients for each scale factor band, and performs quantization. At that time, in the case of a short block, 128 MDCT coefficients are divided into a plurality of scale factor bands. Also, the number of quantization steps for each scale factor band is controlled so that the quantization noise calculated for each scale factor band does not become larger than the allowable quantization noise power calculated by the psychoacoustic analyzer 101, and Quantization is performed by controlling the total number of quantization steps so that the number of bits required for quantization falls within a predetermined number of bits per frame. The scale factor band quantization step number is obtained by separating the sample data in each frequency band into a waveform and a magnification, normalizing the waveform so that the maximum amplitude of the waveform is 1.0, and encoding the magnification. It is also called a scale factor. The quantized data is supplied to the group processor 104.

グループ処理器104は、量子化器103からの量子化されたデータに対し、より高い符号化効率が得られるようにショートブロックについてグループ化を行う。グループ化されたブロックでは補助情報が共有化され、符号化効率が改善されることになる。   The group processor 104 groups the short blocks so as to obtain higher encoding efficiency for the quantized data from the quantizer 103. In the grouped blocks, auxiliary information is shared, and coding efficiency is improved.

図3は、そのグルーピングの一例を示し、8個のショートブロックが4組のグループ(Group 0〜4)に分けられており、各グループには、それぞれ3個(Group 0)、1個(Group 1)、2個(Group 2)、2個(Group 3)のショートブロックが含まれている。   FIG. 3 shows an example of the grouping. Eight short blocks are divided into four groups (Group 0 to 4), and each group includes three (Group 0) and one (Group). 1) Two (Group 2) and two (Group 3) short blocks are included.

可変長符号化器105は、量子化器103とグループ処理器104で処理された後のMDCT係数の量子化値やスケールファクタ等の符号化パラメータに対して可変長符号化処理を施して冗長度を削減し、それをビット数判定器106へ出力する。   The variable-length encoder 105 performs variable-length encoding processing on the encoding parameters such as the quantized value of the MDCT coefficient and the scale factor after being processed by the quantizer 103 and the group processor 104, thereby providing redundancy. Is output to the bit number determination unit 106.

ビット数判定器106は、符号化された1フレーム分のビット数が予め設定された所定範囲内に収まっているか否かを判定し、その条件を満たしていれば、符号化データをそのままビットストリーム生成器107へ出力するが、満たしていない場合には、その判定結果を処理制御部108へ出力する。   The bit number determination unit 106 determines whether or not the number of encoded bits for one frame is within a predetermined range set in advance. If the condition is satisfied, the encoded data is directly converted into a bit stream. Although it outputs to the generator 107, when not satisfy | filling, the determination result is output to the process control part 108.

処理制御部108は、その判定結果に基づいて量子化器103とグループ処理器104と可変長符号化器105による前記の一連の処理を再度実行させ、ビット数判定器106において前記条件を満たしていると判定されるまでその処理を反復させる。ビット数判定器106にて前記条件を満たした符号化データは、ビットストリーム生成器107へ出力され、ブロック情報等の符号化パラメータと共に多重化されたビットストリームとして伝送されることになる。   The processing control unit 108 causes the quantizer 103, the group processor 104, and the variable length encoder 105 to execute the series of processes again based on the determination result, and the bit number determiner 106 satisfies the condition. The process is repeated until it is determined that there is. The encoded data that satisfies the above condition in the bit number determination unit 106 is output to the bit stream generator 107 and transmitted as a multiplexed bit stream together with encoding parameters such as block information.

以上が圧縮方式としてAAC方式を用いた場合の説明である。   The above is the description when the AAC method is used as the compression method.

引き続いて、図1に示す記録装置の構成の説明に戻る。   Subsequently, the description returns to the configuration of the recording apparatus shown in FIG.

ビデオ圧縮器9は、カメラ8から入力されるビデオ信号を所定の圧縮方式を用いて圧縮する。ここでの圧縮方式は、MPEG方式等を用いる。   The video compressor 9 compresses the video signal input from the camera 8 using a predetermined compression method. As the compression method here, the MPEG method or the like is used.

バッファ10は、ビデオ圧縮器9にて圧縮されたビデオ圧縮データを、ノーマルオーディオ圧縮器3によって圧縮されてバッファ4にバッファリングされているデータや、差分バイノーラルオーディオ圧縮器6にて圧縮されてバッファ13にバッファリングされている差分バイノーラルオーディオとの同期を取るために一時的にバッファリングする。   The buffer 10 compresses the video compressed data compressed by the video compressor 9 by data compressed by the normal audio compressor 3 and buffered in the buffer 4, or compressed by the differential binaural audio compressor 6 and buffered. In order to synchronize with the differential binaural audio buffered in FIG.

タイムスタンプ発生器14は、タイムスタンプとして、27MHzまたは90KHzのカウンター情報を使用し、情報多重化器7に供給する。   The time stamp generator 14 uses the 27 MHz or 90 KHz counter information as the time stamp and supplies it to the information multiplexer 7.

情報多重器7は、バッファ10にバッファリングされているビデオ圧縮データ、バッファ4にバッファリングされているノーマルオーディオ圧縮データ、及びバッファ13にバッファリングされている差分バイノーラルオーディオ圧縮データを、同期を取りながら多重化する。ここでの多重化は、MPEGシステムレイヤの同期方式でプログラムストリーム方式を用いて各エレメンタリー毎にパック化し、再生時の同期を取れるようにプレゼンテーションタイムスタンプを打ちながら多重化する。タイムスタンプは、タイムスタンプ発生器14から27MHzまたは90KHzのカウンター情報が使用される。この仕組みは、MPEG多重化の規格を用いれば可能であるので詳細な説明は省略する。   The information multiplexer 7 synchronizes the video compressed data buffered in the buffer 10, the normal audio compressed data buffered in the buffer 4, and the differential binaural audio compressed data buffered in the buffer 13. Multiplex while. In this case, multiplexing is performed by packing each elementary element using the program stream method in the MPEG system layer synchronization method, and by multiplexing the presentation time stamps so as to obtain synchronization during reproduction. As the time stamp, counter information of 27 MHz or 90 KHz from the time stamp generator 14 is used. Since this mechanism is possible using the MPEG multiplexing standard, a detailed description is omitted.

DVDフォーマット化器11は、多重化されたストリームを後述するDVDの規格に準拠した形式にフォーマット化する。   The DVD formatter 11 formats the multiplexed stream into a format conforming to the DVD standard described later.

記録器12は、DVDフォーマット化器11にてDVDの規格に準拠した形式にフォーマット化された多重化ストリームを記録媒体RMに記録する。ここで記録媒体RMとしてDVDのROM型のメディアを作成するには、DVDのマスターデータとして一旦HDDに記録してから製造工程を経て、DVDメディアに記録される。   The recorder 12 records the multiplexed stream formatted in the format conforming to the DVD standard by the DVD formatter 11 on the recording medium RM. Here, in order to create a DVD ROM type medium as the recording medium RM, it is once recorded on the HDD as DVD master data and then recorded on the DVD medium through a manufacturing process.

次に、本実施例の再生装置について、図4を参照して説明する。   Next, the reproducing apparatus of the present embodiment will be described with reference to FIG.

図4に示す再生装置は、再生器21、DVDフォーマット復号器22、情報分離化器23、差分バイノーラルオーディオ復号器24、加算器24a、ノーマルオーディオ復号器25、音源選択器26、GUI(Graphical User Interface)27、スピーカー28、バッファ29、ビデオ復号器30、バッファ31、画像表示器32、バッファ33、STCタイムスタンプ比較器34、及び制御部35を備えている。制御部35は、本装置内の各部に指令信号を出力して個々の動作を行わせるようになっている。   4 includes a playback device 21, a DVD format decoder 22, an information separator 23, a differential binaural audio decoder 24, an adder 24a, a normal audio decoder 25, a sound source selector 26, a GUI (Graphical User). Interface) 27, speaker 28, buffer 29, video decoder 30, buffer 31, image display 32, buffer 33, STC time stamp comparator 34, and control unit 35. The control unit 35 outputs a command signal to each unit in the apparatus to perform individual operations.

再生器21は、記録媒体15からデータを再生し、DVDフォーマット復号器22に供給する。   The reproducer 21 reproduces data from the recording medium 15 and supplies it to the DVD format decoder 22.

DVDフォーマット復号器22は、再生データのDVDフォーマットからMPEGのストリームを抽出する。この図には示していないがDVDは再生するための情報(例えばプレイリスト情報や、特殊再生情報)は別途、抽出して、図示していないユーザーインターフェースやCPUを経由して、インターラクティブな再生を行うことができる。   The DVD format decoder 22 extracts an MPEG stream from the playback data DVD format. Although not shown in this figure, information for reproducing a DVD (for example, playlist information and special reproduction information) is separately extracted and interactively reproduced via a user interface or CPU (not shown). It can be carried out.

情報分離化器23は、抽出されたMPEGストリームからMPEG多重化を解いて、ビデオ、ノーマルオーディオ、及び差分バイノーラルオーディオに分離する。   The information separator 23 demultiplexes the extracted MPEG stream into MPEG, normal audio, and differential binaural audio.

ビデオ復号器30は、分離されたビデオを復号し、バッファ31に供給する。バッファ31は、復号されたビデオを一時的にバッファリングする。   The video decoder 30 decodes the separated video and supplies it to the buffer 31. The buffer 31 temporarily buffers the decoded video.

ノーマルオーディオ復号器25は、分離されたノーマルオーディオを復号し、バッファ29及び加算器24aに供給する。バッファ29は、復号されたノーマルオーディオを一時的にバッファリングする。   The normal audio decoder 25 decodes the separated normal audio and supplies it to the buffer 29 and the adder 24a. The buffer 29 temporarily buffers the decoded normal audio.

差分バイノーラルオーディオ復号器24は、差分バイノーラルオーディオデータを復号し、加算器24aに供給する。加算器24aは、復号された差分バイノーラルオーディオデータとノーマルオーディオ復号器25からのノーマルオーディオと加算し、バッファ33に供給する。バッファ33は、加算されたデータを一時的にバッファリングする。   The differential binaural audio decoder 24 decodes the differential binaural audio data and supplies it to the adder 24a. The adder 24 a adds the decoded differential binaural audio data and the normal audio from the normal audio decoder 25 and supplies them to the buffer 33. The buffer 33 temporarily buffers the added data.

STCタイムスタンプ比較器34は、情報分離化器23にて各エレメンタリーのパック化されたデータのヘッダに記録されているSCR(システムクロックリファレンス)やタイムスタンプを検出し、MPEG多重化方式で設定されているSCRにて同期させたSTC(システムタイムクロック)時刻と、プレゼンテーションタイムスタンプとを比較し、プレゼンテーションタイムスタンプ時刻がSTC時刻と一致したときに、バッファ33,29,31のそれぞれの復号データからエレメンタリー情報を出力する。   The STC time stamp comparator 34 detects the SCR (system clock reference) and time stamp recorded in the header of the packed data of each elementary by the information separator 23, and sets it by the MPEG multiplexing method. The STC (system time clock) time synchronized by the SCR and the presentation time stamp are compared, and when the presentation time stamp time matches the STC time, the decoded data of each of the buffers 33, 29, and 31 Outputs elementary information.

画像表示器32は、バッファ31からのビデオを画像表示する。   The image display 32 displays the video from the buffer 31 as an image.

GUI27は、ユーザーにより指定された音源、即ちノーマルオーディオかバイノーラルオーディオかを選択する選択信号を入力し、音源選択器26に出力する。音源選択器26は、バッファ33,29からのオーディオを、GUI27からの選択信号に従って、オーディオの音源を選択し、スピーカー28にて出力再生させる。   The GUI 27 receives a selection signal for selecting a sound source designated by the user, that is, normal audio or binaural audio, and outputs it to the sound source selector 26. The sound source selector 26 selects an audio sound source from the buffers 33 and 29 according to a selection signal from the GUI 27, and outputs and reproduces the audio from the speaker 28.

このようにして、ノーマルオーディオデータと3次元音場データであるバイノーラルオーディオデータは、差分をとることで相関の強い部分を削除して、音場を表現する位相差や響き部分の情報が差分として符号化されることで、より符号化効率及び記録能率を上げることができる。   In this way, the normal audio data and the binaural audio data that is the three-dimensional sound field data are subjected to the difference to delete the strongly correlated portion, and the phase difference and the sounding portion information representing the sound field are used as the difference. By encoding, encoding efficiency and recording efficiency can be further increased.

次に、図5に示すDVDビデオ規格を利用して、ノーマルオーディオの各フレームの所定単位ごとに、3次元音場情報に関する情報をオーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化して記録再生する場合の実施例を説明する。   Next, using the DVD video standard shown in FIG. 5, information relating to the three-dimensional sound field information is multiplexed and recorded as stream data different from the normal audio of the audio object for each predetermined unit of each frame of normal audio. An embodiment for reproduction will be described.

前述した差分バイノーラルオーディオデータは、本来、DVD規格ではないので、MPEG多重化されるパックに別のストリームとして記録することが考えられる。図5に示す一番下の階層には、その差分バイノーラルオーディオデータが所定のサンプル数で1オーディオフレームとしてレイヤを構成している。これらの1オーディオフレームが所定数集まって、約2kBでパック(PACK)を構成する。このパックにはヘッダが付いており、14バイトのパックヘッダとオーディオパケットにより構成され、オーディオパケットは9〜29バイトのパケットヘッダ、1バイトのサブストリームID、3バイトのオーディオフレーム情報、3バイトのオーディオデータ情報を記録し、その後ろに2013バイトの差分オーディオデータにより構成される。これらはディファレンシャルパック(D_PACK)として、ほかのノーマルオーディオパック(A_PACK)やビデオパック(V_PACK)と共に、バイノーラルオーディオデータパックとしてMPEG多重化される。   Since the above-described differential binaural audio data is not originally a DVD standard, it is conceivable to record it as a separate stream in a pack that is MPEG-multiplexed. In the lowest hierarchy shown in FIG. 5, the differential binaural audio data forms a layer as a single audio frame with a predetermined number of samples. A predetermined number of these audio frames are collected to form a pack with about 2 kB. This pack has a header, which is composed of a 14-byte pack header and an audio packet. The audio packet is a 9-29 byte packet header, 1 byte substream ID, 3 bytes of audio frame information, 3 bytes. Audio data information is recorded, followed by 2013-byte differential audio data. These are MPEG-multiplexed as a differential pack (D_PACK) as a binaural audio data pack together with other normal audio packs (A_PACK) and video packs (V_PACK).

ここで、図5に示すDVDビデオフォーマットを上位から見てみると、DVDビデオには、記録層がVolume spaceとして、Volume and File structure、DVD-video zone、及びDVD-others zoneに分かれている。この内、DVD-video zoneにはビデオマネージャー(VMG)及びビデオタイトルセット(VTS)という構造が存在している。   Here, looking at the DVD video format shown in FIG. 5 from the top, the DVD video is divided into a volume and file structure, a DVD-video zone, and a DVD-others zone as a volume space. Among these, the DVD-video zone has a structure of a video manager (VMG) and a video title set (VTS).

ビデオマネージャーは、ビデオマネージャーインフォメーション等後続するビデオタイトルセットの識別情報や様々な情報自体のスタートアドレスやエンドアドレス、どこのビデオストリームから再生を開始するか等の情報が記述されている。ビデオタイトルセットには、再生されるべきオーディオやビデオのデータのアドレス情報や識別情報等のControl Dataが記述されている。   The video manager describes information such as identification information of a subsequent video title set such as video manager information, start addresses and end addresses of various information itself, and from which video stream playback is started. Control data such as address information and identification information of audio and video data to be reproduced is described in the video title set.

これらのビデオマネージャーやビデオタイトルセット中のControl Dataは、管理情報領域であり、再生には必須な情報であって、この領域のデータは、前述したDVDフォーマット化器11やDVDフォーマット化ステップによって記録され、前述したDVDフォーマット復号器22やDVDフォーマット復号ステップによって再生される。   Control data in these video managers and video title sets is a management information area and is essential information for reproduction. Data in this area is recorded by the DVD formatter 11 or the DVD formatting step described above. Then, it is reproduced by the DVD format decoder 22 and the DVD format decoding step described above.

Control Dataの後側には、ビデオオブジェクトセット(VOBS)というビデオとオーディオの多重化されたMPEGストリームのセットがあり、さらにビデオオブジェクトセットにはビデオオブジェクト(VOB)という小単位のMPEGストリームがある。ビデオオブジェクトの下にはさらに細分化されたセル(CELL)という単位、さらにセルの下にはビデオオブジェクトユニット(VOBU)があり、これがMPEGストリームのグループオブピクチャー(GOP)にほぼ相当する構造となっていて、0.4〜1.0秒程度のものである。   On the rear side of the control data, there is a set of video and audio multiplexed MPEG streams called a video object set (VOBS), and the video object set includes a small unit MPEG stream called a video object (VOB). Below the video object is a unit called a subdivided cell (CELL), and below the cell is a video object unit (VOBU), which has a structure almost equivalent to a group of pictures (GOP) of an MPEG stream. And about 0.4 to 1.0 seconds.

ビデオオブジェクトユニットには、先頭にナビゲーションパック(NV_PACK)というストリームサーチ情報等が記述されている。また、ビデオパック(V_PACK)というビデオ圧縮データがパック化されたデータ、オーディオパック(A_PACK)というオーディオ圧縮データがパック化されたデータがあり、それぞれMPEG多重化されている。このようにDVDビデオ規格に準拠した形式で、ディファレンシャルパック(D_PACK)という前述したバイノーラルオーディオデータパックとしてパック化してMPEG多重化される。   In the video object unit, stream search information such as a navigation pack (NV_PACK) is described at the top. In addition, there are data in which video compression data called a video pack (V_PACK) is packed, and data in which audio compression data called an audio pack (A_PACK) is packed, which are respectively MPEG-multiplexed. In this way, in a format compliant with the DVD video standard, the above-described binaural audio data pack called a differential pack (D_PACK) is packed and MPEG-multiplexed.

従って、本実施例では、ディファレンシャルパックを用いれば、バイノーラル3次元音場オーディオが再生でき、ディファレンシャルパックを用いなければ、DVDビデオ規格として標準的なノーマルオーディオが出力できるフォーマットとなる。   Therefore, in this embodiment, if a differential pack is used, binaural three-dimensional sound field audio can be reproduced, and if a differential pack is not used, a standard normal audio can be output as a DVD video standard.

次に、図6に示すDVDビデオ規格を利用して、ノーマルオーディオの各フレームの所定単位ごとに、3次元音場情報に関する情報を前記管理情報領域とは別の3次元音場用の管理情報領域に記録再生する場合の実施例を説明する。   Next, using the DVD video standard shown in FIG. 6, for each predetermined unit of each frame of normal audio, information relating to the three-dimensional sound field information is managed separately for the three-dimensional sound field from the management information area. An embodiment in the case of recording / reproducing in an area will be described.

この方法は、DVDビデオの規格を準拠する形式をとりながらも、前述したディファレンシャルパックに記録するのではなく、DVD-others zoneというDVD規格準拠の形式で、自由に使用できる領域にバイノーラル3次元音場オーディオ情報を記録再生する方法である。   This method takes a format that conforms to the DVD video standard, but does not record it in the above-described differential pack, but in a DVD standard compliant format called DVD-others zone. This is a method for recording and reproducing audio field information.

DVD-others zoneには、ビデオマネージャー(DVMG)及びビデオタイトルセット(DVTS)という構造を記述する。ビデオマネージャーは、ビデオマネージャーインフォメーション等後続するビデオタイトルセットの識別情報や様々な情報自体のスタートアドレスやエンドアドレス、どこのビデオストリームから再生を開始するか等の情報が記述されている。ビデオタイトルセットには、再生されるべきオーディオやビデオのデータのアドレス情報や識別情報等のビデオタイトルセットインフォメーション(DVTSI)が記述されている。   In the DVD-others zone, a structure called a video manager (DVMG) and a video title set (DVTS) is described. The video manager describes information such as identification information of a subsequent video title set such as video manager information, start addresses and end addresses of various information itself, and from which video stream playback is started. The video title set describes video title set information (DVTSI) such as address information and identification information of audio and video data to be reproduced.

これらのビデオマネージャーやビデオタイトルセットインフォメーションは、管理情報領域であり、再生には必須な情報であって、この領域のデータは、前述したDVDフォーマット化器11やDVDフォーマット化ステップによって記録され、前述したDVDフォーマット復号器22やDVDフォーマット復号ステップによって再生される。   These video manager and video title set information are management information areas, which are indispensable information for reproduction. Data in this area is recorded by the DVD formatter 11 or the DVD formatting step described above, and is described above. It is reproduced by the DVD format decoder 22 or the DVD format decoding step.

ビデオタイトルセットには、ビデオタイトルセット情報の後側にビデオオブジェクトセット(DVOBS)というビデオとオーディオの多重化されたMPEGストリームのセットがあり、さらにビデオオブジェクト(DVOB)という小単位のMPEGストリームがある。ビデオオブジェクトの下にはさらに細分化されたセル(DCELL)という単位、さらにはビデオオブジェクトユニット(DVOBU)があり、このビデオオブジェクトユニットに、バイノーラル3次元音場オーディオ情報のフレームレイヤの数フレームをまとめた構造になっている。   The video title set has a video object set (DVOBS) video and audio multiplexed MPEG stream set behind the video title set information, and a video object (DVOB) small unit MPEG stream. . Below the video object, there is a unit of further subdivided cells (DCELL), and further a video object unit (DVOBU). In this video object unit, several frames of the frame layer of binaural 3D sound field audio information are collected. It has a structure.

このように、DVD-video zoneの2D映像のデータと同じ構造とし、一つ一つのビデオオブジェクトユニット、セル、ビデオオブジェクト等は、同じフレーム枚数(同じ再生時間長)を持たせることで、サーチ等のアクセス性を高めることができる。   In this way, the structure is the same as that of 2D video data in the DVD-video zone, and each video object unit, cell, video object, etc. has the same number of frames (same playback time length), so that search etc. Can improve accessibility.

このようにして、DVDビデオ規格に準拠した形式で、DVD-video zoneとDVD-others zoneにリンクした形式でバイノーラル3次元音場オーディオ情報データを記述しておけば、バイノーラル3次元音場オーディオとノーマルオーディオをDVDビデオ規格互換で記録再生することができる。   In this way, if binaural 3D sound field audio information data is described in a format compliant with the DVD video standard and linked to the DVD-video zone and DVD-others zone, binaural 3D sound field audio and Normal audio can be recorded and reproduced with DVD video standard compatibility.

次に、図7に示すDVDオーディオ規格を利用して、ノーマルオーディオの各フレームの所定単位ごとに、3次元音場情報に関する情報をオーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化により記録再生する場合の実施例を説明する。   Next, by using the DVD audio standard shown in FIG. 7, information relating to the three-dimensional sound field information is recorded by multiplexing as stream data different from the normal audio of the audio object for each predetermined unit of each frame of normal audio. An embodiment for reproduction will be described.

図7に示すように、DVDオーディオのフォーマットは、オーディオマネージャ(AMG)と、オーディオマネージャに続く複数のオーディオタイトルセット(ATS)の各エリアにより構成されている。オーディオタイトルセットの各々は、これに対応して先頭のATSインフォメーション(ATSI)と、それに続く1以上のオーディオオブジェクトセット(AOBS)により構成されている。   As shown in FIG. 7, the DVD audio format is composed of an audio manager (AMG) and areas of a plurality of audio title sets (ATS) following the audio manager. Corresponding to this, each of the audio title sets is composed of a leading ATS information (ATSI) followed by one or more audio object sets (AOBS).

これらのオーディオマネージャやATSインフォメーションは、管理情報領域であり、再生には必須な情報であって、この領域のデータは、前述したDVDフォーマット化器11やDVDフォーマット化ステップによって記録され、DVDフォーマット復号器22やDVDフォーマット復号ステップによって再生される。   These audio manager and ATS information are management information areas, which are indispensable information for reproduction. Data in this area is recorded by the DVD formatter 11 and the DVD formatting step described above, and is decoded by the DVD format. It is reproduced by the device 22 and the DVD format decoding step.

オーディオオブジェクトセットの各々は、複数のオーディオオブジェクト(AOB)により構成されている。オーディオオブジェクトの各々は、複数のセル(CELL)により構成され、セルは、さらに、複数のオーディオオブジェクトユニット(AOBU)により構成されている。オーディオオブジェクトユニットの各々は、複数のパックにより構成され、1パックは2048バイトで構成されている。オーディオオブジェクトユニットは、0.4〜1.0秒分の任意の数のパックにより構成されている。隣接するオーディオパック(A_PACK)は、オーディオ信号が互いに関連するように配置され、例えばステレオの場合にはLチャネルパックとRチャネルパックが隣接して配置され、また、マルチチャネルの場合にも同様に隣接して配置される。これらはそれぞれMPEG多重化されている。オーディオオブジェクトユニットのなかに、ディファレンシャルパック(D_PACK)という前述したバイノーラルオーディオデータパックとしてパック化してMPEG多重化する。   Each audio object set is composed of a plurality of audio objects (AOB). Each audio object is composed of a plurality of cells (CELL), and the cell is further composed of a plurality of audio object units (AOBU). Each audio object unit is composed of a plurality of packs, and one pack is composed of 2048 bytes. The audio object unit is composed of an arbitrary number of packs for 0.4 to 1.0 seconds. Adjacent audio packs (A_PACK) are arranged so that audio signals are related to each other. For example, in the case of stereo, an L channel pack and an R channel pack are arranged adjacent to each other. Adjacent to each other. Each of these is MPEG multiplexed. In the audio object unit, the above binaural audio data pack called a differential pack (D_PACK) is packed and MPEG-multiplexed.

従って、ディファレンシャルパックを用いれば、バイノーラル3次元音場オーディオが再生でき、ディファレンシャルパックを用いなければ、DVDビデオ規格として標準的なノーマルオーディオが出力できるフォーマットとなる。   Therefore, if a differential pack is used, binaural three-dimensional sound field audio can be reproduced, and if a differential pack is not used, a standard normal audio can be output as a DVD video standard.

次に、図8−1〜図8−7及び図9を参照して、DVDビデオ規格を利用して、ノーマルオーディオの各フレームの所定単位ごとに、3次元音場情報に関する情報をオブジェクトのユーザーデータ領域に記録再生する実施例を説明する。   Next, referring to FIG. 8A to FIG. 8-7 and FIG. 9, using the DVD video standard, information on the three-dimensional sound field information is obtained for each predetermined unit of each frame of normal audio. An embodiment for recording / reproducing data in the data area will be described.

図8−1〜図8−7は、MPEGのビデオストリームビデオレイヤ(MPEG1ビデオ規格のビデオレイヤ(MPEG1 VIDEO SYNTAX(ISO-IEC11172-2より抜粋)))の説明表を、図9は、MPEGの多重化トランスポートストリームシステムレイヤの説明表をそれぞれ示す。   FIGS. 8-1 to 8-7 are explanatory tables of MPEG video stream video layers (video layers of the MPEG1 video standard (MPEG1 VIDEO SYNTAX (extracted from ISO-IEC11172-2))), and FIG. An explanatory table of multiplexed transport stream system layers is shown respectively.

MPEG規格には、互換性の取れるような、ユーザーデータ(user data)領域やプライベートストリーム(private stream)にて伝送する仕組みが用意されている。   The MPEG standard provides a mechanism for transmitting data in a user data area or a private stream so that compatibility can be obtained.

例えば、MPEGビデオの規格には、ピクチャーレイヤ、GOPレイヤ等にそれぞれ、ユーザーデータ領域が設定されている。これらは、MPEGのシンタックスで映像音声とは関係ないデータを埋め込むことのできる所定のエリアとして設定されているuser_data、もしくはprivate_data_byte、もしくはユーザーが任意に設定できるprivate_stream等のデータパケットに記録する。   For example, in the MPEG video standard, user data areas are set in the picture layer, the GOP layer, and the like. These are recorded in a data packet such as user_data or private_data_byte which is set as a predetermined area in which data unrelated to video and audio can be embedded in MPEG syntax, or private_stream which can be arbitrarily set by the user.

例えば、MPEG1のビデオにおけるピクチャーレイヤは、図8−1〜図8−7に示すようになっていて、スライスレイヤの手前で、user_data_start_codeを送った後にuser_dataを8ビット単位で記録することができるような仕組みが定義されている。   For example, the picture layer in MPEG1 video is as shown in FIGS. 8-1 to 8-7, and user_data can be recorded in 8-bit units after sending user_data_start_code before the slice layer. Mechanism is defined.

また、MPEG2等の多重化トランスポートストリームのシステムレイヤにも図9に示すようにtransport_private_data_flagに1を立てると、private_dataが存在することを明示でき、データ長もトランスポートパケットをはみ出さないという制限のもとで、transport_private_data_lengthに設定したデータ長のprivate_dataを送信することができる。   Further, in the system layer of a multiplexed transport stream such as MPEG2, if the transport_private_data_flag is set to 1 as shown in FIG. 9, it is possible to clearly indicate that private_data exists and the data length does not protrude from the transport packet. Originally, private_data having the data length set in transport_private_data_length can be transmitted.

これ以外にも、MPEGシステムでユーザー固有のデータを記録する方法は、stream_idにprivate_streamを設定して専用のパケットを宣言することで送信する等、仕組みは幾つか定義されており、本発明におけるバイノーラル3次元音場オーディオ情報は、これらの領域に記録することができる。   In addition to this, there are several mechanisms for recording user-specific data in the MPEG system, such as transmitting by declaring a dedicated packet with private_stream set in stream_id, and binaural in the present invention. Three-dimensional sound field audio information can be recorded in these areas.

MPEG1ビデオのuser_dataを用いる例をもう少し詳細に説明する。   An example using user_data of MPEG1 video will be described in a little more detail.

user_data_start_codeは、スライスレイヤの手前で0x000001B2とMPEGでは定義されている。そのコードを送った後に、ユーザーデータエリア内で本発明の認証に用いる関数値の存在を示す、予め一意に識別可能なコードである例えば0x0f0f0f0f2428fdaaのコードを送信する。このコードは他のアプリケーションで、user_dataを使う場合に、識別する目的で記録するもので、コードの値は特に意味はない。そのコードの後に図6のオーディオフレームレイヤー構造を、MPEGの1ピクチャー毎にピクチャー表示区間に相当するオーディーフレームレイヤを記録する。ピクチャー表示区間とオーディオフレーム再生区間の時間幅が違う場合には、1パケット程度の誤差を平均的に許容する形式で多重化して、ビデオの先頭とオーディオの先頭のプレゼンテーションの時刻の差の情報を、user_dataの先頭に90KHzもしくは27MHzのクロックのカウント数で32ビット程度で記録するのでも良いし、再生側のクロックでデータ到着順に再生をし、暗黙の同期を取るのでも良い。   user_data_start_code is defined in MPEG as 0x000001B2 before the slice layer. After sending the code, a code of, for example, 0x0f0f0f0f2428fdaa, which is a uniquely identifiable code indicating the presence of the function value used for authentication of the present invention in the user data area, is transmitted. This code is recorded for identification purposes when user_data is used in other applications, and the code value has no particular meaning. The audio frame layer structure of FIG. 6 is recorded after the code, and an audio frame layer corresponding to a picture display section is recorded for each MPEG picture. If the time width between the picture display section and the audio frame playback section is different, it is multiplexed in a format that allows an error of about one packet on average, and information on the difference between the presentation time at the beginning of the video and the beginning of the audio is obtained. The head count of 90 KHz or 27 MHz may be recorded at about 32 bits at the beginning of user_data, or playback may be performed in the order of data arrival using the playback side clock, and implicit synchronization may be established.

また、ここでは伝送レートが高く取れるMPEGビデオのユーザーデータ領域に記録することを説明したが、オーディオの圧縮方式のDOLBY-DIGITAL(AC3)においても、SyncFrameという圧縮データを所定の単位で繰り返すファンクションの最後にauxdataとerrorcheckというファンクションが存在していて、auxdataには、最初の1ビットを1とすればユーザーデータを送れるようになっている。従って、このような仕組みを使用しても良い。DOLBY-DIGITAL(AC3)は、米国のATSCの規格になっており、ATSC standard (20 Dec.1995) Digital audio Compression (AC-3) (Doc.A/52)に、このシンタックスが詳細に記述されている。   In this example, recording in the user data area of an MPEG video with a high transmission rate has been described. However, in the audio compression method DOLBY-DIGITAL (AC3), a function of repeating compressed data called SyncFrame in a predetermined unit is used. Finally, there are functions called auxdata and errorcheck, and user data can be sent to auxdata if the first bit is set to 1. Therefore, such a mechanism may be used. DOLBY-DIGITAL (AC3) is an American ATSC standard, and this syntax is described in detail in the ATSC standard (20 Dec.1995) Digital audio Compression (AC-3) (Doc.A / 52). Has been.

次に、本実施例の記録装置で用いるプログラムの処理フローチャートについて、図10を参照して説明する。ここでの詳細なステップの処理内容は、前述した図1に示す記録装置のブロック図で説明した内容と実質的に同じなので、ここではステップの順番についてのみ簡単に説明する。   Next, a processing flowchart of a program used in the recording apparatus of the present embodiment will be described with reference to FIG. The detailed processing contents of the steps here are substantially the same as those described in the block diagram of the recording apparatus shown in FIG. 1 described above, so only the order of the steps will be briefly described here.

まず、ステップS110にて、ノーマルオーディオマイク1、バイノーラルマイク2から音響データを入力する。またカメラ8からの画像データを所定の時間分入力し、メモリに記憶する。   First, in step S110, acoustic data is input from the normal audio microphone 1 and the binaural microphone 2. Further, image data from the camera 8 is input for a predetermined time and stored in the memory.

次いで、ステップS120にて、ビデオデータとノーマルオーディオデータの圧縮を行い、ステップS130にて、ビデオ圧縮データと、ノーマルオーディオ圧縮データを一時バッファし、ステップS140にて、ノーマルオーディオデータの復号を行う。   Next, in step S120, the video data and the normal audio data are compressed, in step S130, the video compressed data and the normal audio compressed data are temporarily buffered, and in step S140, the normal audio data is decoded.

次いで、ステップS150にて、バイノーラルオーディオデータとノーマルオーディオ復号データの減算計算を行い、ステップS160にて、差分バイノーラルオーディオデータの圧縮を行う。   Next, in step S150, subtraction calculation of binaural audio data and normal audio decoded data is performed, and in step S160, differential binaural audio data is compressed.

次いで、ステップS170にて、ビデオ圧縮データ、ノーマルオーディオ圧縮データ、差分バイノーラルオーディオ圧縮データを、同期を取りながら多重化し、ステップS180にて、DVDフォーマット化を行い、ステップS190にて、所定の単位でメディアに記録する。記録メディアがDVDであれば、2KBが単位である。通信路等に出力する場合にはこのステップで通信路特有のパケット化を行う。   Next, in step S170, the video compression data, normal audio compression data, and differential binaural audio compression data are multiplexed while being synchronized, and in step S180, the DVD is formatted. In step S190, in predetermined units. Record on media. If the recording medium is a DVD, 2 KB is the unit. When outputting to a communication path or the like, packetization peculiar to the communication path is performed at this step.

次いで、ステップS200にて、入力画像データがまだあるかどうかを判定し、ある場合(YES)はステップS110に戻り、ない場合(NO)には、プログラムを終了する。   Next, in step S200, it is determined whether there is still input image data. If there is (YES), the process returns to step S110, and if not (NO), the program ends.

次に、本実施例の再生装置で用いるプログラムの処理フローチャートについて、図11を参照して説明する。ここでの詳細なステップの処理内容は、前述した図4に示す再生装置のブロック図で説明した内容と実質的に同じなので、ここではステップの順番についてのみ簡単に説明する。   Next, a processing flowchart of a program used in the playback apparatus of this embodiment will be described with reference to FIG. Since the detailed processing contents of the steps here are substantially the same as those described in the block diagram of the playback apparatus shown in FIG. 4 described above, only the order of the steps will be briefly described here.

まず、ステップS210にて、記録媒体もしくは伝送路から、多重化されたデータを所定の単位で読み取る。   First, in step S210, multiplexed data is read in a predetermined unit from a recording medium or a transmission path.

次いで、ステップS220にて、DVDフォーマットを復号する。DVDフォーマットの復号には、DVDフォーマットからMPEGのストリームを抽出し、このステップには示していないがDVDは再生するための情報(例えばプレイリスト情報や、特殊再生情報)は別途、抽出して、ユーザーインターフェースやCPUを経由して、インターラクティブな再生を行うことを含む。   Next, in step S220, the DVD format is decoded. For decoding of the DVD format, an MPEG stream is extracted from the DVD format. Although not shown in this step, information for reproducing the DVD (for example, playlist information and special playback information) is separately extracted, Including interactive playback via a user interface or CPU.

次いで、ステップS230にて、抽出されたMPEGストリームの情報分離化を行い、ステップS240にて、圧縮ビデオデータと圧縮ノーマルオーディオデータとを復号し、ステップS250にて、圧縮ビデオデータ、圧縮ノーマルオーディオデータ、一時バッファし、ステップS260にて、圧縮差分バイノーラルオーディオデータを復号する。   Next, in step S230, information extraction of the extracted MPEG stream is performed. In step S240, the compressed video data and the compressed normal audio data are decoded. In step S250, the compressed video data and the compressed normal audio data are decoded. In step S260, the compressed differential binaural audio data is decoded.

次いで、ステップS270にて、差分バイノーラルオーディオデータとノーマルオーディオ復号データを加算計算し、ステップS280にて、GUIよりユーザーが指定した音源、即ちノーマルオーディオか、バイノーラルオーディオかを選択する信号等をもとに、バイノーラルオーディオデータとノーマルオーディオのどちらを再生するか選択する。   Next, in step S270, the difference binaural audio data and the normal audio decoded data are added and calculated, and in step S280, a sound source designated by the user from the GUI, that is, a signal for selecting normal audio or binaural audio is used. Select whether to play binaural audio data or normal audio.

次いで、ステップS290にて、ビデオと選択されたオーディオを同期して表示及びスピーカー再生を行う。   Next, in step S290, the video and the selected audio are synchronized and displayed and reproduced by a speaker.

次いで、ステップS300にて、表示画像音響データがまだあるかどうかを判定し、ある場合(YES)にはステップS210に戻り、ない場合(NO)は、プログラムを終了する。   Next, in step S300, it is determined whether there is still display image acoustic data. If there is (YES), the process returns to step S210, and if not (NO), the program is terminated.

なお、本実施例では、図1及び図4に示す装置、図10及び図11に示すプログラムによる各処理において、最終的な情報は記録媒体に記録されたが、その他として、通信や放送特有のパケット化がなされて、パケット化器を経由して放送や通信網に伝送や受信をしてもよい。   In the present embodiment, the final information is recorded on the recording medium in each process by the apparatus shown in FIGS. 1 and 4 and the program shown in FIGS. 10 and 11, but otherwise, it is peculiar to communication and broadcasting. Packetization may be performed, and transmission or reception may be performed via a packetizer to a broadcast or communication network.

また、記録媒体にデータを記録しなくても、通信、放送等あらゆる伝送媒体を経由してデータを送信することが可能で、その場合には、記録装置は伝送装置として使用することもできる。また再生装置は受信装置として使用することも可能である。   Further, even if data is not recorded on the recording medium, it is possible to transmit the data via any transmission medium such as communication and broadcasting. In that case, the recording apparatus can also be used as a transmission apparatus. The playback device can also be used as a receiving device.

また、本実施例の信号データを記録した記録媒体は、3次元音場情報を記録再生する際に、ノーマルなノーマルオーディオ情報と互換を保って3次元音場情報再生を可能とするフォーマットを記録してあるという媒体特有の効果があり特徴を持っている。   In addition, the recording medium on which the signal data of this embodiment is recorded records a format that enables the reproduction of 3D sound field information while maintaining compatibility with normal normal audio information when recording and reproducing 3D sound field information. There is an effect peculiar to the medium that it is.

また、記録媒体は、媒体という定義はデータを記録できる媒体という、狭義な媒体というものだけでなく、信号データを伝送するための電磁波、光等を含む。また、記録媒体に記録されている情報は、記録されていない状態での、電子ファイル等のデータ自身を含むものとする。   In addition, the definition of the medium includes not only a narrowly-defined medium that can record data, but also electromagnetic waves, light, and the like for transmitting signal data. In addition, the information recorded on the recording medium includes data itself such as an electronic file when not recorded.

また、本実施例によるバイノーラルオーディオデータ情報は、MPEGのビデオのユーザーデータを用いる場合には、1ピクチャー毎に記録するように説明したが、0.5秒程度ごとでも、1秒程度ごとでも構わない。その場合には、MPEGのGOPレイヤのユーザーデータを用いることで実現できる。   The binaural audio data information according to the present embodiment has been described as being recorded for each picture when MPEG video user data is used. However, the binaural audio data information may be about every 0.5 seconds or every 1 second. Absent. In that case, it can be realized by using user data of the GOP layer of MPEG.

また、本実施例は、オーディオを中心に記載したが、ビデオと共にオーディオデータが存在していてMPEGの多重化でオーディオとビデオが多重化されていても本発明は有効であり、オーディオやビデオに限らず、他のサブピクチャーや制御情報等のデータがあっても同様である。   Although this embodiment mainly describes audio, the present invention is effective even when audio data is present together with video and audio and video are multiplexed by MPEG multiplexing. The same applies to other sub-pictures and data such as control information.

また、3次元音場データにはバイフォニック録音されたオーディオデータの他にも、特別なサラウンド効果をもたらすデータや、3次元音場を作成するにあたり必要な無響室で録音されたようなレアな音源データから、頭部伝達関数とホール等の音場環境データによってシミュレーションにより仮想的に、バイフォニック録音に近い音場を作成することも可能である。   In addition to biphonically recorded audio data, 3D sound field data includes data that has special surround effects, and rare data that is recorded in an anechoic room that is necessary to create a 3D sound field. From sound source data, it is possible to create a sound field virtually similar to biphonic recording by simulation using head field transfer functions and sound field environment data such as a hall.

また、本実施例では、3次元音場情報に関する情報はバイフォニック録音されたオーディオデータで説明を行ったが、上記の特別なサラウンド効果をもたらすデータや、3次元音場を作成するにあたり必要な無響室で録音されたようなレアな音源データ(レアオーディオ)であってもよい。レアオーディオからは特殊なエフェクトがかかっていないことから3次元音場を創生しやすいという利点がある。   In the present embodiment, the information about the three-dimensional sound field information has been described with the audio data recorded by biphonic recording. However, it is necessary to create the above-mentioned special surround effect data and the three-dimensional sound field. Rare sound source data (rare audio) as recorded in an anechoic room may be used. Rare audio has the advantage that it is easy to create a three-dimensional sound field because no special effects are applied.

また、本実施例では、3次元音場データの圧縮方式は、MPEGやDOLBY−DIGITAL(AC3)で説明したが、他のDPCMやDCT等の直交変換で量子化する方式でも良い。またオーディオオブジェクトの種類としても、リニアPCMで圧縮をしないものや、可逆圧縮をしたもの、例えばDVDオーディオに採用されているPacked PCM (ロスレス圧縮方式)を用いても構わない。ノーマルオーディオにはリニアPCMのマルチチャンネルオーディオも応用できる。即ち、マルチチャンネルのLRの2CHを、本実施例のように3次元音場データに対応するLRとの差分をとるようにすればよい。それ以外のCHに関してはそのまま記録する。また、処理量に余裕がある場合には、所定の時間ごとにもっとも相関強いCHを選んで、適応的に3次元音場データとの差分をとるようにしてもよい。その場合、どのCHからの差分かを示す情報を数ビットで示し、ヘッダやユーザー領域に指示するフォーマットとすれば良い。また、レアオーディオとしては、無響室で録音したデータだけでなく、マルチマイクによるホール録音や6chにミックスダウンしたマスター音源でも良い。   In the present embodiment, the compression method of the three-dimensional sound field data has been described by MPEG or DOLBY-DIGITAL (AC3), but may be a method of quantization by other orthogonal transformation such as DPCM or DCT. As the type of the audio object, one that is not compressed by linear PCM or one that is reversibly compressed, for example, Packed PCM (lossless compression method) adopted for DVD audio may be used. Linear PCM multi-channel audio can also be applied to normal audio. In other words, the difference between the multi-channel LR 2CH and the LR corresponding to the three-dimensional sound field data may be taken as in this embodiment. Other CHs are recorded as they are. Further, when there is a margin in the processing amount, the CH having the strongest correlation may be selected every predetermined time, and the difference from the three-dimensional sound field data may be adaptively taken. In that case, the information indicating which channel the difference is from may be indicated by a few bits in a format instructing the header or user area. The rare audio is not limited to data recorded in an anechoic room, but may be a hall sound recording using a multi-microphone or a master sound source mixed down to 6 channels.

また、本実施例では、3次元音場を再生する方法としてバイノーラルオーディオを用いて説明したが、例えば複数のCHを持つことで、アレイスピーカーを用いて局在的音場を作り出すことも考えられる。即ち、空間上のある焦点付近の音圧を局所的に上昇させるようにスピーカーアレイの中心から焦点までの経路と、各スピーカーアレイから焦点までの経路との差に応じた遅延量を与えた再生信号により実現する方法である。   In this embodiment, binaural audio is used as a method for reproducing a three-dimensional sound field. However, for example, a local sound field may be created using an array speaker by having a plurality of CHs. . In other words, reproduction with a delay amount corresponding to the difference between the path from the center of the speaker array to the focal point and the path from each speaker array to the focal point so as to locally increase the sound pressure near a focal point in space. This is a method realized by a signal.

この方法の原理について、図12を参照して説明する。まず、前述した再生装置の音源選択器に接続されるスピーカー28として、図12に示すようにスピーカーアレイ28a〜28aをアレイ状に複数組み、各スピーカーアレイ28a〜28aの一つ一つに遅延回路28b〜28bを個別に設ける。この構成において、聴取位置近傍に焦点を結ぶように各遅延回路28b〜28bにその遅延時間を設定すると、聴取位置において、スピーカーアレイ28〜28からの直接音よりも焦点において発生する音圧成分が極めて高くなるように再生させることが可能となる。この原理を用いて連続的にリアルタイムで制御することで立体動画像のオブジェクトの位置にリンクして音像の定位を制御できる。   The principle of this method will be described with reference to FIG. First, as the speaker 28 connected to the sound source selector of the playback apparatus described above, a plurality of speaker arrays 28a to 28a are assembled in an array as shown in FIG. 12, and a delay circuit is provided for each of the speaker arrays 28a to 28a. 28b to 28b are provided individually. In this configuration, when the delay time is set in each of the delay circuits 28b to 28b so as to focus on the vicinity of the listening position, the sound pressure component generated at the focal point at the listening position is greater than the direct sound from the speaker arrays 28 to 28. It is possible to reproduce it so as to be extremely high. By using this principle and continuously controlling in real time, the localization of the sound image can be controlled by linking to the position of the object of the stereoscopic moving image.

この場合、図13に示すように、再生装置のスピーカーを成すスピーカーアレイ28a〜28a及び画像表示器を成すLCD(液晶ディスプレイ)32aを臨む聴取位置P1から、いくつかの局在音場P2,P3を生成して3次元音場空間を作ることが可能である。この場合には、複数のCHを図5や図7に示すようにディファレンシャルパック(D_PACK)にして複数のストリームで多重化して記録する。もしくは図6に示すようにDVD others zoneにCH毎にオーディオフレームを作成し、所定の順に複数のCHを順番に多重化して記録することで、既存DVDと互換性を保ちながら、3次元音場データを記録(伝送)することが可能である。   In this case, as shown in FIG. 13, from the listening position P1 facing the speaker arrays 28a to 28a constituting the speakers of the reproducing apparatus and the LCD (liquid crystal display) 32a constituting the image display, several localized sound fields P2, P3 are obtained. To create a three-dimensional sound field space. In this case, a plurality of CHs are recorded in a differential pack (D_PACK) as shown in FIGS. 5 and 7, multiplexed in a plurality of streams. Alternatively, as shown in FIG. 6, an audio frame is created for each CH in the DVD others zone, and a plurality of CHs are multiplexed and recorded in a predetermined order, so that a three-dimensional sound field is maintained while maintaining compatibility with existing DVDs. It is possible to record (transmit) data.

なお、上記した装置の機能をプログラムによりコンピュータに実現させるようにしてもよい。このプログラムは、記録媒体から読み取られてコンピュータに取り込まれてもよいし、通信ネットワークを介して伝送されてコンピュータに取り込まれてもよい。   Note that the functions of the above-described apparatus may be realized by a computer by a program. This program may be read from a recording medium and loaded into a computer, or may be transmitted via a communication network and loaded into a computer.

以上、本発明の実施例について説明したが、本発明の好適な実施の態様を以下の(1)〜(40)に列挙する。   As mentioned above, although the Example of this invention was described, the suitable aspect of this invention is enumerated in the following (1)-(40).

(1):3次元音場情報記録メディアにおいて、ノーマルオーディオのオーディオオブジェクトを記録した領域と、前記オーディオオブジェクトを管理する情報を記録した管理情報領域とを備えた情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとに、3次元音場情報に関する情報をオブジェクトのユーザーデータ領域に記録したことを特徴とした。   (1): In an information recording medium including a normal audio object recorded in a three-dimensional sound field information recording medium and a management information area recording information for managing the audio object, Information on the three-dimensional sound field information is recorded in the user data area of the object for each predetermined unit of the frame.

(2):3次元音場情報記録メディアにおいて、ノーマルオーディオのオーディオオブジェクトを記録した領域と、前記オーディオオブジェクトを管理する情報を記録した管理情報領域とを備えた情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとに、3次元音場情報に関する情報をオーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化により記録したことを特徴とした。   (2): In an information recording medium including a normal audio object recording area and a management information area recording information for managing the audio object in the three-dimensional sound field information recording medium, Information on the three-dimensional sound field information is recorded as stream data different from the normal audio of the audio object by multiplexing for each predetermined unit of the frame.

(3):3次元音場情報記録メディアにおいて、ノーマルオーディオのオーディオオブジェクトを記録した領域と、前記オーディオオブジェクトを管理する情報を記録した管理情報領域とを備えた情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとに、3次元音場情報に関する情報を前記管理情報領域とは別の3次元音場用の管理情報領域に記録したことを特徴とした。   (3): In a three-dimensional sound field information recording medium, an information recording medium comprising an area where normal audio objects are recorded and a management information area where information for managing the audio objects is recorded. Information on 3D sound field information is recorded in a management information area for a 3D sound field separate from the management information area for each predetermined unit of the frame.

(4):上記(1)〜(3)の3次元音場情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化の少なくとも一方を用いて符号化をしてから記録するようにした。   (4): In the three-dimensional sound field information recording media of the above (1) to (3), the information related to the three-dimensional sound field information for each predetermined unit of each frame of normal audio includes normal audio information and an anechoic chamber. The difference information with the rare audio information equivalent to that recorded in step 1 is encoded using at least one of differential encoding, predictive encoding, or encoding using orthogonal transform, and then recorded.

(5):上記(1)〜(3)の3次元音場情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であるようにした。   (5): In the three-dimensional sound field information recording media of the above (1) to (3), the information regarding the three-dimensional sound field information for each predetermined unit of each frame of normal audio is the normal audio information, the hall or the head The parameter information for the purpose of hall acousticization related to the transfer function was added.

(6):3次元音場情報再生方法において、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのユーザーデータ領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御するステップとを有することを特徴とした。   (6): In the three-dimensional sound field information reproducing method, reproducing a normal audio audio object, reproducing information managing the audio object, and controlling reproduction of the audio object using the information, For each predetermined unit of each frame of normal audio, reproducing information related to the three-dimensional sound field information recorded in the user data area of the audio object, and controlling the reproduction of the three-dimensional sound field data using the information. It was characterized by having.

(7):3次元音場情報再生方法において、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから3次元音場情報に関する情報を分離して再生しその情報を用いて3次元音場データの再生を制御するステップとを有することを特徴とした。   (7): In the three-dimensional sound field information reproduction method, reproducing a normal audio audio object, reproducing information managing the audio object, and controlling reproduction of the audio object using the information, For each predetermined unit of each frame of normal audio, information related to the three-dimensional sound field information is separated and reproduced from the stream that is multiplexed and recorded as stream data different from the normal audio of the audio object, and the information is used for 3 And a step of controlling reproduction of the dimensional sound field data.

(8):3次元音場情報再生方法において、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の3次元音場用の管理情報領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御するステップとを有することを特徴とした。   (8): In the three-dimensional sound field information reproduction method, a step of reproducing an audio object of normal audio, a step of reproducing information managing the audio object, and controlling reproduction of the audio object using the information, For each predetermined unit of each frame of normal audio, information related to 3D sound field information recorded in a management information area for 3D sound field different from the management information area is reproduced, and the information is used to 3D And a step of controlling the reproduction of the sound field data.

(9):上記(6)〜(8)の3次元音場情報再生方法において、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化がなされており、前記3次元音場情報に関する情報を差分符号化、予測符号化、もしくは直交変換の少なくとも一方を用いて復号化をしてから再生をすることを特徴とした。   (9): In the three-dimensional sound field information reproducing method of (6) to (8) above, the information related to the three-dimensional sound field information for each predetermined unit of each frame of normal audio includes normal audio information and an anechoic chamber. The difference information with the rare audio information equivalent to that recorded in the above is differentially encoded, predictively encoded, or encoded using orthogonal transform, and the information relating to the three-dimensional sound field information is differentially encoded and predicted code. The reproduction is performed after decoding using at least one of conversion or orthogonal transformation.

(10):上記(6)〜(8)の3次元音場情報再生方法において、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であることを特徴とした。   (10): In the three-dimensional sound field information reproducing method of (6) to (8) above, the information related to the three-dimensional sound field information for each predetermined unit of each frame of normal audio is normal audio information, hole or head It is characterized by parameter information for the purpose of hall acoustics related to the transfer function.

(11):3次元音場情報再生装置において、ノーマルオーディオのオーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御する手段と、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのユーザーデータ領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御する手段とを有することを特徴とした。   (11): In the three-dimensional sound field information reproducing device, means for reproducing an audio object of normal audio, means for reproducing information for managing the audio object, and controlling reproduction of the audio object using the information; Means for reproducing information on the three-dimensional sound field information recorded in the user data area of the audio object for each predetermined unit of each frame of normal audio and controlling the reproduction of the three-dimensional sound field data using the information; It was characterized by having.

(12):3次元音場情報再生装置において、ノーマルオーディオのオーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御する手段と、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから3次元音場情報に関する情報を分離して再生しその情報を用いて3次元音場データの再生を制御する手段とを有することを特徴とした。   (12): In the three-dimensional sound field information reproducing apparatus, means for reproducing an audio object of normal audio, means for reproducing information for managing the audio object, and controlling reproduction of the audio object using the information, For each predetermined unit of each frame of normal audio, information related to the three-dimensional sound field information is separated and reproduced from the stream that is multiplexed and recorded as stream data different from the normal audio of the audio object, and the information is used for 3 And means for controlling reproduction of the two-dimensional sound field data.

(13):3次元音場情報再生装置において、ノーマルオーディオのオーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する情報を再生する手段と、ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の3次元音場用の管理情報領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御する手段とを有することを特徴とした。   (13): In the three-dimensional sound field information reproducing device, means for reproducing an audio object of normal audio, means for reproducing information for managing the audio object, and the management for each predetermined unit of each frame of normal audio And means for reproducing information relating to the three-dimensional sound field information recorded in the management information area for the three-dimensional sound field different from the information area and controlling the reproduction of the three-dimensional sound field data using the information. It was characterized.

(14):(11)〜(13)の3次元音場情報再生装置において、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化がなされており、前記3次元音場情報に関する情報を差分符号化、予測符号化、もしくは直交変換の少なくとも一方を用いて復号化をしてから再生することを特徴とした。   (14): In the three-dimensional sound field information reproducing device according to (11) to (13), the information related to the three-dimensional sound field information for each predetermined unit of each frame of normal audio is the normal audio information and the anechoic chamber. The difference information from the recorded rare audio information equivalent to the recorded audio is differentially encoded, predictively encoded, or encoded using orthogonal transform, and the information relating to the three-dimensional sound field information is differentially encoded and predictively encoded. Alternatively, the reproduction is performed after decoding using at least one of orthogonal transforms.

(15):(11)〜(13)の3次元音場情報再生装置において、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であることを特徴とした。   (15): In the three-dimensional sound field information reproducing device according to (11) to (13), the information related to the three-dimensional sound field information for each predetermined unit of each frame of normal audio is transmitted from the normal audio information to the hall or head. It is characterized by parameter information for the purpose of hall acoustics related to functions.

(16):3次元音場情報再生プログラムにおいて、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのユーザーデータ領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とした。   (16): In a three-dimensional sound field information reproduction program, reproducing a normal audio audio object, reproducing information managing the audio object, and controlling reproduction of the audio object using the information, For each predetermined unit of each frame of normal audio, reproducing information related to the three-dimensional sound field information recorded in the user data area of the audio object, and controlling the reproduction of the three-dimensional sound field data using the information. It is characterized in that it is executed by a computer.

(17):3次元音場情報再生プログラムにおいて、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから3次元音場情報に関する情報を分離して再生しその情報を用いて3次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とした。   (17): In a three-dimensional sound field information reproduction program, reproducing a normal audio audio object, reproducing information managing the audio object, and controlling reproduction of the audio object using the information, For each predetermined unit of each frame of normal audio, information related to the three-dimensional sound field information is separated and reproduced from the stream that is multiplexed and recorded as stream data different from the normal audio of the audio object, and the information is used for 3 And a step of controlling the reproduction of the two-dimensional sound field data by a computer.

(18):3次元音場情報再生プログラムにおいて、ノーマルオーディオのオーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の3次元音場用の管理情報領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とした。   (18): In a three-dimensional sound field information reproduction program, reproducing a normal audio audio object, reproducing information managing the audio object, and controlling reproduction of the audio object using the information, For each predetermined unit of each frame of normal audio, information related to 3D sound field information recorded in a management information area for 3D sound field different from the management information area is reproduced, and the information is used to 3D And causing the computer to execute the step of controlling the reproduction of the sound field data.

(19):上記(16)〜(18)の3次元音場情報再生プログラムにおいて、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化がなされており、前記3次元音場情報に関する情報を差分符号化、予測符号化、もしくは直交変換の少なくとも一方を用いて復号化をしてから再生をすることを特徴とした。   (19): In the three-dimensional sound field information reproduction program of (16) to (18) above, the information related to the three-dimensional sound field information for each predetermined unit of each frame of normal audio includes normal audio information and an anechoic chamber. The difference information with the rare audio information equivalent to that recorded in the above is differentially encoded, predictively encoded, or encoded using orthogonal transform, and the information relating to the three-dimensional sound field information is differentially encoded and predicted code. The reproduction is performed after decoding using at least one of conversion or orthogonal transformation.

(20):上記(16)〜(18)の3次元音場情報再生プログラムにおいて、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であることを特徴とした。   (20): In the three-dimensional sound field information reproduction program of (16) to (18) above, the information related to the three-dimensional sound field information for each predetermined unit of each frame of normal audio is the normal audio information, the hall or the head It is characterized by parameter information for the purpose of hall acoustics related to the transfer function.

上記(1)〜(20)によれば、3次元音場情報を記録再生する際に、ノーマルなノーマルオーディオ情報と互換を保って3次元音場情報再生を可能とするフォーマットを提供することができ、空間音響の空間定位技術を用いた音響の再生を既存のDVDビデオ規格やDVDオーディオのようにステレオ再生を含む従来再生方法と互換性を持って記録再生することができるようになる。例えば、バイフォニック録音のように、オーディオのデータはノーマルなものと非常に相関関係があるもの、とくにDVD等の既存のノーマルオーディオを記録してあるメディアからの再生互換性を損なわずに、音の定位技術を用いて立体音響を視聴者が高臨場感で楽しむことが可能な3次元音場再生が可能な高臨場感シアターシステムを実現することができる。   According to the above (1) to (20), it is possible to provide a format that enables reproduction of 3D sound field information while maintaining compatibility with normal normal audio information when recording and reproducing 3D sound field information. In addition, sound reproduction using spatial localization technology of spatial sound can be recorded and reproduced with compatibility with conventional reproduction methods including stereo reproduction like the existing DVD video standard and DVD audio. For example, audio data is highly correlated with normal data, such as biphonic recording, and in particular, sound compatibility can be maintained without compromising playback compatibility from existing normal audio recording media such as DVDs. By using this localization technology, it is possible to realize a highly realistic theater system capable of reproducing a three-dimensional sound field that enables viewers to enjoy stereoscopic sound with a high sense of reality.

(21):3次元音場情報記録メディアにおいて、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとして記録した領域と、前記オーディオオブジェクトを管理する情報を記録した管理情報領域とを備えた情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとに、3次元音場情報に関する情報をオブジェクトのユーザーデータ領域に記録したことを特徴とした。   (21) In a three-dimensional sound field information recording medium, an information recording medium comprising an area in which normal audio signals and video signals are recorded as audio objects, and a management information area in which information for managing the audio objects is recorded. Information on three-dimensional sound field information is recorded in the user data area of the object for each predetermined unit of each frame of normal audio.

(22):3次元音場情報記録メディアにおいて、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとして記録した領域と、前記オーディオオブジェクトを管理する情報を記録した管理情報領域とを備えた情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとに、3次元音場情報に関する情報をオーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化により記録したことを特徴とした。   (22): In a three-dimensional sound field information recording medium, an information recording medium comprising an area in which normal audio signals and video signals are recorded as audio objects, and a management information area in which information for managing the audio objects is recorded. For each predetermined unit of each frame of normal audio, information on the three-dimensional sound field information is recorded by multiplexing as stream data different from the normal audio of the audio object.

(23):3次元音場情報記録メディアにおいて、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとして記録した領域と、前記オーディオオブジェクトを管理する情報を記録した管理情報領域とを備えた情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとに、3次元音場情報に関する情報を前記管理情報領域とは別の3次元音場用の管理情報領域に記録したことを特徴とした。   (23): In an information recording medium comprising a three-dimensional sound field information recording medium, an area in which normal audio signals and video signals are recorded as audio objects, and a management information area in which information for managing the audio objects is recorded. Information regarding 3D sound field information is recorded in a management information area for a 3D sound field separate from the management information area for each predetermined unit of each frame of normal audio.

(24):上記(21)〜(23)の3次元音場情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化の少なくとも一方を用いて符号化をしてから記録をするようにした。   (24): In the three-dimensional sound field information recording media of the above (21) to (23), the information related to the three-dimensional sound field information for each predetermined unit of each frame of normal audio includes normal audio information and an anechoic chamber. The difference information with the equivalent rare audio information recorded in step 1 is encoded using at least one of differential encoding, predictive encoding, or encoding using orthogonal transform, and then recorded.

(25):上記(21)〜(23)の3次元音場情報記録メディアにおいて、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であるようにした。   (25): In the three-dimensional sound field information recording medium of (21) to (23) above, the information related to the three-dimensional sound field information for each predetermined unit of each frame of normal audio is the normal audio information, the hall or the head The parameter information for the purpose of hall acousticization related to the transfer function was added.

(26):3次元音場情報再生方法において、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのユーザーデータ領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御するステップとを有することを特徴とした。   (26): In the three-dimensional sound field information reproducing method, a normal audio signal and a video signal are used as audio objects, the audio object is reproduced, information for managing the audio object is reproduced, and the audio object is reproduced using the information. And reproducing information related to 3D sound field information recorded in the user data area of the audio object for each predetermined unit of each frame of normal audio, and using the information to reproduce 3D sound field data And the step of controlling the reproduction of the video.

(27):3次元音場情報再生方法において、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから3次元音場情報に関する情報を分離して再生しその情報を用いて3次元音場データの再生を制御するステップとを有することを特徴とした。   (27): In the three-dimensional sound field information reproducing method, a normal audio signal and a video signal are used as audio objects, the audio object is reproduced, information for managing the audio object is reproduced, and the audio object is reproduced using the information. The information relating to the three-dimensional sound field information is separated from the stream that is multiplexed and recorded as stream data different from the normal audio of the audio object, for each predetermined unit of each frame of normal audio. And a step of controlling reproduction of the three-dimensional sound field data using the information.

(28):3次元音場情報再生方法において、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の3次元音場用の管理情報領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御するステップとを有することを特徴とした。   (28): In the three-dimensional sound field information reproducing method, a normal audio signal and a video signal are used as audio objects, the audio object is reproduced, information for managing the audio object is reproduced, and the audio object is reproduced using the information. Information relating to 3D sound field information recorded in a 3D sound field management information area different from the management information area is reproduced for each predetermined unit of each frame of normal audio. And the step of controlling the reproduction of the three-dimensional sound field data using the information.

(29):上記(26)〜(28)の3次元音場情報再生方法において、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化がなされており、前記3次元音場情報に関する情報を差分符号化、予測符号化、もしくは直交変換の少なくとも一方を用いて復号化をしてから再生をすることを特徴とした。   (29): In the three-dimensional sound field information reproducing method of (26) to (28), the information related to the three-dimensional sound field information for each predetermined unit of each frame of normal audio includes normal audio information and an anechoic chamber. The difference information with the rare audio information equivalent to that recorded in the above is differentially encoded, predictively encoded, or encoded using orthogonal transform, and the information related to the three-dimensional sound field information is differentially encoded and predicted code. The reproduction is performed after decoding using at least one of conversion or orthogonal transformation.

(30):上記(26)〜(28)の3次元音場情報再生方法において、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であることを特徴とした。   (30): In the three-dimensional sound field information reproducing method of (26) to (28) above, the information related to the three-dimensional sound field information for each predetermined unit of each frame of normal audio is the normal audio information, the hole or the head It is characterized by parameter information for the purpose of hall acoustics related to the transfer function.

(31):3次元音場情報再生装置において、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御する手段と、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのユーザーデータ領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御する手段とを有することを特徴とした。   (31): In a three-dimensional sound field information reproducing apparatus, a normal audio signal and a video signal are used as audio objects, means for reproducing the audio object, information for managing the audio object is reproduced, and the audio object is reproduced using the information. And information on 3D sound field information recorded in the user data area of the audio object for each predetermined unit of each frame of normal audio, and 3D sound field data using the information. And means for controlling the reproduction of the video.

(32):3次元音場情報再生装置において、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御する手段と、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから3次元音場情報に関する情報を分離して再生しその情報を用いて3次元音場データの再生を制御する手段とを有することを特徴とした。   (32): In the three-dimensional sound field information reproducing apparatus, a normal audio signal and a video signal are used as audio objects, means for reproducing the audio object, information for managing the audio object is reproduced, and the audio object is reproduced using the information. Information on the three-dimensional sound field information is separated from the stream that is multiplexed and recorded as stream data different from the normal audio of the audio object for each predetermined unit of each frame of the normal audio. And a means for controlling the reproduction of the three-dimensional sound field data using the reproduced information.

(33):3次元音場情報再生装置において、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生する手段と、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御する手段と、ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の3次元音場用の管理情報領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御する手段とを有することを特徴とした。   (33): In a three-dimensional sound field information reproducing apparatus, normal audio signals and video signals are used as audio objects, means for reproducing the audio objects, information for managing the audio objects is reproduced, and the audio objects are used using the information. Information relating to 3D sound field information recorded in a management information area for 3D sound fields different from the management information area for each predetermined unit of each frame of normal audio. And means for controlling reproduction of the three-dimensional sound field data using the information.

(34):上記(31)〜(33)の3次元音場情報再生装置において、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化がなされており、前記3次元音場情報に関する情報を差分符号化、予測符号化、もしくは直交変換の少なくとも一方を用いて復号化をしてから再生をすることを特徴とした。   (34): In the three-dimensional sound field information reproducing device according to (31) to (33), the information related to the three-dimensional sound field information for each predetermined unit of each frame of normal audio includes normal audio information and an anechoic chamber. The difference information with the rare audio information equivalent to that recorded in the above is differentially encoded, predictively encoded, or encoded using orthogonal transform, and the information related to the three-dimensional sound field information is differentially encoded and predicted code. The reproduction is performed after decoding using at least one of conversion or orthogonal transformation.

(35):上記(31)〜(33)の3次元音場情報再生装置において、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であることを特徴とした。   (35): In the three-dimensional sound field information reproducing device of (31) to (33) above, the information related to the three-dimensional sound field information for each predetermined unit of each frame of normal audio is the normal audio information, the hall or the head It is characterized by parameter information for the purpose of hall acoustics related to the transfer function.

(36):3次元音場情報再生プログラムにおいて、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのユーザーデータ領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とした。   (36): In a three-dimensional sound field information reproduction program, a normal audio signal and a video signal are used as audio objects, the audio object is reproduced, information for managing the audio object is reproduced, and the audio object is reproduced using the information. And reproducing information related to 3D sound field information recorded in the user data area of the audio object for each predetermined unit of each frame of normal audio, and using the information to reproduce 3D sound field data And a step of controlling the reproduction of the computer.

(37):3次元音場情報再生プログラムにおいて、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから3次元音場情報に関する情報を分離して再生しその情報を用いて3次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とした。   (37): In a three-dimensional sound field information reproduction program, a normal audio signal and a video signal are used as audio objects, the audio object is reproduced, information for managing the audio object is reproduced, and the audio object is reproduced using the information. The information relating to the three-dimensional sound field information is separated from the stream that is multiplexed and recorded as stream data different from the normal audio of the audio object, for each predetermined unit of each frame of normal audio. And reproducing the information and using the information to control the reproduction of the three-dimensional sound field data.

(38):3次元音場情報再生プログラムにおいて、ノーマルオーディオ信号とビデオ信号をオーディオオブジェクトとし、オーディオオブジェクトを再生するステップと、前記オーディオオブジェクトを管理する情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の3次元音場用の管理情報領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とした。   (38): In a three-dimensional sound field information reproducing program, a normal audio signal and a video signal are used as audio objects, the audio object is reproduced, information for managing the audio object is reproduced, and the audio object is reproduced using the information. Information relating to 3D sound field information recorded in a 3D sound field management information area different from the management information area is reproduced for each predetermined unit of each frame of normal audio. And the step of controlling the reproduction of the three-dimensional sound field data using the information is executed by a computer.

(39):上記(36)〜(38)の3次元音場情報再生プログラムにおいて、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報と、ほぼ無響室で録音したと等価のレアオーディオ情報との差分情報を差分符号化、予測符号化、もしくは直交変換を用いた符号化がなされており、前記3次元音場情報に関する情報を差分符号化、予測符号化、もしくは直交変換の少なくとも一方を用いて復号化をしてから再生をすることを特徴とした。   (39): In the three-dimensional sound field information reproduction program of (36) to (38) above, the information related to the three-dimensional sound field information for each predetermined unit of each frame of normal audio includes normal audio information and an anechoic chamber. The difference information with the rare audio information equivalent to that recorded in the above is differentially encoded, predictively encoded, or encoded using orthogonal transform, and the information related to the three-dimensional sound field information is differentially encoded and predicted code. The reproduction is performed after decoding using at least one of conversion or orthogonal transformation.

(40):上記(36)〜(38)の3次元音場情報再生プログラムにおいて、ノーマルオーディオの各フレームの所定単位ごとの3次元音場情報に関する情報は、ノーマルオーディオ情報を、ホールや頭部伝達関数に関するホール音響化を目的とするパラメータ情報であることを特徴とした。   (40): In the three-dimensional sound field information reproduction program of (36) to (38) above, the information related to the three-dimensional sound field information for each predetermined unit of each frame of normal audio is the normal audio information, the hall or the head It is characterized by parameter information for the purpose of hall acoustics related to the transfer function.

上記(20)〜(40)によれば、3次元音場情報を記録再生する際に、ノーマルなノーマルオーディオ情報と互換を保って3次元音場情報再生を可能とするフォーマットを提供することができ、空間音響の空間定位技術を用いた音響の再生を、ビデオ映像と共に、既存のDVDビデオ規格や、DVDオーディオのように、ステレオ再生を含む従来再生方法と互換性を持って、記録再生することができるようになる。例えばバイフォニック録音のように、オーディオのデータはノーマルなものと非常に相関関係があるもの、とくにDVD等の既存のノーマルオーディオを記録してあるメディアからの再生互換性を損なわずに、音の定位技術を用いて立体音響を視聴者に高臨場感で楽しむことができ、3次元音場再生が可能な、高臨場感シアターシステムを実現することができる。   According to the above (20) to (40), it is possible to provide a format that enables reproduction of 3D sound field information while maintaining compatibility with normal normal audio information when recording and reproducing 3D sound field information. It is possible to record and reproduce sound reproduction using spatial localization technology of spatial sound, together with video images, with compatibility with conventional reproduction methods including stereo reproduction like the existing DVD video standard and DVD audio. Will be able to. For example, audio data is highly correlated with normal data, such as biphonic recording, and in particular, without compromising playback compatibility from existing normal audio recording media such as DVD. By using the localization technology, it is possible to realize a highly realistic theater system that can enjoy three-dimensional sound with high sense of presence for viewers and can reproduce a three-dimensional sound field.

以上説明したように、本発明は、ノーマルオーディオ情報と互換を保って3次元音場情報再生を好適に実現する装置、方法、及びプログラムの用途に適用できる。特に、DVD等の既存のノーマルオーディオを記録してあるメディアの互換性を損なわずに、音の定位技術を用いて立体音響を視聴者が高臨場感で楽しむことが可能な高臨場感シアターシステム技術の用途に適用できる。   As described above, the present invention can be applied to an apparatus, a method, and a program for suitably realizing 3D sound field information reproduction while maintaining compatibility with normal audio information. In particular, a highly realistic theater system that allows viewers to enjoy stereophonic sound with a high sense of reality using sound localization technology without compromising the compatibility of existing normal audio recording media such as DVDs. Applicable to technical use.

本発明の実施例に係る3次元音場情報記録装置の全体構成を示す概略ブロック図である。It is a schematic block diagram which shows the whole structure of the three-dimensional sound field information recording device based on the Example of this invention. 圧縮方式としてAAC方式を用いた圧縮器の全体構成を示す概略ブロック図である。It is a schematic block diagram which shows the whole structure of the compressor which used the AAC system as a compression system. 図2に示す圧縮器内のグループ処理器によるグルーピングの一例を説明する図である。It is a figure explaining an example of grouping by the group processor in the compressor shown in FIG. 本発明の実施例に係る3次元音場情報再生装置の全体構成を示す概略ブロック図である。It is a schematic block diagram which shows the whole structure of the three-dimensional sound field information reproducing | regenerating apparatus based on the Example of this invention. 本発明の実施例で用いるDVDビデオ規格のフォーマット例を説明する図である。It is a figure explaining the example of a format of the DVD video standard used in the Example of this invention. 本発明の実施例で用いるDVDビデオ規格の他のフォーマット例を説明する図である。It is a figure explaining the other format example of the DVD video specification used in the Example of this invention. 本発明の実施例で用いるDVDオーディオ規格のフォーマット例を示す説明図である。It is explanatory drawing which shows the example of a format of the DVD audio standard used in the Example of this invention. MPEGのビデオストリームビデオレイヤの説明表(その1)である。4 is an explanatory table (No. 1) of an MPEG video stream video layer. MPEGのビデオストリームビデオレイヤの説明表(その2)である。4 is an explanatory table (2) of an MPEG video stream video layer. MPEGのビデオストリームビデオレイヤの説明表(その3)である。4 is an explanatory table (No. 3) of an MPEG video stream video layer. MPEGのビデオストリームビデオレイヤの説明表(その4)である。4 is an explanatory table (part 4) of an MPEG video stream video layer. MPEGのビデオストリームビデオレイヤの説明表(その5)である。FIG. 10 is an explanatory table (No. 5) of an MPEG video stream video layer. FIG. MPEGのビデオストリームビデオレイヤの説明表(その6)である。7 is an explanatory table (No. 6) of an MPEG video stream video layer. MPEGのビデオストリームビデオレイヤの説明表(その7)である。FIG. 10 is an explanatory table (No. 7) of an MPEG video stream video layer. FIG. MPEGの多重化トランスポートストリームシステムレイヤの説明表である。It is an explanatory table of the multiplexed transport stream system layer of MPEG. 本発明の実施例の記録プログラムを示すフローチャート図である。It is a flowchart figure which shows the recording program of the Example of this invention. 本発明の実施例の再生プログラムを示すフローチャート図である。It is a flowchart figure which shows the reproduction | regeneration program of the Example of this invention. アレイスピーカーを用いた場合の説明図である。It is explanatory drawing at the time of using an array speaker. アレイスピーカーを用いた場合のシステム図である。It is a system diagram at the time of using an array speaker.

符号の説明Explanation of symbols

1 ノーマルオーディオマイク
2 バイノーラルオーディオマイク
3 ノーマルオーディオ圧縮器
4 バッファ
5 ノーマルオーディオ復号器
5a 減算器
6 差分バイノーラルオーディオ圧縮器
7 情報多重化器
8 カメラ
9 ビデオ圧縮器
10 バッファ
11 DVDフォーマット化器
12 記録器
13 バッファ
14 タイムスタンプ発生器
15 制御部
21 再生器
22 DVDフォーマット復号器
23 情報分離化器
24 差分バイノーラルオーディオ復号器
25 ノーマルオーディオ復号器
26 音源選択器
27 GUI
28 スピーカー
28a アレイスピーカー
28b 遅延回路
29 バッファ
30 ビデオ復号器
31 バッファ
32 画像表示器
32a LCD
33 バッファ
34 STCタイムスタンプ比較器
35 制御部
101 聴覚心理分析器
102 MDCT器
103 量子化器
104 グループ処理器
105 可変長符号化器
106 ビット数判定器
107 ビットストリーム生成器
108 処理制御部
1 Normal Audio Microphone 2 Binaural Audio Microphone 3 Normal Audio Compressor 4 Buffer 5 Normal Audio Decoder 5a Subtractor 6 Differential Binaural Audio Compressor 7 Information Multiplexer 8 Camera 9 Video Compressor 10 Buffer 11 DVD Formatter 12 Recorder 13 buffer 14 time stamp generator 15 control unit 21 player 22 DVD format decoder 23 information separator 24 differential binaural audio decoder 25 normal audio decoder 26 sound source selector 27 GUI
28 Speaker 28a Array speaker 28b Delay circuit 29 Buffer 30 Video decoder 31 Buffer 32 Image display 32a LCD
33 Buffer 34 STC Timestamp Comparator 35 Control Unit 101 Auditory Psychological Analyzer 102 MDCT Unit 103 Quantizer 104 Group Processor 105 Variable Length Encoder 106 Bit Number Determinator 107 Bit Stream Generator 108 Processing Control Unit

Claims (6)

ノーマルオーディオのオーディオオブジェクトを再生する手段と、
前記オーディオオブジェクトを管理する管理情報を再生しその管理情報を用いて前記オーディオオブジェクトの再生を制御する手段と、
前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのユーザーデータ領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御する手段とを有することを特徴とする3次元音場情報再生装置。
Means for playing normal audio object,
Means for reproducing management information for managing the audio object and controlling reproduction of the audio object using the management information;
Means for reproducing information relating to the three-dimensional sound field information recorded in the user data area of the audio object for each predetermined unit of each frame of the normal audio and controlling the reproduction of the three-dimensional sound field data using the information. And a three-dimensional sound field information reproducing apparatus.
ノーマルオーディオのオーディオオブジェクトを再生する手段と、
前記オーディオオブジェクトを管理する管理情報を再生しその管理情報を用いて前記オーディオオブジェクトの再生を制御する手段と、
前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから3次元音場情報に関する情報を分離して再生しその情報を用いて3次元音場データの再生を制御する手段とを有することを特徴とする3次元音場情報再生装置。
Means for playing normal audio object,
Means for reproducing management information for managing the audio object and controlling reproduction of the audio object using the management information;
For each predetermined unit of each frame of the normal audio, information on the three-dimensional sound field information is separated and reproduced from the stream that is multiplexed and recorded as stream data different from the normal audio of the audio object, and the information is used. And a means for controlling the reproduction of the three-dimensional sound field data.
ノーマルオーディオのオーディオオブジェクトを再生する手段と、
前記オーディオオブジェクトを管理する管理情報を再生しその管理情報を用いて前記オーディオオブジェクトの再生を制御する手段と、
前記ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報が記録されている領域とは別の3次元音場用の管理情報領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御する手段とを有することを特徴とする3次元音場情報再生装置。
Means for playing normal audio object,
Means for reproducing management information for managing the audio object and controlling reproduction of the audio object using the management information;
For each predetermined unit of each frame of the normal audio, information related to the 3D sound field information recorded in the 3D sound field management information area different from the area where the management information is recorded is reproduced. And a means for controlling the reproduction of the three-dimensional sound field data using the information.
ノーマルオーディオのオーディオオブジェクトを再生するステップと、
前記オーディオオブジェクトを管理する管理情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、
前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのユーザーデータ領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とする3次元音場情報再生プログラム。
Playing normal audio object,
Replaying management information for managing the audio object and controlling the reproduction of the audio object using the information;
For each predetermined unit of each frame of the normal audio, reproducing information related to the three-dimensional sound field information recorded in the user data area of the audio object and controlling the reproduction of the three-dimensional sound field data using the information. 3D sound field information reproduction program characterized by causing a computer to execute.
ノーマルオーディオのオーディオオブジェクトを再生するステップと、
前記オーディオオブジェクトを管理する管理情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、
前記ノーマルオーディオの各フレームの所定単位ごとに、前記オーディオオブジェクトのノーマルオーディオとは別のストリームデータとして多重化し記録されているストリームから3次元音場情報に関する情報を分離して再生しその情報を用いて3次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とする3次元音場情報再生プログラム。
Playing normal audio object,
Replaying management information for managing the audio object and controlling the reproduction of the audio object using the information;
For each predetermined unit of each frame of the normal audio, information relating to the three-dimensional sound field information is separated and reproduced from the stream that is multiplexed and recorded as stream data different from the normal audio of the audio object, and the information is used. And a step of controlling a reproduction of the three-dimensional sound field data by a computer.
ノーマルオーディオのオーディオオブジェクトを再生するステップと、
前記オーディオオブジェクトを管理する管理情報を再生しその情報を用いて前記オーディオオブジェクトの再生を制御するステップと、
ノーマルオーディオの各フレームの所定単位ごとに、前記管理情報領域とは別の3次元音場用の管理情報領域に記録されている3次元音場情報に関する情報を再生しその情報を用いて3次元音場データの再生を制御するステップとをコンピュータに実行させることを特徴とする3次元音場情報再生プログラム。
Playing normal audio object,
Replaying management information for managing the audio object and controlling the reproduction of the audio object using the information;
For each predetermined unit of each frame of normal audio, information related to 3D sound field information recorded in a management information area for 3D sound field different from the management information area is reproduced, and the information is used to 3D 3. A three-dimensional sound field information reproduction program that causes a computer to execute a step of controlling reproduction of sound field data.
JP2004335923A 2004-11-19 2004-11-19 Three-dimensional sound field information reproducing device and program Pending JP2006148542A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004335923A JP2006148542A (en) 2004-11-19 2004-11-19 Three-dimensional sound field information reproducing device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004335923A JP2006148542A (en) 2004-11-19 2004-11-19 Three-dimensional sound field information reproducing device and program

Publications (1)

Publication Number Publication Date
JP2006148542A true JP2006148542A (en) 2006-06-08

Family

ID=36627712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004335923A Pending JP2006148542A (en) 2004-11-19 2004-11-19 Three-dimensional sound field information reproducing device and program

Country Status (1)

Country Link
JP (1) JP2006148542A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120002828A1 (en) * 2010-06-30 2012-01-05 Sony Corporation Audio processing device, audio processing method, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120002828A1 (en) * 2010-06-30 2012-01-05 Sony Corporation Audio processing device, audio processing method, and program
US9351092B2 (en) * 2010-06-30 2016-05-24 Sony Corporation Audio processing device, audio processing method, and program

Similar Documents

Publication Publication Date Title
KR100333999B1 (en) audio signal processing device and audio signal high-rate reproduction method used for audio visual equipment
RU2002126217A (en) SYSTEM FOR APPLICATION OF THE SIGNAL OF PRIMARY AND SECONDARY AUDIO INFORMATION
KR20070011026A (en) Method and apparatus for audio reproduction supporting audio thumbnail function
KR102172279B1 (en) Encoding and decdoing apparatus for supprtng scalable multichannel audio signal, and method for perporming by the apparatus
KR20060041735A (en) Sound pickup apparatus, sound pickup method, and recording medium
JPH09259539A (en) Information-recording medium and recording apparatus and reproducing apparatus therefor
JP6868093B2 (en) Audio signal processing device and audio signal processing system
KR101915258B1 (en) Apparatus and method for providing the audio metadata, apparatus and method for providing the audio data, apparatus and method for playing the audio data
KR20100066289A (en) Method and apparatus for providing realistic immersive multimedia services
CN114915874B (en) Audio processing method, device, equipment and medium
JP4013800B2 (en) Data creation method and data recording apparatus
JP4831117B2 (en) Speech encoding method and speech decoding method
WO2018150774A1 (en) Voice signal processing device and voice signal processing system
JP2006139827A (en) Device for recording three-dimensional sound field information, and program
JP2006148542A (en) Three-dimensional sound field information reproducing device and program
KR101417065B1 (en) apparatus and method for generating virtual sound
KR100598602B1 (en) virtual sound generating system and method thereof
KR101114431B1 (en) Apparatus for generationg and reproducing audio data for real time audio stream and the method thereof
KR102370348B1 (en) Apparatus and method for providing the audio metadata, apparatus and method for providing the audio data, apparatus and method for playing the audio data
JP2006279555A (en) Signal regeneration apparatus and method
KR102220521B1 (en) Apparatus and method for providing the audio metadata, apparatus and method for providing the audio data, apparatus and method for playing the audio data
RU2779295C2 (en) Processing of monophonic signal in 3d-audio decoder, providing binaural information material
KR100208004B1 (en) Device and method for reproducing stereo audio using upper/lower channel audio signals
JP2020120377A (en) Audio authoring device, audio rendering device, transmission device, reception device, and method
KR20220030983A (en) Apparatus and method for providing the audio metadata, apparatus and method for providing the audio data, apparatus and method for playing the audio data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080729

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080929

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081111