JP2003284196A - Sound image localizing signal processing apparatus and sound image localizing signal processing method - Google Patents

Sound image localizing signal processing apparatus and sound image localizing signal processing method

Info

Publication number
JP2003284196A
JP2003284196A JP2002079210A JP2002079210A JP2003284196A JP 2003284196 A JP2003284196 A JP 2003284196A JP 2002079210 A JP2002079210 A JP 2002079210A JP 2002079210 A JP2002079210 A JP 2002079210A JP 2003284196 A JP2003284196 A JP 2003284196A
Authority
JP
Japan
Prior art keywords
sound image
signal
information
signal processing
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002079210A
Other languages
Japanese (ja)
Inventor
Takashi Matsushige
隆 松重
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2002079210A priority Critical patent/JP2003284196A/en
Priority to PCT/JP2003/003339 priority patent/WO2003079724A1/en
Publication of JP2003284196A publication Critical patent/JP2003284196A/en
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a sound image localizing signal processing apparatus and a sound image localizing signal processing method capable of localizing a sound image in a direction of a moving video image even in the case of moving and reproducing the video image with a changed angle for reproduction of an audio signal with respect to a free viewpoint video image. <P>SOLUTION: The sound image localizing signal processing apparatus includes: a viewpoint selection section 5 for selecting viewpoint selection information of a user acting like angle information of a reproduced sound image of a video image on the basis of a video signal; a channel mapping section 6 for applying signal processing in real time for localizing the sound image to a channel of the audio signal corresponding to the viewpoint selection information of the user used for angle information of the selected reproduction sound image; a meta data section 9 for producing meta data to perform the signal processing; and an audio interleave section 11 for superimposing the audio signal and the meta data on the video signal to produce transmission information, and applies signal processing to the audio signal in real time so as to control the sound image localizing position corresponding to the video image on the basis of the video signal. <P>COPYRIGHT: (C)2004,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、例えば、角度情報
を有する映像信号に対応するオーディオ信号に仮想音源
定位処理を行う音像定位信号処理装置および音像定位信
号処理方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a sound image localization signal processing device and a sound image localization signal processing method for performing virtual sound source localization processing on an audio signal corresponding to a video signal having angle information.

【0002】[0002]

【従来の技術】従来、全方位カメラと呼ばれる360度
の周囲の被写体を例えば8画角に分割して連続処理して
撮像するものがあった。この全方位カメラで撮像された
360度撮像映像は、特に視点を注視することなく36
0度の周囲を撮像するため自由視点映像と呼ばれてい
た。この自由視点映像に対応する音は360度の周囲の
被写体の例えば8画角に分割した映像に対して固定して
ステレオ音場を再現できるようにマイクロホンを介して
収音されていた。
2. Description of the Related Art Conventionally, there has been known an omnidirectional camera that subjects a surrounding object of 360 degrees to, for example, eight view angles and continuously processes the images to pick up images. The 360-degree imaged image captured by this omnidirectional camera can be displayed without paying attention to the viewpoint.
It was called a free-viewpoint video because it captured the surroundings at 0 degrees. The sound corresponding to this free-viewpoint image was picked up via a microphone so that a stereo sound field could be reproduced by fixing it to an image of a 360 ° surrounding subject divided into, for example, 8 field angles.

【0003】[0003]

【発明が解決しようとする課題】このように、上述した
従来の自由視点映像に対するオーディオ信号の再生にお
いて、たとえ出力がステレオ音声出力信号であったとし
ても、このようなステレオ音声出力信号を再生した場合
に、通常音像は再生手段として用いる2個のスピーカの
間にのみ定位し、それ以外の方向には定位しない。
As described above, in reproducing the audio signal for the above-mentioned conventional free-viewpoint video, even if the output is a stereo audio output signal, such a stereo audio output signal is reproduced. In this case, the normal sound image is localized only between the two speakers used as the reproducing means, and is not localized in the other directions.

【0004】従って、再生時にテレビジョン受像機等の
モニタ上に再生される映像を360度撮像映像のうち角
度を変化させて移動させて再生した場合には、音像が3
60度の周囲の被写体の例えば8画角に分割した映像に
対して固定してしまい、音像がモニタに表示された移動
している画像とは一致せずに、通常音像は再生する2個
のスピーカの間にのみ定位し、それ以外の方向には定位
しないという不都合があった。なお、ゲーム機器におい
て、音源および画像をデータとしてメモリに記憶して、
メモリから読み出した画像に対する音源の位置を変化さ
せるものがあるが、映像信号やオーディオ信号などのよ
うに、リアルタイムでストリームで読み出した画像に対
してリアルタイムで音源の位置を変化させる技術が要求
されていた。
Therefore, when an image reproduced on a monitor such as a television receiver at the time of reproduction is reproduced by moving by changing the angle of the 360-degree imaged image, the sound image is reproduced as 3.
For example, the sound image does not match the moving image displayed on the monitor, and is fixed to the image of the surrounding object of 60 degrees divided into, for example, 8 view angles, and the normal sound image is reproduced. There is an inconvenience that the sound is localized only between the speakers and not in the other directions. In the game machine, the sound source and the image are stored in the memory as data,
There are some that change the position of the sound source with respect to the image read from the memory, but there is a demand for technology that changes the position of the sound source in real time with respect to the image read in a stream in real time, such as video signals and audio signals. It was

【0005】そこで、本発明は、かかる点に鑑みてなさ
れたものであり、自由視点映像に対するオーディオ信号
の再生において、角度を変化させて映像を移動させて再
生した場合にも移動する映像の方向に音像を定位させる
ことができる音像定位信号処理装置および音像定位信号
処理方法を提供することを課題とする。
Therefore, the present invention has been made in view of the above point, and in reproducing an audio signal for a free-viewpoint image, the direction of the moving image is changed even when the image is moved by changing the angle and reproduced. An object is to provide a sound image localization signal processing device and a sound image localization signal processing method capable of localizing a sound image.

【0006】[0006]

【課題を解決するための手段】本発明の音像定位信号処
理装置は、基準位置に対して角度情報を有する映像信号
に基づく映像に対応するように再生時における再生音像
を任意の位置に定位させるように制作時において複数の
音源から入力される各音源データを合成手段により合成
したオーディオ信号に信号処理を施す音像定位信号処理
装置において、上記映像信号に基づく映像の再生音像の
角度情報となるユーザーの視点選択情報を選択する選択
手段と、上記選択手段により選択された再生音像の角度
情報となるユーザーの視点選択情報に対応する上記オー
ディオ信号のチャンネルに音像定位のための信号処理を
リアルタイムで施す音像定位制御処理手段と、上記音像
定位制御処理手段により信号処理を施すための制御情報
を生成する制御情報生成手段と、上記映像信号に上記オ
ーディオ信号および上記制御情報を重畳して送出用情報
を生成する送出用情報生成手段とを備え、上記オーディ
オ信号にリアルタイムで信号処理を施して上記映像信号
に基づく映像に対応して音像定位位置を制御するように
したものである。
A sound image localization signal processing device of the present invention localizes a reproduced sound image at the time of reproduction so as to correspond to a video image based on a video signal having angle information with respect to a reference position. In a sound image localization signal processing device that performs signal processing on an audio signal obtained by synthesizing sound source data input from a plurality of sound sources during production as described above, a user who becomes angle information of a reproduced sound image of a video based on the video signal. Selection means for selecting the viewpoint selection information, and signal processing for sound image localization is performed in real time on the channel of the audio signal corresponding to the viewpoint selection information of the user, which is the angle information of the reproduced sound image selected by the selection means. Sound image localization control processing means and control information for generating control information for performing signal processing by the sound image localization control processing means. The audio signal and the control information are superposed on the video signal to generate transmission information, and the transmission information generation means is provided, and the audio signal is subjected to signal processing in real time and is based on the video signal. The sound image localization position is controlled according to the image.

【0007】また、本発明の音像定位信号処理装置は、
複数の音源から入力される各音源データを合成手段によ
り合成して制作時における制御情報により信号処理を施
したオーディオ信号について、基準位置に対して角度情
報を有する映像信号に基づく映像に対応するように再生
時において再生音像を任意の位置に定位させるように再
生用情報に信号処理を施す音像定位信号処理装置におい
て、上記再生用情報における映像信号に重畳された上記
オーディオ信号および上記制御情報から、上記映像信
号、上記オーディオ信号および上記制御情報を読み出す
再生用情報読み出し手段と、上記映像信号を再生する映
像信号再生手段と、上記映像信号に基づく映像の再生音
像の角度情報となるユーザーの視点選択情報を選択する
選択手段と、上記選択手段により選択された再生音像の
角度情報となるユーザーの視点選択情報に対応する上記
オーディオ信号のチャンネルに音像定位のための信号処
理をリアルタイムで施す音像定位制御処理手段とを備
え、上記オーディオ信号にリアルタイムで信号処理を施
して上記映像信号に基づく映像に対応して音像定位位置
を制御するようにしたものである。
Further, the sound image localization signal processing device of the present invention is
An audio signal obtained by synthesizing sound source data input from a plurality of sound sources by a synthesizing unit and performing signal processing according to control information at the time of production so as to correspond to a video based on a video signal having angle information with respect to a reference position. In the sound image localization signal processing device that performs signal processing on the reproduction information so as to localize the reproduced sound image at the time of reproduction, from the audio signal and the control information superimposed on the video signal in the reproduction information, Reproduction information reading means for reading the video signal, the audio signal, and the control information, a video signal reproducing means for reproducing the video signal, and a user's viewpoint selection as angle information of a reproduced sound image of the video based on the video signal. Selecting means for selecting information, and a user which becomes angle information of the reproduced sound image selected by the selecting means. Sound image localization control processing means for performing signal processing for sound image localization in real time on the channel of the audio signal corresponding to the viewpoint selection information of the audio signal, and performing signal processing on the audio signal in real time, based on the video signal. The sound image localization position is controlled according to the image.

【0008】また、本発明の音像定位信号処理方法は、
基準位置に対して角度情報を有する映像信号に基づく映
像に対応するように再生時における再生音像を任意の位
置に定位させるように制作時において複数の音源から入
力される各音源データを合成手段により合成したオーデ
ィオ信号に信号処理を施す音像定位信号処理方法におい
て、上記映像信号に基づく映像の再生音像の角度情報と
なるユーザーの視点選択情報を選択する選択ステップ
と、上記選択ステップにより選択された再生音像の角度
情報となるユーザーの視点選択情報に対応する上記オー
ディオ信号のチャンネルに音像定位のための信号処理を
リアルタイムで施す音像定位制御処理ステップと、上記
音像定位制御処理ステップにより信号処理を施すための
制御情報を生成する制御情報生成ステップと、上記映像
信号に上記オーディオ信号および上記制御情報を重畳し
て送出用情報を生成する送出用情報生成ステップとを備
え、上記オーディオ信号にリアルタイムで信号処理を施
して上記映像信号に基づく映像に対応して音像定位位置
を制御するようにしたものである。
Further, the sound image localization signal processing method of the present invention is
By synthesizing each sound source data input from a plurality of sound sources at the time of production so as to localize the reproduced sound image at the time of reproduction so as to correspond to the video based on the video signal having the angle information with respect to the reference position In a sound image localization signal processing method for subjecting a synthesized audio signal to signal processing, a selection step of selecting user's viewpoint selection information to be angle information of a reproduced sound image of a video based on the video signal, and a reproduction selected by the selection step. In order to perform signal processing by the sound image localization control processing step that performs signal processing for sound image localization in real time on the channel of the audio signal that corresponds to the user's viewpoint selection information that is the angle information of the sound image, and the sound image localization control processing step Control information generating step for generating control information of the A transmission information generating step of generating a transmission information by superimposing a signal and the control information, and subjecting the audio signal to signal processing in real time to control the sound image localization position corresponding to the video based on the video signal. It is something that is done.

【0009】また、本発明の音像定位信号処理方法は、
複数の音源から入力される各音源データを合成手段によ
り合成して制作時における制御情報により信号処理を施
したオーディオ信号について、基準位置に対して角度情
報を有する映像信号に基づく映像に対応するように再生
時において再生音像を任意の位置に定位させるように再
生用情報に信号処理を施す音像定位信号処理方法におい
て、上記再生用情報における映像信号に重畳された上記
オーディオ信号および上記制御情報から、上記映像信
号、上記オーディオ信号および上記制御情報を読み出す
再生用情報読み出しステップと、上記映像信号を再生す
る映像信号再生ステップと、上記映像信号に基づく映像
の再生音像の角度情報となるユーザーの視点選択情報を
選択する選択ステップと、上記選択ステップにより選択
された再生音像の角度情報となるユーザーの視点選択情
報に対応する上記オーディオ信号のチャンネルに音像定
位のための信号処理をリアルタイムで施す音像定位制御
処理ステップとを備え、上記オーディオ信号にリアルタ
イムで信号処理を施して上記映像信号に基づく映像に対
応して音像定位位置を制御するようにしたものである。
The sound image localization signal processing method of the present invention is
An audio signal obtained by synthesizing sound source data input from a plurality of sound sources by a synthesizing unit and performing signal processing according to control information at the time of production so as to correspond to a video based on a video signal having angle information with respect to a reference position. In the sound image localization signal processing method for performing signal processing on the reproduction information so as to localize the reproduction sound image at the time of reproduction, in the audio signal and the control information superimposed on the video signal in the reproduction information, A reproduction information reading step for reading the video signal, the audio signal, and the control information, a video signal reproducing step for reproducing the video signal, and a user's viewpoint selection which becomes angle information of a reproduced sound image of a video based on the video signal. The selection step for selecting information and the angle of the reproduced sound image selected in the above selection step A sound image localization control processing step of performing signal processing for sound image localization in real time on a channel of the audio signal corresponding to the user's viewpoint selection information to be information, and performing the signal processing on the audio signal in real time; The sound image localization position is controlled according to the image based on the signal.

【0010】従って本発明によれば、以下の作用をす
る。制作系において、音像定位制御処理手段は、選択手
段から映像の角度情報に対応した制御情報に基づいてオ
ーディオ信号のチャンネルに音像定位のための信号処理
をリアルタイムで施す。
Therefore, according to the present invention, the following operations are performed. In the production system, the sound image localization control processing means performs signal processing for sound image localization in real time on the channel of the audio signal based on the control information corresponding to the angle information of the image from the selection means.

【0011】また、制御情報生成手段は、音像定位制御
処理手段で映像の角度情報に対応してオーディオ信号の
チャンネルに音像定位のための信号処理を施すための音
像定位処理に用いた制御情報を格納する。
Further, the control information generating means uses the control information used in the sound image localization processing for performing signal processing for sound image localization on the channel of the audio signal corresponding to the angle information of the image by the sound image localization control processing means. Store.

【0012】送出用情報生成手段は、映像信号にオーデ
ィオ信号および制御信号を用いて送出用のフォーマット
に基づいた送出用データを生成する。この送出用データ
は、再生系に転送される。
The sending information generating means uses the audio signal and the control signal for the video signal to generate sending data based on the sending format. This transmission data is transferred to the reproduction system.

【0013】これにより、制作系において、オーディオ
信号の任意のチャンネルに音像定位のための信号処理を
施すためのリアルタイムの音像定位処理に用いた制御情
報を生成して、自由視点映像の映像信号およびオーディ
オ信号と共に再生系に転送することにより、自由視点映
像の角度を変化させて映像を移動させて再生した場合に
移動する映像の方向にオーディオ信号の再生音像を定位
させることができる。
Thus, in the production system, the control information used for the real-time sound image localization processing for performing the signal processing for sound image localization on any channel of the audio signal is generated, and the video signal of the free viewpoint video and By transferring to the reproduction system together with the audio signal, it is possible to localize the reproduced sound image of the audio signal in the direction of the moving image when the image is moved and reproduced by changing the angle of the free viewpoint image.

【0014】また、再生系において、音像定位制御処理
手段は、選択手段から映像の角度情報に対応した制御情
報に基づいて制作系から転送されたオーディオ信号のチ
ャンネルに音像定位のための信号処理をリアルタイムで
施す。
In the reproduction system, the sound image localization control processing means performs signal processing for sound image localization on the channel of the audio signal transferred from the production system based on the control information corresponding to the angle information of the image from the selection means. Apply in real time.

【0015】音像定位制御処理手段で映像の角度情報に
対応した制御情報に基づいてオーディオ信号のチャンネ
ルに音像定位のための信号処理を施された補正オーディ
オ信号は再生手段に出力される。再生手段は補正オーデ
ィオ信号を再生して映像の角度情報に対応した再生音像
を出力する。
The corrected audio signal, which has been subjected to the signal processing for sound image localization on the channel of the audio signal based on the control information corresponding to the angle information of the image by the sound image localization control processing means, is output to the reproduction means. The reproducing means reproduces the corrected audio signal and outputs a reproduced sound image corresponding to the angle information of the image.

【0016】これにより、再生系において、オーディオ
信号の任意のチャンネルに音像定位のための信号処理を
施して補正オーディオ信号を出力するための音像定位処
理に用いた制御情報を用いて、自由視点映像の映像信号
に対するオーディオ信号をリアルタイムで音像定位処理
することにより、自由視点映像の角度を変化させて映像
を移動させて再生した場合に移動する映像の方向にオー
ディオ信号の再生音像を定位させることができる。
As a result, in the reproduction system, the control information used for the sound image localization processing for performing the signal processing for the sound image localization on an arbitrary channel of the audio signal and outputting the corrected audio signal is used to generate the free viewpoint video. By performing sound image localization processing on the audio signal for the video signal of, the playback sound image of the audio signal can be localized in the direction of the moving image when the image is moved by changing the angle of the free-viewpoint image. it can.

【0017】[0017]

【発明の実施の形態】本実施の形態に適用される音像定
位信号処理装置は、いわゆる自由視点映像におけるオー
ディオ信号の音場の再生においてユーザーが視点を変更
するに従って音像定位位置が変化するようにするため
に、映像コンテンツを制作するときにサウンドクリエー
タが映像に合わせてオーディオ信号の再生音像を定位さ
せるための制御情報をオーサリング情報のメタデータと
して再生側に伝送するようにしたものである。
BEST MODE FOR CARRYING OUT THE INVENTION The sound image localization signal processing apparatus applied to this embodiment is configured so that the sound image localization position changes as the user changes the viewpoint in reproducing the sound field of the audio signal in the so-called free viewpoint video. In order to achieve this, the sound creator transmits control information for localizing the reproduced sound image of the audio signal in accordance with the video when producing the video content, as metadata of the authoring information to the reproduction side.

【0018】本実施の形態に適用される音像定位信号処
理装置について説明する。図1は、自由視点映像・音声
制作再生システムの制作系の音像定位信号処理装置の構
成を示すブロック図である。図1に示す音像定位信号処
理装置は、自由視点映像の角度を変化させて映像を移動
させて再生した場合に移動する映像の方向にオーディオ
信号の再生音像を定位させるようにオーディオ信号を制
御するメタデータを再生側に伝送する点が従来と大きく
異なる点である。
A sound image localization signal processing device applied to this embodiment will be described. FIG. 1 is a block diagram showing a configuration of a sound image localization signal processing device of a production system of a free-viewpoint video / audio production / reproduction system. The sound image localization signal processing device shown in FIG. 1 controls an audio signal so as to localize a reproduced sound image of an audio signal in a moving image direction when the image is moved and reproduced by changing an angle of a free viewpoint image. The point that the metadata is transmitted to the reproducing side is a big difference from the conventional one.

【0019】図1において、制作系では、自由視点カメ
ラのマイク素材1やその他の素材2が複数チャンネルの
オーディオ入力としてミキサ3に入力される。自由視点
カメラのマイク素材1は、自由視点映像に対応する音で
あり360度の周囲の被写体の例えば8画角に分割した
映像に対して固定してステレオ音場を再現できるように
マイクロホンを介して収音される。その他の素材2は、
ドライ素材と呼ばれるものであり、スポットマイク素
材、アフレコマイク素材またはサウンドエフェクト素材
などである。
In FIG. 1, in the production system, the microphone material 1 of the free-viewpoint camera and other materials 2 are input to the mixer 3 as audio input of a plurality of channels. The microphone material 1 of the free-viewpoint camera is a sound corresponding to the free-viewpoint video, and it is fixed to the video of the surrounding subject of 360 degrees divided into, for example, 8 angles of view, and a stereo sound field is reproduced via a microphone. Is picked up. Other materials 2 are
It is called a dry material, and is a spot microphone material, a post-record microphone material or a sound effect material.

【0020】ミキサ3は、サウンドクリエータが、自由
視点カメラのマイク素材1やその他の素材2などの複数
チャンネルの音源からのオーディオ入力を、自由視点ビ
ューア4で映像データ10の自由視点映像を360度に
わたって見ることにより映像の素材を見ながら各チャン
ネルに合成処理するように調整することができる音調整
卓である。例えばNチャンネル(例えば24チャンネ
ル)のオーディオ入力データをM(<N)チャンネル
(例えば4〜10チャンネル)のオーディオ出力データ
に合成して調整する。
In the mixer 3, the sound creator uses the free viewpoint viewer 4 to input the audio input from a plurality of channels of sound sources such as the microphone material 1 of the free viewpoint camera and other materials 2 to the free viewpoint video of the video data 10 by 360 degrees. It is a sound adjustment table that allows you to adjust the composition processing for each channel while watching the material of the image by looking at it over. For example, N channel (for example, 24 channels) audio input data is combined with M (<N) channel (for example, 4 to 10 channels) audio output data and adjusted.

【0021】自由視点ビューア4では、視点選択部5に
おける視点を選ぶ操作キーの操作により自由視点映像の
角度情報が選択される。視点選択部5における視点を選
ぶ操作キーは、例えば操作キーの回転により角度情報の
選択の動作をして操作キーの押圧により決定の動作をす
ることができるものである。
In the free viewpoint viewer 4, the angle information of the free viewpoint video is selected by operating the operation key for selecting the viewpoint in the viewpoint selecting unit 5. The operation key for selecting a viewpoint in the viewpoint selecting unit 5 is, for example, an operation for selecting angle information by rotating the operation key and a determination operation for pressing the operation key.

【0022】ミキサ3には機能ブロックとしてチャンネ
ルマッピング部6が設けられている。ミキサ3からのオ
ーディオ出力データはチャンネルマッピング部6に供給
される。チャンネルマッピング部6には視点選択部5か
ら自由視点映像の角度情報が供給されている。そこで、
チャンネルマッピング部6は、視点選択部5から自由視
点映像の角度情報に対応した制御情報に基づいてミキサ
3からのオーディオ出力データのチャンネルに音像定位
のための信号処理をリアルタイムで施す。チャンネルマ
ッピング部6は、例えば4〜10チャンネルの合成され
た音源のオーディオデータを入力して、2チャンネル乃
至5.1チャンネル、6チャンネル、7チャンネルなど
のマルチオーディオデータを出力する。なお、チャンネ
ルマッピング部6の詳細については後述する。
The mixer 3 is provided with a channel mapping section 6 as a functional block. The audio output data from the mixer 3 is supplied to the channel mapping unit 6. The angle information of the free viewpoint video is supplied from the viewpoint selecting unit 5 to the channel mapping unit 6. Therefore,
The channel mapping unit 6 performs signal processing for sound image localization on the channel of audio output data from the mixer 3 in real time based on the control information corresponding to the angle information of the free viewpoint video from the viewpoint selection unit 5. The channel mapping unit 6 inputs, for example, audio data of synthesized sound sources of 4 to 10 channels and outputs multi-audio data of 2 channels to 5.1 channels, 6 channels, 7 channels, and the like. The details of the channel mapping unit 6 will be described later.

【0023】チャンネルマッピング部6で自由視点映像
の角度情報に対応した制御情報に基づいてオーディオデ
ータのチャンネルに音像定位のための信号処理を施され
た補正オーディオデータはオーディオモニタ7に出力さ
れる。オーディオモニタ7は補正オーディオデータを再
生して自由視点映像の角度情報に対応した再生音像を出
力する。なお、オーディオモニタ7は、左(L)、右
(R)のステレオ音響を再生するスピーカ、左(L)、
右(R)のステレオ音響を再生するヘッドホン、左
(L)、右(R)、サラウンド左(SL)、サラウンド
右(SR)の4チャンネルのステレオ音響を再生するス
ピーカまたは左(L)、右(R)、中央(C)、サラウ
ンド左(SL)、サラウンド右(SR)、サブウーハ
(SW)の5.1チャンネルのステレオ音響を再生する
スピーカを用いてもよい。
The corrected audio data, which has been subjected to signal processing for sound image localization in the channel of the audio data based on the control information corresponding to the angle information of the free viewpoint video in the channel mapping unit 6, is output to the audio monitor 7. The audio monitor 7 reproduces the corrected audio data and outputs a reproduced sound image corresponding to the angle information of the free viewpoint video. The audio monitor 7 includes a speaker for reproducing left (L) and right (R) stereo sound, a left (L),
Headphones that play right (R) stereo sound, left (L), right (R), surround left (SL), speakers that play stereo sound of four channels of surround right (SR) or left (L), right A speaker that reproduces 5.1-channel stereo sound of (R), center (C), surround left (SL), surround right (SR), and subwoofer (SW) may be used.

【0024】また、チャンネルマッピング部6で自由視
点映像の角度情報に対応してオーディオデータのチャン
ネルに音像定位のための信号処理を施された補正オーデ
ィオデータの音像定位処理に用いた制御情報は、オーサ
リング情報のメタデータとしてメタデータ部9に供給さ
れる。
Further, the control information used in the sound image localization processing of the corrected audio data in which the signal processing for the sound image localization is performed on the channels of the audio data corresponding to the angle information of the free viewpoint video in the channel mapping unit 6 is: It is supplied to the metadata section 9 as metadata of authoring information.

【0025】ミキサ3からのオーディオ出力データは、
オーディオレコーダ8に供給され、オーディオレコーダ
8は、チャンネルマッピング部6からの例えば同期信号
に同期してオーディオデータを送出用のフォーマットに
ストリーム化する。
The audio output data from the mixer 3 is
The audio recorder 8 is supplied to the audio recorder 8 and streams the audio data into a format for transmission in synchronization with, for example, a synchronization signal from the channel mapping unit 6.

【0026】オーディオインターリーブ部11は、映像
データ10にストリーム化されたオーディオデータおよ
びメタデータ部9からのメタデータをインターリーブ処
理して送出用のフォーマットに基づいた送出用データ1
2を生成する。この送出用データ12は、例えば、イン
ターネット13または記録媒体14を介して後述する再
生系に転送される。
The audio interleave unit 11 interleaves the audio data streamed into the video data 10 and the metadata from the metadata unit 9 and sends the sending data 1 based on the sending format.
Generates 2. The transmission data 12 is transferred to a reproduction system described later via the Internet 13 or the recording medium 14, for example.

【0027】これにより、制作系において、オーディオ
データの任意のチャンネルに音像定位のための信号処理
を施して補正オーディオデータを出力するためのリアル
タイムの音像定位処理に用いた制御情報を生成して、自
由視点映像の映像データおよびオーディオデータと共に
再生系に転送することにより、自由視点映像の角度を変
化させて映像を移動させて再生した場合に移動する映像
の方向にオーディオ信号の再生音像を定位させることが
できる。
With this, in the production system, the control information used for the real-time sound image localization processing for performing the signal processing for sound image localization on an arbitrary channel of the audio data and outputting the corrected audio data, By transferring to the playback system together with the video data and audio data of the free-viewpoint video, if the angle of the free-viewpoint video is changed and the video is played back, the reproduced sound image of the audio signal is localized in the direction of the moving video. be able to.

【0028】図2は、自由視点映像・音声制作再生シス
テムの再生系の音像定位信号処理装置の構成を示すブロ
ック図である。図2において、再生系では、上述した図
1に示した制作系から、例えば、インターネット13ま
たは記録媒体14を介して転送された送出用データ12
が再生用データ21として入力される。送出用のフォー
マットに基づいた再生用データ21の中から映像デー
タ、オーディオデータおよびメタデータが読み出され
て、映像データはビデオプレーヤ22に供給され、オー
ディオデータは図示しないオーディオプレーヤに設けら
れたチャンネルマッピング部24に供給され、図示しな
いオーディオプレーヤに設けられたメタデータはメタデ
ータ部25に供給される。
FIG. 2 is a block diagram showing the configuration of the sound image localization signal processing device of the reproduction system of the free-viewpoint video / audio production / reproduction system. 2, in the reproducing system, the transmission data 12 transferred from the above-described production system shown in FIG. 1 via the Internet 13 or the recording medium 14, for example.
Is input as the reproduction data 21. Video data, audio data, and metadata are read from the reproduction data 21 based on the transmission format, the video data is supplied to the video player 22, and the audio data is a channel provided in an audio player (not shown). The metadata supplied to the mapping unit 24 and provided in the audio player (not shown) is supplied to the metadata unit 25.

【0029】ビデオプレーヤ22では、視点選択部23
における視点を選ぶ操作キーの操作により自由視点映像
の角度情報が選択される。ビデオプレーヤ22で再生さ
れた自由視点映像は視点選択部23により選択された角
度情報に基づいた映像が再生される。視点選択部23に
おける視点を選ぶ操作キーは、例えば操作キーの回転に
より角度情報の選択の動作をして操作キーの押圧により
決定の動作をすることができるものである。
In the video player 22, the viewpoint selecting section 23
The angle information of the free viewpoint image is selected by operating the operation key for selecting the viewpoint in. The free viewpoint video reproduced by the video player 22 is reproduced based on the angle information selected by the viewpoint selection unit 23. The operation key for selecting a viewpoint in the viewpoint selection unit 23 is, for example, an operation for selecting angle information by rotating the operation key and a determination operation for pressing the operation key.

【0030】チャンネルマッピング部24には視点選択
部23から自由視点映像の角度情報およびメタデータ部
25から制御情報としてのメタデータが供給されてい
る。そこで、チャンネルマッピング部24は、視点選択
部23から自由視点映像の角度情報に対応した制御情報
としてのメタデータに基づいて制作系から転送されたオ
ーディオデータのチャンネルに音像定位のための信号処
理をリアルタイムで施す。チャンネルマッピング部24
は、例えば4〜10チャンネルの合成された音源のオー
ディオデータを入力して、2チャンネル乃至5.1チャ
ンネル、6チャンネル、7チャンネルなどのマルチオー
ディオデータを出力する。なお、チャンネルマッピング
部24の詳細については後述する。
The channel mapping unit 24 is supplied with angle information of a free viewpoint video from the viewpoint selecting unit 23 and metadata as control information from the metadata unit 25. Therefore, the channel mapping unit 24 performs signal processing for sound image localization on the channel of the audio data transferred from the production system based on the metadata as the control information corresponding to the angle information of the free viewpoint video from the viewpoint selection unit 23. Apply in real time. Channel mapping unit 24
Inputs, for example, audio data of synthesized sound sources of 4 to 10 channels and outputs multi-audio data of 2 to 5.1 channels, 6 channels, 7 channels, and the like. The details of the channel mapping unit 24 will be described later.

【0031】チャンネルマッピング部24で自由視点映
像の角度情報に対応した制御情報としてのメタデータに
基づいてオーディオデータのチャンネルに音像定位のた
めの信号処理を施された補正オーディオデータはオーデ
ィオモニタ27に出力される。オーディオモニタ27は
補正オーディオデータを再生して自由視点映像の角度情
報に対応した再生音像を出力する。なお、オーディオモ
ニタ27は、左(L)、右(R)のステレオ音響を再生
するスピーカ、左(L)、右(R)のステレオ音響を再
生するヘッドホン、左(L)、右(R)、サラウンド左
(SL)、サラウンド右(SR)の4チャンネルのステ
レオ音響を再生するスピーカまたは左(L)、右
(R)、中央(C)、サラウンド左(SL)、サラウン
ド右(SR)、サブウーハ(SW)の5.1チャンネル
のステレオ音響を再生するスピーカを用いてもよい。
The corrected audio data, which has been subjected to the signal processing for sound image localization on the channel of the audio data based on the metadata as the control information corresponding to the angle information of the free viewpoint video in the channel mapping unit 24, is displayed on the audio monitor 27. Is output. The audio monitor 27 reproduces the corrected audio data and outputs a reproduced sound image corresponding to the angle information of the free viewpoint video. The audio monitor 27 includes a speaker for reproducing left (L) and right (R) stereo sound, headphones for reproducing left (L) and right (R) stereo sound, and left (L) and right (R). , Surround left (SL), surround right (SR) 4-channel speaker or left (L), right (R), center (C), surround left (SL), surround right (SR), A speaker that reproduces 5.1-channel stereo sound of a subwoofer (SW) may be used.

【0032】これにより、再生系において、オーディオ
データの任意のチャンネルに音像定位のための信号処理
を施して補正オーディオデータを出力するための音像定
位処理に用いた制御情報を用いて、自由視点映像の映像
データに対するオーディオデータをリアルタイムで音像
定位処理することにより、自由視点映像の角度を変化さ
せて映像を移動させて再生した場合に移動する映像の方
向にオーディオ信号の再生音像を定位させることができ
る。
As a result, in the reproduction system, the control information used for the sound image localization processing for performing the signal processing for the sound image localization on an arbitrary channel of the audio data and outputting the corrected audio data is used for the free viewpoint video. By performing sound image localization processing on the audio data for the video data of, the playback sound image of the audio signal can be localized in the direction of the moving image when the image is moved and reproduced by changing the angle of the free-viewpoint image. it can.

【0033】以下に、チャンネルマッピング部の詳細に
ついて説明する。図3は、チャンネルマッピング部の構
成を示すブロック図である。図3において、チャンネル
マッピング部は、音像定位信号処理を施すオーディオ信
号のチャンネルの指定に応じた動作モードを設定する動
作モード設定部31と、視点選択部5により選択された
ユーザーの視点選択情報に対応するフレーム画像を設定
するトラック設定部32と、選択されたフレーム画像に
対応するオーディオ信号に信号処理を施すパラメータを
設定するパラメータ設定部33とを有して構成される。
The details of the channel mapping section will be described below. FIG. 3 is a block diagram showing the configuration of the channel mapping unit. In FIG. 3, the channel mapping unit uses an operation mode setting unit 31 that sets an operation mode according to the designation of a channel of an audio signal on which sound image localization signal processing is performed, and the viewpoint selection information of the user selected by the viewpoint selection unit 5. A track setting unit 32 that sets a corresponding frame image, and a parameter setting unit 33 that sets a parameter for performing signal processing on an audio signal corresponding to the selected frame image are configured.

【0034】動作モード設定部31は、複数のチャンネ
ルのオーディオ信号のうちすべてのチャンネルに音像定
位信号処理を施す第1の動作モードの固定チャンネルモ
ード31−1と、複数のチャンネルのオーディオ信号の
うち特定のチャンネルのみを指定して音像定位信号処理
を施して他のチャンネルは信号処理を施さない第2の動
作モードの非固定チャンネルモード31−2とを有して
構成される。
The operation mode setting section 31 includes a fixed channel mode 31-1 as a first operation mode for performing sound image localization signal processing on all channels of audio signals of a plurality of channels and an audio signal of a plurality of channels. A non-fixed channel mode 31-2, which is a second operation mode in which only specific channels are designated and sound image localization signal processing is performed and other channels are not subjected to signal processing, is configured.

【0035】トラック設定部32は、視点選択部5によ
り選択された再生音像の角度情報となるユーザーの視点
選択情報に対応するように、映像信号のフレーム処理を
行うフレーム処理部32−1と、水平角度処理を行う水
平角度処理部32−2と、ズーム処理を行うズーム処理
部32−3と、垂直角度処理を行う垂直角度処理部32
−3とを有して構成される。トラック設定部32は、上
述した構成により動作モード設定部31からの動作モー
ドAMおよび視点選択部5からの視点選択情報Vに応じ
てオーディオ信号に信号処理を施すための操作信号Cを
生成する。なお、これらの構成は、すべて用いてもよい
し、これに限らず、処理に応じて何れかを選択して用い
てもよい。
The track setting unit 32 includes a frame processing unit 32-1 for performing frame processing of the video signal so as to correspond to the user's viewpoint selection information which is the angle information of the reproduced sound image selected by the viewpoint selection unit 5. A horizontal angle processing unit 32-2 that performs horizontal angle processing, a zoom processing unit 32-3 that performs zoom processing, and a vertical angle processing unit 32 that performs vertical angle processing.
-3 and. The track setting unit 32 generates the operation signal C for performing signal processing on the audio signal according to the operation mode AM from the operation mode setting unit 31 and the viewpoint selection information V from the viewpoint selecting unit 5 with the above-described configuration. Note that all of these configurations may be used, or the present invention is not limited to this, and any one of them may be selected and used according to the processing.

【0036】パラメータ設定部33は、トラック設定部
32からの操作信号Cに基づいて、オーディオ信号に所
定のパラメータにより位相等化のイコライジング処理を
行うイコライジング処理部33−1と、残響のリバーブ
処理を行うリバーブ処理部33−2と、音量処理を行う
音量処理部33−3と、音像の移動のパン処理を行うパ
ン処理部33−4と、HRTF(頭部伝達関数:Hea
d RelatedTransfer Form)によ
りユーザーの耳に到達する伝達関数を変更することによ
り音響特性処理を施すHRTF処理部33−5とを有し
て構成される。
The parameter setting section 33 performs an equalizing processing section 33-1 for performing equalizing processing of phase equalization on the audio signal with a predetermined parameter, and a reverberation reverb processing based on the operation signal C from the track setting section 32. The reverb processing unit 33-2 for performing, the volume processing unit 33-3 for performing the volume processing, the pan processing unit 33-4 for performing the pan processing of the movement of the sound image, and the HRTF (head related transfer function: Hea).
and a HRTF processing unit 33-5 that performs acoustic characteristic processing by changing the transfer function reaching the user's ear by using the dRelated Transfer Form.

【0037】なお、これらの構成は、すべて用いてもよ
いし、これに限らず、処理に応じて何れかを選択して用
いてもよい。ここで、パラメータ設定部33に供給され
る操作信号Cに応じて、パラメータ設定部33の各処理
部に対する制御情報となるメタデータMDが生成され
る。メタデータMDの生成については後述する。
All of these configurations may be used, or the present invention is not limited to this, and any one may be selected and used according to the processing. Here, in accordance with the operation signal C supplied to the parameter setting unit 33, the metadata MD that is the control information for each processing unit of the parameter setting unit 33 is generated. The generation of the metadata MD will be described later.

【0038】ここで、HRTF処理部について説明す
る。例えば、リスナの周囲に置かれた5個の音源からリ
スナの両耳に至る5系統のステレオインパルス応答を使
用して、5組のステレオ音源データを得ることができ
る。例えば、リスナの左前方の音源からリスナの両耳ま
でのインパルス応答による伝達関数を入力信号に対して
畳み込む第1の音源と、リスナの左後方の音源からリス
ナの両耳までのインパルス応答による伝達関数を入力信
号に対して畳み込む第2の音源に対して信号処理を施す
場合を説明する。
Here, the HRTF processing section will be described. For example, five sets of stereo sound source data can be obtained by using five stereo impulse responses from five sound sources placed around the listener to both ears of the listener. For example, the first sound source that convolves the transfer function of the impulse response from the sound source in the front left of the listener to both ears of the listener with the input signal, and the transfer of the impulse response from the sound source in the rear left of the listener to both ears of the listener A case where signal processing is performed on a second sound source that convolves a function with an input signal will be described.

【0039】クリエイターが視点選択部5により、音像
位置を第1の音源から第2の音源に移動する移動情報を
入力したとき、チャンネルマッピング部6のトラック設
定部32はこの移動情報を角度パラメータあるいは位置
パラメータに変換し、変換されたパラメータに応じた操
作信号Cをパラメータ設定部33に供給する。
When the creator inputs movement information for moving the sound image position from the first sound source to the second sound source by the viewpoint selection unit 5, the track setting unit 32 of the channel mapping unit 6 uses this movement information as an angle parameter or It is converted into a position parameter, and the operation signal C according to the converted parameter is supplied to the parameter setting unit 33.

【0040】この操作信号Cにより、パラメータ設定部
33は、第1の音源と第2の音源から距離または角度の
比で各処理部のレベル値をクロスフェードするように処
理する。
With this operation signal C, the parameter setting unit 33 processes the level values of the respective processing units so as to crossfade with the ratio of the distance or the angle from the first sound source and the second sound source.

【0041】次に、HRTF処理部の詳細な構成および
動作について説明する。ミキサ3から出力されるオーデ
ィオ信号のディジタル信号列のうち左のディジタル信号
Lは、一対の左用畳み込み積分器およびメモリのうちの
畳み込み積分器に供給される。ここでは、畳み込み積分
器に付属するメモリには、リスナの現在頭部が向いてい
る方向の、頭部の規準方向に対する、仮想音源位置から
両耳に至る一定のサンプリング周波数および量子化ビッ
ト数で表されるデジタル記録された一組のインパルスレ
スポンスが呼び出されている。ディジタル信号列は、畳
み込み積分器において、このメモリより読み出されたイ
ンパルスレスポンスとリアルタイムで畳み込み積分され
る。また、一対の右クロストーク用畳み込み積分器およ
びメモリは右のディジタル信号Rのクロストーク成分を
供給する。
Next, the detailed structure and operation of the HRTF processor will be described. The left digital signal L of the digital signal string of the audio signal output from the mixer 3 is supplied to the pair of left convolutional integrators and the convolutional integrator of the memory. Here, in the memory attached to the convolutional integrator, the constant sampling frequency and the number of quantization bits from the virtual sound source position to both ears with respect to the reference direction of the head of the listener's current head are stored. The set of digitally recorded impulse responses represented is being recalled. The digital signal sequence is convolutionally integrated in real time with the impulse response read from this memory in the convolutional integrator. A pair of right crosstalk convolutional integrators and a memory supply the crosstalk component of the right digital signal R.

【0042】上記と同様に右のディジタル信号Rは、一
対の右用畳み込み積分器およびメモリのうちの畳み込み
積分器に供給される。ここでは、畳み込み積分器に付属
するメモリには、リスナの現在頭部が向いている方向
の、頭部の規準方向に対する、仮想音源位置から両耳に
至る一定のサンプリング周波数および量子化ビット数で
表されるデジタル記録された一組のインパルスレスポン
スが記憶されている。ディジタル信号列は、畳み込み積
分器において、このメモリより読み出されたインパルス
レスポンスとリアルタイムで畳み込み積分される。ま
た、一対の左クロストーク用畳み込み積分器およびメモ
リは左のディジタル信号Lのクロストーク成分を供給す
る。
Similarly to the above, the right digital signal R is supplied to the convolutional integrator of the pair of right convolutional integrators and the memory. Here, in the memory attached to the convolutional integrator, the constant sampling frequency and the number of quantization bits from the virtual sound source position to both ears with respect to the reference direction of the head of the listener's current head are stored. A set of digitally recorded impulse responses represented is stored. The digital signal sequence is convolutionally integrated in real time with the impulse response read from this memory in the convolutional integrator. A pair of left crosstalk convolutional integrators and a memory supply the crosstalk component of the left digital signal L.

【0043】また、一対の右クロストーク用畳み込み積
分器およびメモリ、一対の左クロストーク用畳み込み積
分器およびメモリにおいても上述と同様にインパルスレ
スポンスと畳み込み積分が行なわれる。このように、一
対の左用、一対の右クロストーク用、一対の右用、一対
の左クロストーク用畳み込み積分器およびメモリにおい
てインパルスレスポンスと畳み込み積分が行なわれたデ
ィジタル信号列は、加算器にそれぞれ供給される。加算
器で加算された2チャンネルのディジタル信号は適応処
理フィルタによりリスナの個人差による耳の形状の相
違、ノイズ、用いる音源固有の特性等を除くように補正
される。
Also, in the pair of right crosstalk convolutional integrators and memories and the pair of left crosstalk convolutional integrators and memories, impulse response and convolutional integration are performed in the same manner as described above. In this way, the pair of left, the pair of right crosstalk, the pair of right, and the pair of left crosstalk convolutional integrators and the digital signal sequence on which the convolution integration is performed in the memory are respectively added to the adder. Supplied. The two-channel digital signals added by the adder are corrected by an adaptive processing filter so as to eliminate differences in ear shape due to individual differences of listeners, noise, characteristics peculiar to the sound source used, and the like.

【0044】上例では、メモリにHRTFとしてのイン
パルスレスポンスが記憶されている例を示したが、畳み
込み積分器に付属するメモリに、規準方向に対して固定
された頭部の、仮想音源位置から両耳に至る一対のディ
ジタル記憶されたインパルスレスポンスを記憶させる。
ディジタル信号列はこのインパルスレスポンスとリアル
タイムで畳み込み積分される。他のメモリには、頭部の
規準方向に対する仮想音源位置から両耳に至る両耳間の
時間差、レベル差を表す制御信号を記憶させる。
In the above example, the example in which the impulse response as the HRTF is stored in the memory is shown, but from the virtual sound source position of the head fixed with respect to the reference direction, in the memory attached to the convolutional integrator. Store a pair of digitally stored impulse responses to both ears.
The digital signal sequence is convolved with this impulse response in real time. The other memory stores a control signal indicating a time difference and a level difference between both ears from the virtual sound source position with respect to the reference direction of the head to both ears.

【0045】そして、この畳み込み積分された各チャン
ネルのディジタル信号の各々に対して、更に検出された
規準方向に対する頭部運動を、一定単位角度毎あるいは
予め定められた角度毎に、方向を含む大きさを表すディ
ジタルアドレス信号に変換し、このアドレス信号により
予め他のメモリに記憶された制御信号を読みだし、制御
装置において、リアルタイムで補正し、変更するように
して、その結果を加算器に供給するようにしても良い。
Then, with respect to each of the digital signals of the respective channels subjected to the convolutional integration, the detected head movement with respect to the reference direction is further magnified to include a direction at a constant unit angle or at a predetermined angle. To a digital address signal indicating the level, the control signal stored in another memory in advance is read by this address signal, the control device corrects and changes in real time, and the result is supplied to the adder. It may be done.

【0046】また、このインパルスレスポンスとリアル
タイムで畳み込み積分されたディジタル信号列を加算器
に供給し、加算器からの2チャンネルのディジタル信号
に対して、更に検出された規準方向に対する頭部運動
を、一定単位角度毎あるいは予め定められた角度毎に、
方向を含む大きさを表すディジタルアドレス信号に変換
し、このアドレス信号により予め他のメモリに記憶され
た制御信号を読みだし、制御装置において、リアルタイ
ムで補正し、変更するようにしても良い。
The impulse response and the digital signal sequence convolutively integrated in real time are supplied to the adder, and the detected head movement in the reference direction is further detected for the 2-channel digital signal from the adder. Every fixed unit angle or every predetermined angle,
Alternatively, the control signal may be converted into a digital address signal representing a magnitude including a direction, the control signal stored in advance in another memory may be read by this address signal, and the control device may correct and change in real time.

【0047】ここで、制御装置としては、可変遅延装置
と可変レベル制御器、あるいは多バンドに分割されたグ
ラフィックイコライザ等の周波数帯域毎のレベル制御器
との組み合わせで構成することができる。また、他のメ
モリに記憶されている情報は、リスナの頭部が向いてい
る方向の、頭部の規準方向に対する、仮想音源位置から
両耳に至る両耳間の時間差及びレベル差等を表すインパ
ルスレスポンスでも良い。この場合には、上述の制御装
置は、IIR、あるいはFIRの可変ディジタルフィル
ターで構成すれば良い。従って、制御装置を用いてHR
TFとしてのインパルスレスポンスの値を変化させるよ
うにすればよい。
Here, the control device can be constituted by a combination of a variable delay device and a variable level controller, or a level controller for each frequency band such as a graphic equalizer divided into multiple bands. Further, the information stored in the other memory represents a time difference and a level difference between the two ears from the virtual sound source position to both ears with respect to the reference direction of the head of the listener's head. Impulse response is also acceptable. In this case, the above-mentioned control device may be composed of an IIR or FIR variable digital filter. Therefore, using the controller, the HR
The value of impulse response as TF may be changed.

【0048】このようにして制御装置により、空間情報
が与えられ、適応処理フィルタによりリスナの個人差に
よる耳の形状の相違、ノイズ、用いる音源及びヘッドホ
ンの固有の特性を補正され、かつ頭部の動きに対して変
化の与えられる。
In this way, the controller gives spatial information, the adaptive processing filter corrects the difference in ear shape due to the individual difference of the listener, noise, the sound source to be used, and the peculiar characteristics of the headphones, and Change is given to movement.

【0049】このようにして視点選択部5においてリス
ナの規準方向に対する頭部運動を一定角度あるいは予め
定められた角度毎に検出し、アドレス制御回路において
方向を含む大きさを表すディジタルアドレス信号に変換
する。
In this way, the viewpoint selecting section 5 detects the head movement of the listener with respect to the reference direction at a constant angle or at each predetermined angle, and converts it into a digital address signal representing a magnitude including the direction in the address control circuit. To do.

【0050】このアドレス信号により予めメモリに記録
されている頭部の基準方向に対する仮想音源位置から両
耳に至るディジタル記録されたインパルスレスポンス
が、また他のメモリからは両耳間の時間差および両耳間
のレベル差を表す制御信号あるいはインパレスレスポン
スを読み出す。畳み込み積分器または制御装置におい
て、このインパレスレスポンスまたは制御信号と音響信
号とをリアルタイムで補正し変更する。
With this address signal, the digitally recorded impulse response from the virtual sound source position with respect to the reference direction of the head recorded in the memory in advance to both ears, and the time difference between both ears and both ears are recorded from other memories. Read out a control signal or an impalas response indicating the level difference between the two. The convolutional integrator or control device corrects and changes the impalased response or control signal and the acoustic signal in real time.

【0051】この畳み込み積分器およびメモリまたは制
御装置および加算器により、音場としての空間情報を持
った両耳への2チャンネルのディジタル信号に変換さ
れ、適応処理フィルタによりリスナの個人差による耳の
形状の相違、ノイズ、用いる音源の特性等が補正され、
電力増幅器で電力増幅された後、スピーカに供給され
る。これにより、あたかもその仮想音源位置に置かれた
スピーカから再生音が聞こえるような再生効果を実現す
ることができるものである。
The convolutional integrator and the memory or the control device and the adder convert the two-channel digital signals for both ears having the spatial information as the sound field, and the adaptive processing filter changes the ears depending on the individual difference of the listener. Differences in shape, noise, characteristics of the sound source used, etc. are corrected,
The power is amplified by the power amplifier and then supplied to the speaker. As a result, it is possible to realize a reproducing effect as if the reproducing sound is heard from the speaker placed at the virtual sound source position.

【0052】そして、この場合、リスナが自由視点ビュ
ーア4を用いて自由視点映像を動かすと、視点選択部5
により、その向きに従ったディジタル信号、またはアナ
ログ信号が得られ、これによりその信号は自由視点映像
に対するリスナの視点の向きに従った値となる。この値
がアドレス制御回路を通じてメモリにアドレス信号とし
て供給される。
In this case, when the listener moves the free viewpoint video using the free viewpoint viewer 4, the viewpoint selecting unit 5
By this, a digital signal or an analog signal according to the direction is obtained, and the signal has a value according to the direction of the viewpoint of the listener with respect to the free viewpoint video. This value is supplied to the memory as an address signal through the address control circuit.

【0053】メモリからは、テーブルに対応したデータ
のうち、自由視点映像に対するリスナの視点の向きに対
応した規準方向に対する仮想音源位置から両耳に至るデ
ィジタル記録されたインパレスレスポンスまたは両耳間
の時間差及び両耳間のレベル差を表す制御信号が取りだ
され、このデータが畳み込み積分器または制御装置に供
給される。
From the memory, among the data corresponding to the table, the digitally recorded impalares response from the virtual sound source position to both ears or the time difference between the ears with respect to the reference direction corresponding to the direction of the viewpoint of the listener with respect to the free viewpoint image. And a control signal representing the level difference between the two ears is taken out and this data is fed to a convolutional integrator or controller.

【0054】視点選択部5からの角度情報に基づいてメ
モリから自由視点映像に対するリスナの視点の向きに対
応した頭部の規準方向に対する仮想音源位置から両耳に
至るディジタル記録されたインパレスレスポンスまたは
両耳間の時間差及び両耳間のレベル差を表す制御信号が
取りだされ、このデータが畳み込み積分器または制御装
置に供給される。
Based on the angle information from the viewpoint selection unit 5, a digitally recorded impalares response from the virtual sound source position to both ears corresponding to the direction of the listener's viewpoint with respect to the free viewpoint video from the memory to both ears or both. A control signal representing the time difference between the ears and the level difference between the ears is taken out, and this data is supplied to a convolution integrator or a controller.

【0055】このようにして、スピーカに供給されるオ
ーディオ信号L,Rは、自由視点映像に対するリスナの
視点の向きに対応した規準方向に対する仮想音源位置か
ら両耳に至るディジタル記録されたインパレスレスポン
スまたは両耳間の時間差及び両耳間のレベル差を表す制
御信号との補正が行なわれれるので、自由視点映像に対
するリスナの視点の移動に対しても、移動した方向に複
数個のスピーカが仮想音源位置に置かれてこのスピーカ
で再生しているような音場感を得ることが出来る。
In this way, the audio signals L and R supplied to the speaker are digitally recorded Impalares response from the virtual sound source position to both ears to the reference direction corresponding to the direction of the listener's viewpoint with respect to the free viewpoint video or Since the correction is performed with the control signals that represent the time difference between both ears and the level difference between both ears, even if the listener's viewpoint moves with respect to the free viewpoint video, a plurality of speakers generate virtual sound sources in the moving direction. It is possible to obtain a sound field feeling that the speaker is placed at a position and reproduced by this speaker.

【0056】更にメモリのテーブルにディジタル記録さ
れた両耳間の時間差及び両耳間のレベル差を表す制御信
号が取りだされ、このデータが畳み込み積分器およびメ
モリにより予め畳み込まれたディジタル信号に対して、
制御装置で補正するように、純電子的に供給されるの
で、リスナの頭の向きに対するオーディオ信号の特性の
変化に遅れを生じることがなく、不自然さを生じること
はない。
Further, a control signal representing the time difference between both ears and the level difference between both ears, which is digitally recorded in the table of the memory, is taken out, and this data is converted into a digital signal pre-convoluted by the convolution integrator and the memory. for,
Since it is supplied purely electronically so as to be corrected by the control device, there is no delay in changing the characteristics of the audio signal with respect to the orientation of the listener's head, and no unnaturalness occurs.

【0057】さらに、HRTFのデータは、次にように
して得ることができる。すなわち自由視点映像に対して
スピーカでオーディオ信号を再生したときに好ましい再
生音場となるよう、適当な室内に、必要なチャンネル数
のインパルス音源とダミーヘッドマイクロホンを定めら
れた位置に配置する。この場合のインパルスを測定する
音源としてはスピーカを用いてもよい。
Further, the HRTF data can be obtained as follows. That is, an impulse sound source having a required number of channels and a dummy head microphone are arranged at predetermined positions in an appropriate room so that a preferable reproduced sound field is obtained when an audio signal is reproduced by a speaker for a free viewpoint image. A speaker may be used as a sound source for measuring impulses in this case.

【0058】またダミーヘッドの各耳の収音位置に関し
ては、外耳道入り口から鼓膜位置までの間の何れの位置
でもよいが、用いる音源の固有の特性を打ち消すための
補正特性を求める位置と等しいことが要求される。
The sound collecting position of each ear of the dummy head may be any position from the entrance of the external auditory meatus to the eardrum position, but it is equal to the position for obtaining the correction characteristic for canceling the characteristic peculiar to the sound source used. Is required.

【0059】また制御信号の測定は、各チャンネルのス
ピーカ位置よりインパルス音を放射し、一定角度毎にダ
ミーヘッドの各耳に設けられたマイクロホンで収音する
ことにより得られる。従ってある角度においては、1つ
のチャンネル毎に1組のインパルスレスポンスが得られ
ることになるから、仮に5チャンネルの信号源の場合
は、1つの角度毎に5組、すなわち10種の制御信号が
得られることになる。従って、これらのレスポンスによ
り、左右両耳間の時間差及びレベル差を表す制御信号が
得られる。
The control signal can be measured by radiating an impulse sound from the speaker position of each channel and collecting the sound at a fixed angle by a microphone provided in each ear of the dummy head. Therefore, at a certain angle, one set of impulse responses can be obtained for each channel. Therefore, in the case of a signal source of 5 channels, 5 sets, that is, 10 kinds of control signals are obtained for each angle. Will be done. Therefore, the control signals representing the time difference and the level difference between the left and right ears can be obtained from these responses.

【0060】更に、上述においては、リスナの頭の水平
面内における向きについてのみ考慮したが垂直面内およ
び、これらと直交する面内における向きについても同様
に処理することも出来る。
Further, in the above description, only the orientation of the listener's head in the horizontal plane is considered, but the orientations in the vertical plane and in the plane orthogonal to these can also be processed in the same manner.

【0061】またメモリにおけるテーブルは1組とし、
アドレス制御回路においてそのテーブルに対するアドレ
スの指定を変更して複数組のテーブルがある場合と同様
に制御データを得ることも出来る。
There is one table in the memory,
In the address control circuit, the designation of the address for the table can be changed to obtain control data as in the case where there are a plurality of sets of tables.

【0062】更に、テーブルのデータは、一般的な自由
視点映像に対するリスナの視点の向きの範囲に限っても
よく、また、角度θは、例えば、θ=0°付近では0.
5°おきに設定しておき、|θ≧45°|では3°おき
に設定するというように、向きによって角度θの間隔を
異ならせてもよい。上述したように、リスナが自由視点
映像に対するリスナの視点の回転の角度を識別できる角
度毎でよい。更に、ヘッドホンの代わりに、リスナ両耳
の近くに配置したスピーカでもよい。
Further, the data in the table may be limited to the range of the direction of the viewpoint of the listener with respect to a general free viewpoint video, and the angle θ is, for example, 0.
The interval of the angle θ may be different depending on the direction, such as setting every 5 ° and setting every 3 ° when | θ ≧ 45 ° |. As described above, the angle may be such that the listener can identify the angle of rotation of the viewpoint of the listener with respect to the free viewpoint video. Further, instead of the headphones, a speaker placed near both ears of the listener may be used.

【0063】図4は、GUI(Graphical U
ser Interface)アプリケーション画面を
示す図である。図4は、図1に示した視点選択部5によ
る自由視点ビューア4の表示状態および図3に示したチ
ャンネルマッピング部の設定の状態を示すものである。
図4において、GUIアプリケーション画面41上で
は、動作モード設定部42が設けられていて、サウンド
クリエータが動作モード設定部42のアイコンをクリッ
クすることにより、図3に示したように、複数のチャン
ネルのオーディオ信号のうちすべてのチャンネルに音像
定位信号処理を施す第1の動作モードの固定チャンネル
モード31−1と、複数のチャンネルのオーディオ信号
のうち特定のチャンネルのみを指定して音像定位信号処
理を施して他のチャンネルは信号処理を施さない第2の
動作モードの非固定チャンネルモード31−2とを選択
して設定することができる。
FIG. 4 shows a GUI (Graphical U).
It is a figure which shows a ser Interface application screen. FIG. 4 shows a display state of the free viewpoint viewer 4 by the viewpoint selecting unit 5 shown in FIG. 1 and a setting state of the channel mapping unit shown in FIG.
In FIG. 4, an operation mode setting unit 42 is provided on the GUI application screen 41, and when the sound creator clicks the icon of the operation mode setting unit 42, as shown in FIG. Fixed channel mode 31-1, which is the first operation mode in which sound image localization signal processing is performed on all channels of an audio signal, and sound image localization signal processing is performed by designating only a specific channel among audio signals of a plurality of channels. For other channels, the non-fixed channel mode 31-2 of the second operation mode in which the signal processing is not performed can be selected and set.

【0064】また、GUIアプリケーション画面41上
では、トラック設定部43が設けられていて、サウンド
クリエータがトラック設定部43のアイコンをクリック
することにより、視点選択部5により選択された再生音
像の角度情報となるユーザーの視点選択情報に対応する
ように、映像信号の時間情報に応じたフレームを移動し
てフレーム処理を行うフレーム処理部43−1と、水平
角度処理を行う水平角度処理部43−2と、ズーム処理
を行うズーム処理部43−3と、垂直角度処理を行う垂
直角度処理部43−3とを所定のフレーム画像の設定状
態に設定することができる。なお、ここでは、トラック
設定部43が図1に示した視点選択部5に対応し、この
設定に応じてこのGUIアプリケーション画面41の下
層または上層にウインドウ表示される自由視点ビューア
4の表示状態が自由視点映像の360度にわたって変化
する。
On the GUI application screen 41, a track setting section 43 is provided, and when the sound creator clicks the icon of the track setting section 43, the angle information of the reproduced sound image selected by the viewpoint selecting section 5 is displayed. A frame processing unit 43-1 that performs frame processing by moving a frame according to time information of a video signal so as to correspond to user's viewpoint selection information and a horizontal angle processing unit 43-2 that performs horizontal angle processing. The zoom processing unit 43-3 that performs zoom processing and the vertical angle processing unit 43-3 that performs vertical angle processing can be set to a predetermined frame image setting state. Note that, here, the track setting unit 43 corresponds to the viewpoint selecting unit 5 shown in FIG. 1, and the display state of the free viewpoint viewer 4 displayed in a window below or above this GUI application screen 41 according to this setting is It changes over 360 degrees of free-viewpoint video.

【0065】また、GUIアプリケーション画面41上
では、パラメータ設定部44が設けられていて、サウン
ドクリエータがパラメータ設定部44のアイコンをクリ
ックすることにより、図3に示したトラック設定部32
からの操作信号Cに基づいて、オーディオ信号に所定の
パラメータによりイコライジング処理を行うイコライジ
ング処理部44−1と、リバーブ処理を行うリバーブ処
理部44−2と、音量処理を行う音量処理部44−3
と、パン処理を行うパン処理部44−4と、HRTFに
よりユーザーの耳に到達する伝達関数を変更することに
より音響特性処理を施すHRTF処理部44−5とをト
ラック設定部43で設定されたフレーム画像に対するオ
ーディオ信号に対した信号処理状態に設定することがで
きる。このパラメータ設定部44による設定に応じて補
正オーディオデータを得ることができる。
A parameter setting section 44 is provided on the GUI application screen 41, and when the sound creator clicks the icon of the parameter setting section 44, the track setting section 32 shown in FIG.
Based on the operation signal C from the equalizing processing unit 44-1 for performing equalizing processing on the audio signal with a predetermined parameter, a reverb processing unit 44-2 for performing reverb processing, and a volume processing unit 44-3 for performing volume processing.
The track setting unit 43 sets the pan processing unit 44-4 for performing the pan processing, and the HRTF processing unit 44-5 for performing the acoustic characteristic processing by changing the transfer function reaching the user's ear by the HRTF. It is possible to set a signal processing state for an audio signal for a frame image. Corrected audio data can be obtained according to the setting by the parameter setting unit 44.

【0066】以下に、メタデータの生成について詳細に
説明する。図5は、操作メタデータの生成を示す図であ
る。図5の構成は信号処理を施すオーディオ信号の各チ
ャンネル毎に設けられる。図5において、図3に示した
トラック設定部32からの操作情報Cがパラメータ設定
部33のイコライザ処理部33−1、リバーブ処理部3
3−2、音量処理部33−3、パン処理部33−4、H
RTF処理部33−5に供給される。各処理部にはオー
ディオデータAIが連続して入力される。各処理部で操
作信号Cに基づいて信号処理を施されて補正オーディオ
データAOが出力される。
The generation of metadata will be described in detail below. FIG. 5 is a diagram showing generation of operation metadata. The configuration of FIG. 5 is provided for each channel of the audio signal to be subjected to signal processing. In FIG. 5, the operation information C from the track setting unit 32 shown in FIG. 3 corresponds to the equalizer processing unit 33-1 and the reverb processing unit 3 of the parameter setting unit 33.
3-2, volume processing unit 33-3, pan processing unit 33-4, H
It is supplied to the RTF processing unit 33-5. Audio data AI is continuously input to each processing unit. Each processing unit performs signal processing based on the operation signal C and outputs corrected audio data AO.

【0067】この際のイコライザ処理部33−1に対す
る例えば操作情報Cの角度情報に応じた高周波数帯域ま
たは低周波数帯域におけるイコライザ処理の低下のため
の操作メタデータ、リバーブ処理部33−2に対する例
えば操作情報Cの角度情報に応じた高周波数帯域または
低周波数帯域におけるリバーブ処理の低下のための操作
メタデータ、パン処理部33−4に対する例えば操作情
報Cの角度情報に応じた音の位置の移動のための操作メ
タデータ、HRTF処理部33−5に対する例えば操作
情報Cの角度情報に応じた周波数伝達特性の向上または
低下のための操作メタデータを各々取り出して、各角度
情報に対応させて操作メタデータ部MCに格納する。
At this time, for example, operation metadata for the equalizer processing unit 33-1 for lowering the equalizer processing in the high frequency band or the low frequency band according to the angle information of the operation information C, and for the reverb processing unit 33-2, for example, Operation metadata for reducing reverb processing in a high frequency band or a low frequency band according to the angle information of the operation information C, for example, movement of a sound position according to the angle information of the operation information C with respect to the pan processing unit 33-4. And the operation metadata for improving or reducing the frequency transfer characteristic according to the angle information of the operation information C for the HRTF processing unit 33-5, respectively, and operate in association with each angle information. It is stored in the metadata section MC.

【0068】これにより、ユーザーの視野の角度情報に
応じたチャンネルマッピング部におけるオーディオ信号
に対する信号処理機能を変化させることができる操作メ
タデータを生成することができる。
As a result, it is possible to generate the operation metadata which can change the signal processing function for the audio signal in the channel mapping section according to the angle information of the visual field of the user.

【0069】なお、これらの各処理部の構成は、すべて
用いてもよいし、これに限らず、処理に応じて何れかを
選択して用いてもよいが、この場合には、選択された処
理部の操作メタデータを各角度情報に対応させて操作メ
タデータ部MCに格納する。
The configuration of each of these processing units may be all, or not limited to this, and any one may be selected and used according to the process, but in this case, it is selected. The operation metadata of the processing unit is stored in the operation metadata unit MC in association with each angle information.

【0070】図6は、時間メタデータの生成を示す図で
ある。図6の構成は信号処理を施すオーディオ信号の各
チャンネル毎に設けられる。図6において、図3に示し
たトラック設定部32からの操作情報Cがパラメータ設
定部33のここでは図示しないイコライザ処理部33−
1、リバーブ処理部33−2、音量処理部33−3を経
た後に、図6においてパン処理部33−4、HRTF処
理部33−5に供給される。各処理部にはオーディオデ
ータAIが連続して入力される。各処理部で操作信号C
に基づいて信号処理を施されて補正オーディオデータA
Oが出力される。
FIG. 6 is a diagram showing the generation of time metadata. The configuration shown in FIG. 6 is provided for each channel of an audio signal to be subjected to signal processing. 6, the operation information C from the track setting unit 32 shown in FIG. 3 corresponds to the equalizer processing unit 33-of the parameter setting unit 33, which is not shown here.
1, the reverb processing unit 33-2, and the volume processing unit 33-3, and then is supplied to the pan processing unit 33-4 and the HRTF processing unit 33-5 in FIG. Audio data AI is continuously input to each processing unit. Operation signal C in each processing unit
The corrected audio data A is subjected to signal processing based on
O is output.

【0071】この際のここでは図示しないイコライザ処
理部33−1に対する例えば操作情報Cの時間情報に応
じた高周波数帯域または低周波数帯域におけるイコライ
ザ処理の低下のための時間メタデータ、リバーブ処理部
33−2に対する例えば操作情報Cの時間情報に応じた
高周波数帯域または低周波数帯域におけるリバーブ処理
の低下のための時間メタデータ、パン処理部33−4に
対する例えば操作情報Cの時間情報に応じた音の位置の
移動のための時間メタデータ、HRTF処理部33−5
に対する例えば操作情報Cの時間情報に応じた周波数伝
達特性の向上または低下のための時間メタデータを各々
取り出して、各時間情報に対応させて時間メタデータ部
MTに格納する。
In this case, time metadata for the equalizer processing unit 33-1 (not shown here) for reducing the equalizer processing in the high frequency band or the low frequency band corresponding to the time information of the operation information C, for example, the reverb processing unit 33. -2, for example, time metadata for reducing the reverb processing in the high frequency band or the low frequency band according to the time information of the operation information C, and the sound corresponding to the time information of the operation information C for the pan processing unit 33-4. Metadata for moving the position of HRTF, HRTF processing unit 33-5
For example, the time metadata for improving or decreasing the frequency transfer characteristic corresponding to the time information of the operation information C is extracted and stored in the time metadata portion MT in association with each time information.

【0072】これにより、時間軸の変化による時間情報
に応じたチャンネルマッピング部におけるオーディオ信
号に対する信号処理機能を変化させることができる時間
メタデータを生成することができる。
As a result, it is possible to generate time metadata capable of changing the signal processing function for the audio signal in the channel mapping unit according to the time information due to the change of the time axis.

【0073】なお、これらの各処理部の構成は、すべて
用いてもよいし、これに限らず、処理に応じて何れかを
選択して用いてもよいが、この場合には、選択された処
理部の時間メタデータを各時間情報に対応させて時間メ
タデータ部MTに格納する。
The configuration of each of these processing units may be all, or not limited to this, and any one may be selected and used according to the process, but in this case, it is selected. The time metadata of the processing unit is stored in the time metadata unit MT in association with each time information.

【0074】図7は、メタデータの記録フォーマットを
示す図であり、図7Aは1フレームの先頭、図7Bは1
フレームの末尾、図7Cは各アルバムの先頭に記録する
ものである。まず、第1のメタデータの記録フォーマッ
トでは、図7Aにおいて、映像データV1、V2、V
3、V4、V5にオーディオデータがインターリーブさ
れた1フレームの先頭にメタデータM1を記録する。従
って、再生系では、1フレームのデータを検出してバッ
ファに保持し、その先頭部分を読み出せば、メタデータ
M1を読み出すことができる。
FIG. 7 is a diagram showing a recording format of metadata. FIG. 7A shows the beginning of one frame, and FIG.
It is recorded at the end of the frame, and at the beginning of each album in FIG. 7C. First, in the recording format of the first metadata, in FIG. 7A, the video data V1, V2, V
The metadata M1 is recorded at the beginning of one frame in which audio data is interleaved at 3, V4, and V5. Therefore, in the reproducing system, the metadata M1 can be read by detecting one frame of data, holding the data in the buffer, and reading the beginning portion thereof.

【0075】次に、第2のメタデータの記録フォーマッ
トでは、図7Bにおいて、映像データV1、V2、V
3、V4、V5にオーディオデータがインターリーブさ
れた1フレームの末尾にメタデータM2を記録する。従
って、再生系では、1フレームのデータを検出してバッ
ファに保持し、その末尾部分を読み出せば、メタデータ
M2を読み出すことができる。
Next, in the recording format of the second metadata, in FIG. 7B, the video data V1, V2, V
The metadata M2 is recorded at the end of one frame in which audio data is interleaved at 3, V4, and V5. Therefore, in the reproducing system, the metadata M2 can be read by detecting one frame of data, holding it in the buffer, and reading the end portion thereof.

【0076】さらに、第3のメタデータの記録フォーマ
ットでは、図7Cにおいて、曲を示すアルバムの先頭に
メタデータM11、M12、M13を記録する。従っ
て、再生系では、各アルバムのデータを検出してバッフ
ァに保持し、その先頭部分を読み出せば、メタデータM
11、M12、M13を読み出すことができる。
Further, in the third metadata recording format, in FIG. 7C, the metadata M11, M12 and M13 are recorded at the head of the album showing the music. Therefore, in the reproducing system, if the data of each album is detected and held in the buffer, and the beginning portion thereof is read, the metadata M
11, M12 and M13 can be read.

【0077】なお、メタデータの記録フォーマットは、
これに限らず、ディスク状記録媒体の管理情報を記憶す
るTOC(Table Of Contents)部分
に記録してもよい。
The recording format of the metadata is
The present invention is not limited to this, and may be recorded in a TOC (Table Of Contents) portion that stores management information of the disc-shaped recording medium.

【0078】図8は、360度カメラ撮像映像を示す図
である。図8において、全方位カメラ81は360度の
周囲の被写体を例えば8画角に分割して連続処理して撮
像する。全方位カメラ81により撮像された360度カ
メラ撮像映像82は、基準位置Oに対して前方中央方向
の角度情報θを有するステージ83上の歌手84および
演奏者85の映像を示すエリアE1と、基準位置Oに対
して前方左方向の角度情報θを有する観客86の映像を
示すエリアE2と、基準位置Oに対して左横方向の角度
情報θを有する観客86の映像を示すエリアE3と、基
準位置Oに対して後方左方向の角度情報θを有する観客
86の映像を示すエリアE4と、基準位置Oに対して後
方中央方向の角度情報θを有する観客86の映像を示す
エリアE5と、基準位置Oに対して後方右方向の角度情
報θを有する観客86の映像を示すエリアE6と、基準
位置Oに対して右横方向の角度情報θを有する観客86
の映像を示すエリアE7と、基準位置Oに対して前方右
方向の角度情報θを有する観客86の映像を示すエリア
E8とを有して構成される。
FIG. 8 is a diagram showing an image picked up by a 360-degree camera. In FIG. 8, the omnidirectional camera 81 divides a 360-degree surrounding object into, for example, eight view angles, and continuously processes and captures the image. The 360 degree camera imaged image 82 imaged by the omnidirectional camera 81 includes an area E1 showing an image of the singer 84 and the performer 85 on the stage 83 having angle information θ in the front center direction with respect to the reference position O, and the reference. An area E2 showing an image of the spectator 86 having angle information θ in the front left direction with respect to the position O, an area E3 showing an image of the spectator 86 having angle information θ in the left lateral direction with respect to the reference position O, and the reference An area E4 showing an image of the spectator 86 having angle information θ in the left rear direction with respect to the position O, an area E5 showing an image of the spectator 86 having angle information θ in the rear center direction with respect to the reference position O, and an area E5. An area E6 showing an image of the spectator 86 having angle information θ in the right rear direction with respect to the position O, and a spectator 86 having angle information θ in the right lateral direction with respect to the reference position O.
And an area E7 showing an image of the spectator 86 having angle information θ in the front right direction with respect to the reference position O.

【0079】図1に示した制作系のチャンネルマッピン
グ部6により視点選択部5による角度情報θに応じてオ
ーディオ信号に映像の移動と同期した音像定位の信号処
理を施すことにより、360度カメラ撮像映像82のエ
リアE1〜エリアE8までの角度情報θによる反時計方
向の映像の移動に対応して滑らかに音像を反時計方向に
移動させることができる。
The production system channel mapping unit 6 shown in FIG. 1 subjects the audio signal to signal processing for sound image localization synchronized with the movement of the image in accordance with the angle information θ by the viewpoint selection unit 5 to obtain a 360-degree camera image. The sound image can be smoothly moved in the counterclockwise direction in response to the movement of the image in the counterclockwise direction according to the angle information θ from the area E1 to the area E8 of the image 82.

【0080】これにより、エリアE1における基準位置
Oに対する前方中央方向の角度情報θを有するステージ
83上の歌手84および演奏者85の映像に対して前方
中央方向のステージ83上の歌手84および演奏者85
の音像が定位し、エリアE2における基準位置Oに対す
る前方左方向の角度情報θを有する観客86の映像に対
して前方左方向の観客86の音像が定位し、エリアE3
における基準位置Oに対する左横方向の観客86の映像
に対して左横方向の観客86の音像が定位し、エリアE
4における基準位置Oに対する後方左方向の角度情報θ
を有する観客86の映像に対して後方左方向の観客86
の音像が定位し、エリアE5における基準位置Oに対す
る後方中央方向の角度情報θを有する観客86の映像に
対して後方中央方向の観客86の音像が定位し、エリア
E6における基準位置Oに対する後方右方向の角度情報
θを有する観客86の映像に対して後方右方向の観客8
6の音像が定位し、エリアE7における基準位置Oに対
する右横方向の角度情報θを有する観客86の映像に対
して右横方向の観客86の音像が定位し、エリアE8に
おける基準位置Oに対する前方右方向の角度情報θを有
する観客86の映像に対して前方右方向の観客86の音
像が連続して定位する。
Thus, the singer 84 and the performer 84 on the stage 83 in the front center direction with respect to the images of the singer 84 and the performer 85 on the stage 83 having the angle information θ in the front center direction with respect to the reference position O in the area E1. 85
Sound image is localized, and the sound image of the spectator 86 in the front left direction is localized with respect to the image of the spectator 86 having angle information θ in the front left direction with respect to the reference position O in the area E2.
In the area E, the sound image of the spectator 86 in the left lateral direction is localized with respect to the image of the spectator 86 in the left lateral direction with respect to the reference position O.
Angle information θ in the rear left direction with respect to the reference position O
Audience 86 to the rear left of the image of the audience 86
Sound image is localized and the sound image of the spectator 86 in the rear center direction is localized with respect to the image of the spectator 86 having the angle information θ in the rear center direction with respect to the reference position O in the area E5, and the rear right with respect to the reference position O in the area E6. The spectator 8 in the rear right direction with respect to the image of the spectator 86 having the angle information θ of the direction
The sound image of 6 is localized, and the sound image of the spectator 86 in the right lateral direction is localized with respect to the image of the spectator 86 having the angle information θ in the right lateral direction with respect to the reference position O in the area E7. The sound image of the spectator 86 in the front right direction is continuously localized with respect to the image of the spectator 86 having the right angle information θ.

【0081】逆に、360度カメラ撮像映像82のエリ
アE1〜エリアE2までの角度情報θによる時計方向の
映像の移動に対応して滑らかに音像を時計方向に移動さ
せることができる。
On the contrary, the sound image can be smoothly moved in the clockwise direction corresponding to the movement of the image in the clockwise direction according to the angle information θ from the area E1 to the area E2 of the 360 ° camera image 82.

【0082】これにより、エリアE1における基準位置
Oに対する前方中央方向の角度情報θを有するステージ
83上の歌手84および演奏者85の映像に対して前方
中央方向のステージ83上の歌手84および演奏者85
の音像が定位し、エリアE8における基準位置Oに対す
る前方右方向の角度情報θを有する観客86の映像に対
して前方右方向の観客86の音像が定位し、エリアE7
における基準位置Oに対する右横方向の角度情報θを有
する観客86の映像に対して右横方向の観客86の音像
が定位し、エリアE6における基準位置Oに対する後方
右方向の角度情報θを有する観客86の映像に対して後
方右方向の観客86の音像が定位し、エリアE5におけ
る基準位置Oに対する後方中央方向の角度情報θを有す
る観客86の映像に対して後方中央方向の観客86の音
像が定位し、エリアE4における基準位置Oに対する後
方左方向の角度情報θを有する観客86の映像に対して
後方左方向の観客86の音像が定位し、エリアE3にお
ける基準位置Oに対する左横方向の観客86の映像に対
して左横方向の観客86の音像が定位し、エリアE2に
おける基準位置Oに対する前方左方向の角度情報θを有
する観客86の映像に対して前方左方向の観客86の音
像が連続して定位する。
As a result, the singer 84 and the performer on the stage 83 in the front center direction with respect to the images of the singer 84 and the performer 85 on the stage 83 having the angle information θ in the front center direction with respect to the reference position O in the area E1. 85
Sound image is localized, and the sound image of the spectator 86 in the front right direction is localized with respect to the image of the spectator 86 having angle information θ in the front right direction with respect to the reference position O in the area E8.
In the image of the spectator 86 having the angle information θ in the right lateral direction with respect to the reference position O, the sound image of the spectator 86 in the right lateral direction is localized, and the spectator having angle information θ in the right rear direction with respect to the reference position O in the area E6 The sound image of the spectator 86 in the rear right direction is localized with respect to the image of 86, and the sound image of the spectator 86 in the rear center direction is detected with respect to the image of the spectator 86 having the angle information θ in the rear center direction with respect to the reference position O in the area E5. The sound image of the spectator 86 in the rear left direction is localized with respect to the image of the spectator 86 that is localized and has angle information θ in the rear left direction with respect to the reference position O in the area E4, and the spectator in the left lateral direction with respect to the reference position O in the area E3 A sound image of the spectator 86 in the left lateral direction is localized with respect to the image of 86, and an image of the spectator 86 having angle information θ in the front left direction with respect to the reference position O in the area E2 is obtained. On the other hand, the sound image of the spectator 86 in the front left direction is continuously localized.

【0083】また、このときの角度情報は、水平方向の
角度情報θに限らず、垂直方向の角度情報Δを指定する
ことができる。これにより、360度カメラ撮像映像8
2のエリアE1〜エリアE8の映像に対してチャンネル
マッピング部で音像の定位を3次元空間で処理すること
ができる。
Further, the angle information at this time is not limited to the angle information θ in the horizontal direction, but the angle information Δ in the vertical direction can be designated. As a result, the image captured by the 360-degree camera 8
The localization of the sound image can be processed in the three-dimensional space by the channel mapping unit for the images of the areas E1 to E8 of No. 2.

【0084】各信号処理の制御量は、360度カメラ撮
像映像82を撮像するコンテンツでは、全方位カメラ8
1の基準位置Oに対して移動する角度情報θに応じて、
図3に示したパン処理部33−4により音像の定位角度
が比例して動くように処理される。
The control amount of each signal processing is as follows.
According to the angle information θ that moves with respect to the reference position O of 1.
The pan processing unit 33-4 illustrated in FIG. 3 performs processing so that the localization angle of the sound image moves proportionally.

【0085】また、全方位カメラ81の基準位置Oに対
して前方から後方または後方から前方に移動すると移動
距離に応じて、図3に示す音量処理部33−3により音
像の音量が小さくまたは大きくなるように処理される。
When the omnidirectional camera 81 moves from the front to the rear or from the back to the front with respect to the reference position O, the volume of the sound image is reduced or increased by the volume processing unit 33-3 shown in FIG. 3 according to the moving distance. Will be processed.

【0086】また、全方位カメラ81の基準位置Oに対
して前方から後方または後方から前方に移動すると移動
距離に応じて、図3に示すイコライザ処理部33−1に
より高周波数帯域のイコライザ処理を低下させて高周波
数帯域の音を下げるようにしまたは高周波数帯域のイコ
ライザ処理を向上させて高周波数帯域の音を上げるよう
に処理される。
When the omnidirectional camera 81 moves from the front to the rear or from the rear to the front with respect to the reference position O, the equalizer processing unit 33-1 shown in FIG. It is processed to lower the sound in the high frequency band or to improve the equalizer processing in the high frequency band to raise the sound in the high frequency band.

【0087】また、全方位カメラ81の基準位置Oに対
して前方から後方または後方から前方に移動すると移動
距離に応じて、図3に示すリバーブ処理部33−2によ
りリバーブ処理が深くかかるようにしまたはリバーブ処
理が浅くかかるように処理される。
When the omnidirectional camera 81 moves from the front to the rear or from the rear to the front with respect to the reference position O, the reverb processing unit 33-2 shown in FIG. 3 applies deep reverb processing according to the moving distance. Alternatively, the reverb process is processed so that it takes a shallow depth.

【0088】また、全方位カメラ81の基準位置Oに対
して前方から後方または後方から前方にズーム処理によ
り移動すると移動距離に応じて、図3に示すHRTF処
理部33−5により音像が遠くなるように値が変更され
てまたは音像が近くなるように値が変更されるように処
理される。
When the omnidirectional camera 81 moves from the front to the rear or the back to the front by the zoom process with respect to the reference position O, the HRTF processor 33-5 shown in FIG. The value is changed so that the value is changed so that the sound image becomes closer.

【0089】なお、全方位カメラに限らず、後述する円
周状カメラを用いてもよい。図9は、円周状カメラによ
る撮像を示す図である。図9において、被写体である歌
手92に対して、基準位置Oに対して角度情報θに応じ
て、円周状カメラ91−1、91−2、91−3、91
−4、91−5、91−6、91−7、91−8を設け
て、角度情報θを有する円周状映像データを撮像する。
なお、円周状カメラに限らず、一部分の円弧状カメラを
用いてもよい。なお、これら場合にも、このときの角度
情報は、水平方向の角度情報θに限らず、垂直方向の角
度情報Δを指定することができる。これにより、円周状
または円弧状撮像映像の各エリアの映像に対してチャン
ネルマッピング部で音像の定位を3次元空間で処理する
ことができる。
Incidentally, not only the omnidirectional camera but also a circumferential camera described later may be used. FIG. 9 is a diagram showing imaging by a circumferential camera. In FIG. 9, for the singer 92, which is the subject, according to the angle information θ with respect to the reference position O, the circumferential cameras 91-1, 91-2, 91-3, 91.
-4, 91-5, 91-6, 91-7, 91-8 are provided to capture the circumferential image data having the angle information θ.
In addition, not only the circumferential camera but also a part of the arc camera may be used. Also in these cases, the angle information at this time is not limited to the angle information θ in the horizontal direction, and the angle information Δ in the vertical direction can be designated. Accordingly, the localization of the sound image can be processed in the three-dimensional space by the channel mapping unit with respect to the image of each area of the circumferentially or arcuate imaged image.

【0090】図10は、時間軸上での動作モードの切り
換えを示す図である。図10において、時間軸tに沿っ
て、モード1(101)、モード2(102)、モード
1(103)、・・・の切り換えを行う。ここで、モー
ド1(101)、モード1(103)は、図3に示した
チャンネルマッピング部の動作モード設定部31により
設定される、複数のチャンネルのオーディオ信号のうち
すべてのチャンネルに音像定位信号処理を施す第1の動
作モードの固定チャンネルモード31−1であり、モー
ド2(102)は、複数のチャンネルのオーディオ信号
のうち特定のチャンネルのみを指定して音像定位信号処
理を施して他のチャンネルは信号処理を施さない第2の
動作モードの非固定チャンネルモード31−2である。
FIG. 10 is a diagram showing switching of operation modes on the time axis. 10, mode 1 (101), mode 2 (102), mode 1 (103), ... Are switched along the time axis t. Here, mode 1 (101) and mode 1 (103) are sound image localization signals for all channels set by the operation mode setting unit 31 of the channel mapping unit shown in FIG. This is a fixed channel mode 31-1 which is a first operation mode for performing processing, and a mode 2 (102) specifies only a specific channel among audio signals of a plurality of channels, performs sound image localization signal processing, and performs other processing. The channel is the non-fixed channel mode 31-2 which is the second operation mode in which no signal processing is performed.

【0091】これにより、時間軸上で第1の動作モード
の固定チャンネルモード31−1と第2の動作モードの
非固定チャンネルモード31−2とを切り換えることが
でき、自由視点映像のシーンの切り換え時などにおける
オーディオ信号に対する音像定位処理の態様を多様にす
ることができる。例えば、第1の動作モードの固定チャ
ンネルモード31−1としては、図8に示した360度
カメラ撮像映像82において、歌手84および演奏者8
5のオーディオ信号のうちすべてのチャンネルに音像定
位信号処理を施し、第2の動作モードの非固定チャンネ
ルモード31−2としては、図8に示した360度カメ
ラ撮像映像82において、歌手84のオーディオ信号の
チャンネルにのみ音像定位信号処理を施し、演奏者85
のオーディオ信号のチャンネルには音像定位信号処理を
施さずに固定とするようにする。
As a result, the fixed channel mode 31-1 of the first operation mode and the non-fixed channel mode 31-2 of the second operation mode can be switched on the time axis, and the scene of the free viewpoint video can be switched. It is possible to diversify the mode of sound image localization processing for an audio signal in time. For example, as the fixed channel mode 31-1 of the first operation mode, the singer 84 and the performer 8 in the 360-degree camera imaged image 82 shown in FIG.
The sound image localization signal processing is performed on all channels of the 5 audio signals, and as the non-fixed channel mode 31-2 of the second operation mode, the audio of the singer 84 in the 360-degree camera imaged image 82 shown in FIG. Performing sound image localization signal processing only on the signal channel, the performer 85
The audio signal channel is fixed without being subjected to sound image localization signal processing.

【0092】図11は、HRTFによる補正音像を示す
図である。図11において、再生時にリスナ111は、
ビデオモニタ112に再生される自由視点映像の角度情
報に対応して、スピーカL、R、SL、SRにより再生
される再生音像113を聴取する。ここで、ビデオモニ
タ112に再生される自由視点映像がズーム映像となっ
て例えばステージ上の歌手がリスナ111の右耳元に近
づいてささやくと、図3に示すHRTF処理部33−5
により音像がリスナ111の右耳に近くなるように値が
変更されるように処理されることにより、リスナ111
の右耳元に補正音像114が定位するように処理され
る。
FIG. 11 is a diagram showing a corrected sound image by HRTF. In FIG. 11, the listener 111 during reproduction is
The reproduced sound image 113 reproduced by the speakers L, R, SL, SR is heard corresponding to the angle information of the free viewpoint video reproduced on the video monitor 112. Here, when the free-viewpoint image reproduced on the video monitor 112 becomes a zoom image, for example, when the singer on the stage approaches the right ear of the listener 111 and whispers, the HRTF processing unit 33-5 shown in FIG.
Is processed so that the sound image is closer to the right ear of the listener 111.
The corrected sound image 114 is processed so as to be localized at the right ear.

【0093】図12は、HRTFによる補正処理の構成
図である。図12において、オーディオデータAIがパ
ン処理部121に供給され、パン処理部121によりパ
ン処理が施されて左右ステレオオーディオデータR、L
およびサラウンドオーディオデータSL、SRが出力さ
れる。この状態では、スイッチSW123、SW124
の出力側はパン処理部121側に接続されている。
FIG. 12 is a block diagram of correction processing by HRTF. In FIG. 12, the audio data AI is supplied to the pan processing unit 121, is panned by the pan processing unit 121, and is left / right stereo audio data R, L.
And surround audio data SL and SR are output. In this state, the switches SW123 and SW124
The output side of is connected to the pan processing unit 121 side.

【0094】ここで、ビデオモニタ112に再生される
自由視点映像がズーム映像となって例えばステージ上の
歌手がリスナ111の右耳元に近づいてささやくと、オ
ーディオデータAIがオンとなったスイッチSW11を
介してHRTF処理部122に供給され、HRTF処理
部122により周波数伝達特性の処理が施されてスイッ
チSW123、124に供給されて補正オーディオデー
タAOとして左右ステレオオーディオデータR、Lが出
力される。この状態では、スイッチSW123、SW1
24の出力側はHRTF処理部側に接続されている。
Here, when the free-viewpoint image reproduced on the video monitor 112 becomes a zoom image, for example, when the singer on the stage approaches the right ear of the listener 111 and whispers, the switch SW11 in which the audio data AI is turned on is turned on. Is supplied to the HRTF processing unit 122 via the HRTF processing unit 122, subjected to frequency transfer characteristic processing by the HRTF processing unit 122, supplied to the switches SW123 and 124, and the left and right stereo audio data R and L are output as the corrected audio data AO. In this state, the switches SW123 and SW1
The output side of 24 is connected to the HRTF processing section side.

【0095】このように構成された自由視点映像・音声
制作再生システムの制作系および再生系の動作を説明す
る。図13は、制作系の動作を示すフローチャートであ
る。図13において、ステップS1で、入出力装置(I
Oデバイス)の初期化を行う。具体的には、初期値の代
入やオペレーティングシステム(OS)上の例えばGU
Iアプリケーションの起動を行って制御プログラムの読
み込みなどを行う。
The operations of the production system and the reproduction system of the free-viewpoint video / audio production / reproduction system thus configured will be described. FIG. 13 is a flowchart showing the operation of the production system. In FIG. 13, in step S1, the input / output device (I
O device) is initialized. Specifically, the assignment of the initial value or, for example, GU on the operating system (OS)
The I application is started to read the control program.

【0096】ステップS2で、映像ファイルの指定を行
う。具体的には、図1に示す自由視点映像の映像データ
10の中からコンテンツの制作を行う映像ファイルを指
定する。
In step S2, a video file is designated. Specifically, a video file for producing content is designated from the video data 10 of the free viewpoint video shown in FIG.

【0097】ステップS3で、動作モードの指定を行
う。具体的には、図4に示すGUIアプリケーション画
面41においてサウンドクリエータが動作モード設定部
42のアイコンをクリックすることにより、図3に示し
たように、複数のチャンネルのオーディオ信号のうちす
べてのチャンネルに音像定位信号処理を施す第1の動作
モードの固定チャンネルモード31−1または複数のチ
ャンネルのオーディオ信号のうち特定のチャンネルのみ
を指定して音像定位信号処理を施して他のチャンネルは
信号処理を施さない第2の動作モードの非固定チャンネ
ルモード31−2を選択して設定する。
In step S3, the operation mode is designated. Specifically, when the sound creator clicks the icon of the operation mode setting unit 42 on the GUI application screen 41 shown in FIG. 4, all the channels of the audio signals of a plurality of channels are displayed as shown in FIG. The fixed channel mode 31-1 of the first operation mode in which the sound image localization signal processing is performed or only a specific channel of the audio signals of a plurality of channels is designated to perform the sound image localization signal processing and the other channels are subjected to the signal processing. The non-fixed channel mode 31-2, which is the second non-fixed operation mode, is selected and set.

【0098】ステップS4で、固定チャンネルまたは移
動チャンネルの割り当てを行う。具体的には、まず、G
UIアプリケーション画面41においてサウンドクリエ
ータがトラック設定部43のアイコンをクリックするこ
とにより、視点選択部5により選択された再生音像の角
度情報となるユーザーの視点選択情報に対応するよう
に、映像信号の時間情報に応じたフレームを移動してフ
レーム処理を行うフレーム処理部43−1と、水平角度
処理を行う水平角度処理部43−2と、ズーム処理を行
うズーム処理部43−3と、垂直角度処理を行う垂直角
度処理部43−3とを選択されたフレーム画像の設定状
態に設定する。なお、ここでは、トラック設定部43が
図1に示した視点選択部5に対応し、この設定に応じて
このGUIアプリケーション画面41の下層または上層
にウインドウ表示される自由視点ビューア4の自由視点
映像の360度にわたって変化する表示状態により、選
択されたフレーム画像の設定状態に設定する。
In step S4, a fixed channel or a mobile channel is assigned. Specifically, first, G
When the sound creator clicks the icon of the track setting unit 43 on the UI application screen 41, the time of the video signal is adjusted so as to correspond to the viewpoint selection information of the user, which is the angle information of the reproduced sound image selected by the viewpoint selection unit 5. A frame processing unit 43-1 that performs frame processing by moving a frame according to information, a horizontal angle processing unit 43-2 that performs horizontal angle processing, a zoom processing unit 43-3 that performs zoom processing, and a vertical angle processing. And the vertical angle processing unit 43-3 for performing the setting are set to the setting state of the selected frame image. Note that, here, the track setting unit 43 corresponds to the viewpoint selecting unit 5 shown in FIG. 1, and the free viewpoint video of the free viewpoint viewer 4 displayed in the window below or above the GUI application screen 41 according to this setting. Is set to the setting state of the selected frame image according to the display state changing over 360 degrees.

【0099】次に、GUIアプリケーション画面41で
サウンドクリエータがパラメータ設定部44のアイコン
をクリックすることにより、図3に示したトラック設定
部32からの操作信号Cに基づいて、オーディオ信号に
所定のパラメータによりイコライジング処理を行うイコ
ライジング処理部44−1と、リバーブ処理を行うリバ
ーブ処理部44−2と、音量処理を行う音量処理部44
−3と、パン処理を行うパン処理部44−4と、HRT
Fによりユーザーの耳に到達する伝達関数を変更するこ
とにより音響特性処理を施すHRTF処理部44−5と
をトラック設定部43で設定されたフレーム画像に対す
る各チャンネルのオーディオ信号に対した信号処理状態
に設定することができる。このパラメータ設定部44に
よる設定に応じて移動チャンネルまたは固定チャンネル
とを設定する。
Next, when the sound creator clicks the icon of the parameter setting section 44 on the GUI application screen 41, a predetermined parameter is added to the audio signal based on the operation signal C from the track setting section 32 shown in FIG. The equalizing processing section 44-1 for performing the equalizing processing, the reverb processing section 44-2 for performing the reverb processing, and the volume processing section 44 for performing the volume processing.
-3, a pan processing unit 44-4 that performs pan processing, and an HRT
An HRTF processing unit 44-5, which performs acoustic characteristic processing by changing the transfer function reaching the user's ear by F, and a signal processing state for the audio signal of each channel for the frame image set by the track setting unit 43. Can be set to. The mobile channel or the fixed channel is set according to the setting by the parameter setting unit 44.

【0100】ステップS5で、映像の再生をスタートす
る。具体的には、GUIアプリケーション画面41の下
層または上層にウインドウ表示される自由視点ビューア
4の自由視点映像の360度にわたって変化して表示状
態にする映像信号による映像の再生をスタートする。こ
れと同時にオーディオ信号による音響の再生もスタート
する。
At step S5, the reproduction of the image is started. Specifically, the reproduction of the video by the video signal which changes the free viewpoint video of the free viewpoint viewer 4 displayed in the lower layer or the upper layer of the GUI application screen 41 over 360 degrees to be in the display state is started. At the same time, reproduction of sound by the audio signal is started.

【0101】ステップS6で、時間メタデータの記録モ
ードキーであるタイムキー45が押された時の時間メタ
データの記録モードであるか否かを判断する。具体的に
は、パラメータ設定部が、図5で示したイコライザ処理
部33−1に対する例えば操作情報Cの角度情報に応じ
た高周波数帯域または低周波数帯域におけるイコライザ
処理の低下のための操作メタデータ、リバーブ処理部3
3−2に対する例えば操作情報Cの角度情報に応じた高
周波数帯域または低周波数帯域におけるリバーブ処理の
低下のための操作メタデータ、パン処理部33−4に対
する例えば操作情報Cの角度情報に応じた音の位置の移
動のための操作メタデータ、HRTF処理部33−5に
対する例えば操作情報Cの角度情報に応じた周波数伝達
特性の向上または低下のための操作メタデータによる信
号処理があるか、または、パラメータ設定部が、図6で
示したイコライザ処理部33−1に対する例えば操作情
報Cの時間情報に応じた高周波数帯域または低周波数帯
域におけるイコライザ処理の低下のための時間メタデー
タ、リバーブ処理部33−2に対する例えば操作情報C
の時間情報に応じた高周波数帯域または低周波数帯域に
おけるリバーブ処理の低下のための時間メタデータ、パ
ン処理部33−4に対する例えば操作情報Cの時間情報
に応じた音の位置の移動のための時間メタデータ、また
はHRTF処理部33−5に対する例えば操作情報Cの
時間情報に応じた周波数伝達特性の向上または低下のた
めの時間メタデータによるものであるか否かを判断す
る。
In step S6, it is determined whether or not the time metadata recording mode when the time key 45, which is the time metadata recording mode key, is pressed. Specifically, the parameter setting unit operates metadata for lowering the equalizer process in the high frequency band or the low frequency band corresponding to the angle information of the operation information C for the equalizer processing unit 33-1 illustrated in FIG. 5, for example. , Reverb processing unit 3
3-2, for example, operation metadata for reducing reverb processing in a high frequency band or a low frequency band according to angle information of the operation information C, and for example, according to angle information of the operation information C for the pan processing unit 33-4. There is operation metadata for moving the position of sound, signal processing by operation metadata for improving or reducing frequency transfer characteristics according to the angle information of the operation information C for the HRTF processing unit 33-5, or The parameter setting unit, for the equalizer processing unit 33-1 illustrated in FIG. 6, for example, time metadata for lowering the equalizer processing in the high frequency band or the low frequency band according to the time information of the operation information C, the reverb processing unit. 33-2, for example, operation information C
Time metadata for lowering the reverb processing in the high frequency band or the low frequency band according to the time information, for moving the position of the sound according to the time information of the operation information C with respect to the pan processing unit 33-4, for example. It is determined whether or not it is due to the time metadata or the time metadata for improving or decreasing the frequency transfer characteristic according to the time information of the operation information C for the HRTF processing unit 33-5.

【0102】ステップS6で時間メタデータの記録モー
ドでないときは、ステップS7へ進み、ステップSで、
操作メタデータによるチャンネルマッピング信号処理部
の操作があるか否かを判断する。具体的には、図5で示
したイコライザ処理部33−1に対する例えば操作情報
Cの角度情報に応じた高周波数帯域または低周波数帯域
におけるイコライザ処理の低下のための操作メタデー
タ、リバーブ処理部33−2に対する例えば操作情報C
の角度情報に応じた高周波数帯域または低周波数帯域に
おけるリバーブ処理の低下のための操作メタデータ、パ
ン処理部33−4に対する例えば操作情報Cの角度情報
に応じた音の位置の移動のための操作メタデータ、HR
TF処理部33−5に対する例えば操作情報Cの角度情
報に応じた周波数伝達特性の向上または低下のための操
作メタデータによる信号処理あるか否かを判断する。
If the mode is not the time metadata recording mode in step S6, the process proceeds to step S7, and in step S,
It is determined whether or not there is an operation of the channel mapping signal processing unit based on the operation metadata. Specifically, operation metadata for reducing the equalizer processing in the high frequency band or the low frequency band corresponding to the angle information of the operation information C for the equalizer processing unit 33-1 illustrated in FIG. 5, the reverb processing unit 33, for example. -2, for example, operation information C
Operation metadata for lowering the reverb processing in the high frequency band or the low frequency band according to the angle information, for moving the position of the sound according to the angle information of the operation information C with respect to the pan processing unit 33-4, for example. Operation metadata, HR
For example, it is determined whether the TF processing unit 33-5 has signal processing by operation metadata for improving or reducing the frequency transfer characteristic according to the angle information of the operation information C.

【0103】ステップS7で、操作メタデータによるチ
ャンネルマッピング信号処理部の操作があるときは、ス
テップS8へ進み、ステップS8で、視点情報と操作情
報をメタデータとして記録する。具体的には、図5で示
したイコライザ処理部33−1に対する例えば操作情報
Cの角度情報に応じた高周波数帯域または低周波数帯域
におけるイコライザ処理の低下のための操作メタデー
タ、リバーブ処理部33−2に対する例えば操作情報C
の角度情報に応じた高周波数帯域または低周波数帯域に
おけるリバーブ処理の低下のための操作メタデータ、パ
ン処理部33−4に対する例えば操作情報Cの角度情報
に応じた音の位置の移動のための操作メタデータ、HR
TF処理部33−5に対する例えば操作情報Cの角度情
報に応じた周波数伝達特性の向上または低下のための操
作メタデータを各々取り出して、各角度情報に対応させ
て操作メタデータ部MCに格納する。
If there is an operation of the channel mapping signal processing section by the operation metadata in step S7, the process proceeds to step S8, and the viewpoint information and the operation information are recorded as metadata in step S8. Specifically, operation metadata for reducing the equalizer processing in the high frequency band or the low frequency band corresponding to the angle information of the operation information C for the equalizer processing unit 33-1 illustrated in FIG. 5, the reverb processing unit 33, for example. -2, for example, operation information C
Operation metadata for lowering the reverb processing in the high frequency band or the low frequency band according to the angle information, for moving the position of the sound according to the angle information of the operation information C with respect to the pan processing unit 33-4, for example. Operation metadata, HR
For example, the operation metadata for improving or reducing the frequency transfer characteristic corresponding to the angle information of the operation information C for the TF processing unit 33-5 is extracted and stored in the operation metadata unit MC in association with each angle information. .

【0104】ステップS6で時間メタデータの記録モー
ドであるときは、ステップS10へ進み、ステップS1
0で、時間メタデータによるチャンネルマッピング信号
処理部の操作があるか否かを判断する。具体的には、図
6で示したイコライザ処理部33−1に対する例えば操
作情報Cの時間情報に応じた高周波数帯域または低周波
数帯域におけるイコライザ処理の低下のための時間メタ
データ、リバーブ処理部33−2に対する例えば操作情
報Cの時間情報に応じた高周波数帯域または低周波数帯
域におけるリバーブ処理の低下のための時間メタデー
タ、パン処理部33−4に対する例えば操作情報Cの時
間情報に応じた音の位置の移動のための時間メタデー
タ、HRTF処理部33−5に対する例えば操作情報C
の時間情報に応じた周波数伝達特性の向上または低下の
ための時間メタデータを各々取り出して、各時間情報に
対応させて時間メタデータ部MTに格納するものである
か否かを判断する。
If the time metadata recording mode is selected in step S6, the process proceeds to step S10 and step S1.
At 0, it is determined whether or not there is an operation of the channel mapping signal processing unit by the time metadata. Specifically, for example, time metadata for reducing the equalizer processing in the high frequency band or the low frequency band corresponding to the time information of the operation information C for the equalizer processing unit 33-1 illustrated in FIG. 6, and the reverb processing unit 33. -2, for example, time metadata for reducing the reverb processing in the high frequency band or the low frequency band according to the time information of the operation information C, and the sound corresponding to the time information of the operation information C for the pan processing unit 33-4. Metadata for moving the position of, for example, operation information C for the HRTF processing unit 33-5.
The time metadata for improving or lowering the frequency transfer characteristic according to the time information is extracted, and it is determined whether or not the time metadata is stored in the time metadata portion MT in association with each time information.

【0105】ステップS10で、時間メタデータによる
チャンネルマッピング信号処理部の操作があるときは、
ステップS11へ進み、時間情報と操作情報をメタデー
タとして記録する。具体的には、図6で示したイコライ
ザ処理部33−1に対する例えば操作情報Cの時間情報
に応じた高周波数帯域または低周波数帯域におけるイコ
ライザ処理の低下のための時間メタデータ、リバーブ処
理部33−2に対する例えば操作情報Cの時間情報に応
じた高周波数帯域または低周波数帯域におけるリバーブ
処理の低下のための時間メタデータ、パン処理部33−
4に対する例えば操作情報Cの時間情報に応じた音の位
置の移動のための時間メタデータ、HRTF処理部33
−5に対する例えば操作情報Cの時間情報に応じた周波
数伝達特性の向上または低下のための時間メタデータを
各々取り出して、各時間情報に対応させて時間メタデー
タ部MTに格納する。
At step S10, if there is an operation of the channel mapping signal processing section by time metadata,
In step S11, time information and operation information are recorded as metadata. Specifically, for example, time metadata for reducing the equalizer processing in the high frequency band or the low frequency band corresponding to the time information of the operation information C for the equalizer processing unit 33-1 illustrated in FIG. 6, and the reverb processing unit 33. -2, for example, time metadata for lowering the reverb processing in the high frequency band or the low frequency band according to the time information of the operation information C, the pan processing unit 33-
4, time metadata for moving the position of the sound according to the time information of the operation information C, the HRTF processing unit 33.
For example, the time metadata for improving or decreasing the frequency transfer characteristic corresponding to the time information of the operation information C for -5 is extracted and stored in the time metadata portion MT in association with each time information.

【0106】ステップS9で、映像の再生をストップす
るか否かを判断する。ステップS9で、映像の再生をス
トップしないときは、ステップS6へ戻ってステップS
6の判断を繰り返す。ステップS9で、映像の再生をス
トップするときは、ステップS12へ進んで、ステップ
S12で、映像および音響の再生を止める。
In step S9, it is determined whether or not the image reproduction is stopped. If the video reproduction is not stopped in step S9, the process returns to step S6 and step S6 is performed.
Repeat judgment 6 above. When the reproduction of the video is stopped in step S9, the process proceeds to step S12, and the reproduction of the video and the sound is stopped in step S12.

【0107】図14は、再生系の動作を示すフローチャ
ートである。図14において、ステップS21で、入出
力装置(IOデバイス)の初期化を行う。具体的には、
初期値の代入やオペレーティングシステム(OS)上の
例えばGUIアプリケーションの起動を行って制御プロ
グラムの読み込みなどを行う。
FIG. 14 is a flow chart showing the operation of the reproducing system. In FIG. 14, in step S21, the input / output device (IO device) is initialized. In particular,
The control program is read by substituting an initial value or activating, for example, a GUI application on the operating system (OS).

【0108】ステップS22で、映像ファイルの指定を
行う。具体的には、図2に示すビデオプレーヤ22の映
像データの中からコンテンツの再生を行う映像ファイル
を指定する。
In step S22, a video file is designated. Specifically, a video file for reproducing the content is designated from the video data of the video player 22 shown in FIG.

【0109】ステップS23で、映像の再生をスタート
する。具体的には、ビデオプレーヤ22の再生動作によ
りビデオモニタ26に表示される自由視点映像のうちの
視点選択部23の選択による角度情報に対応する映像信
号による映像の再生をスタートする。これと同時にオー
ディオ信号による音響の再生もスタートする。
At step S23, the reproduction of the image is started. Specifically, the reproduction operation of the video player 22 starts the reproduction of the image by the image signal corresponding to the angle information selected by the viewpoint selection unit 23 among the free viewpoint images displayed on the video monitor 26. At the same time, reproduction of sound by the audio signal is started.

【0110】ステップS24で、時間メタデータの再生
モードであるか否かを判断する。具体的には、パラメー
タ設定部が、図5で示したイコライザ処理部33−1に
対する例えば操作情報Cの角度情報に応じた高周波数帯
域または低周波数帯域におけるイコライザ処理の低下の
ための操作メタデータ、リバーブ処理部33−2に対す
る例えば操作情報Cの角度情報に応じた高周波数帯域ま
たは低周波数帯域におけるリバーブ処理の低下のための
操作メタデータ、パン処理部33−4に対する例えば操
作情報Cの角度情報に応じた音の位置の移動のための操
作メタデータ、HRTF処理部33−5に対する例えば
操作情報Cの角度情報に応じた周波数伝達特性の向上ま
たは低下のための操作メタデータによる信号処理がある
か、または、パラメータ設定部が、図6で示したイコラ
イザ処理部33−1に対する例えば操作情報Cの時間情
報に応じた高周波数帯域または低周波数帯域におけるイ
コライザ処理の低下のための時間メタデータ、リバーブ
処理部33−2に対する例えば操作情報Cの時間情報に
応じた高周波数帯域または低周波数帯域におけるリバー
ブ処理の低下のための時間メタデータ、パン処理部33
−4に対する例えば操作情報Cの時間情報に応じた音の
位置の移動のための時間メタデータ、またはHRTF処
理部33−5に対する例えば操作情報Cの時間情報に応
じた周波数伝達特性の向上または低下のための時間メタ
データによるものであるか否かを判断する。
In step S24, it is determined whether or not the reproduction mode is the time metadata reproduction mode. Specifically, the parameter setting unit operates metadata for lowering the equalizer process in the high frequency band or the low frequency band corresponding to the angle information of the operation information C for the equalizer processing unit 33-1 illustrated in FIG. 5, for example. , Operation metadata for lowering the reverb processing in the high frequency band or the low frequency band according to the angle information of the operation information C, for example, to the reverb processing unit 33-2, and the angle of the operation information C for the pan processing unit 33-4, for example. The operation metadata for moving the position of the sound according to the information, the signal processing by the operation metadata for improving or reducing the frequency transfer characteristic according to the angle information of the operation information C for the HRTF processing unit 33-5. If the parameter setting unit is the operation information C for the equalizer processing unit 33-1 shown in FIG. Time metadata for lowering the equalizer processing in the high frequency band or the low frequency band according to the information, reverb processing in the high frequency band or the low frequency band according to the time information of the operation information C for the reverb processing unit 33-2, for example Metadata for lowering the pan, pan processing unit 33
-4, for example, time metadata for moving the position of the sound according to the time information of the operation information C, or improvement or deterioration of the frequency transfer characteristic according to the time information of the operation information C for the HRTF processing unit 33-5. To determine if it is due to time metadata.

【0111】ステップS24で、時間メタデータによる
再生モードでないときは、ステップS25へ進み、ステ
ップS25で、視点情報と一致したら操作情報を信号処
理部に送って変更する。具体的には、操作メタデータに
よる再生モードのとき、視点選択部23の選択による角
度情報と対応するように、図5で示したイコライザ処理
部33−1に対する例えば操作情報Cの角度情報に応じ
た高周波数帯域または低周波数帯域におけるイコライザ
処理の低下のための操作メタデータ、リバーブ処理部3
3−2に対する例えば操作情報Cの角度情報に応じた高
周波数帯域または低周波数帯域におけるリバーブ処理の
低下のための操作メタデータ、パン処理部33−4に対
する例えば操作情報Cの角度情報に応じた音の位置の移
動のための操作メタデータ、HRTF処理部33−5に
対する例えば操作情報Cの角度情報に応じた周波数伝達
特性の向上または低下のための操作メタデータによる信
号処理を施す。
In step S24, when it is not in the reproduction mode by the time metadata, the process proceeds to step S25, and in step S25, if it matches the viewpoint information, the operation information is sent to the signal processing unit to be changed. Specifically, in the reproduction mode based on the operation metadata, according to the angle information of the operation information C, for example, with respect to the equalizer processing unit 33-1 illustrated in FIG. 5, so as to correspond to the angle information selected by the viewpoint selecting unit 23. Operation metadata for reducing equalizer processing in a high frequency band or a low frequency band, reverb processing unit 3
3-2, for example, operation metadata for reducing reverb processing in a high frequency band or a low frequency band according to angle information of the operation information C, and for example, according to angle information of the operation information C for the pan processing unit 33-4. Signal processing is performed using operation metadata for moving a sound position, and operation metadata for improving or reducing frequency transfer characteristics according to, for example, angle information of the operation information C for the HRTF processing unit 33-5.

【0112】ステップS24で、時間メタデータによる
再生モードであるときは、ステップS27へ進み、ステ
ップS27で、時間になったら操作情報を信号処理部に
送って変更する。具体的には、時間メタデータによる再
生モードのとき、時間情報と対応するように、図6で示
したイコライザ処理部33−1に対する例えば操作情報
Cの時間情報に応じた高周波数帯域または低周波数帯域
におけるイコライザ処理の低下のための時間メタデー
タ、リバーブ処理部33−2に対する例えば操作情報C
の時間情報に応じた高周波数帯域または低周波数帯域に
おけるリバーブ処理の低下のための時間メタデータ、パ
ン処理部33−4に対する例えば操作情報Cの時間情報
に応じた音の位置の移動のための時間メタデータ、HR
TF処理部33−5に対する例えば操作情報Cの時間情
報に応じた周波数伝達特性の向上または低下のための時
間メタデータにより信号処理を施す。
In step S24, if the reproduction mode is based on the time metadata, the process proceeds to step S27, and in step S27, the operation information is sent to the signal processing unit to be changed at the time. Specifically, in the reproduction mode based on time metadata, for example, a high frequency band or a low frequency band corresponding to the time information of the operation information C for the equalizer processing unit 33-1 illustrated in FIG. Time metadata for lowering the equalizer processing in the band, for example, operation information C for the reverb processing unit 33-2
Time metadata for lowering the reverb processing in the high frequency band or the low frequency band according to the time information, for moving the position of the sound according to the time information of the operation information C with respect to the pan processing unit 33-4, for example. Time metadata, HR
For example, signal processing is performed on the TF processing unit 33-5 with time metadata for improving or decreasing the frequency transfer characteristic according to the time information of the operation information C.

【0113】ステップS26で、映像の再生をストップ
するか否かを判断する。ステップS26で、映像の再生
をストップしないときは、ステップS24へ戻ってステ
ップS24の判断を繰り返す。ステップS26で、映像
の再生をストップするときは、ステップS28へ進ん
で、ステップS282で、映像および音響の再生を止め
る。
In step S26, it is determined whether or not the reproduction of the video is stopped. When the reproduction of the video is not stopped in step S26, the process returns to step S24 and the determination in step S24 is repeated. When the reproduction of the video is stopped in step S26, the process proceeds to step S28, and the reproduction of the video and the sound is stopped in step S282.

【0114】図15は、制作系のチャンネルマッピング
の働きを示す図であり、図15Aはリアルサウンドの場
合、図15Bはバーチャルサウンドの場合、図15Cは
リアルサウンドとバーチャルサウンドの組み合わせの場
合である。
FIG. 15 is a diagram showing the function of channel mapping in the production system. FIG. 15A shows a case of real sound, FIG. 15B shows a case of virtual sound, and FIG. 15C shows a case of combination of real sound and virtual sound. .

【0115】図15Aにおいて、リアルサウンドの場合
には、操作情報Cにより、イコライザ処理部33−1に
対する高周波数帯域または低周波数帯域におけるイコラ
イザ処理の低下、リバーブ処理部33−2に対する高周
波数帯域または低周波数帯域におけるリバーブ処理の低
下、音量処理部33−3に対する音量の低下、サラウン
ドパン処理部151に対するサラウンド音響の位置の移
動により信号処理を施す。これにより、例えば、4チャ
ンネルまたは5チャンネルなどのリアルサラウンドマル
チ出力を得ることができる。
In FIG. 15A, in the case of real sound, the operation information C is used to decrease the equalizer processing in the high frequency band or the low frequency band for the equalizer processing section 33-1 and the high frequency band for the reverb processing section 33-2 or Signal processing is performed by lowering the reverb processing in the low frequency band, lowering the volume for the volume processing unit 33-3, and moving the position of the surround sound with respect to the surround pan processing unit 151. Thereby, for example, real surround multi-output of 4 channels or 5 channels can be obtained.

【0116】図15Bにおいて、バーチャルサウンドの
場合には、操作情報Cにより、イコライザ処理部33−
1に対する高周波数帯域または低周波数帯域におけるイ
コライザ処理の低下、リバーブ処理部33−2に対する
高周波数帯域または低周波数帯域におけるリバーブ処理
の低下、音量処理部33−3に対する音量の低下、HR
TF処理部33−5に対する周波数伝達特性の向上また
は低下により信号処理を施す。これにより、例えば、選
択設定されたオーディオ信号のチャンネルに対して任意
の位置に再生音像を定位させることができる。
In FIG. 15B, in the case of virtual sound, the equalizer processing unit 33-
1, a decrease in equalizer processing in a high frequency band or a low frequency band, a decrease in reverb processing in a high frequency band or a low frequency band in a reverb processing unit 33-2, a decrease in sound volume in a sound volume processing unit 33-3, and HR
Signal processing is performed by improving or decreasing the frequency transfer characteristic with respect to the TF processing unit 33-5. Thereby, for example, the reproduced sound image can be localized at an arbitrary position with respect to the channel of the selected and set audio signal.

【0117】図15Cにおいて、リアルサウンドとバー
チャルサウンドの組み合わせの場合には、スイッチSW
21、SW22、SW23、SW24の切り替えに応じ
て、操作情報Cにより、イコライザ処理部33−1に対
する高周波数帯域または低周波数帯域におけるイコライ
ザ処理の低下、リバーブ処理部33−2に対する高周波
数帯域または低周波数帯域におけるリバーブ処理の低
下、音量処理部33−3に対する音量の低下、サラウン
ドパン処理部151に対するサラウンド音響の位置の移
動により信号処理を施すことにより、リアルサラウンド
の出力を得る場合と、操作情報Cにより、イコライザ処
理部33−1に対する高周波数帯域または低周波数帯域
におけるイコライザ処理の低下、リバーブ処理部33−
2に対する高周波数帯域または低周波数帯域におけるリ
バーブ処理の低下、音量処理部33−3に対する音量の
低下、HRTF処理部33−5に対する周波数伝達特性
の向上または低下により信号処理を施す。
In FIG. 15C, in the case of a combination of real sound and virtual sound, the switch SW
According to the switching of 21, SW22, SW23, and SW24, the operation information C is used to decrease the equalizer processing in the high frequency band or the low frequency band for the equalizer processing unit 33-1 and the high frequency band or the low frequency for the reverb processing unit 33-2. A case where a real surround output is obtained by performing signal processing by lowering the reverb processing in the frequency band, lowering the volume for the volume processing unit 33-3, and moving the position of the surround sound with respect to the surround pan processing unit 151, and the operation information. C reduces the equalizer processing in the high frequency band or the low frequency band with respect to the equalizer processing unit 33-1 and the reverb processing unit 33-
The signal processing is performed by reducing the reverb processing in the high frequency band or the low frequency band for 2, reducing the volume of the volume processing unit 33-3, and improving or reducing the frequency transfer characteristic of the HRTF processing unit 33-5.

【0118】これにより、バーチャルサラウンドの出力
を得る場合とを選択的に切り換えることができるので、
リアルサラウンドの再生をしているときに、SW21、
SW22、SW23、SW24の切り換えを行うことに
より、選択設定されたオーディオ信号のチャンネルに対
してのみ任意の位置に再生音像を定位させることができ
る。
With this, it is possible to selectively switch between the case of obtaining the output of the virtual surround,
While playing the real surround, SW21,
By switching SW22, SW23, and SW24, the reproduced sound image can be localized at an arbitrary position only for the channel of the audio signal that is selected and set.

【0119】このときにも、例えば、操作情報Cに基づ
いて、角度情報が45度で音響を3dB下げる視点操作
メタデータ155を記録するようにし、また、操作情報
Cおよび時間情報154に基づいて、1分30秒15フ
レームでモード1からモード2に切り換える時間メタデ
ータを記録するようにしてもよい。
Also at this time, for example, based on the operation information C, the viewpoint operation metadata 155 for reducing the sound by 3 dB when the angle information is 45 degrees is recorded, and based on the operation information C and the time information 154. Time metadata for switching from mode 1 to mode 2 may be recorded in 1 minute 30 seconds 15 frames.

【0120】なお、図15Aおよび図15Bの場合にも
同様に、操作メタデータまたは時間メタデータを記録す
るようにしてもよい。
In the case of FIGS. 15A and 15B as well, the operation metadata or the time metadata may be recorded.

【0121】図16は、制作系と再生系のチャンネルマ
ッピングのバリエーションを示す図であり、図16Aは
インパルス応答畳み込み型の場合、図16Bは5ch出
力対応のリバーブ処理の場合である。図16Aにおい
て、インパルス応答畳み込み型の場合には、イコライザ
処理部33−1に対する高周波数帯域または低周波数帯
域におけるイコライザ処理の低下、音量処理部33−3
に対する音量の低下、インパルス応答畳み込み型のサラ
ウンドパン処理部161に対するインパルス応答が畳み
込まれたサラウンド音響の位置の移動により信号処理を
施すことにより、インパルス応答畳み込み型のサラウン
ドパン処理部161の中にリバーブ処理部が含まれるた
め、リバーブ処理部を設ける必要が無くなる。これによ
り、補正されたサラウンドチャンネルを有する5チャン
ネル出力を得ることができる。
16A and 16B are diagrams showing variations of channel mapping between the production system and the reproduction system. FIG. 16A shows a case of impulse response convolution type, and FIG. 16B shows a case of reverb processing compatible with 5ch output. In FIG. 16A, in the case of the impulse response convolution type, the equalizer processing is reduced in the high frequency band or the low frequency band with respect to the equalizer processing section 33-1 and the volume processing section 33-3.
To the impulse response convolution-type surround pan processing unit 161. Since the reverb processing unit is included, it is not necessary to provide the reverb processing unit. This makes it possible to obtain a 5-channel output having a corrected surround channel.

【0122】図16Bにおいて、5ch出力対応のリバ
ーブ処理の場合には、イコライザ処理部33−1に対す
る高周波数帯域または低周波数帯域におけるイコライザ
処理の低下、音量処理部33−3に対する音量の低下、
サラウンドパン処理部161に対するインパルス応答が
畳み込まれたサラウンド音響の位置の移動に対して加算
器163〜167を用いて並列的にリバーブ処理部33
−2に対する高周波数帯域または低周波数帯域における
リバーブ処理の低下により信号処理を施して加算するこ
とにより、各チャンネルについてリバーブ処理を行って
補正されたサラウンドチャンネルを有する5チャンネル
出力を得ることができる。
In FIG. 16B, in the case of reverb processing for 5ch output, the equalizer processing in the high frequency band or the low frequency band for the equalizer processing section 33-1 is reduced, and the volume processing section 33-3 is reduced in volume.
The reverb processing unit 33 is parallelly used by using the adders 163-167 with respect to the movement of the position of the surround sound in which the impulse response to the surround pan processing unit 161 is convoluted.
It is possible to obtain a 5-channel output having a corrected surround channel by performing reverb processing on each channel by performing signal processing by adding due to the reduction of the reverb processing in the high frequency band or the low frequency band with respect to −2.

【0123】なお、上述した実施の形態に示した例に限
らず、本発明の特許請求の範囲であれば、適宜他の例を
用いることができることはいうまでもない。
Needless to say, the present invention is not limited to the examples shown in the above-mentioned embodiments, and other examples can be appropriately used within the scope of the claims of the present invention.

【0124】[0124]

【発明の効果】この発明の音像定位信号処理装置は、基
準位置に対して角度情報を有する映像信号に基づく映像
に対応するように再生系における再生音像を任意の位置
に定位させるように制作系において複数の音源から入力
される各音源データを合成手段により合成したオーディ
オ信号に信号処理を施す音像定位信号処理装置におい
て、上記映像信号に基づく映像の再生音像の角度情報と
なるユーザーの視点選択情報を選択する選択手段と、上
記選択手段により選択された再生音像の角度情報となる
ユーザーの視点選択情報に対応する上記オーディオ信号
のチャンネルに音像定位のための信号処理をリアルタイ
ムで施す音像定位制御処理手段と、上記音像定位制御処
理手段により信号処理を施すための制御情報を生成する
制御情報生成手段と、上記映像信号に上記オーディオ信
号および上記制御情報を重畳して送出用情報を生成する
送出用情報生成手段とを備え、上記オーディオ信号にリ
アルタイムで信号処理を施して上記映像信号に基づく映
像に対応して音像定位位置を制御するようにしたので、
自由視点映像に対するオーディオ信号の再生において、
角度を変化させて映像を移動させて再生した場合にも移
動する映像の方向に音像を定位させるようにするための
制御を制作時に行うことができるという効果を奏する。
According to the sound image localization signal processing apparatus of the present invention, the production system is arranged so that the reproduced sound image in the reproduction system is localized at an arbitrary position so as to correspond to the image based on the image signal having the angle information with respect to the reference position. In a sound image localization signal processing device that performs signal processing on an audio signal obtained by synthesizing sound source data input from a plurality of sound sources by a synthesizing means, user's viewpoint selection information serving as angle information of a reproduced sound image of a video based on the video signal. And a sound image localization control process for performing in real time signal processing for sound image localization on the channel of the audio signal corresponding to the viewpoint selection information of the user, which is the angle information of the reproduced sound image selected by the selection device. Means, and control information generation means for generating control information for performing signal processing by the sound image localization control processing means A transmission information generating means for generating transmission information by superimposing the audio signal and the control information on the video signal, and performing signal processing on the audio signal in real time to correspond to the video based on the video signal. Since I tried to control the sound image localization position,
When playing back audio signals for free-viewpoint video,
Even if the image is moved by changing the angle and reproduced, the control for localizing the sound image in the direction of the moving image can be performed at the time of production.

【0125】また、この発明の音像定位信号処理装置
は、上述において、上記音像定位制御処理手段は、複数
のチャンネルの上記オーディオ信号のうちすべてのチャ
ンネルに上記音像定位制御処理手段により信号処理を施
す第1の動作モードと、複数のチャンネルの上記オーデ
ィオ信号のうち特定のチャンネルのみを指定して上記音
像定位制御処理手段により信号処理を施して他のチャン
ネルは上記信号処理を施さない第2の動作モードとを設
定する動作モード設定手段を有するので、動作モードに
応じてチャンネル毎に音像定位を可能とすることができ
るという効果を奏する。
Further, in the sound image localization signal processing device of the invention, in the above description, the sound image localization control processing means performs signal processing by the sound image localization control processing means on all channels of the audio signals of a plurality of channels. The second operation mode, and the second operation in which only specific channels of the audio signals of a plurality of channels are designated and signal processing is performed by the sound image localization control processing means and the other channels are not subjected to the signal processing. Since there is an operation mode setting means for setting the mode, there is an effect that it is possible to perform sound image localization for each channel according to the operation mode.

【0126】また、この発明の音像定位信号処理装置
は、上述において、上記音像定位制御処理手段は、上記
選択手段により選択された再生音像の角度情報となるユ
ーザーの視点選択情報に対応するように、上記映像信号
のフレーム処理、水平角度処理、ズーム処理および/ま
たは垂直角度処理により上記オーディオ信号に上記信号
処理を施すための操作信号を生成するトラック設定手段
を有するので、選択手段により選択された再生音像の角
度情報となるユーザーの視点選択情報に対応するよう
に、映像信号の画像の処理をして生成された操作信号に
よりオーディオ信号に信号処理を施すようにすることが
できるという効果を奏する。
Further, in the sound image localization signal processing device of the present invention, in the above description, the sound image localization control processing means corresponds to the viewpoint selection information of the user, which is the angle information of the reproduced sound image selected by the selection means. Selected by the selecting means because it has a track setting means for generating an operation signal for performing the signal processing on the audio signal by frame processing, horizontal angle processing, zoom processing and / or vertical angle processing of the video signal. The present invention has an effect that it is possible to perform signal processing on an audio signal by an operation signal generated by processing an image of a video signal so as to correspond to user's viewpoint selection information which is angle information of a reproduced sound image. .

【0127】また、この発明の音像定位信号処理装置
は、上述において、上記音像定位制御処理手段は、上記
トラック設定手段からの上記操作信号に基づいて、上記
オーディオ信号に所定のパラメータによりイコライジン
グ処理、リバーブ処理、音量処理、パン処理および/ま
たは伝達特性処理を施すパラメータ設定手段を有するの
で、パラメータに応じてオーディオ信号に信号処理を施
すようにして音像定位を変化させることができるという
効果を奏する。
Further, in the sound image localization signal processing device of the present invention, in the above description, the sound image localization control processing means, based on the operation signal from the track setting means, equalizes the audio signal with a predetermined parameter, Since it has the parameter setting means for performing the reverb processing, the volume processing, the pan processing and / or the transfer characteristic processing, it is possible to change the sound image localization by performing the signal processing on the audio signal according to the parameter.

【0128】また、この発明の音像定位信号処理装置
は、上述において、上記制御情報生成手段は、上記視点
選択情報に対応するパラメータにより上記制御情報を生
成するので、視点選択情報に対応する制御情報により音
像定位を変化させることができるという効果を奏する。
Further, in the sound image localization signal processing device of the present invention, in the above, the control information generating means generates the control information by the parameter corresponding to the viewpoint selection information, so that the control information corresponding to the viewpoint selection information is generated. This has the effect of changing the sound image localization.

【0129】また、この発明の音像定位信号処理装置
は、上述において、上記制御情報生成手段は、時間軸情
報に対応するパラメータにより上記制御情報を生成する
時間情報に対応する制御情報により音像定位を変化させ
ることができるという効果を奏する。
Further, in the sound image localization signal processing device of the present invention, in the above description, the control information generating means localizes the sound image by the control information corresponding to the time information for generating the control information by the parameter corresponding to the time axis information. The effect that it can be changed is produced.

【0130】また、この発明の音像定位信号処理装置
は、上述において、上記音像定位制御処理手段は、上記
動作モード設定手段により上記第1の動作モードと上記
第2の動作モードとを時間軸上で切り換えるので、時間
軸上で第1の動作モードの固定チャンネルモードと第2
の動作モードの非固定チャンネルモードとを切り換える
ことができ、自由視点映像のシーンの切り換え時などに
おけるオーディオ信号に対する音像定位処理の態様を多
様にすることができるという効果を奏する。
Further, in the sound image localization signal processing device of the present invention, in the above description, the sound image localization control processing means sets the first operation mode and the second operation mode on the time axis by the operation mode setting means. Since it is switched with, the fixed channel mode of the first operation mode and the second
The operation mode can be switched to the non-fixed channel mode, and the mode of the sound image localization processing for the audio signal at the time of switching the scene of the free viewpoint video can be diversified.

【0131】また、この発明の音像定位信号処理装置
は、上述において、上記音像定位制御処理手段は、複数
のチャンネルの上記オーディオ信号のうちバーチャルサ
ラウンドのチャンネルのみを指定して上記信号処理を施
して他のリアルサラウンドのチャンネルは上記信号処理
を施さないので、バーチャルサラウンドの出力を得る場
合とを選択的に切り換えることができるので、リアルサ
ラウンドの再生をしているときに、切り換えを行うこと
により、選択設定されたオーディオ信号のチャンネルに
対してのみ任意の位置に再生音像を定位させることがで
きるという効果を奏する。
Further, in the sound image localization signal processing device of the present invention, in the above description, the sound image localization control processing means performs the signal processing by designating only the virtual surround channel among the audio signals of a plurality of channels. Since other real surround channels do not perform the above signal processing, it is possible to selectively switch between the case of obtaining the output of virtual surround, so by switching during real surround playback, The reproduced sound image can be localized at an arbitrary position only for the channel of the audio signal that is selected and set.

【0132】また、この発明の音像定位信号処理装置
は、複数の音源から入力される各音源データを合成手段
により合成して制作系における制御情報により信号処理
を施したオーディオ信号について、基準位置に対して角
度情報を有する映像信号に基づく映像に対応するように
再生系において再生音像を任意の位置に定位させるよう
に再生用情報に信号処理を施す音像定位信号処理装置に
おいて、上記再生用情報における映像信号に重畳された
上記オーディオ信号および上記制御情報から、上記映像
信号、上記オーディオ信号および上記制御情報を読み出
す再生用情報読み出し手段と、上記映像信号を再生する
映像信号再生手段と、上記映像信号に基づく映像の再生
音像の角度情報となるユーザーの視点選択情報を選択す
る選択手段と、上記選択手段により選択された再生音像
の角度情報となるユーザーの視点選択情報に対応する上
記オーディオ信号のチャンネルに音像定位のための信号
処理をリアルタイムで施す音像定位制御処理手段とを備
え、上記オーディオ信号にリアルタイムで信号処理を施
して上記映像信号に基づく映像に対応して音像定位位置
を制御するようにしたので、自由視点映像に対するオー
ディオ信号の再生において、角度を変化させて映像を移
動させて再生した場合にも移動する映像の方向に音像を
定位させることができるという効果を奏する。
Further, the sound image localization signal processing device of the present invention synthesizes each sound source data input from a plurality of sound sources by the synthesizing means and performs signal processing by the control information in the production system, at the reference position. On the other hand, in the sound image localization signal processing device for performing signal processing on the reproduction information so as to localize the reproduction sound image in the reproduction system so as to correspond to the image based on the video signal having the angle information, in the reproduction information, Reproduction information reading means for reading the video signal, the audio signal and the control information from the audio signal and the control information superimposed on the video signal, a video signal reproducing means for reproducing the video signal, and the video signal Selecting means for selecting the viewpoint selection information of the user, which is the angle information of the reproduced sound image of the video based on Audio signal localization control processing means for performing in real time signal processing for sound image localization on the channel of the audio signal corresponding to the viewpoint selection information of the user, which is the angle information of the reproduced sound image selected by the selection means. Since the sound image localization position is controlled according to the video based on the above video signal by performing signal processing in real time, in the playback of the audio signal for the free-viewpoint video, the video is moved by changing the angle and played back. Even in this case, there is an effect that the sound image can be localized in the direction of the moving image.

【0133】また、この発明の音像定位信号処理装置
は、上述において、上記音像定位制御処理手段は、上記
視点選択情報に対応して、上記オーディオ信号に所定の
パラメータにより少なくともサラウンドパン処理を施す
パラメータ設定手段を有するので、補正されたサラウン
ドチャンネルを有する出力を得ることができるという効
果を奏する。
Further, in the sound image localization signal processing device of the present invention, in the above description, the sound image localization control processing means is a parameter for performing at least surround pan processing on the audio signal by a predetermined parameter, corresponding to the viewpoint selection information. Since the setting means is provided, it is possible to obtain an output having a corrected surround channel.

【0134】また、この発明の音像定位信号処理方法
は、基準位置に対して角度情報を有する映像信号に基づ
く映像に対応するように再生系における再生音像を任意
の位置に定位させるように制作系において複数の音源か
ら入力される各音源データを合成手段により合成したオ
ーディオ信号に信号処理を施す音像定位信号処理方法に
おいて、上記映像信号に基づく映像の再生音像の角度情
報となるユーザーの視点選択情報を選択する選択ステッ
プと、上記選択ステップにより選択された再生音像の角
度情報となるユーザーの視点選択情報に対応する上記オ
ーディオ信号のチャンネルに音像定位のための信号処理
をリアルタイムで施す音像定位制御処理ステップと、上
記音像定位制御処理ステップにより信号処理を施すため
の制御情報を生成する制御情報生成ステップと、上記映
像信号に上記オーディオ信号および上記制御情報を重畳
して送出用情報を生成する送出用情報生成ステップとを
備え、上記オーディオ信号にリアルタイムで信号処理を
施して上記映像信号に基づく映像に対応して音像定位位
置を制御するようにしたので、自由視点映像に対するオ
ーディオ信号の再生において、角度を変化させて映像を
移動させて再生した場合にも移動する映像の方向に音像
を定位させるようにするための制御を制作時に行うこと
ができるという効果を奏する。
Further, according to the sound image localization signal processing method of the present invention, the production system is arranged so that the reproduced sound image in the reproduction system is localized at an arbitrary position so as to correspond to the image based on the image signal having the angle information with respect to the reference position. In the sound image localization signal processing method for performing signal processing on an audio signal obtained by synthesizing sound source data input from a plurality of sound sources by a synthesizing means, user's viewpoint selection information serving as angle information of a reproduced sound image of a video based on the video signal. And a sound image localization control process for performing, in real time, signal processing for sound image localization on the channel of the audio signal corresponding to the user's viewpoint selection information that is the angle information of the reproduced sound image selected by the selection step. And control information for performing signal processing by the sound image localization control processing step. A control information generation step; and a transmission information generation step of superimposing the audio signal and the control information on the video signal to generate transmission information, wherein the video signal is subjected to signal processing in real time. Since the sound image localization position is controlled in accordance with the video based on, the sound image is moved in the direction of the moving image even when the image is moved by changing the angle when reproducing the audio signal for the free viewpoint image. This has the effect that control for localizing can be performed during production.

【0135】また、この発明の音像定位信号処理方法
は、複数の音源から入力される各音源データを合成手段
により合成して制作系における制御情報により信号処理
を施したオーディオ信号について、基準位置に対して角
度情報を有する映像信号に基づく映像に対応するように
再生系において再生音像を任意の位置に定位させるよう
に再生用情報に信号処理を施す音像定位信号処理方法に
おいて、上記再生用情報における映像信号に重畳された
上記オーディオ信号および上記制御情報から、上記映像
信号、上記オーディオ信号および上記制御情報を読み出
す再生用情報読み出しステップと、上記映像信号を再生
する映像信号再生ステップと、上記映像信号に基づく映
像の再生音像の角度情報となるユーザーの視点選択情報
を選択する選択ステップと、上記選択ステップにより選
択された再生音像の角度情報となるユーザーの視点選択
情報に対応する上記オーディオ信号のチャンネルに音像
定位のための信号処理をリアルタイムで施す音像定位制
御処理ステップとを備え、上記オーディオ信号にリアル
タイムで信号処理を施して上記映像信号に基づく映像に
対応して音像定位位置を制御するようにしたので、自由
視点映像に対するオーディオ信号の再生において、角度
を変化させて映像を移動させて再生した場合にも移動す
る映像の方向に音像を定位させることができるという効
果を奏する。
Further, according to the sound image localization signal processing method of the present invention, the audio signals obtained by synthesizing the sound source data input from a plurality of sound sources by the synthesizing means and performing the signal processing by the control information in the production system are set at the reference position. On the other hand, in the sound image localization signal processing method for performing signal processing on the reproduction information so as to localize the reproduction sound image in the reproduction system so as to correspond to the video based on the video signal having the angle information, in the reproduction information, A reproduction information reading step for reading the video signal, the audio signal and the control information from the audio signal and the control information superimposed on the video signal; a video signal reproducing step for reproducing the video signal; and the video signal Selection step to select the user's viewpoint selection information, which is the angle information of the reproduced sound image of the video based on And a sound image localization control processing step for performing in real time signal processing for sound image localization on the channel of the audio signal corresponding to the viewpoint selection information of the user, which is the angle information of the reproduced sound image selected in the selection step. Since the audio signal is subjected to signal processing in real time to control the sound image localization position corresponding to the image based on the image signal, the angle of the image can be changed during the reproduction of the audio signal with respect to the free viewpoint image. Even when the image is moved and reproduced, there is an effect that the sound image can be localized in the direction of the moving image.

【図面の簡単な説明】[Brief description of drawings]

【図1】本実施の形態に適用される自由視点映像・音声
制作再生システムの制作系の音像定位信号処理装置の構
成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a sound image localization signal processing device of a production system of a free-viewpoint video / audio production / reproduction system applied to this embodiment.

【図2】本実施の形態に適用される自由視点映像・音声
制作再生システムの再生系の音像定位信号処理装置の構
成を示すブロック図である。
FIG. 2 is a block diagram showing a configuration of a sound image localization signal processing device of a reproduction system of a free-viewpoint video / audio production / reproduction system applied to the present embodiment.

【図3】チャンネルマッピング部の構成を示すブロック
図である。
FIG. 3 is a block diagram showing a configuration of a channel mapping unit.

【図4】GUIアプリケーション画面を示す図である。FIG. 4 is a diagram showing a GUI application screen.

【図5】操作メタデータの生成を示す図である。FIG. 5 is a diagram showing generation of operation metadata.

【図6】時間メタデータの生成を示す図である。FIG. 6 is a diagram showing generation of time metadata.

【図7】メタデータの記録フォーマットを示す図であ
り、図7Aは1フレームの先頭、図7Bは1フレームの
末尾、図7Cは各アルバムの先頭に記録するものであ
る。
7A and 7B are views showing a recording format of metadata. FIG. 7A shows the beginning of one frame, FIG. 7B shows the end of one frame, and FIG. 7C shows the beginning of each album.

【図8】360度カメラ撮像映像を示す図である。FIG. 8 is a diagram showing an image captured by a 360-degree camera.

【図9】円周状カメラによる撮像を示す図である。FIG. 9 is a diagram showing imaging by a circumferential camera.

【図10】時間軸上での動作モードの切り換えを示す図
である。
FIG. 10 is a diagram showing switching of operation modes on a time axis.

【図11】HRTFによる補正音像を示す図である。FIG. 11 is a diagram showing a corrected sound image by HRTF.

【図12】HRTFによる補正処理の構成図である。FIG. 12 is a configuration diagram of a correction process by HRTF.

【図13】制作系のフローチャートである。FIG. 13 is a flowchart of a production system.

【図14】再生系のフローチャートである。FIG. 14 is a flowchart of a reproduction system.

【図15】制作系のチャンネルマッピングの働きを示す
図であり、図15Aはリアルサウンドの場合、図15B
はバーチャルサウンドの場合、図15Cはリアルサウン
ドとバーチャルサウンドの組み合わせの場合である。
FIG. 15 is a diagram showing a function of channel mapping in a production system, and FIG. 15A shows a case of real sound, and FIG.
Shows a case of virtual sound, and FIG. 15C shows a case of combination of real sound and virtual sound.

【図16】制作系と再生系のチャンネルマッピングのバ
リエーションを示す図であり、図16Aはインパルス応
答畳み込み型の場合、図16Bは5ch出力対応のリバ
ーブ処理の場合である。
16A and 16B are diagrams showing a variation of channel mapping of a production system and a reproduction system, FIG. 16A shows a case of an impulse response convolution type, and FIG. 16B shows a case of reverb processing compatible with 5ch output.

【符号の説明】[Explanation of symbols]

1……自由視点カメラのマイク素材、2……その他の素
材、3……ミキサ、4……自由視点ビューア、5……視
点選択部、6……チャンネルマッピング部、7……オー
ディオモニタ、8……オーディオレコーダ、9……メタ
データ、10……映像データ、11……オーディオイン
ターリーブ、12……送出用データ、13……ネットワ
ーク、14……記録媒体、21……再生用データ、22
……ビデオプレーヤ、23……視点選択部、24……チ
ャンネルマッピング部、25……メタデータ、26……
ビデオモニタ、27……オーディオモニタ、31……動
作モード設定部、32……トラック設定部、33……パ
ラメータ設定部、31−1……固定チャンネルモード、
31−2……非固定チャンネルモード、32−1……フ
レーム処理部、32−2……水平角度処理部、32−3
……ズーム処理部、32−4……垂直角度処理部、33
−1……イコライザ処理部、33−2……リバーブ処理
部、33−3……音響処理部、33−4……パン処理
部、33−5……HRTF処理部、41……GUIアプ
リケーション画面、42……動作モード設定部、43…
…トラック設定部、44……パラメータ設定部、C……
操作情報、MC……操作メタデータ、MT……時間メタ
データ、81……全方位カメラ、82……360度カメ
ラ映像、91……円周状カメラ
1 ... Microphone material for free-view camera, 2 ... Other materials, 3 ... Mixer, 4 ... Free-view viewer, 5 ... View selection section, 6 ... Channel mapping section, 7 ... Audio monitor, 8 ...... Audio recorder, 9 ... Metadata, 10 ... Video data, 11 ... Audio interleave, 12 ... Sending data, 13 ... Network, 14 ... Recording medium, 21 ... Playing data, 22
...... Video player, 23 ...... Viewpoint selection section, 24 ...... Channel mapping section, 25 ...... Metadata, 26 ......
Video monitor, 27 ... Audio monitor, 31 ... Operation mode setting unit, 32 ... Track setting unit, 33 ... Parameter setting unit, 31-1 ... Fixed channel mode,
31-2 ... Non-fixed channel mode, 32-1, ... Frame processing unit, 32-2 ... Horizontal angle processing unit, 32-3
...... Zoom processing unit, 32-4 …… Vertical angle processing unit, 33
-1 ... equalizer processing unit, 33-2 ... reverb processing unit, 33-3 ... acoustic processing unit, 33-4 ... pan processing unit, 33-5 ... HRTF processing unit, 41 ... GUI application screen , 42 ... Operation mode setting section, 43 ...
… Track setting section, 44 …… Parameter setting section, C ……
Operation information, MC ... Operation metadata, MT ... Time metadata, 81 ... Omnidirectional camera, 82 ... 360-degree camera image, 91 ... Circular camera

─────────────────────────────────────────────────────
─────────────────────────────────────────────────── ───

【手続補正書】[Procedure amendment]

【提出日】平成15年3月31日(2003.3.3
1)
[Submission date] March 31, 2003 (2003.3.3)
1)

【手続補正1】[Procedure Amendment 1]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】特許請求の範囲[Name of item to be amended] Claims

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【特許請求の範囲】[Claims]

【請求項10】 複数の音源から入力される各音源デー
タを合成手段により合成して制作系における制御情報に
より信号処理を施したオーディオ信号について、基準位
置に対して角度情報を有する映像信号に基づく映像に対
応するように再生系において再生音像を任意の位置に定
位させるように再生用情報に信号処理を施す音像定位信
号処理装置において、 上記再生用情報における映像信号に重畳された上記オー
ディオ信号および上記制御情報から、上記映像信号、上
記オーディオ信号および上記制御情報を読み出す再生用
情報読み出し手段と、 上記映像信号を再生する映像信号再生手段と、 上記映像信号に基づく映像の再生音像の角度情報となる
ユーザーの視点選択情報を選択する選択手段と、 上記選択手段により選択された再生音像の角度情報とな
るユーザーの視点選択情報に対応する上記オーディオ信
号のチャンネルに音像定位のための信号処理をリアルタ
イムで施す音像定位制御処理手段と、 を備え、上記オーディオ信号にリアルタイムで信号処理
を施して上記映像信号に基づく映像に対応して音像定位
位置を制御するようにしたことを特徴とする音像定位信
号処理装置。
10. An audio signal obtained by synthesizing sound source data input from a plurality of sound sources by a synthesizing means and performing signal processing by control information in a production system, based on a video signal having angle information with respect to a reference position. In a sound image localization signal processing device for performing signal processing on reproduction information so as to localize a reproduction sound image at an arbitrary position in a reproduction system so as to correspond to an image, the audio signal and the audio signal superimposed on the video signal in the reproduction information and Reproduction information reading means for reading the video signal, the audio signal and the control information from the control information, a video signal reproducing means for reproducing the video signal, and angle information of a reproduced sound image of the video based on the video signal. Selecting means for selecting the viewpoint selection information of the user, and the reproduced sound image selected by the selecting means. Sound signal localization control processing means for performing signal processing for sound image localization in real time on the channel of the audio signal corresponding to the user's viewpoint selection information that is the degree information, and performing signal processing on the audio signal in real time. A sound image localization signal processing device, characterized in that a sound image localization position is controlled corresponding to a video image based on the video signal.

【請求項11】 請求項10記載の音像定位信号処理装
置において、 上記音像定位制御処理手段は、上記視点選択情報に対応
して、上記オーディオ信号に所定のパラメータにより少
なくともサラウンドパン処理を施すパラメータ設定手段
を有することを特徴とする音像定位信号処理装置。
In the sound image localization signal processing device 11. The method of claim 10, wherein said sound image localization control processing means, in correspondence with the view point selection information, the parameter setting for performing at least surround pan processed by predetermined parameters to the audio signal A sound image localization signal processing device comprising means.

【請求項12】 基準位置に対して角度情報を有する映
像信号に基づく映像に対応するように再生系における再
生音像を任意の位置に定位させるように制作系において
複数の音源から入力される各音源データを合成手段によ
り合成したオーディオ信号に信号処理を施す音像定位信
号処理方法において、 上記映像信号に基づく映像の再生音像の角度情報となる
ユーザーの視点選択情報を選択する選択ステップと、 上記選択ステップにより選択された再生音像の角度情報
となるユーザーの視点選択情報に対応する上記オーディ
オ信号のチャンネルに音像定位のための信号処理をリア
ルタイムで施す音像定位制御処理ステップと、 上記音像定位制御処理ステップにより信号処理を施すた
めの制御情報を生成する制御情報生成ステップと、 上記映像信号に上記オーディオ信号および上記制御情報
を重畳して送出用情報を生成する送出用情報生成ステッ
プと、 を備え、上記オーディオ信号にリアルタイムで信号処理
を施して上記映像信号に基づく映像に対応して音像定位
位置を制御するようにしたことを特徴とする音像定位信
号処理方法。
12. A sound source input from a plurality of sound sources in a production system so that a reproduced sound image in a reproduction system is localized at an arbitrary position so as to correspond to a video based on a video signal having angle information with respect to a reference position. In a sound image localization signal processing method for performing signal processing on an audio signal obtained by synthesizing data by a synthesizing means, a selecting step for selecting viewpoint selection information of a user, which is angle information of a reproduced sound image of a video based on the video signal, and the selecting step. The sound image localization control processing step of performing signal processing for sound image localization in real time on the channel of the audio signal corresponding to the viewpoint selection information of the user, which is the angle information of the reproduced sound image selected by, and the sound image localization control processing step. A control information generating step for generating control information for performing signal processing, A sending information generating step of superimposing the audio signal and the control information on a signal to generate sending information, and performing signal processing on the audio signal in real time to correspond to a video based on the video signal. A sound image localization signal processing method characterized in that a sound image localization position is controlled.

【請求項13】 複数の音源から入力される各音源デー
タを合成手段により合成して制作系における制御情報に
より信号処理を施したオーディオ信号について、基準位
置に対して角度情報を有する映像信号に基づく映像に対
応するように再生系において再生音像を任意の位置に定
位させるように再生用情報に信号処理を施す音像定位信
号処理方法において、 上記再生用情報における映像信号に重畳された上記オー
ディオ信号および上記制御情報から、上記映像信号、上
記オーディオ信号および上記制御情報を読み出す再生用
情報読み出しステップと、 上記映像信号を再生する映像信号再生ステップと、 上記映像信号に基づく映像の再生音像の角度情報となる
ユーザーの視点選択情報を選択する選択ステップと、 上記選択ステップにより選択された再生音像の角度情報
となるユーザーの視点選択情報に対応する上記オーディ
オ信号のチャンネルに音像定位のための信号処理をリア
ルタイムで施す音像定位制御処理ステップと、 を備え、上記オーディオ信号にリアルタイムで信号処理
を施して上記映像信号に基づく映像に対応して音像定位
位置を制御するようにしたことを特徴とする音像定位信
号処理方法。
About 13. The audio signal subjected to the signal processing through the control information in the production system are synthesized by the sound source data combining means is input from a plurality of sound sources, based on the video signal having the angle information with respect to the reference position In a sound image localization signal processing method for subjecting reproduction information to signal processing so as to localize a reproduction sound image in an arbitrary position in a reproduction system so as to correspond to a video, the audio signal and the audio signal superposed on the video signal in the reproduction information and Reproduction information reading step for reading the video signal, the audio signal, and the control information from the control information, a video signal reproducing step for reproducing the video signal, and angle information of a reproduced sound image of a video based on the video signal. Selection step of selecting the viewpoint selection information of the user to be selected and the selection step above Sound image localization control processing step for performing in real time signal processing for sound image localization on the channel of the audio signal corresponding to the viewpoint selection information of the user, which is the angle information of the reproduced sound image. A sound image localization signal processing method, wherein signal processing is performed to control a sound image localization position corresponding to a video image based on the video signal.

【手続補正2】[Procedure Amendment 2]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0036[Correction target item name] 0036

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0036】パラメータ設定部33は、トラック設定部
32からの操作信号Cに基づいて、オーディオ信号に所
定のパラメータにより位相等化のイコライジング処理を
行うイコライジング処理部33−1と、残響のリバーブ
処理を行うリバーブ処理部33−2と、音量処理を行う
音量処理部33−3と、音像の移動のパン処理を行うパ
ン処理部33−4と、HRTF(頭部伝達関数:Hea
d RelatedTransfer Functio
)によりユーザーの耳に到達する伝達関数を変更する
ことにより音響特性処理を施すHRTF処理部33−5
とを有して構成される。
The parameter setting section 33 performs an equalizing processing section 33-1 for performing equalizing processing of phase equalization on the audio signal with a predetermined parameter, and a reverberation reverb processing based on the operation signal C from the track setting section 32. The reverb processing unit 33-2 for performing, the volume processing unit 33-3 for performing the volume processing, the pan processing unit 33-4 for performing the pan processing of the movement of the sound image, and the HRTF (head related transfer function: Hea).
d Related Transfer Function
The n) by changing the transfer function reaching the user's ear subjected to acoustic characteristics processing HRTF processor 33-5
And is configured.

【手続補正3】[Procedure 3]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0050[Correction target item name] 0050

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0050】このアドレス信号により予めメモリに記録
されている頭部の基準方向に対する仮想音源位置から両
耳に至るディジタル記録されたインパルスレスポンス
が、また他のメモリからは両耳間の時間差および両耳間
のレベル差を表す制御信号あるいはインパスレスポン
スを読み出す。畳み込み積分器または制御装置におい
て、このインパスレスポンスまたは制御信号と音響信
号とをリアルタイムで補正し変更する。
With this address signal, the digitally recorded impulse response from the virtual sound source position with respect to the reference direction of the head recorded in the memory in advance to both ears, and the time difference between both ears and both ears are recorded from other memories. reading a control signal or Inpa ls e response representing the level difference between. In the convolution integrator or controller, to correct and change the this Inpa ls e response or control signals and audio signals in real time.

【手続補正4】[Procedure amendment 4]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0053[Correction target item name] 0053

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0053】メモリからは、テーブルに対応したデータ
のうち、自由視点映像に対するリスナの視点の向きに対
応した規準方向に対する仮想音源位置から両耳に至るデ
ィジタル記録されたインパスレスポンスまたは両耳間
の時間差及び両耳間のレベル差を表す制御信号が取りだ
され、このデータが畳み込み積分器または制御装置に供
給される。
[0053] from the memory, of the data corresponding to the table, between a digital recorded Inpa ls e response or both ears reaching the ears from the virtual sound source position with respect to reference direction corresponding to the orientation of the listener's perspective for Free Viewpoint Video A control signal representing the time difference between the two and the level difference between the two ears is taken out, and this data is supplied to a convolution integrator or a controller.

【手続補正5】[Procedure Amendment 5]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0054[Correction target item name] 0054

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0054】視点選択部5からの角度情報に基づいてメ
モリから自由視点映像に対するリスナの視点の向きに対
応した頭部の規準方向に対する仮想音源位置から両耳に
至るディジタル記録されたインパスレスポンスまたは
両耳間の時間差及び両耳間のレベル差を表す制御信号が
取りだされ、このデータが畳み込み積分器または制御装
置に供給される。
[0054] viewpoint digitally recorded Inpa ls e response leading to both ears from the virtual sound source position from the memory based on the angle information for the criterion direction of the head corresponding to the orientation of the listener's perspective to the free viewpoint video from the selecting section 5 Alternatively, a control signal representing a time difference between both ears and a level difference between both ears is taken out, and this data is supplied to a convolution integrator or a controller.

【手続補正6】[Procedure correction 6]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0055[Correction target item name] 0055

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0055】このようにして、スピーカに供給されるオ
ーディオ信号L,Rは、自由視点映像に対するリスナの
視点の向きに対応した規準方向に対する仮想音源位置か
ら両耳に至るディジタル記録されたインパスレスポン
スまたは両耳間の時間差及び両耳間のレベル差を表す制
御信号との補正が行なわるので、自由視点映像に対す
るリスナの視点の移動に対しても、移動した方向に複数
個のスピーカが仮想音源位置に置かれてこのスピーカで
再生しているような音場感を得ることが出来る。
[0055] In this manner, the audio signal L supplied to the speaker, R represents a digital recorded Inpa ls e reaches the ears from the virtual sound source position with respect to reference direction corresponding to the orientation of the listener's perspective for Free Viewpoint Video the correction of the control signal representing the level difference between the time difference and binaural between response or aural performed Runode, also for the movement of the listener's perspective to the free viewpoint video, a plurality of speakers to the moved direction It is possible to obtain a sound field feeling that the speaker is placed at the virtual sound source position and is reproduced by this speaker.

【手続補正7】[Procedure Amendment 7]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0065[Correction target item name] 0065

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0065】また、GUIアプリケーション画面41上
では、パラメータ設定部44が設けられていて、サウン
ドクリエータがパラメータ設定部44のアイコンをクリ
ックすることにより、図3に示したトラック設定部32
からの操作信号Cに基づいて、オーディオ信号に所定の
パラメータによりイコライジング処理を行うイコライジ
ング処理部44−1と、リバーブ処理を行うリバーブ処
理部44−2と、音量処理を行う音量処理部44−3
と、パン処理を行うパン処理部44−4と、HRTFに
よりユーザーの耳に到達する伝達関数を変更することに
より音響特性処理を施すHRTF処理部44−5とをト
ラック設定部43で設定されたフレーム画像に対するオ
ーディオ信号に対し信号処理状態に設定することがで
きる。このパラメータ設定部44による設定に応じて補
正オーディオデータを得ることができる。
A parameter setting section 44 is provided on the GUI application screen 41, and when the sound creator clicks the icon of the parameter setting section 44, the track setting section 32 shown in FIG.
Based on the operation signal C from the equalizing processing unit 44-1 for performing equalizing processing on the audio signal with a predetermined parameter, a reverb processing unit 44-2 for performing reverb processing, and a volume processing unit 44-3 for performing volume processing.
The track setting unit 43 sets the pan processing unit 44-4 for performing the pan processing, and the HRTF processing unit 44-5 for performing the acoustic characteristic processing by changing the transfer function reaching the user's ear by the HRTF. it can be set to the audio signal for the frame image signal processing state. Corrected audio data can be obtained according to the setting by the parameter setting unit 44.

【手続補正8】[Procedure Amendment 8]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0102[Correction target item name] 0102

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0102】ステップS6で時間メタデータの記録モー
ドでないときは、ステップS7へ進み、ステップS
で、操作メタデータによるチャンネルマッピング信号処
理部の操作があるか否かを判断する。具体的には、図5
で示したイコライザ処理部33−1に対する例えば操作
情報Cの角度情報に応じた高周波数帯域または低周波数
帯域におけるイコライザ処理の低下のための操作メタデ
ータ、リバーブ処理部33−2に対する例えば操作情報
Cの角度情報に応じた高周波数帯域または低周波数帯域
におけるリバーブ処理の低下のための操作メタデータ、
パン処理部33−4に対する例えば操作情報Cの角度情
報に応じた音の位置の移動のための操作メタデータ、H
RTF処理部33−5に対する例えば操作情報Cの角度
情報に応じた周波数伝達特性の向上または低下のための
操作メタデータによる信号処理あるか否かを判断す
る。
In step S6, the recording mode of the time metadata is recorded.
If not, proceed to step S7, step S77
Then, the channel mapping signal processing by the operation metadata is performed.
Determine whether there is an operation of the science department. Specifically, FIG.
For example, the operation for the equalizer processing unit 33-1 shown in
High frequency band or low frequency according to the angle information of information C
Operational metade for lowering equalizer processing in band
Operation information for the data and reverb processing unit 33-2
High frequency band or low frequency band according to the angle information of C
Operational metadata for reduced reverb processing in,
For example, the angle information of the operation information C with respect to the pan processing unit 33-4.
Operation metadata for moving the position of the sound according to the information, H
For example, the angle of the operation information C with respect to the RTF processing unit 33-5
For improving or lowering frequency transfer characteristics according to information
Signal processing by operation metadataButDetermine if there is
It

【手続補正9】[Procedure Amendment 9]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0129[Correction target item name] 0129

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0129】また、この発明の音像定位信号処理装置
は、上述において、上記制御情報生成手段は、時間軸情
報に対応するパラメータにより上記制御情報を生成する
ので、時間情報に対応する制御情報により音像定位を変
化させることができるという効果を奏する。
Further, in the sound image localization signal processing device of the present invention, in the above description, the control information generating means generates the control information by the parameter corresponding to the time axis information.
Therefore, there is an effect that the sound image localization can be changed by the control information corresponding to the time information.

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】 基準位置に対して角度情報を有する映像
信号に基づく映像に対応するように再生系における再生
音像を任意の位置に定位させるように制作系において複
数の音源から入力される各音源データを合成手段により
合成したオーディオ信号に信号処理を施す音像定位信号
処理装置において、 上記映像信号に基づく映像の再生音像の角度情報となる
ユーザーの視点選択情報を選択する選択手段と、 上記選択手段により選択された再生音像の角度情報とな
るユーザーの視点選択情報に対応する上記オーディオ信
号のチャンネルに音像定位のための信号処理をリアルタ
イムで施す音像定位制御処理手段と、 上記音像定位制御処理手段により信号処理を施すための
制御情報を生成する制御情報生成手段と、 上記映像信号に上記オーディオ信号および上記制御情報
を重畳して送出用情報を生成する送出用情報生成手段
と、 を備え、上記オーディオ信号にリアルタイムで信号処理
を施して上記映像信号に基づく映像に対応して音像定位
位置を制御するようにしたことを特徴とする音像定位信
号処理装置。
1. A sound source input from a plurality of sound sources in a production system so that a reproduced sound image in a reproduction system is localized at an arbitrary position so as to correspond to a video based on a video signal having angle information with respect to a reference position. In a sound image localization signal processing device for performing signal processing on an audio signal synthesized by data synthesizing means, a selecting means for selecting viewpoint selection information of a user which is angle information of a reproduced sound image of a video based on the video signal, and the selecting means. The sound image localization control processing means for performing in real time signal processing for sound image localization on the channel of the audio signal corresponding to the viewpoint selection information of the user which is the angle information of the reproduced sound image selected by the sound image localization control processing means. Control information generating means for generating control information for performing signal processing, and the video signal and the audio signal. And a transmission information generating means for superimposing the control information to generate transmission information, and subjecting the audio signal to signal processing in real time to control the sound image localization position corresponding to the video based on the video signal. A sound image localization signal processing device characterized in that.
【請求項2】 請求項1記載の音像定位信号処理装置に
おいて、 上記音像定位制御処理手段は、複数のチャンネルの上記
オーディオ信号のうちすべてのチャンネルに上記音像定
位制御処理手段により信号処理を施す第1の動作モード
と、複数のチャンネルの上記オーディオ信号のうち特定
のチャンネルのみを指定して上記音像定位制御処理手段
により信号処理を施して他のチャンネルは上記信号処理
を施さない第2の動作モードとを設定する動作モード設
定手段を有することを特徴とする音像定位信号処理装
置。
2. The sound image localization signal processing device according to claim 1, wherein the sound image localization control processing means applies signal processing to all channels of the audio signals of a plurality of channels by the sound image localization control processing means. A second operation mode in which the sound image localization control processing means performs signal processing, and the other channels are not subjected to the signal processing. A sound image localization signal processing device having an operation mode setting means for setting and.
【請求項3】 請求項1記載の音像定位信号処理装置に
おいて、 上記音像定位制御処理手段は、上記選択手段により選択
された再生音像の角度情報となるユーザーの視点選択情
報に対応するように、上記映像信号のフレーム処理、水
平角度処理、ズーム処理および/または垂直角度処理に
より上記オーディオ信号に上記信号処理を施すための操
作信号を生成するトラック設定手段を有することを特徴
とする音像定位信号処理装置。
3. The sound image localization signal processing device according to claim 1, wherein the sound image localization control processing means corresponds to viewpoint selection information of a user, which is angle information of the reproduced sound image selected by the selection means. Sound image localization signal processing including track setting means for generating an operation signal for performing the signal processing on the audio signal by frame processing, horizontal angle processing, zoom processing and / or vertical angle processing of the video signal. apparatus.
【請求項4】 請求項1記載の音像定位信号処理装置に
おいて、 上記音像定位制御処理手段は、上記トラック設定手段か
らの上記操作信号に基づいて、上記オーディオ信号に所
定のパラメータによりイコライジング処理、リバーブ処
理、音量処理、パン処理および/または伝達特性処理を
施すパラメータ設定手段を有することを特徴とする音像
定位信号処理装置。
4. The sound image localization signal processing device according to claim 1, wherein the sound image localization control processing means, based on the operation signal from the track setting means, performs equalizing processing and reverberation on the audio signal with a predetermined parameter. A sound image localization signal processing device having a parameter setting means for performing processing, volume processing, pan processing and / or transfer characteristic processing.
【請求項5】 請求項1記載の音像定位信号処理装置に
おいて、 上記制御情報生成手段は、上記視点選択情報に対応する
パラメータにより上記制御情報を生成することを特徴と
する音像定位信号処理装置。
5. The sound image localization signal processing device according to claim 1, wherein the control information generation means generates the control information by a parameter corresponding to the viewpoint selection information.
【請求項6】 請求項1記載の音像定位信号処理装置に
おいて、 上記制御情報生成手段は、時間軸情報に対応するパラメ
ータにより上記制御情報を生成することを特徴とする音
像定位信号処理装置。
6. The sound image localization signal processing device according to claim 1, wherein the control information generation means generates the control information by a parameter corresponding to time axis information.
【請求項7】 請求項2記載の音像定位信号処理装置に
おいて、 上記音像定位制御処理手段は、上記動作モード設定手段
により上記第1の動作モードと上記第2の動作モードと
を時間軸上で切り換えるようにすることを特徴とする音
像定位信号処理装置。
7. The sound image localization signal processing device according to claim 2, wherein the sound image localization control processing means sets the first operation mode and the second operation mode on the time axis by the operation mode setting means. A sound image localization signal processing device characterized by being switched.
【請求項8】 請求項4記載の音像定位信号処理装置に
おいて、 上記音像定位制御処理手段は、複数のチャンネルの上記
オーディオ信号のうちバーチャルサラウンドのチャンネ
ルのみを指定して上記信号処理を施して他のリアルサラ
ウンドのチャンネルは上記信号処理を施さないことを特
徴とする音像定位信号処理装置。
8. The sound image localization signal processing device according to claim 4, wherein the sound image localization control processing means designates only a virtual surround channel of the audio signals of a plurality of channels and performs the signal processing. The sound image localization signal processing device, wherein the real surround channel is not subjected to the above signal processing.
【請求項9】 複数の音源から入力される各音源データ
を合成手段により合成して制作系における制御情報によ
り信号処理を施したオーディオ信号について、基準位置
に対して角度情報を有する映像信号に基づく映像に対応
するように再生系において再生音像を任意の位置に定位
させるように再生用情報に信号処理を施す音像定位信号
処理装置において、 上記再生用情報における映像信号に重畳された上記オー
ディオ信号および上記制御情報から、上記映像信号、上
記オーディオ信号および上記制御情報を読み出す再生用
情報読み出し手段と、 上記映像信号を再生する映像信号再生手段と、 上記映像信号に基づく映像の再生音像の角度情報となる
ユーザーの視点選択情報を選択する選択手段と、 上記選択手段により選択された再生音像の角度情報とな
るユーザーの視点選択情報に対応する上記オーディオ信
号のチャンネルに音像定位のための信号処理をリアルタ
イムで施す音像定位制御処理手段と、 を備え、上記オーディオ信号にリアルタイムで信号処理
を施して上記映像信号に基づく映像に対応して音像定位
位置を制御するようにしたことを特徴とする音像定位信
号処理装置。
9. An audio signal obtained by synthesizing sound source data input from a plurality of sound sources by a synthesizing means and performing signal processing by control information in a production system, based on a video signal having angle information with respect to a reference position. In a sound image localization signal processing device for performing signal processing on reproduction information so as to localize a reproduction sound image at an arbitrary position in a reproduction system so as to correspond to an image, the audio signal and the audio signal superimposed on the video signal in the reproduction information and Reproduction information reading means for reading the video signal, the audio signal and the control information from the control information, a video signal reproducing means for reproducing the video signal, and angle information of a reproduced sound image of the video based on the video signal. Selection means for selecting the viewpoint selection information of the user and the angle of the reproduced sound image selected by the selection means. Sound image localization control processing means for performing signal processing for sound image localization in real time on the channel of the audio signal corresponding to the user's viewpoint selection information to be information, and performing signal processing on the audio signal in real time A sound image localization signal processing device, characterized in that a sound image localization position is controlled corresponding to a video image based on a video signal.
【請求項10】 請求項9記載の音像定位信号処理装置
において、 上記音像定位制御処理手段は、上記視点選択情報に対応
して、上記オーディオ信号に所定のパラメータにより少
なくともサラウンドパン処理を施すパラメータ設定手段
を有することを特徴とする音像定位信号処理装置。
10. The sound image localization signal processing device according to claim 9, wherein the sound image localization control processing means sets a parameter for performing at least surround pan processing on the audio signal according to a predetermined parameter, corresponding to the viewpoint selection information. A sound image localization signal processing device comprising means.
【請求項11】 基準位置に対して角度情報を有する映
像信号に基づく映像に対応するように再生系における再
生音像を任意の位置に定位させるように制作系において
複数の音源から入力される各音源データを合成手段によ
り合成したオーディオ信号に信号処理を施す音像定位信
号処理方法において、 上記映像信号に基づく映像の再生音像の角度情報となる
ユーザーの視点選択情報を選択する選択ステップと、 上記選択ステップにより選択された再生音像の角度情報
となるユーザーの視点選択情報に対応する上記オーディ
オ信号のチャンネルに音像定位のための信号処理をリア
ルタイムで施す音像定位制御処理ステップと、 上記音像定位制御処理ステップにより信号処理を施すた
めの制御情報を生成する制御情報生成ステップと、 上記映像信号に上記オーディオ信号および上記制御情報
を重畳して送出用情報を生成する送出用情報生成ステッ
プと、 を備え、上記オーディオ信号にリアルタイムで信号処理
を施して上記映像信号に基づく映像に対応して音像定位
位置を制御するようにしたことを特徴とする音像定位信
号処理方法。
11. A sound source input from a plurality of sound sources in a production system so that a reproduced sound image in a reproduction system is localized at an arbitrary position so as to correspond to an image based on a video signal having angle information with respect to a reference position. In a sound image localization signal processing method for performing signal processing on an audio signal obtained by synthesizing data by a synthesizing means, a selecting step for selecting viewpoint selection information of a user which is angle information of a reproduced sound image of a video based on the video signal, and the selecting step The sound image localization control processing step of performing signal processing for sound image localization in real time on the channel of the audio signal corresponding to the viewpoint selection information of the user, which is the angle information of the reproduced sound image selected by, and the sound image localization control processing step. A control information generating step for generating control information for performing signal processing, A sending information generating step of superimposing the audio signal and the control information on a signal to generate sending information, and performing signal processing on the audio signal in real time to correspond to a video based on the video signal. A sound image localization signal processing method characterized in that a sound image localization position is controlled.
【請求項12】 複数の音源から入力される各音源デー
タを合成手段により合成して制作系における制御情報に
より信号処理を施したオーディオ信号について、基準位
置に対して角度情報を有する映像信号に基づく映像に対
応するように再生系において再生音像を任意の位置に定
位させるように再生用情報に信号処理を施す音像定位信
号処理方法において、 上記再生用情報における映像信号に重畳された上記オー
ディオ信号および上記制御情報から、上記映像信号、上
記オーディオ信号および上記制御情報を読み出す再生用
情報読み出しステップと、 上記映像信号を再生する映像信号再生ステップと、 上記映像信号に基づく映像の再生音像の角度情報となる
ユーザーの視点選択情報を選択する選択ステップと、 上記選択ステップにより選択された再生音像の角度情報
となるユーザーの視点選択情報に対応する上記オーディ
オ信号のチャンネルに音像定位のための信号処理をリア
ルタイムで施す音像定位制御処理ステップと、 を備え、上記オーディオ信号にリアルタイムで信号処理
を施して上記映像信号に基づく映像に対応して音像定位
位置を制御するようにしたことを特徴とする音像定位信
号処理方法。
12. An audio signal obtained by synthesizing sound source data input from a plurality of sound sources by synthesizing means and performing signal processing by control information in a production system, based on a video signal having angle information with respect to a reference position. In a sound image localization signal processing method for subjecting reproduction information to signal processing so as to localize a reproduction sound image in an arbitrary position in a reproduction system so as to correspond to a video, the audio signal and the audio signal superposed on the video signal in the reproduction information and Reproduction information reading step for reading the video signal, the audio signal, and the control information from the control information, a video signal reproducing step for reproducing the video signal, and angle information of a reproduced sound image of a video based on the video signal. Selection step of selecting the viewpoint selection information of the user to be selected and the selection step above Sound image localization control processing step for performing in real time signal processing for sound image localization on the channel of the audio signal corresponding to the viewpoint selection information of the user, which is the angle information of the reproduced sound image. A sound image localization signal processing method, wherein signal processing is performed to control a sound image localization position corresponding to a video image based on the video signal.
JP2002079210A 2002-03-20 2002-03-20 Sound image localizing signal processing apparatus and sound image localizing signal processing method Pending JP2003284196A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002079210A JP2003284196A (en) 2002-03-20 2002-03-20 Sound image localizing signal processing apparatus and sound image localizing signal processing method
PCT/JP2003/003339 WO2003079724A1 (en) 2002-03-20 2003-03-19 Sound image localization signal processing apparatus and sound image localization signal processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002079210A JP2003284196A (en) 2002-03-20 2002-03-20 Sound image localizing signal processing apparatus and sound image localizing signal processing method

Publications (1)

Publication Number Publication Date
JP2003284196A true JP2003284196A (en) 2003-10-03

Family

ID=28035633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002079210A Pending JP2003284196A (en) 2002-03-20 2002-03-20 Sound image localizing signal processing apparatus and sound image localizing signal processing method

Country Status (2)

Country Link
JP (1) JP2003284196A (en)
WO (1) WO2003079724A1 (en)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006109479A (en) * 2004-10-01 2006-04-20 Bose Corp Automobile audio system
JP2007266967A (en) * 2006-03-28 2007-10-11 Yamaha Corp Sound image localizer and multichannel audio reproduction device
JP2008078888A (en) * 2006-09-20 2008-04-03 Sharp Corp Sound reproducing device, video sound reproducing device, and its method for switching sound field mode
JP2008532374A (en) * 2005-02-23 2008-08-14 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. Apparatus and method for controlling wavefront synthesis renderer means using audio objects
JP2008244865A (en) * 2007-03-27 2008-10-09 National Univ Corp Shizuoka Univ Sound field switching system
JP2009010992A (en) * 2008-09-01 2009-01-15 Sony Corp Audio signal processing apparatus, audio signal processing method, and program
JP2009278381A (en) * 2008-05-14 2009-11-26 Nippon Hoso Kyokai <Nhk> Acoustic signal multiplex transmission system, manufacturing device, and reproduction device added with sound image localization acoustic meta-information
JP2010041425A (en) * 2008-08-05 2010-02-18 Yamaha Corp Sound reproducing device and program
US7809453B2 (en) 2005-02-23 2010-10-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for simulating a wave field synthesis system
US7813826B2 (en) 2005-02-23 2010-10-12 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for storing audio files
JP2011071685A (en) * 2009-09-25 2011-04-07 Nec Corp Video and audio processing system, video and audio processing method and program
US7957540B2 (en) 2002-11-08 2011-06-07 Bose Corporation Automobile audio system
US7962231B2 (en) 2005-02-23 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for providing data in a multi-renderer system
JP2013514696A (en) * 2009-12-17 2013-04-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Apparatus and method for converting a first parametric spatial audio signal to a second parametric spatial audio signal
JP2014045282A (en) * 2012-08-24 2014-03-13 Nippon Hoso Kyokai <Nhk> Reverberation adding device, reverberation adding program
JP2016039568A (en) * 2014-08-08 2016-03-22 キヤノン株式会社 Acoustic processing apparatus and method, and program
US9402144B2 (en) 2010-06-25 2016-07-26 Iosono Gmbh Apparatus for changing an audio scene and an apparatus for generating a directional function
WO2017135063A1 (en) * 2016-02-04 2017-08-10 ソニー株式会社 Audio processing device, audio processing method and program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2571572A (en) * 2018-03-02 2019-09-04 Nokia Technologies Oy Audio processing

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06246064A (en) * 1993-02-23 1994-09-06 Victor Co Of Japan Ltd Additional equipment for tv game machine
JPH0721742A (en) * 1993-06-21 1995-01-24 Matsushita Electric Ind Co Ltd Audio editing system and audio reproducing system
JPH07222299A (en) * 1994-01-31 1995-08-18 Matsushita Electric Ind Co Ltd Processing and editing device for movement of sound image
JPH0955925A (en) * 1995-08-11 1997-02-25 Nippon Telegr & Teleph Corp <Ntt> Picture system

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7957540B2 (en) 2002-11-08 2011-06-07 Bose Corporation Automobile audio system
JP2006109479A (en) * 2004-10-01 2006-04-20 Bose Corp Automobile audio system
US7813826B2 (en) 2005-02-23 2010-10-12 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for storing audio files
JP2008532374A (en) * 2005-02-23 2008-08-14 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. Apparatus and method for controlling wavefront synthesis renderer means using audio objects
US7809453B2 (en) 2005-02-23 2010-10-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for simulating a wave field synthesis system
US7962231B2 (en) 2005-02-23 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for providing data in a multi-renderer system
US7930048B2 (en) 2005-02-23 2011-04-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for controlling a wave field synthesis renderer means with audio objects
JP2007266967A (en) * 2006-03-28 2007-10-11 Yamaha Corp Sound image localizer and multichannel audio reproduction device
JP2008078888A (en) * 2006-09-20 2008-04-03 Sharp Corp Sound reproducing device, video sound reproducing device, and its method for switching sound field mode
JP4611951B2 (en) * 2006-09-20 2011-01-12 シャープ株式会社 Audio reproduction device, video / audio reproduction device, and sound field mode switching method thereof
JP2008244865A (en) * 2007-03-27 2008-10-09 National Univ Corp Shizuoka Univ Sound field switching system
JP2009278381A (en) * 2008-05-14 2009-11-26 Nippon Hoso Kyokai <Nhk> Acoustic signal multiplex transmission system, manufacturing device, and reproduction device added with sound image localization acoustic meta-information
JP2010041425A (en) * 2008-08-05 2010-02-18 Yamaha Corp Sound reproducing device and program
JP2009010992A (en) * 2008-09-01 2009-01-15 Sony Corp Audio signal processing apparatus, audio signal processing method, and program
JP2011071685A (en) * 2009-09-25 2011-04-07 Nec Corp Video and audio processing system, video and audio processing method and program
JP2013514696A (en) * 2009-12-17 2013-04-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Apparatus and method for converting a first parametric spatial audio signal to a second parametric spatial audio signal
US9196257B2 (en) 2009-12-17 2015-11-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
US9402144B2 (en) 2010-06-25 2016-07-26 Iosono Gmbh Apparatus for changing an audio scene and an apparatus for generating a directional function
JP2014045282A (en) * 2012-08-24 2014-03-13 Nippon Hoso Kyokai <Nhk> Reverberation adding device, reverberation adding program
JP2016039568A (en) * 2014-08-08 2016-03-22 キヤノン株式会社 Acoustic processing apparatus and method, and program
WO2017135063A1 (en) * 2016-02-04 2017-08-10 ソニー株式会社 Audio processing device, audio processing method and program

Also Published As

Publication number Publication date
WO2003079724A1 (en) 2003-09-25

Similar Documents

Publication Publication Date Title
US7336792B2 (en) Virtual acoustic image localization processing device, virtual acoustic image localization processing method, and recording media
JP2003284196A (en) Sound image localizing signal processing apparatus and sound image localizing signal processing method
JP3422026B2 (en) Audio player
JP4940671B2 (en) Audio signal processing apparatus, audio signal processing method, and audio signal processing program
JP3435156B2 (en) Sound image localization device
JP3385725B2 (en) Audio playback device with video
US5459790A (en) Personal sound system with virtually positioned lateral speakers
JP4914124B2 (en) Sound image control apparatus and sound image control method
WO2006129640A1 (en) Multi-channel sound pickup apparatus, multi-channel sound reproducing apparatus, and multi-channel sound pickup/reproducing apparatus
JP2006503526A (en) Dynamic binaural sound capture and playback
JP4499358B2 (en) Sound image localization signal processing apparatus
JP2000354300A (en) Multi-channel audio reproducing device
JPH0795698A (en) Audio reproducing device
JP2007005849A (en) Recording apparatus, recording method, reproducing apparatus, reproducing method, program for recording method, and recording medium for recording the program for the recording method
CN101489173B (en) Signal processing apparatus, signal processing method
EP1259097A2 (en) Surround sound field reproduction system and surround sound field reproduction method
US20190394596A1 (en) Transaural synthesis method for sound spatialization
US20130243201A1 (en) Efficient control of sound field rotation in binaural spatial sound
JP2002223493A (en) Multi-channel sound collection device
WO2000045619A1 (en) Virtual sound source device and acoustic device comprising the same
JPH0946800A (en) Sound image controller
JP2671329B2 (en) Audio player
JP2004064363A (en) Digital audio processing method, digital audio processing apparatus, and digital audio recording medium
JP2005157278A (en) Apparatus, method, and program for creating all-around acoustic field
JP4538860B2 (en) Audio band signal recording / reproducing apparatus, audio band signal recording / reproducing method, audio band signal recording apparatus, and audio band signal recording method