JP5658588B2 - Hearing presence evaluation device and hearing presence evaluation program - Google Patents

Hearing presence evaluation device and hearing presence evaluation program Download PDF

Info

Publication number
JP5658588B2
JP5658588B2 JP2011024296A JP2011024296A JP5658588B2 JP 5658588 B2 JP5658588 B2 JP 5658588B2 JP 2011024296 A JP2011024296 A JP 2011024296A JP 2011024296 A JP2011024296 A JP 2011024296A JP 5658588 B2 JP5658588 B2 JP 5658588B2
Authority
JP
Japan
Prior art keywords
auditory
cross
sound
moving image
correlation function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011024296A
Other languages
Japanese (ja)
Other versions
JP2012165195A (en
Inventor
大出 訓史
訓史 大出
安藤 彰男
彰男 安藤
賢司 小澤
賢司 小澤
木下 雄一朗
雄一朗 木下
康大 齋藤
康大 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2011024296A priority Critical patent/JP5658588B2/en
Publication of JP2012165195A publication Critical patent/JP2012165195A/en
Application granted granted Critical
Publication of JP5658588B2 publication Critical patent/JP5658588B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、音響信号に基づいて聴覚における臨場感を評価する聴覚臨場感評価装置及び聴覚臨場感評価プログラムに関する。   The present invention relates to an auditory realistic sensation evaluation apparatus and an auditory realistic sensation evaluation program for evaluating auditory realistic sensations based on acoustic signals.

複数話者が存在する場合の音声認識の前処理、ロボットの自律運動制御等に有用な技術として、音源方向の推定に関する研究が行われてきた(非特許文献1参照)。
かかる音源方向の推定技術は、多チャンネルマイクロホンによって構成されるマイクロホンアレー信号処理を行うものであり、複数のマイクロホンを配置するため、大規模な装置が必要であった。
As a technique useful for preprocessing of speech recognition when there are a plurality of speakers, autonomous control of a robot, and the like, research on estimation of a sound source direction has been performed (see Non-Patent Document 1).
Such a sound source direction estimation technique performs microphone array signal processing including multi-channel microphones, and requires a large-scale device to arrange a plurality of microphones.

一方、人間は左右の耳で聞こえる2チャネルの音響信号を用いて十分な精度の音源方向の推定を実現しており、これを模して、2チャネルの音響信号を用いて音源方向の推定を行う研究も行われている(非特許文献2参照)。
かかる2チャネルの音響信号を用いた音源方向の推定技術は、装置の小型化を図ることができるが、情報量が少ないため、推定の精度を確保するためには複雑な信号処理が必要であった(非特許文献3参照)。
On the other hand, humans have achieved a sufficiently accurate estimation of the sound source direction using two-channel acoustic signals that can be heard by the left and right ears, and simulated the sound source direction using two-channel acoustic signals. Research to be performed has also been conducted (see Non-Patent Document 2).
Although the sound source direction estimation technique using such two-channel acoustic signals can reduce the size of the apparatus, since the amount of information is small, complicated signal processing is required to ensure estimation accuracy. (See Non-Patent Document 3).

また、従来の2チャネルの音響信号を用いた音源方向の推定技術は、一つの音源の方向しか推定することができず、また、推定対象が静止音源に限られていた(特許文献1参照)。
すなわち、従来の音源方向の推定技術は、高精度であることを目指すが故に装置として大規模になりがちで実時間処理が困難である上、一つの音源の方向しか推定することができないという問題を有していた。
In addition, the conventional sound source direction estimation technique using two-channel acoustic signals can only estimate the direction of one sound source, and the estimation target is limited to a stationary sound source (see Patent Document 1). .
That is, the conventional sound source direction estimation technique tends to be large-scale as a device because it aims at high accuracy, and real-time processing is difficult, and only one sound source direction can be estimated. Had.

一方、符号化された音に対する客観的な評価法として、PEAQ(Perceptual Evaluation of Audio Quality)が開発されており、かかる評価法は、ITU(International Telecommunications Union:国際電気通信連合)によって規格化されている(ITU-R BS. 1387)。
かかる評価法は、ヒトの聴覚末梢系を模倣しているが、聴覚中枢系の部分に関しては、簡易なニューラルネットワークで代用している。
On the other hand, PEAQ (Perceptual Evaluation of Audio Quality) has been developed as an objective evaluation method for encoded sound, and this evaluation method has been standardized by ITU (International Telecommunications Union). (ITU-R BS. 1387).
Although this evaluation method imitates the human auditory peripheral system, a simple neural network is substituted for the part of the auditory central system.

また、ヒトが感じる音声品質の客観的な評価法として、特許文献2に記載された評価法が存在する。かかる評価法は、基準となる音に関する劣化度合いを客観的に評価する手法である。   In addition, as an objective evaluation method for voice quality perceived by humans, there is an evaluation method described in Patent Document 2. Such an evaluation method is a method for objectively evaluating the degree of deterioration related to a reference sound.

特開平5−87903号公報Japanese Patent Laid-Open No. 5-87903 特開2004−172753号公報JP 2004-172753 A

Arthur N. Popper、Richard R. Fay、Eds., 「Sound Source Localization」、Springer Handbook of Auditory Research、2005年、Springer、New YorkArthur N. Popper, Richard R. Fay, Eds., "Sound Source Localization", Springer Handbook of Auditory Research, 2005, Springer, New York 永田仁史、「2チャネル信号に基づく到来音方向推定の計算モデル」、日本比較生理生化学会、2010年、第27巻、第1号、p.10-18Hitoshi Nagata, “Computation Model for Estimating Direction of Arrival Sound Based on Two-Channel Signals”, Comparative Physiological and Biochemical Society of Japan, 2010, Vol. 27, No. 1, p.10-18 Nicoleta Roman、DeLiang Wang、「Binaural Tracking of Multiple Moving Sources」、IEEE Transactions on Audio、Speech, and Language Processing、2008年、Vol. 16、No. 4、p. 728-739Nicoleta Roman, DeLiang Wang, “Binaural Tracking of Multiple Moving Sources”, IEEE Transactions on Audio, Speech, and Language Processing, 2008, Vol. 16, No. 4, p. 728-739

収音再生技術の発展に伴い、22.2マルチチャネル音響システム、Wave Field Synthesis等といった高い臨場感を実現可能な音響システムが多数開発されており、音の品質の劣化度合いではなく、品質の向上度合いを客観的に評価することが求められている。   Along with the development of sound collection and playback technology, many acoustic systems such as 22.2 multi-channel acoustic system and Wave Field Synthesis have been developed that can realize a high level of realism, improving the quality, not the degree of sound quality degradation. An objective evaluation of the degree is required.

ここで、K. Ozawa、Y. Chujo、Y. Suzuki、T. Sone、「Contents which yield high auditory-presence in sound reproduction」、Kansei Engineering International、2002年、Vol. 3、No. 4、p. 25-30、及び、K. Ozawa、Y. Chujo、「Content Presence vs. System Presence in Audio Reproduction Systems」、Proc. of the Second International Symposium on Universal Communication (ISUC2008)、2008年、p. 50-55に記載されているように、音響機器によって再生された音響信号による音像が、聴取者に対して相対的に移動している程、臨場感があると聴取者が感じることが明らかになっている。   Here, K. Ozawa, Y. Chujo, Y. Suzuki, T. Sone, "Contents which yield high auditory-presence in sound reproduction", Kansei Engineering International, 2002, Vol. 3, No. 4, p. 25 -30, and K. Ozawa, Y. Chujo, “Content Presence vs. System Presence in Audio Reproduction Systems”, Proc. Of the Second International Symposium on Universal Communication (ISUC2008), 2008, p. 50-55 As described above, it has been clarified that the listener feels that there is a sense of reality as the sound image of the acoustic signal reproduced by the acoustic device moves relative to the listener.

本願発明者は、鋭意研究の結果、音の品質の向上度合いを客観的に評価するためには、聴覚における臨場感、すなわち聴覚臨場感を定量化して客観的に評価すればよいのではないかという考えに至った。   As a result of diligent research, the inventor of the present application may objectively evaluate the degree of improvement in sound quality by quantifying the auditory presence, that is, the auditory presence. I came up with the idea.

本発明は、前記した事情に鑑みて創案されたものであり、聴覚臨場感を客観的に評価することが可能な聴覚臨場感評価装置及び聴覚臨場感評価プログラムを提供することを課題とする。   The present invention has been made in view of the above-described circumstances, and an object thereof is to provide an auditory realistic sensation evaluation apparatus and an auditory realistic sensation evaluation program capable of objectively evaluating auditory realistic sensations.

前記課題を解決するため、本発明の聴覚臨場感評価装置は、二つのマイクによって計測された二つの音響信号に基づいて聴覚臨場感を評価する聴覚臨場感評価装置であって、音響信号分割部と、相互相関関数算出部と、動画像生成部と、音像移動ベクトル算出部と、聴覚臨場感評価値算出部と、を備えることを特徴とする。   In order to solve the above problems, an auditory presence evaluation apparatus according to the present invention is an auditory presence evaluation apparatus that evaluates an auditory presence based on two acoustic signals measured by two microphones, and includes an acoustic signal dividing unit. And a cross-correlation function calculation unit, a moving image generation unit, a sound image movement vector calculation unit, and an auditory realistic sense value calculation unit.

かかる構成によると、音響信号分割部によって、計測された前記二つの音響信号を例えばある一定時間ごとにある区間長だけ切り出し、周波数帯域ごとに分割し、相互相関関数算出部によって、分割された前記二つの音響信号を用いて、前記二つの前記音響信号に関する相互相関関数を前記周波数帯域ごとに算出する。そして、動画像生成部によって、算出された前記相互相関関数を、前記二つの音響信号のラグと、前記周波数帯域と、をフレームの座標軸とする二次元動画像の輝度、色相及び彩度のいずれかに変換することによって動画像を生成し、音像移動ベクトル算出部によって、生成された前記動画像の複数のフレームを用いて前記動画像の移動ベクトルを算出することによって、音像の移動ベクトルを算出し、聴覚臨場感評価値算出部によって、算出された前記音像の移動ベクトルに基づいて、前記音像の移動ベクトルが大きいほど聴覚臨場感評価値が大きくなるように当該聴覚臨場感評価値を算出することができる。 According to such a configuration, the two acoustic signals measured by the acoustic signal dividing unit are cut out by, for example, a certain section length every certain time, divided for each frequency band, and divided by the cross-correlation function calculating unit. Using the two acoustic signals, a cross-correlation function related to the two acoustic signals is calculated for each frequency band. Then, any of luminance, hue, and saturation of the two-dimensional moving image with the cross-correlation function calculated by the moving image generation unit as the coordinate axis of the frame with the lag of the two acoustic signals and the frequency band as the frame coordinate axes. generating a moving image by crab conversion, calculated by the sound image movement vector calculating unit, by calculating a movement vector of the moving image using a plurality of frames of the generated the moving image, the moving vector of the sound image Then, based on the calculated sound image movement vector, the auditory presence evaluation value calculation unit calculates the auditory presence feeling evaluation value such that the larger the sound image movement vector is, the larger the auditory presence feeling evaluation value is. be able to.

前記動画像生成部は、前記相互相関関数を前記輝度に変換する構成であってもよい。かかる構成によると、相互相関関数と相関する輝度成分を有するモノクロ動画像を生成し、生成されたモノクロ動画像の移動ベクトルから聴覚臨場感評価値を算出することができる。   The moving image generation unit may be configured to convert the cross-correlation function into the luminance. According to this configuration, it is possible to generate a monochrome moving image having a luminance component that correlates with the cross-correlation function, and to calculate an auditory presence sense evaluation value from the movement vector of the generated monochrome moving image.

聴覚臨場感評価装置は、音圧レベル算出部をさらに備える構成であってもよい。   The auditory presence evaluation apparatus may further include a sound pressure level calculation unit.

かかる構成によると、音圧レベル算出部によって、分割された前記二つの音響信号を用いて、前記二つの音響信号の音圧レベルを前記周波数帯域ごとに算出し、動画像生成部によって、算出された前記音圧レベルを、前記輝度、前記色相及び前記彩度のうち、前記相互相関関数が変換されたもの以外のいずれかに変換することによって前記動画像を生成することができる。すなわち、聴覚臨場感評価装置は、より多くのパラメータを用いて聴覚臨場感評価値を算出するので、聴覚臨場感の算出精度が向上する。   According to such a configuration, the sound pressure level calculation unit calculates the sound pressure levels of the two acoustic signals for each frequency band using the divided two acoustic signals, and is calculated by the moving image generation unit. The moving image can be generated by converting the sound pressure level into any one of the luminance, the hue, and the saturation other than the one obtained by converting the cross-correlation function. In other words, the auditory realistic sensation evaluation apparatus calculates the auditory realistic sensation evaluation value using more parameters, so that the calculation accuracy of the auditory realistic sensation is improved.

前記動画像生成部は、前記相互相関関数を前記輝度に変換するとともに、前記音圧レベルを前記彩度に変換する構成であってもよい。かかる構成によると、相互相関関数と相関する輝度度成分及び音圧レベルと相関する彩度成分を有するカラー動画像を生成し、生成されたカラー動画像の移動ベクトルから聴覚臨場感評価値を算出することができる。   The moving image generation unit may be configured to convert the cross-correlation function into the luminance and convert the sound pressure level into the saturation. According to this configuration, a color moving image having a luminance component that correlates with a cross-correlation function and a saturation component that correlates with a sound pressure level is generated, and an auditory presence evaluation value is calculated from a movement vector of the generated color moving image. can do.

また、前記音圧レベル算出部は、前記音圧レベルの差である音圧レベル差を前記周波数帯域ごとに算出し、前記動画像生成部は、算出された前記音圧レベル差を、前記輝度、前記色相及び前記彩度のうち、前記相互相関関数及び前記音圧が変換されたもの以外に変換することによって前記動画像を生成する構成であってもよい。すなわち、聴覚臨場感評価装置は、より多くのパラメータを用いて聴覚臨場感評価値を算出するので、聴覚臨場感の算出精度が向上する。   Further, the sound pressure level calculation unit calculates a sound pressure level difference, which is a difference between the sound pressure levels, for each frequency band, and the moving image generation unit calculates the calculated sound pressure level difference as the luminance. The moving image may be generated by converting the hue and the saturation other than those obtained by converting the cross-correlation function and the sound pressure. In other words, the auditory realistic sensation evaluation apparatus calculates the auditory realistic sensation evaluation value using more parameters, so that the calculation accuracy of the auditory realistic sensation is improved.

さらに、前記動画像生成部は、前記相互相関関数を前記輝度に変換し、前記音圧レベルを前記彩度に変換するとともに、前記音圧レベル差を前記色相に変換する構成であってもよい。かかる構成によると、相互相関関数と相関する輝度成分、音圧レベルと相関する彩度成分、及び音圧レベル差と相関する色相成分を有するカラー動画像を生成し、生成されたカラー動画像の移動ベクトルから聴覚臨場感評価値を算出することができる。   Furthermore, the moving image generation unit may be configured to convert the cross-correlation function into the luminance, convert the sound pressure level into the saturation, and convert the sound pressure level difference into the hue. . According to such a configuration, a color moving image having a luminance component correlated with the cross-correlation function, a saturation component correlated with the sound pressure level, and a hue component correlated with the sound pressure level difference is generated, and the generated color moving image An auditory realistic sense evaluation value can be calculated from the movement vector.

前記相互相関関数算出部は、区間長の異なる複数の区間長別相互相関関数を算出し、算出された複数の区間長別相互相関関数に基づいて前記相互相関関数を算出する構成であってもよい。単一の区間長の相互相関関数のみを算出した場合には、偶々相関性が高く算出される等相互相関関数の値と実際の音像位置とが正確に一致しない場合があるが、かかる構成によると、複数の区間長を用いることで、音像位置の誤検出を防ぐことができる。   The cross-correlation function calculating unit may be configured to calculate a plurality of cross-correlation functions by section length having different section lengths, and calculate the cross-correlation function based on the calculated cross-correlation functions by section length. Good. When only the cross-correlation function having a single section length is calculated, the value of the cross-correlation function that is calculated by chance is high and the actual sound image position may not exactly match. By using a plurality of section lengths, erroneous detection of the sound image position can be prevented.

前記音像移動ベクトル算出部は、前記動画像の三以上のフレームを用いて前記動画像の移動ベクトルを算出する構成であってもよい。かかる構成によると、移動ベクトルの算出精度が向上する。   The sound image movement vector calculation unit may be configured to calculate a movement vector of the moving image using three or more frames of the moving image. According to this configuration, the calculation accuracy of the movement vector is improved.

また、本発明は、コンピュータを前記した聴覚臨場感評価装置として機能させる聴覚臨場感評価プログラムとしても具現化可能である。   The present invention can also be embodied as an auditory reality evaluation program that causes a computer to function as the aforementioned auditory reality evaluation device.

本発明によれば、聴覚臨場感を客観的に評価することができる。   According to the present invention, auditory presence can be objectively evaluated.

本発明の実施形態に係る聴覚臨場感評価システムを示すブロック図である。It is a block diagram which shows the auditory presence sense evaluation system which concerns on embodiment of this invention. 一対のマイクロホンによって計測された音響信号を示すグラフである。It is a graph which shows the acoustic signal measured by a pair of microphone. (a)は相互相関関数を示すグラフであり、(b)は、相互相関関数の値と輝度との関係を示す図であり、(c)は、相互相関関数から生成された画素列を示す図である。(A) is a graph which shows a cross correlation function, (b) is a figure which shows the relationship between the value of a cross correlation function, and a brightness | luminance, (c) shows the pixel row | line | column produced | generated from the cross correlation function. FIG. (a)は音圧レベル差を示すグラフであり、(b)は音圧レベル差による重みを示すグラフであり、(c)は画素列に対する重み付けを示す図である。(A) is a graph which shows a sound pressure level difference, (b) is a graph which shows the weight by sound pressure level difference, (c) is a figure which shows the weight with respect to a pixel row | line | column. (a)は動画像を示す図であり、(b)は移動ベクトルを示す図である。(A) is a figure which shows a moving image, (b) is a figure which shows a movement vector. (a)〜(d)は、音像移動量の算出手法を説明するための図である。(A)-(d) is a figure for demonstrating the calculation method of sound image moving amount | distance. (a)(b)は、単一音像の移動ベクトルの算出例を説明するための図である。(A) (b) is a figure for demonstrating the example of calculation of the movement vector of a single sound image. (a)(b)は、複数音像の移動ベクトルの算出例を説明するための図である。(A) (b) is a figure for demonstrating the example of calculation of the movement vector of a several sound image.

以下、本発明の実施形態について、本発明を再生音場の評価に適用した場合を例にとり、適宜図面を参照しながら説明する。同様の部分には同一符号を付し、重複する説明を省略する。本発明において、「音像」は、聴取者が音源の存在を知覚する位置を指し、ステレオスピーカ等によって具現化された仮想的な音源の位置であったり、実際の音源の位置であったりする。また、本発明において、「聴覚臨場感」は、聴取者が聴覚において感じる臨場感を指す。従来、臨場感は、AV機器の性能を語る際の重要なキーワードであるにも関わらず、曖昧な意味で用いられていたのに対し、本発明の聴覚臨場感推定装置は、聴覚臨場感評価値を定量的かつ客観的に推定することができる。   Hereinafter, embodiments of the present invention will be described with reference to the drawings as appropriate, taking as an example the case where the present invention is applied to evaluation of a reproduction sound field. Similar parts are denoted by the same reference numerals, and redundant description is omitted. In the present invention, the “sound image” refers to a position where a listener perceives the presence of a sound source, and may be a virtual sound source position embodied by a stereo speaker or the like, or an actual sound source position. In the present invention, “auditory presence” refers to the sense of presence that a listener feels in hearing. Conventionally, the sense of presence has been used in an ambiguous sense even though it is an important keyword when talking about the performance of an AV device. The value can be estimated quantitatively and objectively.

再生側の機器としては、ステレオスピーカ、5.1チャネルシステム、ヘッドホン等があるが、聴取者は、最終的に両耳に到達した音響信号によって聴覚臨場感を知覚する。したがって、本発明の聴覚臨場感評価装置は、聴取者の両耳と同様に、2チャネルの音響信号に基づいて音像の移動量を推定することとする。   The playback device includes a stereo speaker, a 5.1 channel system, headphones, and the like, but the listener perceives a sense of auditory presence with an acoustic signal that finally reaches both ears. Therefore, the auditory realistic sensation evaluation apparatus of the present invention estimates the moving amount of the sound image based on the two-channel acoustic signal, similarly to the listener's ears.

図1に示すように、本発明の実施形態に係る聴覚臨場感評価システム1は、再生側の機器として、記憶媒体再生装置10と、スピーカ群20と、を備えている。記憶媒体再生装置10は、図示しない記憶媒体に記憶されたデータを読み取り、ステレオスピーカ、5.1チャネルシステム、ヘッドホン等からなるスピーカ群20を介して音響信号を再生する。   As shown in FIG. 1, the auditory presence evaluation system 1 according to the embodiment of the present invention includes a storage medium playback device 10 and a speaker group 20 as playback-side devices. The storage medium playback device 10 reads data stored in a storage medium (not shown) and plays back an acoustic signal via a speaker group 20 including a stereo speaker, a 5.1 channel system, headphones, and the like.

本発明の実施形態に係る聴覚臨場感評価システム1は、評価側の機器として、一対のマイクロホン30L,30Rと、聴覚臨場感評価装置40と、通知装置50と、を備える。   The auditory presence evaluation system 1 according to the embodiment of the present invention includes a pair of microphones 30L and 30R, an auditory presence evaluation device 40, and a notification device 50 as devices on the evaluation side.

<マイクロホン>
一対のマイクロホン30L,30Rは、左右に配置された2チャネル構造を呈し、スピーカ群20で再生された音響信号を計測し、計測された2チャネルの音響信号を聴覚臨場感評価装置40へ出力する。本明細書では、スピーカ群20で再生された音波だけでなく、当該音波のマイクロホン30L,30Rによる計測結果も音響信号と記載する。
<Microphone>
The pair of microphones 30 </ b> L and 30 </ b> R has a two-channel structure arranged on the left and right sides, measures an acoustic signal reproduced by the speaker group 20, and outputs the measured two-channel acoustic signal to the auditory presence evaluation device 40. . In this specification, not only the sound waves reproduced by the speaker group 20 but also the measurement results of the sound waves by the microphones 30L and 30R are described as acoustic signals.

<聴覚臨場感評価装置>
聴覚臨場感評価装置40は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read-Only Memory)、入出力回路等から構成されており、機能部として、音響信号分割部41と、相互相関関数算出部42と、音圧レベル算出部43と、動画像生成部44と、音像移動ベクトル算出部45と、聴覚臨場感評価値算出部46と、を備える。
<Hearing presence evaluation device>
The auditory presence evaluation device 40 includes a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read-Only Memory), an input / output circuit, and the like. , A cross-correlation function calculating unit 42, a sound pressure level calculating unit 43, a moving image generating unit 44, a sound image movement vector calculating unit 45, and an auditory realistic sense value calculating unit 46.

≪音響信号分割部≫
音響信号分割部41は、一対のマイクロホン30L,30Rから出力された2チャネルの音響信号をある一定時間ごとにある区間長だけ取得し、取得された2チャネルの音響信号をM個のバンドパスフィルタによって周波数帯域ごとにM個に分割し、分割された音響信号を相互相関関数算出部42及び音圧レベル算出部43へ出力する。
≪Sound signal division part≫
The acoustic signal dividing unit 41 acquires the two-channel acoustic signals output from the pair of microphones 30L and 30R for a certain section length at certain time intervals, and the acquired two-channel acoustic signals are M bandpass filters. Is divided into M for each frequency band, and the divided acoustic signals are output to the cross-correlation function calculator 42 and the sound pressure level calculator 43.

本実施形態において、音響信号分割部41は、5個のオクターブバンドパスフィルタを備えており、マイクロホン30Lから出力された音響信号Lを、中心周波数が125[Hz]である周波数帯域fの第一の音響信号L、中心周波数が250[Hz]である周波数帯域fの第二の音響信号L、中心周波数が500[Hz]である周波数帯域fの第三の音響信号L、中心周波数が1000[Hz]である周波数帯域fの第四の音響信号L、中心周波数が2000[Hz]である周波数帯域fの第五の音響信号Lに分割する。 In the present embodiment, the acoustic signal dividing unit 41 includes five octave bandpass filters, and the acoustic signal L output from the microphone 30L is converted into the first frequency band f1 having a center frequency of 125 [Hz]. One acoustic signal L 1 , a second acoustic signal L 2 in a frequency band f 2 with a center frequency of 250 [Hz], and a third acoustic signal L 3 in a frequency band f 3 with a center frequency of 500 [Hz]. The fourth acoustic signal L 4 in the frequency band f 4 with a center frequency of 1000 [Hz] is divided into the fifth acoustic signal L 5 in the frequency band f 5 with a center frequency of 2000 [Hz].

同様に、音響信号分割部41は、マイクロホン30Rから出力された音響信号を、中心周波数が125[Hz]である周波数帯域fの第一の音響信号R、中心周波数が250[Hz]である周波数帯域fの第二の音響信号R、中心周波数が500[Hz]である周波数帯域fの第三の音響信号R、中心周波数が1000[Hz]である周波数帯域fの第四の音響信号R、中心周波数が2000[Hz]である周波数帯域fの第五の音響信号Rに分割する。 Similarly, the acoustic signal division unit 41 converts the acoustic signal output from the microphone 30R into a first acoustic signal R 1 in the frequency band f 1 having a center frequency of 125 [Hz] and a center frequency of 250 [Hz]. A second acoustic signal R 2 in a certain frequency band f 2, a third acoustic signal R 3 in a frequency band f 3 having a center frequency of 500 [Hz], and a frequency band f 4 having a center frequency of 1000 [Hz]. The fourth acoustic signal R 4 is divided into a fifth acoustic signal R 5 in a frequency band f 5 having a center frequency of 2000 [Hz].

なお、音響信号の分割数は、5個に限定されず、対象とする音像の種類に応じて適宜変更可能である。例えば、自動車騒音のように広帯域な雑音成分を含む音を対象とする場合には、可聴周波数帯域(20[Hz]〜20[kHz])を1/1オクターブバンド幅で区切ったM=10程度とすることができる。また、楽器音のように高調波構造を有する音を対象とする場合には、1/10オクターブバンド幅で区切ったM=40程度とすることができる。また、汎用的なモデルのバンドパスフィルタとして、50チャネル程度の聴覚フィルタ(聴覚末梢系の特性を考慮したバンドパスフィルタであり、代表的なものにROEXフィルタ、Gamma−toneフィルタ等がある)を採用することによって、聴覚特性を反映した分割を行うことができる。   Note that the number of divisions of the acoustic signal is not limited to five, and can be appropriately changed according to the type of the target sound image. For example, when targeting a sound including a broadband noise component such as automobile noise, M = 10 is obtained by dividing an audible frequency band (20 [Hz] to 20 [kHz]) by a 1/1 octave bandwidth. It can be. When a sound having a harmonic structure such as a musical instrument sound is targeted, M = 40 divided by 1/10 octave bandwidth can be set. As a general-purpose model band-pass filter, an auditory filter of about 50 channels (a band-pass filter that takes into account the characteristics of the auditory peripheral system, representative examples include a ROEX filter, a Gamma-tone filter, etc.) By adopting, the division reflecting the auditory characteristics can be performed.

≪相互相関関数算出部≫
相互相関関数算出部42は、音響信号分割部41から出力された各音響信号L〜L,R〜Rを取得し、取得された各音響信号L〜L,R〜Rに基づいて、周波数帯域ごとの相互相関関数を算出し、算出された相互相関関数を動画像生成部44へ出力する。
≪Cross-correlation function calculation part≫
The cross-correlation function calculating unit 42 acquires the acoustic signals L 1 to L 5 and R 1 to R 5 output from the acoustic signal dividing unit 41, and acquires the acquired acoustic signals L 1 to L 5 , R 1 to Based on R 5 , a cross-correlation function for each frequency band is calculated, and the calculated cross-correlation function is output to the moving image generation unit 44.

本実施形態において、相互相関関数算出部42は、算出周期ごと(時刻t,t,…)に、音響信号L,Rの相互相関(CC:Cross Correlation)関数を算出する。
相互相関関数算出部42は、図2(a)に示すように、時刻tを先頭として区切った区間長(時間窓幅ともいう)Tの音響信号L,Rを抽出して抽出された音響信号L,Rの相関値を算出するとともに、音響信号Rのみをラグmずつずらして区切って抽出し直して相関値を算出することを繰り返すことによって、図3(a)の下段に示すように、ラグmを変数とする相互相関関数を算出する。相互相関関数は、−1から+1までの値をとり、音響信号L,Rが一致した場合に+1となり、音響信号L,Rの波形が異なるほど値が小さくなる。本発明において、ラグmは、音響信号L,Rにおける相互相関関数を算出するための区間のずれ(時間差)である。
In the present embodiment, the cross-correlation function calculation unit 42 calculates a cross-correlation (CC) function of the acoustic signals L 1 and R 1 for each calculation period (time t 1 , t 2 ,...).
As shown in FIG. 2A, the cross-correlation function calculating unit 42 extracts and extracts the acoustic signals L 1 and R 1 having a section length (also referred to as a time window width) T 1 divided from the time t 1 as the head. 3 (a) by calculating the correlation value of the acoustic signals L 1 and R 1 and repeating the calculation of the correlation value by shifting and extracting only the acoustic signal R 1 by shifting it by lag m. As shown in the lower stage, a cross-correlation function with lag m as a variable is calculated. The cross-correlation function takes a value from −1 to +1 and becomes +1 when the acoustic signals L 1 and R 1 coincide with each other, and the value decreases as the waveforms of the acoustic signals L 1 and R 1 differ. In the present invention, the lag m is a section shift (time difference) for calculating a cross-correlation function in the acoustic signals L 1 and R 1 .

前記した時刻t,t,…を先頭として区切った区間長T、p番目の算出周期、q番目の周波数帯域における時刻nの関数である音響信号Lp,q(n),Rp,q(n)に対する相互相関関数rp,q(m)は、下記式によって算出される。 An acoustic signal L p, q (n), R p that is a function of time n in the section length T 1 , p-th calculation period, and q-th frequency band divided by the above-described times t 1 , t 2 ,. , Q (n), the cross-correlation function r p, q (m) is calculated by the following equation.

ここで、σ p,q,σ p,qは、それぞれLp,q(n),Rp,q(n)の標準偏差である。また、Nは、相互相関関数を算出する期間の長さTに対応する離散時間である。 Here, σ L p, q and σ R p, q are standard deviations of L p, q (n) and R p, q (n), respectively. N is a discrete time corresponding to the length T of the period for calculating the cross-correlation function.

なお、区間長は、対象とする音像の種類に応じて適宜変更可能である。例えば、定常的な騒音を対象とする場合には、100〜200[ms]程度とし、時間的な変化が大きい楽器音を対象とする場合には、10〜20[ms]程度とすることができる。かかる区間長は、相互相関関数算出部42に予め記憶されていてもよく、聴覚臨場感評価装置40に接続されたキーボード、マウス等からなる入力装置(図示せず)をユーザが操作することによって設定される構成であってもよい。   The section length can be changed as appropriate according to the type of target sound image. For example, when the target is stationary noise, it is set to about 100 to 200 [ms], and when the target is instrumental sound having a large temporal change, it is set to about 10 to 20 [ms]. it can. The section length may be stored in advance in the cross-correlation function calculation unit 42, and the user operates an input device (not shown) including a keyboard and a mouse connected to the auditory presence evaluation device 40. The configuration may be set.

また、算出周期(時刻t,t,…の間隔)と、区間長とは、一致しても一致しなくてもよい。 Further, the calculation cycle (interval between times t 1 , t 2 ,...) And the section length may or may not match.

また、相互相関関数算出部42は、聴覚臨場感評価値算出部46によって算出された音像の移動量(移動ベクトルの大きさ)に基づいて、算出周期を変更する構成であってもよい。例えば、音像の移動量が小さい場合には、算出周期を長く設定することによって演算量を削減することができる。この場合において、二次元動画像の一般的なフレームレートである1/30[s]を算出周期として相互相関関数を算出する場合であっても、区間長を1/30[s]よりも長く設定し、音響信号Rの抽出範囲をオーバーラップさせながら相互相関関数を算出することができる。相互相関関数算出部42には、音像の移動量と、相互相関関数の算出周期と、の関係がデータベースとして予め記憶されており、相互相関関数算出部42は、聴覚臨場感評価値算出部46によって算出された音像の移動量を用いてデータベースを検索することによって、音像の移動量の対応する算出周期を読み出し、読み出された算出周期に基づいて相互相関関数を算出する。 Further, the cross-correlation function calculation unit 42 may be configured to change the calculation cycle based on the moving amount of the sound image (the magnitude of the movement vector) calculated by the auditory realistic sense value calculation unit 46. For example, when the moving amount of the sound image is small, the calculation amount can be reduced by setting the calculation cycle longer. In this case, even when the cross-correlation function is calculated using 1/30 [s], which is a general frame rate of a two-dimensional moving image, as a calculation cycle, the section length is longer than 1/30 [s]. set, it is possible to calculate the cross-correlation function while overlapping extraction range of the acoustic signal R 1. The cross-correlation function calculation unit 42 stores in advance a relationship between the amount of movement of the sound image and the calculation cycle of the cross-correlation function as a database. By searching the database using the movement amount of the sound image calculated by the above, a calculation cycle corresponding to the movement amount of the sound image is read, and a cross-correlation function is calculated based on the read calculation cycle.

また、相互相関関数算出部42は、区間長の異なる複数の区間長別相互相関関数を算出し、算出された複数の区間長別相互相関関数に基づいて相互相関関数を算出する構成であってもよい。例えば、相互相関関数算出部42には、区間長T,T,Tが予め記憶されており、相互相関関数算出部42は、図2(b)に示すように、区間長Tにおける区間長別相互相関関数を算出するとともに、区間長Tよりも長い区間長T,Tにおける区間長別相互相関関数を算出し、算出された3個の区間長別相互相関関数の相加平均を算出することによって、相互相関関数を算出することができる。 The cross-correlation function calculating unit 42 is configured to calculate a plurality of cross-correlation functions by section length having different section lengths, and to calculate a cross-correlation function based on the calculated plurality of cross-correlation functions by section length. Also good. For example, the cross-correlation function calculation unit 42 stores section lengths T 1 , T 2 , and T 3 in advance, and the cross-correlation function calculation unit 42 stores the section length T 1 as shown in FIG. , The cross-correlation function by section length in section lengths T 2 and T 3 longer than the section length T 1 is calculated, and the calculated three cross-correlation functions by section length are calculated. By calculating the arithmetic mean, the cross-correlation function can be calculated.

相互相関関数算出部42は、他の周波数帯域f〜fに関しても同様に相互相関関数を算出する。 The cross-correlation function calculating unit 42 similarly calculates the cross-correlation function for the other frequency bands f 2 to f 5 .

≪音圧レベル算出部≫
音圧レベル算出部43は、音響信号分割部41から出力された各音響信号L〜L,R〜Rを取得し、取得された各音響信号L〜L,R〜Rに基づいて、周波数帯域ごとの音圧レベル、及び、左右の音響信号の音圧の差である音圧レベル差を算出し、算出された音圧レベル及び音圧レベル差を動画像生成部44へ出力するとともに、算出された音圧レベルを聴覚臨場感評価値算出部46へ出力する。
≪Sound pressure level calculation part≫
The sound pressure level calculation unit 43 acquires the acoustic signals L 1 to L 5 and R 1 to R 5 output from the acoustic signal division unit 41, and acquires the acquired acoustic signals L 1 to L 5 , R 1 to Based on R 5 , the sound pressure level for each frequency band and the sound pressure level difference that is the difference between the sound pressures of the left and right acoustic signals are calculated, and the calculated sound pressure level and the sound pressure level difference are generated as a moving image. And outputs the calculated sound pressure level to the auditory presence sense value calculation unit 46.

≪動画像生成部≫
動画像生成部44は、相互相関関数算出部42から出力された周波数帯域ごとの相互相関関数と、音圧レベル算出部43から出力された音圧レベル及び音圧レベル差に基づいて、動画像(より詳細には、二次元動画像)を生成し、生成された動画像を音像移動ベクトル算出部45へ出力する。
≪Moving image generation part≫
Based on the cross-correlation function for each frequency band output from the cross-correlation function calculation unit 42 and the sound pressure level and the sound pressure level difference output from the sound pressure level calculation unit 43, the moving image generation unit 44 (More specifically, a two-dimensional moving image) is generated, and the generated moving image is output to the sound image movement vector calculation unit 45.

図5(a)に示すように、動画像は、時刻tにおけるフレーム100、時刻tにおけるフレーム200、時刻tにおけるフレーム300、時刻tにおけるフレーム400、…から構成されており、動画像の一のフレームは、縦軸を周波数(周波数帯域f〜f)、横軸をラグmとする平面である。本実施形態では、一のフレームは、縦5×横8の画素から構成されており、動画像生成部44は、相互相関関数を対応する画素の輝度、音圧レベルを対応する画素の彩度、音圧レベル差を対応する画素の色相に変換することによって、動画像を生成する。 As shown in FIG. 5 (a), moving images, the frame 100 at time t 1, the frame 200 at time t 2, the frame 300 at time t 3, the frame 400 at time t 4, ... are composed of, videos One frame of the image is a plane in which the vertical axis represents frequency (frequency band f 1 to f 5 ) and the horizontal axis represents lag m. In the present embodiment, one frame is composed of 5 × 8 pixels, and the moving image generation unit 44 uses the cross-correlation function for the luminance of the corresponding pixel and the saturation of the pixel corresponding to the sound pressure level. The moving image is generated by converting the sound pressure level difference into the hue of the corresponding pixel.

例えば、相互相関関数のみを用いて動画像を生成する場合には、動画像生成部44は、相互相関関数が−1の場合に最低輝度となり、相互相関関数が+1の場合に最高輝度となるように各画素の画素データを生成し(図3(b)参照)、かかる画素データによって構成された一連の画像からなる動画像を生成する。ここで、動画像生成部44は、図3(a)の下段に示す周波数帯域fの相互相関関数から、図3(c)の下段に示す輝度を有する画素列110を生成し、図3(a)の上段に示す周波数帯域fの相互相関関数から、図3(c)の上段に示す輝度を有する画素列120を生成する。 For example, when a moving image is generated using only the cross-correlation function, the moving image generation unit 44 has the lowest luminance when the cross-correlation function is −1 and the highest luminance when the cross-correlation function is +1. In this way, pixel data of each pixel is generated (see FIG. 3B), and a moving image composed of a series of images constituted by the pixel data is generated. Here, moving image generation unit 44, the cross-correlation function of the frequency band f 1 shown in the lower part of FIG. 3 (a), to generate a pixel column 110 having a luminance as shown in the lower part of FIG. 3 (c), FIG. 3 from the cross-correlation function of the frequency band f 2 shown in the upper part of (a), to generate a pixel column 120 having a luminance as shown in the upper part of FIG. 3 (c).

また、動画像生成部44は、図4(a)に示す周波数帯域ごとの音響信号L(又はL〜L),R(又はR〜R)の音圧レベル210,220の音圧レベル差230に基づいて、図4(b)に示すラグmごとの重みを算出し、算出された重みによって重み付けされた輝度を有する画素列110’を生成する構成であってもよい。 In addition, the moving image generation unit 44 has the sound pressure levels 210 and 220 of the acoustic signals L 1 (or L 2 to L 5 ) and R 1 (or R 2 to R 5 ) for each frequency band shown in FIG. Based on the sound pressure level difference 230, a weight for each lag m shown in FIG. 4B may be calculated, and a pixel row 110 ′ having luminance weighted by the calculated weight may be generated. .

相関の高い音響信号が左右の耳にある音圧レベル差で到来した場合、左右のレベル差によって、正面を0度として±90度のいずれかの方向に音像が知覚される。動画像生成部44は、かかる音圧レベル差と音像の知覚方向との関係を予め記憶しておき、音圧レベル差230を用いてかかる関係を参照することによって、何度の方向に音像があるかを推測することができる。動画像生成部44は、音像があると推定される方向に重みとして1を設定し、そこから遠ざかる方向につれて、重みとして小さい値を設定する。   When a highly correlated acoustic signal arrives with a sound pressure level difference between the left and right ears, a sound image is perceived in any direction of ± 90 degrees with the front as 0 degrees due to the left and right level differences. The moving image generation unit 44 stores the relationship between the sound pressure level difference and the perceived direction of the sound image in advance, and refers to the relationship using the sound pressure level difference 230, whereby the sound image is generated in any number of directions. You can guess if there is. The moving image generating unit 44 sets 1 as a weight in a direction in which it is estimated that there is a sound image, and sets a small value as a weight in a direction away from the moving image generation unit 44.

一方、相互相関関数の値が最大になるラグmが音像のある方向であるから、ラグmと音像の方向とは一対一に対応する。したがって、動画像生成部44は、重み付けによって、音圧レベル差230に基づいて音像があると推定された付近の相互相関関数の値はそのままにし、音圧レベル差230に基づいて音像がないと推定された付近の相互相関関数の値は小さくなるようにする。こうすることで、正弦波のように相互相関関数が1となるラグが数か所でてくるような場合でも、動画像生成部44は、音圧レベル差230に基づいて音像の方向を判定することができる。 On the other hand, since the lag m that maximizes the value of the cross-correlation function is the direction in which the sound image exists, the lag m and the direction of the sound image correspond one-to-one. Therefore, the moving image generation unit 44 keeps the value of the cross-correlation function in the vicinity estimated that there is a sound image based on the sound pressure level difference 230 by weighting, and if there is no sound image based on the sound pressure level difference 230. The value of the estimated cross-correlation function in the vicinity is made small. By doing so, the moving image generation unit 44 determines the direction of the sound image based on the sound pressure level difference 230 even when there are several lags where the cross-correlation function is 1, such as a sine wave. can do.

また、動画像生成部44は、相互相関関数を輝度又は色相に変換して動画像を生成する場合には、相互相関関数がマイナスの部分を0とみなして動画像を生成する構成であってもよい。これは、音像が1個の場合には、相互相関関数が最大となるラグに対応する位置が音像の位置と一致するためである。   Further, the moving image generation unit 44 is configured to generate a moving image by regarding a portion having a negative cross correlation function as 0 when generating a moving image by converting the cross correlation function into luminance or hue. Also good. This is because when there is one sound image, the position corresponding to the lag at which the cross-correlation function is maximized matches the position of the sound image.

≪音像移動ベクトル算出部≫
音像移動ベクトル算出部45は、動画像生成部44から出力された動画像の複数のフレームを用いて動画像の移動ベクトルを算出することによって、音像の移動ベクトルを算出し、算出された音像の移動ベクトルを聴覚臨場感評価値算出部46へ出力する。動画像の移動ベクトルの算出手法としては、オプティカルフロー、パターンマッチング、特徴量追従アルゴリズム等といった、画像情報処理のための公知のアルゴリズムを適宜採用することができる。
≪Sound image movement vector calculation unit≫
The sound image movement vector calculation unit 45 calculates a movement vector of the sound image by calculating a movement vector of the moving image using a plurality of frames of the moving image output from the moving image generation unit 44, and calculates the sound image of the calculated sound image. The movement vector is output to the auditory presence evaluation value calculation unit 46. As a method for calculating a moving vector of a moving image, a known algorithm for image information processing such as optical flow, pattern matching, feature amount tracking algorithm, or the like can be appropriately employed.

音像移動ベクトル算出部45は、3個以上(本実施形態では、時刻t〜tに対応する4個)のフレームを蓄積し、蓄積されたフレームの輝度、色相及び彩度に基づいて、周波数帯域ごとの移動ベクトルを算出する。詳細には、音像移動ベクトル算出部45は、図5(b)に示すように、時刻tにおける画素列111(ここでは、説明のため、1列の画素数を12個とする。)、時刻tにおける画素列211、時刻tにおける画素列311を用いて、周波数帯域fにおける移動ベクトルを算出するとともに、他の周波数帯域f〜fについても同様の処理を行う。ここで、時刻t,tの2個のフレームを用いて移動ベクトルを算出する場合には、音像移動ベクトル算出部45は、時刻tにおける画素列111の左から4個目の画素が、時刻tにおいても画素列211の左から4個目に留まっていると誤算出するおそれがある(実線の矢印)。そのため、音像移動ベクトル算出部45は、時刻tにおける画素列311をさらに用いることによって、時刻tにおける画素列111の左から1〜3個目の画素が、時刻tにおける画素列211では左から5〜7個目、時刻tにおける画素列では左から10〜12個目へと移動していると推定するため、時刻tにおける画素列111の左から4個目の画素が、時刻tにおいては画素列211の左から8個目へ移動していると算出することができる(点線の矢印)。このように、3個以上のフレームを用いて移動ベクトルを算出することによって、移動ベクトルの誤算出を防ぐことができる。 The sound image movement vector calculation unit 45 accumulates three or more (in this embodiment, four frames corresponding to times t 1 to t 4), and based on the luminance, hue, and saturation of the accumulated frames, A movement vector for each frequency band is calculated. Specifically, as shown in FIG. 5B, the sound image movement vector calculation unit 45 has a pixel column 111 at time t 1 (here, the number of pixels in one column is 12 for explanation), pixel row 211 at time t 2, the using the pixel column 311 at time t 3, and calculates a movement vector in the frequency band f 1, the same processing is performed for the other frequency band f 2 ~f 5. Here, when the movement vector is calculated using the two frames at times t 1 and t 2 , the sound image movement vector calculation unit 45 determines that the fourth pixel from the left of the pixel column 111 at the time t 1 , there is a risk of an erroneous calculation remains the 4 th left pixel column 211 at time t 2 (solid arrow). Therefore, the sound image movement vector calculation unit 45 further uses the pixel column 311 at the time t 3 , so that the first to third pixels from the left of the pixel column 111 at the time t 1 are in the pixel column 211 at the time t 2 . 5-7 th from the left, since the pixel rows at a time t 3 is estimated to be moving to 10 to 12 from the left, 4 th left pixel of the pixel row 111 at time t 1 is, it can be calculated to be moving from the left pixel column 211 to 8 th at time t 2 (dashed arrows). Thus, by calculating the movement vector using three or more frames, it is possible to prevent erroneous calculation of the movement vector.

また、音像移動ベクトル算出部45は、周波数特性が変動する音像に対して、周波数帯域ごとの音圧レベルの変化に応じて、周波数帯域を跨ぐように音像の移動ベクトルを算出してもよい。ここで、音像移動ベクトル算出部45は、音圧レベルの周波数成分の時間変化に基づいて、周波数、時間及び音圧レベルを軸とする三次元空間における音圧レベルのピーク(尾根部分)が周波数の軸上でシフトした場合に、音像の周波数特性が変動していると判定し、周波数帯域を跨ぐように音像の移動ベクトルを算出することができる。   In addition, the sound image movement vector calculation unit 45 may calculate the movement vector of the sound image so as to straddle the frequency band according to the change in the sound pressure level for each frequency band with respect to the sound image whose frequency characteristics vary. Here, the sound image movement vector calculation unit 45 calculates the peak (ridge portion) of the sound pressure level in a three-dimensional space with the frequency, time, and sound pressure level as axes based on the time change of the frequency component of the sound pressure level. It is possible to determine that the frequency characteristics of the sound image have fluctuated and shift the sound image movement vector so as to straddle the frequency band.

≪聴覚臨場感評価値算出部≫
聴覚臨場感評価値算出部46は、音像移動ベクトル算出部45から出力された音像の移動ベクトルに基づいて、聴覚臨場感評価値を算出し、通知装置50へ出力する。本実施形態において、聴覚臨場感評価値算出部46は、閾値未満の音像の移動量を切り捨てるとともに、閾値以上の複数の音像の移動量を相加平均することによって、聴覚臨場感評価値を算出することができる。かかる聴覚臨場感評価値は、音像の移動ベクトルが大きいほど、当該聴覚臨場感評価値が大きくなるような値である。
≪Hearing presence evaluation value calculation part≫
The auditory presence sense evaluation value calculation unit 46 calculates an auditory presence sense evaluation value based on the sound image movement vector output from the sound image movement vector calculation unit 45 and outputs it to the notification device 50. In the present embodiment, the auditory realistic sensation evaluation value calculation unit 46 calculates the auditory realistic sensation evaluation value by rounding down the movement amount of the sound image less than the threshold value and arithmetically averaging the movement amounts of the plurality of sound images equal to or greater than the threshold value. can do. The auditory presence evaluation value is a value such that the larger the movement vector of the sound image, the larger the auditory presence evaluation value.

聴覚臨場感評価値算出部46は、動画像の周波数帯域ごとの移動ベクトル、すなわち、音像の移動ベクトルに基づいて、周波数帯域ごとの音像移動量を推定し、推定された周波数帯域ごとの音像移動量の最大値を採用する、音像移動量の相加平均を算出する、又は、音像移動量の積算値を算出することによって、全体としての音像移動量を推定する。   The auditory presence sense value calculation unit 46 estimates a sound image movement amount for each frequency band based on a movement vector for each frequency band of the moving image, that is, a movement vector for the sound image, and moves the sound image for each estimated frequency band. The overall sound image movement amount is estimated by calculating the arithmetic average of the sound image movement amounts using the maximum value of the amount, or by calculating the integrated value of the sound image movement amounts.

本実施形態では、聴覚臨場感評価値算出部46は、音像移動量の積算値を採用する。すなわち、聴覚臨場感評価値算出部46は、図6(a)に示すように、前フレームと今フレームにおける各周波数帯域f〜fの移動ベクトルV1a,V1b,V〜Vを算出する。 In the present embodiment, the auditory realistic sense value calculation unit 46 employs an integrated value of the sound image movement amount. That is, as shown in FIG. 6A, the auditory presence sense value calculation unit 46 moves the movement vectors V 1a , V 1b , V 2 to V 5 of the frequency bands f 1 to f 5 in the previous frame and the current frame. Is calculated.

続いて、聴覚臨場感評価値算出部46は、図6(b)に示すように、各周波数帯域f〜fの移動ベクトルを統合する。ここでは、周波数帯域fの移動ベクトルVと周波数帯域fの移動ベクトルVが類似しているため統合されるとともに、周波数帯域fの左の移動ベクトルV1aと周波数帯域fの左の移動ベクトルV1bと周波数帯域fの移動ベクトルVとが類似しているため統合される。 Subsequently, as shown in FIG. 6B, the auditory presence sense value calculation unit 46 integrates the movement vectors of the respective frequency bands f 1 to f 5 . Here, the movement vector V 5 of the movement vector V 2 and the frequency band f 5 of the frequency band f 2 are integrated because of the similar frequency band f 1 left movement vector V 1a and the frequency band f 1 of a movement vector V 4 of the left movement vector V 1b and the frequency band f 4 of are integrated because of the similar.

ここで、聴覚臨場感評価値算出部46は、二つの移動ベクトルの向きが同じで、大きさがほぼ同じ(例えば、移動ベクトルの大きさの比率が一定範囲内)であれば、二つの移動ベクトルが類似していると判定する構成であってもよく、さらに、二つの移動ベクトルの音圧レベル及び音圧レベル差の少なくとも一方がほぼ同じ(比率が一定範囲内)である場合に、二つの移動ベクトルが類似していると判定する構成であってもよい。   Here, the auditory presence evaluation value calculation unit 46 determines that the two movement vectors have the same direction and the same magnitude (for example, the ratio of the magnitudes of the movement vectors is within a certain range). The configuration may be such that the vectors are determined to be similar, and further, if at least one of the sound pressure level and the sound pressure level difference between the two movement vectors is substantially the same (the ratio is within a certain range), two The configuration may be such that the two movement vectors are determined to be similar.

続いて、聴覚臨場感評価値算出部46は、図6(c)に示すように、統合後の移動ベクトルV1b(=V1a=V),V,Vの大きさの和(積分値)を算出し、算出結果を音像移動量とする。 Subsequently, as shown in FIG. 6C, the auditory presence sense evaluation value calculation unit 46 sums the magnitudes of the movement vectors V 1b (= V 1a = V 4 ), V 3 , V 5 after integration ( Integral value) is calculated, and the calculation result is used as the moving amount of the sound image.

なお、聴覚臨場感評価値算出部46は、図6(d)に示すように、統合後の移動ベクトルV1b,V,Vを音圧によって補正し、補正後の移動ベクトルV1b’,V’,V’の大きさの和(積分値)を算出し、算出結果を音像移動量とする構成であってもよい。例えば、音圧レベルが大きいほど聴覚臨場感評価値に対する音像の移動ベクトルの寄与度が高くなるように重み付けを行うことによって、聴覚臨場感評価値の推定精度を向上させることができる。 As shown in FIG. 6D, the auditory presence sense evaluation value calculation unit 46 corrects the integrated movement vectors V 1b , V 3 , and V 5 with sound pressures, and corrects the corrected movement vector V 1b ′. , V 3 ′, V 5 ′ may be summed (integrated value), and the calculated result may be used as a sound image movement amount. For example, weighting is performed such that the greater the sound pressure level, the higher the contribution degree of the sound image movement vector to the auditory presence evaluation value, thereby improving the estimation accuracy of the auditory presence evaluation value.

続いて、聴覚臨場感評価値算出部46は、今フレームと次フレームにおける音像移動量を算出し、かかる算出を所定フレーム数に達するまで繰り返し、所定フレーム数分の音像移動量の和(積算値)を算出し、算出結果を最終的な音像移動量、すなわち、聴覚臨場感評価値とする。   Subsequently, the auditory presence evaluation value calculation unit 46 calculates the sound image movement amount in the current frame and the next frame, repeats the calculation until the predetermined number of frames is reached, and sums the sound image movement amounts for the predetermined number of frames (integrated value). ) And the calculated result is the final sound image movement amount, that is, the auditory presence evaluation value.

また、聴覚臨場感評価値算出部46は、フレーム数の異なる複数のフレーム数別聴覚臨場感評価値を算出し、算出された複数のフレーム数別聴覚臨場感評価値に基づいて聴覚臨場感評価値を算出する構成であってもよい。
例えば、聴覚臨場感評価値算出部46は、3個のフレームにおけるフレーム数別聴覚臨場感評価値と、4個のフレームにおけるフレーム数別聴覚臨場感評価値と、を算出し、算出された2個のフレーム数別聴覚臨場感評価値の相加平均を算出することによって、聴覚臨場感評価値を算出することができる。
In addition, the auditory presence evaluation value calculation unit 46 calculates a plurality of auditory presence evaluation values according to the number of frames having different numbers of frames, and the auditory presence evaluation based on the plurality of calculated auditory presence feeling evaluation values according to the number of frames. The structure which calculates a value may be sufficient.
For example, the auditory reality evaluation value calculation unit 46 calculates the auditory presence evaluation value for each frame number in three frames and the auditory presence evaluation value for each frame number in four frames. By calculating the arithmetic average of the auditory realistic sensation evaluation values according to the number of frames, the auditory realistic sensation evaluation value can be calculated.

また、音像が1個の場合には、聴覚臨場感評価値算出部46は、輝度(すなわち、相互相関関数)が最大となるラグmに基づいて、ある時刻における音像の方向(方位角)を推定することもできる。これは、音像が1個の場合には、相互相関関数が最大となるラグmが、音像から各マイクロホン30L,30Rまでの距離の差と関連するためである。   When there is only one sound image, the auditory presence evaluation value calculation unit 46 determines the direction (azimuth angle) of the sound image at a certain time based on the lag m that maximizes the luminance (that is, the cross-correlation function). It can also be estimated. This is because, when there is one sound image, the lag m that maximizes the cross-correlation function is related to the difference in distance from the sound image to each of the microphones 30L and 30R.

また、聴覚臨場感評価値算出部46は、複数の周波数帯域の音圧レベルが同期して変動している場合には、当該複数の周波数帯域に同じ音像が存在するとみなして音像の移動ベクトルを統合することもできる。かかる構成によると、聴取者が知覚するのに似た音像の移動ベクトルを用いて聴覚臨場感評価値を算出することができる。   In addition, when the sound pressure levels of a plurality of frequency bands fluctuate synchronously, the auditory presence sense evaluation value calculation unit 46 considers that the same sound image exists in the plurality of frequency bands and determines a movement vector of the sound image. It can also be integrated. According to this configuration, it is possible to calculate an auditory realistic sense evaluation value using a movement vector of a sound image similar to that perceived by a listener.

<通知装置>
通知装置50は、ディスプレイ、スピーカ等からなり、聴覚臨場感評価値算出部46から出力された聴覚臨場感評価値を表示したり音声出力したりすることによって、利用者へ通知する。
<Notification device>
The notification device 50 includes a display, a speaker, and the like, and notifies the user by displaying or outputting the auditory reality evaluation value output from the auditory reality evaluation value calculation unit 46.

<動作例>
続いて、本発明の実施形態に係る聴覚臨場感評価装置40の動作例について説明する。まず、音響信号分割部41が、一対のマイクロホン30L,30Rから出力された2チャネルの音響信号を取得し、取得された2チャネルの音響信号を5個のバンドパスフィルタによって周波数帯域が異なる5個の音響信号L〜L,R〜Rに分割する。
<Operation example>
Subsequently, an operation example of the auditory presence sense evaluation device 40 according to the embodiment of the present invention will be described. First, the acoustic signal dividing unit 41 obtains two-channel acoustic signals output from the pair of microphones 30L and 30R, and the obtained two-channel acoustic signals have five different frequency bands by five band-pass filters. Are divided into acoustic signals L 1 to L 5 and R 1 to R 5 .

続いて、相互相関関数算出部42が、各音響信号L〜L,R〜Rに基づいて、周波数帯域ごとの相互相関関数を算出する。 Subsequently, the cross-correlation function calculation unit 42 calculates a cross-correlation function for each frequency band based on the acoustic signals L 1 to L 5 and R 1 to R 5 .

続いて、音圧レベル算出部43が、各音響信号L〜L,R〜Rに基づいて、周波数帯域ごとの音圧レベル、及び、左右の音響信号の音圧の差である音圧レベル差を算出し、算出された音圧レベル及び音圧レベル差を動画像生成部44へ出力するとともに、算出された音圧レベルを聴覚臨場感評価値算出部46へ出力する。 Subsequently, the sound pressure level calculation unit 43 is the difference between the sound pressure level for each frequency band and the sound pressure of the left and right sound signals based on the sound signals L 1 to L 5 and R 1 to R 5. The sound pressure level difference is calculated, and the calculated sound pressure level and the sound pressure level difference are output to the moving image generation unit 44, and the calculated sound pressure level is output to the auditory presence evaluation value calculation unit 46.

続いて、動画像生成部44が、相互相関関数と、音圧レベル算出部43から出力された音圧レベル及び音圧レベル差に基づいて、相互相関関数を輝度、音圧レベルを彩度、音圧レベル差を色相とみなした各画素の画素データを生成し、かかる画素データによって構成された一連の画像からなる動画像を生成する。   Subsequently, based on the cross-correlation function and the sound pressure level and the sound pressure level difference output from the sound pressure level calculation unit 43, the moving image generation unit 44 sets the cross-correlation function to luminance, the sound pressure level to saturation, Pixel data of each pixel, in which the sound pressure level difference is regarded as a hue, is generated, and a moving image including a series of images configured by the pixel data is generated.

続いて、音像移動ベクトル算出部45が、動画像生成部44から出力された動画像の複数のフレームを用いて動画像の移動ベクトルを算出することによって、音像の移動ベクトルを算出する。   Subsequently, the sound image movement vector calculation unit 45 calculates the movement vector of the sound image by calculating the movement vector of the moving image using the plurality of frames of the moving image output from the moving image generation unit 44.

続いて、聴覚臨場感評価値算出部46が、音像移動ベクトル算出部45から出力された音像の移動ベクトルに基づいて、聴覚臨場感評価値を算出し、通知装置50へ出力する。   Subsequently, the auditory presence evaluation value calculation unit 46 calculates an auditory presence evaluation value based on the sound image movement vector output from the sound image movement vector calculation unit 45, and outputs it to the notification device 50.

<音像の移動ベクトルの算出例>
続いて、本発明の実施形態に係る聴覚臨場感評価装置40の音像移動ベクトル算出部45が、移動する音像の移動ベクトルを実際に算出した例について説明する。
<Example of calculation of movement vector of sound image>
Subsequently, an example in which the sound image movement vector calculation unit 45 of the auditory presence evaluation apparatus 40 according to the embodiment of the present invention actually calculates the movement vector of the moving sound image will be described.

ここで、マイクロホン30L,30Rとして、ダミーヘッド(高研社製のSAMRAI)を使用するとともに、スピーカ群20として、単一のスピーカを使用し、このスピーカを、ダミーヘッドを中心とした半径0.5[m]の円上で、左(−90[deg])から右(90[deg])まで、又は右から左まで移動させたときの音響信号をダミーヘッドが検出した。また、音響信号分割部41のサンプリング周波数は44100[Hz]であり、中心周波数125,250,500,1000,2000,4000[Hz]とするオクターブバンドパスフィルタを用いて音響信号分割部41を構成することにより、音響信号を6個の周波数帯域に分割した。   Here, a dummy head (SAMRAI manufactured by Koken Co., Ltd.) is used as the microphones 30L and 30R, and a single speaker is used as the speaker group 20, and the speaker has a radius of about 0. The dummy head detected an acoustic signal when moving from the left (−90 [deg]) to the right (90 [deg]) or from the right to the left on a circle of 5 [m]. The sampling frequency of the acoustic signal dividing unit 41 is 44100 [Hz], and the acoustic signal dividing unit 41 is configured using an octave bandpass filter having center frequencies of 125, 250, 500, 1000, 2000, and 4000 [Hz]. By doing so, the acoustic signal was divided into six frequency bands.

相互相関関数算出部42は、相互相関関数の算出周期を1/30[s]、区間長を1/5[s]として相互相関関数を算出した。ここで、ダミーヘッドにおけるマイクロホン30L,30R間の距離は0.18[m]であり、音速は340[m/s]であるため、音響信号がマイクロホン30L,30Rに到達する時間差が最大となる(スピーカが左又は右にある)場合の時間差は、約0.7[ms]となる。そこで、ラグmとしては、0を中心とした±0.7[ms]に相当する部分にのみ着目した。   The cross-correlation function calculation unit 42 calculates the cross-correlation function by setting the cross-correlation function calculation period to 1/30 [s] and the section length to 1/5 [s]. Here, since the distance between the microphones 30L and 30R in the dummy head is 0.18 [m] and the sound speed is 340 [m / s], the time difference between the acoustic signals reaching the microphones 30L and 30R is maximized. The time difference when the speaker is on the left or right is about 0.7 [ms]. Therefore, as the lag m, attention was paid only to a portion corresponding to ± 0.7 [ms] centered on 0.

また、音像移動ベクトル算出部45は、相互相関関数の最大値rp−1,q(m)max,rp,q(m)maxを有する画素同士を結ぶ手法を用いて動画像の移動ベクトル、すなわち、音像の移動ベクトルを算出した。 In addition, the sound image movement vector calculation unit 45 uses a technique of connecting pixels having the maximum values r p−1, q (m) max , r p, q (m) max of the cross-correlation function, to a moving image movement vector. That is, the movement vector of the sound image was calculated.

≪単一音像の場合≫
単一のスピーカから音響信号としてホワイトノイズを出力した場合、すなわち、単一の音源を用いて一の音像を生成した場合における、計測開始時点において動画像生成部44が生成した画像(フレーム)を図7(a)に示し、現在(途中経過時点)において動画生成部44が生成した画像を図7(b)に示す。図7(b)における矢印は、開始時点から現在までの、周波数帯域ごとの音像の移動ベクトルである。図7(a)(b)を参照すると、全ての周波数帯域において音像が左から右へ移動している様子が分かる。
≪Single sound image≫
When white noise is output as an acoustic signal from a single speaker, that is, when a single sound image is generated using a single sound source, an image (frame) generated by the moving image generation unit 44 at the measurement start time is displayed. FIG. 7B shows an image generated by the moving image generating unit 44 at the present time (halfway elapsed time) as shown in FIG. The arrow in FIG. 7B is a moving image of the sound image for each frequency band from the start time to the present. Referring to FIGS. 7A and 7B, it can be seen that the sound image moves from left to right in all frequency bands.

≪複数音像の場合≫
左から右へ移動するスピーカからローパスノイズ(遮断周波数700[Hz])を出力した音響信号と、右から左へ移動するスピーカからハイパスノイズ(遮断周波数1000[Hz])を出力した音響信号と、を合成したものを音響信号分割部41に入力して分析を行った。この場合では、二つの音源を用いて二つの音像を生成している。この場合における、測開始時点において動画像生成部44が生成した画像(フレーム)を図8(a)に示し、現在(途中経過時点)において動画生成部44が生成した画像を図8(b)に示す。図8(b)における矢印は、開始時点から現在までの、周波数帯域ごとの音像の移動ベクトルである。図8(a)(b)を参照すると、低周波数帯域においては音像が左から右へ移動し、高周波数帯域においては音像が右から左へ移動している様子が分かる。
≪In the case of multiple sound images≫
An acoustic signal that outputs low-pass noise (cutoff frequency 700 [Hz]) from a speaker moving from left to right, and an acoustic signal that outputs high-pass noise (cutoff frequency 1000 [Hz]) from a speaker moving from right to left; The synthesized signal is input to the acoustic signal dividing unit 41 for analysis. In this case, two sound images are generated using two sound sources. In this case, an image (frame) generated by the moving image generating unit 44 at the measurement start time is shown in FIG. 8A, and an image generated by the moving image generating unit 44 at the present time (halfway elapsed time) is shown in FIG. Shown in The arrows in FIG. 8B are sound image movement vectors for each frequency band from the start time to the present time. Referring to FIGS. 8A and 8B, it can be seen that the sound image moves from left to right in the low frequency band and the sound image moves from right to left in the high frequency band.

本発明の実施形態に係る聴覚臨場感評価装置40は、複数の音像に対して処理を行う場合であっても、音像の方向を用いずに音像の移動量に基づいて聴覚臨場感評価値を算出するので、簡易な処理で聴覚臨場感を客観的に評価することができる。   The auditory presence evaluation device 40 according to the embodiment of the present invention calculates an auditory presence evaluation value based on the moving amount of the sound image without using the direction of the sound image, even when processing a plurality of sound images. Since the calculation is performed, the auditory presence can be objectively evaluated with a simple process.

以上、本発明の実施形態について実施形態を参照して説明したが、本発明は前記実施形態に限定されず、本発明の要旨を逸脱しない範囲で適宜設計変更可能である。例えば、音圧レベル算出部43を備えずに、動画像生成部44が相互相関関数を輝度と変換したモノクロの動画像を生成する構成であってもよい。また、動画像生成部44が相互相関関数を輝度、音圧レベルを彩度としたカラーの動画像を生成する構成であってもよい。この場合には、動画像生成部44は、各画素の色相を所定値(例えば、色相値50%)に設定することができる。また、相互相関関数、音圧レベル及び音圧レベル差を、輝度、彩度及び色相のいずれかに変換して動画像を生成する構成であってもよい。   As mentioned above, although embodiment of this invention was described with reference to embodiment, this invention is not limited to the said embodiment, A design change is possible suitably in the range which does not deviate from the summary of this invention. For example, without the sound pressure level calculation unit 43, the moving image generation unit 44 may generate a monochrome moving image in which the cross-correlation function is converted to luminance. Alternatively, the moving image generation unit 44 may generate a color moving image having the cross-correlation function as luminance and the sound pressure level as saturation. In this case, the moving image generation unit 44 can set the hue of each pixel to a predetermined value (for example, a hue value of 50%). Alternatively, the moving image may be generated by converting the cross-correlation function, the sound pressure level, and the sound pressure level difference into any one of luminance, saturation, and hue.

また、聴覚臨場感評価装置40は、記憶媒体に記憶されていない音響信号を再生する装置、再生装置ではない実際の音源に対しても、聴覚臨場感評価値を算出することができる。また、音像移動ベクトル算出部45は、複数の周波数帯域の画素列を用いて一つの移動ベクトルを算出することによって、統合された移動ベクトルを算出する構成であってもよく、移動ベクトルごとの画像の特徴量をパターンとして予め記憶しており、パターンマッチングを用いて移動ベクトルを算出する構成であってもよい。また、本発明は、コンピュータを聴覚臨場感評価装置40として機能させる聴覚臨場感評価プログラムとしても具現化可能である。   The auditory presence evaluation device 40 can also calculate an auditory presence evaluation value for an apparatus that reproduces an acoustic signal that is not stored in a storage medium or an actual sound source that is not a reproduction apparatus. Further, the sound image movement vector calculation unit 45 may be configured to calculate an integrated movement vector by calculating one movement vector using a pixel array of a plurality of frequency bands. The feature amount may be stored in advance as a pattern, and the movement vector may be calculated using pattern matching. The present invention can also be embodied as an auditory reality evaluation program that causes a computer to function as the auditory reality evaluation device 40.

1 聴覚臨場感評価システム
30L,30R マイクロホン
40 聴覚臨場感評価装置
41 音響信号分割部
42 相互相関関数算出部
43 音圧レベル算出部
44 動画像生成部
45 音像移動ベクトル算出部
46 聴覚臨場感評価値算出部
DESCRIPTION OF SYMBOLS 1 Auditory presence evaluation system 30L, 30R Microphone 40 Auditory presence evaluation apparatus 41 Acoustic signal division part 42 Cross-correlation function calculation part 43 Sound pressure level calculation part 44 Moving image generation part 45 Sound image movement vector calculation part 46 Auditory presence feeling evaluation value Calculation unit

Claims (9)

二つのマイクロホンによって計測された二つの音響信号に基づいて聴覚臨場感を評価する聴覚臨場感評価装置であって、
計測された前記二つの音響信号を周波数帯域ごとに分割する音響信号分割部と、
分割された前記二つの音響信号を用いて、前記二つの前記音響信号に関する相互相関関数を前記周波数帯域ごとに算出する相互相関関数算出部と、
算出された前記相互相関関数を、前記二つの音響信号のラグと、前記周波数帯域と、をフレームの座標軸とする二次元動画像の輝度、色相及び彩度のいずれかに変換することによって動画像を生成する動画像生成部と、
生成された前記動画像の複数のフレームを用いて前記動画像の移動ベクトルを算出することによって、音像の移動ベクトルを算出する音像移動ベクトル算出部と、
算出された前記音像の移動ベクトルに基づいて、前記音像の移動ベクトルが大きいほど聴覚臨場感評価値が大きくなるように当該聴覚臨場感評価値を算出する聴覚臨場感評価値算出部と、
を備えることを特徴とする聴覚臨場感評価装置。
An auditory realistic sensation evaluation apparatus that evaluates auditory realism based on two acoustic signals measured by two microphones,
An acoustic signal divider that divides the two measured acoustic signals for each frequency band; and
A cross-correlation function calculation unit that calculates a cross-correlation function for the two acoustic signals for each of the frequency bands using the divided two acoustic signals;
A moving image is obtained by converting the calculated cross-correlation function into one of luminance, hue, and saturation of a two-dimensional moving image having the lag of the two acoustic signals and the frequency band as coordinate axes of a frame. A moving image generation unit for generating
A sound image movement vector calculating unit that calculates a movement vector of the sound image by calculating a movement vector of the moving image using a plurality of frames of the generated moving image;
Based on the calculated movement vector of the sound image, the auditory reality evaluation value calculation unit that calculates the auditory presence feeling evaluation value so that the auditory presence feeling evaluation value increases as the movement vector of the sound image increases;
An auditory presence evaluation device comprising:
前記動画像生成部は、前記相互相関関数を前記輝度に変換する
ことを特徴とする請求項1に記載の聴覚臨場感評価装置。
The auditory realistic sensation evaluation apparatus according to claim 1, wherein the moving image generation unit converts the cross-correlation function into the luminance.
分割された前記二つの音響信号を用いて、前記二つの音響信号の音圧レベルを前記周波数帯域ごとに算出する音圧レベル算出部をさらに備え、
前記動画像生成部は、算出された前記音圧レベルを、前記輝度、前記色相及び前記彩度のうち、前記相互相関関数が変換されたもの以外のいずれかに変換することによって前記動画像を生成する
ことを特徴とする請求項1に記載の聴覚臨場感評価装置。
A sound pressure level calculation unit that calculates the sound pressure level of the two acoustic signals for each of the frequency bands using the divided two acoustic signals,
The moving image generation unit converts the calculated sound pressure level into one of the luminance, the hue, and the saturation other than the one obtained by converting the cross-correlation function. The auditory presence evaluation device according to claim 1, wherein the device is generated.
前記動画像生成部は、前記相互相関関数を前記輝度に変換するとともに、前記音圧レベルを前記彩度に変換する
ことを特徴とする請求項3に記載の聴覚臨場感評価装置。
The auditory presence evaluation apparatus according to claim 3, wherein the moving image generation unit converts the cross-correlation function into the luminance and converts the sound pressure level into the saturation.
前記音圧レベル算出部は、前記音圧レベルの差である音圧レベル差を前記周波数帯域ごとに算出し、
前記動画像生成部は、算出された前記音圧レベル差を、前記輝度、前記色相及び前記彩度のうち、前記相互相関関数及び前記音圧が変換されたもの以外に変換することによって前記動画像を生成する
ことを特徴とする請求項3に記載の聴覚臨場感評価装置。
The sound pressure level calculation unit calculates a sound pressure level difference, which is a difference between the sound pressure levels, for each frequency band,
The moving image generation unit converts the calculated sound pressure level difference into a moving image by converting the luminance, the hue, and the saturation other than the one obtained by converting the cross-correlation function and the sound pressure. The auditory presence evaluation apparatus according to claim 3, wherein an image is generated.
前記動画像生成部は、前記相互相関関数を前記輝度に変換し、前記音圧レベルを前記彩度に変換するとともに、前記音圧レベル差を前記色相に変換する
ことを特徴とする請求項5に記載の聴覚臨場感評価装置。
6. The moving image generation unit converts the cross-correlation function into the luminance, converts the sound pressure level into the saturation, and converts the sound pressure level difference into the hue. The auditory presence evaluation device according to 1.
前記相互相関関数算出部は、区間長の異なる複数の区間長別相互相関関数を算出し、算出された複数の区間長別相互相関関数に基づいて前記相互相関関数を算出する
ことを特徴とする請求項1から請求項6のいずれか一項に記載の聴覚臨場感評価装置。
The cross-correlation function calculating unit calculates a plurality of cross-correlation functions for each section length having different section lengths, and calculates the cross-correlation function based on the plurality of calculated cross-correlation functions for each section length. The auditory presence evaluation device according to any one of claims 1 to 6.
前記音像移動ベクトル算出部は、前記動画像の三以上のフレームを用いて前記動画像の移動ベクトルを算出する
ことを特徴とする請求項1から請求項7のいずれか一項に記載の聴覚臨場感評価装置。
The auditory presence according to any one of claims 1 to 7, wherein the sound image movement vector calculation unit calculates a movement vector of the moving image using three or more frames of the moving image. Feeling evaluation device.
二つのマイクロホンによって計測された二つの音響信号に基づいて聴覚臨場感を評価する聴覚臨場感評価プログラムであって、
コンピュータを、
計測された前記二つの音響信号を周波数帯域ごとに分割する音響信号分割部、
分割された前記二つの音響信号を用いて、前記二つの前記音響信号に関する相互相関関数を前記周波数帯域ごとに算出する相互相関関数算出部、
算出された前記相互相関関数を、前記二つの音響信号のラグと、前記周波数帯域と、をフレームの座標軸とする二次元動画像の輝度、色相及び彩度のいずれかに変換することによって動画像を生成する動画像生成部、
生成された前記動画像の複数のフレームを用いて前記動画像の移動ベクトルを算出することによって、音像の移動ベクトルを算出する音像移動ベクトル算出部、及び、
算出された前記音像の移動ベクトルに基づいて、前記音像の移動ベクトルが大きいほど聴覚臨場感評価値が大きくなるように当該聴覚臨場感評価値を算出する聴覚臨場感評価値算出部、
として機能させることを特徴とする聴覚臨場感評価プログラム。
An auditory presence evaluation program for evaluating auditory presence based on two acoustic signals measured by two microphones,
Computer
An acoustic signal dividing unit that divides the two measured acoustic signals for each frequency band;
A cross-correlation function calculation unit that calculates a cross-correlation function for the two acoustic signals for each of the frequency bands using the divided two acoustic signals,
A moving image is obtained by converting the calculated cross-correlation function into one of luminance, hue, and saturation of a two-dimensional moving image having the lag of the two acoustic signals and the frequency band as coordinate axes of a frame. A moving image generation unit for generating
A sound image movement vector calculating unit for calculating a movement vector of a sound image by calculating a movement vector of the moving image using a plurality of frames of the generated moving image; and
Based on the calculated movement vector of the sound image, an auditory presence evaluation value calculation unit that calculates the auditory presence feeling evaluation value so that the larger the movement vector of the sound image is, the larger the auditory presence feeling evaluation value is;
Auditory presence evaluation program characterized by functioning as
JP2011024296A 2011-02-07 2011-02-07 Hearing presence evaluation device and hearing presence evaluation program Active JP5658588B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011024296A JP5658588B2 (en) 2011-02-07 2011-02-07 Hearing presence evaluation device and hearing presence evaluation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011024296A JP5658588B2 (en) 2011-02-07 2011-02-07 Hearing presence evaluation device and hearing presence evaluation program

Publications (2)

Publication Number Publication Date
JP2012165195A JP2012165195A (en) 2012-08-30
JP5658588B2 true JP5658588B2 (en) 2015-01-28

Family

ID=46844161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011024296A Active JP5658588B2 (en) 2011-02-07 2011-02-07 Hearing presence evaluation device and hearing presence evaluation program

Country Status (1)

Country Link
JP (1) JP5658588B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6103635B2 (en) * 2013-03-18 2017-03-29 一般財団法人電力中央研究所 Method and system for detecting direction of arrival of pulsed electromagnetic radiation
JP6226224B2 (en) * 2013-05-20 2017-11-08 カシオ計算機株式会社 Sound source position display device, sound source position display method and program
CN109524022B (en) * 2018-11-16 2021-03-02 方雯晖 Mutual transformation method of vision, hearing and smell

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4130779B2 (en) * 2003-03-13 2008-08-06 パイオニア株式会社 Sound field control system and sound field control method
JP4171675B2 (en) * 2003-07-15 2008-10-22 パイオニア株式会社 Sound field control system and sound field control method
JP2005338528A (en) * 2004-05-28 2005-12-08 Clarion Co Ltd Sound field simulation device, control method thereof, control program, and recording medium

Also Published As

Publication number Publication date
JP2012165195A (en) 2012-08-30

Similar Documents

Publication Publication Date Title
EP1522868B1 (en) System for determining the position of a sound source and method therefor
Schönstein et al. HRTF selection for binaural synthesis from a database using morphological parameters
JP6789690B2 (en) Signal processing equipment, signal processing methods, and programs
EP3133833B1 (en) Sound field reproduction apparatus, method and program
Hwang et al. Sound direction estimation using an artificial ear for robots
CN103607550A (en) Method for adjusting virtual sound track of television according to position of watcher and television
CN107820158A (en) A kind of three-dimensional audio generating means based on the response of head coherent pulse
Bujacz et al. Sound of Vision-Spatial audio output and sonification approaches
Pastore et al. The precedence effect with increased lag level
JP5658588B2 (en) Hearing presence evaluation device and hearing presence evaluation program
Zagala et al. Comparison of direct and indirect perceptual head-related transfer function selection methods
Romigh Individualized head-related transfer functions: efficient modeling and estimation from small sets of spatial samples
Barumerli et al. Round Robin Comparison of Inter-Laboratory HRTF Measurements–Assessment with an auditory model for elevation
US10390167B2 (en) Ear shape analysis device and ear shape analysis method
US11337021B2 (en) Head-related transfer function generator, head-related transfer function generation program, and head-related transfer function generation method
JP5961048B2 (en) Auditory impression estimation device and program thereof
CN109068262A (en) A kind of acoustic image personalization replay method and device based on loudspeaker
Bujacz et al. Sonification of 3d scenes in an electronic travel aid for the blind
JP6587047B2 (en) Realistic transmission system and realistic reproduction device
JP5658483B2 (en) Reality estimation device and program thereof
WO2020031594A1 (en) Sound source separation system, sound source position estimation system, sound source separation method, and sound source separation program
JP2006072163A (en) Disturbing sound suppressing device
JP6986778B2 (en) Head-related transfer function generator, head-related transfer function generation program, and head-related transfer function generation method
JP2014006692A (en) Hearing impression amount estimating device and program therefor
Iwaya et al. Interpolation method of head-related transfer functions in the z-plane domain using a common-pole and zero model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130624

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140909

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141128

R150 Certificate of patent or registration of utility model

Ref document number: 5658588

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250