JP5033156B2 - Sound image width estimation apparatus and sound image width estimation program - Google Patents

Sound image width estimation apparatus and sound image width estimation program Download PDF

Info

Publication number
JP5033156B2
JP5033156B2 JP2009048814A JP2009048814A JP5033156B2 JP 5033156 B2 JP5033156 B2 JP 5033156B2 JP 2009048814 A JP2009048814 A JP 2009048814A JP 2009048814 A JP2009048814 A JP 2009048814A JP 5033156 B2 JP5033156 B2 JP 5033156B2
Authority
JP
Japan
Prior art keywords
frequency band
sound image
image width
feature quantity
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009048814A
Other languages
Japanese (ja)
Other versions
JP2010204325A (en
Inventor
一郎 ベーマー ヨハン
訓史 大出
彰男 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2009048814A priority Critical patent/JP5033156B2/en
Publication of JP2010204325A publication Critical patent/JP2010204325A/en
Application granted granted Critical
Publication of JP5033156B2 publication Critical patent/JP5033156B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a sound image width estimating device capable of estimating sound image width with high precision based on the physical feature quantity obtained by analyzing digital acoustic signals constituted by two right and left channels. <P>SOLUTION: This sound image width estimating device 100 is provided with filter banks 7R, 7L for dividing a digital acoustic signal constituted of two right and left channels into a plurality of subband signals in frequency band having frequency band width of 1/6 octave or less per acoustic signal of right and left channels, a frequency band-based feature quantity calculating means 8<SB>f</SB>for calculating a frequency band-based feature quantity having at least one among cross-correlation degree between both ears, standard deviation in the direction of time axis of time difference between both ears or standard deviation in the direction of time axis of level difference between both ears as the feature quantity per subband signal, a means 9 for calculating a typical value of physical feature quantity from the frequency band-based feature quantity, and a sound image width-estimated value calcurating means 10 for calculating an estimated value of sound image width by applying the typical value of physical feature quantity to an estimating model equation. <P>COPYRIGHT: (C)2010,JPO&amp;INPIT

Description

本発明は、左右2チャンネルで採取したデジタル音響信号を分析して得た物理特徴量に基づいて、聴覚特性である音像幅を推定する音像幅推定装置及び音像幅推定プログラムに関する。   The present invention relates to a sound image width estimation device and a sound image width estimation program for estimating a sound image width, which is an auditory characteristic, based on physical feature values obtained by analyzing digital audio signals collected in two left and right channels.

音響が人間に与える心理的効果の大きさは、主観評価によって定量することができる。この主観評価によって得られる心理的効果の大きさを、音響信号を採取・分析して得られた物理特徴量に基づいて客観評価する手法が多く試みられている。
その中で、人間の聴覚特性の一つである音像幅と物理特徴量との関係についても多くの研究が進められている。音響分析の分野では広く知られ、また受け入れられている物理特徴量として、IACC(interaural cross-correlation;両耳間相互相関度)がある。一般的には、IACCが小さくなると、音像幅は広がると考えられており、種々の周波数帯域におけるIACCの分析についての研究が数多くなされている(例えば、非特許文献1参照)。
また、音像幅と、物理特徴量であるITD(interaural time differences;両耳間時間差)及びILD(interaural level differences;両耳間レベル差)の変動との関係について報告されている(非特許文献2及び非特許文献3参照)。
更に、例えば、特許文献1においては、音響信号からIACF(interaural cross-correlation function;両耳間相互相関関数)の最大振幅であるIACCと、この最大振幅の幅WIACCとに基づいて、見かけの音源の幅(ASW)を評価する手法について記載されている(段落0050参照)。
The magnitude of the psychological effect of sound on humans can be quantified by subjective evaluation. Many attempts have been made to objectively evaluate the magnitude of the psychological effect obtained by this subjective evaluation based on physical features obtained by collecting and analyzing acoustic signals.
In this context, many studies have been conducted on the relationship between the sound image width and physical features, which is one of human auditory characteristics. One physical feature that is widely known and accepted in the field of acoustic analysis is IACC (interaural cross-correlation). In general, it is considered that the sound image width increases as IACC decreases, and many studies have been conducted on the analysis of IACC in various frequency bands (see, for example, Non-Patent Document 1).
In addition, a relationship between the sound image width and fluctuations of ITD (interaural time differences) and ILD (interaural level differences), which are physical features, has been reported (Non-patent Document 2). And Non-Patent Document 3).
Further, for example, in Patent Document 1, the apparent amplitude is determined based on IACC , which is the maximum amplitude of IACF (interaural cross-correlation function) from an acoustic signal, and the width W IACC of the maximum amplitude. A method for evaluating the width (ASW) of the sound source is described (see paragraph 0050).

特開2003−57108号公報JP 2003-57108 A

Masayuki Morimoto and Kazuhiro Iida, “Appropriate frequency bandwidth in measuring interaural cross-correlation as a physical measure of auditory source width”, Acourstical Science and Technology, 日本, 日本音響学会, 2005, Vol.26, No.2, p.179-184Masayuki Morimoto and Kazuhiro Iida, “Appropriate frequency bandwidth in measuring interaural cross-correlation as a physical measure of auditory source width”, Acourstical Science and Technology, Japan, Acoustical Society of Japan, 2005, Vol.26, No.2, p.179 -184 Russell Mason and Francis Rumsey, “A comparison of objective measurements for predicting selected subjective spatial attributes”, Audio Engineering Society 112th Convention Paper 5591, Germany, 2002Russell Mason and Francis Rumsey, “A comparison of objective measurements for predicting selected subjective spatial attributes”, Audio Engineering Society 112th Convention Paper 5591, Germany, 2002 Jens Blauert and Werner Lindemann, “Auditory spaciousness:Some further psychoacoustic analyses”, Journal of Acoustical Society of America, USA, 1986, Vol.80, No.2, p.533-542Jens Blauert and Werner Lindemann, “Auditory spaciousness: Some further psychoacoustic analyzes”, Journal of Acoustical Society of America, USA, 1986, Vol.80, No.2, p.533-542

しかしながら、左右2チャンネルで採取した音響信号を分析して得られる物理的特徴量に基づく従来の客観評価手法では、用いる物理特徴量と主観評価値との相関が必ずしも高くなく、任意の音源から発せられる音像幅を精度よく評価することができなかった。   However, in the conventional objective evaluation method based on the physical feature value obtained by analyzing the acoustic signals collected from the left and right channels, the correlation between the physical feature value to be used and the subjective evaluation value is not necessarily high, and it can be generated from any sound source. It was not possible to accurately evaluate the sound image width.

そこで、本発明はかかる課題に鑑みてなされたものであり、本発明の目的は、左右に2チャンネルからなるデジタル音響信号を分析して得られる物理特徴量に基づいて、音像幅を精度よく推定する音像幅推定装置を提供することである。   Accordingly, the present invention has been made in view of such problems, and an object of the present invention is to accurately estimate the sound image width based on physical feature values obtained by analyzing a digital acoustic signal composed of two channels on the left and right. It is to provide a sound image width estimation device.

前記した目的を達成するために、請求項1に記載の音像幅推定装置は、左右に2チャンネルからなるデジタル音響信号から物理特徴量を算出し、算出した物理特徴量を、物理特徴量と重み係数とからなる音像幅の推定モデル式に適用して音像幅を推定する音像幅推定装置であって、周波数帯域分割手段と、周波数帯域別特徴量算出手段と、物理特徴量算出手段と、推定値算出手段と、を備えて構成した。   In order to achieve the above object, the sound image width estimation device according to claim 1 calculates a physical feature amount from a digital acoustic signal including two channels on the left and right sides, and calculates the calculated physical feature amount and physical feature amount and weight. A sound image width estimation device for estimating a sound image width by applying to a sound image width estimation model formula comprising coefficients, a frequency band dividing unit, a frequency-based feature amount calculating unit, a physical feature amount calculating unit, and an estimation And a value calculating means.

かかる構成によれば、音像幅推定装置は、周波数帯域分割手段によって、左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、周波数帯域幅が1/6オクターブ以下の複数の周波数帯域のサブバンド信号に分割する。次に、音像幅推定装置は、周波数帯域別特徴量算出手段によって、周波数帯域分割手段で分割したサブバンド信号から、サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つをサブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する。続いて、音像幅推定装置は、物理特徴量算出手段によって、周波数帯域別特徴量算出手段で算出した周波数帯域別特徴量に基づいて物理特徴量を算出する。そして、音像幅推定装置は、推定値算出手段によって、物理特徴量算出手段で算出した物理特徴量を、推定モデル式に適用して音像幅の推定値を算出する。
これによって、音像幅推定装置は、物理特徴量を用いた音像幅の客観評価を行う。
According to such a configuration, the sound image width estimation device uses a frequency band dividing unit to convert a digital audio signal having two channels on the left and right into a plurality of audio signals having a frequency bandwidth of 1/6 octave or less for each of the left and right channel acoustic signals. Divide into frequency band sub-band signals. Next, the sound image width estimation device uses the inter-aural cross-correlation degree and the inter-aural time difference time axis for each sub-band signal from the sub-band signal divided by the frequency band dividing unit by the frequency-band feature amount calculating unit. At least one of the standard deviation in the direction or the standard deviation in the time axis direction of the binaural level difference is calculated by the frequency band feature quantity representing the difference between the left and right channels of the subband signal. To do. Subsequently, in the sound image width estimation device, the physical feature amount calculating unit calculates the physical feature amount based on the frequency band-specific feature amount calculated by the frequency band-specific feature amount calculating unit. Then, the sound image width estimation device calculates an estimated value of the sound image width by applying the physical feature amount calculated by the physical feature amount calculation unit to the estimation model formula by the estimated value calculation unit.
Thus, the sound image width estimation device performs objective evaluation of the sound image width using the physical feature amount.

請求項2に記載の音像幅推定装置は、請求項1に記載の音像幅推定装置において、物理特徴量算出手段は、周波数帯域別特徴量の平均、重み付き平均、最大値又は中央値の中の何れか一つを、物理特徴量として算出する構成とした。   The sound image width estimation device according to claim 2 is the sound image width estimation device according to claim 1, wherein the physical feature amount calculation means is an average, weighted average, maximum value, or median of feature amounts by frequency band. Any one of these is calculated as a physical feature amount.

かかる構成によれば、音像幅推定装置は、物理特徴量算出手段によって、周波数帯域別特徴量算出手段で算出したサブバンド信号ごとの周波数帯域別特徴量の平均、重み付き平均、最大値又は中央値の中の何れか一つを物理特徴量として算出する。そして、音像幅推定装置は、音像幅推定値算出手段によって、物理特徴量算出手段で算出した当該物理特徴量に基づいて音像幅の推定値を算出する。
これによって、音像幅推定装置は、周波数帯域別に算出した特徴量を、当該特徴量の種別ごとに一つの値に集約した物理特徴量に基づいて音像幅の推定値を算出する。
According to such a configuration, the sound image width estimation device uses the physical feature amount calculating unit to calculate the average, weighted average, maximum value, or center of the feature amounts by frequency band for each subband signal calculated by the feature amount calculating unit by frequency band. Any one of the values is calculated as a physical feature amount. Then, the sound image width estimation device calculates an estimated value of the sound image width based on the physical feature amount calculated by the physical feature amount calculation unit by the sound image width estimation value calculation unit.
Thus, the sound image width estimation device calculates an estimated value of the sound image width based on the physical feature value obtained by collecting the feature values calculated for each frequency band into one value for each type of the feature value.

請求項3に記載の音像幅推定装置は、左右に2チャンネルからなるデジタル音響信号から物理特徴量を算出し、算出した物理特徴量を、物理特徴量と重み係数とからなる音像幅の推定モデル式に適用して音像幅を推定する音像幅推定装置であって、周波数帯域分割手段と、周波数帯域別特徴量算出手段と、推定値算出手段と、を備えて構成した。   The sound image width estimation apparatus according to claim 3 calculates a physical feature amount from a digital acoustic signal having two channels on the left and right, and uses the calculated physical feature amount as a sound image width estimation model including a physical feature amount and a weighting factor. A sound image width estimating apparatus that applies a formula to estimate a sound image width, and includes a frequency band dividing unit, a feature amount calculating unit for each frequency band, and an estimated value calculating unit.

かかる構成によれば、音像幅推定装置は、周波数帯域分割手段によって、左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、周波数帯域幅が1/6オクターブ以下の複数の周波数帯域のサブバンド信号に分割する。次に、音像幅推定装置は、周波数帯域別特徴量算出手段によって、周波数帯域分割手段で分割したサブバンド信号から、サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つをサブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する。そして、音像幅推定装置は、推定値算出手段によって、周波数帯域別特徴量算出手段で算出した個々の周波数帯域別特徴量を物理特徴量として、推定モデル式に適用して音像幅の推定値を算出する。
これによって、音像幅推定装置は、周波数帯域ごとに算出した物理特徴量を用いた音像幅の客観評価を行う。
According to such a configuration, the sound image width estimation device uses a frequency band dividing unit to convert a digital audio signal having two channels on the left and right into a plurality of audio signals having a frequency bandwidth of 1/6 octave or less for each of the left and right channel acoustic signals. Divide into frequency band sub-band signals. Next, the sound image width estimation device uses the inter-aural cross-correlation degree and the inter-aural time difference time axis for each sub-band signal from the sub-band signal divided by the frequency band dividing unit by the frequency-band feature amount calculating unit. At least one of the standard deviation in the direction or the standard deviation in the time axis direction of the binaural level difference is calculated by the frequency band feature quantity representing the difference between the left and right channels of the subband signal. To do. Then, the sound image width estimation apparatus applies the estimated value of the sound image width by applying to the estimation model equation, using the estimated value calculation means as an individual feature value for each frequency band calculated by the feature value calculation means for each frequency band as a physical feature value. calculate.
Thus, the sound image width estimation device performs objective evaluation of the sound image width using the physical feature amount calculated for each frequency band.

請求項4に記載の音像幅推定装置は、請求項1乃至請求項3に記載の音像幅推定装置において、周波数帯域分割手段は、周波数帯域幅が1/12オクターブ以下のサブバンド信号に分割するよう構成した。   The sound image width estimation apparatus according to claim 4 is the sound image width estimation apparatus according to claims 1 to 3, wherein the frequency band dividing unit divides the frequency band into subband signals having a frequency bandwidth of 1/12 octave or less. It was configured as follows.

かかる構成によれば、音像幅推定装置は、周波数帯域分割手段によって、左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、周波数帯域幅が1/12オクターブ以下のサブバンド信号に分割する。続いて、音像幅推定装置は、周波数帯域別特徴量算出手段によって、1/12オクターブ以下の周波数帯域幅のサブバンド信号ごとに周波数帯域別特徴量を算出する。音像幅推定装置は物理特徴量算出手段によって、周波数帯域別特徴量算出手段で算出した周波数帯域別特徴量に基づいて物理特徴量を算出する。若しくは音像幅推定装置は、周波数帯域別特徴量算出手段で算出した周波数帯域別特徴量を個々の物理特徴量とする。そして、音像幅推定装置は、推定値算出手段によって、物理特徴量算出手段で算出した物理特徴量若しくは周波数帯域別特徴量算出手段で算出した周波数帯域別特徴量を、推定モデル式に適用して音像幅の推定値を算出する。
これによって、音像幅推定装置は、1/12オクターブ以下に細かく分割した周波数帯域ごとに算出した特徴量に基づいて音像幅の推定値を算出する。
According to such a configuration, the sound image width estimation device uses a frequency band dividing unit to convert a digital acoustic signal having two channels on the left and right into subbands having a frequency bandwidth of 1/12 octave or less for each of the left and right channel acoustic signals. Divide into signals. Subsequently, the sound image width estimation device calculates a feature value for each frequency band for each subband signal having a frequency bandwidth of 1/12 octave or less by the feature value calculation unit for each frequency band. In the sound image width estimation device, the physical feature quantity is calculated by the physical feature quantity calculation means based on the feature quantity by frequency band calculated by the feature quantity calculation means by frequency band. Alternatively, the sound image width estimation device uses the frequency band-specific feature values calculated by the frequency band-specific feature value calculation means as individual physical feature values. Then, the sound image width estimation device applies the physical feature amount calculated by the physical feature amount calculation unit or the feature amount by frequency band calculated by the feature amount calculation unit by frequency band to the estimation model equation by the estimated value calculation unit. An estimated value of the sound image width is calculated.
Thus, the sound image width estimation device calculates an estimated value of the sound image width based on the feature amount calculated for each frequency band finely divided into 1/12 octaves or less.

請求項5に記載の音像幅推定装置は、請求項1乃至請求項4の何れか一項に記載の音像幅推定装置において、更に、重み係数算出手段を備える構成とした。   The sound image width estimation device according to claim 5 is the sound image width estimation device according to any one of claims 1 to 4, and further includes a weight coefficient calculation unit.

かかる構成によれば、音像幅推定装置は、重み係数算出手段によって、推定モデル式における重み係数を、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つに基づく物理特徴量若しくは両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つの個々の周波数帯域別特徴量を説明変数とし、音像幅を目的変数とする回帰分析によって予め算出しておく。そして、音像幅推定装置は、推定値算出手段によって、物理特徴量算出手段で算出した物理特徴量若しくは周波数帯域別特徴量算出手段で算出した周波数帯域別特徴量と、重み係数算出手段で予め算出しておいた重み係数とを用いて、推定モデル式によって音像幅の推定値を算出する。
これによって、音像幅推定装置は、回帰分析によって定められた重み係数に従って音像幅の推定値を算出する。
According to such a configuration, the sound image width estimation apparatus uses the weighting coefficient calculation means to calculate the weighting coefficient in the estimation model formula as the interaural cross-correlation, the standard deviation in the time axis direction of the interaural time difference, or the interaural level difference. Physical feature based on at least one of the standard deviations in the time axis direction or interaural cross-correlation, standard deviation in the time axis direction of interaural time difference, or standard deviation in the time axis direction of interaural level difference Is calculated in advance by a regression analysis using at least one individual frequency band characteristic amount as an explanatory variable and the sound image width as an objective variable. Then, the sound image width estimation device is pre-calculated by the estimated value calculation means by the physical feature quantity calculated by the physical feature quantity calculation means or the feature quantity by frequency band calculated by the feature quantity calculation means by frequency band and the weight coefficient calculation means in advance. The estimated value of the sound image width is calculated by the estimation model formula using the weighting factor previously set.
Thereby, the sound image width estimation device calculates an estimated value of the sound image width according to the weighting coefficient determined by the regression analysis.

請求項6に記載の音像幅推定プログラムは、左右に2チャンネルからなるデジタル音響信号から物理特徴量を算出し、算出した物理特徴量を、物理特徴量と重み係数とからなる音像幅の推定モデル式に適用して音像幅を推定するために、コンピュータを、周波数帯域分割手段、周波数帯域別特徴量算出手段、物理特徴量算出手段、推定値算出手段、として機能させることとした。   The sound image width estimation program according to claim 6 calculates a physical feature amount from a digital acoustic signal composed of two channels on the left and right, and uses the calculated physical feature amount as a sound image width estimation model composed of a physical feature amount and a weighting factor. In order to estimate the sound image width by applying it to the equation, the computer is caused to function as a frequency band dividing unit, a characteristic amount calculating unit by frequency band, a physical feature amount calculating unit, and an estimated value calculating unit.

かかる構成によれば、音像幅推定プログラムは、周波数帯域分割手段によって、左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、周波数帯域幅が1/6オクターブ以下の複数の周波数帯域のサブバンド信号に分割する。次に、音像幅推定プログラムは、周波数帯域別特徴量算出手段によって、周波数帯域分割手段で分割したサブバンド信号から、サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つをサブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する。続いて、音像幅推定プログラムは、物理特徴量算出手段によって、周波数帯域別特徴量算出手段で算出した周波数帯域別特徴量に基づいて物理特徴量を算出する。そして、音像幅推定プログラムは、推定値算出手段によって、物理特徴量算出手段で算出した物理特徴量を、推定モデル式に適用して音像幅の推定値を算出する。
これによって、音像幅推定プログラムは、物理特徴量を用いた音像幅の客観評価を行う。
According to such a configuration, the sound image width estimation program uses a frequency band dividing unit to convert a digital audio signal having two left and right channels into a plurality of audio signals having a frequency bandwidth of 1/6 octave or less for each of the left and right channel acoustic signals. Divide into frequency band sub-band signals. Next, the sound image width estimation program calculates the interaural cross-correlation degree and the time axis of the interaural time difference for each subband signal from the subband signal divided by the frequency band dividing unit by the frequency band feature amount calculating unit. At least one of the standard deviation in the direction or the standard deviation in the time axis direction of the binaural level difference is calculated by the frequency band feature quantity representing the difference between the left and right channels of the subband signal. To do. Subsequently, in the sound image width estimation program, the physical feature quantity is calculated by the physical feature quantity calculation unit based on the frequency band feature quantity calculated by the frequency band feature quantity calculation unit. Then, the sound image width estimation program calculates the estimated value of the sound image width by applying the physical feature amount calculated by the physical feature amount calculating unit to the estimation model formula by the estimated value calculating unit.
Thereby, the sound image width estimation program performs objective evaluation of the sound image width using the physical feature amount.

請求項7に記載の音像幅推定プログラムは、左右に2チャンネルからなるデジタル音響信号から物理特徴量を算出し、算出した物理特徴量を、物理特徴量と重み係数とからなる音像幅の推定モデル式に適用して音像幅を推定するために、コンピュータを、周波数帯域分割手段、周波数帯域別特徴量算出手段、推定値算出手段、として機能させることとした。   The sound image width estimation program according to claim 7 calculates a physical feature amount from a digital acoustic signal having two channels on the left and right, and uses the calculated physical feature amount as a sound image width estimation model including a physical feature amount and a weighting factor. In order to estimate the sound image width by applying it to the equation, the computer is caused to function as a frequency band dividing unit, a characteristic amount calculating unit for each frequency band, and an estimated value calculating unit.

かかる構成によれば、音像幅推定プログラムは、周波数帯域分割手段によって、左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、周波数帯域幅が1/6オクターブ以下の複数の周波数帯域のサブバンド信号に分割する。次に、音像幅推定プログラムは、周波数帯域別特徴量算出手段によって、周波数帯域分割手段で分割したサブバンド信号から、サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つをサブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する。そして、音像幅推定プログラムは、推定値算出手段によって、周波数帯域別特徴量算出手段で算出した個々の周波数帯域別特徴量を物理特徴量として、推定モデル式に適用して音像幅の推定値を算出する。
これによって、音像幅推定プログラムは、周波数帯域ごとに算出した物理特徴量を用いた音像幅の客観評価を行う。
According to such a configuration, the sound image width estimation program uses a frequency band dividing unit to convert a digital audio signal having two left and right channels into a plurality of audio signals having a frequency bandwidth of 1/6 octave or less for each of the left and right channel acoustic signals. Divide into frequency band sub-band signals. Next, the sound image width estimation program calculates the interaural cross-correlation degree and the time axis of the interaural time difference for each subband signal from the subband signal divided by the frequency band dividing unit by the frequency band feature amount calculating unit. At least one of the standard deviation in the direction or the standard deviation in the time axis direction of the binaural level difference is calculated by the frequency band feature quantity representing the difference between the left and right channels of the subband signal. To do. Then, the sound image width estimation program applies the estimated value of the sound image width by applying to the estimation model formula, using the estimated value calculation means as the physical feature quantity of each individual frequency band feature quantity calculated by the frequency band feature quantity calculation means. calculate.
Accordingly, the sound image width estimation program performs objective evaluation of the sound image width using the physical feature amount calculated for each frequency band.

請求項1又は請求項6に記載の発明によれば、周波数帯域幅が1/6オクターブ以下の周波数帯域ごとに算出した特徴量に基づいて音像幅の推定値を算出するため、安定した精度で音像幅の推定を行うことができる。
請求項2に記載の発明によれば、周波数帯域ごとに算出した特徴量を、当該特徴量の種別ごとに一つの値に集約した物理特徴量に基づいて音像幅の推定値を算出するため、推定モデル式における重み係数の個数を増やすことなく、簡便な計算によって音像幅の推定値を算出することができる。
請求項3又は請求項7に記載の発明によれば、周波数帯域幅が1/6オクターブ以下の周波数帯域ごとに算出した特徴量に基づいて音像幅の推定値を算出するため、精度よく音像幅の推定を行うことができる。
請求項4に記載の発明によれば、周波数帯域幅が1/12オクターブ以下の周波数帯域ごとに算出した特徴量に基づいて音像幅の推定値を算出するため、より安定した精度で音像幅の推定を行うことができる。
請求項5に記載の発明によれば、推定モデル式における重み係数を、主観評価データと、主観評価データに対応する物理特徴量とを用いた回帰分析によって定めるため、精度よく音像幅の推定を行うことができる。
According to the invention described in claim 1 or claim 6, since the estimated value of the sound image width is calculated based on the feature amount calculated for each frequency band having a frequency bandwidth of 1/6 octave or less, it can be performed with stable accuracy. The sound image width can be estimated.
According to the second aspect of the present invention, in order to calculate the estimated value of the sound image width based on the physical feature value obtained by collecting the feature value calculated for each frequency band into one value for each type of the feature value, The estimated value of the sound image width can be calculated by simple calculation without increasing the number of weighting coefficients in the estimation model formula.
According to the invention described in claim 3 or claim 7, since the estimated value of the sound image width is calculated based on the feature amount calculated for each frequency band having a frequency bandwidth of 1/6 octave or less, the sound image width is accurately determined. Can be estimated.
According to the fourth aspect of the present invention, since the estimated value of the sound image width is calculated based on the feature amount calculated for each frequency band whose frequency bandwidth is equal to or less than 1/12 octave, the sound image width of the sound image width can be more stable. Estimation can be performed.
According to the invention described in claim 5, since the weighting coefficient in the estimation model formula is determined by regression analysis using subjective evaluation data and physical feature values corresponding to the subjective evaluation data, the sound image width can be estimated with high accuracy. It can be carried out.

本発明に係る第1実施形態の音像幅推定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the sound image width estimation apparatus of 1st Embodiment which concerns on this invention. 本発明に係る第1実施形態の音像幅推定装置における演算手段の構成を示すブロック図である。It is a block diagram which shows the structure of the calculating means in the sound image width estimation apparatus of 1st Embodiment which concerns on this invention. 本発明に係る第1実施形態の音像幅推定装置の処理の流れを示すフロー図である。It is a flowchart which shows the flow of a process of the sound image width estimation apparatus of 1st Embodiment which concerns on this invention. 本発明に係る第1実施形態の音像幅推定装置における推定モデル式の重み係数算出処理の流れを示すフロー図である。It is a flowchart which shows the flow of the weighting coefficient calculation process of the estimation model type | formula in the sound image width estimation apparatus of 1st Embodiment which concerns on this invention. 本発明における音像幅の推定モデル式で用いる物理特徴量と音像幅の主観評価データとの間のピアソン相関分析の結果を示すグラフ図であり、(1)、(2)、(3)及び(4)は、それぞれ音源としてバイオリンのG線、A線、D線及びE線の開放弦を用いた場合の結果を示す。It is a graph which shows the result of the Pearson correlation analysis between the physical feature-value used with the estimation model formula of the sound image width in this invention, and the subjective evaluation data of a sound image width, (1), (2), (3) and ( 4) shows the results when using violin G-line, A-line, D-line, and E-line open strings as the sound source. 本発明に係る第2実施形態の音像幅推定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the sound image width estimation apparatus of 2nd Embodiment which concerns on this invention. 本発明に係る第2実施形態の音像幅推定装置における演算手段の構成を示すブロック図である。It is a block diagram which shows the structure of the calculating means in the sound image width estimation apparatus of 2nd Embodiment which concerns on this invention. 本発明に係る第2実施形態の音像幅推定装置の処理の流れを示すフロー図である。It is a flowchart which shows the flow of a process of the sound image width estimation apparatus of 2nd Embodiment which concerns on this invention. 本発明に係る第2実施形態の音像幅推定装置における物理特徴量代表値算出用の重み係数算出処理の流れを示すフロー図である。It is a flowchart which shows the flow of the weighting coefficient calculation process for physical feature-value representative value calculation in the sound image width estimation apparatus of 2nd Embodiment which concerns on this invention. 本発明に係る第3実施形態の音像幅推定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the sound image width estimation apparatus of 3rd Embodiment which concerns on this invention. 本発明に係る第3実施形態の音像幅推定装置の処理の流れを示すフロー図である。It is a flowchart which shows the flow of a process of the sound image width estimation apparatus of 3rd Embodiment which concerns on this invention. 本発明における音像幅の推定モデル式の重み係数を決定するために用いる、主観評価データを採取するための実験装置の構成例を示す模式図である。It is a schematic diagram which shows the structural example of the experimental apparatus for extract | collecting the subjective evaluation data used in order to determine the weighting coefficient of the estimation model formula of the sound image width in this invention. 本発明に係る音像幅推定装置によって算出した音像幅推定値の例を示すグラフ図である。It is a graph which shows the example of the sound image width estimated value computed by the sound image width estimation apparatus which concerns on this invention.

以下、本発明の実施形態について、適宜図面を参照して説明する。
[第1実施形態]
まず、図1を参照して、本発明における第1実施形態の音像幅推定装置100の構成について説明する。図1に示すように、音像幅推定装置100は、ダミーヘッド1と、マイクロフォン2L及び2Rと、ローパスフィルタ3L及び3Rと、AD変換器4L及び4Rと、演算手段5と、表示手段14と、を備えて構成されている。また、演算手段5は、メモリ6L及び6Rと、フィルタバンク(周波数帯域分割手段)7L及び7Rと、周波数帯域別物理特徴量算出手段(周波数帯域別特徴量算出手段)8と、物理特徴量代表値算出手段(物理特徴量算出手段)9と、音像幅推定値算出手段(推定値算出手段)10と、重み係数記憶手段11と、推定値重み係数算出手段(重み係数算出手段)12と、主観評価データ記憶手段13と、を備えて構成されている。
Embodiments of the present invention will be described below with reference to the drawings as appropriate.
[First Embodiment]
First, the configuration of the sound image width estimation apparatus 100 according to the first embodiment of the present invention will be described with reference to FIG. As shown in FIG. 1, the sound image width estimation apparatus 100 includes a dummy head 1, microphones 2L and 2R, low-pass filters 3L and 3R, AD converters 4L and 4R, an arithmetic unit 5, a display unit 14, It is configured with. Further, the computing means 5 includes memories 6L and 6R, filter banks (frequency band dividing means) 7L and 7R, physical characteristic quantity calculating means for each frequency band (feature quantity calculating means for each frequency band) 8 f , and physical characteristic quantities. Representative value calculating means (physical feature quantity calculating means) 9, sound image width estimated value calculating means (estimated value calculating means) 10, weight coefficient storage means 11, estimated value weight coefficient calculating means (weight coefficient calculating means) 12, And subjective evaluation data storage means 13.

ダミーヘッド1は、試験対象である音源SSから発生する音響をバイノーラル方式で採取するための模擬頭である。ダミーヘッド1の左右両耳の入り口部には、それぞれマイクロフォン2L及び2Rが取り付けられている。   The dummy head 1 is a simulated head for collecting sound generated from the sound source SS to be tested by a binaural method. Microphones 2L and 2R are attached to the entrances of the left and right ears of the dummy head 1, respectively.

マイクロフォン2L及び2Rは、ダミーヘッド1のそれぞれ左耳及び右耳の入り口部における音源SSから発生する音響を採取する収音手段である。マイクロフォン2L及び2Rで採取されたアナログ音響信号は、それぞれローパスフィルタ3L及び3Rに入力される。
なお、第1実施形態においては、マイクロフォン2L及び2Rは、ダミーヘッド1の左右両耳の入り口部に配置したが、マイクロフォン2L及び2Rをダミーヘッド1の鼓膜部に配置して収音するようにしてもよい。
また、ダミーヘッド1の替わりに、人間の頭部を模した球体を用いてマイクロフォン2L及び2Rを配置するようにしてもよいし、マイクロフォンスタンドを用いた2点マイクロフォンの形態でマイクロフォン2L及び2Rを配置するようにしてもよい。
The microphones 2L and 2R are sound collection means for collecting sound generated from the sound source SS at the entrance of the left and right ears of the dummy head 1, respectively. Analog sound signals collected by the microphones 2L and 2R are input to the low-pass filters 3L and 3R, respectively.
In the first embodiment, the microphones 2L and 2R are arranged at the entrance portions of the left and right ears of the dummy head 1, but the microphones 2L and 2R are arranged at the eardrum portion of the dummy head 1 to collect sound. May be.
Further, instead of the dummy head 1, the microphones 2L and 2R may be arranged using a sphere simulating a human head, or the microphones 2L and 2R may be arranged in the form of a two-point microphone using a microphone stand. It may be arranged.

ローパスフィルタ3L及び3Rは、それぞれマイクロフォン2L及び2Rによって採取されたアナログ音響信号を入力し、入力したアナログ音響信号からサンプリング周波数fsの1/2を超える高周波数成分をAD変換器4L及び4Rによってデジタル化(サンプリング)する前に帯域制限して、折り返し歪みの発生を防止するためのアンチエイリアシングフィルタである。ローパスフィルタ3L及び3Rは、帯域制限したアナログ音響信号を、それぞれAD変換器4L及び4Rに出力する。
なお、人の可聴周波数の上限は20kHzであるから、サンプリング周波数fsは、20kHzの2倍である40kHz以上とする必要がある。例えば、サンプリング周波数fs=48kHzとすると、ローパスフィルタ3L及び3Rによって、fs/2=24kHzを超える周波数成分を帯域制限するようにすればよい。
The low-pass filters 3L and 3R receive analog audio signals collected by the microphones 2L and 2R, respectively, and digitally convert high frequency components exceeding 1/2 of the sampling frequency fs from the input analog audio signals by the AD converters 4L and 4R. This is an anti-aliasing filter for preventing the occurrence of aliasing distortion by limiting the bandwidth before sampling (sampling). The low-pass filters 3L and 3R output analog audio signals with band restrictions to the AD converters 4L and 4R, respectively.
Since the upper limit of human audible frequency is 20 kHz, the sampling frequency fs needs to be 40 kHz or more, which is twice 20 kHz. For example, when the sampling frequency is fs = 48 kHz, the frequency components exceeding fs / 2 = 24 kHz may be band-limited by the low-pass filters 3L and 3R.

AD変換器4L及び4Rは、それぞれローパスフィルタ3L及び3Rによって帯域制限されたアナログ音響信号を入力し、入力したアナログ音響信号を例えば、サンプリング周波数fs=48kHzでサンプリングしてデジタル信号に変換する。AD変換器4L及び4Rは、それぞれデジタル信号に変換した左チャンネルの音響信号sl(n)及び右チャンネルの音響信号sr(n)(但し、nはサンプリングしたデータの番号を示す)を、それぞれ演算手段5のメモリ6L及び6Rに出力する。   The AD converters 4L and 4R input analog acoustic signals band-limited by the low-pass filters 3L and 3R, respectively, sample the input analog acoustic signals at a sampling frequency fs = 48 kHz, for example, and convert them into digital signals. The AD converters 4L and 4R respectively calculate the left channel acoustic signal sl (n) and the right channel acoustic signal sr (n) (where n represents the number of the sampled data) converted into digital signals, respectively. Output to the memories 6L and 6R of the means 5.

演算手段5は、バイノーラル方式で採取され、AD変換器4L及び4Rによってデジタル化された音響信号sl(n)及びsr(n)を入力し、入力した音響信号sl(n)及びsr(n)を数値演算によって分析することにより音像幅推定値(ハットy)を算出する分析手段である。演算手段5は、汎用的なコンピュータを用いて実現することができる。
演算手段5は、算出した音像幅推定値(ハットy)を表示手段14に出力する。
なお、演算手段5の詳細については後記する。
The computing means 5 receives the acoustic signals sl (n) and sr (n) collected by the binaural method and digitized by the AD converters 4L and 4R, and the inputted acoustic signals sl (n) and sr (n) Is an analysis means for calculating a sound image width estimated value (hat y) by analyzing the numerical value by numerical calculation. The computing means 5 can be realized using a general-purpose computer.
The computing means 5 outputs the calculated sound image width estimated value (hat y) to the display means 14.
Details of the computing means 5 will be described later.

表示手段14は、演算手段5から入力した音像幅推定値(ハットy)を、視認可能に表示する液晶ディスプレイなどの表示装置である。
表示手段14は、演算手段5から所定の時間間隔ごとに出力される音像幅推定値(ハットy)の数値を適宜表示する。なお、表示手段14は、音像幅推定値(ハットy)の経時変化が把握しやすいように、グラフ化して表示するようにしてもよい。
The display unit 14 is a display device such as a liquid crystal display that displays the estimated sound image width (hat y) input from the calculation unit 5 so as to be visible.
The display means 14 appropriately displays the numerical value of the estimated sound image width (hat y) output from the computing means 5 at predetermined time intervals. The display means 14 may be displayed in a graph so that the temporal change of the estimated sound image width (hat y) can be easily grasped.

音源SSは、人間に音像幅を誘起させる音響を発生する音響発生手段である。試験対象である音源SSとしては、楽器やスピーカなど任意の音源を用いることができ、音源SSは、1個であっても複数個であってもよい。   The sound source SS is sound generation means for generating sound that induces a sound image width in humans. As the sound source SS to be tested, an arbitrary sound source such as a musical instrument or a speaker can be used, and the number of sound sources SS may be one or plural.

次に、演算手段5の各部の構成について説明する。
メモリ6L及び6Rは、それぞれAD変換器4L及び4Rから入力した左チャンネルの音響信号sl(n)及び右チャンネルの音響信号sr(n)を記憶する記憶手段である。メモリ6L及び6Rに記憶した音響信号sl(n)及びsr(n)は、それぞれ適宜にフィルタバンク7L及び7Rによって読み出される。
Next, the structure of each part of the calculating means 5 is demonstrated.
The memories 6L and 6R are storage means for storing the left channel acoustic signal sl (n) and the right channel acoustic signal sr (n) input from the AD converters 4L and 4R, respectively. The acoustic signals sl (n) and sr (n) stored in the memories 6L and 6R are read by the filter banks 7L and 7R as appropriate.

フィルタバンク(周波数帯域分割手段)7L及び7Rは、それぞれ互いに異なる複数の周波数帯域fを通過する特性を有するバンドパスフィルタ群から構成される。ここで、fは周波数帯域を識別する番号を示し、f=1,2,…,Fである。また、Fは2以上の整数である。
フィルタバンク7L及び7Rは、それぞれメモリ6L及6Rに記憶された左チャンネルの音響信号sl(n)及び右チャンネルの音響信号sr(n)を読み出し、読み出した音響信号sl(n)及びsr(n)の複数の周波数帯域fの周波数帯域成分sl(n,f)及びsr(n,f)を、各バンドパスフィルタの出力の組として得るものである。すなわち、フィルタバンク7L及び7Rは、音響信号sl(n)及びsr(n)を複数の周波数帯域成分sl(n,f)及びsr(n,f)に分割する周波数帯域分割手段である。フィルタバンク7L及び7Rは、音響信号sl(n)及びsr(n)の各周波数帯域成分sl(n,f)及びsr(n,f)を、それぞれの周波数帯域fに対応する周波数帯域別物理特徴量算出手段8に出力する。
The filter banks (frequency band dividing means) 7L and 7R are each composed of a band-pass filter group having a characteristic of passing a plurality of frequency bands f different from each other. Here, f indicates a number for identifying a frequency band, and f = 1, 2,... F is an integer of 2 or more.
The filter banks 7L and 7R read the left channel acoustic signal sl (n) and the right channel acoustic signal sr (n) stored in the memories 6L and 6R, respectively, and read the acoustic signals sl (n) and sr (n The frequency band components sl (n, f) and sr (n, f) of a plurality of frequency bands f are obtained as a set of outputs of each bandpass filter. That is, the filter banks 7L and 7R are frequency band dividing means for dividing the acoustic signals sl (n) and sr (n) into a plurality of frequency band components sl (n, f) and sr (n, f). The filter banks 7L and 7R convert the frequency band components sl (n, f) and sr (n, f) of the acoustic signals sl (n) and sr (n) into frequency band physicals corresponding to the respective frequency bands f. It outputs to the feature-value calculation means 8f .

フィルタバンク7L及び7Rは、例えば、1/6オクターブバンドフィルタなどの等比帯域フィルタ群で構成することができる。好ましくは、周波数帯域幅が1/6オクターブ以下、更に好ましくは1/12オクターブ以下の狭帯域の1/nオクターブバンドフィルタ(ここで、nは1以上の整数)を用いることができる。
なお、フィルタ群を構成する各フィルタは、FIR(finite impulse response;有限長インパルス応答)フィルタによって構成することができる。
The filter banks 7L and 7R can be configured with a group of equal ratio band filters such as a 1/6 octave band filter, for example. Preferably, a narrow band 1 / n octave band filter (where n is an integer of 1 or more) having a frequency bandwidth of 1/6 octave or less, more preferably 1/12 octave or less can be used.
In addition, each filter which comprises a filter group can be comprised with a FIR (finite impulse response) filter.

周波数帯域別物理特徴量算出手段(周波数帯域別特徴量算出手段)8(f=1,2,…,F)は、それぞれフィルタバンク7L及び7Rから音響信号の周波数帯域fに対応する左右の周波数帯域成分sl(n,f)及びsr(n,f)を入力し、入力した左右の周波数帯域成分sl(n,f)及びsr(n,f)を分析して、周波数帯域fごとの3種類の物理特徴量である周波数帯域別物理特徴量(周波数帯域別特徴量)x(f)、x(f)、x(f)を算出して物理特徴量代表値算出手段9に出力する。 The frequency characteristic-specific physical feature quantity calculation means (frequency-band characteristic quantity calculation means) 8 f (f = 1, 2,..., F) are respectively left and right corresponding to the frequency band f of the acoustic signal from the filter banks 7L and 7R. The frequency band components sl (n, f) and sr (n, f) are input, and the input left and right frequency band components sl (n, f) and sr (n, f) are analyzed, and each frequency band f is analyzed. The physical feature quantity representative value calculating means 9 calculates the physical feature quantity by frequency band (feature quantity by frequency band) x a (f), x t (f), x l (f) as three types of physical feature quantities. Output to.

物理特徴量代表値算出手段(物理特徴量算出手段)9は、F個の周波数帯域別物理特徴量算出手段8(f=1,2,…,F)からF組の周波数帯域別物理特徴量x(f)、x(f)、x(f)を入力し、入力した周波数帯域別物理特徴量x(f)、x(f)、x(f)を物理特徴量の種類ごとに、物理特徴量代表値X、X、Xを算出して音像幅推定値算出手段10又は推定値重み係数算出手段12に出力する。
なお、音像幅を推定するための推定モデル式における各物理特徴量代表値X、X、Xに対する重み係数C、C及びCを算出する場合は、物理特徴量代表値算出手段9は、物理特徴量代表値X、X、Xを推定値重み係数算出手段12に出力する。また、推定モデル式と重み係数C、C及びCとを用いて音像幅を推定する場合は、物理特徴量代表値算出手段9は、物理特徴量代表値X、X、Xを音像幅推定値算出手段10に出力する。
The physical feature quantity representative value calculation means (physical feature quantity calculation means) 9 includes F sets of physical features by frequency band from F frequency band physical feature quantity calculation means 8 f (f = 1, 2,..., F). Quantities x a (f), x t (f), and x l (f) are input, and the input physical characteristic amounts x a (f), x t (f), and x l (f) by frequency band are physical characteristics. For each type of quantity, the physical feature quantity representative values X a , X t , and X l are calculated and output to the sound image width estimated value calculating means 10 or the estimated value weight coefficient calculating means 12.
When calculating the weighting factors C a , C t, and C l for each physical feature amount representative value X a , X t , X l in the estimation model formula for estimating the sound image width, the physical feature amount representative value calculation is performed. The means 9 outputs the physical feature quantity representative values X a , X t , and X l to the estimated value weight coefficient calculating means 12. When estimating the sound image width using the estimation model formula and the weighting coefficients C a , C t, and C l , the physical feature quantity representative value calculating unit 9 uses the physical feature quantity representative values X a , X t , X 1 is output to the sound image width estimated value calculating means 10.

ここで、図2を参照(適宜図1参照)して、周波数帯域別物理特徴量算出手段8と物理特徴量代表値算出手段9の詳細な構成について説明する。
図2に示すように、周波数帯域別物理特徴量算出手段8は、窓掛け手段20L及び20Rと、CCC(interaural cross-correlation coefficient;両耳間相互相関係数)算出手段21と、レベル算出手段22L及び22Rと、IACC算出手段23と、ITD算出手段24と、ILD算出手段25と、ILD標準偏差算出手段26と、IACC平均算出手段27と、ITD標準偏差算出手段28と、を備えて構成されている。
また、物理特徴量代表値算出手段9は、ILD標準偏差代表値算出手段30と、IACC平均代表値算出手段31と、ITD標準偏差代表値算出手段32と、を備えて構成されている。
Here, with reference to FIG. 2 (refer to FIG. 1 as appropriate), the detailed configuration of the frequency-specific physical feature quantity calculating means 8 f and the physical feature quantity representative value calculating means 9 will be described.
As shown in FIG. 2, the physical characteristic amount calculating means 8 f for each frequency band includes windowing means 20L f and 20R f , CCC (interaural cross-correlation coefficient) calculating means 21 f , , Level calculating means 22L f and 22R f , IACC calculating means 23 f , ITD calculating means 24 f , ILD calculating means 25 f , ILD standard deviation calculating means 26 f , IACC average calculating means 27 f , ITD Standard deviation calculating means 28 f .
The physical feature quantity representative value calculating means 9 includes an ILD standard deviation representative value calculating means 30, an IACC average representative value calculating means 31, and an ITD standard deviation representative value calculating means 32.

窓掛け手段20L及び20Rは、それぞれフィルタバンク7L及び7Rから対応する周波数帯域fの周波数帯域成分sl(n,f)及びsr(n,f)を入力し、入力した周波数帯域成分sl(n,f)及びsr(n,f)に時間窓w(n)を掛けて、順次に所定時間長の信号を切り出す手段である。
窓掛け手段20L及び20Rは、切り出した信号列yl(n,f)及びyr(n,f)を、それぞれレベル算出手段22L及び22Rに出力するとともに、左右のチャンネルの信号列yl(n,f)及びyr(n,f)を、CCC算出手段21に出力する。
The windowing means 20L f and 20R f receive the frequency band components sl (n, f) and sr (n, f) of the corresponding frequency band f from the filter banks 7L and 7R, respectively, and the input frequency band components sl ( n, f) and sr (n, f) are multiplied by a time window w (n) to sequentially extract a signal having a predetermined time length.
The windowing means 20L f and 20R f output the cut signal sequences yl k (n, f) and yr k (n, f) to the level calculation means 22L f and 22R f , respectively, and the signals of the left and right channels. The columns yl k (n, f) and yr k (n, f) are output to the CCC calculating means 21 f .

ここで、窓掛け手段20L及び20Rによって周波数帯域成分sl(n,f)及びsr(n,f)から切り出される信号のデータ数をN(Nは1以上の整数)とすると、時間窓w(n)は、式(1)によって表すことができる。 Here, assuming that the number of data of signals cut out from the frequency band components sl (n, f) and sr (n, f) by the windowing means 20L f and 20R f is N (N is an integer of 1 or more), the time window w (n) can be expressed by equation (1).

Figure 0005033156
Figure 0005033156

なお、時間窓w(n)によって切り出す時間長は、例えば、10(ms)〜100(ms)とすることができる。
ここで、時間長をt(ms)、AD変換器4L及び4Rにおけるサンプリング周波数をfs(Hz)とすると、切り出される信号のデータ数Nは、N=t10−3fsとなる。
In addition, the time length cut out by the time window w (n) can be set to, for example, 10 (ms) to 100 (ms).
Here, assuming that the time length is t (ms) and the sampling frequency in the AD converters 4L and 4R is fs (Hz), the number N of data of the extracted signals is N = t10 −3 fs.

また、窓掛け手段20L及び20Rは、時間領域において、時間窓w(n)によって、それぞれ周波数帯域成分sl(n,f)及びsr(n,f)に対して移動幅d(dは1以上の整数)ずつシフトしながら窓掛けして信号列を切り出す。左チャンネル及び右チャンネルの周波数帯域成分sl(n,f)及びsr(n,f)からk番目に切り出される信号列yl(n,f)及びyr(n,f)は、それぞれ式(2−1)及び式(2−2)のように表すことができる。 Further, the windowing means 20L f and 20R f have a movement width d (d is d) with respect to the frequency band components sl (n, f) and sr (n, f), respectively, in the time domain by the time window w (n). A signal sequence is cut out by shifting while shifting by an integer of 1 or more. The signal sequences yl k (n, f) and yr k (n, f) cut out k-th from the frequency band components sl (n, f) and sr (n, f) of the left channel and the right channel are respectively expressed by the formulas ( 2-1) and formula (2-2).

Figure 0005033156
Figure 0005033156

ここで、両耳間時間差をτ(ms)、サンプリング周波数をfs(Hz)とすると、移動幅dは、d≧τ10−3fsとすることができる。すなわち、両耳間時間差τ以上に相当するデータ数ずつ時間窓w(n)によって切り出す位置をシフトするようにすることができる。これによって、後段のCCC算出手段21やレベル算出手段22L及び22Rなどの各分析手段によって移動幅dに相当する時間幅を時間分解能とした移動分析を行うことができる。 Here, when the time difference between both ears is τ (ms) and the sampling frequency is fs (Hz), the movement width d can be d ≧ τ10 −3 fs. That is, the position to be cut out by the time window w (n) can be shifted by the number of data corresponding to the interaural time difference τ or more. As a result, the movement analysis with the time width corresponding to the movement width d as the time resolution can be performed by each analysis means such as the CCC calculation means 21 f and the level calculation means 22L f and 22R f in the subsequent stage.

レベル算出手段22L及び22Rは、それぞれ対応する周波数帯域fの窓掛け手段20L及び20Rから信号列yl(n,f)及びyr(n,f)を入力し、入力したk番目の信号列yl(n,f)及びyr(n,f)における音響エネルギーレベル(以下、レベルと呼ぶ)slE(f)及びsrE(f)を、それぞれ式(3−1)及び式(3−2)によって算出して、対応する周波数帯域fのILD算出手段25に出力する。 The level calculation means 22L f and 22R f input the signal sequences yl k (n, f) and yr k (n, f) from the windowing means 20L f and 20R f of the corresponding frequency band f, respectively, and input k The acoustic energy levels (hereinafter referred to as levels) slE k (f) and srE k (f) in the second signal sequence yl k (n, f) and yr k (n, f) And the equation (3-2), and outputs to the ILD calculating means 25 f of the corresponding frequency band f.

Figure 0005033156
Figure 0005033156

CCC(interaural cross-correlation coefficient;両耳間相互相関係数)算出手段21は、それぞれ対応する周波数帯域fの窓掛け手段20L及び20Rから信号列yl(n,f)及びyr(n,f)を入力し、入力したk番目の信号列yl(n,f)及びyr(n,f)における両耳間相互相関係数CCC(τ,f)を、式(4)によって算出して、対応する周波数帯域fのIACC算出手段23及びITD算出手段24に出力する。 The CCC (interaural cross-correlation coefficient) calculation means 21 f respectively outputs signal sequences yl k (n, f) and yr k from the windowing means 20L f and 20R f of the corresponding frequency band f. (N, f) is input, and the interaural cross-correlation coefficient CCC k (τ, f) in the input k-th signal sequence yl k (n, f) and yr k (n, f) is expressed by the formula ( 4) and output to the IACC calculation means 23 f and ITD calculation means 24 f of the corresponding frequency band f.

Figure 0005033156
Figure 0005033156

IACC(absolute maximum value of the interaural cross-correlation coefficient;両耳間相互相関度)算出手段23は、対応する周波数帯域fのCCC算出手段21から両耳間相互相関係数CCC(τ,f)を入力し、入力した両耳間相互相関係数CCC(τ,f)における最大振幅である両耳間相互相関度IACC(f)を、式(5−1)によって算出して、対応する周波数帯域fのIACC平均算出手段27に出力する。
なお、IACC算出手段23は、両耳間相互相関度IACC(f)を、式(5−1)に替えて、式(5−2)によって算出するようにしてもよい。
IACC (absolute maximum value of the interaural cross-correlation coefficient; interaural cross correlation) calculating unit 23 f, the corresponding frequency band f of the CCC calculating unit 21 between both ears from f correlation coefficient CCC k (tau, f) is input, and the interaural cross-correlation degree IACC k (f), which is the maximum amplitude in the input binaural cross-correlation coefficient CCC k (τ, f), is calculated by the equation (5-1). , And output to the IACC average calculating means 27 f of the corresponding frequency band f.
Note that the IACC calculation unit 23 f may calculate the interaural cross-correlation degree IACC k (f) by the equation (5-2) instead of the equation (5-1).

Figure 0005033156
Figure 0005033156

ITD(interaural time difference;両耳間時間差)算出手段24は、対応する周波数帯域fのCCC算出手段21から両耳間相互相関係数CCC(τ,f)を入力し、式(6−1)によって、入力した両耳間相互相関係数CCC(τ,f)において最大振幅を与える時間差τを算出し、算出した時間差τを両耳間時間差ITD(f)として、対応する周波数帯域fのITD標準偏差算出手段28に出力する。
なお、ITD算出手段24は、両耳間時間差ITD(f)を、式(6−1)に替えて、式(6−2)によって算出するようにしてもよい。
The inter-ural time difference (ITD) calculating unit 24 f receives the interaural cross-correlation coefficient CCC k (τ, f) from the CCC calculating unit 21 f of the corresponding frequency band f, and the equation (6) -1), the time difference τ giving the maximum amplitude in the input interaural cross-correlation coefficient CCC k (τ, f) is calculated, and the calculated time difference τ is used as the interaural time difference ITD k (f). It outputs to the ITD standard deviation calculation means 28 f of the frequency band f.
The ITD calculation unit 24 f may calculate the interaural time difference ITD k (f) by the equation (6-2) instead of the equation (6-1).

Figure 0005033156
Figure 0005033156

ILD(interaural level difference;両耳間レベル差)算出手段25は、対応する周波数帯域fのレベル算出手段22L及び22Rから、レベルslE(f)及びsrE(f)を入力し、入力したレベルslE(f)及びsrE(f)から、式(7)によって両耳間レベル差ILD(f)を算出して、算出した両耳間レベル差ILD(f)を、対応する周波数帯域fのILD標準偏差算出手段26に出力する。 An ILD (interaural level difference) calculation means 25 f receives the levels slE k (f) and srE k (f) from the level calculation means 22L f and 22R f of the corresponding frequency band f, From the input levels slE k (f) and srE k (f), the interaural level difference ILD k (f) is calculated by the equation (7), and the calculated interaural level difference ILD k (f) Output to the ILD standard deviation calculating means 26 f of the corresponding frequency band f.

Figure 0005033156
Figure 0005033156

IACC平均算出手段27は、対応する周波数帯域fのIACC算出手段23から両耳間相互相関度IACC(f)を入力し、窓掛け手段20L及び20Rによって切り出されたすべての区間k(k=1,2,…,T)における両耳間相互相関度IACC(f)を入力すると、式(8)によって、時間軸方向における両耳間相互相関度IACC(f)の平均を算出し、算出した平均を周波数帯域別物理特徴量の一つであるx(f)としてIACC平均代表値算出手段31に出力する。 IACC average calculating unit 27 f, the corresponding type the interaural cross-correlation IACC k (f) from IACC calculating means 23 f of the frequency band f, all the sections cut out by windowing means 20L f and 20R f k (k = 1,2, ..., T) by entering the interaural cross-correlation IACC k (f) in, by equation (8), the interaural cross-correlation IACC k in the time axis direction (f) The average is calculated, and the calculated average is output to the IACC average representative value calculation means 31 as x a (f), which is one of the physical features for each frequency band.

Figure 0005033156
Figure 0005033156

なお、周波数帯域別物理特徴量x(f)は、移動幅dごとに算出された両耳間相互相関度IACC(f)の単純平均としたが、これに限定されるものではなく、重み付き平均を用いるようにしてもよいし、最大値又は中央値などを用いるようにしてもよい。 The physical feature amount x a (f) for each frequency band is a simple average of the interaural cross-correlation degree IACC k (f) calculated for each movement width d, but is not limited thereto. A weighted average may be used, or a maximum value or a median value may be used.

ITD標準偏差算出手段28は、対応する周波数帯域fのITD算出手段24から両耳間時間差ITD(f)を入力し、窓掛け手段20L及び20Rによって切り出されたすべての区間k(k=1,2,…,T)における両耳間時間差ITD(f)を入力すると、式(9)によって、時間軸方向における両耳間時間差ITD(f)の標準偏差を算出し、算出した標準偏差を周波数帯域別物理特徴量の一つであるx(f)としてITD標準偏差代表値算出手段32に出力する。 ITD standard deviation calculating means 28 f, the corresponding interaural time difference from ITD calculation means 24 f of the frequency band f enter the ITD k (f), all the sections k cut out by windowing means 20L f and 20R f When the interaural time difference ITD k (f) at (k = 1, 2,..., T) is input, the standard deviation of the interaural time difference ITD k (f) in the time axis direction is calculated by Equation (9). The calculated standard deviation is output to the ITD standard deviation representative value calculation means 32 as x t (f), which is one of the physical features for each frequency band.

Figure 0005033156
Figure 0005033156

ILD標準偏差算出手段26は、対応する周波数帯域fのILD算出手段25から両耳間レベル差ILD(f)を入力し、20L及び20Rによって切り出されたすべての区間k(k=1,2,…,T)における両耳間レベル差ILD(f)を入力すると、式(10)によって、時間軸方向における両耳間レベル差ILD(f)の標準偏差を算出し、算出した標準偏差を周波数帯域別物理特徴量の一つであるx(f)としてILD標準偏差代表値算出手段30に出力する。 ILD standard deviation calculation means 26 f, the corresponding ILD calculation means enter the interaural level difference ILD k (f) from 25 f of the frequency band f, 20L f and all the sections k (k cut out by 20R f = 1, 2,..., T), the interaural level difference ILD k (f) is input, and the standard deviation of the interaural level difference ILD k (f) in the time axis direction is calculated by the equation (10). The calculated standard deviation is output to the ILD standard deviation representative value calculating means 30 as x l (f), which is one of the physical features for each frequency band.

Figure 0005033156
Figure 0005033156

IACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30は、それぞれIACC平均算出手段27、ITD標準偏差算出手段28及びILD標準偏差算出手段26から周波数帯域fごとに算出された周波数帯域別物理特徴量x(f)、x(f)及びx(f)を入力し、それぞれ入力した周波数帯域別物理特徴量x(f)、x(f)及びx(f)の代表値である物理特徴量代表値X、X及びXを算出する。IACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30は、それぞれ算出した物理特徴量代表値X、X及びXを音像幅推定値算出手段10又は推定値重み係数算出手段12に出力する。 The IACC average representative value calculating means 31, the ITD standard deviation representative value calculating means 32, and the ILD standard deviation representative value calculating means 30 are respectively an IACC average calculating means 27 f , an ITD standard deviation calculating means 28 f, and an ILD standard deviation calculating means 26 f. Frequency-specific physical feature values x a (f), x t (f) and x l (f) calculated for each frequency band f from the input frequency feature physical parameters x a (f) , X t (f) and x l (f), which are representative values of physical feature values X a , X t and X l are calculated. The IACC average representative value calculating means 31, the ITD standard deviation representative value calculating means 32, and the ILD standard deviation representative value calculating means 30 respectively calculate the calculated physical feature quantity representative values X a , X t, and X l as sound image width estimated value calculating means. 10 or the estimated value weighting coefficient calculation means 12.

前記したように、音像幅を推定するための推定モデル式における各物理特徴量代表値X、X及びXに対する重み係数C、C及びCを算出する場合は、物理特徴量代表値算出手段9の構成要素であるIACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30は、それぞれ物理特徴量代表値X、X及びXを推定値重み係数算出手段12に出力する。また、推定モデル式と重み係数C、C及びCとを用いて音像幅を推定する場合は、IACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30は、それぞれ物理特徴量代表値X、X及びXを音像幅推定値算出手段10に出力する。 As described above, when calculating the weighting factors C a , C t, and C l for each physical feature amount representative value X a , X t, and X l in the estimation model formula for estimating the sound image width, the physical feature amount The IACC average representative value calculating means 31, the ITD standard deviation representative value calculating means 32, and the ILD standard deviation representative value calculating means 30, which are constituent elements of the representative value calculating means 9, are respectively the physical feature quantity representative values X a , X t, and X 1 is output to the estimated value weighting coefficient calculating means 12. Further, when the sound image width is estimated using the estimation model formula and the weight coefficients C a , C t, and C l , the IACC average representative value calculating unit 31, the ITD standard deviation representative value calculating unit 32, and the ILD standard deviation representative value The calculating means 30 outputs the physical feature quantity representative values X a , X t and X l to the sound image width estimated value calculating means 10, respectively.

ここで、第1実施形態におけるIACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30は、それぞれ周波数帯域別物理特徴量x(f)、x(f)及びx(f)の代表値として、式(11−1)、式(11−2)及び式(11−3)によって、周波数帯域fごとに算出した周波数帯域別物理特徴量x(f)、x(f)及びx(f)の平均を算出して物理特徴量代表値X、X及びXとする。 Here, the IACC average representative value calculating means 31, the ITD standard deviation representative value calculating means 32, and the ILD standard deviation representative value calculating means 30 in the first embodiment are respectively physical characteristic amounts x a (f) and x t for each frequency band. As representative values of (f) and x l (f), the physical feature value x for each frequency band calculated for each frequency band f by Expression (11-1), Expression (11-2), and Expression (11-3). The average of a (f), x t (f), and x l (f) is calculated to be the physical feature quantity representative values X a , X t, and X l .

Figure 0005033156
Figure 0005033156

このように、推定モデル式で用いる物理特徴量として、周波数帯域ごとに算出した周波数帯域別物理特徴量を物理特徴量の種別ごとに一つの値に集約した代表値を用いることにより、推定モデル式における重み係数の個数を低減することができ、音像幅推定値(ハットy)の算出や重み係数を定めるための主観評価データの採取を簡略化することができる。   In this way, as the physical feature quantity used in the estimation model formula, the estimation model formula is obtained by using the representative value obtained by consolidating the physical feature quantity by frequency band calculated for each frequency band into one value for each type of physical feature quantity. The number of weighting coefficients can be reduced, and the calculation of the estimated sound image width (hat y) and the collection of subjective evaluation data for determining the weighting coefficient can be simplified.

図1に戻って(適宜図2参照)、音像幅推定装置100の構成について説明を続ける。
音像幅推定値算出手段(推定値算出手段)10は、IACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30から、それぞれ物理特徴量代表値X、X及びXを入力するとともに、重み係数記憶手段11から、予め推定値重み係数算出手段12によって算出して記憶しておいた重み係数C、C及びCを読み出し、式(12)に示した推定モデル式によって、音像幅の推定値(ハットy)を算出して、算出した推定値(ハットy)を表示手段14に出力する。
Returning to FIG. 1 (see FIG. 2 as appropriate), the description of the configuration of the sound image width estimation apparatus 100 will be continued.
The sound image width estimated value calculating means (estimated value calculating means) 10 includes physical feature quantity representative values X a from the IACC average representative value calculating means 31, the ITD standard deviation representative value calculating means 32, and the ILD standard deviation representative value calculating means 30, respectively. , X t and X l , and the weight coefficients C a , C t, and C l calculated and stored in advance by the estimated value weight coefficient calculation means 12 are read from the weight coefficient storage means 11 and the equation ( The estimated value (hat y) of the sound image width is calculated by the estimated model formula shown in 12), and the calculated estimated value (hat y) is output to the display means 14.

Figure 0005033156
Figure 0005033156

式(12)に示したように、第1実施形態における音像幅推定値(ハットy)は、3つの物理特徴量代表値X、X及びXを要素とする3次元ベクトルの絶対値として算出することができる。 As shown in Expression (12), the estimated sound image width (hat y) in the first embodiment is an absolute value of a three-dimensional vector having three physical feature quantity representative values X a , X t, and X l as elements. Can be calculated as

重み係数記憶手段11は、推定値重み係数算出手段12によって算出した式(12)に示した推定モデル式の重み係数C、C及びCを記憶する記憶手段である。重み係数記憶手段11に記憶した重み係数C、C及びCは、音像幅の推定を行う際に、音像幅推定値算出手段10によって読み出され、音像幅推定値(ハットy)の算出に用いられる。 The weighting factor storage unit 11 is a storage unit that stores the weighting factors C a , C t, and C l of the estimation model formula shown in Formula (12) calculated by the estimated value weighting factor calculation unit 12. The weight coefficients C a , C t, and C l stored in the weight coefficient storage unit 11 are read out by the sound image width estimated value calculation unit 10 when the sound image width is estimated, and the sound image width estimated value (hat y) is calculated. Used for calculation.

推定値重み係数算出手段12は、主観評価データ記憶手段13に予め記憶しておいた主観評価データyを読み出すとともに、IACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30から、それぞれ当該主観評価データyに対応する物理特徴量代表値Xai、Xti及びXliを入力し、入力した主観評価データyと物理特徴量代表値Xai、Xti及びXliとからなる複数組のデータを用いて、式(12)に示した推定モデル式の重み係数C、C及びCを回帰分析の手法である最小二乗法によって算出し、算出した重み係数C、C及びCを重み係数記憶手段11に記憶する。なお、iは、個々の主観評価データを識別する番号である。 The estimated value weight coefficient calculating means 12 reads subjective evaluation data y i stored in the subjective evaluation data storage means 13 in advance, and also includes an IACC average representative value calculating means 31, an ITD standard deviation representative value calculating means 32, and an ILD standard. The physical feature quantity representative values X ai , X ti, and X li respectively corresponding to the subjective evaluation data y i are input from the deviation representative value calculation means 30, and the input subjective evaluation data y i and physical feature quantity representative value X ai are input. , X ti and X li are used to calculate the weighting factors C a , C t and C l of the estimated model equation shown in Equation (12) by the least square method which is a regression analysis method. Then, the calculated weighting factors C a , C t and C l are stored in the weighting factor storage means 11. Note that i is a number for identifying individual subjective evaluation data.

ここで、主観評価データyに対応する物理特徴量代表値Xai、Xti及びXliとは、当該主観評価データyを得たときの被験者と同じ音場条件で、ダミーヘッド1に取り付けられたマイクロフォン2L及び2Rを用いて音響信号を採取し、前記した各分析手段を用いて最終的にIACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30から出力される物理特徴量代表値X、X及びXのことである。 Here, the physical characteristic amount representative value X ai corresponding to subjective assessment data y i, and the X ti and X li, the same sound field conditions and subject when give the subjective assessment data y i, the dummy head 1 The acoustic signals are collected using the attached microphones 2L and 2R, and finally the IACC average representative value calculating means 31, the ITD standard deviation representative value calculating means 32, and the ILD standard deviation representative value are calculated using the respective analysis means described above. These are the physical feature quantity representative values X a , X t and X 1 output from the means 30.

次に、第1実施形態における推定値重み係数算出手段12による重み係数C、C及びCの算出手法について説明する。
第1実施形態では、3つの物理特徴量代表値X、X及びXを説明変数とし、音像幅yを目的変数とする式(12)に示した推定モデル式において、回帰分析の手法である最小二乗法によって重み係数C、C及びCを算出する。すなわち、音像幅の主観評価データyと推定モデル式によって算出される予測値(ハットy)との組を予め用意しておき、最小二乗法によって重み係数C、C及びCを算出する。
Next, a method for calculating the weighting factors C a , C t, and C l by the estimated value weighting factor calculation unit 12 in the first embodiment will be described.
In the first embodiment, in the estimation model formula shown in Formula (12) in which three physical feature quantity representative values X a , X t and X l are explanatory variables and the sound image width y is an objective variable, a regression analysis method is used. The weighting coefficients C a , C t and C l are calculated by the least square method. That is, a set of the subjective evaluation data y i of the sound image width and the predicted value (hat y i ) calculated by the estimation model formula is prepared in advance, and the weight coefficients C a , C t, and C l are calculated by the least square method. calculate.

式(13)に示したように、主観評価データyと推定モデル式によって算出される予測値(ハットy)との差の二乗和Jが最小となる重み係数C、C及びCを算出する。なお、式(13)において、Sは主観評価データのデータ数である。 As shown in the equation (13), the weighting factors C a , C t and C that minimize the sum of squares J of the difference between the subjective evaluation data y i and the predicted value (hat y i ) calculated by the estimation model equation. l is calculated. In Equation (13), S is the number of subjective evaluation data.

Figure 0005033156
Figure 0005033156

ここで、計算の簡略化のため、便宜的に目的変数を音像幅yの二乗とすると、式(14)に示した二乗和Jが最小となる重み係数C、C及びCを算出することになる。 Here, for simplification of calculation, if the objective variable is the square of the sound image width y i for convenience, the weight coefficients C a , C t, and C l that minimize the sum of squares J shown in Expression (14) are set. Will be calculated.

Figure 0005033156
Figure 0005033156

式(14)の推定値(ハットy)に、式(12)を代入すると、二乗和Jは、式(15)のように表すことができる。 Substituting equation (12) into the estimated value (hat y i ) of equation (14), the sum of squares J can be expressed as equation (15).

Figure 0005033156
Figure 0005033156

ここで、二乗和Jが最小となる条件は、式(16)に示した二乗和Jの各重み係数C、C及びCによる偏微分が0になることである。 Here, the condition for minimizing the square sum J is that the partial differentiation of the square sum J shown in Expression (16) by the weighting factors C a , C t, and C l is zero.

Figure 0005033156
Figure 0005033156

これにより、式(17)に示した連立方程式が得られる。   As a result, the simultaneous equations shown in Expression (17) are obtained.

Figure 0005033156
Figure 0005033156

ここで、式(17)に示した重み係数C、C及びCを変数とする連立方程式において、重み係数C、C及びCに対する係数を式(18)のようにa11〜a33及びb〜bとして定義する。 Here, the weighting factor C a shown in equation (17), in simultaneous equations for the variables C t and C l, the coefficients for weighting coefficient C a, C t and C l as in equation (18) a 11 ˜a 33 and b 1 ˜b 3 .

Figure 0005033156
Figure 0005033156

式(18)で定義したa11〜a33及びb〜bを用いると、式(17)は、式(19−1)のように表すことができる。そして、式(19−1)は、式(19−2)のように変形することができる。 With a 11 ~a 33 and b 1 ~b 3 defined in formula (18), equation (17) can be expressed by the equation (19-1). The equation (19-1) can be transformed as the equation (19-2).

Figure 0005033156
Figure 0005033156

ここで、a11〜a33及びb〜bは、式(17)に示したように、主観評価データyと、当該主観評価データyを得たときの被験者の位置で採取した音響信号を分析して得られる物理特徴量代表値Xai、Xti及びXliとを用いて算出することができる。 Here, a 11 to a 33 and b 1 to b 3 were collected at the position of the subject when the subjective evaluation data y i and the subjective evaluation data y i were obtained, as shown in the equation (17). It can be calculated using the physical feature value representative values X ai , X ti and X li obtained by analyzing the acoustic signal.

推定値重み係数算出手段12は、以上説明した手順により、重み係数C、C及びCを算出することができる。 The estimated value weighting factor calculation means 12 can calculate the weighting factors C a , C t and C l by the procedure described above.

主観評価データ記憶手段13は、重み係数C、C及びCを算出するための音像幅の主観評価データyを記憶する記憶手段である。主観評価データ記憶手段13に記憶した主観評価データyは、推定値重み係数算出手段12によって読み出され、重み係数C、C及びCの算出のために用いられる。 The subjective evaluation data storage means 13 is a storage means for storing the subjective evaluation data y i of the sound image width for calculating the weighting coefficients C a , C t and C l . The subjective evaluation data y i stored in the subjective evaluation data storage means 13 is read by the estimated value weight coefficient calculating means 12 and used for calculating the weight coefficients C a , C t and C l .

以上、音像幅推定装置100の構成について説明したが、本発明はこれに限定されるものではない。例えば、音像幅推定装置100の演算手段5は、一般的なコンピュータにプログラムを実行させ、コンピュータ内の演算装置や記憶装置を動作させることにより実現することができる。このプログラム(音像幅推定プログラム)は、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。   The configuration of the sound image width estimation apparatus 100 has been described above, but the present invention is not limited to this. For example, the calculation means 5 of the sound image width estimation apparatus 100 can be realized by causing a general computer to execute a program and operating a calculation device or a storage device in the computer. This program (sound image width estimation program) can be distributed via a communication line, or can be distributed by writing on a recording medium such as a CD-ROM.

次に、図3を参照(適宜図1及び図2参照)して、音像幅推定装置100の動作について説明する。
図3に示すように、音像幅推定装置100は、まず、推定値重み係数算出手段12によって、式(12)に示した推定モデル式における重み係数C、C及びCを算出して、重み係数記憶手段11に記憶しておく(ステップS10)。既に重み係数C、C及びCが重み係数記憶手段11に記憶されている場合は、この推定モデル式の重み係数算出処理ステップは省略することができる。なお、推定モデル式の重み係数算出処理ステップの詳細については後記する。
Next, the operation of the sound image width estimation apparatus 100 will be described with reference to FIG. 3 (see FIGS. 1 and 2 as appropriate).
As shown in FIG. 3, the sound image width estimation apparatus 100 first calculates weight coefficients C a , C t, and C l in the estimation model formula shown in Formula (12) by the estimated value weight coefficient calculation means 12. And stored in the weight coefficient storage means 11 (step S10). When the weight coefficients C a , C t and C l are already stored in the weight coefficient storage means 11, the weight coefficient calculation processing step of this estimation model formula can be omitted. Details of the weighting factor calculation processing step of the estimated model formula will be described later.

次に、音像幅推定装置100は、ダミーヘッド1に取り付けられたマイクロフォン2L及び2Rによって、試験対象である音源SSから発生する音響をバイノーラル方式で採取し、採取したアナログ音響信号を、ローパスフィルタ3L及び3Rを介しAD変換器4L及び4Rによって、デジタル信号に変換した音響信号sl(n)及びsr(n)として、メモリ6L及び6Rに記憶する(ステップS11)。   Next, the sound image width estimation apparatus 100 uses the microphones 2L and 2R attached to the dummy head 1 to collect the sound generated from the sound source SS to be tested by the binaural method, and uses the collected analog sound signal as the low-pass filter 3L. And 3R through the AD converters 4L and 4R, the acoustic signals sl (n) and sr (n) converted into digital signals are stored in the memories 6L and 6R (step S11).

音像幅推定装置100は、フィルタバンク7L及び7Rによって、ステップS11でメモリ6L及び6Rに記憶した音響信号sl(n)及びsr(n)を読み出し、複数の周波数帯域fの周波数帯域成分sl(n,f)及びsr(n,f)に分割して、対応する周波数帯域fの周波数帯域別物理特徴量算出手段8の窓掛け手段20L及び20Rに出力する(ステップS12)。
なお、ここでは、音像幅推定装置100は、フィルタバンク7L及び7Rとして、それぞれ1/6オクターブバンドフィルタを用いて演算する。
The sound image width estimation apparatus 100 reads out the acoustic signals sl (n) and sr (n) stored in the memories 6L and 6R in step S11 by the filter banks 7L and 7R, and the frequency band components sl (n , F) and sr (n, f) and output to the windowing means 20L f and 20R f of the corresponding frequency band-specific physical feature quantity calculating means 8 f of the frequency band f (step S12).
Here, the sound image width estimation apparatus 100 performs calculations using 1/6 octave band filters as the filter banks 7L and 7R, respectively.

音像幅推定装置100は、窓掛け手段20L及び20Rによって、ステップS12でフィルタバンク7L及び7Rから入力した、対応する周波数帯域fの周波数帯域成分sl(n,f)及びsr(n,f)に対して時間窓w(n)を掛けて、所定の移動幅dずつシフトした位置の、所定の時間長の音響信号yl(n,f)及びyr(n,f)を順次に切り出す。
音像幅推定装置100は、窓掛け手段20Lによって切り出した左チャンネルの音響信号yl(n,f)を対応する周波数帯域fのレベル算出手段22L及びCCC算出手段21に順次に出力するとともに、窓掛け手段20Rによって切り出した右チャンネルの音響信号yr(n,f)を対応する周波数帯域fのレベル算出手段22R及びCCC算出手段21に順次に出力する(ステップS13)。
The sound image width estimation apparatus 100 uses the windowing means 20L f and 20R f to input frequency band components sl (n, f) and sr (n, f) of the corresponding frequency band f input from the filter banks 7L and 7R in step S12. ) Is multiplied by a time window w (n), and acoustic signals yl k (n, f) and yr k (n, f) of a predetermined time length at positions shifted by a predetermined movement width d are sequentially applied. cut.
The sound image width estimation apparatus 100 sequentially outputs the left-channel acoustic signal yl k (n, f) cut out by the windowing means 20L f to the corresponding frequency band f level calculation means 22L f and CCC calculation means 21 f. At the same time, the sound signal yr k (n, f) of the right channel cut out by the windowing means 20R f is sequentially output to the level calculating means 22R f and the CCC calculating means 21 f of the corresponding frequency band f (step S13).

音像幅推定装置100は、レベル算出手段22L及び22Rによって、ステップS13でそれぞれ窓掛け手段20L及び20Rから順次に入力した所定の時間長の音響信号yl(n,f)及びyr(n,f)から、それぞれレベルslE(f)及びsrE(f)を算出して、各周波数帯域fに対応するILD算出手段25に順次に出力する(ステップS14)。
音像幅推定装置100は、並行して、CCC算出手段によって、ステップS13で窓掛け手段20L及び20Rから順次に入力した音響信号yl(n,f)及びyr(n,f)から、両耳間相互相関係数CCC(f)を算出して、各周波数帯域fに対応するIACC算出手段23及びITD算出手段24に順次に出力する(ステップS14)。
The sound image width estimation apparatus 100 uses the level calculation means 22L f and 22R f to input acoustic signals yl k (n, f) and yr of predetermined time lengths sequentially input from the windowing means 20L f and 20R f in step S13, respectively. The levels slE k (f) and sr k E (f) are calculated from k (n, f), respectively, and sequentially output to the ILD calculation means 25 f corresponding to each frequency band f (step S14).
In parallel, the sound image width estimation apparatus 100 uses the acoustic signals yl k (n, f) and yr k (n, f) sequentially input from the windowing means 20L f and 20R f in step S13 by the CCC calculating means. The interaural cross-correlation coefficient CCC k (f) is calculated and sequentially output to the IACC calculation means 23 f and the ITD calculation means 24 f corresponding to each frequency band f (step S14).

音像幅推定装置100は、IACC算出手段23によって、ステップS14でCCC算出手段21から入力した両耳間相互相関係数CCC(f)から両耳間相互相関度IACC(f)を算出してIACC平均算出手段27に順次に出力する(ステップS15)。
音像幅推定装置100は、並行して、ITD算出手段24によって、ステップS14でCCC算出手段21から入力した両耳間相互相関係数CCC(f)から両耳間時間差ITD(f)を算出してITD標準偏差算出手段28に順次に出力する(ステップS15)。
音像幅推定装置100は、更に並行して、ILD算出手段25によって、ステップS14でレベル算出手段22L及び22Rから入力したレベルslE(f)及びsrE(f)から両耳間レベル差ILD(f)を算出してILD標準偏差算出手段26に順次に出力する(ステップS15)。
The sound image width estimation apparatus 100 calculates the interaural cross-correlation degree IACC k (f) from the interaural cross-correlation coefficient CCC k (f) input from the CCC calculation unit 21 f in step S14 by the IACC calculation unit 23 f . calculated and sequentially outputs the IACC average calculating unit 27 f (step S15).
In parallel, the sound image width estimation apparatus 100 uses the ITD calculator 24 f to calculate the interaural time difference ITD k (f) from the interaural cross-correlation coefficient CCC k (f) input from the CCC calculator 21 f in step S14. ) is calculated sequentially outputs the ITD standard deviation calculating means 28 f (step S15).
In parallel, the sound image width estimation apparatus 100 further performs inter-aural interplay between the levels slE k (f) and sr k E (f) input from the level calculation units 22L f and 22R f in step S14 by the ILD calculation unit 25 f . The level difference ILD k (f) is calculated and sequentially output to the ILD standard deviation calculating means 26 f (step S15).

音像幅推定装置100は、IACC平均算出手段27によって、ステップS15でIACC算出手段23から入力した両耳間相互相関度IACC(f)から時間軸方向における平均を算出し、算出した当該平均を周波数帯域別物理特徴量x(f)としてIACC平均代表値算出手段31に順次に出力する(ステップS16)。
音像幅推定装置100は、並行して、ITD標準偏差算出手段28によって、ステップS15でITD算出手段24から入力した両耳間時間差ITD(f)から時間軸方向における標準偏差を算出し、算出した当該標準偏差を周波数帯域別物理特徴量x(f)としてITD標準偏差代表値算出手段32に順次に出力する(ステップS16)。
音像幅推定装置100は、更に並行して、ILD標準偏差算出手段26によって、ステップS15でILD算出手段25から入力した両耳間レベル差ILD(f)から時間軸方向における標準偏差を算出し、算出した当該標準偏差を周波数帯域別物理特徴量x(f)としてILD標準偏差代表値算出手段30に順次に出力する(ステップS16)。
The sound image width estimation apparatus 100 calculates the average in the time axis direction by calculating the average in the time axis direction from the interaural cross-correlation degree IACC k (f) input from the IACC calculation unit 23 f in step S15 by the IACC average calculation unit 27 f . The average is sequentially output to the IACC average representative value calculating means 31 as the physical characteristic amount x a (f) for each frequency band (step S16).
In parallel, the sound image width estimation apparatus 100 calculates the standard deviation in the time axis direction from the interaural time difference ITD k (f) input from the ITD calculation unit 24 f in step S15 by the ITD standard deviation calculation unit 28 f . The calculated standard deviation is sequentially output to the ITD standard deviation representative value calculating means 32 as a physical characteristic amount x t (f) for each frequency band (step S16).
In parallel, the sound image width estimation apparatus 100 further calculates the standard deviation in the time axis direction from the interaural level difference ILD k (f) input from the ILD calculation unit 25 f in step S15 by the ILD standard deviation calculation unit 26 f . The calculated standard deviation is sequentially output to the ILD standard deviation representative value calculating means 30 as the physical characteristic amount x l (f) for each frequency band (step S16).

音像幅推定装置100は、IACC平均代表値算出手段31によって、ステップS16でIACC平均算出手段27から入力した周波数帯域別物理特徴量x(f)の平均を算出し、算出した当該平均を物理特徴量代表値Xとして音像幅推定値算出手段10に出力する(ステップS17)。
音像幅推定装置100は、並行して、ITD標準偏差代表値算出手段32によって、ステップS16でITD標準偏差算出手段28から入力した周波数帯域別物理特徴量x(f)の平均を算出し、算出した当該平均を物理特徴量代表値Xとして音像幅推定値算出手段10に出力する(ステップS17)。
音像幅推定装置100は、更に並行して、ILD標準偏差代表値算出手段30によって、ステップS16でILD標準偏差算出手段26から入力した周波数帯域別物理特徴量x(f)の平均を算出し、算出した当該平均を物理特徴量代表値Xとして音像幅推定値算出手段10に出力する(ステップS17)。
The sound image width estimation apparatus 100 calculates the average of the physical characteristic amount x a (f) for each frequency band input from the IACC average calculation unit 27 f in step S16 by the IACC average representative value calculation unit 31, and calculates the calculated average. and it outputs the sound image width estimate calculation unit 10 as a physical feature quantity representative value X a (step S17).
In parallel, the sound image width estimation apparatus 100 calculates the average of the physical characteristics x t (f) for each frequency band input from the ITD standard deviation calculation unit 28 f in step S16 by the ITD standard deviation representative value calculation unit 32. , and it outputs the average calculated as a physical feature quantity representative value X t sound image width estimation value calculating means 10 (step S17).
In parallel, the sound image width estimation apparatus 100 further calculates the average of the physical features x l (f) for each frequency band input from the ILD standard deviation calculation unit 26 f in step S16 by the ILD standard deviation representative value calculation unit 30. , and outputs the sound image width estimate calculation unit 10 the average calculated as a physical feature quantity representative value X l (step S17).

音像幅推定装置100は、音像幅推定値算出手段10によって、ステップS17でIACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30から入力した物理特徴量代表値X、X及びXと、ステップS10で推定値重み係数算出手段12によって重み係数記憶手段11に記憶しておいた重み係数C、C及びCとから、式(12)によって音像幅推定値(ハットy)を算出して表示手段14に出力する(ステップS18)。 The sound image width estimation apparatus 100 receives the physical feature amount input from the IACC average representative value calculation means 31, the ITD standard deviation representative value calculation means 32, and the ILD standard deviation representative value calculation means 30 in step S17 by the sound image width estimation value calculation means 10. From the representative values X a , X t and X l and the weight coefficients C a , C t and C l stored in the weight coefficient storage means 11 by the estimated value weight coefficient calculation means 12 in step S10, the equation (12 ) To calculate the estimated sound image width (hat y) and output it to the display means 14 (step S18).

音像幅推定装置100は、表示手段14によって、ステップS18で音像幅推定値算出手段10から入力した音像幅推定値(ハットy)を視認可能に表示する(ステップS19)。
以上の処理によって、音像幅推定装置100は、音像幅を推定することができる。
The sound image width estimation apparatus 100 displays the sound image width estimated value (hat y) input from the sound image width estimated value calculating means 10 in step S18 so as to be visible on the display means 14 (step S19).
With the above processing, the sound image width estimation apparatus 100 can estimate the sound image width.

次に、図4を参照(適宜図1及び図2参照)して、図3に示した推定モデル式の重み係数算出処理ステップ(ステップS10)における音像幅推定装置100の動作について説明する。
図4に示すように、音像幅推定装置100は、まず、予め実施した主観評価によって得られた主観評価データyを不図示の入力手段によって入力し、主観評価データ記憶手段13に記憶する(ステップS30)。
Next, the operation of the sound image width estimation apparatus 100 in the weighting factor calculation processing step (step S10) of the estimation model formula shown in FIG. 3 will be described with reference to FIG. 4 (see FIGS. 1 and 2 as appropriate).
As shown in FIG. 4, the sound image width estimation apparatus 100 first inputs subjective evaluation data y i obtained by subjective evaluation performed in advance by an input unit (not shown) and stores it in the subjective evaluation data storage unit 13 ( Step S30).

次に、音像幅推定装置100は、マイクロフォン2L及び2Rによって、ステップS30で入力した主観評価データyに対応する音響信号をバイノーラル方式で採取し、採取したアナログ音響信号を、ローパスフィルタ3L及び3Rを介しAD変換器4L及び4Rによって、デジタル信号に変換した音響信号sl(n)及びsr(n)として、メモリ6L及び6Rに記憶する(ステップS31)。 Next, the sound image width estimation apparatus 100 collects the acoustic signal corresponding to the subjective evaluation data y i input in step S30 by the binaural method using the microphones 2L and 2R, and uses the collected analog acoustic signal as the low-pass filters 3L and 3R. Are stored in the memories 6L and 6R as acoustic signals sl (n) and sr (n) converted into digital signals by the AD converters 4L and 4R (step S31).

ステップS32〜ステップS37までの処理は、それぞれ図3に示した処理におけるステップS12〜ステップS17までの処理と同様であるから説明は省略する。
なお、音像幅推定装置100は、ステップS30で入力した主観評価データyの個数Sに対応して、ステップS31〜ステップS37の処理を繰り返し、推定値重み係数算出手段12に、S組の主観評価データyと物理特徴量代表値Xai、Xti及びXliとからなるデータを蓄積する。
The processing from step S32 to step S37 is the same as the processing from step S12 to step S17 in the processing shown in FIG.
Note that the sound image width estimation apparatus 100 repeats the processing of steps S31 to S37 corresponding to the number S of subjective evaluation data y i input in step S30, and causes the estimated value weight coefficient calculation means 12 to receive S sets of subjective subjects. Data consisting of evaluation data y i and physical feature quantity representative values X ai , X ti and X li is stored.

音像幅推定装置100は、推定値重み係数算出手段12によって、ステップS37でIACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30から入力した物理特徴量代表値Xai、Xti及びXliと、ステップS30で不図示の入力手段から入力して主観評価データ記憶手段13に記憶しておいた主観評価データyとからなるS組のデータを用いて、最小二乗法によって重み係数C、C及びCを算出して(ステップS38)、算出した重み係数C、C及びCを重み係数記憶手段11に記憶する(ステップS39)。
以上で、音像幅推定装置100は、推定モデル式の重み係数算出処理を終了する。
The sound image width estimation apparatus 100 uses the estimated feature weight coefficient calculation unit 12 to input physical feature values from the IACC average representative value calculation unit 31, the ITD standard deviation representative value calculation unit 32, and the ILD standard deviation representative value calculation unit 30 in step S37. S sets of data including representative values X ai , X ti, and X li and subjective evaluation data y i input from input means (not shown) and stored in the subjective evaluation data storage means 13 in step S30 are used. Then, the weight coefficients C a , C t and C l are calculated by the least square method (step S38), and the calculated weight coefficients C a , C t and C l are stored in the weight coefficient storage means 11 (step S39). .
Thus, the sound image width estimation apparatus 100 ends the weighting factor calculation process of the estimation model formula.

次に、図5を参照(適宜図1及び図2参照)して、式(12)に示した本発明における音像幅の推定モデル式で用いる物理特徴量と音像幅の主観評価データとの間のピアソン相関分析の結果について説明する。   Next, referring to FIG. 5 (refer to FIG. 1 and FIG. 2 as appropriate), between the physical feature amount used in the sound image width estimation model expression in the present invention shown in Expression (12) and the subjective evaluation data of the sound image width. The result of Pearson correlation analysis will be described.

図5の(1)〜(4)は、それぞれバイオリンのG線、A線、D線及びE線の開放弦の連続音を音源として用いたピアソン相関分析の結果である。図5の(1)〜(4)において、横軸はフィルタバンク7L及び7Rによって分割する周波数帯域幅を示しており、各図中の左から周波数帯域分割無し(1バンド)、1/1オクターブバンド〜1/96オクターブバンドとした場合について示している。また、縦軸はピアソン相関係数を示している。「◆」、「□」及び「▲」で示したデータは、音像幅の主観評価データと、それぞれ両耳間相互相関度の周波数帯域についての平均である物理特徴量代表値X、両耳間時間差の標準偏差の周波数帯域についての平均である物理特徴量代表値X及び両耳間レベル差の標準偏差の周波数帯域についての平均である物理特徴量代表値Xとの相関係数を示している。 (1) to (4) in FIG. 5 are the results of Pearson correlation analysis using continuous sounds of violin G-line, A-line, D-line, and E-line as sound sources, respectively. 5 (1) to (4), the horizontal axis indicates the frequency bandwidth divided by the filter banks 7L and 7R. From the left in each figure, there is no frequency band division (1 band), 1/1 octave. The case where the band is set to 1/96 octave band is shown. The vertical axis represents the Pearson correlation coefficient. The data indicated by “◆”, “□”, and “▲” are the subjective evaluation data of the sound image width, the physical feature value representative value X a that is the average for the frequency band of the binaural cross-correlation, respectively, binaural the correlation coefficient between the average of a physical characteristic amount representative value X t and a physical feature quantity representative value X l is the average of the frequency band of the standard deviation of the interaural level difference for the frequency band of the standard deviation between the time difference Show.

何れの結果も、周波数帯域幅を狭くするほど相関が高くなることを示しており、特に1/6オクターブバンド以下で高い相関を示し、1/12オクターブバンド以下の狭帯域とした場合では、相関係数の値は飽和していることがわかる。
この分析結果より、フィルタバンク7L及び7Rによって分割する周波数帯域幅は、好ましくは1/6オクターブバンド以下、より好ましくは1/12オクターブバンド以下とすることによって、安定した精度で音像幅を予測できることがわかる。
Both results show that the correlation becomes higher as the frequency bandwidth is narrowed. In particular, the correlation is high at 1/6 octave band or lower, and in the case of narrow band below 1/12 octave band, It can be seen that the value of the relation number is saturated.
From this analysis result, it is possible to predict the sound image width with stable accuracy by setting the frequency bandwidth divided by the filter banks 7L and 7R to preferably 1/6 octave band or less, more preferably 1/12 octave band or less. I understand.

[第2実施形態]
次に、図6及び図7を参照して、本発明における第2実施形態の音像幅推定装置100Aについて説明する。
図6に示すように、第2実施形態の音像幅推定装置100Aは、図1に示した第1実施形態の音像幅推定装置100とは、演算手段5に替えて演算手段5Aを備えたことが異なる。詳細には、第2実施形態の音像幅推定装置100Aは、図1に示した第1実施形態の音像幅推定装置100とは、物理特徴量代表値算出手段9及び主観評価データ記憶手段13に替えて、それぞれ物理特徴量代表値算出手段9A及び主観評価データ記憶手段13Aを備えたことと、代表値重み係数記憶手段15及び代表値重み係数算出手段16を更に備えたことと、が異なる。
[Second Embodiment]
Next, with reference to FIG.6 and FIG.7, 100 A of sound image width estimation apparatuses of 2nd Embodiment in this invention are demonstrated.
As shown in FIG. 6, the sound image width estimation apparatus 100 </ b> A according to the second embodiment includes a calculation means 5 </ b> A instead of the calculation means 5 in the same manner as the sound image width estimation apparatus 100 according to the first embodiment shown in FIG. 1. Is different. Specifically, the sound image width estimation apparatus 100A according to the second embodiment is different from the sound image width estimation apparatus 100 according to the first embodiment shown in FIG. 1 in the physical feature quantity representative value calculation unit 9 and the subjective evaluation data storage unit 13. Instead, the physical feature quantity representative value calculation means 9A and the subjective evaluation data storage means 13A are provided, and the representative value weight coefficient storage means 15 and the representative value weight coefficient calculation means 16 are further provided.

第1実施形態における物理特徴量代表値算出手段9は、物理特徴量代表値X、X及びXとして、それぞれ周波数帯域別物理特徴量x(f)、x(f)及びx(f)の平均を算出したが、第2実施形態における物理特徴量代表値算出手段9Aは、物理特徴量代表値X、X及びXとして、それぞれ周波数帯域別物理特徴量x(f)、x(f)及びx(f)の重み付き平均を算出するものである。 The physical feature quantity representative value calculation means 9 in the first embodiment uses the physical feature quantities x a (f), x t (f), and x 1 as frequency feature representative values X a , X t, and X l , respectively. The average of l (f) is calculated, but the physical feature quantity representative value calculation unit 9A in the second embodiment uses the physical feature quantity x a for each frequency band as the physical feature quantity representative values X a , X t, and X l , respectively. A weighted average of (f), x t (f) and x l (f) is calculated.

図7に示すように、第2実施形態における演算手段5Aの物理特徴量代表値算出手段9Aは、図2に示した第1実施形態における演算手段5の物理特徴量代表値算出手段9とは、ILD標準偏差代表値算出手段30、IACC平均代表値算出手段31及びITD標準偏差代表値算出手段32に替えて、ILD標準偏差代表値算出手段30A、IACC平均代表値算出手段31A及びITD標準偏差代表値算出手段32Aを備えたことが異なる。
なお、図1及び図2に示した第1実施形態と同じ構成要素については、同じ符号を付して、説明は適宜省略する。
As shown in FIG. 7, the physical feature quantity representative value calculation means 9A of the calculation means 5A in the second embodiment is the same as the physical feature quantity representative value calculation means 9 of the calculation means 5 in the first embodiment shown in FIG. In place of the ILD standard deviation representative value calculating means 30, the IACC average representative value calculating means 31 and the ITD standard deviation representative value calculating means 32, the ILD standard deviation representative value calculating means 30A, the IACC average representative value calculating means 31A and the ITD standard deviation The difference is that the representative value calculating means 32A is provided.
The same components as those in the first embodiment shown in FIGS. 1 and 2 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.

第2実施形態におけるILD標準偏差代表値算出手段30Aは、ILD標準偏差算出手段26から周波数帯域別物理特徴量x(f)を入力するとともに、重み係数記憶手段15から重み係数c(f)を読み出し、物理特徴量代表値Xとして、式(20−3)によって重み付き平均を算出する。ILD標準偏差代表値算出手段30Aは、算出した物理特徴量代表値Xを音像幅推定値算出手段10に出力する。
第2実施形態におけるIACC平均代表値算出手段31Aは、IACC平均算出手段27から周波数帯域別物理特徴量x(f)を入力するとともに、重み係数記憶手段15から重み係数c(f)を読み出し、物理特徴量代表値Xとして、式(20−1)によって重み付き平均を算出する。IACC平均代表値算出手段31Aは、算出した物理特徴量代表値Xを音像幅推定値算出手段10に出力する。
第2実施形態におけるITD標準偏差代表値算出手段32Aは、ITD標準偏差算出手段28から周波数帯域別物理特徴量x(f)を入力するとともに、重み係数記憶手段15から重み係数c(f)を読み出し、物理特徴量代表値Xとして、式(20−2)によって重み付き平均を算出する。ITD標準偏差代表値算出手段32Aは、算出した物理特徴量代表値Xを音像幅推定値算出手段10に出力する。
The ILD standard deviation representative value calculation means 30A in the second embodiment receives the physical characteristic amount x l (f) for each frequency band from the ILD standard deviation calculation means 26 f and the weight coefficient c l ( It reads f), as a physical feature quantity representative values X l, calculates the weighted average by formula (20-3). ILD standard deviation representative value calculating unit 30A outputs the calculated physical characteristic amount representative value X l sound image width estimation value calculating means 10.
The IACC average representative value calculation means 31A in the second embodiment receives the physical characteristic amount x a (f) for each frequency band from the IACC average calculation means 27 f and the weight coefficient c a (f) from the weight coefficient storage means 15. And a weighted average is calculated as the physical feature value representative value Xa by the equation (20-1). The IACC average representative value calculating unit 31A outputs the calculated physical feature amount representative value Xa to the sound image width estimated value calculating unit 10.
The ITD standard deviation representative value calculation means 32A in the second embodiment receives the frequency band-specific physical feature value x t (f) from the ITD standard deviation calculation means 28 f and the weight coefficient storage means 15 from the weight coefficient c t ( It reads f), as a physical feature quantity representative value X t, and calculates the weighted average by formula (20-2). The ITD standard deviation representative value calculating unit 32A outputs the calculated physical feature amount representative value Xt to the sound image width estimated value calculating unit 10.

Figure 0005033156
Figure 0005033156

主観評価データ記憶手段13Aは、図2に示した第1実施形態における主観評価データ記憶手段13と同様に、代表値重み係数算出手段12によって音像幅推定値(ハットy)を算出するための重み係数C、C及びCを算出する際に用いられる主観評価データyを記憶する。加えて、主観評価データ記憶手段13Aは、代表値重み係数算出手段16によって物理特徴量代表値X、X及びXを算出するための重み係数c(f)、c(f)及びc(f)を算出する際に用いられる主観評価データyを記憶する。重み係数C、C及びCを算出する際に用いられる主観評価データyと重み係数c(f)、c(f)及びc(f)を算出する際に用いられる主観評価データyとは、同じデータを共用するようにしてもよく、それぞれ異なるデータとしてもよい。
これらの主観評価データyは、不図示の入力手段によって入力され、主観評価データ記憶手段13Aに記憶される。
Similar to the subjective evaluation data storage unit 13 in the first embodiment shown in FIG. 2, the subjective evaluation data storage unit 13A is a weight for calculating the estimated sound image width (hat y) by the representative value weight coefficient calculation unit 12. Subjective evaluation data y i used for calculating the coefficients C a , C t and C l is stored. In addition, the subjective evaluation data storage unit 13A has weight coefficients c a (f) and c t (f) for calculating the physical feature quantity representative values X a , X t and X l by the representative value weight coefficient calculation unit 16. And subjective evaluation data y i used for calculating c l (f). Subjective evaluation data y i used in calculating the weighting factors C a , C t and C l and subjectivity used in calculating the weighting factors c a (f), c t (f) and c l (f) The evaluation data y i may share the same data, or may be different data.
These subjective evaluation data y i are input by an input unit (not shown) and stored in the subjective evaluation data storage unit 13A.

重み係数算出手段16は、主観評価データ記憶手段13Aから主観評価データyを読み出すとともに、IACC平均算出手段27、ITD標準偏差算出手段28及びILD標準偏差算出手段26からそれぞれ当該主観評価データyに対応する3種類の周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)を入力し、物理特徴量の種別ごとに、入力した主観評価データyと周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)とからなる複数組のデータを用いて、式(21−1)、式(21−2)及び式(21−3)に示した音像幅の推定モデル式の重み係数c(f)、c(f)及びc(f)として回帰分析の手法である最小二乗法によって算出する。そして、重み係数算出手段16は、算出した重み係数c(f)、c(f)及びc(f)を重み係数記憶手段15に記憶する。なお、iは、個々の主観評価データを識別する番号である。 The weighting factor calculation means 16 reads the subjective evaluation data y i from the subjective evaluation data storage means 13A, and the subjective evaluation data from the IACC average calculation means 27 f , the ITD standard deviation calculation means 28 f, and the ILD standard deviation calculation means 26 f , respectively. The three types of physical feature amounts x ai (f), x ti (f) and x li (f) corresponding to the data y i are inputted, and the subjective evaluation data y inputted for each type of physical feature amount Using a plurality of sets of data consisting of i and frequency band physical feature quantities x ai (f), x ti (f), and x li (f), equations (21-1), (21-2) and The weighting coefficients c a (f), c t (f), and c l (f) of the estimation model expression of the sound image width shown in Expression (21-3) are calculated by the least square method that is a regression analysis technique. Then, the weighting factor calculation unit 16 stores the calculated weighting factors c a (f), c t (f), and c l (f) in the weighting factor storage unit 15. Note that i is a number for identifying individual subjective evaluation data.

Figure 0005033156
Figure 0005033156

ここで、主観評価データyに対応する周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)とは、当該主観評価データyを得たときの被験者と同じ音場条件で、ダミーヘッド1に取り付けられたマイクロフォン2L及び2Rを用いて音響信号を採取し、前記した各分析手段を用いて最終的にIACC平均算出手段27、ITD標準偏差算出手段28及びILD標準偏差算出手段26から出力される周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)のことである。
なお、重み係数c(f)、c(f)及びc(f)の算出手法は、前記した第1実施形態における重み係数C、C及びCの算出手法と同様であるので、説明は省略する。
Here, the subjective evaluation data y i in the corresponding frequency band specific physical feature quantity x ai (f), and x ti (f) and x li (f) includes the subject of when to obtain the subjective evaluation data y i Under the same sound field conditions, acoustic signals are collected using the microphones 2L and 2R attached to the dummy head 1, and finally the IACC average calculating means 27 f and the ITD standard deviation calculating means 28 are used using the above-described analyzing means. f and ILD standard deviation calculation means 26 frequency bands output from the f-specific physical characteristic amount x ai (f), is that the x ti (f) and x li (f).
The calculation method of the weighting factors c a (f), c t (f), and c l (f) is the same as the calculation method of the weighting factors C a , C t, and C l in the first embodiment described above. Therefore, explanation is omitted.

また、第2実施形態においては、周波数帯域別物理特徴量x(f)、x(f)及びx(f)の代表値として重み付き平均を用いるようにしたが、周波数帯域別物理特徴量x(f)、x(f)及びx(f)の代表値として、式(22−1)〜式(22−3)に示したように、周波数帯域別物理特徴量x(f)、x(f)及びx(f)の物理特徴量の種別ごとの重み付き最大値や、式(23−1)〜式(23−3)に示したように、周波数帯域別物理特徴量x(f)、x(f)及びx(f)の物理特徴量の種別ごとの中央値を用いるようにしてもよい。 In the second embodiment, the weighted average is used as the representative value of the physical feature values x a (f), x t (f), and x l (f) for each frequency band. As representative values of the feature quantities x a (f), x t (f), and x l (f), as shown in the formulas (22-1) to (22-3), the physical feature quantities by frequency band x The weighted maximum value for each physical feature quantity type of a (f), x t (f), and x l (f), and the frequency as shown in Expressions (23-1) to (23-3) band specific physical feature quantity x a (f), may be used the median of each type of physical feature values of x t (f) and x l (f).

Figure 0005033156
Figure 0005033156

Figure 0005033156
Figure 0005033156

但し、式(23−1)〜式(23−3)において、median(a,a,…,a)は、( )内の要素a,a,…,aの中の中央値を算出する関数である。
また、これらの式(22−1)〜式(22−3)及び式(23−1)〜式(23−3)における重み係数c(f)、c(f)及びc(f)は、前記した重み付き平均の算出手法と同様の手法により定めることができる。
However, the formula (23-1) to formula in (23-3), median (a 1, a 2, ..., a F) is () elements a 1, a 2 in, ..., in a F This function calculates the median.
In addition, the weight coefficients c a (f), c t (f), and c l (f) in these expressions (22-1) to (22-3) and (23-1) to (23-3) ) Can be determined by the same method as the weighted average calculation method described above.

重み係数記憶手段15は、代表値重み係数算出手段16によって算出した、式(21−1)、式(21−2)及び式(21−3)に示した音像幅の推定モデル式の重み係数c(f)、c(f)及びc(f)、すなわち式(20−1)〜式(20−3)に示した物理特徴量代表値X、X及びXの算出式の重み係数c(f)、c(f)及びc(f)を記憶する記憶手段である。重み係数記憶手段15に記憶した重み係数c(f)、c(f)及びc(f)は、IACC平均代表値算出手段31A、ITD標準偏差代表値算出手段32A及びILD標準偏差代表値算出手段30Aによって読み出され、それぞれ物理特徴量代表値X、X及びXの算出に用いられる。 The weighting coefficient storage means 15 is a weighting coefficient of the estimated model expression of the sound image width shown in the expressions (21-1), (21-2) and (21-3) calculated by the representative value weighting coefficient calculating means 16. Calculation of c a (f), c t (f), and c l (f), that is, physical feature representative values X a , X t, and X l shown in equations (20-1) to (20-3) Storage means for storing the weighting factors c a (f), c t (f) and c l (f) of the equation . The weighting coefficients c a (f), c t (f), and c l (f) stored in the weighting coefficient storage unit 15 are the IACC average representative value calculating unit 31A, the ITD standard deviation representative value calculating unit 32A, and the ILD standard deviation representative. It is read by the value calculating means 30A and used to calculate the physical feature quantity representative values X a , X t and X l , respectively.

第2実施形態における推定値重み係数算出手段12は、第1実施形態における推定値重み係数算出手段12と同様の手法で、式(12)に示した推定モデル式の重み係数C、C及びCを算出し、算出した重み係数C、C及びCを重み係数記憶手段11に記憶する。 The estimated value weighting coefficient calculating means 12 in the second embodiment is a method similar to the estimated value weighting coefficient calculating means 12 in the first embodiment, and the weighting factors C a and C t of the estimated model formula shown in Expression (12) And C l are calculated, and the calculated weight coefficients C a , C t and C l are stored in the weight coefficient storage means 11.

なお、このとき、IACC平均代表値算出手段31A、ITD標準偏差代表値算出手段32A及びILD標準偏差代表値算出手段30Aは、それぞれ代表値重み係数算出手段16によって予め算出された重み係数c(f)、c(f)及びc(f)を重み係数記憶手段15から読み出し、読み出した重み係数c(f)、c(f)及びc(f)と、それぞれIACC平均算出手段27、ITD標準偏差算出手段28及びILD標準偏差算出手段26から入力した周波数帯域別物理特徴量x(f)、x(f)及びx(f)とから、それぞれ物理特徴量代表値X、X及びXを算出し、算出した物理特徴量代表値X、X及びXを推定値重み係数算出手段12に出力する。 At this time, the IACC average representative value calculating means 31A, the ITD standard deviation representative value calculating means 32A, and the ILD standard deviation representative value calculating means 30A are respectively weight coefficients c a (calculated in advance by the representative value weight coefficient calculating means 16). f), c t (f) and c l (f) are read from the weight coefficient storage means 15, and the read weight coefficients c a (f), c t (f) and c l (f) are respectively calculated as IACC averages. From the physical features x a (f), x t (f), and x l (f) for each frequency band inputted from the means 27 f , the ITD standard deviation calculating means 28 f and the ILD standard deviation calculating means 26 f , The feature quantity representative values X a , X t and X l are calculated, and the calculated physical feature quantity representative values X a , X t and X l are output to the estimated value weight coefficient calculation means 12.

次に、図8を参照(適宜図6及び図7参照)して、第2実施形態の音像幅推定装置100Aの動作について説明する。
図8に示すように、音像幅推定装置100Aは、まず、代表値重み係数算出手段16によって、式(20−1)〜式(20−3)に示した物理特徴量代表値X、X及びXの算出式の重み係数c(f)、c(f)及びc(f)を算出して、重み係数記憶手段15に記憶しておく(ステップS50)。既に重み係数c(f)、c(f)及びc(f)が重み係数記憶手段15に記憶されている場合は、この物理特徴量代表値算出用の重み係数算出処理ステップは省略することができる。なお、物理特徴量代表値算出用の重み係数算出処理ステップの詳細については後記する。
Next, the operation of the sound image width estimation apparatus 100A of the second embodiment will be described with reference to FIG. 8 (see FIGS. 6 and 7 as appropriate).
As illustrated in FIG. 8, the sound image width estimation apparatus 100 </ b > A first uses the representative value weighting coefficient calculation unit 16 to represent the physical feature quantity representative values X a and X shown in Expressions (20-1) to (20-3). Weight coefficients c a (f), c t (f), and c l (f) in the calculation formulas for t and X l are calculated and stored in the weight coefficient storage unit 15 (step S50). If the weighting factors c a (f), c t (f), and c l (f) are already stored in the weighting factor storage means 15, this weighting factor calculation processing step for calculating the physical feature quantity representative value is omitted. can do. Details of the weighting factor calculation processing step for calculating the physical feature quantity representative value will be described later.

続いて、音像幅推定装置100Aは、推定値重み係数算出手段12によって、式(12)に示した推定モデル式における重み係数C、C及びCを算出して、重み係数記憶手段11に記憶しておく(ステップS51)。既に重み係数C、C及びCが重み係数記憶手段11に記憶されている場合は、この推定モデル式の重み係数算出処理ステップは省略することができる。なお、本ステップS51は、図3に示した第1実施形態の音像幅推定装置100の処理におけるステップS10と同様であるので、詳細な説明は省略する。 Subsequently, the sound image width estimation apparatus 100A calculates weighting factors C a , C t and C l in the estimation model equation shown in the equation (12) by the estimated value weighting factor calculation unit 12, and the weighting factor storage unit 11 (Step S51). When the weight coefficients C a , C t and C l are already stored in the weight coefficient storage means 11, the weight coefficient calculation processing step of this estimation model formula can be omitted. Note that step S51 is the same as step S10 in the process of the sound image width estimation apparatus 100 of the first embodiment shown in FIG.

ステップS52〜ステップS57の処理は、それぞれ図3に示した第1実施形態の音像幅推定装置100の処理におけるステップS11〜ステップS16と同様であるので、説明は省略する。   The processes in steps S52 to S57 are the same as steps S11 to S16 in the process of the sound image width estimation apparatus 100 of the first embodiment shown in FIG.

音像幅推定装置100Aは、IACC平均代表値算出手段31Aによって、ステップS57でIACC平均算出手段27から入力した周波数帯域別物理特徴量x(f)と、ステップS50で重み係数記憶手段15に記憶しておいた重み係数c(f)とから、式(20−1)によって重み付き平均を算出し、算出した当該重み付き平均を物理特徴量代表値Xとして音像幅推定値算出手段10に出力する(ステップS58)。
音像幅推定装置100Aは、並行して、ITD標準偏差代表値算出手段32Aによって、ステップS57でITD標準偏差算出手段28から入力した周波数帯域別物理特徴量x(f)と、ステップS50で重み係数記憶手段15に記憶しておいた重み係数c(f)とから、式(20−2)によって重み付き平均を算出し、算出した当該重み付き平均を物理特徴量代表値Xとして音像幅推定値算出手段10に出力する(ステップS58)。
音像幅推定装置100Aは、更に並行して、ILD標準偏差代表値算出手段30Aによって、ステップS50でILD標準偏差算出手段26から入力した周波数帯域別物理特徴量x(f)と、ステップS50で重み係数記憶手段15に記憶しておいた重み係数c(f)とから、式(20−3)によって重み付き平均を算出し、算出した当該重み付き平均を物理特徴量代表値Xとして音像幅推定値算出手段10に出力する(ステップS58)。
Sound image width estimating apparatus 100A, by IACC average representative value calculating unit 31A, a frequency band specific physical feature quantity x a (f) input from the IACC average calculating unit 27 f at step S57, the the weight coefficient storage unit 15 in step S50 From the stored weight coefficient c a (f), a weighted average is calculated by the equation (20-1), and the calculated weighted average is used as a physical feature amount representative value X a to calculate a sound image width estimated value. 10 (step S58).
Sound image width estimator 100A, in parallel, by ITD standard deviation representative value calculating unit 32A, ITD and standard deviation calculating means each frequency band inputted from the 28 f physical feature amount x t (f) in step S57, the in step S50 A weighted average is calculated from the weighting coefficient c t (f) stored in the weighting coefficient storage means 15 by the equation (20-2), and the calculated weighted average is used as the physical feature quantity representative value X t. It outputs to the sound image width estimated value calculation means 10 (step S58).
Sound image width estimator 100A further in parallel, by ILD standard deviation representative value calculating unit 30A, an ILD standard deviation calculation means 26 frequency bands specific physical feature quantity input from the f x l (f) in step S50, step S50 Then, the weighted average is calculated from the weight coefficient c l (f) stored in the weight coefficient storage means 15 by the equation (20-3), and the calculated weighted average is used as the physical feature quantity representative value X l. Is output to the sound image width estimated value calculating means 10 (step S58).

音像幅推定装置100Aは、音像幅推定値算出手段10によって、ステップS58でIACC平均代表値算出手段31A、ITD標準偏差代表値算出手段32A及びILD標準偏差代表値算出手段30Aから入力した物理特徴量代表値X、X及びXと、ステップS51で推定値重み係数算出手段12によって重み係数記憶手段11に記憶しておいた重み係数C、C及びCとから、式(12)によって音像幅推定値(ハットy)を算出して表示手段14に出力する(ステップS59)。 The sound image width estimation apparatus 100A receives the physical feature amount input from the IACC average representative value calculation means 31A, the ITD standard deviation representative value calculation means 32A, and the ILD standard deviation representative value calculation means 30A in step S58 by the sound image width estimation value calculation means 10. From the representative values X a , X t and X l and the weight coefficients C a , C t and C l stored in the weight coefficient storage means 11 by the estimated value weight coefficient calculation means 12 in step S51, the equation (12 ) To calculate the estimated sound image width (hat y) and output it to the display means 14 (step S59).

音像幅推定装置100Aは、表示手段14によって、ステップS59で音像幅推定値算出手段10から入力した音像幅推定値(ハットy)を視認可能に表示する(ステップS60)。
以上の処理によって、音像幅推定装置100Aは、音像幅を推定することができる。
The sound image width estimation apparatus 100A displays the sound image width estimated value (hat y) input from the sound image width estimated value calculating means 10 in step S59 so as to be visible on the display means 14 (step S60).
With the above processing, the sound image width estimation apparatus 100A can estimate the sound image width.

次に、図9を参照(適宜図6及び図7参照)して、図8に示した物理特徴量代表値算出用の重み係数算出処理ステップ(ステップS50)における音像幅推定装置100Aの動作について説明する。
図9に示すように、音像幅推定装置100Aは、まず、予め実施した主観評価によって得られた主観評価データyを不図示の入力手段によって入力し、主観評価データ記憶手段13Aに記憶する(ステップS70)。
Next, referring to FIG. 9 (refer to FIG. 6 and FIG. 7 as appropriate), the operation of the sound image width estimation apparatus 100A in the physical coefficient representative value calculation weight coefficient calculation processing step (step S50) shown in FIG. explain.
As shown in FIG. 9, the sound image width estimation apparatus 100A first inputs subjective evaluation data y i obtained by subjective evaluation performed in advance by input means (not shown) and stores it in the subjective evaluation data storage means 13A ( Step S70).

次に、音像幅推定装置100Aは、マイクロフォン2L及び2Rによって、ステップS70で入力した主観評価データyに対応する音響信号をバイノーラル方式で採取し、採取したアナログ音響信号を、ローパスフィルタ3L及び3Rを介しAD変換器4L及び4Rによって、デジタル信号に変換した音響信号sl(n)及びsr(n)として、メモリ6L及び6Rに記憶する(ステップS71)。 Next, the sound image width estimation apparatus 100A collects the acoustic signal corresponding to the subjective evaluation data y i input in step S70 by the binaural method using the microphones 2L and 2R, and uses the collected analog acoustic signal as the low-pass filters 3L and 3R. Are stored in the memories 6L and 6R as acoustic signals sl (n) and sr (n) converted into digital signals by the AD converters 4L and 4R (step S71).

ステップS72〜ステップS76までの処理は、それぞれ図8に示した処理におけるステップS53〜ステップS57までの処理と同様であるから説明は省略する。
なお、音像幅推定装置100Aは、ステップS70で入力した主観評価データyの個数Sに対応して、ステップS71〜ステップS76の処理を繰り返し、代表値重み係数算出手段16に、S組の主観評価データyと周波数帯域別物理特徴量x(f)、x(f)及びx(f)とからなるデータを蓄積する。
The processing from step S72 to step S76 is the same as the processing from step S53 to step S57 in the processing shown in FIG.
Note that the sound image width estimation apparatus 100A repeats the processing of steps S71 to S76 corresponding to the number S of subjective evaluation data y i input in step S70, and causes the representative value weight coefficient calculation means 16 to receive S sets of subjectives. Data consisting of evaluation data y i and physical characteristics by frequency band x a (f), x t (f) and x l (f) is stored.

音像幅推定装置100Aは、代表値重み係数算出手段16によって、ステップS76でIACC平均代表値算出手段31A、ITD標準偏差代表値算出手段32A及びILD標準偏差代表値算出手段30Aから入力した周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)と、ステップS70で不図示の入力手段から入力して主観評価データ記憶手段13Aに記憶しておいた主観評価データyとからなるS組のデータを用いて、最小二乗法によって重み係数c(f)、c(f)及びc(f)を算出して(ステップS78)、算出した重み係数c(f)、c(f)及びc(f)を重み係数記憶手段15に記憶する(ステップS79)。
以上で、音像幅推定装置100Aは、物理特徴量代表値算出用の重み係数算出処理を終了する。
The sound image width estimation apparatus 100A uses the representative value weighting coefficient calculation unit 16 for each frequency band input from the IACC average representative value calculation unit 31A, the ITD standard deviation representative value calculation unit 32A, and the ILD standard deviation representative value calculation unit 30A in step S76. The physical feature values x ai (f), x ti (f), and x li (f) and the subjective evaluation data y input from the input unit (not shown) and stored in the subjective evaluation data storage unit 13A in step S70. Using the S sets of data consisting of i , weight coefficients c a (f), c t (f) and c l (f) are calculated by the method of least squares (step S78), and the calculated weight coefficient c a (F), c t (f) and c l (f) are stored in the weight coefficient storage means 15 (step S79).
Thus, the sound image width estimation apparatus 100A ends the weighting coefficient calculation process for calculating the physical feature quantity representative value.

[第3実施形態]
次に、図10を参照して、本発明における第3実施形態の音像幅推定装置100Bについて説明する。
図10に示すように、第3実施形態の音像幅推定装置100Bは、図1に示した第1実施形態の音像幅推定装置100とは、演算手段5に替えて演算手段5Bを備えたことが異なる。詳細には、第3実施形態の音像幅推定装置100Bは、図1に示した第1実施形態の音像幅推定装置100とは、物理特徴量代表値算出手段9を備えていないことと、音像幅推定値算出手段10、重み係数記憶手段11及び主観評価データ記憶手段13に替えて、それぞれ音像幅推定値算出手段10B、重み係数記憶手段11B及び主観評価データ記憶手段13Bを備えたことと、が異なる。
[Third Embodiment]
Next, a sound image width estimation apparatus 100B according to a third embodiment of the present invention will be described with reference to FIG.
As shown in FIG. 10, the sound image width estimation apparatus 100 </ b> B according to the third embodiment is different from the sound image width estimation apparatus 100 according to the first embodiment shown in FIG. Is different. Specifically, the sound image width estimation apparatus 100B according to the third embodiment is different from the sound image width estimation apparatus 100 according to the first embodiment shown in FIG. In place of the estimated width value calculation means 10, the weight coefficient storage means 11 and the subjective evaluation data storage means 13, a sound image width estimation value calculation means 10B, a weight coefficient storage means 11B and a subjective evaluation data storage means 13B are provided. Is different.

第1実施形態における音像幅推定値算出手段10は、物理特徴量代表値算出手段9によって算出した物理特徴量代表値X、X及びXを用いた推定モデル式によって音像幅推定値(ハットy)を算出するのに対して、第3実施形態における音像幅推定値算出手段10Bは、周波数帯域別物理特徴量算出手段8によって算出した個々の周波数帯域別物理特徴量x(f)、x(f)及びx(f)を物理特徴量として扱い、これらの周波数帯域別物理特徴量x(f)、x(f)及びx(f)を用いた推定モデル式によって音像幅推定値(ハットy)を算出するものである。
なお、図1に示した第1実施形態と同じ構成要素については、同じ符号を付して、説明は適宜省略する。
The sound image width estimated value calculating means 10 in the first embodiment is a sound image width estimated value (in accordance with an estimation model formula using physical feature quantity representative values X a , X t and X l calculated by the physical feature quantity representative value calculating means 9. In contrast to calculating the hat y), the sound image width estimated value calculating means 10B in the third embodiment is the physical feature quantity x a (f) for each frequency band calculated by the physical feature quantity calculating means 8 f for each frequency band. ), X t (f) and x l (f) are treated as physical feature quantities, and an estimation model using these frequency band physical feature quantities x a (f), x t (f) and x l (f) The estimated sound image width (hat y) is calculated by the equation.
The same constituent elements as those in the first embodiment shown in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.

第3実施形態における音像幅推定値算出手段10Bは、周波数帯域別物理特徴量算出手段8のIACC平均算出手段27、ITD標準偏差算出手段28及びILD標準偏差算出手段26(図2参照)から、それぞれ周波数帯域別の両耳間相互相関度の時間軸方向の平均である周波数帯域別物理特徴量x(f)、周波数帯域別の両耳間時間差の時間軸方向の標準偏差である周波数帯域別物理特徴量x(f)及び周波数帯域別の両耳間レベル差の時間軸方向の標準偏差である周波数帯域別物理特徴量x(f)を入力するとともに、重み係数記憶手段11Bから重み係数c(f)、c(f)及びc(f)を読み出し、式(24)に示した推定モデル式によって音像幅推定値(ハットy)を算出する。音像幅推定値算出手段10Bは、算出した音像幅推定値(ハットy)を表示手段14に出力する。 Sound width estimation value calculation means in the third embodiment 10B includes, IACC average calculating unit 27 f of the frequency band specific physical feature calculating unit 8 f, ITD standard deviation calculating means 28 f and ILD standard deviation calculation unit 26 f (FIG. 2 ), The physical feature amount by frequency band x a (f), which is the average of the interaural cross-correlation for each frequency band in the time axis direction, and the standard deviation in the time axis of the interaural time difference by frequency band inputs the frequency band specific physical feature amount x t (f) and the standard deviation of the time axis direction of the level difference between each frequency band of the binaural frequency band specific physical feature quantity x l (f) is the weighting factor The weight coefficients c a (f), c t (f), and c l (f) are read from the storage unit 11B, and the estimated sound image width (hat y) is calculated by the estimation model formula shown in the formula (24). The sound image width estimated value calculation means 10B outputs the calculated sound image width estimated value (hat y) to the display means 14.

Figure 0005033156
Figure 0005033156

なお、推定モデル式は、式(24)に限定されるものではなく、例えば、式(25)のように周波数帯域別物理特徴量x(f)、x(f)及びx(f)によって表される他の推定モデル式を用いるようにしてもよい。 Note that the estimation model formula is not limited to the formula (24). For example, as shown in the formula (25), the physical feature amounts x a (f), x t (f), and x l (f) for each frequency band. Other estimation model formulas represented by) may be used.

Figure 0005033156
Figure 0005033156

重み係数記憶手段11Bは、推定値重み係数算出手段12Bによって算出した式(24)に示した推定モデル式の重み係数c(f)、c(f)及びc(f)を記憶する記憶手段である。重み係数記憶手段11Bに記憶した重み係数c(f)、c(f)及びc(f)は、音像幅の推定を行う際に、音像幅推定値算出手段10Bによって読み出され、音像幅推定値(ハットy)の算出に用いられる。 The weighting factor storage unit 11B stores the weighting factors c a (f), c t (f), and c l (f) of the estimation model formula shown in the formula (24) calculated by the estimated value weighting factor calculation unit 12B. It is a storage means. The weight coefficients c a (f), c t (f), and c l (f) stored in the weight coefficient storage unit 11B are read out by the sound image width estimated value calculation unit 10B when the sound image width is estimated. This is used to calculate the estimated sound image width (hat y).

推定値重み係数算出手段12Bは、主観評価データ記憶手段13Bから主観評価データyを読み出すとともに、周波数帯域別物理特徴量算出手段8のIACC平均算出手段27、ITD標準偏差算出手段28及びILD標準偏差算出手段26(図2参照)からそれぞれ当該主観評価データyに対応する3種類の周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)を入力し、入力した主観評価データyと周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)とからなる複数組のデータを用いて、式(24)に示した音像幅の推定モデル式の重み係数c(f)、c(f)及びc(f)として回帰分析の手法である最小二乗法によって算出する。そして、重み係数算出手段12Bは、算出した重み係数c(f)、c(f)及びc(f)を重み係数記憶手段11Bに記憶する。なお、iは、個々の主観評価データを識別する番号である。 The estimated value weighting coefficient calculation means 12B reads the subjective evaluation data y i from the subjective evaluation data storage means 13B, and at the same time, the IACC average calculation means 27 f and the ITD standard deviation calculation means 28 f of the physical characteristic amount calculation means 8 f by frequency band. And ILD standard deviation calculation means 26 f (see FIG. 2), three types of frequency feature physical characteristics x ai (f), x ti (f) and x li (f) corresponding to the subjective evaluation data y i , respectively. And a plurality of sets of data consisting of the input subjective evaluation data y i and frequency band physical feature quantities x ai (f), x ti (f), and x li (f), The weight coefficients c a (f), c t (f), and c l (f) of the estimation model formula of the sound image width shown in FIG. 6 are calculated by the least square method that is a regression analysis method. Then, the weighting factor calculation unit 12B stores the calculated weighting factors c a (f), c t (f), and c l (f) in the weighting factor storage unit 11B. Note that i is a number for identifying individual subjective evaluation data.

ここで、主観評価データyに対応する周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)とは、当該主観評価データyを得たときの被験者と同じ音場条件で、ダミーヘッド1に取り付けられたマイクロフォン2L及び2Rを用いて音響信号を採取し、前記した各分析手段を用いて最終的にIACC平均算出手段27、ITD標準偏差算出手段28及びILD標準偏差算出手段26(図2参照)から出力される周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)のことである。
なお、重み係数c(f)、c(f)及びc(f)の算出手法は、前記した第1実施形態における重み係数C、C及びCの算出手法と同様であるので、説明は省略する。
Here, the subjective evaluation data y i in the corresponding frequency band specific physical feature quantity x ai (f), and x ti (f) and x li (f) includes the subject of when to obtain the subjective evaluation data y i Under the same sound field conditions, acoustic signals are collected using the microphones 2L and 2R attached to the dummy head 1, and finally the IACC average calculating means 27 f and the ITD standard deviation calculating means 28 are used using the above-described analyzing means. f and ILD standard deviation calculating means 26 f (refer to FIG. 2) are physical features x ai (f), x ti (f) and x li (f) for each frequency band output from the frequency band.
The calculation method of the weighting factors c a (f), c t (f), and c l (f) is the same as the calculation method of the weighting factors C a , C t, and C l in the first embodiment described above. Therefore, explanation is omitted.

第3実施形態における推定値重み係数算出手段12Bは、第1実施形態における推定値重み係数算出手段12と同様の手法で、式(24)に示した推定モデル式の重み係数c(f)、c(f)及びc(f)を算出し、算出した重み係数c(f)、c(f)及びc(f)を重み係数記憶手段11Bに記憶する。 The estimated value weight coefficient calculating means 12B in the third embodiment is the same method as the estimated value weight coefficient calculating means 12 in the first embodiment, and the weight coefficient c a (f) of the estimated model equation shown in Expression (24). , C t (f) and c l (f) are calculated, and the calculated weight coefficients c a (f), c t (f) and c l (f) are stored in the weight coefficient storage unit 11B.

主観評価データ記憶手段13Bは、推定値重み係数算出手段12Bによって音像幅推定値(ハットy)を算出するための重み係数c(f)、c(f)及びc(f)を算出する際に用いられる主観評価データyを記憶する。主観評価データyは、不図示の入力手段によって入力され、主観評価データ記憶手段13Bに記憶される。 The subjective evaluation data storage unit 13B calculates weight coefficients c a (f), c t (f), and c l (f) for calculating the sound image width estimated value (hat y) by the estimated value weight coefficient calculating unit 12B. Subjective evaluation data y i used in the process is stored. The subjective evaluation data y i is input by an input unit (not shown) and stored in the subjective evaluation data storage unit 13B.

次に、図11を参照(適宜図10参照)して、第3実施形態の音像幅推定装置100Bの動作について説明する。
図11に示すように、音像幅推定装置100Bは、まず、推定値重み係数算出手段12Bによって、式(24)に示した音像幅推定値(ハットy)の推定モデル式の重み係数c(f)、c(f)及びc(f)を算出して、重み係数記憶手段11Bに記憶しておく(ステップS90)。既に重み係数c(f)、c(f)及びc(f)が重み係数記憶手段11Bに記憶されている場合は、この推定モデル式の重み係数算出処理ステップは省略することができる。なお、推定モデル式の重み係数算出処理ステップは、図3に示した第1実施形態における推定モデル式の重み係数算出処理ステップとは、説明変数として物理特徴量代表値X、X及びXに替えて周波数帯域別物理特徴量x(f)、x(f)及びx(f)を用い、重み係数C、C及びCに替えて重み係数c(f)、c(f)及びc(f)を算出すること以外は、同様であるので、詳細な説明は省略する。
Next, referring to FIG. 11 (refer to FIG. 10 as appropriate), the operation of the sound image width estimation apparatus 100B of the third embodiment will be described.
As shown in FIG. 11, the sound image width estimation apparatus 100B first uses the estimated value weighting coefficient calculation unit 12B to calculate the weighting coefficient c a of the estimated model formula of the sound image width estimated value (hat y) shown in Expression (24). f), c t (f) and c l (f) are calculated and stored in the weight coefficient storage means 11B (step S90). When the weighting factors c a (f), c t (f), and c l (f) are already stored in the weighting factor storage unit 11B, the weighting factor calculation processing step of this estimation model formula can be omitted. . The weighting factor calculation processing step of the estimation model formula is different from the weighting factor calculation processing step of the estimation model formula in the first embodiment shown in FIG. 3 as the physical feature quantity representative values X a , X t and X Instead of l , the physical characteristics by frequency band x a (f), x t (f) and x l (f) are used instead of l , and weight coefficients c a (f) are substituted for the weight coefficients C a , C t and C l. , C t (f) and c l (f) are the same except that they are calculated, and thus detailed description thereof is omitted.

ステップS91〜ステップS96の処理は、それぞれ図3に示した第1実施形態の音像幅推定装置100の処理におけるステップS11〜ステップS16と同様であるので、説明は省略する。   The processing in steps S91 to S96 is the same as that in steps S11 to S16 in the processing of the sound image width estimation apparatus 100 of the first embodiment shown in FIG.

音像幅推定装置100Bは、音像幅推定値算出手段10Bによって、ステップS96で周波数帯域別物理特徴量算出手段8のIACC平均算出手段27、ITD標準偏差算出手段28及びILD標準偏差算出手段26(図2参照)からそれぞれ入力した周波数帯域別物理特徴量x(f)、x(f)及びx(f)と、ステップS90で重み係数記憶手段11Bに記憶しておいた重み係数c(f)、c(f)及びc(f)とから、式(24)によって音像幅推定値(ハットy)を算出し、算出した音像幅推定値(ハットy)を表示手段14に出力する(ステップS97)。 The sound image width estimation device 100B uses the sound image width estimation value calculation means 10B to perform the IACC average calculation means 27 f , the ITD standard deviation calculation means 28 f and the ILD standard deviation calculation means of the frequency band physical feature value calculation means 8 f in step S96. 26 f (refer to FIG. 2), the physical features x a (f), x t (f) and x l (f) for each frequency band respectively input from 26 f (see FIG. 2) and stored in the weight coefficient storage means 11B in step S90. A sound image width estimated value (hat y) is calculated from the weighting coefficients c a (f), c t (f), and c l (f) by the equation (24), and the calculated sound image width estimated value (hat y) is calculated. It outputs to the display means 14 (step S97).

音像幅推定装置100Bは、表示手段14によって、ステップS97で音像幅推定値算出手段10Bから入力した音像幅推定値(ハットy)を視認可能に表示する(ステップS98)。
以上の処理によって、音像幅推定装置100Bは、音像幅を推定することができる。
The sound image width estimation device 100B displays the sound image width estimation value (hat y) input from the sound image width estimation value calculation unit 10B in step S97 so as to be visible on the display unit 14 (step S98).
With the above processing, the sound image width estimation apparatus 100B can estimate the sound image width.

次に、本発明の実施例について説明する。
図1及び図2に示した音像幅推定装置100において、音源SSとして、バイオリンの各開放弦による連続音を録音して用いた。主観評価は、図12に示すような実験装置110を用いて、被験者SUBを中心とした被験者SUBの前方側の半円SC上に適宜スピーカSS〜SSを配置して、録音しておいたバイオリンの連続音を再生して行った。このとき、音源であるスピーカSS〜SSの配置個数及び被験者SUBを中心とするスピーカSS〜SSの配置角度θSSを調整することにより、被験者SUBが様々な音像幅を知覚できるように制御した。
音像幅の主観評価値は、被験者SUBの頭部の中心を視点とする水平方向の角度θに変換した。
Next, examples of the present invention will be described.
In the sound image width estimation apparatus 100 shown in FIG. 1 and FIG. 2, a continuous sound by each open string of a violin is recorded and used as the sound source SS. Subjective evaluation is performed by using the experimental apparatus 110 shown in FIG. 12 and appropriately recording speakers SS 1 to SS 3 on the semicircle SC on the front side of the subject SUB centered on the subject SUB. It was performed by playing the continuous sound of the violin. At this time, the subject SUB can perceive various sound image widths by adjusting the arrangement number of the speakers SS 1 to SS 3 as the sound source and the arrangement angle θ SS of the speakers SS 1 to SS 3 around the subject SUB. Controlled.
The subjective evaluation value of the sound image width was converted into a horizontal angle θ with the center of the head of the subject SUB as the viewpoint.

次に、前記した主観評価と同じ音場条件で、被験者SUBが評価したときと同じ位置にダミーヘッド1を配置し、マイクロフォン2L及び2Rを用いてバイノーラル方式で音響信号を採取した。採取した音響信号に対して、図1及び図2に示した音像幅推定装置100を用いて、音像幅の推定値(ハットy)を算出した。このとき、下限周波数を150Hz、上限周波数を12kHzとする1/24オクターブフィルタによって構成されるフィルタバンク7L及び7Rを用いて周波数帯域の分割を行った。   Next, the dummy head 1 was placed at the same position as when the subject SUB evaluated under the same sound field conditions as in the subjective evaluation described above, and acoustic signals were collected using the binaural method using the microphones 2L and 2R. An estimated value (hat y) of the sound image width was calculated for the collected acoustic signal using the sound image width estimation apparatus 100 shown in FIGS. 1 and 2. At this time, the frequency band was divided using filter banks 7L and 7R constituted by 1/24 octave filters having a lower limit frequency of 150 Hz and an upper limit frequency of 12 kHz.

本実施例においては、20種類の音刺激に対する主観評価を行った。その結果を図13に示す。図13においては、横軸に音像幅の推定値(ハットy)、縦軸に音像幅の主観評価値をとり、結果を示した。図13に示すように、本発明によって、従来技術による手法に比べて良好に音像幅の推定を行うことができる。
なお、本実施例では、音像幅の推定モデル式として、物理特徴量の線形関数を用いたが、これに限定されるものではなく、物理特徴量の二次関数、べき関数、指数関数などを用いるようにすることもできる。
In this example, subjective evaluation was performed on 20 types of sound stimuli. The result is shown in FIG. In FIG. 13, the horizontal axis represents the estimated value of the sound image width (hat y), and the vertical axis represents the subjective evaluation value of the sound image width, and the results are shown. As shown in FIG. 13, according to the present invention, it is possible to estimate the sound image width better than the conventional technique.
In the present embodiment, the linear function of the physical feature amount is used as the estimation model formula of the sound image width, but is not limited to this, and a quadratic function, a power function, an exponential function, etc. of the physical feature amount are used. It can also be used.

1 ダミーヘッド
2L、2R マイクロフォン
3L、3R ローパスフィルタ
4L、4R AD変換器
5、5A、5B 演算手段
6L、6R メモリ
7L、7R フィルタバンク(周波数帯域分割手段)
周波数帯域別物理特徴量算出手段(周波数帯域別特徴量算出手段)
9、9A 物理特徴量代表値算出手段(物理特徴量算出手段)
10、10B 音像幅推定値算出手段(推定値算出手段)
11、11B 重み係数記憶手段
12、12B 推定値重み係数算出手段(重み係数算出手段)
13、13A、13B 主観評価データ記憶手段
14 表示手段
15 重み係数記憶手段
16 代表値重み係数算出手段
20L、20R 窓掛け手段
21 CCC算出手段
22L、22R レベル算出手段
23 IACC算出手段
24 ITD算出手段
25 ILD算出手段
26 ILD標準偏差算出手段
27 IACC平均算出手段
28 ITD標準偏差算出手段
30、30A ILD標準偏差代表値算出手段
31、31A IACC平均代表値算出手段
32、32A ITD標準偏差代表値算出手段
100、100A、100B 音像幅推定装置
SS、SS〜SS 音源
SUB 被験者
DESCRIPTION OF SYMBOLS 1 Dummy head 2L, 2R Microphone 3L, 3R Low pass filter 4L, 4R AD converter 5, 5A, 5B Calculation means 6L, 6R Memory 7L, 7R Filter bank (frequency band division means)
8 f frequency band specific physical feature calculating unit (frequency band feature quantity calculating means)
9, 9A Physical feature quantity representative value calculation means (physical feature quantity calculation means)
10, 10B Sound image width estimated value calculating means (estimated value calculating means)
11, 11B Weight coefficient storage means 12, 12B Estimated value weight coefficient calculation means (weight coefficient calculation means)
13, 13A, 13B Subjective evaluation data storage means 14 Display means 15 Weight coefficient storage means 16 Representative value weight coefficient calculation means 20L f , 20R f Windowing means 21 f CCC calculation means 22L f , 22R f level calculation means 23 f IACC calculation Means 24 f ITD calculating means 25 f ILD calculating means 26 f ILD standard deviation calculating means 27 f IACC average calculating means 28 f ITD standard deviation calculating means 30, 30A ILD standard deviation representative value calculating means 31, 31A IACC average representative value calculating means 32, 32A ITD standard deviation representative value calculation means 100, 100A, 100B Sound image width estimation device SS, SS 1 to SS 3 sound source SUB subject

Claims (7)

左右に2チャンネルからなるデジタル音響信号から物理特徴量を算出し、算出した前記物理特徴量を、前記物理特徴量と重み係数とからなる音像幅の推定モデル式に適用して前記音像幅を推定する音像幅推定装置であって、
前記左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、周波数帯域幅が1/6オクターブ以下の複数の周波数帯域のサブバンド信号に分割する周波数帯域分割手段と、
前記周波数帯域分割手段によって分割したサブバンド信号から、前記サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つを前記サブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する周波数帯域別特徴量算出手段と、
前記周波数帯域別特徴量算出手段によって算出した周波数帯域別特徴量に基づいて前記物理特徴量を算出する物理特徴量算出手段と、
前記物理特徴量算出手段によって算出した物理特徴量を、前記推定モデル式に適用して前記音像幅の推定値を算出する推定値算出手段と、
を備えたことを特徴とする音像幅推定装置。
A physical feature amount is calculated from a digital acoustic signal having two channels on the left and right, and the calculated sound feature width is applied to a model image estimation model of the sound image width including the physical feature amount and a weight coefficient. A sound image width estimating device for
Frequency band dividing means for dividing the digital audio signal consisting of two left and right channels into a plurality of frequency band subband signals having a frequency bandwidth of 1/6 octave or less for each of the left and right channel audio signals;
From the subband signals divided by the frequency band dividing means, the interaural cross-correlation, the standard deviation in the time axis direction of the binaural time difference, or the standard in the time axis direction of the binaural level difference for each subband signal. A frequency band feature quantity calculating means for calculating a frequency band feature quantity which is a feature quantity by frequency band representing a difference between the left and right channels of the subband signal as at least one of the deviations;
Physical feature quantity calculating means for calculating the physical feature quantity based on the frequency band feature quantity calculated by the frequency band feature quantity calculating means;
An estimated value calculating means for calculating the estimated value of the sound image width by applying the physical feature value calculated by the physical feature value calculating means to the estimated model equation;
A sound image width estimation apparatus comprising:
前記物理特徴量算出手段は、前記周波数帯域別特徴量算出手段によって算出したサブバンド信号ごとの周波数帯域別特徴量の平均、重み付き平均、最大値又は中央値の中の何れか一つを、前記物理特徴量として算出することを特徴とする請求項1に記載の音像幅推定装置。   The physical feature quantity calculating means calculates any one of the average, weighted average, maximum value, or median of the feature quantity by frequency band for each subband signal calculated by the feature quantity calculation means by frequency band, The sound image width estimation device according to claim 1, wherein the sound image width estimation device calculates the physical feature amount. 左右に2チャンネルからなるデジタル音響信号から物理特徴量を算出し、算出した前記物理特徴量を、前記物理特徴量と重み係数とからなる音像幅の推定モデル式に適用して前記音像幅を推定する音像幅推定装置であって、
前記左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、周波数帯域幅が1/6オクターブ以下の複数の周波数帯域のサブバンド信号に分割する周波数帯域分割手段と、
前記周波数帯域分割手段によって分割したサブバンド信号から、前記サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つを前記サブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する周波数帯域別特徴量算出手段と、
前記周波数帯域別特徴量算出手段によって算出した個々の周波数帯域別特徴量を前記物理特徴量として、前記推定モデル式に適用して前記音像幅の推定値を算出する推定値算出手段と、
を備えたことを特徴とする音像幅推定装置。
A physical feature amount is calculated from a digital acoustic signal having two channels on the left and right, and the calculated sound feature width is applied to a model image estimation model of the sound image width including the physical feature amount and a weight coefficient. A sound image width estimating device for
Frequency band dividing means for dividing the digital audio signal consisting of two left and right channels into a plurality of frequency band subband signals having a frequency bandwidth of 1/6 octave or less for each of the left and right channel audio signals;
From the subband signals divided by the frequency band dividing means, the interaural cross-correlation, the standard deviation in the time axis direction of the binaural time difference, or the standard in the time axis direction of the binaural level difference for each subband signal. A frequency band feature quantity calculating means for calculating a frequency band feature quantity which is a feature quantity by frequency band representing a difference between the left and right channels of the subband signal as at least one of the deviations;
Estimated value calculating means for calculating the estimated value of the sound image width by applying the individual characteristic values for each frequency band calculated by the frequency band characteristic amount calculating means to the estimation model formula as the physical feature quantities;
A sound image width estimation apparatus comprising:
前記周波数帯域分割手段は、周波数帯域幅が1/12オクターブ以下のサブバンド信号に分割することを特徴とする請求項1乃至請求項3に記載の音像幅推定装置。   4. The sound image width estimation apparatus according to claim 1, wherein the frequency band dividing unit divides the frequency band into subband signals having a frequency bandwidth of 1/12 octave or less. 更に、前記推定モデル式における前記重み係数を算出する重み係数算出手段を備え、前記重み係数算出手段は、前記物理特徴量を説明変数とし、前記音像幅を目的変数とする回帰分析によって前記重み係数を算出することを特徴とする請求項1乃至請求項4の何れか一項に記載の音像幅推定装置。   Furthermore, the weighting factor calculating means for calculating the weighting factor in the estimation model formula is provided, and the weighting factor calculating means uses the physical feature amount as an explanatory variable and the weighting factor by regression analysis using the sound image width as a target variable. The sound image width estimation device according to any one of claims 1 to 4, wherein the sound image width estimation device is calculated. 左右に2チャンネルからなるデジタル音響信号から物理特徴量を算出し、算出した前記物理特徴量を、前記物理特徴量と重み係数とからなる音像幅の推定モデル式に適用して前記音像幅を推定するために、コンピュータを、
前記左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、予め定められた複数の周波数帯域のサブバンド信号に分割する周波数帯域分割手段、
前記周波数帯域分割手段によって分割したサブバンド信号から、前記サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つを前記サブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する周波数帯域別特徴量算出手段、
前記周波数帯域別特徴量算出手段によって算出した周波数帯域別特徴量に基づいて前記物理特徴量を算出する物理特徴量算出手段、
前記物理特徴量算出手段によって算出した物理特徴量を、前記推定モデル式に適用して前記音像幅の推定値を算出する推定値算出手段、
として機能させることを特徴とする音像幅推定プログラム。
A physical feature amount is calculated from a digital acoustic signal having two channels on the left and right, and the calculated sound feature width is applied to a model image estimation model of the sound image width including the physical feature amount and a weight coefficient. Computer to
Frequency band dividing means for dividing the digital audio signal consisting of two channels on the left and right into subband signals of a plurality of predetermined frequency bands for each of the left and right channel audio signals;
From the subband signals divided by the frequency band dividing means, the interaural cross-correlation, the standard deviation in the time axis direction of the binaural time difference, or the standard in the time axis direction of the binaural level difference for each subband signal. Frequency band feature quantity calculating means for calculating a frequency band feature quantity which is a feature quantity by frequency band representing a difference between the left and right channels of the subband signal as at least one of the deviations;
Physical feature quantity calculating means for calculating the physical feature quantity based on the frequency band feature quantity calculated by the frequency band feature quantity calculating means;
An estimated value calculating means for calculating the estimated value of the sound image width by applying the physical feature value calculated by the physical feature value calculating means to the estimated model equation;
A sound image width estimation program that functions as a computer program.
左右に2チャンネルからなるデジタル音響信号から物理特徴量を算出し、算出した前記物理特徴量を、前記物理特徴量と重み係数とからなる音像幅の推定モデル式に適用して前記音像幅を推定するために、コンピュータを、
前記左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、予め定められた複数の周波数帯域のサブバンド信号に分割する周波数帯域分割手段、
前記周波数帯域分割手段によって分割したサブバンド信号から、前記サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つを前記サブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する周波数帯域別特徴量算出手段、
前記周波数帯域別特徴量算出手段によって算出した個々の周波数帯域別特徴量を前記物理特徴量として、前記推定モデル式に適用して前記音像幅の推定値を算出する推定値算出手段、
として機能させることを特徴とする音像幅推定プログラム。
A physical feature amount is calculated from a digital acoustic signal having two channels on the left and right, and the calculated sound feature width is applied to a model image estimation model of the sound image width including the physical feature amount and a weight coefficient. Computer to
Frequency band dividing means for dividing the digital audio signal consisting of two channels on the left and right into subband signals of a plurality of predetermined frequency bands for each of the left and right channel audio signals;
From the subband signals divided by the frequency band dividing means, the interaural cross-correlation, the standard deviation in the time axis direction of the binaural time difference, or the standard in the time axis direction of the binaural level difference for each subband signal. Frequency band feature quantity calculating means for calculating a frequency band feature quantity which is a feature quantity by frequency band representing a difference between the left and right channels of the subband signal as at least one of the deviations;
Estimated value calculating means for calculating the estimated value of the sound image width by applying each frequency band-specific feature value calculated by the frequency band-specific feature value calculating means to the estimated model equation as the physical feature value;
A sound image width estimation program that functions as a computer program.
JP2009048814A 2009-03-03 2009-03-03 Sound image width estimation apparatus and sound image width estimation program Expired - Fee Related JP5033156B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009048814A JP5033156B2 (en) 2009-03-03 2009-03-03 Sound image width estimation apparatus and sound image width estimation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009048814A JP5033156B2 (en) 2009-03-03 2009-03-03 Sound image width estimation apparatus and sound image width estimation program

Publications (2)

Publication Number Publication Date
JP2010204325A JP2010204325A (en) 2010-09-16
JP5033156B2 true JP5033156B2 (en) 2012-09-26

Family

ID=42965881

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009048814A Expired - Fee Related JP5033156B2 (en) 2009-03-03 2009-03-03 Sound image width estimation apparatus and sound image width estimation program

Country Status (1)

Country Link
JP (1) JP5033156B2 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2561822B2 (en) * 1986-09-25 1996-12-11 クラリオン株式会社 FM stereo receiver
JPH0787600A (en) * 1993-09-17 1995-03-31 Casio Comput Co Ltd Sound image localization controller
JP3584287B2 (en) * 2001-08-09 2004-11-04 国立大学法人神戸大学 Sound evaluation method and system
JP4940671B2 (en) * 2006-01-26 2012-05-30 ソニー株式会社 Audio signal processing apparatus, audio signal processing method, and audio signal processing program

Also Published As

Publication number Publication date
JP2010204325A (en) 2010-09-16

Similar Documents

Publication Publication Date Title
EP0762804B1 (en) Three-dimensional acoustic processor which uses linear predictive coefficients
ES2892773T3 (en) Audio processor for generating a reverberated signal from a direct signal and method therefor
JP5693201B2 (en) Method and apparatus for reproducing propagation sound from specified area
JP4496186B2 (en) Sound source separation device, sound source separation program, and sound source separation method
Wan et al. Application of an extended equalization-cancellation model to speech intelligibility with spatially distributed maskers
Ryu et al. Subjective and objective evaluations of a scattered sound field in a scale model opera house
van Dorp Schuitman et al. Deriving content-specific measures of room acoustic perception using a binaural, nonlinear auditory model
Lee et al. The effect of loudness on the reverberance of music: Reverberance prediction using loudness models
Ziemer Source width in music production. methods in stereo, ambisonics, and wave field synthesis
Zagala et al. Comparison of direct and indirect perceptual head-related transfer function selection methods
JP4130779B2 (en) Sound field control system and sound field control method
CN112584277B (en) Indoor audio frequency equalizing method
Ward et al. SiSEC 2018: State of the art in musical audio source separation-subjective selection of the best algorithm
JP5033156B2 (en) Sound image width estimation apparatus and sound image width estimation program
Won et al. Simulation of one‘s own voice in a two-parameter model
Inoue et al. Evaluation of HRTFs estimated using physical features
CN109068262B (en) A kind of acoustic image personalization replay method and device based on loudspeaker
Qian et al. The role of spectral modulation cues in virtual sound localization
JP5658483B2 (en) Reality estimation device and program thereof
JP6998823B2 (en) Multi-channel objective evaluation device and program
Osses Vecchi et al. Assessing the perceived reverberation in different rooms for a set of musical instrument sounds
DK176170B1 (en) Method for the objective determination of subjective characteristics of a binaural audio signal
Li et al. Evaluation of headphone phase equalization on sound reproduction
Tenenbaum et al. Virtual reality: A new approach to validate computer modeling auralizations by using articulation indexes
Rychtáriková et al. Laboratory listening tests in building and room acoustics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120629

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees