JP5033156B2 - Sound image width estimation apparatus and sound image width estimation program - Google Patents
Sound image width estimation apparatus and sound image width estimation program Download PDFInfo
- Publication number
- JP5033156B2 JP5033156B2 JP2009048814A JP2009048814A JP5033156B2 JP 5033156 B2 JP5033156 B2 JP 5033156B2 JP 2009048814 A JP2009048814 A JP 2009048814A JP 2009048814 A JP2009048814 A JP 2009048814A JP 5033156 B2 JP5033156 B2 JP 5033156B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency band
- sound image
- image width
- feature quantity
- calculated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
本発明は、左右2チャンネルで採取したデジタル音響信号を分析して得た物理特徴量に基づいて、聴覚特性である音像幅を推定する音像幅推定装置及び音像幅推定プログラムに関する。 The present invention relates to a sound image width estimation device and a sound image width estimation program for estimating a sound image width, which is an auditory characteristic, based on physical feature values obtained by analyzing digital audio signals collected in two left and right channels.
音響が人間に与える心理的効果の大きさは、主観評価によって定量することができる。この主観評価によって得られる心理的効果の大きさを、音響信号を採取・分析して得られた物理特徴量に基づいて客観評価する手法が多く試みられている。
その中で、人間の聴覚特性の一つである音像幅と物理特徴量との関係についても多くの研究が進められている。音響分析の分野では広く知られ、また受け入れられている物理特徴量として、IACC(interaural cross-correlation;両耳間相互相関度)がある。一般的には、IACCが小さくなると、音像幅は広がると考えられており、種々の周波数帯域におけるIACCの分析についての研究が数多くなされている(例えば、非特許文献1参照)。
また、音像幅と、物理特徴量であるITD(interaural time differences;両耳間時間差)及びILD(interaural level differences;両耳間レベル差)の変動との関係について報告されている(非特許文献2及び非特許文献3参照)。
更に、例えば、特許文献1においては、音響信号からIACF(interaural cross-correlation function;両耳間相互相関関数)の最大振幅であるIACCと、この最大振幅の幅WIACCとに基づいて、見かけの音源の幅(ASW)を評価する手法について記載されている(段落0050参照)。
The magnitude of the psychological effect of sound on humans can be quantified by subjective evaluation. Many attempts have been made to objectively evaluate the magnitude of the psychological effect obtained by this subjective evaluation based on physical features obtained by collecting and analyzing acoustic signals.
In this context, many studies have been conducted on the relationship between the sound image width and physical features, which is one of human auditory characteristics. One physical feature that is widely known and accepted in the field of acoustic analysis is IACC (interaural cross-correlation). In general, it is considered that the sound image width increases as IACC decreases, and many studies have been conducted on the analysis of IACC in various frequency bands (see, for example, Non-Patent Document 1).
In addition, a relationship between the sound image width and fluctuations of ITD (interaural time differences) and ILD (interaural level differences), which are physical features, has been reported (Non-patent Document 2). And Non-Patent Document 3).
Further, for example, in
しかしながら、左右2チャンネルで採取した音響信号を分析して得られる物理的特徴量に基づく従来の客観評価手法では、用いる物理特徴量と主観評価値との相関が必ずしも高くなく、任意の音源から発せられる音像幅を精度よく評価することができなかった。 However, in the conventional objective evaluation method based on the physical feature value obtained by analyzing the acoustic signals collected from the left and right channels, the correlation between the physical feature value to be used and the subjective evaluation value is not necessarily high, and it can be generated from any sound source. It was not possible to accurately evaluate the sound image width.
そこで、本発明はかかる課題に鑑みてなされたものであり、本発明の目的は、左右に2チャンネルからなるデジタル音響信号を分析して得られる物理特徴量に基づいて、音像幅を精度よく推定する音像幅推定装置を提供することである。 Accordingly, the present invention has been made in view of such problems, and an object of the present invention is to accurately estimate the sound image width based on physical feature values obtained by analyzing a digital acoustic signal composed of two channels on the left and right. It is to provide a sound image width estimation device.
前記した目的を達成するために、請求項1に記載の音像幅推定装置は、左右に2チャンネルからなるデジタル音響信号から物理特徴量を算出し、算出した物理特徴量を、物理特徴量と重み係数とからなる音像幅の推定モデル式に適用して音像幅を推定する音像幅推定装置であって、周波数帯域分割手段と、周波数帯域別特徴量算出手段と、物理特徴量算出手段と、推定値算出手段と、を備えて構成した。
In order to achieve the above object, the sound image width estimation device according to
かかる構成によれば、音像幅推定装置は、周波数帯域分割手段によって、左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、周波数帯域幅が1/6オクターブ以下の複数の周波数帯域のサブバンド信号に分割する。次に、音像幅推定装置は、周波数帯域別特徴量算出手段によって、周波数帯域分割手段で分割したサブバンド信号から、サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つをサブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する。続いて、音像幅推定装置は、物理特徴量算出手段によって、周波数帯域別特徴量算出手段で算出した周波数帯域別特徴量に基づいて物理特徴量を算出する。そして、音像幅推定装置は、推定値算出手段によって、物理特徴量算出手段で算出した物理特徴量を、推定モデル式に適用して音像幅の推定値を算出する。
これによって、音像幅推定装置は、物理特徴量を用いた音像幅の客観評価を行う。
According to such a configuration, the sound image width estimation device uses a frequency band dividing unit to convert a digital audio signal having two channels on the left and right into a plurality of audio signals having a frequency bandwidth of 1/6 octave or less for each of the left and right channel acoustic signals. Divide into frequency band sub-band signals. Next, the sound image width estimation device uses the inter-aural cross-correlation degree and the inter-aural time difference time axis for each sub-band signal from the sub-band signal divided by the frequency band dividing unit by the frequency-band feature amount calculating unit. At least one of the standard deviation in the direction or the standard deviation in the time axis direction of the binaural level difference is calculated by the frequency band feature quantity representing the difference between the left and right channels of the subband signal. To do. Subsequently, in the sound image width estimation device, the physical feature amount calculating unit calculates the physical feature amount based on the frequency band-specific feature amount calculated by the frequency band-specific feature amount calculating unit. Then, the sound image width estimation device calculates an estimated value of the sound image width by applying the physical feature amount calculated by the physical feature amount calculation unit to the estimation model formula by the estimated value calculation unit.
Thus, the sound image width estimation device performs objective evaluation of the sound image width using the physical feature amount.
請求項2に記載の音像幅推定装置は、請求項1に記載の音像幅推定装置において、物理特徴量算出手段は、周波数帯域別特徴量の平均、重み付き平均、最大値又は中央値の中の何れか一つを、物理特徴量として算出する構成とした。
The sound image width estimation device according to
かかる構成によれば、音像幅推定装置は、物理特徴量算出手段によって、周波数帯域別特徴量算出手段で算出したサブバンド信号ごとの周波数帯域別特徴量の平均、重み付き平均、最大値又は中央値の中の何れか一つを物理特徴量として算出する。そして、音像幅推定装置は、音像幅推定値算出手段によって、物理特徴量算出手段で算出した当該物理特徴量に基づいて音像幅の推定値を算出する。
これによって、音像幅推定装置は、周波数帯域別に算出した特徴量を、当該特徴量の種別ごとに一つの値に集約した物理特徴量に基づいて音像幅の推定値を算出する。
According to such a configuration, the sound image width estimation device uses the physical feature amount calculating unit to calculate the average, weighted average, maximum value, or center of the feature amounts by frequency band for each subband signal calculated by the feature amount calculating unit by frequency band. Any one of the values is calculated as a physical feature amount. Then, the sound image width estimation device calculates an estimated value of the sound image width based on the physical feature amount calculated by the physical feature amount calculation unit by the sound image width estimation value calculation unit.
Thus, the sound image width estimation device calculates an estimated value of the sound image width based on the physical feature value obtained by collecting the feature values calculated for each frequency band into one value for each type of the feature value.
請求項3に記載の音像幅推定装置は、左右に2チャンネルからなるデジタル音響信号から物理特徴量を算出し、算出した物理特徴量を、物理特徴量と重み係数とからなる音像幅の推定モデル式に適用して音像幅を推定する音像幅推定装置であって、周波数帯域分割手段と、周波数帯域別特徴量算出手段と、推定値算出手段と、を備えて構成した。
The sound image width estimation apparatus according to
かかる構成によれば、音像幅推定装置は、周波数帯域分割手段によって、左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、周波数帯域幅が1/6オクターブ以下の複数の周波数帯域のサブバンド信号に分割する。次に、音像幅推定装置は、周波数帯域別特徴量算出手段によって、周波数帯域分割手段で分割したサブバンド信号から、サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つをサブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する。そして、音像幅推定装置は、推定値算出手段によって、周波数帯域別特徴量算出手段で算出した個々の周波数帯域別特徴量を物理特徴量として、推定モデル式に適用して音像幅の推定値を算出する。
これによって、音像幅推定装置は、周波数帯域ごとに算出した物理特徴量を用いた音像幅の客観評価を行う。
According to such a configuration, the sound image width estimation device uses a frequency band dividing unit to convert a digital audio signal having two channels on the left and right into a plurality of audio signals having a frequency bandwidth of 1/6 octave or less for each of the left and right channel acoustic signals. Divide into frequency band sub-band signals. Next, the sound image width estimation device uses the inter-aural cross-correlation degree and the inter-aural time difference time axis for each sub-band signal from the sub-band signal divided by the frequency band dividing unit by the frequency-band feature amount calculating unit. At least one of the standard deviation in the direction or the standard deviation in the time axis direction of the binaural level difference is calculated by the frequency band feature quantity representing the difference between the left and right channels of the subband signal. To do. Then, the sound image width estimation apparatus applies the estimated value of the sound image width by applying to the estimation model equation, using the estimated value calculation means as an individual feature value for each frequency band calculated by the feature value calculation means for each frequency band as a physical feature value. calculate.
Thus, the sound image width estimation device performs objective evaluation of the sound image width using the physical feature amount calculated for each frequency band.
請求項4に記載の音像幅推定装置は、請求項1乃至請求項3に記載の音像幅推定装置において、周波数帯域分割手段は、周波数帯域幅が1/12オクターブ以下のサブバンド信号に分割するよう構成した。
The sound image width estimation apparatus according to
かかる構成によれば、音像幅推定装置は、周波数帯域分割手段によって、左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、周波数帯域幅が1/12オクターブ以下のサブバンド信号に分割する。続いて、音像幅推定装置は、周波数帯域別特徴量算出手段によって、1/12オクターブ以下の周波数帯域幅のサブバンド信号ごとに周波数帯域別特徴量を算出する。音像幅推定装置は物理特徴量算出手段によって、周波数帯域別特徴量算出手段で算出した周波数帯域別特徴量に基づいて物理特徴量を算出する。若しくは音像幅推定装置は、周波数帯域別特徴量算出手段で算出した周波数帯域別特徴量を個々の物理特徴量とする。そして、音像幅推定装置は、推定値算出手段によって、物理特徴量算出手段で算出した物理特徴量若しくは周波数帯域別特徴量算出手段で算出した周波数帯域別特徴量を、推定モデル式に適用して音像幅の推定値を算出する。
これによって、音像幅推定装置は、1/12オクターブ以下に細かく分割した周波数帯域ごとに算出した特徴量に基づいて音像幅の推定値を算出する。
According to such a configuration, the sound image width estimation device uses a frequency band dividing unit to convert a digital acoustic signal having two channels on the left and right into subbands having a frequency bandwidth of 1/12 octave or less for each of the left and right channel acoustic signals. Divide into signals. Subsequently, the sound image width estimation device calculates a feature value for each frequency band for each subband signal having a frequency bandwidth of 1/12 octave or less by the feature value calculation unit for each frequency band. In the sound image width estimation device, the physical feature quantity is calculated by the physical feature quantity calculation means based on the feature quantity by frequency band calculated by the feature quantity calculation means by frequency band. Alternatively, the sound image width estimation device uses the frequency band-specific feature values calculated by the frequency band-specific feature value calculation means as individual physical feature values. Then, the sound image width estimation device applies the physical feature amount calculated by the physical feature amount calculation unit or the feature amount by frequency band calculated by the feature amount calculation unit by frequency band to the estimation model equation by the estimated value calculation unit. An estimated value of the sound image width is calculated.
Thus, the sound image width estimation device calculates an estimated value of the sound image width based on the feature amount calculated for each frequency band finely divided into 1/12 octaves or less.
請求項5に記載の音像幅推定装置は、請求項1乃至請求項4の何れか一項に記載の音像幅推定装置において、更に、重み係数算出手段を備える構成とした。
The sound image width estimation device according to
かかる構成によれば、音像幅推定装置は、重み係数算出手段によって、推定モデル式における重み係数を、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つに基づく物理特徴量若しくは両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つの個々の周波数帯域別特徴量を説明変数とし、音像幅を目的変数とする回帰分析によって予め算出しておく。そして、音像幅推定装置は、推定値算出手段によって、物理特徴量算出手段で算出した物理特徴量若しくは周波数帯域別特徴量算出手段で算出した周波数帯域別特徴量と、重み係数算出手段で予め算出しておいた重み係数とを用いて、推定モデル式によって音像幅の推定値を算出する。
これによって、音像幅推定装置は、回帰分析によって定められた重み係数に従って音像幅の推定値を算出する。
According to such a configuration, the sound image width estimation apparatus uses the weighting coefficient calculation means to calculate the weighting coefficient in the estimation model formula as the interaural cross-correlation, the standard deviation in the time axis direction of the interaural time difference, or the interaural level difference. Physical feature based on at least one of the standard deviations in the time axis direction or interaural cross-correlation, standard deviation in the time axis direction of interaural time difference, or standard deviation in the time axis direction of interaural level difference Is calculated in advance by a regression analysis using at least one individual frequency band characteristic amount as an explanatory variable and the sound image width as an objective variable. Then, the sound image width estimation device is pre-calculated by the estimated value calculation means by the physical feature quantity calculated by the physical feature quantity calculation means or the feature quantity by frequency band calculated by the feature quantity calculation means by frequency band and the weight coefficient calculation means in advance. The estimated value of the sound image width is calculated by the estimation model formula using the weighting factor previously set.
Thereby, the sound image width estimation device calculates an estimated value of the sound image width according to the weighting coefficient determined by the regression analysis.
請求項6に記載の音像幅推定プログラムは、左右に2チャンネルからなるデジタル音響信号から物理特徴量を算出し、算出した物理特徴量を、物理特徴量と重み係数とからなる音像幅の推定モデル式に適用して音像幅を推定するために、コンピュータを、周波数帯域分割手段、周波数帯域別特徴量算出手段、物理特徴量算出手段、推定値算出手段、として機能させることとした。 The sound image width estimation program according to claim 6 calculates a physical feature amount from a digital acoustic signal composed of two channels on the left and right, and uses the calculated physical feature amount as a sound image width estimation model composed of a physical feature amount and a weighting factor. In order to estimate the sound image width by applying it to the equation, the computer is caused to function as a frequency band dividing unit, a characteristic amount calculating unit by frequency band, a physical feature amount calculating unit, and an estimated value calculating unit.
かかる構成によれば、音像幅推定プログラムは、周波数帯域分割手段によって、左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、周波数帯域幅が1/6オクターブ以下の複数の周波数帯域のサブバンド信号に分割する。次に、音像幅推定プログラムは、周波数帯域別特徴量算出手段によって、周波数帯域分割手段で分割したサブバンド信号から、サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つをサブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する。続いて、音像幅推定プログラムは、物理特徴量算出手段によって、周波数帯域別特徴量算出手段で算出した周波数帯域別特徴量に基づいて物理特徴量を算出する。そして、音像幅推定プログラムは、推定値算出手段によって、物理特徴量算出手段で算出した物理特徴量を、推定モデル式に適用して音像幅の推定値を算出する。
これによって、音像幅推定プログラムは、物理特徴量を用いた音像幅の客観評価を行う。
According to such a configuration, the sound image width estimation program uses a frequency band dividing unit to convert a digital audio signal having two left and right channels into a plurality of audio signals having a frequency bandwidth of 1/6 octave or less for each of the left and right channel acoustic signals. Divide into frequency band sub-band signals. Next, the sound image width estimation program calculates the interaural cross-correlation degree and the time axis of the interaural time difference for each subband signal from the subband signal divided by the frequency band dividing unit by the frequency band feature amount calculating unit. At least one of the standard deviation in the direction or the standard deviation in the time axis direction of the binaural level difference is calculated by the frequency band feature quantity representing the difference between the left and right channels of the subband signal. To do. Subsequently, in the sound image width estimation program, the physical feature quantity is calculated by the physical feature quantity calculation unit based on the frequency band feature quantity calculated by the frequency band feature quantity calculation unit. Then, the sound image width estimation program calculates the estimated value of the sound image width by applying the physical feature amount calculated by the physical feature amount calculating unit to the estimation model formula by the estimated value calculating unit.
Thereby, the sound image width estimation program performs objective evaluation of the sound image width using the physical feature amount.
請求項7に記載の音像幅推定プログラムは、左右に2チャンネルからなるデジタル音響信号から物理特徴量を算出し、算出した物理特徴量を、物理特徴量と重み係数とからなる音像幅の推定モデル式に適用して音像幅を推定するために、コンピュータを、周波数帯域分割手段、周波数帯域別特徴量算出手段、推定値算出手段、として機能させることとした。 The sound image width estimation program according to claim 7 calculates a physical feature amount from a digital acoustic signal having two channels on the left and right, and uses the calculated physical feature amount as a sound image width estimation model including a physical feature amount and a weighting factor. In order to estimate the sound image width by applying it to the equation, the computer is caused to function as a frequency band dividing unit, a characteristic amount calculating unit for each frequency band, and an estimated value calculating unit.
かかる構成によれば、音像幅推定プログラムは、周波数帯域分割手段によって、左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、周波数帯域幅が1/6オクターブ以下の複数の周波数帯域のサブバンド信号に分割する。次に、音像幅推定プログラムは、周波数帯域別特徴量算出手段によって、周波数帯域分割手段で分割したサブバンド信号から、サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つをサブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する。そして、音像幅推定プログラムは、推定値算出手段によって、周波数帯域別特徴量算出手段で算出した個々の周波数帯域別特徴量を物理特徴量として、推定モデル式に適用して音像幅の推定値を算出する。
これによって、音像幅推定プログラムは、周波数帯域ごとに算出した物理特徴量を用いた音像幅の客観評価を行う。
According to such a configuration, the sound image width estimation program uses a frequency band dividing unit to convert a digital audio signal having two left and right channels into a plurality of audio signals having a frequency bandwidth of 1/6 octave or less for each of the left and right channel acoustic signals. Divide into frequency band sub-band signals. Next, the sound image width estimation program calculates the interaural cross-correlation degree and the time axis of the interaural time difference for each subband signal from the subband signal divided by the frequency band dividing unit by the frequency band feature amount calculating unit. At least one of the standard deviation in the direction or the standard deviation in the time axis direction of the binaural level difference is calculated by the frequency band feature quantity representing the difference between the left and right channels of the subband signal. To do. Then, the sound image width estimation program applies the estimated value of the sound image width by applying to the estimation model formula, using the estimated value calculation means as the physical feature quantity of each individual frequency band feature quantity calculated by the frequency band feature quantity calculation means. calculate.
Accordingly, the sound image width estimation program performs objective evaluation of the sound image width using the physical feature amount calculated for each frequency band.
請求項1又は請求項6に記載の発明によれば、周波数帯域幅が1/6オクターブ以下の周波数帯域ごとに算出した特徴量に基づいて音像幅の推定値を算出するため、安定した精度で音像幅の推定を行うことができる。
請求項2に記載の発明によれば、周波数帯域ごとに算出した特徴量を、当該特徴量の種別ごとに一つの値に集約した物理特徴量に基づいて音像幅の推定値を算出するため、推定モデル式における重み係数の個数を増やすことなく、簡便な計算によって音像幅の推定値を算出することができる。
請求項3又は請求項7に記載の発明によれば、周波数帯域幅が1/6オクターブ以下の周波数帯域ごとに算出した特徴量に基づいて音像幅の推定値を算出するため、精度よく音像幅の推定を行うことができる。
請求項4に記載の発明によれば、周波数帯域幅が1/12オクターブ以下の周波数帯域ごとに算出した特徴量に基づいて音像幅の推定値を算出するため、より安定した精度で音像幅の推定を行うことができる。
請求項5に記載の発明によれば、推定モデル式における重み係数を、主観評価データと、主観評価データに対応する物理特徴量とを用いた回帰分析によって定めるため、精度よく音像幅の推定を行うことができる。
According to the invention described in
According to the second aspect of the present invention, in order to calculate the estimated value of the sound image width based on the physical feature value obtained by collecting the feature value calculated for each frequency band into one value for each type of the feature value, The estimated value of the sound image width can be calculated by simple calculation without increasing the number of weighting coefficients in the estimation model formula.
According to the invention described in
According to the fourth aspect of the present invention, since the estimated value of the sound image width is calculated based on the feature amount calculated for each frequency band whose frequency bandwidth is equal to or less than 1/12 octave, the sound image width of the sound image width can be more stable. Estimation can be performed.
According to the invention described in
以下、本発明の実施形態について、適宜図面を参照して説明する。
[第1実施形態]
まず、図1を参照して、本発明における第1実施形態の音像幅推定装置100の構成について説明する。図1に示すように、音像幅推定装置100は、ダミーヘッド1と、マイクロフォン2L及び2Rと、ローパスフィルタ3L及び3Rと、AD変換器4L及び4Rと、演算手段5と、表示手段14と、を備えて構成されている。また、演算手段5は、メモリ6L及び6Rと、フィルタバンク(周波数帯域分割手段)7L及び7Rと、周波数帯域別物理特徴量算出手段(周波数帯域別特徴量算出手段)8fと、物理特徴量代表値算出手段(物理特徴量算出手段)9と、音像幅推定値算出手段(推定値算出手段)10と、重み係数記憶手段11と、推定値重み係数算出手段(重み係数算出手段)12と、主観評価データ記憶手段13と、を備えて構成されている。
Embodiments of the present invention will be described below with reference to the drawings as appropriate.
[First Embodiment]
First, the configuration of the sound image
ダミーヘッド1は、試験対象である音源SSから発生する音響をバイノーラル方式で採取するための模擬頭である。ダミーヘッド1の左右両耳の入り口部には、それぞれマイクロフォン2L及び2Rが取り付けられている。
The
マイクロフォン2L及び2Rは、ダミーヘッド1のそれぞれ左耳及び右耳の入り口部における音源SSから発生する音響を採取する収音手段である。マイクロフォン2L及び2Rで採取されたアナログ音響信号は、それぞれローパスフィルタ3L及び3Rに入力される。
なお、第1実施形態においては、マイクロフォン2L及び2Rは、ダミーヘッド1の左右両耳の入り口部に配置したが、マイクロフォン2L及び2Rをダミーヘッド1の鼓膜部に配置して収音するようにしてもよい。
また、ダミーヘッド1の替わりに、人間の頭部を模した球体を用いてマイクロフォン2L及び2Rを配置するようにしてもよいし、マイクロフォンスタンドを用いた2点マイクロフォンの形態でマイクロフォン2L及び2Rを配置するようにしてもよい。
The
In the first embodiment, the
Further, instead of the
ローパスフィルタ3L及び3Rは、それぞれマイクロフォン2L及び2Rによって採取されたアナログ音響信号を入力し、入力したアナログ音響信号からサンプリング周波数fsの1/2を超える高周波数成分をAD変換器4L及び4Rによってデジタル化(サンプリング)する前に帯域制限して、折り返し歪みの発生を防止するためのアンチエイリアシングフィルタである。ローパスフィルタ3L及び3Rは、帯域制限したアナログ音響信号を、それぞれAD変換器4L及び4Rに出力する。
なお、人の可聴周波数の上限は20kHzであるから、サンプリング周波数fsは、20kHzの2倍である40kHz以上とする必要がある。例えば、サンプリング周波数fs=48kHzとすると、ローパスフィルタ3L及び3Rによって、fs/2=24kHzを超える周波数成分を帯域制限するようにすればよい。
The low-
Since the upper limit of human audible frequency is 20 kHz, the sampling frequency fs needs to be 40 kHz or more, which is twice 20 kHz. For example, when the sampling frequency is fs = 48 kHz, the frequency components exceeding fs / 2 = 24 kHz may be band-limited by the low-
AD変換器4L及び4Rは、それぞれローパスフィルタ3L及び3Rによって帯域制限されたアナログ音響信号を入力し、入力したアナログ音響信号を例えば、サンプリング周波数fs=48kHzでサンプリングしてデジタル信号に変換する。AD変換器4L及び4Rは、それぞれデジタル信号に変換した左チャンネルの音響信号sl(n)及び右チャンネルの音響信号sr(n)(但し、nはサンプリングしたデータの番号を示す)を、それぞれ演算手段5のメモリ6L及び6Rに出力する。
The
演算手段5は、バイノーラル方式で採取され、AD変換器4L及び4Rによってデジタル化された音響信号sl(n)及びsr(n)を入力し、入力した音響信号sl(n)及びsr(n)を数値演算によって分析することにより音像幅推定値(ハットy)を算出する分析手段である。演算手段5は、汎用的なコンピュータを用いて実現することができる。
演算手段5は、算出した音像幅推定値(ハットy)を表示手段14に出力する。
なお、演算手段5の詳細については後記する。
The computing means 5 receives the acoustic signals sl (n) and sr (n) collected by the binaural method and digitized by the
The computing means 5 outputs the calculated sound image width estimated value (hat y) to the display means 14.
Details of the computing means 5 will be described later.
表示手段14は、演算手段5から入力した音像幅推定値(ハットy)を、視認可能に表示する液晶ディスプレイなどの表示装置である。
表示手段14は、演算手段5から所定の時間間隔ごとに出力される音像幅推定値(ハットy)の数値を適宜表示する。なお、表示手段14は、音像幅推定値(ハットy)の経時変化が把握しやすいように、グラフ化して表示するようにしてもよい。
The
The display means 14 appropriately displays the numerical value of the estimated sound image width (hat y) output from the computing means 5 at predetermined time intervals. The display means 14 may be displayed in a graph so that the temporal change of the estimated sound image width (hat y) can be easily grasped.
音源SSは、人間に音像幅を誘起させる音響を発生する音響発生手段である。試験対象である音源SSとしては、楽器やスピーカなど任意の音源を用いることができ、音源SSは、1個であっても複数個であってもよい。 The sound source SS is sound generation means for generating sound that induces a sound image width in humans. As the sound source SS to be tested, an arbitrary sound source such as a musical instrument or a speaker can be used, and the number of sound sources SS may be one or plural.
次に、演算手段5の各部の構成について説明する。
メモリ6L及び6Rは、それぞれAD変換器4L及び4Rから入力した左チャンネルの音響信号sl(n)及び右チャンネルの音響信号sr(n)を記憶する記憶手段である。メモリ6L及び6Rに記憶した音響信号sl(n)及びsr(n)は、それぞれ適宜にフィルタバンク7L及び7Rによって読み出される。
Next, the structure of each part of the calculating means 5 is demonstrated.
The
フィルタバンク(周波数帯域分割手段)7L及び7Rは、それぞれ互いに異なる複数の周波数帯域fを通過する特性を有するバンドパスフィルタ群から構成される。ここで、fは周波数帯域を識別する番号を示し、f=1,2,…,Fである。また、Fは2以上の整数である。
フィルタバンク7L及び7Rは、それぞれメモリ6L及6Rに記憶された左チャンネルの音響信号sl(n)及び右チャンネルの音響信号sr(n)を読み出し、読み出した音響信号sl(n)及びsr(n)の複数の周波数帯域fの周波数帯域成分sl(n,f)及びsr(n,f)を、各バンドパスフィルタの出力の組として得るものである。すなわち、フィルタバンク7L及び7Rは、音響信号sl(n)及びsr(n)を複数の周波数帯域成分sl(n,f)及びsr(n,f)に分割する周波数帯域分割手段である。フィルタバンク7L及び7Rは、音響信号sl(n)及びsr(n)の各周波数帯域成分sl(n,f)及びsr(n,f)を、それぞれの周波数帯域fに対応する周波数帯域別物理特徴量算出手段8fに出力する。
The filter banks (frequency band dividing means) 7L and 7R are each composed of a band-pass filter group having a characteristic of passing a plurality of frequency bands f different from each other. Here, f indicates a number for identifying a frequency band, and f = 1, 2,... F is an integer of 2 or more.
The
フィルタバンク7L及び7Rは、例えば、1/6オクターブバンドフィルタなどの等比帯域フィルタ群で構成することができる。好ましくは、周波数帯域幅が1/6オクターブ以下、更に好ましくは1/12オクターブ以下の狭帯域の1/nオクターブバンドフィルタ(ここで、nは1以上の整数)を用いることができる。
なお、フィルタ群を構成する各フィルタは、FIR(finite impulse response;有限長インパルス応答)フィルタによって構成することができる。
The
In addition, each filter which comprises a filter group can be comprised with a FIR (finite impulse response) filter.
周波数帯域別物理特徴量算出手段(周波数帯域別特徴量算出手段)8f(f=1,2,…,F)は、それぞれフィルタバンク7L及び7Rから音響信号の周波数帯域fに対応する左右の周波数帯域成分sl(n,f)及びsr(n,f)を入力し、入力した左右の周波数帯域成分sl(n,f)及びsr(n,f)を分析して、周波数帯域fごとの3種類の物理特徴量である周波数帯域別物理特徴量(周波数帯域別特徴量)xa(f)、xt(f)、xl(f)を算出して物理特徴量代表値算出手段9に出力する。
The frequency characteristic-specific physical feature quantity calculation means (frequency-band characteristic quantity calculation means) 8 f (f = 1, 2,..., F) are respectively left and right corresponding to the frequency band f of the acoustic signal from the
物理特徴量代表値算出手段(物理特徴量算出手段)9は、F個の周波数帯域別物理特徴量算出手段8f(f=1,2,…,F)からF組の周波数帯域別物理特徴量xa(f)、xt(f)、xl(f)を入力し、入力した周波数帯域別物理特徴量xa(f)、xt(f)、xl(f)を物理特徴量の種類ごとに、物理特徴量代表値Xa、Xt、Xlを算出して音像幅推定値算出手段10又は推定値重み係数算出手段12に出力する。
なお、音像幅を推定するための推定モデル式における各物理特徴量代表値Xa、Xt、Xlに対する重み係数Ca、Ct及びClを算出する場合は、物理特徴量代表値算出手段9は、物理特徴量代表値Xa、Xt、Xlを推定値重み係数算出手段12に出力する。また、推定モデル式と重み係数Ca、Ct及びClとを用いて音像幅を推定する場合は、物理特徴量代表値算出手段9は、物理特徴量代表値Xa、Xt、Xlを音像幅推定値算出手段10に出力する。
The physical feature quantity representative value calculation means (physical feature quantity calculation means) 9 includes F sets of physical features by frequency band from F frequency band physical feature quantity calculation means 8 f (f = 1, 2,..., F). Quantities x a (f), x t (f), and x l (f) are input, and the input physical characteristic amounts x a (f), x t (f), and x l (f) by frequency band are physical characteristics. For each type of quantity, the physical feature quantity representative values X a , X t , and X l are calculated and output to the sound image width estimated value calculating means 10 or the estimated value weight coefficient calculating means 12.
When calculating the weighting factors C a , C t, and C l for each physical feature amount representative value X a , X t , X l in the estimation model formula for estimating the sound image width, the physical feature amount representative value calculation is performed. The
ここで、図2を参照(適宜図1参照)して、周波数帯域別物理特徴量算出手段8fと物理特徴量代表値算出手段9の詳細な構成について説明する。
図2に示すように、周波数帯域別物理特徴量算出手段8fは、窓掛け手段20Lf及び20Rfと、CCC(interaural cross-correlation coefficient;両耳間相互相関係数)算出手段21fと、レベル算出手段22Lf及び22Rfと、IACC算出手段23fと、ITD算出手段24fと、ILD算出手段25fと、ILD標準偏差算出手段26fと、IACC平均算出手段27fと、ITD標準偏差算出手段28fと、を備えて構成されている。
また、物理特徴量代表値算出手段9は、ILD標準偏差代表値算出手段30と、IACC平均代表値算出手段31と、ITD標準偏差代表値算出手段32と、を備えて構成されている。
Here, with reference to FIG. 2 (refer to FIG. 1 as appropriate), the detailed configuration of the frequency-specific physical feature
As shown in FIG. 2, the physical characteristic amount calculating means 8 f for each frequency band includes windowing means 20L f and 20R f , CCC (interaural cross-correlation coefficient) calculating means 21 f , , Level calculating means 22L f and 22R f , IACC calculating means 23 f , ITD calculating means 24 f , ILD calculating means 25 f , ILD standard deviation calculating means 26 f , IACC average calculating means 27 f , ITD Standard deviation calculating means 28 f .
The physical feature quantity representative value calculating means 9 includes an ILD standard deviation representative value calculating means 30, an IACC average representative value calculating means 31, and an ITD standard deviation representative value calculating means 32.
窓掛け手段20Lf及び20Rfは、それぞれフィルタバンク7L及び7Rから対応する周波数帯域fの周波数帯域成分sl(n,f)及びsr(n,f)を入力し、入力した周波数帯域成分sl(n,f)及びsr(n,f)に時間窓w(n)を掛けて、順次に所定時間長の信号を切り出す手段である。
窓掛け手段20Lf及び20Rfは、切り出した信号列ylk(n,f)及びyrk(n,f)を、それぞれレベル算出手段22Lf及び22Rfに出力するとともに、左右のチャンネルの信号列ylk(n,f)及びyrk(n,f)を、CCC算出手段21fに出力する。
The windowing means 20L f and 20R f receive the frequency band components sl (n, f) and sr (n, f) of the corresponding frequency band f from the
The windowing means 20L f and 20R f output the cut signal sequences yl k (n, f) and yr k (n, f) to the level calculation means 22L f and 22R f , respectively, and the signals of the left and right channels. The columns yl k (n, f) and yr k (n, f) are output to the CCC calculating means 21 f .
ここで、窓掛け手段20Lf及び20Rfによって周波数帯域成分sl(n,f)及びsr(n,f)から切り出される信号のデータ数をN(Nは1以上の整数)とすると、時間窓w(n)は、式(1)によって表すことができる。 Here, assuming that the number of data of signals cut out from the frequency band components sl (n, f) and sr (n, f) by the windowing means 20L f and 20R f is N (N is an integer of 1 or more), the time window w (n) can be expressed by equation (1).
なお、時間窓w(n)によって切り出す時間長は、例えば、10(ms)〜100(ms)とすることができる。
ここで、時間長をt(ms)、AD変換器4L及び4Rにおけるサンプリング周波数をfs(Hz)とすると、切り出される信号のデータ数Nは、N=t10−3fsとなる。
In addition, the time length cut out by the time window w (n) can be set to, for example, 10 (ms) to 100 (ms).
Here, assuming that the time length is t (ms) and the sampling frequency in the
また、窓掛け手段20Lf及び20Rfは、時間領域において、時間窓w(n)によって、それぞれ周波数帯域成分sl(n,f)及びsr(n,f)に対して移動幅d(dは1以上の整数)ずつシフトしながら窓掛けして信号列を切り出す。左チャンネル及び右チャンネルの周波数帯域成分sl(n,f)及びsr(n,f)からk番目に切り出される信号列ylk(n,f)及びyrk(n,f)は、それぞれ式(2−1)及び式(2−2)のように表すことができる。 Further, the windowing means 20L f and 20R f have a movement width d (d is d) with respect to the frequency band components sl (n, f) and sr (n, f), respectively, in the time domain by the time window w (n). A signal sequence is cut out by shifting while shifting by an integer of 1 or more. The signal sequences yl k (n, f) and yr k (n, f) cut out k-th from the frequency band components sl (n, f) and sr (n, f) of the left channel and the right channel are respectively expressed by the formulas ( 2-1) and formula (2-2).
ここで、両耳間時間差をτ(ms)、サンプリング周波数をfs(Hz)とすると、移動幅dは、d≧τ10−3fsとすることができる。すなわち、両耳間時間差τ以上に相当するデータ数ずつ時間窓w(n)によって切り出す位置をシフトするようにすることができる。これによって、後段のCCC算出手段21fやレベル算出手段22Lf及び22Rfなどの各分析手段によって移動幅dに相当する時間幅を時間分解能とした移動分析を行うことができる。 Here, when the time difference between both ears is τ (ms) and the sampling frequency is fs (Hz), the movement width d can be d ≧ τ10 −3 fs. That is, the position to be cut out by the time window w (n) can be shifted by the number of data corresponding to the interaural time difference τ or more. As a result, the movement analysis with the time width corresponding to the movement width d as the time resolution can be performed by each analysis means such as the CCC calculation means 21 f and the level calculation means 22L f and 22R f in the subsequent stage.
レベル算出手段22Lf及び22Rfは、それぞれ対応する周波数帯域fの窓掛け手段20Lf及び20Rfから信号列ylk(n,f)及びyrk(n,f)を入力し、入力したk番目の信号列ylk(n,f)及びyrk(n,f)における音響エネルギーレベル(以下、レベルと呼ぶ)slEk(f)及びsrEk(f)を、それぞれ式(3−1)及び式(3−2)によって算出して、対応する周波数帯域fのILD算出手段25fに出力する。 The level calculation means 22L f and 22R f input the signal sequences yl k (n, f) and yr k (n, f) from the windowing means 20L f and 20R f of the corresponding frequency band f, respectively, and input k The acoustic energy levels (hereinafter referred to as levels) slE k (f) and srE k (f) in the second signal sequence yl k (n, f) and yr k (n, f) And the equation (3-2), and outputs to the ILD calculating means 25 f of the corresponding frequency band f.
CCC(interaural cross-correlation coefficient;両耳間相互相関係数)算出手段21fは、それぞれ対応する周波数帯域fの窓掛け手段20Lf及び20Rfから信号列ylk(n,f)及びyrk(n,f)を入力し、入力したk番目の信号列ylk(n,f)及びyrk(n,f)における両耳間相互相関係数CCCk(τ,f)を、式(4)によって算出して、対応する周波数帯域fのIACC算出手段23f及びITD算出手段24fに出力する。 The CCC (interaural cross-correlation coefficient) calculation means 21 f respectively outputs signal sequences yl k (n, f) and yr k from the windowing means 20L f and 20R f of the corresponding frequency band f. (N, f) is input, and the interaural cross-correlation coefficient CCC k (τ, f) in the input k-th signal sequence yl k (n, f) and yr k (n, f) is expressed by the formula ( 4) and output to the IACC calculation means 23 f and ITD calculation means 24 f of the corresponding frequency band f.
IACC(absolute maximum value of the interaural cross-correlation coefficient;両耳間相互相関度)算出手段23fは、対応する周波数帯域fのCCC算出手段21fから両耳間相互相関係数CCCk(τ,f)を入力し、入力した両耳間相互相関係数CCCk(τ,f)における最大振幅である両耳間相互相関度IACCk(f)を、式(5−1)によって算出して、対応する周波数帯域fのIACC平均算出手段27fに出力する。
なお、IACC算出手段23fは、両耳間相互相関度IACCk(f)を、式(5−1)に替えて、式(5−2)によって算出するようにしてもよい。
IACC (absolute maximum value of the interaural cross-correlation coefficient; interaural cross correlation) calculating
Note that the
ITD(interaural time difference;両耳間時間差)算出手段24fは、対応する周波数帯域fのCCC算出手段21fから両耳間相互相関係数CCCk(τ,f)を入力し、式(6−1)によって、入力した両耳間相互相関係数CCCk(τ,f)において最大振幅を与える時間差τを算出し、算出した時間差τを両耳間時間差ITDk(f)として、対応する周波数帯域fのITD標準偏差算出手段28fに出力する。
なお、ITD算出手段24fは、両耳間時間差ITDk(f)を、式(6−1)に替えて、式(6−2)によって算出するようにしてもよい。
The inter-ural time difference (ITD) calculating
The
ILD(interaural level difference;両耳間レベル差)算出手段25fは、対応する周波数帯域fのレベル算出手段22Lf及び22Rfから、レベルslEk(f)及びsrEk(f)を入力し、入力したレベルslEk(f)及びsrEk(f)から、式(7)によって両耳間レベル差ILDk(f)を算出して、算出した両耳間レベル差ILDk(f)を、対応する周波数帯域fのILD標準偏差算出手段26fに出力する。 An ILD (interaural level difference) calculation means 25 f receives the levels slE k (f) and srE k (f) from the level calculation means 22L f and 22R f of the corresponding frequency band f, From the input levels slE k (f) and srE k (f), the interaural level difference ILD k (f) is calculated by the equation (7), and the calculated interaural level difference ILD k (f) Output to the ILD standard deviation calculating means 26 f of the corresponding frequency band f.
IACC平均算出手段27fは、対応する周波数帯域fのIACC算出手段23fから両耳間相互相関度IACCk(f)を入力し、窓掛け手段20Lf及び20Rfによって切り出されたすべての区間k(k=1,2,…,T)における両耳間相互相関度IACCk(f)を入力すると、式(8)によって、時間軸方向における両耳間相互相関度IACCk(f)の平均を算出し、算出した平均を周波数帯域別物理特徴量の一つであるxa(f)としてIACC平均代表値算出手段31に出力する。
IACC
なお、周波数帯域別物理特徴量xa(f)は、移動幅dごとに算出された両耳間相互相関度IACCk(f)の単純平均としたが、これに限定されるものではなく、重み付き平均を用いるようにしてもよいし、最大値又は中央値などを用いるようにしてもよい。 The physical feature amount x a (f) for each frequency band is a simple average of the interaural cross-correlation degree IACC k (f) calculated for each movement width d, but is not limited thereto. A weighted average may be used, or a maximum value or a median value may be used.
ITD標準偏差算出手段28fは、対応する周波数帯域fのITD算出手段24fから両耳間時間差ITDk(f)を入力し、窓掛け手段20Lf及び20Rfによって切り出されたすべての区間k(k=1,2,…,T)における両耳間時間差ITDk(f)を入力すると、式(9)によって、時間軸方向における両耳間時間差ITDk(f)の標準偏差を算出し、算出した標準偏差を周波数帯域別物理特徴量の一つであるxt(f)としてITD標準偏差代表値算出手段32に出力する。 ITD standard deviation calculating means 28 f, the corresponding interaural time difference from ITD calculation means 24 f of the frequency band f enter the ITD k (f), all the sections k cut out by windowing means 20L f and 20R f When the interaural time difference ITD k (f) at (k = 1, 2,..., T) is input, the standard deviation of the interaural time difference ITD k (f) in the time axis direction is calculated by Equation (9). The calculated standard deviation is output to the ITD standard deviation representative value calculation means 32 as x t (f), which is one of the physical features for each frequency band.
ILD標準偏差算出手段26fは、対応する周波数帯域fのILD算出手段25fから両耳間レベル差ILDk(f)を入力し、20Lf及び20Rfによって切り出されたすべての区間k(k=1,2,…,T)における両耳間レベル差ILDk(f)を入力すると、式(10)によって、時間軸方向における両耳間レベル差ILDk(f)の標準偏差を算出し、算出した標準偏差を周波数帯域別物理特徴量の一つであるxl(f)としてILD標準偏差代表値算出手段30に出力する。 ILD standard deviation calculation means 26 f, the corresponding ILD calculation means enter the interaural level difference ILD k (f) from 25 f of the frequency band f, 20L f and all the sections k (k cut out by 20R f = 1, 2,..., T), the interaural level difference ILD k (f) is input, and the standard deviation of the interaural level difference ILD k (f) in the time axis direction is calculated by the equation (10). The calculated standard deviation is output to the ILD standard deviation representative value calculating means 30 as x l (f), which is one of the physical features for each frequency band.
IACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30は、それぞれIACC平均算出手段27f、ITD標準偏差算出手段28f及びILD標準偏差算出手段26fから周波数帯域fごとに算出された周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)を入力し、それぞれ入力した周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)の代表値である物理特徴量代表値Xa、Xt及びXlを算出する。IACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30は、それぞれ算出した物理特徴量代表値Xa、Xt及びXlを音像幅推定値算出手段10又は推定値重み係数算出手段12に出力する。 The IACC average representative value calculating means 31, the ITD standard deviation representative value calculating means 32, and the ILD standard deviation representative value calculating means 30 are respectively an IACC average calculating means 27 f , an ITD standard deviation calculating means 28 f, and an ILD standard deviation calculating means 26 f. Frequency-specific physical feature values x a (f), x t (f) and x l (f) calculated for each frequency band f from the input frequency feature physical parameters x a (f) , X t (f) and x l (f), which are representative values of physical feature values X a , X t and X l are calculated. The IACC average representative value calculating means 31, the ITD standard deviation representative value calculating means 32, and the ILD standard deviation representative value calculating means 30 respectively calculate the calculated physical feature quantity representative values X a , X t, and X l as sound image width estimated value calculating means. 10 or the estimated value weighting coefficient calculation means 12.
前記したように、音像幅を推定するための推定モデル式における各物理特徴量代表値Xa、Xt及びXlに対する重み係数Ca、Ct及びClを算出する場合は、物理特徴量代表値算出手段9の構成要素であるIACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30は、それぞれ物理特徴量代表値Xa、Xt及びXlを推定値重み係数算出手段12に出力する。また、推定モデル式と重み係数Ca、Ct及びClとを用いて音像幅を推定する場合は、IACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30は、それぞれ物理特徴量代表値Xa、Xt及びXlを音像幅推定値算出手段10に出力する。
As described above, when calculating the weighting factors C a , C t, and C l for each physical feature amount representative value X a , X t, and X l in the estimation model formula for estimating the sound image width, the physical feature amount The IACC average representative value calculating means 31, the ITD standard deviation representative value calculating means 32, and the ILD standard deviation representative value calculating means 30, which are constituent elements of the representative value calculating means 9, are respectively the physical feature quantity representative values X a , X t, and X 1 is output to the estimated value weighting coefficient calculating means 12. Further, when the sound image width is estimated using the estimation model formula and the weight coefficients C a , C t, and C l , the IACC average representative
ここで、第1実施形態におけるIACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30は、それぞれ周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)の代表値として、式(11−1)、式(11−2)及び式(11−3)によって、周波数帯域fごとに算出した周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)の平均を算出して物理特徴量代表値Xa、Xt及びXlとする。 Here, the IACC average representative value calculating means 31, the ITD standard deviation representative value calculating means 32, and the ILD standard deviation representative value calculating means 30 in the first embodiment are respectively physical characteristic amounts x a (f) and x t for each frequency band. As representative values of (f) and x l (f), the physical feature value x for each frequency band calculated for each frequency band f by Expression (11-1), Expression (11-2), and Expression (11-3). The average of a (f), x t (f), and x l (f) is calculated to be the physical feature quantity representative values X a , X t, and X l .
このように、推定モデル式で用いる物理特徴量として、周波数帯域ごとに算出した周波数帯域別物理特徴量を物理特徴量の種別ごとに一つの値に集約した代表値を用いることにより、推定モデル式における重み係数の個数を低減することができ、音像幅推定値(ハットy)の算出や重み係数を定めるための主観評価データの採取を簡略化することができる。 In this way, as the physical feature quantity used in the estimation model formula, the estimation model formula is obtained by using the representative value obtained by consolidating the physical feature quantity by frequency band calculated for each frequency band into one value for each type of physical feature quantity. The number of weighting coefficients can be reduced, and the calculation of the estimated sound image width (hat y) and the collection of subjective evaluation data for determining the weighting coefficient can be simplified.
図1に戻って(適宜図2参照)、音像幅推定装置100の構成について説明を続ける。
音像幅推定値算出手段(推定値算出手段)10は、IACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30から、それぞれ物理特徴量代表値Xa、Xt及びXlを入力するとともに、重み係数記憶手段11から、予め推定値重み係数算出手段12によって算出して記憶しておいた重み係数Ca、Ct及びClを読み出し、式(12)に示した推定モデル式によって、音像幅の推定値(ハットy)を算出して、算出した推定値(ハットy)を表示手段14に出力する。
Returning to FIG. 1 (see FIG. 2 as appropriate), the description of the configuration of the sound image
The sound image width estimated value calculating means (estimated value calculating means) 10 includes physical feature quantity representative values X a from the IACC average representative value calculating means 31, the ITD standard deviation representative value calculating means 32, and the ILD standard deviation representative value calculating means 30, respectively. , X t and X l , and the weight coefficients C a , C t, and C l calculated and stored in advance by the estimated value weight coefficient calculation means 12 are read from the weight coefficient storage means 11 and the equation ( The estimated value (hat y) of the sound image width is calculated by the estimated model formula shown in 12), and the calculated estimated value (hat y) is output to the display means 14.
式(12)に示したように、第1実施形態における音像幅推定値(ハットy)は、3つの物理特徴量代表値Xa、Xt及びXlを要素とする3次元ベクトルの絶対値として算出することができる。 As shown in Expression (12), the estimated sound image width (hat y) in the first embodiment is an absolute value of a three-dimensional vector having three physical feature quantity representative values X a , X t, and X l as elements. Can be calculated as
重み係数記憶手段11は、推定値重み係数算出手段12によって算出した式(12)に示した推定モデル式の重み係数Ca、Ct及びClを記憶する記憶手段である。重み係数記憶手段11に記憶した重み係数Ca、Ct及びClは、音像幅の推定を行う際に、音像幅推定値算出手段10によって読み出され、音像幅推定値(ハットy)の算出に用いられる。
The weighting
推定値重み係数算出手段12は、主観評価データ記憶手段13に予め記憶しておいた主観評価データyiを読み出すとともに、IACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30から、それぞれ当該主観評価データyiに対応する物理特徴量代表値Xai、Xti及びXliを入力し、入力した主観評価データyiと物理特徴量代表値Xai、Xti及びXliとからなる複数組のデータを用いて、式(12)に示した推定モデル式の重み係数Ca、Ct及びClを回帰分析の手法である最小二乗法によって算出し、算出した重み係数Ca、Ct及びClを重み係数記憶手段11に記憶する。なお、iは、個々の主観評価データを識別する番号である。 The estimated value weight coefficient calculating means 12 reads subjective evaluation data y i stored in the subjective evaluation data storage means 13 in advance, and also includes an IACC average representative value calculating means 31, an ITD standard deviation representative value calculating means 32, and an ILD standard. The physical feature quantity representative values X ai , X ti, and X li respectively corresponding to the subjective evaluation data y i are input from the deviation representative value calculation means 30, and the input subjective evaluation data y i and physical feature quantity representative value X ai are input. , X ti and X li are used to calculate the weighting factors C a , C t and C l of the estimated model equation shown in Equation (12) by the least square method which is a regression analysis method. Then, the calculated weighting factors C a , C t and C l are stored in the weighting factor storage means 11. Note that i is a number for identifying individual subjective evaluation data.
ここで、主観評価データyiに対応する物理特徴量代表値Xai、Xti及びXliとは、当該主観評価データyiを得たときの被験者と同じ音場条件で、ダミーヘッド1に取り付けられたマイクロフォン2L及び2Rを用いて音響信号を採取し、前記した各分析手段を用いて最終的にIACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30から出力される物理特徴量代表値Xa、Xt及びXlのことである。
Here, the physical characteristic amount representative value X ai corresponding to subjective assessment data y i, and the X ti and X li, the same sound field conditions and subject when give the subjective assessment data y i, the
次に、第1実施形態における推定値重み係数算出手段12による重み係数Ca、Ct及びClの算出手法について説明する。
第1実施形態では、3つの物理特徴量代表値Xa、Xt及びXlを説明変数とし、音像幅yを目的変数とする式(12)に示した推定モデル式において、回帰分析の手法である最小二乗法によって重み係数Ca、Ct及びClを算出する。すなわち、音像幅の主観評価データyiと推定モデル式によって算出される予測値(ハットyi)との組を予め用意しておき、最小二乗法によって重み係数Ca、Ct及びClを算出する。
Next, a method for calculating the weighting factors C a , C t, and C l by the estimated value weighting
In the first embodiment, in the estimation model formula shown in Formula (12) in which three physical feature quantity representative values X a , X t and X l are explanatory variables and the sound image width y is an objective variable, a regression analysis method is used. The weighting coefficients C a , C t and C l are calculated by the least square method. That is, a set of the subjective evaluation data y i of the sound image width and the predicted value (hat y i ) calculated by the estimation model formula is prepared in advance, and the weight coefficients C a , C t, and C l are calculated by the least square method. calculate.
式(13)に示したように、主観評価データyiと推定モデル式によって算出される予測値(ハットyi)との差の二乗和Jが最小となる重み係数Ca、Ct及びClを算出する。なお、式(13)において、Sは主観評価データのデータ数である。 As shown in the equation (13), the weighting factors C a , C t and C that minimize the sum of squares J of the difference between the subjective evaluation data y i and the predicted value (hat y i ) calculated by the estimation model equation. l is calculated. In Equation (13), S is the number of subjective evaluation data.
ここで、計算の簡略化のため、便宜的に目的変数を音像幅yiの二乗とすると、式(14)に示した二乗和Jが最小となる重み係数Ca、Ct及びClを算出することになる。 Here, for simplification of calculation, if the objective variable is the square of the sound image width y i for convenience, the weight coefficients C a , C t, and C l that minimize the sum of squares J shown in Expression (14) are set. Will be calculated.
式(14)の推定値(ハットyi)に、式(12)を代入すると、二乗和Jは、式(15)のように表すことができる。 Substituting equation (12) into the estimated value (hat y i ) of equation (14), the sum of squares J can be expressed as equation (15).
ここで、二乗和Jが最小となる条件は、式(16)に示した二乗和Jの各重み係数Ca、Ct及びClによる偏微分が0になることである。 Here, the condition for minimizing the square sum J is that the partial differentiation of the square sum J shown in Expression (16) by the weighting factors C a , C t, and C l is zero.
これにより、式(17)に示した連立方程式が得られる。 As a result, the simultaneous equations shown in Expression (17) are obtained.
ここで、式(17)に示した重み係数Ca、Ct及びClを変数とする連立方程式において、重み係数Ca、Ct及びClに対する係数を式(18)のようにa11〜a33及びb1〜b3として定義する。 Here, the weighting factor C a shown in equation (17), in simultaneous equations for the variables C t and C l, the coefficients for weighting coefficient C a, C t and C l as in equation (18) a 11 ˜a 33 and b 1 ˜b 3 .
式(18)で定義したa11〜a33及びb1〜b3を用いると、式(17)は、式(19−1)のように表すことができる。そして、式(19−1)は、式(19−2)のように変形することができる。 With a 11 ~a 33 and b 1 ~b 3 defined in formula (18), equation (17) can be expressed by the equation (19-1). The equation (19-1) can be transformed as the equation (19-2).
ここで、a11〜a33及びb1〜b3は、式(17)に示したように、主観評価データyiと、当該主観評価データyiを得たときの被験者の位置で採取した音響信号を分析して得られる物理特徴量代表値Xai、Xti及びXliとを用いて算出することができる。 Here, a 11 to a 33 and b 1 to b 3 were collected at the position of the subject when the subjective evaluation data y i and the subjective evaluation data y i were obtained, as shown in the equation (17). It can be calculated using the physical feature value representative values X ai , X ti and X li obtained by analyzing the acoustic signal.
推定値重み係数算出手段12は、以上説明した手順により、重み係数Ca、Ct及びClを算出することができる。 The estimated value weighting factor calculation means 12 can calculate the weighting factors C a , C t and C l by the procedure described above.
主観評価データ記憶手段13は、重み係数Ca、Ct及びClを算出するための音像幅の主観評価データyiを記憶する記憶手段である。主観評価データ記憶手段13に記憶した主観評価データyiは、推定値重み係数算出手段12によって読み出され、重み係数Ca、Ct及びClの算出のために用いられる。 The subjective evaluation data storage means 13 is a storage means for storing the subjective evaluation data y i of the sound image width for calculating the weighting coefficients C a , C t and C l . The subjective evaluation data y i stored in the subjective evaluation data storage means 13 is read by the estimated value weight coefficient calculating means 12 and used for calculating the weight coefficients C a , C t and C l .
以上、音像幅推定装置100の構成について説明したが、本発明はこれに限定されるものではない。例えば、音像幅推定装置100の演算手段5は、一般的なコンピュータにプログラムを実行させ、コンピュータ内の演算装置や記憶装置を動作させることにより実現することができる。このプログラム(音像幅推定プログラム)は、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
The configuration of the sound image
次に、図3を参照(適宜図1及び図2参照)して、音像幅推定装置100の動作について説明する。
図3に示すように、音像幅推定装置100は、まず、推定値重み係数算出手段12によって、式(12)に示した推定モデル式における重み係数Ca、Ct及びClを算出して、重み係数記憶手段11に記憶しておく(ステップS10)。既に重み係数Ca、Ct及びClが重み係数記憶手段11に記憶されている場合は、この推定モデル式の重み係数算出処理ステップは省略することができる。なお、推定モデル式の重み係数算出処理ステップの詳細については後記する。
Next, the operation of the sound image
As shown in FIG. 3, the sound image
次に、音像幅推定装置100は、ダミーヘッド1に取り付けられたマイクロフォン2L及び2Rによって、試験対象である音源SSから発生する音響をバイノーラル方式で採取し、採取したアナログ音響信号を、ローパスフィルタ3L及び3Rを介しAD変換器4L及び4Rによって、デジタル信号に変換した音響信号sl(n)及びsr(n)として、メモリ6L及び6Rに記憶する(ステップS11)。
Next, the sound image
音像幅推定装置100は、フィルタバンク7L及び7Rによって、ステップS11でメモリ6L及び6Rに記憶した音響信号sl(n)及びsr(n)を読み出し、複数の周波数帯域fの周波数帯域成分sl(n,f)及びsr(n,f)に分割して、対応する周波数帯域fの周波数帯域別物理特徴量算出手段8fの窓掛け手段20Lf及び20Rfに出力する(ステップS12)。
なお、ここでは、音像幅推定装置100は、フィルタバンク7L及び7Rとして、それぞれ1/6オクターブバンドフィルタを用いて演算する。
The sound image
Here, the sound image
音像幅推定装置100は、窓掛け手段20Lf及び20Rfによって、ステップS12でフィルタバンク7L及び7Rから入力した、対応する周波数帯域fの周波数帯域成分sl(n,f)及びsr(n,f)に対して時間窓w(n)を掛けて、所定の移動幅dずつシフトした位置の、所定の時間長の音響信号ylk(n,f)及びyrk(n,f)を順次に切り出す。
音像幅推定装置100は、窓掛け手段20Lfによって切り出した左チャンネルの音響信号ylk(n,f)を対応する周波数帯域fのレベル算出手段22Lf及びCCC算出手段21fに順次に出力するとともに、窓掛け手段20Rfによって切り出した右チャンネルの音響信号yrk(n,f)を対応する周波数帯域fのレベル算出手段22Rf及びCCC算出手段21fに順次に出力する(ステップS13)。
The sound image
The sound image
音像幅推定装置100は、レベル算出手段22Lf及び22Rfによって、ステップS13でそれぞれ窓掛け手段20Lf及び20Rfから順次に入力した所定の時間長の音響信号ylk(n,f)及びyrk(n,f)から、それぞれレベルslEk(f)及びsrkE(f)を算出して、各周波数帯域fに対応するILD算出手段25fに順次に出力する(ステップS14)。
音像幅推定装置100は、並行して、CCC算出手段によって、ステップS13で窓掛け手段20Lf及び20Rfから順次に入力した音響信号ylk(n,f)及びyrk(n,f)から、両耳間相互相関係数CCCk(f)を算出して、各周波数帯域fに対応するIACC算出手段23f及びITD算出手段24fに順次に出力する(ステップS14)。
The sound image
In parallel, the sound image
音像幅推定装置100は、IACC算出手段23fによって、ステップS14でCCC算出手段21fから入力した両耳間相互相関係数CCCk(f)から両耳間相互相関度IACCk(f)を算出してIACC平均算出手段27fに順次に出力する(ステップS15)。
音像幅推定装置100は、並行して、ITD算出手段24fによって、ステップS14でCCC算出手段21fから入力した両耳間相互相関係数CCCk(f)から両耳間時間差ITDk(f)を算出してITD標準偏差算出手段28fに順次に出力する(ステップS15)。
音像幅推定装置100は、更に並行して、ILD算出手段25fによって、ステップS14でレベル算出手段22Lf及び22Rfから入力したレベルslEk(f)及びsrkE(f)から両耳間レベル差ILDk(f)を算出してILD標準偏差算出手段26fに順次に出力する(ステップS15)。
The sound image
In parallel, the sound image
In parallel, the sound image
音像幅推定装置100は、IACC平均算出手段27fによって、ステップS15でIACC算出手段23fから入力した両耳間相互相関度IACCk(f)から時間軸方向における平均を算出し、算出した当該平均を周波数帯域別物理特徴量xa(f)としてIACC平均代表値算出手段31に順次に出力する(ステップS16)。
音像幅推定装置100は、並行して、ITD標準偏差算出手段28fによって、ステップS15でITD算出手段24fから入力した両耳間時間差ITDk(f)から時間軸方向における標準偏差を算出し、算出した当該標準偏差を周波数帯域別物理特徴量xt(f)としてITD標準偏差代表値算出手段32に順次に出力する(ステップS16)。
音像幅推定装置100は、更に並行して、ILD標準偏差算出手段26fによって、ステップS15でILD算出手段25fから入力した両耳間レベル差ILDk(f)から時間軸方向における標準偏差を算出し、算出した当該標準偏差を周波数帯域別物理特徴量xl(f)としてILD標準偏差代表値算出手段30に順次に出力する(ステップS16)。
The sound image
In parallel, the sound image
In parallel, the sound image
音像幅推定装置100は、IACC平均代表値算出手段31によって、ステップS16でIACC平均算出手段27fから入力した周波数帯域別物理特徴量xa(f)の平均を算出し、算出した当該平均を物理特徴量代表値Xaとして音像幅推定値算出手段10に出力する(ステップS17)。
音像幅推定装置100は、並行して、ITD標準偏差代表値算出手段32によって、ステップS16でITD標準偏差算出手段28fから入力した周波数帯域別物理特徴量xt(f)の平均を算出し、算出した当該平均を物理特徴量代表値Xtとして音像幅推定値算出手段10に出力する(ステップS17)。
音像幅推定装置100は、更に並行して、ILD標準偏差代表値算出手段30によって、ステップS16でILD標準偏差算出手段26fから入力した周波数帯域別物理特徴量xl(f)の平均を算出し、算出した当該平均を物理特徴量代表値Xlとして音像幅推定値算出手段10に出力する(ステップS17)。
The sound image
In parallel, the sound image
In parallel, the sound image
音像幅推定装置100は、音像幅推定値算出手段10によって、ステップS17でIACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30から入力した物理特徴量代表値Xa、Xt及びXlと、ステップS10で推定値重み係数算出手段12によって重み係数記憶手段11に記憶しておいた重み係数Ca、Ct及びClとから、式(12)によって音像幅推定値(ハットy)を算出して表示手段14に出力する(ステップS18)。
The sound image
音像幅推定装置100は、表示手段14によって、ステップS18で音像幅推定値算出手段10から入力した音像幅推定値(ハットy)を視認可能に表示する(ステップS19)。
以上の処理によって、音像幅推定装置100は、音像幅を推定することができる。
The sound image
With the above processing, the sound image
次に、図4を参照(適宜図1及び図2参照)して、図3に示した推定モデル式の重み係数算出処理ステップ(ステップS10)における音像幅推定装置100の動作について説明する。
図4に示すように、音像幅推定装置100は、まず、予め実施した主観評価によって得られた主観評価データyiを不図示の入力手段によって入力し、主観評価データ記憶手段13に記憶する(ステップS30)。
Next, the operation of the sound image
As shown in FIG. 4, the sound image
次に、音像幅推定装置100は、マイクロフォン2L及び2Rによって、ステップS30で入力した主観評価データyiに対応する音響信号をバイノーラル方式で採取し、採取したアナログ音響信号を、ローパスフィルタ3L及び3Rを介しAD変換器4L及び4Rによって、デジタル信号に変換した音響信号sl(n)及びsr(n)として、メモリ6L及び6Rに記憶する(ステップS31)。
Next, the sound image
ステップS32〜ステップS37までの処理は、それぞれ図3に示した処理におけるステップS12〜ステップS17までの処理と同様であるから説明は省略する。
なお、音像幅推定装置100は、ステップS30で入力した主観評価データyiの個数Sに対応して、ステップS31〜ステップS37の処理を繰り返し、推定値重み係数算出手段12に、S組の主観評価データyiと物理特徴量代表値Xai、Xti及びXliとからなるデータを蓄積する。
The processing from step S32 to step S37 is the same as the processing from step S12 to step S17 in the processing shown in FIG.
Note that the sound image
音像幅推定装置100は、推定値重み係数算出手段12によって、ステップS37でIACC平均代表値算出手段31、ITD標準偏差代表値算出手段32及びILD標準偏差代表値算出手段30から入力した物理特徴量代表値Xai、Xti及びXliと、ステップS30で不図示の入力手段から入力して主観評価データ記憶手段13に記憶しておいた主観評価データyiとからなるS組のデータを用いて、最小二乗法によって重み係数Ca、Ct及びClを算出して(ステップS38)、算出した重み係数Ca、Ct及びClを重み係数記憶手段11に記憶する(ステップS39)。
以上で、音像幅推定装置100は、推定モデル式の重み係数算出処理を終了する。
The sound image
Thus, the sound image
次に、図5を参照(適宜図1及び図2参照)して、式(12)に示した本発明における音像幅の推定モデル式で用いる物理特徴量と音像幅の主観評価データとの間のピアソン相関分析の結果について説明する。 Next, referring to FIG. 5 (refer to FIG. 1 and FIG. 2 as appropriate), between the physical feature amount used in the sound image width estimation model expression in the present invention shown in Expression (12) and the subjective evaluation data of the sound image width. The result of Pearson correlation analysis will be described.
図5の(1)〜(4)は、それぞれバイオリンのG線、A線、D線及びE線の開放弦の連続音を音源として用いたピアソン相関分析の結果である。図5の(1)〜(4)において、横軸はフィルタバンク7L及び7Rによって分割する周波数帯域幅を示しており、各図中の左から周波数帯域分割無し(1バンド)、1/1オクターブバンド〜1/96オクターブバンドとした場合について示している。また、縦軸はピアソン相関係数を示している。「◆」、「□」及び「▲」で示したデータは、音像幅の主観評価データと、それぞれ両耳間相互相関度の周波数帯域についての平均である物理特徴量代表値Xa、両耳間時間差の標準偏差の周波数帯域についての平均である物理特徴量代表値Xt及び両耳間レベル差の標準偏差の周波数帯域についての平均である物理特徴量代表値Xlとの相関係数を示している。
(1) to (4) in FIG. 5 are the results of Pearson correlation analysis using continuous sounds of violin G-line, A-line, D-line, and E-line as sound sources, respectively. 5 (1) to (4), the horizontal axis indicates the frequency bandwidth divided by the
何れの結果も、周波数帯域幅を狭くするほど相関が高くなることを示しており、特に1/6オクターブバンド以下で高い相関を示し、1/12オクターブバンド以下の狭帯域とした場合では、相関係数の値は飽和していることがわかる。
この分析結果より、フィルタバンク7L及び7Rによって分割する周波数帯域幅は、好ましくは1/6オクターブバンド以下、より好ましくは1/12オクターブバンド以下とすることによって、安定した精度で音像幅を予測できることがわかる。
Both results show that the correlation becomes higher as the frequency bandwidth is narrowed. In particular, the correlation is high at 1/6 octave band or lower, and in the case of narrow band below 1/12 octave band, It can be seen that the value of the relation number is saturated.
From this analysis result, it is possible to predict the sound image width with stable accuracy by setting the frequency bandwidth divided by the
[第2実施形態]
次に、図6及び図7を参照して、本発明における第2実施形態の音像幅推定装置100Aについて説明する。
図6に示すように、第2実施形態の音像幅推定装置100Aは、図1に示した第1実施形態の音像幅推定装置100とは、演算手段5に替えて演算手段5Aを備えたことが異なる。詳細には、第2実施形態の音像幅推定装置100Aは、図1に示した第1実施形態の音像幅推定装置100とは、物理特徴量代表値算出手段9及び主観評価データ記憶手段13に替えて、それぞれ物理特徴量代表値算出手段9A及び主観評価データ記憶手段13Aを備えたことと、代表値重み係数記憶手段15及び代表値重み係数算出手段16を更に備えたことと、が異なる。
[Second Embodiment]
Next, with reference to FIG.6 and FIG.7, 100 A of sound image width estimation apparatuses of 2nd Embodiment in this invention are demonstrated.
As shown in FIG. 6, the sound image
第1実施形態における物理特徴量代表値算出手段9は、物理特徴量代表値Xa、Xt及びXlとして、それぞれ周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)の平均を算出したが、第2実施形態における物理特徴量代表値算出手段9Aは、物理特徴量代表値Xa、Xt及びXlとして、それぞれ周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)の重み付き平均を算出するものである。
The physical feature quantity representative value calculation means 9 in the first embodiment uses the physical feature quantities x a (f), x t (f), and x 1 as frequency feature representative values X a , X t, and X l , respectively. The average of l (f) is calculated, but the physical feature quantity representative
図7に示すように、第2実施形態における演算手段5Aの物理特徴量代表値算出手段9Aは、図2に示した第1実施形態における演算手段5の物理特徴量代表値算出手段9とは、ILD標準偏差代表値算出手段30、IACC平均代表値算出手段31及びITD標準偏差代表値算出手段32に替えて、ILD標準偏差代表値算出手段30A、IACC平均代表値算出手段31A及びITD標準偏差代表値算出手段32Aを備えたことが異なる。
なお、図1及び図2に示した第1実施形態と同じ構成要素については、同じ符号を付して、説明は適宜省略する。
As shown in FIG. 7, the physical feature quantity representative value calculation means 9A of the calculation means 5A in the second embodiment is the same as the physical feature quantity representative value calculation means 9 of the calculation means 5 in the first embodiment shown in FIG. In place of the ILD standard deviation representative value calculating means 30, the IACC average representative value calculating means 31 and the ITD standard deviation representative value calculating means 32, the ILD standard deviation representative value calculating means 30A, the IACC average representative value calculating means 31A and the ITD standard deviation The difference is that the representative value calculating means 32A is provided.
The same components as those in the first embodiment shown in FIGS. 1 and 2 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
第2実施形態におけるILD標準偏差代表値算出手段30Aは、ILD標準偏差算出手段26fから周波数帯域別物理特徴量xl(f)を入力するとともに、重み係数記憶手段15から重み係数cl(f)を読み出し、物理特徴量代表値Xlとして、式(20−3)によって重み付き平均を算出する。ILD標準偏差代表値算出手段30Aは、算出した物理特徴量代表値Xlを音像幅推定値算出手段10に出力する。
第2実施形態におけるIACC平均代表値算出手段31Aは、IACC平均算出手段27fから周波数帯域別物理特徴量xa(f)を入力するとともに、重み係数記憶手段15から重み係数ca(f)を読み出し、物理特徴量代表値Xaとして、式(20−1)によって重み付き平均を算出する。IACC平均代表値算出手段31Aは、算出した物理特徴量代表値Xaを音像幅推定値算出手段10に出力する。
第2実施形態におけるITD標準偏差代表値算出手段32Aは、ITD標準偏差算出手段28fから周波数帯域別物理特徴量xt(f)を入力するとともに、重み係数記憶手段15から重み係数ct(f)を読み出し、物理特徴量代表値Xtとして、式(20−2)によって重み付き平均を算出する。ITD標準偏差代表値算出手段32Aは、算出した物理特徴量代表値Xtを音像幅推定値算出手段10に出力する。
The ILD standard deviation representative value calculation means 30A in the second embodiment receives the physical characteristic amount x l (f) for each frequency band from the ILD standard deviation calculation means 26 f and the weight coefficient c l ( It reads f), as a physical feature quantity representative values X l, calculates the weighted average by formula (20-3). ILD standard deviation representative value calculating unit 30A outputs the calculated physical characteristic amount representative value X l sound image width estimation
The IACC average representative value calculation means 31A in the second embodiment receives the physical characteristic amount x a (f) for each frequency band from the IACC average calculation means 27 f and the weight coefficient c a (f) from the weight coefficient storage means 15. And a weighted average is calculated as the physical feature value representative value Xa by the equation (20-1). The IACC average representative
The ITD standard deviation representative value calculation means 32A in the second embodiment receives the frequency band-specific physical feature value x t (f) from the ITD standard deviation calculation means 28 f and the weight coefficient storage means 15 from the weight coefficient c t ( It reads f), as a physical feature quantity representative value X t, and calculates the weighted average by formula (20-2). The ITD standard deviation representative value calculating unit 32A outputs the calculated physical feature amount representative value Xt to the sound image width estimated
主観評価データ記憶手段13Aは、図2に示した第1実施形態における主観評価データ記憶手段13と同様に、代表値重み係数算出手段12によって音像幅推定値(ハットy)を算出するための重み係数Ca、Ct及びClを算出する際に用いられる主観評価データyiを記憶する。加えて、主観評価データ記憶手段13Aは、代表値重み係数算出手段16によって物理特徴量代表値Xa、Xt及びXlを算出するための重み係数ca(f)、ct(f)及びcl(f)を算出する際に用いられる主観評価データyiを記憶する。重み係数Ca、Ct及びClを算出する際に用いられる主観評価データyiと重み係数ca(f)、ct(f)及びcl(f)を算出する際に用いられる主観評価データyiとは、同じデータを共用するようにしてもよく、それぞれ異なるデータとしてもよい。
これらの主観評価データyiは、不図示の入力手段によって入力され、主観評価データ記憶手段13Aに記憶される。
Similar to the subjective evaluation
These subjective evaluation data y i are input by an input unit (not shown) and stored in the subjective evaluation
重み係数算出手段16は、主観評価データ記憶手段13Aから主観評価データyiを読み出すとともに、IACC平均算出手段27f、ITD標準偏差算出手段28f及びILD標準偏差算出手段26fからそれぞれ当該主観評価データyiに対応する3種類の周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)を入力し、物理特徴量の種別ごとに、入力した主観評価データyiと周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)とからなる複数組のデータを用いて、式(21−1)、式(21−2)及び式(21−3)に示した音像幅の推定モデル式の重み係数ca(f)、ct(f)及びcl(f)として回帰分析の手法である最小二乗法によって算出する。そして、重み係数算出手段16は、算出した重み係数ca(f)、ct(f)及びcl(f)を重み係数記憶手段15に記憶する。なお、iは、個々の主観評価データを識別する番号である。
The weighting factor calculation means 16 reads the subjective evaluation data y i from the subjective evaluation data storage means 13A, and the subjective evaluation data from the IACC average calculation means 27 f , the ITD standard deviation calculation means 28 f, and the ILD standard deviation calculation means 26 f , respectively. The three types of physical feature amounts x ai (f), x ti (f) and x li (f) corresponding to the data y i are inputted, and the subjective evaluation data y inputted for each type of physical feature amount Using a plurality of sets of data consisting of i and frequency band physical feature quantities x ai (f), x ti (f), and x li (f), equations (21-1), (21-2) and The weighting coefficients c a (f), c t (f), and c l (f) of the estimation model expression of the sound image width shown in Expression (21-3) are calculated by the least square method that is a regression analysis technique. Then, the weighting
ここで、主観評価データyiに対応する周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)とは、当該主観評価データyiを得たときの被験者と同じ音場条件で、ダミーヘッド1に取り付けられたマイクロフォン2L及び2Rを用いて音響信号を採取し、前記した各分析手段を用いて最終的にIACC平均算出手段27f、ITD標準偏差算出手段28f及びILD標準偏差算出手段26fから出力される周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)のことである。
なお、重み係数ca(f)、ct(f)及びcl(f)の算出手法は、前記した第1実施形態における重み係数Ca、Ct及びClの算出手法と同様であるので、説明は省略する。
Here, the subjective evaluation data y i in the corresponding frequency band specific physical feature quantity x ai (f), and x ti (f) and x li (f) includes the subject of when to obtain the subjective evaluation data y i Under the same sound field conditions, acoustic signals are collected using the
The calculation method of the weighting factors c a (f), c t (f), and c l (f) is the same as the calculation method of the weighting factors C a , C t, and C l in the first embodiment described above. Therefore, explanation is omitted.
また、第2実施形態においては、周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)の代表値として重み付き平均を用いるようにしたが、周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)の代表値として、式(22−1)〜式(22−3)に示したように、周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)の物理特徴量の種別ごとの重み付き最大値や、式(23−1)〜式(23−3)に示したように、周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)の物理特徴量の種別ごとの中央値を用いるようにしてもよい。 In the second embodiment, the weighted average is used as the representative value of the physical feature values x a (f), x t (f), and x l (f) for each frequency band. As representative values of the feature quantities x a (f), x t (f), and x l (f), as shown in the formulas (22-1) to (22-3), the physical feature quantities by frequency band x The weighted maximum value for each physical feature quantity type of a (f), x t (f), and x l (f), and the frequency as shown in Expressions (23-1) to (23-3) band specific physical feature quantity x a (f), may be used the median of each type of physical feature values of x t (f) and x l (f).
但し、式(23−1)〜式(23−3)において、median(a1,a2,…,aF)は、( )内の要素a1,a2,…,aFの中の中央値を算出する関数である。
また、これらの式(22−1)〜式(22−3)及び式(23−1)〜式(23−3)における重み係数ca(f)、ct(f)及びcl(f)は、前記した重み付き平均の算出手法と同様の手法により定めることができる。
However, the formula (23-1) to formula in (23-3), median (a 1, a 2, ..., a F) is () elements a 1, a 2 in, ..., in a F This function calculates the median.
In addition, the weight coefficients c a (f), c t (f), and c l (f) in these expressions (22-1) to (22-3) and (23-1) to (23-3) ) Can be determined by the same method as the weighted average calculation method described above.
重み係数記憶手段15は、代表値重み係数算出手段16によって算出した、式(21−1)、式(21−2)及び式(21−3)に示した音像幅の推定モデル式の重み係数ca(f)、ct(f)及びcl(f)、すなわち式(20−1)〜式(20−3)に示した物理特徴量代表値Xa、Xt及びXlの算出式の重み係数ca(f)、ct(f)及びcl(f)を記憶する記憶手段である。重み係数記憶手段15に記憶した重み係数ca(f)、ct(f)及びcl(f)は、IACC平均代表値算出手段31A、ITD標準偏差代表値算出手段32A及びILD標準偏差代表値算出手段30Aによって読み出され、それぞれ物理特徴量代表値Xa、Xt及びXlの算出に用いられる。
The weighting coefficient storage means 15 is a weighting coefficient of the estimated model expression of the sound image width shown in the expressions (21-1), (21-2) and (21-3) calculated by the representative value weighting coefficient calculating means 16. Calculation of c a (f), c t (f), and c l (f), that is, physical feature representative values X a , X t, and X l shown in equations (20-1) to (20-3) Storage means for storing the weighting factors c a (f), c t (f) and c l (f) of the equation . The weighting coefficients c a (f), c t (f), and c l (f) stored in the weighting
第2実施形態における推定値重み係数算出手段12は、第1実施形態における推定値重み係数算出手段12と同様の手法で、式(12)に示した推定モデル式の重み係数Ca、Ct及びClを算出し、算出した重み係数Ca、Ct及びClを重み係数記憶手段11に記憶する。 The estimated value weighting coefficient calculating means 12 in the second embodiment is a method similar to the estimated value weighting coefficient calculating means 12 in the first embodiment, and the weighting factors C a and C t of the estimated model formula shown in Expression (12) And C l are calculated, and the calculated weight coefficients C a , C t and C l are stored in the weight coefficient storage means 11.
なお、このとき、IACC平均代表値算出手段31A、ITD標準偏差代表値算出手段32A及びILD標準偏差代表値算出手段30Aは、それぞれ代表値重み係数算出手段16によって予め算出された重み係数ca(f)、ct(f)及びcl(f)を重み係数記憶手段15から読み出し、読み出した重み係数ca(f)、ct(f)及びcl(f)と、それぞれIACC平均算出手段27f、ITD標準偏差算出手段28f及びILD標準偏差算出手段26fから入力した周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)とから、それぞれ物理特徴量代表値Xa、Xt及びXlを算出し、算出した物理特徴量代表値Xa、Xt及びXlを推定値重み係数算出手段12に出力する。
At this time, the IACC average representative value calculating means 31A, the ITD standard deviation representative value calculating means 32A, and the ILD standard deviation representative value calculating means 30A are respectively weight coefficients c a (calculated in advance by the representative value weight coefficient calculating means 16). f), c t (f) and c l (f) are read from the weight coefficient storage means 15, and the read weight coefficients c a (f), c t (f) and c l (f) are respectively calculated as IACC averages. From the physical features x a (f), x t (f), and x l (f) for each frequency band inputted from the
次に、図8を参照(適宜図6及び図7参照)して、第2実施形態の音像幅推定装置100Aの動作について説明する。
図8に示すように、音像幅推定装置100Aは、まず、代表値重み係数算出手段16によって、式(20−1)〜式(20−3)に示した物理特徴量代表値Xa、Xt及びXlの算出式の重み係数ca(f)、ct(f)及びcl(f)を算出して、重み係数記憶手段15に記憶しておく(ステップS50)。既に重み係数ca(f)、ct(f)及びcl(f)が重み係数記憶手段15に記憶されている場合は、この物理特徴量代表値算出用の重み係数算出処理ステップは省略することができる。なお、物理特徴量代表値算出用の重み係数算出処理ステップの詳細については後記する。
Next, the operation of the sound image
As illustrated in FIG. 8, the sound image
続いて、音像幅推定装置100Aは、推定値重み係数算出手段12によって、式(12)に示した推定モデル式における重み係数Ca、Ct及びClを算出して、重み係数記憶手段11に記憶しておく(ステップS51)。既に重み係数Ca、Ct及びClが重み係数記憶手段11に記憶されている場合は、この推定モデル式の重み係数算出処理ステップは省略することができる。なお、本ステップS51は、図3に示した第1実施形態の音像幅推定装置100の処理におけるステップS10と同様であるので、詳細な説明は省略する。
Subsequently, the sound image
ステップS52〜ステップS57の処理は、それぞれ図3に示した第1実施形態の音像幅推定装置100の処理におけるステップS11〜ステップS16と同様であるので、説明は省略する。
The processes in steps S52 to S57 are the same as steps S11 to S16 in the process of the sound image
音像幅推定装置100Aは、IACC平均代表値算出手段31Aによって、ステップS57でIACC平均算出手段27fから入力した周波数帯域別物理特徴量xa(f)と、ステップS50で重み係数記憶手段15に記憶しておいた重み係数ca(f)とから、式(20−1)によって重み付き平均を算出し、算出した当該重み付き平均を物理特徴量代表値Xaとして音像幅推定値算出手段10に出力する(ステップS58)。
音像幅推定装置100Aは、並行して、ITD標準偏差代表値算出手段32Aによって、ステップS57でITD標準偏差算出手段28fから入力した周波数帯域別物理特徴量xt(f)と、ステップS50で重み係数記憶手段15に記憶しておいた重み係数ct(f)とから、式(20−2)によって重み付き平均を算出し、算出した当該重み付き平均を物理特徴量代表値Xtとして音像幅推定値算出手段10に出力する(ステップS58)。
音像幅推定装置100Aは、更に並行して、ILD標準偏差代表値算出手段30Aによって、ステップS50でILD標準偏差算出手段26fから入力した周波数帯域別物理特徴量xl(f)と、ステップS50で重み係数記憶手段15に記憶しておいた重み係数cl(f)とから、式(20−3)によって重み付き平均を算出し、算出した当該重み付き平均を物理特徴量代表値Xlとして音像幅推定値算出手段10に出力する(ステップS58)。
Sound image
Sound
Sound
音像幅推定装置100Aは、音像幅推定値算出手段10によって、ステップS58でIACC平均代表値算出手段31A、ITD標準偏差代表値算出手段32A及びILD標準偏差代表値算出手段30Aから入力した物理特徴量代表値Xa、Xt及びXlと、ステップS51で推定値重み係数算出手段12によって重み係数記憶手段11に記憶しておいた重み係数Ca、Ct及びClとから、式(12)によって音像幅推定値(ハットy)を算出して表示手段14に出力する(ステップS59)。
The sound image
音像幅推定装置100Aは、表示手段14によって、ステップS59で音像幅推定値算出手段10から入力した音像幅推定値(ハットy)を視認可能に表示する(ステップS60)。
以上の処理によって、音像幅推定装置100Aは、音像幅を推定することができる。
The sound image
With the above processing, the sound image
次に、図9を参照(適宜図6及び図7参照)して、図8に示した物理特徴量代表値算出用の重み係数算出処理ステップ(ステップS50)における音像幅推定装置100Aの動作について説明する。
図9に示すように、音像幅推定装置100Aは、まず、予め実施した主観評価によって得られた主観評価データyiを不図示の入力手段によって入力し、主観評価データ記憶手段13Aに記憶する(ステップS70)。
Next, referring to FIG. 9 (refer to FIG. 6 and FIG. 7 as appropriate), the operation of the sound image
As shown in FIG. 9, the sound image
次に、音像幅推定装置100Aは、マイクロフォン2L及び2Rによって、ステップS70で入力した主観評価データyiに対応する音響信号をバイノーラル方式で採取し、採取したアナログ音響信号を、ローパスフィルタ3L及び3Rを介しAD変換器4L及び4Rによって、デジタル信号に変換した音響信号sl(n)及びsr(n)として、メモリ6L及び6Rに記憶する(ステップS71)。
Next, the sound image
ステップS72〜ステップS76までの処理は、それぞれ図8に示した処理におけるステップS53〜ステップS57までの処理と同様であるから説明は省略する。
なお、音像幅推定装置100Aは、ステップS70で入力した主観評価データyiの個数Sに対応して、ステップS71〜ステップS76の処理を繰り返し、代表値重み係数算出手段16に、S組の主観評価データyiと周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)とからなるデータを蓄積する。
The processing from step S72 to step S76 is the same as the processing from step S53 to step S57 in the processing shown in FIG.
Note that the sound image
音像幅推定装置100Aは、代表値重み係数算出手段16によって、ステップS76でIACC平均代表値算出手段31A、ITD標準偏差代表値算出手段32A及びILD標準偏差代表値算出手段30Aから入力した周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)と、ステップS70で不図示の入力手段から入力して主観評価データ記憶手段13Aに記憶しておいた主観評価データyiとからなるS組のデータを用いて、最小二乗法によって重み係数ca(f)、ct(f)及びcl(f)を算出して(ステップS78)、算出した重み係数ca(f)、ct(f)及びcl(f)を重み係数記憶手段15に記憶する(ステップS79)。
以上で、音像幅推定装置100Aは、物理特徴量代表値算出用の重み係数算出処理を終了する。
The sound image
Thus, the sound image
[第3実施形態]
次に、図10を参照して、本発明における第3実施形態の音像幅推定装置100Bについて説明する。
図10に示すように、第3実施形態の音像幅推定装置100Bは、図1に示した第1実施形態の音像幅推定装置100とは、演算手段5に替えて演算手段5Bを備えたことが異なる。詳細には、第3実施形態の音像幅推定装置100Bは、図1に示した第1実施形態の音像幅推定装置100とは、物理特徴量代表値算出手段9を備えていないことと、音像幅推定値算出手段10、重み係数記憶手段11及び主観評価データ記憶手段13に替えて、それぞれ音像幅推定値算出手段10B、重み係数記憶手段11B及び主観評価データ記憶手段13Bを備えたことと、が異なる。
[Third Embodiment]
Next, a sound image
As shown in FIG. 10, the sound image
第1実施形態における音像幅推定値算出手段10は、物理特徴量代表値算出手段9によって算出した物理特徴量代表値Xa、Xt及びXlを用いた推定モデル式によって音像幅推定値(ハットy)を算出するのに対して、第3実施形態における音像幅推定値算出手段10Bは、周波数帯域別物理特徴量算出手段8fによって算出した個々の周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)を物理特徴量として扱い、これらの周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)を用いた推定モデル式によって音像幅推定値(ハットy)を算出するものである。
なお、図1に示した第1実施形態と同じ構成要素については、同じ符号を付して、説明は適宜省略する。
The sound image width estimated value calculating means 10 in the first embodiment is a sound image width estimated value (in accordance with an estimation model formula using physical feature quantity representative values X a , X t and X l calculated by the physical feature quantity representative
The same constituent elements as those in the first embodiment shown in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
第3実施形態における音像幅推定値算出手段10Bは、周波数帯域別物理特徴量算出手段8fのIACC平均算出手段27f、ITD標準偏差算出手段28f及びILD標準偏差算出手段26f(図2参照)から、それぞれ周波数帯域別の両耳間相互相関度の時間軸方向の平均である周波数帯域別物理特徴量xa(f)、周波数帯域別の両耳間時間差の時間軸方向の標準偏差である周波数帯域別物理特徴量xt(f)及び周波数帯域別の両耳間レベル差の時間軸方向の標準偏差である周波数帯域別物理特徴量xl(f)を入力するとともに、重み係数記憶手段11Bから重み係数ca(f)、ct(f)及びcl(f)を読み出し、式(24)に示した推定モデル式によって音像幅推定値(ハットy)を算出する。音像幅推定値算出手段10Bは、算出した音像幅推定値(ハットy)を表示手段14に出力する。
Sound width estimation value calculation means in the
なお、推定モデル式は、式(24)に限定されるものではなく、例えば、式(25)のように周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)によって表される他の推定モデル式を用いるようにしてもよい。 Note that the estimation model formula is not limited to the formula (24). For example, as shown in the formula (25), the physical feature amounts x a (f), x t (f), and x l (f) for each frequency band. Other estimation model formulas represented by) may be used.
重み係数記憶手段11Bは、推定値重み係数算出手段12Bによって算出した式(24)に示した推定モデル式の重み係数ca(f)、ct(f)及びcl(f)を記憶する記憶手段である。重み係数記憶手段11Bに記憶した重み係数ca(f)、ct(f)及びcl(f)は、音像幅の推定を行う際に、音像幅推定値算出手段10Bによって読み出され、音像幅推定値(ハットy)の算出に用いられる。
The weighting
推定値重み係数算出手段12Bは、主観評価データ記憶手段13Bから主観評価データyiを読み出すとともに、周波数帯域別物理特徴量算出手段8fのIACC平均算出手段27f、ITD標準偏差算出手段28f及びILD標準偏差算出手段26f(図2参照)からそれぞれ当該主観評価データyiに対応する3種類の周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)を入力し、入力した主観評価データyiと周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)とからなる複数組のデータを用いて、式(24)に示した音像幅の推定モデル式の重み係数ca(f)、ct(f)及びcl(f)として回帰分析の手法である最小二乗法によって算出する。そして、重み係数算出手段12Bは、算出した重み係数ca(f)、ct(f)及びcl(f)を重み係数記憶手段11Bに記憶する。なお、iは、個々の主観評価データを識別する番号である。
The estimated value weighting coefficient calculation means 12B reads the subjective evaluation data y i from the subjective evaluation data storage means 13B, and at the same time, the IACC average calculation means 27 f and the ITD standard deviation calculation means 28 f of the physical characteristic amount calculation means 8 f by frequency band. And ILD standard deviation calculation means 26 f (see FIG. 2), three types of frequency feature physical characteristics x ai (f), x ti (f) and x li (f) corresponding to the subjective evaluation data y i , respectively. And a plurality of sets of data consisting of the input subjective evaluation data y i and frequency band physical feature quantities x ai (f), x ti (f), and x li (f), The weight coefficients c a (f), c t (f), and c l (f) of the estimation model formula of the sound image width shown in FIG. 6 are calculated by the least square method that is a regression analysis method. Then, the weighting
ここで、主観評価データyiに対応する周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)とは、当該主観評価データyiを得たときの被験者と同じ音場条件で、ダミーヘッド1に取り付けられたマイクロフォン2L及び2Rを用いて音響信号を採取し、前記した各分析手段を用いて最終的にIACC平均算出手段27f、ITD標準偏差算出手段28f及びILD標準偏差算出手段26f(図2参照)から出力される周波数帯域別物理特徴量xai(f)、xti(f)及びxli(f)のことである。
なお、重み係数ca(f)、ct(f)及びcl(f)の算出手法は、前記した第1実施形態における重み係数Ca、Ct及びClの算出手法と同様であるので、説明は省略する。
Here, the subjective evaluation data y i in the corresponding frequency band specific physical feature quantity x ai (f), and x ti (f) and x li (f) includes the subject of when to obtain the subjective evaluation data y i Under the same sound field conditions, acoustic signals are collected using the
The calculation method of the weighting factors c a (f), c t (f), and c l (f) is the same as the calculation method of the weighting factors C a , C t, and C l in the first embodiment described above. Therefore, explanation is omitted.
第3実施形態における推定値重み係数算出手段12Bは、第1実施形態における推定値重み係数算出手段12と同様の手法で、式(24)に示した推定モデル式の重み係数ca(f)、ct(f)及びcl(f)を算出し、算出した重み係数ca(f)、ct(f)及びcl(f)を重み係数記憶手段11Bに記憶する。
The estimated value weight coefficient calculating means 12B in the third embodiment is the same method as the estimated value weight coefficient calculating means 12 in the first embodiment, and the weight coefficient c a (f) of the estimated model equation shown in Expression (24). , C t (f) and c l (f) are calculated, and the calculated weight coefficients c a (f), c t (f) and c l (f) are stored in the weight
主観評価データ記憶手段13Bは、推定値重み係数算出手段12Bによって音像幅推定値(ハットy)を算出するための重み係数ca(f)、ct(f)及びcl(f)を算出する際に用いられる主観評価データyiを記憶する。主観評価データyiは、不図示の入力手段によって入力され、主観評価データ記憶手段13Bに記憶される。
The subjective evaluation
次に、図11を参照(適宜図10参照)して、第3実施形態の音像幅推定装置100Bの動作について説明する。
図11に示すように、音像幅推定装置100Bは、まず、推定値重み係数算出手段12Bによって、式(24)に示した音像幅推定値(ハットy)の推定モデル式の重み係数ca(f)、ct(f)及びcl(f)を算出して、重み係数記憶手段11Bに記憶しておく(ステップS90)。既に重み係数ca(f)、ct(f)及びcl(f)が重み係数記憶手段11Bに記憶されている場合は、この推定モデル式の重み係数算出処理ステップは省略することができる。なお、推定モデル式の重み係数算出処理ステップは、図3に示した第1実施形態における推定モデル式の重み係数算出処理ステップとは、説明変数として物理特徴量代表値Xa、Xt及びXlに替えて周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)を用い、重み係数Ca、Ct及びClに替えて重み係数ca(f)、ct(f)及びcl(f)を算出すること以外は、同様であるので、詳細な説明は省略する。
Next, referring to FIG. 11 (refer to FIG. 10 as appropriate), the operation of the sound image
As shown in FIG. 11, the sound image
ステップS91〜ステップS96の処理は、それぞれ図3に示した第1実施形態の音像幅推定装置100の処理におけるステップS11〜ステップS16と同様であるので、説明は省略する。
The processing in steps S91 to S96 is the same as that in steps S11 to S16 in the processing of the sound image
音像幅推定装置100Bは、音像幅推定値算出手段10Bによって、ステップS96で周波数帯域別物理特徴量算出手段8fのIACC平均算出手段27f、ITD標準偏差算出手段28f及びILD標準偏差算出手段26f(図2参照)からそれぞれ入力した周波数帯域別物理特徴量xa(f)、xt(f)及びxl(f)と、ステップS90で重み係数記憶手段11Bに記憶しておいた重み係数ca(f)、ct(f)及びcl(f)とから、式(24)によって音像幅推定値(ハットy)を算出し、算出した音像幅推定値(ハットy)を表示手段14に出力する(ステップS97)。
The sound image
音像幅推定装置100Bは、表示手段14によって、ステップS97で音像幅推定値算出手段10Bから入力した音像幅推定値(ハットy)を視認可能に表示する(ステップS98)。
以上の処理によって、音像幅推定装置100Bは、音像幅を推定することができる。
The sound image
With the above processing, the sound image
次に、本発明の実施例について説明する。
図1及び図2に示した音像幅推定装置100において、音源SSとして、バイオリンの各開放弦による連続音を録音して用いた。主観評価は、図12に示すような実験装置110を用いて、被験者SUBを中心とした被験者SUBの前方側の半円SC上に適宜スピーカSS1〜SS3を配置して、録音しておいたバイオリンの連続音を再生して行った。このとき、音源であるスピーカSS1〜SS3の配置個数及び被験者SUBを中心とするスピーカSS1〜SS3の配置角度θSSを調整することにより、被験者SUBが様々な音像幅を知覚できるように制御した。
音像幅の主観評価値は、被験者SUBの頭部の中心を視点とする水平方向の角度θに変換した。
Next, examples of the present invention will be described.
In the sound image
The subjective evaluation value of the sound image width was converted into a horizontal angle θ with the center of the head of the subject SUB as the viewpoint.
次に、前記した主観評価と同じ音場条件で、被験者SUBが評価したときと同じ位置にダミーヘッド1を配置し、マイクロフォン2L及び2Rを用いてバイノーラル方式で音響信号を採取した。採取した音響信号に対して、図1及び図2に示した音像幅推定装置100を用いて、音像幅の推定値(ハットy)を算出した。このとき、下限周波数を150Hz、上限周波数を12kHzとする1/24オクターブフィルタによって構成されるフィルタバンク7L及び7Rを用いて周波数帯域の分割を行った。
Next, the
本実施例においては、20種類の音刺激に対する主観評価を行った。その結果を図13に示す。図13においては、横軸に音像幅の推定値(ハットy)、縦軸に音像幅の主観評価値をとり、結果を示した。図13に示すように、本発明によって、従来技術による手法に比べて良好に音像幅の推定を行うことができる。
なお、本実施例では、音像幅の推定モデル式として、物理特徴量の線形関数を用いたが、これに限定されるものではなく、物理特徴量の二次関数、べき関数、指数関数などを用いるようにすることもできる。
In this example, subjective evaluation was performed on 20 types of sound stimuli. The result is shown in FIG. In FIG. 13, the horizontal axis represents the estimated value of the sound image width (hat y), and the vertical axis represents the subjective evaluation value of the sound image width, and the results are shown. As shown in FIG. 13, according to the present invention, it is possible to estimate the sound image width better than the conventional technique.
In the present embodiment, the linear function of the physical feature amount is used as the estimation model formula of the sound image width, but is not limited to this, and a quadratic function, a power function, an exponential function, etc. of the physical feature amount are used. It can also be used.
1 ダミーヘッド
2L、2R マイクロフォン
3L、3R ローパスフィルタ
4L、4R AD変換器
5、5A、5B 演算手段
6L、6R メモリ
7L、7R フィルタバンク(周波数帯域分割手段)
8f 周波数帯域別物理特徴量算出手段(周波数帯域別特徴量算出手段)
9、9A 物理特徴量代表値算出手段(物理特徴量算出手段)
10、10B 音像幅推定値算出手段(推定値算出手段)
11、11B 重み係数記憶手段
12、12B 推定値重み係数算出手段(重み係数算出手段)
13、13A、13B 主観評価データ記憶手段
14 表示手段
15 重み係数記憶手段
16 代表値重み係数算出手段
20Lf、20Rf 窓掛け手段
21f CCC算出手段
22Lf、22Rf レベル算出手段
23f IACC算出手段
24f ITD算出手段
25f ILD算出手段
26f ILD標準偏差算出手段
27f IACC平均算出手段
28f ITD標準偏差算出手段
30、30A ILD標準偏差代表値算出手段
31、31A IACC平均代表値算出手段
32、32A ITD標準偏差代表値算出手段
100、100A、100B 音像幅推定装置
SS、SS1〜SS3 音源
SUB 被験者
DESCRIPTION OF
8 f frequency band specific physical feature calculating unit (frequency band feature quantity calculating means)
9, 9A Physical feature quantity representative value calculation means (physical feature quantity calculation means)
10, 10B Sound image width estimated value calculating means (estimated value calculating means)
11, 11B Weight coefficient storage means 12, 12B Estimated value weight coefficient calculation means (weight coefficient calculation means)
13, 13A, 13B Subjective evaluation data storage means 14 Display means 15 Weight coefficient storage means 16 Representative value weight coefficient calculation means 20L f , 20R f Windowing means 21 f CCC calculation means 22L f , 22R f level calculation means 23 f
Claims (7)
前記左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、周波数帯域幅が1/6オクターブ以下の複数の周波数帯域のサブバンド信号に分割する周波数帯域分割手段と、
前記周波数帯域分割手段によって分割したサブバンド信号から、前記サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つを前記サブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する周波数帯域別特徴量算出手段と、
前記周波数帯域別特徴量算出手段によって算出した周波数帯域別特徴量に基づいて前記物理特徴量を算出する物理特徴量算出手段と、
前記物理特徴量算出手段によって算出した物理特徴量を、前記推定モデル式に適用して前記音像幅の推定値を算出する推定値算出手段と、
を備えたことを特徴とする音像幅推定装置。 A physical feature amount is calculated from a digital acoustic signal having two channels on the left and right, and the calculated sound feature width is applied to a model image estimation model of the sound image width including the physical feature amount and a weight coefficient. A sound image width estimating device for
Frequency band dividing means for dividing the digital audio signal consisting of two left and right channels into a plurality of frequency band subband signals having a frequency bandwidth of 1/6 octave or less for each of the left and right channel audio signals;
From the subband signals divided by the frequency band dividing means, the interaural cross-correlation, the standard deviation in the time axis direction of the binaural time difference, or the standard in the time axis direction of the binaural level difference for each subband signal. A frequency band feature quantity calculating means for calculating a frequency band feature quantity which is a feature quantity by frequency band representing a difference between the left and right channels of the subband signal as at least one of the deviations;
Physical feature quantity calculating means for calculating the physical feature quantity based on the frequency band feature quantity calculated by the frequency band feature quantity calculating means;
An estimated value calculating means for calculating the estimated value of the sound image width by applying the physical feature value calculated by the physical feature value calculating means to the estimated model equation;
A sound image width estimation apparatus comprising:
前記左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、周波数帯域幅が1/6オクターブ以下の複数の周波数帯域のサブバンド信号に分割する周波数帯域分割手段と、
前記周波数帯域分割手段によって分割したサブバンド信号から、前記サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つを前記サブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する周波数帯域別特徴量算出手段と、
前記周波数帯域別特徴量算出手段によって算出した個々の周波数帯域別特徴量を前記物理特徴量として、前記推定モデル式に適用して前記音像幅の推定値を算出する推定値算出手段と、
を備えたことを特徴とする音像幅推定装置。 A physical feature amount is calculated from a digital acoustic signal having two channels on the left and right, and the calculated sound feature width is applied to a model image estimation model of the sound image width including the physical feature amount and a weight coefficient. A sound image width estimating device for
Frequency band dividing means for dividing the digital audio signal consisting of two left and right channels into a plurality of frequency band subband signals having a frequency bandwidth of 1/6 octave or less for each of the left and right channel audio signals;
From the subband signals divided by the frequency band dividing means, the interaural cross-correlation, the standard deviation in the time axis direction of the binaural time difference, or the standard in the time axis direction of the binaural level difference for each subband signal. A frequency band feature quantity calculating means for calculating a frequency band feature quantity which is a feature quantity by frequency band representing a difference between the left and right channels of the subband signal as at least one of the deviations;
Estimated value calculating means for calculating the estimated value of the sound image width by applying the individual characteristic values for each frequency band calculated by the frequency band characteristic amount calculating means to the estimation model formula as the physical feature quantities;
A sound image width estimation apparatus comprising:
前記左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、予め定められた複数の周波数帯域のサブバンド信号に分割する周波数帯域分割手段、
前記周波数帯域分割手段によって分割したサブバンド信号から、前記サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つを前記サブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する周波数帯域別特徴量算出手段、
前記周波数帯域別特徴量算出手段によって算出した周波数帯域別特徴量に基づいて前記物理特徴量を算出する物理特徴量算出手段、
前記物理特徴量算出手段によって算出した物理特徴量を、前記推定モデル式に適用して前記音像幅の推定値を算出する推定値算出手段、
として機能させることを特徴とする音像幅推定プログラム。 A physical feature amount is calculated from a digital acoustic signal having two channels on the left and right, and the calculated sound feature width is applied to a model image estimation model of the sound image width including the physical feature amount and a weight coefficient. Computer to
Frequency band dividing means for dividing the digital audio signal consisting of two channels on the left and right into subband signals of a plurality of predetermined frequency bands for each of the left and right channel audio signals;
From the subband signals divided by the frequency band dividing means, the interaural cross-correlation, the standard deviation in the time axis direction of the binaural time difference, or the standard in the time axis direction of the binaural level difference for each subband signal. Frequency band feature quantity calculating means for calculating a frequency band feature quantity which is a feature quantity by frequency band representing a difference between the left and right channels of the subband signal as at least one of the deviations;
Physical feature quantity calculating means for calculating the physical feature quantity based on the frequency band feature quantity calculated by the frequency band feature quantity calculating means;
An estimated value calculating means for calculating the estimated value of the sound image width by applying the physical feature value calculated by the physical feature value calculating means to the estimated model equation;
A sound image width estimation program that functions as a computer program.
前記左右に2チャンネルからなるデジタル音響信号を、左右のチャンネルの音響信号ごとに、予め定められた複数の周波数帯域のサブバンド信号に分割する周波数帯域分割手段、
前記周波数帯域分割手段によって分割したサブバンド信号から、前記サブバンド信号ごとに、両耳間相互相関度、両耳間時間差の時間軸方向における標準偏差又は両耳間レベル差の時間軸方向における標準偏差の中の少なくとも一つを前記サブバンド信号の左右のチャンネルにおける違いを表す周波数帯域別の特徴量である周波数帯域別特徴量を算出する周波数帯域別特徴量算出手段、
前記周波数帯域別特徴量算出手段によって算出した個々の周波数帯域別特徴量を前記物理特徴量として、前記推定モデル式に適用して前記音像幅の推定値を算出する推定値算出手段、
として機能させることを特徴とする音像幅推定プログラム。
A physical feature amount is calculated from a digital acoustic signal having two channels on the left and right, and the calculated sound feature width is applied to a model image estimation model of the sound image width including the physical feature amount and a weight coefficient. Computer to
Frequency band dividing means for dividing the digital audio signal consisting of two channels on the left and right into subband signals of a plurality of predetermined frequency bands for each of the left and right channel audio signals;
From the subband signals divided by the frequency band dividing means, the interaural cross-correlation, the standard deviation in the time axis direction of the binaural time difference, or the standard in the time axis direction of the binaural level difference for each subband signal. Frequency band feature quantity calculating means for calculating a frequency band feature quantity which is a feature quantity by frequency band representing a difference between the left and right channels of the subband signal as at least one of the deviations;
Estimated value calculating means for calculating the estimated value of the sound image width by applying each frequency band-specific feature value calculated by the frequency band-specific feature value calculating means to the estimated model equation as the physical feature value;
A sound image width estimation program that functions as a computer program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009048814A JP5033156B2 (en) | 2009-03-03 | 2009-03-03 | Sound image width estimation apparatus and sound image width estimation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009048814A JP5033156B2 (en) | 2009-03-03 | 2009-03-03 | Sound image width estimation apparatus and sound image width estimation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010204325A JP2010204325A (en) | 2010-09-16 |
JP5033156B2 true JP5033156B2 (en) | 2012-09-26 |
Family
ID=42965881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009048814A Expired - Fee Related JP5033156B2 (en) | 2009-03-03 | 2009-03-03 | Sound image width estimation apparatus and sound image width estimation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5033156B2 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2561822B2 (en) * | 1986-09-25 | 1996-12-11 | クラリオン株式会社 | FM stereo receiver |
JPH0787600A (en) * | 1993-09-17 | 1995-03-31 | Casio Comput Co Ltd | Sound image localization controller |
JP3584287B2 (en) * | 2001-08-09 | 2004-11-04 | 国立大学法人神戸大学 | Sound evaluation method and system |
JP4940671B2 (en) * | 2006-01-26 | 2012-05-30 | ソニー株式会社 | Audio signal processing apparatus, audio signal processing method, and audio signal processing program |
-
2009
- 2009-03-03 JP JP2009048814A patent/JP5033156B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010204325A (en) | 2010-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0762804B1 (en) | Three-dimensional acoustic processor which uses linear predictive coefficients | |
ES2892773T3 (en) | Audio processor for generating a reverberated signal from a direct signal and method therefor | |
JP5693201B2 (en) | Method and apparatus for reproducing propagation sound from specified area | |
JP4496186B2 (en) | Sound source separation device, sound source separation program, and sound source separation method | |
Wan et al. | Application of an extended equalization-cancellation model to speech intelligibility with spatially distributed maskers | |
Ryu et al. | Subjective and objective evaluations of a scattered sound field in a scale model opera house | |
van Dorp Schuitman et al. | Deriving content-specific measures of room acoustic perception using a binaural, nonlinear auditory model | |
Lee et al. | The effect of loudness on the reverberance of music: Reverberance prediction using loudness models | |
Ziemer | Source width in music production. methods in stereo, ambisonics, and wave field synthesis | |
Zagala et al. | Comparison of direct and indirect perceptual head-related transfer function selection methods | |
JP4130779B2 (en) | Sound field control system and sound field control method | |
CN112584277B (en) | Indoor audio frequency equalizing method | |
Ward et al. | SiSEC 2018: State of the art in musical audio source separation-subjective selection of the best algorithm | |
JP5033156B2 (en) | Sound image width estimation apparatus and sound image width estimation program | |
Won et al. | Simulation of one‘s own voice in a two-parameter model | |
Inoue et al. | Evaluation of HRTFs estimated using physical features | |
CN109068262B (en) | A kind of acoustic image personalization replay method and device based on loudspeaker | |
Qian et al. | The role of spectral modulation cues in virtual sound localization | |
JP5658483B2 (en) | Reality estimation device and program thereof | |
JP6998823B2 (en) | Multi-channel objective evaluation device and program | |
Osses Vecchi et al. | Assessing the perceived reverberation in different rooms for a set of musical instrument sounds | |
DK176170B1 (en) | Method for the objective determination of subjective characteristics of a binaural audio signal | |
Li et al. | Evaluation of headphone phase equalization on sound reproduction | |
Tenenbaum et al. | Virtual reality: A new approach to validate computer modeling auralizations by using articulation indexes | |
Rychtáriková et al. | Laboratory listening tests in building and room acoustics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120529 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120605 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120629 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150706 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |