JP2014052585A - Sound processing device - Google Patents

Sound processing device Download PDF

Info

Publication number
JP2014052585A
JP2014052585A JP2012198329A JP2012198329A JP2014052585A JP 2014052585 A JP2014052585 A JP 2014052585A JP 2012198329 A JP2012198329 A JP 2012198329A JP 2012198329 A JP2012198329 A JP 2012198329A JP 2014052585 A JP2014052585 A JP 2014052585A
Authority
JP
Japan
Prior art keywords
average
reverberation
acoustic signal
coefficient
intensity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012198329A
Other languages
Japanese (ja)
Inventor
Tatsuya Komatsu
達也 小松
Kazuya Takeda
一哉 武田
Kazunobu Kondo
多伸 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya University NUC
Yamaha Corp
Original Assignee
Nagoya University NUC
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya University NUC, Yamaha Corp filed Critical Nagoya University NUC
Priority to JP2012198329A priority Critical patent/JP2014052585A/en
Publication of JP2014052585A publication Critical patent/JP2014052585A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To effectively adjust a reverberation component of a sound signal by simple processing.SOLUTION: A variable setting unit 42 sets a reverberation time T. A coefficient identification unit 44 identifies a smoothing coefficient α corresponding to the reverberation time T. An intensity average unit 46 calculates an average spectrum P(k) by an index moving average of a power spectrum P(k, m) of a sound signal x(n) to which the smoothing coefficient α identified by the coefficient identification unit 44 is applied. An adjustment value calculation unit 48 calculates an adjustment value G(k, m) for suppressing a reverberation component of the sound signal x(n) according to a ratio P(k, m)/P(k) of the power spectrum P(k, m) for the average spectrum P(k). The reverberation component is suppressed by making the adjustment value G(k, m) calculated by the adjustment value calculation unit 48 act on the sound signal x(n).

Description

本発明は、音響信号を処理する技術に関し、特に、音響信号に含まれる残響成分を調整する技術に関する。   The present invention relates to a technique for processing an acoustic signal, and more particularly to a technique for adjusting a reverberation component included in an acoustic signal.

音響信号に含まれる残響成分を抑圧する技術が従来から提案されている。例えば特許文献1には、音響信号に含まれる残響成分を推定する予測フィルタ係数の確率モデルを利用することで残響成分の予測フィルタ係数を推定し、推定後の予測フィルタを利用して残響成分を抑圧する技術が開示されている。また、非特許文献1には、発音源から収音点までの伝達関数の逆フィルタを推定し、推定後の逆フィルタを音響信号に適用することで残響成分を抑圧する技術が開示されている。   Techniques for suppressing reverberation components included in acoustic signals have been conventionally proposed. For example, in Patent Document 1, a prediction filter coefficient of a reverberation component is estimated by using a probability model of a prediction filter coefficient that estimates a reverberation component included in an acoustic signal, and a reverberation component is calculated using a prediction filter after estimation. Techniques for suppressing are disclosed. Non-Patent Document 1 discloses a technique for suppressing a reverberation component by estimating an inverse filter of a transfer function from a sound source to a sound collection point and applying the estimated inverse filter to an acoustic signal. .

特開2009−212599号公報JP 2009-212599 A

K. Furuya, et al."Robust speech dereverberation using multichannel blind deconvolution with spectral subtraction",IEEE Transantions on Audio, Speech, and Language Processing, vol. 15, no. 5, p.1579-1591, 2007K. Furuya, et al. "Robust speech dereverberation using multichannel blind deconvolution with spectral subtraction", IEEE Transantions on Audio, Speech, and Language Processing, vol. 15, no. 5, p.1579-1591, 2007

しかし、特許文献1の予測フィルタ係数や非特許文献1の逆フィルタの高精度な推定には膨大な演算が必要であるという問題がある。以上の事情を考慮して、本発明は、簡便な処理で音響信号の残響成分を調整(抑圧または強調)することを目的とする。   However, there is a problem that enormous calculation is required for high-precision estimation of the prediction filter coefficient of Patent Document 1 and the inverse filter of Non-Patent Document 1. In view of the above circumstances, an object of the present invention is to adjust (suppress or enhance) a reverberation component of an acoustic signal by simple processing.

以上の課題を解決するために、本発明の音響処理装置は、残響時間に応じた移動平均係数を特定する係数特定手段と、係数特定手段が特定した移動平均係数を適用した音響信号の強度(例えばパワースペクトルPX(k,m))の移動平均で平均強度(例えば平均スペクトルPX(k))を算定する強度平均手段と、音響信号の残響成分を調整するための調整値を平均強度に応じて算定する調整値算定手段と、調整値算定手段が算定した調整値を音響信号に作用させる残響調整手段とを具備する。以上の構成では、音響信号の平均強度に応じて残響成分の調整値が算定されるから、特許文献1や非特許文献1の技術と比較して簡便な処理で音響信号の残響成分を調整できるという利点がある。また、平均強度の算定に適用される移動平均係数が残響時間に応じて可変に設定されるから、移動平均係数が所定値に固定された構成と比較して残響成分を有効に調整できるという利点もある。 In order to solve the above problems, the acoustic processing apparatus of the present invention includes a coefficient specifying unit that specifies a moving average coefficient according to reverberation time, and an intensity of an acoustic signal to which the moving average coefficient specified by the coefficient specifying unit is applied ( For example, intensity average means for calculating an average intensity (for example, average spectrum P X (k)) by a moving average of the power spectrum P X (k, m)), and an adjustment value for adjusting the reverberation component of the acoustic signal are average intensity. And an adjustment value calculation means for calculating the reverberation, and a reverberation adjustment means for causing the adjustment value calculated by the adjustment value calculation means to act on the acoustic signal. In the above configuration, since the adjustment value of the reverberation component is calculated according to the average intensity of the acoustic signal, the reverberation component of the acoustic signal can be adjusted by a simple process compared to the techniques of Patent Document 1 and Non-Patent Document 1. There is an advantage. In addition, since the moving average coefficient applied to the calculation of the average intensity is variably set according to the reverberation time, it is possible to effectively adjust the reverberation component as compared with the configuration in which the moving average coefficient is fixed to a predetermined value. There is also.

本発明の好適な態様において、調整値算定手段は、平均強度と比較して高い追従性で音響信号の強度に追従する強度指標の、平均強度に対する比(例えば平均強度に対する音響信号の強度の比)に応じて調整値を算定する。特に、平均強度に対する前記音響信号の強度の比に応じて調整値を算定する構成によれば、簡便な処理で音響信号の残響成分を調整できるという効果は格別に顕著である。また、平均強度に対する強度指標の比が残響時間に影響されるという傾向を考慮すると、平均強度に対する強度指標の比と、残響時間に応じた補正係数(例えば補正係数A1)とに応じて調整値を算定する構成が好適である。以上の態様では、残響時間に応じた補正係数が調整値の算定に適用されるから、残響時間が長い場合でも音響信号の残響成分を充分に抑圧できるという利点がある。   In a preferred aspect of the present invention, the adjustment value calculation means includes a ratio of an intensity index that follows the intensity of the acoustic signal with higher followability than the average intensity to the average intensity (for example, the ratio of the intensity of the acoustic signal to the average intensity). ) To calculate the adjustment value. In particular, according to the configuration in which the adjustment value is calculated according to the ratio of the intensity of the acoustic signal to the average intensity, the effect that the reverberation component of the acoustic signal can be adjusted by a simple process is particularly remarkable. In addition, considering the tendency that the ratio of the intensity index to the average intensity is affected by the reverberation time, the adjustment value according to the ratio of the intensity index to the average intensity and the correction coefficient (for example, the correction coefficient A1) according to the reverberation time. A configuration for calculating is preferable. In the above aspect, since the correction coefficient corresponding to the reverberation time is applied to the calculation of the adjustment value, there is an advantage that the reverberation component of the acoustic signal can be sufficiently suppressed even when the reverberation time is long.

本発明の好適な態様において、係数特定手段は、残響時間が長いほど小さい数値となる平滑化係数(例えば平滑化係数α)を移動平均係数として特定し、強度平均手段は、音響信号の最新の強度に対して平滑化係数を適用した音響信号の強度の指数移動平均を平均強度として算定する。換言すると、残響時間が長いほど、指数移動平均における過去の平均強度に対する平滑化係数(例えば平滑化係数(1−α))は大きい数値となる。以上の態様では、残響時間が長いほど音響信号の最新の強度に対する平滑化係数が小さい数値に設定されるから、音響信号の残響成分を有効に調整することが可能である。   In a preferred aspect of the present invention, the coefficient specifying means specifies a smoothing coefficient (for example, the smoothing coefficient α) that becomes a smaller value as the reverberation time is longer as the moving average coefficient, and the intensity averaging means is the latest of the acoustic signal. The exponential moving average of the intensity of the sound signal obtained by applying a smoothing coefficient to the intensity is calculated as the average intensity. In other words, the longer the reverberation time, the larger the smoothing coefficient (for example, the smoothing coefficient (1-α)) with respect to the past average intensity in the exponential moving average. In the above aspect, the longer the reverberation time, the smaller the smoothing coefficient for the latest intensity of the acoustic signal is set to a smaller numerical value, so that the reverberation component of the acoustic signal can be effectively adjusted.

本発明の好適な態様において、調整値算定手段は、音響信号の残響成分を抑圧するための調整値を算定し、係数特定手段は、残響成分の抑圧前の音響信号の目的音残響比と調整値を適用した抑圧後の音響信号の目的音残響比との差分が最大になるという条件のもとで近似的に選定された関係(例えば近似線Lの関係)を充足するように、残響時間に対応する移動平均係数を特定する。以上の態様では、残響成分の抑圧の前後にわたる目的音残響比の差分が最大となる条件のもとで近似的に選定された関係(例えば近似線の関係)を充足するように残響時間に応じた移動平均係数が特定されるから、音響信号の残響成分を有効に調整できるという効果は格別に顕著である。   In a preferred aspect of the present invention, the adjustment value calculating means calculates an adjustment value for suppressing the reverberation component of the acoustic signal, and the coefficient specifying means adjusts the target sound reverberation ratio of the acoustic signal before suppression of the reverberation component. The reverberation time so as to satisfy the relationship (for example, the relationship of the approximate line L) approximately selected under the condition that the difference from the target sound reverberation ratio of the acoustic signal after suppression to which the value is applied is maximized. The moving average coefficient corresponding to is specified. In the above aspect, according to the reverberation time so as to satisfy the relationship (for example, the relationship of the approximate line) approximately selected under the condition that the difference in the target sound reverberation ratio before and after the suppression of the reverberation component is maximized. Since the moving average coefficient is specified, the effect that the reverberation component of the acoustic signal can be effectively adjusted is particularly remarkable.

以上の各態様に係る音響処理装置は、音響信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、残響時間に応じた移動平均係数を特定する係数特定処理と、係数特定処理で特定した移動平均係数を適用した音響信号の強度の移動平均で平均強度を算定する強度平均処理と、音響信号の残響成分を調整するための調整値を平均強度に応じて算定する調整値算定処理と、調整値算定処理で算定した調整値を音響信号に作用させる残響調整処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る音響処理装置と同様の作用および効果が実現される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。   The acoustic processing device according to each of the above aspects is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to processing of an acoustic signal, or a general-purpose calculation such as a CPU (Central Processing Unit). This is also realized by cooperation between the processing device and the program. The program according to the present invention includes a coefficient specifying process that specifies a moving average coefficient according to reverberation time, and an intensity average that calculates an average intensity by a moving average of the intensity of an acoustic signal to which the moving average coefficient specified by the coefficient specifying process is applied. Processing, adjustment value calculation processing for calculating an adjustment value for adjusting the reverberation component of the acoustic signal according to the average intensity, and reverberation adjustment processing for causing the adjustment value calculated in the adjustment value calculation processing to act on the acoustic signal To run. According to the above program, the same operation and effect as the sound processing apparatus according to the present invention are realized. Note that the program of the present invention is provided in a form stored in a computer-readable recording medium and installed in the computer, or is provided in a form distributed via a communication network and installed in the computer.

本発明の第1実施形態に係る音響処理装置のブロック図である。1 is a block diagram of a sound processing apparatus according to a first embodiment of the present invention. 解析処理部のブロック図である。It is a block diagram of an analysis processing part. 解析装置のブロック図である。It is a block diagram of an analysis device. 解析装置の動作のフローチャートである。It is a flowchart of operation | movement of an analyzer. 平均個数と抑圧効果指標との関係を示すグラフである。It is a graph which shows the relationship between an average number and a suppression effect parameter | index. 残響時間と最適個数との関係を示すグラフである。It is a graph which shows the relationship between reverberation time and the optimal number. 残響時間と相補ウィナーフィルタの数値との関係を示すグラフである。It is a graph which shows the relationship between reverberation time and the numerical value of a complementary winner filter.

<第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。図1に示すように、音響処理装置100には信号供給装置12と放音装置14とが接続される。信号供給装置12は、音響信号x(n)を音響処理装置100に供給する。音響信号x(n)は、発音源から放射された音響に対して音響空間内で反射または散乱した音響成分(初期反射成分および後期残響成分)を付加した音響の時間波形を示すサンプル系列(n:サンプル番号)である。例えば、収録音や合成音等の既存の音響に対して事後的に残響効果を付与した音響信号x(n)や、残響効果がある音響空間(例えば音響ホール等)内で実際に収録された音響の音響信号x(n)が好適に利用される。周囲の音響を収音して音響信号x(n)を生成する収音装置や、可搬型または内蔵型の記録媒体から音響信号x(n)を取得して音響処理装置100に供給する再生装置や、通信網から音響信号x(n)を受信して音響処理装置100に供給する通信装置が信号供給装置12として採用され得る。
<First Embodiment>
FIG. 1 is a block diagram of a sound processing apparatus 100 according to the first embodiment of the present invention. As shown in FIG. 1, a signal supply device 12 and a sound emitting device 14 are connected to the sound processing device 100. The signal supply device 12 supplies the acoustic signal x (n) to the acoustic processing device 100. The sound signal x (n) is a sample sequence (n) indicating a time waveform of sound obtained by adding sound components (initial reflection component and late reverberation component) reflected or scattered in the sound space to sound emitted from the sound source. : Sample number). For example, an acoustic signal x (n) that has been added to the existing sound such as recorded sound or synthesized sound afterwards, or recorded in an acoustic space (for example, an acoustic hall) that has a reverberant effect. An acoustic signal x (n) is preferably used. A sound collection device that collects ambient sound and generates an acoustic signal x (n), or a playback device that acquires the acoustic signal x (n) from a portable or built-in recording medium and supplies the acoustic signal x (n) to the acoustic processing device 100 Alternatively, a communication device that receives the acoustic signal x (n) from the communication network and supplies the acoustic signal x (n) to the acoustic processing device 100 may be employed as the signal supply device 12.

第1実施形態の音響処理装置100は、音響信号x(n)の残響成分(後期残響成分)を抑圧した時間領域の音響信号y(n)を生成する残響抑圧装置である。放音装置14(例えばスピーカやヘッドホン)は、音響処理装置100が生成した音響信号y(n)に応じた音波を再生する。なお、音響信号y(n)をデジタルからアナログに変換するD/A変換器や音響信号y(n)を増幅する増幅器等の図示は便宜的に省略した。   The acoustic processing apparatus 100 according to the first embodiment is a reverberation suppression apparatus that generates an acoustic signal y (n) in a time domain in which a reverberation component (late reverberation component) of an acoustic signal x (n) is suppressed. The sound emitting device 14 (for example, a speaker or headphones) reproduces a sound wave corresponding to the acoustic signal y (n) generated by the acoustic processing device 100. Illustration of a D / A converter that converts the acoustic signal y (n) from digital to analog, an amplifier that amplifies the acoustic signal y (n), and the like is omitted for convenience.

図1に示すように、音響処理装置100は、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムPGM1や演算処理装置22が使用する各種のデータ(例えば後述の相関係数C)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置24として任意に採用され得る。音響信号x(n)を記憶装置24に記憶した構成(したがって信号供給装置12は省略される)も好適である。   As shown in FIG. 1, the sound processing device 100 is realized by a computer system including an arithmetic processing device 22 and a storage device 24. The storage device 24 stores a program PGM1 executed by the arithmetic processing device 22 and various data (for example, correlation coefficient C described later) used by the arithmetic processing device 22. A known recording medium such as a semiconductor recording medium or a magnetic recording medium or a combination of a plurality of types of recording media can be arbitrarily employed as the storage device 24. A configuration in which the acoustic signal x (n) is stored in the storage device 24 (therefore, the signal supply device 12 is omitted) is also suitable.

演算処理装置22は、記憶装置24に記憶されたプログラムPGM1を実行することで、音響信号x(n)から音響信号y(n)を生成するための複数の機能(周波数分析部32,解析処理部34,残響調整部36,波形合成部38)を実現する。なお、演算処理装置22の各機能を複数の装置に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。   The arithmetic processing unit 22 executes a program PGM1 stored in the storage unit 24, thereby generating a plurality of functions (frequency analysis unit 32, analysis processing) for generating the acoustic signal y (n) from the acoustic signal x (n). Unit 34, reverberation adjusting unit 36, waveform synthesizing unit 38). A configuration in which each function of the arithmetic processing device 22 is distributed to a plurality of devices or a configuration in which a dedicated electronic circuit (DSP) realizes each function may be employed.

周波数分析部32は、音響信号x(n)のスペクトル(複素スペクトル)X(k,m)を時間軸上の単位期間(フレーム)毎に順次に生成する。記号kは、周波数軸上の任意の1個の周波数(帯域)を指定する変数であり、記号mは、時間軸上の任意の1個の単位期間(時間軸上の特定の時点)を指定する変数である。スペクトルX(k,m)の生成には、短時間フーリエ変換等の公知の周波数分析が任意に採用され得る。なお、通過帯域が相違する複数の帯域通過フィルタで構成されるフィルタバンクも周波数分析部32として採用され得る。   The frequency analysis unit 32 sequentially generates a spectrum (complex spectrum) X (k, m) of the acoustic signal x (n) for each unit period (frame) on the time axis. Symbol k is a variable that designates an arbitrary frequency (band) on the frequency axis, and symbol m designates an arbitrary unit period on the time axis (a specific point in time on the time axis). Variable. For generation of the spectrum X (k, m), a known frequency analysis such as a short-time Fourier transform can be arbitrarily employed. Note that a filter bank including a plurality of bandpass filters having different passbands can also be employed as the frequency analysis unit 32.

解析処理部34は、音響信号x(n)のスペクトルX(k,m)に応じた調整値G(k,m)を各周波数について単位期間毎に順次に算定する。第1実施形態の調整値G(k,m)は、音響信号x(n)の残響成分を抑圧するための変数(ゲイン)である。概略的には、第m番目の単位期間の音響信号x(n)のうち第k番目の周波数の成分において残響成分が優勢であるほど調整値G(k,m)は小さい数値に設定されるという傾向がある。   The analysis processing unit 34 sequentially calculates an adjustment value G (k, m) corresponding to the spectrum X (k, m) of the acoustic signal x (n) for each frequency for each unit period. The adjustment value G (k, m) in the first embodiment is a variable (gain) for suppressing the reverberation component of the acoustic signal x (n). Schematically, the adjustment value G (k, m) is set to a smaller numerical value as the reverberation component is dominant in the component of the kth frequency in the acoustic signal x (n) of the mth unit period. There is a tendency.

残響調整部36は、解析処理部34が算定する調整値G(k,m)を音響信号x(n)に作用させる。残響調整部36による調整は、各周波数について単位期間毎に順次に実行される。具体的には、残響調整部36は、音響信号x(n)のスペクトルX(k,m)に調整値G(k,m)を乗算することで音響信号y(n)のスペクトルY(k,m)を算定する(Y(k,m)=G(k,m)・X(k,m))。すなわち、調整値G(k,m)は、音響信号x(n)のスペクトルX(k,m)に対するゲイン(スペクトルゲイン)に相当する。   The reverberation adjusting unit 36 causes the adjustment value G (k, m) calculated by the analysis processing unit 34 to act on the acoustic signal x (n). The adjustment by the reverberation adjusting unit 36 is sequentially performed for each frequency for each unit period. Specifically, the reverberation adjusting unit 36 multiplies the spectrum X (k, m) of the acoustic signal x (n) by the adjustment value G (k, m) to thereby obtain the spectrum Y (k) of the acoustic signal y (n). , m) is calculated (Y (k, m) = G (k, m) · X (k, m)). That is, the adjustment value G (k, m) corresponds to a gain (spectrum gain) for the spectrum X (k, m) of the acoustic signal x (n).

波形合成部38は、残響調整部36が単位期間毎に生成するスペクトルY(k,m)から時間領域の音響信号y(n)を生成する。すなわち、波形合成部38は、各単位期間のスペクトルY(k,m)を短時間逆フーリエ変換で時間領域の信号に変換するとともに相前後する単位期間について相互に連結することで音響信号y(n)を生成する。波形合成部38が生成した音響信号y(n)が放音装置14に供給されて音波として再生される。   The waveform synthesis unit 38 generates a time domain acoustic signal y (n) from the spectrum Y (k, m) generated by the reverberation adjustment unit 36 for each unit period. That is, the waveform synthesizer 38 converts the spectrum Y (k, m) of each unit period into a signal in the time domain by short-time inverse Fourier transform and connects the unit periods that follow each other to connect the acoustic signal y ( n). The acoustic signal y (n) generated by the waveform synthesizer 38 is supplied to the sound emitting device 14 and reproduced as a sound wave.

<調整値G(k,m)の検討>
調整値G(k,m)の条件について以下に検討する。まず、1個の単位期間を平均的な音素の時間長に設定したうえで単位期間内のサンプルの総数をNEと表記し、音声が音素間(単位期間の相互間)で無相関であると仮定すると、発音源から放射された音響を示す音源信号s(n)のうち1個の音素内(第m番目の単位期間内)の自己相関関数Rs (m)(τ)は以下の数式(1)で表現される。

Figure 2014052585

以下の数式(2)のように表現することも可能である。
Figure 2014052585

数式(1)および数式(2)の記号τは、サンプルの個数で表現された時間差(ラグ)を意味し、数式(1)の記号En[ ]は、時間的な平均値(時間軸上の複数のサンプルにわたる平均値)を意味する。 <Examination of adjustment value G (k, m)>
The condition of the adjustment value G (k, m) will be discussed below. First, the total number of samples in the unit period after setting one unit period to the time length of the average phoneme is denoted by N E, the voice is uncorrelated between phonemes (mutual unit period) Assuming that the autocorrelation function R s (m) (τ) within one phoneme (within the m-th unit period) of the sound source signal s (n) indicating the sound emitted from the sound source is It is expressed by equation (1).
Figure 2014052585

It can also be expressed as the following formula (2).
Figure 2014052585

The symbol τ in Equation (1) and Equation (2) means the time difference (lag) expressed by the number of samples, and the symbol E n [] in Equation (1) is the temporal average value (on the time axis). Mean value over multiple samples).

他方、室内インパルス応答(RIR:Room Impulse Response)h(μ)は以下の数式(3)で表現される。

Figure 2014052585

数式(3)の記号b(μ)は、疑似乱数を意味する。例えば、独立同分布(i.i.d.)の白色雑音(平均零のガウス過程)が疑似乱数b(μ)として好適である。また、記号T60は残響時間を意味し、記号N60は、サンプリング周波数fsでの残響時間T60内のサンプルの総数を意味する。数式(3)から理解される通り、室内インパルス応答h(μ)は、独立同分布の確率過程で表現される疑似乱数b(μ)と指数減衰部e−Δμとでモデル化される。また、室内インパルス応答h(μ)は、以下の数式(4)で表現される通り、空間的な平均値(発音源の複数の位置と収音点の複数の位置とにわたる集合平均)Eh[ ]に対して無相関となる。
Figure 2014052585
On the other hand, a room impulse response (RIR) h (μ) is expressed by the following equation (3).
Figure 2014052585

The symbol b (μ) in Equation (3) means a pseudo random number. For example, white noise with an independent same distribution (iid) (meaning Gaussian process with zero mean) is suitable as the pseudorandom number b (μ). Symbol T 60 means reverberation time, and symbol N 60 means the total number of samples in the reverberation time T 60 at the sampling frequency fs. As understood from Equation (3), the indoor impulse response h (μ) is modeled by a pseudo random number b (μ) expressed by a stochastic process of independent and identical distribution and an exponential decay part e− Δμ . Further, the indoor impulse response h (μ) is a spatial average value (a set average over a plurality of positions of the sound source and a plurality of positions of the sound collection points) E h as expressed by the following formula (4). Uncorrelated with [].
Figure 2014052585

他方、音響信号x(n)の自己相関関数Rx(τ)は、以下の数式(5)で表現される。

Figure 2014052585

数式(5)の記号En,hは、時間的および空間的な平均値(期待値)を意味する。なお、数式(5)の導出では、音響信号x(n)が初期反射成分xE(n)と後期残響成分xR(n)との加算で表現されるという関係(x(n)=xE(n)+xR(n))を利用した。数式(5)の右辺の各項について以下に検討する。 On the other hand, the autocorrelation function R x (τ) of the acoustic signal x (n) is expressed by the following equation (5).
Figure 2014052585

Symbol E n, h in Equation (5) means a temporal and spatial average value (expected value). In the derivation of Equation (5), the relationship that the acoustic signal x (n) is expressed by the addition of the early reflection component x E (n) and the late reverberation component x R (n) (x (n) = x E (n) + x R (n)) was used. Each term on the right side of Equation (5) is examined below.

数式(5)の第1項を以下の数式(6)のように変形する。

Figure 2014052585
The first term of the formula (5) is transformed as the following formula (6).
Figure 2014052585

前掲の数式(3)で表現される室内インパルス応答h(μ)のうち指数減衰部e−Δμは確率過程ではないから、平均値Eh[ ]の演算から除外される。また、疑似乱数(b(i),b(l))として利用される白色雑音の自己相関関数はディラック(Dirac)のデルタ関数であるから、変数iと変数lとが合致する場合(i=l)にのみ所定の数値σb 2となる。以上の関係を考慮すると、以下の数式(7)が導出される。

Figure 2014052585
Of the room impulse response h (μ) expressed by the above formula (3), the exponential decay part e− Δμ is not a stochastic process and is excluded from the calculation of the average value E h []. In addition, since the autocorrelation function of white noise used as pseudorandom numbers (b (i), b (l)) is a Dirac delta function, the variable i matches the variable l (i = The predetermined numerical value σ b 2 is obtained only in l). Considering the above relationship, the following formula (7) is derived.
Figure 2014052585

また、数式(6)のうち音源信号s(n)の自己相関関数に相当する部分En[s(n-i)s(n-τ-l)]に対しては室内インパルス応答h(μ)に関する部分Eh[h(i)h(l)]が係数として作用するから、変数iと変数lとが合致する場合(i=l)のみを加味すれば足りる。したがって、数式(6)は以下の数式(8)に変形される。なお、数式(8)の導出では、変数(n-i)を変数n'に置換した。

Figure 2014052585
Further, in the expression (6), the portion E n [s (ni) s (n−τ−l)] corresponding to the autocorrelation function of the sound source signal s (n) relates to the indoor impulse response h (μ). Since the portion E h [h (i) h (l)] acts as a coefficient, it is sufficient to consider only when the variable i matches the variable l (i = 1). Therefore, Formula (6) is transformed into the following Formula (8). In the derivation of Equation (8), the variable (ni) is replaced with the variable n ′.
Figure 2014052585

前述のように音声が音素間で無相関であると仮定し、前掲の数式(2)の条件を加味すると、数式(8)における自己相関関数Rs(τ)を数式(1)の自己相関関数Rs (m)(τ)に置換しても一般性は維持される。したがって、数式(5)の第1項は以下の数式(9)のように変形される。

Figure 2014052585
As described above, assuming that the speech is uncorrelated between phonemes, and taking into account the condition of Equation (2) described above, the autocorrelation function R s (τ) in Equation (8) is converted to the autocorrelation of Equation (1). Generality is maintained even if the function R s (m) (τ) is substituted. Therefore, the first term of the formula (5) is transformed as the following formula (9).
Figure 2014052585

数式(9)の積和項が等比級数の和であることを考慮して等比級数の和の公式を適用すると、数式(5)の第1項に相当する数式(9)は、以下の数式(10)に変形される。なお、数式(10)では、表記を簡略化するために係数項を統括的に記号(σb')2で表現した。

Figure 2014052585
Considering that the product-sum term in Equation (9) is the sum of the geometric series, and applying the formula for the sum of the geometric series, Equation (9) corresponding to the first term in Equation (5) is This is transformed into Equation (10). In Equation (10), coefficient terms are collectively represented by the symbol (σ b ′) 2 in order to simplify the notation.
Figure 2014052585

後期残響成分xR(n)が初期反射区間の終点(NE)から残響時間T60終点(N60)までの音響成分であることを考慮すると、数式(5)の第2項は以下の数式(11)のように変形される。

Figure 2014052585
Considering that the late reverberation component x R (n) is an acoustic component from the end point (N E ) of the initial reflection interval to the end point of reverberation time T 60 (N 60 ), the second term of Equation (5) is It is transformed as Equation (11).
Figure 2014052585

数式(11)の平均値Eh[h(i)h(l)]は、変数iと変数lとが合致する場合のみ有意な数値となるが、変数iの値域(NE≦i≦N60)と変数lの値域(0≦l≦NE−1)とは相互に重複しないから、変数iと変数lとが合致することはない。したがって、数式(11)の平均値Eh[h(i)h(l)]は0である。以上の関係に前掲の数式(4)の関係を加味すると、数式(5)の第2項En,h[xR(n)xE(n-τ)]は0となることが理解される。また、数式(5)の第3項En,h[xE(n)xR(n-τ)]についても同様に0となる。 The average value E h [h (i) h (l)] of Expression (11) is a significant numerical value only when the variable i and the variable l match, but the range of the variable i (N E ≦ i ≦ N 60 ) and the range of the variable l (0 ≦ l ≦ N E −1) do not overlap each other, so the variable i and the variable l do not match. Therefore, the average value E h [h (i) h (l)] in the equation (11) is zero. When the above equation (4) is added to the above relationship, it is understood that the second term E n, h [x R (n) x E (n−τ)] in equation (5) is zero. The Similarly, the third term E n, h [x E (n) × R (n−τ)] in the equation (5) is also zero.

数式(5)の第4項は、後期残響成分xR(n)のみに対応するから、以下の数式(12)のように変形される。なお、数式(12)の導出では、前掲の数式(7)の導出と同様に、変数iと変数lとが合致する場合(i=l)にのみ疑似乱数(b(i),b(l))の自己相関関数が所定の数値σb 2になるという関係を利用した。

Figure 2014052585
Since the fourth term of the equation (5) corresponds only to the late reverberation component x R (n), it is transformed as the following equation (12). In the derivation of the mathematical expression (12), as in the derivation of the mathematical expression (7), the pseudorandom numbers (b (i), b (l) are used only when the variable i matches the variable l (i = 1). The relationship that the autocorrelation function of)) becomes a predetermined numerical value σ b 2 was used.
Figure 2014052585

初期反射区間の時間長TE(サンプルのNE個分)が残響時間T60と比較して充分に短く(TE≪T60)、かつ、前述のように音源信号s(n)が音素間では無相関であることを考慮すると、変数iが音素の境界を跨ぐたびに数式(12)の平均値En[s(n-i)s(n-τ-i)]は変化する。したがって、前掲の数式(9)の導出と同様に、音源信号s(n)のうち第m番目の音素内の自己相関関数Rs (m)(τ)を適用すると、数式(12)は、以下の数式(13)のように二重積和の形式に変形される(M60=N60/NE)。

Figure 2014052585
The time length T E (N E samples) of the initial reflection section is sufficiently shorter than the reverberation time T 60 (T E << T 60 ), and the sound source signal s (n) is a phoneme as described above. Considering that there is no correlation between them, the average value E n [s (ni) s (n−τ−i)] of Equation (12) changes every time the variable i crosses the boundary between phonemes. Therefore, similar to the derivation of Equation (9), applying the autocorrelation function R s (m) (τ) in the mth phoneme of the sound source signal s (n), Equation (12) is As shown in the following equation (13), it is transformed into a double product sum form (M 60 = N 60 / N E ).
Figure 2014052585

数式(10)の導出と同様に、等比級数の和の公式を適用すると、数式(13)は、以下の数式(14)に変形される。

Figure 2014052585
Similar to the derivation of Equation (10), Equation (13) is transformed into Equation (14) below by applying the formula for the sum of geometric series.
Figure 2014052585

前述のように音声が音素間で無相関であるという仮定のもとでは数式(8)の自己相関関数Rs(τ)が数式(1)の自己相関関数Rs (m)(τ)に置換され得るという関係(Rs(τ)=En,h[xE(n)xE(n-τ)]+En,h[xR(n)xR(n-τ)]≒Rs (m)(τ))に、以上に説明した関係(特に数式(10)および数式(14))を加味すると、第m番目の単位期間における音響信号x(n)の自己相関関数Rx (m)(τ)は、初期反射区間の自己相関関数RE,x (m)(τ)と後期残響区間の自己相関関数RR,x (m)(τ)とを含む以下の数式(15)で表現される。

Figure 2014052585
As described above, under the assumption that speech is uncorrelated between phonemes, the autocorrelation function R s (τ) in Equation (8) is changed to the autocorrelation function R s (m) (τ) in Equation (1). The relationship that it can be substituted (R s (τ) = E n, h [x E (n) × E (n−τ)] + E n, h [x R (n) × R (n−τ)] ≈R s (m) (τ)) and the relationship described above (particularly, Equation (10) and Equation (14)), the autocorrelation function R x of the acoustic signal x (n) in the m-th unit period (m) (τ), the following equation including autocorrelation function R E of the initial reflection segment, x (m) (τ) and the autocorrelation function of the late reverberation interval R R, and x (m) (τ) ( It is expressed in 15).
Figure 2014052585

数式(15)の括弧内のうち後期残響区間に対応する第2項において変数m’が0である場合に指数関数項e−2Δm'NEが1になることを考慮すると、数式(15)を以下の数式(16)のように簡略化することも可能である。

Figure 2014052585

数式(16)から理解される通り、音響信号x(n)の自己相関関数Rx (m)(τ)は、室内インパルス応答h(μ)の指数減衰部e−Δμを加重値とする音源信号s(n)の自己相関関数Rs (m)(τ)の線形和(加重和)として表現される。 Considering that the exponential function term e− 2Δm′NE becomes 1 when the variable m ′ is 0 in the second term corresponding to the late reverberation section in the parentheses of the equation (15), the equation (15) is obtained. It is also possible to simplify as shown by the following formula (16).
Figure 2014052585

As understood from the equation (16), the autocorrelation function R x (m) (τ) of the acoustic signal x (n) is a sound source with the exponential attenuation part e −Δμ of the indoor impulse response h (μ) as a weight value. It is expressed as a linear sum (weighted sum) of the autocorrelation function R s (m) (τ) of the signal s (n).

自己相関関数のフーリエ変換はパワースペクトルである(Wiener-Khinchinの定理)。したがって、数式(15)を考慮すると、音響信号x(n)のうち初期反射成分xE(n)のパワースペクトルPE,X(k,m)は以下の数式(17)で表現され、後期残響成分xR(n)のパワースペクトルPR,X(k,m)は以下の数式(18)で表現される。

Figure 2014052585

Figure 2014052585

数式(17)および数式(18)における記号F[ ]はフーリエ変換を意味し、記号PS(k,m)は音源信号s(n)のパワースペクトルを意味する。 The Fourier transform of the autocorrelation function is the power spectrum (Wiener-Khinchin's theorem). Therefore, in consideration of Equation (15), the power spectrum P E, X (k, m) of the early reflection component x E (n) in the acoustic signal x (n) is expressed by the following Equation (17), The power spectrum P R, X (k, m) of the reverberation component x R (n) is expressed by the following equation (18).
Figure 2014052585

Figure 2014052585

In the equations (17) and (18), the symbol F [] means Fourier transform, and the symbol P S (k, m) means the power spectrum of the sound source signal s (n).

音響信号x(n)のうち初期反射成分xE(n)のスペクトルXE(k,m)(XE(k,m)=F[xE(n)])を音響信号x(n)のスペクトルX(k,m)(X(k,m)=F[x(n)])から回復するためのウィナーフィルタβ(k)は、以下の数式(19)で表現される。

Figure 2014052585

数式(19)の記号PX(k)は、音響信号x(n)のパワースペクトルPX(k)を複数の単位期間にわたり時間的に平均した平均スペクトル(Em[PX(k,m)])を意味し、数式(19)の記号PE,X(k)は、初期反射成分xE(n)のパワースペクトルPE,X(k,m)を複数の単位期間にわたり時間的に平均した平均スペクトル(Em[PE,X(k,m)])を意味する。音響信号x(n)の平均スペクトルPX(k)は、初期反射成分xE(n)の平均スペクトルPE,X(k)と後期残響成分xR(n)の平均スペクトルPR,X(k)との加算に相当する(PX(k)=PE,X(k)+PR,X(k))。 The spectrum X E (k, m) (X E (k, m) = F [x E (n)]) of the initial reflection component x E (n) of the acoustic signal x (n) is used as the acoustic signal x (n). The Wiener filter β (k) for recovering from the spectrum X (k, m) (X (k, m) = F [x (n)]) is expressed by the following equation (19).
Figure 2014052585

Equation symbol P X (k) of (19), the power spectrum P X (k) temporally averaged averaged spectrum over a plurality of unit periods (E m [P X (k of the audio signal x (n), m )]), And the symbol P E, X (k) in Equation (19) represents the power spectrum P E, X (k, m) of the initial reflection component x E (n) over time over a plurality of unit periods. Mean spectrum (E m [P E, X (k, m)]) averaged. Average spectra P X of the acoustic signal x (n) (k), the initial reflection components x average spectrum P E of E (n), the average spectrum P R of X (k) and the late reverberation component x R (n), X This corresponds to addition with (k) (P X (k) = P E, X (k) + P R, X (k)).

次に、後期残響成分xR(n)について検討する。音響信号x(n)は時間軸上で発話区間H1と非発話区間H0とに区分される。発話区間H1は音源信号s(n)が存在する区間であり、非発話区間H0は音源信号s(n)が存在しない区間(発話区間H1内の音源信号s(n)に由来する後期残響成分xR(n)が存在する区間)である。後期残響成分xR(n)は主に非発話区間H0で観測される。非発話区間H0内の音響信号x(n)のパワースペクトルPX(k,m)は、発話区間H1内の音源信号s(n)のパワースペクトルPS (H1)(k,m)の部分和として表現され、同時に後期残響成分のパワースペクトルPR,X (H1)(k,m)の部分和に相当する。すなわち、以下の数式(20)が成立する。

Figure 2014052585

数式(20)の記号m1'は、非発話区間H0が開始してからのフレームの個数を意味し、記号Par(m1')[ ]は部分和を意味する。 Next, the late reverberation component x R (n) is examined. The acoustic signal x (n) is divided into an utterance section H1 and a non-utterance section H0 on the time axis. The utterance section H1 is a section where the sound source signal s (n) exists, and the non-speak section H0 is a section where the sound source signal s (n) does not exist (late reverberation component derived from the sound source signal s (n) in the utterance section H1). x R (n) exists). The late reverberation component x R (n) is observed mainly in the non-speech interval H0. The power spectrum P X (k, m) of the acoustic signal x (n) in the non-speaking section H0 is a portion of the power spectrum P S (H1) (k, m) of the sound source signal s (n) in the speaking section H1. It is expressed as a sum, and at the same time, it corresponds to a partial sum of the power spectrum P R, X (H1) (k, m) of the late reverberation component. That is, the following formula (20) is established.
Figure 2014052585

The symbol m1 ′ in the equation (20) means the number of frames from the start of the non-speech interval H0, and the symbol Par (m1 ′) [] means a partial sum.

音響信号x(n)の平均スペクトルPX(k)に対する1個の単位期間のパワースペクトルPX(k,m)の比(以下「強度比」という)PX(k,m)/PX(k)を検討する。数式(20)の関係を考慮すると、強度比PX(k,m)/PX(k)は、以下の数式(21)で表現される。

Figure 2014052585
Ratio of power spectrum P X (k, m) of one unit period to average spectrum P X (k) of acoustic signal x (n) (hereinafter referred to as “intensity ratio”) P X (k, m) / P X Consider (k). Considering the relationship of the formula (20), the intensity ratio P X (k, m) / P X (k) is expressed by the following formula (21).
Figure 2014052585

数式(21)の部分和Par(m1')[PR,X (H1)(k,m)]は、後期残響成分xR(n)のパワースペクトルPR,X (H1)(k,m)以下の数値になる(Par(m1')[PR,X (H1)(k,m)]≦PR,X (H1)(k,m))という関係を数式(21)に適用すると、以下の数式(22)が導出される。

Figure 2014052585
The partial sum Par (m1 ′) [P R, X (H1) (k, m)] of Equation (21) is the power spectrum P R, X (H1) (k, m ) of the late reverberation component x R (n). ) When the relationship (Par (m1 ′) [PR , X (H1) (k, m)] ≦ PR , X (H1) (k, m)) is applied to Equation (21) The following formula (22) is derived.
Figure 2014052585

また、数式(22)の右辺に相当する強度比PR,X(k,m)/PX(k)の平均値Em[PR,X(k,m)/PX(k)]は、数式(19)の関係を適用することで以下の数式(23)のように表現される。

Figure 2014052585
Further, the average value E m [P R, X (k, m) / P X (k)] of the intensity ratio P R, X (k, m) / P X (k) corresponding to the right side of the equation (22). Is expressed as the following Expression (23) by applying the relationship of Expression (19).
Figure 2014052585

数式(22)と数式(23)とから以下の数式(24)が導出される。

Figure 2014052585
The following formula (24) is derived from the formula (22) and the formula (23).
Figure 2014052585

数式(19)のウィナーフィルタβ(k)は、音響信号x(n)のスペクトルX(k,m)のうち初期反射成分xE(n)のスペクトルXE(k,m)を強調するように作用する。したがって、数式(24)の右辺{1−β(k)}は、非発話区間H0にて音響信号x(n)のスペクトルX(k,m)から後期残響成分xR(n)のスペクトルXR(k,m)を抑圧するフィルタ(相補的なウィナーフィルタであることを考慮して以下では「相補ウィナーフィルタ」という)として作用する。したがって、数式(24)から理解される通り、強度比PX(k,m)/PX(k)を音響信号x(n)のスペクトルX(k,m)に乗算することで後期残響成分xR(n)が抑圧される。なお、発話区間H1内では音響信号x(n)のパワースペクトルPX(k,m)が初期反射成分xE(n)のパワースペクトルPE(k,m)と後期残響成分xR(n)のパワースペクトルPR(k,m)との加算に相当するから(PX(k,m)=PE(k,m)+PR(k,m))、強度比PX(k,m)/PX(k)の平均値(期待値)は1となり音響信号x(n)は抑圧されない。 The Wiener filter β (k) in Expression (19) emphasizes the spectrum X E (k, m) of the initial reflection component x E (n) in the spectrum X (k, m) of the acoustic signal x (n). Act on. Therefore, the right side {1-β (k)} of the equation (24) represents the spectrum X of the late reverberation component x R (n) from the spectrum X (k, m) of the acoustic signal x (n) in the non-speech interval H0. It acts as a filter that suppresses R (k, m) (hereinafter referred to as a “complementary winner filter” in consideration of being a complementary winner filter). Therefore, as understood from Equation (24), the late reverberation component is obtained by multiplying the spectrum X (k, m) of the acoustic signal x (n) by the intensity ratio P X (k, m) / P X (k). x R (n) is suppressed. The power spectrum P X (k, m) the power spectrum P E (k, m) of the initial reflection components x E (n) and the late reverberation component x R (n at the inside speech segment H1 acoustic signal x (n) ) In the power spectrum P R (k, m) (P X (k, m) = P E (k, m) + P R (k, m)), the intensity ratio P X (k, m) The average value (expected value) of m) / P X (k) is 1, and the acoustic signal x (n) is not suppressed.

以上の知見を考慮して、第1実施形態の解析処理部34は、残響成分の抑圧用の調整値G(k,m)を以下の数式(25)の演算で算定する。

Figure 2014052585

数式(25)から理解される通り、解析処理部34は、強度比PX(k,m)/PX(k)が1以上である場合に調整値G(k,m)を1(最大値)に設定し、強度比PX(k,m)/PX(k)が1を下回る場合に調整値G(k,m)を強度比PX(k,m)/PX(k)に設定する。なお、調整値G(k,m)の最大値を1以外の数値に設定した構成や、調整値G(k,m)の最小値を所定の正数に設定した構成も採用され得る。 Considering the above knowledge, the analysis processing unit 34 of the first embodiment calculates the adjustment value G (k, m) for reverberation component suppression by the calculation of the following equation (25).
Figure 2014052585

As understood from the equation (25), the analysis processing unit 34 sets the adjustment value G (k, m) to 1 (maximum) when the intensity ratio P X (k, m) / P X (k) is 1 or more. Value), and when the intensity ratio P X (k, m) / P X (k) is less than 1, the adjustment value G (k, m) is set to the intensity ratio P X (k, m) / P X (k ). A configuration in which the maximum value of the adjustment value G (k, m) is set to a numerical value other than 1 or a configuration in which the minimum value of the adjustment value G (k, m) is set to a predetermined positive number may be employed.

ところで、音響信号x(n)の平均スペクトルPX(k)は、前掲の数式(16)を利用して導出される以下の数式(26)で表現される。なお、数式(26)の導出では、数式(10)の導出時と同様に、指数関数項e-2Δm'NEの総和に等比級数の和の公式を適用した。

Figure 2014052585
Incidentally, the average spectrum P X (k) of the acoustic signal x (n) is expressed by the following formula (26) derived using the above formula (16). In the derivation of Equation (26), the formula of the sum of the geometric series was applied to the sum of the exponential function terms e −2Δm′NE as in the derivation of Equation (10).
Figure 2014052585

残響時間T60(サンプル数N60)は、室内インパルス応答h(μ)が60dBだけ減衰するまでの時間長であるから、数式(26)の指数関数項e-2ΔN60は1と比較して充分に小さい(e-2ΔN60≪1)。したがって、数式(26)は以下の数式(27)で近似される。

Figure 2014052585
Since the reverberation time T 60 (the number of samples N 60 ) is the time length until the room impulse response h (μ) is attenuated by 60 dB, the exponential function term e −2ΔN60 in the equation (26) is sufficiently larger than 1. (E −2ΔN60 << 1). Therefore, Equation (26) is approximated by Equation (27) below.
Figure 2014052585

数式(27)から理解される通り、調整値G(k,m)の算定に適用される平均スペクトルPX(k)は残響時間T60(N60)に依存する。すなわち、M個の単位期間にわたるパワースペクトルPX(k,m)の平均(単純移動平均)を平均スペクトルPX(k)として調整値G(k,m)を算定する場合を想定すると、調整値G(k,m)を利用して音響信号x(n)の残響成分を有効に抑圧するには、平均スペクトルPX(k)の算定に適用されるパワースペクトルPX(k,m)の個数M(以下「平均個数M」という)を音響信号x(n)の残響時間T60に応じた適切な数値に設定する必要がある。 As understood from the equation (27), the average spectrum P X (k) applied to the calculation of the adjustment value G (k, m) depends on the reverberation time T 60 (N 60 ). That is, assuming that the adjustment value G (k, m) is calculated using the average (simple moving average) of the power spectra P X (k, m) over M unit periods as the average spectrum P X (k), the adjustment is performed. In order to effectively suppress the reverberation component of the acoustic signal x (n) using the value G (k, m), the power spectrum P X (k, m) applied to the calculation of the average spectrum P X (k). Must be set to an appropriate numerical value corresponding to the reverberation time T 60 of the acoustic signal x (n).

図1の記憶装置24は、残響成分が有効に抑圧されるように事前に選定された残響時間T60と平均個数Mとの関係を保持する。具体的には、記憶装置24は、残響時間T60と平均個数Mとの関係を近似する近似線(回帰直線)を規定する係数(以下「相関係数」という)Cを記憶する。例えば、残響時間T60と平均個数Mとの関係を近似する1次の回帰直線の勾配が相関係数(回帰係数)Cとして記憶装置24に記憶される。 The storage device 24 in FIG. 1 holds the relationship between the reverberation time T 60 and the average number M that are selected in advance so that the reverberation component is effectively suppressed. Specifically, the storage device 24 stores a coefficient (hereinafter referred to as “correlation coefficient”) C that defines an approximate line (regression line) that approximates the relationship between the reverberation time T 60 and the average number M. For example, the gradient of a primary regression line that approximates the relationship between the reverberation time T 60 and the average number M is stored in the storage device 24 as a correlation coefficient (regression coefficient) C.

図2は、第1実施形態の解析処理部34のブロック図である。図2に示すように、第1実施形態の解析処理部34は、変数設定部42と係数特定部44と強度平均部46と調整値算定部48とを含んで構成される。   FIG. 2 is a block diagram of the analysis processing unit 34 of the first embodiment. As shown in FIG. 2, the analysis processing unit 34 according to the first embodiment includes a variable setting unit 42, a coefficient specifying unit 44, an intensity average unit 46, and an adjustment value calculation unit 48.

強度平均部46は、周波数分析部32が算定した音響信号x(n)のスペクトルX(k,m)に対応する各単位期間のパワースペクトルPX(k,m)(PX(k,m)=|X(k,m)|2)の移動平均により単位期間毎に平均スペクトル(各周波数の平均強度)PX(k)を順次に算定する。前述の説明では平均個数Mの単純移動平均に言及したが、第1実施形態では便宜的に、以下の数式(28)で表現されるパワースペクトルPX(k,m)の指数移動平均を平均スペクトルPX(k)として算定する。すなわち、強度平均部46は、IIR(Infinite Impulse Response)型のローパスフィルタに相当する。

Figure 2014052585

数式(28)の記号PX (m)(k)は、第m番目の単位期間に対応する平均スペクトルPX(k)を意味する。記号αは平滑化係数(忘却係数)であり、1未満の正数に設定される(0<α<1)。具体的には、平滑化係数αは、過去の平均スペクトルPX (m-1)(k)に対する最新(現在)のパワースペクトルPX(k,m)の加重値(各単位期間のパワースペクトルPX(k,m)の平滑化の時定数)に相当する。 The intensity averaging unit 46 is a power spectrum P X (k, m) (P X (k, m) of each unit period corresponding to the spectrum X (k, m) of the acoustic signal x (n) calculated by the frequency analysis unit 32. ) = | X (k, m) | 2 ) The average spectrum (average intensity of each frequency) P X (k) is sequentially calculated every unit period. In the above description, the simple moving average of the average number M is mentioned, but in the first embodiment, the exponential moving average of the power spectrum P X (k, m) expressed by the following formula (28) is averaged for convenience. Calculated as the spectrum P X (k). That is, the intensity average unit 46 corresponds to an IIR (Infinite Impulse Response) type low-pass filter.
Figure 2014052585

Symbol P X (m) (k) in Expression (28) means an average spectrum P X (k) corresponding to the m-th unit period. The symbol α is a smoothing coefficient (forgetting coefficient), and is set to a positive number less than 1 (0 <α <1). Specifically, the smoothing coefficient α is a weighted value of the latest (present) power spectrum P X (k, m) with respect to the past average spectrum P X (m−1) (k) (power spectrum of each unit period). This corresponds to a smoothing time constant of P X (k, m).

変数設定部42は、音響信号x(n)に想定される残響時間(例えば音響信号x(n)が発音および収録された音響空間の残響時間)T60を可変に設定する。例えば、変数設定部42は、所定の測定用信号を音響空間内に放音したときに収録される音響信号を解析することで残響時間T60を特定する。例えば、周波数が時間的に連続に変化する時間伸長信号(TSP:Time Stretched Pulse)が測定用信号として好適に利用される。残響時間T60の測定には、例えばインパルス積分法(Schroeder法)等の公知の技術が任意に利用され得る。また、公知のマルチステップ線形予測を利用して音響信号x(n)から残響時間T60を算定することも可能である。マルチステップ線形予測については、例えば、K. Kinoshita, et al.,"Suppression of late reverberation effect on speech signal using long-term multiple-step linear prediction", IEEE Transactions on Audio, Speech and Language processing, 17(4), p.534-545, 2009に詳述されている。また、入力装置(図示略)に対する操作で利用者が指定した残響時間T60を変数設定部42が取得する構成も採用され得る。 Variable setting unit 42 (reverberation time of e.g. acoustic space acoustic signal x (n) is pronounced and From) reverberation time envisaged in the acoustic signal x (n) to set the T 60 variably. For example, the variable setting unit 42 specifies the reverberation time T 60 by analyzing an acoustic signal recorded when a predetermined measurement signal is emitted into the acoustic space. For example, a time stretched signal (TSP: Time Stretched Pulse) whose frequency changes continuously in time is suitably used as the measurement signal. For the measurement of the reverberation time T 60 , for example, a known technique such as an impulse integration method (Schroeder method) can be arbitrarily used. It is also possible to calculate the reverberation time T 60 from the acoustic signal x (n) using known multi-step linear prediction. For multi-step linear prediction, see, for example, K. Kinoshita, et al., “Suppression of late reverberation effect on speech signal using long-term multiple-step linear prediction”, IEEE Transactions on Audio, Speech and Language processing, 17 (4 ), p.534-545, 2009. Further, a configuration in which the variable setting unit 42 acquires the reverberation time T 60 specified by the user through an operation on the input device (not shown) may be employed.

係数特定部44は、変数設定部42が設定した残響時間T60に応じた平滑化係数αを特定する。具体的には、係数特定部44は、記憶装置24内の相関係数Cで規定される関係のもとで残響時間T60に対応する平均個数Mを特定し、平均個数Mに対応する平滑化係数αを以下の数式(29)の演算で算定する。

Figure 2014052585

数式(29)の記号NEは、音響信号x(n)の単位期間内のサンプルの総数であり、記号fsは音響信号x(n)のサンプリング周波数である。例えば単位期間内のサンプルの総数NEを512個とし、サンプリング周波数を16kHzとした場合、平滑化係数αと平均個数Mとの関係は以下の数式(30)で表現される。強度平均部46は、係数特定部44が残響時間T60に応じて設定した平滑化係数αを適用した数式(28)の演算で平均スペクトルPX(k)を算定する。数式(29)や数式(30)の平滑化係数αは、平均個数Mの単純移動平均に近似する数式(28)の指数移動平均の平滑化係数に相当する。したがって、平均個数Mが大きいほど最新のパワースペクトルPX(k,m)に対する平滑化係数αは小さい数値となる。換言すると、平均個数Mが大きいほど、過去の平均スペクトルPX (m-1)(k)に対する平滑化係数(1−α)は大きい数値となる。
Figure 2014052585
The coefficient specifying unit 44 specifies the smoothing coefficient α according to the reverberation time T 60 set by the variable setting unit 42. Specifically, the coefficient specifying unit 44 specifies the average number M corresponding to the reverberation time T 60 based on the relationship defined by the correlation coefficient C in the storage device 24, and the smoothing corresponding to the average number M. The conversion factor α is calculated by the following equation (29).
Figure 2014052585

Symbol N E of equation (29) is the total number of samples in the unit period of the audio signal x (n), the symbol fs is the sampling frequency of the audio signal x (n). For example the total number N E of the sample in the unit period and 512, when the sampling frequency is 16 kHz, the relationship between the average number M and the smoothing coefficient α is expressed by the following equation (30). The intensity average unit 46 calculates the average spectrum P X (k) by the calculation of Expression (28) using the smoothing coefficient α set by the coefficient specifying unit 44 according to the reverberation time T 60 . The smoothing coefficient α in Expression (29) or Expression (30) corresponds to the smoothing coefficient of the exponential moving average in Expression (28) that approximates the average number M of simple moving averages. Therefore, the smoothing coefficient α for the latest power spectrum P X (k, m) becomes smaller as the average number M is larger. In other words, the smoothing coefficient (1-α) with respect to the past average spectrum P X (m−1) (k) becomes a larger numerical value as the average number M is larger.
Figure 2014052585

図2の調整値算定部48は、強度平均部46が単位期間毎に算定する平均スペクトルPX(k)(PX (m)(k))を適用した数式(25)の演算で各周波数の調整値G(k,m)を単位期間毎に順次に算定する。調整値算定部48が算定した調整値G(k,m)が図1の残響調整部36による残響成分の抑圧処理(音響信号x(n)のスペクトルX(k,m)に対する調整値G(k,m)の乗算)に適用される。 The adjustment value calculation unit 48 in FIG. 2 calculates each frequency by the calculation of Expression (25) using the average spectrum P X (k) (P X (m) (k)) calculated by the intensity average unit 46 for each unit period. The adjustment value G (k, m) is sequentially calculated for each unit period. The adjustment value G (k, m) calculated by the adjustment value calculation unit 48 is the reverberation component suppression processing by the reverberation adjustment unit 36 of FIG. 1 (the adjustment value G (for the spectrum X (k, m) of the acoustic signal x (n)). applied to multiplication of k, m).

以上に説明した第1実施形態では、音響信号x(n)のパワースペクトルPX(k,m)の平均スペクトルPX(k)に応じて調整値G(k,m)が算定されるから、残響成分の予測フィルタ係数を推定する特許文献1の技術や伝達関数を推定して逆フィルタを生成する非特許文献1の技術と比較して簡便な処理で音響信号x(n)の残響成分を抑圧することが可能である。また、平均スペクトルPX(k)の算定に適用される平滑化係数α(平均個数M)が残響時間T60に応じて可変に設定されるから、平滑化係数αを所定値に固定した構成と比較して、音響信号x(n)の残響成分が有効に抑圧されるという利点もある。 In the first embodiment described above, the adjustment value G (k, m) is calculated according to the average spectrum P X (k) of the power spectrum P X (k, m) of the acoustic signal x (n). The reverberation component of the acoustic signal x (n) is simpler than the technique of Patent Document 1 for estimating the prediction filter coefficient of the reverberation component and the technique of Non-Patent Document 1 for generating the inverse filter by estimating the transfer function. Can be suppressed. Further, since the smoothing coefficient α (average number M) applied to the calculation of the average spectrum P X (k) is variably set according to the reverberation time T 60 , the smoothing coefficient α is fixed to a predetermined value. As compared with the above, there is an advantage that the reverberation component of the acoustic signal x (n) is effectively suppressed.

<残響時間T60と平均個数Mとの関係>
残響時間T60と平均個数Mとの好適な関係について以下に詳述する。図3は、残響時間T60と平均個数Mとの相関関係を解析する解析装置200のブロック図である。図3の解析装置200は、残響時間T60と平均個数Mとの相関関係を解析して前述の相関係数Cを特定する情報処理装置であり、図1の音響処理装置100と同様に、演算処理装置72と記憶装置74とを具備するコンピュータシステムで実現される。記憶装置74は、演算処理装置72が実行するプログラムPGM2や演算処理装置72が使用する各種のデータを記憶する。例えば半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置74として任意に採用され得る。
<Relationship between reverberation time T 60 and average number M>
A suitable relationship between the reverberation time T 60 and the average number M will be described in detail below. FIG. 3 is a block diagram of an analysis apparatus 200 that analyzes the correlation between the reverberation time T 60 and the average number M. The analysis apparatus 200 in FIG. 3 is an information processing apparatus that analyzes the correlation between the reverberation time T 60 and the average number M and specifies the above-described correlation coefficient C. Like the sound processing apparatus 100 in FIG. This is realized by a computer system including an arithmetic processing device 72 and a storage device 74. The storage device 74 stores a program PGM2 executed by the arithmetic processing device 72 and various data used by the arithmetic processing device 72. For example, a known recording medium such as a semiconductor recording medium or a magnetic recording medium or a combination of a plurality of types of recording media can be arbitrarily employed as the storage device 74.

演算処理装置72は、記憶装置74が記憶するプログラムPGM2を実行することで、残響時間T60と平均個数Mとの関係を解析する相関解析部76として機能する。なお、図3では音響処理装置100とは別個の解析装置200を例示したが、相関解析部76を音響処理装置100に搭載することも可能である。 The arithmetic processing unit 72 functions as a correlation analysis unit 76 that analyzes the relationship between the reverberation time T 60 and the average number M by executing the program PGM2 stored in the storage device 74. In FIG. 3, the analysis device 200 separate from the sound processing device 100 is illustrated, but the correlation analysis unit 76 may be mounted on the sound processing device 100.

図4は、相関解析部76が残響時間T60と平均個数Mとの好適な関係を解析する解析処理のフローチャートである。例えば利用者からの指示を契機として解析処理が実行される。解析処理を開始すると、相関解析部76は、残響時間T60を所定値(変数設定部42が設定し得る数値)に設定し(S11)、室内インパルス応答h(μ)を規定する疑似乱数b(μ)(具体的には疑似乱数b(μ)を規定するシード値)を設定する(S12)。また、相関解析部76は、平均個数Mを所定値(候補値)に設定する(S13)。 FIG. 4 is a flowchart of an analysis process in which the correlation analysis unit 76 analyzes a preferable relationship between the reverberation time T 60 and the average number M. For example, the analysis process is executed in response to an instruction from the user. When the analysis process is started, the correlation analysis unit 76 sets the reverberation time T 60 to a predetermined value (a numerical value that can be set by the variable setting unit 42) (S11), and a pseudo-random number b that defines the indoor impulse response h (μ). (μ) (specifically, a seed value defining the pseudo random number b (μ)) is set (S12). In addition, the correlation analysis unit 76 sets the average number M to a predetermined value (candidate value) (S13).

相関解析部76は、音響信号x(n)を設定する(S14)。具体的には、以下の数式(31)で表現される通り、相関解析部76は、ステップS12で設定した疑似乱数b(μ)に対応する室内インパルス応答h(μ)(数式(3))を、事前に用意された所定の音源信号s(n)に畳込むことで音響信号x(n)を生成する。

Figure 2014052585
The correlation analysis unit 76 sets the acoustic signal x (n) (S14). Specifically, as expressed by the following mathematical formula (31), the correlation analysis unit 76 performs the indoor impulse response h (μ) corresponding to the pseudo random number b (μ) set in step S12 (Mathematical formula (3)). Is convolved with a predetermined sound source signal s (n) prepared in advance to generate an acoustic signal x (n).
Figure 2014052585

また、相関解析部76は、ステップS14で設定した音響信号x(n)に対する残響抑圧処理で音響信号y(n)を生成する(S15)。残響抑圧処理の内容は音響処理装置100(解析処理部34,残響調整部36)が実行する前述の処理と同様である。すなわち、相関解析部76は、ステップS13で設定した平均個数M(平滑化係数α)を適用した数式(25)の演算で音響信号x(n)から算定される調整値G(k,m)を音響信号x(n)に作用させることで音響信号y(n)を生成する。   Further, the correlation analysis unit 76 generates the acoustic signal y (n) by the reverberation suppression process for the acoustic signal x (n) set in step S14 (S15). The content of the reverberation suppression process is the same as the above-described process executed by the sound processing apparatus 100 (analysis processing unit 34, reverberation adjustment unit 36). That is, the correlation analysis unit 76 adjusts the adjustment value G (k, m) calculated from the acoustic signal x (n) by the calculation of Expression (25) using the average number M (smoothing coefficient α) set in Step S13. Is applied to the acoustic signal x (n) to generate the acoustic signal y (n).

相関解析部76は、目的音信号t(n)を生成する(S16)。目的音信号t(n)は、音響信号x(n)のうち抽出の目標となる音響信号を意味し、具体的には、以下の数式(32)で表現されるように、音響信号x(n)のうち初期反射区間(サンプル数NE)内の初期反射成分xE(n)(すなわち、残響抑圧処理が完全である場合の音響信号y(n))に相当する。

Figure 2014052585
The correlation analysis unit 76 generates the target sound signal t (n) (S16). The target sound signal t (n) means an acoustic signal to be extracted from the acoustic signal x (n). Specifically, as expressed by the following formula (32), the acoustic signal x ( This corresponds to the initial reflection component x E (n) (that is, the acoustic signal y (n) when the dereverberation suppression process is complete) within the initial reflection interval (number of samples N E ) among n).
Figure 2014052585

相関解析部76は、残響成分の抑圧効果の指標(以下「抑圧効果指標」という)δを算定する(S17)。抑圧効果指標δは、残響成分の抑圧前の音響信号x(n)の目的音残響比TIRxと調整値G(k,m)を適用した残響成分の抑圧後の音響信号y(n)の目的音残響比TIRyとの差分(δ=TIRy−TIRx)である。目的音残響比TIR(Target-to-Interference Ratio)は、目的音成分(Target)と残響成分(Interference)との強度比を意味する。具体的には、相関解析部76は、ステップS14で生成した音響信号x(n)とステップS16で生成した目的音信号t(n)とを適用した以下の数式(33)の演算で算定される目的音残響比TIRxと、ステップS15で生成した音響信号y(n)とステップS16で生成した目的音信号t(n)とを適用した以下の数式(34)の演算で算定される目的音残響比TIRyとから抑圧効果指標δを算定する。

Figure 2014052585

Figure 2014052585
The correlation analyzing unit 76 calculates an index of the reverberation component suppression effect (hereinafter referred to as “suppression effect index”) δ (S17). The suppression effect index δ is the purpose of the acoustic signal y (n) after suppression of the reverberation component using the target sound reverberation ratio TIRx and the adjustment value G (k, m) of the acoustic signal x (n) before suppression of the reverberation component. The difference from the sound reverberation ratio TIRy (δ = TIRy−TIRx). The target sound reverberation ratio TIR (Target-to-Interference Ratio) means the intensity ratio between the target sound component (Target) and the reverberation component (Interference). Specifically, the correlation analysis unit 76 is calculated by the following equation (33) using the acoustic signal x (n) generated in step S14 and the target sound signal t (n) generated in step S16. Target sound calculated by the following equation (34) using the target sound reverberation ratio TIRx, the acoustic signal y (n) generated in step S15, and the target sound signal t (n) generated in step S16. The suppression effect index δ is calculated from the reverberation ratio TIRy.
Figure 2014052585

Figure 2014052585

数式(33)および数式(34)の記号lは単位期間の番号を意味し、記号Nは所定の正数に設定される。以上の説明から理解される通り、残響成分の抑圧効果が大きい(目的音残響比TIRyが目的音残響比TIRxと比較して大きい)ほど抑圧効果指標δは大きい数値となる。   The symbol l in the equations (33) and (34) means the unit period number, and the symbol N is set to a predetermined positive number. As understood from the above description, the suppression effect index δ becomes larger as the suppression effect of the reverberation component is larger (the target sound reverberation ratio TIRy is larger than the target sound reverberation ratio TIRx).

以上の手順で抑圧効果指標δを算定すると、相関解析部76は、平均個数Mの全部の数値について抑圧効果指標δを算定したか否かを判定する(S18)。判定結果が否定である場合(S18:NO)、相関解析部76は、平均個数Mを現在とは別個の数値に設定し(S13)、変更後の平均個数Mについて抑圧効果指標δを算定する(S14〜S17)。   When the suppression effect index δ is calculated according to the above procedure, the correlation analysis unit 76 determines whether or not the suppression effect index δ is calculated for all numerical values of the average number M (S18). When the determination result is negative (S18: NO), the correlation analysis unit 76 sets the average number M to a value different from the current value (S13), and calculates the suppression effect index δ for the changed average number M. (S14-S17).

平均個数Mの全部の数値について抑圧効果指標δを算定すると(S18:YES)、図5に例示されるように平均個数Mと抑圧効果指標δとの関係が特定される。前掲の数式(27)を参照した説明や図5から理解される通り、抑圧効果指標δ(残響成分の抑圧効果)は平均個数Mに応じて変化する。相関解析部76は、平均個数Mの複数の数値のうち抑圧効果指標δが最大となる数値(以下「最適個数」という)M0を特定する(S19)。   When the suppression effect index δ is calculated for all values of the average number M (S18: YES), the relationship between the average number M and the suppression effect index δ is specified as illustrated in FIG. As can be understood from the description with reference to Equation (27) and FIG. 5, the suppression effect index δ (the reverberation component suppression effect) changes according to the average number M. The correlation analysis unit 76 specifies a numerical value (hereinafter referred to as “optimum number”) M0 that maximizes the suppression effect index δ among a plurality of average numerical values M (S19).

相関解析部76は、事前に用意された全種類の疑似乱数b(μ)について最適個数M0の特定が完了したか否かを判定する(S20)。判定結果が否定である場合(S20:NO)、相関解析部76は、疑似乱数b(μ)を変更し(S12)、変更後の疑似乱数b(μ)について最適個数M0を算定する(S13〜S19)。他方、全部の種類の疑似乱数b(μ)について最適個数M0を特定すると(S20:YES)、相関解析部76は、残響時間T60の全部の数値について最適個数M0を特定したか否かを判定する(S21)。判定結果が否定である場合(S21:NO)、相関解析部76は、残響時間T60を現在とは別個の数値に設定し(S11)、変更後の残響時間T60について疑似乱数b(μ)毎の最適個数M0を特定する(S12〜S20)。 The correlation analysis unit 76 determines whether or not the optimum number M0 has been specified for all types of pseudo-random numbers b (μ) prepared in advance (S20). When the determination result is negative (S20: NO), the correlation analysis unit 76 changes the pseudorandom number b (μ) (S12), and calculates the optimum number M0 for the changed pseudorandom number b (μ) (S13). To S19). On the other hand, when identifying the optimum number M0 for all types of pseudo-random number b (μ) (S20: YES ), the correlation analysis unit 76, whether to identify the optimal number M0 for all the numerical values of reverberation time T 60 Determine (S21). When the determination is negative (S21: NO), the correlation analysis unit 76 sets the reverberation time T 60 to separate numbers currently (S11), the reverberation time T 60 after changing the pseudo-random number b (mu ) The optimum number M0 for each is specified (S12 to S20).

残響時間T60の全部の数値について各疑似乱数b(μ)の最適個数M0を算定すると(S21:YES)、図6のように残響時間T60と平均個数M(最適個数M0)との関係が疑似乱数b(μ)毎に特定される。なお、図6内の丸印は、室内インパルス応答を実測した結果から抑圧効果指標が最大となるように実験的に選定した最適個数M0である。室内インパルス応答h(μ)を数式(3)でモデル化した場合でも、室内インパルス応答を実測した場合と同等の結果が観測されることが図6で確認できる。 When the optimum number M0 of each pseudorandom number b (μ) is calculated for all the values of the reverberation time T 60 (S21: YES), the relationship between the reverberation time T 60 and the average number M (optimum number M0) as shown in FIG. Is specified for each pseudo-random number b (μ). The circles in FIG. 6 are the optimum number M0 experimentally selected so that the suppression effect index becomes the maximum from the result of actually measuring the indoor impulse response. It can be confirmed in FIG. 6 that even when the indoor impulse response h (μ) is modeled by the equation (3), the same result as that obtained by actually measuring the indoor impulse response is observed.

図6に示すように、相関解析部76は、複数の疑似乱数b(μ)にわたる残響時間T60と平均個数M(最適個数M0)との相関関係を近似する近似線Lを特定する(S22)。例えば、残響時間T60と平均個数Mとの相関関係を近似する1次の回帰直線が近似線Lとして特定される。以上の通り、近似線Lは、抑圧効果指標δが最大になるという条件のもとで選定された残響時間T60と平均個数Mとの近似的な相関関係を表現する。具体的には、図6から把握される通り、近似線Lは、残響時間T60が長いほど平均個数Mが増加するように残響時間T60と平均個数Mとの近似的な関係を規定する。数式(29)を参照して前述した通り、平均個数Mが大きいほど最新のパワースペクトルPX(k,m)に対する平滑化係数αは小さい数値となるから、残響時間T60が長いほど平滑化係数αが減少するように、近似線Lが残響時間T60と平滑化係数αとの関係を規定すると換言することも可能である。換言すると、残響時間T60が長い(平均個数Mが大きい)ほど、過去の平均スペクトルPX (m-1)(k)に対する平滑化係数(1−α)は増加する。 As shown in FIG. 6, the correlation analysis unit 76 specifies an approximate line L that approximates the correlation between the reverberation time T 60 and the average number M (optimum number M0) over a plurality of pseudo-random numbers b (μ) (S22). ). For example, a primary regression line that approximates the correlation between the reverberation time T 60 and the average number M is specified as the approximate line L. As described above, the approximate line L expresses an approximate correlation between the reverberation time T 60 and the average number M selected under the condition that the suppression effect index δ is maximized. Specifically, as is understood from FIG. 6, the approximation line L defines an approximate relation between reverberation time T 60 as the average number M as the reverberation time T 60 is longer to increase the average number M . As described above with reference to Equation (29), the smoothing coefficient α for the latest power spectrum P X (k, m) becomes smaller as the average number M increases, so that the longer the reverberation time T 60, the smoother it becomes. It can also be said that the approximate line L defines the relationship between the reverberation time T 60 and the smoothing coefficient α so that the coefficient α decreases. In other words, the smoothing coefficient (1-α) for the past average spectrum P X (m−1) (k) increases as the reverberation time T 60 is longer (average number M is larger).

以上の手順で相関解析部76が特定した近似線Lを規定する変数が相関係数Cとして音響処理装置100の記憶装置24に記憶されて係数特定部44による平滑化係数α(平均個数M)の設定に適用される。例えば、前述の例示のように近似線Lを1次の回帰直線で表現した場合、近似線Lの勾配が相関係数Cとして記憶装置24に記憶される。音響処理装置100の係数特定部44は、変数設定部42が設定した残響時間T60に対し、相関係数Cで規定される近似線Lの関係にある平均個数Mを特定する。 The variable that defines the approximate line L specified by the correlation analysis unit 76 in the above procedure is stored as the correlation coefficient C in the storage device 24 of the sound processing apparatus 100, and the smoothing coefficient α (average number M) by the coefficient specifying unit 44 is stored. Applied to the settings. For example, when the approximate line L is expressed by a linear regression line as illustrated above, the gradient of the approximate line L is stored in the storage device 24 as the correlation coefficient C. The coefficient specifying unit 44 of the sound processing apparatus 100 specifies the average number M having the relationship of the approximate line L defined by the correlation coefficient C with respect to the reverberation time T 60 set by the variable setting unit 42.

以上の説明から理解される通り、係数特定部44が設定する平滑化係数αに対応する平均個数Mと変数設定部42が設定する残響時間T60とは、相関解析部76が特定した近似線Lの関係にある。すなわち、平均個数M(平滑化係数α)と残響時間T60とは、抑圧効果指標δが最大になるという条件のもとで選定された近似的な関係(近似線L)を充足する。したがって、音響信号x(n)の残響成分を有効に抑圧できるという前述の効果は格別に顕著である。 As understood from the above description, the average number M corresponding to the smoothing coefficient α set by the coefficient specifying unit 44 and the reverberation time T 60 set by the variable setting unit 42 are approximate lines specified by the correlation analyzing unit 76. L relationship. That is, the average number M (smoothing coefficient α) and the reverberation time T 60 satisfy the approximate relationship (approximate line L) selected under the condition that the suppression effect index δ is maximized. Therefore, the above-described effect that the reverberation component of the acoustic signal x (n) can be effectively suppressed is particularly remarkable.

<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
Second Embodiment
A second embodiment of the present invention will be described below. In addition, about the element which an effect | action and function are the same as that of 1st Embodiment in each form illustrated below, the reference | standard referred by description of 1st Embodiment is diverted, and each detailed description is abbreviate | omitted suitably.

前掲の数式(24)の相補ウィナーフィルタ{1−β(k)}は、数式(19)と数式(27)を適用することで以下の数式(35)で表現される。

Figure 2014052585
The complementary winner filter {1-β (k)} of the above-described equation (24) is expressed by the following equation (35) by applying the equations (19) and (27).
Figure 2014052585

図7は、残響時間T60と相補ウィナーフィルタ{1−β(k)}の数値(ゲイン)との間の数式(35)の関係を描画したグラフである。残響時間T60が長いほど相補ウィナーフィルタ{1−β(k)}の数値が増加する(残響成分の抑圧効果が低下する)という傾向が図7から把握される。調整値G(k,m)の基礎となる強度比PX(k,m)/PX(k)は、前掲の数式(24)で表現されるように相補ウィナーフィルタ{1−β(k)}以下の数値に設定されるから、調整値G(k,m)を数式(25)で算定する第1実施形態では、残響時間T60が長いほど調整値G(k,m)による残響成分の抑圧効果が低下する(強度比PX(k,m)/PX(k)が増加する)という傾向がある。 FIG. 7 is a graph depicting the relationship of Equation (35) between the reverberation time T 60 and the numerical value (gain) of the complementary Wiener filter {1-β (k)}. It can be seen from FIG. 7 that the value of the complementary Wiener filter {1-β (k)} increases (the suppression effect of the reverberation component decreases) as the reverberation time T 60 is longer. The intensity ratio P X (k, m) / P X (k) that is the basis of the adjustment value G (k, m) is expressed by the complementary Wiener filter {1-β (k )} Since the following values are set, in the first embodiment in which the adjustment value G (k, m) is calculated by the equation (25), the reverberation due to the adjustment value G (k, m) increases as the reverberation time T 60 increases. There is a tendency for the component suppression effect to decrease (intensity ratio P X (k, m) / P X (k) increases).

以上の傾向を考慮して、第2実施形態の調整値算定部48は、前掲の数式(25)に代えて以下の数式(36)の演算で各周波数の調整値G(k,m)を単位期間毎に算定する。

Figure 2014052585

強度比PX(k,m)/PX(k)が1を下回る場合、調整値G(k,m)は、第1実施形態と同様の強度比PX(k,m)/PX(k)と補正係数A1および補正係数A2とに応じた数値に設定される。補正係数A1は、残響時間T60に応じた強度比PX(k,m)/PX(k)の変動を補償するための係数であり、変数設定部42が設定した残響時間T60に応じて可変に設定される。具体的には、残響時間T60が長いほど強度比PX(k,m)/PX(k)が増加するという傾向が補償されるように、残響時間T60が長いほど補正係数A1は減少する。例えば、以下の数式(37)で表現されるように、残響時間T60を指数の分母に含む指数関数が補正係数A1として好適に採用される。数式(37)の記号TEは、単位期間の時間長(サンプル数NE)を意味する。
Figure 2014052585
Considering the above tendency, the adjustment value calculation unit 48 of the second embodiment calculates the adjustment value G (k, m) of each frequency by the following expression (36) instead of the above expression (25). Calculated for each unit period.
Figure 2014052585

When the intensity ratio P X (k, m) / P X (k) is less than 1, the adjustment value G (k, m) is the same as the intensity ratio P X (k, m) / P X in the first embodiment. The value is set according to (k), the correction coefficient A1, and the correction coefficient A2. Correction factor A1, the intensity ratio P X (k, m) corresponding to the reverberation time T 60 is a factor to compensate for variations in / P X (k), the reverberation time T 60 the variable setting unit 42 has set It is variably set accordingly. Specifically, as the reverberation time T 60 is longer intensity ratio P X (k, m) as tendency / P X (k) is increased is compensated, as reverberation time T 60 is greater correction factor A1 is Decrease. For example, as represented by the following equation (37), an exponential function including reverberation time T 60 in the denominator of the exponent is preferably employed as a correction coefficient A1. The symbol T E in Equation (37) means the time length of the unit period (number of samples N E ).
Figure 2014052585

他方、補正係数A2は、1未満の任意の正数(0<A2<1)に設定される。例えば、入力装置(図示略)に対する利用者からの指示に応じて補正係数A2は可変に設定される。補正係数A2が小さいほど残響成分の抑圧効果が強化される。なお、補正係数A1または補正係数A2を数式(36)から省略することも可能である。   On the other hand, the correction coefficient A2 is set to an arbitrary positive number less than 1 (0 <A2 <1). For example, the correction coefficient A2 is variably set according to an instruction from the user to the input device (not shown). The smaller the correction coefficient A2, the stronger the reverberation component suppression effect. Note that the correction coefficient A1 or the correction coefficient A2 can be omitted from the equation (36).

第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、残響時間T60に応じた補正係数A1が調整値G(k,m)の算定に適用されるから、残響時間T60が長い場合でも音響信号x(n)の残響成分を充分に抑圧できるという利点がある。 In the second embodiment, the same effect as in the first embodiment is realized. In the second embodiment, since the correction coefficient A1 corresponding to the reverberation time T 60 is applied to the calculation of the adjustment value G (k, m), even when the reverberation time T 60 is long acoustic signal x (n) There is an advantage that the reverberation component can be sufficiently suppressed.

<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
<Modification>
Each of the above-described embodiments can be variously modified. Specific modifications are exemplified below. Two or more aspects arbitrarily selected from the following examples can be appropriately combined.

(1)前述の各形態では、音響信号x(n)のパワースペクトルPX(k,m)の指数移動平均を平均スペクトルPX(k)として算定したが、以下の数式(38)で表現されるように、平均個数MにわたるパワースペクトルPX(k,m)の単純移動平均を平均スペクトルPX(k)として強度平均部46が算定することも可能である。すなわち、強度平均部46は、FIR(Finite Impulse Response)型のローパスフィルタに相当する。

Figure 2014052585

係数特定部44は、変数設定部42が設定した残響時間T60に対し、相関解析部76が特定した近似線Lの関係を充足するように平均個数Mを設定する。強度平均部46は、係数特定部44が設定した平均個数Mを適用した数式(38)の演算で平均スペクトルPX(k)を算定する。なお、平均個数MのパワースペクトルPX(k,m)の各々を加重する加重移動平均で平均スペクトルPX(k)を算定することも可能である。 (1) In the above-described embodiments, the exponential moving average of the power spectrum P X (k, m) of the acoustic signal x (n) is calculated as the average spectrum P X (k). As described above, the intensity average unit 46 can calculate a simple moving average of the power spectra P X (k, m) over the average number M as the average spectrum P X (k). That is, the intensity averaging unit 46 corresponds to a FIR (Finite Impulse Response) type low-pass filter.
Figure 2014052585

The coefficient specifying unit 44 sets the average number M so as to satisfy the relationship of the approximate line L specified by the correlation analysis unit 76 with respect to the reverberation time T 60 set by the variable setting unit 42. The intensity average unit 46 calculates the average spectrum P X (k) by the calculation of Expression (38) using the average number M set by the coefficient specifying unit 44. It is also possible to calculate the average spectrum P X (k) by a weighted moving average that weights each of the average number M of power spectra P X (k, m).

以上の説明から理解される通り、強度平均部46は、係数特定部44が特定した移動平均係数を適用した音響信号x(n)の強度(パワースペクトルPX(k,m))の移動平均で平均強度(平均スペクトルPX(k))を算定する要素として包括され、移動平均係数は、指数移動平均(数式(28))に適用される平滑化係数αと単純移動平均(数式(38))や加重移動平均に適用される平均個数Mとの双方を包含する。 As understood from the above description, the intensity average unit 46 is a moving average of the intensity (power spectrum P X (k, m)) of the acoustic signal x (n) to which the moving average coefficient specified by the coefficient specifying unit 44 is applied. Are included as elements for calculating the average intensity (average spectrum P X (k)), and the moving average coefficient is the smoothing coefficient α applied to the exponential moving average (formula (28)) and the simple moving average (formula (38 )) And the average number M applied to the weighted moving average.

(2)前述の各形態では、残響時間T60と平均個数Mとの関係を近似線L(相関係数C)で規定したが、音響信号x(n)のパワースペクトルPX(k,m)の指数移動平均(数式(28))を平均スペクトルPX(k)として算定する構成では、残響時間T60と平滑化係数αとの関係を近似線L(相関係数C)で規定することも可能である。係数特定部44は、変数設定部42が設定した残響時間T60に対して近似線Lの関係を充足するように平滑化係数αを直接的(すなわち平均個数Mを設定せず)に特定する。 (2) In each of the above-described embodiments, the relationship between the reverberation time T 60 and the average number M is defined by the approximate line L (correlation coefficient C), but the power spectrum P X (k, m) of the acoustic signal x (n). ) Is calculated as an average spectrum P X (k), the relationship between the reverberation time T 60 and the smoothing coefficient α is defined by an approximate line L (correlation coefficient C). It is also possible. The coefficient specifying unit 44 specifies the smoothing coefficient α directly (that is, without setting the average number M) so as to satisfy the relationship of the approximate line L with respect to the reverberation time T 60 set by the variable setting unit 42. .

(3)前述の各形態では、記憶装置24に記憶された相関係数C(近似線L)を利用して残響時間T60に応じた平均個数M(平滑化係数α)を特定したが、残響時間T60に応じた平均個数Mを特定する方法は以上の例示に限定されない。例えば、残響時間T60の各数値と平均個数M(平滑化係数α)の各数値とを対応させた参照テーブルを記憶装置24に記憶し、変数設定部42が設定した残響時間T60に参照テーブル内で対応する平均個数Mを係数特定部44が設定する構成も採用される。参照テーブル内で相互に対応する残響時間T60と平均個数Mとの各数値は近似線Lで規定される関係にある。 (3) In each of the above embodiments, the average number M (smoothing coefficient α) corresponding to the reverberation time T 60 is specified using the correlation coefficient C (approximate line L) stored in the storage device 24. The method for specifying the average number M according to the reverberation time T 60 is not limited to the above examples. For example, a reference table in which each value of the reverberation time T 60 is associated with each value of the average number M (smoothing coefficient α) is stored in the storage device 24, and is referenced to the reverberation time T 60 set by the variable setting unit 42. A configuration in which the coefficient specifying unit 44 sets the corresponding average number M in the table is also employed. The numerical values of the reverberation time T 60 and the average number M corresponding to each other in the lookup table are in a relationship defined by the approximate line L.

(4)前述の各形態の音響処理装置100は、複数の端末装置の間で音響信号を授受する音声通話システムにおいて各端末装置に搭載され得る。各端末装置の音響処理装置100は、収音装置(信号供給装置12)が生成した音響信号x(n)に対する残響抑圧処理で音響信号y(n)を生成して相手側の端末装置に送信する。残響時間T60は、時間伸長信号等の測定用信号に応じた音響を端末装置から放射したときに収録される音響信号を解析することで変数設定部42が設定する。以上の構成によれば、各端末装置が存在する音響空間内で付与された残響成分を抑圧した明瞭な音声を端末装置間で授受できるという利点がある。また、音響空間内の音響を録音する録音装置にも前述の各形態の音響処理装置100を適用することが可能である。録音装置内の音響処理装置100は、収音装置が生成した音響信号x(n)に対する残響抑圧処理で音響信号y(n)を生成して記憶装置24に格納する。 (4) The acoustic processing device 100 of each embodiment described above can be mounted on each terminal device in a voice call system that transmits and receives acoustic signals between a plurality of terminal devices. The acoustic processing device 100 of each terminal device generates an acoustic signal y (n) by reverberation suppression processing on the acoustic signal x (n) generated by the sound collection device (signal supply device 12) and transmits the acoustic signal y (n) to the counterpart terminal device. To do. The reverberation time T 60 is set by the variable setting unit 42 by analyzing an acoustic signal recorded when sound corresponding to a measurement signal such as a time extension signal is radiated from the terminal device. According to the above configuration, there is an advantage that a clear voice in which a reverberation component given in an acoustic space where each terminal device exists is suppressed can be exchanged between the terminal devices. The above-described acoustic processing apparatus 100 can also be applied to a recording apparatus that records sound in an acoustic space. The sound processing device 100 in the recording device generates a sound signal y (n) by the reverberation suppression process for the sound signal x (n) generated by the sound collecting device and stores the sound signal y (n) in the storage device 24.

(5)前述の各形態では、音響信号x(n)の平均スペクトルPX(k)に対する1個の単位期間のパワースペクトルPX(k,m)の強度比PX(k,m)/PX(k)を調整値G(k,m)として例示したが、調整値G(k,m)を算定する方法は適宜に変更される。例えば、平均スペクトルPX(k)の算定時の移動平均係数(平滑化係数α,平均個数M)とは別個の移動平均係数を適用したパワースペクトルPX(k,m)の移動平均で平均スペクトルQ(k)を算定し、平均スペクトルPX(k)に対する平均スペクトルQ(k)の強度比Q(k)/PX(k)を調整値G(k,m)として算定する(すなわち、数式(25)のパワースペクトルPX(k,m)を平均スペクトルQ(k)に置換する)ことも可能である。平均スペクトルQ(k)は、平均スペクトルPX(k)の算定に適用される平均個数Mを下回る個数の単位期間にわたるパワースペクトルPX(k,m)の単純移動平均、または、平均スペクトルPX(k)の算定に適用される平滑化係数αを上回る平滑化係数を適用したパワースペクトルPX(k,m)の指数移動平均である。 (5) In each embodiment described above, the intensity ratio P X (k, m) / of the power spectrum P X (k, m) of one unit period to the average spectrum P X (k) of the acoustic signal x (n). Although P X (k) is exemplified as the adjustment value G (k, m), the method for calculating the adjustment value G (k, m) is changed as appropriate. For example, the moving average coefficient (smoothing coefficient α, average number M) at the time of calculation of the average spectrum P X (k) is averaged by the moving average of the power spectrum P X (k, m) to which a moving average coefficient is applied. The spectrum Q (k) is calculated, and the intensity ratio Q (k) / P X (k) of the average spectrum Q (k) to the average spectrum P X (k) is calculated as the adjustment value G (k, m) (ie, It is also possible to replace the power spectrum P X (k, m) in Equation (25) with the average spectrum Q (k). The average spectrum Q (k) is a simple moving average of the power spectrum P X (k, m) over a number of unit periods less than the average number M applied to the calculation of the average spectrum P X (k), or the average spectrum P It is an exponential moving average of the power spectrum P X (k, m) to which a smoothing coefficient exceeding the smoothing coefficient α applied to the calculation of X (k) is applied.

前述の各形態におけるパワースペクトルPX(k,m)と本変形例で例示した平均スペクトルQ(k)とは、平均スペクトルPX(k)と比較して高い追従性でパワースペクトルPX(k,m)の時間変化に追従する強度指標Λ(k)として包括される。すなわち、本発明の好適な態様では、音響信号x(n)の平均スペクトルPX(k)に対する強度指標Λ(k)(PX(k,m)またはQ(k))の相対比Λ(k)/PX(k)が調整値G(k,m)として算定される。 Power spectrum P X (k, m) in each embodiment described above and illustrated average spectrum Q (k) In this modification, mean spectrum P X (k) power spectrum to high trackability compared to P X ( It is included as an intensity index Λ (k) following the time change of k, m). That is, in a preferred embodiment of the present invention, the relative ratio Λ () of the intensity index Λ (k) (P X (k, m) or Q (k)) to the average spectrum P X (k) of the acoustic signal x (n). k) / P X (k) is calculated as the adjustment value G (k, m).

また、前述の各形態では、音響信号x(n)の残響成分を抑圧する調整値G(k,m)を例示したが、音響信号x(n)の残響成分を強調する場合にも本発明は適用される。例えば、数式(25)で算定される調整値G(k,m)を所定値λ(例えば1)から減算した調整値{λ−G(k,m)}を音響信号x(n)に作用させれば、残響成分を強調した音響信号y(n)を生成することが可能である。以上の説明から理解される通り、調整値算定部48は、音響信号x(n)の残響成分を調整(抑圧または強調)するための調整値を平均強度(平均スペクトルPX(k))に応じて算定する要素として包括される。 In each of the above-described embodiments, the adjustment value G (k, m) for suppressing the reverberation component of the acoustic signal x (n) is exemplified. However, the present invention is also applied to the case where the reverberation component of the acoustic signal x (n) is emphasized. Applies. For example, an adjustment value {λ−G (k, m)} obtained by subtracting the adjustment value G (k, m) calculated by Expression (25) from a predetermined value λ (for example, 1) is applied to the acoustic signal x (n). By doing so, it is possible to generate an acoustic signal y (n) that emphasizes the reverberation component. As understood from the above description, the adjustment value calculation unit 48 sets the adjustment value for adjusting (suppressing or enhancing) the reverberation component of the acoustic signal x (n) to the average intensity (average spectrum P X (k)). It is included as an element to be calculated accordingly.

(6)前述の各形態では、周波数の全域にわたり共通の残響時間T60を設定したが、残響時間T60を所定の帯域毎に個別に設定することも可能である。係数特定部44は、各帯域の残響時間T60に応じた移動平均係数(平滑化係数α,平均個数M)を帯域毎に個別に設定する。以上の構成では、抑圧効果指標δが最大となる残響時間T60と移動平均係数との近似的な相関関係(近似線L)を帯域毎に個別に用意した構成が好適である。 (6) In each embodiment described above, has been set a common reverberation time T 60 over the entire frequency, it is possible to individually set the reverberation time T 60 for each predetermined band. The coefficient specifying unit 44 individually sets a moving average coefficient (smoothing coefficient α, average number M) corresponding to the reverberation time T 60 of each band for each band. In the above configuration, a configuration in which an approximate correlation (approximate line L) between the reverberation time T 60 at which the suppression effect index δ is maximum and the moving average coefficient is individually prepared for each band is preferable.

(7)前述の各形態では音響処理装置100を単体の装置として例示したが、音響処理装置100の一部の機能を、音響処理装置100と通信可能な外部装置(例えばウェブサーバ)に分担させることも可能である。例えば、外部装置は、音響処理装置100からの要求に応じて残響時間T60を算定するとともに残響時間T60に応じた移動平均係数(平滑化係数α,平均個数M)を特定して音響処理装置100に通知する。音響処理装置100では、係数特定部44が外部装置から移動平均係数を取得し、移動平均係数を適用した移動平均で強度平均部46が平均スペクトルPX(k)を算定する。したがって、変数設定部42は音響処理装置100から省略される。 (7) In each of the above embodiments, the sound processing apparatus 100 is exemplified as a single apparatus. However, a part of the functions of the sound processing apparatus 100 is shared with an external device (for example, a web server) that can communicate with the sound processing apparatus 100. It is also possible. For example, the external device calculates the reverberation time T 60 in response to a request from the sound processing device 100 and specifies the moving average coefficient (smoothing coefficient α, average number M) according to the reverberation time T 60 to perform acoustic processing. Notify the device 100. In the sound processing apparatus 100, the coefficient specifying unit 44 obtains a moving average coefficient from an external device, and the intensity average unit 46 calculates an average spectrum P X (k) based on the moving average to which the moving average coefficient is applied. Therefore, the variable setting unit 42 is omitted from the sound processing apparatus 100.

外部装置が残響時間T60を特定する方法は任意である。例えば、利用者が指定した音響空間の音響特性(例えば平均吸音率や空間サイズや発音源および受聴点の位置)を音響処理装置100から外部装置に通知し、外部装置が鏡像法等の公知の残響評価技術で音響空間の音響特性から残響時間T60を算定する構成が採用される。また、測定用信号に応じた音響の放音時に収録された音響信号を音響処理装置100から外部装置に送信し、外部装置が音響信号から残響時間T60を算定することも可能である。以上の説明から理解されるように、係数特定部44は、残響時間T60に応じた移動平均係数(平滑化係数αや平均個数M)を特定する要素として包括され、移動平均係数の算定を係数特定部44が実行するか外部装置が算定した移動平均係数を係数特定部44が取得するかは不問である。 How external device to specify reverberation time T 60 is arbitrary. For example, the acoustic characteristics of the acoustic space designated by the user (for example, the average sound absorption coefficient, spatial size, sound source, and listening point position) are notified from the acoustic processing device 100 to the external device, and the external device is a known method such as a mirror image method. The reverberation evaluation technique employs a configuration for calculating the reverberation time T 60 from the acoustic characteristics of the acoustic space. It is also possible to transmit an acoustic signal recorded at the time of sound emission according to the measurement signal from the acoustic processing device 100 to the external device, and the external device calculates the reverberation time T 60 from the acoustic signal. As understood from the above description, the coefficient specifying unit 44 is included as an element for specifying the moving average coefficient (smoothing coefficient α and average number M) according to the reverberation time T 60 , and calculates the moving average coefficient. It does not matter whether the coefficient specifying unit 44 executes the coefficient specifying unit 44 or acquires the moving average coefficient calculated by the external device.

(8)前述の各形態では、解析処理部34と残響調整部36とを具備する音響処理装置100を例示したが、調整値G(k,m)を算定する調整値算定装置としても本発明は特定され得る。調整値算定装置は、前述の各形態における解析処理部34を含んで構成され、残響調整部36の有無は不問である。調整値算定装置が算定した調整値G(k,m)が、残響調整部36を具備する音響処理装置に提供されて音響信号x(n)の残響抑圧処理に適用される。 (8) In each of the above-described embodiments, the acoustic processing device 100 including the analysis processing unit 34 and the reverberation adjustment unit 36 has been exemplified. However, the present invention can be applied to an adjustment value calculation device that calculates the adjustment value G (k, m). Can be specified. The adjustment value calculation device is configured to include the analysis processing unit 34 in each of the above-described embodiments, and the presence or absence of the reverberation adjustment unit 36 is not questioned. The adjustment value G (k, m) calculated by the adjustment value calculation device is provided to the acoustic processing device including the reverberation adjustment unit 36 and applied to the reverberation suppression processing of the acoustic signal x (n).

(9)音響空間内での反射や散乱に起因した狭義の残響成分に加えて、例えば楽器の演奏音等の響き成分(共鳴成分)も残響成分に含意され得る。具体的には、ピアノ等の鍵盤楽器の響板による共鳴成分やバイオリン等の弦楽器の共鳴成分(胴鳴り,箱鳴り)の調整にも、前述の各形態と同様に本発明を適用することが可能である。すなわち、本発明の残響成分は、経時的に減衰する成分(減衰成分)を意味する。 (9) In addition to a reverberant component in a narrow sense caused by reflection or scattering in an acoustic space, a reverberant component (resonance component) such as a musical performance of a musical instrument can be implied by the reverberant component. Specifically, the present invention can also be applied to the adjustment of the resonance component (bottle sound, box sound) of a stringed instrument such as a violin or the like by the sound board of a keyboard instrument such as a piano as in the above-described embodiments. Is possible. That is, the reverberation component of the present invention means a component that attenuates with time (attenuation component).

100……音響処理装置、12……信号供給装置、14……放音装置、22……演算処理装置、24……記憶装置、32……周波数分析部、34……解析処理部、36……残響調整部、38……波形合成部、42……変数設定部、44……係数特定部、46……強度平均部、48……調整値算定部、200……解析装置、72……演算処理装置、74……記憶装置、76……相関解析部。
DESCRIPTION OF SYMBOLS 100 ... Acoustic processing device, 12 ... Signal supply device, 14 ... Sound emission device, 22 ... Arithmetic processing device, 24 ... Memory | storage device, 32 ... Frequency analysis part, 34 ... Analysis processing part, 36 ... ... reverberation adjustment part, 38 ... waveform synthesis part, 42 ... variable setting part, 44 ... coefficient specifying part, 46 ... intensity average part, 48 ... adjustment value calculation part, 200 ... analysis device, 72 ... Arithmetic processing device, 74... Storage device, 76.

Claims (5)

残響時間に応じた移動平均係数を特定する係数特定手段と、
前記係数特定手段が特定した移動平均係数を適用した音響信号の強度の移動平均で平均強度を算定する強度平均手段と、
前記音響信号の残響成分を調整するための調整値を前記平均強度に応じて算定する調整値算定手段と、
前記調整値算定手段が算定した調整値を前記音響信号に作用させる残響調整手段と
を具備する音響処理装置。
Coefficient specifying means for specifying a moving average coefficient according to the reverberation time;
Intensity average means for calculating an average intensity by a moving average of the intensity of the acoustic signal applied with the moving average coefficient specified by the coefficient specifying means;
Adjustment value calculation means for calculating an adjustment value for adjusting the reverberation component of the acoustic signal according to the average intensity;
Reverberation adjusting means for causing the adjustment value calculated by the adjustment value calculating means to act on the acoustic signal.
前記調整値算定手段は、前記平均強度と比較して高い追従性で前記音響信号の強度に追従する強度指標の、前記平均強度に対する比に応じて前記調整値を算定する
請求項1の音響処理装置。
2. The acoustic processing according to claim 1, wherein the adjustment value calculation unit calculates the adjustment value according to a ratio of an intensity index that follows the intensity of the acoustic signal with higher followability than the average intensity to the average intensity. apparatus.
前記調整値算定手段は、前記平均強度と比較して高い追従性で前記音響信号の強度に追従する強度指標の、前記平均強度に対する比と、前記残響時間に応じた補正係数とに応じて前記調整値を算定する
請求項2の音響処理装置。
The adjustment value calculation means is based on the ratio of the intensity index that follows the intensity of the acoustic signal with high followability compared to the average intensity to the average intensity and the correction coefficient corresponding to the reverberation time. The sound processing apparatus according to claim 2, wherein the adjustment value is calculated.
前記係数特定手段は、前記残響時間が長いほど小さい数値となる平滑化係数を前記移動平均係数として特定し、
前記強度平均手段は、音響信号の最新の強度に対して前記平滑化係数を適用した前記音響信号の強度の指数移動平均を前記平均強度として算定する
請求項2または請求項3の音響処理装置。
The coefficient specifying means specifies a smoothing coefficient that becomes a smaller numerical value as the reverberation time is longer as the moving average coefficient,
The sound processing apparatus according to claim 2 or 3, wherein the intensity averaging means calculates an exponential moving average of the intensity of the acoustic signal obtained by applying the smoothing coefficient to the latest intensity of the acoustic signal as the average intensity.
前記調整値算定手段は、前記音響信号の残響成分を抑圧するための調整値を算定し、
前記係数特定手段は、前記残響成分の抑圧前の音響信号の目的音残響比と前記調整値を適用した抑圧後の音響信号の目的音残響比との差分が最大になるという条件のもとで近似的に選定された関係を充足するように、前記残響時間に対応する移動平均係数を特定する
請求項1から請求項4の何れかの音響処理装置。
The adjustment value calculation means calculates an adjustment value for suppressing a reverberation component of the acoustic signal,
The coefficient specifying unit is configured on the condition that the difference between the target sound reverberation ratio of the acoustic signal before suppression of the reverberation component and the target sound reverberation ratio of the acoustic signal after suppression applied with the adjustment value is maximized. The sound processing apparatus according to claim 1, wherein a moving average coefficient corresponding to the reverberation time is specified so as to satisfy an approximately selected relationship.
JP2012198329A 2012-09-10 2012-09-10 Sound processing device Pending JP2014052585A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012198329A JP2014052585A (en) 2012-09-10 2012-09-10 Sound processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012198329A JP2014052585A (en) 2012-09-10 2012-09-10 Sound processing device

Publications (1)

Publication Number Publication Date
JP2014052585A true JP2014052585A (en) 2014-03-20

Family

ID=50611094

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012198329A Pending JP2014052585A (en) 2012-09-10 2012-09-10 Sound processing device

Country Status (1)

Country Link
JP (1) JP2014052585A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117434153A (en) * 2023-12-20 2024-01-23 吉林蛟河抽水蓄能有限公司 Road nondestructive testing method and system based on ultrasonic technology

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117434153A (en) * 2023-12-20 2024-01-23 吉林蛟河抽水蓄能有限公司 Road nondestructive testing method and system based on ultrasonic technology
CN117434153B (en) * 2023-12-20 2024-03-05 吉林蛟河抽水蓄能有限公司 Road nondestructive testing method and system based on ultrasonic technology

Similar Documents

Publication Publication Date Title
JP5641186B2 (en) Noise suppression device and program
RU2595636C2 (en) System and method for audio signal generation
JP6177253B2 (en) Harmonicity-based single channel speech quality assessment
JP5018193B2 (en) Noise suppression device and program
JP2013130857A (en) Sound processing device
CA2847689A1 (en) System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
JP2003337594A (en) Voice recognition device, its voice recognition method and program
JP2015519614A (en) Single channel speech dereverberation method and apparatus
JP5187666B2 (en) Noise suppression device and program
Habets Single-channel speech dereverberation based on spectral subtraction
JP5034735B2 (en) Sound processing apparatus and program
JP5152799B2 (en) Noise suppression device and program
JP5942388B2 (en) Noise suppression coefficient setting device, noise suppression device, and noise suppression coefficient setting method
JP5609157B2 (en) Coefficient setting device and noise suppression device
JP5152800B2 (en) Noise suppression evaluation apparatus and program
JP6171558B2 (en) Sound processor
JP2014052585A (en) Sound processing device
JP4533126B2 (en) Proximity sound separation / collection method, proximity sound separation / collection device, proximity sound separation / collection program, recording medium
JP6299279B2 (en) Sound processing apparatus and sound processing method
JP2015169901A (en) Acoustic processing device
JP5772723B2 (en) Acoustic processing apparatus and separation mask generating apparatus
JP5884473B2 (en) Sound processing apparatus and sound processing method
JP6036141B2 (en) Sound processor
JP6191238B2 (en) Sound processing apparatus and sound processing method
JP2013182161A (en) Acoustic processing device and program

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410